一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法
【專利摘要】本發(fā)明公開了一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,包括:線譜頻率參數(shù)變換步驟:將語(yǔ)音線性編碼預(yù)測(cè)模型的線譜頻率參數(shù)通過(guò)線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值;非線性去相關(guān)步驟:根據(jù)線譜頻率參數(shù)差值的統(tǒng)計(jì)特性,采用結(jié)構(gòu)化的方法,通過(guò)非線性變換將線譜頻率參數(shù)差值去相關(guān);計(jì)算邊際概率分布步驟:利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計(jì)特性,計(jì)算其邊緣概率密度分布;標(biāo)量量化器設(shè)計(jì)步驟:根據(jù)得到的邊緣概率密度分布函數(shù),設(shè)計(jì)基于概率密度函數(shù)的優(yōu)化量化器。本發(fā)明所述語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,可以克服現(xiàn)有技術(shù)中時(shí)間復(fù)雜度高和使用效果差等缺陷,以實(shí)現(xiàn)時(shí)間復(fù)雜度低和使用效果好的優(yōu)點(diǎn)。
【專利說(shuō)明】一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音編碼【技術(shù)領(lǐng)域】,具體地,涉及一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的深入發(fā)展,語(yǔ)音通信技術(shù)得到了長(zhǎng)足的進(jìn)步,傳輸?shù)恼Z(yǔ)音信號(hào)已經(jīng)由窄帶信號(hào)傳播演進(jìn)到了寬帶信號(hào)傳播。伴隨著多媒體應(yīng)用的不斷開發(fā)與推廣,人們對(duì)于在語(yǔ)音通信技術(shù)中語(yǔ)音傳輸質(zhì)量和實(shí)時(shí)性的要求越來(lái)越高,因此,研究高效可靠的語(yǔ)音通信算法,具有迫切的社會(huì)需求。
[0003]語(yǔ)音通信中要解決的首要問(wèn)題是語(yǔ)音的編碼。經(jīng)過(guò)數(shù)十年的發(fā)展,語(yǔ)音編碼技術(shù)大致可以分為三種方式:波形編碼技術(shù)、基于參數(shù)模型的編碼技術(shù)和混合編碼技術(shù)。波形編碼技術(shù)針對(duì)語(yǔ)音波形直接進(jìn)行量化和傳輸,不基于聲學(xué)模型?;趨?shù)模型的編碼技術(shù)將語(yǔ)音通過(guò)線性預(yù)測(cè)模型分析后,分別傳輸線性預(yù)測(cè)模型,邊信息和語(yǔ)音能量信息。混合編碼技術(shù)是上述兩者的結(jié)合。一般來(lái)說(shuō),基于參數(shù)模型的編碼技術(shù)是應(yīng)用較為廣泛,性能比較可靠的一類編碼技術(shù),其核心在于如何有效可靠的傳輸線性預(yù)測(cè)模型,即如何實(shí)現(xiàn)模型的有效量化和編碼。
[0004]線性預(yù)測(cè)編碼技術(shù)是語(yǔ)音編碼處理中的核心技術(shù)。在語(yǔ)音線性預(yù)測(cè)編碼模型的研究中,線譜頻率參數(shù)是使用較多的一種表示方式,原因在于其頻譜敏感區(qū)域的分布較為平均,即量化誤差對(duì)于每一個(gè)頻段的影響基本一樣。早期的線譜頻率參數(shù)量化研究集中在基于數(shù)據(jù)的量化器設(shè)計(jì)上,即獲取大量的線譜頻率參數(shù)并通過(guò)Lloyd-Max算法實(shí)現(xiàn)矢量量化器。由于數(shù)據(jù)量有限,此矢量量化器存在嚴(yán)重的過(guò)擬合問(wèn)題。此外,由于矢量量化器的訓(xùn)練時(shí)間和量化中心匹配時(shí)間隨著量化級(jí)數(shù)的增加呈指數(shù)增長(zhǎng),在高速率傳輸?shù)臅r(shí)候,時(shí)間開銷較大,復(fù)雜度較高。近年來(lái),基于概率密度分布的優(yōu)化量化吸引了學(xué)術(shù)界和工業(yè)界的大量關(guān)注,其原因在于這種方法可以在獲得線譜頻率參數(shù)概率密度分布函數(shù)的基礎(chǔ)上計(jì)算出量化器的量化中心,從而避免了由于數(shù)據(jù)量有限帶來(lái)的過(guò)擬合問(wèn)題和訓(xùn)練時(shí)間過(guò)長(zhǎng)的問(wèn)題。此外,通過(guò)統(tǒng)計(jì)模型,可以將線譜頻率參數(shù)之間的相關(guān)性去除,得到一組互相獨(dú)立的參數(shù)。在去除記憶優(yōu)勢(shì)的基礎(chǔ)上,標(biāo)量量化器可以取代矢量量化其,使得量化中心匹配時(shí)間進(jìn)一步縮短。
[0005]然而,傳統(tǒng)的基于概率密度分布的優(yōu)化量化方法主要基于高斯統(tǒng)計(jì)模型構(gòu)建,無(wú)法很好的描述線譜頻率參數(shù)的有界、有序的特性。針對(duì)這一問(wèn)題,有學(xué)者提出了有界的高斯混合模型來(lái)描述線譜頻率參數(shù)的上述特性,雖然取得了一些量化性能上的提高,卻帶來(lái)了時(shí)間復(fù)雜度太高的負(fù)面影響,總體效果不盡如人意。
[0006]在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在時(shí)間復(fù)雜度高和使用效
果差等缺陷。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于,針對(duì)上述問(wèn)題,提出一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,以實(shí)現(xiàn)時(shí)間復(fù)雜度低和使用效果好的優(yōu)點(diǎn)。[0008]為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,包括:
a、線譜頻率參數(shù)變換步驟:將語(yǔ)音線性編碼預(yù)測(cè)模型的線譜頻率參數(shù)通過(guò)線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值;
b、非線性去相關(guān)步驟:根據(jù)線譜頻率參數(shù)差值的統(tǒng)計(jì)特性,采用結(jié)構(gòu)化的方法,通過(guò)非線性變換將線譜頻率參數(shù)差值去相關(guān);
C、計(jì)算邊際概率分布步驟:利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計(jì)特性,計(jì)算其邊緣概率密度分布;
d、標(biāo)量量化器設(shè)計(jì)步驟:根據(jù)得到的邊緣概率密度分布函數(shù),設(shè)計(jì)基于概率密度函數(shù)的優(yōu)化量化器。
[0009]進(jìn)一步地,在步驟a之前,還包括:
線性預(yù)測(cè)模型的線譜頻率參數(shù)提取步驟:將線性預(yù)測(cè)模型通過(guò)Chebyshev多項(xiàng)式求根法轉(zhuǎn)化為線譜頻率參數(shù)。
[0010]進(jìn)一步地,在步驟d之后,還包括:
優(yōu)化的順序量化步驟:對(duì)變換后的參數(shù)實(shí)現(xiàn)優(yōu)化的順序量化方式,達(dá)到控制差錯(cuò)傳播的目的。
[0011]進(jìn)一步地,所述對(duì)變換后的參數(shù)實(shí)現(xiàn)優(yōu)化的順序量化方式的操作,具體包括: 將步驟a中描述的去相關(guān)過(guò)程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)
合,形成優(yōu)化的順序量化方法,實(shí)現(xiàn)有效的差錯(cuò)控制。
[0012]進(jìn)一步地,所述將步驟a中描述的去相關(guān)過(guò)程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)合,形成優(yōu)化的順序量化方法,實(shí)現(xiàn)有效的差錯(cuò)控制的操作,具體包括:
1)輸入:
a)K + j維線譜頻率參數(shù)差值向量S = [A ^ ,.,^ SM };
b)如步驟5得到的針對(duì)每一個(gè)的標(biāo)量量化器;
2)初始化:
a)計(jì)數(shù)器I = I ;
3)執(zhí)行£次循環(huán),其中第I步循環(huán)操作:
a)當(dāng)! = I時(shí):
1.取出向量§中的第一個(gè)元素將其通過(guò)步驟5中描述的標(biāo)量量化器量化,得到元素為放入向量文中;
b)當(dāng)! f I時(shí):1.取出向量中的第一個(gè)元素將
【權(quán)利要求】
1.一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,其特征在于,包括: a、線譜頻率參數(shù)變換步驟:將語(yǔ)音線性編碼預(yù)測(cè)模型的線譜頻率參數(shù)通過(guò)線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值; b、非線性去相關(guān)步驟:根據(jù)線譜頻率參數(shù)差值的統(tǒng)計(jì)特性,采用結(jié)構(gòu)化的方法,通過(guò)非線性變換將線譜頻率參數(shù)差值去相關(guān); C、計(jì)算邊際概率分布步驟:利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計(jì)特性,計(jì)算其邊緣概率密度分布; d、標(biāo)量量化器設(shè)計(jì)步驟:根據(jù)得到的邊緣概率密度分布函數(shù),設(shè)計(jì)基于概率密度函數(shù)的優(yōu)化量化器。
2.根據(jù)權(quán)利要求1所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,其特征在于,在步驟a之前,還包括: 線性預(yù)測(cè)模型的線譜頻率參數(shù)提取步驟:將線性預(yù)測(cè)模型通過(guò)Chebyshev多項(xiàng)式求根法轉(zhuǎn)化為線譜頻率參數(shù)。
3.根據(jù)權(quán)利要求1或2所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,其特征在于,在步驟d之后,還包括: 優(yōu)化的順序量化步驟:對(duì)變換后的參數(shù)實(shí)現(xiàn)優(yōu)化的順序量化方式,達(dá)到控制差錯(cuò)傳播的目的。
4.根據(jù)權(quán)利要求3所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,其特征在于,所述對(duì)變換后的參數(shù)實(shí)現(xiàn)優(yōu)化的順序量化方式的操作,具體包括: 將步驟a中描述的去相關(guān)過(guò)程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)合,形成優(yōu)化的順序量化方法,實(shí)現(xiàn)有效的差錯(cuò)控制。
5.根據(jù)權(quán)利要求4所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,其特征在于,所述將步驟a中描述的去相關(guān)過(guò)程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)合,形成優(yōu)化的順序量化方法,實(shí)現(xiàn)有效的差錯(cuò)控制的操作,具體包括: .1)輸入: a)11維線譜頻率參數(shù)差值向星S”..,丨尤+1 ]; b)如步驟5得到的針對(duì)每一個(gè)的標(biāo)量量化器; .2)初始化: a)計(jì)數(shù)器?=1; b)z 維目標(biāo)向量i=[n..為]=[o,o,"”o]; .3)執(zhí)行次循環(huán),其中第i步循環(huán)操作: a)當(dāng)? Z= I時(shí): .1.取出向量g中的第一個(gè)元素將其通過(guò)步驟5中描述的標(biāo)量量化器量化,得到元素4放入向量t中; b)當(dāng)I客I時(shí):i.取出向量中的第一個(gè)元素^ ,將:
6.根據(jù)權(quán)利要求1或2所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,其特征在于,在步驟a中,所述將語(yǔ)音線性編碼預(yù)測(cè)模型的線譜頻率參數(shù)通過(guò)線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值的操作,具體包括: 利用線譜頻率參數(shù)的有序特性和有界特性,將其變換為線性譜參數(shù)差值,此差值的特征為:有序特性分布在(?λ?)開區(qū)間內(nèi),有序特性加和為I; 所述利用線譜頻率參數(shù)的有序特性和有界特性,將其變換為線性譜參數(shù)差值的操作,具體包括: 1)f維線譜頻率參數(shù)表示為
7.根據(jù)權(quán)利要求1或2所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,其特征在于,在步驟b中,所述根據(jù)線譜頻率參數(shù)差值的統(tǒng)計(jì)特性,采用結(jié)構(gòu)化的方法,通過(guò)非線性變換將線譜頻率參數(shù)差值去相關(guān)的操作,具體包括: 利用線譜頻率參數(shù)差值的統(tǒng)計(jì)特性,假設(shè)其為中性向量;采用結(jié)構(gòu)化的方法,通過(guò)歸一化一取首元素的循環(huán)運(yùn)算,將線譜頻率參數(shù)差值之間的相關(guān)性去除,使參數(shù)之間統(tǒng)計(jì)上相互獨(dú)立。
8.根據(jù)權(quán)利要求1或2所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,其特征在于,所述采用結(jié)構(gòu)化的方法,通過(guò)歸一化一取首元素的循環(huán)運(yùn)算,將線譜頻率參數(shù)差值之間的相關(guān)性去除,使參數(shù)之間統(tǒng)計(jì)上相互獨(dú)立的操作,具體包括: O輸入: a) K+1維線譜頻率參數(shù)差值向量
9.根據(jù)權(quán)利要求1或2所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,其特征在于,在步驟c中,所述利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計(jì)特性,計(jì)算其邊緣概率密度分布的操作,具體包括: . 1)由步驟c得到的去相關(guān)后的線譜頻率參數(shù)差值是有界的;根據(jù)此去相關(guān)后的線譜頻率參數(shù)差值,針對(duì)每一個(gè)元素JT1, j =H,.訓(xùn)練基于貝塔分布的貝塔混合模型; .2)假設(shè)A服從單一貝塔分布,計(jì)算此貝塔分布,使得其與上述步驟I)中根據(jù)得到的
I貝塔混合模型之間的相對(duì)熵最小。
10.根據(jù)權(quán)利要求1或2所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法,其特征在于,在步驟d中,所述根據(jù)得到的邊緣概率密度分布函數(shù),設(shè)計(jì)基于概率密度函數(shù)的優(yōu)化量化器的操作,具體包括: 采用標(biāo)量量化的模式取代矢量量化,針對(duì)每一維參數(shù)設(shè)計(jì)基于貝塔分布的量化器;根據(jù)得到的概率密度分布函數(shù)計(jì)算出量化中心和量化區(qū)域,實(shí)現(xiàn)最優(yōu)的標(biāo)量量化器。
【文檔編號(hào)】G10L19/035GK103632673SQ201310538591
【公開日】2014年3月12日 申請(qǐng)日期:2013年11月5日 優(yōu)先權(quán)日:2013年11月5日
【發(fā)明者】馬占宇, 肖波, 司中威, 郭軍 申請(qǐng)人:無(wú)錫北郵感知技術(shù)產(chǎn)業(yè)研究院有限公司