一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法

文檔序號(hào)：2826392閱讀：569來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法
【專利摘要】本發(fā)明公開了一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，包括：線譜頻率參數(shù)變換步驟：將語(yǔ)音線性編碼預(yù)測(cè)模型的線譜頻率參數(shù)通過(guò)線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值；非線性去相關(guān)步驟：根據(jù)線譜頻率參數(shù)差值的統(tǒng)計(jì)特性，采用結(jié)構(gòu)化的方法，通過(guò)非線性變換將線譜頻率參數(shù)差值去相關(guān)；計(jì)算邊際概率分布步驟：利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計(jì)特性，計(jì)算其邊緣概率密度分布；標(biāo)量量化器設(shè)計(jì)步驟：根據(jù)得到的邊緣概率密度分布函數(shù)，設(shè)計(jì)基于概率密度函數(shù)的優(yōu)化量化器。本發(fā)明所述語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，可以克服現(xiàn)有技術(shù)中時(shí)間復(fù)雜度高和使用效果差等缺陷，以實(shí)現(xiàn)時(shí)間復(fù)雜度低和使用效果好的優(yōu)點(diǎn)。
【專利說(shuō)明】一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音編碼【技術(shù)領(lǐng)域】，具體地，涉及一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的深入發(fā)展，語(yǔ)音通信技術(shù)得到了長(zhǎng)足的進(jìn)步，傳輸?shù)恼Z(yǔ)音信號(hào)已經(jīng)由窄帶信號(hào)傳播演進(jìn)到了寬帶信號(hào)傳播。伴隨著多媒體應(yīng)用的不斷開發(fā)與推廣，人們對(duì)于在語(yǔ)音通信技術(shù)中語(yǔ)音傳輸質(zhì)量和實(shí)時(shí)性的要求越來(lái)越高，因此，研究高效可靠的語(yǔ)音通信算法，具有迫切的社會(huì)需求。
[0003]語(yǔ)音通信中要解決的首要問(wèn)題是語(yǔ)音的編碼。經(jīng)過(guò)數(shù)十年的發(fā)展，語(yǔ)音編碼技術(shù)大致可以分為三種方式:波形編碼技術(shù)、基于參數(shù)模型的編碼技術(shù)和混合編碼技術(shù)。波形編碼技術(shù)針對(duì)語(yǔ)音波形直接進(jìn)行量化和傳輸，不基于聲學(xué)模型?；趨?shù)模型的編碼技術(shù)將語(yǔ)音通過(guò)線性預(yù)測(cè)模型分析后，分別傳輸線性預(yù)測(cè)模型，邊信息和語(yǔ)音能量信息。混合編碼技術(shù)是上述兩者的結(jié)合。一般來(lái)說(shuō)，基于參數(shù)模型的編碼技術(shù)是應(yīng)用較為廣泛，性能比較可靠的一類編碼技術(shù)，其核心在于如何有效可靠的傳輸線性預(yù)測(cè)模型，即如何實(shí)現(xiàn)模型的有效量化和編碼。
[0004]線性預(yù)測(cè)編碼技術(shù)是語(yǔ)音編碼處理中的核心技術(shù)。在語(yǔ)音線性預(yù)測(cè)編碼模型的研究中，線譜頻率參數(shù)是使用較多的一種表示方式，原因在于其頻譜敏感區(qū)域的分布較為平均，即量化誤差對(duì)于每一個(gè)頻段的影響基本一樣。早期的線譜頻率參數(shù)量化研究集中在基于數(shù)據(jù)的量化器設(shè)計(jì)上，即獲取大量的線譜頻率參數(shù)并通過(guò)Lloyd-Max算法實(shí)現(xiàn)矢量量化器。由于數(shù)據(jù)量有限，此矢量量化器存在嚴(yán)重的過(guò)擬合問(wèn)題。此外，由于矢量量化器的訓(xùn)練時(shí)間和量化中心匹配時(shí)間隨著量化級(jí)數(shù)的增加呈指數(shù)增長(zhǎng)，在高速率傳輸?shù)臅r(shí)候，時(shí)間開銷較大，復(fù)雜度較高。近年來(lái)，基于概率密度分布的優(yōu)化量化吸引了學(xué)術(shù)界和工業(yè)界的大量關(guān)注，其原因在于這種方法可以在獲得線譜頻率參數(shù)概率密度分布函數(shù)的基礎(chǔ)上計(jì)算出量化器的量化中心，從而避免了由于數(shù)據(jù)量有限帶來(lái)的過(guò)擬合問(wèn)題和訓(xùn)練時(shí)間過(guò)長(zhǎng)的問(wèn)題。此外，通過(guò)統(tǒng)計(jì)模型，可以將線譜頻率參數(shù)之間的相關(guān)性去除，得到一組互相獨(dú)立的參數(shù)。在去除記憶優(yōu)勢(shì)的基礎(chǔ)上，標(biāo)量量化器可以取代矢量量化其，使得量化中心匹配時(shí)間進(jìn)一步縮短。
[0005]然而，傳統(tǒng)的基于概率密度分布的優(yōu)化量化方法主要基于高斯統(tǒng)計(jì)模型構(gòu)建，無(wú)法很好的描述線譜頻率參數(shù)的有界、有序的特性。針對(duì)這一問(wèn)題，有學(xué)者提出了有界的高斯混合模型來(lái)描述線譜頻率參數(shù)的上述特性，雖然取得了一些量化性能上的提高，卻帶來(lái)了時(shí)間復(fù)雜度太高的負(fù)面影響，總體效果不盡如人意。
[0006]在實(shí)現(xiàn)本發(fā)明的過(guò)程中，發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在時(shí)間復(fù)雜度高和使用效
果差等缺陷。

【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于，針對(duì)上述問(wèn)題，提出一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，以實(shí)現(xiàn)時(shí)間復(fù)雜度低和使用效果好的優(yōu)點(diǎn)。[0008]為實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案是:一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，包括:
a、線譜頻率參數(shù)變換步驟:將語(yǔ)音線性編碼預(yù)測(cè)模型的線譜頻率參數(shù)通過(guò)線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值；
b、非線性去相關(guān)步驟:根據(jù)線譜頻率參數(shù)差值的統(tǒng)計(jì)特性，采用結(jié)構(gòu)化的方法，通過(guò)非線性變換將線譜頻率參數(shù)差值去相關(guān)；
C、計(jì)算邊際概率分布步驟:利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計(jì)特性，計(jì)算其邊緣概率密度分布；
d、標(biāo)量量化器設(shè)計(jì)步驟:根據(jù)得到的邊緣概率密度分布函數(shù)，設(shè)計(jì)基于概率密度函數(shù)的優(yōu)化量化器。
[0009]進(jìn)一步地,在步驟a之前,還包括:
線性預(yù)測(cè)模型的線譜頻率參數(shù)提取步驟:將線性預(yù)測(cè)模型通過(guò)Chebyshev多項(xiàng)式求根法轉(zhuǎn)化為線譜頻率參數(shù)。
[0010]進(jìn)一步地，在步驟d之后，還包括:
優(yōu)化的順序量化步驟:對(duì)變換后的參數(shù)實(shí)現(xiàn)優(yōu)化的順序量化方式，達(dá)到控制差錯(cuò)傳播的目的。
[0011]進(jìn)一步地，所述對(duì)變換后的參數(shù)實(shí)現(xiàn)優(yōu)化的順序量化方式的操作，具體包括: 將步驟a中描述的去相關(guān)過(guò)程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)
合，形成優(yōu)化的順序量化方法，實(shí)現(xiàn)有效的差錯(cuò)控制。
[0012]進(jìn)一步地，所述將步驟a中描述的去相關(guān)過(guò)程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)合，形成優(yōu)化的順序量化方法，實(shí)現(xiàn)有效的差錯(cuò)控制的操作，具體包括:
1)輸入:
a)K + j維線譜頻率參數(shù)差值向量S = [A ^ ，.，^ SM }；
b)如步驟5得到的針對(duì)每一個(gè)的標(biāo)量量化器；
2)初始化:
a)計(jì)數(shù)器I = I ；
3)執(zhí)行￡次循環(huán)，其中第I步循環(huán)操作:
a)當(dāng)! = I時(shí):
1.取出向量§中的第一個(gè)元素將其通過(guò)步驟5中描述的標(biāo)量量化器量化，得到元素為放入向量文中；
b)當(dāng)！ f I時(shí):1.取出向量中的第一個(gè)元素將
【權(quán)利要求】
1.一種語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，其特征在于，包括: a、線譜頻率參數(shù)變換步驟:將語(yǔ)音線性編碼預(yù)測(cè)模型的線譜頻率參數(shù)通過(guò)線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值； b、非線性去相關(guān)步驟:根據(jù)線譜頻率參數(shù)差值的統(tǒng)計(jì)特性，采用結(jié)構(gòu)化的方法，通過(guò)非線性變換將線譜頻率參數(shù)差值去相關(guān)； C、計(jì)算邊際概率分布步驟:利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計(jì)特性，計(jì)算其邊緣概率密度分布； d、標(biāo)量量化器設(shè)計(jì)步驟:根據(jù)得到的邊緣概率密度分布函數(shù)，設(shè)計(jì)基于概率密度函數(shù)的優(yōu)化量化器。
2.根據(jù)權(quán)利要求1所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，其特征在于，在步驟a之前，還包括: 線性預(yù)測(cè)模型的線譜頻率參數(shù)提取步驟:將線性預(yù)測(cè)模型通過(guò)Chebyshev多項(xiàng)式求根法轉(zhuǎn)化為線譜頻率參數(shù)。
3.根據(jù)權(quán)利要求1或2所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，其特征在于，在步驟d之后,還包括: 優(yōu)化的順序量化步驟:對(duì)變換后的參數(shù)實(shí)現(xiàn)優(yōu)化的順序量化方式，達(dá)到控制差錯(cuò)傳播的目的。
4.根據(jù)權(quán)利要求3所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，其特征在于，所述對(duì)變換后的參數(shù)實(shí)現(xiàn)優(yōu)化的順序量化方式的操作，具體包括: 將步驟a中描述的去相關(guān)過(guò)程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)合，形成優(yōu)化的順序量化方法，實(shí)現(xiàn)有效的差錯(cuò)控制。
5.根據(jù)權(quán)利要求4所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，其特征在于，所述將步驟a中描述的去相關(guān)過(guò)程和步驟d中描述的基于概率密度函數(shù)的標(biāo)量量化器相結(jié)合，形成優(yōu)化的順序量化方法，實(shí)現(xiàn)有效的差錯(cuò)控制的操作，具體包括: .1)輸入: a)11維線譜頻率參數(shù)差值向星S”..，丨尤+1 ]; b)如步驟5得到的針對(duì)每一個(gè)的標(biāo)量量化器； .2)初始化: a)計(jì)數(shù)器?=1; b)z 維目標(biāo)向量i=[n..為]=[o，o,"”o]; .3)執(zhí)行次循環(huán)，其中第i步循環(huán)操作: a)當(dāng)? Z= I時(shí): .1.取出向量g中的第一個(gè)元素將其通過(guò)步驟5中描述的標(biāo)量量化器量化，得到元素4放入向量t中； b)當(dāng)I客I時(shí):i.取出向量中的第一個(gè)元素^ ,將:
6.根據(jù)權(quán)利要求1或2所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，其特征在于，在步驟a中，所述將語(yǔ)音線性編碼預(yù)測(cè)模型的線譜頻率參數(shù)通過(guò)線性變換轉(zhuǎn)化為線譜頻率參數(shù)差值的操作，具體包括: 利用線譜頻率參數(shù)的有序特性和有界特性，將其變換為線性譜參數(shù)差值，此差值的特征為:有序特性分布在(?λ?)開區(qū)間內(nèi)，有序特性加和為I; 所述利用線譜頻率參數(shù)的有序特性和有界特性，將其變換為線性譜參數(shù)差值的操作，具體包括: 1)f維線譜頻率參數(shù)表示為
7.根據(jù)權(quán)利要求1或2所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，其特征在于，在步驟b中，所述根據(jù)線譜頻率參數(shù)差值的統(tǒng)計(jì)特性，采用結(jié)構(gòu)化的方法，通過(guò)非線性變換將線譜頻率參數(shù)差值去相關(guān)的操作，具體包括: 利用線譜頻率參數(shù)差值的統(tǒng)計(jì)特性，假設(shè)其為中性向量；采用結(jié)構(gòu)化的方法，通過(guò)歸一化一取首元素的循環(huán)運(yùn)算，將線譜頻率參數(shù)差值之間的相關(guān)性去除，使參數(shù)之間統(tǒng)計(jì)上相互獨(dú)立。
8.根據(jù)權(quán)利要求1或2所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，其特征在于，所述采用結(jié)構(gòu)化的方法，通過(guò)歸一化一取首元素的循環(huán)運(yùn)算，將線譜頻率參數(shù)差值之間的相關(guān)性去除，使參數(shù)之間統(tǒng)計(jì)上相互獨(dú)立的操作，具體包括: O輸入: a) K+1維線譜頻率參數(shù)差值向量
9.根據(jù)權(quán)利要求1或2所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，其特征在于，在步驟c中，所述利用去相關(guān)的線譜頻率參數(shù)差值的統(tǒng)計(jì)特性，計(jì)算其邊緣概率密度分布的操作，具體包括: . 1)由步驟c得到的去相關(guān)后的線譜頻率參數(shù)差值是有界的；根據(jù)此去相關(guān)后的線譜頻率參數(shù)差值，針對(duì)每一個(gè)元素JT1, j =H,.訓(xùn)練基于貝塔分布的貝塔混合模型； .2)假設(shè)A服從單一貝塔分布，計(jì)算此貝塔分布，使得其與上述步驟I)中根據(jù)得到的
I貝塔混合模型之間的相對(duì)熵最小。
10.根據(jù)權(quán)利要求1或2所述的語(yǔ)音線性預(yù)測(cè)模型的非線性量化方法，其特征在于，在步驟d中，所述根據(jù)得到的邊緣概率密度分布函數(shù)，設(shè)計(jì)基于概率密度函數(shù)的優(yōu)化量化器的操作，具體包括: 采用標(biāo)量量化的模式取代矢量量化，針對(duì)每一維參數(shù)設(shè)計(jì)基于貝塔分布的量化器；根據(jù)得到的概率密度分布函數(shù)計(jì)算出量化中心和量化區(qū)域，實(shí)現(xiàn)最優(yōu)的標(biāo)量量化器。
【文檔編號(hào)】G10L19/035GK103632673SQ201310538591
【公開日】2014年3月12日申請(qǐng)日期:2013年11月5日優(yōu)先權(quán)日:2013年11月5日
【發(fā)明者】馬占宇, 肖波, 司中威, 郭軍申請(qǐng)人:無(wú)錫北郵感知技術(shù)產(chǎn)業(yè)研究院有限公司

完整全部詳細(xì)技術(shù)資料下載