一種基于小波包變換的聲紋特征提取算法的制作方法

文檔序號(hào)：11459425閱讀：748來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語(yǔ)音特征參數(shù)提取和識(shí)別領(lǐng)域，具體是一種利用小波包的變換將聲紋特征進(jìn)行提取的設(shè)計(jì)系統(tǒng)。

背景技術(shù)：

在生物學(xué)和信息科學(xué)高度發(fā)展的今天,生物認(rèn)證技術(shù)作為一種便捷、先進(jìn)的信息安全技術(shù)開(kāi)始在全球電子商務(wù)時(shí)代嶄露頭角；這是一種根據(jù)人自身的生理特征如：指紋、手形、臉部、虹膜、視網(wǎng)膜、氣味等和行為特征：聲音、簽名、擊鍵方式等來(lái)識(shí)別身份的技術(shù)；它是集光學(xué)、傳感技術(shù)、紅外掃描和計(jì)算機(jī)技術(shù)于一身的第三代身份驗(yàn)證技術(shù)，能滿(mǎn)足現(xiàn)代社會(huì)對(duì)于身份鑒別的準(zhǔn)確性、安全性與實(shí)用性的更高要求；在生物認(rèn)證技術(shù)中，說(shuō)話(huà)人識(shí)別技術(shù)以其獨(dú)特的方便性、經(jīng)濟(jì)性、和準(zhǔn)確性受到世人矚目，并日益成為人們?nèi)粘Ｉ詈凸ぷ髦兄匾移占暗陌踩?yàn)證方式。

在眾多的生物技術(shù)中，說(shuō)話(huà)人識(shí)別技術(shù)表現(xiàn)出很多應(yīng)用上的優(yōu)勢(shì)；首先，說(shuō)話(huà)人識(shí)別技術(shù)有著天然的優(yōu)點(diǎn)：以聲音作為識(shí)別特征，因其不接觸性和自然性，用戶(hù)很容易接受，不存在心理上的障礙；在說(shuō)話(huà)人識(shí)別過(guò)程中，用戶(hù)不用刻意的去將手指放在傳感器上，或者把眼睛靠上攝像頭，只需隨意的說(shuō)幾句話(huà)即可完成識(shí)別；其次，說(shuō)話(huà)人識(shí)別所用的設(shè)備成本低廉；如：輸入設(shè)備麥克風(fēng)、電話(huà)送話(huà)機(jī)等沒(méi)有特征別的要求；聲音采樣與量化對(duì)芯片的要求也很低；特征提取、模型訓(xùn)練和匹配只需普通的計(jì)算機(jī)即可；另外，現(xiàn)在的電子設(shè)備很多都是集麥克風(fēng)，計(jì)算機(jī)為一體，所以識(shí)別系統(tǒng)所需的硬件成本會(huì)很低。

語(yǔ)音特征提取方面：從1963年到1973年的十年間，研究人員先后采用帶通濾波器組、基因頻率、倒譜特征、共振峰、線(xiàn)性預(yù)測(cè)系數(shù)、語(yǔ)音對(duì)數(shù)域比例、時(shí)域音栓配合法的語(yǔ)音響度、mel頻率倒譜系數(shù)、小波變換系數(shù)、mel頻率倒譜系數(shù)與pca混合參數(shù)、mel頻率倒譜系數(shù)與delta混合參數(shù)等特征參數(shù)進(jìn)行說(shuō)話(huà)人識(shí)別；1974年，阿爾塔通過(guò)對(duì)線(xiàn)性預(yù)測(cè)系數(shù)、自相關(guān)系數(shù)、聲道的沖激響應(yīng)和面積函數(shù)以及倒譜系數(shù)的比較，得出在當(dāng)時(shí)實(shí)驗(yàn)條件下倒譜系數(shù)的識(shí)別效果最好的結(jié)論，從七十年代末起，研究人員對(duì)識(shí)別方法和匹配度等方面展開(kāi)了深入研究。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明要解決的技術(shù)問(wèn)題是提出一種語(yǔ)音特征參數(shù)提取的算法，具有良好的魯棒性和低復(fù)雜度，且識(shí)別出的結(jié)果很好。

一種基于小波包的變換將聲紋特征進(jìn)行提取的算法，具體步驟：

(1)、將采樣頻率為8000hz的一幀語(yǔ)音信號(hào)x(n)進(jìn)行5層小波包分解，但只取其中的17個(gè)節(jié)點(diǎn)，17個(gè)節(jié)點(diǎn)分別為(5,i),i＝1,2,3,4,5,6,7,12,13，(3,j),j＝4,5,6,7，(4,k),k＝4,5,7，(i,j)代表第i層第j+1節(jié)點(diǎn)處的小波包系數(shù)，取這17個(gè)節(jié)點(diǎn)處的小波包系數(shù)的原則是根據(jù)語(yǔ)音的頻譜能量集中區(qū)間劃分；

(2)、計(jì)算一幀語(yǔ)音信號(hào)所取各節(jié)點(diǎn)處的小波包系數(shù)，分別為：

wpcn＝[cb,m(0),cb,m(1),…,cb,m(k)](1)

式(1)中wpcn表示在節(jié)點(diǎn)(b，m)節(jié)點(diǎn)下的小波包系數(shù)，k表示在節(jié)點(diǎn)(b，m)下的小波包系數(shù)維數(shù)(或長(zhǎng)度)，n為第幾個(gè)小波包系數(shù)，且n＝1,2,3,…,17；當(dāng)b＝3時(shí)，m＝4,5,6,7；k＝257，n＝1,2,3,4。當(dāng)b＝4時(shí)，m＝4,5,7；k＝133；n＝5,6,7。當(dāng)b＝5時(shí)，m＝1,2,3,4,5,6,7,12,13；k＝66；n＝8到17；

(3)、對(duì)第二步所求出的各小波包系數(shù)進(jìn)行求能量之和，公式為：

en＝∑[wpcn²(1),wpcn²(2),…,wpcn²(k)](2)

式中n＝1,2,3,…,17；

(4)、第三步得到的en進(jìn)行取對(duì)數(shù)，得：

q(n)＝log(en)(3)

(5)、求一幀語(yǔ)音的dwpt參數(shù)：

dwpt＝dct[q(0),q(1),…,q(n)](4)

本發(fā)明與現(xiàn)有的聲紋提取技術(shù)相比，采用了最近幾年研究最火的小波變換，將時(shí)間序列的語(yǔ)音信息進(jìn)行高頻和低頻信息的5層分解，在通過(guò)對(duì)分解的具體節(jié)點(diǎn)處的語(yǔ)音信息進(jìn)行能量求和，取對(duì)數(shù)計(jì)算，形成聲紋特征提取的算法；該算法的優(yōu)勢(shì)在于小波包對(duì)語(yǔ)音信息分解的頻帶能很好的模擬人耳的聽(tīng)覺(jué)特性，提取出的特征在lbg-vq識(shí)別模型下識(shí)別效果很好。

附圖說(shuō)明

圖1為本發(fā)明的系統(tǒng)框圖；

圖2為本發(fā)明的識(shí)別框圖；

圖3為小波包分解的結(jié)構(gòu)和17處節(jié)點(diǎn)代表的頻帶帶寬圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例；基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍；

如圖2所示，該基于小波包變換的聲紋特征提取算法的識(shí)別系統(tǒng)，主要分為以下幾部分：

語(yǔ)音信號(hào)的采集，預(yù)處理，dwpt特征參數(shù)提取，識(shí)別模型測(cè)試和訓(xùn)練，說(shuō)話(huà)人聲紋匹配；

基于小波包變換的聲紋特征提取的識(shí)別方法具體步驟如下：

1語(yǔ)音信號(hào)的采集：語(yǔ)音信號(hào)是由audacity軟件錄制，信號(hào)的采樣頻率為8000hz，單通道，16bit；

2語(yǔ)音信號(hào)的預(yù)處理：預(yù)加重，其加重權(quán)系數(shù)為0.96；分幀，256個(gè)采樣點(diǎn)為一幀，且?guī)茷?4個(gè)采樣點(diǎn)；加窗，窗函數(shù)用的是漢明窗；端點(diǎn)檢測(cè)，端點(diǎn)檢測(cè)利用的是頻帶方差法；

(1)加漢明窗

k為窗口長(zhǎng)度

(2)頻帶方差的端點(diǎn)檢測(cè)

設(shè)帶噪語(yǔ)音信號(hào)為x(n)，然后經(jīng)過(guò)加窗分幀處理，得到第i幀語(yǔ)音信號(hào)為xi(m)，對(duì)得到的該語(yǔ)音信號(hào)進(jìn)行fft變換，如下：

其中n為幀長(zhǎng)，讓xi＝{xi(1),xi(1),…,xi(n)}，為求第i幀的語(yǔ)音信號(hào)的頻帶方差，先求出第i幀語(yǔ)音信號(hào)的均值和方差di如下：

將上式中的求得的多幀前導(dǎo)無(wú)話(huà)語(yǔ)音信號(hào)的均值和方差di進(jìn)行取平均值，作為2個(gè)閾值，將此閾值取代雙門(mén)限語(yǔ)音端點(diǎn)檢測(cè)中的短時(shí)能量和短時(shí)過(guò)零率的閾值，便得到基于頻帶方差的端點(diǎn)檢測(cè)方法。

3如圖1所示的小波包變換的聲紋特征提取算法框圖，具體文字表述為：

(2)、計(jì)算一幀語(yǔ)音信號(hào)所取各節(jié)點(diǎn)處的小波包系數(shù)，分別為：

wpcn＝[cb,m(0),cb,m(1),…,cb,m(k)](8)

(3)、對(duì)第二步所求出的各小波包系數(shù)進(jìn)行求能量之和，公式為：

en＝∑[wpcn²(1),wpcn²(2),…,wpcn²(k)](9)

式中n＝1,2,3,…,17；

(4)、第三步得到的en進(jìn)行取對(duì)數(shù)，得：

q(n)＝log(en)(10)

(5)、求一幀語(yǔ)音的dwpt參數(shù)：

dwpt＝dct[q(0),q(1),…,q(n)](11)

4lbg-vq訓(xùn)練樣本

有m個(gè)語(yǔ)音信號(hào)訓(xùn)練樣本的訓(xùn)練序列t＝{x1,x2,x3,…xm}，源矢量是k＝17維的：xm＝(xm,1,xm,2,…,xm,k)m＝1,2…m；碼矢的數(shù)目是n＝16，碼書(shū)表示為：c＝{c1,c2,…,cn}；每一個(gè)碼矢是個(gè)k維向量cn＝(xn,1,xn,2,…,xn,k)n＝1,2…n：與碼矢cn對(duì)應(yīng)的編碼區(qū)域表示為sn，然后將空間的劃分表示為：

p＝{s1,s2,…,sn}；如果源矢量xm在sn內(nèi)，其近似是cn，即q(xm)＝cn，如果xm屬于sn假設(shè)我們采用平均均方差失真度量，那么平均失測(cè)度表示如下：

其中||…||表示歐式距離。

lbg算法：

(1)確定測(cè)試集t和正數(shù)ξ，本發(fā)明為0.01；

(2)令n＝1，將這一個(gè)碼矢設(shè)置為所有訓(xùn)練樣本的平均值：

總失真度為：

(3)進(jìn)行分裂算法：對(duì)i＝1,2…n，其碼矢按照下式進(jìn)行分裂：

由上可知碼矢是按原碼矢的2倍增長(zhǎng)；

(4)開(kāi)始迭代：初始失真測(cè)度確定為：dave^(q)＝dave^*，其中q為迭代次數(shù)索引，初次令q＝0；

1)對(duì)于訓(xùn)練集t中的每一個(gè)訓(xùn)練樣本m＝1,2…m，在訓(xùn)練樣本和哪個(gè)碼矢距離最近所有碼矢中尋找的，即min||xm-cn^(q)||²，令n*表示該最小值的標(biāo)記，用此碼矢來(lái)近似這個(gè)訓(xùn)練樣本：

2)更新碼矢：

n＝1,2…n，也就是將所有屬于cn所在的編碼區(qū)域sn的訓(xùn)練樣本取平均作為這個(gè)編碼區(qū)域的新的碼矢。

3)迭代計(jì)數(shù)器加1：q＝q+1.

4)計(jì)算在現(xiàn)階段的c和p基礎(chǔ)上的總失真度：

5)如果失真度相比上一次的失真度(相對(duì)失真改進(jìn)量)還大于可以接受的失真閾值ε，那么繼續(xù)迭代，返回步驟1)，否則轉(zhuǎn)入6)步

6)最終失真度為對(duì)n＝1,2…n，最終碼矢為：

(5)重復(fù)步驟(3)和(4)到n＝16停止。

5說(shuō)話(huà)人識(shí)別

對(duì)說(shuō)話(huà)人語(yǔ)音樣本進(jìn)行步驟1-3步驟得到說(shuō)話(huà)人的聲紋特征，將其與步驟4所取得到的多個(gè)訓(xùn)練人語(yǔ)音信息得到的碼本進(jìn)行匹配，將匹配距離最小的作為識(shí)別結(jié)果，本發(fā)明采用的是歐氏距離的平均距離測(cè)度。

對(duì)于本領(lǐng)域技術(shù)人員而言，顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié)，而且在不背離本發(fā)明的精神或基本特征的情況下，能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明；因此，無(wú)論從哪一點(diǎn)來(lái)看，均應(yīng)將實(shí)施例看作是示范性的，而且是非限制性的，本發(fā)明的范圍由所附權(quán)利要求而不是上述說(shuō)明限定，因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)，不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求；

此外，應(yīng)當(dāng)理解，雖然本說(shuō)明書(shū)按照實(shí)施方式加以描述，但并非每個(gè)實(shí)施方式僅包含一個(gè)獨(dú)立的技術(shù)方案，說(shuō)明書(shū)的這種敘述方式僅僅是為清楚起見(jiàn)，本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說(shuō)明書(shū)作為一個(gè)整體，各實(shí)施例中的技術(shù)方案也可以經(jīng)適當(dāng)組合，形成本領(lǐng)域技術(shù)人員可以理解的其他實(shí)施方式。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃金杰;張厚振;賈海陽(yáng);潘曉真;張青春
技術(shù)所有人：哈爾濱理工大學(xué)
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

小波變換提取紋理特征相關(guān)技術(shù)

小波變換圖像特征提取相關(guān)技術(shù)

小波變換提取腦電特征相關(guān)技術(shù)

聲紋特征提取相關(guān)技術(shù)

小波變換特征相關(guān)技術(shù)

聲紋特征相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于小波包變換的聲紋特征提取算法的制作方法