亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于小波包變換的聲紋特征提取算法的制作方法

文檔序號(hào):11459425閱讀:748來(lái)源:國(guó)知局
一種基于小波包變換的聲紋特征提取算法的制造方法與工藝

本發(fā)明涉及語(yǔ)音特征參數(shù)提取和識(shí)別領(lǐng)域,具體是一種利用小波包的變換將聲紋特征進(jìn)行提取的設(shè)計(jì)系統(tǒng)。



背景技術(shù):

在生物學(xué)和信息科學(xué)高度發(fā)展的今天,生物認(rèn)證技術(shù)作為一種便捷、先進(jìn)的信息安全技術(shù)開(kāi)始在全球電子商務(wù)時(shí)代嶄露頭角;這是一種根據(jù)人自身的生理特征如:指紋、手形、臉部、虹膜、視網(wǎng)膜、氣味等和行為特征:聲音、簽名、擊鍵方式等來(lái)識(shí)別身份的技術(shù);它是集光學(xué)、傳感技術(shù)、紅外掃描和計(jì)算機(jī)技術(shù)于一身的第三代身份驗(yàn)證技術(shù),能滿(mǎn)足現(xiàn)代社會(huì)對(duì)于身份鑒別的準(zhǔn)確性、安全性與實(shí)用性的更高要求;在生物認(rèn)證技術(shù)中,說(shuō)話(huà)人識(shí)別技術(shù)以其獨(dú)特的方便性、經(jīng)濟(jì)性、和準(zhǔn)確性受到世人矚目,并日益成為人們?nèi)粘I詈凸ぷ髦兄匾移占暗陌踩?yàn)證方式。

在眾多的生物技術(shù)中,說(shuō)話(huà)人識(shí)別技術(shù)表現(xiàn)出很多應(yīng)用上的優(yōu)勢(shì);首先,說(shuō)話(huà)人識(shí)別技術(shù)有著天然的優(yōu)點(diǎn):以聲音作為識(shí)別特征,因其不接觸性和自然性,用戶(hù)很容易接受,不存在心理上的障礙;在說(shuō)話(huà)人識(shí)別過(guò)程中,用戶(hù)不用刻意的去將手指放在傳感器上,或者把眼睛靠上攝像頭,只需隨意的說(shuō)幾句話(huà)即可完成識(shí)別;其次,說(shuō)話(huà)人識(shí)別所用的設(shè)備成本低廉;如:輸入設(shè)備麥克風(fēng)、電話(huà)送話(huà)機(jī)等沒(méi)有特征別的要求;聲音采樣與量化對(duì)芯片的要求也很低;特征提取、模型訓(xùn)練和匹配只需普通的計(jì)算機(jī)即可;另外,現(xiàn)在的電子設(shè)備很多都是集麥克風(fēng),計(jì)算機(jī)為一體,所以識(shí)別系統(tǒng)所需的硬件成本會(huì)很低。

語(yǔ)音特征提取方面:從1963年到1973年的十年間,研究人員先后采用帶通濾波器組、基因頻率、倒譜特征、共振峰、線(xiàn)性預(yù)測(cè)系數(shù)、語(yǔ)音對(duì)數(shù)域比例、時(shí)域音栓配合法的語(yǔ)音響度、mel頻率倒譜系數(shù)、小波變換系數(shù)、mel頻率倒譜系數(shù)與pca混合參數(shù)、mel頻率倒譜系數(shù)與delta混合參數(shù)等特征參數(shù)進(jìn)行說(shuō)話(huà)人識(shí)別;1974年,阿爾塔通過(guò)對(duì)線(xiàn)性預(yù)測(cè)系數(shù)、自相關(guān)系數(shù)、聲道的沖激響應(yīng)和面積函數(shù)以及倒譜系數(shù)的比較,得出在當(dāng)時(shí)實(shí)驗(yàn)條件下倒譜系數(shù)的識(shí)別效果最好的結(jié)論,從七十年代末起,研究人員對(duì)識(shí)別方法和匹配度等方面展開(kāi)了深入研究。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明要解決的技術(shù)問(wèn)題是提出一種語(yǔ)音特征參數(shù)提取的算法,具有良好的魯棒性和低復(fù)雜度,且識(shí)別出的結(jié)果很好。

一種基于小波包的變換將聲紋特征進(jìn)行提取的算法,具體步驟:

(1)、將采樣頻率為8000hz的一幀語(yǔ)音信號(hào)x(n)進(jìn)行5層小波包分解,但只取其中的17個(gè)節(jié)點(diǎn),17個(gè)節(jié)點(diǎn)分別為(5,i),i=1,2,3,4,5,6,7,12,13,(3,j),j=4,5,6,7,(4,k),k=4,5,7,(i,j)代表第i層第j+1節(jié)點(diǎn)處的小波包系數(shù),取這17個(gè)節(jié)點(diǎn)處的小波包系數(shù)的原則是根據(jù)語(yǔ)音的頻譜能量集中區(qū)間劃分;

(2)、計(jì)算一幀語(yǔ)音信號(hào)所取各節(jié)點(diǎn)處的小波包系數(shù),分別為:

wpcn=[cb,m(0),cb,m(1),…,cb,m(k)](1)

式(1)中wpcn表示在節(jié)點(diǎn)(b,m)節(jié)點(diǎn)下的小波包系數(shù),k表示在節(jié)點(diǎn)(b,m)下的小波包系數(shù)維數(shù)(或長(zhǎng)度),n為第幾個(gè)小波包系數(shù),且n=1,2,3,…,17;當(dāng)b=3時(shí),m=4,5,6,7;k=257,n=1,2,3,4。當(dāng)b=4時(shí),m=4,5,7;k=133;n=5,6,7。當(dāng)b=5時(shí),m=1,2,3,4,5,6,7,12,13;k=66;n=8到17;

(3)、對(duì)第二步所求出的各小波包系數(shù)進(jìn)行求能量之和,公式為:

en=∑[wpcn2(1),wpcn2(2),…,wpcn2(k)](2)

式中n=1,2,3,…,17;

(4)、第三步得到的en進(jìn)行取對(duì)數(shù),得:

q(n)=log(en)(3)

(5)、求一幀語(yǔ)音的dwpt參數(shù):

dwpt=dct[q(0),q(1),…,q(n)](4)

本發(fā)明與現(xiàn)有的聲紋提取技術(shù)相比,采用了最近幾年研究最火的小波變換,將時(shí)間序列的語(yǔ)音信息進(jìn)行高頻和低頻信息的5層分解,在通過(guò)對(duì)分解的具體節(jié)點(diǎn)處的語(yǔ)音信息進(jìn)行能量求和,取對(duì)數(shù)計(jì)算,形成聲紋特征提取的算法;該算法的優(yōu)勢(shì)在于小波包對(duì)語(yǔ)音信息分解的頻帶能很好的模擬人耳的聽(tīng)覺(jué)特性,提取出的特征在lbg-vq識(shí)別模型下識(shí)別效果很好。

附圖說(shuō)明

圖1為本發(fā)明的系統(tǒng)框圖;

圖2為本發(fā)明的識(shí)別框圖;

圖3為小波包分解的結(jié)構(gòu)和17處節(jié)點(diǎn)代表的頻帶帶寬圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例;基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍;

如圖2所示,該基于小波包變換的聲紋特征提取算法的識(shí)別系統(tǒng),主要分為以下幾部分:

語(yǔ)音信號(hào)的采集,預(yù)處理,dwpt特征參數(shù)提取,識(shí)別模型測(cè)試和訓(xùn)練,說(shuō)話(huà)人聲紋匹配;

基于小波包變換的聲紋特征提取的識(shí)別方法具體步驟如下:

1語(yǔ)音信號(hào)的采集:語(yǔ)音信號(hào)是由audacity軟件錄制,信號(hào)的采樣頻率為8000hz,單通道,16bit;

2語(yǔ)音信號(hào)的預(yù)處理:預(yù)加重,其加重權(quán)系數(shù)為0.96;分幀,256個(gè)采樣點(diǎn)為一幀,且?guī)茷?4個(gè)采樣點(diǎn);加窗,窗函數(shù)用的是漢明窗;端點(diǎn)檢測(cè),端點(diǎn)檢測(cè)利用的是頻帶方差法;

(1)加漢明窗

k為窗口長(zhǎng)度

(2)頻帶方差的端點(diǎn)檢測(cè)

設(shè)帶噪語(yǔ)音信號(hào)為x(n),然后經(jīng)過(guò)加窗分幀處理,得到第i幀語(yǔ)音信號(hào)為xi(m),對(duì)得到的該語(yǔ)音信號(hào)進(jìn)行fft變換,如下:

其中n為幀長(zhǎng),讓xi={xi(1),xi(1),…,xi(n)},為求第i幀的語(yǔ)音信號(hào)的頻帶方差,先求出第i幀語(yǔ)音信號(hào)的均值和方差di如下:

將上式中的求得的多幀前導(dǎo)無(wú)話(huà)語(yǔ)音信號(hào)的均值和方差di進(jìn)行取平均值,作為2個(gè)閾值,將此閾值取代雙門(mén)限語(yǔ)音端點(diǎn)檢測(cè)中的短時(shí)能量和短時(shí)過(guò)零率的閾值,便得到基于頻帶方差的端點(diǎn)檢測(cè)方法。

3如圖1所示的小波包變換的聲紋特征提取算法框圖,具體文字表述為:

(1)、將采樣頻率為8000hz的一幀語(yǔ)音信號(hào)x(n)進(jìn)行5層小波包分解,但只取其中的17個(gè)節(jié)點(diǎn),17個(gè)節(jié)點(diǎn)分別為(5,i),i=1,2,3,4,5,6,7,12,13,(3,j),j=4,5,6,7,(4,k),k=4,5,7,(i,j)代表第i層第j+1節(jié)點(diǎn)處的小波包系數(shù),取這17個(gè)節(jié)點(diǎn)處的小波包系數(shù)的原則是根據(jù)語(yǔ)音的頻譜能量集中區(qū)間劃分;

(2)、計(jì)算一幀語(yǔ)音信號(hào)所取各節(jié)點(diǎn)處的小波包系數(shù),分別為:

wpcn=[cb,m(0),cb,m(1),…,cb,m(k)](8)

式(1)中wpcn表示在節(jié)點(diǎn)(b,m)節(jié)點(diǎn)下的小波包系數(shù),k表示在節(jié)點(diǎn)(b,m)下的小波包系數(shù)維數(shù)(或長(zhǎng)度),n為第幾個(gè)小波包系數(shù),且n=1,2,3,…,17;當(dāng)b=3時(shí),m=4,5,6,7;k=257,n=1,2,3,4。當(dāng)b=4時(shí),m=4,5,7;k=133;n=5,6,7。當(dāng)b=5時(shí),m=1,2,3,4,5,6,7,12,13;k=66;n=8到17;

(3)、對(duì)第二步所求出的各小波包系數(shù)進(jìn)行求能量之和,公式為:

en=∑[wpcn2(1),wpcn2(2),…,wpcn2(k)](9)

式中n=1,2,3,…,17;

(4)、第三步得到的en進(jìn)行取對(duì)數(shù),得:

q(n)=log(en)(10)

(5)、求一幀語(yǔ)音的dwpt參數(shù):

dwpt=dct[q(0),q(1),…,q(n)](11)

4lbg-vq訓(xùn)練樣本

有m個(gè)語(yǔ)音信號(hào)訓(xùn)練樣本的訓(xùn)練序列t={x1,x2,x3,…xm},源矢量是k=17維的:xm=(xm,1,xm,2,…,xm,k)m=1,2…m;碼矢的數(shù)目是n=16,碼書(shū)表示為:c={c1,c2,…,cn};每一個(gè)碼矢是個(gè)k維向量cn=(xn,1,xn,2,…,xn,k)n=1,2…n:與碼矢cn對(duì)應(yīng)的編碼區(qū)域表示為sn,然后將空間的劃分表示為:

p={s1,s2,…,sn};如果源矢量xm在sn內(nèi),其近似是cn,即q(xm)=cn,如果xm屬于sn假設(shè)我們采用平均均方差失真度量,那么平均失測(cè)度表示如下:

其中||…||表示歐式距離。

lbg算法:

(1)確定測(cè)試集t和正數(shù)ξ,本發(fā)明為0.01;

(2)令n=1,將這一個(gè)碼矢設(shè)置為所有訓(xùn)練樣本的平均值:

總失真度為:

(3)進(jìn)行分裂算法:對(duì)i=1,2…n,其碼矢按照下式進(jìn)行分裂:

由上可知碼矢是按原碼矢的2倍增長(zhǎng);

(4)開(kāi)始迭代:初始失真測(cè)度確定為:dave(q)=dave*,其中q為迭代次數(shù)索引,初次令q=0;

1)對(duì)于訓(xùn)練集t中的每一個(gè)訓(xùn)練樣本m=1,2…m,在訓(xùn)練樣本和哪個(gè)碼矢距離最近所有碼矢中尋找的,即min||xm-cn(q)||2,令n*表示該最小值的標(biāo)記,用此碼矢來(lái)近似這個(gè)訓(xùn)練樣本:

2)更新碼矢:

n=1,2…n,也就是將所有屬于cn所在的編碼區(qū)域sn的訓(xùn)練樣本取平均作為這個(gè)編碼區(qū)域的新的碼矢。

3)迭代計(jì)數(shù)器加1:q=q+1.

4)計(jì)算在現(xiàn)階段的c和p基礎(chǔ)上的總失真度:

5)如果失真度相比上一次的失真度(相對(duì)失真改進(jìn)量)還大于可以接受的失真閾值ε,那么繼續(xù)迭代,返回步驟1),否則轉(zhuǎn)入6)步

6)最終失真度為對(duì)n=1,2…n,最終碼矢為:

(5)重復(fù)步驟(3)和(4)到n=16停止。

5說(shuō)話(huà)人識(shí)別

對(duì)說(shuō)話(huà)人語(yǔ)音樣本進(jìn)行步驟1-3步驟得到說(shuō)話(huà)人的聲紋特征,將其與步驟4所取得到的多個(gè)訓(xùn)練人語(yǔ)音信息得到的碼本進(jìn)行匹配,將匹配距離最小的作為識(shí)別結(jié)果,本發(fā)明采用的是歐氏距離的平均距離測(cè)度。

對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明;因此,無(wú)論從哪一點(diǎn)來(lái)看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說(shuō)明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi),不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求;

此外,應(yīng)當(dāng)理解,雖然本說(shuō)明書(shū)按照實(shí)施方式加以描述,但并非每個(gè)實(shí)施方式僅包含一個(gè)獨(dú)立的技術(shù)方案,說(shuō)明書(shū)的這種敘述方式僅僅是為清楚起見(jiàn),本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說(shuō)明書(shū)作為一個(gè)整體,各實(shí)施例中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實(shí)施方式。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1