一種高精度說話人確認方法

文檔序號：2829130閱讀：385來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種高精度說話人確認方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種高精度的文本無關(guān)說話人確認方法，屬于生物識別技術(shù)領(lǐng)域；從技術(shù)實現(xiàn)的角度來講，亦屬于計算機科學(xué)與語音處理技術(shù)領(lǐng)域。
背景技術(shù)：
說話人確認(Speaker Verification)技術(shù)是利用每個說話人的語音信號特點，從一段語音中提取說話人信息，進而確認某段語音是否是指定的某個人所說的，系統(tǒng)只給出“接受”或“拒絕”兩種選擇，是“一對一”的模式識別問題。說話人確認技術(shù)與說話人辨認技術(shù)同屬說話人識別(Speaker Recognition, SR)的范疇，而與說話人辨認技術(shù)不同，說話人確認技術(shù)對于準(zhǔn)確率、識別時間的要求更為嚴格，近年來，電話自動接聽系統(tǒng)、計算機身份認證系統(tǒng)、高密級門禁系統(tǒng)等應(yīng)用平臺對這項技術(shù)的應(yīng)用需求越來強。按照說話內(nèi)容的類型不同，說話人確認可以分為文本有關(guān)(Text-dependent)和文本無關(guān)(Text-1ndependent)兩大類。與文本有關(guān)的說話人確認系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音，每個人的識別模型逐個被精確地建立，而識別時也必須按規(guī)定的內(nèi)容發(fā)音；文本無關(guān)的識別系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容，模型建立相對困難，可應(yīng)用范圍較寬。有些情況下，人們無法(或者不希望)強迫說話人朗讀一段特定的文字，在這些應(yīng)用場景中，文本無關(guān)的說話人確認方法就顯得格外重要。本無關(guān)的說話人確認的基本技術(shù)可分為語音采集，特征提取，分類方法三個層次，其中關(guān)鍵問題在于特征提取與分類方法。特征提取方面，目前的主流方法多采用基于底層聲學(xué)原理的梅爾倒譜系數(shù)(MFCC)或線性預(yù)測倒譜系數(shù)(Linear Predictive Coding Cepstrum, LPCC)作為特征參數(shù)。分類方法方面，主流方法有動態(tài)時間規(guī)整(DTW)、矢量量化(VQ)、隱馬爾可夫模型(HMM)、高斯混合模型(GMM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支撐向量機(SVM)等。目前廣泛受到研究的是高斯混合模型(GMM)方法以及支撐向量機(SVM)方法。上述方法中，GMM-UBM模型已經(jīng)得到廣泛應(yīng)用，在更早的系統(tǒng)中，矢量量化也是一項獲得了廣泛研究的重要的技術(shù)?；谏鲜龇椒?，文本無關(guān)的說話人確認技術(shù)已經(jīng)在一些場合得到實際應(yīng)用。然而，當(dāng)待確認的人數(shù)不斷增加時，上述方法的準(zhǔn)確率會明顯下降，當(dāng)人數(shù)增加到一定規(guī)模時，將難以滿足實際應(yīng)用的需求，這是文本無關(guān)說話人確認技術(shù)需要解決的一個重要問題。

發(fā)明內(nèi)容
本發(fā)明的目標(biāo)是:提出一種大規(guī)模說話人確認方法，能在獲得高準(zhǔn)確率的同時兼顧高運算速度的要求。具體實施方法上，本發(fā)明從特征提取和分類方法兩個層次分別提出新的方法，提高特征的區(qū)分度，提升說話人分類器的速度與準(zhǔn)確率。本發(fā)明的設(shè)計原理為:在特征提取層次，提出2D_Haar音頻特征提取方法，引入一定的時序關(guān)系信息，并將音頻特征空間擴展至數(shù)十萬維，為確認算法提供更加龐大的特征空間；在說話人分類器層次，提出Turbo-Boost算法,在龐大的2D-Haar特征空間中篩選具有代表性的特征組合，用于構(gòu)建目標(biāo)說話人的確認分類器。在相同的時間內(nèi)，本發(fā)明可以將既有的識別準(zhǔn)確率進一步提升，以滿足說話人確認應(yīng)用中快速、準(zhǔn)確的技術(shù)要求。本發(fā)明的技術(shù)方案是通過如下步驟實現(xiàn)的:步驟1，獲取待確認說話人(即目標(biāo)說話人)的語音信號，形成基礎(chǔ)語音庫S。具體方法為:把麥克風(fēng)與計算機連接，獲取目標(biāo)說話人的語音信號，并以音頻文件的形式存儲在計算機內(nèi)，每個目標(biāo)說話人對應(yīng)一個音頻文件，形成基礎(chǔ)語音庫S=Is1, S2,S3,..., sk},其中k為目標(biāo)說話人的總數(shù)。步驟2，對基礎(chǔ)語音庫S中的語音進行音頻特征積分圖計算，形成基礎(chǔ)特征庫R。具體過程如下:步驟2.1，對于第k個目標(biāo)說話人，對其音頻文件Sk進行分幀處理(幀長fs、幀移Afs由用戶設(shè)定)，并提取各幀的基礎(chǔ)音頻特征(如MFCC、LPCC、子帶能量等)，將各幀的基礎(chǔ)音頻特征組合，形成一個包含C巾貞、每巾貞P維特征量的基礎(chǔ)特征文件Vk。Vk中每一幀的特征向量的內(nèi)容為:{[基礎(chǔ)特征I (P1維)]，[基礎(chǔ)特征2 (p2維)]，…，[基礎(chǔ)特征n (pj|0]}.
以上描述中，對于一個時長為t的音頻文件Sk:C= f 'P = Zp11.Js _Δ/δ j I步驟2.2，對于第k個目標(biāo)說話人的基礎(chǔ)特征文件vk，采用滑窗的方式，以a為窗長、s為步進，將所有的c幀音頻特征向量轉(zhuǎn)換成音頻特征圖序列文件Gk (參見圖2)。GkHg1, g2, g3,…gj,其中，Μ= 步驟2.3，在步驟 2.2的基礎(chǔ)上，計算對于第k個目標(biāo)說話人的特征圖序列文件Gk中每幅特征圖gu的特征積分圖ru，形成該說話人的特征積分圖序列文件Rk=Ir1, r2, r3,…rj，將基礎(chǔ)語音庫S中所有k個目標(biāo)說話人的特征積分圖序列文件集中起來，形成基礎(chǔ)特征庫 R=IR1, R2,..., Rk1.
易知，基礎(chǔ)特征庫中所有說話人的特征積分圖總數(shù)m的計算公式為:
kZh /
m= lk=[[ff^/ {a's)所述的特征積分圖與原始特征圖尺寸相同，其上任意一點(x，y)的值被定義為原圖對應(yīng)點(X’，1，)及其左上方所有的特征值之和。定義式如下:,取.V)=ZiW),
x%<x,y%<y式中ii(x，y)表示積分圖上點(x, y)的取值，i(x'，y')表示原始特征圖上點(X’，I，)的特征值。步驟3，在基礎(chǔ)特征庫R的基礎(chǔ)上，生成每個目標(biāo)說話人的訓(xùn)練特征文件集B。具體過程如下:步驟3.1，對基礎(chǔ)特征庫R中的特征文件進行標(biāo)注，具體方法為:
使用連續(xù)的整數(shù)編號作為說話人標(biāo)簽，代表不同的目標(biāo)說話人，以便計算機處理。最終的標(biāo)記形式為R，=KR1,1), (R2,2)，...(Rk,k)},其中，Y={1, 2，...，k}是目標(biāo)說話人標(biāo)簽集，k為目標(biāo)說話人數(shù)目；步驟3.2，在步驟3.1的基礎(chǔ)上，為每個目標(biāo)說話人建立用于說話人注冊的特征文件集B，具體方法為:在標(biāo)記好說話人標(biāo)簽的特征庫R’中，進行k輪整理，在每輪整理工作中，首先將第k個目標(biāo)說話人的音頻特征文件rk作為正樣本，保留其說話人標(biāo)簽k ;然后將其余的說話人音頻特征文件作為負樣本，并將它們的說話人標(biāo)簽更改為“other”;最后將上述k個音頻特征文件存儲到單獨的文件夾中，并將該特征文件夾命名為Bk，即:B1= {(R1,1), (R2, other),...(Rk, other)},B2= {(R1, other), (R2, 2)，…(Rk, other)}，......
Bk= {(R1, other), (R2, other),...(Rk, k)}k輪整理工作之后，最終形成由k個特征文件夾構(gòu)成的特征文件集B= {B1; B2,…，Bj。

步驟4，在步驟3的基礎(chǔ)上，提取2D_Haar音頻特征，并進行說話人注冊，也就是依次遍歷特征文件集B中的k個文件夾，并使用其中的訓(xùn)練特征文件為每個目標(biāo)說話人訓(xùn)練出單獨的“I對余”分類器，最終得到由k個說話人分類器構(gòu)成的分類器池。對于第k個目標(biāo)說話人，其對應(yīng)的分類器Wk的訓(xùn)練過程如下:步驟4.1，對步驟3.2所形成的特征文件夾Bk中的所有特征積分圖序列文件Rk的每幅積分圖進行2D-Haar音頻特征提取。具體方法為:根據(jù)各個積分圖計算相對應(yīng)的H維2D_Haar音頻特征值(其中H由采用的2D-Haar音頻特征類型以及積分圖的尺寸決定)，得到用于說話人分類器訓(xùn)練的數(shù)據(jù)集合S=Kx1, Ii),…，(xm, IiM。其中,Xi表示第i個積分圖所對應(yīng)的全部H維2D-Haar音頻特征向量，Ii e Y，(Y={1，2，…，k})表示第i個積分圖所對應(yīng)的說話人標(biāo)簽。所述的H維2D_Haar音頻特征值,每維2D_Haar音頻特征的取值是原始音頻特征圖上，任意尺寸、位置的方形區(qū)域中，使用某一特定矩形區(qū)域的特征值之和減去另一個特定矩形區(qū)域的特征值之和，可通過積分圖快速計算獲得。將每幅積分圖相應(yīng)的H維2D_Haar音頻特征向量記作一行,使特征文件夾Bk中所有m幅積分圖的全部H維2D-Haar音頻特征向量構(gòu)成一個m行、H列的特征矩陣X。步驟4.2,使用Turbo-Boost方法對步驟4.1得到的2D_Haar音頻特征矩陣X進行特征篩選和分類器訓(xùn)練，得到說話人分類器。所述的Turbo-Boost方法包括兩輪迭代過程:第I輪進行F輪迭代，從H維2D-Haar音頻特征值集合中選擇F維主要特征以完成特征篩選，得到新的F維特征子空間；第2輪進行T輪迭代，在新的F維特征子空間中訓(xùn)練得到T個弱分類器(T>F)，將其組成強分類器。上述迭代運算中所使用的弱分類器，需滿足以下條件:1.弱分類器的輸入是單維特征值(即特征向量中的某一特定維，或特征矩陣X中的某一列)；2.針對待確認的說話人標(biāo)簽Ii，弱分類器的輸出是I或-1。Turbo-Boost的具體訓(xùn)練過程為:
步驟4.2.1,初始化每幅積分圖對應(yīng)的權(quán)重，記作D1 (i, Ii) =1/(mk), i=l...m, Ii e Y。步驟4.2.2，依次將特征矩陣X的各列數(shù)據(jù)(即所有積分圖的H組同維特征)作為一個弱分類器的輸入，進行H輪運算，按照下式計算 .。的值:
權(quán)利要求
1.一種高精度說話人確認方法，其特征在于，所述方法包括以下步驟: 步驟1，獲取待確認說話人(即目標(biāo)說話人)的語音信號，形成基礎(chǔ)語音庫S。
步驟2，對基礎(chǔ)語音庫S中的語音進行音頻特征積分圖計算，形成基礎(chǔ)特征庫R。
步驟3，在基礎(chǔ)特征庫R的基礎(chǔ)上，生成每個目標(biāo)說話人的訓(xùn)練特征文件集B。
步驟4，在步驟3的基礎(chǔ)上，提取2D-Haar音頻特征，并進行說話人注冊，也就是依次遍歷特征文件集B中的k個文件夾，并使用其中的訓(xùn)練特征文件為每個目標(biāo)說話人訓(xùn)練出單獨的“I對余”分類器，最終得到由k個說話人分類器構(gòu)成的分類器池。
步驟5，對用戶提供的、申明是說話人k發(fā)聲錄制的語音文件，提取其2D-Haar音頻特征，輸入步驟4訓(xùn)練得到的說話人k的分類器，以確認該文件中的語音是否確實由用戶所申明的說話人講出。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取待確認說話人的語音信號并不要求說話人按照特征模板中預(yù)置文本內(nèi)容進行發(fā)音。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述音頻特征積分圖計算的步驟具體包括: 步驟I，對于第k個目標(biāo)說話人，對其音頻文件Sk進行分幀處理(幀長fs、幀移Afs由用戶設(shè)定)，并提取各幀的基礎(chǔ)音頻特征(如MFCC、LPCC、子帶能量等，具體使用哪些特征，由用戶指定)，將各幀的基礎(chǔ)音頻特征組合，形成一個包含c幀、每幀P維特征量的基礎(chǔ)特征文件vk。
vk中每一幀的特征向量的內(nèi)容為:{[基礎(chǔ)特征I (P1維)]，[基礎(chǔ)特征2 (p2維)]，…，[基礎(chǔ)特征n (Pn維)]}.步驟2，對于第k個目標(biāo)說話人的基礎(chǔ)特征文件vk，采用滑窗的方式，以a為窗長、s為步進，將所有的c幀音頻特征向量轉(zhuǎn)換成音頻特征圖序列文件Gk。 Gk= {gi, g2, g3.“.gJ.步驟3，在步驟2的基礎(chǔ)上，計算對于第k個目標(biāo)說話人的特征圖序列文件Gk中每幅特征圖gu的特征積分圖ru，形成該說話人的特征積分圖序列文件Rk=Ir1, r2, r3,…ru}，將基礎(chǔ)語音庫S中所有k個目標(biāo)說話人的特征積分圖序列文件集中起來，形成基礎(chǔ)特征庫R={R1;R2,...，Rk}.所述的特征積分圖與原始特征圖尺寸相同，其上任意一點(x，y)的值被定義為原圖對應(yīng)點(X’，1，)及其左上方所有的特征值之和。定義式如下:"(X’J；)= [/(λ-,，>’’)，式中ii(x，y)表示積分圖上點(x，y)的取值，i(x'，y')表示原始特征圖上點(X’，I，)的特征值。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述提取2D-Haar音頻特征的計算方法為: 每維2D-Haar音頻特征的取值都是原始音頻特征圖上，任意尺寸、位置的方形區(qū)域中，使用某一特定矩形區(qū)域的特征值之和減去另一個特定矩形區(qū)域的特征值之和，可通過積分圖快速計算獲得。其總維數(shù)H由采用的2D-Haar音頻特征類型以及積分圖的尺寸決定將每幅積分圖相應(yīng)的H維2D-Haar音頻特征向量記作一行,使特征文件夾Bk中所有m幅積分圖的全部H維2D-Haar音頻特征向量構(gòu)成一個m行、H列的特征矩陣X。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述由k個說話人分類器構(gòu)成的分類器池，需通過k輪訓(xùn)練得到，每輪訓(xùn)練都要包括兩輪迭代過程第I輪進行F輪迭代，從H維2D-Haar音頻特征值集合中選擇F維主要特征以完成特征篩選,得到新的F維特征子空間；第2輪進行T輪迭代，在新的F維特征子空間中訓(xùn)練得到T個弱分類器(T>F)，將其組成強分類器。
具體方法為: 步驟1，初始化每幅積分圖對應(yīng)的權(quán)重，記作D1Q, Ii) =1/(mk), i=l…m, Ii e Y。
步驟2，依次將特征矩陣X的各列數(shù)據(jù)(即所有積分圖的H組同維特征)作為一個弱分類器的輸入，進行H輪運算，按照下式計算ry的值:
6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述迭代運算中所使用的弱分類器，需滿足以下條件:1.弱分類器的輸入是單維特征值(即特征向量中的某一特定維，或特征矩陣X中的某一列)；2.針對待確認的說話人標(biāo)簽Ii，弱分類器的輸出是I或-1。
7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述說話人確認的步驟為:步驟1，對確認語音文件進行音頻特征積分圖提取，得到待確認音頻特征積分圖序列G'={g' pg' 2，g' 3，…g' u，}，《’=[iJ，具體方法及參數(shù)取值與權(quán)利要求3所述相同。
步驟2，在步驟I的基礎(chǔ)上，為特征圖序列中的每幅特征圖提取2D-Haar音頻特征，構(gòu)成2D-Haar音頻特征矩陣V，具體方法與權(quán)利要求4所述相同。
步驟3，從說話人分類器池中找到申明說話人k的說話人分類器\，再把步驟2得到的2D-Haar音頻特征矩陣V輸入Wk，得到分類結(jié)果序列R。步驟4，對步驟3得到的分類結(jié)果序列進行結(jié)果綜合，得到最終的說話人確認結(jié)果。
8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述分類結(jié)果序列R由u’個元素組成，其中每個元素的具體計算方法為: 步驟I，按照權(quán)利要求5中的(I)式，讀取說話人分類器中某個弱分類器ht (x, I)及其相應(yīng)2D-Haar音頻特征(x)；步驟2,對于每種待選標(biāo)簽Ii e {k, other},分別計算該弱分類器的輸出ht( fj (x), I)，并將該輸出值以分類器中的權(quán)重a t累加到待選標(biāo)簽Ii對應(yīng)的加權(quán)值Sli中；步驟3，按照步驟1-步驟2的方法進行T輪循環(huán)之后，每種待選標(biāo)簽Ii將得到一個加權(quán)值Sli。選出取值最大的一個加權(quán)值Sli，同時記錄與其相對應(yīng)的待選標(biāo)簽Ii作為該音頻特征圖的分類結(jié)果，記作(Ii,高2., |)，其中Ik為說話人標(biāo)簽，為相應(yīng)的強分類器加權(quán)和。步驟4，將待確認音頻的所有分類結(jié)果組合起來，構(gòu)成分類結(jié)果序列
9.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述7結(jié)果綜合的計算方法為: 步驟1，統(tǒng)計結(jié)果序列中所有的強分類器判別權(quán)重Si,,按說話人標(biāo)簽Ii加權(quán)，即分別求
全文摘要
本發(fā)明涉及一種基于文本無關(guān)說話人確認方法。本發(fā)明提出了Turbo-Boost分類算法與2D-Haar音頻特征的相結(jié)合的說話人確認方法，首先使用基礎(chǔ)音頻特征構(gòu)成音頻特征圖；進而利用音頻特征圖提取2D-Haar音頻特征，再使用Turbo-Boost算法，通過兩輪迭代運算分別完成對2D-Haar音頻特征的篩選和說話人分類器的訓(xùn)練；最終使用訓(xùn)練好的說話人分類器實現(xiàn)說話人確認。與現(xiàn)有技術(shù)相比，本發(fā)明可以在同樣的運算消耗下獲得更高的準(zhǔn)確率，特別適合對于運算速度和說話人確認精度有著嚴格要求的說話人確認場合，例如電話自動接聽系統(tǒng)、計算機身份認證系統(tǒng)、高密級門禁系統(tǒng)等。
文檔編號G10L17/02GK103198833SQ201310075089
公開日2013年7月10日申請日期2013年3月8日優(yōu)先權(quán)日2013年3月8日
發(fā)明者羅森林, 謝爾曼, 潘麗敏申請人:北京理工大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅森林;謝爾曼;潘麗敏
技術(shù)所有人：北京理工大學(xué)
我是此專利的發(fā)明人

上一篇：基于雙重加密的dwt—dct域音頻公開水印算法的制作方法
上一篇：一種會議音頻中的精彩說話人發(fā)現(xiàn)方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

高精度地面施工方法相關(guān)技術(shù)

說話人確認相關(guān)技術(shù)

說話人識別模型與方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種高精度說話人確認方法