一種集內(nèi)說話者的識別方法

文檔序號：2832064閱讀：584來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種集內(nèi)說話者的識別方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音識別技術(shù)，具體涉及一種說話人識別技術(shù)和說話人拒識方法。具體是一種在文本無關(guān)說話人識別過程中減少說話人誤識并提高識別速度的方法。
背景技術(shù)：
說話人識別是利用包含在說話人語音波形中特有的個體信息，根據(jù)說話人所發(fā)的語音，自動識別說話人身份的過程。說話人識別按照對說話內(nèi)容的要求不同可以分為文本無關(guān)，文本有關(guān)和文本提示三種。文本無關(guān)是用戶在系統(tǒng)注冊時不要求特定的語言和內(nèi)容，而且驗證和注冊時也不需要相同內(nèi)容的語音，文本相關(guān)則要求驗證語料與注冊時提供的語料內(nèi)容相一致，文本提示中用戶按照系統(tǒng)指定的內(nèi)容進(jìn)行。文本無關(guān)的說話人識別由于其安全性和靈活性更加受人們重視，應(yīng)用也更為廣泛，目前的無本無關(guān)說話人識別系統(tǒng) 主要是利用說話人的訓(xùn)練語音訓(xùn)練得到一個描述其語音特征分布的高斯混合模型，用輸入語音在各個話者模型上的得分來判別說話人。但是真實的環(huán)境中存在大量集外說話人，目前主要是通過比較輸入語音在說話人模型上的最高得分是否大于閾值的方式來判斷輸入語音是來自集內(nèi)還是集外，這種方法對集內(nèi)外語音的區(qū)分能力不夠，會產(chǎn)生大量的誤識。誤識的多少嚴(yán)重影響說話人識別系統(tǒng)的實用性，因此需要研究減少說話人誤識的方法，也就是集外話者的拒識方法。

發(fā)明內(nèi)容
為了克服現(xiàn)有的文本無關(guān)說話人識別技術(shù)中，誤識較多的問題，本發(fā)明提供一種集內(nèi)說話者的識別方法。
本發(fā)明的一種集內(nèi)說話者的識別方法的過程為
步驟A:對語音信號進(jìn)行特征提取，獲得特征信息，然后同時執(zhí)行步驟 B和步驟C;
步驟B:采用集外易誤識模型對步驟A獲得的特征信息進(jìn)行打分，獲得分?jǐn)?shù)q，然后執(zhí)行步驟D;步驟C:采用集內(nèi)模型對步驟A獲得的特征信息進(jìn)行打分，獲得分?jǐn)?shù)p，然后執(zhí)行步驟D;
步驟D:判斷步驟C獲得的分?jǐn)?shù)p是否大于步驟B獲得的分?jǐn)?shù)q，如果判斷結(jié)果為是，則執(zhí)行步驟E;否則，放棄該特征信息，結(jié)束此次識別過程；步驟E:將特征信息發(fā)送給集內(nèi)說話人識別系統(tǒng)，獲得所述特征信息所
對應(yīng)的說話人。
所述集內(nèi)模型是通過將集內(nèi)全部說話人的訓(xùn)練語料作為訓(xùn)練數(shù)據(jù)訓(xùn)練獲得，該模型是高斯混合模型，它描述了集內(nèi)說話人總的語音特征分布。
所述集外易誤識模型是通過將集內(nèi)所有說話人的誤識數(shù)據(jù)集作為訓(xùn)練數(shù) 據(jù)訓(xùn)練獲得，該模型是高斯混合模型，它描述了容易被誤識為集內(nèi)的語音特征分布。
本發(fā)明首先采用集內(nèi)模型和集外易誤識模型分別對特征信息進(jìn)行打分，對于判定為集外語音信息的特征信息直接放棄識別，只對判定為集內(nèi)語音信息的特征信息進(jìn)行說話人的識別，減少了語音識別系統(tǒng)的工作量，提高了語音識別速度。
本發(fā)明在步驟E中獲得所述特征信息所對應(yīng)的說話人的方法為
步驟E21、分別采用集內(nèi)每個說話人的語音模型對特征信息進(jìn)行打分，分別獲得分?jǐn)?shù)S1、 S2……Sn，然后執(zhí)行步驟E22;
步驟E22、選出步驟E21獲得的分?jǐn)?shù)S1、S2……Sn分?jǐn)?shù)中的最高分Si，所述最高分Si對應(yīng)第i個說話人，然后執(zhí)行步驟E23;
步驟E23、判斷步驟E22獲得的最高分Si是否大于設(shè)定閾值q，如果判斷結(jié)果為是，則執(zhí)行步驟E24，否則，放棄該特征信息，結(jié)束此次識別過程；
步驟E24、采用第i個說話人的冒認(rèn)者模型對特征信息進(jìn)行打分，獲得分?jǐn)?shù)R;然后執(zhí)行步驟E25;
步驟E25、判斷步驟E22獲得的最高分Si是否大于步驟E24獲得的分數(shù)R，如果判斷結(jié)果為是，則執(zhí)行步驟E26，否則，放棄該特征信息，結(jié)束此次識別過程；步驟E26、認(rèn)定特征信息是第i個說話人的語音信息，結(jié)束此次識別過
程；
所述n為大于2的整數(shù)，i為大于O且小于等于n的整數(shù)。
所述第i個說話人的冒認(rèn)者模型是指通過對被誤識為第i個說話人的特征信息的誤識數(shù)據(jù)集進(jìn)行訓(xùn)練獲得，它描述冒認(rèn)第i個說話人的語音特征信息的模型。
艮口，在采用每個說話人的語音模型判定為對應(yīng)說話人之后，再對特征信息采用對應(yīng)說話人的冒認(rèn)者模型進(jìn)行驗證，提高了系統(tǒng)的判定準(zhǔn)確率。
所述冒認(rèn)者模型是根據(jù)由基準(zhǔn)識別系統(tǒng)收集該系統(tǒng)容易誤識為集內(nèi)每一個說話人的數(shù)據(jù)集，并對所述數(shù)據(jù)集進(jìn)行訓(xùn)練獲得描述該類型特征的冒認(rèn)者模型。該模型是高斯混合模型，它描述了容易被誤識為某一說話人的語音特征分布。
所述誤識數(shù)據(jù)，是指一個語音信息被判定為某一個說話人，但所述語音信息并不是該說話人的情況。
本發(fā)明通過收集說話人識別系統(tǒng)的誤識數(shù)據(jù)集，并對所述數(shù)據(jù)集進(jìn)行學(xué) 習(xí)獲得容易被誤識的集內(nèi)說話人的語音信息特征的概率分布模型，通過對判定為對應(yīng)說話人的特征信息進(jìn)行進(jìn)一步驗證，大大減少了誤識的可能性，提高了系統(tǒng)識別的準(zhǔn)確性。
本發(fā)明的方法采用逐步細(xì)化的、減少說話人誤識的方法，該方法不僅大大減少了說話人誤識，而且極大的提高了識別速度。

圖1是現(xiàn)有集內(nèi)說話人識別系統(tǒng)的工作流程圖；圖2是本發(fā)明的集內(nèi)說話人識別方法的流程圖；圖3是具體實施方式
二所述的步驟E中獲得所述特征信息所對應(yīng)的說話人的方法的流程圖；圖4是具體實施方式
三所述的步驟 E中獲得所述特征信息所對應(yīng)的說話人的方法的流程圖。
具體實施例方式
本實施方式所述的一種集內(nèi)說話者的識別方法的過程為
步驟A:對語音信號進(jìn)行特征提取，獲得特征信息，然后同時執(zhí)行步驟 B和步驟C;步驟B:采用集外易誤識模型對步驟A獲得的特征信息進(jìn)行打分，獲得分?jǐn)?shù)q，然后執(zhí)行步驟D;
步驟C:采用集內(nèi)模型對步驟A獲得的特征信息進(jìn)行打分，獲得分?jǐn)?shù)p，然后執(zhí)行步驟D;
步驟D:判斷步驟C獲得的分?jǐn)?shù)p是否大于步驟B獲得的分?jǐn)?shù)q，如果
判斷結(jié)果為是，則執(zhí)行步驟e;否則，放棄該特征信息，結(jié)束此次識別過程；
步驟e:將特征信息發(fā)送給集內(nèi)說話人識別系統(tǒng)，獲得所述特征信息所對應(yīng)的說話人。
所述集內(nèi)模型是通過將集內(nèi)全部說話人的訓(xùn)練語料作為訓(xùn)練數(shù)據(jù)訓(xùn)練獲得，該模型是高斯混合模型，它描述了集內(nèi)說話人總的語音特征分布。
所述集外易誤識模型是通過將集內(nèi)所有說話人的誤識數(shù)據(jù)集作為訓(xùn)練數(shù) 據(jù)訓(xùn)練獲得，該模型是高斯混合模型，它描述了容易被誤識為集內(nèi)的語音特征分布。
步驟e中獲得所述特征信息所對應(yīng)的說話人的方法?？梢圆捎矛F(xiàn)有的文本無關(guān)說話人識別方法。
本實施方式所述的，采用某一個模型對特征信息進(jìn)行打分，是指將所述特征信息帶入所述模型，進(jìn)而獲得相應(yīng)的概率值，再根據(jù)所述概率值獲得一個分?jǐn)?shù)值。所述分?jǐn)?shù)值一般與所述概率值成正比。
本實施方式所述的高斯混合模型(GMM， Gaussian Mixture Model),是
一種概率統(tǒng)計模型，理論上高斯混合模型可以用無限多個高斯分布的線性加權(quán) 來擬合一個任意形式的分布。而對于某個說話人的語音特征信息，一般認(rèn)為其滿足一個特定的分布，所以本領(lǐng)域采用高斯混合模型來描述說話人的語音特征信息的分布，也就是說每個說話人的語音特征信息對應(yīng)一個高斯混合模型，對于一個語音特征矢量，可以計算出其在該說話人對應(yīng)的高斯混合模型上的概率，進(jìn)而判定是否是該說話人的語音信息
所述高斯分布函數(shù)為<formula>formula see original document page 7</formula>
其中x為特征矢量，a是高斯分布的均值向量，2是協(xié)方差矩陣，J是特征維數(shù)。當(dāng)高斯分布的均值向量^和協(xié)方差矩陣i:固定后，高斯分布函數(shù)
也就固定，可以根據(jù)某一個特征矢量x計算獲得概率值。
所述高斯混合模型，是K個高斯分布函數(shù)的線性加權(quán)，特征矢量A在該模型上對應(yīng)的概率為-:
《
* n IX,/々，、)
A=l ，
其中，w是第A個高斯分布的權(quán)值。
本實施方式中所述的通過對數(shù)據(jù)訓(xùn)練獲得模型，是指根據(jù)一組數(shù)據(jù)，計算得到高斯混合模型中各個高斯分量的均值和協(xié)方差矩陣，以及各個分量的權(quán)值，使其能夠最好的描述這些訓(xùn)練數(shù)據(jù)，進(jìn)而獲得一個高斯混合模型。一般通過EM算法(期望最大化算法)來實現(xiàn)。
本實施方式中所述的特征信息，是指語音特征信息，可以采用目前常用的Md倒譜系數(shù)MFCC來表示。所述特征信息的計算，是首先用FFT將時域信號轉(zhuǎn)化成頻域信號，然后對所述頻域信號的對數(shù)能量譜用依照Md刻度分布的三角濾波器組進(jìn)行巻積，最后對各個濾波器的輸出構(gòu)成的向量進(jìn)行離散余弦變換DCT，并取前N個系數(shù)作為特征信息。經(jīng)常用到的MFCC有12 維，13維(加入F0能量)，39維(13維MFCC加上其一階差分和二階差分)。
本實施方式所述的方法，是首先對提取的特征信息進(jìn)行判斷，只有當(dāng)所述特征信息被判定為集內(nèi)的語音信息時，才交給說話人識別系統(tǒng)進(jìn)行識別。這樣，減少了說話人識別系統(tǒng)的判斷數(shù)據(jù)量，提高了語音識別速度。
具體實施方式
二本實施方式所述的一種集內(nèi)說話者的識別方法，是對步驟E中獲得所述特征信息所對應(yīng)的說話人的方法的進(jìn)一步說明，它的具體過程為
步驟E11:分別采用集內(nèi)每個說話人的語音模型對特征信息進(jìn)行打分，
分別獲得分?jǐn)?shù)S1、 S2……Sn,然后執(zhí)行步驟E12;
步驟E12:選出步驟Ell獲得分?jǐn)?shù)S1、 S2……Sn分?jǐn)?shù)中的最高分Si，所述最高分Si對應(yīng)第i個說話人，然后執(zhí)行步驟E13;
步驟E13:判斷步驟E12獲得的最高分Si是否大于設(shè)定閾值i！，如果判斷結(jié)果為是，則執(zhí)行步驟E14，否則，放棄該特征信息，結(jié)束此次識別過程;步驟E14:認(rèn)定特征信息是第i個說話人的語音信息，結(jié)束此次識別過
程；
所述n為大于2的整數(shù)，i為大于O且小于等于n的整數(shù)。
所述集內(nèi)每個說話人對應(yīng)一個語音模型，所述語音模型是通過該說話人的訓(xùn)練語料作為訓(xùn)練數(shù)據(jù)訓(xùn)練獲得，該模型是高斯混合模型，它描述了該說話人的語音特征分布。
具體實施方式
三本實施方式所述的一種集內(nèi)說話者的識別方法中，提供了另一種步驟E的實現(xiàn)方法，它的具體過程為-
步驟E21、分別采用集內(nèi)每個說話人的語音模型對特征信息進(jìn)行打分，分別獲得分?jǐn)?shù)S1、 S2……Sn，然后執(zhí)行步驟E22;
步驟E22、選出步驟E21獲得的分?jǐn)?shù)S1、 S2……Sn中的最高分Si，所述最高分Si對應(yīng)第i個說話人，然后執(zhí)行步驟E23;
步驟E23、判斷步驟E22獲得的最高分Si是否大于設(shè)定閾值n，如果判斷結(jié)果為是，則執(zhí)行步驟E24，否則，放棄該特征信息，結(jié)束此次識別過程；
步驟E24、采用第i個說話人的冒認(rèn)者模型對特征信息進(jìn)行打分，獲得分?jǐn)?shù)R;然后執(zhí)行步驟E25;
步驟E25、判斷步驟E22獲得的最高分Si是否大于步驟E24獲得的分數(shù)R，如果判斷結(jié)果為是，則執(zhí)行步驟E26，否則，放棄該特征信息，結(jié)束此次識別過程。
步驟E26、認(rèn)定特征信息是第i個說話人的語音信息，結(jié)束此次識別過
程；
所述n為大于2的整數(shù)，i為大于O且小于等于n的整數(shù)。
所述第i個說話人的冒認(rèn)者模型是指通過對被誤識為第i個說話人的特征信息的誤識數(shù)據(jù)集進(jìn)行訓(xùn)練獲得，它描述冒認(rèn)第i個說話人的語音特征信息的模型。
所述冒認(rèn)者模型，是通過對被誤識為對應(yīng)說話人的特征信息數(shù)據(jù)集進(jìn)行訓(xùn)練獲得，它描述冒認(rèn)該說話人的語音特征信息的高斯混合模型。它描述了容易被誤識為某一個說話人的語音特征分布。
本實施方式中所述的集內(nèi)所有說話人的誤識數(shù)據(jù)集，是用基準(zhǔn)說話人識別系統(tǒng)采集大量集外的語音信息進(jìn)行說話人識別，然后將系統(tǒng)判定為集內(nèi)某話者的語音收集起來形成一個集內(nèi)所有說話人的誤識數(shù)據(jù)集。所述誤識數(shù)據(jù) 集是集外易誤識模型和冒認(rèn)者模型的訓(xùn)練數(shù)據(jù)。
本實施方式所述的集內(nèi)說話者的識別方法中的集內(nèi)說話人識別系統(tǒng)，是在具體實施方式
二所述的集內(nèi)說話人識別系統(tǒng)的基礎(chǔ)上，增加了對判定結(jié)果采用冒認(rèn)者模型進(jìn)行了進(jìn)一步的驗證的過程，即采用該說話人的冒認(rèn)者模型對所述特征信息進(jìn)行進(jìn)一步判定，提高了系統(tǒng)的判定準(zhǔn)確率。
本實施方式通過收集說話人識別系統(tǒng)的誤識數(shù)據(jù)集，并對所述數(shù)據(jù)集進(jìn) 行學(xué)習(xí)獲得容易被誤識的集內(nèi)說話人的語音信息特征的概率分布模型，通過多層次識別，即先通過粗略判定是集內(nèi)或集外數(shù)據(jù)，放棄一部分被識別的特征信息，對于判定為集內(nèi)的特征信息，現(xiàn)根據(jù)每個說話人的模型判定對應(yīng)說話人，然后再通過對應(yīng)說話人的冒認(rèn)者模型驗證是否是對應(yīng)說話人。本實施方式通過對一個特征信息的三次判斷最終獲得判定結(jié)果，有效地減少了誤識的可能性，提高了系統(tǒng)識別準(zhǔn)確率。
權(quán)利要求
1、一種集內(nèi)說話者的識別方法，其特征在于它的識別過程為步驟A對語音信號進(jìn)行特征提取，獲得特征信息，然后同時執(zhí)行步驟B和步驟C；步驟B采用集外易誤識模型對步驟A獲得的特征信息進(jìn)行打分，獲得分?jǐn)?shù)q，然后執(zhí)行步驟D；步驟C采用集內(nèi)模型對步驟A獲得的特征信息進(jìn)行打分，獲得分?jǐn)?shù)p，然后執(zhí)行步驟D；步驟D判斷步驟C獲得的分?jǐn)?shù)p是否大于步驟B獲得的分?jǐn)?shù)q，如果判斷結(jié)果為是，則執(zhí)行步驟E；否則，放棄該特征信息，結(jié)束此次識別過程；步驟E將特征信息發(fā)送給集內(nèi)說話人識別系統(tǒng)，獲得所述特征信息所對應(yīng)的說話人。
2、根據(jù)權(quán)利要求l所述的一種集內(nèi)說話者的識別方法，其特征在于，所述集內(nèi)模型是通過將集內(nèi)全部說話人的訓(xùn)練語料作為訓(xùn)練數(shù)據(jù)訓(xùn)練獲得，該模型是高斯混合模型，它描述了集內(nèi)說話人總的語音特征分布。
3、根據(jù)權(quán)利要求l所述的一種集內(nèi)說話者的識別方法，其特征在于，所述集外易誤識模型是通過將集內(nèi)所有說話人的誤識數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)訓(xùn) 練獲得，該模型是高斯混合模型，它描述了容易被誤識為集內(nèi)的語音特征分布。
4、根據(jù)權(quán)利要求l所述的一種集內(nèi)說話者的識別方法，其特征在于，步驟E中獲得所述特征信息所對應(yīng)的說話人的方法為步驟E11: 分別采用集內(nèi)每個說話人的語音模型對特征信息進(jìn)行打分，分別獲得分?jǐn)?shù)S1、 S2……Sn，然后執(zhí)行步驟E12;步驟E12:選出步驟Ell獲得的分?jǐn)?shù)S1、 S2 Sn中的最高分Si，所述最高分Si對應(yīng)第i個說話人，然后執(zhí)行步驟E13;步驟E13: 判斷步驟E12獲得的最高分Si是否大于設(shè)定閾值ri，如果判斷結(jié)果為是，則執(zhí)行步驟E14，否則，放棄該特征信息，結(jié)束此次識別過程；步驟E14: 認(rèn)定特征信息是第i個說話人的語音信息，結(jié)束此次識別過程；所述n為大于2的整數(shù)，i為大于O且小于等于n的整數(shù)。
5、根據(jù)權(quán)利要求4所述的一種集內(nèi)說話者的識別方法，其特征在于，所述集內(nèi)每個說話人對應(yīng)一個語音模型，所述語音模型是通過該說話人的訓(xùn) 練語料作為訓(xùn)練數(shù)據(jù)訓(xùn)練獲得，該模型是高斯混合模型，它描述了該說話人的語音特征分布。
6、根據(jù)權(quán)利要求l所述的一種集內(nèi)說話者的識別方法，其特征在于，步驟E中獲得所述特征信息所對應(yīng)的說話人的方法為步驟E21、分別采用集內(nèi)每個說話人的語音模型對特征信息進(jìn)行打分，分別獲得分?jǐn)?shù)S1、 S2……Sn，然后執(zhí)行步驟E22;步驟E22、選出步驟E21獲得的分?jǐn)?shù)S1、 S2……Sn中的最高分Si，所述最高分Si對應(yīng)第i個說話人，然后執(zhí)行步驟E23;步驟E23、判斷步驟E22獲得的最高分Si是否大于設(shè)定閾值n，如果判斷結(jié)果為是，則執(zhí)行步驟E24,否則，放棄該特征信息，結(jié)束此次識別過程；步驟E24、采用第i個說話人的冒認(rèn)者模型對特征信息進(jìn)行打分，獲得分?jǐn)?shù)R;然后執(zhí)行步驟E25;步驟E25、判斷步驟E22獲得的最高分Si是否大于步驟E24獲得的分數(shù)R，如果判斷結(jié)果為是，則執(zhí)行步驟E26，否則，放棄該特征信息，結(jié)束此次識別過程。步驟E26、認(rèn)定特征信息是第i個說話人的語音信息，結(jié)束此次識別過程；所述n為大于2的整數(shù)，i為大于O且小于等于n的整數(shù)。
7、根據(jù)權(quán)利要求6所述的一種集內(nèi)說話者的識別方法，其特征在于，所述第i個說話人的冒認(rèn)者模型是指通過對被誤識為第i個說話人的特征信息的誤識數(shù)據(jù)集進(jìn)行訓(xùn)練獲得，它描述了冒認(rèn)第i個說話人的語音特征信息的模型。
全文摘要
一種集內(nèi)說話者的識別方法，涉及語音識別技術(shù)領(lǐng)域。它解決了現(xiàn)有文本無關(guān)說話人識別技術(shù)中，誤識較多的問題。本發(fā)明首先對提取的特征信息采用集內(nèi)外辨識模塊進(jìn)行判斷，將判定為集外說話人的特征信息放棄，只對判定為集內(nèi)的特征信息進(jìn)行具體說話人的判斷，減少了說話人識別系統(tǒng)的工作量，提高了判斷速度。本發(fā)明還對判定為某一說話人的特征信息，采用該說話人的冒認(rèn)者模型作進(jìn)一步驗證判斷，最終獲得所述特征信息所對應(yīng)的說話人信息。提高了特征信息識別的準(zhǔn)確率。本發(fā)明的方法適用于語音識別技術(shù)領(lǐng)域。
文檔編號G10L17/00GK101552004SQ200910072019
公開日2009年10月7日申請日期2009年5月13日優(yōu)先權(quán)日2009年5月13日
發(fā)明者張光成, 韓紀(jì)慶申請人:哈爾濱工業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：韓紀(jì)慶;張光成
技術(shù)所有人：哈爾濱工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：應(yīng)用于航行數(shù)據(jù)記錄儀的音頻采集卡的音頻壓縮方法
上一篇：歷史音頻噪聲檢測與消除方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

說話人識別模型與方法相關(guān)技術(shù)

說話人識別相關(guān)技術(shù)

說話人識別語音數(shù)據(jù)庫相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種集內(nèi)說話者的識別方法