專利名稱:一種集內(nèi)說話者的識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別技術(shù),具體涉及一種說話人識別技術(shù)和說話人拒識 方法。具體是一種在文本無關(guān)說話人識別過程中減少說話人誤識并提高識別 速度的方法。
背景技術(shù):
說話人識別是利用包含在說話人語音波形中特有的個體信息,根據(jù)說話 人所發(fā)的語音,自動識別說話人身份的過程。說話人識別按照對說話內(nèi)容的 要求不同可以分為文本無關(guān),文本有關(guān)和文本提示三種。文本無關(guān)是用戶在 系統(tǒng)注冊時不要求特定的語言和內(nèi)容,而且驗證和注冊時也不需要相同內(nèi)容 的語音,文本相關(guān)則要求驗證語料與注冊時提供的語料內(nèi)容相一致,文本提 示中用戶按照系統(tǒng)指定的內(nèi)容進(jìn)行。文本無關(guān)的說話人識別由于其安全性和 靈活性更加受人們重視,應(yīng)用也更為廣泛,目前的無本無關(guān)說話人識別系統(tǒng) 主要是利用說話人的訓(xùn)練語音訓(xùn)練得到一個描述其語音特征分布的高斯混合 模型,用輸入語音在各個話者模型上的得分來判別說話人。但是真實的環(huán)境 中存在大量集外說話人,目前主要是通過比較輸入語音在說話人模型上的最 高得分是否大于閾值的方式來判斷輸入語音是來自集內(nèi)還是集外,這種方法 對集內(nèi)外語音的區(qū)分能力不夠,會產(chǎn)生大量的誤識。誤識的多少嚴(yán)重影響說 話人識別系統(tǒng)的實用性,因此需要研究減少說話人誤識的方法,也就是集外 話者的拒識方法。
發(fā)明內(nèi)容
為了克服現(xiàn)有的文本無關(guān)說話人識別技術(shù)中,誤識較多的問題,本發(fā)明 提供一種集內(nèi)說話者的識別方法。
本發(fā)明的一種集內(nèi)說話者的識別方法的過程為
步驟A:對語音信號進(jìn)行特征提取,獲得特征信息,然后同時執(zhí)行步驟 B和步驟C;
步驟B:采用集外易誤識模型對步驟A獲得的特征信息進(jìn)行打分,獲得 分?jǐn)?shù)q,然后執(zhí)行步驟D;步驟C:采用集內(nèi)模型對步驟A獲得的特征信息進(jìn)行打分,獲得分?jǐn)?shù)p, 然后執(zhí)行步驟D;
步驟D:判斷步驟C獲得的分?jǐn)?shù)p是否大于步驟B獲得的分?jǐn)?shù)q,如果 判斷結(jié)果為是,則執(zhí)行步驟E;否則,放棄該特征信息,結(jié)束此次識別過程; 步驟E:將特征信息發(fā)送給集內(nèi)說話人識別系統(tǒng),獲得所述特征信息所
對應(yīng)的說話人。
所述集內(nèi)模型是通過將集內(nèi)全部說話人的訓(xùn)練語料作為訓(xùn)練數(shù)據(jù)訓(xùn)練獲 得,該模型是高斯混合模型,它描述了集內(nèi)說話人總的語音特征分布。
所述集外易誤識模型是通過將集內(nèi)所有說話人的誤識數(shù)據(jù)集作為訓(xùn)練數(shù) 據(jù)訓(xùn)練獲得,該模型是高斯混合模型,它描述了容易被誤識為集內(nèi)的語音特 征分布。
本發(fā)明首先采用集內(nèi)模型和集外易誤識模型分別對特征信息進(jìn)行打分, 對于判定為集外語音信息的特征信息直接放棄識別,只對判定為集內(nèi)語音信 息的特征信息進(jìn)行說話人的識別,減少了語音識別系統(tǒng)的工作量,提高了語 音識別速度。
本發(fā)明在步驟E中獲得所述特征信息所對應(yīng)的說話人的方法為
步驟E21、分別采用集內(nèi)每個說話人的語音模型對特征信息進(jìn)行打分, 分別獲得分?jǐn)?shù)S1、 S2……Sn,然后執(zhí)行步驟E22;
步驟E22、選出步驟E21獲得的分?jǐn)?shù)S1、S2……Sn分?jǐn)?shù)中的最高分Si, 所述最高分Si對應(yīng)第i個說話人,然后執(zhí)行步驟E23;
步驟E23、判斷步驟E22獲得的最高分Si是否大于設(shè)定閾值q,如果 判斷結(jié)果為是,則執(zhí)行步驟E24,否則,放棄該特征信息,結(jié)束此次識別過 程;
步驟E24、采用第i個說話人的冒認(rèn)者模型對特征信息進(jìn)行打分,獲得 分?jǐn)?shù)R;然后執(zhí)行步驟E25;
步驟E25、判斷步驟E22獲得的最高分Si是否大于步驟E24獲得的分 數(shù)R,如果判斷結(jié)果為是,則執(zhí)行步驟E26,否則,放棄該特征信息,結(jié)束 此次識別過程;步驟E26、認(rèn)定特征信息是第i個說話人的語音信息,結(jié)束此次識別過
程;
所述n為大于2的整數(shù),i為大于O且小于等于n的整數(shù)。
所述第i個說話人的冒認(rèn)者模型是指通過對被誤識為第i個說話人的特 征信息的誤識數(shù)據(jù)集進(jìn)行訓(xùn)練獲得,它描述冒認(rèn)第i個說話人的語音特征信 息的模型。
艮口,在采用每個說話人的語音模型判定為對應(yīng)說話人之后,再對特征信 息采用對應(yīng)說話人的冒認(rèn)者模型進(jìn)行驗證,提高了系統(tǒng)的判定準(zhǔn)確率。
所述冒認(rèn)者模型是根據(jù)由基準(zhǔn)識別系統(tǒng)收集該系統(tǒng)容易誤識為集內(nèi)每一 個說話人的數(shù)據(jù)集,并對所述數(shù)據(jù)集進(jìn)行訓(xùn)練獲得描述該類型特征的冒認(rèn)者 模型。該模型是高斯混合模型,它描述了容易被誤識為某一說話人的語音特 征分布。
所述誤識數(shù)據(jù),是指一個語音信息被判定為某一個說話人,但所述語音 信息并不是該說話人的情況。
本發(fā)明通過收集說話人識別系統(tǒng)的誤識數(shù)據(jù)集,并對所述數(shù)據(jù)集進(jìn)行學(xué) 習(xí)獲得容易被誤識的集內(nèi)說話人的語音信息特征的概率分布模型,通過對判 定為對應(yīng)說話人的特征信息進(jìn)行進(jìn)一步驗證,大大減少了誤識的可能性,提 高了系統(tǒng)識別的準(zhǔn)確性。
本發(fā)明的方法采用逐步細(xì)化的、減少說話人誤識的方法,該方法不僅大 大減少了說話人誤識,而且極大的提高了識別速度。
圖1是現(xiàn)有集內(nèi)說話人識別系統(tǒng)的工作流程圖;圖2是本發(fā)明的集內(nèi)說 話人識別方法的流程圖;圖3是具體實施方式
二所述的步驟E中獲得所述特 征信息所對應(yīng)的說話人的方法的流程圖;圖4是具體實施方式
三所述的步驟 E中獲得所述特征信息所對應(yīng)的說話人的方法的流程圖。
具體實施例方式
本實施方式所述的一種集內(nèi)說話者的識別方法的過程為
步驟A:對語音信號進(jìn)行特征提取,獲得特征信息,然后同時執(zhí)行步驟 B和步驟C;步驟B:采用集外易誤識模型對步驟A獲得的特征信息進(jìn)行打分,獲得 分?jǐn)?shù)q,然后執(zhí)行步驟D;
步驟C:采用集內(nèi)模型對步驟A獲得的特征信息進(jìn)行打分,獲得分?jǐn)?shù)p, 然后執(zhí)行步驟D;
步驟D:判斷步驟C獲得的分?jǐn)?shù)p是否大于步驟B獲得的分?jǐn)?shù)q,如果
判斷結(jié)果為是,則執(zhí)行步驟e;否則,放棄該特征信息,結(jié)束此次識別過程;
步驟e:將特征信息發(fā)送給集內(nèi)說話人識別系統(tǒng),獲得所述特征信息所 對應(yīng)的說話人。
所述集內(nèi)模型是通過將集內(nèi)全部說話人的訓(xùn)練語料作為訓(xùn)練數(shù)據(jù)訓(xùn)練獲 得,該模型是高斯混合模型,它描述了集內(nèi)說話人總的語音特征分布。
所述集外易誤識模型是通過將集內(nèi)所有說話人的誤識數(shù)據(jù)集作為訓(xùn)練數(shù) 據(jù)訓(xùn)練獲得,該模型是高斯混合模型,它描述了容易被誤識為集內(nèi)的語音特 征分布。
步驟e中獲得所述特征信息所對應(yīng)的說話人的方法??梢圆捎矛F(xiàn)有的文 本無關(guān)說話人識別方法。
本實施方式所述的,采用某一個模型對特征信息進(jìn)行打分,是指將所述 特征信息帶入所述模型,進(jìn)而獲得相應(yīng)的概率值,再根據(jù)所述概率值獲得一 個分?jǐn)?shù)值。所述分?jǐn)?shù)值一般與所述概率值成正比。
本實施方式所述的高斯混合模型(GMM, Gaussian Mixture Model),是
一種概率統(tǒng)計模型,理論上高斯混合模型可以用無限多個高斯分布的線性加權(quán) 來擬合一個任意形式的分布。而對于某個說話人的語音特征信息, 一般認(rèn)為其 滿足一個特定的分布,所以本領(lǐng)域采用高斯混合模型來描述說話人的語音特征 信息的分布,也就是說每個說話人的語音特征信息對應(yīng)一個高斯混合模型,對 于一個語音特征矢量,可以計算出其在該說話人對應(yīng)的高斯混合模型上的概 率,進(jìn)而判定是否是該說話人的語音信息
所述高斯分布函數(shù)為<formula>formula see original document page 7</formula>
其中x為特征矢量,a是高斯分布的均值向量,2是協(xié)方差矩陣,J是特征維數(shù)。當(dāng)高斯分布的均值向量^和協(xié)方差矩陣i:固定后,高斯分布函數(shù)
也就固定,可以根據(jù)某一個特征矢量x計算獲得概率值。
所述高斯混合模型,是K個高斯分布函數(shù)的線性加權(quán),特征矢量A在該 模型上對應(yīng)的概率為-:
《
* n IX,/々,、)
A=l ,
其中,w是第A個高斯分布的權(quán)值。
本實施方式中所述的通過對數(shù)據(jù)訓(xùn)練獲得模型,是指根據(jù)一組數(shù)據(jù),計 算得到高斯混合模型中各個高斯分量的均值和協(xié)方差矩陣,以及各個分量的 權(quán)值,使其能夠最好的描述這些訓(xùn)練數(shù)據(jù),進(jìn)而獲得一個高斯混合模型。一 般通過EM算法(期望最大化算法)來實現(xiàn)。
本實施方式中所述的特征信息,是指語音特征信息,可以采用目前常用 的Md倒譜系數(shù)MFCC來表示。所述特征信息的計算,是首先用FFT將時 域信號轉(zhuǎn)化成頻域信號,然后對所述頻域信號的對數(shù)能量譜用依照Md刻度 分布的三角濾波器組進(jìn)行巻積,最后對各個濾波器的輸出構(gòu)成的向量進(jìn)行離 散余弦變換DCT,并取前N個系數(shù)作為特征信息。經(jīng)常用到的MFCC有12 維,13維(加入F0能量),39維(13維MFCC加上其一階差分和二階差分)。
本實施方式所述的方法,是首先對提取的特征信息進(jìn)行判斷,只有當(dāng)所 述特征信息被判定為集內(nèi)的語音信息時,才交給說話人識別系統(tǒng)進(jìn)行識別。 這樣,減少了說話人識別系統(tǒng)的判斷數(shù)據(jù)量,提高了語音識別速度。
具體實施方式
二本實施方式所述的一種集內(nèi)說話者的識別方法,是對 步驟E中獲得所述特征信息所對應(yīng)的說話人的方法的進(jìn)一步說明,它的具體 過程為
步驟E11:分別采用集內(nèi)每個說話人的語音模型對特征信息進(jìn)行打分,
分別獲得分?jǐn)?shù)S1、 S2……Sn,然后執(zhí)行步驟E12;
步驟E12:選出步驟Ell獲得分?jǐn)?shù)S1、 S2……Sn分?jǐn)?shù)中的最高分Si, 所述最高分Si對應(yīng)第i個說話人,然后執(zhí)行步驟E13;
步驟E13:判斷步驟E12獲得的最高分Si是否大于設(shè)定閾值i!,如果判 斷結(jié)果為是,則執(zhí)行步驟E14,否則,放棄該特征信息,結(jié)束此次識別過程;步驟E14:認(rèn)定特征信息是第i個說話人的語音信息,結(jié)束此次識別過
程;
所述n為大于2的整數(shù),i為大于O且小于等于n的整數(shù)。
所述集內(nèi)每個說話人對應(yīng)一個語音模型,所述語音模型是通過該說話人 的訓(xùn)練語料作為訓(xùn)練數(shù)據(jù)訓(xùn)練獲得,該模型是高斯混合模型,它描述了該說 話人的語音特征分布。
具體實施方式
三本實施方式所述的一種集內(nèi)說話者的識別方法中,提 供了另一種步驟E的實現(xiàn)方法,它的具體過程為-
步驟E21、分別采用集內(nèi)每個說話人的語音模型對特征信息進(jìn)行打分, 分別獲得分?jǐn)?shù)S1、 S2……Sn,然后執(zhí)行步驟E22;
步驟E22、選出步驟E21獲得的分?jǐn)?shù)S1、 S2……Sn中的最高分Si,所 述最高分Si對應(yīng)第i個說話人,然后執(zhí)行步驟E23;
步驟E23、判斷步驟E22獲得的最高分Si是否大于設(shè)定閾值n,如果 判斷結(jié)果為是,則執(zhí)行步驟E24,否則,放棄該特征信息,結(jié)束此次識別過 程;
步驟E24、采用第i個說話人的冒認(rèn)者模型對特征信息進(jìn)行打分,獲得 分?jǐn)?shù)R;然后執(zhí)行步驟E25;
步驟E25、判斷步驟E22獲得的最高分Si是否大于步驟E24獲得的分 數(shù)R,如果判斷結(jié)果為是,則執(zhí)行步驟E26,否則,放棄該特征信息,結(jié)束 此次識別過程。
步驟E26、認(rèn)定特征信息是第i個說話人的語音信息,結(jié)束此次識別過
程;
所述n為大于2的整數(shù),i為大于O且小于等于n的整數(shù)。
所述第i個說話人的冒認(rèn)者模型是指通過對被誤識為第i個說話人的特 征信息的誤識數(shù)據(jù)集進(jìn)行訓(xùn)練獲得,它描述冒認(rèn)第i個說話人的語音特征信 息的模型。
所述冒認(rèn)者模型,是通過對被誤識為對應(yīng)說話人的特征信息數(shù)據(jù)集進(jìn)行 訓(xùn)練獲得,它描述冒認(rèn)該說話人的語音特征信息的高斯混合模型。它描述了容易被誤識為某一個說話人的語音特征分布。
本實施方式中所述的集內(nèi)所有說話人的誤識數(shù)據(jù)集,是用基準(zhǔn)說話人識 別系統(tǒng)采集大量集外的語音信息進(jìn)行說話人識別,然后將系統(tǒng)判定為集內(nèi)某 話者的語音收集起來形成一個集內(nèi)所有說話人的誤識數(shù)據(jù)集。所述誤識數(shù)據(jù) 集是集外易誤識模型和冒認(rèn)者模型的訓(xùn)練數(shù)據(jù)。
本實施方式所述的集內(nèi)說話者的識別方法中的集內(nèi)說話人識別系統(tǒng),是 在具體實施方式
二所述的集內(nèi)說話人識別系統(tǒng)的基礎(chǔ)上,增加了對判定結(jié)果 采用冒認(rèn)者模型進(jìn)行了進(jìn)一步的驗證的過程,即采用該說話人的冒認(rèn)者模 型對所述特征信息進(jìn)行進(jìn)一步判定,提高了系統(tǒng)的判定準(zhǔn)確率。
本實施方式通過收集說話人識別系統(tǒng)的誤識數(shù)據(jù)集,并對所述數(shù)據(jù)集進(jìn) 行學(xué)習(xí)獲得容易被誤識的集內(nèi)說話人的語音信息特征的概率分布模型,通過 多層次識別,即先通過粗略判定是集內(nèi)或集外數(shù)據(jù),放棄一部分被識別的特 征信息,對于判定為集內(nèi)的特征信息,現(xiàn)根據(jù)每個說話人的模型判定對應(yīng)說 話人,然后再通過對應(yīng)說話人的冒認(rèn)者模型驗證是否是對應(yīng)說話人。本實施 方式通過對一個特征信息的三次判斷最終獲得判定結(jié)果,有效地減少了誤識 的可能性,提高了系統(tǒng)識別準(zhǔn)確率。
權(quán)利要求
1、一種集內(nèi)說話者的識別方法,其特征在于它的識別過程為步驟A對語音信號進(jìn)行特征提取,獲得特征信息,然后同時執(zhí)行步驟B和步驟C;步驟B采用集外易誤識模型對步驟A獲得的特征信息進(jìn)行打分,獲得分?jǐn)?shù)q,然后執(zhí)行步驟D;步驟C采用集內(nèi)模型對步驟A獲得的特征信息進(jìn)行打分,獲得分?jǐn)?shù)p,然后執(zhí)行步驟D;步驟D判斷步驟C獲得的分?jǐn)?shù)p是否大于步驟B獲得的分?jǐn)?shù)q,如果判斷結(jié)果為是,則執(zhí)行步驟E;否則,放棄該特征信息,結(jié)束此次識別過程;步驟E將特征信息發(fā)送給集內(nèi)說話人識別系統(tǒng),獲得所述特征信息所對應(yīng)的說話人。
2、 根據(jù)權(quán)利要求l所述的一種集內(nèi)說話者的識別方法,其特征在于, 所述集內(nèi)模型是通過將集內(nèi)全部說話人的訓(xùn)練語料作為訓(xùn)練數(shù)據(jù)訓(xùn)練獲得, 該模型是高斯混合模型,它描述了集內(nèi)說話人總的語音特征分布。
3、 根據(jù)權(quán)利要求l所述的一種集內(nèi)說話者的識別方法,其特征在于,所述集外易誤識模型是通過將集內(nèi)所有說話人的誤識數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)訓(xùn) 練獲得,該模型是高斯混合模型,它描述了容易被誤識為集內(nèi)的語音特征分 布。
4、 根據(jù)權(quán)利要求l所述的一種集內(nèi)說話者的識別方法,其特征在于,步驟E中獲得所述特征信息所對應(yīng)的說話人的方法為步驟E11: 分別采用集內(nèi)每個說話人的語音模型對特征信息進(jìn)行打分,分別獲得分?jǐn)?shù)S1、 S2……Sn,然后執(zhí)行步驟E12;步驟E12:選出步驟Ell獲得的分?jǐn)?shù)S1、 S2 Sn中的最高分Si,所述最高分Si對應(yīng)第i個說話人,然后執(zhí)行步驟E13;步驟E13: 判斷步驟E12獲得的最高分Si是否大于設(shè)定閾值ri,如果 判斷結(jié)果為是,則執(zhí)行步驟E14,否則,放棄該特征信息,結(jié)束此次識別過 程;步驟E14: 認(rèn)定特征信息是第i個說話人的語音信息,結(jié)束此次識別過程;所述n為大于2的整數(shù),i為大于O且小于等于n的整數(shù)。
5、 根據(jù)權(quán)利要求4所述的一種集內(nèi)說話者的識別方法,其特征在于, 所述集內(nèi)每個說話人對應(yīng)一個語音模型,所述語音模型是通過該說話人的訓(xùn) 練語料作為訓(xùn)練數(shù)據(jù)訓(xùn)練獲得,該模型是高斯混合模型,它描述了該說話人 的語音特征分布。
6、 根據(jù)權(quán)利要求l所述的一種集內(nèi)說話者的識別方法,其特征在于, 步驟E中獲得所述特征信息所對應(yīng)的說話人的方法為步驟E21、分別采用集內(nèi)每個說話人的語音模型對特征信息進(jìn)行打分, 分別獲得分?jǐn)?shù)S1、 S2……Sn,然后執(zhí)行步驟E22;步驟E22、選出步驟E21獲得的分?jǐn)?shù)S1、 S2……Sn中的最高分Si,所 述最高分Si對應(yīng)第i個說話人,然后執(zhí)行步驟E23;步驟E23、判斷步驟E22獲得的最高分Si是否大于設(shè)定閾值n,如果 判斷結(jié)果為是,則執(zhí)行步驟E24,否則,放棄該特征信息,結(jié)束此次識別過 程;步驟E24、采用第i個說話人的冒認(rèn)者模型對特征信息進(jìn)行打分,獲得 分?jǐn)?shù)R;然后執(zhí)行步驟E25;步驟E25、判斷步驟E22獲得的最高分Si是否大于步驟E24獲得的分 數(shù)R,如果判斷結(jié)果為是,則執(zhí)行步驟E26,否則,放棄該特征信息,結(jié)束 此次識別過程。步驟E26、認(rèn)定特征信息是第i個說話人的語音信息,結(jié)束此次識別過程;所述n為大于2的整數(shù),i為大于O且小于等于n的整數(shù)。
7、 根據(jù)權(quán)利要求6所述的一種集內(nèi)說話者的識別方法,其特征在于, 所述第i個說話人的冒認(rèn)者模型是指通過對被誤識為第i個說話人的特征信 息的誤識數(shù)據(jù)集進(jìn)行訓(xùn)練獲得,它描述了冒認(rèn)第i個說話人的語音特征信息 的模型。
全文摘要
一種集內(nèi)說話者的識別方法,涉及語音識別技術(shù)領(lǐng)域。它解決了現(xiàn)有文本無關(guān)說話人識別技術(shù)中,誤識較多的問題。本發(fā)明首先對提取的特征信息采用集內(nèi)外辨識模塊進(jìn)行判斷,將判定為集外說話人的特征信息放棄,只對判定為集內(nèi)的特征信息進(jìn)行具體說話人的判斷,減少了說話人識別系統(tǒng)的工作量,提高了判斷速度。本發(fā)明還對判定為某一說話人的特征信息,采用該說話人的冒認(rèn)者模型作進(jìn)一步驗證判斷,最終獲得所述特征信息所對應(yīng)的說話人信息。提高了特征信息識別的準(zhǔn)確率。本發(fā)明的方法適用于語音識別技術(shù)領(lǐng)域。
文檔編號G10L17/00GK101552004SQ200910072019
公開日2009年10月7日 申請日期2009年5月13日 優(yōu)先權(quán)日2009年5月13日
發(fā)明者張光成, 韓紀(jì)慶 申請人:哈爾濱工業(yè)大學(xué)