專利名稱:說話人識(shí)別系統(tǒng)及其方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及說話人識(shí)別系統(tǒng)及其方法。更具體地說,本發(fā)明涉及一種基 于通用背景模型(universal background model, UBM)和注冊說話人模型的特定說話人識(shí)
別系統(tǒng)和方法。
背景技術(shù):
目前各國主要研究的生物特征識(shí)別技術(shù)包括手形識(shí)別、指紋識(shí)別、面部識(shí)別、 聲紋識(shí)別、虹膜識(shí)別、簽名識(shí)別等。在這些生物特征中,指紋、虹膜、面像等都屬于 外露型身體特征,容易在遭受暴力侵害的情況下被犯罪分子強(qiáng)行用當(dāng)事人的身體特征冒 充。而人的聲音特征則屬于內(nèi)藏型身體特征,只要當(dāng)事人不開口說話,則沒有任何被盜 用的可能性,因此在生物特征識(shí)別技術(shù)領(lǐng)域得到了深入的研究和開發(fā)。聲紋識(shí)別(Speaker Recognition)就是利用人體所固有的生理特征或行為特征來進(jìn) 行個(gè)人身份鑒定的技術(shù),屬于生物特征識(shí)別技術(shù)的一種。聲紋識(shí)別也稱為說話人識(shí)別, 是通過對收到的說話人的語音信號進(jìn)行分析和提取,自動(dòng)地確定說話人是否在所建立的 說話人集合里面,并且確定說話人是誰的過程。說話人的說話內(nèi)容預(yù)先確定的聲紋識(shí)別 稱為與文本有關(guān)(text-dependent)的聲紋識(shí)別,說話人的說話內(nèi)容預(yù)先不確定,說什么內(nèi) 容都可以的聲紋識(shí)別稱為與文本無關(guān)(text-independent)的聲紋識(shí)別。當(dāng)前主流的說話人識(shí)別方法為基于GMM (Gaussian mixture model,混合高斯 模型)-UBM (universal background model,通用背景模型)的說話人識(shí)別方法?;?GMM-UBM的說話人識(shí)別系統(tǒng)主要分為三部分,UBM訓(xùn)練、特定說話人模型自適應(yīng)以 及說話人識(shí)別測試。具體地說,事先從幾百個(gè)甚至上千個(gè)說話人的數(shù)據(jù)訓(xùn)練出來一個(gè)通 用背景模型,然后用特定說話人的數(shù)據(jù)從通用背景模型自適應(yīng)出與特定說話人相關(guān)的混 合高斯模型,并且使用這個(gè)自適應(yīng)出的模型進(jìn)行說話人識(shí)別。其優(yōu)點(diǎn)在于特定說話人的模型是在UBM上根據(jù)說話人的訓(xùn)練語音自適應(yīng)得到 的。這樣,對于說話人的訓(xùn)練語音覆蓋到的發(fā)音特征可以用該說話人自身的語音建模, 對于說話人的訓(xùn)練語音未覆蓋到的發(fā)音特征則用UBM來近似,由此減少測試語音和訓(xùn)練 語音在聲學(xué)空間上由于分布不同所帶來的影響。此外,在進(jìn)行身份確認(rèn)的時(shí)候,可以用 測試語音在UBM上的得分作為一個(gè)參考閥值。一個(gè)好的UBM背景模型,是由大量的背景說話人的話語語音訓(xùn)練出來的。對于 簡單的識(shí)別系統(tǒng),使用訓(xùn)練好的背景模型,就可以達(dá)到比較滿意的識(shí)別效果。而對于一 個(gè)特定的應(yīng)用來說,在付諸實(shí)用之前,應(yīng)該采集一些實(shí)際信道的發(fā)音樣本,利用自適應(yīng) 算法來訓(xùn)練并更新背景模型,以達(dá)到最佳的識(shí)別性能。但是,在基于GMM-UBM的說話人識(shí)別系統(tǒng)中只用一個(gè)UBM代表說話人的統(tǒng) 計(jì)平均發(fā)音特征,并且UBM模型訓(xùn)練需要大量說話人的話語語音,同時(shí)還要考慮說話人 的男女比例、年齡比例等等,以便采用GMM進(jìn)行建模?;贕MM建模的一個(gè)重要不足就是訓(xùn)練得到的GMM物理意義很不明確,即不清楚每個(gè)高斯分量最終是由哪些特征貢獻(xiàn)得到的。另外,由于需要大量說話人的話語語 音,因此GMM訓(xùn)練時(shí)間很長。
發(fā)明內(nèi)容
鑒于上述情況,本發(fā)明提出一種新的說話人識(shí)別系統(tǒng)和說話人識(shí)別方法,以明 確通用背景模型的物理意義并能夠減少GMM的訓(xùn)練時(shí)間。具體地說,根據(jù)本發(fā)明的一個(gè)方面,提供一種說話人識(shí)別系統(tǒng),包括特征提 取單元,配置為提取說話人的語音數(shù)據(jù)的特征矢量;背景模型生成單元,配置為對背景 說話人的語音數(shù)據(jù)的特征矢量進(jìn)行內(nèi)部聚類并根據(jù)內(nèi)部聚類的結(jié)果生成針對一般說話人 的通用背景模型;注冊說話人模型生成單元,配置為利用每一個(gè)注冊說話人的語音數(shù)據(jù) 的特征矢量對通用背景模型自適應(yīng),生成每一個(gè)注冊說話人的注冊說話人模型;度量值 計(jì)算單元,配置為計(jì)算測試說話人的特征矢量在背景模型生成單元生成的通用背景模型 和注冊說話人模型生成單元生成的每一個(gè)注冊說話人的注冊說話人模型上的度量值;以 及識(shí)別單元,配置為根據(jù)度量值計(jì)算單元所計(jì)算的度量值識(shí)別測試說話人。根據(jù)本發(fā)明的另一個(gè)方面,提供一種說話人識(shí)別方法,包括提取說話人的語 音數(shù)據(jù)的特征矢量;對背景說話人的語音數(shù)據(jù)的特征矢量進(jìn)行內(nèi)部聚類并根據(jù)內(nèi)部聚類 的結(jié)果生成針對一般說話人的通用背景模型;利用每一個(gè)注冊說話人的語音數(shù)據(jù)的特征 矢量對通用背景模型自適應(yīng),生成每一個(gè)注冊說話人的注冊說話人模型;計(jì)算測試說話 人的特征矢量在通用背景模型和每一個(gè)注冊說話人的注冊說話人模型上的度量值;以及 根據(jù)所計(jì)算的度量值識(shí)別測試說話人。根據(jù)本發(fā)明的一個(gè)實(shí)施例,生成通用背景模型包括對背景說話人的語音數(shù)據(jù) 的特征矢量進(jìn)行內(nèi)部聚類,以生成一系列特征子類;從生成的所有背景說話人的特征子 類中選擇聚類中心,以將所有特征子類進(jìn)行空間分割為特征空間;以及對每一個(gè)特征空 間中包含的所有特征子類進(jìn)行表征,以生成針對一般說話人的通用背景模型。優(yōu)選地,在內(nèi)部聚類中,對每一個(gè)背景說話人的語音數(shù)據(jù)的特征矢量構(gòu)造一個(gè) KDTree并按照最近鄰原則進(jìn)行內(nèi)部聚類。根據(jù)本發(fā)明的一個(gè)具體實(shí)施例,內(nèi)部聚類包括提取背景說話人的有語音段的 語音數(shù)據(jù)的特征矢量;將提取的特征矢量構(gòu)建為KDTree,使得每一層上各個(gè)根節(jié)點(diǎn)的左 子樹上所有節(jié)點(diǎn)的與該層對應(yīng)的維的特征矢量的值均小于該根節(jié)點(diǎn)的該維的特征矢量的 值,每一層上各個(gè)根節(jié)點(diǎn)的右子樹上所有節(jié)點(diǎn)的與該層對應(yīng)的維的特征矢量的值均大于 該根節(jié)點(diǎn)的該維的特征矢量的值;以及將所構(gòu)建的KDTree的任一層上的各個(gè)根節(jié)點(diǎn)及其 子樹聚類成具有共同特點(diǎn)的特征子類。 優(yōu)選地,在內(nèi)部聚類中,對所述各個(gè)根節(jié)點(diǎn)進(jìn)行篩選,保留對應(yīng)子節(jié)點(diǎn)個(gè)數(shù)多 的根節(jié)點(diǎn)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,采用最大距離樣本法、K-Mean法、最小距離法、類 平均距離法或重心法從所生成的所有注冊說話人的特征子類中選擇聚類中心。根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,用高斯函數(shù)表征每一個(gè)特征空間中包含的所有 特征子類。其中,計(jì)算每一個(gè)特征空間中的所有特征子類包含的特征矢量的均值和方 差,以得到每一個(gè)特征空間的正態(tài)分布函數(shù)。
另外,根據(jù)本發(fā)明的一個(gè)實(shí)施例,生成注冊說話人模型包括獲取注冊說話人 的語音數(shù)據(jù)的特征矢量F;對于每個(gè)特征矢量F,計(jì)算其對每個(gè)特征空間k的后驗(yàn)概率 Pk'
權(quán)利要求
1.一種說話人識(shí)別系統(tǒng),包括特征提取單元,配置為提取說話人的語音數(shù)據(jù)的特征矢量;背景模型生成單元,配置為對背景說話人的語音數(shù)據(jù)的特征矢量進(jìn)行內(nèi)部聚類并根 據(jù)內(nèi)部聚類的結(jié)果生成針對一般說話人的通用背景模型;注冊說話人模型生成單元,配置為利用每一個(gè)注冊說話人的語音數(shù)據(jù)的特征矢量對 通用背景模型自適應(yīng),生成每一個(gè)注冊說話人的注冊說話人模型;度量值計(jì)算單元,配置為計(jì)算測試說話人的特征矢量在背景模型生成單元生成的通 用背景模型和注冊說話人模型生成單元生成的每一個(gè)注冊說話人的注冊說話人模型上的 度量值;以及識(shí)別單元,配置為根據(jù)度量值計(jì)算單元所計(jì)算的度量值識(shí)別測試說話人。
2.根據(jù)權(quán)利要求1所述的說話人識(shí)別系統(tǒng),其中背景模型生成單元包括內(nèi)部聚類單元,配置為對背景說話人的語音數(shù)據(jù)的特征矢量進(jìn)行內(nèi)部聚類,以生成 一系列特征子類;特征子類空間劃分單元,配置為從內(nèi)部聚類單元生成的所有背景說話人的特征子類 中選擇聚類中心,以將所有特征子類進(jìn)行空間分割為特征空間;以及特征空間表征單元,配置為對每一個(gè)特征空間中包含的所有特征子類進(jìn)行表征,以 生成針對一般說話人的通用背景模型。
3.根據(jù)權(quán)利要求2所述的說話人識(shí)別系統(tǒng),其中內(nèi)部聚類單元對每一個(gè)背景說話人的 語音數(shù)據(jù)的特征矢量構(gòu)造一個(gè)KDTree并按照最近鄰原則進(jìn)行內(nèi)部聚類。
4.根據(jù)權(quán)利要求3所述的說話人識(shí)別系統(tǒng),其中內(nèi)部聚類單元包括語音段提取單元,配置為提取背景說話人的有語音段的語音數(shù)據(jù)的特征矢量;KDTree構(gòu)建單元,配置為將語音段提取單元提取的特征矢量構(gòu)建為KDTree,使得每 一層上各個(gè)根節(jié)點(diǎn)的左子樹上所有節(jié)點(diǎn)的與該層對應(yīng)的維的特征矢量的值均小于該根節(jié) 點(diǎn)的該維的特征矢量的值,每一層上各個(gè)根節(jié)點(diǎn)的右子樹上所有節(jié)點(diǎn)的與該層對應(yīng)的維 的特征矢量的值均大于該根節(jié)點(diǎn)的該維的特征矢量的值;以及特征子類生成單元,配置為將KDTree構(gòu)建單元所構(gòu)建的KDTree的任一層上的各個(gè) 根節(jié)點(diǎn)及其子樹聚類成具有共同特點(diǎn)的特征子類。
5.根據(jù)權(quán)利要求4所述的說話人識(shí)別系統(tǒng),其中特征子類生成單元對所述各個(gè)根節(jié)點(diǎn) 進(jìn)行篩選,保留對應(yīng)子節(jié)點(diǎn)個(gè)數(shù)多的根節(jié)點(diǎn)。
6.根據(jù)權(quán)利要求2至5任一所述的說話人識(shí)別系統(tǒng),其中特征子類空間劃分單元采用 最大距離樣本法、K-Mean法、最小距離法、類平均距離法或重心法從內(nèi)部聚類單元生成 的所有背景說話人的特征子類中選擇聚類中心。
7.根據(jù)權(quán)利要求2至5任一所述的說話人識(shí)別系統(tǒng),其中特征空間表征單元用高斯函 數(shù)表征每一個(gè)特征空間中包含的所有特征子類。
8.根據(jù)權(quán)利要求2至5任一所述的說話人識(shí)別系統(tǒng),其中特征空間表征單元計(jì)算每一 個(gè)特征空間中的所有特征子類包含的特征矢量的均值和方差,以得到每一個(gè)特征空間的 正態(tài)分布函數(shù)。
9.根據(jù)權(quán)利要求8所述的說話人識(shí)別系統(tǒng),其中注冊說話人模型生成單元獲取注冊說話人的語音數(shù)據(jù)的特征矢量F ;對于每個(gè)特征矢量F,計(jì)算其對每個(gè)特征空間k的后驗(yàn)概率pk,-exp{-—> k=l,2,…,N,其中,μk為每一個(gè)特征空間中的所有特征子類包含的特征矢量的均值,ZkS每一個(gè) 特征空間中的所有特征子類包含的特征矢量的方差,N為特征空間劃分的數(shù)量,d表示特 征維數(shù); 計(jì)算更新因子《 =-,υ為經(jīng)驗(yàn)值; 對每個(gè)特征空間的均值進(jìn)行更新μ' k= yk(l-a) + a^F;以及 用更新后的特征空間的均值對通用背景模型進(jìn)行自適應(yīng),以生成該注冊說話人的注 冊說話人模型。
10.根據(jù)權(quán)利要求9所述的說話人識(shí)別系統(tǒng),其中所述度量值計(jì)算單元獲取測試說話人的語音數(shù)據(jù)的特征矢量,以及分別計(jì)算所獲取 的測試說話人的語音數(shù)據(jù)的所有特征矢量對通用背景模型Mb和注冊說話人模型Mr的后 驗(yàn)概率Pb和PR, 1ρβ=-Σρβ,m M 1 ,m i=lNPBi =Xlog(W^f)Λ=1N /1/2、dil —D 1/1Σ=(2π)k=l 、NPni =Xlog(W^f)k=\=NnogWk-YXodilnY11^t=i V ^NZ. .,/2'ι+ -全Ar=I其中,m為所獲取的測試說話人的語音數(shù)據(jù)的特征矢量的數(shù)量,/7:和/^分別為特 征矢量在通用背景模型Mb和注冊說話人模型Mr的第k個(gè)特征空間上的后驗(yàn)概率;Wk為每個(gè)特征空間的權(quán)重,Wt=I;以及N所述識(shí)別單元計(jì)算該測試說話人的語音數(shù)據(jù)對每個(gè)注冊說話人模型的打分PR_PB,取 得最大值Pmax并根據(jù)設(shè)定的閾值識(shí)別測試說話人
11. 一種說話人識(shí)別方法,包括 提取說話人的語音數(shù)據(jù)的特征矢量;對背景說話人的語音數(shù)據(jù)的特征矢量進(jìn)行內(nèi)部聚類并根據(jù)內(nèi)部聚類的結(jié)果生成針對 一般說話人的通用背景模型;利用每一個(gè)注冊說話人的語音數(shù)據(jù)的特征矢量對通用背景模型自適應(yīng),生成每一個(gè)注冊說話人的注冊說話人模型;計(jì)算測試說話人的特征矢量在通用背景模型和每一個(gè)注冊說話人的注冊說話人模型 上的度量值;以及根據(jù)所計(jì)算的度量值識(shí)別測試說話人。
12.根據(jù)權(quán)利要求11所述的說話人識(shí)別方法,其中生成通用背景模型包括 對背景說話人的語音數(shù)據(jù)的特征矢量進(jìn)行內(nèi)部聚類,以生成一系列特征子類; 從生成的所有背景說話人的特征子類中選擇聚類中心,以將所有特征子類進(jìn)行空間分割為特征空間;以及對每一個(gè)特征空間中包含的所有特征子類進(jìn)行表征,以生成針對一般說話人的通用 背景模型。
13.根據(jù)權(quán)利要求12所述的說話人識(shí)別方法,其中在內(nèi)部聚類中,對每一個(gè)背景說話 人的語音數(shù)據(jù)的特征矢量構(gòu)造一個(gè)KDTree并按照最近鄰原則進(jìn)行內(nèi)部聚類。
14.根據(jù)權(quán)利要求13所述的說話人識(shí)別方法,其中內(nèi)部聚類包括 提取背景說話人的有語音段的語音數(shù)據(jù)的特征矢量;將提取的特征矢量構(gòu)建為KDTree,使得每一層上各個(gè)根節(jié)點(diǎn)的左子樹上所有節(jié)點(diǎn)的 與該層對應(yīng)的維的特征矢量的值均小于該根節(jié)點(diǎn)的該維的特征矢量的值,每一層上各個(gè) 根節(jié)點(diǎn)的右子樹上所有節(jié)點(diǎn)的與該層對應(yīng)的維的特征矢量的值均大于該根節(jié)點(diǎn)的該維的 特征矢量的值;以及將所構(gòu)建的KDTree的任一層上的各個(gè)根節(jié)點(diǎn)及其子樹聚類成具有共同特點(diǎn)的特征子類。
15.根據(jù)權(quán)利要求14所述的說話人識(shí)別方法,其中對所述各個(gè)根節(jié)點(diǎn)進(jìn)行篩選,保留 對應(yīng)子節(jié)點(diǎn)個(gè)數(shù)多的根節(jié)點(diǎn)。
16.根據(jù)權(quán)利要求12至15任一所述的說話人識(shí)別方法,其中采用最大距離樣本法、 K-Mean法、最小距離法、類平均距離法或重心法從所生成的所有注冊說話人的特征子類 中選擇聚類中心。
17.根據(jù)權(quán)利要求12至15任一所述的說話人識(shí)別方法,其中用高斯函數(shù)表征每一個(gè) 特征空間中包含的所有特征子類。
18.根據(jù)權(quán)利要求12至15任一所述的說話人識(shí)別方法,其中計(jì)算每一個(gè)特征空間 中的所有特征子類包含的特征矢量的均值和方差,以得到每一個(gè)特征空間的正態(tài)分布函數(shù)。
19.根據(jù)權(quán)利要求18所述的說話人識(shí)別方法,其中生成注冊說話人模型包括 獲取注冊說話人的語音數(shù)據(jù)的特征矢量F ;對于每個(gè)特征矢量F,計(jì)算其對每個(gè)特征空間k的后驗(yàn)概率pk,Pk=——J21 ,1/2 expl-^-Cx-^fE-'Cx-//,)} > k=l,2,…,N, (2π) |Σλ| 1其中,μk為每一個(gè)特征空間中的所有特征子類包含的特征矢量的均值,ZkS每一個(gè) 特征空間中的所有特征子類包含的特征矢量的方差,N為特征空間劃分的數(shù)量,d為特征 維數(shù);計(jì)算更新因子《 =Y為經(jīng)驗(yàn)值;
20.根據(jù)權(quán)利要求19所述的說話人識(shí)別方法,其中在度量值計(jì)算中,獲取測試說話人的語音數(shù)據(jù)的特征矢量,并分別計(jì)算所獲取的測 試說話人的語音數(shù)據(jù)的所有特征矢量對通用背景模型Mb和注冊說話人模型Mr的后驗(yàn)概 率Pb和PR,
全文摘要
本發(fā)明公開了一種說話人識(shí)別系統(tǒng)及其方法。根據(jù)本發(fā)明的說話人識(shí)別系統(tǒng)包括特征提取單元,配置為提取說話人的語音數(shù)據(jù)的特征矢量;背景模型生成單元,配置為對背景說話人的語音數(shù)據(jù)的特征矢量進(jìn)行內(nèi)部聚類并根據(jù)內(nèi)部聚類的結(jié)果生成針對一般說話人的通用背景模型;注冊說話人模型生成單元,配置為利用每一個(gè)注冊說話人的語音數(shù)據(jù)的特征矢量對通用背景模型自適應(yīng),生成每一個(gè)注冊說話人的注冊說話人模型;度量值計(jì)算單元,配置為計(jì)算測試說話人的特征矢量在背景模型生成單元生成的通用背景模型和注冊說話人模型生成單元生成的每一個(gè)注冊說話人的注冊說話人模型上的度量值;以及識(shí)別單元,配置為根據(jù)度量值計(jì)算單元所計(jì)算的度量值識(shí)別測試說話人。
文檔編號G10L15/00GK102024455SQ20091017055
公開日2011年4月20日 申請日期2009年9月10日 優(yōu)先權(quán)日2009年9月10日
發(fā)明者劉昆, 吳偉國 申請人:索尼株式會(huì)社