偏差bt的均值向量、初始均值向量和協(xié)方差矩陣;在計(jì)算1]^時(shí),式⑶中的μ Xikini和μ n。 需分別替換為yy,kini和μ b。。
[0041] 變換參數(shù)μ# Σ b的估計(jì)公式為:
[0044] 在計(jì)算Gkin時(shí),式(6)中的σ x kin^P σ n。需分別替換為σ y kin和σ b。。
[0045] 在負(fù)向自適應(yīng)中,變換關(guān)系為:
[0047] 將式(13)中的變量省略下標(biāo)t,并在定點(diǎn)(μ y, μ J處用一階矢量泰勒級(jí)數(shù)(VTS : Vector Taylor Series)展開,可以得到如下的線性近似式:
[0049] 其中U由下式?jīng)Q定:
[0051] 對(duì)式(14)分別取均值和方差,即可得到兩種模型的參數(shù)變換公式:
[0054] 對(duì)第k個(gè)HMM的第i個(gè)狀態(tài)的第m個(gè)高斯單元,式(16)和(17)可以分別表示為:
[0057]其中,〇〇 y,kini、〇 b分別是用Σ。>、Xy,kini、的對(duì)角元素生成的方差向量; Ukin由式(15)決定。
[0058] 將式(18)和(19)分別代入EM算法的輔助函數(shù),并分別令輔助函數(shù)關(guān)于μ ,和〇 b的導(dǎo)數(shù)等于〇,即可得到μ#Ρ σ b的估計(jì)公式:
[0062] 首次自適應(yīng)得到的聲學(xué)模型經(jīng)過正向自適應(yīng)和負(fù)向自適應(yīng)后,各自得到一組含噪 語音聲學(xué)模型,通過比較兩個(gè)自適應(yīng)模塊的似然值,選取似然值較大的含噪語音聲學(xué)模型 作為模型自適應(yīng)的結(jié)果。
[0063] 3、后續(xù)自適應(yīng)
[0064] 由于首次自適應(yīng)后的聲學(xué)模型與理想聲學(xué)模型已經(jīng)較為接近,因此矢量泰勒級(jí)數(shù) 展開式與實(shí)際非線性環(huán)境變換關(guān)系的偏差很小,第2次自適應(yīng)的結(jié)果與理想聲學(xué)模型的偏 差進(jìn)一步縮小。如果要繼續(xù)提高模型自適應(yīng)的精度,可以通過后續(xù)自適應(yīng)進(jìn)一步改進(jìn)模型 參數(shù)。后續(xù)自適應(yīng)的過程與第2次自適應(yīng)相同,都是用上一次自適應(yīng)的結(jié)果作為基模型,構(gòu) 建矢量泰勒級(jí)數(shù)近似式,根據(jù)估得的含噪語音的偏差參數(shù),更新聲學(xué)模型的均值和方差???慮到模型自適應(yīng)的計(jì)算量較大,且多重自適應(yīng)的收斂性較好,后續(xù)自適應(yīng)的次數(shù)不宜過多, 一般有1到2次即可,或者直接用第2次自適應(yīng)的聲學(xué)模型作為最終模型自適應(yīng)的結(jié)果。
【主權(quán)項(xiàng)】
1. 一種基于多重自適應(yīng)的模型補(bǔ)償語音識(shí)別方法,其特征在于,包括如下內(nèi)容: (1) 通過首次自適應(yīng)對(duì)純凈語音聲學(xué)模型的參數(shù)進(jìn)行變換,得到與實(shí)際測(cè)試環(huán)境較為 匹配的含噪語音聲學(xué)模型; (2) 將首次自適應(yīng)得到的含噪語音聲學(xué)模型作為新的基環(huán)境聲學(xué)模型,構(gòu)建其對(duì)應(yīng)的 含噪語音與實(shí)際環(huán)境含噪測(cè)試語音之間的變換關(guān)系,對(duì)基環(huán)境聲學(xué)模型再次進(jìn)行模型自適 應(yīng); (3) 由于兩種含噪語音在線性譜域存在正、負(fù)兩種可能的偏差,因此在第2次自適應(yīng)及 后續(xù)的每次自適應(yīng)中,通過正向自適應(yīng)和負(fù)向自適應(yīng)各自得到一組含噪語音聲學(xué)模型及其 輸出似然值; (4) 對(duì)正向自適應(yīng)和負(fù)向自適應(yīng)的輸出似然值進(jìn)行比較,選取輸出似然值較大的含噪 語音聲學(xué)模型作為該次模型自適應(yīng)的結(jié)果; (5) 進(jìn)行后續(xù)自適應(yīng),在后續(xù)自適應(yīng)中重復(fù)第2次自適應(yīng)的過程。2. 如權(quán)利要求1所述的基于多重自適應(yīng)的模型補(bǔ)償語音識(shí)別方法,其特征在于,后續(xù) 自適應(yīng)的次數(shù)為1到2次。3. 如權(quán)利要求1所述的基于多重自適應(yīng)的模型補(bǔ)償語音識(shí)別方法,其特征在于,首次 自適應(yīng)中用矢量泰勒級(jí)數(shù)逼近含噪測(cè)試語音與純凈訓(xùn)練語音之間的非線性變換關(guān)系,從含 噪測(cè)試語音中估計(jì)噪聲參數(shù),對(duì)預(yù)先訓(xùn)練的純凈語音聲學(xué)模型的參數(shù)進(jìn)行變換,得到與實(shí) 際測(cè)試環(huán)境較為匹配的含噪語音聲學(xué)模型。4. 如權(quán)利要求1所述的基于多重自適應(yīng)的模型補(bǔ)償語音識(shí)別方法,其特征在于,第2次 自適應(yīng):將首次自適應(yīng)得到的自適應(yīng)聲學(xué)模型作為新的基環(huán)境聲學(xué)模型,用噪聲偏差構(gòu)建 其與測(cè)試環(huán)境理想聲學(xué)模型之間的變換關(guān)系,再次進(jìn)行模型自適應(yīng);由于實(shí)際含噪測(cè)試語 音與基環(huán)境聲學(xué)模型對(duì)應(yīng)的含噪測(cè)試語音在線性譜域的偏差存在正負(fù)兩種情況,因此第2 次自適應(yīng)及后續(xù)的每次自適應(yīng)都需要通過正向和負(fù)向兩次自適應(yīng)來實(shí)現(xiàn); 正向自適應(yīng):在正向自適應(yīng)中,假設(shè)實(shí)際含噪測(cè)試語音的線性譜特征與基環(huán)境聲學(xué)模 型對(duì)應(yīng)的含噪語音的線性譜特征之間的差值為正值,構(gòu)建兩種含噪環(huán)境之間的變換關(guān)系, 調(diào)整基環(huán)境聲學(xué)模型的參數(shù),得到含噪語音聲學(xué)模型及似然值; 負(fù)向自適應(yīng):在負(fù)向自適應(yīng)中,假設(shè)實(shí)際含噪測(cè)試語音的線性譜特征與基環(huán)境聲學(xué)模 型對(duì)應(yīng)的含噪語音的線性譜特征之間的差值為負(fù)值,構(gòu)建兩種含噪環(huán)境之間的變換關(guān)系, 調(diào)整基環(huán)境聲學(xué)模型的參數(shù),得到含噪語音聲學(xué)模型及似然值; 似然值比較:正向自適應(yīng)和負(fù)向自適應(yīng)得到的聲學(xué)模型中只有一個(gè)是正確的結(jié)果,取 輸出似然值較大的含噪語音聲學(xué)模型作為模型自適應(yīng)的結(jié)果。5. 如權(quán)利要求1所述的基于多重自適應(yīng)的模型補(bǔ)償語音識(shí)別方法,其特征在于,設(shè)語 音識(shí)別系統(tǒng)以HMM為每個(gè)基本語音單元的聲學(xué)模型,以MFCC為特征參數(shù)。對(duì)第k個(gè)HMM的 第i個(gè)狀態(tài)的第m個(gè)高斯單元,含噪語音的均值向量μ yikini和協(xié)方差矩陣可以分別表 示為:其中,A和分別表不純凈語音的均值向量和協(xié)方差矩陣;μη、μn。和Ση分別表 不加性噪聲的均值向量、初始均值向量和協(xié)方差矩陣;C和C 1分別表不尚散余弦變換矩陣 及其逆矩陣;I表示單位矩陣;ukini由下式給出:式(3)中diag ()表示以括號(hào)中向量的元素為對(duì)角元素生成對(duì)角矩陣; 噪聲均值μ n的估計(jì)公式為:其中,y kim⑴=ρ( Θ t= i, δ t= m|Y, λ k),表示給定觀測(cè)向量序列Y = {yi,…,yt,… ,yT}和第k個(gè)HMM的先驗(yàn)參數(shù)集λ ,的條件下,第t幀向量屬于該HMM第i個(gè)狀態(tài)的第m個(gè) 高斯單元的后驗(yàn)概率。 噪聲方差Ση的估計(jì)公式為:其中,。〇η是分別用Σ ρ、Σχ,對(duì)角元素生成的方差向量;Vni= I-Uni; 操作符· *表示矩陣的點(diǎn)乘運(yùn)算,即兩個(gè)相同維數(shù)的矩陣的對(duì)應(yīng)元素相乘;加權(quán)因子GkllJ9 表達(dá)式如下:6.如權(quán)利要求5所述的基于多重自適應(yīng)的模型補(bǔ)償語音識(shí)別方法,其特征在于, 用yt表示首次自適應(yīng)后的含噪語音聲學(xué)模型對(duì)應(yīng)的特征向量,用〇 t表示理想聲學(xué)模型 對(duì)應(yīng)的特征向量,yJP 〇 是含噪語音特征向量,它們的關(guān)系可以表示為: Ot= Clog (exp (C 1Yt) 土 exp (C \)) (7) 其中,bt是兩種含噪語音在線性譜域的偏差所對(duì)應(yīng)的倒譜特征;由式(7)包含兩種不 同的變換關(guān)系,因此就需要正向和負(fù)向兩種自適應(yīng)來實(shí)現(xiàn);在正向自適應(yīng)中,變換關(guān)系為: Ot= Clog (exp (C Vt) +exp (C ^t)) (8) 正向自適應(yīng)的變換方法與首次自適應(yīng)基本相同,其參數(shù)變換公式為:其中,和2^分別表不Ot的均值向量和協(xié)方差矩陣;y b、1^。和Σ b分別表不偏差 bt的均值向量、初始均值向量和協(xié)方差矩陣;在計(jì)算Ukln^,式⑶中的μ Xikl,μ n。需分 別替換為yy,kini和μ bQ; 變換參數(shù)&和Σ b的估計(jì)公式為:在計(jì)算G-時(shí),式(6)中的。x,kini和。n。需分別替換為。 y,kl"和。b。; 在負(fù)向自適應(yīng)中,變換關(guān)系為: Ot= Clog (exp (C Vt) _exp (C ^t)) (13) 將式(13)中的變量省略下標(biāo)t,并在定點(diǎn)(μ y, μ J處用一階矢量泰勒級(jí)數(shù)(VTS : Vector Taylor Series)展開,可以得到如下的線性近似式:其中U由下式?jīng)Q定:對(duì)式(14)分別取均值和方差,即可得到兩種模型的參數(shù)變換公式:) 對(duì)第k個(gè)HMM的第i個(gè)狀態(tài)的第m個(gè)高斯單元,式(16)和(17)可以分別表示為:其中,0d,kim、0y,kim、0b分力U是用Z d,kim、Zy,kim、Zb的對(duì)角兀素生成的方差向里;Ukim 由式(15)決定; 將式(18)和(19)分別代入EM算法的輔助函數(shù),并分別令輔助函數(shù)關(guān)于μ ,和〇 ,的 導(dǎo)數(shù)等于〇,即可得到μ#ρ σ b的估計(jì)公式:首次自適應(yīng)得到的聲學(xué)模型經(jīng)過正向自適應(yīng)和負(fù)向自適應(yīng)后,各自得到一組含噪語音 聲學(xué)模型,通過比較兩個(gè)自適應(yīng)模塊的似然值,選取似然值較大的含噪語音聲學(xué)模型作為 模型自適應(yīng)的結(jié)果。
【專利摘要】本發(fā)明公開一種基于多重自適應(yīng)的模型補(bǔ)償語音識(shí)別方法,首先對(duì)訓(xùn)練環(huán)境下預(yù)先訓(xùn)練的純凈語音聲學(xué)模型的參數(shù)進(jìn)行變換,得到與實(shí)際測(cè)試環(huán)境較為匹配的含噪語音聲學(xué)模型;然后將首次自適應(yīng)得到的含噪語音聲學(xué)模型作為新的基環(huán)境聲學(xué)模型,構(gòu)建其對(duì)應(yīng)的含噪語音與實(shí)際環(huán)境含噪測(cè)試語音之間的變換關(guān)系,對(duì)基環(huán)境聲學(xué)模型再次進(jìn)行模型自適應(yīng),包括正向自適應(yīng)和負(fù)向自適應(yīng);最后比較正向自適應(yīng)和負(fù)向自適應(yīng)的輸出似然值,取似然值較大的含噪語音聲學(xué)模型作為該次模型自適應(yīng)的結(jié)果。本發(fā)明可以進(jìn)一步提高模型自適應(yīng)的精度,得到與實(shí)際測(cè)試環(huán)境更加匹配的含噪語音聲學(xué)模型。
【IPC分類】G10L15/065
【公開號(hào)】CN105355198
【申請(qǐng)?zhí)枴緾N201510685551
【發(fā)明人】呂勇
【申請(qǐng)人】河海大學(xué)
【公開日】2016年2月24日
【申請(qǐng)日】2015年10月20日