一種基于多重自適應(yīng)的模型補(bǔ)償語(yǔ)音識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及到一種基于多重自適應(yīng)的模型補(bǔ)償語(yǔ)音識(shí)別方法,用矢量泰勒級(jí)數(shù)逼 近基環(huán)境與目標(biāo)環(huán)境之間的非線性環(huán)境變換關(guān)系,根據(jù)從測(cè)試語(yǔ)音中估得的環(huán)境偏差參 數(shù),更新聲學(xué)模型的均值和方差,將每次自適應(yīng)的結(jié)果作為基環(huán)境聲學(xué)模型,再次進(jìn)行模型 自適應(yīng),通過(guò)多次模型自適應(yīng)逼近非線性環(huán)境變換關(guān)系的多重模型自適應(yīng)方法;屬于語(yǔ)音 識(shí)別技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 在實(shí)際應(yīng)用中,加性背景噪聲是導(dǎo)致測(cè)試環(huán)境與訓(xùn)練環(huán)境不匹配的重要因素,而 且環(huán)境噪聲通常是難以避免地,一個(gè)在實(shí)驗(yàn)室安靜環(huán)境下精度很高的語(yǔ)音識(shí)別系統(tǒng)在噪聲 環(huán)境中識(shí)別性能會(huì)嚴(yán)重下降,甚至完全不能工作。因此,語(yǔ)音識(shí)別系統(tǒng)必須帶有噪聲補(bǔ)償模 塊,以提高實(shí)際應(yīng)用能力。模型自適應(yīng)是一種有效的環(huán)境補(bǔ)償方法,它根據(jù)測(cè)試環(huán)境下的少 量自適應(yīng)語(yǔ)音,對(duì)預(yù)先訓(xùn)練的聲學(xué)模型的參數(shù)進(jìn)行調(diào)整,使之與當(dāng)前測(cè)試環(huán)境相匹配,從而 減小環(huán)境失配的影響。
[0003] 目前的語(yǔ)音識(shí)別系統(tǒng)多數(shù)以美爾頻率倒譜系數(shù)(MFCC :Mel frequency cepstral coefficient)為特征參數(shù),以隱馬爾可夫模型(HMM:Hidden Markov Model)為聲學(xué)模型。 由于在MFCC的提取過(guò)程中存在取對(duì)數(shù)操作,因而在純凈語(yǔ)音和含噪語(yǔ)音的倒譜特征參數(shù) 之間存在非線性變換關(guān)系。為了從含噪語(yǔ)音中得到噪聲參數(shù)的閉式解,一般用矢量泰勒級(jí) 數(shù)(VTS:Vector Taylor Series)逼近這種非線性變換關(guān)系,對(duì)聲學(xué)模型的參數(shù)進(jìn)行自適應(yīng) 調(diào)整。在低信噪比等惡劣應(yīng)用環(huán)境下,由于純凈訓(xùn)練環(huán)境與含噪測(cè)試環(huán)境之間的差異較大, 線性泰勒級(jí)數(shù)展開式就難以很好地逼近實(shí)際非線性變換關(guān)系,因此模型自適應(yīng)得到的含噪 語(yǔ)音聲學(xué)模型與用大量含噪測(cè)試語(yǔ)音直接訓(xùn)練得到的理想聲學(xué)模型之間存在較大的差異。
【發(fā)明內(nèi)容】
[0004] 發(fā)明目的:針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提供一種基于多重自適應(yīng)的模型 補(bǔ)償語(yǔ)音識(shí)別方法,該方法將每次模型自適應(yīng)的結(jié)果作為新的基環(huán)境聲學(xué)模型,構(gòu)建其與 測(cè)試環(huán)境理想聲學(xué)模型之間的變換關(guān)系,對(duì)其參數(shù)再次進(jìn)行自適應(yīng)調(diào)整,通過(guò)多次自適應(yīng) 來(lái)減小用線性展開式替代非線性變換關(guān)系帶來(lái)的誤差,提高模型自適應(yīng)的精度。
[0005] 基環(huán)境與目標(biāo)環(huán)境之間的差異越小,用線性級(jí)數(shù)展開式逼近非線性變換的誤差就 越小。因此將模型自適應(yīng)后的聲學(xué)模型看作新的基環(huán)境聲學(xué)模型,它與理想聲學(xué)模型之間 的差異遠(yuǎn)遠(yuǎn)小于純凈語(yǔ)音聲學(xué)模型與理想聲學(xué)模型之間的差異。由于新的基環(huán)境聲學(xué)模型 與理想聲學(xué)模型都對(duì)應(yīng)著含噪測(cè)試語(yǔ)音,因而用噪聲偏差構(gòu)建它們之間的變換關(guān)系,對(duì)該 基環(huán)境聲學(xué)模型再次進(jìn)行模型自適應(yīng),可以減小用線性級(jí)數(shù)展開式替代非線性關(guān)系帶來(lái)的 誤差,進(jìn)一步提高模型自適應(yīng)的精度。
[0006] 技術(shù)方案:一種基于多重自適應(yīng)的模型補(bǔ)償語(yǔ)音識(shí)別方法,主要包括首次自適應(yīng)、 第2次自適應(yīng)和后續(xù)自適應(yīng)等模塊,在第2次自適應(yīng)和后續(xù)的每次自適應(yīng)中都包括正向自 適應(yīng)、負(fù)向自適應(yīng)和似然值比較三個(gè)子模塊,下面具體說(shuō)明其內(nèi)容。
[0007] (1)首次自適應(yīng):首次自適應(yīng)就是傳統(tǒng)的模型自適應(yīng)過(guò)程,用矢量泰勒級(jí)數(shù)逼近 含噪測(cè)試語(yǔ)音與純凈訓(xùn)練語(yǔ)音之間的非線性變換關(guān)系,從含噪測(cè)試語(yǔ)音中估計(jì)噪聲參數(shù), 對(duì)預(yù)先訓(xùn)練的純凈語(yǔ)音聲學(xué)模型的參數(shù)進(jìn)行變換,得到與實(shí)際測(cè)試環(huán)境較為匹配的含噪語(yǔ) 音聲學(xué)模型。
[0008] (2)第2次自適應(yīng):將首次自適應(yīng)得到的自適應(yīng)聲學(xué)模型作為新的基環(huán)境聲學(xué)模 型,用噪聲偏差構(gòu)建其與測(cè)試環(huán)境理想聲學(xué)模型之間的變換關(guān)系,再次進(jìn)行模型自適應(yīng);由 于實(shí)際含噪測(cè)試語(yǔ)音與基環(huán)境聲學(xué)模型對(duì)應(yīng)的含噪測(cè)試語(yǔ)音在線性譜域的偏差存在正負(fù) 兩種情況,因此第2次自適應(yīng)及后續(xù)的每次自適應(yīng)都需要通過(guò)正向和負(fù)向兩次自適應(yīng)來(lái)實(shí) 現(xiàn)。
[0009] (3)正向自適應(yīng):在正向自適應(yīng)中,假設(shè)實(shí)際含噪測(cè)試語(yǔ)音的線性譜特征與基環(huán) 境聲學(xué)模型對(duì)應(yīng)的含噪語(yǔ)音的線性譜特征之間的差值為正值,構(gòu)建兩種含噪環(huán)境之間的變 換關(guān)系,調(diào)整基環(huán)境聲學(xué)模型的參數(shù),得到含噪語(yǔ)音聲學(xué)模型及似然值。
[0010] (4)負(fù)向自適應(yīng):在負(fù)向自適應(yīng)中,假設(shè)實(shí)際含噪測(cè)試語(yǔ)音的線性譜特征與基環(huán) 境聲學(xué)模型對(duì)應(yīng)的含噪語(yǔ)音的線性譜特征之間的差值為負(fù)值,構(gòu)建兩種含噪環(huán)境之間的變 換關(guān)系,調(diào)整基環(huán)境聲學(xué)模型的參數(shù),得到含噪語(yǔ)音聲學(xué)模型及似然值。
[0011] (5)似然值比較:正向自適應(yīng)和負(fù)向自適應(yīng)得到的聲學(xué)模型中只有一個(gè)是正確的 結(jié)果,取輸出似然值較大的含噪語(yǔ)音聲學(xué)模型作為模型自適應(yīng)的結(jié)果。
[0012] (6)后續(xù)自適應(yīng):如果要進(jìn)一步提高模型自適應(yīng)的精度,可以將第2次自適應(yīng)的結(jié) 果作為新的基聲學(xué)模型,再次進(jìn)行模型自適應(yīng);考慮到模型自適應(yīng)的計(jì)算量較大,且多重自 適應(yīng)的收斂性較好,后續(xù)自適應(yīng)的次數(shù)不宜過(guò)多,通用有1到2次即可。
[0013] 用兩種含噪語(yǔ)音噪聲的偏差構(gòu)建非線性環(huán)境變換關(guān)系,再用矢量泰勒級(jí)數(shù)從含噪 測(cè)試語(yǔ)音中估計(jì)噪聲偏差的均值和方差,根據(jù)估得的偏差參數(shù)調(diào)整基環(huán)境聲學(xué)模型的均值 和方差,使之與實(shí)際測(cè)試環(huán)境更加匹配。
【附圖說(shuō)明】
[0014] 圖1為基于多重自適應(yīng)的模型補(bǔ)償語(yǔ)音識(shí)別系統(tǒng)總體框架圖。
【具體實(shí)施方式】
[0015] 下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說(shuō)明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià) 形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。
[0016] 如圖1所示,基于多重自適應(yīng)的模型補(bǔ)償語(yǔ)音識(shí)別方法包括首次自適應(yīng)、第2次自 適應(yīng)和后續(xù)自適應(yīng)等模塊。在第2次自適應(yīng)和后續(xù)的每次自適應(yīng)中都包括正向自適應(yīng)、負(fù) 向自適應(yīng)和似然值比較三個(gè)子模塊。下面具體說(shuō)明其內(nèi)容。
[0017] 1、首次自適應(yīng)
[0018] 首次自適應(yīng)就是傳統(tǒng)模型自適應(yīng)過(guò)程,其目的是將訓(xùn)練階段預(yù)先訓(xùn)練的純凈語(yǔ) 音聲學(xué)模型轉(zhuǎn)換為含噪語(yǔ)音聲學(xué)模型,用于模型自適應(yīng)的噪聲參數(shù)利用最大期望(EM: Expectation-Maximization)算法從含噪語(yǔ)音中估計(jì)。設(shè)語(yǔ)音識(shí)別系統(tǒng)以HMM為每個(gè)基本 語(yǔ)音單元的聲學(xué)模型,以MFCC為特征參數(shù)。對(duì)第k個(gè)HMM的第i個(gè)狀態(tài)的第m個(gè)高斯單元, 含噪語(yǔ)音的均值向量μ y,klB1和協(xié)方差矩陣易&可以分別表示為:
[0021] 其中,仏."和分別表不純凈語(yǔ)音的均值向量和協(xié)方差矩陣;μ η、μ n。和?。分 別表示加性噪聲的均值向量、初始均值向量和協(xié)方差矩陣;C和c 1分別表示離散余弦變換 (DCT :Discrete Cosine Transform)矩陣及其逆矩陣;I表示單位矩陣;Ukim由下式給出:
[0023] 式(3)中diag()表示以括號(hào)中向量的元素為對(duì)角元素生成對(duì)角矩陣。
[0024] 噪聲均值μ n的估計(jì)公式為:
[0026] 其中,ykim(t) = Ρ( Θ t= i,δ t= m|Y, λ k),表示給定觀測(cè)向量序列Y = {yi,… ,yt,…,yT}和第k個(gè)HMM的先驗(yàn)參數(shù)集λ ,的條件下,第t幀向量屬于該HMM第i個(gè)狀態(tài)的 第m個(gè)高斯單元的后驗(yàn)概率。
[0027] 噪聲方差Ση的估計(jì)公式為:
[0029] 其中,〇y ni、〇x ni、。"是分別用Σ y ni、Σχ ηι、Σ,對(duì)角元素生成的方差向量;Vf 1-1;操作符.*表示矩陣的點(diǎn)乘運(yùn)算,即兩個(gè)相同維數(shù)的矩陣的對(duì)應(yīng)元素相乘;加權(quán)因子 Gkini的表達(dá)式如下:
[0031] 2、第2次自適應(yīng)
[0032] 通過(guò)首次自適應(yīng)得到的含噪語(yǔ)音聲學(xué)模型已與實(shí)際環(huán)境下的理想聲學(xué)模型較為 接近,但是由于純凈訓(xùn)練語(yǔ)音與含噪測(cè)試語(yǔ)音的差異較大,線性級(jí)數(shù)展開式(1)和(2)不能 很好地反應(yīng)實(shí)際非線性環(huán)境變換關(guān)系,因此首次自適應(yīng)得到的含噪語(yǔ)音聲學(xué)模型與理想聲 學(xué)模型仍有一定偏差。在非線性變換關(guān)系中,因變量與自變量之間的差異越小,線性近似就 越接近于非線性變換,因此只要對(duì)首次自適應(yīng)的結(jié)果再次進(jìn)行模型自適應(yīng),就可以提高模 型自適應(yīng)的精度。
[0033] 為了便于描述,這里用yt表示首次自適應(yīng)后的含噪語(yǔ)音聲學(xué)模型對(duì)應(yīng)的特征向 量,用%表示理想聲學(xué)模型對(duì)應(yīng)的特征向量,y ,和〇 t都是含噪語(yǔ)音特征向量,它們的關(guān)系可 以表示為:
[0034] ot= Clog(exp(C Υ) 土 exp(C \)) (7)
[0035] 其中,bt是兩種含噪語(yǔ)音在線性譜域的偏差所對(duì)應(yīng)的倒譜特征。由式(7)包含兩 種不同的變換關(guān)系,因此就需要正向和負(fù)向兩種自適應(yīng)來(lái)實(shí)現(xiàn)。在正向自適應(yīng)中,變換關(guān)系 為:
[0036] ot= Clog (exp (C Vt)+exP (C ) (8)
[0037] 正向自適應(yīng)的變換方法與首次自適應(yīng)基本相同,其參數(shù)變換公式為:
[0040] 其中,a和·分別表不〇t的均值向量和協(xié)方差矩陣;μ b、μ b。和? b分別表不