專利名稱:連續(xù)數(shù)字識別的聲韻母跨詞建模、解碼方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明專利涉及漢語連續(xù)數(shù)字語音識別的建模方法,解碼方法和系統(tǒng)。更具體地講,涉及一種用于漢語連續(xù)數(shù)字識別的聲、韻跨詞建模和搜索解碼方法和系統(tǒng)。
背景技術(shù):
語音識別技術(shù)是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語音識別技術(shù)與語音合成技術(shù)相結(jié)合可以使人們通過語音的輸入來甩掉鍵盤,通過語音命令進(jìn)行操作,與機(jī)器進(jìn)行語音交流。近二十年來,隨著計算機(jī)技術(shù)的飛速發(fā)展,語音識別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場。人們預(yù)計,未來10年內(nèi),語音識別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個領(lǐng)域。
連續(xù)對數(shù)字進(jìn)行識別屬于小詞匯語音識別技術(shù)的一種,具有非常重要的研究價值和廣闊的應(yīng)用前景。其應(yīng)用之一是移動電話或車載電話上的數(shù)字語音撥號系統(tǒng)。在很多場合下,如在開車、操作等手處忙碌的狀態(tài)下,在黑暗環(huán)境中,在用戶的視力、手部有傷殘的情況下,用手指撥電話號碼是很不方便或不安全的。此時最自然的方式就是采用語音撥號,這就必然需要高效的連續(xù)數(shù)字語音識別技術(shù)。連續(xù)數(shù)字識別還可以用于家電遙控。利用語音實(shí)現(xiàn)家電遙控是智能化家電的一個必然發(fā)展方向,其中不可避免地會用到連續(xù)數(shù)字串識別技術(shù),比如設(shè)定電視機(jī)的頻道、設(shè)定空調(diào)的溫度、洗衣機(jī)的定時等。此外,在工業(yè)控制領(lǐng)域中,連續(xù)數(shù)字識別也大有用武之地,利用語音控制,可以避免復(fù)雜的控制面板。
數(shù)字語音識別的對象非常簡單,包括0~9共十個數(shù)字(還有0和1的異讀等,如1讀做“么”)。但是由于數(shù)字之間是任意連接的,在連續(xù)發(fā)音時還有很嚴(yán)重的吞音和音變,這就造成了連續(xù)數(shù)字識別的困難。
以往的數(shù)字識別方法,通常采用整字建模方式(如圖1中的第2行所示),也就是為每個數(shù)字建立一個單獨(dú)的隱馬爾可夫模型,每個隱馬爾可夫模型由8到10個狀態(tài)組成。在模型訓(xùn)練初始階段,對應(yīng)一個數(shù)字發(fā)音的語音樣本被等長地劃分為8到10段,每一段分別對應(yīng)隱馬爾可夫模型中的一個狀態(tài)。這種基于整字建模的方式,可以比較好地刻畫數(shù)字內(nèi)部的協(xié)同發(fā)音現(xiàn)象,目前在數(shù)字識別系統(tǒng)中應(yīng)用比較普遍。這種整字建模方式,在英語等西方語種的數(shù)字識別系統(tǒng)中取得了不錯的效果;但是對于漢語數(shù)字識別來講,這種整字建模方式的效果并不理想。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種適用于漢語連續(xù)數(shù)字識別的跨詞建模和搜索方法及系統(tǒng)。該方法在聲學(xué)建模階段充分考慮漢語數(shù)字發(fā)音的特點(diǎn),相對傳統(tǒng)的建模方法,更加強(qiáng)調(diào)對數(shù)字的聲母部分進(jìn)行精確描述;聲母左相關(guān)、韻母右相關(guān)的跨詞建模方式可以有效提高模型對于連續(xù)數(shù)字語音的描述能力;結(jié)合上述跨詞模型的特點(diǎn),設(shè)計了格式解碼算法,可以在識別階段實(shí)現(xiàn)快速搜索解碼。
根據(jù)本發(fā)明的一個方面,提供一種用于漢語連續(xù)數(shù)字識別的聲學(xué)建模方法,包括步驟a)為漢語連續(xù)數(shù)字的不同的聲、韻母單獨(dú)建立模型;b)定義漢語連續(xù)數(shù)字的上下文相關(guān)性,建立上下文相關(guān)的聲學(xué)模型,以準(zhǔn)確刻畫連續(xù)數(shù)字語音c)以隱馬爾可夫(HMM)模型為基本模型表示,利用狀態(tài)聚類算法對連續(xù)數(shù)字的隱馬爾可夫模型的參數(shù)進(jìn)行訓(xùn)練,得到連續(xù)數(shù)字聲學(xué)模型。
根據(jù)本發(fā)明的另一個方面,提供一種漢語連續(xù)數(shù)字識別的聲學(xué)建模系統(tǒng),包括特征提取裝置,用于接收語音樣本,提取原始語音信號的特征參數(shù);和隱馬爾科夫模型訓(xùn)練裝置,用于根據(jù)所述特征提取裝置提供的所述特征參數(shù)生成以聲母、韻母為基本單元的上下文相關(guān)聲學(xué)模型。
根據(jù)本發(fā)明的再一個方面,提供一種漢語連續(xù)數(shù)字識別的聲學(xué)建模系統(tǒng),包括漢語連續(xù)數(shù)字語音提供裝置,用于提供漢語連續(xù)數(shù)字語音;特征提取裝置,用于接收所述漢語連續(xù)數(shù)字語音提供裝置提供數(shù)字語音樣本,提取原始語音信號的特征參數(shù);漢語連續(xù)數(shù)字文字腳本庫,用于提供對輸入的漢語連續(xù)數(shù)字語音進(jìn)行隱馬爾科夫模型訓(xùn)練的文字腳本;和隱馬爾科夫模型訓(xùn)練裝置,用于存儲所述特征提取裝置提供的特征參數(shù),根據(jù)所述特征提取裝置提供的所述特征參數(shù)生成以聲母、韻母為基本單元的上下文相關(guān)聲學(xué)模型。
根據(jù)本發(fā)明的再一個方面,提供一種漢語連續(xù)數(shù)字的聲母、韻母跨詞搜索解碼方法,包括步驟a)初始化漢語連續(xù)數(shù)字的搜索解碼過程,生成待識別漢語連續(xù)數(shù)字的初始活動路徑;b)對生成的所述漢語連續(xù)數(shù)字的初始活動路徑進(jìn)行路徑擴(kuò)展,以檢驗(yàn)所有可能的路徑并保存的歷史路徑信息;和c)根據(jù)路徑擴(kuò)展中保存的歷史路徑信息,從后向前回溯得到最終識別結(jié)果。
根據(jù)本發(fā)明的再一個方面,提供一種用于漢語連續(xù)數(shù)字識別的搜索解碼的系統(tǒng),包括特征提取裝置,用于從輸入的語音信號中提出特征參數(shù);上下文相關(guān)聲學(xué)模型庫,用于提供根據(jù)權(quán)利要求1所述的漢語連續(xù)數(shù)字識別的聲學(xué)建模方法提供的連續(xù)數(shù)字聲學(xué)模型;漢語連續(xù)數(shù)字解碼網(wǎng)絡(luò),用于在語言層面上對搜索空間進(jìn)行約束;和搜索解碼裝置,用于根據(jù)所述特征提取裝置提供的所述特征參數(shù),在所述漢語連續(xù)數(shù)字解碼網(wǎng)絡(luò)規(guī)定的搜索空間內(nèi)搜索所述特征參數(shù)得分最大的路徑作為最終識別結(jié)果。
根據(jù)本發(fā)明的再一個方面,提供一種用于漢語連續(xù)數(shù)字識別的搜索解碼的系統(tǒng),包括搜索過程初始化裝置,用于裝載漢語連續(xù)數(shù)字解碼網(wǎng)絡(luò)和隱馬爾可夫聲學(xué)模型,生成待識別漢語連續(xù)數(shù)字的初始活動路徑,并分配并初始化算法所需的空間資源;路徑擴(kuò)展裝置,用于在隱馬爾可夫模型的狀態(tài)間、模型間和詞間展開路徑擴(kuò)展,以檢驗(yàn)所有可能的路徑并保存歷史路徑信息;和從后向前回溯保留的歷史路徑以得到最終識別結(jié)果的裝置。
另外,本發(fā)明還提供了存儲執(zhí)行所述用于漢語連續(xù)數(shù)字的聲學(xué)建模方法,和漢語連續(xù)數(shù)字的搜索解碼方法的程序的記錄介質(zhì)。
通過下面結(jié)合附圖對用于解釋,而不是限制本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,將使本發(fā)明的上述及其它目的、特征和優(yōu)點(diǎn)更加清楚,其中圖1是表示根據(jù)本發(fā)明的基本建模單元與現(xiàn)有技術(shù)的基本建模單元對比的示意圖;圖2是根據(jù)本發(fā)明實(shí)施例的聲學(xué)建模系統(tǒng)的方框圖;圖3是常用的隱馬爾可夫模型的拓?fù)浣Y(jié)構(gòu)示意圖;圖4是根據(jù)本發(fā)明實(shí)施例的數(shù)字識別聲學(xué)建模的模型訓(xùn)練的流程圖;圖5是基于狀態(tài)聚類的HMM模型訓(xùn)練流程圖;圖6是根據(jù)本發(fā)明的HMM模型狀態(tài)聚類算法的流程圖;圖7是HMM模型狀態(tài)聚類共享輸出分布示意圖;圖8是表示根據(jù)本發(fā)明實(shí)施例的搜索解碼系統(tǒng)的方框圖;圖9是表示漢語連續(xù)數(shù)字識別的搜索解碼空間;圖10是連續(xù)數(shù)字識別跨詞搜索解碼算法的流程圖;和圖11是連續(xù)數(shù)字識別跨詞解碼的路徑擴(kuò)展的流程圖。
具體實(shí)施方案下面首先說明語音識別的基本原理。語音識別包括兩個基本過程,即訓(xùn)練過程和識別過程。訓(xùn)練過程的主要任務(wù)是利用大量語音訓(xùn)練樣本,建立聲學(xué)模型,用于描述聲學(xué)層知識。在復(fù)雜的識別系統(tǒng)中,還需要利用大量的文本語料,訓(xùn)練語言模型,用于描述語言層知識。在識別過程中,利用訓(xùn)練過程中得到的聲學(xué)模型和語言模型,對待測語音樣本進(jìn)行解碼,將其識別為文本。
和英語等語種相比,漢語數(shù)字識別問題更為困難,主要是由于漢語數(shù)字發(fā)音更容易混淆造成的??疾鞚h語數(shù)字發(fā)音及實(shí)際的系統(tǒng),現(xiàn)有技術(shù)中的整字建模方式不太適合漢語數(shù)字識別。
通過觀察分析漢語數(shù)字的發(fā)音,從中發(fā)現(xiàn)一定的規(guī)律,找到適合漢語特點(diǎn)的建模方式。漢語10個數(shù)字的發(fā)音如表1所示表1.漢語數(shù)字發(fā)音及發(fā)音長度統(tǒng)計
從表1中可以看出,漢語數(shù)字的發(fā)音之間的混淆性很大,有多組數(shù)字很接近,如6和9、1和7、2和8等。這些數(shù)字發(fā)音的特點(diǎn)是,它們的韻母是相同或相近的,只有聲母部分有差異。因此只有很好地區(qū)分其聲母部分,才有可能正確地區(qū)分識別這些數(shù)字。但是困難恰恰在于,由于語音能量更多地集中于韻母段的緣故,語音識別中聲母識別的難度要遠(yuǎn)遠(yuǎn)高于韻母識別。因此,在建模過程中突出聲母,增強(qiáng)模型對聲母部分的描述能力,才能更好地識別聲母,從而達(dá)到提高系統(tǒng)的識別性能的目的。很顯然,現(xiàn)有技術(shù)中采用的整字建模方式?jīng)]有考慮到這一點(diǎn)。
另外,表1中還給出了10個數(shù)字的聲母發(fā)音長度和韻母發(fā)音長度等兩組數(shù)據(jù),長度的單位是幀(相當(dāng)于12ms)。根據(jù)統(tǒng)計數(shù)據(jù)可以發(fā)現(xiàn),從時長來看,漢語數(shù)字聲母發(fā)音普遍短于韻母發(fā)音(只有少數(shù)例外),而且這種差別是非常顯著的。在傳統(tǒng)的整字建模方法中,對訓(xùn)練樣本均勻分段并對應(yīng)到不同的狀態(tài),在這種方式下更多的狀態(tài)被用來描述韻母部分,在客觀上是強(qiáng)調(diào)了韻母而非聲母,這與前面提到的強(qiáng)化對聲母部分的刻畫能力是背道而馳的。因此,應(yīng)該突出聲母部分的重要性,至少要將其與韻母部分同等對待。
基于上述分析,本發(fā)明提出了在漢語數(shù)字識別中以聲、韻母為基本建模單元。就是說,為不同的聲、韻母單獨(dú)建立模型。根據(jù)本發(fā)明定義的基本建模單元如下面的表2所示。
表2.漢語數(shù)字識別聲、韻母基本建模單元
應(yīng)當(dāng)指出的是在本發(fā)明中,定義聲、韻母基本單元的方式也有別于傳統(tǒng)的定義方法。從表2中可以看到,盡管某些數(shù)字的聲母或韻母部分是相同的,但只要這些聲、韻母不是位于相同的數(shù)字發(fā)音中,我們都將它們定義成單獨(dú)的建模單元。例如,l(ing)和l(iu),y(i)和y(ao),s(an)和s(i),i(y)、i(s)和i(q),iu(j)和iu(l)等??梢园堰@樣的定義方式稱之為區(qū)分定義方式。與現(xiàn)有技術(shù)的方法相比,盡管增加了基本單元的數(shù)量,但是由此帶來的便利在模型訓(xùn)練的后續(xù)步驟中得到充分體現(xiàn),同時也使得本發(fā)明中涉及的快速解碼算法成為可能。
此外,如上所述,漢語數(shù)字識別的困難還在于數(shù)字連續(xù)發(fā)音時產(chǎn)生的大量音變現(xiàn)象。例如,連續(xù)兩個數(shù)字“5”組成的數(shù)字串“55”和一個發(fā)音拖長的數(shù)字“5”是很難區(qū)分的,類似的情況還有數(shù)字“1”等。這種現(xiàn)象對識別系統(tǒng)的性能影響很大,可以說是漢語連續(xù)數(shù)字識別中的一大難題。
語音識別中,解決這類問題的方法是建立上下文相關(guān)的聲學(xué)模型,用于準(zhǔn)確刻畫連續(xù)語音。所謂上下文,就是指與當(dāng)前的基本單元(在本實(shí)施例中是聲、韻母)直接相連,位于其左邊和右邊的其它若干建模單元。Triphone模型是指同時考慮左邊和右邊基本建模單元的聲學(xué)模型;Diphone是指僅考慮左邊或右邊一側(cè)的基本單元的聲學(xué)模型。
圖1是表示根據(jù)本發(fā)明的基本建模單元與現(xiàn)有技術(shù)的基本建模單元對比的示意圖。在現(xiàn)有技術(shù)的以整字為基本建模單元的連續(xù)數(shù)字識別系統(tǒng)中,所建立的上下文相關(guān)模型是以整字為基元的triphone模型(參見圖1中的第3行)。在為每個數(shù)字建模時,除了當(dāng)前數(shù)字外,還要考慮當(dāng)前數(shù)字左邊和右邊的數(shù)字,根據(jù)上下文信息的不同來建立不同的模型,所得模型的總個數(shù)是11×12×12+1=1585。
根據(jù)本發(fā)明,以聲、韻母為基本建模單元,在相關(guān)性建模方面采取聲、韻母Diphone建模方式。如圖1中第4、5行所示。聲、韻母Diphone建模有兩種選擇,一種是詞內(nèi)上下文相關(guān)建模(如圖1中的第4行所示),即聲、韻母只和它緊鄰的同一個詞(本發(fā)明中的詞為數(shù)字)內(nèi)部的聲、韻母相關(guān),在本發(fā)明中,也就是聲母右相關(guān)、韻母左相關(guān)的建模方式;另一種是跨越詞邊界的詞上下文相關(guān)建模(如圖1中的第5行所示),即聲、韻母只和它緊鄰的其它詞的聲、韻母相關(guān),在本發(fā)明中,也就是聲母左相關(guān)、韻母右相關(guān)的建模方式。
如圖1中的第5行所示,在為聲母建模時,只要考慮此聲母和聲母之前的上一個韻母或者靜音。相應(yīng)地,在為韻母建模時,只要考慮此韻母和韻母之后的下一個聲母或者靜音。結(jié)果是,所得到的模型的總個數(shù)是11×12+11×12+1=265。
下面進(jìn)一步說明本發(fā)明所采用的上述上下文相關(guān)方式的合理性。
在現(xiàn)有技術(shù)的整字triphone建模方式下,由于每個模型多達(dá)8~10個狀態(tài),模型最初幾個狀態(tài)與后續(xù)數(shù)字發(fā)音之間的相關(guān)性或者說耦合度已經(jīng)非常弱。同樣,模型最后幾個狀態(tài)與前接數(shù)字發(fā)音之間的耦合度也很弱。因此,本發(fā)明將聲、韻母定義為基本的建模單元是合理的。
由上面的統(tǒng)計數(shù)據(jù)可知,漢語連續(xù)數(shù)字語音中每個單獨(dú)數(shù)字發(fā)音長度大致在20幀左右。每個數(shù)字開頭部分的若干幀和上一個數(shù)字發(fā)音結(jié)束部分的若干幀之間會相互影響,這種影響會導(dǎo)致音變,是需要通過相關(guān)性建模方法來克服的問題。詞內(nèi)上下文相關(guān)建模方式(如圖1中的第4行所示),顯然不能準(zhǔn)確描述詞間發(fā)音變化的現(xiàn)象,在描述詞內(nèi)部聲、韻母間發(fā)音相關(guān)方面,這種方式甚至不如整字建模方式。進(jìn)一步觀察可知,通常詞間發(fā)音相互影響的部分不會超過10幀,也就是說連續(xù)數(shù)字發(fā)音的相互影響通常不會跨越前一個或后一個數(shù)字的聲韻母邊界。如前所述,本發(fā)明的建模采用區(qū)分定義方式,已經(jīng)在基本建模單元中隱含考慮了詞內(nèi)部的上下文相關(guān)信息。因此,本發(fā)明所采用的聲母左相關(guān)、韻母右相關(guān)的Diphone建模方式足以準(zhǔn)確地描述語音上下文信息。
此外,相對于triphone模型來講,Diphone建模大大縮小了模型的規(guī)模,減小了模型訓(xùn)練的壓力,更加適用于小型化的系統(tǒng)。
下面參考圖2描述根據(jù)本發(fā)明實(shí)施例的聲學(xué)建模系統(tǒng)。如圖2所示,本發(fā)明的聲學(xué)建模系統(tǒng)包括特征提取模塊13和隱馬爾科夫模型訓(xùn)練模塊14。圖2中包括的漢語連續(xù)數(shù)字語音數(shù)據(jù)庫11和漢語連續(xù)數(shù)字文字腳本庫12分別為訓(xùn)練過程提供語音樣本和文字腳本。語音樣本和文字腳本是一一對應(yīng)的,通常以句子為單元分割并存放在存儲器中(圖中未示出)。在本實(shí)施例中,每一個句子都是一個漢語連續(xù)數(shù)字串。在模型訓(xùn)練過程中,特征提取模塊13從上述語音庫11中取出語音樣本,對原始語音信號提取特征參數(shù)。特征提取的主要操作是把原始語音劃分成一定長度的片斷(幀),再對各幀數(shù)據(jù)依次進(jìn)行時域和頻域的短時分析,從中提取出特征參數(shù),每一幀對應(yīng)的參數(shù)通常表示成一個多維向量。本實(shí)施例中提取的特征參數(shù)是Mel頻標(biāo)倒譜系數(shù)(MFCC)(Mel Frequency CepstrumCoefficients)、幀能量以及它們的一階和二階差分。這也是目前語音識別中最常用的特征參數(shù)之一。特征提取模塊13將提取到的特征參數(shù)提供給HMM模型訓(xùn)練模塊14進(jìn)行模型訓(xùn)練。在模型訓(xùn)練中需要參考與語音樣本對應(yīng)的文字腳本。文字腳本信息可以從漢語連續(xù)數(shù)字文字腳本庫12中獲得。為了優(yōu)化模型的精度,模型訓(xùn)練過程需要進(jìn)行多次迭代,而特征提取過程只需執(zhí)行一次,因此,可以將特征參數(shù)存儲在HMM模型訓(xùn)練模塊14的存儲器(圖中未示出),并反復(fù)使用。模型訓(xùn)練模塊14生成最終的聲學(xué)模型,在本實(shí)施例中得到的是以聲、韻母為基本單元的上下文相關(guān)聲學(xué)模型,并提供給上下文相關(guān)聲學(xué)模型庫15。
下面詳細(xì)描述適合漢語連續(xù)數(shù)字識別的聲、韻母上下文相關(guān)建模的過程,也就是圖2中模型訓(xùn)練模塊14所執(zhí)行的模型訓(xùn)練的詳細(xì)操作。
隱馬爾可夫模型(HMM)是語音識別中主流的建模方法,在本實(shí)施例中,同樣采用HMM作為模型的基本表示。常用的從左到右的HMM的拓?fù)浣Y(jié)構(gòu)如圖3所示,其中各個狀態(tài)從左至右依次排列,狀態(tài)自身或不同狀態(tài)之間可以依據(jù)箭頭的指向按照一定概率跳轉(zhuǎn),每個狀態(tài)輸出附著一個概率密度函數(shù)(pdf)。
圖4示出了圖2所示的模型訓(xùn)練模塊14中執(zhí)行的聲學(xué)模型訓(xùn)練的過程,模型訓(xùn)練的基本方法是基于狀態(tài)聚類的HMM訓(xùn)練。下面結(jié)合圖4,對于聲學(xué)模型訓(xùn)練的各個步驟進(jìn)行詳細(xì)描述。首先,在步驟S41,如上所述,為漢語數(shù)字的不同的聲、韻母單獨(dú)建立模型。只要聲、韻母不是位于相同的數(shù)字發(fā)音中,都將它們定義成單獨(dú)的建模單元。然后,在步驟S42,定義上下文相關(guān)性,建立上下文相關(guān)的聲學(xué)模型,用于準(zhǔn)確刻畫連續(xù)數(shù)字語音。如前所述,上下文是指與當(dāng)前的基本單元直接相連,位于其左邊和右邊的其它若干建模單元。其中包括三音素(Triphone)和雙音素(Diphone)模型。Triphone模型是指同時考慮左邊和右邊基本建模單元的聲學(xué)模型;Diphone模型是指僅考慮左邊或右邊一側(cè)的基本單元的聲學(xué)模型。另外,Diphone模型包括兩種模式1)詞內(nèi)上下文相關(guān)建模(圖1中的第4行),即聲、韻母只和它緊鄰的同一個詞(本發(fā)明實(shí)施例中的詞為數(shù)字)內(nèi)部的聲、韻母相關(guān),也就是聲母右相關(guān)、韻母左相關(guān)的建模方式;和2)跨越詞邊界的詞上下文相關(guān)建模(圖1中的第5行),即聲、韻母只與和它緊鄰的其它詞的聲、韻母相關(guān),在本發(fā)明實(shí)施例中,也就是聲母左相關(guān)、韻母右相關(guān)的建模方式。在本發(fā)明優(yōu)選采用跨越詞邊界的詞上下文相關(guān)建模方式,即聲母左相關(guān)、韻母右相關(guān)的建模方式。其理由已經(jīng)前面的描述中說明,在此省略對其描述。然而,本發(fā)明不限于此,也可采用詞內(nèi)上下文相關(guān)建模,或同時考慮左邊和右邊基本建模單元的聲學(xué)模型的方式。
接下來,在步驟S43,基于狀態(tài)聚類對建模的漢語數(shù)字模型進(jìn)行HMM訓(xùn)練。狀態(tài)聚類的作用是在不同模型的不同狀態(tài)之間進(jìn)行狀態(tài)輸出分布參數(shù)共享,從而減少模型參數(shù)數(shù)目,并保證經(jīng)過共享的狀態(tài)輸出分布的模型參數(shù)都可以得到魯棒的參數(shù)估計。
圖5進(jìn)一步說明了基于狀態(tài)聚類的HMM訓(xùn)練算法的流程。首先,在步驟S61,對漢語數(shù)字的HMM模型的狀態(tài)輸出分布進(jìn)行初始化。假設(shè)漢語數(shù)字的每個HMM都包含4個狀態(tài),它們分別對應(yīng)某個基本建模單元的語音觀測樣本經(jīng)過平均劃分而得到的四段。同一狀態(tài)所對應(yīng)的所有特征向量樣本構(gòu)成這個狀態(tài)的特征空間。初始的時候,使用兩個混合的高斯混合模型來描述HMM模型的各個狀態(tài)空間。對于觀測樣本數(shù)目小于一定閾值的狀態(tài),其特征空間使用方差值固定的高斯混合模型來描述。
此后,流程進(jìn)入步驟S62,定義某個特定基本建模單元對應(yīng)的上下文相關(guān)音素模型(all-phone)。所謂上下文相關(guān)音素模型是指,對于某個特定的基本建模單元,由于此單元所處的上下文語境不同而產(chǎn)生的所有HMM。例如,在本發(fā)明的實(shí)施例中,ing(l)-y(i)、a(b)-y(i)和iu(j)-y(i)等都是基本單元y(i)的上下文相關(guān)音素模型,ing(l)-y(i)、ing(l)-q(i)和ing(l)-j(iu)等都是基本單元ing(l)的上下問相關(guān)音素模型。定義上下文相關(guān)音素模型之后,在狀態(tài)聚類過程中,只對同一基本建模單元的上下文相關(guān)音素模型中位于HMM結(jié)構(gòu)中同一位置的各狀態(tài)進(jìn)行聚類。在前面圖4的步驟S41中,本發(fā)明采取區(qū)分定義方式確定聲韻母基本建模單元,因而在定義上下文相關(guān)音素模型過程中,只需考慮基本單元的單個邊的上下文,即聲母的左上文以及韻母的右下文。這樣在進(jìn)入下一個狀態(tài)聚類步驟之前,可以確保在這些被區(qū)分定義的不同基本單元的上下文相關(guān)音素模型間不會發(fā)生合并。接下來,流程進(jìn)入步驟S63,利用狀態(tài)聚類算法,在模型間共享輸出分布,其具體內(nèi)容將參考圖6詳細(xì)描述。
圖6給出了基于狀態(tài)聚類進(jìn)行輸出分布共享的詳細(xì)流程。
在步驟S71,計算任何兩個狀態(tài)之間進(jìn)行合并所造成的似然概率的損失。似然概率的損失通過下面的公式(1)計算得到Dis=Σk,k∈ClogP(ok)-Σk,k∈C1logP1(ok)-Σk,k∈C2logP2(ok)---(1)]]>如前所述,每個狀態(tài)的特征空間都使用兩個混合的高斯混合模型來描述,P(ok)表示這個特征空間上的觀測概率密度函數(shù),ok為輸入觀測樣本向量。C1和C2分別表示合并前的兩個狀態(tài)類,C表示由C1和C2合并以后的所生成的狀態(tài)類。
在步驟S72,從步驟S71中計算過的所有可能的狀態(tài)合并集合中尋找似然概率損失最小的兩個狀態(tài)類的合并。然后,在步驟S73,判斷這兩個狀態(tài)類的樣本數(shù)目是否大于一個預(yù)定的閾值(M)。如果判斷結(jié)果為肯定,流程則轉(zhuǎn)到步驟S74,將此合并從上述合并的集合中刪除,并在此后返回到步驟S72。如果步驟S73的判斷結(jié)果為否定,即,如果這兩個狀態(tài)類中至少有一個狀態(tài)類的樣本數(shù)目小于該預(yù)定的閾值,則在步驟S75將這兩個狀態(tài)類合并起來生成一個新的狀態(tài)類,新的狀態(tài)類的特征空間重新用兩個混合的高斯混合模型進(jìn)行描述。此后,在步驟S76判斷每個狀態(tài)類的對應(yīng)觀測樣本數(shù)目是否大于另一個預(yù)定的閾值。如果步驟S76的判斷結(jié)果為肯定,處理流程則進(jìn)行到步驟S77,采用K-Means聚類算法對合并后的各狀態(tài)輸出分布的混合高斯模型進(jìn)行參數(shù)估計。相反,如果在步驟S76的判斷結(jié)果為否定,即,至少一個狀態(tài)的樣本數(shù)目不大于該閾值N,流程則返回到步驟S71,繼續(xù)求任意兩個狀態(tài)合并的似然概率損失。
圖7示出了經(jīng)過合并的狀態(tài)類的特征空間共享相同的輸出分布。
此外,在上述狀態(tài)聚類過程中,混合高斯模型的高斯混合數(shù)可以被預(yù)先設(shè)定為一個固定的值,也可以根據(jù)一定的準(zhǔn)則(例如BIC準(zhǔn)則)動態(tài)確定。
圖8是表示根據(jù)本發(fā)明實(shí)施例的漢語連續(xù)數(shù)字聲、韻母跨詞搜索解碼系統(tǒng)的方框圖。實(shí)際上,搜索解碼對應(yīng)于漢語數(shù)字的識別過程。如圖8所示,本發(fā)明的漢語連續(xù)數(shù)字聲、韻母跨詞搜索解碼系統(tǒng)包括上下文相關(guān)聲學(xué)模型庫15,特征提取模塊22,漢語連續(xù)數(shù)字解碼網(wǎng)絡(luò)23和搜索解碼模塊24。特征提取模塊22從輸入的語音信號中提出特征參數(shù),其作用與圖2中的特征提取模塊13的作用相同。特征提取模塊22把從輸入的語音信號(在本實(shí)施例中是漢語數(shù)字)提取的特征參數(shù)提供給搜索解碼模塊24。搜索解碼模塊24根據(jù)所輸入的特征參數(shù)執(zhí)行漢語數(shù)字識別過程。在這一過程中,需要根據(jù)漢語連續(xù)數(shù)字解碼網(wǎng)絡(luò)23在語言層面上對搜索空間加以約束。就本實(shí)施例而言,就是要說明何種數(shù)字連接是被允許的,何種數(shù)字串是可以被識別的。此外,搜索解碼模塊24還要利用上下文相關(guān)聲學(xué)模型庫15,即由圖2中的HMM模型訓(xùn)練模塊14生成的上下文相關(guān)聲學(xué)模型庫15。搜索解碼模塊24根據(jù)聲學(xué)模型提供的聲學(xué)先驗(yàn)知識,對特征參數(shù)進(jìn)行動態(tài)規(guī)劃打分,并在解碼網(wǎng)絡(luò)23規(guī)定的搜索空間內(nèi)找到得分最大的一條路徑,作為最終識別結(jié)果。在本實(shí)施例中,搜索解碼模塊24的識別結(jié)果是一個連續(xù)數(shù)字串。
下面詳細(xì)描述漢語連續(xù)數(shù)字識別的跨詞搜索解碼的流程,即圖8中的搜索解碼模塊24的操作流程。
下面首先對本發(fā)明中采用的“跨詞”概念進(jìn)行解釋。如前所述,所謂“跨詞”是指在訓(xùn)練和識別過程中,除了要考慮詞內(nèi)部不同音素之間的上下文語境外,還要考慮詞與詞邊界處的上下文,也就是還要刻畫前詞詞尾音素和后詞詞頭若干音素之間的上下文。具體到漢語連續(xù)數(shù)字識別問題,每個漢語數(shù)字的發(fā)音是一個由聲母連接韻母構(gòu)成的音節(jié),“跨詞”實(shí)際上就是對前一個數(shù)字的韻母和后續(xù)數(shù)字的聲母之間的上下文語境進(jìn)行建模和解碼。例如,一個連續(xù)的數(shù)字串“153853”,它對應(yīng)的拼音是“yi1 wu3 san1 ba1 wu3 san1”(拼音后面的數(shù)字表示該拼音的字調(diào))。如果不考慮詞間的上下文,認(rèn)為兩次出現(xiàn)的數(shù)字“5”和“3”的發(fā)音是相同的,可以用模型序列“sil-y-i y-i-sil sil-w-u w-u-sil sil-s-an s-an-sil sil-b-ab-a-sil sil-w-u w-u-sil sil-s-an s-an-sil”來描述這個數(shù)字串;如果考慮詞間的上下文,則相同數(shù)字的發(fā)音可能不同,數(shù)字串的模型描述成為“sil-y-iy-i-w i-w-u w-u-s u-s-an s-an-b an-b-a b-a-w a-w-u w-u-s u-s-an s-an-sil”。在本發(fā)明實(shí)施例中,只需考慮單邊的跨詞上下文信息,即聲母的左上文和韻母的右下文,聲母的右下文和韻母的左上文則已經(jīng)隱含包括在基本建模單元的定義中(參見圖2)。
語音識別的本質(zhì)是一個限定空間上的搜索的問題。在搜索開始階段,一個輸入的待識別句子可能是任何內(nèi)容,隨著搜索過程展開,通過對限定搜索空間內(nèi)的所有可能路徑的檢驗(yàn)和評估,找到一條或多條最可能的路徑作為確定的識別結(jié)果,這個過程就是解碼過程。在不同的層次上,路徑的含義有所不同在詞的層面,所有可能的路徑就是指所有可能的詞與詞的連接而成的詞序列;在HMM模型的層面,所有可能的路徑就是指所有可能的HMM模型之間連接而成的模型序列;在HMM模型狀態(tài)的層面,所有可能的路徑就是指所有可能的HMM狀態(tài)跳轉(zhuǎn)相互連接形成的狀態(tài)序列。在詞這個層面的連接通常由語言模型或者解碼網(wǎng)絡(luò)約束;模型層的連接由詞的發(fā)音以及上下文語境約束;狀態(tài)層的連接由HMM模型的拓?fù)浣Y(jié)構(gòu)約束。這樣由低到高的三個層次構(gòu)成了整個搜索空間。一條路徑可以由詞、HMM模型和HMM模型狀態(tài)這三個要素一起唯一地標(biāo)識。
圖9示出了根據(jù)本發(fā)明的漢語連續(xù)數(shù)字識別的搜索解碼空間。在詞一層的解碼網(wǎng)絡(luò)中,數(shù)字之間可以任意連接,數(shù)字之間可以存有或沒有靜音。
圖10示出了搜索解碼算法的基本流程。常見的搜索算法是時間同步的Viterbi算法,在本發(fā)明的實(shí)施例中也采用這一基本算法。應(yīng)該指出,本發(fā)明不限于此,也可采用其它算法。如圖10所示,在步驟S10-1,對搜索過程進(jìn)行初始化。主要工作包括裝載連續(xù)數(shù)字解碼網(wǎng)絡(luò)、HMM聲學(xué)模型等數(shù)據(jù);分配并初始化算法所需的空間資源,用來存儲當(dāng)前活動路徑以及擴(kuò)展到詞尾并且得分較高的歷史路徑;此外還要生成初始活動路徑,作為下一步驟中的路徑擴(kuò)展的種子路徑。根據(jù)上述解碼網(wǎng)絡(luò)結(jié)構(gòu),初始活動路徑是一條表示靜音的路徑。接下來,在步驟S10-2進(jìn)行路徑擴(kuò)展。圖11示出了根據(jù)本發(fā)明的連續(xù)數(shù)字識別跨詞解碼的路徑擴(kuò)展的詳細(xì)流程圖。
參見圖11,整個路徑擴(kuò)展是按照時間順序依次逐幀進(jìn)行的,所以也稱作時間同步或者幀同步解碼。
其中在步驟S11-1判斷待識別語音是否已經(jīng)結(jié)束,如果判斷結(jié)果為否定,則路徑擴(kuò)展可以繼續(xù),轉(zhuǎn)入步驟S11-2。
在步驟S11-2對當(dāng)前每一條活動路徑進(jìn)行狀態(tài)間擴(kuò)展。此時參考圖9所示狀態(tài)層的解碼網(wǎng)絡(luò),也就是當(dāng)前路徑對應(yīng)的HMM模型的拓?fù)溥B接,將此路徑從當(dāng)前狀態(tài)擴(kuò)展到新的狀態(tài),生成新的活動路徑,并利用聲學(xué)模型和當(dāng)前特征幀計算更新路徑得分,而后刪除原有路徑。此時原有路徑的HMM狀態(tài)信息就成為新的活動路徑的歷史。
此后,路徑擴(kuò)展進(jìn)入步驟S11-3。在這一步,遍歷當(dāng)前所有的活動路徑,對于已經(jīng)擴(kuò)展到模型最后一個狀態(tài)的路徑,進(jìn)行模型間擴(kuò)展。此時參考圖9所示模型層的解碼網(wǎng)絡(luò),也就是HMM模型間的連接關(guān)系,把此路徑從當(dāng)前HMM模型的末狀態(tài)擴(kuò)展到后接HMM模型的首狀態(tài)(在本發(fā)明實(shí)施例中,也即從聲母HMM模型的末狀態(tài)擴(kuò)展到韻母HMM模型的首狀態(tài)),生成新的活動路徑并刪除原有路徑。此時原有路徑的HMM模型信息就成為新的活動路徑的歷史。由于使用聲母左相關(guān)、韻母右相關(guān)的Diphone模型,在確定后接韻母HMM模型時,必須跨詞預(yù)測韻母后接的右下文(即下一個詞首的聲母或者靜音),根據(jù)不同的右下文確定不同的后接韻母HMM模型。由于向后的無法預(yù)知性,所以必須將所有可能的后接韻母模型同時擴(kuò)展。
此后,路徑擴(kuò)展進(jìn)入步驟S11-4。在這一步,遍歷當(dāng)前所有的活動路徑,找到已經(jīng)擴(kuò)展到當(dāng)前詞的最后一個HMM模型的最后一個狀態(tài)的路徑(在本發(fā)明實(shí)施例中,也即擴(kuò)展到韻母或靜音HMM模型的最后一個狀態(tài)),并對這些路徑進(jìn)行詞間擴(kuò)展。此時參考圖9所示的詞層的解碼網(wǎng)絡(luò),也就是詞之間的連接關(guān)系,將此路徑從當(dāng)前詞的末狀態(tài)擴(kuò)展到所有可能的后接詞的首狀態(tài),生成新的路徑,而后將原有路徑保存在為擴(kuò)展到詞尾的高分歷史路徑所分配的空間中(步驟S10-1)。此時,原有路徑的詞信息就成為新的活動路徑的歷史。同樣,由于使用聲母左相關(guān)、韻母右相關(guān)的Diphone跨詞模型,在確定后接詞首的HMM模型(為聲母或者靜音)時,必須參考當(dāng)前HMM模型對應(yīng)的韻母或靜音。
此后,路徑擴(kuò)展進(jìn)入步驟S11-5,對當(dāng)前活動路徑進(jìn)行裁剪。在這一步,遍歷當(dāng)前所有的活動路徑,根據(jù)預(yù)設(shè)的閾值將得分偏低的路徑刪除,保留得分較高路徑的若干條路徑,作為下一次路徑擴(kuò)展的種子。裁剪完成后,算法返回步驟S11-1。
在上述判斷待識別語音是否已經(jīng)結(jié)束的步驟S11-1中,如果判斷結(jié)果為肯定,則路徑擴(kuò)展結(jié)束。
隨著待語音信號達(dá)到終點(diǎn),路徑擴(kuò)展過程結(jié)束,搜索解碼過程進(jìn)行到步驟S10-3,根據(jù)路徑擴(kuò)展步驟S10-2中保存的歷史路徑信息(圖11中的步驟S11-4),從后向前回溯得到最終識別結(jié)果。
如前所述,本發(fā)明采用區(qū)分定義方式來定義數(shù)字基本建模單元,這種定義方式的優(yōu)點(diǎn)不僅表現(xiàn)在模型訓(xùn)練過程,在解碼階段也有體現(xiàn)。采用區(qū)分定義方式可以保證,不會有兩條歷史不同的路徑經(jīng)過路徑擴(kuò)展合并成為一條路徑,也就是說,從不同狀態(tài)、不同HMM模型或者不同詞擴(kuò)展得到的新路徑一定不同。利用這一特點(diǎn),我們可以大大簡化傳統(tǒng)解碼算法中較為繁瑣的路徑管理操作。
在本發(fā)明的具體實(shí)現(xiàn)中,可以使用一個如下面的表3所示的表狀結(jié)構(gòu)來保存連續(xù)數(shù)字識別跨詞解碼過程中的活動路徑。
表3
由于路徑擴(kuò)展過程中每一個活動路徑都對應(yīng)著一個確定的HMM模型和確定的HMM狀態(tài),可以在表3的結(jié)構(gòu)對確定的HMM模型和確定的HMM狀態(tài)迅速定位,因而可以非常高效地在表狀結(jié)構(gòu)上進(jìn)行路徑擴(kuò)展的各種操作,如路徑的生成、插入、合并、刪除、更新和裁剪等。
應(yīng)用此表狀結(jié)構(gòu)進(jìn)行路徑擴(kuò)展的具體方式是在步驟S10-1,為該表分配空間并對其進(jìn)行初始化,代表靜音的初始路徑存放在表中相應(yīng)的位置上;在步驟S10-2的子步驟S11-2、S11-3和S11-4中,掃描路徑表遍歷所有活動路徑,并相應(yīng)進(jìn)行狀態(tài)間、模型間和詞間等不同擴(kuò)展,生成的路徑可以迅速定位并存儲。在步驟S11-5,同樣可以掃描路徑表迅速遍歷所有活動路徑,統(tǒng)計當(dāng)前活動路徑的得分情況,并對路徑進(jìn)行裁剪。這樣所有的路徑操作都可以轉(zhuǎn)化為極其迅速的表格操作,因而解碼的速度可以非??臁?br>
由以上描述可見,在詞間擴(kuò)展以及模型間擴(kuò)展時,要根據(jù)上下文擴(kuò)展所有可能的連接,會導(dǎo)致路徑數(shù)目大大膨脹。如果HMM模型的左、右語境信息都要考慮,那么路徑的數(shù)目將十分龐大。在本發(fā)明實(shí)施例中,我們使用聲母左相關(guān)、韻母右相關(guān)的上下文相關(guān)模型,在詞間擴(kuò)展時只需要考慮聲母的左語境,而無需考慮其后接的韻母,在模型間擴(kuò)展時只需要考慮韻母的右語境,而無需考慮其后接的韻母,因此在一定程度上緩解了路徑數(shù)目膨脹對系統(tǒng)資源的壓力,同時加快了識別解碼的速度。數(shù)字內(nèi)部聲韻母間的相關(guān)性,已經(jīng)由前面所述的區(qū)分定義方式保證,并在搜索過程中由解碼網(wǎng)絡(luò)約束;數(shù)字邊界處的語音相關(guān)性可以由聲母左相關(guān)、韻母右相關(guān)的上下文相關(guān)模型加以描述,因此系統(tǒng)識別率也較以往整字建模的系統(tǒng)更有保證。
本發(fā)明根據(jù)傳統(tǒng)漢語連續(xù)數(shù)字識別系統(tǒng)的不足,針對性地提出了一些改進(jìn)辦法,從而提高數(shù)字識別系統(tǒng)的系能。以下將給出一組實(shí)驗(yàn)結(jié)果,通過比較本發(fā)明所述方法與傳統(tǒng)方法的性能,從而說明本發(fā)明的優(yōu)點(diǎn)。
實(shí)驗(yàn)所用的訓(xùn)練數(shù)據(jù)是我們自行錄制的純凈連續(xù)數(shù)字串,共包括150個說話人,其中男女各75人,每個說話人大約有250個連續(xù)數(shù)字語音數(shù)據(jù)。實(shí)驗(yàn)所用的測試數(shù)據(jù)是實(shí)驗(yàn)室環(huán)境下錄制的連續(xù)數(shù)字串,共包括10個人,其中男女各5人,每個說話人的測試數(shù)據(jù)為250句連續(xù)數(shù)字語音。實(shí)驗(yàn)的結(jié)果如表4所示表4
由此可見,采用聲韻母為基本的建模單元,并且采取聲母左相關(guān)、韻母右相關(guān)的語音相關(guān)性建模方法,可以有效地提高漢語數(shù)字識別系統(tǒng)的性能。與傳統(tǒng)的整字建模方式相比,數(shù)字串識別率由73.3%提高到83.88%,字識別率由96%提高到97.83%。
根據(jù)本發(fā)明的漢語連續(xù)數(shù)字建模和識別方法可以通過硬件。也可以由處理器通過執(zhí)行具有相應(yīng)功能的程序通過實(shí)現(xiàn)。所述程序可記錄在諸如軟盤,硬盤,CD-ROM,DVD-ROM之類的計算機(jī)可讀的記錄介質(zhì)上。
雖然參考優(yōu)選實(shí)施例對本發(fā)明進(jìn)行了描述,本發(fā)明并不局限于此,而僅由所附權(quán)利要求限定,本領(lǐng)域技術(shù)人員在不脫離本發(fā)明精神的情況下可對本發(fā)明的實(shí)施例進(jìn)行各種改變和改進(jìn)。
權(quán)利要求
1.一種用于漢語連續(xù)數(shù)字識別的聲學(xué)建模方法,包括步驟a)為漢語連續(xù)數(shù)字的不同的聲、韻母單獨(dú)建立模型;b)定義漢語連續(xù)數(shù)字的上下文相關(guān)性,建立上下文相關(guān)的聲學(xué)模型,以準(zhǔn)確刻畫連續(xù)數(shù)字語音;和c)以隱馬爾可夫(HMM)模型為基本模型表示,利用狀態(tài)聚類算法對連續(xù)數(shù)字的隱馬爾可夫模型的參數(shù)進(jìn)行訓(xùn)練,得到連續(xù)數(shù)字聲學(xué)模型。
2.根據(jù)權(quán)利要求1所述的方法,其中在所述步驟a)中,只要聲、韻母不是位于相同的數(shù)字發(fā)音中,都將它們定義成單獨(dú)的建模單元。
3.根據(jù)權(quán)利要求1所述的方法,其中在所述步驟b)中,使用聲、韻母只和緊鄰的其它詞的聲、韻母相關(guān)的跨越詞邊界的上下文相關(guān)建模方式定義漢語連續(xù)數(shù)字的相關(guān)性。
4.根據(jù)權(quán)利要求3所述的方法,其中所述步驟b)使用聲母左相關(guān)、韻母右相關(guān)的建模方式。
5.根據(jù)權(quán)利要求1所述的方法,其中所述步驟b)進(jìn)一步包括采用聲母只與該聲母之前的上一個韻母或者靜音相關(guān),韻母只與該韻母之后的下一個聲母或者靜音相關(guān)的建模方式。
6.根據(jù)權(quán)利要求1所述的方法,其中所述步驟c)進(jìn)一步包括步驟對漢語數(shù)字的隱馬爾可夫模型的狀態(tài)輸出分布進(jìn)行初始化;定義特定基本建模單元對應(yīng)的上下文相關(guān)音素的全音素模型;和利用狀態(tài)聚類算法進(jìn)行聚類,在所述全音素模型間共享輸出分布。
7.根據(jù)權(quán)利要求6所述的方法,其中所述對漢語數(shù)字的隱馬爾可夫模型的狀態(tài)輸出分布進(jìn)行初始化的步驟包括使用兩個混合的高斯混合模型來描述隱馬爾可夫模型的各個狀態(tài)空間,并對觀測樣本數(shù)目小于預(yù)定閾值的狀態(tài),使用方差值固定的高斯混合模型來描述來所述狀態(tài)的特征空間。
8.根據(jù)權(quán)利要求6所述的方法,其中在所述狀態(tài)聚類過程中,只對同一基本建模單元的上下文相關(guān)音素模型中位于HMM結(jié)構(gòu)中同一位置的各狀態(tài)進(jìn)行聚類。
9.根據(jù)權(quán)利要求6所述的方法,其中所述狀態(tài)聚類步驟進(jìn)一步包括步驟計算任何兩個狀態(tài)之間進(jìn)行合并所造成的似然概率的損失;和在計算過的所有可能的狀態(tài)合并集合中尋找似然概率損失最小的兩個狀態(tài)類。
10.根據(jù)權(quán)利要求9所述的方法,進(jìn)一步包括當(dāng)兩個狀態(tài)類中的至少有一個狀態(tài)類的樣本數(shù)目小于預(yù)定的閾值時,將這兩個狀態(tài)類合并以生成一個新的狀態(tài)類,重新用兩個混合的高斯混合模型進(jìn)行描述新的狀態(tài)類的特征空間。
11.根據(jù)權(quán)利要求10所述的方法,進(jìn)一步包括當(dāng)每個狀態(tài)類的對應(yīng)觀測樣本數(shù)目大于另一個預(yù)定的閾值時,采用K-Means聚類算法對合并后的各狀態(tài)輸出分布的混合高斯模型進(jìn)行參數(shù)估計。
12.根據(jù)權(quán)利要求10所述的方法,進(jìn)一步包括當(dāng)兩個狀態(tài)類的樣本數(shù)目都大于一個預(yù)定的閾值時,將此合并從所述合并的集合中刪除,并繼續(xù)尋找似然概率損失最小的兩個狀態(tài)類。
13.一種漢語連續(xù)數(shù)字識別的聲學(xué)建模系統(tǒng),包括特征提取裝置,用于接收語音樣本,提取原始語音信號的特征參數(shù);和隱馬爾科夫模型訓(xùn)練裝置,用于根據(jù)所述特征提取裝置提供的所述特征參數(shù)生成以聲母、韻母為基本單元的上下文相關(guān)聲學(xué)模型。
14.一種漢語連續(xù)數(shù)字識別的聲學(xué)建模系統(tǒng),包括漢語連續(xù)數(shù)字語音提供裝置,用于提供漢語連續(xù)數(shù)字語音;特征提取裝置,用于接收所述漢語連續(xù)數(shù)字語音提供裝置提供數(shù)字語音樣本,提取原始語音信號的特征參數(shù);漢語連續(xù)數(shù)字文字腳本庫,用于提供對輸入的漢語連續(xù)數(shù)字語音進(jìn)行隱馬爾科夫模型訓(xùn)練的文字腳本;和隱馬爾科夫模型訓(xùn)練裝置,用于存儲所述特征提取裝置提供的特征參數(shù),根據(jù)所述特征提取裝置提供的所述特征參數(shù)生成以聲母、韻母為基本單元的上下文相關(guān)聲學(xué)模型。
15.根據(jù)權(quán)利要求14所述的系統(tǒng),其中所述特征提取裝置將原始語音劃分成幀,再對各幀數(shù)據(jù)依次進(jìn)行時域和頻域的短時分析,從中提取出特征參數(shù)。
16.根據(jù)權(quán)利要求14所述的系統(tǒng),其中所述特征提取裝置提取的特征參數(shù)是Mel頻標(biāo)倒譜系數(shù)(MFCC),幀能量以及它們的一階和二階差分
17.一種漢語連續(xù)數(shù)字的聲母、韻母跨詞搜索解碼方法,包括步驟a)初始化漢語連續(xù)數(shù)字的搜索解碼過程,生成待識別漢語連續(xù)數(shù)字的初始活動路徑;b)對生成的所述漢語連續(xù)數(shù)字的初始活動路徑進(jìn)行路徑擴(kuò)展,以檢驗(yàn)所有可能的路徑并保存的歷史路徑信息;和c)根據(jù)路徑擴(kuò)展中保存的歷史路徑信息,從后向前回溯得到最終識別結(jié)果。
18.根據(jù)權(quán)利要求17所述的方法,所述步驟a)進(jìn)一步包括步驟裝載漢語連續(xù)數(shù)字解碼網(wǎng)絡(luò)和隱馬爾可夫聲學(xué)模型;和分配并初始化算法所需的空間資源,以存儲當(dāng)前活動路徑以及得分高的歷史路徑。
19.根據(jù)權(quán)利要求17或18所述的方法,所述步驟b)進(jìn)一步包括步驟對每一條活動路徑進(jìn)行狀態(tài)間擴(kuò)展,以擴(kuò)展到新的狀態(tài)并生成新的活動路徑,然后刪除原有路徑;對擴(kuò)展到聲學(xué)模型最后一個狀態(tài)的路徑進(jìn)行從聲母隱馬爾可夫模型的末狀態(tài)擴(kuò)展到韻母隱馬爾可夫模型的首狀態(tài)的模型間擴(kuò)展,生成新的活動路徑并刪除原有路徑;對擴(kuò)展到當(dāng)前詞的最后一個隱馬爾可夫模型的最后一個狀態(tài)的路徑進(jìn)行詞間擴(kuò)展,并將原有路徑保存在所分配的空間中;和根據(jù)預(yù)設(shè)的閾值刪除得分偏低的路徑以便對當(dāng)前活動路徑進(jìn)行裁剪。
20.一種用于漢語連續(xù)數(shù)字識別的搜索解碼的系統(tǒng),包括特征提取裝置,用于從輸入的語音信號中提出特征參數(shù);上下文相關(guān)聲學(xué)模型庫,用于提供根據(jù)權(quán)利要求1所述的漢語連續(xù)數(shù)字識別的聲學(xué)建模方法提供的連續(xù)數(shù)字聲學(xué)模型;漢語連續(xù)數(shù)字解碼網(wǎng)絡(luò),用于在語言層面上對搜索空間進(jìn)行約束;和搜索解碼裝置,用于根據(jù)所述特征提取裝置提供的所述特征參數(shù),在所述漢語連續(xù)數(shù)字解碼網(wǎng)絡(luò)規(guī)定的搜索空間內(nèi)搜索所述特征參數(shù)得分最大的路徑作為最終識別結(jié)果。
21.一種用于漢語連續(xù)數(shù)字識別的搜索解碼的系統(tǒng),包括搜索過程初始化裝置,用于裝載漢語連續(xù)數(shù)字解碼網(wǎng)絡(luò)和隱馬爾可夫聲學(xué)模型,生成待識別漢語連續(xù)數(shù)字的初始活動路徑,并分配并初始化算法所需的空間資源;路徑擴(kuò)展裝置,用于在隱馬爾可夫模型的狀態(tài)間、模型間和詞間展開路徑擴(kuò)展,以檢驗(yàn)所有可能的路徑并保存歷史路徑信息;和從后向前回溯保留的歷史路徑以得到最終識別結(jié)果的裝置。
22.一種計算機(jī)可讀記錄介質(zhì),用于存儲執(zhí)行用于漢語連續(xù)數(shù)字識別的聲學(xué)建模方法的程序,所述方法包括步驟a)為漢語連續(xù)數(shù)字的不同的聲、韻母單獨(dú)建立模型;b)定義漢語連續(xù)數(shù)字的上下文相關(guān)性,建立上下文相關(guān)的聲學(xué)模型,以準(zhǔn)確刻畫連續(xù)數(shù)字語音;和c)以隱馬爾可夫(HMM)模型為基本模型表示,利用狀態(tài)聚類算法對連續(xù)數(shù)字的隱馬爾可夫模型的參數(shù)進(jìn)行訓(xùn)練,得到連續(xù)數(shù)字聲學(xué)模型。
23.一種計算機(jī)可讀記錄介質(zhì),用于存儲執(zhí)行漢語連續(xù)數(shù)字的聲母、韻母跨詞搜索解碼方法的程序,包括方法包括步驟a)初始化漢語連續(xù)數(shù)字的搜索解碼過程,生成待識別漢語連續(xù)數(shù)字的初始活動路徑;b)對生成的所述漢語連續(xù)數(shù)字的初始活動路徑進(jìn)行路徑擴(kuò)展,以檢驗(yàn)所有可能的路徑并保存的歷史路徑信息;和c)根據(jù)路徑擴(kuò)展中保存的歷史路徑信息,從后向前回溯得到最終識別結(jié)果。
全文摘要
一種用于漢語連續(xù)數(shù)字識別的聲學(xué)建模方法,包括步驟a)為漢語連續(xù)數(shù)字的不同的聲、韻母單獨(dú)建立模型;b)定義漢語連續(xù)數(shù)字的上下文相關(guān)性,建立上下文相關(guān)的聲學(xué)模型,以準(zhǔn)確刻畫連續(xù)數(shù)字語音c)以隱馬爾可夫(HMM)模型為基本模型表示,利用狀態(tài)聚類算法對連續(xù)數(shù)字的隱馬爾可夫模型的參數(shù)進(jìn)行訓(xùn)練,得到連續(xù)數(shù)字聲學(xué)模型。另外,本發(fā)明還公開了漢語連續(xù)數(shù)字的聲母、韻母跨詞搜索解碼方法,以及聲學(xué)建模系統(tǒng)和搜索解碼系統(tǒng)。
文檔編號G10L19/00GK1674092SQ20041003321
公開日2005年9月28日 申請日期2004年3月26日 優(yōu)先權(quán)日2004年3月26日
發(fā)明者賈磊, 馬龍 申請人:松下電器產(chǎn)業(yè)株式會社