專利名稱:利用具有轉(zhuǎn)換狀態(tài)空間模型的變化推理的語(yǔ)音識(shí)別方法
背景技術(shù):
本發(fā)明涉及模式識(shí)別,尤其涉及語(yǔ)音識(shí)別。
模式識(shí)別系統(tǒng),例如語(yǔ)音識(shí)別系統(tǒng),接收輸入信號(hào)并且將信號(hào)解碼以發(fā)現(xiàn)信號(hào)所代表的模式。例如在語(yǔ)音識(shí)別系統(tǒng)中,語(yǔ)音信號(hào)(經(jīng)常稱為測(cè)試信號(hào))通過(guò)識(shí)別系統(tǒng)接收并且將其解碼以識(shí)別由語(yǔ)音信號(hào)代表的字符串。
很多語(yǔ)音識(shí)別系統(tǒng)利用隱藏馬爾可夫模型,在該隱藏馬爾可夫模型中,也可以稱為聲學(xué)單元或者語(yǔ)言單元的語(yǔ)音單元是通過(guò)單層連接的狀態(tài)表示的。利用訓(xùn)練信號(hào),來(lái)確定每個(gè)語(yǔ)音單元的占用狀態(tài)和在狀態(tài)之間躍遷的概率分布。為了對(duì)語(yǔ)音信號(hào)解碼,將信號(hào)分成幀,并且將每幀變換成特征向量。然后將特征向量比作狀態(tài)的分布以識(shí)別通過(guò)幀表示的HMM狀態(tài)的大部分可能序列。然后選擇與那個(gè)序列對(duì)應(yīng)的語(yǔ)音單元。
雖然基于HMM的識(shí)別系統(tǒng)在執(zhí)行很多相對(duì)簡(jiǎn)單的語(yǔ)音識(shí)別任務(wù)時(shí)非常好,但是它們不能直接做語(yǔ)音的一些重要的動(dòng)態(tài)元素的模型(并且眾所周知很難執(zhí)行象對(duì)話式語(yǔ)音一樣的困難的任務(wù))。因此,它們不能適應(yīng)用于訓(xùn)練的語(yǔ)音信號(hào)和已經(jīng)解碼的語(yǔ)音信號(hào)之間的動(dòng)態(tài)發(fā)音的差別。
例如,在臨時(shí)的說(shuō)話的調(diào)整中,說(shuō)話者趨向于次清晰發(fā)音或者趨向于比他們的語(yǔ)音的清晰發(fā)音差。這就意味著在重新定向到下一個(gè)目標(biāo)之前,用戶的語(yǔ)音清晰度的遞歸定義軌道可能達(dá)不到想要的目標(biāo)。由于訓(xùn)練信號(hào)是代表性地利用“讀取”語(yǔ)音式樣形成的,在語(yǔ)音式樣中說(shuō)話者提供比在次清晰的語(yǔ)音中更充分清晰的語(yǔ)音資料,因此次清晰語(yǔ)音不能與訓(xùn)練的HMM狀態(tài)匹配。結(jié)果,識(shí)別器對(duì)臨時(shí)語(yǔ)音提供的識(shí)別結(jié)果少于理想的識(shí)別結(jié)果。
對(duì)于過(guò)度清晰的語(yǔ)音來(lái)說(shuō)存在相似的問(wèn)題。在過(guò)度清晰的語(yǔ)音中,說(shuō)話者盡極大的努力使與他們的語(yǔ)音不同的聲音可識(shí)別。這種極大的努力能夠包括改變某些語(yǔ)音單元的聲音以致它們能夠從相似的發(fā)聲語(yǔ)音單元中區(qū)分出來(lái),較長(zhǎng)時(shí)間的保持某些語(yǔ)音單元的發(fā)聲,或者在聲音之間比較突然地進(jìn)行躍遷,以致可以察覺(jué)出每個(gè)聲音相對(duì)于相鄰的聲音來(lái)說(shuō)是獨(dú)特的。這些過(guò)程中的每一個(gè)使得利用HMM系統(tǒng)識(shí)別語(yǔ)音更加困難,因?yàn)槊總€(gè)技術(shù)導(dǎo)致語(yǔ)音信號(hào)的一組特征向量經(jīng)常不能很好的與存在于訓(xùn)練數(shù)據(jù)中的特征向量相匹配。
即使對(duì)應(yīng)于次清晰或者過(guò)度清晰的語(yǔ)音的特征向量匹配于在訓(xùn)練數(shù)據(jù)中的那些特征向量(獲得其可能是非常昂貴的),由于對(duì)于HMM系統(tǒng)增加的語(yǔ)音的混淆導(dǎo)致通常的HMM技術(shù)仍然不能很好的執(zhí)行,這里在HMM系統(tǒng)中沒(méi)有考慮由次清晰或者過(guò)度清晰度引起的特征向量軌道變化的主要原因。這個(gè)問(wèn)題將通過(guò)本發(fā)明明確的提出。
HMM系統(tǒng)處理人們說(shuō)話速度的變化時(shí)也是比較困難的。因此,如果某人以比訓(xùn)練信號(hào)較慢或者較快的速度說(shuō)話,那么HMM系統(tǒng)將對(duì)語(yǔ)音信號(hào)進(jìn)行錯(cuò)誤的解碼。
已經(jīng)提出了HMM系統(tǒng)的替代物。特別的,提出可以直接將語(yǔ)音信號(hào)的統(tǒng)計(jì)定義軌道或者相關(guān)生成式參數(shù)的性能建模。由于不能直接測(cè)量相關(guān)生成式值,因此這些模型稱為隱藏動(dòng)態(tài)模型(HDM)。隱藏動(dòng)態(tài)模型是通常所說(shuō)的轉(zhuǎn)換狀態(tài)空間模型的一類模型的一個(gè)例子,其在一個(gè)或者多個(gè)在前的幀和一個(gè)或者多個(gè)恒定選擇的幀中的參數(shù)值的基礎(chǔ)上對(duì)當(dāng)前幀的參數(shù)值建摸。
HDMs的一個(gè)問(wèn)題是它們難于訓(xùn)練,因?yàn)橄箢A(yù)期最大化算法的通常的訓(xùn)練算法對(duì)于HDMs來(lái)說(shuō)是難處理的。這主要是因?yàn)闉榱嗽诮o定輸入值序列時(shí)獲得適于隱藏參數(shù)序列的后驗(yàn)概率,必須在所有可能的語(yǔ)音單元序列的之中合計(jì)隱藏參數(shù)和可能的語(yǔ)音單元的組合的概率這個(gè)事實(shí)。這將導(dǎo)致計(jì)算量隨著輸入值的每一個(gè)附加幀而成指數(shù)規(guī)律地增加。
為了克服這個(gè)問(wèn)題,在先技術(shù)的一些系統(tǒng)在訓(xùn)練期間假設(shè)語(yǔ)音單元的固定序列。定義這個(gè)序列的語(yǔ)音單元之間的邊界是通過(guò)利用在訓(xùn)練HDM之前的HMM訓(xùn)練設(shè)置的。這與在隱藏動(dòng)態(tài)模型中的其它參數(shù)相比在理論上并不是最優(yōu)的,因?yàn)檎Z(yǔ)音單元的邊界參數(shù)是根據(jù)不同的標(biāo)準(zhǔn)確定的。
因此,需要訓(xùn)練系統(tǒng)在克服與這種訓(xùn)練相關(guān)聯(lián)的難處理性質(zhì)的時(shí)候允許邊界與隱藏動(dòng)態(tài)模型的其它參數(shù)一起訓(xùn)練。
發(fā)明概述一種方法,其包括定義隱藏相關(guān)生成式參數(shù)的轉(zhuǎn)換狀態(tài)空間模型并且近似提供隱藏相關(guān)生成式參數(shù)的序列和基于輸入值的語(yǔ)音單元序列的似然性的后驗(yàn)概率。在近似后驗(yàn)概率中,并不確定語(yǔ)音單元的邊界。在第一個(gè)實(shí)施例中,使用高斯近似混合。在另一個(gè)實(shí)施例中,使用HMM后驗(yàn)近似。
附圖的簡(jiǎn)要說(shuō)明
圖1是一個(gè)計(jì)算環(huán)境的框圖,在該計(jì)算環(huán)境中可以實(shí)現(xiàn)本發(fā)明。
圖2是可供選擇的計(jì)算環(huán)境的框圖,在該計(jì)算環(huán)境中可以實(shí)現(xiàn)本發(fā)明。
圖3是在本發(fā)明的一個(gè)實(shí)施例中的語(yǔ)音識(shí)別系統(tǒng)的框圖。
實(shí)施例的詳細(xì)說(shuō)明圖1說(shuō)明了適合執(zhí)行本發(fā)明的計(jì)算系統(tǒng)環(huán)境100的例子。該計(jì)算系統(tǒng)環(huán)境100僅僅是適合的計(jì)算環(huán)境的一個(gè)例子并不對(duì)本發(fā)明的使用或者功能的范圍提出任何限定。計(jì)算環(huán)境100也不作為具有在典型的操作環(huán)境100中說(shuō)明的元件的任一個(gè)或者組合的相關(guān)性或者需求的解釋。
本發(fā)明可以運(yùn)行在大量其它的通用、專用計(jì)算系統(tǒng)環(huán)境或者結(jié)構(gòu)中。適合與本發(fā)明一起使用的公知的計(jì)算系統(tǒng)、環(huán)境和/或結(jié)構(gòu)的例子包括,但是并不限制于,個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手提式的或者膝上型裝置、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、電話系統(tǒng)、包括上述系統(tǒng)或者裝置的任何一個(gè)的分布式計(jì)算環(huán)境等等。
本發(fā)明可以在象由計(jì)算機(jī)執(zhí)行的程序模塊的計(jì)算機(jī)可執(zhí)行指令的普通環(huán)境中得到說(shuō)明。通常,程序模塊包括執(zhí)行特定任務(wù)或者實(shí)現(xiàn)特定抽象數(shù)據(jù)類型的例行程序、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。將本發(fā)明設(shè)計(jì)成可以在分布式計(jì)算環(huán)境中實(shí)現(xiàn),在該分布計(jì)算環(huán)境中任務(wù)可以通過(guò)遠(yuǎn)程處理裝置來(lái)執(zhí)行,該遠(yuǎn)程處理裝置是通過(guò)通信網(wǎng)絡(luò)連接的。在分布式計(jì)算環(huán)境中,將程序模塊定位在包括記憶體存儲(chǔ)器的本地和遠(yuǎn)程計(jì)算存儲(chǔ)介質(zhì)兩者中。
參照附圖1,用來(lái)實(shí)現(xiàn)本發(fā)明的示范系統(tǒng)包括計(jì)算機(jī)110形式的通用計(jì)算裝置。計(jì)算機(jī)110的組件可以包括,但是并不限制于,處理單元120、系統(tǒng)存儲(chǔ)器130以及用于將包括系統(tǒng)存儲(chǔ)器的不同的系統(tǒng)組件與處理單元120連接的系統(tǒng)總線121。系統(tǒng)總線121可以是包括存儲(chǔ)器總線或者存儲(chǔ)控制器、外圍總線和利用多種總線結(jié)構(gòu)的任何一個(gè)的局域總線的多種類型中的任何一種。作為舉例,但是并不作為限制,這種結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線、增強(qiáng)的ISA(EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局域總線,以及也稱作夾層(Mezzanine)總線的外設(shè)部件互連(PCI)總線。
計(jì)算機(jī)110典型地包括多種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)能夠是可以通過(guò)計(jì)算機(jī)110訪問(wèn)的任何可用的介質(zhì),并且其包括易失性和非易失性介質(zhì)、可拆裝和不可拆裝性介質(zhì)。作為舉例,但是并不限制于該例子,計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括在用于例如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或者其它數(shù)據(jù)的信息的存儲(chǔ)的方法和技術(shù)中的易失性的和非易失性的、可拆裝的和不可拆裝的介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但是并不限制于,RAM、ROM、EEPROM、閃存或者其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字化通用光盤(DVD)或者其它的光盤存儲(chǔ)器、磁帶盒、磁帶、磁盤存儲(chǔ)器或者其它的磁存儲(chǔ)裝置、或者用于存儲(chǔ)期望信息的并且可以通過(guò)計(jì)算機(jī)110訪問(wèn)的任何其它介質(zhì)。通信介質(zhì)一般包含計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或者在已調(diào)數(shù)據(jù)信號(hào)例如載波或者其它傳送機(jī)構(gòu)中的其它數(shù)據(jù),并且該通信介質(zhì)包括任何信息傳輸介質(zhì)。術(shù)語(yǔ)“已調(diào)數(shù)據(jù)信號(hào)”的意思是具有一個(gè)或者多個(gè)特征集的信號(hào),或者是以關(guān)于在信號(hào)中的編碼信息的方式改變的信號(hào)。作為舉例,但是并不限制于,通信介質(zhì)包括象有線網(wǎng)或者直接有線連接的有線介質(zhì),以及象聲學(xué)、RF、紅外以及其它的無(wú)線介質(zhì)。上述的任何的組合也可以包括在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。
系統(tǒng)存儲(chǔ)器130包括以象只讀存儲(chǔ)器(ROM)131和隨機(jī)存儲(chǔ)器(RAM)132的易失性的和/或非易失性存儲(chǔ)器的形式存在的計(jì)算機(jī)存儲(chǔ)介質(zhì)。例如在啟動(dòng)期間,包括幫助在計(jì)算機(jī)110中的元件之間傳輸信息的基本例程的基本輸入/輸出系統(tǒng)133(BIOS)被典型地存儲(chǔ)在ROM131中。RAM132典型地包括立即可存取的和/或不久就可以通過(guò)處理單元120操作的數(shù)據(jù)和/或程序模塊。作為舉例,但是并不限于,圖1說(shuō)明操作系統(tǒng)134、應(yīng)用程序135、其它的應(yīng)用程序模塊136以及程序數(shù)據(jù)137。
計(jì)算機(jī)110也可以包括其它的可拆裝/不可拆裝、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。僅僅作為舉例,圖1說(shuō)明了從不可拆裝、非易失性磁介質(zhì)中讀出或者寫入到其中的硬盤驅(qū)動(dòng)器141,從可拆裝、非易失性磁盤152中讀出或者寫入到其中的磁盤驅(qū)動(dòng)器151,以及用于從例如CDROM或者其它光介質(zhì)的可拆裝、非易失性光盤156中讀出或者寫入其中的光盤驅(qū)動(dòng)器155。其它可以用在典型的操作環(huán)境中的可拆裝/不可拆裝、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但是并不限于,盒式磁帶、快速存儲(chǔ)卡、數(shù)字通用盤、數(shù)字錄像磁帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動(dòng)器141典型地通過(guò)象接口140的不可拆裝存儲(chǔ)器接口與系統(tǒng)總線121連接,并且磁盤驅(qū)動(dòng)器151和光盤驅(qū)動(dòng)器155典型地通過(guò)可拆裝存儲(chǔ)器接口,例如接口150與系統(tǒng)總線121連接。
上述和在圖1中說(shuō)明的驅(qū)動(dòng)器和與之相關(guān)的計(jì)算機(jī)存儲(chǔ)介質(zhì)提供計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和用于計(jì)算機(jī)的其它數(shù)據(jù)的存儲(chǔ)。在圖1中,例如,硬盤驅(qū)動(dòng)器141是作為存儲(chǔ)操作系統(tǒng)144、應(yīng)用程序145、其它的程序模塊146和程序數(shù)據(jù)147來(lái)說(shuō)明的。注意這些組件能夠與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137相同或者不同。操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147在這里給出不同的編號(hào)最低限度的說(shuō)明,它們是不同的副本。
用戶可以通過(guò)象鍵盤162、麥克風(fēng)163和象鼠標(biāo)、軌跡球或者接觸墊的點(diǎn)擊設(shè)備161將命令和信息輸入到計(jì)算機(jī)110中。其它的輸入裝置(沒(méi)有示出)可以包括操縱桿、游戲墊、碟形衛(wèi)星天線(satellite dish)、掃描器等等。這些或者其它輸入裝置經(jīng)常通過(guò)與系統(tǒng)總線耦合的用戶輸入接口160與處理單元120連接,但是也可以通過(guò)其它的接口和總線結(jié)構(gòu),例如并行端口、博弈端口或者通用串行總線(USB)的總線結(jié)構(gòu)連接。監(jiān)視器191或者其它類型的顯示裝置也通過(guò)例如視頻接口190的接口與系統(tǒng)總線121連接。除監(jiān)視器之外,計(jì)算機(jī)也可以包括象揚(yáng)聲器197和打印機(jī)196的外圍輸出設(shè)備,其可以通過(guò)輸出外圍接口195連接。
計(jì)算機(jī)110可以利用與一個(gè)或者多個(gè)遠(yuǎn)程計(jì)算機(jī)例如遠(yuǎn)程計(jì)算機(jī)180的邏輯連接在網(wǎng)絡(luò)環(huán)境中進(jìn)行操作。該遠(yuǎn)程計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、手提裝置、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或者其它的公用網(wǎng)絡(luò)結(jié)點(diǎn),并且典型地包括很多或者所有的上面描述的涉及計(jì)算機(jī)110的元件。在圖1中描繪的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)絡(luò)(WAN)173,但是也可以包括其它的網(wǎng)絡(luò)。這種網(wǎng)絡(luò)環(huán)境在辦公室、企業(yè)廣域計(jì)算機(jī)網(wǎng)絡(luò)(enterprise-wide computer networks)、企業(yè)內(nèi)部網(wǎng)絡(luò)和國(guó)際互聯(lián)網(wǎng)中是很常見(jiàn)的。
當(dāng)計(jì)算機(jī)110用在LAN網(wǎng)絡(luò)環(huán)境中的時(shí)候,它通過(guò)網(wǎng)絡(luò)接口或者適配器170與LAN171連接。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用的時(shí)候,計(jì)算機(jī)110典型地包括調(diào)制解調(diào)器172或者其它的用于在WAN173例如國(guó)際互聯(lián)網(wǎng)上建立通信的裝置。可以內(nèi)置或者外置的調(diào)制解調(diào)器172可以通過(guò)用戶輸入接口160或者其它的適當(dāng)?shù)臋C(jī)構(gòu)將其與系統(tǒng)總線121連接。在網(wǎng)絡(luò)環(huán)境中,描繪相關(guān)計(jì)算機(jī)110或者其部分的程序模塊可以存儲(chǔ)在遠(yuǎn)程存儲(chǔ)裝置中。作為舉例,但不限于,圖1說(shuō)明遠(yuǎn)程應(yīng)用程序185是駐留于遠(yuǎn)程計(jì)算機(jī)180上的??梢岳斫怙@示的網(wǎng)絡(luò)連接是例證式的,并且可以使用在計(jì)算機(jī)之間建立通信鏈接的其它裝置。
圖2是移動(dòng)裝置200的框圖,該移動(dòng)裝置是典型的計(jì)算環(huán)境。移動(dòng)裝置200包括微處理器202、存儲(chǔ)器204、輸入/輸出(I/O)組件206以及用于與遠(yuǎn)程計(jì)算機(jī)或者其它移動(dòng)裝置通信的通信接口208。在一個(gè)實(shí)施例中,上述組件彼此之間通過(guò)相配的總線210進(jìn)行用于通信的連接。
存儲(chǔ)器204是作為帶有備用電池模塊(沒(méi)有示出)的象隨機(jī)存儲(chǔ)器(RAM)的非易失的電子存儲(chǔ)器實(shí)現(xiàn)的,因此當(dāng)移動(dòng)裝置的總電源關(guān)閉的時(shí)候,存儲(chǔ)在存儲(chǔ)器204中的信息不會(huì)丟失。存儲(chǔ)器204的一部分最好配置為存放用于程序執(zhí)行的可尋址存儲(chǔ)器,而存儲(chǔ)器204的另外一個(gè)部分最好用于存儲(chǔ),例如在硬盤驅(qū)動(dòng)器上模擬存儲(chǔ)。
存儲(chǔ)器204包括操作系統(tǒng)212、應(yīng)用程序214以及對(duì)象存儲(chǔ)器216。在操作期間,操作系統(tǒng)212最好通過(guò)來(lái)自存儲(chǔ)器204的處理器202執(zhí)行。在一個(gè)較佳實(shí)施例中,操作系統(tǒng)212是來(lái)自微軟公司的在商業(yè)上可用的WINDOWS CE版號(hào)的操作系統(tǒng)。操作系統(tǒng)212最好設(shè)計(jì)成用于移動(dòng)裝置并且通過(guò)一組陳列的應(yīng)用程序接口和方法來(lái)執(zhí)行能夠通過(guò)應(yīng)用程序214利用的數(shù)據(jù)庫(kù)功能部件。在對(duì)象存儲(chǔ)器216中的對(duì)象是通過(guò)應(yīng)用程序214和操作系統(tǒng)212維護(hù)的,至少局部響應(yīng)對(duì)陳列的應(yīng)用程序接口和方法的調(diào)用。
通信接口208代表允許移動(dòng)裝置200發(fā)送和接收信息的很多裝置和技術(shù)。僅舉例來(lái)說(shuō),該裝置包括有線和無(wú)線調(diào)制解調(diào)器、衛(wèi)星接收器和廣播調(diào)諧器。移動(dòng)裝置200也能夠直接與計(jì)算機(jī)相連接以與之交換數(shù)據(jù)。在這種情況下,通信接口208可以是紅外收發(fā)器或者串行通信連接或者并行通信連接,這些都能夠傳輸流式信息。
輸入/輸出組件206包括象觸摸屏、按鈕、滾輪以及麥克風(fēng)的多種輸入裝置,以及包括聲頻發(fā)生器、振動(dòng)裝置和顯示器的多種輸出裝置。上面列出的裝置是示例并且在移動(dòng)裝置200中并不需要存在所有的這些裝置。此外,在本發(fā)明的范圍內(nèi),其它輸入/輸出裝置可以附加到移動(dòng)裝置200中或者與移動(dòng)裝置200一起存在。
本發(fā)明提供語(yǔ)音的再生模型。在這個(gè)模型中,將語(yǔ)音描繪成說(shuō)話者嘗試的輸出,以根據(jù)語(yǔ)音執(zhí)行語(yǔ)音單元序列對(duì)語(yǔ)言的定義(definition)。在這個(gè)嘗試期間,說(shuō)話者產(chǎn)生相關(guān)生成式值,該相關(guān)生成式值服從對(duì)于與當(dāng)前語(yǔ)音單元相關(guān)聯(lián)的目標(biāo)的統(tǒng)計(jì)定義軌道(利用具有遞歸噪音的狀態(tài)空間模式)。在本發(fā)明的實(shí)施例中,這個(gè)軌道是作為轉(zhuǎn)換狀態(tài)空間模型被建摸的。
本發(fā)明的模型是隱藏軌道模型的特定形式,在隱藏軌道模型中,該軌道是隨著加到每幀中的噪音而遞歸定義的。這個(gè)狀態(tài)空間模型包括兩層,描述隱藏相關(guān)生成式參數(shù)(例如聲道諧振頻率)的動(dòng)態(tài)或者軌道模型組件、以及將相關(guān)生成式參數(shù)翻譯成象嘜耳頻率倒頻譜系數(shù)(Mel-Frequency Cepstral Coefficients)的可觀測(cè)的聲學(xué)特征的映射模型組件。在狀態(tài)空間模型中的狀態(tài)方程預(yù)測(cè)適于相關(guān)生成式參數(shù)的連續(xù)狀態(tài)值(X1,...,Xn,...,XN)的序列。映射模型或者觀察方程在給定連續(xù)隱藏狀態(tài)值序列時(shí)預(yù)測(cè)聲觀察向量Yn的序列。
該遞歸定義軌道和映射模型能夠通過(guò)兩個(gè)公式簡(jiǎn)單的表示xn=Asxn-1+(I-As)us+w 公式1yn=Csxn+cs+v 公式2其中n和s分別是幀號(hào)碼和語(yǔ)音單元標(biāo)記,X是隱藏相關(guān)生成式參數(shù),y是聲學(xué)特征向量,As和Cs是語(yǔ)音單元相依系統(tǒng)矩陣,us是語(yǔ)音單元相依目標(biāo),I是恒等矩陣,cs是語(yǔ)音單元相依常數(shù),并且w和v是噪聲項(xiàng)。
在一個(gè)實(shí)施例中,公式1和2的模型根據(jù)概率分布表示為p(sn=s|sn-1=s′)=πss′公式3p(xn|sn=s,xn-1)=N(xn|Asxn-1+as,Bs)公式4p(yn|sn=s,xn)=N(yn|Csxn+cs,Ds)公式5其中Bs和Ds是精密矩陣(協(xié)方差矩陣的逆),其是以與噪音項(xiàng)w和v以及as=(I-As)ux相關(guān)的方差為基準(zhǔn)的。
通常,訓(xùn)練公式3-5的模型參數(shù)需要迭代的兩步處理。第一步驟稱為推理,在這期間,計(jì)算后驗(yàn)分布p(s1∶N,x1∶N/y1∶N)給出模型參數(shù)的初始設(shè)置。在第二步期間,稱為學(xué)習(xí)或者參數(shù)估計(jì),更新模型參數(shù)。重復(fù)這些步驟直到模型參數(shù)收斂或者達(dá)到某最大數(shù)量的迭代為止。當(dāng)執(zhí)行廣義預(yù)期最大化訓(xùn)練的時(shí)候,E步驟是推理步驟并且M步驟是學(xué)習(xí)步驟。
公式3-5的模型的推理步驟不能直接執(zhí)行,因?yàn)楹篁?yàn)計(jì)算是難處理的。本發(fā)明的一個(gè)實(shí)施例通過(guò)近似利用高斯模型混合的后驗(yàn)分布克服了這個(gè)問(wèn)題。本發(fā)明的另一個(gè)實(shí)施例通過(guò)近似利用HMM后驗(yàn)的后驗(yàn)分布克服了這個(gè)問(wèn)題。利用這種近似和變化的計(jì)算,使估計(jì)后驗(yàn)概率是可能的。下面將分別討論每個(gè)近似。
高斯混合在本發(fā)明的高斯混合的實(shí)施例中,后驗(yàn)概率p(S1∶N,x1∶N/y1∶N)是作為q(s1∶N,x1∶N/y1∶N)近似的,其定義為q(s1:N,x1:N|y1:N)=Πn=1:Nq(xn|sn,y1:N)q(sn|y1:N)]]>公式6其中q()表示概率。注意在公式6的近似中,在幀n上相關(guān)生成式值的概率是不依賴于在其它時(shí)間幀期間的相關(guān)生成式參數(shù)的值的,并且僅僅取決于在幀n上的語(yǔ)音單元的值并且不取決于其它幀的語(yǔ)音單元的值。這樣就大大的減小了為了計(jì)算近似而完成的計(jì)算量。
通過(guò)最小化在近似和實(shí)際后驗(yàn)分布之間的偏差,本發(fā)明者已經(jīng)發(fā)現(xiàn)概率q(xn/sn,y1∶N)是高斯分布的必然結(jié)果q(xn|sn,y1∶N)=N(xn|ρs,n,Γs,n)公式7其中平均數(shù)ρs,n和協(xié)方差Γs,n通過(guò)下面的公式給出Γs,n=CsTDsCs+Bs+Σs′γs′,n+1As′TBs′As′]]>公式8Γs,nρs,n=Bs(AsΣs′γs′,n-1ρs′,n-1+as)]]>+Σs′γs′,n+1As′TBs′(ρs′,n+1-as′)]]>公式9+CsTDs(yn-cs)]]>其中γs,n=q(sn=s/y1∶N)是在幀n上的語(yǔ)音單元的概率,并且作為下面的公式來(lái)計(jì)算logγs,n=f1+f2+f3公式10其中f1=12{log|Ds2π|-log|Γs,n2π|-<CsTDsCs,Γs,n-1+ρs,nρs,nT>-2(cs-yn)TDsCsρs,n]]>-(cs-yn)TDs(cs-yn)+<Γs,n,Γs,n-1+ρs,nρs,nT>-ρs,nTΓs,nρs,n]]>log|Bs2π|-<Bs,Γs,n-1+ρs,nρs,nT>+2asTBsρs,n-asTBsas}]]>公式11f2=12Σγs′,n-1{-<AsTBsAs,Γs′,n-1-1+ρs′,n-1ρs′,n-1T>]]>-2s′(as-ρs,n)TBs′As·ρs′,n-1+2logπs′s}]]>公式12f3=12Σs′γs′,n+1{log|Bs′2π|-<As′TBs′As′,Γs,n-1+ρs,nρs,nT>-2(as′-ρs′,n+1)TBs′As′ρs′,n]]>-<Bs′,Γs′,n+1-1+ρs′,n+1ρs′,n+1T>-2as′TBs′ρs′n+1-as′TBs′as′+2logπs′s]]>公式13其中<>表示通過(guò)對(duì)兩個(gè)相同大小的向量或者矩陣的元素方向乘積的求和獲得標(biāo)量。在這個(gè)發(fā)明的實(shí)踐中,在訓(xùn)練期間,在上述公式中通過(guò)s’變量(離散狀態(tài))指示的總和項(xiàng)已經(jīng)徹底的減小了,因?yàn)橛?xùn)練過(guò)程(script)是可靠的,以致能夠強(qiáng)烈的約束可能的s序列。
在一個(gè)實(shí)施例中,推理步驟是通過(guò)適于利用公式10和ρs,n和Γs,n的在前的值的每個(gè)s,n組合的第一個(gè)決定γs,n執(zhí)行的。由于在公式10中的γs,n的計(jì)算是取決于γs,n的,公式10是迭代估算的直到γs,n收斂為止。然后利用來(lái)自公式10的γs,n的新的值估算公式8,以產(chǎn)生一個(gè)Γs,n的更新值。然后Γs,n的更新值與γs,n一起使用以確定在公式9中的ρs,n。注意,公式8和9是組合的線性方程并且能夠通過(guò)稀疏矩陣技術(shù)得到有效的解答。這個(gè)過(guò)程能夠重復(fù)迭代以提高γs,n,Γs,n和ρs,n的值的精確度。
當(dāng)推理步驟完成之后,γs,n,Γs,n和ρs,n的值用在學(xué)習(xí)步驟中,以設(shè)置模型參數(shù)Θ={A1∶S,a1∶s,B1∶S,C1∶S,c1∶S,D1∶S}的值,其是根據(jù)As=[1Σnγs,n(Σnγs,nρs,n)(Σnγs,nΣs′γs′,n-1ρs′,n-1)T-Σnγs′,nρs,nΣs′γs′,n-1ρs′,n-1T]]]>[1Σnγs,n(Σnγs,nΣs′γs′,n-1ρs′,n-1)(Σnγs,nΣs′γs′,n-1ρs′,n-1)T-Σnγs,nΣs′γs′,n-1(Γs′,n-1-1+ρs′,n-1ρs′,n-1T)]-1]]>公式14as=1Σnγs,n(Σnγs,nρs,n-AsΣnγs,nΣs′γs′,n-1ρs′,n-1)]]>公式15Bs-1=1Σnγs,n{Σnγs,n(Γs,n-1+ρs,nρs,nT)-[(Σnγs,nρs,n(Σs′γs′,n-1ρs′,n-1)T]-AsT-(Σnγs,nρs,n)asT}]]>-As[Σnγs,n(Σs′γs′,n-1ρs′,n-1)ρs,nT]+As[Σnγs,nΣs′γs′,n-1(Γs′-1+ρs′,n-1ρs′,n-1T)]AsT]]>+As(Σnγs,nΣs′γs′,n-1ρs′,n-1)asT-as(Σnγs,nρs,n)T]]>+as[Σnγs,n(Σs′γs′,n-1ρs′,n-1)T]AsT}+asasT]]>公式16Cs=[1Σnγs,n(Σnγs,nyn)(Σnγs,nρs,n)T-Σnγs,nynρs,nT]]]>[1Σnγs,n(Σnγs,nyn)(Σnγs,nρs,n)T-Σnγs,n(Γs,n-1+ρs,nρs,nT)]-1]]>公式17Cs=1Σnγs,n(Σnγs,nyn-CsΣnγs,nρs,n)]]>公式18
Ds-1=1Σnγs,n{Σnγs,nynynT-(Σnγs,nynρs,nT)CsT-(Σnγs,nyn)csT-Cs(Σnγs,nynρs,nT)T]]>+Cs[Σnγs,n(Γs,n-1+ρs,nρs,nT)]CsT+Cs(Σnγs,nρs,n)csT-Cs(Σnγs,nyn)T]]>+cs(Σnγs,nρs,n)TCsT}+cscsT]]>公式19推理和學(xué)習(xí)步驟可以重復(fù)很多次以完成訓(xùn)練。
HMM后驗(yàn)在第二個(gè)實(shí)施例中,后驗(yàn)是利用HMM后驗(yàn)近似的,HMM后驗(yàn)定義為q(s1:N,x1:N|y1:N)=Πn=1Nq(xn|sn,y1:N)·Πn=2Nq(sn|sn-1,y1:N)·q(s1|y1:N)]]>公式20如在高斯模型的混合中,在HMM后驗(yàn)?zāi)P椭械母怕蕅(xn/sn,y1∶N)是具有平均值ρs,n和協(xié)方差矩陣Γs,n的高斯分布。該平均值ρs,n和協(xié)方差矩陣Γs,n是利用具有γs,n的新定義的上面提到的公式8和9計(jì)算的。特別地,γs,n是利用反向—正向(backward-forward)處理確定的,反向—正向處理也定義了后驗(yàn)躍遷概率ηs′x,n=q(sn=s/sn-1-s′,y1∶N)。
反向—正向處理是通過(guò)初始化適于所有的s的值z(mì)s,N+1=1開(kāi)始的。在反向通過(guò)(pass)期間,對(duì)于n=N,...,2執(zhí)行下面的計(jì)算zs,n=Σs′exp(fss′,n)zs′,n+1]]>公式21ηss′,n=1zs,nexp(fss′,n)zs′,n+1]]>公式22當(dāng)n=1的時(shí)候z1=Σsexp(fs,1)zs,2]]>公式23γs,1=1z1exp(fs,1)zs,2]]>公式24在正向通過(guò)期間,對(duì)n=2,...,N執(zhí)行下面的計(jì)算γs,n=Σs′ηs′s,nγs′,n-1]]>公式25其中
fs′s,n=12{log|Ds2π|-<CsTDsCs,Γs,n-1+ρs,nρs,nT>-2(cs-yn)TDsCsρs,n-(cs-yn)TDs(cs-yn)]]>-log|Γs,n2π|+<Γs,n,Γs,n-1+ρs,nρs,nT>-ρs,nTΓs,nρs,n+log|Bs2π|]]>-<AsTBsAs,Γs′-1+ρs′,n-1ρs′,n-1T>-2(as-ρs,n)TBsAsρs′,n-1-<Bs,Γs,n-1+ρs,nρs,nT>]]>+2asTBsρs,n-asTBsas+2logπs′s}]]>公式26fs,1=12{log|Ds2π|-<CsTDsCs,Γs,1-1+ρs,1ρs,1T>-2(cs-y1)TDsCsρs,1-(cs-y1)TDs(cs-y1)]]>-log|Γs,12π|+<Γs,1,Γs,1-1+ρs,1ρs,1T>-ρs,1TΓs,1ρs,1+log|Bs2π|]]>-<Bs,Γs,1-1+ρs,1ρs,1T>+2asTBsρs,1-asTBsas+2logπ0}]]>公式27因此在推理步驟期間,首先利用公式21-27的反向—正向處理計(jì)算γs,n。然后利用上面提到的公式8和9以及計(jì)算出的γs,n計(jì)算平均值ρs,n和協(xié)方差Γs,n。在執(zhí)行學(xué)習(xí)步驟之前,能夠重復(fù)這些步驟使得γs,n、ρs,n和Γs,n的值能夠達(dá)到穩(wěn)定值。
當(dāng)推理步驟完成之后,利用下面的公式,能夠執(zhí)行學(xué)習(xí)步驟以設(shè)置模型參數(shù)的值Θ={A1∶S,a1∶s,B1∶S,C1∶s,c1∶S,D1∶s}As=[1Σnγs,n(Σnγs,nρs,n)(ΣnΣs′ηs′s,nγs′,n-1ρs′,n-1)T-Σnρs,nΣs′ηs′s,nγs′,n-1ρs′,n-1T]]]>[1Σnγs,n(ΣnΣs′ηs′s,nγs′,n-1ρs′,n-1)(ΣnΣs′ηs′s,nγs′,n-1ρs′,n-1)T-ΣnΣs′ηs′s,nγs′,n-1(Γs′,n-1-1+ρs′,n-1ρs′,n-1T)]-1]]>公式28as=1Σnγs,n(Σnγs,nρs,n-AsΣnΣs′ηs′s,nγs′,n-1ρs′,n-1)]]>公式29NBs-1=Σnγs,n(Γs,n-1+ρs,nρs,nT)-[Σnρs,n(Σs′ηs′s,nγs′,n-1ρs′,n-1T)]AsT-(Σnγs,nρs,n)asT]]>-As[Σn(Σs′ηs′s,nγs′,n-1ρs′,n-1)ρs,nT]+As[ΣnΣs′ηs′s,nγs′,n-1(Γs′-1+ρs′,n-1ρs′,n-1T)]AsT]]>+As(ΣnΣs′ηs′s,nγs′,n-1ρs′,n-1)asT-asΣnγs,nρs,nT+as(ΣnΣs′ηs′s,nγs,n-1ρs′,n)TAsT]]>+(Σnγs,n)asasT]]>公式30
Cs=[1Σnγs,n(Σnγs,nyn)(Σnγs,nρs,n)T-Σnγs,nynρs,nT]]]>[1Σnγs,n(Σnγs,nρs,n)(Σnγs,nρs,n)T-Σnγs,n(Γs′,n-1T+ρs′,n-1ρs′,n-1T)]-1]]>公式31Cs=[1Σnγs,n(Σnγs,nyn)-CsΣnγs,nρs,n]]]>公式32NDs-1=Σnγs,nynynT-(Σnγs,nynρs,nT)CsT-(Σnγs,nyn)csT-Cs(Σnγs,nynρs,nT)T]]>+Cs[Σnγs,n(Γs,n-1+ρs,nρs,nT)]CsT+Cs(Σnγs,nρs,n)csT-Cs(Σnγs,nyn)T]]>+cs(Σnγs,nρs,n)TCsT+(Σnγs,n)cscsT]]>公式33訓(xùn)練精化如那些本領(lǐng)域技術(shù)人員認(rèn)識(shí)到的,如果適于模型參數(shù)的初始值接近于通過(guò)訓(xùn)練識(shí)別的值,那么象上面討論的那些高斯混合和HMM后驗(yàn)?zāi)P偷闹貜?fù)局部最優(yōu)化訓(xùn)練算法將能夠比較好的執(zhí)行。在本發(fā)明的一些實(shí)施例中,關(guān)于相關(guān)生成式參數(shù)的目標(biāo)參數(shù)as是在手工標(biāo)記(hand-labeled)的相關(guān)生成式值的基礎(chǔ)上設(shè)置的。在一個(gè)特定的實(shí)施例中,相關(guān)生成式值是聲道共振(VTR),目標(biāo)是在來(lái)自說(shuō)話者獲取的手工標(biāo)記的VTR數(shù)據(jù)的基礎(chǔ)上初始化的。
因?yàn)橐羲剡吔缭谏鲜鲞M(jìn)行的近似中是不確定的,因此音素躍遷能夠在每一幀中出現(xiàn)。對(duì)于自然語(yǔ)音來(lái)說(shuō),每個(gè)音素存在某個(gè)最短持續(xù)時(shí)間以致躍遷在每一幀上是不被允許的。為了解決這個(gè)問(wèn)題,本發(fā)明的實(shí)施例利用了一串隨時(shí)間變化的躍遷矩陣,該躍遷矩陣將適于躍遷的概率提供給在每一幀上的其它音素。矩陣是通過(guò)修改通過(guò)HMM訓(xùn)練識(shí)別的語(yǔ)音單元邊界而建立的。對(duì)邊界的修改涉及將來(lái)自出現(xiàn)在兩幀之間的強(qiáng)固定邊界的每個(gè)邊界轉(zhuǎn)換成在許多幀上延伸的概率邊界。在強(qiáng)固定邊界中,適于每個(gè)語(yǔ)音單元的ρs,n的值可以是表示對(duì)于幀的語(yǔ)音單元的百分之百概率的1,或者是表示對(duì)于幀的語(yǔ)音單元的零百分比概率的0。在修改的邊界中,ρs,n的值能夠是在0和1之間的任何一個(gè)值。
例如,如果HMM預(yù)測(cè)在語(yǔ)音單元s1和語(yǔ)音單元s2之間的固定邊界,那么在一個(gè)實(shí)施例中,對(duì)于在固定邊界之前的三幀和固定邊界之后的三幀的語(yǔ)音單元s1和語(yǔ)音單元s2的概率將被設(shè)置成0.5。在另一個(gè)實(shí)施例中,穿過(guò)圍繞固定邊界的幀的語(yǔ)音單元s1和語(yǔ)音單元s2的概率逐漸改變。例如穿過(guò)相應(yīng)幀的語(yǔ)音單元s1的概率可以是[1,0.8,0.6,0.5,0.4,0.2,0],而穿過(guò)相同的幀的語(yǔ)音單元s2的概率將是
。注意對(duì)于幀或者其相鄰幀的沒(méi)有預(yù)測(cè)的語(yǔ)音單元具有零概率。
注意在邊界的每一側(cè)的幀的數(shù)目可以不同于三,并且能夠取決于由HMM訓(xùn)練設(shè)置的每個(gè)語(yǔ)音單元的中點(diǎn)。
隱藏生成式參數(shù)恢復(fù)(recovery)如上面提到的一樣,本發(fā)明的模型所根據(jù)的相關(guān)生成式參數(shù)被隱藏并且該相關(guān)生成式參數(shù)是不能直接測(cè)量的。然而,為了判斷系統(tǒng)的性能并且為了收集在隱藏相關(guān)生成式參數(shù)上的數(shù)據(jù),例如聲音共振軌跡(vocal resonance tracks),需要恢復(fù)隱藏相關(guān)生成式參數(shù)的值。
在本發(fā)明中,一旦γs,n和ρs,n的值利用上述的高斯近似混合或者HMM后驗(yàn)近似已經(jīng)訓(xùn)練完成,那么做到這點(diǎn)是很容易的。一旦那些值是已知的,隱藏相關(guān)生成式參數(shù)是簡(jiǎn)單的x^n=Σsγs,nρs,n]]>公式34語(yǔ)音識(shí)別當(dāng)模型參數(shù)已經(jīng)利用上面討論的一個(gè)近似得到訓(xùn)練之后,模型參數(shù)和近似能夠用于執(zhí)行語(yǔ)音識(shí)別。在給定表示語(yǔ)音信號(hào)的觀測(cè)特征向量的序列時(shí),這涉及到識(shí)別大多數(shù)可能的語(yǔ)音單元序列,例如音素。
對(duì)于高斯近似混合來(lái)說(shuō),語(yǔ)音識(shí)別能夠通過(guò)簡(jiǎn)單的測(cè)定基于觀測(cè)特征向量和訓(xùn)練出的模型參數(shù)Θ={A1∶S,a1∶s,B1∶S,C1∶s,c1∶s,D1∶S}的γs,n、Γs,n和ρs,n來(lái)執(zhí)行。然后選擇在幀n上的具有最大γs,n的語(yǔ)音單元s作為適于幀n的語(yǔ)音單元。
為了避免非自然語(yǔ)音單元轉(zhuǎn)換,能夠用躍遷矩陣擴(kuò)充這個(gè)識(shí)別系統(tǒng),其將最小持續(xù)時(shí)間約束增加到語(yǔ)音單元中。因此在躍遷矩陣中,在語(yǔ)音單元之間的每個(gè)躍遷具有聯(lián)合概率,至少對(duì)于每個(gè)語(yǔ)音單元的一些最小數(shù)量的幀來(lái)說(shuō),保留在語(yǔ)音單元中的概率高于躍遷到另一個(gè)語(yǔ)音單元的概率。為了利用這個(gè)躍遷矩陣執(zhí)行語(yǔ)音識(shí)別,可以使用維特比譯碼器,該譯碼器在給定躍遷概率和γs,n概率時(shí),通過(guò)可能的語(yǔ)音單元識(shí)別大部分可能路徑。
對(duì)于HMM后驗(yàn)近似來(lái)說(shuō),語(yǔ)音識(shí)別是通過(guò)確定基于觀測(cè)特征向量和訓(xùn)練出的模型參數(shù)Θ={A1∶S,a1∶S,B1∶S,C1∶S,c1∶S,D1∶S}的γs,n、ηss′n、Γs,n和ρs,n來(lái)執(zhí)行的。然后在維特比譯碼中使用第一幀的語(yǔ)音單元概率γs,1和躍遷概率ηss′,n以識(shí)別語(yǔ)音單元s的大部分可能序列。對(duì)公式而言,維特比譯碼器根據(jù)下面的公式得出最大路徑得分(score)VNV1(s)=γs,1公式35Vn(s′)=max1≤s≤S[Vn-1(s)ηss′,n]]]>公式36當(dāng)用高斯近似混合的時(shí)候,能夠?qū)⒊掷m(xù)時(shí)間約束加到通過(guò)修改躍遷概率解碼的HMM后驗(yàn)中,以增加與躍遷到其它語(yǔ)音單元中的似然性有關(guān)的保留在語(yǔ)音單元中的似然性。
圖3提供了語(yǔ)音識(shí)別系統(tǒng)的框圖,在該語(yǔ)音識(shí)別系統(tǒng)中能夠使用本發(fā)明。在圖3中,可以是訓(xùn)練者或者用戶的說(shuō)話者300將發(fā)言輸入到麥克風(fēng)304中。麥克風(fēng)304也接收來(lái)自一個(gè)或者多個(gè)噪聲源302的添加性噪聲。將通過(guò)麥克風(fēng)檢測(cè)的音頻信號(hào)轉(zhuǎn)換為電信號(hào),再將該電信號(hào)提供給模擬—數(shù)字轉(zhuǎn)換器306。
模-數(shù)轉(zhuǎn)換器306將來(lái)自麥克風(fēng)304的模擬信號(hào)轉(zhuǎn)換成一串?dāng)?shù)字值。在幾個(gè)實(shí)施例中,模-數(shù)轉(zhuǎn)換器306以16KHz采樣模擬信號(hào)并且每個(gè)樣本是16位,因此每秒鐘產(chǎn)生32KB語(yǔ)音數(shù)據(jù)。將這些數(shù)字值提供給幀構(gòu)造器307,該幀構(gòu)造器在一個(gè)實(shí)施例中將值分組成10毫秒間隔啟動(dòng)的25毫秒幀。
通過(guò)幀構(gòu)造器307產(chǎn)生的數(shù)據(jù)幀提供給特征抽取器308,該特征抽取器從每幀中抽取特征。特征抽取模塊的范例包括用于執(zhí)行線性預(yù)測(cè)編碼(LPC)的模塊,LPC導(dǎo)出倒頻譜、感知線性預(yù)測(cè)(PLP)、聽(tīng)覺(jué)模型特征抽取以及嘜耳頻率倒頻譜系數(shù)(MFCC)特征抽取。注意本發(fā)明并不限于這些特征抽取模塊,并且其它的模塊可以用在本發(fā)明的范圍內(nèi)。
如果輸入信號(hào)是訓(xùn)練信號(hào),那么將該系列特征向量提供給訓(xùn)練器324,該訓(xùn)練器使用特征向量和訓(xùn)練文本326訓(xùn)練本發(fā)明的再生模型328。例如可以使用上述的EM訓(xùn)練算法訓(xùn)練再生模型參數(shù)Θ={A1∶S,a1∶S,B1∶S,C1∶s,c1∶s,D1∶S}。如上面所述,為了訓(xùn)練再生模型328,訓(xùn)練器324訓(xùn)練近似模型327,例如上述的高斯近似混合或者HMM后驗(yàn)近似。
如上所述,重復(fù)EM訓(xùn)練算法。在這種情況下,當(dāng)訓(xùn)練近似模型327的時(shí)候訓(xùn)練器324訪問(wèn)再生模型328,并且當(dāng)訓(xùn)練再生模型328的時(shí)候,訓(xùn)練器324訪問(wèn)近似模型327。
一旦已經(jīng)訓(xùn)練完再生模型328,就將輸入語(yǔ)音信號(hào)轉(zhuǎn)換成觀測(cè)特征向量流。將這些向量提供給訓(xùn)練器324,訓(xùn)練器324以觀測(cè)向量和再生模型328的參數(shù)為基礎(chǔ)為近似模型327設(shè)置模型參數(shù)。然后解碼器312在特征向量流、詞典314、語(yǔ)言模型316、近似模型327和再生模型328的基礎(chǔ)上識(shí)別詞的大部分可能序列。在一個(gè)實(shí)施例中,詞典314定義了有限狀態(tài)網(wǎng)絡(luò),通過(guò)解碼器312穿過(guò)有限狀態(tài)網(wǎng)絡(luò)以識(shí)別來(lái)自特征向量的序列。注意如上面所述,關(guān)于上面作為躍遷矩陣的這個(gè)網(wǎng)絡(luò)可以包括組成詞的語(yǔ)音單元的持續(xù)時(shí)間約束。
將大多數(shù)可能的假設(shè)詞序列提供給置信量度模塊320。置信量度模塊320部分地以第二聲音模塊(沒(méi)有示出)為基礎(chǔ)識(shí)別通過(guò)語(yǔ)音識(shí)別器錯(cuò)誤識(shí)別的大部分可能詞。然后置信量度模塊320將假設(shè)詞的序列連同指示哪些詞已經(jīng)被錯(cuò)誤的識(shí)別的標(biāo)識(shí)符一起提供給輸出模塊322。那些本領(lǐng)域技術(shù)人員能夠認(rèn)識(shí)到置信量度模塊320對(duì)于本發(fā)明的實(shí)踐來(lái)說(shuō)不是必須的。
雖然已經(jīng)參考特定實(shí)施例對(duì)本發(fā)明進(jìn)行了敘述,但是本領(lǐng)域的技術(shù)人員在不脫離本發(fā)明的精神和范圍的情況下,可以在形式上和細(xì)節(jié)上對(duì)本發(fā)明進(jìn)行變換。
權(quán)利要求
1.一種估計(jì)轉(zhuǎn)換狀態(tài)空間模型的后驗(yàn)概率的方法,該后驗(yàn)概率根據(jù)與幀序列聯(lián)系在一起的輸入值提供語(yǔ)音單元組和幀序列的隱藏參數(shù)組的似然性,其特征在于,所述方法包括通過(guò)將單個(gè)隱藏參數(shù)概率乘到一起形成隱藏參數(shù)概率的乘積的方法部分地近似后驗(yàn)概率,其中每個(gè)單個(gè)隱藏參數(shù)概率,在給定幀的語(yǔ)音單元和給定適于幀序列的輸入值的幀時(shí),提供隱藏參數(shù)的概率;并且調(diào)整定義隱藏參數(shù)概率的參數(shù),使隱藏參數(shù)概率提供后驗(yàn)概率的較好的近似。
2.如權(quán)利要求1所述的方法,其特征在于,所述近似后驗(yàn)概率進(jìn)一步包括用語(yǔ)音單元概率的乘積乘以隱藏參數(shù)概率的乘積,其中每個(gè)語(yǔ)音單元概率為一幀提供語(yǔ)音單元的概率。
3.如權(quán)利要求2所述的方法,其特征在于,所述方法進(jìn)一步包括調(diào)整語(yǔ)音單元概率,使語(yǔ)音單元概率提供較好的后驗(yàn)概率的近似。
4.如權(quán)利要求2所述的方法,其特征在于,所述方法進(jìn)一步包括利用后驗(yàn)概率的近似解碼輸入值,以識(shí)別幀序列的語(yǔ)音單元序列。
5.如權(quán)利要求4所述的方法,其特征在于,所述利用的近似包括為每一幀選擇語(yǔ)音單元是選擇該幀的具有最高語(yǔ)音單元概率的語(yǔ)音單元。
6.如權(quán)利要求4所述的方法,其特征在于,所述利用的近似包括將持續(xù)時(shí)間約束應(yīng)用到語(yǔ)音單元中,并且根據(jù)持續(xù)時(shí)間約束和語(yǔ)音單元概率選擇最好的語(yǔ)音單元序列。
7.如權(quán)利要求1所述的方法,其特征在于,所述近似后驗(yàn)概率進(jìn)一步包括用語(yǔ)音單元躍遷概率的乘積乘以隱藏參數(shù)概率的乘積,其中每個(gè)語(yǔ)音單元躍遷概率在給定另一幀中語(yǔ)音單元時(shí),提供一幀中的語(yǔ)音單元的概率。
8.如權(quán)利要求7所述的方法,其特征在于,所述方法進(jìn)一步包括調(diào)整語(yǔ)音單元躍遷概率,使語(yǔ)音單元躍遷概率提供后驗(yàn)概率的較好的近似。
9.如權(quán)利要求7所述的方法,其特征在于,所述方法進(jìn)一步包括利用后驗(yàn)概率的近似解碼輸入值,以識(shí)別幀序列的語(yǔ)音單元序列。
10.如權(quán)利要求9所述的方法,其特征在于,所述利用的近似包括根據(jù)語(yǔ)音單元躍遷概率選擇語(yǔ)音單元序列。
11.如權(quán)利要求10所述的方法,其特征在于,所述利用的近似包括將持續(xù)時(shí)間約束應(yīng)用到語(yǔ)音單元,并且根據(jù)持續(xù)時(shí)間約束和語(yǔ)音單元躍遷概率選擇最好的語(yǔ)音單元序列。
12.如權(quán)利要求1所述的方法,其特征在于,所述調(diào)整定義隱藏參數(shù)概率的參數(shù)包括根據(jù)轉(zhuǎn)換狀態(tài)空間模型參數(shù)調(diào)整參數(shù)以產(chǎn)生已調(diào)整的參數(shù)。
13.如權(quán)利要求12所述的方法,其特征在于,所述輸入值從訓(xùn)練信號(hào)中產(chǎn)生,并且其中調(diào)整參數(shù)進(jìn)一步包括根據(jù)定義隱藏參數(shù)概率的已經(jīng)調(diào)整的參數(shù)調(diào)整轉(zhuǎn)換狀態(tài)空間模型的參數(shù),以形成已經(jīng)調(diào)整的轉(zhuǎn)換狀態(tài)空間模型參數(shù),并且根據(jù)已經(jīng)調(diào)整的轉(zhuǎn)換狀態(tài)空間模型參數(shù)調(diào)整定義隱藏參數(shù)概率的已經(jīng)調(diào)整的參數(shù)。
14.如權(quán)利要求1所述的方法,其特征在于,所述方法進(jìn)一步包括利用后驗(yàn)概率的近似識(shí)別幀序列的隱藏參數(shù)的序列。
15.一種包括計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可執(zhí)行指令的執(zhí)行步驟包括定義包括隱藏相關(guān)生成式參數(shù)模型的語(yǔ)音的隱藏動(dòng)態(tài)模型;并且近似后驗(yàn)概率,該后驗(yàn)概率在不需要固定語(yǔ)音單元邊界的條件下在輸入值的序列的基礎(chǔ)上提供隱藏相關(guān)生成式參數(shù)的序列和語(yǔ)音單元的序列的似然性。
16.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述近似后驗(yàn)概率包括在給定該幀的語(yǔ)音單元和輸入值序列時(shí),為輸入值幀確定描述隱藏相關(guān)生成式參數(shù)的似然性的模型參數(shù)。
17.如權(quán)利要求16所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述近似后驗(yàn)概率進(jìn)一步包括確定語(yǔ)音單元概率,該語(yǔ)音單元概率在給定輸入值序列時(shí)描述了一幀的語(yǔ)音單元的似然性。
18.如權(quán)利要求17所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括利用語(yǔ)音單元概率為一幀選擇語(yǔ)音單元。
19.如權(quán)利要求18所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括為輸入值的每一幀的多個(gè)語(yǔ)音單元的每一個(gè)確定語(yǔ)音單元概率。
20.如權(quán)利要求19所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述利用語(yǔ)音單元概率選擇語(yǔ)音單元包括在每一幀選擇具有最高語(yǔ)音單元概率的語(yǔ)音單元。
21.如權(quán)利要求19所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括將持續(xù)時(shí)間約束應(yīng)用到語(yǔ)音單元,并且其中利用語(yǔ)音單元概率選擇語(yǔ)音單元包括在持續(xù)時(shí)間約束和每幀的多個(gè)語(yǔ)音單元概率的基礎(chǔ)上選擇最好的語(yǔ)音單元序列。
22.如權(quán)利要求16所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述近似后驗(yàn)概率進(jìn)一步包括確定語(yǔ)音單元躍遷概率,該語(yǔ)音單元躍遷概率在一幀另一幀的語(yǔ)音單元和輸入值序列時(shí),描述了幀的語(yǔ)音單元的似然性。
23.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括利用語(yǔ)音單元躍遷概率為幀選擇語(yǔ)音單元。
24.如權(quán)利要求16所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述確定描述隱藏相關(guān)生成式參數(shù)的似然性的模型參數(shù)包括在語(yǔ)音的隱藏動(dòng)態(tài)模型的模型參數(shù)和描述相關(guān)生成式參數(shù)的似然性的模型參數(shù)的前值的基礎(chǔ)上重復(fù)的調(diào)整模型參數(shù)。
25.如權(quán)利要求24所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括在描述隱藏相關(guān)生成式參數(shù)的似然性的參數(shù)的基礎(chǔ)上調(diào)整語(yǔ)音的隱藏動(dòng)態(tài)模型的模型參數(shù)。
26.如權(quán)利要求16所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,進(jìn)一步包括在描述隱藏相關(guān)生成式參數(shù)的似然性的模型參數(shù)的基礎(chǔ)上識(shí)別輸入值的每一幀的隱藏相關(guān)生成式參數(shù)。
全文摘要
本發(fā)明公開(kāi)了開(kāi)發(fā)出的一種方法,其包括1)定義對(duì)于連續(xù)有價(jià)值的隱藏相關(guān)生成式參數(shù)和觀測(cè)語(yǔ)音音質(zhì)的轉(zhuǎn)換狀態(tài)空間模型,以及2)根據(jù)觀測(cè)的輸入值序列,近似提供隱藏相關(guān)生成式參數(shù)的序列和語(yǔ)音單元序列的似然性的后驗(yàn)概率。在近似后驗(yàn)概率中,語(yǔ)音單元的邊界是不固定的,但是是可以被最優(yōu)確定的。在一個(gè)實(shí)施例中,使用了高斯近似混合。在另一個(gè)實(shí)施例中,使用了HMM后驗(yàn)概率。
文檔編號(hào)G10L15/06GK1534597SQ20041003269
公開(kāi)日2004年10月6日 申請(qǐng)日期2004年3月31日 優(yōu)先權(quán)日2003年4月1日
發(fā)明者H·埃笛亞斯, L·J·李, 鄧立, H 埃笛亞斯, 李 申請(qǐng)人:微軟公司