亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

語(yǔ)音識(shí)別系統(tǒng)的環(huán)境失配的自適應(yīng)的制作方法

文檔序號(hào):2834643閱讀:456來(lái)源:國(guó)知局
專利名稱:語(yǔ)音識(shí)別系統(tǒng)的環(huán)境失配的自適應(yīng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音識(shí)別系統(tǒng)的領(lǐng)域,并且更特別涉及語(yǔ)音識(shí)別系統(tǒng)對(duì)不斷變化環(huán)境條件的自適應(yīng)。
背景技術(shù)
語(yǔ)音識(shí)別系統(tǒng)把(口頭)口授錄制成書寫文本。從語(yǔ)音生成文本的處理通常分成以下步驟接收聲音信號(hào);預(yù)處理和執(zhí)行信號(hào)分析;分析信號(hào)的識(shí)別以及識(shí)別文本的輸出。
聲音信號(hào)的接收利用任何記錄裝置例如麥克風(fēng)來(lái)提供。在信號(hào)分析步驟中,通常把已接收的聲音信號(hào)分段成時(shí)間窗,覆蓋通常在幾毫秒范圍內(nèi)的時(shí)間間隔。利用快速傅里葉變換(FFT),計(jì)算時(shí)間窗的功率譜。通常具有三角整形內(nèi)核的平滑函數(shù)被進(jìn)一步應(yīng)用于該功率譜,并生成特征向量。特征向量的單個(gè)分量代表功率譜的不同部分,這些部分是語(yǔ)音內(nèi)容的特征(函數(shù)),并因而理論上適于語(yǔ)音識(shí)別目的。此外,對(duì)數(shù)函數(shù)被應(yīng)用于特征向量的所有分量,得到對(duì)數(shù)譜域的特征向量。信號(hào)分析步驟可以進(jìn)一步包括環(huán)境自適應(yīng)以及附加步驟,例如,應(yīng)用對(duì)數(shù)倒頻譜(cepstral)變換或把導(dǎo)數(shù)或者回歸增量(Δ,δ)附加到特征向量上。
在識(shí)別步驟中,將分析的信號(hào)與從被分配給詞匯表的訓(xùn)練語(yǔ)音序列中導(dǎo)出的參考信號(hào)進(jìn)行比較。此外,可以在最后步驟中輸出識(shí)別的文本之前,執(zhí)行文法規(guī)則以及上下文有關(guān)的命令。
環(huán)境自適應(yīng)是信號(hào)分析過(guò)程中的重要步驟。訓(xùn)練語(yǔ)音參考與識(shí)別數(shù)據(jù)之間的環(huán)境失配的根本原因(起源)例如是不同的信噪比、不同的記錄信道噪聲或不同的語(yǔ)音-寂靜(speech-and-silence)比例。
美國(guó)專利No.5778340公開(kāi)了一種具有自適應(yīng)功能的語(yǔ)音識(shí)別信息。這里,將語(yǔ)音輸入轉(zhuǎn)換成特征向量系列,將這些特征向量系列饋送給預(yù)識(shí)別器。預(yù)識(shí)別器通過(guò)計(jì)算輸入圖案與存儲(chǔ)在參考圖案存儲(chǔ)器中的參考圖案之間的相似性度量來(lái)執(zhí)行預(yù)先識(shí)別。以這樣的方式,利用計(jì)算的相似性度量,確定最高候選者。參考圖案適配器基于參考圖案、輸入圖案、最高候選者來(lái)執(zhí)行參考圖案的自適應(yīng),并且把修改的參考圖案新近存儲(chǔ)在參考圖案存儲(chǔ)器中。最后識(shí)別器隨后使用對(duì)應(yīng)于最高候選者的新近存儲(chǔ)的參考圖案來(lái)執(zhí)行輸入圖案的語(yǔ)音識(shí)別。
自適應(yīng)措施包括按語(yǔ)音周期和噪聲周期分離輸入圖案。噪聲周期對(duì)應(yīng)于語(yǔ)音不連續(xù)性的聲音間隔。US專利號(hào)5778340還公開(kāi)了用于參考和輸入圖案的噪聲和語(yǔ)音周期的平均頻譜的計(jì)算。然后借助某種利用已計(jì)算頻譜的自適應(yīng)函數(shù),執(zhí)行輸入或參考圖案的自適應(yīng)??傊@個(gè)方法基于聲音間隔是代表語(yǔ)音還是噪聲的硬判決。取決于接收的聲音信號(hào)和附加噪聲,不能明確地做出這樣的判決。在某些臨界情況中,基礎(chǔ)系統(tǒng)因此可以把噪聲周期解釋為語(yǔ)音周期,并且反之亦然。
US專利號(hào)2002/0091521A1描述了用于在失配的訓(xùn)練和測(cè)試條件下快速語(yǔ)音識(shí)別的技術(shù)。所述的技術(shù)基于最大似然譜變換(MLTS)。這里,實(shí)時(shí)發(fā)音的語(yǔ)音特征向量在線性譜域中被變換,以使得在變換后增加發(fā)音的似然性。最大似然譜變換估算兩個(gè)對(duì)應(yīng)于線性譜域中卷積噪聲和自適應(yīng)噪聲的參數(shù)。在估算這兩個(gè)噪聲參數(shù)之后,執(zhí)行特征向量的變換,以增加測(cè)試發(fā)音的似然性。由于所述的技術(shù)應(yīng)用于線性譜域中并且由于語(yǔ)音的動(dòng)態(tài)范圍相當(dāng)大,所以必需參數(shù)的可靠的和強(qiáng)健的確定也許是困難的。
US專利號(hào)2003-0050780A1公開(kāi)了一種在背景噪聲出現(xiàn)時(shí)提供的對(duì)輸入語(yǔ)音的揚(yáng)聲器自適應(yīng)。這里,在特征提取之后并且在揚(yáng)聲器自適應(yīng)之前,應(yīng)用對(duì)背景噪聲的線性近似,以允許系統(tǒng)使語(yǔ)音模型適應(yīng)于注冊(cè)的用戶,而沒(méi)有由于背景噪聲導(dǎo)致的失真。這里,揚(yáng)聲器自適應(yīng)模塊在自適應(yīng)之前采用逆線性近似算子來(lái)消除背景噪聲的影響。逆近似的結(jié)果是一組修改的觀測(cè)數(shù)據(jù),該觀測(cè)數(shù)據(jù)已被清理,以消除背景噪聲的影響。在US專利號(hào)2003-0050780A1中描述的噪聲補(bǔ)償識(shí)別器使用在某些噪聲條件下開(kāi)發(fā)的聲音模型,并且這些聲音模型隨后在不同的噪聲條件下被使用。因此,必須評(píng)估至少兩個(gè)噪聲電平差值之間噪聲電平差值的估算。這通常利用特征提取模塊來(lái)執(zhí)行,該模塊在輸入語(yǔ)音發(fā)音開(kāi)始之前從預(yù)先語(yǔ)音幀中提取特征。

發(fā)明內(nèi)容
本發(fā)明的目的是提供用于語(yǔ)音識(shí)別系統(tǒng)自適應(yīng)各種環(huán)境條件的改進(jìn)的方法和設(shè)備。
本發(fā)明提供了語(yǔ)音識(shí)別系統(tǒng)的環(huán)境自適應(yīng)的方法,分別利用在對(duì)數(shù)譜域中特征向量序列的生成、接收的聲音間隔代表語(yǔ)音還是代表語(yǔ)音不連續(xù)性的概率的計(jì)算、語(yǔ)音平均值的計(jì)算、待識(shí)別的語(yǔ)音和訓(xùn)練語(yǔ)音的寂靜間隔的平均值的計(jì)算。
對(duì)數(shù)譜域中特征向量的序列中的每個(gè)特征向量描述待識(shí)別的語(yǔ)音的功率譜,其中所述功率譜對(duì)應(yīng)于覆蓋不同時(shí)間間隔的時(shí)間窗。語(yǔ)音識(shí)別系統(tǒng)通常包括一組用于識(shí)別目的的在訓(xùn)練條件下記錄的參考特征向量。本發(fā)明的方法主要基于特征向量的轉(zhuǎn)換,以使得由于不同環(huán)境記錄條件而導(dǎo)致的失配被最小化。
根據(jù)本發(fā)明的最佳實(shí)施例,該方法不嚴(yán)格分隔開(kāi)聲音間隔代表語(yǔ)音還是代表寂靜形式的語(yǔ)音不連續(xù)性。反而,該方法確定并計(jì)算聲音間隔代表語(yǔ)音或寂靜的概率。以這樣的方式,避免了潛在錯(cuò)誤的硬判決,增加整個(gè)語(yǔ)音識(shí)別系統(tǒng)的整體可靠性。
對(duì)于特征向量的每個(gè)分量,該方法利用單調(diào)遞減概率函數(shù)計(jì)算寂靜概率。概率函數(shù)所需的參數(shù)僅僅是各個(gè)特征向量分量的模數(shù)。特征向量分量越大,各個(gè)特征向量分量代表寂靜間隔的概率就越小。相應(yīng)的語(yǔ)音概率利用寂靜概率與一(unity)之間的差值給出。
該方法還利用均值函數(shù)計(jì)算每個(gè)特征向量分量的寂靜與語(yǔ)音間隔的平均值。根據(jù)特征向量的子集,均值函數(shù)提供作為權(quán)重的基于寂靜與語(yǔ)音概率的相應(yīng)特征向量分量的平均值。因此,該方法還計(jì)算對(duì)于訓(xùn)練特征向量的單個(gè)分量的寂靜與語(yǔ)音平均值。然后,根據(jù)特征向量分量自身、特征向量分量的寂靜概率、特征向量子集的各個(gè)特征向量分量的寂靜平均值和語(yǔ)音平均值以及訓(xùn)練特征向量子集的各個(gè)特征向量分量的寂靜平均值和語(yǔ)音平均值,對(duì)于特征向量的每個(gè)分量單獨(dú)地執(zhí)行用于環(huán)境自適應(yīng)的基本變換函數(shù)。
特征向量子集與訓(xùn)練特征向量子集的寂靜平均值之間的比較給出了有關(guān)噪聲電平和/或記錄語(yǔ)音的不同環(huán)境記錄條件的一般指示。類似地,可以比較特征向量子集與訓(xùn)練特征向量子集的語(yǔ)音平均值。通常,特征向量分量的變換與特征向量分量的概率值組合使用這個(gè)比較。
根據(jù)本發(fā)明的再一個(gè)實(shí)施例,執(zhí)行每個(gè)特征向量分量的語(yǔ)音概率的計(jì)算。通常,該方法利用單調(diào)遞減概率函數(shù)來(lái)生成寂靜概率,并且然后從數(shù)字1中減去該寂靜概率。根據(jù)這個(gè)實(shí)施例,特征向量分量的變換明確地考慮了計(jì)算的語(yǔ)音概率。
根據(jù)本發(fā)明的再一個(gè)優(yōu)選實(shí)施例,以移動(dòng)加權(quán)平均函數(shù)(movingweighted average function)的形式實(shí)現(xiàn)用于生成特征向量分量以及訓(xùn)練特征向量分量的寂靜與語(yǔ)音平均值的均值函數(shù)。對(duì)特征向量的子集進(jìn)行平均。例如,通過(guò)對(duì)各自特征向量分量乘以各自特征向量分量的寂靜概率的乘積求和而得到不同特征向量分量的寂靜平均值,并利用所有各個(gè)寂靜概率之和來(lái)除以該寂靜平均值,其中求和指數(shù)蔓延(run over)在特征向量子集的所有特征向量上。
對(duì)于特征向量子集,采用與訓(xùn)練特征向量子集的相同方式,執(zhí)行特征向量分量的寂靜或語(yǔ)音平均值的計(jì)算。兩個(gè)子集通常都包括相同數(shù)量的特征向量。在語(yǔ)音識(shí)別期間永久獲取的特征向量的平均值動(dòng)態(tài)變化,并且必須在語(yǔ)音識(shí)別處理期間重新計(jì)算,而代表訓(xùn)練特征向量的平均值保持恒定,并因此可以利用某種存儲(chǔ)裝置來(lái)存儲(chǔ)。這樣,該方法動(dòng)態(tài)適應(yīng)不斷變化的環(huán)境條件。這提供了語(yǔ)音識(shí)別系統(tǒng)的高可靠性和高靈活性。
根據(jù)本發(fā)明的優(yōu)選實(shí)施例,用于特征向量分量的寂靜與語(yǔ)音平均值的計(jì)算的特征向量的子集一般包括數(shù)量為10的特征向量,優(yōu)選包括數(shù)量在20與30之間的特征向量。
根據(jù)本發(fā)明的還一優(yōu)選實(shí)施例,單調(diào)遞減概率函數(shù)包括描述單調(diào)遞減概述函數(shù)的斜率的斜率常數(shù)(α)。這樣,利用斜率常數(shù)(α)的變化,可以人工地改變對(duì)獨(dú)特特征向量分量的語(yǔ)音概率或寂靜概率的分配。這是最實(shí)際的使用,因?yàn)檎Z(yǔ)音識(shí)別系統(tǒng)可以人工地適應(yīng)于不同類型的環(huán)境噪聲,比如白噪聲或其它類型的更不規(guī)則的噪聲圖案。
根據(jù)本發(fā)明的另一個(gè)優(yōu)選實(shí)施例,寂靜平均值的寂靜概率函數(shù)加上寂靜的適當(dāng)方差值得到0.5的寂靜概率。
根據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,寂靜概率函數(shù)由S形(Sigmoid)函數(shù)給出,該S形函數(shù)的特殊形式進(jìn)一步用下式來(lái)規(guī)定PSil=1-11+exp((MSil+VSil-Fc)α/VSil),]]>
其中MSil特征向量的寂靜的平均值,VSil特征向量的寂靜的方差值,F(xiàn)c特征向量分量。
根據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,特征向量分量的變換函數(shù)由以下算術(shù)模型給出Fc,new=Fc,old+(MTRSil-MSil)PSil+(MTRSp-MSp)PSp,]]>其中Fc,new變換的特征向量分量,F(xiàn)c,old特征向量分量,MTRSil訓(xùn)練特征向量的寂靜的平均值,MTRSp訓(xùn)練特征向量的語(yǔ)音的平均值,MSp特征向量的語(yǔ)音平均值,MSil特征向量的寂靜平均值,PSil寂靜概率,PSp語(yǔ)音概率。
此外,用于環(huán)境自適應(yīng)的方法不僅被指定給特征向量,而且還可以應(yīng)用于對(duì)數(shù)譜域中的整個(gè)頻譜。此外,可以同時(shí)處理已訓(xùn)練語(yǔ)音參考與類似于信噪比、記錄信道和發(fā)音中不斷變化語(yǔ)音-寂靜比例的識(shí)別數(shù)據(jù)之間的環(huán)境失配的基本源。由于該過(guò)程和該方法提供簡(jiǎn)單的計(jì)算算法,因此它特別適合于在存儲(chǔ)器和計(jì)算時(shí)間的資源低的數(shù)字信號(hào)處理器(DSP)中使用。


下面,將參考附圖詳細(xì)說(shuō)明本發(fā)明的優(yōu)選實(shí)施例,其中圖1顯示語(yǔ)音識(shí)別系統(tǒng)的流程圖;圖2表示用于執(zhí)行環(huán)境自適應(yīng)的流程圖;圖3顯示單調(diào)遞減概率函數(shù);圖4顯示根據(jù)本發(fā)明的語(yǔ)音識(shí)別系統(tǒng)和環(huán)境自適應(yīng)的方框圖。
具體實(shí)施例方式
圖1示意地顯示了語(yǔ)音識(shí)別系統(tǒng)的流程圖。在第一步驟100中,利用某種記錄裝置諸如傳統(tǒng)的麥克風(fēng)把語(yǔ)音輸入到系統(tǒng)中。在下一個(gè)步驟102中,通過(guò)執(zhí)行以下步驟分析記錄的信號(hào)把記錄的信號(hào)分段成成幀的時(shí)間窗;執(zhí)行功率密度計(jì)算;生成對(duì)數(shù)譜域中的特征向量;執(zhí)行環(huán)境自適應(yīng)以及可選地執(zhí)行附加步驟。
在信號(hào)分析102的第一步驟中,把記錄的語(yǔ)音信號(hào)分段成覆蓋獨(dú)特時(shí)間間隔的時(shí)間窗。然后,通過(guò)快速傅里葉變換(FFT)計(jì)算每個(gè)時(shí)間窗的功率譜。根據(jù)該功率譜,特征向量描述了為語(yǔ)音內(nèi)容的特征的頻譜的最相關(guān)頻率部分。在信號(hào)分析102的下一個(gè)步驟中,執(zhí)行本發(fā)明的環(huán)境自適應(yīng),以減少記錄信號(hào)與從系統(tǒng)中存儲(chǔ)的訓(xùn)練語(yǔ)音中提取的參考信號(hào)之間的失配。
此外,可任意選擇地執(zhí)行附加步驟,比如對(duì)數(shù)倒頻譜(cepstral)變換。在下一步驟104中,根據(jù)基于訓(xùn)練數(shù)據(jù)的特征向量與基于實(shí)際信號(hào)分析加上環(huán)境自適應(yīng)的特征向量之間的比較來(lái)執(zhí)行語(yǔ)音識(shí)別。通過(guò)步驟106,提供訓(xùn)練語(yǔ)音參考形式的訓(xùn)練數(shù)據(jù)作為語(yǔ)音識(shí)別步驟104的輸入。然后,在步驟108中,輸出已識(shí)別文本??梢砸远喾N不同方式執(zhí)行識(shí)別文本的輸出,比如在某種類型的圖形用戶接口上顯示文本,把文本存儲(chǔ)在某類存儲(chǔ)媒體上,或者利用某個(gè)打印裝置簡(jiǎn)單地打印文本。
圖2圖示了根據(jù)本發(fā)明的環(huán)境自適應(yīng)。語(yǔ)音識(shí)別系統(tǒng)所提供的特征向量適應(yīng)于特定的環(huán)境條件。這里,變換每個(gè)特征向量j的單一分量i,以最小化從接收語(yǔ)音生成的特征向量分量與訓(xùn)練數(shù)據(jù)的特征向量分量之間的失配。
在第一步驟200中,選擇特征向量(j=1)。在下一步驟202中,選擇特征向量j的單一分量(i=1)。所選的特征向量分量隨后傳送到步驟204,在該步驟中根據(jù)概率函數(shù)計(jì)算特征向量分量的寂靜概率。在步驟206中,計(jì)算特征向量分量的適當(dāng)語(yǔ)音概率。所計(jì)算的向量分量的寂靜與語(yǔ)音概率表示所選的特征向量分量代表語(yǔ)音還是代表語(yǔ)音不連續(xù)性。在步驟208,計(jì)算所有特征向量j的特征向量分量i的寂靜平均值。在步驟210中,計(jì)算所有特征向量j的特征向量分量i的語(yǔ)音的適當(dāng)平均值。
所有特征向量j的獨(dú)特分量i的寂靜平均值和語(yǔ)音平均值的計(jì)算基于移動(dòng)加權(quán)均值函數(shù)。在步驟224和226中,計(jì)算訓(xùn)練數(shù)據(jù)的所有特征向量j的訓(xùn)練特征向量的獨(dú)特特征向量分量i的適當(dāng)?shù)募澎o平均值和語(yǔ)音平均值,并將所計(jì)算的這些平均值提供給步驟212。根據(jù)已選的特征向量分量、步驟204計(jì)算的特征向量分量的寂靜概率和步驟206計(jì)算的特征向量分量的語(yǔ)音概率以及步驟208的寂靜平均值、步驟210的語(yǔ)音平均值和步驟224與226的訓(xùn)練數(shù)據(jù)的寂靜與語(yǔ)音平均值,在步驟212中將已選的特征向量分量變換成新的特征向量分量。
所生成的語(yǔ)音和寂靜平均值在與例如理想(因此,無(wú)噪聲)環(huán)境條件下記錄的訓(xùn)練數(shù)據(jù)的適當(dāng)?shù)募澎o平均值與語(yǔ)音平均值相比較時(shí)給出環(huán)境失配的指示。當(dāng)在步驟212中已執(zhí)行特征向量分量的變換時(shí),在步驟214中向語(yǔ)音識(shí)別模塊提交新近創(chuàng)建的特征向量分量,因而環(huán)境自適應(yīng)的特征向量分量。在步驟214中提交自適應(yīng)的特征向量分量之后,該方法在步驟216中檢查特征向量的分量的指數(shù)i是大于還是等于特征向量分量的數(shù)目m。如果在步驟216中分量指數(shù)i小于m(即,特征向量的分量的數(shù)目),則分量指數(shù)I被遞增1,并且然后該方法返回到步驟204。當(dāng)在其它情況中分量指數(shù)i大于或等于特征向量的分量的數(shù)目m時(shí),該方法繼續(xù)步驟218,在該步驟中使整個(gè)特征向量經(jīng)歷由語(yǔ)音識(shí)別模塊執(zhí)行的語(yǔ)音識(shí)別。在步驟218的語(yǔ)音識(shí)別之后,步驟220檢查特征向量指數(shù)j是大于還是等于特征向量的數(shù)目n。如果特征向量指數(shù)j小于n,則j被遞增1,并且該方法返回到步驟204。在其它情況中,當(dāng)j大于或等于n時(shí),變換所有的特征向量,并且該方法并在步驟222中停止。
為了減少計(jì)算時(shí)間和增加環(huán)境自適應(yīng)方法的效率,步驟208與210中寂靜平均值和語(yǔ)音平均值的計(jì)算不一定包括所有的特征向量。反而,平均寂靜與語(yǔ)音值的計(jì)算還可以基于特征向量的子集。在這樣的情況下,步驟224和226所提供的訓(xùn)練特征向量的寂靜平均值和語(yǔ)音平均值還必須基于訓(xùn)練特征向量的適當(dāng)子集。這樣,不必考慮特征向量和訓(xùn)練特征向量的全部來(lái)計(jì)算對(duì)于特征向量的所有環(huán)境自適應(yīng)所需的寂靜與語(yǔ)音平均值。
圖3示出了用于特征向量分量的寂靜概率計(jì)算的典型概率函數(shù)。橫坐標(biāo)300代表特征向量分量的模數(shù),而縱坐標(biāo)302利用曲線304所示的函數(shù)給出適當(dāng)?shù)募澎o概率。根據(jù)本發(fā)明的概率函數(shù)原則上可以利用任何單調(diào)遞減函數(shù)來(lái)表示。函數(shù)304僅僅是通常用于語(yǔ)音識(shí)別系統(tǒng)中概率分布的S形函數(shù)的一個(gè)實(shí)例。概率函數(shù)最好給出對(duì)于寂靜平均值加上適當(dāng)方差值之和的約0.5的寂靜概率。
圖4顯示了根據(jù)本發(fā)明的具有環(huán)境自適應(yīng)的語(yǔ)音識(shí)別系統(tǒng)402的方框圖。語(yǔ)音400通常被輸入到語(yǔ)音識(shí)別系統(tǒng)402中,該系統(tǒng)402執(zhí)行語(yǔ)音-文本變換,文本404從語(yǔ)音識(shí)別系統(tǒng)402中輸出。語(yǔ)音識(shí)別系統(tǒng)402包括特征向量生成模塊406、環(huán)境自適應(yīng)模塊408和語(yǔ)音識(shí)別模塊410。此外,語(yǔ)音識(shí)別系統(tǒng)包括訓(xùn)練特征向量412以及存儲(chǔ)器模塊414和416,存儲(chǔ)器模塊414和416用于存儲(chǔ)和提供訓(xùn)練特征向量412的寂靜與語(yǔ)音概率以及寂靜與語(yǔ)音平均值。
環(huán)境自適應(yīng)模塊408包括寂靜與語(yǔ)音概率模塊418、寂靜與語(yǔ)音平均值模塊420以及特征向量變換模塊422。
記錄的語(yǔ)音400被發(fā)送給特征向量生成模塊406。特征向量生成模塊406執(zhí)行需要的步驟,以生成用于語(yǔ)音識(shí)別目的的對(duì)數(shù)譜域中的特征向量。所生成的特征向量隨后被發(fā)送給環(huán)境自適應(yīng)模塊408的寂靜與語(yǔ)音概率模塊418、寂靜與語(yǔ)音平均值模塊420以及特征向量變換模塊422。寂靜與語(yǔ)音概率模塊418采用與寂靜與語(yǔ)音平均值模塊420計(jì)算每個(gè)特征向量分量的語(yǔ)音與寂靜平均值的相同方式來(lái)計(jì)算每個(gè)特征向量分量的語(yǔ)音和寂靜概率。
如此生成的每個(gè)特征向量分量的寂靜與語(yǔ)音概率以及寂靜與語(yǔ)音平均值被發(fā)送給特征向量變換模塊422。根據(jù)變換函數(shù)、特定的特征向量分量、寂靜與語(yǔ)音概率以及寂靜與語(yǔ)音的平均值和訓(xùn)練特征向量412的寂靜與語(yǔ)音平均值,特征向量變換模塊422執(zhí)行特定特征向量分量的變換。
由于對(duì)于所有特征向量中的每個(gè)分量執(zhí)行變換,因此通過(guò)創(chuàng)建一組新的提供給語(yǔ)音識(shí)別模塊410的特征向量分量,使得利用特征向量生成模塊406生成的全部特征向量被環(huán)境自適應(yīng)。在語(yǔ)音識(shí)別模塊410中,將語(yǔ)音400的環(huán)境適應(yīng)的特征向量與訓(xùn)練特征向量412進(jìn)行比較,以便把語(yǔ)音部分分配給文本和文本短語(yǔ)。隨后,最終輸出識(shí)別的語(yǔ)音作為文本404。
權(quán)利要求
1.一種提供特征向量序列的語(yǔ)音識(shí)別系統(tǒng)(402)的環(huán)境自適應(yīng)的方法,每個(gè)特征向量描述待識(shí)別的語(yǔ)音(400)的功率譜,對(duì)于每個(gè)特征向量分量,該方法包括以下步驟-利用單調(diào)遞減概率函數(shù),計(jì)算特征向量分量的寂靜概率,-提供至少訓(xùn)練特征向量的子集的各個(gè)分量的寂靜與語(yǔ)音間隔的平均值,-基于至少各個(gè)特征向量的子集,利用均值函數(shù),計(jì)算特征向量分量的寂靜與語(yǔ)音間隔的平均值,-利用變換函數(shù),變換特征向量分量,該變換函數(shù)基于特征向量和訓(xùn)練特征向量的寂靜與語(yǔ)音的平均值、特征向量分量的寂靜概率和特征向量分量本身。
2.根據(jù)權(quán)利要求1所述的方法,對(duì)于每個(gè)特征向量分量,該方法還包括以下步驟-利用單調(diào)遞增概率函數(shù),計(jì)算語(yǔ)音的語(yǔ)音概率,-利用變換函數(shù),變換特征向量分量,該變換函數(shù)還基于特征向量分量的語(yǔ)音的概率。
3.根據(jù)權(quán)利要求1或2所述的方法,其中均值函數(shù)是移動(dòng)加權(quán)均值函數(shù),寂靜與語(yǔ)音間隔的平均值的計(jì)算基于特征向量的子集,該子集至少包括數(shù)量為10的特征向量,最好包括數(shù)量為20至30的特征向量。
4.根據(jù)權(quán)利要求1至3之中任一項(xiàng)權(quán)利要求所述的方法,其中訓(xùn)練特征向量的寂靜與語(yǔ)音間隔的平均值的提供基于訓(xùn)練均值函數(shù),所述訓(xùn)練均值函數(shù)是訓(xùn)練特征向量子集的加權(quán)平均函數(shù),該子集至少包括數(shù)量為10的特征向量,最好數(shù)量為20至30的特征向量。
5.根據(jù)權(quán)利要求1至4之中任一項(xiàng)權(quán)利要求所述的方法,其中概率函數(shù)包括描述單調(diào)概率函數(shù)斜率的斜率常數(shù)(α),該斜率函數(shù)是可修改的。
6.根據(jù)權(quán)利要求1至5之中任一項(xiàng)權(quán)利要求所述的方法,其中特征向量分量的變換由下式給出Fc,new=Fc,old+(MTRSil-MSil)PSil+(MTRSp-MSp)PSp,其中Fc,new已變換的特征向量分量,F(xiàn)c,old特征向量分量,MTRSil訓(xùn)練特征向量的寂靜的平均值,MTRSp訓(xùn)練特征向量的語(yǔ)音的平均值,MSp特征向量的語(yǔ)音的平均值,MSil特征向量的寂靜的平均值,PSil寂靜概率,PSp語(yǔ)音概率。
7.根據(jù)權(quán)利要求1至6之中任一項(xiàng)權(quán)利要求所述的方法,其中寂靜概率函數(shù)由以下形式的S形函數(shù)給出PSil=1-11+exp((MSil+VSil-Fc)α/VSil),]]>以及語(yǔ)音概率函數(shù)由下式給出Psp=1-PSil,其中MSil語(yǔ)音的寂靜間隔的平均值,VSil寂靜的平均值的方差,α斜率常數(shù),F(xiàn)c特征向量分量。
8.一種具有環(huán)境自適應(yīng)的語(yǔ)音識(shí)別系統(tǒng)(402),提供特征向量序列,每個(gè)特征向量描述待識(shí)別的語(yǔ)音(400)的功率譜,對(duì)于每個(gè)特征向量分量,該系統(tǒng)包括-用于利用單調(diào)遞減概率函數(shù)計(jì)算特征向量分量的寂靜概率的裝置(418),-用于提供至少訓(xùn)練特征向量的子集的各個(gè)分量的寂靜與語(yǔ)音間隔的平均值的裝置(416),-用于利用基于至少各個(gè)特征向量的子集的均值函數(shù)來(lái)計(jì)算特征向量分量的寂靜與語(yǔ)音間隔的平均值的裝置(420),-用于利用變換函數(shù)來(lái)變換特征向量分量的裝置(422),該變換函數(shù)基于特征向量和訓(xùn)練特征向量的寂靜與語(yǔ)音的平均值、特征向量分量的寂靜概率和特征向量分量本身。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),用于每個(gè)特征向量分量的系統(tǒng)包括-用于利用單調(diào)遞增概率函數(shù)計(jì)算語(yǔ)音的語(yǔ)音概率的裝置(418),-用于利用變換函數(shù)來(lái)變換特征向量分量的裝置(422),該變換函數(shù)還基于特征向量分量的語(yǔ)音概率。
10.根據(jù)權(quán)利要求8或9所述的系統(tǒng),其中均值函數(shù)是移動(dòng)加權(quán)均值函數(shù),寂靜與語(yǔ)音間隔的平均值的計(jì)算基于特征向量的子集,該子集包括至少數(shù)量為10的特征向量,最好包括數(shù)量為20至30個(gè)的特征向量。
11.根據(jù)權(quán)利要求8至10之中任一項(xiàng)權(quán)利要求所述的語(yǔ)音識(shí)別系統(tǒng),其中提供訓(xùn)練特征向量分量的寂靜與語(yǔ)音的平均值的裝置(416)包括存儲(chǔ)裝置,在該存儲(chǔ)裝置中存儲(chǔ)訓(xùn)練特征向量分量的寂靜與語(yǔ)音的平均值。
12.一種具有計(jì)算機(jī)程序裝置的計(jì)算機(jī)程序產(chǎn)品,用于提供特征向量序列的具有環(huán)境自適應(yīng)的語(yǔ)音識(shí)別系統(tǒng)(402),每個(gè)特征向量描述待識(shí)別的語(yǔ)音功率譜,對(duì)于每個(gè)特征向量分量,所述計(jì)算機(jī)程序產(chǎn)品包括程序裝置,用于-利用單調(diào)遞減概率函數(shù),計(jì)算特征向量分量的寂靜概率,-提供至少訓(xùn)練特征向量的子集的各個(gè)分量的寂靜與語(yǔ)音間隔的平均值,-基于至少各個(gè)特征向量的子集,利用均值函數(shù),計(jì)算特征向量分量的寂靜與語(yǔ)音間隔的平均值,-利用變換函數(shù),變換特征向量分量,該變換函數(shù)基于特征向量和訓(xùn)練特征向量的寂靜與語(yǔ)音的平均值、特征向量分量的寂靜概率和特征向量分量本身。
13.根據(jù)權(quán)利要求12所述的計(jì)算機(jī)程序產(chǎn)品,對(duì)于每個(gè)特征向量分量,該計(jì)算機(jī)程序產(chǎn)品包括程序裝置,用于-利用單調(diào)遞增概率函數(shù),計(jì)算語(yǔ)音的語(yǔ)音概率,-利用變換函數(shù),變換特征向量分量,該變換函數(shù)還基于特征向量分量的語(yǔ)音概率。
14.根據(jù)權(quán)利要求12或13所述的計(jì)算機(jī)程序產(chǎn)品,其中均值函數(shù)是移動(dòng)加權(quán)均值函數(shù),寂靜與語(yǔ)音間隔的平均值的計(jì)算基于特征向量的子集,該子集包括至少數(shù)量10個(gè)的特征向量,最好數(shù)量為20至30個(gè)的特征向量。
15.根據(jù)權(quán)利要求12至14之中任一項(xiàng)權(quán)利要求所述的計(jì)算機(jī)程序產(chǎn)品,其中特征向量分量的變換由下式給出Fc,new=Fc,old+(MTRSil-MSil)PSil+(MTRSp-MSp)PSp,其中Fc,new已變換的特征向量分量,F(xiàn)c,old特征向量分量,MTRSil訓(xùn)練特征向量的寂靜的平均值,MTRSp訓(xùn)練特征向量的語(yǔ)音的平均值,MSp特征向量的語(yǔ)音的平均值,MSil特征向量的寂靜的平均值,PSil寂靜概率,PSp語(yǔ)音概率。
16.根據(jù)權(quán)利要求12至15之中任一項(xiàng)權(quán)利要求所述的計(jì)算機(jī)程序產(chǎn)品,其中寂靜概率函數(shù)由以下形式的S形函數(shù)給出PSil=1-11+exp((MSil+VSil-Fc)α/VSil),]]>以及語(yǔ)音概率函數(shù)由下式給出Psp=1-PSil,其中MSil語(yǔ)音的寂靜間隔的平均值,VSil源自寂靜的平均值的方差,α斜率常數(shù),F(xiàn)c特征向量分量。
全文摘要
本發(fā)明涉及具有環(huán)境自適應(yīng)的語(yǔ)音識(shí)別的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。變換描述輸入語(yǔ)音的功率譜的特征向量,以消除訓(xùn)練語(yǔ)音的記錄條件與進(jìn)行語(yǔ)音識(shí)別的語(yǔ)音的記錄條件之間的環(huán)境失配。該方法基于接收的聲音間隔代表語(yǔ)音或語(yǔ)音不連續(xù)性的概率。確定代表語(yǔ)音或語(yǔ)音不連續(xù)性的聲音間隔的平均值,并將所述值與訓(xùn)練數(shù)據(jù)的各個(gè)值進(jìn)行比較,可以執(zhí)行已生成特征向量的變換,以減少環(huán)境失配。
文檔編號(hào)G10L15/065GK1864202SQ200480029513
公開(kāi)日2006年11月15日 申請(qǐng)日期2004年10月5日 優(yōu)先權(quán)日2003年10月8日
發(fā)明者D·格勒 申請(qǐng)人:皇家飛利浦電子股份有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1