利用增益自適應提高語音識別率的方法

文檔序號：7601605閱讀：389來源：國知局

專利名稱：利用增益自適應提高語音識別率的方法
技術領域：
本發(fā)明涉及自動語音識別領域，特別是一種利用增益自適應提高語音識別率的方法。
背景技術：
近年來語音識別技術得到了巨大的發(fā)展，并且在手機等嵌入式領域大量普及，其中語音撥號程序更是逐漸成為高端智能手機的必備功能之一。使用語音撥號方便，快捷，不需記憶繁瑣的電話號碼，也不需要從屏幕上一頁頁的查找聯(lián)系人，極大的提高了人們的溝通效率。
但是現在各種語音識別方法以及產品在噪音環(huán)境中都表現不佳，主要存在以下幾個方面的問題一是噪音環(huán)境下的誤觸發(fā)問題，容易將吵鬧的背景音誤認為開始說話。二是噪音環(huán)境下的識別率問題信噪比相對較低，因而導致識別率不高。三是噪音環(huán)境下的語音結束判斷問題容易將吵鬧的背景音誤認為一直在說話，從而很長時間都無法結束。四是噪音環(huán)境下的信道飽和問題外部環(huán)境吵鬧時信道容易飽和，從而使錄音數據失真，影響語音識別。

發(fā)明內容
本發(fā)明的目的在于提出一種新的噪音環(huán)境下的評估處理方法，以使得在各種噪音環(huán)境中仍然能夠使用語音識別這一技術，并保證比較高的識別率。在噪音環(huán)境中提高手機語音識別率的方法，發(fā)明的基本特征是在噪音環(huán)境中通過對背景噪音的評估分析，相應調節(jié)手機的錄音增益，調整端點檢測方法參數，以達到抑止通道飽和，增加信噪比，進而提高語音識別率以及任務完成率。
該發(fā)明的技術要點是，在吵鬧環(huán)境中，用戶會自覺將手機靠近嘴說話，或者提高聲音。因此，根據此時背景噪音的評估設置相應的麥克風增益，同時調節(jié)端點檢測方法參數。如果環(huán)境很吵，則降低增益，否則提高增益，這樣能夠最大可能的壓制噪音，提高信噪比。
利用增益自適應提高語音識別率的方法，其特征是通過噪音評估，調節(jié)錄音增益，調整端點檢測方法參數來提高語音識別率。
根據評估出來的背景設定不同的增益值，方法如下在每種噪音環(huán)境中，通過調節(jié)錄音增益，用權利要求2提供的方法分別測試并記錄所有增益下的背景音評估值，然后從中選擇使得背景噪音評估取值最小的增益值。這樣就得到一個背景類型和增益值的對應表，增益的調節(jié)按照這個表來進行。
該方法主要由以下幾個連續(xù)的流程組成背景音評估，錄音增益調整，端點檢測，進行識別。具體說明如下1.背景音評估方法本方法用于評估當前的背景環(huán)境噪聲。用相互不疊加的長度為N＝960(0.125秒)的矩形窗把語音分成K段，并計算每一段的子帶能量Ei(i＝0，1，...，K)。則在檢測到第i個語音塊時的背景噪聲的計算公式為B＝[Ei+(ω-1)B]/ω，其中ω是一個正整數，我們取ω＝10。根據計算出來的B值范圍作等差分布，將背景環(huán)境劃分為以下幾個類型安靜環(huán)境如辦公室普通環(huán)境如室外吵鬧環(huán)境如公共汽車上2.錄音增益調整方法在吵鬧的背景中，用戶習慣大聲說話，而在安靜的環(huán)境中用戶通常會輕輕的說話。這樣在用戶的參與下，能夠保證一定的信噪比，進而保證識別率。但是存在以下問題在吵鬧環(huán)境下說話聲稍微提高就容易造成通道飽和，數據失真，從而降低識別率。另一方面，背景音的能量起伏變化很大，給語音的起始結束判斷帶來難度。
錄音增益調整的目的是使得在任何環(huán)境下保證錄下的背景噪音保持一個穩(wěn)定的水平，從而解決上面提到的問題。方法的主要步驟如下首先給定的手機必須能夠設置錄音增益。在步驟一中評估出來的每種噪音環(huán)境中，通過調節(jié)錄音增益，用同樣的方法分別測試并記錄所有增益下的背景音評估值。然后從中選擇使得背景噪音評估取值最小的增益值。這樣就得到一個背景類型和增益值的對應表，增益的調節(jié)按照這個表來進行。對于不同型號的手機這個表不完全相同，需要通過該方法測試得到。下面是在某款手機上的實測數據(該手機的增益調節(jié)范圍為1到30)

3.端點檢測方法本端點檢測方法對語音的首尾端點分別采用不同的檢測方法。
以往的研究結果表明，準確確定語音的尾端點更難，特別是對于某些被弱化了的語音結尾，很容易被丟失，從而造成識別錯誤。因此我們采用語音識別過程來決定語音的尾端點當系統(tǒng)檢測到語音，并且最佳路徑已經到達詞尾的靜音模型并保持連續(xù)0.375秒，則判定語音結束，測試表明，該方法對尾端點的檢測準確率接近100％，優(yōu)于任何尾端點檢測方法。
語音首端點的檢測采用基于子帶能量的方法，判決門限的計算公式為T＝λB，其中λ為一個常量，這里選擇λ＝14，B為評估的背景噪聲值。判決方法假設當前塊語音的能量為E，首先更新背景噪聲的值B；當E＜＝T時，表示是背景噪聲，則并將最新的兩塊語音(0.25秒)保存下來；當E＞T時，表示檢測到語音，由于還保存了0.25秒的語音，因此將語音首端點向前推0.25秒，以保證語音不被丟失。
本發(fā)明的優(yōu)點在于能夠有效解決噪音環(huán)境中使用語音識別遇到的系列問題，提高識別率和任務完成率。
實例分別在電視機前，城鐵，馬路上錄制一批數據，圖1是使用本方法前后的任務完成率對比數據(百分比數據)。
以下專有名詞“噪音自適應”，“SEA(Smart EnvironmentAdaptation)”，其表現為在各種噪音環(huán)境中都能有效提高語音識別率。
利用使用者說話習慣，在吵鬧環(huán)境中降低錄音增益，抑止通道飽和。

圖1是使用本發(fā)明方法前后的任務完成率對比數據(百分比數據)圖。
圖2是本發(fā)明的利用增益自適應提高語音識別率方法流程圖。
具體實施例方式
圖1是使用本方法前后的任務完成率對比數據(百分比數據)。
分別在電視機前，城鐵，馬路上錄制一批數據比較結果。在各種噪音環(huán)境中都能有效提高語音識別率。
圖2的利用增益自適應提高語音識別率方法，其步驟如下步驟S1，評估背景噪音；步驟S2，根據步驟S1評估出來的背景噪音類型調整錄音增益；步驟S3，在步驟S1，S2的基礎上進行端點檢測和語音識別。
權利要求
1.一種利用增益自適應提高語音識別率的方法，其特征是通過噪音評估，調節(jié)錄音增益，調整端點檢測方法參數來提高語音識別率。
2.根據權利要求1所述的背景音評估方法，其特征是根據歷史噪音和當前噪音將背景環(huán)境分類，具體方法為用相互不疊加的長度為N＝960(0.125秒)的矩形窗把語音分成K段，并計算每一段的子帶能量Ei(i＝0，1，…，K)，則在檢測到第i個語音塊時的背景噪聲的計算公式為B＝[Ei+(ω-1)B]/ω，其中ω是一個正整數，我們取ω＝10，將背景噪音劃分為三種類型安靜環(huán)境，如辦公室，普通環(huán)境，如室外，吵鬧環(huán)境，如公共汽車上。
3.根據權利要求1所述的錄音增益調整方法，其特征是根據評估出來的背景設定不同的增益值，方法如下在每種噪音環(huán)境中，通過調節(jié)錄音增益，用權利要求2提供的方法分別測試并記錄所有增益下的背景音評估值，然后從中選擇使得背景噪音評估取值最小的增益值，這樣就得到一個背景類型和增益值的對應表，增益的調節(jié)按照這個表來進行。
4.根據權利要求1所述的端點檢測方法，其特征是首尾端點采用不同的檢測方法，并根據背景評估出來的參數調節(jié)。采用語音識別過程來決定語音的尾端點當系統(tǒng)檢測到語音，并且最佳路徑已經到達詞尾的靜音模型并保持連續(xù)0.375秒，則判定語音結束。語音首端點的檢測采用基于子帶能量的方法，判決門限的計算公式為T＝λB，其中λ為一個常量，這里選擇λ＝14，B為評估的背景噪聲值。
5.根據權利要求1的利用增益自適應提高語音識別率的方法，其具體步驟如下步驟S1，評估背景噪音；步驟S2，根據步驟S1評估出來的背景噪音類型調整錄音增益；步驟S3，在步驟S1，S2的基礎上進行端點檢測和語音識別。
全文摘要
本發(fā)明涉及自動語音識別領域，特點是一種利用增益自適應提高語音識別率的方法。通過噪音評估，調節(jié)錄音增益，調整端點檢測方法參數來提高語音識別率。其具體步驟如下步驟S1，評估背景噪音；步驟S2，根據步驟S1評估出來的背景噪音類型調整錄音增益；步驟S3，在步驟S1，S2的基礎上進行端點檢測和語音識別。
文檔編號H04M9/08GK1801326SQ20041010465
公開日2006年7月12日申請日期2004年12月31日優(yōu)先權日2004年12月31日
發(fā)明者徐波, 謝傳泉, 張東泉, 普劍濤, 張亮, 張建申請人:中國科學院自動化研究所

完整全部詳細技術資料下載