專利名稱:使用離散語言模型的語音識別方法和設備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音識別方法,它包括幾種語言模型的實現(xiàn)以獲得更好的識別。本發(fā)明也涉及用于實現(xiàn)這一方法的設備。
大量詞匯的語音識別依賴于隱藏的馬爾可夫(Marckov)模型,無論是聲學部分或語言部分。
因此,一個句子的識別相當于尋找最可能的由話筒記錄的聲音數(shù)據(jù)給出的詞序。
通常Viterbi算法用于這一任務。
但是,對于實際問題,例如有幾千個詞的詞匯,甚至對bigram型簡單的語言模型,用來分析的Merkov網(wǎng)絡包含了太多的狀態(tài),使它不可能應用Viterbi算法來完成任務。
簡化是必須的。
一種已知的簡化就是所謂的“最大有效范圍搜索”(“beam-search”)方法,它依據(jù)這樣一種簡單的思想在Viterbi運算過程中,網(wǎng)式結(jié)構(gòu)的某一狀態(tài),如果它獲得的分值低于某個門限值(網(wǎng)式結(jié)構(gòu)是這些狀態(tài)的瞬時代表,是Markov網(wǎng)絡的過渡)就被消除。這種切斷明顯地減少了為最可能的順序而進行的搜索過程中用于比較的狀態(tài)的數(shù)目。一種方便的替換形式就是所謂的“N-最佳搜索”方法(對N個最佳解的搜索),它輸出表現(xiàn)為最高分的n個順序。
當句子左右分析的分值處于中間值時,用在N-最佳搜索方法中的切斷有時就不適合于對最佳順序的搜索。有兩個主要問題一方面,如果使這一方法適合于n-gram型語言模型,其中關(guān)于最可能詞串的語言模型的所有信息局限于當前分析的n個連續(xù)詞,那么它對于語法型語言模型很少有效,后者在詞組間接影響。于是,可能發(fā)生這樣的事情,即保持在該解碼的某一接合處的n最佳順序不再可能是該句子最后分析中的選擇,因為該句子的剩余部分,由于一開始的低分而無效成為該句子的候選,但問題是它與該語法所代表的語言模型比較一致。
另一方面,經(jīng)常發(fā)生的是用早先不同的語言模型開發(fā)了在模塊或幾種步驟中的應用程序,每一模塊被分配到專門的界面設備。在n-最佳搜索方法中,這些不同的語言模型被混在了一起,并且由于這種混合,如果這種應用的分部分表現(xiàn)出滿意的識別率,在加入新模型后,并不需要維持這些識別率,即使它的應用的方面不同,結(jié)果是這兩種模型互相影響。
在這方面,
圖1表示基于語法的語言模型圖。黑色的圓代表決策步,黑色的圓之間的線模擬過渡,其中該語言模型把出現(xiàn)概率分配給這一過渡,白色的圓代表該詞匯的詞,根據(jù)它們可能的發(fā)音的語音學知識的構(gòu)造的Markov網(wǎng)絡與它們相關(guān)。
如果在應用中有幾種語法有效,那么把每種語法的語言模型聯(lián)合起來,形成一個單一的網(wǎng)絡,激活每個語法的最初概率常規(guī)上由語法之間相等地共用,如圖2所示,其中假設從初始節(jié)點分出來的兩個過渡具有同樣的概率。
因此,這就把我們帶回到單個語言模型的最初問題上,借助于切斷被認為最小概率的搜索組,“最大有效長度搜索”方法可能找到表現(xiàn)為最高分的句子(或在n-最佳搜索中的n句)。
·用搜索引擎從候選的順序中確定最可能的詞順序。
根據(jù)一個特殊的實施例,在應用語言模型其間,搜索引擎的這種確定依賴于未考慮的參數(shù)。
根據(jù)一個特殊的實施例,語言模型是基于語法的語言模型。
本發(fā)明的主題也是一種用于語音識別的設備,包括聲音處理器,用于收集聲音信號,語言學解碼器,用于確定相應于音頻信號的詞的順序。其特征在于,語言學解碼器包括·一組離散應用的語言模型,分析一個和相同的句子,用于確定一組候選的順序,·搜索引擎,用于從一組候選的順序中確定最可能的順序。
對每個這樣的模塊,鼓勵n-最佳搜索,而不考慮其它模塊的分值。因此,想到各別信息項的這些分析是獨立的并可平行的應用,并用來開發(fā)多處理器結(jié)構(gòu)。
我們將討論本發(fā)明在應用語法的語言模型中的情況,但是n種語法類型的一種語言模型也可利用本發(fā)明。
為了說明本實施例,我們考慮在廣大市場方面應用的框架,即實現(xiàn)語言識別系統(tǒng)的電視機用戶界面。話筒位于遙控器內(nèi),而被收集的音頻數(shù)據(jù)被傳遞給電視接收機,用于語音的適當分析。接收機包括這方面的語音識別設備。
圖5是語音識別設備1示例的方塊圖,為清楚起見,語音識別需要的所有裝置都集成在設備1中,即使在設想的應用框架內(nèi),在該鏈的起端上的某一元件被包括在在接收機的遙控器中。
這個設備包括音頻信號處理器2,執(zhí)行從話筒3由信號收集電路4收集來的音頻信號的數(shù)字化,處理器也把數(shù)字取樣信號轉(zhuǎn)換成從預先確定的字母中選擇的聲學符號。為此目的,它包括聲學一語音學的解碼器5。語言學解碼器6處理這些符號,以確定符號順序A的最可能的詞順序W。
語言學解碼器應用聲學模型7和語言模型8,它們是由基于假設的搜索算法9來實現(xiàn)的。聲學模型,例如是一個所謂的“隱型Markov”模型(或HMM)。它被用來計算在解碼過程中考慮詞順序的聲學得分(概率)。本發(fā)明實施例中實現(xiàn)的語言模型是基于語法的模型,它由BackusNaur公式的句法規(guī)則相助來描述。語言模型用來引導該音頻數(shù)據(jù)訓練的分析,并用來計算語言學分。在本實施例中,作為識別引擎的搜索算法是基于Viterbi型算法的搜索算法,并被稱為“n-最佳”。N-最佳型算法在分析的每一步確定一個句子由所收集的音頻數(shù)據(jù)給出的最可能的n個詞順序。在句子的末尾,最可能解決方案從該n個候選中選則。
上面一節(jié)提到的概念本身已為業(yè)內(nèi)人士所熟知,但是,特別與n-最佳算有關(guān)的附加信息在下面著作中給出“用于語言識別的統(tǒng)計方法”F.Jelinek,MIT press 1999 ISBV 0-262-1006605 pp.78-84。
其它算法也能實現(xiàn),特別是“最大有效長度搜索”類的其它算法,其中“n-最佳”算法是一種替代方法。
聲學-語音學解碼器和語言學解碼器可以用合適的軟件來實現(xiàn),軟件可在微處理器上執(zhí)行,微處理器可以訪問含有識別引擎算法和聲學和語言模型的存儲器。
根據(jù)本實施例,該設備實現(xiàn)幾種語言模型。設想的應用是用于電子節(jié)目導視命令的聲控界面,使第一個語言模型適合于濾波建議的傳輸,其目的是應用時間濾波器或主題濾波器于有效傳輸數(shù)據(jù)庫,而使第二語言模型適合于改變節(jié)目導視上下文以外的通道(“轉(zhuǎn)換頻道”)。實際上已證明,聲學上相同的句子,在兩種模型的上下文框架內(nèi)有十分不同的意義。
圖4是原理圖,表明相應于兩種模型中的每一種樹。如在圖2和圖3中的情況一樣,黑色的圓代表決策步驟,線代表過渡,其中語言模型把出現(xiàn)概率分配給這些線,而白色的圓代表詞匯的詞,它與根據(jù)它們可能的發(fā)音的語言學知識構(gòu)建的Markov網(wǎng)絡相聯(lián)系。
把最大有效范圍搜索過程的不同情況分別應用于每個模型,他們并不合并而是保持區(qū)別,并且處理的每種情況都提供對有關(guān)模型最可能的句子。
根據(jù)一個改變的實施例,把n-最佳型處理用于一個或多個或所有模型中。
常規(guī)上,當完成對每一種模型的分析時,每個模型的最佳得分(或多個最佳得分與變化有關(guān))用來對一般可以理解的句子的選擇。
根據(jù)改變的實施例,一旦用每一模型進行分析之后,從這一分析中分離出的各種候選句子用作第二次、精細的、用聲學參數(shù)的分析階段,這在以前的分析過程中未曾實現(xiàn)過。
所建議的處理要點不是形成全球語言模型,而是維持部分的語言模型。每一模型獨立地由最大有效長度搜索算法來處理,并且計算所獲得的最佳順序得分。
因此,如圖4所示,本發(fā)明依賴于一組離散的模型,每個得益于系統(tǒng)資源的部分,他們可能建議在優(yōu)先的多任務結(jié)構(gòu)中使用一個或多個處理器。
一個優(yōu)點是每種語言模型的困惑度低,并且n種語言模型出現(xiàn)的困惑度總和低于把它們合并成一個語言模型出現(xiàn)的困惑度。因此,計算機處理要求較少的計算能力。
此外,當從各種搜索處理結(jié)果中選擇最佳句子時,原始句子的語言模型的知識已給出了關(guān)于它的場景和應用方面的信息內(nèi)容。因此,有關(guān)的句法分析程序可用于這些方面,并因此更簡單、更有效。
在我們的發(fā)明中,一個模型表現(xiàn)出同樣的識別率,或更精確地說,提供相同的n個最佳句子組和對每一個n最佳句相同的分值,不論它是單獨的或與其它模型一起用。沒有因把這些模型合并成一個用而有性能的降低。
權(quán)利要求
1.一種語音識別方法,包括收集音學信號的步驟,聲學—語音學的解碼步驟和語言學解碼步驟,其特征在于語言學解碼步驟包括如下步驟·把一組語言模型離散應用于聲音順序的分析,用來確定一組候選詞的順序;·用搜索引擎從候選的句子中確定最可能的詞的順序。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,搜索引擎的確定依賴于在語言模型應用期間未考慮的參數(shù)。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,語言模型是基于語法的語言模型。
4.一種語音識別設備,包括音頻處理器(2),用于收集音頻信號,語言學解碼器(6),用于確定相應于音頻信號的詞順序,其特征在于,語言學解碼器包括·一組語言模型(8),離散應用分析一個和相同的句子,用于確定一組候選的順序;·搜索引擎,用來從一組候選的順序中確定最可能的順序。
全文摘要
本發(fā)明的主題是一種語言識別方法,包括收集音頻信號的步驟,聲學—語言學解碼步驟和語言學解碼步驟。根據(jù)本發(fā)明、語言學解碼包括下列步驟把一組語言模型離散應用于聲音順序的分析,用來確定一組候選詞的順序;用搜索引擎從該候選的順序確定最可能的詞的順序。本發(fā)明的主題也是一種為實現(xiàn)該方法設備。
文檔編號G10L15/18GK1402868SQ00816567
公開日2003年3月12日 申請日期2000年12月1日 優(yōu)先權(quán)日1999年12月2日
發(fā)明者努爾-埃迪·塔齊尼, 弗雷德里克·蘇夫萊 申請人:湯姆森許可貿(mào)易公司