專利名稱:基于決策樹的語音辨別的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音辨別。本發(fā)明對基于二元決策樹以減少語音辨別搜索空間的大詞匯語音辨別庫(但不限于此)特別有用。
背景技術(shù):
大詞匯語音辨別系統(tǒng)辨別許多接收的發(fā)聲詞。相反,有限詞匯語音辨別系統(tǒng)限于可以發(fā)聲和辨別的較少數(shù)量的詞。有限詞匯語音辨別系統(tǒng)的應(yīng)用包括少量命令和姓名的辨別。
大詞匯語音辨別系統(tǒng)的開發(fā)正在不斷增加,并且正在各種應(yīng)用中使用這種大詞匯語音辨別系統(tǒng)。這種語音辨別系統(tǒng)必需能夠以一種響應(yīng)方式辨別發(fā)聲詞,而且不能在提供一個合適響應(yīng)之前有明顯的延遲。
大詞匯語音辨別系統(tǒng)使用相關(guān)技術(shù)來確定發(fā)聲詞(輸入語音信號)與聲學(xué)空間中詞特征之間的似然標(biāo)記(score)。這些特征可以依據(jù)聲學(xué)模型建立,該聲學(xué)模型不需要來自一個或多個說話者的訓(xùn)練數(shù)據(jù),因此被稱之為大詞匯說話者獨立語音辨別系統(tǒng)。
對于說話者大詞匯語音辨別系統(tǒng),需要大量的語音模型,以便在聲學(xué)空間中充分表征在發(fā)聲輸入語音信號中發(fā)現(xiàn)的聲學(xué)特性的詞匯。例如,音素/a/的聲學(xué)特性在詞“had”和“ban”中將是不同的,即使由同一個說話者來說話。因此,被稱之為語境依賴音素的音素單元需要模仿在不同詞中發(fā)現(xiàn)的相同音素的不同聲音。
說話者獨立大詞匯語音辨別系統(tǒng)通?;ㄙM不希望的發(fā)現(xiàn)匹配標(biāo)記的大部分時間。在技術(shù)上將輸入語音信號與該系統(tǒng)使用的每個聲學(xué)模型之間的上述匹配標(biāo)記稱之為似然標(biāo)記。每個聲學(xué)模型通常由多個高斯概率密度函數(shù)(pdf)描述,每個高斯概率密度函數(shù)由平均向量和協(xié)方差矩陣描述。為了發(fā)現(xiàn)輸入語音信號與給定模型之間的似然標(biāo)記,輸入必需對每個高斯匹配。然后產(chǎn)生最終似然標(biāo)記,作為來自模型的每個高斯成員的標(biāo)記的加權(quán)和。每個模型的高斯數(shù)目通常是8至64中序列。
眾所周知,語音模型內(nèi)的所有高斯不生成給定輸入語音信號的高標(biāo)記。對于明顯不同于輸入信號值的平均值的一個高斯,當(dāng)輸入位于高斯分配的“尾部”時,該標(biāo)記非常接近0。這意味著對整個似然標(biāo)記的這樣一種高斯分布將被忽略。因此,僅通過使用模型內(nèi)高斯的子集可以精確地近似使用所有高斯對一個模型的似然標(biāo)記的計算。
通常使用高斯選擇的方法選擇模型內(nèi)的高斯子集,在該方法中,為特定的輸入語音信號選擇模型組內(nèi)的高斯的子集。然后使用該子集(又稱作高斯最后候選名單)計算每個模型的似然標(biāo)記。然而高斯最后候選名單基于向量群集,并且為了獲得可接受的實時響應(yīng),對于大詞匯語音辨別系統(tǒng),群集的數(shù)量不必太大。
在本說明中,包括權(quán)利要求,術(shù)語“包括”或者類似術(shù)語的用意是指非排它性包含,使包括一系列要素的方法或設(shè)備僅僅不包括那些要素,但是可以包括未列出的其它要素。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,這里提供了建立至少一個決策樹以處理表現(xiàn)語音的樣本信號的方法,該方法包括以下步驟依據(jù)音素的分段統(tǒng)計語音模型,提供模型子向量,該模型包括平均值和關(guān)聯(lián)的方差值的諸多向量;至少統(tǒng)計地分析平均值的部分模型子向量,以提供指示子向量之間相對最大方差的方向的預(yù)測向量(projection vector);計算多個預(yù)測向量的預(yù)測值(projection value);依據(jù)預(yù)測值的范圍分析,選擇潛在的閾值;和建立具有決策能力的決策樹,以把模型子向量分成多個組,這些組是樹的樹葉,其中決策基于從潛在閾值選擇的已選擇閾值,已選擇閾值通過所述模型子向量之間的方差的變化來選擇,所述方差依據(jù)所述平均值和關(guān)聯(lián)的方差值來確定。
所述組最好具有定義聲學(xué)子空間的統(tǒng)計特征。
相稱地,語音模型基于高斯概率分布。
統(tǒng)計分析的步驟最好還由預(yù)測向量來表征,所述預(yù)測向量通過主成分分析來計算。
潛在閾值最好從預(yù)測值的子集中選出。
相稱地,決策基于一個不等式計算。
不等式計算涉及乘以一個預(yù)測向量的已選擇模型子向量的轉(zhuǎn)置與一個所述潛在閾值之間的不等式。
子集適合于從具有最大方差的預(yù)測值的預(yù)測向量中選出。
最好從子集中每個預(yù)測向量的最小與最大預(yù)測值之間的范圍中確定潛在閾值。
潛在閾值適合于通過把上述范圍分成平均間隔的子范圍來確定。
決策樹最好是二元決策樹。
根據(jù)本發(fā)明的另一個方面,這里提供了一種語音辨別的方法,包括以下步驟提供處理為至少一個特征向量的樣本語音信號,該特征向量代表語音信號的頻譜特征;把特征向量分成諸多子特征向量;把每個子特征向量施加到對應(yīng)的決策樹上,以獲得模型子向量的諸多組,該模型子向量很可能至少指示樣本語音信號的一個音素,決策樹通過分析從統(tǒng)計語音模型獲得的模型子向量來建立,其中決策樹具有基于從潛在閾值選擇的已選擇閾值的決策,已選擇閾值通過所述模型子向量之間的方差的變化來選擇,所述方差依據(jù)所述平均值和與所述模型子向量關(guān)聯(lián)的方差值來確定;從子特征向量的諸多組中選擇多個模型子向量,從而識別模型子向量的最后候選名單;和處理該最后候選名單,以提供樣本語音信號的一個副本。
該副本最好是樣本語音信號的文本。該副本可以是一個控制信號??刂菩盘柨梢岳缂せ铍娮友b置或系統(tǒng)的功能。
最好是,決策樹可以通過建立至少一個決策樹的上述方法來建立。
為了容易地理解本發(fā)明和進(jìn)行實際實施,下面參考附圖對一個優(yōu)選實施例進(jìn)行說明。
圖1是本發(fā)明的語音辨別系統(tǒng)的示意性方框圖;
圖2是顯示建立決策樹以處理表示語音的樣本信號的方法的流程圖;和圖3是顯示使用圖2的方法建立的決策樹進(jìn)行語音辨別的方法的流程圖。
具體實施例方式
參見圖1,圖中示出了語音辨別系統(tǒng)1的示意性方框圖,包括一個統(tǒng)計語音模型數(shù)據(jù)庫110,它具有連接分段模塊120和語音辨別器160的輸入的輸出。分段模塊120具有連接閾值生成器130的一個輸入的一個輸出,閾值生成器130具有連接決策樹建立器140一個輸入的一個輸出。決策樹建立器140的一個輸出連接決策樹存儲器170的一個輸入。決策樹存儲器170具有連接語音辨別器160的一個輸入的一個輸出。還有一個語音模型變換器150,它具有接收語音信號的一個輸入。語音模型變換器150具有連接語音辨別器160一個輸入的輸出。
在圖2中,示出了建立一個決策樹以處理表示語音的樣本信號的方法200。在開始步驟201之后,方法200包括一個依據(jù)音素的分段統(tǒng)計語音模型提供模型子向量步驟220。統(tǒng)計語音模型子向量包括平均值和關(guān)聯(lián)的方差值的諸多向量。在本實施例中,統(tǒng)計語音模型被存儲在統(tǒng)計語音模型數(shù)據(jù)庫110中,并且基于本領(lǐng)域已知的如具有多種狀態(tài)的隱藏馬爾可夫模型(Hidden Markov Model,即HMM)模仿的三音素。HMM的每個狀態(tài)由多矩陣高斯概率密度函數(shù)模擬。因此,語音模型基于高斯概率分布或者高斯矩陣,其中高斯矩陣{gjm}為以下形式{gim}={Wjm,μjm,∑jm} -(1)其中,wjm是標(biāo)量加權(quán),μjm是平均值向量,∑jm是協(xié)方差矩陣,其每個用于第jHMM狀態(tài)的第m高斯矩陣。協(xié)方差矩陣∑jm通常是對角矩陣,僅具有非零值的主對角線,并且可以被簡化成一個方差向量σjm。
例如,如果方差向量σjm和平均值向量μjm都是39維向量,則分段模塊120在步驟220上把向量μjm和σjm分段成三個相應(yīng)模型子向量μjm1、μjm2、λjm3和σjm1、σjm2和σjm3。模型子向量λjm1、λjm2、μjm3和σjm1、σjm2和σjm3的每一個是13維向量,其含有來自原始的相應(yīng)平均值向量μjm或者方差向量σjm的要素。子向量μjm1包括來自平均值向量μjm的第一13個要素。對應(yīng)的子向量λjm2和μjm3分別包括來自μjm的下一個13個要素和最后的13個要素。將用于分段平均向量λjm的相同分段方法應(yīng)用于方差向量σjm。也就是,子向量σjm1、σjm2和σjm3分別包括方差向量σjm的第一13個要素、下一個13個要素和最后13個要素。提供模型子向量步驟220被應(yīng)用于統(tǒng)計語音模型數(shù)據(jù)庫110中呈現(xiàn)的音素的所有統(tǒng)計語音模型。例如,語音模型數(shù)據(jù)庫可以包括40,000個高斯矩陣,可以從平均值向量μjm中生成高斯矩陣{gjm}=120,000個模型平均值子向量的40,000×3個分段,并且可以從方差向量σjm中生成另外的120,000個模型方差子向量。需要注意的是,在此三個分段高斯矩陣{gjm}的每個對應(yīng)于下面建立的一個決策樹。
然后在步驟230統(tǒng)計地分析從數(shù)據(jù)庫110中的所有語音模型中生成(步驟220)的模型子向量,以提供指示模型平均值子向量之間的相對最大方差的預(yù)測向量。本領(lǐng)域已知的統(tǒng)計分析方法,如主成分分析(Principal Component Analysis)的分析方法(如StatSci,Seattle,Washington出版的‘S-PLUS Guide to statustical and MathematicalAnalysis’的12章(12-1,12-2)所述)被用來計算預(yù)測向量。因此該參考被包含進(jìn)來作為該說明的部分。具體說,主成分分析適用于根據(jù)下式的40,000模型平均值子向量μjm1、μjm2、μjm3的每個分段C=UΛUT-(2)其中C是從40,000平均值子向量計算的維數(shù)13×13的協(xié)方差矩陣;U是維數(shù)13×13的矩陣,U的每一行對應(yīng)于一個預(yù)測向量;∧是一個13×13對角矩陣,其中第i對角要素(i=1至13)的值測量矩陣U的第i行中與預(yù)測向量關(guān)聯(lián)的方向上的子向量之間的相對方差?!牡膶且卦诩夹g(shù)上作為主成分是已知的并且按降序排列。通常子向量之間的多數(shù)方差可以由最前面的4個主成分和它們的對應(yīng)預(yù)測向量描述。因此可以僅選擇13個預(yù)測向量中的4個,因而在步驟230中供作分段模塊120的一個輸出。所以三個平均值子向量分段μjm1、μjm2、μjm3的每個存在總共12個預(yù)測向量。
然后執(zhí)行計算預(yù)測值步驟240,其中在閾值生成器130中可以為12個平均值預(yù)測向量的每個(每分段四個)計算預(yù)測值。選擇一個預(yù)測向量,并且根據(jù)下式為每個分段對應(yīng)的40,000平均值子向量的每個計算一個預(yù)測值μjmkTui-(3)其中K=1,2,3是指示3個分段的每個系數(shù),i=1,2,3,4是指示4個平均值預(yù)測向量ui之每一個的系數(shù)。
在步驟240之后,執(zhí)行檢驗步驟250,其中閾值生成器130檢查是否為一個分段的預(yù)測向量之每個計算預(yù)測值。如果沒有,則選擇一個未處理的預(yù)測向量,并應(yīng)用到步驟240以計算它的預(yù)測值。否則,該方法移到選擇潛在閾值步驟160,其中由閾值生成器103分析預(yù)測值,以便從預(yù)測子向量的一個范圍中選擇潛在閾值。
在選擇潛在閾值步驟260中,依據(jù)每個分段的40,000預(yù)測值的分析,為平均值預(yù)測向量之每個選擇潛在閾值。例如,根據(jù)下式通過把所述范圍平均分隔的子范圍可以確定最小與最大預(yù)測值之間的預(yù)測子值的范圍pKimin+(b+0.5)(pKimax-pKiminB)-(4)]]>其中pKimax和pKimin分別是最大和最小預(yù)測值;K=1,2,3是指示3個分段之每個的系數(shù);i=1,2,3,4是4個預(yù)測向量ui的系數(shù);b=1,2,...B是特定子范圍的系數(shù);通常被選擇為10的B是最小和最大預(yù)測值之間的子范圍的總數(shù)目。因此12個預(yù)測向量之每個具有10個從具有最大方差的預(yù)測值的子集中選擇的關(guān)聯(lián)的潛在閾值。
然后執(zhí)行建立決策樹步驟270,建立具有把模型子向量分成諸多組的決策的二元決策樹,所述諸多組在決策樹建立器140中建立。這些決策把子向量分成諸多組,這些組是決策樹的樹葉,所述的決策基于步驟260中的從潛在閾值選擇的閾值。具體說,決策基于以下不等式計算xTui≥ki(b)-(5)其中x是平均值的一個已選擇模型子向量;ui是一個預(yù)測向量;Ki(b)是與根據(jù)等式(4)在步驟260中計算的預(yù)測向量關(guān)聯(lián)的潛在閾值。
二元決策樹是使用對應(yīng)的40,000模型平均子向量為三個分段之每個建立的。所建立的決策樹的每個非樹葉節(jié)點具有一個如等式(5)的形式的關(guān)聯(lián)問題。對于每個非樹葉節(jié)點,從乘以10個閾值的總共4個預(yù)測向量(每個分段四個)中選擇一個問題,以建立40各潛在問題。然后選擇問題之一,以最大化父節(jié)點內(nèi)子向量與左和右子節(jié)點內(nèi)的子向量之間的方差的變化。
第n樹節(jié)點鐘的數(shù)據(jù)的方差vn被定義為vn=Σi=1Dlog[vn(i)]-(6)]]>其中D=13是子向量的維數(shù)。vn(i)是子向量中第i維數(shù)的數(shù)據(jù)方差,并且由下式給出vn=Σj∈1...L(σj2(i)+μj2(i))/L-(ΣJ=1...Lμj(i)/L)2-(7)]]>其j是子向量的系數(shù);L是分配給該節(jié)點的子向量數(shù)量;σj(i)和μj(i)分別是第n節(jié)點子向量均值的第i維數(shù)要素和第n節(jié)點的標(biāo)準(zhǔn)偏差。
然后通過下式確定方差d的變化d=vparent-(vleft+vright)-(8)其中vparent、vleft、vright分別代表父節(jié)點、左子節(jié)點和右子節(jié)點中的子向量的方差。
決策樹具有大量的樹葉節(jié)點,其中每個樹葉節(jié)點對應(yīng)于一組模型子向量,該模型子向量共享共同定義聲學(xué)子空間的相似統(tǒng)計特征。
樹葉節(jié)點中子向量滿足以下條件(1)模型子節(jié)點的數(shù)量小于被選擇為10的一個閾值;和(2)等式(6)-(8)的方差中最大可能變化小于被選擇為0.1的一個閾值。
在步驟270,在決策樹建立器140中建立的三個決策樹,其每個決策樹對應(yīng)于三個分段之一。非樹葉節(jié)點的每個具有基于不等式(5)的一個與其關(guān)聯(lián)的決策,選擇每個非樹葉節(jié)點的決策以最大化子向量之間的方差的變化,并且有以下形式xTui≥ki-(9)
其中x是下面將要說明的特征向量;ui是用于節(jié)點的已選擇預(yù)測向量;ki是與預(yù)測向量ui關(guān)聯(lián)的已選擇閾值。
決策樹被存儲到?jīng)Q策樹存儲器170中,并且方法200終止于結(jié)束步驟280。
參見圖3,該圖示出了一種使用由方法200建立的決策樹用于語音辨別的方法300。在步驟310之后,語音辨別開始進(jìn)行,其中首先在供應(yīng)步驟320上提供一個樣本語音信號,該樣本語音信號來自由語音模型變換器150接收和處理的輸入語音發(fā)音。該樣本語音信號代表由語音模型變換器150處理進(jìn)入一個或多個特征向量中語音信號頻譜特征。每個特征向量是與存儲在統(tǒng)計模型數(shù)據(jù)庫100中的統(tǒng)計語音模型的平均值向量λjm和方差向量σjm相同的維數(shù)(39)。特征向量代表潛在的語音信號的頻譜特征。例如,被稱作倒譜系數(shù)(mel-frequency cepstralcoefficients,即MFCC)的方法被使用。因此引用發(fā)現(xiàn)MFCC的典型的已知方法,參見論文“Comparison of parametric representations formonosyllabic word recognition in continuous Spoken Sentences.”byDavid and Mermelstein,published in IEEE transactions on AcousticSpeech and Signal Processing,Vol.28,pp.357-366。
然后,在把特征向量分成子特征向量的語音辨別器160中執(zhí)行分割特征向量步驟330。在步驟330中使用用于統(tǒng)計語音模型的在步驟220中使用的同樣的分段方法。具體說,每個39維特征向量x被分成三個13維子特征向量x1、x2、x3,它們分別由第一13要素、下一個13要素和最后13要素組成。
在應(yīng)用步驟340上將子特征向量之每個應(yīng)用于決策樹存儲器170中的三個決策樹的對應(yīng)的一個,語音辨別器160訪問上述決策樹存儲器170。應(yīng)用步驟將每個子特征向量應(yīng)用于對應(yīng)的決策樹,以獲得很可能至少指示樣本語音信號的一個音素的多組模型子向量。本領(lǐng)域的熟練技術(shù)人員將會明白,通過分析從統(tǒng)計語音模型數(shù)據(jù)庫110獲得的模型子向量可以建立三個決策樹之每個。
子特征向量首先被應(yīng)用于決策樹的根節(jié)點,估算與根節(jié)點關(guān)聯(lián)的等式(9)的決策。然后根據(jù)估算的成果將子特征向量分配給左子節(jié)點或者右子節(jié)點。然后用子特征向量估算與所選擇的子節(jié)點關(guān)聯(lián)的問題(9)的決策。處理重復(fù)進(jìn)行直至到達(dá)樹葉節(jié)點,并且獲得用于子特征向量的一組模型子向量。該模型子向量組定義至少指示樣本語音信號的一個音素的聲學(xué)子空間。
然后執(zhí)行檢驗步驟350,以檢查所有自特征向量是否已經(jīng)應(yīng)用于對應(yīng)的決策樹。如果沒有,則選擇一個未處理子特征向量,并應(yīng)用于其決策樹。否則,該方法移到選擇步驟360,選擇模型子向量以識別和建立子向量的最后候選名單。
現(xiàn)在特征向量x的每一個與三組模型子向量相關(guān)聯(lián),該三組子向量是從三個子特征向量x1、x2、x3的每一個以及它們的對應(yīng)決策樹中得到的。在選擇步驟360中從三個組s1、s2、s3中的模型子向量中識別模型向量的最后候選名單。具體說,估算一個模型向量,以確定它的模型子向量是否屬于與特征向量x關(guān)聯(lián)的組。如果是,將一個標(biāo)記分配給模型向量。如果一個模型向量的總標(biāo)記大于按試驗確定的等式的一個閾值,則將模型向量選入特征向量x的最后候選名單s1+0.5s2+0.5s3>0.9-(10)其中,如果對應(yīng)模型子向量被呈現(xiàn)在它們的組中,則s1、s2或者s3被設(shè)置為1。否則,將s1、s2或者s3被設(shè)置為零。因此,用來選擇特征向量x的最后候選名單的策略是,如果模型子向量至少在組s1中,則包含一個模型向量,或者如果模型子向量不在組s1中,則它必須呈現(xiàn)在組s2和組s3中,以選作最后候選名單的一個成員。
然后在處理步驟370中處理為特征向量識別的最后候選名單,以提供樣本語音信號的副本。這由本技術(shù)領(lǐng)域中所知的解碼方法來提供。引入本說明書中的解碼方法的典型實施可以在下述的出版物中找到“A One Pass Decoder Design for Large Vocabulary Recognition”by J.J.Odell,V.Valtchev,P.C.Woodland and S.J.Young in Proceedings ARPAWorkshop on Human Language Technology,pp.405-410,1994。
在語音辨別器160的輸出提供副本。副本的一種形式是樣本語音信號的文本,作為選擇,副本可以是激活電子裝置或者系統(tǒng)的控制信號。該方法終止于結(jié)束步驟380。
有利的方面是,本發(fā)明可以減少語音辨別期間統(tǒng)計語音模型的分布“尾部”的非必要處理的問題,本發(fā)明還可以減少與影響語音辨別響應(yīng)時間的非必要的大群集相關(guān)聯(lián)的開銷。
上述描述說明僅提供了優(yōu)選實施例,而不是限定本發(fā)明的應(yīng)用或者配置的范圍。上述優(yōu)選實施例的具體說明向本領(lǐng)域的熟練技術(shù)人員提供了實施本發(fā)明優(yōu)選實施例的可行的說明。應(yīng)當(dāng)理解的是,在不背離權(quán)利要求所述的本發(fā)明的精神和范圍的條件下可以對要素的功能和安排作出各種變化。
權(quán)利要求
1.一種建立至少一個決策樹以處理表現(xiàn)語音的樣本信號的方法,該方法包括以下步驟依據(jù)音素的分段統(tǒng)計語音模型,提供模型子向量,該模型包括平均值和關(guān)聯(lián)的方差值的諸多向量;至少統(tǒng)計地分析平均值的部分模型子向量,以提供指示子向量之間相對最大方差的方向的預(yù)測向量;計算多個預(yù)測向量的預(yù)測值;依據(jù)預(yù)測值的范圍分析,選擇潛在的閾值;和建立具有決策能力的決策樹,以把模型子向量分成多個組,這些組是決策樹的樹葉,其中決策基于從潛在閾值選擇的已選擇閾值,已選擇閾值通過所述模型子向量之間的方差的變化來選擇,所述方差依據(jù)所述平均值和關(guān)聯(lián)的方差值來確定。
2.根據(jù)權(quán)利要求1所述的建立至少一個決策樹的方法,其中所述組具有定義聲學(xué)子空間的統(tǒng)計特征。
3.根據(jù)權(quán)利要求1所述的建立至少一個決策樹的方法,其中語音模型基于高斯概率分布。
4.根據(jù)權(quán)利要求1所述的建立至少一個決策樹的方法,其中統(tǒng)計分析的步驟還由預(yù)測向量來表征,所述預(yù)測向量通過主成分分析來計算。
5.根據(jù)權(quán)利要求l所述的建立至少一個決策樹的方法,其中潛在閾值從預(yù)測值的子集中選出。
6.根據(jù)權(quán)利要求5所述的建立至少一個決策樹的方法,其中決策基于一個不等式計算。
7.根據(jù)權(quán)利要求6所述的建立至少一個決策樹的方法,其中不等式計算涉及乘以一個預(yù)測向量的已選擇模型子向量的轉(zhuǎn)置與一個所述潛在閾值之間的不等式。
8.根據(jù)權(quán)利要求5所述的建立至少一個決策樹的方法,其中子集從具有最大方差預(yù)測值的預(yù)測向量中選出。
9.根據(jù)權(quán)利要求8所述的建立至少一個決策樹的方法,其中從子集中每個預(yù)測向量的最小與最大預(yù)測值間的范圍中確定潛在閾值。
10.根據(jù)權(quán)利要求9所述的建立至少一個決策樹的方法,其中潛在閾值通過把上述范圍分成平均間隔的子范圍來確定。
ll、根據(jù)權(quán)利要求l所述的建立至少一個決策樹的方法,其中決策樹最好是二元決策樹。
12.一種語音辨別的方法,包括以下步驟提供處理為至少一個特征向量的樣本語音信號,該特征向量代表語音信號的頻譜特征;把特征向量分成諸多子特征向量;把每個子特征向量應(yīng)用于對應(yīng)的決策樹上,以獲得模型子向量的諸多組,該模型子向量很可能至少指示樣本語音信號的一個音素,決策樹通過分析從統(tǒng)計語音模型獲得的模型子向量來建立,其中決策樹具有基于從潛在閾值選擇的已選擇閾值的決策,已選擇閾值通過所述模型子向量之間的方差的變化來選擇,所述方差依據(jù)所述平均值和與所述模型子向量關(guān)聯(lián)的方差值來確定;從子特征向量的諸多組中選擇多個模型子向量,從而識別模型子向量的最后候選名單;和處理該最后候選名單,以提供樣本語音信號的一個副本。
13.根據(jù)權(quán)利要求12所述的語音辨別方法,其中所述副本是樣本語音信號的文本。
14.根據(jù)權(quán)利要求12所述的語音辨別方法,其中所述副本是一個控制信號。
15.根據(jù)權(quán)利要求14所述的語音辨別方法,其中控制信號激活電子裝置或系統(tǒng)的功能。
16.根據(jù)權(quán)利要求12所述的語音辨別方法,其中潛在閾值從預(yù)測值的子集中選出,所述預(yù)測值從模型子向量中獲得。
17.根據(jù)權(quán)利要求16所述的語音辨別的方法,其中決策基于一個不等式計算。
18.根據(jù)權(quán)利要求17所述的語音辨別方法,其中不等式計算涉及乘以一個預(yù)測向量的已選擇模型子向量的轉(zhuǎn)置與一個所述潛在閾值之間的不等式。
19.根據(jù)權(quán)利要求16所述的語音辨別方法,其中所述子集從具有最大方差預(yù)測值的預(yù)測向量中選出。
20.根據(jù)權(quán)利要求19所述的語音辨別方法,其中從子集中每個預(yù)測向量的最小與最大預(yù)測值間的范圍中確定潛在閾值。
21.根據(jù)權(quán)利要求12所述的語音辨別方法,其中潛在閾值通過把所述范圍分成平均間隔的子范圍來確定。
全文摘要
本發(fā)明公開了一種建立至少一個決策樹以處理表現(xiàn)語音的樣本信號的方法(200)。該方法包括依據(jù)音素的分段統(tǒng)計語音模型,提供模型子向量,該模型包括平均值和關(guān)聯(lián)的方差值的諸多向量。然后,對平均值的模型子向量進(jìn)行統(tǒng)計分析,以提供指示子向量之間相對最大方差的方向預(yù)測向量,此后,計算多個預(yù)測向量的預(yù)測值(240)。依據(jù)預(yù)測值的范圍分析,確定潛在閾值(260)。最后提供有決策能力的決策樹(270),把模型子向量分成多個組,這些組是決策樹樹葉。該決策基于從潛在閾值選擇的已選擇閾值,已選擇閾值通過該模型子向量之間的方差變化來選擇,該方差依據(jù)該平均值和關(guān)聯(lián)的方差值來確定。本發(fā)明還說明了使用建立決策樹方法進(jìn)行語音辨別(300)的方法。
文檔編號G10L15/00GK1420486SQ0214875
公開日2003年5月28日 申請日期2002年11月15日 優(yōu)先權(quán)日2001年11月16日
發(fā)明者李恒舜 申請人:摩托羅拉公司