基于決策樹的語音辨別的制作方法

文檔序號：2836112閱讀：368來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于決策樹的語音辨別的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語音辨別。本發(fā)明對基于二元決策樹以減少語音辨別搜索空間的大詞匯語音辨別庫(但不限于此)特別有用。
背景技術(shù)：
大詞匯語音辨別系統(tǒng)辨別許多接收的發(fā)聲詞。相反，有限詞匯語音辨別系統(tǒng)限于可以發(fā)聲和辨別的較少數(shù)量的詞。有限詞匯語音辨別系統(tǒng)的應(yīng)用包括少量命令和姓名的辨別。
大詞匯語音辨別系統(tǒng)的開發(fā)正在不斷增加，并且正在各種應(yīng)用中使用這種大詞匯語音辨別系統(tǒng)。這種語音辨別系統(tǒng)必需能夠以一種響應(yīng)方式辨別發(fā)聲詞，而且不能在提供一個合適響應(yīng)之前有明顯的延遲。
大詞匯語音辨別系統(tǒng)使用相關(guān)技術(shù)來確定發(fā)聲詞(輸入語音信號)與聲學(xué)空間中詞特征之間的似然標(biāo)記(score)。這些特征可以依據(jù)聲學(xué)模型建立，該聲學(xué)模型不需要來自一個或多個說話者的訓(xùn)練數(shù)據(jù)，因此被稱之為大詞匯說話者獨立語音辨別系統(tǒng)。
對于說話者大詞匯語音辨別系統(tǒng)，需要大量的語音模型，以便在聲學(xué)空間中充分表征在發(fā)聲輸入語音信號中發(fā)現(xiàn)的聲學(xué)特性的詞匯。例如，音素/a/的聲學(xué)特性在詞“had”和“ban”中將是不同的，即使由同一個說話者來說話。因此，被稱之為語境依賴音素的音素單元需要模仿在不同詞中發(fā)現(xiàn)的相同音素的不同聲音。
說話者獨立大詞匯語音辨別系統(tǒng)通?；ㄙM不希望的發(fā)現(xiàn)匹配標(biāo)記的大部分時間。在技術(shù)上將輸入語音信號與該系統(tǒng)使用的每個聲學(xué)模型之間的上述匹配標(biāo)記稱之為似然標(biāo)記。每個聲學(xué)模型通常由多個高斯概率密度函數(shù)(pdf)描述，每個高斯概率密度函數(shù)由平均向量和協(xié)方差矩陣描述。為了發(fā)現(xiàn)輸入語音信號與給定模型之間的似然標(biāo)記，輸入必需對每個高斯匹配。然后產(chǎn)生最終似然標(biāo)記，作為來自模型的每個高斯成員的標(biāo)記的加權(quán)和。每個模型的高斯數(shù)目通常是8至64中序列。
眾所周知，語音模型內(nèi)的所有高斯不生成給定輸入語音信號的高標(biāo)記。對于明顯不同于輸入信號值的平均值的一個高斯，當(dāng)輸入位于高斯分配的“尾部”時，該標(biāo)記非常接近0。這意味著對整個似然標(biāo)記的這樣一種高斯分布將被忽略。因此，僅通過使用模型內(nèi)高斯的子集可以精確地近似使用所有高斯對一個模型的似然標(biāo)記的計算。
通常使用高斯選擇的方法選擇模型內(nèi)的高斯子集，在該方法中，為特定的輸入語音信號選擇模型組內(nèi)的高斯的子集。然后使用該子集(又稱作高斯最后候選名單)計算每個模型的似然標(biāo)記。然而高斯最后候選名單基于向量群集，并且為了獲得可接受的實時響應(yīng)，對于大詞匯語音辨別系統(tǒng)，群集的數(shù)量不必太大。
在本說明中，包括權(quán)利要求，術(shù)語“包括”或者類似術(shù)語的用意是指非排它性包含，使包括一系列要素的方法或設(shè)備僅僅不包括那些要素，但是可以包括未列出的其它要素。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面，這里提供了建立至少一個決策樹以處理表現(xiàn)語音的樣本信號的方法，該方法包括以下步驟依據(jù)音素的分段統(tǒng)計語音模型，提供模型子向量，該模型包括平均值和關(guān)聯(lián)的方差值的諸多向量；至少統(tǒng)計地分析平均值的部分模型子向量，以提供指示子向量之間相對最大方差的方向的預(yù)測向量(projection vector)；計算多個預(yù)測向量的預(yù)測值(projection value)；依據(jù)預(yù)測值的范圍分析，選擇潛在的閾值；和建立具有決策能力的決策樹，以把模型子向量分成多個組，這些組是樹的樹葉，其中決策基于從潛在閾值選擇的已選擇閾值，已選擇閾值通過所述模型子向量之間的方差的變化來選擇，所述方差依據(jù)所述平均值和關(guān)聯(lián)的方差值來確定。
所述組最好具有定義聲學(xué)子空間的統(tǒng)計特征。
相稱地，語音模型基于高斯概率分布。
統(tǒng)計分析的步驟最好還由預(yù)測向量來表征，所述預(yù)測向量通過主成分分析來計算。
潛在閾值最好從預(yù)測值的子集中選出。
相稱地，決策基于一個不等式計算。
不等式計算涉及乘以一個預(yù)測向量的已選擇模型子向量的轉(zhuǎn)置與一個所述潛在閾值之間的不等式。
子集適合于從具有最大方差的預(yù)測值的預(yù)測向量中選出。
最好從子集中每個預(yù)測向量的最小與最大預(yù)測值之間的范圍中確定潛在閾值。
潛在閾值適合于通過把上述范圍分成平均間隔的子范圍來確定。
決策樹最好是二元決策樹。
根據(jù)本發(fā)明的另一個方面，這里提供了一種語音辨別的方法，包括以下步驟提供處理為至少一個特征向量的樣本語音信號，該特征向量代表語音信號的頻譜特征；把特征向量分成諸多子特征向量；把每個子特征向量施加到對應(yīng)的決策樹上，以獲得模型子向量的諸多組，該模型子向量很可能至少指示樣本語音信號的一個音素，決策樹通過分析從統(tǒng)計語音模型獲得的模型子向量來建立，其中決策樹具有基于從潛在閾值選擇的已選擇閾值的決策，已選擇閾值通過所述模型子向量之間的方差的變化來選擇，所述方差依據(jù)所述平均值和與所述模型子向量關(guān)聯(lián)的方差值來確定；從子特征向量的諸多組中選擇多個模型子向量，從而識別模型子向量的最后候選名單；和處理該最后候選名單，以提供樣本語音信號的一個副本。
該副本最好是樣本語音信號的文本。該副本可以是一個控制信號?？刂菩盘柨梢岳缂せ铍娮友b置或系統(tǒng)的功能。
最好是，決策樹可以通過建立至少一個決策樹的上述方法來建立。

為了容易地理解本發(fā)明和進(jìn)行實際實施，下面參考附圖對一個優(yōu)選實施例進(jìn)行說明。
圖1是本發(fā)明的語音辨別系統(tǒng)的示意性方框圖；
圖2是顯示建立決策樹以處理表示語音的樣本信號的方法的流程圖；和圖3是顯示使用圖2的方法建立的決策樹進(jìn)行語音辨別的方法的流程圖。
具體實施例方式
參見圖1，圖中示出了語音辨別系統(tǒng)1的示意性方框圖，包括一個統(tǒng)計語音模型數(shù)據(jù)庫110，它具有連接分段模塊120和語音辨別器160的輸入的輸出。分段模塊120具有連接閾值生成器130的一個輸入的一個輸出，閾值生成器130具有連接決策樹建立器140一個輸入的一個輸出。決策樹建立器140的一個輸出連接決策樹存儲器170的一個輸入。決策樹存儲器170具有連接語音辨別器160的一個輸入的一個輸出。還有一個語音模型變換器150，它具有接收語音信號的一個輸入。語音模型變換器150具有連接語音辨別器160一個輸入的輸出。
在圖2中，示出了建立一個決策樹以處理表示語音的樣本信號的方法200。在開始步驟201之后，方法200包括一個依據(jù)音素的分段統(tǒng)計語音模型提供模型子向量步驟220。統(tǒng)計語音模型子向量包括平均值和關(guān)聯(lián)的方差值的諸多向量。在本實施例中，統(tǒng)計語音模型被存儲在統(tǒng)計語音模型數(shù)據(jù)庫110中，并且基于本領(lǐng)域已知的如具有多種狀態(tài)的隱藏馬爾可夫模型(Hidden Markov Model，即HMM)模仿的三音素。HMM的每個狀態(tài)由多矩陣高斯概率密度函數(shù)模擬。因此，語音模型基于高斯概率分布或者高斯矩陣，其中高斯矩陣{gjm}為以下形式{gim}＝{Wjm，μjm，∑jm} -(1)其中，wjm是標(biāo)量加權(quán)，μjm是平均值向量，∑jm是協(xié)方差矩陣，其每個用于第jHMM狀態(tài)的第m高斯矩陣。協(xié)方差矩陣∑jm通常是對角矩陣，僅具有非零值的主對角線，并且可以被簡化成一個方差向量σjm。
例如，如果方差向量σjm和平均值向量μjm都是39維向量，則分段模塊120在步驟220上把向量μjm和σjm分段成三個相應(yīng)模型子向量μjm1、μjm2、λjm3和σjm1、σjm2和σjm3。模型子向量λjm1、λjm2、μjm3和σjm1、σjm2和σjm3的每一個是13維向量，其含有來自原始的相應(yīng)平均值向量μjm或者方差向量σjm的要素。子向量μjm1包括來自平均值向量μjm的第一13個要素。對應(yīng)的子向量λjm2和μjm3分別包括來自μjm的下一個13個要素和最后的13個要素。將用于分段平均向量λjm的相同分段方法應(yīng)用于方差向量σjm。也就是，子向量σjm1、σjm2和σjm3分別包括方差向量σjm的第一13個要素、下一個13個要素和最后13個要素。提供模型子向量步驟220被應(yīng)用于統(tǒng)計語音模型數(shù)據(jù)庫110中呈現(xiàn)的音素的所有統(tǒng)計語音模型。例如，語音模型數(shù)據(jù)庫可以包括40,000個高斯矩陣，可以從平均值向量μjm中生成高斯矩陣{gjm}＝120,000個模型平均值子向量的40,000×3個分段，并且可以從方差向量σjm中生成另外的120,000個模型方差子向量。需要注意的是，在此三個分段高斯矩陣{gjm}的每個對應(yīng)于下面建立的一個決策樹。
然后在步驟230統(tǒng)計地分析從數(shù)據(jù)庫110中的所有語音模型中生成(步驟220)的模型子向量，以提供指示模型平均值子向量之間的相對最大方差的預(yù)測向量。本領(lǐng)域已知的統(tǒng)計分析方法，如主成分分析(Principal Component Analysis)的分析方法(如StatSci，Seattle，Washington出版的‘S-PLUS Guide to statustical and MathematicalAnalysis’的12章(12-1，12-2)所述)被用來計算預(yù)測向量。因此該參考被包含進(jìn)來作為該說明的部分。具體說，主成分分析適用于根據(jù)下式的40,000模型平均值子向量μjm1、μjm2、μjm3的每個分段C＝UΛUT-(2)其中C是從40,000平均值子向量計算的維數(shù)13×13的協(xié)方差矩陣；U是維數(shù)13×13的矩陣，U的每一行對應(yīng)于一個預(yù)測向量；∧是一個13×13對角矩陣，其中第i對角要素(i＝1至13)的值測量矩陣U的第i行中與預(yù)測向量關(guān)聯(lián)的方向上的子向量之間的相對方差?！牡膶且卦诩夹g(shù)上作為主成分是已知的并且按降序排列。通常子向量之間的多數(shù)方差可以由最前面的4個主成分和它們的對應(yīng)預(yù)測向量描述。因此可以僅選擇13個預(yù)測向量中的4個，因而在步驟230中供作分段模塊120的一個輸出。所以三個平均值子向量分段μjm1、μjm2、μjm3的每個存在總共12個預(yù)測向量。
然后執(zhí)行計算預(yù)測值步驟240，其中在閾值生成器130中可以為12個平均值預(yù)測向量的每個(每分段四個)計算預(yù)測值。選擇一個預(yù)測向量，并且根據(jù)下式為每個分段對應(yīng)的40,000平均值子向量的每個計算一個預(yù)測值μjmkTui-(3)其中K＝1，2，3是指示3個分段的每個系數(shù)，i＝1，2，3，4是指示4個平均值預(yù)測向量ui之每一個的系數(shù)。
在步驟240之后，執(zhí)行檢驗步驟250，其中閾值生成器130檢查是否為一個分段的預(yù)測向量之每個計算預(yù)測值。如果沒有，則選擇一個未處理的預(yù)測向量，并應(yīng)用到步驟240以計算它的預(yù)測值。否則，該方法移到選擇潛在閾值步驟160，其中由閾值生成器103分析預(yù)測值，以便從預(yù)測子向量的一個范圍中選擇潛在閾值。
在選擇潛在閾值步驟260中，依據(jù)每個分段的40,000預(yù)測值的分析，為平均值預(yù)測向量之每個選擇潛在閾值。例如，根據(jù)下式通過把所述范圍平均分隔的子范圍可以確定最小與最大預(yù)測值之間的預(yù)測子值的范圍pKimin+(b+0.5)(pKimax-pKiminB)-(4)]]>其中pKimax和pKimin分別是最大和最小預(yù)測值；K＝1，2，3是指示3個分段之每個的系數(shù)；i＝1，2，3，4是4個預(yù)測向量ui的系數(shù)；b＝1，2，...B是特定子范圍的系數(shù)；通常被選擇為10的B是最小和最大預(yù)測值之間的子范圍的總數(shù)目。因此12個預(yù)測向量之每個具有10個從具有最大方差的預(yù)測值的子集中選擇的關(guān)聯(lián)的潛在閾值。
然后執(zhí)行建立決策樹步驟270，建立具有把模型子向量分成諸多組的決策的二元決策樹，所述諸多組在決策樹建立器140中建立。這些決策把子向量分成諸多組，這些組是決策樹的樹葉，所述的決策基于步驟260中的從潛在閾值選擇的閾值。具體說，決策基于以下不等式計算xTui≥ki(b)-(5)其中x是平均值的一個已選擇模型子向量；ui是一個預(yù)測向量；Ki(b)是與根據(jù)等式(4)在步驟260中計算的預(yù)測向量關(guān)聯(lián)的潛在閾值。
二元決策樹是使用對應(yīng)的40,000模型平均子向量為三個分段之每個建立的。所建立的決策樹的每個非樹葉節(jié)點具有一個如等式(5)的形式的關(guān)聯(lián)問題。對于每個非樹葉節(jié)點，從乘以10個閾值的總共4個預(yù)測向量(每個分段四個)中選擇一個問題，以建立40各潛在問題。然后選擇問題之一，以最大化父節(jié)點內(nèi)子向量與左和右子節(jié)點內(nèi)的子向量之間的方差的變化。
第n樹節(jié)點鐘的數(shù)據(jù)的方差vn被定義為vn=Σi=1Dlog[vn(i)]-(6)]]>其中D＝13是子向量的維數(shù)。vn(i)是子向量中第i維數(shù)的數(shù)據(jù)方差，并且由下式給出vn=Σj&Element;1...L(σj2(i)+μj2(i))/L-(ΣJ=1...Lμj(i)/L)2-(7)]]>其j是子向量的系數(shù)；L是分配給該節(jié)點的子向量數(shù)量；σj(i)和μj(i)分別是第n節(jié)點子向量均值的第i維數(shù)要素和第n節(jié)點的標(biāo)準(zhǔn)偏差。
然后通過下式確定方差d的變化d＝vparent-(vleft+vright)-(8)其中vparent、vleft、vright分別代表父節(jié)點、左子節(jié)點和右子節(jié)點中的子向量的方差。
決策樹具有大量的樹葉節(jié)點，其中每個樹葉節(jié)點對應(yīng)于一組模型子向量，該模型子向量共享共同定義聲學(xué)子空間的相似統(tǒng)計特征。
樹葉節(jié)點中子向量滿足以下條件(1)模型子節(jié)點的數(shù)量小于被選擇為10的一個閾值；和(2)等式(6)-(8)的方差中最大可能變化小于被選擇為0.1的一個閾值。
在步驟270，在決策樹建立器140中建立的三個決策樹，其每個決策樹對應(yīng)于三個分段之一。非樹葉節(jié)點的每個具有基于不等式(5)的一個與其關(guān)聯(lián)的決策，選擇每個非樹葉節(jié)點的決策以最大化子向量之間的方差的變化，并且有以下形式xTui≥ki-(9)
其中x是下面將要說明的特征向量；ui是用于節(jié)點的已選擇預(yù)測向量；ki是與預(yù)測向量ui關(guān)聯(lián)的已選擇閾值。
決策樹被存儲到?jīng)Q策樹存儲器170中，并且方法200終止于結(jié)束步驟280。
參見圖3，該圖示出了一種使用由方法200建立的決策樹用于語音辨別的方法300。在步驟310之后，語音辨別開始進(jìn)行，其中首先在供應(yīng)步驟320上提供一個樣本語音信號，該樣本語音信號來自由語音模型變換器150接收和處理的輸入語音發(fā)音。該樣本語音信號代表由語音模型變換器150處理進(jìn)入一個或多個特征向量中語音信號頻譜特征。每個特征向量是與存儲在統(tǒng)計模型數(shù)據(jù)庫100中的統(tǒng)計語音模型的平均值向量λjm和方差向量σjm相同的維數(shù)(39)。特征向量代表潛在的語音信號的頻譜特征。例如，被稱作倒譜系數(shù)(mel-frequency cepstralcoefficients，即MFCC)的方法被使用。因此引用發(fā)現(xiàn)MFCC的典型的已知方法，參見論文“Comparison of parametric representations formonosyllabic word recognition in continuous Spoken Sentences.”byDavid and Mermelstein，published in IEEE transactions on AcousticSpeech and Signal Processing，Vol.28，pp.357-366。
然后，在把特征向量分成子特征向量的語音辨別器160中執(zhí)行分割特征向量步驟330。在步驟330中使用用于統(tǒng)計語音模型的在步驟220中使用的同樣的分段方法。具體說，每個39維特征向量x被分成三個13維子特征向量x1、x2、x3，它們分別由第一13要素、下一個13要素和最后13要素組成。
在應(yīng)用步驟340上將子特征向量之每個應(yīng)用于決策樹存儲器170中的三個決策樹的對應(yīng)的一個，語音辨別器160訪問上述決策樹存儲器170。應(yīng)用步驟將每個子特征向量應(yīng)用于對應(yīng)的決策樹，以獲得很可能至少指示樣本語音信號的一個音素的多組模型子向量。本領(lǐng)域的熟練技術(shù)人員將會明白，通過分析從統(tǒng)計語音模型數(shù)據(jù)庫110獲得的模型子向量可以建立三個決策樹之每個。
子特征向量首先被應(yīng)用于決策樹的根節(jié)點，估算與根節(jié)點關(guān)聯(lián)的等式(9)的決策。然后根據(jù)估算的成果將子特征向量分配給左子節(jié)點或者右子節(jié)點。然后用子特征向量估算與所選擇的子節(jié)點關(guān)聯(lián)的問題(9)的決策。處理重復(fù)進(jìn)行直至到達(dá)樹葉節(jié)點，并且獲得用于子特征向量的一組模型子向量。該模型子向量組定義至少指示樣本語音信號的一個音素的聲學(xué)子空間。
然后執(zhí)行檢驗步驟350，以檢查所有自特征向量是否已經(jīng)應(yīng)用于對應(yīng)的決策樹。如果沒有，則選擇一個未處理子特征向量，并應(yīng)用于其決策樹。否則，該方法移到選擇步驟360，選擇模型子向量以識別和建立子向量的最后候選名單。
現(xiàn)在特征向量x的每一個與三組模型子向量相關(guān)聯(lián)，該三組子向量是從三個子特征向量x1、x2、x3的每一個以及它們的對應(yīng)決策樹中得到的。在選擇步驟360中從三個組s1、s2、s3中的模型子向量中識別模型向量的最后候選名單。具體說，估算一個模型向量，以確定它的模型子向量是否屬于與特征向量x關(guān)聯(lián)的組。如果是，將一個標(biāo)記分配給模型向量。如果一個模型向量的總標(biāo)記大于按試驗確定的等式的一個閾值，則將模型向量選入特征向量x的最后候選名單s1+0.5s2+0.5s3＞0.9-(10)其中，如果對應(yīng)模型子向量被呈現(xiàn)在它們的組中，則s1、s2或者s3被設(shè)置為1。否則，將s1、s2或者s3被設(shè)置為零。因此，用來選擇特征向量x的最后候選名單的策略是，如果模型子向量至少在組s1中，則包含一個模型向量，或者如果模型子向量不在組s1中，則它必須呈現(xiàn)在組s2和組s3中，以選作最后候選名單的一個成員。
然后在處理步驟370中處理為特征向量識別的最后候選名單，以提供樣本語音信號的副本。這由本技術(shù)領(lǐng)域中所知的解碼方法來提供。引入本說明書中的解碼方法的典型實施可以在下述的出版物中找到“A One Pass Decoder Design for Large Vocabulary Recognition”by J.J.Odell，V.Valtchev，P.C.Woodland and S.J.Young in Proceedings ARPAWorkshop on Human Language Technology，pp.405-410，1994。
在語音辨別器160的輸出提供副本。副本的一種形式是樣本語音信號的文本，作為選擇，副本可以是激活電子裝置或者系統(tǒng)的控制信號。該方法終止于結(jié)束步驟380。
有利的方面是，本發(fā)明可以減少語音辨別期間統(tǒng)計語音模型的分布“尾部”的非必要處理的問題，本發(fā)明還可以減少與影響語音辨別響應(yīng)時間的非必要的大群集相關(guān)聯(lián)的開銷。
上述描述說明僅提供了優(yōu)選實施例，而不是限定本發(fā)明的應(yīng)用或者配置的范圍。上述優(yōu)選實施例的具體說明向本領(lǐng)域的熟練技術(shù)人員提供了實施本發(fā)明優(yōu)選實施例的可行的說明。應(yīng)當(dāng)理解的是，在不背離權(quán)利要求所述的本發(fā)明的精神和范圍的條件下可以對要素的功能和安排作出各種變化。
權(quán)利要求
1.一種建立至少一個決策樹以處理表現(xiàn)語音的樣本信號的方法，該方法包括以下步驟依據(jù)音素的分段統(tǒng)計語音模型，提供模型子向量，該模型包括平均值和關(guān)聯(lián)的方差值的諸多向量；至少統(tǒng)計地分析平均值的部分模型子向量，以提供指示子向量之間相對最大方差的方向的預(yù)測向量；計算多個預(yù)測向量的預(yù)測值；依據(jù)預(yù)測值的范圍分析，選擇潛在的閾值；和建立具有決策能力的決策樹，以把模型子向量分成多個組，這些組是決策樹的樹葉，其中決策基于從潛在閾值選擇的已選擇閾值，已選擇閾值通過所述模型子向量之間的方差的變化來選擇，所述方差依據(jù)所述平均值和關(guān)聯(lián)的方差值來確定。
2.根據(jù)權(quán)利要求1所述的建立至少一個決策樹的方法，其中所述組具有定義聲學(xué)子空間的統(tǒng)計特征。
3.根據(jù)權(quán)利要求1所述的建立至少一個決策樹的方法，其中語音模型基于高斯概率分布。
4.根據(jù)權(quán)利要求1所述的建立至少一個決策樹的方法，其中統(tǒng)計分析的步驟還由預(yù)測向量來表征，所述預(yù)測向量通過主成分分析來計算。
5.根據(jù)權(quán)利要求l所述的建立至少一個決策樹的方法，其中潛在閾值從預(yù)測值的子集中選出。
6.根據(jù)權(quán)利要求5所述的建立至少一個決策樹的方法，其中決策基于一個不等式計算。
7.根據(jù)權(quán)利要求6所述的建立至少一個決策樹的方法，其中不等式計算涉及乘以一個預(yù)測向量的已選擇模型子向量的轉(zhuǎn)置與一個所述潛在閾值之間的不等式。
8.根據(jù)權(quán)利要求5所述的建立至少一個決策樹的方法，其中子集從具有最大方差預(yù)測值的預(yù)測向量中選出。
9.根據(jù)權(quán)利要求8所述的建立至少一個決策樹的方法，其中從子集中每個預(yù)測向量的最小與最大預(yù)測值間的范圍中確定潛在閾值。
10.根據(jù)權(quán)利要求9所述的建立至少一個決策樹的方法，其中潛在閾值通過把上述范圍分成平均間隔的子范圍來確定。
ll、根據(jù)權(quán)利要求l所述的建立至少一個決策樹的方法，其中決策樹最好是二元決策樹。
12.一種語音辨別的方法，包括以下步驟提供處理為至少一個特征向量的樣本語音信號，該特征向量代表語音信號的頻譜特征；把特征向量分成諸多子特征向量；把每個子特征向量應(yīng)用于對應(yīng)的決策樹上，以獲得模型子向量的諸多組，該模型子向量很可能至少指示樣本語音信號的一個音素，決策樹通過分析從統(tǒng)計語音模型獲得的模型子向量來建立，其中決策樹具有基于從潛在閾值選擇的已選擇閾值的決策，已選擇閾值通過所述模型子向量之間的方差的變化來選擇，所述方差依據(jù)所述平均值和與所述模型子向量關(guān)聯(lián)的方差值來確定；從子特征向量的諸多組中選擇多個模型子向量，從而識別模型子向量的最后候選名單；和處理該最后候選名單，以提供樣本語音信號的一個副本。
13.根據(jù)權(quán)利要求12所述的語音辨別方法，其中所述副本是樣本語音信號的文本。
14.根據(jù)權(quán)利要求12所述的語音辨別方法，其中所述副本是一個控制信號。
15.根據(jù)權(quán)利要求14所述的語音辨別方法，其中控制信號激活電子裝置或系統(tǒng)的功能。
16.根據(jù)權(quán)利要求12所述的語音辨別方法，其中潛在閾值從預(yù)測值的子集中選出，所述預(yù)測值從模型子向量中獲得。
17.根據(jù)權(quán)利要求16所述的語音辨別的方法，其中決策基于一個不等式計算。
18.根據(jù)權(quán)利要求17所述的語音辨別方法，其中不等式計算涉及乘以一個預(yù)測向量的已選擇模型子向量的轉(zhuǎn)置與一個所述潛在閾值之間的不等式。
19.根據(jù)權(quán)利要求16所述的語音辨別方法，其中所述子集從具有最大方差預(yù)測值的預(yù)測向量中選出。
20.根據(jù)權(quán)利要求19所述的語音辨別方法，其中從子集中每個預(yù)測向量的最小與最大預(yù)測值間的范圍中確定潛在閾值。
21.根據(jù)權(quán)利要求12所述的語音辨別方法，其中潛在閾值通過把所述范圍分成平均間隔的子范圍來確定。
全文摘要
本發(fā)明公開了一種建立至少一個決策樹以處理表現(xiàn)語音的樣本信號的方法(200)。該方法包括依據(jù)音素的分段統(tǒng)計語音模型，提供模型子向量，該模型包括平均值和關(guān)聯(lián)的方差值的諸多向量。然后，對平均值的模型子向量進(jìn)行統(tǒng)計分析，以提供指示子向量之間相對最大方差的方向預(yù)測向量，此后，計算多個預(yù)測向量的預(yù)測值(240)。依據(jù)預(yù)測值的范圍分析，確定潛在閾值(260)。最后提供有決策能力的決策樹(270)，把模型子向量分成多個組，這些組是決策樹樹葉。該決策基于從潛在閾值選擇的已選擇閾值，已選擇閾值通過該模型子向量之間的方差變化來選擇，該方差依據(jù)該平均值和關(guān)聯(lián)的方差值來確定。本發(fā)明還說明了使用建立決策樹方法進(jìn)行語音辨別(300)的方法。
文檔編號G10L15/00GK1420486SQ0214875
公開日2003年5月28日申請日期2002年11月15日優(yōu)先權(quán)日2001年11月16日
發(fā)明者李恒舜申請人:摩托羅拉公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李恒舜
技術(shù)所有人：摩托羅拉公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

決策樹方法相關(guān)技術(shù)

決策樹分析方法相關(guān)技術(shù)

決策樹分類方法相關(guān)技術(shù)

決策樹剪枝方法相關(guān)技術(shù)

基于決策樹的特征選擇相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于決策樹的語音辨別的制作方法