基于本征話音的說話者檢驗和說話者識別的制作方法

文檔序號：2820832閱讀：287來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于本征話音的說話者檢驗和說話者識別的制作方法
技術(shù)領(lǐng)域：
本發(fā)明一般涉及語音技術(shù)，并特別涉及用于進行說話者檢驗或說話者識別的系統(tǒng)和方法。
授權(quán)問題處于幾乎每一項交易的核心。成百萬的人通過電話進行保密的金融交易，諸如訪問他們的銀行帳戶或使用他們的信用卡。當前實際進行的授權(quán)遠非完全安全的。各方面交換認為秘密的信息的某種形式，諸如社會保險號碼，母親未婚前娘家的姓等。顯然，這種信息可能受到侵犯，其結(jié)果是偽冒的授權(quán)。
本發(fā)明的一方面是要通過提供用于進行說話者檢驗的系統(tǒng)和方法解決上述問題。說話者檢驗涉及確定給定的話音是屬于一定說話者(這里稱為“客戶”)還是冒名頂替者(客戶以外的任何人)。
與說話者檢驗相關(guān)的問題是說話者識別問題。說話者識別涉及把給定的話音與一組已知的話音之一匹配。類似于說話者檢驗，說話者識別具有一些有吸引力的應(yīng)用。例如，說話者識別系統(tǒng)可用于對話音樣本可得的一組說話者發(fā)出的話音郵件進行分類。這種功能允許計算機實現(xiàn)的電話系統(tǒng)在計算機屏幕上顯示已經(jīng)在話音郵件系統(tǒng)上留言的呼叫者的身份。
雖然說話者檢驗和說話者識別的應(yīng)用實際上是無限的，但迄今進行這兩個任務(wù)的解決方法證明是困難的。識別人類語音、特別是從其它說話者鑒別一說話者是一個復(fù)雜的問題。由于人類語音是如此產(chǎn)生的，即使是單獨一個詞一個人很少以相同的方式說出兩次。
人類語音是空氣在壓力下從肺臟用力通過聲帶的產(chǎn)物，并受到聲門的調(diào)制產(chǎn)生聲波，然后該聲波在由舌頭、頜部、牙齒和嘴唇清晰發(fā)音之前，在口腔和鼻腔中共鳴。許多因素影響這些聲音產(chǎn)生機制如何相互作用。例如，通常的感冒就會大大改變鼻腔的共鳴以及聲帶音調(diào)的質(zhì)量。
由于人類產(chǎn)生語音的復(fù)雜性和多變性，通過比較新的說話者與先前的記錄語音樣本并不能容易地進行說話者檢驗和說話者識別。為了排除冒名頂替者而采用高相似性閾值，但當他或她患感冒時，可能會排除授權(quán)的說話者。另一方面，采用低相似性閾值能夠使系統(tǒng)傾向于作出錯誤的檢驗。
本發(fā)明對說話者檢驗和說話者識別使用基于模型的分析方法。對已知的客戶說話者的語音(并在說話者檢驗的情形下還對一個或多個冒名頂替者的語音)構(gòu)造模型并進行訓(xùn)練。這些說話者模型一般采用復(fù)合參數(shù)(諸如隱藏馬爾科夫模型參數(shù))。不是直接使用這些參數(shù)，而是把參數(shù)連接在一起形成超向量。這些超向量，每個說話者一個，表示整個訓(xùn)練數(shù)據(jù)的說話者分布。
對超訓(xùn)練進行結(jié)果為維數(shù)降低的線性變換，這產(chǎn)生我們稱為本征空間的低維空間。這一本征空間的基向量我們稱為“本征話音”向量或“本征向量”。如果需要，能夠通過拋棄某些本征向量項在維數(shù)上進一步降低本征空間。
然后，在本征空間中表示出包含訓(xùn)練數(shù)據(jù)的每一說話者，或者作為本征空間中的一個點，或者作為本征空間中的概率分布。前者精確度稍低，在于這方法把來自每一說話者的語音相對不變地處理。后者反映出每一說話者的語音將隨發(fā)音發(fā)生變化。
在本征空間中對每一說話者表示出訓(xùn)練數(shù)據(jù)后，系統(tǒng)可用于進行說話者檢驗或說話者識別。
獲得新的說話者數(shù)據(jù)并用于構(gòu)造超向量，然后其維數(shù)降低并在本征空間中表示。估計新的說話者數(shù)據(jù)對本征空間中先前數(shù)據(jù)的近似程度，進行說話者檢驗或說話者識別。如果其在本征空間內(nèi)的對應(yīng)點或分布在對該客戶說話者的訓(xùn)練數(shù)據(jù)的閾值近似度之內(nèi)，則確認來自說話者的新的語音。如果其放置在本征空間中落在比較接近冒名頂替者語音，則系統(tǒng)在進行授權(quán)時可能會拒絕新的語音。
說話者識別以類似的方式進行。新的語音數(shù)據(jù)放置在本征空間中，并對分布的本征向量點最接近的訓(xùn)練說話者進行識別。
估計本征空間中新的語音數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的近似程度具有數(shù)個優(yōu)點。首先，本征空間以精確的低維方式表示出每一完整的說話者，不只是選擇每一說話者少量特性。在本征空間中進行近似程度的計算能夠相當快速地進行，因為與原始說話者模型空間或特征向量空間中相比，在本征空間中一般只需對相當少的維數(shù)進行處理。而且系統(tǒng)不需要新語音數(shù)據(jù)每一包含在構(gòu)造原始訓(xùn)練數(shù)據(jù)所使用的每一例子或發(fā)音。通過這里所述的技術(shù)，能夠?qū)Τ蛄窟M行維數(shù)降低，拋棄其某些成分。然而這樣產(chǎn)生的分布在本征空間的點將能非常好地表示說話者。
為了完整地理解本發(fā)明、其目的和優(yōu)點，請參見以下說明及附圖。

圖1表示理解本發(fā)明使用的示例性的隱藏馬爾科夫模型(HMM)；圖2是表示如何構(gòu)造本征空間以實現(xiàn)說話者識別系統(tǒng)的流程圖，其中已知的客戶說話者表示為本征空間中的一個點；圖3是表示如何構(gòu)造本征空間以實現(xiàn)說話者檢驗系統(tǒng)的流程圖，其中客戶說話者和潛在的冒名頂替者按本征空間中的分布來表示；圖4是表示使用在訓(xùn)練期間形成的本征空間可進行說話者識別或說話者檢驗的過程的流程圖；圖5是如何實施極大似然技術(shù)的示意圖；圖6是表示如何基于極大似然運算將來自說話者的觀測數(shù)據(jù)放置到本征空間中的數(shù)據(jù)結(jié)構(gòu)圖。
本發(fā)明所采用的本征話音技術(shù)將對許多不同的語音模型有效。我們說明與隱藏馬爾科夫模型識別器相關(guān)的優(yōu)選實施例，因為其在當今的語音識別技術(shù)中具有普遍性。然而應(yīng)當理解，本發(fā)明能夠使用任何其它類型的基于模型的識別器實現(xiàn)，諸如音素相似性識別器。
為了更好地理解本發(fā)明的說話者識別和檢驗技術(shù)，對語音識別系統(tǒng)基本的理解是有幫助的。迄今當前大多數(shù)語音識別器采用隱藏馬爾科夫模型(HMM)表示語音，這里將說明HMM技術(shù)使讀者熟悉。
隱藏馬爾科夫模型是涉及狀態(tài)圖的建模方法。任何語音單元(諸如短語、詞、半詞、音素等)都能夠以包含在該模型中的所有知識源被建模。HMM表示產(chǎn)生離散區(qū)間可觀測的輸出序列一種未知的過程，輸出是某些有限的字母表成員(對應(yīng)于語音單元預(yù)定的集合)。這些模型被稱為“隱藏的”，因為產(chǎn)生可觀測輸出的狀態(tài)序列是未知的。
如圖1所示，HMM10由狀態(tài)集合(S1，S2，…S5)、定義圖1中箭頭所示的某些狀態(tài)對之間的轉(zhuǎn)移的向量以及概率數(shù)據(jù)集合來表示。特別地，隱藏馬爾科夫模型包括與轉(zhuǎn)移向量相關(guān)的轉(zhuǎn)移概率集合12以及與每一狀態(tài)觀測的輸出相關(guān)的向量和輸出概率集合14。對模型從一個狀態(tài)到另一狀態(tài)按規(guī)則間隔、離散區(qū)間定時。按時鐘時間，模型可以從其當前狀態(tài)變?yōu)閷ζ滢D(zhuǎn)移向量存在的任何狀態(tài)。如圖所示，轉(zhuǎn)移可從給定的狀態(tài)返回到自身。
轉(zhuǎn)移概率表示當對模型計時時從一個狀態(tài)向另一狀態(tài)轉(zhuǎn)移將發(fā)生的似然率。于是如圖1所示，每一轉(zhuǎn)移與一概率值(0與1之間)相聯(lián)系。處于任意狀態(tài)的所有概率之和等于1。舉例來說，在轉(zhuǎn)移概率表格12中給出了示例性轉(zhuǎn)移概率值集合。應(yīng)當理解，在一有效的實施例中，這些值將由訓(xùn)練數(shù)據(jù)產(chǎn)生，其限制是處于任意狀態(tài)的所有概率之和等于1。
每次進行轉(zhuǎn)移時，可以把模型設(shè)想為發(fā)出或輸出其字母表的一個成員。在圖1所示的實施例中，假設(shè)基于音素的語音單元。這樣在輸出概率表14中定義的符號對應(yīng)于標準英語中找到的音素。在每一轉(zhuǎn)移時發(fā)出哪一個字母表成員取決于輸出概率值或訓(xùn)練期間學(xué)習(xí)的函數(shù)。這樣發(fā)出的輸出表示觀測的序列(基于訓(xùn)練數(shù)據(jù))，并且每一字母表成員有一被發(fā)出的概率。
在對語音建模中，通常實際的作法是把輸出作為與離散字母表符號序列相對的連續(xù)向量序列。這需要輸出概率表示為與單個數(shù)值相對的連續(xù)概率函數(shù)。這樣，HMM常?；诎ㄒ粋€或多個高斯分布的概率函數(shù)。當使用多個高斯函數(shù)時，如在16處所示，它們一般相加地混合在一起以定義一復(fù)合的概率分布。
無論表示為單一高斯函數(shù)還是表示為高斯函數(shù)的混合，概率分布能夠由多個參數(shù)描述。如同轉(zhuǎn)移概率值(表12)那樣，這些輸出概率參數(shù)可能包含浮點數(shù)。參數(shù)表18標識一般用來基于來自訓(xùn)練說話者的觀測數(shù)據(jù)表示概率密度函數(shù)(pdf)。由圖1中高斯函數(shù)16的方程式所示，要進行建模的觀測向量O的概率密度函數(shù)是乘以由高斯密度N的每一混合分量的混合系數(shù)的疊代和，其中高斯密度具有平均向量uj，以及從倒譜或濾波器組系數(shù)語音參數(shù)計算的協(xié)方差矩陣Uj。
隱藏馬爾科夫模型識別器實現(xiàn)的細節(jié)從一個應(yīng)用到另一應(yīng)用可以有很大變化。圖1所示的HMM例子只是要解釋隱藏馬爾科夫模型是如何構(gòu)造的，并不是作為對本發(fā)明范圍的限制。就此而言，有許多各種不同的隱藏馬爾科夫建模概念。正如從以下說明能夠更允分理解那樣，本發(fā)明的本征話音適應(yīng)技術(shù)能夠很好地適用于每一種不同的隱藏馬爾科夫模型變形，以及其它基于參數(shù)的語音建模系統(tǒng)。
圖2和3分別表示，使用本發(fā)明的技術(shù)如何進行說話者識別和說話者檢驗。作為進行說話者識別或說話者檢驗的第一步，要構(gòu)造本征空間。要構(gòu)造的具體的本征空間與應(yīng)用有關(guān)。在圖2所示的說話者識別的情形下，使用一組已知的客戶說話者20提供對其生成本征空間的訓(xùn)練數(shù)據(jù)22。另一方面，對于如圖3所示的說話者檢驗，從希望對其進行檢驗的客戶說話者21a，以及還從一個或多個潛在的冒名頂替者21b提供訓(xùn)練數(shù)據(jù)。對說話者識別和說話者檢驗應(yīng)用，除了訓(xùn)練數(shù)據(jù)源的這一區(qū)別外，用于產(chǎn)生本征空間的過程基本上相同。于是對圖2和3使用了類似的標號。
參照圖2和3，通過對在訓(xùn)練數(shù)據(jù)22中表示的每一說話者形成并訓(xùn)練說話者模型而構(gòu)造本征空間。這一步驟示于24，并對每一說話者產(chǎn)生一組模型26。雖然這里已經(jīng)解釋隱藏馬爾科夫模型，但是本發(fā)明不限于隱藏馬爾科夫模型。而是可使用具有適于連接的參數(shù)的任何語音模型。模型26最好使用足夠的訓(xùn)練數(shù)據(jù)訓(xùn)練，使得由模型所定義的所有聲音單元由每一說話者實際的語音至少一個例子訓(xùn)練。雖然在圖2和3中沒有明顯示出，但模型訓(xùn)練步驟24能夠包含適當?shù)妮o助說話者適應(yīng)處理，以便加細模型。這種輔助處理的例子包括極大A后驗估計(MAP)及其它基于變換的方法，諸如極大似然線性回歸(MLLR)。生成說話者模型26的目的是要精確地表示訓(xùn)練數(shù)據(jù)語料庫，因為這個語料庫要用來定義每一訓(xùn)練說話者被放置在其中，并對其測試每一新的語音發(fā)音的本征空間的界線和邊界。
在構(gòu)造模型26之后，在步驟28使用每一說話者的模型構(gòu)造超向量。30處所示的超向量可通過連接每一說話者模型的參數(shù)形成。在使用隱藏馬爾科夫模型時，每一說話者的超向量可組成參數(shù)(一般為浮點數(shù))的一有序列表，這些參數(shù)對應(yīng)于該說話者隱藏馬爾科夫模型的至少一部分參數(shù)。對應(yīng)于每一聲音單元的參數(shù)包含在給定的說話者超向量中。這些參數(shù)可以任何方便的順序組織起來。順序不是重要的；然而一旦采用一種順序，則對所有的訓(xùn)練說話者必須遵從。
用來構(gòu)造超向量的模型參數(shù)的選擇將取決于計算機系統(tǒng)可用的處理能力。當使用隱藏馬爾科夫模型參數(shù)時，我們通過從高斯均值構(gòu)造超向量而獲得了良好的結(jié)果。如果可使用更大的處理能力，超向量還可包括其它的參數(shù)，諸如轉(zhuǎn)移概率(圖1表12)，或協(xié)方差矩陣參數(shù)(圖1參數(shù)18)。如果隱藏馬爾科夫模型產(chǎn)生離散輸出(與概率密度相反)，則這些輸出值可用來組成超向量。
在構(gòu)造超向量之后，在步驟32進行維數(shù)降低操作。維數(shù)降低能夠通過把原來的高維超向量降低為基向量的任何線性變換實現(xiàn)。例子的非窮盡列表包括主成分分析(PCA)，獨立成分分析(ICA)，線性鑒別分析(LDA)，因素分析(FA)，單值分解(SVD)。
具體來說，在實現(xiàn)本發(fā)明中使用的維數(shù)降低技術(shù)的分類定義如下?？紤]從用于語音識別的說話者相關(guān)模型獲得的一組T個訓(xùn)練超向量。設(shè)這些超向量的每一個具有維數(shù)V；這樣，我們能夠把每一超向量標記為X＝[x1，x2，…，xV]＾T(V*1向量)?？紤]能夠施加到超向量(即施加到維數(shù)V的任何向量)以產(chǎn)生新的維E的向量(E小于或等于訓(xùn)練超向量數(shù)目T)；每一變換后的向量可標記為W＝[w1，w2，…，wV]＾T。以某種方式從T個訓(xùn)練超向量的組計算M的參數(shù)值。
這樣，我們具有線性變換W＝M*X。M有維數(shù)E*V，且W具有維數(shù)E*1，其中E＜＝T；對于特定的訓(xùn)練超向量組，M將是固定不變的。可使用幾種維數(shù)降低技術(shù)從T個訓(xùn)練超向量的組計算線性變換M，使W具有維數(shù)E＜＝T。
例子包括主成分分析、獨立成分分析、線性鑒別分析、因素分析、單值分解。在輸入向量為從說話者相關(guān)建模導(dǎo)出的訓(xùn)練超向量、并且M用來實施上述技術(shù)的具體情形下，可使用任何用于找出這種固定線性變換M的方法(不僅是那些列出的)實現(xiàn)本發(fā)明。
在步驟32產(chǎn)生的基向量定義由本征向量覆蓋的一本征空間。維數(shù)降低對每一訓(xùn)練的說話者產(chǎn)生一本征向量。這樣，如果有T個訓(xùn)練說話者，則維數(shù)降低步驟32產(chǎn)生T個本征向量。這些本征向量定義了所謂本征話音空間或本征空間。
如34處所示，形成本征話音空間的本征向量每一表示可通過其區(qū)分不同說話者的不同維。原始訓(xùn)練集中每一超向量可被表示為這些本征向量的線性組合。本征向量按它們在對數(shù)據(jù)建模中的的重要性排序第一本征向量比第二本征向量重要，第二本征向量比第三本征向量重要等等。至此我們對這一技術(shù)的經(jīng)驗表明，第一本征向量似乎對應(yīng)于性別維。
雖然在步驟32產(chǎn)生的極大T個本征向量，實際上能夠拋棄這些向量的幾個，僅保留前N個本征向量。這樣在步驟36我們可選地抽取T個本征向量的N個，在步驟38組成降低的參數(shù)本征空間。較高階的本征向量可被拋棄，因為它們一般包含用于在說話者之間進行鑒別的次要信息。把本征話音空間降低到少于訓(xùn)練說話者總數(shù)就提供了本質(zhì)的數(shù)據(jù)壓縮，這在以有限的存儲器和處理器資源構(gòu)造實際系統(tǒng)時能夠有幫助。
在從訓(xùn)練數(shù)據(jù)產(chǎn)生了本征向量之后，在本征空間中表示出訓(xùn)練數(shù)據(jù)中的每一說話者。在說話者識別的情形下，如步驟40a所示及42a處圖示，在本征空間中表示出每一已知的客戶說話者。在說話者檢驗的情形下，如步驟40b所示及42b處所示，在本征空間中表示出客戶說話者和潛在的冒名頂替說話者。說話者可以表示為本征空間中的點(如圖2中42a處所示)或表示為本征空間中的概率分布(如圖3中42b處所示)。
使用說話者識別或說話者檢驗系統(tǒng)尋求說話者識別或檢驗的用戶在44提供新的語音數(shù)據(jù)，且如步驟46處所示，這些語音數(shù)據(jù)用來訓(xùn)練說話者相關(guān)模型。然后在步驟50使用模型48構(gòu)造超向量52。注意，新的語音數(shù)據(jù)可能不需要包含每一聲音單元的例子。例如，新的語音發(fā)音可能太短而不能包含所有聲音單元的例子。如以下將充分說明的，系統(tǒng)將處理這種情形。
在步驟54對超向量52進行維數(shù)降低，其結(jié)果是如步驟56所示及58處所示可在本征空間中表示的新的數(shù)據(jù)點。在58的圖示中本征空間(基于訓(xùn)練說話者)中先前所需的點表示為圓點，而新的語音數(shù)據(jù)點表示為星號。
把新的數(shù)據(jù)點放置到本征空間之后，現(xiàn)在可以估計其對其它先前的數(shù)據(jù)點逼近程度，或?qū)?yīng)于訓(xùn)練說話者的數(shù)據(jù)分布。圖4示出說話者識別和說話者檢驗的兩者的一示例性實施例。
對于說話者識別，把新的語音數(shù)據(jù)指定給本征空間中最接近的訓(xùn)練說話者，步驟62圖示在64處。這樣系統(tǒng)將把新的語音標識為其數(shù)據(jù)點或數(shù)據(jù)分布在本征空間中最接近新的語音的先前的訓(xùn)練說話者的語音。
對于說話者檢驗，系統(tǒng)在步驟66測試新的數(shù)據(jù)點以確定它是否與本征空間中客戶說話者處于預(yù)定的閾值接近程度。如果新的說話者數(shù)據(jù)在本征空間中更為接近冒名頂替者而不是客戶說話者，則作為安全措施在步驟68，系統(tǒng)可以拒絕新的說話者數(shù)據(jù)。這圖示在69處，其中描繪出對客戶說話者的接近程度和對最接近的冒名頂替者的接近程度。
極大似然本征空間分解(MLED)技術(shù)一個用于把新的說話者放置在本征空間內(nèi)的簡單的技術(shù)是使用簡單的投影運算。投影運算尋找盡可能接近對應(yīng)于新的說話者輸入語音本征空間之外的點的本征空間內(nèi)的點。請記住，這些點實際上是從其能夠重新構(gòu)造一組HMM的超向量。
投影運算是比較粗糙的技術(shù)，它不能保證本征空間內(nèi)的點對新的說話者最優(yōu)。此外，投影運算要求對新的說話者超向量包含完整的數(shù)據(jù)集，以表示對該說話者整個的HMM組。這一要求引起實施上相當大的限制。當使用投影把新的說話者約束到本征空間時，說話者必須提供足夠的輸入語音，使所有的語音單元能在數(shù)據(jù)中表示。例如，如果隱藏馬爾科夫模型指定表示英語中所有的音素，則在使用簡單投影技術(shù)之前，訓(xùn)練說話者必須提供所有音素的例子。在許多應(yīng)用中，這一約束簡直是不實際的。
本發(fā)明的極大似然技術(shù)要解決簡單投影的上述兩個缺陷。本發(fā)明的極大似然技術(shù)尋求本征空間內(nèi)的一點，該點表示對應(yīng)于具有產(chǎn)生由新說話者提供的語音的最大概率的一組隱藏馬爾科夫模型的超向量。
簡單的投影運算把所有的超向量成員作為具有同等重要性對待，而最大似然技術(shù)是基于從實際適應(yīng)數(shù)據(jù)引起的概率的，這樣更可能的數(shù)據(jù)權(quán)重越重。與簡單投影技術(shù)不同，即使新的說話者沒有提供完全的訓(xùn)練數(shù)據(jù)集合(即對某些聲音單元的數(shù)據(jù)缺失)，極大似然技術(shù)仍將有效。實際上，極大似然技術(shù)把構(gòu)造超向量的場合考慮在內(nèi)，即從涉及一定模型比另外的模型更可能產(chǎn)生由新說話者提供的輸入語音的概率的隱藏馬爾科夫模型進行構(gòu)造。
實際上，極大似然技術(shù)將在本征空間內(nèi)選擇與新的說話者輸入語音最一致的超向量，而不論實際上究竟有多少輸入語音可得。為了說明，假設(shè)新的說話者是Alabama當?shù)厝说哪贻p女性。在收到來自這一說話者發(fā)出的一些音節(jié)時，極大似然技術(shù)將在本征空間內(nèi)選擇表示與說話者的當?shù)谹labama女性口音一致的所有音素(即使那些在輸入語音中還沒有表示的音素)的點。
圖5表示極大似然技術(shù)如何工作。來自新說話者的語音輸入用來構(gòu)造超向量70。如上所述，超向量包括對應(yīng)于倒譜系數(shù)等語音參數(shù)的連接列表。在所示的實施例中，這些參數(shù)是表示從對應(yīng)于新說話者的隱藏馬爾科夫模型集合抽取的高斯均值的浮點數(shù)。其它的HMM參數(shù)也可使用。在圖示中，這些HMM均值作為如72處的圓點所示。當以數(shù)據(jù)完全分布時，超向量70將對每一HMM均值包含對應(yīng)于由HMM模型表示的每一聲音單元的浮點數(shù)。為了進行說明，這里假設(shè)音素“ah”的參數(shù)出現(xiàn)，而音素“iy”的參數(shù)缺失。
本征空間38由本征向量74、76和78的集合表示。對應(yīng)于來自新說話者的觀測數(shù)據(jù)的超向量70可在本征空間中由每一本征向量乘以標記為W1，W2，…Wn的對應(yīng)的本征值表示。這些本征值起初是未知的。極大似然技術(shù)尋找這些未知本征值的值。如將以下更充分說明那樣，通過尋找將能在本征空間中最佳表示新說話者的優(yōu)化解而選擇這些值。
在使本征值與對應(yīng)的本征空間38的本征向量相乘并對結(jié)果乘積求和之后，產(chǎn)生一個適應(yīng)模型80。由于輸入語音的超向量(超向量70)可能已有某些缺失的參數(shù)值(例如“iy”參數(shù))，表示適應(yīng)模型的超向量80以數(shù)值完全分布。此即本發(fā)明的一個好處。此外，超向量80中的值表示優(yōu)化解，即它在本征空間中具有表示新說話者的極大似然。
各本征值W1，W2，…Wn可看作為構(gòu)成極大似然向量，這里稱為極大似然向量。圖5在82處圖示出向量。如圖示所示，極大似然向量82組成本征值W1，W2，…Wn的集合。
圖6中示出使用極大似然技術(shù)進行適應(yīng)的過程。來自新說話者組成觀測數(shù)據(jù)的語音用來構(gòu)造如100處所示的HMM集合。然后HMM集合102用于構(gòu)成如104處所示的超向量。如圖所示，超向量106構(gòu)成從HMM模型102抽取的HMM參數(shù)的連接的列表。
使用超向量106，在108構(gòu)造概率函數(shù)Q。當前優(yōu)選的實施例采用一種概率函數(shù)，該函數(shù)表示對HMM模型102的預(yù)定集合產(chǎn)生被觀測數(shù)據(jù)的概率。如果函數(shù)包含的不只是概率項P，而且還有這項的對數(shù)logP，則易于進行概率函數(shù)Q的后繼操作。
然后在步驟110通過分別對每一本征值W1，W2，…Wn取概率函數(shù)的導(dǎo)數(shù)，得到概率函數(shù)最大值。例如，如果本征空間維數(shù)為100，這一系統(tǒng)計算概率函數(shù)Q的100個導(dǎo)數(shù)，置每一個為零并對各個W求解。雖然這好象是很大的計算量，但是比傳統(tǒng)的MAP或MLLR技術(shù)進行一般所需的成千次的計算在計算耗費上要小得多。
這樣獲得的Ws結(jié)果集合表示標識本征空間中對應(yīng)于極大似然點的點所需的本征值。這樣，Ws的集合構(gòu)成本征空間中極大似然向量。就此而言，每一本征向量(圖5中的本征向量74、76和78)定義了一組正交向量或坐標，本征值乘以該坐標而定義約束在本征空間內(nèi)的點。在112示出的這一極大似然向量用來構(gòu)造對應(yīng)于本征空間中最優(yōu)點(圖4中的點66)的超向量114。然后在步驟116超向量114可用來構(gòu)造對新說話者的適應(yīng)模型118。
在本發(fā)明的極大似然結(jié)構(gòu)的場合中，我們希望使觀測O＝o1…oT的似然關(guān)于模型λ最大化。這可通過疊代求輔助函數(shù)Q(以下)的最大值進行，其中λ是疊代處的當前模型，而λ＾是估計的模型。我們有Q(λ,λ^)=Σθ&Element;statesP(O,θ|λ)1o]]>作為最初的逼近，我們可希望只對均值進行最大化。在概率P由HMM集合給出的場合下，我們獲得以下結(jié)果Q(λ,λ^)=const-12P(O|λ)ΣstatesimλSλΣgaussinSmixlMSΣtimetT{γm(s)(t)[nlog(2π)+log|Cm(s)|+h(o1,m,s)]}]]>
其中h(o1,m,s)=(o1-μm^(s))TCm(s)-1(o1-μm^(s))]]>并設(shè)Ot為時間t處的特征向量Cm(s)-1為狀態(tài)s的混合高斯逆協(xié)方差μ＾m(s)為對狀態(tài)s的逼近的適應(yīng)均值，混合分量mγm(s)(t) 為P(使用混合高斯m|λsot)設(shè)新說話者的HMM的高斯均值位于本征空間中。設(shè)這一空間是由均值超向量μj覆蓋的空間，j＝1…E，(原文P20公式1)
其中μm(s)(j)表示在本征向量(本征模型)j的狀態(tài)s下混合高斯m的均值向量。
然后我需要μ^=Σj=1Ewjμj&OverBar;]]>μj為正交的，且Wj是我們的說話者模型的本征值。這里我們假設(shè)，可對任何新的說話者建模為被觀測的說話者的數(shù)據(jù)庫的線性組合。然后μm^(s)=Σj=1Ewjμm&OverBar;(s)(j)]]>
s是M的混合高斯值中的λ、m的狀態(tài)。
由于我們需要使Q最大化，我們只需設(shè)定&PartialD;Q&PartialD;we=0,e=1..E.]]>(注意，因為本征向量是正交的，故
i≠j..)因而我們有&PartialD;Q&PartialD;we=0=ΣstatesinλSλΣgaussinSmixtMSΣtimetT{&PartialD;&PartialD;weγm(s)(t)h(o1,s)},e=1..E.]]>計算以上的導(dǎo)數(shù)，我們有0=ΣsΣmΣlrm(s)(t){-μ-m(s)T(e)Cm(s)-1ol+Σj=1Ewjμ&OverBar;m(s)T(j)Cm(s)-1μ&OverBar;m(s)(e)}]]>由此我們求得線性方程式組ΣsΣmΣlrm(s)(t)μ&OverBar;m(s)T(e)Cm(s)-1ol=ΣsΣmΣlrm(s)(t)Σj=1Ewjμ&OverBar;m(s)T(j)Cm(s)-1μ&OverBar;m(s)(e),e=1..E.]]>估計本征空間中的接近程度當把說話者表示為本征空間中的點時，能夠使用簡單的幾何距離計算識別哪一個訓(xùn)練數(shù)據(jù)說話者最靠近新的說話者。當把說話者表示為本征空間中的分布時，通過把新的說話者數(shù)據(jù)作為觀測O并然后通過測試每一分布候選項(表示訓(xùn)練說話者)估計接近程度，以確定候選項產(chǎn)生觀測數(shù)據(jù)的概率如何。具有最高概率的候選項被估計為具有最接近的程度。在某些高度安全的應(yīng)用中，如最可能的候選項具有低于預(yù)定閾值的概率，可能希望拒絕認證。這樣可使用一價值函數(shù)區(qū)分出缺乏高度確定性的候選項。
如以上所述，估計新的說話者對訓(xùn)練說話者的接近程度可完全在本征空間內(nèi)進行。另外，可對更高精確性情形使用貝葉斯估計技術(shù)。
為了使用貝葉斯估計強化接近程度的估計，本征空間內(nèi)訓(xùn)練說話者高斯密度乘以正交互補空間中，表示通過維數(shù)降低而被拋棄的說話者數(shù)據(jù)的估計的邊際密度。就此而言，要認識到，對說話者模型進行維數(shù)降低的結(jié)果是從高維空間向低維空間顯著的數(shù)據(jù)壓縮。雖然維數(shù)降低保留了大部分重要的基向量，但某些拋棄了某些較高階的信息。貝葉斯估計技術(shù)估計對應(yīng)于這一被拋棄信息的邊際高斯密度。
為了說明，假設(shè)原始的本征空間是通過維數(shù)降低過程由超向量的線性變換構(gòu)造的，從而從所有分量較大的數(shù)目N中抽取M個分量。較小的所抽取的M個分量表示對應(yīng)于極大本征值的變換基的較低維子空間。這樣，本征空間由分量i＝1…M定義，其中拋棄的次要分量對應(yīng)于i＝M+1…N。這兩組分量定義了兩個相互排斥并互補的子空間，主子空間表示有用的本征空間，而其正交分量表示通過維數(shù)降低被拋棄的數(shù)據(jù)。
我們可以通過以下方程式作為這兩個彼此正交的空間中的高斯密度的乘積計算似然估計P^(x|Ω)=PE(x|Ω)*PE..(x|Ω)]]>在以上方程式中，第一項是本征空間E中單一高斯密度，而第二項是與本征空間正交的空間中單一高斯密度。由此得出，只使用到本征空間的投影和殘值即可從訓(xùn)練數(shù)據(jù)向量集合完全估計這兩項。
權(quán)利要求
1.用于對預(yù)定客戶說話者估計語音的方法，包括對來自多個訓(xùn)練說話者的語音訓(xùn)練一組語音模型，多個訓(xùn)練說話者包括至少一個客戶說話者；通過對所述模型組進行維數(shù)降低來構(gòu)造表示所述多個訓(xùn)練說話者的本征空間以產(chǎn)生定義所述本征空間的一組基向量；把所述客戶說話者表示為所述本征空間中第一位置；通過對所述輸入數(shù)據(jù)訓(xùn)練新的語音模型，并通過對所述新的語音模型進行維數(shù)降低，處理新的說話者輸入數(shù)據(jù)，以產(chǎn)生所述新的說話者作為本征空間中第二位置的表示；估計所述第一和第二位置之間的接近程度，并使用所述估計作為新的說話者是否為客戶說話者的指示。
2.根據(jù)權(quán)利要求1的說話者識別方法，其中所述多個訓(xùn)練說話者包括多個不同的客戶說話者，并且其中所述方法還包括把所述多個客戶說話者每一個表示為所述本征空間中訓(xùn)練說話者位置，以及估計所述第二位置和所述訓(xùn)練說話者位置之間的接近程度，并至少部分地基于所述接近程度的估計，把所述新的說話者識別為所述多個客戶說話者選擇的一個。
3.根據(jù)權(quán)利要求1的說話者檢驗方法，其中所述多個訓(xùn)練說話者包括表示為本征空間中第三位置的至少一個冒名頂替說話者。
4.根據(jù)權(quán)利要求3的說話者檢驗方法，還包括附加估計所述第二和第三位置之間的接近程度，并使用所述附加估計作為對新的說話者是否為客戶說話者的進一步指示。
5.權(quán)利要求1的方法，其中估計接近程度的所述步驟通過確定所述第一和第二位置之間的距離進行。
6.權(quán)利要求1的方法，其中所述訓(xùn)練說話者表示為所述本征空間中的位置。
7.權(quán)利要求1的方法，其中所述訓(xùn)練說話者表示為所述本征空間中的點。
8.權(quán)利要求1的方法，其中所述訓(xùn)練說話者表示為所述本征空間中的分布。
9.權(quán)利要求1的方法，其中所述處理新的說話者輸入數(shù)據(jù)的所述步驟包括使用所述輸入數(shù)據(jù)產(chǎn)生一概率函數(shù)并且使該概率函數(shù)極大化以確定位于所述本征空間內(nèi)一極大似然向量。
10.權(quán)利要求1的方法，其中所述多個訓(xùn)練說話者包括多個客戶說話者和至少一個冒名頂替說話者。
11.權(quán)利要求1的方法，還包括周期地估計所述第一和第二位置之間的接近程度，并使用所述估計作為新的說話者是否為客戶說話者的指示，以確定所述新的說話者身份是否有變化。
全文摘要
對已知的客戶說話者(在說話者檢驗的情形下,還對冒名頂替說話者)構(gòu)造并訓(xùn)練語音模型。連接來自這些模型的參數(shù)以定義超向量,并對這些超向量作線性變換其結(jié)果為維數(shù)降低,產(chǎn)生稱為本征空間的低維空間。然后訓(xùn)練說話者被表示為本征空間中的點或分布。此后把來自測試說話者新的語音數(shù)據(jù)通過類似的線性變換放置在本征空間中,并且測試說話者對訓(xùn)練說話者在本征空間中的接近程度用來鑒別或識別測試說話者。
文檔編號G10L15/06GK1247363SQ99118389
公開日2000年3月15日申請日期1999年9月3日優(yōu)先權(quán)日1998年9月4日
發(fā)明者羅蘭德·庫恩, 帕特里克·貴恩, 吉恩－克勞德·瓊克瓦, 羅伯特·博曼申請人:松下電器產(chǎn)業(yè)株式會社

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅蘭德.庫恩;帕特里克.貴恩;吉恩-克勞德.瓊克瓦;羅伯特.博曼
技術(shù)所有人：松下電器產(chǎn)業(yè)株式會社
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

qq語音按鍵說話相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于本征話音的說話者檢驗和說話者識別的制作方法