用于說話者認證的模型自適應(yīng)系統(tǒng)和方法

文檔序號：2820774閱讀：177來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：：用于說話者認證的模型自適應(yīng)系統(tǒng)和方法對相關(guān)申請的交叉參考該申請優(yōu)先于臨時申請60/064,069，該臨時申請發(fā)布于1997年11月3日，名稱為用于說話者認證的模型自適應(yīng)系統(tǒng)和方法。
背景技術(shù)：
：1發(fā)明領(lǐng)域本發(fā)明涉及一種系統(tǒng)和方法用于調(diào)整說話者認證模型以便在認證過程中獲得增強的性能，本發(fā)明特別涉及基于子字的說話者認證系統(tǒng)，該系統(tǒng)能夠調(diào)整神經(jīng)樹網(wǎng)絡(luò)(NTN)，高斯混合模型(GMM)，動態(tài)時間規(guī)劃模板(DTW)，或上述的組合，而不需要重新訓(xùn)練模型所需的額外時間。本發(fā)明涉及數(shù)字語音處理和說話者認證領(lǐng)域。2相關(guān)技術(shù)的描述說話者認證是一種其中利用他或她的聲音樣本來確認某個人身份的語音技術(shù)。特別的，說話者認證系統(tǒng)試圖將正在進行身份認證的某個人的聲音與已知的聲音匹配。這比其它的安全測量，如個人身份號碼(PIN)和個人信息更優(yōu)越，因為一個人的聲音唯一依賴于他或她的身份。說話者認證給出一種用于安全增強的強有力方法，該方法可以用于包括計算機電話的很多不同的應(yīng)用領(lǐng)域中。在說話者識別中，兩個主要的領(lǐng)域是說話者辨別和認證。說話者辨別系統(tǒng)試圖利用他或她的聲音樣本在已知人群中確定說話者的身份。相比而言，說話者認證系統(tǒng)試圖利用他或她的聲音樣本來確定某人宣稱的身份(某人聲稱的身份)是否正確。說話者認證包括確定語音樣本是否與所宣稱的身份充分匹配。語音樣本可以是基于文本的或與文本無關(guān)。基于文本的說話者認證系統(tǒng)在特定的口令短語之后確認該說話者?？诹疃陶Z是由系統(tǒng)或用戶在注冊過程中確定的，相同的口令被用于后續(xù)的認證中。一般的，口令短語被限制為固定的詞匯，例如有限個數(shù)字。有限數(shù)量的口令短語使得冒名頂替者很可能發(fā)現(xiàn)某個人的口令，從而降低了系統(tǒng)的可靠性。文本無關(guān)說話者認證系統(tǒng)并不需要如文本相關(guān)說話者認證系統(tǒng)那樣，同一文本用于注冊和測試。因此，這里不存在口令的概念，不管用戶說什么，他或她都會被識別。語音辨別和說話者認證的任務(wù)可能涉及大量的詞匯，其中不同詞匯字的拼音值會基本上重疊。這樣，存儲和比較整個字模會變得過度冗余，因為各個單字的組成音被獨立處理而不考慮它們可識別的類似性。出于這些原因，傳統(tǒng)的詞匯語音識別和文本相關(guān)說話者認證系統(tǒng)基于拼音子字單元來構(gòu)造模型。執(zhí)行文本相關(guān)說話者認證的傳統(tǒng)方法包括統(tǒng)計建模，如隱馬爾可夫模型(HMM)或基于模板的建模，如用于語音建模的動態(tài)時間規(guī)劃(DTW)。例如，在A.E.Rosenberg,C.H.LeeadF.KSoong的文章”SubwordUnitTalkerVerificationUsingHiddenMarkovModels”,ProceedingsICASSP,pages269-272(1990)中描述的子字模型，和在A.E.Rosenberg,C.H.LeeadS.Gokeen的文章”ConnectedWordTalkefRecognitionUsingWholeWordHiddenMarkovModels”,ProceedingsICASSP,pages381-384(1991)中描述的整個字模型已經(jīng)被說話者認證和語音識別系統(tǒng)考慮。HMM技術(shù)具有下面的局限性通常需要大量的數(shù)據(jù)來充分估計模型參數(shù)。其它方法包括神經(jīng)樹網(wǎng)絡(luò)(NTN)的使用。NTN是一種分級分類器，它組合了判斷樹和神經(jīng)網(wǎng)絡(luò)的特性，如A.Sankar和R.JMammone,的文章”GrowingandPruningNeuralTreeNetworks”,IEEETransactionsonComputers,C-42:221-229,March1993中描述的那樣。對于說話者識別，NTN的訓(xùn)練數(shù)據(jù)包括期望說話者的數(shù)據(jù)和來自其它說話者的數(shù)據(jù)。NTN將特征空間劃分成一些區(qū)域，它們被賦予反映說話者產(chǎn)生落在該說話者區(qū)域中的特征矢量的可能性的概率。上面描述的建模技術(shù)依賴于正在被分段成子字的語音。子字級的建模擴展了系統(tǒng)的多功能性。此外，還假設(shè)不同說話者中說話風(fēng)格的改變可以通過子字級建模更好地被捕獲。傳統(tǒng)上，語音數(shù)據(jù)的分段和標(biāo)注是由受過訓(xùn)練的語言學(xué)者利用聽覺和視覺提示來手工進行的。然而，該方法存在幾個不利的地方，包括任務(wù)的時間消耗本質(zhì)和手工處理所需判斷的高度主觀的本質(zhì)。手工語音分段問題的一個解決方法是使用自動語音分段過程。傳統(tǒng)的自動語音分段處理使用了分級和非分級方法。分級語音分段涉及多級，精-粗分段，它們可以顯示為一個樹狀形式，稱為樹狀圖。最初的分段是情況有限的一個矢量等于一個段的精細級。此后，利用類似性測量值，一個段被選擇來與它的左或右鄰居合并。這種過程一直重復(fù)直到整個發(fā)音由一個單個的段來描述。非分級語音分段試圖通過利用基于知識工程的規(guī)則組或通過使失真或成績度量極端化來找到最佳的段邊界。用于分級和非分級語音分段的技術(shù)具有下面的局限性需要有關(guān)語音段數(shù)量和相應(yīng)段模塊的先驗知識。不需要有關(guān)簇數(shù)的先驗知識的技術(shù)被定義為“盲目”聚類。該方法在題為”BlindC1usteringofDataWithApplicationtoSpeechProcessingSystem”，發(fā)布于1997年4月1日的美國專利申請08/827,562以及相應(yīng)的題為”B1indSpeechSegmentation”，發(fā)布于1996年四月2日的美國臨時申請60/014,537中描述，這兩篇文檔在這里作為參考引用。在盲目聚類中，當(dāng)聚類開始時，簇的數(shù)目是未知的。在前面提到的申請中，數(shù)據(jù)樣本的最小簇數(shù)和最大簇數(shù)的范圍估計值被確定。一簇數(shù)據(jù)樣本包括具有同樣特性的對象。對于估計的簇數(shù)會定義一個最佳準(zhǔn)則。最佳準(zhǔn)則確定對于估計的簇數(shù)與給定的聚類數(shù)據(jù)樣本來說，怎樣才是最佳適合的。數(shù)據(jù)樣本中的最佳簇數(shù)是根據(jù)最佳準(zhǔn)則確定的?；诙沃g的最佳邊界位置和最佳段數(shù)，語音樣本被分段。盲目分段方法可以用于文本相關(guān)說話者認證系統(tǒng)中。盲目分段方法被用來將未知的口令短語分成子字單元。在說話者認證系統(tǒng)的注冊過程中，說話者口令的重復(fù)被盲目分段模型用來估計口令中子字的數(shù)量以及找到最佳子字邊界。對于說話者的每個子字段來說，子字分段器模型，如神經(jīng)樹網(wǎng)絡(luò)或高斯混合模型可以被用來模擬每個子字的數(shù)據(jù)。此外，存在很多多模型系統(tǒng)，它們將不同模型的結(jié)果組合以便進一步增強性能。上面描述的任何一種說話者認證系統(tǒng)中可以直接影響其成功性的一個關(guān)鍵的方面是針對會話中的變化和時效性的強度。會話中的變化指當(dāng)用戶在某一天和另一天使用認證系統(tǒng)時，說話者的聲音會經(jīng)歷微小的變化。在注冊后立即進行認證時，用戶可以預(yù)測說話者認證系統(tǒng)具有最佳性能。然而，經(jīng)過一段時間之后，當(dāng)使用該系統(tǒng)時，用戶可能會經(jīng)歷一些困難。對于實際的時間段，例如幾個月到幾年，時效的效果也會降低系統(tǒng)性能。因為當(dāng)在幾周的時間段上測量時說話者的譜變化可能很小，但是隨著時間的流逝，這種變化將加大，如S.Furui在文章”ComparisonofSpeakerrecognitionMethodsusingStatisticaiFeaturesandDynamicFeatures”,IEEETransactionsonAcoustics,SpeechandSignalProcessing,ASSP-29:342-350,342-350頁，1981年四月中描述的那樣。對于某些用戶，時效的影響將使得最初的聲音模型不可用。所需要的是用于說話者認證系統(tǒng)的自適應(yīng)系統(tǒng)和方法，特別是用于判別和多模型的自適應(yīng)系統(tǒng)和方法，它們需要最小的計算和存儲資源。所需要的是補償會話中的變化和時效效果的自適應(yīng)系統(tǒng)。簡要地描述，本發(fā)明涉及用于說話者認證系統(tǒng)的新模型自適應(yīng)方案。模型自適應(yīng)隨時間動態(tài)改變在注冊分量過程中學(xué)習(xí)到的模型以跟蹤用戶發(fā)音的時效。本發(fā)明的說話者自適應(yīng)系統(tǒng)具有只需要說話者注冊一次的優(yōu)點。一般的，如果說話者僅在一個會話中注冊，那么由于時效性以及會話中的變化性造成的聲音失真會使說話者認證系統(tǒng)的性能降低。因此，說話者認證系統(tǒng)的性能可能變得如此差使得說話者需要重新注冊，這樣要求用戶重復(fù)他或她的注冊過程。一般的，每隔幾個月，該過程必須被重復(fù)一次。采用本發(fā)明的模型自適應(yīng)系統(tǒng)和方法，就不再需要再次注冊了。自適應(yīng)過程對用戶來說是完全透明的。例如，用戶可以打電話到他或她的“專用分組交換機”以獲得對未受限制的外線的訪問。如通常的說話者認證系統(tǒng)那樣，用戶會被要求陳述其口令。在本發(fā)明的自適應(yīng)系統(tǒng)中，這種更新的發(fā)音可以被用來調(diào)整說話者認證模型。例如，每次某個用戶被成功確認之后，測試數(shù)據(jù)可以被看做注冊數(shù)據(jù)，利用分段之后的步驟，模型被訓(xùn)練并被建模。如果口令被系統(tǒng)接受了，調(diào)整后的系統(tǒng)幾乎立即使用更新的聲音特征來更新特定的說話者識別模型。模型自適應(yīng)有效地增加了注冊樣本的數(shù)量并提高了系統(tǒng)的準(zhǔn)確性。最好的是，本發(fā)明的自適應(yīng)方案可以適應(yīng)于幾種類型的包括神經(jīng)樹網(wǎng)絡(luò)(NTN)，高斯混合模型(GMMs)，動態(tài)時間規(guī)劃(DTW)或多個模型(即，NTNs,GMMs和DTW的組合)的說話者識別系統(tǒng)。此外，本發(fā)明可以適用于文本無關(guān)或文本相關(guān)系統(tǒng)。例如，本發(fā)明給出一種調(diào)整神經(jīng)網(wǎng)絡(luò)樹(NTN)模塊的自適應(yīng)系統(tǒng)和過程。NTN是一種分級分類器，它組合了判斷樹和前饋神經(jīng)網(wǎng)絡(luò)的特性。在最初的注冊過程中，神經(jīng)樹網(wǎng)絡(luò)學(xué)習(xí)區(qū)分屬于目標(biāo)說話者的特征空間區(qū)域和那些很可能屬于冒名頂替者的特征空間區(qū)域。特征空間的這些區(qū)域?qū)?yīng)于包含概率的神經(jīng)樹網(wǎng)絡(luò)中的“葉子”。概率表明產(chǎn)生落在特征空間那個區(qū)域中的數(shù)據(jù)的目標(biāo)說話者的可能性。每個區(qū)域中說話者觀測值是由落在該區(qū)域的“目標(biāo)矢量”的數(shù)量決定的。NTN每個葉子上的概率是按照說話者觀測值與注冊過程中在該葉子上遇到的總觀測值的比例來計算的。在本發(fā)明的自適應(yīng)方法中，目標(biāo)矢量數(shù)或說話者觀測值是在葉子上的新發(fā)音的基礎(chǔ)上更新的。自適應(yīng)發(fā)音的每個矢量被施加到NTN上，并且該矢量所在葉子的說話者觀測值計數(shù)被增加。通過保持每個葉子上的說話者觀測值和冒名頂替者觀測值的原始數(shù)目，概率可以以這種方式更新。然后，會采用新的葉子計數(shù)來計算概率。以這種方式，判別模型可以被更新以使得因時效性和會話中的變化造成的惡化的模型性能偏移。在本發(fā)明的另一個實施方案中，統(tǒng)計模型如高斯混合模型(GMM)可以基于新的聲音發(fā)音而調(diào)整。在GMM中，目標(biāo)說話者的特征空間區(qū)域是由一組多元高斯分布來表示的。在最初的注冊過程中，某些分量分布參數(shù)被確定，包括均值，協(xié)方差和對應(yīng)于觀測值的混合加權(quán)。基本上，在自適應(yīng)過程中，基于以更新的聲音發(fā)音獲得的觀測值的相加值，每個參數(shù)都被更新。例如，通過首先以原始觀測值數(shù)來縮放均值，該均值被更新。然后，基于更新的發(fā)音，該值被加入新的均值，并且這些均值的和被除以總的觀測值數(shù)。以類似的方式，協(xié)方差和混合加權(quán)也被更新。在本發(fā)明的另一個實施方案中，基于模板的方法，如動態(tài)時間規(guī)劃(DTW)可以利用新的聲音發(fā)音來更新。給定一個用N個發(fā)音的特征訓(xùn)練過的DTW模板，新發(fā)音的特征可以被平均到該模板中。例如，用于原始數(shù)據(jù)模板的數(shù)據(jù)可以通過乘以用于訓(xùn)練它的發(fā)音數(shù)來縮放，或者在這種情況下，以N來縮放。用于新發(fā)音的數(shù)據(jù)然后被加入該縮放后的數(shù)據(jù)中，所得到的和被除以該模型中使用的發(fā)音的新數(shù)目，N+l。這種技術(shù)非常類似于用來更新高斯混合模型均值分量的技術(shù)。盡管不需要，用于本發(fā)明的自適應(yīng)建模方法最好基于用于NTN和GMM模型的子字建模。這種自適應(yīng)方法發(fā)生于認證過程中。為了調(diào)整DTW模板，最好的是使用整個字建模。作為認證的一部分，首先根據(jù)任何傳統(tǒng)的特征提取方法來為自適應(yīng)發(fā)音提取特征值。然后，這些特征值與DTW模板匹配或“規(guī)劃”到該模板。這樣給出1)與DTW模板最佳匹配的一組修正后的特征值以及2)可以用做說話者真實性測量值的距離或“失真”。DTW規(guī)劃輸出的修正后的特征值可以補救在口令之前或之后的噪聲或語音的負面效果。在這一點上，規(guī)劃后的特征被用于調(diào)整DTW模板。然后，特征數(shù)據(jù)被分段成子字用于輸入到NTN和GMM模型。盡管幾種類型的分段方案可以結(jié)合本發(fā)明使用，包括分級和非分級語音分段方案，但是最好的是，譜特征被用于盲目分段算法，例如在發(fā)布于1997,4的題為“BlindC1usteringofDataWithApplicationtoSpeechProcessingSystems”美國專利申請?zhí)?8/827,562和其對應(yīng)的發(fā)布于1996,4,2的題為“BlindSpeechSegmentation”的美國臨時專利申請?zhí)?0/014,537中描述的那樣，這兩篇文檔在這里作為參考引用。在說話者認證系統(tǒng)的注冊過程中，說話者聲音中的重復(fù)語音被盲目分段模塊用來估計口令中的子字數(shù)，并找到最佳的子字邊界。最好以第一和第二建模模塊來對每個子字中的數(shù)據(jù)建模。例如，第一建模模塊可以是神經(jīng)樹網(wǎng)絡(luò)(NTN)第二建模模塊可以是高斯混合模型(GMM)。在該實施方案中，除了DTW模板之外，本發(fā)明的自適應(yīng)方法和系統(tǒng)被分別適用于這些子字模型以實現(xiàn)整個性能的增強。這些模型即NTN,GMM和DTW的輸出被根據(jù)該領(lǐng)域中已知的多個模型組合算法中的任何一個來組合，以作出關(guān)于該說話者的判斷。自適應(yīng)之后的性能可以與通過額外的新語音發(fā)音重新訓(xùn)練模型而得到的性能相比。然而，盡管重新訓(xùn)練是耗費時間的，在消耗最小的計算資源的情況下，自適應(yīng)過程可以在認證之后很方便地執(zhí)行。此外，這種自適應(yīng)對于說話者是透明的。自適應(yīng)的另一個好處是原始的訓(xùn)練數(shù)據(jù)并不需要被存儲，存儲數(shù)據(jù)對于某些用于大量人口的系統(tǒng)來說會是一個負擔(dān)。除了這里描述并宣稱的模型自適應(yīng)之外，本發(fā)明可以結(jié)合一些其它的自適應(yīng)技術(shù)來使用。這些技術(shù)包括聚變自適應(yīng)，信道自適應(yīng)和閾值自適應(yīng)。參考附圖，本發(fā)明將被完整地描述。圖2說明了說話者認證過程中動態(tài)時間規(guī)劃(DTW)模板自適應(yīng)的流程圖。圖3是說話者認證過程中神經(jīng)網(wǎng)絡(luò)樹自適應(yīng)系統(tǒng)的流程圖。圖4是說明根據(jù)本發(fā)明思想的神經(jīng)網(wǎng)絡(luò)樹(NTN)模塊的圖。圖5是說明在說話者認證過程中高斯混合模型(GMM)自適應(yīng)的流程圖。子字處理由分段器18進行，每個子字輸出被傳送給NTN22和GMM26模塊。下面參考圖1給出的說話者認證系統(tǒng)詳細描述本發(fā)明的自適應(yīng)建模系統(tǒng)和方法。作為認證的一部分，必須先為自適應(yīng)發(fā)音提取特征。這樣語音樣本作為語音信號被傳遞給預(yù)處理和特征提取模塊14用來將語音信號轉(zhuǎn)換成譜特征矢量。預(yù)處理包括語音信號的模數(shù)轉(zhuǎn)換。模數(shù)轉(zhuǎn)換可以以標(biāo)準(zhǔn)的電話板如Dialogic公司生產(chǎn)的電話板來進行。語音編碼方法如ITUG711標(biāo)準(zhǔn)μ和A規(guī)則可以被用來對語音樣本進行編碼。最好的是，使用8000Hz的采樣率。另外可選地，可以以數(shù)字形式獲得語音，如來自ISND傳輸?shù)恼Z音。在這種情況下，電話板被用來處理Telco信令協(xié)議。在優(yōu)選實施方案中，用于說話者認證系統(tǒng)的計算機處理單元是至少100MHZ的具有近似10MB相關(guān)RAM存儲器和存儲用的硬盤或固定驅(qū)動器的英特爾奔騰平臺通用計算機處理單元(CPU)。另外可選地，附加的實施方案可以是DialogicAntares板。預(yù)處理可以包括信號直流偏移的均值去除，規(guī)一化語音譜中的譜傾斜的預(yù)加重，以及語音信號中背景無聲段的去除。語音信號中的背景無聲段可以利用傳統(tǒng)的方法，如利用能量和/或過零點的語音和無聲段分離技術(shù)來去除。因此，預(yù)處理的語音被加上漢明窗并被分析；例如用連續(xù)幀之間具有10毫秒移位的30毫秒分析幀來分析。在預(yù)處理之后，在模塊14中對處理后的語音進行特征提取。譜特征是由在每幀處理后的語音信號中確定的語音特征矢量表示的。在特征矢量模塊14中，可以用傳統(tǒng)的方法如傅里葉變換分析，濾波器組分析和確定LP譜系數(shù)的線性預(yù)測(LP)分析來獲得譜特征矢量。在題為“SpeakerIdentificationandVerificationSystem”的發(fā)布于1996年5月28日的美國專利5,522,012中描述了一種特征提取方法，本發(fā)明作為參考在這里引用。用來獲得譜特征矢量的優(yōu)選方法是用來確定12階譜系數(shù)的12階LP分析。特征提取模塊的結(jié)果是產(chǎn)生表示發(fā)音模板的矢量。最好的是，該模板存儲在數(shù)據(jù)庫中。在模板存儲之后，就對語音進行動態(tài)時間規(guī)劃。其次，特征數(shù)據(jù)是利用動態(tài)時間規(guī)劃模板16來規(guī)劃的。這樣除去了口令之前或之后的額外噪聲或語音。規(guī)劃后的特征數(shù)據(jù)被用于后續(xù)的分段和模型評估。另外，在規(guī)劃過程中，會計算出一個分數(shù)并存儲起來。該分數(shù)給出發(fā)音和DTW模板之間的類似性測量值，該值可以被用作說話者認證分數(shù)。該分數(shù)，稱作“x”，表示0到無限之間的距離值。通過將其負值放到指數(shù)上，即exp(-x)該分數(shù)可以被映射到概率值。到此為止，該值可以與NTN和GMM的分數(shù)組合起來以給出趨向整個模板分數(shù)的第三分數(shù)分量。其次，最好利用盲目分段模塊18將語音分段成子字。產(chǎn)生子字的優(yōu)選技術(shù)是自動盲目語音分段或“盲目聚類”，如在發(fā)布于1997年四月1日的題為“B1indClusteringofDataWithApplicationtoSpeechProcessingSystem”的美國專利申請?zhí)?8/827,562和其對應(yīng)的發(fā)布于1996年四月2號的題為“B1indSpeechSegmentation”的美國臨時申請?zhí)?0/014,537中描述的那樣，這兩個專利在這里作為參考引用，并且轉(zhuǎn)讓本發(fā)明的受讓人。在說話者認證系統(tǒng)的注冊過程中，自動盲目語音分段確定口令中的子字數(shù)量以及最佳子字邊界的位置。另外，子字的持續(xù)時間被聲音短語的總持續(xù)時間歸一化并存儲在數(shù)據(jù)庫中用于在后面的認證中使用。另一種用于產(chǎn)生子字的方法可以結(jié)合本發(fā)明使用，第一種可選方法是傳統(tǒng)的方法，其中語音數(shù)據(jù)的分段和標(biāo)注是由受過訓(xùn)練的語言學(xué)者通過聽和看來手工進行的。第二種可選的產(chǎn)生子字的方法是自動分級語音分段，該方法涉及多級式的由精到粗的分段。這種分段可以顯示為樹狀，稱為樹狀圖。最初的分段是情況有限的一個矢量等于一個分段的精細級。此后，其中一個段被選擇利用類似性測量值來與其做左或右鄰居合并。這種過程一直重復(fù)直到整個發(fā)音用一個段來描述。第三種產(chǎn)生子字的方法是自動非分級語音分段。這種分段方法試圖找到最佳的段邊界，其方式是利用基于知識工程的規(guī)則組或使失真或分數(shù)量度極端化。在獲得子字之后，每個子字的數(shù)據(jù)被利用第一和第二建模模塊的一個或多個組合來進行最佳建模，如圖1所示。例如，第一建模模塊可以是神經(jīng)樹網(wǎng)絡(luò)(NTN)22，第二模擬模塊可以是高斯混合模塊(GMM)26。NTN22給出一個基于判斷的說話者分數(shù)，GMM26給出一個基于統(tǒng)計測量值的說話者分數(shù)。圖1給出用于NTN分類器22的N個模型和用于GMM分類器26的N個模型。模塊22和26都可以為子字段的每個譜矢量確定一個分數(shù)。模塊NTN22和GMM26的分數(shù)可以被組合來獲得塊30中子字的組合分數(shù)。在優(yōu)選實施方案中，動態(tài)時間規(guī)劃16，神經(jīng)樹網(wǎng)絡(luò)22和高斯混合模型26的結(jié)果被利用線性評估組合來組合，如下所述。然而，其它包括對數(shù)評估組合或“選舉”機制的組合數(shù)據(jù)的方法也可以結(jié)合本發(fā)明使用，其中來自DTW16,NTN22和GMM26的硬判斷在選舉處理中被考慮。由于這三個建模方法傾向于具有不相關(guān)的誤差，通過組合這些模型輸出可以提高性能。NTN模塊22被用來模擬用戶口令的子字段。NTN22是分級的分類器，它使用樹結(jié)構(gòu)來實現(xiàn)后續(xù)的線性判斷策略。具體地，用于NTN22的訓(xùn)練數(shù)據(jù)包括來自目標(biāo)說話者的數(shù)據(jù)，標(biāo)注為1，以及來自其它說話者的數(shù)據(jù)，標(biāo)注為0。來自其它說話者的數(shù)據(jù)最好存儲在可以是RAM,ROM,EPROM,EEPROM，硬盤，CDROM，文件服務(wù)器或其它存儲設(shè)備的數(shù)據(jù)庫中。NTN22學(xué)習(xí)區(qū)分屬于目標(biāo)說話者的特征空間區(qū)域和那些更可能屬于冒名頂替者的特征空間區(qū)域。這些特征空間區(qū)域?qū)?yīng)于NTN22中的包含概率的葉子。這些概率表示具有落在該特征空間區(qū)域中的所產(chǎn)生數(shù)據(jù)的目標(biāo)說話者的似然性，如K.R.Farrell,R.J.Mammone,和K.T.Assaleh在“SpeakerRecognitionusingNeuralNetworksandConventionalClassifiers”,IEEETrans,SpeechandAudioProcessing,2(1)，部分2(1994)中描述的那樣。涉及說話者識別的NTN網(wǎng)絡(luò)的功能也在發(fā)布于1993年11月29日的題為“RapidlyTrainableNeuralTreeNetwork”的美國專利申請?zhí)?8/159,397和題為“SpeakerVerficationSystem”的美國專利申請?zhí)?8/479,012和發(fā)布于1997年4月1日的題為“BlindClusteringofdataWithApplicationtoSpeechProcessingSystems”的美國專利申請?zhí)?8/827,562和對應(yīng)的發(fā)布于1996年4月2日的題為“BlindSpeechSegmentation”的美國臨時專利申請?zhí)?0/014,537中描述，這些專利在這里作為參考引用。NTN22模型的自適應(yīng)在下面詳細描述。如上面討論的，高斯混合模型GMM26也被用來模擬每個子字。在GMM26中，目標(biāo)說話者的特征空間區(qū)域由一組多變量的高斯分布來表示。在優(yōu)選實施方案中，子字段的均值矢量和協(xié)方差作為盲目分段模塊18的副產(chǎn)品而獲得，并作為GMM26的部分來存儲，如在發(fā)布于1997年4月1日的題為“BlindClusteringofdataWithApplicationtoSpeechProcessingSystems”的美國專利申請?zhí)?8/827,562和其對應(yīng)的發(fā)布于1996年4月2日的題為“BlindSpeechSegmentation”的美國臨時專利申請?zhí)?0/014,537中描述的那樣，這兩個專利在這里作為參考引用。GMM概率分布函數(shù)表示如下p(x/φ)=Σi=1P(wi)p(x/μ1,σ12).]]>每個C混合分量由混合加權(quán)P(ωi)和歸一化分布函數(shù)p(x/μi,σi2)的確定，其中μi是均值矢量，σi是協(xié)方差矩陣。在優(yōu)選實施方案中，歸一化分布被限制為具有矢量σi2定義的對角線協(xié)方差矩陣。PDF被用來產(chǎn)生子字GMM分數(shù)。計分算法被用于NTN和GMM模型中的每一個。子字模型的輸出分數(shù)(估計的后驗概率)在口令短語的所有子字上組合，以便產(chǎn)生該發(fā)音的組合分數(shù)。用于組合子字模型22,26的分數(shù)的計分算法可以基于下述方案(a)短語-平均在整個短語上，平均各矢量的輸出分數(shù)。(b)子字-平均在平均(平均后的)子字分數(shù)之前，在子字內(nèi)平均各矢量分數(shù)。(c)子字加權(quán)與(b)一樣做子字分數(shù)平均，但是(平均后的)子字分數(shù)在最終的平均過程中被加權(quán)。在計算口令短語的組合分數(shù)時，子字間的瞬時(或長期)概率也可以使用。優(yōu)選實施方案是相位平均計分。計分的結(jié)果給GMM26提供一個分數(shù)，并給NTN22提供一個分數(shù)，然后這些分數(shù)必須被組合。在優(yōu)選實施方案中，線性評估組合方法被用于組合來自DTW16，NTN22和GMM26的輸出分數(shù)。線性評估組合方法按照為每個模型輸出的加權(quán)和來計算最終的分數(shù)pLinoar(x)=Σi=1na1p1(x)]]>一旦上面等式中的變量已知，閾值被輸出并存儲在數(shù)據(jù)庫中。閾值輸出與測試分量中的“最終分數(shù)”比較來確定是否測試用戶的聲音很好地匹配模型使得可以說這兩個聲音來自同一個人。既然模型10已經(jīng)作了一般描述，現(xiàn)在對應(yīng)用于前面提到的DTW16,NTN22和GMM26模塊的自適應(yīng)方法作詳細描述。自適應(yīng)發(fā)生于認證過程中。首先，從自適應(yīng)發(fā)音中提取特征值。這些特征值被規(guī)劃到DTW模板16，并且在分段器18中分段成子字部分，這些子字部分可以被對應(yīng)的NTN22和GMM26模型在每個子字基礎(chǔ)上處理。DTW自適應(yīng)的優(yōu)選方法在圖2中給出?？傊?，DTW16規(guī)劃特征數(shù)據(jù)，以便于分段器18的后續(xù)使用?？梢酝ㄟ^將規(guī)劃后的特征數(shù)據(jù)平均使其DTW模板16調(diào)整為原始DTW模板16。所產(chǎn)生的模板在模型中被更新。參考圖2,DTW自適應(yīng)方法可以更好地解釋。第一個步驟100是查找用于計算當(dāng)前DTW模板的所存儲的發(fā)音數(shù)(稱做M)。流入的特征數(shù)據(jù)然后被規(guī)劃到DTW模板，如在步驟104中描述的那樣。將特征數(shù)據(jù)規(guī)劃到DTW模板的結(jié)果是新特征數(shù)據(jù)與DTW模板長度一樣。換句話說，流入數(shù)據(jù)與DTW模板具有相同數(shù)量的特征矢量。DTW模板的每個特征矢量被用于計算原始模板的發(fā)音數(shù)量縮放(意思是，乘以)，如在步驟108所示。然而參考步驟112，規(guī)劃后的特征數(shù)據(jù)被加入縮放后的DTW特征數(shù)據(jù)中。這是通過將每個規(guī)劃后的特征矢量的每個元素加入DTW模板中縮放后的特征矢量的相應(yīng)元素中而完成的。然后，如在項116中表示的，縮放和規(guī)劃后的特征數(shù)據(jù)之和通過除以新的發(fā)音數(shù)M+1而被歸一化。NTN自適應(yīng)的優(yōu)選方法在圖3中給出。通過遍歷樹，并找到矢量所在葉子的概率，NTN22確定給定矢量的說話者分數(shù)。NTN22每個葉子的概率按照說話者觀測值(即，目標(biāo)矢量)與訓(xùn)練中遇到的總觀測值(總矢量)的比例來計算。通過在每個葉子上保持說話者觀測值和冒名頂替者觀測值，如在步驟34闡明的，概率更新變得很簡捷。自適應(yīng)發(fā)音的每個矢量被施加給NTN22，如在塊38中闡明的。葉子中說話者觀測值的數(shù)目被計算，如在塊42中闡明的。說話者觀測值和總觀測值的新數(shù)目被存儲在存儲器中。這樣結(jié)束了NTN的認證過程。然而，如果測試的話，新的說話者觀測值數(shù)被除以總的觀測值數(shù)以獲得更新的概率，如在步驟46中闡明的。參考圖4可以更好地理解NTN自適應(yīng)方法。在圖中，原始的說話者目標(biāo)矢量被標(biāo)注為“1”。冒名頂替者矢量被標(biāo)注為“0”?；诟潞蟮穆曇舭l(fā)音的自適應(yīng)矢量是那些在虛線圓70,74中的矢量。對于圖4中最左邊的葉子71，原始的概率為0.6，其計算方式為將原始說話者目標(biāo)矢量數(shù)(即3)除以總矢量數(shù)(即5)。在施加了更新后的語音發(fā)音之后，通過將說話者目標(biāo)矢量(即4)除以總的矢量數(shù)(即6)調(diào)整后的概率被確定為0.67。通過對新觀測值施加更大的加權(quán)值，也可以獲得好處。由于NTN22在每個葉子還保留冒名頂替者計數(shù)，因此也可以用冒名頂替者的發(fā)音來調(diào)整。這將以說話者計數(shù)相加的同樣方式來完成。具體地說，冒名頂替者發(fā)音的特征矢量應(yīng)用于NTN22，葉子冒名頂替者計數(shù)被更新以反映出到達該葉子的冒名頂替者數(shù)據(jù)。NTN22在下面意義上是唯一的即它可以用冒名頂替者數(shù)據(jù)來調(diào)整(與DTW和GMM模型相比)。由于在自適應(yīng)過程中只有NTN22的葉子被修正，存在的假設(shè)是特征空間劃分不必改變。調(diào)整判斷邊界不是很容易，因為節(jié)點和葉子僅包含涉及加權(quán)矢量和觀測值計數(shù)的信息。在優(yōu)選實施方案中，GMM26模塊也被利用得自盲目分段的子字數(shù)據(jù)而分別調(diào)整。單個子字GMM模塊26的自適應(yīng)被描述，因為該處理過程對于每個子字都一樣。用于單個子字GMM的自適應(yīng)方法在圖5中給出。參考上面的第一等式，在處理器控制下，自適應(yīng)過程為GMMPDF產(chǎn)生一組更新的GMM參數(shù){P(ωi)′,μi′,si2；i=…C}，這些參數(shù)反映出自適應(yīng)短語的作用，如下面描述的。自適應(yīng)數(shù)據(jù)的聚類作為各個GMM自適應(yīng)的第一步執(zhí)行，如在步驟82給出的。如果自適應(yīng)特征由具有N個矢量的X定義，聚類將數(shù)據(jù)劃分成C個子組Xi,i=1…C，其中Xi包括Ni個矢量。輸入矢量之間的簡單歐幾里德距離和分量分布均值被用于劃分數(shù)據(jù)。認證模型保留用于訓(xùn)練GMM的發(fā)音數(shù)信息以及以前自適應(yīng)數(shù)的信息。在加入新統(tǒng)計值之前，這些值M的和被用來縮放混合加權(quán)值，均值和方差，如步驟86闡明的。該算法還假設(shè)以前的發(fā)音都包含N個訓(xùn)練矢量。這樣做是因為以前訓(xùn)練和自適應(yīng)發(fā)音的真實大小并不作為認證模型的一部分而保留。給定這些假設(shè)，調(diào)整后的分量分布參數(shù)(即，混合加權(quán)值，均值和協(xié)方差)可以在步驟88,90和92確定P(ωi)′=P(ωi)′MN+Ni(M+1)N------(3)]]>μ′i=μiMNP(ωi)+Σj=1Ni×iMNP(ωi)+Ni------(4)]]>σi2=σ2iM(N-1)P(ωi)+Σj=1Ni(x′j-μ′i)2M(N-1)P(ωi)+Ni-1------(5)]]>調(diào)整分布參數(shù)的該方法對所有的訓(xùn)練發(fā)音和自適應(yīng)發(fā)音同樣加權(quán)。這樣意味著每個新的自適應(yīng)短語對GMM的具有較小的影響。通過將M限制在一個最大值，簡單的遺忘因子可以引入到自適應(yīng)中。例子例子1這里的所有結(jié)果是通過對包含9個注冊說話者的認證數(shù)據(jù)進行實驗得到的，此外，有80個不同的說話者用做訓(xùn)練神經(jīng)樹網(wǎng)絡(luò)的開發(fā)說話者。數(shù)據(jù)庫包括兩個數(shù)據(jù)組，這兩個數(shù)據(jù)庫的收集時間相隔6個月。第一組包括每個人重復(fù)13次說出他們的全名和5次重復(fù)說出其它人的名字的語音。這樣每個說話者有58個記錄。第二組包括每個人再重復(fù)10次他們自己的名字的語音。我們稱說出自己名字的重復(fù)語音為真實說話者重復(fù)語音，說出其它人名字的重復(fù)語音為冒名頂替者重復(fù)語音。兩個數(shù)據(jù)集被稱做最近組和老化組。三種訓(xùn)練方案被分析。在每種情況中，所有的訓(xùn)練重復(fù)語音都取自最近的收集組。這些方案在下面簡要給出1用三個真實說話者重復(fù)語音來訓(xùn)練認證模型(TR3)。2用六個真實說話者重復(fù)語音來訓(xùn)練認證模型(TR6)。3用三個真實說話者重復(fù)語音來訓(xùn)練認證模型并對三個真實說話者重復(fù)語音進行調(diào)整(TR3AD3)。對于第二和第三訓(xùn)練方案，第一方案中的三次訓(xùn)練重復(fù)語音保持固定而第二組的三次重復(fù)語音被重采樣方案改變。重采樣技術(shù)基于M個數(shù)據(jù)一組來劃分數(shù)據(jù)，其中M=3。對于每次訓(xùn)練，三個新的重復(fù)語音被使用。這樣對于10個真實說話者的重復(fù)語音可以有三個獨立的訓(xùn)練序列。用于方案2和3的固定訓(xùn)練重復(fù)語音與方案1中一樣。第一方案給出系統(tǒng)的基本性能，第二方案表現(xiàn)出將說話者信息加入原始訓(xùn)練的好處，而第三方案表現(xiàn)出利用附加的說話者信息來調(diào)整模型的好處。最初對每個訓(xùn)練方案進行三個實驗。這包括分別測試GMM26模型和NTN22模型以及組合模型。對于該例不進行DTW分析。所有的測試重復(fù)語音都取自最近的語音收集組。對于基本的訓(xùn)練方案，對于每個說話者模型，10個真實說話者重復(fù)語音和45個冒名頂替者重復(fù)語音被測試。通過在所有說話者范圍內(nèi)收集性能，會計算出系統(tǒng)的相等誤差率(ERR)。對于方案2和3，對于每個實驗會進行三次重采樣實驗。對于每次實驗，適當(dāng)?shù)娜齻€真實說話者重復(fù)語音被排除在該實驗之外。這導(dǎo)致每個測試有7個真實說話者重復(fù)語音和45個冒名頂替者重復(fù)語音或者對于每個說話者來說有21個真實說話者重復(fù)語音和135個冒名頂替者重復(fù)語音。表1給出這些實驗的性能。當(dāng)觀察該表時，可以得到幾個觀測值。首先，當(dāng)模型在所有數(shù)據(jù)上被訓(xùn)練時，附加的語音數(shù)據(jù)可以提高性能。對附加訓(xùn)練數(shù)據(jù)的第二次調(diào)整在某種程度上也會提高性能。在匹配訓(xùn)練性能方面GMM自適應(yīng)比NTN自適應(yīng)表現(xiàn)的好。盡管NTN不象GMM那樣調(diào)整的好，當(dāng)對組合模型進行自適應(yīng)時，它仍然能幫助降低ERR。表1<tablesid="table1"num="001"><table>訓(xùn)練場景GMMNTN組合式TR35.3％6.0％4.0％TR61.9％1.8％0.63％TR3AD31.7％4.3％1.5％</table></tables>表1．比較數(shù)據(jù)幾種訓(xùn)練方案和認證模型類型的認證ERR性能。所有的實驗都以最近的數(shù)據(jù)集來計算。例子2對組合認證模型進行第二組實驗。對于該組實驗，真實說話者測試重復(fù)語音是從老化收集組得到的。所有其它的訓(xùn)練和測試條件都保持與以前的實驗一樣。這些結(jié)果在表2中給出。該表給出當(dāng)計算老化的真實說話者重復(fù)語音時所有訓(xùn)練方案的經(jīng)受的誤差。這是可以預(yù)料到的，因為認證模型是在短期內(nèi)收集的數(shù)據(jù)上訓(xùn)練的。即使當(dāng)模型在來自最近組的附加數(shù)據(jù)上訓(xùn)練時，系統(tǒng)性能仍然會存在提高。如以前的實驗?zāi)菢?，自適應(yīng)也能提高性能，但是不如完全訓(xùn)練那樣提高的多。表2表2．比較數(shù)據(jù)對于幾種方案和組合模型類型的認證EER性能。所有實驗用老化集數(shù)據(jù)來計算。上面給出當(dāng)對附加訓(xùn)練數(shù)據(jù)進行調(diào)整時，GMM誤差率從5.3％降低到1.7％，NTN性能從6.0％改善到4.3％。組合這兩個模型的分類器給出同樣的性能提高并且比任何一個分離的分類器表現(xiàn)要好。另外，當(dāng)在老化數(shù)據(jù)上測試組合分類器時，錯誤率從12.％降低到7.2％。利用自適應(yīng)的整個系統(tǒng)性能可以與以附加信息訓(xùn)練模型所得到的系統(tǒng)性能相比。參考文字相關(guān)的說話者認證系統(tǒng)，該模型自適應(yīng)方法和系統(tǒng)已經(jīng)被描述。然而，本發(fā)明也可以用于文字無關(guān)系統(tǒng)。因為不存在特征數(shù)據(jù)的時間性排序，最好只有單個的NTN或GMM被訓(xùn)練。在這種情況下，DTW模板被省略，因為它并不依賴于特征數(shù)據(jù)的時間性排序，上面描述的自適應(yīng)過程可以應(yīng)用于任何這種模型。盡管已經(jīng)參考多模型系統(tǒng)描述了自適應(yīng)方法和過程，明顯地，本發(fā)明可以用來分別增強基于模板的說話者認證模型(DTW)、基于神經(jīng)樹網(wǎng)絡(luò)模型的說話者認證系統(tǒng)或統(tǒng)計說話者認證模型(GMM)的性能。已經(jīng)表明，自適應(yīng)是用來提高說話者認證模型性能的有效方法。然而，同樣很重要的是討論確定什麼時候該采用自適應(yīng)的準(zhǔn)則。以不是來自模型被訓(xùn)練的說話者的發(fā)音來調(diào)整模型會具有負面的性能影響。因此，必須有一種策略用來選取哪些數(shù)據(jù)應(yīng)該用于自適應(yīng)，哪些數(shù)據(jù)應(yīng)該被拋棄。三種選取自適應(yīng)的準(zhǔn)則如下一個是將組合模型分數(shù)與閾值比較并確定如果通過了一些閾值準(zhǔn)則的話，確定其可以進行自適應(yīng)。另一種方法是，分別分析模塊分數(shù)，如果模型的大多數(shù)都推薦采用自適應(yīng)(通過計算閾值準(zhǔn)則)，那麼就用數(shù)據(jù)來調(diào)整所有的模型。最后，另一種情形可以是，已知數(shù)據(jù)屬于其模型將要被調(diào)整的說話者。在這種情況下，準(zhǔn)則檢查可以被省略，模型可以用這些數(shù)據(jù)來更新。除了調(diào)整模型的模型分量之外，也可以調(diào)整閾值分量。在本發(fā)明的優(yōu)選實施方案中，按照下述方式計算閾值。在模型訓(xùn)練過程中，會得出平均說話者分數(shù)和平均冒名頂替者分數(shù)的估計值。平均說話者分數(shù)是通過以原始訓(xùn)練發(fā)音計算訓(xùn)練模型并記錄分數(shù)而得到的。然后根據(jù)這些分數(shù)可以得到平均分數(shù)并且平均分數(shù)被縮放以計算數(shù)據(jù)中的偏差。這樣作是補償這樣的事實用于訓(xùn)練模型的數(shù)據(jù)總是比與模型訓(xùn)練無關(guān)的數(shù)據(jù)分數(shù)高。平均冒名頂替者分數(shù)是通過將冒名頂替者數(shù)據(jù)應(yīng)用于訓(xùn)練模型并計算結(jié)果分數(shù)的平均值而得到的。冒名頂替者對于說話者模型的嘗試可以通過訪問來自反說話者數(shù)據(jù)庫的特征數(shù)據(jù)而合成，其中的數(shù)據(jù)類似于用于訓(xùn)練模型的子字數(shù)據(jù)。這種數(shù)據(jù)可以拼成冒名頂替者的嘗試數(shù)據(jù)并應(yīng)用于說話者模型。閾值是通過在平均冒名頂替者分數(shù)和平均說話者分數(shù)之間選出一個值而計算出來的。自適應(yīng)可以按下述方式應(yīng)用于模型的閾值分量。首先，用于計算冒名頂替者平均值(稱作N)和說話者平均值(稱作M)的發(fā)音數(shù)必須是模型的一部分并在自適應(yīng)時可得到。當(dāng)用來自正確說話者的分數(shù)來調(diào)整閾值時，說話者均值被乘以M并且自適應(yīng)分數(shù)被加入該值。所產(chǎn)生的和被除以(M+1)，該值表示新的說話者均值。類似的，當(dāng)用冒名頂替者分數(shù)調(diào)整閾值時，冒名頂替者均值被乘以N并且自適應(yīng)分數(shù)被加入該值。所產(chǎn)生的和被除以(N+1)，該值表明新的冒名頂替者均值。將來的閾值位置將使用修正后的說話者和冒名頂替者均值。本發(fā)明的自適應(yīng)說話者識別系統(tǒng)可以應(yīng)用于電話服務(wù)如蜂窩電話服務(wù)和第三方付費電話服務(wù)的用戶確認。該系統(tǒng)還可以用于計算信息系統(tǒng)訪問的帳戶正確性。本發(fā)明的模型自適應(yīng)技術(shù)可以與融合自適應(yīng)和閾值自適應(yīng)組合，如在由Sharmaetal發(fā)布于1997年11月21日的題為“VoicePrintSystemandMethod”的美國專利申請序列號08/976,280中描述的那樣，該專利作為參考在這里引用。所有的自適應(yīng)技術(shù)會導(dǎo)致獲得錯誤的負值結(jié)果或正值結(jié)果的數(shù)目和概率，因此應(yīng)該小心使用。這些自適應(yīng)技術(shù)可以結(jié)合信道自適應(yīng)來使用，或者同時使用或者在不同授權(quán)時使用。前面對于本發(fā)明的描述是出于說明和描述的目的，這些說明和描述并不試圖將被發(fā)明限制于已經(jīng)描述的特定實施方案。因此，與上面思想一致的在相關(guān)
技術(shù)領(lǐng)域：
范圍內(nèi)的改變和修正都是本發(fā)明的一部分。附加的權(quán)利要求被構(gòu)造為在規(guī)則允許的程度上包括另外可選的實施方案。權(quán)利要求1．一種具有模型自適應(yīng)的自適應(yīng)說話者認證系統(tǒng)，該系統(tǒng)包括接收機，該接收機獲得聲音發(fā)音；連接到接收機的裝置，用來提取聲音發(fā)音的預(yù)定特征；與提取裝置操作性連接的裝置，用于將聲音發(fā)音的預(yù)定特征分段，其中的特征值被分成多個子字；連接到分段裝置的至少一個自適應(yīng)模型，其中的模型模擬所述多個子字并輸出一個或多個分數(shù)，并且這些模型基于所接收的聲音發(fā)音來動態(tài)更新以引入改變的用戶聲音的特性。2．權(quán)利要求1的自適應(yīng)說話者認證系統(tǒng)，還包括連接到接收機的模數(shù)轉(zhuǎn)換器用于以數(shù)字形式給出所獲得的聲音發(fā)音。3．權(quán)利要求1的自適應(yīng)說話者認證系統(tǒng)，還包括連接到提取裝置的裝置，用于將聲音發(fā)音規(guī)劃到動態(tài)規(guī)劃模板，該規(guī)劃裝置給出DTW分數(shù)，其中規(guī)劃裝置基于聲音發(fā)音被調(diào)整。4．權(quán)利要求1或3的自適應(yīng)說話者認證系統(tǒng)，其中自適應(yīng)分類器包括至少一個自適應(yīng)高斯混合模型，自適應(yīng)高斯混合模型產(chǎn)生GMM分數(shù)。5．權(quán)利要求1或3的自適應(yīng)說話者認證系統(tǒng)，其中自適應(yīng)模型包括至少一個自適應(yīng)神經(jīng)樹網(wǎng)絡(luò)模型，自適應(yīng)神經(jīng)樹網(wǎng)絡(luò)產(chǎn)生NTN分數(shù)。6．權(quán)利要求1或3的自適應(yīng)說話者認證系統(tǒng)，其中自適應(yīng)模型包括至少一個自適應(yīng)高斯混合模型，自適應(yīng)高斯混合模型產(chǎn)生GMM分數(shù)。至少一個自適應(yīng)神經(jīng)樹網(wǎng)絡(luò)模型，自適應(yīng)神經(jīng)樹網(wǎng)絡(luò)模型產(chǎn)生NTN分數(shù)。7．權(quán)利要求1的自適應(yīng)說話者認證系統(tǒng)，還包括連接到模型的裝置，用于組合模型分數(shù)，該組合裝置產(chǎn)生用于組合系統(tǒng)的最終分數(shù)。8．權(quán)利要求3的自適應(yīng)說話者認證系統(tǒng)，還包括連接到模型和規(guī)劃裝置的裝置，用于組合DTW分數(shù)和模型分數(shù)，該組合裝置產(chǎn)生用于組合系統(tǒng)的最終分數(shù)。9．權(quán)利要求1的自適應(yīng)說話者認證系統(tǒng)，其中分段裝置基于自動盲目語音分段來產(chǎn)生子字。10．權(quán)利要求7的自適應(yīng)說話者認證系統(tǒng)，其中組合裝置是一個線性評估組合。11．一種自適應(yīng)說話者認證方法，包括以下步驟獲得來自已知個人的注冊語音；接收來自用戶的測試語音；提取測試語音的預(yù)定特征；利用動態(tài)時間規(guī)劃模板來規(guī)劃預(yù)定的特征，其中動態(tài)規(guī)劃模板在測試語音的預(yù)定特征的基礎(chǔ)上被調(diào)整，導(dǎo)致產(chǎn)生規(guī)劃后的特征數(shù)據(jù)和來自調(diào)整后的動態(tài)規(guī)劃模板的動態(tài)時間規(guī)劃分數(shù)；產(chǎn)生來自規(guī)劃后特征數(shù)據(jù)的子字；利用多個自適應(yīng)模型為子字計分，其中自適應(yīng)模型在得自測試語音的子字基礎(chǔ)上被調(diào)整；將每個分類器分數(shù)和動態(tài)時間規(guī)劃分數(shù)的結(jié)果組合來產(chǎn)生最終的分數(shù)；將最終的分數(shù)與閾值比較以確定測試語音和注冊語音是否來自已知的個人。12．權(quán)利要求11的自適應(yīng)說話者認證方法，還包括以下步驟將獲得的測試語音數(shù)字化；預(yù)處理數(shù)字化的測試語音。13．權(quán)利要求11的自適應(yīng)說話者認證方法，其中計分的步驟還包括對至少一個自適應(yīng)神經(jīng)樹網(wǎng)絡(luò)模型計分的步驟。14．權(quán)利要求11的自適應(yīng)說話者認證方法，其中的計分步驟包括對至少一個自適應(yīng)高斯混合模型計分的步驟。15．權(quán)利要求11的自適應(yīng)說話者認證方法，其中計分步驟還包括以下步驟對至少一個自適應(yīng)高斯混合模型計分，自適應(yīng)高斯混合模型產(chǎn)生GMM分數(shù)；對至少一個自適應(yīng)神經(jīng)樹網(wǎng)絡(luò)模型計分，自適應(yīng)神經(jīng)樹網(wǎng)絡(luò)模型產(chǎn)生NTN分數(shù)。16．權(quán)利要求11的自適應(yīng)說話者認證方法，其中產(chǎn)生步驟包括利用自動盲目語音分段來產(chǎn)生子字。17．權(quán)利要求11的自適應(yīng)說話者認證方法，其中組合步驟包括利用線性評估組合來組合分數(shù)。18．一種自適應(yīng)說話者認證方法，其中至少一個神經(jīng)樹網(wǎng)絡(luò)模型被基于自適應(yīng)發(fā)音而調(diào)整，該方法包括下述步驟存儲說話者觀測值數(shù)目，冒名頂替者觀測值數(shù)目和來自以前注冊或認證的總的觀測值數(shù)目。獲得來自說話者的自適應(yīng)發(fā)音；從說話者自適應(yīng)發(fā)音中提取預(yù)定的特征；將預(yù)定的特征分段成多個子字；將該多個子字應(yīng)用于至少一個神經(jīng)樹網(wǎng)絡(luò)模型；計算神經(jīng)樹網(wǎng)絡(luò)的每個葉子中更新后的說話者觀測值的數(shù)目；在存儲器中存儲更新后的說話者觀測值數(shù)目；通過將更新后的說話者觀測值數(shù)除以每個葉子上總的觀測值數(shù)來更新概率，因此導(dǎo)致調(diào)整后的神經(jīng)樹網(wǎng)絡(luò)模型。19．權(quán)利要求18的自適應(yīng)說話者認證方法，還包括以下步驟將所獲得的自適應(yīng)說話者發(fā)音數(shù)字化；預(yù)處理數(shù)字化的說話者發(fā)音。20．權(quán)利要求18的自適應(yīng)說話者認證方法，其中分段步驟包括利用自動盲目語音分段來產(chǎn)生子字。21．權(quán)利要求18的自適應(yīng)說話者認證方法，還包括以下步驟利用動態(tài)時間規(guī)劃模板規(guī)劃來自說話者自適應(yīng)發(fā)音的預(yù)定特征，其中動態(tài)規(guī)劃模板在測試語音預(yù)定特征的基礎(chǔ)上被調(diào)整，導(dǎo)致規(guī)劃后特征數(shù)據(jù)的創(chuàng)建；其中分段步驟將規(guī)劃后的特征數(shù)據(jù)分段成多個子字。22．一種自適應(yīng)說話者認證方法，其中動態(tài)時間規(guī)劃模型可以利用調(diào)整后的聲音發(fā)音來調(diào)整，該方法包括以下步驟為特定的用戶創(chuàng)建原始的動態(tài)時間規(guī)劃模板，導(dǎo)致原始的動態(tài)時間規(guī)劃模板數(shù)據(jù)；將用于計算原始的動態(tài)時間規(guī)劃模板的發(fā)音數(shù)存儲起來；獲得自適應(yīng)聲音發(fā)音；將自適應(yīng)聲音發(fā)音規(guī)劃到原始動態(tài)時間規(guī)劃模板中，產(chǎn)生規(guī)劃后的自適應(yīng)數(shù)據(jù)；將原始的動態(tài)規(guī)劃模板數(shù)據(jù)縮放，其中通過將模板數(shù)據(jù)乘以用于訓(xùn)練原始模板的發(fā)音數(shù)來縮放模板數(shù)據(jù)；將規(guī)劃后的自適應(yīng)數(shù)據(jù)加入縮放后的原始模板數(shù)據(jù)以創(chuàng)建一個總和值；通過將總和值除以用于模型所采用的新的總發(fā)音數(shù)來規(guī)一化總和值以創(chuàng)建調(diào)整后的模型。23．權(quán)利要求22的自適應(yīng)說話者認證方法，還包括從自適應(yīng)聲音發(fā)音中提取預(yù)定特征值的步驟。24．權(quán)利要求22的自適應(yīng)說話者認證方法，還包括以下步驟數(shù)字化所得到的自適應(yīng)聲音發(fā)音；預(yù)處理數(shù)字化的聲音發(fā)音。25．一種自適應(yīng)說話者認證方法，其中至少一個高斯混合模型被基于自適應(yīng)發(fā)音而調(diào)整，該方法包括以下步驟存儲用于訓(xùn)練高斯混合模型的發(fā)音數(shù)和以前的自適應(yīng)發(fā)音數(shù)；獲得來自說話者的自適應(yīng)發(fā)音；從說話者自適應(yīng)發(fā)音中提取預(yù)定的特征；將預(yù)定的特征分段成多個子字；將子字應(yīng)用于每個高斯混合模型；確定一個縮放值，該縮放值涉及訓(xùn)練發(fā)音數(shù)與以前自適應(yīng)發(fā)音數(shù)的和；利用縮放值確定一個或多個調(diào)整后的分量分布參數(shù)，因此導(dǎo)致調(diào)整后的高斯混合模型，其中調(diào)整后的分量分布參數(shù)反映出說話者自適應(yīng)發(fā)音的作用。26．權(quán)利要求25的自適應(yīng)說話者認證方法，還包括以下步驟數(shù)字化所得到的自適應(yīng)聲音發(fā)音；預(yù)處理數(shù)字化的聲音發(fā)音。27．權(quán)利要求25的自適應(yīng)說話者認證方法，其中分段步驟包括利用自動盲目語音分段來產(chǎn)生子字。28．權(quán)利要求25的自適應(yīng)說話者認證方法，還包括以下步驟利用動態(tài)時間規(guī)劃模板規(guī)劃來自說話者自適應(yīng)發(fā)音的預(yù)定特征，其中的動態(tài)規(guī)劃模板在語音預(yù)定特征的基礎(chǔ)上被調(diào)整，導(dǎo)致規(guī)劃后特征數(shù)據(jù)的創(chuàng)建；其中分段步驟將規(guī)劃后的特征數(shù)據(jù)分段成大量的子字。29．權(quán)利要求25的說話者認證方法，其中調(diào)整后的分量分布參數(shù)包括一個混合加權(quán)值，調(diào)整后的均值和調(diào)整后的協(xié)方差。30．一種自適應(yīng)說話者認證方法，其中至少一個神經(jīng)樹網(wǎng)絡(luò)模型被基于自適應(yīng)發(fā)音來調(diào)整，該方法包括下述步驟存儲說話者觀測值數(shù)，冒名頂替者觀測值數(shù)和來自以前注冊或認證的總的觀測值數(shù)，獲得來自冒名頂替者的自適應(yīng)發(fā)音；從冒名頂替者自適應(yīng)發(fā)音中提取預(yù)定的特征；將預(yù)定的特征分段成多個子字；將該多個子字應(yīng)用于至少一個神經(jīng)樹網(wǎng)絡(luò)模型；計算神經(jīng)樹網(wǎng)絡(luò)的每個葉子中更新后的冒名頂替者觀測值的數(shù)目；在存儲器中存儲更新后的冒名頂替者觀測值數(shù)；通過將更新后的說話者觀測值數(shù)除以每個葉子上總的觀測值數(shù)來更新概率，因此導(dǎo)致調(diào)整后的神經(jīng)樹網(wǎng)絡(luò)模型。全文摘要本發(fā)明的模型自適應(yīng)系統(tǒng)是一種說話者認證系統(tǒng),該系統(tǒng)體現(xiàn)了能夠調(diào)整在注冊分量過程中學(xué)習(xí)到的模型以跟蹤用戶聲音時效的能力。該系統(tǒng)具有以下優(yōu)點:僅需要用于識別模型的單個注冊,其中的識別模型包括神經(jīng)樹網(wǎng)絡(luò)(22)、高斯混合模型(26),動態(tài)時間規(guī)劃(16)或多個模型(30)(即,神經(jīng)樹網(wǎng)絡(luò)(22)、高斯混合模型(26),動態(tài)時間規(guī)劃(16)的組合(30))。此外,本發(fā)明可以應(yīng)用于文本相關(guān)或文本無關(guān)系統(tǒng)。文檔編號G10L15/06GK1302427SQ98812890公開日2001年7月4日申請日期1998年11月3日優(yōu)先權(quán)日1997年11月3日發(fā)明者K·法雷爾,W·米斯特雷塔申請人:T－內(nèi)提克斯公司

完整全部詳細技術(shù)資料下載