一種聲紋特征模型更新方法及終端的制作方法

文檔序號(hào)：2833255閱讀：546來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種聲紋特征模型更新方法及終端的制作方法
技術(shù)領(lǐng)域：
本發(fā)明屬于語音識(shí)別技術(shù)領(lǐng)域，尤其涉及ー種聲紋特征模型更新方法及終端。
背景技術(shù)：
聲紋識(shí)別是ー種利用人的聲音實(shí)現(xiàn)的識(shí)別技術(shù)，由于人在講話時(shí)使用的發(fā)聲器官存在一定的差異性，任何兩個(gè)人聲音的聲紋圖譜都有差異，所以聲紋可以作為表征個(gè)體差異的生物特征，也即可以通過建立聲紋特征模型來表征不同的個(gè)體，進(jìn)而利用該聲紋特征模型進(jìn)行識(shí)別不同的個(gè)體等。目前聲紋特征模型的應(yīng)用存在一個(gè)兩難的選擇，主要體現(xiàn)在訓(xùn)練語料的長(zhǎng)度選取上，一般而言，聲紋訓(xùn)練語料越長(zhǎng)，建立的特征模型越精確，識(shí)別準(zhǔn)確率越高，但是實(shí)用性不強(qiáng)；聲紋訓(xùn)練語料較短，能保證較好的實(shí)用性，但識(shí)別準(zhǔn)確率不高。而在實(shí)際應(yīng)用中，比如手機(jī)屏幕聲紋解鎖的應(yīng)用等，既要求有較高的識(shí)別準(zhǔn)確率，以滿足安全性，又要求訓(xùn)練語料不能太長(zhǎng)，以保證較好的實(shí)用性?，F(xiàn)有的聲紋特征模型建立方法是通過在聲紋注冊(cè)階段，由用戶手動(dòng)多次訓(xùn)練，每次訓(xùn)練均為短語料，最終將他們組合成較長(zhǎng)的訓(xùn)練語料來生成特征模型。然而，由用戶手動(dòng)多次錄入一定時(shí)長(zhǎng)的訓(xùn)練語料，會(huì)給用戶較差的體驗(yàn)，不具備較高的實(shí)用性；組合起來的訓(xùn)練語料長(zhǎng)度仍然有限，不能生成較精確的特征模型，識(shí)別準(zhǔn)確率無法進(jìn)ー步提升；語速語調(diào)的變化、情緒波動(dòng)等也都會(huì)影響模型建立的精確度。所以，如何在保證較高的實(shí)用性前提下，提高聲紋特征模型精確度，進(jìn)而提高識(shí)別準(zhǔn)確率是急需解決的問題。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供ー種聲紋特征模型更新方法及終端，g在解決利用現(xiàn)有方法獲取聲紋特征模型時(shí)，無法保證在較高的實(shí)用性前提下，提高聲紋特征模型精確度，導(dǎo)致利用該聲紋特征模型無法提高識(shí)別準(zhǔn)確率的問題。第一方面，所述聲紋特征模型更新方法包括獲取包含至少ー個(gè)說話者的原始音頻流；根據(jù)預(yù)設(shè)的說話人分割與聚類算法，獲取所述原始音頻流中所述至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流；將所述至少ー個(gè)說話者中每ー個(gè)說話者的分別的音頻流分別與原始聲紋特征模型進(jìn)行匹配，獲取匹配成功的音頻流；將所述匹配成功的音頻流作為生成所述原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)所述原始聲紋特征模型進(jìn)行更新。在第一方面的第一種可能的實(shí)現(xiàn)方式中，在所述獲取包含至少ー個(gè)說話者的原始音頻流之前還包括根據(jù)預(yù)設(shè)的音頻流訓(xùn)練樣本建立原始聲紋特征模型。結(jié)合第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式，在第二種可能的實(shí)現(xiàn)方式中，所述根據(jù)預(yù)設(shè)的說話人分割與聚類算法，獲取所述原始音頻流中所述至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流具體包括根據(jù)預(yù)設(shè)的說話人分割算法，將所述原始音頻流分割成多個(gè)音頻片段，所述多個(gè)音頻片段中的每一音頻片段僅包含所述至少一個(gè)說話者中同一個(gè)說話者的音頻信息；根據(jù)預(yù)設(shè)的說話人聚類算法，將所述僅包含所述至少ー個(gè)說話者中同一個(gè)說話者的音頻片段進(jìn)行聚類，生成所述僅包含所述至少一個(gè)說話者中同一個(gè)、說話者音頻信息的音頻流。結(jié)合第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式或第一方面的第二種可能的實(shí)現(xiàn)方式，在第三種可能的實(shí)現(xiàn)方式中，所述將所述至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流分別與原始聲紋特征模型進(jìn)行匹配，獲取匹配成功的音頻流具體包括根據(jù)所述至少一個(gè)說話者中每ー個(gè)說話者的音頻流以及原始聲紋特征模型，獲取所述至少ー個(gè)說話者中每ー個(gè)說話者的音頻流與所述原始聲紋特征模型的匹配度；選取所述匹配度最高且大于預(yù)設(shè)匹配閾值的匹配度所對(duì)應(yīng)的音頻流來作為匹配成功的音頻流。結(jié)合第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式或第一方面的第二種可能的實(shí)現(xiàn)方式或第一方面的第三種可能的實(shí)現(xiàn)方式，在第四種可能的實(shí)現(xiàn)方式中，所述將所述匹配成功的音頻流作為生成所述原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)所述原始聲紋特征模型進(jìn)行更新具體包括根據(jù)所述匹配成功的音頻流以及預(yù)設(shè)的音頻流訓(xùn)練樣本，生成修正聲紋特征模型；其中，所述預(yù)設(shè)的音頻流訓(xùn)練樣本為生成所述原始聲紋特征模型的音頻流；更新所述原始聲紋特征模型為所述修正聲紋特征模型。第二方面，所述終端包括原始音頻流獲取単元、分割與聚類單元、匹配単元以及模型更新単元，其中所述原始音頻流獲取単元，用于獲取包含至少ー個(gè)說話者的原始音頻流并發(fā)送給所述分割與聚類單元；所述分割與聚類單元，用于接收所述原始音頻流獲取単元發(fā)送的原始音頻流并根據(jù)預(yù)設(shè)的說話人分割與聚類算法，獲取所述原始音頻流中所述至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流，并將所述至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流發(fā)送給所述匹配単元；所述匹配単元，用于接收所述分割與聚類單元發(fā)送的所述至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流，且將所述至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流分別與原始聲紋特征模型進(jìn)行匹配，獲取匹配成功的音頻流，并將所述匹配成功的音頻流發(fā)送給所述模型更新単元；以及所述模型更新単元，用于接收所述匹配單元發(fā)送的所述匹配成功的音頻流，并將所述匹配成功的音頻流作為生成所述原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)所述原始聲紋特征模型進(jìn)行更新。在第二方面的第一種可能的實(shí)現(xiàn)方式中，所述終端還包括樣本獲取單元以及原始模型建立単元所述樣本獲取單元，用于獲取預(yù)設(shè)的音頻流訓(xùn)練樣本并發(fā)送給所述原始模型建立単元；以及所述原始模型建立単元，用于接收所述樣本獲取單元發(fā)送的所述預(yù)設(shè)的音頻流訓(xùn)練樣本并根據(jù)所述預(yù)設(shè)的音頻流訓(xùn)練樣本建立原始聲紋特征模型。結(jié)合第二方面或第二方面的第一種可能的實(shí)現(xiàn)方式，在第二種可能的實(shí)現(xiàn)方式中，所述分割與聚類單元具體包括分割單元以及聚類單元所述分割単元，用于根據(jù)預(yù)設(shè)的說話人分割算法，將所述原始音頻流分割成多個(gè)音頻片段，所述多個(gè)音頻片段中的每一音頻片段僅包含所述至少一個(gè)說話者中同一個(gè)說話者的音頻信息，并將所述僅包含所述至少一個(gè)說話者中同一個(gè)說話者的音頻片段發(fā)送給所述聚類単元；以及所述聚類単元，用于接收所述分割單元發(fā)送的所述僅包含所述至少一個(gè)說話者中同一個(gè)說話者的音頻片段，井根據(jù)預(yù)設(shè)的說話人聚類算法，將所述僅包含所述至少一個(gè)說話者中同一個(gè)說話者的音頻片段進(jìn)行聚類，生成所述僅包含所述至少一個(gè)說話者中同一個(gè)說話者音頻信息的音頻流。結(jié)合第二方面或第二方面的第一種可能的實(shí)現(xiàn)方式或第二方面的第二種可能的實(shí)現(xiàn)方式，在第三種可能的實(shí)現(xiàn)方式中，所述匹配単元具體包括匹配度獲取單元以及匹配音頻流獲取単元所述匹配度獲取單元，用于根據(jù)所述至少一個(gè)說話者中每ー個(gè)說話者的音頻流以及原始聲紋特征模型，獲取所述至少一個(gè)說話者中每ー個(gè)說話者的音頻流與所述原始聲紋特征模型的匹配度并將所述匹配度發(fā)送至所述匹配音頻流獲取単元；以及所述匹配音頻流獲取単元，用于接收所述匹配度獲取單元發(fā)送的所述至少一個(gè)說話者中每ー個(gè)說話者的音頻流與所述原始聲紋特征模型的匹配度，選取所述匹配度最高且大于預(yù)設(shè)匹配閾值的匹配度所對(duì)應(yīng)的音頻流來作為匹配成功的音頻流。結(jié)合第二方面或第二方面的第一種可能的實(shí)現(xiàn)方式或第二方面的第二種可能的實(shí)現(xiàn)方式或第二方面的第三種可能的實(shí)現(xiàn)方式，在第四種可能的實(shí)現(xiàn)方式中，所述模型更新単元具體包括修正模型獲取單元以及模型更新子単元所述修正模型獲取單元，用于根據(jù)所述匹配成功的音頻流以及所述預(yù)設(shè)的音頻流訓(xùn)練樣本，生成并發(fā)送修正聲紋特征模型至所述模型更新子単元；以及所述模型更新子単元，用于接收所述修正模型獲取單元發(fā)送的所述修正聲紋特征模型，更新所述原始聲紋特征模型為所述修正聲紋特征模型。本發(fā)明實(shí)施例通過獲取包含至少ー個(gè)說話者的原始音頻流，根據(jù)預(yù)設(shè)的說話人分割與聚類算法，獲取該原始音頻流中該至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流，將該至少ー個(gè)說話者中每ー個(gè)說話者的音頻流分別與原始聲紋特征模型進(jìn)行匹配，獲取匹配成功的音頻流，將該匹配成功的音頻流作為生成該原始聲紋特征模型的追加音頻流訓(xùn)練樣本，以更新該原始聲紋特征模型，解決了利用現(xiàn)有方法獲取聲紋特征模型時(shí)，無法保證在較高的實(shí)用性前提下，提高聲紋特征模型精確度，導(dǎo)致利用該聲紋特征模型無法提高識(shí)別準(zhǔn)確率的問題，提高了聲紋特征模型精確度及識(shí)別準(zhǔn)確率等。

圖I是本發(fā)明第一實(shí)施例提供的聲紋特征模型更新方法的實(shí)現(xiàn)流程圖；圖2是本發(fā)明第二實(shí)施例提供的聲紋特征模型更新方法的實(shí)現(xiàn)流程圖；圖3是本發(fā)明實(shí)施例提供的原始音頻流的分割與聚類示意圖；圖4是本發(fā)明第三實(shí)施例提供的終端的結(jié)構(gòu)圖；圖5是本發(fā)明第四實(shí)施例提供的終端的結(jié)構(gòu)圖；圖6是本發(fā)明第五實(shí)施例提供的終端的結(jié)構(gòu)圖；圖7是本發(fā)明第六實(shí)施例提供的終端的結(jié)構(gòu)圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合附圖及實(shí)施例，對(duì)本發(fā)明進(jìn)行進(jìn)ー步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。本發(fā)明實(shí)施例通過獲取至少ー個(gè)說話者時(shí)的原始音頻流，根據(jù)預(yù)設(shè)的說話人分割與聚類算法，獲取該原始音頻流中該至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流，進(jìn)而獲取與原始聲紋特征模型相匹配的音頻流，并將該匹配的音頻流作為生成該原始聲紋特征模型的追加音頻流訓(xùn)練樣本，以更新該原始聲紋特征模型，使得聲紋特征模型精確度得到提高，用戶體驗(yàn)效果得到提升等。以下結(jié)合具體實(shí)施例對(duì)本發(fā)明的具體實(shí)現(xiàn)進(jìn)行詳細(xì)描述實(shí)施例一:
圖I示出了本發(fā)明第一實(shí)施例提供的聲紋特征模型更新方法的實(shí)現(xiàn)流程，詳述如下在步驟SlOl中，獲取包含至少ー個(gè)說話者的原始音頻流。其中，該原始音頻流可以為用戶通過移動(dòng)終端進(jìn)行打電話、語音聊天等產(chǎn)生的音頻流，也可以為通過錄音等方式獲取的音頻流等。具體地，可以為某一移動(dòng)終端用戶在電話接通狀態(tài)時(shí)，提示用戶是否同意使用聲紋學(xué)習(xí)功能，用戶同意后，則錄下說話過程中產(chǎn)生的音頻流；或者終端中設(shè)置有是否自動(dòng)在通話過程中啟用聲紋學(xué)習(xí)功能的開關(guān)，用戶根據(jù)需要自行設(shè)置；或者終端設(shè)置有聲紋學(xué)習(xí)功能，用戶可以自行錄制音頻流。需要說明的是，由于一般電話通話或者聊天過程中，會(huì)有多人輪流參與會(huì)話，此時(shí)獲取到的原始音頻流中將會(huì)包括多人說話的音頻數(shù)據(jù)。在步驟S102中，根據(jù)預(yù)設(shè)的說話人分割與聚類算法，獲取該原始音頻流中該至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流。
具體地，由于該原始音頻流中包含有至少ー個(gè)說話者的音頻流，則需要根據(jù)預(yù)設(shè)的說話人分割算法，將該原始音頻流分割成多個(gè)音頻片段，該多個(gè)音頻片段中的每一音頻片段僅包含該至少一個(gè)說話者中同一個(gè)說話者的音頻信息，再接著根據(jù)預(yù)設(shè)的說話人聚類算法，將僅包含該至少一個(gè)說話者中同一個(gè)說話者的音頻片段進(jìn)行聚類，最終生成僅包含該至少一個(gè)說話者中同一個(gè)說話者音頻信息的音頻流。在步驟S103中，將該至少ー個(gè)說話者中每ー個(gè)說話者的分別的音頻流分別與原始聲紋特征模型進(jìn)行匹配，獲取匹配成功的音頻流。其中，該原始聲紋模型為根據(jù)預(yù)設(shè)的音頻流訓(xùn)練樣本，預(yù)先建立的聲紋特征模型。該原始聲紋特征模型為針對(duì)某一人或者多人完成的聲紋注冊(cè)過程后形成的特征模型，該注冊(cè)過程對(duì)訓(xùn)練語料或稱音頻流訓(xùn)練樣本的長(zhǎng)短沒有要求。此時(shí)，可以根據(jù)該至少一個(gè)說話者中每ー個(gè)說話者的音頻流與該原始聲紋特征模型的匹配度，來選取匹配成功的音頻流。在步驟S104中，將該匹配成功的音頻流作為生成該原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)該原始聲紋特征模型進(jìn)行更新。具體地，在獲取該匹配成功的音頻流后，根據(jù)該匹配成功的音頻流以及預(yù)設(shè)的音頻流訓(xùn)練樣本，其中，該預(yù)設(shè)的音頻流訓(xùn)練樣本也即為生成上述原始聲紋特征模型所使用的樣本，接著調(diào)用聲紋注冊(cè)算法接ロ，生成修正聲紋特征模型，該修正聲紋特征模型則為更為精確的聲紋特征模型，達(dá)到了模型自適應(yīng)與智能化的目的?？蛇x的，對(duì)于至少ー個(gè)說話者中每ー個(gè)說話者的音頻流都無法與原始聲紋特征模型進(jìn)行匹配的情況，可以根據(jù)用戶的預(yù)先設(shè)置新建聲紋特征模型并進(jìn)行記錄。例如，對(duì)于首次使用的終端，其原始聲紋特征模型為空值，不可能有音頻流可以進(jìn)行匹配，此時(shí)可以根據(jù)用戶的設(shè)置，識(shí)別其中某一個(gè)說話者的音頻流，調(diào)用聲紋注冊(cè)算法接ロ新建聲紋特征模型，并將其更新為原始聲紋特征模型。在本發(fā)明是實(shí)施例中，通過獲取至少ー個(gè)說話者時(shí)的原始音頻流，根據(jù)預(yù)設(shè)的說話人分割與聚類算法，獲取該原始音頻流中該至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流，進(jìn)而獲取與原始聲紋特征模型相匹配的音頻流，并將該匹配的音頻流作為生成該原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)該原始聲紋特征模型進(jìn)行更新，達(dá)到了可以不斷地修正、更新聲紋特征模型，不斷提高聲紋特征模型的精確度，用戶體驗(yàn)效果得到提升等的目的。實(shí)施例ニ :圖2示出了本發(fā)明第二實(shí)施例提供的聲紋特征模型更新方法的實(shí)現(xiàn)流程，詳述如下在步驟S201中，根據(jù)預(yù)設(shè)的音頻流訓(xùn)練樣本建立原始聲紋特征模型。其中，該原始聲紋特征模型為通過調(diào)用聲紋注冊(cè)算法接ロ，根據(jù)預(yù)設(shè)的音頻流訓(xùn)練樣本建立的聲紋特征模型，該原始聲紋特征模型為針對(duì)某一人或者多人完成的聲紋注冊(cè)過程后形成的特征模型，該注冊(cè)過程對(duì)訓(xùn)練語料或稱音頻流訓(xùn)練樣本的長(zhǎng)短沒有要求。且因?yàn)楸景l(fā)明實(shí)施例提供的方法可以實(shí)現(xiàn)對(duì)修正后的模型繼續(xù)動(dòng)態(tài)修正等，該原始聲紋特征模型可以為利用現(xiàn)有方法獲取的模型，也可以為利用本發(fā)明實(shí)施例的提供的方法進(jìn)行修正后的ホ吳型。·在步驟S202中，獲取包含至少ー個(gè)說話者的原始音頻流。在具體實(shí)施過程中，該原始音頻流可以為用戶通過移動(dòng)終端進(jìn)行打電話、語音聊天等產(chǎn)生的音頻流，也可以為通過錄音等方式獲取的音頻流等。具體地，可以為某ー移動(dòng)終端用戶在電話接通狀態(tài)時(shí)，提示用戶是否同意使用聲紋學(xué)習(xí)功能，用戶同意后，則錄下說話過程中產(chǎn)生的音頻流；或者終端中設(shè)置有是否自動(dòng)在通話過程中啟用聲紋學(xué)習(xí)功能的開關(guān)，用戶根據(jù)需要自行設(shè)置；或者終端設(shè)置有聲紋學(xué)習(xí)功能，用戶可以自行錄制音頻流。需要說明的是，由于一般電話通話或者聊天過程中，會(huì)有多人輪流參與會(huì)話，此時(shí)獲取到的原始音頻流中將會(huì)包括多人說話的音頻數(shù)據(jù)。進(jìn)ー步地，由于用戶在說話過程或者多人會(huì)話等過程中，一般會(huì)出現(xiàn)變化較大的語速、語調(diào)、情緒波動(dòng)等，則通過不斷收集通話過程中的語料能夠盡量消除用戶的各種語調(diào)、語速、情緒等因素對(duì)于聲紋特征模型精確度的偏移，將會(huì)大大減少語調(diào)、語速、情緒等因素對(duì)聲紋特征模型精確度的影響，也能夠降低對(duì)聲紋識(shí)別準(zhǔn)確度的影響。在步驟S203中，根據(jù)預(yù)設(shè)的說話人分割算法，將該原始音頻流分割成多個(gè)音頻片段，該多個(gè)音頻片段中的每一音頻片段僅包含該至少一個(gè)說話者中同一個(gè)說話者的音頻信
o在步驟S204中，根據(jù)預(yù)設(shè)的說話人聚類算法，將僅包含該至少一個(gè)說話者中同一個(gè)說話者的音頻片段進(jìn)行聚類，生成該僅包含該至少一個(gè)說話者中同一個(gè)說話者音頻信息的音頻流。具體地，以多人會(huì)話為例，假設(shè)參與會(huì)話的人分別為A用戶、B用戶、C用戶，在用戶同意錄音后，可以通過開啟錄音模塊，通話結(jié)束后或者錄音時(shí)長(zhǎng)到達(dá)后，錄下通話過程中的原始音頻流。則基于預(yù)設(shè)的說話人分割算法，能夠?qū)⒃撛家纛l流分割成多個(gè)音頻片段，該每一音頻片段僅包含一個(gè)說話人的音頻信息，如圖3所示，將原始音頻流分割后，分別獲取的音頻片段分別為音頻片段A、音頻片段B、音頻片段A、音頻片段C、音頻片段A、音頻片段C，且音頻片段A、音頻片段B、音頻片段C分別為按照說話時(shí)間順序獲取的用戶A、B、C說話的不同片段，此后，利用預(yù)設(shè)的說話人聚類算法，將相同說話人的音頻片段進(jìn)行聚類，生成音頻流A、音頻流B、音頻流C文件，比如音頻流A包含了用戶A所有的音頻片段等，從而能夠區(qū)分不同人的音頻流，提取出屬于同一人的有效音頻流。其中，該說話人分割算法及聚類算法可以分別為現(xiàn)有的任意一種說話人分割算法及聚類算法，在此不做限定。
在步驟S205中，將該至少ー個(gè)說話者中每ー個(gè)說話者的分別的音頻流分別與原始聲紋特征模型進(jìn)行匹配，獲取匹配成功的音頻流。該步驟S205具體包括根據(jù)該至少ー個(gè)說話者中每ー個(gè)說話者的音頻流以及原始聲紋特征模型，獲取該至少ー個(gè)說話者中每ー個(gè)說話者的音頻流與該原始聲紋特征模型的匹配度；選取該匹配度最高且大于預(yù)設(shè)匹配閾值的匹配度所對(duì)應(yīng)的音頻流來作為匹配成功的音頻流。具體地，調(diào)用聲紋確認(rèn)算法接ロ，分別獲取該音頻流A、音頻流B、音頻流C與該原始聲紋特征模型的匹配度A、匹配度B、匹配度C，所述匹配度的計(jì)算方式可以為將該音頻流A、音頻流B、音頻流C分別作為原始聲紋特征模型的輸入值，則獲取音頻流A、音頻流B、音頻流C分別與原始聲紋特征模型對(duì)應(yīng)的匹配度A、匹配度B、匹配度C，或稱為分別對(duì)應(yīng)的概率A、概率B、概率C，比如該匹配度A則表明了該音頻流A與該原始特征模型的相關(guān)度大小。假設(shè)該原始聲紋特征模型是基于用戶A的音頻流訓(xùn)練樣本建立的，則通常情況下匹配度A大于匹配閾值，且匹配度B與匹配度C通常情況下應(yīng)當(dāng)小于匹配閾值，該預(yù)設(shè)的閾值可以為根據(jù)實(shí)際測(cè)試結(jié)果所得，可以預(yù)先設(shè)置也可以由用戶自定義。則此時(shí)獲取大于預(yù)設(shè)閾值的匹配度所對(duì)應(yīng)的音頻流，也即音頻流A為匹配成功的音頻流。當(dāng)特殊情況下，如A和B聲音很像的情況下，可能大于匹配閾值的音頻流不止ー個(gè)，則可以選取匹配值最高的音頻流作為匹配成功的音頻流。另外，當(dāng)該原始聲紋特征模型為針對(duì)多人完成的聲紋注冊(cè)過程后形成的特征模型時(shí)，比如針對(duì)用戶B及C的音頻流訓(xùn)練樣本建立的，則匹配后獲取的音頻流將很有可能同時(shí)包括音頻流B及音頻流C兩種，從而實(shí)現(xiàn)了多人模式的聲紋特征模型的匹配。這種情況下，針對(duì)所述多人中的每一人，分別執(zhí)行上述步驟。在步驟S206中，將該匹配成功的音頻流作為生成該原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)該原始聲紋特征模型進(jìn)行更新。該步驟S206具體包括根據(jù)該匹配成功的音頻流以及預(yù)設(shè)的音頻流訓(xùn)練樣本，生成修正聲紋特征模型；所述預(yù)設(shè)的音頻流訓(xùn)練樣本為生成所述原始聲紋特征模型的音頻流；更新該原始聲紋特征模型為該修正聲紋特征模型。具體地，將匹配成功的音頻流作為追加音頻流訓(xùn)練樣本，也即根據(jù)該匹配成功的音頻流以及所述預(yù)設(shè)的音頻流訓(xùn)練樣本，調(diào)用聲紋注冊(cè)算法接ロ，生成修正聲紋特征模型，該修正聲紋特征模型則為更為精確的聲紋特征模型，達(dá)到了模型自適應(yīng)與智能化的目的。進(jìn)ー步地，還可以將所述更新后的聲紋特征模型作為原始聲紋模型，重復(fù)上述步驟，不斷地修正、更新聲紋特征模型，不斷提高聲紋特征模型的精確度。在本發(fā)明實(shí)施例中，通過自動(dòng)地將語音通話的原始音頻流作為聲紋訓(xùn)練語料，在不影響用戶體驗(yàn)或者減少用戶操作的情況下，利用說話人分割及聚類算法處理收集到的原始音頻流，以保證聲紋訓(xùn)練語料的純凈，并追加匹配的音頻流來加長(zhǎng)訓(xùn)練語料，以動(dòng)態(tài)修正原始的聲紋特征模型，實(shí)現(xiàn)了對(duì)該聲紋特征模型的動(dòng)態(tài)修正、更新，提高了聲紋特征模型的精確度，從而在利用該聲紋特征模型進(jìn)行語音識(shí)別等過程中，能夠進(jìn)ー步地提高識(shí)別率，也增強(qiáng)了用戶使用體驗(yàn)。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成，所述的程序可以存儲(chǔ)于ー計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中，所述的存儲(chǔ)介質(zhì)，如R0M/RAM、磁盤、光盤等。實(shí)施例三:圖4示出了本發(fā)明第三實(shí)施例提供的終端的結(jié)構(gòu)，本發(fā)明實(shí)施例三提供的終端可以用于實(shí)施本發(fā)明實(shí)施例一至ニ實(shí)現(xiàn)的方法，為了便于說明，僅示出了與本發(fā)明實(shí)施例相關(guān)的部分，具體技術(shù)細(xì)節(jié)未掲示的，請(qǐng)參照本發(fā)明實(shí)施例一與實(shí)施例ニ。該終端可以為包括手機(jī)、平板電腦、PDA (Personal Digital Assistant,個(gè)人數(shù)字助理)、P0S (Point of Sales，銷售終端)、車載電腦等終端設(shè)備，以終端為手機(jī)為例，圖4示出的是與本發(fā)明實(shí)施例提供的終端相關(guān)的手機(jī)400的部分結(jié)構(gòu)的框圖。參考圖4，手機(jī)400包括RF (Radio Frequency,射頻)電路410、存儲(chǔ)器420、輸入單元430、顯示單元440、傳感器450、音頻電路460、WiFi (wireless fidelity，無線保真)模塊470、處理器480、以及電源490等部件。本領(lǐng)域技術(shù)人員可以理解，圖4中示出的手機(jī)結(jié)構(gòu)并不構(gòu)成對(duì)手機(jī)的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件布置。下面結(jié)合圖4對(duì)手機(jī)400的各個(gè)構(gòu)成部件進(jìn)行具體的介紹RF電路410可用于收發(fā)信息或通話過程中，信號(hào)的接收和發(fā)送，特別地，將基站的下行信息接收后，給處理器480處理；另外，將設(shè)計(jì)上行的數(shù)據(jù)發(fā)送給基站。通常，RF電路包括但不限于天線、至少ー個(gè)放大器、收發(fā)信機(jī)、稱合器、LNA (Low Noise Amplifier,低噪聲放大器)、雙エ器等。此外，RF電路410還可以通過無線通信與網(wǎng)絡(luò)和其他設(shè)備通信。所述無線通信可以使用任一通信標(biāo)準(zhǔn)或協(xié)議，包括但不限于GSM(Global System of Mobilecommunication,全球移動(dòng)通訊系統(tǒng))、GPRS (General Packet Radio Service,通用分組無線服務(wù))、CDMA (Code Division Multiple Access,碼分多址)、WCDMA (Wideband CodeDivision Multiple Access,寬帶碼分多址)、LTE (Long Term Evolution,長(zhǎng)期演進(jìn))、電子郵件、SMS (Short Messaging Service,短消息服務(wù))等。存儲(chǔ)器420可用于存儲(chǔ)軟件程序以及模塊，處理器480通過運(yùn)行存儲(chǔ)在存儲(chǔ)器420的軟件程序以及模塊，從而執(zhí)行手機(jī)400的各種功能應(yīng)用以及數(shù)據(jù)處理。存儲(chǔ)器420可主要包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū)，其中，存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少ー個(gè)功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等；存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)手機(jī)400的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外，存儲(chǔ)器420可以包括高速隨機(jī)存取存儲(chǔ)器，還可以包括非易失性存儲(chǔ)器，例如至少ー個(gè)磁盤存儲(chǔ)器件、閃存器件、或其他易失性固態(tài)存儲(chǔ)器件。輸入單元430可用于接收輸入的數(shù)字或字符信息，以及產(chǎn)生與手機(jī)400的用戶設(shè)置以及功能控制有關(guān)的鍵信號(hào)輸入。具體地，輸入單元430可包括觸控面板431以及其他輸入設(shè)備432。觸控面板431，也稱為觸摸屏，可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸控面板431上或在觸控面板431附近的操作)，井根據(jù)預(yù)先設(shè)定的程式驅(qū)動(dòng)相應(yīng)的連接裝置?？蛇x的，觸控面板431可包括觸摸檢測(cè)裝置和觸摸控制器兩個(gè)部分。其中，觸摸檢測(cè)裝置檢測(cè)用戶的觸摸方位，并檢測(cè)觸摸操作帶來的信號(hào)，將信號(hào)傳送給觸摸控制器；觸摸控制器從觸摸檢測(cè)裝置上接收觸摸信息，并將它轉(zhuǎn)換成觸點(diǎn)坐標(biāo),再送給處理器480，并能接收處理器480發(fā)來的命令并加以執(zhí)行。此外，可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實(shí)現(xiàn)觸控面板431。除了觸控面板431，輸入單元430還可以包括其他輸入設(shè)備432。具體地，其他輸入設(shè)備432可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標(biāo)、操作桿等中的ー種或多種。
顯示單元440可用于顯示由用戶輸入的信息或提供給用戶的信息以及手機(jī)400的各種菜單。顯示單元440可包括顯示面板441,可選的,可以采用！XD(Liquid CrystalDisplay,液晶顯示器)、OLED (Organic Light-Emitting Diode,有機(jī)發(fā)光二極管)等形式來配置顯示面板441。進(jìn)ー步的，觸控面板431可覆蓋顯示面板441，當(dāng)觸控面板431檢測(cè)到在其上或附近的觸摸操作后，傳送給處理器480以確定觸摸事件的類型，隨后處理器480根據(jù)觸摸事件的類型在顯示面板441上提供相應(yīng)的視覺輸出。雖然在圖4中，觸控面板431與顯示面板441是作為兩個(gè)獨(dú)立的部件來實(shí)現(xiàn)手機(jī)400的輸入和輸入功能，但是在某些實(shí)施例中，可以將觸控面板431與顯示面板441集成而實(shí)現(xiàn)手機(jī)400的輸入和輸出功能。手機(jī)400還可包括至少ー種傳感器450，比如光傳感器、運(yùn)動(dòng)傳感器以及其他傳感器。具體地，光傳感器可包括環(huán)境光傳感器及接近傳感器，其中，環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來調(diào)節(jié)顯示面板441的亮度，接近傳感器可在手機(jī)400移動(dòng)到耳邊時(shí)，關(guān)閉顯示面板441和/或背光。作為運(yùn)動(dòng)傳感器的ー種，加速計(jì)傳感器可檢測(cè)各個(gè)方向上(一般為三軸)加速度的大小，靜止時(shí)可檢測(cè)出重力的大小及方向，可用于識(shí)別手機(jī)姿態(tài)的應(yīng)用(比如橫豎屏切換、相關(guān)游戲、磁力計(jì)姿態(tài)校準(zhǔn))、振動(dòng)識(shí)別相關(guān)功能(比如計(jì)步器、敲擊)等；至于手機(jī)400還可配置的陀螺儀、氣壓計(jì)、濕度計(jì)、溫度計(jì)、紅外線傳感器等其他傳感器，在此不再贅述。音頻電路460、揚(yáng)聲器461,傳聲器462可提供用戶與手機(jī)400之間的音頻接ロ。音頻電路460可將接收到的音頻數(shù)據(jù)轉(zhuǎn)換后的電信號(hào),傳輸?shù)綋P(yáng)聲器461,由揚(yáng)聲器461轉(zhuǎn)換為聲音信號(hào)輸出；另一方面，傳聲器462將收集的聲音信號(hào)轉(zhuǎn)換為電信號(hào)，由音頻電路460接收后轉(zhuǎn)換為音頻數(shù)據(jù)，再將音頻數(shù)據(jù)輸出處理器480處理后，經(jīng)RF電路410以發(fā)送給比如另一手機(jī)，或者將音頻數(shù)據(jù)輸出至存儲(chǔ)器420以便進(jìn)一歩處理。WiFi屬于短距離無線傳輸技木，手機(jī)400通過WiFi模塊470可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁和訪問流式媒體等，它為用戶提供了無線的寬帶互聯(lián)網(wǎng)訪問。雖然圖4示出了 WiFi模塊470，但是可以理解的是，其并不屬于手機(jī)400的必須構(gòu)成，完全可以根據(jù)需要在不改變發(fā)明的本質(zhì)的范圍內(nèi)而省略。處理器480是手機(jī)400的控制中心，利用各種接口和線路連接整個(gè)手機(jī)的各個(gè)部分，通過運(yùn)行或執(zhí)行存儲(chǔ)在存儲(chǔ)器420內(nèi)的軟件程序和/或模塊，以及調(diào)用存儲(chǔ)在存儲(chǔ)器420內(nèi)的數(shù)據(jù)，執(zhí)行手機(jī)400的各種功能和處理數(shù)據(jù)，從而對(duì)手機(jī)進(jìn)行整體監(jiān)控。可選的，處理器480可包括一個(gè)或多個(gè)處理単元；優(yōu)選的，處理器480可集成應(yīng)用處理器和調(diào)制解調(diào)處理器，其中，應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等，調(diào)制解調(diào)處理器主要處理無線通信。可以理解的是，上述調(diào)制解調(diào)處理器也可以不集成到處理器480中。手機(jī)400還包括給各個(gè)部件供電的電源490 (比如電池)，優(yōu)選的，電源可以通過電源管理系統(tǒng)與處理器480邏輯相連，從而通過電源管理系統(tǒng)實(shí)現(xiàn)管理充電、放電、以及功耗管理等功能。盡管未示出，手機(jī)400還可以包括攝像頭、藍(lán)牙模塊等，在此不再贅述。
在本發(fā)明實(shí)施例中，該終端所包括的傳聲器462、存儲(chǔ)器420和處理器480還具有以下功能所述傳聲器462，還用于獲取包含至少ー個(gè)說話者的原始音頻流，并將該原始音頻流通過音頻電路460發(fā)送給所述存儲(chǔ)器420。在本發(fā)明實(shí)施例中，該原始音頻流可以為用戶通過手機(jī)終端進(jìn)行打電話、語音聊天等產(chǎn)生的音頻流，也可以為通過錄音等方式由傳聲器462獲取的音頻流等。具體地，可以為某一手機(jī)終端用戶在電話接通狀態(tài)時(shí)，提示用戶是否同意使用聲紋學(xué)習(xí)功能，用戶同意后，則錄下說話過程中產(chǎn)生的音頻流；或者終端中設(shè)置有是否自動(dòng)在通話過程中啟用聲紋學(xué)習(xí)功能的開關(guān)，用戶根據(jù)需要自行設(shè)置；或者手機(jī)終端設(shè)置有聲紋學(xué)習(xí)功能，用戶可以自行錄制音頻流。需要說明的是，由于一般電話通話或者聊天過程中，會(huì)有多人輪流參與會(huì)話，此時(shí)獲取到的原始音頻流中將會(huì)包括多人說話的音頻數(shù)據(jù)。所述處理器480，還用于調(diào)取所述存儲(chǔ)器中保存的原始音頻流并在所述存儲(chǔ)器420中調(diào)用預(yù)設(shè)的說話人分割與聚類算法，獲取該原始音頻流中該至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流，將該至少ー個(gè)說話者中每ー個(gè)說話者的分別的音頻流分別與原始聲紋特征模型進(jìn)行匹配，獲取匹配成功的音頻流，并將該匹配成功的音頻流作為生成該原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)該原始聲紋特征模型進(jìn)行更新。在本發(fā)明實(shí)施例中，由于該原始音頻流中包含有至少ー個(gè)說話者的音頻流，則需要處理器480調(diào)用所述存儲(chǔ)器420中預(yù)設(shè)的說話人分割算法，將該原始音頻流分割成多個(gè)音頻片段，該多個(gè)音頻片段中的每一音頻片段僅包含該至少一個(gè)說話者中同一個(gè)說話者的音頻信息，處理器480接著根據(jù)預(yù)設(shè)的說話人聚類算法，將僅包含該至少一個(gè)說話者中同一個(gè)說話者的音頻片段進(jìn)行聚類，最終生成僅包含該至少一個(gè)說話者中同一個(gè)說話者音頻信息的音頻流。且進(jìn)ー步能夠結(jié)合每一人的分別的音頻流及原始聲紋特征模型，獲知該至少ー個(gè)說話者中每ー個(gè)說話者的分別的音頻流分別與原始聲紋特征模型進(jìn)行匹配后的匹配度，可以將匹配度高于預(yù)設(shè)的匹配閾值且匹配度最高的音頻流作為匹配成功的音頻流，從而將該匹配成功的音頻流作為生成該原始聲紋特征模型的追加音頻流訓(xùn)練樣本，調(diào)用聲紋注冊(cè)算法接ロ，對(duì)該原始聲紋特征模型進(jìn)行更新，以獲取更為精確的聲紋特征模型。在本發(fā)明實(shí)施例提供了ー種包括傳聲器462、存儲(chǔ)器420、處理器480等的終端，通過傳聲器462獲取至少ー個(gè)說話者時(shí)的原始音頻流，并將該原始音頻流通過音頻電路460發(fā)送給存儲(chǔ)器420，處理器480接收傳聲器462通過音頻電路460發(fā)送的原始音頻流，并調(diào)用所述存儲(chǔ)器420中預(yù)設(shè)的說話人分割與聚類算法，獲取該原始音頻流中該至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流，進(jìn)而獲取與原始聲紋特征模型相匹配的音頻流，并將該匹配的音頻流作為生成該原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)該原始聲紋特征模型進(jìn)行更新，保證在了較高的實(shí)用性前提下，對(duì)該聲紋特征模型的動(dòng)態(tài)修正、更新等，提高了聲紋特征模型的精確度。實(shí)施例四圖5示出了本發(fā)明第四實(shí)施例提供的終端的結(jié)構(gòu)，為了便于說明，僅示出了與本發(fā)明實(shí)施例相關(guān)的部分。本發(fā)明實(shí)施例四提供的終端可以用于實(shí)施本發(fā)明實(shí)施例一至ニ實(shí)現(xiàn)的方法，為了便于說明，僅示出了與本發(fā)明實(shí)施例相關(guān)的部分，具體技術(shù)細(xì)節(jié)未掲示的，請(qǐng)參照本發(fā)明實(shí)施例一與實(shí)施例ニ。
具體地，圖5示出的是與本發(fā)明實(shí)施例提供的終端相關(guān)的手機(jī)500的部分結(jié)構(gòu)的框圖。在圖4所示的結(jié)構(gòu)的基礎(chǔ)上，本發(fā)明實(shí)施例中使用傳聲器51、處理器52分別代替圖4中所示的傳聲器462、處理器480，其中該傳聲器51除包括上述實(shí)施例三中傳聲器462所包括的功能外，還包括用于獲取預(yù)設(shè)的音頻流訓(xùn)練樣本，并將該音頻流訓(xùn)練樣本通過音頻電路460發(fā)送給存儲(chǔ)器420，以由所述處理器52調(diào)用存儲(chǔ)器中預(yù)設(shè)的聲紋注冊(cè)算法接ロ根據(jù)該預(yù)設(shè)的音頻流訓(xùn)練樣本建立原始聲紋特征模型。在本發(fā)明實(shí)施例中，該原始聲紋特征模型為通過調(diào)用聲紋注冊(cè)算法接ロ，根據(jù)預(yù)設(shè)的音頻流訓(xùn)練樣本建立的聲紋特征模型，該原始聲紋特征模型為針對(duì)某一人或者多人完成的聲紋注冊(cè)過程后形成的特征模型，該注冊(cè)過程對(duì)訓(xùn)練語料或稱音頻流訓(xùn)練樣本的長(zhǎng)短沒有要求。且因?yàn)楸景l(fā)明實(shí)施例提供的方法可以實(shí)現(xiàn)對(duì)修正后的模型繼續(xù)動(dòng)態(tài)修正等，該原始聲紋特征模型可以為利用現(xiàn)有方法獲取的模型，也可以為利用本發(fā)明實(shí)施例的提供的方法進(jìn)行修正后的模型。此時(shí)，該處理器52還用于根據(jù)所述傳聲器51接收的至少ー個(gè)說話者說話時(shí)的原始音頻流，并調(diào)用存儲(chǔ)器420中預(yù)設(shè)的說話人分割算法，將該原始音頻流分割成多個(gè)音頻片段，該多個(gè)音頻片段中的每一音頻片段僅包含該至少一個(gè)說話者中同一個(gè)說話者的音頻信息，再調(diào)用存儲(chǔ)器420中預(yù)設(shè)的說話人聚類算法，將僅包含該至少一個(gè)說話者中同一個(gè)說話者的音頻片段進(jìn)行聚類，生成僅包含該至少一個(gè)說話者中同一個(gè)說話者音頻信息的音頻流。進(jìn)ー步地，該處理器52還用于根據(jù)該至少ー個(gè)說話者中每ー個(gè)說話者的音頻流以及原始聲紋特征模型，獲取該至少ー個(gè)說話者中每ー個(gè)說話者的音頻流與該原始聲紋特征模型的匹配度，選取該匹配度最高且大于預(yù)設(shè)匹配閾值的匹配度所對(duì)應(yīng)的音頻流來作為匹配成功的音頻流，據(jù)該匹配成功的音頻流以及該預(yù)設(shè)的音頻流訓(xùn)練樣本，生成修正聲紋特征模型，更新該原始聲紋特征模型為該修正聲紋特征模型。在本發(fā)明實(shí)施例中，該傳聲器51能夠獲取預(yù)設(shè)的音頻流訓(xùn)練樣本，其中，該預(yù)設(shè)的音頻流訓(xùn)練樣本為建立原始聲紋特征模型所需要的原始音頻流。該傳聲器51還能夠獲取至少ー個(gè)說話者時(shí)的原始音頻流，所述處理器52可以依次在所述存儲(chǔ)器420中調(diào)用預(yù)設(shè)的聲紋注冊(cè)算法接ロ、說話人分割算法、預(yù)設(shè)的說話人聚類算法，實(shí)現(xiàn)生成僅包含該至少一個(gè)說話者中同一個(gè)說話者音頻信息的音頻流，最終能夠得到匹配成功的音頻流，結(jié)合該匹配成功的音頻流以及該預(yù)設(shè)的音頻流訓(xùn)練樣本，生成修正聲紋特征模型，更新該原始聲紋特征模型為該修正聲紋特征模型，則利用該修正聲紋特征模型實(shí)現(xiàn)對(duì)音頻流的識(shí)別準(zhǔn)確度較原始聲紋特征模型大大提高，也進(jìn)ー步提升了用戶使用體驗(yàn)。實(shí)施例五圖6示出了本發(fā)明第五實(shí)施例提供的終端的結(jié)構(gòu)，為了便于說明，僅示出了與本發(fā)明實(shí)施例相關(guān)的部分。本發(fā)明實(shí)施例五提供的終端可以用于實(shí)施本發(fā)明實(shí)施例一至ニ實(shí)現(xiàn)的方法，為了便于說明，僅示出了與本發(fā)明實(shí)施例相關(guān)的部分，具體技術(shù)細(xì)節(jié)未掲示的，請(qǐng)參照本發(fā)明實(shí)施例一與實(shí)施例ニ。該終端包括原始音頻流獲取単元61、分割與聚類單元62、匹配単元63、模型更新單兀64,而該原始音頻流獲取單兀61與上述實(shí)施例三中所述傳聲器41所包含的功能對(duì)應(yīng)，該分割與聚類單元62、匹配単元63以及模型更新単元64與上述實(shí)施例三中所述處理器42所包含的功能一一對(duì)應(yīng)，其中該原始音頻流獲取単元61，用于獲取包含至少ー個(gè)說話者的原始音頻流并發(fā)送給該分割與聚類單兀62 ；該分割與聚類單元62，用于接收該原始音頻流獲取単元61發(fā)送的原始音頻流并根據(jù)預(yù)設(shè)的說話人分割與聚類算法，獲取該原始音頻流中該至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流，并將該至少ー個(gè)說話者中每ー個(gè)說話者的分別的音頻流發(fā)送給該匹配単元63 ；該匹配単元63，用于接收該分割與聚類單元62發(fā)送的該至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流，且將該至少ー個(gè)說話者中每ー個(gè)說話者的分別的音頻流分別與原始聲紋特征模型進(jìn)行匹配，獲取匹配成功的音頻流，并將該匹配成功的音頻流發(fā)送給該模型更新単元64 ；
該模型更新単元64，用于接收該匹配単元63發(fā)送的匹配成功的音頻流，并將該匹配成功的音頻流作為生成該原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)該原始聲紋特征模型進(jìn)行更新。在本發(fā)明實(shí)施例中，當(dāng)進(jìn)入監(jiān)聽通話狀態(tài)后，該原始音頻流獲取単元61能夠監(jiān)聽獲取音頻流，該音頻流可以為通過錄音機(jī)、語音聊天軟件等產(chǎn)生。在本發(fā)明實(shí)施例中，該分割與聚類單元62能夠?qū)崿F(xiàn)將原始音頻流分割成若干音頻片段，每個(gè)音頻片段僅包含一個(gè)說話人的音頻信息，再將相同說話人的音頻片段重新聚類合在一起，生成屬于每ー個(gè)的音頻流，最終實(shí)現(xiàn)將原始音頻流分割成表征不同說話人的音頻流，也即生成所有說話人中屬于同一個(gè)說話者音頻信息的音頻流。該匹配単元63遍歷各音頻流，結(jié)合原始聲紋特征模型，獲取每一音頻流與該原始聲紋特征模型的匹配度，具體可以將該各音頻流分別作為原始聲紋特征模型的輸入值，獲取與各音頻流對(duì)應(yīng)的概率或稱匹配度，獲取與該原始聲紋特征模型相匹配的一個(gè)或者多個(gè)音頻流，在實(shí)際操作過程中，可以選取該匹配度最高且大于預(yù)設(shè)匹配閾值的匹配度所對(duì)應(yīng)的音頻流作為匹配成功的音頻流，保證獲取的音頻流為與原始聲紋特征模型的相關(guān)度較高，從而作為聲紋訓(xùn)練語料的音頻流也較為純凈。該模型更新単元64將匹配成功的音頻流作為生成該原始聲紋特征模型的追加音頻流訓(xùn)練樣本，進(jìn)行聲紋注冊(cè)，生成新的聲紋特征模型或稱為修正聲紋特征模型，將更新原始聲紋特征模型為該修正聲紋特征模型。最終在獲取聲紋特征模型時(shí)，保證了在較高的實(shí)用性前提下，提高聲紋特征模型精確度的目的。實(shí)施例六:圖7示出了本發(fā)明第六實(shí)施例提供的終端的結(jié)構(gòu)，為了便于說明，僅示出了與本發(fā)明實(shí)施例相關(guān)的部分。本發(fā)明實(shí)施例六提供的終端可以用于實(shí)施本發(fā)明實(shí)施例一至ニ實(shí)現(xiàn)的方法，為了便于說明，僅示出了與本發(fā)明實(shí)施例相關(guān)的部分，具體技術(shù)細(xì)節(jié)未掲示的，請(qǐng)參照本發(fā)明實(shí)施例一與實(shí)施例ニ。該終端包括樣本獲取単元71、原始模型建立単元72、原始音頻流獲取単元73、分割與聚類單元74、匹配単元75、模型更新単元76，而該原始音頻流獲取単元73、分割與聚類単元74、匹配単元75、模型更新単元76分別上述實(shí)施例五所述原始音頻流獲取単元61、分割與聚類單元62、匹配単元63、模型更新単元64的功能一一對(duì)應(yīng)，在此不再贅述，其中
樣本獲取単元71，用于獲取預(yù)設(shè)的音頻流訓(xùn)練樣本并發(fā)送給該原始模型建立単元72 ；原始模型建立単元72，用于根據(jù)該預(yù)設(shè)的音頻流訓(xùn)練樣本建立原始聲紋特征模型。其中，該原始聲紋特征模型為該原始模型建立単元72通過調(diào)用聲紋注冊(cè)算法接ロ，根據(jù)該樣本獲取單元71發(fā)送的預(yù)設(shè)的音頻流訓(xùn)練樣本建立的聲紋特征模型，該原始聲紋特征模型為針對(duì)某一人或者多人完成的聲紋注冊(cè)過程后形成的特征模型，該注冊(cè)過程對(duì)
訓(xùn)練語料或稱音頻流訓(xùn)練樣本的長(zhǎng)短沒有要求。且因?yàn)楸景l(fā)明實(shí)施例提供的方法可以實(shí)現(xiàn)對(duì)修正后的模型繼續(xù)動(dòng)態(tài)修正等，該原始聲紋特征模型可以為利用現(xiàn)有方法獲取的模型，也可以為利用本發(fā)明實(shí)施例的提供的方法進(jìn)行修正后的模型。在本發(fā)明實(shí)施例中，當(dāng)進(jìn)入監(jiān)聽通話狀態(tài)后，該原始音頻流獲取単元73能夠監(jiān)聽獲取音頻流，該音頻流可以為通過錄音機(jī)、語音聊天軟件等產(chǎn)生。以該終端為智能手機(jī)中為例，當(dāng)該智能手機(jī)在電話接通狀態(tài)時(shí)，提示用戶是否同意使用聲紋學(xué)習(xí)功能，用戶同意后，則能夠錄下參與通話的用戶本身以及通話的另一方的音頻流；或者終端中設(shè)置有是否自動(dòng)在通話過程中啟用聲紋學(xué)習(xí)功能的開關(guān)，用戶根據(jù)需要自行設(shè)置；或者終端設(shè)置有聲紋學(xué)習(xí)功能，用戶可以自行錄制音頻流。需要說明的是，由于一般電話通話或者聊天過程中，會(huì)有多人輪流參與會(huì)話，此時(shí)獲取到的原始音頻流中將會(huì)包括多人說話的音頻數(shù)據(jù)。通過該原始音頻流獲取単元73獲取的原始音頻流能夠覆蓋說話人的各種語調(diào)、語速、情緒等方面的音頻數(shù)據(jù)，減少了該語調(diào)、語速、情緒等因素對(duì)模型準(zhǔn)確的影響，且該音頻流的獲取過程不需要用戶刻意地輸入一定次數(shù)、時(shí)長(zhǎng)的音頻流，減少了用戶操作復(fù)雜度，保證了獲取過程的實(shí)用性，也提升用戶體驗(yàn)效果。如圖7所示，該分割與聚類單元74具體包括分割単元741及聚類單元742，其中該分割単元741，用于根據(jù)預(yù)設(shè)的說話人分割算法，將該原始音頻流分割成多個(gè)音頻片段，該多個(gè)音頻片段中的每一音頻片段僅包含該至少一個(gè)說話者中同一個(gè)說話者的音頻信息，并將該僅包含該至少一個(gè)說話者中同一個(gè)說話者的音頻片段發(fā)送給聚類單元742 ；以及該聚類単元742，用于接收該分割単元741發(fā)送的該僅包含該至少一個(gè)說話者中同一個(gè)說話者的音頻片段，井根據(jù)預(yù)設(shè)的說話人聚類算法，將僅包含該至少一個(gè)說話者中同一個(gè)說話者的音頻片段進(jìn)行聚類，生成該僅包含該至少一個(gè)說話者中同一個(gè)說話者的音頻信息的音頻流。在本發(fā)明實(shí)施例中，該分割単元741能夠?qū)崿F(xiàn)將原始音頻流分割成若干音頻片段，每個(gè)音頻片段僅包含一個(gè)說話人的音頻信息，再通過聚類単元742將相同說話人的音頻片段重新聚類合在一起，生成屬于每ー個(gè)的音頻流，最終實(shí)現(xiàn)將原始音頻流分割成表征不同說話人的音頻流。如圖7所示，該匹配単元75具體包括匹配度獲取單元751以及匹配音頻流獲取單元752，其中該匹配度獲取單元751，用于根據(jù)該至少一個(gè)說話者中每ー個(gè)說話者的音頻流以及原始聲紋特征模型，獲取并發(fā)送該至少ー個(gè)說話者中每ー個(gè)說話者的音頻流與該原始聲紋特征模型的匹配度至該匹配音頻流獲取単元752 ;以及
該匹配音頻流獲取単元752，用于接收該匹配度獲取單元751發(fā)送的該至少ー個(gè)說話者中每ー個(gè)說話者的音頻流與該原始聲紋特征模型的匹配度，選取該匹配度最高且大于預(yù)設(shè)匹配閾值的匹配度所對(duì)應(yīng)的音頻流來作為匹配成功的音頻流。在本發(fā)明實(shí)施例中，通過匹配度獲取單元7511遍歷各音頻流，根據(jù)該至少ー個(gè)說話者中每ー個(gè)說話者的音頻流以及原始聲紋特征模型，獲取該至少ー個(gè)說話者中每ー個(gè)說話者的音頻流與該原始聲紋特征模型的匹配度，具體為將該各音頻流分別作為原始聲紋特征模型的輸入值，獲取與各音頻流對(duì)應(yīng)的匹配值，具體可以通過調(diào)用聲紋確認(rèn)算法接ロ實(shí)現(xiàn)匹配值的獲取，再由匹配音頻流獲取単元752獲取與該原始聲紋特征模型相匹配的ー個(gè)或者多個(gè)音頻流，具體可以選取該匹配度最高且大于預(yù)設(shè)匹配閾值的匹配度所對(duì)應(yīng)的音頻流作為匹配成功的音頻流，以保證獲取的音頻流為與原始聲紋特征模型的相關(guān)度較高，使得作為聲紋訓(xùn)練語料的音頻流也較為純凈。如圖7所示，該模型更新単元76具體包括修正模型獲取單元761以及模型更新子單元762，其中
該修正模型獲取單元761，用于根據(jù)該匹配成功的音頻流以及該預(yù)設(shè)的音頻流訓(xùn)練樣本，生成并發(fā)送修正聲紋特征模型至該模型更新子単元762 ；以及該模型更新子単元762，用于接收該修正模型獲取單元761發(fā)送的該修正聲紋特征模型，更新該原始聲紋特征模型為該修正聲紋特征模型。在本發(fā)明實(shí)施例中，將匹配成功的音頻流作為生成該原始聲紋特征模型的追加音頻流訓(xùn)練樣本，也即通過該修正模型獲取單元761結(jié)合生成該原始聲紋特征模型時(shí)用到的音頻流訓(xùn)練樣本以及該匹配成功的音頻流，進(jìn)行聲紋注冊(cè)，生成新的聲紋特征模型或稱為修正聲紋特征模型，該模型更新子単元762將更新原始聲紋特征模型為該修正聲紋特征模型。本發(fā)明實(shí)施例提供了ー種包括樣本獲取単元71、原始模型建立単元72、原始音頻流獲取單元73、分割與聚類單元74、匹配単元75、模型更新単元76的終端，實(shí)現(xiàn)了通過監(jiān)聽說話人的原始音頻流信息作為聲紋訓(xùn)練語料，利用預(yù)設(shè)的說話人分割與聚類算法處理該原始音頻流信息，以獲取追加的音頻流訓(xùn)練樣本，從而根據(jù)該追加的音頻流訓(xùn)練樣本等，對(duì)原始聲紋特征模型的修正更新操作，保證了在較高的實(shí)用性前提下，提高聲紋特征模型精確度。進(jìn)而，在將該修正的原始聲紋特征模型應(yīng)用到終端的聲紋解鎖方案中吋，大大提高了聲紋識(shí)別的準(zhǔn)確度，且若該原始聲紋特征模型為針對(duì)多人的語音音頻流訓(xùn)練樣本建立的，則更新后的該原始聲紋特征模型更能夠準(zhǔn)確地識(shí)別該多人的音頻信息，以進(jìn)行解鎖等，使得該解鎖過程更加智能化。本發(fā)明實(shí)施例提供的該聲紋特征模型更新方法，通過獲取包含至少ー個(gè)說話者的原始音頻流，根據(jù)預(yù)設(shè)的說話人分割與聚類算法，獲取該原始音頻流中該至少一個(gè)說話者中每ー個(gè)說話者的分別的音頻流，將該至少ー個(gè)說話者中每ー個(gè)說話者的分別的的音頻流分別與原始聲紋特征模型進(jìn)行匹配，獲取匹配成功的音頻流，并將該匹配成功的音頻流作為生成該原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)該原始聲紋特征模型進(jìn)行更新，解決了利用現(xiàn)有方法獲取聲紋特征模型時(shí)，無法保證在較高的實(shí)用性前提下，提高聲紋特征模型精確度，導(dǎo)致利用該聲紋特征模型無法提高識(shí)別準(zhǔn)確率的問題，使得在不影響用戶體驗(yàn)，保證在較高的實(shí)用性的情況下，提高了聲紋特征模型精確度及識(shí)別準(zhǔn)確率。
需要說明的是，結(jié)合本文中所公開的實(shí)施例描述的各示例的単元及算法步驟，能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn)，為了清楚地說明硬件和軟件的可互換性，在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行，取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能，但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。結(jié)合本文中所公開的實(shí)施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊，或者二者的結(jié)合來實(shí)施。軟件模塊可以置于隨機(jī)存儲(chǔ)器(RAM)、內(nèi)存、只讀存儲(chǔ)器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動(dòng)磁盤、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲(chǔ)介質(zhì)中。以上所述的具體實(shí)施方式
，對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)ー步詳細(xì)說明，所應(yīng)理解的是，以上所述僅為本發(fā)明的具體實(shí)施方式
而已，并不用于限定本發(fā)明的保護(hù)范圍，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種聲紋特征模型更新方法，其特征在于，所述方法包括獲取包含至少一個(gè)說話者的原始音頻流；根據(jù)預(yù)設(shè)的說話人分割與聚類算法，獲取所述原始音頻流中所述至少一個(gè)說話者中每一個(gè)說話者的分別的音頻流；將所述至少一個(gè)說話者中每一個(gè)說話者的分別的音頻流分別與原始聲紋特征模型進(jìn)行匹配，獲取匹配成功的音頻流；將所述匹配成功的音頻流作為生成所述原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)所述原始聲紋特征模型進(jìn)行更新。
2.如權(quán)利要求I所述的方法，其特征在于，所述方法在獲取包含至少一個(gè)說話者的原始音頻流之前還包括根據(jù)預(yù)設(shè)的音頻流訓(xùn)練樣本建立原始聲紋特征模型。
3.如權(quán)利要求I或2所述的方法，其特征在于，所述根據(jù)預(yù)設(shè)的說話人分割與聚類算法，獲取所述原始音頻流中所述至少一個(gè)說話者中每一個(gè)說話者的分別的音頻流具體包括根據(jù)預(yù)設(shè)的說話人分割算法，將所述原始音頻流分割成多個(gè)音頻片段，所述多個(gè)音頻片段中的每一音頻片段僅包含所述至少一個(gè)說話者中同一個(gè)說話者的音頻信息；根據(jù)預(yù)設(shè)的說話人聚類算法，將所述僅包含所述至少一個(gè)說話者中同一個(gè)說話者的音頻片段進(jìn)行聚類，生成所述僅包含所述至少一個(gè)說話者中同一個(gè)說話者音頻信息的音頻流。
4.如權(quán)利要求1-3中任意一項(xiàng)所述的方法，其特征在于，所述將所述至少一個(gè)說話者中每一個(gè)說話者的分別的音頻流分別與原始聲紋特征模型進(jìn)行匹配，獲取匹配成功的音頻流具體包括根據(jù)所述至少一個(gè)說話者中每一個(gè)說話者的音頻流以及原始聲紋特征模型，獲取所述至少一個(gè)說話者中每一個(gè)說話者的音頻流與所述原始聲紋特征模型的匹配度；選取所述匹配度最高且大于預(yù)設(shè)匹配閾值的匹配度所對(duì)應(yīng)的音頻流來作為匹配成功的音頻流。
5.如權(quán)利要求1-4中任意一項(xiàng)所述的方法，其特征在于，所述將所述匹配成功的音頻流作為生成所述原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)所述原始聲紋特征模型進(jìn)行更新具體包括根據(jù)所述匹配成功的音頻流以及預(yù)設(shè)的音頻流訓(xùn)練樣本，生成修正聲紋特征模型；其中，所述預(yù)設(shè)的音頻流訓(xùn)練樣本為生成所述原始聲紋特征模型的音頻流；更新所述原始聲紋特征模型為所述修正聲紋特征模型。
6.一種終端，其特征在于，所述終端包括原始音頻流獲取單元、分割與聚類單元、匹配單元以及模型更新單元，其中所述原始音頻流獲取單元，用于獲取包含至少一個(gè)說話者的原始音頻流并發(fā)送給所述分割與聚類單元；所述分割與聚類單元，用于接收所述原始音頻流獲取單元發(fā)送的原始音頻流并根據(jù)預(yù)設(shè)的說話人分割與聚類算法，獲取所述原始音頻流中所述至少一個(gè)說話者中每一個(gè)說話者的分別的音頻流，并將所述至少一個(gè)說話者中每一個(gè)說話者的分別的音頻流發(fā)送給所述匹配單元；所述匹配單元，用于接收所述分割與聚類單元發(fā)送的所述至少一個(gè)說話者中每一個(gè)說話者的分別的音頻流，且將所述至少一個(gè)說話者中每一個(gè)說話者的分別的音頻流分別與原始聲紋特征模型進(jìn)行匹配，獲取匹配成功的音頻流，并將所述匹配成功的音頻流發(fā)送給所述模型更新單元；以及所述模型更新單元，用于接收所述匹配單元發(fā)送的所述匹配成功的音頻流，并將所述匹配成功的音頻流作為生成所述原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)所述原始聲紋特征模型進(jìn)行更新。
7.如權(quán)利要求6所述的終端，其特征在于，所述終端還包括樣本獲取單元以及原始模型建立單元所述樣本獲取單元，用于獲取預(yù)設(shè)的音頻流訓(xùn)練樣本并發(fā)送給所述原始模型建立單元；以及所述原始模型建立單元，用于接收所述樣本獲取單元發(fā)送的所述預(yù)設(shè)的音頻流訓(xùn)練樣本并根據(jù)所述預(yù)設(shè)的音頻流訓(xùn)練樣本建立原始聲紋特征模型。
8.如權(quán)利要求6或7所述的終端，其特征在于，所述分割與聚類單元具體包括分割單元以及聚類單元所述分割單元，用于根據(jù)預(yù)設(shè)的說話人分割算法，將所述原始音頻流分割成多個(gè)音頻片段，所述多個(gè)音頻片段中的每一音頻片段僅包含所述至少一個(gè)說話者中同一個(gè)說話者的音頻信息，并將所述僅包含所述至少一個(gè)說話者中同一個(gè)說話者的音頻片段發(fā)送給所述聚類單元；以及所述聚類單元，用于接收所述分割單元發(fā)送的所述僅包含所述至少一個(gè)說話者中同一個(gè)說話者的音頻片段，并根據(jù)預(yù)設(shè)的說話人聚類算法，將所述僅包含所述至少一個(gè)說話者中同一個(gè)說話者的音頻片段進(jìn)行聚類，生成所述僅包含所述至少一個(gè)說話者中同一個(gè)說話者音頻信息的音頻流。
9.如權(quán)利要求6-8中任意一項(xiàng)所述的終端，其特征在于，所述匹配單元具體包括匹配度獲取單元以及匹配音頻流獲取單元所述匹配度獲取單元，用于根據(jù)所述至少一個(gè)說話者中每一個(gè)說話者的音頻流以及原始聲紋特征模型，獲取所述至少一個(gè)說話者中每一個(gè)說話者的音頻流與所述原始聲紋特征模型的匹配度并將所述匹配度發(fā)送至所述匹配音頻流獲取單元；以及所述匹配音頻流獲取單元，用于接收所述匹配度獲取單元發(fā)送的所述至少一個(gè)說話者中每一個(gè)說話者的音頻流與所述原始聲紋特征模型的匹配度，選取所述匹配度最高且大于預(yù)設(shè)匹配閾值的匹配度所對(duì)應(yīng)的音頻流來作為匹配成功的音頻流。
10.如權(quán)利要求6-9中任意一項(xiàng)所述的終端，其特征在于，所述模型更新單元具體包括修正模型獲取單元以及模型更新子單元所述修正模型獲取單元，用于根據(jù)所述匹配成功的音頻流以及所述預(yù)設(shè)的音頻流訓(xùn)練樣本，生成并發(fā)送修正聲紋特征模型至所述模型更新子單元；以及所述模型更新子單元，用于接收所述修正模型獲取單元發(fā)送的所述修正聲紋特征模型，更新所述原始聲紋特征模型為所述修正聲紋特征模型。
全文摘要
本發(fā)明適用于語音識(shí)別技術(shù)領(lǐng)域，提供了一種聲紋特征模型更新方法及終端，所述方法包括獲取包含至少一個(gè)說話者的原始音頻流；根據(jù)預(yù)設(shè)的說話人分割與聚類算法，獲取所述原始音頻流中所述至少一個(gè)說話者中每一個(gè)說話者的分別的音頻流；將所述至少一個(gè)說話者中每一個(gè)說話者的分別的音頻流分別與原始聲紋特征模型進(jìn)行匹配，獲取匹配成功的音頻流；將所述匹配成功的音頻流作為生成所述原始聲紋特征模型的追加音頻流訓(xùn)練樣本，對(duì)所述原始聲紋特征模型進(jìn)行更新。本發(fā)明通過自適應(yīng)提取通話過程中的有效音頻流作為追加的音頻流訓(xùn)練樣本，用以動(dòng)態(tài)修正原有的聲紋特征模型，達(dá)到了在保證較高的實(shí)用性的前提下，提高聲紋特征模型精確度及識(shí)別準(zhǔn)確率的目的。
文檔編號(hào)G10L15/02GK102760434SQ20121023559
公開日2012年10月31日申請(qǐng)日期2012年7月9日優(yōu)先權(quán)日2012年7月9日
發(fā)明者盧霆申請(qǐng)人:華為終端有限公司

完整全部詳細(xì)技術(shù)資料下載