語音識別模型訓(xùn)練方法和裝置及終端的制作方法

文檔序號：2825466閱讀：195來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識別模型訓(xùn)練方法和裝置及終端的制作方法
【專利摘要】本申請公開了一種語音識別模型訓(xùn)練方法和裝置及終端。根據(jù)本申請，語音識別模型訓(xùn)練方法可包括：通過采集用戶朗讀樣本的語音而獲取用戶語音樣本；對采集的用戶語音樣本進行特征提?。灰约案鶕?jù)提取的特征，創(chuàng)建語音識別模型。通過本申請的方法和裝置，能夠根據(jù)用戶特點更新語音識別模型庫，從而提高語音識別成功率，改善用戶體驗。
【專利說明】語音識別模型訓(xùn)練方法和裝置及終端
【技術(shù)領(lǐng)域】
[0001]本申請涉及語音識別模型訓(xùn)練方法和裝置及終端。
【背景技術(shù)】
[0002]在現(xiàn)有語音識別方法中，可根據(jù)已有的聲學(xué)模型進行語音識別，例如，一種方法是利用語音字典來進行語音識別的方法。該方案提供了一種語音字典形成方法，包括整理日常生活中常會組合在一起使用的文字，將所述文字的標準讀音通過音節(jié)代碼存儲。該方案同時公開了將語音字典里的語音代碼和輸入語音形成的代碼進行比較，實現(xiàn)語音識別。
[0003]由于上述方法不能針對特定用戶使用習(xí)慣來進行語音識別，因此特別是當(dāng)用戶有自己的發(fā)音特點時候，識別率可能會顯著下降。

【發(fā)明內(nèi)容】

[0004]為了解決上述現(xiàn)有語音識別方法中識別率不高的問題，本申請?zhí)岢隽艘环N語音識別模型訓(xùn)練方法和裝置及終端。
[0005]根據(jù)本申請的一個方面，提出了一種語音識別模型訓(xùn)練方法，包括:通過采集用戶朗讀樣本的語音而獲取用戶語音樣本；對采集的用戶語音樣本進行特征提取；以及根據(jù)提取的特征，創(chuàng)建語音識別模型。
[0006]根據(jù)本申請的另一個方面，提出了一種語音識別模型訓(xùn)練裝置，包括:樣本接收模塊，接收終端上傳的用戶語音樣本；特征提取模塊，對用戶語音樣本進行特征提取；以及模型訓(xùn)練模塊，根據(jù)提取的特征對語音識別模型進行訓(xùn)練更新。
[0007]根據(jù)本申請的又一個方面，提出了一種終端，包括:樣本存儲模塊，存儲供用戶朗讀的樣本；樣本采集模塊，通過采集用戶朗讀樣本的語音而獲取用戶語音樣本；以及記錄模塊，記錄用戶語音識別的成功率。
[0008]通過本申請的方法和裝置，能夠根據(jù)用戶特點更新語音識別模型庫，從而提高語音識別成功率，改善用戶體驗。
【專利附圖】

【附圖說明】
[0009]圖1是根據(jù)本申請一個實施方案的語音識別模型訓(xùn)練方法的流程圖；以及
[0010]圖2是根據(jù)本申請一個實施方案的語音識別模型訓(xùn)練裝置的框圖；以及
[0011]圖3是根據(jù)本申請一個實施方案的終端的框圖。
【具體實施方式】
[0012]下面參照附圖，對本申請的實施方案進行詳細說明。
[0013]如圖1所示，根據(jù)一個實施方案的語音識別模型訓(xùn)練方法可如下執(zhí)行。首先在步驟S1002，終端可通過采集用戶朗讀樣本的語音而獲取用戶語音樣本。根據(jù)一個實施例，供用戶朗讀的樣本可以是靜態(tài)樣本，例如漢語拼音表、英語字母表、數(shù)字表、易混淆詞表等。根據(jù)另一個實施例，供用戶朗讀的樣本還可以是動態(tài)樣本，例如包含用戶被錯誤識別的語音內(nèi)容，如易混淆發(fā)音的音節(jié)、出錯發(fā)音等。然后在步驟S1004，由服務(wù)器對采集的用戶語音樣本進行特征提取，之后在步驟S1006，根據(jù)提取的特征，創(chuàng)建語音識別模型?？梢岳斫?，可在例如用戶注冊業(yè)務(wù)首次打開終端客戶端時進行上述創(chuàng)建模型的過程。
[0014]根據(jù)一個實施方案，在進行語音識別過程中，當(dāng)用戶語音識別率低于預(yù)定閾值時，可對語音識別模型進行更新操作。作為一個具體實施例，可將預(yù)定閾值設(shè)定為0.75。
[0015]具體地，在進行更新操作時，可通過采集用戶朗讀動態(tài)樣本的語音而獲取用戶語音樣本，然后，可對采集的用戶語音樣本進行特征提取，并根據(jù)提取的特征，對語音識別模型進行更新。
[0016]根據(jù)一個實施例，對采集的用戶語音樣本提取的特征可包括特定音節(jié)的發(fā)音、用戶連讀習(xí)慣或者語音頻譜等。
[0017]根據(jù)一個實施例，對采集的用戶語音樣本進行特征提取的步驟可包括:對用戶語音樣本進行FFT變換，對變換的結(jié)果進行帶通濾波，之后進行DCT變換，計算結(jié)果進行差分，并對差分計算用戶語音特征；以及為每個用戶語音特征分配ID。
[0018]根據(jù)一個實施例，用戶語音特征可包括過零率、基音周期和/或線性預(yù)測倒譜系數(shù)等。
[0019]根據(jù)一個具體實施例，對采集的用戶語音樣本進行特征提取的步驟可如下執(zhí)行:
[0020]對用戶語音樣本分幀。幀與幀一般可部分重替，比如對采樣率為16kHz的語音信號，幀陸可取25msec,幀移可取IOmsec ；
[0021]對用戶語音樣本進行濾波，其中濾波器為H(Z)=1-KZ' K為O到I之間；
[0022]對每幀信號進行濾波,其中濾波器為W(n)=0.54+0.46cos[2 η / (N一I)],N為每幀信號的長度，O≤η≤N-1 ；
[0023]對經(jīng)濾波的每幀信號進行快速傅里葉變換；
[0024]對經(jīng)快速傅里葉變換后的信號進行不同頻率段的濾波，其中濾波器為G(f)=a*loglO(l+f / b)，其中f為頻率，a和b為預(yù)先確定的參數(shù)，例如，a可取值2560，b可取值700 ；
[0025]對經(jīng)不同頻率段的濾波的信號進行離線余弦變換；
[0026]對離線余弦變換的結(jié)果進行差分計算。
[0027]根據(jù)一個具體實施方案，對語音識別模型進行更新的步驟可以是對語音識別模型庫進行聚類操作。
[0028]根據(jù)一個實施例，語音識別模型庫可包括多個模型，每個模型可包括參數(shù)集合和特征集合等，還可包括ID。對語音識別模型庫進行聚類操作可如下執(zhí)行:
[0029]當(dāng)新產(chǎn)生一個模型時，依次選擇模型庫中的所有模型，執(zhí)行以下步驟:
[0030]( 1)模型庫中現(xiàn)有模型的參數(shù)集合與新產(chǎn)生模型的參數(shù)集合相減并取平方值，并對參數(shù)集合中的各個元素進行累加，得到2個模型的參數(shù)的平方差值，以及
[0031](2)將2個模型的參數(shù)的平方差值進行開方，并除以參數(shù)集合的元素數(shù)目，得到2個模型的參數(shù)的差值；
[0032]比較模型的差值，如果小于預(yù)定參數(shù)Thmm，則將新模型的參數(shù)集合乘以Thmm之后，除以(1+Thmm)，再與模型庫中的模型的參數(shù)集合累加，否則，將新模型寫入模型庫。[0033]接下來參照圖2，描述根據(jù)本申請一個實施方案的語音識別模型訓(xùn)練裝置。
[0034]如圖2所示，語音識別模型訓(xùn)練裝置可包括樣本接收模塊202、特征提取模塊204和模型訓(xùn)練模塊206。樣本接收模塊202可接收終端上傳的用戶語音樣本。特征提取模塊204可對接收的用戶語音樣本進行特征提取。模型訓(xùn)練模塊206可根據(jù)提取的特征對語音識別模型進行訓(xùn)練更新。
[0035]具體地，特征提取模塊206可進一步包括計算模塊和分配模塊。計算模塊可對用戶語音樣本進行FFT變換，對變換的結(jié)果進行帶通濾波，之后進行DCT變換，計算結(jié)果進行差分，并對差分計算用戶語音特征。分配模塊可為每個用戶語音特征分配ID。
[0036]根據(jù)一個具體實施例，計算模塊可包括:對用戶語音樣本分幀的單元；對用戶語音樣本進行濾波的單元，其中濾波器為H(Z)=1-KZ-1 ;對每幀信號進行濾波的單元，其中濾波器為W(n) =0.54+0.46cos [2 n / (N — I) ]，N為每幀信號的長度，O≤η≤N_1 ;對經(jīng)濾波的每幀信號進行快速傅里葉變換的單元；對經(jīng)快速傅里葉變換后的信號進行不同頻率段的濾波的單元，其中濾波器為G(f)=a*loglO(l+f / b)，其中f為頻率，a和b為預(yù)先確定的參數(shù)；對經(jīng)不同頻率段的濾波的信號進行離線余弦變換的單元；以及對離線余弦變換的結(jié)果進行差分計算的單元。
[0037]根據(jù)一個實施例，模型訓(xùn)練模塊通過對語音識別模型庫進行聚類操作來進行訓(xùn)練更新。
[0038]根據(jù)一個實施例，語音識別模型庫包括多個模型，每個模型包括參數(shù)集合和特征集合，聚類操作可如下執(zhí)行:
[0039]當(dāng)新產(chǎn)生一個模型時，依次選擇模型庫中的所有模型，執(zhí)行以下步驟:
[0040]( I)模型庫中現(xiàn) 有模型的參數(shù)集合與新產(chǎn)生模型的參數(shù)集合相減并取平方值，并對參數(shù)集合中的各個元素進行累加，得到2個模型的參數(shù)的平方差值，以及
[0041](2)將2個模型的參數(shù)的平方差值進行開方，并除以參數(shù)集合的元素數(shù)目，得到2個模型的參數(shù)的差值；
[0042]比較模型的差值，如果小于預(yù)定參數(shù)Thmm，則將新模型的參數(shù)集合乘以Thmm之后，除以(1+Thmm)，再與模型庫中的模型的參數(shù)集合累加，否則，將新模型寫入模型庫。
[0043]接下來參照圖3，描述根據(jù)本申請一個實施方案的終端。如圖3所示，終端可包括:樣本存儲模塊302、樣本采集模塊304和記錄模塊306。樣本存儲模塊302可存儲供用戶朗讀的樣本，樣本采集模塊304可通過采集用戶朗讀樣本的語音而獲取用戶語音樣本，記錄模塊306可記錄用戶語音識別的成功率。
[0044]根據(jù)一個實施例，樣本存儲模塊存儲的樣本可包括靜態(tài)樣本和動態(tài)樣本。
[0045]根據(jù)一個實施例，終端可包括更新啟動模塊，當(dāng)記錄模塊記錄的成功率低于預(yù)定閾值時，將樣本采集模塊采集的用戶朗讀動態(tài)樣本的語音而獲取用戶語音樣本發(fā)送給服務(wù)器，進行語音識別模型庫更新。
[0046]以上參照附圖對本申請的示例性的實施方案進行了描述。本領(lǐng)域技術(shù)人員應(yīng)該理解，上述實施方案僅僅是為了說明的目的而所舉的示例，而不是用來進行限制。凡在本申請的教導(dǎo)和權(quán)利要求保護范圍下所作的任何修改、等同替換等，均應(yīng)包含在本申請要求保護的范圍內(nèi)。
【權(quán)利要求】
1.語音識別模型訓(xùn)練方法，包括: 通過采集用戶朗讀樣本的語音而獲取用戶語音樣本；對采集的用戶語音樣本進行特征提??；以及根據(jù)提取的特征，創(chuàng)建語音識別模型。
2.如權(quán)利要求1所述的方法，其中，在進行語音識別過程中，當(dāng)用戶語音識別率低于預(yù)定閾值時，通過以下步驟進行語音識別模型更新: 通過采集所述用戶朗讀動態(tài)樣本的語音而獲取用戶語音樣本，其中，所述動態(tài)樣本包含所述用戶被錯誤識別的語音內(nèi)容；對采集的用戶語音樣本進行特征提取；以及根據(jù)提取的特征，對語音識別模型進行更新。
3.如權(quán)利要求1或2所述的方法，其中，對采集的用戶語音樣本提取的特征包括:特定音節(jié)的發(fā)音、用戶連讀習(xí)慣或者語音頻譜。
4.如權(quán)利要求1或2所述的方法，其中，對采集的用戶語音樣本進行特征提取的步驟包括: 對用戶語音樣本進行FFT變換，對變換的結(jié)果進行帶通濾波，之后進行DCT變換，計算結(jié)果進行差分，并對差分計算用戶語音特征；為每個用戶語音特征分配ID。
5.如權(quán)利要求4所述的方法，其中，所述用戶語音特征包括過零率、基音周期和/或線性預(yù)測倒譜系數(shù)。
6.如權(quán)利要求4所述的方法，其中，對采集的用戶語音樣本進行特征提取的步驟包括: 對用戶語音樣本分幀；對用戶語音樣本進行濾波，其中濾波器為H(Z)=1-KZ-1 ；對每幀信號進行濾波，其中濾波器為W (n) =0.54+0.46cos [2 π n / (N — I)]，N為每幀信號的長度，O≤η≤N-1 ；對經(jīng)濾波的每幀信號進行快速傅里葉變換；對經(jīng)快速傅里葉變換后的信號進行不同頻率段的濾波，其中濾波器為G(f)=a*loglO(l+f / b)，其中f為頻率，a和b為預(yù)先確定的參數(shù)；對經(jīng)不同頻率段的濾波的信號進行離線余弦變換；以及對離線余弦變換的結(jié)果進行差分計算。
7.如權(quán)利要求2所述的方法，其中，對語音識別模型進行更新的步驟包括對語音識別模型庫進行聚類操作。
8.如權(quán)利要求7所述的方法，其中，語音識別模型庫包括多個模型，每個模型包括參數(shù)集合和特征集合，所述聚類操作包括: 當(dāng)新產(chǎn)生一個模型時，依次選擇模型庫中的所有模型，執(zhí)行以下步驟: (1)模型庫中現(xiàn)有模型的參數(shù)集合與新產(chǎn)生模型的參數(shù)集合相減并取平方值，并對參數(shù)集合中的各個元素進行累加，得到2個模型的參數(shù)的平方差值，以及 (2)將2個模型的參數(shù)的平方差值進行開方，并除以參數(shù)集合的元素數(shù)目，得到2個模型的參數(shù)的差值；比較模型的差值，如果小于預(yù)定參數(shù)Thmm，則將新模型的參數(shù)集合乘以Thmm之后，除以(1+Thmm),再與模型庫中的模型的參數(shù)集合累加，否則，將新模型寫入模型庫。
9.語音識別模型訓(xùn)練裝置，包括: 樣本接收模塊，接收終端上傳的用戶語音樣本；特征提取模塊，對用戶語音樣本進行特征提取；以及模型訓(xùn)練模塊，根據(jù)提取的特征對語音識別模型進行訓(xùn)練更新。
10.如權(quán)利要求9所述的裝置，其中，所述特征提取模塊進一步包括: 計算模塊，對用戶語音樣本進行FFT變換，對變換的結(jié)果進行帶通濾波，之后進行DCT變換，計算結(jié)果進行差分，并對差分計算用戶語音特征；以及分配模塊，為每個用戶語音特征分配ID。
11.如權(quán)利要求10所述的裝置，其中，所述計算模塊包括: 對用戶語音樣本分幀的單元；對用戶語音樣本進行濾波的單元，其中濾波器為H(Z)=1-KZ-1 ；對每幀信號進行濾波的單元，其中濾波器為W(n) =0.54+0.46cos [2 n / (N — 1)]，N為每幀信號的長度，O ≤n ≤ N-1 ；對經(jīng)濾波的每幀信號進行快速傅里葉變換的單元；對經(jīng)快速傅里葉變換后的信號進行不同頻率段的濾波的單元，其中濾波器為G(f)=a*loglO(l+f / b)，其中f為頻率，a和b為預(yù)先確定的參數(shù)；對經(jīng)不同頻率段的濾波的信號進行離線余弦變換的單元；以及對離線余弦變換的結(jié)果進行差分計算的單元。
12.如權(quán)利要求10或11所述的方法，其中，模型訓(xùn)練模塊通過對語音識別模型庫進行聚類操作來進行訓(xùn)練更新。
13.如權(quán)利要求12所述的方法，其中，語音識別模型庫包括多個模型，每個模型包括參數(shù)集合和特征集合，所述聚類操作包括: 當(dāng)新產(chǎn)生一個模型時，依次選擇模型庫中的所有模型，執(zhí)行以下步驟: (1)模型庫中現(xiàn)有模型的參數(shù)集合與新產(chǎn)生模型的參數(shù)集合相減并取平方值，并對參數(shù)集合中的各個元素進行累加，得到2個模型的參數(shù)的平方差值，以及 (2)將2個模型的參數(shù)的平方差值進行開方，并除以參數(shù)集合的元素數(shù)目，得到2個模型的參數(shù)的差值；比較模型的差值，如果小于預(yù)定參數(shù)Thmm，則將新模型的參數(shù)集合乘以Thmm之后，除以(1+Thmm),再與模型庫中的模型的參數(shù)集合累加，否則，將新模型寫入模型庫。
14.終端，包括: 樣本存儲模塊，存儲供用戶朗讀的樣本；樣本采集模塊，通過采集用戶朗讀樣本的語音而獲取用戶語音樣本；以及記錄模塊，記錄用戶語音識別的成功率。
15.如權(quán)利要求14所述的終端，其中，樣本存儲模塊存儲的樣本包括靜態(tài)樣本和動態(tài)樣本，其中，動態(tài)樣本包含用戶被錯誤識別的語音內(nèi)容。
16.如權(quán)利要求15所述的終端，進一步包括更新啟動模塊，當(dāng)記錄模塊記錄的成功率低于預(yù)定閾值時，將樣本采集模塊采集的用戶朗讀動態(tài)樣本的語音而獲取用戶語音樣本發(fā)送給服務(wù)器，進行語音識別模型庫更新。
【文檔編號】G10L15/02GK103680495SQ201210364061
【公開日】2014年3月26日申請日期:2012年9月26日優(yōu)先權(quán)日:2012年9月26日
【發(fā)明者】郭勐, 楊蕾, 張儉, 于蓉蓉申請人:中國移動通信集團公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭勐;楊蕾;張儉;于蓉蓉;
技術(shù)所有人：中國移動通信集團公司;
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音識別模型相關(guān)技術(shù)

語音識別訓(xùn)練數(shù)據(jù)相關(guān)技術(shù)

語音識別訓(xùn)練相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

語音識別模型訓(xùn)練方法和裝置及終端的制作方法