語音識別方法及裝置的制造方法

文檔序號：10625460閱讀：718來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識別方法及裝置的制造方法
【專利摘要】一種語音識別方法及裝置，所述方法包括：將采集到的輸入聲音信號進(jìn)行處理，得到輸入聲音數(shù)據(jù)；對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑，得到降維后的所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)；采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)，計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值，所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到；當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值閾值時(shí)，對所述聲音數(shù)據(jù)進(jìn)行語音識別。上述的方案可以節(jié)約語音識別的時(shí)間和計(jì)算資源。
【專利說明】
語音識別方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及語音識別技術(shù)領(lǐng)域，特別是設(shè)及一種語音識別方法及裝置。
【背景技術(shù)】
[0002] 移動終端，是指可W在移動中使用的計(jì)算機(jī)設(shè)備，廣義地講包括手機(jī)、筆記本、平板電腦、P0S機(jī)、車載電腦等。隨著集成電路技術(shù)的飛速發(fā)展，移動終端已經(jīng)擁有了強(qiáng)大的處理能力，移動終端正在從簡單的通話工具變?yōu)橐粋€綜合信息處理平臺，運(yùn)也給移動終端增加了更加寬廣的發(fā)展空間。
[0003] 移動終端的使用，通常需要用戶集中一定的注意力。如今的移動終端設(shè)備都配備有觸摸屏，用戶需要觸摸所述觸摸屏，W執(zhí)行相應(yīng)的操作。但是，用戶無法觸碰到移動終端設(shè)備時(shí)，操作移動終端便會變得極其不方便。例如，當(dāng)用戶駕駛車輛或者手中提有物品的時(shí) 候。陽004] 語音識別方法和總聽系統(tǒng)（Always Listening System)的使用，使得可W對移動終端進(jìn)行非手動激活和操作。當(dāng)所述總聽系統(tǒng)檢測到聲音信號時(shí)，語音識別系統(tǒng)便會激活，并對檢測到的聲音信號進(jìn)行識別。之后，移動終端便會根據(jù)所識別出的聲音信號執(zhí)行相應(yīng) 的操作。例如，當(dāng)用戶輸入"撥打XX的手機(jī)"的語音時(shí)，移動終端便可W對用戶輸入的"撥打XX的手機(jī)"的語音信息進(jìn)行識別，并在正確識別后，從移動終端中獲取XX的手機(jī)號碼的信息，并撥打。陽0化]但是，現(xiàn)有技術(shù)中的語音識別方法，采用高斯混合模型（Gaussian mixture model，GMM)進(jìn)行語音識別，但是，在采用GMM進(jìn)行聲音訓(xùn)練數(shù)據(jù)的訓(xùn)練時(shí)，為了獲取更好的性能，通常需要很多的聲音訓(xùn)練數(shù)據(jù)，因此，現(xiàn)有技術(shù)中的語音識別方法存在著浪費(fèi)時(shí)間和計(jì)算資源的問題。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明實(shí)施例解決的問題是如何在進(jìn)行語音識別時(shí)，節(jié)約時(shí)間和計(jì)算資源。
[0007] 為解決上述問題，本發(fā)明實(shí)施例提供了一種語音識別方法，所述語音識別方法包括：
[0008] 將采集到的輸入聲音信號進(jìn)行處理，得到輸入聲音數(shù)據(jù)；
[0009] 對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑，得到降維后的所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)；
[0010] 采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)，計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值，所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到；
[0011] 當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí)，對所述聲音數(shù)據(jù)進(jìn)行語音識別。
[0012] 可選地，所述對所述聲音數(shù)據(jù)進(jìn)行幾何重塑，得到所述聲音數(shù)據(jù)的低維表征數(shù)據(jù)，包括：
[0013] 獲取所述輸入聲音數(shù)據(jù)的MFCC，及其對應(yīng)的MFCC頻帶數(shù)量的信息；
[0014] 將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙，并根據(jù)所得到的MFCC 頻帶數(shù)量的信息，計(jì)算得出所述輸入聲音數(shù)據(jù)的對數(shù)似然比；
[0015] 采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對數(shù)似然比，構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣；
[0016] 構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣；
[0017] 對所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣進(jìn)行拉普拉斯特征提取，得到拉普拉斯特征矩陣和特征值，將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
[0018] 可選地，所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到，包括：
[0019] 采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫，分別得到純凈語音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對應(yīng)的 MFCC頻帶數(shù)量的信息，W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息；
[0020] 根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù)，W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息，分別得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC 及其對應(yīng)的MFCC頻帶數(shù)量的信息；
[0021] 將所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分成為不同的時(shí)隙，并根據(jù)所得到的第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對應(yīng)的 MFCC頻帶數(shù)量的信息，分別計(jì)算得出所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比；
[0022] 根據(jù)計(jì)算得出的所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比，分別計(jì)算得出第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣；
[0023] 為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加，得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣；
[0024] 對所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取，得到拉普拉斯特征矩陣和特征值，將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。
[00巧]可選地，采用如下的公式計(jì)算對數(shù)似然比，包括：
[0026]
[0027] 其中，I表示對數(shù)似然比，XS表示MFCC對應(yīng)的MFCC頻帶數(shù)量，PriSNR表示先噪聲比，PostSNR表示后噪聲比。
[0028] 可選地，所述采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對數(shù)似然比，得到所述輸入聲音數(shù)據(jù)的特征矩陣，包括：
[0029]
[0030] 其中，X表示特征矩陣，t表示聲音數(shù)據(jù)帖的位序，且t = (1，2…腳，I表示對數(shù) 似然比。
[0031] 可選地，所述為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加，得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣，包括：
[0032]
[003引其中，T表示所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣，i、j分別表示所述聲音訓(xùn)練數(shù)據(jù)集的位序，P表示計(jì)算所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣的持續(xù)時(shí)間，且：
[0034]
[0035] 其中，X(i)表示第i個聲音數(shù)據(jù)訓(xùn)練集的特征矩陣，X(j)表示第j個聲音數(shù)據(jù)訓(xùn) 練集的特征矩陣。
[0036] 可選地，所述計(jì)算輸入聲音數(shù)據(jù)特征矩陣的特征向量與所述聲音數(shù)據(jù)訓(xùn)練集特征矩陣的特征向量之間的似然距離，包括：
[0037]
[0038] 其中，祭表示所述似然距離，S0J)表示所述輸入聲音數(shù)據(jù)特征矩陣的特征向量的光譜靈敏度，S(K)表示所述聲音數(shù)據(jù)訓(xùn)練集特征矩陣的特征向量的光譜靈敏度，0。、^分別表示S〇J)、S似的預(yù)測誤差。
[0039] 可選地，所述計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值，包括：
[0040]
[0041] 其中，VAD score表示所述輸入聲音數(shù)據(jù)的VAD分值，f(ipj表示為具有數(shù)個預(yù)設(shè)闊值的比較函數(shù)。
[0042] 本發(fā)明實(shí)施例還提供了一種語音識別裝置，所述裝置包括：
[0043] 數(shù)據(jù)處理單元，適于將采集到的輸入聲音信號進(jìn)行處理，得到輸入聲音數(shù)據(jù)；
[0044] 幾何重塑單元，適于對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑，得到降維后的所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)；
[0045] 計(jì)算單元，適于采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn) 練數(shù)據(jù)的低維表征數(shù)據(jù)，計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值，所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到；
[0046] 語音識別單元，適于當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí)，對所述聲音數(shù)據(jù)進(jìn)行語音識別。
[0047] 可選地，所述幾何重塑單元適于獲取所述輸入聲音數(shù)據(jù)的MFCC，及其對應(yīng)的MFCC 頻帶數(shù)量的信息；將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙，并根據(jù)所得到的MFCC頻帶數(shù)量的信息，計(jì)算得出所述輸入聲音數(shù)據(jù)的對數(shù)似然比；采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對數(shù)似然比，構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣；構(gòu)建所述輸入聲音數(shù)據(jù) 的特征矩陣對應(yīng)的相似矩陣；對所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣進(jìn)行拉普拉斯特征提取，得到拉普拉斯特征矩陣和特征值，將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
[0048] 可選地，所述裝置還包括訓(xùn)練單元，適于通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征，包括：
[0049] 采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫，分別得到純凈語音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對應(yīng)的 MFCC頻帶數(shù)量的信息，W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息；
[0050] 根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù)，W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息，分別得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC 及其對應(yīng)的MFCC頻帶數(shù)量的信息；
[005U 將所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分成為不同的時(shí)隙，并根據(jù)所得到的第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對應(yīng)的 MFCC頻帶數(shù)量的信息，分別計(jì)算得出所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比；
[0052] 根據(jù)計(jì)算得出的所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比，分別計(jì)算得出第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣；
[0053] 為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加，得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣；
[0054] 對所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取，得到拉普拉斯特征矩陣和特征值，將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。
[0055] 與現(xiàn)有技術(shù)相比，本發(fā)明的技術(shù)方案具有W下的優(yōu)點(diǎn)：
[0056] 通過幾何重塑的方法，得到聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)，僅采用較少的聲音訓(xùn) 練數(shù)據(jù)，便可W得到所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)，因此，可W節(jié)約時(shí)間和計(jì)算資源。
[0057] 進(jìn)一步地，在采用拉普拉斯特征提取對聲音訓(xùn)練數(shù)據(jù)和輸入聲音數(shù)據(jù)進(jìn)行特征提取，分別得到聲音訓(xùn)練數(shù)據(jù)對應(yīng)的分塊矩陣和輸入聲音數(shù)據(jù)對應(yīng)的分開矩陣時(shí)，分別使用到了聲音數(shù)據(jù)的MFCC和對數(shù)似然比的信息，不僅適于穩(wěn)態(tài)噪聲環(huán)境中的語音識別，也可W 在非穩(wěn)態(tài)噪聲環(huán)境中進(jìn)行語音識別，因此，可W提高提高語音識別的可靠性和適用范圍。
【附圖說明】
[005引圖1是本發(fā)明實(shí)施例中的一種語音識別方法的流程圖；
[0059] 圖2是本發(fā)明實(shí)施例中的所述對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑，得到所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)的流程圖；
[0060] 圖3是本發(fā)明實(shí)施例中的所述對所述聲音數(shù)據(jù)進(jìn)行幾何重塑，得到所述聲音數(shù)據(jù) 的低維表征數(shù)據(jù)的流程圖；
[0061] 圖4是本發(fā)明實(shí)施例中的一種語音識別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0062] 現(xiàn)有的語音識別方法，經(jīng)常使用VAD來進(jìn)行聲音檢巧U，如動態(tài)時(shí)間彎折法 (Dynamic Time Warping, DTW)等。
[0063] DTW的優(yōu)點(diǎn)是使用標(biāo)準(zhǔn)的特征提取算法提取輸入的聲音數(shù)據(jù)的特征量，再將輸入數(shù)據(jù)與預(yù)設(shè)的已注冊數(shù)據(jù)之間進(jìn)行比較，根據(jù)二者之間的差異確定是否需要對輸入數(shù)據(jù)進(jìn) 行檢測。
[0064] 當(dāng)移動終端的使用環(huán)境與已注冊的環(huán)境數(shù)據(jù)相似時(shí)，DTW可W具有較好的識別和觸發(fā)（聲音檢測功能的觸發(fā)）性能。而當(dāng)移動終端的使用環(huán)境變化時(shí)，DTW的觸發(fā)性能將會降低。甚至當(dāng)記錄所述已注冊的環(huán)境數(shù)據(jù)所使用的移動終端設(shè)備改變時(shí)，也會引起DTW性能的下降。 W65] 為解決上述問題，現(xiàn)有的一種語音識別方法，采用高斯混合模型 (Gaussianmix化re model, GMM)進(jìn)行語音識別，但是，為了獲取更好的語音識別性能，在采用GMM進(jìn)行聲音訓(xùn)練數(shù)據(jù)的訓(xùn)練時(shí)，通常需要很多的聲音訓(xùn)練數(shù)據(jù)。因此，現(xiàn)有技術(shù)中的語音識別方法存在著浪費(fèi)時(shí)間和計(jì)算資源的問題。
[0066] 為解決現(xiàn)有技術(shù)中存在的上述問題，本發(fā)明實(shí)施例采用的技術(shù)方案通過采用幾何重塑的方法，得到聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)，僅使用較少的聲音訓(xùn)練數(shù)據(jù)便可W得到所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)，可W節(jié)約語音識別的時(shí)間和計(jì)算資源。
[0067] 為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更為明顯易懂，下面結(jié)合附圖對本發(fā)明的具體實(shí)施例做詳細(xì)的說明。 W側(cè)圖1示出了本發(fā)明實(shí)施例中的一種語音識別方法的流程圖。如圖1所示的語音識別方法，可W包括：
[0069] 步驟S101 :將采集到的輸入聲音信號進(jìn)行處理，得到輸入聲音數(shù)據(jù)。
[0070] 在具體實(shí)施中，可W使用麥克風(fēng)（MIC)來對外界的聲音信號進(jìn)行采集當(dāng)采集到聲音信號時(shí)，并將所采集到的聲音信號進(jìn)行相應(yīng)的處理，如時(shí)域（Time domain)和頻域 (化equency domain)處理等，得到相應(yīng)的聲音數(shù)據(jù)。
[0071] 步驟S102 :對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑，得到降維后的所述輸入聲音數(shù)據(jù) 的低維表征數(shù)據(jù)。
[0072] 在具體實(shí)施中，可W采用多種方法對輸入聲音數(shù)據(jù)進(jìn)行幾何重塑，例如，拉普拉斯特征提?。↙曰pi曰ci曰η eigenm曰ps)。
[0073] 步驟S103 :采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)，計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值。
[0074] 在具體實(shí)施中，所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征也可W通過對所述聲音訓(xùn)練數(shù) 據(jù)進(jìn)行幾何重塑得到，例如，拉普拉斯特征提取等。
[0075] 在本發(fā)明一實(shí)施例中，當(dāng)?shù)玫剿鲚斎肼曇魯?shù)據(jù)的低維表征數(shù)據(jù)時(shí)，可W采用如下的公式計(jì)算得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù) 之間的似然距離：
[0076]
(1)
[0077] 其中，巧表示所述似然距離，U、K分別表示所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)（分塊矩陣）和所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)（分塊矩陣），S0J)表示所述輸入聲音數(shù)據(jù) 的低維表征數(shù)據(jù)的光譜靈敏度，s(κ)表示所述聲音數(shù)據(jù)訓(xùn)練集的低維表征數(shù)據(jù)的光譜靈敏度，〇u、分別表示S0J)、S似的預(yù)測誤差。
[0078] 接著，當(dāng)計(jì)算得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)和預(yù)設(shè)的聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)之間的似然距離之后，可W采用如下的公式計(jì)算得到所述輸入聲音數(shù)據(jù)的VAD分值，包括：
[0079] (2)
[0080] 其中，VAD score表示所述VAD分值，巧聲).表示為具有數(shù)個預(yù)設(shè)闊值的比較函數(shù)。其中，f((p)中的預(yù)設(shè)闊值可W根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行確定。
[0081] 步驟S104 :當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí)，對所述聲音數(shù)據(jù) 進(jìn)行語音識別。
[0082] 在具體實(shí)施中，當(dāng)計(jì)算得到的VAD分值大于預(yù)設(shè)的分值闊值大于預(yù)設(shè)的分值闊值時(shí)，說明輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)之間具有較大的相似性，進(jìn)而可W表明所述輸入聲音數(shù)據(jù)中包括有語音信息，此時(shí)，可W對輸入聲音數(shù)據(jù)進(jìn)行語音識別。
[0083] 在具體實(shí)施中，當(dāng)識別出所述輸入聲音數(shù)據(jù)時(shí)，移動終端可W執(zhí)行與所識別出的輸入聲音數(shù)據(jù)對應(yīng)的操作，例如，撥打XX的電話，打開微博，打開化cebook等。
[0084] 在具體實(shí)施中，為了進(jìn)行VAD檢測，首先可W通過聲音訓(xùn)練數(shù)據(jù)的訓(xùn)練得到聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征，W便在采集到輸入聲音數(shù)據(jù)時(shí)，確定是否需要對輸入聲音數(shù)據(jù) 進(jìn)行語音檢測。
[0085] 圖2示出了本發(fā)明實(shí)施例中的所述對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑，得到所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)的流程圖。如圖2所示的所述對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑，得到所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)，可W包括：
[0086] 步驟S201 :采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫，分別得到純凈語音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC 及其對應(yīng)的MFCC頻帶數(shù)量的信息，W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù) 量的信息。
[0087] 在具體實(shí)施中，為了獲取相應(yīng)的聲音訓(xùn)練數(shù)據(jù)，首先需要構(gòu)建純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫。從所構(gòu)建的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn) 態(tài)噪聲數(shù)據(jù)庫中相應(yīng)的純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù)和穩(wěn)態(tài)噪聲數(shù)據(jù)，可W分別得到對應(yīng)的純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù)和穩(wěn)態(tài)噪聲數(shù)據(jù)的化頻率的信息。
[0088] Mel頻率是基于人耳聽覺特性提出來的，它與化頻率成非線性對應(yīng)關(guān)系。Mel頻率倒譜系數(shù)（MFCC)則是利用Mel頻率與化頻率成之間的運(yùn)種非線性對應(yīng)關(guān)系，計(jì)算得到的化頻譜特征。因此，利用化頻率與MFCC之間的對應(yīng)關(guān)系，便可W得到純凈語音數(shù)據(jù)的 MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息，W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息。
[0089] 步驟S202 :根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù)，W及穩(wěn)態(tài)噪聲信息對應(yīng)的 MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息，分別得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn) 練集的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息。
[0090] 在具體實(shí)施中，當(dāng)?shù)玫郊儍粽Z音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù)，W及穩(wěn)態(tài)噪聲信息對應(yīng)的 MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息，可W采用如下的公式分別得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息：
[0091] xi(n) = χ,ρ(η) (3) 陽092]而(η) = Xsp (η) +Xst (η) (4) 陽OW] & (η) = X叩（η) +Xn〇n St (η)妨陽094] Χ4 (η) = Xnon St (η) +Χ" (η)化）陽095] Xs (η) = Xsp (η)+Xst (η)+Xn〇n St (η) (7)
[0096] 其中，xi(n)、X2(n)、X3(n)、x>)和X5(n)分別表示第一、第二第三第四和第五聲音訓(xùn)練數(shù)據(jù)的MFCC，χ,ρ(η)表示純凈語音數(shù)據(jù)的MFCC，x""",t(n)表示非穩(wěn)態(tài)噪聲數(shù)據(jù)的 MFCC，x,t(n)表示穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC。
[0097] 當(dāng)?shù)玫缴鲜龅牡谝弧⒌诙?、第Ξ、第四和第五聲音?shù)據(jù)訓(xùn)練集的MFCC時(shí)，并可W得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC對應(yīng)的MFCC頻帶數(shù)量的信息。
[0098] 步驟S203:將所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分成為不同的時(shí)隙，并根據(jù)所得到的第一、第二第三第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對應(yīng)的MFCC頻帶數(shù)量的信息，分別計(jì)算得出所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn) 練集的對數(shù)似然比。
[0099] 在具體實(shí)施中，當(dāng)?shù)玫缴鲜龅牡谝弧⒌诙?、第Ξ、第四和第五聲音?shù)據(jù)訓(xùn)練集的 MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息，可W采用如下的公式分別計(jì)算得到相應(yīng)的對數(shù)似然比：
[0100]
(8) 陽1〇U 其中，I表示對數(shù)似然比，XS表示相應(yīng)的聲音訓(xùn)練數(shù)據(jù)的MFCC對應(yīng)的MFCC頻帶數(shù)量，PriSNR表示先噪聲比，PostSNR表示后噪聲比。
[0102] 步驟S204 :根據(jù)計(jì)算得出的所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比，分別計(jì)算得出第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣。
[0103] 在具體實(shí)施中，當(dāng)?shù)玫降谝?、第二、第Ξ、第四和第五聲音?shù)據(jù)訓(xùn)練集的對數(shù)似然比時(shí)，便可W得到所述輸入聲音數(shù)據(jù)的特征矩陣：
[0104]
(谷)
[01化]其中，X(i)表示第i個聲音訓(xùn)練數(shù)據(jù)集對應(yīng)的特征矩陣，t表示聲音數(shù)據(jù)帖的位序，且t = (1，2…腳，I (i)表示第i個聲音訓(xùn)練數(shù)據(jù)集對應(yīng)的對數(shù)似然比。
[0106] 步驟S205 :為第一、第二第三第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng) 的權(quán)重并相加，得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣。
[0107] 在具體實(shí)施中，當(dāng)?shù)玫降谝?、第二、第Ξ、第四和第五聲音?shù)據(jù)訓(xùn)練集的特征矩陣之后，通過為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加，可W得到所述聲音訓(xùn)練數(shù)據(jù)對應(yīng)的相似矩陣：
[0110] 其中，τ表示所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣，i、j分別表示所述聲音訓(xùn)練數(shù)據(jù)集的位序，P表示計(jì)算所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣的持續(xù)時(shí)間，x(i)表示第i個聲音數(shù)據(jù)訓(xùn)練集的特征矩陣，X(j)表示第j個聲音數(shù)據(jù)訓(xùn)練集的特征矩陣。陽111] 當(dāng)一個特定的語音數(shù)據(jù)帖中包含有語音或者非穩(wěn)態(tài)噪聲時(shí)，通過公式（8)計(jì)算得出的對數(shù)似然比就會較大，公式（11)中的指數(shù)項(xiàng)越等于零，那么該聲音數(shù)據(jù)帖的特征向量 (低維表征數(shù)據(jù)）將會接近于該數(shù)據(jù)帖對應(yīng)的MFCC。反之，當(dāng)一個特定的聲音數(shù)據(jù)帖中僅包含有穩(wěn)態(tài)噪聲的信息時(shí)，計(jì)算得出的對數(shù)似然比就會較小，公式（11)中的指數(shù)項(xiàng)就會約等于1，那么，僅包含有穩(wěn)態(tài)噪聲的聲音數(shù)據(jù)帖的特征向量就約等于零。
[0112] 因此，將不含有非穩(wěn)態(tài)噪聲的聲音數(shù)據(jù)帖與含有非穩(wěn)態(tài)噪聲的其他聲音數(shù)據(jù)帖進(jìn) 行區(qū)別的特征在于：不含有非穩(wěn)態(tài)噪聲的相鄰的聲音數(shù)據(jù)帖之間幾乎是相同的。由于相鄰的聲音數(shù)據(jù)帖之間存在較大的距離，因此，如果可W像在公式（8)中那樣進(jìn)行權(quán)重函數(shù) (wei曲t化nction)的選取，即便兩個聲音數(shù)據(jù)帖之間非常相似，只要他們分別來自不同的類別，那么他們之間的相似性也將會變得很小。
[0113] 步驟S206 :對所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取，得到拉普拉斯特征矩陣和特征值，將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。
[0114] 在具體實(shí)施中，當(dāng)聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯矩陣特征提取的具體過程，可W包括：
[0115] 首先構(gòu)建相似圖形G，其中，例如使用k最近鄰化-Nearest Nei曲bor，KNN)分類算法，將每個點(diǎn)最近的K個點(diǎn)連上邊，其中，K為預(yù)先設(shè)定的值。陽116] 接著，確定相似圖形G點(diǎn)與點(diǎn)之間的權(quán)重，例如選用熱核函數(shù)來確定，如果點(diǎn)i和點(diǎn)j相連，那么它們關(guān)系的權(quán)重設(shè)定為：陽 117]
( 12 ) 陽11引其中Wi i表示點(diǎn)i和點(diǎn)j之間的權(quán)重。
[0119] 另外一種可選的簡化設(shè)定是如果點(diǎn)i，j相連則Wii為1，否則W U為0。
[0120] 然后，計(jì)算拉普拉斯矩陣L的特征向量與特征值：
[0121] Ly = λ Dy (13)
[0122] 其中，D是對角矩陣，且滿足：陽 123] Dii =Σ jWji (14) 陽 124] L = D-W (巧）
[01巧]最后，使用最小的預(yù)設(shè)個數(shù)個非零特征值對應(yīng)的特征向量（分塊矩陣）K，作為降維后的所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。其中，所述特征向量K中的非零特征值的個數(shù) 可W根據(jù)實(shí)際的需要進(jìn)行設(shè)置。陽126] 在具體實(shí)施中，通過聲音訓(xùn)練數(shù)據(jù)的訓(xùn)練得到降維后的聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)W后，當(dāng)采集到輸入聲音數(shù)據(jù)時(shí)，同樣對輸入聲音數(shù)據(jù)進(jìn)行幾何重塑，得到降維后的輸入聲音數(shù)據(jù)的幾何重塑，得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
[0127] 運(yùn)里需要指出的是，通過聲音訓(xùn)練數(shù)據(jù)得到聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)的過程，與得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)的過程相似，但仍然存在著不同之處。為了便于區(qū) 另IJ，下面將對如何得到對輸入聲音數(shù)據(jù)進(jìn)行幾何重塑，得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù) 做進(jìn)一步詳細(xì)的介紹。
[0128] 圖3示出了本發(fā)明實(shí)施例中的所述對所述聲音數(shù)據(jù)進(jìn)行幾何重塑，得到所述聲音數(shù)據(jù)的低維表征數(shù)據(jù)的流程圖。如圖3所示的所述對所述聲音數(shù)據(jù)進(jìn)行幾何重塑，得到所述聲音數(shù)據(jù)的低維表征數(shù)據(jù)，可W包括：
[0129] 步驟S301 :獲取所述輸入聲音數(shù)據(jù)的MFCC，及其對應(yīng)的MFCC頻帶數(shù)量的信息。
[0130] 在具體實(shí)施中，當(dāng)采集到輸入聲音數(shù)據(jù)時(shí)，利用化頻率與MFCC之間的對應(yīng)關(guān)系，便可W得到輸入聲音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息。陽13U 步驟S302 :將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙，并根據(jù)所得到的MFCC頻帶數(shù)量的信息，計(jì)算得出所述輸入聲音數(shù)據(jù)的對數(shù)似然比。陽132] 在具體實(shí)施中，可W上述的公式（8)計(jì)算得出所述輸入聲音數(shù)據(jù)的對數(shù)似然比。
[0133] 步驟S303 :采用計(jì)算得出的輸入聲音數(shù)據(jù)的對數(shù)似然比，構(gòu)建所述輸入聲音數(shù)據(jù) 的特征矩陣。
[0134] 在具體實(shí)施中，當(dāng)計(jì)算得到輸入聲音數(shù)據(jù)的對數(shù)似然比之后，可W構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣：陽13引
（化)
[0136] 其中，Z表示輸入聲音數(shù)據(jù)的特征矩陣，t表示輸入聲音數(shù)據(jù)帖的位序，且t = (1，2…腳，I表示輸入聲音數(shù)據(jù)的對數(shù)似然比。
[0137] 步驟S304 :對所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣進(jìn)行拉普拉斯特征提取，得到拉普拉斯特征矩陣和特征值，將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
[0138] 在具體實(shí)施中，對輸入聲音數(shù)據(jù)的特征矩陣進(jìn)行拉普拉斯矩陣特征提取可W包括：
[0139] 首先構(gòu)建相似圖形G，其中，例如使用k最近鄰化-Nearest Nei曲bor，KNN)分類算法，將每個點(diǎn)最近的K個點(diǎn)連上邊，其中，K為預(yù)先設(shè)定的值。
[0140] 接著，確定相似圖形G點(diǎn)與點(diǎn)之間的權(quán)重，例如選用熱核函數(shù)來確定，如果點(diǎn)i和點(diǎn)j相連，那么它們關(guān)系的權(quán)重設(shè)定為：陽14。
（巧) 陽1創(chuàng)其中Wi i表示點(diǎn)i和點(diǎn)j之間的權(quán)重。陽14引另外一種可選的簡化設(shè)定是如果點(diǎn)i，j相連則Wi,為1，否則W 1,為0。
[0144] 然后，計(jì)算拉普拉斯矩陣L的特征向量與特征值：
[0145] Ly=入 Dy (13) 陽146] 其中，D是對角矩陣，且滿足：陽147] Dii =Σ jWji (14)
[0148] L = D-W (15)
[0149] 最后，使用最小的預(yù)設(shè)個數(shù)個非零特征值對應(yīng)的特征向量（分塊矩陣）U，作為降維后的所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。其中，所述特征向量U中的非零特征值的個數(shù) 可W根據(jù)實(shí)際的需要進(jìn)行設(shè)置。
[0150] 圖4示出了本發(fā)明實(shí)施例中的一種語音識別裝置的結(jié)構(gòu)示意圖。如圖4所示的語音識別裝置400,可W包括數(shù)據(jù)處理單元401、幾何重塑單元402、計(jì)算單元403和語音識別單元404,其中：陽151] 數(shù)據(jù)處理單元401，適于將采集到的輸入聲音信號進(jìn)行處理，得到輸入聲音數(shù)據(jù)。陽152] 幾何重塑單元402，適于對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑，得到降維后的所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
[0153] 在具體實(shí)施中，所述幾何重塑單元402適于獲取所述輸入聲音數(shù)據(jù)的MFCC，及其對應(yīng)的MFCC頻帶數(shù)量的信息；將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙，并根據(jù)所得到的MFCC頻帶數(shù)量的信息，計(jì)算得出所述輸入聲音數(shù)據(jù)的對數(shù)似然比；采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對數(shù)似然比，構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣；構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣；對所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣進(jìn)行拉普拉斯特征提取，得到拉普拉斯特征矩陣和特征值，將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
[0154] 計(jì)算單元403,適于采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)，計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值，所述聲音訓(xùn)練數(shù)據(jù) 的低維數(shù)據(jù)表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到。
[01巧]在具體實(shí)施中，如圖4所示的語音識別裝置還可W包括訓(xùn)練單元404，其中：
[0156] 訓(xùn)練單元404,適于通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到所述聲音訓(xùn)練數(shù) 據(jù)的低維數(shù)據(jù)表征，包括：采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù) 庫，分別得到純凈語音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的 MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息，W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息；根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù)，W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC 及其對應(yīng)的MFCC頻帶數(shù)量的信息，分別得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息；將所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn) 練集的MFCC分別劃分成為不同的時(shí)隙，并根據(jù)所得到的第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對應(yīng)的MFCC頻帶數(shù)量的信息，分別計(jì)算得出所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比；根據(jù)計(jì)算得出的所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比，分別計(jì)算得出第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn) 練集的特征矩陣；為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加，得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣；對所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取，得到拉普拉斯特征矩陣和特征值，將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng) 的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。陽157] 語音識別單元405,適于當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí)，對所述聲音數(shù)據(jù)進(jìn)行語音識別。
[0158] 本領(lǐng)域普通技術(shù)人員可W理解上述實(shí)施例的各種方法中的全部或部分步驟是可 w通過程序來指令相關(guān)的硬件來完成，該程序可w存儲于計(jì)算機(jī)可讀存儲介質(zhì)中，存儲介質(zhì)可W包括：ROM、RAM、磁盤或光盤等。陽159] W上對本發(fā)明實(shí)施例的方法及系統(tǒng)做了詳細(xì)的介紹，本發(fā)明并不限于此。任何本領(lǐng)域技術(shù)人員，在不脫離本發(fā)明的精神和范圍內(nèi)，均可作各種更動與修改，因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)W權(quán)利要求所限定的范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種語音識別方法，其特征在于，包括：將采集到的輸入聲音信號進(jìn)行處理，得到輸入聲音數(shù)據(jù)；對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑，得到降維后的所述輸入聲音數(shù)據(jù)的低維表征數(shù) 據(jù)；采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)，計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值，所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到；當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí)，對所述聲音數(shù)據(jù)進(jìn)行語音識別。2. 根據(jù)權(quán)利要求1所述的語音識別方法，其特征在于，所述對所述聲音數(shù)據(jù)進(jìn)行幾何重塑，得到所述聲音數(shù)據(jù)的低維表征數(shù)據(jù)，包括：獲取所述輸入聲音數(shù)據(jù)的MFCC，及其對應(yīng)的MFCC頻帶數(shù)量的信息；將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙，并根據(jù)所得到的MFCC頻帶數(shù)量的信息，計(jì)算得出所述輸入聲音數(shù)據(jù)的對數(shù)似然比；采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對數(shù)似然比，構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣；構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣；對所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣進(jìn)行拉普拉斯特征提取，得到拉普拉斯特征矩陣和特征值，將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。3. 根據(jù)權(quán)利要求1所述的語音識別方法，其特征在于，所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù) 表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到，包括：采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫，分別得到純凈語音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對應(yīng)的MFCC 頻帶數(shù)量的信息，W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息；根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù)，W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的 MFCC頻帶數(shù)量的信息，分別得到第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息；將所述第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分成為不同的時(shí) 隙，并根據(jù)所得到的第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對應(yīng)的MFCC頻帶數(shù)量的信息，分別計(jì)算得出所述第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比；根據(jù)計(jì)算得出的所述第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比，分別計(jì)算得出第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣；為第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加，得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣；對所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取，得到拉普拉斯特征矩陣和特征值，將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。4. 根據(jù)權(quán)利要求2或3所述的語音識別方法，其特征在于，采用如下的公式計(jì)算對數(shù)似然比，包括：其中，I表示對數(shù)似然比，XS表示MFCC對應(yīng)的MFCC頻帶數(shù)量，PriSNR表示先噪聲比，PostSNR表示后噪聲比。5. 根據(jù)權(quán)利要求4所述的語音識別方法，其特征在于，所述采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對數(shù)似然比，得到所述輸入聲音數(shù)據(jù)的特征矩陣，包括：其中，X表示特征矩陣，t表示聲音數(shù)據(jù)帖的位序，且t= (1,2...腳，I表示對數(shù)似然比。6. 根據(jù)權(quán)利要求5所述的語音識別方法，其特征在于，所述為第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加，得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣，包括：其中，T表示所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣，i、j分別表示所述聲音訓(xùn)練數(shù)據(jù)集的位序，P表示計(jì)算所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣的持續(xù)時(shí)間，且：其中，X(i)表示第i個聲音數(shù)據(jù)訓(xùn)練集的特征矩陣，X(j)表示第j個聲音數(shù)據(jù)訓(xùn)練集的特征矩陣。7. 根據(jù)權(quán)利要求6所述的語音識別方法，其特征在于，所述計(jì)算輸入聲音數(shù)據(jù)特征矩陣的特征向量與所述聲音數(shù)據(jù)訓(xùn)練集特征矩陣的特征向量之間的似然距離，包括：其中，解表示所述似然距離，S0J)表示所述輸入聲音數(shù)據(jù)特征矩陣的特征向量的光譜靈敏度，S (K)表示所述聲音數(shù)據(jù)訓(xùn)練集特征矩陣的特征向量的光譜靈敏度，0。、〇><分別表示S扣)、S化）的預(yù)測誤差。8. 根據(jù)權(quán)利要求7所述的語音識別方法，其特征在于，所述計(jì)算得出所述輸入聲音數(shù) 據(jù)的VAD分值，包括：其中，VAD score表示所述輸入聲音數(shù)據(jù)的VAD分值，f(q))表示為具有數(shù)個預(yù)設(shè)闊值的比較函數(shù)。9. 一種語音識別裝置，其特征在于，包括：數(shù)據(jù)處理單元，適于將采集到的輸入聲音信號進(jìn)行處理，得到輸入聲音數(shù)據(jù)；幾何重塑單元，適于對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑，得到降維后的所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)；計(jì)算單元，適于采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù) 據(jù)的低維表征數(shù)據(jù)，計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值，所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù) 據(jù)表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到；語音識別單元，適于當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí)，對所述聲音數(shù)據(jù)進(jìn)行語音識別。10. 根據(jù)權(quán)利要求9所述的語音識別裝置，其特征在于，所述幾何重塑單元適于獲取所述輸入聲音數(shù)據(jù)的MFCC，及其對應(yīng)的MFCC頻帶數(shù)量的信息；將所獲取的所述輸入聲音數(shù)據(jù) 的MFCC劃分成不同的時(shí)隙，并根據(jù)所得到的MFCC頻帶數(shù)量的信息，計(jì)算得出所述輸入聲音數(shù)據(jù)的對數(shù)似然比；采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對數(shù)似然比，構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣；構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣；對所述輸入聲音數(shù) 據(jù)的特征矩陣對應(yīng)的相似矩陣進(jìn)行拉普拉斯特征提取，得到拉普拉斯特征矩陣和特征值，將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。11. 根據(jù)權(quán)利要求9所述的語音識別裝置，其特征在于，還包括訓(xùn)練單元，適于通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征，包括：采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫，分別得到純凈語音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對應(yīng)的MFCC 頻帶數(shù)量的信息，W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息；根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù)，W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的 MFCC頻帶數(shù)量的信息，分別得到第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息；將所述第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分成為不同的時(shí) 隙，并根據(jù)所得到的第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對應(yīng)的MFCC頻帶數(shù)量的信息，分別計(jì)算得出所述第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比；根據(jù)計(jì)算得出的所述第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比，分別計(jì)算得出第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣；為第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加，得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣；對所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取，得到拉普拉斯特征矩陣和特征值，將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。
【文檔編號】G10L15/14GK105989838SQ201510051345
【公開日】2016年10月5日
【申請日】2015年1月30日
【發(fā)明人】孫廷瑋, 林福輝
【申請人】展訊通信（上海）有限公司

完整全部詳細(xì)技術(shù)資料下載