亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

語音識別方法及裝置的制造方法

文檔序號:10625460閱讀:718來源:國知局
語音識別方法及裝置的制造方法
【專利摘要】一種語音識別方法及裝置,所述方法包括:將采集到的輸入聲音信號進(jìn)行處理,得到輸入聲音數(shù)據(jù);對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù);采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到;當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值閾值時(shí),對所述聲音數(shù)據(jù)進(jìn)行語音識別。上述的方案可以節(jié)約語音識別的時(shí)間和計(jì)算資源。
【專利說明】
語音識別方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及語音識別技術(shù)領(lǐng)域,特別是設(shè)及一種語音識別方法及裝置。
【背景技術(shù)】
[0002] 移動終端,是指可W在移動中使用的計(jì)算機(jī)設(shè)備,廣義地講包括手機(jī)、筆記本、平 板電腦、P0S機(jī)、車載電腦等。隨著集成電路技術(shù)的飛速發(fā)展,移動終端已經(jīng)擁有了強(qiáng)大的 處理能力,移動終端正在從簡單的通話工具變?yōu)橐粋€綜合信息處理平臺,運(yùn)也給移動終端 增加了更加寬廣的發(fā)展空間。
[0003] 移動終端的使用,通常需要用戶集中一定的注意力。如今的移動終端設(shè)備都配備 有觸摸屏,用戶需要觸摸所述觸摸屏,W執(zhí)行相應(yīng)的操作。但是,用戶無法觸碰到移動終端 設(shè)備時(shí),操作移動終端便會變得極其不方便。例如,當(dāng)用戶駕駛車輛或者手中提有物品的時(shí) 候。 陽004] 語音識別方法和總聽系統(tǒng)(Always Listening System)的使用,使得可W對移動 終端進(jìn)行非手動激活和操作。當(dāng)所述總聽系統(tǒng)檢測到聲音信號時(shí),語音識別系統(tǒng)便會激活, 并對檢測到的聲音信號進(jìn)行識別。之后,移動終端便會根據(jù)所識別出的聲音信號執(zhí)行相應(yīng) 的操作。例如,當(dāng)用戶輸入"撥打XX的手機(jī)"的語音時(shí),移動終端便可W對用戶輸入的"撥 打XX的手機(jī)"的語音信息進(jìn)行識別,并在正確識別后,從移動終端中獲取XX的手機(jī)號碼的 信息,并撥打。 陽0化]但是,現(xiàn)有技術(shù)中的語音識別方法,采用高斯混合模型(Gaussian mixture model,GMM)進(jìn)行語音識別,但是,在采用GMM進(jìn)行聲音訓(xùn)練數(shù)據(jù)的訓(xùn)練時(shí),為了獲取更好的 性能,通常需要很多的聲音訓(xùn)練數(shù)據(jù),因此,現(xiàn)有技術(shù)中的語音識別方法存在著浪費(fèi)時(shí)間和 計(jì)算資源的問題。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明實(shí)施例解決的問題是如何在進(jìn)行語音識別時(shí),節(jié)約時(shí)間和計(jì)算資源。
[0007] 為解決上述問題,本發(fā)明實(shí)施例提供了一種語音識別方法,所述語音識別方法包 括:
[0008] 將采集到的輸入聲音信號進(jìn)行處理,得到輸入聲音數(shù)據(jù);
[0009] 對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸入聲音數(shù)據(jù)的低維表征 數(shù)據(jù);
[0010] 采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù)據(jù)的低維 表征數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征通 過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到;
[0011] 當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí),對所述聲音數(shù)據(jù)進(jìn)行語音識 別。
[0012] 可選地,所述對所述聲音數(shù)據(jù)進(jìn)行幾何重塑,得到所述聲音數(shù)據(jù)的低維表征數(shù)據(jù), 包括:
[0013] 獲取所述輸入聲音數(shù)據(jù)的MFCC,及其對應(yīng)的MFCC頻帶數(shù)量的信息;
[0014] 將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙,并根據(jù)所得到的MFCC 頻帶數(shù)量的信息,計(jì)算得出所述輸入聲音數(shù)據(jù)的對數(shù)似然比;
[0015] 采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對數(shù)似然比,構(gòu)建所述輸入聲音數(shù)據(jù)的特征 矩陣;
[0016] 構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣;
[0017] 對所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉 普拉斯特征矩陣和特征值,將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述輸入 聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
[0018] 可選地,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重 塑得到,包括:
[0019] 采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫,分別得到純 凈語音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對應(yīng)的 MFCC頻帶數(shù)量的信息,W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息;
[0020] 根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對 應(yīng)的MFCC頻帶數(shù)量的信息,分別得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC 及其對應(yīng)的MFCC頻帶數(shù)量的信息;
[0021] 將所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分成為不同 的時(shí)隙,并根據(jù)所得到的第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對應(yīng)的 MFCC頻帶數(shù)量的信息,分別計(jì)算得出所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的 對數(shù)似然比;
[0022] 根據(jù)計(jì)算得出的所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然 比,分別計(jì)算得出第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣;
[0023] 為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相 加,得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣;
[0024] 對所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉斯特征矩陣 和特征值,將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維 表征數(shù)據(jù)。
[00巧]可選地,采用如下的公式計(jì)算對數(shù)似然比,包括:
[0026]
[0027] 其中,I表示對數(shù)似然比,XS表示MFCC對應(yīng)的MFCC頻帶數(shù)量,PriSNR表示先噪 聲比,PostSNR表示后噪聲比。
[0028] 可選地,所述采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對數(shù)似然比,得到所述輸入聲 音數(shù)據(jù)的特征矩陣,包括:
[0029]
[0030] 其中,X表示特征矩陣,t表示聲音數(shù)據(jù)帖的位序,且t = (1,2…腳,I表示對數(shù) 似然比。
[0031] 可選地,所述為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相 應(yīng)的權(quán)重并相加,得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣,包括:
[0032]
[003引其中,T表示所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣,i、j分別表示所述聲音訓(xùn)練數(shù)據(jù)集的 位序,P表示計(jì)算所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣的持續(xù)時(shí)間,且:
[0034]
[0035] 其中,X(i)表示第i個聲音數(shù)據(jù)訓(xùn)練集的特征矩陣,X(j)表示第j個聲音數(shù)據(jù)訓(xùn) 練集的特征矩陣。
[0036] 可選地,所述計(jì)算輸入聲音數(shù)據(jù)特征矩陣的特征向量與所述聲音數(shù)據(jù)訓(xùn)練集特征 矩陣的特征向量之間的似然距離,包括:
[0037]
[0038] 其中,祭表示所述似然距離,S0J)表示所述輸入聲音數(shù)據(jù)特征矩陣的特征向量的 光譜靈敏度,S(K)表示所述聲音數(shù)據(jù)訓(xùn)練集特征矩陣的特征向量的光譜靈敏度,0。、^分 別表示S〇J)、S似的預(yù)測誤差。
[0039] 可選地,所述計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,包括:
[0040]
[0041] 其中,VAD score表示所述輸入聲音數(shù)據(jù)的VAD分值,f(ipj表示為具有數(shù)個預(yù)設(shè)闊 值的比較函數(shù)。
[0042] 本發(fā)明實(shí)施例還提供了一種語音識別裝置,所述裝置包括:
[0043] 數(shù)據(jù)處理單元,適于將采集到的輸入聲音信號進(jìn)行處理,得到輸入聲音數(shù)據(jù);
[0044] 幾何重塑單元,適于對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸入 聲音數(shù)據(jù)的低維表征數(shù)據(jù);
[0045] 計(jì)算單元,適于采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn) 練數(shù)據(jù)的低維表征數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,所述聲音訓(xùn)練數(shù)據(jù)的低 維數(shù)據(jù)表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到;
[0046] 語音識別單元,適于當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí),對所述 聲音數(shù)據(jù)進(jìn)行語音識別。
[0047] 可選地,所述幾何重塑單元適于獲取所述輸入聲音數(shù)據(jù)的MFCC,及其對應(yīng)的MFCC 頻帶數(shù)量的信息;將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙,并根據(jù)所得到 的MFCC頻帶數(shù)量的信息,計(jì)算得出所述輸入聲音數(shù)據(jù)的對數(shù)似然比;采用計(jì)算得出的所述 輸入聲音數(shù)據(jù)的對數(shù)似然比,構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣;構(gòu)建所述輸入聲音數(shù)據(jù) 的特征矩陣對應(yīng)的相似矩陣;對所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣進(jìn)行拉普拉 斯特征提取,得到拉普拉斯特征矩陣和特征值,將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特 征向量作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
[0048] 可選地,所述裝置還包括訓(xùn)練單元,適于通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑 得到所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征,包括:
[0049] 采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫,分別得到純 凈語音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對應(yīng)的 MFCC頻帶數(shù)量的信息,W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息;
[0050] 根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對 應(yīng)的MFCC頻帶數(shù)量的信息,分別得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC 及其對應(yīng)的MFCC頻帶數(shù)量的信息;
[005U 將所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分成為不同 的時(shí)隙,并根據(jù)所得到的第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對應(yīng)的 MFCC頻帶數(shù)量的信息,分別計(jì)算得出所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的 對數(shù)似然比;
[0052] 根據(jù)計(jì)算得出的所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然 比,分別計(jì)算得出第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣;
[0053] 為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相 加,得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣;
[0054] 對所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉斯特征矩陣 和特征值,將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維 表征數(shù)據(jù)。
[0055] 與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案具有W下的優(yōu)點(diǎn):
[0056] 通過幾何重塑的方法,得到聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),僅采用較少的聲音訓(xùn) 練數(shù)據(jù),便可W得到所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),因此,可W節(jié)約時(shí)間和計(jì)算資源。
[0057] 進(jìn)一步地,在采用拉普拉斯特征提取對聲音訓(xùn)練數(shù)據(jù)和輸入聲音數(shù)據(jù)進(jìn)行特征提 取,分別得到聲音訓(xùn)練數(shù)據(jù)對應(yīng)的分塊矩陣和輸入聲音數(shù)據(jù)對應(yīng)的分開矩陣時(shí),分別使用 到了聲音數(shù)據(jù)的MFCC和對數(shù)似然比的信息,不僅適于穩(wěn)態(tài)噪聲環(huán)境中的語音識別,也可W 在非穩(wěn)態(tài)噪聲環(huán)境中進(jìn)行語音識別,因此,可W提高提高語音識別的可靠性和適用范圍。
【附圖說明】
[005引圖1是本發(fā)明實(shí)施例中的一種語音識別方法的流程圖;
[0059] 圖2是本發(fā)明實(shí)施例中的所述對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑,得到所述聲音 訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)的流程圖;
[0060] 圖3是本發(fā)明實(shí)施例中的所述對所述聲音數(shù)據(jù)進(jìn)行幾何重塑,得到所述聲音數(shù)據(jù) 的低維表征數(shù)據(jù)的流程圖;
[0061] 圖4是本發(fā)明實(shí)施例中的一種語音識別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0062] 現(xiàn)有的語音識別方法,經(jīng)常使用VAD來進(jìn)行聲音檢巧U,如動態(tài)時(shí)間彎折法 (Dynamic Time Warping, DTW)等。
[0063] DTW的優(yōu)點(diǎn)是使用標(biāo)準(zhǔn)的特征提取算法提取輸入的聲音數(shù)據(jù)的特征量,再將輸入 數(shù)據(jù)與預(yù)設(shè)的已注冊數(shù)據(jù)之間進(jìn)行比較,根據(jù)二者之間的差異確定是否需要對輸入數(shù)據(jù)進(jìn) 行檢測。
[0064] 當(dāng)移動終端的使用環(huán)境與已注冊的環(huán)境數(shù)據(jù)相似時(shí),DTW可W具有較好的識別和 觸發(fā)(聲音檢測功能的觸發(fā))性能。而當(dāng)移動終端的使用環(huán)境變化時(shí),DTW的觸發(fā)性能將會 降低。甚至當(dāng)記錄所述已注冊的環(huán)境數(shù)據(jù)所使用的移動終端設(shè)備改變時(shí),也會引起DTW性 能的下降。 W65] 為解決上述問題,現(xiàn)有的一種語音識別方法,采用高斯混合模型 (Gaussianmix化re model, GMM)進(jìn)行語音識別,但是,為了獲取更好的語音識別性能,在采 用GMM進(jìn)行聲音訓(xùn)練數(shù)據(jù)的訓(xùn)練時(shí),通常需要很多的聲音訓(xùn)練數(shù)據(jù)。因此,現(xiàn)有技術(shù)中的語 音識別方法存在著浪費(fèi)時(shí)間和計(jì)算資源的問題。
[0066] 為解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明實(shí)施例采用的技術(shù)方案通過采用幾何 重塑的方法,得到聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),僅使用較少的聲音訓(xùn)練數(shù)據(jù)便可W得到 所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),可W節(jié)約語音識別的時(shí)間和計(jì)算資源。
[0067] 為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更為明顯易懂,下面結(jié)合附圖對本發(fā)明 的具體實(shí)施例做詳細(xì)的說明。 W側(cè)圖1示出了本發(fā)明實(shí)施例中的一種語音識別方法的流程圖。如圖1所示的語音識 別方法,可W包括:
[0069] 步驟S101 :將采集到的輸入聲音信號進(jìn)行處理,得到輸入聲音數(shù)據(jù)。
[0070] 在具體實(shí)施中,可W使用麥克風(fēng)(MIC)來對外界的聲音信號進(jìn)行采集當(dāng)采集到 聲音信號時(shí),并將所采集到的聲音信號進(jìn)行相應(yīng)的處理,如時(shí)域(Time domain)和頻域 (化equency domain)處理等,得到相應(yīng)的聲音數(shù)據(jù)。
[0071] 步驟S102 :對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸入聲音數(shù)據(jù) 的低維表征數(shù)據(jù)。
[0072] 在具體實(shí)施中,可W采用多種方法對輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,例如,拉普拉斯 特征提?。↙曰pi曰ci曰η eigenm曰ps)。
[0073] 步驟S103 :采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練 數(shù)據(jù)的低維表征數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值。
[0074] 在具體實(shí)施中,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征也可W通過對所述聲音訓(xùn)練數(shù) 據(jù)進(jìn)行幾何重塑得到,例如,拉普拉斯特征提取等。
[0075] 在本發(fā)明一實(shí)施例中,當(dāng)?shù)玫剿鲚斎肼曇魯?shù)據(jù)的低維表征數(shù)據(jù)時(shí),可W采用如 下的公式計(jì)算得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù) 之間的似然距離:
[0076]
(1)
[0077] 其中,巧表示所述似然距離,U、K分別表示所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)(分 塊矩陣)和所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)(分塊矩陣),S0J)表示所述輸入聲音數(shù)據(jù) 的低維表征數(shù)據(jù)的光譜靈敏度,s(κ)表示所述聲音數(shù)據(jù)訓(xùn)練集的低維表征數(shù)據(jù)的光譜靈敏 度,〇u、分別表示S0J)、S似的預(yù)測誤差。
[0078] 接著,當(dāng)計(jì)算得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)和預(yù)設(shè)的聲音訓(xùn)練數(shù)據(jù)的低維表 征數(shù)據(jù)之間的似然距離之后,可W采用如下的公式計(jì)算得到所述輸入聲音數(shù)據(jù)的VAD分 值,包括:
[0079] (2)
[0080] 其中,VAD score表示所述VAD分值,巧聲).表示為具有數(shù)個預(yù)設(shè)闊值的比較函數(shù)。 其中,f((p)中的預(yù)設(shè)闊值可W根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行確定。
[0081] 步驟S104 :當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí),對所述聲音數(shù)據(jù) 進(jìn)行語音識別。
[0082] 在具體實(shí)施中,當(dāng)計(jì)算得到的VAD分值大于預(yù)設(shè)的分值闊值大于預(yù)設(shè)的分值闊值 時(shí),說明輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)之間具有較大的相 似性,進(jìn)而可W表明所述輸入聲音數(shù)據(jù)中包括有語音信息,此時(shí),可W對輸入聲音數(shù)據(jù)進(jìn)行 語音識別。
[0083] 在具體實(shí)施中,當(dāng)識別出所述輸入聲音數(shù)據(jù)時(shí),移動終端可W執(zhí)行與所識別出的 輸入聲音數(shù)據(jù)對應(yīng)的操作,例如,撥打XX的電話,打開微博,打開化cebook等。
[0084] 在具體實(shí)施中,為了進(jìn)行VAD檢測,首先可W通過聲音訓(xùn)練數(shù)據(jù)的訓(xùn)練得到聲音 訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征,W便在采集到輸入聲音數(shù)據(jù)時(shí),確定是否需要對輸入聲音數(shù)據(jù) 進(jìn)行語音檢測。
[0085] 圖2示出了本發(fā)明實(shí)施例中的所述對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑,得到所述 聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)的流程圖。如圖2所示的所述對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何 重塑,得到所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),可W包括:
[0086] 步驟S201 :采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫, 分別得到純凈語音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC 及其對應(yīng)的MFCC頻帶數(shù)量的信息,W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù) 量的信息。
[0087] 在具體實(shí)施中,為了獲取相應(yīng)的聲音訓(xùn)練數(shù)據(jù),首先需要構(gòu)建純凈語音數(shù)據(jù)庫、非 穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫。從所構(gòu)建的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn) 態(tài)噪聲數(shù)據(jù)庫中相應(yīng)的純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù)和穩(wěn)態(tài)噪聲數(shù)據(jù),可W分別得到對 應(yīng)的純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù)和穩(wěn)態(tài)噪聲數(shù)據(jù)的化頻率的信息。
[0088] Mel頻率是基于人耳聽覺特性提出來的,它與化頻率成非線性對應(yīng)關(guān)系。Mel頻 率倒譜系數(shù)(MFCC)則是利用Mel頻率與化頻率成之間的運(yùn)種非線性對應(yīng)關(guān)系,計(jì)算得到 的化頻譜特征。因此,利用化頻率與MFCC之間的對應(yīng)關(guān)系,便可W得到純凈語音數(shù)據(jù)的 MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量 的信息,W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息。
[0089] 步驟S202 :根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對應(yīng)的 MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息,分別得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn) 練集的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息。
[0090] 在具體實(shí)施中,當(dāng)?shù)玫郊儍粽Z音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對應(yīng)的 MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息,可W采用如下的公式分別得到第一、第二、第Ξ、第 四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息:
[0091] xi(n) = χ,ρ(η) (3) 陽092]而(η) = Xsp (η) +Xst (η) (4) 陽OW] & (η) = X叩(η) +Xn〇n St (η)妨 陽094] Χ4 (η) = Xnon St (η) +Χ" (η)化) 陽095] Xs (η) = Xsp (η)+Xst (η)+Xn〇n St (η) (7)
[0096] 其中,xi(n)、X2(n)、X3(n)、x>)和X5(n)分別表示第一、第二第三第四和第五 聲音訓(xùn)練數(shù)據(jù)的MFCC,χ,ρ(η)表示純凈語音數(shù)據(jù)的MFCC,x""",t(n)表示非穩(wěn)態(tài)噪聲數(shù)據(jù)的 MFCC,x,t(n)表示穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC。
[0097] 當(dāng)?shù)玫缴鲜龅牡谝弧⒌诙?、第Ξ、第四和第五聲音?shù)據(jù)訓(xùn)練集的MFCC時(shí),并可W得 到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC對應(yīng)的MFCC頻帶數(shù)量的信息。
[0098] 步驟S203:將所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分 成為不同的時(shí)隙,并根據(jù)所得到的第一、第二第三第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及 對應(yīng)的MFCC頻帶數(shù)量的信息,分別計(jì)算得出所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn) 練集的對數(shù)似然比。
[0099] 在具體實(shí)施中,當(dāng)?shù)玫缴鲜龅牡谝弧⒌诙?、第Ξ、第四和第五聲音?shù)據(jù)訓(xùn)練集的 MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息,可W采用如下的公式分別計(jì)算得到相應(yīng)的對數(shù)似 然比:
[0100]
(8) 陽1〇U 其中,I表示對數(shù)似然比,XS表示相應(yīng)的聲音訓(xùn)練數(shù)據(jù)的MFCC對應(yīng)的MFCC頻帶 數(shù)量,PriSNR表示先噪聲比,PostSNR表示后噪聲比。
[0102] 步驟S204 :根據(jù)計(jì)算得出的所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的 對數(shù)似然比,分別計(jì)算得出第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣。
[0103] 在具體實(shí)施中,當(dāng)?shù)玫降谝?、第二、第Ξ、第四和第五聲音?shù)據(jù)訓(xùn)練集的對數(shù)似然 比時(shí),便可W得到所述輸入聲音數(shù)據(jù)的特征矩陣:
[0104]
(谷)
[01化]其中,X(i)表示第i個聲音訓(xùn)練數(shù)據(jù)集對應(yīng)的特征矩陣,t表示聲音數(shù)據(jù)帖的位 序,且t = (1,2…腳,I (i)表示第i個聲音訓(xùn)練數(shù)據(jù)集對應(yīng)的對數(shù)似然比。
[0106] 步驟S205 :為第一、第二第三第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng) 的權(quán)重并相加,得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣。
[0107] 在具體實(shí)施中,當(dāng)?shù)玫降谝?、第二、第Ξ、第四和第五聲音?shù)據(jù)訓(xùn)練集的特征矩陣 之后,通過為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并 相加,可W得到所述聲音訓(xùn)練數(shù)據(jù)對應(yīng)的相似矩陣:
[0110] 其中,τ表示所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣,i、j分別表示所述聲音訓(xùn)練數(shù)據(jù)集的 位序,P表示計(jì)算所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣的持續(xù)時(shí)間,x(i)表示第i個聲音數(shù)據(jù)訓(xùn)練 集的特征矩陣,X(j)表示第j個聲音數(shù)據(jù)訓(xùn)練集的特征矩陣。 陽111] 當(dāng)一個特定的語音數(shù)據(jù)帖中包含有語音或者非穩(wěn)態(tài)噪聲時(shí),通過公式(8)計(jì)算得 出的對數(shù)似然比就會較大,公式(11)中的指數(shù)項(xiàng)越等于零,那么該聲音數(shù)據(jù)帖的特征向量 (低維表征數(shù)據(jù))將會接近于該數(shù)據(jù)帖對應(yīng)的MFCC。反之,當(dāng)一個特定的聲音數(shù)據(jù)帖中僅 包含有穩(wěn)態(tài)噪聲的信息時(shí),計(jì)算得出的對數(shù)似然比就會較小,公式(11)中的指數(shù)項(xiàng)就會約 等于1,那么,僅包含有穩(wěn)態(tài)噪聲的聲音數(shù)據(jù)帖的特征向量就約等于零。
[0112] 因此,將不含有非穩(wěn)態(tài)噪聲的聲音數(shù)據(jù)帖與含有非穩(wěn)態(tài)噪聲的其他聲音數(shù)據(jù)帖進(jìn) 行區(qū)別的特征在于:不含有非穩(wěn)態(tài)噪聲的相鄰的聲音數(shù)據(jù)帖之間幾乎是相同的。由于相 鄰的聲音數(shù)據(jù)帖之間存在較大的距離,因此,如果可W像在公式(8)中那樣進(jìn)行權(quán)重函數(shù) (wei曲t化nction)的選取,即便兩個聲音數(shù)據(jù)帖之間非常相似,只要他們分別來自不同的 類別,那么他們之間的相似性也將會變得很小。
[0113] 步驟S206 :對所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉 斯特征矩陣和特征值,將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述聲音訓(xùn)練 數(shù)據(jù)的低維表征數(shù)據(jù)。
[0114] 在具體實(shí)施中,當(dāng)聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯矩陣特征提取的具體過 程,可W包括:
[0115] 首先構(gòu)建相似圖形G,其中,例如使用k最近鄰化-Nearest Nei曲bor,KNN)分類 算法,將每個點(diǎn)最近的K個點(diǎn)連上邊,其中,K為預(yù)先設(shè)定的值。 陽116] 接著,確定相似圖形G點(diǎn)與點(diǎn)之間的權(quán)重,例如選用熱核函數(shù)來確定,如果點(diǎn)i和 點(diǎn)j相連,那么它們關(guān)系的權(quán)重設(shè)定為: 陽 117]
( 12 ) 陽11引其中Wi i表示點(diǎn)i和點(diǎn)j之間的權(quán)重。
[0119] 另外一種可選的簡化設(shè)定是如果點(diǎn)i,j相連則Wii為1,否則W U為0。
[0120] 然后,計(jì)算拉普拉斯矩陣L的特征向量與特征值:
[0121] Ly = λ Dy (13)
[0122] 其中,D是對角矩陣,且滿足: 陽 123] Dii =Σ jWji (14) 陽 124] L = D-W (巧)
[01巧]最后,使用最小的預(yù)設(shè)個數(shù)個非零特征值對應(yīng)的特征向量(分塊矩陣)K,作為降 維后的所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。其中,所述特征向量K中的非零特征值的個數(shù) 可W根據(jù)實(shí)際的需要進(jìn)行設(shè)置。 陽126] 在具體實(shí)施中,通過聲音訓(xùn)練數(shù)據(jù)的訓(xùn)練得到降維后的聲音訓(xùn)練數(shù)據(jù)的低維表征 數(shù)據(jù)W后,當(dāng)采集到輸入聲音數(shù)據(jù)時(shí),同樣對輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的輸 入聲音數(shù)據(jù)的幾何重塑,得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
[0127] 運(yùn)里需要指出的是,通過聲音訓(xùn)練數(shù)據(jù)得到聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)的過 程,與得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)的過程相似,但仍然存在著不同之處。為了便于區(qū) 另IJ,下面將對如何得到對輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù) 做進(jìn)一步詳細(xì)的介紹。
[0128] 圖3示出了本發(fā)明實(shí)施例中的所述對所述聲音數(shù)據(jù)進(jìn)行幾何重塑,得到所述聲音 數(shù)據(jù)的低維表征數(shù)據(jù)的流程圖。如圖3所示的所述對所述聲音數(shù)據(jù)進(jìn)行幾何重塑,得到所 述聲音數(shù)據(jù)的低維表征數(shù)據(jù),可W包括:
[0129] 步驟S301 :獲取所述輸入聲音數(shù)據(jù)的MFCC,及其對應(yīng)的MFCC頻帶數(shù)量的信息。
[0130] 在具體實(shí)施中,當(dāng)采集到輸入聲音數(shù)據(jù)時(shí),利用化頻率與MFCC之間的對應(yīng)關(guān)系, 便可W得到輸入聲音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息。 陽13U 步驟S302 :將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙,并根據(jù)所得 到的MFCC頻帶數(shù)量的信息,計(jì)算得出所述輸入聲音數(shù)據(jù)的對數(shù)似然比。 陽132] 在具體實(shí)施中,可W上述的公式(8)計(jì)算得出所述輸入聲音數(shù)據(jù)的對數(shù)似然比。
[0133] 步驟S303 :采用計(jì)算得出的輸入聲音數(shù)據(jù)的對數(shù)似然比,構(gòu)建所述輸入聲音數(shù)據(jù) 的特征矩陣。
[0134] 在具體實(shí)施中,當(dāng)計(jì)算得到輸入聲音數(shù)據(jù)的對數(shù)似然比之后,可W構(gòu)建所述輸入 聲音數(shù)據(jù)的特征矩陣: 陽13引
(化)
[0136] 其中,Z表示輸入聲音數(shù)據(jù)的特征矩陣,t表示輸入聲音數(shù)據(jù)帖的位序,且t = (1,2…腳,I表示輸入聲音數(shù)據(jù)的對數(shù)似然比。
[0137] 步驟S304 :對所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣進(jìn)行拉普拉斯特征 提取,得到拉普拉斯特征矩陣和特征值,將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量 作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
[0138] 在具體實(shí)施中,對輸入聲音數(shù)據(jù)的特征矩陣進(jìn)行拉普拉斯矩陣特征提取可W包 括:
[0139] 首先構(gòu)建相似圖形G,其中,例如使用k最近鄰化-Nearest Nei曲bor,KNN)分類 算法,將每個點(diǎn)最近的K個點(diǎn)連上邊,其中,K為預(yù)先設(shè)定的值。
[0140] 接著,確定相似圖形G點(diǎn)與點(diǎn)之間的權(quán)重,例如選用熱核函數(shù)來確定,如果點(diǎn)i和 點(diǎn)j相連,那么它們關(guān)系的權(quán)重設(shè)定為: 陽14。
(巧) 陽1創(chuàng)其中Wi i表示點(diǎn)i和點(diǎn)j之間的權(quán)重。 陽14引另外一種可選的簡化設(shè)定是如果點(diǎn)i,j相連則Wi,為1,否則W 1,為0。
[0144] 然后,計(jì)算拉普拉斯矩陣L的特征向量與特征值:
[0145] Ly=入 Dy (13) 陽146] 其中,D是對角矩陣,且滿足: 陽147] Dii =Σ jWji (14)
[0148] L = D-W (15)
[0149] 最后,使用最小的預(yù)設(shè)個數(shù)個非零特征值對應(yīng)的特征向量(分塊矩陣)U,作為降 維后的所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。其中,所述特征向量U中的非零特征值的個數(shù) 可W根據(jù)實(shí)際的需要進(jìn)行設(shè)置。
[0150] 圖4示出了本發(fā)明實(shí)施例中的一種語音識別裝置的結(jié)構(gòu)示意圖。如圖4所示的語 音識別裝置400,可W包括數(shù)據(jù)處理單元401、幾何重塑單元402、計(jì)算單元403和語音識別 單元404,其中: 陽151] 數(shù)據(jù)處理單元401,適于將采集到的輸入聲音信號進(jìn)行處理,得到輸入聲音數(shù)據(jù)。 陽152] 幾何重塑單元402,適于對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸 入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
[0153] 在具體實(shí)施中,所述幾何重塑單元402適于獲取所述輸入聲音數(shù)據(jù)的MFCC,及其 對應(yīng)的MFCC頻帶數(shù)量的信息;將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙,并 根據(jù)所得到的MFCC頻帶數(shù)量的信息,計(jì)算得出所述輸入聲音數(shù)據(jù)的對數(shù)似然比;采用計(jì)算 得出的所述輸入聲音數(shù)據(jù)的對數(shù)似然比,構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣;構(gòu)建所述輸 入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣;對所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣 進(jìn)行拉普拉斯特征提取,得到拉普拉斯特征矩陣和特征值,將最小的預(yù)設(shè)個數(shù)的非零特征 值對應(yīng)的特征向量作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。
[0154] 計(jì)算單元403,適于采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲 音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,所述聲音訓(xùn)練數(shù)據(jù) 的低維數(shù)據(jù)表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到。
[01巧]在具體實(shí)施中,如圖4所示的語音識別裝置還可W包括訓(xùn)練單元404,其中:
[0156] 訓(xùn)練單元404,適于通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到所述聲音訓(xùn)練數(shù) 據(jù)的低維數(shù)據(jù)表征,包括:采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù) 庫,分別得到純凈語音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的 MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息,W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻 帶數(shù)量的信息;根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC 及其對應(yīng)的MFCC頻帶數(shù)量的信息,分別得到第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集 的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息;將所述第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn) 練集的MFCC分別劃分成為不同的時(shí)隙,并根據(jù)所得到的第一、第二、第Ξ、第四和第五聲音 數(shù)據(jù)訓(xùn)練集的MFCC及對應(yīng)的MFCC頻帶數(shù)量的信息,分別計(jì)算得出所述第一、第二、第Ξ、第 四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比;根據(jù)計(jì)算得出的所述第一、第二、第Ξ、第四和第 五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比,分別計(jì)算得出第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn) 練集的特征矩陣;為第一、第二、第Ξ、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的 權(quán)重并相加,得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣;對所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉 普拉斯特征提取,得到拉普拉斯特征矩陣和特征值,將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng) 的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維表征數(shù)據(jù)。 陽157] 語音識別單元405,適于當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí),對所 述聲音數(shù)據(jù)進(jìn)行語音識別。
[0158] 本領(lǐng)域普通技術(shù)人員可W理解上述實(shí)施例的各種方法中的全部或部分步驟是可 w通過程序來指令相關(guān)的硬件來完成,該程序可w存儲于計(jì)算機(jī)可讀存儲介質(zhì)中,存儲介 質(zhì)可W包括:ROM、RAM、磁盤或光盤等。 陽159] W上對本發(fā)明實(shí)施例的方法及系統(tǒng)做了詳細(xì)的介紹,本發(fā)明并不限于此。任何本 領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),均可作各種更動與修改,因此本發(fā)明的保 護(hù)范圍應(yīng)當(dāng)W權(quán)利要求所限定的范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種語音識別方法,其特征在于,包括: 將采集到的輸入聲音信號進(jìn)行處理,得到輸入聲音數(shù)據(jù); 對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸入聲音數(shù)據(jù)的低維表征數(shù) 據(jù); 采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù)據(jù)的低維表征 數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征通過對 所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到; 當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí),對所述聲音數(shù)據(jù)進(jìn)行語音識別。2. 根據(jù)權(quán)利要求1所述的語音識別方法,其特征在于,所述對所述聲音數(shù)據(jù)進(jìn)行幾何 重塑,得到所述聲音數(shù)據(jù)的低維表征數(shù)據(jù),包括: 獲取所述輸入聲音數(shù)據(jù)的MFCC,及其對應(yīng)的MFCC頻帶數(shù)量的信息; 將所獲取的所述輸入聲音數(shù)據(jù)的MFCC劃分成不同的時(shí)隙,并根據(jù)所得到的MFCC頻帶 數(shù)量的信息,計(jì)算得出所述輸入聲音數(shù)據(jù)的對數(shù)似然比; 采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對數(shù)似然比,構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩 陣; 構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣; 對所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉 斯特征矩陣和特征值,將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述輸入聲音 數(shù)據(jù)的低維表征數(shù)據(jù)。3. 根據(jù)權(quán)利要求1所述的語音識別方法,其特征在于,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù) 表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到,包括: 采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫,分別得到純凈語 音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對應(yīng)的MFCC 頻帶數(shù)量的信息,W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息; 根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的 MFCC頻帶數(shù)量的信息,分別得到第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及其 對應(yīng)的MFCC頻帶數(shù)量的信息; 將所述第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分成為不同的時(shí) 隙,并根據(jù)所得到的第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對應(yīng)的MFCC頻 帶數(shù)量的信息,分別計(jì)算得出所述第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似 然比; 根據(jù)計(jì)算得出的所述第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比,分 別計(jì)算得出第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣; 為第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加, 得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣; 對所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉斯特征矩陣和特 征值,將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維表征 數(shù)據(jù)。4. 根據(jù)權(quán)利要求2或3所述的語音識別方法,其特征在于,采用如下的公式計(jì)算對數(shù)似 然比,包括:其中,I表示對數(shù)似然比,XS表示MFCC對應(yīng)的MFCC頻帶數(shù)量,PriSNR表 示先噪聲比,PostSNR表示后噪聲比。5. 根據(jù)權(quán)利要求4所述的語音識別方法,其特征在于,所述采用計(jì)算得出的所述輸入 聲音數(shù)據(jù)的對數(shù)似然比,得到所述輸入聲音數(shù)據(jù)的特征矩陣,包括:其中,X表示特征矩陣,t表示聲音數(shù)據(jù)帖的位序,且t= (1,2...腳,I表示對數(shù)似然 比。6. 根據(jù)權(quán)利要求5所述的語音識別方法,其特征在于,所述為第一、第二、第=、第四和 第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加,得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩 陣,包括:其中,T表示所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣,i、j分別表示所述聲音訓(xùn)練數(shù)據(jù)集的位 序,P表示計(jì)算所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣的持續(xù)時(shí)間,且:其中,X(i)表示第i個聲音數(shù)據(jù)訓(xùn)練集的特征矩陣,X(j)表示第j個聲音數(shù)據(jù)訓(xùn)練集 的特征矩陣。7. 根據(jù)權(quán)利要求6所述的語音識別方法,其特征在于,所述計(jì)算輸入聲音數(shù)據(jù)特征矩 陣的特征向量與所述聲音數(shù)據(jù)訓(xùn)練集特征矩陣的特征向量之間的似然距離,包括:其中,解表示所述似然距離,S0J)表示所述輸入聲音數(shù)據(jù)特征矩陣的特征向量的光譜 靈敏度,S (K)表示所述聲音數(shù)據(jù)訓(xùn)練集特征矩陣的特征向量的光譜靈敏度,0。、〇><分別表 示S扣)、S化)的預(yù)測誤差。8. 根據(jù)權(quán)利要求7所述的語音識別方法,其特征在于,所述計(jì)算得出所述輸入聲音數(shù) 據(jù)的VAD分值,包括:其中,VAD score表示所述輸入聲音數(shù)據(jù)的VAD分值,f(q))表示為具有數(shù)個預(yù)設(shè)闊值的 比較函數(shù)。9. 一種語音識別裝置,其特征在于,包括: 數(shù)據(jù)處理單元,適于將采集到的輸入聲音信號進(jìn)行處理,得到輸入聲音數(shù)據(jù); 幾何重塑單元,適于對所述輸入聲音數(shù)據(jù)進(jìn)行幾何重塑,得到降維后的所述輸入聲音 數(shù)據(jù)的低維表征數(shù)據(jù); 計(jì)算單元,適于采用所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)與預(yù)設(shè)的降維后的聲音訓(xùn)練數(shù) 據(jù)的低維表征數(shù)據(jù),計(jì)算得出所述輸入聲音數(shù)據(jù)的VAD分值,所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù) 據(jù)表征通過對所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到; 語音識別單元,適于當(dāng)確定計(jì)算得出的VAD分值大于預(yù)設(shè)的分值闊值時(shí),對所述聲音 數(shù)據(jù)進(jìn)行語音識別。10. 根據(jù)權(quán)利要求9所述的語音識別裝置,其特征在于,所述幾何重塑單元適于獲取所 述輸入聲音數(shù)據(jù)的MFCC,及其對應(yīng)的MFCC頻帶數(shù)量的信息;將所獲取的所述輸入聲音數(shù)據(jù) 的MFCC劃分成不同的時(shí)隙,并根據(jù)所得到的MFCC頻帶數(shù)量的信息,計(jì)算得出所述輸入聲音 數(shù)據(jù)的對數(shù)似然比;采用計(jì)算得出的所述輸入聲音數(shù)據(jù)的對數(shù)似然比,構(gòu)建所述輸入聲音 數(shù)據(jù)的特征矩陣;構(gòu)建所述輸入聲音數(shù)據(jù)的特征矩陣對應(yīng)的相似矩陣;對所述輸入聲音數(shù) 據(jù)的特征矩陣對應(yīng)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉斯特征矩陣和特征值, 將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述輸入聲音數(shù)據(jù)的低維表征數(shù)據(jù)。11. 根據(jù)權(quán)利要求9所述的語音識別裝置,其特征在于,還包括訓(xùn)練單元,適于通過對 所述聲音訓(xùn)練數(shù)據(jù)進(jìn)行幾何重塑得到所述聲音訓(xùn)練數(shù)據(jù)的低維數(shù)據(jù)表征,包括: 采用預(yù)設(shè)的純凈語音數(shù)據(jù)庫、非穩(wěn)態(tài)噪聲數(shù)據(jù)庫和穩(wěn)態(tài)噪聲數(shù)據(jù)庫,分別得到純凈語 音數(shù)據(jù)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息、非穩(wěn)態(tài)噪聲數(shù)據(jù)的MFCC及其對應(yīng)的MFCC 頻帶數(shù)量的信息,W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的MFCC頻帶數(shù)量的信息; 根據(jù)得到純凈語音數(shù)據(jù)、非穩(wěn)態(tài)噪聲數(shù)據(jù),W及穩(wěn)態(tài)噪聲信息對應(yīng)的MFCC及其對應(yīng)的 MFCC頻帶數(shù)量的信息,分別得到第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及其 對應(yīng)的MFCC頻帶數(shù)量的信息; 將所述第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC分別劃分成為不同的時(shí) 隙,并根據(jù)所得到的第一、第二、第S、第四和第五聲音數(shù)據(jù)訓(xùn)練集的MFCC及對應(yīng)的MFCC頻 帶數(shù)量的信息,分別計(jì)算得出所述第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似 然比; 根據(jù)計(jì)算得出的所述第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的對數(shù)似然比,分 別計(jì)算得出第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣; 為第一、第二、第=、第四和第五聲音數(shù)據(jù)訓(xùn)練集的特征矩陣分配相應(yīng)的權(quán)重并相加, 得到所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣; 對所述聲音訓(xùn)練數(shù)據(jù)的相似矩陣進(jìn)行拉普拉斯特征提取,得到拉普拉斯特征矩陣和特 征值,將最小的預(yù)設(shè)個數(shù)的非零特征值對應(yīng)的特征向量作為所述聲音訓(xùn)練數(shù)據(jù)的低維表征 數(shù)據(jù)。
【文檔編號】G10L15/14GK105989838SQ201510051345
【公開日】2016年10月5日
【申請日】2015年1月30日
【發(fā)明人】孫廷瑋, 林福輝
【申請人】展訊通信(上海)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1