聲學模型訓練方法、語音識別方法及裝置的制造方法
【專利摘要】本發(fā)明實施例提供一種聲學模型訓練、語音識別方法及裝置。包括:對訓練語料對應的子帶進行時域擴展得到特征矩陣;將所述特征矩陣通過預設(shè)的卷積器,獲得第一向量;根據(jù)所述第一向量與預設(shè)的隱藏層權(quán)重矩陣獲得N維向量;其中,N為所述聲學模型的分類數(shù)目;根據(jù)所述N維向量對所述卷積器與所述隱藏層權(quán)重矩陣進行參數(shù)更新,以所述參數(shù)更新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學模型。改善了聲學模型,提高了聲學打分的正確率。
【專利說明】
聲學模型訓練方法、語音識別方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明實施例涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種聲學模型訓練方法、語音識 別方法及裝置。
【背景技術(shù)】
[0002] 近些年來,語音識別技術(shù)取得了顯著進步,并且越來越多的從實驗室走向市場,走 進人們的生活。語音識別聽寫機在一些領(lǐng)域的應用被美國新聞界評為1997年計算機發(fā)展十 件大事之一。未來10年內(nèi),語音識別技術(shù)將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服 務、消費電子產(chǎn)品等各個領(lǐng)域。
[0003] 語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機 理和聽覺機理、人工智能等等。與機器進行語音交流,讓機器明白人們的說話目的,這對于 生活在機械化時代的我們而言,能夠大幅提升生活質(zhì)量。
[0004] 目前,市場上出現(xiàn)了許多智能的能夠通過語音進行控制的電視。一種方式是在智 能手機上安裝APP,然后將指令發(fā)送到特定的遙控器,遙控器再將指令轉(zhuǎn)換成紅外遙控信 號,這種方式可以實現(xiàn)對普通電視的遙控。還有一種方式是在遙控器內(nèi)置一個收音的設(shè)備, 它可以收錄用戶發(fā)出的語音命令,然后將用戶的語音命令發(fā)送至電視進行語義解析,然后 通過語義解析的結(jié)果控制電視機的各種服務。
[0005] 然而,對于在智能手機上安裝APP對電視進行遙控的方法,其步驟繁瑣,尤其對于 不會操控智能手機的老人和孩子而言,這種方式并沒有帶來明顯的優(yōu)勢;對于在遙控器內(nèi) 置一個收音設(shè)備對電視進行遙控的方法,就生活體驗而言,很多電視用戶都是遙控器隨手 放置,對于有兒童的家庭更是如此,小孩子也許惡作劇藏起遙控器導致遙控器,從而導致經(jīng) 常找不到遙控器去了哪里。對于行動不便和健忘的老人而言,通過遙控器控制電視更加顯 得不方便。
[0006] 若是不使用遙控器,將收音設(shè)備內(nèi)嵌在電視內(nèi)部采集用戶發(fā)出的語音命令,則由 于聲波信號在室內(nèi)遇到墻壁易發(fā)生反射造成混響,且周圍環(huán)境難免會有噪聲,導致遠距離 講話語音識別的正確率低,用戶體驗不佳。
[0007] 因此,需要一種不使用遙控器的遠講語音識別功能。所謂遠講語音功能就突出的 就是遠,也就是可以脫離遙控器,對電視進行智能的隔空操作。語音識別系統(tǒng)的框架主要包 括如下幾個部分,首先對輸入的語音進行特征提取,再根據(jù)預先訓練的聲學模型進行聲學 打分,聲學打分的結(jié)果用于根據(jù)語言模型進行解碼,最后是根據(jù)解碼結(jié)果輸出語音識別的 文本。其中,聲學模型和語言模型是需要用大量的訓練數(shù)據(jù)進行訓練的。聲學模型使用語音 數(shù)據(jù)訓練,語言模型使用文本數(shù)據(jù)訓練。聲學模型用于聲學打分,其輸出用于基于語言模型 的解碼。遠講語音識別識別時,由于噪聲以及其它物體對聲波的反射導致遠講語音識別的 正確率較低。因此,提高聲學打分的準確度是提高語音識別正確率的關(guān)鍵,而其核心途徑就 是改善聲學模型。
[0008] 因此,綜上,一種聲學模型訓練方法亟待提出。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明實施例提供一種聲學模型訓練方法及裝置,用以解決現(xiàn)有技術(shù)中遠講語音 識別正確率低的缺陷,實現(xiàn)聲學打分模型的改善以及遠講語音識別率的提升。本發(fā)明實施 例提供一種聲學模型訓練方法,包括:
[0010] 對訓練語料對應的子帶進行時域擴展得到特征矩陣;
[0011] 將所述特征矩陣通過預設(shè)的卷積器,獲得第一向量;
[0012] 根據(jù)所述第一向量與預設(shè)的隱藏層權(quán)重矩陣獲得N維向量;其中,N為所述聲學模 型的分類數(shù)目;
[0013] 根據(jù)所述N維向量對所述卷積器與所述隱藏層權(quán)重矩陣進行參數(shù)更新,以所述參 數(shù)更新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學模型。
[0014] 本發(fā)明實施例提供一種語音識別方法,包括:
[0015] 獲得待識別語音數(shù)據(jù)對應的子帶;
[0016] 對所述待識別語音數(shù)據(jù)的所述子帶進行時域擴展得到所述子帶對應的特征矩陣;
[0017] 根據(jù)所述特征矩陣,調(diào)用預先訓練的卷積器獲得第一向量;
[0018] 根據(jù)所述第一向量與預先訓練的隱藏層權(quán)重矩陣獲得N維向量;
[0019] 根據(jù)所述N維向量,獲得所述待識別的語音信號屬于第n個聲學分類的概率值;其 中,N為正整數(shù),nG[l,N]。本發(fā)明實施例提供一種聲學模型訓練裝置,包括:
[0020] 訓練語料預處理模塊,用于對訓練語料對應的子帶進行時域擴展得到特征矩陣;
[0021] 計算模塊,用于將所述特征矩陣通過預設(shè)的卷積器,獲得第一向量;
[0022] 所述計算模塊還用于,根據(jù)所述第一向量與預設(shè)的隱藏層權(quán)重矩陣獲得N維向量; 其中,N為所述聲學模型的分類數(shù)目;
[0023] 參數(shù)更新模塊,用于根據(jù)所述N維向量對所述卷積器與所述隱藏層權(quán)重矩陣進行 參數(shù)更新,以所述參數(shù)更新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學模型。
[0024] 本發(fā)明實施例提供一種語音識別裝置,包括:
[0025] 待識別語音數(shù)據(jù)預處理模塊,用于獲得待識別語音數(shù)據(jù)對應的子帶,對所述待識 別語音數(shù)據(jù)的所述子帶進行時域擴展得到所述子帶對應的特征矩陣;
[0026] 聲學打分模塊,用于根據(jù)所述特征矩陣,調(diào)用預先訓練的卷積器獲得第一向量;根 據(jù)所述第一向量與預先訓練的隱藏層權(quán)重矩陣獲得N維向量;根據(jù)所述N維向量,獲得所述 待識別的語音信號屬于第n個聲學分類的概率值;其中,N為正整數(shù),nG[l,N]。
[0027] 本發(fā)明實施例提供的聲學模型訓練方法、語音識別方法及裝置,通過對訓練語料 進行子帶劃分并采用卷積器對訓練語料的每個局部特征進行提取以及訓練,使聲學模型學 習多種復雜聲學環(huán)境中的噪聲語音,得到獲取帶噪頻譜中有效語音成分的能力,對聲學打 分模型進行改善,與此同時實現(xiàn)了聲學打分正確率的提升,進一步提高了遠講語音識別的 正確率。
【附圖說明】
[0028] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根 據(jù)這些附圖獲得其他的附圖。
[0029] 圖1為本申請實施例一的技術(shù)流程圖;
[0030] 圖2為本申請實施例二的技術(shù)流程圖;
[0031]圖3為本申請實施例三的技術(shù)流程圖;
[0032]圖4為本申請實施例四的技術(shù)流程圖;
[0033] 圖5為本申請實施例一對應的裝置結(jié)構(gòu)示意圖;
[0034] 圖6為本申請實施例四對應的裝置結(jié)構(gòu)示意圖;
[0035] 圖7為本申請應用場景實例對應的示例圖。
【具體實施方式】
[0036]為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0037]圖1是本申請實施例一的技術(shù)流程圖,結(jié)合圖1,本申請一種聲學模型的訓練方法, 可以有如下的實現(xiàn)方式:
[0038]步驟S110:對訓練語料對應的子帶進行時域擴展得到特征矩陣;
[0039]本步驟中,對所述子帶進行時域擴展,可以采用如下的方式,對所述訓練語料進行 分幀得到語音信號幀,獲取所述語音信號幀的第二預設(shè)數(shù)量的前向語音信號幀、以及所述 語音信號幀的第三預設(shè)數(shù)量的后向語音信號幀,從而得到所述語音信號幀對應的所述時域 拓展后的所述子帶;通過對每一所述子帶進行時域擴展,使得多幀信號之間能夠特征互補, 從而進一步提高聲學模型訓練的穩(wěn)定性。
[0040] 其中,所述第二預設(shè)數(shù)量以及所述第三預設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗 值;其中所述時域拓展后的子帶寬度為所述子帶寬度與所述第二預設(shè)數(shù)量以及所述第三預 設(shè)數(shù)量的和。所述第二預設(shè)數(shù)量可以相同也可以不同,本申請實施例不做限制。
[0041] 例如,本實施例中,若所述子帶的所述子帶寬度為7,則所述第一預設(shè)數(shù)量與所述 第二預設(shè)數(shù)量可以取1~7范圍內(nèi)的任意數(shù)字,經(jīng)多次試驗檢測發(fā)現(xiàn),所述第一預設(shè)數(shù)量以 及所述第二預設(shè)數(shù)量為5的時候,聲學模型的訓練效果最佳,因此,本實施例中可取所述語 音信號幀的5幀前向語音信號幀以及所述語音信號的5幀后向語音信號幀,實現(xiàn)對所述語音 信號幀進行時域拓展,從而進一步實現(xiàn)對所述語音信號幀對應的子帶的時域拓展。
[0042] 假設(shè),本步驟中,某一語音信號幀對應的子帶寬度為7的8個子帶,其中每個子帶為 一個7維向量(1(^1^ 2^3,14,15,16),則進行時域擴展之后,每一個前向語音信號幀以及每 一個后向語音信號幀分別對應一個7維向量,則當前后各擴展5幀時,將得到11個7維向量, 組成一個11X7的矩陣:
[0044] 以上所示矩陣中,Xi-j為向量Xi對應的時域擴展后的前向第j幀對應的向量,xi+j為 向量Xl對應的時域擴展后的后向第j幀對應的向量,其中,1£[0,6],_]_£[0,5]。當語音信號 幀包含8個7維子帶時,此步驟中時域拓展將得到8個11X7的上述類似矩陣。
[0045] 步驟S120:將所述特征矩陣通過預設(shè)的卷積器,獲得第一向量;
[0046] 本步驟中,所述卷積為一個矩陣組,是由一定數(shù)量的隨機初始化生成的第三矩陣 組成的。所述第三矩陣,即隨機初始化得到的mXn的矩陣,其中m為所述時域拓展后的子帶 寬度,n為小于所述子帶寬度的經(jīng)驗值;
[0047] 例如,承接上述的例子,本步驟中m= 11,n = 5,可生成8的倍數(shù)個11 X 5的矩陣,其 中所述8的倍數(shù)可以是8的128倍或者256倍。其中,128或256是較優(yōu)的經(jīng)驗值,本申請實施例 對此不做限制。
[0048] 其中,獲得第一向量具體為:以第四預設(shè)數(shù)量的所述卷積矩陣為一組卷積器,并使 用每組所述卷積器與所述特征矩陣做卷積運算;
[0049] 對所述卷積運算的結(jié)果進行采樣并對所述采樣結(jié)果進行歸一化處理,得到所述第 一向量。
[0050] 本實施例采用的訓練方法是基于卷積神經(jīng)網(wǎng)絡的語音模型訓練方法,所述卷積神 經(jīng)網(wǎng)絡,即CNNs(Convolutional Neural Networks)。
[0051 ] CNNs由一組或多組卷積層convolutional layer+米樣層pooling layer構(gòu)成。一 個卷積層中包含若干個不同的卷積器,這些卷積器對語音的各個局部特征進行觀察。采樣 層通過對卷積層的輸出結(jié)點做固定窗長的采樣,減少下一層的輸入結(jié)點數(shù),從而控制模型 的復雜度。一般采樣層采用最大采樣算法(max pooling),即對固定窗長內(nèi)的結(jié)點選取最大 值進行輸出。
[0052]承接上述的例子,所述第四預設(shè)數(shù)量可以為8,即以每8個所述卷積矩陣為一組卷 積器,分別與所述特征矩陣做卷積,得到8個3維的向量。當所述8的倍數(shù)為128倍時,本實施 例的卷積層中將包含有128個卷積器,即卷積層的輸出結(jié)果將包含128X8個3維的向量。
[0053]其中,所述對所述卷積運算的結(jié)果進行采樣具體,從每一個3維向量中選取數(shù)值最 大的,即每組卷積器輸出8個一維的向量,即一個8維向量。整個采樣層的輸出將是128個8維 向量。
[0054] 將上述128個8維的向量收尾連接即可得到一個1024維的向量,并對這個1024維的 向量進行歸一化處理。
[0055] 步驟S130:根據(jù)所述第一向量與預設(shè)的隱藏層權(quán)重矩陣獲得N維向量;其中,N為所 述聲學模型的分類數(shù)目;
[0056] 具體的,在步驟S130中,所述預設(shè)的隱藏層權(quán)重矩陣具體為:隨機初始化xXN的矩 陣,其中x為所述分組的組數(shù)的倍數(shù),N為所述聲學模型的分類數(shù)目。
[0057]例如,本實施例中初始化得到的所述隱藏層權(quán)重矩陣為一個1024XN的矩陣。
[0058] 以所述預設(shè)的隱藏層權(quán)重矩陣與所述第一向量相乘,并對所述相乘的結(jié)果進行規(guī) 整,獲得所述N維向量。其中,所述規(guī)整的方法可以采用softmax函數(shù)實現(xiàn),由于softmax函數(shù) 是成熟的現(xiàn)有技術(shù),本實施例不再贅述。
[0059] 本步驟中,所述規(guī)整過程的輸出為一個N維的向量,其中第n維的意義為,所述語音 信號幀屬于第n個聲學分類的概率值,N為正整數(shù),nG [1,N]。
[0060] 步驟S140:根據(jù)所述N維向量對所述卷積器與所述隱藏層權(quán)重矩陣進行參數(shù)更新, 以所述參數(shù)更新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學模型。
[0061] 本步驟中,所述根據(jù)所述N維向量對所述卷積器與所述隱藏層權(quán)重矩陣進行參數(shù) 更新,具體可以采用基于誤差反向傳播算法的參數(shù)更新,更新策略可以采用在線隨機梯度 下降和小批量隨機梯度下降法,當然本申請實施例不限制于此。經(jīng)多次試驗,小批量隨機梯 度下降法得到的參數(shù)更新效果更佳,小批量隨機梯度下降法為本步驟中的優(yōu)選方案。
[0062] 需要說明的是,所述參數(shù)更新的過程是通過不斷迭代實現(xiàn)的,在迭代的過程中,不 斷修參數(shù)更新策略的參數(shù)設(shè)置并對迭代的收斂性進行判斷,直至迭代收斂則停止迭代過 程。
[0063] 本實施例提供的聲學模型訓練方法通過對訓練語料進行子帶劃分并采用卷積器 對訓練語料的每個局部特征進行提取以及訓練,對聲學打分模型進行改善實現(xiàn)了聲學打分 正確率的提升,進一步提高了遠講語音識別的正確率。
[0064]圖2是本申請實施例二的技術(shù)流程圖,以下部分將結(jié)合圖2,對本申請實施例一種 根據(jù)所述訓練語料獲得對應的所述子帶的實現(xiàn)過程:
[0065] 步驟S210:對所述訓練語料進行分幀,并對所述分幀得到的語音信號幀進行快速 傅里葉變換;
[0066] 為使所述訓練語料覆蓋不同復雜程度的聲學環(huán)境,本實施例在獲取所述訓練語料 之后,預先對所述訓練語料進行擾動處理從而能夠進一步提升聲學模型的性能。具體為,將 訓練語音使用多種房間混響函數(shù)進行擾動,從而得到不同環(huán)境、不同噪聲下的訓練數(shù)據(jù),從 而訓練出的聲學模型更加真實且適用于多種應用環(huán)境。例如,本實施例中可將500小時訓練 語音按照6種不同的房間混響擾動,得到3000小時訓練語音。
[0067] 語音信號因為是準穩(wěn)態(tài)信號,而只有穩(wěn)態(tài)的信息才能進行信號處理,所以在對語 音信號處理之前首先把信號分幀,每幀長度約10m S-30ms(本發(fā)明并不限制于此),在這一區(qū) 間內(nèi)把語音信號看作為穩(wěn)態(tài)信號。本實施例中,以5分鐘語音數(shù)據(jù)為例,將5分鐘語音數(shù)據(jù), 按10毫秒分一幀,則得到3萬幀語音信號幀。
[0068] 優(yōu)選的,本步驟中在對所述訓練語料進行分幀之后,還包括根據(jù)聲學模型的分類 數(shù)目對所述訓練語料進行狀態(tài)對齊,從而獲得優(yōu)化后的所述訓練語料。
[0069] 所述聲學模型的分類原則是把相似的聲音用同一個標示代表,中文使用的拼音可 以分為聲母和韻母,英文的發(fā)音可以分為元音輔音等。例如,不同人發(fā)同一個聲音時聲音不 完全相同,但是可以用同一個聲母表示。
[0070] 所述狀態(tài),即比音素更細致的語音單位,通常把一個音素劃分成3個狀態(tài)。音素是 人發(fā)音的最基本單位,例如字母x,在英語中大多數(shù)情況下發(fā)[ks],就是[k] [s]兩個音素組 成的。[k]、[s]還出現(xiàn)在別的語流當中,如salut中的s就發(fā)[s],其前并沒有[k],而 carrefour的c,就發(fā)[k],其后也并不接一個[s]。然而,[k]或[s]無法繼續(xù)劃分下去了,否則 將無法發(fā)音。多個字母對一個音素的例子如champ中的ch,louis中的ou。
[0071] 本步驟中的所述狀態(tài)對齊的具體方式可如以下例子所述,例如,"小長假"這三個 字由一個說話人讀出共1.5秒,以10毫秒為間隔,分為150幀,對齊的結(jié)果就是給每一幀分配 對應的聲學分類標記,如標記第1至5幀是靜音,第5至9幀是"小"字聲母[x],第9至25幀是 "小"字韻母[iao],以此類推。
[0072] 具體的,本實施例中可以采用Viterbi算法對所述訓練語料進行所述狀態(tài)對齊,由 于Viterbi算法是成熟的現(xiàn)有技術(shù),本實施例中不再贅述。
[0073] 步驟S220:對所述快速傅里葉變換的結(jié)果取幅度值,采用預設(shè)的濾波器從所述幅 度值中獲取第一預設(shè)數(shù)量的濾波器組參數(shù);
[0074]本步驟中,所述預設(shè)的濾波器可以是Mel濾波器組,所述第一預設(shè)數(shù)量是一個經(jīng)驗 值,經(jīng)多次實現(xiàn)驗證,所述第一預設(shè)數(shù)量為40時,聲學模型的訓練效果最好,當然,本實施例 并不對此數(shù)據(jù)的選擇做任何限制。
[0075]假設(shè),本步驟中,提取40維卷積器組參數(shù),5分鐘語音數(shù)據(jù)對應的3萬幀語音信號 幀,每一幀用一個40維的向量表示。即5分鐘語音數(shù)據(jù)可以用3萬個40維向量表示。
[0076] 步驟S230:根據(jù)預設(shè)的子帶寬度,對所述卷積器組參數(shù)進行分組,得到所述訓練語 料中每一語音信號幀對應的所述子帶;其中,每一語音信號幀對應的所述子帶的數(shù)量與所 述分組的組數(shù)相同。
[0077] 本步驟中,對每一所述語音信號幀對應的濾波器組參數(shù)進行分組,其分組的數(shù)量 由預設(shè)的子帶寬度決定,所述子帶寬度,即每一所述子帶對應的向量的維度。
[0078] 例如,本步驟中,可將將全部訓練數(shù)據(jù)(每一語音信號幀對應的40維向量)按維度 分為8組。分組規(guī)則為第1-7維分為第1組,第5-11維分為第2組,第9-15維分為第3組,第14-20維分為第4組,第19-25維分為第5組,第24-30維分為第6組,第29-35維分為第7組,第34-40維分為第8組。每組都是一個7維的向量。從而,獲得了每一所述語音信號幀對應的寬度為 7的所述子帶。當然,上述分組僅供舉例使用,并不對本申請實施例構(gòu)成任何限制。
[0079]獲得所述訓練語料對應的所述子帶之后,需對所述子帶進行時域擴展。所述時域 擴展的具體方法如實施例一中所述,此處不再贅述。
[0080] 本實施例中,對語音訓練數(shù)據(jù)進行子帶劃分以及語音信號幀的時域擴展,由此多 幀語音信號之間可以特征互補,進一步提升了聲學模型的性能,間接提升了語音識別的正 確率。
[0081] 圖3是本申請實施例三的技術(shù)流程圖,結(jié)合圖3,本申請實施一種,對所述卷積器與 所述第二向量進行參數(shù)更新,具體可以采用如下的更新步驟:
[0082] 步驟S310:以所述卷積矩器與所述隱藏層權(quán)重矩陣組成矩陣組;
[0083] 步驟S320:根據(jù)預設(shè)的第一迭代次數(shù)以及預設(shè)的參數(shù)更新策略,對所述矩陣組進 行參數(shù)迭代更新;
[0084]以全部數(shù)據(jù)更新一次稱為一個迭代,將所述卷積矩陣與所述隱藏層權(quán)重矩陣的參 數(shù)進行更新,所述第一迭代次數(shù)是經(jīng)驗值,經(jīng)過多次試驗。當所述第一迭代次數(shù)為4時,將所 述卷積矩陣與所述隱藏層權(quán)重矩陣更新進行4個迭代能達到最佳效果,當然本申請實施例 對此不作限制。
[0085]步驟S330:在所述卷積器之后添加新的隱藏層權(quán)重矩陣與預設(shè)的非線性函數(shù)從而 更新所述矩陣組,并根據(jù)所述預設(shè)的第二迭代次數(shù)以及所述預設(shè)的參數(shù)更新策略對所述矩 陣組進行參數(shù)更新。
[0086] 本步驟中,在所述卷積器與所述隱藏層權(quán)重矩陣之間插入所述新的隱藏層權(quán)重矩 陣以及所述預設(shè)的非線性函數(shù)之后,迭代次數(shù)可以調(diào)整,例如可以減半,所述第二迭代次數(shù) 可以為2。
[0087] 優(yōu)選的,當所述訓練語料的數(shù)量較大時,本申請實施例還包括如下的步驟:
[0088] 重復執(zhí)行步驟c,即不斷在所述卷積器之后添加新的隱藏層權(quán)重矩陣與預設(shè)的非 線性函數(shù),更新所述矩陣組之后,繼續(xù)進行訓練。
[0089] 本步驟中,對所述卷積器以及所述隱藏層權(quán)重矩陣進行參數(shù)更新時,需要進一步 結(jié)合預先得到的N維向量以及預先得到的訓練語料的所述狀態(tài)對齊的結(jié)果。所述N維向量相 當于對聲學模型做出的預測,所述狀態(tài)對齊后的的訓練語料相當于聲學模型訓練過程中的 參考答案,兩者之差就是當前聲學模型對于當前語料的預測誤差,以此誤差,使用線隨機梯 度下降和小批量隨機梯度下降法,就可以對所述卷積器以及所述隱藏層權(quán)重矩陣進行參數(shù) 更新。
[0090] 當所述第二迭代次數(shù)達到預設(shè)的閾值,保持所述卷積器的參數(shù)不變,修改所述參 數(shù)更新的設(shè)置,并對所述矩陣組中除所述卷積器之外的其他矩陣進行所述參數(shù)更新。其中, 所述修改所述參數(shù)更新的設(shè)置,具體指,當參數(shù)更新的策略為在線隨機梯度下降和小批量 隨機梯度下降法時,可以修改梯度下降的學習率,例如學習率逐次減半,并在不斷減半的過 程中監(jiān)測迭代是否收斂,當判定迭代收斂時,停止迭代過程。其中,迭代收斂的判斷為本領(lǐng) 域人員的公知常識,本實施例不再贅述。
[0091] 本實施例中,所述隱藏層權(quán)重矩陣與所述卷積器是預先隨機初始化得到的,其對 應的參數(shù)并不一定是最佳參數(shù),因此,通過對所述隱藏層權(quán)重矩陣與所述卷積器組成矩陣 組不斷迭代訓練實現(xiàn)參數(shù)更新,能夠找到使聲學模型的性能達到最佳的所述隱藏層權(quán)重矩 陣與所述卷積器的相關(guān)參數(shù)。
[0092] 圖4是本申請實施例四的技術(shù)流程圖,結(jié)合圖4,一種語音識別的方法主要包括如 下的步驟:
[0093]步驟S410:獲得待識別語音數(shù)據(jù)對應的子帶;
[0094]本步驟中,具體的,首先對待識別語音數(shù)據(jù)進行分幀,并對所述分幀得到的語音信 號幀進行快速傅里葉變換;
[0095] 其次對所述快速傅里葉變換的結(jié)果取幅度值,采用預設(shè)的濾波器從所述幅度值中 獲取第一預設(shè)數(shù)量的濾波器組參數(shù);
[0096] 根據(jù)預設(shè)的子帶寬度,對所述濾波器組參數(shù)進行分組,得到所述待識別語音數(shù)據(jù) 中每一語音信號幀對應的所述子帶;其中,每一語音信號幀對應的所述子帶的數(shù)量與所述 分組的組數(shù)相同。
[0097] 步驟S420:對所述待識別語音數(shù)據(jù)的所述子帶進行時域擴展得到所述子帶對應的 特征矩陣;
[0098] 本步驟中,具體的,獲取所述語音信號幀的第二預設(shè)數(shù)量的前向語音信號幀、以及 所述語音信號幀的第三預設(shè)數(shù)量的后向語音信號幀,從而得到所述語音信號幀對應的所述 時域拓展后的所述子帶;每個所述子帶對應一個多維向量,則時域擴展后,每個所述子帶對 應多個多維向量組成的矩陣,即所述特征矩陣。
[0099] 其中,所述第二預設(shè)數(shù)量以及所述第三預設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗 值;其中所述時域拓展后的子帶寬度為所述子帶寬度與所述第二預設(shè)數(shù)量以及所述第三預 設(shè)數(shù)量的和。
[0100] 步驟S430:根據(jù)所述特征矩陣,調(diào)用預先訓練的卷積器獲得第一向量;
[0101] 具體的,調(diào)用預先訓練的所述卷積器,并使用每組所述卷積器與所述特征矩陣做 卷積運算;對所述卷積運算的結(jié)果進行采樣并對所述采樣結(jié)果進行歸一化處理,得到所述 第一向量。
[0102] 步驟S440:根據(jù)所述第一向量與預先訓練的隱藏層權(quán)重矩陣獲得N維向量;
[0103] 具體的,以所述預先訓練的隱藏層權(quán)重矩陣與所述第一向量相乘,并對所述相乘 的結(jié)果進行規(guī)整,獲得所述N維向量。
[0104] 步驟S450:根據(jù)所述N維向量,獲得所述待識別的語音信號屬于第n個聲學分類的 概率值;其中,N為正整數(shù),nG[l,N]。
[0105]根據(jù)所述N維向量,獲得所述待識別的語音信號屬于第n個聲學分類的概率值;其 中,N為正整數(shù),nG[l,N]。
[0106]本實施例提供的聲學模型訓練方法通過對訓練語料進行子帶劃分并采用卷積器 對訓練語料的每個局部特征進行提取以及訓練,對聲學打分模型進行改善實現(xiàn)了聲學打分 正確率的提升,進一步提高了遠講語音識別的正確率。
[0107] 圖5是本申請實施例一的裝置結(jié)構(gòu)示意圖,結(jié)合圖5,本申請實施例一種聲學模型 訓練裝置,包括:
[0108] 訓練語料預處理模塊51,用于對訓練語料對應的子帶進行時域擴展得到特征矩 陣;
[0109] 計算模塊52,用于將所述特征矩陣通過預設(shè)的卷積器,獲得第一向量;
[0110] 所述計算模塊52還用于,根據(jù)所述第一向量與預設(shè)的隱藏層權(quán)重矩陣獲得N維向 量;其中,N為所述聲學模型的分類數(shù)目;
[0111] 參數(shù)更新模塊53,用于根據(jù)所述N維向量對所述卷積器與所述隱藏層權(quán)重矩陣進 行參數(shù)更新,以所述參數(shù)更新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學模型。
[0112] 其中,所述訓練語料預處理模塊51還用于,執(zhí)行如下步驟獲得所述訓練語料對應 的所述子帶:對所述訓練語料進行分幀,并對所述分幀得到的語音信號幀進行快速傅里葉 變換;對所述快速傅里葉變換的結(jié)果取幅度值,采用預設(shè)的濾波器從所述幅度值中獲取第 一預設(shè)數(shù)量的濾波器組參數(shù);
[0113] 根據(jù)預設(shè)的子帶寬度,對所述濾波器組參數(shù)進行分組,得到所述訓練語料中每一 語音信號幀對應的所述子帶;其中,每一語音信號幀對應的所述子帶的數(shù)量與所述分組的 組數(shù)相同。
[0114]其中,所述訓練語料預處理模塊51用于:獲取所述語音信號幀的第二預設(shè)數(shù)量的 前向語音信號幀、以及所述語音信號幀的第三預設(shè)數(shù)量的后向語音信號幀,從而得到所述 語音信號幀對應的所述時域拓展后的所述子帶;
[0115]其中,所述第二預設(shè)數(shù)量以及所述第三預設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗 值;其中所述時域拓展后的子帶寬度為所述子帶寬度與所述第二預設(shè)數(shù)量以及所述第三預 設(shè)數(shù)量的和。
[0116]其中,所述卷積器由預設(shè)的卷積矩陣組成,所述卷積矩陣具體為:隨機初始化得到 mXn的矩陣,其中m為所述時域拓展后的子帶寬度,n為小于所述子帶寬度的經(jīng)驗值;所述預 設(shè)的隱藏層權(quán)重矩陣,具體為:隨機初始化x X N的矩陣,其中x為所述分組的組數(shù)的倍數(shù),N 為所述聲學模型的分類數(shù)目。
[0117]其中,所述計算模塊52用于:以第四預設(shè)數(shù)量的所述卷積矩陣為一組卷積器,并使 用每組所述卷積器與所述特征矩陣做卷積運算;對所述卷積運算的結(jié)果進行采樣并對所述 采樣結(jié)果進行歸一化處理,得到所述第一向量。
[0118] 其中,所述計算模塊52用于:以所述預設(shè)的隱藏層權(quán)重矩陣與所述第一向量相乘, 并對所述相乘的結(jié)果進行規(guī)整,獲得所述N維向量。
[0119] 其中,所述參數(shù)更新模塊53用于執(zhí)行如下步驟:
[0120] 步驟a:以所述卷積矩器與所述隱藏層權(quán)重矩陣組成矩陣組;
[0121] 步驟b:根據(jù)預設(shè)的第一迭代次數(shù)以及預設(shè)的參數(shù)更新策略,對所述矩陣組進行參 數(shù)迭代更新;
[0122] 步驟c:在所述卷積器之后添加新的隱藏層權(quán)重矩陣與預設(shè)的非線性函數(shù)從而更 新所述矩陣組,并根據(jù)所述預設(shè)的第二迭代次數(shù)以及所述預設(shè)的參數(shù)更新策略對所述矩陣 組進行參數(shù)更新。
[0123] 其中,所述參數(shù)更新模塊53還用于:重復執(zhí)行步驟c;其中,所述重復執(zhí)行的次數(shù)由 所述訓練語料的數(shù)量決定。
[0124] 其中,所述參數(shù)更新模塊53還用于:當所述第二迭代次數(shù)達到預設(shè)的閾值,保持所 述卷積矩陣的參數(shù)不變,修改所述參數(shù)更新的設(shè)置,并對所述矩陣組中除所述卷積矩陣之 外的其他矩陣進行所述參數(shù)更新。
[0125] 其中,所述訓練語料預處理模塊51還用于,對訓練語料對應的子帶進行時域擴展 之前,根據(jù)所述聲學模型的分類對所述訓練語料進行狀態(tài)對齊,從而獲得優(yōu)化后的所述訓 練語料。
[0126] 圖5所述裝置可執(zhí)行圖1~圖3對應的方法,其執(zhí)行步驟及技術(shù)效果參考圖1~圖3 所述實施例,此處不贅述。
[0127] 圖6是本申請實施例三的裝置結(jié)構(gòu)示意圖,結(jié)合圖6,本申請實施例一種語音識別 裝置,包括:
[0128] 待識別語音數(shù)據(jù)預處理模塊61,用于獲得待識別語音數(shù)據(jù)對應的子帶,對所述待 識別語音數(shù)據(jù)的所述子帶進行時域擴展得到所述子帶對應的特征矩陣;
[0129] 聲學打分模塊62,用于根據(jù)所述特征矩陣,調(diào)用預先訓練的卷積器獲得第一向量; 根據(jù)所述第一向量與預先訓練的隱藏層權(quán)重矩陣獲得N維向量;根據(jù)所述N維向量,獲得所 述待識別的語音信號屬于第n個聲學分類的概率值;其中,N為正整數(shù),nG[l,N]。
[0130] 其中,所述待識別語音數(shù)據(jù)預處理模塊61用于:對待識別語音數(shù)據(jù)進行分幀,并對 所述分幀得到的語音信號幀進行快速傅里葉變換;對所述快速傅里葉變換的結(jié)果取幅度 值,采用預設(shè)的濾波器從所述幅度值中獲取第一預設(shè)數(shù)量的濾波器組參數(shù);根據(jù)預設(shè)的子 帶寬度,對所述濾波器組參數(shù)進行分組,得到所述待識別語音數(shù)據(jù)中每一語音信號幀對應 的所述子帶;其中,每一語音信號幀對應的所述子帶的數(shù)量與所述分組的組數(shù)相同。
[0131] 其中,所述待識別語音數(shù)據(jù)預處理模塊61用于:獲取所述語音信號幀的第二預設(shè) 數(shù)量的前向語音信號幀、以及所述語音信號幀的第三預設(shè)數(shù)量的后向語音信號幀,從而得 到所述語音信號幀對應的所述時域拓展后的所述子帶;其中,所述第二預設(shè)數(shù)量以及所述 第三預設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗值;其中所述時域拓展后的子帶寬度為所述 子帶寬度與所述第二預設(shè)數(shù)量以及所述第三預設(shè)數(shù)量的和。
[0132] 其中,所述打分模塊62用于:調(diào)用預先訓練的所述卷積器,并使用每組所述卷積器 與所述特征矩陣做卷積運算;對所述卷積運算的結(jié)果進行采樣并對所述采樣結(jié)果進行歸一 化處理,得到所述第一向量。
[0133] 其中,所述打分模塊62用于:以所述預先訓練的隱藏層權(quán)重矩陣與所述第一向量 相乘,并對所述相乘的結(jié)果進行規(guī)整,獲得所述N維向量。
[0134] 圖6所述裝置可執(zhí)行圖4對應的方法,其執(zhí)行步驟及技術(shù)效果參考圖4所述實施例, 此處不贅述。
[0135] 應用實例
[0136] 以下部分將結(jié)合圖7,以一個實際的例子對本申請實施例的技術(shù)方案進行進一步 闡述:
[0137] 1、收集語料并確定聲學模型目標分類數(shù)目,此處將聲學模型的目標分類數(shù)目記為 N;
[0138] 2、將訓練語料使用用多種房間混響函數(shù)進行擾動,以得到更加真實、更加全面的 聲音訓練樣本。
[0139] 3、將訓練語料樣本分幀,進行快速傅里葉變換,取幅度。
[0140] 將5分鐘語音數(shù)據(jù),按10毫秒分一幀,分為3萬語音信號幀,使用Mel濾波器組提取 40維濾波器組參數(shù),每一幀用一個40維的向量表示。即5分鐘語音數(shù)據(jù)可以用3萬個40維向 量表示。
[0141] 4、根據(jù)聲學模型的目標分類,使用Viterbi算法對訓練語料進行狀態(tài)對齊。
[0142] 5、獲得每一語音信號幀的子帶,具體將3萬個40維向量中的每一個40維向量按維 度分為8組。分組規(guī)則為第1-7維分為第1組,第5-11維分為第2組,第9-15維分為第3組,第 14-20維分為第4組,第19-25維分為第5組,第24-30維分為第6組,第29-35維分為第7組,第 34-40維分為第8組。每組都是一個7維的向量。即,語音信號幀的每一子帶對應一個7維向 量,每一語音信號幀對應8個子帶。如圖7示的,(a0,al,a2, . . .a6)(b0,bl,b2, . . .b6)(h0, hi,h2,...h6)〇
[0143] 6、對每幀的8個7維向量進行時域擴展,向前取5幀,向后取5幀,得到8個11 X 7的矩 陣。
[0144] 7、隨機初始化1024(128X8)個11X5維的矩陣M。如圖7所示,在卷積層以每8個矩 陣M為一組卷積器,分別對第6步得到的8個矩陣做矩陣卷積,卷積層的輸出為8個3維的向 量。
[0145] 在采樣層中,根據(jù)最大采樣法對卷積層的輸出結(jié)果進行采樣,即在每個3維向量 中,取值最大的作為代表,每組卷積器的輸出是8個一維向量,即一個8維向量,則128個卷積 器對應的該步驟的輸出為128個8維向量(六,8,(:,〇3丨,6,11)。將128向量首尾拼接成一個 1024維的向量,并歸一化。
[0146] 8、隨機初始化一個1024 X N的矩陣P,與第7步輸出的1024維向量相乘,并使用一個 Softmax函數(shù)對輸出規(guī)整,得到一個N維向量,其中,第n維的意義是該幀屬于第n個聲學分類 的概率。
[0147] 9、根據(jù)第8步的輸出和第2步的對齊結(jié)果,進行基于誤差反向傳播算法的參數(shù)更 新,更新第7步和第8步隨機初始化的矩陣M(-組矩陣)和P。使用小批量隨機梯度下降法作 為參數(shù)更新的更新策略。
[0148] 10、以全部數(shù)據(jù)更新一次稱為一個迭代,將第9步的參數(shù)更新進行4個迭代。在矩陣 M和矩陣P之間插入一個矩陣Q和Sigmoid非線性函數(shù)。再更新兩個迭代。
[0149] 11、在第10步基礎(chǔ)上,在矩陣M和矩陣Q之間插入一個矩陣R和Sigmoid非線性函數(shù), 再更新兩個迭代。
[0150] 12、固定矩陣組M的參數(shù)不變,將梯度下降的學習率減半,僅更新Q、R、P矩陣。持續(xù) 修改學習率迭代直至收斂。
[0151] 13、訓練結(jié)束得到參數(shù)更新后的一組矩陣M以及矩陣P組成的聲學模型用于語音識 別中的聲學打分。
[0152] 以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可 以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單 元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上??梢愿鶕?jù)實際的需要選擇其 中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性 的勞動的情況下,即可以理解并實施。
[0153] 通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實施方式可 借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可以通過硬件。基于這樣的理解,上 述技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該 計算機軟件產(chǎn)品可以存儲在計算機可讀存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指 令用以使得一臺計算機裝置(可以是個人計算機,服務器,或者網(wǎng)絡裝置等)執(zhí)行各個實施 例或者實施例的某些部分所述的方法。
[0154]最后應說明的是:以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管 參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應當理解:其依然可 以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替換; 而這些修改或者替換,并不使相應技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和 范圍。
【主權(quán)項】
1. 一種聲學模型訓練方法,其特征在于,包括: 對訓練語料對應的子帶進行時域擴展得到特征矩陣; 將所述特征矩陣通過預設(shè)的卷積器,獲得第一向量; 根據(jù)所述第一向量與預設(shè)的隱藏層權(quán)重矩陣獲得N維向量;其中,N為所述聲學模型的 分類數(shù)目; 根據(jù)所述N維向量對所述卷積器與所述隱藏層權(quán)重矩陣進行參數(shù)更新,以所述參數(shù)更 新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學模型。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括,采用如下方法獲得所述 訓練語料對應的所述子帶: 對所述訓練語料進行分幀,并對所述分幀得到的語音信號幀進行快速傅里葉變換; 對所述快速傅里葉變換的結(jié)果取幅度值,采用預設(shè)的濾波器從所述幅度值中獲取第一 預設(shè)數(shù)量的濾波器組參數(shù); 根據(jù)預設(shè)的子帶寬度,對所述濾波器組參數(shù)進行分組,得到所述訓練語料中每一語音 信號幀對應的所述子帶;其中,每一語音信號幀對應的所述子帶的數(shù)量與所述分組的組數(shù) 相同。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述時域拓展,包括: 獲取所述語音信號幀的第二預設(shè)數(shù)量的前向語音信號幀、以及所述語音信號幀的第三 預設(shè)數(shù)量的后向語音信號幀,從而得到所述語音信號幀對應的所述時域拓展后的所述子 帶; 其中,所述第二預設(shè)數(shù)量以及所述第三預設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗值; 其中所述時域拓展后的子帶寬度為所述子帶寬度與所述第二預設(shè)數(shù)量以及所述第三預設(shè) 數(shù)量的和。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于, 所述卷積器由預設(shè)的卷積矩陣組成,所述卷積矩陣具體為:隨機初始化得到mXn的矩 陣,其中m為所述時域拓展后的子帶寬度,η為小于所述子帶寬度的經(jīng)驗值; 所述預設(shè)的隱藏層權(quán)重矩陣,具體為:隨機初始化xXN的矩陣,其中X為所述分組的組 數(shù)的倍數(shù),N為所述聲學模型的分類數(shù)目。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述獲得第一向量,包括: 以第四預設(shè)數(shù)量的所述卷積矩陣為一組卷積器,并使用每組所述卷積器與所述特征矩 陣做卷積運算; 對所述卷積運算的結(jié)果進行采樣并對所述采樣結(jié)果進行歸一化處理,得到所述第一向 量。6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述第一向量與預設(shè)的隱藏層權(quán)重矩 陣獲得N維向量,包括: 以所述預設(shè)的隱藏層權(quán)重矩陣與所述第一向量相乘,并對所述相乘的結(jié)果進行規(guī)整, 獲得所述N維向量。7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,對所述卷積器與所述第二向量進行參數(shù)更 新,包括: 步驟a:以所述卷積矩器與所述隱藏層權(quán)重矩陣組成矩陣組; 步驟b:根據(jù)預設(shè)的第一迭代次數(shù)以及預設(shè)的參數(shù)更新策略,對所述矩陣組進行參數(shù)迭 代更新; 步驟C:在所述卷積器之后添加新的隱藏層權(quán)重矩陣與預設(shè)的非線性函數(shù)從而更新所 述矩陣組,并根據(jù)所述預設(shè)的第二迭代次數(shù)以及所述預設(shè)的參數(shù)更新策略對所述矩陣組進 行參數(shù)更新。8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法還包括: 重復執(zhí)行步驟c;其中,所述重復執(zhí)行的次數(shù)由所述訓練語料的數(shù)量決定。9. 根據(jù)權(quán)利要求7或8所述的方法,其特征在于,所述方法還包括: 當所述第二迭代次數(shù)達到預設(shè)的閾值,保持所述卷積矩陣的參數(shù)不變,修改所述參數(shù) 更新的設(shè)置,并對所述矩陣組中除所述卷積矩陣之外的其他矩陣進行所述參數(shù)更新。10. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括,對訓練語料對應的子帶 進行時域擴展之前,所述方法還包括: 根據(jù)所述聲學模型的分類對所述訓練語料進行狀態(tài)對齊,從而獲得優(yōu)化后的所述訓練 語料。11. 一種語音識別方法,其特征在于,包括: 獲得待識別語音數(shù)據(jù)對應的子帶; 對所述待識別語音數(shù)據(jù)的所述子帶進行時域擴展得到所述子帶對應的特征矩陣; 根據(jù)所述特征矩陣,調(diào)用預先訓練的卷積器獲得第一向量; 根據(jù)所述第一向量與預先訓練的隱藏層權(quán)重矩陣獲得N維向量; 根據(jù)所述N維向量,獲得所述待識別的語音信號屬于第η個聲學分類的概率值;其中,N 為正整數(shù),ne[l,N]。12. 根據(jù)權(quán)利要求11所述的方法,其特征在于,獲得待識別語音數(shù)據(jù)對應的子帶,包括: 對待識別語音數(shù)據(jù)進行分幀,并對所述分幀得到的語音信號幀進行快速傅里葉變換; 對所述快速傅里葉變換的結(jié)果取幅度值,采用預設(shè)的濾波器從所述幅度值中獲取第一 預設(shè)數(shù)量的濾波器組參數(shù); 根據(jù)預設(shè)的子帶寬度,對所述濾波器組參數(shù)進行分組,得到所述待識別語音數(shù)據(jù)中每 一語音信號幀對應的所述子帶;其中,每一語音信號幀對應的所述子帶的數(shù)量與所述分組 的組數(shù)相同。13. 根據(jù)權(quán)利要求12所述的方法,其特征在于,對所述待識別語音數(shù)據(jù)的所述子帶進行 時域擴展,包括: 獲取所述語音信號幀的第二預設(shè)數(shù)量的前向語音信號幀、以及所述語音信號幀的第三 預設(shè)數(shù)量的后向語音信號幀,從而得到所述語音信號幀對應的所述時域拓展后的所述子 帶; 其中,所述第二預設(shè)數(shù)量以及所述第三預設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗值; 其中所述時域拓展后的子帶寬度為所述子帶寬度與所述第二預設(shè)數(shù)量以及所述第三預設(shè) 數(shù)量的和。14. 根據(jù)權(quán)利要求11所述的方法,其特征在于,調(diào)用預先訓練的卷積器獲得第一向量, 包括: 調(diào)用預先訓練的所述卷積器,并使用每組所述卷積器與所述特征矩陣做卷積運算; 對所述卷積運算的結(jié)果進行采樣并對所述采樣結(jié)果進行歸一化處理,得到所述第一向 量。15. 根據(jù)權(quán)利要求11所述的方法,其特征在于,根據(jù)所述第一向量與預設(shè)的隱藏層權(quán)重 矩陣獲得N維向量,包括: 以所述預先訓練的隱藏層權(quán)重矩陣與所述第一向量相乘,并對所述相乘的結(jié)果進行規(guī) 整,獲得所述N維向量。16. -種聲學模型訓練裝置,其特征在于,包括: 訓練語料預處理模塊,用于對訓練語料對應的子帶進行時域擴展得到特征矩陣; 計算模塊,用于將所述特征矩陣通過預設(shè)的卷積器,獲得第一向量; 所述計算模塊還用于,根據(jù)所述第一向量與預設(shè)的隱藏層權(quán)重矩陣獲得N維向量;其 中,N為所述聲學模型的分類數(shù)目; 參數(shù)更新模塊,用于根據(jù)所述N維向量對所述卷積器與所述隱藏層權(quán)重矩陣進行參數(shù) 更新,以所述參數(shù)更新后的所述卷積器與所述隱藏層權(quán)重矩陣作為所述聲學模型。17. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述訓練語料預處理模塊還用于,執(zhí)行 如下步驟獲得所述訓練語料對應的所述子帶: 對所述訓練語料進行分幀,并對所述分幀得到的語音信號幀進行快速傅里葉變換; 對所述快速傅里葉變換的結(jié)果取幅度值,采用預設(shè)的濾波器從所述幅度值中獲取第一 預設(shè)數(shù)量的濾波器組參數(shù); 根據(jù)預設(shè)的子帶寬度,對所述濾波器組參數(shù)進行分組,得到所述訓練語料中每一語音 信號幀對應的所述子帶;其中,每一語音信號幀對應的所述子帶的數(shù)量與所述分組的組數(shù) 相同。18. 根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述訓練語料預處理模塊用于: 獲取所述語音信號幀的第二預設(shè)數(shù)量的前向語音信號幀、以及所述語音信號幀的第三 預設(shè)數(shù)量的后向語音信號幀,從而得到所述語音信號幀對應的所述時域拓展后的所述子 帶; 其中,所述第二預設(shè)數(shù)量以及所述第三預設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗值; 其中所述時域拓展后的子帶寬度為所述子帶寬度與所述第二預設(shè)數(shù)量以及所述第三預設(shè) 數(shù)量的和。19. 根據(jù)權(quán)利要求18所述的裝置,其特征在于, 所述卷積器由預設(shè)的卷積矩陣組成,所述卷積矩陣具體為:隨機初始化得到mXn的矩 陣,其中m為所述時域拓展后的子帶寬度,η為小于所述子帶寬度的經(jīng)驗值; 所述預設(shè)的隱藏層權(quán)重矩陣,具體為:隨機初始化xXN的矩陣,其中X為所述分組的組 數(shù)的倍數(shù),N為所述聲學模型的分類數(shù)目。20. 根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述計算模塊用于: 以第四預設(shè)數(shù)量的所述卷積矩陣為一組卷積器,并使用每組所述卷積器與所述特征矩 陣做卷積運算; 對所述卷積運算的結(jié)果進行采樣并對所述采樣結(jié)果進行歸一化處理,得到所述第一向 量。21. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述計算模塊用于: 以所述預設(shè)的隱藏層權(quán)重矩陣與所述第一向量相乘,并對所述相乘的結(jié)果進行規(guī)整, 獲得所述N維向量。22. 根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述參數(shù)更新模塊用于執(zhí)行如下步驟: 步驟a:以所述卷積矩器與所述隱藏層權(quán)重矩陣組成矩陣組; 步驟b:根據(jù)預設(shè)的第一迭代次數(shù)以及預設(shè)的參數(shù)更新策略,對所述矩陣組進行參數(shù)迭 代更新; 步驟c:在所述卷積器之后添加新的隱藏層權(quán)重矩陣與預設(shè)的非線性函數(shù)從而更新所 述矩陣組,并根據(jù)所述預設(shè)的第二迭代次數(shù)以及所述預設(shè)的參數(shù)更新策略對所述矩陣組進 行參數(shù)更新。23. 根據(jù)權(quán)利要求22所述的裝置,其特征在于,所述參數(shù)更新模塊還用于: 重復執(zhí)行步驟c;其中,所述重復執(zhí)行的次數(shù)由所述訓練語料的數(shù)量決定。24. 根據(jù)權(quán)利要求22或23所述的裝置,其特征在于,所述參數(shù)更新模塊還用于: 當所述第二迭代次數(shù)達到預設(shè)的閾值,保持所述卷積矩陣的參數(shù)不變,修改所述參數(shù) 更新的設(shè)置,并對所述矩陣組中除所述卷積矩陣之外的其他矩陣進行所述參數(shù)更新。25. 根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述訓練語料預處理模塊還用于, 對訓練語料對應的子帶進行時域擴展之前,根據(jù)所述聲學模型的分類對所述訓練語料 進行狀態(tài)對齊,從而獲得優(yōu)化后的所述訓練語料。26. -種語音識別裝置,其特征在于,包括: 待識別語音數(shù)據(jù)預處理模塊,用于獲得待識別語音數(shù)據(jù)對應的子帶,對所述待識別語 音數(shù)據(jù)的所述子帶進行時域擴展得到所述子帶對應的特征矩陣; 聲學打分模塊,用于根據(jù)所述特征矩陣,調(diào)用預先訓練的卷積器獲得第一向量;根據(jù)所 述第一向量與預先訓練的隱藏層權(quán)重矩陣獲得N維向量;根據(jù)所述N維向量,獲得所述待識 別的語音信號屬于第η個聲學分類的概率值;其中,N為正整數(shù),ne[l,N]。27. 根據(jù)權(quán)利要求26所述的裝置,其特征在于,所述待識別語音數(shù)據(jù)預處理模塊用于: 對待識別語音數(shù)據(jù)進行分幀,并對所述分幀得到的語音信號幀進行快速傅里葉變換; 對所述快速傅里葉變換的結(jié)果取幅度值,采用預設(shè)的濾波器從所述幅度值中獲取第一 預設(shè)數(shù)量的濾波器組參數(shù); 根據(jù)預設(shè)的子帶寬度,對所述濾波器組參數(shù)進行分組,得到所述待識別語音數(shù)據(jù)中每 一語音信號幀對應的所述子帶;其中,每一語音信號幀對應的所述子帶的數(shù)量與所述分組 的組數(shù)相同。28. 根據(jù)權(quán)利要求27所述的裝置,其特征在于,所述待識別語音數(shù)據(jù)預處理模塊用于: 獲取所述語音信號幀的第二預設(shè)數(shù)量的前向語音信號幀、以及所述語音信號幀的第三 預設(shè)數(shù)量的后向語音信號幀,從而得到所述語音信號幀對應的所述時域拓展后的所述子 帶; 其中,所述第二預設(shè)數(shù)量以及所述第三預設(shè)數(shù)量的值為小于所述子帶寬度的經(jīng)驗值; 其中所述時域拓展后的子帶寬度為所述子帶寬度與所述第二預設(shè)數(shù)量以及所述第三預設(shè) 數(shù)量的和。29. 根據(jù)權(quán)利要求26所述的裝置,其特征在于,所述打分模塊用于: 調(diào)用預先訓練的所述卷積器,并使用每組所述卷積器與所述特征矩陣做卷積運算; 對所述卷積運算的結(jié)果進行采樣并對所述采樣結(jié)果進行歸一化處理,得到所述第一向 量。30.根據(jù)權(quán)利要求26所述的裝置,其特征在于,所述打分模塊用于: 以所述預先訓練的隱藏層權(quán)重矩陣與所述第一向量相乘,并對所述相乘的結(jié)果進行規(guī) 整,獲得所述N維向量。
【文檔編號】G10L15/20GK105895082SQ201610371452
【公開日】2016年8月24日
【申請日】2016年5月30日
【發(fā)明人】那興宇
【申請人】樂視控股(北京)有限公司, 樂視致新電子科技(天津)有限公司