基于嵌入式gpu系統(tǒng)的并行化語音識別系統(tǒng)及方法

文檔序號：8224540閱讀：449來源：國知局

基于嵌入式gpu系統(tǒng)的并行化語音識別系統(tǒng)及方法
【技術領域】
[0001] 本發(fā)明設及一種語音識別系統(tǒng)及方法，尤其設及一種基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)及方法，屬于語音識別領域。
【背景技術】
[0002] 隨著人工智能，智能終端等技術與設備的發(fā)展，語音識別被越來越廣泛地應用，傳統(tǒng)的語音識別方法通常是利用DSP等硬件裝置或者結合人工神經(jīng)網(wǎng)絡算法等方式，將音頻整個送入識別引擎作處理，該樣做的好處是保留了語義的連貫性，可W最大限度地確保識別結果的準確率，但該種語音識別方法的缺點也顯而易見；一方面是硬件成本高，系統(tǒng)結構復雜；另一方面是識別時間過長，難W處理大數(shù)據(jù)量的音頻文件，所W需要做并行化處理W 縮短其識別時間。
[0003] 而現(xiàn)有的并行化技術目前還只停留在W數(shù)據(jù)為驅動的宏觀層面上，即由多路引擎組成集群，在同一個時間段可W在不同的機器上處理多個文件，一定程度上減小了處理器的壓力。但隨之而來的問題是；切分后的音頻數(shù)據(jù)在網(wǎng)絡中傳輸所帶來的時間開銷大，不能達到實時性要求、算法復雜，缺乏合理有效地并行調度控制W及部署集群來做語音識別成本過大，難W民用化。

【發(fā)明內容】

[0004] 本發(fā)明在于提供一種基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)及方法，W解決現(xiàn)有語音識別方法并行化程度低、時間開銷大W及成本高的技術問題。
[0005] 本發(fā)明的目的通過W下技術方案予W實現(xiàn)；基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)，包括嵌入式GPU系統(tǒng)1、語音輸入模塊2和顯示輸出模塊3 ;其中嵌入式GPU系統(tǒng)1 由預處理模塊1-1、并行化特征提取模塊1-2、并行化特征匹配模塊1-3和語音庫1-4組成；語音輸入模塊2的輸出信號進入嵌入式GPU系統(tǒng)1，在嵌入式GPU系統(tǒng)1內順序通過預處理模塊1-1、并行化特征提取模塊1-2和并行化特征匹配模塊1-3,信號在嵌入式GPU系統(tǒng) 1內處理后輸出進入顯示輸出模塊3進行輸出顯示；語音庫1-4的輸入信號進入并行化特征匹配模塊1-3。
[0006] 基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)的方法，包括下列步驟：
[0007] 1、語音輸入模塊2采集語音信號，并將數(shù)字化的信號送入基于CUDA平臺架構的嵌入式GPU系統(tǒng)1 ;
[000引 2、信號進入嵌入式GPU系統(tǒng)1的預處理模塊1-1，利用CUDA架構在預處理模塊1-1 中進行W下預處理步驟：
[0009] (a)通過并行化的一階數(shù)字預加重濾波程序濾除輸入語音信號的低頻干擾，提升對語音識別有用的高頻部分；
[0010] 化）利用并行化的方法給輸入語音信號加窗分帖，使得語音信號更易于處理；
[0011] (C)采用雙口限比較法進行端點檢測，將輸入語音信號切分為若干片段，減少計算量，提高系統(tǒng)的識別率；
[0012] 3、利用CUDA架構，在并行化特征提取模塊1-2中對切分后的每個語音片段并行化地進行特征提?。?br>[0013] 4、利用CUDA架構，在并行化特征匹配模塊1-3中將分段特征提取后的信號特征值與語音庫1-4中的語音模板進行并行化的特征匹配；
[0014] 5、整合各片段的匹配識別結果，得出完整的語音識別信息，送入顯示輸出模塊3 顯不結果。
[0015] 其中，所述步驟2(a)中一階數(shù)字預加重濾波程序由一階高通濾波器實現(xiàn)，其傳遞函數(shù)為；H(z) = 1-az-i。
[0016] 其中，所述步驟2(b)中對語音信號的分帖加窗是由可移動的有限長度窗口進行加權的方法來實現(xiàn)的，即5,〇1)=5〇1)*巧〇1)，其中5〇1)為加窗前的函數(shù)，5,〇1)為加窗后的函數(shù)，w(n)即為所加的窗函數(shù)。
[0017] 其中，所述步驟2(c)中端點檢測是通過將語音信號的短時能量和短時過零率作為特征參數(shù)，同時采用雙口限判定法來檢測語音，根據(jù)語音間短暫停頓切分語音信號實現(xiàn)。
[0018] 其中，所述步驟3中提取各段語音信號的特征值，是通過對切分后的每個語音片段并行化進行特征提取來實現(xiàn)，提取的特征值參數(shù)為該片段的Mel頻率倒譜系數(shù)MFCC和片段索引數(shù)組。特征值參數(shù)中的索引數(shù)組是指本語音片段中每帖的特征向量的一維量化值組成的一維數(shù)組；該一維量化值是采用自相似加權距離法對音頻特征數(shù)據(jù)進行降維處理產生的對于第i帖n維特征向量Xi，對應的一維量化值Pi:
[0019]
【主權項】
1. 基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)，其特征在于，包括嵌入式GPU系統(tǒng) (1)、語音輸入模塊（2)和顯示輸出模塊（3);其中嵌入式GPU系統(tǒng)（1)由預處理模塊（1-1)、并行化特征提取模塊（1-2)、并行化特征匹配模塊（1-3)和語音庫（1-4)組成；語音輸入模塊（2)的輸出信號進入嵌入式GPU系統(tǒng)（1)，在嵌入式GPU系統(tǒng)（1)內順序通過預處理模塊（1-1)、并行化特征提取模塊（1-2)和并行化特征匹配模塊（1-3)，信號在嵌入式GPU系統(tǒng)（1)內處理后輸出進入顯示輸出模塊（3)進行輸出顯示；語音庫（1-4)的參考信號進入并行化特征匹配模塊（1-3)。
2. 基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)的方法，其特征在于，包括下列步驟： (1) 語音輸入模塊（2)采集語音信號，并將數(shù)字化的信號送入基于CUDA平臺架構的嵌入式GPU系統(tǒng)（1); (2) 信號進入嵌入式GPU系統(tǒng)（1)的預處理模塊（1-1)，利用CUDA架構在預處理模塊 (1-1)中進行以下預處理步驟： (a) 通過并行化的一階數(shù)字預加重濾波程序濾除輸入語音信號的低頻干擾，提升對語音識別有用的高頻部分； (b) 利用并行化的方法給輸入語音信號加窗分幀，使得語音信號更易于處理； (c) 采用雙門限比較法進行端點檢測，將輸入語音信號切分為若干片段，減少計算量，提尚系統(tǒng)的識別率； (3) 利用CUDA架構，在并行化特征提取模塊（1-2)中對切分后的每個語音片段并行化地進行特征提??； (4) 利用CUDA架構，在并行化特征匹配模塊（1-3)中將分段特征提取后的信號特征值與語音庫（1-4)中的語音模板進行并行化的特征匹配； (5) 整合各片段的匹配識別結果，得出完整的語音識別信息，送入顯示輸出模塊（3)顯不結果。
3. 根據(jù)權利要求2所述的基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)及方法，其特征在于，所述步驟（a)中一階數(shù)字預加重濾波程序由一階高通濾波器實現(xiàn)，其傳遞函數(shù)為： H(z) = l_az-1〇
4. 根據(jù)權利要求2所述的基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)及方法，其特征在于，所述步驟（b)中對語音信號的加窗分幀是由可移動的有限長度窗口進行加權的方法來實現(xiàn)的，即3?=3〇1)*￥(11)，其中5(11)為加窗前的函數(shù)，5?為加窗后的函數(shù)，￥(11) 即為所加的窗函數(shù)。
5. 根據(jù)權利要求2所述的基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)及方法，其特征在于，所述步驟（c)中端點檢測是通過將語音信號的短時能量和短時過零率作為特征參數(shù)，同時采用雙門限判定法來檢測語音，根據(jù)語音間短暫停頓切分語音信號實現(xiàn)。
6. 根據(jù)權利要求2所述的一種基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)及方法，其特征在于，所述步驟（3)對切分后的每個語音片段并行化進行特征提取，提取的特征值參數(shù)為該片段的Mel頻率倒譜系數(shù)MFCC和片段索引數(shù)組。
7. 根據(jù)權利要求2或6所述的基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)及方法，其特征在于，所述步驟（3)中，特征值參數(shù)中的索引數(shù)組是指本語音片段中每幀的特征向量的一維量化值組成的一維數(shù)組；該一維量化值是采用自相似加權距離法對音頻特征數(shù)據(jù)進行降維處理產生的；對于第i幀η維特征向量Xi，對應的一維量化值pi:
其中，d^Xy)表示兩個特征向量間的距離，R為計算范圍，Cj為加權系數(shù)，其值可采用下列公式確定：
8. 根據(jù)權利要求2或7所述的基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)及方法，其特征在于，所述并行化特征提取模塊（1-2)對每一語音片段進行特征值提取計算的過程是并行化的；在CUDA平臺架構下，為每個語音片段分配一個線程，并行執(zhí)行特征值計算，以加快處理速度，提高系統(tǒng)效率。
9. 根據(jù)權利要求2所述的基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)及方法，其特征在于，所述步驟（4)中，分段特征提取后的信號特征值與已有語音庫（1-4)中的模板進行并行化特征匹配過程：首先利用各片段的索引數(shù)組來計算該音頻片段與各模板的相似度，如果相似度小于所設定的閾值，則本次匹配失敗，接著進行下一個索引數(shù)組與模板的相似度計算；否則，繼續(xù)利用該語音片段的MFCC特征值來計算與當前模板的相似度，如果MFCC特征值相似度大于設定閾值，則該片段與模板匹配成功；按此方法通過并行化的片段匹配，最終識別完整的語音內容。
10. 根據(jù)權利要求2或9所述的基于嵌入式GPU系統(tǒng)的并行化語音識別系統(tǒng)及方法，其特征在于，所述并行化特征匹配模塊（1-3)語音片段的特征值匹配是通過基于CUDA平臺的并行化音頻檢索方法實現(xiàn)的；根據(jù)每次輸入GPU的語音片段數(shù)自適應的設置相應GPU執(zhí)行配置，多個線程組成一個線程塊，若干個線程塊組成一個線程格；將語音庫中的眾多模板分給各線程塊去處理，即：線程格內的每個線程塊處理不同的模板，而每個線程塊內的所有線程處理同一個模板；每個語音片段分別與一個線程塊中同一模板的每個線程進行并行匹配計算；這樣每個CUDA線程都相互獨立地執(zhí)行各自的匹配運算。
【專利摘要】本發(fā)明公布了一種基于GPU系統(tǒng)的并行化語音識別系統(tǒng)及方法，該系統(tǒng)包括嵌入式GPU系統(tǒng)、語音輸入模塊和顯示輸出模塊；其中，嵌入式GPU系統(tǒng)由預處理模塊、并行化特征提取模塊和并行化特征匹配模塊組成。語音輸入模塊輸出信號進入嵌入式GPU系統(tǒng)，在嵌入式GPU系統(tǒng)內順序通過預處理模塊、并行化特征提取模塊和并行化特征匹配模塊，輸入至顯示輸出模塊顯示；語音庫的信號模板進入并行化特征匹配模塊。本發(fā)明對部分模塊進行了并行化改進，能夠處理大數(shù)據(jù)量的音頻識別。同時利用并行化方法優(yōu)化語音信號處理等過程，提高語音識別系統(tǒng)效率，保證語音識別功能實時性，增強語音識別系統(tǒng)的健壯性和穩(wěn)定性。本發(fā)明還公布了一種基于GPU系統(tǒng)的并行化語音識別系統(tǒng)的方法。
【IPC分類】G10L15-26
【公開號】CN104538033
【申請?zhí)枴緾N201410837018
【發(fā)明人】劉鎮(zhèn), 呂超, 孟騰騰, 范遠超
【申請人】江蘇科技大學
【公開日】2015年4月22日
【申請日】2014年12月29日

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：劉鎮(zhèn);呂超;孟騰騰;范遠超;
技術所有人：江蘇科技大學;
我是此專利的發(fā)明人

上一篇：一種語音識別方法及系統(tǒng)的制作方法
上一篇：一種融合用戶反饋的漢語語音識別方法及系統(tǒng)的制作方法

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于嵌入式gpu系統(tǒng)的并行化語音識別系統(tǒng)及方法