一種語音信號頻域盲解卷積方法

文檔序號：2829058閱讀：1092來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種語音信號頻域盲解卷積方法
技術(shù)領(lǐng)域：
本發(fā)明屬于多媒體信息處理中語音信號提取與識別領(lǐng)域，具體涉及ー種語音信號頻域盲解卷積方法，可應(yīng)用于人機交互場景中提高交互識別率。
背景技術(shù)：
自動語音識別技術(shù)經(jīng)過60余年的發(fā)展，在無噪聲或無干擾環(huán)境下，識別率已經(jīng)超過95%。但是在實際應(yīng)用環(huán)境中尤其是兩個或多個說話人同時說話時，語音識別率驟然下降，這極大的限制了該技術(shù)在人機交互(Human-Machine Interaction, HMI)中的應(yīng)用。人類的聽覺系統(tǒng)能在嘈雜的環(huán)境中獲取自己感興趣的信息，而處于人機交互環(huán)境下的機器人很難擁有此能力。盲信號分離就是在原始信號和傳輸通道均未知的情況下僅由接收傳感器得到的混合信號來估計原始信號的ー種技木。
HMI環(huán)境下的盲分離屬于盲解卷范疇，對于卷積混合信號或者真實環(huán)境下混合語音信號，學(xué)術(shù)界主要有兩種方法對其進(jìn)行解卷積，一種是時域盲解卷，另ー種是頻域盲解卷。時域盲解卷主要是基于ICA概念將線性瞬時混合情況下的標(biāo)量混合矩陣擴展為卷積混合情況下的濾波器混合矩陣，并對目標(biāo)函數(shù)和迭代算法做一定的修正。頻域盲解卷算法的基本思想是利用短時傅里葉變換將時域卷積混合信號變換為頻域瞬時混合信號，再利用較為成熟的瞬時混合盲分離算法對頻域混合信號進(jìn)行分離，即在頻域里每ー個頻點利用瞬時混合的盲分離算法進(jìn)行分離，解決輸出信號的次序不確定以及信號幅度不確定之后再通過逆傅里葉變換得到分離后的時域信號。時域盲解卷的劣勢在于計算量太大，尤其是當(dāng)混合濾波器較為復(fù)雜時，求解濾波器的每ー階都要依靠其余階的求解。例如Chan提出的對角常數(shù)化分離矩陣算法，混合濾波器為5階以下時，算法能快速的分離混合信號，而當(dāng)濾波器的階數(shù)為6階以上時，分離速度明顯下降且分離效果變差。而頻域算法在每個頻率點分離相互獨立，混合濾波器階數(shù)對計算量影響較時域算法小很多。國內(nèi)外現(xiàn)有盲解卷積方法并不多，現(xiàn)有方法在以下方面存在不足I)大多數(shù)算法是在一定限定條件下得到的，分離效果不理想，分離后信號交叉干擾較大，穩(wěn)健性不高。2)在真實環(huán)境人機交互過程中，識別正確率不高。3)現(xiàn)有算法捜索速度慢，實時性較差，并不能很好的應(yīng)用于實時人機交互場景。

發(fā)明內(nèi)容
本發(fā)明針對上述現(xiàn)有技術(shù)所存在的不足，公開了ー種語音信號頻域盲解卷積方法，該方法通過將時域卷積混合信號變換到頻域進(jìn)行盲分離，分離效果較好，可應(yīng)用于語音識別領(lǐng)域。本發(fā)明解決技術(shù)問題采用如下技術(shù)方案語音信號頻域盲解卷積方法，其特征在于將時域卷積混合的語音信號變換到頻域進(jìn)行盲分離，具體包括以下步驟I)對原始音頻文件的自適應(yīng)分幀，當(dāng)采樣頻率為16KHz時，幀長取16ms，幀移取2ms ；2)對單幀數(shù)據(jù)進(jìn)行傅里葉變換，將卷積混合信號模型轉(zhuǎn)變?yōu)榫€性混合模型；卷積混合模型可以表示為x(/) = H s(/) ( 表示卷積)(I)信號的短時傅里葉變換可以表示為
權(quán)利要求
1.一種語音信號頻域盲解卷積方法，其特征在于將時域卷積混合的語音信號變換到頻域進(jìn)行盲分離，具體包括以下步驟1)對原始音頻文件的自適應(yīng)分幀，當(dāng)采樣頻率為16KHz時，幀長取16ms，幀移取2ms； 2)對單幀數(shù)據(jù)進(jìn)行傅里葉變換，將卷積混合信號模型轉(zhuǎn)變?yōu)榫€性混合模型；卷積混合模型可以表示為
全文摘要
本發(fā)明公開了一種語音信號頻域盲解卷積方法，將時域卷積混合的語音信號變換到頻域進(jìn)行盲分離，根據(jù)語音信號的短時平穩(wěn)性，將時域卷積混合信號通過加窗傅里葉變換轉(zhuǎn)變成頻域線性瞬時混合模型，在頻域中濾波、白化等預(yù)處理后，采用不同時延下相關(guān)矩陣近似聯(lián)合對角化的方法實現(xiàn)分段語音信號盲分離，在解決了信號盲分離的模糊性問題后，經(jīng)過傅立葉逆變換在時域中進(jìn)行分段分離信號重組。本發(fā)明對2×2實錄混合語音信號具有良好的分離效果，并能有效地提高存在他人說話干擾環(huán)境下人機交互系統(tǒng)的語音信號識別正確率。
文檔編號G10L15/18GK102760435SQ201210227840
公開日2012年10月31日申請日期2012年7月3日優(yōu)先權(quán)日2012年7月3日
發(fā)明者丁志中, 戴禮榮, 陳小平, 黃玉雷申請人:合肥工業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：丁志中;黃玉雷;戴禮榮;陳小平
技術(shù)所有人：合肥工業(yè)大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音信號的頻域分析相關(guān)技術(shù)

語音信號頻域特征相關(guān)技術(shù)

頻域卷積定理相關(guān)技術(shù)

頻域卷積相關(guān)技術(shù)

時域相乘等于頻域卷積相關(guān)技術(shù)

時域卷積等于頻域乘積相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種語音信號頻域盲解卷積方法