一種語音增強的方法和裝置的制作方法

文檔序號：7706747閱讀：195來源：國知局

專利名稱：一種語音增強的方法和裝置的制作方法
技術領域：
本發(fā)明涉及語音通信技術領域，特別是涉及一種語音增強的方法和裝置。
背景技術：
現(xiàn)實的語音通信可能發(fā)生在嘈雜的噪聲環(huán)境中，例如，工廠中的手機通訊會受到機器轟鳴聲的影響；火車駕駛室中的語音通信會受到電機運行和鐵軌碰撞聲的干擾。而語音增強就是從帶噪聲的語音信號中提取出盡可能純凈的原始語音，進而改善語音質量，提高語音的清晰度和可懂度。在語音通信技術中，語音增強技術得到了極為廣泛的應用。語音增強的目的主要有兩個一是改進語音質量，消除背景噪聲，使聽者能夠接受，并且沒有疲勞感；二是提高語音的可懂度。其中，由于噪聲特性各異，語音增強算法的方法也各不相同，目前常用的方法有譜減法、維納濾波法和最小均方誤差估計的方法等。在基于最小均方誤差估計技術中，需要通過Decision-Directed Approach方法計算先驗信噪比來得到純凈語音信號，但是，發(fā)明人在研究中發(fā)現(xiàn)，在現(xiàn)有基于最小均方誤差估計技術中，對于先驗信噪比的計算至少存在如下問題對當前數(shù)據(jù)幀的先驗信噪比計算依賴于當前數(shù)據(jù)幀的前一幀信息，然而，當前幀的前一幀與當前幀之間是存在差異的，這種差異性會導致先驗信噪比同樣存在誤差，并最終導致通過語音增強技術得到的純凈語音信號與真實的純凈語音信號之間也存在較大的誤差。

發(fā)明內容
本發(fā)明實施例提供了一種語音增強的方法和裝置，以降低增強語音信號與真實信號間的誤差。本發(fā)明實施例公開了一種語音增強方法，包括將帶噪語音信號進行變換，得到頻域帶噪語音信號；采用相關度修正參數(shù)設置所述頻域帶噪語音信號的前一幀譜方差和前一幀譜幅度平方的權值，得到頻域純凈語音信號中當前幀的譜方差，其中，所述相關度修正參數(shù)指示所述當前幀與所述前一幀之間的相關性；根據(jù)所述頻域純凈語音信號中當前幀的譜方差和所述頻域帶噪語音信號的前一幀的譜方差，得到頻域純凈語音信號中當前幀的先驗信噪比；依據(jù)最小均方誤差估計法，由所述頻域純凈語音信號中當前幀的先驗信噪比，得到增強的頻域純凈語音信號。本發(fā)明實施例還公開了一種語音增強的裝置，包括頻域變換單元，用于將帶噪聲的時域語音信號進行頻域變換處理，得到帶噪聲的頻域語音信號；譜方差修正單元，用于根據(jù)相關度修正參數(shù)設置前一幀譜方差和前一幀譜幅度平方的權值，得到純凈語音信號中當前幀的譜方差，其中，所述相關度修正參數(shù)指示所述當前幀與所述前一幀之間的相關性；先驗信噪比獲取單元，用于根據(jù)所述純凈語音信號中當前幀的譜方差和噪聲信號中前一幀的譜方差，得到純凈語音信號中當前幀的先驗信噪比；語音增強單元，用于依據(jù)最小均方誤差估計法，由所述純凈語音信號中當前幀的先驗信噪比，得到純凈的頻域語音信號。
由上述實施例可以看出，引入相關度修正參數(shù)來描述某一幀與前一幀之間的相關性，采用相關度修正參數(shù)設置所述頻域帶噪語音信號的前一幀譜方差和前一幀譜幅度平方的權值，當某一幀與前一幀之間的無相關性時，則利用前一幀的譜方差計算某一幀的譜方差，當某一幀與前一幀之間具有強相關性時，則利用前一幀的譜幅度計算某一幀的譜方差，當某一幀與前一幀之間的相關性介于無相關性和強相關性之間時，通過調整相關度參數(shù)的值可以更精確獲得某一幀的譜方差，由此可以降低增強語音信號與真實信號間的誤差。

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案，下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明一種語音增強的方法的一個實施例的流程圖；圖2為本發(fā)明中采用最小均方差估計方法進行語音增強的原理框圖；圖3為本發(fā)明一種語音增強的方法的一個具體實施方式
的流程圖；圖4為原始帶噪聲的語音信號仿真圖；圖5為現(xiàn)有技術中語音增強處理后的純凈語音信號仿真圖；圖6為本發(fā)明中語音增強處理后的純凈語音信號仿真圖；圖7為本發(fā)明一種語音增強的裝置的一個實施例的結構圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結合附圖對本發(fā)明實施例進行詳細描述。實施例一請參閱圖1，其為本發(fā)明一種語音增強的方法的一個實施例的流程圖，該方法包括以下步驟步驟101 將帶噪語音信號進行變換，得到頻域帶噪語音信號；步驟102 采用相關度修正參數(shù)設置所述頻域帶噪語音信號的前一幀譜方差和前一幀譜幅度平方的權值，得到頻域純凈語音信號中當前幀的譜方差，其中，所述相關度修正參數(shù)指示所述當前幀與所述前一幀之間的相關性；其中，所述根據(jù)相關度修正參數(shù)設置前一幀譜方差和前一幀譜幅度平方的權值，得到純凈語音信號中當前幀的譜方差包括將所述前一幀譜方差和所述前一幀譜幅度平方加權求和，得到前一幀譜方差的修正值，其中，1與相關度修正參數(shù)的差值為所述前一幀譜方差的權值，相關度修正參數(shù)為所述前一幀譜方差平方的權值；獲得所述前一幀譜方差的修正值與純凈語音信號中當前幀之前所有數(shù)據(jù)幀的譜方差的最小值中的最大值，將所述最大值作為所述純凈語音信號中當前幀的譜方差。步驟103 根據(jù)所述頻域純凈語音信號中當前幀的譜方差和所述頻域帶噪語音信號的前一幀的譜方差，得到頻域純凈語音信號中當前幀的先驗信噪比；
5
其中，所述根據(jù)所述純凈語音信號中當前幀的譜方差和噪聲信號中前一幀的譜方差，得到純凈語音信號中當前幀的先驗信噪比具體包括將所述純凈語音信號中當前幀的譜方差和所述噪聲信號中前一幀的譜方差求商，得到所述純凈語音信號中當前幀的先驗信噪比。步驟104 依據(jù)最小均方誤差估計法，由所述頻域純凈語音信號中當前幀的先驗信噪比，得到增強的頻域純凈語音信號。其中，所述依據(jù)最小均方誤差估計法，由所述純凈語音信號中當前幀的先驗信噪比，得到純凈的頻域語音信號包括根據(jù)所述純凈語音信號中當前幀的先驗信噪比和后驗信噪比，得到當前幀的頻譜增益；根據(jù)所述當前幀的頻譜增益和帶噪聲語音信號中當前幀的頻譜分量信號的乘積，得到純凈語音信號中當前幀的頻譜分量信號；將各個數(shù)據(jù)幀的頻譜分量信號求和，得到所述純凈的頻域語音信號。需要說明的是，在得到增強的頻域純凈語音信號后，還可以進一步將所述頻域純凈語音信號進行時域變換處理，得到時域純凈語音信號。通過上述實施例可以看出，引入相關度修正參數(shù)來描述某一幀與前一幀之間的相關性，采用相關度修正參數(shù)設置所述頻域帶噪語音信號的前一幀譜方差和前一幀譜幅度平方的權值，當某一幀與前一幀之間的無相關性時，則利用前一幀的譜方差計算某一幀的譜方差，當某一幀與前一幀之間具有強相關性時，則利用前一幀的譜幅度計算某一幀的譜方差，當某一幀與前一幀之間的相關性介于無相關性和強相關性之間時，通過調整相關度參數(shù)的值可以更精確獲得某一幀的譜方差，由此可以降低增強語音信號與真實信號間的誤差。實施例二在本實施例中，將詳細說明用引入權值的先驗信噪比進行語音增強的最小均方差估計方法，請參閱圖2所示，其為本發(fā)明中最小均方差估計方法進行語音增強的原理框圖，結合圖2，請參閱圖3，其為本發(fā)明一種語音增強的方法的一個具體實施方式
的流程圖，具體包括以下步驟步驟301 獲取帶噪聲語音信號；其中，設定獲得的帶噪聲語音信號為y(n)，包括純凈語音信號x(n)和噪聲信號 d(n)；步驟302 將所述獲取的帶噪聲語音信號進行傅里葉變換，得到頻域帶噪聲語音信號；其中，設定將帶噪聲語音信號y(n)經過傅里葉變換后為Y(k)，包括純凈語音信號 X(k)和噪聲信號D(k)；步驟303 在頻域下，計算純凈語音信號中各個數(shù)據(jù)幀的譜方差；其中，設定一個相關度修正系數(shù)，用于指示純凈語音信號中第1幀與第1-1幀之間的相關性，當?shù)?幀與第1-1幀之間沒有相關性時，則用第1-1幀的譜方差來代替第1幀的譜方差，當?shù)?幀與第1-1幀之間具有強相關性時，則用第1-1幀的譜幅度來計算第1幀的
譜方差。
由此，可以得到知
,其中，、表示純凈語音信號中
第1幀的譜方差，示純凈語音信號中第1-1幀譜方差，二二表示純凈語音信號中第1-1
幀譜幅度的平方，入_表示純凈語音信號中第1幀之前所有數(shù)據(jù)幀的譜方差的最小值，e 為所述相關度修正參數(shù)，用于指示所述當前幀與所述前一幀之間的相關度。S卩，先將第1-1幀譜方差和第1-1幀譜幅度的平方加權求和，得到第1-1幀的譜方差的修正值，然后再比較第1-1幀的譜方差的修正值和第1幀之前所有數(shù)據(jù)幀的譜方差的最小值的大小，將比較得到的最大值做為純凈語音信號中第1幀的譜方差。同時，試驗結果表明，當e落在0.4 0.8的范圍內，語音增強的效果較好；其中當e =0.8時，語音增強的效果最好。步驟304 在頻域下，根據(jù)純凈語音信號中各個數(shù)據(jù)幀的譜方差計算純凈語音信號中各個數(shù)據(jù)幀的先驗信噪比；其中，當計算得到純凈語音信號中各個數(shù)據(jù)幀的譜方差后，根據(jù)
則得到此外，根據(jù)最小均方誤差估計準則，有
又根據(jù)
第1幀的語音譜方差&估計\可按如下公式計算由于
則將上式兩邊除以可以得到
改寫為差步驟305 根據(jù)最小均方誤差估計法，由純凈語音信號中各個數(shù)據(jù)幀的先驗信噪比，得到純凈語音信號中各個數(shù)據(jù)幀的頻譜分量；其中，按照公式+ 計算得到第1幀的頻譜增益函數(shù)，其
中，
表示第1幀的頻譜增益函數(shù)；
同時根據(jù)公式
計算得到純凈語音信號中第1幀的頻譜分量。步驟306 將純凈語音信號中各個數(shù)據(jù)幀的頻譜分量求和，得到頻域純凈語音信號；其中
并由此獲得頻域純凈語音信號，實現(xiàn)了語音增強功能。步驟307 將所述頻域純凈語音信號進行傅里葉逆變換，得到時域純凈語音信號。其中，請參閱圖4、圖5和圖6，圖4為原始帶噪聲的語音信號仿真圖，可以看出噪聲對語音的影響是明顯的，尤其是在低頻段，主觀測聽可知噪聲相當明顯；圖5為現(xiàn)有技術中語音增強處理后的純凈語音信號仿真圖，可以看出噪聲在很大程度上被抑制，但是抑制噪聲的同時也抑制了部分語音，主觀測聽有明顯的語音畸變；圖6為本發(fā)明中語音增強處理后的純凈語音信號仿真圖，可以看出在噪聲抑制和語音畸變之間取得了平衡，有利于主觀聽覺感受，主觀測聽語音畸變不明顯，噪聲程度不影響聽覺感受。通過上述實施例可以看出，引入相關度修正參數(shù)來描述某一幀與前一幀之間的相關性，并將1與相關度參數(shù)的差值作為前一幀譜方差估計值的權值，將相關度參數(shù)作為前一幀譜幅度估計值平方的權值，當某一幀與前一幀之間的無相關性時，則利用前一幀的譜方差估計值計算某一幀的譜方差估計值，當某一幀與前一幀之間具有強相關性時，則利用前一幀的譜幅度估計值計算某一幀的譜方差估計值，當某一幀與前一幀之間的相關性介于無相關性和強相關性之間時，通過調整相關度參數(shù)的值可以更精確地估計純某一幀的譜方差估計值，并由此可以更精確地估計純凈語音信號先驗信噪比，從而降低了在語音增強過程中，由先驗信噪比的計算而引入的誤差。此外，本發(fā)明實施例采用每幀更新的先驗信噪比估計方法也可以更精確地估計純凈語音信號的先驗信噪比。實施例三與上述一種語音增強方法相對應，本發(fā)明實施例還提供了一種語音增強裝置。請參閱圖7，其為本發(fā)明一種語音增強裝置的一個實施例的結構圖，該裝置包括頻域變換單元701、譜方差修正單元702、先驗信噪比獲取單元703和語音增強單元704。下面結合該裝置的工作原理進一步介紹其內部結構以及連接關系。頻域變換單元701，用于將帶噪聲的時域語音信號進行頻域變換處理，得到帶噪聲的頻域語音信號；譜方差修正單元702，用于根據(jù)相關度修正參數(shù)設置前一幀譜方差和前一幀譜幅度平方的權值，得到純凈語音信號中當前幀的譜方差，其中，所述相關度修正參數(shù)指示所述當前幀與所述前一幀之間的相關性；先驗信噪比獲取單元703，用于根據(jù)所述純凈語音信號中當前幀的譜方差和噪聲信號中前一幀的譜方差，得到純凈語音信號中當前幀的先驗信噪比；語音增強單元704，用于依據(jù)最小均方誤差估計法，由所述純凈語音信號中當前幀的先驗信噪比，得到純凈的頻域語音信號。其中，上述譜方差修正單元702包括加權單元7021和比較單元7022，加權單元 7011，用于將所述前一幀譜方差和所述前一幀譜幅度平方加權求和，得到前一幀譜方差的修正值，其中，1與相關度修正參數(shù)的差值為所述前一幀譜方差的權值，相關度修正參數(shù)為所述前一幀譜方差平方的權值，所述相關度修正參數(shù)指示所述當前幀與所述前一幀之間的相關性；比較單元7012，用于比較所述前一幀譜方差的修正值與純凈語音信號中當前幀之前所有數(shù)據(jù)幀的譜方差的最小值的大小，獲得所述前一幀譜方差的修正值與純凈語音信號中當前幀之前所有數(shù)據(jù)幀的譜方差的最小值的最大值，將所述最大值作為所述純凈語音信號中當前幀的譜方差。上述語音增強單元704包括頻譜增益獲取單元7041、頻譜分量信號計算單元 7042和整合單元7043，頻譜增益獲取單元7041，用于根據(jù)所述純凈語音信號中當前幀的先驗信噪比和后驗信噪比，得到當前幀的頻譜增益；頻譜分量信號計算單元7042，用于根據(jù)所述當前幀的頻譜增益和帶噪聲語音信號中當前幀的頻譜分量信號的乘積，得到純凈語音信號中當前幀的頻譜分量信號；整合單元7043，用于將各個數(shù)據(jù)幀的頻譜分量信號求和，得到所述純凈的頻域語
音信號。需要說明的是，所述裝置還可以進一步包括時域變換單元，用于將所述純凈的頻域語音信號進行時域變換處理，得到純凈的時域語音信號。由上述實施例可以看出，引入相關度修正參數(shù)來描述某一幀與前一幀之間的相關性，采用相關度修正參數(shù)設置所述頻域帶噪語音信號的前一幀譜方差和前一幀譜幅度平方的權值，當某一幀與前一幀之間的無相關性時，則利用前一幀的譜方差計算某一幀的譜方差，當某一幀與前一幀之間具有強相關性時，則利用前一幀的譜幅度計算某一幀的譜方差，當某一幀與前一幀之間的相關性介于無相關性和強相關性之間時，通過調整相關度參數(shù)的值可以更精確獲得某一幀的譜方差，由此可以降低增強語音信號與真實信號間的誤差。需要說明的是，本領域普通技術人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程，是可以通過計算機程序來指令相關的硬件來完成，所述的程序可存儲于一計算機可讀取存儲介質中，該程序在執(zhí)行時，可包括如上述各方法的實施例的流程。其中，所述的存儲介質可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory, ROM)或隨機存儲記憶體 (Random Access Memory, RAM)等。以上對本發(fā)明所提供的一種語音增強的方法和裝置進行了詳細介紹，本文中應用了具體實施例對本發(fā)明的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領域的一般技術人員，依據(jù)本發(fā)明的思想，在具體實施方式
及應用范圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本發(fā) 明的限制。
權利要求
一種語音增強的方法，其特征在于，包括將帶噪語音信號進行變換，得到頻域帶噪語音信號；采用相關度修正參數(shù)設置所述頻域帶噪語音信號的前一幀譜方差和前一幀譜幅度平方的權值，得到頻域純凈語音信號中當前幀的譜方差，其中，所述相關度修正參數(shù)指示所述當前幀與所述前一幀之間的相關性；根據(jù)所述頻域純凈語音信號中當前幀的譜方差和所述頻域帶噪語音信號的前一幀的譜方差，得到頻域純凈語音信號中當前幀的先驗信噪比；依據(jù)最小均方誤差估計法，由所述頻域純凈語音信號中當前幀的先驗信噪比，得到增強的頻域純凈語音信號。
2.根據(jù)權利要求1所述的方法，其特征在于，還包括將所述頻域純凈語音信號進行時域變換處理，得到時域純凈語音信號。
3.根據(jù)權利要求1所述的方法，其特征在于，所述根據(jù)相關度修正參數(shù)設置前一幀譜方差和前一幀譜幅度平方的權值，得到純凈語音信號中當前幀的譜方差包括將所述前一幀譜方差和所述前一幀譜幅度平方加權求和，得到前一幀譜方差的修正值，其中，1與相關度修正參數(shù)的差值為所述前一幀譜方差的權值，相關度修正參數(shù)為所述前一幀譜方差平方的權值；獲得所述前一幀譜方差的修正值與純凈語音信號中當前幀之前所有數(shù)據(jù)幀的譜方差的最小值中的最大值，將所述最大值作為所述純凈語音信號中當前幀的譜方差。
4.根據(jù)權利要求1所述的方法，其特征在于，所述根據(jù)所述純凈語音信號中當前幀的譜方差和噪聲信號中前一幀的譜方差，得到純凈語音信號中當前幀的先驗信噪比具體包括將所述純凈語音信號中當前幀的譜方差和所述噪聲信號中前一幀的譜方差求商，得到所述純凈語音信號中當前幀的先驗信噪比。
5.根據(jù)權利要求1所述的方法，其特征在于，所述依據(jù)最小均方誤差估計法，由所述純凈語音信號中當前幀的先驗信噪比，得到純凈的頻域語音信號包括根據(jù)所述純凈語音信號中當前幀的先驗信噪比和后驗信噪比，得到當前幀的頻譜增■、ΛM ；根據(jù)所述當前幀的頻譜增益和帶噪聲語音信號中當前幀的頻譜分量信號的乘積，得到純凈語音信號中當前幀的頻譜分量信號；將各個數(shù)據(jù)幀的頻譜分量信號求和，得到所述純凈的頻域語音信號。
6.一種語音增強的裝置，其特征在于，包括頻域變換單元，用于將帶噪聲的時域語音信號進行頻域變換處理，得到帶噪聲的頻域語音信號；譜方差修正單元，用于根據(jù)相關度修正參數(shù)設置前一幀譜方差和前一幀譜幅度平方的權值，得到純凈語音信號中當前幀的譜方差，其中，所述相關度修正參數(shù)指示所述當前幀與所述前一幀之間的相關性；先驗信噪比獲取單元，用于根據(jù)所述純凈語音信號中當前幀的譜方差和噪聲信號中前一幀的譜方差，得到純凈語音信號中當前幀的先驗信噪比；語音增強單元，用于依據(jù)最小均方誤差估計法，由所述純凈語音信號中當前幀的先驗信噪比，得到純凈的頻域語音信號。
7.根據(jù)權利要求6所述的裝置，其特征在于，所述裝置還包括時域變換單元，用于將所述純凈的頻域語音信號進行時域變換處理，得到純凈的時域語音信號。
8.根據(jù)權利要求6所述的裝置，其特征在于，譜方差修正單元包括加權單元，用于將所述前一幀譜方差和所述前一幀譜幅度平方加權求和，得到前一幀譜方差的修正值，其中，1與相關度修正參數(shù)的差值為所述前一幀譜方差的權值，相關度修正參數(shù)為所述前一幀譜方差平方的權值，所述相關度修正參數(shù)指示所述當前幀與所述前一幀之間的相關性；比較單元，用于比較所述前一幀譜方差的修正值與純凈語音信號中當前幀之前所有數(shù) 據(jù)幀的譜方差的最小值的大小，獲得所述前一幀譜方差的修正值與純凈語音信號中當前幀之前所有數(shù)據(jù)幀的譜方差的最小值的最大值，將所述最大值作為所述純凈語音信號中當前幀的譜方差。
9.根據(jù)權利要求6所述的裝置，其特征在于，所述語音增強單元包括頻譜增益獲取單元，用于根據(jù)所述純凈語音信號中當前幀的先驗信噪比和后驗信噪比，得到當前幀的頻譜增益；頻譜分量信號計算單元，用于根據(jù)所述當前幀的頻譜增益和帶噪聲語音信號中當前幀的頻譜分量信號的乘積，得到純凈語音信號中當前幀的頻譜分量信號；整合單元，用于將各個數(shù)據(jù)幀的頻譜分量信號求和，得到所述純凈的頻域語音信號。
全文摘要
本發(fā)明實施例公開了一種語音增強的方法和裝置。其中，所述方法包括將帶噪語音信號進行變換，得到頻域帶噪語音信號；采用相關度修正參數(shù)設置所述頻域帶噪語音信號的前一幀譜方差和前一幀譜幅度平方的權值，得到頻域純凈語音信號中當前幀的譜方差，其中，所述相關度修正參數(shù)指示所述當前幀與所述前一幀之間的相關性；根據(jù)所述頻域純凈語音信號中當前幀的譜方差和所述頻域帶噪語音信號的前一幀的譜方差，得到頻域純凈語音信號中當前幀的先驗信噪比；依據(jù)最小均方誤差估計法，由所述頻域純凈語音信號中當前幀的先驗信噪比，得到增強的頻域純凈語音信號。通過本發(fā)明實施例，可以降低在語音增強過程中，由先驗信噪比的計算而引入的誤差。
文檔編號H04L25/02GK101853666SQ20091013234
公開日2010年10月6日申請日期2009年3月30日優(yōu)先權日2009年3月30日
發(fā)明者張清, 楊毅申請人:華為技術有限公司

完整全部詳細技術資料下載