專利名稱:語音音頻混合分級編碼中核心層殘差提取系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻編碼技術(shù)領(lǐng)域,尤其涉及一種語音音頻混合分級編碼中核心層殘 差提取系統(tǒng)及方法。
背景技術(shù):
可分級增強層編碼方法中,編碼端通過計算原始信號與核心層合成信號的殘差, 同時接收核心層的輸出參數(shù),對殘差域信號做分級編碼。解碼端解碼出殘差域信號,與核心 層信號相加,得到恢復(fù)的合成信號。各個增強層的殘差域信號逐級加到核心層信號上,從而 漸次改善重建質(zhì)量。殘差域信號的準確提取與增強層編碼所能提供的音質(zhì)增益有直接關(guān) 系,解碼端解碼得到的殘差信號越接近編碼端計算的殘差信號,則合成信號越接近原始信 號,解碼音質(zhì)越高。由于語音編碼和音頻編碼的技術(shù)和方法存在差異,現(xiàn)有的語音音頻的混合編碼 器,采用不同的模式分別對語音/音頻進行編碼。系統(tǒng)會根據(jù)當前聲音信號的類型選擇采 用何種模式,或者分別采用兩種模式進行編碼,然后根據(jù)編碼生成的合成信號選出編碼效 果好的作為最終的編碼模式。由于該合成信號的生成只是用于模式選擇,并不等同于解碼 端生成合成信號的所有操作,再加上兩種編碼模式的交疊,往往會導(dǎo)致編、解碼端得到的合 成信號不一致,因而編碼端得到的原始信號與合成信號的殘差信號并非準確的殘差信號。 對于語音音頻混合編碼模式下核心層編碼殘差的準確提取,成為提高語音音頻混合編碼器 分級編碼質(zhì)量的關(guān)鍵。
發(fā)明內(nèi)容
針對上述存在的技術(shù)問題,本發(fā)明的目的是提供一種語音音頻混合分級編碼中核 心層殘差提取系統(tǒng)及方法,以解決語音音頻混合分級編碼的需求。為達到上述目的,本發(fā)明采用如下的技術(shù)方案一種語音音頻混合分級編碼框架中核心層殘差提取系統(tǒng),包括預(yù)處理模塊來自音頻輸入設(shè)備的單聲道或多聲道的輸入信號進行預(yù)處理,得到 當前幀的音頻信號,并將所獲得的當前幀的音頻信號做三路輸出一路輸出給語音編碼模 塊,一路輸出給音頻編碼模塊,一路輸出給殘差生成模塊;語音編碼模塊采用通用的語音編碼算法對輸入的當前幀的音頻信號進行編碼, 編碼后作兩路輸出,其中一路輸出為語音解碼合成碼流,用于模式判決,另一路輸出為編碼 提取的各類編碼參數(shù),傳遞給語音解碼合成模塊;音頻編碼模塊采用通用的音頻編碼算法對輸入的當前幀的音頻信號進行編碼, 編碼后作兩路輸出,其中一路輸出為音頻解碼合成碼流,用于模式判決,另一路輸出為編碼 提取的各類編碼參數(shù),傳遞給音頻解碼合成模塊;模式選取模塊選取最優(yōu)的編碼模式,得到模式位標識分兩路輸出,一路進入語音 解碼合成模塊,一路進入音頻解碼合成模塊;
語音解碼合成模塊如果模式選取模塊的輸出是語音編碼模式,則進入語音解碼 合成模塊,利用語音編碼模塊輸出的各類編碼參數(shù)作為輸入,輸出最終的核心層語音解碼 合成信號;音頻解碼合成模塊如果模式選取模塊的輸出是音頻編碼模式,則進入音頻解碼 合成模塊,利用音頻編碼模塊輸出的各類編碼參數(shù)作為輸入,輸出最終的核心層音頻解碼 合成信號; 殘差生成模塊預(yù)處理模塊輸出的預(yù)處理后的當前幀的音頻信號和語音/音頻解 碼合成模塊輸出的解碼后合成信號為本模塊的兩路輸入,根據(jù)模式位不同,選擇語音解碼 合成信號或音頻解碼合成信號,計算得到殘差信號,本模塊的輸出為殘差信號。一種語音音頻混合分級編碼中核心層殘差提取方法,包括①輸入語音/音頻信號首先經(jīng)過預(yù)處理,輸入信號可以是單聲道或多聲道信號, 預(yù)處理可以包括高通濾波、分幀、預(yù)加重等處理,得到預(yù)處理后的信號s(n);②由①所得的預(yù)處理后的音頻信號,進行語音編碼后一路輸出為語音編碼合成碼 流X1 (η),另一路輸出為語音編碼參數(shù);③由①所得的預(yù)處理后的音頻信號,進行音頻編碼后一路輸出為音頻編碼合成碼 流X2 (η),另一路輸出為音頻編碼參數(shù);④由②和③得到的合成碼流X1 (η)和X2 (η),進行模式選取,選擇最優(yōu)的編碼方式, 輸出模式位標識;⑤由④所得的模式位,如果選擇的是語音編碼模式,則轉(zhuǎn)入步驟⑥,執(zhí)行語音解碼 合成;如果選擇的是音頻編碼模式,則轉(zhuǎn)入步驟⑦,執(zhí)行音頻解碼合成;⑥由步驟②輸出的編碼參數(shù),進行語音解碼合成得到語音解碼合成信號;⑦由步驟③輸出的編碼參數(shù),進行音頻解碼合成得到音頻解碼合成信號料⑧由①得到預(yù)處理后的信號s(n)和由⑥或⑦得到的解碼后的合成信號或 料《)得到殘差信號r(n)。所述步驟⑥進一步包括以下子步驟解碼LP濾波器參數(shù),通過接收到的ISP量化索引合成已量化的ISP矢量,插值后 的ISP矢量被轉(zhuǎn)換到LP濾波器系數(shù)域,用于合成濾波器重建語音;解碼自適應(yīng)碼本矢量和固定碼本矢量及兩者的增益,合成語音;進行白噪聲特性增強和基音增強的后處理;得到最終的合成音頻信號并更新公共緩存。所述步驟⑦進一步包括以下子步驟讀取量化頻率樣值,進行基于分裂表的反矢量量化;增益平衡,去除不同縮放因子的影響;峰值逆整形;逆時頻變換,信號由頻域變換到時域,得到的時域信號與全局增益相乘;加窗和TVC內(nèi)的重疊相加;通過逆感知加權(quán)濾波器得到合成音頻信號;如果前一幀采用的是ACELP模式編碼,那么將當前幀起始的交迭部分和上一幀 ACELP合成信號的最后一個子幀做加窗交迭,得到最終的合成音頻信號并更新公共緩存。
本發(fā)明具有以下優(yōu)點和積極效果本發(fā)明克服了現(xiàn)有語音音頻混合編碼模式下可分級核心層殘差信號無法準確提 取的問題。
圖1是本發(fā)明提供的語音音頻混合分級編碼中核心層殘差提取系統(tǒng)的框架示意 圖。圖2是本發(fā)明提供的語音音頻混合分級編碼中核心層殘差提取方法的流程圖。1-預(yù)處理模塊,2-語音編碼模塊,3-音頻編碼模塊,4-模式選取模塊,5-語音解 碼合成模塊,6-音頻解碼合成模塊,7-殘差生成模塊,8-音頻原始信號,9-預(yù)處理后信號, 10"語音編碼合成信號,11-音頻編碼合成信號,12-編碼模式標識位,13-語音解碼合成信 號,14-音頻解碼合成信號,15-語音編碼參數(shù),16-音頻編碼參數(shù),17-殘差信號。
具體實施例方式
下面以具體實施例結(jié)合附圖對本發(fā)明作進一步說明本發(fā)明提供的語音音頻混合分級編碼中核心層殘差提取系統(tǒng)分為兩部分,一部分 為核心編碼層,另一部分為殘差增強層,其中核心層采用通用的語音/音頻混合編碼技術(shù), 殘差增強層可以分為多個增強層,如圖1所示,包括預(yù)處理模塊1、語音編碼模塊2、音頻編碼模塊3、模式選取模塊4、語音解碼合成模 塊5、音頻解碼合成模塊6、殘差生成模塊7 ;預(yù)處理模塊1 對輸入信號進行預(yù)處理,其輸入為音頻原始信號,輸出為預(yù)處理后 的信號,預(yù)處理后的信號做三路輸出一路輸出給語音編碼模塊,一路輸出給音頻編碼模 塊,一路輸出給殘差生成模塊;語音編碼模塊2 該模塊是可分級編碼框架中的核心層編碼模塊,采用通用的語 音編碼算法對預(yù)處理模塊的輸入信號進行編碼,編碼后作兩路輸出,其中一路輸出為語音 編碼合成碼流,用于模式判決,另一路輸出為編碼提取的各類編碼參數(shù),傳遞給語音解碼合 成模塊,用于計算準確的合成信號;音頻編碼模塊3 該模塊是可分級編碼框架中的核心層編碼模塊,采用通用的音 頻編碼算法對預(yù)處理模塊的輸入信號進行編碼,編碼后作兩路輸出,其中一路輸出為音頻 編碼合成碼流,用于模式判決,另一路輸出為編碼提取的各類編碼參數(shù),傳遞給音頻解碼合 成模塊,用于計算準確的合成信號;模式選取模塊4:對于語音編碼模塊和音頻編碼模塊的兩路輸出,選取最優(yōu)的模 式作為編碼器,輸出為模式位標識。如果選擇了語音編碼模式,則進入語音解碼合成模塊, 如果選擇了音頻編碼模式,則進入音頻解碼合成模塊;語音解碼合成模塊5 如果模式選取模塊的輸出是語音編碼模式,則進入語音解 碼合成模塊,利用語音編碼模塊輸出的各類編碼參數(shù)作為輸入,輸出最終的核心層語音編 碼合成信號; 音頻解碼合成模塊6 如果模式選取模塊的輸出是音頻編碼模式,則進入音頻解 碼合成模塊,利用音頻編碼模塊輸出的各類編碼參數(shù)作為輸入,輸出最終的核心層音頻編碼合成信號;殘差生成模塊7 預(yù)處理模塊輸出的預(yù)處理后的信號和語音/音頻解碼合成模塊 輸出的解碼后合成信號為本模塊的兩路輸入,得到殘差信號,本模塊的輸出為殘差信號。本發(fā)明提供的語音音頻混合分級編碼中核心層殘差提取方法包括以下步驟步驟1 對采樣率為16kHz輸入信號進行預(yù)處理,預(yù)處理具體包括高通濾波和感知 加權(quán)兩個過程,輸出信號為s (η);將輸入信號送入高通濾波器,濾除50Hz以下的低頻信號;將高通濾波后的信號送入感知加權(quán)濾波器^b(ζ),同時Y ‘ 1; Y ‘ 2以及Y ‘ 3(0 < Y ‘ Y ‘ 2, Y ‘ 3< 1)三個系數(shù)也相應(yīng)調(diào)整以緩和量化噪聲譜wLB(z)=“ η其中Y' 1; Y' 2, Y' 3為調(diào)整參量, 為線性預(yù)測分析系數(shù),i為線性預(yù)測的 階數(shù),=1 +Λ A10Z-10。步驟2 對經(jīng)過預(yù)處理過后的信號進行12kbps模式的ACELP編碼器編碼,進行編 碼后一路輸出為語音編碼合成碼流xjn),另一路輸出為語音編碼參數(shù),包括ISF索引值、VQ 增益索引值、碼本索引值、濾波索引值、基因延遲索引值;步驟3 對經(jīng)過預(yù)處理過后的信號進行12kbps模式的TVC編碼器(變換域音頻編 碼器)編碼,進行編碼后一路輸出為音頻編碼合成碼流X2 (η),另一路輸出為音頻編碼參數(shù), 包括量化頻率樣值、縮放因子、全局增益;步驟4 由步驟2和步驟3得到的合成碼流X1 (η)和X2 (η),分別計算與步驟1的輸 出信號s (η)的感知加權(quán)分段信噪比SNRl和SNR2,如果SNRl > SNR2,則模式位標識mod置 0,選擇ACELP編碼器編碼,否則mod置1,選擇TVC編碼器編碼;步驟5 如果mod為0,則轉(zhuǎn)入步驟6,執(zhí)行語音解碼合成模塊;如果mod為1,則轉(zhuǎn) 入步驟7,執(zhí)行音頻解碼合成模塊;步驟6 由步驟2輸出的編碼參數(shù),通過ACELP解碼器合成得到解碼合成信號, 本步驟具體實施方式
包括以下子步驟①.解碼LP濾波器參數(shù),通過接收到的ISP量化索引合成已量化的ISP矢量,插 值后的ISP矢量被轉(zhuǎn)換到LP濾波器系數(shù)域,用于合成濾波器重建語音;②.解碼自適應(yīng)碼本矢量和固定碼本矢量及兩者的增益,合成語音;③.后處理(白噪聲特性增強和基音增強);④.得到最終的合成音頻信號并更新公共緩存。步驟7 由步驟3輸出的編碼參數(shù),通過TVC解碼器合成得到音頻解碼合成信號 mn),本步驟具體實施方式
包括以下子步驟①.讀取量化頻率樣值,進行基于分裂表的反矢量量化;②.增益平衡,去除不同縮放因子的影響;③.峰值逆整形;④.逆時頻變換,信號由頻域變換到時域,得到的時域信號與全局增益相乘;⑤.加窗和TVC內(nèi)的重疊相加;⑥.通過逆感知加權(quán)濾波器得到合成音頻信號;
⑦.如果前一幀采用的是ACELP模式編碼,那么將當前幀起始的交迭部分和上一 幀ACELP合成信號的最后一個子幀做加窗交迭,得到最終的合成音頻信號并更新公共緩存。步驟8 由步驟1得到預(yù)處理后的信號s (η)減去解碼后的合成信號,如果采用語 音編碼模式,則與相減,如采用音頻編碼模式則與料《)相減,得到殘差信號r (η)。本發(fā)明的分級核心層語音音頻編碼方法是通用的編碼算法,獲得語音音頻混合編 碼模式下分級核心層與原始信號的準確殘差的方法是本發(fā)明的主要內(nèi)容,編碼端的語音/ 音頻編碼器生成的合成信號用于進行最優(yōu)編碼模式的選擇,利用語音/音頻編碼器輸出的 編碼參數(shù)得到與解碼端一致的合成信號,從而得到準確的殘差用于分級增強層。以上實施例僅供說明本發(fā)明之用,而非對本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的技術(shù)人 員,在不脫離本發(fā)明的精神和范圍的情況下,還可以作出各種變換或變型,因此所有等同的 技術(shù)方案,都落入本發(fā)明的保護范圍。
權(quán)利要求
1.一種語音音頻混合分級編碼框架中核心層殘差提取系統(tǒng),其特征在于,包括預(yù)處理模塊(1)來自音頻輸入設(shè)備的單聲道或多聲道的輸入信號(8)進行預(yù)處理,得 到當前幀的音頻信號(9),并將所獲得的當前幀的音頻信號(9)做三路輸出一路輸出給語 音編碼模塊O),一路輸出給音頻編碼模塊(3),一路輸出給殘差生成模塊(7);語音編碼模塊O)采用通用的語音編碼算法對輸入的當前幀的音頻信號(9)進行編 碼,編碼后作兩路輸出,其中一路輸出為語音解碼合成碼流(10),用于模式判決,另一路輸 出為編碼提取的各類編碼參數(shù)(15),傳遞給語音解碼合成模塊(5);音頻編碼模塊(3)采用通用的音頻編碼算法對輸入的當前幀的音頻信號(9)進行編 碼,編碼后作兩路輸出,其中一路輸出為音頻解碼合成碼流(11),用于模式判決,另一路輸 出為編碼提取的各類編碼參數(shù)(16),傳遞給音頻解碼合成模塊(6);模式選取模塊選取最優(yōu)的編碼模式,得到模式位標識(1 分兩路輸出,一路進入 語音解碼合成模塊(5),一路進入音頻解碼合成模塊(6);語音解碼合成模塊(5)如果模式選取模塊的輸出(12)是語音編碼模式,則進入語音 解碼合成模塊(5),利用語音編碼模塊輸出的各類編碼參數(shù)(1 作為輸入,輸出最終的核 心層語音解碼合成信號(13);音頻解碼合成模塊(6)如果模式選取模塊的輸出(1 是音頻編碼模式,則進入音頻 解碼合成模塊(6),利用音頻編碼模塊輸出的各類編碼參數(shù)(16)作為輸入,輸出最終的核 心層音頻解碼合成信號(14);殘差生成模塊(7)預(yù)處理模塊輸出的預(yù)處理后的當前幀的音頻信號(9)和語音/音 頻解碼合成模塊輸出的解碼后合成信號為本模塊的兩路輸入,根據(jù)模式位不同,選擇語音 解碼合成信號(1 或音頻解碼合成信號(14),計算得到殘差信號(17),本模塊的輸出為殘 差信號(17)。
2.一種語音音頻混合分級編碼中核心層殘差提取方法,其特征在于,包括以下步驟①輸入語音/音頻信號首先經(jīng)過預(yù)處理,輸入信號可以是單聲道或多聲道信號,預(yù)處 理可以包括高通濾波、分幀、預(yù)加重等處理,得到預(yù)處理后的信號s(n);②由①所得的預(yù)處理后的音頻信號,進行語音編碼后一路輸出為語音編碼合成碼流 X1 (η),另一路輸出為語音編碼參數(shù);③由①所得的預(yù)處理后的音頻信號,進行音頻編碼后一路輸出為音頻編碼合成碼流 &(η),另一路輸出為音頻編碼參數(shù);④由②和③得到的合成碼流Xl(η)和& (η),進行模式選取,選擇最優(yōu)的編碼方式,輸出 模式位標識;⑤由④所得的模式位,如果選擇的是語音編碼模式,則轉(zhuǎn)入步驟⑥,執(zhí)行語音解碼合 成;如果選擇的是音頻編碼模式,則轉(zhuǎn)入步驟⑦,執(zhí)行音頻解碼合成;⑥由步驟②輸出的編碼參數(shù),進行語音解碼合成得到語音解碼合成信號;⑦由步驟③輸出的編碼參數(shù),進行音頻解碼合成得到音頻解碼合成信號料《);⑧由①得到預(yù)處理后的信號s(η)和由⑥或⑦得到的解碼后的合成信號或料《)得 到殘差信號r (η)。
3.根據(jù)權(quán)利要求2所述的語音音頻混合分級編碼中核心層殘差提取方法,其特征在于所述步驟⑥進一步包括以下子步驟解碼LP濾波器參數(shù),通過接收到的ISP量化索引合成已量化的ISP矢量,插值后的ISP 矢量被轉(zhuǎn)換到LP濾波器系數(shù)域,用于合成濾波器重建語音;解碼自適應(yīng)碼本矢量和固定碼本矢量及兩者的增益,合成語音; 進行白噪聲特性增強和基音增強的后處理; 得到最終的合成音頻信號并更新公共緩存。
4.根據(jù)權(quán)利要求2或3所述的語音音頻混合分級編碼中核心層殘差提取方法,其特征 在于所述步驟⑦進一步包括以下子步驟 讀取量化頻率樣值,進行基于分裂表的反矢量量化; 增益平衡,去除不同縮放因子的影響; 峰值逆整形;逆時頻變換,信號由頻域變換到時域,得到的時域信號與全局增益相乘;加窗和TVC內(nèi)的重疊相加;通過逆感知加權(quán)濾波器得到合成音頻信號;如果前一幀采用的是ACELP模式編碼,那么將當前幀起始的交迭部分和上一幀ACELP 合成信號的最后一個子幀做加窗交迭,得到最終的合成音頻信號并更新公共緩存。
全文摘要
本發(fā)明涉及音頻編碼技術(shù)領(lǐng)域,尤其涉及一種語音音頻混合分級編碼中核心層殘差提取系統(tǒng)及方法。本發(fā)明提供的系統(tǒng)包括預(yù)處理模塊(1)、語音編碼模塊(2)、音頻編碼模塊(3)、模式選取模塊(4)、語音解碼合成模塊(5)、音頻解碼合成模塊(6)、殘差生成模塊(7);本發(fā)明提供的用于獲得語音音頻混合編碼模式下分級核心層與原始信號的準確殘差的方法是本發(fā)明的主要內(nèi)容,編碼端的語音/音頻編碼器生成的合成信號用于進行最優(yōu)編碼模式的選擇,利用語音/音頻編碼器輸出的編碼參數(shù)得到與解碼端一致的合成信號,從而得到準確的殘差用于分級增強層。本發(fā)明克服了現(xiàn)有語音音頻混合編碼模式下可分級核心層殘差信號無法準確提取的問題。
文檔編號G10L19/02GK102074242SQ201010606009
公開日2011年5月25日 申請日期2010年12月27日 優(yōu)先權(quán)日2010年12月27日
發(fā)明者曾琦, 楊玉紅, 楊裕才, 王國英, 胡瑞敏, 陳先念, 高麗 申請人:武漢大學(xué)