專(zhuān)利名稱(chēng):音頻編解碼器后置濾波器的制作方法
技術(shù)領(lǐng)域:
描述的工具和技術(shù)涉及音頻編解碼器,并且更特別地涉及經(jīng)解碼的語(yǔ)音的后置處理。
背景技術(shù):
伴隨著數(shù)字無(wú)線電話(huà)網(wǎng)、互聯(lián)網(wǎng)上的流音頻以及互聯(lián)網(wǎng)電話(huà)的出現(xiàn),語(yǔ)音的數(shù)字處理和傳輸已經(jīng)變成很普通的事情了。工程師們使用多種技術(shù)有效地處理語(yǔ)音,同時(shí)仍然保持質(zhì)量。理解如何在計(jì)算機(jī)中表示和處理音頻信息將有助于理解這些技術(shù)。
I.計(jì)算機(jī)中音頻信息的表示 計(jì)算機(jī)將音頻信息作為表示音頻的一連串?dāng)?shù)字加以處理。單個(gè)數(shù)字可以表示一個(gè)音頻樣本,它是特定時(shí)刻的振幅值。幾個(gè)因素影響音頻的質(zhì)量,包括采樣深度和采樣率。
采樣深度(或者精度)指示用于表示樣本的數(shù)字的范圍。對(duì)于每個(gè)樣本盡可能多的值通常產(chǎn)生更高質(zhì)量的輸出,由于可以表示振幅中的更多的微妙的變化。8位樣本具有256個(gè)可能的值,而16位樣本具有65536個(gè)可能的值。
采樣率(經(jīng)常以每秒的采樣數(shù)來(lái)測(cè)量)也影響質(zhì)量。采樣率越高,質(zhì)量越高,因?yàn)榭梢员硎靖嗟穆曇纛l率。一些普通的采樣率是8000,11025,22050,32000,44100,48000,和96000樣本/秒(Hz)。表1表示幾個(gè)具有不同質(zhì)量級(jí)別的音頻格式,連同相應(yīng)的原始比特率代價(jià)。
表1不同質(zhì)量音頻的比特率 如表1所示,高質(zhì)量音頻的代價(jià)是高比特率。高質(zhì)量音頻信息消耗大量的計(jì)算機(jī)存儲(chǔ)和傳輸能力。一些計(jì)算機(jī)和計(jì)算機(jī)網(wǎng)絡(luò)缺少處理原始數(shù)字音頻的資源。壓縮(也被稱(chēng)作編碼)通過(guò)將信息轉(zhuǎn)化成較低的比特率形式,降低了存儲(chǔ)和傳輸音頻信息的代價(jià)。壓縮可以是無(wú)損的(其中質(zhì)量不受損失)或者有損的(其中質(zhì)量受損但是比較于隨后的無(wú)損壓縮的比特率減縮是更顯著的)。解壓縮(也稱(chēng)作解碼)提取來(lái)自壓縮形式的原始信息的重構(gòu)模型。編解碼器是編碼器/解碼器系統(tǒng)。
II.語(yǔ)音編碼器和解碼器 音頻壓縮的一個(gè)目標(biāo)是數(shù)字化地表示音頻信號(hào)以提供對(duì)于一定數(shù)量位的最大限度的信號(hào)質(zhì)量。換句話(huà)說(shuō),這個(gè)目標(biāo)是在給定級(jí)別質(zhì)量上以最少位來(lái)表示音頻信號(hào)。其它目標(biāo)諸如,傳輸誤差的恢復(fù)力和限制由于編碼/傳輸/解碼的總時(shí)延,應(yīng)用在一些方案中。
不同種類(lèi)的音頻信號(hào)具有不同的特征。音樂(lè)的特征在于大的頻率和振幅范圍,并且經(jīng)常包括兩個(gè)或更多信道。相反,語(yǔ)音的特征在于較小的頻率和振幅范圍,并且通常地被表示為單個(gè)信道。某一個(gè)編解碼器和處理技術(shù)適宜于音樂(lè)和一般音頻;其他的編解碼器和處理技術(shù)適宜于語(yǔ)音。
一種傳統(tǒng)的語(yǔ)音編解碼器使用線性預(yù)測(cè)(“LP”)來(lái)實(shí)現(xiàn)壓縮。所述語(yǔ)音編碼包括若干階段。所述編碼器得到和量化用于線性預(yù)測(cè)濾波器的系數(shù),其被用于預(yù)測(cè)如同優(yōu)先樣本值的線性組合的樣本值。剩余信號(hào)(表示為一個(gè)“激勵(lì)”信號(hào))表示未正確地由所述濾波器預(yù)測(cè)的部分原始信號(hào)。在某些階段,語(yǔ)音編解碼器對(duì)話(huà)音部分(以聲音的和弦振動(dòng)為特征),未發(fā)聲部分,和不發(fā)聲部分使用不同的壓縮技術(shù),因?yàn)椴煌?lèi)型的語(yǔ)音具有不同的特征。話(huà)音部分一般顯示非常重復(fù)的聲音模式,甚至在剩余的域中。對(duì)于話(huà)音部分,編碼器通過(guò)比較電流剩余信號(hào)和先前剩余的周期以及根據(jù)與先前的周期有關(guān)的延遲或滯后信息實(shí)現(xiàn)進(jìn)一步的壓縮。編碼器使用特別設(shè)計(jì)的密碼本,處理原始信號(hào)和預(yù)測(cè),編碼表示(來(lái)自線性預(yù)測(cè)和延遲信息)之間的其它差異。
盡管如上所述的語(yǔ)音編解碼器對(duì)于許多應(yīng)用具有良好的綜合性能,但它們具有若干缺陷。例如,有損的編解碼器一般通過(guò)減少語(yǔ)音信號(hào)中的冗余而減少比特率,其導(dǎo)致解碼語(yǔ)音中的噪聲或其它不希望的膺象。因此,一些編解碼器濾波器解碼語(yǔ)音以改善它的質(zhì)量。這種后置濾波器一般分為兩種類(lèi)型時(shí)域后置濾波器和頻域后置濾波器。
考慮到壓縮和解壓縮在計(jì)算機(jī)系統(tǒng)中表示的語(yǔ)音信號(hào)的重要性,重建語(yǔ)音的后置濾波器具有有吸引力的研究?jī)r(jià)值是不令人驚訝的。無(wú)論哪一種用于重建語(yǔ)音或其它音頻的處理的在前技術(shù)的優(yōu)點(diǎn),它們都不勝過(guò)此處所述的技術(shù)和工具。
發(fā)明內(nèi)容
概括地說(shuō),所述詳細(xì)說(shuō)明涉及用于音頻編解碼器的各種技術(shù)和工具,并且具體來(lái)講涉及與濾波解碼語(yǔ)音有關(guān)的工具和技術(shù)。所描述的實(shí)施例實(shí)現(xiàn)所描述的技術(shù)和工具中的一個(gè)或多個(gè),其中包括但不限于下列 在一個(gè)方面,計(jì)算應(yīng)用于重建音頻信號(hào)的一組濾波系數(shù)。所述計(jì)算過(guò)程包括執(zhí)行一個(gè)或多個(gè)頻域計(jì)算。通過(guò)使用上述那組濾波系數(shù)在時(shí)域中對(duì)上述重建音頻信號(hào)的至少一部分進(jìn)行濾波,便產(chǎn)生了經(jīng)濾波的音頻信號(hào)。
在另一個(gè)方面,產(chǎn)生應(yīng)用于重建音頻信號(hào)的一組濾波系數(shù)。這些系數(shù)的產(chǎn)生過(guò)程包括處理用于表示一個(gè)或多個(gè)波峰和一個(gè)或多個(gè)波谷的一組系數(shù)值。處理該組系數(shù)值包括裁剪一個(gè)或多個(gè)波峰或波谷。使用所述濾波系數(shù)對(duì)上述重建音頻信號(hào)的至少一部分進(jìn)行濾波。
在另一個(gè)方面,接收根據(jù)多個(gè)重建頻率子頻帶信號(hào)而合成的重建復(fù)合信號(hào)。所述子頻帶信號(hào)包括用于第一頻帶的重建第一頻率子頻帶信號(hào)和用于第二頻帶的重建第二頻率子頻帶信號(hào)。在第一頻帶和第二頻帶之間的交叉點(diǎn)周?chē)念l率區(qū)域處,選擇性地增強(qiáng)所述重建復(fù)合信號(hào)。
可組合或獨(dú)立地使用所述各種技術(shù)和工具。
下列參考所述附圖進(jìn)行的不同的實(shí)施例的詳細(xì)說(shuō)明將使得附加的特點(diǎn)和優(yōu)點(diǎn)更明顯。
圖1是可實(shí)現(xiàn)所描述的一個(gè)或多個(gè)實(shí)施例的適當(dāng)?shù)挠?jì)算環(huán)境的方框圖。
圖2是一幅網(wǎng)絡(luò)環(huán)境的方框圖,和其一起可以實(shí)現(xiàn)一個(gè)或多個(gè)所描述的實(shí)施例。
圖3是一幅描述可以被用于子頻帶編碼的一個(gè)可能的頻率子頻帶結(jié)構(gòu)的圖。
圖4是一幅實(shí)時(shí)語(yǔ)音頻帶編碼器的方框圖,和其一起可以實(shí)現(xiàn)一個(gè)或者多個(gè)所描述的實(shí)施例。
圖5是一幅描述在一個(gè)實(shí)施方式中確定密碼本參數(shù)的流程圖。
圖6是一幅實(shí)時(shí)語(yǔ)音頻帶解碼器的方框圖,和其一起可以實(shí)現(xiàn)一個(gè)或者多個(gè)所描述的實(shí)施例。
圖7是一幅描述可以在一些實(shí)施方式中使用的用于確定后置濾波系數(shù)的技術(shù)的流程圖。
具體實(shí)施例方式 所描述的實(shí)施例涉及用于處理編碼和/或解碼中的音頻信息的技術(shù)和工具。使用這些技術(shù),改善從諸如實(shí)時(shí)語(yǔ)音編解碼器的語(yǔ)音編解碼器獲得的語(yǔ)音質(zhì)量。這種改進(jìn)可以是各種技術(shù)和工具的獨(dú)立或者組合使用的結(jié)果。
這種技術(shù)和工具可以包括使用在頻域中被設(shè)計(jì)或處理的系數(shù),被應(yīng)用于時(shí)域中的解碼音頻信號(hào)中的后置濾波器。所述技術(shù)同時(shí)包括在這種濾波器里,或者在其它類(lèi)型的后-過(guò)濾器中使用的裁剪或遮蓋濾波系數(shù)值。
所述技術(shù)可能同時(shí)包括增強(qiáng)在頻率區(qū)域的解碼音頻信號(hào)振幅的后置濾波器,在所述頻率區(qū)域,能量也許已經(jīng)由于頻帶范圍中的分解而衰減。例如,所述濾波器可以增強(qiáng)在靠近相鄰的交叉點(diǎn)頻帶的頻率區(qū)域上的信號(hào)。
盡管為了表示,是以特殊的,連續(xù)的順序描述用于各種技術(shù)的操作,應(yīng)當(dāng)被理解的是這種描述的方式包含按照操作順序的局部的重新配置,除非需要特殊的排序。例如,順序描述的操作在某些情況下可以被再排列或同時(shí)執(zhí)行。而且,為了簡(jiǎn)化起見(jiàn),流程圖也許不顯示特殊技術(shù)可以結(jié)合其他技術(shù)使用的各種方式。
在特定的計(jì)算環(huán)境特征和音頻編解碼器特征描述如下的時(shí)候,可以與各種不同類(lèi)型的計(jì)算環(huán)境和/或各種不同類(lèi)型的編解碼器一起使用一個(gè)或多個(gè)所述工具和技術(shù)。例如,可以和不使用CELP編碼模型的編解碼器一起使用一個(gè)或多個(gè)后-濾波技術(shù),諸如自適應(yīng)差分脈碼調(diào)制編解碼器,轉(zhuǎn)換編解碼器其它類(lèi)型編解碼器。另一個(gè)例子,可以和單波段編解碼器或子頻帶編解碼器一起使用后濾波技術(shù)。另一個(gè)例子,一個(gè)或多個(gè)后-濾波技術(shù)可以被應(yīng)用于多頻帶編解碼器的單個(gè)頻帶和/或應(yīng)用于包括多頻帶編解碼器的多個(gè)頻帶的成分的合成或者未編碼信號(hào)。
I.計(jì)算環(huán)境 圖1舉例說(shuō)明適當(dāng)?shù)挠?jì)算環(huán)境(100)的概括例子,在其中一個(gè)或多個(gè)所描述的實(shí)施例可以被實(shí)現(xiàn)。計(jì)算環(huán)境(100)不意味著表示對(duì)本發(fā)明的使用范圍或功能的任何限制,因?yàn)榭梢栽诓煌耐ㄓ媚康幕蛘邔?zhuān)用目的的計(jì)算環(huán)境中實(shí)現(xiàn)本發(fā)明。
參考圖1,所述計(jì)算環(huán)境(100)包括至少一個(gè)處理單元(110)和存儲(chǔ)器(120)。在圖1中,這種最基本布局(130)被包括在虛線內(nèi)。所述處理單元(110)執(zhí)行計(jì)算機(jī)可執(zhí)行指令并且可以是真實(shí)的或虛擬的處理器。在多處理系統(tǒng)中,多處理單元執(zhí)行計(jì)算機(jī)可執(zhí)行指令以增加處理能力。存儲(chǔ)器(120)可以易失性存儲(chǔ)器(例如,寄存器,高速緩存器,RAM),非易失性存儲(chǔ)器(例如,只讀存儲(chǔ)器,電可擦可編程只讀存儲(chǔ)器,閃速存儲(chǔ)器,等等),或者所述兩個(gè)的一些組合。、存儲(chǔ)器(120)存儲(chǔ)執(zhí)行一個(gè)或多個(gè)此處所述的用于語(yǔ)音解碼器的后-過(guò)濾技術(shù)的軟件(180)。
計(jì)算環(huán)境(100)可以具有附加的特點(diǎn)。在圖1中,計(jì)算環(huán)境(100)包括存儲(chǔ)裝置(140),一個(gè)或多個(gè)輸入裝置(150),一個(gè)或多個(gè)輸出設(shè)備(160),和一個(gè)或多個(gè)通信連接(170)?;ミB機(jī)制(未示出)比如一總線,控制器,或網(wǎng)絡(luò)互連計(jì)算環(huán)境(100)的組件。典型地,操作系統(tǒng)軟件(未示出)提供對(duì)于在計(jì)算環(huán)境(100)中執(zhí)行的其它軟件的操作環(huán)境,并且協(xié)調(diào)計(jì)算環(huán)境(100)的組件的活動(dòng)。
存儲(chǔ)裝置(140)可以是可移除的或不可移除的,并且可以包括磁盤(pán),磁帶或盒式錄像帶,CD-ROM,CD-RW,DVD,或任何其它可以被用于存儲(chǔ)信息并且可以在計(jì)算環(huán)境(100)中被訪問(wèn)的介質(zhì)。存儲(chǔ)裝置(140)存儲(chǔ)用于所述軟件(180)的指令。
輸入設(shè)備(150)可以是接觸式輸入設(shè)備,比如鍵盤(pán),鼠標(biāo),筆,或者軌跡球,聲音輸入設(shè)備,掃描設(shè)備,網(wǎng)絡(luò)接口卡,或者提供到計(jì)算環(huán)境(100)的輸入的另外的設(shè)備。對(duì)于音頻,所述輸入設(shè)備(150)可以是聲卡、麥克風(fēng)或其它接受模擬或數(shù)字形式的音頻輸入的設(shè)備,或者提供音頻樣本到計(jì)算環(huán)境(100)的CD/DVD讀取器。所述輸出設(shè)備(160)可以是顯示器、打印機(jī)、揚(yáng)聲器、CD/DVD書(shū)寫(xiě)器、網(wǎng)絡(luò)接口卡、或者提供自所述計(jì)算環(huán)境(100)的輸出的另外的設(shè)備。
通信連接(170)使能從通信介質(zhì)到另外的計(jì)算實(shí)體的通信。所述通信介質(zhì)傳送信息比如計(jì)算機(jī)可執(zhí)行指令、壓縮語(yǔ)音信息、或者調(diào)制數(shù)據(jù)信號(hào)中的其它數(shù)據(jù)。調(diào)制數(shù)據(jù)信號(hào)是具有一個(gè)或多個(gè)它的特征集合或者在編碼所述信號(hào)中的信息的方式中變化的信號(hào)。舉例來(lái)說(shuō),而不是限制,通信介質(zhì)包括和電的、光學(xué)的、射頻、紅外線、聲學(xué)的、或者其它載波一起執(zhí)行的有線或者無(wú)線技術(shù)。
可以在計(jì)算機(jī)可讀介質(zhì)的一般環(huán)境中描述本發(fā)明。計(jì)算機(jī)可讀的介質(zhì)是任何可在計(jì)算環(huán)境中訪問(wèn)的可用介質(zhì)。舉例來(lái)說(shuō),而不是限制,伴隨著所述計(jì)算環(huán)境(100),計(jì)算機(jī)可讀介質(zhì)包括存儲(chǔ)器(120)、存儲(chǔ)裝置(140)、通信介質(zhì)、和以上所述的任何組合。
本發(fā)明可以在計(jì)算機(jī)可執(zhí)行指令的一般環(huán)境中描述,諸如那些包括在程序模塊中,在對(duì)象真實(shí)或虛擬處理機(jī)上的計(jì)算環(huán)境中執(zhí)行的。一般來(lái)講,程序模塊包括例程、程序、庫(kù)、對(duì)象、類(lèi)、組件、數(shù)據(jù)結(jié)構(gòu)等等。其執(zhí)行特殊的任務(wù)或?qū)崿F(xiàn)特殊的抽象數(shù)據(jù)類(lèi)型。程序模塊的功能可以在不同的實(shí)施例中所要求的程序模塊之間被組合或拆分??梢栽诒镜鼗蚍植际接?jì)算環(huán)境中執(zhí)行用于程序模塊的計(jì)算機(jī)可執(zhí)行指令。
為了表示起見(jiàn),所述詳細(xì)說(shuō)明可以使用像“確定”、“產(chǎn)生”、“調(diào)節(jié)”和“應(yīng)用”的術(shù)語(yǔ)去描述計(jì)算環(huán)境中的計(jì)算機(jī)操作。這些術(shù)語(yǔ)是用于由計(jì)算機(jī)執(zhí)行的操作的高級(jí)抽象,并且不應(yīng)當(dāng)與人類(lèi)所進(jìn)行的動(dòng)作相混淆。相應(yīng)于這些術(shù)語(yǔ)的實(shí)際的計(jì)算機(jī)操作根據(jù)實(shí)現(xiàn)方式而變化。
II.通用聯(lián)網(wǎng)環(huán)境和實(shí)時(shí)語(yǔ)音編解碼器 圖2是一幅通用網(wǎng)絡(luò)環(huán)境(200)的方框圖,和其一起所描述的實(shí)施例可以被實(shí)現(xiàn)。網(wǎng)絡(luò)(250)將不同的解碼器側(cè)組件與不同的編碼器側(cè)組件分開(kāi)。
編碼器側(cè)和解碼器側(cè)組件的基本功能分別是語(yǔ)音編碼和解碼。在編碼器側(cè),輸入緩沖器(210)接受和存儲(chǔ)語(yǔ)音輸入(202)。語(yǔ)音編碼器(230)記錄來(lái)自輸入緩沖器(210)的語(yǔ)音輸入(202)并且編碼它。
具體來(lái)講,幀分離器(212)將語(yǔ)音輸入(202)拆分為幀。在一個(gè)實(shí)現(xiàn)方式中,所述幀是相同的20毫秒長(zhǎng)-對(duì)于8kHz輸入,160個(gè)樣本以及對(duì)于16kHz輸入,320個(gè)樣本。在其它實(shí)現(xiàn)方式中,所述幀具有不同的持續(xù)時(shí)間,是不均勻的或交疊的,和/或輸入(202)的采樣率是不同的。可以在超級(jí)幀/幀,幀/子幀,或者用于編碼和解碼的不同級(jí)的其他配置組織所述幀。
幀分類(lèi)器(214)根據(jù)一個(gè)或多個(gè)標(biāo)準(zhǔn)(諸如所述信號(hào)的能量、零點(diǎn)交叉速率、長(zhǎng)期預(yù)測(cè)增益、增益微分、和/或其它用于子幀或整個(gè)幀的標(biāo)準(zhǔn))來(lái)分類(lèi)所述幀?;谒鰳?biāo)準(zhǔn),幀分類(lèi)器(214)將不同的幀分類(lèi)為諸如安靜的、未發(fā)聲的、話(huà)音的、和變換(例如,未發(fā)聲的到話(huà)音的)。此外,所述幀可以根據(jù)所述冗余編碼的類(lèi)型被分類(lèi),即使有,也被用于所述幀。所述幀分類(lèi)影響將被計(jì)算以編碼所述幀的參數(shù)。此外,所述幀分類(lèi)可以影響分辯率和損耗恢復(fù)力,伴隨所述分類(lèi)參數(shù)被編碼,以便提供更多的分辯率和損耗恢復(fù)力給更重要的幀分類(lèi)和參數(shù)。例如,典型地以很低的速率編碼不發(fā)聲的無(wú)聲的幀,如果丟失通過(guò)隱藏而恢復(fù)是非常簡(jiǎn)單的,并且也許不需要對(duì)抗損耗的保護(hù)。典型地以稍高的速率編碼未發(fā)聲的幀,如果丟失通過(guò)隱藏而恢復(fù)是相當(dāng)簡(jiǎn)單的,并且不明顯地被保護(hù)以對(duì)抗損耗。通常以更多的位編碼話(huà)音和變換幀,取決于幀的復(fù)雜性和所述變換的存在。話(huà)音和變換幀如果丟失很難被恢復(fù),并因此更明顯地被保護(hù)以對(duì)抗損耗。做為選擇,幀分類(lèi)器(214)使用其它和/或附加的幀分類(lèi)。
所述輸入的語(yǔ)音信號(hào)在將諸如CELP編碼模型的編碼模型應(yīng)用到用于幀的子頻帶信息之前,可以被分為子頻帶信號(hào)。這可以通過(guò)使用一連串的一個(gè)或多個(gè)分析濾波器組(諸如QMF分析濾波器)(216)而完成。例如,如果將使用三頻帶結(jié)構(gòu),那么經(jīng)由傳遞所述信號(hào)通過(guò)低通濾波器可以分離低頻帶。同樣地,可以經(jīng)由傳遞所述信號(hào)通過(guò)高通濾波器而分離所述高頻段。可以經(jīng)由傳遞所述信號(hào)通過(guò)帶通濾波器而分離所述中頻帶,其可以包括串聯(lián)的低通濾波器和高通濾波器。做為選擇,可以使用其它類(lèi)型的用于子頻帶分解和/或?yàn)V波器的時(shí)間(在幀拆分之前)的選擇的濾波器方案。只要將解碼一個(gè)頻帶以用于一部分所述信號(hào),所述部分可以繞過(guò)分析濾波器組(216)。
頻帶數(shù)目n可以由采樣率來(lái)確定。例如,在一個(gè)實(shí)現(xiàn)方式中,對(duì)于8kHz的采樣率使用單個(gè)頻帶結(jié)構(gòu)。對(duì)于16kHz和22.05kHz采樣率,使用如圖3所示的三頻帶結(jié)構(gòu)。在圖3的三頻帶結(jié)構(gòu)中,低頻率頻帶(310)擴(kuò)展一半全帶寬F(從0到0.5F)。所述帶寬的另一半被均分在中頻帶(320)和高頻帶(330)之間。靠近所述頻帶的交叉點(diǎn),所述頻率響應(yīng)于從過(guò)去的級(jí)別減少到停止級(jí)別的頻帶,其特征在于解決在兩側(cè)的作為所述交叉點(diǎn)的所述信號(hào)的衰減。也可以使用所述頻帶寬度的其他區(qū)域。例如,對(duì)于32kHz采樣率,可以使用等距的四頻帶結(jié)構(gòu)。
所述低頻帶對(duì)于語(yǔ)音信號(hào)是通常最重要的頻帶,因?yàn)樗鲂盘?hào)能量通常向著更高頻率的范圍衰減。因此,經(jīng)常使用比其他頻帶更多的位編碼低頻帶。與單個(gè)頻帶編碼結(jié)構(gòu)相比,所述子頻帶結(jié)構(gòu)是更靈活的,并提供對(duì)穿過(guò)所述頻帶的分層噪聲的更好的控制。因此,可以相信通過(guò)使用所述子頻帶結(jié)構(gòu)顯著地改善所感知的話(huà)音質(zhì)量。然而,象在下面所討論的,所述子頻帶的分解可以引起在靠近相鄰頻帶的交叉點(diǎn)的頻率區(qū)域上的信號(hào)的能量損失。這種能量損失可以損害產(chǎn)生的解碼語(yǔ)音信號(hào)的質(zhì)量。
在圖2中,獨(dú)立地編碼每個(gè)子頻帶,正如編碼組件(232,234)所說(shuō)明的。當(dāng)獨(dú)立地顯示頻帶編碼組件(232,234)的時(shí)候,所有頻帶的編碼可以由單個(gè)編碼器所完成,或者可以由單獨(dú)的編碼器編碼它們。下面將參考圖4更詳細(xì)地描述這種頻帶編碼。做為選擇,所述編解碼器可以作為單個(gè)頻帶編解碼器。所述產(chǎn)生的編碼語(yǔ)音通過(guò)多路傳輸(“MUX”)(236)被提供用于一個(gè)或多個(gè)網(wǎng)絡(luò)層(240)的軟件。網(wǎng)絡(luò)(240)處理用于經(jīng)由網(wǎng)絡(luò)(250)的傳輸?shù)木幋a語(yǔ)音。例如,所述網(wǎng)絡(luò)層軟件將編碼語(yǔ)音信息的幀打包成為遵循RTP協(xié)議的分組,使用UDP,IP,和不同的物理層協(xié)議經(jīng)由因特網(wǎng)中繼傳輸所述分組。做為選擇,使用軟件或網(wǎng)絡(luò)協(xié)議的其它和/或附加層。
網(wǎng)絡(luò)(250)是諸如因特網(wǎng)的寬區(qū)域,分組交換網(wǎng)。作為選擇,網(wǎng)絡(luò)(250)是本地區(qū)域網(wǎng)絡(luò)或者其他類(lèi)型的網(wǎng)絡(luò)。
在解碼器側(cè),用于一個(gè)或多個(gè)網(wǎng)絡(luò)層(260)的軟件接收和處理所述發(fā)送數(shù)據(jù)。在解碼器側(cè)網(wǎng)絡(luò)層(260)的網(wǎng)絡(luò),傳送,和更高層的協(xié)議和軟件通常與編碼側(cè)網(wǎng)絡(luò)層(240)的那些相對(duì)應(yīng)。所述網(wǎng)絡(luò)層通過(guò)信號(hào)分離器(“DEMUX”)(276)將編碼語(yǔ)音信息提供給語(yǔ)音解碼器(270)。
解碼器(270)獨(dú)立地解碼每一個(gè)子頻帶,如同在頻帶解碼組件(272,274)中所描述的??梢酝ㄟ^(guò)單個(gè)解碼器解碼所有的子頻帶,可以通過(guò)獨(dú)立的頻帶解碼器解碼它們。
然后所述解碼子頻帶被結(jié)合在一連串的一個(gè)或多個(gè)綜合型濾波器組(諸如QMF綜合型濾波器)(280)中,其輸出解碼語(yǔ)音(292)。做為選擇,使用用于子頻帶合成的其它類(lèi)型的濾波器方案。只要單個(gè)頻帶存在,那么所述解碼頻帶就可以繞過(guò)所述濾波器組(280)。如果多個(gè)頻帶存在解碼語(yǔ)音輸出(292),可能也通過(guò)中間頻率的改進(jìn)后置濾波器(284)傳送解碼語(yǔ)音輸出(292)以改善產(chǎn)生的增強(qiáng)語(yǔ)音輸出(294)的質(zhì)量。下面將更詳細(xì)地討論中間頻率改進(jìn)后置濾波器的實(shí)現(xiàn)方式。
下面參考圖6描述一個(gè)通用化實(shí)時(shí)語(yǔ)音頻帶解碼器,但是可以取代它使用其它語(yǔ)音解碼器。此外,一些或所有所描述的工具和技術(shù)可以和其它類(lèi)型的音頻編碼器和解碼器,諸如音樂(lè)編碼器和解碼器,或通用音頻編碼器和解碼器一起使用。
除了這些主要的編碼和解碼功能以外,組件可能也共享信息(圖2中的虛線所示)以控制速率,質(zhì)量,和/或所編碼語(yǔ)音的損耗恢復(fù)力。速率控制器(220)考慮因素諸如輸入緩沖器(210)中的電流輸入的復(fù)雜性,編碼器(230)中或別處的輸出緩沖器緩存器滿(mǎn),期望輸出速率,電流網(wǎng)絡(luò)帶寬,網(wǎng)絡(luò)擁塞/噪聲狀態(tài)和/或解碼器損失率。解碼器(270)將解碼器損失率信息反饋到速率控制器(220)。網(wǎng)絡(luò)層(240,260)收集或估計(jì)與電流網(wǎng)絡(luò)帶寬和擁塞/噪聲狀態(tài)有關(guān)的信息,將其反饋到速率控制器(220)。做為選擇,速率控制器(220)考慮其它和/或附加因素。
速率控制器(220)指揮語(yǔ)音編碼器(230)改變用于對(duì)語(yǔ)音進(jìn)行編碼的速率、質(zhì)量和/或損耗恢復(fù)力。編碼器(230)通過(guò)調(diào)節(jié)用于參數(shù)的量化因素或改變表示所述參數(shù)的熵代碼的分辯率可以改變速率和質(zhì)量。此外,所述編碼器可以通過(guò)調(diào)節(jié)冗余編碼的速率或類(lèi)型改變損耗恢復(fù)力。因此,編碼器(230)可以根據(jù)網(wǎng)絡(luò)狀態(tài),改變?cè)谥饕募用芎瘮?shù)和損耗恢復(fù)力功能之間的位的分配。
圖4是一幅實(shí)時(shí)語(yǔ)音頻帶編碼器(400)的方框圖,和其一起一個(gè)或者多個(gè)所描述的實(shí)施例可以被實(shí)現(xiàn)。頻帶編碼器(400)總體上與圖2中的頻帶編碼組件(232,234)的任意一個(gè)相對(duì)應(yīng)。
頻帶編碼器(400)從過(guò)濾器組(或者其他過(guò)濾器)接受頻帶輸入(402),如果所述信號(hào)被分離成若干頻帶。如果所述信號(hào)未被分離成若干頻帶,那么頻帶輸入(402)包括表示整個(gè)帶寬的樣本。頻帶編碼器生成編碼頻帶輸出(492)。
如果信號(hào)被分離成若干頻帶,那么縮減采樣組件(420)可以執(zhí)行在每個(gè)頻帶上的縮減采樣。例如,如果采樣率被設(shè)置為16kHz并且每個(gè)幀在持續(xù)時(shí)間上為20毫秒,那么每個(gè)幀包括320個(gè)樣本。如果沒(méi)有執(zhí)行縮減采樣并且將所述幀分離為圖3所示的三頻帶結(jié)構(gòu),那么將將為了所述幀編碼或者解碼三倍數(shù)量的樣本(例如,每頻帶320個(gè)樣本,或者總計(jì)960個(gè)樣本)。然而,每個(gè)頻帶都可以被縮減采樣。例如,低頻帶(310)可以從320個(gè)樣本被縮減采樣到160個(gè)樣本,并且中頻帶(320)和高頻帶(330)的每一個(gè)都從320個(gè)樣本縮減采樣到80個(gè)樣本,在那里頻帶(310,320,330)分別擴(kuò)展超過(guò)頻帶范圍一半,四分之一,和四分之一。(在這個(gè)實(shí)現(xiàn)方式中縮減采樣(420)的程度涉及頻帶(310,320,330)的頻率范圍。然而,其他的實(shí)現(xiàn)方式是可能的。在稍后的階段,更少的位一般被用于更高的頻帶,由于信號(hào)能量典型地朝向更高的頻率范圍衰落。)由此,這提供了總計(jì)320個(gè)為了所述幀而被編碼或者解碼的樣本。
LP分析組件(430)計(jì)算線性預(yù)測(cè)系數(shù)(432)。在一個(gè)實(shí)現(xiàn)方式中,LP過(guò)濾器對(duì)于8kHz輸入使用10個(gè)系數(shù)并且對(duì)于16kHz輸入使用16個(gè)系數(shù),LP分析組件(430)計(jì)算用于每個(gè)頻段的每幀線性預(yù)測(cè)系數(shù)的一個(gè)集合。作為選擇,LP分析組件(430)計(jì)算用于每個(gè)頻段的每幀系數(shù)的兩個(gè)集合,一個(gè)用于集中在不同位置的兩個(gè)窗口的每一個(gè),或者計(jì)算每頻段和/或每幀的不同數(shù)量的系數(shù)。
LPC處理組件(435)接收和處理線性預(yù)測(cè)系數(shù)(432)。典型地,LPC處理組件(435)將LPC值轉(zhuǎn)化為用于更有效的量化和編碼的不同的表示。例如,LPC處理組件(435)將LPC值轉(zhuǎn)化為線頻譜對(duì)(LSP)表示,并且量化(例如被向量量化)并且編碼LSP值??梢詮钠渌鸏SP值內(nèi)部編碼或者預(yù)測(cè)LSP值。不同的表示,量化技術(shù),和編碼技術(shù)對(duì)于LPC值是可能的。以作為編碼頻帶輸出(492)的部分的某些形式,為打包和傳輸(連同任何量化參數(shù)和重建所需的其他信息一起)提供LPC值。為了在編碼器(400)中的隨后的使用,LPC處理組件(435)重建LPC值。LPC處理組件(435)可以執(zhí)行對(duì)LPC值的插入(例如在LSP表示或者其他表示中等價(jià)的)以平滑LPC系數(shù)的不同集合之間的,或者被用于幀的不同子幀的LPC系數(shù)之間的轉(zhuǎn)換。
合成(或者“短期預(yù)測(cè)”)過(guò)濾器(440)接受重建LPC值(438)并將它們結(jié)合到所述過(guò)濾器中。合成過(guò)濾器(440)接收激勵(lì)信號(hào)并生成所述原始信號(hào)的近似值。對(duì)于特定幀,合成過(guò)濾器(440)為了預(yù)測(cè)的開(kāi)始可以從在前的幀中緩沖許多的重建樣本(例如,10個(gè)用于10-選擇過(guò)濾器)。
感知加權(quán)組件(450,455)將感知加權(quán)應(yīng)用到原始信號(hào)以及合成過(guò)濾器(440)的模擬輸出,以便可選地強(qiáng)調(diào)語(yǔ)音信號(hào)的共振峰結(jié)構(gòu)以使得聽(tīng)覺(jué)系統(tǒng)對(duì)量化錯(cuò)誤更不敏感。感知加權(quán)組件(450,455)利用心理聲學(xué)的現(xiàn)象,諸如掩蔽。在一個(gè)實(shí)現(xiàn)方式中,感知加權(quán)組件(450,455)施加基于從LP分析組件(430)接收的原始LPC值(432)的權(quán)重。作為選擇,感知加權(quán)組件(450,455)施加其他和/或附加的權(quán)重。
在感知加權(quán)組件(450,455)之后,編碼器(400)計(jì)算感知的加權(quán)原始信號(hào)和合成過(guò)濾器(440)的感知的加權(quán)輸出之間的差以生成差動(dòng)信號(hào)(434)。作為選擇,編碼器(400)使用不同的技術(shù)去計(jì)算語(yǔ)音參數(shù)。
激勵(lì)參數(shù)化組件(460)搜索以發(fā)現(xiàn)自適應(yīng)密碼本索引,安裝的密碼本索引和獲得的密碼本索引的組合,按照最小化感知的加權(quán)原始信號(hào)和復(fù)合信號(hào)之間的差(按照加權(quán)的均方離差錯(cuò)誤或者其他標(biāo)準(zhǔn))。每個(gè)子幀計(jì)算一些參數(shù),但是更普遍地所述參數(shù)可以是每超級(jí)幀,幀,或者子幀。如上所討論的,用于幀或者子幀的不同頻帶的參數(shù)可以不同。表2表示了一個(gè)實(shí)現(xiàn)方式中的用于不同幀分類(lèi)的有效類(lèi)型參數(shù)。
表2不同幀分類(lèi)的參數(shù) 在圖4中,激勵(lì)參數(shù)化組件(460)將幀劃分為子幀,并且計(jì)算密碼本索引和對(duì)于每個(gè)子幀的適合的獲益。例如,將被使用的密碼本索引階段的數(shù)量和類(lèi)型,以及密碼本索引的決定,最初可以由編碼模式所確定,在那里所述模式由上面討論的速率控制組件所規(guī)定。特定模式也可以規(guī)定編碼和解碼參數(shù)除了密碼本索引階段的數(shù)量和類(lèi)型,例如,密碼本索引的決定。通過(guò)最優(yōu)化參數(shù)確定每個(gè)密碼本索引階段的參數(shù),以最小化目標(biāo)信號(hào)和那個(gè)密碼本索引階段到復(fù)合信號(hào)的基值之間的錯(cuò)誤。所述增益乘以所述間距預(yù)測(cè)值是到所述電流幀或子幀的激勵(lì)信號(hào)的自適應(yīng)密碼本基值。(如在此所使用的,術(shù)語(yǔ)"最優(yōu)化"表示發(fā)現(xiàn)在適當(dāng)?shù)募s束條件下的合適的解決方案諸如失真減少、參數(shù)搜索時(shí)間、參數(shù)搜索復(fù)雜性、參數(shù)的比特率、等等,與在參數(shù)空間上執(zhí)行完全的搜索相反。類(lèi)似地,術(shù)語(yǔ)"最小化"將應(yīng)按照發(fā)現(xiàn)在適當(dāng)?shù)募s束條件之下的合適的解決方案來(lái)理解。)例如,可以利用修正平均值均方誤差的方法完成最優(yōu)化。每個(gè)階段的目標(biāo)信號(hào)是在剩余信號(hào)和先前的密碼本階段,如果有的話(huà),到復(fù)合信號(hào)的基值的和之間的差。做為選擇,可以使用其他的最優(yōu)化技術(shù)。
圖5表示用于根據(jù)一個(gè)實(shí)現(xiàn)方式確定密碼本參數(shù)的技術(shù)。激勵(lì)參數(shù)化組件(460)可能連同其他的諸如速率控制器的組件一起,執(zhí)行所述技術(shù)。做為選擇,編碼器中的另外的組件執(zhí)行所述技術(shù)。
參考圖5,對(duì)于話(huà)音或轉(zhuǎn)換幀中的每個(gè)子幀,激勵(lì)參數(shù)化組件(460)確定是否可能將自適應(yīng)密碼本用于電流子幀(510)。(例如,速率控制可以規(guī)定沒(méi)有自適應(yīng)密碼本將被用于特別的幀。)如果不使用所述自適應(yīng)密碼本,那么自適應(yīng)密碼本開(kāi)關(guān)將指示沒(méi)有自適應(yīng)密碼本將被使用(535)。例如,這可以通過(guò)在幀等級(jí)上設(shè)置一位標(biāo)志以指示沒(méi)有自適應(yīng)密碼本被用于所述幀,通過(guò)在幀等級(jí)上指定特別的編碼模式,或通過(guò)為每個(gè)子幀設(shè)置一位標(biāo)志以指示沒(méi)有自適應(yīng)密碼本被用于所述子幀來(lái)完成。
仍然參考圖5,如果可以使用自適應(yīng)密碼本,那么組件(460)確定自適應(yīng)密碼本參數(shù)。那些參數(shù)包括索引、或間距值,其指示激勵(lì)信號(hào)歷史的要求部分,以及施加到所述要求部分的增益。這個(gè)搜索從由圖4中的可選擇的開(kāi)環(huán)間距搜索組件(425)所確定的間距開(kāi)始。開(kāi)環(huán)間距搜索組件(425)分析由加權(quán)組件(450)產(chǎn)生的被加權(quán)的信號(hào)以估計(jì)它的間距。從這個(gè)估計(jì)間距開(kāi)始,閉環(huán)間距搜索最優(yōu)化所述間距值以減少在目標(biāo)信號(hào)和從激勵(lì)信號(hào)歷史的指示部分產(chǎn)生的加權(quán)復(fù)合信號(hào)之間的錯(cuò)誤(520)。自適應(yīng)密碼本增益值也被最佳化(525)。自適應(yīng)密碼本增益值指示施加到所述間距預(yù)測(cè)值的乘積倍數(shù)(所述值來(lái)自激勵(lì)信號(hào)歷史的指示部分)、以調(diào)整所述值的比例。所述增益乘以所述間距預(yù)測(cè)值是到所述電流幀或子幀的激勵(lì)信號(hào)的自適應(yīng)密碼本基值。增益最優(yōu)化(525)和閉環(huán)間距搜索(520)分別地產(chǎn)生增益值和索引值,其最小化目標(biāo)信號(hào)和來(lái)自自適應(yīng)密碼本基值的加權(quán)復(fù)合信號(hào)之間的錯(cuò)誤。
如果組件(460)確定將使用所述自適應(yīng)密碼本(530),那么在比特流中將所述自適應(yīng)密碼本參數(shù)作為信號(hào)(540)。如果不,那么指示沒(méi)有自適應(yīng)密碼本被用于所述子幀(535),諸如通過(guò)設(shè)置一位子幀等級(jí)標(biāo)志,正如上面所討論的。這個(gè)決定(530)可以包括確定是否用于特別的子幀的自適應(yīng)密碼本基值是足夠重要到值得要求所述數(shù)量的位對(duì)自適應(yīng)密碼本參數(shù)發(fā)信號(hào)。做為選擇,一些其他的基準(zhǔn)可以被用于所述決定。而且,雖然圖5顯示在所述決定之后發(fā)信號(hào),做為選擇,信號(hào)被分批直到所述技術(shù)對(duì)幀或超級(jí)幀結(jié)束。
激勵(lì)參數(shù)化組件(460)也確定是否使用脈沖密碼本(550)。所述脈沖密碼本的使用或停用被表示為用于所述電流幀的全部編碼的一部分,或可能以其他方式被指示或確定。密碼本是一種指定一個(gè)或多個(gè)提供給所述激勵(lì)信號(hào)的脈沖的安裝密碼本。脈沖密碼本參數(shù)包括索引和符號(hào)對(duì)(增益可以是正的或負(fù)的)。每對(duì)都指示將脈沖同指示脈沖位置的索引和指示脈沖極性的符號(hào)一起歸入到激勵(lì)信號(hào)中。包括在脈沖密碼本內(nèi)并且用于提供給激勵(lì)信號(hào)的脈沖的數(shù)目可以取決于編碼模式而變化。另外,脈沖的數(shù)目可能取決于是否正在使用自適應(yīng)密碼本。
如果使用脈沖密碼本,那么所述脈沖密碼本參數(shù)對(duì)最小化指示脈沖的基值和目標(biāo)信號(hào)之間錯(cuò)誤是最佳化的(555)。如果未使用自適應(yīng)密碼本,那么目標(biāo)信號(hào)是被加權(quán)的原始信號(hào)。如果使用自適應(yīng)密碼本,那么目標(biāo)信號(hào)是加權(quán)的原始信號(hào)和所述自適應(yīng)密碼本到加權(quán)的復(fù)合信號(hào)的基值之間的差。在某些點(diǎn)(未示出)上,然后在比特流中向脈沖密碼本參數(shù)發(fā)信號(hào)。
激勵(lì)參數(shù)化部件(460)也確定是否使用任何隨機(jī)的安裝密碼本階段(565)。隨機(jī)的密碼本階段的數(shù)目(如果有的話(huà))表示為用于電流幀的全部的編碼模式的一部分或可能以其他方式被確定。隨機(jī)的密碼本是一種運(yùn)用用于它編碼的值的預(yù)定義信號(hào)模型的安裝密碼本。密碼本參數(shù)可以包括用于信號(hào)模型的指示部分的起始點(diǎn)和可以是正的或負(fù)的的符號(hào)。指示部分的長(zhǎng)度或范圍被典型地安裝而并未因此被典型地用信號(hào)通知,但是做為選擇地用信號(hào)通知指示部分的長(zhǎng)度或?qū)挾?。增益乘以指示部分中的值以產(chǎn)生隨機(jī)的密碼本到激勵(lì)信號(hào)的基值。
如果使用至少一個(gè)隨機(jī)的密碼本,那么用于密碼本的密碼本階段參數(shù)對(duì)最小化隨機(jī)的密碼本的基值和目標(biāo)信號(hào)之間的錯(cuò)誤是最佳化的(570)。目標(biāo)信號(hào)是加權(quán)的原始信號(hào)和到自適應(yīng)密碼本(如果有的話(huà))的加權(quán)的復(fù)合信號(hào),到脈沖密碼本(如果有的話(huà)),以及到先前確定的隨機(jī)的密碼本階段(如果有的話(huà))的基值的和之間的差。在某些點(diǎn)(未示出)上,然后在比特流中向隨機(jī)的密碼本參數(shù)發(fā)信號(hào)。
部件(460)然后確定是否將使用任何更多的隨機(jī)的密碼本階段(580)。如果是這樣的話(huà),那么下一個(gè)隨機(jī)的密碼本階段的參數(shù)被最佳化(570)并且如上所述地被用信號(hào)通知。這么繼續(xù)直到所述隨機(jī)的密碼本階段的全部參數(shù)參數(shù)都已經(jīng)被確定。全部的所述隨機(jī)的密碼本階段可以使用相同的信號(hào)模型,雖然它們將可能指示來(lái)自所述模型的不同部分部分有不同的增益值。做為選擇,不同的信號(hào)模型能被用于不同的隨機(jī)的密碼本階段。
每個(gè)激勵(lì)增益可能被獨(dú)立地量子化或兩個(gè)或更多增益可能被共同量子化,如被速率控制器和/或其他的部件所確定的。
雖然用于最佳化不同的密碼本參數(shù)的特別的順序已經(jīng)在這里闡明,也可能使用其他的順序和最優(yōu)化技術(shù)。例如,可以同時(shí)地最佳化全部的隨機(jī)的密碼本。如此,雖然圖5表示不同的密碼本參數(shù)的按序計(jì)算,做為選擇,兩個(gè)或更多不同的密碼本參數(shù)被共同地最佳化(例如,根據(jù)一些非線性?xún)?yōu)化技術(shù)通過(guò)共同地變化參數(shù)和評(píng)價(jià)結(jié)果)。另外,可以使用密碼本的其他結(jié)構(gòu)或其他激勵(lì)信號(hào)參數(shù)結(jié)構(gòu)。
在這個(gè)實(shí)現(xiàn)方式中的激勵(lì)信號(hào)是自適應(yīng)密碼本,脈沖密碼本,和隨機(jī)的密碼本階段的任何基值的和。做為選擇,圖4的部件(460)可以計(jì)算用于所述激勵(lì)信號(hào)的其他的和/或附加參數(shù)。
參考圖4,用于所述激勵(lì)信號(hào)的密碼本參數(shù)被用信號(hào)通知或不同地被提供給本地解碼器(465)(在圖4中以虛線包圍)以及提供給頻帶輸出(492)。如此,對(duì)于每個(gè)頻帶,編碼器輸出(492)包括來(lái)自上面討論的LPC處理部件(435)的輸出,以及來(lái)自激勵(lì)參數(shù)化部件(460)的輸出。
輸出(492)的比特率部分地取決于由所述密碼本使用的參數(shù),并且編碼器(400)可以控制比特率和/或通過(guò)密碼本索引的不同集合之間的切換,使用嵌入碼,或使用其他的技術(shù)的音色。密碼本類(lèi)型的不同組合和階段可以產(chǎn)生用于不同的幀,頻帶,和/或子幀的編碼模式。例如,未發(fā)聲的幀可以?xún)H僅使用一個(gè)隨機(jī)的密碼本階段。自適應(yīng)密碼本和脈沖密碼本可能被用于低速率話(huà)音幀??赡苁褂米赃m應(yīng)密碼本,脈沖密碼本,和一個(gè)或更多隨機(jī)的密碼本階段編碼高速幀。在一個(gè)幀中,共同用于全部子頻帶的全部編碼模式的組合可能被稱(chēng)為集合??赡苡腥舾蓪?duì)于每個(gè)采樣率的預(yù)定義模式集合,具有相應(yīng)于不同的編碼比特率的不同的模式。速率控制模塊可以確定或影響用于每個(gè)幀的模型集合。
仍然參考圖4,激勵(lì)參數(shù)化部件(460)的輸出通過(guò)密碼本重建部件(470、472、474、476)和相應(yīng)于由參數(shù)化部件(460)使用的密碼本的增益應(yīng)用程序部件(480、482、484、486)所接收。密碼本階段(470、472、474、476)和相應(yīng)增益應(yīng)用程序部件(480、482、484、486)重建所述密碼本的基值。那些基值被求和以產(chǎn)生激勵(lì)信號(hào)(490),其被綜合型濾波器(440)所接收,其中它與“預(yù)測(cè)”樣本一起使用,隨后的線性預(yù)測(cè)發(fā)生從所述“預(yù)測(cè)”樣本中發(fā)生。激勵(lì)信號(hào)的延遲部分也通過(guò)自適應(yīng)密碼本重建組件(470)以重建隨后的自適應(yīng)密碼本參數(shù)(例如,音調(diào)基值),并且通過(guò)在計(jì)算隨后的自適應(yīng)密碼本參數(shù)中(例如,音調(diào)索引和音調(diào)增益值)的參數(shù)化組件(460)而被用作激勵(lì)歷史信號(hào)。
回頭參考圖2,對(duì)于每個(gè)頻帶的頻帶輸出連同其它參數(shù)一起,都由MUX(236)所接受。如此的其它參數(shù)可以包括在其它信息之中的來(lái)自幀分類(lèi)器(214)和幀編碼模式的幀分類(lèi)信息(222)。MUX(236)構(gòu)造應(yīng)用層分組以傳遞到其它軟件,或MUX(236)將數(shù)據(jù)放置在遵循諸如RTP協(xié)議的分組的有效負(fù)載中。所述MUX可以緩沖參數(shù)以便允許用于在后來(lái)的分組中的前向糾錯(cuò)的參數(shù)的選擇性重復(fù)。在一個(gè)實(shí)現(xiàn)方式中,MUX(236)將用于一個(gè)幀的主要的編碼語(yǔ)音信息連同用于一個(gè)或多個(gè)先前幀的全部或一部分的前向糾錯(cuò)信息一起,封裝成為單個(gè)分組。
MUX(236)提供諸如用于速率控制目的的電流緩沖器滿(mǎn)的反饋。一般地說(shuō),編碼器(230)的不同的組件(包括幀分類(lèi)器(214)和MUX(236))可以提供信息到諸如圖2中所示的速率控制器(220)。
圖2的比特流DEMUX(276)接受作為輸入的編碼語(yǔ)音信息并且分析它以識(shí)別并且處理參數(shù)。所述參數(shù)可以包括幀分類(lèi),一些LPC值的表示,以及密碼本參數(shù)。所述幀分類(lèi)可以表示哪些其它參數(shù)為了給定的幀而存在。一般地說(shuō),DEMUX(276)使用由編碼器(230)使用的協(xié)議并且提取編碼器(230)封裝到分組里的參數(shù)。為了經(jīng)由動(dòng)態(tài)的分組交換網(wǎng)接收的分組,DEMUX(276)包括抖動(dòng)緩沖器以消除超過(guò)一給定時(shí)段的在包速率中的短時(shí)起伏。在某些情況下,解碼器(270)調(diào)節(jié)緩沖器延遲并且管理何時(shí)從緩沖器讀出分組以便集成延遲,質(zhì)量控制,丟失幀的隱藏,等等到解碼中。在其它情況下,應(yīng)用層組件管理所述抖動(dòng)緩沖器,并且以變化的速率填充所述抖動(dòng)緩沖器并且由解碼器(270)以不變的或相對(duì)固定速率耗盡。
DEMUX(276)可以接收對(duì)于給定的部分的多個(gè)版本的參數(shù),包括主要的編碼版本和一個(gè)或多個(gè)次要錯(cuò)誤校正版本。當(dāng)糾錯(cuò)失敗,(270)使用諸如參數(shù)重復(fù)或基于被正確地接收的信息的估計(jì)的隱藏技術(shù)。
圖6是一幅通用化實(shí)時(shí)語(yǔ)音頻帶解碼器(600)的方框圖,與其結(jié)合,一個(gè)或更多所描述的實(shí)施例可以被實(shí)現(xiàn)。頻帶解碼器(600)通常對(duì)應(yīng)圖2的任何一個(gè)頻帶解碼組件(272,274)。
頻帶解碼器(600)接受用于頻帶的編碼語(yǔ)音信息(692)(其可以是完整的頻帶,或多個(gè)子頻帶之一)作為輸入并且在解碼和濾波之后產(chǎn)生過(guò)濾的重建輸出(604)。解碼器(600)的組件具有在編碼器(400)中的相應(yīng)組件,但是整個(gè)解碼器(600)是更簡(jiǎn)單的因?yàn)樗鄙儆糜诟兄訖?quán),激勵(lì)處理環(huán)和速率控制的組件。
LPC處理組件(635)接收表示按照頻帶編碼器(400)提供的形式的LPC值的信息(以及任何量化參數(shù)及其他重建所需的信息)。LPC處理組件(635)使用預(yù)先應(yīng)用于所述LPC值的轉(zhuǎn)換,量化編碼,等等的逆重建LPC值(638)。LPC組件(635)可能同時(shí)執(zhí)行用于LPC值(以LPC表示或另外的表示諸如LSP)的插補(bǔ)以平滑LPC系數(shù)的不同設(shè)置之間的變換。
密碼本階段(670,672,674,676)和增益應(yīng)用程序組件(680,682,684,686)解碼任何被用于激勵(lì)信號(hào)的相應(yīng)密碼本階段的參數(shù)并且計(jì)算被使用的每個(gè)密碼本階段的基值。通常,密碼本階段(670,672,674,676)的配置與操作和增益組件(680,682,684,686)對(duì)應(yīng)于編碼器(400)中的密碼本階段(470,472,474,476)的配置與操作和增益組件480,482,484,486)。被使用的密碼本階段的基值被求和,并且結(jié)果激勵(lì)信號(hào)(690)被輸入到合成濾波器(640)。激勵(lì)信號(hào)(690)的延遲值在計(jì)算用于激勵(lì)信號(hào)的隨后部分的自適應(yīng)密碼本的基值中,也被自適應(yīng)密碼本(670)用作激勵(lì)歷史。
合成濾波器(640)接受重建LPC值(638)并且將它們合并到所述濾波器中。合成濾波器(640)存儲(chǔ)用于處理的預(yù)先重建樣本。通過(guò)合成濾波器傳送激勵(lì)信號(hào)(690)以形成原始語(yǔ)音信號(hào)的近似值。
同樣將重建子頻帶信號(hào)(602)輸入到短期后置濾波器(694)中。所述短期后置濾波器產(chǎn)生過(guò)濾的子頻帶輸出(604)。在下面描述用于計(jì)算短期后置濾波器(694)的系數(shù)的若干技術(shù)。對(duì)于自適應(yīng)的后置濾波器,解碼器(270)可以計(jì)算來(lái)自編碼語(yǔ)音的參數(shù)(例如,LPC值)的系數(shù)。做為選擇,通過(guò)其它的技術(shù)提供所述系數(shù)。
回頭參考圖2,如上所述,如果存在多個(gè)子頻帶,對(duì)于每一子頻帶的子頻帶輸出都被結(jié)合在合成濾波器組(280)中以形成語(yǔ)音輸出(292)。
圖2-6中所示的關(guān)系表示一般的信息流;其它關(guān)系為了簡(jiǎn)化起見(jiàn)而不顯示。根據(jù)實(shí)現(xiàn)方式和期望的壓縮類(lèi)型,可以添加,遺漏組件,將組件劃分為多個(gè)組件,與其他的組件相結(jié)合,和/或替換為類(lèi)似的組件。例如,在圖2所示的環(huán)境(200)中,速率控制器(220)可以與語(yǔ)音編碼器(230)相結(jié)合??赡艿奶砑咏M件包括管理語(yǔ)音編碼器或解碼器}以及其它編碼器(或解碼器)和收集網(wǎng)絡(luò)和解碼器情況信息,并且執(zhí)行自適應(yīng)的糾錯(cuò)功能的多媒體編碼(或播放)應(yīng)用。在可替換的實(shí)施例中,組件的不同的組合和配置使用此處所述的技術(shù)處理語(yǔ)音信息。
III.后置濾波器技術(shù) 在一些實(shí)施例中,解碼器或其它工具將短期的后置濾波器應(yīng)用到重建音頻,諸如重建語(yǔ)音,在已經(jīng)將其解碼之后。如此的濾波器可以改善所述重建語(yǔ)音的感知質(zhì)量。
后置濾波器典型地是時(shí)域后置濾波器或者頻域后置濾波器。傳統(tǒng)的用于CELP編解碼器的時(shí)域后置濾波器包括由一個(gè)常數(shù)因子度量的全部電極線性預(yù)測(cè)系數(shù)合成濾波器和由另外的常數(shù)因子度量的全部零線性預(yù)測(cè)系數(shù)反向?yàn)V波器 此外,通常所說(shuō)的“頻譜傾斜”的現(xiàn)象存在在許多語(yǔ)音信號(hào)中因?yàn)檎UZ(yǔ)音中的較低頻率的振幅經(jīng)常高于較高頻率的振幅。因此,語(yǔ)音信號(hào)的頻域振幅頻譜經(jīng)常包括斜率,或“傾斜”。因此,來(lái)自原始語(yǔ)音的頻譜的傾斜應(yīng)當(dāng)所述存在于重建語(yǔ)音信號(hào)中。然而,如果后置濾波器的系數(shù)同樣包括如此的傾斜,那么所述傾斜的結(jié)果將在所述后置濾波器輸出中被放大以致扭曲所述濾波器語(yǔ)音信號(hào)。因此,一些時(shí)域后置濾波器同樣具有一階高通濾波器以補(bǔ)償頻譜的傾斜。
因此典型地通過(guò)兩三個(gè)參數(shù)控制時(shí)域后置濾波器的特征,其并未提供許多靈活性。
另一方面,頻域后置濾波器具有定義后置濾波器特性曲線的更靈活的方式。在頻域后置濾波器中,在頻域內(nèi)確定濾波系數(shù)。在頻域中變換,并且在頻域內(nèi)過(guò)濾解碼語(yǔ)音信號(hào)。然后過(guò)濾信號(hào)被變換回到時(shí)域中。然而,合成濾波器時(shí)域信號(hào)典型地具有與原始的未濾波的時(shí)域信號(hào)不同的樣本數(shù)。例如,可以使用256-點(diǎn)變換諸如256-點(diǎn)快速傅里葉變換(“FFT”),在最近樣本的填充或包含之后,將具有160個(gè)樣本的幀轉(zhuǎn)換到頻域。當(dāng)應(yīng)用256-點(diǎn)反向快速傅里葉變換去將所述幀轉(zhuǎn)換回到所述時(shí)域時(shí),將產(chǎn)生256個(gè)時(shí)域樣本。因此,它產(chǎn)生額外的96個(gè)樣本。所述額外的96個(gè)樣品可以一致于,或者被增加到下個(gè)幀的首次96個(gè)樣本中的各自樣本。這經(jīng)常被稱(chēng)為交疊相加技術(shù)。語(yǔ)音信號(hào)的變換,以及諸如交疊相加技術(shù)的技術(shù)實(shí)現(xiàn)方式可以顯著地增加整個(gè)解碼器的復(fù)雜性,特別是對(duì)于已經(jīng)不包括頻率變換組件的編解碼器。因此,典型地頻域后置濾波器僅僅被用于基于語(yǔ)音編解碼器的正弦曲線因?yàn)檫@種濾波器對(duì)基于編解碼器的非正弦的應(yīng)用引入太多的延遲和復(fù)雜性。頻域后置濾波器同時(shí)典型地具有更少靈活性來(lái)改變幀尺寸,如果所述編解碼器幀尺寸在編碼期間變化,因?yàn)槿绻龅讲煌叽绲膸?諸如具有80個(gè)樣本的幀,而不是160個(gè)樣本),上面討論的交疊相加技術(shù)的復(fù)雜性可能變成禁止的。
在特殊的計(jì)算環(huán)境特征和音頻編解碼器特征如上所述的時(shí)候,可以與各種不同類(lèi)型的計(jì)算環(huán)境和/或各種不同類(lèi)型的編解碼器一起使用一個(gè)或多個(gè)所述工具和技術(shù)。例如,可以和不使用CELP編碼模型的編解碼器一起使用一個(gè)或多個(gè)后-濾波技術(shù),諸如自適應(yīng)差分脈碼調(diào)制編解碼器,轉(zhuǎn)換編解碼器其它類(lèi)型編解碼器。另一個(gè)例子,可以和單波段編解碼器或子頻帶編解碼器一起使用后濾波技術(shù)。另一個(gè)例子,一個(gè)或多個(gè)后-濾波技術(shù)可以被應(yīng)用于多頻帶編解碼器的單個(gè)頻帶和/或應(yīng)用于包括多頻帶編解碼器的多個(gè)頻帶的成分的合成或者未編碼信號(hào)。
A.混合短期后置濾波器舉例 在一些實(shí)施例中,諸如圖6中所示的解碼器(600)的解碼器包括用于后-處理的自適應(yīng)的時(shí)間-頻率“混合”濾波器,或?qū)⑦@種濾波器應(yīng)用到解碼器(600)的輸出。做為選擇,這種濾波器被結(jié)合進(jìn)或應(yīng)用于一些其它類(lèi)型的音頻解碼器或處理工具,例如,在別處描述的目前應(yīng)用的語(yǔ)音編解碼器,的輸出。
參考圖6,在一些實(shí)現(xiàn)方式中,短期后置濾波器(694)是基于時(shí)域與頻域處理的組合的“混合”濾波器??梢造`活地和有效地首先將后置濾波器(694)的系數(shù)設(shè)計(jì)在頻域內(nèi),并且在時(shí)域中可以將所述系數(shù)應(yīng)用到短期后置濾波器(694)。這種方法的復(fù)雜性典型地比標(biāo)準(zhǔn)頻域后置濾波器更低,并且它可以以引入可以忽略的延遲的方式來(lái)實(shí)現(xiàn)。此外,所述濾波器可以比傳統(tǒng)的時(shí)域后置濾波器提供更多靈活性。人們相信這種混合濾波器可以在沒(méi)有需要過(guò)量的延遲或解碼器復(fù)雜性的情況下顯著地改善輸出通話(huà)質(zhì)量。此外,因?yàn)闉V波器(694)被應(yīng)用在時(shí)域中,它可以被應(yīng)用到任何尺寸的幀。
一般來(lái)講,后置濾波器(694)可以是有限脈沖響應(yīng)(“FIR”)濾波器,它的頻率-響應(yīng)是執(zhí)行在LPC合成濾波器的量度頻譜的對(duì)數(shù)上的非線性過(guò)程的結(jié)果??梢栽O(shè)計(jì)所述后-的量度頻譜以便濾波器(694)僅僅在頻譜的波谷衰減,并且在某些情況下至少所述量度頻譜的一部分被裁剪以在共振峰區(qū)域的周?chē)瞧教沟?。如在下面所討論的,可以通過(guò)截取由所述處理的量度頻譜的傅里葉逆變換產(chǎn)生的標(biāo)準(zhǔn)化序列來(lái)獲取所述FIR后-濾波系數(shù)。
濾波器(694)被應(yīng)用到時(shí)域中的重建語(yǔ)音??梢詫⑺鰹V波器應(yīng)用到整個(gè)頻帶或子頻帶。此外,可以單獨(dú)或結(jié)合其它濾波器,諸如將在下面更詳細(xì)地討論的長(zhǎng)期后置濾波器和/或中間頻率增強(qiáng)型濾波器,使用所述濾波器。
可以使用不同的比特率,不同的采樣率以及不同的編碼算法與編解碼器聯(lián)合運(yùn)轉(zhuǎn)所描述的后置濾波器。人們相信后置濾波器(694)能夠產(chǎn)生超過(guò)在沒(méi)有所述后置濾波器的情況下的話(huà)音編解碼器的使用的顯著的質(zhì)量改進(jìn)。特別地,人們相信后置濾波器(694)減少頻域中顯而易見(jiàn)的分層噪聲,在那里信號(hào)功率是相對(duì)低的,即,在共振峰之間的頻譜的波谷中。典型地,在這些區(qū)域中信噪比是弱的。換言之,由于所述弱信號(hào),當(dāng)前存在的噪聲是相對(duì)強(qiáng)烈的。人們相信所述后置濾波器通過(guò)衰減這些區(qū)域中的噪音水平來(lái)增強(qiáng)整體語(yǔ)音質(zhì)量。
重建LPC系數(shù)(638)經(jīng)常包含共振峰信息,因?yàn)樗鯨PC合成濾波器的頻率響應(yīng)典型地遵循所述輸入語(yǔ)音的頻譜的包絡(luò)。因此,LPC系數(shù)(638)被用于導(dǎo)出短期的后置濾波器的系數(shù)。因?yàn)長(zhǎng)PC系數(shù)(638)從一個(gè)幀到下一個(gè)或在一些其它的基準(zhǔn)上改變,由它們所獲得的后-濾波系數(shù)從幀到幀或在一些其它的基準(zhǔn)上同樣適應(yīng)。
在圖7中舉例說(shuō)明用于計(jì)算后置濾波器(694)的濾波系數(shù)的技術(shù)。圖6的解碼器(600)執(zhí)行所述技術(shù)。做為選擇,另外的解碼器或后置濾波器工具執(zhí)行所述技術(shù)。
解碼器(600)獲取LPC頻譜通過(guò)零-填充(715)一組LPC系數(shù)(710)a(i)其中i=0,1,2,...P,并且a(0)=1來(lái)獲取LPC頻譜。LPC系數(shù)(710)集合可以從比特流獲得,如果使用線性預(yù)測(cè)編解碼器,諸如CELP編解碼器。做為選擇,可以通過(guò)分析重建語(yǔ)音信號(hào)而獲取LPC系數(shù)(710)集合。即使所述編解碼器不是線性預(yù)測(cè)編解碼器也可以完成這個(gè)。P是在確定所述后濾波系數(shù)中使用的LPC系數(shù)a(i)的LPC順序。一般來(lái)講,補(bǔ)零涉及擴(kuò)展具有零的信號(hào)(或頻譜)以擴(kuò)大它的時(shí)間(或頻帶)限制。在所述處理中,補(bǔ)零將長(zhǎng)度P的信號(hào)映射到長(zhǎng)度N的信號(hào),其中N>P。在完整頻帶編解碼器實(shí)現(xiàn)方式中,P對(duì)于8kHz采樣率是10,并且對(duì)于高于8kHz的采樣率是16。做為選擇,P是一些其它的值。對(duì)于子頻帶編解碼器,P對(duì)于每一子頻帶可以是不同的值。例如,對(duì)于使用圖3中舉例說(shuō)明的三子頻帶結(jié)構(gòu)的16kHz采樣率,P對(duì)于所述低頻頻帶(310)可以是10,對(duì)于中頻帶(320)可以是6,并且對(duì)于高頻帶(330)可以是4。在一個(gè)實(shí)現(xiàn)方式中,N是128。做為選擇,N是一些其它數(shù),諸如256。
解碼器(600)然后在零-填充系數(shù)上執(zhí)行N-點(diǎn)變換,諸如FFT(720),產(chǎn)生量度頻譜A(k)。A(k)是零-填充LPC反向?yàn)V波器的頻譜,其中k=0,1,2,...,N-1。所述量度頻譜的逆(即,1/|A(k)|)產(chǎn)生所述LPC合成濾波器的量度頻譜。
所述LPC合成濾波器的量度頻譜被選擇性地轉(zhuǎn)換成對(duì)數(shù)域(725)以減少它的量度范圍。在一個(gè)實(shí)現(xiàn)方式中,這個(gè)轉(zhuǎn)換如下 其中1n是固有的對(duì)數(shù)。然而,其它的操作可被用于減少所述范圍。例如,可以使用基數(shù)十的對(duì)數(shù)操作代替自然對(duì)數(shù)操作。
三個(gè)可選非線性的操作基于值H(k)標(biāo)準(zhǔn)化(730),非線性的壓縮(735),以及裁剪(740)。
標(biāo)準(zhǔn)化(730)趨向于使H(k)的范圍從幀到幀以及頻帶到頻帶更加連貫。標(biāo)準(zhǔn)化(730)和非線性的壓縮(735)都減少非線性的量度頻譜的范圍,以便語(yǔ)音信號(hào)通過(guò)所述后置濾波器不被改變太多。做為選擇,附加的和/或其它技術(shù)可被用于減少所述量度頻譜的范圍。
在一個(gè)實(shí)現(xiàn)方式中,初始的標(biāo)準(zhǔn)化(730)對(duì)于多頻帶編解碼器的每一頻帶被執(zhí)行如下 其中Hmin是H(k)的最小值,而k=0,1,2,...,N-1。
標(biāo)準(zhǔn)化(730)對(duì)于完整頻帶編解碼器可以被執(zhí)行如下 其中Hmin是H(k)的最小值,且Hmax是H(k)的最大值,而k=0,1,2,...,N-1。在上面兩個(gè)標(biāo)準(zhǔn)化等式中,增加常量0.1以阻止
的最大和最小值分別成為1和0,由此使非線性的壓縮更加有效??梢蕴娲厥褂闷渌A?,或其它技術(shù)以防止零值。
非線性的壓縮(735)被如下執(zhí)行以進(jìn)一步地調(diào)節(jié)非線性的頻譜的動(dòng)態(tài)范圍 其中k=0,1,...,N-1。因此,如果使用128-點(diǎn)FFT將所述系數(shù)轉(zhuǎn)換到所述頻域,那么k=0,1,...,127。此外,β=η*(Hmax-Hmin),其中η和γ是適當(dāng)?shù)剡x擇的常數(shù)因子??梢愿鶕?jù)語(yǔ)音編解碼器的類(lèi)型和所述編碼率選擇η和γ的值。在一個(gè)實(shí)現(xiàn)方式中,試驗(yàn)性地選擇η和γ參數(shù)。例如,從0.125到0.135的范圍選擇γ,而從0.5到1.0的范圍選擇η??梢曰趨?shù)選擇調(diào)節(jié)所述常量。例如,通過(guò)分析由不同的常量產(chǎn)生的預(yù)測(cè)頻譜失真(主要在波峰和波谷周?chē)?獲得常量的范圍。典型地,希望選擇不超過(guò)預(yù)測(cè)失真的預(yù)定級(jí)別的范圍。然后從使用主觀的傾聽(tīng)試驗(yàn)的結(jié)果的范圍之內(nèi)的一組值中選擇最終值。例如,在具有8kHz采樣率的后置濾波器中,η是0.5而γ是0.125,而在具有16kHz采樣率的后置濾波器中,η是1.0而γ是0.135。
裁剪(740)可以被應(yīng)用于壓縮頻譜,Hc(k),如下
其中Hmean是Hc(k)的平均值,而是λ常量??梢愿鶕?jù)語(yǔ)音編解碼器的類(lèi)型和所述編碼率而不同地選擇λ的值。在一些實(shí)現(xiàn)方式中,試驗(yàn)性地選擇λ(諸如從0.95到1.1的值),并且可以基于參數(shù)選擇調(diào)節(jié)它。例如,可以使用主觀的傾聽(tīng)試驗(yàn)的結(jié)果選擇λ的最終值。例如,在具有8kHz采樣率的后置濾波器中,λ是1.1,并且在具有16kHz采樣率的后置濾波器中,λ是0.95。
這個(gè)裁剪操作在最大限度,或最高限度上遮蔽Hpf(k)的值。在上述等式中,這個(gè)最大限度被表示為λ*Hmean。做為選擇其它操作被用于遮蔽所述量度頻譜的值。例如,所述最高限度可以基于Hc(k)的中間值,而不是平均值。同樣,與其將全部高Hc(k)裁剪到特定的最大值(諸如λ*Hmean),可以根據(jù)更加復(fù)雜的操作裁剪所述值。
裁剪往往導(dǎo)致在沒(méi)有在其它區(qū)域,諸如共振峰區(qū)域,顯著地改變語(yǔ)音頻譜的情況下,濾波系數(shù)將在它的波谷使衰減所述語(yǔ)音信號(hào)。這可以阻止后置濾波器扭曲所述話(huà)音峰段,由此產(chǎn)生高質(zhì)量的語(yǔ)音輸出。此外,裁剪可以減少頻譜傾斜的影響,因?yàn)椴眉敉ㄟ^(guò)將大的值減少到被遮蔽的值來(lái)修平所述后置濾波器頻譜,同時(shí)所述波谷周?chē)闹祷旧媳3譄o(wú)變化。
當(dāng)執(zhí)行到所述對(duì)數(shù)域的轉(zhuǎn)換時(shí),所產(chǎn)生的裁剪量度頻譜,Hpf(k),被從所述記錄域轉(zhuǎn)換到所述線性域(745),例如,如下 Hpfl(k)=exp(Hpf(k)) 其中exp是逆自然對(duì)數(shù)函數(shù)。在Hpfl(k)上執(zhí)行N-點(diǎn)快速傅里葉逆變換(750),產(chǎn)生f(n)的時(shí)序,其中n=0,1,...,N-1,并且N與上面討論的FFT操作(720)中的相同.因此,f(n)是N-點(diǎn)時(shí)序。
在圖7中,通過(guò)對(duì)于n>M-1,設(shè)置所述值為0來(lái)截取f(n)的值(755),如下 其中M是所述短期后置濾波器的順序。一般來(lái)講,M的高位值產(chǎn)生高質(zhì)量濾波器語(yǔ)音。然而,所述后置濾波器的復(fù)雜性隨著M增加而增加??梢赃x擇M的值,考慮這些平衡。在一個(gè)實(shí)現(xiàn)方式中,M是17。選擇性地標(biāo)準(zhǔn)化h(n)的值以避免幀之間的急劇變化(760)。例如這些被完成如下 做為選擇,使用其它的規(guī)格化操作。例如,可以使用下列操作 在實(shí)現(xiàn)方式中,其中標(biāo)準(zhǔn)化產(chǎn)生了后置濾波系數(shù)hpf(n)(765),具有系數(shù)hpf(n)(765)的FIR濾波器被應(yīng)用到時(shí)域中的合成語(yǔ)音。因此,在這個(gè)實(shí)現(xiàn)方式中,第一順序后濾波系數(shù)(n=0)被設(shè)置為一個(gè)用于每一幀的值以防止一個(gè)幀到下一幀的濾波系數(shù)的顯著偏差。
B.中頻增強(qiáng)濾波器舉例 在一些實(shí)施例中,諸如圖2中所示的解碼器(270)的解碼器包括用于后處理的中頻增強(qiáng)型濾波器,或這種濾波器被應(yīng)用到解碼器(270)的輸出。做為選擇,這種濾波器被結(jié)合進(jìn)或應(yīng)用于一些其它類(lèi)型的音頻解碼器或處理工具,例如,在別處描述的目前應(yīng)用的語(yǔ)音編解碼器,的輸出。
如上所述,多頻帶編解碼器將輸入信號(hào)分解到減少的帶寬信道里,典型地因?yàn)樽宇l帶對(duì)于編碼是更加易控制的以及靈活的。帶通濾波器,諸如如上參考圖2所述的濾波器組(216),經(jīng)常被用于編碼之前的信號(hào)分解。然而,信號(hào)分解可以引起在所述帶通濾波器的通道頻帶之間的頻率區(qū)域上的信號(hào)能量的損失。所述中頻改進(jìn)(“MFE”)濾波器通過(guò)放大在頻率區(qū)域的解碼輸出語(yǔ)音的量度頻譜阻止這個(gè)潛在的問(wèn)題,所述頻率區(qū)域的能量由于信號(hào)分解而衰減,在沒(méi)有顯著地改變其它頻率區(qū)域上的能量的情況下。
在圖2中,MFE濾波器(284)被應(yīng)用到頻帶合成濾波器的輸出,諸如濾波器組(280)的輸出(292)。因此,如果所述頻帶n解碼器(272,274)是如圖6中所示的,短期后置濾波器(694)被獨(dú)立地應(yīng)用到子頻帶解碼器的每個(gè)重建頻帶,同時(shí)MFE濾波器(284)被應(yīng)用到包括所述多個(gè)子頻帶的基值的組合或合成重建信號(hào)。如所指示的,做為選擇,結(jié)合具有另外的配置的解碼器應(yīng)用MFE濾波器。
在一些實(shí)現(xiàn)方式中,MFE濾波器是二階的帶通FIR濾波器。它級(jí)聯(lián)一階低通濾波器和一階高通濾波器。一階濾波器都可以具有完全相同的系數(shù)。典型地,選擇所述系數(shù)以便MFE濾波器增益在傳輸頻帶(增加所述信號(hào)的能量)上是所希望的并且在阻止頻帶(經(jīng)過(guò)無(wú)變化的或相對(duì)無(wú)變化的信號(hào))上是統(tǒng)一的。做為選擇,一些其它技術(shù)被用于增強(qiáng)已經(jīng)由于頻帶分解而衰減的頻率區(qū)域。
一階低通濾波器的傳遞函數(shù)是 一階高通濾波器的傳遞函數(shù)是 因此,級(jí)聯(lián)上面的低通濾波器和高通濾波器的二階的MFE濾波器的傳遞函數(shù)是 對(duì)應(yīng)的MFE濾波系數(shù)可以被表示為
可以實(shí)驗(yàn)選擇μ的值。例如通過(guò)分析由不同的常量產(chǎn)生的預(yù)測(cè)頻譜失真獲取常量的范圍。典型地,希望選擇不超過(guò)預(yù)測(cè)失真的預(yù)定級(jí)別的范圍。然后從使用主觀的傾聽(tīng)試驗(yàn)的結(jié)果的范圍之內(nèi)的一組值中選擇最終值。在一個(gè)實(shí)現(xiàn)方式中,當(dāng)使用16kHz采樣率,并且所述語(yǔ)音被插入下列三個(gè)頻帶(0到8kHz,8到12kHz,以及12到16kHz),它對(duì)于增強(qiáng)8kHz周?chē)膮^(qū)域可以是所希望的,并且選擇μ為0.45。做為選擇,選擇μ的其它值,特別是如果增強(qiáng)一些其它頻率區(qū)域是所希望的。做為選擇,使用一個(gè)或多個(gè)不同設(shè)計(jì)的帶通濾波器實(shí)現(xiàn)所述MFE濾波器,或使用一個(gè)或多個(gè)其它濾波器實(shí)現(xiàn)所述MFE濾波器。
已經(jīng)參考所描述的實(shí)施例描述和舉例說(shuō)明了我們的發(fā)明的原理,將認(rèn)識(shí)到的是在沒(méi)有脫離這種原理的情況下可以在方案以及細(xì)節(jié)中修改所描述的實(shí)施例。應(yīng)當(dāng)被理解的是此處所述的程序,處理,或方法不涉及或不局限于任何特殊的類(lèi)型的計(jì)算環(huán)境,除非另外表示。各種類(lèi)型的通用或?qū)I(yè)化計(jì)算環(huán)境可以被使用或根據(jù)此處所述的教學(xué)執(zhí)行操作。軟件中所示的所描述的實(shí)施例的元件可以在硬件中實(shí)現(xiàn),反之亦然。
考慮到我們的發(fā)明的原理可以被應(yīng)用到許多可能的實(shí)施例,我們要求象我們的發(fā)明所有如此的實(shí)施例可以在下列權(quán)利要求書(shū)以及此外的等價(jià)物的范圍以及精神內(nèi)。
權(quán)利要求
1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括
計(jì)算應(yīng)用于重建音頻信號(hào)的一組濾波系數(shù),其中計(jì)算所述這組濾波系數(shù)包括執(zhí)行一個(gè)或多個(gè)頻域計(jì)算;以及
通過(guò)使用所述這組濾波系數(shù)在時(shí)域中對(duì)所述重建音頻信號(hào)的至少一部分進(jìn)行濾波,來(lái)產(chǎn)生經(jīng)濾波的音頻信號(hào)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述經(jīng)濾波的音頻信號(hào)表示所述重建音頻信號(hào)的頻率子頻帶。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,計(jì)算所述這組濾波系數(shù)包括
執(zhí)行一組初始時(shí)域值從時(shí)域到頻域的轉(zhuǎn)換,由此產(chǎn)生一組初始頻域值;
使用所述頻域值執(zhí)行一個(gè)或者多個(gè)頻域計(jì)算,以產(chǎn)生一組處理過(guò)的頻域值;
執(zhí)行所述處理過(guò)的頻域值從頻域到時(shí)域的轉(zhuǎn)換,由此產(chǎn)生一組處理過(guò)的時(shí)域值;以及
在時(shí)域中截取所述這組時(shí)域值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,計(jì)算所述這組濾波系數(shù)包括處理一組線性預(yù)測(cè)系數(shù)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,處理所述這組線性預(yù)測(cè)系數(shù)包括覆蓋從所述這組線性預(yù)測(cè)系數(shù)獲得的頻譜。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,處理所述這組線性預(yù)測(cè)系數(shù)包括減小從所述這組線性預(yù)測(cè)系數(shù)獲得的頻譜的范圍。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述一個(gè)或多個(gè)頻域計(jì)算包括對(duì)數(shù)域中的一個(gè)或多個(gè)計(jì)算。
8.一種方法包括
產(chǎn)生應(yīng)用于重建音頻信號(hào)的一組濾波系數(shù),包括處理用于表示一個(gè)或多個(gè)波峰以及一個(gè)或多個(gè)波谷的一組系數(shù)值,其中處理所述這組系數(shù)值包括裁剪一個(gè)或多個(gè)波峰或波谷;以及
使用所述濾波系數(shù)對(duì)所述重建音頻信號(hào)的至少一部分進(jìn)行濾波。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述裁剪包括在裁剪數(shù)值處覆蓋所述這組系數(shù)值。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,產(chǎn)生一組濾波系數(shù)進(jìn)一步包括計(jì)算作為所述這組系數(shù)值的平均值的函數(shù)的裁剪值。
11.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述這組系數(shù)值至少部分地基于一組線性預(yù)測(cè)系數(shù)值。
12.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述裁剪是在頻域中執(zhí)行的。
13.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述裁剪是在時(shí)域中執(zhí)行的。
14.根據(jù)權(quán)利要求8所述的方法,進(jìn)一步包括在所述裁剪之前減小所述這組系數(shù)值的范圍。
15.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括
接收根據(jù)多個(gè)重建頻率子頻帶信號(hào)而合成的重建復(fù)合信號(hào),所述多個(gè)重建頻率子頻帶信號(hào)包括第一頻帶的重建第一頻率子頻帶信號(hào)和第二頻帶的重建第二頻率子頻帶信號(hào);以及
選擇性地增強(qiáng)在所述第一頻帶和所述第二頻帶之間的交叉點(diǎn)周?chē)念l率區(qū)域處的重建復(fù)合信號(hào)。
16.根據(jù)權(quán)利要求15所述的方法,進(jìn)一步包括
解碼經(jīng)編碼的信息,以產(chǎn)生所述多個(gè)重建頻率子頻帶信號(hào);以及
合成所述多個(gè)重建頻率子頻帶信號(hào),以產(chǎn)生所述重建復(fù)合信號(hào)。
17.根據(jù)權(quán)利要求15所述的方法,其特征在于,增強(qiáng)所述重建復(fù)合信號(hào)包括使所述重建復(fù)合信號(hào)通過(guò)帶通濾波器,其中所述帶通濾波器的通帶對(duì)應(yīng)于所述第一頻帶和所述第二頻帶之間的交叉點(diǎn)周?chē)念l率區(qū)域。
18.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述帶通濾波器包括與高通濾波器串聯(lián)的低通濾波器。
19.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述帶通濾波器在一個(gè)或多個(gè)阻帶處具有單位一的增益并且在通帶處具有大于單位一的增益。
20.根據(jù)權(quán)利要求15所述的方法,其特征在于,所述增強(qiáng)包括在頻域中增加信號(hào)能量。
全文摘要
描述了用于處理重建音頻信號(hào)的技術(shù)和工具。例如,使用至少部分在頻域內(nèi)計(jì)算出的濾波系數(shù),在時(shí)域中對(duì)重建音頻信號(hào)進(jìn)行濾波。另外的例子,產(chǎn)生一組用于對(duì)重建音頻信號(hào)進(jìn)行濾波的濾波系數(shù)這一過(guò)程包括裁剪一組系數(shù)值中的一個(gè)或多個(gè)波峰。又一個(gè)例子,對(duì)于子頻帶編解碼器,在頻域中兩個(gè)子頻帶之間的交叉點(diǎn)附近,增強(qiáng)重建復(fù)合信號(hào)。
文檔編號(hào)G10L21/00GK101501763SQ200680018385
公開(kāi)日2009年8月5日 申請(qǐng)日期2006年4月5日 優(yōu)先權(quán)日2005年5月31日
發(fā)明者X·孫, T·王, H·A·海莉爾, K·科什達(dá), W-G·陳 申請(qǐng)人:微軟公司