多聲道音頻的混合編碼的制作方法
【專利說明】
[0001] 相關(guān)申請(qǐng)的交叉引用
[0002] 本申請(qǐng)要求2013年4月30日提交的美國臨時(shí)專利申請(qǐng)No. 61/817729的優(yōu)先權(quán), 該申請(qǐng)的全部內(nèi)容通過引用并入于此。
技術(shù)領(lǐng)域
[0003] 本發(fā)明涉及音頻信號(hào)處理,更具體地,涉及多聲道音頻編碼(例如,對(duì)指示多聲道 音頻信號(hào)的數(shù)據(jù)的編碼)和解碼。在典型實(shí)施例中,多聲道輸入音頻的個(gè)體聲道的低頻分 量的下混(downmix)經(jīng)受波形編碼(waveform coding),而輸入音頻的其它(更高頻)頻率 分量經(jīng)受參數(shù)化編碼(parametric coding)。一些實(shí)施例根據(jù)被稱為AC-3和E-AC_3(增強(qiáng) 型AC-3)的格式之一或者根據(jù)另一種編碼格式對(duì)多聲道音頻數(shù)據(jù)進(jìn)行編碼。
【背景技術(shù)】
[0004] 杜比實(shí)驗(yàn)室提供分別被稱為杜比數(shù)字(Dolby Digital)和杜比數(shù)字加(Dolby Digital Plus)的AC-3和E-AC-3的專有實(shí)現(xiàn)。杜比、杜比數(shù)字和杜比數(shù)字加是杜比實(shí)驗(yàn)室 授權(quán)公司的商標(biāo)。
[0005] 盡管本發(fā)明不限于在根據(jù)E-AC-3 (或AC-3)格式對(duì)音頻數(shù)據(jù)進(jìn)行編碼時(shí)使用,但 是為了方便起見,將在實(shí)施例中描述根據(jù)E-AC-3格式來對(duì)音頻比特流進(jìn)行編碼。
[0006] AC-3或E-AC-3編碼的比特流包括元數(shù)據(jù),并且可以包括音頻內(nèi)容的1至6個(gè)聲 道。音頻內(nèi)容是已經(jīng)使用感知音頻編碼來壓縮的音頻數(shù)據(jù)。AC-3編碼的細(xì)節(jié)是眾所周知 的,并且在許多發(fā)表的參考文獻(xiàn)中得到闡述,包括:
[0007] ATSC 標(biāo)準(zhǔn) A52/A:Digital Audio Compression Standard(AC-3),修訂版 A,先進(jìn) 電視系統(tǒng)委員會(huì),2001年8月20日;以及
[0008] 美國專利 5583962、5632005、5633981、5727119 和 6021386。
[0009] 杜比數(shù)字加(E-AC-3)編碼的細(xì)節(jié)例如在下文中得到闡述'Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System", AES 會(huì)議 論文6196,第117屆AES會(huì)議,2004年10月28日。
[0010] AC-3編碼音頻比特流的每幀包含針對(duì)數(shù)字音頻的1536個(gè)樣本的音頻內(nèi)容和元數(shù) 據(jù)。對(duì)于48kHz的采樣速率,這表示32毫秒的數(shù)字音頻或音頻的31. 25幀/秒的速率。
[0011] E-AC-3編碼音頻比特流的每幀包含針對(duì)數(shù)字音頻的256、512、768或1536個(gè)樣本 的音頻內(nèi)容和元數(shù)據(jù),這分別取決于該幀是包含音頻數(shù)據(jù)的一個(gè)、兩個(gè)、三個(gè)還是六個(gè)塊。
[0012] 由E-AC-3編碼的典型實(shí)現(xiàn)方式執(zhí)行的音頻內(nèi)容編碼包括波形編碼和參數(shù)化編 碼。
[0013] 音頻輸入信號(hào)的波形編碼(典型地被執(zhí)行為對(duì)信號(hào)進(jìn)行壓縮以使得編碼信號(hào)包 括比輸入信號(hào)更少的比特)以服從適用約束、盡可能多地保留輸入信號(hào)的波形的方式(例 如,使得編碼信號(hào)的波形最大程度地匹配輸入信號(hào)的波形)對(duì)輸入信號(hào)進(jìn)行編碼。例如,在 常規(guī)的E-AC-3編碼中,對(duì)多聲道輸入信號(hào)的每個(gè)聲道的低頻分量(典型地,上至3. 5kHz或 4. 6kHz)執(zhí)行波形編碼,以通過(在頻域中)產(chǎn)生輸入信號(hào)的每個(gè)聲道的每個(gè)低頻帶的每個(gè) 樣本(其為頻率分量)的量化表示(量化的尾數(shù)和指數(shù))來對(duì)輸入信號(hào)的這種低頻內(nèi)容進(jìn) 行壓縮。
[0014] 更具體地,E-AC-3編碼器(以及一些其它常規(guī)的音頻編碼器)的典型實(shí)現(xiàn)方式實(shí) 現(xiàn)了心理聲學(xué)模型,以在帶(即,典型地,50個(gè)不均勻的帶,近似于公知的被稱為Bark標(biāo)度 (Bark scale)心理聲學(xué)標(biāo)度的頻帶)的基礎(chǔ)上對(duì)指示輸入信號(hào)的頻域數(shù)據(jù)進(jìn)行分析來確 定對(duì)于每個(gè)尾數(shù)的最佳比特分配。為了對(duì)輸入信號(hào)的低頻分量執(zhí)行波形編碼,將尾數(shù)數(shù)據(jù) (指示低頻分量)量化為與確定的比特分配對(duì)應(yīng)的比特?cái)?shù)量。然后將量化的尾數(shù)數(shù)據(jù)(以 及對(duì)應(yīng)的指數(shù)數(shù)據(jù),典型地還有對(duì)應(yīng)的元數(shù)據(jù))格式化為編碼的輸出比特流。
[0015] 參數(shù)化編碼(另一種公知的音頻信號(hào)編碼)提取并編碼輸入音頻信號(hào)的特征參 數(shù),以使得(在編碼和隨后的解碼之后的)重構(gòu)信號(hào)具有盡可能少的可懂度(服從適用約 束),但使得編碼信號(hào)的波形與輸入信號(hào)的波形迥然不同。
[0016] 例如,2003年10月9日公開的PCT國際申請(qǐng)公開號(hào)W003/083834A1以及2004年 11月25日公開的PCT國際申請(qǐng)公開號(hào)W02004/102532A1描述了一種被稱為頻譜擴(kuò)展編碼 (spectral extension coding)的參數(shù)化編碼。在頻譜擴(kuò)展編碼中,將全頻率范圍音頻輸入 信號(hào)的頻率分量編碼為有限頻率范圍信號(hào)(基帶信號(hào))的頻率分量序列和對(duì)應(yīng)的編碼參數(shù) 序列(指示殘余信號(hào)),該編碼參數(shù)序列(與基帶信號(hào)一起)確定全頻率范圍輸入信號(hào)的近 似版本。
[0017] 另一種公知的參數(shù)化編碼是聲道耦合編碼。在聲道耦合編碼中,音頻輸入信號(hào)的 聲道的單音下混被構(gòu)造。輸入信號(hào)被編碼為該下混(頻率分量序列)和對(duì)應(yīng)的耦合參數(shù)序 列。耦合參數(shù)是(與下混一起)確定輸入信號(hào)的每個(gè)聲道的近似版本的水平參數(shù)。耦合參 數(shù)是使單音下混的能量與輸入信號(hào)的每個(gè)聲道的能量匹配的頻帶化元數(shù)據(jù)。
[0018] 例如,常規(guī)的對(duì)5. 1聲道輸入信號(hào)的E-AC-3編碼(為了傳輸編碼信號(hào),可用比特 率為192kbps)典型地實(shí)現(xiàn)聲道耦合編碼和頻譜擴(kuò)展編碼,其中聲道耦合編碼對(duì)輸入信號(hào) 的每個(gè)聲道的中頻分量(在范圍Fl〈f彡F2內(nèi),其中,F(xiàn)l典型地等于3. 5kHz或4. 6kHz,F(xiàn)2 典型地等于IOkHz或10. 2kHz)進(jìn)行編碼,頻譜擴(kuò)展編碼對(duì)輸入信號(hào)的每個(gè)聲道的高頻分量 (在范圍F2〈f彡F3內(nèi),其中,F(xiàn)2典型地等于IOkHz或10. 2kHz,F(xiàn)3典型地等于14. 8kHz或 16kHz)進(jìn)行編碼。在執(zhí)行聲道耦合編碼期間確定的單音下混被波形編碼,并且經(jīng)波形編碼 的下混連同耦合參數(shù)一起傳輸(在編碼的輸出信號(hào)中)。在執(zhí)行聲道耦合編碼期間確定的 下混被用作頻譜擴(kuò)展編碼的基帶信號(hào)。頻譜擴(kuò)展編碼(從輸入信號(hào)的每個(gè)聲道的基帶信號(hào) 和高頻分量)確定另一組編碼參數(shù)(SPX參數(shù))。SPX參數(shù)被包括在編碼的輸出信號(hào)中,并 且與其一起傳輸。
[0019] 在有時(shí)被稱為空間音頻編碼的另一種參數(shù)化編碼中,多聲道音頻輸入信號(hào)的聲道 的下混(例如,單聲道或立體聲下混)被生成。輸入信號(hào)被編碼為包括該下混(頻率分量 序列)和對(duì)應(yīng)的空間參數(shù)序列的輸出信號(hào)(或者被編碼為該下混的每個(gè)聲道的波形編碼版 本與對(duì)應(yīng)的空間參數(shù)序列)??臻g參數(shù)允許從輸入信號(hào)的下混中恢復(fù)音頻輸入信號(hào)的每個(gè) 聲道的振幅包絡(luò)以及音頻輸入信號(hào)的聲道之間的聲道間相關(guān)性這兩者。這種類型的參數(shù)化 編碼可以對(duì)輸入信號(hào)的所有頻率分量(即,在輸入信號(hào)的全頻率范圍上)執(zhí)行,而不是僅對(duì) 輸入信號(hào)的全頻率范圍的子范圍內(nèi)的頻率分量執(zhí)行(即,使得輸入信號(hào)的編碼版本包括所 述下混以及針對(duì)輸入信號(hào)的全頻率范圍的所有頻率的空間參數(shù),而非其子集)。
[0020] 在音頻比特流的E-AC-E或AC-3編碼中,要編碼的輸入音頻樣本塊經(jīng)受時(shí)域至頻 域的變換,產(chǎn)生頻域數(shù)據(jù)塊,這些頻域數(shù)據(jù)塊通常被稱為位于均勻間隔的頻率區(qū)間中的變 換系數(shù)(或頻率系數(shù)或頻率分量)。每個(gè)區(qū)間中的頻率系數(shù)然后(例如,在圖1系統(tǒng)的BFPE 級(jí)7中)被轉(zhuǎn)換為包括指數(shù)和尾數(shù)的浮點(diǎn)格式。
[0021] 典型地,尾數(shù)比特分配基于細(xì)粒度信號(hào)譜(由每個(gè)頻率區(qū)間的功率譜密度 ("PSD")表示)和粗粒度掩蔽曲線(由每個(gè)頻帶的掩蔽值表示)。
[0022] 圖1是被配置為對(duì)時(shí)域輸入音頻數(shù)據(jù)1執(zhí)行常規(guī)的E-AC-3編碼的編碼器。該 編碼器的分析濾波器組2將時(shí)域輸入音頻數(shù)據(jù)1轉(zhuǎn)換為頻域音頻數(shù)據(jù)3,并且塊浮點(diǎn)編碼 (BFPE)級(jí)7產(chǎn)生數(shù)據(jù)3的每個(gè)頻率分量的浮點(diǎn)表示,該浮點(diǎn)表示包括針對(duì)每個(gè)頻率區(qū)間的 指數(shù)和尾數(shù)。從級(jí)7輸出的頻域數(shù)據(jù)在本文中有時(shí)將被稱為頻域音頻數(shù)據(jù)3。從級(jí)7輸出 的頻域音頻數(shù)據(jù)然后被編碼,包括通過(在圖1系統(tǒng)的元件4、6、10和11中)對(duì)從級(jí)7輸 出的頻域數(shù)據(jù)的低頻分量(具有小于或等于"F1"的頻率,其中,F(xiàn)l典型地等于3. 5kHz或 4. 6kHz)執(zhí)行波形編碼,以及(在參數(shù)化編碼級(jí)12中)對(duì)從級(jí)7輸出的頻域數(shù)據(jù)的其它頻 率分量(具有大于Fl的頻率)執(zhí)行參數(shù)化編碼。
[0023] 波形編碼包括:在量化器6中對(duì)(從級(jí)7輸出的低頻分量的)尾數(shù)進(jìn)行量化,在掩 蓋級(jí)(tenting stage) 10中對(duì)(從級(jí)7輸出的低頻分量的)指數(shù)進(jìn)行掩蓋(tenting),并且 (在指數(shù)編碼級(jí)11中)對(duì)在級(jí)10中產(chǎn)生的經(jīng)掩蓋的指數(shù)進(jìn)行編碼。格式化器8響應(yīng)于從 量化器6輸出的經(jīng)量化的數(shù)據(jù)、從級(jí)11輸出的經(jīng)編碼的差分指數(shù)數(shù)據(jù)、以及從級(jí)12輸出的 經(jīng)參數(shù)化編碼的數(shù)據(jù),來產(chǎn)生E-AC-3編碼比特流9。
[0024] 量化器6基于由控制器4產(chǎn)生的控制數(shù)據(jù)(包括掩蔽數(shù)據(jù))來執(zhí)行比特分配和量 化。掩蔽數(shù)據(jù)(其確定掩蔽曲線)是基于人類聽力和聽覺感知的心理聲學(xué)模型(其由控制 器4實(shí)現(xiàn))從頻域數(shù)據(jù)3產(chǎn)生的。心理聲學(xué)建??紤]了人類聽力的頻率相關(guān)閾值以及被稱 為掩蔽的心理聲學(xué)現(xiàn)象,由此,在一個(gè)或多個(gè)較弱頻率分量附近的強(qiáng)頻率分量趨向于掩蔽 這些較弱的分量,致使它們不能被人類收聽者聽到。這使得當(dāng)對(duì)音頻數(shù)據(jù)進(jìn)行編碼時(shí)可以 省略較弱的頻率分量,由此實(shí)現(xiàn)更高的壓縮度,而不會(huì)不利地影響被編碼的音頻數(shù)據(jù)(比 特流9)的感知質(zhì)量。掩蔽數(shù)據(jù)包括針對(duì)頻域音頻數(shù)據(jù)3的每個(gè)頻帶的掩蔽曲線值。這些 掩蔽曲線值表示在每個(gè)頻帶中被人耳掩蔽的信號(hào)水平。量化器6使用該信息來決定如何最 好地使用可用數(shù)量的數(shù)據(jù)比特來表示輸入音頻信號(hào)的每個(gè)頻帶的頻域數(shù)據(jù)。
[0025] 已知在常規(guī)的E-AC-3編碼中,對(duì)差分指數(shù)(即,連續(xù)指數(shù)之間的差值)而非對(duì)絕 對(duì)指數(shù)進(jìn)行編碼。差分指數(shù)僅可以取以下五個(gè)值中的一個(gè):2、1、0、_1和-2。如果發(fā)現(xiàn)了在 該范圍之外的差分指數(shù),則修改被減的指數(shù)中的一個(gè),以使得差分指數(shù)(在修改之后)在所 指出的范圍內(nèi)(該常規(guī)方法被稱為"指數(shù)掩蓋(exponent tenting)"或"掩蓋")。圖1編 碼器的掩蓋級(jí)10通過執(zhí)行這種掩蓋操作,響應(yīng)于向其斷言的原始指數(shù),來產(chǎn)生經(jīng)掩蓋的指 數(shù)。
[0026] 在E-AC-3編碼的典型實(shí)施例中,以從大約96kbps至大約192kbps的范圍內(nèi)的比 特率對(duì)5或5. 1聲道音頻信號(hào)進(jìn)行編碼。目前,以192kbps,典型的E-AC-3編碼器通過使用 如下組合來對(duì)5聲道(或5. 1聲道)輸入信號(hào)進(jìn)行編碼:對(duì)于信號(hào)的每個(gè)聲道的低頻分量 (例如,上至3. 5kHz或4. 6kHz)進(jìn)行離散波形編碼,對(duì)于信號(hào)的每個(gè)聲道的中頻分量(例 如,從3. 5kHz至大約IOkHz或者從4. 6kHz至大約IOkHz)進(jìn)行聲道耦合,對(duì)于信號(hào)的每個(gè) 聲道的高頻分量(例如,從大約IOkHz至16kHz或者從大約IOkHz至14. 8kHz)進(jìn)行頻譜 擴(kuò)展。雖然這得到了可接受的質(zhì)量,但是當(dāng)可供用于傳輸經(jīng)編碼的輸出信號(hào)的最大比特率 降至低于192kbps時(shí),(經(jīng)編碼的輸出信號(hào)的解碼版本的)質(zhì)量快速劣化。例如,當(dāng)使用 E-AC-3對(duì)5. 1聲道音頻進(jìn)行編碼以用于流傳輸時(shí),臨時(shí)的數(shù)據(jù)帶寬限制可能要求數(shù)據(jù)速率 低于192kbps (例如,降至64kbps)。然而,使用E-AC-3對(duì)5. 1聲道信號(hào)進(jìn)行編碼以便以低 于192kbps的比特率傳輸無法生成"廣播質(zhì)量"的編碼音頻。為了(使用E-AC-3編碼)對(duì) 信號(hào)進(jìn)行編碼以便以遠(yuǎn)低于192kbps的比特率(例如,96kb