的解碼器;
[0033] 圖14示出了根據(jù)現(xiàn)有技術(shù)水平的另一個編碼器;
[0034] 圖15示出了根據(jù)至少一個實施方式的音頻信號解碼器的示意性框圖;以及
[0035] 圖16示出了根據(jù)至少一個實施方式的用于將編碼音頻信號表示進行解碼的方法 的示意性流程圖。
【具體實施方式】
[0036] 音頻處理通過多種方式發(fā)展,并且如何將音頻數(shù)據(jù)信號有效地編碼和解碼成為很 多研究的課題。例如,由MPEG AAC (MPEG =運動圖像專家組;AAC =高級音頻編碼)提供了 有效編碼。下面更詳細地解釋MPEG AAC的一些方面,作為音頻編碼和解碼的介紹。由于所 描述的概念也可以適用于其他音頻編碼和解碼方案,所以MPEG AAC的描述要理解為僅僅是 一個實例。
[0037] 根據(jù)MPEG AAC,使用縮放因子(scale-factor,尺度因子)、量化和碼本(尤其是霍 夫曼碼本),將音頻信號的頻譜值進行編碼。
[0038] 在進行霍夫曼編碼之前,編碼器將要編碼的多個頻譜系數(shù)分成不同的部分(從上 游兀件(例如,濾波器組、心理聲學(xué)模型、以及關(guān)于量化閾值和量化分辨率的由心理聲學(xué)模 型控制的量化器)獲得頻譜系數(shù))。對于頻譜系數(shù)的每個部分,編碼器選擇霍夫曼碼本進 行霍夫曼編碼。MPEG AAC提供了 11個不同的頻譜霍夫曼碼本,用于將頻譜數(shù)據(jù)編碼,編碼 器從這些碼本中選擇最適合于將該部分的頻譜系數(shù)編碼的碼本。編碼器給解碼器提供碼 本標識符,碼本標識符識別用于該部分的頻譜系數(shù)的霍夫曼編碼的碼本作為邊信息(side information)〇
[0039] 在解碼器側(cè),解碼器分析所接收的邊信息,以確定多個頻譜霍夫曼碼本中的哪個 用于編碼某個部分的頻譜值?;陉P(guān)于用于將解碼器要解碼的部分的頻譜系數(shù)編碼的霍夫 曼碼本的邊信息,解碼器進行霍夫曼解碼。
[0040] 在霍夫曼解碼之后,在解碼器處獲得多個量化的頻譜值。然后,解碼器進行逆量化 (inverse quantization),以轉(zhuǎn)化可由編碼器進行的非均勾量化。由此,在解碼器處獲得逆 量化頻譜值。
[0041] 然而,逆量化頻譜值可能依然未被縮放。所獲得的未縮放頻譜值分成縮放因子帶, 每個縮放因子帶具有一個共同的縮放因子。用于每個縮放因子帶的縮放因子可用于解碼器 作為由編碼器提供的邊信息。使用該信息,解碼器使縮放因子帶的未縮放頻譜值乘以其縮 放因子。由此,獲得縮放頻譜值(scaled spectral value)。
[0042] 現(xiàn)在,參照圖1-圖4,說明根據(jù)現(xiàn)有技術(shù)水平的頻譜值的編碼和解碼。
[0043] 圖1示出了根據(jù)現(xiàn)有技術(shù)水平的編碼器。編碼器包括T/F (時頻)濾波器組10,用 于將應(yīng)被編碼的音頻信號AS從時域轉(zhuǎn)變成頻域,以獲得頻域音頻信號。將頻域音頻信號饋 入縮放因子單元20,以確定縮放因子。縮放因子單元20被適配為將頻域音頻信號的頻譜系 數(shù)劃分在稱為縮放因子帶(共享一個縮放因子的)的幾組頻譜系數(shù)中。縮放因子表示用于 改變在各個縮放因子帶內(nèi)的所有頻譜系數(shù)的幅度的增益值。而且,縮放因子單元20被適配 為生成和輸出頻域音頻信號的未縮放的頻譜系數(shù)。
[0044] 而且,在圖1中的編碼器包括量化器,其用于量化頻域音頻信號的未縮放的頻譜 系數(shù)。量化器30可以是非均勻量化器。
[0045] 在量化之后,將音頻信號的量化的未縮放頻譜饋入霍夫曼編碼器40內(nèi),以被霍夫 曼編碼?;舴蚵幋a用于音頻信號的量化的頻譜的冗余縮減。多個未縮放的量化的頻譜系 數(shù)分成幾個部分。雖然在MPEG AAC中,提供了 11個可能的碼本,但是一個部分的所有頻譜 系數(shù)由相同的霍夫曼碼本編碼。
[0046] 編碼器選擇特別適合于將該部分的頻譜系數(shù)編碼的11個可能的霍夫曼碼本中的 一個。由此,為特定部分選擇編碼器的霍夫曼碼本,取決于特定部分的頻譜值。然后,可以 將霍夫曼編碼的頻譜系數(shù)以及邊信息發(fā)送給解碼器,該邊信息包括(例如)關(guān)于用于將頻 譜系數(shù)的部分編碼的霍夫曼碼本、用于特定縮放因子帶的縮放因子等的信息。
[0047] 兩個或四個頻譜系數(shù)由用于將該部分的頻譜系數(shù)進行霍夫曼編碼的霍夫曼碼本 的碼字編碼。編碼器將表示編碼的頻譜系數(shù)的碼字以及包括一部分的長度的邊信息和關(guān)于 用于將該部分的頻譜系數(shù)編碼的霍夫曼碼本的信息傳輸給解碼器。
[0048] 在MPEG AAC中,提供了用于將音頻信號的頻譜數(shù)據(jù)編碼的11個頻譜霍夫曼碼本。 不同的頻譜霍夫曼碼本可由其碼本索引(在1與11之間的值)識別。霍夫曼碼本的尺寸 表示由所考慮的霍夫曼碼本的碼字編碼頻譜系數(shù)的數(shù)量。在MPEG AAC中,霍夫曼碼本的尺 寸是2或4,表示碼字將音頻信號的2個或4個頻譜值編碼。
[0049] 然而,不同的霍夫曼碼本在其他性能方面也不同。例如,由霍夫曼碼本可編碼的頻 譜系數(shù)的最大絕對值在碼本之間不同,并且例如,可以是1、2、4、7、12或更大。而且,所考慮 的霍夫曼碼本可被適配為將符號值編碼或不編碼。
[0050] 利用霍夫曼編碼,頻譜系數(shù)由不同長度的碼字編碼。MPEG AAC提供具有最大絕對 值1的2個不同的霍夫曼碼本、具有最大絕對值2的2個不同的霍夫曼碼本、具有最大絕對 值4的2個不同的霍夫曼碼本、具有最大絕對值7的2個不同的霍夫曼碼本、以及具有最大 絕對值12的2個不同的霍夫曼碼本,其中,每個霍夫曼碼本表示不同的概率分布函數(shù)?;?夫曼編碼器將始終選擇最適合于將頻譜系數(shù)編碼的霍夫曼碼本。
[0051] 圖2示出了根據(jù)現(xiàn)有技術(shù)水平的解碼器。霍夫曼編碼的頻譜值由霍夫曼解碼器50 接收。霍夫曼解碼器50還接收作為邊信息的關(guān)于用于將頻譜值的每個部分的頻譜值編碼 的霍夫曼碼本的信息。然后,霍夫曼解碼器50執(zhí)行霍夫曼解碼,以獲得未縮放的量化頻譜 值。將未縮放的量化的頻譜值饋入逆量化器60內(nèi)。逆量化器執(zhí)行逆量化,以獲得逆量化的 未縮放的頻譜值,將這些頻譜值饋入定標器(scaler) 70內(nèi)。定標器70還接收作為邊信息 的每個縮放因子帶的縮放因子?;谒邮盏目s放因子,定標器70縮放未縮放的逆量化頻 譜值,以獲得縮放的逆量化頻譜值。然后,F(xiàn)/T濾波器組80將頻域音頻信號的縮放的逆量 化頻譜值從頻移轉(zhuǎn)變到時域,以獲得時域音頻信號的樣本值。
[0052] 圖3示出了根據(jù)現(xiàn)有技術(shù)水平的編碼器,該編碼器與圖1的編碼器的不同之處在 于,圖3的編碼器進一步包括編碼器側(cè)TNS單元(TNS =時域噪聲整形)??刹捎脮r域噪聲整 形以通過相對于音頻信號的部分頻譜數(shù)據(jù)執(zhí)行濾波處理來控制量化噪聲的時域形狀。編碼 器側(cè)TNS單元15相對于要編碼的頻域音頻信號的頻譜系數(shù)執(zhí)行線性預(yù)測編碼(LPC)計算。 尤其地,也稱為PARC0R系數(shù)的反射系數(shù)源自LPC計算。如果也由LPC計算獲得的預(yù)測增益 未超過特定閾值,則不使用時域噪聲整形。然而,如果預(yù)測增益大于閾值,則采用時域噪聲 整形。編碼器側(cè)TNS單元去除小于特定閾值的所有反射系數(shù)(reflection coefficient)。 剩余的反射系數(shù)轉(zhuǎn)換成線性預(yù)測系數(shù),并且用作在編碼器內(nèi)的噪聲整形濾波器系數(shù)。然后, 編碼器側(cè)TNS單元對采用TNS的那些頻譜系數(shù)執(zhí)行濾波操作,以獲得音頻信號的經(jīng)處理的 頻譜系數(shù)。將指示TNS信息的邊信息(例如,反射系數(shù)(PARC0R系數(shù)))發(fā)送給解碼器。
[0053] 圖4示出了根據(jù)現(xiàn)有技術(shù)水平的解碼器,該解碼器與在圖2中示出的解碼器的不 同之處在于,圖4的解碼器進一步包括解碼器側(cè)TNS單元75。解碼器側(cè)TNS單元接收音頻 信號的逆量化的縮放頻譜,并且還接收TNS信息,例如,指示反射系數(shù)(PARC0R系數(shù))的信 息。解碼器側(cè)TNS單元75處理音頻信號的逆量化頻譜,以獲得音頻信號的經(jīng)處理的逆量化 頻譜。
[0054] 圖5示出了根據(jù)本發(fā)明的至少一個實施方式的音頻信號解碼器100的示意性框 圖。音頻信號解碼器被配置為接收編碼音頻信號表示。通常,編碼音頻信號表示伴有邊信 息??衫缫杂筛兄╬erceptual)音頻編碼器產(chǎn)生的數(shù)據(jù)流的形式提供編碼的音頻信號 表示以及邊信息。音頻信號解碼器100進一步被配置為提供解碼音頻信號表示,該表示可 與在圖5中標記為"充分補償?shù)臅r域表示"或者使用后續(xù)處理從其獲得的信號相同。
[0055] 音頻信號解碼器100包括解碼器預(yù)處理級110,其被配置為從編碼音頻信號表示 中獲得多個頻帶信號。例如,在編碼音頻信號表示和邊信息包含在比特流內(nèi)的情況下,解碼 器預(yù)處理級110可包括比特流解包器。根據(jù)編碼音頻信號表示目前攜帶相關(guān)信息(高分辨 率)或不相關(guān)信息(低分辨率或根本沒有數(shù)據(jù))的頻率范圍,一些音頻編碼標準可將時變 分辨率以及不同的分辨率用于多個頻帶信號。這意味著在這個時間間隔內(nèi),與暫時不攜帶 或者僅僅攜帶很少信息的頻帶信號不同,通常使用比較高的分辨率(即,使用較大數(shù)量的 位)來編碼其中編碼音頻信號表示目前具有大量相關(guān)信息的頻帶。對于某些頻帶信號,比 特流甚至可以暫時根本不包含數(shù)據(jù)或比特,這是因為在相應(yīng)的時間間隔內(nèi),這些頻帶信號 不包含任何相關(guān)信息。提供給解碼器預(yù)處理級110的比特流通常包含指示多個頻帶信號中 的哪些頻帶信號包含用于目前考慮的時間間隔或"幀"的數(shù)據(jù)以及相應(yīng)的比特分辨率的信 息(例如,作為邊信息的一部分)。
[0056] 音頻信號解碼器100進一步包括削波估計器120,其被配置為分析關(guān)于編碼音頻 信號表示的頻帶信號的增益的邊信息,以便確定用于編碼音頻信號表示的當前電平位移因 子。一些感知音頻編碼標準將單獨的縮放因子用于多個頻帶信號中的不同頻帶信號。單獨 縮放因子指示每個頻帶信號相對于其他頻帶信號的當前幅度范圍。對于本發(fā)明的某些實施 方式,這些縮放因子的分析允許大概評估在多個頻帶信號從頻域轉(zhuǎn)換成時域之后在相應(yīng)的 時域表示內(nèi)可出現(xiàn)的最大幅度。然后,使用該信息,以便確定在沒有本發(fā)明提出的任何合適 的處理的情況下,在考慮的時間間隔或"幀"的時域表示內(nèi)是否可能發(fā)生削波。削波估計器 120被配置為確定電平位移因子,該電平位移因子將多個頻帶信號中的所有頻帶信號相對 于電平(例如,關(guān)于信號幅度或信號功率)移動相同的量??梢酝ㄟ^單獨的方式,確定每個 時間間隔(幀)的電平位移因子,即,電平位移因子是時間變化的。通常,削波估計器120 將嘗試以在時域表示內(nèi)非常不可能發(fā)生削波但是同時保持頻帶信號的合理的動態(tài)范圍的 方式,通過對于所有頻帶信號為共同的位移因子調(diào)整多個頻帶信號的電平。作為實例,考慮 其中縮放因子的數(shù)值(number)比較高的編碼音頻信號表示的幀?,F(xiàn)在,削波估計器120可 考慮最壞情況,即,在多個頻帶信號內(nèi)的可能信號峰值以建設(shè)性方式重疊或累加,在時域表 示內(nèi)產(chǎn)生大幅度?,F(xiàn)在,電平位移因子可被確定為使在時域表示內(nèi)的這個假定峰值在期望 的動態(tài)范圍內(nèi)的數(shù)值,可能另外考慮邊緣。至少根據(jù)一些實施方式,削波估計器120在考慮 的時間間隔或幀內(nèi)不需要編碼音頻信號表示本身來評估在時域表示內(nèi)發(fā)生削波的概率。原 因在于,至少一個感知音頻編碼標準根據(jù)在特定頻帶信號和考慮的時間間隔內(nèi)要編碼的最 大幅度,選擇多個頻帶信號中的頻帶信號的縮放因子。換言之,考慮編碼方案的性能,在考 慮的時間間隔或幀內(nèi),非??赡馨l(fā)生一次可由為即將到來的頻帶信號選擇的位分辨率表示 的最高值。使用這個假設(shè),削波估計器120可集中評估關(guān)于頻帶信號的增益的邊信息(例 如,所述縮放因子以及可能進一步的參數(shù)),以便確定用于編碼音頻信號表示的當前電平位 移因子以及考慮的時間間隔(幀)。
[0057] 音頻信號解碼器100進一步包括電平位移器130,其被配置為根據(jù)所述電平位移 因子移動頻帶信號的電平,以獲得電平位移的頻帶信號。
[0058] 音頻信號解碼器100進一步包括頻域至?xí)r域轉(zhuǎn)換器140,其被配置為將所述電平 位移的頻帶信號轉(zhuǎn)換成時域表示。僅舉幾例,頻域至?xí)r域轉(zhuǎn)換器140可以是逆濾波器組、逆 改良離散余弦變換(逆MDCT)、逆正交鏡像濾波器(逆QMF)。對于某些音頻編碼標準,頻域 至?xí)r域轉(zhuǎn)換器140可被配置為支持連續(xù)幀(其中,例如,在50%的持續(xù)時間,兩個幀重疊) 的窗口化。...