專利名稱:編碼音頻的節(jié)約式響度測量的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號處理。更具體而言,本發(fā)明涉及低比特率編 碼的音頻的客觀響度測量的節(jié)約式計(jì)算,低比特率編碼的音頻是比如
<吏用Dolby Digital (AC-3)、 Dolby Digital Plus、或Dolby E編碼的音頻。 "Dolby" 、 "Dolby Digital" 、 "Dolby Digital Plus,,和"Dolby E,,是Dolby 實(shí)驗(yàn)室特許公司的商標(biāo)。本發(fā)明的各方面也可適用于其它類型的音頻 編碼。
背景技術(shù):
Dolby Digital編碼的細(xì)節(jié)在以下參考文獻(xiàn)中有記栽
ATSC Standard A52/A: Digital Audio Compression Standard (AC-3), Revision A, Advanced Television Systems Committee, 20 Aug. 2001 。 該A/52A文檔可通過萬維網(wǎng)在http:〃www.atsc.org/ standards.html獲得;
Craig C. Todd等人的"Flexible Perceptual Coding for Audio Transmission and Storage", 96 Convention of the Audio Engineering Society, 1994年2月26日,預(yù)印本3796;
Steve Vernon的"Design and Implementation of AC-3 Coders", IEEE Trans. Consumer Electronics, Vol. 41, No.3, 1995年8月;
Mark Davis的"The AC-3 Multichannel Coder', , Audio Engineering Society預(yù)印本3774, 95th AES Convention, 1993年10月;
Bosi等人的"High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications", Audio Engineering Society預(yù)印本3365, 93rd AES Convention, 1992年10月;
美國專利5583962、 5632005、 5633981 、 5727119、 5909664和
6021386。
Dolby Digital Plus編碼的細(xì)節(jié)在以下文獻(xiàn)中記載"Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System", AES Convention Paper 6196, 117th AES Convention, 2004 年10月28日。
Dolby E編碼的細(xì)節(jié)在以下文獻(xiàn)中記載"Efficient Bit Allocation, Quantization, and Coding in an Audio Distribution System", AES預(yù)印 本5068, 107th AES Conference, 1999年8月;和"Professional Audio Coder Optimized for Use with Video", AES預(yù)印本5033, 107th AES Conference, 1999年8月。
包括Dolby編碼器、MPEG編碼器等的各種感知編碼器的綜述在 以下文獻(xiàn)中記載Karlheinz Brandenburg和Marina Bosi的"Overview
of MPEG Audio: Current and Future Standards for Low-Bit-Rate Audio Coding", J. Audio Eng. Soc., Vol.45, No.l/2, 1997年1月/2月。 通過參考的形式將所有以上引用的參考文獻(xiàn)整體包括在此。 已有多種方法用來客觀地測量音頻信號的感知響度。方法的實(shí)例 包括加權(quán)功率測量(比如LeqA、 LeqB、 LeqC )和基于心理聲學(xué)的響 度測量,比如"聲學(xué)一計(jì)算響度級的方法",ISO 532 ( 1975 )。加權(quán)功 率響度測量通過應(yīng)用預(yù)定的濾波器并且然后在預(yù)定的時間長度上對經(jīng) 過濾波的信號的功率進(jìn)行平均來處理輸入音頻信號,該預(yù)定的濾波器 加強(qiáng)感覺上較敏感的頻率而削弱感覺上較不敏感的頻率。心理聲學(xué)方 法通常更復(fù)雜并且致力于更好模擬人耳的工作。這是通過將音頻信號 劃分為模仿耳朵的頻率響應(yīng)和敏感度的頻帶,并且然后在考慮比如頻 率和時間掩蔽的心理聲學(xué)現(xiàn)象以及具有變化信號強(qiáng)度的響度的非線性 感知的同時操縱并整合這些頻帶來實(shí)現(xiàn)的。所有這些客觀響度測量方 法的目的是得到嚴(yán)密匹配音頻信號響度的主觀感知的響度數(shù)值量度。
感知編碼或低比特率音頻編碼通常用于數(shù)據(jù)壓縮音頻信號以在 比如廣播數(shù)字電視和在線因特網(wǎng)販賣音樂的應(yīng)用中高效存儲、發(fā)送和 傳輸。感知編碼通過將音頻信號變換到可以輕易丟棄冗余和在心理聲
學(xué)上被掩蔽的信號分量的信息空間來實(shí)現(xiàn)其效率。剩余信息被打包到 數(shù)字信息的流或文件中。典型地,測量由低比特率編碼的音頻表示的
音頻的響度需要將該音頻解碼回時域(例如PCM),這會計(jì)算量很大。 然而, 一些低比特率感知編碼的信號包含可能對于響度測量方法有用 的信息,從而節(jié)省完全解碼該音頻的計(jì)算成本。Dolby Digital( AC-3)、 Dolby Digital Plus和Dolby E屬于這種音頻編碼系統(tǒng)。
Dolby Digital、 Dolby Digital Plus和Dolby E低比特率感知音頻編 碼器將音頻信號劃分為變換成頻域表示的重疊的加窗時間段(或音頻
編碼塊)。譜系數(shù)的頻域表示由包括指數(shù)和相關(guān)尾數(shù)的集合的指數(shù)記 數(shù)法表達(dá)。以標(biāo)度因子方式起作用的指數(shù)被打包進(jìn)編碼的音頻流。尾 數(shù)代表被指數(shù)規(guī)格化之后的譜系數(shù)。指數(shù)然后穿過聽覺的感知模型并 且用于量化尾數(shù)并將尾數(shù)打包進(jìn)編碼的音頻流。解碼時,指數(shù)被從編 碼的音頻流中拆包并且然后穿過相同的感知模型以確定如何拆包尾 數(shù)。然后尾數(shù)被拆包,與指數(shù)組合在一起以建立該音頻的頻域表示, 然后將該頻域表示解碼并轉(zhuǎn)換回時域表示。
發(fā)明內(nèi)容
因?yàn)楹芏囗懚葴y量包括功率和功率譜計(jì)算,所以可以通過僅部分 解碼低比特率編碼的音頻和將部分解碼的信息(比如功率鐠)傳遞給 響度測量來實(shí)現(xiàn)節(jié)省計(jì)算量。只要存在測量響度但不解碼音頻的需要, 本發(fā)明就是有用的。利用了這樣的事實(shí),即響度測量可以利用音頻的 近似版本,這種近似通常不適合收聽。本發(fā)明的一方面是認(rèn)識到,在
很多音頻編碼系統(tǒng)中不完全解碼比特流就可獲得的音頻的粗略表示可 以提供可用于測量音頻響度的音頻i普的近似。在Dolby Digital、 Dolby Digital Plus和DolbyE音頻編碼中,指數(shù)提供音頻的功率^普的近似。類 似地,在某些其它編碼系統(tǒng)中,標(biāo)度因子、鐠包絡(luò)和線性預(yù)測系數(shù)可 以提供音頻的功率語的近似。本發(fā)明的這些和其它方面以及優(yōu)點(diǎn)將隨 著閱讀和理解以下對本發(fā)明的概述和描述而得到更好理解。
本發(fā)明提供一種低比特率編碼音頻的感知響度的節(jié)省計(jì)算量的 測量。這是通過僅部分解碼音頻素材并且將部分解碼的信息傳遞給響 度測量來實(shí)現(xiàn)的。該方法利用了部分解碼的音頻信息的特定屬性,比如Dolby Digital、 Dolby Digital Plus和Dolby E音頻編碼中的指數(shù)。本發(fā)明的第一方面通過不完全解碼音頻而從比特流得出該音頻 的功率鐠的近似,并且響應(yīng)于該音頻的功率譜的近似而確定該音頻的 近似響度,來測量以比特流編碼的音頻的響度,該比特流包括這樣的 數(shù)據(jù),可以不完全解碼音頻就從該數(shù)據(jù)得出該音頻的功率鐠的近似。在本發(fā)明的另一方面中,該數(shù)據(jù)可以包括音頻的粗略表示和音頻 的相關(guān)更精細(xì)表示,在這種情況中音頻的功率語的近似可以從該音頻 的粗略表示中得出。在本發(fā)明的另一方面中,以比特流編碼的音頻可以是具有多個頻 率子帶的子帶編碼音頻,每個子帶具有標(biāo)度因子和與其相關(guān)的采樣數(shù) 據(jù),并且其中音頻的粗略表示包括標(biāo)度因子,并且音頻的相關(guān)更精細(xì) 表示包括與每個標(biāo)度因子相關(guān)的釆樣數(shù)據(jù)。在本發(fā)明的另一方面中,通過指數(shù)記數(shù)法,每個子帶的標(biāo)度因子 和采樣數(shù)據(jù)可以表示該子帶中的語系數(shù),其中,標(biāo)度因子包括指數(shù)并 且相關(guān)釆樣數(shù)據(jù)包括尾數(shù)。在本發(fā)明的另一方面中,以比特流編碼的音頻可以是線性預(yù)測編 碼音頻,其中該音頻的粗略表示包括線性預(yù)測系數(shù)并且該音頻的更精 細(xì)表示包括與線性預(yù)測系數(shù)相關(guān)的激勵信息。在本發(fā)明的另一方面中,音頻的粗略表示可以包括至少一個譜包 絡(luò),并且音頻的更精細(xì)表示可以包括與該至少一個譜包絡(luò)相關(guān)的鐠分在本發(fā)明的另一方面中,響應(yīng)于音頻的功率譜的近似而確定音頻 的近似響度的步驟可包括應(yīng)用加權(quán)功率響度測量。加權(quán)功率響度測量 可使用削弱較不易感知的頻率的濾波器并且對經(jīng)過濾波的音頻的功率 在時間上進(jìn)行平均。在本發(fā)明的另一方面中,響應(yīng)于音頻的功率譜的近似而確定音頻 的近似響度的步驟可包括應(yīng)用心理聲學(xué)響度測量。心理聲學(xué)響度測量
可以使用人耳模型來確定類似于人耳的臨界頻帶的多個頻帶中每一個 中的單位響度。在子帶編碼器環(huán)境中,子帶可以類似于人耳的臨界頻 帶并且心理聲學(xué)響度測量可以使用人耳模型來確定每個子帶中的單位 響度。本發(fā)明的多個方面包括實(shí)現(xiàn)上述功能的方法、實(shí)現(xiàn)上述功能的手 段、實(shí)現(xiàn)上述方法的裝置、和存儲在計(jì)算機(jī)可讀介質(zhì)上用于使計(jì)算機(jī) 執(zhí)行實(shí)現(xiàn)上述功能的方法的計(jì)算機(jī)程序。
圖l示出用于測量低比特率編碼的音頻的響度的一般配置的示意 性功能框圖。圖2示出Dolby Digital、 Dolby Digital Plus和Dolby E解碼器的一 般示意性功能框圖。圖3a和3b示出用于分別使用加權(quán)功率測量和基于心理聲學(xué)的測 量來計(jì)算客觀響度測量的兩個一般配置的示意性功能框圖。圖4示出當(dāng)根據(jù)圖3a的實(shí)例的配置測量響度時使用的普通頻率加權(quán)。圖5是示出根據(jù)本發(fā)明多個方面的用于測量編碼音頻的響度的更 節(jié)約的一般配置的示意性功能框圖。圖6a和6b是根據(jù)本發(fā)明多個方面的包括了圖3a和3b的實(shí)例中示 出的響度配置的用于測量響度的更節(jié)約配置的示意性功能框圖。
具體實(shí)施方式
本發(fā)明多個方面的好處是低比特率編碼的音頻的響度的測量不 需要將該音頻完全解碼到PCM,該解碼包括昂貴的解碼處理步驟,比 如比特分配、去量化、逆變換等。本發(fā)明的多個方面大大降低了處理 要求(計(jì)算開銷)。當(dāng)需要進(jìn)行響度測量但不需要解碼的音頻時此途 徑是有益的。本發(fā)明的多個方面可用在,例如,比如下列公開的環(huán)境中(1)2004年7月1日提交的Smithers等人的題為"Method for CorrectingMetadata Affecting the Playback Loudness and Dynamic Range of Audio Information,,的未決美國非臨時專利申請S.N,10/884177; ( 2 ) 與本申請同日提交、律師巻號為DOL150的Brett Graham Crockett的 題為"Audio Metadata Verification"的美國臨時專利申請 S.N.60/xxx,xxx;和(3)在不需要也不希望訪問解碼的音頻的廣播存 儲或傳輸鏈中響度測量和校正的執(zhí)行。所述S.N. 10/884177和所述律師 巻號為DOL150的申請通過參考的形式而整體被包括在此。本發(fā)明的多個方面提供的處理的節(jié)約也有助于使得可以對大量 低比特率數(shù)據(jù)壓縮的音頻信號進(jìn)行實(shí)時響度測量和元數(shù)據(jù)校正(例如, 將DIALNORM參數(shù)改為正確值)。通常,許多低比特率編碼的音頻信 號被復(fù)用并且在MPEG傳輸流中被傳輸。根據(jù)本發(fā)明的多個方面的響 度測量使得對大量壓縮音頻信號進(jìn)行的實(shí)時響度測量比起完全解碼壓 縮音頻信號到PCM以執(zhí)行響度測量的要求可行得多。圖l示出用于測量編碼音頻響度的現(xiàn)有技術(shù)配置。編碼的數(shù)字音 頻數(shù)據(jù)或信息101,比如經(jīng)過低比特率編碼的音頻,由解碼器或解碼功 能("解碼,,)102解碼為例如PCM音頻信號103。此信號然后施加到產(chǎn) 生測量出的響度值105的響度測量器或測量方法或算法("測量響度") 104。圖2示出解碼102的實(shí)例的現(xiàn)有技術(shù)的結(jié)構(gòu)或功能框圖。所示結(jié)構(gòu) 或功能代表Dolby Digital、 Dolby Digital Plus和Dolby E解碼器。編碼 音頻數(shù)據(jù)101的幀應(yīng)用于數(shù)據(jù)拆包器或拆包功能("幀同步,檢錯和幀 去格式化")202,其將所應(yīng)用的數(shù)據(jù)拆包為指數(shù)數(shù)據(jù)203、尾數(shù)數(shù)據(jù)204 和其它雜項(xiàng)比特分配信息207。指數(shù)數(shù)據(jù)203被設(shè)備或功能("對數(shù)功率 鐠")205轉(zhuǎn)換為對數(shù)功率i脊206,并且比特分配器或比特分配功能("比 特分配,,)208使用此對數(shù)功率鐠計(jì)算信號209,信號209是每個量化尾 數(shù)的以比特計(jì)的長度。然后,尾數(shù)被設(shè)備或功能("去量化尾數(shù)")210 去量化并且與指數(shù)組合,并且由逆濾波器組設(shè)備或功能("逆濾波器 組,,)212轉(zhuǎn)換回時域。逆濾波器組212也重疊并且累加當(dāng)前逆濾波器組
結(jié)果的一部分和前一逆濾波器組結(jié)果(按時間)以建立解碼的音頻信號103。在實(shí)際的解碼器實(shí)現(xiàn)中,比特分配、去量化尾數(shù)和逆濾波器組 設(shè)備或功能需要大量計(jì)算資源。解碼過程的更多細(xì)節(jié)可以在上面所引 用的文獻(xiàn)中找到。圖3a和3b示出用于客觀地測量音頻信號的響度的現(xiàn)有技術(shù)的配 置。這些代表測量響度104 (圖l)的變型。盡管圖3a和3b分別示出兩 種一般種類的客觀響度測量技術(shù)的實(shí)例,對本發(fā)明來說特定的客觀測 量技術(shù)的選擇不是關(guān)鍵性的,并且也可以使用其它客觀響度測量技術(shù)。圖3a示出普遍用于響度測量的加權(quán)功率測量配置的實(shí)例。音頻信 號103通過被設(shè)計(jì)成加強(qiáng)感覺上較敏感的頻率而削弱感覺上較不敏感 的頻率的加權(quán)濾波器或加權(quán)濾波功能("加權(quán)濾波器")302。經(jīng)濾波的 信號303的功率305由設(shè)備或功能("功率,,)304計(jì)算并且由設(shè)備或功能 ("平均")306在規(guī)定的時間段上進(jìn)行平均以建立響度值105。存在多 個不同的標(biāo)準(zhǔn)加權(quán)濾波特性并且圖4中示出 一些普遍實(shí)例。在實(shí)際中, 經(jīng)常使用圖3a配置的修改版,這些修改例如防止靜音時間段包括在平 均中。經(jīng)常使用基于心理聲學(xué)的技術(shù)來測量響度。圖3b示出這種基于心 理聲學(xué)的配置的典型現(xiàn)有技術(shù)配置。音頻信號103由代表外耳和中耳的 頻率變化幅度響應(yīng)的傳輸濾波器或傳輸濾波功能("傳輸濾波器")312 濾波。經(jīng)過濾波的信號313然后由聽覺濾波器組或聽覺濾波器組功能("聽覺濾波器組")314分成等于或窄于聽覺臨界頻帶的多個頻帶。這 可以通過執(zhí)行快速傅立葉變換(FFT)(例如由離散頻率變換(DFT) 實(shí)現(xiàn))并且然后將線性間隔的頻帶組合成近似于人耳的臨界頻帶(如 同以ERB或Bark標(biāo)度)的頻帶來完成?;蛘?,這可以通過用于每個ERB 或Bark頻帶的單個帶通濾波器來完成。每個頻帶然后由設(shè)備或功能("激勵,,)316轉(zhuǎn)換為代表在該頻帶內(nèi)人耳經(jīng)歷的刺激或激勵的量的激 勵信號317。然后由設(shè)備或功能("單位響度")318從該激勵計(jì)算每個 頻帶的所感知的響度或單位響度,并且跨所有頻帶的單位響度被累加 器或累加功能("累加")320累加以建立響度的單個測量105。累加過
程可以考慮各種感知效果,例如頻率掩蔽。在這些感知方法的實(shí)際實(shí) 現(xiàn)中,傳輸濾波器和聽覺濾波器組需要大量計(jì)算資源。圖5示出本發(fā)明一個方面的框圖。編碼的數(shù)字音頻信號101由設(shè)備 或功能("部分解碼")502部分解碼,并且由設(shè)備或功能("測量響度") 504從部分解碼的信息503測量響度。依據(jù)如何執(zhí)行部分解碼,響度測 量結(jié)果505可以非常相似于從完全解碼的音頻信號103 (圖l)計(jì)算出的 響度測量105,但不完全相同。在本發(fā)明多個方面的Dolby Digital、 Dolby Digital Plus和Dolby E實(shí)現(xiàn)的意義上,部分解碼可以包括從比如 圖2的實(shí)例的解碼器省略比特分配、去量化尾數(shù)和逆濾波器組設(shè)備或功 能。圖6a和6b示出圖5的一般配置的兩個實(shí)現(xiàn)實(shí)例。盡管二者都可以 采用相同的部分解碼502功能或設(shè)備,但每個可以具有不同的測量響度 504功能或設(shè)備一圖6a中實(shí)例類似于圖3a的實(shí)例,而圖6b中的實(shí)例類似 于圖3b實(shí)例。在兩個實(shí)例中,部分解碼502從編碼音頻流中僅提取指數(shù) 203并且將指數(shù)轉(zhuǎn)換為功率鐠206。這種提取可以由如圖2實(shí)例中的設(shè)備 或功能("幀同步,檢錯和幀去格式化")202來執(zhí)行,這種轉(zhuǎn)換可以由 如圖2實(shí)例中的設(shè)備或功能("對數(shù)功率i普")205來執(zhí)行。不要求如圖2 的解碼實(shí)例中所示的那樣用于完全解碼所要求的去量化尾數(shù)、執(zhí)行比 特分配和執(zhí)行逆濾波器組。圖6a的實(shí)例包括測量響度504,其可以是圖3a的響度測量器或響 度測量功能的修改版。在此實(shí)例中,修改的加權(quán)濾波由加權(quán)濾波器或 加權(quán)濾波功能("修改的加權(quán)濾波器,,)601通過增加或降低每個頻帶中 的功率值而作用于頻域。與此對比,圖3a實(shí)例在時域中進(jìn)行加權(quán)濾波。 盡管在頻域中工作,修改的加權(quán)濾波卻以與圖3a的時域加權(quán)濾波相同 的方式作用于音頻。濾波601對于圖3a的濾波302的修改在于,它工作 于對數(shù)幅度值而不是線性值,而且它工作于非線性而不是線性頻率刻 度。然后,頻率加權(quán)功率譜602由應(yīng)用例如后面的式5的設(shè)備或功能("轉(zhuǎn) 換、累加并平均,,)603轉(zhuǎn)換為線性功率并且在頻率上被累加并在時間 上被平均。輸出是客觀響度值505。
圖6b的實(shí)例包括測量響度504,其可以是圖3b的響度測量器或響 度測量功能的修改版。在此實(shí)例中,修改的傳輸濾波器或傳輸濾波功 能("修改的傳輸濾波器,,)611通過增加或降低每個頻帶中的對數(shù)功率 值而直接在頻域中應(yīng)用。與此對比,圖3b實(shí)例在時域中應(yīng)用加權(quán)濾波。 盡管在頻域中工作,修改的傳輸濾波卻以與圖3b的時域傳輸濾波相同 的方式作用于音頻。修改的聽覺濾波器組或聽覺濾波器組功能("修改 的聽覺濾波器組")613作為輸入接收線性頻帶間隔的對數(shù)功率譜并且 將這些線性間隔的頻帶分成或組合成臨界頻帶間隔的(例如,ERB或 Bark頻帶)濾波器組輸出315。修改的聽覺濾波器組613也將對數(shù)域功 率信號轉(zhuǎn)換為線性信號用于后續(xù)的激勵設(shè)備或功能("激勵")316。修 改的聽覺濾波器組613對于圖3b的聽覺濾波器組314的"修改"在于,它 工作于對數(shù)幅度值而不是線性值,并且將這種對數(shù)幅度值轉(zhuǎn)換為線性 值。或者,可以在修改的聽覺濾波器組613而不是修改的傳輸濾波器組 611中執(zhí)行將頻帶組成ERB或Bark頻帶。圖6b的實(shí)例也包括每個頻帶 的單位響度318和累加320,如圖3b中的實(shí)例。對于圖6a和6b中所示的配置,因?yàn)榻獯a不需要比特分配、尾數(shù)去 量化和逆濾波器組,所以實(shí)現(xiàn)了顯著的計(jì)算量節(jié)省。但是,對于圖6a 和圖6b的配置二者來說,客觀響度測量結(jié)果可能不會與從完全解碼的 音頻計(jì)算的測量值完全相同。這是因?yàn)橐恍┮纛l信息被丟棄并且因此 用于測量的音頻信息不完整。當(dāng)本發(fā)明的多個方面用于Dolby Digital 、 Dolby Digital Plus和Dolby E時,尾數(shù)信息被丟棄并且僅保留粗略量化 的指數(shù)值。對于DolbyDigital和Dolby Digital Plus,這些值被量化到6 dB的增量,而對于DolbyE,這些值被量化到3 dB的增量。Dolby E中 較小的量化步長導(dǎo)致更精細(xì)量化的指數(shù)值,并且因而,導(dǎo)致更精確估 計(jì)功率鐠。感知編碼器經(jīng)常被設(shè)計(jì)成結(jié)合音頻信號的某些特性更改也稱為 塊尺寸的重疊時間段的長度。例如Dolby Digital使用兩種塊尺寸一主 要用于平穩(wěn)音頻信號的512個樣本的較長塊和用于較瞬變音頻信號的 256個樣本的較短塊。結(jié)果是,頻帶數(shù)目和對數(shù)功率鐠值206的相應(yīng)數(shù)目逐塊變化。當(dāng)塊尺寸是512個樣本時,有256個頻帶,而當(dāng)塊尺寸是 256個樣本時,有128個頻帶。圖6a和6b中提出的方法有多種方式可以處理變化的塊尺寸,并且 每種方式都導(dǎo)致相似的響度測量結(jié)果。例如,對數(shù)功率鐠205可以修改 成通過組合或平均多個較小塊到較大塊中以及將較小數(shù)目的頻帶的功 率擴(kuò)展到較大數(shù)目頻帶而永遠(yuǎn)以恒定塊速率輸出恒定數(shù)量的頻帶?;?者,測量響度可以接受變化的塊尺寸并且根據(jù)它們的濾波、激勵、單 位響度、平均和累加過程調(diào)整,例如,通過調(diào)整時間常數(shù)進(jìn)行。加權(quán)功率測量實(shí)例作為本發(fā)明多方面的一個實(shí)例,加權(quán)功率響度測量方法的一個高 度節(jié)約的版本可以使用Dolby Digital比特流和加權(quán)功率響度測量 LeqA。在此高度節(jié)約的實(shí)例中,僅Dolby Digital比特流中包含的量化 的指數(shù)被用作音頻信號譜的估計(jì)以進(jìn)行響度測量。這避免了進(jìn)行比特 分配以重建尾數(shù)信息的額外計(jì)算要求,否則重建尾數(shù)信息僅提供稍微 更精確一點(diǎn)的信號譜估計(jì)。如圖5和6a中的實(shí)例所示,Dolby Digital比特流被部分解碼以重建 和提取從比特流中包含的量化的指數(shù)數(shù)據(jù)計(jì)算的對數(shù)功率i普。Dolby Digital通過開窗512個連續(xù)的、50 %重疊的PCM音頻樣本和進(jìn)行 MDCT變換,得到用于建立低比特率編碼的音頻流的256個MDCT系數(shù) 來進(jìn)行低比特率音頻編碼。圖5和6a中進(jìn)行的部分解碼拆包指數(shù)數(shù)據(jù) E(k)并且將拆包的數(shù)據(jù)轉(zhuǎn)換為256個量化的對數(shù)功率語值P(k),其形成 音頻信號的粗略的譜表示。對數(shù)功率鐠值P(k)以dB為單位。該轉(zhuǎn)換如 下<formula>formula see original document page 15</formula>其中N-256,是Dolby Digital比特流中每個塊的變換系數(shù)的個數(shù)。為 了在響度的加權(quán)功率測量的計(jì)算中使用對數(shù)功率讒,使用適當(dāng)?shù)捻懚?曲線,比如圖4中所示的A、 B或C加權(quán)曲線,加權(quán)對數(shù)功率譜。在這種 情況下,計(jì)算LeqA功率測量并且因此A加權(quán)曲線是適合的。通過與離 散的A加權(quán)頻率值A(chǔ)w(k)相加來加權(quán)對數(shù)功率鐠值P(k), Aw(k)也以dBPw(k)=P(k)+ Aw(k) 0^k<N (2)離散的A加權(quán)頻率值A(chǔ)w(k)通過計(jì)算離散頻率fdiscrete的A加權(quán)增益 值來建立,其中/一f +尸" 0£k<N (3)其中,尸=丄 0^k<N (4)并且其中釆樣頻率Fs對于Dolby Digital典型地等于48kHz。然后每組加 權(quán)對數(shù)功率譜值Pw(k)被從dB轉(zhuǎn)換到線性功率并且被累加以建立512 個PCM音頻樣本的A加權(quán)功率估計(jì)Ppow,如下尸層=^10(響。) (5)如前所述,每個Dolby Digital比特流包含通過開窗具有50。/。重疊 的512個PCM樣本并且進(jìn)行MDCT變換來建立的連續(xù)的變換。因此, Dolby Digital比特流中低比特率編碼的音頻的總的A加權(quán)功率PTOT的 近似可以通過在Dolby Digital比特流中的所有變換上平均功率值來計(jì) 算,如下MS其中M等于Dolby Digital比特流中包含的變換總數(shù)。然后,平均功率 被轉(zhuǎn)換為以dB為單位,如下=io.iogl。(/v)-c (7)其中C是在Dolby Digital比特流的編碼期間在變換過程中執(zhí)行的電平改變而造成的恒定偏置。 心理聲學(xué)測量實(shí)例如本發(fā)明多個方面的另一實(shí)例,加權(quán)功率響度測量方法的高度節(jié) 約版本可以使用Dolby Digital比特流和心理聲學(xué)響度測量。在此高度 節(jié)約的實(shí)例中,如前所述,僅Dolby Digital比特流中包含的量化的指 數(shù)被用作音頻信號譜的估計(jì)以進(jìn)行響度測量。如另一實(shí)例中,這避免 了進(jìn)行比特分配以重建尾數(shù)信息的額外計(jì)算要求,否則重建尾數(shù)信息 僅提供稍微更精確 一點(diǎn)的信號譜估計(jì)。2004年5月27日提交、2004年12月23日作為WO 2004/111994 A2 公開、Seefeldt等人的國際專利申請No. PCT/US2004/016964 (該申請 指定美國)特別公開了根據(jù)心理聲學(xué)模型客觀測量所感知的響度。所 述申請因此通過參考而整體包括在此。從Dolby Digital比特流的部分 解碼得出的對數(shù)功率譜值P(k)可用于比如所述國際申請中的技術(shù),以 及其它類似的心理聲學(xué)測量的輸入,而不是原始PCM音頻。這種配置 在圖6b的實(shí)例中示出。借鑒所迷PCT申請中的術(shù)語和符號,在臨界頻 帶b處近似于沿耳底膜的能量分布的激勵信號E(b)可以由如下的對數(shù) 功率^普值近似'恭'雙wv觀干"/義7TJ^nb、 位置處耳底膜的頻率響應(yīng),兩個響應(yīng)都在相應(yīng)于變換庫k的頻率處采 樣。接下來,相應(yīng)于Dolby Digital比特流中所有變換的激勵被平均以產(chǎn)生總激勵:(9)使用等響度曲線,每個頻帶處的總激勵變換為在lkHz處產(chǎn)生相同 響度的激勵水平。單位響度,即跨頻率分布的感知響度的測量,然后 由變換的激勵UW計(jì)算,通過壓縮非線性一l其中TQ仏Hz是在lkHz處靜音的閾值,并且常數(shù)G和a選擇成匹配從描述 響度增長的心理聲學(xué)實(shí)驗(yàn)生成的數(shù)據(jù)。最終,以宋(sone)為單位表 示的總響度L通過累加跨頻帶的單位響度來計(jì)算£ = Z, (11)出于調(diào)整音頻信號的目的,可能希望計(jì)算匹配增益GMatch,當(dāng)它 乘以音頻信號時使得所調(diào)整的音頻的響度等于某參考響度LREF,如所 述心理聲學(xué)技術(shù)所測量的。因?yàn)樾睦砺晫W(xué)測量在單位響度的計(jì)算中涉 及非線性,所以GMateh的閉合形式解不存在。而是,可以采用所述PCT 申請中描述的交互技術(shù),其中調(diào)整匹配增益的平方并且將其乘以總激 勵^(6),直到相應(yīng)的總響度L在相對于參考響度L肌F的一個閾值差內(nèi)。音頻的響度然后可以相對于參考值以dB表示為4ffl =201ogl0(12)其它感知音頻編解碼器本發(fā)明的多個方面不限于Dolby Digital, Dolby Digital Plus和 Dolby E編碼系統(tǒng)。使用某些其它編碼系統(tǒng)編碼的音頻信號也可受益于 本發(fā)明的多個方面,在這些其它編碼系統(tǒng)中,通過例如不完全解碼比 特流以產(chǎn)生音頻而可從編碼的比特流中恢復(fù)的標(biāo)度因子、語包絡(luò)和線 性預(yù)測系數(shù)提供音頻的功率鐠的近似。根據(jù)Dolby Digital指數(shù)計(jì)算功率中的誤差Dolby Digital指數(shù)E(k)代表MDCT鐠系數(shù)的對數(shù)的粗略量化。當(dāng) 使用這些值作為粗略功率鐠時存在多個誤差源。首先,在Dolby Digital中,當(dāng)將從指數(shù)產(chǎn)生的功率譜的值(參見 上述式l )和直接從MDCT系數(shù)計(jì)算的功率值相比較時,量化過程本身 導(dǎo)致大約2.7dB的平均誤差。根據(jù)實(shí)驗(yàn)確定的此平均誤差可以合并到上 式7中的恒定偏置C中。其次,在某些信號條件下,比如瞬變,跨頻率而分組指數(shù)值(參 見上面所引用的A/52A文檔中的"D25"和"D45"模式)。這種跨頻率分 組使得平均指數(shù)誤差較不可預(yù)測,并且因此更難以通過合并到式7的常 數(shù)C中而解決。實(shí)際上,由于這種分組而產(chǎn)生的誤差由于以下兩個原 因而可以被忽略(1)很少使用分組,和(2)使用分組的信號的本 質(zhì)導(dǎo)致測量的平均誤差類似于非平均的情況。實(shí)現(xiàn)本發(fā)明可以以硬件或軟件,或二者的組合(例如,可編程邏輯陣 列)來實(shí)現(xiàn)。除非指定,作為本發(fā)明一部分而包括的算法和過程不是 固有地針對任何特定計(jì)算機(jī)或其它設(shè)備。特別地,可以使用具有根據(jù)
此處教導(dǎo)而編寫的程序的各種通用機(jī)器,或者構(gòu)造更專用的設(shè)備(例 如集成電路)以執(zhí)行所需方法步驟會更方便。因此,本發(fā)明可以在一 個或多個可編程計(jì)算機(jī)系統(tǒng)上運(yùn)行的一個或多個計(jì)算機(jī)程序中實(shí)現(xiàn), 其中每個這樣的計(jì)算機(jī)系統(tǒng)包括至少一個處理器、至少一個數(shù)據(jù)存儲 系統(tǒng)(包括易失性和非易失性存儲器和/或存儲元件)、至少一個輸入 設(shè)備或端口,以及至少一個輸出設(shè)備或端口。應(yīng)用程序代碼輸入數(shù)據(jù) 來執(zhí)行在此所描述的功能并且產(chǎn)生輸出信息。輸出信息以已知方式應(yīng) 用到一個或多個輸出設(shè)備。每個這種程序可以以任何所需的計(jì)算機(jī)語言實(shí)現(xiàn)(包括機(jī)器、匯 編、或高級過程、邏輯或面向?qū)ο蟮木幊陶Z言)以與計(jì)算機(jī)系統(tǒng)通信。 在任何情況中,該語言可以是編譯過或解釋過的語言。應(yīng)意識到,示例圖中所示的一些步驟或功能執(zhí)行多個子步驟并且 也可以作為多個步驟或功能而不是一個步驟或功能而示出。也應(yīng)意識 到,在此處的各個實(shí)例中示出和描述的各種設(shè)備、功能、步驟和過程 可以組合或分別示出而不是如同在各幅圖中所示的那樣。例如,當(dāng)由 計(jì)算機(jī)軟件指令序列實(shí)現(xiàn)時,示例圖的各種功能和步驟可以由運(yùn)行在 適當(dāng)?shù)臄?shù)字信號處理硬件中的多線程軟件指令序列實(shí)現(xiàn),在這種情況 中,圖中所示實(shí)例中的各種設(shè)備和功能可以相應(yīng)于軟件指令的多個部 分。每個這種計(jì)算機(jī)程序最好存儲在或者下載到通用或?qū)S每删幊?計(jì)算機(jī)可讀的存儲介質(zhì)或設(shè)備(例如,固態(tài)存儲器或介質(zhì)、或磁或光 介質(zhì))上,以便在計(jì)算機(jī)系統(tǒng)讀取存儲介質(zhì)或設(shè)備以執(zhí)行在此所描述 的過程時配置和運(yùn)行計(jì)算機(jī)。也可以認(rèn)為本發(fā)明系統(tǒng)作為以計(jì)算機(jī)程 序配置的計(jì)算機(jī)可讀存儲介質(zhì)而實(shí)現(xiàn),其中這樣配置的存儲介質(zhì)使得 計(jì)算機(jī)系統(tǒng)以特定的和預(yù)定的方式工作,以執(zhí)行在此所描述的功能。已經(jīng)描述了本發(fā)明的多個實(shí)施例。盡管如此,應(yīng)理解,可以不脫 離本發(fā)明的精神和范圍而做出各種修改。例如,在此所描述的一些步 驟可以與順序無關(guān),并且因此可以以不同于所述的順序執(zhí)行。
權(quán)利要求
1.一種用于測量以比特流編碼的音頻的響度的方法,該比特流包括數(shù)據(jù),從該數(shù)據(jù)能夠得出該音頻的功率譜的近似而不完全解碼該音頻,所述方法包括從所述比特流得出音頻的功率譜的所述近似而不完全解碼該音頻,以及響應(yīng)于該音頻的功率譜的近似而確定該音頻的近似響度。
2. 如權(quán)利要求l所述的方法,其中,所述數(shù)據(jù)包括音頻的粗略 表示和音頻的相關(guān)更精細(xì)表示,并且其中,從音頻的粗略表示得出音 頻的功率鐠的所述近似。
3. 如權(quán)利要求2所述的方法,其中,以比特流編碼的音頻是具 有多個頻率子帶的子帶編碼音頻,每個子帶具有標(biāo)度因子和與其相關(guān) 的釆樣數(shù)據(jù),并且其中,所述音頻的粗略表示包括標(biāo)度因子,并且所 述音頻的相關(guān)更精細(xì)表示包括與每個標(biāo)度因子相關(guān)的采樣數(shù)據(jù)。
4. 如權(quán)利要求3所述的方法,其中,通過指數(shù)記數(shù)法,每個子 帶的標(biāo)度因子和采樣數(shù)據(jù)表示該子帶中的譜系數(shù),在該指數(shù)記數(shù)法中, 標(biāo)度因子包括指數(shù)并且相關(guān)的采樣數(shù)據(jù)包括尾數(shù)。
5. 如權(quán)利要求l-4中任何一項(xiàng)所述的方法,其中,所述比特流 是AC-3編碼的比特流。
6. 如權(quán)利要求2所述的方法,其中,以比特流編碼的音頻是線 性預(yù)測編碼音頻,其中該音頻的粗略表示包括線性預(yù)測系數(shù)并且該音 頻的更精細(xì)表示包括與線性預(yù)測系數(shù)相關(guān)的激勵信息。
7. 如權(quán)利要求2所述的方法,其中,音頻的粗略表示包括至少 一個語包絡(luò),并且音頻的更精細(xì)表示包括與該至少一個鐠包絡(luò)相關(guān)的 譜分量。
8. 如權(quán)利要求1-7中任何一項(xiàng)所述的方法,其中,響應(yīng)于音頻 的功率語的近似而確定音頻的近似響度包括應(yīng)用加權(quán)功率響度測量。
9. 如權(quán)利要求8所述的方法,其中,加權(quán)功率響度測量使用削 弱較不易感知的頻率的濾波器并且對經(jīng)過濾波的音頻的功率在時間上 進(jìn)行平均。
10. 如權(quán)利要求1-7中任何一項(xiàng)所述的方法,其中,響應(yīng)于音 頻的功率譜的近似而確定音頻的近似響度包括應(yīng)用心理聲學(xué)響度測 量。
11. 如權(quán)利要求10所述的方法,其中,心理聲學(xué)響度測量使用 人耳模型來確定類似于人耳的臨界頻帶的多個頻帶中每一個中的單位響度。
12. 如權(quán)利要求3-5中任何一項(xiàng)所述的方法,其中,響應(yīng)于音 頻的功率鐠的近似而確定音頻的近似響度包括應(yīng)用心理聲學(xué)響度測 量。
13. 如權(quán)利要求12所述的方法,其中,所述子帶類似于人耳的 臨界頻帶并且心理聲學(xué)響度測量使用人耳模型來確定每個所述子帶中 的單位響度。
14. 一種用于測量以比特流編碼的音頻的響度的裝置,所述比 特流包括數(shù)據(jù),從該數(shù)據(jù)能夠得出該音頻的功率譜的近似而不完全解 碼該音頻,所述裝置包括用于從所述比特流得出音頻的功率鐠的所述近似而不完全解碼 該音頻的部件,以及用于響應(yīng)于該音頻的功率鐠的近似而確定該音頻的近似響度的部件。
15. 如權(quán)利要求14所述的裝置,其中,所述數(shù)據(jù)包括音頻的粗 略表示和音頻的相關(guān)更精細(xì)表示,并且其中,從音頻的粗略表示得出 音頻的功率鐠的所述近似。
16. 如權(quán)利要求15所述的裝置,其中,以比特流編碼的音頻是 具有多個頻率子帶的子帶編碼音頻,每個子帶具有標(biāo)度因子和與其相 關(guān)的采樣數(shù)據(jù),并且其中,所述音頻的粗略表示包括標(biāo)度因子,并且 所述音頻的相關(guān)更精細(xì)表示包括與每個標(biāo)度因子相關(guān)的采樣數(shù)據(jù)。
17. 如權(quán)利要求16所述的裝置,其中,通過指數(shù)記數(shù)法,每個 子帶的標(biāo)度因子和采樣數(shù)據(jù)表示該子帶中的譜系數(shù),在該指數(shù)記數(shù)法 中,標(biāo)度因子包括指數(shù)并且相關(guān)的采樣數(shù)據(jù)包括尾數(shù)。
18. 如權(quán)利要求14-17中任何一項(xiàng)所述的裝置,其中,所述比 特流是AC-3編碼的比特流。
19. 如權(quán)利要求15所述的裝置,其中,以比特流編碼的音頻是 線性預(yù)測編碼音頻,其中該音頻的粗略表示包括線性預(yù)測系數(shù)并且該 音頻的更精細(xì)表示包括與線性預(yù)測系數(shù)相關(guān)的激勵信息。
20. 如權(quán)利要求15所述的裝置,其中,音頻的粗略表示包括至 少一個譜包絡(luò),并且音頻的更精細(xì)表示包括與該至少一個譜包絡(luò)相關(guān) 的鐠分量。
21. 如權(quán)利要求14-20中任何一項(xiàng)所述的裝置,其中,用于響應(yīng)用加權(quán)功率響度測量的部件。
22. 如權(quán)利要求21所述的裝置,其中,加權(quán)功率響度測量使用 削弱較不易感知的頻率的濾波器并且對經(jīng)過濾波的音頻的功率在時間 上進(jìn)行平均。
23. 如權(quán)利要求14-20中任何一項(xiàng)所述的裝置,其中,用于響 應(yīng)于音頻的功率i普的近似而確定音頻的近似響度的所述部件包括用于 應(yīng)用心理聲學(xué)響度測量的部件。
24. 如權(quán)利要求23所述的裝置,其中,心理聲學(xué)響度測量使用 人耳模型來確定類似于人耳的臨界頻帶的多個頻帶中每一個中的單位 響度。
25. 如權(quán)利要求16-18中任何一項(xiàng)所述的裝置,其中,用于響 應(yīng)于音頻的功率鐠的近似而確定音頻的近似響度的所述部件包括用于 應(yīng)用心理聲學(xué)響度測量的部件。
26. 如權(quán)利要求25所述的裝置,其中,所述子帶類似于人耳的 臨界頻帶并且心理聲學(xué)響度測量使用人耳模型來確定每個所述子帶中 的單位響度。
27. 適于執(zhí)行如權(quán)利要求l - 13中任何一項(xiàng)所述的方法的裝置。
28. —種計(jì)算機(jī)程序,其存儲在計(jì)算機(jī)可讀介質(zhì)上用于使計(jì)算 機(jī)執(zhí)行如權(quán)利要求l - 13中任何一項(xiàng)所述的方法。
全文摘要
通過不完全解碼音頻而從比特流得出該音頻的功率譜的近似,并且響應(yīng)于該音頻的功率譜的近似而確定該音頻的近似響度,來執(zhí)行以比特流編碼的音頻的響度測量,該比特流包括可以不完全解碼音頻就從其得出該音頻的功率譜的近似的數(shù)據(jù)。該數(shù)據(jù)可包括音頻的粗略表示和音頻的相關(guān)更精細(xì)表示,從音頻的粗略表示得出音頻的功率譜的所述近似。在子帶編碼的音頻的情況中,音頻的粗略表示可包括標(biāo)度因子,并且所述音頻的相關(guān)更精細(xì)表示可包括與每個標(biāo)度因子相關(guān)的采樣數(shù)據(jù)。
文檔編號H04S7/00GK101161033SQ200680012139
公開日2008年4月9日 申請日期2006年3月23日 優(yōu)先權(quán)日2005年4月13日
發(fā)明者布雷特·格拉漢姆·克羅克特, 艾蘭·杰弗瑞·西弗爾特, 邁克爾·J·斯密斯?fàn)査?申請人:杜比實(shí)驗(yàn)室特許公司