專利名稱:音頻錄音的自適應(yīng)動(dòng)態(tài)范圍增強(qiáng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及音頻信號(hào)處理,更特別地,涉及通過(guò)恢復(fù)或強(qiáng)調(diào)音頻流和錄音的 動(dòng)態(tài)范圍來(lái)增強(qiáng)它們。
背景技術(shù):
遵照格言“聲音越大越好”,在唱片業(yè)中以更高水平的響度灌錄(master)和發(fā)行 唱片成為一般慣例。伴隨諸如CD的數(shù)字媒體格式的出現(xiàn),用通過(guò)可用于代表編碼信號(hào)的比 特?cái)?shù)限定的最大峰值電平將音樂(lè)編碼。在達(dá)到CD的最大振幅時(shí),通過(guò)諸如多頻帶動(dòng)態(tài)范圍 壓縮、峰值限制和均衡化的信號(hào)處理技術(shù),仍可進(jìn)一步增加響度感知。通過(guò)使用這種數(shù)字灌 錄工具,錄音師可通過(guò)壓縮瞬態(tài)峰值(諸如鼓擊)并增加得到的信號(hào)的增益使平均信號(hào)電平 最大化。極度使用動(dòng)態(tài)范圍壓縮可將削波和其它可聽(tīng)到的畸變引入到錄音的波形中。使用 這種極度動(dòng)態(tài)范圍壓縮的現(xiàn)代唱片集因此以犧牲音樂(lè)再現(xiàn)的質(zhì)量來(lái)得到響度。增加音樂(lè)發(fā) 行物的響度以匹配競(jìng)爭(zhēng)發(fā)行物的實(shí)踐可具有兩種效果。由于存在可用于錄音的最大響度級(jí) (與響度受回放揚(yáng)聲器和放大器限制的回放相反),提升歌曲或音軌的總響度最終產(chǎn)生從開(kāi) 始到結(jié)束最大并且均勻地響亮的片段。這產(chǎn)生具有小的動(dòng)態(tài)范圍(在大聲部分和安靜部分 存在很小的差異)的音樂(lè),這種效果常常被視為藝術(shù)家創(chuàng)作表現(xiàn)的疲勞和空白。另一可能的效果是畸變。在數(shù)字領(lǐng)域中,它通常被稱為削波。數(shù)字媒體不能輸出比 數(shù)字滿刻度高的信號(hào),因此不管信號(hào)的峰值什么時(shí)候被按過(guò)該點(diǎn),這都導(dǎo)致變得被削波的 波形。當(dāng)出現(xiàn)這種情況時(shí),它有時(shí)可產(chǎn)生可聽(tīng)的卡嗒聲。但是,類似鼓擊的某些聲音將僅對(duì) 于非常短的時(shí)間達(dá)到它們的峰值,并且,如果該峰值遠(yuǎn)比信號(hào)的其余部分聲音大,那么該卡 嗒聲將不被聽(tīng)到。在許多的情況下,鼓擊的峰值被削波,但是它不被隨意的收聽(tīng)者檢測(cè)到。圖la和圖lb提供有害的灌錄技術(shù)的視覺(jué)呈現(xiàn)。圖la和圖lb所不的首頻錄首 波形代表原始灌錄音軌和已經(jīng)通過(guò)使用不同的技術(shù)灌錄的同一版本的音軌。圖la表示原 始錄音,大量峰值的存在表示代表存在于原始性能中的各種類型的力度(dynamics)的高動(dòng) 態(tài)范圍。由于諸如鼓擊的某些敲擊節(jié)拍聽(tīng)起來(lái)將是有力并且清楚的,因此該錄音提供振動(dòng) 收聽(tīng)體驗(yàn)。相反,在圖lb中示出的錄音被重新灌錄以用于更大聲的商業(yè)CD發(fā)行。存在于 原始錄音中的大多數(shù)峰值被壓縮或者甚至被削波,并且,作為結(jié)果,錄音的動(dòng)態(tài)范圍已經(jīng)受損。在商業(yè)音樂(lè)的灌錄階段越來(lái)越侵略性地使用動(dòng)態(tài)范圍壓縮已經(jīng)產(chǎn)生大量來(lái)自消費(fèi)者、 制作者和藝術(shù)家的強(qiáng)烈反對(duì)。音頻行業(yè)為解決該問(wèn)題所討論的方法集中于討論處于問(wèn)題本源的灌錄技術(shù)。在 Bob Katz.的Mastering Audio, Second Edition:The Art and the Science 中描述了這樣 的一個(gè)例子。Katz描述了如何可通過(guò)使用處理信號(hào)的校準(zhǔn)監(jiān)視以及使用更多適度的壓縮 參數(shù)在不使最終的結(jié)果畸變的情況下對(duì)于響度灌錄唱片。而大多數(shù)的灌錄工程師會(huì)同意, Katz的方法常常被播音室管理的需求取代。即使更保守的灌錄技術(shù)變?yōu)樾碌臉?biāo)準(zhǔn),它也解 決不了已被灌錄并分發(fā)給最終用戶的現(xiàn)有錄音的主要部分的問(wèn)題。用于修改音頻錄音的力度的現(xiàn)有處理技術(shù)在現(xiàn)有技術(shù)中是已知的。一種這種處理 是響度調(diào)平(leveling),其中經(jīng)受不同程度動(dòng)態(tài)范圍壓縮的音頻材料的覺(jué)察響度之間的差 值被歸一化為某預(yù)定水平。但是,這些方法被用于將從各種源播放的連續(xù)音軌的平均響度 歸一化,并且不進(jìn)行任何嘗試以恢復(fù)過(guò)度動(dòng)態(tài)范圍壓縮內(nèi)容的動(dòng)態(tài)范圍。作為結(jié)果,當(dāng)在更 低的規(guī)定收聽(tīng)級(jí)別上被播放時(shí),壓縮媒體可更加不發(fā)出動(dòng)態(tài)表現(xiàn)的聲音。另一已知的技術(shù)是,如在授權(quán)給Bench的發(fā)明名稱為Dynamic Expander的美國(guó)專 利No. 3,978,423中描述的那樣,應(yīng)用向上擴(kuò)展器(upward expander)。向上擴(kuò)展器根據(jù)固 定“擴(kuò)展曲線”向音頻信號(hào)施加時(shí)間變化增益,由此輸出信號(hào)電平比高于選擇的閾值的輸入 電平大。作為結(jié)果,源信號(hào)的較大聲音部分的振幅增加。但是,這可在輸出信號(hào)中導(dǎo)致具有 過(guò)分強(qiáng)調(diào)的瞬態(tài)的原本動(dòng)態(tài)的聲道(sound track)。另一已知的技術(shù)是當(dāng)檢測(cè)到瞬態(tài)時(shí)提升較低和較高頻帶的動(dòng)態(tài)譜均衡 化。作為結(jié)果,產(chǎn)生更動(dòng)態(tài)的輸出。在以下的文獻(xiàn)中描述了動(dòng)態(tài)譜均衡化X Rodet, F Jaillet, Detection and Modeling of Fast Attack Transients (2001), Proceedings of the International Computer Music Conference ;授權(quán)給 Goodwin 等的發(fā)明名稱為 Transient Detection and Modification in Audio Signals 的美國(guó)專利 No. 7, 353, 169 ; 和授權(quán)給Avendano等的發(fā)明名稱為Method for Enhancing Audio Signals的美國(guó)專利申 請(qǐng)No. 11/744,465。與前面的方法不同,這些動(dòng)態(tài)增強(qiáng)技術(shù)專門(mén)地影響信號(hào)瞬態(tài)。但是,它 影響所有的信號(hào)瞬態(tài),甚至是已表現(xiàn)出高力度的那些信號(hào)瞬態(tài)。動(dòng)態(tài)譜均衡化一般向所有 音頻信號(hào)內(nèi)容施加處理,不管它是否需要。對(duì)于某些類型的音頻內(nèi)容,這可導(dǎo)致過(guò)度動(dòng)態(tài)處 理輸出。授權(quán)給Hipert等的美國(guó)專利No. 6,453,282概括了在離散時(shí)間音頻域中進(jìn)行瞬態(tài) 檢測(cè)的方法。由于當(dāng)總體觀看信號(hào)時(shí)由于瞬態(tài)導(dǎo)致的能量變化變得不明顯,因此當(dāng)分析嚴(yán) 重動(dòng)態(tài)范圍壓縮的材料時(shí),這種時(shí)域方法是不可靠的。這導(dǎo)致瞬態(tài)信號(hào)的錯(cuò)誤分類并導(dǎo)致 產(chǎn)生誤判(false positive)。鑒于不斷增加對(duì)于改善音頻錄音的呈現(xiàn)的關(guān)注,在本領(lǐng)域中需要改善音頻處理。
發(fā)明內(nèi)容
根據(jù)本發(fā)明,提供用于調(diào)節(jié)音頻信號(hào)的方法和裝置。本發(fā)明對(duì)于音頻信號(hào)、特別是 對(duì)于經(jīng)受了有害灌錄技術(shù)的音頻信號(hào)的動(dòng)態(tài)范圍提供強(qiáng)制增強(qiáng)。根據(jù)本發(fā)明的一個(gè)方面,提供一種用于調(diào)節(jié)音頻信號(hào)的方法,該方法具有以下的 步驟接收至少一個(gè)音頻信號(hào),每個(gè)音頻信號(hào)具有至少一個(gè)通道,每個(gè)通道在時(shí)間序列上被分成多個(gè)幀;對(duì)于多個(gè)連續(xù)時(shí)間段計(jì)算音頻信號(hào)的動(dòng)態(tài)偏移的至少一個(gè)測(cè)量值;將音頻信 號(hào)濾波成多個(gè)子帶,每個(gè)幀由至少一個(gè)子帶代表;從連續(xù)時(shí)間段導(dǎo)出動(dòng)態(tài)增益因子;分析 幀的至少一個(gè)子帶以確定是否在幀中存在瞬態(tài);和向具有瞬態(tài)的每個(gè)幀施加動(dòng)態(tài)增益因子。動(dòng)態(tài)偏移的測(cè)量值可由時(shí)間段的波峰因數(shù)(crest factor)代表??赏ㄟ^(guò)在幀內(nèi) 取得峰值信號(hào)大小的函數(shù)與音頻信號(hào)的平均信號(hào)大小的函數(shù)的比,計(jì)算每個(gè)連續(xù)時(shí)間段的 波峰因數(shù)。方法還可包括對(duì)于至少一個(gè)子帶計(jì)算子帶相對(duì)能量函數(shù)的步驟。可通過(guò)比較幀或該幀的一部分的每個(gè)子帶中的子帶瞬態(tài)能量與相對(duì)能量閾值并 將通過(guò)該相對(duì)能量閾值的子帶的數(shù)量求和,計(jì)算每個(gè)幀的總體子帶瞬態(tài)能量。在該幀的 分析中通過(guò)相對(duì)能量閾值的子帶的數(shù)量大于預(yù)定分?jǐn)?shù)的總子帶的情形下,瞬態(tài)可存在于幀 中。例如,在對(duì)該幀的分析中,通過(guò)相對(duì)能量閾值的子帶的數(shù)量大于四分之一的總子帶的情 形下,瞬態(tài)可存在于幀中。方法通過(guò)下述步驟繼續(xù),對(duì)于分析中的總子帶數(shù)量,基于通過(guò)閾值的子帶的數(shù)量 計(jì)算動(dòng)態(tài)增益加權(quán)因子。根據(jù)加權(quán)因子加權(quán)每個(gè)幀的動(dòng)態(tài)增益因子。如果對(duì)于該幀沒(méi)有檢 測(cè)到瞬態(tài),則該幀的先前動(dòng)態(tài)增益可通過(guò)使用指數(shù)衰減曲線減小為1的值。在向輸入信號(hào) 施加最終動(dòng)態(tài)增益之前,可進(jìn)行對(duì)于音調(diào)狀音頻的檢查,以避免對(duì)于存在于輸入信號(hào)中的 強(qiáng)音調(diào)進(jìn)行可聽(tīng)的調(diào)制。如果在子帶內(nèi)檢測(cè)到強(qiáng)音調(diào),則對(duì)于該幀周期不向該子帶施加附 加的增益,并且,該子帶的動(dòng)態(tài)增益繼續(xù)以基于先前幀的動(dòng)態(tài)增益值衰減。根據(jù)本發(fā)明的另一方面,提供一種音頻信號(hào)處理裝置。音頻信號(hào)處理裝置包括用 于接收至少一個(gè)音頻信號(hào)的接收部件,每個(gè)音頻信號(hào)具有至少一個(gè)通道,每個(gè)通道在時(shí)間 序列上被分成多個(gè)幀;用于對(duì)于多個(gè)連續(xù)時(shí)間段計(jì)算音頻信號(hào)的動(dòng)態(tài)偏移的至少一個(gè)測(cè)量 值的計(jì)算部件;用于將音頻信號(hào)濾波成多個(gè)子帶的濾波部件,每個(gè)幀由至少一個(gè)子帶代表; 用于從動(dòng)態(tài)偏移的測(cè)量值導(dǎo)出動(dòng)態(tài)增益并分析幀的至少一個(gè)子帶以確定是否在幀內(nèi)存在 瞬態(tài)并且向具有瞬態(tài)的每個(gè)幀施加動(dòng)態(tài)增益的導(dǎo)出部件。
參照以下的描述和附圖,將更好地理解這里公開(kāi)的各種實(shí)施例的這些和其它特征 和優(yōu)點(diǎn),其中,類似的附圖標(biāo)記始終表示類似的部件,并且其中圖la是原始音頻錄音的波形的透視圖;圖lb是動(dòng)態(tài)范圍被過(guò)度壓縮的重新灌錄的音頻錄音的波形的透視圖;圖2是根據(jù)本發(fā)明的實(shí)施例的使用用于在多通道揚(yáng)聲器或頭戴式耳機(jī)上回放的 自適應(yīng)動(dòng)態(tài)增強(qiáng)的收聽(tīng)環(huán)境的示意圖;圖3是示出根據(jù)本發(fā)明的實(shí)施例的在自適應(yīng)動(dòng)態(tài)增強(qiáng)處理器之前的可選響度調(diào) 平處理塊的流程圖;圖4是示出在根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于檢測(cè)瞬態(tài)并因此施加增益的自適 應(yīng)動(dòng)態(tài)增強(qiáng)處理中采取的步驟的流程圖;圖5是示出在根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢測(cè)瞬態(tài)、針對(duì)已知的閾值評(píng)價(jià)瞬態(tài)并 因此施加自適應(yīng)EQ曲線的自適應(yīng)動(dòng)態(tài)增強(qiáng)處理中采取的步驟的流程圖。
具體實(shí)施例方式以下關(guān)于附圖闡述的詳細(xì)描述意圖是作為本發(fā)明的當(dāng)前優(yōu)選實(shí)施例的描述,并且 不是要代表可以構(gòu)建或利用本發(fā)明的唯一形式。描述結(jié)合示出的實(shí)施例闡述用于開(kāi)發(fā)和操 作本發(fā)明的功能和步驟次序。但是,應(yīng)當(dāng)理解可通過(guò)也要包含于本發(fā)明的精神和范圍內(nèi)的 不同實(shí)施例實(shí)現(xiàn)相同或等同的功能和次序。還應(yīng)理解,使用諸如第一和第二等的關(guān)系術(shù)語(yǔ) 僅用于相互區(qū)分實(shí)體,而未必要求或隱含這些實(shí)體之間的任何實(shí)際的這種關(guān)系或次序。本發(fā)明的目的是解決有害錄音技術(shù)中的問(wèn)題,在有害錄音技術(shù)中,采用侵略性應(yīng) 用動(dòng)態(tài)范圍壓縮算法,音頻錄音被灌錄為盡可能的大聲。這些錄音信號(hào)中的瞬態(tài)的動(dòng)態(tài)偏 移遠(yuǎn)比它們應(yīng)當(dāng)偏移的低。當(dāng)在適度的級(jí)別上收聽(tīng)時(shí),這產(chǎn)生弱聲、沉悶或無(wú)生氣再現(xiàn)的感 受。本發(fā)明分析音頻錄音的力度,并增強(qiáng)表現(xiàn)有害灌錄實(shí)踐的跡象的瞬態(tài)。使用通過(guò) 分析源音頻錄音信號(hào)的響度和動(dòng)態(tài)性能得到的智能/自適應(yīng)處理來(lái)設(shè)計(jì)本發(fā)明。除非必 須,避免修改原始音頻錄音信號(hào)的力度。但是,也可由用戶調(diào)整附加的動(dòng)態(tài)處理的缺省量, 使得任何錄音的力度可對(duì)于更尖鋭或“更強(qiáng)力”的聲音被夸大,或者對(duì)于更細(xì)微的增強(qiáng)減 小??梢允褂帽景l(fā)明以增強(qiáng)源自任何媒體源的任何音樂(lè)、電影或游戲聲軌和任何收聽(tīng)環(huán)境 中的瞬態(tài)カ度?,F(xiàn)在參照?qǐng)D2,提供示出多個(gè)實(shí)施例的實(shí)現(xiàn)的示意圖。圖2示出用于在揚(yáng)聲器或 頭戴式耳機(jī)上回放動(dòng)態(tài)增強(qiáng)的音頻錄音的音頻收聽(tīng)環(huán)境。音頻收聽(tīng)環(huán)境包括至少ー個(gè)諸如 DVD或BD播放器、TV調(diào)諧器、CD播放器、手持播放器、因特網(wǎng)音頻/視頻設(shè)備或游戲控制臺(tái) 等的至少ー個(gè)消費(fèi)者電子設(shè)備10。消費(fèi)者電子設(shè)備10提供被動(dòng)態(tài)增強(qiáng)以補(bǔ)償任何有害灌 錄技術(shù)的源音頻錄音。在本實(shí)施例中,消費(fèi)者電子設(shè)備10與音頻再現(xiàn)系統(tǒng)12連接。音頻再現(xiàn)系統(tǒng)12通 過(guò)動(dòng)態(tài)增強(qiáng)音頻錄音的自適應(yīng)動(dòng)態(tài)增強(qiáng)處理(ADE)來(lái)處理音頻錄音。在替代性的實(shí)施例中, 獨(dú)立式消費(fèi)者電子設(shè)備10可通過(guò)ADE處理增強(qiáng)音頻錄音。音頻再現(xiàn)系統(tǒng)12包含諸如IBMPowerPC, Inter Pentium ( X86)處理器等的可 代表一個(gè)或多個(gè)常規(guī)類型的這種處理器的中央處理單元(CPU)。隨機(jī)存取存儲(chǔ)器(RAM)暫 時(shí)存儲(chǔ)由CPU執(zhí)行的數(shù)據(jù)處理操作的結(jié)果,并且一般通過(guò)專用的存儲(chǔ)器通道與其互連。音 頻再現(xiàn)系統(tǒng)12還可以包含也在i/o總線上與CPU通信的諸如硬盤(pán)驅(qū)動(dòng)器的永久存儲(chǔ)設(shè)備。 也可以連接諸如磁帶機(jī)、光驅(qū)的其它類型的存儲(chǔ)設(shè)備。圖形卡也通過(guò)視頻總線與CPU連接, 并且向顯示監(jiān)視器傳送代表顯示數(shù)據(jù)的信號(hào)。諸如鍵盤(pán)或鼠標(biāo)的外設(shè)數(shù)據(jù)輸入設(shè)備可以在 USB端口上與音頻再現(xiàn)系統(tǒng)連接。USB控制器對(duì)于與USB端ロ連接的外設(shè)翻譯送往和來(lái)自 CPU的數(shù)據(jù)和指令。諸如打印機(jī)、麥克風(fēng)和揚(yáng)聲器等的附加設(shè)備可與音頻再現(xiàn)系統(tǒng)12連接。音頻再現(xiàn)系統(tǒng)12可利用諸如來(lái)自Redmond,Washington的微軟公司的WINDOWS、來(lái) 自Cupertino, CA的蘋(píng)果公司的MAC OS、和具有X-Windows窗ロ系統(tǒng)的各種UNIX版本等的 具有圖形用戶界面(GUI)的操作系統(tǒng)。音頻再現(xiàn)系統(tǒng)12執(zhí)行ー個(gè)或多個(gè)計(jì)算機(jī)程序。一 般地,操作系統(tǒng)和計(jì)算機(jī)程序以有形的方式體現(xiàn)于例如包含硬盤(pán)驅(qū)動(dòng)器的固定和/或可去 除數(shù)據(jù)存儲(chǔ)設(shè)備中的一個(gè)或多個(gè)的計(jì)算機(jī)可讀介質(zhì)中。操作系統(tǒng)和計(jì)算機(jī)程序均可從上述 的數(shù)據(jù)存儲(chǔ)設(shè)備被加載到RAM中以供CPU執(zhí)行。計(jì)算機(jī)程序可包含指令,這些指令當(dāng)被CPU 讀取和執(zhí)行時(shí)導(dǎo)致其執(zhí)行步驟以執(zhí)行本發(fā)明的步驟或特征。
以上的音頻再現(xiàn)系統(tǒng)12僅代表適于實(shí)現(xiàn)本發(fā)明的各方面的一個(gè)示例性裝置。音 頻再現(xiàn)系統(tǒng)12可具有許多不同的配置和結(jié)構(gòu)??梢栽诓槐畴x本發(fā)明的范圍的情況下很容 易地替代任何這種配置或結(jié)構(gòu)。本領(lǐng)域技術(shù)人員可以認(rèn)識(shí)到,上述的次序最常用于計(jì)算機(jī) 可讀介質(zhì)中,但是,可在不背離本發(fā)明范圍的情況下,存在能夠被替代的其它現(xiàn)有次序??赏ㄟ^(guò)硬件、固件、軟件或它們的任意組合實(shí)現(xiàn)ADE處理的一個(gè)實(shí)施例的要素。當(dāng) 實(shí)現(xiàn)為硬件吋,ADE處理可在一個(gè)音頻信號(hào)處理器上被使用,或者分布于各種處理部件之 間。當(dāng)實(shí)現(xiàn)為軟件時(shí),本發(fā)明的實(shí)施例的要素基本上是用于執(zhí)行必要任務(wù)的代碼段。軟件 優(yōu)選包含用于實(shí)施在本發(fā)明的一個(gè)實(shí)施例中描述的操作的實(shí)際代碼或模仿或模擬操作的 代碼。程序或代碼段可被存儲(chǔ)于處理器或機(jī)器可存取介質(zhì)中,或者在傳送介質(zhì)上,通過(guò)在載 波中體現(xiàn)的計(jì)算機(jī)數(shù)據(jù)信號(hào)或通過(guò)載波調(diào)制的信號(hào)被傳送?!疤幚砥骺勺x或可存取介質(zhì)”或 “機(jī)器可讀或可存取介質(zhì)”可包含可存儲(chǔ)、傳送或傳遞信息的任何介質(zhì)。處理器可讀介質(zhì)的 例子包含電子電路、半導(dǎo)體存儲(chǔ)器件、只讀存儲(chǔ)器(ROM)、閃速存儲(chǔ)器、可擦ROM (ER0M)、軟 盤(pán)、緊致盤(pán)(CD) ROM、光盤(pán)、硬盤(pán)、光纖介質(zhì)、射頻(RF)鏈接等。計(jì)算機(jī)數(shù)據(jù)信號(hào)可包含可在 諸如電子網(wǎng)絡(luò)信道、光纖、空氣、電磁、RF鏈接等的傳送介質(zhì)上傳播的任何信號(hào)。代碼段可通 過(guò)諸如因特網(wǎng)、內(nèi)聯(lián)網(wǎng)等的計(jì)算機(jī)網(wǎng)絡(luò)被下載??稍谥圃煳锲分畜w現(xiàn)機(jī)器可存取介質(zhì)。機(jī) 器可存取介質(zhì)可包含當(dāng)被機(jī)器訪問(wèn)時(shí)導(dǎo)致機(jī)器執(zhí)行以下描述的操作的數(shù)據(jù)。術(shù)語(yǔ)“數(shù)據(jù)”這 里指的是出于機(jī)器可讀目的編碼的任何類型的信息。因此,它可包含程序、代碼、數(shù)據(jù)、文件等。
可通過(guò)軟件實(shí)現(xiàn)本發(fā)明的實(shí)施例的全部或一部分。軟件可具有相互耦合的幾個(gè)模 塊。軟件模塊與另ー模塊耦合以接收變量、參數(shù)、自變數(shù)、指針等,并且/或者產(chǎn)生或通過(guò)結(jié) 果、更新的變量、指針等。軟件模塊也可以是與在平臺(tái)上運(yùn)行的操作系統(tǒng)交互作用的軟件驅(qū) 動(dòng)器或接ロ。軟件模塊也可以是配置、建立、初始化、發(fā)送和接收送往和來(lái)自硬件設(shè)備的數(shù) 據(jù)的硬件驅(qū)動(dòng)器。本發(fā)明的一個(gè)實(shí)施例可被描述為通常示為程序框圖、流程圖、結(jié)構(gòu)圖或框圖的處 理。雖然框圖可將操作描述為依次的處理,但是可以并行或同時(shí)地執(zhí)行多個(gè)操作。另外,操 作的次序可被重新配置。處理在完成其操作時(shí)終止。處理可與方法、程序、過(guò)程等對(duì)應(yīng),圖2 是示出用于在頭戴式耳機(jī)14或揚(yáng)聲器16上再現(xiàn)的音頻再現(xiàn)系統(tǒng)12的示意圖。音頻再現(xiàn) 系統(tǒng)12可從各種音頻或音頻/視頻源10接收數(shù)字或模擬音頻源信號(hào)。音頻源信號(hào)可以是 單個(gè)信號(hào)、二通道信號(hào)(諸如音樂(lè)軌道或TV廣播)或多通道信號(hào)(諸如電影聲道)。音頻信號(hào) 可以是諸如真實(shí)世界聲音或工程聲音等的任何被覺(jué)察或不被覺(jué)察的聲音。音頻再現(xiàn)系統(tǒng)12可包含用于連接模擬音頻源的模擬數(shù)字轉(zhuǎn)換器或數(shù)字音頻輸入 接ロ。它可包含用于處理音頻信號(hào)的數(shù)字信號(hào)處理器以及用于將處理的輸出信號(hào)轉(zhuǎn)換成被 發(fā)送到換能器(頭戴式耳機(jī)14或揚(yáng)聲器16)的電信號(hào)的數(shù)字模擬轉(zhuǎn)換器和信號(hào)放大器。音 頻再現(xiàn)系統(tǒng)12可以是專用于音頻和/或視頻信號(hào)的選擇、處理和路由的家庭影院接收器或 汽車音響系統(tǒng)。作為替代方案,音頻再現(xiàn)系統(tǒng)12和音頻信號(hào)源中的一個(gè)或幾個(gè)可被一起結(jié) 合到諸如便攜式媒體播放器、電視機(jī)或膝上型計(jì)算機(jī)的消費(fèi)者電子設(shè)備10中。諸如在電視 機(jī)或膝上型計(jì)算機(jī)的情況下,揚(yáng)聲器16也可被結(jié)合到同一電器中。圖3是示出ADE處理環(huán)境的高層流程圖。流程圖通過(guò)接收輸入信號(hào)在步驟300上 開(kāi)始。輸入信號(hào)是數(shù)字音頻信號(hào)。在本實(shí)施例中,在步驟310中,通過(guò)響度調(diào)平算法處理輸入信號(hào),由此,隨時(shí)間適調(diào)整到來(lái)的輸入信號(hào)的增益,使得它具有基本上恒定的平均響度級(jí) (比如說(shuō),-20dB相對(duì)于OdB的滿度)。響度調(diào)平算法是可選的特征,并且對(duì)于實(shí)現(xiàn)ADE處理來(lái) 說(shuō)是不需要的。隨后,在320中,如果存在上游增益歸一化算法,那么ADE處理可在不導(dǎo)致可 源自信號(hào)波形削波的可聽(tīng)的偽信號(hào)的情況下,將基準(zhǔn)增益電平因子化為擴(kuò)展到來(lái)的信號(hào)的 增益所需要的可用的動(dòng)態(tài)余量(headroom)。該通信由虛線箭頭表示。ADE動(dòng)態(tài)余量需求也 可將輸入的灌錄增益和輸入信號(hào)內(nèi)容的增益因子化。可通過(guò)使用由DYNAMICS ENHANCEMENT LEVEL描述的用戶參數(shù)縮放施加的動(dòng)態(tài)增強(qiáng)的量。使用輸出限制器以確保作為向輸入信號(hào) 施加需要的動(dòng)態(tài)EQ的結(jié)果不出現(xiàn)輸出飽和?,F(xiàn)在參照?qǐng)D4,示出描述ADE處理的一個(gè)實(shí)施例的流程圖。ADE處理通過(guò)接收代表 音頻錄音的輸入信號(hào)在步驟400中開(kāi)始。輸入信號(hào)是至少一個(gè)通道的數(shù)字音頻信號(hào)。輸入 信號(hào)代表通過(guò)模擬/數(shù)字轉(zhuǎn)換被轉(zhuǎn)換成數(shù)字格式的已被轉(zhuǎn)換成電子信號(hào)并被適當(dāng)?shù)仡A(yù)處 理的有形的物理現(xiàn)象、特別是聲音。一般地,如在本領(lǐng)域中已知的那樣,會(huì)施加模擬濾波、數(shù) 字濾波和其它的預(yù)處理,以使混淆、飽和或下游的其它信號(hào)處理誤差最小化??赏ㄟ^(guò)諸如 PCM編碼的常規(guī)的線性方法代表音頻信號(hào)。在步驟410中,通過(guò)可適當(dāng)?shù)貫榛パa(bǔ)正交鏡像 濾波器組的多抽頭、多頻帶、分析濾波器組濾波輸入信號(hào)。作為替代方案,可以使用諸如多 相濾波器組的偽正交鏡像濾波器(PQMF)。濾波器組產(chǎn)生多個(gè)子帶信號(hào)輸出。在本實(shí)施例 中,使用這種子帶輸出中的64個(gè)。但是,本領(lǐng)域技術(shù)人員很容易認(rèn)識(shí)到輸入信號(hào)可被濾波 成任意數(shù)量的子帶。作為濾波功能的一部分,濾波器組應(yīng)優(yōu)選還關(guān)鍵地大大削弱每個(gè)子帶 中的子帶信號(hào),特別是將每個(gè)子帶信號(hào)削弱到剛剛足以完全代表每個(gè)子帶中的信號(hào)(“臨界 采樣”)的更少數(shù)量的采樣/秒。該子帶采樣也可模仿人聽(tīng)覺(jué)的生理機(jī)能。在濾波之后,在步驟420中分析子帶以進(jìn)行瞬態(tài)檢測(cè)??梢栽O(shè)想,不是所有的子帶 都被用于瞬態(tài)分析,原因是,可以獲知,某些頻率具有瞬態(tài)的可能性很低。在本實(shí)施例中,通 過(guò)使用在頻帶上計(jì)算能量的加權(quán)和的瞬態(tài)檢測(cè)算法來(lái)檢測(cè)瞬態(tài)。由于信號(hào)能量通常占據(jù)叫 低的頻率,因此使用附加權(quán)重以強(qiáng)調(diào)瞬態(tài)不再顯著的信號(hào)的能量。這減少瞬態(tài)識(shí)別過(guò)程中 的“誤判”的可能性
其中TEhf (m, c)是瞬時(shí)的高頻加權(quán)瞬態(tài)能量,k是頻帶指數(shù),m是分析巾貞指數(shù),c代 表通道指數(shù),w(k)與第k個(gè)頻率加權(quán)濾波系數(shù)對(duì)應(yīng),以及|G (k,m,c) |代表第c個(gè)通道的 第m個(gè)分析幀的第k個(gè)頻帶的絕對(duì)增益。本領(lǐng)域技術(shù)人員可以理解,可根據(jù)本發(fā)明應(yīng)用各 種瞬態(tài)檢測(cè)算法,并且以上的例子作為例子被提供且不應(yīng)被解釋為限制本發(fā)明的范圍。將瞬時(shí)的瞬態(tài)能量函數(shù)與先前的瞬態(tài)能量的時(shí)間平均相比較。該比較表明可能的 瞬態(tài)事件,其中,瞬時(shí)的瞬態(tài)能量應(yīng)遠(yuǎn)大于平均瞬態(tài)能量??赏ㄟ^(guò)在每個(gè)頻帶中應(yīng)用泄漏積 分器濾波器(leaky integrator filter)計(jì)算平均瞬態(tài)能量TEav :TEav(m, c) = (1_ a TE) TEav(m_l, c) + a TETEHF(m, c)(2)其中,a TE與瞬態(tài)能量阻尼因子對(duì)應(yīng),m代表幀指數(shù),以及c代表通道指數(shù)。如果 那么觸發(fā)瞬態(tài)開(kāi)端,其中,Gteans與一些預(yù)定的短暫閾值對(duì)
應(yīng)。一般地,2 3 WG_S的值產(chǎn)生良好的結(jié)果,但是,閾值也可根據(jù)源材料改變。隨后,在CN 102668374 A說(shuō)明書(shū)7/11 頁(yè)
步驟440中,通過(guò)在64個(gè)分析頻帶中的每ー個(gè)中取峰值信號(hào)電平與先前信號(hào)電平的時(shí)間平 均的比,計(jì)算多頻帶波峰因數(shù)值CF (k, m, c)。
權(quán)利要求
1.ー種用于調(diào)節(jié)音頻信號(hào)的方法,包括 接收至少一個(gè)音頻信號(hào),每個(gè)音頻信號(hào)具有至少ー個(gè)通道,每個(gè)通道在時(shí)間序列上被分成多個(gè)巾貞; 對(duì)于多個(gè)連續(xù)時(shí)間段計(jì)算音頻信號(hào)的動(dòng)態(tài)偏移的至少ー個(gè)測(cè)量值; 將音頻信號(hào)濾波成多個(gè)子帶,每個(gè)幀由至少ー個(gè)子帶代表; 從動(dòng)態(tài)偏移的測(cè)量值導(dǎo)出動(dòng)態(tài)增益; 分析幀的至少ー個(gè)子帶以確定是否在幀中存在瞬態(tài);和 向具有瞬態(tài)的每個(gè)幀施加動(dòng)態(tài)增益。
2.根據(jù)權(quán)利要求I所述的方法,其中,動(dòng)態(tài)偏移的測(cè)量值是時(shí)間段的波峰因數(shù)。
3.根據(jù)權(quán)利要求2所述的方法,其中,通過(guò)在幀內(nèi)取得峰值信號(hào)大小的函數(shù)與音頻信號(hào)的平均信號(hào)大小的函數(shù)的比,計(jì)算每個(gè)連續(xù)時(shí)間段的波峰因數(shù)。
4.根據(jù)權(quán)利要求I所述的方法,其中,分析步驟還包含 計(jì)算至少ー個(gè)子帶的子帶相對(duì)能量函數(shù),所述子帶相對(duì)能量函數(shù)被表示為
5.根據(jù)權(quán)利要求4所述的方法,其中,通過(guò)將幀的每個(gè)子帶中的子帶相對(duì)能量與閾值相比較并將通過(guò)閾值的子帶的數(shù)量求和,計(jì)算每個(gè)幀的總體子帶瞬態(tài)能量,該總體子帶瞬態(tài)能量被表示為 TE (m, c) = Σ (RE (k, m, c) > REteesh) 其中 TE(m, c)=在第c個(gè)通道的第m個(gè)幀上測(cè)量的總體子帶瞬態(tài)能量; RE (k, m, c)=在第c個(gè)通道的第m個(gè)巾貞的第k個(gè)子帶上測(cè)量的子帶相對(duì)能量;以及 REthresh=閾值相對(duì)能量值。
6.根據(jù)權(quán)利要求5所述的方法,其中,在該幀的分析中通過(guò)閾值的子帶的數(shù)量大于預(yù)定分?jǐn)?shù)的總子帶的情形下,瞬態(tài)存在于幀中。
7.根據(jù)權(quán)利要求5所述的方法,還包括以下的步驟 基于通過(guò)閾值的子帶的數(shù)量,計(jì)算每個(gè)幀的加權(quán)因子。
8.根據(jù)權(quán)利要求7所述的方法,其中,基于加權(quán)因子加權(quán)每個(gè)幀的動(dòng)態(tài)增益。
9.根據(jù)權(quán)利要求I所述的方法,還包括 導(dǎo)出每個(gè)幀中的每個(gè)子帶的子帶增益;和 向每個(gè)子帶施加子帶增益。
10.根據(jù)權(quán)利要求9所述的方法,其中,通過(guò)確定峰值增益電平與時(shí)間平均増益的比,計(jì)算每個(gè)子帶的子帶波峰因數(shù),該波峰因數(shù)被表示為
11.根據(jù)權(quán)利要求10所述的方法,其中,將子帶波峰因數(shù)與預(yù)定的音調(diào)閾值相比,并且如果子帶波峰因數(shù)低于預(yù)定的音調(diào)閾值,則子帶增益不被進(jìn)一歩修改。
12.根據(jù)權(quán)利要求11所述的方法,其中,如果對(duì)于具有低于預(yù)定的音調(diào)閾值的子帶波峰因數(shù)的每個(gè)子帶沒(méi)有檢測(cè)到瞬態(tài),則通過(guò)使用指數(shù)衰減曲線減小施加的子帶增益。
13.根據(jù)權(quán)利要求11所述的方法,其中,如果對(duì)于具有低于預(yù)定的音調(diào)閾值的子帶波峰因數(shù)的每個(gè)子帶檢測(cè)到音調(diào)成分,則通過(guò)使用指數(shù)衰減曲線減小施加的子帶增益。
14.一種音頻信號(hào)處理裝置,包括 用于接收至少ー個(gè)音頻信號(hào)的接收部件,每個(gè)音頻信號(hào)具有至少ー個(gè)通道,每個(gè)通道在時(shí)間序列上被分成多個(gè)幀; 用于對(duì)于多個(gè)連續(xù)時(shí)間段計(jì)算音頻信號(hào)的動(dòng)態(tài)偏移的至少ー個(gè)測(cè)量值的計(jì)算部件; 用于將音頻信號(hào)濾波成多個(gè)子帶的濾波部件,每個(gè)幀由至少ー個(gè)子帶代表; 用于從動(dòng)態(tài)偏移的測(cè)量值導(dǎo)出動(dòng)態(tài)增益并分析幀的至少ー個(gè)子帶以確定是否在幀內(nèi)存在瞬態(tài)并且向具有瞬態(tài)的每個(gè)幀施加動(dòng)態(tài)增益的導(dǎo)出部件。
15.根據(jù)權(quán)利要求14所述的音頻信號(hào)處理裝置,其中,動(dòng)態(tài)偏移的測(cè)量值是時(shí)間段的波峰因數(shù)。
16.根據(jù)權(quán)利要求15所述的音頻信號(hào)處理裝置,其中,通過(guò)在幀內(nèi)取得峰值信號(hào)大小的函數(shù)與音頻信號(hào)的平均信號(hào)大小的函數(shù)的比,計(jì)算每個(gè)連續(xù)時(shí)間段的波峰因數(shù)。
17.根據(jù)權(quán)利要求16所述的音頻信號(hào)處理裝置,其中,計(jì)算至少ー個(gè)子帶的子帶相對(duì)能量函數(shù),該子帶相對(duì)能量函數(shù)被表示為
18.根據(jù)權(quán)利要求17所述的音頻信號(hào)處理裝置,其中,通過(guò)比較幀的每個(gè)子帶中的子帶瞬態(tài)能量與閾值并將通過(guò)閾值的子帶的數(shù)量求和,計(jì)算每個(gè)幀的總體子帶瞬態(tài)能量,該總體子帶瞬態(tài)能量被表示為 TE (m, c) = Σ (RE (k, m, c) > REteesh) 其中 TE(m, c)=在第c個(gè)通道的第m個(gè)幀上測(cè)量的總體子帶瞬態(tài)能量; RE (k, m, c)=在第c個(gè)通道的第m個(gè)巾貞的第k個(gè)子帶上測(cè)量的子帶相對(duì)能量;以及 REthresh=閾值相對(duì)能量值。
19.根據(jù)權(quán)利要求18所述的音頻信號(hào)處理裝置,其中,瞬態(tài)存在于幀中,其中通過(guò)閾值的子帶的數(shù)量大于幀中的總子帶的四分之一。
20.根據(jù)權(quán)利要求19所述的音頻信號(hào)處理裝置,其中,基于通過(guò)閾值的子帶的數(shù)量,計(jì)算每個(gè)幀的加權(quán)因子。
21.根據(jù)權(quán)利要求20所述的音頻信號(hào)處理裝置,其中,根據(jù)加權(quán)因子對(duì)于每個(gè)幀將動(dòng)態(tài)增益加權(quán)。
22.根據(jù)權(quán)利要求14所述的音頻信號(hào)處理裝置,其中,分析部件計(jì)算每個(gè)幀中的每個(gè)子帶的子帶增益,并且,向每個(gè)子帶施加子帶增益。
23.根據(jù)權(quán)利要求22所述的音頻信號(hào)處理裝置,其中,通過(guò)確定峰值增益電平與時(shí)間平均増益的比,計(jì)算每個(gè)子帶的子帶波峰因數(shù),該波峰因數(shù)被表示為
24.根據(jù)權(quán)利要求23所述的音頻信號(hào)處理裝置,其中,將子帶波峰因數(shù)與預(yù)定的音調(diào)閾值相比,并且如果子帶波峰因數(shù)低于預(yù)定的音調(diào)閾值,則子帶增益不被進(jìn)一歩修改。
25.根據(jù)權(quán)利要求23所述的音頻信號(hào)處理裝置,其中,如果對(duì)于具有低于預(yù)定的音調(diào)閾值的子帶波峰因數(shù)的每個(gè)子帶沒(méi)有檢測(cè)到瞬態(tài),則通過(guò)使用指數(shù)衰減曲線減小施加的子帶增益。
26.根據(jù)權(quán)利要求23所述的音頻信號(hào)處理裝置,其中,如果對(duì)于具有低于預(yù)定的音調(diào)閾值的子帶波峰因數(shù)的每個(gè)子帶檢測(cè)到音調(diào)成分,則通過(guò)使用指數(shù)衰減曲線減小施加的子帶增益。
全文摘要
本發(fā)明涉及音頻錄音的自適應(yīng)動(dòng)態(tài)范圍增強(qiáng)。提供用于調(diào)節(jié)音頻信號(hào)的方法和裝置。根據(jù)本發(fā)明的一個(gè)方面,提供一種用于調(diào)節(jié)音頻信號(hào)的方法,該方法包括以下的步驟接收至少一個(gè)音頻信號(hào),每個(gè)音頻信號(hào)具有至少一個(gè)通道,每個(gè)通道在時(shí)間序列上被分成多個(gè)幀;對(duì)于多個(gè)連續(xù)時(shí)間段計(jì)算音頻信號(hào)的動(dòng)態(tài)偏移的至少一個(gè)測(cè)量值;將音頻信號(hào)濾波成多個(gè)子帶,每個(gè)幀由至少一個(gè)子帶代表;從連續(xù)時(shí)間段導(dǎo)出動(dòng)態(tài)增益因子;分析幀的至少一個(gè)子帶以確定是否在幀中存在瞬態(tài);和向具有瞬態(tài)的每個(gè)幀施加動(dòng)態(tài)增益因子。
文檔編號(hào)H03G7/00GK102668374SQ201080053361
公開(kāi)日2012年9月12日 申請(qǐng)日期2010年10月8日 優(yōu)先權(quán)日2009年10月9日
發(fā)明者E·斯特因, J-M·卓特, M·維爾什 申請(qǐng)人:Dts(英屬維爾京群島)有限公司