用于在不同回放設(shè)備之間優(yōu)化響度和動(dòng)態(tài)范圍的系統(tǒng)和方法
【專利說明】用于在不同回放設(shè)備之間優(yōu)化響度和動(dòng)態(tài)范圍的系統(tǒng)和方法
[0001]相關(guān)申請(qǐng)的交叉引用
[0002]本申請(qǐng)要求以下申請(qǐng)的優(yōu)先權(quán):2013年I月21日提交的第61/754882號(hào)的美國(guó)臨時(shí)申請(qǐng)、2013年4月5日提交的第61/809250號(hào)的美國(guó)臨時(shí)申請(qǐng);以及2013年5月16日提交的第61/824010號(hào)的美國(guó)臨時(shí)專利申請(qǐng),所有這些申請(qǐng)的全部?jī)?nèi)容都通過引用并入本文。
技術(shù)領(lǐng)域
[0003]一個(gè)或多個(gè)實(shí)施例總體上涉及音頻信號(hào)處理,并且更具體地涉及基于回放環(huán)境和設(shè)備處理具有元數(shù)據(jù)的音頻數(shù)據(jù)位流,該元數(shù)據(jù)指示音頻內(nèi)容的響度和動(dòng)態(tài)范圍特性。
【背景技術(shù)】
[0004]【背景技術(shù)】章節(jié)中所討論的主題不應(yīng)僅因其在本章節(jié)中被提及就假定其作為現(xiàn)有技術(shù)。類似地,在【背景技術(shù)】章節(jié)中所提及的或者與【背景技術(shù)】章節(jié)的主題相關(guān)聯(lián)的問題不應(yīng)被假定已經(jīng)在任何現(xiàn)有技術(shù)中被認(rèn)識(shí)到?!颈尘凹夹g(shù)】章節(jié)中的主題僅表示不同的方法,它們本身也可能是發(fā)明。
[0005]音頻信號(hào)的動(dòng)態(tài)范圍通常是信號(hào)中所體現(xiàn)的聲音的最大可能值和最小可能值之間的比率,并且通常被測(cè)量為分貝值(基于10)。在許多音頻處理系統(tǒng)中,動(dòng)態(tài)范圍控制(或者動(dòng)態(tài)范圍壓縮)被用于減少響聲音水平,和/或放大安靜聲音水平以使得寬動(dòng)態(tài)范圍源內(nèi)容適配可被更容易地使用電子設(shè)備存儲(chǔ)和再現(xiàn)的較窄的被記錄的動(dòng)態(tài)范圍。對(duì)于視聽(AV)內(nèi)容,對(duì)話參考水平可被用于定義用于通過DRC機(jī)制壓縮的“零”點(diǎn)。DRC用于增大低于對(duì)話參考水平的內(nèi)容且切除高于該參考水平的內(nèi)容。
[0006]在已知的音頻編碼系統(tǒng)中,與音頻信號(hào)相關(guān)聯(lián)的元數(shù)據(jù)被用于基于內(nèi)容的類型和預(yù)期用途來設(shè)定DRC水平。DRC模式設(shè)定要應(yīng)用于音頻信號(hào)的壓縮量,并且限定解碼器的輸出參考水平。這樣的系統(tǒng)可被限制于兩個(gè)DRC水平設(shè)置,這兩個(gè)DRC水平設(shè)置被編程到編碼器中并且被用戶選擇。例如,常規(guī)地,對(duì)于在支持AVR或者全動(dòng)態(tài)范圍的設(shè)備上回放的內(nèi)容使用對(duì)話歸一(dialnorm)(對(duì)話歸一化)值_31dB,而對(duì)于在電視機(jī)或類似設(shè)備上回放的內(nèi)容使用對(duì)話歸一(對(duì)話歸一化)值_20dB。這種類型的系統(tǒng)允許單個(gè)音頻位流通過使用兩組不同的DRC元數(shù)據(jù)用于兩個(gè)常見的但是大不相同的回放場(chǎng)景。但是,這樣的系統(tǒng)局限于被預(yù)先設(shè)定的對(duì)話歸一值,而對(duì)于隨著數(shù)字媒體和基于互聯(lián)網(wǎng)的流送技術(shù)的出現(xiàn)而成為可能的多種不同回放設(shè)備和收聽環(huán)境中的回放未被優(yōu)化。
[0007]在當(dāng)前的基于元數(shù)據(jù)的音頻編碼系統(tǒng)中,音頻數(shù)據(jù)流可包括音頻內(nèi)容(例如,音頻內(nèi)容的一個(gè)或多個(gè)通道)和指示音頻內(nèi)容的至少一個(gè)特性的元數(shù)據(jù)。例如,在AC-3位流中,存在具體地預(yù)期用于改變被輸送至收聽環(huán)境的節(jié)目的聲音的若干音頻元數(shù)據(jù)參數(shù)。元數(shù)據(jù)參數(shù)之一是對(duì)話歸一參數(shù),其指示在音頻節(jié)目中出現(xiàn)的對(duì)話的平均響度水平(或者內(nèi)容的平均響度),并且被用于確定音頻回放信號(hào)水平。
[0008]在包含不同音頻節(jié)目分段(每個(gè)音頻節(jié)目分段具有不同的對(duì)話歸一參數(shù))的序列的位流的回放期間,AC-3解碼器使用每一分段的對(duì)話歸一參數(shù)來執(zhí)行一種響度處理,該響度處理修正該分段的回放水平或響度,使得該分段的對(duì)話的感知響度處于一致水平。編碼音頻分段(項(xiàng))的序列中的每一個(gè)編碼音頻項(xiàng)通常將具有不同的對(duì)話歸一參數(shù),并且解碼器將縮放每一項(xiàng)的水平,使得用于每一項(xiàng)的對(duì)話的回放水平或響度相同或非常相近,但是這可能需要在回放期間對(duì)于不同項(xiàng)添加不同增益量。
[0009]在一些實(shí)施例中,對(duì)話歸一參數(shù)由用戶設(shè)定,而不是自動(dòng)生成,但是在用戶沒有設(shè)定值的情況下存在默認(rèn)的對(duì)話歸一值。例如,內(nèi)容創(chuàng)建者可通過AC-3編碼器外部的設(shè)備來進(jìn)行響度測(cè)量,然后將結(jié)果(指示音頻節(jié)目的口語(yǔ)對(duì)話的響度)傳遞至編碼器以設(shè)定對(duì)話歸一值。因此,依賴于內(nèi)容創(chuàng)建者正確地設(shè)定對(duì)話歸一參數(shù)。
[0010]關(guān)于AC-3位流中的對(duì)話歸一參數(shù)可能不正確,存在若干不同的理由。首先,每個(gè)AC-3編碼器具有默認(rèn)對(duì)話歸一值,如果對(duì)話歸一值沒有被內(nèi)容創(chuàng)建者設(shè)定,則在位流生成期間使用該默認(rèn)對(duì)話歸一值。此默認(rèn)值可能明顯不同于音頻的實(shí)際對(duì)話響度水平。其次,即使內(nèi)容創(chuàng)建者測(cè)量響度并且相應(yīng)地設(shè)定對(duì)話歸一值,不符合所建議的響度測(cè)量方法的響度測(cè)量算法或者測(cè)量計(jì)可能已被使用,這導(dǎo)致不正確的對(duì)話歸一值。第三,即使AC-3位流已通過被內(nèi)容創(chuàng)建者正確地測(cè)量和設(shè)定的對(duì)話歸一值來創(chuàng)建,但是該對(duì)話歸一值在位流的傳輸和/或存儲(chǔ)期間可能已由于中間模塊而改變?yōu)椴徽_的值。例如,在電視廣播應(yīng)用中,常見地是AC-3位流通過使用不正確的對(duì)話歸一元數(shù)據(jù)信息被解碼、修正并然后重新編碼。因此,AC-3位流中包括的對(duì)話歸一值可能是不正確的或不準(zhǔn)確的,因此可能對(duì)于收聽體驗(yàn)的質(zhì)量造成不利影響。
[0011]此外,對(duì)話歸一參數(shù)沒有指示對(duì)應(yīng)音頻數(shù)據(jù)的響度處理狀態(tài)(例如,已對(duì)于音頻數(shù)據(jù)執(zhí)行的響度處理的類型)。另外,當(dāng)前采用的響度和DRC系統(tǒng)(諸如,DolbyDigital(DD)和Dolby Digital Plus (DD+)系統(tǒng)中的系統(tǒng))被設(shè)計(jì)為在消費(fèi)者起居室或者影院中呈現(xiàn)AV內(nèi)容。為了使得這樣的內(nèi)容適合于其它環(huán)境和收聽設(shè)備(例如,移動(dòng)設(shè)備)中回放,必須在回放設(shè)備中“盲目”應(yīng)用后處理以使得AV內(nèi)容適合于該收聽環(huán)境。換句話說,后處理器(或者解碼器)假定所接收的內(nèi)容的響度水平處于特定水平(例如,-31dB或-20dB),并且后處理器將該水平設(shè)定為適合于特定設(shè)備的預(yù)先確定的固定目標(biāo)水平。如果所假定的響度水平或者預(yù)先確定的目標(biāo)水平是不正確的,則后處理可能具有與其的預(yù)期效果相反的效果,即后處理可能使得輸出音頻低于用戶的期望。
[0012]所公開的實(shí)施例不局限于用于AC-3位流,E-AC-3位流或者Dolby E位流,但是為了方便起見,這樣的位流將結(jié)合包括響度處理狀態(tài)元數(shù)據(jù)的系統(tǒng)被討論。Dolby、DolbyDigitaKDolby Digital Plus、以及Dolby E是杜比實(shí)驗(yàn)室特許公司的商標(biāo),杜比實(shí)驗(yàn)室提供了分別已知為Dolby和Dolby Digital的AC-3和E-AC-3的專有實(shí)現(xiàn)。
【發(fā)明內(nèi)容】
[0013]實(shí)施例涉及一種用于解碼音頻數(shù)據(jù)的方法,該方法接收包含與音頻數(shù)據(jù)相關(guān)聯(lián)的元數(shù)據(jù)的位流,并且分析位流中的元數(shù)據(jù)以確定是否在位流中可獲得用于第一組音頻回放設(shè)備的響度參數(shù)。響應(yīng)于確定對(duì)于該第一組存在該參數(shù),處理組件使用該參數(shù)和音頻數(shù)據(jù)來呈現(xiàn)音頻。響應(yīng)于確定對(duì)于該第一組不存在該參數(shù),則處理組件分析該第一組的一個(gè)或更多個(gè)特性,并且基于該一個(gè)或更多個(gè)特性來確定參數(shù)。該方法可進(jìn)一步通過將參數(shù)和音頻數(shù)據(jù)傳輸至呈現(xiàn)音頻以供回放的下游模塊,使用該參數(shù)和音頻數(shù)據(jù)來呈現(xiàn)音頻。參數(shù)和音頻數(shù)據(jù)還可被用于通過基于參數(shù)和音頻數(shù)據(jù)呈現(xiàn)音頻數(shù)據(jù)來呈現(xiàn)音頻。
[0014]在一個(gè)實(shí)施例中,該方法還包括確定將呈現(xiàn)所接收的音頻流的輸出設(shè)備,并且確定該輸出設(shè)備是否屬于第一組音頻回放設(shè)備;其中,分析流中的元數(shù)據(jù)以確定是否可獲得第一組音頻回放設(shè)備的響度參數(shù)的步驟在確定該輸出設(shè)備屬于第一組音頻回放設(shè)備的步驟之后被執(zhí)行。在一個(gè)實(shí)施例中,確定該輸出設(shè)備屬于第一組音頻回放設(shè)備的步驟包括:接收來自與輸出設(shè)備連接的模塊的指示輸出設(shè)備的身份(identity)或者指示包括該輸出設(shè)備的一組設(shè)備的身份的指示,并且基于所接收到的指示確定輸出設(shè)備是否屬于第一組音頻回放設(shè)備。
[0015]實(shí)施例進(jìn)一步涉及包括執(zhí)行上文編碼方法實(shí)施例中描述的動(dòng)作的處理組件的裝置或系統(tǒng)。
[0016]實(shí)施例進(jìn)一步涉及一種音頻數(shù)據(jù)解碼方法,該方法接收音頻數(shù)據(jù)和與該音頻數(shù)據(jù)相關(guān)聯(lián)的元數(shù)據(jù),分析位流中的元數(shù)據(jù)以確定在該位流中是否可獲得與第一組音頻設(shè)備的響度參數(shù)相關(guān)聯(lián)的響度信息,并且響應(yīng)于確定對(duì)于該第一組存在該響度信息,從該位流確定響度信息,并且傳輸音頻數(shù)據(jù)和響度信息以用于呈現(xiàn)音頻,或者如果對(duì)于該第一組不存在該響度信息,確定與輸出簡(jiǎn)檔相關(guān)聯(lián)的響度信息,并且傳輸所確定的該輸出簡(jiǎn)檔的響度信息以用于呈現(xiàn)音頻。在一個(gè)實(shí)施例中,確定與輸出簡(jiǎn)檔相關(guān)聯(lián)的響度信息的步驟可進(jìn)一步包括分析輸出簡(jiǎn)檔的特性,基于該特性確定參數(shù),并且傳輸所確定的響度信息包括傳輸所確定的參數(shù)。響度信息可包括輸出簡(jiǎn)檔的響度參數(shù)或者輸出簡(jiǎn)檔的特性。在一個(gè)實(shí)施例中,該方法可進(jìn)一步包括確定要被傳輸?shù)牡臀宦示幋a流,其中響度信息包括一個(gè)或更多個(gè)輸出簡(jiǎn)檔的特性。
[0017]實(shí)施例進(jìn)一步涉及包括執(zhí)行上文解碼方法實(shí)施例中描述的動(dòng)作的處理組件的裝置或系統(tǒng)。
【附圖說明】
[0018]在以下附圖中相似的附圖標(biāo)記被用于指示相似元件。盡管以下附圖描繪了各種示例,文中所描述的實(shí)現(xiàn)不局限于附圖中所描繪的示例。
[0019]圖1是根據(jù)一些實(shí)施例的被配置用于執(zhí)行響度和動(dòng)態(tài)范圍的優(yōu)化的音頻處理系統(tǒng)的實(shí)施例的框圖;
[0020]圖2是根據(jù)一些實(shí)施例的圖1的系統(tǒng)中所使用的編碼器的框圖。
[0021]圖3是根據(jù)一些實(shí)施例的圖1的系統(tǒng)中所使用的解碼器的框圖。
[0022]圖4是AC-3幀的圖示,包括AC-3幀分割成多個(gè)分段。
[0023]圖5是AC-3幀的同步信息(SI)分段的圖示,包括AC_3幀分割成多個(gè)分段。
[0024]圖6是AC-3幀的位流信息(BSI)分段的圖示,包括AC_3幀分割成多個(gè)分段。
[0025]圖7是E-AC-3幀的圖示,包括E_AC_3幀分割成多個(gè)分段。
[0026]圖8是示出根據(jù)一些實(shí)施例的編碼位流的某些幀和元數(shù)據(jù)的格式的表。
[0027]圖9是示出根據(jù)一些實(shí)施例的響度處理狀態(tài)元數(shù)據(jù)的格式的表。
[0028]圖10是根據(jù)一些實(shí)施例的可被配置為執(zhí)行響度和動(dòng)態(tài)范圍的優(yōu)化的圖1的音頻處理系統(tǒng)的更詳細(xì)的框圖。
[0029]圖11是示出在示例性使用情況中關(guān)于各種回放設(shè)備和背景收聽環(huán)境的不同動(dòng)態(tài)范圍要求的表。
[0030]圖12是根據(jù)實(shí)施例的動(dòng)態(tài)范圍優(yōu)化系統(tǒng)的框圖。
[0031]圖13是根據(jù)一些實(shí)施例的用于各種不同回放設(shè)備類別的不同簡(jiǎn)檔之間的接口的框圖。
[0032]圖14是示出根據(jù)實(shí)施例的多種定義的簡(jiǎn)檔的長(zhǎng)期響度和短期動(dòng)態(tài)范圍之間的關(guān)聯(lián)性的表。
[0033]圖15示出根據(jù)實(shí)施例的用于不同類型的音頻內(nèi)容的響度簡(jiǎn)檔的示例。
[0034]圖16是示出根據(jù)實(shí)施例的在回放設(shè)備和應(yīng)用之間優(yōu)化響度和動(dòng)態(tài)范圍的方法的流程圖。
【具體實(shí)施方式】
[0035]定義和命名法
[0036]在本公開的上下文中、包括在權(quán)利要求書中,表述“對(duì)信號(hào)或數(shù)據(jù)執(zhí)行操作(例如對(duì)信號(hào)或數(shù)據(jù)進(jìn)行濾波、縮放、變換或者應(yīng)用增益)”被在廣義上使用以指示直接對(duì)信號(hào)或數(shù)據(jù)執(zhí)行該操作,或者對(duì)信號(hào)或數(shù)據(jù)的處理后的版本(例如,在執(zhí)行該操作之前經(jīng)受了初步濾波或者預(yù)處理的信號(hào)的版本)執(zhí)行該操作。表述“系統(tǒng)”被在廣義上使用以指示設(shè)備、系統(tǒng)或者子系統(tǒng)。例如,實(shí)現(xiàn)解碼器的子系統(tǒng)可被稱為解碼器系統(tǒng),包括這樣的子系統(tǒng)的系統(tǒng)(例如,響應(yīng)于多個(gè)數(shù)據(jù)生成X輸出信號(hào)的系統(tǒng),其中該子系統(tǒng)生成輸入中的M個(gè)輸出而另外的X-M個(gè)輸入被從外部源接收到)也可被稱為解碼器系統(tǒng)。術(shù)語(yǔ)“處理器”被在廣義上使用以指示可編程或者可被配置為(例如,通過軟件或固件)對(duì)數(shù)據(jù)(例如,音頻、視頻或其它圖像數(shù)據(jù))執(zhí)行操作的系統(tǒng)或設(shè)備。處理器的示例包括現(xiàn)場(chǎng)可編程門陣列(或者,其它可編程集成電路或芯片組)、被編程和/或另外配置為對(duì)音頻或者其它聲音數(shù)據(jù)執(zhí)行流水線處理的數(shù)字信號(hào)處理器、可編程通用處理器或計(jì)算機(jī)、以及可編程微處理器芯片或芯片組。
[0037]表述“音頻處理器”和“音頻處理單元”被互換地使用,并且在廣義上指示被配置為處理音頻數(shù)據(jù)的系統(tǒng)。音頻處理單元的示例包括但不限于編碼器(例如,代碼轉(zhuǎn)換器)、解碼器、編解碼器、預(yù)處理系統(tǒng)、后處理系統(tǒng)和位流處理系統(tǒng)(有時(shí)被稱為位流處理工具)。表述“處理狀態(tài)元數(shù)據(jù)”(例如,在表述“響度處理狀態(tài)元數(shù)據(jù)”中)指的是來自對(duì)應(yīng)音頻數(shù)據(jù)的分離的和不同的數(shù)據(jù)(也包括處理狀態(tài)元數(shù)據(jù)的音頻數(shù)據(jù)流的音頻內(nèi)容)。處理狀態(tài)元數(shù)據(jù)與音頻數(shù)據(jù)相關(guān)聯(lián),指示對(duì)應(yīng)音頻數(shù)據(jù)的響度處理狀態(tài)(例如,對(duì)于音頻數(shù)據(jù)已經(jīng)執(zhí)行了什么類型的處理),并且可選地還指示音頻數(shù)據(jù)的至少一個(gè)特征或特性。在一些實(shí)施例中,處理狀態(tài)元數(shù)據(jù)與音頻數(shù)據(jù)的關(guān)聯(lián)性是時(shí)間同步的。因此,當(dāng)前的(最新接收的或者更新的)處理狀態(tài)元數(shù)據(jù)指示對(duì)應(yīng)的音頻數(shù)據(jù)同時(shí)地包括所指示類型的音頻數(shù)據(jù)處理的結(jié)果。在一些情況中,處理狀態(tài)元數(shù)據(jù)可包括處理歷史和/或所指示類型的處理中所使用的和/或從其導(dǎo)出的參數(shù)的一些或全部。另外,處理狀態(tài)元數(shù)據(jù)可包括對(duì)應(yīng)音頻數(shù)據(jù)的已經(jīng)從音頻數(shù)據(jù)被計(jì)算或提取的至少一個(gè)特征或特性。處理狀態(tài)元數(shù)據(jù)還可包括與對(duì)應(yīng)音頻數(shù)據(jù)的任何處理無關(guān)的或者不從其導(dǎo)出的其它元數(shù)據(jù)。例如,第三方數(shù)據(jù)、跟蹤信息、標(biāo)識(shí)符、專有或標(biāo)準(zhǔn)信息、用戶注釋數(shù)據(jù)、用戶偏好數(shù)據(jù)等可通過特定音頻處理單元被添加以傳遞至其它音頻處理單元。
[0038]表述“響度處理狀態(tài)元數(shù)據(jù)”(或者“LPSM” )指示如下這樣的處理狀態(tài)元數(shù)據(jù),其指示對(duì)應(yīng)音頻數(shù)據(jù)的響度處理狀態(tài)(例如,對(duì)于音頻數(shù)據(jù)已經(jīng)執(zhí)行了什么類型的處理),并且可選地還指示對(duì)應(yīng)音頻數(shù)據(jù)的至少一個(gè)特征或特性(例如響度)。響度處理狀態(tài)元數(shù)據(jù)可包括不是響度處理狀態(tài)元數(shù)據(jù)的數(shù)據(jù)(例如,在被單獨(dú)考慮時(shí))。術(shù)語(yǔ)“耦合”或者“被耦合”用于表示直接或者間接連接。
[0039]針對(duì)如下的音頻編碼器/解碼器描述系統(tǒng)和方法,該音頻編碼器/解碼器在需要或者使用不同的目標(biāo)響度值并且具有不同的動(dòng)態(tài)范圍能力的各種設(shè)備之間非破壞性地歸一化音頻的響度和動(dòng)態(tài)范圍。根據(jù)一些實(shí)施例的方法和功能組件針對(duì)一個(gè)或多個(gè)設(shè)備簡(jiǎn)檔將關(guān)于音頻內(nèi)容的信息從編碼器發(fā)送至解碼器。設(shè)備簡(jiǎn)檔指定了一個(gè)或多個(gè)設(shè)備的所希望的目標(biāo)響度和動(dòng)態(tài)范圍。系統(tǒng)是可擴(kuò)展的,從而可支持具有不同的“標(biāo)稱”響度目標(biāo)的新設(shè)備簡(jiǎn)檔。
[0040]在一個(gè)實(shí)施例中,系統(tǒng)在編碼器中基于響度控制和動(dòng)態(tài)范圍要求生成合適的增益,或者在來自編碼器的控制下通過用以減少數(shù)據(jù)率的原始增益的參數(shù)化、在解碼器中生成增益。動(dòng)態(tài)范圍系統(tǒng)包括用于實(shí)現(xiàn)響度控制的兩個(gè)機(jī)制:對(duì)于音頻將如何回放提供內(nèi)容創(chuàng)建器控制的藝術(shù)動(dòng)態(tài)范圍簡(jiǎn)檔;和