亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

處理基于對象的音頻信號的制作方法

文檔序號:12379576閱讀:291來源:國知局
處理基于對象的音頻信號的制作方法與工藝
本文公開的示例實施例通常涉及音頻信號處理,更具體地,涉及用于處理基于對象的音頻信號的方法和系統(tǒng)。
背景技術(shù)
:存在在時域或者頻域修改音頻信號的若干音頻處理算法。各種音頻處理算法被開發(fā)以便于改進(jìn)音頻信號的總體質(zhì)量,并且因而增強(qiáng)用戶對回放的體驗。以示例的方式,現(xiàn)有的處理算法可以包括環(huán)繞虛擬器、對話增強(qiáng)器、音量調(diào)節(jié)器、動態(tài)均衡器等。環(huán)繞虛擬器可以被用來在諸如耳機(jī)之類的立體聲設(shè)備上呈現(xiàn)多聲道音頻信號,因為其產(chǎn)生了用于立體聲設(shè)備的虛擬環(huán)繞效果。對話增強(qiáng)器旨在增強(qiáng)對話,以便于改進(jìn)人類嗓音的清晰度和可理解性。音量調(diào)節(jié)器旨在修改音頻信號從而使得音頻內(nèi)容的響度隨時間的一致性更好,這可以在某些時間針對非常吵的對象降低輸出音量,但在其它一些時間針對微弱的對象增強(qiáng)輸出音量。動態(tài)均衡器提供了在每個頻率帶自動調(diào)節(jié)均衡增益的方式,以便于保持頻譜平衡相對于期望的音色或音調(diào)的總一致性。傳統(tǒng)地,現(xiàn)有的音頻處理算法被開發(fā)用于處理基于聲道的音頻信號,諸如立體聲、5.1和7.1環(huán)繞信號。因為聲場被解釋為諸如前左、前右、環(huán)繞左、環(huán)繞右以及甚至高度揚(yáng)聲器之類的若干端點(endpoint),音場可以被所有的這些端點定義?;诼暤赖囊纛l信號因此可以在聲場中被空間呈現(xiàn)。輸入音頻聲道首先被降混(downmix)為若干子混集(submix),諸如前、中和環(huán)繞子混集,以便于減小隨后的音頻處理算法的計算復(fù)雜度。在上下文中,聲場可以相對于端點布置被劃分為多個覆蓋區(qū)域,并且子混集表示音頻信號相對于特定覆蓋區(qū)域的分量之和。音頻信號通常作為基于聲道的音頻信號被處理和呈現(xiàn),意味 著與音頻對象的位置、速度、大小等相關(guān)聯(lián)的元數(shù)據(jù)在音頻信號中不存在。近來,越來越多的基于對象的音頻內(nèi)容被創(chuàng)建,其可以包括音頻對象和與音頻對象相關(guān)聯(lián)的元數(shù)據(jù)。與傳統(tǒng)的基于聲道的音頻內(nèi)容相比,這種類型的音頻內(nèi)容通過音頻對象的更加靈活的呈現(xiàn)而提供了更加3D沉浸式的音頻體驗。在回放時,呈現(xiàn)算法例如可以將音頻對象呈現(xiàn)至周圍全都包括揚(yáng)聲器甚至在收聽者上方也包括揚(yáng)聲器的沉浸式揚(yáng)聲器布局。然而,通過使用如以上提及的慣常音頻處理算法,基于對象的音頻信號需要首先被呈現(xiàn)為基于聲道的音頻信號,以便于被降混為子混集以用于音頻處理。這意味著與這些基于對象的音頻信號相關(guān)聯(lián)的元數(shù)據(jù)被丟棄,并且產(chǎn)生的呈現(xiàn)因而在回放表現(xiàn)方面是被妥協(xié)的。有鑒于此,本領(lǐng)域需要一種用于處理及呈現(xiàn)基于對象的音頻信號而不丟棄其元數(shù)據(jù)的方案。技術(shù)實現(xiàn)要素:為了解決前述和其它潛在的問題,本文公開的示例實施例提出了用于處理基于對象的音頻信號的方法和系統(tǒng)。在一個方面,本文公開的示例實施例提供了一種處理音頻信號的方法,該音頻信號具有多個音頻對象。該方法包括基于音頻對象的空間元數(shù)據(jù)計算針對音頻對象中的每個相對于多個預(yù)定義聲道覆蓋區(qū)域中的每個的平移系數(shù),以及基于計算出的平移系數(shù)和音頻對象將音頻信號轉(zhuǎn)換為相對于預(yù)定義的聲道覆蓋區(qū)域的子混集。預(yù)定義的聲道覆蓋區(qū)域由分布在聲場中的多個端點定義。每個子混集指示多個音頻對象相對于預(yù)定義的聲道覆蓋區(qū)域中的一個聲道覆蓋區(qū)域的分量之和。該方法還包括通過向子混集中的每個子混集應(yīng)用音頻處理而生成子混集增益,以及控制被應(yīng)用至音頻對象中的每個音頻對象的對象增益,該對象增益為針對音頻對象中的每個音頻對象的平移系數(shù)以及相對于預(yù)定義的聲道覆蓋區(qū)域中的每個聲道覆蓋區(qū)域的子混集增益的 函數(shù)。在另一個方面,本文公開的示例實施例提供了一種處理音頻信號的系統(tǒng),該音頻信號具有多個音頻對象。該系統(tǒng)包括被配置為基于音頻對象的空間元數(shù)據(jù)計算針對音頻對象中的每個相對于多個預(yù)定義聲道覆蓋區(qū)域中的每個的平移系數(shù)的平移系數(shù)計算單元,以及基于計算出的平移系數(shù)和音頻對象將音頻信號轉(zhuǎn)換為相對于預(yù)定義的聲道覆蓋區(qū)域的子混集的子混集轉(zhuǎn)換單元。預(yù)定義的聲道覆蓋區(qū)域由分布在聲場中的多個端點定義。每個子混集指示多個音頻對象相對于預(yù)定義的聲道覆蓋區(qū)域中的一個聲道覆蓋區(qū)域的分量之和。該系統(tǒng)還包括通過向子混集中的每個子混集應(yīng)用音頻處理而生成子混集增益的子混集增益生成單元,以及控制被應(yīng)用至音頻對象中的每個音頻對象的對象增益的對象增益控制單元,該對象增益為針對音頻對象中的每個音頻對象的平移系數(shù)以及相對于預(yù)定義的聲道覆蓋區(qū)域中的每個聲道覆蓋區(qū)域的子混集增益的函數(shù)。通過下面的描述,將理解的是依據(jù)本文公開的示例實施例,可以考慮相關(guān)聯(lián)的元數(shù)據(jù)而呈現(xiàn)基于對象的音頻信號。因為當(dāng)呈現(xiàn)所有的音頻對象時來自原始音頻信號的元數(shù)據(jù)被保留并且被使用,音頻信號處理和呈現(xiàn)可以被更加準(zhǔn)確地執(zhí)行,并且因而產(chǎn)生的再現(xiàn)例如在被家庭影院系統(tǒng)播放時更加地身臨其境。同時,利用本文描述的子混過程,基于對象的音頻信號可以被轉(zhuǎn)換為多個子混集,這些轉(zhuǎn)換的子混集可以被傳統(tǒng)的音頻處理算法所處理而這是有利的,因為已知的處理算法對于基于對象的音頻處理而言都是可應(yīng)用的。另一方面,生成的平移系數(shù)對于產(chǎn)生用于加權(quán)所有的原始音頻對象的對象增益而言是有用的。因為在基于對象的音頻信號中的對象的數(shù)量通常比基于聲道的音頻信號中的聲道的數(shù)量大得多,對象的單獨的加權(quán)與向聲道應(yīng)用處理的子混集增益的常規(guī)方法相比,產(chǎn)生了音頻信號的更加準(zhǔn)確的處理和呈現(xiàn)。本文公開的示例實施例所實現(xiàn)的其它優(yōu)點將通過以下描述而變得顯而易見。附圖說明通過參照附圖的以下詳細(xì)描述,本文公開的示例實施例的上述和其它目的、特征和優(yōu)點將變得更容易理解。在附圖中,本文公開的示例實施例將以示例以及非限制性的方式進(jìn)行說明,其中:圖1圖示了根據(jù)示例實施例的處理基于對象的音頻信號的方法的流程圖;圖2圖示了根據(jù)示例實施例的對于環(huán)繞端點的典型布置的預(yù)定義聲道覆蓋區(qū)域的示例。圖3圖示了根據(jù)示例實施例的基于對象的音頻信號呈現(xiàn)的框圖;圖4圖示了根據(jù)另一示例實施例的處理基于對象的音頻信號的方法的流程圖;圖5圖示了根據(jù)示例實施例的用于處理基于對象的音頻信號的系統(tǒng);以及圖6圖示了適于實施本文公開的示例實施例的示例計算機(jī)系統(tǒng)的框圖。在全部附圖中,相同或相應(yīng)的附圖標(biāo)記指代相同或相應(yīng)的部分。具體實施方式現(xiàn)在將參照附圖中所示的各種示例實施例對本文公開的示例實施例的原理進(jìn)行說明。應(yīng)當(dāng)理解,這些實施例的描述僅僅是使本領(lǐng)域技術(shù)人員能夠更好地理解并進(jìn)一步實施本文公開的示例實施例,而不意在以任何方式對范圍進(jìn)行限制。本文公開的示例實施例假設(shè)作為輸入的音頻內(nèi)容或音頻信號是基于對象的格式。其包括一個或多個音頻對象,并且,每個音頻對象指的是具有相關(guān)聯(lián)的空間元數(shù)據(jù)的個體音頻元素,該空間元數(shù)據(jù)描述了對象的特性,諸如位置、速度、大小等。音頻對象可以基于單個聲道或多個聲道。音頻信號旨在于預(yù)定義的和固定的揚(yáng)聲器位置被再現(xiàn),其能夠在如由聽眾感知到的位置和響度方面精確地表現(xiàn)音頻對象。此外,由于其信息量大的元數(shù)據(jù),基于對象的音頻信號易于被操縱或處 理,并且其可以被適配至不同的聲學(xué)系統(tǒng),諸如7.1環(huán)繞家庭影院以及耳機(jī)。因此,與傳統(tǒng)的基于聲道的音頻內(nèi)容相比,基于對象的音頻信號可以通過音頻對象的更加靈活的呈現(xiàn)而提供了更加沉浸式的音頻體驗。圖1圖示了根據(jù)示例實施例的處理基于對象的音頻信號的方法100的流程圖,而圖3圖示了根據(jù)示例實施例的基于對象的音頻信號處理的示例框架300。同時,圖2圖示了由環(huán)繞端點的典型布置定義的預(yù)定義聲道覆蓋區(qū)域的示例,其示出了用于環(huán)繞內(nèi)容再現(xiàn)的典型的使用環(huán)境。以下將參考圖1至圖3描述實施例。在本文公開的一個示例實施例中,在步驟S101,基于每個對象的空間元數(shù)據(jù),即其在聲場中相對于端點或揚(yáng)聲器的位置,計算出針對音頻對象的每個音頻對象相對于預(yù)定義聲道覆蓋區(qū)域中的每個預(yù)定義聲道覆蓋區(qū)域的平移系數(shù)。在上下文中,預(yù)定義聲道覆蓋區(qū)域可以由分布在聲場中的多個端點所定義,使得在聲場中的任意音頻對象的位置可以相對于區(qū)域被描述。例如,如果特定的對象旨在于聽眾的后側(cè)被播放,其定位應(yīng)當(dāng)大部分由環(huán)繞區(qū)域貢獻(xiàn)同時小部分由其它區(qū)域貢獻(xiàn)。平移系數(shù)是用于描述特定音頻對象相對于若干預(yù)定義聲道覆蓋區(qū)域中的每個預(yù)定義聲道覆蓋區(qū)域有多近的權(quán)重。每個預(yù)定義聲道覆蓋區(qū)域可以對應(yīng)于用來聚類音頻對象相對于每個預(yù)定義聲道覆蓋區(qū)域的分量的一個子混集。圖2圖示了分布在由多個端點或揚(yáng)聲器形成的聲場中的預(yù)定義聲道覆蓋區(qū)域的示例,其中中央?yún)^(qū)域由中央聲道211(由0.5指示的上中圓圈)所定義,前區(qū)域由前左聲道201和前右聲道202(由0和1.0分別指示的上左和上右圓圈)所定義,并且環(huán)繞區(qū)域由多個環(huán)繞聲道,例如為兩個環(huán)繞左聲道221、223(由0.5和1.0分別指示的左和左下的圓圈)和兩個環(huán)繞右聲道222、224(由0.5和1.0分別指示的右和右下圓圈)所定義。兩個虛線的相交表示聽眾被推薦就座以便于體驗可能是最好的音質(zhì)和環(huán)繞效果的甜蜜點。然而,聽眾可以在甜蜜點之外的其它地方就座并且也可以感知到沉浸式的再現(xiàn)。要指出的是,圖2僅示出了可以以2D的方式由x軸和y軸描述特定音頻對象的聲場。然而,高度區(qū)域也可以由高度聲道被定義。大多數(shù)可商業(yè)獲得的環(huán)繞系統(tǒng)根據(jù)圖2被布置,并且因而針對音頻對象的空間元數(shù)據(jù)可以為對應(yīng)于圖2中的坐標(biāo)系統(tǒng)的[X,Y]或[X,Y,Z]的形式。平移系數(shù)可以分別針對中央?yún)^(qū)域、前區(qū)域、環(huán)繞區(qū)域和高度區(qū)域通過等式(1)至(4)針對每個子混集中的每個音頻對象而被計算。αic=cos(xiπ2)cos(yiπ2)cos(ziπ2)---(1)]]>αif=sin(xiπ2)cos(yiπ2)cos(ziπ2)---(2)]]>αis=sin(yiπ2)cos(ziπ2)---(3)]]>αih=sin(ziπ2)---(4)]]>其中α表示針對每個區(qū)域的平移系數(shù),i表示對象指標(biāo),c,f,s,h表示中央、前、環(huán)繞和高度區(qū)域、[xi,yi,zi]表示從原始對象位置[Xi,Yi,Zi]導(dǎo)出的系數(shù)計算的修改的相對位置,即xi=|Xi-0.5|0.5;yi=min(2Yi,1.0);zi=Zi---(5)]]>要指出的是,如圖2所示的端點布置和其對應(yīng)的坐標(biāo)系統(tǒng)是說明性的。端點或揚(yáng)聲器如何被布置以及音頻對象在聲場內(nèi)的位置被如何表示并不被限制。此外,雖然前、中央、環(huán)繞和高度區(qū)域在本文公開的示例實施例中被圖示,應(yīng)當(dāng)理解的是,其它方式的區(qū)域分割也是可能的,并且分割的區(qū)域的數(shù)量并不被限制。在步驟S102,基于音頻對象以及在如上所述的步驟S101計算出的平移系數(shù),音頻信號被轉(zhuǎn)換為相對于預(yù)定義聲道覆蓋區(qū)域的子混集。將音頻信號轉(zhuǎn)換為子混集的步驟也可以指的是降混。在一個示例實施例中,子混集可以被以下的等式(6)生成為每個音頻對象的加權(quán)平均值。sj=Σi=1Nαijobjecti---(6)]]>其中s表示子混集信號,其包括多個音頻對象相對于預(yù)定義聲道覆蓋區(qū)域的分量,j表示如之前定義的四個區(qū)域c,f,s,h中的一個,N表示基于對象的音頻信號中的音頻對象的總數(shù)量,objecti表示與音頻對象相關(guān)聯(lián)的信號,并且αij表示針對第i個對象相對于第j個區(qū)域的平移系數(shù)。在以上實施例中,子混集降混過程對每個區(qū)域?qū)嵤?,在每個區(qū)域中平移系數(shù)針對所有的音頻對象被加權(quán)。作為平移系數(shù)的結(jié)果,每個對象可以在各個區(qū)域中被不同地分布。例如,在聲場的右側(cè)處的槍聲可以使得其主要的分量被降混到由圖2中所示的201和202表示的前子混集中,而其次要的(多個)分量被降混到其它(多個)子混集中。換言之,一個子混集指示多個音頻對象相對于一個預(yù)定義聲道覆蓋區(qū)域的分量之和。在一個示例實施例中,前子混集可以基于針對所有音頻對象相對于前區(qū)域的平移系數(shù)被轉(zhuǎn)換,中央子混集可以基于針對所有音頻對象相對于中央?yún)^(qū)域的平移系數(shù)被轉(zhuǎn)換,環(huán)繞子混集可以基于針對所有音頻對象相對于環(huán)繞區(qū)域的平移系數(shù)被轉(zhuǎn)換,并且高度子混集可以基于針對所有音頻對象相對于高度區(qū)域的平移系數(shù)被轉(zhuǎn)換。生成的高度子混集可以提供更高的解析度和更沉浸式的體驗。然而,常規(guī)的基于聲道的音頻處理算法通常僅處理前(F)、中央(C)和環(huán)繞(S)子混集。因此,算法可需要被擴(kuò)展以與C/F/S處理并行地處理高度(H)子混集。在一個示例實施例中,H子混集可以通過使用與處理S子混集相同的方法被處理。這需要對常規(guī)的基于聲道的音頻處理算法的最少修改。要指出的是,雖然應(yīng)用了相同的方法,高度子混集和環(huán)繞子混集獲得的平移系數(shù)仍將是不同的,因為輸入信號不同。可替代地,H子混集可以通過根據(jù)其空間屬性設(shè)計特定的方法而被處理。例如,特定 的響度模型和掩蔽模型可以被應(yīng)用在H子混集中以用于音頻處理,因為比較前子混集或環(huán)繞子混集的掩蔽效果和響度感知可能是非常不同的。步驟S101和S102可以被如圖3所示的對象子混集301實現(xiàn),圖3圖示了根據(jù)示例實施例的基于對象的音頻信號處理和呈現(xiàn)的框架300。輸入音頻信號是基于對象的音頻信號,起包含多個對象以及它們對應(yīng)的元數(shù)據(jù),諸如空間元數(shù)據(jù)??臻g元數(shù)據(jù)通過等式(1)至(4)被用來計算相對于四個預(yù)定義聲道覆蓋區(qū)域的平移系數(shù),并且產(chǎn)生的平移系數(shù)和原始對象通過等式(6)被用來生成子混集。平移系數(shù)的計算和子混集的生成可以被對象子混器301完成。對象子混器301是利用現(xiàn)有的基于聲道的音頻處理算法的關(guān)鍵部件,其將輸入多聲道音頻(例如,5.1或7.1)降混為三個子混集(F/C/S)以便于減小計算復(fù)雜度。類似地,對象子混器301也基于對象的空間元數(shù)據(jù)將音頻對象轉(zhuǎn)換或降混為子混集,并且子混集可以從現(xiàn)有的F/C/S擴(kuò)展以包括附加的空間解析度,例如可以擴(kuò)展如上所述高度子混集。如果對象類型的元數(shù)據(jù)是可用的,或者自動分類技術(shù)被用來識別音頻對象的類型,子混集可以進(jìn)一步包括其它非空間特性,諸如用于隨后的對話增強(qiáng)的對話子混集,其將在以下說明書中具體解釋。這些子混集根據(jù)本文的方法和系統(tǒng)被轉(zhuǎn)換,現(xiàn)有的基于聲道的音頻處理算法可以被直接使用或略微修改以用于基于對象的音頻處理。在步驟S103,子混集增益可以通過向每個子混集應(yīng)用音頻處理被生成。這可以通過如圖3中所示的音頻處理器302被實現(xiàn),其從對象子混器301接收子混集并且輸出其相應(yīng)的子混集增益。如以上所討論的,音頻處理單元302可以包括現(xiàn)有的基于聲道的音頻處理算法,這些算法包括環(huán)繞虛擬器、對話增強(qiáng)器、音量調(diào)節(jié)器、動態(tài)均衡器等,因為基于對象的音頻對象和其相應(yīng)的元數(shù)據(jù)被轉(zhuǎn)換為基于聲道的處理可以接受的子混集。就此而言,基于聲道的音頻處理可以不被改變并且也可以被用于處理基于對象的音頻對象。在步驟S104,向每個音頻對象應(yīng)用的對象增益可以被控制。這可 以由如圖3中所示的對象增益控制器303而實現(xiàn),其被用來基于子混集增益和平移系數(shù)而向原始音頻對象應(yīng)用增益。在如以上所述應(yīng)用音頻處理算法之后,針對每個子混集將估計子混集增益的集合,指示音頻信號應(yīng)當(dāng)被如何修改。這些子混集增益隨后被應(yīng)用至原始音頻對象,與每個對象對每個子混集的貢獻(xiàn)成比例。即,針對每個音頻對象的對象增益與針對每個子混集的子混集增益以及針對每個子混集中的音頻對象的平移系數(shù)相關(guān)。對象增益可以基于以下等式(7)被指派至每個音頻對象。ObjGaini=(αif·gf)2+(αis·gs)2+(αic·gc)2+(αih·gh)2i=1~N;---(7)]]>其中ObjGaini表示第個對象的對象增益,gf、gs、gc和gh表示相應(yīng)地針對前、環(huán)繞、中央和高度子混集的子混集增益,并且αif、αis、αic和αih表示針對第i個對象相應(yīng)地相對于前區(qū)域、環(huán)繞區(qū)域、中央?yún)^(qū)域和高度區(qū)域的平移系數(shù)。由于等式(7),相對于區(qū)域的位置(由αij反映,j表示四個區(qū)域c,f,s,h中的一個區(qū)域)以及期望的處理效果(由gj反映,j表示四個區(qū)域c,f,s,h中的一個區(qū)域)兩者對于每個對象而言均被考慮,導(dǎo)致對于所有的對象而言改進(jìn)了音頻處理的準(zhǔn)確度。在一個附加的示例實施例中,音頻信號可以基于元是音頻對象、它們的相應(yīng)的元數(shù)據(jù)以及對象增益而被呈現(xiàn)。該呈現(xiàn)步驟可以被如圖3中所示的對象呈現(xiàn)器304所實現(xiàn)。對象呈現(xiàn)器304可以利用各種回放設(shè)備呈現(xiàn)經(jīng)處理的(對象增益被應(yīng)用)音頻對象,回放設(shè)備可以是分立聲道、條形音箱、耳機(jī)等。任何現(xiàn)有的或潛在可用的用于基于對象的音頻信號的現(xiàn)成呈現(xiàn)器可以在此被應(yīng)用,并且因此以下將省略其細(xì)節(jié)。應(yīng)當(dāng)指出的是,雖然針對音頻對象的對象增益被舉例為用于音頻呈現(xiàn)過程,對象增益可以單獨地被提供而沒有音頻呈現(xiàn)過程。例如,獨立的解碼過程可以產(chǎn)生多個對象增益作為其輸出。利用以上描述的子混過程,基于對象的音頻信號可以被轉(zhuǎn)換為多 個子混集,這些轉(zhuǎn)換的子混集可以被傳統(tǒng)的音頻處理算法所處理而這是有利的,因為已知的處理算法對于基于對象的音頻處理而言都是可應(yīng)用的。另一方面,生成的平移系數(shù)對于產(chǎn)生用于加權(quán)所有的原始音頻對象的對象增益而言是有用的。因為在基于對象的音頻信號中的對象的數(shù)量通常比基于聲道的音頻信號中的聲道的數(shù)量大得多,對象的單獨的加權(quán)與向聲道應(yīng)用處理的子混集增益的常規(guī)方法相比,產(chǎn)生了音頻信號處理和呈現(xiàn)的改進(jìn)的準(zhǔn)確度。此外,因為當(dāng)呈現(xiàn)所有的音頻對象時來自原始音頻信號的元數(shù)據(jù)被保留并且被使用,音頻信號可以被更加準(zhǔn)確地呈現(xiàn),并且因而產(chǎn)生的再現(xiàn)例如在被家庭影院系統(tǒng)播放時更加地身臨其境。參考圖4,更加復(fù)雜的流程圖400被圖示,其涉及創(chuàng)建(多個)對話子混集及分析(多個)對象類型。在本文公開的一個示例實施例中,在步驟S401,音頻對象的類型被識別。自動分類技術(shù)可以被用來識別正在被處理的音頻信號的類型以生成對話子混集。諸如在美國專利申請?zhí)?1/811,062中涉及的現(xiàn)有的方法可以被用于音頻類型識別,并且其全部通過引用的方式被結(jié)合至本文。在另一實施例中,如果不提供自動分類而是提供音頻對象的類型的手動標(biāo)簽,特別是對話的類型,表示內(nèi)容而不是空間特性的附加對話(D)子混集也可以被生成。當(dāng)諸如旁白之類的人類嗓音旨在獨立于其它音頻對象而被處理時,對話子混集是有用的。為了實現(xiàn)這一目的,需要在步驟S402確定基于對象的音頻信號是否包括(多個)對話對象。在對話子混集生成中,對象可以被排他地指派至對話子混集,或部分地(具有權(quán)重)降混至對話子混集。例如,音頻分類算法通常輸出相對于其確定對話存在的確信度分?jǐn)?shù)(在[0,1])。該確信度分?jǐn)?shù)可以被用來估計針對對象的合理的權(quán)重。因而,C/F/S/H/D子混集可以通過使用以下平移系數(shù)而被生成。αid=ci2---(8)]]>αij′=(1-ci2)·αij---(9)]]>其中ci表示對話子混集的加權(quán)平移,其可以由音頻對象的對話置信度導(dǎo)出(或者直接等于對話置信度分?jǐn)?shù)),αid表示針對第i個對象相對于對話區(qū)域的平移系數(shù),αij′表示通過考慮對話置信度分?jǐn)?shù)對其它子混集的修改的平移系數(shù),并且j表示如之前定義的四個區(qū)域c,f,s,h。在這兩個等式(8)和(9)中,被使用以用于能量保存,并且以與等式(1)至(4)相同的方式被計算。如果一個或多個音頻對象被確定作為(多個)對話對象,該(多個)對話對象可以在步驟S403被聚類為對話子混集。利用獲得的對話子混集,對話增強(qiáng)可以著手于干凈的對話信號而不是混合的信號(具有背景音樂或噪聲的對話)。其帶來的另一益處在于在不同位置的對話可以同時被增強(qiáng),而傳統(tǒng)的對話增強(qiáng)僅可促進(jìn)中央聲道中的對話。在一些情況下,如果在包括對話子混集時希望維持與四個子混集相同的計算復(fù)雜度,四個“增強(qiáng)”子混集可以從五個C/F/S/H/D子混集中生成。一種可能的方式是,D可以被用來取代C,同時將原始的C和F合并在一起,因而四個子混集被生成:(在C中的)D、C+F、S和H。在該情況下,所有的對話被“有意地”放在中央子混集,因為傳統(tǒng)的對話增強(qiáng)假設(shè)人類嗓音被中央聲道所再現(xiàn),而本應(yīng)被平移至中央子混集的非對話對象被平移至前子混集。利用現(xiàn)有的音頻處理算法,以上過程平順地工作。在步驟S404,可以通過應(yīng)用一些關(guān)于對話的特定的處理算法而針對(多個)對話對象生成子混集增益,以便于表示特定對話子混集的期望的加權(quán)。隨后在步驟S405,剩余的音頻對象可以被降混至子混集,其與以上描述的步驟S101和S102相似。由于對象類型在步驟S401可能已經(jīng)被識別,如在美國專利申請?zhí)?1/811,062中存在的系統(tǒng),所識別的類型可以在步驟S406被使用來基于所識別的類型通過估計它們最合適的參數(shù)而自動引導(dǎo)音頻處 理算法的行為。例如,智能均衡器的數(shù)量可以被設(shè)置為針對音樂信號接近于1,并且將其設(shè)置為針對演講信號接近于0。最終,在步驟S407,被應(yīng)用至每個音頻對象的音頻增益可以以與步驟S104相比相似的方式被控制。要指出的是,從S403至S406的步驟并不必依次被排序。(多個)對話對象和其它(多個)對象可以同時被處理,使得針對所有的對象產(chǎn)生的子混集增益在同時間被生成。在另一示例中,針對(多個)對話對象的子混集增益可以在針對剩余的(多個)對象的子混集增益被生成之后被生成。利用根據(jù)本文描述的示例實施例的基于對象的音頻信號處理過程,對象可以更加準(zhǔn)確地被呈現(xiàn)。此外,即使對話子混集要被利用,計算復(fù)雜度與僅具有F/C/S/H子混集相比將不會被增大。圖5圖示了根據(jù)本文描述的示例實施例的用于處理具有多個音頻對象的音頻信號的系統(tǒng)500。如圖所示,系統(tǒng)500包括平移系數(shù)計算單元501,其被配置為基于音頻對象的空間元數(shù)據(jù),計算針對音頻對象中的每個音頻對象相對于多個預(yù)定義聲道覆蓋區(qū)域中的每個預(yù)定義聲道覆蓋區(qū)域的平移系數(shù)。系統(tǒng)500還包括子混集轉(zhuǎn)換單元502,其被配置為基于音頻對象和計算出的平移系數(shù)而將音頻信號轉(zhuǎn)換為相對于預(yù)定義聲道覆蓋區(qū)域的子混集。預(yù)定義的聲道覆蓋區(qū)域由分布在聲場中的多個端點定義。子混集指示中的每個子混集多個音頻對象相對于預(yù)定義的聲道覆蓋區(qū)域中的一個聲道覆蓋區(qū)域的分量之和。該系統(tǒng)500還包括通過向子混集中的每個子混集應(yīng)用音頻處理而生成子混集增益的子混集增益生成單元503,以及控制被應(yīng)用至音頻對象中的每個音頻對象的對象增益的對象增益控制單元504,該對象增益為針對音頻對象中的每個音頻對象的平移系數(shù)以及相對于預(yù)定義的聲道覆蓋區(qū)域中的每個聲道覆蓋區(qū)域的子混集增益的函數(shù)。在一些示例實施例中,系統(tǒng)500可以包括音頻信號呈現(xiàn)單元,其被配置為基于音頻對象和對象增益呈現(xiàn)音頻信號。在一些其它示例實施例中,子混集中的每個子混集可以被轉(zhuǎn)換為 多個音頻對象的加權(quán)平均值,其中權(quán)重為針對音頻對象中的每個音頻對象的平移系數(shù)。在另一示例實施例中,預(yù)定義聲道覆蓋區(qū)域的數(shù)量可以與被轉(zhuǎn)換的子混集的數(shù)量相等。在又一示例實施例中,系統(tǒng)500可以進(jìn)一步包括對話確定單元,其被配置為確定音頻對象是否屬于對話對象,以及對話對象聚類單元,其被配置為響應(yīng)于音頻對象被確定為對話對象而將音頻對象聚類為對話子混集。在本文公開的一些示例實施例中,可以以置信度分?jǐn)?shù)來估計音頻對象是否屬于對話對象,并且該系統(tǒng)500可以進(jìn)一步包括對話子混集增益生成單元,其被配置為基于所估計的置信度分?jǐn)?shù)而生成針對對話子混集的子混集增益。在一些其它示例實施例中,預(yù)定義的聲道覆蓋區(qū)域可以包括由前左聲道和前右聲道定義的前區(qū)域,由中央聲道定義的中央?yún)^(qū)域,由環(huán)繞左聲道和環(huán)繞右聲道定義的環(huán)繞區(qū)域,以及由高度聲道定義的高度區(qū)域。在一些其它實施例中,系統(tǒng)500進(jìn)一步包括前子混集轉(zhuǎn)換單元,其基于針對音頻對象的平移系數(shù)將音頻信號轉(zhuǎn)換為相對于前區(qū)域的前子混集;中央子混集轉(zhuǎn)換單元,其被配置為基于針對音頻對象的平移系數(shù)將音頻信號轉(zhuǎn)換為相對于中央?yún)^(qū)域的中央子混集;環(huán)繞子混集轉(zhuǎn)換單元,其被配置為基于針對音頻對象的平移系數(shù)將音頻信號轉(zhuǎn)換為相對于環(huán)繞區(qū)域的環(huán)繞子混集;以及高度子混集轉(zhuǎn)換單元,其被配置為基于針對音頻對象的平移系數(shù)將音頻信號轉(zhuǎn)換為相對于高度區(qū)域的高度子混集。在又一示例實施例中,系統(tǒng)500進(jìn)一步包括合并單元,其被配置為合并中央子混集和前子混集,以及替換單元,其被配置為以對話子混集替換中央子混集。在又一示例實施例中,環(huán)繞子混集和高度子混集被應(yīng)用相同的音頻處理算法,以便于生成對應(yīng)的子混集增益。在一些其它示例實施例中,系統(tǒng)500可以進(jìn)一步包括對象類型識別單元,被配置為針對音頻對象中的每個音頻對象,識別音頻對象的類型,并且子混集增益生成單元被配置為基于音頻對象的所識別的類 型,通過向子混集中的每個子混集應(yīng)用音頻處理而生成子混集增益。為了清楚起見,系統(tǒng)500的一些可選部件在圖5中并未示出。然而應(yīng)當(dāng)理解的是,如上述參照圖1至4所描述的特征均適用于系統(tǒng)500。此外,系統(tǒng)500的部件可以是硬件模塊或軟件單元模塊。例如,在一些實施例中,系統(tǒng)500可以部分地或完全地以軟件/或固件實現(xiàn),例如實現(xiàn)為收錄在計算機(jī)可讀介質(zhì)中的計算機(jī)程序產(chǎn)品??商娲鼗蚋郊拥?,系統(tǒng)500可以部分地或完全地基于硬件實現(xiàn),例如作為集成電路(IC)、應(yīng)用專用集成電路(ASIC)、片上系統(tǒng)(SOC)、現(xiàn)場可編程門陣列(FPGA)等。本發(fā)明的范圍并不局限于該方面。圖6示出了適于實施本文公開的示例實施例的示例計算機(jī)系統(tǒng)600的框圖。如圖所示,計算機(jī)系統(tǒng)600包括中央處理單元(CPU)601,其能夠根據(jù)存儲在只讀存儲器(ROM)602中的程序或從存儲區(qū)608加載到隨機(jī)存取存儲器(RAM)603的程序而執(zhí)行各種處理。在RAM603中,當(dāng)CPU601執(zhí)行各種處理等等時,還根據(jù)所需存儲有所需的數(shù)據(jù)。CPU601、ROM602和RAM603經(jīng)由總線604彼此相連。輸入/輸出(I/O)接口605也連接到總線604。以下部件連接至I/O接口605:包括鍵盤、鼠標(biāo)等的輸入部分606;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚(yáng)聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分609。通信部分609經(jīng)由諸如因特網(wǎng)之類的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器610也根據(jù)需要連接至I/O接口605。可拆卸介質(zhì)611,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等,根據(jù)需要安裝在驅(qū)動器610上,使得從其上讀出的計算機(jī)程序根據(jù)需要被安裝入存儲部分608。特別地,根據(jù)本文公開的示例實施例,上文參考圖1至圖4描述的過程可以被實現(xiàn)為計算機(jī)軟件程序。例如,本文公開的示例實施例包括一種計算機(jī)程序產(chǎn)品,其包括有形地包含在機(jī)器可讀介質(zhì)上的計算機(jī)程序,該計算機(jī)程序包含用于執(zhí)行方法100和/或300的程序代碼。在這樣的實施例中,該計算機(jī)程序可以通過通信部分609從網(wǎng)絡(luò)上被 下載和安裝,和/或從可拆卸介質(zhì)611被安裝。一般而言,本文公開的各種示例實施例可以在硬件或?qū)S秒娐?、軟件、邏輯、或其任何組合中實施。某些方面可以在硬件中實施,而其它方面可以在可由控制器、微處理器或其它計算設(shè)備執(zhí)行的固件或軟件中實施。當(dāng)本文公開的示例實施例的各方面被圖示或描述為框圖、流程圖或使用某些其它圖形表示時,將理解此處描述的方框、裝置、系統(tǒng)、技術(shù)或方法可以作為非限制性的示例在硬件、軟件、固件、專用電路或邏輯、通用硬件或控制器或其它計算設(shè)備,或其某些組合中實施。而且,流程圖中的各框可以被看作是方法步驟,和/或計算機(jī)程序代碼的操作生成的操作,和/或理解為執(zhí)行相關(guān)功能的多個耦合的邏輯電路元件。例如,本文公開的示例實施例包括計算機(jī)程序產(chǎn)品,其包括有形地實現(xiàn)在機(jī)器可讀介質(zhì)上的計算機(jī)程序,該計算機(jī)程序包含被配置為執(zhí)行上文描述方法的程序代碼。在本公開的上下文中,機(jī)器可讀介質(zhì)可以是包含或存儲用于或有關(guān)于指令執(zhí)行系統(tǒng)、裝置或設(shè)備的程序的任何有形介質(zhì)。機(jī)器可讀介質(zhì)可以是機(jī)器可讀信號介質(zhì)或機(jī)器可讀存儲介質(zhì)。機(jī)器可讀介質(zhì)可以包括但不限于電子的、磁的、光學(xué)的、電磁的、紅外的或半導(dǎo)體系統(tǒng)、裝置或設(shè)備,或其任意合適的組合。機(jī)器可讀存儲介質(zhì)的更詳細(xì)示例包括帶有一根或多個導(dǎo)線的電氣連接、便攜式計算機(jī)磁盤、硬盤、隨機(jī)存儲存儲器(RAM)、只讀存儲器(ROM)、可擦除可編程只讀存儲器(EPROM或閃存)、光存儲設(shè)備、磁存儲設(shè)備,或其任意合適的組合。用于執(zhí)行本發(fā)明的方法的計算機(jī)程序代碼可以用一種或多種編程語言編寫。這些計算機(jī)程序代碼可以提供給通用計算機(jī)、專用計算機(jī)或其它可編程的數(shù)據(jù)處理裝置的處理器,使得程序代碼在被計算機(jī)或其它可編程的數(shù)據(jù)處理裝置執(zhí)行的時候,引起在流程圖和/或框圖中規(guī)定的功能/操作被實施。程序代碼可以完全在計算機(jī)上、部分在計算機(jī)上、作為獨立的軟件包、部分在計算機(jī)上且部分在遠(yuǎn)程計算機(jī)上或 完全在遠(yuǎn)程計算機(jī)或服務(wù)器上或在一個或多個遠(yuǎn)程計算機(jī)或服務(wù)器之間分布而執(zhí)行。另外,盡管操作以特定順序被描繪,但這并不應(yīng)該被理解為要求此類操作以示出的特定順序或以相繼順序完成,或者執(zhí)行所有圖示的操作以獲取期望結(jié)果。在某些情況下,多任務(wù)或并行處理可能是有利的。同樣地,盡管上述討論包含了某些特定的實施細(xì)節(jié),但這并不應(yīng)解釋為限制任何發(fā)明或權(quán)利要求的范圍,而應(yīng)解釋為對可以針對特定發(fā)明的特定實施例的描述。本說明書中在分開的實施例的上下文中描述的某些特征也可以整合實施在單個實施例中。相反地,在單個實施例的上下文中描述的各種特征也可以分離地在多個實施例火災(zāi)任意合適的子組合中實施。針對前述本發(fā)明的示例實施例的各種修改、改變將在連同附圖查看前述描述時對相關(guān)
技術(shù)領(lǐng)域
的技術(shù)人員變得明顯。任何及所有修改將仍落入非限制的和本發(fā)明的示例實施例范圍。此外,前述說明書和附圖存在啟發(fā)的益處,涉及這些實施例的
技術(shù)領(lǐng)域
的技術(shù)人員將會想到此處闡明的其它示例實施例。相應(yīng)地,本文公開的示例實施例可以被體現(xiàn)為本文描述的任意形式。例如,以下列舉的示例實施例(EEE)描述了本發(fā)明的一些方面的一些結(jié)構(gòu)、特征和功能。EEE1.一種對象音頻處理系統(tǒng),包括:-對象子混器,其基于對象的空間元數(shù)據(jù)呈現(xiàn)/降混音頻對象為子混集;-音頻處理器,其處理生成的子混集;-增益應(yīng)用器,其向原始音頻對象應(yīng)用從音頻處理器獲得的增益。EEE2.根據(jù)EEE1中的方法,其中該對象子混集生成四個子混集:中央、前、環(huán)繞和高度,并且每個子混集被聲稱作為音頻對象的加權(quán)平均值,其中加權(quán)為每個對象在每個子混集中的平移增益。EEE3.根據(jù)EEE1中的方法,其中該對象子混集進(jìn)一步基于手動標(biāo)記或自動音頻分類而生成對話子混集,并且具體的計算在等式(8) 和(9)中被示出。EEE4.根據(jù)EEE2和3的方法,對象子混器通過以D替代C并且合并原始的C和F在一起,從五個C/F/S/H/D子混集生成四個“增大”的子混集。EEE5.根據(jù)EEE1的方法,音頻處理器通過使用與處理環(huán)繞子混集相同的方法來處理高度子混集。EEE6.根據(jù)EEE1的方法,音頻處理器直接使用對話子混集以用于對話增強(qiáng)。EEE7.根據(jù)EEE1的方法,其中每個音頻對象的增益從由針對每個子混集獲得的增益和對象在每個子混集中的評議增益而計算,如在等式(7)中所示。EEE8.根據(jù)EEE1的方法,其中內(nèi)容識別模塊可以被加入以用于自動內(nèi)容類型識別和音頻處理算法的自動引導(dǎo)。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1