本發(fā)明涉及用于渲染音頻信號的方法和設(shè)備,以及更具體地,涉及用于根據(jù)渲染類型下混合多聲道信號的渲染方法和設(shè)備。
背景技術(shù):
由于圖像和聲音處理技術(shù)的發(fā)展,產(chǎn)生了大量的高質(zhì)量圖像和聲音內(nèi)容。要求高質(zhì)量的圖像和聲音內(nèi)容的用戶想獲得逼真的圖像和聲音,因此對立體圖像和立體聲的研究已經(jīng)活躍地開展。
立體聲指通過不僅再現(xiàn)聲音的音高和音色還再現(xiàn)包括水平方向和豎直方向的三維(3D)方向和距離感,以及具有額外的空間信息,從而給出氛圍感的聲音,通過該額外的空間信息,未處于產(chǎn)生聲源的空間的聽眾感受到方向感、距離感和空間感。
當(dāng)諸如22.2聲道信號的多聲道信號通過使用虛擬渲染技術(shù)被渲染成5.1聲道信號時,3D立體聲可通過二維(2D)輸出聲道再現(xiàn)。
技術(shù)實(shí)現(xiàn)要素:
技術(shù)問題
當(dāng)諸如22.2聲道信號的多聲道信號通過使用虛擬渲染技術(shù)渲染成5.1聲道信號時,雖然三維(3D)音頻信號可通過使用二維(2D)輸出聲道而再現(xiàn),但是根據(jù)信號的特性,該3D音頻信號可能不適于應(yīng)用虛擬渲染。
本發(fā)明涉及用于再現(xiàn)立體聲的方法和設(shè)備,以及更具體地,涉及再現(xiàn)多聲道音頻信號的方法,該多聲道音頻信號包括在水平布局環(huán)境中的高度聲音信號,從而根據(jù)渲染類型獲得渲染參數(shù)并配置下混合矩陣。
技術(shù)方案
本發(fā)明實(shí)現(xiàn)上述目的的代表性配置如下:
根據(jù)實(shí)施方式的一方面,用于渲染音頻信號的方法包括:接收多聲道信號,該多聲道信號包括待轉(zhuǎn)換至多個輸出聲道的多個輸入聲道待;基于從多聲道信號的特性確定的參數(shù)確定用于高度渲染的渲染類型;以及根據(jù)確定的渲染類型渲染至少一個高度輸入聲道,其中,該參數(shù)包括在多聲道信號的比特流中。
有益效果
當(dāng)諸如22.2聲道信號的多聲道信號通過使用虛擬渲染技術(shù)被渲染成5.1聲道信號時,雖然三維(3D)音頻信號可通過二維(2D)輸出聲道再現(xiàn),但是根據(jù)信號的特性可能不適于應(yīng)用虛擬渲染。
本發(fā)明涉及用于再現(xiàn)多聲道音頻信號的方法,多聲道音頻信號包括在水平布局環(huán)境中的高度聲音信號,通過根據(jù)渲染類型獲得渲染參數(shù)并且配置下混合矩陣,對于不適于應(yīng)用虛擬渲染的音頻信號仍可獲得有效的渲染性能。
附圖說明
圖1示出了根據(jù)實(shí)施方式的立體聲音頻再現(xiàn)設(shè)備的內(nèi)部結(jié)構(gòu)的框圖。
圖2示出了根據(jù)實(shí)施方式的立體聲音頻再現(xiàn)設(shè)備中的解碼器和三維(3D)音頻渲染器的配置的框圖。
圖3示出了根據(jù)實(shí)施方式的當(dāng)多個輸入聲道下混合至多個輸出聲道時的聲道的布局。
圖4是根據(jù)實(shí)施方式的渲染器格式轉(zhuǎn)換器的主要部件的框圖。
圖5示出了根據(jù)實(shí)施方式的基于渲染類型確定參數(shù)選擇渲染類型和下混合矩陣的選擇器的配置。
圖6示出了根據(jù)實(shí)施方式的基于渲染類型確定參數(shù)而確定渲染類型配置的語構(gòu)。
圖7示出了根據(jù)實(shí)施方式的渲染音頻信號的方法的流程圖。
圖8示出了根據(jù)實(shí)施方式的基于渲染類型渲染音頻信號的方法的流程圖。
圖9示出了根據(jù)另一實(shí)施方式的基于渲染類型渲染音頻信號的方法的流程圖。
優(yōu)選方式
本發(fā)明實(shí)現(xiàn)上述目的的代表性配置如下所示。
根據(jù)實(shí)施方式的方面,渲染音頻信號的方法包括:接收多聲道信號,多聲道信號包括待轉(zhuǎn)換至多個輸出聲道的多個輸入聲道;基于從多聲道信號的特性確定的參數(shù)確定用于高度渲染的渲染類型;以及根據(jù)所確定的渲染類型渲染至少一個高度輸入聲道,其中,該參數(shù)包括在多聲道信號的比特流中。
多聲道信號可通過核心解碼器解碼。
確定渲染類型可包括:針對多聲道信號中的每一幀確定渲染類型。
渲染至少一個高度輸入聲道可包括:對至少一個高度輸入聲道應(yīng)用根據(jù)所確定的渲染類型獲得的不同的下混合矩陣。
該方法還可包括:確定是否對輸出信號執(zhí)行虛擬渲染,其中,如果輸出信號未被虛擬渲染,則確定渲染類型包括:確定渲染類型不執(zhí)行高度渲染。
渲染可包括:對至少一個高度輸入聲道執(zhí)行空間音色濾波,如果所確定的渲染類型是三維(3D)渲染類型,則對至少一個高度輸入聲道執(zhí)行空間位置平移;以及如果所確定的渲染類型是二維(2D)渲染類型,則對至少一個高度輸入聲道執(zhí)行一般平移。
執(zhí)行空間音色濾波可包括:基于頭部相關(guān)傳遞函數(shù)(HRTF)校正聲音的音色。
執(zhí)行空間位置平移可包括:通過平移多聲道信號生成頭上聲音圖像。
執(zhí)行一般平移可包括:通過基于方位角平移多聲道信號在水平面上生成聲音圖像。
可基于音頻場景的屬性來確定參數(shù)。
音頻場景的屬性可包括輸入音頻信號的聲道之間的相關(guān)性和輸入音頻信號的帶寬中的至少一個。
參數(shù)可在編碼器處創(chuàng)建。
根據(jù)另一實(shí)施方式的方面,用于渲染音頻信號的設(shè)備包括:接收單元、確定單元和渲染單元,其中,接收單元用于接收多聲道信號,多聲道信號包括待轉(zhuǎn)換至多個輸出聲道的多個輸入聲道;確定單元用于基于從多聲道信號的特性確定的參數(shù)確定用于高度渲染的渲染類型;以及渲染單元用于根據(jù)所確定的渲染類型渲染至少一個高度輸入聲道,其中,該參數(shù)包括在多聲道信號的比特流中。
該設(shè)備還可包括核心解碼器,其中,多聲道信號通過核心解碼器解碼。
確定單元可針對多聲道信號中的每一幀確定渲染類型。
渲染單元可對至少一個高度輸入聲道應(yīng)用根據(jù)所確定的渲染類型獲得的不同的下混合矩陣。。
該設(shè)備還可包括用于確定是否對輸出信號執(zhí)行虛擬渲染的確定單元,其中,如果輸出信號未被虛擬渲染,則確定單元確定渲染類型不執(zhí)行高度渲染。
渲染單元可對至少一個高度輸入聲道執(zhí)行空間音色濾波,如果所確定的渲染類型是3D渲染類型,則還對至少一個高度輸入聲道執(zhí)行空間位置平移,以及如果所確定的渲染類型是2D渲染類型,則還對至少一個高度輸入聲道執(zhí)行一般平移。
空間音色濾波可基于頭部相關(guān)傳遞函數(shù)(HRTF)校正聲音的音色。
空間位置平移可通過平移多聲道信號生成頭上聲音圖像。
一般平移可通過基于方位角平移多聲道信號在水平面上生成聲音圖像。
可基于音頻場景的屬性確定參數(shù)。
音頻場景的屬性可包括輸入音頻信號的聲道之間的相關(guān)性和輸入音頻信號的帶寬中的至少一個。
參數(shù)可在編碼器處創(chuàng)建。
根據(jù)另一實(shí)施方式的方面,計(jì)算機(jī)可讀記錄介質(zhì)在其上記錄了用于執(zhí)行上述方法的程序。
另外,還提供用于實(shí)現(xiàn)本發(fā)明的另一方法和另一系統(tǒng),以及在其上記錄了用于執(zhí)行該方法的計(jì)算機(jī)程序的計(jì)算機(jī)可讀記錄介質(zhì)。
具體實(shí)施方式
下文將參考附圖對本發(fā)明進(jìn)行詳細(xì)描述,附圖示出作為示例的具體實(shí)施方式,通過這些具體實(shí)施方式可實(shí)現(xiàn)本發(fā)明。詳細(xì)描述這些實(shí)施方式以使得本領(lǐng)域的普通技術(shù)人員足以實(shí)施本發(fā)明。應(yīng)該理解的是,本發(fā)明的多種實(shí)施方式互不相同但不互相排斥。
例如,本說明書中陳述的具體形狀、結(jié)構(gòu)和特性可通過在不脫離本發(fā)明的精神和范圍的情況下從一實(shí)施方式變?yōu)榱硪粚?shí)施方式來實(shí)現(xiàn)。另外,應(yīng)該理解的是,在不脫離本發(fā)明的精神和范圍的情況下,在每個實(shí)施方式中的單獨(dú)部件的位置或布局也可改變。因此,將要進(jìn)行的詳細(xì)描述的目的不是限定,而應(yīng)該理解的是,本發(fā)明的范圍包括權(quán)利要求書請求的范圍和與請求的范圍等同的全部范圍。
附圖中的相同附圖標(biāo)記代表在各方面相同或相似的元件。另外,在附圖中,省略了與描述無關(guān)的部分以清楚地描述本發(fā)明,以及在說明書全文中相同的附圖標(biāo)記代表相同的元件。
在下文中,將參考附圖詳細(xì)描述本發(fā)明的實(shí)施方式以使得本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員能夠容易地實(shí)施本發(fā)明。然而,本發(fā)明可以以多種不同形式實(shí)現(xiàn)并且不限于本文描述的實(shí)施方式。
在本說明書全文中,當(dāng)描述為某元件“連接”至另一元件時,這包括“直接連接”的情況和通過在中間的另一元件“電連接”的情況。另外,當(dāng)某部分“包括”某部件時,除非有具體不同的公開,否則這表示該部分還可包括另外的部件,而并非排除另外的部件。
在下文中,參考附圖詳細(xì)描述本發(fā)明。
圖1是示出根據(jù)實(shí)施方式的立體聲音頻再現(xiàn)設(shè)備100的內(nèi)部結(jié)構(gòu)的框圖。
根據(jù)實(shí)施方式的立體聲音頻再現(xiàn)設(shè)備100可輸出多聲道音頻信號,在多聲道音頻信號中,多個輸入聲道被混合至多個輸出聲道從而被再現(xiàn)。在此情況下,如果輸出聲道的數(shù)量小于輸入聲道的數(shù)量,則輸入聲道被下混合以滿足輸出聲道的數(shù)量。
立體聲指通過不僅再現(xiàn)聲音的音高和音色還再現(xiàn)方向和距離感,以及具有額外的空間信息,從而具有氛圍感的聲音,通過該額外的空間信息,未處于產(chǎn)生聲源的空間的聽眾感受到方向感、距離感和空間感。
在下文的描述中,音頻信號的輸出聲道可指輸出聲音的揚(yáng)聲器的數(shù)量。輸出聲道的數(shù)量越多,輸出聲音的揚(yáng)聲器的數(shù)量越多。根據(jù)實(shí)施方式,立體聲音頻再現(xiàn)設(shè)備100可將多聲道音頻輸入信號渲染和混合至待再現(xiàn)的輸出聲道,以使得可在具有較少數(shù)量的輸出聲道的環(huán)境中輸出和再現(xiàn)具有較多數(shù)量的輸入聲道的多聲道音頻信號。在此情況下,多聲道音頻信號可包括可輸出抬高的聲音的聲道。
可輸出抬高的聲音的聲道可指這樣的聲道,在這樣的聲道中可通過位于聽眾的頭部上方的揚(yáng)聲器輸出音頻信號以使得聽眾感受高度。水平聲道可指可通過位于與聽眾相同的水平面上的揚(yáng)聲器輸出音頻信號的聲道。
具有較少數(shù)量的輸出聲道的上述環(huán)境可指可通過布置在水平面上的、沒有可輸出抬高的聲音的輸出聲道的揚(yáng)聲器輸出聲音的環(huán)境。
另外,在下文的描述中,水平聲道可指包括可通過位于水平面上的揚(yáng)聲器輸出的音頻信號的聲道。頭上聲道可指包括可通過位于水平面以上的抬高的位置上的、輸出抬高的聲音的揚(yáng)聲器輸出的音頻信號的聲道。
參考圖1,根據(jù)實(shí)施方式的立體聲音頻再現(xiàn)設(shè)備100可包括音頻核心110,渲染器120,混合器130和后處理單元140。
根據(jù)實(shí)施方式,立體聲音頻再現(xiàn)設(shè)備100可通過渲染和混合多聲道輸入音頻信號來輸出待再現(xiàn)的聲道。例如,多聲道輸入音頻信號可以是22.2聲道信號,以及待再現(xiàn)的輸出聲道可以是5.1聲道或7.1聲道。立體聲音頻再現(xiàn)設(shè)備100可通過確定與多聲道輸入音頻信號的每個聲道對應(yīng)的輸出聲道來執(zhí)行渲染,以及通過合成與待再現(xiàn)的聲道對應(yīng)的聲道的信號以及輸出合成信號作為最終信號來混合渲染的音頻信號。
編碼的音頻信號以比特流的格式輸入至音頻核心110。音頻核心110通過選擇適于編碼音頻信號的方案的解碼器工具來解碼輸入音頻信號。音頻核心110可用以具有與核心解碼器相同的含義。
渲染器120可根據(jù)聲道和頻率將多聲道輸入音頻信號渲染至多聲道輸出聲道。渲染器120可執(zhí)行包括頭上聲道和水平聲道的多聲道音頻信號的三維(3D)渲染和二維(2D)渲染。渲染器的配置和具體的渲染方法將參考圖2更詳細(xì)地描述。
混合器130可通過合成與渲染器120的水平聲道對應(yīng)的聲道的信號來輸出最終信號。混合器130可針對每個設(shè)定的區(qū)段混合聲道的信號。例如,混合器130可針對每一幀混合聲道的信號。
根據(jù)實(shí)施方式,混合器130可基于渲染至各個待再現(xiàn)的聲道的信號的功率值執(zhí)行混合。換言之,混合器130可基于渲染至待再現(xiàn)的各個聲道的信號的功率值確定最終信號的振幅或待應(yīng)用于最終信號的增益。
后處理單元140對混合器130的輸出信號執(zhí)行多頻帶信號的動態(tài)范圍控制和雙聲道化(binauralizing),以滿足每個再現(xiàn)裝置(揚(yáng)聲器或耳機(jī))。從后處理單元140輸出的輸出音頻信號通過諸如揚(yáng)聲器的裝置輸出,以及輸出音頻信號可根據(jù)每個部件的處理以2D或3D的方式再現(xiàn)。
根據(jù)圖1的實(shí)施方式的立體聲音頻再現(xiàn)設(shè)備100基于音頻解碼器的配置被示出,并且省略了附屬配置。
圖2是示出根據(jù)實(shí)施方式的立體聲音頻再現(xiàn)100中的核心解碼器110和3D音頻渲染器120的配置的框圖。
參考圖2,根據(jù)實(shí)施方式,立體聲音頻再現(xiàn)設(shè)備100基于解碼器110和3D音頻渲染器120的配置被示出,并且省略了其它配置。
輸入至立體聲音頻再現(xiàn)設(shè)備100的音頻信號是編碼的信號,并且以比特流的格式被輸入。解碼器110通過選擇適于編碼音頻信號的方案的解碼器工具來解碼輸入音頻信號,并且將解碼的音頻信號傳輸至3D音頻渲染器120。
如果執(zhí)行高度渲染,可通過僅包括水平聲道的5.1聲道布局獲得虛擬3D抬高的聲音圖像。這種高度渲染算法包括空間音色濾波和空間位置平移過程。
3D音頻渲染器120包括初始化單元121和渲染單元123,初始化單元121用于獲得和更新濾波器系數(shù)和平移系數(shù),渲染單元123用于執(zhí)行濾波和平移。
渲染單元123對從核心解碼器110傳輸?shù)囊纛l信號執(zhí)行濾波和平移??臻g音色濾波單元1231處理關(guān)于聲音的位置的信息,以使得渲染的音頻信號在要求的位置處再現(xiàn)??臻g位置平移單元1232處理關(guān)于聲音的音色的信息,以使得渲染的音頻信號具有適合于要求的位置的音色。
空間音色濾波單元1231設(shè)計(jì)為基于頭部相關(guān)傳遞函數(shù)(HRTF)建模來校正聲音的音色并且反映輸入聲道傳播至輸出聲道的路徑的差異。例如,空間音色濾波單元1231可校正聲音的音色以放大關(guān)于1kHz至10kHz的頻帶的信號的能量并減少關(guān)于其它頻帶的能量,從而獲得更自然的聲音音色。
空間位置平移單元1232設(shè)計(jì)為通過多聲道平移提供頭上聲音圖像。對輸入聲道應(yīng)用不同的平移系數(shù)(增益)。雖然通過執(zhí)行空間位置平移可獲得頭上聲音圖像,但是可能增加聲道之間的相似度,這提高了全部音頻場景的相關(guān)性。當(dāng)對非常不相關(guān)的音頻場景執(zhí)行虛擬渲染時,可基于音頻場景的特性確定渲染類型以防止渲染品質(zhì)下降。
可替代地,當(dāng)音頻信號產(chǎn)生時,可根據(jù)音頻信號產(chǎn)生者(創(chuàng)建者)的意圖確定渲染類型。在此情況下,音頻信號產(chǎn)生者可手動地確定關(guān)于音頻信號的渲染類型的信息并且可在音頻信號中包括用于確定渲染類型的參數(shù)。
例如,編碼器在編碼的數(shù)據(jù)幀中生成諸如rendering3DType的附加信息并且將該附加信息傳輸至解碼器110,該附加信息是用于確定渲染類型的參數(shù)。解碼器110可確認(rèn)rendering3DType信息,如果rendering3DType指示3D渲染類型,則執(zhí)行空間音色濾波和空間位置平移,以及,如果rendering3DType指示2D渲染類型,則執(zhí)行空間音色濾波和一般平移。
就此而言,可基于輸入音頻信號的方位角信息而不考慮輸入音頻信號的俯仰角信息而對多聲道信號執(zhí)行一般平移。執(zhí)行一般平移的音頻信號不提供具有高度感的聲音圖像,所以水平面上的2D聲音圖像傳輸至用戶。
應(yīng)用于3D渲染的空間位置平移可針對每個頻率具有不同的平移系數(shù)。
就此而言,待用于濾波的濾波器參數(shù)和待用于平移的平移參數(shù)從初始化單元121傳輸。初始化單元121包括高度渲染參數(shù)獲得單元1211和高度渲染參數(shù)更新單元1212。
高度渲染參數(shù)獲得單元1211通過使用輸出聲道(即,揚(yáng)聲器)的配置和布局獲得高度渲染參數(shù)的初始化值。就此而言,基于根據(jù)標(biāo)準(zhǔn)布局的輸出聲道的配置和根據(jù)高度渲染設(shè)定的輸入聲道的配置來計(jì)算高度渲染參數(shù)的初始化值,或者根據(jù)輸入/輸出聲道之間的映射關(guān)系針對高度渲染參數(shù)的初始化值讀取預(yù)存儲的初始化值。高度渲染參數(shù)可包括待由空間音色濾波單元1231使用的濾波器系數(shù)或待由空間位置平移單元1232使用的平移系數(shù)。
然而,如上所述,用于高度渲染的設(shè)定高度值和輸入聲道的設(shè)定之間可能存在偏差。在此情況下,當(dāng)使用固定的設(shè)定高度值時,很難實(shí)現(xiàn)以下目的:虛擬渲染3D音頻信號以通過輸出聲道再現(xiàn)與3D音頻信號的原聲更相似的3D音頻信號,其中,輸出聲道具有與輸入聲道不同的配置。
例如,當(dāng)高度感太強(qiáng)時,可能出現(xiàn)音頻圖像小并且聲音品質(zhì)下降的現(xiàn)象,以及當(dāng)高度感太弱時,可能出現(xiàn)難以感覺到虛擬渲染的效果的問題。因此,有必要根據(jù)用戶的設(shè)定或虛擬渲染的適合于輸入聲道的程度來調(diào)整高度感。
高度渲染參數(shù)更新單元1212通過使用由高度渲染參數(shù)獲得單元1211獲得的高度渲染參數(shù)的初始化值基于輸入聲道的高度信息或用戶的設(shè)定高度來更新高度渲染參數(shù)。就此而言,如果輸出聲道的揚(yáng)音器布局相對于標(biāo)準(zhǔn)布局存在偏差,可增添根據(jù)偏差校正影響的過程。輸出聲道偏差可包括根據(jù)俯仰角差異或方位角差異的偏差信息。
通過與每個輸出聲道對應(yīng)的揚(yáng)聲器來再現(xiàn)由渲染單元123通過使用由初始化單元121獲得并更新的高度渲染參數(shù)進(jìn)行濾波和平移的輸出音頻信號。
圖3示出根據(jù)實(shí)施方式的當(dāng)多個輸入聲道下混合至多個輸出聲道時的聲道的布局。
圖3示出根據(jù)實(shí)施方式的當(dāng)多個輸入聲道下混合至多個輸出聲道時的聲道的布局。
為了提供與3D圖像中的逼真性相同或更夸張的真實(shí)感和代入感,與3D立體圖像一起開發(fā)了用于提供3D立體聲的技術(shù)。立體聲指音頻信號本身給出聲音的高度感和空間感的聲音,并且為了再現(xiàn)這種立體聲,需要至少兩個揚(yáng)聲器(即,輸出聲道)。另外,除了使用HRTF的雙聲道立體聲之外,為了更精確地再現(xiàn)聲音的高度感、距離感和空間感,需要更多數(shù)量的輸出聲道。
因此,提出和開發(fā)了具有兩個輸出聲道的立體聲系統(tǒng)和諸如5.1聲道系統(tǒng)、Auro 3D系統(tǒng)、Holman 10.2聲道系統(tǒng)、ETRI/Samsung 10.2聲道系統(tǒng)和NHK 22.2聲道系統(tǒng)的多種多聲道系統(tǒng)。
圖3示出通過5.1聲道輸出系統(tǒng)再現(xiàn)22.2聲道3D音頻信號的情況。
5.1聲道系統(tǒng)是五聲道環(huán)繞多聲道聲音系統(tǒng)的通用名稱,并且是用作家庭影院和劇院聲音系統(tǒng)的最流行的系統(tǒng)。整個5.1聲道包括左前(FL)聲道、中部(C)聲道、右前(FR)聲道、左環(huán)繞(SL)聲道和右環(huán)繞(SR)聲道。如圖3所示,由于5.1聲道的全部輸出在相同平面上,5.1聲道系統(tǒng)物理上與2D系統(tǒng)對應(yīng),并且為了通過使用5.1聲道系統(tǒng)再現(xiàn)3D音頻信號,必須執(zhí)行渲染過程以賦予信號3D效果。
5.1聲道系統(tǒng)廣泛使用在多種領(lǐng)域,不僅在電影領(lǐng)域,還在DVD圖像領(lǐng)域、DVD聲音領(lǐng)域、超級音頻壓縮光盤(SACD)領(lǐng)域或數(shù)字廣播領(lǐng)域。然而,雖然5.1聲道系統(tǒng)相較于立體聲系統(tǒng)提供改善的空間感,但是與諸如22.2聲道系統(tǒng)的多聲道音頻表現(xiàn)方法比較,在形成較寬廣的收聽空間方面有若干局限。具體地,由于當(dāng)執(zhí)行虛擬渲染時最佳聽音點(diǎn)形成得窄,以及當(dāng)執(zhí)行一般渲染時不能提供具有俯仰角的豎直音頻圖像,所以5.1聲道系統(tǒng)可能不適合于諸如在劇院中的寬廣的收聽空間。
如圖3所示,由NHK提出的22.2聲道系統(tǒng)包括三層輸出聲道。上層310包括上帝之音(VOG)聲道、T0聲道、T180聲道、TL45聲道、TL90聲道、TL135聲道、TR45聲道、TR90聲道和TR45聲道。在本文中,每個聲道名稱的第一個字母的標(biāo)志T表示上層,標(biāo)志L和標(biāo)志R分別表示左和右,以及字母后的數(shù)字表示關(guān)于中部聲道的方位角。上層通常稱作頂層。
VOG聲道是在聽眾的頭部上方的聲道,具有的俯仰角,并且沒有方位角。然而,當(dāng)VOG聲道稍有定位錯誤時,VOG聲道就帶有方位角和不同于的俯仰角,因此VOG聲道可能就不再起VOG聲道的作用。
中間層320位于與現(xiàn)有的5.1聲道相同的平面上,并且除了5.1聲道的輸出聲道外,還包括ML60聲道、ML90聲道、ML135聲道、MR60聲道、MR90聲道和MR135聲道。就此而言,每個聲道名稱的第一個字母的標(biāo)志M表示中間層,并且后面的數(shù)字表示關(guān)于中部聲道的方位角。
下層330包括L0聲道、LL45聲道和LR45聲道。就此而言,每個聲道名稱的第一個字母的標(biāo)志L表示下層,并且后面的數(shù)字表示關(guān)于中部聲道的方位角。
在22.2聲道中,中間層稱作水平聲道,對應(yīng)于方位角或的VOG聲道、T0聲道、T180聲道、M180聲道、L聲道和C聲道稱作豎直聲道。
當(dāng)使用5.1聲道系統(tǒng)再現(xiàn)22.2聲道輸入信號時,根據(jù)最通常的方法,可使用下混合表達(dá)來分配聲道間的信號??商娲兀蓤?zhí)行用于提供虛擬高度感的渲染以使得5.1聲道系統(tǒng)再現(xiàn)具有高度感的音頻信號。
圖4是根據(jù)實(shí)施方式的渲染器的主要部件的框圖。
渲染器是將具有Nin個聲道的多聲道輸入信號轉(zhuǎn)換成具有Nout個聲道的再現(xiàn)格式的下混合器,也稱作格式轉(zhuǎn)換器。就此而言,Nout<Nin。圖4是根據(jù)下混合的渲染器配置的格式轉(zhuǎn)換器的主要部件的框圖。
編碼的音頻信號以比特流的格式輸入至核心解碼器110。輸入至核心解碼器110的信號通過適合于編碼方案的解碼器工具解碼,并且輸入至格式轉(zhuǎn)換器125。
格式轉(zhuǎn)換器125包括兩個主要模塊。第一主要模塊是下混合配置單元1251,它執(zhí)行負(fù)責(zé)諸如輸入格式和輸出格式的靜態(tài)參數(shù)的初始化算法。第二主要模塊是下混合單元1252,它基于通過使用初始化算法而獲得的下混合參數(shù)來下混合混合器輸出信號。
下混合配置單元1251生成下混合參數(shù),該下混合參數(shù)是基于與輸入聲道信號對應(yīng)的布局的混合器輸出布局和與輸出聲道的布局對應(yīng)的再現(xiàn)布局而被優(yōu)化的。下混合器參數(shù)可以是下混合矩陣,并且由給定的輸入格式和輸出聲道的可行的組合而確定。
就此而言,考慮到心理學(xué)音頻,選擇輸出揚(yáng)聲器(輸出聲道)的算法通過包括在映射規(guī)則表中的最適合的映射規(guī)則被應(yīng)用于每個輸入聲道。映射規(guī)則設(shè)計(jì)成將一個輸入聲道映射到一個輸出揚(yáng)聲器或多個輸出揚(yáng)聲器。
一個輸入聲道可映射到一個輸出聲道或者可平移到兩個輸出聲道。例如VOG聲道的輸入聲道可分配到多個輸出聲道??蛇x地,輸入信號可根據(jù)頻率平移到具有不同平移系數(shù)的多個輸出聲道,并且被代入式地渲染以給出氛圍感。僅有諸如5.1聲道的水平聲道的輸出聲道需要具有虛擬高度(高)聲道以使得給出氛圍感,因而高度渲染被應(yīng)用于輸出聲道。
根據(jù)可能以期望的輸出格式被渲染的輸出揚(yáng)聲器的列表選擇每個輸入聲道的優(yōu)化映射。生成的映射參數(shù)可不僅包括關(guān)于輸入聲道的下混合增益,還包括均衡器(音色濾波器)系數(shù)。
在生成下混合參數(shù)的過程期間,當(dāng)輸出聲道超出標(biāo)準(zhǔn)布局時,例如,當(dāng)輸出聲道不僅有高度偏差或方位偏差,還有距離偏差時,可基于此而增添更新或校正下混合參數(shù)的過程。
下混合單元1252根據(jù)用于確定渲染類型的參數(shù)確定渲染模式,并且根據(jù)確定的渲染模式下混合核心解碼器110的混合器輸出信號,其中,用于確定渲染類型的參數(shù)包括在核心解碼器110的輸出信號中。就此而言,用于確定渲染類型的參數(shù)可由編碼多聲道信號的編碼器確定,并且可包括在由核心解碼器110解碼的多聲道信號中。
用于確定渲染類型的參數(shù)可針對音頻信號的每個幀來確定,并且可存儲在幀的顯示附加信息的域中。如果可能由渲染器渲染的渲染類型的數(shù)量是有限的,則用于確定渲染類型的參數(shù)可以是盡可能小的比特?cái)?shù),例如,如果顯示有兩個渲染類型,則可配置成具有1比特的標(biāo)記。
下混合單元1252在頻率范圍內(nèi)和雜化正交鏡像濾波器(QMF)子帶范圍內(nèi)執(zhí)行下混合,以及為了防止信號由于梳齒形濾波器、聲染色或信號調(diào)制的缺陷而導(dǎo)致惡化而執(zhí)行相位對準(zhǔn)和能量歸一化。
相位對準(zhǔn)是在下混合輸入信號之前調(diào)整具有相關(guān)性但具有不同相位的輸入信號的相位的過程。相位對準(zhǔn)過程僅關(guān)于相關(guān)的時間-頻率片對準(zhǔn)相關(guān)聲道而不需要改變輸入信號的任何其它部分。在相位對準(zhǔn)期間,由于相位校正間隔為了對準(zhǔn)而迅速變化,應(yīng)當(dāng)注意防止缺陷。
如果執(zhí)行相位對準(zhǔn)過程,則可避免窄頻譜間距,從而可改善輸出信號的品質(zhì),其中,該窄頻譜間距是由于有限頻率分辨率而造成的并且不能通過能量歸一化來補(bǔ)償。另外,在能量保留歸一化期間不需要放大信號,從而可降低調(diào)制缺陷。
在高度渲染中,為了渲染的多聲道信號的精確同步,不對高頻帶的輸入信號執(zhí)行相位對準(zhǔn)。
在下混合期間,執(zhí)行能量歸一化以保留輸入能量,而當(dāng)下混合矩陣自身執(zhí)行能量標(biāo)度時則不執(zhí)行能量歸一化。
圖5示出根據(jù)實(shí)施方式基于渲染類型確定參數(shù)來選擇渲染類型和下混合矩陣的選擇器的配置。
根據(jù)實(shí)施方式,基于用于確定渲染類型的參數(shù)來確定渲染類型,以及根據(jù)確定的渲染類型執(zhí)行渲染。如果用于確定渲染類型的參數(shù)是具有1比特的大小的rendering3DType標(biāo)記,則當(dāng)rendering3DType是1(TRUE)時選擇器進(jìn)行操作以執(zhí)行3D渲染,以及當(dāng)rendering3DType是0(FALSE)時選擇器進(jìn)行操作以執(zhí)行2D渲染,以及選擇器根據(jù)rendering3DType的值進(jìn)行切換。
就此而言,M_DMX被選為用于3D渲染的下混合矩陣,而M_DMX2被選為用于2D渲染的下混合矩陣。下混合矩陣M_DMX和M_DMX2中的每個由圖2的初始化單元121或者圖4的下混合配置單元1251選擇。M_DMX是用于空間高度渲染的基礎(chǔ)下混合矩陣,該下混合矩陣包括非負(fù)實(shí)數(shù)的下混合系數(shù)(增益)。M_DMX的大小是(Nout×Nin),其中,Nout表示輸出聲道的數(shù)量,Nin表示輸入聲道的數(shù)量。M_DMX2是用于音色高度渲染的基礎(chǔ)下混合矩陣,該基礎(chǔ)下混合矩陣包括非負(fù)實(shí)數(shù)的下混合系數(shù)(增益)。與M_DMX類似,M_DMX2的大小是(Nout×Nin)。
根據(jù)選擇的渲染類型通過使用適合于每個渲染類型的下混合矩陣來為每個雜化QMF頻率子帶下混合輸入信號。
圖6示出根據(jù)實(shí)施方式的基于渲染類型確定參數(shù)確定渲染類型配置的語構(gòu)(Syntax)。
與圖5所示的方式相同,用于確定渲染類型的參數(shù)是具有1比特的大小的rendering3DType標(biāo)記,并且RenderingTypeConfig()限定用于格式轉(zhuǎn)換的適當(dāng)?shù)匿秩绢愋汀?/p>
rendering3DType可由編碼器生成。就此而言,rendering3DType可基于音頻信號的音頻場景來確定。如果音頻場景是寬帶信號或者是非常不相關(guān)的信號(例如雨聲或鼓掌聲等),則rendering3DType是FALSE,因此多聲道信號通過使用用于2D渲染的下混合矩陣M_DMX2來下混合。在其它情況中,對于一般音頻場景,rendering3DType是TRUE,因此多聲道信號通過使用用于3D渲染的下混合矩陣M_DMX來下混合。
可替代地,可根據(jù)音頻信號產(chǎn)生者(創(chuàng)建者)的意圖來確定rendering3DType。通過使用用于2D渲染的下混合矩陣M_DMX2,創(chuàng)建者下混合設(shè)定為執(zhí)行2D渲染的音頻信號(幀)。在其它情況中,對于一般音頻場景,rendering3DType是TRUE,因此創(chuàng)建者通過使用用于3D渲染的下混合矩陣M_DMX下混合音頻信號(幀)。
就此而言,當(dāng)執(zhí)行3D渲染時,空間音色濾波和空間位置平移二者被執(zhí)行,然而,當(dāng)執(zhí)行2D渲染時,僅執(zhí)行空間音色濾波。
圖7是根據(jù)實(shí)施方式渲染音頻信號的方法的流程圖。
如果由核心解碼器110解碼的多聲道信號輸入至格式轉(zhuǎn)換器125或渲染器120,則基于輸入聲道和輸出聲道的標(biāo)準(zhǔn)布局來獲得渲染參數(shù)的初始化值(操作710)。就此而言,獲得的渲染參數(shù)的初始化值可根據(jù)可能由渲染器120渲染的渲染類型而不同地確定,并且可存儲在音頻信號再現(xiàn)系統(tǒng)的諸如只讀存儲器(ROM)的非易失性存儲器中。
基于根據(jù)標(biāo)準(zhǔn)布局的輸出聲道的配置和根據(jù)高度渲染設(shè)定的輸入聲道的配置來計(jì)算高度渲染參數(shù)的初始化值,或者根據(jù)輸入/輸出聲道之間的映射關(guān)系針對高度渲染參數(shù)的初始化值讀取預(yù)存儲的初始化值。高度渲染參數(shù)可包括待由圖2的空間音色濾波單元1231使用的濾波器系數(shù)或待由圖2的空間位置平移單元1232使用的平移系數(shù)。
就此而言,如果輸入/輸出聲道的布局與全部標(biāo)準(zhǔn)布局一致,則可通過使用在操作710中獲得的渲染參數(shù)的初始化值來執(zhí)行渲染。然而,當(dāng)用于渲染的設(shè)定高度值和輸入聲道的設(shè)定之間存在偏差,或者揚(yáng)聲器實(shí)際安裝的布局和輸出聲道的標(biāo)準(zhǔn)布局之間存在偏差時,如果使用在操作710中獲得的初始化值來進(jìn)行渲染,則將出現(xiàn)以下現(xiàn)象:扭曲的或渲染的聲音圖像信號在不是原位置的位置上輸出。
因此,基于輸入/輸出聲道的標(biāo)準(zhǔn)布局與實(shí)際布局之間的偏差來更新渲染參數(shù)(操作720)。就此而言,更新的渲染參數(shù)可根據(jù)可能由渲染器120渲染的渲染類型而不同地確定。
更新的渲染參數(shù)可根據(jù)每個渲染類型而針對每個雜化QMF子帶具有大小為Nin x Nout的矩陣格式。Nin表示輸入聲道的數(shù)量。Nout表示輸出聲道的數(shù)量。就此而言,表示渲染參數(shù)的矩陣稱作下混合矩陣。M_DMX表示用于3D渲染的下混合矩陣。M_DMX2表示用于2D渲染的下混合矩陣。
如果確定了下混合矩陣M_DMX和M_DMX2,則基于用于確定渲染類型的參數(shù)而確定適于當(dāng)前幀的渲染類型(操作730)。
用于確定渲染類型的參數(shù)可包括在輸入至核心解碼器的比特流中,在編碼器編碼音頻信號時即生成了該用于確定渲染類型的參數(shù)??筛鶕?jù)當(dāng)前幀的音頻場景的特性來確定用于確定渲染類型的參數(shù)。當(dāng)音頻信號有許多諸如鼓掌聲或雨聲的瞬時信號時,由于有很多瞬間和短暫的信號,音頻場景具有聲道之間低相關(guān)性的特性。
當(dāng)聲道之間存在非常不相關(guān)的信號或者在多個輸入聲道中存在無調(diào)的寬帶信號時,對于每個聲道,信號的級別是相似的,或者短區(qū)段的脈沖形狀是重復(fù)的,如果多個聲道的信號下混合至一個聲道,則發(fā)生失相(phaseyness)現(xiàn)象和音色扭曲現(xiàn)象,失相現(xiàn)象是由于頻率的互相干擾而發(fā)生偏移效果使得聲音的音色改變的現(xiàn)象,而音色扭曲現(xiàn)象是一個聲道的瞬時信號的數(shù)量增加使得產(chǎn)生聲音白化。
在此情況下,執(zhí)行作為2D渲染的音色高度渲染而不執(zhí)行作為3D渲染的空間高度渲染可能更好。
因此,在正常情況下,作為分析音頻場景的特性的結(jié)果,渲染類型可確定為3D渲染類型,而如果存在寬帶信號或者在聲道之間存在非常不相關(guān)的信號,則渲染類型可確定為2D渲染類型。
如果確定了適合于當(dāng)前幀的渲染類型,則基于確定的渲染類型獲得渲染參數(shù)(操作740)?;讷@得的渲染參數(shù)渲染當(dāng)前幀(操作750)。
如果確定的渲染類型是3D渲染類型,則存儲下混合矩陣的存儲單元可獲得用于3D渲染的下混合矩陣M_DMX。下混合矩陣M_DMX通過對每個雜化QMF子帶使用具有Nin×Nout的大小的矩陣將一個雜化QMF子帶的Nin個輸入聲道的信號下混合至Nout個輸出聲道。
如果確定的渲染類型是2D渲染類型,則存儲下混合矩陣的存儲單元可獲得用于2D渲染的下混合矩陣M_DMX2。下混合矩陣M_DMX2通過對每個雜化QMF子帶使用具有Nin×Nout的大小的矩陣將一個雜化QMF子帶的Nin個輸入聲道的信號下混合至Nout個輸出聲道。
對每個幀重復(fù)執(zhí)行用于確定適于當(dāng)前幀的渲染類型的過程(操作730),基于確定的渲染類型獲得渲染參數(shù)的過程(操作740),以及基于獲得的渲染參數(shù)渲染當(dāng)前幀的過程(操作750),直至由核心解碼器解碼的多聲道信號的輸入結(jié)束。
圖8是根據(jù)實(shí)施方式的基于渲染類型渲染音頻信號的方法的流程圖。
在圖8的實(shí)施方式中,增添了操作810,在操作810中根據(jù)輸入/輸出聲道之間的關(guān)系確定高度渲染是否可行。
基于根據(jù)輸入聲道和再現(xiàn)布局的下混合規(guī)則的優(yōu)先級確定高度渲染是否可行。
如果基于根據(jù)輸入聲道和再現(xiàn)布局的下混合規(guī)則的優(yōu)先級不執(zhí)行高度渲染,則獲得用于非高度渲染的渲染參數(shù)(操作850)從而執(zhí)行非高度渲染。
如果操作810中確定的結(jié)果是高度渲染可行,則根據(jù)高度渲染類型參數(shù)確定渲染類型(操作820)。如果高度渲染類型參數(shù)指示2D渲染,則渲染類型確定為2D渲染類型,并且獲得用于2D渲染的2D渲染參數(shù)(操作830)。另外,如果高度渲染類型參數(shù)指示3D渲染,則渲染類型確定為3D渲染類型,并且獲得用于3D渲染的3D渲染參數(shù)(操作840)。
通過上述過程獲得的渲染參數(shù)是用于一個輸入聲道的渲染參數(shù)。通過對每個輸入聲道重復(fù)相同的過程來獲得每個聲道的渲染參數(shù),并且每個聲道的渲染參數(shù)用于獲得全部輸入聲道的全部下混合矩陣(操作860)。下混合矩陣是用于通過將輸入聲道信號下混合至輸出聲道信號而渲染輸入信號的矩陣,并且對于每個雜化QMF子帶具有Nin×Nout的大小。
如果獲得了下混合矩陣,則通過使用獲得的下混合矩陣下混合輸入聲道信號(操作870)以生成輸出信號。
如果對于解碼的信號的每個幀存在高度渲染類型參數(shù),則對每個幀重復(fù)執(zhí)行圖8的操作810至操作870的過程。如果對最后一幀的處理結(jié)束,則整個渲染過程結(jié)束。
就此而言,當(dāng)執(zhí)行非高度渲染時,在全部頻帶上執(zhí)行有效的下混合。當(dāng)執(zhí)行高度渲染時,僅在低頻帶上執(zhí)行相位對準(zhǔn),而不在高頻帶上執(zhí)行相位對準(zhǔn)。出于如上所述的為了渲染的多聲道信號的精確同步的原因而不在高頻帶上執(zhí)行相位對準(zhǔn)。
圖9是根據(jù)另一實(shí)施方式的基于渲染類型渲染音頻信號的方法的流程圖。
在圖9的實(shí)施方式中增添了操作910,在操作910中確定輸出聲道是否是虛擬聲道。如果輸出聲道不是虛擬聲道,則由于不必執(zhí)行高度渲染或虛擬渲染,所以基于有效下混合規(guī)則的優(yōu)先級執(zhí)行非高度渲染。因而,獲得用于非高度渲染的渲染參數(shù)(操作960)從而執(zhí)行非高度渲染。
如果輸出聲道是虛擬聲道,則根據(jù)輸入/輸出聲道之間的關(guān)系確定高度渲染是否可行(操作920)。基于根據(jù)輸入聲道和再現(xiàn)布局的下混合規(guī)則的優(yōu)先級確定高度渲染是否可行。
如果基于根據(jù)輸入聲道和再現(xiàn)布局的下混合規(guī)則的優(yōu)先級不執(zhí)行高度渲染,則獲得用于非高度渲染的渲染參數(shù)(操作960)從而執(zhí)行非高度渲染。
如果操作920中確定的結(jié)果為高度渲染可行,則根據(jù)高度渲染類型參數(shù)確定渲染類型(操作930)。如果高度渲染類型參數(shù)指示2D渲染,則渲染類型確定為2D渲染類型,并且獲得用于2D渲染的2D渲染參數(shù)(操作940)。另外,如果高度渲染類型參數(shù)指示3D渲染,則渲染類型確定為3D渲染類型,并且獲得用于3D渲染的3D渲染參數(shù)(操作950)。
2D渲染和3D渲染分別與音色高度渲染和空間高度渲染一起使用。
通過上述過程獲得的渲染參數(shù)是用于一個輸入聲道的渲染參數(shù)。通過對每個輸入聲道重復(fù)相同的過程來獲得每個聲道的渲染參數(shù),并且每個聲道的渲染參數(shù)用于獲得全部輸入聲道的全部下混合矩陣(操作970)。下混合矩陣是用于通過將輸入聲道信號下混合至輸出聲道信號而渲染輸入信號的矩陣,并且對于每個雜化QMF子帶具有Nin×Nout的大小。
如果獲得了下混合矩陣,則通過使用獲得的下混合矩陣下混合輸入聲道信號(操作980)以生成輸出信號。
如果對于解碼的信號的每個幀存在高度渲染類型參數(shù),則對每個幀重復(fù)執(zhí)行圖9的操作910至操作980的過程。如果對最后一幀的處理結(jié)束,則整個渲染過程結(jié)束。
本發(fā)明的上述實(shí)施方式可實(shí)現(xiàn)為可通過各種計(jì)算機(jī)裝置執(zhí)行的計(jì)算機(jī)指令,以及可記錄在計(jì)算機(jī)可讀記錄介質(zhì)上。計(jì)算機(jī)可讀記錄介質(zhì)可包括程序命令、數(shù)據(jù)文件、數(shù)據(jù)結(jié)構(gòu)或它們的組合。記錄在計(jì)算機(jī)可讀記錄介質(zhì)上的程序命令可針對本發(fā)明專門設(shè)計(jì)和構(gòu)造,或者可以被計(jì)算機(jī)軟件領(lǐng)域中的普通技術(shù)人員知曉和使用。計(jì)算機(jī)可讀介質(zhì)的示例包括諸如硬盤、軟盤和磁帶的磁性介質(zhì),諸如壓縮CD-ROM和DVD的光學(xué)記錄介質(zhì),諸如光磁盤的磁光介質(zhì),以及諸如ROM、RAM和閃存的、專門配置為存儲和執(zhí)行程序命令的硬件裝置。程序命令的示例包括可由使用解譯器的計(jì)算機(jī)執(zhí)行的高級語言代碼以及由編譯器產(chǎn)生的機(jī)器語言代碼。硬件裝置可變成一個或多個軟件模塊以執(zhí)行根據(jù)本發(fā)明的處理,反之亦然。
雖然參考諸如具體部件、有限的實(shí)施方式和附圖的具體特征描述了本發(fā)明,但是這些特征僅提供用于幫助整體地理解本發(fā)明,而本發(fā)明不限于這些實(shí)施方式,并且本發(fā)明所屬技術(shù)領(lǐng)域的普通技術(shù)人員可對本文描述的實(shí)施方式進(jìn)行各種改變和修改。
因此,本發(fā)明構(gòu)思不應(yīng)僅由上述實(shí)施方式限定,并且所附權(quán)利要求、權(quán)利要求的等同物或者從權(quán)利要求等同地變化出的全部范圍均屬于本發(fā)明構(gòu)思的范圍。