專利名稱:用于編碼和解碼具有各種聲道的多對(duì)象音頻信號(hào)的設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于編碼和解碼多對(duì)象音頻信號(hào)的設(shè)備和方法;并且,更具體地,涉及用于對(duì)具有各種聲道的多對(duì)象音頻信號(hào)進(jìn)行編碼和解碼以及對(duì)形成有各種聲道的多對(duì)象音頻信號(hào)進(jìn)行編碼和解碼的設(shè)備和方法。具有各種聲道的多對(duì)象音頻信號(hào)是包括其每一個(gè)形成有不同聲道(例如,單聲道、立體聲聲道、和5.1聲道)的多個(gè)音頻對(duì)象的音頻信號(hào)。該工作得到韓國(guó)信息通信部(MIC )和/或韓國(guó)信息技術(shù)(IT )研究院(IITA ) 的信息技術(shù)研究和開發(fā)規(guī)劃的部分支持[2005-S-403-02, "super-intelligent multimedia anytime-anywhere realistic TV (SmaRTV) technology"]。
背景技術(shù):
根據(jù)現(xiàn)有技術(shù)的音頻編碼和解碼技術(shù)使得用戶能夠被動(dòng)收聽(tīng)音頻內(nèi)容。 因此,已存在對(duì)于以下對(duì)由不同聲道組成的多個(gè)音頻對(duì)象進(jìn)行編碼和解碼的 設(shè)備和方法的需求,通過(guò)根據(jù)用戶需求控制由不同聲道組成的每一音頻對(duì)象, 使用各種方法合并一個(gè)音頻上下文,而使得用戶能夠消費(fèi)各種音頻對(duì)象。作為現(xiàn)有技術(shù),介紹了空間音頻編碼(SAC)。 SAC是用于將多聲道音 頻信號(hào)表達(dá)為縮混后的(down mixed)單聲道信號(hào)或縮混后的立體聲信號(hào)和 空間線索、傳送并恢復(fù)多聲道音頻信號(hào)的技術(shù)?;赟AC,可以以低比特率 傳送高質(zhì)量多聲道音頻信號(hào)。然而,SAC不能編碼和解碼多聲道多對(duì)象音頻信號(hào)-例如包括其每一個(gè) 由諸如單聲道、立體聲、和5.1聲道的不同聲道組成的各種對(duì)象的音頻信號(hào), 因?yàn)楸M管音頻信號(hào)由多個(gè)聲道組成,但是SAC是用于編碼和解碼單對(duì)象音頻 信號(hào)的技術(shù)。作為另一現(xiàn)有技術(shù),介紹了雙耳線索編碼(BCC)。 BCC可編碼和解碼 多對(duì)象信號(hào)。然而,BCC不能編碼和解碼由除了單聲道的各種聲道組成的多 對(duì)象音頻信號(hào),因?yàn)樵贐CC中音頻對(duì)象限于形成有單聲道的音頻對(duì)象。如上所述,根據(jù)現(xiàn)有技術(shù)的音頻信號(hào)編碼和解碼技術(shù)不能對(duì)由各種聲道組成的多對(duì)象音頻信號(hào)進(jìn)行編碼和解碼,因?yàn)樗鼈儽辉O(shè)計(jì)為對(duì)由單聲道組成 的多對(duì)象信號(hào)或具有多聲道的單對(duì)象音頻信號(hào)進(jìn)行編碼和解碼。所以,根據(jù) 現(xiàn)有技術(shù),用戶必須根據(jù)音頻信號(hào)編碼和解碼技術(shù)來(lái)被動(dòng)收聽(tīng)音頻上下文。所以,已存在對(duì)于以下對(duì)由各種聲道組成的多個(gè)音頻對(duì)象進(jìn)行編碼和解 碼的設(shè)備和方法的需求,通過(guò)根據(jù)用戶需求控制其每一個(gè)具有不同聲道的每 一音頻對(duì)象,使用各種方法混合一個(gè)音頻內(nèi)容,以便消費(fèi)各種音頻對(duì)象。
發(fā)明內(nèi)容
技術(shù)問(wèn)題本發(fā)明的實(shí)施例旨在提供一種用于對(duì)具有各種聲道的多對(duì)象音頻信號(hào)進(jìn) 行編碼和解碼以及對(duì)由各種聲道組成的多對(duì)象音頻信號(hào)進(jìn)行編碼和解碼的設(shè) 備牙口方法。本發(fā)明的其他目的和優(yōu)點(diǎn)可通過(guò)以下描述而理解,并通過(guò)參考本發(fā)明的 可通過(guò)要求保護(hù)的部件及其組合來(lái)實(shí)現(xiàn)本發(fā)明的目的和優(yōu)點(diǎn)。 技術(shù)方案根據(jù)本發(fā)明的 一個(gè)方面,提供了 一種用于編碼具有不同聲道的多對(duì)象音頻信號(hào)的設(shè)備,包括縮混單元,用于將具有不同聲道的多對(duì)象音頻信號(hào)縮 混為一個(gè)縮混后的音頻信號(hào),并提取用于所述具有不同聲道的多對(duì)象音頻信 號(hào)中的每一個(gè)的報(bào)頭信息和包括空間線索信息的補(bǔ)充信息;編碼單元,用于 對(duì)縮混后的音頻信號(hào)進(jìn)行編碼;和補(bǔ)充信息編碼單元,用于生成該補(bǔ)充信息 作為比特流,其中該報(bào)頭信息包括用于所述具有不同聲道的多對(duì)象音頻信 號(hào)中的每一個(gè)的標(biāo)識(shí)信息;和用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的 每一個(gè)的聲道信息。根據(jù)本發(fā)明的另 一方面,提供了 一種用于編碼具有不同聲道的多對(duì)象音 頻信號(hào)的方法,包括步驟將具有不同聲道的多對(duì)象音頻信號(hào)縮混為一個(gè)縮 混后的音頻信號(hào),并提取用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一 個(gè)的報(bào)頭信息和包括空間線索信息的補(bǔ)充信息;對(duì)縮混后的音頻信號(hào)進(jìn)行編 碼;和生成該補(bǔ)充信息作為比特流,其中該報(bào)頭信息包括用于所述具有不 同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的標(biāo)識(shí)信息;和用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息。根據(jù)本發(fā)明的另 一方面,提供了 一種用于解碼由不同聲道組成的多對(duì)象 音頻信號(hào)的設(shè)備,包括輸入信號(hào)分析單元,用于從輸入的音頻信號(hào)中恢復(fù) 縮混后的音頻信號(hào),并從該輸入的音頻信號(hào)中包括的補(bǔ)充信息比特流中提取報(bào)頭信息和具有空間線索信息的補(bǔ)充信息;音頻對(duì)象提取單元,用于使用來(lái) 自該輸入信號(hào)分析單元的所提取的補(bǔ)充信息,來(lái)從所恢復(fù)的縮混后的音頻信 號(hào)中恢復(fù)每一對(duì)象的音頻信號(hào);和輸出單元,用于使用該輸入的音頻信號(hào)的 控制信息,來(lái)輸出所恢復(fù)的每一對(duì)象的音頻信號(hào)作為多對(duì)象音頻信號(hào),其中 該報(bào)頭信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的標(biāo) 識(shí)信息;和用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息。根據(jù)本發(fā)明的另 一方面,提供了 一種用于解碼由不同聲道組成的多對(duì)象 音頻信號(hào)的方法,包括步驟從輸入的音頻信號(hào)中恢復(fù)縮混后的音頻信號(hào), 并從該輸入的音頻信號(hào)中包括的補(bǔ)充信息比特流中提取報(bào)頭信息和具有空間 線索信息的補(bǔ)充信息;使用所提取的補(bǔ)充信息,來(lái)從所恢復(fù)的縮混后的音頻 信號(hào)中恢復(fù)每一對(duì)象的音頻信號(hào);和使用該輸入的音頻信號(hào)的控制信息,來(lái) 輸出所恢復(fù)的每一對(duì)象的音頻信號(hào)作為多對(duì)象音頻信號(hào),其中該報(bào)頭信息包 括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的標(biāo)識(shí)信息;和用 于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一 個(gè)的聲道信息。根據(jù)本發(fā)明的另一方面,提供了一種用于解碼由不同聲道組成的多對(duì)象 音頻信號(hào)的設(shè)備,包括輸入信號(hào)分析單元,用于從輸入的音頻信號(hào)中恢復(fù) 縮混后的音頻信號(hào),并從該輸入的音頻信號(hào)中包括的補(bǔ)充比特流中提取報(bào)頭 信息和包括空間線索信息的補(bǔ)充信息;補(bǔ)充信息控制單元,用于使用該輸入 的音頻信號(hào)的控制信息,來(lái)控制所提取的補(bǔ)充信息;和輸出單元,用于使用 所控制的補(bǔ)充信息,來(lái)輸出所恢復(fù)的縮混后的音頻信號(hào)作為多對(duì)象音頻信號(hào), 其中該報(bào)頭信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè) 的標(biāo)識(shí)信息;和用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道 信息。根據(jù)本發(fā)明的另 一方面,提供了 一種用于解碼由不同聲道組成的多對(duì)象 音頻信號(hào)的方法,包括步驟從輸入的音頻信號(hào)中恢復(fù)縮混后的音頻信號(hào), 并從該輸入的音頻信號(hào)中包括的補(bǔ)充比特流中提取報(bào)頭信息和包括空間線索 信息的補(bǔ)充信息;使用該輸入的音頻信號(hào)的控制信息,來(lái)控制所提取的補(bǔ)充信息,來(lái)輸出所恢復(fù)的縮混后的音頻信號(hào)作為多對(duì)象音頻信號(hào),其中該報(bào)頭信息包括用于所述具有不同聲道的多對(duì)象音頻 信號(hào)中的每一個(gè)的標(biāo)識(shí)信息;和用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息。 有利效果根據(jù)本發(fā)明實(shí)施例的用于對(duì)具有各種聲道的多對(duì)象音頻信號(hào)進(jìn)行編碼和 解碼以及對(duì)由各種聲道組成的多對(duì)象音頻信號(hào)進(jìn)行編碼和解碼的設(shè)備和方法 通過(guò)有效編碼和解碼由不同聲道組成的包括各種音頻對(duì)象的音頻內(nèi)容,而使 得用戶能夠根據(jù)其需求來(lái)主動(dòng)消費(fèi)音頻內(nèi)容。
圖1是圖示了根據(jù)本發(fā)明示范實(shí)施例的用于編碼多對(duì)象音頻信號(hào)的設(shè)備 的圖。圖2是描繪了圖1中示出的單聲道縮混器的圖。 圖3是示出了圖1的立體聲聲道縮混器的圖。 圖4是圖1的多聲道縮混器的圖。 圖5是圖示了圖1的第二縮混器的圖。圖6是示出了從圖1的補(bǔ)充信息編碼器生成的補(bǔ)充信息比特流的結(jié)構(gòu)的圖。圖7是圖示了圖6中示出的補(bǔ)充信息比特流的結(jié)構(gòu)的詳細(xì)圖。 圖8是圖示了根據(jù)本發(fā)明另一實(shí)施例的圖6中示出的補(bǔ)充信息比特流的 結(jié)構(gòu)的詳細(xì)圖。圖9是圖示了根據(jù)本發(fā)明實(shí)施例的用于解碼多對(duì)象音頻信號(hào)的設(shè)備的框圖。圖10是圖示了根據(jù)本發(fā)明另一實(shí)施例的用于解碼多對(duì)象音頻信號(hào)的設(shè) 備的框圖。圖ll是根據(jù)本發(fā)明實(shí)施例的用于使用圖1的設(shè)備來(lái)編碼多對(duì)象音頻信號(hào) 的方法的流程圖。 是根據(jù)本發(fā)明實(shí)施例的用于使用圖9的設(shè)備來(lái)解碼多對(duì)象音頻信號(hào) 的方法的流程圖。圖13是根據(jù)本發(fā)明另一實(shí)施例的用于使用圖IO的設(shè)備來(lái)解碼多對(duì)象音 頻信號(hào)的方法的流程圖。
具體實(shí)施方式
通過(guò)下面闡明的參考附圖對(duì)實(shí)施例進(jìn)行的以下描述,本發(fā)明的優(yōu)點(diǎn)、特 征和方面將變得清楚。圖1是圖示了根據(jù)本發(fā)明實(shí)施例的用于編碼多對(duì)象音頻信號(hào)的設(shè)備的 圖。例如,根據(jù)本實(shí)施例的設(shè)備接收多聲道音頻對(duì)象,例如單聲道音頻對(duì)象、立體聲聲道音頻對(duì)象、以及5.1聲道音頻對(duì)象。如圖1中所示,根據(jù)本實(shí)施例的多對(duì)象音頻編碼設(shè)備包括第一縮混器 101、第二縮混器103、音頻編碼器105、和補(bǔ)充信息編碼器107、以及多路 復(fù)用器109。第一縮混器101包括單聲道縮混器lll、立體聲聲道縮混器113、和多聲 道縮混器115。第一縮混器101使用輸入的音頻對(duì)象的報(bào)頭信息而將輸入的各種聲道多 對(duì)象音頻信號(hào)標(biāo)識(shí)為單聲道音頻對(duì)象、立體聲聲道音頻對(duì)象、以及多聲道音 頻信號(hào)。然后,第一縮混器101通過(guò)對(duì)應(yīng)聲道來(lái)對(duì)標(biāo)識(shí)的音頻信號(hào)進(jìn)行分組。 所以,通過(guò)聲道對(duì)多對(duì)象音頻信號(hào)的不同聲道進(jìn)行分組,而分組后的音頻對(duì) 象由對(duì)應(yīng)縮混器111 、 113和115進(jìn)行縮混。第一縮混器101還從輸入的音頻對(duì)象中提取縮混后的音頻信號(hào)和包括空 間線索的補(bǔ)充信息。即,聲源由同一聲道分組并被輸入到第一縮混器101。 單聲道縮混器111從單聲道音頻對(duì)象中提取縮混后的信號(hào)和包括空間線索的 補(bǔ)充信息,而立體聲聲道縮混器113從輸入的立體聲聲道音頻對(duì)象中提取縮 混后的信號(hào)和包括空間線索的補(bǔ)充信息。多聲道縮混器115從輸入的多聲道 音頻對(duì)象(例如,5.1聲道)中提取縮混后的信號(hào)和具有空間線索的補(bǔ)充信息。音頻編碼器105對(duì)從第二縮混器103輸出的第二縮混后的信號(hào)進(jìn)行編碼。補(bǔ)充編碼器107使用從第一縮混器101輸出的補(bǔ)充信息和從第二縮混器 103輸出的補(bǔ)充信息來(lái)生成補(bǔ)充信息比特流。.這里,將參考圖6來(lái)描述補(bǔ)充 比特流中包括的信息。多路復(fù)用器109通過(guò)對(duì)來(lái)自音頻編碼器105的編碼后的信號(hào)和從補(bǔ)充編 碼器107生成的補(bǔ)充比特流進(jìn)行多路復(fù)用,而生成要傳送到解碼設(shè)備的比特流。從第一縮混器101輸出的第一縮混后的信號(hào)是立體聲信號(hào)或單聲道信號(hào)。即,從單聲道縮混器111輸出的縮混后的信號(hào)是單聲道信號(hào),而從其余混音器113和115輸出的縮混后的信號(hào)是單聲道信號(hào)或立體聲信號(hào)。第二縮混器103對(duì)從第一縮混器101輸出的第一縮混后的信號(hào)進(jìn)行縮混, 并輸出第二縮混后的信號(hào)。第二縮混器103提取在第二縮混過(guò)程中分析的包 括空間線索的補(bǔ)充信息。第二縮混后的信號(hào)根據(jù)模式是單聲道信號(hào)或立體聲 信號(hào)。補(bǔ)充信息包括用于恢復(fù)和控制空間線索和音頻信號(hào)的報(bào)頭信息。將參考 圖6來(lái)描述補(bǔ)充信息。圖2是描繪了圖1中示出的單聲道縮混器的圖。例如,單聲道縮混器111 接收N個(gè)單聲道音頻對(duì)象ml到mN。如圖2中所示,單聲道縮混器111包括層疊(cascade)結(jié)構(gòu)的第一基本 縮混器201a到201d。根據(jù)單聲道音頻對(duì)象的數(shù)目來(lái)判斷單聲道縮混器ill中包括的第一基本縮混器201a到201b的數(shù)目。即,如果單聲道音頻對(duì)象為N,則第一基本縮 混器201的數(shù)目為N-1。如果單聲道音頻對(duì)象為1,則旁路(bypassed)輸入 信號(hào),而沒(méi)有基本縮混器。在本實(shí)施例中,可基于層疊方法使用一個(gè)第一基本縮混器N-1次。 .基本上,第一基本縮混器對(duì)兩個(gè)輸入信號(hào)進(jìn)行縮混,生成一個(gè)縮混后的 單聲道信號(hào),并對(duì)于該輸入信號(hào)提取包括空間線索的補(bǔ)充信息。第1個(gè)第一 基本縮混器201a生成縮混后的單聲道信號(hào),并使用輸入到單聲道縮混器111 的兩個(gè)單聲道音頻對(duì)象來(lái)提取包括空間線索的補(bǔ)充信息。第2個(gè)第一基本縮混器201b生成縮混后的單聲道信號(hào),并使用從第1個(gè)第一基本縮混器201a 輸出的縮混后的單聲道信號(hào)和輸入到單聲道縮混器111的單聲道音頻對(duì)象來(lái) 提取包括空間線索的補(bǔ)充信息。第(N-l)個(gè)第一基本縮混器生成縮混后的單 聲道信號(hào),并使用從第(N-2)個(gè)基本縮混器(未示出)輸出的縮混后的單聲 道信號(hào)和輸入到單聲道縮混器111的單聲道音頻對(duì)象來(lái)提取包括空間線索的 補(bǔ)充信息。空間線索是用于編碼和解碼音頻信號(hào)的信息。空間線索是從頻域提取的, 并包括有關(guān)輸入到第一基本縮混器201的兩個(gè)信號(hào)之間的幅度差、延遲差、和相關(guān)性的信息。例如,根據(jù)本實(shí)施例的空間線索包括聲道聲級(jí)差(CLD)、 聲道間聲級(jí)差(ICLD)、聲道間時(shí)間差(ICTD)、聲道間相關(guān)性(ICC)、以 及音頻信號(hào)之間的虛擬源位置信息,表示音頻信號(hào)的功率增益信息。然而, 本發(fā)明不限于此。補(bǔ)充信息包括用于恢復(fù)和控制空間線索和音頻信號(hào)的報(bào)頭信息。將參考 圖6來(lái)描述補(bǔ)充信息。圖3是示出了圖1的立體聲聲道縮混器的圖。例如,該立體聲聲道縮混 器接收M個(gè)左信號(hào)SL1到SLM以及M個(gè)右信號(hào)SR1到SRM作為立體聲音頻對(duì)象。輸入到立體聲聲道縮混器113的立體聲音頻對(duì)象被劃分為左立體聲信號(hào) 和右立體聲信號(hào),并且所劃分的信號(hào)被再次分組。如圖3中所示,立體聲聲道縮混器113包括多個(gè)第一基本縮混器201。立 體聲聲道縮混器113需要2^(M-l)個(gè)第一基本縮混器201,以對(duì)M個(gè)左信號(hào) 和M個(gè)右信號(hào)進(jìn)行縮混。這里,可在另一實(shí)施例中使用一個(gè)第一基本縮混器 2 欠。如圖3中所示,用于分析M個(gè)左信號(hào)的(M-l)個(gè)第一基本縮混器2011a到 2011e通過(guò)分析輸入的信號(hào)而生成一個(gè)混音后的左信號(hào),并提取包括空間線索 的補(bǔ)充信息。如圖3中所示,用于分析M個(gè)右信號(hào)的(M-l)個(gè)第一基本縮混器201ra到 201re通過(guò)分析輸入的信號(hào)而生成一個(gè)混音后的右信號(hào),并提取包括空間線索 的補(bǔ)充信息。如圖3中所示,如果立體聲音頻對(duì)象為1,則可旁路輸入的左信號(hào)和右 信號(hào)。立體聲聲道縮混器113輸出立體聲縮混信號(hào),并通過(guò)生成縮混后的左信 號(hào)和縮混后的右信號(hào)而提取包括空間線索的補(bǔ)充信息。補(bǔ)充信息包括用于恢復(fù)和控制空間線索和音頻信號(hào)的報(bào)頭信息。將參考 圖6來(lái)描述補(bǔ)充信息。圖4是圖1的多聲道縮混器的圖。例如,該多聲道縮混器接收P個(gè)5.1 聲道音頻對(duì)象。如圖4中所示,多聲道縮混器115是采用MPEG環(huán)繞或空間音頻編碼 (SAC)的縮混器。多聲道縮混器115從多聲道音頻信號(hào)中提取包括空間線索的補(bǔ)充信息,并將音頻信號(hào)縮混為單聲道縮混后音頻信號(hào)或立體聲縮混后 音頻信號(hào)。即,多聲道縮混器115從P個(gè)多聲道音頻對(duì)象中提取空間線索,并傳送 所提取的空間線索。多聲道縮混器115還將音頻信號(hào)縮混為單聲道信號(hào)或立 體聲信號(hào)。
一般來(lái)說(shuō),多聲道音頻對(duì)象為一。圖5是圖示了圖1的第二縮混器的圖。第二縮混器103對(duì)從第一縮混器101輸出的信號(hào)再次進(jìn)行縮混,輸出立 體聲縮混信號(hào),并提取包括空間線索的補(bǔ)充信息。如圖5所示,第二縮混器103包括第一基本縮混器201f和201g以及第 二基本縮混器501。如果來(lái)自立體聲聲道縮混器113和多聲道縮混器115的縮混后信號(hào)是立 體聲信號(hào),則將對(duì)應(yīng)的縮混后立體聲信號(hào)分組為左信號(hào)和右信號(hào),并且第一 基本縮混器201f和201g對(duì)分組后的左信號(hào)和分組后的右信號(hào)進(jìn)行縮混。從 第一基本縮混器201f和201g輸出的縮混后的單聲道信號(hào)是左信號(hào)和右信號(hào) 的代表性縮混信號(hào)。即,第一基本縮混器201f對(duì)由立體聲聲道縮混器113縮混和輸出的左信 號(hào)和由多聲道縮混器115縮混和輸出的左信號(hào)再次進(jìn)行縮混,并輸出一個(gè)縮 混后的左信號(hào)作為代表性左信號(hào)。然后,第一基本縮混器201f提取補(bǔ)充信息。第 一基本縮混器201 g對(duì)由立體聲聲道縮混器113縮混和輸出的右信號(hào)和 由多聲道縮混器115縮混和輸出的右信號(hào)再次進(jìn)行縮混,并輸出一個(gè)代表性 右信號(hào)。然后,第一基本縮混器201g提取補(bǔ)充信息。如圖2中所示,根據(jù)另一實(shí)施例,可使用一個(gè)第一基本縮混器兩次。第二基本縮混器501對(duì)從單聲道縮混器111輸出的縮混后的單聲道信號(hào) 和從第一基本縮混器201f和201g輸出的左代表性縮混信號(hào)和右代表性縮混 信號(hào)進(jìn)行縮混,并輸出整個(gè)縮混后的左信號(hào)和右信號(hào)。然后,第二基本縮混 器501提取包括空間線索的補(bǔ)充信息。補(bǔ)充信息包括用于恢復(fù)和控制空間線索和音頻信號(hào)的報(bào)頭信息。稍后將 參考圖6描述補(bǔ)充信息。第一基本縮混器201和第二基本縮混器501基于以下方程1和方程2對(duì) 輸入音頻信號(hào)進(jìn)行縮混。方程1<formula>formula see original document page 19</formula>方程2<formula>formula see original document page 19</formula>在方程1和方程2中,《是用于控制輸入音頻信號(hào)的縮混聲級(jí)的加權(quán)因 子?!?,)是作為第一基本縮混器201和第二基本縮混器501的輸入音頻信號(hào) 的單聲道信號(hào)或立體聲左和右信號(hào)。下標(biāo)b是表示子帶的索引,并且每一加 權(quán)因子《由子帶定義??筛鶕?jù)輸入音頻對(duì)象的表達(dá)目的而不同地定義加權(quán)因子。例如,'《(/)的加權(quán)因子可被定義為相對(duì)大的值,以便將單聲道信號(hào)《(/)編碼為主信號(hào)。如 果方程1中的<=0乂《=0.3,則縮混后的信號(hào)是《(/) = 0.74(/>0.3《(/)。即,《(力被縮混為主信號(hào)。可根據(jù)縮混后信號(hào)的表達(dá)目的的限制條件來(lái)判斷加權(quán)因子。該限制條件 是用于聲音場(chǎng)景(sound scene)的限制條件。例如,小提琴和吉他的加權(quán)因 子被設(shè)置為0.7和0.3,以便從縮混后的音頻信號(hào)按照小提琴和吉他比率0.7 和0.3來(lái)重放小提琴和吉他的音頻信號(hào)?;趤?lái)自例如系統(tǒng)或用戶的外部裝 置的輸入來(lái)判斷限制條件信息。其間,加權(quán)因子必須被反映為空間線索聲級(jí)信息。例如,如果將CLD用 作空間線索,則可象用于方程l的方程3那樣預(yù)測(cè)空間線索信息。X!)、<formula>formula see original document page 19</formula>方程在方程3中,P()是功率運(yùn)算符,而可使用'F"。來(lái)計(jì)算信號(hào)功率之和。 ,和"i' + i表示子帶的邊界。第二基本縮混器501提取空間線索-MPEG環(huán)繞的三到二 (TTT)盒。 圖6是示出了從圖1的補(bǔ)充信息編碼器生成的補(bǔ)充信息比特流的結(jié)構(gòu)的如圖6中所示,補(bǔ)充比特流包括報(bào)頭信息和空間線索。報(bào)頭信息包括用于恢復(fù)和再現(xiàn)由各種聲道組成的多對(duì)象音頻信號(hào)的信 息。報(bào)頭信息還通過(guò)定義音頻對(duì)象的聲道信息和對(duì)應(yīng)音頻對(duì)象的ID來(lái)提供用于單聲道、立體聲、多聲道音頻對(duì)象的解碼信息。例如,可定義分類ID和每一對(duì)象的信息,以標(biāo)識(shí)編碼后的預(yù)定音頻對(duì)象是單聲道音頻信號(hào)還是立體聲音頻信號(hào)。在實(shí)施例中,報(bào)頭信息包括空間音頻編碼(SAC)報(bào)頭信息、音 頻對(duì)象信息、和預(yù)置信息。在實(shí)施例中,SAC報(bào)頭信息是在基于空間線索和時(shí)隙信息編碼音頻信號(hào) 的過(guò)程中生成的信息。當(dāng)?shù)谝缓偷诙s混器101和103提取補(bǔ)充信息時(shí),第 一和第二縮混器101和103提取SAC報(bào)頭信息。在實(shí)施例中,音頻對(duì)象信息包括用于標(biāo)識(shí)縮混后的音頻對(duì)象是單聲道、 立體聲還是多聲道音頻對(duì)象的信息和對(duì)象ID信息。例如,音頻對(duì)象信息包括 有關(guān)每一聲道的音頻對(duì)象的數(shù)目的信息(單聲道音頻對(duì)象數(shù)目、立體聲音頻 對(duì)象數(shù)目、和多聲道音頻對(duì)象數(shù)目)和每一聲道的音頻對(duì)象的索引信息,該 索引信息包括音頻對(duì)象是單聲道、立體聲還是多聲道的ID和信息。在本實(shí)施例中,預(yù)置信息是報(bào)頭信息的補(bǔ)充信息,并包括所定義的每一 對(duì)象的控制信息。例如,預(yù)置信息包括預(yù)置模式信息和預(yù)置模式支持信息。預(yù)置模式信息 例如包括卡拉OK模式、諸如提取吉他演奏音頻對(duì)象和提取鋼琴演奏音頻對(duì) 象的獨(dú)奏對(duì)象提取模式、偏好渲染信息、和重放模式設(shè)置信息。例如,預(yù)置模式支持信息包括用于支持卡拉OK模式的嗓音索引信息、 用于支持獨(dú)奏對(duì)象提取模式的對(duì)應(yīng)對(duì)象索引信息、用于支持偏好渲染的諸如 旋轉(zhuǎn)、提升、和速度的用于每一對(duì)象的渲染信息、以及用于支持基本立體聲 和多聲道重放模式設(shè)置的用于每一音頻對(duì)象的最佳渲染信息。而且,補(bǔ)充信息中包括的空間線索包括輸入的多對(duì)象音頻信號(hào)的每一對(duì) 象的空間線索信息??筛鶕?jù)設(shè)計(jì)者的選擇按照各種方式來(lái)形成該補(bǔ)充信息的格式。圖7是圖示了圖6中示出的補(bǔ)充信息比特流的結(jié)構(gòu)的詳細(xì)圖。即,圖7 示出了用于由單聲道和立體聲聲道組成的多對(duì)象音頻信號(hào)的補(bǔ)充信息。如圖7中所示,報(bào)頭信息包括有關(guān)每一聲道的音頻對(duì)象的數(shù)目的信息, 例如單聲道音頻對(duì)象的數(shù)目和立體聲音頻對(duì)象的數(shù)目。報(bào)頭信息還包括有關(guān)每一聲道的音頻對(duì)象的索引信息,包括有關(guān)ID的信息和有關(guān)音頻對(duì)象是單聲 道、立體聲、還是多聲道的信息。而且,補(bǔ)充比特流包括空間線索。作為示例,CDL或ICC被用作圖7中示出的實(shí)施例中的空間線索的示例。如圖7中所示,補(bǔ)充信息包括與單聲道和立體聲對(duì)象中的每一個(gè)對(duì)應(yīng)的 例如CLD或ICC的空間線索。即,與輸入音頻對(duì)象對(duì)應(yīng)的空間線索信息包括 所有補(bǔ)充信 息o圖8是圖示了根據(jù)本發(fā)明另一實(shí)施例的圖6中示出的補(bǔ)充信息比特流的 結(jié)構(gòu)的詳細(xì)圖。即,圖8示出了用于由單聲道、立體聲、和多聲道組成的多 對(duì)象音頻信號(hào)的補(bǔ)充信息。如圖8中所示,報(bào)頭信息包括有關(guān)每一聲道的音頻對(duì)象的數(shù)目的信息, 例如單聲道音頻對(duì)象的數(shù)目、立體聲音頻對(duì)象的數(shù)目、和多聲道音頻對(duì)象的 數(shù)目。報(bào)頭信息還包括每一聲道的音頻對(duì)象的索引信息,諸如ID以及音頻對(duì) 象是單聲道、立體聲、還是多聲道。而且,補(bǔ)充比特流包括空間線索。作為 空間線索的示例,在圖8的示例中使用CLD和ICC 。通過(guò)對(duì)多聲道對(duì)象的空間線索與單聲道和立體聲對(duì)象的空間線索進(jìn)行層 疊多路復(fù)用,可將多聲道對(duì)象的空間線索表達(dá)為一個(gè)補(bǔ)充比特流。由單聲道 縮混器lll、立體聲聲道縮混器113、和第二縮混器103提取的空間線索是用 于圖8的單聲道和立體聲音頻對(duì)象的空間線索。而且,圖8的多聲道音頻對(duì) 象的空間線索是由多聲道縮混器115提取的空間線索。圖9是圖示了根據(jù)本發(fā)明實(shí)施例的用于解碼多對(duì)象音頻信號(hào)的設(shè)備的框圖。根據(jù)本實(shí)施例的多對(duì)象音頻信號(hào)解碼設(shè)備通過(guò)從圖1中示出的多對(duì)象音 頻信號(hào)編碼設(shè)備生成的音頻比特流中提取空間線索信息并使用提取的空間線 索預(yù)測(cè)每一聲道信息,來(lái)恢復(fù)由各種聲道組成的多對(duì)象音頻信號(hào),該多對(duì)象 音頻信號(hào)是包括單聲道音頻對(duì)象、立體聲音頻對(duì)象、和多聲道音頻對(duì)象的音 頻信號(hào)。如圖9中所示,根據(jù)本實(shí)施例的多對(duì)象音頻信號(hào)解碼設(shè)備包括解多路復(fù) 用器(DEMUX) 901、音頻解碼器903、補(bǔ)充信息分析器卯5、音頻對(duì)象提取 器卯7、和渲染處理器909。例如,解多路復(fù)用器901從圖1的多對(duì)象音頻信號(hào)編碼設(shè)備生成的音頻 比特流中分離出音頻信息比特流和補(bǔ)充信息比特流。音頻解碼器903從來(lái)自解多路復(fù)用器901的分離的音頻信息比特流中恢 復(fù)縮混后的音頻信號(hào)。補(bǔ)充信息分析器卯5從來(lái)自解多路復(fù)用器卯l的補(bǔ)充比特流中提取包括 每一音頻對(duì)象的空間線索信息的補(bǔ)充信息。音頻對(duì)象提取器卯7使用來(lái)自補(bǔ)充信息分析器905的提取的補(bǔ)充信息的 報(bào)頭信息,來(lái)從縮混后的音頻信號(hào)恢復(fù)每一對(duì)象的音頻信號(hào)。由于報(bào)頭信息 包括諸如單聲道音頻對(duì)象的數(shù)目、立體聲音頻對(duì)象的數(shù)目、和多聲道音頻對(duì) 象的數(shù)目的有關(guān)每一聲道的音頻對(duì)象的數(shù)目的信息以及諸如ID和音頻對(duì)象 是單聲道音頻對(duì)象、立體聲音頻對(duì)象、還是多聲道音頻對(duì)象的每一音頻對(duì)象的索引信息,所以音頻對(duì)象提取器907可基于從補(bǔ)充信息分析器905提取的 補(bǔ)充信息的報(bào)頭信息和空間線索信息,來(lái)從音頻解碼器903輸出的縮混后的 音頻信號(hào)中恢復(fù)每一對(duì)象的音頻信號(hào)。渲染處理器909對(duì)于從音頻對(duì)象提取器907輸出的所恢復(fù)的音頻對(duì)象中 的每一個(gè)從外部裝置接收諸如空間音頻對(duì)象的位置和尺寸的渲染控制信息和諸如5.1或7.1聲道或立體聲的輸出聲道控制信息?;谠撲秩究刂菩畔⒑驮?輸出聲道控制信息,渲染處理器909安排所恢復(fù)的每一對(duì)象的音頻信號(hào)并輸 出該音頻信號(hào)。圖10是圖示了根據(jù)本發(fā)明另一實(shí)施例的用于解碼多對(duì)象音頻信號(hào)的設(shè) 備的框圖。與用于渲染根據(jù)每一對(duì)象恢復(fù)的音頻信號(hào)的圖9的解碼設(shè)備不同, 圖10中所示的根據(jù)另一實(shí)施例的多對(duì)象音頻信號(hào)解碼設(shè)備通過(guò)控制補(bǔ)充信 息并根據(jù)控制的補(bǔ)充信息渲染音頻對(duì)象,來(lái)恢復(fù)音頻信號(hào)。如圖10中所示,根據(jù)另一實(shí)施例的多對(duì)象音頻信號(hào)解碼設(shè)備包括解多路 復(fù)用器901、音頻解碼器903、補(bǔ)充信息分析器905、補(bǔ)充信息控制器IOOI、 和SAC解碼器1003。圖10的解多路復(fù)用器901、音頻解碼器903、和補(bǔ)充信息分析器905與 圖9的解多路復(fù)用器901、音頻解碼器、和補(bǔ)充信息分析器905相同。補(bǔ)充信息控制器1001對(duì)于從音頻解碼器903恢復(fù)的縮混后的音頻信號(hào)從 外部裝置接收諸如空間音頻對(duì)象的位置和尺寸的渲染控制信息和諸如5.1或 7.1聲道和立體聲的輸出聲道控制信息,并根據(jù)外部輸入信號(hào)控制從補(bǔ)充信息 分析器905提取的諸如每一音頻對(duì)象的信號(hào)幅度和相關(guān)性信息的補(bǔ)充信息。SAC解碼器1003使用來(lái)自補(bǔ)充信息控制器1001的受控制的補(bǔ)充信息,來(lái)從音頻解碼器903恢復(fù)的縮混后的音頻信號(hào)中恢復(fù)多聲道多對(duì)象音頻信號(hào)。SAC解碼器1003使用來(lái)自補(bǔ)充信息控制器1001的受控制的補(bǔ)充信息的 報(bào)頭信息,來(lái)從縮混后的音頻信號(hào)中恢復(fù)每一對(duì)象的音頻信號(hào)。由于報(bào)頭信 息包括諸如單聲道音頻對(duì)象的數(shù)目、立體聲音頻對(duì)象的數(shù)目、和多聲道音頻 對(duì)象的數(shù)目的有關(guān)每一聲道的音頻對(duì)象的數(shù)目的信息以及諸如ID和音頻對(duì) 象是單聲道音頻對(duì)象、立體聲音頻對(duì)象、還是多聲道音頻對(duì)象的每一音頻對(duì) 象的索引信息,所以SAC解碼器103可基于從補(bǔ)充信息控制器1001控制的 補(bǔ)充信息的報(bào)頭信息和空間線索信息,來(lái)從音頻解碼器903輸出的縮混后的 音頻信號(hào)中恢復(fù)每一對(duì)象的音頻信號(hào)。圖ll是根據(jù)本發(fā)明實(shí)施例的用于使用圖1的設(shè)備來(lái)編碼多對(duì)象音頻信號(hào) 的方法的流程圖。參考圖11,在步驟S1101中,輸入的各種聲道的多對(duì)象音頻信號(hào)基于輸 入音頻對(duì)象的報(bào)頭信息被分類為單聲道音頻信號(hào)、立體聲音頻信號(hào)、和多聲 道音頻信號(hào),并通過(guò)每一聲道分組。在步驟S1103中,對(duì)同一聲道所分組的聲源進(jìn)行縮混,并提取包括空間 線索的補(bǔ)充信息。即,從輸入的單聲道音頻對(duì)象中提取縮混后的信號(hào)和包括 空間線索的補(bǔ)充信息,從輸入的立體聲音頻對(duì)象中提取縮混后的信號(hào)和包括 空間線索的補(bǔ)充信息,并從例如5.1聲道的輸入的多聲道音頻對(duì)象中提取縮 混后的信號(hào)和包括空間線索的補(bǔ)充信息。在步驟S1103中輸出的第一縮混后的信號(hào)是立體聲信號(hào)或單聲道信號(hào)。 即,從輸入的單聲道音頻對(duì)象輸出的縮混后的信號(hào)是單聲道信號(hào),而從輸入 的立體聲音頻對(duì)象或輸入的多聲道音頻對(duì)象輸出的縮混后的信號(hào)是單聲道信 號(hào)或立體聲信號(hào)。然后,在步驟S1105中,第一縮混后的信號(hào)被再次縮混,并且提取包括 空間線索的補(bǔ)充信息。這里,第二縮混后的信號(hào)根據(jù)模式可以是單聲道信號(hào) 或立體聲信號(hào)。然后,在步驟S1107中,對(duì)步驟S1105中輸出的第二縮混后的信號(hào)進(jìn)行編碼。在步驟S1109中,使用在步驟S1103中輸出的補(bǔ)充信息和在步驟S1105 中輸出的補(bǔ)充信息,來(lái)生成補(bǔ)充信息比特流。在步驟Sllll中,通過(guò)對(duì)從步驟S1107生成的補(bǔ)充信息比特流進(jìn)行多路復(fù)用,而生成要傳送到解碼設(shè)備的比特流。圖12是根據(jù)本發(fā)明實(shí)施例的用于使用圖9的設(shè)備來(lái)解碼多對(duì)象音頻信號(hào) 的方法的流程圖。參考圖12,在步驟S1201中,從步驟Sllll生成的音頻比特流中分離出音頻信息比特流和補(bǔ)充信息比特流。在步驟S1203中,從分離的音頻信息比特流中恢復(fù)縮混后的音頻信號(hào)。 在步驟S1205中,從分離的比特流中提取包括每一音頻對(duì)象的空間線索信息的補(bǔ)充信息。在步驟S1207中,使用提取的補(bǔ)充信息的報(bào)頭信息來(lái)從縮混后的音頻信 號(hào)中恢復(fù)每一對(duì)象的音頻信號(hào)。由于報(bào)頭信息包括諸如單聲道音頻對(duì)象的數(shù) 目、立體聲音頻對(duì)象的數(shù)目、和多聲道音頻對(duì)象的數(shù)目的有關(guān)每一聲道的音 頻對(duì)象的數(shù)目的信息以及諸如ID和音頻對(duì)象是單聲道音頻對(duì)象、立體聲音頻 對(duì)象、還是多聲道音頻對(duì)象的每一音頻對(duì)象的索引信息,所以可基于在步驟 S1205中提取的所提取的補(bǔ)充信息的報(bào)頭信息和空間線索信息,來(lái)從步驟 S1203中輸出的縮混后的音頻信號(hào)中恢復(fù)每一對(duì)象的音頻信號(hào)。在步驟S1207中,從外部裝置接收例如空間音頻對(duì)象的位置和尺寸的用 于每一恢復(fù)的音頻對(duì)象的渲染控制信息和例如5.1或7.1聲道或立體聲的輸出 聲道控制信息,并安排每一恢復(fù)的對(duì)象的音頻信號(hào),并輸出多對(duì)象音頻信號(hào)。圖13是根據(jù)本發(fā)明另一實(shí)施例的用于使用圖IO的設(shè)備來(lái)解碼多對(duì)象音 頻信號(hào)的方法的流程圖。在步驟S1301中,從步驟Sllll中生成的音頻比特流中分離音頻信息比 特流和補(bǔ)充信息比特流。在步驟S1303中,從分離的音頻信息比特流中恢復(fù)縮混后的音頻信號(hào)。在步驟S1305中,從分離的補(bǔ)充比特流中提取包括每一音頻對(duì)象的空間 線索信息的補(bǔ)充信息。在步驟S1307中,從外部設(shè)備接收例如空間音頻對(duì)象的位置和尺寸的用 于每一恢復(fù)的音頻對(duì)象的渲染控制信息和例如5.1或7.1聲道和立體聲的輸出 聲道控制信息,并根據(jù)外部輸入信號(hào)控制從步驟S1305提取的補(bǔ)充信息,其 中所提取的補(bǔ)充信息例如包括有關(guān)每一音頻對(duì)象的信號(hào)幅度的信息和相關(guān)性 信息。在步驟S1309中,使用受控制的補(bǔ)充信息來(lái)從來(lái)自步驟S1303的縮混后的音頻信號(hào)中恢復(fù)各種聲道的多對(duì)象音頻信號(hào)。使用受控制的補(bǔ)充信息的報(bào) 頭信息來(lái)從縮混后的音頻信號(hào)中恢復(fù)每一對(duì)象的音頻信號(hào)。由于報(bào)頭信息包 括諸如單聲道音頻對(duì)象的數(shù)目、立體聲音頻對(duì)象的數(shù)目、和多聲道音頻對(duì)象 的數(shù)目的有關(guān)每一聲道的音頻對(duì)象的數(shù)目的信息以及諸如ID和音頻對(duì)象是 單聲道音頻對(duì)象、立體聲音頻對(duì)象、還是多聲道音頻對(duì)象的每一音頻對(duì)象的索引信息,所以可基于來(lái)自步驟S1307的受控制的補(bǔ)充信息的報(bào)頭信息和空 間線索信息,來(lái)從步驟S1303輸出的縮混后的音頻信號(hào)中恢復(fù)每一對(duì)象的音頻信號(hào)。上。計(jì)算機(jī)可讀記錄介質(zhì)是可存儲(chǔ)其后可由計(jì)算機(jī)系統(tǒng)讀取的數(shù)據(jù)的任何數(shù) 據(jù)儲(chǔ)存裝置。計(jì)算機(jī)可讀記錄介質(zhì)包括只讀存儲(chǔ)器(ROM)、隨機(jī)存取存儲(chǔ) 器(RAM)、 CD-ROM 、軟盤、硬盤和石茲光盤。盡管已針對(duì)某些優(yōu)選實(shí)施例而描述了本發(fā)明,但是本領(lǐng)域技術(shù)人員將理 解,可進(jìn)行各種改變和變型,而不脫離以下權(quán)利要求中限定的本發(fā)明的精神 和范圍。工業(yè)實(shí)用性根據(jù)本發(fā)明實(shí)施例的用于編碼和解碼多對(duì)象音頻信號(hào)的設(shè)備和方法通過(guò) 有效編碼和解碼由各種聲道組成的各種對(duì)象的音頻內(nèi)容,使得用戶能夠根據(jù) 需求來(lái)主動(dòng)消費(fèi)音頻內(nèi)容。
權(quán)利要求
1.一種用于編碼具有不同聲道的多對(duì)象音頻信號(hào)的設(shè)備,包括縮混部件,用于將具有不同聲道的多對(duì)象音頻信號(hào)縮混為一個(gè)縮混后的音頻信號(hào),并提取用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的報(bào)頭信息和包括空間線索信息的補(bǔ)充信息;編碼部件,用于對(duì)縮混后的音頻信號(hào)進(jìn)行編碼;和補(bǔ)充信息編碼部件,用于生成該補(bǔ)充信息作為比特流,其中該報(bào)頭信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的標(biāo)識(shí)信息;和用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息。
2. 根據(jù)權(quán)利要求l的設(shè)備,其中該聲道信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息;和 用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一聲道的音頻對(duì)象的數(shù)目。
3. 根據(jù)權(quán)利要求l的設(shè)備,其中該報(bào)頭信息還包括作為基于空間線索的 音頻編碼信息的時(shí)隙信息。
4. 根據(jù)權(quán)利要求l的設(shè)備,其中該報(bào)頭信息還包括用于具有不同聲道的 多對(duì)象音頻信號(hào)的預(yù)置信息。
5. 根據(jù)權(quán)利要求4的設(shè)備,其中該預(yù)置信息包括用于定義用于具有不同聲道的多對(duì)象音頻信號(hào)的預(yù)置模式的預(yù)置模式信 息;和用于定義用于支持該預(yù)置模式所需的信息的預(yù)置模式支持信息。
6. 根據(jù)權(quán)利要求1的設(shè)備,其中該空間線索信息順序包括用于單聲道和 立體聲音頻對(duì)象的空間線索信息和用于多聲道音頻對(duì)象的空間線索信息。
7. 根據(jù)權(quán)利要求l的設(shè)備,其中該縮混部件包括第 一縮混器,用于通過(guò)聲道對(duì)具有不同聲道的多對(duì)象音頻信號(hào)進(jìn)行縮混;和第二縮混器,用于將來(lái)自該第一縮混器的縮混后的信號(hào)縮混為一個(gè)縮混 后的信號(hào)。
8. 根據(jù)權(quán)利要求7的設(shè)備,其中該第一縮混器包括基本縮混器,用于提取所述具有不同聲道的多對(duì)象音頻信號(hào)中包括的用于單聲道的多對(duì)象信號(hào)的 補(bǔ)充信息,并對(duì)所述單聲道的多對(duì)象音頻信號(hào)進(jìn)行縮混。
9. 根據(jù)權(quán)利要求8的設(shè)備,其中對(duì)于單聲道的N個(gè)多對(duì)象音頻信號(hào), 按照層疊結(jié)構(gòu)安排(N-l)個(gè)基本縮混器。
10. 根據(jù)權(quán)利要求8的設(shè)備,其中一個(gè)基本縮混器基于層疊方案,對(duì)于 單聲道的N個(gè)多對(duì)象音頻信號(hào),執(zhí)行縮混操作(N-1 )次。
11. 根據(jù)權(quán)利要求7的設(shè)備,其中該第一縮混器包括基本縮混器,用于 提取有關(guān)作為由不同聲道組成的多對(duì)象音頻信號(hào)中包括的立體聲聲道的多對(duì) 象信號(hào)的左信號(hào)和右信號(hào)的補(bǔ)充信息,并對(duì)作為所述立體聲聲道的多對(duì)象音 頻信號(hào)的左信號(hào)和右信號(hào)進(jìn)行縮混。
12. 根據(jù)權(quán)利要求ll的設(shè)備,其中對(duì)于形成立體聲聲道的多對(duì)象音頻信 號(hào)的M個(gè)左信號(hào)和M個(gè)右信號(hào),按照層疊結(jié)構(gòu)安排(M-l )個(gè)基本縮混器。
13. 根據(jù)權(quán)利要求ll的設(shè)備,其中一個(gè)基本縮混器基于層疊方案,對(duì)于 形成立體聲聲道的多對(duì)象音頻信號(hào)的M個(gè)左信號(hào)和M個(gè)右信號(hào)中的每一個(gè), 執(zhí)行縮混操作(M-l )次。
14. 根據(jù)權(quán)利要求ll的設(shè)備,其中該第一縮混器包括多聲道縮混器,用 于基于MPEG環(huán)繞方案或空間音頻編碼(SAC)方案來(lái)提取用于多聲道多對(duì) 象音頻信號(hào)的補(bǔ)充信息,并對(duì)所述多聲道多對(duì)象音頻信號(hào)進(jìn)行縮混。
15. 根據(jù)權(quán)利要求7的設(shè)備,其中該第二縮混器包括第 一基本縮混器,用于提取由該第 一縮混器縮混為立體聲聲道的縮混后 的信號(hào)的左信號(hào)和右信號(hào)中的每一個(gè)的補(bǔ)充信息,并將由該第一縮混器縮混 為立體聲聲道的縮混后的信號(hào)的左信號(hào)和右信號(hào)中的每一個(gè)縮混為單聲道信 號(hào);和第二基本縮混器,用于從由該第 一基本縮混器和該第 一縮混器縮混為單 聲道的縮混后的信號(hào)中提取補(bǔ)充信息,并將由該第 一基本縮混器和該第 一縮 混器縮混為單聲道的縮混后的信號(hào)縮混為立體聲聲道信號(hào)。
16. 根據(jù)權(quán)利要求1的設(shè)備,還包括多路復(fù)用部件,用于對(duì)來(lái)自該編碼 部件的編碼后的音頻信號(hào)和來(lái)自該補(bǔ)充信息編碼部件的所生成的補(bǔ)充信息進(jìn) 行多路復(fù)用。
17. —種用于編碼具有不同聲道的多對(duì)象音頻信號(hào)的方法,包括步驟 將具有不同聲道的多對(duì)象音頻信號(hào)縮混為一個(gè)縮混后的音頻信號(hào),并提取用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的報(bào)頭信息和包括空間線索信息的補(bǔ)充信息;對(duì)縮混后的音頻信號(hào)進(jìn)行編碼;和 生成該補(bǔ)充信息作為比特流, 其中該報(bào)頭信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的標(biāo)識(shí)信息;和用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息。
18. 根據(jù)權(quán)利要求17的方法,其中該聲道信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息;和 用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一聲道的音頻對(duì)象的數(shù)目。
19. 根據(jù)權(quán)利要求17的方法,其中該報(bào)頭信息還包括作為基于空間線索 的音頻編碼信息的時(shí)隙信息。
20. 根據(jù)權(quán)利要求17的方法,其中該報(bào)頭信息還包括用于具有不同聲道 的多對(duì)象音頻信號(hào)的預(yù)置信息。
21. 根據(jù)權(quán)利要求20的方法,其中該預(yù)置信息包括 用于定義用于具有不同聲道的多對(duì)象音頻信號(hào)的預(yù)置模式的預(yù)置模式信息;和用于定義用于支持該預(yù)置模式所需的信息的預(yù)置模式支持信息。
22. 根據(jù)權(quán)利要求17的方法,其中該空間線索信息順序包括用于單聲道 和立體聲音頻對(duì)象的空間線索信息和用于多聲道音頻對(duì)象的空間線索信息。
23. 根據(jù)權(quán)利要求17的方法,其中所述對(duì)多對(duì)象音頻信號(hào)進(jìn)行縮混的步 驟包括通過(guò)聲道對(duì)具有不同聲道的多對(duì)象音頻信號(hào)進(jìn)行第一縮混;和 將該第 一 縮混后的信號(hào)第二縮混為 一 個(gè)縮混后的信號(hào)。
24. 根據(jù)權(quán)利要求23的方法,其中所述對(duì)多對(duì)象音頻信號(hào)進(jìn)行第一縮混 的步驟包括基本縮混步驟,用于提取所述具有不同聲道的多對(duì)象音頻信號(hào)中 包括的用于單聲道的多對(duì)象信號(hào)的補(bǔ)充信息,并對(duì)所述單聲道的多對(duì)象音頻 信號(hào)進(jìn)行縮混。
25. 根據(jù)權(quán)利要求24的方法,其中在該基本縮混步驟中,對(duì)于單聲道的N個(gè)多對(duì)象音頻信號(hào),按照層疊結(jié)構(gòu)執(zhí)行(N-l)個(gè)縮混操作。
26. 根據(jù)權(quán)利要求24的方法,其中在該基本縮混步驟中,對(duì)于單聲道的 N個(gè)多對(duì)象音頻信號(hào),執(zhí)行縮混操作(N-l)次。
27. 根據(jù)權(quán)利要求23的方法,其中所述對(duì)多對(duì)象音頻信號(hào)進(jìn)行第一縮混 的步驟包括基本縮混步驟,用于提取有關(guān)作為由不同聲道組成的多對(duì)象音頻 信號(hào)中包括的立體聲聲道的多對(duì)象信號(hào)的左信號(hào)和右信號(hào)的補(bǔ)充信息,并對(duì) 作為所述立體聲聲道的多對(duì)象音頻信號(hào)的左信號(hào)和右信號(hào)進(jìn)行縮混。
28. 根據(jù)權(quán)利要求27的方法,其中在該基本縮混步驟中,對(duì)于形成立體 聲聲道的多對(duì)象音頻信號(hào)的M個(gè)左信號(hào)和M個(gè)右信號(hào),按照層疊結(jié)構(gòu)執(zhí)行(M-l)個(gè)縮混操作。
29. 根據(jù)權(quán)利要求27的方法,其中在該基本縮混步驟中,對(duì)于形成立體 聲聲道的多對(duì)象音頻信號(hào)的M個(gè)左信號(hào)和M個(gè)右信號(hào),執(zhí)行縮混操作(M-l ) 次。
30. 根據(jù)權(quán)利要求27的方法,其中所述對(duì)多對(duì)象音頻信號(hào)進(jìn)行第一縮混 的步驟包括多聲道縮混步驟,用于基于MPEG環(huán)繞方案或空間音頻編碼(SAC)方案來(lái)提取用于多聲道多對(duì)象音頻信號(hào)的補(bǔ)充信息,并對(duì)所述多聲 道多對(duì)象音頻信號(hào)進(jìn)行縮混。
31. 根據(jù)權(quán)利要求23的方法,其中所述對(duì)第一縮混后的音頻信號(hào)進(jìn)行第 二縮混的步驟包括以下步驟提取由該第 一縮混步驟縮混為立體聲聲道的縮混后的信號(hào)的左信號(hào)和右 信號(hào)中的每一個(gè)的補(bǔ)充信息,并將由該第 一縮混步驟縮混為立體聲聲道的縮 混后的信號(hào)的左信號(hào)和右信號(hào)中的每一個(gè)第一縮混為單聲道信號(hào);和從所述第 一縮混后的單聲道信號(hào)中提取補(bǔ)充信息,并將所述第 一縮混后 的單聲道信號(hào)第二縮混為立體聲聲道信號(hào)。
32. 根據(jù)權(quán)利要求17的方法,還包括步驟用于對(duì)來(lái)自所述對(duì)縮混后的音頻信號(hào)進(jìn)行編碼的步驟的編碼后的音頻信 號(hào)和來(lái)自所述對(duì)補(bǔ)充信息進(jìn)行編碼的步驟的所生成的補(bǔ)充信息進(jìn)行多路復(fù)用。
33. —種用于解碼由不同聲道組成的多對(duì)象音頻信號(hào)的設(shè)備,包括 輸入信號(hào)分析部件,用于從輸入的音頻信號(hào)中恢復(fù)縮混后的音頻信號(hào),并從該輸入的音頻信號(hào)中包括的補(bǔ)充信息比特流中提取報(bào)頭信息和具有空間線索信息的補(bǔ)充信息;音頻對(duì)象提取部件,用于使用來(lái)自該輸入信號(hào)分析部件的所提取的補(bǔ)充信息,來(lái)從所恢復(fù)的縮混后的音頻信號(hào)中恢復(fù)每一對(duì)象的音頻信號(hào);和輸出部件,用于使用該輸入的音頻信號(hào)的控制信息,來(lái)輸出所恢復(fù)的每一對(duì)象的音頻信號(hào)作為多對(duì)象音頻信號(hào), 其中該報(bào)頭信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的標(biāo)識(shí)信息;和 用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息。
34. 根據(jù)權(quán)利要求33的設(shè)備,其中該聲道信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息;和 用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一聲道的音頻對(duì)象的數(shù)目。
35. 根據(jù)權(quán)利要求33的設(shè)備,其中該報(bào)頭信息還包括作為基于空間線索 的音頻編碼信息的時(shí)隙信息。
36. 根據(jù)權(quán)利要求33的設(shè)備,其中該報(bào)頭信息還包括用于具有不同聲道 的多對(duì)象音頻信號(hào)的預(yù)置信息。
37. 根據(jù)權(quán)利要求36的設(shè)備,其中該預(yù)置信息包括用于定義用于具有不同聲道的多對(duì)象音頻信號(hào)的預(yù)置模式的預(yù)置模式信 息;和用于定義用于支持該預(yù)置模式所需的信息的預(yù)置模式支持信息。
38. 根據(jù)權(quán)利要求33的設(shè)備,其中該空間線索信息順序包括用于單聲道 和立體聲音頻對(duì)象的空間線索信息和用于多聲道音頻對(duì)象的空間線索信息。
39. 根據(jù)權(quán)利要求33的設(shè)備,其中該控制信息是用于所恢復(fù)的音頻對(duì)象 中的每 一 個(gè)的渲染控制信息和輸出聲道控制信息。
40. 根據(jù)權(quán)利要求33的設(shè)備,其中該輸入信號(hào)分析部件包括解多路復(fù)用單元,用于從輸入的音頻信號(hào)中分離出音頻信息比特流和補(bǔ) 充信息比特流;音頻恢復(fù)單元,用于從來(lái)自該解多路復(fù)用單元的分離出的音頻信息比特 流中恢復(fù)縮混后的音頻信號(hào);和補(bǔ)充信息分析單元,用于從來(lái)自該解多路復(fù)用單元的分離出的補(bǔ)充比特 流中提取包括每一音頻對(duì)象的空間線索信息的補(bǔ)充信息。
41. 一種用于解碼由不同聲道組成的多對(duì)象音頻信號(hào)的方法,包括步驟 從輸入的音頻信號(hào)中恢復(fù)縮混后的音頻信號(hào),并從該輸入的音頻信號(hào)中包括的補(bǔ)充信息比特流中提取報(bào)頭信息和具有空間線索信息的補(bǔ)充信息;使用所提取的補(bǔ)充信息,來(lái)從所恢復(fù)的縮混后的音頻信號(hào)中恢復(fù)每一對(duì)象的音頻信號(hào);和使用該輸入的音頻信號(hào)的控制信息,來(lái)輸出所恢復(fù)的每一對(duì)象的音頻信號(hào)作為多對(duì)象音頻信號(hào), 其中該報(bào)頭信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的標(biāo)識(shí)信息;和 用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息。
42. 根據(jù)權(quán)利要求41的方法,其中該聲道信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息;和 用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一聲道的音頻對(duì)象的數(shù)目。
43. 根據(jù)權(quán)利要求41的方法,其中該報(bào)頭信息還包括作為基于空間線索 的音頻編碼信息的時(shí)隙信息。
44. 根據(jù)權(quán)利要求41的方法,其中該報(bào)頭信息還包括用于具有不同聲道 的多對(duì)象音頻信號(hào)的預(yù)置信息。
45. 根據(jù)權(quán)利要求44的方法,其中該預(yù)置信息包括用于定義用于具有不同聲道的多對(duì)象音頻信號(hào)的預(yù)置模式的預(yù)置模式信 息;和用于定義用于支持該預(yù)置模式所需的信息的預(yù)置模式支持信息。
46. 根據(jù)權(quán)利要求41的方法,其中該空間線索信息順序包括用于單聲道 和立體聲音頻對(duì)象的空間線索信息和用于多聲道音頻對(duì)象的空間線索信息。
47. 根據(jù)權(quán)利要求41的方法,其中該控制信息是用于所恢復(fù)的音頻對(duì)象 中的每 一 個(gè)的渲染控制信息和輸出聲道控制信息。
48. 根據(jù)權(quán)利要求41的方法,其中所述從輸入的音頻信號(hào)中恢復(fù)縮混后 的音頻信號(hào)的步驟包括步驟從輸入的音頻信號(hào)中分離出音頻信息比特流和補(bǔ)充信息比特流;從分離出的音頻信息比特流中恢復(fù)縮混后的音頻信號(hào);和從分離出的補(bǔ)充比特流中提取包括每一音頻對(duì)象的空間線索信息的補(bǔ)充信息。
49. 一種用于解碼由不同聲道組成的多對(duì)象音頻信號(hào)的設(shè)備,包括 輸入信號(hào)分析部件,用于從輸入的音頻信號(hào)中恢復(fù)縮混后的音頻信號(hào),并從該輸入的音頻信號(hào)中包括的補(bǔ)充比特流中提取報(bào)頭信息和包括空間線索 信息的補(bǔ)充信息;補(bǔ)充信息控制部件,用于使用該輸入的音頻信號(hào)的控制信息,來(lái)控制所 提取的補(bǔ)充信息;和輸出部件,用于使用所控制的補(bǔ)充信息,來(lái)輸出所恢復(fù)的縮混后的音頻 信號(hào)作為多對(duì)象音頻信號(hào),其中該報(bào)頭信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的標(biāo)識(shí)信息;和用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息。
50. 根據(jù)權(quán)利要求49的設(shè)備,其中該聲道信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息;和 用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一聲道的音頻對(duì)象的數(shù)目。
51. 根據(jù)權(quán)利要求49的設(shè)備,其中該報(bào)頭信息還包括作為基于空間線索 的音頻編碼信息的時(shí)隙信息。
52. 根據(jù)權(quán)利要求49的設(shè)備,其中該報(bào)頭信息還包括用于具有不同聲道 的多對(duì)象音頻信號(hào)的預(yù)置信息。
53. 根據(jù)權(quán)利要求52的設(shè)備,其中該預(yù)置信息包括用于定義用于具有不同聲道的多對(duì)象音頻信號(hào)的預(yù)置模式的預(yù)置模式信 息;和用于定義用于支持該預(yù)置模式所需的信息的預(yù)置模式支持信息。
54. 根據(jù)權(quán)利要求49的設(shè)備,其中該空間線索信息順序包括用于單聲道 和立體聲音頻對(duì)象的空間線索信息和用于多聲道音頻對(duì)象的空間線索信息。
55. 根據(jù)權(quán)利要求49的設(shè)備,其中該控制信息包括用于所恢復(fù)的縮混后 的音頻信號(hào)的渲染控制信息和輸出聲道控制信息。
56. 根據(jù)權(quán)利要求49的設(shè)備,其中該輸入信號(hào)分析部件包括 解多路復(fù)用單元,用于從輸入的音頻信號(hào)中分離出音頻信息比特流和補(bǔ)充信息比特流;音頻恢復(fù)單元,用于從來(lái)自該解多路復(fù)用單元的分離出的音頻信息比特流中恢復(fù)縮混后的音頻信號(hào);和補(bǔ)充信息分析單元,用于從分離出的補(bǔ)充比特流中提取包括每一音頻對(duì) 象的空間線索的補(bǔ)充信息。
57. —種用于解碼由不同聲道組成的多對(duì)象音頻信號(hào)的方法,包括步驟 從輸入的音頻信號(hào)中恢復(fù)縮混后的音頻信號(hào),并從該輸入的音頻信號(hào)中包括的補(bǔ)充比特流中提取報(bào)頭信息和包括空間線索信息的補(bǔ)充信息; 使用該輸入的音頻信號(hào)的控制信息,來(lái)控制所提取的補(bǔ)充信息;和 使用所控制的補(bǔ)充信息,來(lái)輸出所恢復(fù)的縮混后的音頻信號(hào)作為多對(duì)象音頻信號(hào),其中該報(bào)頭信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的標(biāo)識(shí)信息;和 用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息。
58. 根據(jù)權(quán)利要求57的方法,其中該聲道信息包括 用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息;和 用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一聲道的音頻對(duì)象的數(shù)目。
59. 根據(jù)權(quán)利要求57的方法,其中該報(bào)頭信息還包括作為基于空間線索 的音頻編碼信息的時(shí)隙信息。
60. 根據(jù)權(quán)利要求57的方法,其中該報(bào)頭信息還包括用于具有不同聲道的多對(duì)象音頻信號(hào)的預(yù)置信息。
61. 根據(jù)權(quán)利要求60的方法,其中該預(yù)置信息包括用于定義用于具有不同聲道的多對(duì)象音頻信號(hào)的預(yù)置模式的預(yù)置模式信 息;和用于定義用于支持該預(yù)置模式所需的信息的預(yù)置模式支持信息。
62. 根據(jù)權(quán)利要求57的方法,其中該空間線索信息順序包括用于單聲道 和立體聲音頻對(duì)象的空間線索信息和用于多聲道音頻對(duì)象的空間線索信息。
63. 根據(jù)權(quán)利要求57的方法,其中該控制信息是用于所恢復(fù)的縮混后的 音頻信號(hào)的渲染控制信,t、和輸出聲道控制信息。
64. 根據(jù)權(quán)利要求57的方法,其中所述從輸入的音頻信號(hào)中恢復(fù)縮混后的音頻信號(hào)的步驟包括步驟從輸入的音頻信號(hào)中分離出音頻信息比特流和補(bǔ)充信息比特流;從分離出的音頻信息比特流中恢復(fù)縮混后的音頻信號(hào);和從分離出的補(bǔ)充比特流中提取包括每一音頻對(duì)象的空間線索的補(bǔ)充信
全文摘要
提供了一種用于編碼和解碼多對(duì)象音頻信號(hào)的設(shè)備和方法。該設(shè)備包括縮混器,用于將具有不同聲道的多對(duì)象音頻信號(hào)縮混為一個(gè)縮混后的音頻信號(hào),并提取用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的報(bào)頭信息和包括空間線索信息的補(bǔ)充信息;編碼器,用于對(duì)縮混后的音頻信號(hào)進(jìn)行編碼;和補(bǔ)充信息編碼器,用于生成該補(bǔ)充信息作為比特流。該報(bào)頭信息包括用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的標(biāo)識(shí)信息和用于所述具有不同聲道的多對(duì)象音頻信號(hào)中的每一個(gè)的聲道信息。
文檔編號(hào)G10L19/00GK101617360SQ200780043560
公開日2009年12月30日 申請(qǐng)日期2007年10月1日 優(yōu)先權(quán)日2006年9月29日
發(fā)明者劉載鉉, 姜京玉, 張仁瑄, 張大永, 徐廷一, 李泰辰, 李用主, 洪鎮(zhèn)佑, 白承權(quán), 金鎮(zhèn)雄 申請(qǐng)人:韓國(guó)電子通信研究院