專(zhuān)利名稱(chēng):產(chǎn)生和播放基于對(duì)象的音頻內(nèi)容的方法和記錄具有用于基于對(duì)象的音頻服務(wù)的文件格式 ...的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種產(chǎn)生和播放基于對(duì)象的音頻內(nèi)容的方法以及一種存儲(chǔ)具有用于 基于對(duì)象的音頻服務(wù)的文件格式結(jié)構(gòu)的數(shù)據(jù)的計(jì)算機(jī)可讀記錄介質(zhì),所述基于對(duì)象的音頻 內(nèi)容可有效地存儲(chǔ)與基于對(duì)象的音頻內(nèi)容有關(guān)的預(yù)設(shè)信息。
背景技術(shù):
可以以混合從多種聲音源獲得的音頻信號(hào)的方式以單個(gè)音頻信號(hào)來(lái)存儲(chǔ)和發(fā)送 通過(guò)廣播服務(wù)(例如,電視(TV)廣播服務(wù)、無(wú)線電廣播服務(wù)、數(shù)字多媒體廣播(DMB)服務(wù) 等)提供的現(xiàn)有音頻信號(hào)。在這種環(huán)境中,用戶(hù)可調(diào)整整個(gè)音頻信號(hào)的強(qiáng)度,但可能不能控制每個(gè)聲音源的 音頻信號(hào)的特性,例如,調(diào)整相應(yīng)音頻信號(hào)中包括的每個(gè)聲音源的音頻信號(hào)的強(qiáng)度。然而,當(dāng)創(chuàng)建音頻內(nèi)容時(shí),用于每個(gè)聲音源的音頻信號(hào)可能不能被合成,而會(huì)被單 獨(dú)存儲(chǔ)。在這種情況下,內(nèi)容播放終端使得用戶(hù)能夠在控制用于每個(gè)聲音源的音頻信號(hào)的 強(qiáng)度的同時(shí)收聽(tīng)音頻內(nèi)容。這樣的音頻服務(wù)被稱(chēng)為基于對(duì)象的音頻服務(wù)所述音頻服務(wù)可在存儲(chǔ)/發(fā)送端獨(dú) 立存儲(chǔ)和發(fā)送多個(gè)音頻信號(hào),并在接收器(例如,內(nèi)容播放裝置)使得用戶(hù)能夠在適當(dāng)?shù)乜?制每個(gè)音頻信號(hào)的同時(shí)收聽(tīng)相應(yīng)的音頻內(nèi)容。以上基于對(duì)象的音頻服務(wù)通過(guò)使用預(yù)設(shè)來(lái)定義屬性(例如,每個(gè)對(duì)象的位置、聲 音的強(qiáng)度、根據(jù)對(duì)象的位置的聲學(xué)特性等),并提供定義的屬性。因此,用戶(hù)可使用所述屬性 以播放音頻內(nèi)容。具體地講,當(dāng)多個(gè)預(yù)設(shè)音頻信息被產(chǎn)生并被包括在文件中時(shí),接收側(cè)可更 有效地使用基于對(duì)象的音頻服務(wù)?,F(xiàn)有的國(guó)際標(biāo)準(zhǔn)化組織基本媒體文件格式(ISO-BMFF)定義包括所有各種媒體 (例如,音頻、視頻、靜止圖像等)的文件結(jié)構(gòu)。該文件結(jié)構(gòu)關(guān)于媒體的交互、管理、編輯和呈 現(xiàn)可以是可變形和可擴(kuò)展的。當(dāng)通過(guò)將音頻軌道和預(yù)設(shè)的信息添加到ISO-BMFF來(lái)執(zhí)行存儲(chǔ)或傳輸時(shí),可更有 效地提供基于對(duì)象的音頻服務(wù)。
發(fā)明內(nèi)容
技術(shù)問(wèn)題本發(fā)明的一方面提供了一種產(chǎn)生基于對(duì)象的音頻內(nèi)容的方法,所述基于對(duì)象的音 頻內(nèi)容可有效地存儲(chǔ)關(guān)于多個(gè)音頻對(duì)象的預(yù)設(shè)。技術(shù)方案根據(jù)本發(fā)明的一方面,提供了一種產(chǎn)生基于對(duì)象的音頻內(nèi)容的方法,所述方法包 括接收多個(gè)音頻對(duì)象;通過(guò)使用所述多個(gè)音頻對(duì)象產(chǎn)生至少一個(gè)預(yù)設(shè);存儲(chǔ)關(guān)于所述至少一個(gè)預(yù)設(shè)的屬性和所述多個(gè)音頻對(duì)象的預(yù)設(shè)參數(shù)??梢砸钥虻男问酱鎯?chǔ)預(yù)設(shè)參數(shù),以與 基于對(duì)象的音頻內(nèi)容有關(guān)的媒體文件格式定義所述框。這里,媒體文件格式可以是國(guó)際標(biāo)準(zhǔn)化組織基本媒體文件格式(ISO-BMFF)的結(jié) 構(gòu)。另外,所述框可包括moov框,moov框包括在moov框中定義的第一框,第一框包括 在第一框中定義的第二框。預(yù)設(shè)參數(shù)可包括第一預(yù)設(shè)參數(shù)和第二預(yù)設(shè)參數(shù),第一預(yù)設(shè)參數(shù) 包括所述至少一個(gè)預(yù)設(shè)的數(shù)量、所述至少一個(gè)預(yù)設(shè)中的任何一個(gè)預(yù)設(shè)的預(yù)設(shè)標(biāo)識(shí)(ID)中 的至少一個(gè)。第一預(yù)設(shè)參數(shù)可被存儲(chǔ)在第一框中,第二預(yù)設(shè)參數(shù)可被存儲(chǔ)在第二框中。根據(jù)本發(fā)明的另一方面,提供了一種播放基于對(duì)象的音頻內(nèi)容的方法,所述方法 包括從基于對(duì)象的音頻內(nèi)容恢復(fù)多個(gè)音頻對(duì)象和至少一個(gè)預(yù)設(shè);基于所述至少一個(gè)預(yù)設(shè) 來(lái)混合所述多個(gè)音頻對(duì)象,以產(chǎn)生輸出音頻信號(hào);播放輸出音頻信號(hào)。所述至少一個(gè)預(yù)設(shè)中 的每一個(gè)預(yù)設(shè)可包括預(yù)設(shè)參數(shù)。所述預(yù)設(shè)參數(shù)可以以框的形式被存儲(chǔ)在基于對(duì)象的音頻內(nèi) 容中,以與基于對(duì)象的音頻內(nèi)容有關(guān)的媒體文件格式來(lái)定義所述框。根據(jù)本發(fā)明的另一方面,提供了一種存儲(chǔ)具有用于基于對(duì)象的音頻服務(wù)的文件格 式結(jié)構(gòu)的數(shù)據(jù)的計(jì)算機(jī)可讀記錄介質(zhì),包括ftyp框,存儲(chǔ)基于對(duì)象的音頻內(nèi)容的標(biāo)準(zhǔn)信 息;mdat框,存儲(chǔ)構(gòu)成基于對(duì)象的音頻內(nèi)容的多個(gè)音頻對(duì)象;moov框,存儲(chǔ)用于呈現(xiàn)存儲(chǔ)的 多個(gè)音頻對(duì)象的元數(shù)據(jù)。與通過(guò)使用所述多個(gè)音頻對(duì)象所產(chǎn)生的至少一個(gè)預(yù)設(shè)有關(guān)的預(yù)設(shè) 參數(shù)可被存儲(chǔ)在ftyp框和moov框中的任何一個(gè)中。
圖1示出根據(jù)本發(fā)明實(shí)施例的用于存儲(chǔ)基于對(duì)象的音頻內(nèi)容的媒體文件格式的 基本結(jié)構(gòu);圖2示出根據(jù)本發(fā)明實(shí)施例的軌道和聲道之間的關(guān)系;圖3是示出根據(jù)本發(fā)明實(shí)施例的產(chǎn)生基于對(duì)象的音頻內(nèi)容的方法的流程圖;圖4示出根據(jù)本發(fā)明實(shí)施例的“moov”的結(jié)構(gòu);圖5是示出根據(jù)本發(fā)明實(shí)施例的播放基于對(duì)象的音頻內(nèi)容的方法的流程圖;圖6是示出根據(jù)本發(fā)明另一實(shí)施例的播放基于對(duì)象的音頻內(nèi)容的方法的流程圖;圖7和圖8示出根據(jù)本發(fā)明實(shí)施例的存儲(chǔ)包括描述信息的基于對(duì)象的音頻內(nèi)容的 文件格式的結(jié)構(gòu)。
具體實(shí)施例方式現(xiàn)在將詳細(xì)闡述本發(fā)明的實(shí)施例,其示例在附圖中示出,其中,相同的標(biāo)號(hào)始終表 示相同的元件。以下通過(guò)參照附圖描述實(shí)施例,以解釋本發(fā)明。圖1示出根據(jù)本發(fā)明實(shí)施例的用于存儲(chǔ)基于對(duì)象的音頻內(nèi)容的媒體文件格式的 基本結(jié)構(gòu)。參照?qǐng)D1,用于存儲(chǔ)基于對(duì)象的音頻內(nèi)容的媒體文件格式的結(jié)構(gòu)可包括ftyp框 (box)(以下,“ftyp”),存儲(chǔ)基于對(duì)象的音頻內(nèi)容的標(biāo)準(zhǔn)信息,即基于對(duì)象的音頻內(nèi)容文件 的類(lèi)型信息;moov框(以下,“moov”),存儲(chǔ)用于構(gòu)成基于對(duì)象的音頻內(nèi)容的多個(gè)音頻對(duì)象 數(shù)據(jù)的呈現(xiàn)的元數(shù)據(jù)(例如,解碼時(shí)間);和mdat框(以下,“mdat”),存儲(chǔ)多個(gè)音頻對(duì)象數(shù)
8據(jù)?!癴typ”和“moov”可包括meta框(以下,“meta”)。通常,與“mdat”中存儲(chǔ)的多 個(gè)音頻對(duì)象數(shù)據(jù)有關(guān)的描述性的元數(shù)據(jù)可被存儲(chǔ)在“meta”。這里,用于存儲(chǔ)基于對(duì)象的音頻內(nèi)容的媒體文件格式可以是國(guó)際標(biāo)準(zhǔn)化組織基本 媒體文件格式(ISO-BMFF)的結(jié)構(gòu)。以下,將描述這樣的方法所述方法存儲(chǔ)多個(gè)音頻對(duì)象和與播放根據(jù)ISO-BMFF的 基于對(duì)象的音頻內(nèi)容有關(guān)的預(yù)設(shè),從而產(chǎn)生基于對(duì)象的音頻內(nèi)容。然而,如上所述,產(chǎn)生基 于對(duì)象的音頻內(nèi)容的方法不限于具有ISO-BMFF結(jié)構(gòu)的基于對(duì)象的音頻內(nèi)容,因此,關(guān)于媒 體文件格式的結(jié)構(gòu)的多聲道音頻內(nèi)容可以是可擴(kuò)展的,以存儲(chǔ)多媒體數(shù)據(jù)(例如,MP4文件
寸乂 O在描述根據(jù)本發(fā)明實(shí)施例的產(chǎn)生基于對(duì)象的音頻內(nèi)容的方法之前,將描述預(yù)設(shè)參 數(shù),所述預(yù)設(shè)參數(shù)指示存儲(chǔ)基于對(duì)象的音頻內(nèi)容的預(yù)設(shè)的屬性。所述預(yù)設(shè)參數(shù)可包括以下 預(yù)設(shè)信息中的至少一個(gè)。 1、預(yù)設(shè)名、預(yù)設(shè)標(biāo)識(shí)(ID)“預(yù)設(shè)名”表示與預(yù)設(shè)相應(yīng)的字符串,“預(yù)設(shè)ID”表示與預(yù)設(shè)相應(yīng)的整數(shù)。2、預(yù)設(shè)的數(shù)量、默認(rèn)預(yù)設(shè)ID “預(yù)設(shè)的數(shù)量”表示基于對(duì)象的音頻內(nèi)容中包括的預(yù)設(shè)的數(shù)量?!澳J(rèn)預(yù)設(shè)ID”表示當(dāng)播放基于對(duì)象的音頻內(nèi)容時(shí),需要在不存在用戶(hù)交互的初始 狀態(tài)下被最初始播放的預(yù)設(shè)ID?!澳J(rèn)預(yù)設(shè)ID”可與基于對(duì)象的音頻內(nèi)容中包括的任何一 個(gè)預(yù)設(shè)ID相應(yīng)。3、是否播放預(yù)設(shè)信息“是否播放預(yù)設(shè)信息”表示與當(dāng)播放基于對(duì)象的音頻內(nèi)容時(shí)是否向用戶(hù)顯示預(yù)設(shè) 信息有關(guān)的信息。例如,所述預(yù)設(shè)信息可包括音量信息或者用于每個(gè)輸入軌道或每個(gè)輸入 聲道的頻率增益信息。4、預(yù)設(shè)的編輯概率“預(yù)設(shè)的編輯概率”表示與當(dāng)播放基于對(duì)象的音頻內(nèi)容時(shí)用戶(hù)是否可編輯預(yù)設(shè)有 關(guān)的信息。5、輸入軌道的數(shù)量、輸入軌道ID、用于每個(gè)輸入軌道的輸入聲道的數(shù)量“輸入軌道的數(shù)量”表示基于對(duì)象的音頻內(nèi)容中存儲(chǔ)的輸入軌道的數(shù)量。這里,每 個(gè)輸入軌道可對(duì)應(yīng)于聲音源。具體地講,當(dāng)基于對(duì)象的音頻內(nèi)容包括聲樂(lè)(cocal)、鋼琴聲 和鼓聲時(shí),聲樂(lè)、鋼琴聲和鼓聲中的每一個(gè)可構(gòu)成單個(gè)軌道?!拜斎胲壍繧D”表示與每個(gè)輸入軌道相應(yīng)的整數(shù)?!坝糜诿總€(gè)輸入軌道的輸入聲道的數(shù)量”表示每個(gè)輸入軌道中包括的聲道的數(shù)量。以下,將參照?qǐng)D2描述軌道和聲道之間的關(guān)系。圖2示出根據(jù)本發(fā)明實(shí)施例的軌道和聲道之間的關(guān)系。圖2示出聲樂(lè)軌道210、鋼琴聲軌道220和鼓聲軌道230。當(dāng)記錄聲音源,并在這種情況下通過(guò)使用2-聲道(即,立體聲道)記錄每個(gè)聲音 源時(shí),每個(gè)軌道可包括兩個(gè)聲道。具體地講,當(dāng)通過(guò)使用2-聲道來(lái)記錄聲樂(lè)、鋼琴聲和鼓聲 時(shí),聲樂(lè)軌道210可包括第一聲道211和第二聲道212,鋼琴聲軌道220可包括第一聲道221
9和第二聲道222,鼓聲軌道230可包括第一聲道231和第二聲道232。盡管在圖2中所有軌 道包括相同數(shù)量的聲道,但每個(gè)軌道中包括的聲道的數(shù)量可以不同。在這種情況下,當(dāng)基于對(duì)象的音頻內(nèi)容的創(chuàng)建者為每個(gè)軌道設(shè)置預(yù)設(shè)時(shí),多個(gè)音 頻對(duì)象可分別對(duì)應(yīng)于所述軌道。當(dāng)創(chuàng)建者為每個(gè)聲道設(shè)置預(yù)設(shè)時(shí),多個(gè)音頻對(duì)象可分別對(duì) 應(yīng)于所述聲道。6、輸出聲道類(lèi)型、輸出聲道的數(shù)量“輸出聲道類(lèi)型”表示與通過(guò)哪個(gè)聲道播放基于對(duì)象的音頻對(duì)象有關(guān)的信息?!拜?出聲道的數(shù)量”表示根據(jù)輸出聲道類(lèi)型的輸出聲道的數(shù)量。7、頻帶的數(shù)量、每個(gè)頻帶的中心頻率、用于聲音均衡的每個(gè)頻帶的帶寬“頻帶的數(shù)量”表示在放大或傳輸信號(hào)時(shí)將被應(yīng)用聲音均衡的頻帶的數(shù)量,所述聲 音均衡用于補(bǔ)償可能發(fā)生的信號(hào)的變換。8、每個(gè)輸入軌道或每個(gè)輸入聲道的音量信息“音量信息”表示與每個(gè)音頻對(duì)象的音量有關(guān)的信息。當(dāng)音頻對(duì)象對(duì)應(yīng)于輸入軌道 時(shí),“每個(gè)輸入軌道的音量信息”可被存儲(chǔ)在基于對(duì)象的音頻內(nèi)容中。當(dāng)音頻對(duì)象對(duì)應(yīng)于輸 入聲道時(shí),“每個(gè)輸入聲道的音量信息”可被存儲(chǔ)在基于對(duì)象的音頻內(nèi)容中。9、每個(gè)輸入軌道或每個(gè)輸入聲道的頻率增益信息“頻率增益信息”表示與當(dāng)應(yīng)用聲音均衡時(shí)的頻率增益有關(guān)的信息。當(dāng)音頻對(duì)象對(duì) 應(yīng)于輸入軌道時(shí),“每個(gè)輸入軌道的頻率增益信息”可被存儲(chǔ)在基于對(duì)象的音頻內(nèi)容中。當(dāng) 音頻對(duì)象對(duì)應(yīng)于輸入聲道時(shí),“每個(gè)輸入聲道的頻率增益信息”可被存儲(chǔ)在基于對(duì)象的音頻 內(nèi)容中。10、預(yù)設(shè)全局音量信息“預(yù)設(shè)全局音量信息”表示用于調(diào)整多個(gè)音頻對(duì)象的全局音量的信息。11、聲音圖像的幅度和聲音圖像的角度“聲音圖像的幅度”和“聲音圖像的角度”分別表示聲音圖像的幅度值和聲音圖像 的角度值。通過(guò)基于對(duì)象的音頻內(nèi)容中存儲(chǔ)的多個(gè)聲道來(lái)形成聲音圖像?;趯?duì)象的音頻內(nèi)容的創(chuàng)建者可根據(jù)IS0-BMFF,通過(guò)存儲(chǔ)包括以上列出的信息中 的至少一個(gè)的預(yù)設(shè)參數(shù),通過(guò)使用各種方案來(lái)產(chǎn)生基于對(duì)象的音頻內(nèi)容。圖3是示出根據(jù)本發(fā)明實(shí)施例的產(chǎn)生基于對(duì)象的音頻內(nèi)容的方法的流程圖。在操作310,基于對(duì)象的音頻內(nèi)容的產(chǎn)生方法可接收多個(gè)音頻對(duì)象。在操作320,基于對(duì)象的音頻內(nèi)容的產(chǎn)生方法可通過(guò)使用所述多個(gè)音頻對(duì)象產(chǎn)生 至少一個(gè)預(yù)設(shè)。在操作330,基于對(duì)象的音頻內(nèi)容的產(chǎn)生方法可存儲(chǔ)關(guān)于多個(gè)音頻對(duì)象和至少一 個(gè)預(yù)設(shè)的屬性的預(yù)設(shè)參數(shù)。如上所述,預(yù)設(shè)參數(shù)可包括以上列出的信息中的至少一個(gè)。在這種情況下,可以以框的形式來(lái)存儲(chǔ)預(yù)設(shè)參數(shù),其中,以與基于對(duì)象的音頻內(nèi)容 有關(guān)的媒體文件格式來(lái)定義所述框。以下,將詳細(xì)描述存儲(chǔ)預(yù)設(shè)參數(shù)的操作330。將預(yù)設(shè)參數(shù)存儲(chǔ)在“ftyp”中包括的“meta”或者“moov”中包括的“meta”中根據(jù)本發(fā)明的實(shí)施例,可將預(yù)設(shè)參數(shù)存儲(chǔ)在“ftyp”中包括的“meta” (以下,第一 "meta")或者“moov”中包括的“meta” (以下,第二 “meta”)中。
具體地講,如上所述,可將指示與基于對(duì)象的音頻內(nèi)容有關(guān)的普通信息(例如,歌 曲標(biāo)題、歌手、專(zhuān)輯名等)的描述信息或者描述性元數(shù)據(jù)存儲(chǔ)在第一 “meta”或第二 “meta” 中。可將預(yù)設(shè)參數(shù)與描述信息一起存儲(chǔ)。將予頁(yè)設(shè)參數(shù)存彳諸在與存儲(chǔ)描沭信肩、的“meta”不同的“meta” Φ 根據(jù)本發(fā)明的實(shí)施例,可將預(yù)設(shè)參數(shù)存儲(chǔ)在與存儲(chǔ)與基于對(duì)象的音頻內(nèi)容有關(guān)的 描述信息的“meta”不同的“meta”中。描述信息可以是與識(shí)別基于對(duì)象的音頻內(nèi)容有關(guān)的信息,預(yù)設(shè)參數(shù)可以是與播放 基于對(duì)象的音頻內(nèi)容有關(guān)的信息。具體地講,由于描述信息的屬性與預(yù)設(shè)參數(shù)的屬性不同, 所以可能期望分別處理描述信息和預(yù)設(shè)參數(shù)。例如,可將描述信息存儲(chǔ)在第一“meta”中,可將預(yù)設(shè)參數(shù)存儲(chǔ)在第二 “meta”中。由于ISO-BMFF定義在單級(jí)(single level)只可存在單個(gè)“meta”,所以“ftyp”和 “moov”中的每一個(gè)在低級(jí)(low level)中只可包括單個(gè)“meta”。因此,為了分別存儲(chǔ)描述 信息和預(yù)設(shè)參數(shù),描述信息和預(yù)設(shè)參數(shù)可能需要被存儲(chǔ)在不同級(jí)中存在的“meta” (即,第 一“meta”和第二“meta”)中。在這情況下,由于預(yù)設(shè)參數(shù)具有用于呈現(xiàn)的元數(shù)據(jù)的屬性, 所以描述信息可被存儲(chǔ)在第一 “meta”中,預(yù)設(shè)參數(shù)可被存儲(chǔ)在第二 “meta”中。作為另一示例,描述信息可被存儲(chǔ)在“meta”(即,第一“meta”和第二“meta”)中。 預(yù)設(shè)參數(shù)可被存儲(chǔ)在“ftyp”或“moov”中包括的meco框(以下,“meco”)中。由于“meco”是由ISO-BMFF定義的附加元數(shù)據(jù)包含框,所以不是由ISO-BMFF定義 的不同的元數(shù)據(jù)可被存儲(chǔ)在“meco”中。因此,可將預(yù)設(shè)參數(shù)存儲(chǔ)在“ftyp”中包括的“meco” 或者“moov”中包括的“meco”的任何一個(gè)中。將預(yù)設(shè)參數(shù)存儲(chǔ)在“moov”中新定義的框中根據(jù)本發(fā)明的實(shí)施例,可將預(yù)設(shè)參數(shù)存儲(chǔ)在“moov”新定義的框中。如上所述,由于預(yù)設(shè)參數(shù)的屬性與描述信息的屬性不同,所以可能期望分別處理 描述信息和預(yù)設(shè)參數(shù)。另外,由于預(yù)設(shè)參數(shù)包括用于呈現(xiàn)的元數(shù)據(jù)的屬性,所以可能期望將 預(yù)設(shè)參數(shù)存儲(chǔ)在“moov”中。因此,為了有效地處理預(yù)設(shè)參數(shù),可能期望在“moov”中定義新 框,并將預(yù)設(shè)參數(shù)存儲(chǔ)在新定義的框中。圖4示出根據(jù)本發(fā)明實(shí)施例的“moov”的結(jié)構(gòu)。如圖4所示,在“moov”中可定義兩個(gè)框。第一框是在“moov”中定義的框。第一框可以存儲(chǔ)第一預(yù)設(shè)參數(shù),所述第一預(yù)設(shè)參 數(shù)是指示預(yù)設(shè)的整體信息的預(yù)設(shè)參數(shù)。以下,第一框被稱(chēng)為預(yù)設(shè)容器(container)框(即, “prco”)。例如,第一預(yù)設(shè)參數(shù)可包括上面描述的預(yù)設(shè)的數(shù)量和默認(rèn)預(yù)設(shè)ID中的至少一個(gè)。 默認(rèn)預(yù)設(shè)ID表示當(dāng)播放基于對(duì)象的音頻內(nèi)容時(shí),在不存在用戶(hù)交互的初始狀態(tài)下被最初 始播放的預(yù)設(shè)ID。默認(rèn)預(yù)設(shè)ID可與基于對(duì)象的音頻內(nèi)容中包括的預(yù)設(shè)ID中的任何一個(gè)預(yù) 設(shè)ID相應(yīng)。第二框是“prco”中定義的框。第二框可存儲(chǔ)第二預(yù)設(shè)參數(shù),所述第二預(yù)設(shè)參數(shù)是 與預(yù)設(shè)的屬性有關(guān)的預(yù)設(shè)參數(shù)。例如,第二預(yù)設(shè)參數(shù)可包括以上列出的信息中除了預(yù)設(shè)的數(shù)量和默認(rèn)預(yù)設(shè)ID之 外的剩余信息。以下,第二框被稱(chēng)為預(yù)設(shè)框(即,“prst”)。
“prco”可包括與基于對(duì)象的音頻內(nèi)容中包括的預(yù)設(shè)的數(shù)量相應(yīng)的“prst”。當(dāng)預(yù) 設(shè)沒(méi)有被存儲(chǔ)在基于對(duì)象的音頻內(nèi)容中時(shí),“prco”中可不存在“prst”。例如,“prst”可包括預(yù)設(shè)參數(shù),所述預(yù)設(shè)參數(shù)包含以上列出的預(yù)設(shè)信息中除了預(yù) 設(shè)的數(shù)量和默認(rèn)預(yù)設(shè)ID之外的剩余預(yù)設(shè)信息。根據(jù)本發(fā)明的實(shí)施例,當(dāng)“moov”包括“prco”和“prst”時(shí),可通過(guò)下面的表1來(lái) 表示ISO-BMFF的結(jié)構(gòu)。[表 1]
權(quán)利要求
1.一種產(chǎn)生基于對(duì)象的音頻內(nèi)容的方法,所述方法包括 接收多個(gè)音頻對(duì)象;通過(guò)使用所述多個(gè)音頻對(duì)象產(chǎn)生至少一個(gè)預(yù)設(shè); 存儲(chǔ)關(guān)于所述至少一個(gè)預(yù)設(shè)的屬性和所述多個(gè)音頻對(duì)象的預(yù)設(shè)參數(shù), 其中,以框的形式存儲(chǔ)預(yù)設(shè)參數(shù),以與基于對(duì)象的音頻內(nèi)容有關(guān)的媒體文件格式定義 所述框。
2.如權(quán)利要求1所述的方法,其中所述框包括moov框,moov框包括在moov框中定義的第一框,第一框包括在第一框中 定義的第二框,預(yù)設(shè)參數(shù)包括第一預(yù)設(shè)參數(shù)和第二預(yù)設(shè)參數(shù),第一預(yù)設(shè)參數(shù)包括所述至少 一個(gè)預(yù)設(shè)的數(shù)量、所述至少一個(gè)預(yù)設(shè)中的任何一個(gè)預(yù)設(shè)的預(yù)設(shè)標(biāo)識(shí)(ID)中的至少一個(gè), 第一預(yù)設(shè)參數(shù)被存儲(chǔ)在第一框中,第二預(yù)設(shè)參數(shù)被存儲(chǔ)在第二框中。
3.如權(quán)利要求1所述的方法,其中 所述框包括ftyp框和moov框,ftyp框包括第一 meta框,moov框包括第二 meta框, 預(yù)設(shè)參數(shù)被存儲(chǔ)在第一 meta框和第二 meta框中的任何一個(gè)中。
4.如權(quán)利要求3所述的方法,其中基于對(duì)象的音頻內(nèi)容的描述信息被存儲(chǔ)在第一 meta框中,預(yù)設(shè)參數(shù)被存儲(chǔ)在第二 meta框中。
5.如權(quán)利要求1所述的方法,其中 所述框包括ftyp框和moov框,預(yù)設(shè)參數(shù)被存儲(chǔ)在存在于moov框中的meco框或存在于ftyp框中的meco框中的任何 一個(gè)中。
6.如權(quán)利要求1所述的方法,其中存儲(chǔ)預(yù)設(shè)參數(shù)的步驟還存儲(chǔ)基于對(duì)象的音頻內(nèi)容的描述信息, 基于MPEG-7類(lèi)型(mp7t)來(lái)存儲(chǔ)描述信息。
7.如權(quán)利要求1所述的方法,其中存儲(chǔ)預(yù)設(shè)參數(shù)的步驟還存儲(chǔ)與基于對(duì)象的音頻內(nèi)容有關(guān)的時(shí)控文本數(shù)據(jù), 基于第三代伙伴關(guān)系計(jì)劃傳輸流26. 245 (3GPP TS 26. 245)和MPEG-4流傳輸文本格式 中的任何一個(gè)來(lái)存儲(chǔ)時(shí)控文本數(shù)據(jù)。
8.如權(quán)利要求1所述的方法,其中所述框包括moov框,所述moov框包括track框,存儲(chǔ)預(yù)設(shè)參數(shù)的步驟通過(guò)使用MPEG-4場(chǎng)景二進(jìn)制格式(ΒΙΕ)來(lái)將預(yù)設(shè)參數(shù)存儲(chǔ)在存 在于moov框中的track框中。
9.如權(quán)利要求1所述的方法,其中所述框包括meta框,所述meta框包括xml框,存儲(chǔ)預(yù)設(shè)參數(shù)的步驟通過(guò)使用MPEG-4輕量級(jí)應(yīng)用場(chǎng)景描述(LAkR)來(lái)將預(yù)設(shè)參數(shù)存 儲(chǔ)在xml框中。
10.如權(quán)利要求1所述的方法,其中預(yù)設(shè)參數(shù)包括關(guān)于所述多個(gè)音頻對(duì)象的混合信息,混合信息包括關(guān)于每個(gè)音頻對(duì)象的音量信息和關(guān)于每個(gè)音頻對(duì)象的均衡信息中的至 少一個(gè)。
11.如權(quán)利要求10所述的方法,其中預(yù)設(shè)參數(shù)還包括關(guān)于所述多個(gè)音頻對(duì)象的預(yù)設(shè)全局音量信息。
12.如權(quán)利要求10所述的方法,其中基于對(duì)象的音頻內(nèi)容包括多個(gè)軌道,所述多個(gè)軌道包括至少一個(gè)聲道,混合信息還包括聲音圖像的幅度值和聲音圖像的角度值,通過(guò)所述至少一個(gè)聲道來(lái)形 成聲音圖像。
13.如權(quán)利要求10所述的方法,其中均衡信息包括將被應(yīng)用均衡的頻帶數(shù)量、每個(gè)頻帶的中心頻率、每個(gè)頻帶的帶寬和每 個(gè)頻帶的頻率增益值。
14.如權(quán)利要求13所述的方法,其中音量信息包括每個(gè)音頻對(duì)象的輸入音量值和每個(gè)音頻對(duì)象的輸出音量值之間的音量 增益值,通過(guò)使用百分比或分貝(dB)來(lái)表示音量增益值和頻率增益值。
15.如權(quán)利要求10所述的方法,其中基于對(duì)象的音頻內(nèi)容包括被順序播放的多個(gè)幀,當(dāng)所述多個(gè)幀被播放時(shí)更新所述混合信息。
16.如權(quán)利要求15所述的方法,其中預(yù)設(shè)參數(shù)包括所述多個(gè)幀中的參考幀的參考混合信息以及參考混合信息和所述多個(gè) 幀中除了參考幀之外的剩余幀的混合信息之間的差。
17.如權(quán)利要求15所述的方法,其中所述多個(gè)幀被劃分成多個(gè)幀組,所述多個(gè)幀組包括彼此相鄰的第一幀組和第二幀組, 當(dāng)關(guān)于第一幀組的第一組混合信息與關(guān)于第二幀組的第二組混合信息不同時(shí),預(yù)設(shè)參數(shù)包 括第一組混合信息、第二組混合信息、指示第一組混合信息與第二組混合信息不同的第一 標(biāo)志信息以及每個(gè)幀組中包括的幀的數(shù)量,當(dāng)?shù)谝唤M混合信息與第二組混合信息相同時(shí),預(yù)設(shè)參數(shù)包括第一組混合信息、指示第 一組混合信息與第二組混合信息相同的第二標(biāo)志信息以及每個(gè)幀組中包括的幀的數(shù)量。
18.如權(quán)利要求15所述的方法,其中預(yù)設(shè)參數(shù)包括更新混合信息的次數(shù)、更新混合信息處的幀的幀號(hào)、更新混合信息處的 幀的混合信息。
19.如權(quán)利要求10所述的方法,其中基于對(duì)象的音頻內(nèi)容包括多個(gè)軌道,所述多個(gè)軌道包括至少一個(gè)聲道,預(yù)設(shè)參數(shù)還包括軌道的數(shù)量、用于每個(gè)軌道的至少一個(gè)聲道的數(shù)量以及用于輸出基于 對(duì)象的音頻內(nèi)容的至少一個(gè)輸出聲道的數(shù)量,混合信息包括用于所述至少一個(gè)輸出聲道中的每個(gè)聲道的混合信息。
20.如權(quán)利要求1所述的方法,其中存儲(chǔ)預(yù)設(shè)參數(shù)的步驟還存儲(chǔ)與基于所述至少一個(gè)預(yù)設(shè)中的任何一個(gè)預(yù)設(shè)混合的音頻 信號(hào)的模擬立體聲信號(hào)相應(yīng)的單聲道/立體聲音頻信號(hào)。
21.如權(quán)利要求1所述的方法,其中媒體文件格式是國(guó)際標(biāo)準(zhǔn)化組織(ISO)基本媒體文件格式的結(jié)構(gòu)。
22.—種播放基于對(duì)象的音頻內(nèi)容的方法,所述方法包括從基于對(duì)象的音頻內(nèi)容恢復(fù)多個(gè)音頻對(duì)象和至少一個(gè)預(yù)設(shè);基于所述至少一個(gè)預(yù)設(shè)來(lái)混合所述多個(gè)音頻對(duì)象,以產(chǎn)生輸出音頻信號(hào);播放輸出音頻信號(hào),其中,所述至少一個(gè)預(yù)設(shè)中的每一個(gè)預(yù)設(shè)包括預(yù)設(shè)參數(shù),所述預(yù)設(shè)參數(shù)以框的形式被 存儲(chǔ)在基于對(duì)象的音頻內(nèi)容中,以與基于對(duì)象的音頻內(nèi)容有關(guān)的媒體文件格式來(lái)定義所述 框。
23.如權(quán)利要求22所述的方法,其中所述框包括moov框,moov框包括在moov框中定義的第一框,第一框包括在第一框中 定義的第二框,預(yù)設(shè)參數(shù)包括第一預(yù)設(shè)參數(shù)和第二預(yù)設(shè)參數(shù),第一預(yù)設(shè)參數(shù)包括所述至少 一個(gè)預(yù)設(shè)的數(shù)量、所述至少一個(gè)預(yù)設(shè)中的任何一個(gè)預(yù)設(shè)的預(yù)設(shè)ID中的至少一個(gè),第一預(yù)設(shè) 參數(shù)被存儲(chǔ)在第一框中,第二預(yù)設(shè)參數(shù)被存儲(chǔ)在第二框中。
24.如權(quán)利要求22所述的方法,其中預(yù)設(shè)參數(shù)包括關(guān)于所述多個(gè)音頻對(duì)象的混合信息,混合信息包括關(guān)于每個(gè)音頻對(duì)象的音量信息和關(guān)于每個(gè)音頻對(duì)象的均衡信息中的至 少一個(gè)。
25.如權(quán)利要求M所述的方法,其中預(yù)設(shè)參數(shù)還包括關(guān)于所述多個(gè)音頻對(duì)象的預(yù)設(shè)全局音量信息,播放步驟基于關(guān)于所述多個(gè)音頻對(duì)象的預(yù)設(shè)全局音量信息來(lái)調(diào)整所有混合的音頻對(duì) 象的全局音量。
26.如權(quán)利要求M所述的方法,其中均衡信息包括將被應(yīng)用均衡的頻帶數(shù)量、每個(gè)頻帶的中心頻率、每個(gè)頻帶的帶寬和每 個(gè)頻帶的頻率增益值。
27.如權(quán)利要求M所述的方法,其中基于對(duì)象的音頻內(nèi)容包括被順序播放的多個(gè)幀,當(dāng)所述多個(gè)幀被播放時(shí)更新所述混合信息。
28.如權(quán)利要求27所述的方法,其中預(yù)設(shè)參數(shù)包括所述多個(gè)幀中的參考幀的參考混合信息以及參考混合信息和所述多個(gè) 幀中除了參考幀之外的剩余幀的混合信息之間的差。
29.如權(quán)利要求27所述的方法,其中所述多個(gè)幀被劃分成多個(gè)幀組,所述多個(gè)幀組包括彼此相鄰的第一幀組和第二幀組, 當(dāng)關(guān)于第一幀組的第一組混合信息與關(guān)于第二幀組的第二組混合信息不同時(shí),預(yù)設(shè)參數(shù)包 括第一組混合信息、第二組混合信息、指示第一組混合信息與第二組混合信息不同的第一 標(biāo)志信息以及每個(gè)幀組中包括的幀的數(shù)量,當(dāng)?shù)谝唤M混合信息與第二組混合信息相同時(shí),預(yù)設(shè)參數(shù)包括第一組混合信息、指示第 一組混合信息與第二組混合信息相同的第二標(biāo)志信息以及每個(gè)幀組中包括的幀的數(shù)量。
30.如權(quán)利要求27所述的方法,其中預(yù)設(shè)參數(shù)包括更新混合信息的次數(shù)、更新混合信息處的幀的幀號(hào)、更新混合信息處的 幀的混合信息。
31.如權(quán)利要求M所述的方法,其中基于對(duì)象的音頻內(nèi)容包括多個(gè)軌道,所述多個(gè)軌道包括至少一個(gè)聲道, 預(yù)設(shè)參數(shù)還包括軌道的數(shù)量、用于每個(gè)軌道的至少一個(gè)聲道的數(shù)量以及用于輸出基于 對(duì)象的音頻內(nèi)容的至少一個(gè)輸出聲道的數(shù)量,混合信息包括用于所述至少一個(gè)輸出聲道中的每個(gè)聲道的混合信息。
32.如權(quán)利要求22所述的方法,其中媒體文件格式是ISO基本媒體文件格式的結(jié)構(gòu)。
33.一種存儲(chǔ)程序的計(jì)算機(jī)可讀記錄介質(zhì),所述程序用于實(shí)現(xiàn)根據(jù)權(quán)利要求1至權(quán)利 要求32中的任何一個(gè)的方法。
34.一種存儲(chǔ)具有用于基于對(duì)象的音頻服務(wù)的文件格式結(jié)構(gòu)的數(shù)據(jù)的計(jì)算機(jī)可讀記錄 介質(zhì),包括ftyp框,存儲(chǔ)基于對(duì)象的音頻內(nèi)容的標(biāo)準(zhǔn)信息; mdat框,存儲(chǔ)構(gòu)成基于對(duì)象的音頻內(nèi)容的多個(gè)音頻對(duì)象; moov框,存儲(chǔ)用于呈現(xiàn)存儲(chǔ)的多個(gè)音頻對(duì)象的元數(shù)據(jù),其中,與通過(guò)使用所述多個(gè)音頻對(duì)象所產(chǎn)生的至少一個(gè)預(yù)設(shè)有關(guān)的預(yù)設(shè)參數(shù)被存儲(chǔ)在 ftyp框和moov框中的任何一個(gè)中。
35.如權(quán)利要求34所述的計(jì)算機(jī)可讀記錄介質(zhì),其中moov框包括在moov框中定義的第一框和在第一框中定義的第二框, 預(yù)設(shè)參數(shù)包括第一預(yù)設(shè)參數(shù)和第二預(yù)設(shè)參數(shù),第一預(yù)設(shè)參數(shù)包括所述至少一個(gè)預(yù)設(shè)的 數(shù)量、所述至少一個(gè)預(yù)設(shè)中的任何一個(gè)預(yù)設(shè)的預(yù)設(shè)ID中的至少一個(gè),第一預(yù)設(shè)參數(shù)被存儲(chǔ) 在第一框中,第二預(yù)設(shè)參數(shù)被存儲(chǔ)在第二框中。
36.如權(quán)利要求34所述的計(jì)算機(jī)可讀記錄介質(zhì),其中 預(yù)設(shè)參數(shù)包括關(guān)于所述多個(gè)音頻對(duì)象的混合信息,混合信息包括關(guān)于每個(gè)音頻對(duì)象的音量信息和關(guān)于每個(gè)音頻對(duì)象的均衡信息中的至 少一個(gè)。
37.如權(quán)利要求36所述的計(jì)算機(jī)可讀記錄介質(zhì),其中 預(yù)設(shè)參數(shù)還包括關(guān)于所述多個(gè)音頻對(duì)象的預(yù)設(shè)全局音量信息。
38.如權(quán)利要求36所述的計(jì)算機(jī)可讀記錄介質(zhì),其中均衡信息包括將被應(yīng)用均衡的頻帶數(shù)量、每個(gè)頻帶的中心頻率、每個(gè)頻帶的帶寬和每 個(gè)頻帶的頻率增益值。
39.如權(quán)利要求37所述的計(jì)算機(jī)可讀記錄介質(zhì),其中音量信息包括每個(gè)音頻對(duì)象的輸入音量值和每個(gè)音頻對(duì)象的輸出音量值之間的音量 增益值,通過(guò)使用百分比或分貝(dB)來(lái)表示音量增益值和頻率增益值。
40.如權(quán)利要求36所述的計(jì)算機(jī)可讀記錄介質(zhì),其中 基于對(duì)象的音頻內(nèi)容包括被順序播放的多個(gè)幀,當(dāng)所述多個(gè)幀被播放時(shí)更新所述混合信息。
41.如權(quán)利要求40所述的計(jì)算機(jī)可讀記錄介質(zhì),其中預(yù)設(shè)參數(shù)包括所述多個(gè)幀中的參考幀的參考混合信息以及參考混合信息和所述多個(gè) 幀中除了參考幀之外的剩余幀的混合信息之間的差。
42.如權(quán)利要求40所述的計(jì)算機(jī)可讀記錄介質(zhì),其中所述多個(gè)幀被劃分成多個(gè)幀組,所述多個(gè)幀組包括彼此相鄰的第一幀組和第二幀組, 當(dāng)關(guān)于第一幀組的第一組混合信息與關(guān)于第二幀組的第二組混合信息不同時(shí),預(yù)設(shè)參數(shù)包 括第一組混合信息、第二組混合信息、指示第一組混合信息與第二組混合信息不同的第一 標(biāo)志信息以及每個(gè)幀組中包括的幀的數(shù)量,當(dāng)?shù)谝唤M混合信息與第二組混合信息相同時(shí),預(yù)設(shè)參數(shù)包括第一組混合信息、指示第 一組混合信息與第二組混合信息相同的第二標(biāo)志信息以及每個(gè)幀組中包括的幀的數(shù)量。
43.如權(quán)利要求40所述的計(jì)算機(jī)可讀記錄介質(zhì),其中預(yù)設(shè)參數(shù)包括更新混合信息的次數(shù)、更新混合信息處的幀的幀號(hào)、更新混合信息處的 幀的混合信息。
44.如權(quán)利要求36所述的計(jì)算機(jī)可讀記錄介質(zhì),其中基于對(duì)象的音頻內(nèi)容包括多個(gè)軌道,所述多個(gè)軌道包括至少一個(gè)聲道,預(yù)設(shè)參數(shù)還包括軌道的數(shù)量、用于每個(gè)軌道的至少一個(gè)聲道的數(shù)量以及用于輸出基于 對(duì)象的音頻內(nèi)容的至少一個(gè)輸出聲道的數(shù)量,混合信息包括用于所述至少一個(gè)輸出聲道中的每個(gè)聲道的混合信息。
45.如權(quán)利要求34所述的計(jì)算機(jī)可讀記錄介質(zhì),其中文件格式結(jié)構(gòu)是ISO基本媒體文件格式的結(jié)構(gòu)。
全文摘要
提供了一種產(chǎn)生和播放基于對(duì)象的音頻內(nèi)容的方法以及一種用于存儲(chǔ)具有用于基于對(duì)象的音頻服務(wù)的文件格式結(jié)構(gòu)的數(shù)據(jù)的計(jì)算機(jī)可讀記錄介質(zhì),所述基于對(duì)象的音頻內(nèi)容可有效地存儲(chǔ)與基于對(duì)象的音頻內(nèi)容有關(guān)的預(yù)設(shè)信息。產(chǎn)生基于對(duì)象的音頻內(nèi)容的方法可包括接收多個(gè)音頻對(duì)象(310);通過(guò)使用所述多個(gè)音頻對(duì)象產(chǎn)生至少一個(gè)預(yù)設(shè)(320);存儲(chǔ)關(guān)于所述至少一個(gè)預(yù)設(shè)的屬性和所述多個(gè)音頻對(duì)象的預(yù)設(shè)參數(shù)(330)。可以以框的形式存儲(chǔ)預(yù)設(shè)參數(shù),以與基于對(duì)象的音頻內(nèi)容有關(guān)的媒體文件格式定義所述框。由此,可有效地存儲(chǔ)關(guān)于多個(gè)音頻對(duì)象的預(yù)設(shè)。
文檔編號(hào)H04H60/04GK102067490SQ200980123773
公開(kāi)日2011年5月18日 申請(qǐng)日期2009年4月23日 優(yōu)先權(quán)日2008年4月23日
發(fā)明者咸勝喆, 姜京玉, 安致得, 張仁瑄, 徐廷一, 李泰辰, 洪鎮(zhèn)祐, 金暉容, 金鎮(zhèn)雄 申請(qǐng)人:歐迪真株式會(huì)社, 韓國(guó)電子通信研究院