專利名稱:根據(jù)用戶的喜好適配音頻信號(hào)的裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種音頻信號(hào)適配裝置及其方法,具體地說(shuō),涉及一種用于使音頻信號(hào)適合于用戶喜好的裝置及其方法。
背景技術(shù):
運(yùn)動(dòng)圖像專家組(MPEG)已經(jīng)提出了作為新標(biāo)準(zhǔn)工作項(xiàng)的數(shù)字項(xiàng)適配(DIA)。數(shù)字項(xiàng)(DI)是指具有標(biāo)準(zhǔn)表示法、標(biāo)識(shí)和元數(shù)據(jù)的結(jié)構(gòu)化數(shù)字對(duì)象,DIA表示用于生成在資源適配引擎或描述符適配引擎中處理之后獲得的經(jīng)適配的ID。
這里,資源是指諸如視頻或音頻、圖像或紋理結(jié)構(gòu)等可單獨(dú)識(shí)別的項(xiàng)。描述符是指與所述DI中的一個(gè)項(xiàng)或成分相關(guān)的信息。另外,用戶包括所有的制作者、公證人、發(fā)行人和消費(fèi)者。媒體資源是指能夠直接用數(shù)字表示的內(nèi)容,此后,術(shù)語(yǔ)“內(nèi)容”被用在DI、媒體資源和資源的相同含義中。
傳統(tǒng)的技術(shù)具有下述問題,即,它們不能提供一種單源多使用環(huán)境,在這種環(huán)境下,通過使用與諸如用戶特征、用戶的自然環(huán)境和用戶終端的能力的消費(fèi)所述音頻內(nèi)容的使用環(huán)境相關(guān)的信息可以使一個(gè)單一音頻內(nèi)容適合于不同的使用環(huán)境。
“單一源”是指從多媒體源中產(chǎn)生的一個(gè)單一內(nèi)容,而“多使用”是指多個(gè)用戶終端,其中的每個(gè)終端都具有不同的使用環(huán)境,并消費(fèi)適合于每個(gè)使用環(huán)境的“單一源”。
單一源多使用的優(yōu)點(diǎn)在于通過將內(nèi)容處理成適合于不同的使用環(huán)境,可以以不同的形式提供一個(gè)內(nèi)容。此外,當(dāng)適合于各種使用環(huán)境的單一源被提供給多個(gè)用戶終端時(shí),該單一源多使用可以使網(wǎng)絡(luò)帶寬減小或被有效使用。
因此,內(nèi)容提供者可以減少當(dāng)多個(gè)內(nèi)容被產(chǎn)生和發(fā)送以便使音頻信號(hào)與不同使用環(huán)境相適配時(shí)所產(chǎn)生的不必要的成本。內(nèi)容的消費(fèi)者也能夠克服他/她的環(huán)境的空間限制和消費(fèi)滿足該內(nèi)容消費(fèi)者的聽力和喜好的最佳音頻內(nèi)容。
但是,即使是在通用多媒體接入(UMA)環(huán)境下,現(xiàn)有技術(shù)也不能最佳地利用單一源多使用環(huán)境的優(yōu)點(diǎn)。
也就是說(shuō),所述多媒體源在不考慮諸如用戶特征、用戶的自然環(huán)境和用戶終端的能力等的使用環(huán)境的情況下不加區(qū)別地發(fā)送音頻內(nèi)容。由于裝備有諸如視窗媒體播放器、MP3播放器和真實(shí)播放器(Real Player)等的音頻播放器的用戶終端消費(fèi)其形式同于從所述多媒體源接收的音頻內(nèi)容,所以,它不適合于單一源多使用環(huán)境。
為了克服現(xiàn)有技術(shù)的缺點(diǎn)和支持所述單一源多使用環(huán)境,所述多媒體源提供多個(gè)考慮到各種使用環(huán)境的多媒體內(nèi)容。但是,這在內(nèi)容的產(chǎn)生和發(fā)送方面帶來(lái)了更多的負(fù)擔(dān)。
發(fā)明內(nèi)容
因此,本發(fā)明的一個(gè)目的就是提供一種音頻適配裝置和方法,用于通過使用描述用戶終端的使用環(huán)境的信息來(lái)使音頻內(nèi)容適合于多種使用環(huán)境。
通過附圖、本發(fā)明的詳細(xì)描述以及本說(shuō)明書的權(quán)利要求,本領(lǐng)域內(nèi)普通技術(shù)人員將很容易理解本發(fā)明的其它目的和優(yōu)點(diǎn)。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于使音頻信號(hào)適合于單一源多使用的裝置,該裝置包括音頻使用環(huán)境信息管理單元,用于收集、描述和管理來(lái)自每個(gè)消費(fèi)所述音頻信號(hào)的用戶終端的音頻使用環(huán)境信息;和音頻適配單元,用于適配所述音頻信號(hào),從而將所述音頻信號(hào)輸出給可適合于音頻使用環(huán)境信息的用戶終端,其中,所述音頻使用環(huán)境信息包括用于描述所述用戶對(duì)所述音頻信號(hào)的聲場(chǎng)喜好的用戶特征信息。
根據(jù)本發(fā)明的另一方面,提供了一種方法,用于使音頻信號(hào)適合于單一源多使用,該方法包括下述步驟a)收集、描述和管理來(lái)自消費(fèi)所述音頻信號(hào)的每個(gè)用戶終端的音頻使用環(huán)境信息;和b)適配所述音頻信號(hào),從而將所述音頻信號(hào)輸出給可適合于所述音頻使用環(huán)境信息的所述用戶終端,其中,所述音頻使用環(huán)境信息包括用于描述所述用戶對(duì)所述音頻信號(hào)的聲場(chǎng)喜好的用戶特征信息。
通過下面結(jié)合附圖給出的最佳實(shí)施例的詳細(xì)描述,本發(fā)明的上述和其它目的和特性將變得更加清楚,其中圖1是示出了包括根據(jù)本發(fā)明一個(gè)實(shí)施例的音頻信號(hào)適配裝置的用戶終端的概況的框圖;圖2是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的音頻適配裝置的框圖;圖3是描述了在圖1所示的音頻信號(hào)適配裝置中執(zhí)行的音頻信號(hào)適配處理的流程圖;圖4是示出了圖3所示的音頻信號(hào)適配處理的流程圖;圖5是示出了通過音頻內(nèi)容和脈沖響應(yīng)的卷積來(lái)具體表達(dá)用戶喜好的聲場(chǎng)特征的圖;和圖6是用于描述感知參數(shù)的描述符的曲線圖。
具體實(shí)施例方式
通過下面結(jié)合附圖對(duì)實(shí)施例的描述,本發(fā)明的其它目的和方面將變得明顯,這將在下文中闡明。
下面的描述僅僅舉例說(shuō)明了本發(fā)明的原理。即使是在本說(shuō)明書中沒有描述或清楚地示出這些例子,本領(lǐng)域的普通技術(shù)人員也能夠使本發(fā)明的原理具體化并在本發(fā)明的概念和范圍內(nèi)發(fā)明各種裝置。
在本說(shuō)明書中示出的條件術(shù)語(yǔ)和實(shí)施例的使用只是試圖使得本發(fā)明的概念更容易被理解,本發(fā)明并不局限于在說(shuō)明書中描述的這些實(shí)施例和狀態(tài)。
另外,關(guān)于本發(fā)明的原理、觀點(diǎn)和實(shí)施例以及特定實(shí)施例的所有描述都應(yīng)當(dāng)被理解為包括在結(jié)構(gòu)和功能方面與其等效的等效物。所述等效物不僅包括當(dāng)前已知的等效物,還包括將來(lái)要被開發(fā)出來(lái)的等效物,即,被開發(fā)出來(lái)執(zhí)行相同功能的所有設(shè)備,而不管它們的結(jié)構(gòu)如何。
例如,本發(fā)明的框圖應(yīng)當(dāng)被理解為示出了實(shí)施本發(fā)明的原理的示范性電路的概念性觀點(diǎn)。類似地,所有的流程圖、狀態(tài)轉(zhuǎn)換圖、偽代碼等都可以在計(jì)算機(jī)可讀媒體中得到足夠的表示,和無(wú)論是鑒別性地描述了計(jì)算機(jī)還是處理器,它們都應(yīng)當(dāng)被理解為表示由計(jì)算機(jī)或處理器運(yùn)行的各種處理。
不僅可以通過使用專用于所述功能的硬件、而且還可以通過使用能夠運(yùn)行用于所述功能的適當(dāng)軟件的硬件來(lái)提供在包括被表示為處理器或類似概念的功能塊的附圖中所示出的各種設(shè)備的功能。當(dāng)利用處理器提供功能時(shí),可以通過單一專用處理器、信號(hào)共享處理器或其中的一部分可以被共享的多個(gè)單獨(dú)的處理器來(lái)提供所述功能。
術(shù)語(yǔ)‘處理器’、‘控制’或類似的概念的表面的使用不應(yīng)當(dāng)被理解為專指能夠運(yùn)行軟件的一部分硬件,而應(yīng)當(dāng)被理解為隱含地包括數(shù)字信號(hào)處理器(DSP)、硬件以及用于存儲(chǔ)軟件的ROM、RAM以及非易失性存儲(chǔ)器。其中也可以包括其它已經(jīng)公知和公用的硬件。
在本說(shuō)明書的權(quán)利要求書中,被表示為用于執(zhí)行詳細(xì)說(shuō)明書中所描述的功能的裝置的元件試圖包括所有用于執(zhí)行包括諸如用于執(zhí)行所需功能的電路的組合、固件/微碼等的所有軟件格式的功能的所有方法。
為了執(zhí)行所需的功能,所述元件與一適當(dāng)電路協(xié)作以執(zhí)行所述軟件。由權(quán)利要求所定義的本發(fā)明包括用于執(zhí)行多種特定功能的各種裝置,和所述裝置以所述權(quán)利要求書中請(qǐng)求的方法彼此相互連接。因此,能夠提供所述功能的任何一種裝置都應(yīng)當(dāng)被理解為與本說(shuō)明書所指出的相關(guān)裝置等效。
通過下面結(jié)合附圖對(duì)實(shí)施例的描述,本發(fā)明的其它目的和方面將變得更加清楚,這在下文中闡明。相同的附圖標(biāo)記被給予相同的元件,盡管這些元件出現(xiàn)在不同的附圖中。另外,如果確定對(duì)相關(guān)現(xiàn)有技術(shù)的進(jìn)一步詳細(xì)描述將使本發(fā)明的觀點(diǎn)模糊,則這種描述將予以省略。下面,將參考附圖對(duì)本發(fā)明的最佳實(shí)施例做詳細(xì)的描述。
圖1是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的包括音頻信號(hào)適配裝置的用戶終端的概況的框圖。音頻適配裝置100包括音頻適配單元103和音頻使用環(huán)境信息管理單元107。音頻適配單元103和音頻使用環(huán)境信息管理單元107中的每一個(gè)都能夠被單獨(dú)安裝在音頻處理系統(tǒng)上。
所述音頻處理系統(tǒng)包括膝上型計(jì)算機(jī)、筆記本計(jì)算機(jī)、桌上型計(jì)算機(jī)、工作站、主機(jī)或其它類型的計(jì)算機(jī)。還包括諸如個(gè)人數(shù)字助理(PDA)和移動(dòng)通信站的數(shù)據(jù)處理系統(tǒng)或信號(hào)處理系統(tǒng)。
所述音頻處理系統(tǒng)可以是形成網(wǎng)絡(luò)路徑的多個(gè)節(jié)點(diǎn)之一,例如是多媒體源節(jié)點(diǎn)系統(tǒng)、多媒體中繼節(jié)點(diǎn)系統(tǒng)和末端用戶終端。所述末端用戶終端裝備配有音頻播放器,諸如是視窗媒體播放器、MP3播放器或真實(shí)播放器(realplayer)。
例如,當(dāng)音頻適配裝置100被安裝在多媒體源節(jié)點(diǎn)系統(tǒng)上并被運(yùn)行時(shí),音頻適配裝置100從末端用戶終端接收使用環(huán)境信息,適配內(nèi)容使其適合于使用環(huán)境,并將經(jīng)適配的內(nèi)容發(fā)送給末端用戶終端。即,使用與其中消費(fèi)音頻內(nèi)容的使用環(huán)境相關(guān)的信息將所述內(nèi)容適配為適合于所述適用環(huán)境。
國(guó)際標(biāo)準(zhǔn)組織技術(shù)委員會(huì)(ISO)/國(guó)際電子技術(shù)委員會(huì)(IEC)在其標(biāo)準(zhǔn)文本中描述了本發(fā)明的最佳實(shí)施例中示出的元件的功能和操作。因此,所述標(biāo)準(zhǔn)文本可以作為本發(fā)明的一部分被包括在幫助理解本發(fā)明的技術(shù)的范圍內(nèi)。
音頻數(shù)據(jù)源單元101接收從多媒體源產(chǎn)生的音頻數(shù)據(jù)。音頻數(shù)據(jù)源單元101可以被包括在多媒體源節(jié)點(diǎn)系統(tǒng)中,或被包括在多媒體中繼節(jié)點(diǎn)系統(tǒng)中、或被包括在接收從多媒體源節(jié)點(diǎn)系統(tǒng)經(jīng)由有線/無(wú)線網(wǎng)絡(luò)發(fā)送的音頻數(shù)據(jù)的末端用戶終端中。
音頻適配單元103從音頻數(shù)據(jù)源單元101中接收音頻數(shù)據(jù)。然后,音頻使用環(huán)境信息管理單元107通過使用包括與用戶特征、用戶的自然環(huán)境和用戶終端的能力相關(guān)的信息的使用環(huán)境信息來(lái)適配所述音頻數(shù)據(jù)使其適合于使用環(huán)境。
這里,音頻適配單元103的功能不必被包括在任何一個(gè)節(jié)點(diǎn)系統(tǒng)中,但它可以被分散(dispersed)在形成網(wǎng)絡(luò)路徑的另一節(jié)點(diǎn)系統(tǒng)中。例如,具有控制音量功能并與網(wǎng)絡(luò)帶寬無(wú)關(guān)的音頻適配單元103被包括在末端用戶終端中,而具有與網(wǎng)絡(luò)帶寬相關(guān)的功能,例如控制音級(jí)、即時(shí)域中特定音頻信號(hào)的強(qiáng)度的功能的音頻適配單元103能夠被包括在多媒體源節(jié)點(diǎn)系統(tǒng)中。
音頻使用環(huán)境信息管理單元107預(yù)先從用戶、該用戶的用戶終端和自然環(huán)境中收集信息,然后加以描述并管理使用環(huán)境信息。
與由音頻適配單元103執(zhí)行的功能相關(guān)的使用環(huán)境信息可以被分散在網(wǎng)絡(luò)路徑上的節(jié)點(diǎn)系統(tǒng)中,恰好做為音頻適配單元103。
音頻數(shù)據(jù)輸出單元105輸出由音頻適配單元103適配的音頻數(shù)據(jù)。所輸出的音頻數(shù)據(jù)可以經(jīng)過有線/無(wú)線網(wǎng)絡(luò)被發(fā)送給末端用戶終端的音頻播放器,或被發(fā)送給多媒體中繼節(jié)點(diǎn)系統(tǒng)或末端用戶終端。
圖2是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的音頻適配裝置的框圖。參看圖2,音頻數(shù)據(jù)源單元101包括音頻元數(shù)據(jù)201和音頻內(nèi)容203。
音頻數(shù)據(jù)源單元101收集和存儲(chǔ)由多媒體源產(chǎn)生的音頻內(nèi)容203和音頻元數(shù)據(jù)201。這里,音頻內(nèi)容203可以以例如是MP3、AC-3、AAC、WMA、RA和CELP等各種不同的編碼方法來(lái)被存儲(chǔ),或者它們包括以信息流形式發(fā)送的不同音頻格式。
音頻元數(shù)據(jù)201是與音頻內(nèi)容相關(guān)的數(shù)據(jù),諸如編碼方法、取樣速率、信道數(shù)量(例如單聲道、立體聲和5.1信道)和位速率??梢允褂每蓴U(kuò)展的標(biāo)記語(yǔ)言(XML)方案來(lái)定義和描述它們。
音頻使用環(huán)境信息管理單元107包括用戶特征信息管理單元207、用戶特征信息輸入單元217、用戶自然環(huán)境信息管理單元209、用戶自然環(huán)境信息輸入單元219、音頻終端能力信息管理單元211和音頻終端能力信息輸入單元221。
用戶特征信息管理單元207從用戶終端接收用戶特征信息并管理該信息。所述用戶特征信息包括聽力、所喜好的音頻量以及關(guān)于所喜好頻譜的均衡模式等的特征。特別是,用戶特征信息管理單元207接收和管理與該用戶所喜好的聲場(chǎng)相關(guān)的信息。所輸入的用戶特征信息以例如XML形式的語(yǔ)言的機(jī)械可讀的語(yǔ)言進(jìn)行管理。
用戶自然環(huán)境信息管理單元209接收與其中經(jīng)過用戶自然環(huán)境信息輸入單元219消費(fèi)音頻內(nèi)容的自然環(huán)境相關(guān)的信息并管理該自然環(huán)境信息。所輸入的自然環(huán)境信息以例如XML形式的語(yǔ)言的機(jī)械可讀的語(yǔ)言進(jìn)行管理。
用戶自然環(huán)境信息輸入單元219將能夠由噪聲環(huán)境分類表所定義的噪聲環(huán)境特征信息發(fā)送給用戶自然環(huán)境信息管理單元209。所述噪聲環(huán)境分類表是預(yù)先確定的,或者是通過收集特定地方的數(shù)據(jù)和分析所述數(shù)據(jù)獲得的。
音頻終端能力信息管理單元211經(jīng)過音頻終端能力信息輸入單元221接收音頻終端能力信息并管理該信息。所輸入的音頻終端能力信息以例如XML形式的語(yǔ)言的機(jī)械可讀的語(yǔ)言進(jìn)行管理。
音頻終端能力信息輸入單元221能夠?qū)⒃谟脩艚K端中確定或由用戶輸入的音頻終端能力信息發(fā)送給音頻終端能力信息管理單元211。
音頻適配單元103能包括音頻元數(shù)據(jù)適配處理單元213和音頻內(nèi)容適配處理單元215。音頻內(nèi)容適配處理單元215經(jīng)過諸如噪聲掩蔽(noise-masking)的音頻信號(hào)處理來(lái)解析在用戶自然環(huán)境信息管理單元209中被管理的所述用戶自然環(huán)境信息并執(zhí)行代碼轉(zhuǎn)換,從而使所述音頻內(nèi)容被適配為適合于所述自然環(huán)境進(jìn)而能夠承受所述噪聲環(huán)境。
類似地,音頻內(nèi)容適配處理單元215解析分別在用戶特征信息管理單元217和音頻終端能力信息管理單元211中被管理的所述用戶特征信息和所述音頻終端能力信息,并對(duì)所述音頻信號(hào)進(jìn)行適配,從而使得所述音頻內(nèi)容適合于用戶特征和音頻終端能力。
音頻元數(shù)據(jù)適配處理單元213提供音頻內(nèi)容適配處理所需的元數(shù)據(jù)并對(duì)與所述音頻內(nèi)容適配的結(jié)果相對(duì)應(yīng)的音頻元數(shù)據(jù)的內(nèi)容進(jìn)行適配。
圖3是描述了在圖1所示的音頻信號(hào)適配裝置中執(zhí)行的音頻信號(hào)適配處理的流程圖。參看圖3,本發(fā)明的處理開始于音頻使用環(huán)境信息管理單元107。
在步驟S301,音頻使用環(huán)境信息管理單元107預(yù)先從用戶、移動(dòng)終端和自然環(huán)境收集音頻內(nèi)容的使用環(huán)境信息,并描述用戶特征信息、用戶自然環(huán)境信息和用戶終端能力信息。在步驟S303,音頻數(shù)據(jù)源單元101接收音頻數(shù)據(jù)。
最后,在步驟S305,音頻適配單元103使用在步驟S301處所描述的使用環(huán)境信息對(duì)在步驟S303接收的音頻內(nèi)容的音頻信號(hào)進(jìn)行適配以使其適合于例如用戶特征、用戶自然環(huán)境和用戶終端能力的所述使用環(huán)境信息。在步驟S307,音頻數(shù)據(jù)輸出單元105輸出在步驟S305處適配的音頻數(shù)據(jù)。
圖4示出了圖3的音頻信號(hào)適配處理的流程圖。參看圖4,在步驟S401,音頻適配單元103檢查由音頻數(shù)據(jù)源單元101所接收的音頻內(nèi)容和音頻元數(shù)據(jù)。然后,在步驟S403,所述音頻數(shù)據(jù)被適配為適合于所述用戶特征、用戶自然環(huán)境和用戶終端能力。
隨后,在步驟S405,音頻適配單元103基于在步驟S403處的音頻內(nèi)容適配的結(jié)果對(duì)音頻內(nèi)容的音頻元數(shù)據(jù)的內(nèi)容進(jìn)行適配。下面將描述由音頻使用環(huán)境信息管理單元107管理的描述信息的結(jié)構(gòu)。
應(yīng)當(dāng)使用諸如用戶特征、用戶自然環(huán)境和用戶終端能力的被預(yù)先描述的使用環(huán)境信息對(duì)與用戶特征、用戶終端能力和自然環(huán)境特征相關(guān)的信息進(jìn)行管理,以便使所述音頻內(nèi)容適合于其中消費(fèi)所述音頻內(nèi)容的使用環(huán)境。
特別是,用戶特征信息包括多個(gè)“AudioPresentationPreference”,描述符,用于描述用戶的音頻表達(dá)喜好。在運(yùn)動(dòng)圖像專家組21(MPEG21)中已經(jīng)討論的“AudioPresentationPreference”描述符是“AudioPower”、“Mute”、“FrequencyEqualizer”、“Period”、“Level”、“PresetEqualizer”、“AudioFrequencyRange”和“AudibleLevelRange”描述符。
“AudioPower”描述符表示用戶對(duì)音頻響度的喜好。它被以從0到1的歸一化百分比標(biāo)度進(jìn)行描述。“Mute”描述符表示用戶對(duì)數(shù)字設(shè)備中音頻的靜音部分的喜好。
“FrequencyEqualizer”描述符表示用戶對(duì)于使用頻域和衰減值均衡的唯一概念的喜好。“Period”描述符是“FrequencyEqualizer”描述符的一特性,它定義了以赫茲(Hz)表示的均衡范圍的下角頻率和上角頻率。
“Level”描述符是所述“FrequencyEqualizer”描述符的特性,它定義了以分貝(db)表示的標(biāo)度從-15到15的頻率范圍的放大和衰減值。
“PresetEqualizer”描述符表示用戶對(duì)于經(jīng)均衡器予置的語(yǔ)言學(xué)技術(shù)均衡的唯一概念的喜好。所述予置被表達(dá)為爵士、搖滾、古典音樂和流行音樂。“AudioFrequencyRange”描述符表示用戶對(duì)于特定頻率區(qū)域的喜好。它是以赫茲(Hz)的形式從所述下角頻率到所述上角頻率表示的。
“AudibleLevelRange”描述符表示用戶對(duì)特定級(jí)別范圍的喜好。最高值和最低值分別為1和0。
其間,“AudioPresentationPreference”描述符不能充分描述用戶對(duì)聲場(chǎng)的喜好。因此,需要一種能夠描述用戶對(duì)聲場(chǎng)喜好信息的描述符。因此,本發(fā)明建議利用脈沖響應(yīng)和多個(gè)感知參數(shù)在特定地方描述對(duì)聲場(chǎng)的喜好。
例如,諸如禮堂或教堂的聲場(chǎng)可以通過利用一個(gè)或多個(gè)麥克風(fēng)獲得相應(yīng)地方的脈沖響應(yīng)和利用對(duì)應(yīng)的音頻內(nèi)容卷積所獲得的脈沖響應(yīng)來(lái)表示。
圖5是示出了通過音頻內(nèi)容和脈沖響應(yīng)的卷積而實(shí)施的用戶喜好的聲場(chǎng)特征的圖。參看圖5,音頻適配單元103卷積所述脈沖響應(yīng)和所述音頻內(nèi)容,從而使所述音頻內(nèi)容能夠反映用戶的聲場(chǎng)特征。
脈沖響應(yīng)的使用使得可以最恰當(dāng)?shù)孛枋霰幌M(fèi)內(nèi)容的聲場(chǎng),所述感知參數(shù)表示諸如聲源興奮和聲音沉重的由該用戶所接收的音頻信號(hào)的感覺。
下面描述由圖1所示的音頻使用環(huán)境信息管理單元107管理的使用環(huán)境的技術(shù)信息的結(jié)構(gòu)。它示出了一個(gè)表示在XML方案定義的基礎(chǔ)上用戶所喜好的聲場(chǎng)的解釋性語(yǔ)法。
<元素名稱=“SoundFieldGenerator”>
<順序>
<元素名稱=“ImpulseResponse”minOccurs=“0”>
<complexType>
<順序maxOccurs=“不限制”>
<元素名稱=“時(shí)間”型=“浮動(dòng)”/>
<元素名稱=“幅度”型=“浮動(dòng)”/>
</順序>
</complexType>
<元素>
<元素名稱=“PerceptualParameters”minOccurs=“0”>
<順序>
<元素名稱=“SourcePresence”型=“浮動(dòng)”/>
<元素名稱=“SourceWarmth”型=“浮動(dòng)”/>
<元素名稱=“SourceBrilliance”型=“浮動(dòng)”/>
<元素名稱=“RoomPresence”型=“浮動(dòng)”/>
<元素名稱=“RunningReverberance”型=“浮動(dòng)”/>
<元素名稱=“Envelopment”型=“浮動(dòng)”/>
<元素名稱=“LateReverberance”型=“浮動(dòng)”/>
<元素名稱=“Heavyness”型=“浮動(dòng)”/>
<元素名稱=“Liveness”型=“浮動(dòng)”/>
<元素名稱=“RefDistance”型=“浮動(dòng)”/>
<元素名稱=“FreqLow”型=“浮動(dòng)”/>
<元素名稱=“FreqHigh”型=“浮動(dòng)”/>
<元素名稱=“Timelimit1”型=“浮動(dòng)”/>
<元素名稱=“Timelimit2”型=“浮動(dòng)”/>
<元素名稱=“Timelimit3”型=“浮動(dòng)”/>
</元素>
描述符“ImpulseResponse”和描述符“Perceptural Parameters”分別描述了脈沖響應(yīng)和感知參數(shù)。音頻適配單元103基于描述符“ImpulseResponse”和描述符“Perceptural Parameters”將音頻數(shù)據(jù)適配為適合于用戶喜好的聲場(chǎng)特征。
如在上述XML碼中所示,脈沖響應(yīng)可以用連續(xù)的時(shí)間值和幅度值表示。另一方面,可以通過考慮“ImpulseResponse”的數(shù)據(jù)量來(lái)利用具有脈沖響應(yīng)特征信息的唯一資源識(shí)別符(URI)地址來(lái)代替脈沖響應(yīng)。
另外,用戶對(duì)于聲場(chǎng)的喜好可以通過添加諸如“SamplingFrequency”、“BitsPerSample”和“NumOfChannel”描述符并與從URI地址獲得的脈沖響應(yīng)特征一起來(lái)反映。感知參數(shù)使用MPEG-4 Advanced AudioBIFS的“PerceptualParameters”描述符去描述用戶喜好的場(chǎng)面。關(guān)于每個(gè)描述符的更多說(shuō)明,可以參考“ISO/IEC 14496-11999”。
如在上述XML碼中所示,所述“PerceptualParameters”包括“SourcePresence”、“SourceWarmth”、“SourceBrilliance”、“RoomPresence”、“RunningReverberance”、“Envelopment”、“LateReverberance”、“Heavyness”、“Liveness”、“RefDistance”、“FreqLow”、“FreqHigh”、“TimeLimit1”、“TimeLimit2”和“TimeLimit3”描述符。
圖6示出了描述符“PerceptionParameters”的曲線圖?!癝ourcePresence”描述符以分貝的形式描述了直達(dá)聲和早先室內(nèi)效果的能量。所述“SourceWarmth”描述符以分貝的形式描述了低頻處相對(duì)早的能量。
“SourceBrilliance”描述符以分貝的形式描述了高頻處相對(duì)早的能量。描述符“RoomPresence”以分貝的形式描述了較后室內(nèi)效果的能量。
描述符“RunningReverberance”描述了毫秒(ms)級(jí)的相對(duì)早的衰減時(shí)間。描述符“Envelopment”以分貝的形式描述了早先室內(nèi)效果相對(duì)于直達(dá)聲的能量。
“LateReverberance”描述符描述了毫秒(ms)級(jí)的最近衰減時(shí)間。“Heavyness”描述符描述了低頻處的相對(duì)衰減時(shí)間?!癓iveness”描述符描述了高頻處的相對(duì)衰減時(shí)間。
“RefDistance”描述符以米(m)的形式描述了定義感知參數(shù)的參考距離?!癋reqLow”描述符以赫茲(Hz)的形式描述了低頻的限制,如圖6所示。“FreqHigh”描述符以赫茲(Hz)的形式描述了高頻的限制,如圖6所示“TimeLimit1”描述符以毫秒(ms)的形式描述了第一瞬間的限制(l1),如圖6所示?!癟imeLimit2”描述符以毫秒(ms)的形式描述了第二瞬間的限制(l2),如圖6所示?!癟imeLimit3”描述符以毫秒(ms)的形式描述了第三瞬間的限制(l3),如圖6所示。
正如所述脈沖響應(yīng),所述音頻適配單元103在所述感知參數(shù)的基礎(chǔ)上反映了在所述音頻內(nèi)容中所述用戶喜好的聲場(chǎng)特征。
另外,對(duì)于脈沖響應(yīng)特征和感知參數(shù)來(lái)講,可以添加“AuditoriumParameters”描述符,以獲得三維聲音。
其中消費(fèi)內(nèi)容的空間可以根據(jù)用戶而不同,即使用戶所喜好的聲場(chǎng)特征是相同的。因此,被恢復(fù)的內(nèi)容可以具有不同的聲場(chǎng)特征。因此,音頻適配單元103在“AuditoriumParameters”描述符的基礎(chǔ)上消除由用戶聲音環(huán)境所引起的不良影響。
下面將描述由圖1的音頻使用環(huán)境信息管理單元107管理的使用環(huán)境的技術(shù)信息的結(jié)構(gòu)。它示出了在XML方案定義的基礎(chǔ)上表示所述用戶聲音環(huán)境的解釋性語(yǔ)法。
<元素名稱=“AuditoriumParameters”minOccurs=“0”>
<順序>
<元素名稱=“ReverberationTime”型=“浮動(dòng)”minOccurs=“0”/>
<元素名稱=“InitialDecayTime”型=“浮動(dòng)”minOccurs=“0”/>
<元素名稱=“RDRatio”型=“浮動(dòng)”minOccurs=“0”/>
<元素名稱=“Clrity”型=“浮動(dòng)”minOccurs=“0”/>
<元素名稱=“IACC”型=“浮動(dòng)minOccurs=“0”/>
</順序>
</元素>
“AuditoriumParameters”使用“ReverberationTime”、“InitialDecayTime”、“RDRatio”、“Clarity”和“IACC”描述符來(lái)表示用戶消費(fèi)音頻內(nèi)容的空間的聲音環(huán)境。
“ReverberationTime”描述符表示混響時(shí)間(reverberation time)。它以毫秒的形式描述將聲級(jí)衰減60分貝所占用的時(shí)間?;祉憰r(shí)間被表示為RT或T60,這是一個(gè)表示內(nèi)部聲音特征的最基本的物理量。
“InitialDecayTime”描述符表示最初的衰減時(shí)間。它以毫秒的形式描述了在直達(dá)聲和反射聲之間的時(shí)間差。最初的衰減時(shí)間是表示與禮堂(hall)親合性的物理量。它也被稱之為IDT。
“RDRatio”描述符以百分比(%)的形式描述在50毫秒之后直達(dá)聲和反射聲的能量比。該“RDRatio”描述符是表示單聲和混響聲(reverberation sound)的波形的信息量,它是一個(gè)指出圖像清晰度的物理量并被稱之為D50。
“clarity”描述符以百分比(%)的形式描述在80毫秒之后直達(dá)聲和所述反射聲的能量比。它是一個(gè)指出音樂清晰度的基本物理量合并被稱之為C80。
“IACC”描述符描述了當(dāng)在從-1ms到1ms范圍內(nèi)獲取在左耳和右耳處獲得的脈沖響應(yīng)的內(nèi)部交叉相關(guān)功能時(shí)獲得的最大值?!癐ACC”描述符表示到達(dá)聽眾每個(gè)耳朵處的聲音的相似度。它是一個(gè)指出聲音傳播感覺的物理量。
上述描述符表示了所述用戶的聲音環(huán)境特征。根據(jù)本發(fā)明,可以提供一種單源多使用環(huán)境,其中,通過使用用戶喜好的聲場(chǎng)信息和用戶聲音環(huán)境信息,可以在不同的使用環(huán)境下將音頻內(nèi)容適配為適合于各種用戶的所述特征和興趣。
盡管已經(jīng)結(jié)合某些最佳實(shí)施例描述了本發(fā)明,但是,很明顯,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)講,在不脫離在后述權(quán)利要求書所定義的本發(fā)明的范圍的情況下,可以做出各種改變和修改。
權(quán)利要求
1.一種使音頻信號(hào)適合于單源多使用的裝置,包括音頻使用環(huán)境信息管理裝置,用于收集、描述和管理來(lái)自消費(fèi)所述音頻信號(hào)的每個(gè)用戶終端的音頻使用環(huán)境信息;和音頻適配裝置,用于適配所述音頻信號(hào),以便向所述用戶終端輸出適合于所述音頻使用環(huán)境信息的音頻信號(hào),其中,所述音頻使用環(huán)境信息包括描述用戶對(duì)所述音頻信號(hào)的聲場(chǎng)喜好的用戶特征信息。
2.根據(jù)權(quán)利要求1所述的裝置,其中,所述使用特征信息包括對(duì)脈沖響應(yīng)的喜好,以及所述音頻適配裝置通過基于對(duì)所述脈沖響應(yīng)的喜好來(lái)改變所述音頻信號(hào)的聲場(chǎng)特征來(lái)適配該音頻信號(hào),并將經(jīng)過適配的音頻信號(hào)發(fā)送給所述用戶終端。
3.根據(jù)權(quán)利要求2所述的裝置,其中,利用時(shí)間和幅度來(lái)描述所述脈沖響應(yīng)。
4.根據(jù)權(quán)利要求1所述的裝置,其中,所述用戶特征信息包括對(duì)所述音頻信號(hào)的感知參數(shù)的喜好,和所述音頻適配裝置通過基于對(duì)所述感知參數(shù)的喜好改變所述音頻信號(hào)的聲場(chǎng)特征來(lái)適配所述音頻信號(hào),并將經(jīng)過適配的音頻信號(hào)發(fā)送給所述用戶終端。
5.根據(jù)權(quán)利要求1所述的裝置,其中,所述用戶特征信息包括其中所述用戶消費(fèi)所述音頻信號(hào)的空間的聲音環(huán)境信息,和所述音頻適配裝置基于所述聲音環(huán)境信息通過消除所述音頻信號(hào)的聲場(chǎng)特征當(dāng)中由所述用戶的聲音環(huán)境引起的不良影響來(lái)適配所述音頻信號(hào),并將經(jīng)過適配的音頻信號(hào)發(fā)送給所述用戶終端。
6.根據(jù)權(quán)利要求5所述的裝置,其中,所述聲音環(huán)境信息包括所述空間的混響時(shí)間信息。
7.根據(jù)權(quán)利要求5所述的裝置,其中,所述聲音環(huán)境信息包括所述空間的最初衰減時(shí)間。
8.根據(jù)權(quán)利要求5所述的裝置,其中,所述聲音環(huán)境信息包括在預(yù)定時(shí)間之后在所述空間的直達(dá)聲和反射聲之間的能量比信息。
9.根據(jù)權(quán)利要求5所述的裝置,其中,所述聲音環(huán)境信息是表示聲音傳播的感覺的物理量以及所述聲音環(huán)境信息包括到達(dá)用戶每個(gè)耳朵中的聲音的相似性信息。
10.一種使音頻信號(hào)適合于單源多使用的方法,包括下述步驟a)收集、描述和管理來(lái)自消費(fèi)所述音頻信號(hào)的每個(gè)用戶終端的音頻使用環(huán)境信息;和b)適配所述音頻信號(hào),以便向所述用戶終端輸出適合于所述音頻使用環(huán)境信息的音頻信號(hào),其中,所述音頻使用環(huán)境信息包括用于描述所述用戶對(duì)所述音頻信號(hào)的聲場(chǎng)喜好的用戶特征信息。
11.根據(jù)權(quán)利要求10所述的方法,其中,所述用戶特征信息包括對(duì)脈沖響應(yīng)的喜好,和在步驟b),通過基于對(duì)所述脈沖響應(yīng)的喜好改變所述音頻信號(hào)的聲場(chǎng)特征來(lái)適配所述音頻信號(hào),并將該音頻信號(hào)發(fā)送給所述用戶終端。
12.根據(jù)權(quán)利要求11所述的方法,其中,利用時(shí)間和幅度來(lái)描述所述脈沖響應(yīng)。
13.根據(jù)權(quán)利要求10所述的方法,其中,所述用戶特征信息包括對(duì)所述音頻信號(hào)的感知參數(shù)的喜好,和在步驟b),通過基于對(duì)所述感知參數(shù)的喜好改變所述音頻信號(hào)的聲場(chǎng)特征來(lái)適配所述音頻信號(hào)并將該音頻信號(hào)發(fā)送給所述用戶終端。
14.根據(jù)權(quán)利要求10所述的方法,其中,所述用戶特征信息包括該用戶消費(fèi)所述音頻信號(hào)的空間的聲音環(huán)境信息,和在步驟b),通過基于所述聲音環(huán)境信息消除所述音頻信號(hào)的聲場(chǎng)特征當(dāng)中由所述用戶的聲音環(huán)境引起的不良影響來(lái)適配所述音頻信號(hào)并將該音頻信號(hào)發(fā)送給所述用戶終端。
15.根據(jù)權(quán)利要求14所述的方法,其中,所述聲音環(huán)境信息包括所述空間的混響時(shí)間信息。
16.根據(jù)權(quán)利要求14所述的方法,其中,所述聲音環(huán)境信息包括所述空間的最初衰減時(shí)間。
17.根據(jù)權(quán)利要求14所述的方法,其中,所述聲音環(huán)境信息包括在預(yù)定時(shí)間之后在所述空間的直達(dá)聲和反射聲之間的能量比信息。
18.根據(jù)權(quán)利要求14所述的方法,其中,所述聲音環(huán)境信息是表示聲音傳播的感覺的物理量,和所述聲音環(huán)境信息包括到達(dá)所述用戶每個(gè)耳朵處的聲音的相似性信息。
全文摘要
一種用于根據(jù)用戶的喜好適配音頻信號(hào)的裝置和方法。所述裝置和方法通過使音頻內(nèi)容適合于用戶的聲場(chǎng)喜好而允許用戶提供數(shù)字內(nèi)容的最佳感受。所述裝置包括音頻使用環(huán)境管理單元和音頻適配單元,用于適配與用戶的適配請(qǐng)求相關(guān)聯(lián)的音頻內(nèi)容。
文檔編號(hào)H04S7/00GK1717956SQ200380104052
公開日2006年1月4日 申請(qǐng)日期2003年10月15日 優(yōu)先權(quán)日2002年10月15日
發(fā)明者徐廷一, 張大永, 姜京玉, 金鎮(zhèn)雄, 安致得 申請(qǐng)人:韓國(guó)電子通信研究院