專利名稱:用于頭戴耳機(jī)再現(xiàn)的方法、頭戴耳機(jī)再現(xiàn)系統(tǒng)、計(jì)算機(jī)程序產(chǎn)品的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于至少兩個(gè)輸入聲道信號(hào)的頭戴耳機(jī)再現(xiàn)的方法。本發(fā)明還涉及一種用于再現(xiàn)至少兩個(gè)輸入聲道信號(hào)的頭戴耳機(jī)再現(xiàn)系統(tǒng)、以及一種執(zhí)行用于頭戴耳機(jī) 再現(xiàn)的方法的計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
最流行的擴(kuò)音器(loudspeaker)再現(xiàn)系統(tǒng)是使用在預(yù)定位置處的兩個(gè)擴(kuò)音器, 基于雙聲道立體聲的。如果用戶位于最佳聽音位置(sweet spot)處,則被稱為振幅移動(dòng) (amplitude panning)的技術(shù)把幻像聲源安置在兩個(gè)擴(kuò)音器之間。然而,可行的幻像源的區(qū) 域是相當(dāng)有限的?;旧?,幻像源只能被安置在兩個(gè)擴(kuò)音器之間的線上。兩個(gè)擴(kuò)音器之間 的角度具有約 60 度的上限,正如在 S. P. Lipshitz, "Stereo microphone techniques ;are the purists wrong ",J. Audio Eng. Soc.,34 :716_744,1986 中指出的。因此,最終得到的 正面聲像(frontal image)在寬度方面是受限的。而且,為了讓振幅移動(dòng)正確地工作,收聽 者的位置是非常受限制的。最佳聽音位置通常是相當(dāng)小的,特別是在左右方向上。只要收聽 者移動(dòng)到最佳聽音位置之外,移動(dòng)技術(shù)就失敗,并且感覺音頻源是在最接近的擴(kuò)音器的位 置處,參見 H. A. M. Clark, G. F. Dutton,和 P. B. Vanderlyn, "The iStereosonic' recording and reproduction system :A two-channel systems for domestic taperecords,,, J. Audio Engineering Society,6 102-117,1958。而且,以上的再現(xiàn)系統(tǒng)限制收聽者的取向。如果由 于頭或身體旋轉(zhuǎn),兩個(gè)揚(yáng)聲器沒有被對(duì)稱地安置在中切面(midsaggitalplane)的兩側(cè),則 幻像源的被感知位置是錯(cuò)誤的或變得不明確,參見G. Theile和G. Plenge, "Localization of lateral phantom sources,,, J. Audio Engineering Society, 25 :196-200,1977。已知的 擴(kuò)音器再現(xiàn)系統(tǒng)的再一個(gè)缺點(diǎn)在于,引入了由振幅移動(dòng)引起的譜著色。由于到兩只耳朵的 不同的路徑長度差異和最終得到的梳狀濾波器效果,與在期望位置處的真實(shí)聲源相比較, 幻像源可能受到明顯的譜修改的困擾,正如在V. Pulkki和V. Karjalainen,M.和Valimaki 的"Coloration, andEnhancement of Amplitude-Panned Virtual Sources,,, in Proc. 16th AESConference,1999中討論的。振幅移動(dòng)的另一個(gè)缺點(diǎn)在于以下的事實(shí),即由幻像聲源 產(chǎn)生的聲源定位線索僅僅是對(duì)應(yīng)于在期望位置處的聲源的定位線索的粗略近似,特別是在 中頻和高頻范圍內(nèi)。與擴(kuò)音器回放相比較,通過頭戴耳機(jī)而再現(xiàn)的立體聲音頻內(nèi)容在頭部?jī)?nèi)被感知。 缺乏從某個(gè)聲源到耳朵的聲學(xué)路徑的影響會(huì)使得空間聲像到聲音的轉(zhuǎn)換不自然。使用固定 的一組虛擬揚(yáng)聲器來克服聲學(xué)路徑的缺乏的頭戴耳機(jī)音頻再現(xiàn),會(huì)遭受到如在以上討論的 擴(kuò)音器回放系統(tǒng)中的、由一組固定的擴(kuò)音器固有地引入的缺點(diǎn)。缺點(diǎn)之一是定位線索是在 期望位置處的聲源的實(shí)際定位線索的粗略近似,這導(dǎo)致降級(jí)的空間聲像。另一個(gè)缺點(diǎn)是,振 幅移動(dòng)僅僅在左右方向上起作用,而在任何其它方向上不起作用。發(fā)明概要本發(fā)明的目的是提供一種用于頭戴耳機(jī)再現(xiàn)的增強(qiáng)的方法,該方法減小了與固定的虛擬揚(yáng)聲器組有關(guān)的缺點(diǎn)。這個(gè)目的是通過用于至少兩個(gè)輸入聲道信號(hào)的頭戴耳機(jī)再現(xiàn)的方法而達(dá)到的,所 述方法包括針對(duì)來自所述至少兩個(gè)輸入聲道信號(hào)的每個(gè)輸入聲道信號(hào)對(duì)的以下步驟。首 先,確定共同分量、對(duì)應(yīng)于所述共同分量的估計(jì)的期望位置和對(duì)應(yīng)于所述輸入聲道信號(hào)對(duì) 中的兩個(gè)輸入聲道信號(hào)的兩個(gè)剩余分量。所述確定是基于所述輸入聲道信號(hào)的所述對(duì)。每 個(gè)所述剩余分量是通過減去共同分量的貢獻(xiàn)而從它的對(duì)應(yīng)的輸入聲道信號(hào)得出的。所述貢 獻(xiàn)是與所述共同分量的估計(jì)的期望位置有關(guān)的。其次,合成主虛擬源以及兩個(gè)另外的虛擬 源,該主虛擬源包括在估計(jì)的期望位置處的所述共同分量,而所述另外的虛擬源每個(gè)包括 在相應(yīng)的預(yù)定位置處的所述剩余分量中的相應(yīng)一個(gè)。這意味著,對(duì)于例如五個(gè)輸入聲道信號(hào),針對(duì)所有可能的對(duì)組合來執(zhí)行共同分量 和兩個(gè)剩余分量的所述合成。對(duì)于所述五個(gè)輸入聲道信號(hào),這導(dǎo)致十個(gè)可能的輸入聲道信 號(hào)對(duì)。然后,通過疊加來自于由所述五個(gè)輸入聲道信號(hào)形成的所有輸入聲道信號(hào)對(duì)的共同 分量和剩余分量的所有貢獻(xiàn),從而得到對(duì)應(yīng)于所述五個(gè)輸入聲道信號(hào)的最終得到的總的聲 音場(chǎng)景。通過使用本發(fā)明所提出的方法,由在固定位置處——例如在按照標(biāo)準(zhǔn)立體聲擴(kuò)音 器裝置的+/-30度方位角處——的兩個(gè)虛擬擴(kuò)音器創(chuàng)建的幻像源,被在期望位置處的虛擬 源替代。所提出的用于頭戴耳機(jī)再現(xiàn)的方法的優(yōu)點(diǎn)在于,即使引入頭部旋轉(zhuǎn)或即使利用正 面/環(huán)繞移動(dòng)(front/surround panning),也改進(jìn)了空間意象。更具體地,所提出的方法提 供了沉浸式體驗(yàn)(immersive experience),其中把收聽者虛擬地安置在聽覺場(chǎng)景“中”。而 且,眾所周知,對(duì)于引人注目的(compelling) 3D音頻體驗(yàn),頭部跟蹤是必須具備的。通過所 提出的解決方案,頭部旋轉(zhuǎn)不會(huì)使虛擬揚(yáng)聲器改變位置,因此空間成像保持為正確的。在一個(gè)實(shí)施例中,共同分量對(duì)于所述輸入聲道信號(hào)對(duì)的所述貢獻(xiàn),被按照對(duì)于被 感知為左面輸入聲道信號(hào)的估計(jì)的期望位置的余弦和對(duì)于被感知為右面輸入聲道的估計(jì) 的期望位置的正弦來表示?;诖?,屬于一對(duì)且在所述對(duì)中被感知為左面和右面輸入聲道 的輸入聲道信號(hào)被分解為L [k] = cos ( U ) S [k] +Dl [k]R[k] = sin( u)S[k]-DE[k]其中L[k]和R[k]分別是所述對(duì)中被感知為左面和被感知為右面的輸入聲道信 號(hào),S[k]是對(duì)于被感知為左面和被感知為右面的輸入聲道信號(hào)的共同分量,DJk]是對(duì)應(yīng)于 被感知為左面的輸入聲道信號(hào)的剩余分量,De[k]是對(duì)應(yīng)于被感知為右面的輸入聲道信號(hào) 的剩余分量,以及υ是對(duì)應(yīng)于共同分量的估計(jì)的期望位置。為了簡(jiǎn)明起見,貫穿本說明書的其余部分,術(shù)語“被感知為左面”和“被感知為右 面”用“左”和“右”來替代。應(yīng)當(dāng)指出的是,在本上下文中,“左”和“右”是指來自于所述至 少兩個(gè)輸入聲道信號(hào)的、屬于一對(duì)的兩個(gè)輸入聲道信號(hào),并且在任何情況下均不限制要由 頭戴耳機(jī)再現(xiàn)方法再現(xiàn)的輸入聲道信號(hào)的數(shù)目。以上的分解提供了共同分量,它是幻像源的估計(jì),正如在經(jīng)典擴(kuò)音器系統(tǒng)中通過 振幅移動(dòng)技術(shù)而得到的。余弦和正弦因子提供了借助于單個(gè)角度來描述共同分量對(duì)于左和右輸入聲道信號(hào)的兩個(gè)信號(hào)的貢獻(xiàn)的手段。所述角度與共同源的被感知位置密切相關(guān)。振 幅移動(dòng)在大多數(shù)情形下是基于所謂的3dB規(guī)則,這是指無論左面和右面輸入聲道中的共同 信號(hào)的比率如何,共同分量的總功率應(yīng)當(dāng)保持不變。這個(gè)屬性通過使用余弦和正弦項(xiàng)而被 自動(dòng)地保證,因?yàn)橥粋€(gè)角度的正弦和余弦的平方和總是得1。在另一個(gè)實(shí)施例中,共同分量和對(duì)應(yīng)的剩余分量依賴于為其確定所述共同分量的 輸入聲道信號(hào)之間的相關(guān)性。當(dāng)估計(jì)共同分量時(shí),在估計(jì)過程中的非常重要的變量是左聲 道和右聲道之間的相關(guān)性。相關(guān)性直接與共同分量的強(qiáng)度(從而是功率)相聯(lián)系。如果 相關(guān)性低,則共同分量的功率也低。如果相關(guān)性高,則共同分量的功率相對(duì)于剩余分量而 言是高的。換句話說,相關(guān)性是在左和右輸入聲道信號(hào)對(duì)中的共同分量的貢獻(xiàn)的指示器 (indicator)。如果必須估計(jì)共同分量和剩余分量,則有利的是知道在輸入聲道信號(hào)中是共 同分量還是剩余分量占支配地位。在另一個(gè)實(shí)施例中,共同分量和對(duì)應(yīng)的剩余分量依賴于對(duì)應(yīng)的輸入聲道信號(hào)的功 率參數(shù)。選擇功率作為用于估計(jì)過程的測(cè)度會(huì)允許更精確和可靠地估計(jì)共同分量和剩余分 量。如果輸入聲道信號(hào)之一——例如左輸入聲道信號(hào)——的功率是零,則這自動(dòng)意味著,對(duì) 于該信號(hào)來說剩余分量和共同分量是零。這也意味著,共同分量?jī)H僅在另一個(gè)輸入聲道信 號(hào)中存在,因此右輸入聲道信號(hào)確實(shí)具有相當(dāng)大的功率。而且,對(duì)于在功率上是相等的左剩 余分量和右剩余分量(例如,如果它們是相同的信號(hào)但具有相反的正負(fù)號(hào)),左輸入聲道信 號(hào)的功率等于零意味著,左剩余分量和右剩余分量的功率都是零。這意味著,右輸入聲道信 號(hào)實(shí)際上是共同分量。在另一個(gè)實(shí)施例中,對(duì)應(yīng)于共同分量的估計(jì)的期望位置依賴于為其確定所述共同 分量的輸入聲道信號(hào)之間的相關(guān)性。如果相關(guān)性高,則共同分量的貢獻(xiàn)也高。這也意味著, 在左和右輸入聲道信號(hào)的功率與共同分量的位置之間有緊密的關(guān)系。另一方面,如果相關(guān) 性低,則這意味著,共同分量相對(duì)較弱(即,低的功率)。這也意味著,左和右輸入聲道信號(hào) 的功率主要是由剩余分量的功率、而不是由共同分量的功率來確定的。因此,為了估計(jì)共同 分量的位置,知道共同分量是否占支配地位是有利的,而這是由相關(guān)性來反映的。在另一個(gè)實(shí)施例中,對(duì)應(yīng)于共同分量的估計(jì)的期望位置依賴于對(duì)應(yīng)的輸入聲道信 號(hào)的功率參數(shù)。對(duì)于為零的剩余分量,左和右輸入聲道信號(hào)的相對(duì)功率直接與對(duì)應(yīng)于共同 分量的主虛擬源的角度相聯(lián)系。因此,主虛擬源的位置具有對(duì)于左和右輸入聲道信號(hào)中的 (相對(duì))功率的強(qiáng)依賴性。另一方面,如果與剩余分量相比,共同分量是非常小的,則左和右 輸入聲道信號(hào)的功率是由剩余信號(hào)占支配地位的,在那種情形下,從左和右輸入聲道信號(hào) 估計(jì)共同分量的期望位置不是非常直截了當(dāng)?shù)摹T诹硪粋€(gè)實(shí)施例中,對(duì)于一對(duì)輸入聲道信號(hào),所述功率參數(shù)包括左聲道功率Pp 右聲道功率已和互功率Px。在另一個(gè)實(shí)施例中,對(duì)應(yīng)于共同分量的估計(jì)的期望位置υ被得出為V=arctan P1cos(a+b)/Prcos(-a+b) 其中<formula>formula see original document page 8</formula>
β = tan arctan(a)愛+愛可以看出,這個(gè)推導(dǎo)相應(yīng)于使得對(duì)應(yīng)于共同分量的估計(jì)的信號(hào)的功率最大化。關(guān) 于共同分量的估計(jì)過程和共同分量的功率最大化(這也意味著剩余分量的功率的最小化) 的更多信息在 Breebaart, J. ,Faller, C. “Spatial audio processing :MPEG Surroundand other applications", Wiley,2007中給出。使得對(duì)應(yīng)于共同分量的估計(jì)的信號(hào)的功率最 大化是令人期望的,因?yàn)閷?duì)于該對(duì)應(yīng)的信號(hào)而言,精確的定位信息是可得到的。在極端的情 況下,當(dāng)共同分量是零時(shí),剩余分量等于原始的輸入信號(hào),因而處理將沒有效果。所以,使得 共同分量的功率最大化和使得剩余分量的功率最小化以便得到所描述的過程的最大效果 是有益的。在另一個(gè)實(shí)施例中,估計(jì)的期望位置代表在對(duì)應(yīng)于兩個(gè)虛擬揚(yáng)聲器位置的兩個(gè)預(yù) 定位置之間的空間位置,由此范圍υ =0... 90度映射到用于被感知的位置角度的范圍r ="30. . . 30度。如在先前的實(shí)施例中指出的估計(jì)的期望位置υ在0和90度之間變化,由 此對(duì)應(yīng)于0和90度的位置分別等于左和右揚(yáng)聲器位置。為了由頭戴耳機(jī)再現(xiàn)系統(tǒng)進(jìn)行逼 真的聲音再現(xiàn),希望把以上的估計(jì)的期望位置的范圍映射到對(duì)應(yīng)于被實(shí)際上使用于產(chǎn)生音 頻內(nèi)容的范圍的范圍中。然而,被使用于產(chǎn)生音頻內(nèi)容的精確的揚(yáng)聲器位置并不是可得到 的。大多數(shù)音頻內(nèi)容被產(chǎn)生來用于在如由ITU標(biāo)準(zhǔn)(ITU-R Recommend. BS. 775-1)規(guī)定的 擴(kuò)音器裝置上回放,即讓揚(yáng)聲器處在+30和-30度角。所以,虛擬源的原始位置的最佳估計(jì) 是被感知的地方,然而假設(shè)音頻是在遵從ITU標(biāo)準(zhǔn)的擴(kuò)音器系統(tǒng)上再現(xiàn)。以上的映射服務(wù) 于這個(gè)目的,即,將估計(jì)的期望位置帶入遵從ITU的范圍。在另一個(gè)實(shí)施例中,對(duì)應(yīng)于估計(jì)的期望位置υ的被感知位置角度r按照下式得 出
<formula>formula see original document page 8</formula>這種映射的優(yōu)點(diǎn)在于,它是從間隔
度到[-30. . . 30]度的簡(jiǎn)單的線性映 射。如果給定優(yōu)選的I TU擴(kuò)音器裝置的話,則所述到[-30. . . 30]度的范圍的映射給出了 虛擬源的預(yù)期位置的最佳估計(jì)。在另一個(gè)實(shí)施例中,功率參數(shù)是從被轉(zhuǎn)換到頻域的輸入聲道信號(hào)得出的。在許多 情形下,音頻內(nèi)容包括多個(gè)同時(shí)的聲源。所述多個(gè)資源對(duì)應(yīng)于不同的頻率。所以,對(duì)于更好 的聲音成像,以更對(duì)準(zhǔn)目標(biāo)的方式來操控聲源是有利的,而這僅僅在頻域才是可能的。為了 甚至更精確地再現(xiàn)音頻內(nèi)容的空間屬性,從而改進(jìn)總的空間聲音再現(xiàn)質(zhì)量,把所提出的方 法應(yīng)用到更小的頻帶是令人想要的。這工作得很好,因?yàn)樵谠S多情形下在某個(gè)頻帶中單個(gè) 聲源占支配地位。如果一個(gè)源在一個(gè)頻帶中占支配地位,則共同分量和它的位置的估值只 是非常類似于占支配地位的信號(hào),而丟棄其它信號(hào)(所述其它信號(hào)在剩余分量中結(jié)束(end up))。在其它頻帶中,其它的具有它們自己的對(duì)應(yīng)位置的源占支配地位。因此,通過在各個(gè)頻帶中進(jìn)行處理一這在頻域中是可能的一可以達(dá)到對(duì)于聲源的再現(xiàn)的更多控制。在另一個(gè)實(shí)施例中,使用基于傅里葉的變換來把輸入聲道信號(hào)轉(zhuǎn)換到頻域。這種類型的變換是眾所周知的,它提供用來創(chuàng)建一個(gè)或多個(gè)頻帶的低復(fù)雜性方法。在另一個(gè)實(shí)施例中,使用濾波器組來把輸入聲道信號(hào)轉(zhuǎn)換到頻域。適當(dāng)?shù)臑V波 器組方法在 Breebaart, J. , Faller, C. “Spatial audioprocessing :MPEG Surround and other applications”,Wiley,2007中被描述。這些方法提供了到子帶頻域的轉(zhuǎn)換。在另一個(gè)實(shí)施例中,功率參數(shù)是從時(shí)域中表示的輸入聲道信號(hào)得出的。如果在音 頻內(nèi)容中存在的源的數(shù)目低,則當(dāng)施加基于傅里葉的變換或?yàn)V波器組時(shí),計(jì)算工作量較高。 所以,與在頻域上得出功率參數(shù)相比較,在時(shí)域上得出功率參數(shù)則節(jié)省了計(jì)算工作量。在另一個(gè)實(shí)施例中,對(duì)應(yīng)于估計(jì)的期望位置的被感知位置r被修改,以便產(chǎn)生以 下中的一項(xiàng)聲舞臺(tái)(sound stage)的變窄、變寬或旋轉(zhuǎn)。變寬是特別令人感興趣的,因?yàn)?它克服了由于擴(kuò)音器的-30. . . +30度位置所造成的擴(kuò)音器裝置的60度的限制。因此,它有 助于創(chuàng)建圍繞收聽者的沉浸式(immersive)聲舞臺(tái),而不是向收聽者提供受限于60度孔徑 角的窄的聲舞臺(tái)。而且,聲舞臺(tái)的旋轉(zhuǎn)是令人感興趣的,因?yàn)樗试S頭戴耳機(jī)再現(xiàn)系統(tǒng)的用 戶聽到處在固定的(穩(wěn)定的和恒定的)位置處的聲源,而與用戶的頭部旋轉(zhuǎn)無關(guān)。在另一個(gè)實(shí)施例中,對(duì)應(yīng)于估計(jì)的期望位置r的被感知位置r被修改,以便產(chǎn)生被 如下表示的修改的被感知位置r’ r' = r+h,由此h是對(duì)應(yīng)于聲舞臺(tái)的旋轉(zhuǎn)的偏移量。源位置的角度表示幫助非常容易地整合頭部運(yùn)動(dòng),特別是收聽者的頭部的取向, 這是通過對(duì)對(duì)應(yīng)于源位置的角度施加偏移以使得聲源具有獨(dú)立于頭部取向的、穩(wěn)定的和恒 定的位置而實(shí)現(xiàn)的。由于這樣的偏移,得到了以下的好處更多的頭外聲源的定位、改進(jìn)的 聲源定位精度、前/后混淆的減小、以及更加沉浸式的和自然的收聽體驗(yàn)。在另一個(gè)實(shí)施例中,對(duì)應(yīng)于估計(jì)的期望位置的被感知位置被修改,以便產(chǎn)生被如 下表示的修改的被感知位置r, = cr,由此c是對(duì)應(yīng)于聲舞臺(tái)的變寬或變窄的縮放因子。使用縮放是展寬聲舞臺(tái)的非常 簡(jiǎn)單而又有效的方式。在另一個(gè)實(shí)施例中,響應(yīng)于用戶偏好來修改對(duì)應(yīng)于估計(jì)的期望位置的被感知位 置。可以出現(xiàn)一個(gè)用戶可能想要有源被安置在收聽者周圍的完全沉浸式的體驗(yàn)(例如,用 戶是音樂家樂隊(duì)的成員),而其它用戶可能想要感知僅僅來自正面的聲舞臺(tái)(例如,坐在聽 眾中并隔開一段距離收聽)。在另一個(gè)實(shí)施例中,響應(yīng)于頭部跟蹤器數(shù)據(jù)來修改對(duì)應(yīng)于估計(jì)的期望位置的被感 知位置。在另一個(gè)實(shí)施例中,輸入聲道信號(hào)被分解成時(shí)間/頻率分塊(tile)。使用頻帶是 有利的,因?yàn)橐愿鼘?duì)準(zhǔn)目標(biāo)的方式來操控多個(gè)聲源會(huì)導(dǎo)致更好的聲音成像。時(shí)間分段的另 外的優(yōu)點(diǎn)是聲源的支配地位通常是依賴于時(shí)間的,例如,某些源可以靜默達(dá)某一時(shí)間。除 了頻帶以外還使用時(shí)間分段會(huì)給出對(duì)于在輸入聲道信號(hào)中存在的個(gè)體源的甚至更多的控 制。
在另一個(gè)實(shí)施例中,使用與頭部相關(guān)的轉(zhuǎn)移函數(shù)(HRTF)來執(zhí)行虛擬源的合成。使用HRTF的合成是一種用來把源定位在虛擬空間中的眾所周知的方法。HRTF的參數(shù)方法甚 至可以進(jìn)一步簡(jiǎn)化該過程。用于HRTF處理的這樣的參數(shù)方法在Br eebaart, J.,F(xiàn)aller, C. “Spatial audioprocessing:MPEG Surround and other applications", Wiley,2007 中被描述。在另一個(gè)實(shí)施例中,為每個(gè)頻帶獨(dú)立地執(zhí)行虛擬源的合成。使用頻帶是有利的,因 為以更對(duì)準(zhǔn)目標(biāo)的方式來操控多個(gè)聲源會(huì)導(dǎo)致更好的聲音成像。在頻帶中進(jìn)行處理的另一 個(gè)優(yōu)點(diǎn)是基于以下的觀察在許多情形下(例如,當(dāng)使用基于傅里葉的變換時(shí)),在頻帶中 存在的音頻樣本的數(shù)目小于在輸入聲道信號(hào)中的音頻樣本的總數(shù)目。因?yàn)槊總€(gè)頻帶與其它 頻帶無關(guān)地被處理,總的需要的處理功率較低。本發(fā)明還提供了系統(tǒng)權(quán)利要求、以及使得可編程設(shè)備能夠執(zhí)行按照本發(fā)明的方法 的計(jì)算機(jī)程序產(chǎn)品。附圖簡(jiǎn)述從附圖所示的實(shí)施例中,本發(fā)明的這些和其它方面將很明顯,并將參照這些實(shí)施 例來闡述本發(fā)明的這些和其它方面,其中
圖1示意性地顯示至少兩個(gè)輸入聲道信號(hào)的頭戴耳機(jī)再現(xiàn),由此對(duì)應(yīng)于共同分量 的主虛擬源被合成在估計(jì)的期望位置處,而對(duì)應(yīng)于剩余分量的另外的虛擬源被合成在預(yù)定 的位置處;圖2示意性地顯示頭戴耳機(jī)再現(xiàn)系統(tǒng)的例子,其包括處理裝置,用于得出帶有對(duì) 應(yīng)的估計(jì)的期望位置的共同分量,和剩余分量;以及合成裝置,用于合成在估計(jì)的期望位置 處的對(duì)應(yīng)于共同分量的主虛擬源、和在預(yù)定位置處的對(duì)應(yīng)于剩余分量的另外的虛擬源;圖3顯示頭戴耳機(jī)再現(xiàn)系統(tǒng)的例子,該系統(tǒng)還包括修改裝置,用于修改對(duì)應(yīng)于估 計(jì)的期望位置的被感知位置,所述修改裝置可操作地耦合到所述處理裝置和所述合成裝 置;圖4顯示頭戴耳機(jī)再現(xiàn)系統(tǒng)的例子,對(duì)于該系統(tǒng)來說,輸入聲道信號(hào)在被饋送到 處理裝置之前被變換到頻域中、以及合成裝置的輸出借助于反向操作被轉(zhuǎn)換到時(shí)域。在所有的圖上,相同的參考數(shù)字指示相似的或?qū)?yīng)的特征。在附圖上指示的某些 特征典型地以軟件來實(shí)施,這樣,它們代表軟件實(shí)體,諸如軟件模塊或?qū)ο蟆?shí)施例詳細(xì)說明圖1示意性地顯示至少兩個(gè)輸入聲道信號(hào)101的頭戴耳機(jī)再現(xiàn),由此對(duì)應(yīng)于共同 分量的主虛擬源120被合成在估計(jì)的期望位置處,而對(duì)應(yīng)于剩余分量的另外的虛擬源131、 132被合成在預(yù)定的位置處。用戶200佩戴頭戴耳機(jī),該頭戴耳機(jī)再現(xiàn)包括主虛擬源120和 另外的虛擬源131、132的聲音場(chǎng)景。所提出的、用于至少兩個(gè)輸入聲道信號(hào)101的頭戴耳機(jī)再現(xiàn)的方法包括針對(duì)來自 所述至少兩個(gè)輸入聲道信號(hào)的每個(gè)輸入聲道信號(hào)對(duì)的以下步驟。首先,確定在所述輸入聲 道信號(hào)對(duì)中的共同分量、對(duì)應(yīng)于所述共同分量的估計(jì)的期望位置和對(duì)應(yīng)于兩個(gè)輸入聲道信 號(hào)的兩個(gè)剩余分量。所述確定是基于所述輸入聲道信號(hào)的所述對(duì)。每個(gè)所述剩余分量是通 過減去共同分量的貢獻(xiàn)而從它的對(duì)應(yīng)的輸入聲道信號(hào)得出的。所述貢獻(xiàn)是與共同分量的估 計(jì)的期望位置有關(guān)的。其次,合成主虛擬源120以及兩個(gè)另外的虛擬源131和132,該主虛擬源包括在估計(jì)的期望位置處的所述共同分量,該另外的虛擬源每個(gè)包括在相應(yīng)的預(yù)定位 置處的所述剩余分量中相應(yīng)的一個(gè)。雖然在圖1上只顯示兩個(gè)輸入聲道信號(hào),但應(yīng)當(dāng)清楚,可以再現(xiàn)更多的輸入聲道信號(hào),例如五個(gè)輸入聲道信號(hào)。這意味著,對(duì)于所述五個(gè)輸入聲道信號(hào),針對(duì)所有的可能的 對(duì)組合,執(zhí)行共同分量和兩個(gè)剩余分量的所述合成。對(duì)于所述五個(gè)輸入聲道信號(hào),這導(dǎo)致十 個(gè)可能的輸入聲道信號(hào)對(duì)。然后,通過疊加來自于由所述五個(gè)輸入聲道信號(hào)形成的所有輸 入聲道信號(hào)對(duì)的共同和剩余分量的所有貢獻(xiàn),從而得到對(duì)應(yīng)于所述五個(gè)輸入聲道信號(hào)的最 終得到的總的聲音場(chǎng)景。應(yīng)當(dāng)指出,實(shí)線104和105是虛擬線,它們表明剩余分量131和132被合成在預(yù)定 位置處。實(shí)線102也同樣如此,它表明共同分量被合成在估計(jì)的期望位置處。通過使用本發(fā)明所提出的方法,由在固定位置處——例如在按照標(biāo)準(zhǔn)立體聲擴(kuò)音 器裝置的+/-30度方位角處——的兩個(gè)虛擬擴(kuò)音器創(chuàng)建的幻像源,被用在期望位置處的虛 擬源120替代。所提出的用于頭戴耳機(jī)再現(xiàn)的方法的優(yōu)點(diǎn)在于,即使合并了頭部旋轉(zhuǎn)或即 使利用正面/環(huán)繞移動(dòng),也改進(jìn)了空間意象。更具體地,所提出的方法提供了沉浸式體驗(yàn), 其中把收聽者虛擬地安置在聽眾席場(chǎng)景“中”。而且,眾所周知,對(duì)于引人注目的3D音頻體 驗(yàn),頭部跟蹤是必須具備的。通過所提出的解決方案,頭部旋轉(zhuǎn)不會(huì)使虛擬揚(yáng)聲器改變位 置,因此空間成像保持為正確的。在一個(gè)實(shí)施例中,共同分量對(duì)于所述輸入聲道信號(hào)對(duì)的貢獻(xiàn),被按照對(duì)于被感知 為左面的輸入聲道信號(hào)的估計(jì)的期望位置的余弦和對(duì)于被感知為右面的輸入聲道的估計(jì) 的期望位置的正弦來表示?;诖耍瑢儆谝粚?duì)且在所述對(duì)中被感知為左和右輸入聲道的輸 入聲道信號(hào)101被分解為L [k] = cos ( υ ) S [k] +Dl [k]R[k] = sin( u)S[k]-DE[k]其中L[k]和R[k]分別是左和右輸入聲道信號(hào)101,S[k]是對(duì)于左和右輸入聲道 信號(hào)的共同分量,Dl[k]是對(duì)應(yīng)于左輸入聲道信號(hào)的剩余分量,De[k]是對(duì)應(yīng)于右輸入聲道 信號(hào)的剩余分量,υ是對(duì)應(yīng)于共同分量的估計(jì)的期望位置,以及COS(U)和Sin(U)是對(duì) 屬于所述對(duì)的輸入聲道信號(hào)的貢獻(xiàn)。以上的分解提供了共同分量,它是幻像源的估計(jì),正如在經(jīng)典擴(kuò)音器系統(tǒng)中通過 振幅移動(dòng)技術(shù)而得到。余弦和正弦因子提供了借助于單個(gè)角度來描述共同分量對(duì)于左和右 輸入聲道信號(hào)的貢獻(xiàn)的手段。所述角度與共同源的被感知位置密切相關(guān)。振幅移動(dòng)在大 多數(shù)情形下是基于所謂的3dB規(guī)則,這是指無論左和右輸入聲道中的共同信號(hào)的比率是多 少,共同分量的總功率應(yīng)當(dāng)保持不變。這個(gè)屬性通過使用余弦和正弦項(xiàng)而被自動(dòng)地保證,因 為同一個(gè)角度的正弦和余弦的平方和總是得1。雖然剩余分量DJk] iPDE[k]因?yàn)樗鼈兛梢跃哂胁煌闹刀徊煌貥?biāo)記,但也可 以選擇成所述剩余分量具有相同的值。這簡(jiǎn)化了計(jì)算,并確實(shí)改進(jìn)了與這些剩余分量相關(guān) 聯(lián)的周圍環(huán)境。對(duì)于來自所述至少兩個(gè)輸入聲道信號(hào)的每個(gè)輸入聲道信號(hào)對(duì),確定帶有對(duì)應(yīng)的估 計(jì)的期望位置的共同分量、以及剩余分量。然后通過疊加針對(duì)所述輸入聲道信號(hào)對(duì)得出的 個(gè)體共同分量和剩余分量的所有貢獻(xiàn),從而得到對(duì)應(yīng)于所述至少兩個(gè)輸入聲道信號(hào)的總的聲音場(chǎng)景。在一個(gè)實(shí)施例中,共同分量和對(duì)應(yīng)的剩余分量依賴于為其確定所述共同分量的輸 入聲道信號(hào)101之間的相關(guān)性。當(dāng)估計(jì)共同分量時(shí),在估計(jì)過程中的非常重要的變量是左 聲道和右聲道之間的相關(guān)性。相關(guān)性直接與共同分量的強(qiáng)度(從而是功率)相聯(lián)系。如果 相關(guān)性低,則共同分量的功率也低。如果相關(guān)性高,則共同分量的功率相對(duì)于剩余分量而言 是高的。換句話說,相關(guān)性是對(duì)于在左和右輸入聲道信號(hào)對(duì)中的共同分量的貢獻(xiàn)的指示器。 如果必須估計(jì)共同分量和剩余分量,則知道在輸入聲道信號(hào)中是共同分量還是剩余分量占 支配地位是有利的。在一個(gè)實(shí)施例中,共同分量和對(duì)應(yīng)的剩余分量依賴于對(duì)應(yīng)的輸入聲道信號(hào)的功率 參數(shù)。選擇功率作為用于估計(jì)過程的測(cè)度會(huì)允許更精確和可靠地估計(jì)共同分量和剩余分 量。如果輸入聲道信號(hào)之一——例如左輸入聲道信號(hào)——的功率是零,則這自動(dòng)意味著,對(duì) 于那個(gè)信號(hào)來說剩余和共同分量是零。這也意味著,共同分量?jī)H僅在另一個(gè)輸入聲道信號(hào) 中存在,因此右輸入聲道信號(hào)確實(shí)具有相當(dāng)大的功率。而且,對(duì)于在功率上相等的左剩余分 量和右剩余分量(例如,如果它們是相同的信號(hào)但具有相反的正負(fù)號(hào)),左輸入聲道信號(hào)的 功率等于零則意味著,左剩余分量和右剩余分量的功率都是零。這意味著,右輸入聲道信號(hào) 實(shí)際上是共同分量。在一個(gè)實(shí)施例中,對(duì)應(yīng)于共同分量的估計(jì)的期望位置依賴于為其確定所述共同分 量的輸入聲道信號(hào)之間的相關(guān)性。如果相關(guān)性高,則共同分量的貢獻(xiàn)也高。這也意味著,在 左和右輸入聲道信號(hào)的功率與共同分量的位置之間有緊密的關(guān)系。另一方面,如果相關(guān)性 低,則這意味著,共同分量是相對(duì)較弱的(即,低功率)。這也意味著,左和右輸入聲道信號(hào) 的功率主要是由剩余分量的功率、而不是由共同分量的功率來確定的。因此,為了估計(jì)共同 分量的位置,知道共同分量是否占支配地位是有利的,而這是由相關(guān)性來反映的。在一個(gè)實(shí)施例中,對(duì)應(yīng)于共同分量的估計(jì)的期望位置依賴于對(duì)應(yīng)的輸入聲道信號(hào) 的功率參數(shù)。對(duì)于為零的剩余分量,左和右輸入聲道信號(hào)的相對(duì)功率直接與對(duì)應(yīng)于共同分 量的主虛擬源的角度相聯(lián)系。因此,主虛擬源的位置具有對(duì)于左和右輸入聲道信號(hào)中的 (相對(duì))功率的強(qiáng)依賴性。另一方面,如果與剩余分量相比較,共同分量非常小,則左和右輸 入聲道信號(hào)的功率是由剩余信號(hào)占支配地位的,在那種情形下,從左和右輸入聲道信號(hào)估 計(jì)共同分量的期望位置不是非常直截了當(dāng)?shù)?。在一個(gè)實(shí)施例中,對(duì)于一對(duì)輸入聲道信號(hào),所述功率參數(shù)包括左聲道功率P1、右 聲道功率已和互功率Px。在一個(gè)實(shí)施例中,對(duì)應(yīng)于共同分量的估計(jì)的期望位置υ被得出為<formula>formula see original document page 12</formula>其中<formula>formula see original document page 12</formula>
<formula>formula see original document page 13</formula>
按照定義,歸一化的互相關(guān)性(cross-correlation) P被給出為<formula>formula see original document page 13</formula>
因此,角度α并從而是估計(jì)的期望位置υ依賴于互相關(guān)性P??梢钥闯?,這個(gè)推導(dǎo)相應(yīng)于使得對(duì)應(yīng)于共同分量的估計(jì)的信號(hào)的功率最大化。 關(guān)于共同分量的估計(jì)過程和共同分量的功率的最大化(這也意味著剩余分量的功率的最小化)的更多信息在 Breebaart, J. , Faller, C. "Spatial audio processing =MPEG Surroundand other applications”,Wiley,2007中給出。使得對(duì)應(yīng)于共同分量的估計(jì)的 信號(hào)的功率最大化是令人期望的,因?yàn)閷?duì)于該對(duì)應(yīng)的信號(hào)而言,精確的定位信息是可得到 的。在極端的情況下,當(dāng)共同分量是零時(shí),剩余分量等于原始的輸入信號(hào),因而處理將沒有 效果。所以,使得共同分量的功率最大化和使得剩余分量的功率最小化以便得到所描述的 過程的最大效果是有益的。因此,對(duì)于在本發(fā)明中所使用的共同分量,精確的位置也是可得 到的。在一個(gè)實(shí)施例中,估計(jì)的期望位置代表在對(duì)應(yīng)于兩個(gè)虛擬揚(yáng)聲器位置的兩個(gè)預(yù) 定位置之間的空間位置,由此范圍υ =0... 90度映射到用于被感知的位置角度的范圍r =-30... 30度。如在先前的實(shí)施例中指出的,估計(jì)的期望位置υ在0和90度之間變化, 由此對(duì)應(yīng)于0和90度的位置分別等于左和右揚(yáng)聲器位置。為了由頭戴耳機(jī)再現(xiàn)系統(tǒng)進(jìn)行 逼真的聲音再現(xiàn),希望把以上的估計(jì)的期望位置的范圍映射到對(duì)應(yīng)于被實(shí)際上使用于產(chǎn)生 音頻內(nèi)容的范圍的范圍中。然而,被使用于產(chǎn)生音頻內(nèi)容的精確的揚(yáng)聲器位置并不是可得 到的。大多數(shù)音頻內(nèi)容被產(chǎn)生來用于在如由ITU標(biāo)準(zhǔn)(ITU-R Recommend. BS. 775-1)規(guī)定 的擴(kuò)音器裝置上回放,即讓揚(yáng)聲器處在+30和-30度角。所以,虛擬源的原始位置的最佳估 計(jì)是被感知的地方,然而假設(shè)音頻是在遵從ITU標(biāo)準(zhǔn)的擴(kuò)音器系統(tǒng)上再現(xiàn)。以上的映射服 務(wù)于這個(gè)目的,即,將估計(jì)的期望位置帶入到遵從I TU的范圍中。在一個(gè)實(shí)施例中,對(duì)應(yīng)于估計(jì)的期望位置的被感知位置角度按照下式得出<formula>formula see original document page 13</formula>
這種映射的優(yōu)點(diǎn)在于,它是從間隔
度到[-30. . . 30]度的簡(jiǎn)單的線性映 射。如果給定優(yōu)選的ITU擴(kuò)音器裝置的話,則所述到[-30. . . 30]度范圍的映射給出了虛擬 源的預(yù)期位置的最佳估計(jì)。在一個(gè)實(shí)施例中,功率參數(shù)是從被轉(zhuǎn)換到頻域的輸入聲道信號(hào)得出的。立體聲輸入信號(hào)包括分別對(duì)應(yīng)于左和右聲道的兩個(gè)輸入聲道信號(hào)1 [η]和r [η],η 是在時(shí)域中的樣本號(hào)。為了解釋功率參數(shù)是如何從被轉(zhuǎn)換到頻域的輸入聲道信號(hào)得出的, 使用了左和右輸入聲道信號(hào)到時(shí)間/頻率分塊(tile)的分解。所述分解不是強(qiáng)制性的,但 它對(duì)于解釋來說是方便的。所述分解是通過使用加窗和例如基于傅里葉的變換而實(shí)現(xiàn)的。 基于傅里葉的變換的例子例如是FFT。作為基于傅里葉的變換的替換例,可以使用濾波器 組。長度為N的窗函數(shù)w[n]被疊合在輸入聲道信號(hào)上,以便得到一個(gè)幀m
lm [n] = w [n] 1 [n+mN/2]rm[n] = w[n]r [n+mN/2]隨后,使用FFT把成幀的左和右輸入聲道信號(hào)轉(zhuǎn)換到頻域Lm[k] = Y,lM exP| 2l Tnk
V NRm[幻= exp -2l^nk )
0最終得到的FFT倉(bin)(具有索引k)被分組到參數(shù)頻帶b。典型地,形成20到 40個(gè)參數(shù)頻帶,其中對(duì)于低參數(shù)頻帶,F(xiàn)FT索引k的數(shù)量小于對(duì)于高參數(shù)頻帶的FFT索引的 數(shù)量(即,頻率分辨率隨參數(shù)頻帶索引b而降低)。隨后,每個(gè)參數(shù)頻帶13中的功率?1[13]、已[13]被計(jì)算為m=
k=kb(b)Pr[b]= £凡[眾肊>],
k=k {b) k=kb{b+l)-\= j^Lm[k]Rm [k]}
k=kb(b) 。雖然功率參數(shù)是對(duì)于每個(gè)頻帶分開地得出的,但這不是限制。只使用一個(gè)頻 帶(包括整個(gè)頻率范圍)意味著,實(shí)際上沒有使用頻帶的分解。而且,按照帕塞瓦爾 (Parseval)定理,在那種情形下由時(shí)域或頻域表示產(chǎn)生的功率和互功率估計(jì)是完全相同 的。再者,把窗長度固定到無窮大意味著,實(shí)際上沒有使用時(shí)間分解或分段。在許多情形下,音頻內(nèi)容包括多個(gè)同時(shí)的聲源。所述多個(gè)資源對(duì)應(yīng)于不同的頻率。 所以,以更對(duì)準(zhǔn)目標(biāo)的方式來操控聲源對(duì)于更好地聲音成像是有利的,而該方式僅僅在頻 域才是可能的。為了甚至更精確地再現(xiàn)音頻內(nèi)容的空間屬性,從而改進(jìn)總的空間聲音再現(xiàn) 質(zhì)量,把所提出的方法應(yīng)用到更小的頻帶是令人想要的。這工作得很好,因?yàn)樵谠S多情形下 在某個(gè)頻帶中單個(gè)聲源占支配地位。如果一個(gè)源在一個(gè)頻帶中占支配地位,則共同分量和 它的位置的估計(jì)只是非常類似于占支配地位的信號(hào),而丟棄其它信號(hào)(所述其它信號(hào)在剩 余分量中結(jié)束)。在其它頻帶中,其它的具有它們自己的對(duì)應(yīng)位置的源占支配地位。因此, 通過在各個(gè)頻帶中進(jìn)行處理——這在頻域中是可能的——可以達(dá)到對(duì)于聲源的再現(xiàn)的更 多控制。在一個(gè)實(shí)施例中,使用基于傅里葉的變換來把輸入聲道信號(hào)轉(zhuǎn)換到頻域。這種類 型的變換是眾所周知的,它提供用來創(chuàng)建一個(gè)或多個(gè)頻帶的低復(fù)雜性方法。在一個(gè)實(shí)施例中,使用濾波器組來把輸入聲道信號(hào)變換到頻域。適當(dāng)?shù)臑V波器組 方法在 Breebaart, J. ,Faller, C. "Spatial audioprocessing :MPEG Surround and other applications", Wiley, 2007中被描述。這些方法提供了到子帶頻域的轉(zhuǎn)換。在一個(gè)實(shí)施例中,功率參數(shù)是從時(shí)域中表示的輸入聲道信號(hào)得出的。對(duì)于輸入信 號(hào)的某個(gè)分段(n = 0. . . N)的功率Pp Pr和Px于是被表示為<formula>formula see original document page 15</formula>在時(shí)域中執(zhí)行功率計(jì)算的優(yōu)點(diǎn)在于,如果在音頻內(nèi)容中存在的源的數(shù)目低,則與 基于傅里葉的變換或?yàn)V波器組相比較,計(jì)算工作量相對(duì)較低。在時(shí)域上得出功率參數(shù)因而 節(jié)省了計(jì)算工作量。在一個(gè)實(shí)施例中,對(duì)應(yīng)于估計(jì)的期望位置的被感知位置r被修改,以便導(dǎo)致以下 中的一項(xiàng)聲舞臺(tái)的變窄、變寬或旋轉(zhuǎn)。變寬是特別令人感興趣的,因?yàn)樗朔擞捎跀U(kuò)音 器的-30. . . +30度位置所造成的擴(kuò)音器裝置的60度的限制。因此,它有助于創(chuàng)建圍繞收聽 者的沉浸式聲舞臺(tái),而不是向收聽者提供受限于60度孔徑角的窄的聲舞臺(tái)。而且,聲舞臺(tái) 的旋轉(zhuǎn)是令人感興趣的,因?yàn)樗试S頭戴耳機(jī)再現(xiàn)系統(tǒng)的用戶聽到處在固定的(穩(wěn)定的和 恒定的)位置處的聲源,而與用戶的頭部旋轉(zhuǎn)無關(guān)。在一個(gè)實(shí)施例中,對(duì)應(yīng)于估計(jì)的期望位置的被感知位置r被修改,以便導(dǎo)致被如 下表示的修改的被感知位置<formula>formula see original document page 15</formula>由此h是對(duì)應(yīng)于聲舞臺(tái)的旋轉(zhuǎn)的偏移。源位置的角度表示幫助非常容易地整合頭 部運(yùn)動(dòng),特別是收聽者的頭部的取向,這是通過在對(duì)應(yīng)于源位置的角度上施加偏移以使得 聲源具有獨(dú)立于頭部取向的、穩(wěn)定的和恒定的位置而實(shí)現(xiàn)的。由于這樣的偏移,得到以下的 好處更多的頭外聲源定位、改進(jìn)的聲源定位精度、前/后混淆的減小、更加沉浸式的和自 然的收聽體驗(yàn)。在一個(gè)實(shí)施例中,對(duì)應(yīng)于估計(jì)的期望位置的被感知位置被修改,以便導(dǎo)致被如下 表示的修改的被感知位置r’ <formula>formula see original document page 15</formula>由此c是對(duì)應(yīng)于聲舞臺(tái)的變寬或變窄的縮放因子。使用縮放是展寬聲舞臺(tái)的非常 簡(jiǎn)單而又有效的方式。在一個(gè)實(shí)施例中,響應(yīng)于用戶偏好來修改對(duì)應(yīng)于估計(jì)的期望位置的被感知位置。 可以出現(xiàn)一個(gè)用戶可能想要有源被安置在收聽者周圍的完全沉浸式的體驗(yàn)(例如,用戶 是音樂家樂隊(duì)的成員),而其它用戶可能想要感知僅僅來自正面的聲舞臺(tái)(例如,坐在聽眾 中并隔開一段距離收聽)。在一個(gè)實(shí)施例中,響應(yīng)于頭部跟蹤器數(shù)據(jù)來修改對(duì)應(yīng)于估計(jì)的期望位置的被感知 位置。在一個(gè)實(shí)施例中,輸入聲道信號(hào)被分解成時(shí)間/頻率分塊。使用頻帶是有利的,因 為以更對(duì)準(zhǔn)目標(biāo)的方式來操控多個(gè)聲源會(huì)導(dǎo)致更好的聲音成像。時(shí)間分段的另外的優(yōu)點(diǎn) 是聲源的支配地位通常是依賴于時(shí)間的,例如,某些源可以靜默達(dá)某一時(shí)間,然后再活動(dòng)。 除了頻帶以外還使用時(shí)間分段給出了對(duì)輸入聲道信號(hào)中存在的個(gè)體源的甚至更多的控制。在一個(gè)實(shí)施例中,使用與頭部相關(guān)的轉(zhuǎn)移函數(shù)或HRTF來執(zhí)行虛擬源的合成(F. L. ffightman 和 D. J.Kistler, Headphone simulation offree-field listening. I. Stimulus synthesis. J. Acoust. Soc. Am. ,85 :858_867,1989)??臻g合成步驟包括生成共 同分量S[k]以作為在期望的聲源位置r’ [b]處的虛擬聲源(假設(shè)在頻域中計(jì)算)。給定 r’[b]的頻率依賴性,這是對(duì)于每個(gè)頻帶獨(dú)立地執(zhí)行的。因此,對(duì)于頻帶b,輸出信號(hào)L’[k]、 R’ [k]由下式給出L' [k] = HL[k,r' [b]]S[k]+HL[k,-y]DL[k]R' [k] = HE[k,r' [b]]S[k]+HE[k,+y]DE[k]其中Hjk,I ]是在空間位置l處的、對(duì)于左耳的HRTF的FFT索引k,以及索引 L和R分別指引(address)左耳和右耳。角度Y代表周圍環(huán)境的期望的空間位置,它例如 可以是+和-90度,并且它也可以依賴于頭部跟蹤信息。優(yōu)選地,HRTF以參數(shù)形式來表示, 即,被表示為在每個(gè)頻帶b內(nèi)的對(duì)于每個(gè)耳朵的恒定的復(fù)值HL[k G [kb,I] = Pl[b, I ]exp(-j(j5 [b, I ]/2)HE[k G [kb,I] =pr[b,I ]exp(+j(j5 [b, I ]/2)其中Pl[b]是在參數(shù)頻帶b中的、左耳HRTF的平均量值,pjb]是在參數(shù)頻帶b中 的、右耳HRTF的平均量值,以及cHb]是在頻帶b中的Pl[b]與p,[b]之間的平均相位差。 在參數(shù)域中的HRTF處理的詳細(xì)說明可以從Breebaart,J.,F(xiàn)aller, C. "Spatial audio processing :MPEG Surroundand other applications,,,Wiley, 2007 獲知。雖然以上的合成步驟是針對(duì)于在頻域中的信號(hào)來說明的,但所述合成也可以通過 頭部有關(guān)的脈沖響應(yīng)的卷積而在時(shí)域中進(jìn)行。最后,頻域輸出信號(hào)L’ [k]、R’ [k]通過使用 例如逆FFT或逆濾波器組而被轉(zhuǎn)換到時(shí)域,并且通過重疊相加而被處理,以導(dǎo)致雙耳輸出 信號(hào)。取決于分析窗w[n],可能需要對(duì)應(yīng)的合成窗。在一個(gè)實(shí)施例中,對(duì)于每個(gè)頻帶獨(dú)立地執(zhí)行虛擬源的合成。使用頻帶是有利的,因 為以更對(duì)準(zhǔn)目標(biāo)的方式來操控多個(gè)聲源會(huì)導(dǎo)致更好的聲音成像。在頻帶中進(jìn)行處理的另一 個(gè)優(yōu)點(diǎn)是基于以下的觀察在許多情形下(例如,當(dāng)使用基于傅里葉的變換時(shí)),在頻帶中 存在的音頻樣本的數(shù)目小于在輸入聲道信號(hào)中的音頻樣本的總數(shù)目。因?yàn)槊總€(gè)頻帶與其它 頻帶無關(guān)地被處理,總的需要的處理功率較低。圖2示意性地顯示頭戴耳機(jī)再現(xiàn)系統(tǒng)500的例子,其包括處理裝置310,用于得 出帶有對(duì)應(yīng)的估計(jì)的期望位置的共同分量,和剩余分量;以及合成裝置400,用于合成在估 計(jì)的期望位置處的對(duì)應(yīng)于共同分量的主虛擬源、和在預(yù)定位置處的對(duì)應(yīng)于剩余分量的另外 的虛擬源。處理裝置310從所述至少兩個(gè)輸入聲道信號(hào)101得出對(duì)于輸入聲道信號(hào)對(duì)的共同 分量、和對(duì)應(yīng)于所述共同分量的估計(jì)的期望位置。所述共同分量是所述至少兩個(gè)輸入聲道 信號(hào)101的所述對(duì)的共同部分。所述處理裝置310還得出對(duì)于在所述對(duì)中的每個(gè)輸入聲道 信號(hào)的剩余分量,由此每個(gè)所述剩余分量是通過減去共同分量的貢獻(xiàn)而從它的對(duì)應(yīng)的輸入 聲道信號(hào)得出的。所述貢獻(xiàn)是與估計(jì)的期望位置有關(guān)的。所得出的由301表明的共同分量 和剩余分量、以及由302表明的估計(jì)的期望位置被傳送到合成裝置400。合成裝置400對(duì)于來自所述至少兩個(gè)輸入聲道信號(hào)的每個(gè)輸入聲道信號(hào)對(duì)合成 主虛擬源以及兩個(gè)另外的虛擬源,所述主虛擬源包括在估計(jì)的期望位置處的所述共同分 量,所述另外的虛擬源每個(gè)包括在相應(yīng)的預(yù)定位置處的所述剩余分量中相應(yīng)的一個(gè)。所述合成裝置包括與頭部相關(guān)的轉(zhuǎn)移函數(shù)(=HRTF)數(shù)據(jù)庫420,它根據(jù)估計(jì)的期望位置302, 借助對(duì)應(yīng)于所估計(jì)的期望位置的HRTF和對(duì)于預(yù)定位置的HRTF來提供適當(dāng)?shù)妮斎氲教幚韱?元410,該處理單元410應(yīng)用HRTF以便從由處理裝置310得到的共同分量和剩余分量301 產(chǎn)生雙耳輸出。圖3顯示頭戴耳機(jī)再現(xiàn)系統(tǒng)的例子,該系統(tǒng)還包括修改裝置430,用于修改對(duì)應(yīng)于 估計(jì)的期望位置的被感知位置,所述修改裝置可操作地耦合到所述處理裝置310和所述合 成裝置400。所述裝置430接收對(duì)應(yīng)于共同分量的估計(jì)的期望位置,以及關(guān)于期望的修改的 輸入。所述期望的修改例如涉及到收聽者的位置或他的頭部位置。替換地,所述修改涉及 到期望的聲舞臺(tái)修改。所述修改的效果是聲音場(chǎng)景的旋轉(zhuǎn)或變寬(或變窄)。在一個(gè)實(shí)施例中,該修改裝置可操作地耦合到頭部跟蹤器,以便得到頭部跟蹤器 數(shù)據(jù),按照該數(shù)據(jù)來執(zhí)行對(duì)應(yīng)于估計(jì)的期望位置的被感知位置的修改。這使得修改裝置430 能夠接收關(guān)于頭部運(yùn)動(dòng)的準(zhǔn)確數(shù)據(jù),并從而精確地適配于所述運(yùn)動(dòng)。圖4顯示頭戴耳機(jī)再現(xiàn)系統(tǒng)的例子,對(duì)于該系統(tǒng)來說,輸入聲道信號(hào)在被饋送到 處理裝置310之前被變換到頻域中、以及合成裝置400的輸出借助于反向操作被轉(zhuǎn)換到時(shí) 域。這樣做的結(jié)果是對(duì)于每個(gè)頻帶獨(dú)立地執(zhí)行虛擬源的合成。圖3所描繪的再現(xiàn)系統(tǒng)現(xiàn)在 被擴(kuò)展以單元320和單元440,單元320在處理裝置310的前面,單元440在處理單元400 的后面。所述單元320執(zhí)行輸入聲道信號(hào)到頻域的轉(zhuǎn)換。所述轉(zhuǎn)換是通過使用例如濾波器 組或FFT而實(shí)行的。也可以使用其它的時(shí)間/頻率變換。單元440執(zhí)行針對(duì)于由單元310 所執(zhí)行的操作的反向操作。應(yīng)當(dāng)指出的是,以上提出的實(shí)施例是舉例說明本發(fā)明而不是限制本發(fā)明,而本領(lǐng) 域技術(shù)人員將能夠設(shè)計(jì)出許多替換實(shí)施例而不背離所附權(quán)利要求的范圍。在伴隨的權(quán)利要求中,置于括號(hào)之間的任何參考符號(hào)不應(yīng)當(dāng)被解釋為限制權(quán)利要 求。單詞“包括”不排除與權(quán)利要求中列出的那些單元或步驟不同的單元或步驟的存在。在 單元前面的單詞“一”或“一個(gè)”(“a”或“an”)不排除多個(gè)這樣的單元的存在。本發(fā)明可 以借助于包括幾個(gè)不同單元的硬件,以及借助于適當(dāng)?shù)鼐幊痰挠?jì)算機(jī)而被實(shí)施。
權(quán)利要求
一種用于至少兩個(gè)輸入聲道信號(hào)的頭戴耳機(jī)再現(xiàn)的方法,所述方法包括為來自所述至少兩個(gè)輸入聲道信號(hào)的每個(gè)輸入聲道信號(hào)對(duì)-確定共同分量、對(duì)應(yīng)于所述共同分量的估計(jì)的期望位置、和對(duì)應(yīng)于所述輸入聲道信號(hào)對(duì)中的兩個(gè)輸入聲道信號(hào)的兩個(gè)剩余分量,所述確定是基于所述輸入聲道信號(hào)的所述對(duì),由此每個(gè)所述剩余分量是通過減去共同分量的貢獻(xiàn)而從它的對(duì)應(yīng)的輸入聲道信號(hào)得出的,所述貢獻(xiàn)是與所述共同分量的估計(jì)的期望位置有關(guān)的;以及-合成主虛擬源,其包括在估計(jì)的期望位置處的所述共同分量,和-合成兩個(gè)另外的虛擬源,每個(gè)包括在相應(yīng)的預(yù)定位置處的所述剩余分量中相應(yīng)的一個(gè)。
2.如在權(quán)利要求1中要求的方法,其中共同分量對(duì)于所述對(duì)的輸入聲道信號(hào)的所述貢 獻(xiàn),被按照對(duì)于被感知為左面的輸入聲道信號(hào)的估計(jì)的期望位置的余弦和對(duì)于被感知為右 面的輸入聲道的估計(jì)的期望位置的正弦來表示。
3.如在權(quán)利要求1或2中要求的方法,其中共同分量和對(duì)應(yīng)的剩余分量依賴于為其確 定所述共同分量的輸入聲道信號(hào)之間的相關(guān)性。
4.如在權(quán)利要求1或2中要求的方法,其中共同分量和對(duì)應(yīng)的剩余分量依賴于對(duì)應(yīng)的 輸入聲道信號(hào)的功率參數(shù)。
5.如在權(quán)利要求1或2中要求的方法,其中對(duì)應(yīng)于共同分量的估計(jì)的期望位置依賴于 為其確定所述共同分量的輸入聲道信號(hào)之間的相關(guān)性。
6.如在權(quán)利要求1到5中要求的方法,其中對(duì)應(yīng)于共同分量的估計(jì)的期望位置依賴于 對(duì)應(yīng)的輸入聲道信號(hào)的功率參數(shù)。
7.如在權(quán)利要求4或6中要求的方法,其中,對(duì)于輸入聲道信號(hào)對(duì),所述功率參數(shù)包括 左聲道功率P1、右聲道功率已和互功率Px。
8.如在權(quán)利要求7中要求的方法,其中對(duì)應(yīng)于共同分量的估計(jì)的期望位置υ被得出為<formula>formula see original document page 2</formula>其中<formula>formula see original document page 2</formula>
9.如在權(quán)利要求8中要求的方法,其中估計(jì)的期望位置代表在對(duì)應(yīng)于兩個(gè)虛擬揚(yáng)聲器 位置的兩個(gè)預(yù)定位置之間的空間位置,由此范圍u =0... 90映射到用于被感知的位置角 度的范圍r = -30. . . 30度。
10.如在權(quán)利要求9中要求的方法,其中對(duì)應(yīng)于估計(jì)的期望位置的被感知的位置角度 按照下式得出<formula>formula see original document page 3</formula>
11.如在權(quán)利要求7中要求的方法,其中功率參數(shù)是從被轉(zhuǎn)換到頻域的輸入聲道信號(hào) 得出的。
12.如在權(quán)利要求11中要求的方法,其中使用基于傅里葉的變換來把輸入聲道信號(hào)轉(zhuǎn) 換到頻域。
13.如在權(quán)利要求7中要求的方法,其中使用濾波器組來把輸入聲道信號(hào)轉(zhuǎn)換到頻域。
14.如在權(quán)利要求7中要求的方法,其中功率參數(shù)是從時(shí)域中表示的輸入聲道信號(hào)得 出的。
15.如在權(quán)利要求1中要求的方法,其中對(duì)應(yīng)于估計(jì)的期望位置的被感知位置r被修 改,以便導(dǎo)致以下的一項(xiàng)聲舞臺(tái)的變窄、變寬或旋轉(zhuǎn)。
16.如在權(quán)利要求15中要求的方法,其中對(duì)應(yīng)于估計(jì)的期望位置的被感知位置r被修 改,以便導(dǎo)致修改的被感知位置被表示為ry = r+h,由此h是對(duì)應(yīng)于聲舞臺(tái)的旋轉(zhuǎn)的偏移。
17.如在權(quán)利要求15中要求的方法,其中對(duì)應(yīng)于估計(jì)的期望位置的被感知位置被修 改,以便導(dǎo)致修改的被感知位置r’被表示為ry = cr,由此C是對(duì)應(yīng)于聲舞臺(tái)的變寬或變窄的縮放因子。
18.如在權(quán)利要求15到17中要求的方法,其中響應(yīng)于用戶偏好來修改對(duì)應(yīng)于估計(jì)的期 望位置的被感知位置。
19.如在權(quán)利要求15到17中要求的方法,其中響應(yīng)于頭部跟蹤器數(shù)據(jù)來修改對(duì)應(yīng)于估 計(jì)的期望位置的被感知位置。
20.如在權(quán)利要求1中要求的方法,其中輸入聲道信號(hào)被分解成時(shí)間/頻率分塊。
21.如在權(quán)利要求1中要求的方法,其中使用與頭部相關(guān)的轉(zhuǎn)移函數(shù)來執(zhí)行虛擬源的 合成。
22.如在權(quán)利要求21中要求的方法,其中對(duì)于每個(gè)頻帶獨(dú)立地執(zhí)行虛擬源的合成。
23.一種用于再現(xiàn)至少兩個(gè)輸入聲道信號(hào)的頭戴耳機(jī)再現(xiàn)系統(tǒng),所述頭戴耳機(jī)再現(xiàn)系 統(tǒng)包括-處理裝置,用于為來自所述至少兩個(gè)輸入聲道信號(hào)的每個(gè)輸入聲道信號(hào)對(duì)確定共同 分量、對(duì)應(yīng)于所述共同分量的估計(jì)的期望位置、和對(duì)應(yīng)于所述輸入聲道信號(hào)對(duì)中的兩個(gè)輸 入聲道信號(hào)的兩個(gè)剩余分量,所述確定是基于所述輸入聲道信號(hào)的所述對(duì),由此每個(gè)所述 剩余分量是通過減去共同分量的貢獻(xiàn)而從它的對(duì)應(yīng)的輸入聲道信號(hào)得出的,所述貢獻(xiàn)是與 所述共同分量的估計(jì)的期望位置有關(guān)的;以及-合成裝置,用于合成主虛擬源以及兩個(gè)另外的虛擬源,該主虛擬源包括在估計(jì)的期望 位置處的所述共同分量,而所述另外的虛擬源每個(gè)包括在相應(yīng)的預(yù)定位置處的所述剩余分 量中相應(yīng)的一個(gè)。
24.如在權(quán)利要求23中要求的頭戴耳機(jī)再現(xiàn)系統(tǒng),其中所述頭戴耳機(jī)再現(xiàn)系統(tǒng)還包括 修改裝置,用于修改對(duì)應(yīng)于估計(jì)的期望位置的被感知位置,所述修改裝置可操作地耦合到所述處理裝置和所述合成裝置。
25.如在權(quán)利要求24中要求的頭戴耳機(jī)再現(xiàn)系統(tǒng),其中所述修改裝置可操作地耦合到 頭部跟蹤器,以便得到頭部跟蹤器數(shù)據(jù),按照所述頭部跟蹤器數(shù)據(jù)來執(zhí)行對(duì)應(yīng)于估計(jì)的期 望位置的被感知位置的修改。
26.如在權(quán)利要求23中要求的頭戴耳機(jī)再現(xiàn)系統(tǒng),其中輸入聲道信號(hào)在被饋送到處理 裝置之前被變換到頻域中,以及合成裝置的輸出通過反向操作被轉(zhuǎn)換到時(shí)域。
27.一種用于執(zhí)行權(quán)利要求1-22的任一項(xiàng)的方法的計(jì)算機(jī)程序產(chǎn)品。
全文摘要
提出了一種用于至少兩個(gè)輸入聲道信號(hào)的頭戴耳機(jī)再現(xiàn)的方法。所述方法包括針對(duì)來自所述至少兩個(gè)輸入聲道信號(hào)的每個(gè)輸入聲道信號(hào)對(duì)的以下步驟。首先,確定共同分量、對(duì)應(yīng)于所述共同分量的估計(jì)的期望位置、和對(duì)應(yīng)于所述輸入聲道信號(hào)對(duì)中的兩個(gè)輸入聲道信號(hào)的兩個(gè)剩余分量。所述確定是基于所述輸入聲道信號(hào)的所述對(duì)。每個(gè)所述剩余分量是通過減去共同分量的貢獻(xiàn)而從它的對(duì)應(yīng)的輸入聲道信號(hào)得出的。所述貢獻(xiàn)是與所述共同分量的估計(jì)的期望位置有關(guān)的。第二,合成主虛擬源以及兩個(gè)另外的虛擬源,該主虛擬源包括在估計(jì)的期望位置處的所述共同分量,該另外的虛擬源每個(gè)包括在相應(yīng)的預(yù)定位置處的所述剩余分量中相應(yīng)的一個(gè)。
文檔編號(hào)H04S5/00GK101816192SQ200880109968
公開日2010年8月25日 申請(qǐng)日期2008年10月1日 優(yōu)先權(quán)日2007年10月3日
發(fā)明者D·J·布里巴爾特 申請(qǐng)人:皇家飛利浦電子股份有限公司