亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

在多聲道音頻環(huán)境中提供互動式音頻的系統(tǒng)和方法

文檔序號:7611007閱讀:281來源:國知局
專利名稱:在多聲道音頻環(huán)境中提供互動式音頻的系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明涉及全互動式音頻系統(tǒng),特別是,涉及一個再現(xiàn)實時多聲道互動式數(shù)字音頻的系統(tǒng)和方法,以此來創(chuàng)建一個適用于三維游戲,虛擬真實感和其他互動式音頻應(yīng)用程序的富有臨場感的環(huán)繞聲頻環(huán)境。
背景技術(shù)
近來,音頻技術(shù)的發(fā)展主要集中于在環(huán)繞聽眾的三維空間的任何地方(“音場”)創(chuàng)建一個實時互動式聲音定位。真正的互動式音頻不但具有創(chuàng)建請求式聲音的能力,還具有在音場中精確地決定聲音位置的能力。我們可以在各式各樣的產(chǎn)品中發(fā)現(xiàn)這些技術(shù)支持,但是,最常見的是在用于創(chuàng)建自然,臨場感和互動式音頻環(huán)境的視頻游戲軟件。視聽形式的產(chǎn)品如DVD在娛樂世界中比游戲應(yīng)用的更為廣泛,它還應(yīng)用于電視會議,模擬系統(tǒng)和其他互動式環(huán)境。
音頻技術(shù)的優(yōu)點在于朝聽眾產(chǎn)生“真實”的音頻環(huán)境的方向進行。環(huán)繞聲的發(fā)展如下,起初是HRTF、杜比環(huán)繞聲模擬領(lǐng)域的發(fā)展,隨后是讓聽眾身臨其境地處在杜比環(huán)繞聲頻環(huán)境中的AC-3、MPEG和DTS數(shù)字領(lǐng)域的發(fā)展。
為了扮演真實感的合成環(huán)境,虛擬聲音系統(tǒng)使用雙聲道技術(shù)和音質(zhì)評價暗示信號無需多個揚聲器而創(chuàng)建環(huán)繞音頻錯覺。這些虛擬的三維音頻技術(shù)主要基于HRTFs(顫頂效應(yīng))的概念。原始數(shù)字化聲音實時圍繞左耳和右耳的HRTFs以響應(yīng)所需的空間位置,從而產(chǎn)生右耳和左耳的雙聲道信號,該信號聽起來如同來自所需的定位。為了決定聲音的位置,HRTFs被轉(zhuǎn)變成用作所需的新定位且該過程重復(fù)。如果音頻信號用聽眾自己的HRTFs過濾,那么聽眾能通過耳機體驗到接近自由聲場聆聽的效果。但是,這一方法通常是不切實際的,而且試驗者已經(jīng)在尋找一套對大部分聽眾來說都有良好性能的通用HRTFs。由于存在前后混淆的特殊障礙,這很難實現(xiàn),該混淆是指對于頭前方的聲音和頭后方的聲音而聽覺卻感到都是來自于一個方向。除了缺點以外,HRTF方法被成功地應(yīng)用于壓縮的MPEG音頻和PCM音頻并大量減少了計算負(fù)荷。雖然基于HRTFs的虛擬環(huán)繞聲技術(shù)在大型家庭影劇院設(shè)備中舉足輕重,但是由于它未提供任何互動式特殊聲音定位的手段,所以對當(dāng)前這些解決辦法是不實用的。
杜比環(huán)繞聲系統(tǒng)是另一種實現(xiàn)聲頻定位的方法。杜比環(huán)繞聲是一種能使立體聲(兩聲道)媒體傳輸四聲道音頻的矩陣處理。該系統(tǒng)獲得四聲道音頻且產(chǎn)生兩聲道杜比環(huán)繞聲編碼素材,這些素材識別為全左(Lt)和全右(Rt)。編碼素材通過杜比定向邏輯解碼器解碼產(chǎn)生一個四聲道的輸出;左聲道,右聲道,中央聲道和環(huán)繞單聲道。中央聲道定音在銀幕處。左右聲道用于播放音樂和某些音響效果,環(huán)繞聲道主要專用于播放音響效果。環(huán)繞聲音軌是在杜比環(huán)繞聲格式中預(yù)編碼的,因此他們最適用于電影,但在諸如視頻游戲的互動式應(yīng)用程序中不特別有用。PCM音頻可被覆蓋在杜比環(huán)繞聲音頻上,提供一個較難控制的互動式音頻體驗。不幸的是,PCM和杜比環(huán)繞聲的混頻是視內(nèi)容而定的,而且把PCM音頻覆蓋在杜比環(huán)繞聲音頻上往往會混淆杜比邏輯解碼器,使它產(chǎn)生不希望的人造環(huán)繞聲和串音。
為了改進聲道分離的數(shù)字環(huán)繞聲技術(shù),諸如杜比數(shù)碼和DTS,提供了左、中、右、前置揚聲器和分離的左環(huán)繞聲與右環(huán)繞聲的后置揚聲器以及超低音音箱的數(shù)碼音響六個分立的聲道。數(shù)字環(huán)繞聲是預(yù)錄音技術(shù),因此它最適用于電影和家用A/V系統(tǒng),在該系統(tǒng)中,解碼等待時間可以調(diào)節(jié)且在其當(dāng)前形式中不特別適用于諸如視頻游戲的互動式應(yīng)用程序。但是,由于杜比數(shù)字和DTS系統(tǒng)提供了高保真的音頻定位,具有家庭影劇院解碼器大型的安裝基礎(chǔ),多聲道5.1揚聲器格式的分辨率以及產(chǎn)品投放市場,所以,如果它們可以被制成全互動式系統(tǒng),那么,在用于個人計算機和基于游戲系統(tǒng)的特殊控制臺中的多聲道環(huán)境將出現(xiàn)高需求。但是,個人計算機結(jié)構(gòu)通常不能向家庭娛樂系統(tǒng)傳送多聲道數(shù)字PCM音頻,這主要是因為標(biāo)準(zhǔn)個人計算機的數(shù)字輸出是通過基于立體聲的S/PDIF數(shù)字輸出連接器的。
劍橋SoundWorks公司提供了以DeskTop 5.1聲道的影劇院DTT2500形式的混頻數(shù)碼環(huán)繞聲/PCM方法。該產(chǎn)品的特點是具有內(nèi)置杜比數(shù)字解碼器,該解碼器將預(yù)編碼杜比數(shù)字5.1背景節(jié)目與互動式四聲道數(shù)字PCM音頻相組合。該系統(tǒng)需要兩個分離的連接器;一個連接器傳送杜比數(shù)字信號,另一個連接器傳送四聲道數(shù)字音頻。雖然技術(shù)領(lǐng)先,但是DeskTop影劇院與現(xiàn)存的杜比數(shù)字解碼器的安裝基礎(chǔ)不兼容,并且要求聲卡來支持多聲道PCM的輸出。從揚聲器重放的聲音定位在所知位置處,但互動式三維音場的目標(biāo)是創(chuàng)建令人信服的環(huán)境,在該環(huán)境中,聲音聽起來就好象起源于聽眾周圍的任何選定的方向。DeskTop影劇院互動式音頻的普及還受到需要處理PCM數(shù)據(jù)計算要求的限制。側(cè)向定位是定位音頻環(huán)境臨界分量,它對于提供時域數(shù)據(jù)計算復(fù)雜,好比濾波(篩選)操作和均衡操作。
游戲產(chǎn)業(yè)需要適用于三維游戲和其他互動式音頻應(yīng)用程序的低成本全互動式等待時間少的臨場感數(shù)字環(huán)繞聲環(huán)境,它允許游戲編程員將大量的音頻源混頻并決定它們在音場中的精確位置,且與家庭影劇院數(shù)字環(huán)繞聲系統(tǒng)的現(xiàn)有基礎(chǔ)結(jié)構(gòu)相兼容。
發(fā)明的概述鑒于以上的問題,本發(fā)明提供了適用于三維游戲和其他高保真音頻應(yīng)用程序低成本全互動式臨場感數(shù)字環(huán)繞聲環(huán)境,它配置為保持與數(shù)字環(huán)繞聲解碼器現(xiàn)有的基礎(chǔ)結(jié)構(gòu)相兼容的形式。
這種配置實現(xiàn)是通過將每一個聲頻分量存儲在壓縮的格式中,以致犧牲編碼和存儲效率有利于計算簡化,在子帶域而不是在時域中混頻這些分量,再壓縮和將多聲道混頻的音頻分組到壓縮的格式,并將其傳送到下游環(huán)繞聲處理器來解碼和分配。由于多聲道數(shù)據(jù)是壓縮的格式,它可以穿越基于立體聲的S/PDIF數(shù)字輸出連接器。該技術(shù)還提供了用于“循環(huán)”壓縮的音頻,該音頻在操作PCM音頻的游戲應(yīng)用程序中具有重要和標(biāo)準(zhǔn)的特征。此外,通過“靜寂”幀的傳送確保解碼器同步,此時,歸因于處理等待時間或游戲應(yīng)用程序的混頻的音頻不會出現(xiàn)。
特別是,這些分量更適于在子帶表示法中編碼、壓縮以及分組到數(shù)據(jù)幀,其中僅有比例因子和子帶數(shù)據(jù)從幀到幀變化。這個壓縮格式對于存儲器的需要顯著要比標(biāo)準(zhǔn)PCM音頻少,但是與諸如用于杜比AC-3或MPEG中使用的可變長度代碼存儲器要求相比則要多。更為顯著的是,這一方法大大簡化了拆包/分組、混頻以及解壓縮/壓縮的操作,從而減少了處理器的利用。此外,固定長度代碼(FLCs)幫助隨機存取導(dǎo)航穿過編碼的比特流。高級通過量可以通過使用單個預(yù)定比特分配表來實現(xiàn)對音頻源和混頻的輸出聲道進行編碼。在當(dāng)前的較佳實施例中,音頻再現(xiàn)被硬編碼用于固定的標(biāo)題和比特分配表,所以,音頻再現(xiàn)僅需要處理這些比例因子和子帶數(shù)據(jù)。
混頻是通過部分解碼(解壓縮)僅來自被認(rèn)為可聽到的這些音頻分量的子帶數(shù)據(jù)來實現(xiàn)的,且將它們混頻在子帶域中。子帶表示法有助于簡化音質(zhì)評價掩蔽技術(shù),使大量音源可被再現(xiàn)而無需增加處理的復(fù)雜性或減少混頻信號的質(zhì)量。此外,由于多聲道信號先于傳送而被編碼到它們的壓縮格式,富有高保真的統(tǒng)一環(huán)繞聲信號可通過單個連接傳送到解碼器。
本發(fā)明的這些和其他特征和優(yōu)點結(jié)合附圖在以下的較佳實施例的詳細(xì)描述中將技術(shù)中的精華表現(xiàn)出來,其中附圖的簡要說明

圖1a~1c是根據(jù)本發(fā)明不同游戲配置的方框圖;圖2是用于全互動式環(huán)繞聲環(huán)境應(yīng)用程序?qū)訂柦Y(jié)構(gòu)的方框圖;圖3-1和圖3-2(共同圖3)是圖2所示的音頻再現(xiàn)層的流程圖;圖4是用于匯編和排隊等候向環(huán)繞聲解碼器傳輸?shù)妮敵鰯?shù)據(jù)幀分組過程方框圖;圖5是舉例列示的壓縮音頻的循環(huán)的流程圖;圖6是描述編制數(shù)據(jù)幀的圖;圖7是描述在每一幀內(nèi)所編制的量化子帶數(shù)據(jù)、比例因子和比特分配的圖;圖8是子帶域混頻處理過程的方框圖;圖9是舉例列示的音質(zhì)評價掩蔽效應(yīng)的圖;圖10a~10c是用于分組和拆包每個幀的比特提取處理過程的圖;以及圖11是舉例列示的特殊子帶數(shù)據(jù)混頻的圖。
發(fā)明的詳細(xì)描述互動式DTS提供了適用于三維(3D)游戲和其他高保真音頻應(yīng)用程序的低成本的全互動式臨場感的數(shù)字環(huán)繞聲環(huán)境?;邮紻TS把聲頻分量存儲在壓縮和分組的格式,在子帶域中混頻該音頻源,將多聲道混頻音頻的再壓縮和分組到壓縮格式中,然后將其傳送到下游環(huán)繞聲處理器來解碼和分配。在多聲道數(shù)據(jù)處在壓縮的格式中時,它可以穿越基于立體聲的S/PDIF數(shù)字輸出連接器?;邮紻TS大大地增加了音頻源數(shù)量,使之能在不增加計算負(fù)荷或降低再現(xiàn)的音頻的情況下身臨其境地處在多聲道環(huán)境中一起再現(xiàn)?;邮紻TS簡化了均衡和相位定位的操作。此外,這些技術(shù)提供為“循環(huán)”壓縮音頻技術(shù)和解碼器同步所確保的并通過傳送“靜寂”的幀,此時,音頻源不會出現(xiàn)在包括真靜寂或低聲級噪聲的靜寂處?;邮紻TS設(shè)計成可與現(xiàn)有的DTS環(huán)繞聲解碼器的基礎(chǔ)結(jié)構(gòu)保持向后兼容性。然而,所述的格式化和混頻技術(shù)可用于設(shè)計成專用的游戲控制臺,它將不限于保持音頻源和/或目的單元格與現(xiàn)有的解碼器相兼容。
互動式DTSDTS交互系統(tǒng)通過多平臺加以支持,它具有DTS5.1聲道的多聲道家庭影劇院系統(tǒng)10,該系統(tǒng)包括解碼器和AV放大器,一塊聲卡12,該聲卡裝有帶有AV放大器14的硬件的DTS解碼器芯片組集,或者裝有帶有一塊音頻卡18和AV放大器20的軟件執(zhí)行的DTS解碼器16,見圖1a,1b和1c。所有這些系統(tǒng)均需要以左聲道22,右聲道24,左環(huán)繞聲道26,右環(huán)繞聲道28,中央聲道30和超低頻音箱32命名的一套揚聲器以及多聲道解碼器和多聲道放大器。解碼器提供數(shù)字S/PDIF或其他用于供應(yīng)壓縮音頻數(shù)據(jù)的輸入。放大器供給六個分立的揚聲器功率。視頻映射在顯示器或者投影裝置34上,它們通常是電視機或其他監(jiān)視器。用戶通過人接口裝置(HID),例如鍵盤36,鼠標(biāo)38,位置傳感器,軌跡球或游戲桿與AV環(huán)境進行人機對話。
應(yīng)用程序編程接口(API)如圖2和圖3所示,DTS交互系統(tǒng)由三層組成應(yīng)用程序40,應(yīng)用程序編程接口(API)42和音頻再現(xiàn)44。軟件應(yīng)用程序可以是游戲,或可以是音樂重放/合成程序,該程序接收音頻分量文件46并指定每個某些系統(tǒng)設(shè)定定位字符48。應(yīng)用程序還通過HID36/38接受來自用戶的互動式數(shù)據(jù)。
對于每個游戲等級,常使用的音頻分量被載入存儲器(步驟50)。因為每個分量被視為是編程員所保存的無意識的音頻格式和再現(xiàn)細(xì)節(jié)的對象,所以編程員只需考慮與聽眾的絕對位置和令人滿意的處理效果?;邮紻TS格式允許這些分量為單聲道,立體聲或者是帶有或不帶有低頻效應(yīng)(LFE)的多聲道。由于互動式DTS將這些分量存儲在壓縮格式中(見圖6),因此節(jié)約了有價值的系統(tǒng)存儲器,這樣,可另外使之用于更高的視頻映射清晰度,更佳的彩色或更佳的紋理。由壓縮格式生成的文件尺寸的減小也加快了從存儲媒體的請求式裝入的速度。這些聲音分量提供參數(shù)使位置、均衡度、音量和必需的效應(yīng)精細(xì)化。這些細(xì)節(jié)將影響再現(xiàn)處理的結(jié)果。
API層42為編程員創(chuàng)建和控制每個音響效果提供接口,還提供與處理混頻音頻數(shù)據(jù)的復(fù)雜的實時音頻再現(xiàn)處理的隔離。面向?qū)ο箢悇?chuàng)建和控制音頻的產(chǎn)生。歸編程員支配的有數(shù)項,它們?yōu)槿缦螺d入,卸載,播放,暫停,停止,循環(huán),延遲,音量,均衡,三維(3D)位置,環(huán)境中聲音量綱的最大化和最小化,存儲器分配,存儲器鎖定和同步。
API產(chǎn)生對所有創(chuàng)建和載入存儲器的或由媒體存取的所有聲音對象的記錄(步驟52)。這一數(shù)據(jù)被存放在一個對象目錄表中。對象目錄不包含實際聲頻數(shù)據(jù)而是跟蹤對產(chǎn)生音頻起重要作用的信息,比如指示在壓縮聲頻數(shù)據(jù)流內(nèi)的數(shù)據(jù)指針位置的信息,指示聲音的位置坐標(biāo)系,到聽眾所處位置的距離和方向,聲音產(chǎn)生的狀況以及對混頻數(shù)據(jù)的任何特殊處理要求等信息。當(dāng)API被請求創(chuàng)建聲音對象時,對象的參考指針自動進入對象目錄。當(dāng)刪除對象時,進入對象目錄中的相應(yīng)指針設(shè)置為空值。如果對象目錄已滿,那么簡單老化(時效)基高速緩沖系統(tǒng)可以選擇重寫老的實例。對象目錄在異步應(yīng)用程序、同步混頻器和壓縮聲頻發(fā)生器處理之間形成橋接。
每個對象所沿襲的分類允許有開始,停止,暫停,載入和卸載的功能,用以控制聲音的發(fā)生。這些控制允許播放目錄管理器檢查對象目錄并構(gòu)成只有那些在同一時刻有效播放聲音的播放目錄53。如果是暫停,停止,已完全播放或為開始播放而未足夠延遲,管理器可以判定在播放目錄中省去聲音。進入播放目錄的每一條目是在聲音內(nèi)對各個幀的指針,它必須經(jīng)過檢查且在必要時在混頻之前分段拆包。由于幀的大小是恒量,所以指針的操作允許定位重放,循環(huán)和延遲的輸出聲音。這個指針值表明在壓縮聲頻流之內(nèi)的當(dāng)前解碼位置。
聲音位置的定位需要把聲音分配到各個再現(xiàn)管線或者執(zhí)行緩沖器,它們依次直接變換到布置的揚聲器(步驟54)上。這就是變換功能的目的。檢查進入幀目錄的位置數(shù)據(jù)來確定應(yīng)用哪些信號處理功能,為聽眾更新每個聲音的方位和方向,變更每個依賴于環(huán)境的物理模式的聲音,確定混頻系數(shù)以及向可用的和最適當(dāng)?shù)膿P聲器分配音頻流。所有參數(shù)和模式數(shù)據(jù)相組合來演繹與每一進入管線的壓縮音頻幀相關(guān)的比例因子的修改。如果需要側(cè)向定位,來自相移表的數(shù)據(jù)被指示和索引。
聲頻再現(xiàn)如圖2和圖3所示,聲頻再現(xiàn)層44負(fù)擔(dān)依照由對象類設(shè)定的三維參數(shù)57混頻所需子帶數(shù)據(jù)55。多音頻分量的混頻需要對每個分量進行選擇性拆包和解壓縮、相關(guān)樣本的求和和對每個子帶的新的比例因子進行計算。在再現(xiàn)層中的所有處理必需實時地操作以把平滑且連續(xù)的壓縮音頻數(shù)據(jù)流傳送到解碼系統(tǒng)。管線接收在播放中的聲音對象的列表,且從每個對象之內(nèi)修改聲音的方向。每個管線設(shè)計成能根據(jù)混頻系數(shù)和混合單個揚聲器聲道的輸出流來處理聲頻分量。輸出流被分組并多路轉(zhuǎn)換成統(tǒng)一的輸出比特流。
更具體地說,再現(xiàn)處理通過將每一分量的比例因子拆包和解壓縮進入在幀到幀基中的存儲器(步驟56),或每次變更多幀而開始(見圖7)。在這個階段中,如果那個分量或分量的一部分僅需評價每個子帶的比例因子信息,將在再現(xiàn)流中聽到。由于使用固定長度代碼,故可僅需拆包和解壓縮含有比例因子的部分幀,從而減少處理器應(yīng)用。對單指令多數(shù)據(jù)流(SIMD)的性能原因而言,每個7比特比例因子值以字節(jié)的形式存儲在存儲空間中,且與32字節(jié)的地址界對齊以確保超高速緩存行讀取將在一次高速緩存填充操作中獲得所有的比例因子和不引起高速緩存存儲器的污染。為了進一步加速此操作,比例因子可按字節(jié)存儲在聲源素材中并編制成可出現(xiàn)在32字節(jié)的地址界存儲器中。
三維參數(shù)57由三維位置,音量,混頻和均衡所提供并相組合以確定用于修改所提取的比例因子(步驟58)的每個子帶的修改陣列。因為在子帶域均衡中表示的每個分量是可通過比例因子如同需要地調(diào)節(jié)子帶系數(shù)的普通的操作。
在步驟60中,管線中的所有單元索引的最大的比例因子被定位和存儲到輸出陣列,該陣列可適當(dāng)定位在存儲器空間內(nèi)。這個信息被用于決定混頻某些帶分量的需要。
此時,在步驟62中,與另外的管線聲音對象進行掩蔽比較以從揚聲器管線(細(xì)節(jié)見圖8和9)中除去聽不見的子帶。掩蔽比較更適于獨立地處理每一子帶來提高速度,且以目錄所引用的對象的比例因子為基礎(chǔ)的。管線僅包含來自單個揚聲器的可聽到的信息。如果輸出的比例因子低于人類聽覺的閥值,那么輸出的比例因子可能被設(shè)置為零,并且此種做法除去了混頻相應(yīng)子帶分量的需要。互動式DTS優(yōu)于PCM時域音頻操作之處在于允許游戲編程員利用更多的分量和依靠掩蔽例行程序來提取和混頻只是任何給定時間的可聽到的聲音而無需額外的計算。
一旦識別了所需的子帶,音頻幀被進一步拆包和解壓縮來提取僅為可聽到的子帶數(shù)據(jù)(步驟64),它以左移的DWORD的格式存儲在存儲器中(見圖10a~10c)。在整個描述中,DWORD被假設(shè)為沒有32字節(jié)的一般性丟失。在游戲環(huán)境中,對使用FLCs而丟失的壓縮所付出的代價遠(yuǎn)大于通過減少所需子帶數(shù)據(jù)拆包和解壓縮的計算數(shù)量所作出補償?shù)拇鷥r。這一過程通過使用所有分量和聲道的單個預(yù)定的比特分配表而進一步簡化。FLCs使讀取位置的隨機定位到分量的任一子帶處。
在步驟66中,相位定位濾波被應(yīng)用于帶1和帶2的子帶數(shù)據(jù)。濾波器具有特定的相位特性并且只需在200Hz~1200Hz的頻率范圍內(nèi)應(yīng)用,這一范圍是人的耳朵對位置暗示信號最敏感的區(qū)域。由于相位位置計算僅應(yīng)用于子帶32起初的兩個帶,所以計算數(shù)量大約是所需的一個同等時域操作數(shù)量的十六分之一。如果無需側(cè)向定位或視計算系統(tǒng)開銷過度,那么就可以忽略相位的修改。
在步驟68中,子帶數(shù)據(jù)由將其相乘以相應(yīng)經(jīng)修改比例因子數(shù)據(jù),并將其與管線中(見圖11)的另一些符合條件的子帶分量的按比例的子帶產(chǎn)品相加起來而混頻的。按長步正規(guī)乘法由比特分配所支配,并且它借助預(yù)定的比特分配表來避免,對于所有分量是同樣的。找出最大比例因子的索引并分成(或被乘以倒數(shù))混頻結(jié)果。逆運算的除法和乘法在算術(shù)上是相等的,但是乘法運算是一個更快的數(shù)量級。當(dāng)混頻的結(jié)果超過一個DWORD中的存儲的值時會發(fā)生溢出。嘗試將浮點字以整數(shù)存儲而創(chuàng)建了一個俘獲和用來糾正應(yīng)用于受影響的子帶的比例因子的異常?;祛l處理后,數(shù)據(jù)被存儲在左移位形式中。
匯編和排列輸出數(shù)據(jù)幀如圖4所示,控制器70匯編輸出幀72并將它們列隊來向環(huán)繞聲解碼器傳送。如果解碼器可以與重復(fù)同步標(biāo)記或植入在數(shù)據(jù)流中的同步碼對齊,那么解碼器將僅產(chǎn)生有效的輸出。通過S/PDIF數(shù)據(jù)流傳送編碼數(shù)字音頻只是傳統(tǒng)IEC958標(biāo)準(zhǔn)的修改,且不準(zhǔn)備等同的編碼音頻格式。多格式解碼器必需先通過可靠檢測并行同步字來確定數(shù)據(jù)格式,然后建立一個適合的解碼方式。同步條件的丟失會導(dǎo)致音頻重放中的間斷,此時,解碼器減低它的輸出信號聲音并尋求編碼音頻格式的重建。
控制器70預(yù)備了一個零輸出模板74,該模板包括代表“靜寂”的壓縮音頻。在當(dāng)前較佳的實施例中,在從幀到幀的標(biāo)題信息中不存在差異,只是比例因子和子帶數(shù)據(jù)區(qū)需要更新。模板標(biāo)題攜帶不改變有關(guān)比特流分配格式的信息和側(cè)向信息,可用以對信息進行解碼和拆包。
同時,聲音再現(xiàn)產(chǎn)生聲音對象目錄,并使它們變換揚聲器的位置。在變換數(shù)據(jù)中,可聽到的子帶數(shù)據(jù)由如上所述的管線82進行混頻。由管線82所產(chǎn)生的多聲道子帶數(shù)據(jù)根據(jù)預(yù)定的比特分配表被壓縮(步驟78)到FLCs。管線平行構(gòu)成,且每個管線到特定的揚聲器聲道。
國際電信同盟(ITU)的推薦書BS.775-1中認(rèn)為用于多聲道聲音傳送,HDTV,DVD和其他數(shù)字音頻應(yīng)用程序中的雙聲道聲音系統(tǒng)是有局限性的。該同盟建議同兩個后置/側(cè)向揚聲器組合的三個前置揚聲器與星群狀恒定的距離布置在聽眾的周圍。在采用改進的ITU揚聲器排列的情況下,左環(huán)繞聲道和右環(huán)繞聲道可通過整個壓縮音頻幀的數(shù)量得以延遲84。
分組交換86分組比例因子和子帶數(shù)據(jù)(步驟88)并將分組的數(shù)據(jù)遞送到控制器70。當(dāng)輸出流中每個聲道的比特分配表預(yù)定時,幀溢出的可能性被消除?;邮礁袷降腄TS不受比特速率的限制且能夠應(yīng)用更為簡單和快速的線性解碼技術(shù)和塊解碼技術(shù)。
為了保持解碼器同步,控制器70要確定是否準(zhǔn)備輸出包裝數(shù)據(jù)的下一幀(步驟92)。如果回答為是的,控制器70將包裝數(shù)據(jù)(比例因子和子帶數(shù)據(jù))寫在先前的輸出幀72上(步驟94)并將其列隊(步驟96)。如果回答為否,控制器70輸出零輸出模板74。以這種方式傳送壓縮的靜寂保證了無干擾地向解碼器輸出幀而保持同步。
換句話說,控制器70提供了一個數(shù)據(jù)泵處理,該處理的功能是通過輸出裝置和在輸出流中不介入間斷和縫隙來管理無縫隙產(chǎn)生的編碼音頻幀緩沖區(qū)。數(shù)據(jù)泵處理使最近完成的輸出的音頻緩沖區(qū)排隊。當(dāng)緩沖區(qū)完成輸出,它回到輸出緩沖區(qū)隊列位置并標(biāo)記為空。這一標(biāo)記為空的階段允許混頻處理以識別數(shù)據(jù)和把數(shù)據(jù)復(fù)制到不使用的緩沖區(qū)中,同時,隊列中的下一緩沖區(qū)是輸出,而余下的緩沖區(qū)等待輸出。為了準(zhǔn)備好數(shù)據(jù)泵處理,隊列目錄必需首先設(shè)置有零音頻緩沖事件。不管是否編碼或初始化緩沖區(qū)內(nèi)容應(yīng)表示靜寂或其他聽不到或預(yù)期的信號。隊列中緩沖區(qū)的數(shù)量和每個緩沖區(qū)的大小會影響用戶輸入的應(yīng)答時間。為了保持等待時間少和提供更真實感的互動式體驗,輸出隊列在深度上限于兩個緩沖區(qū),而每個緩沖區(qū)的大小由目的解碼器和用戶可接受的等待時間所允許的最大幀的大小所決定。
音頻質(zhì)量可相對用戶等待時間折衷選擇。小的幀長由標(biāo)題信息的重復(fù)傳送來加載,它減少了可用來編碼音頻數(shù)據(jù)的比特數(shù),因而可降低音頻再現(xiàn)而大幀長受家庭影劇院解碼器中的本地數(shù)字信號處理器(DSP)存儲器可用性限制,從而增加了用戶等待時間。由于同取樣率相結(jié)合,兩個量確定了用于更新壓縮音頻輸出緩沖區(qū)最大的刷新間隔。在DTS交互系統(tǒng)中,這是用于刷新聲音定位和提供實時交互性幻想的時基。在此系統(tǒng)中,輸出幀的大小設(shè)定為4096字節(jié),以此提供最小化的標(biāo)題大小,用于編輯和循環(huán)創(chuàng)建的良好的時間分辨率以及低的響應(yīng)用戶的等待時間。具代表性的是,幀大小為4096字節(jié)的等待時間為69ms~92ms,幀大小為2048字節(jié)的等待時間為34ms~46ms。在每一幀時間,計算相對于聽眾位置的有效的聲音的距離和角度,且將這一信息用于再現(xiàn)個別聲音。舉例來說,基于樣本率31Hz~47Hz之間的刷新率能適用于4096字節(jié)的幀大小。
循環(huán)壓縮的音頻循環(huán)是標(biāo)準(zhǔn)的游戲技術(shù),該技術(shù)中,同樣的聲音比特不定地被循環(huán)以創(chuàng)建所需的音響效果。例如,可儲存和循環(huán)少量直升機聲音的幀,以便只要游戲需要就產(chǎn)生直升機的音響效果。在時域中,如果開始和結(jié)束的振幅是互補的話,那么在聲音的結(jié)束和開始位置之間的轉(zhuǎn)換區(qū)期間就聽不到卡拉聲和失真聲。同樣的技術(shù)在壓縮音頻域中不起作用。
壓縮音頻包含在數(shù)據(jù)的信息包中,數(shù)據(jù)則由固定的PCM樣本的幀來編碼,并進一步通過壓縮音頻幀對先前處理的音頻的互相依賴關(guān)系而復(fù)雜化。在DTS環(huán)繞聲解碼器中重構(gòu)的濾波器延遲了輸出音頻,使得第一音頻樣本因重建濾波器的特性而會呈現(xiàn)低級的瞬態(tài)特性。
如圖5所示,在DTS交互系統(tǒng)中所執(zhí)行的循環(huán)解決方法是脫機完成的以準(zhǔn)備將音頻分量存儲到壓縮格式中,該格式與在互動式游戲環(huán)境中的實時循環(huán)執(zhí)行相兼容。循環(huán)解決方法的第一步要求循環(huán)序列的PCM數(shù)據(jù)是首先被緊縮或及時擴張以精確地配合由整個的壓縮音頻幀數(shù)量確定的邊界內(nèi)(步驟100)。編碼數(shù)據(jù)是代表來自每個編碼幀的固定量的音頻樣本。在DTS系統(tǒng)中,樣本持續(xù)時間是1024樣本的倍數(shù)。首先,至少N個未經(jīng)壓縮的“引出”音頻的幀是從文件末端讀出(步驟102),且臨時地添加到循環(huán)段的開始(步驟104)。在本實施例中,N的值為1,但可以使用任何足夠大的值來覆蓋依賴于先前幀的重構(gòu)濾波器。編碼后(步驟106),從開始的編碼比特流中刪除N個壓縮幀來產(chǎn)生壓縮音頻循環(huán)序列(步驟108)。這個處理保證了在關(guān)閉幀期間居于重構(gòu)綜合濾波器內(nèi)的這些值是確保與起始幀無縫隙連接的必需值一致,這樣做可防止聽見卡拉聲和失真聲。在循環(huán)重放中,讀取指針直接回到無誤重放的循環(huán)序列的開始處。
DTS互動式幀格式DTS互動式幀72由按圖6所示的數(shù)據(jù)排列組成。標(biāo)題110描述了內(nèi)容的格式,子帶的數(shù)量,聲道的格式,采樣頻率以及需要解碼音頻有效載荷的表(以DTS標(biāo)準(zhǔn)定義)。這一區(qū)域也包含同步字來識別標(biāo)題的開始并提供用拆包的編碼的流的對齊。
緊隨標(biāo)題,比特分配區(qū)112識別哪些子帶出現(xiàn)在幀內(nèi),同時伴隨著每個子帶樣本的顯示分配多少比特。比特分配表中的零輸入表示相關(guān)的子帶沒有出現(xiàn)在幀中。比特分配從分量到分量,聲道到聲道,幀到幀并對混頻速度的每個子帶都加以固定。固定的比特分配通過DTS交互系統(tǒng)采用并除掉所需的檢查,存儲和操作比特分配表以及在拆包階段消除比特寬度的恒定檢查。比如,以下的比特分配適于使用{15,10,9,8,8,8,7,7,7,6,6,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5}。
比例因子區(qū)114識別每個子帶的比例因子,如32-子帶。比例因子數(shù)據(jù)隨相應(yīng)的子帶數(shù)據(jù)一起從幀到幀變化。
最后,子帶數(shù)據(jù)區(qū)116包括所有的量化子帶數(shù)據(jù)。如圖7所示,子帶數(shù)據(jù)的每個幀由每個子帶32樣本形成,組織成大小為8的四個向量118a-118d。子帶樣本可以用線性代碼或塊代碼表示。線性代碼首先是跟隨樣本數(shù)據(jù)的符號比特開始的,而塊代碼是含有符號的子帶樣本有效地編碼組開始的。比特分配112和比例因子114以及子帶數(shù)據(jù)116的排列成行也作了描述。
壓縮音頻子帶域混頻如前所述,DTS互動式地將音頻分量混頻到壓縮格式中,比如,子帶數(shù)據(jù),這種格式勝于典型的PCM格式且有利于實現(xiàn)驚人的計算,靈活性以及保真度。這些好處通過丟棄那些在兩個階段中聽眾所聽不到的子帶而實現(xiàn)。首先,基于含有特殊音頻分量頻率內(nèi)容的先驗信息,游戲編程員可以丟棄含有微小或無用信息的較上(高頻)子帶。這是通過在存儲音頻分量前設(shè)置較上帶比特分配為零來脫機完成的。
特別是,48.0kHz,44.1kHz和32.0kHz的樣本率在音頻中頻繁出現(xiàn),但提供高保真全帶寬音頻的較高樣本率需要耗費存儲器成本。如果素材包含具有諸如語音的極少高頻,那么這么做會浪費資源。較低樣本率可能更適于某些素材,但問題是出現(xiàn)了不同樣本率的混頻。游戲音頻經(jīng)常采用22.050kHz的取樣率作為在音頻質(zhì)量與存儲器要求之間的良好折衷。在DTS交互系統(tǒng)中,早期所提及的所有素材以最高支持的樣本率處編碼,而沒有完全占用全音頻頻譜的素材以如下方式處理。試圖將在所述11.025kHz編碼所的素材在44.1kHz處取樣且丟棄描述高頻內(nèi)容的子帶較高的75%的內(nèi)容。結(jié)果是,與其他較高保真信號保持兼容性和簡化混頻的編碼文件仍然允許縮小的文件大小。很明顯,這個原則可通過丟棄子帶較高的50%而拓展實現(xiàn)22.050kHz的取樣。
其次,DTS互動式地拆包比例因子(步驟120)并將它們用于簡化音質(zhì)評價分析(見圖9),以此來決定由變換功能選擇的音頻分量(步驟54)是在各個子帶中可以聽到的(步驟124)。標(biāo)準(zhǔn)的音質(zhì)評價分析要考慮到執(zhí)行鄰近子帶來實現(xiàn)邊緣更佳特性但是將會犧牲速度。此后,音頻再現(xiàn)僅拆包和解壓縮這些可聽到的子帶(步驟126)。再現(xiàn)將子帶域中每個子帶的子帶數(shù)據(jù)混頻(步驟128),且如圖4(項84)所示將其再壓縮和格式化以適于分組。
這個處理的計算優(yōu)點的實現(xiàn)是來自拆包,解壓縮,混頻,再壓縮和僅分組這些可聽到的子帶。類似地,由于混頻處理自動丟棄所有聽不到的數(shù)據(jù),因而游戲編程員獲得更大的靈活性來用更大量的音頻分量創(chuàng)建更豐富的音響環(huán)境而不會提高噪音基底的量化。這些在實時互動式環(huán)境中都是非常重要的優(yōu)點,在此環(huán)境中,起決定作用的是聽眾等待時間,而目標(biāo)是富有高保真臨場感的音頻環(huán)境。
音質(zhì)評價掩蔽效應(yīng)音質(zhì)評價測量用于決定可感知的不相關(guān)信息,這些信息被定義為那些人類無法聽到的部分音頻信號,且該信息可在時域、子帶域、或其他某些基中測量到的。兩個主要因子影響到音質(zhì)評價的測量。一個是由人類可適用的絕對聽覺閥值所決定的頻率。另一個是一個聲音同時播放或甚至在第一個聲音播放后能夠讓人聽到第二個聲音的掩蔽效應(yīng)。換句話說,在同一或鄰近子帶中的第一個聲音阻止我們聽到第二個聲音,就被稱為聲音掩蔽。
在子帶的編碼器中,音質(zhì)評價計算的最終結(jié)果是每個子帶在按瞬間指定聽不到的噪聲級的一組數(shù)字。這個計算為人所共知且體現(xiàn)在MPEG1的壓縮標(biāo)準(zhǔn)ISO/IEC DIS 11172“信息技術(shù)一電影圖象編碼和用于數(shù)字化存儲媒體達到1.5Mbits/s的相關(guān)音頻,”1992之中。這些數(shù)字隨著聲頻信號而動態(tài)變化。編碼器試圖通過比特分配處理來調(diào)節(jié)子帶中噪音基底的量化,所以,在這些子帶中量化噪聲是低于可聽到的聲級。
互動式DTS一般通過禁止子帶之間相關(guān)性來簡化正常的音質(zhì)評價的掩蔽操作。在最終分析中,來自比例因子的子帶內(nèi)掩蔽效應(yīng)的計算將識別在每個子帶內(nèi)的可聽到的分量,從子帶到子帶可能相同,亦可能不同。全音質(zhì)評價分析可在某些子帶中提供更多的分量并完全丟棄其他的子帶,最可能的是較高的子帶。
如圖9所示,音質(zhì)評價掩蔽功能檢查對象目錄并提取供給分量流每個子帶的最大化的修改比例因子(步驟130)。這個信息作為出現(xiàn)在對象目錄中最響聲信號的基準(zhǔn)輸入到掩蔽功能。最大化比例因子作為基礎(chǔ)直接到量化器,用于將混頻結(jié)果編碼到DTS壓縮音頻格式中。
至于DTS域濾波,時域信號是無效的,所以掩蔽閥值估計是來自于DTS信號中的子帶樣本。來自最大化比例因子和人類聽覺響應(yīng)的每個子帶所計算(步驟132)的掩蔽閥值。每個子帶的比例因與那個帶(步驟136)的掩蔽閥值相比較,如果發(fā)現(xiàn)低于那個帶所設(shè)定的掩蔽閥值,那么認(rèn)為該子帶是聽不到的并從混頻處理中移除(步驟138),相反,那么認(rèn)為該子帶是可聽到的并保留在混頻處理中(步驟140)。當(dāng)前的處理僅考慮在相同子帶中的掩蔽效應(yīng)而忽視了鄰近子帶的效應(yīng)。雖然這樣稍微減低了性能,但這種處理更為簡便,且比在互動式實時環(huán)境中所要求的速度更快。
比特操作如上所述,互動式DTS設(shè)計成減少為音頻信號混頻和再現(xiàn)所需要的計算量。顯著的成就表現(xiàn)在使數(shù)據(jù)量最少化,這些數(shù)據(jù)因此必需被拆包和重分組,因為這些被解壓縮/再壓縮的操作是計算上的強項??陕牭降淖訋?shù)據(jù)仍必需被拆包,解壓縮,混頻,壓縮和再分組。因此,互動式DTS也提供了一個處理數(shù)據(jù)的不同的方法,該方法如圖10a-10c所示減少了拆包和分組數(shù)據(jù)的計算量并且如圖11所示混頻子帶數(shù)據(jù)。
數(shù)字環(huán)繞聲系統(tǒng)利用可變長度位字段典型編碼比特流為使壓縮最佳化。拆包處理的一個重要因素是可變長度位字段的帶符號提取。由于執(zhí)行這個例行程序的頻率,拆包過程是加強的。例如,要提取N位字段,32位(DWORD)數(shù)據(jù)起先左移而把符號位定位在最左側(cè)的位字段內(nèi)。接著,該數(shù)值用二的冪相除,或通過(32-N)比特位置右移來引入符號擴展。大量的移位操作占用有限的時間來執(zhí)行,不幸的是在當(dāng)前所生產(chǎn)的奔騰處理器中不能和其他的指令并行或管線地執(zhí)行。
DTS利用比例因子涉及比特寬度大小的事實進行互動,并實現(xiàn)了提供忽略最終右移操作的可能性,該可能性實現(xiàn)的條件是a)因此比例因子在其位置被處理和b)代表子帶數(shù)據(jù)比特數(shù)是充足的,由(32-N)最右位表現(xiàn)的“噪聲”低于重建信號噪音層基底。雖然N可能只是少量比特,但是它僅典型發(fā)生在較高噪音基底的較上子帶中。在提供超高壓縮率的VLC系統(tǒng)中,噪音基底能夠被超越。
如圖10a所示,典型的幀包括子帶數(shù)據(jù)區(qū)140,它包含N位子帶數(shù)據(jù)142每個塊,其中,允許N穿越子帶變化而不是樣本。如圖10b所示,音頻再現(xiàn)提取子帶數(shù)據(jù)區(qū)并將其存儲在本地存儲器中,在如典型的32位字144中,第一位是符號位146而下一個的31位是數(shù)據(jù)位。
如圖10c所示,音頻再現(xiàn)把移位的子帶數(shù)據(jù)142向左,因此使其符號位和符號位146對齊。由于所有的數(shù)據(jù)都是以FLCs存儲而不是以VLCs存儲,因而變成了一項煩瑣的操作。音頻再現(xiàn)不右移數(shù)據(jù)。而是,比例因子以2升為(32-N)的冪除它們來預(yù)比例和存儲,并且,32-N最右位148是處理為聽不到的噪音。換句話說,與比例因子一位右移相結(jié)合的子帶數(shù)據(jù)一位左移不改變乘積值。解碼器也能夠利用同樣的技術(shù)。
在總和所有混頻乘積和量化之后,識別這些數(shù)值是簡單的事情,由于固定存儲限制而溢出。與不是由左移操作所處理的子帶數(shù)據(jù)的系統(tǒng)相比,它提供了極優(yōu)越的檢測速度。
當(dāng)重新分組數(shù)據(jù)時,再現(xiàn)的音頻簡單地從每個32位字抓住最左N位,因而避免了32-N左移操作。(32-N)右移和左移操作的避免可視作為有些無關(guān)緊要,但是執(zhí)行拆包和分組例行程序的頻率非常高,以致它在計算中代表重要的簡化。
混頻子帶數(shù)據(jù)如圖11所示,混頻處理開始,且可聽到的子帶數(shù)據(jù)通過相應(yīng)的比例因子成倍增加,它用于位置,均衡,相位定位等的調(diào)節(jié)(步驟150),并且將總和加到管線中其他符合條件的項目的相應(yīng)子帶乘積(步驟152)。在給定的子帶中的每個分量的位數(shù)是相同的,可以忽略步長因子從而節(jié)約計算。查出索引最大化比例因子(步驟154)并倒數(shù)是通過混頻結(jié)果成倍增加(步驟156)。
當(dāng)混頻結(jié)果超過了一個DWORD所存儲的值時會發(fā)生溢出(步驟158)。試圖將浮點字作為整數(shù)存儲造成了例外,它被俘獲和使用糾正用于所有受影響子帶的比例因子。如果發(fā)生例外,最大化比例因子增加(步驟160),且子帶數(shù)據(jù)重新計算(步驟156)。將最大化比例因子用作始點,這是最好的,在守恒側(cè)差錯和增加比例因子而不是降低信號的動態(tài)范圍?;祛l處理之后,數(shù)據(jù)通過比例因子的修正存儲在左移格式中,用于再壓縮和分組。
當(dāng)示出本發(fā)明幾個說明性和描述性的實施例時,對本技術(shù)領(lǐng)域的技術(shù)人員可以作出大量修改和可變的實施例。例如,將兩個5.1聲道的信號混頻和交錯在一起產(chǎn)生一個10.2聲道的信號用于真實感的三維臨場感和增加高度維數(shù)。在另一個每次替換一個幀的處理組合中,音頻再現(xiàn)可把幀的大小降低一半且每次處理兩個幀。通過降低一半可以減少等待時間,但是在重復(fù)標(biāo)題信息上所浪費的一些位是原先的兩倍。但在專用的系統(tǒng)中,可以消除大量的標(biāo)題信息。這些修改和可變的實施例是可預(yù)見的,而且其制定不違背本發(fā)明所附權(quán)利要求書所定義的精神和范圍。
權(quán)利要求
1.一種多聲道互動式音頻系統(tǒng),其特征在于,包含存儲器,用于存儲許多音頻分量作為輸入數(shù)據(jù)幀(72)的隊列,每一所述的輸入數(shù)據(jù)幀包括子帶數(shù)據(jù)(55,116)及其被壓縮和分組的比例因子(114);人工輸入裝置(HID)(36,38),用于接收來自用戶的輸入;應(yīng)用程序編程接口(API)(42),產(chǎn)生與用戶輸入響應(yīng)的音頻分量目錄;以及音頻再現(xiàn)器(44),它用于拆包和解壓縮每一聲道的音頻分量的子帶數(shù)據(jù)和比例因子;計算混頻子帶數(shù)據(jù)的比例因子;將音頻分量的子帶數(shù)據(jù)混頻到每一聲道的子帶域中;壓縮每個聲道的混頻子帶數(shù)據(jù)及其比例因子;將聲道的壓縮子帶數(shù)據(jù)和比例因子分組并多路傳輸?shù)捷敵鰩?;以及將輸出幀置于隊列中用于向解碼器傳送。
2.如權(quán)利要求1所述的多聲道互動式音頻系統(tǒng),其特征在于,音頻再現(xiàn)器僅混頻被認(rèn)為是用戶可聽到的子帶數(shù)據(jù)。
3.如權(quán)利要求2所述的多聲道互動式音頻系統(tǒng),其特征在于,音頻再現(xiàn)器通過使用列表的音頻分量比例因子來計算子帶內(nèi)掩蔽效應(yīng)和丟棄每個子帶聽不到的音頻分量以決定哪些子帶是用戶可聽到的。
4.如權(quán)利要求3所述的多聲道互動式音頻系統(tǒng),其特征在于,音頻再現(xiàn)器首先拆包和解壓縮(56)音頻分量比例因子,決定可聽到的子帶,然后僅拆包和解壓縮(64)可聽到的子帶中的子帶數(shù)據(jù)。
5.如權(quán)利要求4所述的多聲道互動式音頻系統(tǒng),其特征在于,音頻再現(xiàn)器a.以左移格式將拆包和解壓縮的子帶數(shù)據(jù)存儲(64)在存儲器中,其中,N-位子帶數(shù)據(jù)的符號位與M-位格式的符號位對齊,而且M-N極右位表示低于噪音基底的噪聲;b.對于每個子帶,將可聽到的子帶數(shù)據(jù)乘以(68)它們各自的比例因子并將它們相加在一起得出總和;c.對于每個子帶,將所述總和乘以可聽到的子帶數(shù)據(jù)中最大比例因子的倒數(shù)來產(chǎn)生混頻子帶數(shù)據(jù);d.如果混頻的子帶數(shù)據(jù)溢出格式,使最大比例因子增加到下一個最大值,并重復(fù)步驟c。
6.如權(quán)利要求1所述的多聲道互動式音頻系統(tǒng),其特征在于,輸入數(shù)據(jù)幀還包括從幀到幀固定的標(biāo)題(10)和比特分配表(112),因而僅改變了比例因子和子帶數(shù)據(jù)。
7.如權(quán)利要求6所述的多聲道互動式音頻系統(tǒng),其特征在于,用固定長度代碼對壓縮的子帶數(shù)據(jù)編碼。
8.如權(quán)利要求7所述的多聲道互動式音頻系統(tǒng),其特征在于,音頻再現(xiàn)其拆包N-位子帶數(shù)據(jù)的每一塊,其中N穿越子帶變化如下a.利用FLCs和固定的比特分配來計算輸入音頻幀中子帶數(shù)據(jù)的位置,提取子帶數(shù)據(jù)并將其作為M-位字存儲在存儲器中,其中極左位是符號位;以及b.將子帶數(shù)據(jù)左移直至它的符號位與M-位字的符號位對齊為止,保留在所述M-位字中的極右M-N位作為噪音。
9.如權(quán)利要求8所述的多聲道互動式音頻系統(tǒng),其特征在于,音頻再現(xiàn)器對固定標(biāo)題和比特分配表硬編碼,使得音頻再現(xiàn)器僅處理比例因子和子帶數(shù)據(jù)而提高了速度。
10.如權(quán)利要求1所述的多聲道互動式音頻系統(tǒng),其特征在于,音頻再現(xiàn)器與提供音頻分量均衡性的應(yīng)用程序連接,所述音頻再現(xiàn)器通過修改它的比例因子而均衡每個所述音頻分量。
11.如權(quán)利要求1所述的多聲道互動式音頻系統(tǒng),其特征在于,音頻再現(xiàn)器與提供音頻分量側(cè)向定位的應(yīng)用程序連接,所述音頻再現(xiàn)器通過對橫跨200Hz~1200Hz的子帶數(shù)據(jù)施加相位定位濾波器,而側(cè)向定位音頻分量。
12.如權(quán)利要求1所述的多聲道互動式音頻系統(tǒng),其特征在于,輸入和輸出幀還包括標(biāo)題(110)和比特分配表(112),音頻再現(xiàn)器提供了輸出幀的無縫隙產(chǎn)生來維持同步解碼器,它是通過a.將零輸出模板(74)置于包括標(biāo)題、比特分配表、以及代表聽不到信號的子帶數(shù)據(jù)和比例因子的隊列中;b.如果混頻子帶數(shù)據(jù)和比例因子的下一幀已準(zhǔn)備好,那么將混頻子帶數(shù)據(jù)和比例因子寫在先前的輸出幀上并傳送輸出幀,以及c.如果下一幀沒有準(zhǔn)備好,則傳送零輸出模板。
13.如權(quán)利要求1所述的多聲道互動式音頻系統(tǒng),其特征在于,所述解碼器是一個數(shù)字環(huán)繞聲解碼器,它能解碼多聲道音頻,所述音頻再現(xiàn)器傳送所述輸出幀的序列,該序列提供了與多聲道音頻相同格式的實時互動式多聲道音頻。
14.如權(quán)利要求13所述的多聲道互動式音頻系統(tǒng),其特征在于,它還包含單個限帶寬連接器,所述音頻再現(xiàn)器響應(yīng)用戶輸入實時地傳送輸出幀作為在數(shù)字環(huán)繞聲解碼器(12)的單個限帶寬連接器上統(tǒng)一和壓縮的比特流,它將比特流解碼成帶寬超出單個限帶寬連接器的互動式多聲道音頻。
15.如權(quán)利要求1所述的多聲道互動式音頻系統(tǒng),其特征在于,它還包含單個限帶寬連接器,所述音頻再現(xiàn)器響應(yīng)用戶輸入實時地傳送輸出幀作為在解碼器的單個限帶寬連接器上的統(tǒng)一和壓縮的比特流,它將比特流解碼成帶寬超出單個限帶寬連接器的多聲道音頻。
16.如權(quán)利要求1所述的多聲道互動式音頻系統(tǒng),其特征在于,一個或多個音頻分量具有包含開始輸入幀和關(guān)閉輸入幀的循環(huán)數(shù)據(jù),其子帶數(shù)據(jù)被預(yù)處理以確保同開始幀無縫隙的并置。
17.一種多聲道互動式音頻系統(tǒng),其特征在于,包含存儲器,用于存儲大量音頻分量作為在比特流中輸入數(shù)據(jù)幀的序列,以固定長度代碼(FLCs)對比特流編碼,所述每個輸入數(shù)據(jù)幀包括標(biāo)題(110),比特分配表(112),子帶數(shù)據(jù)(116)以及已壓縮和分組的比例因子(114),所述標(biāo)題和比特分配表從分量到分量、聲道到聲道、幀到幀固定;人工輸入裝置(HID)(36,38),用于接收用戶的輸入;應(yīng)用程序編程接口(API)(42)產(chǎn)生與用戶輸入響應(yīng)的音頻分量目錄;以及音頻再現(xiàn)器(44),它對固定標(biāo)題和比特分配表硬編碼,從而對每個聲道音頻分量的比例因子(114)拆包和解壓縮;對混頻的子帶數(shù)據(jù)計算比例因子;使用比例因子來決定可聽到的子帶數(shù)據(jù);僅拆包和解壓縮可聽到的子帶數(shù)據(jù);將每個聲道可聽到的子帶數(shù)據(jù)混頻到子帶域中;壓縮每個聲道的混頻子帶數(shù)據(jù)和它們的比例因子;將聲道的壓縮子帶數(shù)據(jù)和比例因子分組并多路傳送到輸出幀;以及將輸出幀置于隊列中用于向解碼器傳送。
18.如權(quán)利要求17所述的多聲道互動式音頻系統(tǒng),其特征在于,音頻再現(xiàn)器拆包N-位可聽到子帶數(shù)據(jù)的每一塊,其中N穿越子帶的變化如下a.利用FLCs和固定的比特分配來計算在輸入音頻幀中可聽到子帶數(shù)據(jù)的位置,提取可聽到的子帶數(shù)據(jù)并將其以M-位字的形式存儲在存儲器中,其中極左位是符號位;以及b.將可聽到的子帶數(shù)據(jù)左移直至它的符號位與M-位字的符號位對齊為止,保留在所述M-位字中的極右M-N位作為噪音。
19.如權(quán)利要求17所述的多聲道互動式音頻系統(tǒng),其特征在于,解碼器是能解碼多聲道音頻的數(shù)字環(huán)繞聲解碼器(10,12,16)。
20.如權(quán)利要求17所述的多聲道互動式音頻系統(tǒng),其特征在于,音頻再現(xiàn)產(chǎn)生輸出幀無縫隙的序列,它通過a.將零輸出模板置于包括標(biāo)題、比特分配表、以及代表聽不到信號的子帶數(shù)據(jù)和比例因子的隊列中,用于傳送到解碼器;b.如果混頻子帶數(shù)據(jù)和比例因子的下一幀已準(zhǔn)備好,那么將混頻子帶數(shù)據(jù)和比例因子寫在先前的輸出幀上并傳送輸出幀,以及c.如果下一幀沒有準(zhǔn)備好,則傳送零輸出模板。
21.一種多聲道互動式音頻系統(tǒng),其特征在于,包含存儲器,用于存儲大量音頻分量作為輸入數(shù)據(jù)幀(72)的序列,所述每個輸入數(shù)據(jù)幀包括標(biāo)題(110),比特分配表(112),和已壓縮和分組的音頻數(shù)據(jù)(116);人工輸入裝置(HID)(36,38),用于接收來自用戶的輸入;應(yīng)用程序編程接口(API)(42)產(chǎn)生與用戶輸入響應(yīng)的音頻分量目錄;以及音頻再現(xiàn)器(44),產(chǎn)生輸出幀的無縫隙序列,它是通過a.將零輸出模板(74)置于包括標(biāo)題、比特分配表、以及代表聽不到信號的子帶數(shù)據(jù)和比例因子(114)的隊列中,用于向解碼器傳送;b.同時拆包和解壓縮每個聲道的音頻分量數(shù)據(jù),并混頻每個聲道的音頻分量數(shù)據(jù),計算混頻數(shù)據(jù)的比例因子,壓縮每個聲道的混頻數(shù)據(jù),并分組和多路傳送聲道的壓縮數(shù)據(jù);c.如果混頻的子帶數(shù)據(jù)的下一幀已準(zhǔn)備好,那么將混頻的數(shù)據(jù)寫在先前的輸出幀上并傳送輸出幀,以及d.如果下一幀沒有準(zhǔn)備好,則傳送零輸出模板。
22.如權(quán)利要求21所述的多聲道互動式音頻系統(tǒng),其特征在于,解碼器是能解碼多聲道音頻的數(shù)字環(huán)繞聲解碼器(10,12,16)。
23.如權(quán)利要求21所述的多聲道互動式音頻系統(tǒng),其特征在于,音頻數(shù)據(jù)包含子帶數(shù)據(jù)及它的比例因子,音頻再現(xiàn)器僅混頻被認(rèn)為是用戶可聽到的子帶數(shù)據(jù)。
24.如權(quán)利要求23所述的多聲道互動式音頻系統(tǒng),其特征在于,音頻再現(xiàn)器通過使用列表的音頻分量比例因子來計算子帶內(nèi)掩蔽效應(yīng)并丟棄每個子帶聽不到的音頻分量以決定哪些子帶是用戶可聽到的。
25.如權(quán)利要求24所述的多聲道互動式音頻系統(tǒng),其特征在于,音頻再現(xiàn)器首先拆包和解壓縮音頻分量的比例因子,決定可聽到的子帶,然后僅拆包和解壓縮在可聽到的子帶中的子帶數(shù)據(jù)。
26.一種多聲道互動式音頻系統(tǒng),其特征在于,包含存儲器,用于存儲大量音頻分量作為輸入數(shù)據(jù)幀(72)的序列,所述每個輸入數(shù)據(jù)幀包括標(biāo)題(110),比特分配表(112),子帶數(shù)據(jù)(116),和已壓縮和分組的它們的比例因子(114);人工輸入裝置(HID)(36,38)用于接收用戶的輸入;應(yīng)用程序編程接口(API)(42),產(chǎn)生與用戶輸入響應(yīng)的音頻分量目錄并計算將目錄中的每個音頻分量變換到數(shù)字環(huán)繞聲環(huán)境中每個聲道的變換系數(shù);音頻再現(xiàn)器(44),它用于對每個聲道音頻分量的子帶數(shù)據(jù)和比例因子拆包和解壓縮;計算混頻的子帶數(shù)據(jù)的比例因子;將每個聲道音頻分量的子帶數(shù)據(jù)混頻到子帶域中;壓縮每個聲道的混頻的子帶數(shù)據(jù)及其比例因子;將聲道的壓縮子帶數(shù)據(jù)和比例因子分組并多路傳送到輸出幀;以及將輸出幀置于隊列中;以及數(shù)字環(huán)繞聲解碼器,解碼輸出幀以產(chǎn)生多聲道音頻,所述輸出幀具有與現(xiàn)存的預(yù)錄音多聲道數(shù)字音頻相同的格式。
27.一種多聲道互動式音頻系統(tǒng),其特征在于,包含人工輸入裝置(HID)(36,38),接收用戶的輸入;控制臺,包含存儲器,用于存儲大量音頻分量作為輸入數(shù)據(jù)幀(72)的序列,每個所述的輸入數(shù)據(jù)幀包括子帶數(shù)據(jù)(116)及其已壓縮和分組的比例因子(114);應(yīng)用程序編程接口(API)(42),產(chǎn)生與用戶輸入響應(yīng)的音頻分量目錄;以及音頻再現(xiàn)(44),它用于對每個聲道音頻分量的子帶數(shù)據(jù)和比例因子拆包和解壓縮;計算混頻子帶數(shù)據(jù)的比例因子;將每個聲道音頻分量的子帶數(shù)據(jù)混頻到子帶域中;壓縮每個聲道的混頻的子帶數(shù)據(jù)及它們的比例因子;將聲道的壓縮子帶數(shù)據(jù)和比例因子分組并多路傳送到輸出幀中;以及將輸出幀置于壓縮音頻數(shù)據(jù)作為無縫隙統(tǒng)一比特流輸出的隊列中;數(shù)字解碼器(10,12,16),將比特流解碼成多聲道音頻信號;以及單個限帶寬連接器,將比特流傳遞到解碼器。
28.一種準(zhǔn)備PCM音頻數(shù)據(jù)的方法,該音頻數(shù)據(jù)以與循環(huán)相兼容的壓縮格式存儲,其特征在于,所述PCM音頻數(shù)據(jù)是被存儲在文件中,而且壓縮格式包括壓縮音頻幀的序列,該方法包含以下步驟a.及時緊縮和擴大PCM音頻數(shù)據(jù),與壓縮音頻幀的整數(shù)所限定的邊界配合,以形成循環(huán)段;b.附加從文件末端到循環(huán)段開始的N幀PCM音頻數(shù)據(jù);c.將循環(huán)段編碼成比特流;d.從編碼比特流的開始刪除N壓縮幀,以產(chǎn)生壓縮的音頻循環(huán)序列,其中循環(huán)序列的關(guān)閉幀中的壓縮音頻數(shù)據(jù)確保了與循環(huán)期間開始幀的無縫隙并置。
29.一種再現(xiàn)多聲道音頻的方法,其特征在于,包含以下步驟a.存儲大量音頻分量作為輸入數(shù)據(jù)幀(72)的序列,所述每個輸入數(shù)據(jù)幀包括子帶數(shù)據(jù)(116),經(jīng)壓縮和分組的比例因子(114);b.為了與用戶的輸入響應(yīng),產(chǎn)生了音頻分量的目錄;c.對每個聲道的子帶數(shù)據(jù)和比例因子拆包和解壓縮;d.計算混頻子帶數(shù)據(jù)的比例因子;e.混頻每個聲道的子帶數(shù)據(jù);f.壓縮混頻子帶數(shù)據(jù)及其比例因子;g.將聲道的壓縮子帶數(shù)據(jù)和比例因子分組并多路傳送到輸出幀;以及h.將輸出幀置于隊列中用于向解碼器傳送;
30.如權(quán)利要求29所述的方法,其特征在于,拆包和解壓縮子帶數(shù)據(jù)包含僅拆包和解壓縮比例因子;使用比例因子來決定哪些是可聽到的子帶;僅拆包和解壓縮可聽到的子帶數(shù)據(jù)。
31.如權(quán)利要求30所述的方法,其特征在于,還包含通過對橫跨約200Hz~1200Hz的子帶數(shù)據(jù)施加相位定位濾波器,側(cè)向定位音頻分量。
32.如權(quán)利要求29所述的方法,其特征在于,還包含a.將零輸出模板(74)置于隊列,用于傳送到解碼器,隊列包括標(biāo)題(110),比特分配表(112),以及表示聽不到信號的子帶數(shù)據(jù)(116)和比例因子(114);b.如果混頻子帶數(shù)據(jù)和比例因子的下一幀已準(zhǔn)備好,那么將混頻子帶數(shù)據(jù)和比例因子寫在先前的輸出幀上并傳送輸出幀,以及c.如果下一幀沒有準(zhǔn)備好,則傳送零輸出模板。
全文摘要
互動式數(shù)字影劇院系統(tǒng)(DTS)提供了適用于三維游戲和其他高保真音頻應(yīng)用程序的低成本、全互動式臨場感數(shù)字化環(huán)繞聲頻環(huán)境,它配置為保持與數(shù)字環(huán)繞聲解碼器現(xiàn)有的基礎(chǔ)結(jié)構(gòu)相兼容的形式。音頻分量通過壓縮和簡化的格式存儲和混頻以減少存儲器的需求和處理器的利用,且在不降低音質(zhì)的情況下增加可混頻的分量數(shù)目。該技術(shù)還提供了用于“循環(huán)”壓縮的音頻,該壓縮音頻在操作脈碼調(diào)制(PCM)音頻的游戲應(yīng)用程序中具有一個重要和標(biāo)準(zhǔn)的特征。此外,解碼器同步通過“靜寂”幀的傳送加以確保,此時,歸因于處理等待時間或游戲應(yīng)用程序的混頻的音頻不會出現(xiàn)。
文檔編號H04S5/02GK1411679SQ00817336
公開日2003年4月16日 申請日期2000年11月2日 優(yōu)先權(quán)日1999年11月2日
發(fā)明者S·K·馬克多韋爾 申請人:數(shù)字劇場系統(tǒng)股份有限公司