用于在空間音頻對象編碼中適配音頻信息的設(shè)備和方法
【專利說明】用于在空間音頻對象編碼中適配音頻信息的設(shè)備和方法
[0001] 本發(fā)明涉及音頻信號解碼和音頻信號處理,更具體地,涉及用于在空間音頻對象 編碼(SAOC)中將音頻信息進(jìn)行適配的解碼器和方法。
[0002] 在現(xiàn)代數(shù)字音頻系統(tǒng)中,允許在接收方側(cè)對所傳輸?shù)膬?nèi)容進(jìn)行與音頻對象相關(guān)的 修改是主要趨勢。這些修改包括對在經(jīng)由空間分布的揚(yáng)聲器進(jìn)行多聲道回放的情況下對專 用音頻對象的空間重定位和/或音頻信號的所選擇的部分的增益修改。這可以通過單獨(dú)地 將音頻內(nèi)容的不同部分遞送到不同的揚(yáng)聲器來實現(xiàn)。
[0003] 換言之,在音頻處理、音頻傳輸以及音頻存儲領(lǐng)域中,越來越期望允許對面向?qū)ο?的音頻內(nèi)容回放進(jìn)行用戶交互,并且還需要利用多聲道回放的擴(kuò)展的可能性以單獨(dú)地呈現(xiàn) 音頻內(nèi)容或者部分音頻內(nèi)容,以便改進(jìn)聽覺感受。由此,多聲道音頻內(nèi)容的使用為用戶帶來 顯著的改進(jìn)。例如,可以獲得三維聽覺感受,這在娛樂應(yīng)用中帶來改進(jìn)的用戶滿意度。然而, 多聲道音頻內(nèi)容在專業(yè)環(huán)境中例如電話會議應(yīng)用中也是有用的,因為可以通過使用多聲道 音頻回放來改進(jìn)講話者清晰度。另一可能的應(yīng)用是給音樂作品的聽者提供不同部分(也稱 為"音頻對象")或音軌如人聲部分或者不同樂器的單獨(dú)調(diào)整回放級別和/或空間位置。用 戶可以為了個人品味、為了從音樂作品中更容易地改編一個或更多個部分、為了教學(xué)目的、 卡拉0K、排練等原因而進(jìn)行這種調(diào)整。
[0004] 對如以脈沖編碼調(diào)制(PCM)數(shù)據(jù)或者甚至是壓縮音頻格式的形式的全數(shù)字多聲 道或多對象音頻內(nèi)容的直接的分離傳輸要求非常高的比特率。然而,以高比特率效率的方 式來傳輸和存儲音頻數(shù)據(jù)也是理想的。因此,為了避免由多聲道/多對象應(yīng)用導(dǎo)致的過度 資源負(fù)荷,人們樂于在音頻質(zhì)量與比特率要求之間接受合理的折衷。
[0005] 近來,在音頻編碼領(lǐng)域中,由如運(yùn)動圖像專家組(MPEG)等提出了用于對多聲道/ 多對象音頻信號的比特率效率的傳輸/存儲的參數(shù)化技術(shù)。一個示例是作為面向聲道的方 法[MPS、BCC]的MPEG環(huán)繞聲(MPS),或者作為面向?qū)ο蟮姆椒╗JSC、SAOC、SAOCl、SAOC2]的 MPEG空間音頻對象編碼(SAOC)。另一種面向?qū)ο蟮姆椒ǚQ為"通知源分離" [ISS1、ISS2、 ISS3、ISS4、ISS5、ISS6]。這些技術(shù)旨在音頻場景中基于對聲道/對象以及附加的輔助信 息的縮混來重現(xiàn)期望的輸出音頻場景或者期望的音頻源對象,其中輔助信息描述所傳輸?shù)?/存儲的音頻場景和/或音頻源對象。
[0006] 對這樣的系統(tǒng)中的與聲道/對象相關(guān)的輔助信息的估計和應(yīng)用以時間-頻率選擇 方式來完成。因此,這樣的系統(tǒng)采用時間-頻率變換如離散傅里葉變換(DFT)、短時傅里葉 變換(STFT)或者濾波器組如正交鏡像濾波器(QMF)組等。在圖3中,使用MPEGSAOC為例 來描繪這樣的系統(tǒng)的基本原理。
[0007] 在STFT的情況下,時間維度由時間塊編號來表示,而頻譜維度由頻譜系數(shù)("格子 (bin)")的編號來獲得。在QMF的情況下,時間維度由時隙編號來表示,而頻譜維度由子頻 帶編號來獲得。如果QMF的頻譜分辨率由隨后應(yīng)用第二濾波器階段來改進(jìn),則整個濾波器 組稱為混合QMF,并且高分辨率子頻帶稱為混合子頻帶。
[0008] 如上所述,如圖3所示,在SAOC中,通常以時間-頻率選擇方式來進(jìn)行處理,并且 在每個頻帶內(nèi)可以被描述如下:
[0009]-使用由元素dN,P構(gòu)成的縮混矩陣將N個輸入音頻對象信號ssN混縮成 P個聲道Xl~xP以作為編碼器處理的一部分,另外,編碼器對描述輸入音頻對象的特性的輔 助信息(輔助信息估計器(SIE)模塊)進(jìn)行提取。對于MPEGSAOC,關(guān)于彼此的對象能量的 關(guān)系是這種輔助信息的最基本的形式。
[0010] - 一個或更多個縮混信號和輔助信息被傳輸/存儲。為此,可以如使用眾所周知的 感知音頻編碼器如MPEG-l/2LayerII或者III(aka. mp3)、MPEG-2/4增強(qiáng)音頻編碼(AAC) 等來將一個或更多個縮混音頻信號進(jìn)行壓縮。
[0011] -在接收端,解碼器概念上試圖使用所傳輸?shù)妮o助信息來從(經(jīng)解碼的)縮混信號 中恢復(fù)原始的對象信號("對象分離")。然后,在圖3中,使用由系數(shù)! 1,1-1*"描述的呈現(xiàn) 矩陣來將這些近似的對象信號A...知混音成由M個音頻輸出聲道f/ ... 表示的目標(biāo) 場景。在極端情況下,期望的目標(biāo)場景可以是從混合音中僅呈現(xiàn)出一個源信號(源分離情 景),但是也可以是由所傳輸?shù)膶ο髽?gòu)成的任何其他任意聲學(xué)場景。例如,輸出可以是單聲 道、2聲道立體聲或者5. 1多聲道目標(biāo)場景。
[0012] 圖6示意性地描繪了音頻編碼/解碼方案的原理。具體而言,圖6是音頻編碼/ 解碼鏈的原理描述。
[0013] 在編碼側(cè),音頻信號通過音頻編碼方案(通常利用感知效果)進(jìn)行壓縮,并且計算 了參數(shù)化輔助信息(PSI)(參見編碼器601)。得到的由編碼的音頻信號和PSI構(gòu)成的比特 流被存儲(或者被傳輸)到解碼器側(cè),在解碼器側(cè),圖6中標(biāo)為等的各種解碼器實 例620、621、622可以將該比特流解碼。這些解碼器實例可以彼此不同(如在標(biāo)準(zhǔn)規(guī)格、應(yīng) 用或者實現(xiàn)限制等中的不同復(fù)雜度級別)[SAOC、SAOC1、SAOC2]。
[0014]目前的技術(shù)水平的編碼方案不能以有效的方式使PSI適應(yīng)特定目標(biāo)應(yīng)用情景或 者平臺。這可能導(dǎo)致解碼器側(cè)處的計算復(fù)雜度更高(高于必要的計算復(fù)雜度)或者可能造 成兼容問題。
[0015] 本發(fā)明的目的是為音頻對象編碼提供改進(jìn)的構(gòu)思。本發(fā)明的目的通過以下來解 決:由根據(jù)權(quán)利要求1的解碼器、由根據(jù)權(quán)利要求14的用于編碼的方法以及由根據(jù)權(quán)利要 求15的計算機(jī)程序。
[0016] 提供了一種用于將編碼了一個或更多個音頻對象的輸入音頻信息進(jìn)行適配以獲 得經(jīng)適配的音頻信息的設(shè)備。輸入音頻信息包括兩個或更多個輸入音頻縮混聲道并且進(jìn)一 步包括輸入?yún)?shù)化輔助信息。經(jīng)適配的音頻信息包括一個或更多個經(jīng)適配的音頻縮混聲道 并且進(jìn)一步包括經(jīng)適配的參數(shù)化輔助信息。
[0017] 該設(shè)備包括縮混信號修改器,用于取決于適配信息而將兩個或更多個輸入音頻縮 混聲道進(jìn)行適配以獲得一個或更多個經(jīng)適配的音頻縮混聲道。
[0018] 而且,該設(shè)備包括參數(shù)化輔助信息適配器,用于取決于適配信息而將輸入?yún)?shù)化 輔助信息進(jìn)行適配以獲得經(jīng)適配的參數(shù)化輔助信息。
[0019] 根據(jù)實施方式,縮混信號修改器可以配置成取決于適配信息而將兩個或更多個輸 入音頻縮混聲道進(jìn)行適配,使得一個或更多個經(jīng)適配的音頻縮混聲道的數(shù)目小于兩個或更 多個輸入音頻縮混聲道的數(shù)目。
[0020] 在實施方式中,適配信息可以取決于解碼器實例??s混信號修改器可以配置成取 決于解碼器實例而將兩個或更多個輸入音頻縮混聲道進(jìn)行適配。在此處以及在下文中,術(shù) 語"解碼器"和"解碼器實例"具有相同的含義。
[0021] 根據(jù)實施方式,解碼器實例最多能夠?qū)⒆畲髷?shù)目個縮混聲道進(jìn)行解碼。適配信息 可以取決于縮混聲道的所述最大數(shù)目。而且,縮混信號修改器可以配置成取決于適配信息 而將兩個或更多個輸入音頻縮混聲道進(jìn)行適配以獲得一個或更多個經(jīng)適配的音頻縮混聲 道,使得一個或更多個經(jīng)適配的縮混聲道的數(shù)目等于縮混聲道的所述最大數(shù)目。
[0022] 根據(jù)實施方式,適配信息可以包括適配矩陣()。
[0023] 在實施方式中,縮混信號修改器可以配置成取決于適配矩陣(Dff)而將兩個 或更多個輸入音頻縮混聲道< >進(jìn)行適配以獲得一個或更多個經(jīng)適配的音頻縮混聲 道(X=)。
[0024] 根據(jù)實施方式,縮混信號修改器可以配置成取決于適配矩陣Dff來將兩個或更 多個輸入音頻縮混聲道X=進(jìn)行適配以通過應(yīng)用下式來獲得一個或更多個經(jīng)適配的音頻 縮混聲道xZf: I^zDSM nDSM ^rENC
[0025] \imx =D^7, 〇
[0026] 在實施方式中,參數(shù)化輔助信息適配器可以配置成取決于適配矩陣(Dff)而 將輸入?yún)?shù)化輔助信息(Dff)進(jìn)行適配以獲得經(jīng)適配的參數(shù)化輔助信息(h
[0027] 根據(jù)實施方式,參數(shù)化輔助信息適配