用于在空間音頻對象編碼中適配音頻信息的設(shè)備和方法

文檔序號：8385999閱讀：702來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于在空間音頻對象編碼中適配音頻信息的設(shè)備和方法
【專利說明】用于在空間音頻對象編碼中適配音頻信息的設(shè)備和方法
[0001] 本發(fā)明涉及音頻信號解碼和音頻信號處理，更具體地，涉及用于在空間音頻對象編碼（SAOC)中將音頻信息進(jìn)行適配的解碼器和方法。
[0002] 在現(xiàn)代數(shù)字音頻系統(tǒng)中，允許在接收方側(cè)對所傳輸?shù)膬?nèi)容進(jìn)行與音頻對象相關(guān)的修改是主要趨勢。這些修改包括對在經(jīng)由空間分布的揚(yáng)聲器進(jìn)行多聲道回放的情況下對專用音頻對象的空間重定位和/或音頻信號的所選擇的部分的增益修改。這可以通過單獨(dú)地將音頻內(nèi)容的不同部分遞送到不同的揚(yáng)聲器來實現(xiàn)。
[0003] 換言之，在音頻處理、音頻傳輸以及音頻存儲領(lǐng)域中，越來越期望允許對面向?qū)ο?的音頻內(nèi)容回放進(jìn)行用戶交互，并且還需要利用多聲道回放的擴(kuò)展的可能性以單獨(dú)地呈現(xiàn) 音頻內(nèi)容或者部分音頻內(nèi)容，以便改進(jìn)聽覺感受。由此，多聲道音頻內(nèi)容的使用為用戶帶來顯著的改進(jìn)。例如，可以獲得三維聽覺感受，這在娛樂應(yīng)用中帶來改進(jìn)的用戶滿意度。然而，多聲道音頻內(nèi)容在專業(yè)環(huán)境中例如電話會議應(yīng)用中也是有用的，因為可以通過使用多聲道音頻回放來改進(jìn)講話者清晰度。另一可能的應(yīng)用是給音樂作品的聽者提供不同部分（也稱為"音頻對象"）或音軌如人聲部分或者不同樂器的單獨(dú)調(diào)整回放級別和/或空間位置。用戶可以為了個人品味、為了從音樂作品中更容易地改編一個或更多個部分、為了教學(xué)目的、卡拉0K、排練等原因而進(jìn)行這種調(diào)整。
[0004] 對如以脈沖編碼調(diào)制（PCM)數(shù)據(jù)或者甚至是壓縮音頻格式的形式的全數(shù)字多聲道或多對象音頻內(nèi)容的直接的分離傳輸要求非常高的比特率。然而，以高比特率效率的方式來傳輸和存儲音頻數(shù)據(jù)也是理想的。因此，為了避免由多聲道/多對象應(yīng)用導(dǎo)致的過度資源負(fù)荷，人們樂于在音頻質(zhì)量與比特率要求之間接受合理的折衷。
[0005] 近來，在音頻編碼領(lǐng)域中，由如運(yùn)動圖像專家組（MPEG)等提出了用于對多聲道/ 多對象音頻信號的比特率效率的傳輸/存儲的參數(shù)化技術(shù)。一個示例是作為面向聲道的方法[MPS、BCC]的MPEG環(huán)繞聲（MPS)，或者作為面向?qū)ο蟮姆椒╗JSC、SAOC、SAOCl、SAOC2]的 MPEG空間音頻對象編碼（SAOC)。另一種面向?qū)ο蟮姆椒ǚQ為"通知源分離" [ISS1、ISS2、 ISS3、ISS4、ISS5、ISS6]。這些技術(shù)旨在音頻場景中基于對聲道/對象以及附加的輔助信息的縮混來重現(xiàn)期望的輸出音頻場景或者期望的音頻源對象，其中輔助信息描述所傳輸?shù)?/存儲的音頻場景和/或音頻源對象。
[0006] 對這樣的系統(tǒng)中的與聲道/對象相關(guān)的輔助信息的估計和應(yīng)用以時間-頻率選擇方式來完成。因此，這樣的系統(tǒng)采用時間-頻率變換如離散傅里葉變換（DFT)、短時傅里葉變換（STFT)或者濾波器組如正交鏡像濾波器（QMF)組等。在圖3中，使用MPEGSAOC為例來描繪這樣的系統(tǒng)的基本原理。
[0007] 在STFT的情況下，時間維度由時間塊編號來表示，而頻譜維度由頻譜系數(shù)（"格子 (bin)"）的編號來獲得。在QMF的情況下，時間維度由時隙編號來表示，而頻譜維度由子頻帶編號來獲得。如果QMF的頻譜分辨率由隨后應(yīng)用第二濾波器階段來改進(jìn)，則整個濾波器組稱為混合QMF，并且高分辨率子頻帶稱為混合子頻帶。
[0008] 如上所述，如圖3所示，在SAOC中，通常以時間-頻率選擇方式來進(jìn)行處理，并且在每個頻帶內(nèi)可以被描述如下：
[0009]-使用由元素dN，P構(gòu)成的縮混矩陣將N個輸入音頻對象信號ssN混縮成 P個聲道Xl~xP以作為編碼器處理的一部分，另外，編碼器對描述輸入音頻對象的特性的輔助信息（輔助信息估計器（SIE)模塊）進(jìn)行提取。對于MPEGSAOC，關(guān)于彼此的對象能量的關(guān)系是這種輔助信息的最基本的形式。
[0010] - 一個或更多個縮混信號和輔助信息被傳輸/存儲。為此，可以如使用眾所周知的感知音頻編碼器如MPEG-l/2LayerII或者III(aka. mp3)、MPEG-2/4增強(qiáng)音頻編碼（AAC) 等來將一個或更多個縮混音頻信號進(jìn)行壓縮。
[0011] -在接收端，解碼器概念上試圖使用所傳輸?shù)妮o助信息來從（經(jīng)解碼的）縮混信號中恢復(fù)原始的對象信號（"對象分離")。然后，在圖3中，使用由系數(shù)! 1，1-1*"描述的呈現(xiàn) 矩陣來將這些近似的對象信號A...知混音成由M個音頻輸出聲道f/ ... 表示的目標(biāo) 場景。在極端情況下，期望的目標(biāo)場景可以是從混合音中僅呈現(xiàn)出一個源信號（源分離情景），但是也可以是由所傳輸?shù)膶ο髽?gòu)成的任何其他任意聲學(xué)場景。例如，輸出可以是單聲道、2聲道立體聲或者5. 1多聲道目標(biāo)場景。
[0012] 圖6示意性地描繪了音頻編碼/解碼方案的原理。具體而言，圖6是音頻編碼/ 解碼鏈的原理描述。
[0013] 在編碼側(cè)，音頻信號通過音頻編碼方案（通常利用感知效果）進(jìn)行壓縮，并且計算了參數(shù)化輔助信息（PSI)(參見編碼器601)。得到的由編碼的音頻信號和PSI構(gòu)成的比特流被存儲（或者被傳輸）到解碼器側(cè)，在解碼器側(cè)，圖6中標(biāo)為等的各種解碼器實例620、621、622可以將該比特流解碼。這些解碼器實例可以彼此不同（如在標(biāo)準(zhǔn)規(guī)格、應(yīng) 用或者實現(xiàn)限制等中的不同復(fù)雜度級別）[SAOC、SAOC1、SAOC2]。
[0014]目前的技術(shù)水平的編碼方案不能以有效的方式使PSI適應(yīng)特定目標(biāo)應(yīng)用情景或者平臺。這可能導(dǎo)致解碼器側(cè)處的計算復(fù)雜度更高（高于必要的計算復(fù)雜度）或者可能造成兼容問題。
[0015] 本發(fā)明的目的是為音頻對象編碼提供改進(jìn)的構(gòu)思。本發(fā)明的目的通過以下來解決：由根據(jù)權(quán)利要求1的解碼器、由根據(jù)權(quán)利要求14的用于編碼的方法以及由根據(jù)權(quán)利要求15的計算機(jī)程序。
[0016] 提供了一種用于將編碼了一個或更多個音頻對象的輸入音頻信息進(jìn)行適配以獲得經(jīng)適配的音頻信息的設(shè)備。輸入音頻信息包括兩個或更多個輸入音頻縮混聲道并且進(jìn)一步包括輸入?yún)?shù)化輔助信息。經(jīng)適配的音頻信息包括一個或更多個經(jīng)適配的音頻縮混聲道并且進(jìn)一步包括經(jīng)適配的參數(shù)化輔助信息。
[0017] 該設(shè)備包括縮混信號修改器，用于取決于適配信息而將兩個或更多個輸入音頻縮混聲道進(jìn)行適配以獲得一個或更多個經(jīng)適配的音頻縮混聲道。
[0018] 而且，該設(shè)備包括參數(shù)化輔助信息適配器，用于取決于適配信息而將輸入?yún)?shù)化輔助信息進(jìn)行適配以獲得經(jīng)適配的參數(shù)化輔助信息。
[0019] 根據(jù)實施方式，縮混信號修改器可以配置成取決于適配信息而將兩個或更多個輸入音頻縮混聲道進(jìn)行適配，使得一個或更多個經(jīng)適配的音頻縮混聲道的數(shù)目小于兩個或更多個輸入音頻縮混聲道的數(shù)目。
[0020] 在實施方式中，適配信息可以取決于解碼器實例?？s混信號修改器可以配置成取決于解碼器實例而將兩個或更多個輸入音頻縮混聲道進(jìn)行適配。在此處以及在下文中，術(shù) 語"解碼器"和"解碼器實例"具有相同的含義。
[0021] 根據(jù)實施方式，解碼器實例最多能夠?qū)⒆畲髷?shù)目個縮混聲道進(jìn)行解碼。適配信息可以取決于縮混聲道的所述最大數(shù)目。而且，縮混信號修改器可以配置成取決于適配信息而將兩個或更多個輸入音頻縮混聲道進(jìn)行適配以獲得一個或更多個經(jīng)適配的音頻縮混聲道，使得一個或更多個經(jīng)適配的縮混聲道的數(shù)目等于縮混聲道的所述最大數(shù)目。
[0022] 根據(jù)實施方式，適配信息可以包括適配矩陣（)。
[0023] 在實施方式中，縮混信號修改器可以配置成取決于適配矩陣（Dff)而將兩個或更多個輸入音頻縮混聲道< >進(jìn)行適配以獲得一個或更多個經(jīng)適配的音頻縮混聲道(X=)。
[0024] 根據(jù)實施方式，縮混信號修改器可以配置成取決于適配矩陣Dff來將兩個或更多個輸入音頻縮混聲道X=進(jìn)行適配以通過應(yīng)用下式來獲得一個或更多個經(jīng)適配的音頻縮混聲道xZf: I^zDSM nDSM ^rENC
[0025] \imx =D^7, 〇
[0026] 在實施方式中，參數(shù)化輔助信息適配器可以配置成取決于適配矩陣（Dff)而將輸入?yún)?shù)化輔助信息（Dff)進(jìn)行適配以獲得經(jīng)適配的參數(shù)化輔助信息（h
[0027] 根據(jù)實施方式，參數(shù)化輔助信息適配

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3