本文中所公開的本發(fā)明總體上涉及音頻信號的編碼和解碼,特別地涉及基于相關聯(lián)的元數據來對下混信號的聲道進行混合。
背景技術:
包括多個擴音器的音頻回放系統(tǒng)常用于再現(xiàn)多聲道音頻信號表示的音頻場景,其中,多聲道音頻信號的各個聲道在各自的擴音器上被回放。多聲道音頻信號可能例如已經經由多個聲學換能器被錄制,或者可能已經由音頻創(chuàng)作設備產生。在許多情況下,用于將音頻信號發(fā)送到回放設備的帶寬是有限的,和/或計算機存儲器或便攜式存儲裝置中的用于存儲音頻信號的空間是有限的。存在用于對音頻信號進行參數化譯碼(coding)以便減小所需帶寬或儲存器的音頻譯碼系統(tǒng)。在編碼器端,這些系統(tǒng)通常將多聲道音頻信號下混為下混信號(其通常是單聲道(一聲道)或立體聲(兩聲道)下混),并且通過比如電平差和互相關性的參數來提取描述聲道的性質的副信息。下混和副信息然后被編碼并且被發(fā)送到解碼器端。在解碼器端,在副信息的參數的控制下從下混重構、即近似多聲道音頻信號。
鑒于可用于回放多聲道音頻內容的廣泛范圍的不同類型的裝置和系統(tǒng)(包括新興出現(xiàn)的針對終端用戶家用的部分),需要新的替代方式來對多聲道音頻內容進行高效編碼,以便減小帶寬要求和/或存儲所需的存儲器大小,有助于解碼器端的多聲道音頻信號的重構,和/或提高在解碼器端重構的多聲道音頻信號的保真度。還需要有助于編碼多聲道音頻內容在不同類型的揚聲器系統(tǒng)(包括具有比原始多聲道音頻內容中存在的聲道數量少的揚聲器的系統(tǒng))上的回放。
附圖說明
在下文中,將參照附圖來更詳細地描述示例實施例,其中:
圖1是根據示例實施例的用于將m聲道信號編碼為兩聲道下混信號和相關聯(lián)的元數據的編碼部分的廣義框圖;
圖2是根據示例實施例的包括圖1中所描繪的編碼部分的音頻編碼系統(tǒng)的廣義框圖;
圖3是根據示例實施例的用于將m聲道音頻信號編碼為兩聲道下混信號和相關聯(lián)的元數據的音頻編碼方法的流程圖;
圖4-6例示說明根據示例實施例的將11.1聲道(或7.1+4聲道或7.1.4聲道)音頻信號劃分為由相應下混聲道表示的多組聲道的替代方式;
圖7是根據示例實施例的用于基于兩聲道下混信號和相關聯(lián)的上混參數來提供兩聲道輸出信號的解碼部分的廣義框圖;
圖8是根據示例實施例的包括圖7中所描繪的解碼部分的音頻解碼系統(tǒng)的廣義框圖;
圖9是根據示例實施例的用于基于兩聲道下混信號和相關聯(lián)的混合參數來提供兩聲道輸出信號的解碼部分的廣義框圖;
圖10是根據示例實施例的用于基于兩聲道下混信號和相關聯(lián)的元數據來提供兩聲道輸出信號的音頻解碼方法的流程圖;
圖11示意性地例示說明根據示例實施例的計算機可讀介質;
圖12是根據示例實施例的用于基于兩聲道下混信號和相關聯(lián)的上混參數來提供k聲道輸出信號的解碼部分的廣義框圖;
圖13-14例示說明根據示例實施例的將11.1聲道(或7.1+4聲道或7.1.4聲道)音頻信號劃分為多組聲道的替代方式;以及
圖15-16例示說明根據示例實施例的將13.1聲道(或9.1+4聲道或9.1.4聲道)音頻信號劃分為多組聲道的替代方式。
所有的圖都是示意性的,并且一般僅示出為了闡明本發(fā)明所必需的部分,而其他部分則可以被省略或者僅被建議。
具體實施方式
如本文中所使用的,音頻信號可以是獨立的音頻信號、視聽信號或多媒體信號的音頻部分、或與元數據組合的這些中的任何一個。
如本文中所使用的,聲道是與預定義的/固定的空間位置/方位或未定義的空間位置(比如“左”或“右”)相關聯(lián)的音頻信號。
i.概述——解碼器端
根據第一方面,示例實施例提出了音頻解碼系統(tǒng)、音頻解碼方法以及相關聯(lián)的計算機程序產品。所提出的根據第一方面的解碼系統(tǒng)、方法和計算機程序產品一般可以共享相同的特征和優(yōu)點。
根據示例實施例,提供了一種包括接收兩聲道下混信號的音頻解碼方法。下混信號與元數據相關聯(lián),該元數據包括用于基于下混信號來參數化重構m聲道音頻信號的上混參數,其中,m≥4。下混信號的第一聲道對應于m聲道音頻信號的第一組一個或多個聲道的線性組合,下混信號的第二聲道對應于m聲道音頻信號的第二組一個或多個聲道的線性組合。第一組和第二組構成m聲道音頻信號的m個聲道的劃分。音頻解碼方法進一步包括:接收元數據的至少一部分;基于下混信號的至少一個聲道來產生去相關信號;基于接收的元數據來確定混合系數集合;并且根據混合系數按照下混信號和去相關信號的線性組合來形成兩聲道輸出信號?;旌舷禂当淮_定為使得輸出信號的第一聲道近似于m聲道音頻信號的第三組一個或多個聲道的線性組合,并且使得輸出信號的第二聲道近似于m聲道音頻信號的第四組一個或多個聲道的線性組合。混合系數還被確定為使得第三組和第四組構成m聲道音頻信號的m個聲道的劃分,并且使得第三組和第四組都包括第一組中的至少一個聲道。
m聲道音頻信號已經被編碼為兩聲道下混信號和用于參數化重構m聲道音頻信號的上混參數。當在編碼器端對m聲道音頻信號進行編碼時,可以選擇例如用于有助于從下混信號重構m聲道音頻信號、用于提高從下混信號重構的m聲道音頻信號的保真度、和/或用于提高下混信號的譯碼效率的譯碼格式??梢酝ㄟ^選擇第一組和第二組并且按照相應組中的聲道的相應線性組合形成下混信號的聲道來執(zhí)行該譯碼格式選擇。
發(fā)明人已經認識到,盡管所選譯碼格式可以有助于從下混信號重構m聲道音頻信號,但是下混信號本身可能不適合于使用特定的兩揚聲器配置進行回放。與m聲道音頻信號劃分為第三組和第四組的不同劃分相對應的輸出信號可能比下混信號更適合于特定的兩聲道回放設置?;谙禄煨盘柡徒邮盏脑獢祿峁┹敵鲂盘栆虼丝梢蕴岣呤章犝吒兄膬陕暤阑胤刨|量,和/或提高兩聲道回放對于由m聲道音頻信號表示的聲場的保真度。
發(fā)明人已經進一步認識到,代替首先從下混信號重構m聲道音頻信號、然后產生m聲道音頻信號的替代的兩聲道表示(例如,通過相加混合),由輸出信號提供的替代的兩聲道表示可以通過利用m聲道音頻信號的一些聲道在該兩個兩聲道表示中被類似地一起分組的事實從下混信號和接收的元數據更高效地產生。按照下混信號和去相關信號的線性組合形成輸出信號可以例如降低解碼器端的計算復雜度,和/或減少用于獲得m聲道音頻信號的替代的兩聲道表示的組件或處理步驟的數量。
下混信號的第一聲道可能例如已經例如在編碼器端被形成為第一組一個或多個聲道的線性組合。類似地,下混信號的第二聲道可能例如已經例如在編碼器端被形成為第二組一個或多個聲道的線性組合。
m聲道音頻信號的聲道可以例如形成共同表示聲場的更大量的聲道的子集。
將意識到,因為第三組和第四組都包括第一組中的至少一個聲道,所以第三組和第四組提供的劃分不同于第一組和第二組提供的劃分。
去相關信號用來增加收聽者感知的下混信號的音頻內容的維度。產生去相關信號可以例如包括將線性濾波器應用于下混信號的一個或多個聲道。
形成輸出信號可以例如包括:將混合系數中的至少一些應用于下混信號的聲道,并且將混合系數中的至少一些應用于去相關信號的一個或多個聲道。
在示例實施例中,接收的元數據可以包括上混參數,并且可以通過對上混參數進行處理、例如通過對上混參數執(zhí)行數學運算(例如,包括算術運算)來確定混合系數。上混參數通常已經在編碼器端被確定,并且與下混信號一起被提供以用于在解碼器端參數化重構m聲道音頻信號。上混參數攜帶關于m聲道音頻信號的信息,該信息可以用于基于下混信號來提供輸出信號。在解碼器端基于上混參數確定混合系數減少了對在編碼器端產生附加元數據的需要,并且使得可以減少從編碼器端發(fā)送的數據。
在示例實施例中,接收的元數據可以包括不同于上混參數的混合參數。在本示例實施例中,可以基于接收的元數據、從而基于混合參數來確定混合系數?;旌蠀悼赡芤呀浽诰幋a器端被確定,并且被發(fā)送到解碼器端以用于有助于混合系數的確定。而且,使用混合參數確定混合系數使得可以從編碼器端控制混合系數。因為原始m聲道音頻信號在編碼器端是可獲得的,所以混合參數可以例如在編碼器端被調諧以便提高作為m聲道音頻信號的兩聲道表示的兩聲道輸出信號的保真度?;旌蠀悼梢岳缡腔旌舷禂当旧恚蛘呋旌蠀悼梢蕴峁┗旌舷禂档母o湊的表示??梢岳缤ㄟ^例如根據預定義規(guī)則對混合參數進行處理來確定混合系數?;旌蠀悼梢岳绨ㄈ齻€可獨立賦值的參數。
在示例實施例中,可以獨立于上混參數的任何值確定混合系數,這使得可以獨立于上混參數對混合系數進行調諧,并且使得可以提高作為m聲道音頻信號的兩聲道表示的兩聲道輸出信號的保真度。
在示例實施例中,可以適用的是,m=5,即,m聲道音頻信號可以是五聲道音頻信號。本示例實施例的音頻解碼方法可以例如用于目前設立的5.1音頻格式之一的五個常規(guī)聲道,或者用于11.1多聲道音頻信號中的左手或右手側的五個聲道??商娲?,可以適用的是,m=4,或m≥6。
在示例實施例中,控制m聲道音頻信號的聲道對線性組合中的與下混信號的聲道相對應的一個線性組合的貢獻的每個增益可以與用于控制m聲道音頻信號的聲道對線性組合中的由輸出信號的聲道近似的一個線性組合的貢獻的增益是一致的。在本示例實施例中這些增益一致的事實使得可以簡化基于下混信號的輸出信號的提供。具體地說,可以減少用于基于下混信號來近似第三組和第四組的線性組合的去相關聲道的數量。
不同增益可以例如用于m聲道音頻信號的不同聲道。
在第一個例子中,所有增益都可以具有值1。在第一個例子中,下混信號的第一聲道和第二聲道可以分別對應于第一組和第二組的非加權和,并且輸出信號的第一聲道和第二聲道可以分別近似于第三組和第四組的非加權和。
在第二個例子中,增益中的至少一個可以具有不同于1的值。在第二個例子中,下混信號的第一聲道和第二聲道可以分別對應于第一組和第二組的加權和,并且輸出信號的第一聲道和第二聲道可以分別近似于第三組和第四組的加權和。
在示例實施例中,解碼方法可以進一步包括:接收表示下混信號和元數據的位流;并且從該位流提取下混信號和接收的元數據的部分。換句話說,接收的用于確定混合系數的元數據可能首先已經被從位流提取。包括上混參數的所有元數據可以例如被從位流提取。在替代例子中,只有確定混合系數所必需的元數據可以被從位流提取,并且進一步的元數據的提取可以例如被禁止。
在示例實施例中,去相關信號可以是單聲道信號,并且可以通過將至多一個的去相關信號聲道包括到下混信號和去相關信號的線性組合中、即包括到從其獲得輸出信號的線性組合中來形成輸出信號。發(fā)明人已經認識到,不需要為了提供兩聲道輸出信號而重構m聲道音頻信號,并且因為整個m聲道音頻信號不需要被重構,所以可以使去相關信號聲道的數量減少。
在示例實施例中,混合系數可以被確定為使得輸出信號的兩個聲道接收來自去相關信號的相等幅度(例如,相等振幅)的貢獻。去相關信號對輸出信號的相應聲道的貢獻可以具有相反的符號。換句話說,混合系數可以被確定為使得控制去相關信號的聲道對輸出信號的第一聲道的貢獻的混合系數和控制去相關信號的同一個聲道對輸出信號的第二聲道的貢獻的混合系數的和具有值0。
在本示例實施例中,來源于去相關信號的音頻內容(即,用于增加下混信號的維度的音頻內容)的量(例如,振幅)可以例如在輸出信號的兩個聲道中是相等的。
在示例實施例中,形成輸出信號可以相當于從三個聲道投射到兩個聲道,即,從下混信號的兩個聲道和一個去相關信號聲道投射到輸出信號的兩個聲道。例如,輸出信號可以作為下混信號和去相關信號的線性組合被直接獲得,而無需首先重構m聲道音頻信號的全部m個聲道。
在示例實施例中,混合系數可以被確定為使得控制下混信號的第一聲道對輸出信號的第一聲道的貢獻的混合系數和控制下混信號的第一聲道對輸出信號的第二聲道的貢獻的混合系數的和具有值1。具體地說,混合系數中的一個混合系數可以從上混參數推導得到(例如,如本公開的其他部分中所解釋的,被作為確切值發(fā)送,或者可以在對緊湊表示執(zhí)行計算之后從上混參數獲得),其他混合系數則可以通過要求兩個混合系數的和等于1來容易地計算得到。
另外地或可替代地,混合系數可以被確定為使得控制下混信號的第二聲道對輸出信號的第一聲道的貢獻的混合系數和控制下混信號的第二聲道對輸出信號的第二聲道的貢獻的混合系數的和具有值1。
在示例實施例中,第一組可以由兩個或三個聲道組成。下混信號的與兩個或三個聲道的線性組合相對應(而不是與四個或更多個聲道的線性組合相對應)的聲道可以增大由解碼器執(zhí)行所有m個聲道的參數化重構而重構的m聲道音頻信號的保真度。本示例實施例的解碼方法可以與這樣的譯碼格式兼容。
在示例實施例中,m聲道音頻信號可以包括表示m聲道音頻信號的回放環(huán)境中的不同水平方向的三個聲道、以及表示該回放環(huán)境中的與這三個聲道的方向垂直分離的方向的兩個聲道。換句話說,m聲道音頻信號可以包括意圖用于供位于與收聽者(或收聽者的耳朵)基本上相同高度處的音頻源回放的和/或基本上水平地傳播的三個聲道、以及意圖用于供位于其他高度處的音頻源回放的和/或(基本上)非水平地傳播的兩個聲道。這兩個聲道可以例如表示高架方向。
在示例實施例中,第一組可以由表示m聲道音頻信號的回放環(huán)境中的不同水平方向的三個聲道組成,第二組可以由表示回放環(huán)境中的與這三個聲道的方向垂直分離的方向的兩個聲道組成。本示例實施例中的由第一組和第二組提供的m聲道音頻信號的垂直劃分可以增大由解碼器執(zhí)行所有m個聲道的參數化重構而重構的m聲道音頻信號的保真度,例如,在垂直維度對于m聲道音頻信號表示的聲場的總體印象重要的情況下。本示例實施例的解碼方法可以與提供該垂直劃分的譯碼格式兼容。
在示例實施例中,第三組和第四組中的一組可以包括表示回放環(huán)境中的與所述三個聲道的方向垂直分離的方向的所述兩個聲道這兩者。可替代地,第三組和第四組均可以包括表示回放環(huán)境中的與所述三個聲道的方向垂直分離的方向的所述兩個聲道中的一個,即,第三組和第四組可以包括這兩個聲道中的各一個。
在示例實施例中,可以通過對下混信號的聲道的線性組合進行處理(例如,包括將線性濾波器應用于下混信號聲道的聲道的線性組合)來獲得去相關信號。可替代地,可以基于下混信號的聲道中的至多一個聲道、例如通過對下混信號的聲道進行處理(例如,包括應用線性濾波器)來獲得去相關信號。如果例如第二組聲道由單個聲道組成并且下混信號的第二聲道對應于該單個聲道,則可以例如通過僅對下混信號的第一聲道進行處理來獲得去相關信號。
在示例實施例中,第一組可以由n個聲道組成,其中,n≥3,并且第一組可以通過以下方式可重構為下混信號的第一聲道和(n-1)聲道去相關信號的線性組合,即,將第一類型的上混系數(在本文中被稱為干式上混系數)應用于下混信號的第一聲道,并且將第二類型的上混系數(在本文中被稱為濕式上混系數)應用于(n-1)聲道去相關信號的聲道。在本示例實施例中,接收的元數據可以包括第一類型的上混參數(在本文中被稱為干式上混參數)和第二類型的上混參數(在本文中被稱為濕式上混參數)。確定混合系數可以包括:基于干式上混參數來確定干式上混系數;基于接收的濕式上混參數并且在知道具有比接收的濕式上混參數的數量多的元素的中間矩陣屬于預定義矩陣類的情況下填充該中間矩陣;通過將中間矩陣乘以預定義矩陣來獲得濕式上混系數,其中,濕式上混系數對應于從該乘法得到的矩陣,并且包括比中間矩陣中的元素的數量多的系數;并且對干式上混系數和濕式上混系數進行處理。
在本示例實施例中,用于重構第一組聲道的濕式上混系數的數量大于接收的濕式上混參數的數量。通過利用預定義矩陣和預定義矩陣類的獲悉來從接收的濕式上混參數獲得濕式上混系數,可以使參數化重構第一組聲道所需的信息量減少,使得可以減少與下混信號一起從編碼器端發(fā)送的元數據的量。通過使參數化重構所需的數據量減少,可以減小發(fā)送m聲道音頻信號的參數化表示所需的帶寬和/或存儲這樣的表示所需的存儲器大小。
(n-1)聲道去相關信號可以基于下混信號的第一聲道而產生,并且用來增加收聽者感知的重構的第一組聲道的內容的維度。
預定義矩陣類可以與至少一些矩陣元素的對于該類中的所有矩陣都有效的已知性質(比如一些矩陣元素之間的某些關系、或一些矩陣元素為零)相關聯(lián)。這些性質的獲悉使得可以基于比中間矩陣中的矩陣元素的總數少的濕式上混參數來填充中間矩陣。解碼器端至少獲悉它基于較少的濕式上混參數計算所有矩陣元素所需的元素的性質以及這些元素之間的關系。
如何確定和利用預定義矩陣和預定義矩陣類在美國臨時專利申請no.61/974,544中第16頁第15行到第20頁第2行有更詳細的描述;該申請第一位指名的發(fā)明人:larsvillemoes;提交日:2014年4月3日。具體參見其中的關于預定義矩陣的例子的方程(9)。
在示例實施例中,接收的元數據可以包括n(n-1)/2個濕式上混參數。在本示例實施例中,填充中間矩陣可以包括基于接收的n(n-1)/2個濕式上混參數并且在知道中間矩陣屬于預定義矩陣類的情況下獲得(n-1)2個矩陣元素的值。這可以包括將濕式上混參數的值立即作為矩陣元素插入或者以適合的方式對濕式上混參數進行處理以推導得到矩陣元素的值。在本示例實施例中,預定義矩陣可以包括n(n-1)個元素,并且濕式上混系數集合可以包括n(n-1)個系數。例如,接收的元數據可以包括至多n(n-1)/2個的可獨立賦值的濕式上混參數,和/或濕式上混參數的數量可以不超過用于重構第一組聲道的濕式上混系數的數量的一半。
在示例實施例中,接收的元數據可以包括(n-1)個干式上混參數。在本示例實施例中,干式上混系數可以包括n個系數,并且可以基于接收的(n-1)個干式上混參數并且基于干式上混系數之間的預定義關系來確定干式上混系數。例如,接收的元數據可以包括至多(n-1)個的可獨立賦值的干式上混參數。
在示例實施例中,預定義矩陣類可以是以下中的一個:下三角或上三角矩陣,其中,該類中的所有矩陣的已知性質包括預定義矩陣元素為零;對稱矩陣,其中,該類中的所有矩陣的已知性質包括預定義矩陣元素(在主對角線的兩邊)是相等的;以及正交矩陣和對角矩陣的乘積,其中,該類中的所有矩陣的已知性質包括預定義矩陣元素之間的已知關系。換句話說,預定義矩陣類可以是下三角矩陣類、上三角矩陣類、對稱矩陣類、或正交矩陣和對角矩陣的乘積的類。上面的每個類的共同性質是其維度小于矩陣元素總數。
在示例實施例中,解碼方法可以進一步包括:接收指示m聲道音頻信號的至少兩種譯碼格式中的(所選的)一種譯碼格式的信令,譯碼格式對應于m聲道音頻信號的聲道劃分為與下混信號的聲道相關聯(lián)的相應第一組和第二組的相應不同劃分。在本示例實施例中,第三組和第四組可以是預定義的,并且混合系數可以被確定為使得m聲道音頻信號劃分為由輸出信號的聲道近似的第三組和第四組聲道的單個劃分對于所述至少兩種譯碼格式被保持(即,對于所述至少兩種譯碼格式是共同的)。
在本示例實施例中,可以例如基于指示的譯碼格式以及基于下混信號的至少一個聲道來確定去相關信號。
在本示例實施例中,所述至少兩種不同的譯碼格式可能已經在編碼器端在確定下混信號和元數據時被利用,并且解碼方法可以通過調整混合系數、可選地還調整去相關信號來對譯碼格式之間的差異進行處理。在檢測到從第一譯碼格式切換到第二譯碼格式的情況下,解碼方法可以例如包括執(zhí)行從與第一譯碼格式相關聯(lián)的混合參數到與第二譯碼格式相關聯(lián)的混合參數的插值。
在示例實施例中,解碼方法可以進一步包括:響應于指示特定譯碼格式的信令,使下混信號作為輸出信號通過。在本示例實施例中,特定譯碼格式可以對應于m聲道音頻信號的聲道的與第三組和第四組定義的劃分一致的劃分。在本示例實施例中,下混信號的聲道提供的劃分可以與輸出信號的聲道將提供的劃分一致,并且可能不需要對下混信號進行處理。下混信號因此可以被作為輸出信號通過。
在示例實施例中,解碼方法可以包括:響應于指示特定譯碼格式的信令,抑制去相關信號對輸出信號的貢獻。在本示例實施例中,特定譯碼格式可以對應于m聲道音頻信號的聲道的與第三組和第四組定義的劃分一致的劃分。在本示例實施例中,下混信號的聲道提供的劃分可以與輸出信號的聲道將提供的劃分一致,并且可能不需要去相關。
在示例實施例中,在第一譯碼格式中,第一組可以由表示m聲道音頻信號的回放環(huán)境中的不同水平方向的三個聲道組成,第二組聲道可以由表示回放環(huán)境中的與這三個聲道的方向垂直分離的方向的兩個聲道組成。在第二譯碼格式中,第一組和第二組均可以包括這兩個聲道中的一個。
根據示例實施例,提供了一種音頻解碼系統(tǒng),該音頻解碼系統(tǒng)包括被配置為接收兩聲道下混信號的解碼部分。下混信號與元數據相關聯(lián),該元數據包括用于基于下混信號來參數化重構m聲道音頻信號的上混參數,其中,m≥4。下混信號的第一聲道對應于m聲道音頻信號的第一組一個或多個聲道的線性組合,下混信號的第二聲道對應于m聲道音頻信號的第二組一個或多個聲道的線性組合。第一組和第二組構成m聲道音頻信號的m個聲道的劃分。解碼部分被進一步配置為:接收元數據的至少一部分;并且基于下混信號和接收的元數據來提供兩聲道輸出信號。解碼部分包括去相關部分,該去相關部分被配置為:接收下混信號的至少一個聲道,并且基于其來輸出去相關信號。解碼部分進一步包括混合部分,該混合部分被配置為:基于接收的元數據來確定混合系數集合;并且根據混合系數按照下混信號和去相關信號的線性組合來形成輸出信號?;旌喜糠直慌渲脼椋捍_定混合系數,以使得輸出信號的第一聲道近似于m聲道音頻信號的第三組一個或多個聲道的線性組合,并且使得輸出信號的第二聲道近似于m聲道音頻信號的第四組一個或多個聲道的線性組合。混合部分被進一步配置為:確定混合系數,以使得第三組和第四組構成m聲道音頻信號的m個聲道的劃分,并且使得第三組和第四組都包括第一組中的至少一個聲道。
在示例實施例中,音頻解碼系統(tǒng)可以進一步包括附加解碼部分,該附加解碼部分被配置為接收附加兩聲道下混信號。附加下混信號可以與附加元數據相關聯(lián),該附加元數據包括用于基于附加下混信號來參數化重構附加m聲道音頻信號的附加上混參數。附加下混信號的第一聲道可以對應于附加m聲道音頻信號的第一組一個或多個聲道的線性組合,附加下混信號的第二聲道可以對應于附加m聲道音頻信號的第二組一個或多個聲道的線性組合。附加m聲道音頻信號的第一組和第二組聲道可以構成附加m聲道音頻信號的m個聲道的劃分。附加解碼部分可以被進一步配置為:接收附加元數據的至少一部分;并且基于附加下混信號和接收的附加元數據來提供附加兩聲道輸出信號。附加解碼部分可以包括附加去相關部分,該附加去相關部分被配置為:接收附加下混信號的至少一個聲道,并且基于其來輸出附加去相關信號。附加解碼部分可以進一步包括附加混合部分,該附加混合部分被配置為:基于接收的附加元數據來確定附加混合系數集合;并且根據附加混合系數按照附加下混信號和附加去相關信號的線性組合來形成附加輸出信號。附加混合部分可以被配置為:確定混合系數,以使得附加輸出信號的第一聲道近似于附加m聲道音頻信號的第三組一個或多個聲道的線性組合,并且使得附加輸出信號的第二聲道近似于附加m聲道音頻信號的第四組一個或多個聲道的線性組合。附加混合部分可以被進一步配置為:確定附加混合系數,以使得附加m聲道音頻信號的第三組和第四組聲道構成附加m聲道音頻信號的m個聲道的劃分,并且使得附加m聲道音頻信號的第三組和第四組信號都包括附加m聲道音頻信號的第一組聲道中的至少一個聲道。
在本示例實施例中,附加解碼部分、附加去相關部分和附加混合部分可以例如分別在功能上等同于(或被類似地配置為)解碼部分、去相關部分和混合部分??商娲?,附加解碼部分、附加去相關部分和附加混合部分中的至少一個可以例如被配置為執(zhí)行與解碼部分、去相關部分和混合部分的對應部分執(zhí)行的計算和/或插值不同類型的至少一種計算和/或插值。
在本示例實施例中,附加解碼部分、附加去相關部分和附加混合部分可以例如可獨立于解碼部分、去相關部分和混合部分進行操作。
在示例實施例中,解碼系統(tǒng)可以進一步包括解復用器,該解復用器被配置為從位流提?。合禄煨盘?、元數據的所述至少一部分以及分開譯碼的音頻聲道。解碼系統(tǒng)可以進一步包括單聲道解碼部分,該單聲道解碼部分可操作來對分開譯碼的音頻聲道進行解碼。分開譯碼的音頻聲道可以例如通過使用感知音頻編解碼器(比如dolbydigital或mpegaac)被編碼在位流中,并且單聲道解碼部分可以例如包括用于對分開譯碼的音頻聲道進行解碼的核心解碼器。單聲道解碼部分可以例如可獨立于解碼部分進行操作來對分開譯碼的音頻聲道進行解碼。
根據示例實施例,提供了一種計算機程序產品,該計算機程序產品包括具有用于執(zhí)行第一方面的方法中的任何一種方法的指令的計算機可讀介質。
根據上述第一方面的音頻解碼系統(tǒng)、方法和計算機程序產品的示例實施例,輸出信號可以是k聲道信號,其中,2≤k<m,而不是兩聲道信號,并且輸出信號的k個聲道可以對應于m聲道音頻信號劃分為k組的劃分,而不是輸出信號的兩個聲道對應于m聲道音頻信號劃分為兩組的劃分。
更具體地說,根據示例實施例,提供了一種音頻解碼方法,該音頻解碼方法包括接收兩聲道下混信號。下混信號與元數據相關聯(lián),該元數據包括用于基于下混信號來參數化重構m聲道音頻信號的上混參數,其中,m≥4。下混信號的第一聲道對應于m聲道音頻信號的第一組一個或多個聲道的線性組合,下混信號的第二聲道對應于m聲道音頻信號的第二組一個或多個聲道的線性組合。第一組和第二組構成m聲道音頻信號的m個聲道的劃分。音頻解碼方法可以進一步包括:接收元數據的至少一部分;基于下混信號的至少一個聲道來產生去相關信號;基于接收的元數據來確定混合系數集合;并且根據混合系數按照下混信號和去相關信號的線性組合來形成k聲道輸出信號,其中,2≤k<m?;旌舷禂悼梢员淮_定為使得輸出信號的k個聲道中的每個聲道近似于m聲道音頻信號的一組一個或多個聲道的線性組合(并且輸出信號的k個聲道中的每個聲道因此對應于m聲道音頻信號的一組一個或多個聲道),與輸出信號的相應聲道相對應的組構成m聲道音頻信號的m個聲道劃分為k組一個或多個聲道的劃分,并且所述k組中的至少兩個組包括第一組中的至少一個聲道。
m聲道音頻信號已經被編碼為兩聲道下混信號和用于參數化重構m聲道音頻信號的上混參數。當在編碼器端對m聲道音頻信號進行編碼時,可以選擇例如用于有助于從下混信號重構m聲道音頻信號、用于提高從下混信號重構的m聲道音頻信號的保真度、和/或用于提高下混信號的譯碼效率的譯碼格式。可以通過選擇第一組和第二組并且將下混信號的聲道形成為相應組中的聲道的相應線性組合來執(zhí)行該譯碼格式選擇。
發(fā)明人已經認識到,盡管所選譯碼格式可以有助于從下混信號重構m聲道音頻信號,但是下混信號本身可能不適合于使用特定的k揚聲器配置進行回放。與m聲道音頻信號劃分為k組的劃分相對應的k聲道輸出信號可能比下混信號更適合于特定的k聲道回放設置?;谙禄煨盘柡徒邮盏脑獢祿峁┹敵鲂盘栆虼丝梢蕴岣呤章犝吒兄膋聲道回放質量,和/或提高k聲道回放對于由m聲道音頻信號表示的聲場的保真度。
發(fā)明人已經進一步認識到,代替首先從下混信號重構m聲道音頻信號、然后產生m聲道音頻信號的k聲道表示(例如,通過相加混合),由輸出信號提供的k聲道表示可以通過利用m聲道音頻信號的一些聲道在下混信號提供的兩聲道表示和將被提供的k聲道表示中被類似地一起分組的事實被從下混信號和接收的元數據更高效地產生。將輸出信號形成為下混信號和去相關信號的線性組合可以例如降低解碼器端的計算復雜度,和/或減少用于獲得m聲道音頻信號的k聲道表示的組件或處理步驟的數量。
構成m聲道音頻信號的聲道的劃分的k個組意味著,所述k個組是不相交的,并且一起包括m聲道音頻信號的所有聲道。
形成k聲道輸出信號可以例如包括:將混合系數中的至少一些應用于下混信號的聲道,并且將混合系數中的至少一些應用于去相關信號的一個或多個聲道。
下混信號的第一聲道和第二聲道可以例如分別對應于第一組一個或多個聲道和第二組一個或多個聲道中的聲道的(加權或非加權)和。
輸出信號的k個聲道可以例如分別近似于所述k組一個或多個聲道中的聲道的(加權或非加權)和。
在一些示例實施例中,k=2,k=3,或k=4。
在一些示例實施例中,m=5,或m=6。
在示例實施例中,去相關信號可以是兩聲道信號,并且可以通過將至多兩個的去相關信號聲道包括到下混信號和去相關信號的線性組合中、即包括到從其獲得輸出信號的線性組合中來形成輸出信號。發(fā)明人已經認識到,不需要為了提供兩聲道輸出信號而重構m聲道音頻信號,并且因為整個m聲道音頻信號不需要被重構,所以可以使去相關信號聲道的數量減少。
在示例實施例中,k=3,并且形成輸出信號可以相當于從四個聲道投射到三個聲道,即,從下混信號的兩個聲道和兩個去相關信號聲道投射到輸出信號的三個聲道。例如,輸出信號可以作為下混信號和去相關信號的線性組合被直接獲得,而無需首先重構m聲道音頻信號的全部m個聲道。
在示例實施例中,混合系數可以被確定為使得輸出信號的一對聲道接收來自去相關信號的聲道的相等幅度(例如,相等振幅)的貢獻。去相關信號的這個聲道對該對聲道中的相應聲道的貢獻可以具有相反的符號。換句話說,混合系數可以被確定為使得控制去相關信號的聲道對輸出信號的(例如,第一)聲道的貢獻的混合系數和控制去相關信號的同一個聲道對輸出信號的另一個(例如,第二)聲道的貢獻的混合系數的和具有值0。k聲道輸出信號可以例如包括不接收來自去相關信號的特定聲道的任何貢獻的一個或多個聲道。
在示例實施例中,混合系數可以被確定為使得控制下混信號的第一聲道對輸出信號的(例如,第一)聲道的貢獻的混合系數和控制下混信號的第一聲道對輸出信號的另一個(例如,第二)聲道的貢獻的混合系數的和具有值1。具體地說,混合系數中的一個混合系數可以例如可從上混參數推導得到(例如,如本公開的其他部分中所解釋的,被作為確切值發(fā)送,或者可以在對緊湊表示執(zhí)行計算之后從上混參數獲得),其他混合系數則可以通過要求兩個混合系數的和等于1來容易地計算得到。k聲道輸出信號可以例如包括不接收來自下混信號的第一聲道的任何貢獻的一個或多個聲道。
在示例實施例中,混合系數可以被確定為使得控制下混信號的第二聲道對輸出信號的(例如,第一)聲道的貢獻的混合系數和控制下混信號的第二聲道對輸出信號的另一個(例如,第二)聲道的貢獻的混合系數的和具有值1。k聲道輸出信號可以例如包括不接收來自下混信號的第二聲道的任何貢獻的一個或多個聲道。
在示例實施例中,所述方法可以包括接收指示m聲道音頻信號的至少兩種譯碼格式中的(所選的)一種譯碼格式的信令。譯碼格式可以對應于m聲道音頻信號的聲道劃分為與下混信號的聲道相關聯(lián)的相應第一組和第二組的相應不同劃分。k個組可以是預定義的。混合系數可以被確定為使得m聲道音頻信號劃分為由輸出信號的聲道近似的k組聲道的單個劃分對于所述至少兩種譯碼格式被保持(即,對于所述至少兩種譯碼格式是共同的)。
在示例實施例中,去相關信號可以包括兩個聲道??梢曰谙禄煨盘柕牡谝宦暤馈⒗缤ㄟ^僅對下混信號的第一聲道進行處理來獲得去相關信號的第一聲道。可以基于下混信號的第二聲道、例如通過僅對下混信號的第二聲道進行處理來獲得去相關信號的第二聲道。
ii.概述——編碼器端
根據第二方面,示例實施例提出了音頻編碼系統(tǒng)以及音頻編碼方法和相關聯(lián)的計算機程序產品。所提出的根據第二方面的編碼系統(tǒng)、方法和計算機程序產品一般可以共享相同的特征和優(yōu)點。而且,上面針對根據第一方面的解碼系統(tǒng)、方法和計算機程序產品的特征呈現(xiàn)的優(yōu)點對于根據第二方面的編碼系統(tǒng)、方法和計算機程序產品的對應特征一般可以是有效的。
根據示例實施例,提供了一種音頻編碼方法,該音頻編碼方法包括:接收m聲道音頻信號,其中,m≥4;并且基于m聲道音頻信號來計算兩聲道下混信號。下混信號的第一聲道被形成為m聲道音頻信號的第一組一個或多個聲道的線性組合,下混信號的第二聲道被形成為m聲道音頻信號的第二組一個或多個聲道的線性組合。第一組和第二組構成m聲道音頻信號的m個聲道的劃分。編碼方法進一步包括:確定用于從下混信號參數化重構m聲道音頻信號的上混參數;并且確定用于基于下混信號來獲得兩聲道輸出信號的混合參數,其中,輸出信號的第一聲道近似于m聲道音頻信號的第三組一個或多個聲道的線性組合,并且其中,輸出信號的第二聲道近似于m聲道音頻信號的第四組一個或多個聲道的線性組合。第三組和第四組構成m聲道音頻信號的m個聲道的劃分,并且第三組和第四組都包括第一組中的至少一個聲道。編碼方法進一步包括:輸出下混信號和元數據以用于聯(lián)合存儲或發(fā)送,其中,元數據包括上混參數和混合參數。
下混信號的聲道對應于m聲道音頻信號的m個聲道劃分為第一組和第二組的劃分,并且可以例如提供m聲道音頻信號的位高效的兩聲道表示和/或使得可以高保真度地參數化重構m聲道音頻信號的兩聲道表示。
發(fā)明人已經認識到,盡管所用的兩聲道表示可以有助于從下混信號重構m聲道音頻信號,但是下混信號本身可能不適合于使用特定的兩揚聲器配置進行回放。與下混信號和上混參數一起輸出的混合參數使得可以基于下混信號來獲得兩聲道輸出信號。與m聲道音頻信號劃分為第三組聲道和第四組聲道的不同劃分相對應的輸出信號可能比下混信號更適合于特定的兩聲道回放設置。基于下混信號和混合參數提供輸出信號因此可以提高收聽者感知的兩聲道回放質量,和/或提高兩聲道回放對于由m聲道音頻信號表示的聲場的保真度。
下混信號的第一聲道可以例如被形成為第一組中的聲道的和,或者被形成為其縮放。換句話說,下混信號的第一聲道可以例如被形成為第一組中的聲道的和(即,來自相應聲道的音頻內容的和,例如通過每個采樣地或每個變換系數地進行相加混合而形成的),或者被形成為這樣的和的重新縮放的版本(例如,通過對聲道進行求和并且將該和乘以重新縮放因子而獲得的版本)。類似地,下混信號的第二聲道可以例如被形成為第二組中的聲道的和,或者被形成為其縮放。輸出信號的第一聲道可以例如近似于第三組的聲道的和或者其縮放,輸出信號的第二聲道可以例如近似于第四組的聲道的和或者其縮放。
例如,m聲道音頻信號可以是五聲道音頻信號。音頻編碼方法可以例如用于目前設立的5.1音頻格式之一的五個常規(guī)聲道,或者用于11.1多聲道音頻信號中的左手或右手側的五個聲道??商娲?,可以適用的是,m=4,或m≥6。
在示例實施例中,混合參數可以控制下混信號和去相關信號對輸出信號的相應貢獻。混合參數中的至少一些可以在使得輸出信號的聲道分別成為第一組聲道和第二組聲道的線性組合(或和)的協(xié)方差保持近似的混合參數之中通過最小化來自去相關信號的貢獻來確定。來自去相關信號的貢獻可以例如在該貢獻的信號能量或振幅最小的意義上被最小化。
輸出信號的第一聲道將近似于的第三組的線性組合以及輸出信號的第二聲道將近似于的第四組的線性組合可以例如對應于具有第一協(xié)方差矩陣的兩聲道音頻信號。輸出信號的聲道分別是第一組聲道和第二組聲道的線性組合的協(xié)方差保持近似可以例如對應于輸出信號的協(xié)方差矩陣與第一協(xié)方差矩陣一致(或至少基本上一致)。
在協(xié)方差保持近似之中,來自去相關信號的貢獻的大小(例如,能量或振幅)降低可以指示收聽者在回放期間感知的近似的保真度增大。利用使來自去相關信號的貢獻降低的混合參數可以提高作為m聲道音頻信號的兩聲道表示的輸出信號的保真度。
在示例實施例中,第一組聲道可以由n個聲道組成,其中,n≥3,并且上混參數中的至少一些可以適合于從下混信號的第一聲道以及基于下混信號的第一聲道確定的(n-1)聲道去相關信號參數化重構第一組聲道。在本示例實施例中,確定上混參數可以包括:確定第一類型的上混系數(被稱為干式上混系數)的集合,以便定義近似于第一組聲道的下混信號的第一聲道的線性映射;并且基于接收的第一組聲道的協(xié)方差和通過下混信號的第一聲道的線性映射近似的第一組聲道的協(xié)方差之間的差值來確定中間矩陣。當乘以預定義矩陣時,中間矩陣可以對應于第二類型的上混系數(被稱為濕式上混系數)的集合,該濕式上混系數集合定義作為第一組聲道的參數化重構的一部分的、去相關信號的線性映射。該濕式上混系數集合可以包括比中間矩陣中的元素的數量多的系數。在本示例實施例中,上混參數可以包括干式上混系數集合可被從其推導得到的第一類型的上混參數(被稱為干式上混參數)以及第二類型的上混參數(被稱為濕式上混參數),在假定中間矩陣屬于預定義矩陣類的情況下第二類型的上混參數唯一地定義中間矩陣。中間矩陣可以具有比濕式上混參數的數量多的元素。
在本示例實施例中,解碼器端的第一組聲道的參數化重構副本包括:作為一個貢獻的、通過下混信號的第一聲道的線性映射形成的干式上混信號;以及作為進一步貢獻的、通過去相關信號的線性映射形成的濕式上混信號。干式上混系數集合定義下混信號的第一聲道的線性映射,濕式上混系數集合定義去相關信號的線性映射。通過輸出比濕式上混系數的數量少的并且濕式上混系數可從其基于預定義矩陣和預定義矩陣類推導得到的濕式上混參數,可以使發(fā)送到解碼器端以使得能夠重構m聲道音頻信號的信息量減少。通過使參數化重構所需的數據量減少,可以使發(fā)送m聲道音頻信號的參數化表示所需的帶寬和/或存儲這樣的表示所需的存儲器大小減小。
中間矩陣可以例如被確定為使得通過去相關信號的線性映射獲得的信號的協(xié)方差補充通過下混信號的第一聲道的線性映射近似的第一組聲道的協(xié)方差。
如何確定和利用預定義矩陣和預定義矩陣類在美國臨時專利申請no.61/974,544中第16頁第15行到第20頁第2行被更詳細地描述;該申請第一位指名的發(fā)明人:larsvillemoes;提交日:2014年4月3日。具體參見其中的關于預定義矩陣的例子的方程(9)。
在示例實施例中,確定中間矩陣可以包括:確定中間矩陣以使得通過去相關信號的線性映射(由濕式上混系數集合定義)獲得的信號的協(xié)方差近似于接收的第一組聲道的協(xié)方差和通過下混信號的第一聲道的線性映射近似的第一組聲道的協(xié)方差之間的差值或者與該差值基本上一致。換句話說,中間矩陣可以被確定為使得如下這樣的第一組聲道的重構副本完全地或至少近似地恢復接收的第一組聲道的協(xié)方差,該第一組聲道的重構副本是作為通過下混信號的第一聲道的線性映射形成的干式上混信號和通過去相關信號的線性映射形成的濕式上混信號的和而獲得的。
在示例實施例中,濕式上混參數可以包括至多n(n-1)/2個的可獨立賦值的濕式上混參數。在本示例實施例中,中間矩陣可以具有(n-1)2個矩陣元素,并且在假定中間矩陣屬于預定義矩陣類的情況下可以由濕式上混參數唯一地定義。在本示例實施例中,濕式上混系數集合可以包括n(n-1)個系數。
在示例實施例中,干式上混系數集合可以包括n個系數。在本示例實施例中,干式上混參數可以包括至多n-1個的干式上混參數,并且干式上混系數集合可以通過使用預定義規(guī)則從n-1個干式上混參數推導得到。
在示例實施例中,確定的干式上混系數集合可以定義與第一組聲道的最小均方差近似相對應的下混信號的第一聲道的線性映射,即,在下混信號的第一聲道的線性映射集合之中,確定的干式上混系數集合可以定義在最小均方的意義上最佳地近似于第一組聲道的線性映射。
在示例實施例中,編碼方法可以進一步包括選擇至少兩種譯碼格式中的一種譯碼格式,其中,譯碼格式對應于m聲道音頻信號的聲道劃分為與下混信號的聲道相關聯(lián)的相應第一組和第二組的相應不同劃分。下混信號的第一聲道和第二聲道可以根據所選譯碼格式分別被形成為m聲道音頻信號的第一組一個或多個聲道和第二組一個或多個聲道的線性組合??梢曰谒x譯碼格式來確定上混參數和混合參數。編碼方法可以進一步包括提供指示所選譯碼格式的信令。該信令可以例如被輸出以用于與下混信號和元數據一起聯(lián)合存儲和/或發(fā)送。
基于下混信號和上混參數重構的m聲道音頻信號可以是以下信號的和:通過將干式上混系數應用于下混信號而形成的干式上混信號;以及通過將濕式上混系數應用于基于下混信號確定的去相關信號而形成的濕式上混信號。譯碼格式的選擇可以例如基于針對各譯碼格式的、接收的m聲道音頻信號的協(xié)方差和通過干式上混信號近似的m聲道音頻信號的協(xié)方差之間的差值來做出。譯碼格式的選擇可以例如基于用于各譯碼格式的濕式上混系數、例如基于用于各譯碼格式的濕式上混系數的各平方和來做出。所選的譯碼格式可以例如與各譯碼格式的平方和中的最小一個平方和相關聯(lián)。
根據示例實施例,提供了一種音頻編碼系統(tǒng),該音頻編碼系統(tǒng)包括編碼部分,該編碼部分被配置為:將m聲道音頻信號編碼為兩聲道下混信號和相關聯(lián)的元數據,其中,m≥4,并且輸出下混信號和元數據以用于聯(lián)合存儲或發(fā)送。編碼部分包括下混部分,該下混部分被配置為基于m聲道音頻信號來計算下混信號。下混信號的第一聲道被形成為m聲道音頻信號的第一組一個或多個聲道的線性組合,下混信號的第二聲道被形成為m聲道音頻信號的第二組一個或多個聲道的線性組合。第一組和第二組構成m聲道音頻信號的m個聲道的劃分。編碼部分進一步包括分析部分,該分析部分被配置為確定:用于從下混信號參數化重構m聲道音頻信號的上混參數;以及用于基于下混信號來獲得兩聲道輸出信號的混合參數。輸出信號的第一聲道近似于m聲道音頻信號的第三組一個或多個聲道的線性組合,輸出信號的第二聲道近似于m聲道音頻信號的第四組一個或多個聲道的線性組合。第三組和第四組構成m聲道音頻信號的m個聲道的劃分。第三組和第四組都包括第一組的至少一個聲道。元數據包括上混參數和混合參數。
根據示例實施例,提供了一種計算機程序產品,該計算機程序產品包括具有用于執(zhí)行第二方面的方法中的任何一種方法的指令的計算機可讀介質。
根據上述第二方面的音頻編碼系統(tǒng)、方法和計算機程序產品的示例實施例,輸出信號可以是k聲道信號,其中,2≤k<m,而不是兩聲道信號,并且輸出信號的k個聲道可以對應于m聲道音頻信號劃分為k個組的劃分,而不是輸出信號的兩個聲道對應于m聲道音頻信號劃分為兩個組的劃分。
更具體地說,根據示例實施例,提供了一種音頻編碼方法,該音頻解碼方法包括:接收m聲道音頻信號,其中,m≥4;并且基于m聲道音頻信號來計算兩聲道下混信號。下混信號的第一聲道被形成為m聲道音頻信號的第一組一個或多個聲道的線性組合,下混信號的第二聲道被形成為m聲道音頻信號的第二組一個或多個聲道的線性組合。第一組和第二組構成m聲道音頻信號的m個聲道的劃分。編碼方法可以進一步包括:確定用于從下混信號參數化重構m聲道音頻信號的上混參數;并且確定用于基于下混信號來獲得k聲道輸出信號的混合參數,其中,2≤k<m,輸出信號的所述k個聲道中的每個近似于m聲道音頻信號的一組一個或多個聲道的線性組合。與輸出信號的相應聲道相對應的組可以構成m聲道音頻信號的m個聲道劃分為k組一個或多個聲道的劃分,并且所述k組中的至少兩個組包括第一組中的至少一個聲道。所述編碼方法可以進一步包括輸出下混信號和元數據以用于聯(lián)合存儲或發(fā)送,其中,元數據包括上混參數和混合參數。
在示例實施例中,混合參數可以控制下混信號和去相關信號對輸出信號的相應貢獻?;旌蠀抵械闹辽僖恍┛梢栽谑沟幂敵鲂盘柕穆暤莱蔀橄鄳猭組聲道的一個或多個聲道的線性組合(或和)的協(xié)方差保持近似的混合參數之中通過最小化來自去相關信號的貢獻來確定。來自去相關信號的貢獻可以例如在該貢獻的信號能量或振幅最小的意義上被最小化。
輸出信號的k個聲道將近似于的k組聲道的線性組合可以例如對應于具有第一協(xié)方差矩陣的k聲道音頻信號。輸出信號的聲道分別是k組聲道的聲道的線性組合的協(xié)方差保持近似可以例如對應于輸出信號的協(xié)方差矩陣與第一協(xié)方差矩陣一致(或至少基本上一致)。
在協(xié)方差保持近似之中,來自去相關信號的貢獻的大小(例如,能量或振幅)降低可以指示收聽者在回放期間感知的近似的保真度增大。利用使來自去相關信號的貢獻降低的混合參數可以提高作為m聲道音頻信號的k聲道表示的輸出信號的保真度。
iii.概述——計算機可讀介質
根據第三方面,示例實施例提出了計算機可讀介質。上面針對根據第一方面和/或第二方面的系統(tǒng)、方法和計算機程序產品的特征呈現(xiàn)的優(yōu)點對于根據第三方面的計算機可讀介質的對應特征一般可以是有效的。
根據示例實施例,提供了一種數據載體,該數據載體表示:兩聲道下混信號;以及使得可以基于下混信號來參數化重構m聲道音頻信號的上混參數,其中,m≥4。下混信號的第一聲道對應于m聲道音頻信號的第一組一個或多個聲道的線性組合,下混信號的第二聲道對應于m聲道音頻信號的第二組一個或多個聲道的線性組合。第一組和第二組構成m聲道音頻信號的m個聲道的劃分。數據載體進一步表示使得可以基于下混信號來提供兩聲道輸出信號的混合參數。輸出信號的第一聲道近似于m聲道音頻信號的第三組一個或多個聲道的線性組合,輸出信號的第二聲道近似于m聲道音頻信號的第四組一個或多個聲道的線性組合。第三組和第四組構成m聲道音頻信號的m個聲道的劃分。第三組和第四組都包括第一組中的至少一個聲道。
在示例實施例中,數據載體表示的數據可以被布置在時間幀中,并且可以被分層為使得對于給定時間幀,用于該時間幀的下混信號和相關聯(lián)的混合參數可以獨立于相關聯(lián)的上混參數被提取。例如,數據載體可以被分層為使得用于該時間幀的下混信號和相關聯(lián)的混合參數可以在不提取和/或訪問相關聯(lián)的上混參數的情況下被提取。根據上述的第三方面的計算機可讀介質(或數據載體)的示例實施例,輸出信號可以是k聲道信號,其中,2≤k<m,而不是兩聲道信號,并且輸出信號的k個聲道可以對應于m聲道音頻信號劃分為k組的劃分,而不是輸出信號的兩個聲道對應于m聲道音頻信號劃分為兩組的劃分。
更具體地說,根據示例實施例,提供了一種計算機可讀介質(或數據載體),該計算機可讀介質表示:兩聲道下混信號;以及使得可以基于下混信號來參數化重構m聲道音頻信號的上混參數,其中,m≥4。下混信號的第一聲道對應于m聲道音頻信號的第一組一個或多個聲道的線性組合,下混信號的第二聲道對應于m聲道音頻信號的第二組一個或多個聲道的線性組合。第一組和第二組構成m聲道音頻信號的m個聲道的劃分。數據載體可以進一步表示使得可以基于下混信號來提供k聲道輸出信號的混合參數,其中,2≤k<m。輸出信號的每個聲道可以近似于m聲道音頻信號的一組一個或多個聲道的線性組合(例如,加權或非加權和)。與輸出信號的相應聲道相對應的組可以構成m聲道音頻信號的m個聲道劃分為k組一個或多個聲道的劃分。k組中的至少兩個組可以包括第一組中的至少一個聲道。
進一步的示例實施例在從屬權利要求中被定義。應注意,示例實施例包括特征的所有組合,即使特征被記載在相互不同的權利要求中。
iv.示例實施例
圖4-6例示說明將11.1聲道音頻信號劃分為多組聲道以用于將11.1聲道音頻信號參數化編碼為5.1聲道音頻信號或者用于在包括五個擴音器和一個超低音的揚聲器系統(tǒng)處回放11.1聲道音頻信號的替代方式。
11.1聲道音頻信號包括聲道l(左)、ls(左側)、lb(左后)、tfl(左前上部)、tbl(左右上部)、r(右)、rs(右側)、rb(右后)、tfr(右前上部)、tbr(右后上部)、c(中心)以及l(fā)fe(低頻效果)。五個聲道l、ls、lb、tfl和tbl形成表示11.1聲道音頻信號的回放環(huán)境中的左半空間的五聲道音頻信號。三個聲道l、ls和lb表示回放環(huán)境中的不同的水平方向,兩個聲道tfl和tbl表示與三個聲道l、ls和lb的方向垂直分離的方向。兩個聲道tfl和tbl可以例如意圖用于在頂部揚聲器中回放。類似地,五個聲道r、rs、rb、tfr和tbr形成表示回放環(huán)境的右半空間的附加五聲道音頻信號,三個聲道r、rs和rb表示回放環(huán)境中的不同的水平方向,兩個聲道tfr和tbr表示與這三個聲道r、rs和rb的方向垂直分離的方向。
為了將11.1聲道音頻信號表示為5.1聲道音頻信號,可以將聲道l、ls、lb、tfl、tbl、r、rs、rb、tfr、tbr、c和lfe的集合劃分為由相應下混聲道和相關聯(lián)元數據表示的多組聲道。五聲道音頻信號l、ls、lb、tfl、tbl可以由兩聲道下混信號l1、l2和相關聯(lián)的元數據表示,而附加五聲道音頻信號r、rs、rb、tfr、tbr可以由附加兩聲道下混信號r1、r2和相關聯(lián)的元數據表示。聲道c和lfe在11.1聲道音頻信號的5.1聲道表示中也可以保持為單獨的聲道。
圖4例示說明第一譯碼格式f1,在該格式中,五聲道音頻信號l、ls、lb、tfl、tbl被劃分為第一組401聲道l、ls、lb和第二組402聲道tfl、tbl,并且附加五聲道音頻信號r、rs、rb、tfr、tbr被劃分為附加第一組403聲道r、rs、rb和附加第二組404聲道tfr、tbr。在第一譯碼格式f1中,第一組聲道401由兩聲道下混信號的第一聲道l1表示,第二組聲道402由兩聲道下混信號的第二聲道l2表示。下混信號的第一聲道l1可以如下地對應于第一組401聲道的和:
l1-l+ls+lb
并且下混信號的第二聲道l2可以如下地對應于第二組402聲道的和:
l2-tfl+tbl
在一些示例實施例中,可以在求和之前對聲道中的一些或全部進行重新縮放,以使得下混信號的第一聲道l1可以對應于根據l1=c1l+c2ls+c3lb的第一組401聲道的線性組合,并且下混信號的第二聲道l2可以對應于根據l2=c4tfl+c5tbl的第二組402聲道的線性組合。增益c2、c3、c4、c5可以例如是一致的,而增益c1可以例如具有不同的值;例如,c1可以對應于根本不重新縮放。例如,可以使用值c1=1和
類似地,附加第一組聲道403由附加下混信號的第一聲道r1表示,附加第二組404聲道由附加下混信號的第二聲道r2表示。
第一譯碼格式f1提供用于表示頂部聲道tfl、tbl、tfr和tbr的專用下混聲道l2和r2。第一譯碼格式f1的使用因此可以使得在例如回放環(huán)境中的垂直維度對于11.1聲道音頻信號的總體印象重要的情況下可以以相對較高的保真度參數化重構11.1聲道音頻信號。
圖5例示說明第二譯碼格式f2,在該格式中,五聲道音頻信號l、ls、lb、tfl、tbl被劃分為由相應聲道l1和l2表示的第三組501聲道和第四組502聲道,其中,聲道l1和l2對應于各組聲道(例如,利用與第一譯碼格式f1中的增益相同的增益c1、c2、c3、c4、c5進行重新縮放)的和。類似地,附加五聲道音頻信號r、rs、rb、tfr、tbr被劃分為由相應聲道r1和r2表示的附加第三組503聲道和第四組504聲道。
第二譯碼格式f2沒有提供用于表示頂部聲道tfl、tbl、tfr和tbr的專用下混聲道,而是可以使得例如在回放環(huán)境中的垂直維度對于11.1聲道音頻信號的總體印象不重要的情況下可以以相對較高的保真度參數化重構11.1聲道音頻信號。第二譯碼格式f2也可以比第一譯碼格式f1更適合于5.1聲道回放。
圖6例示說明第三譯碼格式f3,在該格式中,五聲道音頻信號l、ls、lb、tfl、tbl被劃分為由下混信號的相應聲道l1和l2表示的第五組601聲道和第六組602聲道,其中,l1和l2對應于各組聲道(例如,利用與第一譯碼格式f1中的增益相同的增益c1、c2、c3、c4、c5進行重新縮放)的和。類似地,附加五聲道音頻信號r、rs、rb、tfr、tbr被劃分為由相應聲道r1和r2表示的附加第五組603聲道和第六組604聲道。
在第三譯碼格式f3中,四個聲道ls、lb、tfl、tbl由第二聲道l2表示。盡管11.1聲道音頻信號的高保真度參數化重構在第三譯碼格式f3中可能比在其他譯碼格式中更困難,但是第三譯碼格式f3可以例如用于5.1聲道回放。
發(fā)明人已經認識到,與根據譯碼格式f1、f2、f3中的一種譯碼格式的11.1聲道音頻信號的5.1聲道表示相關聯(lián)的元數據可以用于產生根據譯碼格式f1、f2、f3中的另一種譯碼格式的5.1聲道表示,而無需首先重構原始11.1聲道信號。表示11.1聲道音頻信號的左半平面的五聲道信號l、ls、lb、tfl、tbl和表示右半平面的附加五聲道信號r、rs、rb、tfr、tbr可以被類似地處理。
假定三個聲道x1、x2、x3已經根據m1=x1+x2+x3被求和以形成下混聲道m(xù)1,并且x1和x2+x3將被重構。所有三個聲道x1、x2、x3可以通過利用在編碼器端確定的上混參數ci(1≤i≤3)和pij(1≤i≤3,1≤j≤2)以及獨立的去相關器d1和d2從下混聲道m(xù)1被重構為:
假定所用上混參數滿足c1+c2+c3=1和對于k=1,2,p1k+p2k+p3k=0,則信號x1和x2+x3可以被重構為:
該公式可以被表達為:
其中,兩個去相關器d1和d2已經被單個去相關器d1取代,并且其中,
如上所述,方程(2)可以用于基于符合第一譯碼格式f1的信號來產生符合第三譯碼格式f3的信號。
聲道x4和x5通過利用去相關器d3以及滿足d1+d2=1和q1+q2=0的上混參數可以被重構為:
基于方程(1)和(3),信號x1+x4和x2+x3+x5可以被重構為:
并且被重構為
其中,來自兩個去相關器d1和d3(即,保持其輸入信號的能量的類型的去相關器)的貢獻已經用來自單個去相關器d1(即,保持其輸入信號的能量的類型的去相關器)的貢獻近似。該近似可以與非常小的保真度感知損失相關聯(lián),在下混聲道m(xù)1、m2是無關的以及值a=p1和b=q1用于權重a和b的情況下尤其如此。在編碼器端根據其產生下混信號m1、m2的譯碼格式可能例如已經被選擇以試圖使下混聲道m(xù)1、m2之間的相關性保持低。如下所述,方程(4)可以用于基于符合第一譯碼格式f1的信號來產生符合第二譯碼格式f2的信號。
方程(4)的結構可以可選地被修改為:
其中,增益因子g=(a2+b2)1/2用于調整去相關器d1的輸入信號的功率。增益因子的其他值也可以被利用,比如g=(a2+b2)1/v,其中,0<v<1。
如果第一譯碼格式f1用于提供11.1聲道信號的參數化表示,并且期望第二譯碼格式f2在解碼器端用于音頻內容的渲染,則在左側和右側兩側應用方程(4)的近似并且用波浪符指示左側量(輸出信號的四個聲道)中的一些的近似本質,得到:
其中,根據第二譯碼格式f2,
其中,sl=d(all1+bll2)且sr=d(arr1+brr2),,其中,c1,l、d1,l、al、bl和c1,r、d1,r、ar、br分別是從方程(4)得到的參數c1、d1、a、b的左聲道版本和右聲道版本,并且其中,d表示去相關算子。因此,可以在實際上不必重構11.1聲道音頻信號的情況下基于用于參數化重構11.1聲道音頻信號的上混參數從第一譯碼格式f1獲得第二譯碼格式f2的近似。
如果第一譯碼格式f1用于提供11.1聲道信號的參數化表示,并且期望第三譯碼格式f3在解碼器端用于音頻內容的渲染,則在左側和右側兩側應用方程(2)的近似并且指示左側量中的一些的近似本質,得到:
其中,按照第三譯碼格式f3,
其中,c1,l、p1,l和c1,r、p1,r分別是方程(2)的參數c1和p1的左聲道版本和右聲道版本,并且其中,d表示去相關算子。因此,可以在實際上不必重構11.1聲道音頻信號的情況下基于用于參數化重構11.1聲道音頻信號的上混參數從第一譯碼格式f1獲得第三譯碼格式f3的近似。
如果第二譯碼格式f2用于提供11.1聲道信號的參數化表示,并且期望第一譯碼格式f1在解碼器端用于音頻內容的渲染,則與方程(5)和(6)中呈現(xiàn)的那些關系類似的關系可以使用相同的構思被推導得到。
如果第三譯碼格式f3用于提供11.1聲道信號的參數化表示,并且期望第一譯碼格式f1或第二譯碼格式f2在解碼器端用于音頻內容的渲染,則上述構思中的至少一些可以被利用。然而,因為聲道
如上所述,用于從5.2聲道參數化表示(符合譯碼格式f1、f2、和f3中的一種譯碼格式)參數化重構11.1聲道音頻信號的上混參數可以用于獲得11.1聲道音頻信號的替代5.1聲道表示(符合譯碼格式f1、f2、和f3中的任何一種譯碼格式)。在其他示例實施例中,可以基于在編碼器端特別針對該目的確定的混合參數來獲得替代的5.1聲道表示?,F(xiàn)在將描述確定這樣的參數的一種方式。
給定由四個音頻信號u1、u2、u3、u4形成的兩個音頻信號y1=u1+u2和y2=u3+u4,可以獲得兩個音頻信號z1=u1+u3和z2=u2+u4的近似。可以根據以下方程按照最小平方估計從y1和y2估計差值z1-z2:
z1-z2=αy1+βy2+r,
其中,誤差信號r正交于y1和y2兩者。利用z1+z2=y(tǒng)1+y2,于是可以推導出:
為了得出恢復信號z1和z2的正確的協(xié)方差結構的近似,可以用相同功率的、例如形式為γd(y1+y2)的去相關信號取代誤差信號r,其中,d表示去相關,并且其中,參數γ被調整以保持信號功率。利用方程(7)的不同參數化,近似可以被表達為:
如果第一譯碼格式f1用于提供11.1聲道信號的參數化表示,并且期望第二譯碼格式f2在解碼器端用于音頻內容的渲染,則應用方程(8)的近似,其中在左手側z1=l+tfl、z2=ls+lb+tbl、y1=l+ls+lb和y2=tfl+tbl,在右手側z1=r+tfr、z2=rs+rb+tbr、y1=r+rs+rb和y2=tfr+tbr,并且用波浪符指示左側量中的一些的近似本質,得到:
其中,按照第一譯碼格式f1,
其中,rld(l1+l2)且rr=d(r1+r2),其中,cl、dl、γl和cr、dr、γr分別是從方程(8)得到的參數c、d、γ的左聲道版本和右聲道版本,并且其中,d表示去相關。因此,可以基于混合參數cl、dl、γl、cr、dr和γr從第一譯碼格式f1獲得第二譯碼格式f2的近似,這些混合參數例如是在編碼器端針對該目的確定的,并且與下混信號一起被發(fā)送到解碼器端。混合參數的使用使得從編碼器端進行的控制可以增大。因為原始11.1聲道音頻信號在編碼器端是可用的,所以混合參數可以例如在編碼器端被調諧以便增大第二譯碼格式f2的近似的保真度。
類似地,可以基于類似的混合參數從第一譯碼格式f1獲得第三譯碼格式f3的近似。第一譯碼格式f1和第三譯碼格式f3的類似近似也可以從第二譯碼格式f2獲得。
在方程(9)中可以看出,輸出信號的兩個聲道
在方程(9)中可以看出,控制下混信號的第一聲道l1對輸出信號的第一聲道
圖1是根據示例實施例的用于將m聲道信號編碼為兩聲道下混信號和相關聯(lián)的元數據的編碼部分100的廣義框圖。
m聲道音頻信號在本文中是以參照圖4描述的五聲道信號l、ls、lb、tfl、tbl為例說明的,下混信號是以根據參照圖4描述的第一譯碼格式f1計算的第一聲道l1和第二聲道l2為例說明的??梢栽O想編碼部分100根據參照圖4至圖6描述的譯碼格式中的任何一種譯碼格式來計算下混信號的示例實施例。還可以設想編碼部分100基于m聲道音頻信號來計算下混信號的示例實施例,其中,m≥4。具體地說,將意識到,對于m=4或m≥6的示例實施例,可以執(zhí)行與上述那些計算和近似類似的并且引出方程(5)、(6)和(9)的計算和近似。
編碼部分100包括下混部分110和分析部分120。下混部分110通過按照五聲道音頻信號的第一組401聲道的線性組合(例如,按照和)形成下混信號的第一聲道l1并且按照五聲道音頻信號的第二組402聲道的線性組合(例如,按照和)形成下混信號的第二聲道l2來基于五聲道音頻信號計算下混信號。第一組401和第二組402構成五聲道音頻信號的五個聲道l、ls、lb、tfl、tbl的劃分。分析部分120確定用于在參數化解碼器中從下混信號參數化重構五聲道音頻信號的上混參數αlu。分析部分120還確定用于基于下混信號來獲得兩聲道輸出信號的混合參數αlm。
在本示例實施例中,輸出信號是根據參照圖5描述的第二譯碼格式f2的五聲道音頻信號的兩聲道表示。然而,還可以設想輸出信號表示根據參照圖4至圖6描述的譯碼格式中的任何一種譯碼格式的五聲道音頻信號的示例實施例。
輸出信號的第一聲道
編碼部分100將用于聯(lián)合存儲和/或發(fā)送的下混信號l1、l2和相關聯(lián)的元數據輸出到解碼器端。元數據包括上混參數αlu和混合參數αlm?;旌蠀郸羖m可以攜帶用于利用方程(9)來基于下混信號l1、l2獲得輸出信號
圖2是根據示例實施例的包括參照圖1描述的編碼部分100的音頻編碼系統(tǒng)200的廣義框圖。在本示例實施例中,例如由一個或多個聲學換能器201錄制的或由音頻創(chuàng)作設備201產生的音頻內容以參照圖4至圖6描述的11.1聲道音頻信號的形式被提供。正交鏡像濾波器(qmf)分析部分202將五聲道音頻信號l、ls、lb、tfl和tbl逐個時間段地變換到qmf域中以供編碼部分100以時間/頻率片段的形式對五聲道音頻進行處理。音頻編碼系統(tǒng)200包括附加編碼部分203,該附加編碼部分203類似于編碼部分100,并且適于將附加五聲道音頻信號r、rs、rb、tfr和tbr編碼為附加兩聲道下混信號r1、r2和相關聯(lián)的元數據,該元數據包括附加上混參數αru和附加混合參數αrm。附加混合參數αrm可以例如包括方程(9)的參數cr、dr、γr。qmf分析部分202還將附加五聲道音頻信號r、rs、rb、tfr和tbr變換到qmf域中以供附加編碼部分203進行處理。編碼部分100輸出的下混信號l1、l2被qmf合成部分204從qmf域變換回去,并且被變換部分205變換到修正離散余弦變換(mdct)域中。量化部分206和207分別對上混參數αlu和混合參數αlm進行量化。例如,可以利用步長大小為0.1或0.2(無量綱)的均勻量化,之后接著再進行哈夫曼譯碼形式的熵譯碼。步長大小為0.2的較粗略的量化可以例如被采用以節(jié)省發(fā)送帶寬,并且步長大小為0.1的較精細的量化可以例如被采用以提高解碼器端的重構的保真度。類似地,附加編碼部分203輸出的附加下混信號被r1、r2被qmf合成部分208從qmf域變換回去,并且被變換部分209變換到mdct域中。量化部分210和211分別對附加上混參數αru和附加混合參數αrm進行量化。聲道c和lfe也被相應的變換部分214和215變換到mdct域中。mdct變換的下混信號和聲道以及量化的元數據然后被復用器216組合到位流b中,以用于發(fā)送到解碼器端。音頻編碼系統(tǒng)200還可以包括核心編碼器(圖2中未示出),該核心編碼器被配置為在下混信號以及聲道c和lfe被提供給復用器216之前,使用感知音頻編解碼器(比如dolbydigital或mpegaac)對下混信號l1、l2、附加下混信號r1、r2以及聲道c和lfe進行編碼。裁剪增益,例如對應于-8.7db,可以例如在形成位流b之前被應用于下混信號l1、l2、附加下混信號r1、r2以及聲道c。
圖3是根據示例實施例的由音頻編碼系統(tǒng)200執(zhí)行的音頻編碼方法300的流程圖。音頻編碼方法300包括:接收310五聲道音頻信號l、ls、lb、tfl和tbl;基于五聲道音頻信號來計算320兩聲道下混信號l1、l2;確定330上混參數αlu;確定340混合參數αlm;并且輸出350下混信號和元數據以用于聯(lián)合存儲和/或發(fā)送,其中,元數據包括上混參數αlu和混合參數αlm。
圖7是根據示例實施例的用于基于兩聲道下混信號l1、l2和相關聯(lián)的元數據來提供兩聲道輸出信號
在本示例實施例中,下混信號l1、l2是參照圖1描述的編碼部分100輸出的下混信號l1、l2,并且與編碼部分100輸出的上混參數αlu和混合參數αlm兩者相關聯(lián)。如參照圖1和圖4所描述的,上混參數αlu適于基于下混信號l1、l2來參數化重構五聲道音頻信號l、ls、lb、tfl和tbl。然而,還可以設想上混參數αlu適于參數化重構m聲道音頻信號的實施例,其中,m=4,或m≥6。
在本示例實施例中,下混信號的第一聲道l1對應于五聲道音頻信號的第一組401聲道的線性組合(例如,和),下混信號的第二聲道l2對應于五聲道音頻信號的第二組402聲道的線性組合(例如,和)。第一組401和第二組402構成五聲道音頻信號的五個聲道l、ls、lb、tfl和tbl的劃分。
在本示例實施例中,解碼部分700接收兩聲道下混信號l1、l2和上混參數αlu,并且基于下混信號l1、l2和上混參數αlu來提供兩聲道輸出信號
在本示例實施例中,解碼部分700被配置為根據參照圖5描述的第二譯碼格式f2來提供輸出信號
因此,混合部分720確定混合系數以使得輸出信號的第一聲道
在一些示例實施例中,用于從下混信號l1、l2和去相關信號參數化重構五聲道音頻信號l、ls、lb、tfl、tbl的系數可以由包括比用于參數化重構的實際系數的數量少的參數的緊湊形式的上混參數αlu表示。在這樣的實施例中,實際系數可以在解碼器端基于所用的特定緊湊形式的獲悉而被推導得到。
圖8是根據示例實施例的包括參照圖7描述的解碼部分700的音頻解碼系統(tǒng)800的廣義框圖。
接收部分801(例如,包括解復用器)接收從參照圖2描述的音頻編碼系統(tǒng)200發(fā)送的位流b,并且從位流b提取下混信號l1、l2和相關聯(lián)的上混參數αlu、附加下混信號r1、r2和相關聯(lián)的附加上混參數αru、以及聲道c和lfe。
盡管混合參數αlm和附加混合參數αrm在位流b中可以是可獲得的,但是在本示例實施例中,這些參數不被音頻解碼系統(tǒng)800所用。換句話說,本示例實施例的音頻解碼系統(tǒng)800與這樣的混合參數不可以從其提取的位流兼容。下面將參照圖9來進一步描述利用混合參數αlm的解碼部分。
在下混信號l1、l2、附加下混信號r1、r2和/或聲道c和lfe通過使用感知音頻編解碼器(比如dolbydigital、mpegaac或其開發(fā))被編碼在位流b中的情況下,音頻解碼系統(tǒng)800可以包括核心解碼器(在圖8中未示出),該核心解碼器被配置為當相應的信號和聲道被從位流b提取時對這些信號和聲道進行解碼。
變換部分802通過執(zhí)行逆mdct來對下混信號l1、l2進行變換,qmf分析部分803將下混信號l1、l2變換到qmf域中以供解碼部分700以時間/頻率片段的形式對下混信號l1、l2進行處理。反量化部分804在將上混參數αlu供給解碼部分700之前對上混參數αlu進行反量化,例如,從熵譯碼格式反量化。如參照圖2所描述的,可能已經使用兩個不同的步長大小中的一個(例如,0.1或0.2)執(zhí)行量化。所用的實際步長大小可以是預定義的,或者可以從編碼器端用信號通知音頻解碼系統(tǒng)800,例如,經由位流b。
在本示例實施例中,音頻解碼系統(tǒng)800包括與解碼部分700類似的附加解碼部分805。附加解碼部分805被配置為接收參照圖2和圖4描述的附加兩聲道下混信號r1、r2以及附加元數據,該附加元數據包括用于基于附加下混信號r1、r2來參數化重構附加五聲道音頻信號r、rs、rb、tfr、tbr的附加上混參數αru。附加解碼部分805被配置為基于下混信號和附加上混參數αru來提供附加兩聲道輸出信號
變換部分806通過執(zhí)行逆mdct來對附加下混信號r1、r2進行變換,qmf分析部分807將附加下混信號r1、r2變換到qmf域中以供附加解碼部分805以時間/頻率片段的形式對附加下混信號r1、r2進行處理。反量化部分808在將附加上混參數αru供給附加解碼部分805之前對附加上混參數αru進行反量化,例如從熵譯碼格式反量化。
在裁剪增益已經在編碼器端被應用于下混信號l1、l2、附加下混信號r1、r2以及聲道c的示例實施例中,對應的增益,例如,對應于8.7db,可以在音頻解碼系統(tǒng)800中被應用于這些信號以補償裁剪增益。
在參照圖8描述的示例實施例中,分別由解碼部分700和附加解碼部分805輸出的輸出信號
聲道c和lfe可以例如從位流b以分開譯碼的形式提取,并且解碼系統(tǒng)800可以例如包括單聲道解碼部分(圖8中未示出),該單聲道解碼部分被配置為對相應的分開譯碼的聲道進行解碼。單聲道解碼部分可以例如包括用于對使用感知音頻編解碼器(比如dolbydigital、mpegaac或其開發(fā))編碼的音頻內容進行解碼的核心解碼器。
圖9是根據示例實施例的替代解碼部分900的廣義框圖。解碼部分900類似于參照圖7描述的解碼部分700,除了解碼部分900利用參照圖1描述的編碼部分100提供的上混參數αlm、而不是也是由編碼部分100提供的上混參數αlu之外。
類似于解碼部分700,解碼部分900包括去相關部分910和混合部分920。去相關部分910被配置為接收參照圖1描述的編碼部分100提供的下混信號l1、l2,并且基于下混信號l1、l2來輸出單聲道去相關信號d?;旌喜糠?20基于混合參數αlm來確定混合系數集合,并且根據混合系數按照下混信號l1、l2和去相關信號d的線性組合來形成輸出信號
在本示例實施例中,解碼部分900被配置為根據參照圖5描述的第二譯碼格式f2來提供輸出信號
下混信號l1、l2和混合參數αlm可以例如從參照圖2描述的音頻編碼系統(tǒng)200輸出的位流b提取。也被編碼在位流b中的上混參數αlu可以不被本示例實施例的解碼部分900所用,因此無需從位流b提取。
圖10是根據示例實施例的用于基于兩聲道下混信號和相關聯(lián)的上混參數來提供兩聲道輸出信號的音頻解碼方法1000的流程圖。解碼方法1000可以例如由參照圖8描述的音頻解碼系統(tǒng)800執(zhí)行。
解碼方法1000包括接收1010與元數據相關聯(lián)的兩聲道下混信號,該元數據包括用于基于下混信號來參數化重構參照圖4至圖6描述的五聲道音頻信號l、ls、lb、tfl、tbl的上混參數。下混信號可以例如是參照圖1描述的下混信號l1、l2,并且可以符合參照圖4描述的第一譯碼格式f1。解碼方法1000進一步包括接收1020元數據中的至少一些。接收的元數據可以例如包括參照圖1描述的上混參數αlu和/或混合參數αlm。解碼方法1000進一步包括:基于下混信號的至少一個聲道來產生1040去相關信號;基于接收的元數據來確定1050混合系數集合;并且根據混合系數按照下混信號和去相關信號的線性組合來形成1060兩聲道輸出信號。兩聲道輸出信號可以例如是參照圖7和圖8描述的兩聲道輸出信號
解碼方法1000可以可選地包括:接收1030指示接收的下混信號l1、l2符合分別參照圖4和圖5描述的第一譯碼格式f1和第二譯碼格式f2中的一種譯碼格式的信令。第三組501和第四組502可以是預定義的,并且混合系數可以被確定為使得五聲道音頻信號l、ls、lb、tfl、tbl劃分為由輸出信號
圖11示意性地例示說明根據示例實施例的計算機可讀介質1100。計算機可讀介質1100表示:參照圖1和圖4描述的兩聲道下混信號l1、l2;參照圖1描述的上混參數αlu,其使得可以基于下混信號l1、l2來參數化重構五聲道音頻信號l、ls、lb、tfl、tbl;以及參照圖1描述的混合參數αlm。
將意識到,盡管參照圖1描述的編碼部分100被配置為根據第一譯碼格式f1來對11.1聲道音頻信號進行編碼并且提供用于提供符合第二譯碼格式f2的輸出信號的混合參數αlm,但是如下的類似的編碼部分可以被提供,該編碼部分被配置為根據譯碼格式f1、f2、f3中的任何一種譯碼格式對11.1聲道音頻信號進行編碼并且提供用于提供符合譯碼格式f1、f2、f3中的任何一種譯碼格式的輸出信號的混合參數。
還將意識到,盡管參照圖7和圖9描述的解碼部分700、900被配置為基于符合第一譯碼格式f1的下混信號來提供符合第二譯碼格式f2的輸出信號,但是如下的類似的解碼部分可以被提供,該節(jié)目部分被配置為基于符合譯碼格式f1、f2、f3中的任何一種譯碼格式的下混信號來提供符合譯碼格式f1、f2、f3中的任何一種譯碼格式的輸出信號。
因為參照圖6描述的第六組602聲道包括四個聲道,所以將意識到基于符合第三譯碼格式f3的下混信號來提供符合第一譯碼格式f1或第二譯碼格式f2的輸出信號可以例如包括:利用多于一個的去相關聲道;和/或利用下混信號的聲道中的至多一個作為去相關部分的輸入。
將意識到,盡管上述例子已經就參照圖4至圖6描述的11.1聲道音頻信號進行了表述,但是可以設想如下編碼系統(tǒng)和解碼系統(tǒng),這些編碼系統(tǒng)和解碼系統(tǒng)分別包括任何數量的編碼部分或解碼部分,并且可以被配置為對包括任何數量的m聲道音頻信號的音頻信號進行處理。
圖12是根據示例實施例的用于基于兩聲道下混信號l1、l2和相關聯(lián)的元數據來提供k聲道輸出信號
更具體地說,解碼部分1200被配置為接收與元數據相關聯(lián)的兩聲道下混信號l1、l2,該元數據包括用于基于下混信號l1、l2來參數化重構m聲道音頻信號的上混參數αlu,其中,m≥4。下混信號l1、l2的第一聲道l1對應于m聲道音頻信號的第一組(例如,參照圖4描述的第一組401)一個或多個聲道的線性組合(或和)。下混信號l1、l2的第二聲道l2對應于m聲道音頻信號的第二組(例如,參照圖4秒速的第二組402)一個或多個聲道的線性組合(或和)。第一組和第二組構成m聲道音頻信號的m個聲道的劃分。換句話說,第一組和第二組是不相交的,并且共同包括m聲道音頻信號的所有聲道。
解碼部分120被配置為:接收元數據(例如,包括上混參數αlu)的至少一部分;并且基于下混信號l1、l2和接收的元數據來提供k聲道輸出信號
去相關信號d可以例如是單聲道信號。如圖12所指示的,去相關信號d可以例如是兩聲道信號。在一些示例實施例中,去相關信號d可以包括多于兩個的聲道。
m聲道信號可以例如是參照圖4描述的五聲道信號l、ls、lb、tfl、tbl,下混信號l1、l2可以例如是根據參照圖4-6描述的譯碼格式f1、f2、f3中的任何一種譯碼格式的五聲道信號l、ls、lb、tfl、tbl的兩聲道表示。
參照圖8描述的音頻解碼系統(tǒng)800可以例如包括參照圖12描述的類型的一個或多個解碼部分1200,而不是解碼部分700和805,并且多揚聲器系統(tǒng)812可以例如包括參照圖8描述的多于五個的擴音器和超低音。
音頻解碼系統(tǒng)800可以例如適于執(zhí)行與參照圖10描述的音頻解碼方法1000類似的音頻解碼方法,除了k聲道輸出信號、而不是兩聲道輸出信號被提供之外。
下面將參照圖12-16來描述解碼部分1200和音頻解碼系統(tǒng)800的示例實施例。
類似于圖4-6,圖12-13例示說明將11.1聲道音頻信號劃分為多組一個或多個聲道的替代方式。
為了將11.1聲道(或7.1+4聲道或7.1.4聲道)音頻信號表示為7.1聲道(或5.1+2聲道或5.1.2聲道)音頻信號,可以將聲道l、ls、lb、tfl、tbl、r、rs、rb、tfr、tbr、c和lfe的集合劃分為相應聲道表示的多組聲道。五聲道音頻信號l、ls、lb、tfl、tbl可以由三聲道信號l1、l2、l3表示,而附加五聲道音頻信號r、rs、rb、tfr、tbr可以由附加三聲道信號r1、r2、r3表示。聲道c和lfe在11.1聲道音頻信號的7.1聲道表示中也可以保持為單獨的聲道。
圖13例示說明提供11.1聲道音頻信號的7.1聲道表示的第四譯碼格式f4。在第四譯碼格式f4中,五聲道音頻信號l、ls、lb、tfl、tbl被劃分為僅包括聲道l的第一組1301聲道、包括聲道ls、lb的第二組1302聲道以及包括聲道tfl、tbl的第三組1303聲道。三聲道信號l1、l2、l3的聲道l1、l2、l3對應于各組1301、1302、1303聲道的線性組合(例如,加權和或非加權和)。類似地,附加五聲道音頻信號r、rs、rb、tfr、tbr被劃分為包括聲道r的附加第一組1304、包括聲道rs、rb的附加第二組1305以及包括聲道tfr、tbr的附加第三組1306。附加三聲道信號r1、r2、r3的聲道r1、r2、r3對應于各附加組1304、1305、1306聲道的線性組合(例如,加權和或非加權和)。
發(fā)明人已經認識到,與根據第一譯碼格式f1、第二譯碼格式f2和第三譯碼格式f3中的一種譯碼格式的11.1聲道音頻信號的5.1聲道表示相關聯(lián)的元數據可以用于產生根據第四譯碼格式f4的7.1聲道表示,而無需首先重構原始11.1聲道信號。五聲道信號l、ls、lb、tfl、tbl表示11.1聲道的左半平面,附加五聲道信號r、rs、rb、tfr、tbr表示右半平面,并且可以被類似地處理。
回想,兩個聲道x4和x5是可通過使用方程(3)從和m2=x4+x5重構的。
如果第二譯碼格式f2用于提供11.1聲道信號的參數化表示,并且期望第四譯碼格式f4在解碼器端用于音頻內容的7.1聲道渲染,則方程(1)給出的近似可以用以下各項被應用一次:
x1=tbl,x2=ls,x3=lb
并且用以下各項被應用一次:
x1=tbr,x2=rs,x3=rb
并且方程(3)給出的近似可以用以下各項被應用一次:
x4=l,x5=tfl
并且用以下各項被應用一次:
x4=r,x5=tfr
用波浪符指示左側量(輸出信號的六個聲道)中的一些的近似本質,方程(1)和(3)的這樣的應用得到:
其中,
并且其中,根據第四譯碼格式f4,
在上面的矩陣a中,參數c1,l、p1,l和c1,r、p1,r分別是方程(1)的上混參數c1和p1的左聲道版本和右聲道版本,參數d1,l、q1,l和d1,r、q1,r分別是方程(3)的上混參數d1和q1的左聲道版本和右聲道版本,并且d表示去相關算子。因此,可以基于用于參數化重構11.1聲道音頻信號的上混參數(例如,參照圖1和圖2描述的上混參數αlu、αru)從第二譯碼格式f2獲得第四譯碼格式f4的近似,而實際上不必重構11.1聲道音頻信號。
參照圖12描述的解碼部分1200的兩個實例(其中,k=3,m=5以及兩聲道去相關信號d)可以提供近似于第四譯碼格式f4的三聲道信號l1、l2、l3和r1、r2、r3的三聲道輸出信號
如果第一譯碼格式f1用于提供11.1聲道信號的參數化表示,并且期望第四譯碼格式f4在解碼器端用于音頻內容的渲染,則方程(1)給出的近似于可以用以下各項被應用一次:
x1=l,x2=ls,x3=lb,
并且用以下各項被應用一次:
x1=r,x2=rs,x3=rb
用波浪符指示左側量(輸出信號的六個聲道)中的一些的近似本質,方程(1)的這樣的應用得到:
其中,根據第四譯碼格式f4,
在上面的方程(11)中,參數c1,l、p1,l和c1,r、p1,r分別是方程(1)的上混參數c1和p1的左聲道版本和右聲道版本,并且d表示去相關算子。因此,可以基于用于參數化重構11.1聲道音頻信號的上混參數從第一譯碼格式f1獲得第四譯碼格式f4的近似,而在實際上不必重構11.1聲道音頻信號。
參照圖12描述的解碼部分1200的兩個實例(其中,k=3和m=5)可以提供近似于第四譯碼格式f4的三聲道信號l1、l2、l3和r1、r2、r3的三聲道輸出信號
在方程(11)中可以看出,實際上只需要兩個去相關聲道。盡管去相關聲道d(l2)和d(r2)對于從第一譯碼格式f1提供第四譯碼格式f4是不需要的,但是這樣的去相關器可以例如無論如何都保持運行(或保持起作用),以使得去相關器的緩沖器/存儲器保持更新并且在下混信號的譯碼格式變?yōu)槔绲诙g碼格式f2的情況下可用?;叵?,當從第二譯碼格式f2提供第四譯碼格式f4時利用了四個去相關聲道(參見方程(10)和相關聯(lián)的矩陣a)。
如果第三譯碼格式f3用于提供11.1聲道信號的參數化表示,并且期望第四譯碼格式f4在解碼器端用于音頻內容的渲染,則與方程(10)和(11)中呈現(xiàn)的那些關系類似的關系可以使用相同的構思推導得到。與參照圖8描述的音頻解碼系統(tǒng)800類似的音頻解碼系統(tǒng)可以利用兩個解碼部分1200來根據第四譯碼格式f4提供11.1音頻信號的7.1聲道表示。
為了將11.1聲道音頻信號表示為9.1聲道(或5.1+4聲道或5.1.4聲道)音頻信號,可以將聲道l、ls、lb、tfl、tbl、r、rs、rb、tfr、tbr、c和lfe的集合劃分為由相應聲道表示的多組聲道。五聲道音頻信號l、ls、lb、tfl、tbl可以由四聲道信號l1、l2、l3、l4表示,而附加五聲道音頻信號r、rs、rb、tfr、tbr可以由附加四聲道信號r1、r2、r3、r4表示。聲道c和lfe在11.1聲道音頻信號的9.1聲道表示中也可以保持為單獨的聲道。
圖14例示說明提供11.1聲道音頻信號的9.1聲道表示的第五譯碼格式f5。在第五譯碼格式中,五聲道音頻信號l、ls、lb、tfl、tbl被劃分為僅包括聲道l的第一組1401聲道、包括聲道ls、lb的第二組1402聲道、僅包括聲道tfl的第三組1403聲道以及包括聲道tbl的第四組1404聲道。四聲道信號l1、l2、l3、l4的聲道l1、l2、l3、l4對應于相應的組1401、1402、1403、1404一個或多個聲道的線性組合(例如,加權和或非加權和)。類似地,附加五聲道音頻信號r、rs、rb、tfr、tbr被劃分為包括聲道r的附加第一組1405、包括聲道rs、rb的附加第二組1406、包括聲道tfr的附加第三組1407以及包括聲道tbr的附加第四組1408。附加四聲道信號r1、r2、r3、r4的聲道r1、r2、r3、r4對應于相應的附加組1405、1406、1407、1408一個或多個聲道的線性組合(例如,加權和或非加權和)。
發(fā)明人已經認識到,與根據譯碼格式f1、f2和f3中的一種譯碼格式的11.1聲道音頻信號的5.1聲道表示相關聯(lián)的元數據可以用于產生根據第四譯碼格式f4的9.1聲道表示,而無需首先重構原始11.1聲道信號。表示11.1聲道的左半平面的五聲道信號l、ls、lb、tfl、tbl以及表示右半平面的附加五聲道信號r、rs、rb、tfr、tbr可以被類似地處理。
如果第二譯碼格式f2用于提供11.1聲道信號的參數化表示,并且期望第五譯碼格式f5在解碼器端用于音頻內容的聲道渲染,則方程(1)給出的近似可以用以下各項被應用一次:
x1=tbl,x2=ls,x3=lb
并且用以下各項被應用一次:
x1=tbr,x2=rs,x3=rb
并且方程(3)給出的近似可以用以下各項被應用一次:
x4=l,x5=tfl
并且用以下各項應用一次:
x4=r,x5=tfr。
用波浪符指示左側量(輸出信號的八個聲道)中的一些的近似本質,方程(1)和(3)的這樣的應用得到:
其中,
并且其中,根據第五譯碼格式,
在上面的矩陣a中,參數c1,l、p1,l和c1,r、p1,r分別是方程(1)的上混參數c1和p1的左聲道版本和右聲道版本,參數d1,l、q1,l和d1,r、q1,r分別是方程(3)的上混參數d1和q1的左聲道版本和右聲道版本,并且d表示去相關算子。因此,可以基于用于參數化重構11.1聲道音頻信號的上混參數從第二譯碼格式f2獲得第五譯碼格式f5的近似,而在實際上不必重構11.1聲道音頻信號。
參照圖12描述的解碼部分1200的兩個實例(其中,k=4,m=5以及兩聲道去相關信號d)可以提供近似于第五譯碼格式f5的四聲道信號l1、l2、l3、l4和r1、r2、r3、r4的四聲道輸出信號
如果第一譯碼格式f1或第三譯碼格式f3用于提供11.1聲道信號的參數化表示,并且期望第五譯碼格式f5在解碼器端用于音頻內容的渲染,則與方程(12)中呈現(xiàn)的關系類似的關系可以使用相同的構思推導得到。
圖15-16分別例示說明將13.1聲道(或9.1+4聲道或9.1.4聲道)音頻信號劃分為多組聲道以用于將13.1聲道音頻信號表示為5.1聲道音頻信號和7.1聲道信號的替代方式。
13.1聲道音頻信號包括聲道lw(左寬)、lscrn(左屏幕)、ls(左側)、lb(左后)、tfl(左前上部)、tbl(左后上部)、rw(右寬)、rscrn(右屏幕)、rs(右側)、rb(右后)、tfr(右前上部)、tbr(右后上部)、c(中心)以及l(fā)fe(低頻效果)。六個聲道lw、lscrn、ls、lb、tfl和tbl形成表示13.1聲道音頻信號的回放環(huán)境中的左半空間的六聲道音頻信號。四個聲道lw、lscrn、ls和lb表示回放環(huán)境中的不同的水平方向,兩個聲道tfl和tbl表示與四個聲道lw、lscrn、ls和lb的方向垂直分離的方向。兩個聲道tfl和tbl可以例如意圖用于在頂部揚聲器中回放。類似地,六個聲道rw、rscrn、rs、rb、tfr和tbr形成表示回放環(huán)境中的右半空間的六聲道音頻信號,四個聲道rw、rscrn、rs和rb表示回放環(huán)境中的不同的水平方向,兩個聲道tfr和tbr表示與四個聲道rw、rscrn、rs和rb的方向垂直分離的方向。
圖15例示說明第六譯碼格式f6,在該格式中,六聲道音頻信號lw、lscrn、ls、lb、tfl、tbl被劃分為第一組1501聲道lw、lscrn、tfl和第二組1502聲道ls、lb、tbl,并且附加六聲道音頻信號rw、rscrn、rs、rb、tfr、tbr被劃分為附加第一組1503聲道rw、rscrn、tfr和附加第二組1504聲道rs、rb、tbr。兩聲道下混信號l1、l2的聲道l1、l2對應于相應組1501、1502聲道的線性組合(例如,加權和或非加權和)。類似地,附加兩聲道下混信號r1、r2的聲道r1、r2對應于相應組1503、1504聲道的線性組合(例如,加權和或非加權和)。
圖16例示說明第七譯碼格式f7,在該格式中,六聲道音頻信號lw、lscrn、ls、lb、tfl、tbl被劃分為第一組1601聲道lw、lscrn、第二組1602聲道ls、lb以及第三組1603聲道tfl、tbl,并且附加六聲道音頻信號rw、rscrn、rs、rb、tfr、tbr被劃分為附加第一組1604聲道rw、rscrn、附加第二組1605聲道rs、rb以及附加第三組1606聲道tfr、tbr。三個聲道l1、l2、l3對應于相應組1601、1602、1603聲道的線性組合(例如,加權和或非加權和)。類似地,三個附加聲道r1、r2、r3對應于相應的附加組1604、1605、1606聲道的線性組合(例如,加權和或非加權和)。
發(fā)明人已經認識到,與根據第六譯碼格式f6的13.1聲道音頻信號的5.1聲道表示相關聯(lián)的元數據可以用于產生根據第七譯碼格式f7的7.1聲道表示,而無需首先重構原始13.1聲道信號。表示13.1聲道音頻信號的左半平面的六聲道信號lw、lscrn、ls、lb、tfl、tbl和表示右半平面的附加六聲道信號rw、rscrn、rs、rb、tfr、tbr可以被類似地處理。
回想,兩個聲道x4和x5是可通過使用方程(3)從和m2=x4+x5重構的。
如果第六譯碼格式f6用于提供13.1聲道信號的參數化表示,并且期望第七譯碼格式f7在解碼器端用于音頻內容的7.1聲道(或5.1+2聲道或5.1.2聲道)渲染,則方程(1)給出的近似可以被應用四次,用以下各項被應用一次:
x1=tbl,x2=ls,x3=lb
用以下各項被應用一次:
x1=tbr,x2=rs,x3=rb
用以下各項被應用一次:
x1=tfl,x2=lw,x3=lscrn
用以下各項被應用一次:
x1=tfr,x2=rw,x3=rscrn
用波浪符指示左側量(輸出信號的六個聲道)中的一些的近似本質,方程(1)的這樣的應用得到:
其中,
并且其中,根據第七譯碼格式f7,
在上面的矩陣a中,參數c1,l、p1,l和c′1,l、p′1,l是對于左側從方程(1)得到的上混參數c1和p1的兩個不同實例,參數c1,r、p1,r和c′1,r、p′1,r是對于右側從方程(1)得到的上混參數c1和p1的兩個不同實例,并且d表示去相關算子。因此,可以基于用于參數化重構13.1聲道音頻信號的上混參數從第六譯碼格式f6獲得第七譯碼格式f7的近似,而在實際上不必重構13.1聲道音頻信號。
參照圖12描述的解碼部分1200的兩個實例(其中,k=3,m=6以及兩聲道去相關信號d)可以基于在編碼器端根據第六譯碼格式f6產生的兩聲道下混信號來提供近似于第七譯碼格式f7的三聲道信號l1、l2、l3和r1、r2、r3的三聲道輸出信號
在方程(10)-(13)(以及相關聯(lián)的矩陣a)中可以看出,如果輸出信號的兩個聲道(例如,方程(11)中的聲道
在方程(10)-(13)(以及相關聯(lián)的矩陣a)中可以看出,如果輸出信號的兩個聲道(例如,方程(11)中的聲道
如上面參照圖12-16描述的,解碼部分1200可以基于兩聲道下混信號l1、l2和上混參數αlu來提供k聲道輸出信號
在一些示例實施例中,專用的混合參數αlm可以從編碼器端被發(fā)送,以用于有助于在解碼器端提供k聲道輸出信號
例如,解碼部分1200可以被與上面參照圖9描述的解碼部分900類似地配置。
例如,解碼部分1200可以接收混合參數αlm,混合參數αlm為方程(10)-(13)所示的混合矩陣(即,被表示為a的矩陣)中的一個或多個混合矩陣的元素(或混合系數)的形式。在這樣的例子中,可能不需要解碼部分1200計算方程(10)-(13)中的混合矩陣中的任何元素。
可以設想如下這樣的示例實施例,其中參照圖1描述的分析部分120(以及類似地參照圖2描述的附加分析部分203)確定混合參數αlm,混合參數αlm用于基于下混信號l1、l2來獲得k聲道輸出信號,其中,2≤k<m。混合參數αlm可以例如以方程(10)-(13)的混合矩陣(即,被表示為a的矩陣)中的一個或多個混合矩陣的元素(或混合系數)的形式提供。
可以例如提供多個混合系數αlm集合,其中,各混合系數αlm集合意圖用于在解碼器端進行不同類型的渲染。例如,上面參照圖2描述的音頻編碼系統(tǒng)200可以提供位流b,在位流b中,提供原始11.1聲道音頻信號的5.1下混表示,并且可以提供混合系數αlm集合來用于5.1聲道渲染(根據第一、第二和/或第三譯碼格式f1、f2、f3)、用于7.1聲道渲染(根據第四譯碼格式f4)和/或用于9.1聲道渲染(根據第五譯碼格式f5)。
參照圖3描述的音頻編碼方法300可以例如包括確定340混合參數αlm,混合參數αlm用于基于下混信號l1、l2來獲得k聲道輸出信號,其中,2≤k<m。
可以設想如下這樣的示例實施例,其中參照圖11描述的計算機可讀介質1100表示:兩聲道下混信號(例如,參照圖1和圖4描述的兩聲道下混信號l1、l2);上混參數(例如,參照圖1描述的上混參數αlu),其使得可以基于下混信號來參數化重構m聲道音頻信號(例如,五聲道音頻信號l、ls、lb、tfl、tbl);以及混合參數αlm,其使得可以基于下混信號來提供k聲道輸出信號。如上所述,m≥4且2≤k<m。
將意識到,盡管上述例子已經就其中m=5和m=4個聲道的原始音頻信號以及其中k=2、k=3和k=4個聲道的輸出信號進行了表述,但是對于滿足m≥4和2≤k<m的任何m和k,可以設想類似的編碼系統(tǒng)(和編碼部分)以及解碼系統(tǒng)(和解碼部分)。
v.等同、擴展、替代及其他
即使本公開描述和描繪了特定示例實施例,本發(fā)明也不限于這些特定例子。在不脫離僅由所附權利要求限定的本發(fā)明的范圍的情況下,可以對上面的示例實施例進行修改和變化。
在權利要求中,詞語“包括”不排除其他元件或步驟,并且“一”或“一個”不排除多個。某些措施被記載在相互不同的從屬權利要求中的事實并不表明這些措施的組合不能被有利地使用。權利要求中出現(xiàn)的任何引用符號不應被理解為限制它們的范圍。
上面公開的裝置和方法可以實現(xiàn)為軟件、固件、硬件或它們的組合。在硬件實現(xiàn)中,在上面的描述中提到的功能單元之間的任務劃分不一定對應于物理單元的劃分;相反,一個物理組件可以具有多個功能,并且一個任務可以由幾個物理組件合作以分布式方式執(zhí)行。某些組件或所有組件可以實現(xiàn)為數字處理器、信號處理器或微處理器的軟件,或者可以實現(xiàn)為硬件或專用集成電路。這樣的軟件可以分布在計算機可讀介質上,計算機可讀介質可以包括計算機存儲介質(或非暫時性介質)和通信介質(或暫時性介質)。如本領域技術人員眾所周知的,術語計算機存儲介質包括以用于存儲信息(比如計算機可讀指令、數據結構、程序模塊或其他數據)的任何方法或技術實現(xiàn)的易失性和非易失性、可移動和不可移動介質。計算機存儲介質包括但不限于ram、rom、eeprom、閃存或其他存儲器技術、cd-rom、數字多功能盤(dvd)或其他光學盤儲存器、磁盒、磁帶、磁盤儲存器或其他磁性存儲裝置、或可以用于存儲期望信息并且可以被計算機存取的任何其他的介質。此外,技術人員眾所周知的是,通信介質通常將計算機可讀指令、數據結構、程序模塊或其他數據包含在調制數據信號(比如載波或其他傳輸機制)中,并且包括任何信息遞送介質。
vi.例子列表
1.一種音頻解碼方法(100),包括:
接收(1010)接收與元數據相關聯(lián)的兩聲道下混信號(l1、l2),所述元數據包括用于基于下混信號來參數化重構m聲道音頻信號(l、ls、lb、tfl、tbl)的上混參數(αlu),其中,m≥4,其中,下混信號的第一(l1)聲道對應于m聲道音頻信號的第一組(401)一個或多個聲道的線性組合,其中,下混信號的第二聲道(l2)對應于m聲道音頻信號的第二組(402)一個或多個聲道的線性組合,并且其中,第一組和第二組構成m聲道音頻信號的m個聲道的劃分;
接收(1020)所述元數據的至少一部分;
基于下混信號的至少一個聲道來產生(1040)去相關信號(d);
基于接收的元數據來確定(1050)混合系數集合;并且
根據混合系數按照下混信號和去相關信號的線性組合來形成(1060)k聲道輸出信號
其中,混合系數被確定為使得:
輸出信號的第一聲道
輸出信號的第二聲道
第三組和第四組構成m聲道音頻信號的m個聲道的劃分;并且
第三組和第四組都包括所述第一組中的至少一個聲道。
2.根據例子1所述的音頻解碼方法,其中,接收的元數據包括上混參數,并且其中,通過對上混參數進行處理來確定混合系數。
3.根據例子1所述的音頻解碼方法,其中,接收的元數據包括不同于上混參數的混合參數(αlm)。
4.根據例子3所述的音頻解碼方法,其中,獨立于上混參數的任何值確定混合系數。
5.根據前述例子中任一項所述的音頻解碼方法,其中,m=5。
6.根據前述例子中任一項所述的音頻解碼方法,其中,控制m聲道音頻信號的聲道對線性組合中的與下混信號的聲道相對應的一個線性組合的貢獻的每個增益與m聲道音頻信號的所述聲道對線性組合中的由輸出信號的聲道近似的一個線性組合的貢獻的增益是一致的。
7.根據前述例子中任一項所述的音頻解碼方法,進一步包括接收表示下混信號和元數據的位流(b)的初始步驟,
其中,下混信號和所述接收的元數據是從所述位流提取的。
8.根據前述例子中任一項所述的音頻解碼方法,其中,所述去相關信號是單聲道信號,并且其中,通過將至多一個去相關信號聲道包括到下混信號和去相關信號的所述線性組合中來形成所述輸出信號。
9.根據例子8所述的音頻解碼方法,其中,所述混合系數被確定為使得輸出信號的兩個聲道接收來自去相關信號的相等幅度的貢獻,去相關信號對輸出信號的相應聲道的貢獻具有相反符號。
10.根據例子8-9中任一項所述的音頻解碼方法,其中,形成輸出信號相當于從三個聲道到兩個聲道的投射。
11.根據前述例子中任一項所述的音頻解碼方法,其中,所述混合系數被確定為使得控制下混信號的第一聲道對輸出信號的第一聲道的貢獻的混合系數和控制下混信號的第一聲道對輸出信號的第二聲道的貢獻的混合系數的和具有值1。
12.根據前述例子中任一項所述的音頻解碼方法,其中,所述第一組由兩個或三個聲道組成。
13.根據前述例子中任一項所述的音頻解碼方法,其中,所述m聲道音頻信號包括表示m聲道音頻信號的回放環(huán)境中的不同水平方向的三個聲道(l、ls、lb)、以及表示所述回放環(huán)境中的與所述三個聲道的方向垂直分離的方向的兩個聲道(tfl、tbl)。
14.根據例子13所述的音頻解碼方法,其中,所述第一組由所述三個聲道組成,并且其中,所述第二組由所述兩個聲道組成。
15.根據例子14所述的音頻解碼方法,其中,所述第三組和第四組中的一個包括所述兩個聲道兩者。
16.根據例子14所述的音頻解碼方法,其中,所述第三組和第四組均包括所述兩個聲道中的一個。
17.根據前述例子中任一項所述的音頻解碼方法,其中,通過對下混信號的聲道的線性組合進行處理來獲得去相關信號。
18.根據例子1-15中任一項所述的音頻解碼方法,其中,基于下混信號的至多一個聲道來獲得去相關信號。
19.根據例子1-2和5-18中任一項所述的音頻解碼方法,其中,所述第一組由n個聲道組成,其中,n≥3,其中,所述第一組可通過以下方式重構為下混信號的所述第一聲道和(n-1)聲道去相關信號的線性組合,即,將干式上混系數應用于下混信號的第一聲道,并且將濕式上混系數應用于(n-1)聲道去相關信號的聲道,其中,接收的元數據包括干式上混參數和濕式上混參數,并且其中,確定混合系數包括:
基于干式上混參數來確定干式上混系數;
基于接收的濕式上混參數并且在知道具有比接收的濕式上混參數的數量多的元素的中間矩陣屬于預定義矩陣類的情況下填充中間矩陣;
通過將中間矩陣乘以預定義矩陣來獲得濕式上混系數,其中,濕式上混系數對應于從乘法得到的矩陣,并且包括比中間矩陣中的元素的數量多的系數;并且
對干式上混系數和濕式上混系數進行處理。
20.根據前述例子中任一項所述的音頻解碼方法,進一步包括:
接收指示m聲道音頻信號的至少兩種譯碼格式(f1、f2、f3)中的一種譯碼格式的信令(1030),譯碼格式對應于m聲道音頻信號的聲道劃分為與下混信號的聲道相關聯(lián)的相應第一組和第二組的相應不同劃分,
其中,所述第三組和第四組是預定義的,并且其中,混合系數被確定為使得m聲道音頻信號劃分為由輸出信號的聲道近似的所述第三組和第四組聲道的單個劃分對于所述至少兩種譯碼格式被保持。
21.根據例子20所述的音頻解碼方法,進一步包括:
響應于指示特定譯碼格式(f2)的所述信令,使下混信號作為所述輸出信號通過(1070),所述特定譯碼格式對應于m聲道音頻信號的聲道的與所述第三組和第四組定義的劃分一致的劃分。
22.根據例子20所述的音頻解碼方法,進一步包括:
響應于指示特定譯碼格式的所述信令,抑制去相關信號對所述輸出信號的貢獻,所述特定譯碼格式對應于m聲道音頻信號的聲道的與所述第三組和第四組定義的劃分一致的劃分。
23.根據例子20-22中任一項所述的音頻解碼方法,其中,
在第一譯碼格式(f1)中,所述第一組由表示m聲道音頻信號的回放環(huán)境中的不同水平方向的三個聲道(l、ls、lb)組成,并且所述第二組由表示所述回放環(huán)境中的與所述三個聲道的方向垂直分離的方向的兩個聲道(tfl、tbl)組成;并且
在第二譯碼格式(f2)中,所述第一組和第二組均包括所述兩個聲道中的一個。
24.一種音頻解碼系統(tǒng)(800),包括解碼部分(700),被配置為:
接收與元數據相關聯(lián)的兩聲道下混信號(l1、l2),所述元數據包括用于基于下混信號來參數化重構m聲道音頻信號(l、ls、lb、tfl、tbl)的上混參數(αlu),其中,m≥4,其中,下混信號的第一(l1)聲道對應于m聲道音頻信號的第一組(401)一個或多個聲道的線性組合,其中,下混信號的第二聲道(l2)對應于m聲道音頻信號的第二組(402)一個或多個聲道(tfl,tfb)的線性組合,并且其中,第一組和第二組構成m聲道音頻信號的m個聲道的劃分;
接收所述元數據的至少一部分;
基于下混信號和接收的元數據來提供兩聲道輸出信號
所述解碼部分包括:
去相關部分(710),所述去相關部分(710)被配置為接收下混信號的至少一個聲道并且基于其來輸出去相關信號(d);以及
混合部分(720),所述混合部分(720)被配置為:
基于接收的元數據來確定混合系數集合;并且
根據混合系數按照下混信號和去相關信號的線性組合來形成
輸出信號,
其中,所述混合部分被配置為確定混合系數以使得:
輸出信號的第一聲道
輸出信號的第二聲道
第三組和第四組構成m聲道音頻信號的m個聲道的劃分;并且
第三組和第四組都包括所述第一組的至少一個聲道。
25.根據例子24所述的音頻解碼系統(tǒng),進一步包括附加解碼部分(805),所述附加解碼部分(805)被配置為:
接收與附加元數據相關聯(lián)的附加兩聲道下混信號(r1、r2),所述附加元數據包括用于基于附加下混信號來參數化重構附加m聲道音頻信號(r、rs、rb、tfr、tbr)的附加上混參數(αru),其中,附加下混信號的第一聲道(r1)對應于附加m聲道音頻信號的第一組(403)一個或多個聲道的線性組合,其中,附加下混信號的第二聲道(r2)對應于附加m聲道音頻信號的第二組(403)一個或多個聲道的線性組合,并且其中,附加m聲道音頻信號的第一組和第二組聲道構成附加m聲道音頻信號的m個聲道的劃分;
接收附加元數據的至少一部分;并且
基于附加下混信號和接收的附加元數據來提供附加兩聲道輸出信號
所述附加解碼部分包括:
附加去相關部分,所述附加去相關部分被配置為:接收附加下混信號的至少一個聲道,并且基于其來輸出附加去相關信號;以及
附加混合部分,所述附加混合部分被配置為:
基于接收的附加元數據來確定附加混合系數集合;并且
根據附加混合系數按照附加下混信號和附加去相關信號的線性組合來形成附加輸出信號,
其中,所述附加混合部分被配置為確定附加混合系數以使得:
附加輸出信號的第一聲道
附加輸出信號的第二聲道
附加m聲道音頻信號的第三組和第四組聲道構成附加m聲道音頻信號的m個聲道的劃分;并且
附加m聲道音頻信號的第三組和第四組信號都包括附加m聲道音頻信號的所述第一組聲道中的至少一個聲道。
26.根據例子24-25中任一項所述的解碼系統(tǒng),進一步包括:
解復用器(801),所述解復用器(801)被配置為從位流(b)提取下混信號、所述接收的元數據以及分開譯碼的音頻聲道(c);以及
單聲道解碼部分,所述單聲道解碼部分可操作來對所述分開譯碼的音頻聲道進行解碼。
27.一種音頻編碼方法(300),包括:
接收(310)m聲道音頻信號(l、ls、lb、tfl、tbl),其中,m≥4;
基于m聲道下混信號來計算(320)兩聲道下混信號(l1、l2),下混信號的第一聲道(l1)被形成為m聲道音頻信號的第一組(401)一個或多個聲道的線性組合,并且下混信號的第二聲道(l2)被形成為m聲道音頻信號的第二組(402)一個或多個聲道的線性組合,其中,第一組和第二組構成m聲道音頻信號的m個聲道的劃分;
確定(330)用于從下混信號參數化重構m聲道音頻信號的上混參數(αlu);
確定(340)用于基于下混信號來獲得兩聲道輸出信號
輸出(350)下混信號和元數據以用于聯(lián)合存儲或發(fā)送,其中,元數據包括上混參數和混合參數。
28.根據例子27所述的音頻編碼方法,其中,混合參數控制下混信號和去相關信號對輸出信號的相應貢獻,其中,在使得輸出信號的聲道分別成為第一組聲道和第二組聲道的所述線性組合的協(xié)方差保持近似的混合參數之中通過最小化來自去相關信號的貢獻來確定混合參數中的至少一些。
29.根據例子27-28中任一項所述的音頻編碼方法,其中,所述第一組由n個聲道組成,其中,n≥3,其中,上混參數中的至少一些適合于從下混信號的所述第一聲道以及基于下混信號的所述第一聲道確定的(n-1)聲道去相關信號參數化重構所述第一組,其中,確定上混參數包括:
確定干式上混系數集合,以便定義近似于所述第一組的下混信號的所述第一聲道的線性映射;并且
基于接收的所述第一組的協(xié)方差和通過下混信號的所述第一聲道的線性映射近似的所述第一組的協(xié)方差之間的差值來確定中間矩陣,其中,中間矩陣當被乘以預定義矩陣時對應于濕式上混系數集合,所述濕式上混系數集合定義作為所述第一組的參數化重構的一部分的、所述去相關信號的線性映射,其中,所述濕式上混系數集合包括比中間矩陣中的元素的數量多的系數,
其中,所述上混參數包括干式上混參數以及濕式上混參數,干式上混系數集合能夠從所述干式上混參數推導得到,在假定中間矩陣屬于預定義矩陣類的情況下所述濕式上混參數唯一地定義中間矩陣,其中,中間矩陣具有比所述濕式上混參數的數量多的元素。
30.根據例子27-29中任一項所述的音頻編碼方法,進一步包括:
選擇至少兩種譯碼格式(f1、f2、f3)中的一種譯碼格式,所述譯碼格式對應于m聲道音頻信號的聲道劃分為與下混信號的聲道相關聯(lián)的相應第一組和第二組的相應不同劃分,
其中,下混信號的第一聲道和第二聲道根據所選譯碼格式分別被形成為m聲道音頻信號的第一組一個或多個聲道和第二組一個或多個聲道的線性組合,并且其中,基于所選譯碼格式來確定上混參數和混合參數;
所述方法進一步包括:
提供指示所選譯碼格式的信令。
31.一種音頻編碼系統(tǒng)(200),包括編碼部分(100),被配置為:將m聲道音頻信號(l、ls、lb、tfl、tbl)編碼為兩聲道下混信號(l1、l2)和相關聯(lián)的元數據,其中,m≥4,并且輸出下混信號和元數據以用于聯(lián)合存儲或發(fā)送,所述編碼部分包括:
下混部分(110),所述下混部分(110)被配置為基于m聲道音頻信號來計算下混信號,下混信號的第一聲道(l1)被形成為m聲道音頻信號的第一組(401)一個或多個聲道的線性組合,下混信號的第二聲道(l2)被形成為m聲道音頻信號的第二組(402)一個或多個聲道的線性組合,其中,第一組和第二組構成m聲道音頻信號的m個聲道的劃分;以及
分析部分(120),分析部分(120)被配置為確定:
上混參數(αlu),所述上混參數(αlu)用于從下混信號參數化重構m聲道音頻信號;以及
混合參數(αlm),所述混合參數(αlm)用于基于下混信號來獲得兩聲道輸出信號
其中,元數據包括上混參數和混合參數。
32.一種計算機程序產品,所述計算機程序產品包括具有用于執(zhí)行例子1-23和27-30中任一個的方法的指令的計算機可讀介質。
33.一種計算機可讀介質(1100),所述計算機可讀介質(1100)表示:
兩聲道下混信號(l1、l2);
上混參數(αlu),所述上混參數(αlu)使得可以基于下混信號來參數化重構m聲道音頻信號(l、ls、lb、tfl、tbl),其中,m≥4,其中,下混信號的第一聲道(l1)對應于m聲道音頻信號的第一組(401)一個或多個聲道的線性組合,其中,下混信號的第二聲道(l2)對應于m聲道音頻信號的第二組(402)一個或多個聲道的線性組合,并且其中,第一組和第二組構成m聲道音頻信號的m個聲道的劃分;以及
混合參數(αlm),所述混合參數(αlm)使得可以基于下混信號來提供兩聲道輸出信號
34.根據例子33所述的計算機可讀介質,其中,數據載體表示的數據被布置在時間幀中,并且被分層為使得對于給定時間幀,針對該時間幀的下混信號和相關聯(lián)的混合參數能夠獨立于相關聯(lián)的上混參數被提取。