用于音頻信號處理的多聲道直接-周圍分解的裝置及方法

文檔序號：9650933閱讀：709來源：國知局

用于音頻信號處理的多聲道直接-周圍分解的裝置及方法
【技術領域】
[0001] 本發(fā)明設及用于音頻信號處理的多聲道直接-周圍分解的裝置及方法。
【背景技術】
[0002] 音頻信號處理變成愈來愈重要。在此領域中，將聲音信號分離成直接聲音信號及周圍聲音信號起到重要作用。
[0003] 一般而言，聲音由直接聲與周圍（或漫射）聲的混合物組成。直接聲由音源發(fā)出，例如樂器、歌手或揚聲器，并且W最短可能路徑到達接收器，例如收聽者的耳道口或麥克風。
[0004] 當收聽直接聲時感知為來自音源方向。用于定位及用于其它空間聲音特性的相關聽覺線索為雙耳間電平差、雙耳間時差及雙耳間同調（interauralcoherence)。造成相同的雙耳間電平差及雙耳間時差的直接聲波被感知為來自相同方向。在無漫射聲存在的情況下，到達左耳及右耳或任何其它多種傳感器的信號為同調。
[0005] 相反地，周圍聲由許多間隔音源或聲音反射邊界發(fā)出促成相同周圍聲。當聲波到達室內壁面時，其部分被反射，并且在室內的全部反射的迭置（又稱混迭）是周圍聲的杰作。其它實施例為聽眾聲（例如掌聲）、環(huán)境聲（例如雨聲）、及其它背景聲（例如增雜人聲）。周圍聲感知為漫射性，無法定位，并且由收聽者造成包封印象（"浸沒于聲音內"）。當使用多個間隔傳感器捕捉周圍聲場時，記錄的信號至少部分為非同調。
[0006] 聲音后現及再現的各項應用可從音頻信號分解成直接信號成分及周圍信號成分獲益。此種信號處理的主要挑戰(zhàn)是針對任意數的輸入聲道信號及針對全部可能的輸入信號特性，達成高度分離同時維持高音質。直接-周圍分解值AD)亦即音頻信號分解成直接信號成分及周圍信號成分許可信號成分的分開再現或修正，例如是音頻信號的上混所期望的。
[0007] 術語上混是指給定具有N聲道的輸入信號，產生具有P聲道的信號的過程，其中， P〉N。其主要應用在使用具有比較輸入信號中可用的聲道更多聲道的環(huán)繞聲設置W再現音頻信號。通過使用改進信號處理算法再現內容，使收聽者能夠使用該多聲道聲音再現設置的全部可用聲道。此種處理可將輸入信號分解成有意義的信號成分（例如基于在立體影像中覺察的位置、直接聲相較于周圍聲、單一樂器）或分解成此等信號成分衰減或加強的信號。
[0008] 兩個上混構思是廣為人知的。
[0009] 1.經引導上混：具有額外信息引導上混過程的上混。額外信息可W特定方式"編碼"于該輸入信號或可另行存儲。
[0010] 2.未經引導上混：沒有任何額外信息，輸出信號排它地得自音頻輸入信號。
[0011] 就直接信號及周圍信號的定位而言，改進上混法可進一步分類?？蓞^(qū)分為"直接/ 周圍法"及"頻帶內"辦法。W直接/周圍為基礎的技術的核屯、成分是提取周圍信號（其饋至例如多聲道環(huán)繞聲設置的后方聲道或高度聲道）。利用后方聲道或高度聲道再現周圍信號引起收聽者的包封印象（"浸沒于聲音內"）。此外，根據直接音源在立體全景中的覺察位置，直接音源可分散在前方聲道。相反地，"頻帶內"辦法針對將全部聲音（直接聲及周圍聲）使用全部可用的揚聲器環(huán)繞該收聽者定位。
[0012] 將音頻信號分解成直接信號及周圍信號也許可例如通過縮放或濾波而分開修正周圍聲或直接聲。一項使用情況是已經使用過高量周圍聲記錄的音樂表演記錄處理。另一項使用情況是制造音頻（例如用于電影聲音或音樂），其中，在不同位置記錄的及因而具有不同周圍聲特性的音頻信號被組合。
[0013] 在任何情況下，此種信號處理的要求針對任意數目的輸入聲道信號及針對全部可能的輸入信號特性達成高度分離同時維持高音質。
[0014] 先前技術針對DAD或衰減或增強直接信號成分或周圍信號成分曾經提出多個辦法，簡短綜述如下。
[0015] 已知的構思系設及語音信號的處理，目標針對從麥克風記錄中去除非期望的背景噪聲。
[0016] 衰減來自具有兩個輸入聲道的語音記錄的混響的方法描述于[1]中。通過衰減輸入信號中的不相關（或漫射）信號成分可減少混響信號成分。處理時在時頻域中實現，使得子帶信號系利用頻譜加權法處理。實數值加權因子使用功率譜密度（PSD)計算
[0017] k) = E找(m，k)X*(m，k)} (I) 陽0化]k) = E陽(m，k)Y*(m，k)} 似
[0019] d)xy(m，k) = E找(m，k)Y*(m，k)}做
[0020] 其中，X(m,k)及Y(m,k)表示時域輸入信號Xt[n]及yjn]的時頻域表示型態(tài)，E{ ?} 為預期運算，并且X*為X的復共輛。
[002U 原作者指出當與（Ky(m，k)成正比時，例如當使用權值等于標準化交叉相關函數 (或同調函數）時，不同的頻譜加權函數為可行。
[0022]
[0023] 根據相似的理論基礎，[2]描述的方法使用頻譜加權（具有在頻帶計算的從標準化交叉相關函數獲得的權重）來提取周圍信號，參考式（4)(或原作者用詞"聲道間短時間同調函數"）。比較[1]的差異為替代衰減漫射件號成分，直接信號成分使用（1-P(m，k)) 的單調穩(wěn)定函數的該等頻譜權重來衰減。
[0024] 使用多聲道Wiener濾波，分解應用于具有二聲道之輸入信號的之上混應用已經描述于巧]。處理在時頻域完成。輸入信號系經模型化為周圍信號與一個活性直接音源 (每個頻帶）的混合物，其中，一個聲道的直接信號限于為第二聲道中的直接信號成分的縮放拷貝，亦即幅值篩選（panning)。篩選系數及直接信號及周圍信號的功率使用標準化交叉相關及二聲道的輸入信號功率估計。直接輸出信號及周圍輸出信號系從輸入信號與實數值加權系數的組合得出。施加額外后縮放使得輸出信號的功率等于估計量。
[0025] [4]中描述的方法根據周圍功率估值而使用頻譜加權提取周圍信號。周圍功率為估值，根據的假設包括二聲道的直接信號成分為全然相關，周圍聲道信號彼此及與直接信號不相關，及二聲道的周圍功率為相等。
[0026] 用于根據指向性音頻編碼值irAC)的立體聲信號的上混方法描述于[5]。DirAC 針對到達方向、漫射性及一聲場頻譜的分析及再現。為了立體聲輸入信號的上混，仿真輸入信號的無回聲B-格式記錄。
[0027] 使用適應性濾波算法從立體聲音提取不相關混迭的方法，旨在利用最小均方 (LM巧算法，使用其它聲道信號預測一個聲道信號中的直接信號成分描述于[6]。接著從輸入信號中減去估計得的直接信號而得到周圍信號。本辦法的理論基礎為預測只針對相關信號有用，預測誤差類似不相關信號?；贚MS原理的各種適應性濾波算法存在并且可行，例如LMS或標準化LMS(NLM巧算法。
[0028] 針對具有多于兩個聲道的輸入信號的分解，一種方法描述于[7]，其中，多聲道信號首先下混W獲得2-聲道立體聲信號，并且隨后應用巧]中呈示的用于處理立體聲輸入信號的方法。
[0029] 針對單聲道信號的處理，[引描述的方法使用頻譜加權提取周圍信號，其中，頻譜權重使用特征提取及監(jiān)督學習計算。
[0030] 另一種針對上混應用從單聲道記錄提取周圍信號的方法從該輸入信號的時頻域表示與其壓縮版本間的差獲得時頻域表示，較佳地使用非負矩陣因式分解來計算巧]。
[0031] 已經產生混迭信號的混迭系統(tǒng)的幅值轉移函數的估計，提取與改變音頻信號中的混迭信號成分的方法描述于[10]。信號成分的頻域表示的幅值的估計利用遞歸過濾獲得且可經修正。

【發(fā)明內容】

[0032] 本發(fā)明的目的是提供用于音頻信號處理的多聲道直接-周圍分解的改良構思。本發(fā)明的目的通過如權利要求1所述的裝置、通過權利要求14所述的方法、及通過權利要求 15所述的計算機程序加W解決。
[0033] 提出一種用于根據兩個或更多個音頻輸入聲道信號生成一個或多個音頻輸出聲道信號的裝置。兩個或更多個音頻輸入聲道信號的每一個包含直接信號部分及周圍信號部分。該裝置包含用于通過估計第一功率譜密度信息及通過估計第二功率譜密度信息而確定一濾波器的濾波器確定單元。此外，該裝置包含用于通過將該濾波器應用于兩個或更多個音頻輸入聲道信號來生成一個或多個音頻輸出聲道信號的信號處理器。第一功率譜密度信息指示關于兩個或更多個音頻輸入聲道信號的功率譜密度信息，并且第二功率譜密度信息指示關于兩個或更多個音頻輸入聲道信號的周圍信號部分的功率譜密度信息?；蛘叩谝还?率譜密度信息指示關于兩個或更多個音頻輸入聲道信號的功率譜密度信息，并且第二功率譜密度信息指示關于兩個或更多個音頻輸入聲道信號的直接信號部分的功率譜密度信息。或者第一功率譜密度信息指示關于兩個或更多個音頻輸入聲道信號的直接信號部分的功率譜密度信息，并且第二功率譜密度信息指示關于兩個或更多個音頻輸入聲道信號的周圍信號部分的功率譜密度信息。
[0034] 實施例提出用于將音頻輸入信號分解成直接信號成分及周圍信號成分的構思，其可應用于聲音后現及再現。此種聲音處理的主要挑戰(zhàn)是針對任意數目的輸入聲道信號及針對全部可能的輸入信號特性達成高度分離同時維持高音質。所提出的構思基于時頻域的多聲道信號處理，結果導致就均方差意義上的限制最佳解，及例如經歷估計期望信號失真的限制，或殘差干設減少的限制。
[0035] 提出用于將音頻輸入信號分解成直接信號成分及周圍信號成分的實施例。此外，將提出計算周圍信號成分的濾波器的導算，并且此外，描述濾波器的應用實施例。
[0036] 若干實施例設及遵照直接/周圍辦法的未經引導的上混，輸入信號具有多于一個聲道。
[0037] 至于所描述分解的設想應用，關注于計算具有與輸入信號等數聲道的輸出信號。針對此項應用，實施例就分離及音質而言提供極佳結果，原因在于其能夠因應直接信號在輸入聲道間有時間延遲的直接信號。與其它構思相反，例如[3]提出的構思，實施例并不假設輸入信號中的直接聲僅通過縮放篩選（幅值篩選），同時也在各聲道的直接信號間導入差異。
[0038] 此外，與只能處理有一或二個聲道的輸入信號的先前技術的全部其它構思相反 (參見上文），實施例能夠在具有任意數聲道的輸入信號上操作。
[0039] 實施例的其它優(yōu)點是控制參數的使用、周圍PSD矩陣的估計、及濾波器的進一步修正，容后詳述。
[0040] 有些實施例針對全部輸入聲音物體提供一致的周圍聲。當輸入信號分解成直接及周圍聲時，有些實施例運用適當音頻信號處理調適周圍聲特性，其它實施例利用人工混響及其它人工周圍聲來替代周圍信號成分。
[0041] 根據實施例，該裝置可進一步包含分析濾波器組，其被配置為將兩個或更多個音頻輸入聲道信號從時域變換成時頻域。該濾波器確定單元可被配置為根據W時頻域表示的音頻輸入聲道信號，通過估計該第一功率譜密度信息及該第二功率譜密度信息來確定該濾波器。該信號處理器可被配置為通過將該濾波器應用于W時頻域表示的兩個或更多個音頻輸入聲道信號上來生成W時頻域表示的一個或多個音頻輸出聲道信號。此外，該裝置可進一步包含合成濾波器組，其被配置為將W時頻域表示的一個或多個音頻輸出聲道信號從時頻域變換成時域。
[0042] 再者，提

完整全部詳細技術資料下載

當前第1頁1 2 3 4 5