用于高頻音頻內(nèi)容的有效恢復(fù)的方法及系統(tǒng)的制作方法
【專利說明】
[0001] 相關(guān)申請(qǐng)的交叉引用
[0002] 本申請(qǐng)要求2012年2月23日提交的歐洲專利申請(qǐng)No. 12156631.9 W及2012年8 月8日提交的美國(guó)臨時(shí)專利申請(qǐng)No. 61/680, 805的優(yōu)先權(quán),在此通過引用W其全部?jī)?nèi)容合 并在本文中。
技術(shù)領(lǐng)域
[0003] 本文檔設(shè)及音頻編碼、解碼和處理的技術(shù)領(lǐng)域。具體地,其設(shè)及W有效方式從音頻 信號(hào)的低頻分量恢復(fù)同一音頻信號(hào)的高頻分量的方法。
【背景技術(shù)】
[0004] 音頻信號(hào)的有效編碼和解碼通常包括基于屯、理聲學(xué)原理減小要編碼、傳輸和/或 解碼的與音頻有關(guān)的數(shù)據(jù)的量。例如,該包括丟棄存在于音頻信號(hào)中但聽者感知不到的所 謂的掩蔽的音頻內(nèi)容。可替代地或另外,當(dāng)僅保持分別計(jì)算關(guān)于其較高頻率內(nèi)容的某些信 息而不實(shí)際直接對(duì)該樣的較高頻率內(nèi)容進(jìn)行編碼時(shí),要編碼的音頻信號(hào)的帶寬可能是有限 的。然后,帶限信號(hào)與所述較高頻率信息一起被編碼和傳輸(或被存儲(chǔ)),后者所要求的資 源少于也對(duì)較高頻率內(nèi)容直接編碼。
[0005] 肥-AAC(高頻-高級(jí)音頻編碼)中的譜帶復(fù)制(SBR)和杜比數(shù)字+中的譜擴(kuò)展 (SPX)是關(guān)于基于音頻信號(hào)的低頻分量W及基于附加的邊帶信息(也稱為較高頻率信息) 來(lái)近似或重建音頻信號(hào)的高頻分量的音頻編碼系統(tǒng)的兩個(gè)示例。在下文中,參照杜比數(shù)字 +的SPX方案。然而,應(yīng)當(dāng)注意的是,本文檔中所描述的方法和系統(tǒng)通??蓱?yīng)用于高頻重建 技術(shù),包括肥-AAC中的SBR。
[0006] 基于SPX的音頻編碼器中的邊帶信息的確定通常受制于顯著的計(jì)算復(fù)雜度。例 如,邊帶信息的確定可能需要音頻編碼器的總計(jì)算資源的大約50%。本文檔描述了使得能 夠降低基于SPX的音頻編碼器的計(jì)算復(fù)雜度的方法和系統(tǒng)。具體地,本文檔描述了使得能 夠在基于SPX的音頻編碼器的背景下降低用于執(zhí)行音調(diào)計(jì)算的計(jì)算復(fù)雜度的方法和系統(tǒng) (其中,音調(diào)計(jì)算會(huì)占用于確定邊帶信息的計(jì)算復(fù)雜度的大約80% )。
【發(fā)明內(nèi)容】
[0007] 根據(jù)一方面,描述了一種用于確定音頻信號(hào)的第一頻率子帶的第一分頻帶音調(diào)值 的方法。音頻信號(hào)可W是多通道音頻信號(hào)(例如,立體聲、5. 1或7. 1多通道信號(hào))的通道 的音頻信號(hào)。音頻信號(hào)可W具有從低信號(hào)頻率到高信號(hào)頻率范圍的帶寬。帶寬可W包括低 頻帶和高頻帶。第一頻率子帶可W位于低頻帶內(nèi)或高頻帶內(nèi)。第一分頻帶音調(diào)值可W指示 位于第一頻率帶內(nèi)的音頻信號(hào)的音調(diào)。如果頻率子帶包括相對(duì)高程度的穩(wěn)定正弦內(nèi)容,貝U 可W認(rèn)為音頻信號(hào)在頻率子帶內(nèi)具有相對(duì)高音調(diào)。另一方面,如果頻率子帶包括相對(duì)高程 度的噪聲,則可W認(rèn)為音頻信號(hào)在該頻率子帶內(nèi)具有低音調(diào)。第一分頻帶音調(diào)值可W取決 于第一頻率子帶內(nèi)的音頻信號(hào)的相位變化。
[000引用于確定第一分頻帶音調(diào)值的方法可w用在音頻信號(hào)的編碼器的背景下。編碼器 可W利用高頻重建技術(shù)如譜帶復(fù)制(SBR)(例如在高效-高級(jí)音頻編碼器肥-AAC的背景下 所使用的)或譜擴(kuò)展(SP幻(例如在杜比數(shù)字+編碼器的背景下所使用的)。第一分頻帶音 調(diào)值可W用于基于音頻信號(hào)的低頻分量(在低頻帶中)來(lái)近似音頻信號(hào)的高頻分量(在高 頻帶中)。具體地,第一分頻帶音調(diào)值可W用于確定邊帶信息,該邊帶信息可W由相應(yīng)的音 頻解碼器用于基于所接收的(解碼的)音頻信號(hào)的低頻分量來(lái)重建音頻信號(hào)的高頻分量。 邊帶信息例如可W指定為了近似高頻分量的頻率子帶而要添加至低頻分量的轉(zhuǎn)換的頻率 子帶的噪聲量。
[0009] 該方法可W包括基于音頻信號(hào)的樣本塊來(lái)確定相應(yīng)的頻率區(qū)間(化equency bin) 集合的變換系數(shù)集合。音頻信號(hào)的樣本序列可W被分組成帖序列,每個(gè)帖包括預(yù)定數(shù)量的 樣本。帖序列中的一個(gè)帖可W被細(xì)分成一個(gè)或更多個(gè)樣本塊。帖的鄰近塊可W重疊(例如, 高至50% )。可W使用時(shí)域到頻域變換如修正離散余弦變換(MDCT)和/或修正離散正弦 變換(MDST)將樣本塊從時(shí)域變換到頻域,從而產(chǎn)生變換系數(shù)集合。通過對(duì)樣本塊應(yīng)用MDST 和MDCT,可W提供復(fù)變換系數(shù)集合。通常,變換系數(shù)的數(shù)量N(化及頻率區(qū)間的數(shù)量腳對(duì)應(yīng) 于塊內(nèi)的樣本的數(shù)量N(例如,N = 128或N = 256)。第一頻率子帶可W包括多個(gè)N頻率區(qū) 間。換句話說,N個(gè)頻率區(qū)間(具有相對(duì)高的頻率分辨率)可W被分組成一個(gè)或更多個(gè)頻 率子帶(具有相對(duì)較低的頻率分辨率),因此,可W提供減小的數(shù)量的頻率子帶(通常,該相 對(duì)于編碼音頻信號(hào)的減小的數(shù)據(jù)速率是有利的),其中,頻率子帶彼此之間具有相對(duì)高頻率 選擇性(由于如下事實(shí);通過對(duì)多個(gè)高分辨率頻率區(qū)間進(jìn)行分組獲得頻率子帶)。
[0010] 該方法還可W包括使用變換系數(shù)集合分別確定頻率區(qū)間集合的區(qū)間音調(diào)值集合。 通常對(duì)于各個(gè)頻率區(qū)間確定(使用各個(gè)頻率區(qū)間的變換系數(shù))區(qū)間音調(diào)值。因此,區(qū)間音 調(diào)值指示各個(gè)頻率區(qū)間內(nèi)的音頻信號(hào)的音調(diào)。例如,區(qū)間音調(diào)值取決于相應(yīng)各個(gè)頻率區(qū)間 內(nèi)的變換系數(shù)的相位變化。
[0011] 該方法還可W包括對(duì)位于第一頻率子帶內(nèi)的頻率區(qū)間集合中的兩個(gè)或更多個(gè)相 應(yīng)的鄰近頻率區(qū)間的區(qū)間音調(diào)值集合中的兩個(gè)或更多個(gè)音調(diào)值的第一子集進(jìn)行組合,從而 產(chǎn)生第一頻率子帶的第一分頻帶音調(diào)值。換句話說,可W通過對(duì)位于第一頻率子帶內(nèi)的兩 個(gè)或更多個(gè)頻率區(qū)間的兩個(gè)或更多個(gè)頻率音調(diào)值進(jìn)行組合來(lái)確定第一分頻帶音調(diào)值。區(qū)間 音調(diào)值集合中的兩個(gè)或更多個(gè)區(qū)間音調(diào)值的第一子集的組合可W包括對(duì)兩個(gè)或更多個(gè)區(qū) 間音調(diào)值進(jìn)行平均和/或?qū)蓚€(gè)或更多個(gè)區(qū)間音調(diào)值進(jìn)行求和。例如,可W基于位于第一 頻率子帶內(nèi)的頻率區(qū)間的區(qū)間音調(diào)值的和來(lái)確定第一分頻帶音調(diào)值。
[0012] 因此,用于確定第一分頻帶音調(diào)值的方法指定:基于位于第一頻率子帶內(nèi)的頻率 區(qū)間的區(qū)間音調(diào)值來(lái)確定位于第一頻率子帶(包括多個(gè)頻率區(qū)間)的第一分頻帶音調(diào)值。 換句話說,提出了 W兩步確定第一分頻帶音調(diào)值,其中第一步驟提供區(qū)間音調(diào)值集合,并且 其中第二步驟對(duì)區(qū)間音調(diào)值集合(中的至少一些)進(jìn)行組合W得到第一分頻帶音調(diào)值。由 于該樣的兩步法,可W基于同一區(qū)間音調(diào)值集合來(lái)確定(針對(duì)不同子帶結(jié)構(gòu)的)不同的分 頻帶音調(diào)值,從而降低利用不同的分頻帶音調(diào)值的音頻編碼器的計(jì)算復(fù)雜度。
[0013] 在一種實(shí)施方式中,該方法還包括通過對(duì)位于第二頻率子帶內(nèi)的頻率區(qū)間集合中 的兩個(gè)或更多個(gè)相應(yīng)的鄰近頻率區(qū)間的區(qū)間音調(diào)值集合中的兩個(gè)或更多個(gè)區(qū)間音調(diào)值的 第二子集進(jìn)行組合來(lái)確定第二頻率子帶中的第二分頻帶音調(diào)值。第一頻率子帶和第二頻 率子帶可w包括至少一個(gè)共同的頻率區(qū)間,并且第一子集和第二子集可w包括相應(yīng)的至少 一個(gè)共同的區(qū)間音調(diào)值。換句話說,可W基于至少一個(gè)共同的區(qū)間音調(diào)值來(lái)確定第一分頻 帶音調(diào)值和第二分頻帶音調(diào)值,從而使得能夠降低與分頻帶音調(diào)值的確定有關(guān)的計(jì)算復(fù)雜 度。例如,第一頻率子帶和第二頻率子帶可W位于音頻信號(hào)的高頻帶內(nèi)。第一頻率子帶可W 比第二頻率子帶窄,并且可W位于第二頻率子帶內(nèi)。第一音調(diào)值可W用在基于SPX的編碼 器的大方差衰減的背景下,第二音調(diào)值可W用在基于SPX的編碼器的噪聲混合的背景下。
[0014] 如上面所指出的,在利用高頻重建化FR)技術(shù)的音頻編碼器的背景下,通常使用 本文所描述的方法。該種HFR技術(shù)通常將音頻信號(hào)的低頻帶中的一個(gè)或更多個(gè)頻率區(qū)間轉(zhuǎn) 換成高頻帶中的一個(gè)或更多個(gè)頻率區(qū)間,W近似音頻信號(hào)的高頻分量。因此,基于音頻信號(hào) 的低頻分量近似音頻信號(hào)的高頻分量可W包括;將與低頻分量對(duì)應(yīng)的低頻帶中的一個(gè)或更 多個(gè)頻率區(qū)間的一個(gè)或更多個(gè)低頻變換系數(shù)復(fù)制到與音頻信號(hào)的高頻分量對(duì)應(yīng)的高頻帶。 當(dāng)確定分頻帶音調(diào)值時(shí),可W考慮該預(yù)定復(fù)制處理。具體地,可W考慮區(qū)間音調(diào)值通常不受 復(fù)制過程影響,從而使得針對(duì)低頻帶內(nèi)的頻率區(qū)間確定的區(qū)間音調(diào)值能夠用于高頻帶內(nèi)的 相應(yīng)副本的頻率區(qū)間。
[0015] 在一種實(shí)施方式中,第一頻率子帶位于低頻帶內(nèi),第二頻率子帶位于高頻帶內(nèi)。該 方法還可W包括通過組合被復(fù)制到第二頻率子帶的頻率區(qū)間中的兩個(gè)或更多個(gè)相應(yīng)頻率 區(qū)間的區(qū)間音調(diào)值集合中的兩個(gè)或更多個(gè)區(qū)間音調(diào)值的第二子集,來(lái)確定第二頻率子帶中 的第二分頻帶音調(diào)值。換句話說,可W基于被復(fù)制到高頻帶的頻率區(qū)間的區(qū)間音調(diào)值來(lái)確 定第二分頻帶音調(diào)值(針對(duì)位于高頻帶內(nèi)的第二頻率子帶)。第二頻率子帶可W包括從位 于第一頻帶內(nèi)的頻率區(qū)間復(fù)制的至少一個(gè)頻率區(qū)間。因此,第一子集和第二子集可W包括 相應(yīng)的至少一個(gè)共同的區(qū)間音調(diào)值,從而降低與確定分頻帶音調(diào)值有關(guān)的計(jì)算復(fù)雜度。
[0016] 如上面所指出的,音頻信號(hào)通常被分組成塊序列(例如,每個(gè)塊包括N個(gè)樣本)。 該方法可W包括基于音頻信號(hào)的相應(yīng)的塊序列來(lái)確定變換系數(shù)集合序列。因此,對(duì)于每個(gè) 頻率區(qū)間,可W確定變換系數(shù)序列。換句話說,對(duì)于特定頻率區(qū)間,變換系數(shù)集合序列可W 包括特定變換系數(shù)的序列。特定變換系數(shù)的序列可W用于確定音頻信號(hào)的塊序列的特定頻 率區(qū)間的區(qū)間音調(diào)值的序列。
[0017] 確定特定頻率區(qū)間的區(qū)間音調(diào)值可W包括;基于特定變換系數(shù)序列確定相位序 列,W及基于相位序列確定相位加速度。特定頻率區(qū)間的區(qū)間音調(diào)值通常是相位加速度的 函數(shù)。例如,可W基于當(dāng)前相位加速度確定音頻信號(hào)的當(dāng)前塊的區(qū)間音調(diào)值??蒞基于當(dāng) 前相位(基于當(dāng)前塊的變換系數(shù)確定)W及基于兩個(gè)或更多個(gè)先前相位(基于兩個(gè)或更多 個(gè)先前塊的兩個(gè)或更多個(gè)變換系數(shù)確定)來(lái)確定當(dāng)前相位加速度。如上面所指出的,特定 頻率區(qū)間的區(qū)間音調(diào)值通常基于同一特定頻率區(qū)間的變換系數(shù)確定。換句話說,頻率區(qū)間 的區(qū)間音調(diào)值通常與其他頻率區(qū)間的區(qū)間音調(diào)值無(wú)關(guān)。
[0018] 如上面已經(jīng)概述的,第一分頻帶音調(diào)值可W用于使用譜擴(kuò)展(SP幻方案基于音頻 信號(hào)的低頻分量來(lái)近似音頻信號(hào)的高頻分量。第一分頻帶音調(diào)值可W用于確定SPX坐標(biāo)重 發(fā)策略、噪聲混合因子和/或大方差衰減。
[0019] 根據(jù)另一方面,描述了用于確定噪聲混合因子的方法。應(yīng)當(dāng)注意的是,本文檔中所 描述的不同方面和方法可任意方式相互組合。噪聲混合因子可W用于基于音頻信號(hào)的 低頻分量來(lái)近似音頻信號(hào)的高頻分量。如上面所概述的,高頻分量通常