專利名稱:使用時(shí)間分辨率能選擇的低復(fù)雜性頻譜分析/合成的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及諸如信號壓縮和音頻編碼之類的信號處理,更特別地涉及音頻 編碼和音頻解碼以及相應(yīng)的設(shè)備。
背景技術(shù):
編碼器是一種能夠分析諸如音頻信號之類的信號并以編碼的形式輸出信號的設(shè) 備、電路或計(jì)算機(jī)程序。所得到的信號通常用于傳輸、存儲和/加密的目的。另一方面,解 碼器是一種能夠反轉(zhuǎn)編碼器操作的設(shè)備、電路或計(jì)算機(jī)程序,因?yàn)槠浣邮站幋a的信號并且 輸出解碼的信號。在大多數(shù)現(xiàn)有技術(shù)的編碼器(例如音頻編碼器)中,在頻域中分析輸入信號的每 個幀。該分析的結(jié)果被量化和編碼,并且然后根據(jù)應(yīng)用進(jìn)行傳輸或存儲。在接收側(cè)(或者 當(dāng)使用所存儲的編碼信號時(shí)),后面是合成過程的相應(yīng)解碼過程使得有可能在時(shí)域中恢復(fù)信號。編解碼器通常用于壓縮/解壓縮諸如音頻和視頻數(shù)據(jù)之類的信息以便通過帶寬 受限的通信信道進(jìn)行高效的傳輸。特別地,市場高度需要以低比特率傳輸和存儲音頻信號,同時(shí)保持高的音頻質(zhì)量。 例如,在傳輸資源或存儲受限的情況下,低比特率操作是必要的成本因素。例如在移動通信 系統(tǒng)中的流式傳輸和消息接發(fā)應(yīng)用中通常是這種情況。在圖1中示意性地示出使用音頻編碼和解碼的音頻傳輸系統(tǒng)的一般實(shí)例。整個 系統(tǒng)基本上包括在發(fā)射側(cè)的音頻編碼器10和發(fā)射模塊(TX)20以及在接收側(cè)的接收模塊 (RX) 30和音頻解碼器40。公認(rèn)的是,為了處理特別用于音頻編碼應(yīng)用以及一般用于信號壓縮的非穩(wěn)態(tài)信 號,必須格外小心。在音頻編碼中,被稱為前回聲失真的贗象(artifact)會出現(xiàn)在所謂的 變換編碼器中。變換編碼器或更一般而言變換編解碼器(編碼器_解碼器)通?;跁r(shí)域到頻域 的變換,例如DCT(離散余弦變換)、改進(jìn)的離散余弦變換(MDCT)或另一重疊變換。變換編 解碼器的共同特性是,它們對重疊采樣塊(即重疊幀)進(jìn)行操作。由每個幀的變換分析或 等效子帶分析所產(chǎn)生的編碼系數(shù)通常被量化和存儲或者作為比特流傳輸?shù)浇邮諅?cè)。解碼器 一接收到比特流就執(zhí)行解量化和逆變換以便重構(gòu)信號幀。前回聲通常在具有尖銳上升(attack)的信號開始在緊接在低能量區(qū)域后的變換 塊的末端附近時(shí)出現(xiàn)。這種情況例如在編碼打擊樂器(例如響板、鐘琴)的聲音時(shí)出現(xiàn)。在基于塊的算 法中,當(dāng)量化變換系數(shù)時(shí),在解碼器側(cè)的逆變換將在時(shí)間上均勻地?cái)U(kuò)展量化噪聲失真。這導(dǎo) 致在時(shí)間上信號上升之前的低能量區(qū)域上的無掩蔽失真,如在圖2A和2B所示,其中圖2A 示出原始的打擊聲音,以及圖2B示出變換編碼的信號,其顯示出導(dǎo)致前回聲失真的編碼噪 聲的時(shí)間擴(kuò)展。
時(shí)間超前掩蔽(pre-mask)是人類聽覺的心理聲學(xué)特性,其具有掩蔽這一失真的 潛力;然而這僅在變換塊尺寸足夠小以至于出現(xiàn)超前掩蔽時(shí)才有可能。前回聲贗象減輕(現(xiàn)有技術(shù))為了避免這種不期望的贗象,幾種方法已經(jīng)被提出并且被成功地應(yīng)用。這些技術(shù) 的一些已經(jīng)被標(biāo)準(zhǔn)化并且在商業(yè)應(yīng)用上很普遍。比特儲存(bit reservoir)技術(shù)比特儲存技術(shù)背后的思想是保存來自“容易”在頻域中編碼的幀的一些比特。此 后使用所保存的比特以便適應(yīng)要求高的幀,比如瞬態(tài)幀。這導(dǎo)致可變的瞬時(shí)比特率,通過某 種調(diào)整可以使得平均比特率恒定。然而主要的缺點(diǎn)是,實(shí)際上需要非常大的儲存以便處理 某些瞬態(tài),并且這導(dǎo)致非常大的延遲,從而使得該技術(shù)對會話式應(yīng)用沒有多大興趣。另外, 該方法僅稍微減輕了前回聲贗象。增益修正以及時(shí)間噪聲整形在頻譜分析和編碼之前,增益修正方法在時(shí)域中應(yīng)用瞬態(tài)峰值的平滑。增益修正 包絡(luò)被作為輔助信息進(jìn)行發(fā)送,并且被反向應(yīng)用于逆變換信號,從而整形時(shí)間編碼噪聲。增 益修正技術(shù)的主要缺點(diǎn)在于其對濾波器組(例如MDCT)分析窗的修正,因此引入濾波器組 的頻率響應(yīng)的加寬。這可能在低頻下尤其是在帶寬超過臨界頻帶的帶寬的情況下導(dǎo)致問 題。時(shí)間噪聲整形(TNS)受到增益修正技術(shù)的啟發(fā)。增益修正被應(yīng)用于頻域中并且 對頻譜系數(shù)進(jìn)行操作。僅在對前回聲敏感的輸入上升期間應(yīng)用TNS。該思想是在頻率上而 不是在時(shí)間上應(yīng)用線性預(yù)測(LP)。這受如下事實(shí)的推動在瞬態(tài)以及一般而言脈沖信號期 間,通過使用LP技術(shù)來最大化頻域編碼增益。在AAC中TNS被標(biāo)準(zhǔn)化并且被證實(shí)提供對前 回聲贗象的良好減輕。然而,TNS的使用涉及LP分析和濾波,這顯著增加編碼器和解碼器 的復(fù)雜性。另外,LP系數(shù)必須被量化并且作為輔助信息而發(fā)送,這涉及進(jìn)一步的復(fù)雜性和 比特率開銷。窗切換圖3示出窗切換(MPEG-1,層III “mp3”),其中在長窗和短窗之間需要過渡窗“開 始”和“停止”以保留冊(完全重構(gòu))特性。該技術(shù)首先由Edler[l]引入,并且廣泛用于特 別是在基于MDCT的變換編碼算法的情況下的前回聲抑制。窗切換是基于一檢測到瞬態(tài)就 改變變換的時(shí)間分辨率的思想。通常,這涉及將分析塊長度從穩(wěn)態(tài)信號期間的長持續(xù)時(shí)間 改變到當(dāng)檢測到瞬態(tài)時(shí)的短持續(xù)時(shí)間。該思想是基于下面兩種考慮 應(yīng)用于包含瞬態(tài)的短幀的短窗將最小化編碼噪聲的時(shí)間擴(kuò)展,并且允許時(shí)間超 前掩蔽生效和致使聽不見失真。 向包含瞬態(tài)的短時(shí)間區(qū)域分配較高的比特率。盡管窗切換已經(jīng)非常成功,但是它帶來相當(dāng)多的缺點(diǎn)。例如,編解碼器的感知模型 和無損編碼模塊必須支持不同的時(shí)間分辨率,這通常轉(zhuǎn)化成增加的復(fù)雜性。另外,當(dāng)使用重 疊變換(例如MDCT)時(shí),并且為了滿足完全重構(gòu)約束,窗切換需要在短塊和長塊之間插入過 渡窗,如圖3所示。對過渡窗的需要產(chǎn)生進(jìn)一步的缺點(diǎn),即由于切換窗不能瞬時(shí)完成這一事 實(shí)而引起的增加的延遲,以及還有過渡窗的差的頻率局部化特性,其導(dǎo)致編碼增益的大大 減小。
發(fā)明內(nèi)容
本發(fā)明克服了現(xiàn)有技術(shù)方案的這些和其他缺點(diǎn)。因此,通常需要改進(jìn)的信號處理技術(shù)和設(shè)備,更特別地,特別需要用于處理前回聲 失真的新的音頻編解碼器策略。本發(fā)明的一般目的是提供一種對時(shí)域輸入信號的重疊幀進(jìn)行操作的改進(jìn)的信號 處理的方法和設(shè)備。特別地,期望提供一種改進(jìn)的音頻編碼器。本發(fā)明的另一個目的是提供一種基于表示時(shí)域信號的頻譜系數(shù)進(jìn)行操作的改進(jìn) 的信號處理的方法和設(shè)備。特別地,期望提供一種改進(jìn)的音頻解碼器。這些和其他目的由所附的專利權(quán)利要求所限定的本發(fā)明來滿足。本發(fā)明的第一方面涉及一種用于對輸入信號的重疊幀進(jìn)行操作的信號處理的方 法和設(shè)備。本發(fā)明是基于如下構(gòu)思將時(shí)域混疊幀用作時(shí)間分段和頻譜分析的基礎(chǔ),基于時(shí) 域混疊幀來在時(shí)間上執(zhí)行分段,并且基于所得到的時(shí)間段來執(zhí)行頻譜分析。因此可以通過基于應(yīng)用哪個頻譜分析而簡單地適配時(shí)間分段以獲得合適數(shù)目的 時(shí)間段,從而改變整體“分段的”時(shí)間到頻率的變換的時(shí)間分辨率。更具體地,基本的思想是基于重疊幀來執(zhí)行時(shí)域混疊(TDA)以生成相應(yīng)的時(shí)域混 疊幀,并且基于時(shí)域混疊幀來在時(shí)間上執(zhí)行分段以生成至少兩段,所述段也被稱為子幀?;?于這些段,然后執(zhí)行頻譜分析以便為每段獲得表示該段的頻率內(nèi)容的系數(shù)。用于所有段的整體系數(shù)(也被稱為頻譜系數(shù))集提供原始信號幀的能選擇的時(shí) 間-頻率平鋪(tiling)。瞬時(shí)分解成段例如可以被用來減輕前回聲效應(yīng)(例如在瞬態(tài)的情況下),或者通 常用來提供高效信號表示,其允許所討論的幀的比特率高效編碼。本發(fā)明的第一方面特別涉及一種被配置成根據(jù)上述基本原理來操作的音頻編碼
器o本發(fā)明的第二方面涉及一種基于表示時(shí)域信號的頻譜系數(shù)進(jìn)行操作的信號處理 的方法和設(shè)備。本發(fā)明的該方面基本上涉及本發(fā)明的第一方面的信號處理的自然逆操作。 簡言之,基于頻譜系數(shù)的不同子集來執(zhí)行逆分段頻譜分析,以便為每個子集的頻譜系數(shù)生 成逆變換子幀,所述逆變換子幀也被稱為段。然后基于重疊的逆變換子幀來執(zhí)行逆時(shí)間分 段以將這些子幀組合成時(shí)域混疊幀?;谒鰰r(shí)域混疊幀來執(zhí)行逆時(shí)域混疊以實(shí)現(xiàn)時(shí)域信 號的重構(gòu)。本發(fā)明的第二方面特別涉及一種被配置成根據(jù)上述基本原理來操作的音頻解碼
器o當(dāng)閱讀下面對本發(fā)明的實(shí)施例的描述時(shí)將會認(rèn)識到由本發(fā)明提供的進(jìn)一步優(yōu)點(diǎn)。
通過參考與附圖一起得到的下面的描述,將會最好地理解本發(fā)明連同其進(jìn)一步的目的和優(yōu)點(diǎn),其中圖1是示出使用音頻編碼和解碼的音頻傳輸系統(tǒng)的一般實(shí)例的示意性框圖。圖2A示出原始打擊聲音,以及圖2B示出變換編碼的信號,其顯示出導(dǎo)致前回聲失 真的編碼噪聲的時(shí)間擴(kuò)展。圖3示出用于基于變換的編碼的常規(guī)窗切換技術(shù)。圖4A示意性地示出一般MDCT (改進(jìn)的離散余弦變換)正變換。圖4B示意性地示出一般MDCT (改進(jìn)的離散余弦變換)逆變換。圖5是示出將MDCT (改進(jìn)的離散余弦變換)變換分解成兩個級聯(lián)的級的示意圖。圖6是示出根據(jù)本發(fā)明一個優(yōu)選示例性實(shí)施例的用于信號處理的方法的實(shí)例的 示意性流程圖。圖7是根據(jù)本發(fā)明一個優(yōu)選示例性實(shí)施例的一般信號處理設(shè)備的示意性框圖。圖8是根據(jù)本發(fā)明另一個優(yōu)選示例性實(shí)施例的設(shè)備的示意性框圖。圖9是根據(jù)本發(fā)明又一個示例性實(shí)施例的設(shè)備的示意性框圖。圖10是根據(jù)本發(fā)明一個示例性實(shí)施例的時(shí)域混疊重新排序的實(shí)例的示意圖。圖11是根據(jù)本發(fā)明一個示例性實(shí)施例的分段成包括零填充的兩個時(shí)間段的實(shí)例 的示意圖。圖12示出與0. 25的歸一化頻率有關(guān)的圖11的分段的兩個基本函數(shù)的圖以及相 應(yīng)的頻率響應(yīng)圖。圖13示出與0. 25的歸一化頻率有關(guān)的原始MDCT基本函數(shù)的圖以及相應(yīng)的頻率 響應(yīng)圖。圖14是示出根據(jù)本發(fā)明一個示例性實(shí)施例的分段成包括零填充的四個時(shí)間段的 實(shí)例的示意圖。圖15是示出根據(jù)本發(fā)明一個示例性實(shí)施例的分段成包括零填充的八個時(shí)間段的 實(shí)例的示意圖。圖16示出根據(jù)本發(fā)明一個示例性實(shí)施例的針對四段的情況所得到的總變換的實(shí) 現(xiàn)。圖17示出借助于分級方法獲得非均勻分段的示例性方式。圖18示出一檢測到瞬態(tài)就瞬時(shí)切換到更精細(xì)的時(shí)間分辨率的實(shí)例。圖19是示出基于表示時(shí)域信號的頻譜系數(shù)進(jìn)行操作的信號處理設(shè)備的基本實(shí)例 的框圖。圖20是適合于全帶擴(kuò)展的示例性編碼器的框圖。圖21是適合于全帶擴(kuò)展的示例性解碼器的框圖。圖22是根據(jù)本發(fā)明一個優(yōu)選實(shí)施例的逆變換器以及相關(guān)聯(lián)的用于逆時(shí)間分段和 可選重新排序的實(shí)施方式的特定實(shí)例的示意性框圖。
具體實(shí)施例方式在全部附圖中,相同的附圖標(biāo)記將被用于相應(yīng)的或類似的元素。為了更好地理解本發(fā)明,以對變換編碼以及尤其是基于所謂的重疊變換的變換編 碼的簡短介紹來開始可能是有用的。
如先前所述,變換編解碼器通常是基于時(shí)域到頻域的變換,例如DCT (離散余弦變 換)、重疊變換(例如改進(jìn)的離散余弦變換(MDCT))或調(diào)制重疊變換(MLT)。例如,改進(jìn)的離散余弦變換(MDCT)是基于IV類型離散余弦變換(DCT-IV)的傅里 葉相關(guān)的變換,其附加特性是被重疊其被設(shè)計(jì)成在較大數(shù)據(jù)集的連續(xù)塊上執(zhí)行,其中重疊 后續(xù)塊(所謂的重疊幀),以使一個塊的后一半與下一個塊的前一半重合,如圖4A中示意 性所示。除了 DCT的能量集中品質(zhì)之外,該重疊使得MDCT對于信號壓縮應(yīng)用尤其具有吸引 力,因?yàn)樗兄诒苊庠从趬K邊界的贗象。因此,MDCT例如被用于MP3、AC-3、Ogg Verbis 以及AAC中進(jìn)行音頻壓縮。作為一種重疊變換,MDCT在與其他的傅里葉相關(guān)的變換相比時(shí)略有不同。事實(shí)上, MDCT的輸出是輸入的一半。形式上,MDCT是從1^到『的線性映射(其中R表示實(shí)數(shù)集)。在數(shù)學(xué)上,根據(jù)下面的公式將實(shí)數(shù)XyXi,…,x2N變換成實(shí)數(shù)X^,...,X, 根據(jù)慣例,上面的這個公式可以包含附加的歸一化系數(shù)。
逆MDCT被稱為IMDCT。因?yàn)檩敵龊洼斎氲木S數(shù)不同,所以乍一看似乎MDCT應(yīng)該不 是可逆的。然而,通過添加后續(xù)重疊塊(即重疊幀)的重疊IMDCT來實(shí)現(xiàn)完全可逆性,從而 使得消除誤差并且重新得到原始數(shù)據(jù);該技術(shù)被稱為時(shí)域混疊消除(TDAC),并且在圖4B中 示意性示出??傊?,對于正變換來說,(重疊幀之一的)2N個采樣被映射到N個頻譜系數(shù),而對 于逆變換來說,N個頻譜系數(shù)被映射到(重構(gòu)重疊幀之一的)2N個時(shí)域采樣,所述2N個時(shí) 域采樣被重疊相加以形成輸出時(shí)域信號。IMDCT根據(jù)下面的公式將N個實(shí)數(shù)Up…,YN變換成yQ,yi,…,y2N 在典型的信號壓縮應(yīng)用中,使用乘以直接變換的輸入信號\和逆變換的輸出信號 yn的窗函數(shù)\來進(jìn)一步增強(qiáng)變換特性。原則上,xn*yn可以使用不同的窗,但是為了簡單 起見僅考慮相同窗的情況。存在幾種通用正交和雙正交窗。在正交的情況下,一般化的完全重構(gòu)(PR)條件可 以被減少到對窗的奈奎斯特約束和線性相位,即w(2N-l-n) = w(n)w2 (n) +w2 (n+N) = 1,n = 0. . . N-l滿足完全重構(gòu)(PR)條件的任何窗都可以被用來生成濾波器組。然而,為了獲得高 編碼增益,所得到的濾波器組的頻率響應(yīng)應(yīng)該盡可能選擇性的。參考文獻(xiàn)[2]通過MLT (調(diào)制重疊變換)來表示利用正弦窗的MDCT濾波器組,該 正弦窗被定義為 該特定窗(即所謂的正弦窗)在音頻編碼中最流行。例如,它出現(xiàn)在MPEG-1層III (MP3)混合濾波器組以及MPEG-2/4AAC中。促成廣泛使用MDCT進(jìn)行音頻編碼的有吸引力特性之一是基于FFT的快速算法的 可用性。這使得MDCT成為用于實(shí)時(shí)實(shí)施的可行濾波器組。公知的是,窗長度為2N的MDCT可以被分解成兩個級聯(lián)的級。第一級包括時(shí)域混 疊操作(TDA),后面是基于IV類型DCT的第二級,如圖5所示。由下面的矩陣運(yùn)算明確地給出TDA操作 其中xw表示加窗的時(shí)域輸入幀
xw (n) = w (n). x (n),
矩陣IN和JN表示N階單位矩陣和時(shí)間反轉(zhuǎn)矩陣
本發(fā)明的第一方面涉及對輸入信號的重疊幀進(jìn)行操作的信號處理。關(guān)鍵的構(gòu)思 是,將時(shí)域混疊幀用作時(shí)間分段和頻譜分析的基礎(chǔ),以及基于時(shí)域混疊幀在時(shí)間上執(zhí)行分 段并基于所得到的時(shí)間段執(zhí)行頻譜分析。時(shí)間段或者簡而言之段還被稱為子幀。這是很自 然的,因?yàn)閹亩慰梢员环Q為子幀。措詞“段”和“子幀”一般而言將在整個公開中被可互 換地使用。圖6是示出根據(jù)本發(fā)明一個優(yōu)選示例性實(shí)施例的用于信號處理的方法的實(shí)例的 示意性流程圖。如在步驟S1中所示,該過程可以包括可選的預(yù)處理步驟,這稍后將進(jìn)行解 釋和例示。在步驟S2中,基于所選擇的一個重疊幀執(zhí)行時(shí)域混疊(TDA)操作以生成相應(yīng)的 所謂的TDA幀,在執(zhí)行時(shí)間分段之前,所述TDA幀可以可選地在一個或多個級中處理,如在 步驟S3中所示。無論任何,基于時(shí)域混疊幀(其可能已被處理)執(zhí)行時(shí)間分段以在時(shí)間上 生成至少兩段,如在步驟S4中所示。在步驟S5中,基于所述段執(zhí)行所謂的分段頻譜分析, 以便為每段獲得表示該段的頻率內(nèi)容的系數(shù)。優(yōu)選地,頻譜分析是基于對每段應(yīng)用變換以 便為每段產(chǎn)生相應(yīng)的頻譜系數(shù)集。還有可能應(yīng)用可選的后處理步驟(未示出)。頻譜分析可以是基于多個不同變換的任何一個,優(yōu)選地是重疊變換。不同類型的 變換的實(shí)例包括重疊變換(LT)、離散余弦變換(DCT)、改進(jìn)的離散余弦變換(MDCT)、以及調(diào) 制重疊變換(MLT)。因此可以通過基于應(yīng)用哪個頻譜分析而簡單地適配時(shí)間分段以獲得合適數(shù)目的 時(shí)間段,從而改變整體分段的時(shí)間到頻率的變換的時(shí)間分辨率。分段過程可以適于產(chǎn)生非 重疊段、重疊段、非均勻長度段和/或均勻長度段。以這種方式,可以獲得原始信號幀的任 何任意的時(shí)間-頻率平鋪。整個信號處理過程通常在逐幀的基礎(chǔ)上對時(shí)域輸入信號的重疊幀進(jìn)行操作,并且 優(yōu)選地對于多個重疊幀的每一個重復(fù)上面的時(shí)間混疊、分段、頻譜分析以及可選的預(yù)、中和 后處理步驟。優(yōu)選地,本發(fā)明提出的信號處理包括信號分析、信號壓縮和/或音頻編碼。在音頻編碼器中,例如,頻譜系數(shù)通常將被量化成比特流以用于存儲和/或傳輸。圖7是根據(jù)本發(fā)明一個優(yōu)選示例性實(shí)施例的一般信號處理設(shè)備的示意性框圖。該 設(shè)備基本上包括時(shí)域混疊(TDA)單元12、時(shí)間分段單元14以及頻譜分析儀16。在圖7的 基本實(shí)例中,多個重疊幀中的所考慮的幀在TDA單元12中進(jìn)行時(shí)域混疊以生成時(shí)域混疊 幀,并且時(shí)間分段單元14對時(shí)域混疊幀進(jìn)行操作以生成多個時(shí)間段,所述時(shí)間段也被稱為 子幀。頻譜分析儀16被配置用于基于這些段的分段頻譜分析以便為每段生成頻譜系數(shù)集。 所有段的集體頻譜系數(shù)表示所處理的具有比通常更高的時(shí)間分辨率的時(shí)域幀的時(shí)間_頻 率平鋪。因?yàn)楸景l(fā)明將時(shí)域混疊幀用作頻譜分析的基礎(chǔ),所以存在在基于時(shí)域混疊幀的不 分段頻譜分析(所謂的全頻率分辨率處理)與基于相對較短段的分段頻譜分析(所謂的增 加的時(shí)間分辨率處理)之間進(jìn)行瞬時(shí)切換的可能性。優(yōu)選地,這樣的瞬時(shí)切換由切換功能17根據(jù)對輸入信號中的信號瞬態(tài)的檢測來 執(zhí)行??梢栽跁r(shí)域、時(shí)間混疊域或甚至在頻域中檢測瞬態(tài)。典型地,利用比穩(wěn)態(tài)幀更高的時(shí) 間分辨率來處理瞬態(tài)幀,然后可以使用通常的全頻率處理來處理所述瞬態(tài)幀。還存在通過將更多或更少數(shù)目的時(shí)間段用于頻譜分析來瞬時(shí)切換時(shí)間分辨率的 可能性。優(yōu)選地,對多個連續(xù)重疊幀的每一個重復(fù)時(shí)域混疊、時(shí)間分段以及頻譜分析。在本發(fā)明的一個優(yōu)選實(shí)施例中,圖7的信號處理設(shè)備是使用變換編碼進(jìn)行頻譜分 析的音頻編碼器(例如圖1或圖20的音頻編碼器10)的一部分?;谏厦娴摹罢颉边^程,將頻譜系數(shù)集映射到時(shí)域幀的逆操作鏈對本領(lǐng)域技術(shù)人 員來說是容易且自然顯而易見的。簡言之,在本發(fā)明的第二方面中,基于頻譜系數(shù)的不同子集執(zhí)行逆頻譜分析以便 為每個子集的頻譜系數(shù)生成逆變換子幀,所述逆變換子幀也被稱為段。然后基于重疊的逆 變換子幀來執(zhí)行逆時(shí)間分段以將這些子幀組合成時(shí)域混疊幀,并且基于所述時(shí)域混疊幀來 執(zhí)行逆時(shí)域混疊以實(shí)現(xiàn)時(shí)域信號的重構(gòu)。通常執(zhí)行逆時(shí)域混疊以重構(gòu)第一時(shí)域幀,并且然后整個過程基于第一時(shí)域幀與隨 后的第二重構(gòu)時(shí)域幀的重疊相加來合成時(shí)域信號。例如可以參考圖4B的一般重疊相加操 作。優(yōu)選地,逆信號處理包括信號合成和音頻解碼中的至少一個。逆頻譜分析可以是 基于多個不同的逆變換中的任何一個,優(yōu)選地是重疊變換。例如,在音頻解碼應(yīng)用中,使用 逆MDCT變換是有益的。稍后將討論逆操作鏈以及優(yōu)選實(shí)施方式的更詳細(xì)的概述和解釋。圖8是根據(jù)本發(fā)明另一個優(yōu)選示例性實(shí)施例的設(shè)備的示意性框圖。除了圖7的基 本塊之外,圖8的設(shè)備還包括一個或多個可選的處理單元,例如加窗單元11和重新排序單 元13。在圖8的實(shí)例中,可選的加窗單元11基于重疊幀之一來執(zhí)行加窗以生成加窗幀, 該加窗幀被轉(zhuǎn)發(fā)到TDA單元12進(jìn)行時(shí)域混疊?;旧希梢詧?zhí)行加窗以增強(qiáng)變換的頻率選 擇性特性。窗形狀可以被優(yōu)化以滿足特定頻率選擇性標(biāo)準(zhǔn),幾種優(yōu)化技術(shù)可以被使用并且 對于本領(lǐng)域技術(shù)人員來說是公知的。
為了維持輸入信號的全時(shí)間相干性,應(yīng)用時(shí)域混疊重新排序是有益的。為此,可選 的重新排序單元13可以被提供用于重新排序時(shí)域混疊幀以生成重新排序的時(shí)域混疊幀, 其被轉(zhuǎn)發(fā)到分段單元14。以這種方式,基于經(jīng)重新排序的時(shí)域混疊幀來執(zhí)行分段。頻譜分 析儀16優(yōu)選地對從時(shí)間分段單元14生成的段進(jìn)行操作以獲得具有比通常更高的時(shí)間分辨 率的分段頻譜分析。圖9是根據(jù)本發(fā)明又一個示例性實(shí)施例的設(shè)備的示意性框圖。圖9的實(shí)例類似于 圖8的實(shí)例,除了在圖9中明確地指示時(shí)間分段是基于合適的窗函數(shù)集,以及頻譜分析是基 于對(經(jīng)重新排序的)時(shí)域混疊幀的段應(yīng)用變換。在一個特定實(shí)例中,分段包括將零填充添加到(經(jīng)重新排序的)時(shí)域混疊幀并將 所得到的信號分成相對較短的且優(yōu)選重疊的段。優(yōu)選地,頻譜分析是基于對每個所述重疊段應(yīng)用重疊變換,例如MDCT或MLT。在下文中將參考進(jìn)一步的示例性且非限制性實(shí)施例來描述本發(fā)明。如所提到的那樣,本發(fā)明是基于使用時(shí)間混疊信號(時(shí)域混疊操作的輸出)作為 對其應(yīng)用頻譜分析的新的信號幀的構(gòu)思。通過改變在時(shí)間混疊之后應(yīng)用的變換的時(shí)間分辨 率以便獲得(例如MDCT)系數(shù)(例如DCTIV),本發(fā)明允許利用很小的復(fù)雜性開銷且瞬時(shí)地 (即沒有附加的延遲)獲得對任意時(shí)間段的頻譜分析。為了獲得具有預(yù)定時(shí)間分辨率的信號分析,對時(shí)間混疊的加窗輸入信號的優(yōu)選重 疊段直接應(yīng)用適當(dāng)長度的正交變換就足夠了。這些較短長度變換的每個的輸出將產(chǎn)生表示所討論的每段的頻率內(nèi)容的系數(shù)集。 所有段的系數(shù)集將瞬時(shí)提供原始信號幀的任意時(shí)間_頻率平鋪??梢允褂迷撍矔r(shí)分解以便例如在瞬態(tài)的情況下減輕前回聲效應(yīng),以及提供信號的 高效表示,其允許對所討論的幀進(jìn)行比特率高效編碼。時(shí)間混疊的加窗信號的重疊段的長度沒必要相等。因?yàn)樵跁r(shí)間混疊域和通常時(shí)域 中的段之間在時(shí)間上的對應(yīng)性,所以期望水平的時(shí)間分辨率分析將確定段數(shù)以及對其執(zhí)行 頻率分析的每段的長度。本發(fā)明最好和瞬態(tài)檢測器一起應(yīng)用和/或在通過測量為給定的時(shí)間分段集獲得 的編碼增益來編碼的情況下應(yīng)用,其包括每個時(shí)間分段試驗(yàn)的開環(huán)和閉環(huán)二者的編碼增益 估計(jì)。如稍后將例示的那樣,對于編碼和解碼二者來說,本發(fā)明例如與ITU-T G. 722. 1標(biāo) 準(zhǔn)一起很有用,并且尤其是對于“ITU-T G. 722. lfullbandextension for 20kHz full-band audio”標(biāo)準(zhǔn)(現(xiàn)在被重新命名為ITU-TG. 719標(biāo)準(zhǔn))很有用。本發(fā)明允許(例如基于MDCT的)整個變換的時(shí)間分辨率的瞬時(shí)切換。因此,與窗 切換相反,本發(fā)明不要求任何延遲。本發(fā)明具有很低的復(fù)雜性,并且不需要附加的濾波器組。本發(fā)明優(yōu)選地使用與 MDCT相同的變換,即IV類型DCT。本發(fā)明通過瞬時(shí)切換到更高的時(shí)間分辨率來高效地處理前回聲贗象抑制。本發(fā)明還將允許基于信號自適應(yīng)時(shí)間分段來建立閉環(huán)/開環(huán)編碼方案。為了更好地理解本發(fā)明,現(xiàn)在將描述各個(可能可選的)信號處理操作的更詳細(xì) 實(shí)例以及整個實(shí)施方式的進(jìn)一步實(shí)例。下面將主要參考MDCT變換來描述頻譜分析,但是應(yīng)該理解本發(fā)明不限于此,盡管使用重疊變換是有益的。如果存在對時(shí)間相干性的嚴(yán)格要求,則推薦所謂的重新排序。TDA重新排序?yàn)榱吮3州斎胄盘柕臅r(shí)間相干性,時(shí)域混疊操作的輸出需要在進(jìn)一步的處理之前 被重新排序。排序操作是必要的,在沒有排序的情況下所得到的濾波器組的基本函數(shù)將具 有不相干的時(shí)間和頻率響應(yīng)。重新排序操作的實(shí)例在圖10中示出,并且涉及混排TDA輸出 信號茫00的上半部分和下半部分。該重新排序僅是概念性的并且實(shí)際上不涉及計(jì)算。本發(fā) 明不限于圖10中示出的實(shí)例。當(dāng)然,可以實(shí)施其他類型的重新排序。簡單實(shí)施例_改進(jìn)時(shí)間分辨率第一簡單實(shí)施例示出根據(jù)本發(fā)明如何加倍時(shí)間分辨率。因此,為了加倍時(shí)間分辨 率,對v(n)應(yīng)用時(shí)間頻率分析,v(n)被分成兩個優(yōu)選重疊段。因?yàn)関(n)是時(shí)間受限的信 號,所以在v(n)的開始和結(jié)束處添加一定量的零填充。優(yōu)選地,輸入信號是長度為N的重 新排序的時(shí)間混疊的加窗信號。零填充的長度取決于信號v(n)的長度以及期望的段數(shù),在 這種情況下由于期望兩個重疊段,所以零填充的長度等于v(n)的長度的四分之一并且附 加在v(n)的開始和結(jié)束處。使用這樣的零填充導(dǎo)致具有與v(n)的長度相同的長度的兩個 50%重疊的段。優(yōu)選地,所得到的重疊段被加窗,如在圖11中例示的那樣。應(yīng)該注意,盡管在一定 程度上窗形狀可以針對期望的應(yīng)用進(jìn)行優(yōu)化,但是它必須服從完全重構(gòu)約束。這可以在圖 11中看到,其中第二段的窗的右半部對于應(yīng)用于信號v(n)的部分具有值1而對于所附加的 零填充具有值0。所獲得的每段都具有恰好N的長度。對每段應(yīng)用MDCT導(dǎo)致N/2個系數(shù);即總共N 個系數(shù),因此主要采樣所得到的濾波器組,參見圖11。因?yàn)閷Υ靶螤畹募s束,所以操作是可 逆的,并且對兩個MDCT系數(shù)(段1和2的MDCT系數(shù))集應(yīng)用逆操作將重新產(chǎn)生信號v(n)。對于該實(shí)施例來說,所得到的濾波器組基本函數(shù)具有改進(jìn)的時(shí)間局部化,而在頻 率局部化方面是松弛的,根據(jù)時(shí)間_頻率的不確定性原理,這是公知效應(yīng)。圖12示出與歸一化頻率0.25有關(guān)的兩個基本函數(shù)。顯然,時(shí)間擴(kuò)展是很有限的, 然而還看到在時(shí)間擴(kuò)展上存在由于重疊時(shí)間混疊信號的兩個部分而引起的溢出。在時(shí)域中 的該溢出是時(shí)域混疊消除的效應(yīng)并且將總是存在。然而,這可以通過加窗函數(shù)的適當(dāng)選擇 (數(shù)值優(yōu)化)而得以減輕。圖12還示出頻率響應(yīng)。作為比較,在圖13中示出原始MDCT基 本函數(shù),這些基本函數(shù)對應(yīng)于窄得多的頻域采樣,然而它們的時(shí)間跨度寬得多。圖13示出 對應(yīng)于MLT濾波器組的原始基本函數(shù)(MDCT+正弦窗)。更高的時(shí)間分辨率可以通過將經(jīng)重新排序的時(shí)間混疊信號分成更多段來獲得更高的時(shí)間分辨率。圖 14和圖15分別示出對于四段和八段如何實(shí)現(xiàn)更高的時(shí)間分辨率。圖14示出通過分成四段 的更高時(shí)間分辨率,以及圖15示出通過分成八段的更高時(shí)間分辨率。如應(yīng)該理解的那樣, 可以根據(jù)期望的時(shí)間分辨率來使用任何合適數(shù)目的時(shí)間段。一般來說,時(shí)間分段單元被配置成基于時(shí)域混疊幀生成數(shù)目能選擇的N段,其中N 是等于或大于2的整數(shù)。對于四段的情況,圖16示出所得到的整個變換的實(shí)現(xiàn)。在加窗單元11中執(zhí)行輸入幀的加窗,在時(shí)域混疊單元12中執(zhí)行時(shí)間混疊,并且在重新排序單元13中執(zhí)行可選的重 新排序。然后,通過使用后加窗單元14對四段應(yīng)用后加窗并由變換單元16進(jìn)行分段變換 來執(zhí)行分段頻譜分析。優(yōu)選地,整個分段變換是基于分段的MDCT,對每段使用時(shí)間混疊和 DCTIV。非均勻的時(shí)域平鋪利用本發(fā)明,根據(jù)相同的構(gòu)思還有可能獲得非均勻時(shí)間分段。存在至少兩種可能 的方式來執(zhí)行這樣的操作。第一種方法是基于經(jīng)重新排序的時(shí)間混疊信號的非均勻時(shí)間分 段。因此,用來對信號進(jìn)行分段的窗具有不同的長度。第二種方法是基于分級方法。該思想是首先應(yīng)用粗的時(shí)間分段,并且然后對所得 到的粗段進(jìn)一步再應(yīng)用本發(fā)明,直到獲得期望的平鋪。圖17示出可以如何實(shí)施該第二種方法的實(shí)例。對于該實(shí)例,首先根據(jù)本發(fā)明將信 號分成兩個時(shí)間段;然后所述段中的一個被進(jìn)一步分成兩段。合適的變換的實(shí)例是MDCT變 換,對每個所考慮的段使用時(shí)間混疊和DCTIV。具有瞬態(tài)檢測的操作為了減輕前回聲贗象可以使用本發(fā)明,并且在這種情況下本發(fā)明最好與瞬 態(tài)檢測相關(guān)聯(lián),如在圖18中例示的那樣。一檢測到瞬態(tài),瞬態(tài)檢測器就將設(shè)置標(biāo)志 (IsTransient)。然后該瞬態(tài)檢測器標(biāo)志將使用切換機(jī)構(gòu)17從通常的全頻率分辨率處理 (不分段頻譜分析)瞬時(shí)切換到更高的時(shí)間分辨率(分段頻譜分析),如圖18中所描繪的 那樣。利用該實(shí)施例,然后有可能以精細(xì)得多的時(shí)間分辨率來分析瞬態(tài)信號,從而消除討厭 的前回聲贗象。閉合環(huán)路/閉環(huán)編碼操作本發(fā)明還可以被用作一種找出在編碼前對分析信號而言最佳的時(shí)間-頻率平鋪 的手段。可以使用兩個示例性的操作模式閉環(huán)和開環(huán)。在開環(huán)操作中,外部設(shè)備將為給定 的信號幀決定(就編碼效率而言)最好的時(shí)間-頻率平鋪,并且使用本發(fā)明以便根據(jù)最佳 的平鋪來分析信號。在閉環(huán)操作中,使用預(yù)定義的平鋪集,對于這些平鋪中的每一個,根據(jù) 所述平鋪來分析并編碼所述信號。對于每個平鋪,計(jì)算保真度的量度。選擇導(dǎo)致最好保真 度的平鋪。所選擇的平鋪連同對應(yīng)于該平鋪的編碼系數(shù)一起被傳輸?shù)浇獯a器。如所提到的那樣,用于正向過程的上述原理和構(gòu)思允許本領(lǐng)域技術(shù)人員以逆過程 實(shí)現(xiàn)逆操作鏈。圖19是示出基于表示時(shí)域信號的頻譜系數(shù)進(jìn)行操作的信號處理設(shè)備的基本實(shí)例 的框圖。該設(shè)備包括逆變換器42、用于逆時(shí)間分段的單元44、逆TDA單元46、以及可選的重 疊加法器48?;旧希谕麖牧炕?、編碼的比特流中合成時(shí)域信號。一旦重新得到頻譜系數(shù), 就在逆變換器42中基于頻譜系數(shù)的不同子集來執(zhí)行逆頻譜分析以便為每個子集的頻譜系 數(shù)來生成逆變換子幀,所述逆變換子幀也被稱為段。用于逆時(shí)間分段的單元44基于重疊的 逆變換子幀進(jìn)行操作以將這些子幀組合成時(shí)域混疊幀。逆TDA單元46然后基于時(shí)域混疊 幀來執(zhí)行逆時(shí)域混疊以實(shí)現(xiàn)時(shí)域信號的重構(gòu)。逆時(shí)域混疊通常被執(zhí)行以重構(gòu)第一時(shí)域幀,并且然后整個過程可以通過使用重疊 加法器48基于第一時(shí)域幀與隨后的第二重構(gòu)時(shí)域幀的重疊相加來合成時(shí)域信號。
可選的預(yù)、中以及后處理階段可以被包括在圖19的設(shè)備中。逆頻譜分析可以是基于多個不同的逆變換中的任何一個逆變換,優(yōu)選地是重疊變 換。例如在音頻解碼應(yīng)用中,使用逆MDCT變換(IMDCT)是有益的。優(yōu)選地,信號處理設(shè)備被配置成用于信號合成和/或音頻解碼以重構(gòu)時(shí)域音頻信 號。在本發(fā)明的一個優(yōu)選實(shí)施例中,圖19的信號處理設(shè)備是音頻解碼器(例如圖1或圖21 的音頻解碼器40)的一部分。在下文中,將關(guān)于適合于ITU-T G. 722. 1全帶編解碼器擴(kuò)展(即ITU-T G. 719編 解碼器)的特定示例性且非限制性編解碼器實(shí)現(xiàn)來描述本發(fā)明。在該特定實(shí)例中,編解碼 器被呈現(xiàn)為低復(fù)雜性基于變換的音頻編解碼器,其優(yōu)選地以48kHz的采樣率操作,并且提 供范圍從20Hz —直到20kHz的全音頻帶寬。編碼器以20ms的幀處理輸入16比特線性PCM 信號,并且編解碼器具有40ms的總延遲。編碼算法優(yōu)選地是基于具有自適應(yīng)時(shí)間分辨率、 自適應(yīng)比特分配以及低復(fù)雜性格型矢量量化的變換編碼。另外,解碼器可以通過信號自適 應(yīng)噪聲填充或帶寬擴(kuò)展來代替非編碼的頻譜分量。圖20是適合于全帶擴(kuò)展的示例性編碼器的框圖。通過瞬態(tài)檢測器來處理以48kHz 采樣的輸入信號。根據(jù)對瞬態(tài)的檢測,對輸入信號幀應(yīng)用高頻率分辨率或低頻率分辨率 (高時(shí)間分辨率)變換。在穩(wěn)態(tài)幀的情況下,自適應(yīng)變換優(yōu)選地是基于改進(jìn)的離散余弦變換 (MDCT)。對于非穩(wěn)態(tài)幀,使用更高的時(shí)間分辨率變換,而不需要附加延遲并且在復(fù)雜性方面 具有非常小的開銷。非穩(wěn)態(tài)幀優(yōu)選地具有等同于5ms幀的時(shí)間分辨率(盡管可以選擇任一 任意的分辨率)。將所獲得的頻譜系數(shù)分組成不等長度的頻帶會是有益的。估計(jì)每個頻帶的范數(shù) (norm),并且所得到的包括所有頻帶的范數(shù)的頻譜包絡(luò)被量化和編碼。然后通過量化的范 數(shù)來歸一化(normalize)所述系數(shù)。量化的范數(shù)被進(jìn)一步基于自適應(yīng)頻譜加權(quán)而調(diào)整并且 被用作比特分配的輸入?;跒槊總€頻帶分配的比特來對歸一化的頻譜系數(shù)進(jìn)行格型矢量 量化和編碼。非編碼的頻譜系數(shù)的大小被估計(jì)、編碼并且傳輸?shù)浇獯a器。優(yōu)選地,對編碼的 頻譜系數(shù)以及編碼的范數(shù)二者的量化指數(shù)應(yīng)用霍夫曼編碼。圖21是適合于全帶擴(kuò)展的示例性解碼器的框圖。用于指示幀配置(即穩(wěn)態(tài)或瞬 態(tài))的瞬態(tài)標(biāo)志被首先解碼。頻譜包絡(luò)被解碼,并且在解碼器處使用相同的比特精確的范 數(shù)調(diào)整和比特分配算法以便重新計(jì)算比特分配,這對解碼歸一化變換系數(shù)的量化指數(shù)來說 是必需的。在解量化之后,優(yōu)選地通過使用根據(jù)所接收的頻譜系數(shù)(具有非零比特分配的頻 譜系數(shù))而建立的頻譜填充碼本來重新生成低頻非編碼的頻譜系數(shù)(分配的零比特)。噪聲級調(diào)整指數(shù)可以被用來調(diào)整重新生成的系數(shù)的大小。優(yōu)選地使用帶寬擴(kuò)展來 重新生成高頻非編碼的頻譜系數(shù)。解碼的頻譜系數(shù)和重新生成的頻譜系數(shù)被混合并且產(chǎn)生歸一化的頻譜。應(yīng)用解碼 的頻譜包絡(luò),從而產(chǎn)生解碼的全帶頻譜。最后,應(yīng)用逆變換以恢復(fù)時(shí)域解碼信號。這優(yōu)選地通過對于穩(wěn)態(tài)模式應(yīng)用改進(jìn)的 離散余弦逆變換(IMDCT)或者對于瞬態(tài)模式應(yīng)用更高時(shí)間分辨率變換的逆變換來執(zhí)行。適于全帶擴(kuò)展的算法是基于自適應(yīng)變換編碼技術(shù)。它對輸入和輸出音頻的20ms 幀進(jìn)行操作。因?yàn)樽儞Q窗(基本函數(shù)長度)是40ms,并且在連續(xù)輸入幀和輸出幀之間使用50%的重疊,所以有效先行緩沖器大小是20ms。因此,整個算法延遲是40ms,其是幀大小加 上先行大小的和。在使用G. 722. 1全帶編解碼器中經(jīng)歷的所有其他附加延遲歸因于計(jì)算和 /或網(wǎng)絡(luò)傳輸延遲。圖22是根據(jù)本發(fā)明一個優(yōu)選實(shí)施例的逆變換器以及相關(guān)聯(lián)的用于逆時(shí)間分段和 可選重新排序的實(shí)施方式的特定實(shí)例的示意性框圖。逆變換器是基于與逆時(shí)間混疊級聯(lián)的 DCTIV。四個所謂的子頻譜Zlq(k)由逆變換器處理,其中1 = 0,1,2,3,并且首先借助于各自 的DCTIV將每個子頻譜逆變換成時(shí)域混疊域,并且然后進(jìn)行逆時(shí)間混疊(即逆時(shí)域混疊), 以便為每個子頻譜提供整體MDCT類型逆變換。針對每個子幀索引1所得到的信號兮“的長 度等于輸入頻譜的長度(即L/2)的兩倍。使用與編碼器中的那些窗相同的配置來加窗針對每個子幀1所得到的逆時(shí)域混 疊信號。所得到的加窗信號被重疊相加。注意,用于第一m = 0和最后m= 3的子幀的窗 等于零。這是由于在編碼器中使用的零填充。這兩個幀邊緣確實(shí)需要被計(jì)算并且被有效地丟棄。使用在編碼器中執(zhí)行的逆操作 來重新排序所有子幀vq(n)的重疊相加操作的所得到的信號,這產(chǎn)生信號= 0,…, L-1。處于穩(wěn)態(tài)或瞬態(tài)模式的逆變換的輸出具有長度L。在加窗(在圖22中未示出)之 前,所述信號首先根據(jù)下式進(jìn)行逆時(shí)域混疊(ITDA),從而產(chǎn)生長度為2L的信號根據(jù)下式為每個幀r對所得到的信號進(jìn)行加窗 其中h(n)是窗函數(shù)。最后,通過重疊相加用于兩個連續(xù)幀的信號^ )來構(gòu)造輸出全帶信號 上述實(shí)施例僅作為實(shí)例而給出,并且應(yīng)該理解本發(fā)明不限于此。保留此處所公開 并且請求保護(hù)的基本潛在原理的進(jìn)一步的修改、變化和改進(jìn)都在本發(fā)明的范圍內(nèi)。參考文獻(xiàn)[1]B. Edler, "Codierung von Audiosignalen mit iiberlappender Transformation undadaptiven Fensterfunktionen "Frequenz, pp.252-256,1989.[2]H. Malvar, "Lapped Transforms for efficient transform/subband coding".IEEETrans. Acous.,Speech, and Sig. Process.,vol. 38, no. 6,pp.969-978,June 1990.[3]J.Herre andj. D. Johnston, "Enhancing the performance of perceptual audio codersby using temporal noise shaping (TNS),,,in Proc. 101st Conv. Aud. Eng. Soc.,preprint#4384, Nov. 1996.
權(quán)利要求
一種用于對時(shí)域輸入信號的重疊幀進(jìn)行操作的信號處理的方法,所述方法包括以下步驟-基于重疊幀來執(zhí)行時(shí)域混疊(TDA)以生成相應(yīng)的時(shí)域混疊幀;-基于所述時(shí)域混疊幀來在時(shí)間上執(zhí)行分段以生成至少兩段;以及-基于所述至少兩段來執(zhí)行頻譜分析以便為每段獲得表示該段的頻率內(nèi)容的系數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述信號處理包括信號分析、信號壓縮和音頻編 碼中的至少一個。
3.根據(jù)權(quán)利要求1所述的方法,其中,執(zhí)行頻譜分析的所述步驟涉及變換編碼,并且包 括對所述至少兩段的每段應(yīng)用變換的步驟。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述變換包括重疊變換(LT)、離散余弦變換 (DCT)、改進(jìn)的離散余弦變換(MDCT)、以及調(diào)制重疊變換(MLT)中的至少一個。
5.根據(jù)權(quán)利要求1所述的方法,包括根據(jù)對所述輸入信號中的信號瞬態(tài)的檢測而在以 下之間進(jìn)行切換的步驟-基于所述時(shí)域混疊幀的不分段頻譜分析,即所謂的全頻率分辨率處理;以及-基于所述至少兩段的分段頻譜分析,即所謂的增加的時(shí)間分辨率處理。
6.根據(jù)權(quán)利要求1所述的方法,包括切換所述分段頻譜分析的時(shí)間分辨率的步驟。
7.根據(jù)權(quán)利要求1所述的方法,其中,執(zhí)行分段的所述步驟被執(zhí)行以生成以下類型的 段中的至少一種類型非重疊段、重疊段、非均勻長度段、以及均勻長度段。
8.根據(jù)權(quán)利要求1所述的方法,其中,執(zhí)行分段的所述步驟包括基于所述時(shí)域混疊幀 在時(shí)間上執(zhí)行分段以生成數(shù)目能選擇的重疊段的步驟,并且執(zhí)行頻譜分析的所述步驟包括 對每一個所述重疊段應(yīng)用重疊變換的步驟。
9.根據(jù)權(quán)利要求1所述的方法,包括重新排序所述時(shí)域混疊幀以生成經(jīng)重新排序的時(shí) 域混疊幀的步驟,并且執(zhí)行分段的所述步驟是基于所述經(jīng)重新排序的時(shí)域混疊幀。
10.根據(jù)權(quán)利要求9所述的方法,其中,執(zhí)行分段的所述步驟包括將零填充添加到所述 經(jīng)重新排序的時(shí)域混疊幀并將所得到的信號分成相對較短的重疊段的步驟。
11.根據(jù)權(quán)利要求1所述的方法,包括基于所述重疊幀來執(zhí)行加窗以生成重疊的加窗 幀的步驟,并且執(zhí)行時(shí)域混疊的所述步驟是基于所述重疊的加窗幀。
12.根據(jù)權(quán)利要求1所述的方法,其中,執(zhí)行分段的所述步驟包括執(zhí)行非均勻分段的步馬聚o
13.根據(jù)權(quán)利要求12所述的方法,其中,執(zhí)行非均勻分段的所述步驟通過使用不同長 度的窗以用于所述分段而被執(zhí)行。
14.根據(jù)權(quán)利要求12所述的方法,其中,執(zhí)行非均勻分段的所述步驟包括分成至少兩 段的第一分段、以及將所述至少兩段中的至少一個分成更多段的第二分段。
15.根據(jù)權(quán)利要求1所述的方法,其中,在時(shí)間上執(zhí)行分段以及執(zhí)行頻譜分析的至少所 述步驟是響應(yīng)于對所述輸入信號中的瞬態(tài)的檢測而執(zhí)行的。
16.根據(jù)權(quán)利要求1所述的方法,其中,所述信號處理被用于編碼,并且對于不同的分 段來分析關(guān)于編碼效率的保真度,以及基于所述分析來選擇合適的分段。
17.根據(jù)權(quán)利要求1所述的方法,其中,對多個連續(xù)重疊幀中的每一個重復(fù)執(zhí)行時(shí)域混 疊、在時(shí)間上執(zhí)行分段以及執(zhí)行頻譜分析的所述步驟。
18.一種用于對輸入信號的重疊幀進(jìn)行操作的信號處理的設(shè)備,所述設(shè)備包括 -用于基于重疊幀來執(zhí)行時(shí)域混疊(TDA)以生成時(shí)域混疊幀的裝置;-用于基于所述時(shí)域混疊幀來在時(shí)間上執(zhí)行分段以生成至少兩段的裝置;以及 _頻譜分析儀,其被配置成基于所述至少兩段來執(zhí)行分段頻譜分析以便為每段獲得表 示該段的頻率內(nèi)容的系數(shù)。
19.根據(jù)權(quán)利要求18所述的設(shè)備,其中,所述信號處理設(shè)備被配置成用于信號分析、信 號壓縮和音頻編碼中的至少一個。
20.根據(jù)權(quán)利要求18所述的設(shè)備,其中,用于執(zhí)行分段頻譜分析的所述頻譜分析儀被 配置成用于變換編碼,并且包括用于對所述至少兩段的每段應(yīng)用變換的裝置。
21.根據(jù)權(quán)利要求20所述的設(shè)備,其中,用于應(yīng)用變換的所述裝置被配置成基于重疊 變換(LT)、離散余弦變換(DCT)、改進(jìn)的離散余弦變換(MDCT)、以及調(diào)制重疊變換(MLT)中 的至少一個來操作。
22.根據(jù)權(quán)利要求18所述的設(shè)備,包括用于根據(jù)對所述輸入信號中的信號瞬態(tài)的檢測 而在基于所述時(shí)域混疊幀的不分段頻譜分析與基于所述至少兩段的分段頻譜分析之間進(jìn) 行切換的裝置。
23.根據(jù)權(quán)利要求18所述的設(shè)備,包括用于切換用于執(zhí)行分段的所述裝置以及所述頻 譜分析儀的時(shí)間分辨率的裝置。
24.根據(jù)權(quán)利要求18所述的設(shè)備,其中,用于執(zhí)行分段的所述裝置被配置成生成以下 類型的段的至少一種類型非重疊段、重疊段、非均勻長度段、以及均勻長度段。
25.根據(jù)權(quán)利要求18所述的設(shè)備,其中,用于執(zhí)行分段的所述裝置在操作中用于生成 數(shù)目能選擇的重疊段,并且用于執(zhí)行分段頻譜分析的所述頻譜分析儀包括用于對每一個所 述重疊段應(yīng)用重疊變換的裝置。
26.根據(jù)權(quán)利要求18所述的設(shè)備,包括用于重新排序所述時(shí)域混疊幀以生成經(jīng)重新排 序的時(shí)域混疊幀的裝置,并且用于執(zhí)行分段的所述裝置被配置成基于所述經(jīng)重新排序的時(shí) 域混疊幀進(jìn)行操作。
27.根據(jù)權(quán)利要求26所述的設(shè)備,其中,用于執(zhí)行分段的所述裝置包括用于將零填充 添加到所述經(jīng)重新排序的時(shí)域混疊幀的裝置、以及用于將所得到的信號幀分成相對較短的重疊段的裝置。
28.根據(jù)權(quán)利要求18所述的設(shè)備,包括用于基于所述重疊幀來執(zhí)行加窗以生成重疊的 加窗幀的裝置,以及用于執(zhí)行時(shí)域混疊的所述裝置被配置成基于所述重疊的加窗幀進(jìn)行操作。
29.根據(jù)權(quán)利要求18所述的設(shè)備,其中,用于執(zhí)行分段的所述裝置包括用于執(zhí)行非均 勻分段的裝置。
30.根據(jù)權(quán)利要求29所述的設(shè)備,其中,用于執(zhí)行非均勻分段的所述裝置在操作中用 于使用不同長度的窗以用于所述分段。
31.根據(jù)權(quán)利要求29所述的設(shè)備,其中,用于執(zhí)行非均勻分段的所述裝置包括用于執(zhí) 行分成至少兩段的第一分段的裝置、以及用于執(zhí)行將所述至少兩段中的至少一個分成更多 段的第二分段的裝置。
32.根據(jù)權(quán)利要求18所述的設(shè)備,其中,響應(yīng)于對所述輸入信號中的瞬態(tài)的檢測來觸發(fā)分段以及分段頻譜分析的設(shè)備操作。
33.一種對音頻信號的重疊幀進(jìn)行操作的音頻編碼器,所述音頻編碼器包括 -時(shí)域混疊(TDA)單元,其被配置成基于重疊幀來生成時(shí)域混疊幀;-時(shí)間分段單元,其被配置成基于所述時(shí)域混疊幀來生成數(shù)目能選擇的N段,其中N等 于或大于2;以及-變換編碼器,其被配置成基于所述N段來執(zhí)行分段頻譜分析以便為每段獲得表示該 段的頻率內(nèi)容的頻譜系數(shù)。
34.根據(jù)權(quán)利要求33所述的音頻編碼器,包括用于根據(jù)對所述音頻信號中的信號瞬態(tài) 的檢測而在基于所述時(shí)域混疊幀的不分段頻譜分析與基于所述N個信號段的分段頻譜分 析之間進(jìn)行切換的裝置。
35.根據(jù)權(quán)利要求33所述的音頻編碼器,其中,所述變換編碼器被配置成對每段應(yīng)用 變換。
36.根據(jù)權(quán)利要求35所述的音頻編碼器,其中,所述段是重疊段,并且所述變換是使用 了 IV類型的離散余弦變換(DCT)的改進(jìn)的離散余弦變換(MDCT)。
37.根據(jù)權(quán)利要求33所述的音頻編碼器,其中,所述音頻編碼器包括加窗單元,所述加 窗單元被配置成基于所述重疊幀來執(zhí)行加窗以生成重疊的加窗幀,并且所述TDA單元被配 置成基于所述重疊的加窗幀來執(zhí)行時(shí)域混疊,以及所述設(shè)備還包括被配置成重新排序所述 時(shí)域混疊幀以生成經(jīng)重新排序的時(shí)域混疊幀的重新排序單元,并且所述時(shí)間分段單元被配 置成基于所述經(jīng)重新排序的時(shí)域混疊幀進(jìn)行操作。
38.一種基于表示時(shí)域信號的頻譜系數(shù)進(jìn)行操作的信號處理的方法,所述方法包括以 下步驟_基于所述頻譜系數(shù)的不同子集來執(zhí)行逆頻譜分析以便為每個子集的頻譜系數(shù)生成逆 變換子幀;-基于重疊的逆變換子幀來執(zhí)行逆時(shí)間分段以將所述逆變換子幀組合成時(shí)域混疊幀;以及_基于所述時(shí)域混疊幀來執(zhí)行逆時(shí)域混疊以實(shí)現(xiàn)所述時(shí)域信號的重構(gòu)。
39.根據(jù)權(quán)利要求38所述的信號處理的方法,其中,所述信號處理包括信號合成和音 頻解碼中的至少一個。
40.根據(jù)權(quán)利要求38所述的方法,其中,基于所述時(shí)域混疊幀來執(zhí)行逆時(shí)域混疊的所 述步驟被執(zhí)行以重構(gòu)第一時(shí)域幀,并且所述方法還包括基于所述第一時(shí)域幀與隨后的第二 重構(gòu)時(shí)域幀的重疊相加來合成所述時(shí)域信號的步驟。
41.一種基于表示時(shí)域信號的頻譜系數(shù)進(jìn)行操作的音頻解碼器,所述音頻解碼器包括_逆變換器,其基于所述頻譜系數(shù)的不同子集進(jìn)行操作以便為每個子集的頻譜系數(shù)生 成逆變換子幀;_用于基于重疊的逆變換子幀來執(zhí)行逆時(shí)間分段并組合所述逆變換子幀以生成時(shí)域混 疊幀的裝置;以及-用于基于所述時(shí)域混疊幀來執(zhí)行逆時(shí)域混疊以實(shí)現(xiàn)所述時(shí)域信號的重構(gòu)的裝置。
42.根據(jù)權(quán)利要求41所述的音頻解碼器,其中,用于基于所述時(shí)域混疊幀來執(zhí)行逆時(shí)域混疊的所述裝置被配置成重構(gòu)第一時(shí)域幀,并且所述音頻解碼器還包括用于基于所述第 一時(shí)域幀與隨后的第二重構(gòu)時(shí)域幀的重疊相加來合成所述時(shí)域信號的裝置。
43.根據(jù)權(quán)利要求42所述的音頻解碼器,其中,所述逆變換器被配置成對頻譜系數(shù)的 所述子集的每個子集應(yīng)用逆變換以生成相應(yīng)的逆變換子幀。
44.根據(jù)權(quán)利要求43所述的音頻解碼器,其中,所述逆變換是改進(jìn)的離散余弦逆變換 (MDCT)。
全文摘要
信號處理是基于這樣的構(gòu)思將時(shí)域混疊(12,TDA)幀用作時(shí)間分段(14)和頻譜分析(16)的基礎(chǔ),基于時(shí)域混疊幀來在時(shí)間上執(zhí)行分段并且基于所得到的時(shí)間段來執(zhí)行頻譜分析。因此可以通過基于應(yīng)用哪個頻譜分析而簡單地適配時(shí)間分段以獲得合適數(shù)目的時(shí)間段,從而改變整體“分段的”時(shí)間到頻率的變換的時(shí)間分辨率。為所有段獲得的整個頻譜系數(shù)集提供原始信號幀的能選擇的時(shí)間-頻率平鋪。
文檔編號G10L19/02GK101878504SQ200880104832
公開日2010年11月3日 申請日期2008年8月25日 優(yōu)先權(quán)日2007年8月27日
發(fā)明者A·塔萊布 申請人:愛立信電話股份有限公司