專利名稱::語音與音頻信號的改進的變換編碼的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明總體上涉及諸如信號壓縮和音頻編碼之類的信號處理,更特別地涉及改進的變換語音與音頻編碼以及相應的設備。
背景技術(shù):
:編碼器是一種能夠分析諸如音頻信號之類的信號并以編碼的形式輸出信號的設備、電路或計算機程序。所得到的信號通常用于傳輸、存儲和/加密的目的。另一方面,解碼器是一種能夠反轉(zhuǎn)編碼器操作的設備、電路或計算機程序,因為其接收編碼的信號并輸出解碼的信號。在大多數(shù)現(xiàn)有技術(shù)的編碼器(例如音頻編碼器)中,分析輸入信號的每個幀并且將其從時域變換到頻域。這一分析的結(jié)果被量化和編碼,并且然后根據(jù)應用進行傳輸或存儲。在接收側(cè)(或者當使用所存儲的編碼信號時),后面是合成過程的相應解碼過程使得有可能在時域中恢復信號。編解碼器(編碼器_解碼器)通常用于壓縮/解壓縮信息(例如音頻和視頻數(shù)據(jù))以便通過帶寬受限的通信信道進行高效的傳輸。所謂的變換編碼器或更一般而言變換編解碼器通常基于時域到頻域的變換,例如DCT(離散余弦變換)、改進的離散余弦變換(MDCT)或相對于聽覺系統(tǒng)特性允許更好編碼效率的某種其他重疊變換。變換編解碼器的共同特性是,它們對重疊采樣塊(即重疊幀)進行操作。由每個幀的變換分析或等效子帶分析所產(chǎn)生的編碼系數(shù)通常被量化和存儲或者作為比特流傳輸?shù)浇邮諅?cè)。解碼器一接收到比特流就執(zhí)行解量化和逆變換以便重構(gòu)信號幀。所謂的感知(perc印tual)編碼器使用接收目的地(即人類聽覺系統(tǒng))的有損編碼模型,而不是源信號的模型。因此,感知音頻編碼需要編碼音頻信號、結(jié)合聽覺系統(tǒng)的心理聲學知識,以便優(yōu)化/減少忠實再現(xiàn)原始音頻信號所必需的比特數(shù)量。另外,感知編碼試圖除去即不傳輸或近似人類接收者不能感知的信號部分,即與源信號的無損編碼相對的有損編碼。該模型通常被稱為心理聲學模型。一般來說,感知編碼器將具有比波形編碼器更低的信噪比(SNR),并且具有比以相等比特率操作的無損編碼器更高的感知質(zhì)量。感知編碼器在不引入聽得到的量化噪聲的情況下使用剌激的掩蔽模式(maskingpattern)來確定編碼即量化每個頻率子帶所必需的最少比特數(shù)。操作在頻域中的現(xiàn)有感知編碼器通常使用所謂的絕對聽覺閾值(ATH)與掩蔽的音調(diào)和類噪聲擴散二者的組合,以便計算所謂的掩蔽閾值(MT)[1]?;谶@樣的瞬時掩蔽閾值,現(xiàn)有的心理聲學模型計算被用來定形原始頻譜的標度因子,以使編碼噪聲被高能量級分量掩蔽,例如聽不到由編碼器引入的噪聲[2]。感知建模已被廣泛地用于高比特率音頻編碼中。標準化的編碼器(例如MPEG-1層III[3]、MPEG-2高級音頻編碼[4])以128kbps的速率并且對于寬帶音頻相應地以64kbps的速率來實現(xiàn)"CD質(zhì)量"。不過,這些編解碼器根據(jù)定義被強制低估掩蔽的量以確保仍然聽不到失真。而且,寬帶音頻編碼器通常使用高復雜性的聽覺(心理聲學)模型,其在低比特率(低于64kbps)下不是非??煽康?。
發(fā)明內(nèi)容由于前面提到的問題,所以需要在保持低復雜性功能的同時在低比特率下可靠的改進的心理聲學模型。本發(fā)明克服了現(xiàn)有技術(shù)方案的這些和其他缺點?;旧?,在對電信系統(tǒng)中的音頻信號進行感知變換編碼的方法中,最初確定表示時間分段的輸入音頻信號的時間到頻率的變換的變換系數(shù),基于所確定的變換系數(shù)來確定輸入音頻信號的感知子帶的頻譜。隨后,基于所述確定的頻譜來確定每個子帶的掩蔽閾值,對于所確定的其各自的掩蔽閾值來計算每個子帶的標度因子。最后,適配每個子帶的所計算的標度因子以防止由于用于感知上相關(guān)的子帶的編碼而產(chǎn)生的能量損失,即以便達到高質(zhì)量的低比特率編碼。當閱讀下面對本發(fā)明實施例的描述時,將會認識到由本發(fā)明提供的更多優(yōu)點。通過參考與附圖一起得到的下面的描述,可以最好地理解本發(fā)明連同其更多的目的和優(yōu)點,其中圖1示出適合于全帶音頻編碼的示例性編碼器;圖2示出適合于全帶音頻解碼的示例性解碼器;圖3示出通用的感知變換編碼器;圖4示出通用的感知變換解碼器;圖5示出根據(jù)本發(fā)明的心理聲學模型中的方法的一個流程圖;圖6示出在根據(jù)本發(fā)明的方法的情況下的實施例的另一流程圖;圖7示出在根據(jù)本發(fā)明的方法的情況下的實施例的又一流程圖??s寫ATH絕對聽覺閾值BS巴克譜DCT離散余弦變換DFT離散傅里葉變換ERB等效矩形帶寬MDCT改進的離散余弦逆變換MT掩蔽閾值MDCT改進的離散余弦變換SF標度因子具體實施例方式本發(fā)明主要涉及變換編碼,具體涉及子帶編碼。為了簡化對本發(fā)明實施例的下面描述的理解,下面將描述一些關(guān)鍵的定義。電信中的信號處理有時利用"壓擴"來作為利用有限的動態(tài)范圍改善信號表示的一種方法。該術(shù)語是壓縮和擴展的結(jié)合,由此指示信號的動態(tài)范圍在傳輸之前被壓縮并且在接收機處被擴展到原始值。這允許具有大動態(tài)范圍的信號通過具有較小動態(tài)范圍能力的設施來傳輸。在下文中,將關(guān)于適合于ITU-TG.722.1全帶編解碼器擴展(現(xiàn)在被重新命名為ITU-TG.719)的特定示例性且非限制性編解碼器實現(xiàn)來描述本發(fā)明。在該特定實例中,編解碼器被呈現(xiàn)為低復雜性基于變換的音頻編解碼器,其優(yōu)選地以48kHz的采樣率操作,并且提供范圍從20Hz—直到20kHz的全音頻帶寬。編碼器處理20ms幀上的輸入16比特線性PCM信號,并且編解碼器具有40ms的總延遲。編碼算法優(yōu)選地是基于具有自適應時間分辨率、自適應比特分配和低復雜性格型矢量量化的變換編碼。另外,解碼器可以通過信號自適應噪聲填充或者帶寬擴展來代替非編碼的頻譜分量。圖1是適合于全帶音頻編碼的示例性編碼器的框圖。通過瞬態(tài)檢測器來處理以48kHz采樣的輸入信號。根據(jù)對瞬態(tài)的檢測,對輸入信號幀應用高頻率分辨率或低頻率分辨率(高時間分辨率)變換。在穩(wěn)態(tài)幀的情況下,自適應變換優(yōu)選地是基于改進的離散余弦變換(MDCT)。對于非穩(wěn)態(tài)幀,使用更高時間分辨率變換,而不需要附加延遲并且在復雜性方面具有非常小的開銷。非穩(wěn)態(tài)幀優(yōu)選地具有等同于5ms幀的時間分辨率(盡管可以選擇任一任意的分辨率)。將所獲得的頻譜系數(shù)分組成不等長度的頻帶會是有益的??梢怨烙嬅總€頻帶的范數(shù)(norm),并且所得到的包括所有頻帶的范數(shù)的頻譜包絡被量化和編碼。然后通過量化的范數(shù)來歸一化(normalize)所述系數(shù)。量化的范數(shù)被進一步基于自適應頻譜加權(quán)而調(diào)整并且被用作比特分配的輸入?;跒槊總€頻帶分配的比特來對歸一化的頻譜系數(shù)進行格型矢量量化和編碼。非編碼的頻譜系數(shù)的大小被估計、編碼并且傳輸?shù)浇獯a器。優(yōu)選地,對編碼的頻譜系數(shù)以及編碼的范數(shù)二者的量化指數(shù)應用霍夫曼編碼。圖2是適合于全帶音頻解碼的示例性解碼器的框圖。用于指示幀配置(即穩(wěn)態(tài)或瞬態(tài))的瞬態(tài)標志被首先解碼。頻譜包絡被解碼,并且在解碼器處使用相同的比特精確的范數(shù)調(diào)整和比特分配算法以便重新計算比特分配,這對解碼歸一化的變換系數(shù)的量化指數(shù)來說是必需的。在解量化之后,優(yōu)選地通過使用根據(jù)所接收的頻譜系數(shù)(具有非零比特分配的頻譜系數(shù))而建立的頻譜填充碼本來重新生成低頻非編碼的頻譜系數(shù)(分配的零比特)。噪聲級調(diào)整指數(shù)可以被用來調(diào)整重新生成的系數(shù)的大小。優(yōu)選地使用帶寬擴展來重新生成高頻非編碼的頻譜系數(shù)。解碼的頻譜系數(shù)和重新生成的頻譜系數(shù)被混合并且產(chǎn)生歸一化的頻譜。應用解碼的頻譜包絡,從而產(chǎn)生解碼的全帶頻譜。最后,應用逆變換以恢復時域解碼信號。這優(yōu)選地通過對于穩(wěn)態(tài)模式應用改進的離散余弦逆變換(頂DCT)或者對于瞬態(tài)模式應用更高時間分辨率變換的逆變換來執(zhí)行。適于全帶擴展的算法基于自適應變換編碼技術(shù)。它對輸入和輸出音頻的20ms幀進行操作。因為變換窗(基本函數(shù)長度)是40ms并且在連續(xù)輸入幀和輸出幀之間使用50%的重疊,所以有效先行緩沖器大小是20ms。因此,整個算法延遲是40ms,其是幀大小加上先行大小的和。在使用G.722.1全帶編解碼器(ITU-TG.719)中經(jīng)歷的所有其他附加延遲歸因于計算和/或網(wǎng)絡傳輸延遲。5將參考圖3來描述關(guān)于感知變換編碼器的一般且典型的編碼方案。將參考圖4呈現(xiàn)相應的解碼方案。編碼方案或過程的第一步包括通常被稱為信號的加窗的時域處理,這導致輸入音頻信號的時間分段。編解碼器(編碼器和解碼器二者)使用的時域到頻域的變換可以是例如-根據(jù)等式1的離散傅里葉變換(DFT),W-J乂2ff^w=0o,.2-1C1)其中X[k]是加窗的輸入信號x[n]的DFT。N是窗w[n]的大小,n是時間索弓l,以及k是頻率倉(bin)索引,-離散余弦變換(DCT),-根據(jù)等式2的改進的離散余弦變換(MDCT),2W-1廣11,Ae[O,...,iV-l(2),n是時間索引其中X[k]是加窗的輸入信號x[n]的MDCT。N是窗w[n]的大小以及k是頻率倉索引。基于輸入音頻信號的這些頻率表示中的任何一個,感知音頻編解碼器旨在分解頻譜、或其關(guān)于聽覺系統(tǒng)的臨界頻帶(例如所謂的巴克標度)的近似值、或巴克標度的近似值、或者某一其他頻率標度。為了進一步的理解,巴克標度是標準化的頻率標度,其中每個"巴克"(以巴克豪森命名)組成一個臨界帶寬。這一步可以通過根據(jù)感知標度來對變換系數(shù)進行頻率分組而實現(xiàn),參見等式3,所述感知標度是根據(jù)臨界頻帶來建立的。Xb[k]={X[k]},kG[kb,...,kb+「l],bG[1,...,Nb],(3)其中Nb是頻率或心理聲學頻帶的數(shù)目,k是頻率倉索引,以及b是相對索引。如先前所述,感知變換編解碼器依賴于掩蔽閾值MT[b]的估計,以便導出應用于心理聲學子帶域中的變換系數(shù)Xb[k]的頻率成形函數(shù),例如標度因子SF[b]。根據(jù)下面的等式4可以定義定標的頻譜Xsb[k],Xsb[k]=Xb[k]XMT[b],kG[kb,...,kb+「l],bG[1,…,Nb](4)其中Nb是頻率或心理聲學頻帶的數(shù)目,k是頻率倉索引,以及b是相對索引。最后,為了編碼目的,感知編碼器然后可以采用在感知上定標的頻譜。如在圖3中示出的那樣,量化和編碼過程可以執(zhí)行冗余度縮減,其將能夠通過使用定標的頻譜來將原始頻譜的在感知上最相關(guān)的系數(shù)作為重點。在解碼階段(見圖4),通過使用所接收的二進制流量(例如比特流)的解量化和解碼來實現(xiàn)逆操作。這一步之后是逆變換(逆MDCT即MDCT或者逆DFT即IDFT等等)以便使信號返回到時域。最后,使用重疊相加方法來生成在感知上重構(gòu)的音頻信號(即有損編碼),因為僅解碼了在感知上相關(guān)的系數(shù)。為了考慮到聽覺系統(tǒng)限制,本發(fā)明執(zhí)行合適的頻率處理,其允許變換系數(shù)的定標,以使編碼不會改變最終的感知。因此,本發(fā)明使心理聲學建模能夠滿足非常低復雜性應用的需求。這通過使用標度因子的直接和簡化的計算來實現(xiàn)。隨后,標度因子的自適應壓擴/擴展允許具有高感知音頻質(zhì)量的低比特率全帶音頻編碼??傊?,本發(fā)明的技術(shù)能夠在感知上優(yōu)化量化器的比特分配,以使所有在感知上的相關(guān)系數(shù)獨立于原始信號或頻譜動態(tài)范圍而被量化。在下面將描述根據(jù)本發(fā)明的用于心理聲學模型改進的方法和設備的實施例。在下文中將描述被用來導出可用于高效感知編碼的標度因子的心理聲學建模的細節(jié)。參考圖5,將描述根據(jù)本發(fā)明的方法的一般實施例。基本上,音頻信號例如語音信號被提供以用于編碼。如先前所述,該信號根據(jù)標準過程來處理,因此導致加窗的和時間分段的輸入音頻信號。最初在步驟210中確定用于如此的時間分段的輸入音頻信號的變換系數(shù)。隨后,在步驟212中例如根據(jù)巴克標度或某一其他標度來確定感知上分組的系數(shù)或感知頻率子帶。對于每個這樣確定的系數(shù)或子帶,在步驟214中確定掩蔽閾值。另外,在步驟216中為每個子帶或系數(shù)計算標度因子。最后,在步驟218中適配如此計算的標度因子,以防止由于用于在感知上相關(guān)的子帶(即實際上影響在接收的人或裝置處的收聽體驗的子帶)的編碼而產(chǎn)生的能量損失。該適配將因此保持相關(guān)子帶的能量,并且因此將最大化解碼的音頻信號的感知質(zhì)參考圖6,將描述根據(jù)本發(fā)明的心理聲學模型的另一個特定實施例。該實施例使得能夠計算由模型限定的每個心理聲學子帶b的標度因子SF[b]。盡管所描述的實施例的重點在于所謂的巴克標度,但是其僅通過較少的調(diào)整就同樣適用于任何合適的感知標度。在不失一般性的情況下,考慮用于低頻(很少變換系數(shù)的組)的高頻率分辨率以及相反地用于高頻的低頻率分辨率。每個子帶的系數(shù)的數(shù)目可以由感知標度(例如被認為是所謂的巴克標度的好的近似的等效矩形帶寬(ERB))來限定,或者由之后所使用的量化器的頻率分辨率來限定。可替換的解決方案可以是使用這兩個的組合,這取決于所使用的編碼方案。通過將變換系數(shù)X[k]作為輸入,心理聲學分析首先計算根據(jù)下面的等式5所定義的巴克譜BS[b](單位是dB):、乂(5)其中Nb是心理聲學子帶的數(shù)目,k是頻率倉索引,以及b是相對索引。基于對感知系數(shù)或臨界子帶(例如巴克譜)的確定,根據(jù)本發(fā)明的心理聲學模型執(zhí)行前述的掩蔽閾值MT的低復雜性計算。第一步包括通過考慮平均掩蔽來從巴克譜中導出掩蔽閾值MT。在音頻信號中的音調(diào)和噪聲分量之間不產(chǎn)生差異。參見下面的等式6,這通過對于每個子帶b能量減少29dB來實現(xiàn)MT[b]=BS[b]-29,bG[1,...,Nb](6)第二步依賴于在[2]中描述的頻率掩蔽的擴散效應。由此呈現(xiàn)的心理聲學模型考慮了由下式定義的簡化的等式內(nèi)的前向擴散和后向擴散二者7|MT[6]=raax(MT[4,[6-1]-12.5),"[2,…,乂]{,^=max(Mrf4"6+lj-25),&E[UA—1]("最后一步通過利用所謂的絕對聽覺閾值A(chǔ)TH使先前的值達到飽和(saturate)來產(chǎn)生每個子帶的掩蔽閾值,如由等式8所定義的那樣MT[b]=max(ATH[b],MT[b]),bG[1,...,Nb](8)ATH通常被定義為音量級,主體可以以該音量級來檢測50%的時間的特定聲音。根據(jù)所計算的掩蔽閾值MT,本發(fā)明所提出的低復雜性模型旨在為每個心理聲學子帶計算標度因子SF[b]。SF的計算依賴于歸一化步驟和自適應壓擴/擴展步驟二者。基于變換系數(shù)根據(jù)非線性標度(較大的帶寬用于高頻)而分組這一事實,可以在應用掩蔽的擴散之后歸一化在所有子帶中對于MT計算而累積的能量。歸一化步驟可以被寫為等式9:MT加r邁[b]=MT[b]-10Xlogl。(L[Nb]),bG[1,...,Nb](9)其中L[l,,Nb]是每個心理聲學子帶b的長度(變換系數(shù)的數(shù)目)。然后通過假設對于編碼噪聲級來說歸一化的MT即MT旨m是相等的來從歸一化的掩蔽閾值導出標度因子SF,其中所述編碼噪聲級可以由所考慮的編碼方案來引入。然后我們根據(jù)下面的等式10來將標度因子SF[b]定義為MTnOTm值的反(o卯osite),SF[b]=—MT加r邁[b],bG[1,...,Nb](10)然后,減小標度因子的值,以使掩蔽效應被限制到預定的量。該模型可以預知標度因子的可變的(自適應于比特率)或固定的動態(tài)范圍為a=20dB:(in還有可能將該動態(tài)值鏈接到可用的數(shù)據(jù)速率。然后,為了使量化器將低頻分量作為重點,可以調(diào)整標度因子以使在感知上的相關(guān)子帶上不會出現(xiàn)能量損失。典型地,增加用于最低子帶(500Hz以下的頻率)的低SF值(低于6dB),以使它們將被編碼方案認為是感知上相關(guān)的。參考圖7,將描述又一個實施例。存在與參考圖5所述的相同的步驟。另外,在由步驟210確定的變換系數(shù)被用于在步驟212中確定感知系數(shù)或者子帶之前,在步驟211中對其進行歸一化。此外,適配標度因子的步驟218還包括自適應地壓擴標度因子的步驟219以及自適應地平滑標度因子的步驟220。這兩個步驟219、220也可以被自然地包括在圖5和圖6的實施例中。根據(jù)該實施例,根據(jù)本發(fā)明的方法附加地執(zhí)行頻譜信息到由變換域編解碼器所使用的量化器范圍的合適的映射。輸入頻譜范數(shù)的動態(tài)變化被自適應地映射到量化器范圍,以便優(yōu)化信號主要部分的編碼。這通過計算加權(quán)函數(shù)來實現(xiàn),所述加權(quán)函數(shù)能夠?qū)⒃碱l譜范數(shù)壓擴或擴展到量化器范圍。這使得能夠在幾個數(shù)據(jù)速率(中間和低速率)下以高音頻質(zhì)量進行全帶音頻編碼,而不改變最終的感知。本發(fā)明的一個強大的優(yōu)點還是加權(quán)函數(shù)的低復雜性計算,以便滿足非常低復雜性(以及低延遲)應用的需求。根據(jù)該實施例,映射到量化器的信號對應于在變換的譜域(例如頻域)中的輸入信號的范數(shù)(均方根)。這些范數(shù)(具有索引P的子帶)的子帶頻率分解(子帶邊界)必須映射到量化器頻率分辨率(具有索引b的子帶)。然后,對范數(shù)進行大小調(diào)整,并且根據(jù)(前向和后向平滑的)相鄰范數(shù)和絕對最小能量來計算用于每個子帶b的主要范數(shù)。下面描述操作的細節(jié)。最初,將范數(shù)(Spe(p))映射到譜域。這根據(jù)下面的線性操作來執(zhí)行,參見等式12:<formula>formulaseeoriginaldocumentpage9</formula>其中BM是子帶的最大數(shù)目(對于該特定實施方式是20)。在基于使用了44個頻譜子帶的量化器的表1中定義了Hb、Tb和Jb的值。Jb是對應于變換域子帶數(shù)目的總和間隔。表1頻譜映射常數(shù)<table>tableseeoriginaldocumentpage9</column></row><table><table>tableseeoriginaldocumentpage10</column></row><table>映射的頻譜BSpe(b)根據(jù)等式13來前向平滑BSpe(b)=max(BSpe(b),BSpe(b_l)_4),b=1.,B磁,(13)并且根據(jù)下面的等式14來后向平滑BSpe(b)=max(BSpe(b),BSpe(b+l)-4),b=Bmx_l,.,0(14)根據(jù)等式15來閾值化并且再次歸一化所得到的函數(shù)BSpe(b)=T(b)—max(BSpe(b),A(b)),b=0,,BMX_1(15)其中A(b)由表1給出。根據(jù)頻譜的動態(tài)范圍(在該特定實施方式中3=4),進一步由下面的等式16來自適應地壓擴或擴展所得到的函數(shù)卿,=腿(卿,}:—稀)(16)根據(jù)信號的動態(tài)變化(最小值和最大值),計算加權(quán)函數(shù),以使它在其動態(tài)變化超過量化器范圍的情況下壓擴該信號,并且在其動態(tài)變化不能覆蓋量化器的全范圍的情況下擴展該信號。最后,通過(基于變換域的原始邊界)使用逆子帶域映射,將加權(quán)函數(shù)應用于原始范數(shù)以生成將饋給量化器的加權(quán)的范數(shù)。將參考圖8來描述用于實現(xiàn)本發(fā)明的方法的實施例的設備的實施例。該設備包括用于傳送和接收用于處理的音頻信號或音頻信號的表示的輸入/輸出單元I/O。另外,該設備包括變換確定裝置310,其適于確定表示所接收的時間分段的輸入音頻信號(或者這樣的音頻信號的表示)的時間到頻率的變換的變換系數(shù)。根據(jù)另一個實施例,變換確定單元可以適于或者連接到適于歸一化所確定的系數(shù)的范數(shù)單元311。這由圖8中的虛線指示。另外,該設備包括用于基于所確定的變換系數(shù)或歸一化的變換系數(shù)來確定輸入音頻信號或其表示的感知子帶的頻譜的單元312。掩蔽單元314被提供用來基于所述確定的頻譜來確定每個所述子帶的掩蔽閾值MT。最后,該設備包括用于基于所述確定的掩蔽閾值來計算每個所述子帶的標度因子的單元316。該單元316可以被提供有或連接到適配裝置318,其用于適配每個所述子帶的所述計算的標度因子以防止在感知上相關(guān)的子帶的能量損失。對于一個特定的實施例來說,適配單元318包括用于自適應地壓擴所確定的標度因子的單元319、以及用于自適應地平滑所確定的標度因子的單元320。上述設備可以被包括在或者可連接到電信系統(tǒng)中的編碼器或編碼器設備。本發(fā)明的優(yōu)點包括具有高質(zhì)量全帶音頻的低復雜性計算,適于量化器的靈活頻率分辨率,標度因子的自適應壓擴/擴展。本領(lǐng)域技術(shù)人員將會理解,在不偏離本發(fā)明范圍的情況下可以對本發(fā)明進行各種修改和改變,其中本發(fā)明的范圍由所附的權(quán)利要求來限定。參考文獻[1]J.D.Johnston,〃EstimationofPerceptualEntropyUsingNoiseMaskingCriteria〃,Proc.ICASSP,pp.2524-2527,Mai1988.[2]J.D.Johnston,"Transformcodingofaudiosignalsusingperc印tualnoisecriteria",IEEEJ.Select.AreasComm皿.,vol.6,pp.314-323,1988.[3]IS0/IECJTC/SC29/WG11,CD11172-3,"CodingofMovingPicturesandAssociatedAudioforDigitalStorageMediaatuptoabout1.5MBIT/s,Part3AUDI0",1993.[4]IS0/IEC13818-7,"MPEG-2AdvancedAudioCoding,AAC",1997.1權(quán)利要求一種對電信系統(tǒng)中的音頻信號進行感知變換編碼的方法,其特征在于以下步驟確定表示時間分段的輸入音頻信號的時間到頻率的變換的變換系數(shù);基于所述確定的變換系數(shù)來確定所述輸入音頻信號的感知子帶的頻譜;基于所述確定的頻譜來確定每個所述子帶的掩蔽閾值;基于所述確定的掩蔽閾值來計算每個所述子帶的標度因子;適配每個所述子帶的所述計算的標度因子以防止由于用于在感知上相關(guān)的子帶的編碼而產(chǎn)生的能量損失。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述適配步驟包括對每個所述子帶的所述計算的標度因子執(zhí)行自適應的壓擴、擴展和平滑。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,基于預定的量化器范圍來執(zhí)行所述適配步驟以實現(xiàn)編碼過程中高效的比特分配,這將允許在幾個數(shù)據(jù)速率下以高音頻質(zhì)量進行全帶音頻編碼。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述掩蔽閾值確定步驟還包括歸一化所述確定的掩蔽閾值,并且隨后基于所述歸一化的掩蔽閾值來計算所述標度因子。5.根據(jù)權(quán)利要求2所述的方法,其特征在于歸一化所確定的變換系數(shù)并且基于所述歸一化的變換系數(shù)來執(zhí)行所有步驟的另一初始步驟。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述頻譜至少部分地基于巴克譜。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述頻譜進一步基于所述信號中頻率的總數(shù)。8.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述歸一化步驟包括計算變換的譜域中的所述輸入音頻信號的均方根。9.一種用于對電信系統(tǒng)中的音頻信號進行感知變換編碼的設備,其特征在于變換確定裝置,用于確定表示時間分段的輸入音頻信號的時間到頻率的變換的變換系數(shù);頻譜裝置,用于基于所述確定的變換系數(shù)來確定用于所述輸入音頻信號的感知子帶的頻譜;掩蔽裝置,用于基于所述確定的頻譜來確定每個所述子帶的掩蔽閾值;標度因子裝置,用于基于所述確定的掩蔽閾值來計算每個所述子帶的標度因子;適配裝置,用于適配每個所述子帶的所述計算的標度因子以防止在感知上相關(guān)的子帶的能量損失。10.根據(jù)權(quán)利要求9所述的設備,其特征在于,所述適配裝置還包括用于執(zhí)行所述計算的標度因子的自適應的壓擴、擴展和平滑的裝置。11.根據(jù)權(quán)利要求9所述的設備,其特征在于用于歸一化所述確定的變換系數(shù)的另一裝置。12.—種包括根據(jù)權(quán)利要求9所述的設備的編碼器。全文摘要在對電信系統(tǒng)中的音頻信號進行感知變換編碼的方法中,執(zhí)行以下步驟確定表示時間分段的輸入音頻信號的時間到頻率的變換的變換系數(shù);基于所述確定的變換系數(shù)來確定所述輸入音頻信號的感知子帶的頻譜;基于所述確定的頻譜來確定每個所述子帶的掩蔽閾值;基于所述確定的掩蔽閾值來計算每個所述子帶的標度因子;以及最后,適配每個所述子帶的所述計算的標度因子以防止在感知上相關(guān)的子帶的能量損失。文檔編號H04B1/66GK101790757SQ200880104834公開日2010年7月28日申請日期2008年8月26日優(yōu)先權(quán)日2007年8月27日發(fā)明者A·塔萊布,M·布賴恩德申請人:愛立信電話股份有限公司