亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

多聲道數(shù)字音頻編碼設(shè)備及其方法

文檔序號:7510753閱讀:132來源:國知局
專利名稱:多聲道數(shù)字音頻編碼設(shè)備及其方法
多聲道數(shù)字音頻編碼設(shè)備及其方法
本申請是2005年9月7日遞交的申請?zhí)枮?00510095898.6的分案申請。 相關(guān)申請
本申請要求2004年9月17日申請的美國臨時申請60/610,674優(yōu)先權(quán)。
背景技術(shù)
本發(fā)明通常涉及用于編碼和解碼多聲道數(shù)字音頻信號的方法和系統(tǒng)。 更確切地說,本發(fā)明涉及一個低比特率的數(shù)字音頻編碼系統(tǒng),其在獲得透 明的音頻信號再現(xiàn)的同時大大降低了多聲道音頻信號的比特率以便進(jìn)行 有效的發(fā)送或存儲,甚至連聽測專家也不能區(qū)分在解碼器端還原的音頻信 號與原始信號。
多聲道數(shù)字音頻編碼系統(tǒng)通常包括下列元件時間-頻率分析濾波器 組,其產(chǎn)生輸入的PCM(脈沖編碼調(diào)制)樣本的一個頻率表示、叫做子帶樣
本或子帶信號;心理聲學(xué)模型,其基于人耳的聽覺特性來計算一個掩蔽閾 值,而低于該掩蔽閾值的量化噪聲不太可能被聽見;全局比特分配器,其 向每組子帶樣本分配比特資源,以便得到的量化噪聲功率低于掩蔽閾值; 多個量化器,其根據(jù)被分配的比特來量化子帶樣本;多個熵編碼器,其降 低量化指數(shù)中的統(tǒng)計冗余性;和最后的多路復(fù)用器,其把量化指數(shù)的熵編 碼及其它輔助信息打包成一個完整的比特流。
例如,杜比AC-3用可切換窗口尺寸的高頻率分辨率的MDCT(改進(jìn)的入PCM樣本映射到頻域中。穩(wěn)態(tài)信號用512 點(diǎn)的窗口來分析,而暫態(tài)信號與256點(diǎn)的窗口來分析。來自MDCT的子帶 信號被表示為指數(shù)/尾數(shù)并隨后被量化。釆用前向-后向自適應(yīng)的心理聲學(xué) 模型來優(yōu)化量化并減少編碼比特分配信息所需的比特。為了降低解碼器的 復(fù)雜度而不使用熵編碼。最后,量化指數(shù)及其它輔助信息被多路復(fù)用成一 個完整的AC-3比特流。AC-3中配置的自適應(yīng)MDCT的頻率分辨率沒有很 好地與輸入信號特性相匹配,因此它的壓縮特性受到很大的限制。熵編碼 的缺少是限制其壓縮特性的另一個因素。
MPEG1&2層III(MP3)使用一個32頻帶的多相濾波器組,其中的每個 子帶濾波器都跟隨有一個在6和18點(diǎn)之間切換的自適應(yīng)MDCT。 一個高級 心理聲學(xué)模型被用來指導(dǎo)其比特分配和標(biāo)量非均勻量化。哈夫曼
(Huffman)碼被用來編碼量化指數(shù)和大部分的其它輔助信息?;旌蠟V波器 組的較差的頻率隔離極大地限制了它的壓縮特性而且具有很高的算法復(fù) 雜性。
DTS相干聲學(xué)采用一個32頻帶的多相濾波器組以獲得輸入信號的低 分辨率頻率表示。為了補(bǔ)償較差的頻率分辨率,ADPCM(自適應(yīng)差分脈碼 調(diào)制)被選擇性地用于每個子帶。如果ADPCM產(chǎn)生一個良好的編碼增益, 則均勻標(biāo)量量化被直接應(yīng)用于子帶樣本或應(yīng)用于預(yù)測殘差。矢量量化可以 選擇性地被應(yīng)用到高頻率的子帶。哈夫曼碼可以選擇性地被應(yīng)用到標(biāo)量量 化指數(shù)及其它輔助信息。因為多相濾波器組+ADPCM的結(jié)構(gòu)根本不能提 供良好的時間和頻率分辨率,所以它的壓縮特性很低。MPEG 2 AAC和MPEG 4 AAC采用一個自適應(yīng)MDCT濾波器組,其 窗口尺寸可以在256和2048之間切換。心理聲學(xué)模型產(chǎn)生的掩蔽閾值被用 來指導(dǎo)其標(biāo)量非均勻量化和比特分配。哈夫曼碼被用來編碼量化指數(shù)和大 部分的其它輔助信息。諸如TNS(暫時噪聲整形)、增益控制(類似于MP3 的混合濾波器組)、頻譜預(yù)測(子帶內(nèi)的線性預(yù)測)之類的許多其它的工具被 用來進(jìn)一步增強(qiáng)它的壓縮特性,而這以極大地增加了算法復(fù)雜性為代價。
因此,仍然需要一個低比特率的音頻編碼系統(tǒng),其極大地降低了多聲 道音頻信號的比特率以用于有效發(fā)送或存儲,而同時也能獲得透明的音頻 信號再現(xiàn)。本發(fā)明滿足了這個需要并提供了其它的相關(guān)優(yōu)點(diǎn)。

發(fā)明內(nèi)容
在以下討論中,術(shù)語"分析/合成濾波器組"等指的是執(zhí)行時間-頻率的
分析/合成的設(shè)備或方法。它可以非限制性地包括如下 酉變換;
臨界采樣的、均勻的、或非均勻的帶通濾波器組時變或非時變組; 諧波或正弦波的分析器/合成器。
多相濾波器組、DFT(離散傅里葉變換)、DCT(離散余弦變換)以及 MDCT是一些被廣泛使用的濾波器組。術(shù)語"子帶信號或子帶樣本"等指的 是出自分析濾波器組和進(jìn)入合成濾波器組的信號或樣本。
本發(fā)明的一個目的是為多聲道音頻信號的低比特率編碼提供與現(xiàn)有 技術(shù)同樣水平的壓縮性能但卻降低了算法復(fù)雜性。這由編碼器在編碼端側(cè)完成,編碼器包括-
1) 成幀器,用于把輸入的PCM樣本聚類分割成準(zhǔn)穩(wěn)態(tài)幀,其大小是 分析濾波器組的子帶數(shù)的整數(shù)倍,并且其時間范圍是2到50ms。
2) 暫態(tài)檢測器,用于檢測該幀中暫態(tài)的存在。 一個實施例是根據(jù)取子 帶距離測量的閾值,閾值從低頻率分辨率模式下的分析濾波器組的子帶樣 本中獲得。
3) 可變分辨率的分析濾波器組,用于把輸入的PCM樣本轉(zhuǎn)換成子帶 樣本,它可以用下列之一來執(zhí)行
a)濾波器組,可以在高、中、低頻率分辨率模式之間切換其操作。 高頻率分辨率模式用于穩(wěn)態(tài)幀,而中、低頻率分辨率模式用于具有暫 態(tài)的幀。在一個暫態(tài)幀內(nèi),低頻率分辨率模式被用于暫態(tài)段,而中間 分辨率模式被用于該幀的剩余部分,在這個架構(gòu)之下存在三類幀
i) 濾波器組只以高頻率分辨率模式操作來處理的穩(wěn)態(tài)幀;
ii) 濾波器組以中、高時間分辨率模式操作來處理的暫態(tài)幀;
iii) 濾波器組只以中間分辨率模式操作處理的慢暫態(tài)幀; 兩個優(yōu)選實施例被給出如下
i) DCT實現(xiàn),其中,三個級別的分辨率對應(yīng)于三個DCT塊長度;
ii) MDCT實現(xiàn),其中,三個級別的分辨率對應(yīng)于三個MDCT塊 長度或窗口長度。定義多個窗口類型以橋接這些窗口之間的轉(zhuǎn)換。b)混合濾波器組,其基于一個可以在高、低分辨率模式之間切換 其操作的濾波器組;
i) 在當(dāng)前幀中不存在暫態(tài)時,它切換到高頻率分辨率模式以確
保穩(wěn)態(tài)段的高壓縮性能;
ii) 在當(dāng)前幀中存在暫態(tài)時,它切換到低頻率分辨率/高時間分
辨率模式以避免前向回聲效應(yīng)。這個低頻率分辨率模式還跟隨有 一個暫態(tài)聚類分割級,其把子帶樣本分成穩(wěn)態(tài)段,然后可選地在
每個子帶中后跟一個任意分辨率的濾波器組或ADPCM,如果被選 擇的話,可用于向每個穩(wěn)態(tài)段提供適合的頻率分辨率。
給出兩個實施例,其中, 一個基于DCT而另一個基于MDCT。給 出兩個暫態(tài)段的實施例出,其中, 一個基于取閾值而另一個基于k均 值算法,兩個實施例都使用子帶距離測量。
2) 計算掩蔽閾值的心理聲學(xué)模型。
3) 可選的和/差編碼器,其把左右聲道對中的子帶樣本轉(zhuǎn)換成和/差聲 道對。
4) 可選的聯(lián)合強(qiáng)度編碼器,其對比源聲道來提取聯(lián)合聲道的強(qiáng)度比例 因子(引導(dǎo)向量),將聯(lián)合聲道合并到源聲道中,并丟棄聯(lián)合聲道中的各個 子帶樣本。
5) 全局比特分配器,其把比特資源分配給多組子帶樣本,以便它們的 量化噪聲功率低于掩蔽閾值。6) 標(biāo)量量化器,其用比特分配器提供的步長來量化所有的子帶樣本。
7) 可選的交錯器,當(dāng)幀中存在暫態(tài)時,其被選擇性地用來從新排列量
化指數(shù)以便于降低比特總數(shù)。
8) 熵編碼器,其基于量化指數(shù)的局部統(tǒng)計特征把最佳的碼書從碼書庫
分配給多組量化指數(shù),包括下列步驟
a) 把最佳碼書分配給每個量化指數(shù),因此實質(zhì)上把量化指數(shù)轉(zhuǎn)換
成碼書指數(shù)。
b) 把這些碼書指數(shù)分成很大的段,段邊界定義了碼書的應(yīng)用范圍。
一個優(yōu)選實施例是
c) 把量化指數(shù)分塊為區(qū)組(granule),每個區(qū)組包括固定數(shù)目的量 化指數(shù)。
d) 確定每個區(qū)組的最大碼書需求。
e) 把最小碼書分配給一個能容納其最大碼書需求的區(qū)組
f) 清除那些碼書指數(shù)比其近鄰的碼書指數(shù)小的孤立的小塊區(qū)域; 那些對應(yīng)于零量化指數(shù)的碼書指數(shù)的孤立小塊區(qū)域可以不經(jīng)過這樣 的處理。
用于對編碼碼書應(yīng)用范圍進(jìn)行編碼的一個優(yōu)選實施例使用了游程長 度碼。9) 熵編碼器,其用碼書及其由熵碼書選擇器確定的應(yīng)用范圍來編碼所
有的量化指數(shù)。
10) 多路復(fù)用器,其把量化指數(shù)的所有熵代碼和輔助信息打包成一個 完整的比特流,這樣構(gòu)造是為了量化指數(shù)出現(xiàn)在用于量化步長的指數(shù)之 前。這個構(gòu)造使得不必要把每個暫態(tài)段的量化單元數(shù)打包進(jìn)比特流,因為 它可以從被解包的量化指數(shù)中恢復(fù)。
本發(fā)明的解碼器包括
1) 多路解復(fù)用器,用于從比特流解包不同的碼字;
2) 量化指數(shù)碼書解碼器,用于從比特流中解碼用于量化指數(shù)的熵碼書 及其各個應(yīng)用范圍(application range);
3) 熵解碼器,用于從比特流中解碼量化指數(shù);
4) 可選的去交錯器,在當(dāng)前幀中存在暫態(tài)時,其選擇性地從新排列量 化指數(shù);
5) 量化單元個數(shù)再造器,其用下列步驟從量化指數(shù)中重建每個暫態(tài)段
的量化單元個數(shù)
a) 為每個暫態(tài)段找到具有非零量化指數(shù)的最大子帶;
b) 找到能容納這個子帶的最小臨界頻帶,這就是這個暫態(tài)段的量
化單元個數(shù);
6) 步長解包器,其解包所有量化單元的量化步長;7) 逆量化器,其從量化指數(shù)和步長中重建子帶樣本;
8) 可選的聯(lián)合強(qiáng)度解碼器,其利用聯(lián)合強(qiáng)度比例因子(引導(dǎo)向量)從源 聲道的子帶樣本中重建聯(lián)合聲道的子帶樣本;
9) 可選的和/差解碼器,其從和/差聲道的子帶樣本中重建左右聲道的 子帶樣本;
10) 可變分辨率的合成濾波器組,其從子帶樣本中重建音頻PCM樣 本,這可以通過以下來執(zhí)行
a) 合成濾波器組,能夠在高、中、低分辨率模式之間切換其操作;
b) 混合合成濾波器組,其是基于一個能夠在高、低分辨率模式之 間切換的合成濾波器組;
i) 當(dāng)比特流指示當(dāng)前幀是用可變換分辨率的分析濾波器組以 低頻率分辨率模式來編碼時,這個合成濾波器組是一個二級混合 濾波器組,其中,第一級是一個任意分辨率的合成濾波器組或一 個逆ADPCM,而第二級是可在高、低頻率分辨率模式之間切換的 自適應(yīng)合成濾波器組的低頻率分辨率模式;
ii) 當(dāng)比特流指示當(dāng)前幀是用可變換分辨率的分析濾波器組以 高頻率分辨率模式來編碼時,這個合成濾波器組只不過是高頻率 分辨率模式下的可變換分辨率的合成濾波器組。
最后,本發(fā)明提供了一個低編碼延遲模式,這個模式在可切換分辨率 分析濾波器組的高頻率分辨率模式被編碼器禁止時被啟動,并且?guī)L隨后被減小到在低頻率分辨率模式下的可切換分辨率濾波器組的塊長或其整 數(shù)倍。
根據(jù)本發(fā)明,編碼多聲道數(shù)字音頻信號的方法通常包括從多聲道數(shù)字
音頻信號創(chuàng)建PCM樣本和把該P(yáng)CM樣本轉(zhuǎn)換成子帶樣本的步驟。具有邊 界的多個量化指數(shù)通過量化子帶樣本而被創(chuàng)建。通過把預(yù)先設(shè)計的碼書庫 中能夠容納量化指數(shù)的最小的碼書分配給每個量化指數(shù),量化指數(shù)被轉(zhuǎn)換 成碼書指數(shù)。在創(chuàng)建用于存儲或發(fā)送的編碼數(shù)據(jù)流之前,碼書指數(shù)被聚類 分割和編碼。
一般來說,PCM樣本被輸入到持續(xù)時間在2到50毫秒(ms)之間的準(zhǔn)穩(wěn)
態(tài)幀中。掩蔽閾值可使用例如一個心理聲學(xué)模型來計算。比特分配器把比 特資源分配到多組子帶樣本中,以便量化噪聲功率低于掩蔽閾值。
轉(zhuǎn)換步驟包括使用一個有選擇地在高、低頻率分辨率模式下切換的 分辨率濾波器組。檢測暫態(tài),當(dāng)沒有檢測到暫態(tài)時使用高頻率分辨率模式; 然而,當(dāng)檢測到暫態(tài)時,分辨率濾波器組被切換到低頻率分辨率模式。隨 著把分辨率濾波器組切換到低頻率分辨率模式,子帶樣本就被分成穩(wěn)態(tài) 段。每個穩(wěn)態(tài)段的頻率分辨率用任意分辨率的濾波器組或自適應(yīng)差分脈碼 調(diào)制來修整。
量化指數(shù)可以在幀中存在暫態(tài)時被從新排列以降低比特總數(shù)。游程長 度編碼器可用于編碼最佳熵碼書的應(yīng)用邊界,可以采用聚類分割算法。
和/差編碼器可以被用來把左右聲道對中的子帶樣本轉(zhuǎn)換到和/差聲道 對中。此外,聯(lián)合強(qiáng)度編碼器可用于對比源聲道來提取聯(lián)合聲道的強(qiáng)度比例因子,把聯(lián)合聲道合并成源聲道,并且丟棄聯(lián)合聲道中所有的相關(guān)子帶 樣本。
一般來說,創(chuàng)建一個完整的比特數(shù)據(jù)流的組合步驟通過在存儲或向解 碼器發(fā)送編碼數(shù)字音頻信號之前使用一個多路復(fù)用器來執(zhí)行。
解碼音頻數(shù)據(jù)比特流的方法包括如通過使用一個多路解復(fù)用器來接 收編碼音頻數(shù)據(jù)流并解包該數(shù)據(jù)流。熵碼書指數(shù)及其各自的應(yīng)用范圍被解 碼。這可能涉及游程長度和熵解碼器。它們還被用來解碼量化指數(shù)。
當(dāng)在當(dāng)前幀中檢測到暫態(tài)時,量化指數(shù)如通過用去交錯器來從新排 列。子帶樣本然后從被解碼的量化指數(shù)中重建。通過使用可在低和高頻率 分辨率模式之間切換的可變分辨率的合成濾波器組,音頻PCM樣本從重 建的子帶樣本中被重建。當(dāng)數(shù)據(jù)流指示當(dāng)前幀是用可切換分辨率分析濾波 器組以低頻率分辨率模式來編碼時,可變合成分辨率濾波器組用作一個二 級混合濾波器組,其中,第一級包括一個任意分辨率的合成濾波器組或一 個逆自適應(yīng)差分脈碼調(diào)制,第二級是可變合成濾波器組的低頻率分辨率模 式。當(dāng)數(shù)據(jù)流指示當(dāng)前幀是用可切換分辨率的分析濾波器組以高頻率分辨 率模式來編碼時,可變分辨率合成濾波器組在高頻率分辨率模式下操作。
一個聯(lián)合強(qiáng)度解碼器可用于用聯(lián)合強(qiáng)度比例因子從源聲道子帶樣本 中重建聯(lián)合聲道子帶樣本。此外,和/差解碼器可以被用來從和/差聲道子 帶樣本中重建左右聲道的子帶樣本。
本發(fā)明結(jié)果是一個低比特率的數(shù)字音頻編碼系統(tǒng),其極大地降低了多 聲道音頻信號的比特率以用于有效發(fā)送,同時還獲得透明的音頻信號再現(xiàn),以致于很難將它與原始信號區(qū)分。
本發(fā)明的其它特征和優(yōu)點(diǎn)將參考附圖從下列詳細(xì)說明中變得明顯,其 通過舉例的方式來說明本發(fā)明的原理。


下列附圖用來說明本發(fā)明。在這些附圖中
圖1是一個示意圖,描述根據(jù)本發(fā)明的多聲道數(shù)字音頻信號的編碼和 解碼;
圖2是一個示意圖,說明了根據(jù)本發(fā)明使用的一個示例性編碼器;
圖3是具有任意分辨率的濾波器組的可變分辨率的分析濾波器組的一 個示意圖4是具有ADPCM的可變分辨率的分析濾波器組的一個示意圖5是根據(jù)本發(fā)明的用于可切換MDCT窗口類型的示意圖6是根據(jù)本發(fā)明的暫態(tài)段的一個示意圖7是根據(jù)本發(fā)明的具有兩個分辨率模式的可切換濾波器組的一個應(yīng) 用示意圖8是根據(jù)本發(fā)明的具有三個分辨率模式的可切換濾波器組的一個應(yīng) 用示意類似于圖5,圖9是根據(jù)本發(fā)明的用于具有三個分辨率模式的可切換 MDCT的其它窗口類型的示意圖10描述了根據(jù)本發(fā)明的具有三個分辨率模式的可切換MDCT窗口 序列的一組例子;
圖11是本發(fā)明與先有技術(shù)相比的熵碼書的確定示意圖;圖12是根據(jù)本發(fā)明把碼書指數(shù)分成很大的段或消除碼書指數(shù)的孤立
的小塊區(qū)域的示意圖13是本發(fā)明配備的解碼器的示意圖14是根據(jù)本發(fā)明的具有任意分辨率的濾波器組的可變分辨率的合 成濾波器組的一個示意圖15是具有逆ADPCM的可變分辨率合成濾波器組的一個示意圖;和
圖16是根據(jù)本發(fā)明當(dāng)使用半混合濾波器組或可切換濾波器組十 ADPCM時的比特流的結(jié)構(gòu)示意圖。
圖17是在處理只間隔一幀的暫態(tài)時,短到短轉(zhuǎn)換的長窗口的優(yōu)點(diǎn)示 意圖。
圖18是根據(jù)本發(fā)明當(dāng)使用三模式可切換濾波器組時的比特流的結(jié)構(gòu) 示意圖。
具體實施例方式
如附圖中所示,為了說明的目的,本發(fā)明涉及一個低比特率數(shù)字音頻 編碼和解碼系統(tǒng),其極大地降低了多聲道音頻信號的比特率以用于有效發(fā) 送或存儲,同時也實現(xiàn)了透明的音頻再現(xiàn)。即,多聲道編碼的音頻信號比 特率通過使用算法復(fù)雜度較低的系統(tǒng)來減小,而且即使是聽測專家也無法 區(qū)分在解碼器端上還原的音頻信號與原始信號。
如圖1中所示,本發(fā)明的編碼器5將多聲道音頻信號作為輸入并將其 編碼成比特流,并且極大地降低了比特率以適于在聲道容量有限的媒介上 發(fā)送或存儲。只要接收到由編碼器5產(chǎn)生的比特流,解碼器10就對其進(jìn)行解碼并重建甚至聽測專家也不能將其與原始信號區(qū)別的多聲道音頻信號。
在編碼器5和解碼器10內(nèi)部,多聲道音頻信號被作為離散聲道來處 理。g卩,每個聲道與其它聲道同樣地來對待,除非清楚地指定了聯(lián)合聲道
編碼2。這在圖1中用極度簡化的編碼器和解碼器結(jié)構(gòu)做出了說明。
利用這種極度簡化的編碼器結(jié)構(gòu),其編碼處理過程說明如下。來自每 個聲道的音頻信號首先在分析濾波器組的第一級1中被分解成子帶信號。
來自所有聲道的子帶信號被選擇性地送到聯(lián)合聲道編碼器2,其通過組合
對應(yīng)于來自不同聲道的相同頻帶的子帶信號,采用人耳的聽覺特性來降低 比特率??梢栽?中聯(lián)合編碼的子帶信號然后被量化并在3中被編碼。量 化指數(shù)或它們的熵編碼以及來自所有聲道的輔助信息然后在4中被多路復(fù) 用成一個完整的比特流以用于發(fā)送或存儲。
在解碼端上,比特流首先在6中被多路解復(fù)用為輔助信息和量化指數(shù) 或其熵編碼。熵編碼在7中被解碼(注意諸如哈夫曼碼之類的前綴碼的熵 解碼和多路解復(fù)用通常在一個單個步驟中執(zhí)行)。子帶信號在7中利用量化 指數(shù)和由輔助信息攜帶的步長被重建。如果在編碼器中使用聯(lián)合聲道編 碼,則聯(lián)合聲道解碼在8中被執(zhí)行。然后,每個聲道的音頻信號在合成級 9中利用子帶信號被重建。
上述極度簡化的編碼器和解碼器結(jié)構(gòu)被用來單獨(dú)說明本發(fā)明給出的 編碼和解碼方法的離散特性。實際應(yīng)用于音頻信號每個聲道的編碼和解碼 方法差別懸殊并且更加復(fù)雜。除非另作說明,則這些方法在音頻信號的一 個聲道環(huán)境中被描述如下。編碼器
編碼音頻信號的一個聲道的通用方法在圖2中被描述如下
成幀器11把持續(xù)時間從2到50ms的輸入PCM樣本分成準(zhǔn)穩(wěn)態(tài)幀。一 幀中PCM樣本的確切個數(shù)必須是在可變分辨率的時間-頻率分析濾波器組 13中使用的不同濾波器組的子帶最大個數(shù)的整數(shù)倍。假定子帶的最大數(shù) 是N,那么一幀中PCM樣本的個數(shù)是
其中,k是一個正整數(shù)。
暫態(tài)分析12檢測當(dāng)前輸入幀中暫態(tài)的存在并將該信息傳遞給可變分 辨率分析組13。
在這里可以采用任何已知的暫態(tài)檢測方法。在本發(fā)明的一個實施例 中,PCM樣本的輸入幀被送到可變分辨率的分析濾波器組的低頻率分辨 率模式。讓4附,^表示來自這個濾波器組的輸出樣本,其中,m是子帶指 數(shù)而n是子帶域中的時間指數(shù)(temporal index)。在以下討論中,術(shù)語" 暫態(tài)檢測距離"等指的是為每個時間指數(shù)定義的距離測量
<formula>formula see original document page 17</formula>

<formula>formula see original document page 17</formula>
其中,M是濾波器組的子帶個數(shù)。其它類型的距離測量也可以用類似的方法被采用。讓£_ =^^£(")和£^ =氣/"£(")是這個距離的最大和最小 值,如果
<formula>formula see original document page 18</formula> (閾值)
則聲明存在暫態(tài),其中,閾值可以被設(shè)置為0.5。
本發(fā)明使用一個可變分辨率的分析濾波器組13。存在許多已知的方 法來實現(xiàn)可變分辨率的分析濾波器組。 一個突出的方法是使用可以在高、 低頻率分辨率模式之間切換其操作的濾波器組,高頻率分辨率模式用于處 理音頻信號的穩(wěn)態(tài)段而低頻率分辨率模式用于處理暫態(tài)。然而,分辨率的 切換由于理論和實踐的約束不能及時任意地發(fā)生。相反,它通常發(fā)生在幀 分界,即幀用高頻率分辨率模式或低頻率分辨率模式來處理。如圖7中所 示,對于暫態(tài)幀131,濾波器組己經(jīng)切換到低頻率分辨率模式以避免前向 回聲效應(yīng)。因為暫態(tài)132本身是很短的,而該幀的前暫態(tài)133和后暫態(tài)134 段又長得多,所以低頻率分辨率模式的濾波器組顯然與這些穩(wěn)態(tài)段不匹 配。這極大地限制了整個幀所能達(dá)到的總的編碼增益。
本發(fā)明提出了三個方法來解決這個問題?;舅枷胧窃诳汕袚Q分辨率 結(jié)構(gòu)內(nèi)為暫態(tài)幀的穩(wěn)態(tài)部分(stationary majority)提供一個較高頻率分辨率。
半混合濾波器組
如圖3中所示,它實質(zhì)上是一個混合濾波器組,包括一個可以在高、 低頻率分辨率模式之間切換的可切換分辨率的分析濾波器組28,并且在低頻率分辨率模式24時,后面跟隨有一個暫態(tài)聚類分割單元25,然后在 每個子帶中有一個可選的任意分辨率的分析濾波器組26。
當(dāng)暫態(tài)檢測器12沒有檢測到暫態(tài)存在時,可切換分辨率的分析濾波 器組28進(jìn)入低時間分辨率模式27,其確保高頻率分辨率以實現(xiàn)高音頻信 號編碼增益,具有強(qiáng)的音調(diào)分量。
當(dāng)暫態(tài)檢測器12檢測到暫態(tài)存在時,可切換分辨率的分析濾波器組 28進(jìn)入高時間分辨率模式24。這確保了用良好的時間分辨率來處理暫態(tài) 以防止前向回聲。如此產(chǎn)生的子帶樣本如圖6中所示被暫態(tài)聚類分割部分 25分成準(zhǔn)穩(wěn)態(tài)段。在以下討論中,術(shù)語"暫態(tài)段"等指的是這些準(zhǔn)穩(wěn)態(tài)段。 這后面是每個子帶中的任意分辨率的分析濾波器組26,其子帶個數(shù)等于 每個子帶中每個暫態(tài)段的子帶樣本個數(shù)。
可切換分辨率的分析濾波器組28能用可以在高、低頻率分辨率模式 之間切換其操作的任何濾波器組來實現(xiàn)。本發(fā)明的一個實施例采用了一對 DCT,對應(yīng)于低和高頻率分辨率,其轉(zhuǎn)換長度分別為小和大。假定轉(zhuǎn)換長 度為M,則類型4的DCT的子帶樣本被獲得為
其中,x(.)是輸入PCM樣本。其它形式的DCT可以用來代替類型4的 DCT。
因為DCT傾向引起成塊效應(yīng),所以本發(fā)明的一個較好的實施例是采用 改進(jìn)的DCT(MDCT):<formula>formula see original document page 20</formula>其中,W(.)是窗口函數(shù),
窗口函數(shù)在每半個窗口中必須是功率對稱的:
<formula>formula see original document page 20</formula>
以便于保證理想的重建。
盡管滿足上述情況的任何窗口都可以被使用,但只有下列正弦窗口
<formula>formula see original document page 20</formula>具有良好的特性,即輸入信號中的直流分量被集中到第一變換系數(shù)。
為了當(dāng)MDCT在高、低頻率模式或長、短窗口之間切換時能保持理想 的重建,長、短窗口的重疊部分必須有相同的形狀。
依賴于輸入PCM樣本的瞬變特性,編碼器可以選擇一個長窗口(如圖 5中的第一窗口61所示),切換到一個短窗口序列(如圖5中的第四窗口64 所示),并返回。圖5中的長到短轉(zhuǎn)換的長窗口62和短到長轉(zhuǎn)換的長窗口63 是橋接這類切換所需要的。當(dāng)兩個暫態(tài)非常接近但不是接近到足以保證短 窗口的連續(xù)應(yīng)用時,圖5中長窗口65的短到短轉(zhuǎn)換是有用的。編碼器需要 向解碼器傳送被用于每一幀的窗口類型,以便相同的窗口被用來重建PCM樣本。
短到短轉(zhuǎn)換的長窗口的優(yōu)點(diǎn)是可以處理只間隔一幀的鄰近暫態(tài)。如在 圖17的頂端670f示,先有技術(shù)的MDCT可以處理至少間隔兩幀的暫態(tài)。 如在圖17的底部68所示,使用這個短到短轉(zhuǎn)換的長窗口可以將其減少到 一幀。
本發(fā)明然后將執(zhí)行暫態(tài)段25。通過利用二進(jìn)制函數(shù)值從0到1或1到0 的變化,暫態(tài)段可以由指示暫態(tài)位置的二進(jìn)制函數(shù)或聚類分割邊界來表 示。例如,圖6中的準(zhǔn)穩(wěn)態(tài)段可以被表示如下<formula>formula see original document page 21</formula>注意,T(n)-0不一定意味著音頻信號的能量在時間指數(shù)n時很高,反 之亦然。在以下討論各處的函數(shù)T(n)被稱為"暫態(tài)段函數(shù)"等。由這個段函 數(shù)攜帶的信息必須被直接或者間接地傳送到解碼器。編碼零-一游程長度 的游程長度編碼是一個有效的選擇。對于上面的具體例子,T(n)可以用5、 5和7的游程長度代碼被傳送到解碼器。游程長度代碼還可以被熵編碼。
暫態(tài)聚類分割部分25可以用任何已知的暫態(tài)聚類分割方法來實現(xiàn)。 在本發(fā)明的一個實施例中,暫態(tài)聚類分割可以通過簡單地對暫態(tài)探測距離 取閾值來完成。<formula>formula see original document page 21</formula>閾值可以被設(shè)置為
'max " mm
其中,k是一個可調(diào)節(jié)的常數(shù)。
本發(fā)明的一個更高級的實施例是根據(jù)k均值聚類算法,其包括下列步
1)暫態(tài)聚類分割函數(shù)T(n)被初始化,利用上述取閾值方法獲得的結(jié)
2) 每一類的質(zhì)心被計算
co = ^^ ,對于與T(n)-o相關(guān)聯(lián)的類;
如果r(")-o
i;五(")
Ci = ^i ,對于與T(n"1相關(guān)聯(lián)的類。
如果r(n)-i
3) 暫態(tài)聚類分割函數(shù)T(n)基于以下規(guī)則來分配
r(")=
0, 如果|£(") —C0|<|£(") —ci|
1, 否則
4)進(jìn)到步驟2。
任意分辨率的分析濾波器組26本質(zhì)上是一個諸如DCT之類的變換,
它的塊長等于每個子帶段中的樣本個數(shù)。假定在一幀內(nèi)每個子帶都存在 32個子帶樣本并且它們被分為(9、 3、 20),則塊長為9、 3和20的三個變換將被分別應(yīng)用到三個子帶段中每一個的子帶樣本。在以下討論中,術(shù)語
"子帶段"等指的是子帶內(nèi)暫態(tài)段的子帶樣本。第m個子帶的最后段(9、 3、 20)的變換可以用類型4的DCT來說明如下
這個轉(zhuǎn)換將增加每個暫態(tài)段內(nèi)的頻率分辨率,所以可以期待一個良好 的編碼增益。然而在許多情況下,編碼增益小于1或者太小,則有利的決 策是丟棄這類變換結(jié)果并經(jīng)由輔助信息通知解碼器這個決策。由于與輔助 信息相關(guān)的開銷,如果是否丟棄轉(zhuǎn)換結(jié)果的決定是根據(jù)一組子帶段,則它 可以改進(jìn)總的編碼增益,即一個比特被用來為一組子帶段而不是每個子帶 段傳送這個決策。
在以下討論中,術(shù)語"量化單元"等指的是屬于相同心理聲學(xué)臨界頻帶 和暫態(tài)段內(nèi)的一組相連的子帶樣本。量化單元可以是用于上述決策制定的 子帶段的一個良好分組。如果這個被使用,則對量化單元中所有的子帶段 來計算總編碼增益。如果編碼增益大于1或某些其它的較高閾值,則為量 化單元中所有的子帶段保留轉(zhuǎn)換結(jié)果。否則,該結(jié)果被丟棄。只需用一個 比特向解碼器傳送這個用于量化單元中所有子帶段的決策。
如圖4中所示,它基本上與圖3中的相同,只不過任意分辨率的分析 濾波器組26被ADPCM29所替代。是否應(yīng)用ADPCM的決定又是根據(jù)諸如 量化單元之類的一組子帶段,以便于降低輔助信息的成本。該組子帶段甚
可切換濾波器組+ADPCM至可以共享一組預(yù)測系數(shù)。在此處可以使用量化預(yù)測系數(shù)的已知方法,比
如包括LAR(對數(shù)面積比)、IS(反正弦)以及LSP(線譜對)。
三模式可切換的濾波器組
不同于只有高、低分辨率模式的常見可切換濾波器組,這個濾波器組 可以在高、中、低分辨率模式之間切換其操作。高、低頻率分辨率模式分 別是用于穩(wěn)態(tài)和暫態(tài)幀,而且遵循與雙模式可切換濾波器組相同的一類原 則。中間分辨率模式的主要意圖是向暫態(tài)幀內(nèi)的穩(wěn)態(tài)段提供較好的頻率分 辨率。因此,在一個暫態(tài)幀內(nèi),低頻率分辨率模式被用于暫態(tài)段,而中間 分辨率模式被用于該幀的剩余部分。不同于先有技術(shù),對于單個幀的音頻 數(shù)據(jù),本發(fā)明可切換濾波器組以兩個分辨率模式操作。中間分辨率模式還 可以被用來處理具有平滑暫態(tài)的幀。
在以下討論中,術(shù)語"長塊"等指的是濾波器組在每個時刻在高頻率分
辨率模式下輸出的一個樣本塊術(shù)語"中塊"等指的是濾波器組在中頻分辨
率模式下每個時刻輸出的一樣本塊;術(shù)語"短塊"等指的是濾波器組在低頻
率分辨率模式下每個時刻輸出的一樣本塊。三種幀可以用這三種定義被描
述如下
濾波器組以高頻率分辨率模式操作來處理的穩(wěn)態(tài)幀,這類幀中的 每一幀通常包括一個或多個長塊;
濾波器組以高、中時間分辨率模式操作來處理的具有暫態(tài)的幀, 這類幀中的每一幀都包括幾個中塊和幾個短塊,所有短塊的樣本總數(shù)等于
一個中塊的樣本總數(shù); 濾波器組以中間分辨率模式下操作來處理的具有平滑暫態(tài)的幀, 這類幀中的每一幀都包括幾個中塊。
這個新方法的優(yōu)點(diǎn)在圖8中被示出。圖8基本上與圖7相同,只不過原 先在圖7中在低頻率分辨率模式下處理的許多段(141、 142和143)現(xiàn)在由
中頻率分辨率模式來處理。因為這些段是穩(wěn)態(tài)的,所以中頻率分辨率模式 顯然比低頻率分辨率模式更加匹配,因此可以期待較高的編碼增益。
本發(fā)明的一個實施例采用具有小、中、大塊長的三元組DCT,分別對 應(yīng)于低、中、高頻率的分辨率模式。
本發(fā)明的一個較好實施例(無成塊效應(yīng))采用具有小、中、大的塊長的 三元組MDCT。由于引入了中間分辨率模式,除了圖5中的窗口類型之外 還提供了圖9中所示的窗口類型。這些窗口被描述如下
中窗口151;
長到中轉(zhuǎn)換的長窗口152:作為一個長窗口,其橋接從長窗口到
中窗口的轉(zhuǎn)換。
中到長轉(zhuǎn)換的長窗口153:作為一個長窗口,其橋接從中窗口到
長窗口的轉(zhuǎn)換。
中到中轉(zhuǎn)換的長窗口154:作為一個長窗口,其橋接從中窗口到
另一個中窗口的轉(zhuǎn)換。
中到短轉(zhuǎn)換的中窗口155:作為一個中窗口,其橋接從中窗口到
短窗口的轉(zhuǎn)換。 短到中轉(zhuǎn)換的中窗口156:作為一個中窗口,其橋接從短窗口到 中窗口的轉(zhuǎn)換。
中到短轉(zhuǎn)換的長窗口157:作為一個長窗口,其橋接從中窗口到 短窗口的轉(zhuǎn)換。
短到中轉(zhuǎn)換的長窗口158:作為一個長窗口,其橋接從短窗口到 中窗口的轉(zhuǎn)換。
注意類似于圖5中短到短轉(zhuǎn)換的長窗口65,中到中轉(zhuǎn)換的長窗口 154、中到短轉(zhuǎn)換的長窗口157、和短到中轉(zhuǎn)換的長窗口158可使三模式 MDCT處理間隔一幀的暫態(tài)。
圖10示出窗口序列的一些例子。161舉例說明了這個實施例用中分辨 率167處理慢暫態(tài)的能力,而162到166說明了向暫態(tài)分配精細(xì)的時間分辨 率168、向同一幀內(nèi)的穩(wěn)態(tài)段分配中時間分辨率169、和向穩(wěn)態(tài)幀分配高 頻率分辨率170的能力。
常見的和/差編碼方法14可以在這里被應(yīng)用。例如, 一個簡單使用方 法如下
和聲道=0.5(左聲道+右聲道) 和聲道=0.5(左聲道+右聲道)
常見的聯(lián)合強(qiáng)度編碼方法15可以在這里被應(yīng)用。 一個簡單的方法可
以是
用源和聯(lián)合聲道的和來替換源聲道。 將其調(diào)整為與量化單元內(nèi)的原始源聲道相同的能量級
丟棄量化單元內(nèi)聯(lián)合聲道的子帶樣本,只把比例因子(被稱為"引導(dǎo) 向量或本發(fā)明中的"比例因子")的量化指數(shù)傳送到解碼器,其被定義為
諸如對數(shù)之類的引導(dǎo)向量的非均勻量化將被用來匹配人耳的聽覺特 性。熵編碼可以被應(yīng)用于引導(dǎo)向量的量化指數(shù)。
為了避免源和聯(lián)合聲道在它們的相位差接近180度的情況下的抵消 效應(yīng),可以在它們被合計形成聯(lián)合聲道時應(yīng)用極性
極性還必須被傳送到解碼器。
心理聲學(xué)模型23基于人耳的聽覺特性來計算音頻樣本的當(dāng)前輸入幀 的掩蔽閾值,低于掩蔽閾值的量化噪聲不太可能被聽到。在這里可以使用 任何常見的心理聲學(xué)模型,但是本發(fā)明要求它的心理聲學(xué)模型對每個量化 單元都輸出一個掩蔽閾值。
全局比特分配器16全局地向每個量化單元分配一幀可用的比特資
源,以便每個量化單元中的量化噪聲功率低于其各自的掩蔽閾值,它通過 調(diào)節(jié)其量化步長來控制每個量化單元的量化噪聲功率。量化單元內(nèi)的所有 子帶樣本都用相同的步長來量化。
在這里可以采用所有已知的比特分配方法。這類方法之一是有名的
和聲道=源聲道+極性 聯(lián)合聲道Water Filling算法。它的基本思想是發(fā)現(xiàn)其QNMR(量化噪聲掩蔽比)最高 的量化單元,并減少分配給該量化單元的步長以降低量化噪聲。它重復(fù)這 個處理直到所有量化單元的QNMR都小于1(或任何其它的閾值)或當(dāng)前幀 的比特資源耗盡為止。
量化步長本身必須被量化以使其可以被打包到比特流中。諸如對數(shù)之 類的非均勻量化將被用來匹配人耳的聽覺特性。熵編碼可以被應(yīng)用于步長 的量化指數(shù)。
本發(fā)明使用全局比特分配16提供的步長來量化每個量化單元17內(nèi)的 所有子帶樣本。在這里可以應(yīng)用所有的線性或非線性的、均勻或非均勻的 量化方案。
只有在當(dāng)前幀中存在暫態(tài)時,才可以選擇性地調(diào)用交錯18。讓x(m,n,k) 是第m個準(zhǔn)穩(wěn)態(tài)段和第n個子帶中的第k個量化指數(shù)。(m,n,k灘常是量化指 數(shù)被排列的順序。交錯單元18重新排序量化指數(shù)以便它們被排列為 (n,m,k)。這樣做的動機(jī)是量化指數(shù)的從新排列可以使得這些編碼指數(shù)所 需的比特數(shù)比不交錯指數(shù)時少。是否調(diào)用交錯的決策需要作為輔助信息傳 送到解碼器。
在先前的音頻編碼算法中,熵碼書的應(yīng)用范圍與量化單元相同,所以 熵碼書由量化單元內(nèi)的量化指數(shù)來確定(參見圖11的頂端)。因此沒有用于 優(yōu)化的空間。
本發(fā)明在這方面是完全不同的。它在進(jìn)行到碼書選擇時忽略了量化單 元的存在。相反,它把最佳碼書分配給每個量化指數(shù)19,因此本質(zhì)上把量化指數(shù)轉(zhuǎn)換成了碼書指數(shù)。然后,它把這些碼書指數(shù)分成較大的段,而 段邊界定義了碼書應(yīng)用的范圍。顯然,這些碼書應(yīng)用范圍與由量化單元確 定的范圍相差懸殊。它們僅僅是基于量化指數(shù)的品質(zhì),因而所選擇的碼書 更適合量化指數(shù)。因此,只需要較少的比特把量化指數(shù)傳送到解碼器。
這個方法對比于先前技術(shù)的優(yōu)點(diǎn)在圖11中被說明。讓我們看看圖中
最大的量化指數(shù)。它屬于量化單元d并且利用先前的方法要選擇一個大碼 書,這個大碼書顯然不是最佳的,因為量化單元d中的大多數(shù)指數(shù)要小得 多。另一方面,通過使用本發(fā)明的新方法,相同的量化指數(shù)被分成段C, 所以它與其它的大量化指數(shù)共享一個碼書。此外,段D中的所有量化指數(shù) 都很小,所以一個小碼書將被選擇。因此,需要較少比特來編碼量化指數(shù)。
現(xiàn)在參見圖12,先有技術(shù)的系統(tǒng)只須把碼書指數(shù)作為輔助信息傳送 到解碼器,因為它們的應(yīng)用范圍與預(yù)定的量化單元相同。然而,本發(fā)明的 方法除了傳送碼書指數(shù)之外還需要把碼書應(yīng)用范圍作為輔助信息傳送到 解碼器,因為它們獨(dú)立于量化單元。如果處理不當(dāng),則這個額外開銷可能 會以更多的比特用于整個輔助信息和量化指數(shù)而結(jié)束。因此,把碼書指數(shù) 分成大的段對于控制這個開銷來說是相當(dāng)關(guān)鍵的,因為大段意味著較少個 數(shù)的碼書指數(shù)及其應(yīng)用范圍需要被傳送到解碼器。
本發(fā)明的一個實施例用下列步驟來完成這個碼書選擇的新方案
1) 把量化指數(shù)分塊成區(qū)組,每個區(qū)組包括P個量化指數(shù)。
2) 確定每個區(qū)組最大碼書需求。對于對稱量化器來說,這通常由每個 區(qū)組內(nèi)最大的絕對量化指數(shù)來表示7max (") = max|/(>P + A:)l," e {所有區(qū)組} 其中l(wèi)(.)是量化指數(shù);
3) 把最小碼書分配給那個可以容納最大碼書需求的區(qū)組
B(")= min {可以容納/鵬(")的碼本}
所有碼本
4) 通過把那些碼書指數(shù)比其近鄰小的孤立的小塊區(qū)域的碼書指數(shù)提 升到其近鄰的碼書指數(shù)的最小值的方法而把這些孤立的小塊區(qū)域清除掉。 這在圖12中由映射71到72、 73到74、 77到78以及79到80來說明。深入對
應(yīng)于零量化指數(shù)的碼書指數(shù)中的孤立的小塊區(qū)域可以從這個處理中被除 去,因為這個碼書指示沒有代碼需要被傳送。這在圖12中被描述為75到 76的映射。這個步驟明顯地降低了需要被傳送到解碼器的碼書指數(shù)的個 數(shù)及其應(yīng)用范圍。
本發(fā)明的一個實施例采用游程長度代碼來編碼碼書應(yīng)用范圍,并且游 程長度代碼還可以用熵代碼來編碼。
所有的量化指數(shù)都用由熵碼書選擇器19確定的碼書和和它們各自的 應(yīng)用范圍來編碼20。
熵編碼可以用各種哈夫曼碼書來實現(xiàn)。當(dāng)一個碼書中的量化級數(shù)很小 時,多個量化指數(shù)被歸集(blocked)到一起以形成一個大的哈夫曼碼書。 當(dāng)量化級的個數(shù)(number of quantization levels)太大時(例如超過200),則 采用遞歸索引。對此, 一個大的量化指數(shù)q被表示為
<formula>formula see original document page 30</formula>其中,M是模,m是商,而r是余數(shù)。只有m和r需要被傳送到解碼器。 它們中的一個或其兩者都可以用哈夫曼碼來編碼。
熵編碼可以用各種各樣的算術(shù)碼書來實現(xiàn)。當(dāng)量化級個數(shù)太大時(例 如超過200),遞歸索引也將被使用。
其它類型的熵編碼也可以被用于上述的哈夫曼和算術(shù)編碼。
不經(jīng)過熵編碼而直接打包全部或部分量化指數(shù)也是一個好的選擇。
因為量化指數(shù)的統(tǒng)計特性在可變分辨率濾波器組采用低和高分辨率 模式時明顯不同,所以本發(fā)明的一個實施例采用兩個熵碼書庫來分別在這 兩個模式下編碼量化指數(shù)。第三個庫可以被用于中間分辨率模式,它還可 以與高或低分辨率模式共享這個庫。
本發(fā)明把所有量化指數(shù)和其它的輔助信息多路復(fù)用21成一個完整的 比特流。輔助信息包括量化步長、采樣率、揚(yáng)聲器配置、幀長、準(zhǔn)穩(wěn)態(tài)段 的長度、熵碼書的代碼等。諸如時間碼之類的其它輔助信息也可以被打包 在比特流中。
先有技術(shù)的系統(tǒng)需要把每個暫態(tài)段的量化單元個數(shù)傳送到解碼器,因 為量化步長的解包、量化指數(shù)的碼書、和量化指數(shù)自身都取決于此。然而 在本發(fā)明中,因為量化指數(shù)碼書及其應(yīng)用范圍的選擇由熵碼書選擇19的 專門方法從量化單元中分離出(decouple),比特流可以用如此的方法來 構(gòu)成,即量化指數(shù)可以在需要量化單元的個數(shù)之前被解包。 一旦量化指數(shù) 被解包,它們就能被用來重建量化單元的個數(shù)。這將在解碼器中來解釋。有了上述考慮,本發(fā)明的一個實施例在使用半混合濾波器組或可切換
濾波器組+ADPCM時使用一個如圖16中所示的比特流結(jié)構(gòu),它本質(zhì)上包
括以下部分
同步字81:指示音頻數(shù)據(jù)幀的開始;
幀頭82:包括音頻信號的相關(guān)信息,比如采樣率、正常的聲道數(shù)、
LFE(低頻效應(yīng))聲道數(shù)、揚(yáng)聲器配置等;
聲道1、 2、 ...、 N、 83、 84、 85:每個聲道的所有音頻數(shù)據(jù)都在此 被打包;
輔助數(shù)據(jù)86:包括諸如時間碼之類的輔助數(shù)據(jù);
錯誤檢測87:誤差檢測碼在這里被插入以檢測當(dāng)前幀中出現(xiàn)的差 錯,以便于差錯處理程序能夠在檢測到比特流差錯時啟動;
每個聲道的音頻數(shù)據(jù)還被構(gòu)造如下
窗口類型90:指示諸如圖5中所示之類的窗口被用于編碼器以便解 碼器能夠使用相同的窗口;
暫態(tài)位置91:只用于暫態(tài)的幀,它指示每個暫態(tài)段的位置。如果游 程長度代碼被使用,則這是每個暫態(tài)段的長度被打包的位置;
交錯決策92: —個比特,只在暫態(tài)幀中,指示是否交錯每個暫態(tài)段 的量化指數(shù)以便于解碼器知道是否要去交錯量化指數(shù);
碼書指數(shù)和應(yīng)用范圍93:它把所有的關(guān)于熵碼書及對量化指數(shù)的應(yīng) 用范圍的信息傳送,它包括以下部分O碼書個數(shù)101:傳送當(dāng)前聲道的每個暫態(tài)段的熵碼書個數(shù);
O應(yīng)用范圍102:按照量化指數(shù)或區(qū)組來傳送每個熵碼書的應(yīng)用 范圍,它們還可以用熵代碼來編碼;
O碼書指數(shù)103:把這個指數(shù)傳送到熵碼書,它們還可以進(jìn)一步 用熵代碼來編碼;
量化指數(shù)94:傳送用于當(dāng)前聲道所有量化指數(shù)的熵代碼;
量化步長95:把指數(shù)傳送到用于每個量化單元的量化步長,它還可
以用熵代碼來編碼。如先前所解釋的,步長指數(shù)的個數(shù)、或量化單元的個
數(shù)將如49中所示由解碼器從量化指數(shù)中重建;
任意分辨率的濾波器組決策96: —個比特用于每個量化單元,它只
出現(xiàn)在可切換分辨率的分析濾波器組28采取低頻率分辨率模式時,指示
解碼器是否要對量化單元內(nèi)的所有子帶段執(zhí)行任意分辨率的濾波器組重
建(51或55);
和/差編碼決定97: —個比特用于被和/差編碼的量化單元中的一
個。它是可選擇的并且只出現(xiàn)在采用和/差編碼時,它指示解碼器是否要
執(zhí)行和/差解碼47;
聯(lián)合強(qiáng)度編碼決策和引導(dǎo)向量98:它傳送關(guān)于解碼器是否要進(jìn)行聯(lián)
合強(qiáng)度解碼的信息,它是可選擇的并且只用于被聯(lián)合強(qiáng)度編碼的聯(lián)合聲道
的量化單元,并且只出現(xiàn)在編碼器采用聯(lián)合強(qiáng)度編碼時,它包括以下部分 O決策121:每個聯(lián)合量化單元一個比特,向解碼器指示是否要對量化單元中的子帶樣本進(jìn)行聯(lián)合聲道解碼;
O極性122:每個聯(lián)合量化單元一個比特,表示聯(lián)合聲道相對于
源聲道的極性
〇引導(dǎo)向量123:每個聯(lián)合量化單元一個比例因子,它可以被 熵編碼;
輔助數(shù)據(jù)99:包括諸如動態(tài)范圍控制之類的輔助信息。
當(dāng)三模式可切換的濾波器組被使用時,比特流結(jié)構(gòu)本質(zhì)上與上述相
同,除了
窗口類型90:指示哪一個窗口諸如圖5和圖9中所示窗口用于編碼
器以便于解碼器能夠使用相同的窗口。注意,對于具有暫態(tài)的幀來說,這 個窗口類型只涉及幀中的最后一個窗口 ,因為其余的窗口能夠從這個窗口
類型、暫態(tài)位置以及最后幀中使用的最后窗口來推斷;
暫態(tài)位置91:只出現(xiàn)在具有暫態(tài)的幀的情況下。它首先指示這個幀
是否具有慢暫態(tài)171。如果不是,則它按照中塊172并然后按照短塊173 來指示暫態(tài)位置;
任意分辨率的濾波器組決策96:它是不相干的,因此未被使用。
本發(fā)明的解碼器基本上實現(xiàn)了編碼器的逆處理,它在圖13中被示出
_1,否則
解碼器并被解釋如下。
一個多路解復(fù)用器41從比特流中解碼出量化指數(shù),以及如量化步長、 采樣率、揚(yáng)聲器配置和時間碼等之類的輔助信息,。當(dāng)諸如哈夫曼碼之類 的前綴熵代碼被使用時,這個步驟是一個結(jié)合了熵解碼的單一步驟。
量化指數(shù)碼書解碼器42從比特流中解碼量化指數(shù)的熵碼書及其各自
的應(yīng)用范圍。
熵解碼器43基于由量化指數(shù)碼書解碼器42提供的熵碼書及其各自的 應(yīng)用范圍從比特流中解碼量化指數(shù)。
去交錯44只有在當(dāng)前幀中存在暫態(tài)時才被選擇性地采用。如果從比 特流解包的決策比特指示交錯18在編碼器中被調(diào)用過,則去交錯量化指 數(shù)。否則,不做任何修改地傳遞量化指數(shù)。
本發(fā)明從每個暫態(tài)段49的非零量化指數(shù)中重建量化單元的個數(shù)。讓 q(m,n)是對于第m個暫態(tài)段的第n個子帶的量化指數(shù)(如果幀中不存在暫 態(tài),則只存在一個暫態(tài)段),找出每個暫態(tài)段m的具有非零量化指數(shù)的最 大子帶
<formula>formula see original document page 35</formula>
回想一下,量化單元是由在頻率中的臨界頻帶和時間上的暫態(tài)段定義 的,因此每個暫態(tài)段的量化單元個數(shù)是能夠容納5""《M^)的最小臨界頻
帶。讓頻帶(Cb)是第Cb個臨界頻帶的最大子帶,每個暫態(tài)段m的量化單元 數(shù)可表示如下量化步長解包50從比特流中解包每個量化單元的量化步長。
逆量化45利用每個量化單元的各個量化步長從量化指數(shù)中重建子帶 樣本。
如果比特流指示編碼器中調(diào)用過聯(lián)合強(qiáng)度編碼15,則聯(lián)合強(qiáng)度解碼 46從源聲道復(fù)制子帶樣本并將其乘以極性和引導(dǎo)向量以重建聯(lián)合聲道的 子帶樣本
聯(lián)合聲道=極性*引導(dǎo)向量-源聲道
如果比特流指示和/差編碼14在編碼器中被調(diào)用過,則和/差解碼器47 從和虔聲道中重建左右聲道。對應(yīng)于在和虔編碼14中所解釋的和虔編碼 例子,左右聲道能夠被重建為
左聲道=和聲道+差聲道 右聲道=和聲道_差聲道
本發(fā)明的解碼器結(jié)合了一個可變分辨率的合成濾波器組48,其實質(zhì) 上是用來編碼信號的分析濾波器組的逆裝置。
如果三模式可切換分辨率的分析濾波器組被用于編碼器,則其對應(yīng)的 合成濾波器組的操作被唯一地確定并要求相同的窗口序列用于合成處理。
如果半混合濾波器組或可切換濾波器組+ADPCM被用于編碼器,則解碼過程被描述如下
如果比特流指示當(dāng)前幀是用可切換分辨率的分析濾波器組28以高
頻率分辨率模式來編碼的,則可切換分辨率的合成濾波器組54因此進(jìn)入 高頻率分辨率模式并且從子帶樣本中重建PCM樣本(見圖14和圖15)。
如果比特流指示當(dāng)前幀是用可切換分辨率的分析濾波器組28以低
頻率分辨率模式來編碼的,則子帶樣本首先被送到任意分辨率的合成濾波 器組51(圖14)或逆ADPCM55(圖15),并且這取決于編碼器中哪一個被使 用了,然后完成它們各自的合成處理。然后,PCM樣本由可切換分辨率 的合成濾波器組以低頻率分辨率模式53從這些合成的子帶樣本中重建。
合成濾波器組52、 51和55分別是分析濾波器組28、 26和29的逆裝置。
它們的結(jié)構(gòu)與操作處理由分析濾波器組來唯一地確定。因此,無論在編碼 器中使用什么分析濾波器組,其對應(yīng)的合成濾波器組必須被用于解碼器。
低編碼延遲模式
當(dāng)可切換分辨率的分析濾波器組的高頻率分辨率模式被編碼器禁止 時,幀長可以隨后被減小到低頻模式下的可切換分辨率的濾波器組的塊長 或其整數(shù)倍,這產(chǎn)生了一個小得多的幀長,導(dǎo)致編碼器和解碼器操作所需 的小得多的延遲。這就是本發(fā)明的低編碼延遲模式。
盡管若干實施例已經(jīng)為了舉例的目的被詳細(xì)描述,然而在不脫離本發(fā) 明的范圍和精神的前提下可以做出不同的修改。因此,本發(fā)明只被附加的 權(quán)利要求所限制
權(quán)利要求
1. 一個用于解碼經(jīng)編碼的音頻比特數(shù)據(jù)流的方法,包括下列步驟接收編碼音頻數(shù)據(jù)流并解包該數(shù)據(jù)流; 從數(shù)據(jù)流中解碼量化指數(shù); 從被解碼的量化指數(shù)中重建子帶樣本;和通過使用一個可在低、中、和高頻率分辨率模式之間切換的可變 分辨率的合成濾波器組,從重建的子帶樣本中重建音頻脈沖編碼調(diào)制 (PCM)樣本;其中,當(dāng)數(shù)據(jù)流指示當(dāng)前幀是用高頻率分辨率模式的可切換分辨 率的分析濾波器組來編碼時,可變分辨率的合成濾波器組以高頻率分 辨率模式操作;和其中,當(dāng)數(shù)據(jù)流指示當(dāng)前幀被聚類分割并且這些段是用低或中頻 率的分辨率模式的可切換分辨率的分析濾波器組來編碼時,對于該幀 的每一段,可變分辨率的合成濾波器組相應(yīng)地以低或中頻率分辨率模 式操作。
2. 權(quán)利要求1的方法,其中,解包數(shù)據(jù)流的步驟用一個多路解復(fù) 用器來執(zhí)行。
3. 權(quán)利要求1的方法,其中,解碼步驟是利用解碼熵碼書的熵解 碼器和用于從數(shù)據(jù)流中解碼其各自應(yīng)用范圍的游程長度解碼器來執(zhí) 行。
4. 權(quán)利要求3的方法,其中,解碼步驟還包括用熵解碼器從數(shù)據(jù) 流中解碼量化指數(shù)。
5. 權(quán)利要求4的方法,包括從被解碼的量化指數(shù)中重建量化單 元的個數(shù)。
6. 權(quán)利要求4的方法,包括當(dāng)在當(dāng)前幀中檢測到暫態(tài)時從新排列量化指數(shù)。
7. 權(quán)利要求6的方法,其中,從新排列步驟用一個去交錯器來執(zhí)行。
8. 權(quán)利要求1的方法,包括用聯(lián)合強(qiáng)度比例因子從源聲道的子 帶樣本中重建聯(lián)合聲道的子帶樣本。
9. 權(quán)利要求8的方法,其中重建步驟用聯(lián)合強(qiáng)度解碼器來執(zhí)行。
10. 權(quán)利要求1的方法,包括從和差子帶聲道中重建左右聲道 的子帶樣本。
11. 權(quán)利要求10的方法,其中,重建步驟用一個和/差解碼器來 執(zhí)行。
12. 權(quán)利要求1的方法,其中,分辨率濾波器組被配置成包括 一個窗口,其能夠橋接從一個更短窗口立即到另一個更短窗口的轉(zhuǎn) 換,以便于處理只間隔一個這類窗口的暫態(tài)。
全文摘要
一種低比特率的數(shù)字音頻編碼系統(tǒng),包括一個編碼器,基于量化指數(shù)的局部特性而把碼書分配到多組量化指數(shù),從而使碼書應(yīng)用范圍與量化邊界無關(guān)。本發(fā)明還包括一個分辨率濾波器組或三模式分辨率濾波器組,如當(dāng)在一幀中檢測到暫態(tài)時,其可有選擇地在高、低頻率分辨率模式或高、低和中模式之間切換。這樣得到的多聲道音頻信號具有極大地降低的比特率,用于有效的發(fā)送或存儲。解碼器實質(zhì)上是編碼器的逆向結(jié)構(gòu)和方法,產(chǎn)生一個聽覺上不能與原始信號區(qū)分開的被還原的音頻信號。
文檔編號H03M7/30GK101312041SQ20071010514
公開日2008年11月26日 申請日期2005年9月7日 優(yōu)先權(quán)日2004年9月17日
發(fā)明者游余立 申請人:廣州廣晟數(shù)碼技術(shù)有限公司