低復雜度音調自適應音頻信號量化的制作方法
【專利說明】低復雜度音調自適應音頻信號量化
[0001] 本發(fā)明涉及數字音頻信號處理。更具體地,本發(fā)明涉及音頻信號量化。
[0002] 在極低比特率變換編碼中,每幀的位的數目通常不足以避免解碼的信號中的偽 影。特別是,由于變換線(頻點(bin))在某一頻率處逐幀被"打開及關閉",即量化為零或 未量化為零,音樂噪聲可以出現在固定音樂或噪聲頻譜中。這樣的編碼方法不僅給予解碼 的信號區(qū)與原始信號相比更加具有音調性的特性(因此術語為音樂噪聲),而且其相對于 未編碼所述頻譜區(qū)根本沒有產生顯著的優(yōu)點,并且反而應用了類似于在xHE_AAC[4]中使 用的TCX或FD編碼系統中的噪聲填充算法的頻點替換技術。事實上,傾向于音樂編碼噪聲 的區(qū)域的顯式但非充分編碼需要在變換編碼器的熵編碼階段中的位,其在聲音上較好地耗 費在其它頻譜區(qū)中,特別是在人類聽覺系統靈敏的低頻率處。
[0003] 減少音樂噪聲在低比特率音頻編碼中出現的一個方法是,修改將輸入頻譜線映射 至量化索引的量化器的行為,使得該量化器適于瞬時輸入信號特性和量化頻譜的位消耗。 更準確地,信號自適應地改變了在量化期間使用的死區(qū)。已公開了若干方法[5、6及其中的 參考]。在[5]中,對將要編碼的整個頻譜執(zhí)行量化器適應。因此,已適應的量化器對于給 定幀的所有頻點行為相同。此外,在最佳死區(qū) 2_的量化的情況下,邊信息的2個位必須被 傳輸至解碼器,表示比特率及向后兼容懲罰。在[6]中,基于每頻率頻帶對量化器進行調 適,但每頻帶進行兩個量化嘗試,并且(根據某一決策)僅將較佳的嘗試用于傳輸。這是復 雜的。
[0004] 本發(fā)明的目的在于提供音頻信號處理的改進概念。更具體的,本發(fā)明的目的在于 提供自適應音頻信號量化的改進概念。本發(fā)明的目的通過根據權利要求1的音頻編碼器、 通過根據權利要求15的系統、通過根據權利要16的方法并且通過根據權利要17的計算機 程序來實現。
[0005] 在一個方面中,本發(fā)明提供一種音頻編碼器,用于對音頻信號進行編碼,以便從中 產生編碼信號,該音頻編碼器包括:
[0006] 幀裝置,其被配置成從該音頻信號提取幀;
[0007] 量化器,其被配置成將從該音頻信號的幀得到的頻譜信號的頻譜線映射至量化索 弓丨;其中,該量化器具有死區(qū),在該死區(qū)中頻譜線被映射至量化索引零;以及
[0008] 控制裝置,其被配置成修改死區(qū);
[0009] 其中,該控制裝置包括音調計算裝置,其被配置成計算用于至少一個頻譜線或用 于至少一組頻譜線的至少一個音調指示值,
[0010] 其中,該控制裝置被配置成取決于各個音調指示值來修改用于至少一個頻譜線或 至少一組頻譜線的該死區(qū)。
[0011] 幀裝置可以被配置成通過將窗口函數應用至音頻信號來從音頻信號提取幀。在信 號處理中,窗口函數(也稱為切趾函數或漸變函數)為在某些選定的區(qū)間以外為零值的數 學函數。通過將窗口函數應用至信號,可以將信號分解為短片段,其通常被稱為幀。
[0012] 在數字音頻信號處理中,量化是將一大組輸入值映射至(可計數的)較小組(如 將值舍位至某些精度的單位)的過程。執(zhí)行量化的裝置或算法函數被稱為量化器。
[0013] 根據本發(fā)明,針對音頻信號的幀計算頻譜信號。頻譜信號可以包含音頻信號的幀 中的每一個的頻譜,該音頻信號為時域信號,其中每一個頻譜為頻域中的幀的一個的表示。 頻率譜可以經由信號的數學變換來產生,并且結果值通常呈現為振幅對比于頻率。
[0014] 死區(qū)為在量化期間使用的區(qū)域,其中頻譜線(頻點)或多組頻譜線(頻帶)被映 射至零。死區(qū)具有通常在零振幅處的下限,以及可以針對對不同頻譜線或多組頻譜線而變 化的上限。
[0015] 根據本發(fā)明,死區(qū)可以通過控制裝置進行修改。控制裝置包括音調計算裝置,其被 配置成計算用于至少一個頻譜線或用于至少一組頻譜線的至少一個音調指示值。
[0016] 術語"音調"指頻譜信號的音調特性。一般而言,在頻譜主要包括周期分量的情況 下可以說音調高,其意指幀的頻譜包括主峰值。音調特性的相反特性為噪聲特性。在后者 情況下,幀的頻譜更平坦。
[0017] 此外,控制裝置被配置成取決于各個音調指示值來修改用于該至少一個頻譜線或 該至少一組頻譜線的死區(qū)。
[0018] 本發(fā)明揭示了具有信號自適應死區(qū)的量化方案,該信號自適應死區(qū)
[0019] ?不需要任何邊信息,允許其在現有介質編解碼器中的使用,
[0020] ?在量化之前決定每頻點或頻帶使用哪一個死區(qū),節(jié)約復雜度,
[0021] ?可以基于頻帶頻率和/或信號音調來確定每頻點或每頻帶死區(qū)。
[0022] 本發(fā)明可以應用于現有編碼結構中,因為僅改變編碼器中的信號量化器;對應的 解碼器將仍能夠讀取從編碼信號產生的(未改變的)比特流,并且對輸出進行解碼。與[6] 及其參考不同,在量化前之前選擇用于每組頻譜線或用于每個頻譜線的死區(qū),所以每組頻 譜線或每個頻譜線僅一個量化運算是必要的。最后,量化器決策不限于在兩個可能的死區(qū) 值之間進行選取,而是在值的整個范圍進行選取。下文詳述決策。以上概術的音調自適應 量化方案可以在LD-USAC編碼器的變換編碼激勵(TCX)路徑中實施,該LD-USAC編碼器為 xHE-AAC[4]的低延遲變體。
[0023] 根據本發(fā)明的優(yōu)選實施方式,控制裝置被配置成用以下方式來修改死區(qū)DZ :在頻 譜線中的一個處的死區(qū)大于在具有較大音調的頻譜線中的一個處的死區(qū),或者在多組頻譜 線中的一組處的死區(qū)大于在具有較大音調的多組頻譜線中的一組處的死區(qū)。通過這些特 征,非音調頻譜區(qū)將傾向于被量化為零,其意指可以減少數據的量。
[0024] 根據本發(fā)明的優(yōu)選實施方式,控制裝置包括功率頻譜計算裝置,其被配置成計算 音頻信號的幀的功率頻譜,其中該功率頻譜包括頻譜線或多組頻譜線的功率值,其中,音調 計算裝置被配置成取決于功率頻譜來計算至少一個音調指示值。通過基于功率頻譜來計算 音調指示值,計算復雜度保持相當低。
[0025] 根據本發(fā)明的優(yōu)選實施方式,用于頻譜線中的一個的音調指示值基于用于各個頻 譜線的功率值與功率頻譜的各個頻譜線周圍的預定數目的功率值之和的比較,或者其中, 用于多組頻譜線中的一組的音調指示值基于用于各個組的頻譜線的功率值與功率頻譜的 各個組的頻譜線周圍的預定數目的功率值之和的比較。通過對功率值與其相鄰功率值進行 比較,可以容易地識別功率頻譜的峰值區(qū)域或平坦區(qū)域,以使得可以以容易的方式計算音 調指示值。
[0026] 根據本發(fā)明的優(yōu)選實施方式,用于頻譜線中的一個的音調指示值基于音頻信號的 在先幀的頻譜線的音調指示值,或者其中,用于多組頻譜線中的一組的音調指示值基于用 于音頻信號的在先幀的該組頻譜線的音調指示值。通過這些特征,將以平滑的方式隨著時 間推移對死區(qū)進行修改。
[0027] 根據本發(fā)明的優(yōu)選實施方式,通過以下公式計算該音調指示值:
[0028]
[0029] 兵干,1 73指不談苜頻1目虧的狩疋Ψ貝的系引,k 73指不狩疋頻諧線的系引,為第 i幀的第k頻譜線的功率值,或者其中,通過以下公式計算該音調指示值:
[0030]
[0031] 其中,i為指示音頻信號的特定幀的索引,m為指示頻譜線的特定組的索引,Pniil為 第i幀的頻譜線的第m組頻譜線的功率值。如將從公式中注意到的那樣,根據作為當前幀 的第i幀并且根據作為在先幀的第i-Ι幀的功率值來計算音調指示值??梢酝ㄟ^省略對第 i-Ι幀的依賴性來改變公式。此處,第k功率值的7個左側和7個右側相鄰功率值之和被計 算并且除以各個功率值。使用這個公式,低音調指示值指示高音調。
[0032] 根據本發(fā)明的優(yōu)選實施方式,音頻編碼器包括起始頻率計算裝置,其被配置成計 算用于修改該死區(qū)的起始頻率,其中,僅針對表示高于或等于起始頻率的頻率的頻譜線對 死區(qū)進行修改。這意指死區(qū)對于低頻率是固定的,并且對于較高頻率是可變的。這些特征 導致較好的音頻質量,因為人類聽覺系統在低頻率處更為靈敏。
[0033] 根據本發(fā)明的優(yōu)選實施方式,起始頻率計算裝置被配置成基于音頻信號的樣本率 和/或基于針對從編碼信號產生的比特流預見的最大比特率來計算起始頻率。通過這些特 征將可以對音頻質量進行優(yōu)化。
[0034] 根據本發(fā)明的優(yōu)選實施方式,音頻編碼器包括:修改離散余弦變換計算裝置,其被 配置成根據音頻信號的幀來計算修改的離散余弦變換;以及修改離散正弦變換計算裝置, 其被配置成根據音頻信號的幀來計算修改的離散正弦變換,其中,功率頻譜計算裝置被配 置成基于修改的離散余弦變換和基于修改的離散正弦變換來計算功率頻譜。不管怎樣,為 了對音頻信號進行編碼的目的,必須計算修改的離散余弦變換。因此,只是為了音調自適應 量化的目的,必須另外計算修改的離散正弦變換。從而,可以降低復雜度。然而,可以使用 如離散傅里葉變換或奇數離散傅立葉變換的其它變換。
[0035] 根據本發(fā)明的優(yōu)選實施方式,功率頻譜計算裝置被配置成根據公式Pk, i = (MDCT k, J^(MDSTu)2來計算功率值,其中i為指示音頻信號的特定幀的索引,k為指示特定頻譜線 的索引,MDCI mS在該第i幀的第k頻譜線處的修改的離散余弦變換的值,MDSTkil為在該 第i幀的第k頻譜線處的修改的離散正弦變換的值,以及P kil為該第i幀的第k頻譜線的 功率值。以上公式允許以容易的方式計算功率值。
[0036] 根據本發(fā)明的優(yōu)選實施方式,音頻編碼器包括頻譜信號計算裝置,其被配置成產 生頻譜信號,其中,頻譜信號計算裝置包括振幅設定裝置,其被配置成以補償由于對死區(qū)的 修改造成的能量損失的方式來設置頻譜信號的頻譜線的振幅。通過這些特征,可以以能量 保持的方式進行量化。
[0037] 根據本發(fā)明的優(yōu)選實施方式,振幅設定裝置被配置成取決于各個頻譜線處的死區(qū) 的修改來設置頻譜信號的振幅。例如,可出于這個目的對被擴大死區(qū)的頻譜線進行輕微放 大。
[0038] 根據本發(fā)明的優(yōu)選實施方式,頻譜信號計算裝置包括標準化裝置。通過這個特征, 可以以容易的方式進行后續(xù)量化步驟。
[0039] 根據本發(fā)明的優(yōu)選實施方式,將通過修改離散余弦變換