亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于峰值檢測的選擇性縮放掩碼計(jì)算的制作方法

文檔序號:2823281閱讀:364來源:國知局
專利名稱:基于峰值檢測的選擇性縮放掩碼計(jì)算的制作方法
技術(shù)領(lǐng)域
本公開總體上涉及通信系統(tǒng),并且更具體地涉及在這樣的通信系統(tǒng)中編碼語音和
音頻信號。
背景技術(shù)
數(shù)字語音和音頻信號的壓縮是公知的。通常需要壓縮以有效地在通信信道上傳送信號,或在諸如固態(tài)存儲設(shè)備或計(jì)算機(jī)硬盤的數(shù)字媒體設(shè)備上存儲壓縮的信號。雖然存在許多壓縮(或“編碼”)技術(shù),但是已經(jīng)保持對于數(shù)字語音編碼非常流行的一種方法被稱為代碼激勵(lì)線性預(yù)測(CELP),它是一系列“合成分析”編碼算法中的一個(gè)。合成分析通常指的是下述編碼處理通過該編碼處理,數(shù)字模型的多個(gè)參數(shù)用于合成與輸入信號作比較并且被分析失真的候選信號集合。然后,傳送或存儲產(chǎn)生最低失真的參數(shù)集合,并且該產(chǎn)生最低失真的參數(shù)集合最終用于重構(gòu)原始輸入信號的估計(jì)。CELP是一種使用一個(gè)或多個(gè)碼本的特定的合成分析方法,所述一個(gè)或多個(gè)碼本的每一個(gè)必要地包括響應(yīng)于碼本索引而從碼本檢索到的代碼向量集合。在現(xiàn)代CELP編碼器中,對于以合理地低的數(shù)據(jù)速率來維持高質(zhì)量語音和音頻再現(xiàn),存在問題。這對于沒有很好地適合于CELP語音模型的音樂或其他通用音頻信號而言尤其如此。在該情況下,模型失配可能引起采用這樣的方法的裝置的最終用戶不能接受的嚴(yán)重變差的音頻質(zhì)量。因此,仍然需要改善低比特率的CELP性語音編碼器的性能,特別是對于音樂和其他非語音類型的輸入而言。


在附圖中,在各個(gè)視圖中,相似的附圖標(biāo)記指的是相同或在功能上類似的元素,附圖與下面的具體實(shí)施方式
一起被合并在說明書中并且形成說明書的一部分,并且用于進(jìn)一步說明包括所要求保護(hù)的發(fā)明的思想的各個(gè)實(shí)施例,并且用于解釋那些實(shí)施例的各種原理和優(yōu)點(diǎn)。
圖1是現(xiàn)有技術(shù)的嵌入式語音/音頻壓縮系統(tǒng)的框圖。圖2是圖1的增強(qiáng)層編碼器的更詳細(xì)的示例。圖3是圖1的增強(qiáng)層編碼器的更詳細(xì)的示例。圖4是增強(qiáng)層編碼器和解碼器的框圖。圖5是多層嵌入式編碼系統(tǒng)的框圖。圖6是層4編碼器和解碼器的框圖。圖7是示出圖4和圖6的編碼器的操作的流程圖。圖8是現(xiàn)有技術(shù)的嵌入式語音/音頻壓縮系統(tǒng)的框圖。圖9是圖8的增強(qiáng)層編碼器的更詳細(xì)的示例。圖10是根據(jù)各個(gè)實(shí)施例的增強(qiáng)層編碼器和解碼器的框圖。圖11是根據(jù)各個(gè)實(shí)施例的增強(qiáng)層編碼器和解碼器的框圖。圖12是根據(jù)各個(gè)實(shí)施例的多聲道音頻信號編碼的流程圖。圖13是根據(jù)各個(gè)實(shí)施例的多聲道音頻信號編碼的流程圖。圖14是根據(jù)各個(gè)實(shí)施例的多聲道音頻信號的解碼的流程圖。圖15是根據(jù)各個(gè)實(shí)施例的基于掩碼(mask)生成的峰值檢測的頻率曲線。圖16是根據(jù)各個(gè)實(shí)施例的使用峰值掩碼生成的核心層縮放的頻率曲線。圖17-19是圖示根據(jù)各個(gè)實(shí)施例的、用于基于峰值檢測使用掩碼生成來編碼和解碼的方法的流程圖。本領(lǐng)域技術(shù)人員將理解,出于簡單和清楚的目的而圖示附圖中的元素,并且這些元素不一定按比例繪制。例如,在附圖中的元素中的一些元素的尺寸可能相對于其他元素被夸大,以有助于改善對各個(gè)實(shí)施例的理解。另外,說明書和附圖不一定要求所說明的順序。將進(jìn)一步理解,可以以特定的發(fā)生順序來描述或說明特定的動作和/或步驟,同時(shí)本領(lǐng)域的技術(shù)人員將明白,實(shí)際上不要求相對于順序而言的這樣的特殊性。在附圖中已經(jīng)根據(jù)情況通過常規(guī)符號表示了裝置和方法組件,僅示出了與理解各個(gè)實(shí)施例相關(guān)的那些具體細(xì)節(jié),以便不因?yàn)閷τ谑芤嬗谠诖苏f明的本領(lǐng)域內(nèi)的普通技術(shù)人員將容易顯而易見的細(xì)節(jié)而混淆本公開。因此,將理解,為了說明的簡單和清楚,可能不描述在商業(yè)上可行的實(shí)施例中有用或必需的常見和公知的元素,以便促進(jìn)對這些各個(gè)實(shí)施例的較少妨礙的查看。
具體實(shí)施例方式為了解決上述需要,在此描述了一種用于在音頻編碼系統(tǒng)內(nèi)生成增強(qiáng)層的方法和裝置。在操作期間,要編碼的輸入信號被接收和編碼,以產(chǎn)生編碼的音頻信號。然后,使用多個(gè)增益值來縮放編碼的音頻信號,以產(chǎn)生多個(gè)縮放的編碼音頻信號,每一個(gè)縮放的編碼音頻信號具有相關(guān)聯(lián)的增益值,并且確定在輸入信號和多個(gè)縮放的編碼音頻信號的每一個(gè)之間存在的多個(gè)誤差值。然后,選擇增益值,該增益值與縮放的編碼音頻信號相關(guān)聯(lián),使得在輸入信號和該縮放的編碼音頻信號之間存在低誤差值。最后,將該低誤差值與該增益值一起作為編碼音頻信號的增強(qiáng)層的一部分來傳送。在圖1中示出了現(xiàn)有技術(shù)的嵌入式語音/音頻壓縮系統(tǒng)。輸入音頻s (η)首先被核心層編碼器120處理,對于這些目的而言,核心層編碼器120可以是CELP型語音編碼算法。編碼的比特流被傳送到信道125,并且被輸入到本地核心層解碼器115,在此,生成了重構(gòu)的核心音頻信號s。(η)。然后,增強(qiáng)層編碼器120用于基于信號S(ri)和s。(η)的某個(gè)比較來編碼附加信息,并且可以可選地使用來自核心層解碼器115的參數(shù)。如在核心層解碼器115中那樣,核心層解碼器130將核心層比特流參數(shù)轉(zhuǎn)換為核心層音頻信號。然后, 增強(qiáng)層解碼器135使用來自信道125的增強(qiáng)層比特流和信號來產(chǎn)生增強(qiáng)的音頻輸出信號徹)。這樣的嵌入式編碼系統(tǒng)的主要優(yōu)點(diǎn)是特定的信道125可以不能持續(xù)地支持與高質(zhì)量音頻編碼算法相關(guān)聯(lián)的帶寬要求。然而,嵌入式編碼器允許當(dāng)增強(qiáng)層比特流被丟失或損壞時(shí)從信道125接收部分比特流(例如,僅核心層比特流),以例如僅產(chǎn)生核心輸出音頻。 然而,在嵌入式與非嵌入式編碼器之間并且也在不同的嵌入式編碼優(yōu)化目的之間在質(zhì)量上有折衷。也就是,較高質(zhì)量的增強(qiáng)層編碼可以有助于實(shí)現(xiàn)在核心層和增強(qiáng)層之間的較好的平衡,并且也降低整體數(shù)據(jù)速率以獲得較好的傳輸特性(例如,減少的擁塞),這可能導(dǎo)致增強(qiáng)層的較低的分組誤差率。在圖2中給出了現(xiàn)有技術(shù)增強(qiáng)層編碼器120的更詳細(xì)的示例。在此,誤差信號生成器210由加權(quán)的差信號組成,該加權(quán)差信號被變換到MDCT (修改的離散余弦變換)域中以用于由誤差信號編碼器220進(jìn)行處理。誤差信號E被給出為E = MDCT {W (S-Sc)} (1)其中,W是基于來自核心層解碼器115的LP(線性預(yù)測)濾波系數(shù)A(Z)的感知加權(quán)矩陣,s是來自輸入音頻信號s (η)的樣本的向量(即,幀),并且\是來自核心層解碼器 115的樣本的對應(yīng)向量。在ITU-T推薦G. 729. 1中描述了示例MDCT處理。然后,誤差信號 E被誤差信號編碼器220處理,以產(chǎn)生代碼字iE,該代碼字iE隨后被傳送到信道125。對于這個(gè)示例,重要的是注意,誤差信號編碼器220僅被提供有一個(gè)誤差信號E,并且輸出一個(gè)相關(guān)聯(lián)的代碼字iE。其原因?qū)⒃谙旅孀兊蔑@而易見。然后,增強(qiáng)層解碼器135從信道125接收編碼的比特流,并且適當(dāng)?shù)亟鈴?fù)用該比特流以產(chǎn)生代碼字iE。誤差信號解碼器230使用代碼字iE來重構(gòu)增強(qiáng)層誤差信號 ,然后由信號組合器240將該增強(qiáng)層誤差信號 與核心層輸出音頻信號乞(《)組合如下,以產(chǎn)生增強(qiáng)層音頻輸出信號· ( )s = sc + W"1 MDCrT1 {ε}(2)其中,MDCr1是逆MDCT (包括重疊相加),并且W—1是逆感知加權(quán)矩陣。在圖3中示出了增強(qiáng)層編碼器的另一個(gè)示例。在此,誤差信號生成器315的誤差信號E的生成涉及自適應(yīng)預(yù)縮放,其中,執(zhí)行對于核心層音頻輸出s。(η)的一些修改。這個(gè)處理導(dǎo)致生成一定數(shù)目的比特,該一定數(shù)目的比特在增強(qiáng)層編碼器120中被示出為代碼字
1S0另外,增強(qiáng)層編碼器120示出了輸入音頻信號s (η)和變換的核心層輸出音頻S。被輸入到誤差信號編碼器320。這些信號用于構(gòu)造用于增強(qiáng)層誤差信號E的改善的編碼的心理聲學(xué)模型。然后,代碼字“和“被復(fù)用器(MUX)325復(fù)用,并且然后被發(fā)送到信道125以用于由增強(qiáng)層解碼器135進(jìn)行的隨后的解碼。編碼的比特流被解復(fù)用器335接收,解復(fù)用器335將比特流分離為分量is和iE。然后,代碼字iE被誤差信號解碼器340使用以重構(gòu)增強(qiáng)層誤差信號 。信號組合器;345使用縮放比特is來以某種方式縮放信號乞(《),并且然后將
7結(jié)果與增強(qiáng)層誤差信號 組合以產(chǎn)生增強(qiáng)的音頻輸出信號興。在圖4中給出了本發(fā)明的第一實(shí)施例。該圖示出了通過縮放單元415來接收核心層輸出信號s。(η)的增強(qiáng)層編碼器410。預(yù)定的增益集合{g}用于產(chǎn)生多個(gè)縮放的核心層輸出信號{S},其中,gj和h是相應(yīng)的集合的第j個(gè)候選。在縮放單元416內(nèi),第一實(shí)施例在(MDCT)域中將信號sc (η)處理為Sj = GjXMDCT (WsJ ;0 ≤ j < M (3)其中,W可以是某個(gè)感知加權(quán)矩陣,S。是來自核心層解碼器115的樣本的向量, MDCT是本領(lǐng)域公知的操作,并且可以是通過利用增益向量候選&而形成的增益矩陣,并且其中M是增益向量候選的數(shù)目。在第一實(shí)施例中,(ij使用向量&作為對角并且在其他任何位置使用零(即,對角矩陣),但是存在許多可能。例如,(^.可以是帶狀矩陣或甚至可以是簡單的標(biāo)量乘以單位矩陣I。替代地,將信號h留在時(shí)域中可能有一些優(yōu)點(diǎn),或可能有下述情況有利的是,將音頻變換到不同的域,諸如離散傅立葉變換(DFT)域。許多這樣的變換在本領(lǐng)域中是公知的。在這些情況下,縮放單元可以輸出基于相應(yīng)的向量域的適當(dāng)?shù)腎。但是在任何情況下,縮放核心層輸出音頻的主要原因是補(bǔ)償模型失配(或某個(gè)其他編碼缺陷),模型失配可能引起在輸入信號和核心層編解碼器之間的顯著差別。例如,如果輸入音頻信號主要是音樂信號,并且核心層編解碼器基于語音模型,則核心層輸出可能包含嚴(yán)重失真的信號特性,在該情況下,從聲音質(zhì)量的角度看,在通過一個(gè)或多個(gè)增強(qiáng)層來應(yīng)用信號的補(bǔ)充編碼之前選擇地減少這個(gè)信號分量的能量是有益的。然后,可以將增益縮放的核心層音頻候選向量h和輸入音頻S(Ii)用作誤差信號生成器420的輸入。在示例性實(shí)施例中,輸入音頻信號S(ri)被轉(zhuǎn)換為向量S,使得對應(yīng)地對齊。也就是,表示s(n)的向量s與s。在時(shí)間(相位)上對齊,并且可以應(yīng)用對應(yīng)的操作,使得在這個(gè)實(shí)施例中Ej = MDCT {ffs} -Sj ;0 ≤ j < M (4)這個(gè)表達(dá)式產(chǎn)生多個(gè)誤差信號向量&,所述多個(gè)誤差信號向量&表示在MDCT頻譜域中在輸入音頻和增益縮放的核心層輸出音頻之間的加權(quán)差。在考慮了不同域的其他實(shí)施例中,可以基于相應(yīng)的處理域來修改上面的表達(dá)式。然后,根據(jù)本發(fā)明的第一實(shí)施例,增益選擇器425用于評估多個(gè)誤差信號向量&, 以產(chǎn)生最佳的誤差向量纊、最佳增益參數(shù)g*,并且隨后產(chǎn)生對應(yīng)的增益索引ig。增益選擇器 425可以使用多種方法來確定最佳參數(shù)E*和g*,這可能涉及閉環(huán)方法(例如,失真度量的最小化)、開環(huán)方法(例如,啟發(fā)式分類、模型性能估計(jì)等)或兩種方法的組合。在該示例性實(shí)施例中,可以使用偏置的失真度量,其被給出為在原始音頻信號向量S和復(fù)合重構(gòu)的信號向量之間的偏置能量差
權(quán)利要求
1.一種操作用于編碼音頻信號的裝置,所述裝置[si]包括增強(qiáng)層編碼器的增益向量生成器的增益選擇器,所述增強(qiáng)層編碼器的所述增益向量生成器的增益選擇器在接收到的音頻信號的重構(gòu)的音頻向量鄉(xiāng)中檢測峰值集合,基于所檢測到的峰值集合來生成縮放掩碼W會);所述增益向量生成器的縮放單元,所述增益向量生成器的所述縮放單元基于至少所述縮放掩碼和表示增益向量g*的索引j來生成該增益向量,利用所述增益向量來縮放所重構(gòu)的音頻信號以產(chǎn)生縮放的重構(gòu)音頻信號;所述增益向量生成器的誤差信號生成器,所述增益向量生成器的所述誤差信號生成器基于所述音頻信號和縮放的重構(gòu)音頻信號來生成失真;以及所述增強(qiáng)層編碼器的發(fā)射機(jī),所述增強(qiáng)層編碼器的所述發(fā)射機(jī)輸出基于所生成的失真的所述增益向量的索引。
2.根據(jù)權(quán)利要求1所述的裝置,其中,所述增益選擇器按照如下給出的峰值檢測函數(shù)來檢測所述峰值集合其中β是閾值。
3.根據(jù)權(quán)利要求1所述的裝置,其中,所述音頻信號被嵌入在多個(gè)層中。
4.根據(jù)權(quán)利要求1所述的裝置,其中,所重構(gòu)的音頻向量§是在頻域中,并且所述峰值集合是頻域峰值。
5.根據(jù)權(quán)利要求1所述的裝置,編碼器,所述編碼器接收包括多個(gè)音頻信號的多聲道音頻信號,并且編碼所述多聲道音頻信號以生成編碼的音頻信號;所述增強(qiáng)層編碼器的平衡因子生成器,所述增強(qiáng)層編碼器的所述平衡因子生成器接收編碼的音頻信號并生成具有多個(gè)平衡因子分量的平衡因子,每一個(gè)平衡因子分量與所述多聲道音頻信號的所述多個(gè)音頻信號中的一個(gè)音頻信號相關(guān)聯(lián);其中,所述增強(qiáng)層編碼器的所述增益向量生成器確定要應(yīng)用到所述編碼的音頻信號的增益值,以基于所述平衡因子和所述多聲道音頻信號來生成所述多聲道音頻信號的估計(jì), 其中所述增益值被配置成最小化所述多聲道音頻信號與所述多聲道音頻信號的所述估計(jì)之間的失真,其中,所述發(fā)射機(jī)進(jìn)一步傳送所述增益值的表示以用于傳輸和存儲中的至少一個(gè)。
6.根據(jù)權(quán)利要求5所述的裝置,其中,所述增強(qiáng)層編碼器的所述縮放單元利用多個(gè)增益值來縮放所述編碼的音頻信號以生成多個(gè)候選的編碼音頻信號,其中所述候選的編碼音頻信號中的至少一個(gè)被縮放;其中,所述縮放單元和所述平衡因子生成器基于所述平衡因子和所述多個(gè)候選的編碼音頻信號中的所述至少一個(gè)縮放的編碼音頻信號來生成所述多聲道音頻信號的所述估計(jì); 并且其中,所述增強(qiáng)層編碼器的所述增益選擇器基于所述多聲道音頻信號的所述估計(jì)和所述多聲道音頻信號來評估失真值,以確定所述多個(gè)增益值中的最佳增益值的表示。
7.一種操作用于編碼音頻信號的裝置,所述裝置[s2]包括編碼器,所述編碼器接收音頻信號并編碼所述音頻信號以生成重構(gòu)的音頻向量忌; 增強(qiáng)層編碼器的增益向量生成器的縮放單元,所述增強(qiáng)層編碼器的所述增益向量生成器的所述縮放單元在接收到的音頻信號的所重構(gòu)的音頻向量鄉(xiāng)中檢測峰值集合,基于所檢測到的峰值集合來生成縮放掩碼iKh,基于所述縮放掩碼來生成多個(gè)增益向量&,并且利用所述多個(gè)增益向量來縮放所重構(gòu)的音頻信號以產(chǎn)生多個(gè)[s3]縮放的重構(gòu)音頻信號;所述增益向量生成器的誤差信號生成器,所述增益向量生成器的所述誤差信號生成器基于所述音頻信號和所述多個(gè)縮放的重構(gòu)音頻信號來生成多個(gè)失真;所述增益向量生成器的增益選擇器,所述增益向量生成器的所述增益選擇器基于所述多個(gè)失真從所述多個(gè)增益向量中選擇增益向量;以及所述增強(qiáng)層編碼器的發(fā)射機(jī),所述增強(qiáng)層編碼器的發(fā)射機(jī)輸出表示所述增益向量的索引以用于傳送和存儲中的至少一個(gè)。
8.根據(jù)權(quán)利要求7所述的裝置,其中,所述增益向量被選擇為與所述多個(gè)失真中的最小失真相對應(yīng)。
9.根據(jù)權(quán)利要求7所述的裝置,其中,所述縮放單元按照如下給出的峰值檢測函數(shù)來檢測所述峰值集合
10.根據(jù)權(quán)利要求7所述的裝置,其中,所述音頻信號被嵌入在多個(gè)層中。
11.根據(jù)權(quán)利要求7所述的裝置,其中,所重構(gòu)的音頻向量§是在頻域中,并且所述峰值集合是頻域峰值。
12.一種用于編碼音頻信號的方法,所述方法包括在接收到的音頻信號的重構(gòu)的音頻向量§中檢測峰值集合; 基于所檢測到的峰值集合來生成縮放掩碼 Κ幻;基于至少所述縮放掩碼和表示增益向量g*的索引j來生成該增益向量;利用所述增益向量來縮放所重構(gòu)的音頻信號以產(chǎn)生縮放的重構(gòu)音頻信號;基于所述音頻信號和縮放的重構(gòu)音頻信號來生成失真;以及輸出基于所生成的失真的所述增益向量的索引。
13.根據(jù)權(quán)利要求12所述的方法,其中,檢測所述峰值集合進(jìn)一步包括如下給出的峰值檢測函數(shù)
14.根據(jù)權(quán)利要求12所述的方法,其中,所述音頻信號被嵌入在多個(gè)層中。
15.根據(jù)權(quán)利要求12所述的方法,其中,所重構(gòu)的音頻向量§是在頻域中,并且所述峰值集合是頻域峰值。
16.根據(jù)權(quán)利要求12所述的方法,進(jìn)一步包括接收包括多個(gè)音頻信號的多聲道音頻信號; 編碼所述多聲道音頻信號以生成編碼的音頻信號;生成具有多個(gè)平衡因子分量的平衡因子,每一個(gè)平衡因子分量與所述多聲道音頻信號的所述多個(gè)音頻信號中的一個(gè)音頻信號相關(guān)聯(lián);確定應(yīng)用到所述編碼的音頻信號的增益值,以基于所述平衡因子和所述多聲道音頻信號來生成所述多聲道音頻信號的估計(jì),其中所述增益值被配置成最小化所述多聲道音頻信號與所述多聲道音頻信號的所述估計(jì)之間的失真值;以及輸出所述增益值的表示以用于傳輸和存儲中的至少一個(gè)。
17.根據(jù)權(quán)利要求12所述的方法,進(jìn)一步包括 接收包括多個(gè)音頻信號的多聲道音頻信號; 編碼所述多聲道音頻信號以生成編碼的音頻信號;利用多個(gè)增益值來縮放所述編碼的音頻信號以生成多個(gè)候選的編碼音頻信號,其中所述候選的編碼音頻信號中的至少一個(gè)被縮放;生成具有多個(gè)平衡因子分量的平衡因子,每一個(gè)平衡因子分量與所述多聲道音頻信號的所述多個(gè)音頻信號中的一個(gè)音頻信號相關(guān)聯(lián);基于所述平衡因子和所述多個(gè)候選的編碼音頻信號中的所述至少一個(gè)縮放的編碼音頻信號來生成所述多聲道音頻信號的估計(jì);基于所述多聲道音頻信號的所述估計(jì)和所述多聲道音頻信號來評估失真值,以確定所述多個(gè)增益值中的最佳增益值的表示;輸出所述最佳增益值的所述表示以用于傳輸和存儲中的至少一個(gè)。
全文摘要
在接收到的音頻信號的重構(gòu)的音頻向量中檢測峰值集合,并且基于所檢測到的峰值集合來生成縮放掩碼基于至少縮放掩碼和表示增益向量的索引j來生成增益向量g*。利用該增益向量來縮放重構(gòu)的音頻信號以產(chǎn)生縮放的重構(gòu)音頻信號?;谝纛l信號和縮放的重構(gòu)音頻信號來生成失真。輸出基于所生成的失真的增益向量的索引。
文檔編號G10L19/14GK102272832SQ200980153312
公開日2011年12月7日 申請日期2009年12月7日 優(yōu)先權(quán)日2008年12月29日
發(fā)明者烏達(dá)·米塔爾, 詹姆斯·P·阿什利 申請人:摩托羅拉移動公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1