可變速率語音編碼器中的幀擦除補償方法

文檔序號：2823200閱讀：360來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：可變速率語音編碼器中的幀擦除補償方法
背景技術(shù)：
一、發(fā)明領(lǐng)域本發(fā)明一般屬于語音處理領(lǐng)域，尤其屬于用于在可變速率語音編碼器中補償幀擦除的方法和裝置。
二、背景借助數(shù)字技術(shù)的話音傳送已變得普遍，尤其是在長距離和數(shù)字無線電電話應(yīng)用中。反過來這建立了對確定可在信道上發(fā)送的最少量的信息，而保持重構(gòu)的語音的可察覺的質(zhì)量的興趣。如果通過簡單地采樣和數(shù)字化而發(fā)送語音，要求大約每秒64千比特(kbps)的數(shù)據(jù)速率，以實現(xiàn)常規(guī)模擬電話的語音質(zhì)量。然而，通過對語音分析的使用，繼之以適當(dāng)?shù)木幋a、傳送以及在接收機處的重新合成，可以在數(shù)據(jù)速率中實現(xiàn)顯著的降低。
用于壓縮語音的設(shè)備在電信的許多領(lǐng)域中得到了應(yīng)用。一個示例性的領(lǐng)域是無線通信。無線通信領(lǐng)域有許多應(yīng)用，包括例如無繩電話、尋呼、無線本地回路、諸如蜂窩網(wǎng)和PCS電話系統(tǒng)之類的無線電話、移動網(wǎng)際協(xié)議(IP)電話以及衛(wèi)星通信系統(tǒng)。尤其重要的應(yīng)用是用于移動訂戶的無線電話。
已經(jīng)為無線通信系統(tǒng)開發(fā)了各種空中接口，包括例如頻分多址(FDMA)、時分多址(TDMA)以及碼分多址(CDMA)。與此有關(guān)的是，已經(jīng)建立了各種國內(nèi)的和國際的標準，包括例如高級移動電話服務(wù)(AMPS)、全球移動通信系統(tǒng)(GSM)以及暫行標準95(IS-95)。示例性的無線電話技術(shù)通信系統(tǒng)是碼分多址(CDMA)系統(tǒng)。由電信工業(yè)協(xié)會(TIA)和其他著名的標準團體頒布了IS-95標準及其派生的IS-95A、ANSI J-STD-008、IS-95B、建議的第3代標準IS-95C以及IS-2000等等(這里把它們一起稱為IS-95)，為蜂窩或PCS電話通信系統(tǒng)規(guī)定了CDMA空中接口的使用。在美國專利號5,103,459以及4,901,307中描述了實質(zhì)上根據(jù)對IS-95標準的使用而配置的示例性無線通信系統(tǒng)，把它們轉(zhuǎn)讓給本發(fā)明的受讓人，并通過引用而充分結(jié)合于此。
把使用技術(shù)以通過提取關(guān)于人類語音產(chǎn)生的模型的參數(shù)來壓縮語音的設(shè)備稱為語音編碼器。語音編碼器將進入的語音信號分成時間塊或分析幀。語音編碼器典型地包括編碼器和解碼器。編碼器分析進入的語音幀，以提取某些相關(guān)參數(shù)，并然后將這些參數(shù)量化成二進制表示，即量化成一組比特或二進制數(shù)據(jù)分組。在通信信道上將數(shù)據(jù)分組傳送到接收機和解碼器。解碼器處理數(shù)據(jù)分組，對它們進行非量化以產(chǎn)生參數(shù)，并使用所述非量化的參數(shù)重新合成所述語音幀。
語音編碼器的功能是通過除去語音中所固有的所有自然冗余而將數(shù)字化的語音信號壓縮成低比特率的信號。通過使用一組參數(shù)表示輸入語音幀，并使用量化以用一組比特來表示所述參數(shù)，來實現(xiàn)數(shù)字壓縮。如果輸入語音幀具有Ni個比特，并且語音編碼器產(chǎn)生的數(shù)據(jù)分組具有No個比特，則由該語音編碼器實現(xiàn)的壓縮系數(shù)是Cr＝Ni/No。問題是要保留經(jīng)解碼的語音的高話音質(zhì)量，而實現(xiàn)目標壓縮系數(shù)。語音編碼器的性能取決于(1)語音模型或上述分析與合成處理的組合能多好地進行，以及(2)能多好地以每幀No比特的目標比特率進行參數(shù)量化處理。從而，語音模型的目的是用每幀一小組參數(shù)來捕獲語音信號的本質(zhì)，或目標話音質(zhì)量。
語音編碼器的設(shè)計中最重要的也許是尋找較佳的一組參數(shù)(包括矢量)來描述語音信號。較佳的一組參數(shù)要求低系統(tǒng)帶寬用于對感覺上精確的語音信號的再現(xiàn)。音調(diào)、信號功率、譜包絡(luò)(或共振峰)、幅度譜、以及相位譜是語音編碼參數(shù)的例子。
可以把語音編碼器實現(xiàn)為時域編碼器，它試圖通過使用每次編碼小段語音(一般為5毫秒(ms)子幀)的高時間分辨率處理來捕獲時域語音波形。對于每個子幀，借助于本領(lǐng)域中已知的各種搜索算法可從編碼本空間發(fā)現(xiàn)高精度表示。另一方面，可以把語音編碼器實現(xiàn)為頻域編碼器，它試圖用一組參數(shù)(分析)捕獲輸入語音幀的短期語音頻譜，并使用對應(yīng)的合成處理，以從頻譜參數(shù)中重建語音波形。參數(shù)量化器根據(jù)A.Gersho和R.M.Gray的“Vector Quantization and SignalCompression(1992)”中所描述的已知的量化技術(shù)，通過用所存儲的編碼矢量表示代表所述參數(shù)，來保存這些參數(shù)。
著名的時域語音編碼器是按引用而充分結(jié)合于此的L.B.Rabiner和R.W.Schafer的“Digital Processing of Speech Signals”(1978年版)的第396頁至453頁中所描述的碼激勵線性預(yù)測(CELP)編碼器。在CELP編碼器中，通過發(fā)現(xiàn)短期共振峰濾波器系數(shù)的線性預(yù)測(LP)分析可除去語音信號中的短期相關(guān)或冗余。將短期預(yù)測濾波器施加到輸入語音幀，產(chǎn)生了LP殘余信號，用長期預(yù)測濾波器參數(shù)和隨后的隨機編碼本進一步模型化并量化該信號。從而，CELP編碼將編碼時域語音波形的任務(wù)分割成對LP短期濾波器系數(shù)編碼以及對LP殘余編碼的分開的任務(wù)。可用固定的速率(即對每幀使用相同的比特數(shù)N0)或以可變的速率(即對不同類型的幀內(nèi)容使用不同的比特率)進行時域編碼?？勺兯俾示幋a器試圖僅使用將編解碼器參數(shù)編碼成足夠獲得目標質(zhì)量而所需的比特量。在轉(zhuǎn)讓給本發(fā)明的受讓人并通過引用而充分結(jié)合于此。的美國專利號5,414,796中描述了一種示例性的可變速率CELP編碼器。
諸如CELP編碼器之類的時域編碼器一般依靠每幀高比特數(shù)N0，以保存時域語音波形的精確度。只要每幀比特數(shù)N0相對較高(如8kbps或以上)，這樣的編碼器一般提供極佳的話音質(zhì)量。然而，以低比特率(4kbps以及以下)，由于有限的可用比特數(shù)，時域編碼器不能保持高質(zhì)量和穩(wěn)固的性能。以低比特率，有限編碼本空間消減了常規(guī)時域編碼器的波形匹配能力，而在較高速率商業(yè)應(yīng)用中常規(guī)時域編碼器得到相當(dāng)成功地布署。因此，盡管隨時間的過去而得到改進，但是許多以低比特率操作的CELP編碼系統(tǒng)遭受到感覺上顯著的失真，一般把該失真表征為噪聲。
當(dāng)前存在研究興趣的高漲以及對于發(fā)展以中到低的比特率(即在2.4至4kbps以及以下的范圍內(nèi))操作的高質(zhì)量語音編碼器的強烈的商業(yè)需要。應(yīng)用范圍包括無線電話、衛(wèi)星通信、因特網(wǎng)電話、各種多媒體和話音流應(yīng)用、話音郵件以及其他話音存儲系統(tǒng)。驅(qū)動力是對于高容量的需要，以及在分組丟失的情況下對穩(wěn)固的性能的需求。各種當(dāng)前的語音編碼標準化努力是推進研究和發(fā)展低速率語音編碼算法的另一直接驅(qū)動力。低速率語音編碼器以每個可允許的應(yīng)用帶寬建立較多的信道或用戶，并且與額外的適當(dāng)?shù)男诺谰幋a層耦合的低速率語音編碼器能夠適合編碼器規(guī)范的全部比特預(yù)算，并在信道差錯的條件下提供穩(wěn)固的性能。
以低比特率有效地編碼語音的一個有效技術(shù)是多模式編碼。在轉(zhuǎn)讓給本發(fā)明的受讓人并通過引用而充分結(jié)合于此。的，1998年12月21日申請的名為“VARIABLERATE SPEECH CODING”的美國專利申請序列號09/217,941中描述了一種示例性的多模式編碼技術(shù)。常規(guī)多模式編碼器對不同類型的輸入語音幀施加不同的模式，或編碼-解碼算法。將每種模式或編碼-解碼處理，以最有效的方式定制成最優(yōu)地表示某一類型的語音段，諸如例如有聲語音、無聲語音、過渡語音(如有聲和無聲之間)以及背景噪聲(無聲或非語音)。外部開環(huán)模式判定機構(gòu)檢驗輸入語音幀，并作出關(guān)于要把哪種模式施加到該幀的判定。一般通過從輸入幀中提取若干參數(shù)，按照某些時間和頻譜特性來估計所述參數(shù)，并以所述估計作為模式判定的基礎(chǔ)來進行所述開環(huán)模式判定。
以大約2.4kbps的速率操作的編碼系統(tǒng)一般實質(zhì)上是參數(shù)的。也就是說這樣的編碼系統(tǒng)通過以規(guī)則的間隔傳送描述語音信號的音調(diào)周期和頻譜包絡(luò)(或共振峰)的參數(shù)。說明這些所謂的參數(shù)編碼器是LP聲碼器系統(tǒng)。
LP聲碼器用每音調(diào)周期單個脈沖來模擬有聲語音信號。可以把這種基本技術(shù)增補成尤其包括關(guān)于頻譜包絡(luò)的傳送信息。雖然LP聲碼器一般提供合理的性能，但是它們可引入感覺上顯著的失真，一般把這種失真表征為嗡嗡聲。
近年來，波形編碼器和參數(shù)編碼器兩者的混合的編碼器已出現(xiàn)。說明性的這種所謂的混合編碼器是原型波形內(nèi)插(PWI)語音編碼系統(tǒng)。還可把所述PWI編碼系統(tǒng)稱為原型音調(diào)周期(PPP)語音編碼器。PWI編碼系統(tǒng)提供編碼有聲語音的有效方法。PWI的基本概念是以固定的間隔提取代表性的音調(diào)循環(huán)(原型波形)，傳送其描述，并通過在原型波形之間內(nèi)插來重構(gòu)語音信號。PWI方法可在LP殘余信號上操作或者在語音信號上操作。在轉(zhuǎn)讓給本發(fā)明的受讓人，并通過引用而充分結(jié)合于此。的1998年12月21日申請的名為“PERIODIC SPEECH CODING”的美國專利申請序列號09/217,494中描述了示例性的PWI或PPP語音編碼器。在美國專利號5,884,253以及W.Bastiaan Kleijn和Wolfgang Granzow的“Methods forWaveform Interpolation in Speech Coding，in 1 Digital Signal Processing215-230(1991)”中描述了其他PWI或PPP語音編碼器。
在大多數(shù)常規(guī)語音編碼器中，由編碼器單獨地量化并傳送給定音調(diào)原型或給定幀的參數(shù)的每一個。此外，對每個參數(shù)傳送一個差值。所述差值指定了當(dāng)前幀或原型的參數(shù)值與先前幀或原型的參數(shù)值之間的差。然而，量化所述參數(shù)值和差值要求使用比特(以及因此要求帶寬)。在低比特率編碼器中，傳送能保持令人滿意的話音質(zhì)量的最小的比特數(shù)是有利的。由于這個原因，在常規(guī)低比特率語音編碼器中，僅量化和傳送絕對參數(shù)值。將希望減少所傳送的比特數(shù)，而不減少信息值。因此，在轉(zhuǎn)讓給本發(fā)明的受讓人，并通過引用而充分結(jié)合于此。的，名為“METHOD AND APPARATUS FOR PREDICTIVELY QUANTIZING VOICED SPEECH”的與本發(fā)明一起申請的相關(guān)申請中描述了量化先前幀的參數(shù)值的加權(quán)與當(dāng)前幀的參數(shù)值之間的差的量化方案。
由于差的信道條件，語音編碼器經(jīng)受幀擦除或分組丟失。用于常規(guī)語音編碼器中的一種解決辦法是使解碼器在接收到幀擦除的情況下簡單地重復(fù)前一幀。在對自適應(yīng)編碼本的使用中找到了改進，它動態(tài)地調(diào)整緊接著幀擦除的幀。進一步改進，即增強的可變速率編碼器(EVRC)在電信行業(yè)協(xié)會暫行標準EIA/TIA IS-127中得到了標準化。EVRC編碼器依靠正確接收的、經(jīng)低預(yù)測編碼的幀在編碼器存儲器中改變未被接收的幀，并從而改進正確接收的幀的質(zhì)量。
然而，伴隨者EVRC編碼器的問題是可產(chǎn)生幀擦除與隨后的經(jīng)調(diào)整的好幀之間的間斷。例如，與無幀擦除發(fā)生的情況中音調(diào)脈沖的相對位置相比，可能把音調(diào)脈沖置得太近或分開太遠。這樣的間斷可能造成可聽見的喀噠聲。
一般地，涉及低預(yù)測性(諸如上面的段落中所描述的那些)的語音編碼器在幀擦除條件下表現(xiàn)較佳。然而，如所討論的那樣，這樣的語音編碼器要求相對較高的比特率。相反地，高度預(yù)測的語音編碼器可實現(xiàn)合成語音輸出的高質(zhì)量(尤其是對于諸如有聲語音之類的高周期的語音)，但是在幀擦除條件下表現(xiàn)較差。將希望組合兩種類型的語音編碼器的品質(zhì)。進一步有利的是提供一種平滑幀擦除與隨后的經(jīng)改變的好幀之間的間斷的方法。從而，存在對幀擦除補償方法的需要，該方法在幀擦除的情況下，改進預(yù)測編碼器性能，并平滑幀擦除與隨后的好幀之間的間斷。
發(fā)明概述本發(fā)明針對幀擦除補償方法，該方法在幀擦除的情況下，改進預(yù)測編碼器性能，并平滑幀擦除與隨后的好幀之間的間斷。因此，在本發(fā)明的一方面中，提供了一種在語音編碼器中補償幀擦除的方法。該方法有利地包括量化聲明了已擦除的幀之后處理的當(dāng)前幀的音調(diào)滯后值和Δ值，所述Δ值等于當(dāng)前幀的音調(diào)滯后值與當(dāng)前幀之前緊接的一幀的音調(diào)滯后值之間的差；量化當(dāng)前幀之前以及幀擦除之后的至少一個幀的Δ值，其中所述Δ值等于所述至少一個幀的音調(diào)滯后值與所述至少一個幀之前緊接的一幀的音調(diào)滯后值之間的差；以及從當(dāng)前幀的音調(diào)滯后值中減去每個Δ值，以產(chǎn)生已擦除的幀的音調(diào)滯后值。
在本發(fā)明的另一方面中，提供了一種配置成補償幀擦除的語音編碼器。所述語音編碼器有利地包括用于量化聲明了已擦除的幀之后處理的當(dāng)前幀的音調(diào)滯后值和Δ值的裝置，所述Δ值等于當(dāng)前幀的音調(diào)滯后值與當(dāng)前幀之前緊接的一幀的音調(diào)滯后值之間的差；用于量化當(dāng)前幀之前以及幀擦除之后的至少一個幀的Δ值的裝置，其中所述Δ值等于所述至少一個幀的音調(diào)滯后值與所述至少一個幀之前緊接的一幀的音調(diào)滯后值之間的差；以及用于從當(dāng)前幀的音調(diào)滯后值中減去每個Δ值，以產(chǎn)生已擦除的幀的音調(diào)滯后值的裝置。
在本發(fā)明的另一方面中，提供了一種配置成補償幀擦除的訂戶單元。所述訂戶單元有利地包括配置成量化聲明了已擦除的幀之后處理的當(dāng)前幀的音調(diào)滯后值和Δ值的第1語音編碼器，所述Δ值等于當(dāng)前幀的音調(diào)滯后值與當(dāng)前幀之前緊接的一幀的音調(diào)滯后值之間的差；配置成量化當(dāng)前幀之前以及幀擦除之后的至少一個幀的Δ值的第2語音編碼器，其中所述Δ值等于所述至少一個幀的音調(diào)滯后值與所述至少一個幀之前緊接的一幀的音調(diào)滯后值之間的差；以及耦合至所述第1和第2語音編碼器，并配置成從當(dāng)前幀的音調(diào)滯后值中減去每個Δ值，以產(chǎn)生已擦除的幀的音調(diào)滯后值的控制處理器。
在本發(fā)明的另一方面中，提供了一種配置成補償幀擦除的基礎(chǔ)設(shè)施元件。所述基礎(chǔ)設(shè)施元件有利地包括處理器；以及耦合至所述處理器并包含一組指令的存儲媒體，所述指令可由所述處理器執(zhí)行，以量化聲明了已擦除的幀之后處理的當(dāng)前幀的音調(diào)滯后值和Δ值，所述Δ值等于當(dāng)前幀的音調(diào)滯后值與當(dāng)前幀之前緊接的一幀的音調(diào)滯后值之間的差，量化當(dāng)前幀之前以及幀擦除之后的至少一個幀的Δ值，其中所述Δ值等于所述至少一個幀的音調(diào)滯后值與所述至少一個幀之前緊接的一幀的音調(diào)滯后值之間的差，以及從當(dāng)前幀的音調(diào)滯后值中減去每個Δ值，以產(chǎn)生已擦除的幀的音調(diào)滯后值。
附圖簡述

圖1是無線電話系統(tǒng)的框圖。
圖2是由語音編碼器在每一端處終接的通信信道的框圖。
圖3是語音編碼器的框圖。
圖4是語音解碼器的框圖。
圖5是包括編碼器/發(fā)射機和解碼器/接收機部分的語音編碼器的框圖。
圖6是有聲語音段的信號幅度對時間的圖。
圖7說明了可用于圖5的語音編碼器的解碼器/接收機部分中的第1幀擦除處理方案。
圖8說明了專用于可變速率語音編碼器的第2幀擦除處理方案，可把它用于圖5的語音編碼器的解碼器/接收機部分中。
圖9繪出各種線性預(yù)測(LP)殘余波形的信號幅度對時間的曲線，以說明可用于平滑受到破壞的幀與好幀之間的過渡的幀擦除處理方案。
圖10繪出各種LP殘余波形的信號幅度對時間的曲線，以說明圖9中所描述的幀擦除處理方案的好處。
圖11繪出各種波形的信號幅度對時間的曲線，以說明音調(diào)周期原型或波形內(nèi)插編碼技術(shù)。
圖12是耦合至一存儲媒體的處理器的框圖。
較佳實施例的詳細說明下文中將要描述的示例性實施例駐留于配置成使用CDMA空中接口的無線電話技術(shù)通信系統(tǒng)。然而，本領(lǐng)域的普通技術(shù)人員將理解到，包含有本發(fā)明特征的用于對有聲語音進行預(yù)測編碼的方法和裝置可駐留于于使用本領(lǐng)域中的普通技術(shù)人員已知的廣泛技術(shù)的各種通信系統(tǒng)中的任一種。
如圖1所示，CDMA無線電話系統(tǒng)一般包括多個移動訂戶單元10，多個基站12、基站控制器(BSC)14以及移動交換中心(MSC)16。把MSC 16配置成與常規(guī)公共交換電話網(wǎng)(PSTN)18接口。還把MSC 16配置成和BSC 14接口。通過回程線路把BSC 14耦合到基站12?？砂鸦爻叹€路配置成支持若干已知接口中的任何一種，如，E1/T1、ATM、IP、PPP、幀中繼、HDSL、ADSL或xDSL。理解到，系統(tǒng)中可能有多于兩個的BSC14。每個基站12有利地包括至少一個扇區(qū)(未示出)，每個扇區(qū)包括一個全方向天線或者指向從基站12輻射出去的某一特定方向的天線。另一方面，每個扇區(qū)可以包括用于分集接收的兩個天線?？梢杂欣匕衙總€基站12設(shè)計成支持多個頻率分配?？梢园焉葏^(qū)和頻率分配的交集稱為CDMA信道。還可以把基站12稱為基站收發(fā)機子系統(tǒng)(BTS)12。另外，可在業(yè)界中把“基站”用于統(tǒng)稱BSC14和一個或多個BTS12。還可以把BTS12稱為“小區(qū)站點”12。另外，可以把給定的BTS12的個別扇區(qū)稱為小區(qū)站點。移動訂戶單元10一般是蜂窩或PCS電話機10。把該系統(tǒng)有利地配置成按照IS-95標準而使用。
在蜂窩網(wǎng)電話系統(tǒng)的典型操作期間，基站12接收來自多組移動單元10的反向鏈路信號集。移動單元10實施電話呼叫或其它通信。給定基站12所接收到的每個反向鏈路信號在該基站12中得到處理。把產(chǎn)生的數(shù)據(jù)傳送給BSC14。BSC14提供呼叫資源分配和移動性管理功能，包括基站12之間的軟越區(qū)切換的協(xié)調(diào)結(jié)合。BSC14還把接收到的數(shù)據(jù)路由發(fā)送到MSC16，MSC16為與PSTN18之間接口而提供額外的路由服務(wù)。類似地，PSTN18與MSC16接口，而MSC16與BSC14接口，BSC14依次控制基站12發(fā)送多組前向鏈路信號到多組移動單元10。本領(lǐng)域的普通技術(shù)人員應(yīng)該理解在備擇實施例中訂戶單元10可以是固定單元。
在圖2中第1編碼器100接收數(shù)字化的語音采樣s(n)，并對采樣s(n)進行編碼，用于在傳輸媒介102(或通信信道102)上的到第1解碼器104的傳輸。解碼器104對編碼的語音采樣解碼，并合成輸出的語音信號sSYNTH(n)。對于在相反方向上的傳輸，第2編碼器106對數(shù)字化的語音采樣s(n)編碼，在通信信道108上傳輸該采樣。第2解碼器110接收并解碼編碼的語音采樣，產(chǎn)生合成的輸出語音信號sSYNTH(n)。
語音采樣s(n)表示根據(jù)本領(lǐng)域中的任何各種已知方法(包括如脈沖編碼調(diào)制(PCM)、μ律和A律壓擴)而已經(jīng)被數(shù)字化和量化的語音信號。如本領(lǐng)域中已知的，把語音采樣s(n)組織成輸入數(shù)據(jù)幀，其中每個幀包括預(yù)定個數(shù)的數(shù)字化語音采樣s(n)。在示例性實施例中，使用8kHz的采樣率，每個20毫秒幀包括160個采樣。在下述的實施例中，可以有利地以逐幀的方式將數(shù)據(jù)傳輸率從全速率變化到半速率、到四分之一速率、到八分之一速率。變化的數(shù)據(jù)傳輸率是有利的，因為可以對包含相對較少語音信息的幀可選地使用較低的比特率。如本領(lǐng)域的那些普通技術(shù)人員所理解的那樣，可以使用其它采樣速率和/或幀大小。同樣在下述的實施例中，可按逐幀的方式，響應(yīng)于幀的語音信息或能量而改變語音編碼(或編碼)模式。
第1編碼器100和第2解碼器110一起包括第1語音編碼器(編碼器/解碼器)，或語音編解碼器?？稍谟糜诎l(fā)送語音信號的任何通信設(shè)備(包括如上面參考圖1所述的訂戶單元、BTS或BSC)中使用語音編碼器。類似地，第2編碼器106和第1解碼器104一起包括第2語音編碼器。本領(lǐng)域的那些普通技術(shù)人員理解，可以用數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、離散門邏輯、固件或任何常規(guī)可編程軟件模塊以及微處理器來實現(xiàn)語音編碼器。軟件模塊可駐留于RAM存儲器、閃存、寄存器或本領(lǐng)域中已知的任何其它形式的存儲媒體中。另外，可用任何常規(guī)處理器、控制器或狀態(tài)機來代替微處理器。在轉(zhuǎn)讓給本發(fā)明的受讓人并通過引用而充分結(jié)合于此。的美國專利號5727123，以及轉(zhuǎn)讓給本發(fā)明的受讓人并通過引用而充分結(jié)合于此。的1994年2月16日申請的名為“VOCODER ASIC”的美國專利申請序列號08/197417中，描述了為語音編碼而專門設(shè)計的示例性ASIC。
在圖3中，可以用于語音編碼器中的編碼器200包括模式判決模塊202，音調(diào)估計模塊204，LP分析模塊206，LP分析濾波器208，LP量化模塊210以及殘余量化模塊212。把輸入語音幀s(n)提供給模式判決模塊202、音調(diào)估計模塊204、LP分析模塊206以及LP分析濾波器208。模式判決模塊202尤其根據(jù)每個輸入語音幀s(n)的周期、能量、信噪比(SNR)或過零率，產(chǎn)生每模式索引IM和模式M。在轉(zhuǎn)讓給本發(fā)明的受讓人并通過引用而充分結(jié)合于此。的美國專利號5911128中描述了根據(jù)周期來分類語音幀的各種方法。還把這樣的方法結(jié)合于電信工業(yè)協(xié)會暫行標準TIA/EIA IS-127和TIA/EIA IS-733之中。在上述的美國專利申請序列號09/217,341中還描述了示范模式判決方案。
音調(diào)估計模塊204根據(jù)每個輸入語音幀s(n)而產(chǎn)生音調(diào)索引IP和滯后值P0。LP分析模塊206對每個輸入語音幀s(n)進行線性預(yù)測分析，以產(chǎn)生LP參數(shù)α。把LP參數(shù)α提供給LP量化模塊210。LP量化模塊210還接收模式M，從而以依賴于模式的方式進行量化處理。LP量化模塊210產(chǎn)生LP索引ILP和量化的LP參數(shù) 。除了輸入語音幀s(n)之外，LP分析濾波器208還接收量化的LP參數(shù) 。LP分析濾波器208產(chǎn)生LP殘余信號R[n]，它表示輸入語音幀s(n)與根據(jù)量化的線性預(yù)測參數(shù) 重構(gòu)的語音之間的誤差。把LP殘余信號R[n]、模式M和量化后的LP參數(shù) 提供給殘余量化模塊212。根據(jù)這些值，殘余量化模塊212產(chǎn)生殘余索引IR和經(jīng)量化的殘余信號在圖4中，可以用于語音編碼器的解碼器300包括LP參數(shù)解碼模塊302、殘余解碼模塊304、模式解碼模塊306以及LP合成濾波器308。模式解碼模塊306接收并解碼模式索引IM，由之產(chǎn)生模式M。LP參數(shù)解碼模塊302接收模式M和LP索引ILP。 LP參數(shù)解碼模塊302對所接收的值解碼，以產(chǎn)生經(jīng)量化的LP參數(shù) 。殘余解碼模塊304接收殘余索引IR、音調(diào)索引IP和模式索引IM。殘余解碼模塊304對接收到的值解碼，以產(chǎn)生經(jīng)量化的殘余信號。把經(jīng)量化的殘余信號和經(jīng)量化的LP參數(shù) 提供給LP合成濾波器308，該濾波器合成從其中解碼出的輸出語音信號圖3的編碼器200和圖4的解碼器300的各模塊的操作和實現(xiàn)是本領(lǐng)域中已知的，并在上述的美國專利號5,414,796中以及L.B.Rabiner和R.W.Schafer所著的“Digital Processing of Speech Signal”(1978)中的396-453頁中有所描述。
在一個實施例中，多模式語音編碼器400通過通信信道(或傳輸媒介)404與多模式語音解碼器402進行通信。通信信道404有利地是根據(jù)IS-95標準配置的RF接口。本領(lǐng)域的那些普通技術(shù)人員將理解到，編碼器400具有相關(guān)的解碼器(未示出)。編碼器400及其相關(guān)的解碼器一起形成了第1語音編碼器。本領(lǐng)域的那些普通技術(shù)人員還將理解到，解碼器402具有相關(guān)的編碼器(未示出)。解碼器402及其相關(guān)的編碼器一起形成了第2語音編碼器?？梢杂欣匕训?和第2語音編碼器實現(xiàn)為第1和第2 DSP的一部分，并可以位于如PCS或蜂窩電話系統(tǒng)中的訂戶單元和基站中，或者位于衛(wèi)星系統(tǒng)中的訂戶單元和網(wǎng)關(guān)中。
編碼器400包括參數(shù)計算器406、模式分類模塊408、多個編碼模式410以及分組格式化模塊412。以n示出編碼模式410的個數(shù)，技術(shù)人員將理解它可以表示任何合理的編碼模式410個數(shù)。為簡單起見，只示出了3個編碼模式410，并用虛線指出了其它編碼模式410的存在。解碼器402包括分組分解器和分組丟失檢測器模塊414、多個解碼模式416、擦除解碼器418和后濾波器或語音合成器420。以n示出解碼模式416的個數(shù)，技術(shù)人員將理解它可以表示任何合理的解碼模式416的個數(shù)。為簡單起見，只顯示了3個解碼模式416，并用虛線指出了其它解碼模式416的存在。
把語音信號s(n)提供給參數(shù)計算器406。把語音信號分成被稱為幀的采樣塊。值n指定了幀數(shù)。在一備擇實施例中，使用線性預(yù)測(LP)殘余誤差信號來代替語音信號。由諸如CELP編碼器之類的語音編碼器使用LP殘余。通過把語音信號提供給逆LP濾波器(未示出)來有利地進行LP殘余的計算。如上述的美國專利號5,414,796以及美國專利申請序列號09/217,494中所描述的那樣，根據(jù)下面的公式計算逆LP濾波器的傳遞函數(shù)A(z)A(z)＝l-a1z-1-a2z-2-…-apz-p其中系數(shù)a1是具有根據(jù)已知方法選擇的預(yù)定值的濾波器抽頭。數(shù)p指出了逆LP濾波器用于預(yù)測目的的先前采樣的個數(shù)。在某一特定的實施例中，把p設(shè)置為10。
參數(shù)計算器406根據(jù)當(dāng)前幀得出各個參數(shù)。在一個實施例中，這些參數(shù)包括下列的至少一個線性預(yù)測編碼(LPC)濾波器系數(shù)、線譜對(LSP)系數(shù)、規(guī)范自相關(guān)函數(shù)(NACF)、開環(huán)滯后、過零率、頻帶能量和共振峰殘余信號。在上述的美國專利號5,414,796中詳細描述了LPC系數(shù)、LSP系數(shù)、開環(huán)滯后、頻帶能量和共振峰殘余信號的計算。在上述的美國專利號5,911,128中詳細描述了NACF和過零率的計算。
把參數(shù)計算器406耦合至模式分類模塊408。參數(shù)計算器406向模式分類模塊408提供參數(shù)。耦合模式分類模塊408，以按逐幀的方式在編碼模式410之間動態(tài)切換，以便為當(dāng)前幀選擇最合適的編碼模式410。模式分類模塊408通過比較參數(shù)和預(yù)定閾值和/或最高值，來為當(dāng)前幀選擇某一特定的編碼模式410。根據(jù)幀的能量內(nèi)容，模式分類模塊408把幀分類成非語音、或非活動語音(如靜默、背景噪聲、或話語間的暫停)或語音。根據(jù)幀的周期，模式分類模塊408隨后把語音幀分類成某一特定的語音類型，如，有聲的、無聲的或過渡的。
有聲語音是呈現(xiàn)相對較高的周期度的語音。圖6中示出了一有聲語音段。如所示，音調(diào)周期是語音幀的一個分量，可以有益地用于分析和重構(gòu)幀的內(nèi)容。無聲語音一般包括輔音聲音。過渡語音幀一般是有聲和無聲語音之間的過渡。把被分類成既不是有聲語音也不是無聲語音的幀分類成過渡語音。本領(lǐng)域的那些普通技術(shù)人員將理解可以使用任何合理的分類方案。
對語音幀進行分類是有利的，因為可以使用不同的編碼模式410來對不同類型的語音編碼，導(dǎo)致在諸如通信信道404之類的共享信道中更有效的帶寬使用。例如，由于有聲語音是周期的，并因此是高預(yù)測性的，所以可以使用低比特率、高預(yù)測編碼模式410來編碼有聲語音。在上述的美國專利申請序列號09/217,341以及轉(zhuǎn)讓給本發(fā)明的受讓人并通過引用而充分結(jié)合于此。的1999年2月26日申請的名為“CLOSED-LOOP MULTIMODE MIXED-DOMAIN LINEARPREDICTION(MDLP)SPEECH CODER”的美國專利申請序列號09/259,151中，詳細描述了諸如分類模塊408之類的分類模塊。
模式分類模塊408根據(jù)幀的分類為當(dāng)前幀選擇一個編碼模式410。并聯(lián)耦合各編碼模式410。在任何給定的時刻，編碼模式410中的一個或多個是可運作的。然而，在任何給定的時刻，有益地只有一個模式410運作，并且根據(jù)當(dāng)前幀的分類來選擇模式。
不同的編碼模式410有利地應(yīng)根據(jù)不同的編碼比特率、不同的編碼方案或編碼比特率和編碼方案的不同組合來工作。所用的各種編碼速率可以是全速率、半速率、四分之一速率和/或八分之一速率。所用的各種編碼方案可以是CELP編碼、原型音調(diào)周期(PPP)編碼(或波形內(nèi)插(WI)編碼)、和/或噪聲激勵線性預(yù)測(NELP)編碼。從而(例如)某一編碼模式410可以是全速率CELP，另一種編碼模式410可以是半速率CELP，另一種編碼模式410可以是四分之一速率PPP，以及另一種編碼模式410可以是NELP。
根據(jù)CELP編碼模式410，用LP殘余信號的量化版本來激勵線性預(yù)測聲道模型。使用整個先前幀的量化參數(shù)來重構(gòu)當(dāng)前幀。CELP編碼模式410因此提供了相對精確的但以相對高的編碼比特率為代價的語音再現(xiàn)?？梢杂欣匕袰ELP編碼模式410用于編碼被分類成過渡語音的幀。在上述美國專利號5,414,796中詳細描述了一種示例性的可變速率CELP語音編碼器。
根據(jù)NELP編碼模式410，使用經(jīng)過濾的偽隨機噪聲信號來模擬語音幀。NELP編碼模式410是實現(xiàn)較低比特率的相對簡單的技術(shù)?？梢允褂肗ELP編碼模式412來有利地對被分類成無聲語音的幀進行編碼。在上述美國專利申請序列號09/217,494中詳細描述了一種示例性的NELP編碼模式。
根據(jù)PPP編碼模式410，僅對每幀中的一音調(diào)周期子集進行編碼。通過在這些原型周期中內(nèi)插來重構(gòu)語音信號的剩余周期。在PPP編碼的時域?qū)崿F(xiàn)中，計算第1組參數(shù)，該組參數(shù)描述怎樣將前一原型周期修改到接近當(dāng)前的原型周期。選擇一個或多個編碼矢量，當(dāng)相加時，所述編碼矢量近似于當(dāng)前原型周期與經(jīng)修改的前一原型周期之間的差。第2組參數(shù)描述了這些經(jīng)選擇的編碼矢量。在PPP編碼的頻域?qū)崿F(xiàn)中，計算一組參數(shù)來描述原型的幅度譜和相位譜。這可在絕對意義上或預(yù)測地進行。在與本發(fā)明一起申請的上述申請的相關(guān)申請，名為“METHOD AND APPARATUS FOR PREDICTIVELY QUANTIZING VOICEDSPEECH”中描述了一種用于預(yù)測地量化原型(或整個幀)的幅度譜和相位譜的方法。根據(jù)PPP編碼的任一種實現(xiàn)，解碼器通過根據(jù)所述第1組和第2組參數(shù)而重構(gòu)當(dāng)前原型，來合成輸出語音信號。然后在當(dāng)前重構(gòu)的原型周期和先前重構(gòu)的原型周期之間的區(qū)域上內(nèi)插所述語音信號。從而，所述原型是當(dāng)前幀的一部分，將用來自先前幀的原型線性內(nèi)插當(dāng)前幀，這些先前幀的原型被類似地置于所述幀中，以便在解碼器重構(gòu)語音信號或LP殘余信號(即使用過去的原型周期作為當(dāng)前原型周期的預(yù)測器)。在上述美國專利申請序列號09/217,494中詳細描述了示例性的PPP語音編碼器。
編碼原型周期而不是整個語音幀，降低了要求的編碼比特率?？捎肞PP編碼模式410有利地對被分類成有聲語音的幀進行編碼。如圖6中所說明的那樣，有聲語音包含PPP編碼模式410所有利地采用的緩慢時變的周期的分量。通過采用有聲語音的周期，PPP編碼模式410能夠?qū)崿F(xiàn)比CELP編碼模式410低的比特率。
把經(jīng)選擇的編碼模式410耦合至分組格式化模塊412。經(jīng)選擇的編碼模式410對當(dāng)前幀編碼或量化，并將經(jīng)量化的幀參數(shù)提供給分組格式化模塊412。分組格式化模塊412有利地將經(jīng)量化的信息匯編成用于在通信信道404上傳送的分組。在一個實施例中，把分組格式化模塊412配置成提供糾錯編碼，并根據(jù)IS-95標準來格式化分組。把分組提供給發(fā)射機(未示出)，將其轉(zhuǎn)換成模擬格式、對其調(diào)制，并在通信信道404上將其發(fā)送到接收機(亦未示出)，接收機對該分組進行接收、解調(diào)和數(shù)字化，并將分組提供給解碼器402。
在解碼器402中，分組分解器和分組丟失檢測器模塊414接收來自接收機的分組。耦合分組分解器和分組丟失檢測器模塊414，以按逐個分組的方式在解碼模式416之間動態(tài)地切換。解碼模式416的個數(shù)與編碼模式410的個數(shù)相同，并且本領(lǐng)域的一個普通技術(shù)人員將認識到每個編號的編碼模式410與配置成使用相同編碼比特率和編碼方案的各自的類似編號的解碼模式416相關(guān)聯(lián)。
如果分組分解器和分組丟失檢測器模塊414檢測出分組，則分解該分組，并將其提供給有關(guān)的解碼模式416。如果分組分解器和分組丟失檢測器模塊414沒有檢測出分組，則聲明分組丟失，并且如下所述擦除解碼器418有利地進行幀擦除處理。
把解碼模式416的并行陣列和擦除解碼器418耦合至后濾波器420。所述有關(guān)的解碼模式416對分組進行解碼或去量化，將信息提供給后濾波器420。后濾波器420重構(gòu)或合成語音幀，輸出經(jīng)合成的語音幀。在上述美國專利號5,414,796以及美國專利申請序列號09/217,494中詳細描述了示例性的解碼模式和后濾波器。
在一個實施例中，不傳送經(jīng)量化的參數(shù)本身。相反，傳送指定解碼器402中的各個查表(LUT)(未示出)中的地址的編碼本索引。解碼器402接收編碼本索引，并搜索各個編碼本LUT以獲得適當(dāng)?shù)膮?shù)值。因此，可傳送諸如(例如)音調(diào)滯后、自適應(yīng)編碼本增益以及LSP之類的參數(shù)的編碼本索引。
根據(jù)CELP編碼模式410，傳送音調(diào)滯后、幅度、相位以及LSP參數(shù)。傳送LSP編碼本索引，因為要在解碼器402處合成LP殘余信號。因此，傳送了當(dāng)前幀的音調(diào)滯后值與前一幀的音調(diào)滯后值之間的差。
根據(jù)常規(guī)PPP編碼模式，在該模式中在解碼器處合成語音信號，僅傳送音調(diào)滯后、幅度和相位參數(shù)。由常規(guī)PPP語音編碼技術(shù)所使用的較低比特率不允許絕對的音調(diào)滯后信息以及相對的音調(diào)滯后差值兩者的傳送。
根據(jù)一個實施例，用低比特率PPP編碼模式410傳送諸如有聲語音幀之類的高周期幀，該模式量化當(dāng)前幀的音調(diào)滯后值與前一幀的音調(diào)滯后值之間的差用于傳送，而不量化當(dāng)前幀的音調(diào)滯后值用于傳送。由于有聲語音幀本質(zhì)上是高周期的，與絕對的音調(diào)滯后值相反，傳送差值允許實現(xiàn)較低的編碼比特率。在一個實施例中，推廣這種量化，使得計算先前幀的參數(shù)值的加權(quán)和，其中權(quán)值的和為1，并且從當(dāng)前幀的參數(shù)值中減去所述加權(quán)和。然后量化差。在與本發(fā)明一起申請的名為“METHOD AND APPARATUS FOR PREDICTIVELYQUANTIZING VOICED SPEECH”的上述相關(guān)申請中描述了這種技術(shù)。
根據(jù)一個實施例，可變速率編碼系統(tǒng)，按控制處理器所確定的那樣，用由所述處理器或模式分類器控制的不同的編碼器或編碼模式來編碼不同類型的語音。編碼器根據(jù)由前一幀的音調(diào)滯后值L-1，以及當(dāng)前幀的音調(diào)滯后值L所指定的音調(diào)輪廓來修改當(dāng)前幀殘余信號(或在備擇中，語音信號)。解碼器的控制處理器遵循相同的音調(diào)輪廓，從音調(diào)記憶中為當(dāng)前幀的經(jīng)量化的殘余或語音重構(gòu)自適應(yīng)編碼本基值{P(n)}。
如果丟失了前一音調(diào)滯后值L-1，解碼器不能重構(gòu)正確的音調(diào)輪廓。這致使曲解了自適應(yīng)編碼本基值{P(n)}。反過來，即使對于當(dāng)前幀來說沒有丟失分組，合成的語音也將遭受嚴重的退化。作為補救，一些常規(guī)編碼器使用一方案，來對L和L與L-1之間的差兩者進行編碼。該差或Δ音調(diào)值可由Δ表示，其中Δ＝L-L-1，可用作如果在前一幀中丟失了L-1，則恢復(fù)L。
當(dāng)前描述的實施例可最有益地用于可變速率編碼系統(tǒng)中。特別地，如上所述，以C表示的第1編碼器(或編碼模式)對當(dāng)前幀音調(diào)滯后值L，以及Δ音調(diào)滯后值Δ進行編碼。以Q表示的第2編碼器(或編碼模式)對Δ音調(diào)滯后值Δ進行編碼，但沒有必要對音調(diào)滯后值L編碼。這允許第2編碼器Q使用額外的比特來編碼其他參數(shù)，或保存全部比特(即起低比特率編碼器的作用)。第1編碼器C可有利地是用來對相對非周期的語音編碼的編碼器，諸如(例如)全速率CELP編碼器。第2編碼器Q可有利地是用于對高周期語音(如有聲語音)編碼的編碼器，諸如(例如)四分之一速率PPP編碼器。
如圖7的例子中所說明的那樣，如果丟失了前一幀(幀n-1)的分組，在對所述前一幀之前接收的幀(幀n-2)解碼之后，把音調(diào)記憶基值{P-2(n)}存儲于編碼器存儲器(未示出)中。還把幀n-2的音調(diào)滯后值L-2存儲于編碼器存儲器中。如果由編碼器C編碼當(dāng)前幀(幀n)，則可把幀n稱為C幀。編碼器C可使用方程L-1＝L-Δ，從Δ音調(diào)滯后值Δ中恢復(fù)前一音調(diào)滯后值L-1。因此，用值L-1和L-2可重構(gòu)正確的音調(diào)輪廓。只要是正確的音調(diào)輪廓，則幀n-1的自適應(yīng)編碼本基值可被修正，并且隨后可用于產(chǎn)生幀n的自適應(yīng)編碼本基值。本領(lǐng)域中的那些普通技術(shù)人員理解，這樣的方案用于一些諸如EVRC編碼器之類的常規(guī)編碼器中。
根據(jù)一個實施例，如下所述，增強了使用上述兩種類型的編碼器(編碼器C和編碼器Q)的可變速率語音編碼系統(tǒng)中的幀擦除性能。如圖8的例子中所說明的那樣，可把可變速率編碼系統(tǒng)設(shè)計成使用編碼器C和編碼器Q兩者。當(dāng)前幀(幀n)是C幀，并且它的分組沒有丟失。前一幀(幀n-1)是Q幀。在Q幀之前的幀的分組(即幀n-2的分組)丟失了。
在對幀n-2的幀擦除處理中，在解碼幀n-3之后，把音調(diào)記憶基值{P-3(n)}存儲于編碼器存儲器(未示出)中。還把幀n-3的音調(diào)滯后值L-3存儲于編碼器存儲器中。通過根據(jù)方程L-1＝L-Δ，在C幀分組中使用Δ音調(diào)滯后值Δ(它等于L-L-1)，可恢復(fù)幀n-1的音調(diào)滯后值L-1。幀n-1是Q幀，具有它自己的相關(guān)的經(jīng)編碼的音調(diào)滯后值Δ-1(等于L-1-L-2)。因此，根據(jù)方程L-2＝L-1-Δ-1，可恢復(fù)擦除幀(幀n-2)的音調(diào)滯后值L-2。用幀n-2和幀n-1的正確的音調(diào)滯后值，可有利地重構(gòu)這些幀的音調(diào)輪廓，并可相應(yīng)地修正自適應(yīng)編碼本基值。因此，C幀將具有為其經(jīng)量化的LP殘余信號(或語音信號)計算自適應(yīng)編碼本基值而要求的改進的音調(diào)記憶。如本領(lǐng)域的那些普通技術(shù)人員可理解的那樣，可以容易地把這種方法擴展到考慮擦除幀與C幀之間的多個Q幀的存在。
如圖9的圖示所示，當(dāng)擦除了一幀，擦除解碼器(如圖5的元件418)沒有該幀的準確信息地重構(gòu)經(jīng)量化的LP殘余(或語音信號)。如果根據(jù)上述用于重構(gòu)當(dāng)前幀的經(jīng)量化的LP殘余(或語音信號)的方法，恢復(fù)了已擦除的幀的音調(diào)輪廓和音調(diào)記憶，則所產(chǎn)生的經(jīng)量化的LP殘余(或語音信號)將不同于使用經(jīng)破壞的音調(diào)記憶的經(jīng)量化的LP殘余。編碼器音調(diào)記憶中的這樣的變化將導(dǎo)致幀間經(jīng)量化的殘余(或語音信號)中的間斷。因此，在諸如EVRC編碼器之類的常規(guī)語音編碼器中常聽見過渡聲音或喀嚦聲。
根據(jù)一個實施例，在修正之前，從被破壞的音調(diào)記憶中提取音調(diào)周期原型。還根據(jù)標準的去量化處理提取當(dāng)前幀的LP殘余(或語音信號)。然后根據(jù)波形內(nèi)插(WI)方法，重構(gòu)當(dāng)前幀的經(jīng)量化的殘余(或語音信號)。在某一實施例中，WI方法根據(jù)上述的PPP編碼模式進行操作。這種方法有利地用于平滑上述的間斷，并用于進一步增強語音編碼器的幀擦除性能。無論何時由于擦除處理而修正音調(diào)記憶時，可使用WI方案，而不管用于實現(xiàn)修正的方法(例如，包括但不限于上文中先前描述的技術(shù))。
圖10的圖說明了已根據(jù)常規(guī)技術(shù)而被調(diào)整(產(chǎn)生可聽見的喀嚦聲)的LP殘余信號與已根據(jù)上述WI平滑方案而被隨后平滑的LP殘余信號之間的表現(xiàn)差異。圖11的圖說明了PPP或WI編碼技術(shù)的原理。
從而，已經(jīng)描述了可變速率語音編碼器中一種新穎的改進的幀擦除補償方法。本領(lǐng)域的那些普通技術(shù)人員將理解，貫穿上述描述，可引用數(shù)據(jù)、指令、命令、信息、信號、比特、碼元以及碼片，并且它們可有利地用電壓、電流、電磁波、磁場或磁粒子、光場或光粒子或它們的任何組合來表示。那些技術(shù)人員將進一步理解，可以把連同這里揭示的實施例一起描述的各種說明性邏輯塊、模塊、電路以及算法步驟實現(xiàn)為電子硬件、計算機軟件或它們的組合。一般根據(jù)它們的功能性來描述各種說明性的部件、塊、模塊、電路和步驟。是把功能實現(xiàn)為硬件還是軟件，取決于強加于整個系統(tǒng)上的某一特定應(yīng)用和設(shè)計約束。熟練的技術(shù)人員認可在這些情況下硬件和軟件的互換性，以及怎樣最佳地對每一特定應(yīng)用實現(xiàn)所描述的功能。作為例子，可以用數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或其它可編程邏輯器件、離散門或晶體管邏輯、諸如寄存器和FIFO之類的離散硬件部件、執(zhí)行一組固件指令的處理器、任何常規(guī)可編程的軟件模塊和處理器、或設(shè)計成執(zhí)行這里所述的功能的上述元件的任何組合，來實現(xiàn)連同這里所揭示的實施例一起描述的各種說明性邏輯塊、模塊、電路和算法步驟。處理器可以有利地是微處理器，但是另一方面，處理器可以是任何常規(guī)處理器、控制器、微控制器或狀態(tài)機。軟件模塊可駐留于RAM存儲器、閃存存儲器、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬盤、可拆卸的磁盤、CD-ROM或本領(lǐng)域中已知的任何其它形式的存儲媒體。如圖12所說明的那樣，把示例性處理器500有利地耦合至存儲媒體502，以便從中讀取信息，以及將信息寫入存儲媒體502。另一方面，可以把存儲媒體502結(jié)合于處理器500中。處理器500和存儲媒體502可位于ASIC(未示出)中。ASIC可位于電話機(未示出)中。另一方面，處理器500和存儲媒體可位于電話機中?？梢园烟幚砥?00實現(xiàn)為DSP和微處理的組合，或?qū)崿F(xiàn)為與DSP核心協(xié)同的兩個微處理器，等等。
已經(jīng)示出和描述了本發(fā)明的較佳實施例。然而，對于本領(lǐng)域的普通技術(shù)人員來說，顯然可對這里所揭示的實施例作出許多改變而不背離本發(fā)明的要旨和范圍。因此，應(yīng)根據(jù)下面的權(quán)利要求來限制本發(fā)明。
權(quán)利要求
1.一種用于語音編碼器中補償幀擦除的方法，其特征在于包括對在聲明了已擦除的幀之后處理的當(dāng)前幀的音調(diào)滯后值和Δ值進行量化，所述Δ值等于當(dāng)前幀的音調(diào)滯后值與當(dāng)前幀之前緊接的一幀的音調(diào)滯后值之間的差；量化當(dāng)前幀之前以及幀擦除之后的至少一個幀的Δ值，其中所述Δ值等于所述至少一個幀的音調(diào)滯后值與所述至少一個幀之前緊接的一幀的音調(diào)滯后值之間的差；以及從當(dāng)前幀的音調(diào)滯后值中減去每個Δ值，以產(chǎn)生已擦除的幀的音調(diào)滯后值。
2.如權(quán)利要求1所述的方法，其特征在于進一步包括重構(gòu)已擦除的幀，以產(chǎn)生重構(gòu)的幀。
3.如權(quán)利要求2所述的方法，其特征在于進一步包括進行波形內(nèi)插，來平滑當(dāng)前幀與重構(gòu)幀之間存在的任何間斷。
4.如權(quán)利要求1所述的方法，其特征在于根據(jù)相對非預(yù)測的編碼模式來執(zhí)行第1量化。
5.如權(quán)利要求1所述的方法，其特征在于根據(jù)相對預(yù)測的編碼模式來執(zhí)行第2量化。
6.一種配置成補償幀擦除的語音編碼器，其特征在于包括用于量化聲明了已擦除的幀之后處理的當(dāng)前幀的音調(diào)滯后值和Δ值的裝置，所述Δ值等于當(dāng)前幀的音調(diào)滯后值與當(dāng)前幀之前緊接的一幀的音調(diào)滯后值之間的差；用于量化當(dāng)前幀之前以及幀擦除之后的至少一個幀的Δ值的裝置，其中所述Δ值等于所述至少一個幀的音調(diào)滯后值與所述至少一個幀之前緊接的一幀的音調(diào)滯后值之間的差；以及用于從當(dāng)前幀的音調(diào)滯后值中減去每個Δ值，以產(chǎn)生已擦除的幀的音調(diào)滯后值的裝置。
7.如權(quán)利要求6所述的語音編碼器，其特征在于進一步包括用于重構(gòu)已擦除的幀，以產(chǎn)生重構(gòu)的幀的裝置。
8.如權(quán)利要求7所述的語音編碼器，其特征在于進一步包括用于進行波形內(nèi)插，來平滑當(dāng)前幀與重構(gòu)幀之間存在的任何間斷的裝置。
9.如權(quán)利要求6所述的語音編碼器，其特征在于用于量化的第1裝置包括用于根據(jù)相對非預(yù)測的編碼模式來執(zhí)行量化的裝置。
10.如權(quán)利要求6所述的語音編碼器，其特征在于用于量化的第2裝置包括用于根據(jù)相對預(yù)測的編碼模式來執(zhí)行量化的裝置。
11.一種配置成補償幀擦除的訂戶單元，其特征在于包括配置成量化聲明了已擦除的幀之后處理的當(dāng)前幀的音調(diào)滯后值和Δ值的第1語音編碼器，所述Δ值等于當(dāng)前幀的音調(diào)滯后值與當(dāng)前幀之前緊接的一幀的音調(diào)滯后值之間的差；配置成量化當(dāng)前幀之前以及幀擦除之后的至少一個幀的Δ值的第2語音編碼器，其中所述Δ值等于所述至少一個幀的音調(diào)滯后值與所述至少一個幀之前緊接的一幀的音調(diào)滯后值之間的差；以及耦合至所述第1和第2語音編碼器，并配置成從當(dāng)前幀的音調(diào)滯后值中減去每個Δ值，以產(chǎn)生已擦除的幀的音調(diào)滯后值的控制處理器。
12.如權(quán)利要求11所述的訂戶單元，其特征在于把所述控制處理器進一步配置成重構(gòu)已擦除的幀，以產(chǎn)生重構(gòu)的幀。
13.如權(quán)利要求12所述的訂戶單元，其特征在于把所述控制處理器進一步配置成進行波形內(nèi)插，來平滑當(dāng)前幀與重構(gòu)幀之間存在的任何間斷。
14.如權(quán)利要求11所述的訂戶單元，其特征在于把所述第1語音編碼器配置成根據(jù)相對非預(yù)測的編碼模式來量化。
15.如權(quán)利要求11所述的訂戶單元，其特征在于把所述第2語音編碼器配置成根據(jù)相對預(yù)測的編碼模式來量化。
16.一種配置成補償幀擦除的基礎(chǔ)設(shè)施元件，其特征在于包括處理器；以及耦合至所述處理器并包含一組指令的存儲媒體，所述指令可由所述處理器執(zhí)行，以量化聲明了已擦除的幀之后處理的當(dāng)前幀的音調(diào)滯后值和Δ值，所述Δ值等于當(dāng)前幀的音調(diào)滯后值與當(dāng)前幀之前緊接的一幀的音調(diào)滯后值之間的差，量化當(dāng)前幀之前以及幀擦除之后的至少一個幀的Δ值，其中所述Δ值等于所述至少一個幀的音調(diào)滯后值與所述至少一個幀之前緊接的一幀的音調(diào)滯后值之間的差，以及從當(dāng)前幀的音調(diào)滯后值中減去每個Δ值，以產(chǎn)生已擦除的幀的音調(diào)滯后值。
17.如權(quán)利要求16所述的基礎(chǔ)設(shè)施元件，其特征在于所述指令集可由所述處理器進一步執(zhí)行來進行重構(gòu)已擦除的幀，以產(chǎn)生重構(gòu)的幀。
18.如權(quán)利要求17所述的基礎(chǔ)設(shè)施元件，其特征在于所述指令集可由所述處理器進一步執(zhí)行來進行波形內(nèi)插，來平滑當(dāng)前幀與重構(gòu)幀之間存在的任何間斷。
19.如權(quán)利要求16所述的基礎(chǔ)設(shè)施元件，其特征在于所述指令集可由所述處理器進一步執(zhí)行，以根據(jù)相對非預(yù)測的編碼模式來量化當(dāng)前幀的音調(diào)滯后值和Δ值。
20.如權(quán)利要求16所述的基礎(chǔ)設(shè)施元件，其特征在于所述指令集可由所述處理器進一步執(zhí)行，以根據(jù)相對預(yù)測的編碼模式來量化當(dāng)前幀之前以及幀擦除之后的至少一個幀的Δ值。
全文摘要
可變速率語音編碼器中一種幀擦除補償方法，包括用第1編碼器量化當(dāng)前幀的音調(diào)滯后值以及等于當(dāng)前幀的音調(diào)滯后值與前一幀的音調(diào)滯后值之間的差的第1Δ音調(diào)滯后值。第2預(yù)測編碼器僅量化前一幀的第2Δ音調(diào)滯后值(等于前一幀的音調(diào)滯后值與該幀之前的一幀的音調(diào)滯后值之間的差)。如果把前一幀之前的幀作為幀擦除處理，同過從當(dāng)前幀的音調(diào)滯后值中減去第1Δ音調(diào)滯后值，獲得前一幀的音調(diào)滯后值。然后通過從前一幀的音調(diào)滯后值中減去第2Δ音調(diào)滯后值，獲得擦除幀的音調(diào)滯后值。此外，可使用波形內(nèi)插方法，以平滑由編碼器音調(diào)記憶中的變化引起的間斷。
文檔編號G10L19/00GK1432175SQ01810338
公開日2003年7月23日申請日期2001年4月18日優(yōu)先權(quán)日2000年4月24日
發(fā)明者S·曼祖那什, P·J·黃, E·L·T·肖依申請人:高通股份有限公司

完整全部詳細技術(shù)資料下載