分布式語音識別系統(tǒng)中語音識別的方法和設(shè)備的制作方法

文檔序號：2835055閱讀：469來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：分布式語音識別系統(tǒng)中語音識別的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語音識別的方法和設(shè)備，尤其涉及一種分布式語音識別系統(tǒng)中語音識別的方法和設(shè)備。
背景技術(shù)：
自動語音識別(ASR)是根據(jù)語音波形中所包括的信息自動識別語音指令類型的方法。根據(jù)話音而非物理的密鑰，ASR已經(jīng)引導(dǎo)了新一代的安全設(shè)備，并且已經(jīng)可以實現(xiàn)完全的“免持”或“免提”特性，例如話音撥號和話音信息檢索。
在最高級上，所有的ASR系統(tǒng)為特征提取(也稱作信號處理前端)和特征匹配(也稱作信號處理后端)而處理語音。特征提取是從一個語音輸入中提取少量數(shù)據(jù)來表示所述語音輸入的方法。特征匹配是通過比較所提取的數(shù)據(jù)與一個已知的數(shù)據(jù)集來識別出所述語音輸入中所包含的指令類型的方法。在一個標(biāo)準(zhǔn)的ASR系統(tǒng)中，由一個處理單元執(zhí)行這兩個功能。
然而，與使用原始未修改的語音作為輸入的ASR系統(tǒng)的性能相比，使用諸如在一條移動或無線信道上傳輸?shù)恼Z音作為輸入的ASR系統(tǒng)的性能可能明顯很低。這種系統(tǒng)性能上的惡化可能是因為在傳輸?shù)恼Z音中編碼算法以及信道傳輸誤碼所引入的失真。
分布式語音識別(DSR)系統(tǒng)試圖通過使特征提取和特征匹配分離和具有由安裝在兩個不同位置上的兩個不同的處理單元執(zhí)行的兩種方法來校正因語音傳輸所導(dǎo)致的系統(tǒng)性能惡化。例如，在包括第一通信設(shè)備(例如一個移動單元)和第二通信設(shè)備(例如一臺服務(wù)器)的DSR移動或無線通信系統(tǒng)或網(wǎng)絡(luò)內(nèi)，移動單元僅執(zhí)行特征提取，即移動單元從語音輸入中提取和編碼識別特征。然后，移動單元在一條錯誤保護(hù)數(shù)據(jù)信道上將編碼特征發(fā)送給服務(wù)器。服務(wù)器接收編碼識別特征，并僅執(zhí)行特征匹配，即服務(wù)器匹配編碼特征與一個已知數(shù)據(jù)集中的特征。
使用所述方法，編碼失真被最小化，并且傳輸信道錯誤對所述識別系統(tǒng)的性能僅產(chǎn)生很小的影響。而且，移動單元只需要執(zhí)行計算量較少的特征提取，將計算量較多的特征匹配留給服務(wù)器。通過將計算量較多的活動保留給服務(wù)器的處理器，為移動單元的處理器保留了更大的設(shè)計靈活性，因為當(dāng)前強(qiáng)調(diào)的是單元小型化，所以處理器的大小和速度一般非常重要。
歐洲電信標(biāo)準(zhǔn)協(xié)會(ETSI)最近公開了一個用于DSR特征提取和壓縮算法的標(biāo)準(zhǔn)。歐洲電信標(biāo)準(zhǔn)協(xié)會標(biāo)準(zhǔn)ES 201 108，語音處理，傳輸和質(zhì)量方面(STQ)；分布式語音識別；前端特征提取算法；壓縮算法(Speech Processing，Transmission and Quality aspects(STQ)；Distributed speech recognition；Front-end feature extration algorithm；Compression algorithms)，2000年4月1.1.2版(在下文中稱作“ETSI標(biāo)準(zhǔn)”)，在此全文引用作為參考。雖然存在多種編碼語音輸入數(shù)據(jù)的方法，例如線性預(yù)測(LP)，ETSI標(biāo)準(zhǔn)包括一個特征提取算法，它提取并編碼語音輸入作為一個對數(shù)能量(log-energy)值和一系列用于每個幀的Mel-頻率倒譜系數(shù)(MFCC)。這些參數(shù)基本上捕獲了語音輸入的頻譜包絡(luò)信息，并且在大多數(shù)大詞匯量語音識別器中廣泛地使用。ETSI標(biāo)準(zhǔn)還包括用于(通過矢量量化)壓縮和錯誤保護(hù)(循環(huán)冗余校驗碼)的算法。ETSI標(biāo)準(zhǔn)還描述了用于比特流解碼和信道錯誤降低的合適的算法。在一個10毫秒的更新間隔上并添加了同步和首部信息，數(shù)據(jù)傳輸速率達(dá)到4800比特/秒。
總而言之，諸如根據(jù)ETSI標(biāo)準(zhǔn)所設(shè)計的一個DSR系統(tǒng)為移動通信網(wǎng)絡(luò)的實現(xiàn)提供了很多優(yōu)點。這樣一種系統(tǒng)提供與ASR系統(tǒng)相同的識別性能，但具有可以合并在一個移動單元內(nèi)的低復(fù)雜性的前端和用于傳輸編碼識別特征的低帶寬要求。
DSR系統(tǒng)的缺點在于為了存儲和/或驗證目的在后端不能獲得原始語音輸入。能夠獲得原始的話音輸入對于下述情況將是有幫助的(i)要求人力協(xié)助的后端應(yīng)用，以便例如通過允許比較使用遠(yuǎn)程口授系統(tǒng)生成的文件與原始的語音輸入來允許所述文件的手工校正，或者當(dāng)識別工作從一個DSR系統(tǒng)切換倒一個操作員時允許平滑轉(zhuǎn)換；(ii)預(yù)防性地存儲法律上敏感的信息，例如在諸如發(fā)出證券訂單的金融交易過程中記錄確切的陳述；和(iii)在數(shù)據(jù)庫收集過程中的最終驗證，例如用于訓(xùn)練批處理方式(尤其是遞增模式)和系統(tǒng)調(diào)諧中的識別器。
另一方面，如果使用一個標(biāo)準(zhǔn)的ASR系統(tǒng)，則原始語音在后端上是可用的。然而，如上所述，當(dāng)在移動或無線應(yīng)用中使用時，ASR具有顯著的失真問題。也就是說，以在所希望的大約4800bps的比特率上編碼的語音明顯地降低了識別器的性能。另外，可以提供一個獨立的高質(zhì)量語音編碼器，但是這將要求顯著地增加帶寬。
附圖的簡要描述

圖1是根據(jù)本發(fā)明一種實施例的使用語音編碼和語音重構(gòu)方法的分布式語音識別系統(tǒng)的示意圖；圖2是圖示在圖1所示的系統(tǒng)中使用的根據(jù)本發(fā)明一種實施例的語音編碼方法的流程圖；圖3是圖示在圖1所示的系統(tǒng)中使用的根據(jù)本發(fā)明一種實施例的語音重構(gòu)方法的流程圖；圖4是根據(jù)本發(fā)明一種實施例的語音編碼和語音重構(gòu)設(shè)備的示意圖；圖5是圖示由圖4所示的語音編碼設(shè)備使用的語音編碼方法的流程圖；
圖6是圖示由圖4所示的語音重構(gòu)設(shè)備使用的語音激發(fā)確定方法的流程圖；和圖7也是圖示由圖4所示的語音重構(gòu)設(shè)備使用的語音激發(fā)確定方法的流程圖。
實施例的詳細(xì)描述根據(jù)本發(fā)明的實施例，提供了一種語音重構(gòu)的方法和設(shè)備。具體而言，在一種分布式語音識別系統(tǒng)中，所述系統(tǒng)包括第一通信設(shè)備，它接收一個語音輸入，編碼代表語音輸入的數(shù)據(jù)，并傳輸編碼數(shù)據(jù)；和第二遠(yuǎn)程通信設(shè)備，它接收編碼數(shù)據(jù)并比較所述編碼數(shù)據(jù)與一個已知的數(shù)據(jù)集，一種在第二通信設(shè)備上重構(gòu)語音輸入的方法，包括接收包括編碼頻譜數(shù)據(jù)和編碼能量數(shù)據(jù)的編碼數(shù)據(jù)的步驟。所述方法還包括解碼編碼頻譜數(shù)據(jù)和編碼能量數(shù)據(jù)以確定頻譜數(shù)據(jù)和能量數(shù)據(jù)的步驟。所述方法還包括組合所述頻譜數(shù)據(jù)和能量數(shù)據(jù)以重構(gòu)語音輸入的步驟。根據(jù)本發(fā)明一種實施例的設(shè)備包括一個安裝有一程序的處理器，所述程序控制所述處理器以接收和解碼所述編碼數(shù)據(jù)；和一個語音合成器，它組合解碼數(shù)據(jù)以重構(gòu)語音輸入。
圖1圖示一個通信網(wǎng)絡(luò)或系統(tǒng)20，具體而言，一個移動或無線電頻率通信系統(tǒng)。盡管所圖示的系統(tǒng)20是一個移動或無線電頻率通信系統(tǒng)，所述系統(tǒng)20也可以是任意類型的通信系統(tǒng)，例如一個有線系統(tǒng)或者一個使用除了無線頻率通信之外的其它通信方法的系統(tǒng)。
系統(tǒng)20包括一個移動通信設(shè)備22(如一個移動站)和一個固定通信設(shè)備24(如一個基站)，移動設(shè)備22通過使用無線電頻率傳輸與固定設(shè)備24通信。固定設(shè)備24又在一條有線連接上與一臺服務(wù)器26通信，服務(wù)器26與遠(yuǎn)程站28亦如此。使用這樣一個系統(tǒng)20，一個用戶30可以與遠(yuǎn)程站28通信，也可以與遠(yuǎn)程站28的相關(guān)用戶32通信。
雖然在圖1中僅圖示了一個移動設(shè)備22、固定設(shè)備24、服務(wù)器26和遠(yuǎn)程站28，顯然正如一般情況，所述系統(tǒng)20可以包括與多個固定設(shè)備24通信的多個移動設(shè)備22，固定設(shè)備24又與多臺服務(wù)器26通信，后者又與多個遠(yuǎn)程站28通信。為了便于解釋，圖示了一個移動設(shè)備22、固定設(shè)備24、服務(wù)器26和遠(yuǎn)程站28，但是在此所描述的本發(fā)明并不受所圖示系統(tǒng)20的大小的限制。
系統(tǒng)20是一個分布式語音設(shè)備系統(tǒng)，即移動設(shè)備22執(zhí)行特征提取，服務(wù)器26執(zhí)行特征匹配。系統(tǒng)20還使用本發(fā)明的一種實施例在服務(wù)器26上提供重構(gòu)數(shù)據(jù)以存儲和/或驗證。在圖2中具體圖示了移動設(shè)備22用于提取識別特征從而編碼一個語音輸入的方法。類似地，在圖3中圖示了服務(wù)器26用于重構(gòu)語音信號的方法。
如圖2所示，移動設(shè)備22在步驟34接收一個語音輸入。移動設(shè)備22在步驟36確定和編碼代表語音輸入能量的數(shù)據(jù)。在步驟38，移動設(shè)備22使用例如LP參數(shù)、MFCC或者某種其它方法來確定和編碼代表語音輸入頻譜的數(shù)據(jù)。在步驟39，移動設(shè)備22可選擇地確定和編碼語音輸入的其它相關(guān)數(shù)據(jù)，例如類型和音調(diào)周期數(shù)據(jù)。在步驟40組合在方框36、38和(可選地)39上確定的數(shù)據(jù)以便傳輸。在圖2中的步驟42，將組合后的編碼信號從移動設(shè)備22發(fā)送到固定設(shè)備24，并且隨后，在圖3中的步驟44，從固定設(shè)備24發(fā)送由服務(wù)器26接收。
同樣如圖3所示，服務(wù)器26在步驟46解碼和確定能量數(shù)據(jù)。服務(wù)器26還在步驟48解碼和確定頻譜數(shù)據(jù)。服務(wù)器26還可選地在步驟49解碼和確定傳輸來的語音輸入的其它相關(guān)數(shù)據(jù)。服務(wù)器26在步驟50組合在步驟46和48確定的能量數(shù)據(jù)和頻譜數(shù)據(jù)與在步驟49確定的附加語音數(shù)據(jù)以重構(gòu)在步驟34接收到的語音輸入。在步驟52輸出重構(gòu)的語音。
使用這一系統(tǒng)20，除了編碼形式的語音輸入之外，在服務(wù)器26上還可以獲得重構(gòu)形式的語音輸入，并可以傳送給遠(yuǎn)程站28。所述重構(gòu)形式的語音輸入例如可以由用戶32檢查遠(yuǎn)程口授系統(tǒng)所生成的一個文件。而且，通過主要將移動設(shè)備22生成的編碼語音信號用于語音輸入的重構(gòu)，在未顯著增加移動設(shè)備22和固定設(shè)備24之間傳輸信道帶寬的情況下，可以在遠(yuǎn)程站28上獲得重構(gòu)的語音。
現(xiàn)在將參考圖4至圖7解釋設(shè)備22和26的詳細(xì)結(jié)構(gòu)和語音編碼和重構(gòu)的具體方法。
移動設(shè)備22的詳細(xì)結(jié)構(gòu)在圖4的左半部圖示。移動設(shè)備22包括一個語音輸入設(shè)備54(例如一個麥克風(fēng))，它連接到一個DSR信號生成器56和一個語音聲碼器56-分析器58。DSR信號生成器56提取通過語音輸入設(shè)備54接收到的語音輸入的相關(guān)頻譜數(shù)據(jù)，并生成一個代表頻譜數(shù)據(jù)的編碼信號。聲碼器-分析器58提取可以在后端上用于重構(gòu)語音的語音輸入的相關(guān)附加數(shù)據(jù)。
組合器60將來自DSR信號生成器的編碼信號和由聲碼器-分析器58提取的附加數(shù)據(jù)集合成一個統(tǒng)一信號，所述信號被發(fā)送給一個連接到組合器60的發(fā)送器62。在圖1所示的系統(tǒng)20的實施例中，發(fā)送器62是一個無線電頻率發(fā)送器或收發(fā)信機(jī)，盡管根據(jù)本發(fā)明的方法可以由其它類型的通信系統(tǒng)使用，在這種情況下，將選擇發(fā)送器以與所選擇的系統(tǒng)相互兼容。
現(xiàn)在參考圖5解釋DSR信號生成器56的操作方法。在步驟64，由DSR信號生成器56接收語音輸入。在步驟66，例如在8000抽樣/秒的抽樣頻率(Fs)和16比特/抽樣上將語音輸入從模擬轉(zhuǎn)換成數(shù)字。數(shù)字化后的語音在步驟68通過一個直流偏置消除濾波器，并在步驟70分割成重疊幀。幀的大小取決于抽樣頻率。對于容納三種不同抽樣頻率8、11和16KHz的ETSI標(biāo)準(zhǔn)來說，幀的大小可以分別是200、256和400抽樣。
然后，在步驟72，計算幀的能量等級，并確定其自然對數(shù)。所得到的數(shù)值也稱作對數(shù)能量值。
然后，成幀數(shù)字化的語音信號在步驟74通過一個預(yù)加重濾波器以預(yù)加重高頻分量。然后在步驟76給每個語音幀加窗口(例如使用一個漢明窗)，并在步驟78使用快速傅立葉變換(“FFT”)將其轉(zhuǎn)換到頻域。類似于幀大小，所使用的FFT的大小取決于抽樣頻率，例如256點FFT用于8和11kHz的抽樣頻率，而512點的FFT用于16kHz的抽樣頻率。
然后，通過一個稱作Mel-濾波的處理將64Hz和Fs/2(例如8kHz抽樣頻率的4kHz)之間頻率范圍內(nèi)的FFT幅值轉(zhuǎn)換到Mel-頻域。執(zhí)行到Mel-頻域的轉(zhuǎn)換是因為心理學(xué)研究表明人類對語音信號的聲頻譜的感覺并不遵從線性量度。因此，對于具有一個以赫茲為單位測量的實際頻率f的每個音頻，可以在第二量度上表示一個主觀音調(diào)(subjective pitch)，所述第二量度稱作Mel-頻率量度。
在步驟80上出現(xiàn)的Mel-濾波處理如下。首先使用下面的表達(dá)式將頻率范圍(例如64Hz到4000Hz)變形映射(warp into)成Mel-頻率量度。
Mel(f)=2595.0*log10(1+f700.0)]]>使用這個等式，例如對應(yīng)于頻率64Hz和40000Hz的Mel頻率分別是98.6和2146.1。然后，將這個Mel-頻率范圍分割成23個大小相同、半重疊的頻帶(也稱作信道或存儲包(bin))，每個頻帶170.6寬，每個頻帶的中心間距85.3。第一頻帶的中心位于98.6+85.3＝183.9，最后一個頻帶的中心位于2146.1-85.3＝2060.8。這些在Mel-頻域內(nèi)大小相同的頻帶對應(yīng)于線性頻域內(nèi)大小不同的頻帶，其中頻帶大小隨著頻率軸增加。然后，使用一個三角加權(quán)窗口(在中心的加權(quán)等于1.0，在兩端的加權(quán)等于0.0)來平均(濾波)落入每個頻帶內(nèi)的FFT幅值。濾波后的頻帶輸出隨后經(jīng)過一個自然對數(shù)操作。
然后在步驟82，使用一個23點的DCT(離散余弦變換)將在步驟80生成的23個對數(shù)頻譜值轉(zhuǎn)換到對數(shù)頻率倒譜域。僅計算前13個數(shù)值(C0至C12)，丟棄即不計算其余10個數(shù)值(C13至C22)。然后在步驟84壓縮(量化)在步驟72計算出的幀對數(shù)能量和在步驟82計算出的13個對數(shù)頻率倒譜值(也稱作Mel-頻率倒譜系數(shù)或MFCC)，并在步驟86發(fā)送給固定設(shè)備24。對于根據(jù)ETSI標(biāo)準(zhǔn)操作的系統(tǒng)20來說，每10毫秒更新一次MFCC和對數(shù)能量值。
如上所述，聲碼器-分析器58還接收語音輸入。具體而言，聲碼器-分析器58分析所述輸入以確定除了可以從DSR-編碼語音獲得的數(shù)據(jù)之外的、可以由服務(wù)器26使用的語音輸入的其它相關(guān)數(shù)據(jù)以重構(gòu)語音。由聲碼器-分析器58提取的具體數(shù)據(jù)取決于與服務(wù)器26相連的語音聲碼器的特性，所述服務(wù)器26將合成重構(gòu)后的語音。例如，編碼激勵線性預(yù)測(CELP)聲碼器需要用于將準(zhǔn)備的每個語音子幀的密碼本目錄。對于參數(shù)型聲碼器(例如正弦型聲碼器)來說，可能還需要其它激勵數(shù)據(jù)，例如類型(話音、非話音、等等)、音調(diào)周期以及諸如子幀能量級的更高分辨率的能量數(shù)據(jù)。
人們將認(rèn)識到當(dāng)比特率低于大約4800bps時，CELP編碼器所合成的語音質(zhì)量將迅速下降。相反地，參數(shù)型聲碼器在較低的比特率上提供合理的語音質(zhì)量。因為一個DSR系統(tǒng)的主要要求之一是低數(shù)據(jù)傳輸速率，所以一般將在服務(wù)器26內(nèi)使用一個參數(shù)型聲碼器，尤其是一個正弦型聲碼器。因此，根據(jù)本發(fā)明的優(yōu)選實施例，語音聲碼器-分析器58為每個語音幀確定類型、音調(diào)周期和子幀能量數(shù)據(jù)，但是也可以選擇省略子幀能量數(shù)據(jù)，因為可以通過從對數(shù)能量值中內(nèi)插來計算子幀能量。
聲碼器-分析器58最好在大約20毫秒的幀大小上執(zhí)行操作，即每20毫秒傳輸一次參數(shù)。在每個幀內(nèi)，將兩個比特用于類型參數(shù)，即指示一幀是非語音、話音、非話音、混合話音、等等。最好使用一個基于能量的話音活動檢測器(VAD)來進(jìn)行語音/非語音分類，同時根據(jù)包括周期相關(guān)性(在等于一個音調(diào)周期的滯后上的標(biāo)準(zhǔn)化相關(guān)性)、非周期性能量比(解除相關(guān)和原始幀的能量比)和高頻能量比的多個特征來確定合音合成等級。提供諧波頻率相關(guān)信息的音調(diào)周期參數(shù)一般使用附加的7個比特來表示，所述7個比特用于大約55Hz到420Hz的典型音調(diào)頻率范圍。最好使用一個低通濾波后的語音的時域相關(guān)性分析來估計所述音調(diào)周期。如果將要發(fā)送較高分辨率的能量數(shù)據(jù)參數(shù)，例如子幀能量參數(shù)，這可以使用附加的8個比特來實現(xiàn)。通過一個四維VQ在對數(shù)域中量化子幀能量，在一個子幀(每幀4個子幀)上計算非語音幀和非話音幀的能量和在一個音調(diào)周期上計算話音幀的能量。也可以組合子幀能量和對數(shù)能量值以降低比特率。
假設(shè)每20毫秒傳輸一次類型、音調(diào)周期和子幀能量值，即如果使用一個ETSI標(biāo)準(zhǔn)系統(tǒng)每兩個DSR幀傳輸一次，大約800至850bps將會添加給數(shù)據(jù)傳輸速率。如果不傳輸附加的能量數(shù)據(jù)，可以僅僅將450bps添加給數(shù)據(jù)傳輸速率。
現(xiàn)在將參考圖4的右半部討論服務(wù)器26的具體結(jié)構(gòu)。根據(jù)本發(fā)明的一種實施例，接收機(jī)88連接到一個常規(guī)的DSR參數(shù)提取器90和一個DSR/語音處理器92。DSR參數(shù)提取器90連接到一個常規(guī)的DSR處理器94和一個常規(guī)的語音識別器96以比較編碼數(shù)據(jù)與一個已知的數(shù)據(jù)集，而DSR/語音處理器92連接到一個語音聲碼器-合成器98(如前面指出的，最好是一個正弦語音聲碼器-合成器)和一個語音輸出(例如揚聲器)100。
參見圖6，DSR/語音處理器92包括一個程序，它如下所述控制所述DSR/語音處理器92確定和解碼DSR編碼頻譜數(shù)據(jù)，尤其是諧波幅值。在步驟104，將對應(yīng)于預(yù)加重濾波器脈沖響應(yīng)的MFCC值從所接收的MFCC值中減去以消除預(yù)加重的影響和Mel-濾波的影響。然后，在步驟106，轉(zhuǎn)換MFCC值以為每個所想要的諧波頻率計算對數(shù)頻譜值。然后，在步驟108指數(shù)化所述對數(shù)頻譜值以獲得這些諧波的匹配幅值。典型地，每20毫秒執(zhí)行一次這些步驟，當(dāng)然也可以更頻繁地執(zhí)行計算，例如每10毫秒一次。
圖7更詳細(xì)地圖示DSR/語音程序的操作。在步驟110，如上所述，將對應(yīng)于預(yù)加重濾波器脈沖響應(yīng)的MFCC值從所接收的MFCC值中大體上減去以消除預(yù)加重濾波器的影響。另外，作為最后一個步驟，通過將諧波頻率的頻譜幅值除以預(yù)加重濾波器在對應(yīng)的諧波頻率上的脈沖響應(yīng)可以消除預(yù)加重濾波器的影響。然而，除了預(yù)加重濾波器之外，因為沿著線性的頻率軸增加的頻帶帶寬，Mel-濾波器加重較高的頻率。Mel-濾波器在任一頻帶中心上的脈沖響應(yīng)都可以被采用為對應(yīng)的頻帶帶寬，并且可以為任何其它的頻率使用一個內(nèi)插值。通過計算預(yù)加重濾波器和Mel-濾波器的組合脈沖響應(yīng)，將諧波頻率的頻譜幅值除以在對應(yīng)諧波頻率上的組合脈沖響應(yīng)，能夠在單個步驟中消除兩個濾波器的影響。步驟110實現(xiàn)相同的結(jié)果。
然后使用消除預(yù)加重濾波器和Mel-濾波器影響的已修改的MFCC值來根據(jù)下述步驟估計頻譜幅值。在步驟112確定對應(yīng)于諧波頻率(可以根據(jù)音調(diào)周期獲得)的Mel頻率。然后，在步驟114，116，對在諧波的Mel頻率上的已修改的MFCC值執(zhí)行反離散余弦變換(IDCT)以將頻率倒譜系數(shù)轉(zhuǎn)換成對數(shù)頻率倒譜值。
也就是說，除了頻率倒譜序列的截斷和量化導(dǎo)致的失真之外，MFCC值C0至C12(假設(shè)C13至C22為零)的23點IDCT將恢復(fù)原始的23個對數(shù)頻譜值。然而，這些對數(shù)頻譜值對應(yīng)于23個頻帶的中心頻率。需要其它頻率上的對數(shù)頻譜值以為諧波頻率確定轉(zhuǎn)換后的MFCC值。
為了提高抽樣分辨率，可以以23的奇數(shù)倍增加IDCT的大小，即(2K+1)×23，其中K＞0。這在對應(yīng)于這些頻帶中心的23個原始Mel-頻率的兩側(cè)引入了K個附加的Mel-頻率點。例如，如果K＝85，則在第一頻帶中心的左側(cè)和最后一個(即第23個)頻帶中心的右側(cè)存在85個附加的Mel-頻率點，和在任意兩個連續(xù)的頻帶中心之間存在170個附加的Mel-頻率點。在這種情況下，Mel-頻率點的總數(shù)是171×23＝3933。對于Fs＝8000Hz，頻帶中心在Mel-頻率量度上相距85.3，K＝85的選擇提高了分辨率，所以連續(xù)的Mel頻率點僅相距85.3/171＝0.499。需注意的是，IDCT的最左和最右的Mel-頻率點并不對應(yīng)于線性頻率量度上的0和Fs/2(例如4000Hz)。對于我們的這個例子來說，最左的Mel-頻率點在183.9-85×0.499＝141.48上，最右的Mel-頻率點在2060.8+85×0.499＝2103.2上。在我們的例子中，在線性頻率量度上的對應(yīng)點分別是93.6Hz和3824.6Hz。一種處理IDCT頻率范圍未覆蓋的頻率的方法是使用最近的頻率點，即將低于93.6Hz的頻率分配給在93.6Hz上的頻率點，類似地，將高于3824.6Hz的頻率分配給在3824.6Hz上的頻率點。另一種方法是使用某種內(nèi)插法。
使用DCT自身的基本函數(shù)作為插值函數(shù)，較高分辨率的IDCT基本上內(nèi)插在Mel-頻帶的中心頻率之間。然而，并不必須執(zhí)行一個3933點的IDCT。相反，為了便于在選定的頻率點上計算IDCT，在步驟118可以使用下式可選擇地預(yù)先計算一個12×3933矩陣L的IDCT值。
Li,j=(223)cos((2j+1)*i*π2*23*171)]]>其中i＝1，2，……，12和j＝0，1，……，3932。對應(yīng)于C0的第零行是隱含的，不需要存儲，因為其數(shù)值對于所有的列都是1/23的常數(shù)。對應(yīng)于C13至C22的行不需要存儲，因為這些系數(shù)是不可使用的，并假定為零。
給出這個矩陣L以獲得在任意給定Mel-頻率上的對數(shù)頻譜值，定位已經(jīng)計算出IDCT的最近Mel-頻率點，選擇矩陣L的相應(yīng)列矢量，并形成相應(yīng)列和已修改的MFCC矢量[C0，C1，…，C12]之間的內(nèi)積。因此，為了給諧波頻率確定對數(shù)頻譜值，例如，在步驟114定位最近的Mel-頻率點，并選擇矩陣L的相應(yīng)列矢量。而且，在步驟116，形成已修改的MFCC矢量和在步驟114選擇的矩陣L的列矢量之間的內(nèi)積。
然后，在步驟120指數(shù)化轉(zhuǎn)換后的系數(shù)以計算頻譜幅值。
正弦語音聲碼器-合成器98在上述程序的控制下使用這些頻譜幅值、幀能量的相關(guān)數(shù)據(jù)和同樣由DSR/語音處理器92提取的其它數(shù)據(jù)(例如類型、音調(diào)周期和子幀能量)，作為具有不同頻率、幅值和相位的多個正弦信號之和來重構(gòu)語音。具體地說，合成器使用一個語音乘積的正弦模型來重構(gòu)語音。
s(j)=ΣkAk,jcos(Φk,j)]]>其中作為多個諧波相關(guān)的幅值為A和相位為Φ的正弦曲線之和來合成語音抽樣s(j)，j是抽樣標(biāo)號，k是諧波標(biāo)號。
典型地，合成處理開始于在每幀中點上的頻率、幅值和相位的計算。所使用的頻率是音調(diào)頻率以及可以使用音調(diào)周期計算出的它的諧波。所使用的幅值可以是諧波幅值，這可以使用上面討論的方法所確定頻譜幅值和與幀的中點相對應(yīng)的子幀能量(或者是它的使用對數(shù)能量值的一個插值)來估計。例如對于非話音語音來說，幅值可以對應(yīng)于不必等于諧波頻率的一組頻率，在這種情況下，可以使用上述方法的一般形式和對應(yīng)于幀中點的子幀能量(或者是它的使用對數(shù)能量值的一個插值)來估計這些幅值。所計算的相位取決于類型參數(shù)。對于話音語音來說，計算相干相位。對于非話音語音來說，計算隨機(jī)的非相干相位。對于混合話音語音來說，話音模型用于低頻，而非話音模型用于高頻。從模型化的相位中消除任意線性的相位分量。
一旦獲得中點頻率、幅值和相位值，就可以計算其它點上的幅值和相位。例如，一旦獲得當(dāng)前和前一話音幀中點上的幅值，就可以使用線性內(nèi)插調(diào)整在這些點上的能量來計算子幀邊界上的幅值。也可以使用線性內(nèi)插來計算子幀內(nèi)的幅值。通過允許相位根據(jù)頻率線性地演變，可以計算在不同抽樣標(biāo)號上的諧波相位。允許頻率在子幀邊界上以從前一數(shù)值到當(dāng)前數(shù)值相等的間距變化。使用線性相位校正因子(即輕微的頻移)來解決這種演變所導(dǎo)致的任何相位不連續(xù)性。如果前一幀和當(dāng)前幀的種類不同(例如一個話音，另一個是非話音)，或者兩者都是話音幀但是音調(diào)周期完全不同，例如加倍，則分別合成這兩個幀并在時域上疊加。
實例1使用一個語音數(shù)據(jù)庫，在8kHz的頻率上抽樣，使用一個m-IRS濾波器預(yù)處理，并包括32個句子對(4男+4女，每人四個句子對)。通過首先估計音調(diào)周期以確定諧波頻率，然后從256點FFT的漢明窗口化語音中提取在這些頻率上的幅值，從而為每個話音幀(20毫秒長)獲得原始的諧波幅值。然后，完成上述的DSR編碼方法以計算MFCC矢量。然后使用上面也已經(jīng)描述過的根據(jù)本發(fā)明的方法來為來自每個其它MFCC矢量的每20毫秒的幀估計諧波幅值。將N個話音幀上的平均失真D計算為D=1NΣn=1n=NDn]]>其中第n個幀的失真由下式給出Dn=1KiΣk=1k=Ki[20*log10(Mk,n)-20*log10(M~k,n)]]]>其中K是諧波數(shù)量，Mk，n和分別是原始和所估計的諧波幅值。首先為每個幀標(biāo)準(zhǔn)化原始和所估計的幅值以便它們的對數(shù)平均值為零。
結(jié)果在表1中示出，其中也體現(xiàn)了量化和截斷的影響。
表1

實例2為了估計根據(jù)本發(fā)明的方法的質(zhì)量，還執(zhí)行一個主觀平均意見分(MOS)測試。為此目的使用在實例1中使用的同一語音數(shù)據(jù)庫。在測試中總共包括32種情況。包括了幾種MNRU的情況和編碼標(biāo)準(zhǔn)作為參考，以確保跨越質(zhì)量等級的整個范圍。由一組32個自然聽眾根據(jù)5點量度極差(1)、差(2)、中等(3)、好(4)和極好(5)來評估語音質(zhì)量。在隔音室內(nèi)執(zhí)行測試，并通過一個單聲道耳機(jī)來播放語音抽樣。
MOS數(shù)量(在256投票上平均)如下原始的未編碼語音得分4.32。G726(32Kbps ADPCM)和G729(8Kbps CS-ACELP)標(biāo)準(zhǔn)分別得分3.65和3.89。MELP聲碼器(2400bps聯(lián)邦標(biāo)準(zhǔn))得分2.93。一種常規(guī)的2400bps聲碼器(使用一個14階全極點模型來模型化幅值，使用一個4分割VQ來量化所述14階全極點模型的模型參數(shù)(線性頻譜頻率))及其在2700bps上的20毫秒變化分別得分3.11和3.15。通過比較，使用子幀能量級別相關(guān)數(shù)據(jù)重構(gòu)語音的本發(fā)明的一種實施例得分2.43，而不使用子幀能量級別相關(guān)數(shù)據(jù)的一種實施例得分2.26。
除了質(zhì)量之外，還評估了可懂度。為了評估可懂度，執(zhí)行一個(有限)診斷韻律測試(DRT)。在所述測試中由2個演講者(1男1女)和8個(未訓(xùn)練的)聽眾口述標(biāo)準(zhǔn)的DRT測試詞。在一個隔音室內(nèi)執(zhí)行所述測試，并通過一個單聲道耳機(jī)重構(gòu)語音抽樣。
發(fā)現(xiàn)20毫秒版的常規(guī)聲碼器(2700bps)的(平均)整體可懂度是88。通過比較，發(fā)現(xiàn)使用子幀能量級別的實施例得分是82.8。
由實例1和實例2得出的結(jié)果是重構(gòu)語音具有合理的質(zhì)量和相當(dāng)?shù)目啥取?br> 總而言之，根據(jù)本發(fā)明的系統(tǒng)、方法和設(shè)備與標(biāo)準(zhǔn)ASR和DSR相比提供了若干優(yōu)點。與ASR不同，根據(jù)本發(fā)明的系統(tǒng)、方法和設(shè)備克服了傳輸語音所導(dǎo)致的失真級別。與DSR不同，根據(jù)本發(fā)明的系統(tǒng)、方法和設(shè)備使重構(gòu)語音能夠被存儲和/或驗證。而且，通過將數(shù)據(jù)傳輸速率增加不超過大約10％至20％，根據(jù)本發(fā)明的系統(tǒng)、方法和設(shè)備使得能夠根據(jù)本發(fā)明的一種優(yōu)選實施例獲得所述重構(gòu)的語音。也就是說，通過利用已經(jīng)被編碼為DSR處理一部分的數(shù)據(jù)，根據(jù)本發(fā)明的系統(tǒng)、方法和設(shè)備使必須傳輸以在后端上提供重構(gòu)語音的附加數(shù)據(jù)最小化。
通過研讀說明書、附圖和權(quán)利要求書將獲得本發(fā)明的其它方面、目的和優(yōu)點。
權(quán)利要求
1.在一種分布式語音識別系統(tǒng)中，所述系統(tǒng)包括第一通信設(shè)備，它接收一個語音輸入，編碼代表語音輸入的數(shù)據(jù)，并傳輸所述編碼數(shù)據(jù)；和第二遠(yuǎn)程通信設(shè)備，它接收編碼數(shù)據(jù)，并比較所述編碼數(shù)據(jù)與一個已知的數(shù)據(jù)集，一種在第二通信設(shè)備上重構(gòu)語音輸入的方法，包括步驟接收包括編碼頻譜數(shù)據(jù)和編碼能量數(shù)據(jù)的編碼數(shù)據(jù)；解碼所述編碼頻譜數(shù)據(jù)和編碼能量數(shù)據(jù)以確定所述頻譜數(shù)據(jù)和能量數(shù)據(jù)；和組合所述頻譜數(shù)據(jù)和能量數(shù)據(jù)以重構(gòu)所述語音輸入。
2.根據(jù)權(quán)利要求1的重構(gòu)語音輸入的方法，其中接收步驟包含接收包括編碼為一系列Mel-頻率倒譜系數(shù)的頻譜數(shù)據(jù)的編碼數(shù)據(jù)的步驟。
3.根據(jù)權(quán)利要求2的重構(gòu)語音輸入的方法，其中所述語音輸入包括一個音調(diào)周期，且所述解碼步驟包括步驟確定對應(yīng)于所述音調(diào)周期的諧波Mel-頻率；對在所述諧波Mel-頻率上的Mel-頻率倒譜系數(shù)執(zhí)行一個反離散余弦變換以確定在所述諧波Mel-頻率上的語音輸入的對數(shù)頻率倒譜幅值；和指數(shù)化所述對數(shù)頻率倒譜幅值以確定所述語音輸入的頻譜幅值。
4.根據(jù)權(quán)利要求3的重構(gòu)語音輸入的方法，其中執(zhí)行反離散余弦變換的步驟包括步驟確定一個包括多個列矢量的矩陣，每個列矢量對應(yīng)于多個Mel-頻率之一；從所述矩陣中選擇一個列矢量，它對應(yīng)于多個Mel-頻率中在數(shù)值上最接近于諧波Mel-頻率之一的一個Mel-頻率；和形成在從所述系列的Mel-頻率倒譜系數(shù)形成的一個行矢量和所選擇的列矢量之間的一個內(nèi)積。
5.根據(jù)權(quán)利要求2的重構(gòu)語音輸入的方法，其中所述解碼步驟包括步驟確定對應(yīng)于一組頻率的Mel-頻率；和對在所述Mel-頻率上的Mel-頻率倒譜系數(shù)執(zhí)行一個反離散余弦變換以確定在所述Mel-頻率上的語音輸入的對數(shù)頻率倒譜幅值。
6.根據(jù)權(quán)利要求1的重構(gòu)語音輸入的方法，其中所述接收步驟包括接收編碼數(shù)據(jù)的步驟，所述編碼數(shù)據(jù)包括編碼的附加激勵數(shù)據(jù)；所述解碼步驟包括解碼編碼的附加激勵數(shù)據(jù)以確定所述附加激勵數(shù)據(jù)的步驟；和所述組合步驟包括組合所述頻譜、能量和激勵數(shù)據(jù)以重構(gòu)語音輸入的步驟。
7.根據(jù)權(quán)利要求6的重構(gòu)語音輸入的方法，其中所述解碼步驟包括解碼所述編碼的附加激勵數(shù)據(jù)以確定一個音調(diào)周期和一個話音類型的步驟。
8.在一種分布式語音識別系統(tǒng)中，所述系統(tǒng)包括第一通信設(shè)備，它接收一個語音輸入，編碼語音輸入的相關(guān)數(shù)據(jù)，并傳輸所述編碼數(shù)據(jù)；和第二遠(yuǎn)程通信設(shè)備，它接收所述編碼數(shù)據(jù)，并比較所述編碼數(shù)據(jù)與一個已知的數(shù)據(jù)集，所述第二遠(yuǎn)程通信設(shè)備包括一個包括一個程序的處理器，所述程序控制處理器以(i)接收包括編碼頻譜數(shù)據(jù)和編碼能量數(shù)據(jù)的編碼數(shù)據(jù)，所述頻譜數(shù)據(jù)被編碼為一系列的Mel-頻率倒譜系數(shù)；(ii)對在與所述語音輸入音調(diào)周期相對應(yīng)的諧波Mel-頻率上的Mel-頻率倒譜系數(shù)執(zhí)行一個反離散余弦變換以確定在這些諧波頻率上的語音輸入的對數(shù)頻譜幅值；(iii)指數(shù)化所述對數(shù)頻譜幅值以確定所述語音輸入的頻譜幅值；和(iv)解碼所述編碼的能量數(shù)據(jù)以確定能量數(shù)據(jù)；和一個語音合成器，它組合所述頻譜幅值和能量數(shù)據(jù)以重構(gòu)語音輸入。
9.根據(jù)權(quán)利要求8的通信設(shè)備，其中所述程序還控制處理器以(i)確定一個包括多個列矢量的矩陣，每個列矢量對用于多個Mel-頻率之一；(ii)從所述矩陣中選擇一個列矢量，它對應(yīng)于多個Mel-頻率中在數(shù)值上最接近于諧波Mel-頻率之一的一個Mel-頻率；和(iii)形成在從所述系列的Mel-頻率倒譜系數(shù)形成的一個行矢量和所選擇的列矢量之間的一個內(nèi)積以執(zhí)行所述反離散余弦變換。
全文摘要
在一種分布式語音識別系統(tǒng)(20)中，所述系統(tǒng)包括第一通信設(shè)備(22)，它接收一個語音輸入(34)，編碼代表語音輸入的數(shù)據(jù)(36，38)，并傳輸編碼數(shù)據(jù)(42)；和第二遠(yuǎn)程通信設(shè)備(26)，它接收編碼數(shù)據(jù)(44)并比較所述編碼數(shù)據(jù)與一個已知的數(shù)據(jù)集，所述設(shè)備(26)包括一個安裝有一程序的處理器(92)，所述程序控制處理器(92)根據(jù)一種重構(gòu)語音輸入的方法執(zhí)行操作，所述方法包括接收包括編碼頻譜數(shù)據(jù)和編碼能量數(shù)據(jù)的編碼數(shù)據(jù)的步驟(44)。所述方法還包括解碼編碼頻譜數(shù)據(jù)和編碼能量數(shù)據(jù)以確定頻譜數(shù)據(jù)和能量數(shù)據(jù)的步驟(46，48)。所述方法還包括組合所述頻譜數(shù)據(jù)和能量數(shù)據(jù)以重構(gòu)語音輸入的步驟(50，52)。
文檔編號G10L15/00GK1552059SQ02805996
公開日2004年12月1日申請日期2002年1月18日優(yōu)先權(quán)日2001年2月2日
發(fā)明者威廉·M·庫什納, 杰弗里·默尼耶, 馬克·A·雅修克, 坦卡西·V·拉馬巴德朗, V 拉馬巴德朗, 默尼耶, A 雅修克, 威廉 M 庫什納申請人:摩托羅拉公司

完整全部詳細(xì)技術(shù)資料下載