噪聲穩(wěn)健語音譯碼模式分類的制作方法
【專利摘要】本發(fā)明揭示一種噪聲穩(wěn)健語音分類的方法。將分類參數(shù)從外部組件輸入到語音分類器。在所述語音分類器中從所述輸入?yún)?shù)中的至少一者產(chǎn)生內(nèi)部分類參數(shù)。設(shè)定正規(guī)化自動相關(guān)系數(shù)函數(shù)閾值。根據(jù)信號環(huán)境來選擇參數(shù)分析器?;诙鄠€輸入語音幀的噪聲估計而確定語音模式分類。
【專利說明】噪聲穩(wěn)健語音譯碼模式分類
[0001]相關(guān)申請案
[0002]本申請案涉及2011年5月24日申請的名為“噪聲穩(wěn)健語音譯碼模式分類(Noise-Robust Speech Coding Mode Classification) ”的第61/489,629號美國臨時專利申請案且主張其優(yōu)先權(quán)。
【技術(shù)領(lǐng)域】
[0003]本發(fā)明大體上涉及語音處理的領(lǐng)域。更特定來說,所揭示配置涉及噪聲穩(wěn)健語音譯碼模式分類。
【背景技術(shù)】
[0004]通過數(shù)字技術(shù)進(jìn)行的話音發(fā)射已變得普遍,特別是在長距離及數(shù)字無線電電話應(yīng)用中。此情形又已產(chǎn)生對在維持經(jīng)重建構(gòu)語音的感知質(zhì)量的同時確定可經(jīng)由信道而發(fā)送的最少量的信息的興趣。如果通過簡單地取樣及數(shù)字化來發(fā)射語音,則需要大約每秒64千位(kbps)的數(shù)據(jù)速率以實現(xiàn)常規(guī)模擬電話的語音質(zhì)量。然而,經(jīng)由使用語音分析,接著使用適當(dāng)譯碼、發(fā)射及在接收器處的重新合成,可實現(xiàn)數(shù)據(jù)速率的顯著縮減。語音分析可被執(zhí)行得越準(zhǔn)確,則數(shù)據(jù)可被編碼得越適當(dāng),因此縮減數(shù)據(jù)速率。
[0005]使用通過提取關(guān)于人類語音產(chǎn)生模型的參數(shù)來壓縮語音的技術(shù)的裝置被稱為語音譯碼器。語音譯碼器將傳入語音信號劃分成時間塊或分析幀。語音譯碼器通常包括編碼器及解碼器,或編解碼器。編碼器分析傳入語音幀以提取某些相關(guān)參數(shù),且接著將所述參數(shù)量化成二進(jìn)制表示,即,量化到位集合或二進(jìn)制數(shù)據(jù)包。數(shù)據(jù)包是經(jīng)由通信信道發(fā)射到接收器及解碼器。解碼器處理數(shù)據(jù)包、解量化數(shù)據(jù)包以產(chǎn)生參數(shù),且接著使用經(jīng)解量化參數(shù)來重新合成語音中貞。
[0006]現(xiàn)代語音譯碼器可使用多模式譯碼方法,所述方法根據(jù)輸入語音的各種特征將輸入幀分類成不同類型。多模式可變位速率編碼器使用語音分類以使用每幀最小數(shù)目個位來準(zhǔn)確地俘獲及編碼高百分比的語音區(qū)段。更準(zhǔn)確的語音分類產(chǎn)生較低的平均經(jīng)編碼位速率及較高質(zhì)量的經(jīng)解碼語音。先前,語音分類技術(shù)僅針對經(jīng)隔離語音幀考慮最小數(shù)目個參數(shù),從而產(chǎn)生很少且不準(zhǔn)確的語音模式分類。因此,需要高性能語音分類器以在變化的環(huán)境條件下正確地分類眾多語音模式,以便實現(xiàn)多模式可變位速率編碼技術(shù)的最大性能。
【發(fā)明內(nèi)容】
【專利附圖】
【附圖說明】
[0007]圖1為說明用于無線通信的系統(tǒng)的框圖;
[0008]圖2A為說明可使用噪聲穩(wěn)健語音譯碼模式分類的分類器系統(tǒng)的框圖;
[0009]圖2B為說明可使用噪聲穩(wěn)健語音譯碼模式分類的另一分類器系統(tǒng)的框圖;
[0010]圖3為說明噪聲穩(wěn)健語音分類的方法的流程圖;[0011]圖4A到4C說明用于噪聲穩(wěn)健語音分類的模式?jīng)Q策制訂過程的配置;
[0012]圖5為說明用于調(diào)整用于分類語音的閾值的方法的流程圖;
[0013]圖6為說明用于噪聲穩(wěn)健語音分類的語音分類器的框圖;
[0014]圖7為說明具有相關(guān)聯(lián)參數(shù)值及語音模式分類的經(jīng)接收語音信號的一個配置的時間線曲線圖;及
[0015]圖8說明可包含于電子裝置/無線裝置內(nèi)的某些組件。
【具體實施方式】
[0016]語音譯碼器的功能是通過移除語音中所固有的所有自然冗余而將經(jīng)數(shù)字化語音信號壓縮成低位速率信號。通過用參數(shù)集合來表示輸入語音幀且使用量化以用位集合來表示參數(shù)而實現(xiàn)數(shù)字壓縮。如果輸入語音幀具有Ni數(shù)目個位且通過語音譯碼器產(chǎn)生的數(shù)據(jù)包具有No數(shù)目個位,則通過語音譯碼器實現(xiàn)的壓縮因數(shù)為Cr=Ni/No。挑戰(zhàn)是保持經(jīng)解碼語音的高話音質(zhì)量,同時實現(xiàn)目標(biāo)壓縮因數(shù)。語音譯碼器的性能取決于:(I)語音模型或上文所描述的分析及合成過程的組合執(zhí)行得有多好;及(2)在每幀No個位的目標(biāo)位速率下參數(shù)量化過程執(zhí)行得有多好。因此,語音模型的目標(biāo)是在針對每一幀具有小參數(shù)集合的情況下俘獲語音信號的本質(zhì)或目標(biāo)話音質(zhì)量。
[0017]語音譯碼器可經(jīng)實施為時域譯碼器,其試圖通過采用高時間分辨率處理以每次編碼小語音區(qū)段(通常為5毫秒(ms)的子幀)來俘獲時域語音波形。對于每一子幀,通過各種搜索算法來找到來自碼簿空間的高精確度代表?;蛘撸Z音譯碼器可經(jīng)實施為頻域譯碼器,其試圖用參數(shù)集合(分析)來俘獲輸入語音幀的短期語音頻譜且采用對應(yīng)合成過程以從頻譜參數(shù)來重新建立語音波形。參數(shù)量化器根據(jù)A.Gersho及R.M.Gray的“向量量化和信號壓縮(Vector Quantization and Signal Compression) ” (1992 年)中所描述的量化技術(shù)通過用碼向量的經(jīng)存儲表示來表示參數(shù)而保持所述參數(shù)。
[0018]一種可能的時域語音譯碼器是以引用的方式完全地并入本文中的L.B.Rabiner及 R.W.Schafer 的“語音信號的數(shù)字處理(Digital Processing of Speech Signals)” 第396頁到第453頁(1978年)中所描述的碼激勵線性預(yù)測性(CELP)譯碼器。在CELP譯碼器中,通過找到短期共振峰濾波器的系數(shù)的線性預(yù)測(LP)分析來移除語音信號中的短期相關(guān)或冗余。將短期預(yù)測濾波器應(yīng)用于傳入語音幀會產(chǎn)生LP殘余信號,LP殘余信號是用長期預(yù)測濾波器參數(shù)及后續(xù)隨機(jī)碼簿進(jìn)一步模型化及量化。因此,CELP譯碼將編碼時域語音波形的任務(wù)劃分成編碼LP短期濾波器系數(shù)及編碼LP殘余的分離任務(wù)??梢怨潭ㄋ俾?即,針對每一幀使用相同數(shù)目(NO)個位)或以可變速率(其中針對不同類型的幀內(nèi)容使用不同位速率)執(zhí)行時域譯碼??勺兯俾首g碼器試圖僅使用將編解碼器參數(shù)編碼到適于獲得目標(biāo)質(zhì)量的水平所需要的位量。第5,414,796號美國專利中描述一種可能的可變速率CELP譯碼器,所述專利轉(zhuǎn)讓給目前所揭示配置的受讓人且以引用的方式完全地并入本文中。
[0019]例如CELP譯碼器的時域譯碼器通常依賴于每幀高數(shù)目(NO)個位以保持時域語音波形的準(zhǔn)確度。如果每幀的位數(shù)目NO相對大(例如,8kbps或8kbps以上),則這些譯碼器通常遞送極好話音質(zhì)量。然而,在低位速率(4kbps及4kbps以下)下,時域譯碼器歸因于可用位的有限數(shù)目而未能保持高質(zhì)量及穩(wěn)健性能。在低位速率下,有限碼簿空間削減了如此成功地部署于較高速率商業(yè)應(yīng)用中的常規(guī)時域譯碼器的波形匹配能力。[0020]通常,CELP方案采用短期預(yù)測(STP)濾波器及長期預(yù)測(LTP)濾波器。在編碼器處采用合成式分析(AbS)方法以找到LTP延遲及增益,以及最佳隨機(jī)碼簿增益及索引。例如增強(qiáng)型可變速率譯碼器(EVRC)的當(dāng)前現(xiàn)有技術(shù)CELP譯碼器可在大約每秒8千位的數(shù)據(jù)速率下實現(xiàn)良好質(zhì)量的經(jīng)合成語音。
[0021]另外,清音語音不展現(xiàn)周期性。在常規(guī)CELP方案中編碼LTP濾波器所消耗的帶寬不與用于濁音語音一樣有效率地用于清音語音,在濁音語音中,語音的周期性強(qiáng)且LTP濾波有意義。因此,對于清音語音,更有效率(即,較低位速率)的譯碼方案是理想的。為了選擇最有效率的譯碼方案及實現(xiàn)最低數(shù)據(jù)速率,準(zhǔn)確的語音分類是必要的。
[0022]為了在較低位速率下譯碼,已開發(fā)語音的各種頻譜或頻域譯碼方法,其中分析語音信號作為頻譜的時變演變。見(例如)“語音譯碼和合成(Speech Coding andSynthesis) ” 第四章(編者為 W.B.Kleijn 及 K.K.Paliwal, 1995 年)中 R.J.McAulay 及T.F.Quatieri的“正弦譯碼(Sinusoidal Coding)”。在頻譜譯碼器中,目標(biāo)是用頻譜參數(shù)集合來模型化或預(yù)測每一輸入語音幀的短期語音頻譜,而非精確地模仿時變語音波形。接著編碼頻譜參數(shù)且用經(jīng)解碼參數(shù)來建立輸出語音幀。所得經(jīng)合成語音不匹配于原始輸入語音波形,但提供相似感知質(zhì)量。頻域譯碼器的實例包含多頻帶激勵譯碼器(MBE)、正弦變換譯碼器(STC)及諧波譯碼器(HC)。這些頻域譯碼器提供高質(zhì)量參數(shù)模型,所述參數(shù)模型具有可用在低位速率下可用的低數(shù)目個位準(zhǔn)確地量化的緊密參數(shù)集合。
[0023]然而,低位速率譯碼強(qiáng)加有限譯碼分辨率或有限碼簿空間的臨界約束,其限制單一譯碼機(jī)制的有效性,從而致使譯碼器不能夠以相等準(zhǔn)確度在各種背景條件下表示各種類型的語音區(qū)段。舉例來說,常規(guī)低位速率頻域譯碼器不發(fā)射用于語音幀的相位信息。而是,通過使用隨機(jī)的人工產(chǎn)生的初始相位值及線性內(nèi)插技術(shù)來重建構(gòu)相位信息。見(例如)29Electronic Letters 第 856 頁到第 857 頁(1993 年 5 月)中 H.Yang 等人的“用于MBE模型中的池音語音合成的二次相位內(nèi)插(Quadratic Phase Interpolation forVoiced Speech Synthesis in the MBE Model)”。因為人工地產(chǎn)生相位信息,所以即使通過量化-解量化過程完美地保持正弦曲線的振幅,通過頻域譯碼器產(chǎn)生的輸出語音仍將不與原始輸入語音對準(zhǔn)(即,主要脈沖將不同步)。因此,已證明難以在頻域譯碼器中采用任何封閉回路性能度量,例如,信噪比(SNR)或感知SNR。
[0024]在低位速率下有效率地編碼語音的一種有效技術(shù)為多模式譯碼。多模式譯碼技術(shù)已用以結(jié)合開放回路模式?jīng)Q策過程來執(zhí)行低速率語音譯碼?!罢Z音譯碼和合成(SpeechCoding and Synthesis) ”第 7 章(編者為 W.B.Kleiin 及 K.K.Paliwal, 1995 年)中 AmitavaDas等人的“語音的多模式和可變速率譯碼(Mult1-mode and Variable-Rate Coding ofSpeech) ”中描述一種此類多模式譯碼技術(shù)。常規(guī)多模式譯碼器將不同模式或編碼-解碼算法應(yīng)用于不同類型的輸入語音幀。每一模式或編碼-解碼過程經(jīng)定制成以最有效率的方式表示某一類型的語音區(qū)段,例如,濁音語音、清音語音或背景噪聲(非語音)。這些多模式譯碼技術(shù)的成功高度地取決于正確模式?jīng)Q策或語音分類。外部開放回路模式?jīng)Q策機(jī)制檢查輸入語音幀,且制訂關(guān)于哪一模式將應(yīng)用于所述幀的決策。通常通過從輸入幀提取數(shù)個參數(shù)、關(guān)于某些時間及頻譜特性來評估所述參數(shù)且使模式?jīng)Q策基于所述評估來執(zhí)行開放回路模式?jīng)Q策。因此,在不預(yù)先知道輸出語音的確切條件(即,輸出語音在話音質(zhì)量或其它性能度量方面將有多接近輸入語音)的情況下制訂模式?jīng)Q策。第5,414,796號美國專利中描述用于語音編解碼器的一種可能開放回路模式?jīng)Q策,所述專利轉(zhuǎn)讓給本發(fā)明的受讓人且以引用的方式完全地并入本文中。
[0025]多模式譯碼可為固定速率(針對每一幀使用相同數(shù)目(NO)個位)或可變速率(其中針對不同模式使用不同位速率)??勺兯俾首g碼的目標(biāo)是僅使用將編解碼器參數(shù)編碼到適于獲得目標(biāo)質(zhì)量的水平所需要的位量。結(jié)果,可使用可變位速率(VBR)技術(shù)在顯著較低的平均速率下獲得與固定速率的較高速率譯碼器的話音質(zhì)量相同的目標(biāo)話音質(zhì)量。第5,414,796號美國專利中描述一種可能的可變速率語音譯碼器。目前存在對開發(fā)以中到低位速率(即,在2.4kbps到4kbps及4kbps以下的范圍內(nèi))操作的高質(zhì)量語音譯碼器的研究興趣激情及強(qiáng)烈商業(yè)需要。應(yīng)用領(lǐng)域包含無線電話學(xué)、衛(wèi)星通信、因特網(wǎng)電話學(xué)、各種多媒體及話音串流應(yīng)用、話音郵件及其它話音存儲系統(tǒng)。驅(qū)動力為在包損耗情形下針對高容量的需要及針對穩(wěn)健性能的需求。各種新近語音譯碼標(biāo)準(zhǔn)化努力是推進(jìn)低速率語音譯碼算法的研究及開發(fā)的另一直接驅(qū)動力。低速率語音譯碼器建立每容許應(yīng)用帶寬的更多信道或用戶。與合適信道譯碼的額外層耦合的低速率語音譯碼器可配合譯碼器規(guī)格的總體位預(yù)算且在信道錯誤條件下遞送穩(wěn)健性能。
[0026]因此,多模式VBR語音譯碼是用以在低位速率下編碼語音的有效機(jī)制。常規(guī)多模式方案需要針對各種語音區(qū)段(例如,清音、濁音、轉(zhuǎn)變)的有效率編碼方案或模式以及針對背景噪聲或靜音的模式的設(shè)計。語音譯碼器的總體性能取決于模式分類的穩(wěn)健性及每一模式執(zhí)行得有多好。譯碼器的平均速率取決于針對清音、濁音及其它語音區(qū)段的不同模式的位速率。為了在低平均速率下實現(xiàn)目標(biāo)質(zhì)量,有必要在變化條件下正確地確定語音模式。通常,濁音及清音語音區(qū)段是在高位速率下俘獲,且背景噪聲及靜音區(qū)段是用在顯著較低的速率下工作的模式表示。多模式可變位速率編碼器需要正確的語音分類以使用每幀最小數(shù)目個位來準(zhǔn)確地俘獲及編碼高百分比的語音區(qū)段。更準(zhǔn)確的語音分類產(chǎn)生較低的平均經(jīng)編碼位速率及較高質(zhì)量的經(jīng)解碼語音。
[0027]換句話說,在來源受控的可變速率譯碼中,此幀分類器的性能基于輸入語音的特征(能量、發(fā)聲、頻譜傾斜、音高升降曲線(pitch contour),等等)而確定平均位速率。當(dāng)輸入語音受到噪聲損毀時,語音分類器的性能可能會降級。此情形可造成對質(zhì)量及位速率的不良影響。因此,可使用用于檢測噪聲的存在且合適地調(diào)整分類邏輯的方法以確保在真實世界使用狀況下的穩(wěn)健操作。另外,先前,語音分類技術(shù)僅針對經(jīng)隔離語音幀考慮最小數(shù)目個參數(shù),從而產(chǎn)生很少且不準(zhǔn)確的語音模式分類。因此,需要高性能語音分類器以在變化的環(huán)境條件下正確地分類眾多語音模式,以便實現(xiàn)多模式可變位速率編碼技術(shù)的最大性倉泛。
[0028]所揭示配置提供一種用于聲碼器應(yīng)用中的改進(jìn)型語音分類的方法及設(shè)備。可分析分類參數(shù)而以相對高準(zhǔn)確度產(chǎn)生語音分類。使用決策制訂過程以逐幀地分類語音。可由以狀態(tài)為基礎(chǔ)的決策制訂者使用從原始輸入語音所導(dǎo)出的參數(shù)來準(zhǔn)確地分類各種語音模式。可通過分析過去及未來幀以及當(dāng)前幀來分類每一語音幀。可通過所揭示配置分類的語音模式至少包括暫態(tài)、到作用中語音及在言語結(jié)束時的轉(zhuǎn)變、濁音、清音及靜音。
[0029]為了確保分類邏輯的穩(wěn)健性,本發(fā)明的系統(tǒng)及方法可使用背景噪聲估計(其通常是通過例如話音活動檢測器的標(biāo)準(zhǔn)上游語音譯碼組件提供)的多幀度量且基于此多幀度量而調(diào)整分類邏輯?;蛘?,如果SNR包含關(guān)于一個以上幀的信息(例如,如果SNR是在多個幀上求平均值),則可通過分類邏輯使用SNR。換句話說,可通過分類邏輯使用在多個幀上相對穩(wěn)定的任何噪聲估計。分類邏輯的調(diào)整可包含改變用以分類語音的一個或一個以上閾值。具體來說,可增大用于將幀分類為“清音”的能量閾值(反映“靜音”幀的高電平),可增大用于將幀分類為“清音”的發(fā)聲閾值(反映在噪聲下發(fā)聲信息的損毀),可減低用于將中貞分類為“池音”的發(fā)聲閾值(再次反映發(fā)聲信息的損毀),或某一組合。在噪聲不存在的狀況下,可不引入對分類邏輯的改變。在具有高噪聲(例如,20dB的SNR,通常為在語音編解碼器標(biāo)準(zhǔn)化中所測試的最低SNR)的一個配置中,可將清音能量閾值增大IOdB,可將清音發(fā)聲閾值增大0.06,且可將濁音發(fā)聲閾值減低0.2。在此配置中,可通過基于輸入噪聲度量而在“清潔”設(shè)定與“噪聲”設(shè)定之間內(nèi)插或針對某一中間噪聲電平使用硬閾值集合來處置中間噪聲狀況。
[0030]圖1為說明用于無線通信的系統(tǒng)100的框圖。在系統(tǒng)100中,第一編碼器110接收經(jīng)數(shù)字化語音樣本S (η)且編碼樣本S (η)以供在發(fā)射媒體112或通信信道112上發(fā)射到第一解碼器114。解碼器114解碼經(jīng)編碼語音樣本且合成輸出語音信號sSYNTH(n)。對于在相反方向上的發(fā)射,第二編碼器116編碼在通信信道118上所發(fā)射的經(jīng)數(shù)字化語音樣本s(n)。第二解碼器120接收及解碼經(jīng)編碼語音樣本,從而產(chǎn)生經(jīng)合成輸出語音信號sSYNTH(n)。
[0031]語音樣本s (η)表示已根據(jù)包含(例如)脈碼調(diào)制(PCM)、壓擴(kuò)μ定律或A定律的各種方法中的任一者而數(shù)字化及量化的語音信號。在一個配置中,語音樣本s(n)被組織成輸入數(shù)據(jù)幀,其中每一幀包括預(yù)定數(shù)目個經(jīng)數(shù)字化語音樣本s (η)。在一個配置中,使用8kHz的取樣速率,其中每一 20ms幀包括160個樣本。在下文所描述的配置中,數(shù)據(jù)發(fā)射速率可逐幀地從8kbps (全速率)變化到4kbps (半速率)到2kbps (四分之一速率)到Ikbps (八分之一速率)?;蛘撸墒褂闷渌鼣?shù)據(jù)速率。如本文所使用,術(shù)語“全速率”或“高速率”通常指代大于或等于8kbps的數(shù)據(jù)速率,且術(shù)語“半速率”或“低速率”通常指代小于或等于4kbps的數(shù)據(jù)速率。變化數(shù)據(jù)發(fā)射速率是有益的,因為可針對含有相對較少語音信息的幀選擇性地使用較低位速率。雖然本文描述特定速率,但任何合適取樣速率、幀大小及數(shù)據(jù)發(fā)射速率可供本發(fā)明的系統(tǒng)及方法使用。
[0032]第一編碼器110及第二解碼器120可一起構(gòu)成第一語音譯碼器或語音編解碼器。相似地,第二編碼器116及第一解碼器114 一起構(gòu)成第二語音譯碼器。語音譯碼器可用數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、離散門邏輯、固件或任何常規(guī)可編程軟件模塊及微處理器實施。軟件模塊可駐存于RAM存儲器、快閃存儲器、寄存器或任何其它形式的可寫存儲媒體中?;蛘撸魏纬R?guī)處理器、控制器或狀態(tài)機(jī)均可取代微處理器。第5,727,123號及第5,784,532號美國專利中描述經(jīng)特定地設(shè)計用于語音譯碼的可能ASIC,所述專利轉(zhuǎn)讓給本發(fā)明的受讓人且以引用的方式完全地并入本文中。
[0033]作為一實例而非限制,語音譯碼器可駐存于無線通信裝置中。如本文所使用,術(shù)語“無線通信裝置”指代可用于經(jīng)由無線通信系統(tǒng)的話音及/或數(shù)據(jù)通信的電子裝置。無線通信裝置的實例包含蜂窩式電話、個人數(shù)字助理(PDA)、手持型裝置、無線調(diào)制解調(diào)器、膝上型計算機(jī)、個人計算機(jī)、平板計算機(jī),等等。或者,無線通信裝置可被稱作接入終端、移動終端、移動臺、遠(yuǎn)程臺、用戶終端、終端、訂戶單元、訂戶臺、移動裝置、無線裝置、用戶設(shè)備(UE)或某一其它相似術(shù)語。
[0034]圖2A為說明可使用噪聲穩(wěn)健語音譯碼模式分類的分類器系統(tǒng)200a的框圖。圖2A的分類器系統(tǒng)200a可駐存于圖1所說明的編碼器中。在另一配置中,分類器系統(tǒng)200a可獨(dú)立,從而將語音分類模式輸出246a提供到例如圖1所說明的編碼器的裝置。
[0035]在圖2A中,輸入語音212a提供到噪聲抑制器202。輸入語音212a可通過話音信號的模/數(shù)轉(zhuǎn)換而產(chǎn)生。噪聲抑制器202濾波來自輸入語音212a的噪聲分量,從而產(chǎn)生經(jīng)噪聲抑制輸出語音信號214a。在一個配置中,圖2A的語音分類設(shè)備可使用增強(qiáng)型可變速率CODEC(EVRC)。如圖所示,此配置可包含確定噪聲估計216a及SNR信息218的內(nèi)建式噪聲抑制器202。
[0036]噪聲估計216a及輸出語音信號214a可輸入到語音分類器210a。噪聲抑制器202的輸出語音信號214a也可輸入到話音活動檢測器204a、LPC分析器206a及開放回路音高估計器208a。噪聲估計216a也可與來自噪聲抑制器202的SNR信息218 —起饋送到話音活動檢測器204a。噪聲估計216a可由語音分類器210a使用以設(shè)定周期性閾值且區(qū)別清潔
語音與有噪聲語音。
[0037]用以分類語音的一種可能方式是使用SNR信息218。然而,本發(fā)明的系統(tǒng)及方法的語音分類器210a可使用噪聲估計216a來代替SNR信息218?;蛘?,如果SNR信息218在多個幀上相對穩(wěn)定(例如,針對多個幀包含SNR信息218的量度),則可使用SNR信息218。噪聲估計216a可為輸入語音中所包含的噪聲的相對長期指示符。噪聲估計216a在后文中被稱作ns_est。輸出語音信號214a在后文中被稱作t_in。在一個配置中,如果噪聲抑制器202不存在或關(guān)斷,則可將噪聲估計216a(ns_est)預(yù)設(shè)到默認(rèn)值。
[0038]使用噪聲估計216a代替SNR信息218的一個優(yōu)點(diǎn)在于:噪聲估計可逐幀地相對穩(wěn)定。噪聲估計216a僅估計背景噪聲電平,其趨向于相對恒定歷時長時期。在一個配置中,噪聲估計216a可用以針對特定幀確定SNR218。與此對比,SNR218可為逐幀度量,其可取決于瞬時話音能量而包含相對大的擺幅,例如,SNR可在靜音幀與作用中語音幀之間擺動達(dá)許多dB。因此,如果SNR信息218用于分類,則可在輸入語音212a的一個以上幀上對SNR信息218求平均值。噪聲估計216a的相對穩(wěn)定性可用于區(qū)別高噪聲情形與完全靜音幀。甚至在零噪聲中,SNR218在其中揚(yáng)聲器未通話的幀中仍可能極低,且因此,可在所述幀中激活使用SNR信息218的模式?jīng)Q策邏輯。除非周圍噪聲條件改變,否則噪聲估計216a可相對恒定,借此避免問題。
[0039]話音活動檢測器204a可將針對當(dāng)前語音幀的話音活動信息220a輸出到語音分類器210a,即,基于輸出語音214a、噪聲估計216a及SNR信息218。話音活動信息輸出220a指示當(dāng)前語音為作用中還是非作用中。在一個配置中,話音活動信息輸出220a可為二元的,即,作用中或非作用中。在另一配置中,話音活動信息輸出220a可為多值的。話音活動信息參數(shù)220a在本文中被稱作vad。
[0040]LPC分析器206a將針對當(dāng)前輸出語音的LPC反射系數(shù)222a輸出到語音分類器210a。LPC分析器206a也可輸出例如LPC系數(shù)(未圖示)等其它參數(shù)。LPC反射系數(shù)參數(shù)222a在本文中被稱作ref I。
[0041]開放回路音高估計器208a將正規(guī)化自動相關(guān)系數(shù)函數(shù)(NACF)值224a及音高周圍NACF值226a輸出到語音分類器210a。NACF參數(shù)224a在后文中被稱作nacf,且音高周圍NACF參數(shù)226a在后文中被稱作nacf_at_pitch。更具周期性的語音信號產(chǎn)生nacf_at_pitch226a的較高值。nacf_at_pitch226a的較高值更可能與平穩(wěn)話音輸出語音類型相關(guān)聯(lián)。語音分類器210a維持可基于子巾貞計算的nacf_at_pitch值226a的陣列。在一個配置中,通過每幀測量兩個子幀而針對輸出語音214a的每一幀來測量兩個開放回路音高估計??筛鶕?jù)針對每一子巾貞的開放回路音高估計來計算音高周圍NACF (nacf_at_pitch) 226a。在一個配置中,nacf_at_pitch值226a的五維陣列(即,nacf_at_pitch[4])含有輸出語音214a的二又二分之一個巾貞的值。nacf_at_pitch陣列是針對輸出語音214a的每一巾貞更新。nacf_at_pitch參數(shù)226a的陣列的使用向語音分類器210a提供使用當(dāng)前、過去及先行(未來)信號信息以制訂更準(zhǔn)確且噪聲穩(wěn)健的語音模式?jīng)Q策的能力。
[0042]除了從外部組件輸入到語音分類器210a的信息以外,語音分類器210a也從輸出語音214a在內(nèi)部產(chǎn)生經(jīng)導(dǎo)出參數(shù)282a以供語音模式?jīng)Q策制訂過程中使用。
[0043]在一個配置中,語音分類器210a在內(nèi)部產(chǎn)生過零率參數(shù)228a (在后文中被稱作zcr)。當(dāng)前輸出語音214a的zcr參數(shù)228a被定義為每語音幀的語音信號的正負(fù)號改變的數(shù)目。在濁音語音中,zcr值228a低,而清音語音(或噪聲)具有高zcr值228a,因為信號極隨機(jī)。zcr參數(shù)228a由語音分類器210a使用以分類濁音及清音語音。
[0044]在一個配置中,語音分類器210a在內(nèi)部產(chǎn)生當(dāng)前幀能量參數(shù)230a (在后文中被稱作E)。E230a可由語音分類器210a使用以通過比較當(dāng)前幀中的能量與過去及未來幀中的能量來識別暫態(tài)語音。參數(shù)vEprev為從E230a所導(dǎo)出的先前幀能量。
[0045]在一個配置中,語音分類器210a在內(nèi)部產(chǎn)生先行幀能量參數(shù)232a (在后文中被稱作Enext)。Enext232a可含有來自當(dāng)前巾貞的一部分及下一輸出語音巾貞的一部分的能量值。在一個配置中,Enext232a表示當(dāng)前幀的第二半部中的能量及下一輸出語音幀的第一半部中的能量。Enext232a由語音分類器210a使用以識別轉(zhuǎn)變語音。在語音結(jié)束時,相比于當(dāng)前幀的能量230a,下一幀的能量232a顯著地下降。語音分類器210a可比較當(dāng)前幀的能量230a與下一幀的能量232a以識別語音的結(jié)束及語音條件的開始,或上行暫態(tài)及下行暫態(tài)語音模式。
[0046]在一個配置中,語音分類器210a在內(nèi)部產(chǎn)生頻帶能量比率參數(shù)234a (被定義為log2 (EL/EH)),其中EL為從OkHz到2kHz的低頻帶當(dāng)前幀能量,且為從2kHz到4kHz的高頻帶當(dāng)前幀能量。頻帶能量比率參數(shù)234a在后文中被稱作bER。bER234a參數(shù)允許語音分類器210a識別濁音語音及清音語音模式,這是因為:一般來說,濁音語音將能量集中于低頻帶中,而有噪聲清音語音將能量集中于高頻帶中。
[0047]在一個配置中,語音分類器210a從輸出語音214a在內(nèi)部產(chǎn)生三幀平均濁音能量參數(shù)236a (在后文中被稱作vEav)。在其它配置中,vEav236a可在除了三個以外的數(shù)目個幀上求平均值。如果當(dāng)前語音模式為作用中及濁音,則vEav236a計算輸出語音的最后三個幀中的能量的流動平均值。相比于單獨(dú)的單幀能量計算,對輸出語音的最后三個幀中的能量求平均值會向語音分類器210a提供更穩(wěn)定的統(tǒng)計,所述統(tǒng)計將作為語音模式?jīng)Q策的基礎(chǔ)。vEav236a由語音分類器210a使用以分類話音語音的結(jié)束或下行暫態(tài)模式,這是因為:當(dāng)語音已停止時,相比于平均話音能量236a(vEav),當(dāng)前幀能量230a(E)將顯著地下降。僅在當(dāng)前幀為濁音或復(fù)位到清音或非作用中語音的固定值時才更新vEav236a。在一個配置中,固定復(fù)位值為0.01。
[0048]在一個配置中,語音分類器210a在內(nèi)部產(chǎn)生先前三幀平均濁音能量參數(shù)238a (在后文中被稱作vEprev)。在其它配置中,vEprev238a可在除了三個以外的數(shù)目個巾貞上求平均值。vEprev238a由語音分類器210a使用以識別轉(zhuǎn)變語音。在語音開始時,相比于先前三個濁音幀的平均能量238a,當(dāng)前幀的能量230a顯著地上升。語音分類器210可比較當(dāng)前幀的能量230a與先前三個幀的能量238a以識別語音條件的開始,或上行暫態(tài)及語音模式。相似地,在池音語音結(jié)束時,當(dāng)前巾貞的能量230a顯著地下降。因此,vEprev238a也可用以分類在語音結(jié)束時的轉(zhuǎn)變。
[0049]在一個配置中,語音分類器210a在內(nèi)部產(chǎn)生當(dāng)前幀能量對先前三幀平均濁音能量比率參數(shù)240a(被定義為10*logl0(E/vEprev))。在其它配置中,vEprev238a可在除了三個以外的數(shù)目個幀上求平均值。當(dāng)前能量對先前三幀平均濁音能量比率參數(shù)240a在后文中被稱作vER。vER240a由語音分類器210a使用以分類濁音語音的開始及濁音語音的結(jié)束,或上行暫態(tài)模式及下行暫態(tài)模式,因為vER240a在語音已再次開始時大且在濁音語音結(jié)束時小。vER240a參數(shù)可結(jié)合vEprev238a參數(shù)而用于分類暫態(tài)語音。
[0050]在一個配置中,語音分類器210a在內(nèi)部產(chǎn)生當(dāng)前幀能量對三幀平均濁音能量參數(shù)242a (被定義為MIN (20,10*logl0 (E/vEav)))。當(dāng)前幀能量對三幀平均濁音能量242a在后文中被稱作vER2。vER2242a由語音分類器210a使用以分類在濁音語音結(jié)束時的暫態(tài)話音模式。
[0051]在一個配置中,語音分類器210a在內(nèi)部產(chǎn)生最大子幀能量索引參數(shù)244a。語音分類器210a將輸出語音214a的當(dāng)前幀均勻地劃分成子幀,且計算每一子幀的均方根(RMS)能量值。在一個配置中,將當(dāng)前幀劃分成十個子幀。最大子幀能量索引參數(shù)為針對在當(dāng)前幀中或在當(dāng)前幀的第二半部中具有最大RMS能量值的子幀的索引。最大子幀能量索引參數(shù)244a在后文中被稱作maxsfe_idx。將當(dāng)前幀劃分成子幀會向語音分類器210a提供關(guān)于幀內(nèi)的峰值能量的位置(包含最大峰值能量的位置)的信息。通過將幀劃分成更多子幀來實現(xiàn)更大分辨率。maxsfe_idx參數(shù)244a是結(jié)合其它參數(shù)而由語音分類器210a使用以分類暫態(tài)語音模式,這是因為:清音或靜音語音模式的能量大體上穩(wěn)定,而在暫態(tài)語音模式中能量提升或遞減。
[0052]語音分類器210a可使用直接地從編碼組件輸入的參數(shù)及在內(nèi)部產(chǎn)生的參數(shù),以比先前可能的分類更準(zhǔn)確且穩(wěn)健地分類語音模式。語音分類器210a可將決策制訂過程應(yīng)用于直接輸入的參數(shù)及在內(nèi)部產(chǎn)生的參數(shù)以產(chǎn)生改進(jìn)型語音分類結(jié)果。下文參看圖4A到4C及表4到6來詳細(xì)地描述決策制訂過程。
[0053]在一個配置中,由語音分類器210輸出的語音模式包括:暫態(tài)模式、上行暫態(tài)模式、下行暫態(tài)模式、濁音模式、清音模式及靜音模式。暫態(tài)模式為最佳地用全速率CELP編碼的濁音但較不具周期性的語音。上行暫態(tài)模式為最佳地用全速率CELP編碼的在作用中語音中的第一濁音幀。下行暫態(tài)模式為最佳地用半速率CELP編碼的通常在言語結(jié)束時的低能量濁音語音。濁音模式為主要包括元音的高度周期性濁音語音。濁音模式語音可以全速率、半速率、四分之一速率或八分之一速率編碼。用于編碼濁音模式語音的數(shù)據(jù)速率經(jīng)選擇成滿足平均數(shù)據(jù)速率(ADR)要求。主要包括輔音的清音模式最佳地用四分之一速率噪聲激勵線性預(yù)測(NELP)編碼。靜音模式為最佳地用八分之一 CELP編碼的非作用中語音。
[0054]合適參數(shù)及語音模式不限于所揭示配置的特定參數(shù)及語音模式。在不脫離所揭示配置的范圍的情況下,可使用額外參數(shù)及語音模式。
[0055]圖2B為說明可使用噪聲穩(wěn)健語音譯碼模式分類的另一分類器系統(tǒng)200b的框圖。圖2B的分類器系統(tǒng)200b可駐存于圖1所說明的編碼器中。在另一配置中,分類器系統(tǒng)200b可獨(dú)立,從而將語音分類模式輸出提供到例如圖1所說明的編碼器的裝置。圖2B所說明的分類器系統(tǒng)200b可包含對應(yīng)于圖2A所說明的分類器系統(tǒng)200a的元件。具體來說,圖2B所說明的LPC分析器206b、開放回路音高估計器208b及語音分類器210b可分別對應(yīng)于圖2A所說明的LPC分析器206a、開放回路音高估計器208a及語音分類器210a且分別包含與圖2A所說明的LPC分析器206a、開放回路音高估計器208a及語音分類器210a相似的功能性。相似地,圖2B中的語音分類器210b輸入(話音活動信息220b、反射系數(shù)222b、NACF224b及音高周圍NACF226b)可分別對應(yīng)于圖2A中的語音分類器210a輸入(話音活動信息220a、反射系數(shù)222a、NACF224a及音高周圍NACF226a)。相似地,圖2B中的經(jīng)導(dǎo)出參數(shù) 282b (zcr228b、E230b、Enext232b、bER234b、vEav236b、vEprev238b、vER240b、vER2242b及maxsfe_idx244b)可分別對應(yīng)于圖 2A 中的經(jīng)導(dǎo)出參數(shù) 282a(zcr228a、E230a、Enext232a、bER234a、vEav236a、vEprev238a、vER240a、vER2242a 及 maxsfe_idx244a)。
[0056]在圖2B中,不包含噪聲抑制器。在一個配置中,圖2B的語音分類設(shè)備可使用增強(qiáng)型話音服務(wù)(EVS)CODEC。圖2B的設(shè)備可從在語音編解碼器外部的噪聲抑制組件接收輸入語音幀212b?;蛘?,可不執(zhí)行噪聲抑制。因為不包含噪聲抑制器202,所以噪聲估計(ns_est) 216b可由話音活動檢測器204a確定。雖然圖2A到2B描述噪聲估計216b分別由噪聲抑制器202及話音活動檢測器204b確定的兩個配置,但噪聲估計216a到216b可通過任何合適模塊(例如,通用噪聲估計器(未圖示))確定。
[0057]圖3為說明噪聲穩(wěn)健語音分類的方法300的流程圖。在步驟302中,針對每一經(jīng)噪聲抑制輸出語音幀來處理從外部組件輸入的分類參數(shù)。在一個配置(例如,圖2A所說明的分類器系統(tǒng)200a)中,從外部組件輸入的分類參數(shù)包括從噪聲抑制器組件202輸入的ns_est216a及t_in214a、從開放回路音高估計器組件208a輸入的nacf224a及nacf_at_pitch226a參數(shù)、從話音活動檢測器組件204a輸入的vad220a,及從LPC分析組件206a輸入的refl222a?;蛘?,可從不同模塊(例如,如圖2B所說明的話音活動檢測器204b)輸入ns_est216b。t_in214a到214b輸入可為如圖2A中來自噪聲抑制器202的輸出語音幀214a,或如圖2B中的212b的輸入幀。控制流程進(jìn)行到步驟304。
[0058]在步驟304中,根據(jù)從外部組件輸入的分類參數(shù)來計算額外的在內(nèi)部產(chǎn)生的經(jīng)導(dǎo)出參數(shù)282a到282b。在一個配置中,根據(jù)t_in214a到214b來計算zcr228a到228b、E230a到 230b、Enext232a 到 232b、bER234a 到 234b、vEav236a 到 236b、vEprev238a 到 238b、vER240a到240b、vER2242a到242b及maxsfe_idx244a到244b。當(dāng)已針對每一輸出語音中貞計算在內(nèi)部產(chǎn)生的參數(shù)時,控制流程進(jìn)行到步驟306。
[0059]在步驟306中,確定NACF閾值,且根據(jù)語音信號的環(huán)境來選擇參數(shù)分析器。在一個配置中,通過比較步驟302中所輸入的ns_est參數(shù)216a到216b與噪聲估計閾值來確定NACF閾值。ns_est信息216a到216b可提供周期性決策閾值的自適應(yīng)控制。以此方式,在分類過程中針對具有不同噪聲分量電平的語音信號而應(yīng)用不同周期性閾值。當(dāng)針對每一輸出語音幀選擇最適于語音信號的噪聲電平的NACF或周期性閾值時,此應(yīng)用可產(chǎn)生相對準(zhǔn)確的語音分類決策。確定最適于語音信號的周期性閾值會允許針對語音信號選擇最佳參數(shù)分析器?;蛘撸绻鸖NR信息218包含關(guān)于多個幀的信息且在不同幀之間相對穩(wěn)定,則可使用SNR信息218以確定NACF閾值。[0060]清潔語音信號及有噪聲語音信號在周期性方面固有地不同。當(dāng)存在噪聲時,存在語音損毀。當(dāng)存在語音損毀時,周期性或nacf224a到224b的度量低于清潔語音的周期性或nacf224a到224b的度量。因此,NACF閾值經(jīng)降低以補(bǔ)償有噪聲信號環(huán)境或經(jīng)升高用于清潔信號環(huán)境。所揭示系統(tǒng)及方法的語音分類技術(shù)可針對不同環(huán)境來調(diào)整周期性(即,NACF)閾值,從而產(chǎn)生相對準(zhǔn)確且穩(wěn)健的模式?jīng)Q策,而不管噪聲電平如何。
[0061]在一個配置中,如果ns_est216a到216b的值小于或等于噪聲估計閾值,則應(yīng)用針對清潔語音的NACF閾值。可通過下表來定義針對清潔語音的可能NACF閾值:
【權(quán)利要求】
1.一種噪聲穩(wěn)健語音分類的方法,其包括: 將分類參數(shù)從外部組件輸入到語音分類器; 在所述語音分類器中從所述輸入?yún)?shù)中的至少一者產(chǎn)生內(nèi)部分類參數(shù); 設(shè)定正規(guī)化自動相關(guān)系數(shù)函數(shù)閾值且根據(jù)信號環(huán)境來選擇參數(shù)分析器;及 基于多個輸入語音幀的噪聲估計而確定語音模式分類。
2.根據(jù)權(quán)利要求1所述的方法,其中所述設(shè)定包括在所述噪聲估計超過噪聲估計閾值時減低用于將當(dāng)前幀分類為濁音的發(fā)聲閾值,其中如果所述噪聲估計低于所述噪聲估計閾值,則不調(diào)整所述發(fā)聲閾值。
3.根據(jù)權(quán)利要求1所述的方法,其中所述設(shè)定包括: 當(dāng)所述噪聲估計超過噪聲估計閾值時增大用于將當(dāng)前幀分類為清音的發(fā)聲閾值;及當(dāng)所述噪聲估計超過噪聲估計閾值時增大用于將所述當(dāng)前幀分類為清音的能量閾值,其中如果所述噪聲估計低于所述噪聲估計閾值,則不調(diào)整所述發(fā)聲閾值及所述能量閾值。
4.根據(jù)權(quán)利要求1所述的方法,其中所述輸入?yún)?shù)包括經(jīng)噪聲抑制語音信號。
5.根據(jù)權(quán)利要求1所述的方法,其中所述輸入?yún)?shù)包括話音活動信息。
6.根據(jù)權(quán)利要求1所述的方法,其中所述輸入?yún)?shù)包括線性預(yù)測反射系數(shù)。
7.根據(jù)權(quán)利要求1所述的方法,其中所述輸入?yún)?shù)包括正規(guī)化自動相關(guān)系數(shù)函數(shù)信肩、O
8.根據(jù)權(quán)利要求1所述的方法,其中所述輸入?yún)?shù)包括音高處正規(guī)化自動相關(guān)系數(shù)函數(shù)信息。
9.根據(jù)權(quán)利要求8所述的方法,其中所述音高處正規(guī)化自動相關(guān)系數(shù)函數(shù)信息為值陣列。
10.根據(jù)權(quán)利要求1所述的方法,其中所述內(nèi)部參數(shù)包括過零率參數(shù)。
11.根據(jù)權(quán)利要求1所述的方法,其中所述內(nèi)部參數(shù)包括當(dāng)前幀能量參數(shù)。
12.根據(jù)權(quán)利要求1所述的方法,其中所述內(nèi)部參數(shù)包括先行幀能量參數(shù)。
13.根據(jù)權(quán)利要求1所述的方法,其中所述內(nèi)部參數(shù)包括頻帶能量比率參數(shù)。
14.根據(jù)權(quán)利要求1所述的方法,其中所述內(nèi)部參數(shù)包括三幀平均濁音能量參數(shù)。
15.根據(jù)權(quán)利要求1所述的方法,其中所述內(nèi)部參數(shù)包括先前三幀平均濁音能量參數(shù)。
16.根據(jù)權(quán)利要求1所述的方法,其中所述內(nèi)部參數(shù)包括當(dāng)前幀能量對先前三幀平均濁音能量比率參數(shù)。
17.根據(jù)權(quán)利要求1所述的方法,其中所述內(nèi)部參數(shù)包括當(dāng)前幀能量對三幀平均濁音能量參數(shù)。
18.根據(jù)權(quán)利要求1所述的方法,其中所述內(nèi)部參數(shù)包括最大子幀能量索引參數(shù)。
19.根據(jù)權(quán)利要求1所述的方法,其中所述設(shè)定正規(guī)化自動相關(guān)系數(shù)函數(shù)閾值包括比較對預(yù)定信號的所述噪聲估計與噪聲估計閾值。
20.根據(jù)權(quán)利要求1所述的方法,其中所述參數(shù)分析器將所述參數(shù)應(yīng)用于狀態(tài)機(jī)。
21.根據(jù)權(quán)利要求20所述的方法,其中所述狀態(tài)機(jī)針對每一語音分類模式包括一狀態(tài)。
22.根據(jù)權(quán)利要求1所述的方法,其中所述語音模式分類包括暫態(tài)模式。
23.根據(jù)權(quán)利要求1所述的方法,其中所述語音模式分類包括上行暫態(tài)模式。
24.根據(jù)權(quán)利要求1所述的方法,其中所述語音模式分類包括下行暫態(tài)模式。
25.根據(jù)權(quán)利要求1所述的方法,其中所述語音模式分類包括濁音模式。
26.根據(jù)權(quán)利要求1所述的方法,其中所述語音模式分類包括清音模式。
27.根據(jù)權(quán)利要求1所述的方法,其中所述語音模式分類包括靜音模式。
28.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括更新至少一個參數(shù)。
29.根據(jù)權(quán)利要求28所述的方法,其中所述經(jīng)更新參數(shù)包括音高處正規(guī)化自動相關(guān)系數(shù)函數(shù)參數(shù)。
30.根據(jù)權(quán)利要求28所述的方法,其中所述經(jīng)更新參數(shù)包括三幀平均濁音能量參數(shù)。
31.根據(jù)權(quán)利要求28所述的方法,其中所述經(jīng)更新參數(shù)包括先行幀能量參數(shù)。
32.根據(jù)權(quán)利要求28所述的方法,其中所述經(jīng)更新參數(shù)包括先前三幀平均濁音能量參數(shù)。
33.根據(jù)權(quán)利要求28所述的方法,其中所述經(jīng)更新參數(shù)包括話音活動檢測參數(shù)。
34.一種用于噪聲穩(wěn)健語音分類的設(shè)備,其包括: 處理器; 與所述處理器進(jìn)行電子通信的存儲器; 存儲于所述存儲器中的指令,所述指令可由所述處理器執(zhí)行以: 將分類參數(shù)從外部組件輸入到語音分類器; 在所述語音分類器中從所述輸入?yún)?shù)中的至少一者產(chǎn)生內(nèi)部分類參數(shù); 設(shè)定正規(guī)化自動相關(guān)系數(shù)函數(shù)閾值且根據(jù)信號環(huán)境來選擇參數(shù)分析器;及 基于多個輸入語音幀的噪聲估計而確定語音模式分類。
35.根據(jù)權(quán)利要求34所述的設(shè)備,其中所述可執(zhí)行以設(shè)定的指令包括可執(zhí)行以在所述噪聲估計超過噪聲估計閾值時減低用于將當(dāng)前幀分類為濁音的發(fā)聲閾值的指令,其中如果所述噪聲估計低于所述噪聲估計閾值,則不調(diào)整所述發(fā)聲閾值。
36.根據(jù)權(quán)利要求34所述的設(shè)備,其中所述可執(zhí)行以設(shè)定的指令包括可執(zhí)行以進(jìn)行以下操作的指令: 當(dāng)所述噪聲估計超過噪聲估計閾值時增大用于將當(dāng)前幀分類為清音的發(fā)聲閾值;及當(dāng)所述噪聲估計超過噪聲估計閾值時增大用于將所述當(dāng)前幀分類為清音的能量閾值,其中如果所述噪聲估計低于所述噪聲估計閾值,則不調(diào)整所述發(fā)聲閾值及所述能量閾值。
37.根據(jù)權(quán)利要求34所述的設(shè)備,其中所述輸入?yún)?shù)包括經(jīng)噪聲抑制語音信號、話音活動信息、線性預(yù)測反射系數(shù)、正規(guī)化自動相關(guān)系數(shù)函數(shù)信息及音高處正規(guī)化自動相關(guān)系數(shù)函數(shù)信息中的一者或一者以上。
38.根據(jù)權(quán)利要求37所述的設(shè)備,其中所述音高處正規(guī)化自動相關(guān)系數(shù)函數(shù)信息為值陣列。
39.根據(jù)權(quán)利要求37所述的設(shè)備,其中所述內(nèi)部參數(shù)包括過零率參數(shù)、當(dāng)前幀能量參數(shù)、先行幀能量參數(shù)、頻帶能量比率參數(shù)、三幀平均濁音能量參數(shù)、先前三幀平均濁音能量參數(shù)、當(dāng)前幀能量對先前三幀平均池音能量比率參數(shù)、當(dāng)前幀能量對三幀平均池音能量參數(shù)及最大子幀能量索引參數(shù)中的一者或一者以上。
40.根據(jù)權(quán)利要求34所述的設(shè)備,其進(jìn)一步包括可執(zhí)行以更新至少一個參數(shù)的指令。
41.根據(jù)權(quán)利要求40所述的設(shè)備,其中所述經(jīng)更新參數(shù)包括音高處正規(guī)化自動相關(guān)系數(shù)函數(shù)參數(shù)、三幀平均濁音能量參數(shù)、先行幀能量參數(shù)、先前三幀平均濁音能量參數(shù)及話音活動檢測參數(shù)中的一者或一者以上。
42.一種用于噪聲穩(wěn)健語音分類的設(shè)備,其包括: 用于將分類參數(shù)從外部組件輸入到語音分類器的裝置; 用于在所述語音分類器中從所述輸入?yún)?shù)中的至少一者產(chǎn)生內(nèi)部分類參數(shù)的裝置: 用于設(shè)定正規(guī)化自動相關(guān)系數(shù)函數(shù)閾值且根據(jù)信號環(huán)境來選擇參數(shù)分析器的裝置;及 用于基于多個輸入語音幀的噪聲估計而確定語音模式分類的裝置。
43.根據(jù)權(quán)利要求42所述的設(shè)備,其中所述用于設(shè)定的裝置包括用于在所述噪聲估計超過噪聲估計閾值時減低用于將當(dāng)前幀分類為濁音的發(fā)聲閾值的裝置,其中如果所述噪聲估計低于所述噪聲估計閾值,則不調(diào)整所述發(fā)聲閾值。
44.根據(jù)權(quán)利要求42所述的設(shè)備,其中所述用于設(shè)定的裝置包括: 用于當(dāng)所述噪聲估計超過噪聲估計閾值時增大用于將當(dāng)前幀分類為清音的發(fā)聲閾值的裝置 '及 用于當(dāng)所述噪聲估計超過噪聲估計閾值時增大用于將所述當(dāng)前幀分類為清音的能量閾值的裝置,其中如果所述噪聲估計低于所述噪聲估計閾值,則不調(diào)整所述發(fā)聲閾值及所述能量閾值。
45.一種用于噪聲穩(wěn)健語音分類的計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包括非暫時性計算機(jī)可讀媒體,所述計算機(jī)可讀媒體在其上具有指令,所述指令包括: 用于將分類參數(shù)從外部組件輸入到語音分類器的代碼; 用于在所述語音分類器中從 所述輸入?yún)?shù)中的至少一者產(chǎn)生內(nèi)部分類參數(shù)的代碼; 用于設(shè)定正規(guī)化自動相關(guān)系數(shù)函數(shù)閾值且根據(jù)信號環(huán)境來選擇參數(shù)分析器的代碼;及 用于基于多個輸入語音幀的噪聲估計而確定語音模式分類的代碼。
46.根據(jù)權(quán)利要求45所述的計算機(jī)程序產(chǎn)品,其中所述用于設(shè)定的代碼包括用于在所述噪聲估計超過噪聲估計閾值時減低用于將當(dāng)前幀分類為濁音的發(fā)聲閾值的代碼,其中如果所述噪聲估計低于所述噪聲估計閾值,則不調(diào)整所述發(fā)聲閾值。
47.根據(jù)權(quán)利要求45所述的計算機(jī)程序產(chǎn)品,其中所述用于設(shè)定的代碼包括: 用于當(dāng)所述噪聲估計超過噪聲估計閾值時增大用于將當(dāng)前幀分類為清音的發(fā)聲閾值的裝置 '及 用于當(dāng)所述噪聲估計超過噪聲估計閾值時增大用于將所述當(dāng)前幀分類為清音的能量閾值的裝置,其中如果所述噪聲估計低于所述噪聲估計閾值,則不調(diào)整所述發(fā)聲閾值及所述能量閾值。
【文檔編號】G10L19/22GK103548081SQ201280025143
【公開日】2014年1月29日 申請日期:2012年4月12日 優(yōu)先權(quán)日:2011年5月24日
【發(fā)明者】伊?!ち_伯特·杜尼, 維韋克·拉金德朗 申請人:高通股份有限公司