專利名稱:噪聲抑制、提取語(yǔ)音特征、語(yǔ)音識(shí)別及訓(xùn)練語(yǔ)音模型的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體涉及語(yǔ)音識(shí)別技術(shù),具體地,涉及語(yǔ)音譜的噪聲抑制技術(shù)。
技術(shù)背景目前流行的語(yǔ)音識(shí)別系統(tǒng)對(duì)純凈語(yǔ)音能夠獲得非常高的識(shí)別精度,但 由于噪聲帶來(lái)聲學(xué)模型和聲學(xué)特征之間的失配,在噪聲環(huán)境下現(xiàn)有的語(yǔ)音 識(shí)別系統(tǒng)的性能會(huì)急劇下降。在噪聲穩(wěn)健性方面的工作主要集中在前端設(shè)計(jì),目的是減少噪聲帶來(lái)的在語(yǔ)音特征空間的失配。最小均方誤差(Minimum Mean-Square Error, MMSE)估計(jì)是一種語(yǔ)音增強(qiáng)算法,其能夠有效地抑制背景噪聲,從而提 高輸入信號(hào)的信噪比(Signal-to-Noise Ratio, SNR)。對(duì)于最小均方誤差 估計(jì),在Y. Ephraim和D. Malah的文獻(xiàn)"Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator", IEEE Trans. Acoustic, Speech, and Signal Processing, Vol. ASSP-32, pp.ll09-1121, 1984中進(jìn)行了詳細(xì)的描述,其全部?jī)?nèi)容以引用方式包含于 此,以供參考(下文中稱為文獻(xiàn)l)。在該文獻(xiàn)中,利用MMSE估計(jì)對(duì)短 時(shí)謙幅度(Short-Time Spectral Amplitude, STSA)進(jìn)行了估計(jì),并提出 了利用MMSE STSA估計(jì)的系統(tǒng),以及將該系統(tǒng)與廣泛使用的基于Wiener 濾波和減謙算法(Spectral Subtraction Algorithm)的系統(tǒng)進(jìn)行了比較。盡管在Y. Ephraim和D. Malah的文獻(xiàn)中使用的鐠的均方誤差的失真 測(cè)量在數(shù)學(xué)上易處理,并獲得了很好的結(jié)果,但是它不是最理想的方式。 眾所周知,基于對(duì)數(shù)謙的均方誤差的失真測(cè)量更適合于語(yǔ)音處理,例如在 R. M. Gray, A. Buzo, A. H. Gray, Jr.和Y. Matsuyama的文獻(xiàn)"Distortion measures for speech processing," IEEE Trans. Acoust., Speech, Signal processing, vol. ASSP-28, pp. 367-376, Aug. 1980中進(jìn)行了詳細(xì)的描迷,其 全部?jī)?nèi)容以引用方式包含于此,以供參考。因此,該失真測(cè)量廣泛地用于 語(yǔ)音分析和識(shí)別。對(duì)于對(duì)數(shù)譜最小均方誤差(LogMMSE)估計(jì),在Y. Ephrahn和D. Malah的文獻(xiàn)"Speech enhancement using a minimum mean-square error log-spectral amplitude estimator", IEEE Trans. Acoustic, Speech, and Signal Processing, Vol. ASSP-33, pp.443-445, 1985中進(jìn)行了詳細(xì)的描述, 其全部?jī)?nèi)容以引用方式包含于此,以供參考(下文中稱為文獻(xiàn)2)。 LogMMSE優(yōu)于MMSE,因?yàn)樗軌颢@得更小的剩余噪聲水平,同時(shí)不影 響語(yǔ)音本身的質(zhì)量。在LogMMSE增強(qiáng)算法中,采用泰勒級(jí)數(shù)累加或者數(shù) 值積分來(lái)計(jì)算增益函數(shù)。然而,在此構(gòu)架中,存在以下兩個(gè)問題1. 泰勒級(jí)數(shù)累加只有當(dāng)輸入數(shù)值較小時(shí)計(jì)算精確,而數(shù)值積分只有在 輸入數(shù)值較大時(shí)計(jì)算精確。2. 利用泰勒級(jí)數(shù)累加或者數(shù)值積分計(jì)算增益函數(shù)的計(jì)算量很大。發(fā)明內(nèi)容為了解決上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供了噪聲抑制方法, 提取語(yǔ)音特征的方法,語(yǔ)音識(shí)別方法和訓(xùn)練語(yǔ)音模型的方法,以及噪聲抑 制裝置,提取語(yǔ)音特征的裝置,語(yǔ)音識(shí)別裝置和訓(xùn)練語(yǔ)音模型的裝置。根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于含噪聲語(yǔ)音譜的噪聲抑制方 法,包括根據(jù)噪聲估計(jì)語(yǔ),對(duì)所述含噪聲語(yǔ)音譜進(jìn)行對(duì)數(shù)譜最小均方誤 差估計(jì),以降低所述含噪聲語(yǔ)音譜的噪聲;其中,用分段線性函數(shù)代替增 益函數(shù)來(lái)進(jìn)行所述對(duì)數(shù)譜最小均方誤差估計(jì)。根據(jù)本發(fā)明的另 一個(gè)方面,提供了 一種用于含噪聲語(yǔ)音譜的噪聲抑制 方法,包括根據(jù)噪聲估計(jì)鐠,對(duì)所述含噪聲語(yǔ)音譜進(jìn)行對(duì)數(shù)譜最小均方
誤差估計(jì),以降低所述含噪聲語(yǔ)音譜的噪聲;其中,通過(guò)以下步稞計(jì)算增 益函數(shù)來(lái)進(jìn)行所迷對(duì)數(shù)譜最小均方誤差估計(jì)利用泰勒級(jí)數(shù)累加計(jì)算所述 增益函數(shù);利用數(shù)值積分計(jì)算所迷增益函數(shù);以及合并所述泰勒級(jí)數(shù)累加 的結(jié)果和所述數(shù)值積分的結(jié)果。根據(jù)本發(fā)明的另一個(gè)方面,提供了一種用于提取語(yǔ)音特征的方法,包 括將含噪聲語(yǔ)音變換成含噪聲語(yǔ)音譜;利用上述的噪聲抑制方法,降低 所述含噪聲語(yǔ)音鐠的噪音;以及從所述噪聲降低的語(yǔ)音譜提取語(yǔ)音特征。根據(jù)本發(fā)明的另一個(gè)方面,提供了一種語(yǔ)音識(shí)別方法,包括利用上 述的提取語(yǔ)音特征的方法,提取語(yǔ)音特征;以及根據(jù)所述提取出的語(yǔ)音特 征,識(shí)別語(yǔ)音。根據(jù)本發(fā)明的另一個(gè)方面,提供了一種訓(xùn)練語(yǔ)音模型的方法,包括 利用上述的提取語(yǔ)音特征的方法,提取語(yǔ)音特征;以及根據(jù)所述提取出的 語(yǔ)音特征,訓(xùn)練所述語(yǔ)音模型。根據(jù)本發(fā)明的另 一個(gè)方面,提供了 一種用于含噪聲語(yǔ)音譜的噪聲抑制 裝置,包括估計(jì)單元(estimation unit),根據(jù)噪聲估計(jì)譜,對(duì)所述含噪 聲語(yǔ)音譜進(jìn)行對(duì)數(shù)讒最小均方誤差估計(jì),以降低所述含噪聲語(yǔ)音語(yǔ)的噪聲; 其中,所述估計(jì)單元使用分段線性函數(shù)代替增益函數(shù)來(lái)進(jìn)行所述對(duì)數(shù)傳最 小均方誤差估計(jì)。根據(jù)本發(fā)明的另 一個(gè)方面,提供了 一種用于含噪聲語(yǔ)音譜的噪聲抑制 裝置,包括估計(jì)單元(estimation unit),根據(jù)噪聲估計(jì)譜,對(duì)所述含噪 聲語(yǔ)音謙進(jìn)行對(duì)數(shù)鐠最小均方誤差估計(jì),以降低所述含噪聲語(yǔ)音諳的噪聲; 其中,所述估計(jì)單元包括泰勒級(jí)數(shù)累加計(jì)算單元(Taylor series accumulation calculation unit),利用泰勒級(jí)數(shù)累加計(jì)算所述增益函數(shù); 數(shù)值積、分i十算單元(numeric integration calculation unit),利用lt值積分 計(jì)算所迷增益函數(shù);以及合并單元(combination unit),用于合并所述泰 勒級(jí)數(shù)累加計(jì)算單元計(jì)算的結(jié)果和所述數(shù)值積分計(jì)算單元計(jì)算的結(jié)杲。根據(jù)本發(fā)明的另一個(gè)方面,提供了一種用于提取語(yǔ)音特征的裝置,包 括變換單元(transforming unit),將含噪聲語(yǔ)音變換成含噪聲語(yǔ)音語(yǔ);
根據(jù)上述的噪聲抑制裝置,用于降低所述含噪聲語(yǔ)音譜的噪音;以及提取 單元(extracting unit),從所述噪聲降低的語(yǔ)音譜提取所述語(yǔ)音特征。根據(jù)本發(fā)明的另一個(gè)方面,提供了一種語(yǔ)音識(shí)別裝置,包括根據(jù)上 述的提取語(yǔ)音特征的裝置,用于提取語(yǔ)音特征;以及語(yǔ)音識(shí)別單元(speech recognition unit),根據(jù)所述提取出的語(yǔ)音特征,識(shí)別語(yǔ)音。根據(jù)本發(fā)明的另一個(gè)方面,提供了一種訓(xùn)練語(yǔ)音模型的裝置,包括 根據(jù)上述的提取語(yǔ)音特征的裝置,用于提取語(yǔ)音特征;以及模型訓(xùn)練單元 (model-training unit),根據(jù)所述提取出的語(yǔ)音特征,訓(xùn)練所述語(yǔ)音模型。
相信通過(guò)以下結(jié)合附圖對(duì)本發(fā)明具體實(shí)施方式
的說(shuō)明,能夠使人們更好地了解本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。圖l是才艮據(jù)本發(fā)明的一個(gè)實(shí)施例的噪聲抑制方法的流程圖;圖2A-2D示出了設(shè)置分段線性函數(shù)的分割點(diǎn)的過(guò)程的一個(gè)實(shí)例,其中圖2A示出了一個(gè)增益函數(shù)的曲線,圖2B示出了增益函數(shù)的導(dǎo)數(shù)的曲線,圖2C示出了增益函數(shù)和分段線性函數(shù)之間的差別的曲線,以及圖2D示出了分割后的分段線性函數(shù)的曲線;圖3是根據(jù)本發(fā)明的另一個(gè)實(shí)施例的噪聲抑制方法的流程圖;圖4A-4C示出了對(duì)泰勒級(jí)數(shù)累加和數(shù)值積分進(jìn)行合并的一個(gè)實(shí)例,其中圖4A示出了通辻秦勒級(jí)數(shù)累加獲得的增益函數(shù),圖4B示出了通過(guò)數(shù)值積分獲得的增益函數(shù),以及圖4C示出了通過(guò)合并上述兩種計(jì)算方法獲得的增益函數(shù);圖5示出了計(jì)算合并閾值的一個(gè)實(shí)例;圖6是根據(jù)本發(fā)明的另 一個(gè)實(shí)施例的提取語(yǔ)音特征的方法的流程圖; 圖7是根據(jù)本發(fā)明的另 一個(gè)實(shí)施例的語(yǔ)音識(shí)別方法的流程圖; 圖8是根據(jù)本發(fā)明的另一個(gè)實(shí)施例的訓(xùn)練語(yǔ)音模型的方法的流程圖; 圖9是根據(jù)本發(fā)明的另一個(gè)實(shí)施例的噪聲抑制裝置的方框圖; 圖IO是根據(jù)本發(fā)明的另一個(gè)實(shí)施例的噪聲抑制裝置的方框圖;圖11是根據(jù)本發(fā)明的另一個(gè)實(shí)施例的提取語(yǔ)音特征的裝置的方框圖; 圖12是#^據(jù)本發(fā)明的另一個(gè)實(shí)施例的語(yǔ)音識(shí)別裝置的方框圖;以及 圖13是根據(jù)本發(fā)明的另 一個(gè)實(shí)施例的訓(xùn)練語(yǔ)音模型的裝置的方框囝。
具體實(shí)施方式
為了便于后面實(shí)施例的理解,首先簡(jiǎn)要介紹一下最小均方誤差 (MMSE)估計(jì)以及對(duì)數(shù)諉最小均方誤差(LogMMSE)估計(jì)的原理。MMSE估計(jì)是一種語(yǔ)音增強(qiáng)算法,它利用背景噪聲的估計(jì)諳,對(duì)含噪 聲語(yǔ)音譜中的噪聲進(jìn)行抑制,獲得噪聲得到抑制的語(yǔ)音譜。具體地,最小均方誤差估計(jì)通過(guò)以下公式進(jìn)行力)=+ ,,o s " r (1)i一klW),os"r} (2)其中,y(t)表示包含語(yǔ)音信號(hào)x(t)和噪聲信號(hào)d(t)的信號(hào),為表示語(yǔ)音信號(hào)x(t)的笫*個(gè)謙分量的振幅,^4表示通過(guò)^t的MMSE估計(jì)得到的語(yǔ)音譜。通過(guò)推導(dǎo)得到1二cAmoa)凡 (3)其中v4表示噪聲得到抑制的語(yǔ)音譜,及A表示含噪聲語(yǔ)音譜,c是常數(shù), &是根據(jù)噪聲估計(jì)謙獲得的先驗(yàn)信噪比,yA是根據(jù)噪聲估計(jì)譜和含噪聲語(yǔ) 音譜獲得的后驗(yàn)信噪比,M(^)是合流超幾何函數(shù),以及*表示第*個(gè)譜分量。具體細(xì)節(jié)參見上述Y. Ephraim和D. Malah的文獻(xiàn)1。LogMMSE估計(jì)也是一種語(yǔ)音增強(qiáng)算法,它能夠獲得更小的剩余噪聲 水平,同時(shí)不影響語(yǔ)音本身的質(zhì)量。具體地,LogMMSE估計(jì)通過(guò)以下公 式進(jìn)行4 = exp帥n ^ I別, 0 s " T]} ( 5 )其中w
其中,與進(jìn)行MMSE估計(jì)時(shí)使用的公式(1)不同的是,對(duì)語(yǔ)音信號(hào) x(t)的第A個(gè)鐠分量的振幅A取對(duì)數(shù)。通過(guò)推導(dǎo)得到<formula>formula see original document page 12</formula>(6 )l + ^ 卞4 f J 如下定義增益函數(shù)Gfi^:<formula>formula see original document page 12</formula>(7)從而得到噪聲得到抑制的語(yǔ)音謙為(8)具體細(xì)節(jié)參見上述Y. Ephraim和D. Malah的文獻(xiàn)2。下面就結(jié)合附圖對(duì)本發(fā)明的各個(gè)實(shí)施例進(jìn)行詳細(xì)的說(shuō)明。 圖l是才艮據(jù)本發(fā)明的一個(gè)實(shí)施例的噪聲抑制方法的流程圖。如圖1所 示,首先,在步驟101,輸入含噪聲語(yǔ)音譜。含噪聲語(yǔ)音譜是根據(jù)包含背 景噪聲和語(yǔ)音的聲音數(shù)據(jù),例如利用快速傅里葉變換得到的語(yǔ)音譜,因此 是背景噪聲和語(yǔ)音疊加在一起的語(yǔ)音譜。接著,在步驟105,根據(jù)預(yù)先估計(jì)的噪聲估計(jì)語(yǔ),對(duì)含噪聲語(yǔ)音進(jìn)行 對(duì)數(shù)語(yǔ)最小均方誤差估計(jì)。噪聲估計(jì)譜是對(duì)沒有語(yǔ)音的背景噪聲進(jìn)行預(yù)先 估計(jì)得到的。獲得噪聲估計(jì)譜的方式很多,例如,對(duì)多次采集的背景噪聲 譜進(jìn)行平均等等,本發(fā)明對(duì)此并沒有特別的限制。具體地,根據(jù)上迷公式 (8)進(jìn)行對(duì)數(shù)譜最小均方誤差估計(jì),其中利用分段線性函數(shù)代替公式(8)中的增益函數(shù)(7(^),變換后的4^式為<formula>formula see original document page 12</formula>其中^表示噪聲得到抑制的語(yǔ)音諳,A表示含噪聲語(yǔ)音語(yǔ),&是根據(jù) 噪聲估計(jì)傳獲得的先驗(yàn)信噪比,^是根據(jù)噪聲估計(jì)諳和含噪聲語(yǔ)音譜獲得 的后驗(yàn)信噪比,i^t^是分段線性函數(shù),以及it表示第A個(gè)譜分量。在本實(shí)施例中,可以利用預(yù)先設(shè)定分割點(diǎn)的分段線性函數(shù)^l^近似增益函數(shù)G^/j。例如,可以通過(guò)以下步驟進(jìn)行分段線性函數(shù)Z/i^近似增益 函數(shù)G^"的過(guò)程。具體地,圖2A-2D示出了設(shè)置分段線性函數(shù)的分割點(diǎn)的過(guò)程的一個(gè)實(shí) 例,其中圖2A示出了一個(gè)增益函數(shù)G(vJ的曲線,圖2B示出了增益函數(shù)的 導(dǎo)數(shù)的曲線,圖2C示出了增益函數(shù)和分段線性函數(shù)之間的差別的曲線, 以及圖2D示出了分割后的分段線性函數(shù)丄W的曲線。具體的分割過(guò)程如 下。首先,計(jì)算增益函數(shù)G"6^的導(dǎo)數(shù),如圖2B所述。為了方便,在本實(shí) 例中,只取導(dǎo)數(shù)值在0.05-0.50范圍內(nèi)的曲線作為示例。接著,設(shè)定分段線性函數(shù)丄W的初始分割點(diǎn),如圖2B所述。例如在 本實(shí)例中,初始分割點(diǎn)設(shè)在導(dǎo)數(shù)值為0.10、 1.15、 0.20、 0.25、 0.30、 0.35、 0.40、 0.45處。接著,計(jì)算在初始分割點(diǎn)的每?jī)蓚€(gè)連續(xù)分割點(diǎn)之間的分段線性函數(shù)/: 和增益函數(shù)C (^之間的差別,如圖2C所示。接著,將計(jì)算出的每?jī)蓚€(gè)連續(xù)分割點(diǎn)之間的函數(shù)值的差別與預(yù)先設(shè)定的閾值進(jìn)行比較,例如,在本實(shí)例中,閾值設(shè)定為0.037。通過(guò)比較,如果 差別大于0.037,則在兩個(gè)連續(xù)分割點(diǎn)之間插入一個(gè)新的分割點(diǎn),例如,在 分割點(diǎn)0.10和0.15之間,例如在它們的中點(diǎn)處插入一個(gè)新的分割點(diǎn)。重復(fù)上述計(jì)算差別的步驟及其之后的步驟,直到?jīng)]有所述差別大于所 述閾值。從而,得到如圖2D所示的分段線性函數(shù)。返回到圖1,在利用分段線性函數(shù)丄(^)代替增益函數(shù)GT"ft)進(jìn)行對(duì)數(shù)譜 最小均方誤差估計(jì)之后,在步驟110,輸出通過(guò)對(duì)數(shù)譜最小均方誤差估計(jì) 降低噪聲的語(yǔ)音i普。通過(guò)本實(shí)施例的噪聲抑制方法,利用分段線性函數(shù)代替增益函數(shù),極 大地降低了對(duì)數(shù)譜最小均方誤差估計(jì)的計(jì)算量,同時(shí)保持了噪聲抑制性能。
在同一發(fā)明構(gòu)思下,圖3是4艮據(jù)本發(fā)明的另一個(gè)實(shí)施例的噪聲抑制方 法的流程圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與前面實(shí) 施例相同的部分,適當(dāng)省略其說(shuō)明。如圖3所示,首先,在步驟301,輸入含噪聲語(yǔ)音譜。含噪聲語(yǔ)音譜 是根據(jù)包含背景噪聲和語(yǔ)音的聲音數(shù)據(jù),例如利用快速傅里葉變換得到的 語(yǔ)音譜,因此是背景噪聲和語(yǔ)音疊加在一起的語(yǔ)音譜。接著,在步驟305,對(duì)含噪聲語(yǔ)音進(jìn)行對(duì)數(shù)鐠最小均方誤差估計(jì)。具 體地,在該步驟中,利用公式(8),通過(guò)泰勒級(jí)數(shù)累加計(jì)算增益函數(shù)來(lái)進(jìn) 行對(duì)數(shù)謙最小均方誤差估計(jì),得到如圖4A所示的曲線。本實(shí)施例中釆用 的泰勒級(jí)數(shù)累加方法可以是本領(lǐng)域的技術(shù)人員公知的任何方法,本發(fā)明對(duì) 此并沒有限制,在此不再贅述。在圖4A中可以看出,在輸入變量較小時(shí),通#勒級(jí)數(shù)累加獲得的 增益函數(shù)值很精確,而在輸入變量較大時(shí),計(jì)算出的增益函數(shù)值不精確。接著,在步驟310,根據(jù)噪聲估計(jì)譜,利用公式(8),通過(guò)數(shù)值積分 計(jì)算增益函數(shù)來(lái)進(jìn)行對(duì)數(shù)諉最小均方誤差估計(jì),得到如圖4B所示的曲線。 本實(shí)施例中采用的數(shù)值積分方法可以是本領(lǐng)域的技術(shù)人員公知的任何方 法,本發(fā)明對(duì)此并沒有限制,在此不再贅述。在圖4B中可以看出,與泰勒級(jí)數(shù)累加方法計(jì)算的結(jié)果相反,在輸入 變量較大時(shí),通過(guò)數(shù)值積分獲得的增益函數(shù)值很精確,而在輸入變量較小 時(shí),計(jì)算出的增益函數(shù)值不精確。接著,在步驟315,合并通過(guò)泰勒級(jí)數(shù)累加方法計(jì)算的結(jié)果和數(shù)值積 分方法計(jì)算的結(jié)果。具體地,可以將圖4A中通過(guò)泰勒級(jí)數(shù)累加獲得的增益函數(shù)值中不精 確的部分利用通過(guò)數(shù)值積分獲得的增益函數(shù)值替換,或者將圖4B中通過(guò) 數(shù)值積分獲得的增益函數(shù)值中不精確的部分利用通過(guò)泰勒級(jí)數(shù)累加獲得的 增益函數(shù)值替換。此外,也可以在泰勒級(jí)數(shù)累加方法和數(shù)值積分方法都精 確的范圍內(nèi)任意取一點(diǎn)(例如圖4A和圖4B中兩條曲線的最接近處),作 為合并閾值,將小于合并閾值的通過(guò)泰勒級(jí)數(shù)累加方法計(jì)算得到的增益函
數(shù)值和大于合并閾值的通過(guò)數(shù)值積分方法計(jì)算得到的增益函數(shù)值合并。 優(yōu)選,可以通過(guò)如下方法確定上述合并閾值。首先,將通過(guò)泰勒級(jí)數(shù)累加方法計(jì)算的增益函數(shù)值和通過(guò)數(shù)值積分方 法計(jì)算的增益函數(shù)值進(jìn)行相減,然后可選地對(duì)相減得到的結(jié)果取絕對(duì)值并可選地作對(duì)數(shù)變換,得到如圖3所示的曲線。然后,選擇圖3的曲線的最 小值處對(duì)應(yīng)的輸入變量作為上述合并閾值。在確定合并閾值后,將小于合并閾值的通過(guò)泰勒級(jí)數(shù)累加方法計(jì)算得值合并,如圖4A-4C所示,從而得到精確的增益函數(shù)值。返回到圖3,在通過(guò)合并泰勒級(jí)數(shù)累加方法和數(shù)值積分方法進(jìn)行對(duì)數(shù)譜最小均方誤差估計(jì)之后,在步驟320,輸出通過(guò)對(duì)數(shù)譜最小均方誤差估計(jì)降低噪聲的語(yǔ)音語(yǔ)。通過(guò)本實(shí)施例的噪聲抑制方法,通過(guò)合并泰勒級(jí)數(shù)累加方法和數(shù)值積分方法進(jìn)行對(duì)數(shù)i瞽最小均方誤差估計(jì),能夠得到理論上所預(yù)期的去除噪聲的性能,從而彌補(bǔ)單獨(dú)使用泰勒級(jí)數(shù)累加方法或數(shù)值積分方法計(jì)算不精確的缺點(diǎn)。在同一發(fā)明構(gòu)思下,圖6是根據(jù)本發(fā)明的另一個(gè)實(shí)施例的提取語(yǔ)音特 征的方法的流程圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與 前面實(shí)施例相同的部分,適當(dāng)省略其說(shuō)明。如圖6所示,首先,在步驟601,輸入含噪聲語(yǔ)音,該含噪聲語(yǔ)音包 括說(shuō)話人說(shuō)出的語(yǔ)音和背景噪聲。接著,在步驟605,將所述含噪聲語(yǔ)音變換成含噪聲語(yǔ)音譜,例如通 過(guò)快速傅立葉變換(Fast Fourier Transform, FFT)將時(shí)域上的語(yǔ)音變換 成頻域上的語(yǔ)音語(yǔ)。接著,在步驟610,利用上面根據(jù)圖1和圖2的實(shí)施例所述的噪聲抑 制方法,降低所述含噪聲語(yǔ)音謙的噪音。所述噪聲抑制方法是根據(jù)上述公 式(9)進(jìn)行對(duì)數(shù)語(yǔ)最小均方誤差估計(jì),其中,利用分段線性函數(shù)代替了增 益函數(shù)。具體的降噪過(guò)程與上述實(shí)施例中的相同,在此不再贅述。
此夕卜,也可以利用上面沖艮據(jù)圖3至圖5的實(shí)施例所述的噪聲抑制方法, 降低所述含噪聲語(yǔ)音譜的噪音。所述噪聲抑制方法是根據(jù)上述公式(8)進(jìn) 行對(duì)數(shù)諉最小均方誤差估計(jì),其中,通過(guò)合并泰勒級(jí)數(shù)累加方法和數(shù)值積 分方法進(jìn)行對(duì)數(shù)語(yǔ)最小均方誤差估計(jì)。具體的降噪過(guò)程與上述實(shí)施例中的 相同,在此不再贅述。最后,在步驟615,從噪聲降低的語(yǔ)音譜中提取語(yǔ)音特征。具體地, 可以通過(guò)Mel頻率倒譜系數(shù)(Mel Frequency c印tral Coefficient, MFCC ) 或線性預(yù)測(cè)倒謙系數(shù)(Linear Predictive C印stral Coefficient, LPCC )等 常規(guī)方法提取語(yǔ)音特征,本發(fā)明對(duì)此沒有特別限制。通過(guò)以上的說(shuō)明可知,本實(shí)施例的提取語(yǔ)音特征的方法可以在從含噪 聲語(yǔ)音譜中提取語(yǔ)音特征之前,通過(guò)上述公式(9)進(jìn)行對(duì)數(shù)鐠最小均方誤 差估計(jì)來(lái)降低噪聲,其中利用分段線性函數(shù)代替增益函數(shù),極大地降低了 對(duì)數(shù)i普最小均方誤差估計(jì)的計(jì)算量,同時(shí)保持了噪聲抑制性能。因此,可 以提高語(yǔ)音特征的質(zhì)量。此外,本實(shí)施例的提取語(yǔ)音特征的方法也可以在從含噪聲語(yǔ)音譜中提 取語(yǔ)音特征之前,通過(guò)上述公式(8)進(jìn)行對(duì)數(shù)譜最小均方誤差估計(jì)來(lái)降低 噪聲,其中通過(guò)合并泰勒級(jí)數(shù)累加方法和數(shù)值積分方法進(jìn)行對(duì)數(shù)譜最小均 方誤差估計(jì),能夠得到理論上所預(yù)期的去除噪聲的性能,從而彌補(bǔ)單獨(dú)使 用泰勒級(jí)數(shù)累加方法或數(shù)值積分方法計(jì)算不精確的缺點(diǎn)。因此,可以提高 語(yǔ)音特征的質(zhì)量。在同一發(fā)明構(gòu)思下,圖7是根據(jù)本發(fā)明的另一個(gè)實(shí)施例的語(yǔ)音識(shí)別方 法的流程圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與前面實(shí) 施例相同的部分,適當(dāng)省略其說(shuō)明。如圖7所示,首先,在步驟701,利用上面參考圖6的實(shí)施例所述的 提取語(yǔ)音特征的方法,提取語(yǔ)音特征。具體的提取過(guò)程與上述實(shí)施例中的 相同,在此不再贅述。然后,在步驟705,根據(jù)所述提取出的語(yǔ)音特征,進(jìn)行語(yǔ)音識(shí)別。具 體地,例如,將提取出的語(yǔ)音特征和預(yù)先訓(xùn)練好的模板進(jìn)行比較,從而識(shí)別出所述語(yǔ)音的內(nèi)容信息,本發(fā)明對(duì)此沒有特別限制。通過(guò)以上的說(shuō)明可知,本實(shí)施例的語(yǔ)音識(shí)別方法可以在從含噪聲語(yǔ)音譜中提取語(yǔ)音特征之前,通過(guò)上迷公式(9)進(jìn)行對(duì)數(shù)譜最小均方誤差估計(jì) 來(lái)降低噪聲,其中利用分段線性函數(shù)代替增益函數(shù),極大地降低了對(duì)數(shù)譜 最小均方誤差估計(jì)的計(jì)算量,同時(shí)保持了噪聲抑制性能,從而可以提高語(yǔ) 音特征的質(zhì)量。因此,可以提高語(yǔ)音識(shí)別的性能。此外,可選地,本實(shí)施例的語(yǔ)音識(shí)別方法也可以在從含噪聲語(yǔ)音鐠中 提取語(yǔ)音特征之前,通過(guò)上述公式(8)進(jìn)行對(duì)數(shù)譜最小均方誤差估計(jì)來(lái)降 低噪聲,其中通過(guò)合并泰勒級(jí)數(shù)累加方法和數(shù)值積分方法進(jìn)行對(duì)數(shù)譜最小 均方誤差估計(jì),能夠得到理論上所預(yù)期的去除噪聲的性能,從而彌補(bǔ)單獨(dú) 使用泰勒級(jí)數(shù)累加方法或數(shù)值積分方法計(jì)算不精確的缺點(diǎn)。因此,可以提 高語(yǔ)音識(shí)別的性能。在同一發(fā)明構(gòu)思下,圖8;^才艮據(jù)本發(fā)明的另一個(gè)實(shí)施例的訓(xùn)練語(yǔ)音模型的方法的流程圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與 前面實(shí)施例相同的部分,適當(dāng)省略其說(shuō)明。如圖8所示,首先,在步驟801,利用上面參考圖6的實(shí)施例所述的 提取語(yǔ)音特征的方法,提取語(yǔ)音特征。具體的提取過(guò)程與上述實(shí)施例中的 相同,在此不再贅述。然后,在步驟805,根據(jù)所述提取出的語(yǔ)音特征,訓(xùn)練所迷語(yǔ)音模型。通過(guò)以上的說(shuō)明可知,在本實(shí)施例的訓(xùn)練語(yǔ)音模型的方法中,可以在 從含噪聲語(yǔ)音語(yǔ)中提取語(yǔ)音特征之前,通過(guò)上述公式(9)進(jìn)行對(duì)數(shù)語(yǔ)最小 均方誤差估計(jì)來(lái)降低噪聲,其中利用分段線性函數(shù)代替增益函數(shù),極大地 降低了對(duì)數(shù)譜最小均方誤差估計(jì)的計(jì)算量,同時(shí)保持了噪聲抑制性能,從 而可以提高語(yǔ)音特征的質(zhì)量。因此,可以提高訓(xùn)練出的模型的質(zhì)量。此外,可選地,本實(shí)施例的訓(xùn)練語(yǔ)音模型的方法也可以在從含噪聲語(yǔ) 音譜中提取語(yǔ)音特征之前,通過(guò)上述公式(8)進(jìn)行對(duì)數(shù)語(yǔ)最小均方誤差估 計(jì)來(lái)降低噪聲,其中通過(guò)合并泰勒級(jí)數(shù)累加方法和數(shù)值積分方法進(jìn)行對(duì)數(shù) 譜最小均方誤差估計(jì),能夠得到理論上所預(yù)期的去除噪聲的性能,從而彌 補(bǔ)單獨(dú)使用泰勒級(jí)數(shù)累加方法或數(shù)值積分方法計(jì)算不精確的缺點(diǎn)。因此, 可以提高訓(xùn)練出的模型的質(zhì)量。在同一發(fā)明構(gòu)思下,圖9是才艮據(jù)本發(fā)明的一個(gè)實(shí)施例的噪聲抑制裝置 的方框圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與前面實(shí)施 例相同的部分,適當(dāng)省略其說(shuō)明。如圖9所示,本實(shí)施例的用于含噪聲語(yǔ)音譜的噪聲抑制裝置900包括 對(duì)數(shù)語(yǔ)最小均方誤差估計(jì)單元(log-spectral minimum mean-square error estimation unit)卯l,其根據(jù)噪聲估計(jì)譜,對(duì)所述含噪聲語(yǔ)音鐠進(jìn)行對(duì)數(shù) 鐠最小均方誤差估計(jì),以降低所述含噪聲語(yǔ)音譜的噪聲。所述對(duì)數(shù)譜最小 均方誤差估計(jì)單元900利用分段線性函數(shù)代替增益函數(shù),根據(jù)上述公式(9 ) 進(jìn)行對(duì)數(shù)鐠最小均方誤差估計(jì),具體細(xì)節(jié)與上述參考圖1和2的實(shí)施例中 關(guān)于噪聲抑制方法的描述相同,在此不再贅述。本實(shí)施例的噪聲抑制裝置900還可以包括分割點(diǎn)保存單元905,用于 保存所述分段線性函數(shù)的分割點(diǎn);以及噪聲估計(jì)保存單元910,用于保存 對(duì)背景噪聲進(jìn)行預(yù)先估計(jì)獲得的噪聲估計(jì)。此外,所述噪聲估計(jì)也可以從 外部輸入所述對(duì)數(shù)謙最小均方誤差估計(jì)單元901。通過(guò)以上的說(shuō)明可知,由于本實(shí)施例的噪聲抑制裝置卯0利用分段線 性函數(shù)代替增益函數(shù),極大地降低了對(duì)數(shù)譜最小均方誤差估計(jì)的計(jì)算量, 同時(shí)保持了噪聲抑制性能。在同一發(fā)明構(gòu)思下,圖IO是才艮據(jù)本發(fā)明的另一個(gè)實(shí)施例的噪聲抑制裝 置的方框圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與前面實(shí) 施例相同的部分,適當(dāng)省略其說(shuō)明。如圖10所示,本實(shí)施例的用于含噪聲語(yǔ)音譜的噪聲抑制裝置1000包 括對(duì)數(shù)謙最小均方誤差估計(jì)單元(log-spectral minimum mean-square error estimation unit) 1001,其根據(jù)噪聲估計(jì)謙,對(duì)所述含噪聲語(yǔ)音譜進(jìn) 行對(duì)數(shù)鐠最小均方誤差估計(jì),以降低所述含噪聲語(yǔ)音鐠的噪聲。具體細(xì)節(jié) 與上迷參考圖3至圖5的實(shí)施例中關(guān)于噪聲抑制方法的描述相同,在 具體地,對(duì)數(shù)鐠最小均方誤差估計(jì)單元1001還包括泰勒級(jí)數(shù)累加計(jì)算 單元(Taylor series accumulation calculation unit) 10011 ,其利用公式(8 ), 通過(guò)泰勒級(jí)數(shù)累加計(jì)算增益函數(shù)來(lái)進(jìn)行對(duì)數(shù)譜最小均方誤差估計(jì),得到如 圖4A所示的曲線。本實(shí)施例中采用的泰勒級(jí)數(shù)累加計(jì)算單元10011可以 是本領(lǐng)域的技術(shù)人員公知的任何能夠進(jìn)行泰勒級(jí)數(shù)累加的裝置,本發(fā)明對(duì) 此并沒有限制,在此不再贅述。在圖4A中可以看出,在輸入變量較小時(shí),由泰勒級(jí)數(shù)累加計(jì)算單元 10011計(jì)算出的增益函數(shù)值很精確,而在輸入變量較大時(shí),計(jì)算出的增益 函數(shù)值不精確。此外,對(duì)數(shù)譜最小均方誤差估計(jì)單元1001還包括數(shù)值積分計(jì)算單元 (numeric integration calculation unit) 10012,其利用乂〉式(8),通過(guò)數(shù) 值積分計(jì)算增益函數(shù)來(lái)進(jìn)行對(duì)數(shù)語(yǔ)最小均方誤差估計(jì),得到如圖4B所示 的曲線。本實(shí)施例中采用的數(shù)值積分計(jì)算單元10012可以是本領(lǐng)域的技術(shù) 人員公知的任何能夠進(jìn)行數(shù)值積分的裝置,本發(fā)明對(duì)此并沒有限制,在此 不再贅述。在圖4B中可以看出,與由泰勒級(jí)數(shù)累加計(jì)算單元10011計(jì)算出的結(jié) 果相反,在輸入變量較大時(shí),由數(shù)值積分計(jì)算單元10012計(jì)算出的增益函 數(shù)值4艮精確,而在輸入變量較小時(shí),計(jì)算出的增益函數(shù)值不精確。此外,對(duì)數(shù)譜最小均方誤差估計(jì)單元1001還包括合并單元 (combination unit) 10013,用于合并由泰勒級(jí)數(shù)累加計(jì)算單元10011計(jì) 算出的結(jié)果和由數(shù)值積分計(jì)算單元10012計(jì)算出的結(jié)果。具體地,可以將圖4A中由泰勒級(jí)數(shù)累加計(jì)算單元10011計(jì)算出的增 益函數(shù)值中不精確的部分利用由數(shù)值積分計(jì)算單元10012計(jì)算出的增益函 數(shù)值替換,或者將圖4B中由數(shù)值積分計(jì)算單元10012計(jì)算出的增益函數(shù) 值中不精確的部分利用由泰勒級(jí)數(shù)累加計(jì)算單元10011計(jì)算出的增益函數(shù) 值替換。此外,也可以在泰勒級(jí)數(shù)累加計(jì)算單元10011和數(shù)值積分計(jì)算單 元10012都精確的范圍內(nèi)任意取一點(diǎn)(例如圖4A和圖4B中兩條曲線的最 接近處),作為合并閾值,將小于合并閾值的由泰勒級(jí)數(shù)累加計(jì)算單元
10011計(jì)算出的增益函數(shù)值和大于合并閾值的由數(shù)值積分計(jì)算羊元10012 計(jì)算出的增益函數(shù)值合并。優(yōu)選,合并單元100U包括減法羊元(subtraction unit),其將由泰 勒級(jí)數(shù)累加計(jì)算單元10011計(jì)算出的增益函數(shù)值和由數(shù)值積分計(jì)算單元 10012計(jì)算出的增益函數(shù)值進(jìn)行相減;可選的絕對(duì)值運(yùn)算單元(absolute operation unit),對(duì)減法單元得到的結(jié)果取絕對(duì)值;可選的對(duì)數(shù)運(yùn)算單元 (logarithmic operation unit),對(duì)絕對(duì)值運(yùn)算單元得到的結(jié)果進(jìn)行對(duì)數(shù)變 換,得到如圖3所示的曲線;以及選擇單元(selection unit),選擇圖3 的曲線的最小值處對(duì)應(yīng)的輸入變量作為上述合并閾值。在確定合并閾值后,合并單元10013將小于合并閾值的由泰勒級(jí)數(shù)累 加計(jì)算單元10011計(jì)算出的增益函數(shù)值和大于合并閾值的由數(shù)值積分計(jì)算 單元10012計(jì)算出的增益函數(shù)值合并,如圖4A-4C所示,從而得到精確的 增益函數(shù)值。通過(guò)本實(shí)施例的噪聲抑制裝置1000,通過(guò)泰勒級(jí)數(shù)累加計(jì)算單元 10011、數(shù)值積分計(jì)算單元10012和合并單元10013合并泰勒級(jí)數(shù)累加方法 和數(shù)值積分方法進(jìn)行對(duì)數(shù)謙最小均方誤差估計(jì),能夠得到理論上所預(yù)期的 去除噪聲的性能,從而彌補(bǔ)單獨(dú)使用泰勒級(jí)數(shù)累加方法或數(shù)值積分方法計(jì) 算不精確的缺點(diǎn)。在同一發(fā)明構(gòu)思下,圖ll是根據(jù)本發(fā)明的另一個(gè)實(shí)施例的提取語(yǔ)音特 征的裝置的方框圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與 前面實(shí)施例相同的部分,適當(dāng)省略其說(shuō)明。如圖11所示,本實(shí)施例的用于提取語(yǔ)音特征的裝置1100包括輸入 單元(inputting unit )1501,輸入含噪聲語(yǔ)音;變換單元(transforming unit) 1105,將所述含噪聲語(yǔ)音變換成含噪聲語(yǔ)音諳;上面所述的噪聲抑制裝置 卯O或噪聲抑制裝置1000,用于降低所述含噪聲語(yǔ)音鐠的噪音;以及提取 單元(extracting unit )1110,從所述噪聲降低的語(yǔ)音語(yǔ)提取所述語(yǔ)音特征。 具體細(xì)節(jié)與上述參考圖6的實(shí)施例中關(guān)于提取語(yǔ)音特征的方法的描述相 同,在此不再贅述。
通過(guò)以上的i兌明可知,本實(shí)施例的提取語(yǔ)音特征的裝置1100可以在從 含噪聲語(yǔ)音譜中提取語(yǔ)音特征之前,通過(guò)上述公式(9)進(jìn)行對(duì)數(shù)譜最小均 方誤差估計(jì)來(lái)降低噪聲,其中利用分段線性函數(shù)代替增益函數(shù),極大地降 低了對(duì)數(shù)"^普最小均方誤差估計(jì)的計(jì)算量,同時(shí)保持了噪聲抑制性能。因此, 可以提高語(yǔ)音特征的質(zhì)量。此夕卜,本實(shí)施例的提取語(yǔ)音特征的裝置1100也可以在從含噪聲語(yǔ)音譜 中提取語(yǔ)音特征之前,通過(guò)上述公式(8)進(jìn)行對(duì)數(shù)譜最小均方誤差估計(jì)來(lái) 降低噪聲,其中通過(guò)合并泰勒級(jí)數(shù)累加方法和數(shù)值積分方法進(jìn)行對(duì)數(shù)i普最 小均方誤差估計(jì),能夠得到理論上所預(yù)期的去除噪聲的性能,從而彌補(bǔ)單 獨(dú)使用泰勒級(jí)數(shù)累加方法或數(shù)值積分方法計(jì)算不精確的缺點(diǎn)。因此,可以 提高語(yǔ)音特征的質(zhì)量。在同一發(fā)明構(gòu)思下,圖12是才艮據(jù)本發(fā)明的另一個(gè)實(shí)施例的語(yǔ)音識(shí)別裝 置的方框圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與前面實(shí) 施例相同的部分,適當(dāng)省略其說(shuō)明。如圖12所示,本實(shí)施例的語(yǔ)音識(shí)別裝置1200包括上面所述的提取 語(yǔ)音特征的裝置1100,用于提取語(yǔ)音特征;以及語(yǔ)音識(shí)別單元(speech recognition unit) 1201,根據(jù)所述提取出的語(yǔ)音特征,進(jìn)行語(yǔ)音識(shí)別。具 體細(xì)節(jié)與上述參考圖7的實(shí)施例中關(guān)于語(yǔ)音識(shí)別方法的描述相同,在此不 再贅述。通過(guò)以上的i兌明可知,本實(shí)施例的語(yǔ)音識(shí)別裝置1200可以在從含噪聲 語(yǔ)音譜中提取語(yǔ)音特征之前,通過(guò)上述公式(9)進(jìn)行對(duì)數(shù)鐠最小均方誤差 估計(jì)來(lái)降低噪聲,其中利用分段線性函數(shù)代替增益函數(shù),極大地降低了對(duì) 數(shù)譜最小均方誤差估計(jì)的計(jì)算量,同時(shí)保持了噪聲抑制性能。因此,可以 提高語(yǔ)音識(shí)別的性能。此外,本實(shí)施例的語(yǔ)音識(shí)別裝置1200也可以在從含噪聲語(yǔ)音i普中提取 語(yǔ)音特征之前,通過(guò)上述公式(8)進(jìn)行對(duì)數(shù)謙最小均方誤差估計(jì)來(lái)降低噪 聲,其中通過(guò)合并泰勒級(jí)數(shù)累加方法和數(shù)值積分方法進(jìn)行對(duì)數(shù)譜最小均方 誤差估計(jì),能夠得到理論上所預(yù)期的去除噪聲的性能,從而彌補(bǔ)單獨(dú)使用
泰勒級(jí)數(shù)累加方法或數(shù)值積分方法計(jì)算不精確的缺點(diǎn)。因此,可以提高語(yǔ) 音識(shí)別的性能。在同一發(fā)明構(gòu)思下,圖13是根據(jù)本發(fā)明的另一個(gè)實(shí)施例的訓(xùn)練語(yǔ)音模 型的裝置的方框圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與 前面實(shí)施例相同的部分,適當(dāng)省略其說(shuō)明。如圖13所示,本實(shí)施例的訓(xùn)練語(yǔ)音模型的裝置1300包括上面所述 的提取語(yǔ)音特征的裝置1100,用于提取語(yǔ)音特征;以及模型訓(xùn)練單元 (model-trainingunit) 1301,根據(jù)所述提取出的語(yǔ)音特征,訓(xùn)練所述語(yǔ)音 模型。具體細(xì)節(jié)與上述參考圖8的實(shí)施例中關(guān)于訓(xùn)練語(yǔ)音模型的方法的描 述相同,在此不再贅述。通過(guò)以上的說(shuō)明可知,本實(shí)施例的訓(xùn)練語(yǔ)音模型的裝置1300可以在從 含噪聲語(yǔ)音鐠中提取語(yǔ)音特征之前,通過(guò)上述公式(9)進(jìn)行對(duì)數(shù)謙最小均 方誤差估計(jì)來(lái)降低噪聲,其中利用分段線性函數(shù)代替增益函數(shù),極大地降 低了對(duì)數(shù)譜最小均方誤差估計(jì)的計(jì)算量,同時(shí)保持了噪聲抑制性能,從而 可以提高語(yǔ)音特征的質(zhì)量。因此,可以提高訓(xùn)練出的模型的質(zhì)量。此外,可選地,本實(shí)施例的訓(xùn)練語(yǔ)音模型的裝置1300也可以在從含噪 聲語(yǔ)音鐠中提取語(yǔ)音特征之前,通過(guò)上述公式(8)進(jìn)行對(duì)數(shù)譜最小均方誤 差估計(jì)來(lái)降低噪聲,其中通過(guò)合并泰勒級(jí)數(shù)累加方法和數(shù)值積分方法進(jìn)行 對(duì)數(shù)謙最小均方誤差估計(jì),能夠得到理論上所預(yù)期的去除噪聲的性能,從 而彌補(bǔ)單獨(dú)使用泰勒級(jí)數(shù)累加方法或數(shù)值積分方法計(jì)算不精確的缺點(diǎn)。因 此,可以提高訓(xùn)練出的模型的質(zhì)量。以上雖然通過(guò)一些示例性的實(shí)施例詳細(xì)地描述了本發(fā)明的噪聲抑制方 法,提取語(yǔ)音特征的方法,語(yǔ)音識(shí)別方法和訓(xùn)練語(yǔ)音模型的方法,以及噪 聲抑制裝置,提取語(yǔ)音特征的裝置,語(yǔ)音識(shí)別裝置和訓(xùn)練語(yǔ)音模型的裝置, 但是以上這些實(shí)施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神 和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實(shí)施例,本發(fā) 明的范圍僅由所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種用于含噪聲語(yǔ)音譜的噪聲抑制方法,包括根據(jù)噪聲估計(jì)譜,對(duì)所述含噪聲語(yǔ)音譜進(jìn)行對(duì)數(shù)譜最小均方誤差估計(jì),以降低所述含噪聲語(yǔ)音譜的噪聲;其中,用分段線性函數(shù)代替增益函數(shù)來(lái)進(jìn)行所述對(duì)數(shù)譜最小均方誤差估計(jì)。
2. 根據(jù)權(quán)利要求1所述的噪聲抑制方法,其中,利用預(yù)先設(shè)定的分 割點(diǎn)將所述增益函數(shù)變換為所述分段線性函數(shù),進(jìn)行所述對(duì)數(shù)鐠最小均方 誤差估計(jì)。
3. 根據(jù)權(quán)利要求2所述的噪聲抑制方法,其中,所述分段線性函數(shù) 的所述預(yù)先設(shè)定的分割點(diǎn)通過(guò)以下步驟獲得計(jì)算所述增益函數(shù)的導(dǎo)數(shù); 設(shè)定所述分段線性函數(shù)的初始分割點(diǎn);計(jì)算在所述初始分割點(diǎn)的每?jī)蓚€(gè)連續(xù)分割點(diǎn)之間的所述分段線性函數(shù) 和所述增益函數(shù)之間的差別;如果所述差別大于一閾值,在所述兩個(gè)連續(xù)分割點(diǎn)之間插入一個(gè)新的 分割點(diǎn);以及重復(fù)所述計(jì)算差別的步驟及其之后的步驟,直到?jīng)]有所述差別大于所 述閾值。
4. 才艮據(jù)權(quán)利要求1-3中的任意一項(xiàng)所述的噪聲抑制方法,其中,所 述對(duì)數(shù)謙最小均方誤差估計(jì)通過(guò)以下公式進(jìn)行其中A表示噪聲得到抑制的語(yǔ)音謙,A表示含噪聲語(yǔ)音譜,&是根據(jù) 噪聲估計(jì)鐠獲得的先驗(yàn)信噪比,^是根據(jù)噪聲估計(jì)譜和含噪聲語(yǔ)音譜獲得的后驗(yàn)信噪比,£(^)是分段線性函數(shù),以及A:表示第A個(gè)鐠分量。
5. —種用于含噪聲語(yǔ)音譜的噪聲抑制方法,包括 根據(jù)噪聲估計(jì)鐠,對(duì)所述含噪聲語(yǔ)音譜進(jìn)行對(duì)數(shù)譜最小均方誤差估計(jì),以降低所述含噪聲語(yǔ)音譜的噪聲;其中,通過(guò)以下步驟計(jì)算增益函數(shù)來(lái)進(jìn)行所述對(duì)數(shù)譜最小均方誤差估計(jì)利用泰勒級(jí)數(shù)累加計(jì)算所述增益函數(shù); 利用數(shù)值積分計(jì)算所述增益函數(shù);以及 合并所述泰勒級(jí)數(shù)累加的結(jié)果和所述數(shù)值積分的結(jié)果。
6. 根據(jù)權(quán)利要求5所述的噪聲抑制方法,其中,所述合并步驟包括 將所述泰勒級(jí)數(shù)累加的結(jié)果和所述數(shù)值積分的結(jié)果在它們之間的最接近處 合并。
7. 根據(jù)權(quán)利要求6所迷的噪聲抑制方法,其中,所述合并步驟包括 將所述泰勒級(jí)數(shù)累加的結(jié)果和所述數(shù)值積分的結(jié)果相減; 選擇上述相減的結(jié)果中絕對(duì)值最小處的值作為閾值;以及 根據(jù)所述閾值,合并所述泰勒級(jí)數(shù)累加的結(jié)果和所述數(shù)值積分的結(jié)果。
8. 根據(jù)權(quán)利要求7所述的噪聲抑制方法,其中,所述合并步驟包括 將小于所述閾值的所述泰勒級(jí)數(shù)累加的結(jié)果和大于所述閾值的所述數(shù)值積 分的結(jié)果合并。
9. 一種用于提取語(yǔ)音特征的方法,包括 將含噪聲語(yǔ)音變換成含噪聲語(yǔ)音諳;利用上述權(quán)利要求1-8中的任意一項(xiàng)所述的噪聲抑制方法,降低所述 含噪聲語(yǔ)音鐠的噪音;以及從所述噪聲降低的語(yǔ)音謙提取語(yǔ)音特征。
10. 根悟權(quán)利要求9所述的提取語(yǔ)音特征的方法,其中,所述變換步 驟包括快速傅立葉變換。
11. 一種語(yǔ)音識(shí)別方法,包括利用上述權(quán)利要求9或10所述的提取語(yǔ)音特征的方法,提取語(yǔ)音特征;以及沖艮據(jù)所述提取出的語(yǔ)音特征,識(shí)別語(yǔ)音。
12. —種訓(xùn)練語(yǔ)音模型的方法,包括利用上述權(quán)利要求9或10所述的提取語(yǔ)音特征的方法,提取語(yǔ)音特征;以及根據(jù)所述提取出的語(yǔ)音特征,訓(xùn)練所述語(yǔ)音模型。
13. —種用于含噪聲語(yǔ)音鐠的噪聲抑制裝置,包括估計(jì)單元,根據(jù)噪聲估計(jì)譜,對(duì)所述含噪聲語(yǔ)音譜進(jìn)行對(duì)數(shù)譜最小均 方誤差估計(jì),以降低所述含噪聲語(yǔ)音語(yǔ)的噪聲;其中,所述估計(jì)單元使用分段線性函數(shù)代替增益函數(shù)來(lái)進(jìn)行所述對(duì)數(shù) 譜最小均方誤差估計(jì)。
14. 根據(jù)權(quán)利要求13所述的噪聲抑制裝置,其中,利用預(yù)先設(shè)定的 分割點(diǎn)將所述增益函數(shù)變換為所述分段線性函數(shù),進(jìn)行所述對(duì)數(shù)譜最小均 方誤差估計(jì)。
15. 根據(jù)權(quán)利要求13或14所述的噪聲抑制裝置,其中,所述估計(jì)單 元通過(guò)以下公式進(jìn)行對(duì)數(shù)謙最小均方誤差估計(jì)其中A表示噪聲得到抑制的語(yǔ)音譜,及/t表示含噪聲語(yǔ)音諮,^是根據(jù) 噪聲估計(jì)譜獲得的先驗(yàn)信噪比,^是根據(jù)噪聲估計(jì)譜和含噪聲語(yǔ)音語(yǔ)獲得的后驗(yàn)信噪比,Z^^是分段線性函數(shù),以及ife表示第A個(gè)譜分量。
16. —種用于含噪聲語(yǔ)音譜的噪聲抑制裝置,包括估計(jì)單元,根據(jù)噪聲估計(jì)譜,對(duì)所述含噪聲語(yǔ)音譜進(jìn)行對(duì)數(shù)譜最小均 方誤差估計(jì),以降低所述含噪聲語(yǔ)音譜的噪聲; 其中,所述估計(jì)單元包括泰勒級(jí)數(shù)累加計(jì)算單元,利用泰勒級(jí)數(shù)累加計(jì)算所述增益函數(shù); 數(shù)值積分計(jì)算單元,利用數(shù)值積分計(jì)算所述增益函數(shù);以及 合并單元,用于合并所述泰勒級(jí)數(shù)累加計(jì)算單元計(jì)算的結(jié)果和所述數(shù) 值積分計(jì)算單元計(jì)算的結(jié)果。
17. 根據(jù)權(quán)利要求16所述的噪聲抑制裝置,其中,所述合并單元將 所述泰勒級(jí)數(shù)累加計(jì)算羊元計(jì)算的結(jié)果和所述數(shù)值積分計(jì)算單元計(jì)算的結(jié) 果在它們之間的最接近處合并。
18. 根據(jù)權(quán)利要求17所述的噪聲抑制裝置,其中,所述合并單元包括減法單元,將所述泰勒級(jí)數(shù)累加計(jì)算單元計(jì)算的結(jié)果和所述數(shù)值積分 計(jì)算單元計(jì)算的結(jié)果相減;以及選擇單元,用于選擇上述減法單元獲得的結(jié)果中絕對(duì)值最小處的值作 為閾值;其中所述合并單元根據(jù)所述閾值,合并所述泰勒級(jí)數(shù)累加計(jì)算單元計(jì) 算的結(jié)果和所述數(shù)值積分計(jì)算單元計(jì)算的結(jié)果。
19. 根據(jù)權(quán)利要求18所述的噪聲抑制裝置,其中,所述合并單元將 小于所述閾值的所述泰勒級(jí)數(shù)累加計(jì)算單元計(jì)算的結(jié)果和大于所述閾值的 所述數(shù)值積分計(jì)算單元計(jì)算的結(jié)果合并。
20. —種用于提取語(yǔ)音特征的裝置,包括 變換單元,將含噪聲語(yǔ)音變換成含噪聲語(yǔ)音譜; 根據(jù)上述權(quán)利要求13-19中的任意一項(xiàng)所述的噪聲抑制裝置,用于降低所述含噪聲語(yǔ)音謙的噪音;以及提取單元,從所述噪聲降低的語(yǔ)音譜提取所述語(yǔ)音特征。
21. 根據(jù)權(quán)利要求20所述的提取語(yǔ)音特征的裝置,其中,所述變換 單元配置為通過(guò)快速傅立葉變換進(jìn)行變換。
22. —種語(yǔ)音識(shí)別裝置,包括根據(jù)上述權(quán)利要求20或21所述的提取語(yǔ)音特征的裝置,用于提取語(yǔ) 音特征;以及語(yǔ)音識(shí)別單元,根據(jù)所述提取出的語(yǔ)音特征,識(shí)別語(yǔ)音。
23. —種訓(xùn)練語(yǔ)音模型的裝置,包括根據(jù)上述權(quán)利要求20或21所述的提取語(yǔ)音特征的裝置,用于提取語(yǔ) 奩特征;以及模型訓(xùn)練單元,根據(jù)所述提取出的語(yǔ)音特征,訓(xùn)練所述語(yǔ)音模型
全文摘要
本發(fā)明提供了噪聲抑制方法,提取語(yǔ)音特征的方法,語(yǔ)音識(shí)別方法和訓(xùn)練語(yǔ)音模型的方法,以及噪聲抑制裝置,提取語(yǔ)音特征的裝置,語(yǔ)音識(shí)別裝置和訓(xùn)練語(yǔ)音模型的裝置。根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于含噪聲語(yǔ)音譜的噪聲抑制方法,包括根據(jù)噪聲估計(jì)譜,對(duì)所述含噪聲語(yǔ)音譜進(jìn)行對(duì)數(shù)譜最小均方誤差估計(jì),以降低所述含噪聲語(yǔ)音譜的噪聲;其中,通過(guò)以下步驟計(jì)算增益函數(shù)來(lái)進(jìn)行所述對(duì)數(shù)譜最小均方誤差估計(jì)利用泰勒級(jí)數(shù)累加計(jì)算所述增益函數(shù);利用數(shù)值積分計(jì)算所述增益函數(shù);以及合并所述泰勒級(jí)數(shù)累加的結(jié)果和所述數(shù)值積分的結(jié)果。
文檔編號(hào)G10L21/00GK101154383SQ200610141240
公開日2008年4月2日 申請(qǐng)日期2006年9月29日 優(yōu)先權(quán)日2006年9月29日
發(fā)明者沛 丁, 磊 何, 蕤 趙, 杰 郝, 翔 鄢 申請(qǐng)人:株式會(huì)社東芝