專利名稱:計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語(yǔ)音技術(shù)領(lǐng)域,具體地說(shuō),涉及利用語(yǔ)音信號(hào)處理技術(shù)實(shí)現(xiàn)計(jì)算機(jī)輔助語(yǔ)言 學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)的方法。
背景技術(shù):
在學(xué)習(xí)者進(jìn)行語(yǔ)言學(xué)習(xí)時(shí),對(duì)其發(fā)音質(zhì)量進(jìn)行可靠的評(píng)價(jià)是計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)的 核心功能。然而由于現(xiàn)有技術(shù)的局限,目前的發(fā)音質(zhì)量評(píng)價(jià)方法的性能還不夠理想,距離實(shí) 用化還有一定的差距。當(dāng)前,利用計(jì)算機(jī)對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)價(jià)的方法主要是基于隱含馬爾可夫模型(HMM)。 中國(guó)發(fā)明專利申請(qǐng)第200510114848.8號(hào)公開(kāi)了一種用于學(xué)習(xí)機(jī)的發(fā)音質(zhì)量評(píng)價(jià)方法。該方法 采用隱含馬爾可夫模型訓(xùn)練標(biāo)準(zhǔn)發(fā)音模型,并搜索最優(yōu)路徑,以此計(jì)算用來(lái)評(píng)價(jià)發(fā)音質(zhì)量的 置信分?jǐn)?shù)。這種方法過(guò)多依賴于隱含馬爾可夫模型的訓(xùn)練,并且在影響發(fā)音質(zhì)量的多個(gè)因素 中,僅基于與聲學(xué)模型有關(guān)的因素來(lái)評(píng)價(jià)發(fā)音質(zhì)量,因此與專家評(píng)分的相關(guān)性還不夠高,對(duì) 單詞和短句發(fā)音機(jī)器評(píng)分和專家評(píng)分的相關(guān)性僅為0.74。在通信系統(tǒng)中也涉及語(yǔ)音質(zhì)量的評(píng)價(jià)。ITU-T P.862中公開(kāi)了一種用于電話信道的語(yǔ)音質(zhì) 量評(píng)價(jià)方法。首先將參考語(yǔ)音通過(guò)電話信道得到測(cè)試語(yǔ)音。然后將參考語(yǔ)音和測(cè)試語(yǔ)音映射 到感知域,精確估計(jì)出測(cè)試語(yǔ)音相對(duì)于參考語(yǔ)音的延時(shí),最后在感知域計(jì)算測(cè)試語(yǔ)音相對(duì)于 參考語(yǔ)音的感知差異,并以此來(lái)評(píng)價(jià)測(cè)試語(yǔ)音的語(yǔ)音質(zhì)量。然而,通信系統(tǒng)中的語(yǔ)音質(zhì)量評(píng)價(jià)方法和計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)有 所不同。首先,在語(yǔ)音通信系統(tǒng)中,影響語(yǔ)音質(zhì)量的因素一般是電話信道、編解碼器引起的 各種噪音對(duì)語(yǔ)音的損傷以及網(wǎng)絡(luò)對(duì)語(yǔ)音的延時(shí)。參考語(yǔ)音和測(cè)試語(yǔ)音都是同一個(gè)說(shuō)話人的同 一-句語(yǔ)音,因此如果不考慮延時(shí),測(cè)試語(yǔ)音中的各個(gè)音素一般不會(huì)有段長(zhǎng)的變化。 一個(gè)人語(yǔ) 音發(fā)音是否正確對(duì)通信系統(tǒng)的語(yǔ)音質(zhì)量評(píng)價(jià)過(guò)程不會(huì)產(chǎn)生影響。而在計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系 統(tǒng)中,影響發(fā)音質(zhì)量的因素比較復(fù)雜。學(xué)習(xí)者的測(cè)試語(yǔ)音的失真是由于發(fā)音不準(zhǔn)確造成的, 和噪聲沒(méi)有多大關(guān)系。并且如果將教師的發(fā)音作為參考語(yǔ)音,學(xué)習(xí)者的語(yǔ)音作為測(cè)試語(yǔ)音,來(lái)考察測(cè)試語(yǔ)音相對(duì)于參考語(yǔ)音的發(fā)音質(zhì)量。那么參考語(yǔ)音和測(cè)試語(yǔ)音來(lái)自不同的說(shuō)話人, 導(dǎo)致測(cè)試語(yǔ)音和參考語(yǔ)音的長(zhǎng)度不同,并且這一語(yǔ)音長(zhǎng)度的差異不是延時(shí)造成的,因此無(wú)法 直接對(duì)準(zhǔn)。其次,不同說(shuō)話人的聲道長(zhǎng)度不同,導(dǎo)致測(cè)試語(yǔ)音和參考語(yǔ)音中同一音素的共振 峰不完全一樣。另外,兩個(gè)說(shuō)話人語(yǔ)音中的韻律變化也有所不同,其直接表現(xiàn)就是測(cè)試語(yǔ)音 和參考語(yǔ)音的重音變化。兩個(gè)人的基音也不相同,對(duì)應(yīng)基音變化過(guò)程也有比較大的差異。計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)應(yīng)盡可能模仿專家對(duì)發(fā)音質(zhì)量評(píng)價(jià)的過(guò)程。通常,專家對(duì)發(fā)音 質(zhì)量進(jìn)行評(píng)價(jià)的過(guò)程可以劃分為三個(gè)步驟。首先,通過(guò)耳機(jī)或者音箱聆聽(tīng)測(cè)試語(yǔ)音。然后, 大腦對(duì)感知到的語(yǔ)音進(jìn)行處理,并根據(jù)自己的語(yǔ)音學(xué)和語(yǔ)言學(xué)知識(shí),將參考語(yǔ)音和測(cè)試語(yǔ)音 進(jìn)行對(duì)比,發(fā)現(xiàn)測(cè)試語(yǔ)音在各個(gè)層次(例如聲學(xué)層和韻律層)上的發(fā)音錯(cuò)誤和失真。最后, 綜合上述各種失真,給出測(cè)試語(yǔ)音的總體評(píng)價(jià)??梢?jiàn),對(duì)發(fā)音質(zhì)量的感知與發(fā)音質(zhì)量評(píng)價(jià)的 結(jié)果密切相關(guān)。而現(xiàn)有技術(shù)未能在韻律層次上對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)價(jià),并且缺乏對(duì)發(fā)音質(zhì)量的 感知失真方面的研究。本發(fā)明針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題,提出一種計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng) 價(jià)方法。該方法以教師的發(fā)音作為參考語(yǔ)音,分別在聲學(xué)、感知和韻律方面計(jì)算學(xué)習(xí)者的測(cè) 試語(yǔ)音相對(duì)于參考語(yǔ)音的發(fā)音質(zhì)量差別,得到匹配分?jǐn)?shù)、感知分?jǐn)?shù)、段長(zhǎng)分?jǐn)?shù)和基音分?jǐn)?shù), 并對(duì)所述四種分?jǐn)?shù)進(jìn)行融合,得到測(cè)試語(yǔ)音的最終分?jǐn)?shù)。根據(jù)本發(fā)明針對(duì)單詞和短句的發(fā)音 質(zhì)量評(píng)價(jià)分?jǐn)?shù)與專家評(píng)分的相關(guān)系數(shù)達(dá)到0.800,性能優(yōu)于基于現(xiàn)有技術(shù)的方法。發(fā)明內(nèi)容目前基于隱含馬爾可夫模型的發(fā)音質(zhì)量評(píng)價(jià)方法獲得機(jī)器評(píng)價(jià)分?jǐn)?shù)與專家評(píng)分的相關(guān)性 還不夠高,不能夠滿足目前計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中對(duì)發(fā)音質(zhì)量評(píng)價(jià)要求。本發(fā)明的目的 是克服現(xiàn)有技術(shù)的不足,提出一種用于計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)方法。本 發(fā)明中提出利用教師的參考語(yǔ)音和學(xué)生的測(cè)試語(yǔ)音分別從聲學(xué)、感知和韻律方面計(jì)算匹配分 數(shù)、感知分?jǐn)?shù)、段長(zhǎng)分?jǐn)?shù)、基音分?jǐn)?shù),并將所述這些分?jǐn)?shù)映射后進(jìn)行融合來(lái)對(duì)發(fā)音質(zhì)量進(jìn)行 評(píng)分的方法,針對(duì)單詞和短句子的機(jī)器發(fā)音質(zhì)量評(píng)分與專家主觀質(zhì)量評(píng)分的相關(guān)性能夠達(dá)到 0.800。本發(fā)明提出的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)方法主要包括計(jì)算匹配分?jǐn)?shù), 計(jì)算基于Mel頻標(biāo)的感知分?jǐn)?shù),計(jì)算基音分?jǐn)?shù),計(jì)算段長(zhǎng)分?jǐn)?shù);對(duì)所述匹配分?jǐn)?shù)、所述感知 分?jǐn)?shù)、所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行映射,并將映射后的各分?jǐn)?shù)進(jìn)行融合。該方法充分 利用語(yǔ)音發(fā)音中多種發(fā)音信息來(lái)獲得可靠融合分?jǐn)?shù),從而對(duì)學(xué)生的語(yǔ)音發(fā)音質(zhì)量進(jìn)行評(píng)價(jià)(打分)。其特征在于,各部分具體包括以下幾個(gè)步驟1、 所述匹配分?jǐn)?shù)、所述基于Md頻標(biāo)的感知分?jǐn)?shù)、所述基音分?jǐn)?shù)、所述段長(zhǎng)分?jǐn)?shù)的計(jì)算 方法,具體步驟如下(A) 所述匹配分?jǐn)?shù)的計(jì)算包括(1)利用Viterbi解碼算法分別對(duì)測(cè)試語(yǔ)音和參考語(yǔ)音 進(jìn)行強(qiáng)制對(duì)準(zhǔn),得到參考語(yǔ)音和測(cè)試語(yǔ)音的音素的時(shí)間分隔信息和似然度;(2)根據(jù)測(cè)試語(yǔ) 音和標(biāo)準(zhǔn)語(yǔ)音的似然度之差的絕對(duì)值得到匹配分?jǐn)?shù)。(B) 所述感知分?jǐn)?shù)的計(jì)算包括(1)對(duì)測(cè)試語(yǔ)音和參考語(yǔ)音施加Mel濾波器;(2)基于 冪定律,將參考語(yǔ)音和測(cè)試語(yǔ)音的Mel濾波器的能量輸出映射為響度;(3)基于所述音素時(shí) 間分隔信息,通過(guò)動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)方法將參考語(yǔ)音和測(cè)試語(yǔ) 音在音素層面上進(jìn)行進(jìn)一步的逐幀細(xì)化對(duì)準(zhǔn);(4)基于參考語(yǔ)音和測(cè)試語(yǔ)音各幀的響度差計(jì) 算感知分?jǐn)?shù)。(C) 所述段長(zhǎng)分?jǐn)?shù)的計(jì)算包括(1)基于所述時(shí)間分隔信息,利用段長(zhǎng)模型計(jì)算測(cè)試語(yǔ) 音和標(biāo)準(zhǔn)語(yǔ)音中的對(duì)數(shù)段長(zhǎng)概率;(2)根據(jù)測(cè)試語(yǔ)音的段長(zhǎng)概率與標(biāo)準(zhǔn)語(yǔ)音的段長(zhǎng)概率絕對(duì)值之差得到段長(zhǎng)分?jǐn)?shù)。(D) 所述基音分?jǐn)?shù)的計(jì)算包括(1)分別提取參考語(yǔ)音和測(cè)試語(yǔ)音的基音;(2)基于所 述時(shí)間分隔信息,分別得到參考語(yǔ)音和測(cè)試語(yǔ)音中每個(gè)元音內(nèi)基音的極大值和極小值,并計(jì) 算每個(gè)元音內(nèi)的極大值和極小值之差;(3)基于參考語(yǔ)音和測(cè)試語(yǔ)音中每個(gè)元音內(nèi)極大值和 極小值之差。2、 所述的分?jǐn)?shù)映射計(jì)算包括基于Sigmoid函數(shù)、多項(xiàng)式函數(shù)或線性函數(shù)中的一個(gè)對(duì)所述匹配分?jǐn)?shù)、所述感知分?jǐn)?shù)、所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行映射,使映射后分?jǐn)?shù)和專家 評(píng)分處于相同取值區(qū)間內(nèi)。3、 所述的分?jǐn)?shù)融合計(jì)算包括線性融合、支持矢量機(jī)(SVM)、 Logistic回歸(Logistic Regression)、神經(jīng)網(wǎng)絡(luò)、高斯混合模型中的一個(gè)對(duì)映射后的所述匹配分?jǐn)?shù)、所述感知分?jǐn)?shù)、 所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行融合,通過(guò)多種信息的互補(bǔ),使融合后分?jǐn)?shù)更接近專家評(píng) 價(jià)的分?jǐn)?shù)。所述的Viterbi解碼算法利用了從大規(guī)模語(yǔ)音數(shù)據(jù)庫(kù)訓(xùn)練的基于隱含馬爾可夫模型 (HMM)對(duì)測(cè)試語(yǔ)音和標(biāo)準(zhǔn)語(yǔ)音進(jìn)行強(qiáng)制對(duì)準(zhǔn),得到的參考語(yǔ)音和測(cè)試語(yǔ)音的時(shí)間分隔信息 可以是音素的時(shí)間分隔信息、狀態(tài)的時(shí)間分隔、單詞的時(shí)間分隔信息。音素的時(shí)間分隔信息 只是其中的一個(gè)。HMM模型的訓(xùn)練方法是根據(jù)最大似然準(zhǔn)則,對(duì)HMM模型參數(shù)(包均值 與方差)進(jìn)行估值。所述的段長(zhǎng)模型是通過(guò)大規(guī)模語(yǔ)音數(shù)據(jù)庫(kù)訓(xùn)練得到段長(zhǎng)的直方圖模型或Gamma模型。所述的逐幀細(xì)化對(duì)準(zhǔn)是在基于匹配分?jǐn)?shù)計(jì)算過(guò)程中得到的每個(gè)音素的時(shí)間分隔信息基礎(chǔ) 上,進(jìn)一步利用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)方法將參考語(yǔ)音和測(cè)試語(yǔ)音 的在音素層面上進(jìn)行逐幀細(xì)化對(duì)準(zhǔn),使對(duì)準(zhǔn)的語(yǔ)音在幀上有較好可比性。本發(fā)明提出計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)方法在對(duì)學(xué)習(xí)者的發(fā)音質(zhì)量進(jìn) 行評(píng)價(jià)時(shí),性能優(yōu)于現(xiàn)有技術(shù)的水平。本發(fā)明的發(fā)音質(zhì)量評(píng)價(jià)方法具有穩(wěn)健性好,與專家評(píng) 分相關(guān)性高的優(yōu)點(diǎn),可以用于語(yǔ)言學(xué)習(xí)機(jī)中實(shí)現(xiàn)交互式語(yǔ)言學(xué)習(xí)發(fā)音質(zhì)量評(píng)價(jià)和自動(dòng)口語(yǔ)測(cè) 試系統(tǒng)中。本發(fā)明具有如下優(yōu)點(diǎn)(1) 本發(fā)明充分利用了教師參考語(yǔ)音和學(xué)生測(cè)試語(yǔ)音發(fā)音差別特點(diǎn)進(jìn)行評(píng)價(jià);(2) 本發(fā)明提出的基于Mel頻標(biāo)的感知分?jǐn)?shù)計(jì)算復(fù)雜度低于基于臨界帶的感知分?jǐn)?shù)計(jì)算方 法,而且性能更好;(3) 本發(fā)明充分利用了發(fā)音中的多種評(píng)價(jià)信息,匹配信息、感知信息、段長(zhǎng)信息、基音信息, 并進(jìn)行了信息融合,在不同分?jǐn)?shù)將各種發(fā)音信息進(jìn)行互補(bǔ),提高了評(píng)價(jià)的穩(wěn)健性,以及 與專家評(píng)分的相關(guān)性;(4) 本發(fā)明的基于計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音評(píng)價(jià)方法也能夠應(yīng)用于多種語(yǔ)言的學(xué) 習(xí),具有穩(wěn)健性好,與專家評(píng)分相關(guān)性高的特點(diǎn),并且本發(fā)明可以在目前的掌上電腦、 個(gè)人數(shù)字助理(PDA)或?qū)W習(xí)機(jī)上實(shí)現(xiàn),其應(yīng)用范圍非常廣泛。
圖1是發(fā)音質(zhì)量評(píng)價(jià)方法的總體示意圖;圖2是匹配分?jǐn)?shù)的計(jì)算示意圖;圖3是HMM模型拓?fù)浣Y(jié)構(gòu);圖4是感知分?jǐn)?shù)的計(jì)算示意圖;圖5是段長(zhǎng)模型的計(jì)算示意圖圖6是基音分?jǐn)?shù)的計(jì)算示意圖;圖7機(jī)器分?jǐn)?shù)融合示意圖。
具體實(shí)施方式
以下結(jié)合附圖對(duì)本發(fā)明提出的用于計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)的發(fā)音質(zhì)量評(píng)價(jià)方法的實(shí)施例進(jìn)行詳細(xì)說(shuō)明。圖1是根據(jù)本發(fā)明的發(fā)音質(zhì)量評(píng)價(jià)方法的總體流程圖。(1)首先參考語(yǔ)音和測(cè) 試語(yǔ)音分別經(jīng)聲學(xué)模型、感知模型、段長(zhǎng)模型和基音模型計(jì)算出匹配分?jǐn)?shù)、感知分?jǐn)?shù)、段長(zhǎng) 分?jǐn)?shù)和基音分?jǐn)?shù)。(2)將這些分別描述聲學(xué)、感知和韻律等方面的發(fā)音質(zhì)量的分?jǐn)?shù)進(jìn)行分?jǐn)?shù) 融合。(3)用融合后的分?jǐn)?shù)對(duì)測(cè)試語(yǔ)音的發(fā)音質(zhì)量進(jìn)行評(píng)價(jià)。參考語(yǔ)音是指作為發(fā)音質(zhì)量評(píng)價(jià)的基準(zhǔn)的教師的標(biāo)準(zhǔn)發(fā)音,測(cè)試語(yǔ)音是指作為發(fā)音質(zhì)量 的評(píng)價(jià)對(duì)象的學(xué)習(xí)者的語(yǔ)音。因此,在本發(fā)明的發(fā)音質(zhì)量評(píng)價(jià)方法中,需要計(jì)算測(cè)試語(yǔ)音相 對(duì)于參考語(yǔ)音的發(fā)音在質(zhì)量上的差別。本發(fā)明實(shí)施例的整個(gè)計(jì)算過(guò)程細(xì)節(jié)構(gòu)成如下-1、匹配分?jǐn)?shù)計(jì)算圖2是匹配分?jǐn)?shù)的示意圖。首先分別對(duì)參考語(yǔ)音和測(cè)試語(yǔ)音進(jìn)行分幀處理,得到短時(shí)平 穩(wěn)的分幀語(yǔ)音。然后對(duì)每幀語(yǔ)音提取美爾頻標(biāo)倒譜系數(shù)(MFCC)特征。其中,對(duì)每幀語(yǔ)音 所提取的MFCC特征包括39維,目卩12維MFCC系數(shù)及其一階差分和二階差分,歸一化能 量及其一階差分和二階差分。MFCC特征反映了語(yǔ)音的靜態(tài)特征,而MFCC的一階和二階差 分系數(shù)則反映了語(yǔ)音的動(dòng)態(tài)特征。然后利用訓(xùn)練好的隱含馬爾可夫模型(HMM),采用Viterbi 解碼算法分別對(duì)參考語(yǔ)音和測(cè)試語(yǔ)音進(jìn)行強(qiáng)制對(duì)準(zhǔn),得到參考語(yǔ)音和測(cè)試語(yǔ)音的似然分?jǐn)?shù)和 每個(gè)音素的時(shí)間分隔信息。這里,HMM的訓(xùn)練過(guò)程對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō)屬于公知技術(shù), 因此這里只對(duì)其作簡(jiǎn)要的說(shuō)明。HMM采用從左到右的狀態(tài)轉(zhuǎn)移模型,該模型能夠很好地描 述語(yǔ)音的發(fā)音特點(diǎn)。例如可用采用3狀態(tài)隱含馬爾可夫模型,其拓?fù)浣Y(jié)構(gòu)如圖3所示。其中 qi表示HMM的狀態(tài), .表示HMM的跳轉(zhuǎn)概率,為HMM模型的狀態(tài)輸出的多流混合高斯密度概率分布函數(shù),如公式(1)所示<formula>formula see original document page 11</formula>(1)其中,5"是數(shù)據(jù)流的個(gè)數(shù),M,是每一數(shù)據(jù)流中的混合高斯密度分布的個(gè)數(shù),W為高維高斯分 布,如公式(2)所示<formula>formula see original document page 11</formula> (2)測(cè)試語(yǔ)音和參考語(yǔ)音是由多個(gè)音素構(gòu)成。分別對(duì)參考語(yǔ)音和測(cè)試語(yǔ)音進(jìn)行強(qiáng)制對(duì)準(zhǔn)后, 第z'個(gè)音素的匹配分?jǐn)?shù)i:(O由下式給出-<formula>formula see original document page 12</formula> (3)其中,/^(Owk.)是須iJ試語(yǔ)音的似然度,;v(^/k)是參考語(yǔ)音的似然度。其中,《,表 示第Z個(gè)音素HMM模型,化^和《《分別是測(cè)試語(yǔ)音和參考語(yǔ)音的MFCC特征矢量。 匹配分?jǐn)?shù)定義為音素平均匹配分?jǐn)?shù)<formula>formula see original document page 12</formula>(4)其中,Wp為語(yǔ)音發(fā)音中音素總個(gè)數(shù),"O為第!'個(gè)音素的匹配分?jǐn)?shù)。2、感知分?jǐn)?shù)計(jì)算-圖4是感知分?jǐn)?shù)的計(jì)算示意圖。首先分別對(duì)參考語(yǔ)音和測(cè)試語(yǔ)音分幀并加Haming窗。 然后將每一幀語(yǔ)音經(jīng)過(guò)在Mel頻標(biāo)上均勻分布的三角窗濾波器,得到每個(gè)三角窗濾波器輸出的能量和的對(duì)數(shù)值MfW-<formula>formula see original document page 12</formula>(5)9 = 1,2,3…,2其中,i^是第g個(gè)三角窗濾波器的中心頻率,&+,和巧—,分別為第《個(gè)三角窗濾波器的上、下截止頻率,GfH)為三角窗函數(shù),2為三角窗濾波器的個(gè)數(shù)。通常&20 26。根據(jù)心理學(xué)中的冪定律,將每個(gè)三角窗濾波器輸出的對(duì)數(shù)能量可以映射到響度域上,計(jì) 算如下式所示<formula>formula see original document page 12</formula>(6)其中,M(《)是第《個(gè)濾波器輸出的對(duì)數(shù)能量,丄(g)是M(《)映射到感知域的響度。在基于所述匹配分?jǐn)?shù)計(jì)算過(guò)程中得到的每個(gè)音素的時(shí)間分隔對(duì)準(zhǔn)信息基礎(chǔ)上,進(jìn)一步利 用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)方法將參考語(yǔ)音和測(cè)試語(yǔ)音的在音素層面 上進(jìn)一步逐幀細(xì)化對(duì)準(zhǔn)。這里,DTW方法對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō)屬于公知技術(shù),因此略去 對(duì)其的說(shuō)明。利用DTW算法對(duì)參考語(yǔ)音和測(cè)試語(yǔ)音每幀進(jìn)行對(duì)準(zhǔn)后,就可以計(jì)算在每個(gè)三角窗輸出的"1,2,3,…々 (7)其中,(《)和~(《)分別表示測(cè)試語(yǔ)音和參考語(yǔ)音在第《個(gè)三角窗濾波器上輸出的響度。求出每個(gè)三角窗濾波器輸出的響度差后,需要進(jìn)一步計(jì)算整個(gè)Mel頻帶上的總響度差, 也就是要計(jì)算每幀語(yǔ)音的響度差。 一幀語(yǔ)音的響度可以通過(guò)對(duì)整個(gè)Mel頻帶上所有三角窗輸出的響度差進(jìn)行加權(quán)求和得到。參考語(yǔ)音和測(cè)試語(yǔ)音的第y幀語(yǔ)音的響度差;v。meC/)為E物)(8)其中,"(《)為參考語(yǔ)音和測(cè)試語(yǔ)音在第《個(gè)臨界帶內(nèi)的響度差,『(g)為第《個(gè)三角濾波器 的帶寬。音素的感知分?jǐn)?shù)定義為參考語(yǔ)音和測(cè)試語(yǔ)音的幀平均響度差p"卿=、其中,W為參考語(yǔ)音和測(cè)試語(yǔ)音中較長(zhǎng)語(yǔ)音對(duì)應(yīng)音素的幀數(shù),/^_(7')為第_/幀的響度差。因此,整個(gè)語(yǔ)音發(fā)音的感知分?jǐn)?shù)p。 ^為發(fā)音中所有音素響度差的平均值1 PP, = i J (0 (io)其中,A^為整個(gè)語(yǔ)音發(fā)音中音素總個(gè)數(shù)。 3、段長(zhǎng)分?jǐn)?shù)計(jì)算圖5是段長(zhǎng)分?jǐn)?shù)的計(jì)算示意圖?;谄ヅ浞?jǐn)?shù)計(jì)算中得到的每個(gè)音素的時(shí)間分隔信息, 并利用段長(zhǎng)模型分別計(jì)算參考語(yǔ)音和測(cè)試語(yǔ)音各個(gè)音素的段長(zhǎng)概率分?jǐn)?shù)。計(jì)算段長(zhǎng)概率分?jǐn)?shù) 時(shí)所采用的段長(zhǎng)模型可以是直方圖模型或者Gamma模型。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),這屬 于公知技術(shù)。因此,略去對(duì)其的詳細(xì)說(shuō)明。音素的段長(zhǎng)分?jǐn)?shù)^"e定義為測(cè)試語(yǔ)音和參考語(yǔ)音段長(zhǎng)概率分?jǐn)?shù)的對(duì)數(shù)差^哪—丄OgA",—丄OgAe,l (11)其中^U為測(cè)試語(yǔ)音的相應(yīng)音素的段長(zhǎng)概率分?jǐn)?shù),"^為參考語(yǔ)音相應(yīng)音素的段長(zhǎng)概率分?jǐn)?shù)。整個(gè)語(yǔ)音發(fā)音的段長(zhǎng)分?jǐn)?shù)《。 定義為所有音素段長(zhǎng)分?jǐn)?shù)的平均值1 "細(xì)=^2]"/*^(0 (12)4、基音分?jǐn)?shù)計(jì)算-圖6是基音分?jǐn)?shù)的計(jì)算示意圖。首先,分別提取參考語(yǔ)音和測(cè)試語(yǔ)音的基音?,F(xiàn)有技術(shù) 中已有多種基音提取方法。綜合考慮算法復(fù)雜度、魯棒性、基音估計(jì)的準(zhǔn)確性等因素,本文 采用基于線性預(yù)測(cè)編碼的LPC分析的自相關(guān)估計(jì)算法。然后結(jié)合匹配分?jǐn)?shù)計(jì)算中得到的每個(gè) 音素的時(shí)間分隔信息,分別計(jì)算參考語(yǔ)音和測(cè)試語(yǔ)音中每個(gè)元音內(nèi)的基音極大值和極小值之 差,即元音內(nèi)的基音極值差定義為HU) —P』(13)其中尸n^(0和尸^(Z')分別表示第Z'個(gè)元音內(nèi)的基音的極大值和極小值,基音分?jǐn)?shù)i ,— ^—定義為丄w,■^v。w—max_min - :1 Sv。w(0*^v。w(0 I(14)其中K為句子中的元音總數(shù),^::(o為測(cè)試語(yǔ)音中第z'個(gè)元音內(nèi)的基音極值差,《::(o為參考語(yǔ)音中第i個(gè)元音內(nèi)的基音極值差。 5、分?jǐn)?shù)映射和分?jǐn)?shù)融合 圖7是分?jǐn)?shù)映射和融合計(jì)算示意圖。圖中先對(duì)機(jī)器分?jǐn)?shù)進(jìn)行映射,然后采用線性加權(quán)或者SVM對(duì)映射后的機(jī)器分?jǐn)?shù)進(jìn)行融合,得到最終的客觀分?jǐn)?shù)。(1)機(jī)器分?jǐn)?shù)的映射方法在分別計(jì)算出匹配分?jǐn)?shù)、感知分?jǐn)?shù)、段長(zhǎng)分?jǐn)?shù)和基音分?jǐn)?shù)之后,需要將這四個(gè)分?jǐn)?shù)首先進(jìn)行分?jǐn)?shù)映射。不同方法得出的機(jī)器分?jǐn)?shù)的取值區(qū)間通常并不相 同。因此需要利用映射函數(shù)將機(jī)器分?jǐn)?shù)映射到與專家評(píng)分相一致的對(duì)應(yīng)區(qū)間內(nèi)。可以基于Sigmoid函數(shù)、多項(xiàng)式函數(shù)或線性函數(shù)中的一個(gè)對(duì)所述匹配分?jǐn)?shù)、所述感知分?jǐn)?shù)、所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行映射。最簡(jiǎn)單有效的映射方法可以采用三次多項(xiàng)式函數(shù)進(jìn)行映射。映 射中優(yōu)化準(zhǔn)則為最小均方誤差準(zhǔn)則,通過(guò)映射函數(shù)將機(jī)器分?jǐn)?shù)映射到專家評(píng)分取值區(qū)間。<formula>formula see original document page 15</formula>(15)其中,x為原始機(jī)器分?jǐn)?shù),y為映射后的機(jī)器分?jǐn)?shù),ai, a2, ^和A為多項(xiàng)式系數(shù)。(2)分?jǐn)?shù)融合的方法現(xiàn)有信號(hào)技術(shù)中存在多種信息融合處理方法,例如可以采用線性 函數(shù)、神經(jīng)網(wǎng)絡(luò)、高斯混合模型、支持向量機(jī)、Logistic回歸,以及其他適于對(duì)多種不同分 數(shù)進(jìn)行融合的方法。本發(fā)明主要采用線性函數(shù)和支持向量機(jī)對(duì)上述匹配分?jǐn)?shù)、感知分?jǐn)?shù)、段 長(zhǎng)分?jǐn)?shù)和基音分?jǐn)?shù)進(jìn)行融合。如果機(jī)器分?jǐn)?shù)和專家評(píng)分都可以看作聯(lián)合分布的高斯隨機(jī)變量,或者二者之間存在線 性關(guān)系,那么融合后的分?jǐn)?shù)可以表示為機(jī)器分?jǐn)?shù)的線性組合<formula>formula see original document page 15</formula>(16)其中,^&,…, 表示各個(gè)機(jī)器分?jǐn)?shù),A,^,…,"。為組合系數(shù)。這些組合系數(shù)可以由開(kāi)發(fā)集數(shù)據(jù)根據(jù)最小均方誤差準(zhǔn)則確定。SVM的融合方法有通用的軟件工具可以使用,基于SVM的融合在性能上由于線性融合 的方法。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō)SVM融合方法屬于公知技術(shù),因此略去對(duì)其的說(shuō)明。在發(fā)音質(zhì)量的評(píng)價(jià)中,通常用計(jì)算機(jī)對(duì)發(fā)音質(zhì)量進(jìn)行自動(dòng)評(píng)價(jià)而得到的分?jǐn)?shù)(通常稱 為機(jī)器分?jǐn)?shù))與專家對(duì)同一發(fā)音的評(píng)價(jià)分?jǐn)?shù)之間的相關(guān)系數(shù)來(lái)表示發(fā)音質(zhì)量評(píng)價(jià)方法的性能, 如式(17)所示。通常,相關(guān)系數(shù)越高,說(shuō)明機(jī)器分?jǐn)?shù)越接近專家的分?jǐn)?shù),從而性能越好。<formula>formula see original document page 15</formula>(17)其中《.和乃分別是第個(gè)單詞或語(yǔ)句的機(jī)器評(píng)價(jià)分?jǐn)?shù)和相應(yīng)專家評(píng)價(jià)分?jǐn)?shù),;和;分別是 所有測(cè)試語(yǔ)音的機(jī)器評(píng)價(jià)分?jǐn)?shù)的均值和專家評(píng)價(jià)評(píng)分的均值。該評(píng)價(jià)過(guò)程需要采集有一定規(guī)模的評(píng)價(jià)語(yǔ)音庫(kù),首先請(qǐng)專家對(duì)庫(kù)中語(yǔ)音進(jìn)行主觀評(píng)價(jià), 然后用機(jī)器進(jìn)行評(píng)價(jià)。通過(guò)公式(7)進(jìn)行計(jì)算機(jī)器評(píng)價(jià)和專家評(píng)價(jià)之間的相關(guān)度。本發(fā)明針 對(duì)單詞和短句的發(fā)音質(zhì)量機(jī)器評(píng)價(jià)分?jǐn)?shù)與專家評(píng)分的相關(guān)系數(shù)達(dá)到0.800,其性能優(yōu)于基于 HMM的傳統(tǒng)評(píng)價(jià)方法。
權(quán)利要求
1、本發(fā)明提出的一種計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法,包括匹配分?jǐn)?shù)計(jì)算、基于美爾(Mel)頻標(biāo)的聽(tīng)感知分?jǐn)?shù)計(jì)算、基音分?jǐn)?shù)計(jì)算、分?jǐn)?shù)映射、分?jǐn)?shù)融合各部分,具體計(jì)算包括以下步驟步驟(1)首先分別對(duì)參考語(yǔ)音和測(cè)試語(yǔ)音分別進(jìn)行分幀處理,得到短時(shí)平穩(wěn)的分幀語(yǔ)音;步驟(2)按照以下步驟分別計(jì)算步驟(1)中所述的分幀的參考語(yǔ)音和測(cè)試語(yǔ)音的匹配似然分?jǐn)?shù);步驟(2.1)分別對(duì)所述分幀的參考語(yǔ)音和測(cè)試語(yǔ)音每幀提取美爾頻標(biāo)倒譜系數(shù)(MFCC)特征,共39維特征,其中包括12維MFCC系數(shù)及其一階差分和二階差分,歸一化能量及其一階差分和二階差分;步驟(2.2)利用預(yù)先訓(xùn)練好的隱含馬爾可夫模型(HMM),采用維特比(Viterbi)解碼算法分別對(duì)步驟(2.1)輸入的參考語(yǔ)音和測(cè)試語(yǔ)音進(jìn)行強(qiáng)制對(duì)準(zhǔn),分別得到參考語(yǔ)音和測(cè)試語(yǔ)音的似然度,以及語(yǔ)音中每個(gè)音素的時(shí)間分隔信息;步驟(2.3)按照以下公式計(jì)算第i個(gè)音素的匹配分?jǐn)?shù)L(i) L(i)=|log(ptext(Otest|qi))-log(pref(Oref|qi))|其中,ptest(Otest|qi)是測(cè)試語(yǔ)音的似然度,pref(Oref|qi)是參考語(yǔ)音的似然度。其中,中,qi表示第i個(gè)音素HMM模型,Otest和Oref分別是測(cè)試語(yǔ)音和參考語(yǔ)音的MFCC特征矢量。步驟(2.4)按照以下公式計(jì)算音素平均匹配分?jǐn)?shù),并依次作為語(yǔ)音發(fā)音的匹配分?jǐn)?shù)Smat_sen
2、 如權(quán)利要求1所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法,其特征在于 利用傳統(tǒng)HMM方法進(jìn)行時(shí)間對(duì)準(zhǔn)和匹配分?jǐn)?shù)計(jì)算;利用Viterbi解碼算法分別對(duì)參考語(yǔ)音和 測(cè)試語(yǔ)音進(jìn)行強(qiáng)制對(duì)準(zhǔn),分別得到的參考語(yǔ)音和測(cè)試語(yǔ)音的時(shí)間分隔信息,包括狀態(tài)的時(shí)間 分隔、音素的時(shí)間分隔信息、單詞的時(shí)間分隔信息。
3、 如權(quán)利要求l所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法,其特征在于 提出了基于Mel頻標(biāo)的聽(tīng)感知域分?jǐn)?shù)計(jì)算方法,該方法不同于傳統(tǒng)的基于臨界帶感知分?jǐn)?shù)計(jì) 算方法,新方法在計(jì)算上復(fù)雜度低,性能上都優(yōu)于基于臨界帶的聽(tīng)感知分?jǐn)?shù)計(jì)算方法。
4、 如權(quán)利要求l所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法,其特征在于 提出利用教師參考語(yǔ)音作為發(fā)音質(zhì)量評(píng)價(jià)參考模板,該方法不同于傳統(tǒng)基于大規(guī)模訓(xùn)練語(yǔ)音 庫(kù)的HMM模型分?jǐn)?shù)匹配方法,新方法充分利用教師的參考語(yǔ)音信息,有利于發(fā)音中高層信 息評(píng)價(jià)。
5、 如權(quán)利要求l所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法,其特征在于 在基于匹配分?jǐn)?shù)計(jì)算過(guò)程中得到的每個(gè)音素的時(shí)間分隔對(duì)準(zhǔn)信息基礎(chǔ)上,進(jìn)一步利用動(dòng)態(tài)時(shí) 間規(guī)整(Dynamic Time Warping, DTW)方法將參考語(yǔ)音和測(cè)試語(yǔ)音的在音素層面上逐幀對(duì)準(zhǔn),使對(duì)準(zhǔn)的語(yǔ)音在幀上有較好可比性。
6、 如權(quán)利要求l所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法,其特征在于 所述段長(zhǎng)模型是段長(zhǎng)的直方圖模型或Gamma模型,段長(zhǎng)分?jǐn)?shù)是根據(jù)測(cè)試語(yǔ)音的段長(zhǎng)概率與 標(biāo)準(zhǔn)語(yǔ)音的段長(zhǎng)概率絕對(duì)值之差得到。
7、 如權(quán)利要求l所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法,其特征在于 所述基音分?jǐn)?shù)是基于參考語(yǔ)音和測(cè)試語(yǔ)音中每個(gè)元音內(nèi)極大值和極小值之差計(jì)算得到。
8、 如權(quán)利要求1所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法,其特征在于 利用語(yǔ)音發(fā)音中的多種機(jī)器評(píng)價(jià)分?jǐn)?shù),并采用基于Sigmoid函數(shù)、多項(xiàng)式函數(shù)或線性函數(shù)中 的一個(gè)對(duì)所述匹配分?jǐn)?shù)、所述感知分?jǐn)?shù)、所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行映射,使映射后 分?jǐn)?shù)和專家評(píng)分處于相同取值區(qū)間內(nèi)。
9、 如權(quán)利要求l所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法,其特征在于 對(duì)映射后的所述感知分?jǐn)?shù)、所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行融合;采用線性融合、支持矢 量機(jī)(SVM)、 Logistic回歸(Logistic Regression),神經(jīng)網(wǎng)絡(luò)、高斯混合模型中的一個(gè)對(duì)映 射后所述匹配分?jǐn)?shù)、所述感知分?jǐn)?shù)、所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行分?jǐn)?shù)融合。
10、 如權(quán)利要求1所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法,其特征在 于本發(fā)明對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),可以對(duì)本發(fā)明要求1描述的計(jì)算步驟進(jìn)行一些小的修改 和變型,在不背離本發(fā)明的精神和范圍的情況下,本發(fā)明亦涵蓋這些修改和變型。
全文摘要
本發(fā)明屬于語(yǔ)音技術(shù)領(lǐng)域,計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)方法包括匹配分?jǐn)?shù)的計(jì)算、基于美爾(Mel)頻標(biāo)的感知分?jǐn)?shù)的計(jì)算、段長(zhǎng)分?jǐn)?shù)的計(jì)算和基音分?jǐn)?shù)的計(jì)算,并將上述分?jǐn)?shù)映射后進(jìn)行融合;本發(fā)明的發(fā)音質(zhì)量評(píng)價(jià)方法具有穩(wěn)健性好,與專家評(píng)分相關(guān)性高的優(yōu)點(diǎn),可以用于交互式語(yǔ)言學(xué)習(xí)和自動(dòng)口語(yǔ)測(cè)試。
文檔編號(hào)G10L11/00GK101246685SQ20081010207
公開(kāi)日2008年8月20日 申請(qǐng)日期2008年3月17日 優(yōu)先權(quán)日2008年3月17日
發(fā)明者加 劉 申請(qǐng)人:清華大學(xué)