計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)方法

文檔序號(hào)：2830865閱讀：758來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)方法
技術(shù)領(lǐng)域：
本發(fā)明屬于語(yǔ)音技術(shù)領(lǐng)域，具體地說(shuō)，涉及利用語(yǔ)音信號(hào)處理技術(shù)實(shí)現(xiàn)計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)的方法。
背景技術(shù)：
在學(xué)習(xí)者進(jìn)行語(yǔ)言學(xué)習(xí)時(shí)，對(duì)其發(fā)音質(zhì)量進(jìn)行可靠的評(píng)價(jià)是計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)的核心功能。然而由于現(xiàn)有技術(shù)的局限，目前的發(fā)音質(zhì)量評(píng)價(jià)方法的性能還不夠理想，距離實(shí) 用化還有一定的差距。當(dāng)前，利用計(jì)算機(jī)對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)價(jià)的方法主要是基于隱含馬爾可夫模型(HMM)。中國(guó)發(fā)明專利申請(qǐng)第200510114848.8號(hào)公開(kāi)了一種用于學(xué)習(xí)機(jī)的發(fā)音質(zhì)量評(píng)價(jià)方法。該方法采用隱含馬爾可夫模型訓(xùn)練標(biāo)準(zhǔn)發(fā)音模型，并搜索最優(yōu)路徑，以此計(jì)算用來(lái)評(píng)價(jià)發(fā)音質(zhì)量的置信分?jǐn)?shù)。這種方法過(guò)多依賴于隱含馬爾可夫模型的訓(xùn)練，并且在影響發(fā)音質(zhì)量的多個(gè)因素中，僅基于與聲學(xué)模型有關(guān)的因素來(lái)評(píng)價(jià)發(fā)音質(zhì)量，因此與專家評(píng)分的相關(guān)性還不夠高，對(duì) 單詞和短句發(fā)音機(jī)器評(píng)分和專家評(píng)分的相關(guān)性僅為0.74。在通信系統(tǒng)中也涉及語(yǔ)音質(zhì)量的評(píng)價(jià)。ITU-T P.862中公開(kāi)了一種用于電話信道的語(yǔ)音質(zhì) 量評(píng)價(jià)方法。首先將參考語(yǔ)音通過(guò)電話信道得到測(cè)試語(yǔ)音。然后將參考語(yǔ)音和測(cè)試語(yǔ)音映射到感知域，精確估計(jì)出測(cè)試語(yǔ)音相對(duì)于參考語(yǔ)音的延時(shí)，最后在感知域計(jì)算測(cè)試語(yǔ)音相對(duì)于參考語(yǔ)音的感知差異，并以此來(lái)評(píng)價(jià)測(cè)試語(yǔ)音的語(yǔ)音質(zhì)量。然而，通信系統(tǒng)中的語(yǔ)音質(zhì)量評(píng)價(jià)方法和計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)有所不同。首先，在語(yǔ)音通信系統(tǒng)中，影響語(yǔ)音質(zhì)量的因素一般是電話信道、編解碼器引起的各種噪音對(duì)語(yǔ)音的損傷以及網(wǎng)絡(luò)對(duì)語(yǔ)音的延時(shí)。參考語(yǔ)音和測(cè)試語(yǔ)音都是同一個(gè)說(shuō)話人的同一-句語(yǔ)音，因此如果不考慮延時(shí)，測(cè)試語(yǔ)音中的各個(gè)音素一般不會(huì)有段長(zhǎng)的變化。一個(gè)人語(yǔ) 音發(fā)音是否正確對(duì)通信系統(tǒng)的語(yǔ)音質(zhì)量評(píng)價(jià)過(guò)程不會(huì)產(chǎn)生影響。而在計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中，影響發(fā)音質(zhì)量的因素比較復(fù)雜。學(xué)習(xí)者的測(cè)試語(yǔ)音的失真是由于發(fā)音不準(zhǔn)確造成的，和噪聲沒(méi)有多大關(guān)系。并且如果將教師的發(fā)音作為參考語(yǔ)音，學(xué)習(xí)者的語(yǔ)音作為測(cè)試語(yǔ)音，來(lái)考察測(cè)試語(yǔ)音相對(duì)于參考語(yǔ)音的發(fā)音質(zhì)量。那么參考語(yǔ)音和測(cè)試語(yǔ)音來(lái)自不同的說(shuō)話人，導(dǎo)致測(cè)試語(yǔ)音和參考語(yǔ)音的長(zhǎng)度不同，并且這一語(yǔ)音長(zhǎng)度的差異不是延時(shí)造成的，因此無(wú)法直接對(duì)準(zhǔn)。其次，不同說(shuō)話人的聲道長(zhǎng)度不同，導(dǎo)致測(cè)試語(yǔ)音和參考語(yǔ)音中同一音素的共振峰不完全一樣。另外，兩個(gè)說(shuō)話人語(yǔ)音中的韻律變化也有所不同，其直接表現(xiàn)就是測(cè)試語(yǔ)音和參考語(yǔ)音的重音變化。兩個(gè)人的基音也不相同，對(duì)應(yīng)基音變化過(guò)程也有比較大的差異。計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)應(yīng)盡可能模仿專家對(duì)發(fā)音質(zhì)量評(píng)價(jià)的過(guò)程。通常，專家對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)價(jià)的過(guò)程可以劃分為三個(gè)步驟。首先，通過(guò)耳機(jī)或者音箱聆聽(tīng)測(cè)試語(yǔ)音。然后，大腦對(duì)感知到的語(yǔ)音進(jìn)行處理，并根據(jù)自己的語(yǔ)音學(xué)和語(yǔ)言學(xué)知識(shí)，將參考語(yǔ)音和測(cè)試語(yǔ)音進(jìn)行對(duì)比，發(fā)現(xiàn)測(cè)試語(yǔ)音在各個(gè)層次(例如聲學(xué)層和韻律層)上的發(fā)音錯(cuò)誤和失真。最后，綜合上述各種失真，給出測(cè)試語(yǔ)音的總體評(píng)價(jià)?？梢?jiàn)，對(duì)發(fā)音質(zhì)量的感知與發(fā)音質(zhì)量評(píng)價(jià)的結(jié)果密切相關(guān)。而現(xiàn)有技術(shù)未能在韻律層次上對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)價(jià)，并且缺乏對(duì)發(fā)音質(zhì)量的感知失真方面的研究。本發(fā)明針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題，提出一種計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng) 價(jià)方法。該方法以教師的發(fā)音作為參考語(yǔ)音，分別在聲學(xué)、感知和韻律方面計(jì)算學(xué)習(xí)者的測(cè) 試語(yǔ)音相對(duì)于參考語(yǔ)音的發(fā)音質(zhì)量差別，得到匹配分?jǐn)?shù)、感知分?jǐn)?shù)、段長(zhǎng)分?jǐn)?shù)和基音分?jǐn)?shù)，并對(duì)所述四種分?jǐn)?shù)進(jìn)行融合，得到測(cè)試語(yǔ)音的最終分?jǐn)?shù)。根據(jù)本發(fā)明針對(duì)單詞和短句的發(fā)音質(zhì)量評(píng)價(jià)分?jǐn)?shù)與專家評(píng)分的相關(guān)系數(shù)達(dá)到0.800，性能優(yōu)于基于現(xiàn)有技術(shù)的方法。發(fā)明內(nèi)容目前基于隱含馬爾可夫模型的發(fā)音質(zhì)量評(píng)價(jià)方法獲得機(jī)器評(píng)價(jià)分?jǐn)?shù)與專家評(píng)分的相關(guān)性還不夠高，不能夠滿足目前計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中對(duì)發(fā)音質(zhì)量評(píng)價(jià)要求。本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足，提出一種用于計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)方法。本發(fā)明中提出利用教師的參考語(yǔ)音和學(xué)生的測(cè)試語(yǔ)音分別從聲學(xué)、感知和韻律方面計(jì)算匹配分數(shù)、感知分?jǐn)?shù)、段長(zhǎng)分?jǐn)?shù)、基音分?jǐn)?shù)，并將所述這些分?jǐn)?shù)映射后進(jìn)行融合來(lái)對(duì)發(fā)音質(zhì)量進(jìn)行評(píng)分的方法，針對(duì)單詞和短句子的機(jī)器發(fā)音質(zhì)量評(píng)分與專家主觀質(zhì)量評(píng)分的相關(guān)性能夠達(dá)到 0.800。本發(fā)明提出的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)方法主要包括計(jì)算匹配分?jǐn)?shù)，計(jì)算基于Mel頻標(biāo)的感知分?jǐn)?shù)，計(jì)算基音分?jǐn)?shù)，計(jì)算段長(zhǎng)分?jǐn)?shù)；對(duì)所述匹配分?jǐn)?shù)、所述感知分?jǐn)?shù)、所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行映射，并將映射后的各分?jǐn)?shù)進(jìn)行融合。該方法充分利用語(yǔ)音發(fā)音中多種發(fā)音信息來(lái)獲得可靠融合分?jǐn)?shù)，從而對(duì)學(xué)生的語(yǔ)音發(fā)音質(zhì)量進(jìn)行評(píng)價(jià)(打分)。其特征在于，各部分具體包括以下幾個(gè)步驟1、所述匹配分?jǐn)?shù)、所述基于Md頻標(biāo)的感知分?jǐn)?shù)、所述基音分?jǐn)?shù)、所述段長(zhǎng)分?jǐn)?shù)的計(jì)算方法，具體步驟如下(A) 所述匹配分?jǐn)?shù)的計(jì)算包括(1)利用Viterbi解碼算法分別對(duì)測(cè)試語(yǔ)音和參考語(yǔ)音進(jìn)行強(qiáng)制對(duì)準(zhǔn)，得到參考語(yǔ)音和測(cè)試語(yǔ)音的音素的時(shí)間分隔信息和似然度；(2)根據(jù)測(cè)試語(yǔ) 音和標(biāo)準(zhǔn)語(yǔ)音的似然度之差的絕對(duì)值得到匹配分?jǐn)?shù)。(B) 所述感知分?jǐn)?shù)的計(jì)算包括(1)對(duì)測(cè)試語(yǔ)音和參考語(yǔ)音施加Mel濾波器；(2)基于冪定律，將參考語(yǔ)音和測(cè)試語(yǔ)音的Mel濾波器的能量輸出映射為響度；(3)基于所述音素時(shí) 間分隔信息，通過(guò)動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping， DTW)方法將參考語(yǔ)音和測(cè)試語(yǔ) 音在音素層面上進(jìn)行進(jìn)一步的逐幀細(xì)化對(duì)準(zhǔn)；(4)基于參考語(yǔ)音和測(cè)試語(yǔ)音各幀的響度差計(jì) 算感知分?jǐn)?shù)。(C) 所述段長(zhǎng)分?jǐn)?shù)的計(jì)算包括(1)基于所述時(shí)間分隔信息，利用段長(zhǎng)模型計(jì)算測(cè)試語(yǔ) 音和標(biāo)準(zhǔn)語(yǔ)音中的對(duì)數(shù)段長(zhǎng)概率；(2)根據(jù)測(cè)試語(yǔ)音的段長(zhǎng)概率與標(biāo)準(zhǔn)語(yǔ)音的段長(zhǎng)概率絕對(duì)值之差得到段長(zhǎng)分?jǐn)?shù)。(D) 所述基音分?jǐn)?shù)的計(jì)算包括(1)分別提取參考語(yǔ)音和測(cè)試語(yǔ)音的基音；(2)基于所述時(shí)間分隔信息，分別得到參考語(yǔ)音和測(cè)試語(yǔ)音中每個(gè)元音內(nèi)基音的極大值和極小值，并計(jì) 算每個(gè)元音內(nèi)的極大值和極小值之差；(3)基于參考語(yǔ)音和測(cè)試語(yǔ)音中每個(gè)元音內(nèi)極大值和極小值之差。2、所述的分?jǐn)?shù)映射計(jì)算包括基于Sigmoid函數(shù)、多項(xiàng)式函數(shù)或線性函數(shù)中的一個(gè)對(duì)所述匹配分?jǐn)?shù)、所述感知分?jǐn)?shù)、所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行映射，使映射后分?jǐn)?shù)和專家評(píng)分處于相同取值區(qū)間內(nèi)。3、所述的分?jǐn)?shù)融合計(jì)算包括線性融合、支持矢量機(jī)(SVM)、 Logistic回歸(Logistic Regression)、神經(jīng)網(wǎng)絡(luò)、高斯混合模型中的一個(gè)對(duì)映射后的所述匹配分?jǐn)?shù)、所述感知分?jǐn)?shù)、所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行融合，通過(guò)多種信息的互補(bǔ)，使融合后分?jǐn)?shù)更接近專家評(píng) 價(jià)的分?jǐn)?shù)。所述的Viterbi解碼算法利用了從大規(guī)模語(yǔ)音數(shù)據(jù)庫(kù)訓(xùn)練的基于隱含馬爾可夫模型 (HMM)對(duì)測(cè)試語(yǔ)音和標(biāo)準(zhǔn)語(yǔ)音進(jìn)行強(qiáng)制對(duì)準(zhǔn)，得到的參考語(yǔ)音和測(cè)試語(yǔ)音的時(shí)間分隔信息可以是音素的時(shí)間分隔信息、狀態(tài)的時(shí)間分隔、單詞的時(shí)間分隔信息。音素的時(shí)間分隔信息只是其中的一個(gè)。HMM模型的訓(xùn)練方法是根據(jù)最大似然準(zhǔn)則，對(duì)HMM模型參數(shù)(包均值與方差)進(jìn)行估值。所述的段長(zhǎng)模型是通過(guò)大規(guī)模語(yǔ)音數(shù)據(jù)庫(kù)訓(xùn)練得到段長(zhǎng)的直方圖模型或Gamma模型。所述的逐幀細(xì)化對(duì)準(zhǔn)是在基于匹配分?jǐn)?shù)計(jì)算過(guò)程中得到的每個(gè)音素的時(shí)間分隔信息基礎(chǔ) 上，進(jìn)一步利用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping， DTW)方法將參考語(yǔ)音和測(cè)試語(yǔ)音的在音素層面上進(jìn)行逐幀細(xì)化對(duì)準(zhǔn)，使對(duì)準(zhǔn)的語(yǔ)音在幀上有較好可比性。本發(fā)明提出計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)方法在對(duì)學(xué)習(xí)者的發(fā)音質(zhì)量進(jìn) 行評(píng)價(jià)時(shí)，性能優(yōu)于現(xiàn)有技術(shù)的水平。本發(fā)明的發(fā)音質(zhì)量評(píng)價(jià)方法具有穩(wěn)健性好，與專家評(píng) 分相關(guān)性高的優(yōu)點(diǎn)，可以用于語(yǔ)言學(xué)習(xí)機(jī)中實(shí)現(xiàn)交互式語(yǔ)言學(xué)習(xí)發(fā)音質(zhì)量評(píng)價(jià)和自動(dòng)口語(yǔ)測(cè) 試系統(tǒng)中。本發(fā)明具有如下優(yōu)點(diǎn)(1) 本發(fā)明充分利用了教師參考語(yǔ)音和學(xué)生測(cè)試語(yǔ)音發(fā)音差別特點(diǎn)進(jìn)行評(píng)價(jià)；(2) 本發(fā)明提出的基于Mel頻標(biāo)的感知分?jǐn)?shù)計(jì)算復(fù)雜度低于基于臨界帶的感知分?jǐn)?shù)計(jì)算方法，而且性能更好；(3) 本發(fā)明充分利用了發(fā)音中的多種評(píng)價(jià)信息，匹配信息、感知信息、段長(zhǎng)信息、基音信息，并進(jìn)行了信息融合，在不同分?jǐn)?shù)將各種發(fā)音信息進(jìn)行互補(bǔ)，提高了評(píng)價(jià)的穩(wěn)健性，以及與專家評(píng)分的相關(guān)性；(4) 本發(fā)明的基于計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音評(píng)價(jià)方法也能夠應(yīng)用于多種語(yǔ)言的學(xué) 習(xí)，具有穩(wěn)健性好，與專家評(píng)分相關(guān)性高的特點(diǎn)，并且本發(fā)明可以在目前的掌上電腦、個(gè)人數(shù)字助理(PDA)或?qū)W習(xí)機(jī)上實(shí)現(xiàn)，其應(yīng)用范圍非常廣泛。

圖1是發(fā)音質(zhì)量評(píng)價(jià)方法的總體示意圖；圖2是匹配分?jǐn)?shù)的計(jì)算示意圖；圖3是HMM模型拓?fù)浣Y(jié)構(gòu)；圖4是感知分?jǐn)?shù)的計(jì)算示意圖；圖5是段長(zhǎng)模型的計(jì)算示意圖圖6是基音分?jǐn)?shù)的計(jì)算示意圖；圖7機(jī)器分?jǐn)?shù)融合示意圖。
具體實(shí)施方式
以下結(jié)合附圖對(duì)本發(fā)明提出的用于計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)的發(fā)音質(zhì)量評(píng)價(jià)方法的實(shí)施例進(jìn)行詳細(xì)說(shuō)明。圖1是根據(jù)本發(fā)明的發(fā)音質(zhì)量評(píng)價(jià)方法的總體流程圖。(1)首先參考語(yǔ)音和測(cè) 試語(yǔ)音分別經(jīng)聲學(xué)模型、感知模型、段長(zhǎng)模型和基音模型計(jì)算出匹配分?jǐn)?shù)、感知分?jǐn)?shù)、段長(zhǎng) 分?jǐn)?shù)和基音分?jǐn)?shù)。(2)將這些分別描述聲學(xué)、感知和韻律等方面的發(fā)音質(zhì)量的分?jǐn)?shù)進(jìn)行分?jǐn)?shù) 融合。(3)用融合后的分?jǐn)?shù)對(duì)測(cè)試語(yǔ)音的發(fā)音質(zhì)量進(jìn)行評(píng)價(jià)。參考語(yǔ)音是指作為發(fā)音質(zhì)量評(píng)價(jià)的基準(zhǔn)的教師的標(biāo)準(zhǔn)發(fā)音，測(cè)試語(yǔ)音是指作為發(fā)音質(zhì)量的評(píng)價(jià)對(duì)象的學(xué)習(xí)者的語(yǔ)音。因此，在本發(fā)明的發(fā)音質(zhì)量評(píng)價(jià)方法中，需要計(jì)算測(cè)試語(yǔ)音相對(duì)于參考語(yǔ)音的發(fā)音在質(zhì)量上的差別。本發(fā)明實(shí)施例的整個(gè)計(jì)算過(guò)程細(xì)節(jié)構(gòu)成如下-1、匹配分?jǐn)?shù)計(jì)算圖2是匹配分?jǐn)?shù)的示意圖。首先分別對(duì)參考語(yǔ)音和測(cè)試語(yǔ)音進(jìn)行分幀處理，得到短時(shí)平穩(wěn)的分幀語(yǔ)音。然后對(duì)每幀語(yǔ)音提取美爾頻標(biāo)倒譜系數(shù)(MFCC)特征。其中，對(duì)每幀語(yǔ)音所提取的MFCC特征包括39維，目卩12維MFCC系數(shù)及其一階差分和二階差分，歸一化能量及其一階差分和二階差分。MFCC特征反映了語(yǔ)音的靜態(tài)特征，而MFCC的一階和二階差分系數(shù)則反映了語(yǔ)音的動(dòng)態(tài)特征。然后利用訓(xùn)練好的隱含馬爾可夫模型(HMM)，采用Viterbi 解碼算法分別對(duì)參考語(yǔ)音和測(cè)試語(yǔ)音進(jìn)行強(qiáng)制對(duì)準(zhǔn)，得到參考語(yǔ)音和測(cè)試語(yǔ)音的似然分?jǐn)?shù)和每個(gè)音素的時(shí)間分隔信息。這里，HMM的訓(xùn)練過(guò)程對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō)屬于公知技術(shù)，因此這里只對(duì)其作簡(jiǎn)要的說(shuō)明。HMM采用從左到右的狀態(tài)轉(zhuǎn)移模型，該模型能夠很好地描述語(yǔ)音的發(fā)音特點(diǎn)。例如可用采用3狀態(tài)隱含馬爾可夫模型，其拓?fù)浣Y(jié)構(gòu)如圖3所示。其中 qi表示HMM的狀態(tài)， .表示HMM的跳轉(zhuǎn)概率，為HMM模型的狀態(tài)輸出的多流混合高斯密度概率分布函數(shù)，如公式(1)所示<formula>formula see original document page 11</formula>(1)其中，5"是數(shù)據(jù)流的個(gè)數(shù)，M,是每一數(shù)據(jù)流中的混合高斯密度分布的個(gè)數(shù)，W為高維高斯分布，如公式(2)所示<formula>formula see original document page 11</formula> (2)測(cè)試語(yǔ)音和參考語(yǔ)音是由多個(gè)音素構(gòu)成。分別對(duì)參考語(yǔ)音和測(cè)試語(yǔ)音進(jìn)行強(qiáng)制對(duì)準(zhǔn)后，第z'個(gè)音素的匹配分?jǐn)?shù)i:(O由下式給出-<formula>formula see original document page 12</formula> (3)其中，/^(Owk.)是須iJ試語(yǔ)音的似然度，；v(^/k)是參考語(yǔ)音的似然度。其中，《,表示第Z個(gè)音素HMM模型，化^和《《分別是測(cè)試語(yǔ)音和參考語(yǔ)音的MFCC特征矢量。匹配分?jǐn)?shù)定義為音素平均匹配分?jǐn)?shù)<formula>formula see original document page 12</formula>(4)其中，Wp為語(yǔ)音發(fā)音中音素總個(gè)數(shù)，"O為第!'個(gè)音素的匹配分?jǐn)?shù)。2、感知分?jǐn)?shù)計(jì)算-圖4是感知分?jǐn)?shù)的計(jì)算示意圖。首先分別對(duì)參考語(yǔ)音和測(cè)試語(yǔ)音分幀并加Haming窗。然后將每一幀語(yǔ)音經(jīng)過(guò)在Mel頻標(biāo)上均勻分布的三角窗濾波器，得到每個(gè)三角窗濾波器輸出的能量和的對(duì)數(shù)值MfW-<formula>formula see original document page 12</formula>(5)9 = 1,2,3…,2其中，i^是第g個(gè)三角窗濾波器的中心頻率，&+,和巧—,分別為第《個(gè)三角窗濾波器的上、下截止頻率，GfH)為三角窗函數(shù)，2為三角窗濾波器的個(gè)數(shù)。通常&20 26。根據(jù)心理學(xué)中的冪定律，將每個(gè)三角窗濾波器輸出的對(duì)數(shù)能量可以映射到響度域上，計(jì) 算如下式所示<formula>formula see original document page 12</formula>(6)其中，M(《)是第《個(gè)濾波器輸出的對(duì)數(shù)能量，丄(g)是M(《)映射到感知域的響度。在基于所述匹配分?jǐn)?shù)計(jì)算過(guò)程中得到的每個(gè)音素的時(shí)間分隔對(duì)準(zhǔn)信息基礎(chǔ)上，進(jìn)一步利用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping， DTW)方法將參考語(yǔ)音和測(cè)試語(yǔ)音的在音素層面上進(jìn)一步逐幀細(xì)化對(duì)準(zhǔn)。這里，DTW方法對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō)屬于公知技術(shù)，因此略去對(duì)其的說(shuō)明。利用DTW算法對(duì)參考語(yǔ)音和測(cè)試語(yǔ)音每幀進(jìn)行對(duì)準(zhǔn)后，就可以計(jì)算在每個(gè)三角窗輸出的"1,2,3,…々 (7)其中，(《)和~(《)分別表示測(cè)試語(yǔ)音和參考語(yǔ)音在第《個(gè)三角窗濾波器上輸出的響度。求出每個(gè)三角窗濾波器輸出的響度差后，需要進(jìn)一步計(jì)算整個(gè)Mel頻帶上的總響度差，也就是要計(jì)算每幀語(yǔ)音的響度差。一幀語(yǔ)音的響度可以通過(guò)對(duì)整個(gè)Mel頻帶上所有三角窗輸出的響度差進(jìn)行加權(quán)求和得到。參考語(yǔ)音和測(cè)試語(yǔ)音的第y幀語(yǔ)音的響度差;v。meC/)為E物)(8)其中，"(《)為參考語(yǔ)音和測(cè)試語(yǔ)音在第《個(gè)臨界帶內(nèi)的響度差，『(g)為第《個(gè)三角濾波器的帶寬。音素的感知分?jǐn)?shù)定義為參考語(yǔ)音和測(cè)試語(yǔ)音的幀平均響度差p"卿=、其中，W為參考語(yǔ)音和測(cè)試語(yǔ)音中較長(zhǎng)語(yǔ)音對(duì)應(yīng)音素的幀數(shù)，/^_(7')為第_/幀的響度差。因此，整個(gè)語(yǔ)音發(fā)音的感知分?jǐn)?shù)p。 ^為發(fā)音中所有音素響度差的平均值1 PP， = i J (0 (io)其中，A^為整個(gè)語(yǔ)音發(fā)音中音素總個(gè)數(shù)。 3、段長(zhǎng)分?jǐn)?shù)計(jì)算圖5是段長(zhǎng)分?jǐn)?shù)的計(jì)算示意圖?；谄ヅ浞?jǐn)?shù)計(jì)算中得到的每個(gè)音素的時(shí)間分隔信息，并利用段長(zhǎng)模型分別計(jì)算參考語(yǔ)音和測(cè)試語(yǔ)音各個(gè)音素的段長(zhǎng)概率分?jǐn)?shù)。計(jì)算段長(zhǎng)概率分?jǐn)?shù) 時(shí)所采用的段長(zhǎng)模型可以是直方圖模型或者Gamma模型。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō)，這屬于公知技術(shù)。因此，略去對(duì)其的詳細(xì)說(shuō)明。音素的段長(zhǎng)分?jǐn)?shù)^"e定義為測(cè)試語(yǔ)音和參考語(yǔ)音段長(zhǎng)概率分?jǐn)?shù)的對(duì)數(shù)差^哪—丄OgA",—丄OgAe,l (11)其中^U為測(cè)試語(yǔ)音的相應(yīng)音素的段長(zhǎng)概率分?jǐn)?shù)，"^為參考語(yǔ)音相應(yīng)音素的段長(zhǎng)概率分?jǐn)?shù)。整個(gè)語(yǔ)音發(fā)音的段長(zhǎng)分?jǐn)?shù)《。定義為所有音素段長(zhǎng)分?jǐn)?shù)的平均值1 "細(xì)=^2]"/*^(0 (12)4、基音分?jǐn)?shù)計(jì)算-圖6是基音分?jǐn)?shù)的計(jì)算示意圖。首先，分別提取參考語(yǔ)音和測(cè)試語(yǔ)音的基音?，F(xiàn)有技術(shù) 中已有多種基音提取方法。綜合考慮算法復(fù)雜度、魯棒性、基音估計(jì)的準(zhǔn)確性等因素，本文采用基于線性預(yù)測(cè)編碼的LPC分析的自相關(guān)估計(jì)算法。然后結(jié)合匹配分?jǐn)?shù)計(jì)算中得到的每個(gè) 音素的時(shí)間分隔信息，分別計(jì)算參考語(yǔ)音和測(cè)試語(yǔ)音中每個(gè)元音內(nèi)的基音極大值和極小值之差，即元音內(nèi)的基音極值差定義為HU) —P』(13)其中尸n^(0和尸^(Z')分別表示第Z'個(gè)元音內(nèi)的基音的極大值和極小值,基音分?jǐn)?shù)i ，— ^—定義為丄w,■^v。w—max_min - :1 Sv。w(0*^v。w(0 I(14)其中K為句子中的元音總數(shù)，^::(o為測(cè)試語(yǔ)音中第z'個(gè)元音內(nèi)的基音極值差，《::(o為參考語(yǔ)音中第i個(gè)元音內(nèi)的基音極值差。 5、分?jǐn)?shù)映射和分?jǐn)?shù)融合圖7是分?jǐn)?shù)映射和融合計(jì)算示意圖。圖中先對(duì)機(jī)器分?jǐn)?shù)進(jìn)行映射，然后采用線性加權(quán)或者SVM對(duì)映射后的機(jī)器分?jǐn)?shù)進(jìn)行融合，得到最終的客觀分?jǐn)?shù)。(1)機(jī)器分?jǐn)?shù)的映射方法在分別計(jì)算出匹配分?jǐn)?shù)、感知分?jǐn)?shù)、段長(zhǎng)分?jǐn)?shù)和基音分?jǐn)?shù)之后，需要將這四個(gè)分?jǐn)?shù)首先進(jìn)行分?jǐn)?shù)映射。不同方法得出的機(jī)器分?jǐn)?shù)的取值區(qū)間通常并不相同。因此需要利用映射函數(shù)將機(jī)器分?jǐn)?shù)映射到與專家評(píng)分相一致的對(duì)應(yīng)區(qū)間內(nèi)。可以基于Sigmoid函數(shù)、多項(xiàng)式函數(shù)或線性函數(shù)中的一個(gè)對(duì)所述匹配分?jǐn)?shù)、所述感知分?jǐn)?shù)、所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行映射。最簡(jiǎn)單有效的映射方法可以采用三次多項(xiàng)式函數(shù)進(jìn)行映射。映射中優(yōu)化準(zhǔn)則為最小均方誤差準(zhǔn)則，通過(guò)映射函數(shù)將機(jī)器分?jǐn)?shù)映射到專家評(píng)分取值區(qū)間。<formula>formula see original document page 15</formula>(15)其中，x為原始機(jī)器分?jǐn)?shù)，y為映射后的機(jī)器分?jǐn)?shù)，ai， a2， ^和A為多項(xiàng)式系數(shù)。(2)分?jǐn)?shù)融合的方法現(xiàn)有信號(hào)技術(shù)中存在多種信息融合處理方法，例如可以采用線性函數(shù)、神經(jīng)網(wǎng)絡(luò)、高斯混合模型、支持向量機(jī)、Logistic回歸，以及其他適于對(duì)多種不同分數(shù)進(jìn)行融合的方法。本發(fā)明主要采用線性函數(shù)和支持向量機(jī)對(duì)上述匹配分?jǐn)?shù)、感知分?jǐn)?shù)、段長(zhǎng)分?jǐn)?shù)和基音分?jǐn)?shù)進(jìn)行融合。如果機(jī)器分?jǐn)?shù)和專家評(píng)分都可以看作聯(lián)合分布的高斯隨機(jī)變量，或者二者之間存在線性關(guān)系，那么融合后的分?jǐn)?shù)可以表示為機(jī)器分?jǐn)?shù)的線性組合<formula>formula see original document page 15</formula>(16)其中，^&,…，表示各個(gè)機(jī)器分?jǐn)?shù)，A,^，…,"。為組合系數(shù)。這些組合系數(shù)可以由開(kāi)發(fā)集數(shù)據(jù)根據(jù)最小均方誤差準(zhǔn)則確定。SVM的融合方法有通用的軟件工具可以使用，基于SVM的融合在性能上由于線性融合的方法。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō)SVM融合方法屬于公知技術(shù)，因此略去對(duì)其的說(shuō)明。在發(fā)音質(zhì)量的評(píng)價(jià)中，通常用計(jì)算機(jī)對(duì)發(fā)音質(zhì)量進(jìn)行自動(dòng)評(píng)價(jià)而得到的分?jǐn)?shù)(通常稱為機(jī)器分?jǐn)?shù))與專家對(duì)同一發(fā)音的評(píng)價(jià)分?jǐn)?shù)之間的相關(guān)系數(shù)來(lái)表示發(fā)音質(zhì)量評(píng)價(jià)方法的性能，如式(17)所示。通常，相關(guān)系數(shù)越高，說(shuō)明機(jī)器分?jǐn)?shù)越接近專家的分?jǐn)?shù)，從而性能越好。<formula>formula see original document page 15</formula>(17)其中《.和乃分別是第個(gè)單詞或語(yǔ)句的機(jī)器評(píng)價(jià)分?jǐn)?shù)和相應(yīng)專家評(píng)價(jià)分?jǐn)?shù)，；和；分別是所有測(cè)試語(yǔ)音的機(jī)器評(píng)價(jià)分?jǐn)?shù)的均值和專家評(píng)價(jià)評(píng)分的均值。該評(píng)價(jià)過(guò)程需要采集有一定規(guī)模的評(píng)價(jià)語(yǔ)音庫(kù)，首先請(qǐng)專家對(duì)庫(kù)中語(yǔ)音進(jìn)行主觀評(píng)價(jià)，然后用機(jī)器進(jìn)行評(píng)價(jià)。通過(guò)公式(7)進(jìn)行計(jì)算機(jī)器評(píng)價(jià)和專家評(píng)價(jià)之間的相關(guān)度。本發(fā)明針對(duì)單詞和短句的發(fā)音質(zhì)量機(jī)器評(píng)價(jià)分?jǐn)?shù)與專家評(píng)分的相關(guān)系數(shù)達(dá)到0.800，其性能優(yōu)于基于 HMM的傳統(tǒng)評(píng)價(jià)方法。
權(quán)利要求
1、本發(fā)明提出的一種計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法，包括匹配分?jǐn)?shù)計(jì)算、基于美爾(Mel)頻標(biāo)的聽(tīng)感知分?jǐn)?shù)計(jì)算、基音分?jǐn)?shù)計(jì)算、分?jǐn)?shù)映射、分?jǐn)?shù)融合各部分，具體計(jì)算包括以下步驟步驟(1)首先分別對(duì)參考語(yǔ)音和測(cè)試語(yǔ)音分別進(jìn)行分幀處理，得到短時(shí)平穩(wěn)的分幀語(yǔ)音；步驟(2)按照以下步驟分別計(jì)算步驟(1)中所述的分幀的參考語(yǔ)音和測(cè)試語(yǔ)音的匹配似然分?jǐn)?shù)；步驟(2.1)分別對(duì)所述分幀的參考語(yǔ)音和測(cè)試語(yǔ)音每幀提取美爾頻標(biāo)倒譜系數(shù)(MFCC)特征，共39維特征，其中包括12維MFCC系數(shù)及其一階差分和二階差分，歸一化能量及其一階差分和二階差分；步驟(2.2)利用預(yù)先訓(xùn)練好的隱含馬爾可夫模型(HMM)，采用維特比(Viterbi)解碼算法分別對(duì)步驟(2.1)輸入的參考語(yǔ)音和測(cè)試語(yǔ)音進(jìn)行強(qiáng)制對(duì)準(zhǔn)，分別得到參考語(yǔ)音和測(cè)試語(yǔ)音的似然度，以及語(yǔ)音中每個(gè)音素的時(shí)間分隔信息；步驟(2.3)按照以下公式計(jì)算第i個(gè)音素的匹配分?jǐn)?shù)L(i) L(i)＝|log(ptext(Otest|qi))-log(pref(Oref|qi))|其中，ptest(Otest|qi)是測(cè)試語(yǔ)音的似然度，pref(Oref|qi)是參考語(yǔ)音的似然度。其中，中，qi表示第i個(gè)音素HMM模型，Otest和Oref分別是測(cè)試語(yǔ)音和參考語(yǔ)音的MFCC特征矢量。步驟(2.4)按照以下公式計(jì)算音素平均匹配分?jǐn)?shù)，并依次作為語(yǔ)音發(fā)音的匹配分?jǐn)?shù)Smat_sen
2、如權(quán)利要求1所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法，其特征在于利用傳統(tǒng)HMM方法進(jìn)行時(shí)間對(duì)準(zhǔn)和匹配分?jǐn)?shù)計(jì)算；利用Viterbi解碼算法分別對(duì)參考語(yǔ)音和測(cè)試語(yǔ)音進(jìn)行強(qiáng)制對(duì)準(zhǔn)，分別得到的參考語(yǔ)音和測(cè)試語(yǔ)音的時(shí)間分隔信息，包括狀態(tài)的時(shí)間分隔、音素的時(shí)間分隔信息、單詞的時(shí)間分隔信息。
3、如權(quán)利要求l所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法，其特征在于提出了基于Mel頻標(biāo)的聽(tīng)感知域分?jǐn)?shù)計(jì)算方法，該方法不同于傳統(tǒng)的基于臨界帶感知分?jǐn)?shù)計(jì) 算方法，新方法在計(jì)算上復(fù)雜度低，性能上都優(yōu)于基于臨界帶的聽(tīng)感知分?jǐn)?shù)計(jì)算方法。
4、如權(quán)利要求l所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法，其特征在于提出利用教師參考語(yǔ)音作為發(fā)音質(zhì)量評(píng)價(jià)參考模板，該方法不同于傳統(tǒng)基于大規(guī)模訓(xùn)練語(yǔ)音庫(kù)的HMM模型分?jǐn)?shù)匹配方法，新方法充分利用教師的參考語(yǔ)音信息，有利于發(fā)音中高層信息評(píng)價(jià)。
5、如權(quán)利要求l所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法，其特征在于在基于匹配分?jǐn)?shù)計(jì)算過(guò)程中得到的每個(gè)音素的時(shí)間分隔對(duì)準(zhǔn)信息基礎(chǔ)上，進(jìn)一步利用動(dòng)態(tài)時(shí) 間規(guī)整(Dynamic Time Warping， DTW)方法將參考語(yǔ)音和測(cè)試語(yǔ)音的在音素層面上逐幀對(duì)準(zhǔn)，使對(duì)準(zhǔn)的語(yǔ)音在幀上有較好可比性。
6、如權(quán)利要求l所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法，其特征在于所述段長(zhǎng)模型是段長(zhǎng)的直方圖模型或Gamma模型，段長(zhǎng)分?jǐn)?shù)是根據(jù)測(cè)試語(yǔ)音的段長(zhǎng)概率與標(biāo)準(zhǔn)語(yǔ)音的段長(zhǎng)概率絕對(duì)值之差得到。
7、如權(quán)利要求l所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法，其特征在于所述基音分?jǐn)?shù)是基于參考語(yǔ)音和測(cè)試語(yǔ)音中每個(gè)元音內(nèi)極大值和極小值之差計(jì)算得到。
8、如權(quán)利要求1所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法，其特征在于利用語(yǔ)音發(fā)音中的多種機(jī)器評(píng)價(jià)分?jǐn)?shù)，并采用基于Sigmoid函數(shù)、多項(xiàng)式函數(shù)或線性函數(shù)中的一個(gè)對(duì)所述匹配分?jǐn)?shù)、所述感知分?jǐn)?shù)、所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行映射，使映射后分?jǐn)?shù)和專家評(píng)分處于相同取值區(qū)間內(nèi)。
9、如權(quán)利要求l所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法，其特征在于對(duì)映射后的所述感知分?jǐn)?shù)、所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行融合；采用線性融合、支持矢量機(jī)(SVM)、 Logistic回歸(Logistic Regression),神經(jīng)網(wǎng)絡(luò)、高斯混合模型中的一個(gè)對(duì)映射后所述匹配分?jǐn)?shù)、所述感知分?jǐn)?shù)、所述基音分?jǐn)?shù)和所述段長(zhǎng)分?jǐn)?shù)進(jìn)行分?jǐn)?shù)融合。
10、如權(quán)利要求1所述的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中語(yǔ)音發(fā)音質(zhì)量評(píng)價(jià)方法，其特征在于本發(fā)明對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō)，可以對(duì)本發(fā)明要求1描述的計(jì)算步驟進(jìn)行一些小的修改和變型，在不背離本發(fā)明的精神和范圍的情況下，本發(fā)明亦涵蓋這些修改和變型。
全文摘要
本發(fā)明屬于語(yǔ)音技術(shù)領(lǐng)域，計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)方法包括匹配分?jǐn)?shù)的計(jì)算、基于美爾(Mel)頻標(biāo)的感知分?jǐn)?shù)的計(jì)算、段長(zhǎng)分?jǐn)?shù)的計(jì)算和基音分?jǐn)?shù)的計(jì)算，并將上述分?jǐn)?shù)映射后進(jìn)行融合；本發(fā)明的發(fā)音質(zhì)量評(píng)價(jià)方法具有穩(wěn)健性好，與專家評(píng)分相關(guān)性高的優(yōu)點(diǎn)，可以用于交互式語(yǔ)言學(xué)習(xí)和自動(dòng)口語(yǔ)測(cè)試。
文檔編號(hào)G10L11/00GK101246685SQ20081010207
公開(kāi)日2008年8月20日申請(qǐng)日期2008年3月17日優(yōu)先權(quán)日2008年3月17日
發(fā)明者加劉申請(qǐng)人:清華大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉加
技術(shù)所有人：清華大學(xué)
我是此專利的發(fā)明人

上一篇：語(yǔ)音編碼的封裝傳輸方法及裝置的制作方法
上一篇：一種語(yǔ)音識(shí)別物體應(yīng)答系統(tǒng)及方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量評(píng)價(jià)方法