一種語(yǔ)音評(píng)分方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種語(yǔ)音評(píng)分方法,包括步驟:S1、錄制考生的考卷語(yǔ)音;S2、對(duì)所述考生的考卷語(yǔ)音進(jìn)行預(yù)處理,得到考卷語(yǔ)音語(yǔ)料;S3、提取所述考卷語(yǔ)音語(yǔ)料的特征參數(shù);S4、采用基于HMM和ANN混合模型的語(yǔ)音識(shí)別方法將所述考卷語(yǔ)音語(yǔ)料的特征參數(shù)和標(biāo)準(zhǔn)語(yǔ)音模板進(jìn)行特征匹配,識(shí)別出所述考卷語(yǔ)音的內(nèi)容,并給予初步評(píng)分;S5、若初步評(píng)分低于閾值,則初步評(píng)分為最終評(píng)分;否則進(jìn)行準(zhǔn)確度、流利度、語(yǔ)速、節(jié)奏、重音和語(yǔ)調(diào)等分指標(biāo)的評(píng)分;S6、綜合各種評(píng)分計(jì)算得到考卷語(yǔ)音的最終評(píng)分。本發(fā)明還公開了一種語(yǔ)音評(píng)分系統(tǒng)。本發(fā)明采用基于混合模型的語(yǔ)音識(shí)別方法,識(shí)別更準(zhǔn)確,還能夠通過評(píng)價(jià)標(biāo)準(zhǔn)分級(jí)實(shí)現(xiàn)考生錄制后以文件形式存放的語(yǔ)音試卷進(jìn)行客觀評(píng)分。
【專利說明】一種語(yǔ)音評(píng)分方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音識(shí)別和評(píng)價(jià)技術(shù),尤其涉及一種語(yǔ)音評(píng)分方法及系統(tǒng)。
【背景技術(shù)】
[0002]語(yǔ)音識(shí)別技術(shù)從應(yīng)用角度上通常分為兩類:一類是特定人語(yǔ)音識(shí)別,一類是非特定人語(yǔ)音識(shí)別。特定人語(yǔ)音識(shí)別技術(shù)是針對(duì)一個(gè)特定的人的識(shí)別技術(shù),簡(jiǎn)單說就是只識(shí)別一個(gè)人的聲音,不適用于更廣泛的群體;而非特定人識(shí)別技術(shù)恰恰相反,可以滿足不同人的語(yǔ)音識(shí)別要求,適合廣泛人群應(yīng)用。
[0003]目前在大詞匯語(yǔ)音識(shí)別方面處于領(lǐng)先地位的IBM語(yǔ)音研究小組。AT&T的貝爾研究所也開始了一系列有關(guān)非特定人語(yǔ)音識(shí)別的實(shí)驗(yàn),其成果確立了如何制作用于非特定人語(yǔ)音識(shí)別的標(biāo)準(zhǔn)模板的方法。
[0004]這一時(shí)期所取得的重大進(jìn)展有:
[0005](I)隱式馬爾科夫模型(Hidden Markov Models, HMM)技術(shù)的成熟和不斷完善成為語(yǔ)音識(shí)別的主流方法;
[0006](2)在進(jìn)行連續(xù)語(yǔ)音識(shí)別的時(shí)候,除了識(shí)別聲學(xué)信息外,更多地利用各種語(yǔ)言知識(shí),諸如構(gòu)詞、句法、語(yǔ)義、對(duì)話背景方面等的知識(shí)來幫助進(jìn)一步對(duì)語(yǔ)音作出識(shí)別和理解;同時(shí)在語(yǔ)音識(shí)別研究領(lǐng)域,還產(chǎn)生了基于統(tǒng)計(jì)概率的語(yǔ)言模型;
[0007](3)人工神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用研究的興起。在這些研究中,大部分采用基于反向傳播算法(BP算法)的多層感知網(wǎng)絡(luò);此外,還有網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單、易于實(shí)現(xiàn)、沒有反饋信號(hào)的前向網(wǎng)絡(luò);系統(tǒng)的穩(wěn)定性與聯(lián)想記憶功能有密切關(guān)系、神經(jīng)元間有反饋的反饋網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)具有區(qū)分復(fù)雜的分類邊界的能力,顯然它十分有助于模式劃分。
[0008]另外,面向個(gè)人用途的連續(xù)語(yǔ)音聽寫機(jī)技術(shù)也日趨完善。這方面,最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系統(tǒng)。這些系統(tǒng)具有說話人自適應(yīng)能力,新用戶不需要對(duì)全部詞匯進(jìn)行訓(xùn)練,便可在使用中不斷提高識(shí)別率。
[0009]中國(guó)的語(yǔ)音識(shí)別技術(shù)的發(fā)展:在北京有中科院聲學(xué)所、自動(dòng)化所、清華大學(xué)、北方交通大學(xué)等科研機(jī)構(gòu)和高等院校。另外,還有哈爾濱工業(yè)大學(xué)、中國(guó)科技大學(xué)、四川大學(xué)等也紛紛行動(dòng)起來?,F(xiàn)在,國(guó)內(nèi)有不少語(yǔ)音識(shí)別系統(tǒng)已研制成功。這些系統(tǒng)的性能各具特色:在孤立字大詞匯量語(yǔ)音識(shí)別方面,最具代表性的是清華大學(xué)電子工程系與中國(guó)電子器件公司合作研制成功的THED-919特定人語(yǔ)音識(shí)別與理解實(shí)時(shí)系統(tǒng);在連續(xù)語(yǔ)音識(shí)別方面,四川大學(xué)計(jì)算機(jī)中心在微機(jī)上實(shí)現(xiàn)了一個(gè)主題受限的特定人連續(xù)英語(yǔ)一漢語(yǔ)語(yǔ)音翻譯演示系統(tǒng);在非特定人語(yǔ)音識(shí)別方面,有清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系研制的聲控電話查號(hào)系統(tǒng)并投入實(shí)際使用。
[0010]另外,科大訊飛作為中國(guó)最大的智能語(yǔ)音技術(shù)提供商,在2010年發(fā)布了全球首個(gè)移動(dòng)互聯(lián)網(wǎng)智能語(yǔ)音交互平臺(tái)“訊飛語(yǔ)音云”,宣告移動(dòng)互聯(lián)網(wǎng)語(yǔ)音聽寫時(shí)代到來。
[0011]在智能語(yǔ)音【技術(shù)領(lǐng)域】科大訊飛有著長(zhǎng)期的研究積累,并在中文語(yǔ)音合成、語(yǔ)音識(shí)另IJ、語(yǔ)音評(píng)測(cè)等多項(xiàng)技術(shù)上擁有國(guó)際領(lǐng)先的成果:語(yǔ)音合成和語(yǔ)音識(shí)別技術(shù)是實(shí)現(xiàn)人機(jī)語(yǔ)音通信,建立一個(gè)有聽和講能力的語(yǔ)音系統(tǒng)所必需的兩項(xiàng)關(guān)鍵技術(shù);自動(dòng)語(yǔ)音識(shí)別技術(shù)(Auto Speech Recognize, ASR)所要解決的問題是讓計(jì)算機(jī)能夠“聽懂”人類的語(yǔ)音,將語(yǔ)音中包含的文字信息“提取”出來;語(yǔ)音評(píng)測(cè)技術(shù)是智能語(yǔ)音處理領(lǐng)域的一項(xiàng)研究前沿,又稱計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(Computer Assisted Language Learning)技術(shù),是一種通過機(jī)器自動(dòng)對(duì)發(fā)音進(jìn)行評(píng)分、檢錯(cuò)并給出矯正指導(dǎo)的技術(shù);聲紋識(shí)別技術(shù),又稱說話人識(shí)別技術(shù)(Speaker Recognition),是一項(xiàng)通過語(yǔ)音信號(hào)提取代表說話人身份的相關(guān)特征(如反映聲門開合頻率的基頻特征、反映口腔大小形狀及聲道長(zhǎng)度的頻譜特征等),進(jìn)而識(shí)別出說話人身份等工作方面的技術(shù);自然語(yǔ)言是幾千年來人們生活、工作、學(xué)習(xí)中必不可少的元素,而計(jì)算機(jī)是20世紀(jì)最偉大的發(fā)明之一,如何利用計(jì)算機(jī)對(duì)人類掌握的自然語(yǔ)言進(jìn)行處理、甚至理解,使計(jì)算機(jī)具備人類的聽說讀寫能力,一直是國(guó)內(nèi)外研究機(jī)構(gòu)非常關(guān)注和積極開展的研究工作。
【發(fā)明內(nèi)容】
[0012]本發(fā)明所要解決的技術(shù)問題在于,提供一種語(yǔ)音評(píng)分方法和系統(tǒng),能夠快捷準(zhǔn)確地進(jìn)行閱卷評(píng)分,以客觀的評(píng)分標(biāo)準(zhǔn)給考生評(píng)分。本發(fā)明融合了現(xiàn)有發(fā)音質(zhì)量客觀評(píng)價(jià)模型的優(yōu)點(diǎn),獲取了性能更好的語(yǔ)音識(shí)別模型和語(yǔ)音訓(xùn)練模型以及更為準(zhǔn)確的語(yǔ)音口語(yǔ)評(píng)分方案;并且能夠通過多重評(píng)價(jià)指標(biāo)體系實(shí)現(xiàn)對(duì)以文件形式存放的語(yǔ)音試卷進(jìn)行客觀評(píng)分。本發(fā)明具有更加穩(wěn)定、效率更高的優(yōu)點(diǎn),為研究成果的實(shí)用化奠定基礎(chǔ),有利于實(shí)現(xiàn)大規(guī)模英語(yǔ)口語(yǔ)測(cè)試全自動(dòng)閱卷的目標(biāo)。
[0013]為解決上述技術(shù)問題,本發(fā)明提供了一種語(yǔ)音評(píng)分方法,包括步驟:
[0014]S1、錄制考生的考卷語(yǔ)音;
[0015]S2、對(duì)所述考生的考卷語(yǔ)音進(jìn)行預(yù)處理,得到考卷語(yǔ)音語(yǔ)料;
[0016]S3、提取所述考卷語(yǔ)音語(yǔ)料的特征參數(shù);
[0017]S4、采用基于HMM和ANN混合模型的語(yǔ)音識(shí)別方法將所述考卷語(yǔ)音語(yǔ)料的特征參數(shù)和標(biāo)準(zhǔn)語(yǔ)音模板進(jìn)行特征匹配,識(shí)別出所述考卷語(yǔ)音的內(nèi)容,并給予初步評(píng)分;
[0018]S5、若初步評(píng)分低于預(yù)先設(shè)定閾值,則所述初步評(píng)分為該考卷語(yǔ)音的最終評(píng)分,并標(biāo)記該考卷語(yǔ)音為問題卷;若初步評(píng)分高于預(yù)先設(shè)定閾值,則對(duì)所述考卷語(yǔ)音進(jìn)行準(zhǔn)確度、流利度、語(yǔ)速、節(jié)奏、重音和語(yǔ)調(diào)分指標(biāo)評(píng)分;
[0019]S6、對(duì)所述分指標(biāo)評(píng)分進(jìn)行加權(quán)計(jì)算得到所述考卷語(yǔ)音的最終評(píng)分。
[0020]進(jìn)一步的,所述步驟SI之前還包括步驟S0,所述步驟SO具體包括步驟:
[0021]S01、錄制專家的標(biāo)準(zhǔn)語(yǔ)音;
[0022]S02、對(duì)所述標(biāo)準(zhǔn)語(yǔ)音進(jìn)行預(yù)處理,得到標(biāo)準(zhǔn)語(yǔ)音語(yǔ)料;
[0023]S03、提取所述標(biāo)準(zhǔn)語(yǔ)音語(yǔ)料的特征參數(shù);
[0024]S04、對(duì)所述標(biāo)準(zhǔn)語(yǔ)音語(yǔ)料的特征參數(shù)進(jìn)行模型訓(xùn)練,得到所述標(biāo)準(zhǔn)語(yǔ)音模板。
[0025]進(jìn)一步的,所述步驟S4中基于HMM和ANN混合模型的語(yǔ)音識(shí)別方法的具體步驟為:
[0026]S41、建立所述考卷語(yǔ)音語(yǔ)料的特征參數(shù)的HMM模型,得到HMM模型中所有狀態(tài)累積概率;
[0027]S42、將所述所有狀態(tài)累積概率作為ANN分類器的輸入特征進(jìn)行處理,從而輸出識(shí)別結(jié)果;
[0028]S43、將所述識(shí)別結(jié)果與所述標(biāo)準(zhǔn)語(yǔ)音模板進(jìn)行特征匹配,從而識(shí)別出所述考卷語(yǔ)音的內(nèi)容。
[0029]進(jìn)一步的,所述步驟S2中的預(yù)處理具體包括預(yù)加重、分幀、加窗、降噪、端點(diǎn)檢測(cè)和切詞,其中,所述降噪的具體步驟為采用語(yǔ)音的空白語(yǔ)音段作為噪聲的基值對(duì)后續(xù)語(yǔ)音進(jìn)行去噪處理。
[0030]進(jìn)一步的,所述切詞具體包括步驟:
[0031]S21、提取語(yǔ)音中每個(gè)音素的MFCC參數(shù),并建立對(duì)應(yīng)音素的HMM模型;
[0032]S22、對(duì)語(yǔ)音進(jìn)行粗切分,得到有效的語(yǔ)音段;
[0033]S23、根據(jù)所述音素的HMM模型識(shí)別出所述語(yǔ)音段的單詞,從而將語(yǔ)音識(shí)別為單詞
隹A
口 O
[0034]進(jìn)一步的,所述步驟S3中的提取參數(shù)特征具體為提取MFCC特征參數(shù),具體步驟為將預(yù)處理后得到的語(yǔ)料進(jìn)行快速傅里葉變換、三角窗濾波、求對(duì)數(shù)、離散余弦變換得到MFCC特征參數(shù)。
[0035]進(jìn)一步的,所述步驟S5中的準(zhǔn)確度評(píng)分具體步驟為:
[0036]采用抽插值的方法將待評(píng)分語(yǔ)音語(yǔ)句規(guī)整到與標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句相近的程度;采用短時(shí)能量作為特征來提取所述待評(píng)分語(yǔ)音語(yǔ)句與標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句的強(qiáng)度曲線;通過比較待評(píng)分語(yǔ)音語(yǔ)句與標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句的強(qiáng)度曲線的擬合程度進(jìn)行評(píng)分。
[0037]進(jìn)一步的,所述步驟S5中的流利度評(píng)分具體步驟為:
[0038]將待評(píng)分語(yǔ)音截成前后兩部分,并對(duì)前半部份和后半部份切詞從而得到有效語(yǔ)音段;將前后兩部分的有效語(yǔ)音段的長(zhǎng)度分別與總待評(píng)分語(yǔ)音的長(zhǎng)度作除運(yùn)算,并將得到的值與對(duì)應(yīng)的閾值相比較,若都大于對(duì)應(yīng)的閾值,則判定為流利;否則,判定為不流利。
[0039]語(yǔ)速評(píng)分具體步驟為:計(jì)算待評(píng)分語(yǔ)音中發(fā)音部分占整個(gè)待評(píng)分語(yǔ)音時(shí)長(zhǎng)的比例,根據(jù)所述比例進(jìn)行語(yǔ)速評(píng)分。
[0040]節(jié)奏評(píng)分具體步驟為:采用改進(jìn)的dPVI參數(shù)計(jì)算公式計(jì)算待評(píng)分語(yǔ)音的節(jié)奏。
[0041]重音評(píng)分具體步驟為:在規(guī)整后的強(qiáng)度曲線基礎(chǔ)上,通過設(shè)置重音閾值和非重音閾值作為特征的雙門限以及重讀元音時(shí)長(zhǎng)劃分重音單元,并采用DTW算法對(duì)所述待評(píng)分語(yǔ)音語(yǔ)句和標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句進(jìn)行模式匹配,實(shí)現(xiàn)重音的評(píng)。
[0042]語(yǔ)調(diào)評(píng)分具體步驟為:提取待評(píng)分語(yǔ)音和標(biāo)準(zhǔn)語(yǔ)音的共振峰,并根據(jù)所述待評(píng)分語(yǔ)音共振峰的變化趨勢(shì)與標(biāo)準(zhǔn)語(yǔ)音共振峰的變化趨勢(shì)的擬合程度對(duì)語(yǔ)調(diào)進(jìn)行評(píng)分。
[0043]本發(fā)明還提供了一種語(yǔ)音評(píng)分系統(tǒng),包括:
[0044]語(yǔ)音錄制模塊,用于錄制考生的考卷語(yǔ)音;
[0045]預(yù)處理模塊,用于對(duì)所述考生的考卷語(yǔ)音進(jìn)行預(yù)處理,得到考卷語(yǔ)音語(yǔ)料;
[0046]參數(shù)特征提取模塊,用于提取所述考卷語(yǔ)音語(yǔ)料的特征參數(shù);
[0047]語(yǔ)音識(shí)別模塊,用于采用基于HMM和ANN混合模型的語(yǔ)音識(shí)別方法對(duì)所述考卷語(yǔ)音語(yǔ)料的特征參數(shù)和標(biāo)準(zhǔn)語(yǔ)音模板進(jìn)行特征匹配,識(shí)別出考卷語(yǔ)音的內(nèi)容,并給予初步評(píng)分;
[0048]語(yǔ)音評(píng)分模塊,用于對(duì)于初步評(píng)分高于設(shè)定閾值的考卷語(yǔ)音進(jìn)行準(zhǔn)確度評(píng)分、流利度評(píng)分、語(yǔ)速評(píng)分、節(jié)奏評(píng)分、重音評(píng)分和語(yǔ)調(diào)評(píng)分。[0049]綜合評(píng)分模塊,用于綜合準(zhǔn)確度、流利度、語(yǔ)速、節(jié)奏、重音和語(yǔ)調(diào)的評(píng)分計(jì)算得到初步評(píng)分高于設(shè)定閾值的考卷語(yǔ)音的最終評(píng)分。
[0050]實(shí)施本發(fā)明,具有如下有益效果:
[0051]1、本發(fā)明在預(yù)處理模塊中加入了實(shí)用的降噪和切詞方法,得到質(zhì)量更好的語(yǔ)音語(yǔ)料;
[0052]2、采用基于HMM和ANN混合模型的語(yǔ)音識(shí)別方法,性能更佳,識(shí)別更為準(zhǔn)確;
[0053]3、通過對(duì)語(yǔ)速、節(jié)奏、重音和語(yǔ)調(diào)的多指標(biāo)分析,比原有朗讀題的評(píng)分指標(biāo)更多元化,結(jié)果更具客觀性;
[0054]4、通過對(duì)準(zhǔn)確度和流利度的雙重分析,在原有只能實(shí)現(xiàn)對(duì)朗讀題評(píng)分的基礎(chǔ)上,實(shí)現(xiàn)了對(duì)翻譯題、問答題和復(fù)述題等非朗讀題的客觀評(píng)分,建立了一個(gè)合理完善的語(yǔ)音評(píng)分方法和系統(tǒng),能快捷準(zhǔn)確地進(jìn)行閱卷評(píng)分,以客觀的評(píng)分標(biāo)準(zhǔn)給考生評(píng)分;
[0055]5、本發(fā)明具有更加穩(wěn)定、效率更高的優(yōu)點(diǎn),且實(shí)用性強(qiáng),應(yīng)用范圍廣,能夠運(yùn)用到口語(yǔ)考試的評(píng)改過程,大幅度有效地縮短評(píng)改時(shí)間,提高系統(tǒng)處理的高效性,也提高了評(píng)改的客觀性。
【專利附圖】
【附圖說明】
[0056]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0057]圖1是本發(fā)明實(shí)施例提供的語(yǔ)音評(píng)分方法的流程示意圖;
[0058]圖2是步驟SO的具體步驟的流程示意圖;
[0059]圖3是圖1中預(yù)處理的具體步驟的流程示意圖;
[0060]圖4是圖3中切詞的具體步驟的流程示意圖;
[0061]圖5是MFCC特征參數(shù)提取的具體步驟的流程示意圖;
[0062]圖6是基于HMM和ANN混合模型的語(yǔ)音識(shí)別方法的具體步驟的流程示意圖;
[0063]圖7是本發(fā)明實(shí)施例提供的語(yǔ)音評(píng)分系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0064]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0065]本發(fā)明實(shí)施例提供了一種語(yǔ)音評(píng)分方法,如圖1所示,包括步驟:
[0066]S1、錄制考生的考卷語(yǔ)音;
[0067]S2、對(duì)所述考生的考卷語(yǔ)音進(jìn)行預(yù)處理,得到考卷語(yǔ)音語(yǔ)料;
[0068]S3、提取所述考卷語(yǔ)音語(yǔ)料的特征參數(shù);
[0069]S4、采用基于隱馬爾可夫模型(Hidden Markov Models, HMM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANN)混合模型的語(yǔ)音識(shí)別方法將所述考卷語(yǔ)音語(yǔ)料的特征參數(shù)和標(biāo)準(zhǔn)語(yǔ)音模板進(jìn)行特征匹配,識(shí)別出所述考卷語(yǔ)音的內(nèi)容,并給予初步評(píng)分;
[0070]S5、若初步評(píng)分低于預(yù)先設(shè)定閾值,則所述初步評(píng)分為該考卷語(yǔ)音的最終評(píng)分,并標(biāo)記該考卷語(yǔ)音為問題卷;若初步評(píng)分高于預(yù)先設(shè)定閾值,則對(duì)所述考卷語(yǔ)音進(jìn)行準(zhǔn)確度、流利度、語(yǔ)速、節(jié)奏、重音和語(yǔ)調(diào)分指標(biāo)評(píng)分;
[0071]S6、對(duì)所述分指標(biāo)的評(píng)分進(jìn)行加權(quán)計(jì)算得到所述考卷語(yǔ)音的最終評(píng)分。
[0072]進(jìn)一步的,所述步驟SI之前還包括步驟S0,如圖2所示,所述步驟SO具體包括步驟:
[0073]SO1、錄制專家的標(biāo)準(zhǔn)語(yǔ)音;
[0074]其中標(biāo)準(zhǔn)語(yǔ)音都是由多數(shù)專業(yè)人士在特定的環(huán)境下錄制的,語(yǔ)音內(nèi)容與英語(yǔ)口語(yǔ)考試內(nèi)容相對(duì)應(yīng);
[0075]S02、對(duì)所述標(biāo)準(zhǔn)語(yǔ)音進(jìn)行預(yù)處理,得到標(biāo)準(zhǔn)語(yǔ)音語(yǔ)料;
[0076]S03、提取所述標(biāo)準(zhǔn)語(yǔ)音語(yǔ)料的特征參數(shù);
[0077]S04、對(duì)所述標(biāo)準(zhǔn)語(yǔ)音語(yǔ)料的特征參數(shù)進(jìn)行模型訓(xùn)練,得到所述標(biāo)準(zhǔn)語(yǔ)音模板。
[0078]其中,標(biāo)準(zhǔn)語(yǔ)音的模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),即標(biāo)準(zhǔn)語(yǔ)音模板。所述模型訓(xùn)練的過程具體是指為了使語(yǔ)音識(shí)別系統(tǒng)達(dá)到某種最佳狀態(tài),通過對(duì)初始構(gòu)造數(shù)據(jù)不斷地迭代調(diào)整系統(tǒng)模板的參數(shù)(包括狀態(tài)轉(zhuǎn)移矩陣的概率以及高斯混合模型的方差,均值,權(quán)重等),使系統(tǒng)的性能不斷向這種最佳狀態(tài)逼近的過程。由于專業(yè)人士的標(biāo)準(zhǔn)語(yǔ)音與考生的語(yǔ)音具有一定程度上的差異,而且本發(fā)明的評(píng)分對(duì)象是自然人,所以本發(fā)明將會(huì)努力擴(kuò)展語(yǔ)料庫(kù),由特定的專業(yè)人士擴(kuò)展到普通人,特定環(huán)境擴(kuò)展到普通環(huán)境,并且包含不同性別、年齡、口音的說話人的聲音。
[0079]接下來將對(duì)各步驟進(jìn)行具體介紹。
[0080]1、預(yù)處理
[0081]如圖3所示,所述步驟S2中的預(yù)處理具體包括降噪、預(yù)加重、分幀、加窗、端點(diǎn)檢測(cè)和切詞,預(yù)處理的目的是消除因?yàn)槿税l(fā)音器官本身和由于語(yǔ)音信號(hào)的設(shè)備對(duì)語(yǔ)音信號(hào)質(zhì)量產(chǎn)生的影響,為語(yǔ)音特征提取提供優(yōu)質(zhì)的參數(shù),從而提高語(yǔ)音處理的質(zhì)量。
[0082]其中,所述降噪的具體步驟為采用語(yǔ)音的空白語(yǔ)音段作為噪聲的基值對(duì)后續(xù)語(yǔ)音進(jìn)行去噪處理,因?yàn)楦鶕?jù)研究發(fā)現(xiàn),當(dāng)考生在錄制錄音之前,通常在開始的一小段時(shí)間里是沒有發(fā)聲的,而這一小段錄音卻并不是空白的,而是具有噪音的錄音段。因此,通過提取這錄音段的音頻作為噪聲的基值,對(duì)之后的錄音就可以進(jìn)行一個(gè)去處噪聲的處理了,同時(shí)也排除了無聲段的噪聲干擾。
[0083]其中,所述切詞是指把一句話切成一個(gè)個(gè)單詞或者詞組,以使得計(jì)算機(jī)能夠通過識(shí)別一個(gè)個(gè)單詞或詞組而“聽懂”考生的表述內(nèi)容,為后階段計(jì)算機(jī)進(jìn)行相應(yīng)的加分或扣分因素的分析以及最后自動(dòng)評(píng)分做準(zhǔn)備。如圖4所示,所述切詞具體包括步驟:
[0084]S21、提取語(yǔ)音中每個(gè)音素的Mel頻率倒譜系數(shù)(Mel Frequency CepstrumCoefficient, MFCC)參數(shù),并建立對(duì)應(yīng)音素的HMM模型;
[0085]S22、對(duì)語(yǔ)音進(jìn)行粗切分,得到有效的語(yǔ)音段;
[0086]粗切分的目的有兩點(diǎn):一是減少運(yùn)算量,借此減少切詞的時(shí)間;二是增加切詞的準(zhǔn)確度。關(guān)于粗分,利用的是雙門限法,把明顯空白的地方截取掉,但是使用的門限值較低,目的是為了得到有效的語(yǔ)音段;[0087]S23、根據(jù)所述音素的HMM模型識(shí)別出所述語(yǔ)音段的單詞,從而將語(yǔ)音識(shí)別為單詞
隹A
口 O
[0088]該切詞方法具有識(shí)別率、準(zhǔn)確率高,誤差小的優(yōu)點(diǎn):1)識(shí)別模板的個(gè)數(shù)是固定的,對(duì)于HMM模型來說,準(zhǔn)確率非常高;而且不需要再去設(shè)置輸出概率的閾值,這將很大程度上提高識(shí)別率。2)切分單詞之后,即得到單詞的讀音,讀音可輔助進(jìn)行關(guān)鍵詞的匹配,從而減少了匹配單詞所帶來的誤差。
[0089]2、提取參數(shù)特征
[0090]所述步驟S3中的提取特征參數(shù)具體為提取MFCC特征參數(shù),如圖5所示,具體步驟為將預(yù)處理后得到的語(yǔ)料進(jìn)行快速傅里葉變換、三角窗濾波、求對(duì)數(shù)、離散余弦變換得到MFCC特征參數(shù)。其中,采用MFCC特征參數(shù)是因?yàn)槠淇紤]了人耳的聽覺特性,將頻譜轉(zhuǎn)化為基于Mel頻率的非線性頻譜,然后轉(zhuǎn)換到倒譜域上。而且沒有任何前提假設(shè),用數(shù)學(xué)的方法來模擬人耳的聽覺特性,使用一串在低頻區(qū)域交叉重疊排列的三角型濾波器,捕獲語(yǔ)音的頻譜信息;另外,MFCC特征參數(shù)的抗噪能力和抗頻譜失真能力強(qiáng),能夠更好的提高系統(tǒng)的識(shí)別性能。
[0091]3、語(yǔ)音內(nèi)容識(shí)別
[0092]所述步驟S4中采用了基于HMM和ANN混合模型的語(yǔ)音識(shí)別方法,其中HMM方法有需要語(yǔ)音信號(hào)的先驗(yàn)統(tǒng)計(jì)知識(shí)、分類決策能力弱、結(jié)構(gòu)復(fù)雜,需要大量的訓(xùn)練樣本和需要進(jìn)行大量計(jì)算的缺點(diǎn);ANN雖然在決策能力上有著一定的優(yōu)勢(shì),但是它對(duì)動(dòng)態(tài)時(shí)間信號(hào)的描述能力尚不盡人意,而且基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別算法存在訓(xùn)練、識(shí)別時(shí)間太長(zhǎng)的缺點(diǎn)。為了克服各自的缺點(diǎn),本發(fā)明將具有較強(qiáng)時(shí)間建模能力的HMM和具有較強(qiáng)分類能力的ANN兩種方法有機(jī)的結(jié)合起來,進(jìn)一步提高了語(yǔ)音識(shí)別的魯棒性和準(zhǔn)確率。這種方法不僅克服了HMM本身難以解決的模式類別間的相互重疊問題,提高了對(duì)易混淆詞的識(shí)別能力,同時(shí)也克服了 ANN僅能處理固定長(zhǎng)輸入模式的局限,省去了復(fù)雜的歸整運(yùn)算。具體的,如圖6所示,所述步驟S4中基于HMM和ANN混合模型的語(yǔ)音識(shí)別方法的具體步驟為:
[0093]S41、建立所述考卷語(yǔ)音語(yǔ)料的特征參數(shù)的HMM模型,得到HMM模型中所有狀態(tài)累積概率;
[0094]S42、將所述所有狀態(tài)累積概率作為ANN(具體為自組織神經(jīng)網(wǎng)絡(luò))分類器的輸入特征進(jìn)行處理,從而輸出識(shí)別結(jié)果;
[0095]S43、將所述識(shí)別結(jié)果與所述標(biāo)準(zhǔn)語(yǔ)音模板進(jìn)行特征匹配,從而識(shí)別出所述考卷語(yǔ)音的內(nèi)容。
[0096]4、語(yǔ)音評(píng)價(jià)
[0097]由于在日常生活中,有一些考生并不能很好地在規(guī)定的時(shí)間進(jìn)行口語(yǔ)測(cè)驗(yàn),得到的考卷語(yǔ)音將出現(xiàn)大量空白或者無法識(shí)別,我們將這些考卷錄音標(biāo)記為問題卷。問題卷包括空白錄音以及各種無法識(shí)別的有聲錄音,如非英語(yǔ)語(yǔ)種的錄音、噪聲過大的錄音等,而步驟S4的目的不只是識(shí)別出考生所讀的內(nèi)容,還有就是檢測(cè)問題卷,并且根據(jù)實(shí)際的情況給出較低的分?jǐn)?shù),對(duì)于此類問題卷語(yǔ)音就沒有必要對(duì)其進(jìn)行準(zhǔn)確度、流利度、語(yǔ)速、節(jié)奏、重音和語(yǔ)調(diào)進(jìn)行評(píng)分。只有當(dāng)初始評(píng)分高于預(yù)先設(shè)定閾值時(shí)才進(jìn)行進(jìn)一步的語(yǔ)音評(píng)價(jià)。
[0098](I)所述步驟S5中的準(zhǔn)確度評(píng)分具體步驟為:采用抽插值的方法將待評(píng)分語(yǔ)音語(yǔ)句規(guī)整到與標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句相近的程度;采用短時(shí)能量作為特征來提取所述待評(píng)分語(yǔ)音語(yǔ)句與標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句的強(qiáng)度曲線;通過比較待評(píng)分語(yǔ)音語(yǔ)句與標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句的強(qiáng)度曲線的擬合程度進(jìn)行評(píng)分。
[0099]語(yǔ)句的強(qiáng)度曲線圖可以反映語(yǔ)音信號(hào)隨著時(shí)間的變化。語(yǔ)句中重讀音節(jié)響亮的特征將反映到時(shí)域上的能量強(qiáng)度,即重音音節(jié)表現(xiàn)為語(yǔ)音能量強(qiáng)度大。但由于不同人不同時(shí)間對(duì)同一句話的發(fā)音時(shí)長(zhǎng)不相等、發(fā)音強(qiáng)度也不同,如果將待評(píng)分語(yǔ)音語(yǔ)句和標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句的強(qiáng)度曲線直接進(jìn)行模板匹配,結(jié)果將影響評(píng)價(jià)的客觀性。因此本發(fā)明在原有技術(shù)的基礎(chǔ)上修改出一種基于標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句的強(qiáng)度曲線提取方法:當(dāng)待評(píng)分語(yǔ)音語(yǔ)句時(shí)長(zhǎng)比標(biāo)準(zhǔn)用語(yǔ)音語(yǔ)句短的時(shí)候,采用插值方法對(duì)其進(jìn)行時(shí)長(zhǎng)的補(bǔ)充;當(dāng)待評(píng)分語(yǔ)音語(yǔ)句時(shí)長(zhǎng)比標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句長(zhǎng)的時(shí)候,采用抽值方法對(duì)其進(jìn)行時(shí)長(zhǎng)的調(diào)整;最后,利用標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句的強(qiáng)度曲線的最強(qiáng)點(diǎn),對(duì)待評(píng)分語(yǔ)音語(yǔ)句的強(qiáng)度曲線進(jìn)行強(qiáng)度規(guī)整。
[0100](2)流利度評(píng)分具體步驟為:將待評(píng)分語(yǔ)音截成前后兩部分,并對(duì)前半部份和后半部份切詞從而得到有效語(yǔ)音段;將前后兩部分的有效語(yǔ)音段的長(zhǎng)度分別與總待評(píng)分語(yǔ)音的長(zhǎng)度作除運(yùn)算,并將得到的值與對(duì)應(yīng)的閾值相比較,若都大于對(duì)應(yīng)的閾值,則判定為流利;否則,判定為不流利;
[0101]針對(duì)句子級(jí)的流利度,旨在通過計(jì)算句子表達(dá)的通順程度,并且利用標(biāo)準(zhǔn)語(yǔ)音計(jì)算發(fā)音的韻律得分,兩者融合得到句子的流利度診斷模型。這種句子流利度評(píng)分方法也可以應(yīng)用到篇章流利度評(píng)分。該方法考慮到發(fā)音者在表述語(yǔ)句過程中的通順性,比傳統(tǒng)方法有更高的相關(guān)度。因此可以應(yīng)用到語(yǔ)音評(píng)分系統(tǒng)中。
[0102](3)語(yǔ)速評(píng)分具體步驟為:計(jì)算待評(píng)分語(yǔ)音中發(fā)音部分占整個(gè)待評(píng)分語(yǔ)音時(shí)長(zhǎng)的比例,根據(jù)所述比例對(duì)語(yǔ)速進(jìn)行評(píng)分。 [0103](4)節(jié)奏評(píng)分具體步驟為:采用改進(jìn)的差異性成對(duì)變異指數(shù)(the DistinctPairwise Variability Index, dPVI)參數(shù)計(jì)算公式計(jì)算待評(píng)分語(yǔ)音的節(jié)奏。dPVI根據(jù)語(yǔ)音單元時(shí)長(zhǎng)差異性的特征,將標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句與帶評(píng)分語(yǔ)音語(yǔ)句的音節(jié)單元片段時(shí)長(zhǎng)分別進(jìn)行對(duì)比計(jì)算,并將轉(zhuǎn)換出的參數(shù)用于客觀評(píng)價(jià)和反饋指導(dǎo)依據(jù)。
【權(quán)利要求】
1.一種語(yǔ)音評(píng)分方法,其特征在于,包括步驟: S1、錄制考生的考卷語(yǔ)音; S2、對(duì)所述考生的考卷語(yǔ)音進(jìn)行預(yù)處理,得到考卷語(yǔ)音語(yǔ)料; S3、提取所述考卷語(yǔ)音語(yǔ)料的特征參數(shù); S4、采用基于HMM和ANN混合模型的語(yǔ)音識(shí)別方法將所述考卷語(yǔ)音語(yǔ)料的特征參數(shù)和標(biāo)準(zhǔn)語(yǔ)音模板進(jìn)行特征匹配,識(shí)別出所述考卷語(yǔ)音的內(nèi)容,并給予初步評(píng)分; S5、若初步評(píng)分低于預(yù)先設(shè)定閾值,則所述初步評(píng)分為該考卷語(yǔ)音的最終評(píng)分,并標(biāo)記該考卷語(yǔ)音為問題卷;若初步評(píng)分高于預(yù)先設(shè)定閾值,則對(duì)所述考卷語(yǔ)音進(jìn)行準(zhǔn)確度、流利度、語(yǔ)速、節(jié)奏、重音和語(yǔ)調(diào)分指標(biāo)評(píng)分; S6、對(duì)所述分指標(biāo)評(píng)分進(jìn)行加權(quán)計(jì)算得到所述考卷語(yǔ)音的最終評(píng)分。
2.如權(quán)利要求1所述的語(yǔ)音評(píng)分方法,其特征在于,所述步驟SI之前還包括步驟S0,所述步驟SO具體包括步驟: S01、錄制專家的標(biāo)準(zhǔn)語(yǔ)音; S02、對(duì)所述標(biāo)準(zhǔn)語(yǔ)音進(jìn)行預(yù)處理,得到標(biāo)準(zhǔn)語(yǔ)音語(yǔ)料; S03、提取所述標(biāo)準(zhǔn)語(yǔ)音語(yǔ)料的特征參數(shù); S04、對(duì)所述標(biāo)準(zhǔn)語(yǔ)音語(yǔ)料的特征參數(shù)進(jìn)行模型訓(xùn)練,得到所述標(biāo)準(zhǔn)語(yǔ)音模板。
3.如權(quán)利要求1所述的語(yǔ)音評(píng)分方法,其特征在于,所述步驟S4中基于HMM和ANN混合模型的語(yǔ)音識(shí)別方法的具體步驟為: S41、建立所述考卷語(yǔ)音語(yǔ)料的特征參數(shù)的HMM模型,得到HMM模型中所有狀態(tài)累積概率; S42、將所述所有狀態(tài)累積概率作為ANN分類器的輸入特征進(jìn)行處理,從而輸出識(shí)別結(jié)果; S43、將所述識(shí)別結(jié)果與所述標(biāo)準(zhǔn)語(yǔ)音模板進(jìn)行特征匹配,從而識(shí)別出所述考卷語(yǔ)音的內(nèi)容。
4.如權(quán)利要求1所述的語(yǔ)音評(píng)分方法,其特征在于,所述步驟S2中的預(yù)處理具體包括降噪、預(yù)加重、分幀、加窗、端點(diǎn)檢測(cè)和切詞,其中,所述降噪的具體步驟為采用語(yǔ)音的空白語(yǔ)音段作為噪聲的基值對(duì)后續(xù)語(yǔ)音進(jìn)行去噪處理。
5.如權(quán)利要求4所述的語(yǔ)音評(píng)分方法,其特征在于,所述切詞具體包括步驟: S21、提取語(yǔ)音中每個(gè)音素的MFCC參數(shù),并建立對(duì)應(yīng)音素的HMM模型; S22、對(duì)語(yǔ)音進(jìn)行粗切分,得到有效的語(yǔ)音段; S23、根據(jù)所述音素的HMM模型識(shí)別出所述語(yǔ)音段的單詞,從而將語(yǔ)音識(shí)別為單詞集入口 ο
6.如權(quán)利要求1所述的語(yǔ)音評(píng)分方法,其特征在于,所述步驟S3中的提取參數(shù)特征具體為提取MFCC特征參數(shù),具體步驟為將預(yù)處理后得到的語(yǔ)料進(jìn)行快速傅里葉變換、三角窗濾波、求對(duì)數(shù)、離散余弦變換得到MFCC特征參數(shù)。
7.如權(quán)利要求1所述的語(yǔ)音評(píng)分方法,其特征在于,所述步驟S5中的準(zhǔn)確度評(píng)分具體步驟為: 采用抽插值的方法將待評(píng)分語(yǔ)音語(yǔ)句規(guī)整到與標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句相近的程度;采用短時(shí)能量作為特征來提取所述待評(píng)分語(yǔ)音語(yǔ)句與標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句的強(qiáng)度曲線;通過比較待評(píng)分語(yǔ)音語(yǔ)句與標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句的強(qiáng)度曲線的擬合程度進(jìn)行評(píng)分。
8.如權(quán)利要求1所述的語(yǔ)音評(píng)分方法,其特征在于,所述步驟S5中的流利度評(píng)分具體步驟為: 將待評(píng)分語(yǔ)音截成前后兩部分,并對(duì)前半部份和后半部份切詞從而得到有效語(yǔ)音段;將前后兩部分的有效語(yǔ)音段的長(zhǎng)度分別與總待評(píng)分語(yǔ)音的長(zhǎng)度作除運(yùn)算,并將得到的值與對(duì)應(yīng)的閾值相比較,若大于對(duì)應(yīng)的閾值,則判定為流利;否則,判定為不流利。
9.如權(quán)利要求1所述的語(yǔ)音評(píng)分方法,其特征在于,所述步驟S5中的 語(yǔ)速評(píng)分具體步驟為:計(jì)算待評(píng)分語(yǔ)音中發(fā)音部分占整個(gè)待評(píng)分語(yǔ)音時(shí)長(zhǎng)的比例,根據(jù)所述比例對(duì)語(yǔ)速進(jìn)行評(píng)分; 節(jié)奏評(píng)分具體步驟為:采用改進(jìn)的dPVI參數(shù)計(jì)算公式計(jì)算待評(píng)分語(yǔ)音的節(jié)奏; 重音評(píng)分具體步驟為:在規(guī)整后的強(qiáng)度曲線基礎(chǔ)上,通過設(shè)置重音閾值和非重音閾值作為特征的雙門限以及重讀元音時(shí)長(zhǎng)劃分重音單元,并采用DTW算法對(duì)所述待評(píng)分語(yǔ)音語(yǔ)句和標(biāo)準(zhǔn)語(yǔ)音語(yǔ)句進(jìn)行模式匹配,實(shí)現(xiàn)重音的評(píng)分; 語(yǔ)調(diào)評(píng)分具體步驟為:提取待評(píng)分語(yǔ)音和標(biāo)準(zhǔn)語(yǔ)音的共振峰,并根據(jù)所述待評(píng)分語(yǔ)音共振峰的變化趨勢(shì)與標(biāo)準(zhǔn)語(yǔ)音共振峰的變化趨勢(shì)的擬合程度對(duì)語(yǔ)調(diào)進(jìn)行評(píng)分。
10.一種語(yǔ)音評(píng)分系統(tǒng),其特征在于,包括: 語(yǔ)音錄制模塊,用于錄制考生的考卷語(yǔ)音; 預(yù)處理模塊,用于對(duì)所述考生的考卷語(yǔ)音進(jìn)行預(yù)處理,得到考卷語(yǔ)音語(yǔ)料; 特征參數(shù)提取模塊,用于提取所述考卷語(yǔ)音語(yǔ)料的特征參數(shù); 語(yǔ)音識(shí)別模塊,用于采用基于HMM和ANN混合模型的語(yǔ)音識(shí)別方法對(duì)所述考卷語(yǔ)音語(yǔ)料的特征參數(shù)和標(biāo)準(zhǔn)語(yǔ)音模板進(jìn)行特征匹配,識(shí)別出考卷語(yǔ)音的內(nèi)容,并給予初步評(píng)分以及標(biāo)記是否為問題卷; 語(yǔ)音評(píng)分模塊,用于對(duì)于 初步評(píng)分高于預(yù)先設(shè)定閾值的非問題考卷語(yǔ)音進(jìn)行準(zhǔn)確度評(píng)分、流利度評(píng)分、語(yǔ)速評(píng)分、節(jié)奏評(píng)分、重音評(píng)分和語(yǔ)調(diào)評(píng)分。 綜合評(píng)分模塊,用于綜合準(zhǔn)確度、流利度、語(yǔ)速、節(jié)奏、重音和語(yǔ)調(diào)的評(píng)分計(jì)算得到初步評(píng)分高于設(shè)定閾值的考卷語(yǔ)音的最終評(píng)分。
【文檔編號(hào)】G09B7/02GK103928023SQ201410178813
【公開日】2014年7月16日 申請(qǐng)日期:2014年4月29日 優(yōu)先權(quán)日:2014年4月29日
【發(fā)明者】李心廣, 李蘇梅, 何智明, 陳澤群, 李婷婷, 陳廣豪, 馬曉純, 王曉杰, 陳嘉華, 徐集優(yōu) 申請(qǐng)人:廣東外語(yǔ)外貿(mào)大學(xué), 李心廣