專利名稱::一種基于先驗知識的發(fā)音評估與診斷系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及計算機輔助語言學(xué)習和語音處理
技術(shù)領(lǐng)域:
,特別是一種基于先驗知識的發(fā)音評估與診斷系統(tǒng)。
背景技術(shù):
:我國傳統(tǒng)的普通話學(xué)習和測試方法,目前正面臨著普通話推廣的迫切需求與學(xué)習和測試條件不足的突出矛盾。普通話學(xué)習需要針對學(xué)生個別的問題進行糾正,需要長時間的互動式交流,這些條件以目前的師資是無法滿足的。同時,口語考試是檢驗學(xué)習成果的有效手段,但耗時耗力的人力組織,不可避免的公正性問題以及很難提供反饋信息等因素已成為制約普通話口語考試發(fā)展的瓶頸。要解決以上問題,計算機輔助語言學(xué)習和測試是個可行的方案。隨著計算機技術(shù)和語音識別技術(shù)的發(fā)展,計算機語言學(xué)習和測試系統(tǒng)已經(jīng)從最初的只能進行聽力、閱讀、書寫等功能發(fā)展到對語言學(xué)習者的發(fā)音水平進行自動評分、指出發(fā)音錯誤并根據(jù)發(fā)音錯誤提供診斷信息,從而對學(xué)習者的發(fā)音水平進行全方位測試并幫助學(xué)習者改進發(fā)音,提高學(xué)習效率。因此,作為新一代計算機輔助語言學(xué)習和測試系統(tǒng)的核心部分,自動發(fā)音評估和診斷技術(shù)日益受到關(guān)注。目前的自動發(fā)音評估和診斷技術(shù)是基于統(tǒng)計語音識別框架下的發(fā)音評估和檢錯策略。它首先對輸入語音進行音素分割,對分割得到的每一個音素,計算對數(shù)后驗概率或其簡化形式作為發(fā)音特征,進行發(fā)音質(zhì)量評估,針對學(xué)習者的發(fā)音水平給出相應(yīng)的得分,并采用統(tǒng)一門限進行錯誤檢測。上述方法所面臨的問題是首先,發(fā)音評估和診斷的準確性不是很高,特別是對一些在實際發(fā)音中經(jīng)常犯錯的、發(fā)音又很接近的易混淆音素對。其次,只能針對學(xué)習者的發(fā)音水平高低給出相應(yīng)的得分,無法給出更有指導(dǎo)意義的診斷信息。為解決以上問題,本發(fā)明構(gòu)建一個基于先驗知識的發(fā)音評估與診斷系統(tǒng),該系統(tǒng)不僅可以對學(xué)習者的發(fā)音給出分數(shù),而且可以給出更為細致的診斷信息。
發(fā)明內(nèi)容(—)要解決的技術(shù)問題有鑒于此,本發(fā)明的主要目的在于針對現(xiàn)有發(fā)音評估和診斷方法的缺點,引入語言學(xué)和普通話教學(xué)中的先驗專家知識,提供一種基于先驗知識的發(fā)音評估與診斷系統(tǒng),以提高語言學(xué)習和測試的效率和效果。(二)技術(shù)方案為達到上述目的,本發(fā)明采用的技術(shù)方案如下—種基于先驗知識的發(fā)音評估與診斷系統(tǒng),該系統(tǒng)包括語音預(yù)處理單元,用于對學(xué)習者輸入的原始語音進行預(yù)處理,以實現(xiàn)對語音基本內(nèi)容的確認,將內(nèi)容基本符合標準腳本的語音分割為音素級的小單元,輸入到發(fā)音評估單元進行判別;發(fā)音評估單元,用于對輸入的語音進行初步發(fā)音質(zhì)量評估,利用易混淆音素對的發(fā)音錯誤先驗知識對傳統(tǒng)后驗概率進行修正,基于修正后的后驗概率進行發(fā)音評估,計算出的后驗概率通過映射模型可以轉(zhuǎn)換為直觀的衡量發(fā)音水平的分數(shù)或等級;發(fā)音評估確認和診斷單元,用于對發(fā)音評估單元輸入的初步評估結(jié)果,利用易混淆音素對的區(qū)別性特征的先驗知識,采用基于區(qū)別性特征及分類器的方法,進行發(fā)音評估結(jié)果的確認,并從聲學(xué)語音學(xué)角度提供發(fā)音診斷信息;模型和先驗知識庫單元,用于保存音素對齊和計算后驗概率的模型,以及先驗知識庫;以及評估信息和診斷信息輸出單元,用于輸出包括分級和打分結(jié)果的發(fā)音評估的分數(shù)、發(fā)音錯誤的定位信息、發(fā)音錯誤類型,并給出矯正的指導(dǎo)性建議。上述方案中,所述語音預(yù)處理單元包括端點檢測子單元,用于從信號中區(qū)分出語音和非語音信號,確定語音的起點和終點;特征提取子單元,用于計算有效語音的聲學(xué)參數(shù),并進行特征的計算,提取出反映信號特征的關(guān)鍵特征參數(shù);內(nèi)容確認子單元,用于對輸入的語音進行內(nèi)容方面的驗證,如果輸入發(fā)音的內(nèi)容與給定文本內(nèi)容差異不大,則對語音進行后續(xù)的發(fā)音評估和診斷;對于內(nèi)容和給定文本差異很大的語音,不再進行后續(xù)發(fā)音評估和診斷,直接判斷為用戶發(fā)音錯誤;音素對齊子單元,用于將輸入的有效語音分割成音素級的單元,以便后續(xù)的處理。上述方案中,所述反映信號特征的關(guān)鍵特征參數(shù)是反映人耳聽覺特征的Mel頻率倒譜系數(shù)MFCC,包含由12維倒譜值加上1維能量值構(gòu)成的靜態(tài)特征,以及該靜態(tài)特征的一階動態(tài)特征和二階動態(tài)特征。上述方案中,所述音素對齊子單元采用維特比Viterbi算法將輸入的有效語音分割成音素級的單元,實現(xiàn)音素的對齊。上述方案中,所述發(fā)音評估單元進一步采用分音素門限策略,對不同的音素采用不同門限值,低于相應(yīng)門限的音素被初步判定為發(fā)音錯誤,輸入到發(fā)音評估確認和診斷單元進行確認和錯誤診斷。上述方案中,所述發(fā)音評估確認和診斷單元在利用易混淆音素對的區(qū)別性特征的先驗知識時,對于特定的發(fā)音錯誤類型,利用聲學(xué)語音學(xué)方面的區(qū)別性特征的先驗知識,將正確發(fā)音和錯誤發(fā)音區(qū)別開,從而進行發(fā)音錯誤檢測和診斷,具體是先根據(jù)先驗知識,提取區(qū)別性特征,得到聲學(xué)語音學(xué)區(qū)別性特征后,訓(xùn)練兩類分類器,每個音素建立一個分類器,由該音素的發(fā)音正確樣本和發(fā)音錯誤樣本提取的聲學(xué)語音學(xué)區(qū)別性特征訓(xùn)練得到,由于不同特定發(fā)音錯誤的區(qū)別性特征種類不同,所以對不同音素,所用的區(qū)別性特征種類和維數(shù)不同。上述方案中,所述發(fā)音評估確認和診斷單元利用易混淆音素對的區(qū)別性特征先驗知識構(gòu)建兩類分類器后,對發(fā)音評估單元輸出的初步評估結(jié)果進行確認;根據(jù)發(fā)音錯誤先驗知識和區(qū)別性特征先驗知識,預(yù)先生成一個音素和區(qū)別性特征及分類器的對應(yīng)表;從該表中查到某個音素應(yīng)該對應(yīng)何種特征和分類器,以進行錯誤檢測;錯誤檢測的結(jié)果,一方面可以作為確認信息,用以確認初步評估結(jié)果是否正確,另一方面,可以根據(jù)該音素使用的區(qū)5別性特征,得到更為細致的診斷信息。上述方案中,所述模型和先驗知識庫單元由模型和先驗知識庫組成,其中,模型包括音素標準模型和分級打分模型,先驗知識庫是先驗知識的集合,為發(fā)音評估單元和發(fā)音評估確認和診斷單元提供前面所述的兩種先驗知識,并提供音素與先驗知識相映射的對應(yīng)表。上述方案中,所述音素標準模型為HMM模型,用于音素對齊和計算后驗概率。上述方案中,所述分級打分模型是由專家主觀分數(shù)和客觀后驗概率值得到的映射模型,用于把后驗概率值轉(zhuǎn)換為衡量發(fā)音質(zhì)量的分值或等級。上述方案中,所述先驗知識由系統(tǒng)預(yù)先獲得,由大量語音數(shù)據(jù)通過數(shù)據(jù)驅(qū)動技術(shù)得到,或者直接采用語音語言學(xué)家總結(jié)出的知識。上述方案中,所述評估信息和診斷信息輸出單元的輸出形式具有多樣化特點,融合圖、表、文字和語音,具有良好的用戶界面。(三)有益效果從上述技術(shù)方案可以看出,本發(fā)明具有以下有益效果本發(fā)明提供的這種基于先驗知識的發(fā)音評估與診斷系統(tǒng),對先驗知識的利用比較靈活和充分。先驗知識從兩個方面得到應(yīng)用首先利用易混淆音素對的發(fā)音錯誤先驗知識對傳統(tǒng)后驗概率進行修正,采用修正后的后驗概率進行發(fā)音評估。其次,利用易混淆音素對的區(qū)別性特征先驗知識,采用基于區(qū)別性特征及分類器的方法,確認評估結(jié)果,獲得更好的評估性能,從更基礎(chǔ)、更細致的角度為學(xué)習者提供診斷信息。這兩方面的應(yīng)用都可以根據(jù)實際情況添加或刪減先驗知識的規(guī)則數(shù)目。由于先驗知識的引入,本發(fā)明可以對常見的易混淆音素做出準確判斷,不僅能夠針對發(fā)音水平高低給出相應(yīng)的分數(shù),而且可以提供更有指導(dǎo)意義的診斷信息。此外,后驗概率的分音素門限策略、基于區(qū)別性特征及分類器的方法、整個系統(tǒng)的合理流程都保證了高效、準確的發(fā)音評估和診斷的進行。圖1是本發(fā)明提供的基于先驗知識的發(fā)音評估與診斷系統(tǒng)的示意圖。具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。先驗專家知識在本系統(tǒng)的兩個方面得到應(yīng)用首先,利用易混淆音素對的發(fā)音錯誤先驗知識對傳統(tǒng)后驗概率進行修正,采用修正后的后驗概率進行發(fā)音評估。其次,利用易混淆音素對的區(qū)別性特征先驗知識,采用基于區(qū)別性特征及分類器的方法,確認評估結(jié)果,獲得更好的評估性能,從更基礎(chǔ)、更細致的角度為學(xué)習者提供診斷信息,幫助學(xué)習者矯正和改善發(fā)音。本發(fā)明所提出的基于先驗知識的發(fā)音評估與診斷系統(tǒng),主要包括五個單元語音預(yù)處理單元、發(fā)音評估單元、發(fā)音評估確認和診斷單元、模型和先驗知識庫單元、評估信息和診斷信息輸出單元。具體如下1.語音預(yù)處理單元6語音預(yù)處理單元用于對學(xué)習者輸入的原始語音進行預(yù)處理,以實現(xiàn)對語音基本內(nèi)容的確認,將內(nèi)容基本符合標準腳本的語音分割為音素級的小單元,輸入到發(fā)音評估單元進行判別。語音預(yù)處理單元主要包括以下四個子單元端點檢測子單元、特征提取子單元、內(nèi)容確認子單元和音素對齊子單元,各子單元的功能具體如下端點檢測子單元用于從信號中區(qū)分出語音和非語音信號,確定語音的起點和終點。在實際環(huán)境中,背景噪聲對評估和診斷系統(tǒng)的影響非常大,在信噪比低的情況下,系統(tǒng)無法對輸入的語音進行正確判斷。準確地從背景噪聲中檢測出語音有效范圍的開始和結(jié)束位置,刪除不含語音的背景噪聲,不僅可以提高系統(tǒng)性能,還可以減少處理的數(shù)據(jù)量,從而降低處理時間。特征提取子單元用于計算有效語音的聲學(xué)參數(shù),并進行特征的計算,提取出反映信號特征的關(guān)鍵特征參數(shù),以降低維數(shù)并便于后續(xù)步驟的進行。本系統(tǒng)中使用的特征參數(shù)是反映人耳聽覺特征的Mel頻率倒譜系數(shù)(MFCC),包含由12維倒譜值加上1維能量值構(gòu)成的靜態(tài)特征,以及該靜態(tài)特征的一階動態(tài)特征和二階動態(tài)特征。內(nèi)容確認子單元用于對輸入的語音進行內(nèi)容方面的驗證,如果輸入發(fā)音的內(nèi)容與給定文本內(nèi)容差異不大,則對語音進行后續(xù)的發(fā)音評估和診斷;對于內(nèi)容和給定文本差異很大的語音,不再進行后續(xù)發(fā)音評估和診斷,直接判斷為用戶發(fā)音錯誤。音素對齊子單元用于將輸入的有效語音分割成音素級的單元,以便后續(xù)的處理。本系統(tǒng)的音素對齊采用維特比(Viterbi)算法。2.發(fā)音評估單元發(fā)音評估單元用于對輸入的語音進行初步發(fā)音質(zhì)量評估,利用易混淆音素對的發(fā)音錯誤先驗知識對傳統(tǒng)后驗概率進行修正,基于修正后的后驗概率進行發(fā)音評估,計算出的后驗概率通過映射模型可以轉(zhuǎn)換為直觀的衡量發(fā)音水平的分數(shù)或等級。同時,采用分音素門限策略,對不同的音素采用不同門限值,低于相應(yīng)門限的音素被初步判定為發(fā)音錯誤,輸入到發(fā)音評估確認和診斷單元進行確認和錯誤診斷。1)基于修正后驗概率的發(fā)音評估語言學(xué)家長期研究表明,發(fā)音錯誤或缺陷分為兩類一類是由于不認識字或不熟悉發(fā)音規(guī)則而生成的,另一類是受母語或方言的影響而生成的。后者的規(guī)律性較強,往往也是學(xué)習者常犯的典型發(fā)音錯誤,應(yīng)該得到更充分的重視和反饋。這種發(fā)音錯誤的規(guī)律性可以作為先驗知識,引入到發(fā)音評估及診斷系統(tǒng)中,在本發(fā)明中,它用于修正傳統(tǒng)的后驗概率計算方法,以得到更好的發(fā)音評估性能。對音素qi,傳統(tǒng)的后驗概率定義為<formula>formulaseeoriginaldocumentpage7</formula>其中,Pi是對應(yīng)的發(fā)音數(shù)據(jù)0i對音素Qi的后驗概率,Prob(0iIqi)是音素qi的似然度,1音素qi的時長,Q是模型集合?!悖琎取所有音素或者當Qi為聲母時,Q取聲母集合,Qi為韻母時,Q取韻母集合。引入發(fā)音錯誤先驗知識,0i對音素Qi的后驗概率改進為<formula>formulaseeoriginaldocumentpage8</formula>其中,Qi是音素&常見發(fā)音錯誤類型的模型集合。采用以上計算方法,本質(zhì)上是減少了后驗概率計算過程中分母的計算空間,這不僅提高了后驗概率的計算速度,而且由于排除了常見典型錯誤外其它易混淆音素模型的影響,所以加強了常見典型錯誤的檢測能力。對于發(fā)音錯誤先驗知識的獲取,一種方法是直接利用語言學(xué)家總結(jié)出的發(fā)音錯誤基本類型,另一種方法是采用數(shù)據(jù)驅(qū)動技術(shù),從大量語音數(shù)據(jù)中統(tǒng)計得到。本發(fā)明采用兩種方法結(jié)合的形式得到最終的發(fā)音錯誤先驗知識,所使用的部分發(fā)音錯誤先驗知識如表1所示,表1是易混淆音素對的發(fā)音錯誤先驗知識。<table>tableseeoriginaldocumentpage8</column></row><table><table>tableseeoriginaldocumentpage9</column></row><table>表1上述是針對某一個音素計算的修正后驗概率,采用映射的方法,可以把后驗概率值映射到系統(tǒng)需要的分制上,保持與主觀測試的一致。映射方法可以采取線性方法和非線性方法,線性方法比較簡單,而非線性方法更符合客觀實際。經(jīng)過映射后,系統(tǒng)得到學(xué)習者對該音素發(fā)音的分數(shù),而針對學(xué)習者的整體評價,可以將每個音素的后驗概率值在詞匯上或整個語流上進行規(guī)整,得到該詞匯或整個語流的后驗概率后再進行映射以得到整體評價。規(guī)整方法可以是簡單的所有音素后驗概率的平均或者加權(quán)平均。2)分音素門限策略上述評估方法可以得到對音素、詞匯和整個語流的發(fā)音評估分數(shù),對于后驗概率偏高的音素,發(fā)音評估分數(shù)應(yīng)該比較高,而對于后驗概率偏低的音素,發(fā)音評估分數(shù)就比較低。對于發(fā)音分數(shù)偏低的音素,我們需要在后驗概率層次上設(shè)定門限,低于該門限的音素輸入到下一單元進行處理,以提供更細致的發(fā)音診斷信息。傳統(tǒng)的門限方法采用統(tǒng)一門限進行錯誤檢測,由于各音素模型的后驗概率分布并不相同,而且這種不同在采用后驗概率修正方法后更加突出,所以本發(fā)明采用分音素門限策略,對不同的音素采用不同的門限。門限值由訓(xùn)練語音得到。3.發(fā)音評估確認及診斷單元發(fā)音評估確認及診斷單元的作用是對發(fā)音評估得到的結(jié)果進行確認并進行發(fā)音錯誤診斷。它對發(fā)音評估單元輸入的音素信息(包括初步評估結(jié)果),利用易混淆音素對的區(qū)別性特征的先驗知識,采用基于區(qū)別性特征及分類器的方法,進行發(fā)音評估結(jié)果的確認,并從聲學(xué)語音學(xué)角度提供發(fā)音診斷信息。1)區(qū)別性特征先驗知識的利用對于特定的發(fā)音錯誤類型,利用聲學(xué)語音學(xué)方面的區(qū)別性特征的先驗知識,可以將正確發(fā)音和錯誤發(fā)音區(qū)別開,從而進行發(fā)音錯誤檢測和診斷。一方面,這種方法可以彌補后驗概率特征對某些錯誤評估性能不佳的缺陷,對后驗概率評估結(jié)果進行確認,減少誤報。另一方面,聲學(xué)語音學(xué)區(qū)別性特征與發(fā)音機理密切相關(guān),具有明顯的生理物理特性,可以給學(xué)習者提供更加細致和詳細的反饋,更有利于學(xué)習者對缺陷音的掌握。在這種方法中,首先根據(jù)先驗知識,提取區(qū)別性特征。本發(fā)明使用的區(qū)別性特征如表2所示,表2是易混淆音素對的區(qū)分性特征先驗知識。9元音(韻母)的區(qū)別性特征表現(xiàn)形式共振峰模式共振峰在頻率軸上排列的形式,稱為共振峰模式,不同的元音(韻母),共振峰模式不同。a)第一共振峰Fl受舌位高低的影響大(舌位高F1就低,舌位低,F(xiàn)l就高)b)Fl還和開口度有關(guān),開口大則Fl大c)第二共振峰F2受舌位前后的影響大(舌位前F2就高,舌位后F2就低)d)F2還與唇型的圓展有關(guān),圓唇作用可以使F2降低。e)第三共振峰F3受舌尖活動的影響,當舌尖巻起發(fā)音時,F(xiàn)3的頻率降低。f)三條共振峰的軌跡和它們之間的相對位置對不同的韻母有明顯的區(qū)分度元音時長a)長元音的時長經(jīng)常大于相應(yīng)短元音的時長b)開口元音的時長一般大于閉口元音的時長c)復(fù)合元音的時長一般要大于單元音的時長基音頻率基音頻率FO隨元音高低而變化,相對低元音,高元音具有相對高一些的FO輔音(聲母)混淆音素對區(qū)別性特征表現(xiàn)形式巻舌音一平舌音能量集中區(qū)平舌音和巻舌音,由于發(fā)音部位不同,造成發(fā)音時的共鳴腔的大小不同,不同大小的共鳴腔使得共鳴頻率不同,即能量得到加強的頻率位置不同,進而造成能量集中區(qū)的不同。塞擦音一清擦音能量變化率塞擦音在發(fā)音過程中存在短爆破,這段很短的時間大約為IOms,能量的上升速度較其它音段更加迅速,頻域的頻率10<table>tableseeoriginaldocumentpage11</column></row><table>表2得到聲學(xué)語音學(xué)區(qū)別性特征后,可以訓(xùn)練兩類分類器。每個音素建立一個,由該音素的發(fā)音正確樣本和發(fā)音錯誤樣本提取的聲學(xué)語音學(xué)區(qū)別性特征訓(xùn)練得到。由于不同特定發(fā)音錯誤的區(qū)別性特征種類不同,所以對不同音素,所用的區(qū)別性特征種類和維數(shù)不同。2)發(fā)音評估確認和診斷利用易混淆音素對的區(qū)別性特征先驗知識,構(gòu)建兩類分類器后,就可以對發(fā)音評估單元輸出的初步評估結(jié)果進行確認。根據(jù)發(fā)音錯誤先驗知識和區(qū)別性特征先驗知識,系統(tǒng)預(yù)先生成一個音素和區(qū)別性特征及分類器的對應(yīng)表。從表中可以查到某個音素應(yīng)該對應(yīng)何種特征和分類器,以進行錯誤檢測。錯誤檢測的結(jié)果,一方面可以作為確認信息,用以確認初步評估結(jié)果是否正確,另一方面,可以根據(jù)該音素使用的區(qū)別性特征,得到更為細致的診斷信息。4.模型和先驗知識庫單元模型和先驗知識庫單元由模型和先驗知識庫組成,用于保存音素對齊和計算后驗概率的模型,以及先驗知識庫。其中,模型包括音素的標準模型和分級打分模型。音素單元模型一般為HMM模型,用于音素對齊和計算后驗概率。分級打分模型是由專家主觀分數(shù)和客觀后驗概率值得到的映射模型,用于把后驗概率值轉(zhuǎn)換為衡量發(fā)音質(zhì)量的分值或等級。先驗知識庫是先驗知識的集合,它為發(fā)音評估單元和發(fā)音評估確認和診斷單元提供前面所述的兩種先驗知識,并提供音素與先驗知識相映射的對應(yīng)表。先驗知識由系統(tǒng)預(yù)先獲得,可以由大量語音數(shù)據(jù)通過數(shù)據(jù)驅(qū)動技術(shù)得到,也可以直接采用語音語言學(xué)家總結(jié)出的知識。5.評估信息和診斷信息輸出單元評估信息和診斷信息輸出單元用于輸出發(fā)音評估的分數(shù)(包括分級和打分結(jié)果)、發(fā)音錯誤的定位信息、發(fā)音錯誤類型,并給出矯正的指導(dǎo)性建議。該單元的輸出形式具有多樣化特點,融合圖、表、文字和語音,具有良好的用戶界面。再次參照圖l,左邊的虛線框部分是模型和先驗知識庫單元,由系統(tǒng)預(yù)先獲得。右邊是評估信息和診斷信息輸出單元,用以輸出系統(tǒng)最終結(jié)果。中間部分包含三個過程單元語音預(yù)處理單元、發(fā)音評估單元、發(fā)音評估確認和診斷單元。各單元之間的交互流程如下系統(tǒng)首先對輸入的語音進行預(yù)處理,通過端點檢測、特征提取,內(nèi)容確認和音素對齊等過程,將學(xué)習者語音分割為音素級的小單元,輸入到發(fā)音評估單元。發(fā)音評估單元則根據(jù)易混淆音素對的發(fā)音錯誤先驗知識來計算音素的修正后驗概率。對于計算得到的后驗概率值,一方面通過分級打分模型轉(zhuǎn)換為直觀的分數(shù)或等級,另一方面和對應(yīng)的音素門限進行比較。當后驗概率低于相應(yīng)門限時,初步判定該音素發(fā)音錯誤。門限是根據(jù)所要求的系統(tǒng)性能預(yù)先設(shè)置好的。接著,初步被判定為錯誤的音素信息被輸入到評估確認和診斷單元做進一步處理。首先根據(jù)音素的區(qū)別性特征先驗知識,提取該音素對應(yīng)的聲學(xué)語音學(xué)區(qū)別性特征,然后進行分類,給出是否錯誤、錯誤位置和相應(yīng)矯正建議等信息。最后,發(fā)音評估單元輸出的分數(shù)等級和發(fā)音評估確認和診斷單元輸出的其它信息在右邊的輸出單元進行融合后給出系統(tǒng)的最終結(jié)果。融合的原則是發(fā)音評估確認和診斷單元輸出的信息對發(fā)音評估單元輸出信息起糾正作用,以減少系統(tǒng)對發(fā)音錯誤的誤報率。以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。1權(quán)利要求一種基于先驗知識的發(fā)音評估與診斷系統(tǒng),其特征在于,該系統(tǒng)包括語音預(yù)處理單元,用于對學(xué)習者輸入的原始語音進行預(yù)處理,以實現(xiàn)對語音基本內(nèi)容的確認,將內(nèi)容基本符合標準腳本的語音分割為音素級的小單元,輸入到發(fā)音評估單元進行判別;發(fā)音評估單元,用于對輸入的語音進行初步發(fā)音質(zhì)量評估,利用易混淆音素對的發(fā)音錯誤先驗知識對傳統(tǒng)后驗概率進行修正,基于修正后的后驗概率進行發(fā)音評估,計算出的后驗概率通過映射模型可以轉(zhuǎn)換為直觀的衡量發(fā)音水平的分數(shù)或等級;發(fā)音評估確認和診斷單元,用于對發(fā)音評估單元輸入的初步評估結(jié)果,利用易混淆音素對的區(qū)別性特征的先驗知識,采用基于區(qū)別性特征及分類器的方法,進行發(fā)音評估結(jié)果的確認,并從聲學(xué)語音學(xué)角度提供發(fā)音診斷信息;模型和先驗知識庫單元,用于保存音素對齊和計算后驗概率的模型,以及先驗知識庫;以及評估信息和診斷信息輸出單元,用于輸出包括分級和打分結(jié)果的發(fā)音評估的分數(shù)、發(fā)音錯誤的定位信息、發(fā)音錯誤類型,并給出矯正的指導(dǎo)性建議。2.根據(jù)權(quán)利要求1所述的基于先驗知識的發(fā)音評估與診斷系統(tǒng),其特征在于,所述語音預(yù)處理單元包括端點檢測子單元,用于從信號中區(qū)分出語音和非語音信號,確定語音的起點和終點;特征提取子單元,用于計算有效語音的聲學(xué)參數(shù),并進行特征的計算,提取出反映信號特征的關(guān)鍵特征參數(shù);內(nèi)容確認子單元,用于對輸入的語音進行內(nèi)容方面的驗證,如果輸入發(fā)音的內(nèi)容與給定文本內(nèi)容差異不大,則對語音進行后續(xù)的發(fā)音評估和診斷;對于內(nèi)容和給定文本差異很大的語音,不再進行后續(xù)發(fā)音評估和診斷,直接判斷為用戶發(fā)音錯誤;音素對齊子單元,用于將輸入的有效語音分割成音素級的單元,以便后續(xù)的處理。3.根據(jù)權(quán)利要求2所述的基于先驗知識的發(fā)音評估與診斷系統(tǒng),其特征在于,所述反映信號特征的關(guān)鍵特征參數(shù)是反映人耳聽覺特征的Mel頻率倒譜系數(shù)MFCC,包含由12維倒譜值加上1維能量值構(gòu)成的靜態(tài)特征,以及該靜態(tài)特征的一階動態(tài)特征和二階動態(tài)特征。4.根據(jù)權(quán)利要求2所述的基于先驗知識的發(fā)音評估與診斷系統(tǒng),其特征在于,所述音素對齊子單元采用維特比Viterbi算法將輸入的有效語音分割成音素級的單元,實現(xiàn)音素的對齊。5.根據(jù)權(quán)利要求1所述的基于先驗知識的發(fā)音評估與診斷系統(tǒng),其特征在于,所述發(fā)音評估單元進一步采用分音素門限策略,對不同的音素采用不同門限值,<低于相應(yīng)門限的音素被初步判定為發(fā)音錯誤,輸入到發(fā)音評估確認和診斷單元進行確認和錯誤診斷。6.根據(jù)權(quán)利要求1所述的基于先驗知識的發(fā)音評估與診斷系統(tǒng),其特征在于,所述發(fā)音評估確認和診斷單元在利用易混淆音素對的區(qū)別性特征的先驗知識時,對于特定的發(fā)音錯誤類型,利用聲學(xué)語音學(xué)方面的區(qū)別性特征的先驗知識,將正確發(fā)音和錯誤發(fā)音區(qū)別開,從而進行發(fā)音錯誤檢測和診斷,具體是先根據(jù)先驗知識,提取區(qū)別性特征,得到聲學(xué)語音學(xué)區(qū)別性特征后,訓(xùn)練兩類分類器,每個音素建立一個分類器,由該音素的發(fā)音正確樣本和發(fā)音錯誤樣本提取的聲學(xué)語音學(xué)區(qū)別性特征訓(xùn)練得到,由于不同特定發(fā)音錯誤的區(qū)別性特征種類不同,所以對不同音素,所用的區(qū)別性特征種類和維數(shù)不同。7.根據(jù)權(quán)利要求6所述的基于先驗知識的發(fā)音評估與診斷系統(tǒng),其特征在于,所述發(fā)音評估確認和診斷單元利用易混淆音素對的區(qū)別性特征先驗知識構(gòu)建兩類分類器后,對發(fā)音評估單元輸出的初步評估結(jié)果進行確認;根據(jù)發(fā)音錯誤先驗知識和區(qū)別性特征先驗知識,預(yù)先生成一個音素和區(qū)別性特征及分類器的對應(yīng)表;從該表中查到某個音素應(yīng)該對應(yīng)何種特征和分類器,以進行錯誤檢測;錯誤檢測的結(jié)果,一方面可以作為確認信息,用以確認初步評估結(jié)果是否正確,另一方面,可以根據(jù)該音素使用的區(qū)別性特征,得到更為細致的診斷信息。8.根據(jù)權(quán)利要求1所述的基于先驗知識的發(fā)音評估與診斷系統(tǒng),其特征在于,所述模型和先驗知識庫單元由模型和先驗知識庫組成,其中,模型包括音素標準模型和分級打分模型,先驗知識庫是先驗知識的集合,為發(fā)音評估單元和發(fā)音評估確認和診斷單元提供前面所述的兩種先驗知識,并提供音素與先驗知識相映射的對應(yīng)表。9.根據(jù)權(quán)利要求8所述的基于先驗知識的發(fā)音評估與診斷系統(tǒng),其特征在于,所述音素標準模型為HMM模型,用于音素對齊和計算后驗概率。10.根據(jù)權(quán)利要求8所述的基于先驗知識的發(fā)音評估與診斷系統(tǒng),其特征在于,所述分級打分模型是由專家主觀分數(shù)和客觀后驗概率值得到的映射模型,用于把后驗概率值轉(zhuǎn)換為衡量發(fā)音質(zhì)量的分值或等級。11.根據(jù)權(quán)利要求8所述的基于先驗知識的發(fā)音評估與診斷系統(tǒng),其特征在于,所述先驗知識由系統(tǒng)預(yù)先獲得,由大量語音數(shù)據(jù)通過數(shù)據(jù)驅(qū)動技術(shù)得到,或者直接采用語音語言學(xué)家總結(jié)出的知識。12.根據(jù)權(quán)利要求1所述的基于先驗知識的發(fā)音評估與診斷系統(tǒng),其特征在于,所述評估信息和診斷信息輸出單元的輸出形式具有多樣化特點,融合圖、表、文字和語音,具有良好的用戶界面。全文摘要本發(fā)明公開了一種基于先驗知識的發(fā)音評估與診斷系統(tǒng),包括語音預(yù)處理單元、發(fā)音評估單元、評估確認和診斷單元、模型和先驗知識庫單元和評估信息和診斷信息輸出單元。先驗知識在本系統(tǒng)的兩個方面得到應(yīng)用首先,利用易混淆音素對的發(fā)音錯誤先驗知識對傳統(tǒng)后驗概率進行修正,采用修正后的后驗概率進行發(fā)音評估。其次,利用易混淆音素對的區(qū)分性特征先驗知識,采用基于區(qū)分性特征及分類器的方法,確認評估結(jié)果,獲得更好的評估性能,從更基礎(chǔ)、更細致的角度為學(xué)習者提供診斷信息,幫助學(xué)習者矯正和改善發(fā)音。本發(fā)明的基于先驗知識的發(fā)音評估與診斷系統(tǒng)能夠滿足普通話學(xué)習和測試中的高穩(wěn)定性、高準確性要求,是一種創(chuàng)新且有效的方法。文檔編號G09B19/06GK101739869SQ20081022667公開日2010年6月16日申請日期2008年11月19日優(yōu)先權(quán)日2008年11月19日發(fā)明者徐波,徐爽,江杰,浦劍濤,陳振標申請人:中國科學(xué)院自動化研究所