一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法

文檔序號(hào)：2837334閱讀：263來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法
技術(shù)領(lǐng)域：
本發(fā)明屬于自動(dòng)語音識(shí)別在發(fā)音檢錯(cuò)上的應(yīng)用，具體涉及基于自動(dòng)語音識(shí)別技術(shù)，利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法。
技術(shù)背景基于語音自動(dòng)識(shí)別技術(shù)對(duì)發(fā)音進(jìn)行錯(cuò)誤檢測(cè)的方法，現(xiàn)有技術(shù)主要依賴于后驗(yàn)概率，使用后驗(yàn)概率作為發(fā)音錯(cuò)誤度量有兩個(gè)缺陷。第一、后驗(yàn)概率出自語音識(shí)別器，由于人工標(biāo)注錯(cuò)誤數(shù)據(jù)太過稀少，使用后驗(yàn)概率很難根據(jù)發(fā)音錯(cuò)誤標(biāo)注數(shù)據(jù)反饋的更新識(shí)別器模型參數(shù)，因此現(xiàn)有的方法均沒有根據(jù)人工發(fā)音錯(cuò)誤標(biāo)注數(shù)據(jù)更新識(shí)別器模型參數(shù)。第二、后驗(yàn)概率方法可調(diào)整參數(shù)太少，只能調(diào)整檢錯(cuò) 門限，無法充分運(yùn)用人工標(biāo)注發(fā)音錯(cuò)誤信息，人工標(biāo)注數(shù)據(jù)增多并不能帶來性能提升。發(fā)明內(nèi)容針對(duì)現(xiàn)有技術(shù)利用后驗(yàn)概率進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的缺陷，本發(fā)明提出了能有效解決人工標(biāo)注稀疏問題，充分運(yùn)用人工標(biāo)注發(fā)音錯(cuò)誤信息，從而保證了訓(xùn)練得到的檢錯(cuò)模型可以較好針對(duì)不同發(fā)音人，不同發(fā)音風(fēng)格進(jìn)行錯(cuò)誤檢測(cè)的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法。本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，該方法用典型錯(cuò)誤支持向量機(jī)檢測(cè)方法進(jìn)行發(fā)音錯(cuò)誤的檢測(cè)，所述的典型錯(cuò)誤支持向量機(jī)檢測(cè)方法包括以下步驟語音識(shí)別系統(tǒng)的搭建、發(fā)音錯(cuò)誤檢測(cè)特征提取、獲取發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn) 練目標(biāo)數(shù)據(jù)、訓(xùn)練發(fā)音錯(cuò)誤支持向量機(jī)檢測(cè)模型和發(fā)音錯(cuò)誤的檢測(cè)。一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，所述語音識(shí)別系統(tǒng)的搭建其步驟如下(1) 預(yù)先收集和錄制標(biāo)準(zhǔn)的發(fā)音語料，并保存為識(shí)別器訓(xùn)練語音文件；(2) 針對(duì)收集的標(biāo)準(zhǔn)語料進(jìn)行拼音或音標(biāo)的標(biāo)注；(3) 模型訓(xùn)練根據(jù)收集的標(biāo)準(zhǔn)語料訓(xùn)練音素級(jí)語音識(shí)別器模型；(4)將語音識(shí)別器保存到計(jì)算機(jī)輔助語言學(xué)習(xí)系統(tǒng)庫中。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，所述發(fā)音錯(cuò)誤檢測(cè)特征提取，其步驟為首先利用被評(píng)測(cè)語料的文本，對(duì)發(fā)音進(jìn)行自動(dòng)切分和計(jì)算目標(biāo)文本的對(duì)數(shù)似然度，記為/汰^7^0^，然后，在切分得到的音素邊界上，計(jì)算此音段對(duì)識(shí)別器內(nèi)所有其它模型的對(duì)數(shù)似然度，這是一個(gè)矢量，記為 (/zUzTjoo^/^//^^.."http://^^'/^""，然后，禾U用/汰eW o《進(jìn)行規(guī)整發(fā)音錯(cuò)誤檢測(cè)特征提取。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，所述獲取發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練目標(biāo)數(shù)據(jù)，其步驟如下(1) 收集真實(shí)發(fā)音人語料，錄制多發(fā)音人數(shù)據(jù)；(2) 根據(jù)收集的發(fā)音人真實(shí)數(shù)據(jù)，以及發(fā)音文本，使用發(fā)音評(píng)測(cè)專家對(duì)數(shù)據(jù)進(jìn) 行標(biāo)注，得到發(fā)音錯(cuò)誤標(biāo)注數(shù)據(jù)，以此作為發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練數(shù)據(jù)。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，所述訓(xùn)練發(fā)音錯(cuò)誤支持向量機(jī)檢測(cè)模型，其步驟如下(1) 根據(jù)發(fā)音錯(cuò)誤特征提取模塊得到發(fā)音錯(cuò)誤檢測(cè)特征數(shù)據(jù)，根據(jù)專家標(biāo)注模塊得到目標(biāo)數(shù)據(jù)；(2) 使用支持向量機(jī)訓(xùn)練工具，使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯(cuò)支持向量機(jī)模型；(3) 在專家標(biāo)注數(shù)據(jù)上，在支持向量機(jī)輸出得分的基礎(chǔ)上，設(shè)置發(fā)音錯(cuò)誤檢測(cè) 門限，從而達(dá)到檢出率和誤檢率的平衡。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，所述發(fā)音錯(cuò)誤檢測(cè)步驟如下(1) 利用文本信息對(duì)發(fā)音文件進(jìn)行切分和計(jì)算似然度，然后按照特征提取模塊的方法計(jì)算特征文件，記為/^/we,^;(2) 利用前面計(jì)算得到的特征々W"/^,，運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，所述收集的標(biāo)準(zhǔn)語料是利用 HTK訓(xùn)練基于HMM的音素級(jí)語音識(shí)別器模型。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，所述計(jì)算此音段對(duì)識(shí)別器內(nèi) 所有其它模型的對(duì)數(shù)似然度時(shí)，對(duì)于中文，聲母和韻母分開，聲母只計(jì)算所有聲母，韻母只計(jì)算所有韻母；對(duì)于英文，元音和輔音分開，元音只計(jì)算所有元音，輔音只計(jì)算所有輔音。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，該方法還包括有異常錯(cuò)誤門限檢測(cè)方法，異常錯(cuò)誤門限檢測(cè)方法包括有以下步驟(1) 訓(xùn)練異常發(fā)音錯(cuò)誤檢測(cè)器，其步驟如下-1) 利用特征提取模塊方法得到異常發(fā)音錯(cuò)誤特征/Mft^^力^。,，這個(gè)特征就是支持向量機(jī)特征各維的最大值，這里采用目標(biāo)數(shù)據(jù)模塊中的偽造數(shù)據(jù)方法來生成目標(biāo)數(shù)據(jù)；2) 對(duì)每種音素直接設(shè)置一個(gè)門限來完成錯(cuò)誤檢測(cè)，以此定義異常發(fā)音錯(cuò)誤；3) 在偽造目標(biāo)錯(cuò)誤數(shù)據(jù)上，訓(xùn)練門限，從而滿足檢出率和誤檢率的平衡，以此(2) 設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限；進(jìn)行異常錯(cuò)誤判決首先計(jì)算得到的異常錯(cuò)誤檢測(cè)模塊特征/ ^/^ —,￡a,，這個(gè)特征就是支持向量機(jī)特征各維的最大值，把這個(gè)特征跟訓(xùn)練時(shí)確定的異常錯(cuò)誤檢測(cè)門限進(jìn)行比較，如果/e她^^—大于門限，則認(rèn)為發(fā)生異常發(fā)音錯(cuò)誤。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，該方法還包括有異常混淆錯(cuò) 誤支持向量機(jī)檢測(cè)方法，異?；煜e(cuò)誤支持向量機(jī)檢測(cè)方法包括有以下步驟(1) 定義每個(gè)音素的易混淆錯(cuò)誤對(duì)首先，使用異常錯(cuò)誤門限檢測(cè)方法測(cè)試每個(gè)音素對(duì)的性能，得到每個(gè)音素和所有其它音素發(fā)生錯(cuò)誤時(shí)的檢測(cè)性能，誤檢率固定在0. 05時(shí)，檢出率低于門限0. 95的認(rèn)為是易混淆錯(cuò)誤對(duì)；(2) 生成訓(xùn)練特征文件和目標(biāo)數(shù)據(jù)按照易混淆錯(cuò)誤對(duì)定義，取某音素的所有發(fā)音正確的數(shù)據(jù)作為正確樣本，這些數(shù)據(jù)的支持向量機(jī)特征直接作為訓(xùn)練數(shù)據(jù)特征，取所有某音素的易混淆集合里面的音素的發(fā)音正確樣本為某音素的錯(cuò)誤樣本，訓(xùn)練特征文件，目標(biāo)數(shù)據(jù)為所有某音素的樣本認(rèn)為是正確樣本，所有其它音素樣本認(rèn)為是錯(cuò)誤樣本；(3) 訓(xùn)練支持向量機(jī)模型使用支持向量機(jī)訓(xùn)練工具，使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯(cuò)支持向量機(jī)模型；(4) 設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限；進(jìn)行異常易混淆錯(cuò)誤判決利用前面計(jì)算得到的特征/e"^^w，運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出結(jié)果計(jì)算，把計(jì)算結(jié)果跟訓(xùn)練異常易混淆發(fā)音錯(cuò) 誤支持向量機(jī)模型時(shí)確定的檢錯(cuò)門限進(jìn)行比較，如果支持向量機(jī)結(jié)果大于門限，則認(rèn)為發(fā)生異常易混淆發(fā)音錯(cuò)誤。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，所述的訓(xùn)練特征文件以某音素正確樣本作為其它音素的錯(cuò)誤樣本用下式計(jì)算—>0她< ,知ft/《—加加《，...,加fwre- —加/w《 )本發(fā)明提出運(yùn)用支持向量機(jī)(SVM)方法來進(jìn)行檢錯(cuò)，其輸入特征是基于語音識(shí)別器的多維對(duì)數(shù)似然比，其可調(diào)整參數(shù)為支持向量機(jī)分類器權(quán)重。其優(yōu)點(diǎn)在于l、由于可調(diào)整參數(shù)相比于語音識(shí)別器大大減少(從幾十萬個(gè)參數(shù)減少到幾百個(gè)參數(shù))，從而解決了人工標(biāo)注稀疏問題。2、由于支持向量機(jī)分類器根據(jù)人工標(biāo) 注數(shù)據(jù)訓(xùn)練，從而充分運(yùn)用了人工標(biāo)注發(fā)音錯(cuò)誤信息。且人工標(biāo)注數(shù)據(jù)越多，分類器性能越好。3、支持向量機(jī)方法是90年代的重大突破，它從理論上保證了分類器在不可見數(shù)據(jù)上的良好推廣性，本方法使用SVM進(jìn)行檢錯(cuò)，從而保證了訓(xùn)練得到的檢錯(cuò)模型可以較好的針對(duì)不同發(fā)音人，不同發(fā)音風(fēng)格進(jìn)行錯(cuò)誤檢測(cè)。典型錯(cuò)誤由于引入了支持向量機(jī)，從而有效的運(yùn)用了人工標(biāo)注數(shù)據(jù)信息，從而對(duì)于整體發(fā)音檢錯(cuò)性能提升較大。在我們的一個(gè)321人的普通話水平測(cè)試數(shù)據(jù) 庫上，其在不同的檢出率和虛警率的指標(biāo)下，對(duì)于單音節(jié)字，其性能和傳統(tǒng)做法類似。對(duì)于雙音節(jié)詞和連續(xù)語流，支持向量機(jī)檢錯(cuò)均比傳統(tǒng)方法取得了較大的進(jìn) 步。對(duì)于異常數(shù)據(jù)，由于沒有正常發(fā)音錯(cuò)誤數(shù)據(jù)進(jìn)行測(cè)試。因此，我們從理論和實(shí)際上進(jìn)行分析如下首先，引入了其它音素的正確樣本進(jìn)行訓(xùn)練，從而解決了異常錯(cuò)誤訓(xùn)練中最缺少的目標(biāo)樣本問題。傳統(tǒng)的策略是在正常發(fā)音錯(cuò)誤上訓(xùn)練，這樣跟異常錯(cuò)誤檢測(cè)這個(gè)目標(biāo)偏離很遠(yuǎn)。因此，異常錯(cuò)誤目標(biāo)數(shù)據(jù)選擇策略保證了我們的策略的成功。其次，針對(duì)聲學(xué)上混淆的錯(cuò)誤對(duì)，我們引入支持向量機(jī)進(jìn)行分類檢錯(cuò)，從而有效的彌補(bǔ)了傳統(tǒng)策略在聲學(xué)混淆時(shí)性能的急劇下降。從上面兩個(gè)方面分析我們可以看到，采用我們的異常錯(cuò)誤門限檢錯(cuò)策略和異常錯(cuò)誤混淆對(duì)支持向量機(jī)檢錯(cuò)策略能夠有效地針對(duì)異常錯(cuò)誤進(jìn)行檢測(cè)。

圖1為本發(fā)明發(fā)音錯(cuò)誤檢測(cè)流程框圖。圖2為本發(fā)明語音識(shí)別系統(tǒng)搭建流程框圖。圖3為本發(fā)明發(fā)音錯(cuò)誤檢測(cè)特征提取流程框圖。圖4為本發(fā)明典型發(fā)音錯(cuò)誤人工標(biāo)注數(shù)據(jù)獲取流程框圖。圖5為本發(fā)明異常發(fā)音錯(cuò)誤偽造數(shù)據(jù)獲取流程框圖。圖6為本發(fā)明典型發(fā)音錯(cuò)誤支持向量機(jī)模型訓(xùn)練和門限設(shè)定流程框圖。
具體實(shí)施方式
實(shí)施例l參加附圖1 6所示。利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法具體實(shí)施步驟為1、語音識(shí)別系統(tǒng)的搭建，其步驟如下(1) 收集訓(xùn)練識(shí)別器語音根據(jù)語言學(xué)習(xí)的應(yīng)用需要，預(yù)先收集或錄制有針對(duì) 性的標(biāo)準(zhǔn)的發(fā)音語料，并保存為識(shí)別器訓(xùn)練語音文件，比如針對(duì)漢語普通話水平測(cè)試就錄制標(biāo)準(zhǔn)普通話發(fā)音人的普通話水平測(cè)試語料；(2) 數(shù)據(jù)標(biāo)注針對(duì)收集的標(biāo)準(zhǔn)語料進(jìn)行拼音標(biāo)注，使得收集的語料對(duì)語音評(píng) 測(cè)具有針對(duì)性；(3) 模型訓(xùn)練根據(jù)收集的標(biāo)準(zhǔn)語料利用HTK訓(xùn)練基于H醒的音素級(jí)(27個(gè)聲母，包含零聲母，37個(gè)韻母)語音識(shí)別器模型(4) 保存將模型保存到計(jì)算機(jī)輔助語言學(xué)習(xí)系統(tǒng)庫中；2、發(fā)音錯(cuò)誤檢測(cè)特征提取，其步驟如下利用被評(píng)測(cè)語料的文本(文本相關(guān)的發(fā)音錯(cuò)誤檢測(cè))，對(duì)發(fā)音進(jìn)行切分和計(jì)算目標(biāo)文本的對(duì)數(shù)似然度，記為/汰e朋00力，然后，在切分得到的邊界上，計(jì)算此音段對(duì)識(shí)別器內(nèi)所有其它模型(聲母和韻母分開，聲母只計(jì)算所有聲母，韻母只計(jì) 算所有韻母)的對(duì)數(shù)似然度，這是一個(gè)矢量，記為<formula>formula see original document page 10</formula>然后，利用上面得到的目標(biāo)文本的似然度//fe/z7 oo力進(jìn)行規(guī)整如下樣，形成發(fā)音錯(cuò)誤檢測(cè)特征提取。3、獲取發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練目標(biāo)數(shù)據(jù)，其步驟如下-(1) 收集真實(shí)發(fā)音人語料根據(jù)系統(tǒng)將要測(cè)試的對(duì)象，錄制300人以上數(shù)據(jù)(具體數(shù)據(jù)根據(jù)要測(cè)試內(nèi)容設(shè)定，每人有效錄音時(shí)間不少于io分鐘)。(2) 專家標(biāo)注發(fā)音錯(cuò)誤根據(jù)收集的發(fā)音人真實(shí)數(shù)據(jù)，以及發(fā)音文本，使用發(fā)音評(píng)測(cè)專家對(duì)數(shù)據(jù)進(jìn)行標(biāo)注，標(biāo)注分為發(fā)音錯(cuò)誤，發(fā)音缺陷，以及漏讀，增讀等信息。需要三個(gè)以上評(píng)測(cè)專家同時(shí)對(duì)數(shù)據(jù)進(jìn)行標(biāo)注以增強(qiáng)數(shù)據(jù)的可靠信，對(duì)于發(fā) 音錯(cuò)誤檢測(cè)，訓(xùn)練數(shù)據(jù)選取三個(gè)專家均標(biāo)注為錯(cuò)誤的數(shù)據(jù)作為正確樣本，選取三個(gè)專家均標(biāo)注為正確的數(shù)據(jù)作為正確樣本，以此作為發(fā)音錯(cuò)誤訓(xùn)練數(shù)據(jù)。(3) 偽造發(fā)音錯(cuò)誤數(shù)據(jù)對(duì)于音素A，假設(shè)要測(cè)試A錯(cuò)誤為B的性能，則使用所有B的三個(gè)發(fā)音人均標(biāo)注為正確的數(shù)據(jù)作為A的錯(cuò)誤數(shù)據(jù)，并對(duì)B的錯(cuò)誤檢測(cè)特征需要重新計(jì)算如下式<formula>formula see original document page 10</formula>其中是原B的特征中A音素位置上的特征值。 4、訓(xùn)練典型發(fā)音檢錯(cuò)模型，其步驟如下(1) 定義典型發(fā)音錯(cuò)誤集合第一套支持向量機(jī)模型針對(duì)典型發(fā)音錯(cuò)誤，因此，其模型是有針對(duì)性的。我們根據(jù)方言分析結(jié)果，定義12類音素作為典型發(fā)音錯(cuò)誤，其集合為n， 1， z, c， s， zh， ch, sh, en, eng, in， ing，第一套支持向量機(jī)模型僅處理這些音素。(2) 得到特征數(shù)據(jù)和目標(biāo)數(shù)據(jù)根據(jù)發(fā)音錯(cuò)誤特征提取模塊得到發(fā)音錯(cuò)誤檢測(cè) 特征數(shù)據(jù)，根據(jù)專家標(biāo)注模塊得到目標(biāo)數(shù)據(jù)，也就是發(fā)音正確與否的數(shù)據(jù)。(3) 訓(xùn)練支持向量機(jī)模型使用支持向量機(jī)訓(xùn)練工具，使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯(cuò)支持向量機(jī)模型。(4)設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限由于支持向量機(jī)是一個(gè)分類器，它只能得到一個(gè) 分類結(jié)果，實(shí)際上，發(fā)音錯(cuò)誤檢測(cè)存在發(fā)音錯(cuò)誤檢出率和誤檢率這樣兩個(gè)指標(biāo)，根據(jù)支持向量機(jī)輸出結(jié)果設(shè)置門限可以完成這兩個(gè)指標(biāo)的平衡。在專家標(biāo)注數(shù)據(jù) 上，調(diào)整門限，就可以改變支持向量機(jī)錯(cuò)誤檢測(cè)結(jié)果，從而達(dá)到檢出率和誤檢率的平衡。5、訓(xùn)練異常發(fā)音錯(cuò)誤檢測(cè)器，其步驟如下(1) 定義異常發(fā)音錯(cuò)誤由于異常發(fā)音錯(cuò)誤沒有規(guī)律性，可能是由于口誤，或者不認(rèn)識(shí)文本，或者一些非典型錯(cuò)誤，這時(shí)，我們對(duì)每種音素不使用支持向量機(jī) 進(jìn)行檢錯(cuò)，而是均直接設(shè)置一個(gè)門限來完成錯(cuò)誤檢測(cè)，即在上面特征基礎(chǔ)上再進(jìn)行一個(gè)取最大的操作如下111^(/汰^7^0《-/z'fe朋ooO得到檢錯(cuò)特征，再采用'=1調(diào)節(jié)門限的方法訓(xùn)練得到此類異常發(fā)音錯(cuò)誤的檢錯(cuò)門限。(2) 得到特征數(shù)據(jù)和目標(biāo)數(shù)據(jù)利用特征提取模塊方法得到異常發(fā)音錯(cuò)誤特征。由于異常發(fā)音錯(cuò)誤在正常發(fā)音中較少出現(xiàn)，因此，專家標(biāo)注數(shù)據(jù)中這一類訓(xùn)練數(shù) 據(jù)不足。這里釆用目標(biāo)數(shù)據(jù)模塊中的偽造數(shù)據(jù)方法來生成目標(biāo)數(shù)據(jù)。(3) 設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限由于錯(cuò)誤檢測(cè)存在檢出率和誤檢率這樣兩個(gè)指標(biāo)，因此門限設(shè)置應(yīng)該可以根據(jù)需求自主調(diào)整。這里在偽造目標(biāo)錯(cuò)誤數(shù)據(jù)上，訓(xùn)練門限，從而滿足檢出率和誤檢率的平衡。6、訓(xùn)練異常發(fā)音錯(cuò)誤中易混淆音素對(duì)錯(cuò)誤模型，其步驟如下(1) 定義每個(gè)音素的易混淆錯(cuò)誤對(duì)首先，使用異常錯(cuò)誤門限檢測(cè)方法測(cè)試每個(gè)音素對(duì)的性能(比如A-B， A-C，…，A-N)，得到每個(gè)音素和所有其它音素發(fā) 生錯(cuò)誤時(shí)的檢測(cè)性能，誤檢率固定在0.05時(shí)，檢出率低于門限(0.95)的認(rèn)為是易混淆錯(cuò)誤對(duì)。這樣，可以定義A的易混淆錯(cuò)誤對(duì)如下4。咖=(4,4,…,4)，其中A有k個(gè)易混淆錯(cuò)誤。(2) 生成訓(xùn)練特征文件和目標(biāo)數(shù)據(jù)按照易混淆錯(cuò)誤對(duì)定義，以音素A為例，取A的所有發(fā)音正確的數(shù)據(jù)作為正確樣本，取所有A的易混淆集合里面的音素的發(fā)音正確樣本為A的錯(cuò)誤樣本。訓(xùn)練特征文件使用特征生成模塊里的異常錯(cuò)誤數(shù) 據(jù)生成方法生成。目標(biāo)數(shù)據(jù)為所有A的樣本認(rèn)為是正確樣本，所有其它樣本認(rèn)為是錯(cuò)誤樣本。(3) 訓(xùn)練支持向量機(jī)模型使用支持向量機(jī)_訓(xùn)練工具，使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯(cuò)支持向量機(jī)模型。(4)設(shè)置發(fā)音錯(cuò)誤監(jiān)測(cè)門限由于支持向量機(jī)是一個(gè)分類器，它只能得到一個(gè) 分類結(jié)果，實(shí)際上，發(fā)音錯(cuò)誤監(jiān)測(cè)存在發(fā)音錯(cuò)誤檢出率和誤檢率這樣兩個(gè)指標(biāo)，根據(jù)支持向量機(jī)輸出結(jié)果設(shè)置門限可以完成這兩個(gè)指標(biāo)的平衡。在專家標(biāo)注數(shù)據(jù) 上，調(diào)整門限，就可以改變支持向量機(jī)錯(cuò)誤檢測(cè)結(jié)果，從而達(dá)到檢出率和誤檢率的平衡7、發(fā)音錯(cuò)誤檢測(cè)，其步驟如下(1) 針對(duì)發(fā)音樣本，計(jì)算特征文件利用文本信息對(duì)發(fā)音文件進(jìn)行切分和計(jì)算似然度，然后按照特征提取模塊的方法計(jì)算特征文件。包括支持向量機(jī)的特征文件(記為和異常易混淆錯(cuò)誤模塊特征(記為/e"ft^^,^)。(2) 進(jìn)行典型錯(cuò)誤支持向量機(jī)判決利用前面計(jì)算得到的特征>"/""sw ，運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出結(jié)果計(jì)算。把計(jì)算結(jié)果跟訓(xùn)練典型發(fā)音錯(cuò)誤支持向量機(jī)模型時(shí)確定的檢錯(cuò)門限進(jìn)行比較，如果支持向量機(jī)結(jié)果大于門限，則認(rèn)為發(fā)生典型發(fā)音錯(cuò)誤。(3) 進(jìn)行異常錯(cuò)誤判決利用前面計(jì)算得到的異常錯(cuò)誤檢測(cè)模塊特征々W"r^—，把這個(gè)特征跟訓(xùn)練時(shí)確定的異常錯(cuò)誤檢測(cè)門限進(jìn)行比較，如果/^,_,。,大于門限，則認(rèn)為發(fā)生異常發(fā)音錯(cuò)誤。(4) 進(jìn)行異常易混淆錯(cuò)誤判決利用前面計(jì)算得到的特征々W^^w ，運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出結(jié)果計(jì)算。把計(jì)算結(jié)果跟訓(xùn)練異常易混淆發(fā) 音錯(cuò)誤支持向量機(jī)模型時(shí)確定的檢錯(cuò)門限進(jìn)行比較，如果支持向量機(jī)結(jié)果大于門限，則認(rèn)為發(fā)生異常易混淆發(fā)音錯(cuò)誤。實(shí)施例2利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法具體實(shí)施步驟為 1、語音識(shí)別系統(tǒng)的搭建其步驟如下(1) 預(yù)先收集或錄制標(biāo)準(zhǔn)的發(fā)音語料，并保存為識(shí)別器訓(xùn)練語音文件；(2) 針對(duì)收集的標(biāo)準(zhǔn)語料進(jìn)行拼音標(biāo)注；(3) 模型訓(xùn)練根據(jù)收集的標(biāo)準(zhǔn)語料訓(xùn)練音素級(jí)語音識(shí)別器模型； (4 )將語音識(shí)別器保存到計(jì)算機(jī)輔助語言學(xué)習(xí)系統(tǒng)庫中。2、發(fā)音錯(cuò)誤檢測(cè)特征提取，其步驟為首先利用被評(píng)測(cè)語料的文本，對(duì)發(fā)音進(jìn)行切分和計(jì)算目標(biāo)文本的對(duì)數(shù)似然度，記為/汰e"/wo4，然后，在切分得到的邊界上，計(jì)算此音段對(duì)識(shí)別器內(nèi)所有其它模型的對(duì)數(shù)似然度，這是一個(gè)矢量，記為 (//fe/zTzoot/p/zfe///^^.."/^///^*^), 然后,禾U用/汰e/Z/ oo力進(jìn)行規(guī)整樣，形成發(fā)音錯(cuò)誤檢測(cè)特征提取。3、獲取發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練目標(biāo)數(shù)據(jù)，其步驟如下(1) 收集真實(shí)發(fā)音人語料，錄制多發(fā)音人數(shù)據(jù)；(2) 根據(jù)收集的發(fā)音人真實(shí)數(shù)據(jù)，以及發(fā)音文本，使用發(fā)音評(píng)測(cè)專家對(duì)數(shù)據(jù)進(jìn)行標(biāo)注，得到發(fā)音錯(cuò)誤標(biāo)注數(shù)據(jù)，以此作為發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練數(shù)據(jù)。4、訓(xùn)練發(fā)音錯(cuò)誤支持向量機(jī)檢測(cè)模型，其步驟如下(1) 根據(jù)發(fā)音錯(cuò)誤特征提取模塊得到發(fā)音錯(cuò)誤檢測(cè)特征數(shù)據(jù)，根據(jù)專家標(biāo)注模塊得到目標(biāo)數(shù)據(jù)；(2) 使用支持向量機(jī)訓(xùn)練工具，使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯(cuò)支持向量機(jī)模型；(3) 在專家標(biāo)注數(shù)據(jù)上，在支持向量機(jī)輸出得分的基礎(chǔ)上，設(shè)置發(fā)音錯(cuò)誤檢測(cè) 門限，從而達(dá)到檢出率和誤檢率的平衡。5、發(fā)音錯(cuò)誤檢測(cè)步驟如下(1) 利用文本信息對(duì)發(fā)音文件進(jìn)行切分和計(jì)算似然度，然后按照特征提取模塊的方法計(jì)算特征文件，記為/e^W^sw;(2) 利用前面計(jì)算得到的特征>"ft^esw ，運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出結(jié)果計(jì)算，把計(jì)算結(jié)果跟訓(xùn)練典型發(fā)音錯(cuò)誤支持向量機(jī)模型時(shí)確定的檢錯(cuò)門限進(jìn)行比較，如果支持向量機(jī)結(jié)果大于門限，則認(rèn)為發(fā)生發(fā)音錯(cuò)誤。
權(quán)利要求
1、一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，其特征在于用典型錯(cuò)誤支持向量機(jī)檢測(cè)方法進(jìn)行發(fā)音錯(cuò)誤的檢測(cè)，所述的典型錯(cuò)誤支持向量機(jī)檢測(cè)方法包括以下步驟語音識(shí)別系統(tǒng)的搭建、發(fā)音錯(cuò)誤檢測(cè)特征提取、獲取發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練目標(biāo)數(shù)據(jù)、訓(xùn)練發(fā)音錯(cuò)誤支持向量機(jī)檢測(cè)模型和發(fā)音錯(cuò)誤的檢測(cè)。
2、根據(jù)權(quán)利要求1所述的一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，其特征在于所述語音識(shí)別系統(tǒng)的搭建其步驟如下(1) 預(yù)先收集和錄制標(biāo)準(zhǔn)的發(fā)音語料，并保存為識(shí)別器訓(xùn)練語音文件；(2) 針對(duì)收集的標(biāo)準(zhǔn)語料進(jìn)行拼音或音標(biāo)的標(biāo)注；(3) 模型訓(xùn)練根據(jù)收集的標(biāo)準(zhǔn)語料訓(xùn)練音素級(jí)語音識(shí)別器模型； (4 )將語音識(shí)別器保存到計(jì)算機(jī)輔助語言學(xué)習(xí)系統(tǒng)庫中。
3、根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，其特征在于所述發(fā)音錯(cuò)誤檢測(cè)特征提取，其步驟為首先利用被評(píng)測(cè)語料的文本，對(duì)發(fā)音進(jìn)行自動(dòng)切分和計(jì)算目標(biāo)文本的對(duì)數(shù)似然度，記為//^///200^，然后，在切分得到的音素邊界上，計(jì)算此音段對(duì)識(shí)別器內(nèi)所有其它模型的對(duì)數(shù)似然度，這是一個(gè)矢量，記為(//fe//too《，//fe//toot/2,...,//fe/// C^w)，然后,利用/^/// <70《進(jìn)形成發(fā)音錯(cuò)誤檢測(cè)特征提取。
4、根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，其特征在于所述獲取發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練目標(biāo)數(shù)據(jù)，其步驟如下-(1) 收集真實(shí)發(fā)音人語料，錄制多發(fā)音人數(shù)據(jù)；(2) 根據(jù)收集的發(fā)音人真實(shí)數(shù)據(jù)，以及發(fā)音文本，使用發(fā)音評(píng)測(cè)專家對(duì)數(shù)據(jù)進(jìn) 行標(biāo)注，得到發(fā)音錯(cuò)誤標(biāo)注數(shù)據(jù)，以此作為發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練數(shù)據(jù)。
5、根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，其特征在于所述訓(xùn)練發(fā)音錯(cuò)誤支持向量機(jī)檢測(cè)模型，其步驟如下(1) 根據(jù)發(fā)音錯(cuò)誤特征提取模塊得到發(fā)音錯(cuò)誤檢測(cè)特征數(shù)據(jù)，根據(jù)專家標(biāo)注模塊得到目標(biāo)數(shù)據(jù)；(2) 使用訓(xùn)練工具支持向量機(jī)訓(xùn)練工具，使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯(cuò)支持向量機(jī)模型； (3)在專家標(biāo)注數(shù)據(jù)上，在支持向量機(jī)輸出得分的基礎(chǔ)上，設(shè)置發(fā)音錯(cuò)誤檢測(cè) 門限，從而達(dá)到檢出率和誤檢率的平衡。
6、根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，其特征在于所述發(fā)音錯(cuò)誤檢測(cè)，其步驟如下(1) 利用文本信息對(duì)發(fā)音文件進(jìn)行切分和計(jì)算似然度，然后按照特征提取模塊的方法計(jì)算特征文件，記為/e^wesw;(2) 利用前面計(jì)算得到的特征/e^w&,，運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出結(jié)果計(jì)算，把計(jì)算結(jié)果跟訓(xùn)練典型發(fā)音錯(cuò)誤支持向量機(jī)模型時(shí)確定的檢錯(cuò)門限進(jìn)行比較，如果支持向量機(jī)結(jié)果大于門限，則認(rèn)為發(fā)生發(fā)音錯(cuò)誤。
7、根據(jù)權(quán)利要求2所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，其特征在于所述收集的標(biāo)準(zhǔn)語料是利用HTK訓(xùn)練基于HMM的音素級(jí)語音識(shí)別器模型。
8、根據(jù)權(quán)利要求3所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，其特征在于所述計(jì)算此音段對(duì)識(shí)別器內(nèi)所有其它模型的對(duì)數(shù)似然度時(shí)，對(duì)于中文，聲母和韻母分開，聲母只計(jì)算所有聲母，韻母只計(jì)算所有韻母；對(duì)于英文，元音和輔音分開，元音只計(jì)算所有元音，輔音只計(jì)算所有輔音。
9、根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，其特征在于還包括有異常錯(cuò)誤門限檢測(cè)方法，異常錯(cuò)誤門限檢測(cè)方法包括有以下步驟(1) 訓(xùn)練異常發(fā)音錯(cuò)誤檢測(cè)器，其步驟如下1) 利用特征提取模塊方法得到異常發(fā)音錯(cuò)誤特征/^/w^^^。,，這個(gè)特征就是支持向量機(jī)特征各維的最大值，這里采用目標(biāo)數(shù)據(jù)模塊中的偽造數(shù)據(jù)方法來生成目標(biāo)數(shù)據(jù)；2) 對(duì)每種音素直接設(shè)置一個(gè)門限來完成錯(cuò)誤檢測(cè)，以此定義異常發(fā)音錯(cuò)誤；3) 在偽造目標(biāo)錯(cuò)誤數(shù)據(jù)上，訓(xùn)練門限，從而滿足檢出率和誤檢率的平衡，以此(2) 設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限；進(jìn)行異常錯(cuò)誤判決首先計(jì)算得到的異常錯(cuò)誤檢測(cè)模塊特征/M,"r^—一￡。,，這個(gè) 特征就是支持向量機(jī)特征各維的最大值，把這個(gè)特征跟訓(xùn)練時(shí)確定的異常錯(cuò)誤檢測(cè)門限進(jìn)行比較，如果/^^ _,。,大于門限，則認(rèn)為發(fā)生異常發(fā)音錯(cuò)誤。
10、根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，其特征在于還包括有異常混淆錯(cuò)誤支持向量機(jī)檢測(cè)方法，異常混淆錯(cuò)誤支持向量機(jī)檢測(cè)方法包括有以下步驟(1) 定義每個(gè)音素的易混淆錯(cuò)誤對(duì)首先，使用異常錯(cuò)誤門限檢測(cè)方法測(cè)試每個(gè)音素對(duì)的性能，得到每個(gè)音素和所有其它音素發(fā)生錯(cuò)誤時(shí)的檢測(cè)性能，誤檢率固定在0. 05時(shí)，檢出率低于門限0. 95的認(rèn)為是易混淆錯(cuò)誤對(duì)；(2) 生成訓(xùn)練特征文件和目標(biāo)數(shù)據(jù)按照易混淆錯(cuò)誤對(duì)定義，取某音素的所有發(fā)音正確的數(shù)據(jù)作為正確樣本,這些數(shù)據(jù)的支持向量機(jī)特征直接作為訓(xùn)練數(shù)據(jù)特征，取所有某音素的易混淆集合里面的音素的發(fā)音正確樣本為某音素的錯(cuò)誤樣本，訓(xùn)練特征文件，目標(biāo)數(shù)據(jù)為所有某音素的樣本認(rèn)為是正確樣本，所有其它音素樣本認(rèn)為是錯(cuò)誤樣本；(3) 訓(xùn)練支持向量機(jī)模型使用支持向量機(jī)訓(xùn)練工具，使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯(cuò)支持向量機(jī)模型；(4) 設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限；進(jìn)行異常易混淆錯(cuò)誤判決利用前面計(jì)算得到的特征/e^"y^，運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出結(jié)果計(jì)算，把計(jì)算結(jié)果跟訓(xùn)練異常易混淆發(fā)音錯(cuò)誤支持向量機(jī)模型時(shí)確定的檢錯(cuò)門限進(jìn)行比較，如果支持向量機(jī)結(jié)果大于門限，則認(rèn)為發(fā)生異常易混淆發(fā)音錯(cuò)誤。
11、根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，其特征在于所述的訓(xùn)練特征文件以某音素正確樣本作為其它音素的錯(cuò)誤樣本用下式計(jì)算<formula>formula see original document page 4</formula><formula>formula see original document page 4</formula>
全文摘要
本發(fā)明涉及一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法，包括有典型錯(cuò)誤支持向量機(jī)檢測(cè)方法、異常錯(cuò)誤門限檢測(cè)方法和異?；煜e(cuò)誤支持向量機(jī)檢測(cè)方法，包括以下步驟實(shí)現(xiàn)語音識(shí)別系統(tǒng)的搭建、發(fā)音錯(cuò)誤檢測(cè)特征提取、獲取發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練目標(biāo)數(shù)據(jù)、訓(xùn)練發(fā)音錯(cuò)誤支持向量機(jī)檢測(cè)模型和發(fā)音錯(cuò)誤的檢測(cè)、訓(xùn)練異常發(fā)音錯(cuò)誤檢測(cè)器、設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限、定義每個(gè)音素的易混淆錯(cuò)誤對(duì)、生成訓(xùn)練特征文件和目標(biāo)數(shù)據(jù)、訓(xùn)練支持向量機(jī)模型、設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限、進(jìn)行異常易混淆錯(cuò)誤判決。本發(fā)明能有效解決人工標(biāo)注稀疏問題，保證了訓(xùn)練得到的檢錯(cuò)模型可以較好針對(duì)不同發(fā)音人，不同發(fā)音風(fēng)格進(jìn)行錯(cuò)誤檢測(cè)。
文檔編號(hào)G10L15/10GK101231848SQ20071013534
公開日2008年7月30日申請(qǐng)日期2007年11月6日優(yōu)先權(quán)日2007年11月6日
發(fā)明者劉慶升, 劉慶峰, 吳曉如, 王仁華, 王海坤, 郁胡, 胡國平, 濤陳, 燕陳, 思魏申請(qǐng)人:安徽科大訊飛信息科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：魏思;胡國平;王海坤;劉慶升;胡郁;劉慶峰;吳曉如;陳濤;陳燕;王仁華
技術(shù)所有人：安徽科大訊飛信息科技股份有限公司
我是此專利的發(fā)明人

上一篇：立體聲音頻編/解碼方法及編/解碼器的制作方法
上一篇：聲波振幅顯示裝置及方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

支持向量機(jī)相關(guān)技術(shù)

最小二乘支持向量機(jī)相關(guān)技術(shù)

支持向量機(jī)分類相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法