專利名稱:一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于自動(dòng)語音識(shí)別在發(fā)音檢錯(cuò)上的應(yīng)用,具體涉及基于自動(dòng)語音識(shí)別 技術(shù),利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法。
技術(shù)背景基于語音自動(dòng)識(shí)別技術(shù)對(duì)發(fā)音進(jìn)行錯(cuò)誤檢測(cè)的方法,現(xiàn)有技術(shù)主要依賴于后 驗(yàn)概率,使用后驗(yàn)概率作為發(fā)音錯(cuò)誤度量有兩個(gè)缺陷。第一、后驗(yàn)概率出自語音 識(shí)別器,由于人工標(biāo)注錯(cuò)誤數(shù)據(jù)太過稀少,使用后驗(yàn)概率很難根據(jù)發(fā)音錯(cuò)誤標(biāo)注 數(shù)據(jù)反饋的更新識(shí)別器模型參數(shù),因此現(xiàn)有的方法均沒有根據(jù)人工發(fā)音錯(cuò)誤標(biāo)注 數(shù)據(jù)更新識(shí)別器模型參數(shù)。第二、后驗(yàn)概率方法可調(diào)整參數(shù)太少,只能調(diào)整檢錯(cuò) 門限,無法充分運(yùn)用人工標(biāo)注發(fā)音錯(cuò)誤信息,人工標(biāo)注數(shù)據(jù)增多并不能帶來性能 提升。 發(fā)明內(nèi)容針對(duì)現(xiàn)有技術(shù)利用后驗(yàn)概率進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的缺陷,本發(fā)明提出了能有效 解決人工標(biāo)注稀疏問題,充分運(yùn)用人工標(biāo)注發(fā)音錯(cuò)誤信息,從而保證了訓(xùn)練得到 的檢錯(cuò)模型可以較好針對(duì)不同發(fā)音人,不同發(fā)音風(fēng)格進(jìn)行錯(cuò)誤檢測(cè)的一種利用支 持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法。本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的 一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,該方法用典型錯(cuò)誤支持向量 機(jī)檢測(cè)方法進(jìn)行發(fā)音錯(cuò)誤的檢測(cè),所述的典型錯(cuò)誤支持向量機(jī)檢測(cè)方法包括以下 步驟語音識(shí)別系統(tǒng)的搭建、發(fā)音錯(cuò)誤檢測(cè)特征提取、獲取發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn) 練目標(biāo)數(shù)據(jù)、訓(xùn)練發(fā)音錯(cuò)誤支持向量機(jī)檢測(cè)模型和發(fā)音錯(cuò)誤的檢測(cè)。一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,所述語音識(shí)別系統(tǒng)的搭建其 步驟如下(1) 預(yù)先收集和錄制標(biāo)準(zhǔn)的發(fā)音語料,并保存為識(shí)別器訓(xùn)練語音文件;(2) 針對(duì)收集的標(biāo)準(zhǔn)語料進(jìn)行拼音或音標(biāo)的標(biāo)注;(3) 模型訓(xùn)練根據(jù)收集的標(biāo)準(zhǔn)語料訓(xùn)練音素級(jí)語音識(shí)別器模型;(4)將語音識(shí)別器保存到計(jì)算機(jī)輔助語言學(xué)習(xí)系統(tǒng)庫中。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,所述發(fā)音錯(cuò)誤檢測(cè)特征提 取,其步驟為首先利用被評(píng)測(cè)語料的文本,對(duì)發(fā)音進(jìn)行自動(dòng)切分和計(jì)算目標(biāo)文本的對(duì)數(shù)似然度,記為/汰^7^0^,然后,在切分得到的音素邊界上,計(jì)算此音段對(duì)識(shí)別器內(nèi)所有其它模型的對(duì)數(shù)似然度,這是一個(gè)矢量,記為 (/zUzTjoo^/^//^^.."http://^^'/^"", 然后,禾U用/汰eW o《進(jìn)行規(guī)整發(fā)音錯(cuò)誤檢測(cè)特征提取。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,所述獲取發(fā)音錯(cuò)誤檢測(cè)模型 訓(xùn)練目標(biāo)數(shù)據(jù),其步驟如下(1) 收集真實(shí)發(fā)音人語料,錄制多發(fā)音人數(shù)據(jù);(2) 根據(jù)收集的發(fā)音人真實(shí)數(shù)據(jù),以及發(fā)音文本,使用發(fā)音評(píng)測(cè)專家對(duì)數(shù)據(jù)進(jìn) 行標(biāo)注,得到發(fā)音錯(cuò)誤標(biāo)注數(shù)據(jù),以此作為發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練數(shù)據(jù)。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,所述訓(xùn)練發(fā)音錯(cuò)誤支持向量 機(jī)檢測(cè)模型,其步驟如下(1) 根據(jù)發(fā)音錯(cuò)誤特征提取模塊得到發(fā)音錯(cuò)誤檢測(cè)特征數(shù)據(jù),根據(jù)專家標(biāo)注模 塊得到目標(biāo)數(shù)據(jù);(2) 使用支持向量機(jī)訓(xùn)練工具,使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音 檢錯(cuò)支持向量機(jī)模型;(3) 在專家標(biāo)注數(shù)據(jù)上,在支持向量機(jī)輸出得分的基礎(chǔ)上,設(shè)置發(fā)音錯(cuò)誤檢測(cè) 門限,從而達(dá)到檢出率和誤檢率的平衡。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,所述發(fā)音錯(cuò)誤檢測(cè)步驟如下(1) 利用文本信息對(duì)發(fā)音文件進(jìn)行切分和計(jì)算似然度,然后按照特征提取模塊 的方法計(jì)算特征文件,記為/^/we,^;(2) 利用前面計(jì)算得到的特征々W"/^,,運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,所述收集的標(biāo)準(zhǔn)語料是利用 HTK訓(xùn)練基于HMM的音素級(jí)語音識(shí)別器模型。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,所述計(jì)算此音段對(duì)識(shí)別器內(nèi) 所有其它模型的對(duì)數(shù)似然度時(shí),對(duì)于中文,聲母和韻母分開,聲母只計(jì)算所有聲 母,韻母只計(jì)算所有韻母;對(duì)于英文,元音和輔音分開,元音只計(jì)算所有元音, 輔音只計(jì)算所有輔音。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,該方法還包括有異常錯(cuò)誤門 限檢測(cè)方法,異常錯(cuò)誤門限檢測(cè)方法包括有以下步驟(1) 訓(xùn)練異常發(fā)音錯(cuò)誤檢測(cè)器,其步驟如下-1) 利用特征提取模塊方法得到異常發(fā)音錯(cuò)誤特征/Mft^^力^。,,這個(gè)特征就是支持向量機(jī)特征各維的最大值,這里采用目標(biāo)數(shù)據(jù)模塊中的偽造數(shù)據(jù)方法來生成 目標(biāo)數(shù)據(jù);2) 對(duì)每種音素直接設(shè)置一個(gè)門限來完成錯(cuò)誤檢測(cè),以此定義異常發(fā)音錯(cuò)誤;3) 在偽造目標(biāo)錯(cuò)誤數(shù)據(jù)上,訓(xùn)練門限,從而滿足檢出率和誤檢率的平衡,以此(2) 設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限;進(jìn)行異常錯(cuò)誤判決首先計(jì)算得到的異常錯(cuò)誤檢測(cè)模塊特征/ ^/^ —,£a,,這個(gè)特征就是支持向量機(jī)特征各維的最大值,把這個(gè)特征跟訓(xùn)練時(shí)確定的異常錯(cuò)誤檢 測(cè)門限進(jìn)行比較,如果/e她^^—大于門限,則認(rèn)為發(fā)生異常發(fā)音錯(cuò)誤。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,該方法還包括有異常混淆錯(cuò) 誤支持向量機(jī)檢測(cè)方法,異?;煜e(cuò)誤支持向量機(jī)檢測(cè)方法包括有以下步驟(1) 定義每個(gè)音素的易混淆錯(cuò)誤對(duì)首先,使用異常錯(cuò)誤門限檢測(cè)方法測(cè)試每 個(gè)音素對(duì)的性能,得到每個(gè)音素和所有其它音素發(fā)生錯(cuò)誤時(shí)的檢測(cè)性能,誤檢率 固定在0. 05時(shí),檢出率低于門限0. 95的認(rèn)為是易混淆錯(cuò)誤對(duì);(2) 生成訓(xùn)練特征文件和目標(biāo)數(shù)據(jù)按照易混淆錯(cuò)誤對(duì)定義,取某音素的所有 發(fā)音正確的數(shù)據(jù)作為正確樣本,這些數(shù)據(jù)的支持向量機(jī)特征直接作為訓(xùn)練數(shù)據(jù)特 征,取所有某音素的易混淆集合里面的音素的發(fā)音正確樣本為某音素的錯(cuò)誤樣 本,訓(xùn)練特征文件,目標(biāo)數(shù)據(jù)為所有某音素的樣本認(rèn)為是正確樣本,所有其它音 素樣本認(rèn)為是錯(cuò)誤樣本;(3) 訓(xùn)練支持向量機(jī)模型使用支持向量機(jī)訓(xùn)練工具,使用所有樣本的特征文 件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯(cuò)支持向量機(jī)模型;(4) 設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限;進(jìn)行異常易混淆錯(cuò)誤判決利用前面計(jì)算得到的特征/e"^^w,運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出結(jié)果計(jì)算,把計(jì)算結(jié)果跟訓(xùn)練異常易混淆發(fā)音錯(cuò) 誤支持向量機(jī)模型時(shí)確定的檢錯(cuò)門限進(jìn)行比較,如果支持向量機(jī)結(jié)果大于門限, 則認(rèn)為發(fā)生異常易混淆發(fā)音錯(cuò)誤。一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,所述的訓(xùn)練特征文件以某音素正確樣本作為其它音素的錯(cuò)誤樣本用下式計(jì)算—>0她< ,知ft/《—加加《,...,加fwre- —加/w《 )本發(fā)明提出運(yùn)用支持向量機(jī)(SVM)方法來進(jìn)行檢錯(cuò),其輸入特征是基于語 音識(shí)別器的多維對(duì)數(shù)似然比,其可調(diào)整參數(shù)為支持向量機(jī)分類器權(quán)重。其優(yōu)點(diǎn)在 于l、由于可調(diào)整參數(shù)相比于語音識(shí)別器大大減少(從幾十萬個(gè)參數(shù)減少到幾百 個(gè)參數(shù)),從而解決了人工標(biāo)注稀疏問題。2、由于支持向量機(jī)分類器根據(jù)人工標(biāo) 注數(shù)據(jù)訓(xùn)練,從而充分運(yùn)用了人工標(biāo)注發(fā)音錯(cuò)誤信息。且人工標(biāo)注數(shù)據(jù)越多,分 類器性能越好。3、支持向量機(jī)方法是90年代的重大突破,它從理論上保證了分 類器在不可見數(shù)據(jù)上的良好推廣性,本方法使用SVM進(jìn)行檢錯(cuò),從而保證了訓(xùn)練 得到的檢錯(cuò)模型可以較好的針對(duì)不同發(fā)音人,不同發(fā)音風(fēng)格進(jìn)行錯(cuò)誤檢測(cè)。典型錯(cuò)誤由于引入了支持向量機(jī),從而有效的運(yùn)用了人工標(biāo)注數(shù)據(jù)信息,從 而對(duì)于整體發(fā)音檢錯(cuò)性能提升較大。在我們的一個(gè)321人的普通話水平測(cè)試數(shù)據(jù) 庫上,其在不同的檢出率和虛警率的指標(biāo)下,對(duì)于單音節(jié)字,其性能和傳統(tǒng)做法 類似。對(duì)于雙音節(jié)詞和連續(xù)語流,支持向量機(jī)檢錯(cuò)均比傳統(tǒng)方法取得了較大的進(jìn) 步。對(duì)于異常數(shù)據(jù),由于沒有正常發(fā)音錯(cuò)誤數(shù)據(jù)進(jìn)行測(cè)試。因此,我們從理論和 實(shí)際上進(jìn)行分析如下首先,引入了其它音素的正確樣本進(jìn)行訓(xùn)練,從而解決了 異常錯(cuò)誤訓(xùn)練中最缺少的目標(biāo)樣本問題。傳統(tǒng)的策略是在正常發(fā)音錯(cuò)誤上訓(xùn)練, 這樣跟異常錯(cuò)誤檢測(cè)這個(gè)目標(biāo)偏離很遠(yuǎn)。因此,異常錯(cuò)誤目標(biāo)數(shù)據(jù)選擇策略保證 了我們的策略的成功。其次,針對(duì)聲學(xué)上混淆的錯(cuò)誤對(duì),我們引入支持向量機(jī)進(jìn)行分類檢錯(cuò),從而有效的彌補(bǔ)了傳統(tǒng)策略在聲學(xué)混淆時(shí)性能的急劇下降。從上面 兩個(gè)方面分析我們可以看到,采用我們的異常錯(cuò)誤門限檢錯(cuò)策略和異常錯(cuò)誤混淆 對(duì)支持向量機(jī)檢錯(cuò)策略能夠有效地針對(duì)異常錯(cuò)誤進(jìn)行檢測(cè)。
圖1為本發(fā)明發(fā)音錯(cuò)誤檢測(cè)流程框圖。圖2為本發(fā)明語音識(shí)別系統(tǒng)搭建流程框圖。圖3為本發(fā)明發(fā)音錯(cuò)誤檢測(cè)特征提取流程框圖。圖4為本發(fā)明典型發(fā)音錯(cuò)誤人工標(biāo)注數(shù)據(jù)獲取流程框圖。圖5為本發(fā)明異常發(fā)音錯(cuò)誤偽造數(shù)據(jù)獲取流程框圖。圖6為本發(fā)明典型發(fā)音錯(cuò)誤支持向量機(jī)模型訓(xùn)練和門限設(shè)定流程框圖。
具體實(shí)施方式
實(shí)施例l參加附圖1 6所示。利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法具體實(shí)施步驟為1、 語音識(shí)別系統(tǒng)的搭建,其步驟如下(1) 收集訓(xùn)練識(shí)別器語音根據(jù)語言學(xué)習(xí)的應(yīng)用需要,預(yù)先收集或錄制有針對(duì) 性的標(biāo)準(zhǔn)的發(fā)音語料,并保存為識(shí)別器訓(xùn)練語音文件,比如針對(duì)漢語普通話水平 測(cè)試就錄制標(biāo)準(zhǔn)普通話發(fā)音人的普通話水平測(cè)試語料;(2) 數(shù)據(jù)標(biāo)注針對(duì)收集的標(biāo)準(zhǔn)語料進(jìn)行拼音標(biāo)注,使得收集的語料對(duì)語音評(píng) 測(cè)具有針對(duì)性;(3) 模型訓(xùn)練根據(jù)收集的標(biāo)準(zhǔn)語料利用HTK訓(xùn)練基于H醒的音素級(jí)(27個(gè)聲 母,包含零聲母,37個(gè)韻母)語音識(shí)別器模型(4) 保存將模型保存到計(jì)算機(jī)輔助語言學(xué)習(xí)系統(tǒng)庫中;2、 發(fā)音錯(cuò)誤檢測(cè)特征提取,其步驟如下利用被評(píng)測(cè)語料的文本(文本相關(guān)的發(fā)音錯(cuò)誤檢測(cè)),對(duì)發(fā)音進(jìn)行切分和計(jì)算目 標(biāo)文本的對(duì)數(shù)似然度,記為/汰e朋00力,然后,在切分得到的邊界上,計(jì)算此音段對(duì)識(shí)別器內(nèi)所有其它模型(聲母和韻母分開,聲母只計(jì)算所有聲母,韻母只計(jì) 算所有韻母)的對(duì)數(shù)似然度,這是一個(gè)矢量,記為<formula>formula see original document page 10</formula>然后,利用上面得到的目標(biāo)文本的似然度//fe/z7 oo力進(jìn)行規(guī)整如下樣,形成發(fā)音錯(cuò)誤檢測(cè)特征提取。3、 獲取發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練目標(biāo)數(shù)據(jù),其步驟如下-(1) 收集真實(shí)發(fā)音人語料根據(jù)系統(tǒng)將要測(cè)試的對(duì)象,錄制300人以上數(shù)據(jù)(具 體數(shù)據(jù)根據(jù)要測(cè)試內(nèi)容設(shè)定,每人有效錄音時(shí)間不少于io分鐘)。(2) 專家標(biāo)注發(fā)音錯(cuò)誤根據(jù)收集的發(fā)音人真實(shí)數(shù)據(jù),以及發(fā)音文本,使用發(fā)音評(píng)測(cè)專家對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,標(biāo)注分為發(fā)音錯(cuò)誤,發(fā)音缺陷,以及漏讀,增讀等 信息。需要三個(gè)以上評(píng)測(cè)專家同時(shí)對(duì)數(shù)據(jù)進(jìn)行標(biāo)注以增強(qiáng)數(shù)據(jù)的可靠信,對(duì)于發(fā) 音錯(cuò)誤檢測(cè),訓(xùn)練數(shù)據(jù)選取三個(gè)專家均標(biāo)注為錯(cuò)誤的數(shù)據(jù)作為正確樣本,選取三 個(gè)專家均標(biāo)注為正確的數(shù)據(jù)作為正確樣本,以此作為發(fā)音錯(cuò)誤訓(xùn)練數(shù)據(jù)。(3) 偽造發(fā)音錯(cuò)誤數(shù)據(jù)對(duì)于音素A,假設(shè)要測(cè)試A錯(cuò)誤為B的性能,則使用所有B的三個(gè)發(fā)音人均標(biāo)注為正確的數(shù)據(jù)作為A的錯(cuò)誤數(shù)據(jù),并對(duì)B的錯(cuò)誤檢測(cè)特征需要重新計(jì)算如下式<formula>formula see original document page 10</formula>其中是原B的特征中A音素位置上的特征值。 4、 訓(xùn)練典型發(fā)音檢錯(cuò)模型,其步驟如下(1) 定義典型發(fā)音錯(cuò)誤集合第一套支持向量機(jī)模型針對(duì)典型發(fā)音錯(cuò)誤,因此, 其模型是有針對(duì)性的。我們根據(jù)方言分析結(jié)果,定義12類音素作為典型發(fā)音錯(cuò)誤,其集合為n, 1, z, c, s, zh, ch, sh, en, eng, in, ing,第一套支持向量機(jī)模型僅 處理這些音素。(2) 得到特征數(shù)據(jù)和目標(biāo)數(shù)據(jù)根據(jù)發(fā)音錯(cuò)誤特征提取模塊得到發(fā)音錯(cuò)誤檢測(cè) 特征數(shù)據(jù),根據(jù)專家標(biāo)注模塊得到目標(biāo)數(shù)據(jù),也就是發(fā)音正確與否的數(shù)據(jù)。(3) 訓(xùn)練支持向量機(jī)模型使用支持向量機(jī)訓(xùn)練工具,使用所有樣本的特征文 件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯(cuò)支持向量機(jī)模型。(4)設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限由于支持向量機(jī)是一個(gè)分類器,它只能得到一個(gè) 分類結(jié)果,實(shí)際上,發(fā)音錯(cuò)誤檢測(cè)存在發(fā)音錯(cuò)誤檢出率和誤檢率這樣兩個(gè)指標(biāo), 根據(jù)支持向量機(jī)輸出結(jié)果設(shè)置門限可以完成這兩個(gè)指標(biāo)的平衡。在專家標(biāo)注數(shù)據(jù) 上,調(diào)整門限,就可以改變支持向量機(jī)錯(cuò)誤檢測(cè)結(jié)果,從而達(dá)到檢出率和誤檢率 的平衡。5、 訓(xùn)練異常發(fā)音錯(cuò)誤檢測(cè)器,其步驟如下(1) 定義異常發(fā)音錯(cuò)誤由于異常發(fā)音錯(cuò)誤沒有規(guī)律性,可能是由于口誤,或 者不認(rèn)識(shí)文本,或者一些非典型錯(cuò)誤,這時(shí),我們對(duì)每種音素不使用支持向量機(jī) 進(jìn)行檢錯(cuò),而是均直接設(shè)置一個(gè)門限來完成錯(cuò)誤檢測(cè),即在上面特征基礎(chǔ)上再進(jìn)行一個(gè)取最大的操作如下111^(/汰^7^0《-/z'fe朋ooO得到檢錯(cuò)特征,再采用'=1調(diào)節(jié)門限的方法訓(xùn)練得到此類異常發(fā)音錯(cuò)誤的檢錯(cuò)門限。(2) 得到特征數(shù)據(jù)和目標(biāo)數(shù)據(jù)利用特征提取模塊方法得到異常發(fā)音錯(cuò)誤特征。 由于異常發(fā)音錯(cuò)誤在正常發(fā)音中較少出現(xiàn),因此,專家標(biāo)注數(shù)據(jù)中這一類訓(xùn)練數(shù) 據(jù)不足。這里釆用目標(biāo)數(shù)據(jù)模塊中的偽造數(shù)據(jù)方法來生成目標(biāo)數(shù)據(jù)。(3) 設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限由于錯(cuò)誤檢測(cè)存在檢出率和誤檢率這樣兩個(gè)指標(biāo), 因此門限設(shè)置應(yīng)該可以根據(jù)需求自主調(diào)整。這里在偽造目標(biāo)錯(cuò)誤數(shù)據(jù)上,訓(xùn)練門 限,從而滿足檢出率和誤檢率的平衡。6、 訓(xùn)練異常發(fā)音錯(cuò)誤中易混淆音素對(duì)錯(cuò)誤模型,其步驟如下(1) 定義每個(gè)音素的易混淆錯(cuò)誤對(duì)首先,使用異常錯(cuò)誤門限檢測(cè)方法測(cè)試每 個(gè)音素對(duì)的性能(比如A-B, A-C,…,A-N),得到每個(gè)音素和所有其它音素發(fā) 生錯(cuò)誤時(shí)的檢測(cè)性能,誤檢率固定在0.05時(shí),檢出率低于門限(0.95)的認(rèn)為 是易混淆錯(cuò)誤對(duì)。這樣,可以定義A的易混淆錯(cuò)誤對(duì)如下4。咖=(4,4,…,4),其中A有k個(gè)易混淆錯(cuò)誤。(2) 生成訓(xùn)練特征文件和目標(biāo)數(shù)據(jù)按照易混淆錯(cuò)誤對(duì)定義,以音素A為例, 取A的所有發(fā)音正確的數(shù)據(jù)作為正確樣本,取所有A的易混淆集合里面的音素的 發(fā)音正確樣本為A的錯(cuò)誤樣本。訓(xùn)練特征文件使用特征生成模塊里的異常錯(cuò)誤數(shù) 據(jù)生成方法生成。目標(biāo)數(shù)據(jù)為所有A的樣本認(rèn)為是正確樣本,所有其它樣本認(rèn)為 是錯(cuò)誤樣本。(3) 訓(xùn)練支持向量機(jī)模型使用支持向量機(jī)_訓(xùn)練工具,使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯(cuò)支持向量機(jī)模型。(4)設(shè)置發(fā)音錯(cuò)誤監(jiān)測(cè)門限由于支持向量機(jī)是一個(gè)分類器,它只能得到一個(gè) 分類結(jié)果,實(shí)際上,發(fā)音錯(cuò)誤監(jiān)測(cè)存在發(fā)音錯(cuò)誤檢出率和誤檢率這樣兩個(gè)指標(biāo), 根據(jù)支持向量機(jī)輸出結(jié)果設(shè)置門限可以完成這兩個(gè)指標(biāo)的平衡。在專家標(biāo)注數(shù)據(jù) 上,調(diào)整門限,就可以改變支持向量機(jī)錯(cuò)誤檢測(cè)結(jié)果,從而達(dá)到檢出率和誤檢率 的平衡7、發(fā)音錯(cuò)誤檢測(cè),其步驟如下(1) 針對(duì)發(fā)音樣本,計(jì)算特征文件利用文本信息對(duì)發(fā)音文件進(jìn)行切分和計(jì)算 似然度,然后按照特征提取模塊的方法計(jì)算特征文件。包括支持向量機(jī)的特征文 件(記為和異常易混淆錯(cuò)誤模塊特征(記為/e"ft^^,^)。(2) 進(jìn)行典型錯(cuò)誤支持向量機(jī)判決利用前面計(jì)算得到的特征>"/""sw ,運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出結(jié)果計(jì)算。把計(jì)算結(jié)果跟訓(xùn)練典型發(fā)音 錯(cuò)誤支持向量機(jī)模型時(shí)確定的檢錯(cuò)門限進(jìn)行比較,如果支持向量機(jī)結(jié)果大于門 限,則認(rèn)為發(fā)生典型發(fā)音錯(cuò)誤。(3) 進(jìn)行異常錯(cuò)誤判決利用前面計(jì)算得到的異常錯(cuò)誤檢測(cè)模塊特征 々W"r^—,把這個(gè)特征跟訓(xùn)練時(shí)確定的異常錯(cuò)誤檢測(cè)門限進(jìn)行比較,如果/^,_,。,大于門限,則認(rèn)為發(fā)生異常發(fā)音錯(cuò)誤。(4) 進(jìn)行異常易混淆錯(cuò)誤判決利用前面計(jì)算得到的特征々W^^w ,運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出結(jié)果計(jì)算。把計(jì)算結(jié)果跟訓(xùn)練異常易混淆發(fā) 音錯(cuò)誤支持向量機(jī)模型時(shí)確定的檢錯(cuò)門限進(jìn)行比較,如果支持向量機(jī)結(jié)果大于門 限,則認(rèn)為發(fā)生異常易混淆發(fā)音錯(cuò)誤。實(shí)施例2利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法具體實(shí)施步驟為 1、語音識(shí)別系統(tǒng)的搭建其步驟如下(1) 預(yù)先收集或錄制標(biāo)準(zhǔn)的發(fā)音語料,并保存為識(shí)別器訓(xùn)練語音文件;(2) 針對(duì)收集的標(biāo)準(zhǔn)語料進(jìn)行拼音標(biāo)注;(3) 模型訓(xùn)練根據(jù)收集的標(biāo)準(zhǔn)語料訓(xùn)練音素級(jí)語音識(shí)別器模型; (4 )將語音識(shí)別器保存到計(jì)算機(jī)輔助語言學(xué)習(xí)系統(tǒng)庫中。2、 發(fā)音錯(cuò)誤檢測(cè)特征提取,其步驟為首先利用被評(píng)測(cè)語料的文本,對(duì)發(fā)音進(jìn)行切分和計(jì)算目標(biāo)文本的對(duì)數(shù)似然度,記為/汰e"/wo4,然后,在切分得到的邊界上,計(jì)算此音段對(duì)識(shí)別器內(nèi)所有其它模型的對(duì)數(shù)似然度,這是一個(gè)矢量,記為 (//fe/zTzoot/p/zfe///^^.."/^///^*^), 然后,禾U用/汰e/Z/ oo力進(jìn)行規(guī)整樣,形成發(fā)音錯(cuò)誤檢測(cè)特征提取。3、 獲取發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練目標(biāo)數(shù)據(jù),其步驟如下(1) 收集真實(shí)發(fā)音人語料,錄制多發(fā)音人數(shù)據(jù);(2) 根據(jù)收集的發(fā)音人真實(shí)數(shù)據(jù),以及發(fā)音文本,使用發(fā)音評(píng)測(cè)專家對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,得到發(fā)音錯(cuò)誤標(biāo)注數(shù)據(jù),以此作為發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練數(shù)據(jù)。4、 訓(xùn)練發(fā)音錯(cuò)誤支持向量機(jī)檢測(cè)模型,其步驟如下(1) 根據(jù)發(fā)音錯(cuò)誤特征提取模塊得到發(fā)音錯(cuò)誤檢測(cè)特征數(shù)據(jù),根據(jù)專家標(biāo)注模塊得到目標(biāo)數(shù)據(jù);(2) 使用支持向量機(jī)訓(xùn)練工具,使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音 檢錯(cuò)支持向量機(jī)模型;(3) 在專家標(biāo)注數(shù)據(jù)上,在支持向量機(jī)輸出得分的基礎(chǔ)上,設(shè)置發(fā)音錯(cuò)誤檢測(cè) 門限,從而達(dá)到檢出率和誤檢率的平衡。5、 發(fā)音錯(cuò)誤檢測(cè)步驟如下(1) 利用文本信息對(duì)發(fā)音文件進(jìn)行切分和計(jì)算似然度,然后按照特征提取模塊 的方法計(jì)算特征文件,記為/e^W^sw;(2) 利用前面計(jì)算得到的特征>"ft^esw ,運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出結(jié)果計(jì)算,把計(jì)算結(jié)果跟訓(xùn)練典型發(fā)音錯(cuò)誤支持向量機(jī)模型時(shí)確定的檢 錯(cuò)門限進(jìn)行比較,如果支持向量機(jī)結(jié)果大于門限,則認(rèn)為發(fā)生發(fā)音錯(cuò)誤。
權(quán)利要求
1、一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,其特征在于用典型錯(cuò)誤支持向量機(jī)檢測(cè)方法進(jìn)行發(fā)音錯(cuò)誤的檢測(cè),所述的典型錯(cuò)誤支持向量機(jī)檢測(cè)方法包括以下步驟語音識(shí)別系統(tǒng)的搭建、發(fā)音錯(cuò)誤檢測(cè)特征提取、獲取發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練目標(biāo)數(shù)據(jù)、訓(xùn)練發(fā)音錯(cuò)誤支持向量機(jī)檢測(cè)模型和發(fā)音錯(cuò)誤的檢測(cè)。
2、 根據(jù)權(quán)利要求1所述的一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,其特 征在于所述語音識(shí)別系統(tǒng)的搭建其步驟如下(1) 預(yù)先收集和錄制標(biāo)準(zhǔn)的發(fā)音語料,并保存為識(shí)別器訓(xùn)練語音文件;(2) 針對(duì)收集的標(biāo)準(zhǔn)語料進(jìn)行拼音或音標(biāo)的標(biāo)注;(3) 模型訓(xùn)練根據(jù)收集的標(biāo)準(zhǔn)語料訓(xùn)練音素級(jí)語音識(shí)別器模型; (4 )將語音識(shí)別器保存到計(jì)算機(jī)輔助語言學(xué)習(xí)系統(tǒng)庫中。
3、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,其特 征在于所述發(fā)音錯(cuò)誤檢測(cè)特征提取,其步驟為首先利用被評(píng)測(cè)語料的文本,對(duì)發(fā)音進(jìn)行自動(dòng)切分和計(jì)算目標(biāo)文本的對(duì)數(shù)似然度,記為//^///200^,然后,在切分得到的音素邊界上,計(jì)算此音段對(duì)識(shí)別器內(nèi)所有其它模型的對(duì)數(shù)似然度,這是 一個(gè)矢量,記為(//fe//too《,//fe//toot/2,...,//fe/// C^w),然后,利用/^/// <70《進(jìn)形成發(fā)音錯(cuò)誤檢測(cè)特征提取。
4、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,其特 征在于所述獲取發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練目標(biāo)數(shù)據(jù),其步驟如下-(1) 收集真實(shí)發(fā)音人語料,錄制多發(fā)音人數(shù)據(jù);(2) 根據(jù)收集的發(fā)音人真實(shí)數(shù)據(jù),以及發(fā)音文本,使用發(fā)音評(píng)測(cè)專家對(duì)數(shù)據(jù)進(jìn) 行標(biāo)注,得到發(fā)音錯(cuò)誤標(biāo)注數(shù)據(jù),以此作為發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練數(shù)據(jù)。
5、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,其特 征在于所述訓(xùn)練發(fā)音錯(cuò)誤支持向量機(jī)檢測(cè)模型,其步驟如下(1) 根據(jù)發(fā)音錯(cuò)誤特征提取模塊得到發(fā)音錯(cuò)誤檢測(cè)特征數(shù)據(jù),根據(jù)專家標(biāo)注模 塊得到目標(biāo)數(shù)據(jù);(2) 使用訓(xùn)練工具支持向量機(jī)訓(xùn)練工具,使用所有樣本的特征文件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯(cuò)支持向量機(jī)模型; (3)在專家標(biāo)注數(shù)據(jù)上,在支持向量機(jī)輸出得分的基礎(chǔ)上,設(shè)置發(fā)音錯(cuò)誤檢測(cè) 門限,從而達(dá)到檢出率和誤檢率的平衡。
6、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,其特 征在于所述發(fā)音錯(cuò)誤檢測(cè),其步驟如下(1) 利用文本信息對(duì)發(fā)音文件進(jìn)行切分和計(jì)算似然度,然后按照特征提取模塊 的方法計(jì)算特征文件,記為/e^wesw;(2) 利用前面計(jì)算得到的特征/e^w&,,運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出結(jié)果計(jì)算,把計(jì)算結(jié)果跟訓(xùn)練典型發(fā)音錯(cuò)誤支持向量機(jī)模型時(shí)確定的檢 錯(cuò)門限進(jìn)行比較,如果支持向量機(jī)結(jié)果大于門限,則認(rèn)為發(fā)生發(fā)音錯(cuò)誤。
7、 根據(jù)權(quán)利要求2所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,其特 征在于所述收集的標(biāo)準(zhǔn)語料是利用HTK訓(xùn)練基于HMM的音素級(jí)語音識(shí)別器模型。
8、 根據(jù)權(quán)利要求3所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,其特征在于所述計(jì)算此音段對(duì)識(shí)別器內(nèi)所有其它模型的對(duì)數(shù)似然度時(shí),對(duì)于中文,聲 母和韻母分開,聲母只計(jì)算所有聲母,韻母只計(jì)算所有韻母;對(duì)于英文,元音和輔音分開,元音只計(jì)算所有元音,輔音只計(jì)算所有輔音。
9、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,其特 征在于還包括有異常錯(cuò)誤門限檢測(cè)方法,異常錯(cuò)誤門限檢測(cè)方法包括有以下步 驟(1) 訓(xùn)練異常發(fā)音錯(cuò)誤檢測(cè)器,其步驟如下1) 利用特征提取模塊方法得到異常發(fā)音錯(cuò)誤特征/^/w^^^。,,這個(gè)特征就是支持向量機(jī)特征各維的最大值,這里采用目標(biāo)數(shù)據(jù)模塊中的偽造數(shù)據(jù)方法來生成 目標(biāo)數(shù)據(jù);2) 對(duì)每種音素直接設(shè)置一個(gè)門限來完成錯(cuò)誤檢測(cè),以此定義異常發(fā)音錯(cuò)誤;3) 在偽造目標(biāo)錯(cuò)誤數(shù)據(jù)上,訓(xùn)練門限,從而滿足檢出率和誤檢率的平衡,以此(2) 設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限;進(jìn)行異常錯(cuò)誤判決首先計(jì)算得到的異常錯(cuò)誤檢測(cè)模塊特征/M,"r^—一£。,,這個(gè) 特征就是支持向量機(jī)特征各維的最大值,把這個(gè)特征跟訓(xùn)練時(shí)確定的異常錯(cuò)誤檢測(cè)門限進(jìn)行比較,如果/^^ _,。,大于門限,則認(rèn)為發(fā)生異常發(fā)音錯(cuò)誤。
10、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,其特 征在于還包括有異常混淆錯(cuò)誤支持向量機(jī)檢測(cè)方法,異常混淆錯(cuò)誤支持向量機(jī)檢 測(cè)方法包括有以下步驟(1) 定義每個(gè)音素的易混淆錯(cuò)誤對(duì)首先,使用異常錯(cuò)誤門限檢測(cè)方法測(cè)試每 個(gè)音素對(duì)的性能,得到每個(gè)音素和所有其它音素發(fā)生錯(cuò)誤時(shí)的檢測(cè)性能,誤檢率 固定在0. 05時(shí),檢出率低于門限0. 95的認(rèn)為是易混淆錯(cuò)誤對(duì);(2) 生成訓(xùn)練特征文件和目標(biāo)數(shù)據(jù)按照易混淆錯(cuò)誤對(duì)定義,取某音素的所有 發(fā)音正確的數(shù)據(jù)作為正確樣本,這些數(shù)據(jù)的支持向量機(jī)特征直接作為訓(xùn)練數(shù)據(jù)特 征,取所有某音素的易混淆集合里面的音素的發(fā)音正確樣本為某音素的錯(cuò)誤樣 本,訓(xùn)練特征文件,目標(biāo)數(shù)據(jù)為所有某音素的樣本認(rèn)為是正確樣本,所有其它音 素樣本認(rèn)為是錯(cuò)誤樣本;(3) 訓(xùn)練支持向量機(jī)模型使用支持向量機(jī)訓(xùn)練工具,使用所有樣本的特征文 件和目標(biāo)結(jié)果訓(xùn)練發(fā)音檢錯(cuò)支持向量機(jī)模型;(4) 設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限;進(jìn)行異常易混淆錯(cuò)誤判決利用前面計(jì)算得到的特征/e^"y^,運(yùn)用支持向量機(jī)測(cè)試工具進(jìn)行支持向量機(jī)輸出結(jié)果計(jì)算,把計(jì)算結(jié)果跟訓(xùn)練異常易混淆發(fā)音錯(cuò)誤支持向量機(jī)模型時(shí)確定的檢錯(cuò)門限進(jìn)行比較, 如果支持向量機(jī)結(jié)果大于門限,則認(rèn)為發(fā)生異常易混淆發(fā)音錯(cuò)誤。
11、 根據(jù)權(quán)利要求1所述的一種利用支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,其特 征在于所述的訓(xùn)練特征文件以某音素正確樣本作為其它音素的錯(cuò)誤樣本用下式 計(jì)算<formula>formula see original document page 4</formula><formula>formula see original document page 4</formula>
全文摘要
本發(fā)明涉及一種基于支持向量機(jī)進(jìn)行發(fā)音錯(cuò)誤檢測(cè)的方法,包括有典型錯(cuò)誤支持向量機(jī)檢測(cè)方法、異常錯(cuò)誤門限檢測(cè)方法和異?;煜e(cuò)誤支持向量機(jī)檢測(cè)方法,包括以下步驟實(shí)現(xiàn)語音識(shí)別系統(tǒng)的搭建、發(fā)音錯(cuò)誤檢測(cè)特征提取、獲取發(fā)音錯(cuò)誤檢測(cè)模型訓(xùn)練目標(biāo)數(shù)據(jù)、訓(xùn)練發(fā)音錯(cuò)誤支持向量機(jī)檢測(cè)模型和發(fā)音錯(cuò)誤的檢測(cè)、訓(xùn)練異常發(fā)音錯(cuò)誤檢測(cè)器、設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限、定義每個(gè)音素的易混淆錯(cuò)誤對(duì)、生成訓(xùn)練特征文件和目標(biāo)數(shù)據(jù)、訓(xùn)練支持向量機(jī)模型、設(shè)置發(fā)音錯(cuò)誤檢測(cè)門限、進(jìn)行異常易混淆錯(cuò)誤判決。本發(fā)明能有效解決人工標(biāo)注稀疏問題,保證了訓(xùn)練得到的檢錯(cuò)模型可以較好針對(duì)不同發(fā)音人,不同發(fā)音風(fēng)格進(jìn)行錯(cuò)誤檢測(cè)。
文檔編號(hào)G10L15/10GK101231848SQ20071013534
公開日2008年7月30日 申請(qǐng)日期2007年11月6日 優(yōu)先權(quán)日2007年11月6日
發(fā)明者劉慶升, 劉慶峰, 吳曉如, 王仁華, 王海坤, 郁 胡, 胡國平, 濤 陳, 燕 陳, 思 魏 申請(qǐng)人:安徽科大訊飛信息科技股份有限公司