語音識別方法、語音評分方法、語音識別系統(tǒng)及語音評分系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種語音識別方法和語音評分方法,并進一步涉及使用這樣的語音識 別方法的語音識別系統(tǒng)及使用這樣的語音評分方法的語音評分系統(tǒng)。
【背景技術(shù)】
[0002] 目前,伴隨著語音識別技術(shù)的不斷發(fā)展,基于語音識別的應用也越來越廣泛,這樣 的技術(shù)已經(jīng)滲透入家庭生活、辦公領(lǐng)域、娛樂等方面。用戶通過利用對著個人計算機、筆記 本電腦、平板電腦、專用的學習終端、智能手機等終端上外接或內(nèi)置的麥克風來輸入語音 (例如,朗讀一句話),經(jīng)由語音識別引擎(以下簡稱"引擎")完成語音-文字的轉(zhuǎn)換?,F(xiàn) 有的引擎的產(chǎn)品有很多,例如,被廣泛使用的世界知名的Nuance、Google(谷歌)的語音識 別服務、中國國內(nèi)的科大訊飛的語音識別服務等。但是引擎在進行語音識別的最大問題是 語音識別的準確率,即使是在現(xiàn)有的引擎產(chǎn)品中擁有最高語音識別準確率的Nuance,也無 法避免以下問題:
[0003]al、諸如不常見的人名、地名等一些生僻的詞匯不會被引擎準確識別,通常情況下 會被識別為相同讀音的詞匯。
[0004] a2、在日語中,有時候希望引擎識別返回的是漢字,有時候希望識別返回的是假 名,但是引擎無法分別。
[0005] 另一方面,越來越多的語言學習是通過基于互聯(lián)網(wǎng)的遠程學習系統(tǒng)來實現(xiàn),并且 也伴隨有各式各樣的測驗系統(tǒng),來檢驗用戶(學習者)學習的成效。作為語言學習中非常 重要的一環(huán)的口語學習,在遠程學習系統(tǒng)中通常都配置有基于如上所述的語音識別方法的 語音評分系統(tǒng),來進行測驗用戶的口語。舉例而言,用戶通過終端中安裝的軟件完成與學習 服務器的交互(即,構(gòu)成用于實施語音評分方法的語音評分系統(tǒng)),經(jīng)語音-文字轉(zhuǎn)換、文 字-文字匹配等一些技術(shù)手段最終獲得該用戶所輸入的讀音的評分,即表征用戶是否用標 準的讀音朗讀了該句話的評分。
[0006] 現(xiàn)有技術(shù)的在基于語音識別的語音評分系統(tǒng)中,主要采用如圖1所示的語音評分 方法:獲取用戶朗讀原文所發(fā)出的語音(步驟S101),利用引擎對獲取的用戶的語音進行語 音識別(語音-文本的轉(zhuǎn)換)(步驟S102)(步驟S101-S102實質(zhì)為語音識別方法),通過將 語音識別結(jié)果(文本)與原文(文本)進行相似度比較計算語音評分(步驟S103),輸出作 為結(jié)果的語音評分(步驟S104)。
[0007] 由于上面所述的引擎在進行語音識別存在的語音識別準確率的問題,因而,在語 音評分系統(tǒng)中會影響評分準確性。此外,除了語音識別準確率的問題,引擎在進行語音識別 時還存在以下的不足:
[0008]b1、引擎在進行語音識別時常常會將語氣詞誤判為無效語音而自動過濾掉。
[0009] b2、句末的疑問詞讀得比較輕的時候也會被引擎誤判為無效的語音而自動過濾 掉。
[0010] 綜上所述,現(xiàn)有的語音識別系統(tǒng)中,由于現(xiàn)有的引擎在進行語音識別時客觀存在 不足,因而會影響其輸出的語音識別結(jié)果的正確性。另外,基于這樣的語音識別系統(tǒng)的語言 學習系統(tǒng)的語音評分系統(tǒng)中語音評分的準確性也存在評判不準確、不合理等問題,會導致 用戶對其興趣和信任度降低,非常不利于該語言學習系統(tǒng)的推廣。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明的一個目的是提供一種語音識別方法,能夠克服以上列舉的現(xiàn)有技術(shù)中的 缺陷中的至少一點缺陷,有效地提高語音識別準確率。
[0012] 本發(fā)明的另一個目的是提供一種語音評分方法,能夠克服以上列舉的現(xiàn)有技術(shù)中 的缺陷中的至少一點缺陷,有效地提高語言學習系統(tǒng)的語音評分準確率。
[0013] 根據(jù)本發(fā)明的一個方面,提供一種語音識別方法,用于對用戶的語音進行識別,生 成語音識別結(jié)果,該方法包括以下步驟:語音獲取步驟,獲取用戶的語音;語音識別步驟, 通過語言識別處理將獲取的語音轉(zhuǎn)換為文本數(shù)據(jù),作為初始語音識別結(jié)果;糾錯步驟,查閱 已記錄有若干個原詞匯-偏差詞匯的關(guān)聯(lián)的糾錯列表,若糾錯列表的某一個原詞匯-偏差 詞匯的關(guān)聯(lián)中的偏差詞匯存在于初始語音識別結(jié)果中,則進行糾錯處理,以將初始語音識 別結(jié)果中的與偏差詞匯相同的詞匯替換為原詞匯-偏差詞匯的關(guān)聯(lián)中的原詞匯,從而獲得 糾錯后的語音識別結(jié)果,作為語音識別方法生成的語音識別結(jié)果。
[0014] 根據(jù)本發(fā)明的另一個方面,提供一種語音評分方法,用于對用戶朗讀特定的原文 的語音進行評判,輸出表征其語音標準程度的評分,該方法包括:如上所述的語音識別方 法,該語音識別方法基于用戶朗讀特定原文的語音生成語音識別結(jié)果;并進一步包括比較 步驟,將原文與糾錯后的語音識別結(jié)果進行相似度比較,如果原文與糾錯后的語音識別結(jié) 果完全一致,輸出最高的評分,如果原文與糾錯后的語音識別結(jié)果不一致,執(zhí)行過濾步驟, 在過濾步驟中,從原文中找出一個或多個在原文中存在、但是在初始語音識別結(jié)果中或糾 錯后的語音識別結(jié)果中沒有相應的識別結(jié)果返回的未返回詞匯,并建立相應的一個或多個 未返回詞匯-空白的關(guān)聯(lián),并通過查閱已記錄有若干個未返回詞匯-空白的關(guān)聯(lián)的過濾詞 列表,當建立的一個或多個未返回詞匯-空白的關(guān)聯(lián)中的部分或全部未返回詞匯-空白的 關(guān)聯(lián)已經(jīng)被記錄在過濾詞列表中,則從原文中刪除與部分或全部未返回詞匯-空白的關(guān)聯(lián) 對應的未返回詞匯,以生成過濾后的原文;輸出步驟,將糾錯后的語音識別結(jié)果與過濾后的 原文進行相似度比較,計算并輸出評分。
[0015] 根據(jù)本發(fā)明的又一個方面,提供了一種語音識別系統(tǒng),用于對用戶語音進行識別, 生成語音識別結(jié)果,該語音識別系統(tǒng)包括:語音獲取單元,獲取用戶的語音;語音識別單 元,通過語言識別處理將獲取的語音轉(zhuǎn)換為文本數(shù)據(jù),作為初始語音識別結(jié)果;糾錯處理單 元,查閱已記錄有若干個原詞匯-偏差詞匯的關(guān)聯(lián)的糾錯列表,若糾錯列表的某一個原詞 匯-偏差詞匯的關(guān)聯(lián)中的偏差詞匯存在于初始語音識別結(jié)果中,則進行糾錯處理,以將初 始語音識別結(jié)果中的與偏差詞匯相同的詞匯替換為原詞匯-偏差詞匯的關(guān)聯(lián)中的原詞匯, 從而獲得糾錯后的語音識別結(jié)果,作為語音識別系統(tǒng)生成的語音識別結(jié)果。
[0016] 根據(jù)本發(fā)明的又一個方面,提供了一種語音評分系統(tǒng),用于對用戶朗讀特定的原 文的語音進行評判,輸出表征其語音標準程度的評分,該語音評分系統(tǒng)包括:如上所述的語 音識別系統(tǒng),基于用戶朗讀特定原文的語音生成語音識別結(jié)果;并進一步包括比較單元,將 原文與糾錯后的語音識別結(jié)果進行相似度比較,如果原文與糾錯后的語音識別結(jié)果完全一 致,輸出最高的評分;比較單元還包括樣本過濾單元,如果原文與糾錯后的語音識別結(jié)果不 一致,樣本過濾單元執(zhí)行過濾處理,以從原文中找出一個或多個在原文中存在、但是在初始 語音識別結(jié)果或糾錯后的語音識別結(jié)果中沒有相應的識別結(jié)果返回的未返回詞匯,并建立 相應的一個或多個未返回詞匯-空白的關(guān)聯(lián),并通過查閱已記錄有若干個未返回詞匯-空 白的關(guān)聯(lián)的過濾詞列表,當建立的一個或多個未返回詞匯-空白的關(guān)聯(lián)中的部分或全部未 返回詞匯-空白的關(guān)聯(lián)已經(jīng)被記錄在過濾詞列表中,則從原文中刪除與部分或全部未返回 詞匯-空白的關(guān)聯(lián)對應的未返回詞匯,以生成過濾后的原文;輸出單元,將糾錯后的語音識 別結(jié)果與過濾后的原文進行相似度比較,計算并輸出評分。
[0017] 通過采用本發(fā)明的語音識別方法和系統(tǒng),能夠有效地提高結(jié)合了這樣的語音識別 方法的語音識別準確率。
[0018] 通過采用本發(fā)明的語音評分方法和系統(tǒng),能夠有效地提高結(jié)合了這樣的語音評分 方法的語言學習系統(tǒng)的語音評分準確率。
【附圖說明】
[0019] 圖1是顯示現(xiàn)有技術(shù)的在基于語音識別的語音評分系統(tǒng)中的語音評分方法的流 程圖。
[0020] 圖2是顯示根據(jù)第一實施例的語音識別方法的流程圖。
[0021] 圖3是顯示根據(jù)第二實施例的糾錯列表的生成方法的第一個實例的流程圖。
[0022] 圖4是顯示根據(jù)第二實施例的糾錯列表的生成