亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置及方法

文檔序號:2822052閱讀:345來源:國知局
專利名稱:利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置及方法
技術領域
本發(fā)明是有關于一種混合多國語言的語音辨識方法,特別有關一種利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置及方法。
背景技術
由于經貿市場的全球化趨勢以及國際社會的互動增加,使得國人生活逐漸國際化。因此,在日常語言的表達上,混合多國語言的表達方式成為不可避免的使用方式。尤其許多專業(yè)領域的專有名詞,或者是外文人名、地名等都無法用翻譯名詞適切地表達,以混合多國語言或多國語言交叉使用的表達方式已成為日常語言的一部份。于語音辨識的應用中,將混合多國語言的語音加以辨識,使其成為具有完整意義的指令,即成為語音辨識中相當重要的工作。
現(xiàn)行混合多國語言(Mixed multi-lingual)的語音辨識方法,以下列三者為主。其一是由多個各自獨立的單一語言語音辨識系統(tǒng)構成,于實際應用時,通常必須由使用者選擇欲進行辨識的語言種類,或者由計算機判斷輸入的語音屬于何種語言,再指定一種語言的語音辨識系統(tǒng)進行辨識。此方法于同一語音輸入中僅能使用一種語言,無法處理于同時包含多國語言的語音輸入。雖然此方法包括多國語言的語音辨識系統(tǒng),但若嚴格界定的,其并不屬于可辨識混合多國語言的語音辨識方法。
其二是以一種語言來仿真其它的語言,也就是利用一種主要語言的相似音來仿真其它語言的發(fā)音。例如,選定中文作為主要語言,就利用中文的拼音來仿真其它語言的發(fā)音,如英文中的DVD即利用漢語拼音dil bil dil來近似仿真。此方法雖可解決前述方法所無法處理的包含多國語言的語音輸入問題,但由于采用近似仿真的方式,許多發(fā)音無法得到最佳的仿真效果,進而影響辨識的結果。如英文中的V便無法用漢語拼音適切地仿真出來,因此辨識的結果便會失真。
其三是以一組全球音標(global phoneme)來標示所有語言的發(fā)音,再利用決策樹(decision tree)將所有標示后的語音進行分類辨識。此方法雖可避免前述方法辨識結果失真的問題,但采用一組音標來標示所有語言,當字匯量累積至相當程度時,各語種間互相干擾的情形便容易發(fā)生,無法達到預期的辨識效果。

發(fā)明內容
本發(fā)明的一目的在于利用雙音模型(diphone model)的特性,除了跨語言(cross-lingual)的雙音模型外,其它的雙音模型都和單語辨識時相同,只能接到同一種語言,所以每一種語言的內部都采用該種語言的拼音來組成。如此一來,不僅可完成一句話中同時包含多國語言的語音辨識,而且只有跨語言的部份以雙音模型連接至另一種語言,各語種間互相干擾的情形便得到有效的控制。
由于建制一完備的語音辨識系統(tǒng),必須以大量語音庫進行訓練,本發(fā)明提出另一方法在于系統(tǒng)尚未訓練建制完成前,以獨立不同語言所個別訓練出來的雙音模型語音辨識系統(tǒng)來組合成一語音辨識系統(tǒng),以解決語音辨識系統(tǒng)建制初期的實際困擾。
為達成上述諸目的,本發(fā)明提供一種利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置,用以辨識混合多語的語音信號,并產生語音指令,包括語音建模器、語音搜尋器以及決策反應器。雙音模型是以混合語言的語音邊緣(phone boundary)作為建模依據。例如,“告訴我New York的天氣”,其中“我N”以及“k的”即為混合語言的語音邊緣。
語音建模器,其接收混合多語的語音信號,將混合多語的語音信號轉換為語音特征參數(feature),再將語音特征參數轉換為語音模型資料。
語音搜尋器,其接收語音模型資料,并搜尋比對多語模型數據庫(multi-lingual models database),產生分別對應于語音模型資料的候選資料組。每一候選資料組可具有多個候選語音模型資料及其對應的比較相似度(likelihood),根據詞匯連接機率,甚至在特定的用途時(ID,地址...等),可參考語音規(guī)則,決定詞匯可否連接等找出最佳的多個候選語音指令。
多語模型數據庫包括混合多語字音對應資料以及混合多語矯正模型(anti-model)?;旌隙嗾Z字音對應資料是以多語建模器建制而成,而混合多語矯正模型是以多語矯正模型產生器建制而成。
多語建模器接收多語查詢指令,并經過分析得到多語模型數據庫中的混合多語字音對應資料。多語建模器包括多語音標序列對應器以及跨語言雙音模型產生器。多語音標序列對應器,比對多語查詢指令以得到與多語查詢指令對應的多語音標序列??缯Z言雙音模型產生器,篩選組合多語音標序列,得到多語模型數據庫中的混合多語字音對應資料。
多語矯正模型產生器,接收多語查詢指令,經過正規(guī)化計算,得到混合多語矯正模型,包括單一語言矯正模型產生器以及矯正模型結合器。單一語言矯正模型產生器,接收多語查詢指令,參考單一語言雙音模型庫,分為不同語種進行正規(guī)化計算,產生單一語言矯正模型,每一單一語言矯正模型對應于一種單一語言。矯正模型結合器,接收單一語言矯正模型,進行加權計算得到多語模型數據庫中的混合多語矯正模型。
決策反應器,其根據比較相似度以及決策規(guī)則組,由候選語音指令決定一最佳的語音指令,然后依語音指令可產生相對應的行動反應。
其次,本發(fā)明提出一種利用雙音模型實現(xiàn)混合多國語言的語音辨識方法,用以辨識混合多國語言的語音信號,并產生可辨識的語音指令。首先,將混合多國語言的語音信號轉換為語音特征參數,再將語音特征參數轉換為語音模型資料。
接著,根據多語模型數據庫,搜尋比對對應于語音模型資料的候選資料組,每一候選資料組具有多個可能的候選語音模型資料,而每一候選語音模型資料具有一比較相似度。
多語模型數據庫包括混合多語字音對應資料以及混合多語矯正模型?;旌隙嗾Z字音對應資料是以多語建模程序建制而成,首先比對多語查詢指令,以得到對應的多語音標序列。然后,把多語音標序列根據前后音標,根據發(fā)音學做更精細的變化,可能加上一些卷舌,喉振音等,以得到更精細的混合多語字音對應資料,這部分其實在比較簡單的系統(tǒng)也是可以省略的。進行篩選組合時,是先固定左側音標,于右側音標尋求對應結果,若無法對應再固定右側音標,于左側音標尋求對應結果,得到上述混合多語字音對應資料。
混合多語矯正模型是以多語矯正模型產生程序建制而成。首先將多語查詢指令,參考單一語言雙音模型庫進行正規(guī)化計算,產生單一語言矯正模型,每一單一語言矯正模型對應于一種單一語言。接著,將單一語言矯正模型,進行加權計算得到上述混合多語矯正模型。
最后,根據比較相似度以及決策規(guī)則組,由每一候選資料組中決定結果語音模型資料,并將所得的結果語音模型資料結合成語音指令,最后可再依語音指令產生相對應的行動反應。


圖1是顯示本發(fā)明的功能方塊圖;圖2是顯示本發(fā)明中建制混合多語字音對應資料的功能方塊圖;圖3是顯示本發(fā)明中建制混合多語矯正模型的功能方塊圖;圖4是顯示本發(fā)明中建制混合多語矯正模型的細部功能方塊圖;圖5是顯示本發(fā)明所揭示的實施例中跨語言資料表的范例表示圖;圖6是顯示本發(fā)明所揭示的實施例應用的功能示意圖;
圖7是顯示本發(fā)明的執(zhí)行流程圖;符號說明100-混合多語語音信號102-語音建模器104-語音模型資料106-語音搜尋器107-語音規(guī)則數據庫108-多語模型數據庫110-最佳候選語音指令112-決策反應器114-決策規(guī)則組116-語音指令及相對應動作200-多語查詢指令202-多語文音標序列對應器206-跨語言雙音模型產生器208-混合多語字音對應資料30-多語查詢指令32-多語矯正模型產生器34-單一語言雙音模型庫36-混合多語矯正模型320-單一語言矯正模型產生器(甲語言)322-單一語言雙音模型庫(甲語言)324-單一語言矯正模型產生器(乙語言)326-單一語言雙音模型庫(乙語言)328-單一語言矯正模型產生器(丙語言)330-單一語言雙音模型庫(丙語言)332-矯正模型結合器
600-語音信號輸入602-麥克風604-電話接口606-模擬/數字608-只讀存儲器610-隨機存取內存612-閃存614-數字信號處理單元616-網絡模塊618-連接端口模塊620-行動反應程序升級622-數字/模擬624-喇叭626-電話接口628-語音輸出具體實施方式
如圖1所示,圖1是顯示本發(fā)明的功能方塊圖。本發(fā)明提出一種利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置,其用以辨識混合多語的語音信號100,并產生語音指令116,包括語音建模器102、語音搜尋器106以及決策反應器112。
語音建模器102,用以接收混合多語的語音信號100,將混合多語的語音信號100轉換為語音特征參數,再將語音特征參數轉換為語音模型資料104。
語音搜尋器106,接收語音模型資料104,并查詢多語模型數據庫108,搜尋比對對應于語音模型資料104的候選資料組,每一候選資料組可能有多個候選語音模型資料,每一候選語音模型資料會具有一比較相似度。上述搜尋比對還可能參考語言及語法規(guī)則數據庫(Rules or Languages Modelsdatabase)以及混多語指令字符串(Mixed multi-lingual query commandsstrings)。語言及語法規(guī)則數據庫主要是由某一特定領域或某一語言規(guī)則所組成,混多語指令字符串以及多語字音對應字符串亦為某一特定領域的常用字符串,其作用均在于增加語法辨識能力,提升辨識率(recognition rate)。語音搜尋器再根據詞匯連接機率或參考語音規(guī)則數據庫107決定詞匯可否連接等評估出最佳的多個候選語音指令110。
決策反應器112,其根據比較相似度以及決策規(guī)則組114,由候選語音指令110中決定一結果語音指令,然后可再依語音指令產生行動反應。決策規(guī)則組114可以預設一信賴度門檻(threshold),以判斷結果是否為一可認知的指令,過濾可能辨認錯誤的指令,避免錯誤動作。或以無條件接受辨識結果等規(guī)則來作為決策基準。行動反應可能是發(fā)出語音或燈號、提示使用者重新輸入或者進行遠程(remote)控制等。
多語模型數據庫108包括混合多語字音對應資料以及混合多語矯正模型?;旌隙嗾Z字音對應資料以多語建模器事先建制完成,混合多語矯正模型以多語矯正模型產生器事先建制完成。
如圖2所示,圖2是顯示本發(fā)明中建制混合多語字音對應資料的功能方塊圖。多語建模器包括多語音標序列對應器202以及跨語言雙音模型產生器206。多語音標序列對應器202,可參考多語字匯字典,將多語查詢指令200經過比對,得到對應的多語音標序列??缯Z言雙音模型產生器206,可參考跨語言資料表以及語法規(guī)則庫,篩選組合多語音標序列,得到多語模型數據庫中的混合多語字音對應資料208。
跨語言雙音模型產生器206于進行上述篩選組合時,是先固定左側音標,于右側音標尋求對應結果,若無法對應再固定右側音標,于左側音標尋求對應結果,得到上述混合多語字音對應資料。如圖5所示,圖5是顯示本發(fā)明所揭示的實施例中跨語言資料表的范例表示圖,圖中c表示中文,e表示英文。如圖中第一列所示,如中文的z拼音于英文中便無法找出較佳的近似音,利用本發(fā)明所提出的雙音模型的方式可找到英文中的ch或th的近似候選雙音模型。如圖中第二列所示,如中文的zcl拼音無法找出較佳的近似音,根據決策規(guī)則判定為不對應。如圖中第三列所示,如中文的ing拼音必須以英文的ih+ng組合才能完成,根據決策規(guī)則將其組合。
如圖3所示,圖3是顯示本發(fā)明中建制混合多語矯正模型的功能方塊圖。多語矯正模型產生器32,接收多語查詢指令30,經過正規(guī)化計算,得到混合多語矯正模型36。同時如圖4所示,圖4是顯示本發(fā)明中建制混合多語矯正模型的細部功能方塊圖。多語矯正模型產生器32包括數個單一語言矯正模型產生器320、324、328以及矯正模型結合器332。單一語言矯正模型產生器320、324、328,接收多語查詢指令30,參考單一語言雙音模型庫322、326、330,分為不同語種進行正規(guī)化計算,產生單一語言矯正模型,每一單一語言矯正模型對應于一種單一語言。矯正模型結合器332,接收單一語言矯正模型,進行加權計算得到多語模型數據庫中的混合多語矯正模型36。
換言之,單一語言矯正模型產生器(甲語言)320參考單一語言雙音模型庫(甲語言)322,產生甲語言矯正模型。單一語言矯正模型產生器(乙語言)324參考單一語言雙音模型庫(乙語言)326,產生乙語言矯正模型。單一語言矯正模型產生器(丙語言)328參考單一語言雙音模型庫(丙語言)330,產生丙語言矯正模型。再由矯正模型結合器332,接收甲語言、乙語言、丙語言矯正模型,進行加權計算得到多語模型數據庫中的混合多語矯正模型36。
單一語言矯正模型產生器320、324、328采用公式(1)、(2)來進行正規(guī)化P=Σk=1CkN(0,μk,σk)--(1)]]>logP=logP-logPanti(2)
如果所應用的語音辨識系統(tǒng),是以充分的多國語言混合數據庫所訓練建制完成。系統(tǒng)本身就已經含有訓練好的所有跨語言雙音模型,則于圖2中不需有跨語言模型產生器,同時因為系統(tǒng)本身已是以多語混合訓練而成,所以可不再需矯正模型,所以也無需如圖4的正規(guī)化加權計算產生混合多語矯正模型。如果所應用的語音辨識系統(tǒng),是以多個以不同語言個別訓練成的語音辨識系統(tǒng)所組成,即以多個單一語言的雙音模型結合而成,就必須進行如圖4的正規(guī)化加權計算。
舉例而言,可利用如圖6的硬件架構實現(xiàn)本發(fā)明。如圖所示,使用者于使用前可透過網絡模塊616或連接端口模塊618與語音辨識系統(tǒng)進行連接。使用者可根據使用需求定義所需的辨識規(guī)則,如地址、車牌或身份證字號等。使用者于使用時,可透過麥克風602或電話接口604輸入查詢或指令,即語音信號輸入600。
接著,由模擬信號至數字信號轉換模塊606,將語音信號輸入600轉換為數字信號。而語音辨識系統(tǒng)的程序軟件置于只讀存儲器608、隨機存取內存610以及閃存612中,數字信號處理單元614可進行數據處理、數據控制與資料辨識等工作。其中,如果所欲儲存的資料為固定且變動性不大的資料,如網絡協(xié)議、開機程序等可置于只讀存儲器608中。如果所欲儲存的資料為變動性大且經常更新的資料,如各語言間的轉換表、語音機率模型等可置于閃存612中。數字信號處理單元614于執(zhí)行時間,會將辨識系統(tǒng)加載隨機存取內存610中進行各項辨識分析。
最后,所得的結果透過數字信號至模擬信號轉換模塊622,轉換為模擬信號,由喇叭624或電話接口626輸出。此外,也可經由網絡模塊616或連接端口模塊618對遠程對象,進行對應的行動反應620。而且系統(tǒng)程序或者數據庫等亦可由網絡模塊616或連接端口模塊618進行程序升級與更新620。
其次,本發(fā)明提出一種利用雙音模型實現(xiàn)混合多國語言的語音辨識方法,用以辨識混合多國語言的語音信號,并產生相對應的行動反應。如圖7所示,圖7是顯示本發(fā)明的執(zhí)行流程圖。首先,將混合多國語言的語音信號轉換為語音特征參數,再將語音特征參數轉換為語音模型資料(步驟S700)。
接著,搜尋比對對應于語音模型資料的候選資料組,每一候選雙音模型組具有多個可能的候選雙音模型,而每一候選雙音模型具有一比較相似度(步驟S702),并評估出最佳的多個候選語音指令。步驟S702中的搜尋比對可根據多語模型數據庫、語言及語法規(guī)則數據庫以及混合多語查詢指令字符串。
多語模型數據庫包括混合多語字音對應資料以及混合多語矯正模型?;旌隙嗾Z字音對應資料是以多語建模程序建制而成,多語建模程序首先可參考多語字匯字典,將多語查詢指令經過比對,得到與多語查詢指令對應的多語音標序列。然后,分類多語音標序列進行分類,再參考跨語言資料表以及語法規(guī)則庫,篩選組合已分類的多語音標序列,得到混合多語字音對應資料。混合多語矯正模型是以多語矯正模型產生程序建制而成。多語矯正模型產生程序首先將多語查詢指令,參考單一語言雙音模型庫進行正規(guī)化計算,產生單一語言矯正模型,每一單一語言矯正模型對應于一種單一語言。接著,將單一語言矯正模型,進行加權計算得到上述混合多語矯正模型。
最后,根據比較相似度以及決策規(guī)則組,由每一候選雙音模型組中決定結果語音模型資料(步驟S704),并將所得的結果語音模型資料結合成語音指令(步驟S706),可再依語音指令產生相對應的行動反應(步驟S708)。
綜言之,本發(fā)明所揭示的裝置及方法,透過雙音模型的建制,實現(xiàn)混合多國語言的語音辨識功能,用以辨識混合多國語言的語音信號,并可產生語音指令,達到本發(fā)明所欲達到的目的。尤其在多國語言交叉混合及累積大量字匯的情形下,仍可具有相當良好的辨識成果,大幅改善現(xiàn)行技術所無法解決的問題。
權利要求
1.一種利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置,其用以辨識一混合多語的語音信號為一語音指令,其特征在于所述語音辨識裝置包括一語音建模器,用以接收上述混合多語的語音信號,將上述混合多語的語音信號轉換為復數語音特征參數,再將上述語音特征參數轉換為復數語音模型資料;一語音搜尋器,其耦接于上述語音建模器,用以接收上述語音模型資料,并且搜尋比對分別對應于上述語音模型資料的復數候選資料組,每一候選資料組具有復數候選語音模型資料,及其對應的比較相似度,并評估出最佳的復數候選語音指令;一決策反應器,其耦接于上述語音搜尋器,由上述候選語音指令中決定對應于上述語音模型資料的復數結果語音模型資料,并將上述結果語音模型資料結合成一語音指令。
2.根據權利要求1所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置,其特征在于上述語音模型資料是為具有雙音模型的資料。
3.根據權利要求1所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置,其特征在于上述語音搜尋器,是根據一多語模型數據庫進行搜尋比對。
4.根據權利要求3所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置,其特征在于上述多語模型數據庫包括復數混合多語字音對應資料。
5.根據權利要求4所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置,其特征在于更包括一多語建模器,用以產生上述混合多語字音對應資料,其包括一多語音標序列對應器,將復數第一多語查詢指令經過比對,得到對應的復數多語音標序列;一跨語言雙音模型產生器,其耦接于上述多語音標序列對應器,用以篩選組合上述多語音標序列,以得到上述混合多語字音對應資料。
6.根據權利要求3的利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置,其特征在于上述多語模型數據庫包括復數混合多語矯正模型。
7.根據權利要求6所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置,其特征在于更包括一多語矯正模型產生器,用以產生上述混合多語矯正模型,其包括至少一單一語言矯正模型產生器,用以接收復數第二多語查詢指令,分別對應于復數既定語種進行正規(guī)化計算,產生復數單一語言矯正模型;一矯正模型結合器,其耦接于上述單一語言矯正模型產生器,用以接收上述單一語言矯正模型,進行加權計算得到上述混合多語矯正模型。
8.根據權利要求1所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置,其特征在于上述語音搜尋器,是根據上述語音模型資料連接的順序以及一語音規(guī)則數據庫進行評估。
9.一種利用雙音模型實現(xiàn)混合多國語言的語音辨識方法,其用以辨識一混合多國語言的語音信號,其特征在于包括下列步驟將上述混合多國語言的語音信號轉換為復數語音特征參數,再將上述語音特征參數轉換為復數語音模型資料;搜尋比對分別對應于上述語音模型資料的復數候選資料組,每一候選資料組具有復數候選語音模型資料,及其對應的比較相似度,并評估出最佳的復數候選語音指令;根據上述比較相似度,分別由上述候選資料組中決定對應于上述語音模型資料的復數結果語音模型資料,并將上述結果語音模型資料結合成一語音指令。
10.根據權利要求9所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識方法,其特征在于上述語音模型資料是為具有雙音模型的資料。
11.根據權利要求9所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識方法,其特征在于上述雙音模型搜尋比對的步驟中,上述搜尋比對是根據一多語模型數據庫。
12.根據權利要求11所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識方法,其特征在于上述多語模型數據庫包括復數混合多語字音對應資料。
13.根據權利要求12所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識方法,其特征在于更包括一多語建模程序,用以產生上述混合多語字音對應資料,包括下列步驟將復數第一多語查詢指令經過比對,得到對應的復數多語音標序列;篩選組合上述多語音標序列,以得到上述混合多語字音對應資料。
14.根據權利要求13所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識方法,其特征在于篩選組合上述已分類的多語音標序列的步驟中,尚包括下列步驟先固定左側音標,于右側音標尋求對應結果;當無法對應時固定右側音標,于左側音標尋求對應結果;由對應結果得到上述混合多語字音對應資料。
15.根據權利要求11所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識方法,其特征在于上述多語模型數據庫包括復數混合多語矯正模型。
16.根據權利要求15所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識方法,其特征在于更包括一多語矯正模型產生程序,用以產生上述混合多語矯正模型,包括下列步驟接收復數第二多語查詢指令,分別對應于復數既定語種進行正規(guī)化計算,產生復數單一語言矯正模型;將上述單一語言矯正模型進行加權計算,以得到上述混合多語矯正模型。
17.根據權利要求9所述的利用雙音模型實現(xiàn)混合多國語言的語音辨識方法,其特征在于評估出最佳的上述候選語音指令的步驟是根據上述語音模型資料連接的順序以及一語音規(guī)則數據庫進行評估。
全文摘要
一種利用雙音模型實現(xiàn)混合多國語言的語音辨識裝置,用以辨識混合多國語言的語音信號為語音指令,包括語音建模器、語音搜尋器以及決策反應器。語音建模器,用以接收混合多語的語音信號,將其轉換為語音特征參數與語音模型資料。語音搜尋器,用以搜尋比對語音模型資料,產生候選語音模型資料及其比較相似度,并配合語法規(guī)則等以求出最佳的多個候選指令。決策反應器,根據所求得每個候選指令的比較相似度,以預設的信賴度或邏輯關系,決定是否接受該辨識結果或要求重新輸入。
文檔編號G10L15/00GK1540626SQ03128510
公開日2004年10月27日 申請日期2003年4月25日 優(yōu)先權日2003年4月25日
發(fā)明者李允文 申請人:臺達電子工業(yè)股份有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1