基于偽反饋的個性化機器翻譯系統(tǒng)及方法
【專利摘要】本發(fā)明涉及一種基于偽反饋的個性化機器翻譯系統(tǒng)及方法?,F(xiàn)有傳統(tǒng)的機器翻譯方法無法獲得高質(zhì)量的個性化翻譯系統(tǒng),造成不能滿足用戶各種翻譯需求的問題。本發(fā)明翻譯系統(tǒng)包括:用短語表過濾模塊、輸入模塊、初步翻譯模塊、偽反饋檢索模塊、短語表分類模塊和解碼器模塊?;趥畏答伒膫€性化機器翻譯方法包括:輸入過程:用戶將翻譯任務(wù)S輸入;初步翻譯過程:利用初步翻譯模塊得到翻譯任務(wù)的初步機器翻譯結(jié)果T′;偽反饋檢索過程:利用偽反饋檢索模塊檢索得到相似翻譯實例的初步翻譯結(jié)果和標準翻譯譯文R;短語表分類過程:使訓練后的通用后編輯模型變成個性化后編輯模型,再過濾得到優(yōu)化的個性化后編輯模型;解碼器模塊解碼過程:以優(yōu)化的個性化后編輯模型對翻譯任務(wù)的初步機器翻譯結(jié)果T′進行解碼,得到佳化的最終翻譯結(jié)果。本發(fā)明用于機器翻譯領(lǐng)域。
【專利說明】基于偽反饋的個性化機器翻譯系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種個性化機器翻譯系統(tǒng)及方法,屬于機器翻譯領(lǐng)域。
【背景技術(shù)】
[0002]近年來隨著機器翻譯技術(shù)的迅速發(fā)展,其翻譯的質(zhì)量已經(jīng)有了很大程度上的提升,目前一些通用的在線翻譯服務(wù)已經(jīng)能夠幫助人們突破語言的障礙去閱讀和理解一些常用的跨語言的文本。然而進一步提升機器翻譯的質(zhì)量卻遇到了很大的困難。一方面,因為現(xiàn)有的統(tǒng)計機器翻譯技術(shù)主要缺點是,如果要完成個性化翻譯,需要大量的用戶反饋信息,并在這些數(shù)據(jù)上進行統(tǒng)計訓練建模,實現(xiàn)一個個性化的機器翻譯模型。而這些訓練所需的用戶反饋信息的獲得是十分困難的,并且現(xiàn)有方法無法有效利用這些反饋信息,從而無法獲得高質(zhì)量的個性化翻譯系統(tǒng)。雖然通過傳統(tǒng)的后編輯能夠利用用戶反饋信息,但是由于可使用用戶數(shù)據(jù)較少,導致統(tǒng)計后編輯模型的優(yōu)勢難以發(fā)揮出來。另一方面,傳統(tǒng)的機器翻譯方法的優(yōu)化目標通常是基于開放式領(lǐng)域的,而不是針對于特定的翻譯任務(wù)進行的。盡管存在針對領(lǐng)域自適應(yīng)問題的研究,但仍屬于針對專業(yè)群體,而面對廣泛又多樣的機器翻譯用戶尤其是互聯(lián)網(wǎng)在線用戶而言,無法滿足用戶各種翻譯需求。所以進一步提高機器翻譯的質(zhì)量是我們要亟待解決的一個技術(shù)問題。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是為了解決傳統(tǒng)的機器翻譯方法無法獲得高質(zhì)量的個性化翻譯系統(tǒng),造成不能滿足用戶各種翻譯需求的問題,而提出一種能夠提高機器翻譯質(zhì)量的基于偽反饋的個性化機器翻譯系統(tǒng)和翻譯方法。
[0004]一種基于偽反饋的個性化機器翻譯系統(tǒng),所述翻譯系統(tǒng)包括:
[0005]用于對開發(fā)集數(shù)據(jù)的每個通用后編輯模型短語表進行過濾的短語表過濾模塊;
[0006]用于獲得用戶輸入的翻譯任務(wù)S的輸入模塊;
[0007]用于對用戶輸入翻譯任務(wù)S之后進行翻譯而得到翻譯任務(wù)的初步機器翻譯結(jié)果T',對本地系統(tǒng)提供的翻譯實例庫的源語言句子進行翻譯得到翻譯實例初步翻譯句子T的初步翻譯模塊;
[0008]用于在本地系統(tǒng)詞對齊形式的翻譯實例庫中,檢索得到相似翻譯實例的初步翻譯結(jié)果和標準翻譯譯文R的偽反饋檢索模塊;
[0009]用于對訓練后的后編輯模型的短語表進行分類而得到個性化后編輯模型的短語表分類模塊;
[0010]用于對偽反饋檢索模塊檢索得到的初步機器翻譯結(jié)果進行解碼,而得到最終的翻譯結(jié)果的解碼器模塊。
[0011]一種基于偽反饋的個性化機器翻譯方法,在用戶輸入翻譯任務(wù)S之前,利用翻譯記憶中的翻譯實例的初步機器翻譯句子T和標準翻譯譯文R采用統(tǒng)計方法訓練通用后編輯模型,完成通用后編輯模型的訓練過程;所述個性化機器翻譯方法通過以下步驟實現(xiàn):
[0012]步驟一,短語表過濾模過程:利用短語表過濾模塊對開發(fā)集數(shù)據(jù)的每個通用后編輯模型短語表進行過濾;
[0013]利用過濾后的結(jié)果采用默認權(quán)重對開發(fā)集數(shù)據(jù)中每個句子Di進行解碼,產(chǎn)生n-best翻譯結(jié)果;然后,將n-best翻譯結(jié)果進行結(jié)合;最后,使用MERT工具對結(jié)合后的n-best翻譯結(jié)果整體調(diào)參,還能夠?qū)崿F(xiàn)特征參數(shù)優(yōu)化過程;
[0014]步驟二,輸入過程:用戶將翻譯任務(wù)S輸入至輸入模塊;
[0015]步驟三,初步翻譯過程:所述初步翻譯過程包括用戶輸入翻譯任務(wù)S之前和用戶輸入翻譯任務(wù)S之后兩部分;
[0016]在用戶輸入翻譯任務(wù)S之前,利用本地系統(tǒng)的機器翻譯系統(tǒng)搭建的翻譯平臺,將本地系統(tǒng)提供的翻譯實例庫的源語言句子進行初步翻譯,得到翻譯實例初步翻譯句子T ;
[0017]同時,通過輸入模塊獲得用戶輸入的翻譯任務(wù)S之后,利用初步翻譯模塊翻譯得到翻譯任務(wù)的初步機器翻譯結(jié)果T';
[0018]步驟四,偽反饋檢索過程:根據(jù)步驟三中得到的翻譯實例初步機器翻譯句子T,在本地詞對齊形式的翻譯實例庫中,利用偽反饋檢索模塊以源語言詞袋模型進行余弦相似度的檢索,得到相似翻譯實例的初步翻譯結(jié)果和標準翻譯譯文R,并從相似翻譯實例的初步翻譯結(jié)果和標準翻譯譯文R的檢索結(jié)果中選擇最相似的前900-1100個;
[0019]其中,所述余弦相似度CS按照以源語言詞袋模型為單元的向量空間模型計算,所述余弦相似度CS的計算方法為:
【權(quán)利要求】
1.一種基于偽反饋的個性化機器翻譯系統(tǒng),其特征在于,所述翻譯系統(tǒng)包括: 用于對開發(fā)集數(shù)據(jù)的每個通用后編輯模型短語表進行過濾的短語表過濾模塊; 用于獲得用戶輸入的翻譯任務(wù)S的輸入模塊; 用于對用戶輸入翻譯任務(wù)S之后進行翻譯而得到翻譯任務(wù)的初步機器翻譯結(jié)果T',對本地系統(tǒng)提供的翻譯實例庫的源語言句子進行翻譯得到翻譯實例初步翻譯句子T的初步翻譯模塊; 用于在本地系統(tǒng)詞對齊形式的翻譯實例庫中,檢索得到相似翻譯實例的初步翻譯結(jié)果和標準翻譯譯文R的偽反饋檢索模塊; 用于對訓練后的后編輯模型的短語表進行分類而得到個性化后編輯模型的短語表分類模塊; 用于對偽反饋檢索模塊檢索得到的初步機器翻譯結(jié)果進行解碼,而得到最終的翻譯結(jié)果的解碼器模塊。
2.根據(jù)權(quán)利要求1所述基于偽反饋的個性化機器翻譯系統(tǒng),其特征在于,所述短語表過濾模塊包含于所述短語表分類模塊內(nèi)。
3.一種基于上述偽反饋的個性化機器翻譯系統(tǒng)的個性化機器翻譯方法,其特征在于:在用戶輸入翻譯任務(wù)S之前,利用翻譯記憶中的翻譯實例的初步機器翻譯句子T和標準翻譯譯文R采用統(tǒng)計方法訓練通用后編輯模型,完成通用后編輯模型的訓練過程;所述個性化機器翻譯方法通過以下步驟實現(xiàn): 步驟一,短語表過濾過程:利用短語表過濾模塊對開發(fā)集數(shù)據(jù)的每個通用后編輯模型短語表進行過濾; 利用過濾后的結(jié)果采用默認權(quán)重對開發(fā)集數(shù)據(jù)中每個句子Di進行解碼,產(chǎn)生n-best翻譯結(jié)果;然后,將n-best翻譯結(jié)果進行結(jié)合;最后,使用MERT工具對結(jié)合后的n-best翻譯結(jié)果整體調(diào)參,還能夠?qū)崿F(xiàn)特征參數(shù)優(yōu)化過程; 步驟二,輸入過程:用戶將翻譯任務(wù)S輸入至輸入模塊; 步驟三,初步翻譯過程:所述初步翻譯過程包括用戶輸入翻譯任務(wù)S之前和用戶輸入翻譯任務(wù)S之后兩部分; 在用戶輸入翻譯任務(wù)S之前,利用本地系統(tǒng)的機器翻譯系統(tǒng)搭建的翻譯平臺,將本地系統(tǒng)提供的翻譯實例庫的源語言句子進行初步翻譯,得到翻譯實例初步翻譯句子T ; 同時,通過輸入模塊獲得用戶輸入的翻譯任務(wù)S之后,利用初步翻譯模塊翻譯得到翻譯任務(wù)的初步機器翻譯結(jié)果T'; 步驟四,偽反饋檢索過程:根據(jù)步驟三中得到的翻譯實例初步機器翻譯句子T,在本地詞對齊形式的翻譯實例庫中,利用偽反饋檢索模塊以源語言詞袋模型進行余弦相似度的檢索,得到相似翻譯實例的初步翻譯結(jié)果和標準翻譯譯文R,并從相似翻譯實例的初步翻譯結(jié)果和標準翻譯譯文R的檢索結(jié)果中選擇最相似的前900-1100個; 其中,所述余弦相似度CS按照以源語言詞袋模型為單元的向量空間模型計算,所述余弦相似度CS的計算方法為:
其中,Vec (Sexample)為翻譯實例的源語言句子向量,Vec (Sinput)為翻譯任務(wù)向量,Vec (Sinput).Vec (Sexample)是兩個向量的內(nèi)積,I I.I I是向量的范數(shù); 步驟五,短語表分類過程:根據(jù)步驟四選擇的最相似的前900-1100個相似翻譯實例的初步翻譯結(jié)果和標準翻譯譯文R,利用短語表分類模塊將訓練后的通用后編輯模型的短語表分類為有助于提升翻譯質(zhì)量的積極短語和對最終翻譯結(jié)果融入噪音的消極短語,使訓練后的通用后編輯模型變成個性化后編輯模型,再將個性化后編輯模型中的積極短語和消極短語與步驟四中偽反饋檢索過程檢索出的相似翻譯實例的初步翻譯結(jié)果和標準翻譯譯文R對比,將所述消極短語從個性化后編輯模型短語表中過濾掉,從而得到一個優(yōu)化的個性化后編輯模型; 步驟六,解碼器模塊解碼過程:以步驟五中優(yōu)化的個性化后編輯模型作為翻譯模型,利用解碼器使用傳統(tǒng)的機器翻譯解碼方法對步驟三獲得的翻譯任務(wù)的初步機器翻譯結(jié)果T'進行解碼,得到佳化的最終翻譯結(jié)果。
4.根據(jù)權(quán)利要求3所述基于偽反饋的個性化機器翻譯方法,其特征在于:步驟六所述解碼過程利用公式:T處理翻譯任務(wù)的初步機器翻譯
T ei?結(jié)果T'得到佳化的最終翻譯結(jié)果;式中,Ρ(Τ" |τ')為通用后編輯模型的翻譯概率,p(s|t",τ')為在通用后編輯模型中利用短語對(τ",τ')對給定輸入的翻譯任務(wù)s的翻譯任務(wù)的初步機器翻譯句子T'進行后編輯模型的概率,定義其概率值為I或0,然后通過以下兩種方法得到p(s|t",τ')的值: D當優(yōu)化的個性化后編輯模型中的短語對(pt,pk)中的兩個短語分別與翻譯任務(wù)的初步機器翻譯結(jié)果T'和標準翻譯譯文R中有至少一個短語相匹配時,P(S|T",T')的概率值取1,否則取O ; 2)當優(yōu)化的個性化后編輯模型中的短語對(PT,PK)中的短語Pk與標準翻譯譯文R中有至少一個短語相匹配時,P(S|T",T')的概率值取1,否則取O。
5.根據(jù)權(quán)利要求3或4所述基于偽反饋的個性化機器翻譯方法,其特征在于:進行步驟四所述偽反饋檢索過程時,從相似翻譯實例的初步翻譯結(jié)果和標準翻譯譯文R的檢索結(jié)果中選擇最相似的前1000個。
【文檔編號】G06F17/28GK104199813SQ201410491100
【公開日】2014年12月10日 申請日期:2014年9月24日 優(yōu)先權(quán)日:2014年9月24日
【發(fā)明者】楊沐昀, 朱俊國, 趙鐵軍, 李生, 徐冰, 曹海龍, 朱聰慧, 鄭德權(quán) 申請人:哈爾濱工業(yè)大學