專利名稱:一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其涉及一種融合翻譯記憶和基于短語(yǔ)的翻譯模型的統(tǒng)計(jì)機(jī)器翻譯方法。
背景技術(shù):
統(tǒng)計(jì)機(jī)器翻譯是一種從雙語(yǔ)平行語(yǔ)料庫(kù)中自動(dòng)學(xué)習(xí)翻譯規(guī)則,并有效利用這些翻譯規(guī)則對(duì)待翻譯語(yǔ)句進(jìn)行自動(dòng)翻譯的技術(shù)。統(tǒng)計(jì)機(jī)器翻譯主要包括基于詞的模型、基于短語(yǔ)的模型和基于句法樹(shù)結(jié)構(gòu)的翻譯模型。其中,基于短語(yǔ)的翻譯模型和基于句法樹(shù)結(jié)構(gòu)的機(jī)器翻譯模型是當(dāng)前機(jī)器翻譯的主流方法。經(jīng)過(guò)二十多年的發(fā)展,統(tǒng)計(jì)機(jī)器翻譯取得了長(zhǎng)足的進(jìn)步,翻譯質(zhì)量在不斷提高。在某些特殊的語(yǔ)言對(duì)之間(例如:英語(yǔ)和阿拉伯語(yǔ)),統(tǒng)計(jì)機(jī)器翻譯生成的譯文已經(jīng)達(dá)到了人們可以接受的范圍。此外,在某些限定領(lǐng)域,例如專利翻譯和產(chǎn)品說(shuō)明書(shū)翻譯,統(tǒng)計(jì)機(jī)器翻譯已經(jīng)投入實(shí)際應(yīng)用。與此同時(shí),許多商業(yè)公司陸續(xù)推出了基于統(tǒng)計(jì)的在線機(jī)器翻譯服務(wù),例如,Google Translate, Microsoft Translator和百度在線翻譯等等。無(wú)論是在學(xué)術(shù)界還是工業(yè)界,統(tǒng)計(jì)機(jī)器翻譯正在如火如荼地快速發(fā)展。但是,由于參數(shù)量和計(jì)算復(fù)雜度等問(wèn)題,統(tǒng)計(jì)機(jī)器翻譯模型一般只考慮局部信息,并不考慮長(zhǎng)距離的依賴。因此它的遠(yuǎn)距離調(diào)序效果并不好,翻譯結(jié)果還無(wú)法達(dá)到專業(yè)翻譯的水平,很難滿足完全商業(yè)化的需要。特別是某些專業(yè)領(lǐng)域,例如,法律、航天等,對(duì)譯文質(zhì)量要求非常高,目前的機(jī)器翻譯水平還不能滿足這一需求。
盡管統(tǒng)計(jì)機(jī)器翻譯的研究十分火熱,然而,基于翻譯記憶(Translation Memory,簡(jiǎn)稱TM)的計(jì)算機(jī)輔助翻譯軟件卻獨(dú)霸著專業(yè)翻譯市場(chǎng),統(tǒng)計(jì)機(jī)器翻譯幾乎難覓身影。由于專業(yè)領(lǐng)域的范圍相對(duì)狹窄,翻譯資料都存在不同程度的重復(fù)。使用翻譯記憶的目的就是為了消除重復(fù)勞動(dòng),提升專業(yè)翻譯人員的工作效率。有學(xué)者曾經(jīng)對(duì)800多名翻譯工作者進(jìn)行調(diào)研發(fā)現(xiàn)參見(jiàn) “Lagoudaki, 2006.Transition memories survery2006:user’ sperceptions around tm use,In Proceedings of the ASLIB International ConferenceTranslating and the Computer28, pages, 1-29.”,82.5%的翻譯人員會(huì)使用翻譯記憶軟件輔助翻譯工作。甚至許多國(guó)際組織和公司都采用翻譯記憶系統(tǒng)處理多語(yǔ)言文檔和資料。從國(guó)際著名翻譯記憶軟件提供商Trados的主頁(yè)上可以看到,歐盟、國(guó)際貨幣基金組織、大眾汽車、IBM和微軟等國(guó)際組織和企業(yè)都是Trados的客戶。但是,翻譯記憶軟件給出的參考翻譯是與待翻譯句子最相似句子的翻譯,并不是待翻譯句子的直接翻譯,需要人工對(duì)其進(jìn)行修改。因此,翻譯記憶軟件只能作為專業(yè)翻譯的輔助翻譯工具,并不能單獨(dú)作為一個(gè)自動(dòng)的翻譯系統(tǒng)。由于機(jī)器翻譯和翻譯記憶的應(yīng)用環(huán)境不一樣,二者都獨(dú)立發(fā)展了很多年。直到最近幾年,隨著機(jī)器翻譯質(zhì)量的不斷上升,研究者開(kāi)始關(guān)注如何結(jié)合機(jī)器翻譯和翻譯記憶的優(yōu)點(diǎn)。對(duì)于計(jì)算機(jī)輔助翻譯來(lái)說(shuō),如果能夠利用機(jī)器翻譯系統(tǒng)代替或者減少翻譯記憶軟件中人工修改的工作,將會(huì)使得翻譯記憶軟件更加高效,翻譯效率也會(huì)大大提高。對(duì)于機(jī)器翻譯來(lái)說(shuō),如果能夠利用翻譯記憶給出的參考翻譯,幫助機(jī)器翻譯系統(tǒng)改善系統(tǒng)輸出,將會(huì)大大提升機(jī)器翻譯的質(zhì)量,推動(dòng)機(jī)器翻譯在專業(yè)翻譯領(lǐng)域的應(yīng)用。因此,研究如何充分且恰當(dāng)?shù)厝诤蠙C(jī)器翻譯和翻譯記憶對(duì)于提升機(jī)器翻譯質(zhì)量,減少翻譯記憶系統(tǒng)的人工修改工作量有著重要的意義,這是一個(gè)富有挑戰(zhàn)但非常有意義的任務(wù)。
發(fā)明內(nèi)容
針對(duì)如何有效融合翻譯記憶和統(tǒng)計(jì)機(jī)器翻譯模型的難題,本發(fā)明的目的是提出一種融合翻譯記憶和短語(yǔ)翻譯模型的方法,使得在短語(yǔ)翻譯模型解碼過(guò)程中,充分且恰當(dāng)?shù)赝诰蚍g記憶提供的信息,從而進(jìn)一步提高當(dāng)前統(tǒng)計(jì)機(jī)器翻譯的最佳性能,減少人工輔助翻譯的工作量。為了實(shí)現(xiàn)所述目的,本發(fā)明提供一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯方法,其包括:步驟1:利用訓(xùn)練集得到雙語(yǔ)短語(yǔ)切分句對(duì);步驟2:根據(jù)所得到的雙語(yǔ)短語(yǔ)切分句對(duì)獲得翻譯記憶中相應(yīng)的翻譯記憶短語(yǔ)對(duì),并抽取翻譯記憶短語(yǔ)對(duì)的相關(guān)特征;步驟3、融合短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征最終獲得當(dāng)前待翻譯句子的目標(biāo)翻譯結(jié)果。本發(fā)明還公開(kāi)了一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),其包括:短語(yǔ)切分模塊,其利用訓(xùn)練集得到雙語(yǔ)短語(yǔ)切分句對(duì);短語(yǔ)對(duì)特征獲取模塊,其根據(jù)所得到的雙語(yǔ)短語(yǔ)切分句對(duì)獲得翻譯記憶中相應(yīng)的翻譯記憶短語(yǔ)對(duì),并抽取翻譯記憶短語(yǔ)對(duì)的相關(guān)特征;融合模塊,其用于融合短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征最終獲得當(dāng)前待翻譯句子的目標(biāo)翻譯結(jié)果。本發(fā)明的積極效果:本發(fā)明在短語(yǔ)翻譯模型解碼過(guò)程中,深入挖掘翻譯記憶提供的信息,指導(dǎo)解碼器進(jìn)行解碼,大大提高了翻譯系統(tǒng)的翻譯質(zhì)量。在計(jì)算機(jī)領(lǐng)域的漢英翻譯記憶庫(kù)上的實(shí)驗(yàn)結(jié)果表明,當(dāng)模糊匹配系數(shù)高于0.4時(shí),本發(fā)明可以充分結(jié)合翻譯記憶和短語(yǔ)翻譯模型的優(yōu)點(diǎn),顯著地提高翻譯質(zhì)量。與翻譯記憶相比,利用本發(fā)明的模型三,翻譯結(jié)果的BLEU值提高了 16.34個(gè)百分點(diǎn),TER值下降了 17.25個(gè)百分點(diǎn)。這說(shuō)明對(duì)于翻譯記憶,本發(fā)明能夠進(jìn)一步減少人工后編輯的工作量,加快工作效率。與短語(yǔ)翻譯模型相比,利用本發(fā)明的模型三,翻譯結(jié)果的BLEU值提高了 3.48個(gè)百分點(diǎn),TER值下降了 2.62個(gè)百分點(diǎn)。這說(shuō)明本發(fā)明有效地改善了機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量。以上實(shí)驗(yàn)結(jié)果充分證明了本發(fā)明的有效性和廣泛適用性。
圖1是本發(fā)明中融合翻譯記憶和短語(yǔ)翻譯模型的流程框圖;圖2是本發(fā)明中融合模型一使用的特征樣例;圖3是本發(fā)明中融合模型二使用的特征樣例;圖4是本發(fā)明中 融合模型三使用的特征樣例。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明作具體說(shuō)明。應(yīng)該指出,所描述的實(shí)例僅僅視為說(shuō)明的目的,而不是對(duì)本發(fā)明的限制。本發(fā)明所有代碼實(shí)現(xiàn)都是用C++編程語(yǔ)目完成,開(kāi)發(fā)平臺(tái)是Ubuntu Linux8.04。由于所寫程序沒(méi)有用到任何與平臺(tái)相關(guān)的代碼,因此所述的系統(tǒng)實(shí)現(xiàn)也可以運(yùn)行于Windows操作系統(tǒng)上。本發(fā)明的基本思想是在短語(yǔ)翻譯模型的基礎(chǔ)上,充分恰當(dāng)?shù)赝诰蚍g記憶的信息,提出了一種融合翻譯記憶和短語(yǔ)翻譯模型的翻譯方法,以提高統(tǒng)計(jì)機(jī)器翻譯的譯文質(zhì)量。圖1示出了本發(fā)明提出的融合翻譯記憶和短語(yǔ)翻譯模型的翻譯方法流程圖。如圖1所示,該方法包括:步驟1.對(duì)雙語(yǔ)句子對(duì)進(jìn)行自動(dòng)分詞、自動(dòng)詞對(duì)齊,即圖1中的自動(dòng)分詞和自動(dòng)詞對(duì)齊。對(duì)雙語(yǔ)句子對(duì)中的源語(yǔ)言和目標(biāo)語(yǔ)言句子進(jìn)行自動(dòng)分詞,得到源語(yǔ)言端和目標(biāo)語(yǔ)言端的分詞結(jié)果。如果源語(yǔ)言或目標(biāo)語(yǔ)言中不包含漢語(yǔ),則不需要進(jìn)行分詞。如果源語(yǔ)言或目標(biāo)語(yǔ)言中包含漢語(yǔ),則需要用對(duì)漢語(yǔ)進(jìn)行分詞。對(duì)漢語(yǔ)進(jìn)行分詞的方法有很多種。本發(fā)明優(yōu)選實(shí)施例中選用詞法分析工具Urheen對(duì)漢語(yǔ)進(jìn)行分詞,該Urheen詞法分析工具可以在以下網(wǎng)址免費(fèi)下載:http://www.0penpr.0rg.cn/index.php/NLP-Toolkit-for-Natural-Language-Processing/o在得到所述的源語(yǔ)言端和目標(biāo)語(yǔ)言端的分詞結(jié)果之后,需要對(duì)雙語(yǔ)句子對(duì)自動(dòng)進(jìn)行詞對(duì)齊。所述自動(dòng)進(jìn)行詞對(duì)齊的方法有多種,在本發(fā)明優(yōu)選實(shí)施例中使用GIZA++工具包對(duì)漢-英句子對(duì)進(jìn)行詞對(duì)齊,得到漢-英自動(dòng)詞對(duì)齊結(jié)果。所述GIZA++是一個(gè)常用的開(kāi)源詞對(duì)齊工具。GIZA++可以在以下網(wǎng)址免費(fèi)下載:http://f ioch.com/GIZA++.html。在使用GIZA++時(shí)要選擇某個(gè)啟發(fā)式策略來(lái)得到對(duì)稱的詞對(duì)齊結(jié)果,本發(fā)明優(yōu)選實(shí)施例中選擇了取交集(intersection)的策略,因?yàn)樵搯l(fā)式策略能夠得到準(zhǔn)確率比較高的詞對(duì)齊。步驟I的目的是得到雙語(yǔ)訓(xùn)練語(yǔ)料的詞對(duì)齊結(jié)果。例如,對(duì)于雙語(yǔ)句子對(duì)“我是一個(gè)學(xué)生”和“I am a student”。經(jīng)過(guò)中文分詞以后得到以下結(jié)果“我是一個(gè)學(xué)生”和“I ama student”。然后進(jìn)行自動(dòng)詞對(duì)齊,自動(dòng)詞對(duì)齊是將雙語(yǔ)句子中互為翻譯的詞對(duì)應(yīng)起來(lái),例如,根據(jù)自動(dòng)詞對(duì)齊結(jié)果,我們可以知道“我”與“I”是對(duì)齊的,“學(xué)生”和“student”是對(duì)齊的等等。步驟2.在訓(xùn)練集上進(jìn)行交叉翻譯,獲取訓(xùn)練集的雙語(yǔ)短語(yǔ)切分對(duì),所述雙語(yǔ)短語(yǔ)切分對(duì)包括訓(xùn)練集中每個(gè)句子被切分成的源語(yǔ)言短語(yǔ)序列和其對(duì)應(yīng)的翻譯目標(biāo)短語(yǔ)序列。具體包括:(I):隨機(jī)將雙語(yǔ)訓(xùn)練集為20份;(2)取其中的19份作為短語(yǔ)翻譯系統(tǒng)的訓(xùn)練語(yǔ)料,利用開(kāi)源工具包Moses,訓(xùn)練一個(gè)基于短語(yǔ)的翻譯模型(將在隨后介紹);
上述基于短語(yǔ)的翻譯模型的訓(xùn)練步驟(即圖1中的短語(yǔ)翻譯模型訓(xùn)練)具體如下:基于短語(yǔ)的翻譯模型已經(jīng)比較成熟,本發(fā)明優(yōu)選實(shí)施例中采用著名的開(kāi)源系統(tǒng)Moses作為短語(yǔ)翻譯模型的獲取方式,即本發(fā)明優(yōu)選實(shí)施例中利用著名的開(kāi)源系統(tǒng)Moses從所述雙語(yǔ)訓(xùn)練集中獲取短語(yǔ)翻譯模型中的翻譯模型特征。Moses可以在以下網(wǎng)址免費(fèi)下載http://www.statmt.0rR/moses/。在短語(yǔ)翻譯模型中,本發(fā)明優(yōu)選實(shí)施例中使用了以下常用特征:(I)短語(yǔ)翻譯特征:雙向的短語(yǔ)翻譯概率、雙向的詞匯化概率、以及一個(gè)短語(yǔ)懲罰概率。(2)調(diào)序模型特征:本發(fā)明優(yōu)選實(shí)施例中使用了兩個(gè)調(diào)序模型:基于距離的短語(yǔ)重排序模型參見(jiàn)“Franz Josef Och and Hermann Ney,2002.Discriminative training and maximumentropy models for statistical machine translation.1n Proceedings of the40thAnnual Meeting of the Association for Computational Linguistics(ACL),pages295_302.”和詞匯化的短語(yǔ)重排序模型參見(jiàn)“Christoph Tillmann, 2004.Aunigram orientation model for statistical machine translation.1n Proceedings ofHLT-NAACL2004,pagesl01-104.”。(3)語(yǔ)言模型特征:本發(fā)明優(yōu)選實(shí)施例中利用SRILM工具包參見(jiàn)“Andreas Stolcke, 2002.SRILM-anextensible language modeling toolkit.1n Proceedings of the InternationalConference on Spoken Language Processing,pages311_318.”在目標(biāo)語(yǔ)言端的訓(xùn)練語(yǔ)料上,使用修正的Kneser-Ney平滑方法參見(jiàn)“Stanley F.Chen and Joshua Goodman,1998.An empirical study of smoothing techniques for language modeling.Technical Report TR-10—98, Harvard University Cent`er for Research in ComputingTechnology.”,訓(xùn)練一個(gè)5元語(yǔ)言模型;SRILM工具包可以在以下網(wǎng)址免費(fèi)下載:http: //www~speech.sr1.com/pro iects/srilm/download, html(4)控制目標(biāo)翻譯長(zhǎng)度的長(zhǎng)度懲罰特征。在獲取上述翻譯模型特征以后,使用最小錯(cuò)誤率參數(shù)訓(xùn)練方法MERT參見(jiàn)“FranzJosef Och,2003.Minimum error rate training in statistical machine translation.1n Proceedings ofthe41st Annual Meeting of the Association for ComputationalLinguistics, pagesl60_167.”在整個(gè)開(kāi)發(fā)集上進(jìn)行參數(shù)訓(xùn)練,獲取上述翻譯模型特征的特征權(quán)重,所述開(kāi)發(fā)集就是用來(lái)訓(xùn)練特征權(quán)重的翻譯樣例,其與雙語(yǔ)訓(xùn)練集為不同的語(yǔ)料集。(3):使用上一步中訓(xùn)練好的短語(yǔ)翻譯模型中的翻譯模型特征和特征權(quán)重,對(duì)剩余的那份語(yǔ)料進(jìn)行強(qiáng)迫解碼(Forced Decoding)參見(jiàn)“Andreas Zollmann,AshishVenugopal, Franz Josef Och and Jay Ponte,2008.A systematic comparison ofphrase-based hierarchical and syntax-augmented statistical MT.1n Proceedingsof the22nd International Conference on Computational Linguistics (Coling2008),pagesll45-1152.”,即可獲得該份訓(xùn)練語(yǔ)料的雙語(yǔ)短語(yǔ)切分句對(duì);(4):重復(fù)上述步驟,以同樣的方法分別獲得另外19份訓(xùn)練語(yǔ)料的雙語(yǔ)短語(yǔ)切分句對(duì),最終可獲得訓(xùn)練集中的所有雙語(yǔ)短語(yǔ)切分對(duì)。上述步驟2的目的是盡量窮盡訓(xùn)練集所有源語(yǔ)言句子的短語(yǔ)對(duì)切分,進(jìn)而在短語(yǔ)翻譯解碼過(guò)程中使用。步驟3.根據(jù)訓(xùn)練集的雙語(yǔ)短語(yǔ)對(duì)切分,通過(guò)短語(yǔ)匹配找到翻譯記憶中對(duì)應(yīng)的短語(yǔ)對(duì),并抽取翻譯記憶相關(guān)的特征,這些特征根據(jù)后面介紹的三種模型得到。根據(jù)訓(xùn)練集的雙語(yǔ)短語(yǔ)對(duì)切分,對(duì)比翻譯記憶給出的最相似句對(duì),進(jìn)行短語(yǔ)匹配,其過(guò)程如下:(I)對(duì)比訓(xùn)練集中待翻譯的源語(yǔ)言句子s和翻譯記憶給出的最相似源語(yǔ)言句子tm_s,根據(jù)它們 之間的編輯操作,找到源語(yǔ)言短語(yǔ)乙a.)在最相似源語(yǔ)言句子tm_s中的對(duì)應(yīng)源語(yǔ)目短語(yǔ);(2)根據(jù)翻譯記憶中源語(yǔ)言句子tm_s和目標(biāo)語(yǔ)言翻譯句子tm_t之間的詞對(duì)齊信息,找到源語(yǔ)言短語(yǔ)的對(duì)應(yīng)目標(biāo)語(yǔ)言翻譯短語(yǔ)。其中,編輯操作是指將源語(yǔ)言句子s變?yōu)樽钕嗨圃凑Z(yǔ)言句子tm_s所進(jìn)行的插入、刪除和替換操作。例如,將“我是學(xué)生”變?yōu)椤拔也皇菍W(xué)生”,僅需要一次插入操作(插入一個(gè)“不”字);而將“我不是學(xué)生”變?yōu)椤拔沂菍W(xué)生”,僅需要一次刪除操作(刪除“不”字)。獲取源語(yǔ)言短語(yǔ)和它對(duì)應(yīng)的目標(biāo)語(yǔ)言翻譯短語(yǔ)__&^后,抽取翻譯記憶相關(guān)的特征。這些特征將在隨后詳細(xì)介紹。步驟4.設(shè)計(jì)融合翻譯記憶和短語(yǔ)翻譯模型的整合式統(tǒng)計(jì)機(jī)器翻譯模型框架,并訓(xùn)練所述短語(yǔ)翻譯模型和所述整合式統(tǒng)計(jì)機(jī)器模型,并調(diào)節(jié)它們之間的權(quán)重α。具體如下:與標(biāo)準(zhǔn)的基于短語(yǔ)的翻譯模型相比,融合翻譯記憶的和短語(yǔ)翻譯模型的整合式統(tǒng)計(jì)機(jī)器翻譯模型可以利用翻譯記憶庫(kù)中更多的信息。因此,本發(fā)明將翻譯問(wèn)題重新定義為:t = arg max I\( |.s', imj,ImJ',s_a, ιη α])
t上式中s是待翻譯的源語(yǔ)言句子;t是某一個(gè)目標(biāo)語(yǔ)言翻譯候選(不考慮插入,但是允許刪除。即允許源語(yǔ)言短語(yǔ)對(duì)空,但不允許目標(biāo)語(yǔ)言短語(yǔ)對(duì)空)J是最終輸出的目標(biāo)語(yǔ)言翻譯;[tm_s, tm_t, tm_f, s_a, tm_a]表示從翻譯記憶庫(kù)中找到的最相似句子對(duì)以及它們之間的對(duì)齊信息別表示最相似的源語(yǔ)言句子和它的目標(biāo)語(yǔ)言句子;tm_f表示tm_s與源語(yǔ)言句子s之間的模糊匹配系數(shù);s_a表示tm_s與s之間的編輯操作信息;tm_a表示tm_s和tm_t之間的詞對(duì)齊信息。由此可見(jiàn),融合翻譯記憶的翻譯模型是在給定源語(yǔ)言句子s和翻譯記憶信息[tm_s,tm_t, tm_f, s_a, tm_a]的情況下,在眾多翻譯候選t之中,搜索概率最大的翻譯結(jié)果f。假設(shè)TX表示源語(yǔ)言句子s的某一個(gè)源語(yǔ)言短語(yǔ)序列是對(duì)應(yīng)目標(biāo)語(yǔ)言翻譯候選扣勺某種短語(yǔ)序列。由于翻譯過(guò)程并不是自左向右順序進(jìn)行的,因此,本發(fā)明優(yōu)選實(shí)施例中將第k個(gè)生成的翻譯候選短語(yǔ)ξ對(duì)應(yīng)的源語(yǔ)言短語(yǔ)記為Aw。表示與,…,丨(簡(jiǎn)寫為)對(duì)應(yīng)的目標(biāo)語(yǔ)言短語(yǔ)序列,即5^和元‘丨丨f表示的是同一句子s的不同語(yǔ)序排列(總共K個(gè)短語(yǔ),并且沒(méi)有插入的目標(biāo)語(yǔ)言短語(yǔ),即沒(méi)有目標(biāo)語(yǔ)言短語(yǔ)對(duì)空的情況。如果瓦⑷是一個(gè)被刪除的短語(yǔ),其對(duì)應(yīng)的ξ就是是源語(yǔ)言句子S的某一個(gè)源語(yǔ)言短語(yǔ)序列<某一種排列形式。那么,公式(I)可以展開(kāi)為:
權(quán)利要求
1.一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯方法,其包括: 步驟1:利用訓(xùn)練集得到雙語(yǔ)短語(yǔ)切分句對(duì); 步驟2:根據(jù)所得到的雙語(yǔ)短語(yǔ)切分句對(duì)獲得翻譯記憶中相應(yīng)的翻譯記憶短語(yǔ)對(duì),并抽取翻譯記憶短語(yǔ)對(duì)的相關(guān)特征; 步驟3:融合短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征最終獲得當(dāng)前待翻譯句子的目標(biāo)翻譯結(jié)果。
2.如權(quán)利要求1所述的方法,其特征在于,步驟3通過(guò)整合式統(tǒng)計(jì)機(jī)器翻譯模型將短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征進(jìn)行融合,該整合式統(tǒng)計(jì)機(jī)器翻譯模型如下表示:
3.如權(quán)利要求1所述的方法,其特征在于,步驟3通過(guò)整合式統(tǒng)計(jì)機(jī)器翻譯模型將短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征進(jìn)行融合,該整合式統(tǒng)計(jì)機(jī)器翻譯模型如下表示:
4.如權(quán)利要求2-3任一項(xiàng)所述的方法,其特征在于,P(Mk|Lk,ζ)根據(jù)如下所示的模型獲得:
5.如權(quán)利要求2-3任一項(xiàng)所述的方法,其特征在于,P(Mk|Lk,ζ)根據(jù)如下所示的模型獲得:
6.如權(quán)利要求2-3任一項(xiàng)所述的方法,其特征在于,P(Mk|Lk,z)根據(jù)如下所示的模型獲得:
7.如權(quán)利要求3-4任一項(xiàng)所述的方法,其特征在于,z通過(guò)模糊匹配系數(shù)來(lái)表示,所述模糊匹配系數(shù)如下計(jì)算:
8.如權(quán)利要求1所述的方法,其特征在于,步驟I具體包括: 步驟11:隨機(jī)將訓(xùn)練集中的雙語(yǔ)訓(xùn)練語(yǔ)料分為N份; 步驟12:取其中的N-1份作為短語(yǔ)翻譯模型的訓(xùn)練語(yǔ)料,并訓(xùn)練一個(gè)短語(yǔ)翻譯模型; 步驟13:使用上一步中訓(xùn)練好的短語(yǔ)翻譯模型,對(duì)剩余的那份訓(xùn)練語(yǔ)料進(jìn)行強(qiáng)迫解碼(Forced Decoding),獲得該份剩余訓(xùn)練語(yǔ)料的雙語(yǔ)短語(yǔ)切分對(duì); 步驟14:重復(fù)上述步驟,以同樣的方式分別獲得其它N-1份訓(xùn)練語(yǔ)料的雙語(yǔ)短語(yǔ)切分句對(duì),最終得到訓(xùn)練集中所有雙語(yǔ)訓(xùn)練語(yǔ)料的雙語(yǔ)短語(yǔ)切分句對(duì)。
9.如權(quán)利要求1所述的方法,其特征在于,所述翻譯記憶短語(yǔ)對(duì)的相關(guān)特征包括:翻譯記憶中與待翻譯句子的相似源語(yǔ)言句子tm_s與待翻譯句子之間的相似度;源語(yǔ)言短語(yǔ)瓦(《、所述翻譯記憶短語(yǔ)對(duì)中相似源語(yǔ)言短語(yǔ)% 以及相似目標(biāo)語(yǔ)言短語(yǔ)三者之間的匹配狀態(tài);目標(biāo)語(yǔ)言候選短語(yǔ)ξ與相似目標(biāo)語(yǔ)言短語(yǔ) α,之間的匹配狀態(tài)。
10.如權(quán)利要求9所述的方法,其特征在于,所述源語(yǔ)言短語(yǔ)T所述翻譯記憶短語(yǔ)對(duì)中相似源語(yǔ)言短語(yǔ)以及相似目標(biāo)語(yǔ)言短語(yǔ)三者之間的匹配狀態(tài)包括:目標(biāo)語(yǔ)言候選短語(yǔ)ξ與相似目標(biāo)語(yǔ)言短語(yǔ)1 之間的內(nèi)容相似程度、相似目標(biāo)語(yǔ)言短語(yǔ)-_ζ( 0在相似目標(biāo)語(yǔ)言短語(yǔ)候選集合中長(zhǎng)度是否最長(zhǎng)的特征以及目標(biāo)語(yǔ)言候選短語(yǔ)和其前一個(gè)目標(biāo)語(yǔ)言候選短語(yǔ)[I1,引與相似目標(biāo)語(yǔ)言短語(yǔ)-—《⑷和其前一個(gè)相似目標(biāo)語(yǔ)言短語(yǔ)[心—之間的相對(duì)位置匹配關(guān)系特征;所述目標(biāo)語(yǔ)言候選短語(yǔ)ξ與相似目標(biāo)語(yǔ)言短語(yǔ)μ—之間的匹配狀態(tài)包括:目標(biāo)語(yǔ)言候選短語(yǔ)ζ相似源語(yǔ)言短語(yǔ)⑷之間的相似程度、源語(yǔ)言短語(yǔ)Iu1與相似源語(yǔ)言短語(yǔ)wj:#)左右鄰居的匹配狀態(tài)、源語(yǔ)言短語(yǔ)元⑴的長(zhǎng)度、表示源語(yǔ)言短語(yǔ)5Lu)是否為句尾標(biāo)點(diǎn)符號(hào)以及相似源語(yǔ)言短語(yǔ)Iw在相似源語(yǔ)言句子tm_s中對(duì)應(yīng)的相似目標(biāo)語(yǔ)言短語(yǔ)的候選集合狀態(tài)。
11.一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),其包括: 短語(yǔ)切分模塊,其利用訓(xùn)練集得到雙語(yǔ)短語(yǔ)切分句對(duì); 短語(yǔ)對(duì)特征獲取模塊,其根據(jù)所得到的雙語(yǔ)短語(yǔ)切分句對(duì)獲得翻譯記憶中相應(yīng)的翻譯記憶短語(yǔ)對(duì),并抽取翻譯記憶短語(yǔ)對(duì)的相關(guān)特征; 融合模塊,其用于融合短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征最終獲得當(dāng)前待翻譯句子的目標(biāo)翻譯結(jié)果。
全文摘要
本發(fā)明公開(kāi)了一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯方法,其包括步驟1利用訓(xùn)練集得到雙語(yǔ)短語(yǔ)切分句對(duì);步驟2根據(jù)所得到的雙語(yǔ)短語(yǔ)切分句對(duì)獲得翻譯記憶中相應(yīng)的翻譯記憶短語(yǔ)對(duì),并抽取翻譯記憶短語(yǔ)對(duì)的相關(guān)特征;步驟3融合短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征最終獲得當(dāng)前待翻譯句子的目標(biāo)翻譯結(jié)果。其是一種在傳統(tǒng)短語(yǔ)翻譯模型的基礎(chǔ)上充分且恰當(dāng)?shù)赝诰蚍g記憶提供的信息以提高統(tǒng)計(jì)機(jī)器翻譯譯文質(zhì)量的方法。
文檔編號(hào)G06F17/28GK103235775SQ20131014882
公開(kāi)日2013年8月7日 申請(qǐng)日期2013年4月25日 優(yōu)先權(quán)日2013年4月25日
發(fā)明者汪昆, 宗成慶, 蘇克毅 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所