一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯方法

文檔序號(hào)：6402513閱讀：260來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯方法
技術(shù)領(lǐng)域：
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域，尤其涉及一種融合翻譯記憶和基于短語(yǔ)的翻譯模型的統(tǒng)計(jì)機(jī)器翻譯方法。
背景技術(shù)：
統(tǒng)計(jì)機(jī)器翻譯是一種從雙語(yǔ)平行語(yǔ)料庫(kù)中自動(dòng)學(xué)習(xí)翻譯規(guī)則，并有效利用這些翻譯規(guī)則對(duì)待翻譯語(yǔ)句進(jìn)行自動(dòng)翻譯的技術(shù)。統(tǒng)計(jì)機(jī)器翻譯主要包括基于詞的模型、基于短語(yǔ)的模型和基于句法樹(shù)結(jié)構(gòu)的翻譯模型。其中，基于短語(yǔ)的翻譯模型和基于句法樹(shù)結(jié)構(gòu)的機(jī)器翻譯模型是當(dāng)前機(jī)器翻譯的主流方法。經(jīng)過(guò)二十多年的發(fā)展，統(tǒng)計(jì)機(jī)器翻譯取得了長(zhǎng)足的進(jìn)步，翻譯質(zhì)量在不斷提高。在某些特殊的語(yǔ)言對(duì)之間(例如:英語(yǔ)和阿拉伯語(yǔ))，統(tǒng)計(jì)機(jī)器翻譯生成的譯文已經(jīng)達(dá)到了人們可以接受的范圍。此外，在某些限定領(lǐng)域，例如專利翻譯和產(chǎn)品說(shuō)明書(shū)翻譯，統(tǒng)計(jì)機(jī)器翻譯已經(jīng)投入實(shí)際應(yīng)用。與此同時(shí)，許多商業(yè)公司陸續(xù)推出了基于統(tǒng)計(jì)的在線機(jī)器翻譯服務(wù)，例如，Google Translate, Microsoft Translator和百度在線翻譯等等。無(wú)論是在學(xué)術(shù)界還是工業(yè)界，統(tǒng)計(jì)機(jī)器翻譯正在如火如荼地快速發(fā)展。但是，由于參數(shù)量和計(jì)算復(fù)雜度等問(wèn)題，統(tǒng)計(jì)機(jī)器翻譯模型一般只考慮局部信息，并不考慮長(zhǎng)距離的依賴。因此它的遠(yuǎn)距離調(diào)序效果并不好，翻譯結(jié)果還無(wú)法達(dá)到專業(yè)翻譯的水平，很難滿足完全商業(yè)化的需要。特別是某些專業(yè)領(lǐng)域，例如，法律、航天等，對(duì)譯文質(zhì)量要求非常高，目前的機(jī)器翻譯水平還不能滿足這一需求。

盡管統(tǒng)計(jì)機(jī)器翻譯的研究十分火熱,然而,基于翻譯記憶(Translation Memory,簡(jiǎn)稱TM)的計(jì)算機(jī)輔助翻譯軟件卻獨(dú)霸著專業(yè)翻譯市場(chǎng)，統(tǒng)計(jì)機(jī)器翻譯幾乎難覓身影。由于專業(yè)領(lǐng)域的范圍相對(duì)狹窄，翻譯資料都存在不同程度的重復(fù)。使用翻譯記憶的目的就是為了消除重復(fù)勞動(dòng)，提升專業(yè)翻譯人員的工作效率。有學(xué)者曾經(jīng)對(duì)800多名翻譯工作者進(jìn)行調(diào)研發(fā)現(xiàn)參見(jiàn) “Lagoudaki, 2006.Transition memories survery2006:user’ sperceptions around tm use,In Proceedings of the ASLIB International ConferenceTranslating and the Computer28, pages, 1-29.”，82.5%的翻譯人員會(huì)使用翻譯記憶軟件輔助翻譯工作。甚至許多國(guó)際組織和公司都采用翻譯記憶系統(tǒng)處理多語(yǔ)言文檔和資料。從國(guó)際著名翻譯記憶軟件提供商Trados的主頁(yè)上可以看到，歐盟、國(guó)際貨幣基金組織、大眾汽車、IBM和微軟等國(guó)際組織和企業(yè)都是Trados的客戶。但是，翻譯記憶軟件給出的參考翻譯是與待翻譯句子最相似句子的翻譯，并不是待翻譯句子的直接翻譯，需要人工對(duì)其進(jìn)行修改。因此，翻譯記憶軟件只能作為專業(yè)翻譯的輔助翻譯工具，并不能單獨(dú)作為一個(gè)自動(dòng)的翻譯系統(tǒng)。由于機(jī)器翻譯和翻譯記憶的應(yīng)用環(huán)境不一樣，二者都獨(dú)立發(fā)展了很多年。直到最近幾年，隨著機(jī)器翻譯質(zhì)量的不斷上升，研究者開(kāi)始關(guān)注如何結(jié)合機(jī)器翻譯和翻譯記憶的優(yōu)點(diǎn)。對(duì)于計(jì)算機(jī)輔助翻譯來(lái)說(shuō)，如果能夠利用機(jī)器翻譯系統(tǒng)代替或者減少翻譯記憶軟件中人工修改的工作，將會(huì)使得翻譯記憶軟件更加高效，翻譯效率也會(huì)大大提高。對(duì)于機(jī)器翻譯來(lái)說(shuō)，如果能夠利用翻譯記憶給出的參考翻譯，幫助機(jī)器翻譯系統(tǒng)改善系統(tǒng)輸出，將會(huì)大大提升機(jī)器翻譯的質(zhì)量，推動(dòng)機(jī)器翻譯在專業(yè)翻譯領(lǐng)域的應(yīng)用。因此，研究如何充分且恰當(dāng)?shù)厝诤蠙C(jī)器翻譯和翻譯記憶對(duì)于提升機(jī)器翻譯質(zhì)量，減少翻譯記憶系統(tǒng)的人工修改工作量有著重要的意義，這是一個(gè)富有挑戰(zhàn)但非常有意義的任務(wù)。

發(fā)明內(nèi)容
針對(duì)如何有效融合翻譯記憶和統(tǒng)計(jì)機(jī)器翻譯模型的難題，本發(fā)明的目的是提出一種融合翻譯記憶和短語(yǔ)翻譯模型的方法，使得在短語(yǔ)翻譯模型解碼過(guò)程中，充分且恰當(dāng)?shù)赝诰蚍g記憶提供的信息，從而進(jìn)一步提高當(dāng)前統(tǒng)計(jì)機(jī)器翻譯的最佳性能，減少人工輔助翻譯的工作量。為了實(shí)現(xiàn)所述目的，本發(fā)明提供一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯方法，其包括:步驟1:利用訓(xùn)練集得到雙語(yǔ)短語(yǔ)切分句對(duì)；步驟2:根據(jù)所得到的雙語(yǔ)短語(yǔ)切分句對(duì)獲得翻譯記憶中相應(yīng)的翻譯記憶短語(yǔ)對(duì)，并抽取翻譯記憶短語(yǔ)對(duì)的相關(guān)特征；步驟3、融合短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征最終獲得當(dāng)前待翻譯句子的目標(biāo)翻譯結(jié)果。本發(fā)明還公開(kāi)了一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)，其包括:短語(yǔ)切分模塊，其利用訓(xùn)練集得到雙語(yǔ)短語(yǔ)切分句對(duì)；短語(yǔ)對(duì)特征獲取模塊，其根據(jù)所得到的雙語(yǔ)短語(yǔ)切分句對(duì)獲得翻譯記憶中相應(yīng)的翻譯記憶短語(yǔ)對(duì)，并抽取翻譯記憶短語(yǔ)對(duì)的相關(guān)特征；融合模塊，其用于融合短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征最終獲得當(dāng)前待翻譯句子的目標(biāo)翻譯結(jié)果。本發(fā)明的積極效果:本發(fā)明在短語(yǔ)翻譯模型解碼過(guò)程中，深入挖掘翻譯記憶提供的信息，指導(dǎo)解碼器進(jìn)行解碼，大大提高了翻譯系統(tǒng)的翻譯質(zhì)量。在計(jì)算機(jī)領(lǐng)域的漢英翻譯記憶庫(kù)上的實(shí)驗(yàn)結(jié)果表明，當(dāng)模糊匹配系數(shù)高于0.4時(shí)，本發(fā)明可以充分結(jié)合翻譯記憶和短語(yǔ)翻譯模型的優(yōu)點(diǎn)，顯著地提高翻譯質(zhì)量。與翻譯記憶相比，利用本發(fā)明的模型三，翻譯結(jié)果的BLEU值提高了 16.34個(gè)百分點(diǎn)，TER值下降了 17.25個(gè)百分點(diǎn)。這說(shuō)明對(duì)于翻譯記憶，本發(fā)明能夠進(jìn)一步減少人工后編輯的工作量，加快工作效率。與短語(yǔ)翻譯模型相比，利用本發(fā)明的模型三，翻譯結(jié)果的BLEU值提高了 3.48個(gè)百分點(diǎn)，TER值下降了 2.62個(gè)百分點(diǎn)。這說(shuō)明本發(fā)明有效地改善了機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量。以上實(shí)驗(yàn)結(jié)果充分證明了本發(fā)明的有效性和廣泛適用性。

圖1是本發(fā)明中融合翻譯記憶和短語(yǔ)翻譯模型的流程框圖；圖2是本發(fā)明中融合模型一使用的特征樣例；圖3是本發(fā)明中融合模型二使用的特征樣例；圖4是本發(fā)明中融合模型三使用的特征樣例。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明作具體說(shuō)明。應(yīng)該指出，所描述的實(shí)例僅僅視為說(shuō)明的目的，而不是對(duì)本發(fā)明的限制。本發(fā)明所有代碼實(shí)現(xiàn)都是用C++編程語(yǔ)目完成，開(kāi)發(fā)平臺(tái)是Ubuntu Linux8.04。由于所寫程序沒(méi)有用到任何與平臺(tái)相關(guān)的代碼，因此所述的系統(tǒng)實(shí)現(xiàn)也可以運(yùn)行于Windows操作系統(tǒng)上。本發(fā)明的基本思想是在短語(yǔ)翻譯模型的基礎(chǔ)上，充分恰當(dāng)?shù)赝诰蚍g記憶的信息，提出了一種融合翻譯記憶和短語(yǔ)翻譯模型的翻譯方法，以提高統(tǒng)計(jì)機(jī)器翻譯的譯文質(zhì)量。圖1示出了本發(fā)明提出的融合翻譯記憶和短語(yǔ)翻譯模型的翻譯方法流程圖。如圖1所示，該方法包括:步驟1.對(duì)雙語(yǔ)句子對(duì)進(jìn)行自動(dòng)分詞、自動(dòng)詞對(duì)齊，即圖1中的自動(dòng)分詞和自動(dòng)詞對(duì)齊。對(duì)雙語(yǔ)句子對(duì)中的源語(yǔ)言和目標(biāo)語(yǔ)言句子進(jìn)行自動(dòng)分詞，得到源語(yǔ)言端和目標(biāo)語(yǔ)言端的分詞結(jié)果。如果源語(yǔ)言或目標(biāo)語(yǔ)言中不包含漢語(yǔ)，則不需要進(jìn)行分詞。如果源語(yǔ)言或目標(biāo)語(yǔ)言中包含漢語(yǔ)，則需要用對(duì)漢語(yǔ)進(jìn)行分詞。對(duì)漢語(yǔ)進(jìn)行分詞的方法有很多種。本發(fā)明優(yōu)選實(shí)施例中選用詞法分析工具Urheen對(duì)漢語(yǔ)進(jìn)行分詞,該Urheen詞法分析工具可以在以下網(wǎng)址免費(fèi)下載:http://www.0penpr.0rg.cn/index.php/NLP-Toolkit-for-Natural-Language-Processing/o在得到所述的源語(yǔ)言端和目標(biāo)語(yǔ)言端的分詞結(jié)果之后，需要對(duì)雙語(yǔ)句子對(duì)自動(dòng)進(jìn)行詞對(duì)齊。所述自動(dòng)進(jìn)行詞對(duì)齊的方法有多種，在本發(fā)明優(yōu)選實(shí)施例中使用GIZA++工具包對(duì)漢-英句子對(duì)進(jìn)行詞對(duì)齊，得到漢-英自動(dòng)詞對(duì)齊結(jié)果。所述GIZA++是一個(gè)常用的開(kāi)源詞對(duì)齊工具。GIZA++可以在以下網(wǎng)址免費(fèi)下載:http://f ioch.com/GIZA++.html。在使用GIZA++時(shí)要選擇某個(gè)啟發(fā)式策略來(lái)得到對(duì)稱的詞對(duì)齊結(jié)果，本發(fā)明優(yōu)選實(shí)施例中選擇了取交集(intersection)的策略，因?yàn)樵搯l(fā)式策略能夠得到準(zhǔn)確率比較高的詞對(duì)齊。步驟I的目的是得到雙語(yǔ)訓(xùn)練語(yǔ)料的詞對(duì)齊結(jié)果。例如，對(duì)于雙語(yǔ)句子對(duì)“我是一個(gè)學(xué)生”和“I am a student”。經(jīng)過(guò)中文分詞以后得到以下結(jié)果“我是一個(gè)學(xué)生”和“I ama student”。然后進(jìn)行自動(dòng)詞對(duì)齊，自動(dòng)詞對(duì)齊是將雙語(yǔ)句子中互為翻譯的詞對(duì)應(yīng)起來(lái)，例如，根據(jù)自動(dòng)詞對(duì)齊結(jié)果，我們可以知道“我”與“I”是對(duì)齊的，“學(xué)生”和“student”是對(duì)齊的等等。步驟2.在訓(xùn)練集上進(jìn)行交叉翻譯，獲取訓(xùn)練集的雙語(yǔ)短語(yǔ)切分對(duì)，所述雙語(yǔ)短語(yǔ)切分對(duì)包括訓(xùn)練集中每個(gè)句子被切分成的源語(yǔ)言短語(yǔ)序列和其對(duì)應(yīng)的翻譯目標(biāo)短語(yǔ)序列。具體包括:(I):隨機(jī)將雙語(yǔ)訓(xùn)練集為20份；(2)取其中的19份作為短語(yǔ)翻譯系統(tǒng)的訓(xùn)練語(yǔ)料，利用開(kāi)源工具包Moses，訓(xùn)練一個(gè)基于短語(yǔ)的翻譯模型(將在隨后介紹)；

上述基于短語(yǔ)的翻譯模型的訓(xùn)練步驟(即圖1中的短語(yǔ)翻譯模型訓(xùn)練)具體如下:基于短語(yǔ)的翻譯模型已經(jīng)比較成熟，本發(fā)明優(yōu)選實(shí)施例中采用著名的開(kāi)源系統(tǒng)Moses作為短語(yǔ)翻譯模型的獲取方式，即本發(fā)明優(yōu)選實(shí)施例中利用著名的開(kāi)源系統(tǒng)Moses從所述雙語(yǔ)訓(xùn)練集中獲取短語(yǔ)翻譯模型中的翻譯模型特征。Moses可以在以下網(wǎng)址免費(fèi)下載http://www.statmt.0rR/moses/。在短語(yǔ)翻譯模型中,本發(fā)明優(yōu)選實(shí)施例中使用了以下常用特征:(I)短語(yǔ)翻譯特征:雙向的短語(yǔ)翻譯概率、雙向的詞匯化概率、以及一個(gè)短語(yǔ)懲罰概率。(2)調(diào)序模型特征:本發(fā)明優(yōu)選實(shí)施例中使用了兩個(gè)調(diào)序模型:基于距離的短語(yǔ)重排序模型參見(jiàn)“Franz Josef Och and Hermann Ney,2002.Discriminative training and maximumentropy models for statistical machine translation.1n Proceedings of the40thAnnual Meeting of the Association for Computational Linguistics(ACL),pages295_302.”和詞匯化的短語(yǔ)重排序模型參見(jiàn)“Christoph Tillmann, 2004.Aunigram orientation model for statistical machine translation.1n Proceedings ofHLT-NAACL2004，pagesl01-104.”。(3)語(yǔ)言模型特征:本發(fā)明優(yōu)選實(shí)施例中利用SRILM工具包參見(jiàn)“Andreas Stolcke, 2002.SRILM-anextensible language modeling toolkit.1n Proceedings of the InternationalConference on Spoken Language Processing，pages311_318.”在目標(biāo)語(yǔ)言端的訓(xùn)練語(yǔ)料上，使用修正的Kneser-Ney平滑方法參見(jiàn)“Stanley F.Chen and Joshua Goodman，1998.An empirical study of smoothing techniques for language modeling.Technical Report TR-10—98， Harvard University Cent`er for Research in ComputingTechnology.”，訓(xùn)練一個(gè)5元語(yǔ)言模型；SRILM工具包可以在以下網(wǎng)址免費(fèi)下載:http: //www~speech.sr1.com/pro iects/srilm/download, html(4)控制目標(biāo)翻譯長(zhǎng)度的長(zhǎng)度懲罰特征。在獲取上述翻譯模型特征以后，使用最小錯(cuò)誤率參數(shù)訓(xùn)練方法MERT參見(jiàn)“FranzJosef Och,2003.Minimum error rate training in statistical machine translation.1n Proceedings ofthe41st Annual Meeting of the Association for ComputationalLinguistics, pagesl60_167.”在整個(gè)開(kāi)發(fā)集上進(jìn)行參數(shù)訓(xùn)練，獲取上述翻譯模型特征的特征權(quán)重，所述開(kāi)發(fā)集就是用來(lái)訓(xùn)練特征權(quán)重的翻譯樣例，其與雙語(yǔ)訓(xùn)練集為不同的語(yǔ)料集。(3):使用上一步中訓(xùn)練好的短語(yǔ)翻譯模型中的翻譯模型特征和特征權(quán)重，對(duì)剩余的那份語(yǔ)料進(jìn)行強(qiáng)迫解碼(Forced Decoding)參見(jiàn)“Andreas Zollmann，AshishVenugopal, Franz Josef Och and Jay Ponte,2008.A systematic comparison ofphrase-based hierarchical and syntax-augmented statistical MT.1n Proceedingsof the22nd International Conference on Computational Linguistics (Coling2008)，pagesll45-1152.”，即可獲得該份訓(xùn)練語(yǔ)料的雙語(yǔ)短語(yǔ)切分句對(duì)；(4):重復(fù)上述步驟，以同樣的方法分別獲得另外19份訓(xùn)練語(yǔ)料的雙語(yǔ)短語(yǔ)切分句對(duì)，最終可獲得訓(xùn)練集中的所有雙語(yǔ)短語(yǔ)切分對(duì)。上述步驟2的目的是盡量窮盡訓(xùn)練集所有源語(yǔ)言句子的短語(yǔ)對(duì)切分，進(jìn)而在短語(yǔ)翻譯解碼過(guò)程中使用。步驟3.根據(jù)訓(xùn)練集的雙語(yǔ)短語(yǔ)對(duì)切分，通過(guò)短語(yǔ)匹配找到翻譯記憶中對(duì)應(yīng)的短語(yǔ)對(duì)，并抽取翻譯記憶相關(guān)的特征，這些特征根據(jù)后面介紹的三種模型得到。根據(jù)訓(xùn)練集的雙語(yǔ)短語(yǔ)對(duì)切分，對(duì)比翻譯記憶給出的最相似句對(duì)，進(jìn)行短語(yǔ)匹配，其過(guò)程如下:(I)對(duì)比訓(xùn)練集中待翻譯的源語(yǔ)言句子s和翻譯記憶給出的最相似源語(yǔ)言句子tm_s，根據(jù)它們之間的編輯操作，找到源語(yǔ)言短語(yǔ)乙a.)在最相似源語(yǔ)言句子tm_s中的對(duì)應(yīng)源語(yǔ)目短語(yǔ);(2)根據(jù)翻譯記憶中源語(yǔ)言句子tm_s和目標(biāo)語(yǔ)言翻譯句子tm_t之間的詞對(duì)齊信息，找到源語(yǔ)言短語(yǔ)的對(duì)應(yīng)目標(biāo)語(yǔ)言翻譯短語(yǔ)。其中，編輯操作是指將源語(yǔ)言句子s變?yōu)樽钕嗨圃凑Z(yǔ)言句子tm_s所進(jìn)行的插入、刪除和替換操作。例如，將“我是學(xué)生”變?yōu)椤拔也皇菍W(xué)生”，僅需要一次插入操作(插入一個(gè)“不”字)；而將“我不是學(xué)生”變?yōu)椤拔沂菍W(xué)生”，僅需要一次刪除操作(刪除“不”字)。獲取源語(yǔ)言短語(yǔ)和它對(duì)應(yīng)的目標(biāo)語(yǔ)言翻譯短語(yǔ)__&^后，抽取翻譯記憶相關(guān)的特征。這些特征將在隨后詳細(xì)介紹。步驟4.設(shè)計(jì)融合翻譯記憶和短語(yǔ)翻譯模型的整合式統(tǒng)計(jì)機(jī)器翻譯模型框架，并訓(xùn)練所述短語(yǔ)翻譯模型和所述整合式統(tǒng)計(jì)機(jī)器模型，并調(diào)節(jié)它們之間的權(quán)重α。具體如下:與標(biāo)準(zhǔn)的基于短語(yǔ)的翻譯模型相比，融合翻譯記憶的和短語(yǔ)翻譯模型的整合式統(tǒng)計(jì)機(jī)器翻譯模型可以利用翻譯記憶庫(kù)中更多的信息。因此，本發(fā)明將翻譯問(wèn)題重新定義為:t = arg max I\( |.s', imj,ImJ',s_a, ιη α])
t上式中s是待翻譯的源語(yǔ)言句子；t是某一個(gè)目標(biāo)語(yǔ)言翻譯候選(不考慮插入，但是允許刪除。即允許源語(yǔ)言短語(yǔ)對(duì)空，但不允許目標(biāo)語(yǔ)言短語(yǔ)對(duì)空)J是最終輸出的目標(biāo)語(yǔ)言翻譯；[tm_s, tm_t, tm_f, s_a, tm_a]表示從翻譯記憶庫(kù)中找到的最相似句子對(duì)以及它們之間的對(duì)齊信息別表示最相似的源語(yǔ)言句子和它的目標(biāo)語(yǔ)言句子；tm_f表示tm_s與源語(yǔ)言句子s之間的模糊匹配系數(shù)；s_a表示tm_s與s之間的編輯操作信息；tm_a表示tm_s和tm_t之間的詞對(duì)齊信息。由此可見(jiàn)，融合翻譯記憶的翻譯模型是在給定源語(yǔ)言句子s和翻譯記憶信息[tm_s，tm_t, tm_f, s_a, tm_a]的情況下,在眾多翻譯候選t之中,搜索概率最大的翻譯結(jié)果f。假設(shè)TX表示源語(yǔ)言句子s的某一個(gè)源語(yǔ)言短語(yǔ)序列是對(duì)應(yīng)目標(biāo)語(yǔ)言翻譯候選扣勺某種短語(yǔ)序列。由于翻譯過(guò)程并不是自左向右順序進(jìn)行的，因此，本發(fā)明優(yōu)選實(shí)施例中將第k個(gè)生成的翻譯候選短語(yǔ)ξ對(duì)應(yīng)的源語(yǔ)言短語(yǔ)記為Aw。表示與，…，丨(簡(jiǎn)寫為)對(duì)應(yīng)的目標(biāo)語(yǔ)言短語(yǔ)序列，即5^和元‘丨丨f表示的是同一句子s的不同語(yǔ)序排列(總共K個(gè)短語(yǔ)，并且沒(méi)有插入的目標(biāo)語(yǔ)言短語(yǔ)，即沒(méi)有目標(biāo)語(yǔ)言短語(yǔ)對(duì)空的情況。如果瓦⑷是一個(gè)被刪除的短語(yǔ)，其對(duì)應(yīng)的ξ就是是源語(yǔ)言句子S的某一個(gè)源語(yǔ)言短語(yǔ)序列<某一種排列形式。那么，公式(I)可以展開(kāi)為:
權(quán)利要求
1.一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯方法，其包括: 步驟1:利用訓(xùn)練集得到雙語(yǔ)短語(yǔ)切分句對(duì)；步驟2:根據(jù)所得到的雙語(yǔ)短語(yǔ)切分句對(duì)獲得翻譯記憶中相應(yīng)的翻譯記憶短語(yǔ)對(duì)，并抽取翻譯記憶短語(yǔ)對(duì)的相關(guān)特征；步驟3:融合短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征最終獲得當(dāng)前待翻譯句子的目標(biāo)翻譯結(jié)果。
2.如權(quán)利要求1所述的方法，其特征在于，步驟3通過(guò)整合式統(tǒng)計(jì)機(jī)器翻譯模型將短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征進(jìn)行融合，該整合式統(tǒng)計(jì)機(jī)器翻譯模型如下表示:
3.如權(quán)利要求1所述的方法，其特征在于，步驟3通過(guò)整合式統(tǒng)計(jì)機(jī)器翻譯模型將短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征進(jìn)行融合，該整合式統(tǒng)計(jì)機(jī)器翻譯模型如下表示:
4.如權(quán)利要求2-3任一項(xiàng)所述的方法，其特征在于，P(Mk|Lk,ζ)根據(jù)如下所示的模型獲得:
5.如權(quán)利要求2-3任一項(xiàng)所述的方法，其特征在于，P(Mk|Lk,ζ)根據(jù)如下所示的模型獲得:
6.如權(quán)利要求2-3任一項(xiàng)所述的方法，其特征在于，P(Mk|Lk,z)根據(jù)如下所示的模型獲得:
7.如權(quán)利要求3-4任一項(xiàng)所述的方法，其特征在于，z通過(guò)模糊匹配系數(shù)來(lái)表示，所述模糊匹配系數(shù)如下計(jì)算:
8.如權(quán)利要求1所述的方法，其特征在于，步驟I具體包括: 步驟11:隨機(jī)將訓(xùn)練集中的雙語(yǔ)訓(xùn)練語(yǔ)料分為N份；步驟12:取其中的N-1份作為短語(yǔ)翻譯模型的訓(xùn)練語(yǔ)料，并訓(xùn)練一個(gè)短語(yǔ)翻譯模型；步驟13:使用上一步中訓(xùn)練好的短語(yǔ)翻譯模型，對(duì)剩余的那份訓(xùn)練語(yǔ)料進(jìn)行強(qiáng)迫解碼(Forced Decoding),獲得該份剩余訓(xùn)練語(yǔ)料的雙語(yǔ)短語(yǔ)切分對(duì)；步驟14:重復(fù)上述步驟，以同樣的方式分別獲得其它N-1份訓(xùn)練語(yǔ)料的雙語(yǔ)短語(yǔ)切分句對(duì)，最終得到訓(xùn)練集中所有雙語(yǔ)訓(xùn)練語(yǔ)料的雙語(yǔ)短語(yǔ)切分句對(duì)。
9.如權(quán)利要求1所述的方法，其特征在于，所述翻譯記憶短語(yǔ)對(duì)的相關(guān)特征包括:翻譯記憶中與待翻譯句子的相似源語(yǔ)言句子tm_s與待翻譯句子之間的相似度；源語(yǔ)言短語(yǔ)瓦(《、所述翻譯記憶短語(yǔ)對(duì)中相似源語(yǔ)言短語(yǔ)％以及相似目標(biāo)語(yǔ)言短語(yǔ)三者之間的匹配狀態(tài)；目標(biāo)語(yǔ)言候選短語(yǔ)ξ與相似目標(biāo)語(yǔ)言短語(yǔ) α,之間的匹配狀態(tài)。
10.如權(quán)利要求9所述的方法，其特征在于，所述源語(yǔ)言短語(yǔ)T所述翻譯記憶短語(yǔ)對(duì)中相似源語(yǔ)言短語(yǔ)以及相似目標(biāo)語(yǔ)言短語(yǔ)三者之間的匹配狀態(tài)包括:目標(biāo)語(yǔ)言候選短語(yǔ)ξ與相似目標(biāo)語(yǔ)言短語(yǔ)1 之間的內(nèi)容相似程度、相似目標(biāo)語(yǔ)言短語(yǔ)-_ζ( 0在相似目標(biāo)語(yǔ)言短語(yǔ)候選集合中長(zhǎng)度是否最長(zhǎng)的特征以及目標(biāo)語(yǔ)言候選短語(yǔ)和其前一個(gè)目標(biāo)語(yǔ)言候選短語(yǔ)[I1,引與相似目標(biāo)語(yǔ)言短語(yǔ)-—《⑷和其前一個(gè)相似目標(biāo)語(yǔ)言短語(yǔ)[心—之間的相對(duì)位置匹配關(guān)系特征；所述目標(biāo)語(yǔ)言候選短語(yǔ)ξ與相似目標(biāo)語(yǔ)言短語(yǔ)μ—之間的匹配狀態(tài)包括:目標(biāo)語(yǔ)言候選短語(yǔ)ζ相似源語(yǔ)言短語(yǔ)⑷之間的相似程度、源語(yǔ)言短語(yǔ)Iu1與相似源語(yǔ)言短語(yǔ)wj:#)左右鄰居的匹配狀態(tài)、源語(yǔ)言短語(yǔ)元⑴的長(zhǎng)度、表示源語(yǔ)言短語(yǔ)5Lu)是否為句尾標(biāo)點(diǎn)符號(hào)以及相似源語(yǔ)言短語(yǔ)Iw在相似源語(yǔ)言句子tm_s中對(duì)應(yīng)的相似目標(biāo)語(yǔ)言短語(yǔ)的候選集合狀態(tài)。
11.一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)，其包括: 短語(yǔ)切分模塊，其利用訓(xùn)練集得到雙語(yǔ)短語(yǔ)切分句對(duì)；短語(yǔ)對(duì)特征獲取模塊，其根據(jù)所得到的雙語(yǔ)短語(yǔ)切分句對(duì)獲得翻譯記憶中相應(yīng)的翻譯記憶短語(yǔ)對(duì)，并抽取翻譯記憶短語(yǔ)對(duì)的相關(guān)特征；融合模塊，其用于融合短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征最終獲得當(dāng)前待翻譯句子的目標(biāo)翻譯結(jié)果。
全文摘要
本發(fā)明公開(kāi)了一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯方法，其包括步驟1利用訓(xùn)練集得到雙語(yǔ)短語(yǔ)切分句對(duì)；步驟2根據(jù)所得到的雙語(yǔ)短語(yǔ)切分句對(duì)獲得翻譯記憶中相應(yīng)的翻譯記憶短語(yǔ)對(duì)，并抽取翻譯記憶短語(yǔ)對(duì)的相關(guān)特征；步驟3融合短語(yǔ)翻譯模型和所抽取的翻譯記憶短語(yǔ)對(duì)的相關(guān)特征最終獲得當(dāng)前待翻譯句子的目標(biāo)翻譯結(jié)果。其是一種在傳統(tǒng)短語(yǔ)翻譯模型的基礎(chǔ)上充分且恰當(dāng)?shù)赝诰蚍g記憶提供的信息以提高統(tǒng)計(jì)機(jī)器翻譯譯文質(zhì)量的方法。
文檔編號(hào)G06F17/28GK103235775SQ20131014882
公開(kāi)日2013年8月7日申請(qǐng)日期2013年4月25日優(yōu)先權(quán)日2013年4月25日
發(fā)明者汪昆, 宗成慶, 蘇克毅申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：汪昆;宗成慶;蘇克毅
技術(shù)所有人：中國(guó)科學(xué)院自動(dòng)化研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種融合翻譯記憶和短語(yǔ)翻譯模型的統(tǒng)計(jì)機(jī)器翻譯方法