專利名稱:一種融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及統(tǒng)計機器翻譯技術(shù)領(lǐng)域,尤其涉及一種融合了句型模板和 統(tǒng)計機器翻譯技術(shù)的翻譯方法。
背景技術(shù):
隨著世界經(jīng)濟的迅猛發(fā)展,各國間的文化,經(jīng)濟等的交往越來越頻繁, 人們每天的工作和生活有時不得不面對來自各個國家的各種語言的資料 和信息,隨之而來的一個主要問題便是語言理解問題,如何能夠在較短的 時間內(nèi)理解使用非母語寫成的資料,成為了一個急需解決的問題。
因此,機器翻譯軟件應(yīng)運而生,早期的機器翻譯主要集中在規(guī)則翻譯 系統(tǒng)的研究,但翻譯規(guī)則的書寫需要語言專家的參與,而且通常每更換--個翻譯領(lǐng)域就要重寫一大批的規(guī)則,需要耗費大量的人力、物力、財力, 在這種情形下,統(tǒng)計機器翻譯方法在機器翻譯領(lǐng)域迅速崛起。
統(tǒng)計機器翻譯通過利用大規(guī)模的平行雙語語料對翻譯系統(tǒng)進行訓(xùn)練 (統(tǒng)計建模),只要擁有足夠多的雙語平行語料,就可以在無人干預(yù)的情 形下短時間內(nèi)搭建一個任何語言對象之間的機器翻譯系統(tǒng),而且從目前國 際上主流的統(tǒng)計機器翻譯系統(tǒng)的效果來看,己基本上趕上甚至超越了規(guī)則 翻譯系統(tǒng)。
但是,統(tǒng)計機器翻譯方法也仍然存在著一些缺陷。由于統(tǒng)計建模的過 程中完全依賴于對平行語料的概率統(tǒng)計基礎(chǔ)之上,而沒有對句子的結(jié)構(gòu), 句法等進行分析、利用,使得翻譯的句子常常會出現(xiàn)語序、多詞、少詞等 方面的錯誤。
隨著統(tǒng)計機器翻譯技術(shù)近幾年的快速發(fā)展,逐漸將句法分析,規(guī)則等 融入到統(tǒng)計機器翻譯系統(tǒng)中, 一定程度上提高了系統(tǒng)的翻譯效果。但當(dāng)把 統(tǒng)計機器翻譯系統(tǒng)真正應(yīng)用到某些領(lǐng)域的翻譯中時,仍然還是會存在一些 問題,其中一個主要的問題就是不能充分利用該領(lǐng)域中的大量出現(xiàn)的固定 句型的信息,這是因為統(tǒng)計機器翻譯在翻譯過程中完全是依賴于句子翻譯 概率的計算,而很少去考慮句子的結(jié)構(gòu)信息。因此,對這種固定句型的句 子仍然單純的采用統(tǒng)計方法進行翻譯,翻譯結(jié)果往往都不能盡如人意。
發(fā)明內(nèi)容
(一) 要解決的技術(shù)問題
有鑒于此,本發(fā)明的主要目的在于提供一種融合了句型模板和統(tǒng)計機 器翻譯技術(shù)的翻譯方法,以解決統(tǒng)計機器翻譯系統(tǒng)不能很好的翻譯具有固 定句型結(jié)構(gòu)的句子的問題,從而使對具有固定句型結(jié)構(gòu)的句子的翻譯更加 流暢,符合領(lǐng)域常用句型的翻譯結(jié)構(gòu)。
(二) 技術(shù)方案
為達到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的
一種融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻譯方法,該方法包括 A、 配置句型模板,建立句型模板庫;
B、 利用配置的句型模板對輸入的源語言進行匹配,如果匹配成功, 則將輸入的源語言轉(zhuǎn)換成包含源語言詞語與目標語言詞語的句子,并執(zhí)行 步驟D;否則,執(zhí)行步驟C;
C、 將輸入的源語言按照標點符號切分成子句,對切分的子句進行匹 配,將切分的子句轉(zhuǎn)換成包含源語言詞語與目標語言詞語的句子;
D、 將匹配得到的包含源語言詞語與目標語言詞語的句子輸出給統(tǒng)計
機器翻譯系統(tǒng)進行翻譯,得到翻譯結(jié)果。
所述步驟A包括從大規(guī)模的語言資料庫中或從日常工作遇到的包含 固定句型的句子中抽象出句型模板,并將抽象出的句型模板按照一定的策 略加入到系統(tǒng)的句型模板庫中,建立句型模板庫。
所述句型模板包括模板的常量和模板的變量兩個部分。
配置句型模板庫中句型模板的優(yōu)先級,步驟B中所述利用配置的句型
模板對輸入的源語言進行匹配采用嵌套匹配策略進行,具體包括按句型
模板優(yōu)先級由高到低的順序依次對輸入的源語言進行匹配,首先利用句型
模板庫中優(yōu)先級較高的句型模板對輸入的源語言進行匹配,然后利用句型
模板庫中優(yōu)先級較低的句型模板對輸入的源語言進行匹配,直至句型模板 庫中沒有句型模板能夠匹配上輸入的源語言為止。
所述步驟C包括按照句號、逗號、分號和冒號的先后順序依次對源
語言進行切分,如果按照句號、逗號、分號和冒號中任何一種切分方式能
夠?qū)⒃凑Z言切分成與句型模板相匹配的子句,則結(jié)束切分,對切分得到的
子句進行匹配,并將切分得到的子句轉(zhuǎn)換成包含源語言詞語與目標語言詞語的句子。
所述匹配包括整句匹配和部分匹配兩種匹配方式,在采用整句匹配方 式時,源語言的句首與句型模板的句首相對應(yīng),源語言的句尾與句型模板 的句尾相對應(yīng);在采用部分匹配方式時,源語言中的部分詞語與句型模板 中的部分詞語相對應(yīng)。
所述步驟D包括將匹配得到的包含源語言詞語與目標語言詞語的句 子輸出給統(tǒng)計機器翻譯系統(tǒng),統(tǒng)計機器翻譯系統(tǒng)將源語言切分成不同的短 語,并到短語表中查找與所述短語相匹配的目標短語,順序連接目標短語 構(gòu)成不同的譯文,計算譯文的分數(shù),選擇分數(shù)最高的譯文作為最終的譯文。
所述統(tǒng)計機器翻譯系統(tǒng)為基于短語的單調(diào)解碼的翻譯系統(tǒng);
所述短語表包括多條記錄,每條記錄包括源語言短語、目標語言短語以及源語言短語與目標語言短語之間的翻譯概率三個部分;
在計算譯文的分數(shù)時,所述譯文分數(shù)等于翻譯概率與語言模型概率的 乘積。
所述源語言短語與目標語言短語中的短語為連續(xù)的單詞串。 所述語言模型概率用于計算翻譯的目標語言的流暢程度,采用概率統(tǒng)計方法揭示語言單位內(nèi)在的統(tǒng)計規(guī)律;
所述概率統(tǒng)計方法為基于N元組統(tǒng)計的方法。
(三)有益效果
從上述技術(shù)方案可以看出,本發(fā)明具有以下有益效果
1、本發(fā)明提供的這種融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻譯方
法,釆用句型模板的定義方法、句型模板的匹配算法及其句型模板方法與 統(tǒng)計機器翻譯的融合策略,很好地解決了統(tǒng)計機器翻譯系統(tǒng)不能很好的翻 譯具有固定句型結(jié)構(gòu)的句子的問題,使對具有固定句型結(jié)構(gòu)的句子的翻譯 更加流暢,符合領(lǐng)域常用句型的翻譯結(jié)構(gòu)。
2、本發(fā)明提供的這種融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻譯方 法,結(jié)合了基于模板的技術(shù)和統(tǒng)計機器翻譯的技術(shù),僅僅只需要用戶定義 一定量的常用固定句型的模板,就能夠翻譯出符合特定領(lǐng)域句型結(jié)構(gòu)的標 準化的目標譯文,同時又具有成本低,耗時短,不存在版權(quán)糾紛等優(yōu)點。
圖1為本發(fā)明提供的融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻譯方法
總體技術(shù)方案的實現(xiàn)流程圖2為依照本發(fā)明實施例提供的融合了句型模板和統(tǒng)計機器翻譯技術(shù) 的翻譯方法流程圖。
具體實施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實 施例,并參照附圖,對本發(fā)明進一步詳細說明。
如圖1所示,圖1為本發(fā)明提供的融合了句型模板和統(tǒng)計機器翻譯技
術(shù)的翻譯方法總體技術(shù)方案的實現(xiàn)流程圖,該方法包括以下步驟 步驟101:配置句型模板,建立句型模板庫;
步驟102:利用配置的句型模板對輸入的源語言進行匹配,如果匹配成功,則將輸入的源語言轉(zhuǎn)換成包含源語言詞語與目標語言詞語的句子, 并執(zhí)行步驟104;否則,執(zhí)行步驟103;
步驟103:將輸入的源語言按照標點符號切分成子句,對切分的子句 進行匹配,將切分的子句轉(zhuǎn)換成包含源語言詞語與目標語言詞語的句子;
步驟104:將匹配得到的包含源語言詞語與目標語言詞語的句子輸出 給統(tǒng)計機器翻譯系統(tǒng)進行翻譯,得到翻譯結(jié)果。
上述步驟101包括從大規(guī)模的語言資料庫中或從日常工作遇到的包 含固定句型的句子中抽象出句型模板,并將抽象出的句型模板按照一定的 策略加入到系統(tǒng)的句型模板庫中,建立句型模板庫。所述句型模板包括模 板的常量和模板的變量兩個部分。
上述在從大規(guī)模的語言資料庫中或從日常工作遇到的包含固定句型 的句子中抽象出句型模板時,由用戶針對某些領(lǐng)域的特殊翻譯需求,按照 句型模板的定義方法進行。由于某個特定領(lǐng)域的特定句型不會太多,所以 句型模板庫不會像規(guī)則庫那樣龐大,而且句型模板庫的構(gòu)建不需要語言學(xué) 家的參與,普通的用戶完全可以勝任,并且可以在使用中逐步的將新的句 型模板加入庫中,句型模板庫的構(gòu)建所要耗費的人力、物力要比規(guī)則庫的 構(gòu)建小很多。然后,在用戶輸入一個待翻譯的句子時,首先調(diào)用句型模板 的匹配算法對該句子進行匹配替換,然后將匹配替換后生成的句子送入統(tǒng) 計機器翻譯系統(tǒng)進行翻譯。
預(yù)先配置句型模板庫中句型模板的優(yōu)先級,上述步驟102中所述利用 配置的句型模板對輸入的源語言進行匹配采用嵌套匹配策略進行,具體包 括按句型模板優(yōu)先級由高到低的順序依次對輸入的源語言進行匹配,首
先利用句型模板庫中優(yōu)先級較高的句型模板對輸入的源語言進行匹配,然 后利用句型模板庫中優(yōu)先級較低的句型模板對輸入的源語言進行匹配,直 至句型模板庫中沒有句型模板能夠匹配上輸入的源語言為止。
上述步驟103包括按照句號、逗號、分號和冒號的先后順序依次對 源語言進行切分,如果按照句號、逗號、分號和冒號中任何一種切分方式 能夠?qū)⒃凑Z言切分成與句型模板相匹配的子句,則結(jié)束切分,對切分得到 的子句進行匹配,并將切分得到的子句轉(zhuǎn)換成包含源語言詞語與目標語言 詞語的句子。
上述匹配包括整句匹配和部分匹配兩種匹配方式。整句匹配是指對于 模板庫中的模板,輸入句子的句首和句尾必須與模板的首尾完全對應(yīng)才能 匹配,而部分匹配則允許對句子中的任何部分進行模板匹配,不局限于對 輸入句子首尾的完全匹配。整句匹配的優(yōu)點是匹配精度較高,但匹配能力 不夠強,而部分匹配則恰恰相反,其匹配能力很強但精度不夠高,容易造 成錯誤調(diào)序,須根據(jù)實際的情況進行衡量選擇匹配策略。在采用整句匹配 方式時,源語言的句首與句型模板的句首相對應(yīng),源語言的句尾與句型模 板的句尾相對應(yīng);在采用部分匹配方式時,源語言中的部分詞語與句型模 板中的部分詞語相對應(yīng)。
上述步驟104包括將匹配得到的包含源語言詞語與目標語言詞語的 句子輸出給統(tǒng)計機器翻譯系統(tǒng),統(tǒng)計機器翻譯系統(tǒng)將源語言切分成不同的 短語,并到短語表中查找與所述短語相匹配的目標短語,順序連接目標短 語構(gòu)成不同的譯文,計算譯文的分數(shù),選擇分數(shù)最高的譯文作為最終的譯 文。上述統(tǒng)計機器翻譯系統(tǒng)為基于短語的單調(diào)解碼的翻譯系統(tǒng)。所述短語 表包括多條記錄,每條記錄包括源語言短語、目標語言短語以及源語言短 語與目標語言短語之間的翻譯概率三個部分;在計算譯文的分數(shù)時,所述 譯文分數(shù)等于翻譯概率與語言模型概率的乘積。短語表可以采用兩種方法 自動獲取, 一種是從詞典中獲取,另一種從平行語料庫中自動獲取。從字 典中獲取的短語的翻譯概率可以手動設(shè)置成較高的值。
所述的從平行語料庫中自動獲取短語翻譯對的過程如下首先收集兩 種語言互為對齊的句子對,然后利用自動對齊軟件獲取句子對中單詞之間 的對齊關(guān)系,最后短語抽取工具從單詞級對齊好的語料中抽取短語,并計 算它們的之間的翻譯概率。
上述源語言短語與目標語言短語中的短語不一定是語言學(xué)意義上的 短語,準確地說是連續(xù)的單詞串,如"并計算它們的"。所述語言模型概 率用于計算翻譯的目標語言的流暢程度,采用概率統(tǒng)計方法揭示語言單位
內(nèi)在的統(tǒng)計規(guī)律;所述概率統(tǒng)計方法為基于N元組(N-Gram)統(tǒng)計的方 法。所述的N-Gram是指該模型基于這樣一種假設(shè),第N個詞的出現(xiàn)只與 前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出 現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次 數(shù)得到。常用的模型多是二元組(Bi-Gram)或三元組(Tri-Gram)。
基于圖1所述的融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻譯方法總體 技術(shù)方案的實現(xiàn)流程圖,以下結(jié)合具體的實施例對本發(fā)明融合了句型模板 和統(tǒng)計機器翻譯技術(shù)的翻譯方法進一步詳細說明。
實施例
如圖2所示,圖2為依照本發(fā)明實施例提供的融合了句型模板和統(tǒng)計 機器翻譯技術(shù)的翻譯方法流程圖,該方法包括以下步驟 步驟201:配置句型模板,建立句型模板庫。
在本步驟中,配置的句型模板包括"模板的常量"部分和"模板的變 量"兩部分。例如對于平行語料庫中的如下句對 一種治療糖尿病的藥物組合物及制備方法
A pharmaceutical composition for the treatment of diabetes and its preparation method
抽象成句型模板變成下面的形式
- 一種治療##1[,10]{0} 的##2[,6]{0}及制備方法 A ##2 for treatment of ## 1 and its preparation method 其中的##1[,10]{0} , ##2[,6]{0}, ##1及絲2為句型模板的變量部分, 其余為句型模板的常量部分,源語言中的絲N與目標語言中的絲N —一對應(yīng)。
句型模板的變量部分的定義的完整形式及含義如下
源語言中句型模板變量部分的完整形式為絲N[m,n] {+/—WOrd} 目標語言中句型模板變量部分的完整形式為##N
各部分的含義如下
##N:句子中可以被泛化成變量部分的標志符,N從l開始編號:變量部分的長度限制。表示被泛化的變量部分的長度必須在
某個范圍之內(nèi)。有以下幾種變種形式 [m, n] 表示m-〈變量的長度〈二n [m,] 表示111=<變量的長度 [,n]表示0=<變量的長度<=11
表示對變量的長度沒有限制 {+/—word}:表示變量部分必須含有(+word)或必須不能含有(-word》 某些詞語,{0}表示對是否含有哪些詞沒有限制。
:表示對句型變量進行匹配時,如果句子中有多處符合的情形,是 匹配到第一次出現(xiàn)還是最后一次出現(xiàn)。例如對于例子中的句型模板,下面
的這個句子在匹配時
一種治療肝炎的新研制的藥物及制備方法
一種治療##1[,10]{0} 的絲2[,6]{0}及制備方法 對于##1[,10]{0}這個變量部分,如果加問號則變量將替換"肝炎",
變?yōu)?br>
A藥物for treatment of肝炎and its preparation method
否則,變量將替換"肝炎的新研制",變?yōu)?br>
A藥物for treatment of肝炎的新研制and its preparation method
步驟202:根據(jù)輸入的源語言決定采用何種模板匹配策略,是采用整
句匹配還是部分匹配,所謂整句匹配是指除了模板中的常量部分完全匹配 外,還要求模板的首尾與句子的首尾要嚴格相同,例如下面的句子和模板
就是整句匹配
一種治療糖尿病的藥物組合物及制備方法
一種治療絲1[,10]{0} 的##2[,6]{0}及制備方法而下面的句子和模板就是部分匹配
下面介紹一種治療糖尿病的藥物組合物及制備方法
一種治療絲1[,10]{0} 的##2[,6]{0}及制備方法
步驟203:在決定了匹配策略后,進行句型模板的匹配過程,整個匹 配過程釆取嵌套匹配策略,即在匹配了句型模板庫中優(yōu)先級較高的句型模 板后仍允許對匹配替換后的句子匹配庫中優(yōu)先級較低的句型模板,直到?jīng)] 有句型模板可以匹配上句子為止,如果句型模板庫中有句型模板可以匹配
輸入的源語言的句子,則執(zhí)行步驟204;否則,執(zhí)行步驟205。
步驟204:輸出匹配替換后的結(jié)果到統(tǒng)計機器翻譯系統(tǒng)進行翻譯,執(zhí)
行步驟206。
步驟205:將輸入的源語言的句子按標點符號切分成子句,首先按句
號切分,如果仍不能匹配,則按逗號切分,如果仍不成功,則依次再按分 號和冒號進行切分,只要有一種切分能匹配上句型模板庫中的句型模板就 將匹配的結(jié)果句子輸出到統(tǒng)計機器翻譯系統(tǒng)進行翻譯。
步驟206:統(tǒng)計機器翻譯系統(tǒng)將源語言切分成不同的短語,并到短語
表中查找與所述短語相匹配的目標短語,順序連接目標短語構(gòu)成不同的譯 文,計算譯文的分數(shù),選擇分數(shù)最高的譯文作為最終的譯文。
在本步驟中,翻譯系統(tǒng)只需翻譯句子中非目標語言的部分,這樣既保留了句子的結(jié)構(gòu)信息又減輕了翻譯系統(tǒng)的負擔(dān),將句型模板和統(tǒng)計機器翻 譯系統(tǒng)有效的融合到了一起。
以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進行 了進一步詳細說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施例而 己,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修 改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1. 一種融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻譯方法,其特征在于,該方法包括A、配置句型模板,建立句型模板庫;B、利用配置的句型模板對輸入的源語言進行匹配,如果匹配成功,則將輸入的源語言轉(zhuǎn)換成包含源語言詞語與目標語言詞語的句子,并執(zhí)行步驟D;否則,執(zhí)行步驟C;C、將輸入的源語言按照標點符號切分成子句,對切分的子句進行匹配,將切分的子句轉(zhuǎn)換成包含源語言詞語與目標語言詞語的句子;D、將匹配得到的包含源語言詞語與目標語言詞語的句子輸出給統(tǒng)計機器翻譯系統(tǒng)進行翻譯,得到翻譯結(jié)果。
2、 根據(jù)權(quán)利要求1所述的融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻 譯方法,其特征在于,所述步驟A包括從大規(guī)模的語言資料庫中或從日常工作遇到的包含固定句型的句子 中抽象出句型模板,并將抽象出的句型模板按照一定的策略加入到系統(tǒng)的 句型模板庫中,建立句型模板庫。
3、 根據(jù)權(quán)利要求1或2所述的融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻譯方法,其特征在于,所述句型模板包括模板的常量和模板的變量兩 個部分。
4、 根據(jù)權(quán)利要求1所述的融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻 譯方法,其特征在于,配置句型模板庫中句型模板的優(yōu)先級,步驟B中所述利用配置的句型模板對輸入的源語言進行匹配采用嵌套匹配策略進行, 具體包括按句型模板優(yōu)先級由高到低的順序依次對輸入的源語言進行匹配,首 先利用句型模板庫中優(yōu)先級較高的句型模板對輸入的源語言進行匹配,然 后利用句型模板庫中優(yōu)先級較低的句型模板對輸入的源語言進行匹配,直 至句型模板庫中沒有句型模板能夠匹配上輸入的源語言為止。
5、 根據(jù)權(quán)利要求1所述的融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻 譯方法,其特征在于,所述步驟C包括按照句號、逗號、分號和冒號的先后順序依次對源語言進行切分,如 果按照句號、逗號、分號和冒號中任何一種切分方式能夠?qū)⒃凑Z言切分成 與句型模板相匹配的子句,則結(jié)束切分,對切分得到的子句進行匹配,并 將切分得到的子句轉(zhuǎn)換成包含源語言詞語與目標語言詞語的句子。
6、 根據(jù)權(quán)利要求l、 4或5任一項所述的融合了句型模板和統(tǒng)計機器 翻譯技術(shù)的翻譯方法,其特征在于,所述匹配包括整句匹配和部分匹配兩 種匹配方式,在采用整句匹配方式時,源語言的句首與句型模板的句首相 對應(yīng),源語言的句尾與句型模板的句尾相對應(yīng);在采用部分匹配方式時,源語言中的部分詞語與句型模板中的部分詞語相對應(yīng)。
7、 根據(jù)權(quán)利要求1所述的融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻 譯方法,其特征在于,所述步驟D包括將匹配得到的包含源語言詞語與目標語言詞語的句子輸出給統(tǒng)計機 器翻譯系統(tǒng),統(tǒng)計機器翻譯系統(tǒng)將源語言切分成不同的短語,并到短語表 中査找與所述短語相匹配的目標短語,順序連接目標短語構(gòu)成不同的譯文,計算譯文的分數(shù),選擇分數(shù)最高的譯文作為最終的譯文。
8、 根據(jù)權(quán)利要求7所述的融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻譯方法,其特征在于,所述統(tǒng)計機器翻譯系統(tǒng)為基于短語的單調(diào)解碼的翻譯系統(tǒng);所述短語表包括多條記錄,每條記錄包括源語言短語、目標語言短語 以及源語言短語與目標語言短語之間的翻譯概率三個部分;在計算譯文的分數(shù)時,所述譯文分數(shù)等于翻譯概率與語言模型概率的 乘積。
9、 根據(jù)權(quán)利要求8所述的融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻 譯方法,其特征在于,所述源語言短語與目標語言短語中的短語為連續(xù)的 單詞串。
10、 根據(jù)權(quán)利要求8所述的融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻 譯方法,其特征在于,所述語言模型概率用于計算翻譯的目標語言的流暢程度,采用概率統(tǒng) 計方法揭示語言單位內(nèi)在的統(tǒng)計規(guī)律;所述概率統(tǒng)計方法為基于N元組統(tǒng)計的方法。
全文摘要
本發(fā)明公開了一種融合了句型模板和統(tǒng)計機器翻譯技術(shù)的翻譯方法,該方法包括A、配置句型模板,建立句型模板庫;B、利用配置的句型模板對輸入的源語言進行匹配,如果匹配成功,則將輸入的源語言轉(zhuǎn)換成包含源語言詞語與目標語言詞語的句子,并執(zhí)行步驟D;否則,執(zhí)行步驟C;C、將輸入的源語言按照標點符號切分成子句,對切分的子句進行匹配,將切分的子句轉(zhuǎn)換成包含源語言詞語與目標語言詞語的句子;D、將匹配得到的包含源語言詞語與目標語言詞語的句子輸出給統(tǒng)計機器翻譯系統(tǒng)進行翻譯,得到翻譯結(jié)果。利用本發(fā)明,解決了統(tǒng)計機器翻譯系統(tǒng)不能很好的翻譯具有固定句型結(jié)構(gòu)句子的問題,使對具有固定句型結(jié)構(gòu)的句子的翻譯更加流暢。
文檔編號G06F17/28GK101206643SQ20061016553
公開日2008年6月25日 申請日期2006年12月21日 優(yōu)先權(quán)日2006年12月21日
發(fā)明者雷 付, 何中軍, 群 劉, 呂雅娟, 瑾 黃 申請人:中國科學(xué)院計算技術(shù)研究所