雙語對齊語料的加工方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及機器翻譯技術領域,尤其涉及一種雙語對齊語料的加工方法及裝置。
【背景技術】
[0002] 隨著全球化的不斷深入和互聯(lián)網(wǎng)的發(fā)展,人們在日常工作和生活中常常需要面對 大量的非母語信息,如何利用計算機實現(xiàn)不同語言之間的自動轉換以克服人類的語言障礙 已成為當前人們的迫切需求。
[0003] 機器翻譯(Machine Translation, MT),又稱為自動翻譯,是利用計算機將一 種自然語言自動轉換成另一種自然語言的過程,是自然語言處理(Natural Language Processing,NLP)領域的重要應用之一。它是自然語言處理的一個分支,與計算語言學 (Computational Linguistics)、自然語言理角軍(Natural Language Understanding)之間 存在著密不可分的關系。
[0004] 機器翻譯的用途廣泛,多語言政府、大型新聞機構以及全球性的跨國公司、體育賽 事等都有大量的翻譯需求,普通的計算機用戶也有對外文資料翻譯的需求,比如在互聯(lián)網(wǎng) 上搜索非母語的信息。
[0005] 目前,主要的機器翻譯方法有基于規(guī)則的機器翻譯方法(Rule-based MT, RBMT), 基于實例的機器翻譯方法(Example-based MT, EBMT)和統(tǒng)計機器翻譯方法(Statistical MT, SMT) 〇
[0006] 基于規(guī)則的機器翻譯方法針對不同的語言對構造語言相關的規(guī)則,從而描述語言 的特征。其主要問題在于:(1)方法的靈活性差,規(guī)則和語言之間的相關度大,且特定語言 對之間的轉換規(guī)則互相獨立;⑵規(guī)則的獲取比較難,規(guī)則的制定依賴于語言學家;(3)規(guī) 則與規(guī)則之間存在沖突等。
[0007] 基于實例的機器翻譯方法通過將待翻譯的句子和已有的翻譯實例進行比較,利用 實例推理和學習的方法得到翻譯片段,最后將這些片段進行整合得到輸入句子的翻譯。對 于和實例庫中相似的句子,其翻譯效果比較好?;趯嵗椒ǖ闹饕獑栴}在于實例的覆蓋 率普遍偏低,只適用于領域較小的情況,另外實例的范化與匹配能力直接決定了翻譯質量 的好壞。
[0008] 統(tǒng)計機器翻譯方法是近年來逐漸興起的機器翻譯方法,利用統(tǒng)計翻譯模型,從大 量的已經(jīng)翻譯好的文本(平行語料)或單語語料中學習語言特征。這種方法和語言的相關 度小,方法靈活,系統(tǒng)的開發(fā)周期短,且譯文質量相對較好。但是,統(tǒng)計機器翻譯方法對語料 庫的依賴性較強,存在數(shù)據(jù)稀疏的問題,在訓練和測試數(shù)據(jù)不同領域的情形下翻譯性能不 好。此外,目前的統(tǒng)計翻譯系統(tǒng)需要依賴計算機硬件的性能來處理大量的翻譯數(shù)據(jù)。
[0009] 隨著計算機技術的發(fā)展、可用語料的增多以及研究的不斷深入,統(tǒng)計機器翻譯方 法逐漸成為機器翻譯領域的主流方法。這種方法首先在平行語料上訓練模型(學習器), 然后根據(jù)這個模型翻譯以前沒有出現(xiàn)過的句子(測試)。盡管相比其他機器翻譯方法,統(tǒng) 計機器翻譯方法提出的時間并不長,但是目前它已經(jīng)成為機器翻譯研究領域的熱點研究方 向,近年來統(tǒng)計機器翻譯系統(tǒng)的性能也在逐年提高。
[0010] 統(tǒng)計機器翻譯方法依賴于統(tǒng)計翻譯模型,從最早的基于詞的模型,到顯著提高翻 譯質量的基于短語的模型,以及最近的研究熱點基于句法結構的模型,統(tǒng)計翻譯模型對語 言的分析層次逐漸深入。在基于詞的模型中,翻譯的基本單元是詞,為了處理翻譯時句子長 度不同的問題,引入富裕度(Fertility)的概念,確定每個基本詞產(chǎn)生翻譯詞的數(shù)量?;?短語的模型可以解決逐詞翻譯的限制,翻譯的基本單元是連續(xù)的詞串,稱為短語。通常這些 連續(xù)的詞串不需要符合語言學意義上的短語定義,而是從語料中利用統(tǒng)計方法直接學習得 到的。
[0011] 語料是統(tǒng)計機器翻譯方法的基礎,翻譯任務中所需的語料通常指大量的已翻譯好 的雙語或多語文本,稱為平行語料(Parallel Corpus)。目前用于統(tǒng)計機器翻譯的語料主要 有雙語新聞文本、雙語對話文本、雙語政府文件、圣經(jīng)文本以及其他從互聯(lián)網(wǎng)獲取的雙語數(shù) 據(jù)等。根據(jù)語料的類型和處理級別不同,語料可以分為篇章對齊語料、句子對齊語料、經(jīng)過 詞性標注的語料和經(jīng)過句法分析的樹庫語料等。
[0012] 在一種簡化觀點中,統(tǒng)計機器翻譯方法分為翻譯模型的訓練和翻譯模型的應用兩 個階段。
[0013] 在第一階段,需要首先獲取雙語篇章對齊語料,然后將雙語篇章對齊語料加工成 句子對齊語料;然后,在必要的情況下,對源語言或/和目標語言的句子要進行詞語切分, 將句子切分為詞語的序列;再進一步的,利用統(tǒng)計機器學習的方法進行詞語(短語)一級的 對齊,并據(jù)此訓練形成用于機器翻譯模型和翻譯知識庫,翻譯知識庫中主要包括源語言的 詞語(短語)與目標語言中的詞語(短語)的翻譯概率、目標語言中的兩個或多個詞語連 續(xù)共現(xiàn)的概率等信息。
[0014] 在第二階段,對于待翻譯的源語言句子,翻譯解碼模塊從知識庫中將源語言句子 中的每個詞語(短語)對應的目標詞語(短語)及翻譯概率提取出來,并根據(jù)一定的評價 標準,從多個候選譯文句子中選擇一個最優(yōu)結果,作為最終譯文。
[0015] 因此,雙語篇章對齊語料是進一步加工句子對齊語料、訓練統(tǒng)計機器翻譯模型和 翻譯知識庫的基礎。
[0016] 對于國際主流語言,如漢語、英語、法語、德語、西班牙語、葡萄牙語來說,各種同時 以兩種或多種語言發(fā)布的文獻資料數(shù)不勝數(shù),獲取比較容易。但對于資源稀缺的語種語言 的文獻資料的總量要比漢語、英語等國際主流語言要少很多,雙語篇章語料的獲取更是極 其不易。
[0017] 對于藏語來說,由于諸多客觀因素的制約,導致了藏文語料庫匱乏的現(xiàn)狀。目前藏 文語料的來源主要是政府文件、電子版書籍和報刊,一般是向國內(nèi)各級翻譯機構付費獲取 紙質或電子文本,而在語料庫的建設上大多依賴于人工方式。漢藏雙語語料的人工加工工 作需要加工人員同時熟悉漢語和藏語,并需要對機器翻譯技術有較為深刻的了解,而具備 這些素質的人力資源卻是稀缺的,因此,這種原始的語料加工方法限制了漢藏雙語語料庫 的建設速度,漢藏雙語篇章對齊語料加工的效率低下,雙語對齊語料庫的規(guī)模較小。
[0018] 例如:目前,互聯(lián)網(wǎng)上多個網(wǎng)站均同時以漢語和藏語兩種語言甚至更多語言發(fā)布 信息,在這些網(wǎng)站中,雖然并不是所有的漢語文章都有對應的藏語譯文,但有對應藏語譯文 的文章的數(shù)量仍然是相當可觀的。因此,多語言網(wǎng)站是漢藏雙語篇章對齊語料的一個重要 的來源。由于同一文章的漢語版本和其藏語版本的URL(Uniform Resource Locator,統(tǒng)一 資源定位符)并沒有明顯的映射關系,即便能夠將網(wǎng)站中所有的漢語文章和所有的藏語文 章分別抽取出來,如何從漢語文章集合和藏語文章集合中自動找到那些互為翻譯的文章, 仍然是一個有待解決的技術問題。
[0019] 在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術中至少存在如下技術問題:
[0020] 對于資源稀缺的語種語言的文章,現(xiàn)有的雙語對齊語料加工的效率低下,雙語對 齊語料庫的規(guī)模較小。
【發(fā)明內(nèi)容】
[0021] 本發(fā)明提供一種雙語對齊語料的加工方法及裝置,能夠針對資源稀缺的語種語言 的文章,進行雙語對齊語料的自動加工,有效增加雙語對齊語料庫的規(guī)模。
[0022] 本發(fā)明提供的雙語對齊語料的加工方法,包括:
[0023] 獲取第一語種文章的發(fā)布日期;
[0024] 提取所述第一語種文章的特征;
[0025] 篩選出發(fā)布日期與所述第一語種文章的發(fā)布日期相差在預設時間閾值以內(nèi)的第 二語種文章;
[0026] 提取所述第二語種文章的特征;
[0027] 根據(jù)所述第一語種文章的特征和所述第二語種文章的特征,計算所述第一語種文 章與所述第二語種文章之間的歸一化編輯距離;
[0028] 當所述第一語種文章與所述第二語種文章之間的歸一化編輯距離小于預設距離 閾值時,將所述第一語種文章和所述第二語種文章作為一對對齊語料,添加到雙語對齊語 料庫中。
[0029] 本發(fā)明提供的雙語對齊語料的加工裝置,包括:
[0030] 發(fā)布日期獲取模塊,用于獲取第一語種文章的發(fā)布日期;
[0031] 特征提取模塊,用于提取所述第一語種文章的特征;
[0032] 發(fā)布日期篩選模塊,用于篩選出發(fā)布日期與所述第一語種文章的發(fā)布日期相差在 預設時間閾值以內(nèi)的第二語種文章;
[0033] 所述特征提取模塊還用于提取所述發(fā)布日期篩選模塊篩選出的第二語種文章的 特征;
[0034] 距離計算模塊,用于根據(jù)所述特征提取模塊提取的所述第一語種文章的特征和所 述第二語種文章的特征,計算所述第一語種文章與所述第二語種文章之間的歸一化編輯距 離;
[0035] 距離篩選模塊,用于當所述第一語種文章與所述第二語種文章之間的歸一化編輯 距離小于預設距離閾值時,將所述第一語種文章和所述第二語種文章作為一對對齊語料, 添加到雙語對齊語料庫中。
[0036] 本發(fā)明提供的雙語對齊語料的加工方法及裝置,通過計算第一語種文章與發(fā)布日 期相差在預設時間閾值以內(nèi)的第二語種文章之間的歸一化編輯距離,確定具有互譯關系的 文章對,從而構建雙語對齊預料。與現(xiàn)有技術相比,本發(fā)明能夠利用互聯(lián)網(wǎng)上大規(guī)模的雙語 網(wǎng)站的資源自動加工雙語對齊語料,提高了雙語對齊語料加工的自動化程度,加快了語料 庫建設的速度,增加了語料庫的規(guī)模;避免了人工搜集整理雙語對齊語料對人員素質要求 高的情況;避免了從翻譯機構獲取語料所需的費用,節(jié)省了經(jīng)濟成本。
【附圖說明】