亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)方法及實(shí)現(xiàn)系統(tǒng)與流程

文檔序號(hào):11155037閱讀:401來源:國知局
同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)方法及實(shí)現(xiàn)系統(tǒng)與制造工藝

本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,更具體地,涉及一種同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)方法及實(shí)現(xiàn)系統(tǒng)。



背景技術(shù):

機(jī)器翻譯是用計(jì)算機(jī)來實(shí)現(xiàn)不同語言之間的轉(zhuǎn)換。被翻譯的語言通常稱為源語言,翻譯成的結(jié)果語言稱為目標(biāo)語言。機(jī)器翻譯就是實(shí)現(xiàn)從源語言到目標(biāo)語言轉(zhuǎn)換的過程。詞對(duì)齊是統(tǒng)計(jì)機(jī)器翻譯的一項(xiàng)核心任務(wù),它從雙語平行語料中發(fā)掘互為翻譯的語言片斷,是翻譯知識(shí)的主要來源。簡而言之,詞對(duì)齊就是源語言句子中某個(gè)詞是由目標(biāo)語言中哪個(gè)詞翻譯而來的。如圖1所示,一個(gè)詞可以被翻譯為一個(gè)或多個(gè)詞,甚至不被翻譯。在實(shí)踐中,一部分詞對(duì)齊錯(cuò)誤因未能正確識(shí)別和處理術(shù)語對(duì)應(yīng)關(guān)系而觸發(fā),因而進(jìn)一步影響最終機(jī)器翻譯譯文質(zhì)量。因此如果能自動(dòng)識(shí)別出平行句對(duì)中的術(shù)語對(duì)應(yīng)關(guān)系,能顯著提升詞對(duì)齊質(zhì)量,進(jìn)而增強(qiáng)機(jī)器翻譯譯文質(zhì)量,尤其是術(shù)語的翻譯質(zhì)量。

此外,術(shù)語廣泛存在于具體的領(lǐng)域語料中,如計(jì)算機(jī)和醫(yī)學(xué)領(lǐng)域。在微軟本地化翻譯語料中,平均每100個(gè)詞就包含15個(gè)術(shù)語。自動(dòng)術(shù)語識(shí)別是指從文本中自動(dòng)發(fā)現(xiàn)領(lǐng)域術(shù)語的過程。它是一項(xiàng)具有重要作用的語言技術(shù),在自然語言處理、機(jī)器翻譯等應(yīng)用領(lǐng)域具有重要意義。自動(dòng)術(shù)語識(shí)別常用的方法包括基于規(guī)則方法和基于統(tǒng)計(jì)方法?;谝?guī)則方法是根據(jù)術(shù)語構(gòu)成模式建立一套規(guī)則,選擇匹配規(guī)則的詞語作為領(lǐng)域術(shù)語。這種方法的最大缺陷是人工編寫的規(guī)則不可能覆蓋所有的語言學(xué)現(xiàn)象,領(lǐng)域依賴性很強(qiáng)?;诮y(tǒng)計(jì)方法主要應(yīng)用詞頻、TF-IDF、互信息、信息熵、log-likelihood、假設(shè)檢驗(yàn)等統(tǒng)計(jì)特征,選擇特征值符合閾值的詞語作為領(lǐng)域術(shù)語?;诮y(tǒng)計(jì)方法不受領(lǐng)域限制,但是對(duì)于單詞術(shù)語和低頻術(shù)語的識(shí)別并不理想,抽取的術(shù)語也存在較多噪聲。

而當(dāng)前自動(dòng)術(shù)語識(shí)別的性能并沒有達(dá)到能直接用于詞對(duì)齊的水平。其主要原因?yàn)槿缦聝牲c(diǎn):(1)性能更好的基于機(jī)器學(xué)習(xí)技術(shù)的術(shù)語識(shí)別方法需要高質(zhì)量的人工標(biāo)數(shù)據(jù),但目前極度缺乏足量且高質(zhì)量的術(shù)語標(biāo)注數(shù)據(jù);(2)不斷有新的術(shù)語產(chǎn)生,標(biāo)注數(shù)據(jù)的更新速度嚴(yán)重滯后于實(shí)際需求。所以,如果直接將自動(dòng)術(shù)語識(shí)別結(jié)果作為詞對(duì)齊的約束,并不能帶來性能的提升。因此,研究如何同時(shí)提高自動(dòng)術(shù)語識(shí)別和詞對(duì)齊性能,并提高最終的機(jī)器翻譯譯文質(zhì)量是迫切需要解決的一個(gè)難題。



技術(shù)實(shí)現(xiàn)要素:

為了解決現(xiàn)有技術(shù)中的上述問題,即為了解決自動(dòng)術(shù)語識(shí)別和詞對(duì)齊性能,并提高最終的機(jī)器翻譯譯文質(zhì)量的問題,本發(fā)明提供了一種人同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)方法。

為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:

一種同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)方法,所述實(shí)現(xiàn)方法包括:

對(duì)一對(duì)源語言句子和目標(biāo)語言句子進(jìn)行分詞,獲得源語言詞組和目標(biāo)語言詞組;

對(duì)所述源語言詞組和目標(biāo)語言詞組進(jìn)行詞對(duì)齊,獲得源語言句子到目標(biāo)句子的對(duì)齊初始詞;

分別識(shí)別所述源語言句子和目標(biāo)語言句子中的術(shù)語,獲得初始單語術(shù)語;所述初始單語術(shù)語包含初始源語言術(shù)語和初始目標(biāo)語言術(shù)語;

結(jié)合所述對(duì)齊初始詞、初始單語術(shù)語,進(jìn)行術(shù)語對(duì)齊,得到初始源語言術(shù)語到初始目標(biāo)語言術(shù)語的對(duì)齊初始術(shù)語;

將所述對(duì)齊初始術(shù)語作為錨點(diǎn),通過擴(kuò)大或者收縮術(shù)語邊界,獲得擴(kuò)展后的初級(jí)雙語術(shù)語候選列表;

對(duì)所述初級(jí)雙語術(shù)語候選列表進(jìn)行雙語術(shù)語識(shí)別,獲得修正的次級(jí)雙語術(shù)語候選列表;

對(duì)所述次級(jí)雙語術(shù)語候選列表進(jìn)行二次雙語術(shù)語識(shí)別和詞對(duì)齊,獲得終極雙語術(shù)語和終極對(duì)齊詞。

可選的,所述獲得初始單語術(shù)語的方法包括:

步驟S31:利用源語言對(duì)應(yīng)的維基百科單語語料訓(xùn)練獲得源語言單語術(shù)語識(shí)別最大熵模型;利用目標(biāo)語言對(duì)應(yīng)的維基百科單語語料訓(xùn)練獲得目標(biāo)語言單語術(shù)語識(shí)別最大熵模型;

步驟S32:根據(jù)所述源語言句子及所述源語言單語術(shù)語識(shí)別最大熵模型,獲得源語言術(shù)語識(shí)別中間結(jié)果;根據(jù)所述目標(biāo)語言句子及所述目標(biāo)語言單語術(shù)語識(shí)別最大熵模型,獲得目標(biāo)語言術(shù)語識(shí)別中間結(jié)果;

步驟S33:將所述源語言術(shù)語識(shí)別中間結(jié)果作為源語言術(shù)語識(shí)別解碼器,解碼所述源語言句子得到初始源語言術(shù)語;將所述目標(biāo)語言術(shù)語識(shí)別中間結(jié)果作為目標(biāo)語言術(shù)語識(shí)別解碼器,解碼所述目標(biāo)語言句子得到初始目標(biāo)語言術(shù)語。

可選的,所述得到初始源語言術(shù)語到初始目標(biāo)語言術(shù)語的對(duì)齊初始術(shù)語的方法包括:

步驟S41:根據(jù)所述初始單語術(shù)語確定對(duì)應(yīng)的術(shù)語特征值;

步驟S42:根據(jù)術(shù)語特征值及所述術(shù)語對(duì)齊最大熵模型計(jì)算得到任意源語言術(shù)語至任意目標(biāo)語言術(shù)語的初始術(shù)語對(duì)齊分值;

步驟S43:根據(jù)所述初始術(shù)語對(duì)齊分值對(duì)初始術(shù)語對(duì)齊序列進(jìn)行排序,獲得初始術(shù)語對(duì)齊。

可選的,所述術(shù)語特征值包括:

A、源語言術(shù)語至目標(biāo)語言術(shù)語的短語翻譯概率;

B、源語言術(shù)語至目標(biāo)語言術(shù)語的詞匯化翻譯概率;

C、目標(biāo)語言術(shù)語至源語言術(shù)語的短語翻譯概率;

D、目標(biāo)語言術(shù)語至源語言術(shù)語的詞匯化翻譯概率。

可選的,所述得到初始源語言術(shù)語到初始目標(biāo)語言術(shù)語的對(duì)齊初始術(shù)語的方法還包括:

如果識(shí)別出的源語言句子和目標(biāo)語言句子中均沒有術(shù)語,則將所述對(duì)齊的源語言詞組中,有最大概率被識(shí)別為術(shù)語的詞添加到初始源語言術(shù)語中;將所述對(duì)齊的目標(biāo)語言詞組中,有最大概率被識(shí)別為術(shù)語的詞添加到初始目標(biāo)語言術(shù)語中。

可選的,所述獲得擴(kuò)展后的初級(jí)雙語術(shù)語候選列表的方法包括:

步驟S51:以所述對(duì)齊初始術(shù)語對(duì)的源語言術(shù)語和目標(biāo)語言術(shù)語為基準(zhǔn),建立一個(gè)滑動(dòng)窗,并建立一系列擴(kuò)展后的單語術(shù)語候選項(xiàng);

步驟S52:通過組合所述擴(kuò)展后的單語術(shù)語候選項(xiàng),獲得雙語術(shù)語翻譯對(duì)的候選項(xiàng);

步驟S53:對(duì)所有所述翻譯術(shù)語翻譯對(duì)的候選項(xiàng)進(jìn)行排序,根據(jù)規(guī)則刪除不符合條件的雙語術(shù)語候選項(xiàng),獲得初級(jí)雙語術(shù)語候選列表。

可選的,所述獲得修正的次級(jí)雙語術(shù)語候選列表的方法包括:

步驟S61:使用柱搜索算法,根據(jù)所述初級(jí)雙語術(shù)語候選列表獲得每次保留的K個(gè)最好的候選,獲得最優(yōu)的術(shù)語對(duì)齊序列;

步驟S62:從所述最優(yōu)的術(shù)語對(duì)齊序列和所述對(duì)齊初始詞中,根據(jù)規(guī)則刪除不符合條件的對(duì)齊序列,獲得修正的次級(jí)雙語術(shù)語候選列表。

可選的,所述獲得終極雙語術(shù)語和終極對(duì)齊詞的方法包括:

步驟S71:構(gòu)建一個(gè)空的詞對(duì)齊候選列表;

步驟S72:從所述次級(jí)雙語術(shù)語候選列表中各種雙語術(shù)語候選逐一選取,并以選取的雙語術(shù)語候選為約束,利用基于隱馬爾可夫的詞對(duì)齊方法,生成K個(gè)最優(yōu)的詞對(duì)齊候選并添加到所述詞對(duì)齊候選列表;

步驟S73:利用柱搜索算法,結(jié)合所述次級(jí)雙語術(shù)語候選列表,對(duì)所述詞對(duì)齊候選列表對(duì)齊綜合排序,獲得K個(gè)最好的雙語術(shù)語候選和詞對(duì)齊候選,分別為終極雙語術(shù)語和終極對(duì)齊詞。

根據(jù)本發(fā)明的實(shí)施例,本發(fā)明公開了以下技術(shù)效果:

本發(fā)明同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)方法通過分詞、詞對(duì)齊、術(shù)語對(duì)齊處理,可得到雙語術(shù)語的對(duì)齊初始術(shù)語,同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊能夠突破單獨(dú)進(jìn)行雙語術(shù)語識(shí)別或者詞對(duì)齊的局限性,從而大幅提高雙語術(shù)語與詞對(duì)齊性能;通過修正初級(jí)雙語術(shù)語候選列表進(jìn)行雙語術(shù)語識(shí)別得到次級(jí)雙語術(shù)語候選列表,可進(jìn)一步提高術(shù)語識(shí)別和詞對(duì)齊性能,并提高最終的機(jī)器翻譯譯文質(zhì)量。

為了解決現(xiàn)有技術(shù)中的上述問題,即為了解決自動(dòng)術(shù)語識(shí)別和詞對(duì)齊性能,并提高最終的機(jī)器翻譯譯文質(zhì)量的問題,本發(fā)明提供了一種人同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)系統(tǒng)。

為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:

一種同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)系統(tǒng),所述識(shí)別裝置包括:

分詞模塊,用于對(duì)一對(duì)源語言句子和目標(biāo)語言句子進(jìn)行分詞,獲得源語言詞組和目標(biāo)語言詞組;

詞對(duì)齊模塊,用于對(duì)所述源語言詞組和目標(biāo)語言詞組進(jìn)行詞對(duì)齊,獲得源語言句子到目標(biāo)句子的對(duì)齊初始詞;

識(shí)別模塊,用于分別識(shí)別所述源語言句子和目標(biāo)語言句子中的術(shù)語,獲得初始單語術(shù)語;所述初始單語術(shù)語包含初始源語言術(shù)語和初始目標(biāo)語言術(shù)語;

術(shù)語對(duì)齊模塊,用于結(jié)合所述對(duì)齊初始詞、初始單語術(shù)語,進(jìn)行術(shù)語對(duì)齊,得到初始源語言術(shù)語到初始目標(biāo)語言術(shù)語的對(duì)齊初始術(shù)語;

初級(jí)列表確定模塊,用于將所述對(duì)齊初始術(shù)語作為錨點(diǎn),通過擴(kuò)大或者收縮術(shù)語邊界,獲得擴(kuò)展后的初級(jí)雙語術(shù)語候選列表;

次級(jí)列表確定模塊,用于對(duì)所述初級(jí)雙語術(shù)語候選列表進(jìn)行雙語術(shù)語識(shí)別,獲得修正的次級(jí)雙語術(shù)語候選列表;

終極確定模塊,用于對(duì)所述次級(jí)雙語術(shù)語候選列表進(jìn)行二次雙語術(shù)語識(shí)別和詞對(duì)齊,獲得終極雙語術(shù)語和終極對(duì)齊詞。

可選的,所述識(shí)別模塊包括:

模型確定單元,用于利用源語言對(duì)應(yīng)的維基百科單語語料訓(xùn)練獲得源語言單語術(shù)語識(shí)別最大熵模型;利用目標(biāo)語言對(duì)應(yīng)的維基百科單語語料訓(xùn)練獲得目標(biāo)語言單語術(shù)語識(shí)別最大熵模型;

計(jì)算單元,用于根據(jù)所述源語言句子及所述源語言單語術(shù)語識(shí)別最大熵模型,獲得源語言術(shù)語識(shí)別中間結(jié)果;根據(jù)所述目標(biāo)語言句子及所述目標(biāo)語言單語術(shù)語識(shí)別最大熵模型,獲得目標(biāo)語言術(shù)語識(shí)別中間結(jié)果;

解碼單元,用于將所述源語言術(shù)語識(shí)別中間結(jié)果作為源語言術(shù)語識(shí)別解碼器,解碼所述源語言句子得到初始源語言術(shù)語;將所述目標(biāo)語言術(shù)語識(shí)別中間結(jié)果作為目標(biāo)語言術(shù)語識(shí)別解碼器,解碼所述目標(biāo)語言句子得到初始目標(biāo)語言術(shù)語。

根據(jù)本發(fā)明的實(shí)施例,本發(fā)明公開了以下技術(shù)效果:

本發(fā)明同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)系統(tǒng)通過設(shè)置分詞模塊、詞對(duì)齊模塊、識(shí)別模塊,可得到雙語術(shù)語的對(duì)齊初始術(shù)語,同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊能夠突破單獨(dú)進(jìn)行雙語術(shù)語識(shí)別或者詞對(duì)齊的局限性,從而大幅提高雙語術(shù)語與詞對(duì)齊性能;通過設(shè)置初級(jí)列表確定模塊、次級(jí)列表確定單元,修正初級(jí)雙語術(shù)語候選列表進(jìn)行雙語術(shù)語識(shí)別得到次級(jí)雙語術(shù)語候選列表,可進(jìn)一步提高術(shù)語識(shí)別和詞對(duì)齊性能,并提高最終的機(jī)器翻譯譯文質(zhì)量。

附圖說明

圖1是詞對(duì)齊的一個(gè)實(shí)例示意圖;

圖2是本發(fā)明同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)方法的流程圖;

圖3是本發(fā)明同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的工作示意圖;

圖4是本發(fā)明同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)系統(tǒng)的模塊結(jié)構(gòu)示意圖。

符號(hào)說明:

分詞模塊—1,詞對(duì)齊模塊—2,識(shí)別模塊—3,術(shù)語對(duì)齊模塊—4,初級(jí)列表確定模塊—5,次級(jí)列表確定模塊—6,終極確定模塊—7。

具體實(shí)施方式

下面參照附圖來描述本發(fā)明的優(yōu)選實(shí)施方式。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,這些實(shí)施方式僅僅用于解釋本發(fā)明的技術(shù)原理,并非旨在限制本發(fā)明的保護(hù)范圍。

如圖2所示,本發(fā)明同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)方法包括:

步驟100:對(duì)一對(duì)源語言句子和目標(biāo)語言句子進(jìn)行分詞,獲得源語言詞組和目標(biāo)語言詞組;

步驟200:對(duì)所述源語言詞組和目標(biāo)語言詞組進(jìn)行詞對(duì)齊,獲得源語言句子到目標(biāo)句子的對(duì)齊初始詞;

步驟300:分別識(shí)別所述源語言句子和目標(biāo)語言句子中的術(shù)語,獲得初始單語術(shù)語;所述初始單語術(shù)語包含初始源語言術(shù)語和初始目標(biāo)語言術(shù)語;

步驟400:結(jié)合所述對(duì)齊初始詞、初始單語術(shù)語,進(jìn)行術(shù)語對(duì)齊,得到初始源語言術(shù)語到初始目標(biāo)語言術(shù)語的對(duì)齊初始術(shù)語;

步驟500:將所述對(duì)齊初始術(shù)語作為錨點(diǎn),通過擴(kuò)大或者收縮術(shù)語邊界,獲得擴(kuò)展后的初級(jí)雙語術(shù)語候選列表;

步驟600:對(duì)所述初級(jí)雙語術(shù)語候選列表進(jìn)行雙語術(shù)語識(shí)別,獲得修正的次級(jí)雙語術(shù)語候選列表;

步驟700:對(duì)所述次級(jí)雙語術(shù)語候選列表進(jìn)行二次雙語術(shù)語識(shí)別和詞對(duì)齊,獲得終極雙語術(shù)語和終極對(duì)齊詞。

通過上述步驟得到:

為了更簡潔說明本發(fā)明的實(shí)施過程,現(xiàn)統(tǒng)一給出符號(hào)定義:

源語言句子其中J為源語言句子的詞數(shù),sj為源語言句子的第j個(gè)詞;

目標(biāo)語言句子其中I為目標(biāo)語言句子的詞數(shù),ti為目標(biāo)語言句子的第i個(gè)詞。

經(jīng)過詞對(duì)齊處理后,對(duì)齊初始詞其中指源語言句子第j個(gè)詞與目標(biāo)語言句子的第i個(gè)詞對(duì)應(yīng),i可能有多個(gè)不同的值。

修正后的初始詞對(duì)齊A=a1a2...aJ,修正后的源語言術(shù)語識(shí)別修正后的目標(biāo)語言術(shù)語識(shí)別

修正后的術(shù)語對(duì)齊Mk=m1m2...MQ′,其中mq′=(TTp′,STq′),表示第q′個(gè)源句子術(shù)語對(duì)應(yīng)第p′個(gè)目標(biāo)句子術(shù)語;

初始源語言術(shù)語識(shí)別Q為識(shí)別出的源語言術(shù)語個(gè)數(shù);初始目標(biāo)語言術(shù)語識(shí)別P為識(shí)別出的目標(biāo)語言術(shù)語個(gè)數(shù)。

最終詞對(duì)齊最終雙語術(shù)語對(duì)齊

利用上述符號(hào),本發(fā)明的核心思想可形式化為如下四階段聯(lián)合模型:

由公式(1)可知,本發(fā)明將單語術(shù)語識(shí)別、雙語術(shù)語對(duì)齊和詞對(duì)齊融合在一起同時(shí)執(zhí)行,在理論上避免了已有方法存在錯(cuò)誤逐級(jí)傳遞的缺點(diǎn)。因?yàn)橐延蟹椒ㄒ话闶窍冗M(jìn)行單語術(shù)語識(shí)別,再進(jìn)行雙語術(shù)語對(duì)齊,再在雙語術(shù)語的約束下進(jìn)行詞對(duì)齊,上一階段的錯(cuò)誤會(huì)直接傳遞到下一階段,最后造成詞對(duì)齊性能明顯下降。在公式(1)中,為雙語術(shù)語對(duì)齊模型,為基于雙語術(shù)語約束的詞對(duì)齊模型。公式(1)的輸入為源語言句子目標(biāo)語言句子初始源語言單語術(shù)語識(shí)別和初始目標(biāo)語言單語術(shù)語識(shí)別輸出為本發(fā)明的最終結(jié)果,即最終雙語術(shù)語對(duì)齊M*和最終詞對(duì)齊A*。

例如,假設(shè)源語言句子s,如圖3所示:

Header text that appears in the summary.

目標(biāo)語言句子t:

出現(xiàn)在摘要中的標(biāo)頭文本。

經(jīng)過分詞處理后,并用空格隔開相鄰詞:

進(jìn)一步地,在步驟300中,所述獲得初始單語術(shù)語的方法包括:

步驟310:利用源語言對(duì)應(yīng)的維基百科單語語料訓(xùn)練獲得源語言單語術(shù)語識(shí)別最大熵模型;利用目標(biāo)語言對(duì)應(yīng)的維基百科單語語料訓(xùn)練獲得目標(biāo)語言單語術(shù)語識(shí)別最大熵模型。

在本實(shí)施例中,所采用的最大熵分類器為斯坦福大學(xué)開源的StanfordParser,所述最大熵分類器不能直接使用,需要利用源語言對(duì)應(yīng)的維基百科單語語料訓(xùn)練獲得源語言單語術(shù)語識(shí)別最大熵模型,利用目標(biāo)語言對(duì)應(yīng)的維基百科單語語料訓(xùn)練獲得目標(biāo)語言單語術(shù)語識(shí)別最大熵模型。

所述維基百科單語語料,包括英文百科文章存檔和中文百科文章存檔,得到所述維基百科文檔存檔后,需要整理后方可用于訓(xùn)練最大熵模型。

整理過程如下:

以英文維基百科中的“computer”條目為例,其中包含句子“Computers are small enough to fit into<mobile devices>,and<mobile computers>can be powered by small<batteries>.Personal computers in their various forms are <icons>of the<Information Age>and are generally considered as"computers".”。其中,“<…>”表示該短語為術(shù)語(有人工標(biāo)記的超鏈接或者特殊格式(如斜體、加粗等)。按照最大熵模型的要求將所述句子整理成:“Computers/O are/O small/O enough/O to/O fit/O into/O mobile/B devices/I,and/O mobile/B computers/I can/O be/O powered/O by/O small/O batteries/B.Personal/O computers/O in/O their/O various/O forms/O are/O icons/B of/O the/O Information/B Age/I and/O are/O generally/O considered/O as/O"/O computers/O"/O./O”。其中,“O”表示非術(shù)語詞,“B”表示術(shù)語起始詞,“I”表示術(shù)語中的詞。對(duì)中文維基百科文檔存檔作相同處理。

用上述整理之后的句子可訓(xùn)練得到所需的源語言單語術(shù)語識(shí)別最大熵模型和目標(biāo)語言單語術(shù)語識(shí)別最大熵模型,具體訓(xùn)練步驟可參照StanfordParser的操作手冊(cè)。

步驟320:根據(jù)所述源語言句子及所述源語言單語術(shù)語識(shí)別最大熵模型,獲得源語言術(shù)語識(shí)別中間結(jié)果;根據(jù)所述目標(biāo)語言句子及所述目標(biāo)語言單語術(shù)語識(shí)別最大熵模型,獲得目標(biāo)語言術(shù)語識(shí)別中間結(jié)果。

在本實(shí)施例中,將源語言句子“Header text that appears in the summary.”作為源語言單語術(shù)語識(shí)別最大熵模型的輸入,可得到帶標(biāo)簽的源語言術(shù)語識(shí)別中間結(jié)果“Header/B text/O that/O appears/O in/O the/O summary/B./O”。將目標(biāo)語言句子“出現(xiàn)在摘要中的標(biāo)頭文本?!弊鳛槟繕?biāo)語言單語術(shù)語識(shí)別最大熵模型的輸入,可得到帶標(biāo)簽的目標(biāo)語言術(shù)語識(shí)別中間結(jié)果“出現(xiàn)/O在/O摘要/B中/I的/I標(biāo)頭/I文本/I。/O”。

步驟330:將所述源語言術(shù)語識(shí)別中間結(jié)果作為源語言術(shù)語識(shí)別解碼器,解碼所述源語言句子得到初始源語言術(shù)語;將所述目標(biāo)語言術(shù)語識(shí)別中間結(jié)果作為目標(biāo)語言術(shù)語識(shí)別解碼器,解碼所述目標(biāo)語言句子得到初始目標(biāo)語言術(shù)語。

術(shù)語識(shí)別解碼器的作用是將最大熵模型的自動(dòng)標(biāo)注結(jié)果解碼為恰當(dāng)?shù)男g(shù)語表示,術(shù)語識(shí)別解碼器能自動(dòng)丟棄不合法的自動(dòng)標(biāo)注結(jié)果,如“出現(xiàn)/O在/O摘要/B中/I的/O標(biāo)頭/I文本/I。/O”。在本實(shí)施例中,將帶標(biāo)簽的源語言術(shù)語識(shí)別中間結(jié)果“Header/B text/O that/O appears/O in/O the/O summary/B./O”解碼為“<Header>text that appears in the<summary>.”,即初始源語言術(shù)語為“header”和“summary”;將帶標(biāo)簽的目標(biāo)語言術(shù)語識(shí)別中間結(jié)果“出現(xiàn)/O在/O摘要/B中/I的/I標(biāo)頭/I文本/I。/O”解碼為“出現(xiàn)在<摘要中的標(biāo)頭文本>?!?,即術(shù)語為“摘要中的標(biāo)頭文本”。即初始單語術(shù)語識(shí)別結(jié)果:“<Header>text that appears in the<summary>.”;“出現(xiàn)在<摘要中的標(biāo)頭文本>?!?;

在步驟400中,所述得到初始源語言術(shù)語到初始目標(biāo)語言術(shù)語的對(duì)齊初始術(shù)語的方法包括:

步驟410:根據(jù)所述初始單語術(shù)語確定對(duì)應(yīng)的術(shù)語特征值。

所述初始單語術(shù)語包括初始源語言術(shù)語和初始目標(biāo)語言術(shù)語。在本實(shí)施例所采用的用于術(shù)語對(duì)齊最大熵模型為斯坦福大學(xué)開源的StanfordParser。所述最大熵模型與步驟300中提及的內(nèi)容相同,在此不再贅述。

步驟420:根據(jù)術(shù)語特征值及所述術(shù)語對(duì)齊最大熵模型計(jì)算得到任意源語言術(shù)語至任意目標(biāo)語言術(shù)語的初始術(shù)語對(duì)齊分值。

所述術(shù)語特征值包括:

A、源語言術(shù)語至目標(biāo)語言術(shù)語的短語翻譯概率;

B、源語言術(shù)語至目標(biāo)語言術(shù)語的詞匯化翻譯概率;

C、目標(biāo)語言術(shù)語至源語言術(shù)語的短語翻譯概率;

D、目標(biāo)語言術(shù)語至源語言術(shù)語的詞匯化翻譯概率。

本發(fā)明直接對(duì)初始術(shù)語對(duì)齊概率采用最大熵模型進(jìn)行建模。在最大熵模型中,設(shè)計(jì)一組特征函數(shù)根據(jù)公式在最大熵模型框架下得到初始術(shù)語對(duì)齊分值:

其中,{λf}為對(duì)應(yīng)特征的權(quán)重,通過GIS算法訓(xùn)練得到。

所述短語翻譯概率h1由正向短語翻譯概率和反向短語翻譯概率根據(jù)下列公式計(jì)算得到:

所述詞匯化翻譯概率h2由正向詞匯化翻譯概率和反向詞匯化翻譯概率根據(jù)下列公式計(jì)算得到:

所述正向短語翻譯概率、反向短語翻譯概率、正向詞匯化翻譯概率和反向詞匯化翻譯概率均由GIZA++工具得到,訓(xùn)練語料為從中英維基百科抽取出中雙語術(shù)語對(duì)。

所述共現(xiàn)概率h3根據(jù)下列公式從當(dāng)前平行語料計(jì)算得到:

其中,count(*,*)為共現(xiàn)次數(shù)。

步驟430:根據(jù)所述初始術(shù)語對(duì)齊分值對(duì)初始術(shù)語對(duì)齊序列進(jìn)行排序,獲得初始術(shù)語對(duì)齊。

對(duì)齊初始術(shù)語其中表示第q個(gè)源句子術(shù)語對(duì)應(yīng)第p個(gè)目標(biāo)句子術(shù)語。

所有可能的術(shù)語對(duì)齊為源語言術(shù)語與目標(biāo)語言術(shù)語組成的笛卡爾積因此需要對(duì)中的每種對(duì)齊按照步驟420進(jìn)行打分,然后降序排列。本發(fā)明采用了維特比算法來加速排序過程。

在本實(shí)施例中,得到的初始術(shù)語對(duì)齊結(jié)果:[summary]::[摘要中的標(biāo)頭文本]};{[header]::[摘要中的標(biāo)頭文本],[summary]::[出現(xiàn)]};{[header]::[摘要中的標(biāo)頭文本],[summary]::[摘要中的標(biāo)頭文本]};{[header]::[出現(xiàn)],[summary]::[出現(xiàn)]}。

此外,為避免因術(shù)語識(shí)別錯(cuò)誤而造成的對(duì)齊缺失,本發(fā)明對(duì)初始單語術(shù)語識(shí)別進(jìn)行自動(dòng)補(bǔ)全,具體規(guī)則為:如果識(shí)別出的源語言句子和目標(biāo)語言句子中均沒有術(shù)語,則將所述對(duì)齊的源語言詞組中,有最大概率被識(shí)別為術(shù)語的詞添加到初始源語言術(shù)語中;將所述對(duì)齊的目標(biāo)語言詞組中,有最大概率被識(shí)別為術(shù)語的詞添加到初始目標(biāo)語言術(shù)語中。

在本實(shí)施例中,補(bǔ)全后的初始目標(biāo)語言術(shù)語{“出現(xiàn)”,“摘要中的標(biāo)頭文本”}。

在步驟500中,所述獲得擴(kuò)展后的初級(jí)雙語術(shù)語候選列表的方法包括:

步驟510:以所述對(duì)齊初始術(shù)語對(duì)的源語言術(shù)語和目標(biāo)語言術(shù)語為基準(zhǔn),建立一個(gè)滑動(dòng)窗,并建立一系列擴(kuò)展后的單語術(shù)語候選項(xiàng)。

所述滑動(dòng)窗可以逐詞向內(nèi)縮減(1~4個(gè)詞)或者向外擴(kuò)展(1~4個(gè)詞)。在本實(shí)施例中,擴(kuò)展后的源語言單語術(shù)語為([header]→{[header text],[header text that],[header text that appears],[header text that appears in]};[summary]→{[summary],[the summary],[in the summary],[appears in the summary],[that appears in the summary]});擴(kuò)展后的目標(biāo)語言單語術(shù)語為([出現(xiàn)]→{[出現(xiàn)在]},[摘要中的標(biāo)頭文本]→{[在摘要中的標(biāo)頭文本],[摘要中的標(biāo)頭文本。],[摘要中的標(biāo)頭],[摘要中的],[摘要],[中的標(biāo)頭文本],[的標(biāo)頭文本],[標(biāo)頭文本],[文本]})。

步驟520:通過組合所述擴(kuò)展后的單語術(shù)語候選項(xiàng),獲得雙語術(shù)語翻譯對(duì)的候選項(xiàng)。

根據(jù)所述步驟510對(duì)擴(kuò)展后的源語言單語術(shù)語和目標(biāo)語言術(shù)語進(jìn)行對(duì)齊,得到擴(kuò)展后的術(shù)語對(duì)齊結(jié)果。對(duì)齊時(shí),需要根據(jù)步驟510的單語擴(kuò)展的距離計(jì)算新的擴(kuò)展后的單語術(shù)語識(shí)別概率。在本實(shí)施例中,假設(shè)源語言術(shù)語或者目標(biāo)語言術(shù)語為為單語術(shù)語中第i個(gè)詞,則單語句子為其中,dL和dR分別表示從左和從右擴(kuò)展的距離,負(fù)值表示向里收縮,正值表示向外擴(kuò)展。利用所述符號(hào),單語術(shù)語識(shí)別概率計(jì)算公式為:

其中,P(*)表示初始單語術(shù)語識(shí)別概率,βf(1≤f≤4)為對(duì)應(yīng)項(xiàng)權(quán)重。在本實(shí)施例中均取值為0.25。

步驟530:對(duì)所有所述翻譯術(shù)語翻譯對(duì)的候選項(xiàng)進(jìn)行排序,根據(jù)規(guī)則刪除不符合條件的雙語術(shù)語候選項(xiàng),獲得初級(jí)雙語術(shù)語候選列表。

在本發(fā)明中,根據(jù)規(guī)則刪除不符合條件的雙語術(shù)語候選項(xiàng)指刪除任意兩個(gè)有重疊部分的單語術(shù)語對(duì)應(yīng)的雙語術(shù)語候選項(xiàng)。在本實(shí)施例中,將刪除得分較小的雙語術(shù)語候選項(xiàng),保留得分較大的雙語術(shù)語候選項(xiàng)。

在步驟600中,所述獲得修正的次級(jí)雙語術(shù)語候選列表的方法包括:

步驟610:使用柱搜索算法,根據(jù)所述初級(jí)雙語術(shù)語候選列表獲得每次保留的K個(gè)最好的候選,獲得最優(yōu)的術(shù)語對(duì)齊序列。

搜索時(shí),需要實(shí)時(shí)計(jì)算擴(kuò)展后的初級(jí)雙語術(shù)語對(duì)齊概率,即伸縮雙語術(shù)語對(duì)齊概率其計(jì)算公式為:

其中,P(Lk|STq,TTp)為雙語術(shù)語對(duì)按詞對(duì)齊Lk的翻譯概率,為雙語術(shù)語伸縮模型。在本發(fā)明中,雙語術(shù)語伸縮模型得分為源語言、目標(biāo)語言的單語術(shù)語識(shí)別概率之積,計(jì)算公式為:

其中和分別為單語術(shù)語識(shí)別概率。

步驟620:從所述最優(yōu)的術(shù)語對(duì)齊序列和所述對(duì)齊初始詞中,根據(jù)規(guī)則刪除不符合條件的對(duì)齊序列,獲得修正的次級(jí)雙語術(shù)語候選列表。

在本實(shí)施例中,得到的修正后的次級(jí)雙語術(shù)語候選列表為({[header text]::[標(biāo)頭文本],[summary]::[摘要中]};{[header text]::[的標(biāo)頭文本],[summary]::[摘要]};…一共132(11×12)術(shù)語對(duì))。

所述根據(jù)規(guī)則刪除不符合條件的對(duì)齊序列與上述步驟530中提及的內(nèi)容類似,在此不再詳述。

在步驟700中,所述獲得終極雙語術(shù)語和終極對(duì)齊詞的方法包括:

步驟710:構(gòu)建一個(gè)空的詞對(duì)齊候選列表。

步驟720:從所述次級(jí)雙語術(shù)語候選列表中各種雙語術(shù)語候選逐一選取,并以選取的雙語術(shù)語候選為約束,利用基于隱馬爾可夫的詞對(duì)齊方法,生成K個(gè)最優(yōu)的詞對(duì)齊候選并添加到所述詞對(duì)齊候選列表。

本實(shí)施例中,融合雙語術(shù)語對(duì)齊后,隱馬爾可夫詞對(duì)齊模型為如下公式:

其中,I為目標(biāo)句子長度,P(sj|t(aj))表示詞的翻譯概率,p(aj,Mk|aj-1,I)為融合雙語術(shù)語對(duì)齊的詞對(duì)位概率。

在隱馬爾可夫詞對(duì)齊模型中,詞對(duì)位概率為P(aj|a(j-1),I)。令con flict(j,Mk)表示源語語言第j個(gè)詞與目標(biāo)語言第aj個(gè)詞對(duì)應(yīng)是否與雙語術(shù)語對(duì)齊Mk是否沖突。如果沖突,則為true,否則為false。則融合雙語術(shù)語對(duì)齊的詞對(duì)位概率可推導(dǎo)為:

步驟730:利用柱搜索算法,結(jié)合所述次級(jí)雙語術(shù)語候選列表,對(duì)所述詞對(duì)齊候選列表對(duì)齊綜合排序,獲得K個(gè)最好的雙語術(shù)語候選和詞對(duì)齊候選,分別為終極雙語術(shù)語和終極對(duì)齊詞。

對(duì)所述詞對(duì)齊候選列表對(duì)齊綜合排序,公式(1)中的雙語術(shù)語對(duì)齊模型可推導(dǎo)為:

本實(shí)施例中,結(jié)合公式(1)-(11),修正后的術(shù)語對(duì)重排序后得到({[header text]::[標(biāo)頭文本],[summary]::[摘要]};{[header text]::[的標(biāo)頭文本],[summary]::[摘要]};…);最終詞對(duì)齊“NULL{6}出現(xiàn){4}在{5}摘要{7}中{3}的{}標(biāo)頭{1}文本{2}。{8}”;最終術(shù)語對(duì)齊({[header text]::[標(biāo)頭文本],[summary]::[摘要]})。

通過上述技術(shù)方案可知,本發(fā)明的方法和裝置具有如下的積極效果:

(1)由于在平行句對(duì)中,雙語術(shù)語普通是邊界統(tǒng)一的,即雙語術(shù)語是成對(duì)出現(xiàn)的,因而,雙語術(shù)語的詞對(duì)齊有利于單語術(shù)語邊界的確定,同時(shí),雙語術(shù)語的對(duì)齊也有利于詞對(duì)齊的確定。因此,同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊能夠突破單獨(dú)進(jìn)行雙語術(shù)語識(shí)別或者詞對(duì)齊的局限性,從而大幅提高雙語術(shù)語與詞對(duì)齊性能;

(2)本發(fā)明能夠有效利用雙語術(shù)語識(shí)別和詞對(duì)齊知識(shí),有效提高雙語術(shù)語與詞對(duì)齊性能,并提高最終的機(jī)器翻譯譯文質(zhì)量,尤其是術(shù)語翻譯質(zhì)量。通過英中軟件本地化翻譯實(shí)驗(yàn),結(jié)果表明,相對(duì)于單獨(dú)識(shí)別雙語術(shù)語和詞對(duì)齊,本發(fā)明在單語術(shù)語識(shí)別F值提高在9個(gè)百分點(diǎn)以上,在雙語術(shù)語對(duì)齊F值的提高在8個(gè)百分點(diǎn)以上,在詞對(duì)齊F值的提高多于4個(gè)百分點(diǎn);在術(shù)語翻譯方面,正確率提高3.66個(gè)百分點(diǎn);整體翻譯質(zhì)量方面,BLEU值提升0.38個(gè)百分點(diǎn)。效果提升較為明顯。

其中,F(xiàn)值一個(gè)統(tǒng)計(jì)學(xué)概念,F(xiàn)值=2×(準(zhǔn)確率×召回率)/(準(zhǔn)確率+召回率);BLEU是一個(gè)雙語評(píng)測(cè)替代指標(biāo)。

此外,本發(fā)明還提供一種同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)系統(tǒng)。如圖4所示,本發(fā)明同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)系統(tǒng)包括分詞模塊1、詞對(duì)齊模塊2、識(shí)別模塊3、術(shù)語對(duì)齊模塊4,初級(jí)列表確定模塊5,次級(jí)列表確定模塊6及終極確定模塊7。

其中,所述分詞模塊1用于對(duì)一對(duì)源語言句子和目標(biāo)語言句子進(jìn)行分詞,獲得源語言詞組和目標(biāo)語言詞組;所述詞對(duì)齊模塊2用于對(duì)所述源語言詞組和目標(biāo)語言詞組進(jìn)行詞對(duì)齊,獲得源語言句子到目標(biāo)句子的對(duì)齊初始詞;所述識(shí)別模塊3用于分別識(shí)別所述源語言句子和目標(biāo)語言句子中的術(shù)語,獲得初始單語術(shù)語;所述初始單語術(shù)語包含初始源語言術(shù)語和初始目標(biāo)語言術(shù)語;所述術(shù)語對(duì)齊模塊4用于結(jié)合所述對(duì)齊初始詞、初始單語術(shù)語,進(jìn)行術(shù)語對(duì)齊,得到初始源語言術(shù)語到初始目標(biāo)語言術(shù)語的對(duì)齊初始術(shù)語;所述初級(jí)列表確定模塊5用于將所述對(duì)齊初始術(shù)語作為錨點(diǎn),通過擴(kuò)大或者收縮術(shù)語邊界,獲得擴(kuò)展后的初級(jí)雙語術(shù)語候選列表;所述次級(jí)列表確定模塊6用于對(duì)所述初級(jí)雙語術(shù)語候選列表進(jìn)行雙語術(shù)語識(shí)別,獲得修正的次級(jí)雙語術(shù)語候選列表;所述終極確定模塊7用于對(duì)所述次級(jí)雙語術(shù)語候選列表進(jìn)行二次雙語術(shù)語識(shí)別和詞對(duì)齊,獲得終極雙語術(shù)語和終極對(duì)齊詞。

優(yōu)選地,所述識(shí)別模塊3包括模型確定單元、計(jì)算單元、解碼單元。

其中,所述模型確定單元利用源語言對(duì)應(yīng)的維基百科單語語料訓(xùn)練獲得源語言單語術(shù)語識(shí)別最大熵模型;利用目標(biāo)語言對(duì)應(yīng)的維基百科單語語料訓(xùn)練獲得目標(biāo)語言單語術(shù)語識(shí)別最大熵模型;所述計(jì)算單元根據(jù)所述源語言句子及所述源語言單語術(shù)語識(shí)別最大熵模型,獲得源語言術(shù)語識(shí)別中間結(jié)果;根據(jù)所述目標(biāo)語言句子及所述目標(biāo)語言單語術(shù)語識(shí)別最大熵模型,獲得目標(biāo)語言術(shù)語識(shí)別中間結(jié)果;所述解碼單元將所述源語言術(shù)語識(shí)別中間結(jié)果作為源語言術(shù)語識(shí)別解碼器,解碼所述源語言句子得到初始源語言術(shù)語;將所述目標(biāo)語言術(shù)語識(shí)別中間結(jié)果作為目標(biāo)語言術(shù)語識(shí)別解碼器,解碼所述目標(biāo)語言句子得到初始目標(biāo)語言術(shù)語。

相對(duì)于現(xiàn)有技術(shù),本發(fā)明同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)系統(tǒng)與上述同時(shí)識(shí)別雙語術(shù)語與詞對(duì)齊的實(shí)現(xiàn)方法的有益效果相同,在此不再贅述。

至此,已經(jīng)結(jié)合附圖所示的優(yōu)選實(shí)施方式描述了本發(fā)明的技術(shù)方案,但是,本領(lǐng)域技術(shù)人員容易理解的是,本發(fā)明的保護(hù)范圍顯然不局限于這些具體實(shí)施方式。在不偏離本發(fā)明的原理的前提下,本領(lǐng)域技術(shù)人員可以對(duì)相關(guān)技術(shù)特征作出等同的更改或替換,這些更改或替換之后的技術(shù)方案都將落入本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1