信息處理方法和裝置制造方法
【專利摘要】本申請?zhí)峁┮环N信息處理方法和裝置。該信息處理方法包括:識(shí)別信息中的多詞單元;從翻譯規(guī)則數(shù)據(jù)庫中查找所述多詞單元的最相似多詞單元及關(guān)聯(lián)詞串所分別匹配的翻譯規(guī)則,所述關(guān)聯(lián)詞串包括所述多詞單元的所有子串及與所述多詞單元部分重疊的多詞單元;根據(jù)每一翻譯規(guī)則與所述最相似多詞單元所匹配的翻譯規(guī)則的關(guān)系確定每一翻譯規(guī)則的得分;根據(jù)得分滿足預(yù)設(shè)條件的翻譯規(guī)則確定所述多詞單元的翻譯結(jié)果。本申請中,根據(jù)最相似多詞單元的翻譯規(guī)則確定沒有匹配翻譯規(guī)則的多詞單元的翻譯方法,對最相似多詞單元的翻譯規(guī)則的參考提高了譯文的可讀性。
【專利說明】信息處理方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本申請涉及自然語言處理領(lǐng)域,尤其涉及機(jī)器翻譯中的信息處理方法和裝置。
【背景技術(shù)】
[0002] 統(tǒng)計(jì)機(jī)器翻譯是把一種語言通過一些自動(dòng)學(xué)習(xí)出來的翻譯規(guī)則和一定算法轉(zhuǎn)換 成另一種語言的自然語言處理技術(shù)。
[0003] 但是,在一些特定的領(lǐng)域例如科技文獻(xiàn)領(lǐng)域,由于往往會(huì)出現(xiàn)較多的多詞單元,且 這些多詞單元并不存在匹配的翻譯規(guī)則,此時(shí)對于這些多詞單元的翻譯通常采用逐詞翻譯 的方式,導(dǎo)致翻譯錯(cuò)誤,影響譯文的可讀性。
【發(fā)明內(nèi)容】
[0004] 本申請的實(shí)施方式提供了一種信息處理方法和裝置,能夠利用最相似多詞單元對 沒有匹配的翻譯規(guī)則的多詞單元進(jìn)行處理,提高譯文的可讀性。
[0005] 本申請實(shí)施方式提供一種信息處理方法,包括:識(shí)別信息中的多詞單元;從翻譯 規(guī)則數(shù)據(jù)庫中查找所述多詞單元的最相似多詞單元及關(guān)聯(lián)詞串所分別匹配的翻譯規(guī)則,所 述關(guān)聯(lián)詞串包括所述多詞單元的所有子串及與所述多詞單元部分重疊的多詞單元;根據(jù)每 一翻譯規(guī)則與所述最相似多詞單元所匹配的翻譯規(guī)則的關(guān)系確定每一翻譯規(guī)則的得分;根 據(jù)得分滿足預(yù)設(shè)條件的翻譯規(guī)則確定所述多詞單元的翻譯結(jié)果。
[0006] 本申請的另一實(shí)施方式中提供一種信息處理裝置,包括:多詞單元識(shí)別模塊,配置 成識(shí)別信息中的多詞單元;翻譯規(guī)則查找模塊,配置成從翻譯規(guī)則數(shù)據(jù)庫中查找所述多詞 單元的最相似多詞單元及關(guān)聯(lián)詞串所分別匹配的翻譯規(guī)則,所述關(guān)聯(lián)詞串包括所述多詞單 元的所有子串及與所述多詞單元部分重疊的多詞單元;得分確定模塊,配置成根據(jù)每一翻 譯規(guī)則與所述最相似多詞單元所匹配的翻譯規(guī)則的關(guān)系確定每一翻譯規(guī)則的得分;以及 翻譯結(jié)果確定模塊,配置成根據(jù)得分滿足預(yù)設(shè)條件的翻譯規(guī)則確定所述多詞單元的翻譯結(jié) 果。
[0007] 本申請中,根據(jù)最相似多詞單元的翻譯規(guī)則確定沒有匹配翻譯規(guī)則的多詞單元的 翻譯方法,對最相似多詞單元的翻譯規(guī)則的參考提高了譯文的可讀性。
【專利附圖】
【附圖說明】
[0008] 參照下面結(jié)合附圖對本申請實(shí)施方式的說明,會(huì)更加容易地理解本申請的以上和 其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖以示例而非限制性的方式來說明本申請。在附圖中,相同的或 類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。
[0009] 圖1至圖3示出機(jī)器翻譯系統(tǒng)的平行語料;
[0010] 圖4示出利用標(biāo)注器對信息進(jìn)行標(biāo)注的示意圖;
[0011] 圖5示出多詞單元的翻譯方法的實(shí)施方式一的流程示意圖;
[0012] 圖6示出多詞單元的翻譯方法的實(shí)施方式二的流程示意圖;
[0013] 圖7示出本申請?zhí)峁┑男畔⑻幚矸椒ǖ膽?yīng)用示例的流程圖;
[0014] 圖8示出圖7所示的應(yīng)用示例中信息的翻譯結(jié)果;
[0015] 圖9示出本申請實(shí)施方式提供的信息處理裝置的結(jié)構(gòu)示意圖;以及
[0016] 圖10示出本申請實(shí)施方式提供的計(jì)算設(shè)備的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0017] 現(xiàn)在參考附圖來更加詳細(xì)地描述本申請的實(shí)施方式。示例實(shí)施方式的提供是為了 使本申請更加詳盡,并且向本領(lǐng)域技術(shù)人員充分地傳達(dá)保護(hù)范圍。闡述了眾多的特定細(xì)節(jié) 如特定部件、裝置的例子,以提供對本申請的實(shí)施方式的詳盡理解。對于本領(lǐng)域技術(shù)人員而 言將會(huì)明顯的是,示例實(shí)施方式可以用許多不同的形式來實(shí)施而不一定使用這些特定的細(xì) 節(jié),因此它們都不應(yīng)當(dāng)被解釋為限制本申請的范圍。另外,在本實(shí)用新型的一個(gè)附圖或一種 實(shí)施方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾?特征相結(jié)合。在某些示例實(shí)施方式中,為了清楚的目的,沒有在附圖和說明中詳細(xì)地描述眾 所周知的過程、結(jié)構(gòu)和技術(shù)。
[0018] 下面參考附圖結(jié)合【具體實(shí)施方式】介紹本申請?zhí)峁┑男畔⑻幚矸椒āF渲?,按照?詞單元的提取方式、對提取得到的多詞單元進(jìn)行翻譯的順序來介紹本申請?zhí)峁┑男畔⑻幚?方法。
[0019] 多詞單元的提取方式的實(shí)施方式一
[0020] 本實(shí)施方式提供一種多詞單元的提取方式,具體如下。
[0021] 從機(jī)器翻譯系統(tǒng)的語料庫中獲取雙語的平行語料,該平行語料是對兩種語言進(jìn)行 篇章、段落、語句等的對齊處理后的成對的信息,以雙語為漢語和英語為例,例如得到如圖1 所示的平行語料,并獲取如圖2所示的漢語語料和英語語料之間的詞的互譯關(guān)系,其中,箭 頭表示詞之間的對應(yīng)關(guān)系。其中,漢語語料和英語語料之間的詞的互譯關(guān)系以及下文所述 的英文端詞性標(biāo)注和英文多詞單元的提取既可以人為實(shí)現(xiàn),也可以通過設(shè)置相應(yīng)的操作程 序由機(jī)器實(shí)現(xiàn),本文對此不做限制。
[0022] 由于英文自身是以詞為基本的語言單元,而且英文的歧義性比漢語小,可以通過 分析英語端得到多詞單元,再通過英漢的互譯關(guān)系確定漢語端的多詞單元。如圖3所示,在 英文端加入詞性標(biāo)注,其中,例如使用"W"表示動(dòng)詞,"NN"表示名詞,"P"表示介詞,"DT" 表示冠詞,"VBG"表示動(dòng)名詞,"JJ"表示形容詞,然后選擇其中的一個(gè)或多個(gè)連續(xù)的詞性為 NN (名詞)的詞串,得到例如"polymeric cyanoacrylate film"的英文詞串,也就是說,通 過分析英文端得到包括多個(gè)英文單詞的詞串,即英文端的多詞單元。
[0023] 然后,獲取與英文端的多詞單元對應(yīng)的漢語端詞串,例如獲取到與"polymeric cyanoacrylate film"對應(yīng)的"聚腈/基/丙烯酸/酯/膜",將該漢語端詞串作為多詞單 J Li 〇
[0024] 通過上述方式可以從機(jī)器翻譯系統(tǒng)的語料庫中得到大量的多詞單元匹配詞串,例 如〈polymeric cyanoacrylate film,聚腈 / 基 / 丙烯酸 / 酯 / 膜〉。
[0025] 利用得到的大量的多詞單元匹配詞串構(gòu)建針對漢語的多詞單元提取器的訓(xùn)練集, 并利用該訓(xùn)練集訓(xùn)練多詞單元提取器,使得多詞單元提取器具備從信息中提取漢語多詞單 元的能力。這里,多詞單元提取器可以采用任何可用的分類器實(shí)現(xiàn),并可以采用任何訓(xùn)練方 式來進(jìn)行訓(xùn)練。
[0026] 在對多詞單元提取器進(jìn)行訓(xùn)練以后,可以利用訓(xùn)練得到的多詞單元提取器提取漢 語信息中的多詞單元。
[0027] 注意,在本申請中,以漢語-英語平行語料為例,并且作為舉例以漢語作為處理對 象。但本申請不限于此。與上述情形相反,可以以英語為處理對象,在獲取訓(xùn)練集時(shí)先確定 漢語多詞單元,然后映射得到英語多詞單元。以這樣的訓(xùn)練集訓(xùn)練得到的多詞單元提取器 可以用于提取英語信息中的多詞單元。當(dāng)然,上述方案可以應(yīng)用于任何兩種互譯的語言。
[0028] 另外,對于訓(xùn)練集中漢語多詞單元的標(biāo)注,也可以不利用平行語料,而直接在漢語 語料中人工或者機(jī)器標(biāo)注多詞單元。
[0029] 另外,在前面的實(shí)施方式中,由于語言之間的差異,與英語中的多詞單元對應(yīng)的漢 語中的"多詞單元"可能不是真正的多詞單元,而可能只包括一個(gè)詞。
[0030] 因此,在該實(shí)施方式的一種變型中,設(shè)置多詞單元的進(jìn)一步篩選處理,例如清除只 包括一個(gè)詞的多詞單元,從而得到可信度高的多詞單元,為了描述方便,下文中將進(jìn)一步篩 選后得到的多詞單元稱為可信多詞單元。
[0031] 另外,在前面的實(shí)施方式中,由于語言之間的差異或者多詞單元的提取方式的差 異,還可能導(dǎo)致提取到不恰當(dāng)?shù)亩嘣~單元,例如可能將"的存儲(chǔ)器"作為一個(gè)多詞單元而其 中"的"字應(yīng)當(dāng)被刪除。
[0032] 因而,在該實(shí)施方式的另一種變型中,還可以單獨(dú)地或者結(jié)合上述篩選條件設(shè)置 其他條件,例如,可以對得到的多詞單元進(jìn)行下述進(jìn)一步的篩選處理:
[0033] 根據(jù)語料庫中的語料設(shè)置停用詞表,該停用詞表包括例如對于翻譯本身無實(shí)質(zhì)影 響的或者應(yīng)用非常普遍的不易導(dǎo)致翻譯錯(cuò)誤的一些詞,停用詞表中的停用詞由用戶根據(jù)實(shí) 際需要設(shè)置,例如包括"一 /種"、"本/發(fā)明"這類高頻的搭配且并不容易引起翻譯錯(cuò)誤的 詞;
[0034] 對于包括兩個(gè)詞的多詞單元,如果兩個(gè)詞都在停用詞表中,則排除該多詞單元;
[0035] 對于包括三個(gè)以上詞的多詞單元,如果多詞單元的邊界詞是停用詞,則刪除該邊 界詞,將剩下的多詞單元作為可信多詞單元,如果多詞單元的邊界詞不是停用詞,則直接將 多詞單元作為可信多詞單元。其中,將剩下的多詞單元作為可信多詞單元時(shí)還可以進(jìn)一步 限定為當(dāng)剩下的多詞單元存在于且在提取出的多詞單元中的數(shù)量大于設(shè)定的閾值時(shí),才將 剩下的多詞單元作為可信多詞單元。例如,對于提取得到的多詞單元"的/拮/抗/劑",考 察其最左和最右的詞,發(fā)現(xiàn)"的"是停用詞,即停用詞表中的詞,則先把該詞"的"去除,然后 看剩下的部分"拮/抗/劑"是否在已提取出的多詞單元中存在,如果存在并且數(shù)量大于設(shè) 定的閾值例如3,則認(rèn)為去除邊界詞匯后的多詞單元"拮/抗/劑"為可信多詞單元。
[0036] 在上述實(shí)施方式的變型中,通過對多詞單元的清除處理得到由可信多詞單元構(gòu)成 的訓(xùn)練集。
[0037] 在該實(shí)施方式的另一種變型中,對加入訓(xùn)練集中的信息進(jìn)行進(jìn)一步處理,使得訓(xùn) 練集中的信息例如句子中包括的多詞單元的比例在預(yù)設(shè)的最小比例以上。
[0038] 首先構(gòu)建多詞單元集合Lt,該多詞單元集合可以為由上述實(shí)施方式得到的多詞單 元構(gòu)建的集合,也可以是由上述實(shí)施方式的變型中得到的可信多詞單元構(gòu)建的集合。
[0039] 得到多詞單元集合Lt后,利用該多詞單元集合從語料庫中選擇句子構(gòu)建多詞單 元標(biāo)注器的訓(xùn)練集,具體過程如下。
[0040] 根據(jù)句子中多詞單元的比例選擇語料庫中的句子,其中的多詞單元為多詞單元集 合中的多詞單元。
【權(quán)利要求】
1. 一種信息處理方法,包括: 識(shí)別信息中的多詞單元; 從翻譯規(guī)則數(shù)據(jù)庫中查找所述多詞單元的最相似多詞單元及關(guān)聯(lián)詞串所分別匹配的 翻譯規(guī)則,所述關(guān)聯(lián)詞串包括所述多詞單元的所有子串及與所述多詞單元部分重疊的多詞 單元; 根據(jù)每一翻譯規(guī)則與所述最相似多詞單元所匹配的翻譯規(guī)則的關(guān)系確定每一翻譯規(guī) 則的得分; 根據(jù)得分滿足預(yù)設(shè)條件的翻譯規(guī)則確定所述多詞單元的翻譯結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,所述根據(jù)每一翻譯規(guī)則與所述最相似多詞單元匹配的 翻譯規(guī)則的關(guān)系確定每一翻譯規(guī)則的得分包括: 統(tǒng)計(jì)所述每一翻譯規(guī)則在所述最相似多詞單元所匹配的翻譯規(guī)則中出現(xiàn)的次數(shù),即第 一次數(shù); 統(tǒng)計(jì)所述每一翻譯規(guī)則對應(yīng)的子串所匹配的所有翻譯規(guī)則在所述最相似多詞單元所 匹配的翻譯規(guī)則中出現(xiàn)的次數(shù)的和; 根據(jù)所述第一次數(shù)與所述和確定所述每一翻譯規(guī)則的得分。
3. 根據(jù)權(quán)利要求2所述的方法,所述根據(jù)每一翻譯規(guī)則與所述最相似多詞單元匹配的 翻譯規(guī)則的關(guān)系確定每一翻譯規(guī)則的得分還包括: 當(dāng)所述最相似多詞單元為所述多詞單元本身時(shí),確定所述多詞單元作為其自身的子串 所匹配的翻譯規(guī)則的得分為第一預(yù)定得分。
4. 根據(jù)權(quán)利要求2所述的方法,所述根據(jù)所述第一次數(shù)與所述和確定所述每一翻譯規(guī) 則的得分包括: 根據(jù)所述第一次數(shù)與所述和的比例關(guān)系確定所述每一翻譯規(guī)則的得分。
5. 根據(jù)權(quán)利要求4所述的方法,所述根據(jù)所述第一次數(shù)與所述和確定所述每一翻譯規(guī) 則的得分還包括: 當(dāng)所述第一次數(shù)的值為0時(shí),設(shè)置所述翻譯規(guī)則的得分為默認(rèn)值。
6. 根據(jù)權(quán)利要求1所述的方法,所述根據(jù)每一翻譯規(guī)則與所述最相似多詞單元匹配的 翻譯規(guī)則的關(guān)系確定每一翻譯規(guī)則的得分之前還包括: 判斷所述每一翻譯規(guī)則對應(yīng)的關(guān)聯(lián)詞串是否破壞所述多詞單元的邊界; 如果判斷結(jié)果為是則確定所述關(guān)聯(lián)詞串匹配的翻譯規(guī)則的得分為第二預(yù)定得分。
7. 根據(jù)權(quán)利要求1所述的方法,所述識(shí)別信息中的多詞單元包括: 利用基于機(jī)器學(xué)習(xí)的標(biāo)注器,在句子中標(biāo)注出多詞單元的開始詞、中間詞和結(jié)尾詞; 根據(jù)連貫的開始詞、中間詞和結(jié)尾詞或者連貫的開始詞和結(jié)尾詞確定多詞單元。
8. -種信息處理裝置,包括: 多詞單元識(shí)別模塊,配置成識(shí)別信息中的多詞單元; 翻譯規(guī)則查找模塊,配置成從翻譯規(guī)則數(shù)據(jù)庫中查找所述多詞單元的最相似多詞單元 及關(guān)聯(lián)詞串所分別匹配的翻譯規(guī)則,所述關(guān)聯(lián)詞串包括所述多詞單元的所有子串及與所述 多詞單元部分重疊的多詞單元; 得分確定模塊,配置成根據(jù)每一翻譯規(guī)則與所述最相似多詞單元所匹配的翻譯規(guī)則的 關(guān)系確定每一翻譯規(guī)則的得分; 翻譯結(jié)果確定模塊,配置成根據(jù)得分滿足預(yù)設(shè)條件的翻譯規(guī)則確定所述多詞單元的翻 譯結(jié)果。
9. 根據(jù)權(quán)利要求8所述的信息處理裝置,所述得分確定模塊包括: 第一次數(shù)統(tǒng)計(jì)單元,配置成統(tǒng)計(jì)所述每一翻譯規(guī)則在所述最相似多詞單元所匹配的翻 譯規(guī)則中出現(xiàn)的次數(shù),即第一次數(shù); 第二次數(shù)統(tǒng)計(jì)單元,配置成統(tǒng)計(jì)所述每一翻譯規(guī)則對應(yīng)的子串所匹配的所有翻譯規(guī)則 在所述最相似多詞單元所匹配的翻譯規(guī)則中出現(xiàn)的次數(shù)的和; 確定得分單元,配置成根據(jù)所述第一次數(shù)與所述和確定所述每一翻譯規(guī)則的得分。
10. 根據(jù)權(quán)利要求9所述的信息處理裝置,所述確定得分單元還配置成;當(dāng)所述最相似 多詞單元為所述多詞單元本身時(shí),確定所述多詞單元作為其自身的子串所匹配的翻譯規(guī)則 的得分為第一預(yù)定得分。
【文檔編號】G06F17/30GK104346325SQ201310325244
【公開日】2015年2月11日 申請日期:2013年7月30日 優(yōu)先權(quán)日:2013年7月30日
【發(fā)明者】鄭仲光, 孟遙, 于浩 申請人:富士通株式會(huì)社