雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法和裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法和裝置。所述雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法包括:在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與第一源語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第一樞軸語(yǔ)言短語(yǔ);在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與各所述第一樞軸語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第二源語(yǔ)言短語(yǔ);在樞軸語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中查找與各所述第一樞軸語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第一目標(biāo)語(yǔ)言短語(yǔ);將所述源語(yǔ)言短語(yǔ)集合中的第二源語(yǔ)言短語(yǔ)與所述目標(biāo)語(yǔ)言短語(yǔ)集合中的第一目標(biāo)語(yǔ)言短語(yǔ)進(jìn)行組合;將組合形成的源語(yǔ)言短語(yǔ)與目標(biāo)語(yǔ)言短語(yǔ)之間的短語(yǔ)對(duì)存儲(chǔ)至源語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)。本發(fā)明對(duì)雙語(yǔ)語(yǔ)料庫(kù)中的數(shù)據(jù)進(jìn)行擴(kuò)充,解決了雙語(yǔ)語(yǔ)料庫(kù)中的數(shù)據(jù)稀疏問(wèn)題。
【專(zhuān)利說(shuō)明】雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及機(jī)器翻譯【技術(shù)領(lǐng)域】,尤其涉及一種雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法和裝置。
【背景技術(shù)】
[0002]機(jī)器翻譯系統(tǒng)可以分為基于規(guī)則的機(jī)器翻譯系統(tǒng)、基于實(shí)例的機(jī)器翻譯系統(tǒng)以及基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)?;诮y(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)是20世紀(jì)90年代興起的一種機(jī)器翻譯系統(tǒng),也是當(dāng)前最為主要的機(jī)器翻譯系統(tǒng)。它不需要人工編寫(xiě)規(guī)則,并且對(duì)所有語(yǔ)言都適用,因此應(yīng)用比較廣泛。
[0003]基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量很大程度上取決于語(yǔ)料庫(kù)的質(zhì)量。即語(yǔ)料庫(kù)中的數(shù)據(jù)數(shù)量越多,質(zhì)量越高,則基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量就越高。而語(yǔ)料庫(kù)建立之初,大多數(shù)語(yǔ)料庫(kù)都面臨語(yǔ)料庫(kù)中數(shù)據(jù)稀疏的問(wèn)題。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明提出一種雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法和裝置,以解決雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)稀疏問(wèn)題。
[0005]第一方面,本發(fā)明實(shí)施例提供了一種雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法,所述方法包括:
[0006]在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與第一源語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第一樞軸語(yǔ)目短語(yǔ);
[0007]在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與各所述第一樞軸語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第二源語(yǔ)言短語(yǔ),并由各所述第二源語(yǔ)言短語(yǔ)組成源語(yǔ)言短語(yǔ)集合;
[0008]在樞軸語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中查找與各所述第一樞軸語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第一目標(biāo)語(yǔ)言短語(yǔ),并由各所述第一目標(biāo)語(yǔ)言短語(yǔ)組成目標(biāo)語(yǔ)言短語(yǔ)集合;
[0009]將所述源語(yǔ)言短語(yǔ)集合中的第二源語(yǔ)言短語(yǔ)與所述目標(biāo)語(yǔ)言短語(yǔ)集合中的第一目標(biāo)語(yǔ)言短語(yǔ)進(jìn)行組合,形成至少一個(gè)源語(yǔ)言短語(yǔ)與目標(biāo)語(yǔ)言短語(yǔ)之間的短語(yǔ)對(duì);
[0010]將形成的至少一個(gè)源語(yǔ)言短語(yǔ)與目標(biāo)語(yǔ)言短語(yǔ)之間的短語(yǔ)對(duì)存儲(chǔ)至源語(yǔ)言-目標(biāo)語(yǔ)目語(yǔ)料庫(kù)。
[0011]第二方面,本發(fā)明實(shí)施例提供了一種雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充裝置,所述裝置包括:
[0012]樞軸語(yǔ)言短語(yǔ)查找模塊,用于在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與第一源語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第一樞軸語(yǔ)言短語(yǔ);
[0013]源語(yǔ)言短語(yǔ)集合建立模塊,用于在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與各所述第一樞軸語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第二源語(yǔ)言短語(yǔ),并由各所述第二源語(yǔ)言短語(yǔ)組成源語(yǔ)H短語(yǔ)集合;
[0014]目標(biāo)語(yǔ)言短語(yǔ)集合建立模塊,用于在樞軸語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中查找與各所述第一樞軸語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第一目標(biāo)語(yǔ)言短語(yǔ),并由各所述第一目標(biāo)語(yǔ)言短語(yǔ)組成目標(biāo)語(yǔ)言短語(yǔ)集合;
[0015]短語(yǔ)對(duì)組合模塊,用于將所述源語(yǔ)言短語(yǔ)集合中的第二源語(yǔ)言短語(yǔ)與所述目標(biāo)語(yǔ)言短語(yǔ)集合中的第一目標(biāo)語(yǔ)言短語(yǔ)進(jìn)行組合,形成至少一個(gè)源語(yǔ)言短語(yǔ)與目標(biāo)語(yǔ)言短語(yǔ)之間的短語(yǔ)對(duì);
[0016]短語(yǔ)對(duì)存儲(chǔ)模塊,用于將形成的至少一個(gè)源語(yǔ)言短語(yǔ)與目標(biāo)語(yǔ)言短語(yǔ)之間的短語(yǔ)對(duì)存儲(chǔ)至源語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)。
[0017]本發(fā)明實(shí)施例提供的雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法和裝置,通過(guò)對(duì)源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)以及樞軸語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)進(jìn)行雙向挖掘,對(duì)雙語(yǔ)語(yǔ)料庫(kù)中的數(shù)據(jù)進(jìn)行擴(kuò)充,解決了雙語(yǔ)語(yǔ)料庫(kù)中的數(shù)據(jù)稀疏問(wèn)題。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0018]通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0019]圖1是本發(fā)明第一實(shí)施例提供的雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法的流程示意圖;
[0020]圖2是本發(fā)明第一實(shí)施例提供的雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法中源語(yǔ)言短語(yǔ)集合建立的流程示意圖;
[0021]圖3是本發(fā)明第一實(shí)施例提供的雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法中目標(biāo)語(yǔ)言短語(yǔ)集合建立的流程示意圖;
[0022]圖4是本發(fā)明第二實(shí)施例提供的雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充裝置的結(jié)構(gòu)示意圖?!揪唧w實(shí)施方式】
[0023]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明??梢岳斫獾氖牵颂幩枋龅木唧w實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。
[0024]圖1示出了本發(fā)明的第一實(shí)施例。
[0025]圖1是本發(fā)明第一實(shí)施例提供的雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法的流程示意圖。該方法適用于以源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)和樞軸語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)為基礎(chǔ),對(duì)源語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)這一雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行擴(kuò)展的情況,具體可以由雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充裝置來(lái)實(shí)現(xiàn),該裝置可以配置于任意具有數(shù)據(jù)處理能力的設(shè)備中,與各語(yǔ)料庫(kù)能進(jìn)行數(shù)據(jù)交互處理即可。參見(jiàn)圖1,所述雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法包括:
[0026]步驟S110,在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與第一源語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第一樞軸語(yǔ)言短語(yǔ)。
[0027]樞軸語(yǔ)言也稱(chēng)作中介語(yǔ)言,是在多種語(yǔ)言之間進(jìn)行翻譯時(shí)用作中間語(yǔ)言的人工語(yǔ)言或者自然語(yǔ)言。
[0028]所述源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)是存儲(chǔ)了由源語(yǔ)言短語(yǔ)及與其語(yǔ)義匹配的樞軸語(yǔ)言短語(yǔ)的短語(yǔ)對(duì)的數(shù)據(jù)庫(kù)。在本實(shí)施例中,源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)用于提供與源語(yǔ)言短語(yǔ)語(yǔ)義匹配的樞軸語(yǔ)言短語(yǔ),并且對(duì)樞軸語(yǔ)言與源語(yǔ)言之間的語(yǔ)義匹配關(guān)系進(jìn)行深層次挖掘。[0029]所述第一源語(yǔ)言短語(yǔ)是屬于源語(yǔ)言的短語(yǔ),它是進(jìn)行源語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)擴(kuò)充的數(shù)據(jù)源。也就是說(shuō),本實(shí)施例提供的雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法利用源語(yǔ)言短語(yǔ)對(duì)源語(yǔ)目-目標(biāo)語(yǔ)目語(yǔ)料庫(kù)進(jìn)行擴(kuò)充。
[0030]所述第一樞軸語(yǔ)言短語(yǔ)是屬于樞軸語(yǔ)言的短語(yǔ)。它的語(yǔ)義與源語(yǔ)言短語(yǔ)匹配,用于對(duì)源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)及樞軸語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)進(jìn)行挖掘。語(yǔ)義匹配的具體實(shí)現(xiàn)方式可以根據(jù)需要進(jìn)行設(shè)定,例如可將語(yǔ)義相同的短語(yǔ)確定為匹配短語(yǔ),或者將相似度達(dá)到設(shè)定閾值的短語(yǔ)作為匹配短語(yǔ)。
[0031 ] 示例的,給出對(duì)漢語(yǔ)-西班牙語(yǔ)雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行擴(kuò)充的例子。在對(duì)漢語(yǔ)-西班牙語(yǔ)進(jìn)行擴(kuò)充時(shí),以英語(yǔ)作為樞軸語(yǔ)言。其中,源語(yǔ)言短語(yǔ)是漢語(yǔ)短語(yǔ)“非常好吃”。使用源語(yǔ)言短語(yǔ)“非常好吃”在漢語(yǔ)-英語(yǔ)語(yǔ)料庫(kù)中查找得到了英語(yǔ)短語(yǔ)“very tasty”以及“reallydelicious,,。 [0032]步驟S120,在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與各所述第一樞軸語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第二源語(yǔ)言短語(yǔ),并由各所述第二源語(yǔ)言短語(yǔ)組成源語(yǔ)言短語(yǔ)集合。
[0033]查找得到第一樞軸語(yǔ)言短語(yǔ)后,利用得到的所述第一樞軸語(yǔ)言短語(yǔ)在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與所述第一樞軸語(yǔ)言短語(yǔ)匹配的第二源語(yǔ)言短語(yǔ)。所述第二源語(yǔ)言短語(yǔ)的數(shù)量為至少一個(gè)。可以對(duì)每個(gè)第一樞軸語(yǔ)言短語(yǔ)分別進(jìn)行匹配,也可以是從中篩選部分第一樞軸語(yǔ)言短語(yǔ)進(jìn)行匹配。例如,可根據(jù)統(tǒng)計(jì)的短語(yǔ)使用頻率,選擇使用頻率高的短語(yǔ)進(jìn)行匹配。
[0034]在上述對(duì)漢語(yǔ)-西班牙語(yǔ)雙語(yǔ)語(yǔ)料庫(kù)進(jìn)行擴(kuò)充的例子中,以英語(yǔ)短語(yǔ)“verytasty”以及“really delicious”在漢語(yǔ)-英語(yǔ)語(yǔ)料庫(kù)中查找與英語(yǔ)短語(yǔ)語(yǔ)義匹配的漢語(yǔ)短語(yǔ)。查找的結(jié)果在下表中顯示:
[0035]漢語(yǔ)-英語(yǔ)語(yǔ)料庫(kù)查找結(jié)果表
[0036]
【權(quán)利要求】
1.一種雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充方法,其特征在于,包括: 在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與第一源語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第一樞軸語(yǔ)H短語(yǔ); 在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與各所述第一樞軸語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第二源語(yǔ)言短語(yǔ),并由各所述第二源語(yǔ)言短語(yǔ)組成源語(yǔ)言短語(yǔ)集合; 在樞軸語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中查找與各所述第一樞軸語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第一目標(biāo)語(yǔ)言短語(yǔ),并由各所述第一目標(biāo)語(yǔ)言短語(yǔ)組成目標(biāo)語(yǔ)言短語(yǔ)集合; 將所述源語(yǔ)言短語(yǔ)集合中的第二源語(yǔ)言短語(yǔ)與所述目標(biāo)語(yǔ)言短語(yǔ)集合中的第一目標(biāo)語(yǔ)言短語(yǔ)進(jìn)行組合,形成至少一個(gè)源語(yǔ)言短語(yǔ)與目標(biāo)語(yǔ)言短語(yǔ)之間的短語(yǔ)對(duì); 將形成的至少一個(gè)源語(yǔ)言短語(yǔ)與目標(biāo)語(yǔ)言短語(yǔ)之間的短語(yǔ)對(duì)存儲(chǔ)至源語(yǔ)言-目標(biāo)語(yǔ)H語(yǔ)料庫(kù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與各所述第一樞軸語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第二源語(yǔ)言短語(yǔ),并由各所述第二源語(yǔ)言短語(yǔ)組成源語(yǔ)言短語(yǔ)集合包 括: 利用所述至少一個(gè)第一樞軸語(yǔ)言短語(yǔ)中的每一個(gè)在所述源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與之語(yǔ)義相同的第二源語(yǔ)言短語(yǔ); 在查找到的第二源語(yǔ)言短語(yǔ)中去除重復(fù)的源語(yǔ)言短語(yǔ); 將去除重復(fù)后的第二源語(yǔ)言短語(yǔ)組成源語(yǔ)言短語(yǔ)集合。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在樞軸語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中查找與各所述第一樞軸語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第一目標(biāo)語(yǔ)言短語(yǔ),并由各所述第一目標(biāo)語(yǔ)言短語(yǔ)組成目標(biāo)語(yǔ)言短語(yǔ)集合包括: 利用所述至少一個(gè)第一樞軸語(yǔ)言短語(yǔ)中的每一個(gè)在所述樞軸語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中查找與之語(yǔ)義相同的第一目標(biāo)語(yǔ)言短語(yǔ); 在查找到的第一目標(biāo)語(yǔ)言短語(yǔ)中去除重復(fù)的目標(biāo)語(yǔ)言短語(yǔ); 將去除重復(fù)后的第一目標(biāo)語(yǔ)言短語(yǔ)組成目標(biāo)語(yǔ)言短語(yǔ)集合。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述源語(yǔ)言短語(yǔ)集合中的第二源語(yǔ)言短語(yǔ)與所述目標(biāo)語(yǔ)言短語(yǔ)集合中的第一目標(biāo)語(yǔ)言短語(yǔ)進(jìn)行組合,形成至少一個(gè)源語(yǔ)言短語(yǔ)與目標(biāo)語(yǔ)言短語(yǔ)之間的短語(yǔ)對(duì)包括: 將所述源語(yǔ)言短語(yǔ)集合中的每一個(gè)第二源語(yǔ)言短語(yǔ)作為鍵,并將所述目標(biāo)語(yǔ)言短語(yǔ)集合中的每一個(gè)第一目標(biāo)語(yǔ)言短語(yǔ)作為值,形成至少一個(gè)源語(yǔ)言短語(yǔ)與目標(biāo)語(yǔ)言短語(yǔ)之間的短語(yǔ)對(duì)。
5.一種雙語(yǔ)語(yǔ)料庫(kù)的數(shù)據(jù)擴(kuò)充裝置,其特征在于,包括: 樞軸語(yǔ)言短語(yǔ)查找模塊,用于在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與第一源語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第一樞軸語(yǔ)言短語(yǔ); 源語(yǔ)言短語(yǔ)集合建立模塊,用于在源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與各所述第一樞軸語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第二源語(yǔ)言短語(yǔ),并由各所述第二源語(yǔ)言短語(yǔ)組成源語(yǔ)言短語(yǔ)集合; 目標(biāo)語(yǔ)言短語(yǔ)集合建立模塊,用于在樞軸語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中查找與各所述第一樞軸語(yǔ)言短語(yǔ)語(yǔ)義匹配的至少一個(gè)第一目標(biāo)語(yǔ)言短語(yǔ),并由各所述第一目標(biāo)語(yǔ)言短語(yǔ)組成目標(biāo)語(yǔ)言短語(yǔ)集合; 短語(yǔ)對(duì)組合模塊,用于將所述源語(yǔ)言短語(yǔ)集合中的第二源語(yǔ)言短語(yǔ)與所述目標(biāo)語(yǔ)言短語(yǔ)集合中的第一目標(biāo)語(yǔ)言短語(yǔ)進(jìn)行組合,形成至少一個(gè)源語(yǔ)言短語(yǔ)與目標(biāo)語(yǔ)言短語(yǔ)之間的短語(yǔ)對(duì); 短語(yǔ)對(duì)存儲(chǔ)模塊,用于將形成的至少一個(gè)源語(yǔ)言短語(yǔ)與目標(biāo)語(yǔ)言短語(yǔ)之間的短語(yǔ)對(duì)存儲(chǔ)至源語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述源語(yǔ)言短語(yǔ)集合建立模塊包括: 源語(yǔ)言短語(yǔ)查找子模塊,用于利用所述至少一個(gè)第一樞軸語(yǔ)言短語(yǔ)中的每一個(gè)在所述源語(yǔ)言-樞軸語(yǔ)言語(yǔ)料庫(kù)中查找與之語(yǔ)義相同的第二源語(yǔ)言短語(yǔ); 源語(yǔ)言短語(yǔ)去重子模塊,用于在查找到的第二源語(yǔ)言短語(yǔ)中去除重復(fù)的源語(yǔ)言短語(yǔ); 源語(yǔ)言短語(yǔ)集合建立子模塊,用于將去除重復(fù)后的第二源語(yǔ)言短語(yǔ)組成源語(yǔ)言短語(yǔ)集口 ο
7.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述目標(biāo)語(yǔ)言短語(yǔ)集合建立模塊包括: 目標(biāo)語(yǔ)言短語(yǔ)查找子模塊,用于利用所述至少一個(gè)第一樞軸語(yǔ)言短語(yǔ)中的每一個(gè)在所述樞軸語(yǔ)言-目標(biāo)語(yǔ)言語(yǔ)料庫(kù)中查找與之語(yǔ)義相同的第一目標(biāo)語(yǔ)言短語(yǔ); 目標(biāo)語(yǔ)言短語(yǔ)去重子模塊,用于在查找到的第一目標(biāo)語(yǔ)言短語(yǔ)中去除重復(fù)的目標(biāo)語(yǔ)言短語(yǔ); 目標(biāo)語(yǔ)言短語(yǔ)集合建立子模塊,用于在查找到的第一目標(biāo)語(yǔ)言短語(yǔ)中去除重復(fù)的目標(biāo)再古紹五P 口口 Ml P 口 ο
8.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述短語(yǔ)對(duì)組合模塊具體用于將所述源語(yǔ)言短語(yǔ)集合中的每一個(gè)第二源語(yǔ)言短語(yǔ)作為鍵,并將所述目標(biāo)語(yǔ)言短語(yǔ)集合中的每一個(gè)第一目標(biāo)語(yǔ)言短語(yǔ)作為值,形成至少一個(gè)源語(yǔ)言短語(yǔ)與目標(biāo)語(yǔ)言短語(yǔ)之間的短語(yǔ)對(duì)。
【文檔編號(hào)】G06F17/28GK103577399SQ201310544597
【公開(kāi)日】2014年2月12日 申請(qǐng)日期:2013年11月5日 優(yōu)先權(quán)日:2013年11月5日
【發(fā)明者】朱曉寧, 何中軍, 吳華, 王海峰 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司