亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

使用比較語料庫的命名實(shí)體直譯的制作方法

文檔序號:6595292閱讀:568來源:國知局
專利名稱:使用比較語料庫的命名實(shí)體直譯的制作方法
使用比較語料庫的命名實(shí)體直譯背景此背景旨在提供本專利申請的基本上下文,而不旨在描述要解決的具體問題。命名實(shí)體構(gòu)成了跨語言信息檢索(CLIR)的查詢術(shù)語中的很大一部分,并且對跨語言信息檢索系統(tǒng)的性能有著實(shí)質(zhì)的影響。在機(jī)器翻譯(MT)中,許多詞匯表外的單詞是命名實(shí)體。然后,雙語詞典缺乏對命名實(shí)體的充分覆蓋,且機(jī)器直譯系統(tǒng)經(jīng)常產(chǎn)生不正確的直譯。概述提供本概述以便以簡化形式介紹將在以下的詳細(xì)描述中進(jìn)一步描述的一些概念。 本概述并不旨在標(biāo)識出所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于限定所要求保護(hù)的主題的范圍。公開了一種用于挖掘多語言命名實(shí)體直譯的方法和系統(tǒng)??梢詫忛喌谝徽Z言的文檔并可以審閱第二語言的附加文檔。可以確定該附加文檔是否充分相似于該文檔。如果該附加文檔被確定為是充分相似于該文檔,則可選擇該文檔中的命名實(shí)體。本方法可通過將命名實(shí)體與附加文檔中的單詞進(jìn)行比較并確定該命名實(shí)體與該單詞是否充分相似來搜索相似的命名實(shí)體。如果定位了與該命名實(shí)體相似的單詞,則該命名實(shí)體和相似的命名實(shí)體可被存儲為命名實(shí)體直譯。附圖簡述

圖1是便攜式計算設(shè)備的示圖;圖2是挖掘多語言命名實(shí)體直譯的方法的示圖;圖3是比較語料庫的示圖。詳細(xì)描述盡管以下正文闡明眾多不同實(shí)施例的詳細(xì)描述,但是應(yīng)當(dāng)理解,該描述的法律范圍由本專利的結(jié)尾所提出的權(quán)利要求書的言辭來限定。該詳細(xì)描述應(yīng)被解釋為僅是示例性的,且不描述每一可能的實(shí)施例,因?yàn)槊枋雒恳豢赡艿膶?shí)施例即使不是不可能的也是不切實(shí)際的??墒褂矛F(xiàn)有技術(shù)或在本專利的提交日之后開發(fā)的技術(shù)來實(shí)現(xiàn)眾多替換實(shí)施例,而這仍落入權(quán)利要求書的范圍之內(nèi)。還應(yīng)該理解,在本專利中,除非使用句子“如此處所用,術(shù)語‘_,在此被定義為意指……”或者相似句子來明確地定義一個術(shù)語,否則不管是明確地還是含蓄地,沒有限制該術(shù)語意義超出其平?;蚱胀êx的意圖,并且,這一術(shù)語不應(yīng)該被解釋為被限制在基于本專利的任何部分中(除了權(quán)利要求書的語言之外)所做的任何陳述的范圍中。就本專利的結(jié)尾處的權(quán)利要求書中所述的任何術(shù)語在本專利中以與單獨(dú)含義相一致的方式來引用而言,這僅僅是為簡明起見而如此做的,使得不使讀者感到混淆,且這類權(quán)利要求術(shù)語并不旨在隱含地或以其它方式限于該單獨(dú)含義。最后,除非一權(quán)利要求要素是通過敘述單詞 “裝置”和功能而沒有敘述任何結(jié)構(gòu)來定義的,否則任何權(quán)利要求要素的范圍并不旨在基于 35U. S. C. § 112、第6段的應(yīng)用來解釋。圖1示出了可用于顯示和提供本說明書所描述的用戶界面的合適的計算系統(tǒng)環(huán)境100的示例。應(yīng)當(dāng)注意,計算系統(tǒng)環(huán)境100僅為合適的計算環(huán)境的一個示例,并不旨在對本權(quán)利要求的方法和裝置的使用范圍或功能提出任何限制。也不應(yīng)該將計算環(huán)境100解釋為對示例性操作環(huán)境100中示出的任一組件或其組合有任何依賴性或要求。參考圖1,用于實(shí)現(xiàn)所要求保護(hù)的方法和裝置的各個框的示例性系統(tǒng)包括計算機(jī) 110形式的通用計算設(shè)備。計算機(jī)110的各組件可包括但不限于,處理單元120、系統(tǒng)存儲器130、以及將包括系統(tǒng)存儲器在內(nèi)的各系統(tǒng)組件耦合到處理單元120的系統(tǒng)總線121。計算機(jī)110可經(jīng)由局域網(wǎng)(LAN) 171和/或經(jīng)由調(diào)制解調(diào)器172或其他網(wǎng)絡(luò)接口 170的廣域網(wǎng)(WAN) 173,使用到諸如遠(yuǎn)程計算機(jī)180之類的一個或多個遠(yuǎn)程計算機(jī)的邏輯連接來在聯(lián)網(wǎng)環(huán)境中操作。計算機(jī)110通常包括各種計算機(jī)可讀介質(zhì),計算機(jī)可讀介質(zhì)可以是可由計算機(jī) 110訪問的任何可用介質(zhì),并且包括易失性和非易失性介質(zhì)、可移動和不可移動介質(zhì)兩者。 系統(tǒng)存儲器130包括易失性和/或非易失性存儲器形式的計算機(jī)存儲介質(zhì),如只讀存儲器 (ROM) 131和隨機(jī)存取存儲器(RAM) 132。ROM可包括基本輸入/輸出系統(tǒng)133 (BIOS)。RAM 132通常包含數(shù)據(jù)和/或程序模塊,該數(shù)據(jù)和/或程序模塊包括操作系統(tǒng)134、應(yīng)用程序 135、其他程序模塊136和程序數(shù)據(jù)137。計算機(jī)110也可包括其他可移動/不可移動、易失性/非易失性計算機(jī)存儲介質(zhì),諸如硬盤驅(qū)動器141、從磁盤152讀取或向磁盤152寫入的磁盤驅(qū)動器151、從光盤156讀取或向光盤156寫入的光盤驅(qū)動器155。硬盤驅(qū)動器141、 151和155可經(jīng)由接口 140、150與系統(tǒng)總線121接口。用戶可以通過諸如鍵盤162和通常被稱為鼠標(biāo)、跟蹤球或觸摸墊的定點(diǎn)設(shè)備161 之類的輸入設(shè)備,向計算機(jī)20輸入命令和信息。其他輸入設(shè)備(未示出)可以包括話筒、 操縱桿、游戲手柄、圓盤式衛(wèi)星天線、掃描儀等等。這些和其他輸入設(shè)備通常由耦合至系統(tǒng)總線的用戶輸入接口 160連接至處理單元120,但也可以由其他接口和總線結(jié)構(gòu),諸如并行端口、游戲端口或通用串行總線(USB),來連接。監(jiān)視器191或其它類型的顯示設(shè)備也可經(jīng)由諸如視頻接口 190之類的接口連接至系統(tǒng)總線121。除監(jiān)視器以外,計算機(jī)還可以包括其他外圍輸出設(shè)備,如揚(yáng)聲器197和打印機(jī)196,它們可以通過輸出外圍接口 190連接。圖2示出了挖掘文檔以獲得多語言命名實(shí)體直譯的方法。命名實(shí)體(NE)構(gòu)成了信息檢索(IR)系統(tǒng)中查詢術(shù)語的很大一部分,并且對它們的性能有著實(shí)質(zhì)的影響。它們在跨語言信息檢索(CLIR)中可能甚至更為重要。此外,命名實(shí)體在機(jī)器翻譯(MT)系統(tǒng)的性能中也扮演了重要角色,因?yàn)樵S多詞匯表外單詞實(shí)際上是命名實(shí)體。盡管命名實(shí)體對于跨語言信息檢索系統(tǒng)的成功是關(guān)鍵的,并且對機(jī)器翻譯性能有著極大的影響,雙語詞典(不論是手制的還是統(tǒng)計的)僅僅提供了有限的幫助,因?yàn)樗鼈儗τ诿麑?shí)體無法提供充分的覆蓋。每天,新的命名實(shí)體通過新聞文章和互聯(lián)網(wǎng)而被引入到某種語言的詞匯表中。替換的機(jī)器直譯方法經(jīng)常產(chǎn)生錯誤拼寫或不正確的直譯,這成為了跨語言信息檢索中的噪聲以及劣化了 MT中的翻譯質(zhì)量。最近,新的文章在多種語言中的同時可用性已經(jīng)激發(fā)了對命名實(shí)體直譯的有希望的替代方案的興趣,特別是,從這些新聞?wù)Z料庫中挖掘命名實(shí)體直譯等同詞(NETE)。在形式上,比較新聞?wù)Z料庫是在適度長的持續(xù)時間段上一對語言中時間上對準(zhǔn)的新聞報道。世界各地的許多新聞組織每天以多種語言制作這類新聞內(nèi)容。從比較新聞?wù)Z料庫中挖掘出的命名實(shí)體直譯等同詞可對于包括CUR和MT的許多任務(wù)以及機(jī)器直譯系統(tǒng)而言是有價值的,以對雙語詞典進(jìn)行有效補(bǔ)充。新聞報道通常富含命名實(shí)體310,并因此,比較新聞?wù)Z料庫是命名實(shí)體直譯等同詞的良田。如果能設(shè)計出一種從這些新聞?wù)Z料庫中挖掘命名實(shí)體等同詞的有效方法,那么在許多世界語言中的新聞?wù)Z料庫的龐大數(shù)量和永久可用性預(yù)示著一種用于挖掘命名實(shí)體310 等同詞的巨大的、有價值的、取之不盡的數(shù)據(jù)源。從大量比較語料庫中有效挖掘命名實(shí)體直譯等同詞提出了多個挑戰(zhàn)首先,對命名實(shí)體的標(biāo)識和驗(yàn)證會需要在許多語言中可能不可獲得的語言學(xué)工具和資源。第二,在比較語料庫中的大量命名實(shí)體是非常稀疏的,這需要對命名實(shí)體在語料庫中的頻率特征的低依賴性。第三,挖掘方法必須將候選詞的產(chǎn)生限制為挖掘較大語料庫時是計算上有效的;此外,對候選詞的限制將減少由假肯定導(dǎo)致的精度降級。最后,重要的是使用較少的語言專用知識以使得跨越多個語言的挖掘是有效的。本申請介紹了一種被稱為MINT的新穎方法,用于從大比較語料庫中有效地挖掘命名實(shí)體直譯等同詞,解決了以上所列出的所有挑戰(zhàn)。MINT假設(shè)命名實(shí)體識別器(NER)僅對一種語言可用,且因此可適用于即便從資源貧瘠的語言中,將與命名實(shí)體識別器可用的語言進(jìn)行配對時,也可挖掘命名實(shí)體直譯等同詞。作為響應(yīng),本申請進(jìn)行如下認(rèn)識到如果具有相似內(nèi)容的新聞文章是先驗(yàn)已知的,則它們可以被有效且詳盡地挖掘。經(jīng)驗(yàn)性地論證了利用上述認(rèn)識以及跨語言信息檢索技術(shù),MINT可比起現(xiàn)有技術(shù)好得多地進(jìn)行挖掘,即便相似的文章不是先驗(yàn)已知的(諸如,在普通的比較語料庫中)。以不同特征論證了 MINT對于多種語料庫的有效性。最后,本申請通過描述本方法在來自三種截然不同的語系(即,斯拉夫語系、印歐語系、德拉威語系)的不同語言組(即,俄語、印地語、埃納德語、泰米爾語)之間的若干比較語料庫上的性能,論證了本方法是語言不相關(guān)的。本MINT方法基于如下關(guān)鍵認(rèn)識由于新聞是關(guān)于涉及人、地點(diǎn)、組織和其他命名實(shí)體的事件,多種語言中的帶有相似內(nèi)容的新聞文章必然包含高度重疊的命名實(shí)體組。報導(dǎo)同一新聞事件的多語言新聞文章必然以相應(yīng)語言來提及命名實(shí)體,并因此可被期望產(chǎn)生豐富的命名實(shí)體直譯等同詞。圖3示出了在由BBC出版的印地語和英語的一對相似文章中的命名實(shí)體直譯等同詞。對由同一源出版的英語和印地語的兩百對相似新聞文章的分析, 發(fā)現(xiàn)英文側(cè)的單個單詞的命名實(shí)體310中有87%會在印地語側(cè)有至少一個等同詞。MINT 方法充分利用該經(jīng)驗(yàn)性證實(shí)的認(rèn)識來從這些語料庫中挖掘命名實(shí)體直譯等同詞。MINT可具有兩個階段。在第一階段中,將文檔進(jìn)行比較,以對源側(cè)的每一個文檔標(biāo)識目標(biāo)側(cè)中帶有相似內(nèi)容的一組文檔。一旦標(biāo)識出相似文檔,就將它們作為輸入提供給第二階段,在第二階段中從這些文檔中挖掘命名實(shí)體直譯等同詞。再次參考圖2,在塊200,可審閱第一語言的文檔300 (圖幻。理想地,該文檔將包含一些所關(guān)注的命名實(shí)體直譯等同詞。可選擇該文檔因?yàn)槠浒闊┑拿麑?shí)體直譯等同詞,或者其可以是在某一天寫的新聞報道中的順序搜索。當(dāng)然,選擇第一語言的文檔的其他方法也是可能的并且被考慮在內(nèi)。在塊210,審閱第二語言的附加文檔305。理想地,可以如下方式選擇附加文檔 305,即它也將具有命名實(shí)體直譯等同詞。例如,如果文檔是體育報道,則審閱一篇科學(xué)論文作為附加文檔幾乎沒有意義,因?yàn)槲臋n300和附加文檔305之間存在相似命名實(shí)體直譯等同詞的概率可能低。在塊220,可以確定附加文檔305是否相似于文檔300。該確定可以多種方式來產(chǎn)生。在一些實(shí)施例中,使用跨語言文檔相似度模型來計算跨語言相似度得分??缯Z言文檔相似度模型可測量源語言和目標(biāo)語言的一對文檔之間的相似度程度。文檔和附加文章概率分布之間的負(fù)Kullt3aCk-Leibler(KL)散度可被用作為相似度度量。在概率理論和信息理論中,Kullhck-Leibler散度(也稱為信息散度、信息增益、 或相對熵)是兩個概率分布P和Q之間差異的不可交換的度量。KL度量了使用基于P的編碼時編碼來自P的采樣所要求的比特數(shù)與使用基于Q的編碼時的預(yù)期差。通常,P表示數(shù)據(jù)、觀測值的“真實(shí)”分布,或精確計算的理論分布。度量Q通常表示P的理論、模型、描述、 或近似。在本申請中,給定分別是源語言和目標(biāo)語言的兩篇文檔DS 300, DT 305,并且Vs, Vt表示源語言和目標(biāo)語言的詞匯表,則兩篇文檔300,305之間的相似度可以由KL (Ds Il Dt) 來表示YP(WrIA)Iog^
wTsVrI DS )其中P (w |D)是詞W在文檔D中的概率。因?yàn)橛袑ふ遗c給定源語言文檔300相似的那些目標(biāo)文檔305的興趣,因此分子可以被忽略因?yàn)槠洫?dú)立于目標(biāo)語言文檔。最后,擴(kuò)展 P(WtIDs)為ΣΜ^ I ds)p(wT I wJ,跨語言相似度得分可以被指定為
跨語言文檔相似度( ^ΖλρΜΟ)=w^ys P {WSDS ) +Γ I )lOg +Γ I A )在偽代碼中,對文檔300,305的比較可以如下進(jìn)行輸入語言(S,T)的比較新聞?wù)Z料庫(Cs, Ct)用于(S,T)的跨語言文檔相似度模型MD閾值得分a。輸出來自(Cs, Ct)的相似文章對(Ds, Dt)的集合As, t1 AST—0; Il 相似文章(Ds,Dt)的集合2對于Cs中的每一篇文章Ds,進(jìn)行3 Xs^-0; //Ds的候選的集合4 對于Ct中的每一篇文章dT,進(jìn)行5得分=跨語言文檔相似度(Ds,dT,MD);6如果(得分彡α )則& — & U (dT,得分);7 結(jié)束8 Dt =最好得分候選OQ ;9 如果(Dt關(guān)0)則 Ast — Ast U (Ds, Dt);10 結(jié)束從上述偽代碼中可以得知,多個附加文檔305可與文檔300進(jìn)行比較。在一些實(shí)施例中,對多個附加文檔305可以進(jìn)行預(yù)先篩選,以確保僅僅那些可能具有與命名實(shí)體310 相似的詞315的附加文檔305被審閱。作為一個示例,關(guān)注于Michael Phelps的文檔300 可能是體育相關(guān)的。使用該知識,可以減少將被審閱的附加文檔305的類型??梢詾槊恳粋€附加文檔一文檔對320(原始源文檔300和每一個單獨(dú)附加文檔30 計算相似度得分, 具有最大相似度的對320可以被用作為文檔一附加文檔對320,以被進(jìn)一步分析。在塊230,如果附加文檔305充分相似于文檔300,則可以選擇該文檔中的命名實(shí)體310。例如,游泳選手Michael Wielps可以是美國人名,并可以在許多體育文章中被容易地識別出。然而,可能在其他語言中難以創(chuàng)建Michael Phelps。因此,Michael Phelps可以是本方法可試圖挖掘的命名實(shí)體310的一個示例。如果多個附加文檔305已經(jīng)被與文檔300進(jìn)行了比較,那么具有最高的確定出的相似度的文檔300-附加文檔305對320可以被選擇為所選對320,以被進(jìn)一步分析。如果沒有一個對320達(dá)到足夠的相似度得分,那么可不返回任何附加文檔305,并且本發(fā)明可結(jié)束或以新文檔重新開始。在塊M0,可將命名實(shí)體310與附加文檔中的多個詞315進(jìn)行比較,以獲得對命名實(shí)體310的相似詞315??梢韵胂竦降氖?,詞也可以是短語或片段或?qū)嶓w名稱。本方法可以處理集合As,t中的每一對文章(Ds,Dt) 320,并生成命名實(shí)體直譯等同詞的集合Ps,t。Ps,t中的每一對(ε s' eT) 320由語言S的命名實(shí)體ε s310以及語言T的權(quán)標(biāo)eT 315組成,它們是彼此的直譯等同詞。進(jìn)一步的,由直譯相似度模型MT所度量的es 310和4 315之間的直譯相似度可以至少為β >=0。在偽代碼中,本方法的一個實(shí)施例可如下進(jìn)行輸入^五 ta I=T(S, T)的相似文檔(Ds, Dt)的集合Ast用于(S,T)的直譯相似度模型MT閾值得分β。輸出來自Ast的多個NETE (ss,st)的集合Ps, tIPst-2對于Ast中的每一對文章(DS,DT)進(jìn)行3對于Ds中的每一個命名實(shí)體&進(jìn)行4 Ys*-0;//用于&的候選的集合5對于Dt中的每一個候選eT進(jìn)行6得分=直譯相似度(ss,eT,MT);7如果(得分> β)則Ys—Ys U (e8結(jié)束9sT =最好得分候選as);10如果( 乒空)則 Pst — Pst U (ss,eT)11結(jié)束12 結(jié)束直譯相似度模型度量源命名實(shí)體310和目標(biāo)語言詞315之間的直譯等同性的程度。一邏輯函數(shù)可被用作為直譯相似度模型MT,如下
直譯相似度沁而椒上(―其中0 (Es, eT)是用于對(ε s,eT)的特征向量,而w是權(quán)重向量。直譯相似度可以在范圍
之內(nèi)取值。由該模型所使用的特征可捕捉(ε s, eT)中所觀察到的感興趣的跨語言關(guān)聯(lián),諸如,特定字符序列的出現(xiàn)、ε s和eT的子串的耦合、字符對準(zhǔn)的單調(diào)性、以及在兩個串內(nèi)的字符數(shù)量的不同。權(quán)重向量w是在已知直譯等同詞的訓(xùn)練語料庫上差異性地學(xué)習(xí)獲得的。當(dāng)然,確定命名實(shí)體310和詞315的相似度的其他方法是可能的且被考慮在內(nèi)。在一些實(shí)施例中,附加文檔305中的所有詞315都被與來自文檔300的命名實(shí)體 310進(jìn)行比較。在另一實(shí)施例中,附加文檔305被掃描并且移除許多術(shù)語不進(jìn)行分析。例如,英語語言中的諸如“the”、“a”、“an”等冠詞極不可能是命名實(shí)體310的一部分,因此這些詞可不被分析。此外,在命名實(shí)體310中不太可能出現(xiàn)動詞,因此動詞可不被分析。還有另一個示例,形容詞不太可能是命名實(shí)體310的一部分,因此形容詞也可不被分析。對附加文檔305中詞315的進(jìn)一步篩選是可能的并且被考慮在內(nèi)。結(jié)果是,被與命名實(shí)體310進(jìn)行比較的附加文檔305中的詞315的數(shù)量可以相當(dāng)少且應(yīng)相當(dāng)有針對性。在塊250,如果定位了對于命名實(shí)體310的相似詞315,那么可以將命名實(shí)體310 和相似詞315存儲為命名實(shí)體直譯。如果已經(jīng)將多個詞315與命名實(shí)體進(jìn)行了比較,則具有最高的確定出的相似度的詞315-命名實(shí)體310對可被選擇為命名實(shí)體直譯。如果沒有任何對達(dá)到足夠的相似度得分,那么不返回任何詞315作為命名實(shí)體310的直譯。直譯可隨后被用于多種目的。在一個實(shí)施例中,翻譯軟件可使用直譯來改進(jìn)翻譯。 在另一實(shí)施例中,直譯可被用于搜索軟件以輔助搜索多種語言中的相關(guān)結(jié)果。當(dāng)然,其他用途是可能的并且被考慮在內(nèi)。盡管以上正文陳述了眾多不同實(shí)施例的詳細(xì)描述,但是應(yīng)當(dāng)理解,本專利的范圍由本專利結(jié)尾提出的權(quán)利要求書的言辭來限定。該詳細(xì)描述應(yīng)被解釋為僅是示例性的, 且不描述每一可能的實(shí)施例,因?yàn)槊枋雒恳豢赡艿膶?shí)施例即使不是不可能的也是不切實(shí)際的。可使用現(xiàn)有技術(shù)或在本專利提交日之后開發(fā)的技術(shù)來實(shí)現(xiàn)眾多替換實(shí)施例,而這仍落入權(quán)利要求書的范圍之內(nèi)。由此,可在此處所描述和示出的技術(shù)和結(jié)構(gòu)上作出許多修改和變化而不脫離本權(quán)利要求的精神和范圍。因此,應(yīng)當(dāng)理解,此處所描述的方法和裝置僅是說明性的,且不限制本權(quán)利要求的范圍。
權(quán)利要求
1.一種挖掘多語言命名實(shí)體直譯的方法,包括 審閱第一語言的文檔200;審閱第二語言的附加文檔210; 確定所述附加文檔是否充分相似于所述文檔220 ; 如果所述附加文檔充分相似于所述文檔230 ; 選擇所述文檔中的命名實(shí)體230 ;搜索充分相似的命名實(shí)體,包括將命名實(shí)體與所述附加文檔中的詞進(jìn)行比較MO ; 如果定位了對于命名實(shí)體的充分相似詞,則將命名實(shí)體和相似詞存儲為命名實(shí)體直譯250。
2.如權(quán)利要求1所述的方法,其特征在于,確定附加文檔是否充分相似于文檔還包括 計算跨語言相似度得分220。
3.如權(quán)利要求2所述的方法,其特征在于,使用Kullkick-Leibler散度來計算所述跨語言相似度得分220。
4.如權(quán)利要求2所述的方法,其特征在于,為多個文檔和附加文檔對計算所述跨語言相似度得分220。
5.如權(quán)利要求4所述的方法,其特征在于,還包括選擇帶有最高相似度得分的文檔對220。
6.如權(quán)利要求1所述的方法,其特征在于,搜索相似的命名實(shí)體包括為詞和命名實(shí)體計算跨語言相似度得分220。
7.如權(quán)利要求1所述的方法,其特征在于,跨語言相似度得分度量了命名實(shí)體和詞之間的直譯等同性的程度220。
8 如權(quán)利要求7所述的方法,其特征在于,為多個命名實(shí)體對計算所述跨語言相似度得分,其中所述多個命名實(shí)體對包括命名實(shí)體以及附加文檔中的詞220。
9.如權(quán)利要求8所述的方法,其特征在于,所述附加文檔中的詞是從附加文檔的一組詞中順序地選擇的,其中該組不包括附加文檔中的介詞、動詞或形容詞。
10.如權(quán)利要求9所述的方法,其特征在于,具有最大的跨語言得分的命名實(shí)體對被選擇為彼此的直譯220。
11.一種計算機(jī)存儲介質(zhì),包括用于挖掘多語言命名實(shí)體直譯的計算機(jī)可執(zhí)行指令,所述計算機(jī)可執(zhí)行指令包括用于如下步驟的指令審閱第一語言的文檔200; 審閱第二語言的附加文檔210;通過計算跨語言相似度得分來確定所述附加文檔是否充分相似于所述文檔220 ; 如果所述附加文檔充分相似于所述文檔230 ; 選擇所述文檔中的命名實(shí)體230 ;搜索充分相似的命名實(shí)體,包括將命名實(shí)體與所述附加文檔中的詞進(jìn)行比較MO ; 如果定位了對于命名實(shí)體的充分相似詞,則將命名實(shí)體和相似詞存儲為命名實(shí)體直譯250。
12.如權(quán)利要求11所述的計算機(jī)存儲介質(zhì),其特征在于,所述跨語言相似度得分是使用KulIkick-Leibler散度來計算的220。
13.如權(quán)利要求12所述的計算機(jī)存儲介質(zhì),其特征在于,為多個文檔和附加文檔對計算所述跨語言相似度得分,并選擇帶有最高相似度得分的文檔對220。
14.如權(quán)利要求11所述的計算機(jī)存儲介質(zhì),其特征在于,搜索相似的命名實(shí)體包括為詞和命名實(shí)體計算跨語言相似度得分,其中所述跨語言相似度得分度量了命名實(shí)體和詞之間的直譯等同性的程度220。
15.如權(quán)利要求14所述的計算機(jī)存儲介質(zhì),其特征在于,為多個命名實(shí)體對計算所述跨語言相似度得分,其中所述多個命名實(shí)體對包括命名實(shí)體以及附加文檔中的詞220。
16.如權(quán)利要求15所述的計算機(jī)存儲介質(zhì),其特征在于,所述附加文檔中的詞是從附加文檔的一組詞中順序地選擇的,其中該組不包括附加文檔中的介詞、動詞或形容詞220。
17.如權(quán)利要求16所述的計算機(jī)存儲介質(zhì),其特征在于,具有最大的跨語言得分的命名實(shí)體對被選擇為彼此的直譯220。
18.一種計算機(jī)系統(tǒng),包括用于執(zhí)行用于挖掘多語言命名實(shí)體直譯的計算機(jī)可執(zhí)行指令的處理器、與所述處理器進(jìn)行通信的存儲器、以及輸入輸出電路,所述計算機(jī)可執(zhí)行指令包括用于如下步驟的指令審閱第一語言的文檔200;審閱第二語言的附加文檔210;通過計算跨語言相似度得分來確定所述附加文檔是否充分相似于所述文檔,其中所述跨語言相似度得分是使用Kullhck-Leibler散度來計算的220 ;如果所述附加文檔充分相似于所述文檔230 ;選擇所述文檔中的命名實(shí)體230 ;搜索充分相似的命名實(shí)體,包括將命名實(shí)體與所述附加文檔中的詞進(jìn)行比較MO ;如果定位了對于命名實(shí)體的充分相似詞,則將命名實(shí)體和相似詞存儲為命名實(shí)體直譯250。
19.如權(quán)利要求18所述的計算機(jī)系統(tǒng),其特征在于,為多個文檔和附加文檔對計算所述跨語言相似度得分,并選擇帶有最高相似度得分的文檔對。
20.如權(quán)利要求18所述的計算機(jī)系統(tǒng),其特征在于,搜索相似的命名實(shí)體包括為詞和命名實(shí)體計算跨語言相似度得分,其中所述跨語言相似度得分度量了命名實(shí)體和詞之間的直譯等同性的程度220所述附加文檔中的詞是從附加文檔的一組詞中順序地選擇的,其中該組不包括附加文檔中的介詞、動詞或形容詞220 ;為多個命名實(shí)體對計算所述跨語言相似度得分,其中所述多個命名實(shí)體對包括命名實(shí)體以及附加文檔中的詞M0。
全文摘要
可審閱第一語言的文檔以及第二語言的附加文檔??纱_定所述附加文檔是否充分相似于所述文檔。如果所述附加文檔被確定為充分相似于所述文檔,則可選擇所述文檔中的命名實(shí)體。本方法可通過將命名實(shí)體與所述附加文檔中的詞進(jìn)行比較并確定所述命名實(shí)體和所述詞是否充分相似來搜索相似的命名實(shí)體。如果定位了對于命名實(shí)體的相似詞,則將命名實(shí)體和相似命名實(shí)體存儲為命名實(shí)體直譯。
文檔編號G06F17/28GK102187335SQ200980142526
公開日2011年9月14日 申請日期2009年10月20日 優(yōu)先權(quán)日2008年10月21日
發(fā)明者R·U·烏, S·克里西南, A·庫馬蘭 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1