專利名稱:創(chuàng)建用于學習單詞翻譯的數(shù)據(jù)的裝置和方法
技術領域:
本發(fā)明涉及創(chuàng)建用于根據(jù)上下文學習單詞翻譯的學習數(shù)據(jù)的裝置和方法。
背景技術:
將源語言輸入文本(原文)翻譯成不同于所述源語言的目標語言文本 (譯文)的機器翻譯裝置包括存儲了源語言單詞與目標語言翻譯的多個組合 的雙語詞典。 一般采用原文的部分或全部作為關鍵字對所述雙語詞典進行 搜索,從而基于搜索到的翻譯創(chuàng)建所要輸出的翻譯。
即使對于源語言形式的同一單詞而言,有時也會根據(jù)所出現(xiàn)的上下文 具有不同的適當翻譯。因此,在所述雙語詞典中,往往相對于源語言形式 的一個單詞注冊目標語言形式的多個翻譯。因此, 一個重要的問題是從所
述多個翻譯中根據(jù)所出現(xiàn)的上下文選擇適當?shù)姆g,從而提高機器翻譯裝 置的翻譯準確性。
作為針對該問題的一種措施,有人提出了一種方法,其中,針對所出 現(xiàn)的每一上下文學習合適的翻譯,從而通過參考學習結果選擇翻譯。例如,
JP-A 2002-73602(特開)提出了一種針對翻譯學習方法的技術,其中,用戶 參考原文和機器翻譯裝置輸出的翻譯,針對原文單詞指定適當?shù)姆g,其 中已為原文單詞輸出了不適當?shù)姆g。
然而,根據(jù)JP-A 2002-73602 (特開)中描述的翻譯學習方法,用戶需要 逐字向系統(tǒng)指示適當?shù)姆g,因此要付出大量的勞動。也就是說,在常規(guī) 方法中,由于每個所出現(xiàn)的上下文的翻譯學習的翻譯學習數(shù)據(jù)通常是人工 創(chuàng)建的,所以產生學習數(shù)據(jù)的處理工作量就變得過大。
發(fā)明內容
根據(jù)本發(fā)明的一個方面,數(shù)據(jù)創(chuàng)建裝置創(chuàng)建學習數(shù)據(jù),所述學習數(shù)據(jù)
用于學習與源語言形式的一個單詞相對應的多個翻譯候選的適當使用,所 述翻譯候選是以目標語言形式描述的。
所述數(shù)據(jù)創(chuàng)建裝置包括輸入單元,其用于輸入所述源語言形式的語 句;翻譯生成單元,其用于將所述語句中的一個單詞翻譯成所述目標語言 形式,并針對所述單詞生成所述目標語言形式的多個翻譯候選和表示所述 翻譯候選的概率的似真性;對應信息創(chuàng)建單元,其用于創(chuàng)建多條對應信息, 在所述多條對應信息中,使所述單詞分別相關于所述多個翻譯候選;判斷 單元,其用于判斷所述翻譯候選的似真性是否大于預定閾值;以及學習數(shù) 據(jù)創(chuàng)建單元,其用于創(chuàng)建所述學習數(shù)據(jù),在所述學習數(shù)據(jù)中,將所述語句 中的另一個單詞添加到其所具有的所述似真性大于所述閾值的所述翻譯候 選的對應信息內。
根據(jù)本發(fā)明的另一方面,在數(shù)據(jù)創(chuàng)建裝置中執(zhí)行數(shù)據(jù)創(chuàng)建方法,其創(chuàng) 建學習數(shù)據(jù),所述學習數(shù)據(jù)用于學習與源語言形式的一個單詞相對應的多 個翻譯候選的適當使用,所述翻譯候選是以目標語言形式描述的。
所述數(shù)據(jù)創(chuàng)建方法包括輸入所述源語言形式的語句;將所述語句中 的一個單詞翻譯成目標語言形式,并針對所述單詞生成所述目標語言形式 的多個翻譯候選和表示所述翻譯候選的概率的似真性;創(chuàng)建多條對應信息, 在所述多條對應信息中,使所述單詞分別相關于所述多個翻譯候選;判斷 所述翻譯候選的似真性是否大于預定閾值;以及創(chuàng)建所述學習數(shù)據(jù),在所 述學習數(shù)據(jù)中,將所述語句中的另一個單詞添加到其所具有的所述似真性 大于所述閾值的所述翻譯候選的對應信息內。
圖1是根據(jù)本發(fā)明的實施例的單詞翻譯學習裝置的構造的方框圖2是用于說明雙語詞典的數(shù)據(jù)結構的例子的示意圖3是用于說明翻譯規(guī)則的例子的示意圖4是用于說明學習結果的數(shù)據(jù)結構的例子的示意圖5是根據(jù)實施例的學習數(shù)據(jù)創(chuàng)建/學習處理的整個流程的流程圖6是根據(jù)實施例的翻譯生成處理的整個流程的流程圖7是用于說明語形學分析和翻譯獲取處理的處理結果的例子的示意
圖8是用于說明相關性分析的處理結果的例子的示意圖; 圖9是相關關系的直觀表達的示意圖10是用于說明應用了翻譯規(guī)則時的處理結果的示意圖; 圖11是用于說明判斷結果的例子的示意圖12是用于說明所要創(chuàng)建的單詞翻譯學習數(shù)據(jù)的數(shù)據(jù)結構的例子的示 意圖13是根據(jù)實施例的單詞翻譯學習處理的整個流程的流程圖14是用于說明學習矢量的例子的示意圖15是用于說明學習結果的另一數(shù)據(jù)格式的例子的示意圖16是用于說明處理結果的例子的示意圖17是用于說明矢量表示的例子的示意圖;以及
圖18是用于說明根據(jù)實施例的單詞翻譯學習裝置的硬件配置的示意圖。
具體實施例方式
下面將參考附圖詳細說明根據(jù)本發(fā)明的用于針對單詞翻譯學習創(chuàng)建數(shù) 據(jù)的裝置和方法的示范性實施例。將通過舉例的方式說明本發(fā)明的實施例, 在所述例子中,將本發(fā)明實現(xiàn)為單詞翻譯學習裝置,其創(chuàng)建用于學習單詞 翻譯的數(shù)據(jù),并根據(jù)所創(chuàng)建的學習數(shù)據(jù)學習單詞翻譯,以輸出學習結果。 注意,本發(fā)明的裝置不限于單詞翻譯學習裝置,其可以是任何能夠創(chuàng)建用 于學習單詞翻譯的學習數(shù)據(jù)的裝置。
根據(jù)本實施例的單詞翻譯學習裝置機械地翻譯源語言的輸入語句(下 文稱為"輸入文本"),以創(chuàng)建單詞翻譯學習數(shù)據(jù),所述數(shù)據(jù)包括在翻譯時 應用了翻譯規(guī)則的翻譯和輸入文本。相應地,在出現(xiàn)了輸入文本所包括的 單詞的上下文中,能夠學習通過應用了翻譯規(guī)則而獲取的翻譯的采納。
如圖1所示,單詞翻譯學習裝置100包括雙語詞典存儲單元121、翻譯 規(guī)則存儲單元122、學習結果存儲單元123、輸入單元101、翻譯生成單元 110、對應信息創(chuàng)建單元102、判斷單元103、學習數(shù)據(jù)創(chuàng)建單元104、學習 單元105和輸出控制器106。
雙語詞典存儲單元121存儲雙語詞典,在所述雙語詞典中,至少一個 翻譯與源語言單詞相關。如圖2所示,所述雙語詞典包括單詞描述、作為 原型的單詞的描述、詞性和翻譯列表。在針對一個單詞存在多個翻譯候選 時,在翻譯列表的列中描述通過符號";"分隔的多個翻譯。
返回到圖1,翻譯規(guī)則存儲單元122存儲翻譯時采用的翻譯規(guī)則。如圖 3所示,所述翻譯規(guī)則包括根據(jù)翻譯規(guī)則用于標識單詞的單詞ID、單詞描 述、作為原型的單詞描述、詞性、指示具有相關關系的單詞的ID的相關目 的地ID和翻譯。在將在下文中予以描述的翻譯單元114根據(jù)相關性分析結 果(語法分析結果)從多個翻譯候選中選擇適當?shù)姆g時,參考所述翻譯規(guī) 則。
在圖3所示的翻譯規(guī)則中,在原型為"interests詞性為名詞的單詞 修飾原型為"pay",詞性為動詞的單詞時,將"interest"的日文翻譯指 定為單詞301(利息)。此外,當列"描述"、"原型"或"詞性"為空時,將 空白列以外的項目與分析結果進行對照(collate)。在"翻譯"列為空時, 不選擇任何翻譯。
返回到圖1,學習結果存儲單元123存儲學習單元105的學習結果。如 圖4所示,在本實施例中,按照一定的格式表達學習結果,在所述格式中, 使在所要學習的單詞之前和之后出現(xiàn)的單詞的頻率矢量化。在下述說明中, 將具有矢量格式的學習結果稱為學習矢量。學習矢量的矢量化方法不限于 此,可以采用任何常規(guī)使用的方法,例如,按照與所關注的單詞相隔的距 離對值加權的方法等。
圖4示出了相對于作為"interest"的日文翻譯候選的單詞401 (興味)、 單詞402(権利)和單詞403(利息)的學習結果。在所述單詞翻譯學習數(shù)據(jù)中 出現(xiàn)在"interest"附近的相應單詞對應于所述學習矢量的相應維度。所 述相應維度的值指示對應單詞的頻率。最初將所述學習矢量的相應維度的 所有值都設為0。
雙語詞典存儲單元121、翻譯規(guī)則存儲單元122和學習結果存儲單元 123可以是任何一般采用的記錄介質,例如,硬盤驅動器(HDD)、光盤、存 儲卡和隨機存取存儲器(RAM)。
返回到圖1,輸入單元101通過諸如鍵盤之類的輸入裝置(未示出)或者
從諸如磁盤之類的記錄介質(未示出)輸入源語言形式的文本(輸入文本)。
翻譯生成單元110相對于輸入文本中包括的每一單詞生成目標語言的 翻譯和表示所述翻譯的概率的似真性。在本實施例中,翻譯生成單元110
采用與常規(guī)采用的轉換方法中的機器翻譯相同的方法將輸入文本翻譯成目
標語言。翻譯生成單元110包括語形學(morphological)分析單元111、翻 譯獲取單元112、相關性分析單元113和翻譯單元114。
語形學分析單元111針對輸入文本執(zhí)行語形學分析,從而以單詞為單 位對文本進行劃分。翻譯獲取單元112從雙語詞典存儲單元121獲取對應 于每一劃分出的單詞的目標語言翻譯。相關性分析單元113分析所劃分的 單詞之間的相關關系。
翻譯單元114通過向所述相關性分析結果應用翻譯規(guī)則而根據(jù)所述相 關關系獲取適當?shù)姆g。具體地,在從雙語詞典存儲單元121獲取了多個 翻譯作為針對所劃分的單詞的翻譯時,翻譯單元114參考所分析的相關關 系和翻譯規(guī)則存儲單元122中的翻譯規(guī)則獲取對應于作為相關目的地的單 詞的翻譯。
例如,在相關性分析單元113獲取的相關性分析結果的部分與圖3所 示的翻譯規(guī)則中的"單詞ID"、"描述"、"原型"、"詞性"和"相關目的地 ID"指定的語法模式相匹配時,獲取翻譯規(guī)則中的"翻譯"列中所指定的 翻譯。
翻譯生成單元110將通過應用翻譯規(guī)則獲取的翻譯設為似真性=1,將 未經應用翻譯規(guī)則而獲取的翻譯設為似真性=0。翻譯生成單元110的翻譯 處理和似真性設置方法不限于此,可以應用任何常規(guī)采用的機器翻譯技術, 只要能夠生成輸入文本中包括的每一單詞的翻譯并且能夠生成表示每一翻 譯的概率的似真性即可。
對應信息創(chuàng)建單元102通過將輸入文本中的單詞與翻譯生成單元110 針對該單詞生成的翻譯相組合來創(chuàng)建對應信息。
判斷單元103相對于所創(chuàng)建的各條對應信息判斷翻譯的似真性是否大 于預定閾值,由此判斷是否采納所述對應信息作為單詞翻譯學習數(shù)據(jù)。在 本實施例中,由于似真性的值為0或1,因而,例如,可以采用0作為閾值。 之后,判斷單元103判斷采用包括似真性為1的翻譯的對應信息,gp,包
括通過應用轉換規(guī)則獲取的翻譯的對應信息。
學習數(shù)據(jù)創(chuàng)建單元104通過使輸入文本中包括的每一單詞與被作為單 詞翻譯學習數(shù)據(jù)采用的對應信息相關而創(chuàng)建單詞翻譯學習數(shù)據(jù)。下面將說
明單詞翻譯學習數(shù)據(jù)的數(shù)據(jù)結構的細節(jié)。
學習單元105采用所創(chuàng)建的經翻譯的翻譯學習數(shù)據(jù)執(zhí)行單詞翻譯學習。 具體地,學習單元105采用存儲在學習結果存儲單元123中的學習矢量學 習翻譯。由學習單元105執(zhí)行的單詞翻譯學習方法不限于采用學習矢量的 方法,可以應用任何常規(guī)采用的方法,例如,采用以支持矢量機(SVM)為代 表的機械學習機學習翻譯的方法。
輸出控制器106控制學習數(shù)據(jù)創(chuàng)建單元104創(chuàng)建的單詞翻譯學習數(shù)據(jù) 或者學習單元105的學習結果的輸出處理。例如,輸出控制器106將學習 結果輸出至學習結果存儲單元123。其構造可以使得輸出控制器106將學習 結果輸出至諸如顯示單元或打印機的輸出單元(未示出)。
接下來將參考圖5說明根據(jù)本實施例的由單詞翻譯學習裝置100執(zhí)行 的學習數(shù)據(jù)創(chuàng)建/學習處理。在所述學習數(shù)據(jù)創(chuàng)建/學習處理中,由輸入文 本創(chuàng)建學習數(shù)據(jù),并基于所創(chuàng)建的學習數(shù)據(jù)學習翻譯。
輸入單元101首先接收輸入文本的輸入(步驟S501)。翻譯生成單元110 執(zhí)行相對于輸入文本中的各個單詞生成翻譯的翻譯生成處理(步驟502)。在 下文中將說明翻譯生成處理的細節(jié)。
在翻譯生成處理之后,對應信息創(chuàng)建單元102創(chuàng)建對應信息,在所述 信息中,使輸入文本中的每一單詞與相應翻譯相關(步驟S503)。判斷單元 103從所創(chuàng)建的各條對應信息中獲取尚未針對其判斷是否采用其作為單詞 翻譯學習數(shù)據(jù)的對應信息(步驟S504)。
判斷單元103判斷所獲取的對應信息中包括的翻譯的似真性是否大于 閾值(步驟S505)。如上所述,所述似真性的值為0或1,并將應用了翻譯 規(guī)則的翻譯設為似真性=1。因此,這一步驟對應于判斷所述翻譯是否是通 過應用翻譯規(guī)則而獲取的。
在似真性不大于閾值時,即,在未采用所述翻譯規(guī)則的情況下獲取了 所述翻譯時(步驟S505處的"否"),那么判斷單元103判斷不采用當前的 對應信息作為單詞翻譯學習數(shù)據(jù)(步驟S506)。
在似真性大于閾值時,即,在通過應用翻譯規(guī)則而獲取了所述翻譯時
(步驟S505處的"是"),判斷單元103判斷采用當前的對應信息作為單詞 翻譯學習數(shù)據(jù)(步驟S507)。在這種情況下,學習數(shù)據(jù)創(chuàng)建單元104創(chuàng)建使 所采用的對應信息與輸入文本相關的單詞翻譯學習數(shù)據(jù)(步驟S508)。
之后,判斷單元103判斷是否處理了所有的對應信息(步驟S509)。在 尚未處理所有的對應信息時(步驟S509處的"否"),判斷單元103獲取下 一對應信息,以重復所述處理(步驟S504)。在處理了所有的對應信息時(步 驟S509處的"是"),學習單元105基于所創(chuàng)建的單詞翻譯學習數(shù)據(jù)執(zhí)行 單詞翻譯學習處理(步驟S510)。在下文中將說明單詞翻譯學習處理的細節(jié)。
在單詞翻譯學習處理之后,輸出控制器106將單詞翻譯學習處理的結 果輸出至學習結果存儲單元123(步驟S511),并完成學習數(shù)據(jù)創(chuàng)建/學習處 理。
將參考圖6詳細說明步驟S502處的翻譯生成處理。 語形學分析單元111針對輸入文本執(zhí)行語形學分析,從而將輸入文本 劃分為單詞(步驟S601)。翻譯獲取單元112從雙語詞典存儲單元121中的
雙語詞典獲取分別對應于所劃分的單詞的翻譯(步驟S602)。
圖7示出了在源語言為英語,目標語言為日語,并且提供了英文輸入 文本"pay d印osit interest"的情況下的處理結果。
如圖7所示,所述處理結果包括用于標識輸入文本的單詞的單詞ID、 輸入文本的單詞的描述、所述單詞的原型、詞性、相關目的地、翻譯列表 和指示規(guī)則應用的存在的標記。對于原型、詞性和翻譯列表而言,設置從 雙語詞典獲取的信息。
在"相關目的地"列中設置具有單詞相關關系的單詞的單詞ID。由于 相關目的地是通過語形學分析之后執(zhí)行的語法分析設置的,因而在這一階 段相關目的地列為空白。在"規(guī)則應用"列中,在應用了翻譯規(guī)則時設置1, 在未應用翻譯規(guī)則時設置O。也就是說,在"規(guī)則應用"列中設置對應于針 對相應的翻譯的似真性的值。由于"規(guī)則應用"列是通過應用在語法分析 之后執(zhí)行的翻譯規(guī)則的處理設置的,因而在這一階段將默認值設為"0"。
返回到圖6,相關性分析單元113針對所劃分的單詞執(zhí)行相關性分析(語 法分析)(步驟S603)。因此,明確了單詞之間的相關關系。
如圖8所示,將每一單詞的相關目的地的單詞ID設置到"相關目的地" 列內。在沒有相關目的地時,將設置到"相關目的地"列內。
圖9是用于對圖8中的相關關系進行直觀表達的示意圖。圖9示出了 處于通過橢圓形表示的節(jié)點內的單詞修飾處于上方節(jié)點內的單詞的情況。
翻譯單元114應用翻譯規(guī)則以判斷針對單詞的翻譯,其中,在翻譯列 表中包含了多個針對所述單詞的翻譯(步驟S604)。
圖10是用于說明在將圖3所示的翻譯規(guī)則應用于圖8所示的語形學分 析結果時的處理結果的示意圖。圖8所示的語形學分析結果中的"interest" 修飾"pay"的部分符合圖3中的翻譯規(guī)則。因此,將圖3中的單詞301 (利 息)判斷為"interest"的翻譯,并將包括三個翻譯的"interest"的翻譯 列表的值更改為圖8中的翻譯1001 (利息)。將應用了規(guī)則的"interest" 的列的值從"1"改為"0"。
對應信息創(chuàng)建單元102針對圖IO所示的每一行處理結果創(chuàng)建使描述與 翻譯列表中的翻譯相關的對應信息。
接下來將說明單詞翻譯學習數(shù)據(jù)的數(shù)據(jù)結構的細節(jié)。將針對源語言為 英語,目標語言為日語,并且提供了英文輸入文本"pay d印osit interest" 的情況說明所要創(chuàng)建的單詞翻譯學習數(shù)據(jù)的數(shù)據(jù)結構。
通過針對輸入文本的翻譯生成處理獲取了圖IO所示的處理結果。接下 來,判斷單元103判斷是否采納所述對應信息作為單詞翻譯學習數(shù)據(jù)。
在圖10的例子中,由于表格中的每一行對應于每一條對應信息,因而 判斷單元103針對每一行執(zhí)行判斷。判斷單元103基于是否包括應用了翻 譯規(guī)則的翻譯判斷是否采納所述對應信息作為單詞翻譯學習數(shù)據(jù)。也就是 說,判斷單元103采用對應于"規(guī)則應用"的所在的行的值為"1"的行的 對應信息作為單詞翻譯學習數(shù)據(jù)。在圖10所示的例子中,僅將使單詞 "interest"與日文翻譯1001 (利息)相關的對應信息采納為單詞翻譯學習 數(shù)據(jù)。
在圖11中,以表格形式示出了表達判斷結果的例子。如圖11所示, 0 述判斷結果包括單詞ID、描述、原型、詞性、翻譯和指示是否將所述對 應信息采納為單詞翻譯學習數(shù)據(jù)的學習標記。將圖IO所示的翻譯生成處理 的處理結果的值直接設置到單詞ID、描述和詞性列內。
將圖10所示的翻譯列表列中的最上面的翻譯設為所述翻譯。在圖10 所示的例子中,沒有在翻譯列表中保留了多個翻譯的單詞。因此,將圖10 中的翻譯列表的值直接設置到圖11所示的翻譯列中。直接設置圖10中的
規(guī)則應用值。
學習數(shù)據(jù)創(chuàng)建單元104參考圖11所示的判斷結果來創(chuàng)建單詞翻譯學習 數(shù)據(jù)。如圖12所示,學習數(shù)據(jù)創(chuàng)建單元104創(chuàng)建了這樣的單詞翻譯學習數(shù) 據(jù),其中,將所采納的對應信息的翻譯作為"〈learn〉"標簽的"tw"屬性 的值嵌入到了輸入文本中。
單詞翻譯學習數(shù)據(jù)的數(shù)據(jù)結構不限于圖12所示的格式,可以采用任何 使單詞和翻譯的組合與輸入文本中的所述單詞之外的至少一個單詞相關的 數(shù)據(jù)格式。例如,可以采用圖ll所示的表格格式中的整個判斷結果作為單 詞翻譯學習數(shù)據(jù)??梢圆捎猛ㄟ^相關單詞表達的上下文中的單詞翻譯學習 數(shù)據(jù)來學習具體翻譯的選擇。
圖12中的單詞翻譯學習數(shù)據(jù)表明,相對于文本"pay d印osit interest",即,在出現(xiàn)了 "pay"和"d印osit"的上下文中,將"interest" 轉換為日文單詞1201(利息)。
就常規(guī)而言,已經人工創(chuàng)建了單詞翻譯學習數(shù)據(jù);但是,在本實施例 中,能夠僅通過用戶根據(jù)上述處理輸入源語言文本獲取單詞翻譯學習數(shù)據(jù)。 相應地,能夠顯著降低創(chuàng)建單詞翻譯學習數(shù)據(jù)的時間和工作量。
將參考圖13說明步驟S510處的單詞翻譯學習處理的細節(jié)。例如,將 說明這樣一種情況,其中,采用具有圖ll所示的表格格式的單詞翻譯學習 數(shù)據(jù)來執(zhí)行學習。
學習單元105首先從所創(chuàng)建的單詞翻譯學習數(shù)據(jù)中獲取未經處理的單 詞ID(下文中稱為IDa)(步驟S1301)。之后,學習單元105判斷對應于所獲 取的IDa的學習標記是否為"1"(步驟S1302)。在學習標記為"1"時(步 驟S1302處的"是"),學習單元105將對應于具有IDa的單詞的翻譯設置 到變量tw中(步驟S1303)。
學習單元105獲取所創(chuàng)建的單詞翻譯學習數(shù)據(jù)中的IDa以外的單詞 ID(下文稱為IDb)(步驟S1304)。之后,學習單元105針對被設置為變量tw 的翻譯的學習矢量將與單詞ID為IDb的單詞相對應的維度值加l(步驟
S1305)。
之后,學習單元105判斷所述單詞ID中除IDa之外是否還存在未經處 理的單詞ID(步驟S1306)。當存在未經處理的單詞ID時(步驟S1306處的 "是"),學習單元105獲取下一單詞ID作為IDb,并重復所述處理(步驟 S1304)。
在不存在未經處理的單詞ID時(步驟S1306處的"否"),學習單元105 判斷是否相對于所有單詞ID執(zhí)行了上述處理(步驟S1307)。
當尚未處理所有的單詞ID時(步驟S1307處的"否"),學習單元105 獲取下一個未經處理的單詞ID作為IDa,以重復所述處理(步驟S1301)。 在已經處理了所有的單詞ID時(步驟S1307中的"是"),學習單元105完 成所述單詞翻譯學習處理。
接下來將說明單詞翻譯學習處理的具體例子。例如,將說明這樣一種 情況,其中,在學習結果處于圖4所示的起始狀態(tài)時,采用圖ll所示的單 詞翻譯學習數(shù)據(jù)來學習翻譯。
在以0作為單詞ID的單詞"pay"和以1作為單詞ID的單詞"d印osit" 中,學習標記為"0"(步驟S1302處的"否"),因此不執(zhí)行翻譯學習。在 以2為單詞ID的單詞"interest"中,學習標記為"1"(步驟S1302處的 "是"),因此將更新對應翻譯1101(利息)的學習矢量。
也就是說,在圖4的例子中,學習單元105更新對應于單詞403的學 習矢量,其中,單詞403是處于最右側位置的翻譯。學習單元105首先將 對應于以O作為單詞ID的單詞"pay(動詞)"的維度值加l。接下來,學習 單元105還將對應于以1作為單詞ID的單詞"deposit(名詞)"的維度值 加1。圖14是用于說明通過這種方式更新的學習矢量的一個例子的示意圖。 如圖14所示,將對應于單詞403的學習矢量的維度值更新為1。
輸出控制器106能夠將學習矢量轉換成外部裝置可用的數(shù)據(jù)格式,并 輸出所述數(shù)據(jù)格式。圖15是將對應于學習矢量的各個維度的單詞的原型和 詞性轉換成了特定格式的學習結果的例子。
圖15的學習結果表明,不存在將"interest (名詞)"翻譯成了日文單 詞1501 (興味)或單詞1502 (権利)的學習數(shù)據(jù);但是,存在將"interest (名 詞)"翻譯成了單詞1503(利息)的學習數(shù)據(jù),并且所述學習數(shù)據(jù)表明"pay(動 詞)"和"d印osit(名詞)"分別在"interest"之前和之后出現(xiàn)一次。
可以通過下述方式采用圖15中的學習數(shù)據(jù),以提高機器翻譯的質量。 例如,將說明將英文輸入文本"The bank owes me 10 years of d印osit interest."翻譯成日文的情況。
在采用圖2所示的雙語詞典和圖3所示的翻譯規(guī)則翻譯輸入文本時, 能夠獲取圖16所示的處理結果。如果觀察到了對應于以8作為單詞ID的 "interest"的翻譯列表,那么由于未向輸入文本應用所述翻譯規(guī)則,因 而保留三個翻譯候選(興味、権利、利息)。
如果假設在存在多個翻譯候選時輸出頂部翻譯,那么在這一例子中則 相對于"interest"輸出了不合適的翻譯(興味)。在這樣的情況下,可以 通過采用圖15所示的學習結果來選擇合適的翻譯(利息)。
這里,假設獲取了圖14所示的學習矢量,或者在獲取了圖15所示的 學習結果時,將其轉換為圖14所示的學習矢量。
相對于輸入文本"The bank owes me 10 years of deposit interest.,, 中的"interest",采用與學習矢量中相同的方法使前后單詞的出現(xiàn)頻率矢 量化。所述矢量的維度不分配給冠詞、代詞、介詞、數(shù)字和符號。圖17是 用于說明通過這種方式轉換的矢量表示的一個例子的示意圖。
選擇與圖14的三個學習矢量中與圖17中的矢量具有最大的余弦相似 性的學習矢量相對應的翻譯。相應地,由于能夠選擇前后具有共同的單詞 的翻譯,因而能夠獲取更加合適的翻譯。
例如,由于圖14中的三個學習矢量的單詞401(興味)和單詞402(権利) 的學習矢量的所有分量均為0,因而余弦相似性變成0。另一方面,對于單 詞403(利息)的學習矢量而言,對應于"d印osit(名詞)"的維度值為1, 對于圖17中的矢量而言,對應于"d印osit(名詞)"的維度值也為1。因此, 余弦相似性取得比0大的值。因此,與圖17中的矢量具有最大余弦相似性 的學習矢量是對應于單詞403(利息)的學習矢量。也就是說,能夠將單詞 403(利息)選作輸入文本"The bank owes me 10 years of d印osit interest."中的單詞"interest"的翻譯。
因而,在根據(jù)本實施例的單詞翻譯學習裝置100中,能夠創(chuàng)建輸入文 本,并且能夠在對輸入文本進行機器翻譯時創(chuàng)建包括應用了翻譯規(guī)則的翻
譯的單詞翻譯學習數(shù)據(jù)。相應地,能夠降低通常由人工執(zhí)行的單詞翻譯學 習數(shù)據(jù)的創(chuàng)建的負荷。由于能夠基于通過這種方式創(chuàng)建的單詞翻譯學習數(shù) 據(jù)執(zhí)行單詞翻譯學習,因而能夠提高單詞翻譯學習處理的效率。
參考圖18說明根據(jù)本實施例的單詞翻譯學習裝置100的硬件配置。 根據(jù)本實施例的單詞翻譯學習裝置100包括諸如中央處理單元(CPU)51 之類的控制器、諸如只讀存儲器(R0M)52和RAM 53之類的存儲單元、連接 至網絡以執(zhí)行通信的通信I/F54、諸如硬盤驅動器(HDD)和光盤(CD)驅動器 之類的外部存儲單元、諸如顯示器之類的顯示單元、諸如鍵盤和鼠標之類 的輸入單元、以及用于使各個單元相互連接的總線61,其是采用普通計算 機的硬件配置。
將通過根據(jù)本實施例的單詞翻譯學習裝置100執(zhí)行的數(shù)據(jù)創(chuàng)建程序按 照可安裝或可執(zhí)行的格式文件的形式記錄到諸如只讀光盤存儲器 (CD-ROM)、軟盤(FD)、可記錄光盤(CD-R)和數(shù)字通用盤(DVD)之類的計算機 可讀記錄介質上,并提供所述數(shù)據(jù)創(chuàng)建程序。
可以通過將由根據(jù)本實施例的單詞翻譯學習裝置100執(zhí)行的數(shù)據(jù)創(chuàng)建 程序存儲到連接至諸如Internet之類的網絡的計算機上來提供所述數(shù)據(jù)創(chuàng) 建程序,并經由所述網絡下載數(shù)據(jù)創(chuàng)建程序。此外,能夠通過諸如Internet 之類的網絡提供或散布由根據(jù)所述實施例的單詞翻譯學習裝置100執(zhí)行的 數(shù)據(jù)創(chuàng)建程序。
能夠將根據(jù)所述實施例的數(shù)據(jù)創(chuàng)建程序集成到ROM等內,從而加以提供。
通過根據(jù)本實施例的單詞翻譯學習裝置100執(zhí)行的數(shù)據(jù)創(chuàng)建程序具有 包括上述各單元(輸入單元、翻譯單詞生成單元、對應信息創(chuàng)建單元、判斷 單元、學習數(shù)據(jù)創(chuàng)建單元、學習單元和輸出控制器)的模塊配置。作為實際 硬件,CPU 51(處理器)從記錄介質讀出數(shù)據(jù)創(chuàng)建程序,并執(zhí)行所述程序, 從而將這些相應的單元加載到主存儲器上,從而在所述主存儲器上生成相 應的單元。
權利要求
1、一種數(shù)據(jù)創(chuàng)建裝置,其用于創(chuàng)建學習數(shù)據(jù),所述學習數(shù)據(jù)用于學習與源語言形式的一個單詞相對應的多個翻譯候選的適當使用,所述翻譯候選是以目標語言形式描述的,所述裝置包括輸入單元,其用于輸入所述源語言形式的語句;翻譯生成單元,其用于將所述語句中的一個單詞翻譯成所述目標語言形式,并針對所述單詞生成所述目標語言形式的多個翻譯候選和表示所述翻譯候選的概率的似真性;對應信息創(chuàng)建單元,其用于創(chuàng)建多條對應信息,在所述多條對應信息中,使所述單詞分別相關于所述多個翻譯候選;判斷單元,其用于判斷所述翻譯候選的似真性是否大于預定閾值;以及學習數(shù)據(jù)創(chuàng)建單元,其用于創(chuàng)建所述學習數(shù)據(jù),在所述學習數(shù)據(jù)中,將所述語句中的另一個單詞添加到所具有的所述似真性大于所述閾值的所述翻譯候選的對應信息中。
2、 根據(jù)權利要求1所述的裝置,其中,所述翻譯生成單元基于預定的 翻譯規(guī)則將所述語句翻譯成所述目標語言形式,并生成所述翻譯候選和所 述似真性。
3、 根據(jù)權利要求2所述的裝置,還包括詞典存儲單元,其用于存儲雙語詞典,在所述雙語詞典中,將所述源 語言形式的單詞與針對所述源語言形式的單詞的所述翻譯候選彼此相關; 以及翻譯規(guī)則存儲單元,其用于存儲所述翻譯規(guī)則,在所述翻譯規(guī)則中, 將所述源語言形式的單詞、與所述源語言形式的單詞具有相關關系的單詞、 和所述翻譯候選彼此相關,其中所述翻譯生成單元包括語形學分析單元,其用于針對所述語句執(zhí)行語形學分析,以將所述語 句劃分成多個單詞,翻譯獲取單元,其用于從所述詞典存儲單元獲取針對所劃分的單詞的 所述翻譯候選,相關性分析單元,其用于分析所劃分的多個單詞之間的所述相關關系,以及翻譯單元,其用于針對所劃分的每一單詞,按照所述翻譯規(guī)則存儲單 元中存儲的所述翻譯規(guī)則,將所劃分的單詞和與所劃分的單詞具有所述相 關關系的單詞分別與所述源語言形式的單詞和與所述源語言形式的單詞具 有所述相關關系的單詞進行對照,并按照來自所述翻譯規(guī)則存儲單元的所 述翻譯規(guī)則獲取與所述源語言形式的所述單詞相關的匹配的翻譯候選。
4、 根據(jù)權利要求3所述的裝置,其中,所述翻譯生成單元針對從所述 翻譯規(guī)則存儲單元獲取的所述翻譯候選,生成比從所述詞典存儲單元獲取 的所述翻譯候選的似真性大的似真性。
5、 根據(jù)權利要求3所述的裝置,其中,所述學習數(shù)據(jù)創(chuàng)建單元創(chuàng)建所 述學習數(shù)據(jù),在所述學習數(shù)據(jù)中,使所述語句中包括的單詞相關于包括從 所述翻譯規(guī)則存儲單元獲取的所述翻譯候選的所述對應信息。
6、 根據(jù)權利要求1所述的裝置,其中,所述學習數(shù)據(jù)創(chuàng)建單元創(chuàng)建所 述學習數(shù)據(jù),在所述學習數(shù)據(jù)中,使所述語句所包括的多個單詞中的除了 所述對應信息內包括的單詞之外的單詞相關于包括所具有的似真性大于所 述閾值的所述翻譯候選的所述對應信息。
7、 根據(jù)權利要求1所述的裝置,其中,所述學習數(shù)據(jù)創(chuàng)建單元創(chuàng)建所 述學習數(shù)據(jù),在所述學習數(shù)據(jù)中,在所述語句包括的多個單詞的范圍內, 使所述對應信息中的所述翻譯候選相關于包括所述語句中含有的單詞和所 具有的似真性大于所述閾值的所述翻譯候選的所述對應信息中的單詞。
8、 根據(jù)權利要求1所述的裝置,還包括學習單元,其基于所述學習數(shù) 據(jù)學習所述多個翻譯候選的適當使用。
9、 一種在數(shù)據(jù)創(chuàng)建裝置中執(zhí)行的數(shù)據(jù)創(chuàng)建方法,其創(chuàng)建學習數(shù)據(jù),所 述學習數(shù)據(jù)用于學習與源語言形式的一個單詞相對應的多個翻譯候選的適當使用,所述翻譯候選是以目標語言形式描述的,所述方法包括輸入所述源語言形式的語句;將所述語句中的一個單詞翻譯成目標語言形式,并針對所述單詞生成 所述目標語言形式的多個翻譯候選和表示所述翻譯候選的概率的似真性;創(chuàng)建多條對應信息,在所述多條對應信息中,使所述單詞分別相關于 所述多個翻譯候選;判斷所述翻譯候選的似真性是否大于預定閾值;以及創(chuàng)建所述學習數(shù)據(jù),在所述學習數(shù)據(jù)中,將所述語句中的另一個單詞 添加到所具有的所述似真性大于所述閾值的所述翻譯候選的對應信息中。
全文摘要
輸入單元接收源語言形式的輸入語句。翻譯生成單元針對輸入語句中包括的單詞生成目標語言形式的翻譯,并生成目標語言形式的翻譯的似真性。對應信息創(chuàng)建單元創(chuàng)建對應信息,在所述對應信息中,使所述單詞相關于所述翻譯。判斷單元判斷針對對應信息中包括的目標語言形式的翻譯所生成的似真性是否大于預定閾值。學習數(shù)據(jù)創(chuàng)建單元創(chuàng)建學習數(shù)據(jù),在所述學習數(shù)據(jù)中,使輸入語句中包括的單詞相關于包括其所具有的似真性大于閾值的目標語言形式的翻譯的對應信息。
文檔編號G06F17/28GK101382933SQ20081021486
公開日2009年3月11日 申請日期2008年9月3日 優(yōu)先權日2007年9月3日
發(fā)明者出羽達也 申請人:株式會社東芝