亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于確定字詞排列的自然度的裝置、方法和程序存儲介質的制作方法

文檔序號:6569331閱讀:250來源:國知局

專利名稱::用于確定字詞排列的自然度的裝置、方法和程序存儲介質的制作方法
技術領域
:本發(fā)明涉及用于確定字詞排列的自然度的裝置、方法及程序存儲介質,具體涉及在連接到因特網(wǎng)的計算機中實現(xiàn)的、用于確定字詞排列的自然度的裝置,可以應用到用于確定字詞排列的自然度的裝置的、用于確定字詞排列的自然度的方法,以及存儲在用作用于確定字詞排列的自然度的所述裝置的計算機中實現(xiàn)的、用于確定字詞排列的自然度的程序的存儲介質。
背景技術
:己經(jīng)長時間地期待了其中將以自然語言(源語言)描述的句子(源文本)翻譯成以另一自然語言(目標語言)描述的另一句子(平行/對應的翻譯文本)的翻譯系統(tǒng)(所謂的自動翻譯)的實現(xiàn),并且已經(jīng)提出了用于自動翻譯的各種改進技術。例如,EBMT(基于實例的機器翻譯)和TDMT(驅動變換的機器翻譯)是自動翻譯的公知代表性方法。在EBMT中,在語料庫中登記大量的源語言實例和目標語言實例對,從而在語料庫中檢索最類似于源文本的實例以用于翻譯。在TDMT中,通過按作為語法基本結構單位的成分邊界模式從語料庫學習變換知識、并且使用變換知識來進行翻譯,從而執(zhí)行翻譯。日本特開2003-263434號公報公開了另一種技術通過兩個翻譯系統(tǒng)TDMT和EBMT來翻譯輸入的數(shù)據(jù);計算表示由TDMT翻譯輸入數(shù)據(jù)時的輸入數(shù)據(jù)和實例之間的相似度的句子結構分數(shù)、以及表示由EBMT翻譯輸入數(shù)據(jù)時的輸入數(shù)據(jù)和實例之間的相似度的DP距離;并且使用表示TDMT或EBMT是否適于翻譯輸入數(shù)據(jù)的評估數(shù)據(jù)、以及句子結構分數(shù)和計算的DP距離,來生成用于選擇適于翻譯輸入數(shù)據(jù)的翻譯系統(tǒng)的選擇器。然而,即使通過使用現(xiàn)有的自動翻譯技術而生成的平行翻譯文本在字詞單位上沒有任何語法錯誤或平行翻譯錯誤,該平行翻譯文本在目標語言里也經(jīng)常是不自然的句子,并且包括上述專利的公開內容的常規(guī)自動翻譯技術仍然沒有實現(xiàn)用于實際使用的翻譯精確度。認為其原因是因為沒有為現(xiàn)有的自動翻譯裝置配備一種機制來確定并評價由自動翻譯生成的平行翻譯文本作為目標語言中的句子是否是自然的。然而,因為測量依賴于感覺的指標,所以難以量化地測量句子的自然度,并且,也難以限定確定被生成作為目標語言中的句子的字詞排列的自然度的準則。因此,還沒有建立用于確定通過自動翻譯作為平行翻譯文本而獲得的作為句子的字詞排列、或由人手動組成為句子的字詞排列的自然度的技術。
發(fā)明內容考慮到上述事實而做出了本發(fā)明,并且本發(fā)明的目的之一在于提供一種能夠合理地確定字詞排列作為句子的自然度的用于確定字詞排列的自然度的裝置、用于確定字詞排列的自然度的方法、以及存儲用于確定字詞排列的自然度的程序的存儲介質。為了實現(xiàn)上述目的,本發(fā)明的第一方面是一種在連接到因特網(wǎng)的計算機中實現(xiàn)的、用于確定字詞排列的自然度的裝置,該裝置包括搜索部,用于在經(jīng)由因特網(wǎng)可訪問的文本中搜索指定為搜索對象的字詞排列;以及確定部,用于通過將其中排列了多個字詞的確定對象的字詞排列指定為搜索對象而使得搜索部執(zhí)行搜索,并且基于通過搜索而提取的文本是否存在以及提取的文本的數(shù)量,確定該字詞排列作為句子的自然度。存在大量經(jīng)由因特網(wǎng)可訪問的文本,并且這些文本包括以不同語言描述的各種內容。盡管--些文本可能包括不自然的描述作為句子,但是由于文本是在由人訪問和引用的假定下做出的,所以大多數(shù)文本可以被認為是以自然的句子書寫的。此外,盡管各個語言中的句子自然度的自身準則在長時間段內將偏移,但是經(jīng)由因特網(wǎng)可訪問的文本逐天更新、刪除、或添加,所更新或添加的文本可以被認為反映了此時的句子自然度的準則偏移。本發(fā)明的發(fā)明人關注經(jīng)由因特網(wǎng)可訪問的全部文本具有的上述特征,這導致這樣的結論通過使用經(jīng)由因特網(wǎng)可訪問的全部文本作為準則,可以確定字詞排列作為句子的的自然度,導致本發(fā)明的消費。如上所述,根據(jù)本發(fā)明第一方面的用于確定字詞排列的自然度的裝置在連接到因特網(wǎng)的計算機中實現(xiàn),并且包括用于在經(jīng)由因特網(wǎng)可訪問的文本中搜索指定為搜索對象的字詞排列的搜索部。根據(jù)本發(fā)明第一方面的確定部通過將排列了多個字詞的確定對象的字詞排列指定為搜索對象而對搜索部進行操作以使其執(zhí)行搜索,并且基于通過每次搜索而提取的文本是否存在以及通過搜索部提取的文本的數(shù)量來確定指定的確定對象的字詞排列作為句子的自然度。確定對象的字詞排列可以是手動組成的句子,或可以是如下所述的句子通過組合目標語言中的與源語言中的源文本的各個字詞對應的平行翻譯字詞而自動生成的平行(對應)翻譯字詞排列,或者對應于源句子的一部分的字詞排列。對搜索部指定為搜索對象的字詞排列可以是確定對象的整個字詞排列,或者是確定對象的字詞排列的經(jīng)分割的多個部分,以用于對包括各個部分的文本進行順序搜索。在通過確定部確定字詞排列的自然度時,具體地說,當通過搜索部在搜索中提取了相關文本時,將該字詞排列確定為比沒有對其提取到文本的字詞排列具有"更高的自然度",當通過搜索部在搜索中提取了相關文本時,將對其提取了更多文本的字詞排列確定為比對其提取了較少文本的字詞排列具有"更高的自然度"。這樣,根據(jù)本發(fā)明的第一方面,在經(jīng)由因特網(wǎng)可訪問的文本中搜索了包括確定對象的字詞排列(其全部或一部分)的文本后,基于每次搜索提取的文本是否存在、和提取的文本的數(shù)量,確定指定的確定對象的字詞排列作為句子的自然度。這使得可以實現(xiàn)對字詞排列作為句子的自然度的合理確定。當某語言的句子自然度的準則自身偏移時,在經(jīng)由因特網(wǎng)可訪問的文本中以該語言描述的全部文本中表示的該語言的句子自然度的準則也偏移。因此,與在存儲部中預先存儲在搜索時由搜索部參考的文本的裝置相比,根據(jù)本發(fā)明第一方面的裝置消除了用于檢測語言中的句子自然度的任何準則偏移并且根據(jù)檢測到的偏移而在存儲部中更新、刪除、或添加文本的維護操作。根據(jù)本發(fā)明第一方面的確定部例如可以優(yōu)選地構成如下使得確定部指定確定對象的整個字詞排列作為搜索對象,并使得搜索部對該排列進行搜索,并且,當通過搜索沒有提取到相關文本時,確定部重復執(zhí)行如下處理從確定對象的字詞排列中提取長度比確定對象的整個字詞排列更短的字詞子排列作為搜索對象,并通過指定該字詞子排列作為搜索對象而使得搜索部執(zhí)行搜索,同時要提取作為搜索對象的字詞子排列的長度逐漸減小,并基于通過搜索而提取的文本是否存在、搜索提取的文本數(shù)量、以及作為對其提取了文本的搜索對象的字詞子排列的長度,來確定字詞排列作為句子的自然度。即使在經(jīng)由因特網(wǎng)可訪問的文本中不存在包括確定對象的整個字詞排列的文本,也可以找到包括確定對象的字詞排列的一部(字詞子排列)的文本。在字詞子排列的搜索中,作為對其提取了相關文本的搜索對象的字詞子排列中的字詞數(shù)量與對應的確定對象的字詞排列作為句子的自然度的確定相關作為搜索對象并對其提取了相關文本的字詞子排列具有的字詞越多,句子可以被認為具有越高的自然度。因此,在本發(fā)明中,當在指定確定對象的整個字詞排列作為搜索對象的情況下通過搜索沒有提取到相關文本時,在從確定對象的字詞排列提取為搜索對象的字詞子排列的長度逐漸減小的情況下,重復進行使用字詞子排列作為搜索對象的搜索。這使得確定部可以基于通過搜索部的搜索而提取的文本的是否存在以及數(shù)量、和作為對其提取文本的搜索對象的字詞子排列中的字詞數(shù)量,來確定確定對象的字詞排列作為句子的自然度,這使得可以更合理地確定字詞排列作為句子的自然度。在本發(fā)明的第--方面中,為了從源語言的源文本獲得作為句子具有較高自然度的平行翻譯文本,例如,根據(jù)本發(fā)明的一種裝置可以優(yōu)選地被構成為還包括生成部,用于對源語言的源文本的各個字詞獲得目標語言的平行(對應)翻譯字詞,并且生成目標語言中的與對源文本的各個字詞獲得的平行翻譯字詞的組合相對應的多個平行翻譯字詞排列作為確定對象的字詞排列,其中,確定部指定由生成部生成的多個平行翻譯字詞排列中的每一個作為搜索對象,并使得搜索部對每一個排列執(zhí)行搜索,并且,確定部基于由每次搜索提取的文本的是否存在以及提取的文本的數(shù)量,從多個平行翻譯字詞排列中,選擇作為目標語言的句子具有較高自然度的平行翻譯字詞排列。在本發(fā)明中,生成部生成目標語言中的與對源文本的各個字詞獲得的平行翻譯字詞的組合相對應的多個平行翻譯字詞排列。多個平行翻譯字詞排列是目標語言中的與源語言的源文本相對應的平行翻譯文本的候選項,確定部指定由生成部生成的多個平行翻譯字詞排列中的每一個作為搜索對象,并對搜索部進行操作以使其對各個排列執(zhí)行搜索,由此基于對各個排列每次搜索提取的文本的是否存在以及提取的文本的數(shù)量,從多個平行翻譯字詞排列中選擇作為目標語言中的句子具有較高自然度的平行翻譯字詞排列。對作為目標語言中的句子具有較高自然度的平行翻譯字詞排列,例如,確定部可以僅選擇通過搜索部的搜索而對其提取了最大數(shù)量的文本的一個平行翻譯字詞排列,或可以選擇通過搜索部的搜索而對其提取了文本并且文本的數(shù)量相對于上述排列的最大數(shù)量的提取文本具有預定或更高百分比的多個平行翻譯字詞排列。這樣,因為對從源文本生成的多個平行翻譯字詞排列(平行翻譯文本的多個候選項)中的每一個在經(jīng)由因特網(wǎng)可訪問的文本中進行搜索,所以可以獲得用于合理地確定每個平行翻譯字詞排列作為句子的自然度的指標(每次搜索提取的文本的是否存在、以及提取的文本的數(shù)量)?;谶@些指標,可以從多個平行翻譯字詞排列中選擇作為目標語言的句子具有較高自然度的平行翻譯字詞排列。因此,在多個平行翻譯字詞排列(平行翻譯文本的多個候選項)中,可以選擇作為目標語言的句子具有較高自然度的平行翻譯字詞排列,這是作為源文本的平行翻譯文本較為適當?shù)钠叫蟹g文本(或對應于平行翻譯文本的平行翻譯字詞排列)。在該結構中,本發(fā)明例如可以優(yōu)選地構成如下確定部指定多個平行翻譯字詞排列中的整個排列作為搜索對象,并使得搜索部對各個排列執(zhí)行搜索,并且,當搜索沒有提取到相關文本時,確定部重復執(zhí)行如下處理使得生成部生成多個平行翻譯字詞子排列,這些平行翻譯字詞子排列中的每一個都具有小于所述多個平行翻譯字詞排列中的整個排列的長度,所述多個子排列是對應于源語言的源文本中的連續(xù)的預定數(shù)量的字詞的平行翻譯字詞的組合,并且,確定部指定生成的多個平行翻譯字詞子排列中的每一個作為搜索對象,并使得搜索部對每個子排列執(zhí)行搜索,同時源文本中的要用于生成平行翻譯字詞子排列的字詞的數(shù)量逐漸減小,并且,確定部基于通過搜索而提取的文本的是否存在、提取的文本的數(shù)量、以及作為對其提取文本的搜索對象的平行翻譯字詞子排列中的字詞數(shù)量,從多個平行翻譯字詞排列中,選擇作為目標語言中的句子具有較高自然度的平行翻譯字詞排列。這使得即使在經(jīng)由因特網(wǎng)可訪問的文本中不存在包括整個平行翻譯字詞排列的文本,也可以選擇較為適當?shù)钠叫蟹g文本(或對應于平行翻譯文本的平行翻譯字詞排列)作為對源文本的平行翻譯文本。此外,在上述結構中,更具體地說,本發(fā)明可以優(yōu)選地構成為還包括存儲部,其中,每次通過搜索提取到相關文本時,確定部都將用于搜索的平行翻譯字詞子排列存儲在存儲部中,并從要用于隨后生成平行翻譯字詞子排列的字詞中排除源文本中的與所存儲的平行翻譯字詞子排列對應的預定數(shù)量的字詞,并且,當在源文本中不存在可以用于隨后生成平行翻譯字詞子排列的連續(xù)的更多字詞時,針對存儲的平行翻譯字詞子排列的各個組合,確定部使得搜索部對包括該組合中的所有平行翻譯字詞的文本執(zhí)行搜索,并且,確定部基于包括組合中的所有平行翻譯字詞的文本的是否存在、包括所有平行翻譯字詞并由搜索提取的文本的數(shù)量,從存儲的平行翻譯字詞子排列的組合中,選擇作為目標語言中的句子具有較高自然度的平行翻譯字詞子排列的組合。如上所述,每當搜索部通過搜索提取了相關文本時,從要用于隨后生成平行翻譯字詞子排列的字詞中排除源文本中的對應于該平行翻譯字詞子排列的預定數(shù)量的字詞。這使得可以基于搜索部的搜索結果(在經(jīng)由因特網(wǎng)可訪問的文本中對應的平行翻譯字詞子排列的是否存在),根據(jù)被認為提供了更可能的平行翻譯文本的分割模式將源文本分割為多個字詞排列。在存儲部中,存儲與根據(jù)分割模式進行分割之后的源文本中的各個字詞排列相對應的平行翻譯字詞子排列。在該結構中,當源文本中沒有可用于隨后生成平行翻譯字詞子排列的更多連續(xù)字詞時,針對存儲部中存儲的平行翻譯字詞子排列中的各個組合,對包括各個子排列組合中的所有平行翻譯字詞的文本進行搜索。這使得可以基于搜索結果,對平行翻譯字詞子排列的各個組合,確定該組合中的所有平行翻譯字詞被包括在一文本中的可能性(這稱為共同出現(xiàn)概率)?;诎ńM合中的所有平行翻譯字詞的文本的是否存在、以及包括所有平行翻譯字詞并由搜索提取的文本的數(shù)量,在存儲部中存儲的平行翻譯字詞子排列的多個組合中選擇作為目標語言中的句子具有較高自然度的平行翻譯字詞子排列的組合。因此,可以基于平行翻譯字詞子排列中的每一個組合的共同出現(xiàn)概率,選擇較為適當?shù)钠叫蟹g文本(或對應于平行翻譯文本的平行翻譯字詞子排列的組合)作為對源文本的平行翻譯文本。本發(fā)明的第二方面是一種在連接到因特網(wǎng)的計算機中實現(xiàn)的、用于確定字詞排列的自然度的方法,該方法包括以下步驟在經(jīng)由因特網(wǎng)可訪問的文本中搜索其中排列了多個字詞的確定對象的字詞排列;以及基于通過搜索而提取的文本的是否存在以及提取的文本的數(shù)量,確定所述確定對象的字詞排列作為句子的自然度。因此,本發(fā)明的第二方面使得可以合理地確定字詞排列作為句子的自然度。本發(fā)明的第三方面是一種存儲用于確定字詞排列的自然度的程序的存儲介質,所述程序使得連接到因特網(wǎng)的計算機可以用作用于確定字詞排列的自然度的裝置,該程序使得計算機執(zhí)行包括以下步驟的處理在經(jīng)由因特網(wǎng)可訪問的文本中搜索指定為搜索對象的字詞排列,通過指定其中排列了多個字詞的確定對象的字詞排列作為搜索對象來執(zhí)行該搜索;以及基于通過搜索而提取的文本的是否存在、以及提取的文本的數(shù)量,來確定指定的確定對象的字詞排列作為句子的自然度。由于根據(jù)本發(fā)明第三方面的存儲用于確定字詞排列的自然度的程序的存儲介質使得連接到因特網(wǎng)的計算機可以用作上述的搜索部和確定部,并且,當計算機執(zhí)行用于確定字詞排列的自然度的所述程序時,該計算機用作根據(jù)本發(fā)明第一方面的用于確定字詞排列的自然度的裝置,這使得可以合理地確定字詞排列作為句子的自然度。如上所述,本發(fā)明提供了一種裝置,該裝置在經(jīng)由因特網(wǎng)可訪問的文本中搜索其中排列了多個字詞的確定對象的字詞排列,并且基于通過搜索而提取的文本的是否存在以及提取的文本的數(shù)量,確定所述確定對象的字詞排列作為句子的自然度。由此,該裝置具有實現(xiàn)對字詞排列作為句子的自然度的合理確定的有利效果。圖1是示出根據(jù)本發(fā)明的計算機系統(tǒng)的實施方式的示意性結構的框圖2是示出平行翻譯確定的處理的流程圖;以及圖3A和3B是示出根據(jù)本發(fā)明的計算機的其他實施方式的概念圖。具體實施例方式現(xiàn)在,將參照附圖在下面詳細說明本發(fā)明的實施方式的實例。圖1示出根據(jù)本實施方式的計算機系統(tǒng)10。計算機系統(tǒng)10包括多個客戶端16,其各自連接到與多個網(wǎng)絡服務器12連接的因特網(wǎng)14。連接到因特網(wǎng)14的各個客戶端16例如包括個人計算機(PC),該個人計算機具有CPU16A、包括RAM等的存儲器16B、硬盤驅動器(HDD)16C、或其中安裝了包括OS(操作系統(tǒng))和瀏覽器的程序的存儲裝置/介質、以及網(wǎng)絡接口(I/F)部16D,并且經(jīng)由網(wǎng)絡部16D連接到因特網(wǎng)14??蛻舳?6還與包括顯示裝置(如顯示器、鼠標和鍵盤(未示出))的輸入裝置連接。連接到因特網(wǎng)14的各個客戶端16還包括用作根據(jù)本發(fā)明的字詞排列自然度確定裝置的客戶端16。這種客戶端16具有HDD16C,在HDD16C中預先安裝了用于實現(xiàn)將在下面描述的平行翻譯確定處理的平行翻譯確定程序,并且還存儲了雙語(或多語/平行翻譯)詞典數(shù)據(jù)庫(DB)。該平行翻譯確定程序對應于用于確定字詞排列的自然度的程序。在雙語詞典DB中,以源語言描述的許多字詞的文本數(shù)據(jù)(字詞、由多個字詞構成的短語、詞組等)與以目標語言描述的平行翻譯文本數(shù)據(jù)相對應地登記。各個網(wǎng)絡服務器12具有CPU12A、包括RAM等的存儲器12B、其中安裝了如OS的程序的HDD12C、以及網(wǎng)絡接口(I/F)部12D,并且經(jīng)由網(wǎng)絡(I/F)部12D連接到因特網(wǎng)14。在各種網(wǎng)絡服務器12中,提供如文本、圖像、音樂等的任何網(wǎng)絡內容的網(wǎng)絡服務器(網(wǎng)絡內容提供服務器)12將如文本等的網(wǎng)絡內容存儲在HDD12C中。用于內容傳送處理的內容傳送程序也安裝于其中,在內容傳送處理中,在由計算機(任何客戶端16或任何網(wǎng)絡服務器12)經(jīng)由因特網(wǎng)14請求任何網(wǎng)絡內容的傳送時,將所請求的網(wǎng)絡內容傳送到進行請求的計算機。在各種網(wǎng)絡服務器12中,存在提供網(wǎng)絡搜索服務以呈現(xiàn)從因特網(wǎng)上可訪問的巨大量文本(網(wǎng)絡文檔)中搜索具有指定關鍵詞的文本的搜索結果的網(wǎng)絡服務器12(提供搜索服務的服務器)。用作網(wǎng)絡搜索服務提供服務器的這種網(wǎng)絡服務器12具有HDD12C,在HDD12C中存儲有檢索數(shù)據(jù)庫(DB),還預先安裝了搜索服務提供程序。當CPU12A執(zhí)行搜索服務提供程序時,用作網(wǎng)絡搜索服務提供服務器的網(wǎng)絡服務器12執(zhí)行包括以下步驟的網(wǎng)絡搜索服務提供處理通過跟蹤網(wǎng)絡文檔的鏈接順序檢査多個網(wǎng)絡文檔;在檢測到未收集的或更新的文檔時,將檢測到的網(wǎng)絡文檔的內容保存在檢索DB中,或在檢索DB中更新對應于檢測到的網(wǎng)絡文檔的已保存信息;并且在請求通過指定關鍵詞的檢索時,通過使用指定的關鍵詞對檢索DB進行檢索并輸出結果。接下來,將說明本實施方式的操作。在該實施方式中,當用戶希望知道對應于以源語言描述的源文本的、以目標語言描述的平行翻譯文本時,用戶對客戶端16執(zhí)行操作,以指定作為翻譯對象的源文本和要翻譯的目標語言。源文本可以是可作為文本數(shù)據(jù)讀入客戶端16的任何文本,包括由用戶通過使用鍵盤輸入的文本、通過使用字詞處理軟件創(chuàng)建并且已經(jīng)存儲在HDD16C中的文本、在通過瀏覽器經(jīng)由因特網(wǎng)14可訪問的文本中用戶正在觀看的網(wǎng)絡文檔的文本、通過利用OCR(光學字符識別通過光學途徑的文本識別)的讀取處理而獲得的文本等。源文本不必限于句子,而可以是包括多個字詞的短語、詞組等。當如上所述地指定了要翻譯的源文本時,客戶端16的CPU16A執(zhí)行平行翻譯確定程序,由此操作圖2所示的平行翻譯確定的處理。將用于確定字詞排列的自然度的方法應用到這些平行翻譯確定處理,并且這些處理的操作使得客戶端16用作用于確定字詞排列的自然度的裝置。在根據(jù)本實施方式的平行翻譯確定處理中,在步驟30,在雙語詞典DB中檢索已經(jīng)被指定為翻譯對象的整個源文本是否已在其中登記(存儲)。接下來,在步驟32,確定通過步驟30的檢索是否在雙語詞典DB中找到整個文本。當在步驟32進行了肯定確定時,隨后,在步驟34,與在步驟30的檢索中找到的整個源文本相關聯(lián)地讀出在雙語詞典DB中登記的平行翻譯(文本),并且將讀出的平行翻譯(文本)作為對應于源文本的平行翻譯文本候選項而輸出(例如,將讀出的平行翻譯(文本)顯示在客戶端16的顯示器等上)。然后,完成平行翻譯確定處理。如果在雙語詞典DB中與整個源文本相關聯(lián)地登記了多個平行翻譯(文本),則如下面對于網(wǎng)絡搜索說明的,通過使用由搜索服務提供服務器提供的搜索服務來搜索包括各個平行翻譯(文本)的文本,并且將如下的平行翻譯(文本)作為平行翻譯文本候選項輸出通過搜索對其提取了相關文本,并且所提取文本的數(shù)量作為相對于其他所提取文本的數(shù)量的比例等于或大于閾值(將在下面說明)。當作為在步驟30的檢索結果從雙語詞典DB中沒有找到整個源文本時,在步驟32做出否定確定,并且處理轉到步驟36。在步驟36,將最長匹配原則應用到源文本,以參照雙語詞典DB將源文本分割為多個字詞(或字詞排列)。在對源文本的該分割過程中,應用了通過從雙語詞典DB進行檢索的方法,而不是下面將說明的在步驟48到步驟68執(zhí)行的網(wǎng)絡搜索,并且通過以下步驟來實現(xiàn)提取源文本的具有預定長度(預定數(shù)量的構成字詞)的字詞排列子集;從雙語詞典DB中檢索所提取的字詞排列子集;當發(fā)現(xiàn)該字詞排列子集已經(jīng)在雙語詞典DB中登記時,將該字詞排列子集作為要分割的一部分而存儲;從要在隨后步驟中提取的字詞排列子集中去除該字詞排列子集中的各個字詞;并且,在減小排列子集中的字詞數(shù)量(即,通過逐一遞減構成字詞的數(shù)量)的情況下重復這些操作,直到源文本不再具有可以作為單位(作為字詞排列子集)而被提取的相鄰字詞。以下,將在步驟36通過最長匹配原則從源文本分割的字詞或字詞排列簡稱為"字詞",并且將總字詞數(shù)量(分割的字詞的數(shù)量)稱作"a"。在步驟38,從雙語詞典DB獲得與在步驟36從源文本分割的各個字詞對應于的所有平行翻譯,并且將獲得的針對各個字詞的平行翻譯存儲在HDD16C中。在接下來的步驟40,生成在步驟38獲得的對各個字詞的平行翻譯的組合模式。即,例如,當分割的字詞的數(shù)量為a并且各個字詞的平行翻譯的各自數(shù)量分別為rn、ri2…,na時,生成n,Xn2X…Xiia個平行翻譯的組合模式。步驟40對應于根據(jù)本發(fā)明的裝置的生成部。在接下來的步驟42,通過使用由網(wǎng)絡搜索服務提供服務器提供的搜索服務,順序執(zhí)行網(wǎng)絡搜索,以從經(jīng)由因特網(wǎng)14可訪問的所有文本中搜索包括在步驟40生成的各個平行翻譯組合模式的文本。具體地說,步驟40包括以下處理訪問提供由網(wǎng)絡搜索服務提供服務器操作的檢索服務的網(wǎng)絡站點;指定特定平行翻譯組合模式作為搜索的關鍵詞,并且發(fā)出執(zhí)行搜索的命令;并且在HDD16C中存儲從網(wǎng)絡搜索服務提供服務器發(fā)送的搜索結果(包括指定關鍵詞的文本的命中數(shù))??梢灾付ㄋ阉鳁l件,以使得僅搜索如下的文本在該文本中,特定平行翻譯組合模式的各個平行翻譯字詞按與在該特定平行翻譯組合模式中的出現(xiàn)順序相同的順序連續(xù)出現(xiàn)。對每個生成的平行翻譯組合模式按順序重復這些操作。步驟42對應于根據(jù)本發(fā)明的搜索部,并且還對應于確定部指定確定對象的整個字詞排列作為搜索對象并操作搜索部以使其執(zhí)行對該排列的搜索的步驟、以及確定部指定多個平行翻譯字詞排列的全部作為搜索對象并且操作搜索部以使其執(zhí)行對各個排列的搜索的步驟。在步驟44,參考HDD16C中存儲的搜索結果,并且確定是否找到通過在步驟42的網(wǎng)絡搜索對其搜索出文本(命中數(shù)為一或更多)的平行翻譯組合模式。當確定為肯定時,在步驟46,識別由網(wǎng)絡搜索對其搜索出文本的平行翻譯組合模式的數(shù)量。當識別出的數(shù)量為一時,輸出由網(wǎng)絡搜索對其搜索出文本的這僅僅一個平行翻譯組合模式作為對應于源文本的平行翻譯文本候選項,例如通過將該模式顯示在客戶端16的顯示器等上來輸出,平行翻譯確定處理完成。當存在通過網(wǎng)絡搜索對其搜索到文本的多個平行翻譯組合模式時,確定這些平行翻譯組合模式中的具有最大命中文本數(shù)的平行翻譯組合模式,并且,基于具有最大命中文本數(shù)的平行翻譯組合模式(取為100%),計算其他平行翻譯組合模式的命中文本數(shù)相對于最大命中文本數(shù)的比例。通過例如將命中數(shù)的比例等于或大于閾值的平行翻譯組合模式顯示在客戶端16的顯示器上,輸出這些模式作為對應于源文本的平行翻譯文本候選項,平行翻譯確定處理完成。這樣,在步驟40生成的對應于整個源文本的多個平行翻譯組合模式中,輸出作為目標語言的句子具有最高自然度或較高自然度的平行翻譯組合模式,作為對應于源文本的平行翻譯文本候選項。步驟44和步驟46對應于根據(jù)本發(fā)明的確定部?,F(xiàn)在,將在下面通過實際實例說明步驟36到步驟46的上述處理。例如,當將日語的"Eiyo-Shiccho"指定為翻譯對象的源文本,將英語指定為目標語言,并且翻譯對象的整個源文本("Eiyo-Shiccho")還沒有在雙語詞典DB中登記時,在步驟32做出否定確定,在步驟36,將源文本分割為各個字詞"Eiyo"和"Shiccho"(分割字詞的數(shù)量a-2)。然后,在步驟38,對各個字詞從雙語詞典DB獲得平行翻譯。如果"Eiyo"的平行翻譯包括五個字詞"dietary(飲食)"、"alimentary(食物)"、"nutritional(營養(yǎng))"、"nutrition(營養(yǎng)學)"和"trophic(與營養(yǎng)有關的)",并且"Shiccho"的平行翻譯包括四個字詞"deficiency(缺乏)"、"disorder(紊亂)"、"disturbance(騷動)"和"disease(疾病)",則在步驟40,生成mXn2=5x4=20個平行翻譯組合模式(見下表1)。表1<"Eiyo-Shiccho"的平行翻譯組合模式的實例>16<table>tableseeoriginaldocumentpage17</column></row><table>當通過步驟42的網(wǎng)絡搜索獲得例如表2中所示的搜索結果時(表2中,平行翻譯組合模式以命中數(shù)的降序排序),由于平行翻譯組合模式"nutritionaldeficiency"得到最大命中數(shù)79600,所以模式"nutritiondisease"占命中數(shù)的86%的比例,并且模式"dietarydeficiency"占命中數(shù)的38%的比例。如果允許平行翻譯組合模式作為平行翻譯文本候選項而輸出的命中數(shù)的比例的閾值例如是70%,貝ij"nutritionaldeficiency"和"nutritiondisease"將作為平行翻譯文本候選項而輸出。如果允許平行翻譯組合模式作為平行翻譯文本候選項而輸出的命中數(shù)的比例的閾值是100%,則在每種情況下僅僅一個平行翻譯組合模式作為平行翻譯文本候選項而輸出(在該情況下為"nutritionaldeficiency")。表2<對于平行翻譯組合模式的網(wǎng)絡搜索結果的實例><table>tableseeoriginaldocumentpage17</column></row><table>在步驟40生成的平行翻譯組合模式不限于從源文本分割的按順序的平行翻譯字詞排列模式(例如,"[A][B]"的排列模式,其中,源文本=(A,B)并且A和B是單個字詞時,[A]是字詞A的平行翻譯,[B]是字詞B的平行翻譯,)。當目標語言例如為英語時可以生成如[B]of[A]的其他模式(與下面將說明的步驟60的平行翻譯組合模式的生成的情況相同)。下表3示出當除了模式"[A][B]"之外作為平行翻譯組合模式也生成"[B]of[A]"的模式時、對于以上參照表1和表2描述的實例的平行翻譯組合模式和網(wǎng)絡搜索結果。如表3所示,由于在該實例中模式的類型數(shù)為p-2,所以生成n,Xn2Xp-5X4X2-40個平行翻譯組合模式,并且對于每個平行翻譯組合模式執(zhí)行網(wǎng)絡搜索。表3#1<"Eiyo-Shiccho"的平行翻譯組合模式和網(wǎng)絡搜索結果的實例〉<table>tableseeoriginaldocumentpage18</column></row><table>在表3所示的實例中,比其他模式具有更高命中數(shù)比例的平行翻譯組合模式與表2中相同。因此,如果允許平行翻譯組合模式作為平行翻譯文本候選項而輸出的命中數(shù)比例閾值是70%,貝U"nutritionaldeficiency"和"nutritiondisease"將作為源文本"Eiyo-Shiccho"的平行翻譯文本候選項而輸出,如表2的情況。然而,對另一源文本可能輸出對應于模式"[B]of[A]"的其他平行翻譯組合模式,由此提高輸出更合適的平行翻譯文本候選項的概率。在上面參照表1到表3的描述中,為簡化起見,使用了指定僅具有很少幾個字詞的源文本進行翻譯的實例。然而,實際上,經(jīng)常指定句子作為要翻譯的源文本,并且這經(jīng)常導致找不到包括在步驟40生成的任何一個平行翻譯組合模式的文本的情況。在此情況,在步驟44做出否定確定后,在步驟48到步驟72,通過指定與源文本的字詞排列的一部分對應的平行翻譯組合模式作為搜索對象、并且對每個平行翻譯組合模式重復執(zhí)行網(wǎng)絡搜索,從而執(zhí)行選擇并輸出平行翻譯文本候選項的處理。在步驟44做出否定確定的情況對應于其中確定部指定確定對象的整個字詞排列作為搜索對象的搜索沒有提取到相關文本的情況,以及其中確定部指定確定對象的整個字詞排列作為搜索對象的針對排列的搜索沒有提取到相關文本的情況。步驟48到步驟72的流程對應于確定部的操作,步驟48到步驟72的流程中除了步驟59和步驟60外的各個步驟也對應于確定部的操作。在下面對步驟48到步驟72的說明中,將在下面說明如下實例將基于前述的最長匹配原則被分割為15個字詞(分割的字詞的數(shù)量『15)的源文本指定為搜索對象、并且通過使用由與源文本的15個字詞對應的15個平行翻譯字詞構成的平行翻譯字詞排列(o,p,q,r,s,t,u,v,w,x,y,z,a,b,c)來提取平行翻譯文本候選項。該排列中的平行翻譯字詞o,p,q,r,s,t,u,v,w,x,y,z,a,b禾口c分另U表示各自具有n。,np,nq,nr,ns,nt,nu,nv,nw,nx,ny,nz,na,nb禾tlnc個平行翻譯字詞的整個平行翻譯字詞。在步驟48,將通過從分割字詞的數(shù)量a減去1而獲得的值(在此情況下該值為14)分配給變量i,從而對變量i進行初始化。變量i表示如下所述對其執(zhí)行網(wǎng)絡搜索的字詞排列的長度。在接下來的步驟50,確定變量i的值是否為l。當確定為否定時,在步驟52,將值l分配給變量j。變量j表示如下所述對其執(zhí)行網(wǎng)絡搜索的字詞排列的開頭位置。在步驟54,確定通過將變量i加到變量j然后減去1而獲得的值是否大于值a(分割字詞的數(shù)量)。由于在該實例中值a為15,所以在步驟54的確定為否定,并且處理轉到步驟58。在步驟58,確定通過在下面說明的網(wǎng)絡搜索是否沒有提取到源文本中的a個字詞中的第j個字詞到第(j+i-l)個字詞中的任一個。此時,因為還沒有執(zhí)行網(wǎng)絡搜索,所以確定是肯定的,并且處理轉到步驟59。在接下來的步驟59,生成對應于源文本中的第j個字詞到第(j+i-l)個字詞的平行翻譯字詞的組合模式(平行翻譯組合模式)。步驟59對應于生成部的操作,并且對應于確定部的對生成部進行操作以使其生成多個平行翻譯字詞子排列的步驟。在步驟59生成的平行翻譯組合模式對應于比多個平行翻譯字詞排列具有更小長度的多個平行翻譯字詞子排列,所述多個子排列對應于源語言的源文本中的連續(xù)的預定數(shù)量字詞的平行翻譯字詞的組合,并且還對應于"字詞子排列",因為在步驟59生成的平行翻譯組合模式是在步驟40生成的平行翻譯組合模式的一部分。在接下來的步驟60,對在步驟59生成的各個平行翻譯組合模式順序地執(zhí)行網(wǎng)絡搜索,以通過使用由網(wǎng)絡搜索服務提供服務器提供的搜索服務,從經(jīng)由因特網(wǎng)14可訪問的所有文本中,搜索包括該平行翻譯組合模式的文本(即,其中搜索對象的平行翻譯組合模式的各個平行翻譯字詞按與該平行翻譯組合模式中的字詞的出現(xiàn)順序相同的順序連續(xù)出現(xiàn)的文本)。此時,在變量〗=1和(j+i-l)=14的條件下,如下所述,在步驟59生成與由"I"劃界的從o到b的平行翻譯字詞排列對應的平行翻譯組合模式(生成的平行翻譯組合模式的數(shù)量-n。XnpX…Xrib),并且在步驟60順序執(zhí)行網(wǎng)絡搜索,以搜索包括生成的各個平行翻譯組合模式中的每一個的文本。|opqrstuvwxyzab|c在接下來的步驟62,確定是否找到由步驟60執(zhí)行的網(wǎng)絡搜索對其提取了相關文本(即,命中文本數(shù)為l或更多)的任何平行翻譯組合模式。當做出否定確定時,在步驟64,變量j遞增l,并且處理返回到步驟54。此時,在變量」=2和(j+i-l)=15的條件下,在步驟54的確定是否定的,并且在步驟58的確定是肯定的,處理轉到步驟59。在步驟59,如下所示,生成與從p到c的平行翻譯字詞排列對應的平行翻譯組合模式,其中,相對于先前字詞排列,位置向后移了一個字詞,并且與先前生成的排列具有相同的字詞數(shù)量(生成的平行翻譯組合模式的數(shù)量二npXnqX…Xnc),并且在步驟60順序執(zhí)行網(wǎng)絡搜索,以搜索包括生成的平行翻譯組合模式中的任一個的文本。o|pqrstuvwxyzabc|如果仍然沒有找到通過該網(wǎng)絡搜索對其提取了相關文本的平行翻譯組合模式并且在步驟62做出否定確定,則在步驟64,變量j再次遞增l,并且處理返回到步驟54。此時,在變量」=3和(j+i-l)=16的條件下,在步驟54做出肯定確定后,變量i在步驟56遞減l(—13),并且處理返回到步驟50。在步驟50的確定后,在步驟52將變量j復位為1。此時,在變量j-l和(j+i-1)=13的條件下,在步驟54和步驟58的確定后,在步驟59,如下所示,生成與從o到a的平行翻譯字詞排列對應的平行翻譯組合模式(生成的平行翻譯組合模式的數(shù)量-n。XnpX…Xna),并且在步驟60順序執(zhí)行網(wǎng)絡搜索,以搜索包括生成的各個平行翻譯組合模式中的任一個的文本。|opqrstuvwxyza|bc如果仍然沒有找到通過網(wǎng)絡搜索對其提取了相關文本的平行翻譯組合模式并且在步驟62做出否定確定,則在步驟64,變量j再次遞增1,并且處理返回到步驟54。此時,在變量j-2和(j+i-l)=14的條件下,在步驟54和步驟58的確定后,在步驟59,如下所示,生成與從p到b的平行翻譯字詞排列對應的平行翻譯組合模式,其中,相對于先前的字詞排列,位置向后移了一個字詞,并且與先前生成的排列具有相同的字詞數(shù)量(生成的平行翻譯組合模式的數(shù)量npXnqX…Xnb),并且在步驟60順序執(zhí)行網(wǎng)絡搜索,以搜索包括生成的平行翻譯組合模式中的任一個的文本。o|pqrstuvwxyzab|c如果仍然沒有找到通過網(wǎng)絡搜索對其提取了相關文本的平行翻譯組合模式并且在步驟62做出否定確定,則在步驟64,變量j再次遞增l,并且處理返回到步驟54。此時,在變量,3和(j+i-l)=15的條件下,在步驟54和步驟58的確定后,在步驟59,如下所示,生成與從q到c的平行翻譯字詞排列對應的平行翻譯組合模式,其中,位置相對于先前的字詞排列向后移了一個字詞,并且與先前生成的排列具有相同的字詞數(shù)量(生成的平行翻譯組合模式的數(shù)量^nqXn,.X…Xne),并且在步驟60順序執(zhí)行網(wǎng)絡搜索,以搜索包括生成的平行翻譯組合模式中的任一個的文本。op|qrstuvwxyzabc|如果仍然沒有找到通過網(wǎng)絡搜索對其提取了相關文本的平行翻譯組合模式并且在步驟62做出否定確定,則在步驟64,變量j再次遞增l,并且處理返回到步驟54。此時,在變量j^4和(j+i-l)=16的條件下,在步驟54做出肯定確定后,在步驟56,變量i遞減l(i=12),并且處理返回到步驟50。在步驟50的確定后,在步驟52,將變量j復位為1。此時,在變量j=l和(j+i-l)=12的條件下,在步驟54和步驟58的確定后,在步驟59,如下所示,生成與從o到z的平行翻譯字詞排列對應的平行翻譯組合模式(生成的平行翻譯組合模式的數(shù)量二n。XnpX…Xn》,并且在步驟60順序執(zhí)行網(wǎng)絡搜索,以搜索包括生成的平行翻譯組合模式之一的文本。|opqrstuvwxyz|abc類似地,當沒有找到通過網(wǎng)絡搜索對其提取了相關文本的平行翻譯組合模式時,重復進行以下操作針對其中源文本中的字詞排列(其用于生成)的先頭字詞的位置相對于源文本中的先前字詞排列向后移動一個字詞的字詞排列而生成平行翻譯組合模式,并且對每個生成的模式進行網(wǎng)絡搜索。每當源文本中的用于生成平行翻譯組合模式的字詞排列的末尾到達源文本的末尾時(每當在步驟54做出肯定確定時),將源文本中的用于生成平行翻譯組合模式的字詞排列的長度減小一個字詞?,F(xiàn)在,將在下面通過如下實例來說明隨后的處理其中,在變量i(即,源文本中的用于生成平行翻譯組合模式的字詞排列中的字詞數(shù)量)=4、變量j(即,源文本中的用于平行翻譯組合模式的生成的字詞排列中的先頭字詞的位置)=4、并且(j+i-l)=7的條件下,在步驟54和步驟58的確定后,在步驟59,如下所示,生成與從r到u的平行翻譯字詞排列對應的平行翻譯組合模式(生成的平行翻譯組合模式的數(shù)量-XnsXntXnu),并且在步驟60順序執(zhí)行網(wǎng)絡搜索,以搜索包括生成的平行翻譯組合模式中的任一個的文本,從而找到對其提取了相關文本的平行翻譯組合模式。opq|rstu|vwxyzabc''在此情況下,在步驟62做出肯定確定后,在步驟66,識別由網(wǎng)絡搜索對其提取了相關文本的平行翻譯組合模式的數(shù)量。當識別的數(shù)量為1時,將通過網(wǎng)絡搜索對其提取了相關文本的僅僅一個平行翻譯組合模式存儲在HDD16C(存儲部)中,作為源文本的字詞排列中的針對第j個到第(j+i-l)個字詞的排列的平行翻譯候選項。當存在通過步驟60的網(wǎng)絡搜索對其提取了相關文本的多個平行翻譯組合模式時,確定這些平行翻譯組合模式中具有最大命中文本數(shù)的平行翻譯組合模式,并且,基于具有最大命中文本數(shù)的平行翻譯組合模式(取為100%),計算針對其他平行翻譯組合模式的命中文本數(shù)的比例。然后,將具有等于或大于閾值的命中數(shù)比例的平行翻譯組合模式存儲在HDD16C中,作為源文本中的字詞排列中的第j個到第(j+i-l)個字詞的排列的平行翻譯候選項。在接下來的步驟68,變量j遞增l,并且處理返回到步驟54。此時,在變量j^5并且(j+i-l)=8的條件下,盡管在步驟54做出了否定確定,但是與源文本中的第4到第7個字詞對應的平行翻譯字詞已經(jīng)通過網(wǎng)絡搜索具有命中文本(具有命中文本的平行翻譯字詞在下面以括號"["和"]"之間的大寫字母示出)。opq[RSTU]vwxyzabc因此,在步驟58還做出否定確定,變量j在步驟64遞增l,并且處理返回到步驟54。因此,在步驟58的確定對應于步驟"從要用于隨后生成平行翻譯字詞子排列的字詞中排除源文本中的與存儲在存儲部中的平行翻譯字詞子排列對應的預定數(shù)量的詞"。重復步驟54、58和64的循環(huán),直到在變量卜8和(j+i-l)=11、并且沒有找到與源文本中的第j個到第(j+i-l)個字詞對應且通過網(wǎng)絡搜索具有命中文本的平行翻譯字詞的條件下,在步驟58做出肯定確定為止。此后,在變量j=8和(j+i-l)=11的條件下,在步驟58做出肯定確定,在步驟59,如下所示,生成與從v到y(tǒng)的平行翻譯字詞排列對應的平行翻譯組合模式(生成的平行翻譯組合模式的數(shù)量二nvXnwXi^Xny),并且在步驟60順序執(zhí)行網(wǎng)絡搜索,以搜索包括生成的各個平行翻譯組合模式中的任一個的文本。opq[RSTU]lvxwy|zabc如果沒有找到通過網(wǎng)絡搜索對其提取了相關文本的平行翻譯組合模式并且在步驟62做出否定確定,則在步驟64,變量j再次遞增l,并且處理返回到步驟54。此時,在變量,9和(j+i-l)=12的條件下,在步驟54和步驟58的確定后,如下所示,在步驟59,生成與從w到z的平行翻譯字詞排列對應的平行翻譯組合模式,其中,位置相對于先前的字詞排列向后移了一個字詞,并且與先前生成的排列具有相同的字詞數(shù)量(生成的平行翻譯組合模式的數(shù)量-r^Xr^XnyXn》,并且在步驟60順序執(zhí)行網(wǎng)絡搜索,以搜索包括生成的平行翻譯組合模式中的任一個的文本。opq[RSTU]v|wxyz|abc在找到通過網(wǎng)絡搜索對其提取了相關文本的任一平行翻譯組合模式的情況下,在步驟62做出肯定確定后,處理轉到步驟66。在步驟66,當通過網(wǎng)絡搜索對其提取了相關文本的平行翻譯組合模式的數(shù)量為1時,將通過網(wǎng)絡搜索對其提取了相關文本的僅僅一個平行翻譯組合模式存儲在HDD16C中,作為源文本中的字詞排列中的第j個到第(j+i-l)個字詞的排列的平行翻譯候選項。當存在通過網(wǎng)絡搜索對其提取了相關文本的多個平行翻譯組合模式時,相對于這些平行翻譯組合模式中的具有最大命中文本數(shù)的平行翻譯組合模式的命中文本數(shù)(取為100%),計算平行翻譯組合模式的命中文本數(shù)的比例。將具有等于或大于閾值的命中數(shù)比例的平行翻譯組合模式存儲在HDD16C中,作為源文本中的字詞排列中的第j個到第(j+i-l)個字詞的排列的平行翻譯候選項。然后,變量j遞增l,處理返回步驟54。此時,在變量j^0和(j+i-l)=13的條件下,盡管在步驟54做出否定確定,但是與源文本中的第4到第7個字詞以及第8到第11個字詞對應的平行翻譯字詞已經(jīng)具有由網(wǎng)絡搜索提取的命中文本(見下面的平行翻譯字詞排列)。opq[RSTU]v[WXYZ]abc因此,在步驟58做出否定確定,并且處理進入上述的步驟54、58和64的循環(huán)。此時,由于源文本中的第11個字詞之后的其對應平行翻譯字詞沒有被網(wǎng)絡搜索命中的連續(xù)字詞只有3(<i)個,所以在變量j—3和(j+i-l)=16的條件下,在步驟54做出肯定確定,由此在變量(平行翻譯字詞的數(shù)量)i=4的情況下的平行翻譯組合模式的搜索結束。然后,在步驟56,變量i遞減l(i=3),并且在步驟50的確定后,在步驟52將變量j復位為1。然后,執(zhí)行在變量(平行翻譯字詞的數(shù)量)—3的情況下的平行翻譯組合模式的搜索。因為在源文本中只有第1到第3個字詞以及第13到第15個字詞是連續(xù)包含三個或更多字詞并且對應的平行翻譯字詞未被網(wǎng)絡搜索命中的排列,所以,僅對從o到q的平行翻譯字詞排列以及從a到c的平行翻譯字詞排列來按順序執(zhí)行平行翻譯組合模式的生成(步驟59)以及對包括生成的平行翻譯組合模式中的任一個的文本的網(wǎng)絡搜索(步驟60)。iopql[RSTU]v[WXYZ]abcopq[RSTU]v[WXYZ]iabcl在找到通過對與從a到c的平行翻譯字詞相對應的平行翻譯組合模式的網(wǎng)絡搜索而對其提取了相關文本的任何平行翻譯組合模式的情況下,在步驟66,當通過網(wǎng)絡搜索對其提取了相關文本的平行翻譯組合模式的數(shù)量為1時,將通過網(wǎng)絡搜索對其提取了相關文本的僅僅一個平行翻譯組合模式存儲在HDD16C中,作為源文本中的字詞排列中的第j個到第(j+i-l)個字詞(即,第13個到第15個字詞)的排列的平行翻譯候選項。當存在對其提取了相關文本的多個平行翻譯組合模式時,相對于這些平行翻譯組合模式中的具有最大命中數(shù)的平行翻譯組合模式的命中文本數(shù)量(取為100%),計算平行翻譯組合模式的命中文本數(shù)量的比例。并且將命中文本數(shù)量的比例等于或大于閾值的平行翻譯組合模式存儲在HDD16C中,作為源文本中的第13個到第15個字詞的排列的平行翻譯候選項。當在變量(平行翻譯字詞的數(shù)量)i=3的情況下的所有平行翻譯組合模式的搜索結束時,平行翻譯字詞排列如下所示。opq[RSTU]v[WXYZ][ABC]接下來,將執(zhí)行變量(平行翻譯字詞的數(shù)量)1=2的情況下的平行翻譯組合模式的搜索。因為在源文本中只有第1到第3個字詞是連續(xù)包含兩個或更多個字詞并且對應的平行翻譯字詞沒有被網(wǎng)絡搜索命中的排列,所以如下所示,僅對從o到p的平行翻譯字詞排列和從p到q的平行翻譯字詞排列按順序執(zhí)行平行翻譯組合模式的生成(步驟59)以及對包括生成的平行翻譯組合模式中的任一個的文本的網(wǎng)絡搜索(步驟60)。|op|q[RSTU]v[WXYZ][ABC]o|pq|[RSTU]v[WXYZ][ABC]在找到通過對與平行翻譯字詞p和q相對應的平行翻譯組合模式的網(wǎng)絡搜索而對其提取了相關文本的任何平行翻譯組合模式的情況下,在步驟66,當通過網(wǎng)絡搜索對其提取了相關文本的平行翻譯組合模式的數(shù)量為1時,將通過網(wǎng)絡搜索對其提取了相關文本的僅僅一個平行翻譯組合模式存儲在HDD16C中,作為源文本中的字詞排列中的第j個到第(j+i-l)個字詞(即,第2個到第3個字詞)的排列的平行翻譯候選項。當存在對其提取了相關文本的多個平行翻譯組合模式時,計算平行翻譯組合模式的命中文本數(shù)量相對于這些平行翻譯組合模式中具有最大命中文本數(shù)量的平行翻譯組合模式的命中文本數(shù)量(取為100%)的比例。并且將命中文本數(shù)量的比例等于或大于閾值的平行翻譯組合模式存儲在HDD16C中,作為源文本中的第2個到第3個字詞的排列的平行翻譯候選項。當在變量(平行翻譯字詞的數(shù)量)i=2的情況下的所有平行翻譯組合模式的搜索結束時,平行翻譯字詞的排列如下所示。o[PQHRSTU]v[WXYZ][ABC]當在變量(平行翻譯字詞的數(shù)量)1=2的情況下的所有平行翻譯組合模式的搜索結束時,在步驟54做出肯定確定,并且變量i在步驟56遞減1(—1),從而在步驟50做出肯定確定,由此處理轉到步驟70。在處理轉到歩驟70時,要翻譯的源文本中的字詞排列已經(jīng)分割為被認為提供更合適的平行翻譯文本的幾個分割模式(在上述實例中是字詞排列[PQ]、、[WXYZ]和[ABC](其中將具有等于或大于閾值的命中數(shù)比例的其平行翻譯組合模式存儲在HDD16C中,作為平行翻譯候選項)以及其他字詞o和v)。在步驟70,在被分割為分割模式的源文本的各個組成部分(字詞排列或字詞)中,對于存儲有各自具有等于或大于閾值的命中數(shù)比例的平行翻譯候選項(平行翻譯組合模式)的字詞排列,從HDD16C讀出所有平行翻譯候選項,而對于對應的平行翻譯字詞未能通過網(wǎng)絡搜索對其提取文本的字詞,從HDDI6C讀出從雙語詞典DB獲得的所有平行翻譯字詞。然后,生成讀出的平行翻譯候選項和平行翻譯字詞的組合(平行翻譯文本候選項)。因此,當分割模式具有b個組成部分,并且各個組成部分具有m,n2,…,nb個平行翻譯候選項或平行翻譯字詞時,生成n,Xn2X…Xnb個平行翻譯文本候選項。然后,對在上述處理中生成的所有平行翻譯文本候選項順序執(zhí)行網(wǎng)絡搜索,以通過使用由網(wǎng)絡搜索服務提供服務器提供的搜索服務,從經(jīng)由因特網(wǎng)14可訪問的所有文本中,搜索包括所生成的平行翻譯文本候選項中的所有平行翻譯字詞的文本(包括特定平行翻譯文本候選項中的每個平行翻譯字詞、而無論字詞順序與該特定平行翻譯文本候選項中的順序相同還是不同以及字詞是連續(xù)使用還是分開使用的文本)。這檢查了各個平行翻譯文本候選項中的平行翻譯字詞的共同出現(xiàn)概率。在接下來的步驟72,當找到在步驟70通過網(wǎng)絡搜索對其提取了相關文本的一個平行翻譯文本候選項時,輸出通過網(wǎng)絡搜索對其提取了文本的僅僅一個平行翻譯文本候選項,作為對應于源文本的平行翻譯文本候選項,并且平行翻譯確定處理結束。當在步驟70存在通過網(wǎng)絡搜索對其提取了相關文本的多個平行翻譯文本候選項時,相對于這些平行翻譯文本候選項中具有最大命中文本數(shù)的平行翻譯文本候選項的命中文本數(shù)(取為100%),計算其他平行翻譯文本候選項的命中文本數(shù)的比例。然后,輸出具有等于或大于閾值的命中文本數(shù)比例的平行翻譯文本候選項,作為對源文本的平行翻譯文本候選項,并且平行翻譯確定處理結束。此27外,在此情況中,在包括在步驟66基于網(wǎng)絡搜索結果而存儲在HDD16C中的平行翻譯候選項的多個平行翻譯文本候選項中,輸出基于共同出現(xiàn)概率而被認為作為目標語言的句子具有最高或較高自然度的平行翻譯文本候選項,作為對應于源文本的平行翻譯文本候選項。在上述實施方式中,生成與源文本字詞中的在源文本中連續(xù)的預定數(shù)量個字詞的平行翻譯字詞的各個組合相對應的多個平行翻譯組合模式,對于每個生成的平行翻譯組合模式,在源文本中的要用于生成平行翻譯組合模式的字詞數(shù)量逐一減小的情況下重復地執(zhí)行對包括所生成平行翻譯組合模式的文本的順序搜索,將通過搜索對其提取了相關文本的平行翻譯組合模式采用(存儲)為平行翻譯候選項,并且從要用于隨后生成平行翻譯組合模式的字詞中排除源文本中的與所采用的平行翻譯組合模式對應的字詞排列。因此,主要基于通過搜索對其提取了相關文本的平行翻譯組合模式的長度(字詞數(shù)量)、而不是通過搜索提取的相關文本的數(shù)量來確定平行翻譯文本候選項。然而,本發(fā)明不限于上述實施方式。為了消除如下的可能性盡管特定的長平行翻譯組合模式在目標語言中具有較低程度的自然度,但是因為碰巧從經(jīng)由因特網(wǎng)可訪問的文本中找到了包括該特定平行翻譯組合模式的文本,所以仍然將該平行翻譯組合模式采用為平行翻譯文本候選項的一部分,例如,在對平行翻譯組合模式的搜索中,僅當相關命中文本的數(shù)量等于或大于基準值時,才可以將對應的平行翻譯組合模式采用為平行翻譯候選項。另選的是,可以不從要用于隨后生成平行翻譯組合模式的字詞中排除源文本中的與提取了相關文本的平行翻譯組合模式相對應的字詞排列。在生成了平行翻譯組合模式并且對生成的平行翻譯組合模式進行了網(wǎng)絡搜索后,對通過網(wǎng)絡搜索對其提取了相關文本的所有平行翻譯組合模式,可以將平行翻譯組合模式的長度以及平行翻譯組合模式的命中文本數(shù)進行比較,以選擇要用作平行翻譯候選項的平行翻譯組合模式,并且可以生成平行翻譯文本候選項。在上述方面中,雙語詞典DB存儲在客戶端16的HDD16C中,但是本發(fā)明不限于該實施方式。例如,如圖3A所示,可以使用其他的結構,其中雙語詞典DB存儲在網(wǎng)絡服務器12的HDD12C中,該網(wǎng)絡服務器12與因特網(wǎng)14連接并且用作雙語(多語/平行翻譯)服務提供服務器。為了確定對要翻譯的指定源文本的平行翻譯,客戶端16可以通過參照雙語服務提供服務器而獲得對源文本中各個字詞的平行翻譯(見圖3A的(1)到(3)),然后可以基于對各個字詞獲得的平行翻譯而執(zhí)行網(wǎng)絡搜索,以確定源文本的平行翻譯文本(對應于源文本的平行翻譯文本候選項)。在上述實施方式中,對源文本的平行翻譯(對應于源文本的平行翻譯文本候選項)的確定是在客戶端16進行的,但是本發(fā)明不限于該實施方式。例如,如圖3B所示,可以使用其他的結構,其中雙語詞典DB存儲在用作雙語服務提供服務器的網(wǎng)絡服務器12的HDD12C中,并且用于執(zhí)行與上述的平行翻譯確定處理類似的處理的程序預先安裝在HDD12C中。在通過從客戶端16接收源文本的文本數(shù)據(jù)而詢問源文本的平行翻譯文本時(見圖3B的(l)),網(wǎng)絡服務器12可以從雙語詞典DB獲得對接收的源文本中的各個字詞的平行翻譯,基于對各個字詞獲得的平行翻譯執(zhí)行網(wǎng)絡搜索,確定源文本的平行翻譯文本(對應于源文本的平行翻譯文本候選項)(見圖3B的(2)),并且將確定的平行翻譯文本發(fā)送到進行詢問的客戶端16(見圖3B的(3))。在上述方面中,用作雙語服務提供服務器的網(wǎng)絡服務器12對應于計算機,并且預先安裝在網(wǎng)絡服務器12中的程序對應于用于確定字詞排列的自然度的程序。此外,在上述描述中,本發(fā)明應用到用于確定與指定為翻譯對象的源文本對應的平行翻譯文本的實施方式;但是本發(fā)明不限于確定平行翻譯文本。例如,本發(fā)明可以應用到如下的實施方式當存在各自構成為句子的多個字詞排列時,自動確定并評估作為句子具有較高自然度的字詞排列。權利要求1.一種用于確定字詞排列的自然度的裝置,該裝置在連接到因特網(wǎng)的計算機中實現(xiàn),該裝置包括搜索部,用于在經(jīng)由因特網(wǎng)可訪問的文本中搜索指定為搜索對象的字詞排列;以及確定部,用于通過將其中排列了多個字詞的確定對象的字詞排列指定為搜索對象而使得所述搜索部執(zhí)行所述搜索,并且,基于通過所述搜索而提取的文本的是否存在以及提取的文本的數(shù)量,來確定所述字詞排列作為句子的自然度。2.如權利要求1所述的用于確定字詞排列的自然度的裝置,其中,所述確定部將所述確定對象的整個字詞排列指定為搜索對象并使得所述搜索部針對該排列執(zhí)行搜索,并且,當通過該搜索沒有提取到相關文本時,所述確定部重復執(zhí)行以下處理.*從所述確定對象的字詞排列中提取長度比所述確定對象的整個字詞排列的長度小的字詞子排列作為搜索對象、并通過指定所述字詞子排列作為搜索對象而使得所述搜索部執(zhí)行搜索、同時被提取作為搜索對象的字詞子排列的長度逐漸減小,并且,所述確定部基于通過所述搜索而提取的文本的是否存在、通過所述搜索而提取的文本的數(shù)量、以及作為對其提取了文本的搜索對象的字詞子排列的長度,來確定所述字詞排列作為句子的自然度。3.如權利要求1所述的用于確定字詞排列的自然度的裝置,該裝置還包括生成部,用于對源語言的源文本的各個字詞獲得目標語言的平行翻譯字詞,并且生成所述目標語言中的與對所述源文本的各個字詞獲得的平行翻譯字詞的組合對應的多個平行翻譯字詞排列作為所述確定對象的字詞排列,其中,所述確定部指定由所述生成部生成的所述多個平行翻譯字詞排列中的每一個作為搜索對象,并使得所述搜索部對這些排列中的每一個執(zhí)行搜索,并且,所述確定部基于由各個搜索而提取的文本的是否存在以及提取的文本的數(shù)量,從所述多個平行翻譯字詞排列中,選擇作為所述目標語言的句子具有較高自然度的平行翻譯字詞排列。4.如權利要求3所述的用于確定字詞排列的自然度的裝置,其中,所述確定部指定所述多個平行翻譯字詞排列中的整個排列作為搜索對象,并使得所述搜索部對這些排列中的每一個執(zhí)行搜索;當該搜索沒有提取到相關文本時,所述確定部重復執(zhí)行如下處理使得所述生成部生成多個平行翻譯字詞子排列,這些平行翻譯字詞子排列中的每一個都具有小于所述多個平行翻譯字詞排列中的整個排列的長度,所述多個子排列是與源語言的源文本中的連續(xù)的預定數(shù)量的字詞對應的平行翻譯字詞的組合,并且所述確定部指定生成的所述多個平行翻譯字詞子排列中的每一個作為搜索對象并使得所述搜索部針對這些子排列中的每一個執(zhí)行搜索,同時所述源文本中的要用于生成所述平行翻譯字詞子排列的字詞的數(shù)量逐漸減??;并且,所述確定部基于通過所述搜索而提取的文本的是否存在、提取的文本的數(shù)量、以及作為對其提取了文本的搜索對象的平行翻譯字詞子排列中的字詞數(shù)量,從所述多個平行翻譯字詞排列中選擇作為目標語言中的句子具有較高自然度的平行翻譯字詞排列。5.如權利要求4所述的用于確定字詞排列的自然度的裝置,該裝置還包括存儲部,其中,每當通過所述搜索提取到相關文本時,所述確定部都將用于該搜索的平行翻譯字詞子排列存儲在存儲部中,并從要用于隨后生成平行翻譯字詞子排列的字詞中排除所述源文本中的與所存儲的平行翻譯字詞子排列對應的預定數(shù)量的字詞,并且,當在所述源文本中不存在可以用于隨后生成平行翻譯字詞子排列的連續(xù)的更多字詞時,針對所存儲的平行翻譯字詞子排列的各個組合,所述確定部使得所述搜索部針對包括該組合中的所有平行翻譯字詞的文本執(zhí)行搜索,并且,所述確定部基于包括該組合中的所有平行翻譯字詞的文本的是否存在、以及包括所有平行翻譯字詞并由所述搜索提取到的文本的數(shù)量,從所存儲的平行翻譯字詞子排列的組合中選擇作為目標語言中的句子具有較高自然度的平行翻譯字詞子排列的組合。6.—種用于確定字詞排列的自然度的方法,該方法在連接到因特網(wǎng)的計算機中實現(xiàn),該方法包括以下步驟在經(jīng)由因特網(wǎng)可訪問的文本中搜索其中排列了多個字詞的確定對象的字詞排列;以及基于通過所述搜索而提取的文本的是否存在以及提取的文本的數(shù)量,確定所述確定對象的字詞排列作為句子的自然度。7.—種存儲用于確定字詞排列的自然度的程序的存儲介質,所述程序使得連接到因特網(wǎng)的計算機可以用作用于確定字詞排列的自然度的裝置,所述程序使得所述計算機執(zhí)行包括以下步驟的處理.在經(jīng)由因特網(wǎng)可訪問的文本中搜索指定為搜索對象的字詞排列,通過指定其中排列了多個字詞的確定對象的字詞排列作為搜索對象來執(zhí)行所述搜索;以及基于通過所述搜索而提取的文本的是否存在、以及提取的文本的數(shù)量,來確定指定的所述確定對象的字詞排列作為句子的自然度。全文摘要提供了確定字詞排列作為句子的自然度的裝置。當要翻譯的整個源文本沒有在詞典中登記時,將源文本分割為多個字詞。獲得對源文本中的各個字詞的平行翻譯以生成平行翻譯模式,并且對包括各個平行翻譯模式的文本進行網(wǎng)絡搜索(步驟36到44)。文檔編號G06F17/28GK101297288SQ20068003969公開日2008年10月29日申請日期2006年10月25日優(yōu)先權日2005年10月28日發(fā)明者五石順一申請人:株式會社旅世德
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1