亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

借助多語(yǔ)文本輸入的第三語(yǔ)言文本生成算法及其設(shè)備和程序的制作方法

文檔序號(hào):6426990閱讀:270來(lái)源:國(guó)知局
專利名稱:借助多語(yǔ)文本輸入的第三語(yǔ)言文本生成算法及其設(shè)備和程序的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及使用機(jī)器翻譯生成高準(zhǔn)確度目標(biāo)語(yǔ)言文本的技術(shù)。更確切地說(shuō),本發(fā)明涉及通過(guò)輸入多種語(yǔ)言并合并語(yǔ)言信息,從而提高目標(biāo)語(yǔ)言文本生成的準(zhǔn)確度的技術(shù)。
背景技術(shù)
近來(lái),已經(jīng)在計(jì)算機(jī)上記錄了大量信息,并且因特網(wǎng)的使用也相當(dāng)普遍。特別地,由于因特網(wǎng)的使用越來(lái)越廣泛,產(chǎn)生的一個(gè)更大問(wèn)題是能夠訪問(wèn)此類數(shù)字?jǐn)?shù)據(jù)的人員與不能訪問(wèn)此類數(shù)字?jǐn)?shù)據(jù)人員之間的隔閡,即所謂的數(shù)字鴻溝。
另外,因特網(wǎng)上記錄的大部分信息是用諸如英語(yǔ)之類的大語(yǔ)種書(shū)寫(xiě)的,并且理解此語(yǔ)種的人員與不理解此語(yǔ)種的人員之間的隔閡也是一個(gè)大問(wèn)題。
為了消除上述語(yǔ)言障礙引起的數(shù)字鴻溝,國(guó)內(nèi)外的許多公司和實(shí)驗(yàn)室迄今為止一直在各種場(chǎng)合進(jìn)行機(jī)器翻譯的研究。
例如,使用文集研究機(jī)器翻譯,其中文集使用雙語(yǔ)輸入語(yǔ)言輸出語(yǔ)言獲取將某種語(yǔ)言翻譯為另一種語(yǔ)言所需的知識(shí)。然而,只有提供大規(guī)模雙語(yǔ)文本數(shù)據(jù)的語(yǔ)言,上述翻譯才是可行的。此外,翻譯有助于比到目前為止更準(zhǔn)確的機(jī)器翻譯,但是只能用于大語(yǔ)種,因?yàn)閮H僅獲取知識(shí)。
如上所述,迄今為止研究的大部分技術(shù)只能互譯大語(yǔ)種,因此上述技術(shù)無(wú)助于消除語(yǔ)言障礙引起的數(shù)字鴻溝。包含因特網(wǎng)在內(nèi)的信息技術(shù)進(jìn)一步擴(kuò)大了上述隔閡,迫切需要在致命隔閡出現(xiàn)前解決上述問(wèn)題。然而,發(fā)展中國(guó)家無(wú)法承擔(dān)開(kāi)發(fā)語(yǔ)言資源和技術(shù)的費(fèi)用,因此信息產(chǎn)業(yè)很難進(jìn)行大量沒(méi)有利潤(rùn)的投資。即使發(fā)達(dá)國(guó)家也不可能承擔(dān)獨(dú)立處理許多小語(yǔ)種的費(fèi)用。
為了解決上述問(wèn)題,人們?cè)噲D開(kāi)發(fā)能夠以較低費(fèi)用處理小語(yǔ)種的語(yǔ)言處理技術(shù),但是迄今為止此類技術(shù)的開(kāi)發(fā)很慢。
另外,目前機(jī)器翻譯的準(zhǔn)確度尚未達(dá)到廣泛實(shí)用的程度。有一句話說(shuō)得好一句話本身是不能完全理解的,只有理解其上下文后才能理解一句話。然而,現(xiàn)有自然語(yǔ)言處理技術(shù)還不足以處理上下文。

發(fā)明內(nèi)容
本發(fā)明旨在克服現(xiàn)有技術(shù)的上述問(wèn)題。本發(fā)明的目的在于提供用于生成第三語(yǔ)言文本的技術(shù),從而機(jī)器翻譯不僅能夠互譯大語(yǔ)種,而且能夠互譯大語(yǔ)種和小語(yǔ)種。本發(fā)明的另一個(gè)目的在于提供生成文本的技術(shù),該技術(shù)能夠以比以往準(zhǔn)確度更高的準(zhǔn)確度生成文本。
為了解決上述問(wèn)題,本發(fā)明使用以下第三語(yǔ)言文本生成算法。更確切地說(shuō),本發(fā)明的創(chuàng)新技術(shù)為通過(guò)使用眾多多語(yǔ)文本生成新的第三語(yǔ)言文本的技術(shù)。本發(fā)明的算法包括以下步驟(1)輸入用不同語(yǔ)言書(shū)寫(xiě)的兩個(gè)或更多多語(yǔ)文本,不同語(yǔ)言包括作為源語(yǔ)言的第一語(yǔ)言和將第一語(yǔ)言翻譯成的至少一種第二語(yǔ)言;(2)以每種語(yǔ)言或任意兩種或多種語(yǔ)言之組合的方式,在每個(gè)多語(yǔ)文本上執(zhí)行包括至少相依分析和語(yǔ)義分析的語(yǔ)言分析,從而獲取有關(guān)至少相依結(jié)構(gòu)和語(yǔ)義表示的語(yǔ)言信息;以及(3)生成第三語(yǔ)言文本,其中生成步驟通過(guò)使用分析步驟獲取的語(yǔ)言信息生成第三語(yǔ)言文本,或者該算法還包括以下步驟,根據(jù)分析步驟獲得的分析結(jié)果,或者根據(jù)分析結(jié)果和第三語(yǔ)言的轉(zhuǎn)換知識(shí)特征,執(zhí)行語(yǔ)言轉(zhuǎn)換,轉(zhuǎn)換步驟在分析步驟之后,其中生成步驟通過(guò)使用分析步驟獲取的語(yǔ)言信息或轉(zhuǎn)換步驟獲取的轉(zhuǎn)換結(jié)果,生成第三語(yǔ)言文本。
在本發(fā)明中,分析步驟包括為確定構(gòu)成多語(yǔ)文本的單詞之間的對(duì)應(yīng),構(gòu)成多語(yǔ)文本的短語(yǔ)之間的對(duì)應(yīng)以及構(gòu)成多語(yǔ)文本的句子之間的對(duì)應(yīng)而執(zhí)行關(guān)聯(lián)處理的關(guān)聯(lián)步驟;通過(guò)使用先前準(zhǔn)備的分析模塊分析至少第一語(yǔ)言文本的分析處理;以及通過(guò)使用先前準(zhǔn)備的分析模塊,根據(jù)關(guān)聯(lián)處理的結(jié)果,分析與第一語(yǔ)言文本相對(duì)應(yīng)的至少第二語(yǔ)言文本中的各個(gè)部分,然后合并分析結(jié)果的合并處理。
分析、轉(zhuǎn)換和生成步驟中的至少一個(gè)步驟可以使用基于規(guī)則的信息,該信息包含至少每種語(yǔ)言的詞典信息或語(yǔ)法信息,以及基于從文集中的實(shí)際數(shù)據(jù)中獲得的學(xué)習(xí)結(jié)果的經(jīng)驗(yàn)信息。
生成步驟包括自動(dòng)獲取至少第三語(yǔ)言句法結(jié)構(gòu)信息的部分或全部信息,或有關(guān)現(xiàn)有第三語(yǔ)言文集的第三語(yǔ)言單詞用法信息;以及根據(jù)自動(dòng)獲取的第三語(yǔ)言的信息特征,生成第三語(yǔ)言文本。
本發(fā)明能夠提供使用上述方法的第三語(yǔ)言文本生成設(shè)備。本發(fā)明能夠提供使用上述方法的第三語(yǔ)言文本生成程序。


圖1為生成轉(zhuǎn)換語(yǔ)言文檔文本的常規(guī)處理的流程圖;圖2為根據(jù)本發(fā)明生成目標(biāo)語(yǔ)言文檔文本的處理的流程圖;圖3表示根據(jù)本發(fā)明的第三語(yǔ)言文本生成設(shè)備的輸入裝置的配置;圖4表示根據(jù)本發(fā)明的第三語(yǔ)言文本生成設(shè)備的分析系統(tǒng)的配置;圖5表示根據(jù)本發(fā)明的第三語(yǔ)言文本生成設(shè)備的轉(zhuǎn)換系統(tǒng)的配置;以及圖6表示根據(jù)本發(fā)明的第三語(yǔ)言文本生成設(shè)備的生成系統(tǒng)的配置。
參考號(hào)數(shù)表示的部件如下。數(shù)字20表示雙語(yǔ)文檔文本,數(shù)字21表示多語(yǔ)文檔文本分析系統(tǒng),數(shù)字22表示轉(zhuǎn)換系統(tǒng),數(shù)字23表示生成系統(tǒng),數(shù)字24表示目標(biāo)語(yǔ)言文檔文本,數(shù)字25表示轉(zhuǎn)換知識(shí),數(shù)字26表示用于生成的語(yǔ)言知識(shí),數(shù)字27表示雙語(yǔ)文集,數(shù)字28表示單語(yǔ)文集,數(shù)字29表示小規(guī)模目標(biāo)語(yǔ)言數(shù)據(jù),數(shù)字30表示箭頭,箭頭代表從雙語(yǔ)文集中獲取轉(zhuǎn)換知識(shí)的過(guò)程。
具體實(shí)施例方式
以下參照附圖表示的典型實(shí)施方式描述本發(fā)明的實(shí)施方式。
本發(fā)明提供以比常規(guī)機(jī)器翻譯之準(zhǔn)確度更高的準(zhǔn)確度生成目標(biāo)第三語(yǔ)言文本(以下稱為目標(biāo)語(yǔ)言)的技術(shù),該技術(shù)包括從手工準(zhǔn)備的眾多多語(yǔ)文檔文本中,例如從日語(yǔ)和英語(yǔ)文檔文本中,獲取內(nèi)容信息;從雙語(yǔ)詞典中獲取歸約規(guī)則;以及從目標(biāo)語(yǔ)言文檔文本中獲取語(yǔ)言特征,從而生成準(zhǔn)確的目標(biāo)語(yǔ)言文本。
自然語(yǔ)言處理的常規(guī)技術(shù)模擬人類的普通行為,例如讀一個(gè)句子,然后翻譯概括該句子。
然而,其致命缺陷是難以保證允許計(jì)算機(jī)處理上下文的技術(shù)。本發(fā)明包括以總和或乘積的形式從諸如日英之類的雙語(yǔ)文檔文本中抽取信息,從而深入理解上下文。
用于其他信息處理的技術(shù)包括上述為增加信息量而以總和形式抽取信息的方法。然而,本發(fā)明的技術(shù)是全新技術(shù),因?yàn)槭褂枚嗾Z(yǔ)文本來(lái)消除句子的歧義,這正是本發(fā)明的最顯著的特征。
本發(fā)明的技術(shù)是全新技術(shù)的另一個(gè)原因是,為生成表面文本而從單語(yǔ)目標(biāo)語(yǔ)言文集中根據(jù)綜合理解獲取每種語(yǔ)言的信息特征。
圖1表示將單語(yǔ)文檔文本轉(zhuǎn)換為目標(biāo)語(yǔ)言并生成此時(shí)以前產(chǎn)生的目標(biāo)語(yǔ)言文檔文本的過(guò)程的流程圖。圖2表示將日英雙語(yǔ)文檔文本轉(zhuǎn)換為目標(biāo)語(yǔ)言并根據(jù)本發(fā)明生成目標(biāo)語(yǔ)言文檔文本的過(guò)程的流程圖。
在常規(guī)方法中,通常通過(guò)分析系統(tǒng)(11),轉(zhuǎn)換系統(tǒng)(12)和生成系統(tǒng)(13),執(zhí)行將單語(yǔ)文檔文本(10)翻譯成目標(biāo)語(yǔ)言文檔文本(14)的過(guò)程,其中系統(tǒng)(11)、(12)和(13)劃分該過(guò)程。開(kāi)發(fā)系統(tǒng)(11)、(12)和(13)必須手工建立規(guī)則(15),并且開(kāi)發(fā)高準(zhǔn)確度的系統(tǒng)要求分析大規(guī)模文檔文本。例如,用于學(xué)習(xí)的大規(guī)模文集需要大量費(fèi)用和研究,目前,正在逐漸準(zhǔn)備大語(yǔ)種的文集,但是很難準(zhǔn)備小語(yǔ)種的文集。
在本發(fā)明中,正如圖2所示,使用至少兩種語(yǔ)言(如大語(yǔ)種)準(zhǔn)備文集,然后利用分析系統(tǒng)(21)、轉(zhuǎn)換系統(tǒng)(22)和生成系統(tǒng)(23)進(jìn)行處理,以便生成目標(biāo)語(yǔ)言文檔文本(24)。更確切地說(shuō),第三語(yǔ)言文本生成設(shè)備使用圖3所示的用于輸入兩個(gè)或多個(gè)多語(yǔ)文本的輸入裝置輸入文檔文本。
可以按以下方式輸入文本掃描儀(31)按圖像數(shù)據(jù)的方式捕獲文本,經(jīng)由接口(32)將圖像數(shù)據(jù)從掃描儀(31)輸入到CPU(33),通過(guò)利用CPU(33)執(zhí)行眾所周知的OCR處理,將圖像數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù),然后在硬盤(pán)(34)或存儲(chǔ)器(35)中存儲(chǔ)文本數(shù)據(jù)??梢宰x出并輸入硬盤(pán)(34)中先前存儲(chǔ)的文本數(shù)據(jù)。
作為選擇,可利用計(jì)算機(jī)配備的鍵盤(pán)(36)輸入多語(yǔ)文本,或者從網(wǎng)絡(luò)上連接的其他計(jì)算機(jī)(37)中獲取信息??梢岳弥С值腎/O設(shè)備或網(wǎng)絡(luò)適配器等作為鍵盤(pán)(36)、計(jì)算機(jī)(37)和CPU(33)之間的接口。
將每種語(yǔ)言或任意兩種或多種語(yǔ)言之組合形式的每個(gè)多語(yǔ)文本,提供給多語(yǔ)文檔文本分析系統(tǒng)(21),該系統(tǒng)作為分析語(yǔ)言信息的分析裝置。
第三語(yǔ)言文本生成設(shè)備還具有轉(zhuǎn)換系統(tǒng)(22)和生成系統(tǒng)(23),其中轉(zhuǎn)換系統(tǒng)作為至少根據(jù)分析步驟獲取的分析結(jié)果,將語(yǔ)言轉(zhuǎn)換為第三語(yǔ)言的轉(zhuǎn)換裝置,而生成系統(tǒng)作為根據(jù)轉(zhuǎn)換步驟的轉(zhuǎn)換結(jié)果生成第三語(yǔ)言文本的生成裝置。
可以使用額外提供的輸出裝置(未示出)輸出上述過(guò)程的結(jié)果。用于屏幕顯示的監(jiān)視器,諸如硬盤(pán)之類的存儲(chǔ)設(shè)備,或網(wǎng)絡(luò)上的其他計(jì)算機(jī)均可以作為輸出裝置。
例如,輸入語(yǔ)言為彼此相對(duì)應(yīng)的日英雙語(yǔ)文檔文本。在本發(fā)明中,確定第一語(yǔ)言作為翻譯的源語(yǔ)言,與第一語(yǔ)言翻譯成的第二語(yǔ)言一起輸入第一語(yǔ)言。
輸入語(yǔ)言的數(shù)目可以為兩個(gè)或更多,例如,高準(zhǔn)確度分析可使用三種語(yǔ)言(日語(yǔ),英語(yǔ),法語(yǔ)等)。
常規(guī)機(jī)器翻譯系統(tǒng)不能提高準(zhǔn)確度的一個(gè)主要原因是語(yǔ)言分析的困難。分析困難相當(dāng)于不能消除歧義,但是使用多語(yǔ)文本能夠進(jìn)行分析。
例如,日語(yǔ)單詞本身不能了解該單詞是否為復(fù)數(shù)名詞,而英語(yǔ)單詞能夠根據(jù)該單詞是單數(shù)形式還是復(fù)數(shù)形式,判斷該單詞是單數(shù)名詞還是復(fù)數(shù)名詞。另一方面,英語(yǔ)單詞本身不能了解該單詞的語(yǔ)義功能,而日語(yǔ)單詞能夠了解該單詞表示“場(chǎng)所”信息,因?yàn)橐粋€(gè)虛詞伴隨該單詞。當(dāng)使用器語(yǔ)言結(jié)構(gòu)完全不同的語(yǔ)言時(shí),例如使用日語(yǔ)和英語(yǔ)的組合時(shí),特別有效。
因此在本發(fā)明中,最好使用具有不同語(yǔ)言結(jié)構(gòu)的語(yǔ)言,如日語(yǔ)和英語(yǔ)的組合,日語(yǔ)和漢語(yǔ)的組合或以上三種語(yǔ)言的組合,作為多語(yǔ)文檔文本的語(yǔ)言的組合。相反,英語(yǔ)和法語(yǔ)的獨(dú)自組合未必能夠收到本發(fā)明的效果。然而,與英語(yǔ)和日語(yǔ)的獨(dú)自組合相比,英語(yǔ)、法語(yǔ)和日語(yǔ)的組合能夠生成準(zhǔn)確度更高的文本,并且可以使用此類組合。
以下詳細(xì)描述根據(jù)本發(fā)明的分析系統(tǒng)(21)。圖4表示分析系統(tǒng)的配置。
分析系統(tǒng)(21)使用CPU(33)分析兩個(gè)單詞的一個(gè)單詞與另一個(gè)單詞的相依性(作為選擇,可以利用稍微大一點(diǎn)的單位,如日語(yǔ)句子中的“文節(jié)”代替單詞),前提是輸入裝置輸入硬盤(pán)(34)中存儲(chǔ)的日英雙語(yǔ)文檔文本(20)。如果需要,CPU(33)可以與諸如存儲(chǔ)器(35)之類的計(jì)算機(jī)的各種設(shè)備或組件一起運(yùn)行。
在典型實(shí)施方式中,首先對(duì)輸入的雙語(yǔ)文檔文本(20)進(jìn)行關(guān)聯(lián)處理把一個(gè)文本中的句子與另一個(gè)文本中的相應(yīng)句子關(guān)聯(lián)起來(lái),以確定構(gòu)成雙語(yǔ)文檔文本的句子之間的對(duì)應(yīng)關(guān)系,然后利用該對(duì)應(yīng)關(guān)系合并隨后的分析處理獲取的分析結(jié)果。
更確切地說(shuō),即使日英雙語(yǔ)文檔文本(20)逐詞對(duì)應(yīng),也無(wú)需機(jī)械查找對(duì)應(yīng)關(guān)系,因?yàn)榫鋽?shù)隨語(yǔ)言的特征,其閱讀的容易程度等變化。
因此,關(guān)聯(lián)部分(42)執(zhí)行關(guān)聯(lián)處理以確定構(gòu)成雙語(yǔ)文檔文本(20)的句子之間的對(duì)應(yīng)關(guān)系,從而把一個(gè)文本中的句子與另一個(gè)文本中的對(duì)應(yīng)句子聯(lián)系起來(lái)。按下述方式在硬盤(pán)(34)中存儲(chǔ)關(guān)聯(lián)數(shù)據(jù),例如,標(biāo)記日語(yǔ)文本以表示日語(yǔ)文本中的第十句與英語(yǔ)文本中的第十一句相對(duì)應(yīng)。
盡管可以使用抽取兩個(gè)文本之間的相關(guān)關(guān)系的公知語(yǔ)言處理技術(shù)作為關(guān)聯(lián)處理方法,但是可以使用跨語(yǔ)言信息檢索實(shí)現(xiàn)上述關(guān)聯(lián)處理方法。
接著,CPU(33)執(zhí)行至少相依分析(40)和語(yǔ)義分析(41)。盡管上述分析是眾所周知的并且可以使用任何方法進(jìn)行上述分析,但是可以對(duì)日語(yǔ)和英語(yǔ)應(yīng)用申請(qǐng)人等先前推薦的日語(yǔ)相依模型(參見(jiàn)KiyotakaUchimoto,Masaki Murata,Satoshi Sekine和Hitoshi Isahara的“Dependency Model Using Posterior Context”,Journal of NaturalLanguage Processing,Vol.7,No.5,pp 3-17(2000)),以確定相依關(guān)系。該模型用來(lái)學(xué)習(xí)兩個(gè)單詞(或兩個(gè)短語(yǔ))中的一個(gè)單詞是否與另一個(gè)單詞存在相依關(guān)系,并且該模型是使用機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)的。確定相依關(guān)系的目的是學(xué)習(xí)模型計(jì)算的概率積是所有句子中最高的。
首先在作為源語(yǔ)言的日語(yǔ)文本上執(zhí)行相依分析(40),以便順序分析構(gòu)成日語(yǔ)文本的所有句子。在標(biāo)記感興趣的日語(yǔ)句子并且日語(yǔ)句子具有其英語(yǔ)翻譯時(shí),對(duì)感興趣的英語(yǔ)句子進(jìn)行相依分析(40),并且合并部分(43)確定兩個(gè)句子中的最高概率積為感興趣句子的相依分析的結(jié)果。因此,與只輸入日語(yǔ)文本相比,輸入日語(yǔ)文本和其他語(yǔ)言文本允許合并其他語(yǔ)言的分析結(jié)果,由此獲得具有最高概率的結(jié)果,從而顯著改善分析結(jié)果。
另外,上述相依結(jié)構(gòu)進(jìn)行實(shí)例分析(即語(yǔ)義分析)??梢岳孟嘁澜Y(jié)構(gòu)中相依關(guān)系的正確解釋增加率,度量相依分析中雙語(yǔ)文本的輸入的有效性。
語(yǔ)義分析按照與以上相依分析相同的方式發(fā)生。更確切地說(shuō),語(yǔ)義分析首先獲取日語(yǔ)文本的分析結(jié)果,并且當(dāng)英語(yǔ)文本包含與感興趣的日語(yǔ)句子相對(duì)應(yīng)的英語(yǔ)句子時(shí),合并部分(43)比較日語(yǔ)和英語(yǔ)句子的分析結(jié)果,然后使用具有較高概率的語(yǔ)義分析的結(jié)果。
如上所述,本發(fā)明允許簡(jiǎn)單采用具有較高概率的分析結(jié)果,因此通過(guò)輸入更多語(yǔ)言有助于提高分析的準(zhǔn)確度。
申請(qǐng)人提交的日本專利申請(qǐng)2001-139563也公開(kāi)了相依分析(40)和語(yǔ)義分析(41),其中相對(duì)于作為語(yǔ)義分析(41)之實(shí)例的指定實(shí)體抽取給出詳細(xì)說(shuō)明。指定實(shí)體抽取為翻譯時(shí)選擇嚴(yán)格相等項(xiàng)的一種重要語(yǔ)義分析,并且對(duì)翻譯成第三語(yǔ)言特別有效。
然而,本發(fā)明的目的是第三語(yǔ)言文本生成,包括迄今尚未提出申請(qǐng)的輸入兩個(gè)或更多多語(yǔ)文檔文本的步驟,以及分析、轉(zhuǎn)換和生成步驟。因此,可以使用任何分析方法。例如,可以進(jìn)行眾所周知的形態(tài)分析,以合并多語(yǔ)文檔文本的分析結(jié)果,并且也可以選擇任何合并方法,因?yàn)楹喜⒎椒S分析方法變化。
在硬盤(pán)(34)中存儲(chǔ)上述相依分析和語(yǔ)義分析的結(jié)果。
如上所述,分析系統(tǒng)(21)包括在每種語(yǔ)言上執(zhí)行至少相依分析(40)和語(yǔ)義分析(41)的分析模塊(45),并且還包括為執(zhí)行更高準(zhǔn)確度的分析而提供的關(guān)聯(lián)部分(42)和合并部分(43),上述結(jié)構(gòu)組件執(zhí)行相應(yīng)處理。
此外,本發(fā)明的分析模塊(45)支持基于實(shí)際數(shù)據(jù)的分析,其方法是,在根據(jù)諸如詞典和語(yǔ)法之類的先前建立的規(guī)則執(zhí)行分析時(shí),執(zhí)行用于確定對(duì)應(yīng)關(guān)系的關(guān)聯(lián)處理以及用于合并分析結(jié)果的合并處理。
如上所述,通過(guò)合并分析處理根據(jù)規(guī)則獲得的基于規(guī)則的信息以及基于實(shí)際數(shù)據(jù)的分析處理獲得的經(jīng)驗(yàn)信息,本發(fā)明有助于實(shí)現(xiàn)更高準(zhǔn)確度的分析系統(tǒng)(21)。
接著,給出有關(guān)轉(zhuǎn)換系統(tǒng)(22)的詳細(xì)描述。圖5表示轉(zhuǎn)換系統(tǒng)的配置。
如上所述,使用計(jì)算機(jī)將一種語(yǔ)言轉(zhuǎn)換為另一種語(yǔ)言需要適合于計(jì)算的語(yǔ)言信息。由于手工建立所需信息需要理解兩種語(yǔ)言的專家的大量工作,所以對(duì)于一對(duì)大語(yǔ)種之外的語(yǔ)種,此類工作是不切實(shí)際的。
如上所述,盡管提供從大量雙語(yǔ)文集中自動(dòng)獲取語(yǔ)言信息的方法,但是不太可能準(zhǔn)備一對(duì)大語(yǔ)種之外的語(yǔ)種的大量多語(yǔ)文集。
因此,本發(fā)明使用作為源語(yǔ)言的兩種語(yǔ)言的雙語(yǔ)文集(27),目標(biāo)語(yǔ)言(如泰語(yǔ))的單語(yǔ)文集(28),以及諸如日泰和英泰詞典之類的源語(yǔ)言和目標(biāo)語(yǔ)言的小規(guī)模雙語(yǔ)詞典的小規(guī)模數(shù)據(jù)(29)的組合,以便獲取語(yǔ)言信息。
單語(yǔ)文集(28)可以為小規(guī)模文集,并且能夠有效處理不可能為語(yǔ)言處理而進(jìn)行足夠研究或分析的語(yǔ)言。
由此獲取的信息為用于生成的轉(zhuǎn)換知識(shí)(25)和語(yǔ)言知識(shí)(26),并且根據(jù)本發(fā)明的轉(zhuǎn)換系統(tǒng)(22)基于轉(zhuǎn)換知識(shí)(25),控制將一種語(yǔ)言轉(zhuǎn)換為另一種語(yǔ)言。
為了在不使用大規(guī)模語(yǔ)言文集的情況下生成高準(zhǔn)確度的輸出,本發(fā)明包括比較輸入的雙語(yǔ)文集(27)與單語(yǔ)第三語(yǔ)言文集(28),自動(dòng)獲取第三語(yǔ)言的語(yǔ)言信息特征,以及生成轉(zhuǎn)換知識(shí)數(shù)據(jù)庫(kù)(54)。
例如,當(dāng)構(gòu)成復(fù)合詞或復(fù)合短語(yǔ)的每個(gè)單詞進(jìn)行基于詞典的簡(jiǎn)單轉(zhuǎn)換時(shí),該轉(zhuǎn)換通常導(dǎo)致不自然表示。特別地,翻譯時(shí)選擇等價(jià)項(xiàng),選擇詞序等是第三語(yǔ)言的信息特征,并且轉(zhuǎn)換知識(shí)最好包含該信息。
因此,本發(fā)明的轉(zhuǎn)換系統(tǒng)(22)包括用于確定日英短語(yǔ)和泰語(yǔ)短語(yǔ)之間的對(duì)應(yīng)關(guān)系的部分(51),對(duì)應(yīng)關(guān)系確定部分(51)比較日英雙語(yǔ)文集(27)和文檔文本(20)與泰語(yǔ)文集(28),然后抽取與日英短語(yǔ)意思相同的泰語(yǔ)短語(yǔ)。在轉(zhuǎn)換知識(shí)生成器(52)的控制下,在轉(zhuǎn)換知識(shí)數(shù)據(jù)庫(kù)(54)中存儲(chǔ)抽取的泰語(yǔ)短語(yǔ)。例如,可以從統(tǒng)計(jì)上確定與彼此對(duì)應(yīng)的兩個(gè)日語(yǔ)和英語(yǔ)短語(yǔ)的最高概率相對(duì)應(yīng)的第三語(yǔ)言短語(yǔ),因?yàn)槭褂萌沼㈦p語(yǔ)文集作為源語(yǔ)言文集。
轉(zhuǎn)換知識(shí)不限于上述信息,轉(zhuǎn)換知識(shí)可以包含關(guān)聯(lián)數(shù)據(jù),其中通過(guò)從統(tǒng)計(jì)上把日英雙語(yǔ)文集(27)中經(jīng)常出現(xiàn)的句法結(jié)構(gòu)和泰語(yǔ)文集中經(jīng)常出現(xiàn)的句法結(jié)構(gòu)聯(lián)系起來(lái),獲取關(guān)聯(lián)數(shù)據(jù)。從而能夠?qū)⒎治鱿到y(tǒng)(21)獲取的分析結(jié)果轉(zhuǎn)換為泰語(yǔ)的句法結(jié)構(gòu)特征。
此外,轉(zhuǎn)換器(53)從轉(zhuǎn)換知識(shí)數(shù)據(jù)庫(kù)(54)中讀出在當(dāng)前翻譯期間存儲(chǔ)的轉(zhuǎn)換知識(shí),或先前翻譯生成的轉(zhuǎn)換知識(shí),并且轉(zhuǎn)換分析系統(tǒng)(21)在硬盤(pán)(34)中存儲(chǔ)的有關(guān)相依結(jié)構(gòu)和語(yǔ)義表示的語(yǔ)言信息。只需利用與第三語(yǔ)言轉(zhuǎn)換知識(shí)一致的新數(shù)據(jù)重寫(xiě)關(guān)于單詞相依或指定實(shí)體的數(shù)據(jù),就能實(shí)現(xiàn)轉(zhuǎn)換方法。
再次將轉(zhuǎn)換信息存儲(chǔ)到硬盤(pán)(34)中。
最后,給出有關(guān)生成系統(tǒng)(23)的詳細(xì)描述。圖6表示生成系統(tǒng)的配置。
到現(xiàn)在為止,還沒(méi)有系統(tǒng)執(zhí)行有關(guān)生成的技術(shù)開(kāi)發(fā)。當(dāng)人們直接讀取準(zhǔn)備的文檔文本時(shí),文檔文本的準(zhǔn)確性與“他或她閱讀的文檔文本”有關(guān)。考慮到生成系統(tǒng)(23)是語(yǔ)言處理系統(tǒng)的最重要的要素,本發(fā)明使用以下技術(shù)。
更確切地說(shuō),提供用于獲取單語(yǔ)文集(28)中的單詞用法的信息的技術(shù),以及用于獲取有關(guān)句法結(jié)構(gòu)的信息的技術(shù)。為了轉(zhuǎn)換為第三語(yǔ)言文本,通過(guò)使用兩種或更多語(yǔ)言的信息獲取的理解結(jié)果,有關(guān)第三語(yǔ)言的知識(shí)是必須的。
改善所生成的文本的質(zhì)量還需要獲取第三語(yǔ)言的信息特征。然而,當(dāng)?shù)谌Z(yǔ)言方面的研究人員基于其特有的語(yǔ)感建立此類信息的規(guī)則時(shí),是一項(xiàng)大規(guī)模工作,因此,建立大語(yǔ)種之外的語(yǔ)種的規(guī)則是不切實(shí)際的。
因此,根據(jù)本發(fā)明的第三語(yǔ)言文本生成設(shè)備通過(guò)使用眾所周知的技術(shù),基于各種語(yǔ)言的數(shù)據(jù),自動(dòng)獲取有關(guān)各種語(yǔ)言的信息。
更確切地說(shuō),當(dāng)CPU(33)與存儲(chǔ)器(35)一起運(yùn)行時(shí),CPU(33)使用句法結(jié)構(gòu)獲取部分(60)從泰語(yǔ)文集(28)中自動(dòng)獲取與詞序有關(guān)的句法結(jié)構(gòu)。盡管獲取方法包括語(yǔ)言處理領(lǐng)域中的各種公知技術(shù),但是也可以使用從文集中獲取的詞序(參見(jiàn)Kiyotaka Uchimoto,Masaki Murata,Qing Ma,Satoshi Sekine和Hitoshi Isahara,“Word Order Acquisition fromCorpora”,Journal of Natural Language Processing,Vol.7,No.4,pp.163-180(2000))。
特別地,根據(jù)分析系統(tǒng)(21)和轉(zhuǎn)換系統(tǒng)(22)獲取的單詞相依結(jié)構(gòu),生成具有自然詞序的表句。在典型實(shí)施方式中,應(yīng)用詞序模型確定單詞是否是按自然順序排列的。
當(dāng)眾多修飾語(yǔ)修飾同一單詞時(shí),該模型用來(lái)學(xué)習(xí)修飾語(yǔ)的自然順序,并且該模型是使用眾所周知的機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)的。確定自然詞序的目的是使學(xué)習(xí)模型計(jì)算的概率積是所有句子中最高的。
此時(shí),可以在用于生成的語(yǔ)言知識(shí)數(shù)據(jù)庫(kù)(64)中存儲(chǔ)自動(dòng)獲取的信息,如學(xué)習(xí)模型計(jì)算的概率值,并用于隨后的生成過(guò)程。
在確定基本句法結(jié)構(gòu)后,表面表示確定部分(61)確定句子中各單詞的適當(dāng)表面表示。盡管可以使用常規(guī)語(yǔ)言處理的公知生成方法來(lái)確定表面表示,但是也可以將申請(qǐng)人早先提議的用于確定句子結(jié)尾的情態(tài)的方法,應(yīng)用于包括實(shí)例表示在內(nèi)的其他表面表示。
更確切地說(shuō),用于獲取句子結(jié)尾的時(shí)態(tài)信息的方法(參見(jiàn)MasakiMurata,Qing Ma,Kiyotaka Uchimoto和Hitoshi Isahara,“AnExample-Based Approach to Japanese-to-English Translation of Tense.Aspect,and Modality”,Journal of Japanese Society of ArtificialIntelligence,Vol.16,No.1,pp.20-27(2000))為第一種方法,其中將基于實(shí)例的方法應(yīng)用于時(shí)態(tài)、體態(tài)和情態(tài)的翻譯問(wèn)題。該方法包括從雙語(yǔ)文本數(shù)據(jù)庫(kù)中抽取與正在分析的時(shí)態(tài)、體態(tài)和情態(tài)表示非常相似的雙語(yǔ)文本的示例(即用法示例),并且從數(shù)據(jù)庫(kù)中輸出作為結(jié)果的翻譯。該方法可以實(shí)現(xiàn)簡(jiǎn)單配置,也可以應(yīng)用于其他表面表示,因?yàn)槭褂脧木渥咏Y(jié)尾開(kāi)始的匹配字符串(或包含分類詞匯表中的分類號(hào)的字符串中的匹配)作為用法示例之間的相似性的定義。
上述方法能夠?qū)⑵駷橹雇ǔR圆蛔匀坏奈谋镜男问捷敵龅挠?jì)算機(jī)生成的文檔文本,提高到基于文集中的實(shí)際句子的流暢程度的水平。
此外,可以從單語(yǔ)文集中自動(dòng)獲取單詞用法信息,以便將該信息添加到用于生成的語(yǔ)言知識(shí)(26)中。
盡管參照根據(jù)本發(fā)明的第三語(yǔ)言文本生成設(shè)備的分析裝置,轉(zhuǎn)換裝置和生成裝置給出詳細(xì)說(shuō)明,但是執(zhí)行本發(fā)明不要求必須提供轉(zhuǎn)換裝置。
更確切地說(shuō),本發(fā)明的轉(zhuǎn)換裝置具有輸出語(yǔ)言的轉(zhuǎn)換知識(shí)特征,但是并不要求明確提供轉(zhuǎn)換裝置。例如,當(dāng)使用分析裝置和生成裝置擁有的有關(guān)語(yǔ)言信息的知識(shí)和信息足以執(zhí)行生成處理時(shí),生成裝置能夠根據(jù)分析裝置獲取的分析結(jié)果直接生成第三語(yǔ)言,而無(wú)需使用獨(dú)立裝置作為轉(zhuǎn)換裝置。
在本發(fā)明的設(shè)備中,可以以各種形式實(shí)現(xiàn)輸入裝置和輸出裝置。
輸入裝置能夠輸入通過(guò)各種介質(zhì)分發(fā)的信息。例如,輸入裝置具有能夠?qū)⒁粡埣埢蛞槐緯?shū)之類的文檔文本轉(zhuǎn)換為電磁記錄的文檔文本捕獲/轉(zhuǎn)換裝置。通過(guò)使用掃描儀以及光學(xué)字符閱讀器和有關(guān)軟件,能夠輕而易舉地實(shí)現(xiàn)上述裝置,可以將該裝置包含到本發(fā)明的設(shè)備中,可以配置該裝置以便讀取利用日語(yǔ)和英語(yǔ)之類的兩種語(yǔ)言書(shū)寫(xiě)的雙語(yǔ)書(shū)籍,從而輸出諸如泰語(yǔ)文本之類的第三語(yǔ)言文本。可以使用任何輸出裝置,例如,可以在顯示設(shè)備上顯示文本,可以將文本寫(xiě)入到記錄設(shè)備上,可以在諸如因特網(wǎng)之類的網(wǎng)絡(luò)上發(fā)布,或以其他方式輸出。
可以更容易地讀出或輸入從諸如硬盤(pán)、光存儲(chǔ)器或存儲(chǔ)器之類的電磁記錄設(shè)備中讀取的計(jì)算機(jī)數(shù)據(jù)。特別地,已經(jīng)開(kāi)發(fā)了諸如Unicode之類的供多種語(yǔ)言使用的字符碼,從而能夠同時(shí)處理多種語(yǔ)言,特別是小語(yǔ)種。
使用此類編碼允許同時(shí)流暢地處理多種語(yǔ)言,并且便于將數(shù)據(jù)記錄到上述電磁記錄設(shè)備上,或讀取電磁記錄設(shè)備上的數(shù)據(jù)。
此外,允許本發(fā)明實(shí)現(xiàn)巨大作用的應(yīng)用程序包括輸入可從諸如因特網(wǎng)之類的網(wǎng)絡(luò)上的計(jì)算機(jī)上安裝的電磁存儲(chǔ)設(shè)備中獲取的計(jì)算機(jī)數(shù)據(jù)。
在因特網(wǎng)上,大部分分發(fā)信息均是用大語(yǔ)種書(shū)寫(xiě)的,因?yàn)樵谑褂么笳Z(yǔ)種的區(qū)域內(nèi)計(jì)算機(jī)的使用特別廣泛。
另外,跨國(guó)公司的主頁(yè)提供大語(yǔ)種之間的高準(zhǔn)確度的手工翻譯,因此,通過(guò)使用本發(fā)明的技術(shù),能夠?qū)⒋笳Z(yǔ)種轉(zhuǎn)換為許多尚未翻譯的小語(yǔ)種。因此,以下操作非常有效本發(fā)明的設(shè)備的輸入裝置從與因特網(wǎng)之類的網(wǎng)絡(luò)相連的電磁記錄設(shè)備中獲取計(jì)算機(jī)數(shù)據(jù),然后將獲取的數(shù)據(jù)輸入到本發(fā)明的設(shè)備中。
盡管上述說(shuō)明是參照根據(jù)本發(fā)明之某一實(shí)施方式的第三語(yǔ)言文本生成設(shè)備進(jìn)行的,但是本發(fā)明可以僅僅提供在計(jì)算機(jī)中使用的算法,或者提供能夠在任何計(jì)算機(jī)上運(yùn)行的程序。
可以通過(guò)網(wǎng)絡(luò)分發(fā)根據(jù)本發(fā)明配置的程序。
工業(yè)應(yīng)用的可能性根據(jù)本發(fā)明,上述配置允許同時(shí)分析用多種語(yǔ)言書(shū)寫(xiě)的具有相同內(nèi)容的句子,由此準(zhǔn)確地理解句子,并生成準(zhǔn)確的第三語(yǔ)言文本。此外,如果需要,上述配置還包括轉(zhuǎn)換處理,從而有助于提高準(zhǔn)確度。因此,可以使用發(fā)展中國(guó)家使用的小語(yǔ)種為這些國(guó)家提供信息。再者,當(dāng)獲得本發(fā)明的技術(shù)時(shí),開(kāi)發(fā)處理新語(yǔ)言的主要因素是獲取有關(guān)該語(yǔ)言的語(yǔ)言信息,從而所有國(guó)家均能從事此類開(kāi)發(fā)。
將來(lái)人們會(huì)不斷將大量用英語(yǔ)準(zhǔn)備的文檔文本手工翻譯為高準(zhǔn)確度的日語(yǔ)文檔文本。然而,不太可能將此類文檔文本高質(zhì)量地翻譯為許多其他亞洲語(yǔ)言文本。
本發(fā)明能夠顯著提高翻譯成諸如泰語(yǔ)之類的各種亞洲語(yǔ)言的翻譯水平。通過(guò)獲得本發(fā)明的技術(shù),具有數(shù)字鴻溝問(wèn)題的許多發(fā)展中國(guó)家都能通過(guò)其自己的努力和少量幫助解決該問(wèn)題。
此外,與使用單語(yǔ)文本的翻譯相比,本發(fā)明能夠以較低費(fèi)用生成具有很高準(zhǔn)確度的第三語(yǔ)言文本。本發(fā)明可以提供安裝有上述算法的設(shè)備,或者提供可通過(guò)網(wǎng)絡(luò)分發(fā)的程序。
權(quán)利要求
1.一種供基于計(jì)算機(jī)的語(yǔ)言處理使用的第三語(yǔ)言文本生成算法,通過(guò)使用眾多雙語(yǔ)文本生成一種新的第三語(yǔ)言文本,該算法包括以下步驟輸入用不同語(yǔ)言書(shū)寫(xiě)的兩個(gè)或更多多語(yǔ)文本,不同語(yǔ)言包括作為源語(yǔ)言的第一語(yǔ)言和將第一語(yǔ)言翻譯成的至少一種第二語(yǔ)言;以每種語(yǔ)言或任意兩種或多種語(yǔ)言之組合的方式,在每個(gè)多語(yǔ)文本上執(zhí)行包括至少相依分析和語(yǔ)義分析的語(yǔ)言分析,從而獲取有關(guān)至少相依結(jié)構(gòu)和語(yǔ)義表示的語(yǔ)言信息;以及生成第三語(yǔ)言文本,其中生成步驟通過(guò)使用分析步驟獲取的語(yǔ)言信息生成第三語(yǔ)言文本,或者該算法還包括以下步驟,根據(jù)分析步驟獲得的分析結(jié)果,或者根據(jù)分析結(jié)果和第三語(yǔ)言的轉(zhuǎn)換知識(shí)特征,執(zhí)行語(yǔ)言轉(zhuǎn)換,轉(zhuǎn)換步驟在分析步驟之后,其中生成步驟通過(guò)使用分析步驟獲取的語(yǔ)言信息或轉(zhuǎn)換步驟獲取的轉(zhuǎn)換結(jié)果,生成第三語(yǔ)言文本。
2.根據(jù)權(quán)利要求1的第三語(yǔ)言文本生成算法,其中分析步驟包括為確定構(gòu)成多語(yǔ)文本的單詞之間的對(duì)應(yīng),構(gòu)成多語(yǔ)文本的短語(yǔ)之間的對(duì)應(yīng)和構(gòu)成多語(yǔ)文本的句子之間的對(duì)應(yīng)而執(zhí)行關(guān)聯(lián)處理的關(guān)聯(lián)步驟;通過(guò)使用先前準(zhǔn)備的分析模塊分析至少第一語(yǔ)言文本的分析步驟;以及通過(guò)使用先前準(zhǔn)備的分析模塊,根據(jù)關(guān)聯(lián)處理的結(jié)果,分析與第一語(yǔ)言文本相對(duì)應(yīng)的至少第二語(yǔ)言文本中的各個(gè)部分,然后合并分析結(jié)果的合并步驟。
3.根據(jù)權(quán)利要求1或2的第三語(yǔ)言文本生成算法,其中分析、轉(zhuǎn)換和生成步驟中的至少一個(gè)步驟可以使用基于規(guī)則的信息,該信息包含至少每種語(yǔ)言的詞典信息或語(yǔ)法信息,以及基于從文集中的實(shí)際數(shù)據(jù)中獲得的學(xué)習(xí)結(jié)果的經(jīng)驗(yàn)信息。
4.根據(jù)權(quán)利要求1到3的第三語(yǔ)言文本生成算法,其中生成步驟包括自動(dòng)獲取至少第三語(yǔ)言句法結(jié)構(gòu)信息的部分或全部信息,或有關(guān)現(xiàn)有第三語(yǔ)言文集的第三語(yǔ)言單詞用法信息;以及根據(jù)自動(dòng)獲取的第三語(yǔ)言的信息特征,生成第三語(yǔ)言文本。
5.一種供語(yǔ)言處理使用的第三語(yǔ)言文本生成設(shè)備,通過(guò)使用眾多語(yǔ)言生成一種新的第三語(yǔ)言文本,該設(shè)備包括輸入裝置,用于輸入用不同語(yǔ)言書(shū)寫(xiě)的兩個(gè)或更多多語(yǔ)文本,不同語(yǔ)言包括作為源語(yǔ)言的第一語(yǔ)言和將第一語(yǔ)言翻譯成的至少一種第二語(yǔ)言;分析裝置,用于以每種語(yǔ)言或任意兩種或多種語(yǔ)言之組合的方式,在每個(gè)多語(yǔ)文本上執(zhí)行包括至少相依分析和語(yǔ)義分析的語(yǔ)言分析,從而獲取有關(guān)至少相依結(jié)構(gòu)和語(yǔ)義表示的語(yǔ)言信息;用于生成第三語(yǔ)言文本的生成裝置;以及能夠輸出生成裝置生成的第三語(yǔ)言文本的輸出裝置,其中生成裝置通過(guò)使用分析裝置獲取的語(yǔ)言信息生成第三語(yǔ)言文本,或者該設(shè)備還包括轉(zhuǎn)換裝置,該裝置根據(jù)分析裝置獲得的分析結(jié)果,或者根據(jù)分析結(jié)果和第三語(yǔ)言的轉(zhuǎn)換知識(shí)特征,執(zhí)行語(yǔ)言轉(zhuǎn)換,其中生成裝置通過(guò)使用至少分析裝置獲取的語(yǔ)言信息或轉(zhuǎn)換裝置獲取的轉(zhuǎn)換結(jié)果,生成第三語(yǔ)言文本。
6.根據(jù)權(quán)利要求5的第三語(yǔ)言文本生成設(shè)備,其中分析裝置包括為確定構(gòu)成多語(yǔ)文本的單詞之間的對(duì)應(yīng),構(gòu)成多語(yǔ)文本的短語(yǔ)之間的對(duì)應(yīng)和構(gòu)成多語(yǔ)文本的句子之間的對(duì)應(yīng)而執(zhí)行關(guān)聯(lián)處理的關(guān)聯(lián)部分;分析至少第一語(yǔ)言文本的分析模塊;以及通過(guò)使用先前準(zhǔn)備的分析模塊,根據(jù)關(guān)聯(lián)處理的結(jié)果,分析與第一語(yǔ)言文本相對(duì)應(yīng)的至少第二語(yǔ)言文本中的各個(gè)部分,然后合并分析結(jié)果的合并部分。
7.根據(jù)權(quán)利要求5或6的第三語(yǔ)言文本生成設(shè)備,還包括信息存儲(chǔ)裝置,用于存儲(chǔ)包含至少每種語(yǔ)言的詞典信息或語(yǔ)法信息的基于規(guī)則的信息,以及基于從文集中的實(shí)際數(shù)據(jù)中獲得的學(xué)習(xí)結(jié)果的經(jīng)驗(yàn)信息,其中分析裝置、轉(zhuǎn)換裝置和生成裝置中的至少一個(gè)裝置,根據(jù)信息存儲(chǔ)裝置中存儲(chǔ)的基于規(guī)則的信息和經(jīng)驗(yàn)信息,執(zhí)行分析處理。
8.根據(jù)權(quán)利要求5到7的第三語(yǔ)言文本生成設(shè)備,還包括至少第三語(yǔ)言信息獲取裝置或第三語(yǔ)言信息存儲(chǔ)裝置,前者用于自動(dòng)獲取至少第三語(yǔ)言句法結(jié)構(gòu)信息的部分或全部信息,或有關(guān)現(xiàn)有第三語(yǔ)言文集的第三語(yǔ)言單詞用法信息,后者能夠保存先前自動(dòng)獲取的第三語(yǔ)言的信息特征,其中生成裝置根據(jù)第三語(yǔ)言的信息特征,生成第三語(yǔ)言文本。
9.根據(jù)權(quán)利要求5到8的第三語(yǔ)言文本生成設(shè)備,其中輸入裝置能夠?qū)⒅辽僖环N計(jì)算機(jī)數(shù)據(jù)輸入到該設(shè)備中,計(jì)算機(jī)數(shù)據(jù)為將一張紙或一本書(shū)之類的文檔文本轉(zhuǎn)換為電磁記錄的文檔文本捕獲/轉(zhuǎn)換裝置轉(zhuǎn)換的計(jì)算機(jī)數(shù)據(jù);從硬盤(pán)、光存儲(chǔ)器或存儲(chǔ)器之類的電磁記錄設(shè)備中讀取的計(jì)算機(jī)數(shù)據(jù);以及可從因特網(wǎng)之類的網(wǎng)絡(luò)上的電磁存儲(chǔ)設(shè)備中獲得的計(jì)算機(jī)數(shù)據(jù)。
10.供基于計(jì)算機(jī)的語(yǔ)言處理使用的一種第三語(yǔ)言文本生成程序,通過(guò)使用眾多多語(yǔ)文本生成一種新的第三語(yǔ)言文本,該程序包括輸入部分,用于從計(jì)算機(jī)的存儲(chǔ)設(shè)備或輸入設(shè)備中獲得用不同語(yǔ)言書(shū)寫(xiě)的兩個(gè)或更多多語(yǔ)文本,不同語(yǔ)言包括作為源語(yǔ)言的第一語(yǔ)言和將第一語(yǔ)言翻譯成的至少一種第二語(yǔ)言;分析部分,用于以每種語(yǔ)言或任意兩種或多種語(yǔ)言之組合的方式,在每個(gè)獲得的多語(yǔ)文本上執(zhí)行包括至少相依分析和語(yǔ)義分析的語(yǔ)言分析,并且通過(guò)使用計(jì)算機(jī)的運(yùn)算器和存儲(chǔ)設(shè)備執(zhí)行算術(shù)運(yùn)算,獲取有關(guān)至少相依結(jié)構(gòu)和語(yǔ)義表示的語(yǔ)言信息;生成部分,通過(guò)使用計(jì)算機(jī)的運(yùn)算器和存儲(chǔ)設(shè)備執(zhí)行算術(shù)運(yùn)算,生成第三語(yǔ)言文本;以及輸出部分,利用計(jì)算機(jī)的存儲(chǔ)設(shè)備或輸出設(shè)備輸出生成部分生成的第三語(yǔ)言文本,其中生成部分通過(guò)使用分析部分獲取的語(yǔ)言信息生成第三語(yǔ)言文本,或者該程序還包括轉(zhuǎn)換部分,用于根據(jù)分析部分獲得的分析結(jié)果,或者根據(jù)分析結(jié)果和第三語(yǔ)言的轉(zhuǎn)換知識(shí)特征,執(zhí)行語(yǔ)言轉(zhuǎn)換,其中生成部分通過(guò)使用至少分析部分獲取的語(yǔ)言信息或轉(zhuǎn)換部分獲取的轉(zhuǎn)換結(jié)果,生成第三語(yǔ)言文本。
11.根據(jù)權(quán)利要求10的第三語(yǔ)言文本生成程序,其中分析部分包括為確定構(gòu)成多語(yǔ)文本的單詞之間的對(duì)應(yīng),構(gòu)成多語(yǔ)文本的短語(yǔ)之間的對(duì)應(yīng)和構(gòu)成多語(yǔ)文本的句子之間的對(duì)應(yīng)而執(zhí)行關(guān)聯(lián)處理的關(guān)聯(lián)例程;分析至少第一語(yǔ)言文本的分析例程;以及通過(guò)使用分析例程,根據(jù)關(guān)聯(lián)處理的結(jié)果,分析與第一語(yǔ)言文本相對(duì)應(yīng)的至少第二語(yǔ)言文本中的各個(gè)部分,然后合并分析結(jié)果的合并例程。
12.根據(jù)權(quán)利要求10或11的第三語(yǔ)言文本生成程序,其中分析部分、轉(zhuǎn)換部分和生成部分中的至少一個(gè)部分使用基于規(guī)則的信息,該信息包含至少每種語(yǔ)言的詞典信息或語(yǔ)法信息的基于規(guī)則的信息,以及基于從文集中的實(shí)際數(shù)據(jù)中獲得的學(xué)習(xí)結(jié)果的經(jīng)驗(yàn)信息。
13.根據(jù)權(quán)利要求10到12的第三語(yǔ)言文本生成程序,還包括第三語(yǔ)言信息讀取例程,該例程讀出自動(dòng)獲取部分獲取的第三語(yǔ)言的信息特征,或至少有關(guān)現(xiàn)有第三語(yǔ)言文集的第三語(yǔ)言句法結(jié)構(gòu)信息或第三語(yǔ)言單詞用法信息的所有信息,其中生成部分根據(jù)第三語(yǔ)言的信息特征,生成第三語(yǔ)言文本。
全文摘要
通過(guò)輸入眾多多語(yǔ)文本并通過(guò)使用多語(yǔ)文集,生成比迄今為止出現(xiàn)的只輸入單語(yǔ)文本更準(zhǔn)確的第三語(yǔ)言文本的一種技術(shù)。在輸入文本后,執(zhí)行分析處理,轉(zhuǎn)換處理和生成處理,然后輸出目標(biāo)語(yǔ)言文檔文本。由于能夠自動(dòng)獲取語(yǔ)言的信息特征,所以生成目標(biāo)語(yǔ)言文檔文本不需要大規(guī)模文集。
文檔編號(hào)G06F17/28GK1554058SQ02817660
公開(kāi)日2004年12月8日 申請(qǐng)日期2002年8月9日 優(yōu)先權(quán)日2001年8月10日
發(fā)明者井佐原均 申請(qǐng)人:獨(dú)立行政法人通信綜合研究所
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1