亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于語義的機器翻譯系統(tǒng)及方法

文檔序號:6565228閱讀:653來源:國知局
專利名稱:基于語義的機器翻譯系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明涉及機器翻譯,尤其涉及基于語義的機器翻譯系統(tǒng)和方法。
背景技術(shù)
利用計算機技術(shù)來實現(xiàn)在不同自然語言之間的自動翻譯一直是技術(shù)人員的努力方向,但是由于自然語言的復(fù)雜多樣性以及不同語種之間存在著的大量復(fù)雜的對應(yīng)關(guān)系,因此現(xiàn)有的機器翻譯系統(tǒng)的準確率和譯文的可接受程度都比較低,始終沒有達到實用水平。
目前,機器翻譯所使用的方法基本是先基于語法或語料的分析方法分析原始語種的句子和語段,然后結(jié)合雙語種詞典來進行匹配查找將對應(yīng)的字詞替換為目標語種的字詞,再按照兩種語言語法的對應(yīng)關(guān)系將替換好的字詞重新組合,最后拼裝成目標語種的語句和語段作為譯文。
這種方法存在的問題是在一次翻譯過程只能翻譯出一種目標語言;雙語詞典非常龐大復(fù)雜;大量復(fù)雜的語法規(guī)則和兩語種之間的特殊對應(yīng)的操作都需要在翻譯每一句話時重復(fù)執(zhí)行,使得翻譯程序很大和復(fù)雜,對系統(tǒng)的開銷很大;而且由于計算機程序無法涵蓋所有可能的變化,所以很多時候的譯文是不準確的或者無法接受的。

發(fā)明內(nèi)容
本發(fā)明的目的是解決現(xiàn)有技術(shù)的上述問題,提供一種基于語義的機器翻譯系統(tǒng)和方法,能夠有效地完成兩種或兩種以上自然語言之間的翻譯,同時還能夠提高準確率和譯文的可接受程度。
根據(jù)本發(fā)明的一個方面,提供了一種基于語義的機器翻譯方法,用于將原始語種的原文自動地翻譯成一個或多個目的語種的譯文,該方法包括如下步驟提取原文的一句;根據(jù)語義單元表示庫,對該句進行語義分析,從而得到該句的句義表達式;根據(jù)語義單元表示庫,將該句義表達式用目的語種的表示展開;將展開后的句子作為譯文輸出。
根據(jù)本發(fā)明的另一個方面,提供了一種基于語義的自然語言機器翻譯系統(tǒng),用于將原始語種的原文自動地翻譯成一個或多個目的語種的譯文,該系統(tǒng)包括原文存儲器,用于保存待譯的原文;語義單元表示庫,用于記錄語義單元對應(yīng)的兩個或兩個以上語種的語義單元表示;語義分析器,用于按照語義單元表示庫中記錄的語義單元的原始語種的語義單元表示,將原文中的語句分析轉(zhuǎn)換成句義表達式;語義展開器,用于按照語義單元表示庫中記錄的目的語種的語義單元表示,將句義表達式展開為目的語種的語句。
根據(jù)本發(fā)明的另一個方面,提供了一種計算機可讀的記錄媒體,該媒體上記錄的計算機可執(zhí)行程序可以使計算機執(zhí)行基于語義的機器翻譯方法,該機器翻譯方法包括如下步驟提取原文的一句;根據(jù)語義單元表示庫,對該句進行語義分析,從而得到該句的句義表達式;根據(jù)語義單元表示庫,將該句義表達式用目的語種的表示展開;將展開后的句子作為譯文輸出。
本發(fā)明的各個方面、特征和優(yōu)點相信可以通過下面結(jié)合附圖對本發(fā)明實施例的描述變得清楚而被理解。


結(jié)合下面的附圖,對本發(fā)明進行說明。
圖1是根據(jù)本發(fā)明的一個實施例的基于語義的機器翻譯方法的流程圖;圖2A和2B是根據(jù)本發(fā)明實施例的三種自然語言的語義單元表示庫中記載語義單元及其表示的數(shù)據(jù)表的一個例子,其中,圖2A是該例子的語義單元及其在語義單元表示庫中的內(nèi)容,包括各自然語言上的語義單元表示;圖2B時該例子的語義單元及其對應(yīng)的方便寫法;圖3是根據(jù)本發(fā)明一個實施例的基于語義的機器翻譯方法中語義分析步驟的詳細流程圖;圖4是根據(jù)本發(fā)明一個實施例的基于語義的機器翻譯方法中語義展開步驟的詳細流程圖;圖5是根據(jù)本發(fā)明的一個實施例的基于語義的機器翻譯系統(tǒng)的示意方塊圖。
具體實施例方式
首先參照圖1,來對本發(fā)明的基于語義的機器翻譯方法進行描述。圖1是根據(jù)本發(fā)明的一個實施例的基于語義的機器翻譯方法的流程圖。本發(fā)明的機器翻譯方法,不同于現(xiàn)有技術(shù),是基于語義的。為了更好的理解本發(fā)明,下面就一些本發(fā)明涉及到的術(shù)語和概念進行一下解釋在自然語言中,表達一個意思的單元被稱為語義單元,例如,“工程師”。
在任何一種具體的自然語言(例如英語,漢語,等)中的一個表達一個意思的單元(即語義單元)稱為該語義單元在該具體自然語言中的語義單元表示。例如,工程師的漢語表示是“工程師”,英語表示是“engineer”。
任何一個具體的自然語言的一個句子的語義,我們稱它為句義,例如,“我是學生”。句義是由語義單元構(gòu)成。例如句義“我是學生”是由我、學生、是職稱(<誰>,<什么職稱>)這三個語義單元構(gòu)成。其中,<誰>和<什么職稱>是兩個參數(shù),每個參數(shù)需要被替換成為一個語義單元。
有參數(shù)的語義單元的參數(shù)可以用語義單元進行替換,即進行代入。替換后的語義單元成為語義單元代入式。語義單元代入式是一個復(fù)合語義單元。一個句義可以寫為句義表達式,即一個參數(shù)全部被替換的語義單元代入式,例如是職稱(我,學生)。
一個具體的自然語言的句子是一個句義在該具體的自然語言中的句義表示。例如,“是職稱(我,學生)”的漢語表示是“我是學生”,英語表示是“I am a student”。
語義語言是由全部語義單元構(gòu)成。語義語言是統(tǒng)一的,與具體語種無關(guān)。一個具體的自然語言就是由該具體的自然語言的全部語義單元表示構(gòu)成。一個具體的自然語言可以看作語義語言的一個表示。
不同的具體自然語言之間,之所以能彼此翻譯,使用不同的具體自然語言的人們之所以能交流,就是因為不同的具體自然語言之間有對應(yīng)于相同語義單元的語義單元表示,有對應(yīng)于相同句義的句子,或者可以建立表達該語義單元或者句義的一組句子。
全世界大約有4000種語言,包括英語、漢語、日語、德語等。它們都是可以看作統(tǒng)一的語義語言的不同表示。
如圖1所示,根據(jù)本發(fā)明的該實施例,首先在步驟100,提取原文的一句。此處的原文是指要對其進行翻譯的原始語種的文章。在進行機器翻譯的過程中,要先將需要翻譯的原文輸入到計算機中,可以通過現(xiàn)有技術(shù)中的多種方法,如鍵盤輸入、掃描識別或通過網(wǎng)絡(luò)從其它計算機獲得。這些輸入的原文一般情況會是整篇或一段文章,因此需要首先提取其中一句。
然后在步驟200,根據(jù)語義單元表示庫,對該句進行語義分析,從而得到該句的句義表達式。接著在步驟300,根據(jù)語義單元表示庫,將該句義表達式用目的語種的表示展開。最后在步驟400,將展開后的句子作為譯文輸出。下面結(jié)合附圖2至4,對本發(fā)明的實施例的機器翻譯方法進行詳細描述。
圖2A和2B是本發(fā)明實施例涉及到的語義單元表示庫的例子。語義單元表示庫是記錄一種或多種自然語言的語義表示的數(shù)據(jù)集合。
其中,圖2A是該例子的語義單元及其在語義單元表示庫中的內(nèi)容,包括各自然語言上的語義單元表示。如圖2A所示,語義單元表示庫包括以下字段語義單元ID,用于唯一識別一個語義單元,一般可以用一個序號或其他不會重復(fù)的數(shù)值或字符串來表示,當然也可以用行號,這樣就不必存儲它;參數(shù)數(shù)目與類型,用于記載該語義單元所包含的參數(shù)數(shù)目及類型;語義單元的漢語表示,用于記錄相應(yīng)語義單元的漢語表示;語義單元的英語表示,用于記錄相應(yīng)語義單元的漢語表示;語義單元的日語表示,用于記錄相應(yīng)語義單元的日語表示。
圖2B列出語義單元及其對應(yīng)的方便記憶的各種寫法。
從圖2A和圖2B的例子中我們可以看到,語義單元表示庫實際上是一個記錄語義單元的數(shù)據(jù)庫,利用主鍵或語義單元ID將語義單元的不同語種的表示對應(yīng)起來。應(yīng)當理解,語義單元表示庫還可以有其他變化,例如可以將語義單元的一個語種的語義表示記錄在一個單獨的表中,再將記錄多個語種語義表示的表用主鍵或外部鍵對應(yīng)起來;而且,還可以包含其它字段,如語義單元的參數(shù)的屬性和參數(shù)的對應(yīng)關(guān)系的字段。
圖3是根據(jù)本發(fā)明一個實施例的基于語義的機器翻譯方法中語義分析步驟的詳細流程圖。如圖3所示,首先在步驟201,從語義單元表示庫中找出全部于原文的句子中相匹配的語義單元表示及其對應(yīng)的語義單元?,F(xiàn)有技術(shù)中,有多種匹配方法,例如人工智能常用的橫向優(yōu)先、縱向優(yōu)先等各種搜索方法,可以實現(xiàn)此步驟。接著在步驟202,對該句子中無參數(shù)的語義單元表示或者參數(shù)已經(jīng)被替換的語義單元表示用對應(yīng)的語義單元進行單元替換。在步驟203,判斷是否全部語義單元表示已經(jīng)被替換,如果判斷結(jié)果為否,則重復(fù)步驟202。由于在實際語言中,語法單元往往是嵌套多層的,因此需要重復(fù)上述步驟202和203。直到步驟203的判斷結(jié)果為是,則在步驟204,形成句義表達式。
下面結(jié)合具體的例句來說明上述語義分析的過程。
假設(shè)原文是一個漢語的句子“陳先生是工程師”。其語義分析過程如下陳先生是工程師→陳(3)先生是工程師(4)→先生(陳)(2)是工程師→是現(xiàn)在職稱(先生(陳),工程師)(1)如上所示,首先將“陳”和“工程師”替換為語義單元ID為3和4的語義單元;然后將帶參數(shù)的語義單元表示“先生”替換,因為其參數(shù)“陳”已經(jīng)替換了;最后替換帶參數(shù)的語義單元表示“是”,因為該語義單元的兩個參數(shù)都已經(jīng)被替換了。最終“是現(xiàn)在職稱(先生(陳),工程師)”便是該句子的句義表達式。需要指出的是,在以上的說明中我們是用的是語義單元方便記憶的寫法,實際上在計算機中語義單元會被替換為適合計算機讀取的標記符號,例如語義單元ID,因此上述句義表達式可以為1(2(3),4)。
同樣地,對于英語和日語的句子的分析過程的例子如下Mr.Chen is an Engineer→Mr.Chen(3)is anengineer(4)→Mr.(Chen)(2)is an engineer→IsTP(Mr.(Chen),engineer)(1);
陳さんは技師です→陳さんは技師です→さん(陳)は技師です→です(さん(陳),技師)從以上這些例子中可以看出,對于表達同一意思的不同語種的句子,其最終的句義表達式均為1(2(3),4)。
應(yīng)當理解還有許多其他的方法來實現(xiàn)上述的語義分析,來得到句義表達式。
圖4是根據(jù)本發(fā)明一個實施例的基于語義的機器翻譯方法中語義展開步驟的詳細流程圖。如圖4所示,首先在步驟301,順序掃描句義表達式,讀出第一個尚未展開的語義單元。接著在步驟302,從語義單元表示庫找出目的語種的語義單元表示,并且按照該語義單元表示進行展開。然后在步驟303,判斷是否全部語義單元都已經(jīng)被展開了。如果全部展開了,則在步驟304,得到目的語種的譯文;否則,重復(fù)執(zhí)行步驟301至303。
下面結(jié)合具體的例句來說明語義展開的過程。
假設(shè)需要展開的句義表達式為1(2(3),4),即是現(xiàn)在職稱(先生(陳),工程師)=IsTP(Mr.(Chen),engineer)=です(さん(陳),技師)該句義表達是在漢語上的展開過程如下是現(xiàn)在職稱(先生(陳),工程師)→先生(陳)是工程師→陳先生是工程師→陳先生是工程師→陳先生是工程師如上所示,首先順序掃描句義表達式,找到第一個語義單元“是(X1,X2)”將其按照漢語的語義單元表示展開,即中間為“是”,兩個參數(shù)“先生(陳)”和“工程師”分別位于“是”的兩邊。然后,將語義單元“先生(X)”按照漢語的語義單元表示展開,即作為參數(shù)的語義單元“陳”位于“先生”前面。接著依次將語義單元“陳”和“工程師”按照漢語的語義單元表示展開,最終就得到了漢語譯文“陳先生是工程師”。
同樣地,對于該句義在英語和日語的展開過程的例子如下IsTP(Mr.(Chen),engineer)=>Mr.(Chen)is a engineer=>Mr.Chenis an engineer=>Mr.Chen is an engineerてす(さん(陳),技師)=>さん(陳)は技師てす=>陳さんは技師てす=>陳さんは技師てす應(yīng)當理解,上述具體的展開步驟可以有多種變化,例如可以不是按照句義表達式中語義單元的排列順序而是類似語義分析時的順序,先將不帶參數(shù)或者參數(shù)已經(jīng)被展開了的語義單元展開,然后層層遞歸地展開所有語義單元。
通過以上對本發(fā)明的描述可以看出,通過將原文轉(zhuǎn)換為句義表達式,本發(fā)明的機器翻譯方法,可以同時完成多個目的語種譯文的翻譯工作,只要語義單元表示庫中有相應(yīng)語種的語義單元表示。
根據(jù)本發(fā)明的另一個實施例,在將原文的句子轉(zhuǎn)換為句義表達式后,還包括將該句義表達式保存在存儲設(shè)備中的步驟,知道原文的一個段落或全部的語句被轉(zhuǎn)換或保存后,再進行按需地展開為目標語種的語句。換句話說,首先對原文進行語義分析,將形成的句義表達式集合保存起來,在需要的時候按照需要的語種展開成為自然語言。
圖5是根據(jù)本發(fā)明的一個實施例的基于語義的機器翻譯系統(tǒng)的示意方塊圖。如圖5所示,本發(fā)明該實施例的機器翻譯系統(tǒng)包括原文存儲器501,用于保存待譯的原文;語義單元表示庫506,用于記錄語義單元對應(yīng)的兩個或兩個以上語種的語義表示;語義分析器504,用于按照語義單元表示庫506中記錄的語義單元的原始語種的語義單元表示,將原文中的語句分析轉(zhuǎn)換成句義表達式;句義表達式存儲器502,用于保存語義分析器504分析轉(zhuǎn)換后的句義表達式;語義展開器505,用于按照語義單元表示庫506中記錄的目的語種的語義表示,將句義表達式展開為目的語種的語句;譯文輸出裝置503,用于將語義展開器505展開的目的語種的語句作為譯文輸出。
本領(lǐng)域技術(shù)人員可以理解,上述機器翻譯系統(tǒng)可以是計算機或其他具有處理能力的計算設(shè)備。該計算設(shè)備應(yīng)當包括處理器、存儲器和相應(yīng)的輸入輸出設(shè)備。而上述機器翻譯系統(tǒng)中的組成部分,可以通過硬件或軟件形式實現(xiàn)。當然,用戶可以通過網(wǎng)絡(luò)來使用它,也可以利用它來幫助用戶搜索、閱讀或者翻譯網(wǎng)上的信息。
另外,眾所周知,通過提供帶有記錄了可以實現(xiàn)前述實施例功能的軟件程序代碼的記錄媒體的系統(tǒng)或裝置就可以實現(xiàn)本發(fā)明的目的。所述程序代碼可以由計算機讀取,并且可以使系統(tǒng)和裝置中的計算機(或CPU,或MPU)讀取存儲在記錄媒體中的程序并且根據(jù)程序代碼執(zhí)行命令。在這種情況下,從記錄媒體中讀出的程序代碼實現(xiàn)前述實施例的功能,并且其中記錄了該程序代碼的記錄媒體構(gòu)成了本發(fā)明。用于記錄程序代碼或諸如表的可變數(shù)據(jù)的記錄媒體可以使磁盤(如軟盤或硬盤)、光盤、或任何非易失性存儲卡。
以上通過本發(fā)明的具體實施例對本發(fā)明的原理、特征和優(yōu)點進行了描述。應(yīng)當理解本發(fā)明不僅僅限于上述的具體實施例,還可以有多種變化,并且具體實施步驟也可以有區(qū)別。本發(fā)明的保護范圍僅由所附的權(quán)利要求限定。
權(quán)利要求
1.一種基于語義的自然語言機器翻譯方法,用于將原始語種的原文自動地翻譯成一個或多個目的語種的譯文,該方法包括如下步驟提取原文的一句;根據(jù)語義單元表示庫,對該句進行語義分析,從而得到該句的句義表達式;根據(jù)語義單元表示庫,將該句義表達式用目的語種的語義單元表示進行展開;將展開后的句子作為譯文輸出。
2.根據(jù)權(quán)利要求1的機器翻譯方法,其中所述語義單元表示庫中記錄了語義單元ID和語義單元的兩種或兩種以上語種的語義單元表示。
3.根據(jù)權(quán)利要求2的機器翻譯方法,其中所述語義單元表示庫中還記錄了語義單元所包含的參數(shù)的個數(shù)和各參數(shù)的類型。
4.根據(jù)權(quán)利要求1的機器翻譯方法,其中所述語義分析步驟進一步包括從語義單元表示庫中找出全部與原文的句子中相匹配的語義單元表示及其對應(yīng)的語義單元;對無參數(shù)的語義單元表示或者參數(shù)已經(jīng)被替換的語義單元表示用對應(yīng)的語義單元進行替換;重復(fù)上述替換步驟直到全部語義單元表示被替換完畢,從而形成句義表達式。
5.根據(jù)權(quán)利要求1的機器翻譯方法,其中所述展開步驟進一步包括掃描句義表達式,取出一個尚未展開的語義單元;從語義單元表示庫找出該語義單元的目的語種的語義單元表示,并且按照該語義單元表示進行展開;重復(fù)上述掃描和展開步驟,直到該句義表達式的全部語義單元被展開。
6.根據(jù)權(quán)利要求1的機器翻譯方法,其中在所述語義分析步驟后還包括保存得到的句義表達式的步驟。
7.一種基于語義的自然語言機器翻譯系統(tǒng),用于將原始語種的原文自動地翻譯成一個或多個目的語種的譯文,該系統(tǒng)包括原文存儲器,用于保存待譯的原文;語義單元表示庫,用于記錄語義單元對應(yīng)的兩個或兩個以上語種的語義單元表示;語義分析器,用于按照語義單元表示庫中記錄的語義單元的原始語種的語義單元表示,將原文中的語句分析轉(zhuǎn)換成句義表達式;語義展開器,用于按照語義單元表示庫中記錄的目的語種的語義單元表示,將句義表達式展開為目的語種的語句。
8.根據(jù)權(quán)利要求7的機器翻譯系統(tǒng),其中該系統(tǒng)進一步包括句義表達式存儲器,用于保存所述語義分析器分析轉(zhuǎn)換后的句義表達式。
9.根據(jù)權(quán)利要求7的機器翻譯系統(tǒng),其中該系統(tǒng)進一步包括譯文輸出裝置,用于將語義展開器展開的目的語種的語句作為譯文輸出。
10.一種計算機可讀的記錄媒體,記錄了使計算機執(zhí)行基于語義的自然語言機器翻譯方法的可執(zhí)行程序,所述機器翻譯方法包括以下步驟提取原文的一句;根據(jù)語義單元表示庫,對該句進行語義分析,從而得到該句的句義表達式;根據(jù)語義單元表示庫,將該句義表達式用目的語種的語義單元表示進行展開;將展開后的句子作為譯文輸出。
11.根據(jù)權(quán)利要求10的計算機可讀的記錄媒體,其中所述機器翻譯方法涉及的語義單元表示庫中記錄了語義單元ID和語義單元的兩種或兩種以上語種的語義單元表示。
12.根據(jù)權(quán)利要求11的計算機可讀的記錄媒體,其中所述機器翻譯方法涉及的語義單元表示庫中還記錄了語義單元所包含的參數(shù)的個數(shù)和各參數(shù)的類型。
13.根據(jù)權(quán)利要求10的計算機可讀的記錄媒體,其中所述語義分析步驟進一步包括從語義單元表示庫中找出全部與原文的句子中相匹配的語義單元表示及其對應(yīng)的語義單元;對無參數(shù)的語義單元表示或者參數(shù)已經(jīng)被替換的語義單元表示用對應(yīng)的語義單元進行替換;重復(fù)上述替換步驟直到全部語義單元表示被替換完畢,從而形成句義表達式。
14.根據(jù)權(quán)利要求10的計算機可讀的記錄媒體,其中所述展開步驟進一步包括掃描句義表達式,取出一個尚未展開的語義單元;從語義單元表示庫找出該語義單元的目的語種的語義單元表示,并且按照該語義單元表示進行展開;重復(fù)上述掃描和展開步驟,直到該句義表達式的全部語義單元被展開。
15.根據(jù)權(quán)利要求10的計算機可讀的記錄媒體,其中在所述語義分析步驟后還包括保存得到的句義表達式的步驟。
全文摘要
一種基于語義的自然語言機器翻譯方法,用于將原始語種的原文自動地翻譯成一個或多個目的語種的譯文,該方法包括如下步驟提取原文的一句;根據(jù)語義單元表示庫,對該句進行語義分析,從而得到該句的句義表達式;根據(jù)語義單元表示庫,將該句義表達式用目的語種的語義單元表示進行展開;將展開后的句子作為譯文輸出。本發(fā)明機器翻譯方法可以高效的同時翻譯多種目的語種的譯文。
文檔編號G06F17/28GK1428721SQ01131689
公開日2003年7月9日 申請日期2001年12月27日 優(yōu)先權(quán)日2001年12月27日
發(fā)明者高慶獅, 胡玥, 高小宇 申請人:高慶獅, 胡玥, 高小宇
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1