專利名稱:模擬大腦語言感知過程的自然語言語句分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)自然語言處理方法,更具體地說,涉及一種模擬人腦對自然語言語句感知過程的計(jì)算機(jī)分析方法。
自40年代計(jì)算機(jī)誕生起,就不斷有人嘗試使用計(jì)算機(jī)對人類慣常的自然語言進(jìn)行分析和處理,以下是幾種主要方法。
喬姆斯基(N.Chomsky)在本世紀(jì)50年代提出了轉(zhuǎn)換生成語法(Transformational Generative Grammar),形成了轉(zhuǎn)換生成語法的句法分析方法。喬姆斯基在轉(zhuǎn)換生成語法中提出語言中存在著深層結(jié)構(gòu),但他并沒有解決深層結(jié)構(gòu)如何表示以及深層結(jié)構(gòu)有多少種、自然語言中的深層結(jié)構(gòu)是有限還是無限的問題。因此盡管喬姆斯基的轉(zhuǎn)換生成語法是基于語句生成十分嚴(yán)格的過程,但對于人類自然形成的極為復(fù)雜的語言現(xiàn)象,轉(zhuǎn)換生成語法及其句法分析方法還沒有具備足夠的能力去處理自然語言問題。此外,由于深層結(jié)構(gòu)并沒有在處理過程中發(fā)揮作用,過強(qiáng)的生成能力也使轉(zhuǎn)換生成語法的句法分析很不成功。
隨著研究的深入,逐步形成了一批便于計(jì)算機(jī)實(shí)現(xiàn)的自然語言處理的語法理論。主要包括以擴(kuò)充轉(zhuǎn)換(ATN)語法、系統(tǒng)功能語法和各種短語結(jié)構(gòu)語法等為指導(dǎo)的句法分析方法。這些方法在計(jì)算機(jī)實(shí)現(xiàn)的方便性上比轉(zhuǎn)換生成語法大大加強(qiáng),但它們都放棄了追求對語言深層結(jié)構(gòu)的分析,而自然語言的分析問題,不僅僅是一個(gè)語法的問題。因此,這些方法不能很好地解決計(jì)算機(jī)自然語言分析問題是顯而易見的。
短語結(jié)構(gòu)語法的進(jìn)一步發(fā)展,已經(jīng)認(rèn)識到需要多方面地利用自然語言中蘊(yùn)含的知識才能獲得較好的分析結(jié)果。近年來,以短語結(jié)構(gòu)語法為基礎(chǔ),引入復(fù)雜特征集的知識表示方法和合一運(yùn)算的算法,形成了詞匯功能語法(Lexical Functional Grammar,簡稱LFG)、功能合一語法(FunctionalUnification Grammar,簡稱FUG)、廣義短語結(jié)構(gòu)語法(GeneralizedPhrase Structure Grammar,簡稱CPSG)和核驅(qū)動(dòng)短語結(jié)構(gòu)語法(Head-Driben Phrase Structure Grammar,簡稱GPSG)。這些方法有些涉及到語義深層分析,但由于缺乏整體的概念表述體系,同時(shí)它們也沒有真正發(fā)現(xiàn)并使用自然語言的深層語義結(jié)構(gòu),仍然使用語法結(jié)構(gòu),將語義處理作為語法分析的補(bǔ)充。因而并不能徹底解決使用語法分析自然語言所遇到的問題。
在語法處理方法占主導(dǎo)地位的同時(shí),也出現(xiàn)了緊密依賴語義的分析處理方法。它們是菲爾摩(Fillmore)提出的格語法(Case Grammar)和杉克(Schank)提出的概念從屬理論(Conceptual Dependency)。格語法雖然在探索和追求深層語義結(jié)構(gòu)上作出了一定貢獻(xiàn),但它最終也沒有形成一個(gè)完整的體系,對于諸如自然語言中有多少個(gè)格無法回答。甚至連自然語言中的格是有限的還是無限的,這樣一個(gè)基本問題,也無法定論。而概念從屬理論則在缺乏完整概念表述體系和深層語義結(jié)構(gòu)等基礎(chǔ)時(shí),就深入到對自然語言中的常識和專業(yè)知識的理解,使得它猶如建立在沙灘上的大廈,無法真正承擔(dān)自然語言處理的重任。以概念從屬理論為基礎(chǔ)的處理方法,一開始就陷入了知識的海洋而不能自拔。這導(dǎo)致了概念從屬理論的處理方法面對無限的自然語言現(xiàn)象,總是處于一種需要加入知識的階段,無法進(jìn)入實(shí)用。
目前計(jì)算機(jī)的應(yīng)用幾乎無所不在,軟件產(chǎn)業(yè)將成為21世紀(jì)的主導(dǎo)產(chǎn)業(yè),這標(biāo)志著信息時(shí)代已經(jīng)來臨。面對信息和知識的主要載體--自然語言,計(jì)算機(jī)迫切需要具有處理自然語言語義知識的功能。因此首先要建立便于計(jì)算機(jī)操作的自然語言語句分析方法,使計(jì)算機(jī)能夠較好地掌握自然語言的深層語義結(jié)構(gòu)。
本發(fā)明的目的是提供一種完整的、面向各種自然語言的、模擬人的大腦語言感知過程的計(jì)算機(jī)自然語言語句分析方法。
一種模擬大腦語言感知過程的自然語言語句分析方法,其特征在于該方法包括句類分析法和概念層次網(wǎng)絡(luò)語言層面知識庫,其中,句類分析法根據(jù)對自然語言語句的綜合,歸納和演繹分成7個(gè)基本句類及57個(gè)子類,對每一個(gè)基本句類及其子類,以語義塊物理表示式為語義單元,給出相應(yīng)的語句物理表示式,這些表示式有標(biāo)準(zhǔn)、規(guī)范、違例和省略4種基本格式;每種基本格式又有相應(yīng)的、數(shù)學(xué)上可窮盡列舉的不同格式。
概念層次網(wǎng)絡(luò)語言層面知識庫的表述步驟如下(1)知識庫對詞匯所屬的句類,以句類代碼形式給出;(2)對于詞匯形成句子時(shí),語義塊的各種實(shí)際排列順序以格式代碼的形式表達(dá);(3)給出詞匯形成句子時(shí)語義塊的構(gòu)成知識和構(gòu)成語義塊各部分優(yōu)先概念的知識;(4)給出詞匯形成語義塊時(shí)語義塊的分離及變換知識;(5)給出詞匯在構(gòu)成句子時(shí)充當(dāng)?shù)恼Z義角色知識;(6)給出詞匯引發(fā)的語境知識;(7)給出詞匯引發(fā)的句類轉(zhuǎn)換知識;(8)給出詞匯引發(fā)的某些語義塊擴(kuò)展為語句的知識。
句類分析的具體處理步驟如下(1)對輸入的句子,進(jìn)行詞庫匹配,切分出句子中遇到的詞,從知識庫中取得這些詞匯的語義知識;(2)根據(jù)概念類別信息的指示,以語義塊區(qū)分指示符10類概念和動(dòng)詞v概念為依據(jù),形成語義塊雛形,形成E假設(shè);
(3)如果未能形成E假設(shè),轉(zhuǎn)向(9);否則,繼續(xù);(4)對全部E假設(shè)進(jìn)行篩選和排隊(duì),主要利用的信息為句類代碼,格式代碼和詞頻及語境知識;(5)按照入選E假設(shè)的排序,依次進(jìn)行句類檢驗(yàn);主要利用的信息為語義塊核心的概念優(yōu)選性知識;如果全部檢驗(yàn)失敗,轉(zhuǎn)向(11);否則繼續(xù);(6)進(jìn)行語義塊構(gòu)成檢驗(yàn);主要利用的信息為語義塊構(gòu)成知識和構(gòu)成語義塊各部分優(yōu)先概念的知識;如果全部檢驗(yàn)失敗,轉(zhuǎn)向(11);否則繼續(xù);(7)在必要時(shí)進(jìn)行句類轉(zhuǎn)換檢驗(yàn),主要利用的信息為詞匯引發(fā)的句類轉(zhuǎn)換知識;如果全部檢驗(yàn)失敗,轉(zhuǎn)向(11);否則轉(zhuǎn)向(12);(8)在必要時(shí)進(jìn)行語義塊分離檢驗(yàn),主要利用的信息為語義塊分離及變換知識;如果全部失敗則轉(zhuǎn)(11),否則轉(zhuǎn)向(10);(9)進(jìn)行無E語義塊句類檢驗(yàn);如果失敗繼續(xù);否則轉(zhuǎn)向(12);(10)重作E假設(shè),成功轉(zhuǎn)向(4),否則,轉(zhuǎn)向(11);(11)人機(jī)交互;(12)搜集語境素材,處理結(jié)束。
本發(fā)明是模擬人的大腦語言感知過程的計(jì)算機(jī)自然語言語句分析方法。人在感知自然語言的過程中,綜合運(yùn)用概念層面、語言層面和常識專業(yè)層面的知識;其中概念層面和語言層面的知識是人類進(jìn)行感知處理的關(guān)鍵。概念層面的知識是與語種無關(guān)的,人類共用的處理自然語言的知識,語言層面知識是指那些在感知過程中與語種有關(guān)的知識。在概念層面,本發(fā)明以整個(gè)自然語言為對象,完整地劃分了句類,給出了自然語言的句類表示式和格式變換表,建立了自然語言語句的深層語義結(jié)構(gòu)。
句類這個(gè)概念在傳統(tǒng)語法中是指陳述句、祈使句、疑問句和感嘆句,主要是句子的語用分類,而本發(fā)明的句類是指句子的語義類別。本發(fā)明將語句按語義劃分成7個(gè)基本句類作用句、過程句、轉(zhuǎn)移句、效應(yīng)句、關(guān)系句、狀態(tài)句和判斷句。
語義塊是句子的語義構(gòu)成單位,形式上可以是一個(gè)詞、短語或句子。提出語義塊概念是為了便于從語義層面描述句子。根據(jù)語義塊與句類的依賴性強(qiáng)弱,將語義塊分成主語義塊和輔語義塊。主語義塊強(qiáng)依賴于句類,輔語義塊弱依賴于句類。輔語義塊分成7種條件、手段、工具、途徑、參照、因、果。從共性特征可以將主語義塊分成特征語義塊,作用者,對象和內(nèi)容。語義塊的個(gè)性特征是它的句類屬性。語義塊的共性和個(gè)性兩個(gè)側(cè)面應(yīng)視為語句二維空間的兩個(gè)正交基底。因此,語義塊的一般物理表示式為SK=“個(gè)性+共性”=“句類信息+語義塊類型信息”(1)上式表明了語義塊是句類的函數(shù)。語句所屬的句類,由它的特征語義塊決定。當(dāng)句子的特征語義塊包含兩個(gè)基本句類的特征時(shí),構(gòu)成混合句類;當(dāng)句子中用兩個(gè)或多個(gè)特征語義塊表述兩個(gè)或多個(gè)基本句類的特征時(shí),構(gòu)成復(fù)合句類。
為了使計(jì)算機(jī)能夠運(yùn)用這些知識,必須以符號的形式將這些信息表達(dá)出來,并形成知識庫。在概念層面需要給出句類的表示式和格式的變換表;在語言層面,需要針對具體語言的詞匯,給出以句類為主線的知識。下面具體介紹兩類知識庫的建設(shè)。
四種主語義塊基元的符號表示為特征E、作用者A、對象B和內(nèi)容C;7種輔語義塊為條件Cn(Condition)、手段Ms(Means)、工具In(Instrument)、途徑Wy(Way)、參照Re(Refer)、因Pr(Premise)、果Rt(Result)。基本句類的符號表示為作用X、過程P、轉(zhuǎn)移T、效應(yīng)Y、關(guān)系R、狀態(tài)S和判斷D。主語義塊的精確表示時(shí),將(1)式中的兩類信息都用大寫字母和數(shù)字的串接形式來表達(dá)。句類信息項(xiàng)中,字母代表基本句類,數(shù)字代表子類;語義塊類型信息項(xiàng)中,字母代表語義塊類型,數(shù)字代表類型的子類。僅含句類信息的語義塊命名為特征語義塊記為E;同時(shí)含有句類信息和語義塊類型信息的語義塊命名為廣義對象語義塊,記為JK。
例如,X2、X2B、XAC、X2C分別表示反應(yīng)句(作用句子類之一)的反應(yīng)、反應(yīng)者、反應(yīng)引發(fā)者及其表現(xiàn)、反應(yīng)者的后續(xù)表現(xiàn)等4種語義塊,這里,X2是E塊,其它都是廣義對象語義塊。又例如,TB、TC是轉(zhuǎn)移句的對象和內(nèi)容,而信息轉(zhuǎn)移句(轉(zhuǎn)移句子類之一)的對象和內(nèi)容分別記為T3B、T3C,關(guān)系的雙方分別記為RB1、RB2,等等。
語句的一般數(shù)學(xué)表示式J可寫成Jn+1=JK1+E+Σj=2nJKj---(2)]]>JK1稱為1號廣義對象語義塊,其余類推。表示式(2)并未限定JK的個(gè)數(shù),但對于基本句類,實(shí)際的自然語言只需要考慮JK個(gè)數(shù)為1,2,3的情況,它們分別相應(yīng)于兩主塊句、三主塊句和四主塊句。
對于四主塊句,JK2一定以對象B為主體,JK3一定以內(nèi)容C為主體,對于三主塊句,B或C都可以充當(dāng)JK的主體。對于兩主塊句,可以沒有E,但這時(shí)JK2必須以C為主體,漢語的狀態(tài)句經(jīng)常出現(xiàn)這種情況。
將(2)式中的E和JK用語義塊物理表示式代替,即構(gòu)成語句的物理表示式。這些物理表示式是語句深層結(jié)構(gòu)的語義表述。本發(fā)明給出了57個(gè)基本句類及其子類的句類表示式?;旌暇漕惖木漕惐硎臼剑梢杂苫揪漕惐硎臼酵浦?,而不必單獨(dú)建庫。
四種格式變換類型解釋如下標(biāo)準(zhǔn)格式的特征是主塊按語言的自然邏輯順序排列。句類表示式庫中語義塊的順序就以此格式表示。
規(guī)范格式的特征是主塊的排列順序違反了語言的自然邏輯排列順序,因而偏離了標(biāo)準(zhǔn)格式,但在廣義對象語義塊之間一定要加指示標(biāo)記。對三主塊句,規(guī)范格式有4種。對四主塊句,規(guī)范格式有23種。
違例格式的特征是在廣義對象語義塊之間部分或全部省略指示標(biāo)記。對三主塊句,違例格式有4種。對四主塊句,違例格式有47種。
省略格式是指句中省略某一個(gè)語義塊。
語言知識庫,就是針對具體語言中的詞匯,描述它的語義和句類知識。本發(fā)明使用概念層次網(wǎng)絡(luò)符號體系表述這些知識,因此,該語言知識庫又稱概念層次網(wǎng)絡(luò)知識庫。具體地講,就是從以下幾個(gè)方面提供分析語句的知識,為了便于理解,以漢語為例作了說明1.語義知識。用自然語言的概念表述體系給出。自然語言中的概念有概念基元和復(fù)合概念兩類,概念基元,指其語義可以用附
圖1給出的語義網(wǎng)絡(luò)節(jié)點(diǎn)的定義直接表達(dá)的概念;復(fù)合概念,指無法直接用語義網(wǎng)絡(luò)節(jié)點(diǎn)表達(dá),需要經(jīng)過組合才能表達(dá)語義的概念。概念基元的語義表示式為F=∑(字母串)(數(shù)字串)(3)F代表概念基元的符號表示。字母串采用小寫字母,數(shù)字串采用16進(jìn)制數(shù)字0-f。由五元組{v(概念的動(dòng)態(tài)),g(概念的靜態(tài)),u(概念的屬性),z(概念的值),r(概念的效應(yīng))}、具體概念類別{p(人),w(物)}、綜合概念類別{e(介于基元、基本和理解概念之間的綜合類),x(物性)}和語義網(wǎng)絡(luò)符號{Φ(基元概念語義網(wǎng)絡(luò)),j(基本概念語義網(wǎng)絡(luò)),l(語言邏輯概念語義網(wǎng)絡(luò)),jl(基本邏輯概念語義網(wǎng)絡(luò)),jw(基本物質(zhì)概念語義網(wǎng)絡(luò)))構(gòu)成字母串。由于基元概念的量最大,在書寫時(shí)省略不寫出Φ。數(shù)字串即層次符號。
復(fù)合概念的語義表示為F=∑F(K)(4)F(K)即是(3)式的F,它們之間通過作用# 效應(yīng)符號$對象& 內(nèi)容符號|邏輯并、選,;邏輯組合(,L,)偏正/ 主謂‖非! 反 ^優(yōu)先組合()掛靠 +組合符號連接。
2.概念類別。詞匯所表達(dá)的概念外在的表現(xiàn),即內(nèi)容1中的字母串。當(dāng)詞匯表達(dá)的是概念基元時(shí),這個(gè)符號與語義知識(見1)項(xiàng)的字母串相同;當(dāng)詞匯表達(dá)的是復(fù)合概念時(shí),此項(xiàng)表示組合后詞匯的外在表現(xiàn),可能與構(gòu)成組合的各概念基元的類別符號不同。此項(xiàng)描述了詞匯的完整外在表現(xiàn)。直接給出概念類別,便于計(jì)算機(jī)首先使用類別知識進(jìn)行分析處理。
3.詞頻及語境。本發(fā)明將這項(xiàng)知識以0-b的十六進(jìn)制數(shù)字表達(dá),根據(jù)詞語的語義使用情況進(jìn)行評價(jià)。各數(shù)字的定義為0極高頻;1常用;2專業(yè)常用;3非常用;4口語;5方言;6古用;7近代;8罕用;9專業(yè)非常用;a極罕用;b專業(yè)罕用。
4.句類代碼。當(dāng)詞匯有明確句類信息時(shí),以代碼的形式填寫句類的信息,此項(xiàng)主要針對能夠充當(dāng)E語義塊核心部分的動(dòng)詞v概念填寫?;揪漕悓?yīng)的句類代碼如附圖2所示?;旌暇漕?自然語言中的混合句類,絕大多數(shù)是兩兩混合,因此本發(fā)明的知識混合句類即指兩兩混合的混合句類)的代碼,本發(fā)明作了約定以E1E2*kmn的形式表達(dá)。E1,E2是基本句類的句類代碼,分別表示兩個(gè)混合的基本句類;k表示非E語義塊的總個(gè)數(shù),m表示從E1基本句類中第一個(gè)語義塊開始,不包括E語義塊,取出的語義塊個(gè)數(shù),n表示從第二個(gè)基本句類E2中取出的語義塊的起始序號,當(dāng)n=m+1時(shí),n可以不寫。如有句類T3J=TA+T3+TB+TC和XJ=A+X+B,T3X*21的句類格式為TA+T3X+B,XT3*21為A+XT3+TB,XT3*213為A+XT3+TC。知識庫中的填寫情況,參閱附圖4的“自由”。對引起復(fù)合句類的詞匯,以E1*E2的形式,填寫句類信息。E1、E2均為基本句類的句類代碼。在分析時(shí),可以根據(jù)E1和E2的指示,從概念層面句類表示式知識庫中取出兩個(gè)句類的格式知識。
5.格式變換知識。當(dāng)“句類代碼”有效時(shí),以代碼的形式給出該詞組成句子時(shí)經(jīng)常采用的格式。根據(jù)這個(gè)指示,可以從概念層面的格式變換知識庫中得到具體的格式。如句類代碼中有XJ,在格式變換知識中有112,則表示經(jīng)常采用的B+A+X的形式構(gòu)成句子。當(dāng)有多個(gè)格式的時(shí)候,用[1][2]……的形式標(biāo)號,以便在下面各項(xiàng)中對應(yīng)表示不同格式下的不同情況。如組成句子時(shí)經(jīng)常采用標(biāo)準(zhǔn)格式和規(guī)范格式,該項(xiàng)可以不填。
為了表達(dá)的需要,一個(gè)句類經(jīng)常轉(zhuǎn)換成另一個(gè)句類表達(dá),但語義關(guān)聯(lián)的信息仍然是轉(zhuǎn)換以前的,這一現(xiàn)象本發(fā)明稱為句類轉(zhuǎn)換。對句類轉(zhuǎn)換,本發(fā)明也給出了表述方法。對會(huì)發(fā)生轉(zhuǎn)換的v概念,在知識庫的“句類格式”中填寫(E1,E2)J,其中E1為該v概念構(gòu)成E語義塊時(shí)經(jīng)常采用的句類,也可以認(rèn)為是正常的、原來的句類,E2表示發(fā)生轉(zhuǎn)換后,轉(zhuǎn)換采用的句類。參閱附圖4的“掠奪”。對引起轉(zhuǎn)換的v概念,填寫E1J<=E2J,E1J表示轉(zhuǎn)換到的句類,E2J表示從哪種句類轉(zhuǎn)換來的。如“愛戴”,它的一項(xiàng)知識為(X20,X10)J,表示它可以由原來的反應(yīng)句轉(zhuǎn)換成承受句“受到”這個(gè)詞有一項(xiàng)知識是X10J<=X20J,表示它可以引導(dǎo)反應(yīng)句轉(zhuǎn)換成承受句對于“愛戴”,可以有句子“我們愛戴周總理”,這個(gè)句子可用以“受到”引導(dǎo)的轉(zhuǎn)換表示--“周總理受到我們的愛戴”。
6.語義塊的構(gòu)成知識及各構(gòu)成部分的優(yōu)先概念,工作單中以@S代表。當(dāng)“句類代碼”有效時(shí),句類格式中的JK語義塊如有構(gòu)成知識,用“=”和“+”填寫在這一項(xiàng)中;如構(gòu)成語義塊的各部分有優(yōu)先概念知識,用“”表示,也填在這一項(xiàng)中。如對XJ,它的B語義塊由YB和YC構(gòu)成,寫成B=YB+YC;其中如YB經(jīng)常是“物”,也在此項(xiàng)中寫,寫成YB:w(w即是前述的概念類別符號,表示“物”)。有些v概念構(gòu)成的句子,經(jīng)常要求一個(gè)句子成為其某個(gè)語義塊,如果詞匯有這個(gè)知識,就在知識庫中此項(xiàng)以JK=J和JK=J分別表示某一語義塊JK必須擴(kuò)展成為句子或可能擴(kuò)展成為句子。如“認(rèn)為”,在此項(xiàng)中就需要填寫DC=J,表示DC語義塊一定擴(kuò)展成為句子。
一個(gè)語義塊或語義塊的構(gòu)成部分可以從內(nèi)涵上分成對象(B)和內(nèi)容(C)兩個(gè)部分,也可以從形式上分成前(Q)、后(H)兩部分。對于這種構(gòu)成屬于約定,無需再顯式地寫出表達(dá)式,只需在某個(gè)語義塊或構(gòu)成部分后加上上述四個(gè)字母(B,C,Q,H)給出其優(yōu)先概念,就表示這種構(gòu)成存在,同時(shí)也說明某部分的優(yōu)先概念。
構(gòu)成句子的語義塊會(huì)發(fā)生分離,即為了語句表達(dá)的需要,將深一個(gè)語義塊分到兩個(gè)地方表達(dá)。本發(fā)明的知識庫對于這種語言現(xiàn)象也給出了明確的表述方式,分別以“[]”和“[()]”,表示語義塊可能分離和語義塊一定分離出去的部分。如“打斷”,在此項(xiàng)中就有“B=XB+[YB]”,說明它的B語義塊可能分離,例句如“李四被張三打斷了腿?!保渲袑ⅰ袄钏牡耐取边@個(gè)語義塊的一部分“腿”分離了出去如果按不分離的情況,此句應(yīng)是“李四的腿被打斷了”。
7.該詞匯構(gòu)成語義塊時(shí)的知識,以@K表示。對非v概念,填寫該詞匯構(gòu)成語義塊時(shí)需要的搭配知識。建庫時(shí),為了方便地體現(xiàn)語用上的差別,可采用直接以“|”給出漢字的形式,并用Q和H分別表示屬于前搭配還是后搭配。如“簽名”,在此項(xiàng)中填{ug,H|運(yùn)動(dòng)},表示“簽名”作為ug類概念使用時(shí),經(jīng)常采用“運(yùn)動(dòng)”作為后搭配。對v概念,此項(xiàng)也給出該詞構(gòu)成E語義塊時(shí)經(jīng)常連用的動(dòng)詞。對v概念,如果構(gòu)成E語義塊時(shí)有分離現(xiàn)象,也在此項(xiàng)表達(dá),表達(dá)方法與“語義塊的構(gòu)成知識及各構(gòu)成部分的優(yōu)先概念”項(xiàng)一致。
當(dāng)該詞匯可以構(gòu)成一個(gè)語義塊的一部分時(shí),用FK表示。FK也破在如第6點(diǎn)所述的自然分解(B,C,Q,H),其約定相同。參閱附圖4的“自由”。該詞匯優(yōu)先充當(dāng)?shù)牟糠衷诘?點(diǎn)中說明。
8.詞匯經(jīng)常充當(dāng)?shù)恼Z義角色,以@CA代表。當(dāng)詞匯經(jīng)常出現(xiàn)在某一或某些句類,并經(jīng)常充當(dāng)某個(gè)語義塊時(shí),以語義塊名稱的形式,填寫在此項(xiàng)中。如“聰明”,經(jīng)常充當(dāng)狀態(tài)句的SC語義塊,在此項(xiàng)中填寫“SC”。v概念充當(dāng)E語義塊,這一信息屬于約定,不屬于此項(xiàng)的填寫內(nèi)容。但當(dāng)v概念構(gòu)成E語義塊的一部分時(shí),需明確填出。參閱附圖4的“掠奪”。
9.語境知識,以@CT表示。該詞匯本身提供的語境知識,即語句間的聯(lián)想知識。用輔語義塊的名稱和概念表述符號填寫。如“地震”,它的語境知識是造成災(zāi)難性后果,在該詞的這一項(xiàng)填寫Rt:r322。
與現(xiàn)有技術(shù)相比較,本發(fā)明具有下述優(yōu)點(diǎn)本發(fā)明模擬人腦對自然語言的感知機(jī)制建立了自然語言語句的深層語義結(jié)構(gòu)--句類,并以此為中心建設(shè)知識庫和語句分析處理方法,形成了句類分析技術(shù)。該技術(shù)將概念的表達(dá)與自然語言語句深層語義結(jié)構(gòu)緊密有機(jī)地結(jié)合起來,完整地描繪了自然語言語句深層語義結(jié)構(gòu),形成了以句類分析為主線的自然語言處理方法。同時(shí),本發(fā)明對自然語言的處理是使用分層次的、并使計(jì)算機(jī)掌握深層語義結(jié)構(gòu)的方法。
分析處理得到的結(jié)果,即是機(jī)器翻譯中對源語言的分析結(jié)果,如果配以目標(biāo)語言的生成處理,即可構(gòu)成機(jī)器翻譯系統(tǒng)。對漢語而言,由于存在一音多字和一字多音的現(xiàn)象,使用上述處理步驟,可以較好地解決“音到字”和“字到音”的轉(zhuǎn)換問題。
本發(fā)明窮盡了自然語言語句的深層語義結(jié)構(gòu),形成完備的語句深層語義結(jié)構(gòu)體系。因此也較好地解決了現(xiàn)有技術(shù)由于深層語義結(jié)構(gòu)不完備而引起的問題。
知識庫以句類知識的表達(dá)為中心,以概念分類符號體系表達(dá)語義,比使用復(fù)雜特征集,直接用自然語言表達(dá)語義的方法,簡潔高效。知識庫緊密圍繞自然語言的深層語義結(jié)構(gòu),采用編碼的方式表達(dá)深層語義結(jié)構(gòu),可以大大減少對存儲空間的要求。
本發(fā)明的上述和其它的特征以及優(yōu)點(diǎn)通過以下對如附圖所示的、本發(fā)明的優(yōu)選實(shí)施例的更加詳細(xì)的描述將變得十分清楚。
圖1為本發(fā)明的概念節(jié)點(diǎn)表述圖。
圖2為本發(fā)明的句類表示式表述圖。
圖3為本發(fā)明的格式變換表述圖。
圖4為本發(fā)明的知識庫填寫樣單圖。
為了完成拼音轉(zhuǎn)換漢字,首先需要建立如本發(fā)明前述的漢語詞匯知識庫(包括單字詞)。其次需要按照本發(fā)明前述處理方法形成使用知識庫對輸入拼音流進(jìn)行處理的軟件。為了便于說明,下面重點(diǎn)以拼音“wei ji”下對應(yīng)的詞匯“微機(jī),危機(jī),危及,偉績”為例進(jìn)行說明?!傲恕笔侵付ㄝ斎氲淖郑浴?”輸入。
實(shí)施例1:zi ran zai hai wei ji l nong ye sheng chan.(輸入的拼音流)自然* 災(zāi)害危機(jī)* 農(nóng)業(yè) 生產(chǎn)*野生拼音下的漢字是詞庫匹配的結(jié)果,*表示對應(yīng)有多個(gè)詞,即有模糊集。對應(yīng)的多個(gè)詞為自然{自燃},危機(jī){微機(jī)危及偉績},生產(chǎn){盛產(chǎn))。為了表達(dá)的方便,這里給出本句所涉及的詞匯的概念類別和用本發(fā)明概念表示體系給出的語義,而省略知識庫中的其他項(xiàng)。多個(gè)語義以“;”分割。
自然rw508:ru307+(g711;gva32);(u51;u65311;u65232)+ju600;jluv13c43自燃v009+u305災(zāi)害r322危機(jī)r53322
微機(jī)pw+jv30危及v53322;v53322+v341偉績r(jià)c30al農(nóng)業(yè)ga21野生u5508生產(chǎn)(va21;v660)+v3119盛產(chǎn)v311;rw311經(jīng)過軟件處理,計(jì)算機(jī)可以得到以下結(jié)果句類XS*22;A自然災(zāi)害;B農(nóng)業(yè)生產(chǎn);XS危及。
最終,計(jì)算機(jī)可以給出音字轉(zhuǎn)換的結(jié)果自然災(zāi)害危及了農(nóng)業(yè)生產(chǎn)。
實(shí)施例2:wo guo bang zhu ya zhou guo jia du guo jing rong我國幫助亞洲 國家度過* 金融過磅wei ji危機(jī)*新模糊集有度過{渡過}。語義我國pj2+g4001-過磅jvz518幫助v9431亞洲fwj2國家pj2度過v50010渡過v229金融ga24經(jīng)過軟件處理,計(jì)算機(jī)可以得到以下結(jié)果句類R311X*21;RB1我國;B亞洲國家度過金融危機(jī)(塊擴(kuò));RX幫助。
最終,計(jì)算機(jī)可以給出音字轉(zhuǎn)換的結(jié)果我國幫助亞洲國家度過金融危機(jī)。
實(shí)施例3:wo men xiu li l zhe tai wei ji.
句中遇到的新詞匯我們p4001-修理v65351a秀麗u51+j831這臺1914005經(jīng)過軟件處理,計(jì)算機(jī)可以得到以下結(jié)果句類X;A我們;B這臺微機(jī);X修理。
最終,計(jì)算機(jī)可以給出音字轉(zhuǎn)換的結(jié)果我們修理了這臺微機(jī)。
實(shí)施例4:deng xiao ping tong zhi kai l l ge wan xiao新詞匯人民 p-+ga101民歌(pj01*+gc402)/gwa32歌頌(v7115,12,ra32u)他的192+p4003-0+pj711她的192+p4003-0+pj712豐功偉績r(jià)c30a1+jzr41c44恭維(v7117u,v9711u)+j862拱衛(wèi)vc3219+jv4212經(jīng)過軟件處理,計(jì)算機(jī)可以得到以下結(jié)果句類X20;X2B人民;XBC他的豐功偉績;X2歌頌。
最終,計(jì)算機(jī)可以給出音字轉(zhuǎn)換的結(jié)果人民歌頌他(她)的豐功偉績。(此例中“他”與“她”不能區(qū)分。)
權(quán)利要求
1.一種模擬大腦語言感知過程的自然語言語句的分析方法,其特征在于該方法包括句類分析法和概念層次網(wǎng)絡(luò)語言層面知識庫,其中,句類分析法根據(jù)對自然語言語句的綜合,歸納和演繹分成7個(gè)基本句類及57個(gè)子類,對每一個(gè)基本句類及其子類,以語義塊物理表示式為語義單元,給出相應(yīng)的語句物理表示式,這些表示式有標(biāo)準(zhǔn)、規(guī)范、違例和省略4種基本格式;每種基本格式又有相應(yīng)的、數(shù)學(xué)上可窮盡列舉的不同格式。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于該概念層次網(wǎng)絡(luò)語言層面知識庫的表述步驟如下(1)知識庫對詞匯所屬的句類,以句類代碼形式給出;(2)對于詞匯形成句子時(shí),語義塊的各種實(shí)際排列順序以格式代碼的形式表達(dá);(3)給出詞匯形成句子時(shí)語義塊的構(gòu)成知識和構(gòu)成語義塊各部分優(yōu)先概念的知識;(4)給出詞匯形成語義塊時(shí)語義塊的分離及變換知識;(5)給出詞匯在構(gòu)成句子時(shí)充當(dāng)?shù)恼Z義角色知識;(6)給出詞匯引發(fā)的語境知識;(7)給出詞匯引發(fā)的句類轉(zhuǎn)換知識;(8)給出詞匯引發(fā)的某些語義塊擴(kuò)展為語句的知識。
3.根據(jù)權(quán)利要求1、2所述的方法,其特征在于確定句類分析的具體處理步驟如下(1)對輸入的句子,進(jìn)行詞庫匹配,切分出句子中遇到的詞,從知識庫中取得這些詞匯的語義知識;(2)根據(jù)概念類別信息的指示,以語義塊區(qū)分指示符10類概念和動(dòng)詞v概念為依據(jù),形成語義塊雛形,形成E假設(shè);(3)如果未能形成E假設(shè),轉(zhuǎn)向(9);否則,繼續(xù);(4)對全部E假設(shè)進(jìn)行篩選和排隊(duì),主要利用的信息為句類代碼,格式代碼和詞頻及語境知識;(5)按照入選E假設(shè)的排序,依次進(jìn)行句類檢驗(yàn);主要利用的信息為語義塊核心的概念優(yōu)選性知識;如果全部檢驗(yàn)失敗,轉(zhuǎn)向(11);否則繼續(xù);(6)進(jìn)行語義塊構(gòu)成檢驗(yàn);主要利用的信息為語義塊構(gòu)成知識和構(gòu)成語義塊各部分優(yōu)先概念的知識;如果全部檢驗(yàn)失敗,轉(zhuǎn)向(11);否則繼續(xù);(7)在必要時(shí)進(jìn)行句類轉(zhuǎn)換檢驗(yàn),主要利用的信息為詞匯引發(fā)的句類轉(zhuǎn)換知識;如果全部檢驗(yàn)失敗,轉(zhuǎn)向(11);否則轉(zhuǎn)向(12);(8)在必要時(shí)進(jìn)行語義塊分離檢驗(yàn),主要利用的信息為語義塊分離及變換知識;如果全部失敗則轉(zhuǎn)(11),否則轉(zhuǎn)向(10);(9)進(jìn)行無E語義塊句類檢驗(yàn);如果失敗繼續(xù);否則轉(zhuǎn)向(12);(10)重作E假設(shè),成功轉(zhuǎn)向(4),否則,轉(zhuǎn)向(11);(11)人機(jī)交互;(12)搜集語境素材,處理結(jié)束。
全文摘要
本發(fā)明涉及一種模擬大腦對自然語言語句感知過程的計(jì)算機(jī)分析方法,其特征在于該方法包括句類分析法及概念層次網(wǎng)絡(luò)語言層面知識庫。本發(fā)明對自然語言的處理是利用句類知識形成語句概念聯(lián)想脈絡(luò)的激活,在概念和語言層面進(jìn)行各種歧義及模糊處理。知識庫以句類知識的表達(dá)為中心,以概念層次網(wǎng)絡(luò)符號體系表達(dá)語義。該方法簡潔高效,并可以大大地減少對存儲空間的要求。
文檔編號G06F17/20GK1236138SQ9810192
公開日1999年11月24日 申請日期1998年5月18日 優(yōu)先權(quán)日1998年5月18日
發(fā)明者黃曾旸, 張全, 劉志文, 晉耀紅, 杜燕玲 申請人:中國科學(xué)院聲學(xué)研究所