亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

廣義歸約的裝置與方法

文檔序號(hào):184965閱讀:345來(lái)源:國(guó)知局
專利名稱:廣義歸約的裝置與方法
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域中的文本分析的裝置與方法,屬于國(guó)際專利分類(IPC)的子類G06F 17/27,特別涉及一種對(duì)不同語(yǔ)言層次的實(shí)體進(jìn)行歸約的裝置與方法。
背景技術(shù)
大部分的文本分析工作,都包括兩個(gè)步驟,即詞法分析與句法分析。詞法分析,其目的是判斷哪些字符可構(gòu)成單字,以及哪些單字可以構(gòu)成詞組;句法分析(或稱語(yǔ)法分析),其目的則是判斷哪些單字或詞組可構(gòu)成語(yǔ)法成分,哪些語(yǔ)法成分可以繼續(xù)歸約,直到構(gòu)成一個(gè)句子。在句法分析的基礎(chǔ)上,還可以進(jìn)一步的進(jìn)行語(yǔ)義分析,即分析不同語(yǔ)法成分所代表的概念,進(jìn)而分析哪些概念可以組合成更復(fù)雜的概念。
無(wú)論詞法分析,語(yǔ)法分析,還是語(yǔ)義分析,從自底向上分析的角度來(lái)看,其實(shí)質(zhì)都是根據(jù)一定的規(guī)則對(duì)語(yǔ)言實(shí)體進(jìn)行歸約,構(gòu)成新的語(yǔ)言實(shí)體的過(guò)程。
在此基礎(chǔ)上進(jìn)一步抽象,不難發(fā)現(xiàn),所謂文本分析,其目的在于識(shí)別出文本中的各種語(yǔ)言實(shí)體及其相互之間的關(guān)系。所謂的語(yǔ)言單元關(guān)系是指,哪些語(yǔ)言單元根據(jù)特定的歸約規(guī)則,歸約出特定的語(yǔ)言單元。
語(yǔ)言實(shí)體在不同語(yǔ)言層次上的具體所指是不同,比如在詞法層面,可以指單字,或詞組;在句法層面可以指語(yǔ)法成分;或者在語(yǔ)義層面,可以指不同的語(yǔ)義概念。當(dāng)然,隨著文本處理領(lǐng)域研究的不斷深入,所述的語(yǔ)言層次可能會(huì)有所增加或變動(dòng)。
語(yǔ)言實(shí)體在實(shí)施時(shí),一般被構(gòu)造成由標(biāo)記表達(dá)的數(shù)據(jù)結(jié)構(gòu)(語(yǔ)言單元)。在詞法層面,語(yǔ)言單元用來(lái)代表字母,單字或詞組;在語(yǔ)法層面,則代表單字,詞組或語(yǔ)法成分;在語(yǔ)義層面,則代表語(yǔ)法成分,或者語(yǔ)義概念。
傳統(tǒng)分析方法,其著眼點(diǎn)在于了解每個(gè)語(yǔ)言單元與相鄰語(yǔ)言單元的必然的關(guān)系,所以其采用的歸約方式是緊鄰的。
但是,在某些場(chǎng)合,人們需要(或者不得不)獲知各個(gè)語(yǔ)言單元相互之間可能的,而非必然的關(guān)系。比如,在短時(shí)間內(nèi),對(duì)大量文本進(jìn)行非嚴(yán)格的分析,以期得到某些具有統(tǒng)計(jì)意義的結(jié)論;在干擾文字或者與分析無(wú)關(guān)字符存在的情況下進(jìn)行文本分析,如果要使用傳統(tǒng)的確然的文本分析技術(shù),就要采取文本去噪,這需要專門的領(lǐng)域知識(shí)以及較高的知識(shí)建模的技術(shù),以至于在一些應(yīng)用場(chǎng)合效果不夠理想;此時(shí),就要采用近似文本分析。
在這些場(chǎng)合,傳統(tǒng)分析方法采用的緊鄰歸約就無(wú)法很好的工作。因此,為了施行近似文本分析,就需要采用廣義歸約。
所謂的廣義歸約,是指在已存在的語(yǔ)言單元(即語(yǔ)言實(shí)體的外在表示)集合中尋找到語(yǔ)言單元組合,使之匹配某個(gè)特定的規(guī)則,以得到一個(gè)新的語(yǔ)言單元。參與匹配的語(yǔ)言單元組合,并不一定在邏輯上確然性地具有此規(guī)則所代表的特定語(yǔ)言層次的關(guān)系,而只是反應(yīng)此語(yǔ)言單元組合可能具有此規(guī)則所代表的特定語(yǔ)言層次的關(guān)系。
由于廣義歸約是在已存在的語(yǔ)言單元中尋找各種可能的語(yǔ)言單元組合以匹配規(guī)則,所以在實(shí)現(xiàn)的時(shí)候,如何在搜索語(yǔ)言單元組合時(shí)提高效率,將是實(shí)現(xiàn)一個(gè)高效實(shí)用的廣義歸約裝置的關(guān)鍵。

發(fā)明內(nèi)容
本發(fā)明的目的在于解決以上問(wèn)題,提供一種進(jìn)行廣義歸約的裝置和方法,該裝置使用該廣義歸約的方法能夠保存從外界得到的語(yǔ)言單元,并判斷哪些語(yǔ)言單元可以按照特定的規(guī)則歸約出新的語(yǔ)言單元。特別地,為了達(dá)到提高搜索語(yǔ)言單元組合效率的目的,這種方法是增量式的,即已經(jīng)被遍歷過(guò)的語(yǔ)言單元組合將不再被遍歷到。
為了實(shí)現(xiàn)上述的目的,本發(fā)明的廣義歸約的裝置與方法如下該廣義歸約的裝置,其主要特點(diǎn)是,所述裝置包括(1)歸約規(guī)則表的存儲(chǔ)部件,用于存儲(chǔ)歸約規(guī)則;所述的歸約規(guī)則包含一個(gè)或一個(gè)以上子前件,存儲(chǔ)了語(yǔ)言單元匹配時(shí)應(yīng)滿足的條件;所述的歸約規(guī)則還包含一個(gè)后件,所存儲(chǔ)的信息描述了規(guī)則被匹配后將產(chǎn)生的語(yǔ)言單元的全部或部分內(nèi)容;所述的語(yǔ)言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語(yǔ)言層次的語(yǔ)言實(shí)體;(2)候選者隊(duì)列的存儲(chǔ)部件,用于存儲(chǔ)匹配特定規(guī)則的特定子前件的語(yǔ)言單元;(3)歸約部件,用于將由輸入手段得到的語(yǔ)言單元,與各規(guī)則的各子前件逐一進(jìn)行匹配,當(dāng)所述的語(yǔ)言單元與特定規(guī)則的特定子前件匹配時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中;在每個(gè)匹配子前件過(guò)程中,若此語(yǔ)言單元匹配的是某個(gè)具有n個(gè)子前件的規(guī)則的最末子前件,運(yùn)用遍歷算法搜索各種語(yǔ)言單元組合,每個(gè)組合滿足(a)第i個(gè)成員來(lái)自此規(guī)則的第i個(gè)子前件的候選者隊(duì)列(1≤i≤n-1);(b)第n個(gè)成員為此語(yǔ)言單元;(4)輸入部件,得到從外界輸入的語(yǔ)言單元;(5)輸出部件,將產(chǎn)生的新的語(yǔ)言單元輸出;所述的輸入部件的輸出與所述的歸約部件的輸入相連,該歸約部件的輸出與所述的輸出部件的輸入相連,且該歸約部件還分別與歸約規(guī)則表的存儲(chǔ)部件和候選者隊(duì)列的存儲(chǔ)部件相連;對(duì)于每個(gè)語(yǔ)言單元組合,都根據(jù)規(guī)則后件產(chǎn)生新的語(yǔ)言單元并通過(guò)輸出部件輸出。
該廣義歸約的裝置的語(yǔ)言單元還包括指明該語(yǔ)言單元所代表的語(yǔ)言實(shí)體在文本中占據(jù)區(qū)域的文本區(qū)域;所述的歸約裝置為(a)在搜索語(yǔ)言單元組合時(shí),每種語(yǔ)言單元組合的第i個(gè)語(yǔ)言單元的文本區(qū)域不重合于第i+1個(gè)語(yǔ)言單元且在其左側(cè)(1≤i≤n-1);(b)得到的新的語(yǔ)言單元的文本區(qū)域,為對(duì)應(yīng)語(yǔ)言單元組合中各語(yǔ)言單元的文本區(qū)域的疊加。
使用上述裝置進(jìn)行廣義歸約的方法,其主要特點(diǎn)是,該方法包括以下步驟(1)由輸入手段得到一個(gè)語(yǔ)言單元,所述的語(yǔ)言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語(yǔ)言層次的語(yǔ)言實(shí)體;(2)將此語(yǔ)言單元與各歸約規(guī)則的各子前件逐一進(jìn)行匹配;所述的歸約規(guī)則含一個(gè)或一個(gè)以上子前件,存儲(chǔ)了語(yǔ)言單元匹配時(shí)應(yīng)滿足的條件;對(duì)于所述的每個(gè)子前件,都對(duì)應(yīng)一個(gè)候選者隊(duì)列,用于存儲(chǔ)匹配此子前件的語(yǔ)言單元;所述的歸約規(guī)則還包含一個(gè)后件,所存儲(chǔ)的信息描述了規(guī)則被匹配后將產(chǎn)生的語(yǔ)言單元的全部或部分內(nèi)容;當(dāng)所述的語(yǔ)言單元與特定規(guī)則的特定子前件匹配時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中;在每個(gè)匹配子前件過(guò)程中,若此語(yǔ)言單元匹配的是某個(gè)具有n個(gè)子前件的規(guī)則的最末子前件,則運(yùn)用遍歷算法搜索各種語(yǔ)言單元組合,使得每個(gè)組合滿足(a)第i個(gè)成員來(lái)自此規(guī)則的第i個(gè)子前件的候選者隊(duì)列(1≤i≤n-1);(b)第n個(gè)成員為此語(yǔ)言單元;對(duì)于每個(gè)語(yǔ)言單元組合,都根據(jù)規(guī)則后件產(chǎn)生新的語(yǔ)言單元并通過(guò)輸出手段輸出。
該廣義歸約的方法的語(yǔ)言單元還包括指明該語(yǔ)言單元所代表的語(yǔ)言實(shí)體在文本中占據(jù)區(qū)域的文本區(qū)域,所述的歸約規(guī)則為(a)在搜索語(yǔ)言單元組合時(shí),每種語(yǔ)言單元組合的第i個(gè)語(yǔ)言單元的文本區(qū)域不重合于第i+1個(gè)語(yǔ)言單元且在其左側(cè)(1≤i≤n-1);(b)得到的新的語(yǔ)言單元的文本區(qū)域,為對(duì)應(yīng)語(yǔ)言單元組合中各語(yǔ)言單元的文本區(qū)域的疊加。
存儲(chǔ)有實(shí)現(xiàn)上述廣義歸約方法的程序的計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì),其主要特點(diǎn)是,所述的程序執(zhí)行以下步驟
(1)由輸入手段得到一個(gè)語(yǔ)言單元,所述的語(yǔ)言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語(yǔ)言層次的語(yǔ)言實(shí)體;(2)將此語(yǔ)言單元與各歸約規(guī)則的各子前件逐一進(jìn)行匹配;所述的歸約規(guī)則含一個(gè)或一個(gè)以上子前件,存儲(chǔ)了語(yǔ)言單元匹配時(shí)應(yīng)滿足的條件;對(duì)于所述的每個(gè)子前件,都對(duì)應(yīng)一個(gè)候選者隊(duì)列,用于存儲(chǔ)匹配此子前件的語(yǔ)言單元;所述的歸約規(guī)則還包含一個(gè)后件,所存儲(chǔ)的信息描述了規(guī)則被匹配后將產(chǎn)生的語(yǔ)言單元的全部或部分內(nèi)容;當(dāng)所述的語(yǔ)言單元與特定規(guī)則的特定子前件匹配時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中;在每個(gè)匹配子前件過(guò)程中,若此語(yǔ)言單元匹配的是某個(gè)具有n個(gè)子前件的規(guī)則的最末子前件,則運(yùn)用遍歷算法搜索各種語(yǔ)言單元組合,使得每個(gè)組合滿足(a)第i個(gè)成員來(lái)自此規(guī)則的第i個(gè)子前件的候選者隊(duì)列(1≤i≤n-1);(b)第n個(gè)成員為此語(yǔ)言單元;對(duì)于每個(gè)語(yǔ)言單元組合,都根據(jù)規(guī)則后件產(chǎn)生新的語(yǔ)言單元并通過(guò)輸出手段輸出。
該存儲(chǔ)介質(zhì)的語(yǔ)言單元還包括指明該語(yǔ)言單元所代表的語(yǔ)言實(shí)體在文本中占據(jù)區(qū)域的文本區(qū)域,所述的歸約規(guī)則為(a)在搜索語(yǔ)言單元組合時(shí),每種語(yǔ)言單元組合的第i個(gè)語(yǔ)言單元的文本區(qū)域不重合于第i+1個(gè)語(yǔ)言單元且在其左側(cè)(1≤i≤n-1);(b)得到的新的語(yǔ)言單元的文本區(qū)域,為對(duì)應(yīng)語(yǔ)言單元組合中各語(yǔ)言單元的文本區(qū)域的疊加。
由于采用了該發(fā)明的進(jìn)行增量式廣義歸約的裝置與方法,使得語(yǔ)言單元組合的最后一個(gè)元素被限定為剛輸入系統(tǒng)的新語(yǔ)言單元,所以當(dāng)前搜索的語(yǔ)言單元組合與上一次的必然不同,而且這種搜索方法不會(huì)遺漏組合,因而是增量式的,從而提高了搜索語(yǔ)言單元組合的效率,具有較好的實(shí)用性。


圖1為本發(fā)明進(jìn)行增量式廣義歸約的裝置的功能結(jié)構(gòu)框圖。
圖2為圖1中裝置的硬件結(jié)構(gòu)框圖。
圖3為本發(fā)明的語(yǔ)言單元的結(jié)構(gòu)框圖。
圖4為本發(fā)明的歸約規(guī)則表的結(jié)構(gòu)框圖。
圖5為本發(fā)明的候選者隊(duì)列的結(jié)構(gòu)框圖。
圖6為本發(fā)明的歸約規(guī)則的子前件與候選者隊(duì)列的關(guān)系示意圖。
圖7為增量式廣義歸約方法中主過(guò)程MainProc的流程圖。
圖8為被主過(guò)程MainProc調(diào)用、用于尋找語(yǔ)言單元組合以產(chǎn)生新語(yǔ)言單元的過(guò)程GenNewUnit流程圖。
圖9為被過(guò)程GenNewUnit調(diào)用、根據(jù)給定的語(yǔ)言單元棧產(chǎn)生新語(yǔ)言單元的過(guò)程Stk2Unit的流程圖。
具體實(shí)施例方式
為了能夠更清楚地理解本發(fā)明的技術(shù)內(nèi)容,特舉以下實(shí)施例詳細(xì)說(shuō)明。
請(qǐng)參閱圖1所示,歸約部件102通過(guò)輸入部件101得到從外界輸入的語(yǔ)言單元,根據(jù)歸約規(guī)則表104,運(yùn)用隨后將描述的增量式廣義歸約的方法,將新得到的語(yǔ)言單元復(fù)制到候選者隊(duì)列表105中的符合條件的候選者隊(duì)列中;并在符合特定條件的情況下,在候選者隊(duì)列表105中尋找符合特定條件的語(yǔ)言單元組合,由歸約規(guī)則表104中特定的規(guī)則得到新的語(yǔ)言單元,將新語(yǔ)言單元由輸出部件103輸出到裝置外。
再請(qǐng)參閱圖2所示,處理器201執(zhí)行隨后將描述的增量式廣義歸約的程序,RAM 202提供了程序執(zhí)行時(shí)所需要的存儲(chǔ)區(qū)域;此外,還用于存儲(chǔ)歸約規(guī)則表104以及存儲(chǔ)候選者隊(duì)列表105,ROM 203存儲(chǔ)進(jìn)行增量式廣義歸約的程序,I/O接口204與輸入部件101與輸出部件103相連,輸入部件101可以是鍵盤、OCR、接收器或者是儲(chǔ)存有待處理語(yǔ)言單元的內(nèi)存等。輸出部件103可以是顯示設(shè)備、打印機(jī)、網(wǎng)絡(luò)接口或者是內(nèi)存等??偩€205聯(lián)接以上各個(gè)部件。
所述的語(yǔ)言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語(yǔ)言層次的語(yǔ)言實(shí)體;特別地,語(yǔ)言單元存儲(chǔ)的信息以標(biāo)記方式描述了一段文字所對(duì)應(yīng)的特定語(yǔ)言層次的語(yǔ)言實(shí)體。
語(yǔ)言單元的實(shí)現(xiàn)方式有多種,比如1.用單個(gè)標(biāo)記來(lái)表示語(yǔ)言實(shí)體的類屬;2.用多個(gè)標(biāo)記來(lái)表示語(yǔ)言實(shí)體在不同方面的類屬,這些標(biāo)記構(gòu)成一個(gè)集合。
單標(biāo)記是多數(shù)語(yǔ)言分析裝置或軟件在歸約時(shí)都采用的方法,其好處是簡(jiǎn)單直接;多標(biāo)記集合方法在功能合一文法等文本分析方法中采用。為了簡(jiǎn)便起見(jiàn),本實(shí)施例采用單標(biāo)記的實(shí)現(xiàn)方法。掌握計(jì)算機(jī)科學(xué)一般知識(shí)的技術(shù)人員,參照本實(shí)施例,不難將語(yǔ)言單元實(shí)現(xiàn)為多標(biāo)記集合以實(shí)施本發(fā)明。
在實(shí)施時(shí),可以選擇語(yǔ)言單元是否包含文本區(qū)域信息以說(shuō)明語(yǔ)言實(shí)體在文本中占據(jù)的區(qū)域。
如果不使用文本區(qū)域,則歸約規(guī)則各子前件之間不存在位置關(guān)系的限定,這時(shí)的歸約是無(wú)順序歸約。無(wú)順序歸約可被用于某些場(chǎng)合,比如對(duì)于某些語(yǔ)言的文本進(jìn)行分析,比如拉丁文,各詞匯的語(yǔ)法上的角色通過(guò)詞格變化區(qū)分,而非詞匯在句子中的位置;在語(yǔ)法要求不是很嚴(yán)格的情況下分析文本;或者對(duì)文本進(jìn)行時(shí)間要求高但準(zhǔn)確度要求不是很高的分析。
另一方面,如果使用文本區(qū)域,則歸約規(guī)則各子前件之間存在位置關(guān)系的限定,這時(shí)的歸約是有順序歸約。大部分自然語(yǔ)言,比如中文,英文等,都適用有順序歸約的方式。
本實(shí)施例采用有順序歸約的模式,所以語(yǔ)言單元中包含文本區(qū)域。掌握計(jì)算機(jī)科學(xué)一般知識(shí)的技術(shù)人員,參照本實(shí)施例,不難以無(wú)順序歸約方式實(shí)施本發(fā)明。
本實(shí)施例中語(yǔ)言單元所采用的結(jié)構(gòu)請(qǐng)參見(jiàn)圖3所示,由于是有順序歸約模式,每個(gè)語(yǔ)言單元301包含主體302與文本區(qū)域303;主體302包含標(biāo)記304與輔助信息305。如果是無(wú)順序歸約模式,則語(yǔ)言單元301不包含文本區(qū)域303。
標(biāo)記304用于標(biāo)識(shí)不同的語(yǔ)言層次下的語(yǔ)言概念可以使用英語(yǔ)中的POS(Part of Speech)標(biāo)記,也可以根據(jù)需要自行定義。如果本發(fā)明被實(shí)施為某個(gè)文本分析裝置或軟件的一個(gè)模塊時(shí),則采用此文本分析裝置或軟件給定的標(biāo)記。
以下是一些標(biāo)記的舉例,供實(shí)施時(shí)參考

標(biāo)記可以是相互平級(jí)的,即相互間不存在從屬關(guān)系;也可以是有層次關(guān)系的。如果是平級(jí)的,在比較標(biāo)記A與B時(shí),判斷A與B是否一致;如果是有層次關(guān)系的,則判斷A是B的子類,還是B是A的子類,或者A與B無(wú)關(guān)。在本實(shí)施例中,標(biāo)記相互間關(guān)系是平級(jí)的。
輔助信息305用于描述一些標(biāo)記無(wú)法描述的信息,比如當(dāng)語(yǔ)言單元表示一個(gè)單字時(shí),用輔助信息存儲(chǔ)這個(gè)單字的字符串形式;或者當(dāng)語(yǔ)言單元表示一個(gè)詞組時(shí),用輔助信息存儲(chǔ)這個(gè)詞組的字符串形式。
文本區(qū)域303描述了語(yǔ)言單元所代表的語(yǔ)言實(shí)體在文本中占據(jù)的區(qū)域,可以實(shí)現(xiàn)為1.以數(shù)字對(duì)偶表示的區(qū)間,說(shuō)明此區(qū)域在文本中的邊界。比如,(3,10)表示文本的區(qū)域從標(biāo)號(hào)為3的字符串開(kāi)始到標(biāo)號(hào)為10的字符串結(jié)束。
2.數(shù)字集合,說(shuō)明哪些位置上的字符串屬于此語(yǔ)言實(shí)體。
比如,{3,4,5,10}表示此語(yǔ)言實(shí)體覆蓋標(biāo)號(hào)為3、4、5、10的字符串。
在本實(shí)施例中,采用數(shù)字對(duì)偶的方式。
以下,結(jié)合若干實(shí)例對(duì)結(jié)構(gòu)如圖3的語(yǔ)言單元進(jìn)行說(shuō)明,標(biāo)記及其含義見(jiàn)上面給出的標(biāo)記示例1.語(yǔ)言單元(WRD,“中”,(3,3))標(biāo)記為WRD,表示該語(yǔ)言單元代表的語(yǔ)言實(shí)體為一個(gè)單字;輔助信息為“中”,表示該單字為“中”;占據(jù)的文本區(qū)域只覆蓋標(biāo)號(hào)為3的字符串;2.語(yǔ)言單元(PHR,“中國(guó)”,(3,5))標(biāo)記為PHR,表示該語(yǔ)言單元代表的語(yǔ)言實(shí)體為一個(gè)詞組;輔助信息為″中國(guó)″,表示該詞組為″中國(guó)″;占據(jù)的文本區(qū)域?yàn)?3,5);3.語(yǔ)言單元(V,NULL,(4,7))標(biāo)記為V,表示該語(yǔ)言單元代表的語(yǔ)言實(shí)體為一個(gè)動(dòng)詞;輔助信息為空,表示語(yǔ)言單元未對(duì)此語(yǔ)言實(shí)體進(jìn)一步描述;占據(jù)的文本區(qū)域?yàn)?4,7);歸約規(guī)則表包含若干歸約規(guī)則。單個(gè)歸約規(guī)則的結(jié)構(gòu)如圖4所示。歸約規(guī)則401包含前件402與后件403。前件402包含若干子前件(404,405,...,406)。
每個(gè)子前件存儲(chǔ)了語(yǔ)言單元的匹配條件。子前件的實(shí)現(xiàn)方式有多種,可以1.表達(dá)為語(yǔ)言單元的主體,進(jìn)行匹配時(shí)先檢查標(biāo)記一致性如果二者的標(biāo)記不一致(標(biāo)記系統(tǒng)為平級(jí)),或者語(yǔ)言單元不是子前件標(biāo)記的子類或標(biāo)記本身(標(biāo)記系統(tǒng)為層次化)則不匹配。在標(biāo)記匹配基礎(chǔ)上,檢查輔助信息一致性子前件輔助信息為空則匹配;子前件輔助信息不為空且語(yǔ)言單元與子前件的輔助信息不一致,二者仍不匹配。
2.或者表達(dá)為以集合形式存儲(chǔ)的條件表達(dá)式,匹配時(shí)檢查待匹配語(yǔ)言單元對(duì)于集合中所有條件表達(dá)式是否都滿足。
本實(shí)施例采用以語(yǔ)言單元主體作為子前件內(nèi)容的實(shí)現(xiàn)方式。
后件存儲(chǔ)的信息描述了歸約規(guī)則被匹配后將產(chǎn)生的語(yǔ)言單元的內(nèi)容。在無(wú)順序歸約模式下,將要產(chǎn)生的語(yǔ)言單元,也就是主體在后件中進(jìn)行描述。而在有順序歸約模式下,將要產(chǎn)生的語(yǔ)言單元的主體在后件中描述;而其文本區(qū)域可以不在后件中描述,而是交給后面部分提到的增量式廣義歸約方法來(lái)決定。
以下,結(jié)合實(shí)例說(shuō)明歸約規(guī)則1.歸約規(guī)則<(WRD,“人”)>→(PHR,“人類”)子前件為(WRD,“人”);后件為(PHR,“人類”);該規(guī)則表示單字″人″歸約成類屬為″人類″的詞組;2.歸約規(guī)則<(N,NULL),(V,NULL)>→(EVT,NULL)子前件1為(N,NULL),子前件2為(V,NULL);后件為(EVT,NULL);該規(guī)則表示一個(gè)表示名詞的語(yǔ)言實(shí)體,與一個(gè)表示動(dòng)詞的語(yǔ)言實(shí)體,歸約成一個(gè)表示事件的語(yǔ)言實(shí)體。
候選者隊(duì)列的結(jié)構(gòu)如圖5所示。一個(gè)候選者隊(duì)列501包含若干語(yǔ)言單元(502,503,...,504)。在實(shí)現(xiàn)時(shí),候選者隊(duì)列可以采用多種方式,比如數(shù)組、鏈表、雙向鏈表等。本實(shí)施例中,候選者隊(duì)列實(shí)現(xiàn)為鏈表。
候選者隊(duì)列與子前件的關(guān)系在實(shí)現(xiàn)時(shí),可以采用多種方式,比如1.將所有的候選者隊(duì)列集中起來(lái)。比如構(gòu)造候選者隊(duì)列表,表的每條記錄包含規(guī)則標(biāo)識(shí),子前件標(biāo)識(shí)與候選者隊(duì)列;2.將候選者隊(duì)列附著到各自的子前件。比如在子前件的數(shù)據(jù)結(jié)構(gòu)中增加一個(gè)指向候選者隊(duì)列的指針;或者將候選者隊(duì)列作為成員加入子前件的數(shù)據(jù)結(jié)構(gòu)或者類中,等等。
為了說(shuō)明的方便,在本實(shí)施例中,采用的是候選者隊(duì)列表的實(shí)現(xiàn)方式。掌握計(jì)算機(jī)科學(xué)一般知識(shí)的技術(shù)人員,參照本實(shí)施例,不難以候選者隊(duì)列附著子前件方式實(shí)施本發(fā)明。
語(yǔ)言單元存入候選者隊(duì)列的方法,可以采取多種方式,比如1.復(fù)制語(yǔ)言單元的全部數(shù)據(jù)作為候選者隊(duì)列的成員到候選者隊(duì)列中;2.復(fù)制語(yǔ)言單元的標(biāo)識(shí)作為候選者隊(duì)列的成員到候選者隊(duì)列中,標(biāo)識(shí)可以是系統(tǒng)給予每個(gè)語(yǔ)言單元的標(biāo)號(hào),或者語(yǔ)言單元數(shù)據(jù)結(jié)構(gòu)的內(nèi)存地址等。
在本發(fā)明給出的實(shí)施例中,采用復(fù)制語(yǔ)言單元的全部數(shù)據(jù)作為候選者隊(duì)列的成員到候選者隊(duì)列中的實(shí)現(xiàn)方式。如果采用保存語(yǔ)言單元標(biāo)識(shí)的方法,則需要將語(yǔ)言單元存儲(chǔ)到事先構(gòu)造好的數(shù)據(jù)結(jié)構(gòu)中,以便隨后提到的歸約方法能夠訪問(wèn)。
如圖6所示,對(duì)于每個(gè)歸約規(guī)則,它的每個(gè)子前件都對(duì)應(yīng)一個(gè)候選者隊(duì)列。
增量式廣義歸約主過(guò)程MainProc將新的語(yǔ)言單元與各規(guī)則各子前件一一匹配,只要發(fā)現(xiàn)匹配就將之保存到此子前件對(duì)應(yīng)的候選者隊(duì)列中。如果匹配的是某個(gè)規(guī)則的最后一個(gè)子前件,則開(kāi)始在此規(guī)則各有關(guān)候選者隊(duì)列中進(jìn)行增量式的語(yǔ)言單元組合的搜索。
主過(guò)程MainProc可供參考的一種實(shí)現(xiàn)步驟如下(參見(jiàn)圖7)A01從輸入部件101得到一個(gè)語(yǔ)言單元UA02得到歸約規(guī)則表104的規(guī)則個(gè)數(shù)NA03令I(lǐng)=1A04如果I<=N,則轉(zhuǎn)步驟A05,否則結(jié)束A05得到歸約規(guī)則表的第I個(gè)規(guī)則R(I)A06得到R(I)的子前件個(gè)數(shù)SA07令J=1A08如果J<=S,則轉(zhuǎn)步驟A09,否則轉(zhuǎn)步驟A12A09得到R(I)的第J個(gè)子前件Pre(I,J)A10如果U匹配Pre(I,J),則轉(zhuǎn)A13,否則轉(zhuǎn)步驟A11A11J=J+1;轉(zhuǎn)步驟A08A12I=I+1;轉(zhuǎn)步驟A04A13在候選者隊(duì)列表105中找到候選者隊(duì)列Cand(I,J)A14將U加入Cand(I,J)隊(duì)列尾A15如果J=S,則轉(zhuǎn)步驟A16,否則轉(zhuǎn)步驟A11
A16調(diào)用過(guò)程GenNewUnit(U,I,S),轉(zhuǎn)步驟A12步驟A10所述的匹配是指語(yǔ)言單元符合規(guī)則子前件的要求。具體地,可以參考上文所述的子前件實(shí)現(xiàn)方式中所描述的匹配方式。
主過(guò)程調(diào)用遍歷算法在特定規(guī)則的各有關(guān)候選者隊(duì)列中尋找語(yǔ)言單元組合。在實(shí)施例中,即A16調(diào)用方法GenNewUnit來(lái)實(shí)現(xiàn)。為了保證搜索是增量式的,語(yǔ)言單元組合的最后一個(gè)元素被限定為剛輸入系統(tǒng)的新語(yǔ)言單元。
有順序歸約模式相對(duì)于無(wú)順序歸約模式,在搜索語(yǔ)言單元組合時(shí),多了一條限制,即語(yǔ)言單元組合中的每個(gè)成員與其后的成員,在文本區(qū)域上是互不重疊的,且前者在后者的左側(cè)。如語(yǔ)言單元A的文本區(qū)域?yàn)?4,7),語(yǔ)言單元B的文本區(qū)域?yàn)?5,8),則A與B在文本區(qū)域上有公共部分,二者的位置關(guān)系為重疊。又比如,語(yǔ)言單元C的文本區(qū)域?yàn)?8,10),則A與C無(wú)重疊,而且A的右邊界為7,仍小于C的左邊界8,故而A在C的左側(cè)。
方法GenNewUnit可供參考的一種實(shí)現(xiàn)步驟如下(參見(jiàn)圖8)B01進(jìn)行初始化,包括得到U在Cand(I,S)中的地址PU;堆棧Stk清空;將<S,PU>入棧StkB02讀取Stk棧頂元素<X,Y>
B03將Y所指向的語(yǔ)言單元的文本區(qū)域賦值給YT,即令YT=Y(jié)->TxtRgnB04如果X>1轉(zhuǎn)步驟B05,否則轉(zhuǎn)步驟B11B05X=X-1B06將指針PC指向候選者隊(duì)列Cand(I,X)的隊(duì)尾B07如果PC到隊(duì)首則轉(zhuǎn)步驟B12,否則轉(zhuǎn)步驟B08B08將PC所指向語(yǔ)言單元的文本區(qū)域賦值給CT,即令CT=PC->TxtRgnB09如果CT與YT不重疊且在YT左側(cè),則轉(zhuǎn)步驟B18,否則轉(zhuǎn)步驟B10B10指針PC向前移動(dòng)一個(gè)單元,即令PC=PC->Prv;轉(zhuǎn)步驟B07B11調(diào)用過(guò)程Stk2Unit(I,Stk)B12彈出Stk棧頂元素
B13如果棧Stk為空,則結(jié)束,否則轉(zhuǎn)步驟B14B14讀取Stk棧頂元素<X,Y>
B15如果Y到隊(duì)首,則轉(zhuǎn)步驟B12,否則轉(zhuǎn)步驟B16B16指針Y向前移動(dòng)一個(gè)單元,即令Y=Y(jié)->PrvB17<X,Y>入棧Stk;轉(zhuǎn)步驟B02B18<X,*PC>入棧Stk;轉(zhuǎn)步驟B02步驟B18的*PC表示PC所指向的語(yǔ)言單元。
步驟B11所調(diào)用的方法Stk2Unit用于由當(dāng)前得到的語(yǔ)言單元組合,特定的后件產(chǎn)生新的語(yǔ)言單元并輸出之。
方法Stk2Unit可供參考的一種實(shí)現(xiàn)步驟如下(參見(jiàn)圖9)C01文本區(qū)域T0初始化C02將指針PS指向堆棧Stk底部C03如果PS到棧頂,則轉(zhuǎn)步驟C06,否則轉(zhuǎn)步驟C04C04得到PS所指向的棧中語(yǔ)言單元的文本區(qū)域T=PS->TxtRgnC05將PS所指向的棧中語(yǔ)言單元的文本區(qū)域疊加到T0,即令T0=T0∪T;轉(zhuǎn)步驟C03C06創(chuàng)建語(yǔ)言單元U0C07將U0的文本區(qū)域設(shè)置為T0,即令U0。TxtRgn=T0C08得到第I個(gè)歸約規(guī)則的后件Post(I)C09將Post(I)復(fù)制到語(yǔ)言單元U0的主體C10向輸出接口輸出U0步驟C05所述的文本區(qū)域的疊加操作,就是數(shù)學(xué)中區(qū)間或集合的“并”操作。比如,語(yǔ)言單元A文本區(qū)域(2,5),語(yǔ)言單元B為(4,6),則疊加的結(jié)果為A∪B=(2,6)如果對(duì)上述方法做如下修改1.去除B08、B09、B10;
2.讓B07在為假時(shí)轉(zhuǎn)B18;3.去除C04、C05、C07。
則此歸約即為無(wú)順序歸約模式。
以上是增量式廣義歸約方法的一種實(shí)施方式。計(jì)算機(jī)科學(xué)領(lǐng)域的一般技術(shù)人員,不難根據(jù)本實(shí)施例,針對(duì)具體應(yīng)用背景實(shí)施本發(fā)明。
進(jìn)行增量式廣義歸約的方法可以用程序的形式存儲(chǔ)在計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì)中,用于存儲(chǔ)程序的存儲(chǔ)介質(zhì)可以是軟盤、硬盤、光盤、磁光盤、CD-ROM、CD-R、磁帶、非易失存儲(chǔ)器或者易失存儲(chǔ)器。
在此說(shuō)明書中,本發(fā)明已參照其特定的實(shí)施例作了描述。但是,很顯然仍可以作出各種修改和變換而不背離本發(fā)明的精神和范圍。因此,說(shuō)明書和附圖應(yīng)被認(rèn)為是說(shuō)明性的而非限制性的。
權(quán)利要求
1.一種廣義歸約的裝置,其特征在于,所述裝置包括(1)歸約規(guī)則表的存儲(chǔ)部件,用于存儲(chǔ)歸約規(guī)則;所述的歸約規(guī)則包含一個(gè)或一個(gè)以上子前件,存儲(chǔ)了語(yǔ)言單元匹配時(shí)應(yīng)滿足的條件;所述的歸約規(guī)則還包含一個(gè)后件,所存儲(chǔ)的信息描述了規(guī)則被匹配后將產(chǎn)生的語(yǔ)言單元的全部或部分內(nèi)容;所述的語(yǔ)言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語(yǔ)言層次的語(yǔ)言實(shí)體;(2)候選者隊(duì)列的存儲(chǔ)部件,用于存儲(chǔ)匹配特定規(guī)則的特定子前件的語(yǔ)言單元;(3)歸約部件,用于將由輸入手段得到的語(yǔ)言單元,與各規(guī)則的各子前件逐一進(jìn)行匹配,當(dāng)所述的語(yǔ)言單元與特定規(guī)則的特定子前件匹配時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中;在每個(gè)匹配子前件過(guò)程中,若此語(yǔ)言單元匹配的是某個(gè)具有n個(gè)子前件的規(guī)則的最末子前件,運(yùn)用遍歷算法搜索各種語(yǔ)言單元組合,每個(gè)組合滿足(a)第i個(gè)成員來(lái)自此規(guī)則的第i個(gè)子前件的候選者隊(duì)列(1≤i≤n-1);(b)第n個(gè)成員為此語(yǔ)言單元;(4)輸入部件,得到從外界輸入的語(yǔ)言單元;(5)輸出部件,將產(chǎn)生的新的語(yǔ)言單元輸出;所述的輸入部件的輸出與所述的歸約部件的輸入相連,該歸約部件的輸出與所述的輸出部件的輸入相連,且該歸約部件還分別與歸約規(guī)則表的存儲(chǔ)部件和候選者隊(duì)列的存儲(chǔ)部件相連;對(duì)于每個(gè)語(yǔ)言單元組合,都根據(jù)規(guī)則后件產(chǎn)生新的語(yǔ)言單元并通過(guò)輸出部件輸出。
2.根據(jù)權(quán)利要求1所述的廣義歸約的裝置,其特征在于,所述的語(yǔ)言單元還包括指明該語(yǔ)言單元所代表的語(yǔ)言實(shí)體在文本中占據(jù)區(qū)域的文本區(qū)域;所述的歸約裝置為(a)在搜索語(yǔ)言單元組合時(shí),每種語(yǔ)言單元組合的第i個(gè)語(yǔ)言單元的文本區(qū)域不重合于第i+1個(gè)語(yǔ)言單元且在其左側(cè)(1≤i≤n-1);(b)得到的新的語(yǔ)言單元的文本區(qū)域,為對(duì)應(yīng)語(yǔ)言單元組合中各語(yǔ)言單元的文本區(qū)域的疊加。
3.一種使用權(quán)利要求1所述的裝置進(jìn)行廣義歸約的方法,其特征在于,該方法包括以下步驟(1)由輸入手段得到一個(gè)語(yǔ)言單元,所述的語(yǔ)言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語(yǔ)言層次的語(yǔ)言實(shí)體;(2)將此語(yǔ)言單元與各歸約規(guī)則的各子前件逐一進(jìn)行匹配;所述的歸約規(guī)則含一個(gè)或一個(gè)以上子前件,存儲(chǔ)了語(yǔ)言單元匹配時(shí)應(yīng)滿足的條件;對(duì)于所述的每個(gè)子前件,都對(duì)應(yīng)一個(gè)候選者隊(duì)列,用于存儲(chǔ)匹配此子前件的語(yǔ)言單元;所述的歸約規(guī)則還包含一個(gè)后件,所存儲(chǔ)的信息描述了規(guī)則被匹配后將產(chǎn)生的語(yǔ)言單元的全部或部分內(nèi)容;當(dāng)所述的語(yǔ)言單元與特定規(guī)則的特定子前件匹配時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中;在每個(gè)匹配子前件過(guò)程中,若此語(yǔ)言單元匹配的是某個(gè)具有n個(gè)子前件的規(guī)則的最末子前件,則運(yùn)用遍歷算法搜索各種語(yǔ)言單元組合,使得每個(gè)組合滿足(a)第i個(gè)成員來(lái)自此規(guī)則的第i個(gè)子前件的候選者隊(duì)列(1≤i≤n-1);(b)第n個(gè)成員為此語(yǔ)言單元;對(duì)于每個(gè)語(yǔ)言單元組合,都根據(jù)規(guī)則后件產(chǎn)生新的語(yǔ)言單元并通過(guò)輸出手段輸出。
4.根據(jù)權(quán)利要求3所述的廣義歸約的方法,其特征在于,所述的語(yǔ)言單元還包括指明該語(yǔ)言單元所代表的語(yǔ)言實(shí)體在文本中占據(jù)區(qū)域的文本區(qū)域,所述的歸約規(guī)則為(a)在搜索語(yǔ)言單元組合時(shí),每種語(yǔ)言單元組合的第i個(gè)語(yǔ)言單元的文本區(qū)域不重合于第i+1個(gè)語(yǔ)言單元且在其左側(cè)(1≤i≤n-1);(b)得到的新的語(yǔ)言單元的文本區(qū)域,為對(duì)應(yīng)語(yǔ)言單元組合中各語(yǔ)言單元的文本區(qū)域的疊加。
5.一種存儲(chǔ)有實(shí)現(xiàn)權(quán)利要求3所述的廣義歸約方法的程序的計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì),其特征在于,所述的程序執(zhí)行以下步驟(1)由輸入手段得到一個(gè)語(yǔ)言單元,所述的語(yǔ)言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語(yǔ)言層次的語(yǔ)言實(shí)體;(2)將此語(yǔ)言單元與各歸約規(guī)則的各子前件逐一進(jìn)行匹配;所述的歸約規(guī)則含一個(gè)或一個(gè)以上子前件,存儲(chǔ)了語(yǔ)言單元匹配時(shí)應(yīng)滿足的條件;對(duì)于所述的每個(gè)子前件,都對(duì)應(yīng)一個(gè)候選者隊(duì)列,用于存儲(chǔ)匹配此子前件的語(yǔ)言單元;所述的歸約規(guī)則還包含一個(gè)后件,所存儲(chǔ)的信息描述了規(guī)則被匹配后將產(chǎn)生的語(yǔ)言單元的全部或部分內(nèi)容;當(dāng)所述的語(yǔ)言單元與特定規(guī)則的特定子前件匹配時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中;在每個(gè)匹配子前件過(guò)程中,若此語(yǔ)言單元匹配的是某個(gè)具有n個(gè)子前件的規(guī)則的最末子前件,則運(yùn)用遍歷算法搜索各種語(yǔ)言單元組合,使得每個(gè)組合滿足(a)第i個(gè)成員來(lái)自此規(guī)則的第i個(gè)子前件的候選者隊(duì)列(1≤i≤n-1);(b)第n個(gè)成員為此語(yǔ)言單元;對(duì)于每個(gè)語(yǔ)言單元組合,都根據(jù)規(guī)則后件產(chǎn)生新的語(yǔ)言單元并通過(guò)輸出手段輸出。
6.根據(jù)權(quán)利要求5所述的存儲(chǔ)介質(zhì),其特征在于,所述的語(yǔ)言單元還包括指明該語(yǔ)言單元所代表的語(yǔ)言實(shí)體在文本中占據(jù)區(qū)域的文本區(qū)域,所述的歸約規(guī)則為(a)在搜索語(yǔ)言單元組合時(shí),每種語(yǔ)言單元組合的第i個(gè)語(yǔ)言單元的文本區(qū)域不重合于第i+1個(gè)語(yǔ)言單元且在其左側(cè)(1≤i≤n-1);(b)得到的新的語(yǔ)言單元的文本區(qū)域,為對(duì)應(yīng)語(yǔ)言單元組合中各語(yǔ)言單元的文本區(qū)域的疊加。
全文摘要
本發(fā)明涉及一種廣義歸約的裝置與方法,其裝置包括歸約規(guī)則表的存儲(chǔ)部件、候選者隊(duì)列的存儲(chǔ)部件和歸約部件,其方法包括由輸入手段得到一個(gè)語(yǔ)言單元,所述的語(yǔ)言單元存儲(chǔ)的信息描述了一段文字所對(duì)應(yīng)的特定語(yǔ)言層次的語(yǔ)言實(shí)體;將此語(yǔ)言單元與各歸約規(guī)則的各子前件逐一進(jìn)行匹配,當(dāng)匹配特定子前件時(shí)將之加入到此子前件對(duì)應(yīng)的候選者隊(duì)列中;若此語(yǔ)言單元匹配的是某個(gè)規(guī)則的最末子前件,則運(yùn)用增量式的遍歷算法搜索各種語(yǔ)言單元組合,根據(jù)規(guī)則后件產(chǎn)生新的語(yǔ)言單元并通過(guò)輸出手段輸出。采用了該裝置與方法,使得當(dāng)前搜索的語(yǔ)言單元組合與上一次的必然不同,不會(huì)遺漏組合,是增量式的,從而提高了搜索語(yǔ)言單元組合的效率,具有較好的實(shí)用性。
文檔編號(hào)G06F17/27GK1645361SQ200510023588
公開(kāi)日2005年7月27日 申請(qǐng)日期2005年1月26日 優(yōu)先權(quán)日2005年1月26日
發(fā)明者劉健, 吳耿鋒 申請(qǐng)人:上海大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1