一種基于滑動(dòng)語義串匹配的句法分析方法
【專利摘要】本發(fā)明屬于計(jì)算機(jī)自然語言處理領(lǐng)域,涉及一種對人類自然語言句子進(jìn)行高質(zhì)量的句法分析的方法,具體是指一種基于滑動(dòng)語義串匹配的句法分析方法。其特征是在建立規(guī)則庫時(shí),首先對通常短語句法樹進(jìn)行了層次的扁平化轉(zhuǎn)換,然后對每一層的組塊信息進(jìn)行語義碼標(biāo)注,從而提取N元上下文有關(guān)文法的組塊規(guī)則;在句法分析時(shí),通過滑動(dòng)語義串匹配模型匹配出最優(yōu)的組塊規(guī)則進(jìn)行層疊組塊式分析;通過錯(cuò)誤修正模板在高層發(fā)現(xiàn)和修正低層中的錯(cuò)誤,實(shí)現(xiàn)層疊組塊式句法分析中的啟發(fā)式回溯處理;通過在語義模板索引中直接加入模板信息,實(shí)現(xiàn)機(jī)器對新句法規(guī)則的即時(shí)學(xué)習(xí)。本發(fā)明解決了概率上下文無關(guān)文法(PCFG)型句法分析水平難進(jìn)一步提高以及層疊組塊型句法分析中難以選擇正確的組塊規(guī)則的難題,提高了現(xiàn)有句法分析水平。
【專利說明】一種基于滑動(dòng)語義串匹配的句法分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)自然語言處理領(lǐng)域,涉及ー種對人類自然語言句子進(jìn)行高質(zhì)量的句法分析的方法,具體是指ー種基于滑動(dòng)語義串匹配的句法分析方法。
【背景技術(shù)】
[0002]句法分析是對自然語言句子進(jìn)行一系列的解析,主要分析出句子的句法成分以及它們之間的關(guān)系,通常的輸出結(jié)果是以句法樹作為表現(xiàn)形式。
[0003]句法分析是自然語言處理過程中一個(gè)至關(guān)重要的環(huán)節(jié),同時(shí)又是一個(gè)公認(rèn)的難點(diǎn)問題。因?yàn)樗呛芏嗑唧w應(yīng)用的基礎(chǔ),比如自動(dòng)問答系統(tǒng)、語義檢索、文本摘要、故事理解,甚至機(jī)器翻譯等等。如果這個(gè)環(huán)節(jié)不能把給定的句子分析正確,那么,依賴它的后續(xù)處理的性能就難以保證。由于人們對高性能的信息處理系統(tǒng)的迫切要求,句法分析的質(zhì)量問題已經(jīng)成為了自然語言處理發(fā)展道路上的ー個(gè)瓶頸問題,句法分析本身也是ー個(gè)不可回避的研究課題。
[0004]句法分析通常都是以詞性為基礎(chǔ)進(jìn)行分析,由于詞性信息粒度太粗,導(dǎo)致很多岐義發(fā)生,因此很難從多個(gè)歧義結(jié)構(gòu)中選擇到ー個(gè)正確的句法樹,后來雖有利用概率性信息來優(yōu)選最終的句法樹,并也取得了一定的效果,但是要再進(jìn)ー步提升性能就很難??紤]到詞性信息粒度太粗的問題,以后的句法分析開始把詞的信息考慮進(jìn)來,主要是中心詞驅(qū)動(dòng)方法。但是詞的信息粒度太細(xì),使得數(shù)據(jù)稀疏問題嚴(yán)重,因此效果提升不是很大。考慮到詞性信息粒度太粗,而詞的信息粒度又太細(xì),因此采用語義碼來代替詞進(jìn)行句法分析的這種方法已經(jīng)提出來并被使用(苑春法等1999,曹雁鋒等2005,曹海龍2006,張耀中2008,吳璽宏等2009,樊揚(yáng)2010,代印唐等2011),其中的語義信息來源,有的是基于語義詞典,比如知網(wǎng)和同義詞詞林等;有的是通過聚類的方式獲得;有的通過將詞性進(jìn)行次范疇化。但是,這些應(yīng)用語義碼的方法都是基于上下文無關(guān)文法的,或者是先采用上下文無關(guān)文法的句法分析,然后再用語義信息從多個(gè)歧義結(jié)果中進(jìn)行優(yōu)選。由于上下文無關(guān)文法沒有很好地考慮上下文信息,而且大多數(shù)僅是基于ニ元數(shù)據(jù)的生成規(guī)則,對于自然語言中存在的多元長度的信息關(guān)聯(lián),甚至超遠(yuǎn)距離信息關(guān)聯(lián)情況的句法分析,就鞭長莫及。因此,這種考慮語義的上下文無關(guān)文法的句法分析的性能雖有提高,但仍然沒有達(dá)到ー個(gè)很好效果。因此,如何解決上下文無關(guān)文法所存在的上下文信息覆蓋不足的問題,或者轉(zhuǎn)而采用上下文有關(guān)文法來進(jìn)行句法分析,就成為了ー個(gè)值得研究的課題。
[0005]采用面向數(shù)據(jù)驅(qū)動(dòng)的句法分析(DOP)也有研究,主要是充分利用大規(guī)模標(biāo)注的句法樹庫,首先分解句法樹為若干的子樹,建立子樹模式庫;然后在進(jìn)行句法分析時(shí),將待分析的句子進(jìn)行切片,通過特定算法把這些分片的片段與子樹模式進(jìn)行某種匹配,拼湊成完全的句法樹(張玥杰等2000,張亮等2007,郭海旭等2009)。該方法目前主要也是使用詞性和詞的信息,沒有使用語義編碼信息,會(huì)存在一定的數(shù)據(jù)稀疏問題。另外,這種切片的分界點(diǎn)很難把握,如果句子分段切分得不好,會(huì)導(dǎo)致最終的分析結(jié)果錯(cuò)誤。因此,如何能保證合理地正確切分以及如何減少數(shù)據(jù)稀疏是該方法要解決的問題。[0006]基于層疊組塊式句法分析現(xiàn)時(shí)被使用(Steven Abneyl996,耿向好2008,陳雪艷等 2008,周國棟等 2009,鄭偉發(fā) 2009,Qiaoli ZHOU 等 2009,Zhipeng Jiang 等 2010,Zhouqiao Ii等2010)。對于如何獲取正確的組塊規(guī)則,已經(jīng)進(jìn)行了很多研究,從最大長度匹配的方法直到機(jī)器學(xué)習(xí)的最大熵方法、層疊隱馬爾科夫、層疊條件隨機(jī)場等方法都有使用。在進(jìn)行每一層組塊操作時(shí),在某種意義上已經(jīng)考慮一定程度的上下文關(guān)聯(lián)信息,但是由于自然語言會(huì)存在長的上下文信息關(guān)聯(lián)的情況,而機(jī)器學(xué)習(xí)方法由于時(shí)間和存儲(chǔ)空間限制,上下文關(guān)聯(lián)的長度不能很大,而且目前的大部分都是基于詞性或詞的某種組合的信息,很少使用語義編碼信息。因此導(dǎo)致每ー層的組塊的正確性也不是很高,而且由于層疊組塊方法不具備回溯能力,使得低層的一點(diǎn)錯(cuò)誤會(huì)在后面高層逐漸地被放大,導(dǎo)致最后的分析結(jié)果不理想。因此,如何提高組塊分析過程中的每ー層的正確性是該方法亟待解決的問題,特別是如何引入回溯機(jī)制進(jìn)行錯(cuò)誤修正是ー個(gè)值得研究的課題。
[0007]由于自然語言是不斷發(fā)展的,新的語言現(xiàn)象總會(huì)不斷出現(xiàn),這樣就要求系統(tǒng)能隨時(shí)吸收新的語法知識到系統(tǒng)的規(guī)則庫中,以便系統(tǒng)具有的語言知識不至于脫離實(shí)際太遠(yuǎn),因此機(jī)器具有學(xué)習(xí)能力是不可缺少的。但是現(xiàn)有的基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法,學(xué)習(xí)時(shí)間都普遍比較長,有的都是幾十小時(shí)以上,很不便于機(jī)器即時(shí)更新信息庫,導(dǎo)致了系統(tǒng)性能不能及時(shí)同步提高。因此,系統(tǒng)如何快速地獲取新語言現(xiàn)象的信息,以便動(dòng)態(tài)提高系統(tǒng)性能,也是句法分析系統(tǒng)ー個(gè)需要面對的問題。
[0008]Steven Abney (1996)【Steven Abney.Partial Parsing via Finite-StateCascades [C].Proceedings of the ESSLLI’96Robust Parsing Workshop.1996,8-15】提出ー種基于層疊有限狀態(tài)機(jī)的組塊式句法分析方法,這也是ー種確定性的句法分析方法。分析時(shí),通過逐層“由底向上”組塊的方式實(shí)現(xiàn)句法分析。當(dāng)組塊規(guī)則出現(xiàn)沖突時(shí),采用最大長度匹配方式來選擇最優(yōu)的規(guī)則。
[0009]苑春法等(1999)【苑春法,黃錦輝,李文捷.基于語義知識的漢語句法結(jié)構(gòu)排歧[J].中文信息學(xué)報(bào),1999,13 (1):1-8.】提出用語義碼的形式代替詞,可以有更好的適配性,覆蓋能力強(qiáng)??紤]使用語義知識進(jìn)行排歧,需要對所有詞進(jìn)行語義類代碼標(biāo)注是一件エ作量大且又煩瑣的工作,因此采用了對不同的歧義模式采用具體的判斷方法,回避了語義類代碼的標(biāo)注問題。以現(xiàn)代漢語辭海和同義詞詞林為主要資源獲取了漢語語義類之間的句法關(guān)系知識,建立了ー個(gè)漢語語義關(guān)聯(lián)網(wǎng),使用語義類知識排除結(jié)構(gòu)歧義。
[0010]張玥杰等(2000)【張玥杰,朱靖波,張躍,等.基于DOP的漢語句法分析技術(shù)[J].中文信息學(xué)報(bào),2000 (1):13-21】采用面向數(shù)據(jù)的分析技術(shù)D0P,以ー種概率分析策略,為ー個(gè)給定句子找到最可能的分析。使用了 Monte Carlo方法做為找到最可能分析的近似分析算法,可在合理的算法時(shí)間代價(jià)范圍內(nèi)實(shí)現(xiàn),而且在統(tǒng)計(jì)上受控,確保所獲得的近似解確實(shí)對應(yīng)著分析消歧后的精確解。
[0011]曹雁鋒等(2005)【曹雁鋒,萬建成,盧雷.基于二元運(yùn)算關(guān)系的漢語計(jì)算語法模型[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2005,35 (1):88-93.】在二元語義關(guān)系基礎(chǔ)上,結(jié)合漢語句法結(jié)構(gòu)的特征,提出了二元運(yùn)算關(guān)系的概念。提出的二元運(yùn)算關(guān)系還需要進(jìn)ー步細(xì)化和擴(kuò)充,句法識別的算法也有待于進(jìn)ー步優(yōu)化。
[0012]曹海龍(2006)【曹海龍.基于詞匯化統(tǒng)計(jì)模型的漢語句法分析研究[D].哈爾濱:哈爾濱エ業(yè)大學(xué),2006.】提出一種基于語義類的漢語句法分析方法。其以中心驅(qū)動(dòng)模型為基礎(chǔ),把自動(dòng)獲取的語義類融入到句法分析模型中,為消解句法歧義提供語義類信息。利用了一部語義詞典,應(yīng)用最小描述長度原理,自動(dòng)地為句法分析模型確定ー個(gè)粒度在詞性與詞匯之間的語義類。
[0013]梁雄友(2006)【梁雄友.漢語信息處理一體化全局尋優(yōu)算法研究[D].廈門:廈門大學(xué),2006】為了實(shí)現(xiàn)分詞、新詞認(rèn)別、詞類標(biāo)注、詞義標(biāo)注、句型分析幾個(gè)階段全局一體化尋優(yōu),提出了“ N—最短路徑” Viterbi詞類粗標(biāo)注算法。由于目前二元、三元HMM解決詞義消解和基于現(xiàn)代漢語語法信息詞典進(jìn)行詞義消解的困難,提出了基于《知網(wǎng)》的兩個(gè)詞匯語義實(shí)際相關(guān)度詞義消解算法。利用統(tǒng)計(jì)為主,規(guī)則為副的方法定義句子成分結(jié)構(gòu)語義關(guān)聯(lián)度,并利用它對PCFG算法結(jié)果進(jìn)行篩選,提出了全局尋優(yōu)的思路。
[0014]張亮等(2007)【張亮,陳家駿.基于大規(guī)模語料庫的句法模式匹配研究[J].中文信息學(xué)報(bào),2007,21 (5):31-35.】在句法分析時(shí),搜尋近似實(shí)例或片段,匹配相似語言結(jié)構(gòu)和分析過程。提出了一種基于模式匹配的句法分析的方法,即從大規(guī)模標(biāo)注語料樹庫中抽取出蘊(yùn)含的句法模式,并據(jù)此構(gòu)建模式、子模式及其規(guī)約庫,將句法分析的過程轉(zhuǎn)化為模式匹配和局部模式轉(zhuǎn)換的過程。以TCT973樹庫作為實(shí)驗(yàn)的資源,從其中29000余句句法樹中抽取所有不重復(fù)的句法模式,構(gòu)建大規(guī)模的模式庫及其相應(yīng)的規(guī)約庫,模式總數(shù)大約8百萬條。目前對于ー個(gè)模式對應(yīng)多種規(guī)約的情況,采用概率優(yōu)先,即同等情況取概率大的規(guī)約。[0015]耿向好(2008)【耿向好.基于歷史信息的中文多層次句法分析研究[D].蘇州:蘇州大學(xué),2008.】提出一種基于歷史信息的中文多層次句法分析方法,在正確分詞基礎(chǔ)上,實(shí)現(xiàn)了ー個(gè)包括詞性標(biāo)注、基本短語識別、深層句法分析的基于詞的句法分析系統(tǒng)。采用最大熵模型進(jìn)行參數(shù)學(xué)習(xí),在每層處理過程中,優(yōu)先識別出容易識別的組塊,在此基礎(chǔ)上根據(jù)更豐富的上下文信息循環(huán)進(jìn)行復(fù)雜組塊的識別,直至識別出根結(jié)點(diǎn)。由于決策是不可回退的,使得初始階段的錯(cuò)誤決策極大地影響后面的一系列決策制定。
[0016]陳雪艷等(2008)【陳雪艷,呂國英,李茹,等.基于層疊條件隨機(jī)場的句法語義自動(dòng)標(biāo)注研究[C]//第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集,2008:49-55.】提出ー種基于層疊條件隨機(jī)場的CFN句法語義自動(dòng)標(biāo)注方法。該方法在低層條件隨機(jī)場模型中解決了框架元素的識別,將識別結(jié)果傳遞到上層短語類型的條件隨場模型,再將識別結(jié)果傳遞到上層句法功能識別的條件隨機(jī)場模型,其低層模型為上層模型提供決策支持,并且在每層自動(dòng)標(biāo)注完成后,増加后處理規(guī)則去識別那些沒有被正確標(biāo)注的詞語。
[0017]張耀中(2008)【張耀中.融合語義和句型信息的中文句法分析方法研究與實(shí)現(xiàn)[D],北京:北京大學(xué),2008.】在PCFG模型的基礎(chǔ)上,提出了一種引入中文語義和句型信息的方法,解決了 PCFG模型缺少語義信息及文法之缺少全局約束的問題,改進(jìn)了中文句法分析器的性能。在句法分析中融入語義信息,嘗試在非詞匯化句法分析方法中融入語義信息,利用語義信息幫助句法分析進(jìn)行消歧。利用的是從HowNet中提取的語義類的信息,將語義類的信息附著到詞性(預(yù)終結(jié)符)層次上,對詞性層標(biāo)記做細(xì)化。
[0018]吳璽宏等(2009)【吳璽宏,遲慧生,羅定生.一種融入語義信息的中文句法分析方法:中華人民共和國,CN101520775[P]】(2009)發(fā)明了一種結(jié)合語義信息的中文句法分析方法。1.按照知網(wǎng)的上下位關(guān)系抽取出詞的不同層次的語義類別,得到由詞到語義類的索引;2.以句法樹中的詞作為鍵值對知網(wǎng)進(jìn)行查詢得到該詞的語義類,并將語義類添加到句法樹的某ー層上;3.將第2步驟處理后的句法樹作為訓(xùn)練數(shù)據(jù),進(jìn)行文法訓(xùn)練,得到文法模型;4.利用第3步驟訓(xùn)練后的文法模型對待分析的句子進(jìn)行解碼。對于存在多個(gè)不同的語義類,則選取多個(gè)語義中的第一個(gè)語義類作為該詞的語義類,或采用人工標(biāo)注的方式根據(jù)上下文選擇。本發(fā)明以非詞匯化句法分析器為基礎(chǔ),將語義信息融入其中,利用語義信息幫助句法分析,進(jìn)行消歧,使句法分析器性能得到明顯提升,并且能夠通過這種融合語義信息的句法分析器獲得部分詞的語義信息。先采用非詞匯化的句法分析器,首先用簡單文法模型解碼得到一系列候選結(jié)果,然后再采用更精細(xì)的文法模型在這些候選結(jié)果中再進(jìn)行解碼,這樣就可以在后面的精細(xì)解碼前裁掉許多不可能結(jié)果,從而減小了捜索空間,提高了效率。[0019]周國棟等(2009)【周國棟,朱巧明,李培峰,等.一種基于歷史信息的自然語言層次句法分析方法:中華人民共和國,CN101446941 [P]】發(fā)明ー種基于歷史信息的自然語言層次句法分析方法,其特征在干:對已完成分詞的句子,首先將各個(gè)詞看成是初始組塊,采用分層方式,根據(jù)上下文信息進(jìn)行組塊識別,將可以組合的組塊構(gòu)成新的組塊,獲得中間結(jié)果,對中間結(jié)果重復(fù)根據(jù)上下文信息進(jìn)行組塊識別及組合,直至只包含ー個(gè)組塊為止,該組塊為句法樹的根結(jié)點(diǎn),由此獲得表達(dá)自然語言的句法樹。本發(fā)明在每層處理過程中,優(yōu)先識別出容易識別的組塊,能提供更豐富的上下文信息進(jìn)行復(fù)雜組塊識別,提高決策預(yù)測的正確率,從而提高了句法分析的性能。
[0020]鄭偉發(fā)(2009)【鄭偉發(fā).一種基于上下文的隱馬爾可夫模型的漢語句法分析模型的實(shí)現(xiàn)[J].福建電腦,2009 (7):71-72.】把短語邊界識別轉(zhuǎn)化為ー個(gè)在詞類標(biāo)記對之間插入“[”和“]”的問題??紤]到基于上下文的HMM僅能識別ー個(gè)層次的短語,而完整的句子由各類短語層層嵌套而成,因此引入了逐層掃描的思想。通過逐層掃描與短語識別相結(jié)合。采用分層組塊的思想,使用是隱馬爾科夫模型。
[0021]郭海旭等(2009)【郭海旭,邢欣,李福民,等.基于DOP的漢語句法結(jié)構(gòu)樹分析研究[C]//中文信息學(xué)會(huì)句法分析評測(CIPS-ParsEval-2009),2009:l-8.】對于輸入的句子,首先經(jīng)過詞匯層與詞性層初選得到句法片段;然后,基于已構(gòu)建的數(shù)據(jù)庫,對詞匯詞性序列的子序列搜索片段,進(jìn)行片段組合。最后,對輸入句子與初選結(jié)果進(jìn)行相似性評估,完成對輸入句子的組合分析過程。按詞匯層和詞性層得到句法片段,然后再搜索片段,最后組合。
[0022]Qiaoli ZHOU等(2009)【ZHOU Qiao-1i1XIN Liu, REN Xiao-na, et al.Statisticalparsing based on Maximal Noun Phrase pre_processing[C]//中又イ—目息學(xué)會(huì)句法分析評測(CIPS-ParsEval-2009),2009:】先對句子進(jìn)行基于統(tǒng)計(jì)的最長名詞短語進(jìn)行預(yù)識別。然后采用了層疊CRF的句法分析方法,逐層進(jìn)行組塊分析。
[0023]Zhipeng Jiang 等(2010)【JIANG Zh1-peng, YU Zhao, YI Guan, et al.Completesyntactic analysis bases on Mult1-level chunKing[C]//CIPS-SIGHAN JointConference on Chinese Language P, 2010:1-5.】通過多層組塊的方式來實(shí)現(xiàn)完全的句法分析。首先用CRF實(shí)現(xiàn)POS詞性標(biāo)注,然后用最大熵進(jìn)行基本組塊和復(fù)雜組塊。
[0024]Zhou qiao Ii 等(2010) [ZHOU Qiao-li, LANG Wen-jing, WANG Ying-ying, etal.The SAU report for thelst CIPS-SIGHAN-ParsEval-2010[C]//CIPS-SIGHAN JointConference on Chinese Language P, 2010:1-8】先利用 CRFs 進(jìn)行POS標(biāo)注,米用分治策略進(jìn)行句法分析,使用層疊CRFs進(jìn)行中心詞標(biāo)注。句法分析,首先識別出最長名詞短語,然后用它的中心詞代它,使用組塊的方法進(jìn)行解碼。[0025]樊揚(yáng)(2010)【樊揚(yáng).結(jié)合層次化語義知識的中文句法分析方法研究[D].北京:北京大學(xué),2010】考慮到句法和語義之間是緊密聯(lián)系的,利用層次化的語義知識來幫助句法分析。在概率上下文無關(guān)文法模型的基礎(chǔ)之上,將語義信息引入到句法分析過程當(dāng)中,利用層次化的語義知識指導(dǎo)文法標(biāo)記的細(xì)化,使得細(xì)化出的子標(biāo)記更加合理,優(yōu)化了模型結(jié)構(gòu)。在基本的結(jié)合層次化語義知識的句法分析方法基礎(chǔ)之上,通過在句法分析的訓(xùn)練過程中不斷調(diào)整詞匯文法,利用句法結(jié)構(gòu)信息對多義詞進(jìn)行消歧處理,解決了在引入語義信息時(shí)所面對的歧義問題。
[0026]代印唐等(2011)【代印唐,吳承榮,馬勝祥,等.層級分類概率句法分析[J].軟件學(xué)報(bào),2011 (2):245-257】提出一種層級分類短語結(jié)構(gòu)文法和一種層級分類概率句法分析方法,設(shè)計(jì)了一種通過對實(shí)例進(jìn)行聚類來消除句法規(guī)則的分類歧義方法。還進(jìn)一歩將層級分類擴(kuò)展到概率上下文相關(guān)句法分析方法,利用上下文相關(guān)性的層級分類來解決引入上下文相關(guān)時(shí)的數(shù)據(jù)稀疏性問題,通過上述一系列方法有效地克服了過分類與欠分類之間的矛盾。規(guī)則層級分類,采用固定聚類的語義分類,避免過分類和欠分類。
[0027]劉春陽(2011)【劉春陽.動(dòng)詞次范疇化驅(qū)動(dòng)的漢語句法分析[D].哈爾濱:黑龍江大學(xué),2011】提出了基于次范疇化規(guī)則的句法分析方法和基于次范疇化統(tǒng)計(jì)特征的漢語句法分析方法。在基于次范疇化規(guī)則的句法分析方法中引入了最大相似度的手段,提出了利用動(dòng)詞次范疇化信息對規(guī)則的模式進(jìn)行相似度匹配的方法實(shí)現(xiàn)對漢語句子的句法分析。在基于統(tǒng)計(jì)的句法分析方法中應(yīng)用取概率平均值的措施,通過對句法分析規(guī)則和次范疇化規(guī)則的概率取平均值的方法對漢語句子進(jìn)行句法分析。
【發(fā)明內(nèi)容】
[0028]本發(fā)明提供了一種基于滑動(dòng)語義串匹配的句法分析方法,由此解決概率性的短語結(jié)構(gòu)型句法分析的水平很難進(jìn)一步提高以及層疊組塊型句法分析難以選擇正確的組塊規(guī)則的難題,提高了現(xiàn)有句法分析水平。
[0029]本發(fā)明采用如下的技術(shù)方案:`[0030]一、扁平分層的短語結(jié)構(gòu)句法樹表示
[0031]采用層疊組塊分析方法,句法分析的結(jié)果采用短語結(jié)構(gòu)二叉樹表示,在表示吋,對通常的短語句法樹進(jìn)行了層次的扁平化轉(zhuǎn)換;
[0032]二、N元上下文有關(guān)文法的規(guī)則提取
[0033]第一,按照語義詞典,對用于訓(xùn)練的句法樹庫中句子的詞標(biāo)注對應(yīng)的語義碼;對于單義詞,由機(jī)器按照語義詞典中詞的語義碼一一對應(yīng)實(shí)現(xiàn)自動(dòng)標(biāo)注;對于多義詞,根據(jù)詞所在上下文中的信息,由人從語義詞典中選定最適合的語義碼進(jìn)行標(biāo)注,由n個(gè)詞構(gòu)成的句子的語義碼的標(biāo)注為SI, S2, S3,…,Sn ;
[0034]第二,按照扁平層次化的短語結(jié)構(gòu)句法樹的層次,對每層兩兩組合成的一個(gè)組塊Chunk進(jìn)行語義標(biāo)注;該組塊的語義碼按照組塊的中心詞位置,從前ー層的詞或組塊的語義碼繼承下來,作為當(dāng)前新組塊的語義碼;組塊的語義標(biāo)注從第0層開始,自底向上逐層進(jìn)行,直到完成最后層的根組塊的語義標(biāo)注,即完成對整個(gè)句法樹的語義標(biāo)注;組塊語義碼的格式為:“組塊名XPx:語義碼Sx” ;
[0035]第三,對每ー層所有基元,按每移動(dòng)ー個(gè)基元位置,以N個(gè)基元長度進(jìn)行切分分組,一個(gè)基元是指ー個(gè)詞的語義碼或者一個(gè)組塊的語義碼;即以“長度為N的窗ロ”從每ー層的前端開始滑動(dòng),每滑過ー個(gè)基元位置,就從該窗ロ中抽取構(gòu)成組塊的規(guī)則;該規(guī)則是指,當(dāng)前窗口中的N元基元信息,如何進(jìn)行組塊而成為下ー層中的信息;把所有層的所有的每N長度的模板及其對應(yīng)的組塊信息都提取出來;對于每層的結(jié)尾部分不足N長度劃分的,則采用實(shí)際長度進(jìn)行提取,直到模板長度為I為止;
[0036]對用于訓(xùn)練的句法樹庫以外的句子的組塊規(guī)則,采用機(jī)器即時(shí)學(xué)習(xí)的方法獲得;
[0037]三、基于滑動(dòng)語義串匹配的句法分析模型
[0038]本發(fā)明提出滑動(dòng)語義串匹配方法(SM0SS模型)進(jìn)行句法分析,工作過程參見下
表;
【權(quán)利要求】
1.一種基于滑動(dòng)語義串匹配的句法分析方法,其特征在于以下步驟: 一、扁平分層的短語結(jié)構(gòu)句法樹表示 采用層疊組塊分析方法,句法分析的結(jié)果采用短語結(jié)構(gòu)二叉樹表示,在表示吋,對通常的短語句法樹進(jìn)行了層次的扁平化轉(zhuǎn)換; 二、N元上下文有關(guān)文法的規(guī)則提取 第一,按照語義詞典,對用于訓(xùn)練的句法樹庫中句子的詞標(biāo)注對應(yīng)的語義碼;對于單義詞,由機(jī)器按照語義詞典中詞的語義碼一一對應(yīng)實(shí)現(xiàn)自動(dòng)標(biāo)注;對于多義詞,根據(jù)詞所在上下文中的信息,由人從語義詞典中選定最適合的語義碼進(jìn)行標(biāo)注,由n個(gè)詞構(gòu)成的句子的語義碼的標(biāo)注為SI,S2,S3,…,Sn ; 第二,按照扁平層次化的短語結(jié)構(gòu)句法樹的層次,對每層兩兩組合成的一個(gè)組塊Chunk進(jìn)行語義標(biāo)注;該組塊的語義碼按照組塊的中心詞位置,從前ー層的詞或組塊的語義碼繼承下來,作為當(dāng)前新組塊的語義碼;組塊的語義標(biāo)注從第O層開始,自底向上逐層進(jìn)行,直到完成最后層的根組塊的語義標(biāo)注,即完成對整個(gè)句法樹的語義標(biāo)注;組塊語義碼的格式為:“組塊名XPx:語義碼Sx,,; 第三,對每ー層所有基元,按每移動(dòng)ー個(gè)基元位置,以N個(gè)基元長度進(jìn)行切分分組,一個(gè)基元是指ー個(gè)詞的語義碼或者一個(gè)組塊的語義碼;即以“長度為N的窗ロ”從每ー層的前端開始滑動(dòng),每滑過ー個(gè)基元位置,就從該窗口中抽取構(gòu)成組塊的規(guī)則;該規(guī)則是指,當(dāng)前窗口中的N元基元信息,如何進(jìn)行組塊而成為下ー層中的信息;把所有層的所有的每N長度的模板及其對應(yīng)的組塊信息都提取出來;對于每層的結(jié)尾部分不足N長度劃分的,則采用實(shí)際長度進(jìn)行提取,直到模板 長度為I為止; 對用于訓(xùn)練的句法樹庫以外的句子的組塊規(guī)則,采用機(jī)器即時(shí)學(xué)習(xí)的方法獲得; 三、基于滑動(dòng)語義串匹配的句法分析模型 采用滑動(dòng)語義串匹配方法,即SMOSS模型,進(jìn)行句法分析,工作過程參見表1 ;
2.根據(jù)權(quán)利要求1所述的句法分析方法,其特征在于:所述的啟發(fā)式回溯是指采用修正類模板實(shí)現(xiàn)啟發(fā)式回溯處理,解決“N元長度模板遠(yuǎn)距離管轄不足”問題;句法分析中的N元模板類型包括2種,一種是用于指導(dǎo)N元語義碼串如何進(jìn)行由低層逐漸向高層組塊的;另ー種是用于檢查N元語義串是否不允許存在,而且指明這N元語義碼串中哪個(gè)位置的語義碼可能不正確,這類模板定義為錯(cuò)誤修正類模板,用于在分析時(shí)進(jìn)行啟發(fā)式回溯; 在逐層分析過程中,對于低層存在的錯(cuò)誤,在高一層或高幾層通過錯(cuò)誤修正類模板匹配出某個(gè)N元語義碼串的組合有錯(cuò)誤,然后根據(jù)該錯(cuò)誤修正類模板對應(yīng)信息中所指定的可能有誤的語義碼位置及與該位置鄰近的那些語義碼在模板庫中進(jìn)行模板匹配,得到錯(cuò)誤位置上最可能的那些候選語義碼,然后帶著這些信息在低一層或者低幾層中匯總的候選信息中查找,如果存在這些候選語義碼的某ー個(gè),那么就選擇該語義碼作為修正的語義碼,并做使用標(biāo)識,從該層重新進(jìn)行新的組塊操作,直至分析完成;如果當(dāng)前選擇的候選語義碼仍沒有走通,那么再依次選擇其余的候選語義碼,直到走通或者全部試選完畢;如果在錯(cuò)誤位置上沒有發(fā)現(xiàn)最可能的候選語義碼,那么此次啟發(fā)式回溯操作無效,不做任何修正;如果在錯(cuò)誤位置上發(fā)現(xiàn)了候選語義碼,那么按此候選語義碼接著繼續(xù)執(zhí)行,進(jìn)入了更高層組塊;若最終仍未走通,那么保留這個(gè)修正的不完全狀態(tài)。
3.根據(jù)權(quán)利要求1或2所述的句法分析方法,其特征在于:所述的即時(shí)機(jī)器學(xué)習(xí)是提出了ー種直接在N元模板的索引表中加入新模板索引的方法實(shí)現(xiàn)機(jī)器的即時(shí)學(xué)習(xí);所有的N元模板都是按照模板中的每個(gè)語義碼的首字母分別建立了相應(yīng)的模板索引表,N元模板索引就是由N個(gè)語義碼的首字母構(gòu)成的模板索引;當(dāng)機(jī)器對含新語言現(xiàn)象的句子進(jìn)行即時(shí)學(xué)習(xí)時(shí),采用如下步驟:第一,對該句子進(jìn)行句法樹標(biāo)注,然后標(biāo)注對應(yīng)的語義碼,提取該句法樹中一系列的N兀模板和模板的對應(yīng)信息;第二,將提取的模板按照N兀模板索引位置直接加入到現(xiàn)有模板索引表中 ,并重新修改一下模板的數(shù)量值。
【文檔編號】G06F17/27GK103500160SQ201310492589
【公開日】2014年1月8日 申請日期:2013年10月18日 優(yōu)先權(quán)日:2013年10月18日
【發(fā)明者】王偉, 黃德根 申請人:大連理工大學(xué)