亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

從自然語言文本挖掘領域過程本體的方法

文檔序號:6399629閱讀:212來源:國知局
專利名稱:從自然語言文本挖掘領域過程本體的方法
技術領域
本發(fā)明涉及本體;更具體地涉及一種從自然語言文本挖掘領域過程本體的方法。
背景技術
在本說明書中,以下屬于非特別指出都以所指明的意義被使用:本體”:本體是一種對于某種概念體系(概念表達、概念化、概念化體系或者說概念化過程)明確而又詳細的說明。本體作為一種能在語義和知識層次上描述信息系統(tǒng)的概念模型的建模工具,在提出后迅速成為信息系統(tǒng)與人工智能領域的一個研究熱點。本體是領域內(nèi)重要實體、屬性、過程及其相互關系形式化描述的基礎,可以為知識庫的構建提供一個基本的結構;可以將某個或多個特定領域的概念和術語規(guī)范化,為其在該領域或領域之間的實際應用提供便利,在構建智能化的檢索系統(tǒng)、構建語義web等方面有很重要的意義。過程本體”:過程是由一組為了完成預定目標或達到期望狀態(tài)的活動構成的。過程本體以一種聲明的方式描述領域相關過程模型,為Web Services的查找、執(zhí)行和合成提供關于業(yè)務過程的共享知識。-“實例化”:根據(jù)類創(chuàng)建對象的過程?!埂甊DF三兀組”:資源描述框架(Resource Description Framework, RDF)是由 W3C制定發(fā)展的規(guī)范,它用于表達關于網(wǎng)絡資源的元數(shù)據(jù),表達簡單的資源陳述,其中每個陳述都是由主語(subject),謂語(predicate),賓語(object)組成的,可標識資源與資源之間的關系,并可作為邏輯推論的基礎資料模型。RDF提供了一種基本的結構,用于在Web上對元數(shù)據(jù)(meta-data)進行編碼、交換和重用,其基本句法是〈主語謂詞賓語〉三元組,主語為URI或匿名結點ID,賓語為UR1、匿名結點ID或文字(literal),謂詞則是一個URI。- “AG知識庫” =AllegroGraph (AG)是一個高效的RDF三元組數(shù)據(jù)存儲管理系統(tǒng)(Knowledge Base-知識數(shù)據(jù)庫),采用了高速的B+tree數(shù)據(jù)倉庫和先進的知識推理及查詢技術,是目前世界上最先進的知識管理數(shù)據(jù)庫,在生物計算、信息安全、知識挖掘等領域都有著廣泛的應用。-“智能搜索”:用戶可以通過各種操作與系統(tǒng)進行交互,真正參與到問題求解的過程中,且系統(tǒng)會根據(jù)相應的操作進行反饋。到目前為止,從自然語言文本中開發(fā)本體的方法已經(jīng)存在,但是構建出來的本體大多是靜態(tài)的結構化的本體,其語義搜索在以前的基于關鍵字的搜索基礎上有所進展,但缺乏動態(tài)性和過程性,且對涉及過程的語義搜索無能為力。對于過程本體,目前也有相關的研究,但基本是基于領域專家的手工構建,且構建出的過程本體無法自動更新,無法實現(xiàn)可持續(xù)性。經(jīng)檢索,對于過程本體的自動構建,尤其是關于領域問題求解的過程本體的自動構建還沒有這方面的報道。因此,需要一種從文本數(shù)據(jù)自動產(chǎn)生過程本體的方法,并為問題求解中的智能化語義搜索提供解決方案。

發(fā)明內(nèi)容
本發(fā)明的目的在于,針對上述現(xiàn)有技術的不足,提供一種從自然語言文本挖掘領域過程本體的方法,構建出可自動更新的動態(tài)的過程本體模型。本發(fā)明的另一個目的在于:提供一種基于過程本體模型的智能搜索方法。為達到上述目的,本發(fā)明采取的技術方案是:提供一種從自然語言文本挖掘領域過程本體的方法,其特征在于:包括以下步驟:A、創(chuàng)建過程本體模型,通過解析文本,找出邏輯分段,提取邏輯分段中表述概念的詞、表述概念與概念之間關系的詞以及公理、定理、定義和推論,創(chuàng)建類、屬性以及類與類之間的關系;B、將創(chuàng)建的過程本體模型實例化;C、將上述過程本體模型以及實例化的過程本體模型采用RDF三元組進行表示并存儲到AG知識庫。步驟A包括以下分步驟:Al、解析文本,接收領域文本數(shù)據(jù);A2、判斷是否存在邏輯分段,根據(jù)接收的領域文本數(shù)據(jù)判斷是否存在邏輯分段,若存在邏輯分段進入步驟A3 ;若不存在邏輯分段,創(chuàng)建過程文本模型步驟結束;A3、解析邏輯分段,所述邏輯分段由條件、結論以及從條件到結論的原因三部分構成;所述條件或結論中含有至少一個語義單元;提取語義單元中表述概念的詞以及表述概念與概念之間關系的詞;提取從所述條件到結論的原因;從所述條件到結論的原因包括公理、定理、定義、推論;A4、創(chuàng)建過程本體模型,根據(jù)提取的表述概念的詞,表述概念與概念之間關系詞,以及公理、定理、定義、推論創(chuàng)建類、屬性以及類與類之間的關系。所述語義單元是一個主謂結構或主謂賓結構。若步驟A2根據(jù)接收的領域文本數(shù)據(jù)判斷存在至少兩個邏輯分段,步驟B對上一個邏輯分段創(chuàng)建的過程本體模型實例化之后返回步驟A2,創(chuàng)建下一個邏輯分段的過程本體模型。在前邏輯分段的結論作為在后邏輯分段的條件。類由上述表述概念的詞、表述概念與概念之間關系的詞,以及公理、定理、定義、推論構成;屬性由構成上述概念的元素的存在和上述結論的存在構成。所述領域文本數(shù)據(jù)對應服務查詢的文本。一種基于上述過程本體模型的智能搜索方法,其特征在于:根據(jù)上述過程本體模型以及接收到的文本數(shù)據(jù)進行語義搜索。通過本發(fā)明提供的從自然語言文本挖掘領域過程本體的方法可以構建出可自動更新的動態(tài)的過程本體模型,并將構建的過程本體模型存儲到AG知識庫中,便于進行語義搜索。


圖1為構建過程本體模型的流程圖;圖2為本發(fā)明的方法的一個實施例步驟流程圖。
具體實施例方式下面結合附圖和實施例對本發(fā)明進行詳細的描述,但它們不是對本發(fā)明的進一步限制。本發(fā)明提供的一種從自然語言文本挖掘領域過程本體的方法,其特征在于:包括以下步驟:A、創(chuàng)建過程本體模型,通過解析文本,找出邏輯分段,提取邏輯分段中表述概念的詞、表述概念與概念之間關系的詞以及公理、定理、定義和推論,創(chuàng)建類、屬性以及類與類之間的關系;B、將創(chuàng)建的過程本體模型實例化;C、將上述過程本體模型以及實例化的過程本體模型采用RDF三元組進行表示并存儲到AG知識庫。A步驟包括以下分步驟:Al、解析文本,接收領域文本數(shù)據(jù);A2、判斷是否存在邏輯分段,根據(jù)接收的領域文本數(shù)據(jù)判斷是否存在邏輯分段,若存在邏輯分段進入步驟A3 ;若不存在邏輯分段,創(chuàng)建過程文本模型步驟結束;A3、解析邏輯分段,邏輯分段由條件、結論以及從條件到結論的原因三部分構成;條件或結論中含有至少一個語義單元;提取語義單元中表述概念的詞以及表述概念與概念之間關系的詞;提取從條件到結論的原因;從條件到結論的原因包括公理、定理、定義、推論;A4、創(chuàng)建過程本體模型,根據(jù)提取的表述概念的詞,表述概念與概念之間關系詞,以及公理、定理、定義、推論創(chuàng)建類、屬性以及類與類之間的關系。若步驟A2根據(jù)接收的領域文本數(shù)據(jù)判斷存在至少兩個邏輯分段,步驟B對上一個邏輯分段創(chuàng)建的過程本體模型實例化之后返回步驟A2,創(chuàng)建下一個邏輯分段的過程本體模型;直至創(chuàng)建完所有的邏輯分段。在前邏輯分段的結論作為在后邏輯分段的條件;在前邏輯分段指的是與在后邏輯分段相比,創(chuàng)建在前邏輯分段的過程本體模型先于在后邏輯分段的過程本體模型,但兩者不一定是順次的兩個過程;例如若A2根據(jù)接收的領域文本數(shù)據(jù)判斷存在四個邏輯分段;第一個邏輯分段的結論可以是第四個邏輯分段的條件。語義單元是一個主謂結構或者是主謂賓結構。類由上述表述概念的詞、表述概念與概念之間關系的詞,以及公理、定理、定義、推論構成;屬性由構成上述概念的元素的存在和上述結論的存在構成。上述領域文本數(shù)據(jù)對應服務查詢的文本。下面以一個實施例來進行詳細的說明。已知:等腰三角形ABC底邊是BC,AD平分BC,求證:三角形ABD全等于三角形A⑶。實例化上述例題步驟如下:1、解析文本,接收領域文本數(shù)據(jù)“已知:等腰三角形ABC底邊是BC,AD平分BC,求證:三角形ABD全等于三角形A⑶;2、判斷是否存在邏輯分段,對接收到的領域文本數(shù)據(jù)進行邏輯分段得到三個邏輯分段“因為等腰三角形ABC底邊是BC,所以AB等于AC(利用的是等腰三角形的性質定理)”、“因為AD平分BC,所以BC等于CD (利用的是線段中點性質定理)”和“因為AB等于AC、BD等于⑶和AD等于AD,所以三角形ABD全等于三角形A⑶(全等三角形邊邊邊判定定理)”,分別分析三個邏輯分段,建立三個邏輯分段的過程本體模型;3、解析邏輯分段,即處理分析上訴步驟中產(chǎn)生的實際例題的三個邏輯分段;如,首先解析第一個邏輯分段“因為等腰三角形ABC底邊是BC,所以AB等于AC(利用的是等腰三角形的性質定理)”,其中“等腰三角形ABC底邊是BC”是條件1,“AB等于AC”是結論I ;“等腰三角形的性質定理”是從條件I到結論I的原因I ;該邏輯分段包括兩個語義單元“等腰三角形ABC底邊是BC”和“AB等于AC”,提取這兩個語義單元中表述概念的詞(“等腰三角形”、“線段”、“點”)以及定理(等腰三角形的性質定理);4、創(chuàng)建本體模型,根據(jù)提取表述概念的詞以及表述概念與概念之間關系的詞以及公理、定理、定義、推論創(chuàng)建類、屬性以及類與類之間的關系;本實施例中類包括“等腰三角形”、“線段”、“點”和“等腰三角形的性質定理”,屬性包括“有端點”、“有邊”、“有頂點”;建立類與類的關系;5、實例化,即對上述的本體模型實例化;如,三角形類的個體有ABC,線段類的個體包括BC、AB、AC,點類的個體包括A、B、C。實例化的三元組關系包括,三角形ABC有邊BC、三角形ABC有邊AC、三角形有邊AB等;6、之后再依次對邏輯分段“因為AD平分BC,所以BC等于⑶(利用的是線段中點性質定理)”和“因為AB等于AC、BD等于⑶和AD等于AD,所以三角形ABD全等于三角形A⑶(全等三角形邊邊邊判定定理)”創(chuàng)建過程本體模型;其中,“AD平分BC”是條件2,“BD等于⑶”是結論2,“線段中點性質定理”是從條件2到結論2的原因2 ;“AB等于AC、BD等于⑶和AD等于AD”是條件11、條件21和條件31,“三角形ABD全等于三角形A⑶”是總結論,“全等三角形邊邊邊判定定理”是從條件11、條件21和條件31到總結論的原因3 ;7、將所有邏輯分段創(chuàng)建完成后,并將整個構建好的過程本體模型RDF三元組的基于XML語言存儲為標準的問題求解過程,并存儲到AG知識庫。當用戶輸入相關題目并提交,搜索系統(tǒng)會基于此過程本體模型,查詢與當前題目語義相似的一系列題目返回給用戶。還可以將本發(fā)明提供的從自然語言文本挖掘領域過程本體的方法應用于平面幾何問題求解,還可將通過該方法建立的過程本體模型模塊嵌入到移動學習平臺(基于ios操作系統(tǒng)的平臺,如iPad),為用戶提供基于移動平臺的智能搜索服務。
權利要求
1.一種從自然語言文本挖掘領域過程本體的方法,其特征在于:包括以下步驟: A、創(chuàng)建過程本體模型,通過解析文本,找出邏輯分段,提取邏輯分段中表述概念的詞、表述概念與概念之間關系的詞以及公理、定理、定義和推論,創(chuàng)建類、屬性以及類與類之間的關系; B、將創(chuàng)建的過程本體模型實例化; C、將上述過程本體模型以及實例化的過程本體模型采用RDF三元組進行表示并存儲到AG知識庫。
2.根據(jù)權利要求1所述的從自然語言文本挖掘領域過程本體的方法,其特征在于:步驟A包括以下分步驟: Al、解析文本,接收領域文本數(shù)據(jù); A2、判斷是否存在邏輯分段,根據(jù)接收的領域文本數(shù)據(jù)判斷是否存在邏輯分段,若存在邏輯分段進入步驟A3 ;若不存在邏輯分段,創(chuàng)建過程文本模型步驟結束; A3、解析邏輯分段,所述邏輯分段由條件、結論以及從條件到結論的原因三部分構成;所述條件或結論中含有 至少一個語義單元;提取語義單元中表述概念的詞以及表述概念與概念之間關系的詞;提取從所述條件到結論的原因;從所述條件到結論的原因包括公理、定理、定義、推論; A4、創(chuàng)建過程本體模型,根據(jù)提取的表述概念的詞,表述概念與概念之間關系詞,以及公理、定理、定義、推論創(chuàng)建類、屬性以及類與類之間的關系。
3.根據(jù)權利要求2所述的從自然語言文本挖掘領域過程本體的方法,其特征在于:所述語義單元是一個主謂結構或主謂賓結構。
4.根據(jù)權利要求2或3所述的從自然語言文本挖掘領域過程文本的方法,其特征在于:若步驟A2根據(jù)接收的領域文本數(shù)據(jù)判斷存在至少兩個邏輯分段,步驟B對上一個邏輯分段創(chuàng)建的過程本體模型實例化之后返回步驟A2,創(chuàng)建下一個邏輯分段的過程本體模型。
5.根據(jù)權利要求4所述的從自然語言文本挖掘過程本體的方法,其特征在于:在前邏輯分段的結論作為在后邏輯分段的條件。
6.根據(jù)權利要求2或3所述的從自然語言文本挖掘過程本體的方法,其特征在于:類由上述表述概念的詞、表述概念與概念之間關系的詞,以及公理、定理、定義、推論構成 ’屬性由構成上述概念的元素的存在和上述結論的存在構成。
7.根據(jù)權利要求1至3任一所述的自然語言文本挖掘過程本體的方法,其特征在于:所述領域文本數(shù)據(jù)對應服務查詢的文本。
8.一種基于上述過程本體模型的智能搜索方法,其特征在于:根據(jù)上述過程本體模型以及接收到的文本數(shù)據(jù)進行語義搜索。
全文摘要
本發(fā)明公開了一種從自然語言文本挖掘領域過程本體的方法,包括以下步驟A、創(chuàng)建過程本體模型;B、將創(chuàng)建的過程本體模型實例化;C、將上述過程本體模型以及實例化的過程本體模型采用RDF三元組進行表示并存儲到AG知識庫。本發(fā)明還公開了一種基于上述過程本體模型的智能搜索方法,根據(jù)上述過程本體模型以及接收到的文本數(shù)據(jù)進行語義搜索。通過本發(fā)明提供的從自然語言文本挖掘領域過程本體的方法可以構建出可自動更新的動態(tài)的過程本體模型,并將構建的過程本體模型存儲到AG知識庫中,便于進行語義搜索。
文檔編號G06F17/27GK103116574SQ20131005619
公開日2013年5月22日 申請日期2013年2月22日 優(yōu)先權日2013年2月22日
發(fā)明者鐘秀琴, 劉忠, 符紅光 申請人:電子科技大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1