專利名稱:一種領(lǐng)域本體構(gòu)建方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息系統(tǒng)建模和知識(shí)工程領(lǐng)域,尤其涉及一種基于本體復(fù)用的領(lǐng)域本體構(gòu)建方法及系統(tǒng)。
背景技術(shù):
湯姆 格魯伯(Tom Gruber)將本體(Ontology)定義為一種為共享而構(gòu)建的概念化的顯式規(guī)范。概念化是指為一個(gè)領(lǐng)域或范圍內(nèi)的抽象概念、具體對(duì)象、對(duì)象屬性及對(duì)象間關(guān)系建立的模型,而本體是將一個(gè)概念化顯式地表示成為規(guī)范,以便多個(gè)主體共享。在本體中,上述概念、關(guān)系等統(tǒng)稱為術(shù)語(Term);本體可以視作由稱作公理(Axiom)的術(shù)語描述組成的集合。尼古拉 高利諾(Nicola Guarino)將本體分為頂層本體、領(lǐng)域本體、任務(wù)本體、 應(yīng)用本體。其中,頂層本體描述通用的概念(如空間、時(shí)間),領(lǐng)域和任務(wù)本體分別描述一般的領(lǐng)域(如單反相機(jī))和一般的任務(wù)(如相機(jī)銷售),而應(yīng)用本體則描述具體應(yīng)用涉及的具體范圍(如一個(gè)具體的單反相機(jī)銷售網(wǎng)站)。其中,頂層本體通常比較穩(wěn)定,應(yīng)用本體的共享意義較小,因此,領(lǐng)域和任務(wù)本體的構(gòu)建最為活躍,其構(gòu)建方法最為重要。
現(xiàn)有的構(gòu)建領(lǐng)域本體的方法可以分為兩類:手工構(gòu)建和半自動(dòng)構(gòu)建。手工構(gòu)建以本體描述捕獲方法(IDEF5, Integrated Definition for Ontology Description Capture Method)為代表,將本體構(gòu)建的過程分為目標(biāo)和團(tuán)隊(duì)建立、原始素材采集、素材分析、本體初步構(gòu)建、本體精化和驗(yàn)證等5個(gè)步驟,每一步都由人手工完成。半自動(dòng)構(gòu)建又稱本體學(xué)習(xí), 由計(jì)算機(jī)程序自動(dòng)地從文本中抽取出表示概念、概念間關(guān)系等的術(shù)語,形成初步的本體,再經(jīng)過人手工精化和驗(yàn)證。然而,目前計(jì)算機(jī)程序自動(dòng)構(gòu)建的初步本體在質(zhì)量上通常很差,并不能有效降低對(duì)人工的依賴,因此手工構(gòu)建仍是主流方法。
在手工構(gòu)建領(lǐng)域本體時(shí),一種提高效率的方式是復(fù)用現(xiàn)有本體,即針對(duì)新的需求對(duì)一個(gè)相同或相近領(lǐng)域的現(xiàn)有本體加以改造,成為一個(gè)新的本體,從而比重新開發(fā)節(jié)約成本。然而,從大量的現(xiàn)有本體中發(fā)現(xiàn)適合復(fù)用的本體手段非常匱乏。目前的一種主要途徑是逐一瀏覽在線的本體圖書館(如美國(guó)國(guó)防部先進(jìn)研究項(xiàng)目距代理標(biāo)記語言(DAML,DefenSe Advanced Research Projects Agency Agent Markup Language)本體圖書館)中的本體, 效率低下。另一種新興的途徑是進(jìn)行本體檢索,向本體檢索系統(tǒng)(如Swoogle搜索引擎) 提交查詢關(guān)鍵詞,獲取并只瀏覽能夠匹配到查詢關(guān)鍵詞的本體,從而提聞效率。然而,尚未形成良好定義的方法來指導(dǎo)上述檢索過程,特別是查詢的構(gòu)建方法。另一種加速手工構(gòu)建領(lǐng)域本體的方式是多人協(xié)同構(gòu)建,這種方式的難點(diǎn)在于多人構(gòu)建結(jié)果的沖突檢查和消解。
盡管領(lǐng)域本體作為概念層次的模型,已經(jīng)脫離了自然語言的層面,但在供人使用時(shí)仍需要對(duì)術(shù)語采用自然語言中的詞匯進(jìn)行命名,以便人的理解,因此,術(shù)語名稱也是領(lǐng)域本體的重要組成部分。由于自然語言的多樣性,一個(gè)術(shù)語可能對(duì)應(yīng)到多個(gè)同義的自然語言詞匯(如單反相機(jī)和單鏡頭反光相機(jī)),因此,領(lǐng)域本體構(gòu)建中的一項(xiàng)重要環(huán)節(jié)是盡可能完全地獲取術(shù)語名稱的所有同義詞。
現(xiàn)有的同義詞獲取方 法主要是利用語言學(xué)專家構(gòu)建的同義詞詞典(如WordNet)。盡管同義詞詞典的精度很高,但覆蓋面有限,并且目前可以獲得的計(jì)算機(jī)程序易處理的同 義詞詞典很少,其中,中文的同義詞詞典更少,因此,領(lǐng)域本體構(gòu)建中的中文術(shù)語名稱的同 義詞獲取非常困難,通常只能基于構(gòu)建者(即領(lǐng)域?qū)<?的經(jīng)驗(yàn)完成,難以保證質(zhì)量,特別 是獲取的召回率(即完全度)。
另一種同義詞獲取方法是利用社會(huì)公眾的群體智能,這種方法利用了搜索引擎的 用戶查詢?nèi)罩?,其基本思想是認(rèn)為如果兩個(gè)關(guān)鍵詞常在用戶查詢中出現(xiàn),且用戶常打開它 們對(duì)應(yīng)的查詢結(jié)果中的相同網(wǎng)頁,則這兩個(gè)關(guān)鍵詞被認(rèn)為是同義詞。該方法存在的不足主 要在于獲取同義詞的精度(即正確率)很低。原因在于一個(gè)網(wǎng)頁可能涉及多個(gè)不同的主 題,分別對(duì)應(yīng)到不存在同義關(guān)系的多個(gè)關(guān)鍵詞,因此,即使用戶基于不同的查詢關(guān)鍵詞打開 了相同的網(wǎng)頁,也并不表明這些關(guān)鍵詞必然存在同義關(guān)系。發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種領(lǐng)域本體構(gòu)建方法及系統(tǒng),提供一種 面向本例檢索的關(guān)鍵詞查詢的構(gòu)建方法,具有良好的定義和可操作性,可取得較高的本體復(fù)用率。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:
本發(fā)明提供一種領(lǐng)域本體構(gòu)建方法,包括:
羅列需要被目標(biāo)本體描述的所有術(shù)語的名稱,形成關(guān)鍵詞集合Wtl ;
對(duì)關(guān)鍵詞集合Wtl中的所有關(guān)鍵詞進(jìn)行排序,形成關(guān)鍵詞序列Stl ;
創(chuàng)建待復(fù)用的本體集合0,將從關(guān)鍵詞序列Sci中抽取的連續(xù)子序列中的所有關(guān)鍵 詞提交到本體檢索系統(tǒng),將檢索結(jié)果中排名最高的本體添加到本體集合O ;
對(duì)本體集合O中的所有本體進(jìn)行集合的并操作處理,形成新的本體O。
上述方法中,該方法還包括:為新的本體O中描述的術(shù)語命名,并根據(jù)新的本體O 中描述的術(shù)語的名稱進(jìn)行同義詞獲取。
上述方法中,所述羅列需要被目標(biāo)本體描述的所有術(shù)語的名稱,形成關(guān)鍵詞集合 W0為:
對(duì)于目標(biāo)本體所描述的目標(biāo)領(lǐng)域,使用自然語言Ls中的關(guān)鍵詞羅列需要被目標(biāo)本 體所描述的所有術(shù)語的名稱,形成一個(gè)關(guān)鍵詞集合
上述方法中,所述對(duì)關(guān)鍵詞集合Wtl中的所有關(guān)鍵詞進(jìn)行排序,形成關(guān)鍵詞序列Stl 為:
建立樹,樹中每個(gè)節(jié)點(diǎn)具有標(biāo)簽和處理標(biāo)記;
判斷樹中是否所有節(jié)點(diǎn)的處理標(biāo)記都是“已處理”,如果否,從樹中所有處理標(biāo)記 是“未處理”的節(jié)點(diǎn)中選取當(dāng)前節(jié)點(diǎn),所述當(dāng)前節(jié)點(diǎn)的標(biāo)簽的關(guān)鍵詞集合Wtl為當(dāng)前集合;
判斷當(dāng)前集合中是否只包含一個(gè)關(guān)鍵詞,當(dāng)前集合包含超過一個(gè)關(guān)鍵詞時(shí),將當(dāng) 前集合劃分為兩個(gè)子集,將兩個(gè)子集中的最重要子集I作為當(dāng)前節(jié)點(diǎn)的左子節(jié)點(diǎn)添加到樹 中,將兩個(gè)子集中的另一個(gè)子集Wk作為當(dāng)前節(jié)點(diǎn)的右子節(jié)點(diǎn)添加到樹中,將當(dāng)前節(jié)點(diǎn)的處 理標(biāo)記改為“已處理”;否則,將當(dāng)前節(jié)點(diǎn)的處理標(biāo)記改為“已處理”,然后繼續(xù)判斷樹中是否 所有節(jié)點(diǎn)的處理標(biāo)記都是“已處理”,直到樹中所有節(jié)點(diǎn)的處理標(biāo)記都是“已處理”時(shí),根據(jù) 關(guān)鍵詞集合Wtl中的所有關(guān)鍵詞所對(duì)應(yīng)的節(jié)點(diǎn)的深度優(yōu)先遍歷順序,形成關(guān)鍵詞序列
上述方法中,所述將當(dāng)前集合劃分為兩個(gè)子集為:
將當(dāng)前集合中的關(guān)鍵詞作為對(duì)一個(gè)領(lǐng)域或范圍的描述,將兩個(gè)子集中的關(guān)鍵詞分 別作為對(duì)該領(lǐng)域或范圍的兩個(gè)不同子領(lǐng)域或子范圍的描述。
上述方法中,所述將從關(guān)鍵詞序列Stl中抽取的連續(xù)子序列中的所有關(guān)鍵詞提交到 本體檢索系統(tǒng),將檢索結(jié)果中排名最高的本體添加到本體集合O為:
創(chuàng)建待復(fù)用的本體集合0,將關(guān)鍵詞序列Stl記作S,獲取S中的滿足條件的前綴連 續(xù)子序列中最長(zhǎng)的一個(gè)子序列Sh,將Sh從S的前端截去,得到剩余的后綴連續(xù)子序列St ;
判斷Sh是否為空序列,如果Sh為空序列,從St中刪除最前面的一個(gè)關(guān)鍵詞;如果 Sh不為空序列,將檢索結(jié)果HITS(Sh)中排名最高的本體添加到O ;
判斷St是否為空序列,如果St不為空序列,將St記作S,再獲取S的滿足條件的ill 綴連續(xù)子序列中最長(zhǎng)的一個(gè)子序列Sh,將Sh從S的前端截去,得到剩余的后綴連續(xù)子序列 St ;否則,如果St為空序列,流程結(jié)束。
上述方法中,所述條件為子序列中的所有關(guān)鍵詞組合成一個(gè)查詢關(guān)鍵詞組,將所 述查詢關(guān)鍵詞組提交到本體檢索系統(tǒng)后,檢索結(jié)果HITS(Sh)不為空。
上述方法中,所述對(duì)本體集合O中的所有本體進(jìn)行集合的并操作處理,形成新的 本體ο為:
對(duì)本體集合O中的所有本體進(jìn)行集合的并操作處理,形成一個(gè)新的本體O ;并根據(jù) 描述目標(biāo)領(lǐng)域的需求對(duì)新的本體ο進(jìn)行編輯處理;
所述編輯處理至少包括增加術(shù)語和公理、刪除術(shù)語和公理、修改術(shù)語和公理。
上述方法中,所述為新的本體O中描述的術(shù)語命名為:對(duì)新的本體O中描述的每一 個(gè)術(shù)語用一個(gè)Ls中的詞匯命名。
上述方法中,所述根據(jù)新的本體O中描述的術(shù)語的名稱進(jìn)行同義詞獲取為:
針對(duì)新的本體ο中描述的每一個(gè)術(shù)語的名稱t,創(chuàng)建三個(gè)關(guān)鍵詞集合SYN、TRANS, TS ;
將t提交到從Ls到另一種自然語言Lt的翻譯系統(tǒng),將翻譯結(jié)果中的所有關(guān)鍵詞添 加到集合TRANS ;
根據(jù)集合TRANS中的每一個(gè)關(guān)鍵詞trans,從Lt的同義詞詞典中獲取的trans的 所有同義詞,將獲取到的所有同義詞添加到集合TS;
將集合TS中的所有關(guān)鍵詞添加到集合TRANS,并根據(jù)集合TRANS中的每一個(gè)關(guān)鍵 詞trans’,將trans’提交到由Lt到Ls的翻譯系統(tǒng),將翻譯結(jié)果中的所有關(guān)鍵詞添加到集 合 SYN;
從集合SYN中刪除所有不適合作為t的同義詞的關(guān)鍵詞,SYN中剩余的所有關(guān)鍵 詞作為獲取到的t的同義詞。
本發(fā)明還提供一種領(lǐng)域本體構(gòu)建系統(tǒng),包括:羅列單元、排序單元、添加單元、并操 作處理單元;其中,
羅列單元,用于羅列需要被目標(biāo)本體描述的所有術(shù)語的名稱,形成關(guān)鍵詞集合Wtl ;
排序單兀,用于對(duì)關(guān)鍵詞集合Wtl中的所有關(guān)鍵詞進(jìn)行排序,形成關(guān)鍵詞序列Stl ;
添加單元,用于創(chuàng)建待復(fù)用的本體集合0,將從關(guān)鍵詞序列Stl中抽取的連續(xù)子序列 中的所有關(guān)鍵詞提交到本體檢索系統(tǒng),將檢索結(jié)果中排名最高的本體添加到本體集合O;
并操作處理單元,用于對(duì)本體集合O中的所有本體進(jìn)行集合的并操作處理,形成 新的本體O。
上述系統(tǒng)中,該系統(tǒng)還包括:
命名單元,用于為新的本體O中描述的術(shù)語命名;
獲取單元,用于根據(jù)新的本體O中描述的術(shù)語的名稱進(jìn)行同義詞獲取。
本發(fā)明提供的領(lǐng)域本體構(gòu)建方法及系統(tǒng),羅列需要被目標(biāo)本體描述的所有術(shù)語的 名稱,形成關(guān)鍵詞集合Wtl ;對(duì)關(guān)鍵詞集合Wtl中的所有關(guān)鍵詞進(jìn)行排序,形成關(guān)鍵詞序列Stl ; 創(chuàng)建待復(fù)用的本體集合0,將從關(guān)鍵詞序列Stl中抽取的連續(xù)子序列中的所有關(guān)鍵詞提交到 本體檢索系統(tǒng),將檢索結(jié)果中排名最高的本體添加到本體集合O ;對(duì)本體集合O中的所有本 體進(jìn)行集合的并操作處理,形成新的本體O,因此提供了一種面向本例檢索的關(guān)鍵詞查詢的 構(gòu)建方法,達(dá)到了檢索較少本體就能夠覆蓋較多重要關(guān)鍵詞的效果,具有良好的定義和可 操作性,可取得較高的本體復(fù)用率;此外,基于上述方法,本發(fā)明還可以為新的本體O中描 述的術(shù)語命名,并根據(jù)新的本體ο中描述的術(shù)語的名稱進(jìn)行同義詞獲取,因此提供了一種 同義詞獲取方法,通過自然語言中的同義詞詞典,達(dá)到適用范圍廣泛,可取得較高的精度和 召回率的效果。
圖1是本發(fā)明實(shí)現(xiàn)領(lǐng)域本體構(gòu)建方法的流程示意圖2是本發(fā)明實(shí)現(xiàn)步驟102的具體方法的流程示意圖3是本發(fā)明實(shí)現(xiàn)步驟102的具體方法的實(shí)施例一的流程示意圖4是本發(fā)明中二叉樹數(shù)據(jù)結(jié)構(gòu)的示例圖5是本發(fā)明實(shí)現(xiàn)步驟103的具體方法的流程示意圖6是本發(fā)明實(shí)現(xiàn)步驟103的具體方法的實(shí)施例一的流程示意圖7是本發(fā)明實(shí)現(xiàn)步驟106的具體方法的流程示意圖8是本發(fā)明實(shí)現(xiàn)領(lǐng)域本體構(gòu)建系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
本發(fā)明的基本思想是:羅列需要被目標(biāo)本體描述的所有術(shù)語的名稱,形成關(guān)鍵詞 集合Wtl ;對(duì)關(guān)鍵詞集合Wci中的所有關(guān)鍵詞進(jìn)行排序,形成關(guān)鍵詞序列Sci ;創(chuàng)建待復(fù)用的本體 集合O,將從關(guān)鍵詞序列Stl中抽取的連續(xù)子序列中的所有關(guān)鍵詞提交到本體檢索系統(tǒng),將檢 索結(jié)果中排名最高的本體添加到本體集合O ;對(duì)本體集合O中的所有本體進(jìn)行集合的并操 作處理,形成新的本體O。
下面通過附圖及具體實(shí)施例對(duì)本發(fā)明再做進(jìn)一步的詳細(xì)說明。
本發(fā)明提供一種領(lǐng)域本體構(gòu)建方法,圖1是本發(fā)明實(shí)現(xiàn)領(lǐng)域本體構(gòu)建方法的流程 示意圖,如圖1所示,該方法包括以下步驟:
步驟101,羅列需要被目標(biāo)本體描述的所有術(shù)語的名稱,形成關(guān)鍵詞集合W。;
具體的,對(duì)于待構(gòu)建的本體(稱作目標(biāo)本體)所描述的領(lǐng)域(稱作目標(biāo)領(lǐng)域),例 如單反相機(jī)領(lǐng)域,使用自然語言Ls中的關(guān)鍵詞羅列需要被目標(biāo)本體所描述的所有術(shù)語的名 稱,形成一個(gè)關(guān)鍵詞集合Wtl,例如Ls =中文,Wtl = { “鏡頭”,“像素”,“光圈”,“焦距”,“傳感器”}。
步驟102,對(duì)關(guān)鍵詞集合Wtl中的所有關(guān)鍵詞進(jìn)行排序,形成關(guān)鍵詞序列Su。
步驟103,創(chuàng)建待復(fù)用的本體集合0,從關(guān)鍵詞序列Stl中抽取連續(xù)子序列,并將子 序列中的所有關(guān)鍵詞提交到本體檢索系統(tǒng),將檢索結(jié)果中排名最高的本體添加到本體集合O0
步驟104,對(duì)本體集合O中的所有本體進(jìn)行集合的并操作處理,形成新的本體ο ;
具體的,對(duì)O中的所有本體(即O1和02,每個(gè)本體視為一個(gè)公理的集合)進(jìn)行集 合的并操作處理,形成一個(gè)新的本體ο ;并根據(jù)描述目標(biāo)領(lǐng)域(例如單反相機(jī)領(lǐng)域)的需求 對(duì)新的本體ο進(jìn)行編輯處理,編輯處理包括增加術(shù)語和公理、刪除術(shù)語和公理、修改術(shù)語和公理等。
步驟105,為新的本體ο中描述的術(shù)語命名;
具體的,對(duì)新的本體O中描述的每一個(gè)術(shù)語用一個(gè)Ls中的詞匯命名,例如新的本 體O中一個(gè)術(shù)語的名稱為“鏡頭”。
步驟106,根據(jù)新的本體O中描述的術(shù)語的名稱進(jìn)行同義詞獲取。
圖2是本發(fā)明實(shí)現(xiàn)步驟102的具體方法的流程示意圖,如圖2所示,該方法包括以 下步驟:
步驟201,建立樹,樹中每個(gè)節(jié)點(diǎn)具有標(biāo)簽和處理標(biāo)記;
具體的,建立一棵二叉樹數(shù)據(jù)結(jié)構(gòu)(稱作樹),樹中的每個(gè)節(jié)點(diǎn)都附帶一個(gè)標(biāo)簽和 一個(gè)處理標(biāo)記;初始時(shí),樹中僅包含一個(gè)節(jié)點(diǎn),其附帶的標(biāo)簽是Wtl,附帶的處理標(biāo)記是“未處理”。
步驟202,判斷樹中是否所有節(jié)點(diǎn)的處理標(biāo)記都是“已處理”,如果樹中所有節(jié)點(diǎn)的 處理標(biāo)記都是“已處理”,執(zhí)行步驟207 ;否則,執(zhí)行步驟203。
步驟203,從樹中所有處理標(biāo)記是“未處理”的節(jié)點(diǎn)中任取一個(gè)節(jié)點(diǎn),該節(jié)點(diǎn)為當(dāng)前 節(jié)點(diǎn),當(dāng)前節(jié)點(diǎn)的標(biāo)簽的關(guān)鍵詞集合Wtl為當(dāng)前集合。
步驟204,判斷當(dāng)前集合中是否只包含一個(gè)關(guān)鍵詞,如果當(dāng)前集合只包含一個(gè)關(guān)鍵 詞,執(zhí)行步驟206 ;否則,執(zhí)行步驟205。
步驟205,將當(dāng)前集合劃分為兩個(gè)子集,將兩個(gè)子集中的最重要子集I作為當(dāng)前節(jié) 點(diǎn)的左子節(jié)點(diǎn)添加到樹中,將兩個(gè)子集中的另一個(gè)子集Wk作為當(dāng)前節(jié)點(diǎn)的右子節(jié)點(diǎn)添加到 樹中;
具體的,將當(dāng)前集合劃分為兩個(gè)子集,其中劃分的原則是:將當(dāng)前集合中的關(guān)鍵詞 作為對(duì)一個(gè)領(lǐng)域或范圍的描述,將兩個(gè)子集中的關(guān)鍵詞分別作為對(duì)該領(lǐng)域或范圍的兩個(gè)不 同子領(lǐng)域或子范圍的描述;
評(píng)價(jià)上述兩個(gè)子集對(duì)于描述目標(biāo)領(lǐng)域的重要性,兩個(gè)子集中的最重要的子集I作 為當(dāng)前節(jié)點(diǎn)的左子節(jié)點(diǎn)添加到樹中,該最重要的子集I的標(biāo)簽是I,該最重要的子集I的 處理標(biāo)記是“未處理”;兩個(gè)子集中的另一個(gè)子集Wk作為當(dāng)前節(jié)點(diǎn)的右子節(jié)點(diǎn)添加到樹中, 該子集的標(biāo)簽是WK,子集Wk的處理標(biāo)記是“未處理”。
步驟206,將當(dāng)前節(jié)點(diǎn)的處理標(biāo)記改為“已處理”,然后執(zhí)行步驟202。
步驟207,對(duì)于關(guān)鍵詞集合Wtl中的每個(gè)關(guān)鍵詞W,都可以對(duì)應(yīng)到樹中滿足條件的一 個(gè)節(jié)點(diǎn),所述條件為:作為節(jié)點(diǎn)的標(biāo)簽的關(guān)鍵詞集合包含且只包含w ;基于Wtl中的關(guān)鍵詞與樹中節(jié)點(diǎn)的標(biāo)簽的對(duì)應(yīng)關(guān)系,根據(jù)Wtl中的所有關(guān)鍵詞所對(duì)應(yīng)的節(jié)點(diǎn)的深度優(yōu)先遍歷順序, 形成一個(gè)關(guān)鍵詞序列S。。
圖3是本發(fā)明實(shí)現(xiàn)步驟102的具體方法的實(shí)施例一的流程示意圖,如圖3所示,該 方法包括以下步驟:
步驟301,建立樹,樹中每個(gè)節(jié)點(diǎn)具有標(biāo)簽和處理標(biāo)記;
具體的,建立一棵二叉樹數(shù)據(jù)結(jié)構(gòu)(稱作樹),樹中的每個(gè)節(jié)點(diǎn)都附帶一個(gè)標(biāo)簽和 一個(gè)處理標(biāo)記;初始時(shí),樹中僅包含一個(gè)節(jié)點(diǎn),例如圖4中的節(jié)點(diǎn)A,附帶的標(biāo)簽是Wci, W0 = { “鏡頭”,“像素”,“光圈”,“焦距”,“傳感器” },附帶的處理標(biāo)記是“未處理”。
步驟302,從樹中所有處理標(biāo)記是“未處理”的節(jié)點(diǎn)中選取當(dāng)前節(jié)點(diǎn),所述當(dāng)前節(jié)點(diǎn) 的標(biāo)簽的關(guān)鍵詞集合為當(dāng)前集合;
具體的,由于樹中存在處理標(biāo)記是“未處理”的節(jié)點(diǎn),因此從樹中所有處理標(biāo)記是 “未處理”的節(jié)點(diǎn)中隨機(jī)選取一個(gè)節(jié)點(diǎn),稱該節(jié)點(diǎn)為當(dāng)前節(jié)點(diǎn),該當(dāng)前節(jié)點(diǎn)的標(biāo)簽的關(guān)鍵詞 集合稱為當(dāng)前集合;例如圖4中的節(jié)點(diǎn)A,當(dāng)前集合為{ “鏡頭”,“像素”,“光圈”,“焦距”,“傳感器”}。
步驟303,如果當(dāng)前集合包含超過一個(gè)關(guān)鍵詞,則將當(dāng)前集合劃分為兩個(gè)子集;例 如子集{ “像素”,“傳感器” }和子集{ “鏡頭”,“光圈”,“焦距”}。
步驟304,將兩個(gè)子集中的最重要子集I作為當(dāng)前節(jié)點(diǎn)的左子節(jié)點(diǎn)添加到樹中,將 兩個(gè)子集中的另一個(gè)子集Wk作為當(dāng)前節(jié)點(diǎn)的右子節(jié)點(diǎn)添加到樹中;
具體的,評(píng)價(jià)上述兩個(gè)子集對(duì)于描述目標(biāo)領(lǐng)域(例如單反相機(jī)領(lǐng)域)的重要性,兩 個(gè)子集中的最重要的子集I,例如I= { “像素”,“傳感器”},作為當(dāng)前節(jié)點(diǎn)(如圖4所示 的節(jié)點(diǎn)A)的左子節(jié)點(diǎn)(如圖4所示的節(jié)點(diǎn)B)添加到樹中,該最重要的子集I的標(biāo)簽是I, Wl= { “像素”,“傳感器”},該最重要的子集I的處理標(biāo)記是“未處理”;兩個(gè)子集中的另一 個(gè)子集Wk,例如Wk= { “鏡頭”,“光圈”,“焦距”},作為當(dāng)前節(jié)點(diǎn)(如圖4所示的節(jié)點(diǎn)A)的 右子節(jié)點(diǎn)(如圖4所示的節(jié)點(diǎn)C)添加到樹中,該子集的標(biāo)簽是WK,Wk= { “鏡頭”,“光圈”, “焦距” },子集Wk的處理標(biāo)記是“未處理”。
步驟305,將當(dāng)前節(jié)點(diǎn)(如圖4所示的節(jié)點(diǎn)A)的處理標(biāo)記改為“已處理”;以此類 推,例如圖4所示,依次將節(jié)點(diǎn)D、E、F、G、H、I添加到樹中,在此添加過程中,節(jié)點(diǎn)B、C的處 理標(biāo)記已改為“已處理”。
步驟306,如果樹中仍然存在處理標(biāo)記是“未處理”的節(jié)點(diǎn),則從樹中所有處理標(biāo)記 是“未處理”的節(jié)點(diǎn)中隨機(jī)選取一個(gè)節(jié)點(diǎn),稱該節(jié)點(diǎn)為當(dāng)前節(jié)點(diǎn),該當(dāng)前節(jié)點(diǎn)的標(biāo)簽的關(guān)鍵 詞集合稱為當(dāng)前集合;例如圖4中的節(jié)點(diǎn)D,當(dāng)前集合為{ “傳感器”}。
步驟307,如果當(dāng)前集合只包含一個(gè)關(guān)鍵詞,則將當(dāng)前節(jié)點(diǎn)(例如圖4中的節(jié)點(diǎn)D) 的處理標(biāo)記改為“已處理”,以此類推,將點(diǎn)E、F、H、I的處理標(biāo)記改為“已處理”。
步驟308,樹中所有節(jié)點(diǎn)的處理標(biāo)記都是“已處理”時(shí),根據(jù)關(guān)鍵詞集合W。中的所 有關(guān)鍵詞所對(duì)應(yīng)的節(jié)點(diǎn)的深度優(yōu)先遍歷順序,形成關(guān)鍵詞序列Stl ;
具體的,如果樹中所有節(jié)點(diǎn)的處理標(biāo)記都是“已處理”,則基于Wtl中的關(guān)鍵詞與樹 中節(jié)點(diǎn)的標(biāo)簽的對(duì)應(yīng)關(guān)系,例如“鏡頭”對(duì)應(yīng)節(jié)點(diǎn)F的標(biāo)簽、“像素”對(duì)應(yīng)節(jié)點(diǎn)E的標(biāo)簽、“光 圈”對(duì)應(yīng)節(jié)點(diǎn)I的標(biāo)簽、“焦距”對(duì)應(yīng)節(jié)點(diǎn)H的標(biāo)簽、“傳感器”對(duì)應(yīng)節(jié)點(diǎn)D的標(biāo)簽,根據(jù)Wtl中 的所有關(guān)鍵詞所對(duì)應(yīng)的節(jié)點(diǎn)的深度優(yōu)先遍歷順序(例如圖4所示中的節(jié)點(diǎn)D、E、F、H、I),對(duì)W0中的所有關(guān)鍵詞進(jìn)行排序,形成一個(gè)關(guān)鍵詞序列Stl,即Stl =〈 “傳感器”,“像素”,“鏡頭”,“焦距”,“光圈”〉。
圖5是本發(fā)明實(shí)現(xiàn)步驟103的具體方法的流程示意圖,如圖5所示,該方法包括以 下步驟:
步驟501,創(chuàng)建一個(gè)待復(fù)用的本體集合0,初始時(shí)O為空集。
步驟502,將關(guān)鍵詞序列S。記作S。
步驟503,獲取S的滿足條件的前綴連續(xù)子序列中最長(zhǎng)的一個(gè)子序列Sh,所述條件 為該子序列中的所有關(guān)鍵詞組合成一個(gè)查詢關(guān)鍵詞組后,將該查詢關(guān)鍵詞組提交到本體檢 索系統(tǒng)后,檢索結(jié)果不為空(Sh對(duì)應(yīng)的檢索結(jié)果記作HITS(Sh));并將Sh WS的前端截去,得 到剩余的后綴連續(xù)子序列St。
步驟504,判斷Sh是否為空序列,如果ShS空序列(即步驟503中S中不存在滿 足條件的前綴連續(xù)子序列),則從St中刪除最前面的一個(gè)關(guān)鍵詞;否則,將HITS (Sh)中排名 最高的本體添加到O。
步驟505,判斷St是否為空序列,如果St不為空序列(即步驟503中Sh是S的子 序列),將St記作S,再執(zhí)行步驟503 ;否則,流程結(jié)束。
圖6是本發(fā)明實(shí)現(xiàn)步驟103的具體方法的實(shí)施例一的流程示意圖,如圖6所示,該 方法包括以下步驟:
步驟601,創(chuàng)建一個(gè)待復(fù)用的本體集合0,初始時(shí)O為空集。
步驟602,將關(guān)鍵詞序列S0記作S,即S =〈 “傳感器”,“像素”,“鏡頭”,)“焦距”,“光圈”〉。
步驟603,獲取S中的滿足條件的前綴連續(xù)子序列中最長(zhǎng)的一個(gè)子序列SH,將Sh從 S的前端截去,得到剩余的后綴連續(xù)子序列St ;
具體的,獲取S中的滿足下述條件的前綴連續(xù)子序列中最長(zhǎng)的一個(gè)子序列SH, 其中,所述條件為該子序列中的所有關(guān)鍵詞組合成一個(gè)查詢關(guān)鍵詞組后,將該查詢關(guān)鍵 詞組提交到本體檢索系統(tǒng)(例如Swoogle)后,檢索結(jié)果不為空(Sh對(duì)應(yīng)的檢索結(jié)果記作 HITS(Sh));
例如“傳感器像素鏡頭焦距光圈”、“傳感器像素鏡頭焦距”、“傳感器像素鏡頭”分 別提交到Swoogle后,檢索結(jié)果均為空,而“傳感器像素”提交到Swoogle后,檢索結(jié)果不為 空,則Sh =〈 “傳感器”,“像素”〉;將Sh從S的前端截去,則剩余的后綴連續(xù)子序列記作ST, St =〈 “鏡頭”,“焦距”,“光圈”〉。
步驟604,由于Sh不為空序列,因此將檢索結(jié)果HITS (Sh)中排名最高的本體O1添 加到本體集合O。
步驟605,由于St不為空序列,因此將剩余的后綴連續(xù)子序列St記作S。
步驟606,獲取S中的滿足條件的前綴連續(xù)子序列中最長(zhǎng)的一個(gè)子序列SH,將Sh從 S的前端截去,得到剩余的后綴連續(xù)子序列St ;
具體的,獲取S中的滿足下述條件的前綴連續(xù)子序列中最長(zhǎng)的一個(gè)子序列SH, 其中,所述條件為該子序列中的所有關(guān)鍵詞組合成一個(gè)查詢關(guān)鍵詞組后,將該查詢關(guān)鍵 詞組提交到本體檢索系統(tǒng)(例如Swoogle)后,檢索結(jié)果不為空(Sh對(duì)應(yīng)的檢索結(jié)果記作 HITS(Sh));
例如“鏡頭焦距光圈”、“鏡頭焦距”、“鏡頭”分別提交到Swoogle后,檢索結(jié)果均為空,則Sh為空序列,將Sh從S的前端截去,則剩余的后綴連續(xù)子序列記作ST,St =〈“鏡頭”, “焦距”,“光圈”〉。
步驟607,由于Sh為空序列,因此從St中刪除最前面的一個(gè)關(guān)鍵詞,例如“鏡頭”, 則得到St =〈 “焦距”,“光圈”〉。
步驟608,因?yàn)镾t不為空序列,將St記作S。
步驟609,獲取S中的滿足條件的前綴連續(xù)子序列中最長(zhǎng)的一個(gè)子序列SH,將Sh從 S的前端截去,得到剩余的后綴連續(xù)子序列St ;
具體的,獲取S中的滿足下述條件的前綴連續(xù)子序列中最長(zhǎng)的一個(gè)子序列SH, 其中,所述條件為該子序列中的所有關(guān)鍵詞組合成一個(gè)查詢關(guān)鍵詞組后,將該查詢關(guān)鍵詞組提交到本體檢索系統(tǒng)(例如Swoogle)后,檢索結(jié)果不為空(Sh對(duì)應(yīng)的檢索結(jié)果記作 HITS(Sh));
例如,“焦距光圈”提交到Swoogle后,檢索結(jié)果不為空,因此Sh =〈 “焦距”,“光圈”〉,將Sh從S的前端截去,則剩余的后綴連續(xù)子序列記作St,St為空序列。
步驟610,因?yàn)镾h不為空序列,則將HITS(Sh)中排名最高的本體O2添加到本體集合O。
步驟611,因?yàn)镾tS空序列,則最終本體結(jié)合O = 11, o2}。
圖7是本發(fā)明實(shí)現(xiàn)步驟106的具體方法的流程示意圖,如圖7所示,該方法包括以下步驟:
步驟701,針對(duì)新的本體O中描述的每一個(gè)術(shù)語的名稱t,例如t=“鏡頭”,創(chuàng)建三個(gè)關(guān)鍵詞集合,分別記作SYN、TRANS, TS,初始時(shí)SYN、TRANS, TS均為空集。
步驟702,將t (例如“鏡頭”)提交到從Ls到另一種自然語言Lt的翻譯系統(tǒng),例如Lt =英文,翻譯系統(tǒng)為Google Translate,將翻譯結(jié)果中的所有關(guān)鍵詞,例如“shot'“camera lens'“camera shot”,添加到集合 TRANS,即 TRANS = { “shot”, camera Iens^, ^ camera shot”}。
步驟703,根據(jù)集合TRANS中的每一個(gè)關(guān)鍵詞trans,例如trans = “camera lens”,從Lt的同義詞詞典(例如WordNet)中獲取的trans (例如“camera lens”)的所有同義詞,例如“optical lens”,將獲取到的所有同義詞添加到集合TS,以此類推,例如 “shot”的同義詞包括“guess”、“snap”,“camera shot”沒有同義詞,則集合 TS = {“guess”, “snap”,“optical lens,,}。
步驟704,將集合TS中的所有關(guān)鍵詞添加到集合TRANS,則集合TRANS = {“shot”, “camera lens,,,“camera shot,,,“guess,,,“snap,,,“optical lens,,}。
步驟705,根據(jù)集合TRANS中的每一個(gè)關(guān)鍵詞trans’,例如trans’ = “optical lens”,將trans’(例如“optical lens”)提交到由Lt(即英文)到Ls(即中文)的翻譯系統(tǒng)(例如Google Translate),將翻譯結(jié)果中的所有關(guān)鍵詞,例如“光學(xué)鏡頭”,添加到集合 SYN,以此類推,例如“shot”的翻譯結(jié)果包括“射擊”、“鏡頭”、“劑量”,“camera lens”的翻譯結(jié)果包括“鏡頭”,"camera shot”的翻譯結(jié)果包括“鏡頭”,“guess”的翻譯結(jié)果包括“猜測(cè)”、“推測(cè)”,“snap”的翻譯結(jié)果包括“單元”、“亂射”,則集合SYN = { “射擊”,“鏡頭”,“劑量”,“猜測(cè)”,“推測(cè)”,“單元”,“ 亂射”,“光學(xué)鏡頭” }。
步驟706,可選的,為了提高同義詞獲取結(jié)果的準(zhǔn)確度,還可以從集合SYN中刪除 所有不適合作為t (例如“鏡頭”)的同義詞的關(guān)鍵詞(包括t自身,例如“鏡頭”),例如“射 擊”、“鏡頭”、“劑量”、“猜測(cè)”、“推測(cè)”、“單元”、“亂射”都不適合作為t的同義詞的關(guān)鍵詞, 則SYN中剩余的所有關(guān)鍵詞,例如“光學(xué)鏡頭”,作為獲取到的t (例如“鏡頭”)的同義詞; 其中,不適合作為t的同義詞的關(guān)鍵詞指的是當(dāng)前領(lǐng)域內(nèi)不能互相替代的關(guān)鍵詞,當(dāng)前領(lǐng) 域內(nèi)可以互相替代的關(guān)鍵詞就適合作為t的同義詞的關(guān)鍵詞。
為實(shí)現(xiàn)上述方法,本發(fā)明還提供一種領(lǐng)域本體構(gòu)建系統(tǒng),圖8是本發(fā)明實(shí)現(xiàn)領(lǐng)域 本體構(gòu)建系統(tǒng)的結(jié)構(gòu)示意圖,如圖8所示,該系統(tǒng)包括:羅列單元81、排序單元82、添加單元 83、并操作處理單元84 ;其中,
羅列單元81,用于羅列需要被目標(biāo)本體描述的所有術(shù)語的名稱,形成關(guān)鍵詞集合 W0;
排序單兀82,用于對(duì)關(guān)鍵詞集合Wtl中的所有關(guān)鍵詞進(jìn)行排序,形成關(guān)鍵詞序列 S0;
添加單元83,用于創(chuàng)建待復(fù)用的本體集合0,將從關(guān)鍵詞序列Stl中抽取的連續(xù)子 序列中的所有關(guān)鍵詞提交到本體檢索系統(tǒng),將檢索結(jié)果中排名最高的本體添加到本體集合 O;
并操作處理單元84,用于對(duì)本體集合O中的所有本體進(jìn)行集合的并操作處理,形 成新的本體O。
該系統(tǒng)還包括:
命名單元85,用于為新的本體O中描述的術(shù)語命名;
獲取單元86,用于根據(jù)新的本體O中描述的術(shù)語的名稱進(jìn)行同義詞獲取。
以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍,凡在 本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù) 范圍之內(nèi)。
權(quán)利要求
1.一種領(lǐng)域本體構(gòu)建方法,其特征在于,該方法包括:羅列需要被目標(biāo)本體描述的所有術(shù)語的名稱,形成關(guān)鍵詞集合Wtl ;對(duì)關(guān)鍵詞集合Wtl中的所有關(guān)鍵詞進(jìn)行排序,形成關(guān)鍵詞序列Stl ;創(chuàng)建待復(fù)用的本體集合O,將從關(guān)鍵詞序列Stl中抽取的連續(xù)子序列中的所有關(guān)鍵詞提交到本體檢索系統(tǒng),將檢索結(jié)果中排名最高的本體添加到本體集合O ;對(duì)本體集合O中的所有本體進(jìn)行集合的并操作處理,形成新的本體O。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括:為新的本體ο中描述的術(shù)語命名,并根據(jù)新的本體ο中描述的術(shù)語的名稱進(jìn)行同義詞獲取。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述羅列需要被目標(biāo)本體描述的所有術(shù)語的名稱,形成關(guān)鍵詞集合Wtl為:對(duì)于目標(biāo)本體所描述的目標(biāo)領(lǐng)域,使用自然語言Ls中的關(guān)鍵詞羅列需要被目標(biāo)本體所描述的所有術(shù)語的名稱,形成一個(gè)關(guān)鍵詞集合
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)關(guān)鍵詞集合Wtl中的所有關(guān)鍵詞進(jìn)行排序,形成關(guān)鍵詞序列Stl為:建立樹,樹中每個(gè)節(jié)點(diǎn)具有標(biāo)簽和處理標(biāo)記;判斷樹中是否所有節(jié)點(diǎn)的處理標(biāo)記都是“已處理”,如果否,從樹中所有處理標(biāo)記是“未處理”的節(jié)點(diǎn)中選取當(dāng)前節(jié)點(diǎn),所述當(dāng)前節(jié)點(diǎn)的標(biāo)簽的關(guān)鍵詞集合Wtl為當(dāng)前集合;判斷當(dāng)前集合中是否只包含一個(gè)關(guān)鍵詞,當(dāng)前集合包含超過一個(gè)關(guān)鍵詞時(shí),將當(dāng)前集合劃分為兩個(gè)子集,將兩個(gè)子集中的最重要子集I作為當(dāng)前節(jié)點(diǎn)的左子節(jié)點(diǎn)添加到樹中, 將兩個(gè)子集中的另一個(gè)子集Wk作為當(dāng)前節(jié)點(diǎn)的右子節(jié)點(diǎn)添加到樹中,將當(dāng)前節(jié)點(diǎn)的處理標(biāo)記改為“已處理”;否則,將當(dāng)前節(jié)點(diǎn)的處理標(biāo)記改為“已處理”,然后繼續(xù)判斷樹中是否所有節(jié)點(diǎn)的處理標(biāo)記都是“已處理”,直到樹中所有節(jié)點(diǎn)的處理標(biāo)記都是“已處理”時(shí),根據(jù)關(guān)鍵詞集合Wtl中的所有關(guān)鍵詞所對(duì)應(yīng)的節(jié)點(diǎn)的深度優(yōu)先遍歷順序,形成關(guān)鍵詞序列
5.根據(jù)權(quán)利要求4所述的方法,其特 征在于,所述將當(dāng)前集合劃分為兩個(gè)子集為:將當(dāng)前集合中的關(guān)鍵詞作為對(duì)一個(gè)領(lǐng)域或范圍的描述,將兩個(gè)子集中的關(guān)鍵詞分別作為對(duì)該領(lǐng)域或范圍的兩個(gè)不同子領(lǐng)域或子范圍的描述。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將從關(guān)鍵詞序列Stl中抽取的連續(xù)子序列中的所有關(guān)鍵詞提交到本體檢索系統(tǒng),將檢索結(jié)果中排名最高的本體添加到本體集合 O為:創(chuàng)建待復(fù)用的本體集合O,將關(guān)鍵詞序列Stl記作S,獲取S中的滿足條件的前綴連續(xù)子序列中最長(zhǎng)的一個(gè)子序列Sh,將Sh從S的前端截去,得到剩余的后綴連續(xù)子序列St ;判斷Sh是否為空序列,如果Sh為空序列,從St中刪除最前面的一個(gè)關(guān)鍵詞;如果Sh不為空序列,將檢索結(jié)果HITS(Sh)中排名最高的本體添加到O ;判斷St是否為空序列,如果St不為空序列,將St記作S,再獲取S的滿足條件的前綴連續(xù)子序列中最長(zhǎng)的一個(gè)子序列Sh,將Sh WS的前端截去,得到剩余的后綴連續(xù)子序列St ;否貝U,如果St為空序列,流程結(jié)束。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述條件為子序列中的所有關(guān)鍵詞組合成一個(gè)查詢關(guān)鍵詞組,將所述查詢關(guān)鍵詞組提交到本體檢索系統(tǒng)后,檢索結(jié)果HITS(Sh)不為空。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)本體集合O中的所有本體進(jìn)行集合的并操作處理,形成新的本體ο為:對(duì)本體集合O中的所有本體進(jìn)行集合的并操作處理,形成一個(gè)新的本體ο ;并根據(jù)描述目標(biāo)領(lǐng)域的需求對(duì)新的本體ο進(jìn)行編輯處理;所述編輯處理至少包括增加術(shù)語和公理、刪除術(shù)語和公理、修改術(shù)語和公理。
9.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述為新的本體ο中描述的術(shù)語命名為: 對(duì)新的本體ο中描述的每一個(gè)術(shù)語用一個(gè)Ls中的詞匯命名。
10.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)新的本體ο中描述的術(shù)語的名稱進(jìn)行同義詞獲取為:針對(duì)新的本體ο中描述的每一個(gè)術(shù)語的名稱t,創(chuàng)建三個(gè)關(guān)鍵詞集合SYN、TRANS, TS ;將t提交到從Ls到另一種自然語言Lt的翻譯系統(tǒng),將翻譯結(jié)果中的所有關(guān)鍵詞添加到集合TRANS ;根據(jù)集合TRANS中的每一個(gè)關(guān)鍵詞trans,從Lt的同義詞詞典中獲取的trans的所有同義詞,將獲取到的所有同義詞添加到集合TS ;將集合TS中的所有關(guān)鍵詞添加到集合TRANS,并根據(jù)集合TRANS中的每一個(gè)關(guān)鍵詞 trans’,將trans’提交到由Lt到Ls的翻譯系統(tǒng),將翻譯結(jié)果中的所有關(guān)鍵詞添加到集合 SYN ;從集合SYN中刪除所有不適合作為t的同義詞的關(guān)鍵詞,SYN中剩余的所有關(guān)鍵詞作為獲取到的t的同義詞。
11.一種領(lǐng)域本體構(gòu)建系統(tǒng),其特征在于,該系統(tǒng)包括:羅列單元、排序單元、添加單元、并操作處理單元;其中,羅列單元,用于羅列需要被目標(biāo)本體描述的所有術(shù)語的名稱,形成關(guān)鍵詞集合Wtl ;排序單兀,用于對(duì)關(guān)鍵詞集合Wtl中的所有關(guān)鍵詞進(jìn)行排序,形成關(guān)鍵詞序列Stl ;添加單元,用于創(chuàng)建待復(fù)用的本體集合O,將從關(guān)鍵詞序列Stl中抽取的連續(xù)子序列中的所有關(guān)鍵詞提交到本體檢索系統(tǒng),將檢索結(jié)果中排名最高的本體添加到本體集合O;并操作處理單元,用于對(duì)本體集合O中的所有本體進(jìn)行集合的并操作處理,形成新的本體O。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,該系統(tǒng)還包括:命名單元,用于為新的本體ο中描述的術(shù)語命名;獲取單元,用于根據(jù)新的本體ο中描述的術(shù)語的名稱進(jìn)行同義詞獲取。
全文摘要
本發(fā)明公開一種領(lǐng)域本體構(gòu)建方法,包括羅列需要被目標(biāo)本體描述的所有術(shù)語的名稱,形成關(guān)鍵詞集合W0;對(duì)關(guān)鍵詞集合W0中的所有關(guān)鍵詞進(jìn)行排序,形成關(guān)鍵詞序列S0;創(chuàng)建待復(fù)用的本體集合O,將從關(guān)鍵詞序列S0中抽取的連續(xù)子序列中的所有關(guān)鍵詞提交到本體檢索系統(tǒng),將檢索結(jié)果中排名最高的本體添加到本體集合O;對(duì)本體集合O中的所有本體進(jìn)行集合的并操作處理,形成新的本體o;本發(fā)明還提供一種領(lǐng)域本體構(gòu)建系統(tǒng)。根據(jù)本發(fā)明的技術(shù)方案,提供一種面向本體檢索的關(guān)鍵詞查詢的構(gòu)建方法,具有良好的定義和可操作性,可取得較高的本體復(fù)用率。
文檔編號(hào)G06F17/30GK103218362SQ20121001777
公開日2013年7月24日 申請(qǐng)日期2012年1月19日 優(yōu)先權(quán)日2012年1月19日
發(fā)明者董振江, 吉鋒, 羅圣美, 程龔, 瞿裕忠 申請(qǐng)人:中興通訊股份有限公司, 南京大學(xué)