專利名稱:一種構(gòu)建領(lǐng)域本體的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息系統(tǒng)建模領(lǐng)域,尤其涉及一種構(gòu)建領(lǐng)域本體(DomainOntology) 的方法。
背景技術(shù):
本體(Ontology)是用于描述一個領(lǐng)域的術(shù)語集合,其組織結(jié)構(gòu)是層次結(jié)構(gòu)化的, 可以作為一個知識庫的骨架和基礎(chǔ)。一般認(rèn)為本體就是Gruber提出的“本體是概念模型的 明確的規(guī)范說明”。本體是近年來計(jì)算機(jī)及相關(guān)領(lǐng)域普遍關(guān)注的一個研究熱點(diǎn),作為一種能在語義和 知識層次上描述信息系統(tǒng)的概念模型建模工具,已被廣泛應(yīng)用于知識工程、信息處理、數(shù)字 圖書館、自然語言理解、語義Web等領(lǐng)域之中。典型的應(yīng)用有(1)基于語義的信息檢索,特別是網(wǎng)絡(luò)搜索引擎和數(shù)字化圖書館。(2)基于本體的數(shù)據(jù)集成、機(jī)器學(xué)習(xí)等。(3)領(lǐng)域本體的應(yīng)用。比如,在生物信息學(xué)中已建成的GeneOntology,盡管只包括 了 part-of等簡單的關(guān)系,但是對生物信息學(xué)界已經(jīng)有巨大的影響。(4)語義 Web 服務(wù)。(5)在線元數(shù)據(jù)管理和自動信息發(fā)布。本體的目標(biāo)是獲取、描述和表示相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解, 確定領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出了這些詞匯(術(shù)語)和詞 匯間相互關(guān)系的明確定義。Perez等人用分類法組織了本體,并歸納出本體的五個基本構(gòu)成元素(建模元 語),即①類(Classes)或概念(Concepts);②關(guān)系(Relations);③函數(shù)(Functions); ④公理(Axioms);⑤實(shí)例(Instances)。從語義上講,基本的關(guān)系共有4種,如表1所示表1基本的關(guān)系種類
關(guān)系名關(guān)系描述part-of表達(dá)概念之間部分與整體的關(guān)系。kind-of表達(dá)概念之間的繼承關(guān)系,類似于面向?qū)ο笾械?父類與子類之間的關(guān)系。給出兩個概念C和D, 記C' = {x|x是C的實(shí)例},D' ={x|x是D的實(shí) 例},如果對任意的χ屬于D',χ都屬于C',則稱 C為D的父概念,D為C的子概念
權(quán)利要求
1.一種構(gòu)建領(lǐng)域本體的方法,包括下列步驟1)選取種子領(lǐng)域術(shù)語,建立領(lǐng)域本體,并設(shè)定所述種子領(lǐng)域術(shù)語的信息具化度;2)根據(jù)所述種子領(lǐng)域術(shù)語抽取領(lǐng)域術(shù)語,并根據(jù)所述種子領(lǐng)域術(shù)語的信息具化度計(jì)算 所述領(lǐng)域術(shù)語的信息具化度;3)將所述領(lǐng)域術(shù)語按照其信息具化度排列,計(jì)算當(dāng)前領(lǐng)域術(shù)語和領(lǐng)域本體中任一領(lǐng)域 術(shù)語的相似度;4)根據(jù)所述信息具化度和所述相似度選擇所述當(dāng)前領(lǐng)域術(shù)語的可能的關(guān)聯(lián)術(shù)語;5)在語料庫中驗(yàn)證所述當(dāng)前領(lǐng)域術(shù)語與其可能的關(guān)聯(lián)術(shù)語之間可能存在的關(guān)系模式 的可信度,如果可信,則將所述當(dāng)前領(lǐng)域術(shù)語加入所述領(lǐng)域本體,否則,刪除所述當(dāng)前領(lǐng)域 術(shù)語;6)重復(fù)所述步驟;3)、4)和幻,直到所有領(lǐng)域術(shù)語均已經(jīng)加入所述領(lǐng)域本體或被刪除。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟幻后還包括領(lǐng)域集中的步驟。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,利用如下公式計(jì)算所述領(lǐng)域術(shù)語的信 息具化度spec (c)
4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,利用如下公式計(jì)算所述領(lǐng)域術(shù)語的信 息具化度spec (c)
5.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,利用如下公式計(jì)算所述領(lǐng)域術(shù)語的信 息具化度spec (c)
6.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,利用如下公式計(jì)算當(dāng)前領(lǐng)域術(shù)語和領(lǐng) 域本體中任一領(lǐng)域術(shù)語的相似度SIM(ti; tj) = SIMdtJti, tj)+SIMin (ti; tj),其中,SIMdoc (t^tj)表示當(dāng)前領(lǐng)域術(shù)語、和領(lǐng)域本體中任一領(lǐng)域術(shù)語、的文檔相似度, SIMin (ti; tj)表示、和tj的內(nèi)部相似度,
7.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述步驟4)進(jìn)一步包括下列步驟(1)在領(lǐng)域本體中選擇與所述當(dāng)前領(lǐng)域術(shù)語相似度大于閾值的領(lǐng)域術(shù)語;(2)從所選擇的領(lǐng)域術(shù)語中選擇信息具化度小于/大于所述當(dāng)前領(lǐng)域術(shù)語的領(lǐng)域術(shù)語 作為候選上/下位術(shù)語;(3)從所述候選上/下位術(shù)語中選擇信息具化度最高/最低的領(lǐng)域術(shù)語作為所述當(dāng)前 領(lǐng)域術(shù)語的可能的上/下位術(shù)語。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述步驟(1)還包括從所選擇的領(lǐng)域術(shù)語 中,再選擇出與所述當(dāng)前領(lǐng)域術(shù)語相似度最高的m個領(lǐng)域術(shù)語,其中m為正整數(shù)。
9.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述驗(yàn)證進(jìn)一步包括下列步驟 根據(jù)所述當(dāng)前領(lǐng)域術(shù)語與其可能的同義/上下位術(shù)語構(gòu)建驗(yàn)證術(shù)語對; 將所述驗(yàn)證術(shù)語對表示為符合可能的同義/上下位關(guān)系模式的表達(dá)式;在領(lǐng)域語料庫中選取存在所述驗(yàn)證術(shù)語對的句子作為模式上下文,判斷所述模式上下 文中所述當(dāng)前領(lǐng)域術(shù)語與其可能的同義/上下位術(shù)語之間的關(guān)系的可信度。
全文摘要
本發(fā)明提供一種構(gòu)建領(lǐng)域本體的方法,包括步驟1)選取種子領(lǐng)域術(shù)語,建立領(lǐng)域本體,并設(shè)定種子領(lǐng)域術(shù)語的信息具化度;2)根據(jù)種子領(lǐng)域術(shù)語抽取領(lǐng)域術(shù)語,并根據(jù)種子領(lǐng)域術(shù)語的信息具化度計(jì)算領(lǐng)域術(shù)語的信息具化度;3)將領(lǐng)域術(shù)語按照其信息具化度排列,計(jì)算當(dāng)前領(lǐng)域術(shù)語和領(lǐng)域本體中任一領(lǐng)域術(shù)語的相似度;4)根據(jù)信息具化度和相似度選擇當(dāng)前領(lǐng)域術(shù)語的可能的關(guān)聯(lián)術(shù)語;5)在語料庫中驗(yàn)證當(dāng)前領(lǐng)域術(shù)語與其可能的關(guān)聯(lián)術(shù)語之間可能存在的關(guān)系模式的可信度,如果可信,則將當(dāng)前領(lǐng)域術(shù)語加入領(lǐng)域本體,否則,刪除當(dāng)前領(lǐng)域術(shù)語;6)重復(fù)步驟3)、4)和5),直到所有領(lǐng)域術(shù)語均已經(jīng)加入領(lǐng)域本體或被刪除。由此,更加準(zhǔn)確有效地建立領(lǐng)域本體。
文檔編號G06F17/30GK102117281SQ200910243990
公開日2011年7月6日 申請日期2009年12月30日 優(yōu)先權(quán)日2009年12月30日
發(fā)明者焦希泉, 趙琦, 高建忠, 黃毓瑜 申請人:北京億維訊科技有限公司