專(zhuān)利名稱:一種本體概念映射方法
技術(shù)領(lǐng)域:
本發(fā)明屬于本體映射技術(shù)領(lǐng)域,特別是涉及一種基于虛擬路徑的本體概念映射方法。
背景技術(shù):
本體作為一種語(yǔ)義和知識(shí)層面上的概念共享模型,自提出以來(lái)就引起數(shù)據(jù)整合、
P2P系統(tǒng)、電子商務(wù)、語(yǔ)義Web服務(wù)、社會(huì)網(wǎng)絡(luò)(Social Networks)等應(yīng)用領(lǐng)域科研人員的廣
泛關(guān)注,并得到了有效的研究與應(yīng)用,提出了一系列基于本體的領(lǐng)域問(wèn)題解決方法。 本體映射(Ontology M即ping)是發(fā)現(xiàn)不同本體之間實(shí)體元素(包括本體的類(lèi)、屬
性或者個(gè)體)映射關(guān)系的關(guān)鍵技術(shù),已被國(guó)內(nèi)外學(xué)者普遍認(rèn)為是解決計(jì)算機(jī)系統(tǒng)語(yǔ)義異構(gòu)
問(wèn)題的有效手段之一。本體映射中映射元素是四元組〈mlD,Nil,Nj2,R〉,i = l...h;j = 1. . k ;其中mID
是獨(dú)一無(wú)二的標(biāo)示符,Nil表示第一個(gè)圖形的第i個(gè)結(jié)點(diǎn),Nj2表示第二個(gè)圖形的j個(gè)結(jié)點(diǎn), h是第一個(gè)圖形結(jié)點(diǎn)的數(shù)量,k是第二個(gè)圖形結(jié)點(diǎn)的數(shù)量,R表示其中結(jié)點(diǎn)的相似關(guān)系。映 射就是通過(guò)一定的方法找出這種映射關(guān)系的過(guò)程。 目前國(guó)內(nèi)外有很多研究者都在研究本體映射技術(shù),P. Shvaiko等人對(duì)本體映 射操作的定義是輸入兩個(gè)本體,每個(gè)本體都由具體的實(shí)體Entity(包含類(lèi)Class、屬性 properties、關(guān)系Relationships)等構(gòu)成,最后的輸出結(jié)果決定了這些實(shí)體之間的關(guān)系 (等于、包含等關(guān)系)。 E. Rahm提出了本體映射方法分類(lèi)。將模式/本體映射方法分為獨(dú)立映射方法和混 合映射方法兩類(lèi),獨(dú)立映射方法指一種可以單獨(dú)進(jìn)行本體映射的方法,混合映射方法中用 到了二種以上的獨(dú)立映射方法。獨(dú)立映射方法包含基于模式的方法和基于實(shí)例的方法。基 于模式的方法是目前研究比較多的一種方法,它包含元素層次的方法和結(jié)構(gòu)層次的方法。
基于模式的映射方法模式映射方法僅考慮模式結(jié)構(gòu)信息(如XML Schema, ontology)等模式結(jié)構(gòu)中概念、屬性、關(guān)系等的語(yǔ)義相似性,而不考慮實(shí)例數(shù)據(jù)的相似性。模 式映射方法是目前被廣泛研究的方法,根據(jù)映射的粒度可以將模式映射劃分為元素層次的 映射方法和結(jié)構(gòu)層次的映射方法。 基于實(shí)例的映射方法實(shí)例映射方法考慮模式元素的實(shí)際內(nèi)容或?qū)嶋H含義,模式 可以通過(guò)實(shí)例數(shù)據(jù)手動(dòng)或者自動(dòng)的建立。例如可以從一個(gè)XML文檔實(shí)例中提取出基于圖形 的XML Schema。 基于模式的映射方法大部分都可以適用于基于實(shí)例的映射方法,但是目前在實(shí)例
的映射方法中,比較適用的是基于機(jī)器學(xué)習(xí)的方法。基于模式的映射方法主要包括以下四 種( — )元素層次的映射方法元素層次的映射方法是指從實(shí)體本身來(lái)考慮某個(gè)實(shí) 體之間的映射,而不考慮實(shí)體周?chē)钠渌鼗蛘哧P(guān)系。也就是將元素從元素所處的虛擬 中割裂出來(lái)單獨(dú)考慮。
( 二 )結(jié)構(gòu)層次的映射方法結(jié)構(gòu)層次的映射方法不僅從實(shí)體本身來(lái)考慮某個(gè)實(shí) 體之間的映射,而將實(shí)體所處的結(jié)構(gòu)綜合考慮,即將元素和元素的屬性、屬性值等元素所處 的結(jié)構(gòu)中與元素相關(guān)的要素進(jìn)行綜合考慮。(三)基于語(yǔ)言學(xué)的映射方法語(yǔ)言層次的映射方法從實(shí)體的文本名稱或者對(duì)實(shí) 體的文本描述來(lái)考慮實(shí)體之間映射關(guān)系。語(yǔ)言層次的映射方法適用于本體(模式)元素層 次的映射,目前運(yùn)用比較廣泛的基于語(yǔ)言學(xué)的映射方法主要包括基于關(guān)鍵字詞頻的統(tǒng)計(jì)方 法,基于向量空間模型(VSM)的統(tǒng)計(jì)方法,基于編輯距離(Edit Distance)的方法。
(四)基于約束的映射方法基于約束的方法從實(shí)體的類(lèi)型或者線索來(lái)取得實(shí)體 之間的映射關(guān)系,它既適用于元素層次的映射,也適用于結(jié)構(gòu)層次的映射。它根據(jù)本體(模 式)實(shí)體的數(shù)據(jù)類(lèi)型、值域、關(guān)系類(lèi)型、實(shí)體的勢(shì)等約束條件來(lái)計(jì)算相似性(Similarity)。 基于約束的方法很少獨(dú)立使用, 一般都是配合其他方法一起使用。 與本體映射方法分類(lèi)相應(yīng),本體映射系統(tǒng)可以分為幾大類(lèi)基于模式(Schema)的 映射系統(tǒng),基于實(shí)例(Instance)的映射系統(tǒng),基于混合模式的映射系統(tǒng)。
Cupid是德國(guó)萊比錫大學(xué)(University of Leipzig)的Erhard Rahm和美國(guó)華 盛頓大學(xué)(University of Washington)的Jayant Madhavan提出的一種模式映射方法。 該方法將映射問(wèn)題看成是計(jì)算兩個(gè)模式元素的相似系數(shù)(SimilarityCoefficient),系 數(shù)的取值范圍在[O,l]之間,然后通過(guò)相似系數(shù)來(lái)推導(dǎo)元素的映射關(guān)系。該方法將模式 映射分成兩個(gè)步驟,分別計(jì)算元素的獨(dú)立語(yǔ)義性和元素的結(jié)構(gòu)語(yǔ)義性。第一步,計(jì)算元素 的獨(dú)立相似系數(shù),Cupid采用的方法是基于語(yǔ)言學(xué)的映射方法(Linguistic Match),借用 術(shù)語(yǔ)詞典來(lái)映射獨(dú)立元素的名稱、數(shù)據(jù)類(lèi)型和所屬領(lǐng)域等信息。語(yǔ)言學(xué)的映射方法通過(guò) 表征化(normalization)、歸類(lèi)(Categorization)等手段對(duì)獨(dú)立元素進(jìn)行映射,計(jì)算出 元素的語(yǔ)言層次的相似系數(shù)lsim(linguistic similarity coefficients)。第二步,計(jì) 算元素的結(jié)構(gòu)相似系數(shù),根據(jù)元素所處的模式結(jié)構(gòu)來(lái)推導(dǎo)元素的相似系數(shù)。將元素所處 的模式結(jié)構(gòu)看成是樹(shù)狀圖形,然后根據(jù)以下三個(gè)原則來(lái)推導(dǎo)元素的結(jié)構(gòu)層次的相似系數(shù) ssim(structural similarity)。 COMA (Combination of MAtching algorithms)是由德國(guó)萊比錫大學(xué)Hong-Hai Do 和Erhard Rahm提出的一種組合多種映射方式的混合型模式映射系統(tǒng),和Cupid采用獨(dú)立 映射方法不同的是,Coma系統(tǒng)采用的是混合映射方法,通過(guò)靈活地組合不同的映射方式及 其結(jié)果來(lái)推導(dǎo)最終的模式映射結(jié)果。Coma映射系統(tǒng)將待比較的模式轉(zhuǎn)化成帶有根節(jié)點(diǎn)的 有向無(wú)環(huán)圖(Rooted Directed AcyclicGr即hs),映射操作將輸入兩個(gè)模式,然后決定兩個(gè) 模式中元素的語(yǔ)義映射關(guān)系。Coma主要利用模式信息,如元素和結(jié)構(gòu)屬性,來(lái)重用以前的 映射結(jié)果,在映射過(guò)程的不同階段Coma應(yīng)用了不同的組合策略,并選擇合適的映射算法和 映射系統(tǒng),這可顯著地提高映射效率。它由簡(jiǎn)單映射器(Simple Matchers)、混合映射器 (Hybird Matchers)禾口復(fù)雜重用映射器(Complex Reuse oriented Matchers)組成。其中 簡(jiǎn)單映射器主要分析元素名稱的詞義和語(yǔ)義相似系數(shù)。詞義相似系數(shù)通過(guò)計(jì)算元素名稱的 前綴名、后綴名(Affix) 、 ngram、編輯距離(Edit Distance)、發(fā)音(Soundex)這4個(gè)近似 字符串映射器(A卯roximate String Matcher)來(lái)獲得。語(yǔ)義相似系數(shù)通過(guò)專(zhuān)業(yè)字典中元 素的關(guān)系來(lái)獲取,包括元素的同、異義以及數(shù)據(jù)類(lèi)型等方面?;旌嫌成淦髦С?種元素層次 混合和3種結(jié)構(gòu)層次混合方法,2種元素層次混合方法包括名稱(Name)和元素名稱類(lèi)型(NameType) ,3種結(jié)構(gòu)層次混合方法包括名稱路徑、子結(jié)點(diǎn)和葉子結(jié)點(diǎn)。復(fù)雜重用映射器利 用術(shù)語(yǔ)辭典的思想,將術(shù)語(yǔ)辭典中可重用的同義、異義元素的范圍進(jìn)行擴(kuò)展,儲(chǔ)存映射結(jié)構(gòu) 中通過(guò)簡(jiǎn)單映射器和混合映射器獲取的映射關(guān)系,以便其他的映射器進(jìn)行重用。Coma++是 對(duì)Coma系統(tǒng)的擴(kuò)展和改進(jìn),它支持模式和本體的映射,并使用圖形界面的方法讓用戶來(lái)選 擇合適的映射策略和映射結(jié)果,通過(guò)用戶的反饋來(lái)對(duì)映射的結(jié)果進(jìn)行修改。
SF是由斯坦福大學(xué)(Stanford Univeristy)的Sergey Melnik和德國(guó)萊比錫大學(xué) Erhard Rahm于2002年提出的一種映射多種數(shù)據(jù)源的通用結(jié)構(gòu)層次,可以廣泛適用于多個(gè) 應(yīng)用領(lǐng)域。SF的基本思想是如果模式結(jié)構(gòu)中兩個(gè)相鄰元素是相似的,那么可以推斷這兩個(gè) 元素也是相似的。該方法將整個(gè)映射過(guò)程分成4步首先通過(guò)函數(shù)SQL2Gr即h (Schema)將模 式結(jié)構(gòu)轉(zhuǎn)化成有向標(biāo)記圖(labeledgraph),然后通過(guò)名稱映射函數(shù)StringMatch (graphl, gr即h2)對(duì)有向圖結(jié)構(gòu)中的元素進(jìn)行映射,得出元素之間的初始化相似系數(shù)initialM即。 第三步,通過(guò)洪泛算法SFjoin(graphl, graph2, initialMap)對(duì)初始化相似系數(shù)進(jìn)行迭代, 直到它達(dá)到某個(gè)收斂值,作為元素之間結(jié)構(gòu)相似系數(shù)SFresult。最后,它用選擇閾值函數(shù) SelectThreshold(SFresult)來(lái)選擇出符合條件的相似值。 Falcon_A0(Finding, aligning and learning ontologies, ultimately for c即turingknowledge via ontology-driven approaches)是由東南大學(xué)瞿裕忠教授禾口 胡偉博士等人開(kāi)發(fā)的基于模式的本體對(duì)齊工具,它分別通過(guò)語(yǔ)言特性(LM0)和結(jié)構(gòu)特 性(GM0)兩個(gè)途徑來(lái)研究本體的相似性,這兩個(gè)方法都是比較本體中元素的映射關(guān)系。 LMO(Lingusitic Matching for Ontology)通過(guò)計(jì)算兩個(gè)實(shí)體的編輯距離來(lái)計(jì)算元素的名 稱相似系數(shù)SS,然后通過(guò)向量空間模型(Vector Space Model)統(tǒng)計(jì)分析方法來(lái)得到兩個(gè)文 檔的余弦相似系數(shù)DS,最后根據(jù)SS和DS的系數(shù)得到最終的語(yǔ)言層次相似系數(shù)。GMO(Graph Matching for Ontologies)將本體用雙向圖形表示,并將其中的實(shí)體用三元組(主語(yǔ)、斷 言、謂語(yǔ))的形式表示,然后比較三元組的相似性。在對(duì)三元組進(jìn)行比較時(shí),使用鄰接矩陣 建模,通過(guò)對(duì)矩陣的計(jì)算來(lái)比較結(jié)構(gòu)相似性。GM0和LM0互相獨(dú)立,相似性比較的對(duì)象都是 整個(gè)本體。LM0作為GM0的外部實(shí)體,對(duì)GM0的結(jié)果有一定的約束作用,例如當(dāng)LM0很低的 時(shí)候,最后的結(jié)果以GMO的結(jié)果為準(zhǔn)。 H-Match是由意大利米蘭大學(xué)Silvana Castano, Alfio Ferrara等人提出的面 向分布式本體的動(dòng)態(tài)映射方法,它以兩個(gè)本體作為輸入,并輸出兩個(gè)本體中具有語(yǔ)義相 似性的元素對(duì)。相似性的分析是通過(guò)計(jì)算概念的
之間的語(yǔ)義相近系數(shù)(Semantic Affinity)。它是在模式映射方法Artemis的基礎(chǔ)上,借鑒了基于WordNet詞義系統(tǒng)的方法 來(lái)計(jì)算概念的語(yǔ)言層次相似性(Linguistic Affinity),然后在語(yǔ)言層次概念相似性的基 礎(chǔ)上,給出了四個(gè)層次的結(jié)構(gòu)相似性,分別是表面層次(Surface)、淺層次(Shallow),深層 次(De印),極深層次(Intensive) , H-Match稱之為語(yǔ)境相似性(Contextual Affinity)。 這四個(gè)層次的相似性的語(yǔ)義程度是逐漸加強(qiáng)的,其中表面層次只考慮概念的語(yǔ)言層次相似 性;淺層次在概念層次的基礎(chǔ)上,加入概念的屬性;深層次在淺層次的基礎(chǔ)上加入語(yǔ)義聯(lián) 系;極深層次在深層次的基礎(chǔ)上,加入概念的屬性值。H-Match還根據(jù)用戶的需求來(lái)制定 映射策略,選擇本體映射的層次、語(yǔ)境相似性和語(yǔ)言相似性的加權(quán)系數(shù)、以及映射限制等參 數(shù)。它可以適用于0WL(0WL Lite、0WL DL和OWL Full)三種語(yǔ)言描述的本體映射。
S-Match是由意大利特蘭托大學(xué)Fausto Giunchiglia、 Pavel Shvaiko等人提出的模式語(yǔ)義映射系統(tǒng),它和Cupid、Coma等模式映射系統(tǒng)采用的方法有很大的區(qū)別。Cupid、 Coma等系統(tǒng)將模式映射分為元素層次映射和結(jié)構(gòu)層次映射,并且映射的結(jié)構(gòu)用[O,l]之間 的相似系數(shù)表示。而S-Match采用概念標(biāo)簽映射、概念語(yǔ)義映射兩個(gè)步驟來(lái)推導(dǎo)概念的語(yǔ) 義聯(lián)系,映射的結(jié)果用語(yǔ)義關(guān)系符(屬于^,包含2,不相交上等)來(lái)表示。因此,S-Match被 稱為真正意義上的語(yǔ)義映射系統(tǒng)。S-Match將輸入的本體表示成樹(shù)狀圖形結(jié)構(gòu),然后將概念 的映射分成概念的標(biāo)簽(Label)映射和概念映射。其中概念的標(biāo)簽映射采用語(yǔ)言層次的映 射方法,并借用已有的語(yǔ)言層次映射器來(lái)計(jì)算概念標(biāo)簽的詞義聯(lián)系,并使用數(shù)據(jù)庫(kù)來(lái)儲(chǔ)存 這些結(jié)果。S-Match的獨(dú)創(chuàng)性在于概念的語(yǔ)義映射(Node Matching),它將樹(shù)結(jié)點(diǎn)的語(yǔ)義用 形式化模型表示,把樹(shù)結(jié)點(diǎn)映射問(wèn)題轉(zhuǎn)化為命題正確問(wèn)題。因此概念A(yù)和概念B的語(yǔ)義關(guān) 系存在與否取決于公式(axioms) — rel (contextA, contextB)是否正確,S-Match通過(guò)將 概念的語(yǔ)義關(guān)系比較轉(zhuǎn)化為形式化公式的驗(yàn)證問(wèn)題。對(duì)于公式的驗(yàn)證,S-Match使用標(biāo)準(zhǔn) 的SAT(Propositional Satisfiability, SAT)解析器來(lái)進(jìn)行判斷。 GLUE是比較典型的基于實(shí)例的映射系統(tǒng),它由美國(guó)華盛頓大學(xué)AnHaiDoan,Jayant Madhavan等人提出,是一種利用機(jī)器學(xué)習(xí)技術(shù)來(lái)發(fā)現(xiàn)本體映射關(guān)系的算法。給定兩個(gè)本體, 對(duì)其中一個(gè)本體的任意元素,Glue可以在另一本體中找到與之相映射的元素。Glue的另一 個(gè)關(guān)鍵技術(shù)是使用多策略學(xué)習(xí)(MultipleLearning Strategies),每一個(gè)學(xué)習(xí)策略針對(duì)某 一類(lèi)型的本體數(shù)據(jù)實(shí)例或者模式信息。對(duì)元素A和元素B的相似性計(jì)算,Glue采用聯(lián)合概 率分布的方法來(lái)計(jì)算(區(qū)別于其他模式映射系統(tǒng))。Glue系統(tǒng)由三個(gè)主要模塊組成,分別 是概率估計(jì)模塊、相似性估計(jì)模塊和釋放標(biāo)注模塊(Relaxation Labeler Module)。概率估 計(jì)模塊中輸入兩個(gè)本體的元素以及它們實(shí)例,然后運(yùn)用機(jī)器學(xué)習(xí)技術(shù),利用多個(gè)基礎(chǔ)學(xué)習(xí) 機(jī)(base learner)和元學(xué)習(xí)機(jī)(Meta-learner)來(lái)計(jì)算聯(lián)合概率分布。然后將概念分布結(jié) 果輸入相似性估計(jì)模塊,該模塊通過(guò)用戶的參與,計(jì)算元素的相似性,并將相似性結(jié)果輸出 到相似性矩陣存儲(chǔ)。釋放標(biāo)注模塊從相似性矩陣中提取元素相似性值,與領(lǐng)域知識(shí)和相關(guān) 規(guī)則進(jìn)行映射,從中找出最符合領(lǐng)域知識(shí)和規(guī)則需求的相似系數(shù),并作為Glue系統(tǒng)的最終 結(jié)果輸出。 基于集合的模式映射系統(tǒng)(Corpus based schema matching)是由美國(guó)華盛頓大 學(xué)Jayant Madhavan禾口微軟研究院(Microsoft Research)的Philip A. Bernstein等人提 出的擴(kuò)展模式映射系統(tǒng),它的目標(biāo)是解決模式映射系統(tǒng)缺少足夠?qū)嵗畔⒌娜毕荨T摲椒?利用模式所處的外部文本集合的信息來(lái)加強(qiáng)模式映射的結(jié)果。模式的外部文本集合包含了 模式的多種表現(xiàn)形式,因此可以在集合中找到模式概念和屬性的其他顯示,并將這些加強(qiáng) 信息增加到模式中。另外,還可以從不同模式但具有相似實(shí)例信息的模式結(jié)構(gòu)中通過(guò)學(xué)習(xí) 機(jī)(Learner)進(jìn)行學(xué)習(xí),從而推導(dǎo)出隱藏的模式映射關(guān)系。 基于集合的模式映射系統(tǒng)在實(shí)例學(xué)習(xí)方法上借鑒了 Cupid和Glue等系統(tǒng)的 映射方法,采用多策略學(xué)習(xí)機(jī)制,使用名稱學(xué)習(xí)機(jī)(Name Learner)、文本學(xué)習(xí)機(jī)(Text Learner)、數(shù)據(jù)實(shí)例學(xué)習(xí)機(jī)(Data Instance Learner)、上下文語(yǔ)境學(xué)習(xí)機(jī)(Context Learner)、元學(xué)習(xí)機(jī)(Meta Learner)對(duì)模式實(shí)例信息進(jìn)行歸類(lèi),并在此基礎(chǔ)上給出模式的 增加元素模型,然后通過(guò)增加元素模型來(lái)進(jìn)行模式映射。這種結(jié)合實(shí)例和模式映射的方法, 可以利用實(shí)例映射來(lái)發(fā)現(xiàn)隱性相似元素,增加模式相似信息,以達(dá)到更高的映射召回率。
上述本體映射方法主要側(cè)重于概念本身,以及概念的實(shí)例信息來(lái)對(duì)本體元素的語(yǔ)義相似性進(jìn)行求取,并沒(méi)有充分挖掘本體結(jié)構(gòu)中概念的相鄰元素及其語(yǔ)義聯(lián)系。由于本體 是概念以及概念關(guān)系的體現(xiàn),因此概念的相鄰元素及其語(yǔ)義聯(lián)系對(duì)概念的語(yǔ)義影響是不可 忽略的。
發(fā)明內(nèi)容
本發(fā)明目的在于針對(duì)現(xiàn)有技術(shù)的不足,提出一種基于虛擬路徑的本體映射方法,
克服了現(xiàn)有本體映射方法只考慮概念語(yǔ)義相似性,忽略概念相鄰元素及其語(yǔ)義聯(lián)系,利用
本體語(yǔ)義程度低的缺陷。 本發(fā)明的技術(shù)方案包括以下步驟, 步驟一,將待比較的兩個(gè)本體概念定為目標(biāo)元素,為兩個(gè)目標(biāo)元素分別建立由具 有語(yǔ)義聯(lián)系的相鄰元素及其聯(lián)系所構(gòu)成的虛擬路徑;所述相鄰元素包括有目標(biāo)元素的前驅(qū) 元素和后驅(qū)元素;所述虛擬路徑的結(jié)構(gòu)由5個(gè)獨(dú)立要素組成,即前驅(qū)元素_前驅(qū)元素與目 標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系-目標(biāo)元素-目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān) 系_后驅(qū)元素; 步驟二,將兩個(gè)目標(biāo)元素的虛擬路徑中各獨(dú)立要素分別對(duì)應(yīng)進(jìn)行概念語(yǔ)義相似性 比較; 步驟三,綜合虛擬路徑內(nèi)各獨(dú)立要素的概念語(yǔ)義相似性,獲取兩個(gè)目標(biāo)元素虛擬 路徑的圖形語(yǔ)義相似性; 步驟四,根據(jù)虛擬路徑的圖形語(yǔ)義相似性推導(dǎo)兩個(gè)目標(biāo)元素之間的映射關(guān)系。
而且,步驟三的具體實(shí)施方式
為,將虛擬路徑中各獨(dú)立要素分為三組,第一組為前 驅(qū)元素_前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系,第二組為目標(biāo)元素,第三組為目 標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān)系_后驅(qū)元素;按分組將各獨(dú)立要素的概念語(yǔ)義 相似性加權(quán)綜合為兩個(gè)目標(biāo)元素虛擬路徑的圖形語(yǔ)義相似性。 而且,當(dāng)對(duì)前驅(qū)元素、目標(biāo)元素或后驅(qū)元素進(jìn)行概念語(yǔ)義相似性比較時(shí),采用基于 語(yǔ)言的方法和基于字符串的方法相結(jié)合的元素比較方法實(shí)現(xiàn),具體實(shí)現(xiàn)方式如下,
首先采用基于語(yǔ)言的方法,即去除待比較的2個(gè)元素el和e2的元素名稱中的冗 余信息;然后基于字符串的方法判斷元素名稱是否一致,即對(duì)元素名稱逐個(gè)字符比較;如 果一致,即元素名稱的語(yǔ)義相似性為1 ;如果不相似,再借助外部信息源計(jì)算兩個(gè)元素el和 e2的概念語(yǔ)義相似性,計(jì)算公式如下S/辟l, e2) = ~~^-, 其中,sp表示元素el和e2之間最短路徑的長(zhǎng)度,皿m表示元素el和e2之間最短
路徑的方向改變次數(shù),Cb^表示四種關(guān)系的語(yǔ)義相似度基數(shù),如果兩個(gè)元素是相等關(guān)系,那
么Cb_ = 4C ;兩個(gè)元素是包含與屬于關(guān)系,那么Cb_ = 3C ;如果兩個(gè)元素是部分與整體關(guān)
系,那么= 2C,如果兩個(gè)元素是不相交關(guān)系,那么Cb_ = C ;C = 1. 0 ; 當(dāng)對(duì)前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系、目標(biāo)元素與后驅(qū)元素之間的
屬性或者語(yǔ)義關(guān)系進(jìn)行概念語(yǔ)義相似性比較時(shí),將屬性或者語(yǔ)義關(guān)系視為元素,按上述獨(dú)
立要素比較方法實(shí)現(xiàn)。 由上述本發(fā)明提供的技術(shù)方案可以看出,該方法從元素相鄰元素及其語(yǔ)義聯(lián)系的要素出發(fā),將元素的前驅(qū)元素、語(yǔ)義聯(lián)系、元素的后驅(qū)元素組成元素的虛擬路徑;針對(duì)元素 的虛擬路徑,在分別考察前驅(qū)元素,屬性,元素本身以及后驅(qū)元素獨(dú)立語(yǔ)義相似性的基礎(chǔ) 上,進(jìn)行組合加權(quán),得到虛擬路徑的元素語(yǔ)義相似性,從而實(shí)現(xiàn)了基于虛擬路徑的本體映 射。該方法的優(yōu)點(diǎn)是考慮元素的相鄰元素及其語(yǔ)義聯(lián)系等要素對(duì)元素語(yǔ)義的影響,將元素 的語(yǔ)義考察范圍確定為元素的虛擬路徑,與現(xiàn)有的分析元素本體結(jié)構(gòu)的語(yǔ)義相似度側(cè)重于 某個(gè)要素比較,該方法考察范圍更為全面,克服了現(xiàn)有本體映射方法只考慮概念語(yǔ)義相似 性,利用本體語(yǔ)義程度低的缺陷,提高了本體映射的質(zhì)量和性能,該方法在計(jì)算機(jī)中運(yùn)行的
時(shí)間開(kāi)銷(xiāo)小,滿足本體映射的性能要求。同時(shí),該方法提高了本體映射的查全率,查準(zhǔn)率以 及F-measure等各項(xiàng)質(zhì)量評(píng)價(jià)指標(biāo),在邏輯上滿足本體映射的需求。
圖1為本發(fā)明的流程圖; 圖2為概念語(yǔ)義相似性比較示意圖; 圖3為本發(fā)明的圖形語(yǔ)義相似性比較示意圖; 圖4為本發(fā)明實(shí)施例示意圖。
具體實(shí)施例方式
以下結(jié)合附圖對(duì)本發(fā)明技術(shù)方案進(jìn)行詳細(xì)描述。按以下步驟實(shí)現(xiàn)本體概念映射。 具體實(shí)施時(shí),可以采用計(jì)算機(jī)手段實(shí)現(xiàn)。為了方便描述起見(jiàn),圖中將前驅(qū)元素與目標(biāo)元素之 間的屬性或者語(yǔ)義關(guān)系、目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān)系簡(jiǎn)化標(biāo)注為屬性。
步驟一,將待比較的兩個(gè)本體概念定為目標(biāo)元素,為兩個(gè)目標(biāo)元素分別建立由具 有語(yǔ)義聯(lián)系的相鄰元素及其聯(lián)系所構(gòu)成的虛擬路徑;所述相鄰元素包括有目標(biāo)元素的前驅(qū) 元素和后驅(qū)元素;所述虛擬路徑的結(jié)構(gòu)由5個(gè)獨(dú)立要素組成,即前驅(qū)元素_前驅(qū)元素與目 標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系-目標(biāo)元素-目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān) 系_后驅(qū)元素; 如附圖3中所示,h和lV為待比較的兩個(gè)目標(biāo)元素。其中h的前驅(qū)元素為lv 后驅(qū)元素為lV構(gòu)成的虛擬路徑用(a)部分的樹(shù)狀結(jié)構(gòu)表示;其中IV的前驅(qū)元素為b/ , 后驅(qū)元素為IV ,構(gòu)成的虛擬路徑用(b)部分的樹(shù)狀結(jié)構(gòu)表示。 步驟二,將兩個(gè)目標(biāo)元素的虛擬路徑中各獨(dú)立要素分別對(duì)應(yīng)進(jìn)行概念語(yǔ)義相似性 比較; 本發(fā)明提供了獨(dú)創(chuàng)的獨(dú)立要素比較方法,以便高效準(zhǔn)確地獲取概念語(yǔ)義相似性比 較結(jié)果無(wú)論是前驅(qū)元素、目標(biāo)元素或后驅(qū)元素,都以元素為單位進(jìn)行比較,將待比較的元 素標(biāo)記為el和e2。首先采用基于語(yǔ)言的方法,即去除待比較的2個(gè)元素el和e2的元素名 稱中的冗余信息;然后基于字符串的方法判斷元素名稱是否一致,即對(duì)元素名稱逐個(gè)字符 比較;如果一致,即元素名稱的語(yǔ)義相似性為1 ;如果不相似,再借助外部信息源計(jì)算兩個(gè) 元素el和e2的概念語(yǔ)義相似性,計(jì)算公式如下<formula>formula see original document page 8</formula> 其中,sp表示元素el和e2之間最短路徑的長(zhǎng)度,皿m表示元素el和e2之間最短路徑的方向改變次數(shù),Cb^表示四種關(guān)系的語(yǔ)義相似度基數(shù),如果兩個(gè)元素是相等關(guān)系,那 么Cb_ = 4C ;兩個(gè)元素是包含與屬于關(guān)系,那么Cb_ = 3C ;如果兩個(gè)元素是部分與整體關(guān)
系,那么= 2C,如果兩個(gè)元素是不相交關(guān)系,那么Cb_ = C ;C = 1. 0。其中比較特殊的 是相等關(guān)系和不相交關(guān)系,當(dāng)兩個(gè)元素相同時(shí),Cbase = 4, sp = 0,誦=O,所以SimE(el, e2) = 1.0。當(dāng)兩個(gè)元素不相交時(shí),Cbase = l,sp和皿m都遠(yuǎn)大于1,所示SimE(el,e2) = 0。
參見(jiàn)附圖2,其中(a)部分表示的元素A和^之間是部分或整體關(guān)系,元素NCA表 示兩個(gè)元素的最近共同祖先元素??梢缘贸?,Cbase = 2, sp = 2,皿m = l,所以元素ai和a2 的概念語(yǔ)義相似度SimE(^,a2) =2/(2+2+1) =0.4。圖2 (b)表示的元素a/和a 之間 關(guān)系屬于Strong(包含或?qū)儆陉P(guān)系),因此,Cbase = 3, sp = 1,皿m = 0,由此得出元素a/ 和a 的概念語(yǔ)義相似度SimE(a/ ,a2' ) = 3/(3+1+0) = 0. 75。 當(dāng)對(duì)前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系、目標(biāo)元素與后驅(qū)元素之間的 屬性或者語(yǔ)義關(guān)系進(jìn)行概念語(yǔ)義相似性比較時(shí),將屬性或者語(yǔ)義關(guān)系視為一個(gè)元素,按上 述獨(dú)立要素比較方法實(shí)現(xiàn)即可。附圖3中的虛擬路徑中獨(dú)立要素均按照獨(dú)立要素比較方法 分別比較后,得到前驅(qū)元素的概念語(yǔ)義相似性SimE ^'),前驅(qū)元素與目標(biāo)元素之間屬 性的概念語(yǔ)義相似性SimE (P (b》,P ')),目標(biāo)元素的概念語(yǔ)義相似性SimE (b2, b2'), 目標(biāo)元素與后驅(qū)元素之間屬性的概念語(yǔ)義相似性SimE(P(b2) , P(b2')),以及后驅(qū)元素的 概念語(yǔ)義相似性SimE (b3, b3')。 本發(fā)明所提供獨(dú)立要素比較方法是對(duì)現(xiàn)有Hirst & St-Onge語(yǔ)義相似度比較方法 的改進(jìn)。Hirst & St-Onge語(yǔ)義相似度比較方法中sp和皿m都是作為差數(shù)出現(xiàn),而在本發(fā) 明所提供方案中作為分母出現(xiàn)。這種方法的優(yōu)點(diǎn)是可以處理不相交關(guān)系中sp為無(wú)窮大,以 及相同關(guān)系中,sp = 0的特殊情況。另外,本發(fā)明提供的計(jì)算公式是經(jīng)過(guò)標(biāo)準(zhǔn)化處理的,語(yǔ) 義相似度值域在[O,l]之間,能夠節(jié)約計(jì)算機(jī)系統(tǒng)運(yùn)行開(kāi)銷(xiāo)。而Hirst & St-Onge語(yǔ)義相 似度比較方法中是以權(quán)重Weight的值作為相似度的值,不符合語(yǔ)義相似度在[O,l]區(qū)間的 特點(diǎn)。 步驟三,綜合虛擬路徑內(nèi)各獨(dú)立要素的概念語(yǔ)義相似性,獲取兩個(gè)目標(biāo)元素的圖 形語(yǔ)義相似性; 考慮到元素與屬性之間具有不可分割的意義,本發(fā)明提出綜合虛擬路徑內(nèi)各獨(dú)立 要素的概念語(yǔ)義相似性的方案為首先對(duì)虛擬路徑內(nèi)各獨(dú)立要素進(jìn)行分組,第一組為前驅(qū) 元素_前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系,第二組為目標(biāo)元素,第三組為目標(biāo) 元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān)系_后驅(qū)元素;按分組將各獨(dú)立要素的概念語(yǔ)義相 似性加權(quán)綜合為兩個(gè)目標(biāo)元素虛擬路徑的圖形語(yǔ)義相似性。然后按組加權(quán)綜合,其中第一 組根據(jù)SimE0vb/ )和SimE(P(b》,P(b/ ))求得表示該組元素以及元素屬性或語(yǔ)義關(guān)
系的相似關(guān)系的組合語(yǔ)義相似性SimEP(b/re, b2'Me);第三組根據(jù)SimE (P (b2) , P (b2 '))
和SimE0vlV )求得該組的元素屬性或語(yǔ)義關(guān)系以及元素的相似關(guān)系的組合語(yǔ)義相似性 SimPE(b2nrart,b2' nrart)。虛擬路徑的圖形語(yǔ)義相似性可視為這三組的語(yǔ)義相似性加權(quán)之禾口, 因此元素h和lV的虛擬路徑的圖形語(yǔ)義相似性 SimC(b2,b2' ) = Wp*SimEP(b2pre, b2 ' pre)+We*SimE (b2, b2 ' )+Wn*SimPE (b2next, b z next)其中SimEP(b2pre, b2 ' pre) = SimE (b一P (b》,'氺P(t^ ' )) 二SimE(b"V )氺SimE(P(b》,P(V )), SimPE(b2next, b2 ' next) = SimE (P (b2) *b3, P (b2 ' )*b3 ' ) =SimE(P(b2), P(V ))*SimE(b3, b3')。 Wp表示前驅(qū)元素及其屬性的語(yǔ)義相似性分配的權(quán)重比例,We表示元素的獨(dú)立語(yǔ) 義相似性分配的權(quán)重比例,Wn表示屬性與后驅(qū)元素的語(yǔ)義相似性分配的權(quán)重比例。這三個(gè) 權(quán)重之和為1,即Wp+We+Wn = 1。 步驟四,根據(jù)虛擬路徑的圖形語(yǔ)義相似性推導(dǎo)兩個(gè)目標(biāo)元素之間的映射關(guān)系。
取得虛擬路徑的圖形語(yǔ)義相似性比較結(jié)果S后,即可根據(jù)結(jié)果推導(dǎo)兩個(gè)目標(biāo)元素 之間的映射關(guān)系。本發(fā)明采用國(guó)際上廣泛采用的映射關(guān)系分類(lèi)方法,將映射關(guān)系類(lèi)型分為 相等關(guān)系、類(lèi)屬關(guān)系、部分整體關(guān)系、不相交關(guān)系;如果語(yǔ)義相似性比較結(jié)果S = l,則兩個(gè) 元素為相等關(guān)系;如果0. 8《S < l,則兩個(gè)元素為類(lèi)屬關(guān)系;如果0. 5《S < 0. 8,則兩個(gè) 元素為部分整體關(guān)系;如果S < 0. 5,則兩個(gè)元素為不相交關(guān)系。 具體實(shí)施時(shí),會(huì)出現(xiàn)一個(gè)目標(biāo)元素有數(shù)個(gè)后驅(qū)元素等多種情況。為了便于實(shí)施,本 發(fā)明提供了實(shí)施例以供參考,參見(jiàn)附圖4:以q和c/為目標(biāo)元素,附圖4中(a)部分的樹(shù)狀 結(jié)構(gòu)中還有元素Cl和q,但以目標(biāo)元素c4構(gòu)成的虛擬路徑只包括c4的前驅(qū)元素q,后驅(qū)元 素Cs和Ce;同樣,(a)部分的樹(shù)狀結(jié)構(gòu)中,以目標(biāo)元素c/構(gòu)成的虛擬路徑只包括c4'的前 驅(qū)元素(V ,后驅(qū)元素(V和(V 。附圖4中給后驅(qū)元素C5和Ce分別分配了權(quán)重W工和W2, 后驅(qū)元素cs'和cV分配了權(quán)重W/和W 。套用SimPE(b2加xt,V next) =SimE(P(b2)*b3, P(b2' )*b3' ) = SimE(P(b2),P(b2' ))*SimE(b3,b3')計(jì)算時(shí),本發(fā)明實(shí)施例采用兩個(gè)權(quán) 重平均值(W工和W/ )/2以及(W^W^ )/2作為兩個(gè)后驅(qū)元素路徑的權(quán)重,求取后驅(qū)元素相
關(guān)元素屬性或語(yǔ)義關(guān)系以及元素的相似關(guān)系過(guò)程如下
S/mi^(C:', C4 ,') = ^V^CC^ *戶(C4 ), C5,『2 * P(C4 ), C6 ), '*戶(C4 ), C5 ',『2 '* P(q '), C6 '))
=、1山S/附(尸(C4)斥4 '))*S,'W(C5,C5 '),2"K(C4),尸(q ')) * 5/附(& , ^ ')
權(quán)利要求
一種本體概念映射方法,其特征在于包括以下步驟,步驟一,將待比較的兩個(gè)本體概念定為目標(biāo)元素,為兩個(gè)目標(biāo)元素分別建立由具有語(yǔ)義聯(lián)系的相鄰元素及其聯(lián)系所構(gòu)成的虛擬路徑;所述相鄰元素包括有目標(biāo)元素的前驅(qū)元素和后驅(qū)元素;所述虛擬路徑的結(jié)構(gòu)由5個(gè)獨(dú)立要素組成,即前驅(qū)元素-前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系-目標(biāo)元素-目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān)系-后驅(qū)元素;步驟二,將兩個(gè)目標(biāo)元素的虛擬路徑中各獨(dú)立要素分別對(duì)應(yīng)進(jìn)行概念語(yǔ)義相似性比較;步驟三,綜合虛擬路徑內(nèi)各獨(dú)立要素的概念語(yǔ)義相似性,獲取兩個(gè)目標(biāo)元素虛擬路徑的圖形語(yǔ)義相似性;步驟四,根據(jù)虛擬路徑的圖形語(yǔ)義相似性推導(dǎo)兩個(gè)目標(biāo)元素之間的映射關(guān)系。
2. 根據(jù)權(quán)利要求1所述的本體概念映射方法,其特征在于步驟三的具體實(shí)施方式
為, 將虛擬路徑中各獨(dú)立要素分為三組,第一組為前驅(qū)元素_前驅(qū)元素與目標(biāo)元素之間的屬性 或者語(yǔ)義關(guān)系,第二組為目標(biāo)元素,第三組為目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān) 系_后驅(qū)元素;按分組將各獨(dú)立要素的概念語(yǔ)義相似性加權(quán)綜合為兩個(gè)目標(biāo)元素虛擬路徑 的圖形語(yǔ)義相似性。
3. 根據(jù)權(quán)利要求1或2所述的本體概念映射方法,其特征在于當(dāng)對(duì)前驅(qū)元素、目標(biāo)元 素或后驅(qū)元素進(jìn)行概念語(yǔ)義相似性比較時(shí),采用基于語(yǔ)言的方法和基于字符串的方法相結(jié) 合的獨(dú)立要素比較方法實(shí)現(xiàn),具體實(shí)現(xiàn)方式如下,首先采用基于語(yǔ)言的方法,即去除待比較的2個(gè)元素el和e2的元素名稱中的冗余信 息;然后基于字符串的方法判斷元素名稱是否一致,即對(duì)元素名稱逐個(gè)字符比較;如果一 致,即元素名稱的語(yǔ)義相似性為1 ;如果不相似,再借助外部信息源計(jì)算兩個(gè)元素el和e2 的概念語(yǔ)義相似性,計(jì)算公式如下S滅(d,e2) =-^-,其中,sp表示元素el和e2之間最短路徑的長(zhǎng)度,皿m表示元素el和e2之間最短路 徑的方向改變次數(shù),Cb^表示四種關(guān)系的語(yǔ)義相似度基數(shù),如果兩個(gè)元素是相等關(guān)系,那么 Cbase = 4C ;兩個(gè)元素是包含與屬于關(guān)系,那么Cb_ = 3C ;如果兩個(gè)元素是部分與整體關(guān)系, 那么Cb_ = 2C,如果兩個(gè)元素是不相交關(guān)系,那么Cb_ = C ;C = 1. 0 ;當(dāng)對(duì)前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系、目標(biāo)元素與后驅(qū)元素之間的屬性 或者語(yǔ)義關(guān)系進(jìn)行概念語(yǔ)義相似性比較時(shí),將屬性或者語(yǔ)義關(guān)系視為元素,按上述獨(dú)立要 素比較方法實(shí)現(xiàn)。
全文摘要
一種本體概念映射方法,包括以下步驟將待比較的兩個(gè)本體概念定為目標(biāo)元素,為兩個(gè)目標(biāo)元素分別建立由具有語(yǔ)義聯(lián)系的相鄰元素及其聯(lián)系所構(gòu)成的虛擬路徑,即前驅(qū)元素-前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系-目標(biāo)元素-目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān)系-后驅(qū)元素;將兩個(gè)目標(biāo)元素的虛擬路徑中各獨(dú)立要素分別對(duì)應(yīng)進(jìn)行概念語(yǔ)義相似性比較;綜合虛擬路徑內(nèi)各獨(dú)立要素的概念語(yǔ)義相似性,獲取兩個(gè)目標(biāo)元素虛擬路徑的圖形語(yǔ)義相似性;根據(jù)虛擬路徑的圖形語(yǔ)義相似性推導(dǎo)兩個(gè)目標(biāo)元素之間的映射關(guān)系。本發(fā)明提供的本體概念映射方法側(cè)重于概念的相鄰元素及其語(yǔ)義聯(lián)系,考察范圍更為全面,提高了本體映射的質(zhì)量和性能。
文檔編號(hào)G06F17/30GK101739414SQ20081019785
公開(kāi)日2010年6月16日 申請(qǐng)日期2008年11月25日 優(yōu)先權(quán)日2008年11月25日
發(fā)明者劉三女牙, 劉清堂, 楊宗凱, 汪虹, 趙剛, 黃濤 申請(qǐng)人:華中師范大學(xué)