一種本體概念映射方法

文檔序號(hào)：6469186閱讀：246來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱：一種本體概念映射方法
技術(shù)領(lǐng)域：
本發(fā)明屬于本體映射技術(shù)領(lǐng)域，特別是涉及一種基于虛擬路徑的本體概念映射方法。
背景技術(shù)：
本體作為一種語(yǔ)義和知識(shí)層面上的概念共享模型，自提出以來(lái)就引起數(shù)據(jù)整合、
P2P系統(tǒng)、電子商務(wù)、語(yǔ)義Web服務(wù)、社會(huì)網(wǎng)絡(luò)(Social Networks)等應(yīng)用領(lǐng)域科研人員的廣
泛關(guān)注，并得到了有效的研究與應(yīng)用，提出了一系列基于本體的領(lǐng)域問(wèn)題解決方法。本體映射(Ontology M即ping)是發(fā)現(xiàn)不同本體之間實(shí)體元素(包括本體的類(lèi)、屬
性或者個(gè)體)映射關(guān)系的關(guān)鍵技術(shù)，已被國(guó)內(nèi)外學(xué)者普遍認(rèn)為是解決計(jì)算機(jī)系統(tǒng)語(yǔ)義異構(gòu)
問(wèn)題的有效手段之一。本體映射中映射元素是四元組〈mlD，Nil，Nj2，R〉，i = l...h;j = 1. . k ;其中mID
是獨(dú)一無(wú)二的標(biāo)示符，Nil表示第一個(gè)圖形的第i個(gè)結(jié)點(diǎn)，Nj2表示第二個(gè)圖形的j個(gè)結(jié)點(diǎn)， h是第一個(gè)圖形結(jié)點(diǎn)的數(shù)量，k是第二個(gè)圖形結(jié)點(diǎn)的數(shù)量，R表示其中結(jié)點(diǎn)的相似關(guān)系。映射就是通過(guò)一定的方法找出這種映射關(guān)系的過(guò)程。目前國(guó)內(nèi)外有很多研究者都在研究本體映射技術(shù)，P. Shvaiko等人對(duì)本體映射操作的定義是輸入兩個(gè)本體，每個(gè)本體都由具體的實(shí)體Entity(包含類(lèi)Class、屬性 properties、關(guān)系Relationships)等構(gòu)成，最后的輸出結(jié)果決定了這些實(shí)體之間的關(guān)系 (等于、包含等關(guān)系)。 E. Rahm提出了本體映射方法分類(lèi)。將模式/本體映射方法分為獨(dú)立映射方法和混合映射方法兩類(lèi)，獨(dú)立映射方法指一種可以單獨(dú)進(jìn)行本體映射的方法，混合映射方法中用到了二種以上的獨(dú)立映射方法。獨(dú)立映射方法包含基于模式的方法和基于實(shí)例的方法。基于模式的方法是目前研究比較多的一種方法，它包含元素層次的方法和結(jié)構(gòu)層次的方法。
基于模式的映射方法模式映射方法僅考慮模式結(jié)構(gòu)信息(如XML Schema, ontology)等模式結(jié)構(gòu)中概念、屬性、關(guān)系等的語(yǔ)義相似性，而不考慮實(shí)例數(shù)據(jù)的相似性。模式映射方法是目前被廣泛研究的方法，根據(jù)映射的粒度可以將模式映射劃分為元素層次的映射方法和結(jié)構(gòu)層次的映射方法。基于實(shí)例的映射方法實(shí)例映射方法考慮模式元素的實(shí)際內(nèi)容或?qū)嶋H含義，模式可以通過(guò)實(shí)例數(shù)據(jù)手動(dòng)或者自動(dòng)的建立。例如可以從一個(gè)XML文檔實(shí)例中提取出基于圖形的XML Schema。基于模式的映射方法大部分都可以適用于基于實(shí)例的映射方法，但是目前在實(shí)例
的映射方法中，比較適用的是基于機(jī)器學(xué)習(xí)的方法。基于模式的映射方法主要包括以下四種( — )元素層次的映射方法元素層次的映射方法是指從實(shí)體本身來(lái)考慮某個(gè)實(shí) 體之間的映射，而不考慮實(shí)體周?chē)钠渌鼗蛘哧P(guān)系。也就是將元素從元素所處的虛擬中割裂出來(lái)單獨(dú)考慮。
( 二 )結(jié)構(gòu)層次的映射方法結(jié)構(gòu)層次的映射方法不僅從實(shí)體本身來(lái)考慮某個(gè)實(shí) 體之間的映射，而將實(shí)體所處的結(jié)構(gòu)綜合考慮，即將元素和元素的屬性、屬性值等元素所處的結(jié)構(gòu)中與元素相關(guān)的要素進(jìn)行綜合考慮。(三)基于語(yǔ)言學(xué)的映射方法語(yǔ)言層次的映射方法從實(shí)體的文本名稱或者對(duì)實(shí) 體的文本描述來(lái)考慮實(shí)體之間映射關(guān)系。語(yǔ)言層次的映射方法適用于本體(模式)元素層次的映射，目前運(yùn)用比較廣泛的基于語(yǔ)言學(xué)的映射方法主要包括基于關(guān)鍵字詞頻的統(tǒng)計(jì)方法，基于向量空間模型(VSM)的統(tǒng)計(jì)方法，基于編輯距離(Edit Distance)的方法。
(四)基于約束的映射方法基于約束的方法從實(shí)體的類(lèi)型或者線索來(lái)取得實(shí)體之間的映射關(guān)系，它既適用于元素層次的映射，也適用于結(jié)構(gòu)層次的映射。它根據(jù)本體(模式)實(shí)體的數(shù)據(jù)類(lèi)型、值域、關(guān)系類(lèi)型、實(shí)體的勢(shì)等約束條件來(lái)計(jì)算相似性(Similarity)。基于約束的方法很少獨(dú)立使用，一般都是配合其他方法一起使用。與本體映射方法分類(lèi)相應(yīng)，本體映射系統(tǒng)可以分為幾大類(lèi)基于模式(Schema)的映射系統(tǒng)，基于實(shí)例(Instance)的映射系統(tǒng)，基于混合模式的映射系統(tǒng)。
Cupid是德國(guó)萊比錫大學(xué)(University of Leipzig)的Erhard Rahm和美國(guó)華盛頓大學(xué)(University of Washington)的Jayant Madhavan提出的一種模式映射方法。該方法將映射問(wèn)題看成是計(jì)算兩個(gè)模式元素的相似系數(shù)(SimilarityCoefficient)，系數(shù)的取值范圍在[O，l]之間，然后通過(guò)相似系數(shù)來(lái)推導(dǎo)元素的映射關(guān)系。該方法將模式映射分成兩個(gè)步驟，分別計(jì)算元素的獨(dú)立語(yǔ)義性和元素的結(jié)構(gòu)語(yǔ)義性。第一步，計(jì)算元素的獨(dú)立相似系數(shù)，Cupid采用的方法是基于語(yǔ)言學(xué)的映射方法(Linguistic Match)，借用術(shù)語(yǔ)詞典來(lái)映射獨(dú)立元素的名稱、數(shù)據(jù)類(lèi)型和所屬領(lǐng)域等信息。語(yǔ)言學(xué)的映射方法通過(guò) 表征化(normalization)、歸類(lèi)(Categorization)等手段對(duì)獨(dú)立元素進(jìn)行映射，計(jì)算出元素的語(yǔ)言層次的相似系數(shù)lsim(linguistic similarity coefficients)。第二步，計(jì) 算元素的結(jié)構(gòu)相似系數(shù)，根據(jù)元素所處的模式結(jié)構(gòu)來(lái)推導(dǎo)元素的相似系數(shù)。將元素所處的模式結(jié)構(gòu)看成是樹(shù)狀圖形，然后根據(jù)以下三個(gè)原則來(lái)推導(dǎo)元素的結(jié)構(gòu)層次的相似系數(shù) ssim(structural similarity)。 COMA (Combination of MAtching algorithms)是由德國(guó)萊比錫大學(xué)Hong-Hai Do 和Erhard Rahm提出的一種組合多種映射方式的混合型模式映射系統(tǒng)，和Cupid采用獨(dú)立映射方法不同的是，Coma系統(tǒng)采用的是混合映射方法，通過(guò)靈活地組合不同的映射方式及其結(jié)果來(lái)推導(dǎo)最終的模式映射結(jié)果。Coma映射系統(tǒng)將待比較的模式轉(zhuǎn)化成帶有根節(jié)點(diǎn)的有向無(wú)環(huán)圖(Rooted Directed AcyclicGr即hs)，映射操作將輸入兩個(gè)模式，然后決定兩個(gè) 模式中元素的語(yǔ)義映射關(guān)系。Coma主要利用模式信息，如元素和結(jié)構(gòu)屬性，來(lái)重用以前的映射結(jié)果，在映射過(guò)程的不同階段Coma應(yīng)用了不同的組合策略，并選擇合適的映射算法和映射系統(tǒng)，這可顯著地提高映射效率。它由簡(jiǎn)單映射器(Simple Matchers)、混合映射器 (Hybird Matchers)禾口復(fù)雜重用映射器(Complex Reuse oriented Matchers)組成。其中簡(jiǎn)單映射器主要分析元素名稱的詞義和語(yǔ)義相似系數(shù)。詞義相似系數(shù)通過(guò)計(jì)算元素名稱的前綴名、后綴名(Affix) 、 ngram、編輯距離(Edit Distance)、發(fā)音(Soundex)這4個(gè)近似字符串映射器(A卯roximate String Matcher)來(lái)獲得。語(yǔ)義相似系數(shù)通過(guò)專(zhuān)業(yè)字典中元素的關(guān)系來(lái)獲取，包括元素的同、異義以及數(shù)據(jù)類(lèi)型等方面?；旌嫌成淦髦С?種元素層次混合和3種結(jié)構(gòu)層次混合方法，2種元素層次混合方法包括名稱(Name)和元素名稱類(lèi)型(NameType) ，3種結(jié)構(gòu)層次混合方法包括名稱路徑、子結(jié)點(diǎn)和葉子結(jié)點(diǎn)。復(fù)雜重用映射器利用術(shù)語(yǔ)辭典的思想，將術(shù)語(yǔ)辭典中可重用的同義、異義元素的范圍進(jìn)行擴(kuò)展，儲(chǔ)存映射結(jié)構(gòu) 中通過(guò)簡(jiǎn)單映射器和混合映射器獲取的映射關(guān)系，以便其他的映射器進(jìn)行重用。Coma++是對(duì)Coma系統(tǒng)的擴(kuò)展和改進(jìn)，它支持模式和本體的映射，并使用圖形界面的方法讓用戶來(lái)選擇合適的映射策略和映射結(jié)果，通過(guò)用戶的反饋來(lái)對(duì)映射的結(jié)果進(jìn)行修改。
SF是由斯坦福大學(xué)(Stanford Univeristy)的Sergey Melnik和德國(guó)萊比錫大學(xué) Erhard Rahm于2002年提出的一種映射多種數(shù)據(jù)源的通用結(jié)構(gòu)層次，可以廣泛適用于多個(gè) 應(yīng)用領(lǐng)域。SF的基本思想是如果模式結(jié)構(gòu)中兩個(gè)相鄰元素是相似的，那么可以推斷這兩個(gè) 元素也是相似的。該方法將整個(gè)映射過(guò)程分成4步首先通過(guò)函數(shù)SQL2Gr即h (Schema)將模式結(jié)構(gòu)轉(zhuǎn)化成有向標(biāo)記圖(labeledgraph)，然后通過(guò)名稱映射函數(shù)StringMatch (graphl， gr即h2)對(duì)有向圖結(jié)構(gòu)中的元素進(jìn)行映射，得出元素之間的初始化相似系數(shù)initialM即。第三步，通過(guò)洪泛算法SFjoin(graphl， graph2， initialMap)對(duì)初始化相似系數(shù)進(jìn)行迭代，直到它達(dá)到某個(gè)收斂值，作為元素之間結(jié)構(gòu)相似系數(shù)SFresult。最后，它用選擇閾值函數(shù) SelectThreshold(SFresult)來(lái)選擇出符合條件的相似值。 Falcon_A0(Finding, aligning and learning ontologies, ultimately for c即turingknowledge via ontology-driven approaches)是由東南大學(xué)瞿裕忠教授禾口胡偉博士等人開(kāi)發(fā)的基于模式的本體對(duì)齊工具，它分別通過(guò)語(yǔ)言特性(LM0)和結(jié)構(gòu)特性(GM0)兩個(gè)途徑來(lái)研究本體的相似性，這兩個(gè)方法都是比較本體中元素的映射關(guān)系。 LMO(Lingusitic Matching for Ontology)通過(guò)計(jì)算兩個(gè)實(shí)體的編輯距離來(lái)計(jì)算元素的名稱相似系數(shù)SS，然后通過(guò)向量空間模型(Vector Space Model)統(tǒng)計(jì)分析方法來(lái)得到兩個(gè)文檔的余弦相似系數(shù)DS，最后根據(jù)SS和DS的系數(shù)得到最終的語(yǔ)言層次相似系數(shù)。GMO(Graph Matching for Ontologies)將本體用雙向圖形表示，并將其中的實(shí)體用三元組(主語(yǔ)、斷言、謂語(yǔ))的形式表示，然后比較三元組的相似性。在對(duì)三元組進(jìn)行比較時(shí)，使用鄰接矩陣建模，通過(guò)對(duì)矩陣的計(jì)算來(lái)比較結(jié)構(gòu)相似性。GM0和LM0互相獨(dú)立，相似性比較的對(duì)象都是整個(gè)本體。LM0作為GM0的外部實(shí)體，對(duì)GM0的結(jié)果有一定的約束作用，例如當(dāng)LM0很低的時(shí)候，最后的結(jié)果以GMO的結(jié)果為準(zhǔn)。 H-Match是由意大利米蘭大學(xué)Silvana Castano， Alfio Ferrara等人提出的面向分布式本體的動(dòng)態(tài)映射方法，它以兩個(gè)本體作為輸入，并輸出兩個(gè)本體中具有語(yǔ)義相似性的元素對(duì)。相似性的分析是通過(guò)計(jì)算概念的
之間的語(yǔ)義相近系數(shù)(Semantic Affinity)。它是在模式映射方法Artemis的基礎(chǔ)上，借鑒了基于WordNet詞義系統(tǒng)的方法來(lái)計(jì)算概念的語(yǔ)言層次相似性(Linguistic Affinity)，然后在語(yǔ)言層次概念相似性的基礎(chǔ)上，給出了四個(gè)層次的結(jié)構(gòu)相似性，分別是表面層次(Surface)、淺層次(Shallow)，深層次(De印)，極深層次(Intensive) ， H-Match稱之為語(yǔ)境相似性(Contextual Affinity)。這四個(gè)層次的相似性的語(yǔ)義程度是逐漸加強(qiáng)的，其中表面層次只考慮概念的語(yǔ)言層次相似性；淺層次在概念層次的基礎(chǔ)上，加入概念的屬性；深層次在淺層次的基礎(chǔ)上加入語(yǔ)義聯(lián) 系；極深層次在深層次的基礎(chǔ)上，加入概念的屬性值。H-Match還根據(jù)用戶的需求來(lái)制定映射策略，選擇本體映射的層次、語(yǔ)境相似性和語(yǔ)言相似性的加權(quán)系數(shù)、以及映射限制等參數(shù)。它可以適用于0WL(0WL Lite、0WL DL和OWL Full)三種語(yǔ)言描述的本體映射。
S-Match是由意大利特蘭托大學(xué)Fausto Giunchiglia、 Pavel Shvaiko等人提出的模式語(yǔ)義映射系統(tǒng)，它和Cupid、Coma等模式映射系統(tǒng)采用的方法有很大的區(qū)別。Cupid、 Coma等系統(tǒng)將模式映射分為元素層次映射和結(jié)構(gòu)層次映射，并且映射的結(jié)構(gòu)用[O，l]之間的相似系數(shù)表示。而S-Match采用概念標(biāo)簽映射、概念語(yǔ)義映射兩個(gè)步驟來(lái)推導(dǎo)概念的語(yǔ) 義聯(lián)系，映射的結(jié)果用語(yǔ)義關(guān)系符(屬于^，包含2，不相交上等)來(lái)表示。因此，S-Match被稱為真正意義上的語(yǔ)義映射系統(tǒng)。S-Match將輸入的本體表示成樹(shù)狀圖形結(jié)構(gòu)，然后將概念的映射分成概念的標(biāo)簽(Label)映射和概念映射。其中概念的標(biāo)簽映射采用語(yǔ)言層次的映射方法，并借用已有的語(yǔ)言層次映射器來(lái)計(jì)算概念標(biāo)簽的詞義聯(lián)系，并使用數(shù)據(jù)庫(kù)來(lái)儲(chǔ)存這些結(jié)果。S-Match的獨(dú)創(chuàng)性在于概念的語(yǔ)義映射(Node Matching)，它將樹(shù)結(jié)點(diǎn)的語(yǔ)義用形式化模型表示，把樹(shù)結(jié)點(diǎn)映射問(wèn)題轉(zhuǎn)化為命題正確問(wèn)題。因此概念A(yù)和概念B的語(yǔ)義關(guān) 系存在與否取決于公式(axioms) — rel (contextA， contextB)是否正確，S-Match通過(guò)將概念的語(yǔ)義關(guān)系比較轉(zhuǎn)化為形式化公式的驗(yàn)證問(wèn)題。對(duì)于公式的驗(yàn)證，S-Match使用標(biāo)準(zhǔn) 的SAT(Propositional Satisfiability, SAT)解析器來(lái)進(jìn)行判斷。 GLUE是比較典型的基于實(shí)例的映射系統(tǒng)，它由美國(guó)華盛頓大學(xué)AnHaiDoan，Jayant Madhavan等人提出，是一種利用機(jī)器學(xué)習(xí)技術(shù)來(lái)發(fā)現(xiàn)本體映射關(guān)系的算法。給定兩個(gè)本體，對(duì)其中一個(gè)本體的任意元素，Glue可以在另一本體中找到與之相映射的元素。Glue的另一個(gè)關(guān)鍵技術(shù)是使用多策略學(xué)習(xí)(MultipleLearning Strategies)，每一個(gè)學(xué)習(xí)策略針對(duì)某一類(lèi)型的本體數(shù)據(jù)實(shí)例或者模式信息。對(duì)元素A和元素B的相似性計(jì)算，Glue采用聯(lián)合概率分布的方法來(lái)計(jì)算(區(qū)別于其他模式映射系統(tǒng))。Glue系統(tǒng)由三個(gè)主要模塊組成，分別是概率估計(jì)模塊、相似性估計(jì)模塊和釋放標(biāo)注模塊(Relaxation Labeler Module)。概率估計(jì)模塊中輸入兩個(gè)本體的元素以及它們實(shí)例，然后運(yùn)用機(jī)器學(xué)習(xí)技術(shù)，利用多個(gè)基礎(chǔ)學(xué)習(xí) 機(jī)(base learner)和元學(xué)習(xí)機(jī)(Meta-learner)來(lái)計(jì)算聯(lián)合概率分布。然后將概念分布結(jié) 果輸入相似性估計(jì)模塊，該模塊通過(guò)用戶的參與，計(jì)算元素的相似性，并將相似性結(jié)果輸出到相似性矩陣存儲(chǔ)。釋放標(biāo)注模塊從相似性矩陣中提取元素相似性值，與領(lǐng)域知識(shí)和相關(guān) 規(guī)則進(jìn)行映射，從中找出最符合領(lǐng)域知識(shí)和規(guī)則需求的相似系數(shù)，并作為Glue系統(tǒng)的最終結(jié)果輸出。基于集合的模式映射系統(tǒng)(Corpus based schema matching)是由美國(guó)華盛頓大學(xué)Jayant Madhavan禾口微軟研究院(Microsoft Research)的Philip A. Bernstein等人提出的擴(kuò)展模式映射系統(tǒng)，它的目標(biāo)是解決模式映射系統(tǒng)缺少足夠?qū)嵗畔⒌娜毕荨Ｔ摲椒?利用模式所處的外部文本集合的信息來(lái)加強(qiáng)模式映射的結(jié)果。模式的外部文本集合包含了模式的多種表現(xiàn)形式，因此可以在集合中找到模式概念和屬性的其他顯示，并將這些加強(qiáng) 信息增加到模式中。另外，還可以從不同模式但具有相似實(shí)例信息的模式結(jié)構(gòu)中通過(guò)學(xué)習(xí) 機(jī)(Learner)進(jìn)行學(xué)習(xí)，從而推導(dǎo)出隱藏的模式映射關(guān)系。基于集合的模式映射系統(tǒng)在實(shí)例學(xué)習(xí)方法上借鑒了 Cupid和Glue等系統(tǒng)的映射方法，采用多策略學(xué)習(xí)機(jī)制，使用名稱學(xué)習(xí)機(jī)(Name Learner)、文本學(xué)習(xí)機(jī)(Text Learner)、數(shù)據(jù)實(shí)例學(xué)習(xí)機(jī)(Data Instance Learner)、上下文語(yǔ)境學(xué)習(xí)機(jī)(Context Learner)、元學(xué)習(xí)機(jī)(Meta Learner)對(duì)模式實(shí)例信息進(jìn)行歸類(lèi)，并在此基礎(chǔ)上給出模式的增加元素模型，然后通過(guò)增加元素模型來(lái)進(jìn)行模式映射。這種結(jié)合實(shí)例和模式映射的方法，可以利用實(shí)例映射來(lái)發(fā)現(xiàn)隱性相似元素，增加模式相似信息，以達(dá)到更高的映射召回率。
上述本體映射方法主要側(cè)重于概念本身，以及概念的實(shí)例信息來(lái)對(duì)本體元素的語(yǔ)義相似性進(jìn)行求取，并沒(méi)有充分挖掘本體結(jié)構(gòu)中概念的相鄰元素及其語(yǔ)義聯(lián)系。由于本體是概念以及概念關(guān)系的體現(xiàn)，因此概念的相鄰元素及其語(yǔ)義聯(lián)系對(duì)概念的語(yǔ)義影響是不可忽略的。

發(fā)明內(nèi)容
本發(fā)明目的在于針對(duì)現(xiàn)有技術(shù)的不足，提出一種基于虛擬路徑的本體映射方法，
克服了現(xiàn)有本體映射方法只考慮概念語(yǔ)義相似性，忽略概念相鄰元素及其語(yǔ)義聯(lián)系，利用
本體語(yǔ)義程度低的缺陷。本發(fā)明的技術(shù)方案包括以下步驟，步驟一，將待比較的兩個(gè)本體概念定為目標(biāo)元素，為兩個(gè)目標(biāo)元素分別建立由具有語(yǔ)義聯(lián)系的相鄰元素及其聯(lián)系所構(gòu)成的虛擬路徑；所述相鄰元素包括有目標(biāo)元素的前驅(qū) 元素和后驅(qū)元素；所述虛擬路徑的結(jié)構(gòu)由5個(gè)獨(dú)立要素組成，即前驅(qū)元素_前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系-目標(biāo)元素-目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān) 系_后驅(qū)元素；步驟二，將兩個(gè)目標(biāo)元素的虛擬路徑中各獨(dú)立要素分別對(duì)應(yīng)進(jìn)行概念語(yǔ)義相似性比較；步驟三，綜合虛擬路徑內(nèi)各獨(dú)立要素的概念語(yǔ)義相似性，獲取兩個(gè)目標(biāo)元素虛擬路徑的圖形語(yǔ)義相似性；步驟四，根據(jù)虛擬路徑的圖形語(yǔ)義相似性推導(dǎo)兩個(gè)目標(biāo)元素之間的映射關(guān)系。
而且，步驟三的具體實(shí)施方式
為，將虛擬路徑中各獨(dú)立要素分為三組，第一組為前驅(qū)元素_前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系，第二組為目標(biāo)元素，第三組為目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān)系_后驅(qū)元素；按分組將各獨(dú)立要素的概念語(yǔ)義相似性加權(quán)綜合為兩個(gè)目標(biāo)元素虛擬路徑的圖形語(yǔ)義相似性。而且，當(dāng)對(duì)前驅(qū)元素、目標(biāo)元素或后驅(qū)元素進(jìn)行概念語(yǔ)義相似性比較時(shí)，采用基于語(yǔ)言的方法和基于字符串的方法相結(jié)合的元素比較方法實(shí)現(xiàn)，具體實(shí)現(xiàn)方式如下，
首先采用基于語(yǔ)言的方法，即去除待比較的2個(gè)元素el和e2的元素名稱中的冗余信息；然后基于字符串的方法判斷元素名稱是否一致，即對(duì)元素名稱逐個(gè)字符比較；如果一致，即元素名稱的語(yǔ)義相似性為1 ;如果不相似，再借助外部信息源計(jì)算兩個(gè)元素el和 e2的概念語(yǔ)義相似性，計(jì)算公式如下S/辟l， e2) = ~~^-，其中，sp表示元素el和e2之間最短路徑的長(zhǎng)度，皿m表示元素el和e2之間最短
路徑的方向改變次數(shù)，Cb^表示四種關(guān)系的語(yǔ)義相似度基數(shù)，如果兩個(gè)元素是相等關(guān)系，那
么Cb_ = 4C ;兩個(gè)元素是包含與屬于關(guān)系，那么Cb_ = 3C ;如果兩個(gè)元素是部分與整體關(guān)
系，那么= 2C，如果兩個(gè)元素是不相交關(guān)系，那么Cb_ = C ;C = 1. 0 ; 當(dāng)對(duì)前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系、目標(biāo)元素與后驅(qū)元素之間的
屬性或者語(yǔ)義關(guān)系進(jìn)行概念語(yǔ)義相似性比較時(shí)，將屬性或者語(yǔ)義關(guān)系視為元素，按上述獨(dú)
立要素比較方法實(shí)現(xiàn)。由上述本發(fā)明提供的技術(shù)方案可以看出，該方法從元素相鄰元素及其語(yǔ)義聯(lián)系的要素出發(fā)，將元素的前驅(qū)元素、語(yǔ)義聯(lián)系、元素的后驅(qū)元素組成元素的虛擬路徑；針對(duì)元素的虛擬路徑，在分別考察前驅(qū)元素，屬性，元素本身以及后驅(qū)元素獨(dú)立語(yǔ)義相似性的基礎(chǔ) 上，進(jìn)行組合加權(quán)，得到虛擬路徑的元素語(yǔ)義相似性，從而實(shí)現(xiàn)了基于虛擬路徑的本體映射。該方法的優(yōu)點(diǎn)是考慮元素的相鄰元素及其語(yǔ)義聯(lián)系等要素對(duì)元素語(yǔ)義的影響，將元素的語(yǔ)義考察范圍確定為元素的虛擬路徑，與現(xiàn)有的分析元素本體結(jié)構(gòu)的語(yǔ)義相似度側(cè)重于某個(gè)要素比較，該方法考察范圍更為全面，克服了現(xiàn)有本體映射方法只考慮概念語(yǔ)義相似性，利用本體語(yǔ)義程度低的缺陷，提高了本體映射的質(zhì)量和性能，該方法在計(jì)算機(jī)中運(yùn)行的
時(shí)間開(kāi)銷(xiāo)小，滿足本體映射的性能要求。同時(shí)，該方法提高了本體映射的查全率，查準(zhǔn)率以及F-measure等各項(xiàng)質(zhì)量評(píng)價(jià)指標(biāo)，在邏輯上滿足本體映射的需求。

圖1為本發(fā)明的流程圖；圖2為概念語(yǔ)義相似性比較示意圖；圖3為本發(fā)明的圖形語(yǔ)義相似性比較示意圖；圖4為本發(fā)明實(shí)施例示意圖。
具體實(shí)施例方式
以下結(jié)合附圖對(duì)本發(fā)明技術(shù)方案進(jìn)行詳細(xì)描述。按以下步驟實(shí)現(xiàn)本體概念映射。具體實(shí)施時(shí)，可以采用計(jì)算機(jī)手段實(shí)現(xiàn)。為了方便描述起見(jiàn)，圖中將前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系、目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān)系簡(jiǎn)化標(biāo)注為屬性。
步驟一，將待比較的兩個(gè)本體概念定為目標(biāo)元素，為兩個(gè)目標(biāo)元素分別建立由具有語(yǔ)義聯(lián)系的相鄰元素及其聯(lián)系所構(gòu)成的虛擬路徑；所述相鄰元素包括有目標(biāo)元素的前驅(qū) 元素和后驅(qū)元素；所述虛擬路徑的結(jié)構(gòu)由5個(gè)獨(dú)立要素組成，即前驅(qū)元素_前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系-目標(biāo)元素-目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān) 系_后驅(qū)元素；如附圖3中所示，h和lV為待比較的兩個(gè)目標(biāo)元素。其中h的前驅(qū)元素為lv 后驅(qū)元素為lV構(gòu)成的虛擬路徑用(a)部分的樹(shù)狀結(jié)構(gòu)表示；其中IV的前驅(qū)元素為b/ ，后驅(qū)元素為IV ，構(gòu)成的虛擬路徑用(b)部分的樹(shù)狀結(jié)構(gòu)表示。步驟二，將兩個(gè)目標(biāo)元素的虛擬路徑中各獨(dú)立要素分別對(duì)應(yīng)進(jìn)行概念語(yǔ)義相似性比較；本發(fā)明提供了獨(dú)創(chuàng)的獨(dú)立要素比較方法，以便高效準(zhǔn)確地獲取概念語(yǔ)義相似性比較結(jié)果無(wú)論是前驅(qū)元素、目標(biāo)元素或后驅(qū)元素，都以元素為單位進(jìn)行比較，將待比較的元素標(biāo)記為el和e2。首先采用基于語(yǔ)言的方法，即去除待比較的2個(gè)元素el和e2的元素名稱中的冗余信息；然后基于字符串的方法判斷元素名稱是否一致，即對(duì)元素名稱逐個(gè)字符比較；如果一致，即元素名稱的語(yǔ)義相似性為1 ;如果不相似，再借助外部信息源計(jì)算兩個(gè) 元素el和e2的概念語(yǔ)義相似性，計(jì)算公式如下<formula>formula see original document page 8</formula> 其中，sp表示元素el和e2之間最短路徑的長(zhǎng)度，皿m表示元素el和e2之間最短路徑的方向改變次數(shù)，Cb^表示四種關(guān)系的語(yǔ)義相似度基數(shù)，如果兩個(gè)元素是相等關(guān)系，那么Cb_ = 4C ;兩個(gè)元素是包含與屬于關(guān)系，那么Cb_ = 3C ;如果兩個(gè)元素是部分與整體關(guān)
系，那么= 2C，如果兩個(gè)元素是不相交關(guān)系，那么Cb_ = C ;C = 1. 0。其中比較特殊的是相等關(guān)系和不相交關(guān)系，當(dāng)兩個(gè)元素相同時(shí)，Cbase = 4， sp = 0，誦=O，所以SimE(el， e2) = 1.0。當(dāng)兩個(gè)元素不相交時(shí)，Cbase = l，sp和皿m都遠(yuǎn)大于1，所示SimE(el，e2) = 0。
參見(jiàn)附圖2，其中(a)部分表示的元素A和^之間是部分或整體關(guān)系，元素NCA表示兩個(gè)元素的最近共同祖先元素?？梢缘贸?，Cbase = 2， sp = 2，皿m = l，所以元素ai和a2 的概念語(yǔ)義相似度SimE(^，a2) =2/(2+2+1) =0.4。圖2 (b)表示的元素a/和a 之間關(guān)系屬于Strong(包含或?qū)儆陉P(guān)系)，因此，Cbase = 3， sp = 1，皿m = 0，由此得出元素a/ 和a 的概念語(yǔ)義相似度SimE(a/ ，a2' ) = 3/(3+1+0) = 0. 75。當(dāng)對(duì)前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系、目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān)系進(jìn)行概念語(yǔ)義相似性比較時(shí)，將屬性或者語(yǔ)義關(guān)系視為一個(gè)元素，按上述獨(dú)立要素比較方法實(shí)現(xiàn)即可。附圖3中的虛擬路徑中獨(dú)立要素均按照獨(dú)立要素比較方法分別比較后，得到前驅(qū)元素的概念語(yǔ)義相似性SimE ^')，前驅(qū)元素與目標(biāo)元素之間屬性的概念語(yǔ)義相似性SimE (P (b》，P '))，目標(biāo)元素的概念語(yǔ)義相似性SimE (b2， b2')，目標(biāo)元素與后驅(qū)元素之間屬性的概念語(yǔ)義相似性SimE(P(b2) ， P(b2'))，以及后驅(qū)元素的概念語(yǔ)義相似性SimE (b3， b3')。本發(fā)明所提供獨(dú)立要素比較方法是對(duì)現(xiàn)有Hirst & St-Onge語(yǔ)義相似度比較方法的改進(jìn)。Hirst & St-Onge語(yǔ)義相似度比較方法中sp和皿m都是作為差數(shù)出現(xiàn)，而在本發(fā) 明所提供方案中作為分母出現(xiàn)。這種方法的優(yōu)點(diǎn)是可以處理不相交關(guān)系中sp為無(wú)窮大，以及相同關(guān)系中，sp = 0的特殊情況。另外，本發(fā)明提供的計(jì)算公式是經(jīng)過(guò)標(biāo)準(zhǔn)化處理的，語(yǔ) 義相似度值域在[O，l]之間，能夠節(jié)約計(jì)算機(jī)系統(tǒng)運(yùn)行開(kāi)銷(xiāo)。而Hirst & St-Onge語(yǔ)義相似度比較方法中是以權(quán)重Weight的值作為相似度的值，不符合語(yǔ)義相似度在[O，l]區(qū)間的特點(diǎn)。步驟三，綜合虛擬路徑內(nèi)各獨(dú)立要素的概念語(yǔ)義相似性，獲取兩個(gè)目標(biāo)元素的圖形語(yǔ)義相似性；考慮到元素與屬性之間具有不可分割的意義，本發(fā)明提出綜合虛擬路徑內(nèi)各獨(dú)立要素的概念語(yǔ)義相似性的方案為首先對(duì)虛擬路徑內(nèi)各獨(dú)立要素進(jìn)行分組，第一組為前驅(qū) 元素_前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系，第二組為目標(biāo)元素，第三組為目標(biāo) 元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān)系_后驅(qū)元素；按分組將各獨(dú)立要素的概念語(yǔ)義相似性加權(quán)綜合為兩個(gè)目標(biāo)元素虛擬路徑的圖形語(yǔ)義相似性。然后按組加權(quán)綜合，其中第一組根據(jù)SimE0vb/ )和SimE(P(b》，P(b/ ))求得表示該組元素以及元素屬性或語(yǔ)義關(guān)
系的相似關(guān)系的組合語(yǔ)義相似性SimEP(b/re， b2'Me);第三組根據(jù)SimE (P (b2) ， P (b2 '))
和SimE0vlV )求得該組的元素屬性或語(yǔ)義關(guān)系以及元素的相似關(guān)系的組合語(yǔ)義相似性 SimPE(b2nrart，b2' nrart)。虛擬路徑的圖形語(yǔ)義相似性可視為這三組的語(yǔ)義相似性加權(quán)之禾口，因此元素h和lV的虛擬路徑的圖形語(yǔ)義相似性 SimC(b2，b2' ) = Wp*SimEP(b2pre， b2 ' pre)+We*SimE (b2， b2 ' )+Wn*SimPE (b2next， b z next)其中SimEP(b2pre， b2 ' pre) = SimE (b一P (b》，'氺P(t^ ' )) 二SimE(b"V )氺SimE(P(b》，P(V ))， SimPE(b2next， b2 ' next) = SimE (P (b2) *b3， P (b2 ' )*b3 ' ) =SimE(P(b2)， P(V ))*SimE(b3， b3')。 Wp表示前驅(qū)元素及其屬性的語(yǔ)義相似性分配的權(quán)重比例，We表示元素的獨(dú)立語(yǔ) 義相似性分配的權(quán)重比例，Wn表示屬性與后驅(qū)元素的語(yǔ)義相似性分配的權(quán)重比例。這三個(gè) 權(quán)重之和為1，即Wp+We+Wn = 1。步驟四，根據(jù)虛擬路徑的圖形語(yǔ)義相似性推導(dǎo)兩個(gè)目標(biāo)元素之間的映射關(guān)系。
取得虛擬路徑的圖形語(yǔ)義相似性比較結(jié)果S后，即可根據(jù)結(jié)果推導(dǎo)兩個(gè)目標(biāo)元素之間的映射關(guān)系。本發(fā)明采用國(guó)際上廣泛采用的映射關(guān)系分類(lèi)方法，將映射關(guān)系類(lèi)型分為相等關(guān)系、類(lèi)屬關(guān)系、部分整體關(guān)系、不相交關(guān)系；如果語(yǔ)義相似性比較結(jié)果S = l，則兩個(gè) 元素為相等關(guān)系；如果0. 8《S < l，則兩個(gè)元素為類(lèi)屬關(guān)系；如果0. 5《S < 0. 8，則兩個(gè) 元素為部分整體關(guān)系；如果S < 0. 5，則兩個(gè)元素為不相交關(guān)系。具體實(shí)施時(shí)，會(huì)出現(xiàn)一個(gè)目標(biāo)元素有數(shù)個(gè)后驅(qū)元素等多種情況。為了便于實(shí)施，本發(fā)明提供了實(shí)施例以供參考，參見(jiàn)附圖4:以q和c/為目標(biāo)元素，附圖4中(a)部分的樹(shù)狀結(jié)構(gòu)中還有元素Cl和q，但以目標(biāo)元素c4構(gòu)成的虛擬路徑只包括c4的前驅(qū)元素q，后驅(qū)元素Cs和Ce;同樣，(a)部分的樹(shù)狀結(jié)構(gòu)中，以目標(biāo)元素c/構(gòu)成的虛擬路徑只包括c4'的前驅(qū)元素(V ，后驅(qū)元素(V和(V 。附圖4中給后驅(qū)元素C5和Ce分別分配了權(quán)重W工和W2，后驅(qū)元素cs'和cV分配了權(quán)重W/和W 。套用SimPE(b2加xt，V next) =SimE(P(b2)*b3， P(b2' )*b3' ) = SimE(P(b2)，P(b2' ))*SimE(b3，b3')計(jì)算時(shí)，本發(fā)明實(shí)施例采用兩個(gè)權(quán) 重平均值(W工和W/ )/2以及(W^W^ )/2作為兩個(gè)后驅(qū)元素路徑的權(quán)重，求取后驅(qū)元素相
關(guān)元素屬性或語(yǔ)義關(guān)系以及元素的相似關(guān)系過(guò)程如下
S/mi^(C:', C4 ,') = ^V^CC^ *戶(C4 )， C5,『2 * P(C4 )， C6 )， '*戶(C4 ), C5 '，『2 '* P(q '), C6 '))
=、1山S/附(尸(C4)斥4 '))*S,'W(C5,C5 '),2"K(C4),尸(q ')) * 5/附(& ， ^ ')
權(quán)利要求
一種本體概念映射方法，其特征在于包括以下步驟，步驟一，將待比較的兩個(gè)本體概念定為目標(biāo)元素，為兩個(gè)目標(biāo)元素分別建立由具有語(yǔ)義聯(lián)系的相鄰元素及其聯(lián)系所構(gòu)成的虛擬路徑；所述相鄰元素包括有目標(biāo)元素的前驅(qū)元素和后驅(qū)元素；所述虛擬路徑的結(jié)構(gòu)由5個(gè)獨(dú)立要素組成，即前驅(qū)元素-前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系-目標(biāo)元素-目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān)系-后驅(qū)元素；步驟二，將兩個(gè)目標(biāo)元素的虛擬路徑中各獨(dú)立要素分別對(duì)應(yīng)進(jìn)行概念語(yǔ)義相似性比較；步驟三，綜合虛擬路徑內(nèi)各獨(dú)立要素的概念語(yǔ)義相似性，獲取兩個(gè)目標(biāo)元素虛擬路徑的圖形語(yǔ)義相似性；步驟四，根據(jù)虛擬路徑的圖形語(yǔ)義相似性推導(dǎo)兩個(gè)目標(biāo)元素之間的映射關(guān)系。
2. 根據(jù)權(quán)利要求1所述的本體概念映射方法，其特征在于步驟三的具體實(shí)施方式
為，將虛擬路徑中各獨(dú)立要素分為三組，第一組為前驅(qū)元素_前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系，第二組為目標(biāo)元素，第三組為目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān) 系_后驅(qū)元素；按分組將各獨(dú)立要素的概念語(yǔ)義相似性加權(quán)綜合為兩個(gè)目標(biāo)元素虛擬路徑的圖形語(yǔ)義相似性。
3. 根據(jù)權(quán)利要求1或2所述的本體概念映射方法，其特征在于當(dāng)對(duì)前驅(qū)元素、目標(biāo)元素或后驅(qū)元素進(jìn)行概念語(yǔ)義相似性比較時(shí)，采用基于語(yǔ)言的方法和基于字符串的方法相結(jié) 合的獨(dú)立要素比較方法實(shí)現(xiàn)，具體實(shí)現(xiàn)方式如下，首先采用基于語(yǔ)言的方法，即去除待比較的2個(gè)元素el和e2的元素名稱中的冗余信息；然后基于字符串的方法判斷元素名稱是否一致，即對(duì)元素名稱逐個(gè)字符比較；如果一致，即元素名稱的語(yǔ)義相似性為1 ;如果不相似，再借助外部信息源計(jì)算兩個(gè)元素el和e2 的概念語(yǔ)義相似性，計(jì)算公式如下S滅(d,e2) =-^-，其中，sp表示元素el和e2之間最短路徑的長(zhǎng)度，皿m表示元素el和e2之間最短路徑的方向改變次數(shù)，Cb^表示四種關(guān)系的語(yǔ)義相似度基數(shù)，如果兩個(gè)元素是相等關(guān)系，那么 Cbase = 4C ;兩個(gè)元素是包含與屬于關(guān)系，那么Cb_ = 3C ;如果兩個(gè)元素是部分與整體關(guān)系，那么Cb_ = 2C，如果兩個(gè)元素是不相交關(guān)系，那么Cb_ = C ;C = 1. 0 ;當(dāng)對(duì)前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系、目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān)系進(jìn)行概念語(yǔ)義相似性比較時(shí)，將屬性或者語(yǔ)義關(guān)系視為元素，按上述獨(dú)立要素比較方法實(shí)現(xiàn)。
全文摘要
一種本體概念映射方法，包括以下步驟將待比較的兩個(gè)本體概念定為目標(biāo)元素，為兩個(gè)目標(biāo)元素分別建立由具有語(yǔ)義聯(lián)系的相鄰元素及其聯(lián)系所構(gòu)成的虛擬路徑，即前驅(qū)元素-前驅(qū)元素與目標(biāo)元素之間的屬性或者語(yǔ)義關(guān)系-目標(biāo)元素-目標(biāo)元素與后驅(qū)元素之間的屬性或者語(yǔ)義關(guān)系-后驅(qū)元素；將兩個(gè)目標(biāo)元素的虛擬路徑中各獨(dú)立要素分別對(duì)應(yīng)進(jìn)行概念語(yǔ)義相似性比較；綜合虛擬路徑內(nèi)各獨(dú)立要素的概念語(yǔ)義相似性，獲取兩個(gè)目標(biāo)元素虛擬路徑的圖形語(yǔ)義相似性；根據(jù)虛擬路徑的圖形語(yǔ)義相似性推導(dǎo)兩個(gè)目標(biāo)元素之間的映射關(guān)系。本發(fā)明提供的本體概念映射方法側(cè)重于概念的相鄰元素及其語(yǔ)義聯(lián)系，考察范圍更為全面，提高了本體映射的質(zhì)量和性能。
文檔編號(hào)G06F17/30GK101739414SQ20081019785
公開(kāi)日2010年6月16日申請(qǐng)日期2008年11月25日優(yōu)先權(quán)日2008年11月25日
發(fā)明者劉三女牙, 劉清堂, 楊宗凱, 汪虹, 趙剛, 黃濤申請(qǐng)人:華中師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊宗凱;黃濤;劉清堂;汪虹;劉三女牙;趙剛
技術(shù)所有人：華中師范大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

映射的概念相關(guān)技術(shù)

混沌映射的概念相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種本體概念映射方法