一種綜合的本體相似度檢測方法

文檔序號：6608000閱讀：298來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種綜合的本體相似度檢測方法
技術(shù)領(lǐng)域：
本發(fā)明屬于本體建模領(lǐng)域，涉及一種綜合的本體相似度檢測方法，尤其涉及一種基于明確概念權(quán)重的綜合各方面指標的本體相似度檢測方法。
背景技術(shù)：
本體是對共享概念模型的形式化規(guī)范說明。本體定義了領(lǐng)域的概念及其關(guān)系，方便了知識共享和重用，近年來已經(jīng)成為語義web、人工智能、數(shù)據(jù)集成、信息檢索等研究領(lǐng)域的熱門課題，并在這些領(lǐng)域中扮演著重要的角色。但在迅速發(fā)展的過程中，本體構(gòu)建缺乏統(tǒng) 一的標準，導(dǎo)致同一領(lǐng)域內(nèi)的本體研究者對于領(lǐng)域知識表述不同，構(gòu)建的本體之間存在一定的異構(gòu)性，從而影響了知識的有效共享和重用。為解決異構(gòu)性問題，研究者提出本體映射的方法，其目的是找出不同本體中實體之間的語義關(guān)聯(lián)，并且將其形式化地表達出來。本體映射是應(yīng)用系統(tǒng)之間語義信息互操作實現(xiàn)的基礎(chǔ)，而概念相似度計算則是本體映射的關(guān)鍵部分。相似度即兩個對象相似的程度，形式化定義本體相似度如下Ci標號為i的本體，i e N ；Sim (X，y)相似度函數(shù)；e"本體 Ci 的概念，e" e (Ci, RCiA Ii)，概念標號 j e N；Sim(en'J1 ei2'J2)概念e"'」1和概念ei2'j2間的概念相似度函數(shù)，i乒j。本體相似度計算是以概念相似度為基礎(chǔ)的，即兩個本體之間的相似度，是由本體內(nèi)部概念之間配對相似度來決定的，其計算過程涉及到本體的所有概念及其之間的關(guān)系。兩個不同本體的概念組成的概念對之間的相似度，除了與概念自身的屬性有關(guān)之外，還與概念在自身的本體中所處的上下文環(huán)境有很大的關(guān)系。相似度取值范圍在0-1之間。如果兩個概念完全相似，則相似度為1 ；如果兩概念沒有任何共有特征，是兩個完全不同的概念，則相似度為0。相似度的對稱性要求，概念A(yù)、B的相似性必須與B、A的相似性相同。相似度計算可以從實體、語義網(wǎng)絡(luò)、描述邏輯、約束、規(guī)則五個方面衡量。它們可以看作是一個相似度棧，如圖3中顯示，它們的語義復(fù)雜度從下到上逐漸增強，依據(jù)各個層次的語義特征，有不同的相似度計算方法。而特殊共享的領(lǐng)域本體，從上到下覆蓋了所有層次，可以位于相似度棧的任一層次。下面提出目前已有的概念相似度計算，并對其特點進行分析。從實體層的角度來看，相似度計算方法可分為(1)基于語法的方法Levenshtein distance算法通過字符串匹配以及字符串之間的編輯距離來計算相似值，并擴展到語句，沒有考慮概念的語義映射關(guān)系。編輯距離為字符串轉(zhuǎn)換所需的最小數(shù)目的單元編輯操作，包括字符的插入、刪除、替換及相鄰字符的調(diào)換。(2)基于詞義或者自然語言的方法借鑒Wordnet等特定應(yīng)用字典，比較兩個實體是否為同義詞以及詞義相近程度。
4知識庫評估語義相似度語義網(wǎng)絡(luò)層包含許多概念和復(fù)雜的關(guān)系，蘊含著大量背景信息。概念是對象的通用類，它們通過特征和屬性與其它概念關(guān)聯(lián)起來。從語義網(wǎng)絡(luò)層的角度來看，相似度計算應(yīng) 考慮本體的結(jié)構(gòu)。概念間的層次結(jié)構(gòu)可以圖或樹的形式表示出來，節(jié)點關(guān)系，如父結(jié)點、子結(jié)點、兄弟結(jié)點等，反映了本體中的父類、子類關(guān)系。從語義網(wǎng)絡(luò)層的角度出發(fā)，提出的相似度計算方法有(1)采用信息理論方法評估。通過計算包含相同子孫結(jié)點的概率值比較兩個對象之間的相似度；(2)采用本體距離評估。利用兩個結(jié)點通過共有祖先的最短路徑或者連接兩個結(jié) 點的共有后代的通用最短路徑來計算相似性。此方法高度依賴于本體的構(gòu)建，適用于同一本體內(nèi)的語義相似計算。(3)采用結(jié)點的語義距離評估。計算結(jié)點本身的基距離，然后參考語義關(guān)系，分別計算父結(jié)點、子結(jié)點、孫子結(jié)點的基距離。將幾個基距離加權(quán)平均，得到一對結(jié)點的語義距罔。描述邏輯體現(xiàn)了本體的復(fù)雜性。它包含原子概念的類型以及與其它原子概念的關(guān) 系，主要考慮構(gòu)成本體的描述邏輯的語法。不同本體特殊化和形式化水平不同，計算方法頁不同。M. Adrea Rodriguez Max和J. Egenhofer提出利用概念定義計算概念間相似度的方法。利用同義詞集、語義相鄰函數(shù)和不同概念特征相應(yīng)進行匹配，比較不同本體的概念，得到3個相似度值，然后求加權(quán)平均得到兩個概念的語義相似度。規(guī)則的抽取來自于概念的定義和結(jié)構(gòu)信息，體現(xiàn)了本體概念間更深層次的關(guān)聯(lián)關(guān) 系。Sushama Prasad通過定義規(guī)則一個結(jié)點的子結(jié)點與另一結(jié)點映射的百分比能反映該結(jié)點與另一結(jié)點的映射關(guān)系，對本體ACM和ITTALKS進行了相似度計算并實現(xiàn)了本體映射。在本體相似計算中定義了如下啟發(fā)式規(guī)則1.如果兩個實體的標簽(或URI)相同，那么這兩個實體是等價的；2.如果兩個概念的屬性都相同，那么這兩個概念是相似的；3.如果兩個概念的直接個體(實例)相同，那么這兩個概念是相似的；4.如果兩個概念的父(或子)概念(直接的或間接的)相同，那么這兩個概念是相似的；5.如果兩個屬性的定義域或值域(直接的或間接的)相同，那么這兩個屬性是相似的；6.如果兩個屬性的父(或子)屬性(直接的或間接的)相同，那么這兩個屬性是相似的；7.如果兩個個體(實例)的屬性相同，那么這兩個個體是相似的；8.如果兩個個體(實例)的直接類型相同，那么這兩個個體是相似的；國外在本體相似度檢測和映射工作方面由較多的理論研究，并在實踐方面取得了一些成果。華盛頓大學(xué)的AnHain Doan等提出了一種在語義Web環(huán)境下利用概念的實例作為計算概念間相似度的依據(jù)進行本體映射的方法并開發(fā)了相應(yīng)的系統(tǒng)GLUE。GLUE系統(tǒng)通過機器學(xué)習對概念的實例進行分類，然后利用實例在概念中出現(xiàn)的聯(lián)
5合分布概率來計算概念間的相似度來確定映射關(guān)系。其思想是多策略學(xué)習。它用到了兩個基本的學(xué)習器，內(nèi)容學(xué)習器和名稱學(xué)習器，采用樸素貝葉斯(Naive Bayes)的學(xué)習技術(shù)來訓(xùn) 練學(xué)習器，計算分別來自兩個本體的一對概念的聯(lián)合分布，并考慮將Jaccard系數(shù)作為概念相似度指標。相似度函數(shù)通過合并不同匹配器的匹配結(jié)果，產(chǎn)生的是原子級的1 1的映射關(guān)系。SF方法的基本思想是利用相鄰概念結(jié)點間相似的傳遞性。該方法把模式信息轉(zhuǎn)化成有向圖，通過簡單的名字匹配(相同前綴、相同后綴、編輯距離)和結(jié)構(gòu)匹配得出各個結(jié) 點之間的初始化相似系數(shù)，經(jīng)迭代計算得出最終的相似系數(shù)。接著，在有向圖的基礎(chǔ)上構(gòu)建成對互連圖以及相似度繁殖圖，對初始相似度進行迭代計算，直至收斂得到最終的相似系數(shù)。Anchor Prompt方法是本體合成和本體裝配的工具，采用了復(fù)雜的敏捷機制匹配可能的元素。其核心思想是源目標本體中的兩個相似術(shù)語對的連接路徑上的元素通常是相似的。因此，預(yù)先定義的小規(guī)模的語義匹配術(shù)語對集能夠給出大量的可能語義相似的術(shù) 語對。用編輯距離算法識別、分析輸入本體的內(nèi)部路徑，將本體表示為圖及其相關(guān)詞匯的關(guān) 系配對集合。通過重復(fù)遍歷一對錨所有的相同長度的路徑，增加遇到的出現(xiàn)在相同位置的術(shù)語對的相似值，累加得到詞匯在相似路徑上相似位置的出現(xiàn)頻率，最后基于頻率和用戶反饋決定匹配候選集。這個工具已被集成到Protege-2000這個知識庫建模工具中去。它能處理基于和OKBC兼容的本體模型，其上層有類、槽、側(cè)面和實例?；诰嚯x函數(shù)的OLA算法充分利用了除語義技術(shù)之外所有的元素級匹配技術(shù)。所有的輸入結(jié)構(gòu)距離的定義轉(zhuǎn)化為一組等式，這些距離都是線性的，然后尋找本體概念間的最短距離。采用了基距離算法計算不同標簽及其數(shù)據(jù)類型的距離，使用固定點迭代算法直至達到一個收斂點。Cupid方法是微軟研究院J. Madhavan等人實現(xiàn)的一個通用的模式匹配方法。該方法結(jié)合了語言和結(jié)構(gòu)方面的模式匹配技術(shù)，輸入的模式首先表示為一個圖，然后自頂向下和自底向上相結(jié)合進行遍歷該圖。整個過程分為三個階段，分別為語言相似度、計算結(jié)構(gòu)相似性計算和映射生成。S-Match算法是基于模式的匹配系統(tǒng)，基于WordNet知識庫，采用SAT方法，處理樹型結(jié)構(gòu)的映射(如等級層次或概念層次結(jié)構(gòu))，分解圖(樹)匹配問題為結(jié)點集合匹配問題，匹配具有相似語義的概念，返回語義關(guān)系(如等價關(guān)系、包含關(guān)系)。IF-Map系統(tǒng)以信息流理論為基礎(chǔ)，映射框架中設(shè)立了多個局部本體、全局本體和參考本體。局部本體表示不同的存在本體，供不同的組織使用，并有各自的實例。參考本體是對共享知識的一致性理解但沒有具體的實例。全局本體是一個邏輯上存在的本體，并不真正地存在。總的來說，雖然目前的本體相似性檢測技術(shù)研究取得了一些成果，但還有很多缺陷(1)現(xiàn)有方法大多數(shù)是基于語言語法和模式信息，而未充分考慮本體內(nèi)包含的語義信息。(2)影響本體語義相似度計算的因素很多，如何選擇恰當?shù)脑u價指標，避免片面性，全面、恰當?shù)暮饬勘倔w相似度需要進一步討論。(3)在算法的表達性、有效性、計算量的均衡方面，還很不完善。

發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的問題，本發(fā)明提供了一種綜合的本體相似度檢測方法，該方法從語義相似度、語用相似度、結(jié)構(gòu)相似度、屬性相似度四個方面進行計算。一種綜合的本體相似度檢測方法，包含步驟1 構(gòu)建本體的樹狀結(jié)構(gòu)，確定各個結(jié)點和邊的權(quán)重；步驟2 通過詞匯間距離計算源結(jié)點和目標節(jié)點的語義相似度；步驟3 通過網(wǎng)絡(luò)搜索結(jié)果計算源結(jié)點和目標節(jié)點的語用相似度；步驟4 考慮父子節(jié)點、兄弟節(jié)點關(guān)系，計算源結(jié)點和目標節(jié)點的結(jié)構(gòu)相似度；步驟5 分別從數(shù)據(jù)屬性和對象屬性角度計算源結(jié)點和目標節(jié)點的屬性相似度；步驟6 綜合上述各相似度計算結(jié)果，加權(quán)求和得到整體的相似度。一種綜合的本體相似度檢測方法，步驟1中計算各個結(jié)點和邊的權(quán)重，進一步包含a、對不同兩個本體中的概念進行比較時，在兩個本體樹之間虛擬出一個公共的父節(jié)點，將兩個本體樹合并，從而將問題轉(zhuǎn)化為同一個本體內(nèi)的概念相似度計算。b、各個結(jié)點的權(quán)重取決于父節(jié)點的權(quán)重、兄弟節(jié)點的數(shù)目和子孫結(jié)點的數(shù)目，即結(jié)點c的權(quán)重公式如下
WrdthiLentic)) 乂 —帥乂隱⑷柳剛 C為根結(jié)點Parents (c)為概念c的父節(jié)點；Weight (Parents (c))為概念c的父節(jié)點的權(quán)重；Width(c)為以概念c為根結(jié)點的子樹的所有子結(jié)點數(shù)；Depth (c)為概念c的深度；Width (Parents (c))為以概念c的父節(jié)點為根結(jié)點的子樹的所有子結(jié)點數(shù)。C、從某一結(jié)點引出的邊與該結(jié)點具有相同的權(quán)重；步驟3中通過網(wǎng)絡(luò)搜索結(jié)果計算源結(jié)點和目標節(jié)點的語用相似度，進一步包含a、將兩個概念分別提交搜索引擎后，在搜索結(jié)果中提取URL，統(tǒng)計相同URL數(shù)目；b、對兩個概念分別進行正向搜索和反向搜索，統(tǒng)計搜索結(jié)果標題、摘要中出現(xiàn)該概念的次數(shù)；C、結(jié)合閾值，根據(jù)公式計算概念的語用相似度；步驟4中考慮父子節(jié)點、兄弟節(jié)點關(guān)系，計算源結(jié)點和目標節(jié)點的結(jié)構(gòu)相似度，具體包括a、取一個語義半徑r，在路徑距離ρ ^ r范圍內(nèi)查找概念的語義鄰居集合；b、根據(jù)各個結(jié)點的權(quán)重和計算公式，得到概念的結(jié)構(gòu)相似度。步驟5分別從數(shù)據(jù)屬性和對象屬性角度計算源結(jié)點和目標節(jié)點的屬性相似度，進一步包含
7
a、將概念A(yù)、B的數(shù)據(jù)類型屬性按數(shù)據(jù)類型分為若干個屬性集合；b、根據(jù)概念語義相似度的計算公式，對每一種數(shù)據(jù)類型構(gòu)造概念A(yù)、B的屬性相似度矩陣，將概念相似度作為屬性相似度衡量指標；c、計算所有數(shù)據(jù)類型的語義相似度的平均值。d、依照上述方法，構(gòu)造對象類型的語義相似度矩陣，將概念相似度作為屬性相似度衡量指標。e、遍歷矩陣，取得相似度最大的值，將該值所屬的行和列刪除，在余下的矩陣中繼續(xù)重復(fù)執(zhí)行直到矩陣為空，得到最大相似度序列。f、根據(jù)公式，綜合得到對象類型屬性語義相似度；g、綜合數(shù)據(jù)屬性和對象屬性的相似度計算數(shù)值，求得最終的相似度結(jié)果。本發(fā)明的優(yōu)點在于，在不明顯增加計算復(fù)雜度的情況下，充分利用本體的特征計算本體的相似性。不僅考慮到本體的屬性特征、結(jié)構(gòu)特征，還將本體包含的語義信息作為衡量相似性的重要指標，并針對不同本體的特征，加入權(quán)重賦值和網(wǎng)絡(luò)搜索結(jié)果動態(tài)更新，提高了本體相似性檢測的準確性。

圖1為本發(fā)明的綜合計算本體相似度的方法流程圖；圖2為本發(fā)明的根據(jù)本體構(gòu)建的本體概念樹及各節(jié)點、邊的權(quán)重圖。圖3為相似度計算時所涉及的相似度棧。
具體實施例方式有關(guān)本發(fā)明的技術(shù)內(nèi)容及詳細說明，現(xiàn)配合

如下如圖1所示，本發(fā)明提供一種綜合的本體相似度檢測方法，通過從語義相似度、語用相似度、結(jié)構(gòu)相似度、屬性相似度四個方面計算本體概念相似度，不僅反映了本體的結(jié)構(gòu) 特征、數(shù)值屬性和對象屬性的共同認知，還進一步從語義的角度分析本體包含的領(lǐng)域知識。通過對網(wǎng)絡(luò)搜索結(jié)果的整合，及時更新知識庫，體現(xiàn)概念間相關(guān)性的即時變化，更精確的評價本體概念間的相似度。該方法，包含步驟1 構(gòu)建本體的樹狀結(jié)構(gòu)，確定各個結(jié)點和邊的權(quán)重；圖2為本發(fā)明的為本體構(gòu)建的概念樹。本體中的概念是分層的，某個領(lǐng)域內(nèi)的知識包含超類、類、子類的層次關(guān)系，所以本體也可以看成一棵概念樹，樹中每個結(jié)點代表一個概念。概念樹中有子結(jié)點、父結(jié)點和兄弟結(jié)點等。屬性同樣擁有類似的樹形結(jié)構(gòu)。對相似度的衡量取決于這樣的設(shè)定兩個概念是相似的，如果它們的父概念或子概念直接的或間接的相同。在概念樹中，計算概念之間的語義關(guān)系轉(zhuǎn)換為計算概念之間的路徑距離，通過樹中節(jié)點的距離來評價兩個概念節(jié)點的語義關(guān)系。兩個概念的距離越大，其相似度越低；反之，距離越小，其相似程度越大；定義概念距離為0時，其相似度為1 ；概念距離為無窮大時，其相似度為0。相似度為概念距離的單調(diào)遞減函數(shù)。在本體概念樹中，概念所處的節(jié)點的深度和該深度上節(jié)點密度反映了本體對該概念的描述詳細程度，從而影響著概念相似度的計算。結(jié)點深度越大，越靠近底層，表示2個概念代表的術(shù)語越具體，對領(lǐng)域知識的分類越細致，概念細分的程度越高，相似性評價意義
8越大概念越相近。同樣，結(jié)點密度反映了本體對該領(lǐng)域知識內(nèi)概念認知的詳細程度，結(jié)點密度越大，則該部分的描述越詳細，語義相似度越高。因而，結(jié)點深度和結(jié)點密度應(yīng)在概念權(quán) 重中有所反映。因此，本方法提出概念權(quán)重的計算公式如下 Parents(c)為概念c的父節(jié)點；Weight (Parents (c))為概念c的父節(jié)點的權(quán)重；Width(C)為以概念c為根結(jié)點的子樹的所有子結(jié)點數(shù)；Depth (C)概念 c 的深度；Width (Parents (c))為以概念c的父節(jié)點為根結(jié)點的子樹的所有子結(jié)點數(shù)。從概念c引出的邊具有相同的權(quán)重，用概念c的權(quán)重表示從其引出的邊的權(quán)重，記 edge (cl，c2)為從cl到c2的邊，則Weight (edgP(cl, c2)) = Weight (cl)根據(jù)此公式，計算得到圖1中所有節(jié)點和邊的權(quán)重。對不同兩個本體中的概念進行比較時，在兩個本體樹之間虛擬出一個公共的父節(jié) 點，將兩個本體樹合并，從而將問題轉(zhuǎn)化為同一個本體內(nèi)的概念相似度計算。步驟2 通過詞匯間距離計算源結(jié)點和目標節(jié)點的語義相似度；從概念樹的角度分析，相似度隨著兩概念深度總和的增加而增加，隨著它們之間深度差的增加而減小。語義相似度計算公式應(yīng)反映這兩個因素對計算結(jié)果的影響。本方法提出采用邊的權(quán)重來表示概念間的語義距離，即連接2個概念節(jié)點的通路中最短路徑所跨的邊的權(quán)重之和。即 Dis (Cl，C2)為概念Cl，C2間帶權(quán)重的路徑長度；SP(Cl，C2)為概念Cl，C2間通路中最短路徑經(jīng)過的所有邊；Weight(Ci)為路徑上經(jīng)過的邊的權(quán)重。語義相似度計算公式為 Li，L2分別為概念Cl，C2到根結(jié)點的路徑上經(jīng)過的邊的權(quán)重和；α為相似度為0. 5時概念Cl，C2間的距離，α為可調(diào)參數(shù)，α≥0。為驗證該公式的準確度，我們分別計算C10，C16與C12，C3的相似度，來確定概念距離對概念相似性的影響。根據(jù)公式可得，可知，Sim(C10，C16)彡Sim(C12，C3)，因此 C10，C16 的語義相似度大于 C12，C3 的
語義相似度。這與從概念樹的角度分析得到的結(jié)論相符。接著，我們計算C10，C12與Cl，C2的相似度，來確定結(jié)點深度對概念相似性的影響。根據(jù)公式可得，Sim(C10，可知，Sim(C10，C12)彡Sim(Cl，C2)，因此C10，C12的語義相似度大于Cl，C2的語
義相似度。這與從概念樹的角度分析得到的結(jié)論相符。上述兩例證明，結(jié)合權(quán)重的語義相似度計算公式與實際分析相符，較好的反映了概念間的語義相似關(guān)系。步驟3 通過網(wǎng)絡(luò)搜索結(jié)果計算源結(jié)點和目標節(jié)點的語用相似度；在信息時代，領(lǐng)域知識不斷變化，新概念層出不窮，概念間不斷建立新的聯(lián)系。僅僅依靠字典等工具不能及時更新對本體相似度的評價。本發(fā)明中，考慮結(jié)合網(wǎng)絡(luò)搜索結(jié)果動態(tài)更新本體語用相似度的計算結(jié)果。語用相似度基于這樣的設(shè)定兩個概念相似，若概念所處的應(yīng)用環(huán)境中上下文信息相似。本方法利用現(xiàn)有的信息檢索系統(tǒng)，首先將源概念和目標概念分別提交搜索引擎，得到返回的URL數(shù)據(jù)，統(tǒng)計得到兩次搜索結(jié)果中相同的URL地址數(shù)目，并一次作為語用相似度評價的第一個指標。統(tǒng)計得到Cl的搜索結(jié)果為M條，C2的搜索結(jié)果為N條，其中URL相同的為K條，則相似度為
2Ksim r/(Cl, C2)="^第二步，本方法將兩個概念同時提交搜索引擎，在返回的結(jié)果中，統(tǒng)計標題、摘要中兩個概念出現(xiàn)的次數(shù)。為避免提交概念的先后順序?qū)е碌乃阉鹘Y(jié)果差異，再進行逆序搜索操作。綜合兩次搜索結(jié)果得到語用相似度評價的第二個指標。統(tǒng)計得到提交順序為Cl C2時的搜索結(jié)果中，Cl在標題、摘要中出現(xiàn)次數(shù)為M1;C2 出現(xiàn)次數(shù)為N1,兩者同時出現(xiàn)次數(shù)為O1;逆序搜索時，Cl在標題、摘要中出現(xiàn)次數(shù)為M2，C2 出現(xiàn)次數(shù)為N2,兩者同時出現(xiàn)次數(shù)為02。考慮到Cl、C2可能恰巧同時出現(xiàn)在同一網(wǎng)頁上的偶然情況，本方法設(shè)置常數(shù)閾值C，當Cl、C2同時出現(xiàn)次數(shù)小于C時，忽略不計。則相似度為
2 Xmin^bTV1)
Γ MX+NX ’ oPccii ) — ^
Sim forward —
^ 0； Oi π C(常數(shù))
10 sim search (Cl, C2)=~ X ( sim forward + Sim backward )在此基礎(chǔ)上，得到語用相似度的計算公式Sim (Cl, C2)2 = ε !Xsimurl (Cl, C2)+ ε 2Χ simsearch(Cl, C2)網(wǎng)絡(luò)中不同的URL可能包含同樣的信息，嚴格要求URL相同導(dǎo)致信息遺漏，因而反映的相似度準確性不夠高。基于這樣的事實，本方法設(shè)置￡1取0.3，￡2取0.7。步驟4 考慮父子節(jié)點、兄弟節(jié)點關(guān)系，計算源結(jié)點和目標節(jié)點的結(jié)構(gòu)相似度；考慮到概念樹的結(jié)構(gòu)對相似度的影響，本方法取小于概念樹深度的語義半徑，統(tǒng) 計概念周圍語義半徑內(nèi)的所有語義鄰居，建立該概念的描述集合。設(shè)C1，C2的描述集合分別
為A、B，比較得到兩集合共有的元素集合A Π B，其所有元素帶權(quán)重的和為Wy—^jf·；
屬于集合A而不屬于B的元素集合A/B，其所有元素帶權(quán)重的和為W⑷W = ^fw ；屬于集合
i = \
B而不屬于A的元素集合B/A，其所有元素帶權(quán)重的和為W1^w = lIfw。根據(jù)下面公式計算
i = \
得到結(jié)構(gòu)相似度。
._W(Ar,B)_Sim(Cl, C2)3= W{Ar,E)^a(A,B)W{AIE)^(l-a(A,B))W{BIA)
Depth(Ci)Depth(Cl) < Depth(Cl)
Depth(CY) + Depth(C2)a(A,B) = ^
_d^pHCI)_ Depth(Cl) φ Depth(Cl)
、Depth(Cl) + Depth(Cl) Depth (c)為概念c的深度步驟5 分別從數(shù)據(jù)屬性和對象屬性角度計算源結(jié)點和目標節(jié)點的屬性相似度；本體中概念的屬性是描述概念的一個重要元素。對屬性相似度計算基于這樣的設(shè) 定兩個概念相似當它們具有相同屬性。概念屬性包括數(shù)值屬性和對象屬性。本方法分別對兩者進行相似度計算，設(shè)置其在屬性相似度中的權(quán)重，結(jié)合兩個計算結(jié)果得到整體的相似度?？紤]到與類的結(jié)構(gòu)相比，屬性的樹狀結(jié)構(gòu)通常深度較小，屬性-子屬性的關(guān)系較少，本方法采用基于WordNet的Wu-Palmer語義相似度算法。WordNet將英語詞匯組織為一個同義詞集合(Synset)，每個集合標明一個詞匯概念，詞匯關(guān)系在詞語之間體現(xiàn)，語義關(guān)系在概念之間體現(xiàn)。對于兩個概念Cl和C2，用這種算法計算它們的概念語義相似度為
11 Sim(Cl C2)= dePth、A、+dePth、B、Iso (Cl，C2)是概念Cl和概念C2的最近共同祖先概念；depth (Cl)和depth (C2)分別表示概念Cl和概念C2在詞典語義樹中的深度。將概念C1、C2的數(shù)據(jù)類型屬性按數(shù)據(jù)類型(stringdloat等)分為若干個屬性集合。根據(jù)概念語義相似度的計算公式，對每一種數(shù)據(jù)類型構(gòu)造概念Cl、C2的屬性相似度矩陣。將概念相似度作為屬性相似度衡量指標，對得到的矩陣計算所有數(shù)據(jù)類型語義相似度的平均值。將概念相似度作為屬性相似度衡量指標，對得到的矩陣計算所有數(shù)據(jù)類型語義相似度的平均值Sim^——。對象類型屬性相似度方法是計算對象類型屬性所關(guān)聯(lián)的概念的語義相似度。設(shè)概念Cl的對象類型屬性集合為A= { ，， ···％}，概念B的對象類型屬性集合為attribute。 =Ib1, b2，b3-bj。對象類型屬性 (1彡i彡m)所關(guān)聯(lián)的概念為Cl和Si ；對象類型屬性 bj(l ^ i ^n)所關(guān)聯(lián)的概念為Cl和T」。以相似度公式計算概念Si和概念&的語義相似度作為屯的相似度SimM。重復(fù)這樣的計算，得到相似度矩陣Simljl, Siml,2 ...... SimljnSim2，l Sim2，2 ...... Sim2,n............................Simllljl Simnij2 ......... Simm, n遍歷矩陣，取得相似度最大的值，將該值所屬的行和列刪除，在余下的矩陣中繼續(xù) 重復(fù)執(zhí)行直到矩陣為空，得到最大相似度序列S1 S2S3- Sk(k為m，η中較小值)。對最大相似度序列求平均值，得到對象類型屬性語義相似度Stff ；
kSimop=Ix Y^s1
i=\綜合數(shù)據(jù)屬性和對象屬性的相似度計算數(shù)值，求得最終的相似度結(jié)果。Sim (Cl，C2) 4 = 0. 5 X Simdataproperty+0. 5 X Simop最后，在得到上述各相似度計算結(jié)果后，綜合考慮加權(quán)求和得到整體的相似度，計算公式如下Sim(Cl, C2) = α X S im (C 1，C2) J β X S i m (C 1，C2) 2+δ X S i m (C 1， C2)3+ Y XSim(Cl，C2)4其中，α+β + δ + γ = 1。值的具體設(shè)置值需要根據(jù)具體環(huán)境確定。上述僅為本發(fā)明的較佳實施例而已，并非用來限定本發(fā)明實施范圍。即凡依照本發(fā)明申請專利范圍所做的均等變化與修飾，皆為本發(fā)明專利范圍所涵蓋。
1權(quán)利要求
一種綜合的本體相似度檢測方法，其特征在于，包含以下步驟步驟1構(gòu)建本體的樹狀結(jié)構(gòu)，確定各個結(jié)點和邊的權(quán)重；步驟2通過詞匯間距離計算源結(jié)點和目標節(jié)點的語義相似度；步驟3通過網(wǎng)絡(luò)搜索結(jié)果計算源結(jié)點和目標節(jié)點的語用相似度；步驟4考慮父子節(jié)點、兄弟節(jié)點關(guān)系，計算源結(jié)點和目標節(jié)點的結(jié)構(gòu)相似度；步驟5分別從數(shù)據(jù)屬性和對象屬性角度計算源結(jié)點和目標節(jié)點的屬性相似度；步驟6綜合上述各相似度計算結(jié)果，加權(quán)求和得到整體的相似度。
2.根據(jù)權(quán)利要求1所述的本體相似度檢測方法，其特征在于，步驟1中計算各個結(jié)點和邊的權(quán)重，進一步包含a、對不同兩個本體中的概念進行比較時，在兩個本體樹之間虛擬出一個公共的父節(jié) 點，將兩個本體樹合并，從而將問題轉(zhuǎn)化為同一個本體內(nèi)的概念相似度計算；b、各個結(jié)點的權(quán)重取決于父節(jié)點的權(quán)重、兄弟節(jié)點的數(shù)目和子孫結(jié)點的數(shù)目，即結(jié)點c 的權(quán)重公式如下“隱二—柳剛 c不為根結(jié)點 Parents (c)為概念c的父節(jié)點； Weight (Parents (c))為概念c的父節(jié)點的權(quán)重； Width(c)為以概念c為根結(jié)點的子樹的所有子結(jié)點數(shù)； Depth (c)概念c的深度；Width (Parents (c))為以概念c的父節(jié)點為根結(jié)點的子樹的所有子結(jié)點數(shù)； C、從某一結(jié)點引出的邊與該結(jié)點具有相同的權(quán)重。
3.根據(jù)權(quán)利要求1所述的本體相似度檢測方法，其特征在于，步驟3中通過網(wǎng)絡(luò)搜索結(jié) 果計算源結(jié)點和目標節(jié)點的語用相似度，進一步包含a、將兩個概念分別提交搜索引擎后，在搜索結(jié)果中提取URL，統(tǒng)計相同URL數(shù)目；b、對兩個概念分別進行正向搜索和反向搜索，統(tǒng)計搜索結(jié)果標題、摘要中出現(xiàn)該概念的次數(shù)；c、結(jié)合閾值，根據(jù)公式計算概念的語用相似度。
4.根據(jù)權(quán)利要求1所述的本體相似度檢測方法，其特征在于，步驟4中考慮父子節(jié)點、兄弟節(jié)點關(guān)系，計算源結(jié)點和目標節(jié)點的結(jié)構(gòu)相似度，具體包括a、取一個語義半徑r，在路徑距離ρ^ r范圍內(nèi)查找概念的語義鄰居集合；b、根據(jù)各個結(jié)點的權(quán)重和計算公式，得到概念的結(jié)構(gòu)相似度。
5.根據(jù)權(quán)利要求1所述的本體相似度檢測方法，其特征在于，步驟5分別從數(shù)據(jù)屬性和對象屬性角度計算源結(jié)點和目標節(jié)點的屬性相似度，進一步包含a、將概念Cl、C2的數(shù)據(jù)類型屬性按數(shù)據(jù)類型分為若干個屬性集合；b、根據(jù)概念語義相似度的計算公式，對每一種數(shù)據(jù)類型構(gòu)造概念Cl、C2的屬性相似度矩陣，將概念相似度作為屬性相似度衡量指標； C、計算所有數(shù)據(jù)類型的語義相似度的平均值；d、依照上述方法，構(gòu)造對象類型的語義相似度矩陣，將概念相似度作為屬性相似度衡量指標；e、遍歷矩陣，取得相似度最大的值，將該值所屬的行和列刪除，在余下的矩陣中繼續(xù)重復(fù)執(zhí)行直到矩陣為空，得到最大相似度序列；f、根據(jù)公式，綜合得到對象類型屬性語義相似度；g、綜合數(shù)據(jù)屬性和對象屬性的相似度計算數(shù)值，求得最終的相似度結(jié)果。
全文摘要
本發(fā)明涉及一種綜合的本體相似度檢測方法，包含構(gòu)建本體的樹狀結(jié)構(gòu)、計算源結(jié)點和目標節(jié)點的語義相似度、語用相似度、結(jié)構(gòu)相似度、屬性相似度、加權(quán)求和得到整體的相似度的步驟。本發(fā)明不僅考慮到本體的屬性特征、結(jié)構(gòu)特征，還將本體包含的語義信息作為衡量相似性的重要指標，并針對不同本體的特征，加入權(quán)重賦值和網(wǎng)絡(luò)搜索結(jié)果動態(tài)更新，在不明顯增加計算復(fù)雜度的情況下，充分利用本體的特征計算本體的相似性，提高了本體相似性檢測的準確性。
文檔編號G06F17/30GK101930462SQ20101025882
公開日2010年12月29日申請日期2010年8月20日優(yōu)先權(quán)日2010年8月20日
發(fā)明者王芙蓉, 田穎申請人:華中科技大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王芙蓉;田穎
技術(shù)所有人：華中科技大學(xué)
我是此專利的發(fā)明人

上一篇：電子裝置及控制其用戶界面的方法
上一篇：具有輸入信號切換功能的擴充座的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

本體感覺訓(xùn)練方法相關(guān)技術(shù)

本體覺訓(xùn)練的方法大全相關(guān)技術(shù)

本體構(gòu)建方法相關(guān)技術(shù)

領(lǐng)域本體構(gòu)建方法相關(guān)技術(shù)

本體方法及其應(yīng)用相關(guān)技術(shù)

本體感覺訓(xùn)練方法圖解相關(guān)技術(shù)

本體感失調(diào)的訓(xùn)練方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種綜合的本體相似度檢測方法