亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種綜合的本體相似度檢測方法

文檔序號:6608000閱讀:298來源:國知局
專利名稱:一種綜合的本體相似度檢測方法
技術(shù)領(lǐng)域
本發(fā)明屬于本體建模領(lǐng)域,涉及一種綜合的本體相似度檢測方法,尤其涉及一種 基于明確概念權(quán)重的綜合各方面指標的本體相似度檢測方法。
背景技術(shù)
本體是對共享概念模型的形式化規(guī)范說明。本體定義了領(lǐng)域的概念及其關(guān)系,方 便了知識共享和重用,近年來已經(jīng)成為語義web、人工智能、數(shù)據(jù)集成、信息檢索等研究領(lǐng)域 的熱門課題,并在這些領(lǐng)域中扮演著重要的角色。但在迅速發(fā)展的過程中,本體構(gòu)建缺乏統(tǒng) 一的標準,導(dǎo)致同一領(lǐng)域內(nèi)的本體研究者對于領(lǐng)域知識表述不同,構(gòu)建的本體之間存在一 定的異構(gòu)性,從而影響了知識的有效共享和重用。為解決異構(gòu)性問題,研究者提出本體映射 的方法,其目的是找出不同本體中實體之間的語義關(guān)聯(lián),并且將其形式化地表達出來。本體 映射是應(yīng)用系統(tǒng)之間語義信息互操作實現(xiàn)的基礎(chǔ),而概念相似度計算則是本體映射的關(guān)鍵 部分。相似度即兩個對象相似的程度,形式化定義本體相似度如下Ci標號為i的本體,i e N ;Sim (X,y)相似度函數(shù);e"本體 Ci 的概念,e" e (Ci, RCiA Ii),概念標號 j e N;Sim(en'J1 ei2'J2)概念e"'」1和概念ei2'j2間的概念相似度函數(shù),i乒j。本體相似度計算是以概念相似度為基礎(chǔ)的,即兩個本體之間的相似度,是由本體 內(nèi)部概念之間配對相似度來決定的,其計算過程涉及到本體的所有概念及其之間的關(guān)系。 兩個不同本體的概念組成的概念對之間的相似度,除了與概念自身的屬性有關(guān)之外,還與 概念在自身的本體中所處的上下文環(huán)境有很大的關(guān)系。相似度取值范圍在0-1之間。如 果兩個概念完全相似,則相似度為1 ;如果兩概念沒有任何共有特征,是兩個完全不同的概 念,則相似度為0。相似度的對稱性要求,概念A(yù)、B的相似性必須與B、A的相似性相同。相似度計算可以從實體、語義網(wǎng)絡(luò)、描述邏輯、約束、規(guī)則五個方面衡量。它們可以 看作是一個相似度棧,如圖3中顯示,它們的語義復(fù)雜度從下到上逐漸增強,依據(jù)各個層次 的語義特征,有不同的相似度計算方法。而特殊共享的領(lǐng)域本體,從上到下覆蓋了所有層 次,可以位于相似度棧的任一層次。下面提出目前已有的概念相似度計算,并對其特點進行分析。從實體層的角度來看,相似度計算方法可分為(1)基于語法的方法Levenshtein distance算法通過字符串匹配以及字符串之間的編輯距離來計算 相似值,并擴展到語句,沒有考慮概念的語義映射關(guān)系。編輯距離為字符串轉(zhuǎn)換所需的最小 數(shù)目的單元編輯操作,包括字符的插入、刪除、替換及相鄰字符的調(diào)換。(2)基于詞義或者自然語言的方法借鑒Wordnet等特定應(yīng)用字典,比較兩個實體是否為同義詞以及詞義相近程度。
4知識庫評估語義相似度語義網(wǎng)絡(luò)層包含許多概念和復(fù)雜的關(guān)系,蘊含著大量背景信息。概念是對象的通 用類,它們通過特征和屬性與其它概念關(guān)聯(lián)起來。從語義網(wǎng)絡(luò)層的角度來看,相似度計算應(yīng) 考慮本體的結(jié)構(gòu)。概念間的層次結(jié)構(gòu)可以圖或樹的形式表示出來,節(jié)點關(guān)系,如父結(jié)點、子 結(jié)點、兄弟結(jié)點等,反映了本體中的父類、子類關(guān)系。從語義網(wǎng)絡(luò)層的角度出發(fā),提出的相似度計算方法有(1)采用信息理論方法評估。通過計算包含相同子孫結(jié)點的概率值比較兩個對象 之間的相似度;(2)采用本體距離評估。利用兩個結(jié)點通過共有祖先的最短路徑或者連接兩個結(jié) 點的共有后代的通用最短路徑來計算相似性。此方法高度依賴于本體的構(gòu)建,適用于同一 本體內(nèi)的語義相似計算。(3)采用結(jié)點的語義距離評估。計算結(jié)點本身的基距離,然后參考語義關(guān)系,分別 計算父結(jié)點、子結(jié)點、孫子結(jié)點的基距離。將幾個基距離加權(quán)平均,得到一對結(jié)點的語義距罔。描述邏輯體現(xiàn)了本體的復(fù)雜性。它包含原子概念的類型以及與其它原子概念的關(guān) 系,主要考慮構(gòu)成本體的描述邏輯的語法。不同本體特殊化和形式化水平不同,計算方法頁 不同。M. Adrea Rodriguez Max和J. Egenhofer提出利用概念定義計算概念間相似度的方 法。利用同義詞集、語義相鄰函數(shù)和不同概念特征相應(yīng)進行匹配,比較不同本體的概念,得 到3個相似度值,然后求加權(quán)平均得到兩個概念的語義相似度。規(guī)則的抽取來自于概念的定義和結(jié)構(gòu)信息,體現(xiàn)了本體概念間更深層次的關(guān)聯(lián)關(guān) 系。Sushama Prasad通過定義規(guī)則一個結(jié)點的子結(jié)點與另一結(jié)點映射的百分比能反映該 結(jié)點與另一結(jié)點的映射關(guān)系,對本體ACM和ITTALKS進行了相似度計算并實現(xiàn)了本體映射。 在本體相似計算中定義了如下啟發(fā)式規(guī)則1.如果兩個實體的標簽(或URI)相同,那么這兩個實體是等價的;2.如果兩個概念的屬性都相同,那么這兩個概念是相似的;3.如果兩個概念的直接個體(實例)相同,那么這兩個概念是相似的;4.如果兩個概念的父(或子)概念(直接的或間接的)相同,那么這兩個概念是 相似的;5.如果兩個屬性的定義域或值域(直接的或間接的)相同,那么這兩個屬性是相 似的;6.如果兩個屬性的父(或子)屬性(直接的或間接的)相同,那么這兩個屬性是 相似的;7.如果兩個個體(實例)的屬性相同,那么這兩個個體是相似的;8.如果兩個個體(實例)的直接類型相同,那么這兩個個體是相似的;國外在本體相似度檢測和映射工作方面由較多的理論研究,并在實踐方面取得了 一些成果。華盛頓大學(xué)的AnHain Doan等提出了一種在語義Web環(huán)境下利用概念的實例作為 計算概念間相似度的依據(jù)進行本體映射的方法并開發(fā)了相應(yīng)的系統(tǒng)GLUE。GLUE系統(tǒng)通過機器學(xué)習對概念的實例進行分類,然后利用實例在概念中出現(xiàn)的聯(lián)
5合分布概率來計算概念間的相似度來確定映射關(guān)系。其思想是多策略學(xué)習。它用到了兩個 基本的學(xué)習器,內(nèi)容學(xué)習器和名稱學(xué)習器,采用樸素貝葉斯(Naive Bayes)的學(xué)習技術(shù)來訓(xùn) 練學(xué)習器,計算分別來自兩個本體的一對概念的聯(lián)合分布,并考慮將Jaccard系數(shù)作為概 念相似度指標。相似度函數(shù)通過合并不同匹配器的匹配結(jié)果,產(chǎn)生的是原子級的1 1的 映射關(guān)系。SF方法的基本思想是利用相鄰概念結(jié)點間相似的傳遞性。該方法把模式信息轉(zhuǎn)化 成有向圖,通過簡單的名字匹配(相同前綴、相同后綴、編輯距離)和結(jié)構(gòu)匹配得出各個結(jié) 點之間的初始化相似系數(shù),經(jīng)迭代計算得出最終的相似系數(shù)。接著,在有向圖的基礎(chǔ)上構(gòu)建 成對互連圖以及相似度繁殖圖,對初始相似度進行迭代計算,直至收斂得到最終的相似系數(shù)。Anchor Prompt方法是本體合成和本體裝配的工具,采用了復(fù)雜的敏捷機制匹配 可能的元素。其核心思想是源目標本體中的兩個相似術(shù)語對的連接路徑上的元素通常是 相似的。因此,預(yù)先定義的小規(guī)模的語義匹配術(shù)語對集能夠給出大量的可能語義相似的術(shù) 語對。用編輯距離算法識別、分析輸入本體的內(nèi)部路徑,將本體表示為圖及其相關(guān)詞匯的關(guān) 系配對集合。通過重復(fù)遍歷一對錨所有的相同長度的路徑,增加遇到的出現(xiàn)在相同位置的 術(shù)語對的相似值,累加得到 詞匯在相似路徑上相似位置的出現(xiàn)頻率,最后基于頻率和用戶 反饋決定匹配候選集。這個工具已被集成到Protege-2000這個知識庫建模工具中去。它 能處理基于和OKBC兼容的本體模型,其上層有類、槽、側(cè)面和實例?;诰嚯x函數(shù)的OLA算法充分利用了除語義技術(shù)之外所有的元素級匹配技術(shù)。所 有的輸入結(jié)構(gòu)距離的定義轉(zhuǎn)化為一組等式,這些距離都是線性的,然后尋找本體概念間的 最短距離。采用了基距離算法計算不同標簽及其數(shù)據(jù)類型的距離,使用固定點迭代算法直 至達到一個收斂點。Cupid方法是微軟研究院J. Madhavan等人實現(xiàn)的一個通用的模式匹配方法。該方 法結(jié)合了語言和結(jié)構(gòu)方面的模式匹配技術(shù),輸入的模式首先表示為一個圖,然后自頂向下 和自底向上相結(jié)合進行遍歷該圖。整個過程分為三個階段,分別為語言相似度、計算結(jié)構(gòu)相 似性計算和映射生成。S-Match算法是基于模式的匹配系統(tǒng),基于WordNet知識庫,采用SAT方法,處理樹 型結(jié)構(gòu)的映射(如等級層次或概念層次結(jié)構(gòu)),分解圖(樹)匹配問題為結(jié)點集合匹配問 題,匹配具有相似語義的概念,返回語義關(guān)系(如等價關(guān)系、包含關(guān)系)。IF-Map系統(tǒng)以信息流理論為基礎(chǔ),映射框架中設(shè)立了多個局部本體、全局本體和 參考本體。局部本體表示不同的存在本體,供不同的組織使用,并有各自的實例。參考本體 是對共享知識的一致性理解但沒有具體的實例。全局本體是一個邏輯上存在的本體,并不 真正地存在。總的來說,雖然目前的本體相似性檢測技術(shù)研究取得了一些成果,但還有很多缺 陷(1)現(xiàn)有方法大多數(shù)是基于語言語法和模式信息,而未充分考慮本體內(nèi)包含的語義信 息。(2)影響本體語義相似度計算的因素很多,如何選擇恰當?shù)脑u價指標,避免片面性,全 面、恰當?shù)暮饬勘倔w相似度需要進一步討論。(3)在算法的表達性、有效性、計算量的均衡方 面,還很不完善。

發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供了一種綜合的本體相似度檢測 方法,該方法從語義相似度、語用相似度、結(jié)構(gòu)相似度、屬性相似度四個方面進行計算。一種綜合的本體相似度檢測方法,包含步驟1 構(gòu)建本體的樹狀結(jié)構(gòu),確定各個結(jié)點和邊的權(quán)重;步驟2 通過詞匯間距離計算源結(jié)點和目標節(jié)點的語義相似度;步驟3 通過網(wǎng)絡(luò)搜索結(jié)果計算源結(jié)點和目標節(jié)點的語用相似度;步驟4 考慮父子節(jié)點、兄弟節(jié)點關(guān)系,計算源結(jié)點和目標節(jié)點的結(jié)構(gòu)相似度;步驟5 分別從數(shù)據(jù)屬性和對象屬性角度計算源結(jié)點和目標節(jié)點的屬性相似度;步驟6 綜合上述各相似度計算結(jié)果,加權(quán)求和得到整體的相似度。一種綜合的本體相似度檢測方法,步驟1中計算各個結(jié)點和邊的權(quán)重,進一步包 含a、對不同兩個本體中的概念進行比較時,在兩個本體樹之間虛擬出一個公共的父 節(jié)點,將兩個本體樹合并,從而將問題轉(zhuǎn)化為同一個本體內(nèi)的概念相似度計算。b、各個結(jié)點的權(quán)重取決于父節(jié)點的權(quán)重、兄弟節(jié)點的數(shù)目和子孫結(jié)點的數(shù)目,即 結(jié)點c的權(quán)重公式如下
WrdthiLentic)) 乂 —帥乂隱⑷柳剛 C為根結(jié)點Parents (c)為概念c的父節(jié)點;Weight (Parents (c))為概念c的父節(jié)點的權(quán)重;Width(c)為以概念c為根結(jié)點的子樹的所有子結(jié)點數(shù);Depth (c)為概念c的深度;Width (Parents (c))為以概念c的父節(jié)點為根結(jié)點的子樹的所有子結(jié)點數(shù)。C、從某一結(jié)點引出的邊與該結(jié)點具有相同的權(quán)重;步驟3中通過網(wǎng)絡(luò)搜索結(jié)果計算源結(jié)點和目標節(jié)點的語用相似度,進一步包含a、將兩個概念分別提交搜索引擎后,在搜索結(jié)果中提取URL,統(tǒng)計相同URL數(shù)目;b、對兩個概念分別進行正向搜索和反向搜索,統(tǒng)計搜索結(jié)果標題、摘要中出現(xiàn)該 概念的次數(shù);C、結(jié)合閾值,根據(jù)公式計算概念的語用相似度;步驟4中考慮父子節(jié)點、兄弟節(jié)點關(guān)系,計算源結(jié)點和目標節(jié)點的結(jié)構(gòu)相似度,具 體包括a、取一個語義半徑r,在路徑距離ρ ^ r范圍內(nèi)查找概念的語義鄰居集合;b、根據(jù)各個結(jié)點的權(quán)重和計算公式,得到概念的結(jié)構(gòu)相似度。步驟5分別從數(shù)據(jù)屬性和對象屬性角度計算源結(jié)點和目標節(jié)點的屬性相似度,進 一步包含
7
a、將概念A(yù)、B的數(shù)據(jù)類型屬性按數(shù)據(jù)類型分為若干個屬性集合;b、根據(jù)概念語義相似度的計算公式,對每一種數(shù)據(jù)類型構(gòu)造概念A(yù)、B的屬性相似 度矩陣,將概念相似度作為屬性相似度衡量指標;c、計算所有數(shù)據(jù)類型的語義相似度的平均值。d、依照上述方法,構(gòu)造對象類型的語義相似度矩陣,將概念相似度作為屬性相似 度衡量指標。e、遍歷矩陣,取得相似度最大的值,將該值所屬的行和列刪除,在余下的矩陣中繼 續(xù)重復(fù)執(zhí)行直到矩陣為空,得到最大相似度序列。f、根據(jù)公式,綜合得到對象類型屬性語義相似度;g、綜合數(shù)據(jù)屬性和對象屬性的相似度計算數(shù)值,求得最終的相似度結(jié)果。本發(fā)明的優(yōu)點在于,在不明顯增加計算復(fù)雜度的情況下,充分利用本體的特征計 算本體的相似性。不僅考慮到本體的屬性特征、結(jié)構(gòu)特征,還將本體包含的語義信息作為衡 量相似性的重要指標,并針對不同本體的特征,加入權(quán)重賦值和網(wǎng)絡(luò)搜索結(jié)果動態(tài)更新,提 高了本體相似性檢測的準確性。


圖1為本發(fā)明的綜合計算本體相似度的方法流程圖;圖2為本發(fā)明的根據(jù)本體構(gòu)建的本體概念樹及各節(jié)點、邊的權(quán)重圖。圖3為相似度計算時所涉及的相似度棧。
具體實施例方式有關(guān)本發(fā)明的技術(shù)內(nèi)容及詳細說明,現(xiàn)配合

如下如圖1所示,本發(fā)明提供一種綜合的本體相似度檢測方法,通過從語義相似度、語 用相似度、結(jié)構(gòu)相似度、屬性相似度四個方面計算本體概念相似度,不僅反映了本體的結(jié)構(gòu) 特征、數(shù)值屬性和對象屬性的共同認知,還進一步從語義的角度分析本體包含的領(lǐng)域知識。 通過對網(wǎng)絡(luò)搜索結(jié)果的整合,及時更新知識庫,體現(xiàn)概念間相關(guān)性的即時變化,更精確的評 價本體概念間的相似度。該方法,包含步驟1 構(gòu)建本體的樹狀結(jié)構(gòu),確定各個結(jié)點和邊的權(quán)重;圖2為本發(fā)明的為本體構(gòu)建的概念樹。本體中的概念是分層的,某個領(lǐng)域內(nèi)的知 識包含超類、類、子類的層次關(guān)系,所以本體也可以看成一棵概念樹,樹中每個結(jié)點代表一 個概念。概念樹中有子結(jié)點、父結(jié)點和兄弟結(jié)點等。屬性同樣擁有類似的樹形結(jié)構(gòu)。對相似度的衡量取決于這樣的設(shè)定兩個概念是相似的,如果它們的父概念或子 概念直接的或間接的相同。在概念樹中,計算概念之間的語義關(guān)系轉(zhuǎn)換為計算概念之間的 路徑距離,通過樹中節(jié)點的距離來評價兩個概念節(jié)點的語義關(guān)系。兩個概念的距離越大,其 相似度越低;反之,距離越小,其相似程度越大;定義概念距離為0時,其相似度為1 ;概念 距離為無窮大時,其相似度為0。相似度為概念距離的單調(diào)遞減函數(shù)。在本體概念樹中,概念所處的節(jié)點的深度和該深度上節(jié)點密度反映了本體對該概 念的描述詳細程度,從而影響著概念相似度的計算。結(jié)點深度越大,越靠近底層,表示2個 概念代表的術(shù)語越具體,對領(lǐng)域知識的分類越細致,概念細分的程度越高,相似性評價意義
8越大概念越相近。同樣,結(jié)點密度反映了本體對該領(lǐng)域知識內(nèi)概念認知的詳細程度,結(jié)點密 度越大,則該部分的描述越詳細,語義相似度越高。因而,結(jié)點深度和結(jié)點密度應(yīng)在概念權(quán) 重中有所反映。因此,本方法提出概念權(quán)重的計算公式如下 Parents(c)為概念c的父節(jié)點;Weight (Parents (c))為概念c的父節(jié)點的權(quán)重;Width(C)為以概念c為根結(jié)點的子樹的所有子結(jié)點數(shù);Depth (C)概念 c 的深度;Width (Parents (c))為以概念c的父節(jié)點為根結(jié)點的子樹的所有子結(jié)點數(shù)。從概念c引出的邊具有相同的權(quán)重,用概念c的權(quán)重表示從其引出的邊的權(quán)重,記 edge (cl,c2)為從cl到c2的邊,則Weight (edgP(cl, c2)) = Weight (cl)根據(jù)此公式,計算得到圖1中所有節(jié)點和邊的權(quán)重。對不同兩個本體中的概念進行比較時,在兩個本體樹之間虛擬出一個公共的父節(jié) 點,將兩個本體樹合并,從而將問題轉(zhuǎn)化為同一個本體內(nèi)的概念相似度計算。步驟2 通過詞匯間距離計算源結(jié)點和目標節(jié)點的語義相似度;從概念樹的角度分析,相似度隨著兩概念深度總和的增加而增加,隨著它們之間 深度差的增加而減小。語義相似度計算公式應(yīng)反映這兩個因素對計算結(jié)果的影響。本方法提出采用邊的權(quán)重來表示概念間的語義距離,即連接2個概念節(jié)點的通路 中最短路徑所跨的邊的權(quán)重之和。即 Dis (Cl,C2)為概念Cl,C2間帶權(quán)重的路徑長度;SP(Cl,C2)為概念Cl,C2間通路中最短路徑經(jīng)過的所有邊;Weight(Ci)為路徑上經(jīng)過的邊的權(quán)重。語義相似度計算公式為 Li,L2分別為概念Cl,C2到根結(jié)點的路徑上經(jīng)過的邊的權(quán)重和;α為相似度為0. 5時概念Cl,C2間的距離,α為可調(diào)參數(shù),α≥0。為驗證該公式的準確度,我們分別計算C10,C16與C12,C3的相似度,來確定概念 距離對概念相似性的影響。 根據(jù)公式可得, 可知,Sim(C10,C16)彡Sim(C12,C3),因此 C10,C16 的語義相似度大于 C12,C3 的
語義相似度。這與從概念樹的角度分析得到的結(jié)論相符。接著,我們計算C10,C12與Cl,C2的相似度,來確定結(jié)點深度對概念相似性的影 響。根據(jù)公式可得,Sim(C10, 可知,Sim(C10,C12)彡Sim(Cl,C2),因此C10,C12的語義相似度大于Cl,C2的語
義相似度。這與從概念樹的角度分析得到的結(jié)論相符。上述兩例證明,結(jié)合權(quán)重的語義相似度計算公式與實際分析相符,較好的反映了 概念間的語義相似關(guān)系。步驟3 通過網(wǎng)絡(luò)搜索結(jié)果計算源結(jié)點和目標節(jié)點的語用相似度;在信息時代,領(lǐng)域知識不斷變化,新概念層出不窮,概念間不斷建立新的聯(lián)系。僅 僅依靠字典等工具不能及時更新對本體相似度的評價。本發(fā)明中,考慮結(jié)合網(wǎng)絡(luò)搜索結(jié)果 動態(tài)更新本體語用相似度的計算結(jié)果。語用相似度基于這樣的設(shè)定兩個概念相似,若概念所處的應(yīng)用環(huán)境中上下文信 息相似。本方法利用現(xiàn)有的信息檢索系統(tǒng),首先將源概念和目標概念分別提交搜索引擎,得 到返回的URL數(shù)據(jù),統(tǒng)計得到兩次搜索結(jié)果中相同的URL地址數(shù)目,并一次作為語用相似度 評價的第一個指標。統(tǒng)計得到Cl的搜索結(jié)果為M條,C2的搜索結(jié)果為N條,其中URL相同的為K條, 則相似度為
2Ksim r/(Cl, C2)="^第二步,本方法將兩個概念同時提交搜索引擎,在返回的結(jié)果中,統(tǒng)計標題、摘要 中兩個概念出現(xiàn)的次數(shù)。為避免提交概念的先后順序?qū)е碌乃阉鹘Y(jié)果差異,再進行逆序搜 索操作。綜合兩次搜索結(jié)果得到語用相似度評價的第二個指標。統(tǒng)計得到提交順序為Cl C2時的搜索結(jié)果中,Cl在標題、摘要中出現(xiàn)次數(shù)為M1;C2 出現(xiàn)次數(shù)為N1,兩者同時出現(xiàn)次數(shù)為O1;逆序搜索時,Cl在標題、摘要中出現(xiàn)次數(shù)為M2,C2 出現(xiàn)次數(shù)為N2,兩者同時出現(xiàn)次數(shù)為02。考慮到Cl、C2可能恰巧同時出現(xiàn)在同一網(wǎng)頁上的 偶然情況,本方法設(shè)置常數(shù)閾值C,當Cl、C2同時出現(xiàn)次數(shù)小于C時,忽略不計。則相似度 為
2 Xmin^bTV1)
Γ MX+NX ’ oPccii ) — ^
Sim forward —
^ 0; Oi π C(常數(shù))
10 sim search (Cl, C2)=~ X ( sim forward + Sim backward )在此基礎(chǔ)上,得到語用相似度的計算公式Sim (Cl, C2)2 = ε !Xsimurl (Cl, C2)+ ε 2Χ simsearch(Cl, C2)網(wǎng)絡(luò)中不同的URL可能包含同樣的信息,嚴格要求URL相同導(dǎo)致信息遺漏,因而反 映的相似度準確性不夠高。基于這樣的事實,本方法設(shè)置£1取0.3,£2取0.7。步驟4 考慮父子節(jié)點、兄弟節(jié)點關(guān)系,計算源結(jié)點和目標節(jié)點的結(jié)構(gòu)相似度;考慮到概念樹的結(jié)構(gòu)對相似度的影響,本方法取小于概念樹深度的語義半徑,統(tǒng) 計概念周圍語義半徑內(nèi)的所有語義鄰居,建立該概念的描述集合。設(shè)C1,C2的描述集合分別
為A、B,比較得到兩集合共有的元素集合A Π B,其所有元素帶權(quán)重的和為Wy—^jf·;
屬于集合A而不屬于B的元素集合A/B,其所有元素帶權(quán)重的和為W⑷W = ^fw ;屬于集合
i = \
B而不屬于A的元素集合B/A,其所有元素帶權(quán)重的和為W1^w = lIfw。根據(jù)下面公式計算
i = \
得到結(jié)構(gòu)相似度。
._W(Ar,B)_Sim(Cl, C2)3= W{Ar,E)^a(A,B)W{AIE)^(l-a(A,B))W{BIA)
Depth(Ci)Depth(Cl) < Depth(Cl)
Depth(CY) + Depth(C2)a(A,B) = ^
_d^pHCI)_ Depth(Cl) φ Depth(Cl)
、Depth(Cl) + Depth(Cl) Depth (c)為概念c的深度步驟5 分別從數(shù)據(jù)屬性和對象屬性角度計算源結(jié)點和目標節(jié)點的屬性相似度;本體中概念的屬性是描述概念的一個重要元素。對屬性相似度計算基于這樣的設(shè) 定兩個概念相似當它們具有相同屬性。概念屬性包括數(shù)值屬性和對象屬性。本方法分別 對兩者進行相似度計算,設(shè)置其在屬性相似度中的權(quán)重,結(jié)合兩個計算結(jié)果得到整體的相 似度??紤]到與類的結(jié)構(gòu)相比,屬性的樹狀結(jié)構(gòu)通常深度較小,屬性-子屬性的關(guān)系較 少,本方法采用基于WordNet的Wu-Palmer語義相似度算法。WordNet將英語詞匯組織為一 個同義詞集合(Synset),每個集合標明一個詞匯概念,詞匯關(guān)系在詞語之間體現(xiàn),語義關(guān)系 在概念之間體現(xiàn)。對于兩個概念Cl和C2,用這種算法計算它們的概念語義相似度為
11 Sim(Cl C2)= dePth、A、+dePth、B、Iso (Cl,C2)是概念Cl和概念C2的最近共同祖先概念;depth (Cl)和depth (C2)分別表示概念Cl和概念C2在詞典語義樹中的深度。將概念C1、C2的數(shù)據(jù)類型屬性按數(shù)據(jù)類型(stringdloat等)分為若干個屬性集 合。根據(jù)概念語義相似度的計算公式,對每一種數(shù)據(jù)類型構(gòu)造概念Cl、C2的屬性相似度矩 陣。將概念相似度作為屬性相似度衡量指標,對得到的矩陣計算所有數(shù)據(jù)類型語義相似度 的平均值。將概念相似度作為屬性相似度衡量指標,對得到的矩陣計算所有數(shù)據(jù)類型語義 相似度的平均值Sim^——。對象類型屬性相似度方法是計算對象類型屬性所關(guān)聯(lián)的概念的語義相似度。設(shè)概 念Cl的對象類型屬性集合為A= { , , ···%},概念B的對象類型屬性集合為attribute。 =Ib1, b2,b3-bj。對象類型屬性 (1彡i彡m)所關(guān)聯(lián)的概念為Cl和Si ;對象類型屬性 bj(l ^ i ^n)所關(guān)聯(lián)的概念為Cl和T」。以相似度公式計算概念Si和概念&的語義相似度作為 屯的相似度SimM。重 復(fù)這樣的計算,得到相似度矩陣Simljl, Siml,2 ...... SimljnSim2,l Sim2,2 ...... Sim2,n............................Simllljl Simnij2 ......... Simm, n遍歷矩陣,取得相似度最大的值,將該值所屬的行和列刪除,在余下的矩陣中繼續(xù) 重復(fù)執(zhí)行直到矩陣為空,得到最大相似度序列S1 S2S3- Sk(k為m,η中較小值)。對最大相似度序列求平均值,得到對象類型屬性語義相似度Stff ;
kSimop=Ix Y^s1
i=\綜合數(shù)據(jù)屬性和對象屬性的相似度計算數(shù)值,求得最終的相似度結(jié)果。Sim (Cl,C2) 4 = 0. 5 X Simdataproperty+0. 5 X Simop最后,在得到上述各相似度計算結(jié)果后,綜合考慮加權(quán)求和得到整體的相似度,計 算公式如下Sim(Cl, C2) = α X S im (C 1,C2) J β X S i m (C 1,C2) 2+δ X S i m (C 1, C2)3+ Y XSim(Cl,C2)4其中,α+β + δ + γ = 1。值的具體設(shè)置值需要根據(jù)具體環(huán)境確定。上述僅為本發(fā)明的較佳實施例而已,并非用來限定本發(fā)明實施范圍。即凡依照本 發(fā)明申請專利范圍所做的均等變化與修飾,皆為本發(fā)明專利范圍所涵蓋。
1權(quán)利要求
一種綜合的本體相似度檢測方法,其特征在于,包含以下步驟步驟1構(gòu)建本體的樹狀結(jié)構(gòu),確定各個結(jié)點和邊的權(quán)重;步驟2通過詞匯間距離計算源結(jié)點和目標節(jié)點的語義相似度;步驟3通過網(wǎng)絡(luò)搜索結(jié)果計算源結(jié)點和目標節(jié)點的語用相似度;步驟4考慮父子節(jié)點、兄弟節(jié)點關(guān)系,計算源結(jié)點和目標節(jié)點的結(jié)構(gòu)相似度;步驟5分別從數(shù)據(jù)屬性和對象屬性角度計算源結(jié)點和目標節(jié)點的屬性相似度;步驟6綜合上述各相似度計算結(jié)果,加權(quán)求和得到整體的相似度。
2.根據(jù)權(quán)利要求1所述的本體相似度檢測方法,其特征在于,步驟1中計算各個結(jié)點和 邊的權(quán)重,進一步包含a、對不同兩個本體中的概念進行比較時,在兩個本體樹之間虛擬出一個公共的父節(jié) 點,將兩個本體樹合并,從而將問題轉(zhuǎn)化為同一個本體內(nèi)的概念相似度計算;b、各個結(jié)點的權(quán)重取決于父節(jié)點的權(quán)重、兄弟節(jié)點的數(shù)目和子孫結(jié)點的數(shù)目,即結(jié)點c 的權(quán)重公式如下“隱二—柳剛 c不為根結(jié)點 Parents (c)為概念c的父節(jié)點; Weight (Parents (c))為概念c的父節(jié)點的權(quán)重; Width(c)為以概念c為根結(jié)點的子樹的所有子結(jié)點數(shù); Depth (c)概念c的深度;Width (Parents (c))為以概念c的父節(jié)點為根結(jié)點的子樹的所有子結(jié)點數(shù); C、從某一結(jié)點引出的邊與該結(jié)點具有相同的權(quán)重。
3.根據(jù)權(quán)利要求1所述的本體相似度檢測方法,其特征在于,步驟3中通過網(wǎng)絡(luò)搜索結(jié) 果計算源結(jié)點和目標節(jié)點的語用相似度,進一步包含a、將兩個概念分別提交搜索引擎后,在搜索結(jié)果中提取URL,統(tǒng)計相同URL數(shù)目;b、對兩個概念分別進行正向搜索和反向搜索,統(tǒng)計搜索結(jié)果標題、摘要中出現(xiàn)該概念 的次數(shù);c、結(jié)合閾值,根據(jù)公式計算概念的語用相似度。
4.根據(jù)權(quán)利要求1所述的本體相似度檢測方法,其特征在于,步驟4中考慮父子節(jié)點、 兄弟節(jié)點關(guān)系,計算源結(jié)點和目標節(jié)點的結(jié)構(gòu)相似度,具體包括a、取一個語義半徑r,在路徑距離ρ^ r范圍內(nèi)查找概念的語義鄰居集合;b、根據(jù)各個結(jié)點的權(quán)重和計算公式,得到概念的結(jié)構(gòu)相似度。
5.根據(jù)權(quán)利要求1所述的本體相似度檢測方法,其特征在于,步驟5分別從數(shù)據(jù)屬性和 對象屬性角度計算源結(jié)點和目標節(jié)點的屬性相似度,進一步包含a、將概念Cl、C2的數(shù)據(jù)類型屬性按數(shù)據(jù)類型分為若干個屬性集合;b、根據(jù)概念語義相似度的計算公式,對每一種數(shù)據(jù)類型構(gòu)造概念Cl、C2的屬性相似度矩陣,將概念相似度作為屬性相似度衡量指標; C、計算所有數(shù)據(jù)類型的語義相似度的平均值;d、依照上述方法,構(gòu)造對象類型的語義相似度矩陣,將概念相似度作為屬性相似度衡 量指標;e、遍歷矩陣,取得相似度最大的值,將該值所屬的行和列刪除,在余下的矩陣中繼續(xù)重 復(fù)執(zhí)行直到矩陣為空,得到最大相似度序列;f、根據(jù)公式,綜合得到對象類型屬性語義相似度;g、綜合數(shù)據(jù)屬性和對象屬性的相似度計算數(shù)值,求得最終的相似度結(jié)果。
全文摘要
本發(fā)明涉及一種綜合的本體相似度檢測方法,包含構(gòu)建本體的樹狀結(jié)構(gòu)、計算源結(jié)點和目標節(jié)點的語義相似度、語用相似度、結(jié)構(gòu)相似度、屬性相似度、加權(quán)求和得到整體的相似度的步驟。本發(fā)明不僅考慮到本體的屬性特征、結(jié)構(gòu)特征,還將本體包含的語義信息作為衡量相似性的重要指標,并針對不同本體的特征,加入權(quán)重賦值和網(wǎng)絡(luò)搜索結(jié)果動態(tài)更新,在不明顯增加計算復(fù)雜度的情況下,充分利用本體的特征計算本體的相似性,提高了本體相似性檢測的準確性。
文檔編號G06F17/30GK101930462SQ20101025882
公開日2010年12月29日 申請日期2010年8月20日 優(yōu)先權(quán)日2010年8月20日
發(fā)明者王芙蓉, 田穎 申請人:華中科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1