一種計算xml文檔相似度的方法

文檔序號：6585556閱讀：319來源：國知局

專利名稱：一種計算xml文檔相似度的方法
一種計算XML文檔相似度的方法
技術領域：
本發(fā)明屬于數(shù)據(jù)庫技術領域，具體涉及一種計算XML文檔相似度的方法。背景技術：
可擴展標記語言XML已成為Web上表示和交換數(shù)據(jù)的標準格式。隨著XML相關標準的推廣和應用，各行各業(yè)都以XML作為元語言，制定各自領域特定的子語言，用于存儲和共享本領域所涉及的數(shù)據(jù)。在這種背景下，各個領域都會不斷涌現(xiàn)出大量的XML文檔。如何從大量文檔中挖掘知識成為了當前急需解決的問題。XML數(shù)據(jù)挖掘是知識發(fā)現(xiàn)技術里一個重要的應用，而相似度計算在XML數(shù)據(jù)挖掘中起基礎性的作用。XML文檔挖掘分為內容挖掘和結構挖掘，它可以用于XML數(shù)據(jù)的提取、整合以及其他一些應用。XML文檔是半結構化數(shù)據(jù)，因而結構挖掘尤為重要。分類、聚類是數(shù)據(jù)挖掘普遍采用的方法，而XML文檔相似度是分類、聚類的基礎，是影響挖掘結果的一個重要因素。目前XML文檔相似度計算主要有兩類方法，基于樹編輯距離的方法和基于頻繁路徑的方法。其中基于樹編輯距離的方法得到了普遍應用，它首先把一篇XML文檔表示為一棵有序標簽樹，例如DOM樹。進而通過樹編輯距離來衡量XML文檔樹的相似度?；跇渚?輯距離有三種經(jīng)典算法SelkoW、Chawathe和Dalamagas，但樹編輯距離算法時間復雜度普遍較高?；陬l繁路徑的方法可以快速計算文檔相似度，但丟失所有的非頻繁路徑，從而丟失大量的結構信息，正確率相對較低。

發(fā)明內容本發(fā)明的目的是彌補現(xiàn)有技術存在的上述不足，提出一種新的計算XML文檔相似度的方法。該方法使用BPC模型提取出XML文檔的結構信息，引入各種權重體現(xiàn)結構層次，基于N-Gram劃分方式，通過一次掃描降低了 XML文檔相似性計算的時間復雜度。本發(fā)明提供的計算XML文檔相似度的方法包括如下步驟步驟1、將XML文檔定義為一棵XML文檔樹；步驟2、建立雙向路徑約束(Bidirectional path constraints, BPC)模型在步驟1文檔樹的基礎上定義節(jié)點的BPC，一篇XML文檔包含的所有節(jié)點的BPC集合稱為雙向路徑約束模型；步驟3、使用基于N-Gram的劃分方式計算兩個祖先路徑約束(或孩子路徑約束) 之間的相似度，統(tǒng)稱為路徑約束相似度；步驟4、根據(jù)步驟3得出的路徑約束相似度計算兩個節(jié)點的BPC相似度，進而把這個BPC相似度作為這兩個節(jié)點的相似度；步驟5、最后文檔中所有節(jié)點相似度按照節(jié)點的結構層次加權求和作為兩篇文檔的相似度。本發(fā)明的具體計算過程如下1.XML 文檔樹
將XML文檔定義為一棵XML文檔樹，具體如下定義1. XML文檔樹將一棵XML文檔樹表示為一個6元組T = (V,v0,E, E，P，lab)，其中1)、V是文檔樹中所有節(jié)點的集合；2)、V(1是文檔樹的根節(jié)點；3)、Ea定義了父子約束集合，Ea = {(u，v) | u G V八v G V，并且u是v的父親節(jié) 點}，ES定義了兄弟約束集合，ES= {(u,v) |uG VAvG V，并且的右兄弟節(jié)點}；用 E表示約束集合，即E = Ea U Es ；4)、E是文檔樹中節(jié)點標簽的集合；5)、PA 定義了祖先路徑約束，PA = {(v0, Vl, ... , vn) | (Vi，vi+1) G Ea，0 彡 i < n} U {v0}，Ps 定義了孩子路徑約束，Ps = {(Vl, . . . , vn) | (Vi，vi+1) G Es，0 < i < n，Vl， vn分別是它們父親節(jié)點的第一個和最后一個孩子節(jié)點} U {Vl|Vl是其父親節(jié)點的唯一孩子節(jié)點}；用P表示路徑約束集合，即P = PA U PS,PC VU V2U... U ^；6)、函數(shù)lab返回節(jié)點的標簽，即當v G V，lab (v) GE。需要說明的是，我們關注的是結構相似度，傳統(tǒng)的信息檢索技術已經(jīng)很好的處理了內容相似度，所以文本節(jié)點統(tǒng)一當做標簽值為#text的節(jié)點。另外將屬性節(jié)點看成一種特殊的元素節(jié)點。文檔樹示例如圖1。2.節(jié)點的 BPC定義2.節(jié)點的BPC。PA(e)定義了節(jié)點e的祖先路徑約束，PA(e) = (v0, Vl，， e) G PA，Ps(e)定義了節(jié)點 e 的孩子路徑約束，Ps(e) = (Ul，. . .，un) G Ps, (e, Ui) G Ea， cons(e)定義了節(jié)點的BPC，cons (e) = (PA(e), Ps (e)), e G V。對于文檔樹的葉節(jié)點，它的 Ps(e)為空，用e表示。通常基于樹編輯距離的方法只提取祖先路徑約束。本發(fā)明使用的BPC在原有的祖先路徑約束的基礎上增加了孩子路徑約束。這樣更全面的獲取了 XML文檔的結構信息，可以提高依據(jù)文檔相似度聚類結果的正確率。3.基于N-Gram思想計算兩個路徑約束之間的相似度設k為待比較的兩個路徑約束中出現(xiàn)的不同節(jié)點標簽的數(shù)量，將這k個節(jié)點標簽按照字典序排列，則每個節(jié)點標簽可以依次映射為[1，k]內的一個正整數(shù)。這樣用字符串表示的節(jié)點標簽被轉換為一個數(shù)字，相同的標簽名有相同的數(shù)字編號。那么路徑約束最后的表現(xiàn)形式是一個有順序的整數(shù)數(shù)組。定義3.基于N-Gram思想的劃分方式。它將長為n的整數(shù)數(shù)組劃分為n個子數(shù)組，其中第i(0 < i彡n)個子數(shù)組存儲的是提取的i-Gram項，該子數(shù)組簡稱為i-Gram數(shù)組，含有n-i+1項，其中每一項均為原整數(shù)數(shù)組中i個連續(xù)項(ai，a2，……，％)生成的結果，生成方法如下引入k+1是為了保證各個子數(shù)組的項的唯一性，可見，1-Gram數(shù)組有n項，2-Gram 數(shù)組有n-1項，……，(n-1)-Gram數(shù)組有2項，n-Gram數(shù)組有1項；因而所有子數(shù)組共有
項；為了簡化后面的處理，將n個子數(shù)組依次存儲在一個長為
的數(shù)組中；
待比較的兩個路徑約束，通過使用符號映射轉化為整數(shù)數(shù)組，長度分別為n和m，它們是某兩個節(jié)點的祖先路徑約束(或同是孩子路徑約束)，根據(jù)定義3將他們依次分解成 1-Gram 數(shù)組，2-Gram 數(shù)組，......，min (n，m) -Gram 數(shù)組。定義4.兩個一維數(shù)組的相同項個數(shù)C。把數(shù)組看成集合，用兩個集合的交集表示相同項個數(shù)C。用q表示兩個路徑約束分解后兩個i-Gram數(shù)組的相同項個數(shù)。如果在i-Gram數(shù) 組中有完全匹配項時，該項的所有子項都會匹配，這部分匹配的子項個數(shù)無形中體現(xiàn)了的權重，c=UG;因此用C表示兩個路徑約束分解后的相同項個數(shù)。 1=1定義5.路徑約束相似度。根據(jù)上面的定義，路徑約束相似度公式如下所示 4. BPC 相似度為了保持原有的結構信息，本發(fā)明對XML文檔的每個節(jié)點提取了 BPC，但是祖先路徑相似度和孩子路徑相似度對BPC的影響程度可能不一樣。引入影響因子來描述祖先約束對BPC的影響程度。這個影響因子由程序員設定。一般認為祖先路徑約束對BPC有更大的影響。定義6.BPC相似度。設a為祖先路徑約束的影響因子，自然為孩子路徑約束的影響因子，0彡a彡1，BPC相似度公式如下所示 5.文檔相似度定義7.文檔相似度。兩篇XML文檔Di和D2，節(jié)點個數(shù)分別為n和m，根據(jù)定義6 計算出Di每個節(jié)點的BPC和D2每個節(jié)點的BPC相似度形成相似矩陣后，選出Di各個節(jié)點和D2相似度最大的節(jié)點的相似值，則文檔相似度公式如下在XML文檔標簽樹中，節(jié)點越靠近根節(jié)點，它對文檔結構的影響就越大。引入
來描述不同節(jié)點深度的不同影響，lev(vi)為節(jié)點義的層數(shù)，根節(jié)點的層數(shù)是
0o本發(fā)明的優(yōu)點和積極效果本發(fā)明提出一種新的比較XML文檔相似度的方法。該方法使用BPC模型，更全面的提取XML文檔的結構信息，為精確計算XML文檔相似度打下了基礎。引入各種權重體現(xiàn) 結構層次。創(chuàng)新的用N-Gram思想簡化路徑相似度的度量，精確效率高。作為分類、聚類的基礎，可以提高分類、聚類的正確率。

圖1為一篇XML文檔和它對應的XML文檔樹。圖2為使用N-Gram思想提取路徑約束6 — 3 — 4 — 5 — 3中的N-Gram信息，此圖包括由a到e的五個過程，因為出現(xiàn)的最大整數(shù)為6，提取過程中使用的是七進制。其中，(a)為掃描路徑的第一個元素后填充第一個1-Gram的示意圖。(b)為掃描路徑的第二個元素后填充第二個1-Gram，第一個2-Gram的示意圖。(c)為掃描路徑的第三個元素后填充第三個1-Gram，第二個2-Gram，第一個 3-Gram的示意圖。(d)為掃描路徑的第四個元素后填充第四個1-Gram，第三個2-Gram，第二個 3-Gram,第一個4-Gram的示意圖。(e)為掃描路徑的第三個元素后填充第五個1-Gram，第四個2-Gram，第三個 3-Gram,第二個4-Gram，第一個5-Gram的示意圖。圖3為文檔相似度算法流程圖。
具體實施方式N-Gram(N是元數(shù))是大詞匯連續(xù)語音識別中常用的一種語言模型。該模型基于這樣一種假設，第N個詞的出現(xiàn)只與前面N-1個詞相關，而與其它任何詞都不相關，整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram，已經(jīng)廣泛應用于自然語言處理。 N-Gram的意思可以理解為N個詞構成的序列。實施例1 基于XML文檔樹構建BPC模型的具體方法，描述如下1.根據(jù)本發(fā)明提出的將XML文檔定義為一棵XML文檔樹，并在此文檔樹基礎上對每個節(jié)點建立BPC模型。圖1顯示了一篇XML文檔和它對應的XML文檔樹，表1以圖1文檔樹為例列舉各個節(jié)點的BPC模型。實施例2 基于N-Gram思想計算文檔相似度的具體方法，描述如下算法1.根據(jù)兩個相鄰i-Gram項生成i+1-Gram項的方法CreateGram輸入itemi，item2 /*用正整數(shù)表示的兩個相鄰i_Gram項*/t /* 進制 t*/輸出item /*用正整數(shù)表示的(i+1)-Gram項*/① item: = item! X t+item2% t ；②.RETURN item ；③.算法結束該算法是根據(jù)兩個相鄰i-Gram項生成(i+l)-Gram項。算法中的進制t為待比較的兩個路徑約束中不同標簽數(shù)目總數(shù)加1。對于同一個路徑約束，引入進制t，當i卓j時，可以保證i-Gram項所在的整數(shù)域和j-Gram所在的整數(shù)域沒有交集。算法2.路徑約束中N-Gram信息的提取方法PathDecomposition輸入Path[l，2，，!!] /*映射為正整數(shù)數(shù)組后的路徑約束*/t/*進制t，意義同算法1*/ /*需要提取的最大的N-Gram項，即提取的k-Gram 子數(shù)組中，k ( n0*/輸出
提取的 N-Gram信息 */①.pos[l，2，…，n]；
/*pos [i]記錄路徑約束Path的每個i-Gram數(shù)組在NGram數(shù)組(i = 1,2,……，Path. Length)中的起始位置 */
「…「1r.i 2ni - 2n + 3i _ i2② ③.FOREACH member IN Path④.i : = member 在 Path 中的下標；⑤.NGram[i] = member /* 填充第 i 個 1-Gram 項 * /⑥.j = 2 ；/*j表示待填充的j-Gram項*/⑦.IF j 彡 i&&j 彡 n0THEN⑧.item!: = NGram[pos[j-l]+i-j+l]；(9).item2: = NGram[pos[j-l]+i_j+2]；⑩.NGram[pos[j]+i-j+l] : = CreateGram(item1, item2, t)；/* 根據(jù)(j-1) -Gram 項填充第 i_j+l 個 j-Gram 項 */ .j++ ； .GOTO ⑦ .END IF .END FOREACH .RETURN NGram ； .算法結束該算法的主要目的是通過掃描一次數(shù)組Path，提取出該數(shù)組包含的所有的 i-Gram項，并填充到NGram數(shù)組的相應位置里。每個i-Gram的長度確定，用pos數(shù)組存儲每個i-Gram在NGram的起始位置。根據(jù)i，填充方式如下i = 1 填充第 1 個 1-Grami = 2 填充第 2 個 1-Gram，第 1 個 2-Grami = 3 填充第 3 個 1-Gram，第 2 個 2-Gram，第 1 個 3-Gram............i = n 填充第 n 個 1-Gram，第 n_l 個 2-Gram，......,第 1 個 n-Gram由此發(fā)現(xiàn)，當已知Path的當前掃描位置i和待填充項屬于j-Gram，結合數(shù)組 pos可以計算出待填充項在NGram中的存儲位置。算法的第⑧至⑩步調用了算法1，利用 (j-1)-Gram的第i_j+l和i_j+2項，生成j-Gram的第i_j+l項。路徑數(shù)組Path掃描結束，它對應的N-Gram信息數(shù)組NGram填充完整。如圖2為使用N-Gram思想提取路徑約束 6 — 3 — 4 — 5 — 3 填充的 N-Gram 信息。算法3.路徑約束之間相似度計算PathSimilarity輸入StringPathJl，〗，…，n]，StringPath2[1，2，…，m]/* 字符串形式的路徑約束*/輸出pathSim /*路徑相似度*/ . Dictionary [1,2,…，k]；/*數(shù)組Dictionary為輸入的兩個路徑約束中包含的所有標簽按照字典序排好的詞典，相同的字符串只占詞典中的一項；IiSstringPathdnstringPath2中不同節(jié)點標簽的數(shù)量*/②.Path1: = Mapping (StringPath1, Dictionary)； /*函數(shù)Mapping返回將字符串數(shù)組StringPath1中的字符串都轉化為在Dictionary中該字符串的下標而形成的一個整形數(shù)組*/③.Path2: = Mapping(StringPath2, Dictionary)；(4). minLength: = min (StringPath1. Length, StringPath2. Length)；(5). DecPath1 = PathDecomposition (Path1, k+1, minLength)；/*根據(jù)算法2，提取路徑約束中的N-Gram信息*/(6). DecPath2 = PathDecomposition (Path2, k+1, minLength)；(7). pathSim: = !DecPath1 Π DecPath2I ；⑧.RETURNpathSim ；⑨.算法結束算法的目的是計算兩個路徑約束的相似度。k為待比較的兩個路徑約束中出現(xiàn) 的不同節(jié)點標簽的數(shù)量，將這k個節(jié)點標簽按照字典序排列，則每個節(jié)點標簽可以依次映射為[1，k]內的一個正整數(shù)。這樣用字符串表示的節(jié)點標簽被轉換為一個數(shù)字，相同的標簽名有相同的數(shù)字編號。那么路徑約束最后的表現(xiàn)形式是一個有順序的整數(shù)數(shù)組。采用t =k+Ι作為進制，從而達到算法1引入該參數(shù)的目的。表2示例說明待比較的兩個約束 BOOK — SECTION — TITLE, BOOK — SECTION — FIGURE — CAPTION 各個字符串的映射信息。算法4. BPC 相似度 BPCSimilarity輸入節(jié)點θι的BPC,節(jié)點e2的BPC輸出BPCsim /*BPC相似度，也即節(jié)點相似度*/①.α = 0.6 ;/*參數(shù)α是祖先路徑約束在BPC約束中所占的比重，α越大，祖先路徑約束對BPC相似度的影響越大，孩子路徑約束對BPC相似度的影響越小；反之，α越小，孩子路徑約束對BPC相似度的影響越大，祖先路徑約束對BPC相似度的影響越小*/②.BPCsim: = α XPathSimilarity (P^e1), PA(e2)) +(1-α ) XPathSimilarity ( Ps(ei),Ps(e2))③.RETURNBPCsim ；④.算法結束算法的目的是計算兩個節(jié)點的BPC相似度。引入影響因子來描述祖先路徑約束對 BPC相似度的影響程度。這個影響因子需要根據(jù)具體的應用而設定，一般情況下認為祖先路徑約束比孩子路徑約束對BPC相似度具有更大的影響，S卩α >0.5。算法5. XML文檔相似度輸入XML文檔樹D1和D2輸出documentSim /*文檔D1和D2的相似度*/①.遍歷文檔樹D1和D2,建立對應的BPC模型；
②.s[nXm]；/*BPC相似矩陣，設文檔D1節(jié)點數(shù)為n，文檔D2節(jié)點數(shù)為m*/③·siJ: = BPCSimi Iarity ((PA (ei), Ps (ei)), (PJej)，Ps (ej)))；/*根據(jù)算法4，Sij存儲的是節(jié)點ei與節(jié)點e」之間的相似度，其中節(jié)點ei屬于文檔D1，節(jié)點ej屬于文檔D2*//*函數(shù)w(e)獲得節(jié)點e的權重，且w(e) = 2_lev(e)*/算法的目的是計算兩篇XML文檔的相似度。由于BPC相似矩陣滿足關于矩陣主對角線對稱，具體操作時可只計算矩陣的上三角形，再復制到下三角形，計算次數(shù)減少一半。如圖3為文檔相似度算法流程圖。表1列舉了圖IXML文檔樹各個節(jié)點的BPC 表2示例說明待比較的兩個約束Β00Κ — SECTION — TITLE,BOOK — SECTION — FIGURE — CAPTION各個字符串的映射信息
權利要求
一種計算XML文檔相似度的方法，其特征在于該方法包括如下步驟步驟1、將XML文檔定義為一棵XML文檔樹，并表示為一個6元組；步驟2、建立雙向路徑約束Bidirectional path constraints，BPC模型在步驟1文檔樹的基礎上定義節(jié)點的BPC，一篇XML文檔包含的所有節(jié)點的BPC集合稱為雙向路徑約束模型；步驟3、使用基于N-Gram的劃分方式計算兩個祖先路徑約束或孩子路徑約束之間的相似度，統(tǒng)稱為路徑約束相似度；步驟4、根據(jù)步驟3得出的路徑約束相似度計算兩個節(jié)點的BPC相似度，進而把這個BPC相似度作為這兩個節(jié)點的相似度；步驟5、最后文檔中所有節(jié)點相似度按照節(jié)點的結構層次加權求和作為兩篇文檔的相似度。
2.根據(jù)權利要求1所述的方法，其特征在于步驟1所述的XML文檔樹的定義如下定義1. XML文檔樹將一棵XML文檔樹表示為一個6元組T = (V，v0, E，E，P，lab)，其中1)、V是文檔樹中所有節(jié)點的集合；2),v0是文檔樹的根節(jié)點；3)、Ea定義了父子約束集合，Ea= {(u，v) | u e V A v e V，并且u是v的父親節(jié)點}， Es定義了兄弟約束集合，Es = {(u，v) | u e V八v e V，并且v是u的右兄弟節(jié)點}；用E表示約束集合，即E = Ea U Es ；4)、E是文檔樹中節(jié)點標簽的集合；5)、PA定義了祖先路徑約束，PA= {(v0,vi,... ,vn) | (vi,vi+1) GEa，0彡 i<n} U {v0}, Ps 定義了孩子路徑約束，Ps = {(Vi，. . . , vn) | (Vi，vi+1) G Es，0 < i < n，Vl，vn 分別是它們父親節(jié)點的第一個和最后一個孩子節(jié)點} U {Vl|Vl是其父親節(jié)點的唯一孩子節(jié)點}；用P 表示路徑約束集合，即P = PA U Ps，F(xiàn)U F2U ... U ^；6)、函數(shù)lab返回節(jié)點的標簽，即當vG V, lab (v) GE。
3.根據(jù)權利要求1所述的方法，其特征在于步驟2所述的節(jié)點的BPC定義為定義2.節(jié)點的BPC :PA(e)定義了節(jié)點e的祖先路徑約束，PA(e) = (v0, Vl,. . . , e) G PA, Ps(e)定義了節(jié)點 e 的孩子路徑約束，Ps(e) = (Ul, ，un) G Ps，(e, Ui) G Ea，cons (e)定義了節(jié)點的BPC，c0nS(e) = (PA(e),Ps(e)),e G V ；對于文檔樹的葉節(jié)點，它的Ps (e)為空，用e表示。
4.根據(jù)權利要求1所述的方法，其特征在于步驟3所述的使用基于N-Gram的劃分方式計算兩個路徑約束之間的相似度的方法是設k為待比較的兩個路徑約束中出現(xiàn)的不同節(jié)點標簽的數(shù)量，將這k個節(jié)點標簽按照字典序排列，則每個節(jié)點標簽可以依次映射為[1，k]內的一個正整數(shù)；這樣用字符串表示的節(jié)點標簽被轉換為一個數(shù)字，相同的標簽名有相同的數(shù)字編號；那么路徑約束最后的表現(xiàn)形式是一個有順序的整數(shù)數(shù)組；定義3.基于N-Gram思想的劃分方式它將長為n的整數(shù)數(shù)組劃分為n個子數(shù)組，其中第i(0 < i≤n)個子數(shù)組存儲的是提取的i-Gram項，該子數(shù)組簡稱為i-Gram數(shù)組，含有 n-i+1項，其中每一項均為原整數(shù)數(shù)組中i個連續(xù)項(ai，a2，……，％)生成的結果，生成方法如下弓丨入k+1是為了保證各個子數(shù)組的項的唯一性，可見，1-Gram數(shù)組有η項，2-Gram數(shù)組有n-1項，……，(n-D-Gram數(shù)組有2項，n-Gram數(shù)組有1項；因而所有子數(shù)組共有^^項；為了簡化后面的處理，將η個子數(shù)組依次存儲在一個長為Mf的數(shù)組中；待比較的兩個路徑約束，通過使用符號映射轉化為整數(shù)數(shù)組，長度分別為η和m，它們是某兩個節(jié)點的祖先路徑約束或同是孩子路徑約束，根據(jù)定義3將他們依次分解成I-Gram 數(shù)組，2-Gram數(shù)組，……，min (n，m) -Gram數(shù)組；定義4.兩個一維數(shù)組的相同項個數(shù)C 把數(shù)組看成集合，用兩個集合的交集表示相同項個數(shù)C ；定義5.路徑約束相似度根據(jù)上面的定義，路徑約束相似度公式如下所示；定義6. BPC相似度設α為祖先路徑約束的影響因子，自然l-α為孩子路徑約束的影響因子，O彡α彡1，BPC相似度公式如下所示
5.根據(jù)權利要求1所述的方法，其特征在于步驟5所述的文檔中所有節(jié)點相似度加權求和作為兩篇文檔的相似度的方法是定義7.文檔相似度兩篇XML文檔D1和D2,節(jié)點個數(shù)分別為η和m，根據(jù)定義6計算出 D1每個節(jié)點的BPC和D2每個節(jié)點的BPC相似度形成相似矩陣后，選出D1各個節(jié)點和D2相似度最大的節(jié)點的相似值，則文檔相似度公式如下在XML文檔樹中，節(jié)點越靠近根節(jié)點，它對文檔結構的影響就越大；引入對…力‘”來描述不同節(jié)點深度的不同影響，Iev(Yi)為節(jié)點Vi的層數(shù)，根節(jié)點的層數(shù)是O。
全文摘要
本發(fā)明屬于數(shù)據(jù)庫技術領域，建立一種XML文檔約束模型，稱為雙向路徑約束模型?；谶@種模型提出一種新的計算XML文檔相似度的方法。它通過節(jié)點的雙向路徑約束更全面的提取XML文檔的結構信息，有利于更精確的衡量XML文檔之間的相似度。本發(fā)明引入自然語言領域中非常成熟的N-Gram思想，將基于N-Gram的劃分方式應用在路徑約束相似度計算中。最后本發(fā)明巧妙地運用正整數(shù)和權值簡化了N-Gram信息的提取和運算。本發(fā)明可用于XML文檔分類、聚類以及模式提取等領域。
文檔編號G06F17/30GK101876995SQ20091024490
公開日2010年11月3日申請日期2009年12月18日優(yōu)先權日2009年12月18日
發(fā)明者廉鑫, 林偉堅, 汪陳應, 袁曉潔申請人:南開大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：汪陳應;袁曉潔;廉鑫;林偉堅
技術所有人：南開大學
我是此專利的發(fā)明人

上一篇：一種實時區(qū)域檢測方法
上一篇：復合下肢想象動作腦電的相位特征提取方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種計算xml文檔相似度的方法