亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種面向?qū)傩詧D集的頻繁近似子圖挖掘方法

文檔序號:8922659閱讀:556來源:國知局
一種面向?qū)傩詧D集的頻繁近似子圖挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖挖掘技術(shù)領(lǐng)域,具體涉及一種面向?qū)傩詧D集的頻繁近似子圖挖掘方 法。
【背景技術(shù)】
[0002] 頻繁子圖挖掘作為圖挖掘中的重要任務(wù),可以發(fā)現(xiàn)圖中隱含的重要模式,而且挖 掘出來的模式可以用于進(jìn)一步的研宄,例如分類、聚類和關(guān)聯(lián)模式挖掘等。圖匹配是頻繁子 圖挖掘中的關(guān)鍵步驟,目前存在兩類圖匹配方法:精確匹配和近似匹配。圖精確匹配要求兩 個(gè)圖的結(jié)構(gòu)和特征完全相同,雖然圖精確匹配在數(shù)學(xué)上提供了嚴(yán)謹(jǐn)?shù)姆椒?,但是它只適用 于有限的問題中。由于現(xiàn)實(shí)世界中的對象常被噪聲影響,且圖建立過程中存在失真現(xiàn)象,例 如,屬性值出現(xiàn)誤差或者頂點(diǎn)和邊的缺失等,所以圖近似匹配在現(xiàn)實(shí)中的應(yīng)用更為廣泛。 [0003] 依據(jù)圖近似匹配策略,近似子圖挖掘方法主要分為五類:(1)基于圖編輯距離:算 法SUBDUE、RNGV和MaxAFG探討一個(gè)圖潛在的編輯路徑,并把最有可能的編輯路徑作為候 選項(xiàng);(2)基于-邊的子同構(gòu):算法Monkey中允許邊的缺失和邊標(biāo)號的替換,其中是邊差異 閾值;(3)基于頂點(diǎn)或者邊不相交的子同胚:算法CSMiner發(fā)現(xiàn)具有相同拓?fù)涞慕平Y(jié)構(gòu); (4)基于不確定圖上的子同構(gòu):算法MUSE計(jì)算每個(gè)候選項(xiàng)的期望支持度,根據(jù)期望支持度 尋找近似結(jié)構(gòu);(5)基于替換概率:算法gAppr〇X、APGM和VEAM依據(jù)頂點(diǎn)或者邊的替換矩陣 尋找近似結(jié)構(gòu)。在眾多圖近似匹配方法中,噪音和圖失真現(xiàn)象的存在使得具有較強(qiáng)容錯(cuò)能 力的圖編輯距離倍受青睞。在基于圖編輯距離的圖近似匹配中,編輯操作的代價(jià)函數(shù)決定 著圖結(jié)構(gòu)的匹配過程。算法SUBDUE、RNGV和MaxAFG中的代價(jià)函數(shù)均不能很好地用于屬性 圖上,且算法SUBDUE和MaxAFG是在單個(gè)大圖上挖掘頻繁近似子圖,大圖上的頻繁子圖挖掘 和圖集上的頻繁子圖挖掘存在本質(zhì)不同:首先,支持度的定義不同;其次,子圖搜索過程不 同。針對以上不足,本發(fā)明提出一種面向?qū)傩詧D集的頻繁近似子圖挖掘方法。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是提出一種利用具有較強(qiáng)容錯(cuò)能力的圖編輯距離進(jìn)行圖近似匹配, 符合現(xiàn)實(shí)世界中噪聲和圖失真普遍存在的現(xiàn)象,從而可以發(fā)現(xiàn)更多有意義的重要模式的面 向?qū)傩詧D集的頻繁近似子圖挖掘方法。
[0005] 本發(fā)明的目的是這樣實(shí)現(xiàn)的:
[0006] (1)輸入屬性圖集D、支持度閾值〇、近似度閾值t和代價(jià)函數(shù)d;
[0007] (2)構(gòu)造屬性圖集S:對屬性圖集D中頂點(diǎn)特征向量集和邊特征向量集分別進(jìn)行聚 類,根據(jù)簇心特征向量構(gòu)造一個(gè)新的圖集S;之后在屬性圖集D和S上進(jìn)行頻繁近似子圖搜 索;
[0008] (3)挖掘頻繁近似頂點(diǎn):根據(jù)屬性圖集D和S、兩個(gè)閾值〇和t、代價(jià)函數(shù)d,挖掘 只包含一個(gè)頂點(diǎn)的頻繁近似子圖,將頻繁近似頂點(diǎn)的三個(gè)相關(guān)信息加入到集合C,令頻繁 近似子圖集F=C;
[0009] (4)子圖擴(kuò)展:對于每個(gè)子圖PGC,找到子圖P在屬性圖集S中的擴(kuò)展邊集 ExtSet(P,S),對于每條擴(kuò)展邊esGExtSet(P,S),將子圖P和邊es連接得到擴(kuò)展子圖P' =P°es;同時(shí)計(jì)算擴(kuò)展子圖P'的三個(gè)相關(guān)信息:子圖P'的最小DFS編碼Min(P')、子圖P' 在圖集S中的同構(gòu)嵌入集0(P',S)和子圖P'在圖集D中的近似嵌入集0(P',D);
[0010] (5)計(jì)算擴(kuò)展子圖P'在屬性圖集D中的支持度,若supp(P',D)彡〇,則有F=FUP',并重復(fù)步驟(4),直至所有子圖均被發(fā)現(xiàn)或者子圖的支持度小于支持度閾值〇 ;
[0011] (6)輸出頻繁近似子圖集F;
[0012] 所述代價(jià)函數(shù)d,設(shè)〈Qi,Qj>是圖編輯路徑中的中一個(gè)編輯操作,其中以是Qi的第 k個(gè)特征值,qk是Qj的第k個(gè)特征值,d(<Qi,Qj>)表示編輯操作〈Qi,Qj>的代價(jià)函數(shù),則有:
[0014] 近似嵌入集,給定圖P,圖G,圖gi,其中圖gi是圖G的一個(gè)子圖,若圖P和圖§1是 近似圖,則稱圖gi是圖P在圖G中的一個(gè)近似嵌入;用o(P,G)表示圖P在圖G中的近 似嵌入集,則有〇(P,G) = {gi|gi是圖G的子圖,圖P和圖§1是t-近似圖};用〇(P,D)表 示圖P在圖集D中的所有近似嵌入,則有0(P,D)=U^dO(P,G)。
[0015] 所述的t-近似圖,給定兩個(gè)圖GpGj和近似度閾值t,如果G種G」的圖編輯距 尚不大于1_T,即dism%,Gj) < 1_t,則稱圖Gi和圖G』是t-近似圖。
[0016] 在所述的屬性圖集D和S上進(jìn)行頻繁近似子圖搜索,以屬性圖集S中的圖為基準(zhǔn) 進(jìn)行子圖搜索,同時(shí)根據(jù)屬性圖集D、兩個(gè)閾值〇和t、代價(jià)函數(shù)d來判斷子圖是否為頻繁 近似子圖,圖GsgS,存在子圖gsGGs,若在屬性圖集D中存在包含子圖gD的圖GD,使得gD 和T-相似圖,且圖GD的個(gè)數(shù)不小于fX|D|,即supp(gs,D)彡〇,則稱子圖頻繁近 似子圖;接著在圖集S中查找子圖gs的所有擴(kuò)展邊,根據(jù)每條擴(kuò)展邊對子圖gs進(jìn)行擴(kuò)展得 到新的擴(kuò)展子圖,并判斷擴(kuò)展子圖是否為頻繁近似子圖;按照上述過程遍歷屬性圖集S中 的所有子圖,同時(shí)根據(jù)屬性圖集D、兩個(gè)閾值〇和t、代價(jià)函數(shù)d找出所有頻繁近似子圖。
[0017] 本發(fā)明的有益效果在于:
[0018] 本發(fā)明提出一種面向?qū)傩詧D集的頻繁近似子圖挖掘方法,首先利用聚類算法將屬 性圖集中連續(xù)數(shù)值型特征向量分割成離散特征向量,從而構(gòu)建一個(gè)新的屬性圖集S,方便子 圖的搜索;然后在圖近似匹配過程中采用具有較強(qiáng)容錯(cuò)能力的圖編輯距離,符合現(xiàn)實(shí)世界 中噪聲和圖失真普遍存在的現(xiàn)象,可以發(fā)現(xiàn)更多重要模式,具有更實(shí)際的應(yīng)用前景。
【附圖說明】
[0019] 圖1是本發(fā)明提出的面向?qū)傩詧D集的頻繁近似子圖挖掘方法流程圖;
[0020] 圖2是本發(fā)明中構(gòu)造屬性圖集S的流程圖;
[0021] 圖3是本發(fā)明中屬性圖集D和S中各一實(shí)例圖;
[0022] 圖4是本發(fā)明中頻繁近似子圖挖掘流程圖;
[0023] 圖5是本發(fā)明的結(jié)果索引樹。
【具體實(shí)施方式】
[0024] 下面結(jié)合附圖對本發(fā)明做進(jìn)一步描述。
[0025] 本發(fā)明的相關(guān)內(nèi)容:
[0026] (1)屬性圖D:屬性圖G= {V,E,F(xiàn)v,F(xiàn)E},其中V是頂點(diǎn)集,E是邊集,F(xiàn)v是頂點(diǎn)特征 向量集,F(xiàn)E是邊特征向量集。
[0027] 在屬性圖D中,每個(gè)頂點(diǎn)有n個(gè)連續(xù)數(shù)值型屬性,組成頂點(diǎn)的n維特征向量,圖G 中所有頂點(diǎn)的特征向量組成圖G的頂點(diǎn)特征向量集,即巧是由所有頂點(diǎn)的n維特征向量組 成的集合。同理每條邊有m個(gè)連續(xù)數(shù)值型屬性,組成邊的m維特征向量,F(xiàn)E是圖G中所有邊 的m維特征向量組成的集合。
[0028] (2)構(gòu)造屬性圖集S:首先對圖集D中所有頂點(diǎn)的特征向量集和所有邊的特征向量 集分別進(jìn)行聚類,然后將圖集D中每個(gè)圖的每個(gè)頂點(diǎn)的特征向量和每條邊的特征向量分別 用它們所在簇的簇心特征向量代替,從而得到圖集S。所以圖集S和圖集D只有對應(yīng)頂點(diǎn)和 邊上的特征向量不同,其他完全相同。
[0029] (3)編輯操作的代價(jià)函數(shù):圖的編輯操作通常包括頂點(diǎn)的插入、刪除、替換和邊的 插入、刪除、替換,代價(jià)函數(shù)定義了這六個(gè)操作相關(guān)的代價(jià)。設(shè)〈Qi,Q,是圖編輯路徑中的一 個(gè)編輯操作,&是1的第k個(gè)特征值,qk是L的第k個(gè)特征值,^〈QdQ,)表示編輯操作 〈Qi,Qj>的代價(jià)函數(shù):
[0031] 第一個(gè)實(shí)例和第二個(gè)實(shí)例分別表示頂點(diǎn)或者邊的刪除或者插入的代價(jià)。如果第一 個(gè)實(shí)例表示插入的代價(jià),則第二個(gè)實(shí)例表示刪除Q 代價(jià);如果第一個(gè)實(shí)例表示刪除 的代價(jià),則第二個(gè)實(shí)例表示插入Qi的代價(jià)。最后一個(gè)實(shí)例是替換操作的代價(jià)。
[0032] (4)圖編輯距離:給定兩個(gè)屬性圖匕和6』,若h為從圖GjljGj的一條編輯路徑, cost(h)表示編輯路徑h的代價(jià),如果{hi,…,hj表示從匕到h的編輯路徑集合,則G廊Gj之間的編輯距離為
[0033]disn^G"Gj) =minke{1,...,m}cost(hk)
[0035] 其中,we(0, 1)為權(quán)重系數(shù),根據(jù)需求設(shè)置。
[0036] (5)t-近似圖:給定兩個(gè)屬性圖GpGj和近似度閾值t,如果G河G」的圖編輯距 尚不大于1_T,即dism%,Gj) < 1_t,則稱圖Gi和圖G』是t-近似圖。
[0037] (6)近似嵌入集:給定三個(gè)屬性圖P、G和gi,其中圖gi是圖G的一個(gè)子圖,若圖P 和圖近似圖,則稱圖§1是圖P在圖G中的一個(gè)近似嵌入。用o(P,G)表示屬性圖P 在屬性圖G中的所有近似嵌入,則有o(P,G) = {gi|gi是圖G的子圖,圖P和圖§1是t-近 似圖}。用〇(P,D)表示屬性圖P在屬性圖集D中的所有近似嵌入,則有0(P,D)=UcdCKP, G)〇
[0038] (7)同構(gòu)嵌入集:給定三個(gè)屬性圖P、G和gi,其中圖gi是圖G的一個(gè)子圖,若圖P 和圖81是同構(gòu)圖,則稱圖81是圖P在圖G中的一個(gè)同構(gòu)嵌入。用0(P,G)表示屬性圖P 在屬性圖G中的所有同構(gòu)嵌入,則有0 (P,G) = {gi|gi是圖G的子圖,圖P和圖gi是同構(gòu) 圖}。用? (P,S)表示圖P在圖集S中的所有同構(gòu)嵌入,則有0 (P,S) =U^ 9 (P,G0。
[0039] (8)子圖P在圖集X中的擴(kuò)展邊集ExtSet(P,X):給定圖集X和子圖P,子圖P在 圖集X中的擴(kuò)展邊集
le|e是子圖匕的鄰接邊}。
[0040]由此可知,子圖P在圖集D中的擴(kuò)展邊集ExtSet(P,D) =U%e0(勵(lì)| {e|e是子圖 PD的鄰接邊},子圖P在圖集S中的擴(kuò)展邊集ExtSet(P,S) = 灣{e|e是子圖己的 鄰接邊}。
[0041] (9)支持度:給定屬性圖P,屬性圖集D和支持度閾值f,則圖P在圖集D中的支持 度為
[0043] 其中|D|為圖集D的基數(shù)。若supp(RDmc,則稱圖P為頻繁近似圖。
[0044] (10)頻繁近似子圖搜索策略:在頻繁近似子圖挖掘過程中,以圖集S中的圖為基 準(zhǔn)進(jìn)行子圖搜索,同時(shí)根據(jù)圖集D、兩個(gè)閾值〇和t、代價(jià)函數(shù)d來判斷子圖是否為頻繁近 似子圖。假設(shè)圖&£S,存在子圖83£Gs,若在圖集D中存在包含子圖gD的圖GD,使得gD 和&am
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1