一種面向?qū)傩詧D集的頻繁近似子圖挖掘方法

文檔序號：8922659閱讀：556來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種面向?qū)傩詧D集的頻繁近似子圖挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖挖掘技術(shù)領(lǐng)域，具體涉及一種面向?qū)傩詧D集的頻繁近似子圖挖掘方法。
【背景技術(shù)】
[0002] 頻繁子圖挖掘作為圖挖掘中的重要任務(wù)，可以發(fā)現(xiàn)圖中隱含的重要模式，而且挖掘出來的模式可以用于進(jìn)一步的研宄，例如分類、聚類和關(guān)聯(lián)模式挖掘等。圖匹配是頻繁子圖挖掘中的關(guān)鍵步驟，目前存在兩類圖匹配方法：精確匹配和近似匹配。圖精確匹配要求兩個(gè)圖的結(jié)構(gòu)和特征完全相同，雖然圖精確匹配在數(shù)學(xué)上提供了嚴(yán)謹(jǐn)?shù)姆椒?，但是它只適用于有限的問題中。由于現(xiàn)實(shí)世界中的對象常被噪聲影響，且圖建立過程中存在失真現(xiàn)象，例如，屬性值出現(xiàn)誤差或者頂點(diǎn)和邊的缺失等，所以圖近似匹配在現(xiàn)實(shí)中的應(yīng)用更為廣泛。 [0003] 依據(jù)圖近似匹配策略，近似子圖挖掘方法主要分為五類：（1)基于圖編輯距離：算法SUBDUE、RNGV和MaxAFG探討一個(gè)圖潛在的編輯路徑，并把最有可能的編輯路徑作為候選項(xiàng)；（2)基于-邊的子同構(gòu)：算法Monkey中允許邊的缺失和邊標(biāo)號的替換，其中是邊差異閾值；(3)基于頂點(diǎn)或者邊不相交的子同胚：算法CSMiner發(fā)現(xiàn)具有相同拓?fù)涞慕平Y(jié)構(gòu)； (4)基于不確定圖上的子同構(gòu)：算法MUSE計(jì)算每個(gè)候選項(xiàng)的期望支持度，根據(jù)期望支持度尋找近似結(jié)構(gòu)；（5)基于替換概率：算法gAppr〇X、APGM和VEAM依據(jù)頂點(diǎn)或者邊的替換矩陣尋找近似結(jié)構(gòu)。在眾多圖近似匹配方法中，噪音和圖失真現(xiàn)象的存在使得具有較強(qiáng)容錯(cuò)能力的圖編輯距離倍受青睞。在基于圖編輯距離的圖近似匹配中，編輯操作的代價(jià)函數(shù)決定著圖結(jié)構(gòu)的匹配過程。算法SUBDUE、RNGV和MaxAFG中的代價(jià)函數(shù)均不能很好地用于屬性圖上，且算法SUBDUE和MaxAFG是在單個(gè)大圖上挖掘頻繁近似子圖，大圖上的頻繁子圖挖掘和圖集上的頻繁子圖挖掘存在本質(zhì)不同：首先，支持度的定義不同；其次，子圖搜索過程不同。針對以上不足，本發(fā)明提出一種面向?qū)傩詧D集的頻繁近似子圖挖掘方法。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是提出一種利用具有較強(qiáng)容錯(cuò)能力的圖編輯距離進(jìn)行圖近似匹配，符合現(xiàn)實(shí)世界中噪聲和圖失真普遍存在的現(xiàn)象，從而可以發(fā)現(xiàn)更多有意義的重要模式的面向?qū)傩詧D集的頻繁近似子圖挖掘方法。
[0005] 本發(fā)明的目的是這樣實(shí)現(xiàn)的：
[0006] (1)輸入屬性圖集D、支持度閾值〇、近似度閾值t和代價(jià)函數(shù)d;
[0007] (2)構(gòu)造屬性圖集S:對屬性圖集D中頂點(diǎn)特征向量集和邊特征向量集分別進(jìn)行聚類，根據(jù)簇心特征向量構(gòu)造一個(gè)新的圖集S;之后在屬性圖集D和S上進(jìn)行頻繁近似子圖搜索；
[0008] (3)挖掘頻繁近似頂點(diǎn)：根據(jù)屬性圖集D和S、兩個(gè)閾值〇和t、代價(jià)函數(shù)d，挖掘只包含一個(gè)頂點(diǎn)的頻繁近似子圖，將頻繁近似頂點(diǎn)的三個(gè)相關(guān)信息加入到集合C，令頻繁近似子圖集F=C;
[0009] (4)子圖擴(kuò)展：對于每個(gè)子圖PGC，找到子圖P在屬性圖集S中的擴(kuò)展邊集 ExtSet(P,S)，對于每條擴(kuò)展邊esGExtSet(P,S)，將子圖P和邊es連接得到擴(kuò)展子圖P' =P°es;同時(shí)計(jì)算擴(kuò)展子圖P'的三個(gè)相關(guān)信息：子圖P'的最小DFS編碼Min(P'）、子圖P' 在圖集S中的同構(gòu)嵌入集0(P'，S)和子圖P'在圖集D中的近似嵌入集0(P'，D);
[0010] (5)計(jì)算擴(kuò)展子圖P'在屬性圖集D中的支持度，若supp(P'，D)彡〇，則有F=FUP'，并重復(fù)步驟（4)，直至所有子圖均被發(fā)現(xiàn)或者子圖的支持度小于支持度閾值〇 ;
[0011] (6)輸出頻繁近似子圖集F;
[0012] 所述代價(jià)函數(shù)d，設(shè)〈Qi，Qj>是圖編輯路徑中的中一個(gè)編輯操作，其中以是Qi的第 k個(gè)特征值，qk是Qj的第k個(gè)特征值，d(<Qi，Qj>)表示編輯操作〈Qi，Qj>的代價(jià)函數(shù)，則有：
[0014] 近似嵌入集，給定圖P，圖G，圖gi，其中圖gi是圖G的一個(gè)子圖，若圖P和圖§1是近似圖，則稱圖gi是圖P在圖G中的一個(gè)近似嵌入；用o(P，G)表示圖P在圖G中的近似嵌入集，則有〇(P，G) = {gi|gi是圖G的子圖，圖P和圖§1是t-近似圖};用〇(P，D)表示圖P在圖集D中的所有近似嵌入，則有0(P，D)=U^dO(P，G)。
[0015] 所述的t-近似圖，給定兩個(gè)圖GpGj和近似度閾值t，如果G種G」的圖編輯距尚不大于1_T，即dism%，Gj) < 1_t，則稱圖Gi和圖G』是t-近似圖。
[0016] 在所述的屬性圖集D和S上進(jìn)行頻繁近似子圖搜索，以屬性圖集S中的圖為基準(zhǔn) 進(jìn)行子圖搜索，同時(shí)根據(jù)屬性圖集D、兩個(gè)閾值〇和t、代價(jià)函數(shù)d來判斷子圖是否為頻繁近似子圖，圖GsgS，存在子圖gsGGs，若在屬性圖集D中存在包含子圖gD的圖GD，使得gD 和T-相似圖，且圖GD的個(gè)數(shù)不小于fX|D|，即supp(gs，D)彡〇，則稱子圖頻繁近似子圖；接著在圖集S中查找子圖gs的所有擴(kuò)展邊，根據(jù)每條擴(kuò)展邊對子圖gs進(jìn)行擴(kuò)展得到新的擴(kuò)展子圖，并判斷擴(kuò)展子圖是否為頻繁近似子圖；按照上述過程遍歷屬性圖集S中的所有子圖，同時(shí)根據(jù)屬性圖集D、兩個(gè)閾值〇和t、代價(jià)函數(shù)d找出所有頻繁近似子圖。
[0017] 本發(fā)明的有益效果在于：
[0018] 本發(fā)明提出一種面向?qū)傩詧D集的頻繁近似子圖挖掘方法，首先利用聚類算法將屬性圖集中連續(xù)數(shù)值型特征向量分割成離散特征向量，從而構(gòu)建一個(gè)新的屬性圖集S，方便子圖的搜索；然后在圖近似匹配過程中采用具有較強(qiáng)容錯(cuò)能力的圖編輯距離，符合現(xiàn)實(shí)世界中噪聲和圖失真普遍存在的現(xiàn)象，可以發(fā)現(xiàn)更多重要模式，具有更實(shí)際的應(yīng)用前景。
【附圖說明】
[0019] 圖1是本發(fā)明提出的面向?qū)傩詧D集的頻繁近似子圖挖掘方法流程圖；
[0020] 圖2是本發(fā)明中構(gòu)造屬性圖集S的流程圖；
[0021] 圖3是本發(fā)明中屬性圖集D和S中各一實(shí)例圖；
[0022] 圖4是本發(fā)明中頻繁近似子圖挖掘流程圖；
[0023] 圖5是本發(fā)明的結(jié)果索引樹。
【具體實(shí)施方式】
[0024] 下面結(jié)合附圖對本發(fā)明做進(jìn)一步描述。
[0025] 本發(fā)明的相關(guān)內(nèi)容：
[0026] (1)屬性圖D:屬性圖G= {V，E，F(xiàn)v，F(xiàn)E}，其中V是頂點(diǎn)集，E是邊集，F(xiàn)v是頂點(diǎn)特征向量集，F(xiàn)E是邊特征向量集。
[0027] 在屬性圖D中，每個(gè)頂點(diǎn)有n個(gè)連續(xù)數(shù)值型屬性，組成頂點(diǎn)的n維特征向量，圖G 中所有頂點(diǎn)的特征向量組成圖G的頂點(diǎn)特征向量集，即巧是由所有頂點(diǎn)的n維特征向量組成的集合。同理每條邊有m個(gè)連續(xù)數(shù)值型屬性，組成邊的m維特征向量，F(xiàn)E是圖G中所有邊的m維特征向量組成的集合。
[0028] (2)構(gòu)造屬性圖集S:首先對圖集D中所有頂點(diǎn)的特征向量集和所有邊的特征向量集分別進(jìn)行聚類，然后將圖集D中每個(gè)圖的每個(gè)頂點(diǎn)的特征向量和每條邊的特征向量分別用它們所在簇的簇心特征向量代替，從而得到圖集S。所以圖集S和圖集D只有對應(yīng)頂點(diǎn)和邊上的特征向量不同，其他完全相同。
[0029] (3)編輯操作的代價(jià)函數(shù)：圖的編輯操作通常包括頂點(diǎn)的插入、刪除、替換和邊的插入、刪除、替換，代價(jià)函數(shù)定義了這六個(gè)操作相關(guān)的代價(jià)。設(shè)〈Qi，Q，是圖編輯路徑中的一個(gè)編輯操作，&是1的第k個(gè)特征值，qk是L的第k個(gè)特征值，^〈QdQ，）表示編輯操作〈Qi，Qj>的代價(jià)函數(shù)：
[0031] 第一個(gè)實(shí)例和第二個(gè)實(shí)例分別表示頂點(diǎn)或者邊的刪除或者插入的代價(jià)。如果第一個(gè)實(shí)例表示插入的代價(jià)，則第二個(gè)實(shí)例表示刪除Q 代價(jià)；如果第一個(gè)實(shí)例表示刪除的代價(jià)，則第二個(gè)實(shí)例表示插入Qi的代價(jià)。最后一個(gè)實(shí)例是替換操作的代價(jià)。
[0032] (4)圖編輯距離：給定兩個(gè)屬性圖匕和6』，若h為從圖GjljGj的一條編輯路徑， cost(h)表示編輯路徑h的代價(jià)，如果{hi，…，hj表示從匕到h的編輯路徑集合，則G廊Gj之間的編輯距離為
[0033]disn^G"Gj) =minke{1，...，m}cost(hk)
[0035] 其中，we(0, 1)為權(quán)重系數(shù)，根據(jù)需求設(shè)置。
[0036] (5)t-近似圖：給定兩個(gè)屬性圖GpGj和近似度閾值t，如果G河G」的圖編輯距尚不大于1_T，即dism%，Gj) < 1_t，則稱圖Gi和圖G』是t-近似圖。
[0037] (6)近似嵌入集：給定三個(gè)屬性圖P、G和gi，其中圖gi是圖G的一個(gè)子圖，若圖P 和圖近似圖，則稱圖§1是圖P在圖G中的一個(gè)近似嵌入。用o(P，G)表示屬性圖P 在屬性圖G中的所有近似嵌入，則有o(P，G) = {gi|gi是圖G的子圖，圖P和圖§1是t-近似圖}。用〇(P，D)表示屬性圖P在屬性圖集D中的所有近似嵌入，則有0(P，D)=UcdCKP， G)〇
[0038] (7)同構(gòu)嵌入集：給定三個(gè)屬性圖P、G和gi，其中圖gi是圖G的一個(gè)子圖，若圖P 和圖81是同構(gòu)圖，則稱圖81是圖P在圖G中的一個(gè)同構(gòu)嵌入。用0(P，G)表示屬性圖P 在屬性圖G中的所有同構(gòu)嵌入，則有0 (P，G) = {gi|gi是圖G的子圖，圖P和圖gi是同構(gòu) 圖}。用? (P，S)表示圖P在圖集S中的所有同構(gòu)嵌入，則有0 (P，S) =U^ 9 (P，G0。
[0039] (8)子圖P在圖集X中的擴(kuò)展邊集ExtSet(P，X):給定圖集X和子圖P，子圖P在圖集X中的擴(kuò)展邊集
le|e是子圖匕的鄰接邊}。
[0040]由此可知，子圖P在圖集D中的擴(kuò)展邊集ExtSet(P，D) =U%e0(勵(lì)| {e|e是子圖 PD的鄰接邊}，子圖P在圖集S中的擴(kuò)展邊集ExtSet(P，S) = 灣{e|e是子圖己的鄰接邊}。
[0041] (9)支持度：給定屬性圖P，屬性圖集D和支持度閾值f，則圖P在圖集D中的支持度為
[0043] 其中|D|為圖集D的基數(shù)。若supp(RDmc，則稱圖P為頻繁近似圖。
[0044] (10)頻繁近似子圖搜索策略：在頻繁近似子圖挖掘過程中，以圖集S中的圖為基準(zhǔn)進(jìn)行子圖搜索，同時(shí)根據(jù)圖集D、兩個(gè)閾值〇和t、代價(jià)函數(shù)d來判斷子圖是否為頻繁近似子圖。假設(shè)圖&￡S，存在子圖83￡Gs，若在圖集D中存在包含子圖gD的圖GD，使得gD 和&am

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：潘海為;高琳琳;韓啟龍;戰(zhàn)宇;翟霄;李文博;
技術(shù)所有人：哈爾濱工程大學(xué);
我是此專利的發(fā)明人

上一篇：資源調(diào)取方法及系統(tǒng)的制作方法
上一篇：關(guān)系型數(shù)據(jù)庫的多維分析的方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

頻繁項(xiàng)集挖掘算法相關(guān)技術(shù)

頻繁模式挖掘相關(guān)技術(shù)

頻繁項(xiàng)集挖掘相關(guān)技術(shù)

頻繁模式挖掘算法相關(guān)技術(shù)

頻繁子圖挖掘算法相關(guān)技術(shù)

頻繁序列挖掘相關(guān)技術(shù)

頻繁子圖挖掘相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種面向?qū)傩詧D集的頻繁近似子圖挖掘方法