基于模糊聚類的多分辨率社區(qū)發(fā)現(xiàn)方法
【專利摘要】本發(fā)明提供了一種基于模糊聚類的多分辨率社區(qū)發(fā)現(xiàn)方法,根據(jù)鄰居節(jié)點的局部交互信息,引入結(jié)構(gòu)相似度來度量節(jié)點間的模糊關(guān)系,局部考慮節(jié)點間的模糊相似度在網(wǎng)絡(luò)拓撲中的模糊傳遞性,并用模糊參數(shù)在模糊傳遞矩陣上截集而獲得不同分辨率下的社區(qū)結(jié)構(gòu),從而實現(xiàn)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)。本發(fā)明采用矩陣轉(zhuǎn)換運算,建立基于模糊聚類的網(wǎng)絡(luò)社區(qū)檢測模型,減少了傳統(tǒng)方法中的迭代優(yōu)化過程,降低了時間復(fù)雜度,通過大量實驗證明了本方法能有效揭示網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),普適性較強,具有較高的應(yīng)用價值;能有效實現(xiàn)了網(wǎng)絡(luò)結(jié)構(gòu)分析和社區(qū)結(jié)構(gòu)可視化。
【專利說明】
基于模糊聚類的多分辨率社區(qū)發(fā)現(xiàn)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及復(fù)雜網(wǎng)絡(luò)分析技術(shù)研究領(lǐng)域,具體地,涉及一種基于模糊聚類的多分 辨率社區(qū)發(fā)現(xiàn)方法。
【背景技術(shù)】
[0002] 復(fù)雜網(wǎng)絡(luò)作為一個廣泛的交叉學(xué)科,其涉及計算機、物理、數(shù)學(xué)、信息科學(xué)、系統(tǒng)科 學(xué)、網(wǎng)絡(luò)科學(xué)等學(xué)科領(lǐng)域,逐漸成為解決復(fù)雜問題的一個強有力工具,并在眾多領(lǐng)域有著廣 泛的應(yīng)用,如社交網(wǎng)絡(luò)分析,生物工程、經(jīng)濟金融、電力與交通、人類行為分析、大數(shù)據(jù)分析 等。對復(fù)雜網(wǎng)絡(luò)的研究分析,極大地拓展了人們理解世界的廣度和深度,有著重大的現(xiàn)實意 義。在大量的復(fù)雜網(wǎng)絡(luò)研究中,對復(fù)雜網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)的研究,是一個重大的研究焦點。一般 說來,對于給定的網(wǎng)絡(luò)結(jié)構(gòu)劃分,社區(qū)內(nèi)部節(jié)點相對于社區(qū)之間有著更緊密的連接。復(fù)雜網(wǎng) 絡(luò)中的社區(qū)結(jié)構(gòu)特性已被大量的研究證明。例如,對蛋白質(zhì)交互網(wǎng)絡(luò)中社區(qū)結(jié)構(gòu)的研究,可 以分析不同的已知或未知蛋白質(zhì)功能模塊,進一步了解蛋白質(zhì)結(jié)構(gòu)的復(fù)雜特性。在社交網(wǎng) 絡(luò)中,由于社會交互性的增強,基于不同興趣、主題、職業(yè)、地域等特征形成的大量群體,社 區(qū)結(jié)構(gòu)特征尤為明顯。因此,挖掘網(wǎng)絡(luò)中緊密聯(lián)系的社區(qū)結(jié)構(gòu)對理解和分析網(wǎng)絡(luò)結(jié)構(gòu)屬性、 信息傳播規(guī)律、人類社會組織結(jié)構(gòu)等有重要的理論意義和廣泛的應(yīng)用價值。
[0003] 社區(qū)結(jié)構(gòu)發(fā)現(xiàn)旨在檢測網(wǎng)絡(luò)中帶有某種自然屬性的社區(qū)結(jié)構(gòu),即根據(jù)一定的規(guī) 貝1J,將網(wǎng)絡(luò)中相互連接的節(jié)點劃分為若干模塊,使得各模塊內(nèi)部的聯(lián)系相對稠密,模塊間的 連接相對稀疏。盡管社區(qū)結(jié)構(gòu)的概念便于理解,但由于網(wǎng)絡(luò)結(jié)構(gòu)的多樣性和復(fù)雜性,社區(qū)發(fā) 現(xiàn)方法也復(fù)雜多樣。在復(fù)雜網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)研究中,大量的社區(qū)發(fā)現(xiàn)算法被提出,如基于圖 分割、層次聚類、派系過濾、中心度測量、譜聚類、基于模塊度優(yōu)化、連邊檢測等。盡管如此, 大部分方法需要先驗知識指導(dǎo)才能實現(xiàn)有效劃分,同時沒有提出一個統(tǒng)一的度量準則,因 此有其局限性。根據(jù)社區(qū)結(jié)構(gòu)的定義,一個網(wǎng)絡(luò)可以看作是多個社區(qū)組合而成。對于社區(qū)結(jié) 構(gòu)劃分,有兩個關(guān)鍵問題需要解決:一是確定社區(qū)的數(shù)量,對于未知的網(wǎng)絡(luò)結(jié)構(gòu),其社區(qū)劃 分和結(jié)構(gòu)特征是未知的;另一個就是每個社區(qū)成員確定,避免社區(qū)結(jié)構(gòu)的不合理劃分。傳統(tǒng) 的社區(qū)劃分方法如圖分割將網(wǎng)絡(luò)中的每一個節(jié)點硬性地劃分到一個特定的社區(qū),而忽略了 其內(nèi)在聯(lián)系。在現(xiàn)實網(wǎng)絡(luò)中,由于網(wǎng)絡(luò)機構(gòu)的復(fù)雜性和多樣性,一個節(jié)點可能同時屬于多個 社區(qū),即在劃分過程中,存在節(jié)點的不確定性或模糊性,社區(qū)結(jié)構(gòu)的模糊性劃分更接近真實 的網(wǎng)絡(luò)結(jié)構(gòu)。
[0004] 其次,就社區(qū)結(jié)構(gòu)本身來說,其內(nèi)部節(jié)點之間是基于某種相似性或共同特征如社 交網(wǎng)絡(luò)中的不同興趣、愛好、主題等關(guān)系聯(lián)系在一起,這是人們研究社區(qū)劃分的出發(fā)點之 一。然而,大量現(xiàn)存的社區(qū)結(jié)構(gòu)檢測方法將這種相似性關(guān)系作為一種確定性或硬性的度量, 如此的劃分會導(dǎo)致社區(qū)的不合理劃分.實際上,在真實網(wǎng)絡(luò)結(jié)構(gòu)如社交網(wǎng)絡(luò)中實體間的相 似關(guān)系是模糊的或不確定性的,而以一種確定性度量來劃分將忽略網(wǎng)絡(luò)中其他重要信息。 本發(fā)明基于模糊理論的思想提出一種網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)的模糊劃分方法。解決模糊劃分問題的 基礎(chǔ)就是模糊集合理論。在網(wǎng)絡(luò)結(jié)構(gòu)中,節(jié)點間模糊關(guān)系強調(diào)網(wǎng)絡(luò)節(jié)點以不同的程度隸屬 于多個社區(qū)類別,而非嚴格劃分到某一特定社區(qū)。同時,模糊性的相似性關(guān)系可看作是確定 性關(guān)系的一種泛化。
[0005] 針對社區(qū)結(jié)構(gòu)檢測中社區(qū)有效劃分與劃分數(shù)目兩個基本問題,本發(fā)明提出了一種 基于模糊聚類技術(shù)的網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)發(fā)現(xiàn)方法,同時揭示了在不同分辨率條件下的網(wǎng)絡(luò)社區(qū) 的層次結(jié)構(gòu)。本發(fā)明提出用模糊聚類的思想來發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),實現(xiàn)模糊劃分, 此方法是基于一種模糊關(guān)系模型而非以往的圖模型來解決社區(qū)發(fā)現(xiàn)問題。
【發(fā)明內(nèi)容】
[0006] 針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種基于模糊聚類的多分辨率社區(qū) 發(fā)現(xiàn)方法。
[0007] 根據(jù)本發(fā)明提供的基于模糊聚類的多分辨率社區(qū)發(fā)現(xiàn)方法,包括如下步驟:
[0008] 模糊轉(zhuǎn)換步驟:根據(jù)網(wǎng)絡(luò)拓撲結(jié)構(gòu)建立鄰接矩陣A,并基于鄰接矩陣A計算相鄰節(jié) 點間的模糊關(guān)系,將得到的模糊關(guān)系矩陣進行模糊傳遞轉(zhuǎn)換,獲得模糊等價矩陣;
[0009] 模糊截取步驟:將模糊等價矩陣映射到網(wǎng)絡(luò)結(jié)構(gòu)中,得到模糊等價類,利用模糊閾 值來截取該模糊等價類,得到對應(yīng)模糊閾值水平上的模糊社區(qū)結(jié)構(gòu)聚類,并用模塊度來評 價模糊社區(qū)的聚類效果。
[0010] 優(yōu)選地,所述模糊轉(zhuǎn)換步驟包括:
[0011] 步驟Ml:對待分析網(wǎng)絡(luò)建立網(wǎng)絡(luò)的鄰接矩陣A,根據(jù)節(jié)點順序?qū)?jié)點進行編號,編 號從1開始,構(gòu)建元素為0或1的N階方陣,其中N為網(wǎng)絡(luò)節(jié)點總個數(shù);
[0012] 步驟M2:得到相鄰節(jié)點間的相似度,將確定性的鄰接關(guān)系轉(zhuǎn)化為模糊相似關(guān)系,實 現(xiàn)將鄰接矩陣A轉(zhuǎn)換為模糊關(guān)系矩陣R;
[0013] 步驟M3:為進一步度量非相鄰節(jié)點間的相似性,對模糊關(guān)系矩陣R進行模糊傳遞變 換,使節(jié)點間的相似性達到一致的穩(wěn)定性;
[0014] 步驟M4:通過模糊傳遞函數(shù)得到的一致收斂的模糊關(guān)系,建立模糊傳遞矩陣,并獲 得模糊等價矩陣。
[0015] 優(yōu)選地,所述步驟M2中,根據(jù)定義的結(jié)構(gòu)相似性度量算法得到相鄰節(jié)點間的相似 度,所述結(jié)構(gòu)相似性度量算法的計算公式如下:
[0017]式中,u,v*別為網(wǎng)絡(luò)節(jié)點集合中的任意節(jié)點,Γ( ·)表示某節(jié)點的鄰接節(jié)點集 合,Γ (u)表示節(jié)點u的鄰接節(jié)點集合,Γ (ν)表示節(jié)點ν的鄰接節(jié)點集合,w( ·)表示某兩節(jié) 點間連邊的權(quán)重,W(u,x)表示節(jié)點U與節(jié)點X間連邊的權(quán)重,W(V,X)表示節(jié)點V與節(jié)點X間連 邊的權(quán)重結(jié)構(gòu)相似度,S(u,v) e [0, 1];對于無向無權(quán)重網(wǎng)絡(luò)任意節(jié)點間連邊的權(quán)重w( ·) =1,則結(jié)構(gòu)相似性度量算法的公式進一步簡化為如下形式:
[0019]優(yōu)選地,所述步驟M3中的模糊傳遞變換函數(shù)如下:
[0021] 式中,η表示矩陣的維數(shù),n= I V|,V表示網(wǎng)絡(luò)節(jié)點序列向量,R表示模糊關(guān)系矩陣,t (R)表示模糊等價關(guān)系,U表示模糊關(guān)系合成運算,k表示模糊關(guān)系合成運算的次數(shù),其滿足 K [吻幻+ 1;模糊等價關(guān)系滿足i?以⑷。
[0022] 優(yōu)選地,所述模糊等價矩陣,具有以下性質(zhì):
[0023]性質(zhì)1:對稱性;對于無向網(wǎng)絡(luò)結(jié)構(gòu),節(jié)點間的模糊關(guān)系滿足對稱性;即節(jié)點i到節(jié) 點j的模糊關(guān)系r(i,j)等價于節(jié)點j到節(jié)點i的模糊關(guān)系r( j,i);
[0024] 性質(zhì)2:自反性;在模糊關(guān)系矩陣中,任何節(jié)點到自身的模糊關(guān)系恒為1,即r(i,i) =1 ;
[0025] 性質(zhì)3:傳遞性;對于經(jīng)過模糊傳遞變換的模糊等價矩陣,滿足e t(/?)。
[0026] 優(yōu)選地,所述模糊截取步驟包括:
[0027] 步驟N1:將得到的模糊等價關(guān)系矩陣與網(wǎng)絡(luò)節(jié)點一一對應(yīng),得到模糊等價類,所述 模糊等價類等價于網(wǎng)絡(luò)的層次聚類樹結(jié)構(gòu);
[0028] 步驟N2:選定任意的模糊閾值ε e [0,1 ],對模糊等價類進行截取,得到對應(yīng)的模糊 社區(qū)劃分結(jié)果;
[0029]步驟N3:計算對應(yīng)的模糊社區(qū)劃分結(jié)果的模塊度值;
[0030]步驟N4:調(diào)節(jié)模糊閾值ε,得到不同分辨率條件下的社區(qū)結(jié)構(gòu)。
[0031 ]優(yōu)選地,所述步驟Ν3中模塊度值Q的計算公式如下:
[0033] 式中,i表示網(wǎng)絡(luò)劃分中的社區(qū)數(shù)量,eii表示第i個社區(qū)內(nèi)部節(jié)點間連邊的數(shù)量占 整個網(wǎng)絡(luò)邊數(shù)的比例,ai表示一段與第i個社區(qū)中節(jié)點相連的連邊數(shù)量的比例。
[0034] 與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:
[0035] 1、本發(fā)明在傳統(tǒng)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的基礎(chǔ)上,運用模糊聚類方法實現(xiàn)網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)的 有效劃分;與現(xiàn)有算法不同的是,其模糊化處理節(jié)點與社區(qū)間的相似關(guān)系而非一種確定性 的硬劃分,從而避免了網(wǎng)絡(luò)結(jié)構(gòu)的不合理劃分。
[0036] 2、本發(fā)明在對模糊策略的控制上實現(xiàn)了不同分辨率下的網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)劃分,進一 步挖掘出了復(fù)雜網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)特性。
[0037] 3、本發(fā)明基于模糊特性,結(jié)合節(jié)點的局部結(jié)構(gòu)信息,提出了有效的結(jié)構(gòu)相似性度 量方法,提升了社區(qū)結(jié)構(gòu)劃分的合理性和可靠性。
【附圖說明】
[0038]通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、 目的和優(yōu)點將會變得更明顯:
[0039] 圖1為本發(fā)明所提供方法與其他方法在GN網(wǎng)絡(luò)上的性能對比圖。
[0040] 圖2為本發(fā)明所提供方法與其他方法在LFR網(wǎng)絡(luò)上的性能對比圖。
[0041 ]圖3為本發(fā)明對上述GN網(wǎng)絡(luò)上的模糊閾值取值的分布圖。
[0042] 圖4為本發(fā)明對上述LFR網(wǎng)絡(luò)上的模糊閾值取值的分布圖。
[0043] 圖5(a)為本發(fā)明分析一個真實網(wǎng)絡(luò)的一種劃分結(jié)果示意圖,圖5(b)為另一種劃分 結(jié)果示意圖。
[0044]圖6為本發(fā)明對上述真實網(wǎng)絡(luò)進行模糊聚類得到不同分辨率下的網(wǎng)絡(luò)社區(qū)分布 圖。
【具體實施方式】
[0045]下面結(jié)合具體實施例對本發(fā)明進行詳細說明。以下實施例將有助于本領(lǐng)域的技術(shù) 人員進一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對本領(lǐng)域的普通技術(shù) 人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變化和改進。這些都屬于本發(fā)明 的保護范圍。
[0046] 根據(jù)本發(fā)明提供的基于模糊聚類的多分辨率社區(qū)發(fā)現(xiàn)方法,包括如下步驟:
[0047] 模糊轉(zhuǎn)換步驟:根據(jù)網(wǎng)絡(luò)拓撲結(jié)構(gòu)建立鄰接矩陣A,并基于鄰接矩陣A計算相鄰節(jié) 點間的模糊關(guān)系,將得到的模糊關(guān)系矩陣進行模糊傳遞轉(zhuǎn)換,獲得模糊等價矩陣;
[0048] 模糊截取步驟:將模糊等價矩陣映射到網(wǎng)絡(luò)結(jié)構(gòu)中,得到模糊等價類,利用模糊閾 值來截取該模糊等價類,得到此模糊閾值水平上的模糊社區(qū)結(jié)構(gòu)聚類,并用模塊度來評價 模糊社區(qū)的聚類效果。
[0049] 所述模糊轉(zhuǎn)換步驟包括:
[0050] 步驟Ml:對待分析網(wǎng)絡(luò)建立網(wǎng)絡(luò)的鄰接矩陣A,根據(jù)節(jié)點順序?qū)?jié)點進行編號,編 號從1開始,構(gòu)建元素為〇或1的N階方陣,其中N為節(jié)點總個數(shù);
[0051] 步驟M2:根據(jù)定義的結(jié)構(gòu)相似性度量算法得到相鄰節(jié)點間的相似度,將確定性的 鄰接關(guān)系轉(zhuǎn)化為模糊相似關(guān)系,實現(xiàn)將鄰接矩陣A轉(zhuǎn)換為模糊關(guān)系矩陣R;
[0052]步驟M3:為進一步度量非相鄰節(jié)點間的相似性,對模糊關(guān)系矩陣R進行模糊傳遞變 換,使節(jié)點間的相似性達到一致的穩(wěn)定性;
[0053]步驟M4:通過模糊傳遞函數(shù)得到的一致收斂的模糊關(guān)系,建立模糊傳遞矩陣,并獲 得模糊等價矩陣。
[0054]所述步驟M2中的結(jié)構(gòu)相似性度量算法如下:
[0056]式中,u,v分別為網(wǎng)絡(luò)節(jié)點集合中的任意節(jié)點,Γ (·)表示某節(jié)點的鄰接節(jié)點集 合,Γ (u)表示節(jié)點u的鄰接節(jié)點集合,Γ (v)表示節(jié)點v的鄰接節(jié)點集合,w( ·)表示某節(jié)點 間連邊的權(quán)重,W(U,X)表示節(jié)點U間連邊的權(quán)重,W(V,X)表示節(jié)點V間連邊的權(quán)重結(jié)構(gòu)相似 度,s(u,v) e [0, 1];對于無向無權(quán)重網(wǎng)絡(luò)任意節(jié)點間連邊的權(quán)重w( · ) = 1,則結(jié)構(gòu)相似性 度量算法的公式進一步簡化為如下形式:
[0058]所述步驟M3中的模糊傳遞變換函數(shù)如下:
[0059] t(R) = Uk;
[0060] 式中,η表示矩陣的維數(shù),其滿足=|V|(V表示網(wǎng)絡(luò)節(jié)點序列),R表示模糊關(guān)系矩 陣,t(R)表示模糊等價關(guān)系,U表示模糊關(guān)系合成運算,k表示模糊關(guān)系合成運算的次數(shù),其 滿足+1;模糊等價關(guān)系滿足_.i? :s
[0061 ]所述模糊等價矩陣,具有以下性質(zhì):
[0062] 性質(zhì)1:對稱性;對于無向網(wǎng)絡(luò)結(jié)構(gòu),節(jié)點間的模糊關(guān)系滿足對稱性;即節(jié)點i到節(jié) 點j的模糊關(guān)系r(i,j)等價于節(jié)點j到節(jié)點i的模糊關(guān)系r( j,i);
[0063] 性質(zhì)2:自反性;在模糊關(guān)系矩陣中,任何節(jié)點到自身的模糊關(guān)系恒為1,即r(i,i) =1〇
[0064] 性質(zhì)3:傳遞性;對于經(jīng)過模糊傳遞變換的模糊等價矩陣,滿足i? £ t(/?J <
[0065] 所述模糊截取步驟包括:
[0066] 步驟N1:將得到的模糊等價關(guān)系矩陣與網(wǎng)絡(luò)節(jié)點一一對應(yīng),得到模糊等價類,所述 模糊等價類等價于網(wǎng)絡(luò)的層次聚類樹結(jié)構(gòu);
[0067] 步驟N2:選定任意的模糊閾值ε e [0, 1],對模糊等價類進行截取,得到對應(yīng)的模糊 社區(qū)劃分結(jié)果;
[0068] 步驟N3:計算對應(yīng)的模糊社區(qū)劃分結(jié)果的模塊度值;
[0069] 步驟N4:調(diào)節(jié)模糊閾值ε,得到不同分辨率條件下的社區(qū)結(jié)構(gòu)。
[0070] 所述步驟Ν3中模塊度值Q的計算公式如下:
[0072]式中,i表示網(wǎng)絡(luò)劃分中的社區(qū)數(shù)量,eii表示社區(qū)i內(nèi)部節(jié)點間連邊的數(shù)量占整個 網(wǎng)絡(luò)邊數(shù)的比例,&1表示一段與社區(qū)i中節(jié)點相連的連邊數(shù)量的比例。一般地,模塊度值越 大,表示網(wǎng)絡(luò)社區(qū)劃分的效果越好。
[0073] 具體地,包括如下步驟:
[0074] 步驟S1:根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)信息建立網(wǎng)絡(luò)的鄰接矩陣A,根據(jù)節(jié)點順序?qū)?jié)點進行編 號,編號從1開始,構(gòu)建N階方陣,其中N為節(jié)點總個數(shù),如果兩節(jié)點間有直接連邊用1表示,否 則為〇;
[0075] 步驟S2:轉(zhuǎn)換模糊關(guān)系。根據(jù)定義的結(jié)構(gòu)相似性度量計算相鄰節(jié)點間的相似度,將 確定性的鏈接關(guān)系轉(zhuǎn)化為模糊相似關(guān)系,實現(xiàn)將鄰接矩陣A轉(zhuǎn)換為模糊關(guān)系矩陣R;
[0076]步驟S3:模糊傳遞轉(zhuǎn)換。為進一步度量非相鄰節(jié)點間的相似性,對模糊關(guān)系矩陣R 進行傳遞變換,使節(jié)點間的相似性達到一致的穩(wěn)定性,對R矩陣按模糊傳遞函數(shù)進行模糊傳 遞變換;
[0077] 步驟S4:模糊等價矩陣;根據(jù)通過模糊傳遞函數(shù)計算得到的一致收斂的模糊關(guān)系 建立模糊等價矩陣;
[0078] 步驟S5:模糊等價類,將得到的模糊等價關(guān)系矩陣,與網(wǎng)絡(luò)節(jié)點一一對應(yīng),得到模 糊等價類,此等價類等價于網(wǎng)絡(luò)的層次聚類樹結(jié)構(gòu);
[0079] 步驟S6:選定任意的模糊閾值ε e [0, 1],對模糊等價類進行截取,得到對應(yīng)的模糊 群體劃分;
[0080] 步驟S7:根據(jù)上述模塊度定義,計算對應(yīng)的模糊社區(qū)劃分的模塊度值,模塊度值越 大,說明網(wǎng)絡(luò)社區(qū)劃分效果越好;
[0081] 步驟S8:調(diào)節(jié)模糊閾值ε,得到不同分辨率條件下的社區(qū)結(jié)構(gòu)。
[0082] 為詳細說明所提供方法的有效性和可擴展性,本發(fā)明通過實驗進行了下面的實施 例。
[0083] 1)實驗條件:CPU Intel Pentium Dual-Core 2.0-GHz,RAM 4.00GB,Windows 7操 作系統(tǒng),仿真軟件RS tud i o。
[0084] 2)實驗對象:
[0085] 實驗分別選取人工合成網(wǎng)絡(luò)和真實世界網(wǎng)絡(luò)。
[0086]人工合成網(wǎng)絡(luò)
[0087] 更進一步地,Girvan和Newman于2002年在論文 "Community structure in social and biological networks"Girvan M,Newman M.E.Proceedings of the National Academy of Sciences of the United States of America.2002,99(12) :7821-6.(人工 生成網(wǎng)絡(luò)分別使用GN基準網(wǎng)絡(luò)和LFR基準網(wǎng)絡(luò))中提出。該網(wǎng)絡(luò)由128個節(jié)點組成四個相等 規(guī)模的社區(qū)結(jié)構(gòu),節(jié)點具有相同的度分布,而節(jié)點的出度和入度可調(diào)節(jié),其用混合參數(shù)μ表 示節(jié)點的出入度比例以調(diào)整網(wǎng)絡(luò)的模糊程度,μ值越大,網(wǎng)絡(luò)社區(qū)間的界限越模糊。
[0088] Lancichinetti等人在2008年提出(Lancichinetti A,F(xiàn)ortunato S,Radicchi F.Benchmark graphs for testing community detection algorithms.Physical Review E.2008,78(4): 046110.) LFR基準網(wǎng)絡(luò);實際上,LFR基準網(wǎng)絡(luò)是GN基準網(wǎng)絡(luò)的擴展,其反映 了節(jié)點度分布和社區(qū)結(jié)構(gòu)規(guī)模分布的同質(zhì)性,即節(jié)點度分布和社區(qū)規(guī)模滿足冪律分布,使 得網(wǎng)絡(luò)結(jié)果更接近真實網(wǎng)絡(luò)。為了評價發(fā)明方法的性能,使用標準互信息(NMI)來度量劃分 結(jié)果。若NMI值越接近于1,說明發(fā)現(xiàn)的網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)越接近真實的社區(qū)結(jié)構(gòu)。
[0089] 本發(fā)明所描述方法在實驗中用Strsim表示。同時,為體現(xiàn)其性能效果,本方法與其 他幾個經(jīng)典的社區(qū)發(fā)現(xiàn)方法進行了比較。這些方法包括:Pons等人于2005年在《20th International Symposium on Computer and Information Sciences》上發(fā)表的 "Computing communities in large networks using random walks" 中提出的Walktrap 方法,Vincent等人于2008年在《Journal of Statistical Mechanics》上發(fā)表的 "Fast unfolding of communities in large networks" 中提出的BGLL方法,以及Rosvall和 Bergstrom于2008年在《Proceedings of the National Academy of Sciences of the United States of America》上發(fā)表的 "Maps of random walks on complex networks reveal community structure" 中提出白勺Infomap方t去。
[0090] 基于GN基準網(wǎng)絡(luò)的仿真實驗結(jié)果如圖1所示。當(dāng)混合系數(shù)小于0.4時,所有方法都 能有效檢測真實的網(wǎng)絡(luò)社區(qū)結(jié)構(gòu),即NMI = 1。隨著混合系數(shù)逐漸增大,各方法的社區(qū)結(jié)構(gòu)識 別能力呈現(xiàn)不同程度下降。如圖所示,當(dāng)混合系數(shù)大于〇。5時,Infomap方法的社區(qū)識別能力 急劇下降為0,Walktrap和BGLL方法的性能也逐步降低,而本發(fā)明所提供方法的性能卻呈現(xiàn) 穩(wěn)定。原因在于本方法采取了一種局部搜索策略來度量節(jié)點間的相似度,在網(wǎng)絡(luò)社區(qū)邊界 模糊的情況下,仍然能識別最近鄰的節(jié)點而保持一定的識別能力。顯而易見,本發(fā)明所提供 方法對于社區(qū)邊界模糊的網(wǎng)絡(luò)結(jié)構(gòu)具有明顯優(yōu)勢。
[0091] 基于LFR基準網(wǎng)絡(luò)的仿真實驗結(jié)果如圖2所示。在LFR網(wǎng)絡(luò)中,節(jié)點度分布、社區(qū)數(shù) 量和社區(qū)規(guī)模均有變化。當(dāng)混合系數(shù)不大于0.5時,所有方法對LFR網(wǎng)絡(luò)中的絡(luò)社區(qū)結(jié)構(gòu)都 有很好的識別能力。隨著混合系數(shù)不斷增大,各方法的性能也呈現(xiàn)不同程度的下降。當(dāng)混合 系數(shù)超過0.6時,Infomap方法已無法識別出其中的網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)(匪I = 0),而其他方法的 性能也逐漸降低。如圖所示,當(dāng)混合系數(shù)為0.6時,BGLL方法能獲得較好效果,然而,當(dāng)網(wǎng)絡(luò) 社區(qū)邊界更加模糊時,其性能較Walktrap和Strsim方法較差。而本發(fā)明所描述方法在混合 系數(shù)不斷降低時仍然能保持一定的識別能力。該實驗進一步體現(xiàn)了本方法的有效性和穩(wěn)定 性。
[0092]針對網(wǎng)絡(luò)結(jié)構(gòu)的模糊聚類,本方法對模糊閾值的選取進行了評價,并得到模糊閾 值最優(yōu)的經(jīng)驗取值區(qū)間,如圖3和圖4所示。圖3為本方法在GN基準網(wǎng)絡(luò)上在不同模糊系數(shù)條 件下的匪I取值分布。該分布呈現(xiàn)階梯狀分布,并在不同的混合系數(shù)下,呈現(xiàn)相似的趨勢,最 終達到穩(wěn)定狀態(tài),此與上述實驗結(jié)果一致。如圖所示,當(dāng)模糊閾值取值范圍為[0.2,0.4]時, 本方法能取得最優(yōu)結(jié)果。同時,通過分析圖4可以看出,當(dāng)混合系數(shù)小于0.5時,模糊閾值取 值結(jié)果分布差別較大。當(dāng)混合系數(shù)大于〇. 5時,呈現(xiàn)相似的趨勢,并達到穩(wěn)定的結(jié)果。比較可 以發(fā)現(xiàn),當(dāng)模糊閾值取值范圍為[0.2,0.4]時,本方法能取得最優(yōu)結(jié)果。
[0093] 真實世界網(wǎng)絡(luò)
[0094] 本實驗中的真實世界網(wǎng)絡(luò)選用Zachary空手道倶樂部社交網(wǎng)絡(luò)。此網(wǎng)絡(luò)廣泛用于 測試社區(qū)檢測算法的有效性和可靠性。此網(wǎng)絡(luò)是基于Zachery對該倶樂部成員間的社會交 互進行了長達兩年時間的調(diào)查和觀察,并構(gòu)建了一個具有34個倶樂部成員78條邊的交互網(wǎng) 絡(luò)。在觀察過程中,由于倶樂部管理者(節(jié)點1)和教練(節(jié)點33)之間的意見分歧,最終倶樂 部分裂成兩個較小的社區(qū)結(jié)構(gòu)。本方法應(yīng)用于該網(wǎng)絡(luò)的結(jié)果如圖5所示。圖中僅給出了其中 兩種劃分結(jié)果。當(dāng)對模糊閾值進行調(diào)節(jié),可以得到不同的分辨率下的社區(qū)結(jié)構(gòu),其社區(qū)數(shù)目 與劃分結(jié)構(gòu)的模塊度值如圖6所示。當(dāng)該網(wǎng)絡(luò)得到4社區(qū)結(jié)構(gòu)時,模塊度取得最大值。
[0095] 在實驗中,本發(fā)明所提方法能有效檢測出網(wǎng)絡(luò)結(jié)構(gòu)中的分裂現(xiàn)象。實驗結(jié)果表明, 兩個帶有明顯社區(qū)結(jié)構(gòu)的群組被檢測出,如圖5(a)所示,不同的網(wǎng)絡(luò)社區(qū)用不同的節(jié)點形 狀表示。通過調(diào)節(jié)模糊參數(shù),可以得到更高分辨率的網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)。如圖5(b)所示,該網(wǎng)絡(luò) 被劃分為3個社區(qū),圖中分別用不同的形狀表示。在該劃分中,由于節(jié)點間緊密的相似性,節(jié) 點25,26,29和32作為一個單獨的社區(qū)被提取。同時,通過調(diào)節(jié)聚類參數(shù)ε,社區(qū)內(nèi)部的緊密 聯(lián)系的更小粒度的社區(qū)被發(fā)現(xiàn)。當(dāng)選取更大的模糊參數(shù)值時,該網(wǎng)絡(luò)被劃分為4個社區(qū)結(jié) 構(gòu),其與Clauset等人提出的CNM算法劃分的結(jié)果一致。通過調(diào)節(jié)合適的參數(shù)值,不同數(shù)量的 社區(qū)結(jié)構(gòu)被提取,并對應(yīng)不同的模塊度值,如圖6所示。當(dāng)被劃分為4個社區(qū)結(jié)構(gòu)時有最大的 模塊度,而實際網(wǎng)絡(luò)對應(yīng)的2個社區(qū)的劃分并非最優(yōu),因此在模塊度水平相當(dāng)時,應(yīng)根據(jù)更 有效的準則來適當(dāng)選擇。而在本實驗中,根據(jù)所提出方法,其社區(qū)劃分結(jié)構(gòu)是精確而有效 的。
[0096] 以上對本發(fā)明的具體實施例進行了描述。需要理解的是,本發(fā)明并不局限于上述 特定實施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變化或修改,這并不影 響本發(fā)明的實質(zhì)內(nèi)容。在不沖突的情況下,本申請的實施例和實施例中的特征可以任意相 互組合。
【主權(quán)項】
1. 一種基于模糊聚類的多分辨率社區(qū)發(fā)現(xiàn)方法,其特征在于,包括如下步驟: 模糊轉(zhuǎn)換步驟:根據(jù)網(wǎng)絡(luò)拓撲結(jié)構(gòu)建立鄰接矩陣A,并基于鄰接矩陣A計算相鄰節(jié)點間 的模糊關(guān)系,將得到的模糊關(guān)系矩陣進行模糊傳遞轉(zhuǎn)換,獲得模糊等價矩陣; 模糊截取步驟:將模糊等價矩陣映射到網(wǎng)絡(luò)結(jié)構(gòu)中,得到模糊等價類,利用模糊閾值來 截取該模糊等價類,得到對應(yīng)模糊閾值水平上的模糊社區(qū)結(jié)構(gòu)聚類,并用模塊度來評價模 糊社區(qū)的聚類效果。2. 根據(jù)權(quán)利要求1所述的基于模糊聚類的多分辨率社區(qū)發(fā)現(xiàn)方法,其特征在于,所述模 糊轉(zhuǎn)換步驟包括: 步驟Ml:對待分析網(wǎng)絡(luò)建立網(wǎng)絡(luò)的鄰接矩陣A,根據(jù)節(jié)點順序?qū)?jié)點進行編號,編號從1 開始,構(gòu)建元素為〇或1的N階方陣,其中N為網(wǎng)絡(luò)節(jié)點總個數(shù); 步驟M2:得到相鄰節(jié)點間的相似度,將確定性的鄰接關(guān)系轉(zhuǎn)化為模糊相似關(guān)系,實現(xiàn)將 鄰接矩陣A轉(zhuǎn)換為模糊關(guān)系矩陣R; 步驟M3:為進一步度量非相鄰節(jié)點間的相似性,對模糊關(guān)系矩陣R進行模糊傳遞變換, 使節(jié)點間的相似性達到一致的穩(wěn)定性; 步驟M4:通過模糊傳遞函數(shù)得到的一致收斂的模糊關(guān)系,建立模糊傳遞矩陣,并獲得模 糊等價矩陣。3. 根據(jù)權(quán)利要求2所述的基于模糊聚類的多分辨率社區(qū)發(fā)現(xiàn)方法,其特征在于,所述步 驟M2中,根據(jù)定義的結(jié)構(gòu)相似性度量算法得到相鄰節(jié)點間的相似度,所述結(jié)構(gòu)相似性度量 算法的計算公式如下-式中,u,v分別為網(wǎng)絡(luò)節(jié)點集合中的任意節(jié)點,Γ (·)表示某節(jié)點的鄰接節(jié)點集合,Γ (u)表示節(jié)點u的鄰接節(jié)點集合,Γ (v)表示節(jié)點v的鄰接節(jié)點集合,w( ·)表示某兩節(jié)點間連 邊的權(quán)重,W(u,x)表示節(jié)點U與節(jié)點X間連邊的權(quán)重,W(V,X)表示節(jié)點V與節(jié)點X間連邊的權(quán) 重結(jié)構(gòu)相似度,S(u,v) e [〇, 1];對于無向無權(quán)重網(wǎng)絡(luò)任意節(jié)點間連邊的權(quán)重w( · ) = 1,則 結(jié)構(gòu)相似性度量算法的公式進一步簡化為如下形式:4. 根據(jù)權(quán)利要求2所述的基于模糊聚類的多分辨率社區(qū)發(fā)現(xiàn)方法,其特征在于,所述步 驟M3中的模糊傳遞變換函數(shù)如下:式中,η表示矩陣的維數(shù),n= | V|,V表示網(wǎng)絡(luò)節(jié)點序列向量,R表示模糊關(guān)系矩陣,t(R) 表示模糊等價關(guān)系,U表示模糊關(guān)系合成運算,k表示模糊關(guān)系合成運算的次數(shù),其滿足 fc s LZ〇W] + 1;模糊等價關(guān)系滿足/? g £(/〇。5. 根據(jù)權(quán)利要求2所述的基于模糊聚類的多分辨率社區(qū)發(fā)現(xiàn)方法,其特征在于,所述模 糊等價矩陣,具有以下性質(zhì): 性質(zhì)1:對稱性;對于無向網(wǎng)絡(luò)結(jié)構(gòu),節(jié)點間的模糊關(guān)系滿足對稱性;即節(jié)點i到節(jié)點j的 模糊關(guān)系r(i,j)等價于節(jié)點j到節(jié)點i的模糊關(guān)系r( j,i); 性質(zhì)2:自反性;在模糊關(guān)系矩陣中,任何節(jié)點到自身的模糊關(guān)系恒為1,即r(i,i) = 1; 性質(zhì)3:傳遞性;對于經(jīng)過模糊傳遞變換的模糊等價矩陣,滿足i? ^ t(i?)。6. 根據(jù)權(quán)利要求1所述的基于模糊聚類的多分辨率社區(qū)發(fā)現(xiàn)方法,其特征在于,所述模 糊截取步驟包括: 步驟N1:將得到的模糊等價關(guān)系矩陣與網(wǎng)絡(luò)節(jié)點一一對應(yīng),得到模糊等價類,所述模糊 等價類等價于網(wǎng)絡(luò)的層次聚類樹結(jié)構(gòu); 步驟N2:選定任意的模糊閾值ee[〇,l],對模糊等價類進行截取,得到對應(yīng)的模糊社區(qū) 劃分結(jié)果; 步驟N3:計算對應(yīng)的模糊社區(qū)劃分結(jié)果的模塊度值; 步驟N4:調(diào)節(jié)模糊閾值ε,得到不同分辨率條件下的社區(qū)結(jié)構(gòu)。7. 根據(jù)權(quán)利要求6所述的基于模糊聚類的多分辨率社區(qū)發(fā)現(xiàn)方法,其特征在于,所述步 驟Ν3中模塊度值Q的計算公式如下式中,i表示網(wǎng)絡(luò)劃分中的社區(qū)數(shù)量,eii表示第i個社區(qū)內(nèi)部節(jié)點間連邊的數(shù)量占整個 網(wǎng)絡(luò)邊數(shù)的比例,ai表示一段與第i個社區(qū)中節(jié)點相連的連邊數(shù)量的比例。
【文檔編號】G06K9/62GK105868791SQ201610237640
【公開日】2016年8月17日
【申請日】2016年4月15日
【發(fā)明人】潘理, 汪曉鋒, 李建華
【申請人】上海交通大學(xué)