一種基于局部最短回路的社會(huì)網(wǎng)絡(luò)群體劃分方法

文檔序號(hào)：9579326閱讀：250來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于局部最短回路的社會(huì)網(wǎng)絡(luò)群體劃分方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及社會(huì)網(wǎng)絡(luò)計(jì)算技術(shù)領(lǐng)域，尤其涉及一種基于局部最短回路的社會(huì)網(wǎng)絡(luò) 群體劃分方法。
【背景技術(shù)】
[0002] 大多數(shù)復(fù)雜網(wǎng)絡(luò)呈現(xiàn)模塊化特征，即系統(tǒng)內(nèi)存在一些相對獨(dú)立的群組。這種內(nèi)部節(jié)點(diǎn)連接稠密而與網(wǎng)絡(luò)中其它部分連接稀疏的群組稱為社區(qū)。一般而言，社區(qū)內(nèi)的節(jié)點(diǎn)之間存在某種程度的相似性，而這種相似性對于人們研究復(fù)雜網(wǎng)絡(luò)具有重要的意義。如社交網(wǎng)絡(luò)中同組人具有區(qū)別于其它組的共同特性或觀點(diǎn)，這對網(wǎng)絡(luò)輿情監(jiān)測具有重要的意義；萬維網(wǎng)中，如果知道某些網(wǎng)頁的少量信息，就可以外推到同組內(nèi)的其它Web網(wǎng)頁，這對搜索引擎是非常有用的；科學(xué)家協(xié)作網(wǎng)中同組的科學(xué)家從事類似的研究。社區(qū)發(fā)現(xiàn)算法的目標(biāo) 就是發(fā)現(xiàn)網(wǎng)絡(luò)中存在的這樣節(jié)點(diǎn)群組，這對研究復(fù)雜系統(tǒng)具有重要的意義。
[0003]針對社區(qū)發(fā)現(xiàn)，研究者們將社區(qū)發(fā)現(xiàn)算法大體上分為三類：計(jì)算機(jī)科學(xué)領(lǐng)域的圖形分割的算法、社會(huì)學(xué)領(lǐng)域的層次聚類算法和近年來得到廣泛關(guān)注的標(biāo)簽傳播算法。圖形分割算法是基于圖論的二分迭代算法，其核心思想是把網(wǎng)絡(luò)分割成兩個(gè)最優(yōu)的子圖，再對劃分得到的子圖繼續(xù)進(jìn)行分割，不斷重復(fù)進(jìn)行同樣的操作，直到有足夠的子圖為止?；趫D 形分割的社區(qū)發(fā)現(xiàn)算法主要有基于Laplace矩陣的譜平分法、Kernighan-Lin算法（K-L算法）和派系過濾算法（CliquePercolationMethod,CPM算法）等。圖形分割算法的缺點(diǎn) 是要求知識(shí)社區(qū)的先驗(yàn)知識(shí)，即社區(qū)數(shù)目或社區(qū)大小，這對真實(shí)網(wǎng)絡(luò)而言是很難做到的。層次聚類算法的核心是分析網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)間的相似度以及連接的緊密程度，其中一個(gè)重要的概念是邊介數(shù)，即通過一條邊的所有最短路徑的數(shù)目。根據(jù)社區(qū)的定義，通過社區(qū)之間的邊的最短路徑數(shù)目必然大于通過社區(qū)內(nèi)的邊的最短路徑數(shù)，也就是說，各個(gè)社區(qū)之間節(jié)點(diǎn) 的邊介數(shù)要遠(yuǎn)遠(yuǎn)大于社區(qū)內(nèi)部節(jié)點(diǎn)的邊介數(shù)，根據(jù)邊介數(shù)的大小增加或刪除社區(qū)間的邊可以獲得社區(qū)結(jié)構(gòu)。根據(jù)層次聚類時(shí)是刪除邊還是增加邊，可以把層次聚類算法分為兩類，即分裂算法和凝聚算法。前者的代表是GN算法，后者的代表是Newman快速算法。層次聚類算法不需要預(yù)先定義社區(qū)的大小，但是缺點(diǎn)是無法確定最終需要將網(wǎng)絡(luò)劃分成多少個(gè)社區(qū) 才是最合適的，且很多節(jié)點(diǎn)的歸屬也無法確定，所以在實(shí)際應(yīng)用中往往得不到令人滿意的結(jié)果。
[0004]為了改進(jìn)以上算法的缺點(diǎn)，Raghavan等人提出標(biāo)簽傳播算法（LabelPropagation Algorithm，LPA)社區(qū)發(fā)現(xiàn)方法，該算法是一種接近線性時(shí)間復(fù)雜度社區(qū)發(fā)現(xiàn)算法，這也是到目前為止最快的社區(qū)發(fā)現(xiàn)算法。標(biāo)簽傳播算法是一種基于啟發(fā)策略的不依賴于先驗(yàn)知識(shí) 的算法，不需要設(shè)定目標(biāo)函數(shù)，在許多真實(shí)網(wǎng)絡(luò)中取得了較好的效果。
[0005]傳統(tǒng)的標(biāo)簽傳播算法雖然時(shí)間復(fù)雜度低、速度快，但是該算法在標(biāo)簽傳播過程中，認(rèn)為被更新節(jié)點(diǎn)的每一個(gè)鄰居節(jié)點(diǎn)對該節(jié)點(diǎn)的影響是平等的，鄰居節(jié)點(diǎn)與該節(jié)點(diǎn)間的連接關(guān)系沒有加以考慮，這很容易導(dǎo)致標(biāo)簽在不同社區(qū)間的任意傳播，進(jìn)而影響了標(biāo)簽傳播算法的準(zhǔn)確率。
[0006] 鑒于上述缺陷，現(xiàn)有的社區(qū)發(fā)現(xiàn)方法的劃分結(jié)果準(zhǔn)確性方面還有很大的提升空間。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明的目的在于提供一種基于局部最短回路的社會(huì)網(wǎng)絡(luò)群體劃分方法，該方法有利于提1?社會(huì)網(wǎng)絡(luò)劃分的準(zhǔn)確度。
[0008] 為實(shí)現(xiàn)上述目的，本發(fā)明提供一種基于局部最短回路的社會(huì)網(wǎng)絡(luò)群體劃分方法，該具體過程為：
[0009] 步驟A:讀取社交網(wǎng)絡(luò)數(shù)據(jù)，構(gòu)造以社交網(wǎng)絡(luò)用戶為節(jié)點(diǎn)，用戶關(guān)系為邊的社交網(wǎng) 絡(luò)圖；
[0010] 步驟B:初始化，為每個(gè)節(jié)點(diǎn)分配一個(gè)唯一代表其所屬社區(qū)的標(biāo)簽，迭代次數(shù)t= 1 ；
[0011] 步驟C:隨機(jī)排列所有節(jié)點(diǎn)，生成一個(gè)節(jié)點(diǎn)序列X;
[0012] 步驟D:節(jié)點(diǎn)標(biāo)簽更新；
[0013] 步驟E:若所有節(jié)點(diǎn)的標(biāo)簽不再變化，則算法停止；否則，t=t+Ι，并返回步驟C;
[0014] 步驟F:將所有具有相同標(biāo)簽的頂點(diǎn)歸為一個(gè)社區(qū)。
[0015] 進(jìn)一步地，所述步驟B中，為每個(gè)節(jié)點(diǎn)分配一個(gè)唯一代表其所屬社區(qū)的標(biāo)簽具體過程為，即Cn =Ln,Cn表示節(jié)點(diǎn)η所屬社區(qū)，Ln表示節(jié)點(diǎn)η的標(biāo)簽值。
[0016] 進(jìn)一步地，所述步驟D中，節(jié)點(diǎn)標(biāo)簽更新具體包括以下步驟：
[0017] 步驟D1:對于節(jié)點(diǎn)序列X中的每一個(gè)節(jié)點(diǎn)X，用它鄰居節(jié)點(diǎn)標(biāo)簽中出現(xiàn)頻率最高的那個(gè)標(biāo)簽來更新該節(jié)點(diǎn)的標(biāo)簽，假設(shè)節(jié)點(diǎn)X的k個(gè)鄰居節(jié)點(diǎn)分別是Xl，χ2,...， xk，第t次時(shí)迭代節(jié)點(diǎn)χ的標(biāo)簽依據(jù)于它鄰居節(jié)點(diǎn)中所有經(jīng)過了t次迭代后節(jié)點(diǎn)的標(biāo)簽及其它經(jīng)過了第t-Ι次迭代節(jié)點(diǎn)后所得到的標(biāo)簽，節(jié)點(diǎn)X的標(biāo)簽更新公式為： ~(0 =盡(\?^)，~，\(〇，￡^+^-1)_^-1))，其中函數(shù)8返回的是節(jié)點(diǎn)1的鄰居節(jié)點(diǎn) 標(biāo)簽中頻率最1?的標(biāo)簽。
[0018] 步驟D2 :如果鄰居節(jié)點(diǎn)標(biāo)簽中存在多個(gè)最1?頻率的標(biāo)簽，則在χ的鄰居節(jié)點(diǎn)中選擇能與節(jié)點(diǎn)X構(gòu)成最短回路的鄰居節(jié)點(diǎn)的標(biāo)簽作為該頂點(diǎn)標(biāo)簽；如果最短回路長度相等，則在其中隨機(jī)選擇一個(gè)節(jié)點(diǎn)標(biāo)簽；如果沒有回路，則隨機(jī)選擇一個(gè)鄰居的標(biāo)簽。
[0019] 進(jìn)一步地，所述步驟E中，算法的迭代終止條件為社會(huì)網(wǎng)絡(luò)達(dá)到平衡，標(biāo)簽數(shù)目不再發(fā)生變化。
[0020] 與現(xiàn)有技術(shù)相比較本發(fā)明的有益效果在于：本發(fā)明提出了一種基于局部最短回路的社會(huì)網(wǎng)絡(luò)群體劃分方法，與現(xiàn)有的社區(qū)發(fā)現(xiàn)算法相比，劃分結(jié)果更接近于真實(shí)的網(wǎng)絡(luò)結(jié) 構(gòu)，提高了準(zhǔn)確度。
【附圖說明】
[0021] 圖1為本發(fā)明方法的實(shí)現(xiàn)流程圖。
[0022] 圖2為采用本發(fā)明方法（由LPALC表示）和標(biāo)簽傳播算法（由LPA表示）在1000 個(gè)節(jié)點(diǎn)的基準(zhǔn)網(wǎng)絡(luò)中，在網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度數(shù)<k> = 15、度數(shù)的最大值maxk= 50條件下，兩種算法運(yùn)行100次的平均匪I值隨混合參數(shù)μ(μe[0, 0.90]，μ表示不同社區(qū)之間的節(jié)點(diǎn)中有連邊的部分）的取值變化對比圖。
[0023] 圖3為采用本發(fā)明方法（由LPALC表示）和標(biāo)簽傳播算法（由LPA表示）在1000 個(gè)節(jié)點(diǎn)的基準(zhǔn)網(wǎng)絡(luò)中，在網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度數(shù)<k> = 30、度數(shù)的最大值maxk= 50條件下，兩種算法運(yùn)行100次的平均NMI值隨混合參數(shù)μ(μe[0,0. 90])的取值變化對比圖。
[0024] 圖4為采用本發(fā)明方法（由LPALC表示）和標(biāo)簽傳播算法（由LPA表示）在5000 個(gè)節(jié)點(diǎn)的基準(zhǔn)網(wǎng)絡(luò)中，在網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度數(shù)<k> = 15、度數(shù)的最大值maxk= 50條件下，兩種算法運(yùn)行100次的平均NMI值隨混合參數(shù)μ(μe[0,0. 90])的取值變化對比圖。
[0025] 圖5為采用本發(fā)明方法（由LPALC表示）和標(biāo)簽傳播算法（由LPA表示）在5000 個(gè)節(jié)點(diǎn)的基準(zhǔn)網(wǎng)絡(luò)中，在網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度數(shù)<k> = 30、度數(shù)的最大值maxk= 50條件下，兩種算法運(yùn)行100次的平均NMI值隨混合參數(shù)μ(μe[0,0. 90])的取值變化對比圖。
[0026] 圖6為采用本發(fā)明方法（由LPALC表示）和標(biāo)簽傳播算法（由LPA表示）在10000 個(gè)節(jié)點(diǎn)的基準(zhǔn)網(wǎng)絡(luò)中，在網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度數(shù)<k> = 15、度數(shù)的最大值maxk= 50條件下，兩種算法運(yùn)行100次的平均NMI值隨混合參數(shù)μ(μe[0,0. 90])的取值變化對比圖。
[0027] 圖7為采用本發(fā)明方法（由LPALC表示）和標(biāo)簽傳播算法（由LPA表示）在10000 個(gè)節(jié)點(diǎn)的基準(zhǔn)網(wǎng)絡(luò)中，在網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度數(shù)<k> = 30、度數(shù)的最大值maxk= 50條件下，兩種算法運(yùn)行100次的平均NMI值隨混合參數(shù)μ(μe[0,0. 90])的取值變化對比圖。
【具體實(shí)施方式】
[0028] 以下結(jié)合附圖，對本發(fā)明上述的特征和優(yōu)點(diǎn)作更加詳細(xì)的說明。
[0029] 圖1是本發(fā)明的一種基于局部最短回路的社會(huì)網(wǎng)絡(luò)群體劃分方法的實(shí)現(xiàn)流程圖。如圖1所示，所述方法包括以下步驟：
[0030] 步驟A:讀取社交網(wǎng)絡(luò)數(shù)據(jù)，構(gòu)造以社交網(wǎng)絡(luò)用戶為節(jié)點(diǎn)，用戶關(guān)系為邊

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張賢坤;田雪;
技術(shù)所有人：天津科技大學(xué);
我是此專利的發(fā)明人

上一篇：廣告牌照片識(shí)別互動(dòng)方法
上一篇：數(shù)據(jù)的處理方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

社會(huì)弱勢群體相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于局部最短回路的社會(huì)網(wǎng)絡(luò)群體劃分方法