亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于局部最短回路的社會(huì)網(wǎng)絡(luò)群體劃分方法

文檔序號(hào):9579326閱讀:250來源:國知局
一種基于局部最短回路的社會(huì)網(wǎng)絡(luò)群體劃分方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及社會(huì)網(wǎng)絡(luò)計(jì)算技術(shù)領(lǐng)域,尤其涉及一種基于局部最短回路的社會(huì)網(wǎng)絡(luò) 群體劃分方法。
【背景技術(shù)】
[0002] 大多數(shù)復(fù)雜網(wǎng)絡(luò)呈現(xiàn)模塊化特征,即系統(tǒng)內(nèi)存在一些相對獨(dú)立的群組。這種內(nèi)部 節(jié)點(diǎn)連接稠密而與網(wǎng)絡(luò)中其它部分連接稀疏的群組稱為社區(qū)。一般而言,社區(qū)內(nèi)的節(jié)點(diǎn)之 間存在某種程度的相似性,而這種相似性對于人們研究復(fù)雜網(wǎng)絡(luò)具有重要的意義。如社交 網(wǎng)絡(luò)中同組人具有區(qū)別于其它組的共同特性或觀點(diǎn),這對網(wǎng)絡(luò)輿情監(jiān)測具有重要的意義; 萬維網(wǎng)中,如果知道某些網(wǎng)頁的少量信息,就可以外推到同組內(nèi)的其它Web網(wǎng)頁,這對搜索 引擎是非常有用的;科學(xué)家協(xié)作網(wǎng)中同組的科學(xué)家從事類似的研究。社區(qū)發(fā)現(xiàn)算法的目標(biāo) 就是發(fā)現(xiàn)網(wǎng)絡(luò)中存在的這樣節(jié)點(diǎn)群組,這對研究復(fù)雜系統(tǒng)具有重要的意義。
[0003]針對社區(qū)發(fā)現(xiàn),研究者們將社區(qū)發(fā)現(xiàn)算法大體上分為三類:計(jì)算機(jī)科學(xué)領(lǐng)域的圖 形分割的算法、社會(huì)學(xué)領(lǐng)域的層次聚類算法和近年來得到廣泛關(guān)注的標(biāo)簽傳播算法。圖形 分割算法是基于圖論的二分迭代算法,其核心思想是把網(wǎng)絡(luò)分割成兩個(gè)最優(yōu)的子圖,再對 劃分得到的子圖繼續(xù)進(jìn)行分割,不斷重復(fù)進(jìn)行同樣的操作,直到有足夠的子圖為止?;趫D 形分割的社區(qū)發(fā)現(xiàn)算法主要有基于Laplace矩陣的譜平分法、Kernighan-Lin算法(K-L算 法)和派系過濾算法(CliquePercolationMethod,CPM算法)等。圖形分割算法的缺點(diǎn) 是要求知識(shí)社區(qū)的先驗(yàn)知識(shí),即社區(qū)數(shù)目或社區(qū)大小,這對真實(shí)網(wǎng)絡(luò)而言是很難做到的。層 次聚類算法的核心是分析網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)間的相似度以及連接的緊密程度,其中一個(gè)重要 的概念是邊介數(shù),即通過一條邊的所有最短路徑的數(shù)目。根據(jù)社區(qū)的定義,通過社區(qū)之間的 邊的最短路徑數(shù)目必然大于通過社區(qū)內(nèi)的邊的最短路徑數(shù),也就是說,各個(gè)社區(qū)之間節(jié)點(diǎn) 的邊介數(shù)要遠(yuǎn)遠(yuǎn)大于社區(qū)內(nèi)部節(jié)點(diǎn)的邊介數(shù),根據(jù)邊介數(shù)的大小增加或刪除社區(qū)間的邊可 以獲得社區(qū)結(jié)構(gòu)。根據(jù)層次聚類時(shí)是刪除邊還是增加邊,可以把層次聚類算法分為兩類,即 分裂算法和凝聚算法。前者的代表是GN算法,后者的代表是Newman快速算法。層次聚類 算法不需要預(yù)先定義社區(qū)的大小,但是缺點(diǎn)是無法確定最終需要將網(wǎng)絡(luò)劃分成多少個(gè)社區(qū) 才是最合適的,且很多節(jié)點(diǎn)的歸屬也無法確定,所以在實(shí)際應(yīng)用中往往得不到令人滿意的 結(jié)果。
[0004]為了改進(jìn)以上算法的缺點(diǎn),Raghavan等人提出標(biāo)簽傳播算法(LabelPropagation Algorithm,LPA)社區(qū)發(fā)現(xiàn)方法,該算法是一種接近線性時(shí)間復(fù)雜度社區(qū)發(fā)現(xiàn)算法,這也是 到目前為止最快的社區(qū)發(fā)現(xiàn)算法。標(biāo)簽傳播算法是一種基于啟發(fā)策略的不依賴于先驗(yàn)知識(shí) 的算法,不需要設(shè)定目標(biāo)函數(shù),在許多真實(shí)網(wǎng)絡(luò)中取得了較好的效果。
[0005]傳統(tǒng)的標(biāo)簽傳播算法雖然時(shí)間復(fù)雜度低、速度快,但是該算法在標(biāo)簽傳播過程中, 認(rèn)為被更新節(jié)點(diǎn)的每一個(gè)鄰居節(jié)點(diǎn)對該節(jié)點(diǎn)的影響是平等的,鄰居節(jié)點(diǎn)與該節(jié)點(diǎn)間的連接 關(guān)系沒有加以考慮,這很容易導(dǎo)致標(biāo)簽在不同社區(qū)間的任意傳播,進(jìn)而影響了標(biāo)簽傳播算 法的準(zhǔn)確率。
[0006] 鑒于上述缺陷,現(xiàn)有的社區(qū)發(fā)現(xiàn)方法的劃分結(jié)果準(zhǔn)確性方面還有很大的提升空 間。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明的目的在于提供一種基于局部最短回路的社會(huì)網(wǎng)絡(luò)群體劃分方法,該方法 有利于提1?社會(huì)網(wǎng)絡(luò)劃分的準(zhǔn)確度。
[0008] 為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于局部最短回路的社會(huì)網(wǎng)絡(luò)群體劃分方法, 該具體過程為:
[0009] 步驟A:讀取社交網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造以社交網(wǎng)絡(luò)用戶為節(jié)點(diǎn),用戶關(guān)系為邊的社交網(wǎng) 絡(luò)圖;
[0010] 步驟B:初始化,為每個(gè)節(jié)點(diǎn)分配一個(gè)唯一代表其所屬社區(qū)的標(biāo)簽,迭代次數(shù)t= 1 ;
[0011] 步驟C:隨機(jī)排列所有節(jié)點(diǎn),生成一個(gè)節(jié)點(diǎn)序列X;
[0012] 步驟D:節(jié)點(diǎn)標(biāo)簽更新;
[0013] 步驟E:若所有節(jié)點(diǎn)的標(biāo)簽不再變化,則算法停止;否則,t=t+Ι,并返回步驟C;
[0014] 步驟F:將所有具有相同標(biāo)簽的頂點(diǎn)歸為一個(gè)社區(qū)。
[0015] 進(jìn)一步地,所述步驟B中,為每個(gè)節(jié)點(diǎn)分配一個(gè)唯一代表其所屬社區(qū)的標(biāo)簽具體 過程為,即Cn =Ln,Cn表示節(jié)點(diǎn)η所屬社區(qū),Ln表示節(jié)點(diǎn)η的標(biāo)簽值。
[0016] 進(jìn)一步地,所述步驟D中,節(jié)點(diǎn)標(biāo)簽更新具體包括以下步驟:
[0017] 步驟D1:對于節(jié)點(diǎn)序列X中的每一個(gè)節(jié)點(diǎn)X,用它鄰居節(jié)點(diǎn)標(biāo)簽中出現(xiàn)頻率 最高的那個(gè)標(biāo)簽來更新該節(jié)點(diǎn)的標(biāo)簽,假設(shè)節(jié)點(diǎn)X的k個(gè)鄰居節(jié)點(diǎn)分別是Xl,χ2,..., xk,第t次時(shí)迭代節(jié)點(diǎn)χ的標(biāo)簽依據(jù)于它鄰居節(jié)點(diǎn)中所有經(jīng)過了t次迭代后節(jié)點(diǎn)的 標(biāo)簽及其它經(jīng)過了第t-Ι次迭代節(jié)點(diǎn)后所得到的標(biāo)簽,節(jié)點(diǎn)X的標(biāo)簽更新公式為: ~(0 =盡(\?^),~,\(〇,£^+^-1)_^-1)),其中函數(shù)8返回的是節(jié)點(diǎn)1的鄰居節(jié)點(diǎn) 標(biāo)簽中頻率最1?的標(biāo)簽。
[0018] 步驟D2 :如果鄰居節(jié)點(diǎn)標(biāo)簽中存在多個(gè)最1?頻率的標(biāo)簽,則在χ的鄰居節(jié)點(diǎn)中選 擇能與節(jié)點(diǎn)X構(gòu)成最短回路的鄰居節(jié)點(diǎn)的標(biāo)簽作為該頂點(diǎn)標(biāo)簽;如果最短回路長度相等, 則在其中隨機(jī)選擇一個(gè)節(jié)點(diǎn)標(biāo)簽;如果沒有回路,則隨機(jī)選擇一個(gè)鄰居的標(biāo)簽。
[0019] 進(jìn)一步地,所述步驟E中,算法的迭代終止條件為社會(huì)網(wǎng)絡(luò)達(dá)到平衡,標(biāo)簽數(shù)目不 再發(fā)生變化。
[0020] 與現(xiàn)有技術(shù)相比較本發(fā)明的有益效果在于:本發(fā)明提出了一種基于局部最短回路 的社會(huì)網(wǎng)絡(luò)群體劃分方法,與現(xiàn)有的社區(qū)發(fā)現(xiàn)算法相比,劃分結(jié)果更接近于真實(shí)的網(wǎng)絡(luò)結(jié) 構(gòu),提高了準(zhǔn)確度。
【附圖說明】
[0021] 圖1為本發(fā)明方法的實(shí)現(xiàn)流程圖。
[0022] 圖2為采用本發(fā)明方法(由LPALC表示)和標(biāo)簽傳播算法(由LPA表示)在1000 個(gè)節(jié)點(diǎn)的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度數(shù)<k> = 15、度數(shù)的最大值maxk= 50條件 下,兩種算法運(yùn)行100次的平均匪I值隨混合參數(shù)μ(μe[0, 0.90],μ表示不同社區(qū)之 間的節(jié)點(diǎn)中有連邊的部分)的取值變化對比圖。
[0023] 圖3為采用本發(fā)明方法(由LPALC表示)和標(biāo)簽傳播算法(由LPA表示)在1000 個(gè)節(jié)點(diǎn)的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度數(shù)<k> = 30、度數(shù)的最大值maxk= 50條件 下,兩種算法運(yùn)行100次的平均NMI值隨混合參數(shù)μ(μe[0,0. 90])的取值變化對比圖。
[0024] 圖4為采用本發(fā)明方法(由LPALC表示)和標(biāo)簽傳播算法(由LPA表示)在5000 個(gè)節(jié)點(diǎn)的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度數(shù)<k> = 15、度數(shù)的最大值maxk= 50條件 下,兩種算法運(yùn)行100次的平均NMI值隨混合參數(shù)μ(μe[0,0. 90])的取值變化對比圖。
[0025] 圖5為采用本發(fā)明方法(由LPALC表示)和標(biāo)簽傳播算法(由LPA表示)在5000 個(gè)節(jié)點(diǎn)的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度數(shù)<k> = 30、度數(shù)的最大值maxk= 50條件 下,兩種算法運(yùn)行100次的平均NMI值隨混合參數(shù)μ(μe[0,0. 90])的取值變化對比圖。
[0026] 圖6為采用本發(fā)明方法(由LPALC表示)和標(biāo)簽傳播算法(由LPA表示)在10000 個(gè)節(jié)點(diǎn)的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度數(shù)<k> = 15、度數(shù)的最大值maxk= 50條件 下,兩種算法運(yùn)行100次的平均NMI值隨混合參數(shù)μ(μe[0,0. 90])的取值變化對比圖。
[0027] 圖7為采用本發(fā)明方法(由LPALC表示)和標(biāo)簽傳播算法(由LPA表示)在10000 個(gè)節(jié)點(diǎn)的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度數(shù)<k> = 30、度數(shù)的最大值maxk= 50條件 下,兩種算法運(yùn)行100次的平均NMI值隨混合參數(shù)μ(μe[0,0. 90])的取值變化對比圖。
【具體實(shí)施方式】
[0028] 以下結(jié)合附圖,對本發(fā)明上述的特征和優(yōu)點(diǎn)作更加詳細(xì)的說明。
[0029] 圖1是本發(fā)明的一種基于局部最短回路的社會(huì)網(wǎng)絡(luò)群體劃分方法的實(shí)現(xiàn)流程圖。 如圖1所示,所述方法包括以下步驟:
[0030] 步驟A:讀取社交網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造以社交網(wǎng)絡(luò)用戶為節(jié)點(diǎn),用戶關(guān)系為邊
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1