基于ReciprocityRank算法的微博網(wǎng)絡(luò)影響力節(jié)點發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及復(fù)雜網(wǎng)絡(luò)中影響力節(jié)點發(fā)現(xiàn)方法,特別設(shè)及于基于ReciprocityRank 算法的微博網(wǎng)絡(luò)影響力節(jié)點發(fā)現(xiàn)方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)和Web2. 0技術(shù)的快速發(fā)展,網(wǎng)絡(luò)對于人們生活的影響越來越大,尤其 是W微博為代表的社交媒體平臺已經(jīng)隨著網(wǎng)絡(luò)的發(fā)展逐漸進入人們的生活。目前,微博已 經(jīng)成為群眾發(fā)布、獲取、分享、討論的主流平臺之一,其特有的分列式信息傳遞方式使得用 戶信息得到快速而廣泛的傳播,但是大量負(fù)面、虛假甚至是違法的信息也在網(wǎng)絡(luò)中傳播和 蔓延,因此怎樣尋找網(wǎng)絡(luò)中的影響力節(jié)點從而控制微博網(wǎng)絡(luò)中的信息傳播過程已成為一個 至關(guān)重要的問題。
[0003] 網(wǎng)絡(luò)中高影響力的節(jié)點通常更易于被感染,同時也更易于感染網(wǎng)絡(luò)的其他節(jié)點。 為解決運個問題,各種各樣的中屯、性指標(biāo)被提出。如度中屯、性、介數(shù)中屯、性、緊密度中屯、性、 K-殼分解法等。在有向網(wǎng)絡(luò)中,PageRank算法W其較好的排序效果化及較高的商業(yè)價值吸 引了研究者的關(guān)注,常被推廣應(yīng)用到各種不同的網(wǎng)絡(luò)。LeaderRank算法在化geRank算法 的基本思想上進行改進。運兩種算法均認(rèn)為節(jié)點的影響力取決于跟隨者的數(shù)量和質(zhì)量,節(jié) 點的粉絲影響力越大,那么節(jié)點是高影響力節(jié)點的概率就越高。但是LeaderRank算法相比 于化geRank算法,在信息傳播、抵抗噪聲魯棒性和抗擊魯棒性等方面全面優(yōu)于化geRank算 法。但是運些算法均是只基于網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)提出來的,未考慮到節(jié)點自身行為的差異性 對節(jié)點影響力的影響。
【發(fā)明內(nèi)容】
[0004] 為了解決W上現(xiàn)有算法的缺陷,特別針對于LeaderRank算法中未考慮到節(jié)點自 身行為的差異性對節(jié)點影響力的影響,本發(fā)明提供了一種基于ReciprocityRank算法的微 博網(wǎng)絡(luò)影響力節(jié)點發(fā)現(xiàn)方法,W提高影響力節(jié)點發(fā)現(xiàn)的準(zhǔn)確度。
[0005] 基于ReciprocityRank算法的微博網(wǎng)絡(luò)影響力節(jié)點發(fā)現(xiàn)方法,包括W下步驟: 陽006] 步驟1),建立節(jié)點數(shù)為N、有向邊數(shù)為M的有向網(wǎng)絡(luò),其中,N、M均為自然數(shù);
[0007]步驟2),引入一個背景節(jié)點與步驟1)中的有向網(wǎng)絡(luò)中的每個網(wǎng)絡(luò)節(jié)點雙向連接;
[0008] 步驟3),為所有節(jié)點賦權(quán)值,背景節(jié)點權(quán)值為0,網(wǎng)絡(luò)節(jié)點權(quán)值為1,初始化時間t =0 ;
[0009]步驟4),時間t加1,對于每個網(wǎng)絡(luò)節(jié)點,分別計算其與各個相鄰節(jié)點之間的轉(zhuǎn)移 概率;
[0010] 步驟5),對于每個網(wǎng)絡(luò)節(jié)點,分別將其與各個相鄰節(jié)點之間的轉(zhuǎn)移概率和預(yù)設(shè)的 概率闊值進行比較,并將該網(wǎng)絡(luò)節(jié)點的權(quán)值分配給與其之間轉(zhuǎn)移概率大于預(yù)設(shè)的概率闊值 的相鄰節(jié)點;
[0011] 步驟6),重復(fù)步驟4)至步驟5),直至所有網(wǎng)絡(luò)節(jié)點的權(quán)值達到穩(wěn)態(tài)值;
[0012] 步驟7),根據(jù)網(wǎng)絡(luò)節(jié)點的最終權(quán)值進行排序。
[0013] 作為本發(fā)明基于ReciprocityRank算法的微博網(wǎng)絡(luò)影響力節(jié)點發(fā)現(xiàn)方法進一步 的優(yōu)化方案,所述步驟4)中轉(zhuǎn)移概率的計算方法為:
[001引其中,Ci為節(jié)點i的轉(zhuǎn)移概率;為加入背景節(jié)點后網(wǎng)絡(luò)中節(jié)點i的出度;M'r為加入背景節(jié)點后網(wǎng)絡(luò)中節(jié)點i的出邊互惠數(shù)。 陽016] 作為本發(fā)明基于ReciprocityRank算法的微博網(wǎng)絡(luò)影響力節(jié)點發(fā)現(xiàn)方法進一步 的優(yōu)化方案,所述步驟5)中將網(wǎng)絡(luò)節(jié)點的權(quán)值分配給與其之間轉(zhuǎn)移概率大于預(yù)設(shè)的概率 闊值的相鄰節(jié)點的具體公式如下:
陽01引其中,RRi(t)表示節(jié)點i在t時刻的權(quán)值;RRww(t)表示背景節(jié)點在t時刻的權(quán)值;a。為有向網(wǎng)絡(luò)的網(wǎng)絡(luò)鄰接矩陣中對應(yīng)的項元素,a。二0。 陽019] 作為本發(fā)明基于ReciprocityRank算法的微博網(wǎng)絡(luò)影響力節(jié)點發(fā)現(xiàn)方法進一步 的優(yōu)化方案,所述預(yù)設(shè)的概率闊值為30%。 陽020] 作為本發(fā)明基于ReciprocityRank算法的微博網(wǎng)絡(luò)影響力節(jié)點發(fā)現(xiàn)方法進一步 的優(yōu)化方案,所述預(yù)設(shè)的概率闊值為50%。
[0021] 本發(fā)明將基于節(jié)點出邊互惠數(shù)和出度的ReciprocityRank算法用于微博網(wǎng)絡(luò)影 響力節(jié)點發(fā)現(xiàn),在保持較好的抵抗噪聲魯棒性和抗擊魯棒性等性能,還融入了節(jié)點行為差 異的因素,提高了算法的精確度。本發(fā)明對真實網(wǎng)絡(luò),尤其是社交網(wǎng)絡(luò)的節(jié)點影響力發(fā)現(xiàn)效 果最佳。
【附圖說明】
[0022] 圖1是本發(fā)明的方法流程圖;
[0023] 圖2-曰、圖2-b分別為對采集的SM網(wǎng)絡(luò)在取L= 50時本發(fā)明與化geRank算法、本 發(fā)明與LeaderRank算法的傳播范圍對比示意圖;
[0024] 圖3-曰、圖3-b分別為對采集的TM網(wǎng)絡(luò)在取L= 50時本發(fā)明與化geRank算法、本 發(fā)明與LeaderRank算法的傳播范圍對比示意圖; 陽0巧]圖4-曰、圖4-b分別為對采集的SM網(wǎng)絡(luò)在取L= 20時本發(fā)明與化geRank算法、本 發(fā)明與LeaderRank算法的傳播范圍對比示意圖; 陽0%] 圖5-曰、圖5-b分別為對采集的TM網(wǎng)絡(luò)在取L= 20時本發(fā)明與化geRank算法、本 發(fā)明與LeaderRank算法的傳播范圍對比示意圖。
【具體實施方式】
[0027] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,W下結(jié)合附圖及實施例,對 本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用W解釋本發(fā)明,并 不用于限定本發(fā)明。 陽02引如圖1所示,該方法包括W下步驟:
[0029] 步驟1,建立節(jié)點數(shù)為N、有向邊數(shù)為M的有向網(wǎng)絡(luò);
[0030] 為了更加直觀的顯式出本發(fā)明的實際效果,應(yīng)用本發(fā)明于微博網(wǎng)絡(luò)。通過對某兩 種微博網(wǎng)絡(luò)的數(shù)據(jù)采集,W用戶為節(jié)點,節(jié)點間的關(guān)注與被關(guān)注關(guān)系為有向邊,分別構(gòu)建有 向關(guān)系網(wǎng)絡(luò)SM和TM,其參數(shù)如表1所示。
[0031]表1:
[0032]
[0033] 步驟2,引入一個背景節(jié)點與初始網(wǎng)絡(luò)中的每個節(jié)點雙向連接;
[0034] 為了解決網(wǎng)絡(luò)的不連通性而導(dǎo)致的排序結(jié)果不唯一,因此在初始有向網(wǎng)絡(luò)中引入 一個背景節(jié)點,并且背景節(jié)點與初始有向網(wǎng)絡(luò)中的所有節(jié)點雙向連接,此時的網(wǎng)絡(luò)節(jié)點數(shù) 為N+1,有向邊數(shù)為M+2XN,網(wǎng)絡(luò)為強連通網(wǎng)絡(luò)。
[0035] 步驟3,為所有節(jié)點賦權(quán)值,背景節(jié)點權(quán)值為0,網(wǎng)絡(luò)節(jié)點權(quán)值為1,初始化時間t= 0 ;
[0036] 步驟4,時間t加1,對于每個網(wǎng)絡(luò)節(jié)點,分別計算其與各個相鄰節(jié)點之間的轉(zhuǎn)移概 率,然后將其與各個相鄰節(jié)點之間的轉(zhuǎn)移概率分別和預(yù)設(shè)的概率闊值進行比較,并將該網(wǎng) 絡(luò)節(jié)點的權(quán)值分配給與其之間轉(zhuǎn)移概率大于預(yù)設(shè)的概率闊值的相鄰節(jié)點;
[0037] 單位時間內(nèi),節(jié)點W轉(zhuǎn)移概率Ci選擇訪問訪問背景節(jié)點或是初始網(wǎng)絡(luò)節(jié)點,運一 概率反映了節(jié)點的不活躍程度,節(jié)點越不活躍,顯然也就不容易在自己的關(guān)注對象和粉絲 對象之間起到橋梁作用,自身的影響力也就不容易起到作用。最直觀的感受,節(jié)點i關(guān)注的 對象越多,其獲取的信息來源也就更廣泛,則產(chǎn)生轉(zhuǎn)發(fā)或發(fā)表信息行為的概率也就越高。同 樣的,節(jié)點i有越多的真實好友使用微博網(wǎng)絡(luò),則其對于微博網(wǎng)絡(luò)的重視程度也就越高于 那些沒有或者只有少數(shù)朋友使用微博的用戶,也就意味著節(jié)點i在微博活動中活躍度同樣 也就會越高。
[0038]根據(jù)上述所提出的思想,我們假設(shè),節(jié)點的轉(zhuǎn)移概率即訪問背景節(jié)點的概率受其 關(guān)注數(shù)和互惠邊數(shù)共同影響,即節(jié)點i的轉(zhuǎn)移概率為:
W40] 其中,Ci為節(jié)點i的轉(zhuǎn)移概率;為加入背景節(jié)點后,網(wǎng)絡(luò)中節(jié)點i的出度; 為加入背景節(jié)點后,網(wǎng)絡(luò)中節(jié)點i的出邊互惠數(shù)。引入互惠邊因素W及背景節(jié)點后, 在時間t內(nèi)逐個將節(jié)點的權(quán)值分發(fā)給訪問節(jié)點,W邊i一j為例,具體表達式如下:
[