基于Pagerank方法的微博信息傳播影響力評估模型的實現(xiàn)方法
【專利摘要】本發(fā)明公開了一種基于Pagerank方法的微博信息傳播影響力評估方法,該方法在大規(guī)模增量微博信息上進行數(shù)據(jù)分析,通過研究微博信息的傳播特征,提出微博信息傳播的直接影響力和間接影響力的綜合評估模型。首先從網(wǎng)絡上爬取實驗中所需要的真實微博網(wǎng)絡信息數(shù)據(jù);其次根據(jù)某一時間段內(nèi)某節(jié)點處個體平均每天發(fā)布的原創(chuàng)微博數(shù)量,轉(zhuǎn)發(fā)的微博數(shù)量,參與評論的微博數(shù)量,經(jīng)過規(guī)范化度量得出個體活躍度;然后縮小用戶粉絲數(shù)量的數(shù)量級差異,根據(jù)微博的瀏覽數(shù),評論數(shù),轉(zhuǎn)發(fā)數(shù)以及點贊數(shù)計算出節(jié)點的受關(guān)注度;最后將微博傳播能力作為分配影響力值的傳遞因子,基于Pagerank方法,構(gòu)造出微博傳播影響力模型。
【專利說明】基于Pagerank方法的微博信息傳播影響力評估模型的實現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,特別涉及一種基于Pagerank方法的微博信息傳播影響力評估模型的實現(xiàn)方法。
【背景技術(shù)】
[0002]微博是當今互聯(lián)網(wǎng)最盛行的網(wǎng)絡交流平臺之一,它以便捷性,強交互性,即時性等特點對傳統(tǒng)信息傳播媒體造成了巨大的沖擊。微博作為一種基于個體自由表達言論和社會交流的渠道已經(jīng)成為新型公共話題傳播平臺。它是一種信息傳播模式上革命性的創(chuàng)新,極大地改變了大眾原本的個人表達方式,已逐漸成為人們最重要的自我表達、獲取信息和社交方式之一。
[0003]分析微博傳遞分布上的特點,并準確發(fā)現(xiàn)其中的規(guī)律,挖掘出有價值的微博及其用戶,對于理解用戶傳播行為的微觀效應和社會效應、理解熱點話題形成的內(nèi)在規(guī)律以及指導輿論導向有著重要的價值。微博信息傳播影響力作為一個新興的研究課題,在國內(nèi)外的學術(shù)界也有著廣泛的關(guān)注度。
[0004]不僅僅在學術(shù)界,在法律界也考察這以微博為代表的網(wǎng)絡環(huán)境對新聞輿論導向的影響。我國最高人民法院、最高檢察院在《關(guān)于辦理利用信息網(wǎng)絡實施誹鎊等刑事案件適用法律若干問題的解釋》中明確規(guī)定,利用信息網(wǎng)絡誹鎊他人,同一誹鎊信息實際被點擊、瀏覽次數(shù)達到5000次以上,或者被轉(zhuǎn)發(fā)次數(shù)達到500次以上的將被視為構(gòu)成誹鎊罪。
[0005]如何更好的衡量網(wǎng)絡中傳播的微博信息的影響力,找出最具影響力的N個節(jié)點,使得最終社交網(wǎng)絡中被影響的節(jié)點最多,信息傳播范圍最大,而不是單一的度量其瀏覽量和轉(zhuǎn)發(fā)量的大小。而本發(fā)明能夠很好地解決上面的問題。
【發(fā)明內(nèi)容】
[0006]本發(fā)明目的在于設(shè)計了一種基于微博信息的傳播影響力識別方法,該方法是在大規(guī)模增量微博信息上進行數(shù)據(jù)分析,通過研究微博信息的傳播特征,提出微博信息傳播的直接影響力和間接影響力的綜合評估模型。
[0007]本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種基于Pagerank方法的微博信息傳播影響力評估模型的實現(xiàn)方法,該方法將通過標注微博信息傳播節(jié)點的權(quán)重來衡量節(jié)點的影響力與重要性,節(jié)點的權(quán)值越大,影響力就越大。在計算各節(jié)點的權(quán)重時,將綜合考慮節(jié)點的權(quán)威性(即是否被官方認證為大V),節(jié)點所擁有的粉絲數(shù)量及其質(zhì)量,以及節(jié)點的交互關(guān)系與鏈接關(guān)系等多方面因素。該方法包括以下步驟:
[0008]步驟一、編寫微博數(shù)據(jù)爬蟲程序,從網(wǎng)絡中爬取出真實的微博網(wǎng)絡信息數(shù)據(jù),從中提取出微博信息傳播的網(wǎng)絡拓撲結(jié)構(gòu)信息。
[0009]步驟二、個體活躍度的定義
[0010]個體活躍度L的定義包含三個方面,其包括,某一時間段內(nèi)(如一個月)該個體平均每天發(fā)布的原創(chuàng)微博數(shù)量O,轉(zhuǎn)發(fā)的微博數(shù)量F,參與評論的微博數(shù)量C。其量化指標如下:
【權(quán)利要求】
1.基于Pagerank方法的微博信息傳播影響力評估模型的實現(xiàn)方法,其特征在于,所述方法包括如下步驟: 步驟1:編寫網(wǎng)絡爬蟲; ①編寫微博數(shù)據(jù)爬蟲程序,從網(wǎng)絡中爬取出真實的微博網(wǎng)絡信息數(shù)據(jù); ②從中提取出微博信息傳播的網(wǎng)絡拓撲結(jié)構(gòu)信息; 步驟2:個體活躍度的定義; 個體活躍度L的定義包含三個方面,其包括; ①某一時間段內(nèi)(如一個月)該個體平均每天發(fā)布的原創(chuàng)微博數(shù)量O; ②轉(zhuǎn)發(fā)的微博數(shù)量F; ③參與評論的微博數(shù)量C; 步驟3:為了排除微博用戶中大量存在的“僵尸粉絲”對用戶影響度的干擾,并縮小用戶粉絲數(shù)量的數(shù)量級差異,使得粉絲數(shù)較少但影響力較強的用戶不被忽略,本發(fā)明重新定義了用戶q對用戶P的權(quán)重表不; 步驟4:節(jié)點受關(guān)注度; 如果某節(jié)點處的微博受到的關(guān)注度越高,則影響力越強,包括以下三個指標:該微博的瀏覽數(shù)S,評論數(shù)P,轉(zhuǎn)發(fā)數(shù)M以及點贊數(shù)Z ; 因此,節(jié)點的受關(guān)注度如下式所示:
C = S X ffs+P X ffp+M X ffM+Z X Wz 其中,Ws,ffp, ffM, Wz分別表示瀏覽數(shù),評論數(shù),轉(zhuǎn)發(fā)數(shù),點贊數(shù)的權(quán)重比; 步驟5:微博傳播影響力; 由個體活躍度,節(jié)點受關(guān)注度兩個指標以及歸一化后的粉絲數(shù)三者綜合定義出微博傳播影響力指標,表達式為:
2.根據(jù)權(quán)利要求1所述的一種基于Pagerank方法的微博信息傳播影響力評估模型的實現(xiàn)方法,其特征在于:所述方法的步驟2中,將所述個體活躍度添加量化指標,其量化指標如下:
A = V0Xff0+VFXffF+VcXffc 其中,Wtj為原創(chuàng)微博帖子所占的活躍度權(quán)重,WF,Wc分別為轉(zhuǎn)發(fā)微博,評價微博所占的活躍度權(quán)重,通過對這三種度量指標進行規(guī)范化再帶入公式計算。
3.根據(jù)權(quán)利要求1所述的一種基于Pagerank方法的微博信息傳播影響力評估模型的實現(xiàn)方法,其特征在于:所述方法的步驟2中,具體歸一化方法為:
4.根據(jù)權(quán)利要求1所述的一種基于Pagerank方法的微博信息傳播影響力評估模型的實現(xiàn)方法,其特征在于:所述方法的步驟3中,本發(fā)明定義w(p,q)表示用戶q對用戶p的權(quán)重,通過下式計算w (p, q)的值:
5.根據(jù)權(quán)利要求1所述的一種基于Pagerank方法的微博信息傳播影響力評估模型的實現(xiàn)方法,其特征在于:所述方法的步驟6中,Pagerank方法的基本思想是將上文定義的微博傳播能力作為分配影響力值的傳遞因子,微博傳播能力高的用戶能獲得較高的影響力值,相應的微博傳播能力低的用戶獲得的影響力值較低,其表達式為:
6.根據(jù)權(quán)利要求1所述的一種基于Pagerank方法的微博信息傳播影響力評估模型的實現(xiàn)方法,其特征在于:所述方法的步驟6中,由個體p的微博傳播影響力占用戶q的所有好友傳播影響力之和的大小決定,假設(shè)Q有N個好友,那么q分配給P的VPR值比例為:
【文檔編號】G06F17/30GK103617279SQ201310664373
【公開日】2014年3月5日 申請日期:2013年12月9日 優(yōu)先權(quán)日:2013年12月9日
【發(fā)明者】孫國梓, 黃斯琪, 楊一濤, 李華康, 盧楊, 仇呈燕 申請人:南京郵電大學