專利名稱:一種網(wǎng)絡(luò)水軍的探測(cè)與判定方法
一種網(wǎng)絡(luò)水軍的探測(cè)與判定方法本發(fā)明涉及網(wǎng)絡(luò)分析技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)絡(luò)水軍的探測(cè)與判定方法。
互聯(lián)網(wǎng)作為一種新的信息傳播媒體,已成為思想文化信息的集散地和社會(huì)輿論的放大器?;ヂ?lián)網(wǎng)時(shí)代,信息的傳播和受眾是無數(shù)個(gè)體散點(diǎn),受眾既是信息的接受者,又是信息的傳播者,隨之而產(chǎn)生了一些受雇于網(wǎng)絡(luò)公關(guān)公司,為他人發(fā)帖回帖造勢(shì)的網(wǎng)絡(luò)人員,這些人互聯(lián)網(wǎng)上集體炒作某個(gè)話題或人物,以達(dá)到宣傳、推銷或者攻擊某些人或產(chǎn)品的目的。“受雇傭的‘網(wǎng)絡(luò)水軍’在網(wǎng)絡(luò)上發(fā)布虛假或誹鎊信息,擾亂虛擬社會(huì)正常秩序,為了能夠?qū)W(wǎng)絡(luò)水軍的行為進(jìn)行監(jiān)管,有必要使用技術(shù)手段對(duì)網(wǎng)絡(luò)水軍進(jìn)行探測(cè)和跟蹤。在目前虛擬社會(huì)管控領(lǐng)域,主要的網(wǎng)絡(luò)水軍探測(cè)技術(shù)是情感傾向分析方法,該方法的依據(jù)是網(wǎng)絡(luò)水軍在網(wǎng)上發(fā)布的帖子往往是非理性的、帶有強(qiáng)烈感情色彩的,或是極力美化雇主的產(chǎn)品或服務(wù),或是極力貶低雇主競(jìng)爭(zhēng)對(duì)手的產(chǎn)品或服務(wù),整體上傾向性比較強(qiáng)烈。通過傾向性分析可以明確網(wǎng)絡(luò)傳播者的意圖和傾向。采用情感傾向分析方法探測(cè)流程如下信息采集——信息提取——情感傾向性判定——同主題傾向性統(tǒng)計(jì)——網(wǎng)絡(luò)水軍預(yù)測(cè)和判定上述方法主要是通過用戶對(duì)某個(gè)主題的主觀傾向性進(jìn)行水軍探測(cè),即認(rèn)為如果用戶對(duì)某個(gè)主題發(fā)表的正面或負(fù)面信息比例過高,則認(rèn)為該用戶可能為網(wǎng)絡(luò)水軍。目前主流的網(wǎng)絡(luò)水軍技術(shù)的具體做法是先通過互聯(lián)網(wǎng)采集信息,然后通過頁面分析技術(shù)抽取元數(shù)據(jù)(比如信息發(fā)布者,發(fā)布時(shí)間,信息源)和正文,再使用機(jī)器學(xué)習(xí)的方法對(duì)正文進(jìn)行情感分類,判斷其為正面或負(fù)面信息,經(jīng)過統(tǒng)計(jì)后,如果發(fā)現(xiàn)在一段時(shí)間內(nèi),某人發(fā)布的正面或負(fù)面信息的閾值超過一定的比例,則認(rèn)為該人是網(wǎng)絡(luò)水軍。實(shí)際實(shí)施過程是采集到網(wǎng)頁后,先使用正則表達(dá)式抽取元數(shù)據(jù),再使用DOM樹對(duì)正文進(jìn)行解析,再使用基于機(jī)器學(xué)習(xí)的篇章傾向性分類器對(duì)正文進(jìn)行情感分類,傾向性分類器需要事先經(jīng)過訓(xùn)練,即先對(duì)文章進(jìn)行正、負(fù)面標(biāo)注,再使用文本特征選擇算法和分類算法構(gòu)建分類器。在圖2所示的現(xiàn)有技術(shù)網(wǎng)絡(luò)過程中,現(xiàn)有技術(shù)在網(wǎng)絡(luò)水軍判定過程中,要先基于網(wǎng)頁抽取出作者,正文信息,該抽取過程必須準(zhǔn)確,不能引入噪音,否則會(huì)對(duì)后期的傾向性判定和統(tǒng)計(jì)造成影響;用戶的觀點(diǎn)必須要具有傾向性,這樣才能夠使用經(jīng)過訓(xùn)練的傾向性分類器對(duì)用戶觀點(diǎn)進(jìn)行判斷;而且用戶必須針對(duì)該主題發(fā)表多篇有傾向性的文章或回復(fù),這樣才能夠進(jìn)行統(tǒng)計(jì)判斷。上述現(xiàn)有技術(shù)的不足之處在于I、現(xiàn)有技術(shù)要求網(wǎng)絡(luò)水軍發(fā)表的文章必須具有明顯傾向性,否則方法失效。而在現(xiàn)實(shí)社會(huì)中,很多網(wǎng)友觀點(diǎn)并不具有明顯傾向性。例如“賈君鵬”,“犀利哥”事件等,網(wǎng)絡(luò)水軍的觀點(diǎn)只是惡搞,并無主觀傾向;2、現(xiàn)有技術(shù)要求在一定的時(shí)間段內(nèi),網(wǎng)絡(luò)水軍針對(duì)同一主題,必須發(fā)表多篇文章,否則無法識(shí)別。而事實(shí)上,網(wǎng)絡(luò)水軍往往由一個(gè)群體操縱某個(gè)主題的炒作,不大會(huì)出現(xiàn)同一個(gè)人對(duì)同一主題發(fā)布大量正負(fù)面言論的行為。本發(fā)明要解決的技術(shù)問題是提供一種網(wǎng)絡(luò)水軍的探測(cè)與判定方法。為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案是,一種網(wǎng)絡(luò)水軍的探測(cè)與判定 方法,包括用戶行為采集,用戶行為統(tǒng)計(jì)和網(wǎng)絡(luò)水軍分類器訓(xùn)練三個(gè)模塊,具體步驟如下一、用戶行為采集主要是通過網(wǎng)站日志或網(wǎng)頁源碼解析并獲取用戶的行為數(shù)據(jù),具體獲取過程是如下(I)至(4)的4個(gè)步驟(I)先確定要抽取的用戶行為信息,編寫配置文件,在配置文件中標(biāo)識(shí)這些關(guān)鍵信息的位置;(2)編寫針對(duì)配置文件的解析程序;(3)獲取到網(wǎng)頁源碼或網(wǎng)站日志后,基于配置文件中的位置信息進(jìn)行信息提?。?4)將采集的用戶行為信息發(fā)送給用戶行為統(tǒng)計(jì)模塊;二、用戶行為統(tǒng)計(jì)需要對(duì)周期性的對(duì)用戶的行為進(jìn)行統(tǒng)計(jì),按照不同的周期,輸出不同的行為統(tǒng)計(jì)值,主要為如下(5)至(7)的3個(gè)步驟(5)根據(jù)預(yù)先確定的統(tǒng)計(jì)時(shí)間間隔劃分為若干個(gè)區(qū)間,并將每個(gè)統(tǒng)計(jì)區(qū)間的統(tǒng)計(jì)屬性初始值置零;(6)獲取到用戶行為后,獲取該行為發(fā)生的時(shí)間,確定該屬性的統(tǒng)計(jì)區(qū)間,并將該區(qū)間的響應(yīng)統(tǒng)計(jì)屬性值增I ;(7)輸出每個(gè)統(tǒng)計(jì)區(qū)間相應(yīng)的屬性值;三、網(wǎng)絡(luò)水軍分類器的訓(xùn)練由通過離線方式完成,先通過樣本標(biāo)注,再經(jīng)過特征選擇或分類算法構(gòu)建,可以最終用于在線的對(duì)網(wǎng)絡(luò)水軍進(jìn)行判定,包括如下(8)至(12)的5個(gè)步驟(8)先通過用戶行為采集模塊獲得用戶上網(wǎng)行為樣本;(9)由專家對(duì)這些用戶進(jìn)行標(biāo)注,給出其是否為網(wǎng)絡(luò)水軍的判定;(10)使用抽取程序抽取出這些樣本的特征,使用信息增益的方法進(jìn)行特征選擇;(11)使用機(jī)器學(xué)習(xí)方法,如支持向量機(jī)(SVM),對(duì)步驟⑶中所述的用戶上網(wǎng)行為樣本進(jìn)行訓(xùn)練后,生成預(yù)測(cè)模型;(12)收集新用戶的上網(wǎng)行為,使用所述的預(yù)測(cè)模型對(duì)其預(yù)測(cè),判定其是否為網(wǎng)絡(luò)水軍。本發(fā)明基于如下考慮,網(wǎng)絡(luò)水軍的網(wǎng)上發(fā)帖或回帖行為不同于正常的互聯(lián)網(wǎng)用戶,具體表現(xiàn)在網(wǎng)絡(luò)水軍會(huì)頻繁的使用同一個(gè)用戶賬號(hào)發(fā)帖和回帖;發(fā)帖或回帖的IP通常不改變;會(huì)登陸不同網(wǎng)站發(fā)布相同或相似內(nèi)容;同一 IP會(huì)使用大量不同賬號(hào)進(jìn)行登陸,且登陸的時(shí)間具有明顯的周期性等?;诰W(wǎng)絡(luò)水軍的異常行為特征可以建立網(wǎng)絡(luò)水軍預(yù)測(cè)模型,收集用戶的網(wǎng)絡(luò)行為后,經(jīng)過統(tǒng)計(jì)后便能夠進(jìn)行預(yù)測(cè),判定其是否為網(wǎng)絡(luò)水軍。本發(fā)明繞過主題的傾向性判定,通過對(duì)用戶行為的采集,分析,增加了網(wǎng)絡(luò)水軍探測(cè)的通用性,提高了可識(shí)別網(wǎng)絡(luò)水軍的比例。本發(fā)明的網(wǎng)絡(luò)水軍判定流程如下
用戶行為采集——用戶行為統(tǒng)計(jì)——網(wǎng)絡(luò)水軍預(yù)測(cè)——網(wǎng)絡(luò)水軍判定本發(fā)明的有益效果是通過獲取用戶行為樣本后對(duì)用戶行為進(jìn)行統(tǒng)計(jì),再使用機(jī)器學(xué)習(xí)的方法建立預(yù)測(cè)模型,最后對(duì)網(wǎng)絡(luò)水軍進(jìn)行預(yù)測(cè)。作為基于用戶行為進(jìn)行網(wǎng)絡(luò)水軍探測(cè)的方法,彌補(bǔ)了目前主流技術(shù)的不足,能繞過傾向性識(shí)別問題,從而解決了無明顯傾向的水軍探測(cè)和識(shí)別問題;同時(shí),該方法不要求發(fā)表同一作者發(fā)表大量同主題的帖子,解決了群體網(wǎng)絡(luò)水軍探測(cè)的問題。另外,本發(fā)明也使得網(wǎng)絡(luò)水軍探測(cè)具有清晰的組織結(jié)構(gòu),便于后續(xù)的網(wǎng)絡(luò)水軍行為特征的擴(kuò)充。下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
圖1是本發(fā)明網(wǎng)絡(luò)水軍的探測(cè)與判定方法實(shí)施例的結(jié)構(gòu)示意圖。圖2是現(xiàn)有技術(shù)的網(wǎng)絡(luò)過程簡(jiǎn)圖。圖3是本發(fā)明網(wǎng)絡(luò)水軍的探測(cè)與判定方法實(shí)施例的用戶行為統(tǒng)計(jì)示意圖。圖I是一種網(wǎng)絡(luò)水軍的探測(cè)與判定方法,包括用戶行為采集,用戶行為統(tǒng)計(jì)和網(wǎng)絡(luò)水軍分類器訓(xùn)練三個(gè)模塊,具體步驟如下一、用戶行為采集主要是通過網(wǎng)站日志或網(wǎng)頁源碼解析并獲取用戶的行為數(shù)據(jù),具體獲取過程包括如下幾個(gè)步驟(I)先對(duì)獲取的網(wǎng)頁源碼或網(wǎng)站日志(html格式)進(jìn)行格式轉(zhuǎn)換,將其轉(zhuǎn)換為標(biāo)準(zhǔn)的xml格式,和html相比,xml具有可擴(kuò)展性強(qiáng),結(jié)構(gòu)良好,語義性強(qiáng)等特點(diǎn),因而特別便于網(wǎng)絡(luò)信息的集成,提取,過濾,檢索及挖掘分析。該過程需要先讀取將html文本進(jìn)行標(biāo)簽分隔,將〈和 > 之間的文本形成xml標(biāo)簽段,> 和〈號(hào)之間形成數(shù)據(jù)段。再將html解析為一棵樹,基于上述規(guī)則,按照先序遍歷的方法生成xml。在格式轉(zhuǎn)換前,可以先使用html tidy工具進(jìn)行代碼驗(yàn)證,旨在對(duì)不正確的html代碼進(jìn)行修復(fù)。(2)確定要提取的用戶行為信息,如時(shí)間,作者,ip,標(biāo)題等。修改步驟(I)中的xml文件,在這個(gè)文件中找到要抽取的信息,將這些關(guān)鍵信息用標(biāo)簽代替,即使用標(biāo)簽標(biāo)識(shí)這些關(guān)鍵信息的位置。該xml文件作為抽取用配置文件;(3)使用DOM樹解析器對(duì)步驟(I)輸出的xml文檔進(jìn)行解析后,生成DOM樹,在該DOM樹中查找步驟(2)中的關(guān)鍵信息標(biāo)簽,再輸出該標(biāo)簽的父節(jié)點(diǎn),父節(jié)點(diǎn)的父節(jié)點(diǎn),直到文檔的根節(jié)點(diǎn)結(jié)束。將該節(jié)點(diǎn)列表保存到配置文件中,最后輸出該節(jié)點(diǎn)在兄弟節(jié)點(diǎn)中的位置,同時(shí)將位置信息保存到配置文件中。(4)當(dāng)獲取到新的網(wǎng)頁源碼或網(wǎng)站日志后,使用步驟⑴和⑵的方法將其轉(zhuǎn)換為DOM樹,再依次獲取配置文件中的位置信息,根據(jù)位置信息提取到關(guān)鍵用戶行為信息;(5)將采集的用戶行為信息發(fā)送給用戶行為統(tǒng)計(jì)模塊;二、用戶行為統(tǒng)計(jì)模塊需要實(shí)時(shí)的對(duì)用戶的行為特征進(jìn)行處理,用戶的行為可以按照不同的周期,輸出不同的行為統(tǒng)計(jì)值。如圖3所示,事件監(jiān)聽器負(fù)責(zé)接收輸入的用戶行為信息,根據(jù)要統(tǒng)計(jì)的數(shù)據(jù)類型,發(fā)送給負(fù)責(zé)該統(tǒng)計(jì)屬性的統(tǒng)計(jì)單元,統(tǒng)計(jì)過程在統(tǒng)計(jì)單元中完成,統(tǒng)計(jì)單元主要包括和配置文件,配置文件存儲(chǔ)該單元要處理的統(tǒng)計(jì)屬性和統(tǒng)計(jì)區(qū)間,統(tǒng)計(jì)屬性類型(統(tǒng)計(jì)的屬性字段,如登錄次數(shù),發(fā)表次數(shù),回復(fù)次數(shù)),統(tǒng)計(jì)區(qū)間(要統(tǒng)計(jì)的周期,如小時(shí),天,周,……)。每個(gè)統(tǒng)計(jì)單元只負(fù)責(zé)處理自己所關(guān)心的統(tǒng)計(jì)類型和所關(guān)注的統(tǒng)計(jì)區(qū)間。需要指出的是,如果存在合適的處理單元,則交由該處理單元處理,如果沒有,則會(huì)創(chuàng)建一個(gè)新的處理單元。所以一個(gè)統(tǒng)計(jì)處理容器中的統(tǒng)計(jì)處理單元可能有許多個(gè),可能會(huì)因?yàn)橛羞^多的處理單元而導(dǎo)致系統(tǒng)效率降低,因而應(yīng)該定期對(duì)使用率較低的處理單元進(jìn)行清除,但是由于數(shù)據(jù)存放在節(jié)點(diǎn)內(nèi)存中,所以清除前應(yīng)該對(duì)有必要的數(shù)據(jù)進(jìn)行持久化處理,否則會(huì)永久性丟失。實(shí)施時(shí)會(huì)考慮在處理單元上添加優(yōu)先級(jí)等屬性,可以提升清除處理單元的準(zhǔn)確率。處理單元初始化時(shí),統(tǒng)計(jì)屬性初始值置零,獲取到新的用戶行為后,獲取該行為發(fā)生的時(shí)間,確定該屬性的統(tǒng)計(jì)區(qū)間,并將該區(qū)間的響應(yīng)統(tǒng)計(jì)屬性值增I ;最后由處理單元輸出統(tǒng)計(jì)區(qū)間對(duì)應(yīng)的屬性值。三、網(wǎng)絡(luò)水軍分類器的訓(xùn)練由通過離線方式完成,先通過樣本標(biāo)注,再經(jīng)過特征選擇或分類算法構(gòu)建,可以最終用于在線的對(duì)網(wǎng)絡(luò)水軍進(jìn)行判定,具體包括以下幾個(gè)步驟(I)離線的獲取用戶上網(wǎng)行為樣本,該樣本可以通過用戶行為采集模塊獲取,樣本經(jīng)過持續(xù)一段時(shí)間采集后(如一個(gè)月),由專家對(duì)這些用戶進(jìn)行標(biāo)注,給出其是否為網(wǎng)絡(luò)水軍的判定,再使用抽取程序抽取樣本中的關(guān)鍵屬性(抽取方法參見用戶行為采集模塊),并統(tǒng)計(jì)出用戶行為屬性或特征(統(tǒng)計(jì)方法參見用戶行為統(tǒng)計(jì)模塊),最后輸出屬性或特征值到文件中。(2)在機(jī)器學(xué)習(xí)實(shí)際應(yīng)用中,特征數(shù)量往往較多,特征個(gè)數(shù)越多,分析特征、訓(xùn)練模型所需的時(shí)間就越長(zhǎng)。而且容易引起“維度災(zāi)難”,模型也會(huì)越復(fù)雜,應(yīng)用效果會(huì)越差,因而實(shí)施過程中可以選擇信息增益法對(duì)步驟I中的用戶行為屬性進(jìn)行特征選擇,信息增益定義如下分類標(biāo)記C的信息熵H (C)可表示為
權(quán)利要求
1.一種網(wǎng)絡(luò)水軍的探測(cè)與判定方法,其特征在于,包括用戶行為采集,用戶行為統(tǒng)計(jì)和網(wǎng)絡(luò)水軍分類器訓(xùn)練三個(gè)模塊,具體步驟如下 一、用戶行為采集主要是通過網(wǎng)站日志或網(wǎng)頁源碼解析并獲取用戶的行為數(shù)據(jù),具體獲取過程是如下(I)至(4)的4個(gè)步驟 (1)先確定要抽取的用戶行為信息,編寫配置文件,在配置文件中標(biāo)識(shí)這些關(guān)鍵信息的位置; (2)編寫針對(duì)配置文件的解析程序; (3)獲取到網(wǎng)頁源碼或網(wǎng)站日志后,基于配置文件中的位置信息進(jìn)行信息提??; (4)將采集的用戶行為信息發(fā)送給用戶行為統(tǒng)計(jì)模塊; 二、用戶行為統(tǒng)計(jì)需要對(duì)周期性的對(duì)用戶的行為進(jìn)行統(tǒng)計(jì),按照不同的周期,輸出不同的行為統(tǒng)計(jì)值,主要為如下(5)至(7)的3個(gè)步驟 (5)根據(jù)預(yù)先確定的統(tǒng)計(jì)時(shí)間間隔劃分為若干個(gè)區(qū)間,并將每個(gè)統(tǒng)計(jì)區(qū)間的統(tǒng)計(jì)屬性初始值置零; (6)獲取到用戶行為后,獲取該行為發(fā)生的時(shí)間,確定該屬性的統(tǒng)計(jì)區(qū)間,并將該區(qū)間的響應(yīng)統(tǒng)計(jì)屬性值增I ; (7)輸出每個(gè)統(tǒng)計(jì)區(qū)間相應(yīng)的屬性值; 三、網(wǎng)絡(luò)水軍分類器的訓(xùn)練由通過離線方式完成,先通過樣本標(biāo)注,再經(jīng)過特征選擇或分類算法構(gòu)建,可以最終用于在線的對(duì)網(wǎng)絡(luò)水軍進(jìn)行判定,包括如下(8)至(12)的5個(gè)步驟 (8)先通過用戶行為采集模塊獲得用戶上網(wǎng)行為樣本; (9)由專家對(duì)這些用戶進(jìn)行標(biāo)注,給出其是否為網(wǎng)絡(luò)水軍的判定; (10)使用抽取程序抽取出這些樣本的特征,使用信息增益的方法進(jìn)行特征選擇; (11)使用機(jī)器學(xué)習(xí)方法,如支持向量機(jī)(SVM),對(duì)步驟(8)中所述的用戶上網(wǎng)行為樣本進(jìn)行訓(xùn)練后,生成預(yù)測(cè)模型; (12)收集新用戶的上網(wǎng)行為,使用所述的預(yù)測(cè)模型對(duì)其預(yù)測(cè),判定其是否為網(wǎng)絡(luò)水軍。
全文摘要
本發(fā)明公開了一種網(wǎng)絡(luò)水軍的探測(cè)與判定方法,包括用戶行為采集,用戶行為統(tǒng)計(jì)和網(wǎng)絡(luò)水軍分類器訓(xùn)練三個(gè)模塊,其流程為用戶行為采集——用戶行為統(tǒng)計(jì)——網(wǎng)絡(luò)水軍預(yù)測(cè)——網(wǎng)絡(luò)水軍判定。本發(fā)明通過獲取用戶行為樣本后對(duì)用戶行為進(jìn)行統(tǒng)計(jì),再使用機(jī)器學(xué)習(xí)的方法建立預(yù)測(cè)模型,最后對(duì)網(wǎng)絡(luò)水軍進(jìn)行預(yù)測(cè)。本發(fā)明作為基于用戶行為進(jìn)行網(wǎng)絡(luò)水軍探測(cè)的方法,彌補(bǔ)了目前主流技術(shù)的不足,能繞過傾向性識(shí)別問題,從而解決了無明顯傾向的水軍探測(cè)和識(shí)別問題;同時(shí),該方法不要求發(fā)表同一作者發(fā)表大量同主題的帖子,解決了群體網(wǎng)絡(luò)水軍探測(cè)的問題。另外,本發(fā)明也使得網(wǎng)絡(luò)水軍探測(cè)具有清晰的組織結(jié)構(gòu),便于后續(xù)的網(wǎng)絡(luò)水軍行為特征的擴(kuò)充。
文檔編號(hào)H04L12/24GK102629904SQ20121005017
公開日2012年8月8日 申請(qǐng)日期2012年2月24日 優(yōu)先權(quán)日2012年2月24日
發(fā)明者周銀行, 帥志虎, 張煒, 鄭中華, 高威 申請(qǐng)人:安徽博約信息科技有限責(zé)任公司