專利名稱:一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息安全領(lǐng)域,更具體的說是一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法。
背景技術(shù):
輿情是指在一定的社會空間內(nèi),圍繞中介性社會事件的發(fā)生、發(fā)展和變化,民眾對社會管理者產(chǎn)生和持有的社會政治態(tài)度。它是較多群眾關(guān)于社會中各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒等等表現(xiàn)的總和。
網(wǎng)絡(luò)輿情是社會輿情在互聯(lián)網(wǎng)空間的映射,是社會輿情的直接反映。隨著網(wǎng)絡(luò)的迅速發(fā)展,網(wǎng)絡(luò)輿情已經(jīng)成為反映社會輿情的主要表現(xiàn)形式。網(wǎng)絡(luò)輿情借助網(wǎng)絡(luò)的眾多特點表現(xiàn)出了以下幾個特點 1)參與廣泛性。網(wǎng)絡(luò)的迅速普及使得網(wǎng)絡(luò)言論更為方便,身份的隱蔽使得言論更為廣泛和自由。參與人數(shù)眾多,參與人數(shù)復(fù)雜,導(dǎo)致網(wǎng)絡(luò)輿論引起的社會事件越來越具有群體性。
2)存在多樣化。網(wǎng)絡(luò)輿情主要載體有新聞評論、BBS、博客、社區(qū)網(wǎng)站、群體聊天室等。隨著WEB技術(shù)的不斷更新,傳播方式更加多樣化。
3)傳播迅速,具有很強的突發(fā)性。輿情借助網(wǎng)絡(luò)信息的快速發(fā)布,在較短時間內(nèi)形成輿情熱點,進(jìn)而反映社會現(xiàn)實或者事件,具有突發(fā)性特點。
中國互聯(lián)網(wǎng)信息中心2009年7月發(fā)布的最新報告中說明“中國網(wǎng)民規(guī)模達(dá)到3.38億人,普及率達(dá)到25.5%。網(wǎng)民規(guī)模較2008年底年增長4000萬人,半年增長率為13.4%,中國網(wǎng)民規(guī)模依然保持快速增長之勢”。同時也說明了網(wǎng)絡(luò)輿情會越來越多地影響社會,特別是熱點輿情可能是社會問題的反應(yīng)。從網(wǎng)絡(luò)安全與社會和諧建設(shè)角度出發(fā),網(wǎng)絡(luò)輿情的監(jiān)控,特別是熱點輿情預(yù)測和分析,是未來輿情領(lǐng)域研究的重點。
目前網(wǎng)絡(luò)熱點輿情的分析方法主要有以下幾類 一是通過對抓取的輿情信息聚類分析,從分析類別的內(nèi)容和數(shù)量上闡述輿情熱點。如中國專利公開號為CN101414300A的發(fā)明專利申請將輿情信息分類、中文信息處理,得到向量化的分類特征,在后來的分析中利用特征來匹配輿情內(nèi)容。
二是通過獲取輿情信息的參與人數(shù)、信息回帖的時間分布特點等輿情信息的數(shù)字表現(xiàn)形式上預(yù)測熱點、分析熱點。如中國專利公開號為CN101394311A的發(fā)明專利申請中根據(jù)輿情熱點形成的時間序列特點,建立時間序列預(yù)測模型,進(jìn)而對可能出現(xiàn)的熱點輿情進(jìn)行分析預(yù)測。
三是從熱點輿情的形成、發(fā)展流程上分析,利用數(shù)據(jù)挖掘中的序列模式分析來建立熱點預(yù)測模型,從而對輿情信息進(jìn)行預(yù)測。如中國專利公開號為CN101231641A的發(fā)明專利申請中根據(jù)互聯(lián)網(wǎng)上熱點主題傳播過程和流程特點,設(shè)計了一種熱點分析監(jiān)控方法和系統(tǒng)。
上述三類分析方法的主要特點是第一類和第二類,可以判斷熱點信息,但是具有明顯的滯后性,應(yīng)對熱點輿情信息的突發(fā)不足;第三類的分析流程合理,但是目前還沒有較為成熟合理的預(yù)測模型。此外,上述三類分析方法都是將內(nèi)容和數(shù)值表現(xiàn)分開分析,沒有很好的體現(xiàn)輿情整體表現(xiàn)。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有輿情熱點分析方法的不足,提供一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法,本發(fā)明將內(nèi)容和數(shù)值表現(xiàn)結(jié)合在一起,是一種綜合的輿情熱點監(jiān)控方法,預(yù)測時間短,且預(yù)測效果準(zhǔn)確。
本發(fā)明的目的通過下述技術(shù)方案實現(xiàn)一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法,包括以下步驟步驟(1)、將及時采集的輿情信息輸入基于內(nèi)容快速識別的熱點輿情預(yù)測模型,根據(jù)處理結(jié)果將輿情信息分為熱點輿情和普通輿情,對熱點輿情發(fā)出預(yù)警;步驟(2)、將普通輿情信息輸入基于數(shù)值表現(xiàn)的熱點預(yù)測模型,從參與人數(shù)分布和時間狀態(tài)分布上,對所輸入的普通輿情信息進(jìn)行數(shù)值模式匹配,檢測出步驟(1)所漏檢的熱點輿情信息;步驟(3)、對熱點輿情進(jìn)行分析;步驟(4)、對熱點輿情進(jìn)行預(yù)測。
步驟(1)中所述的基于內(nèi)容快速識別的熱點輿情檢測模型建立過程如下步驟(11)、收集輿情監(jiān)控目標(biāo)在一段時間內(nèi)的熱點輿情信息,并將所收集的熱點輿情信息分為M類,得到分類信息;步驟(12)、對步驟(11)所得的分類信息進(jìn)行預(yù)處理;步驟(13)、提取類關(guān)鍵詞特征;步驟(14)、基于內(nèi)容的分類計算,建立類別空間向量,從而構(gòu)建熱點輿情檢測模型。
步驟(12)所述的預(yù)處理為利用中文分詞系統(tǒng)對各類中的所有熱點輿情信息進(jìn)行分詞。
步驟(2)中所述的基于數(shù)值表現(xiàn)的熱點輿情檢測模型建立過程如下步驟(21)、收集輿情監(jiān)控目標(biāo)在一段時間內(nèi)的熱點輿情信息M={M1,M2,..,Mm},總熱點輿情信息數(shù)為m,獲取每個熱點輿情信息Mi,在Δt時間內(nèi)的瀏覽人數(shù)BNi,回帖人數(shù)RNi,回帖時間間隔序列Si,其中i=1,2,......,m;得到瀏覽人數(shù)BNi的數(shù)組{BNi1,BNi2,...,BNij,...},回帖人數(shù)Rni的數(shù)組{RNi1,RNi2,...,RNij,...},時間間隔序列Si的數(shù)組{Si1,Si2,...,Sij,...};步驟(22)、計算瀏覽人數(shù)的熱點閾值H(BN);步驟(23)、計算回復(fù)人數(shù)的熱點閾值H(RN);步驟(24)、計算時間間隔熱點閾值H(S)和D(S);步驟(25)、建立基于數(shù)值表現(xiàn)的熱點預(yù)測模型。
在上述網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法中,對熱點輿情進(jìn)行分析包括以下步驟 步驟(31)、所有熱點輿情的主題標(biāo)示為H,將每個熱點輿情的主題帖子分別標(biāo)示為Di,1≤i≤|H|,|H|為H中的熱點主題貼數(shù)量; 步驟(32)、對
1≤i≤|H|,采用中文分詞系統(tǒng)對其進(jìn)行分詞,保留詞組長度大于2的名詞和動詞,其余詞字刪除; 步驟(33)、對
1≤i≤|H|采用向量空間模型來表示 Di=(ti1,wi1;ti2,wi2;...;tij,wij;...) 其中tij為文本Di中的第j個關(guān)鍵詞,wij為關(guān)鍵詞tij在Di中的權(quán)重; 步驟(34)、采用K-means分類算法,輸入所有Di和分類數(shù)K;K-means從所有Di中任意選取K個特征向量作為初始聚類中心,中心集合為D′={D1′,D2′,...,Dk′);并計算每個聚類對象的均值,如果是初次計算則選用初始選取的D′作為均值,計算
1≤i≤|H|與
1≤j≤K的余弦相似度大小,即
1≤i≤|H|按照Sim(Di,Dj′)最小為同一類的原則,進(jìn)行重新分類; 步驟(35)、重新計算每類的均值,并計算
1≤i≤|H|與每類的均值的余弦相似度,然后進(jìn)行重新分類; 步驟(36)、如果重新分類有變化,重復(fù)步驟(35),直到每個聚類不再發(fā)生變化,最終形成熱點類集合M={M1,M2,...,Mk},Mi為一熱點輿情類,K-means算法完成。
步驟(37)、將聚類取得的分類結(jié)果進(jìn)行如下處理 對
選取Mi對應(yīng)的所有熱點主題帖子Dj(1≤j≤|H|),同時選取Mj中詞頻遞減排序的前N個作為該類的關(guān)鍵詞,然后將每一個熱點類的主題帖子內(nèi)容列表和關(guān)鍵詞顯示給用戶; 根據(jù)最新熱點分類情況,用戶判斷是否根據(jù)最新出現(xiàn)的熱點話題,對分類預(yù)警模型進(jìn)行修改。
所述權(quán)重wij通過TFIDF公式計算 TF(ti,Dj)表示ti在Dj中出現(xiàn)的頻率,|D|表示所有熱點主題帖子,即|D|=|H|,|DF(ti)|表示包含詞ti的文本數(shù)。
在上述網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法中,對熱點輿情進(jìn)行預(yù)測包括以下步驟 步驟(41)、采集輿情監(jiān)控目標(biāo)一段時間內(nèi)的輿情信息; 步驟(42)、對步驟(41)采集的輿情信息進(jìn)行中文信息預(yù)處理; 步驟(43)、根據(jù)步驟(13)和步驟(14),提取類關(guān)鍵詞特征并計算出每個類的類別值I|Ci; 步驟(44)、獲取標(biāo)記為非熱點輿情信息在Δt時間內(nèi)瀏覽人數(shù)RN,如果若RN≥H(RN),則該信息標(biāo)記為熱點輿情,做出預(yù)警;否則為普通輿情; 步驟(45)、獲取標(biāo)記為非熱點輿情信息在Δt時間內(nèi)的回復(fù)時間間隔序列Si,計算Si的Si和方差D(Si),如果Si≤H(S)&&H(D(Si)≤D(S),則為熱點輿情,否則為普通輿情。
步驟(42)中所述預(yù)處理為對輿情信息進(jìn)行分詞,只保留長度超過2的名詞、動詞,并對詞語去重,形成每條輿情信息對應(yīng)的關(guān)鍵詞序列。
本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點及效果 1、將內(nèi)容簡單快速識別、數(shù)據(jù)挖掘中的聚類算法、基于熱點參與者數(shù)量和熱點時間處理模型有效的整合在一起,從多個方面預(yù)測熱點、分析熱點。
2、本發(fā)明綜合了基于內(nèi)容快速識別的預(yù)測技術(shù)和基于數(shù)值表現(xiàn)的預(yù)測技術(shù),建立了一個完整的預(yù)測模型和流程,利用被檢測對象(例如論壇等)的歷史熱點信息,計算設(shè)置模型的相關(guān)參數(shù),使其可以從內(nèi)容和數(shù)值表現(xiàn)上發(fā)現(xiàn)熱點輿情,然后利用聚類算法對獲得的熱點進(jìn)行聚類分析,將分析結(jié)果呈現(xiàn)給用戶,由用戶根據(jù)結(jié)果選擇是否調(diào)整預(yù)測模型。
3、與傳統(tǒng)的基于內(nèi)容匹配的熱點預(yù)測算法相比,本發(fā)明縮短了預(yù)測時間;與基于數(shù)值計算的熱點預(yù)測算法相比,本發(fā)明的預(yù)測更加準(zhǔn)確有效,針對特定的監(jiān)控內(nèi)容也將更加準(zhǔn)確。
圖1是本發(fā)明分析熱點輿情的流程圖; 圖2是建立基于內(nèi)容快速識別的熱點輿情檢測模型的流程圖; 圖3是建立基于數(shù)值表現(xiàn)的熱點輿情檢測模型的流程圖; 圖4是基于數(shù)值表現(xiàn)的熱點預(yù)測模型的工作流程圖; 圖5是本發(fā)明熱點聚類分析的流程圖。
具體實施例方式 下面結(jié)合實施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實施方式不限于此。
實施例 如圖1所示,本發(fā)明一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法包括以下幾個步驟 步驟(1)、將及時采集的輿情信息輸入基于內(nèi)容快速識別的熱點輿情預(yù)測模型,根據(jù)處理結(jié)果將輿情信息分為熱點輿情和普通輿情,對熱點輿情發(fā)出預(yù)警,從而有利于實現(xiàn)熱點輿情的早發(fā)現(xiàn),早處理。
如圖2所示,在上述步驟(1)中所述的基于內(nèi)容快速識別的熱點輿情檢測模型建立過程如下 步驟(11)、收集輿情監(jiān)控目標(biāo)(例如論壇)在較長一段時間內(nèi)的熱點輿情信息,并將所收集的熱點輿情信息分為M類,得到分類信息。例如,收集某高校論壇最近二個月的熱點輿情信息,分成4類(即M=4),分別是情感類、工作兼職類、校園話題類、考研學(xué)習(xí)類;每類各有100條熱點輿情信息。
步驟(12)、對步驟(11)所得的分類信息進(jìn)行預(yù)處理。具體為利用中文分詞系統(tǒng)對各類中的所有熱點輿情信息進(jìn)行分詞,因為代詞、副詞、形容詞、助詞等不能代表實際的類別,所以分詞過程中必須將其刪除,單個的字也不能代表實際的類別,也需要刪除,留下長度超過2的名詞和動詞。
例如,預(yù)處理前的分類信息是想/v問問/v所有/b的/udel女孩子/n女/b,/wd是/vshi舊/a愛/v重要/a還/d是/vshi新/a歡/ad值得/v把握/v?/ww倘若/c與/p一/m男子/n兩/m情/n相/d悅/ag,/wd是否/v真的/d需要/v顧慮/n那么/rz多/m?/ww是否/v不夠/a勇氣/n跟/p該/rz男子/n一起/s去/vf開拓/v幸福/n的/udel疆土/n?/ww而/cc該/rz男子/n又/c亥/n怎樣/ryv?/ww讓/v她/rr走/v?/ww抑或/c堅信/v著/uzhe自己/rr能/v給/p她/rr幸福/a?/ww雖然/c現(xiàn)在/t還/d無法/v給/p她/rr任何/rz的/udel承諾/vn。/wj她/rr曾/d說/v過/vf我/rr還/d無法/v放下/v一切/rz來/vf愛/v你/rr。/wj。
預(yù)處理后的分類信息是問問/v女孩子/n值得/v把握/v男子/n是否/v需要/v顧慮/n勇氣/n男子/n開拓/v幸福/n疆土/n堅信/v承諾/v放下/v。
步驟(13)、提取類關(guān)鍵詞特征,亦即提取類別關(guān)鍵字。
用向量空間模型(VSM)表示每個類,每一類可以表示為 Ci=(Ti1,Wi1;Ti2,Wi2;...;Tin,Win;...) 其中Ci表示第i個熱點類,Tij表示Ci中的第j個關(guān)鍵詞,Wij表示Tij在Ci中的權(quán)重,j=1,2,......,n。Wij的值可以通過TFIDF公式計算 其中,Ti代表具有某一特征的關(guān)鍵詞;Cj表示該關(guān)鍵詞所在的類別文本;TF(Ti,Cj)表示Ti在Cj類中各個信息文檔中出現(xiàn)的頻率;|C|代表所有類別中的所有訓(xùn)練信息文檔的數(shù)目,即DF(Ti)表示包含關(guān)鍵詞Ti的類數(shù)。
對每個類按照權(quán)重遞減排序,選取前n個作為該類的代表,余下的作為備選。此時每個類可以表示為 Ci=(Ti1,Wi1;Ti2,Wi2;...;Tin,Win) 步驟(14)、基于內(nèi)容的分類計算,建立類別空間向量,從而構(gòu)建熱點輿情檢測模型。
對于待測輿情信息I,采用中文信息預(yù)處理,獲得長度大于2的名詞、動詞和名動詞序列1=(I1,I2,...,Im)。計算待測輿情信息I屬于每個類的類別值I|Ci 設(shè)H(I)為某一預(yù)設(shè)閾值,若I|Ci≥H(I),且I|Ci最大,則待測輿情信息I為Ci類熱點輿情信息。若
l|Ci<H(I),則待測輿情信息I為普通輿情信息。
經(jīng)過中文信息處理、類關(guān)鍵詞特征提取等,取得類別特征,4類熱點輿情信息的特征向量分別為 情感熱點特征向量為C1=(失戀,0.8714;拋棄,0.8536;分手,0.8361;處女,0.8119;背叛,0.7732;暗戀,0.7471,結(jié)婚,0.7103)。
工作兼職類特征向量為C2=(招聘會,1.1370;宣講會,0.9421;實習(xí),0.8641;家教,0.8117;創(chuàng)業(yè),0.8036;招聘,0.7734;offer,0.7179)。
校園話題特征向量C3=(跳樓,1.274;自殺,0.9334;選課,0.9327;情侶,0.8743;圖書館,0.8427;食堂,0.7115)。
考研學(xué)習(xí)特征向量C4=(真題,0.9841;公費,0.9231;自費,0.8778;導(dǎo)師,0.8692;復(fù)試,0.7326;內(nèi)幕,0.7116)。
步驟(2)、將普通輿情信息輸入基于數(shù)值表現(xiàn)的熱點預(yù)測模型,從參與人數(shù)分布和時間狀態(tài)分布上,對所輸入的普通輿情信息進(jìn)行數(shù)值模式匹配,檢測出步驟(1)所漏檢的熱點輿情信息;從而實現(xiàn)較為全面的熱點輿情發(fā)現(xiàn),彌補步驟(1)中對熱點輿情發(fā)現(xiàn)的不足。
如圖3、4所示,以論壇為例,在步驟(2)中所述的基于數(shù)值表現(xiàn)的熱點輿情檢測模型建立過程如下 步驟(21)、收集輿情監(jiān)控目標(biāo)(例如某論壇)在最近一段時間的熱點輿情信息M={M1,M2,..,Mm},總熱點輿情信息數(shù)為m(即有m個熱點帖子),獲取每個熱點帖子Mi(i=1,2,......,m)在Δt時間內(nèi)的瀏覽人數(shù)BNi,回帖人數(shù)RNi,回帖時間間隔序列Si;得到瀏覽人數(shù)BNi的數(shù)組{BNi1,BNi2,...,BNij,...},回帖人數(shù)Rni的數(shù)組{RNi1,RNi2,...,RNij,...},時間間隔序列Si的數(shù)組{Si1,Si2,...,Sij,...}。
步驟(22)、計算瀏覽人數(shù)的熱點閾值H(BN)。
對于
1≤i≤m,計算 根據(jù)所有實際BNi,計算得到H(BN)=32.7144. 步驟(23)、計算回復(fù)人數(shù)的熱點閾值H(RN)。
對于
1≤i≤m 根據(jù)所有實際RNi,計算得到H(RN)=19.5348. 步驟(24)、計算時間間隔熱點閾值H(S)和D(S)。
對于
1≤i≤m,因為Si1與其他數(shù)據(jù)相差較大,故去掉Si1,得到Si′={Si2,...,Sin}, 根據(jù)所有實際Si,H(S)=10.0206,D(S)=6.5139。
步驟(25)、建立基于數(shù)值表現(xiàn)的熱點預(yù)測模型。對于待檢測輿情信息I′有 <1>.計算Δt時間內(nèi),待檢測輿情信息I′的瀏覽人數(shù)BN,若BN≥H(BN),則待檢測輿情信息I′為熱點輿情信息,對其進(jìn)行預(yù)警;否則進(jìn)行下一步運算。
<2>.計算Δt時間內(nèi),待檢測輿情信息I′的回復(fù)人數(shù)RN,若RN≥H(RN),則待檢測輿情信息I′為熱點輿情信息,對其進(jìn)行預(yù)警;否則進(jìn)行下一步運算。
<3>.計算Δt時間內(nèi),待檢測輿情信息I′的回復(fù)時間間隔序列S′={S1′,S2′,...,Sk′}。若k<5,則回帖沒有超過5個,待檢測輿情信息I′為普通輿情;若K≥5,則計算{S2′,...,Sk′}的H(S′)和D(S′),若H(S′)≥H(S)&&D(S′)≥D(S)則待檢測輿情信息I′為熱點輿情信息,否則待檢測輿情信息I′為普通輿情,終止預(yù)測。
步驟(3)、對熱點輿情進(jìn)行分析。如圖5所示,本步驟主要處理過程如下 主要是對標(biāo)記為熱點的輿情信息,采用基于劃分的K-means聚類算法,對熱點信息進(jìn)行聚類分析,其一可以明確熱點內(nèi)容分布,其二可以對步驟(1)中的分類模型調(diào)整,以不斷適應(yīng)最新熱點的預(yù)測。過程如下 步驟(31)、所有熱點輿情的主題標(biāo)示為H,將每個熱點輿情的主題帖子分別標(biāo)示為Di,1≤i≤|H|,|H|為H中的熱點主題貼數(shù)量。
步驟(32)、對
1≤i≤|H|,采用中文分詞系統(tǒng)對其進(jìn)行分詞,保留詞組長度大于2的名詞和動詞,其余詞字刪除。
步驟(33)、對
1≤i≤|H|采用向量空間模型來表示 Di=(ti1,wi1;ti2,wi2;...;tij,wij;...) 其中tij為文本Di中的第j個關(guān)鍵詞,wij為關(guān)鍵詞tij在Di中的權(quán)重。wij的計算可以通過TFIDF公式計算 TF(ti,Dj)表示ti在Dj中出現(xiàn)的頻率,|D|表示所有熱點主題帖子,即|D|=|H|,|DF(ti)|表示包含詞ti的文本數(shù)。
按照詞頻遞減排序,選擇前n個作為每個熱點主題帖子的特征向量,即 Di=(ti1,wi1;ti2,wi2;...;tin,win) 步驟(34)、采用K-means分類算法,輸入所有Di和分類數(shù)K。K-means從所有Di中任意選取K個特征向量作為初始聚類中心,中心集合為D′={D1′,D2′,...,Dk′)。
計算每個聚類對象的均值,如果是初次計算則選用初始選取的D′作為均值,計算
1≤i≤|H|與
1≤j≤K的余弦相似度大小,即
1≤i≤|H|按照Sim(Di,Dj′)最小為同一類的原則,進(jìn)行重新分類。
步驟(35)、重新計算每類的均值(中心對象),并計算
1≤i≤|H|與每類的均值的余弦相似度,然后進(jìn)行重新分類。
步驟(36)、如果重新分類有變化,重復(fù)步驟(35),直到每個聚類不再發(fā)生變化,最終形成熱點類集合M={M1,M2,...,Mk},Mi為一熱點輿情類,K-means算法完成。
步驟(37)、將聚類取得的分類結(jié)果進(jìn)行如下處理 一是對
選取Mi對應(yīng)的所有熱點主題帖子Dj(1≤j≤|H|),同時選取Mj中詞頻遞減排序的前N個作為該類的關(guān)鍵詞,然后將每一個熱點類的主題帖子內(nèi)容列表和關(guān)鍵詞顯示給用戶,例如 ----------------第1分類--共17個------------------------------ -------關(guān)鍵字---------------- 難題 放棄 結(jié)婚 壓力 分手 --------內(nèi)容------------------ 情侶離開了旅館,服務(wù)員一見毛巾暈了 畢業(yè)前的晚上他告訴我他喜歡我,我們會有未來嗎? 進(jìn)來談?wù)劥蠹业淖畹蛽衽紭?biāo)準(zhǔn),究竟愛情有什么樣的底線...... 更多... ------------------第2分類--共5個------------------------------ -------關(guān)鍵字---------------- 宣講會 招聘 實習(xí) 福利 集團(tuán) --------內(nèi)容------------------ 聯(lián)想集團(tuán)2009-2010校園招聘啟動啦 松下集團(tuán)2010校園招聘啟動(職位陸續(xù)更新中) 快樂求職網(wǎng)實習(xí)信息匯總(每日更新) 中核江蘇核電2010校園招聘火熱啟動 金山多益2010校園招聘開始啦!附宣講會安排New ------------------第3分類--共4個------------------------------ -------關(guān)鍵字---------------- 真題 內(nèi)幕 公費 自費 錄取 --------內(nèi)容------------------- 求有關(guān)宿舍安排內(nèi)幕。。。。。
現(xiàn)當(dāng)代文學(xué)0809真題回憶版 擬錄取名單全部公布 管理學(xué)院還有公費嗎?都改革了? ------------------第4分類--共17個------------------------------ -------關(guān)鍵字---------------- 圖書館 選課 考試 防盜 管理 --------內(nèi)容--共17個---------------- 給學(xué)校的考試制度提建議 內(nèi)部消息暑期圖書館開放時間 你們遇到這種騙子了嗎? 手機(jī)充值優(yōu)惠事件真假 更多... 二是根據(jù)最新熱點分類情況,用戶可以判斷是否根據(jù)最新出現(xiàn)的熱點話題,對分類預(yù)警模型進(jìn)行修改。
根據(jù)第3類特點在考研學(xué)習(xí)特征值中應(yīng)添加“錄取”作為熱點關(guān)鍵詞。將相關(guān)熱點信息作為訓(xùn)練信息添加到基于內(nèi)容快速預(yù)測的熱點模型當(dāng)中去。
步驟(4)、除了對熱點輿情信息進(jìn)行分析之外,本發(fā)明還能夠?qū)狳c輿情進(jìn)行預(yù)測,預(yù)測過程包括如下幾個步驟 步驟(41)、采集輿情源(也稱為輿情監(jiān)控目標(biāo))一段時間內(nèi)的輿情信息。例如采集某高校論壇一天中出現(xiàn)的輿情信息。
步驟(42)、對步驟(41)采集的輿情信息進(jìn)行中文信息預(yù)處理。采用中科院的ICTCLAS2009漢語詞法分析系統(tǒng)對輿情信息進(jìn)行分詞,只保留長度超過2的名詞、動詞,并對詞語去重,形成每條輿情信息對應(yīng)的關(guān)鍵詞序列。
例如一條輿情信息I提醒喜歡晚上到小山上去的情侶(大學(xué)城校區(qū))。近 日有同學(xué)報案,在圖書館旁的小山上把包丟了,這類案件基本一個月都有幾次,提醒情侶們,約會要找個好的地方,小山并不是理想場所,排開小偷不說,草從中經(jīng)常有蛇類出沒,希望大家注意安全。謝謝。
中文處理后得到序列{喜歡 情侶 大學(xué) 同學(xué) 報案 圖書館 案件 地方場所 小偷 希望 注意}。
步驟(43)、根據(jù)步驟(13)和步驟(14),提取類關(guān)鍵詞特征并計算出每個類的類別值I|Ci。在本實施例中,根據(jù)熱點關(guān)鍵詞和論壇熱點規(guī)律設(shè)定閾值H(I)=0.75,若 I|C1=0<H(I), I|C2=0<H(I), I|C3=1.717>H(I), I|C4=0<H(I), 則第1分類、第2分類和第4分類為普通輿情,第3分類為熱點輿情。
對于經(jīng)過基于內(nèi)容快速識別的模型檢測后標(biāo)記為熱點輿情的輿情信息及時預(yù)警,這樣就可以對剛剛發(fā)布的又沒有在數(shù)值表現(xiàn)上可以判斷是否是熱點輿情的輿情信息進(jìn)行預(yù)測,可以及早發(fā)現(xiàn)熱點輿情,并做出預(yù)警。但是由于類別關(guān)鍵詞有限,所以單純靠基于內(nèi)容快速識別的檢測模型來標(biāo)記熱點輿情的話,將會漏檢很多熱點輿情;因此,有必要對判斷為非熱點的輿情信息輸入基于數(shù)值表現(xiàn)的熱點預(yù)測模型進(jìn)行處理,做進(jìn)一步檢測。
步驟(44)、獲取標(biāo)記為非熱點輿情信息在Δt時間內(nèi)瀏覽人數(shù)RN,如果若RN≥H(RN),則該信息標(biāo)記為熱點輿情,做出預(yù)警;否則下一步運算。這里Δt取一天做時間段,例如輿情I1=“情侶離開了旅館,服務(wù)員一見毛巾暈了”的BN=65>H(BN)=32.7144,標(biāo)記I1為熱點輿情。而輿情I1′=“請問什么時候可以看翡翠臺??”的BN=27<H(BN),所以標(biāo)記I1′為普通輿情,進(jìn)入下一步處理。又如輿情I2=“有沒有經(jīng)歷過從珠海搬回廣州的師兄師姐?”雖然BN=29<H(BN),但是RN=22>H(RN)=19.5348,I2為熱點輿情。
步驟(45)、獲取標(biāo)記為非熱點輿情信息在Δt時間內(nèi)的回復(fù)時間間隔序列Si,計算Si的Si和方差D(Si),如果Si≤H(S)&&H(D(Si)≤D(S),則為熱點輿情,否則為普通輿情。這里Δt取一天做時間段,輿情I3=“進(jìn)來談?wù)劥蠹业淖畹蛽衽紭?biāo)準(zhǔn)究竟愛情有什么樣的底線......”,雖然I3發(fā)布較晚,沒有在內(nèi)容識別和瀏覽人數(shù)和回復(fù)人數(shù)上形成熱點標(biāo)示,計算I3的發(fā)布時間間隔序列S3={18,14,10,9,9,8,7,7}的S3和D(S3)。
S3=9.1429≤H(S)=10.0206&&D(S3)=5.5025≤D(S)=6.5139,所以I3為熱點輿情。
最后可得預(yù)測結(jié)果為 在上述預(yù)測結(jié)果中,采集的信息共有主題357個,其中新發(fā)表主題116個。錯誤預(yù)報主要是由于某些主題貼中有熱點類的關(guān)鍵詞;而漏報主要由于熱點類中缺少某些關(guān)鍵詞。如有發(fā)表時間較晚,關(guān)鍵詞中沒有相關(guān)比對,如墜樓代替了自殺和跳樓,在沒有明顯數(shù)量表現(xiàn)前,判為普通信息,導(dǎo)致熱點輿情信息的漏報。
上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受上述實施例的限制,其他的任何未背離本發(fā)明的精神實質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法,其特征在于包括以下步驟
步驟(1)、將及時采集的輿情信息輸入基于內(nèi)容快速識別的熱點輿情預(yù)測模型,根據(jù)處理結(jié)果將輿情信息分為熱點輿情和普通輿情,對熱點輿情發(fā)出預(yù)警;
步驟(2)、將普通輿情信息輸入基于數(shù)值表現(xiàn)的熱點預(yù)測模型,從參與人數(shù)分布和時間狀態(tài)分布上,對所輸入的普通輿情信息進(jìn)行數(shù)值模式匹配,檢測出步驟(1)所漏檢的熱點輿情信息;
步驟(3)、對熱點輿情進(jìn)行分析;
步驟(4)、對熱點輿情進(jìn)行預(yù)測。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法,其特征在于步驟(1)中所述的基于內(nèi)容快速識別的熱點輿情檢測模型建立過程如下
步驟(11)、收集輿情監(jiān)控目標(biāo)在一段時間內(nèi)的熱點輿情信息,并將所收集的熱點輿情信息分為M類,得到分類信息;
步驟(12)、對步驟(11)所得的分類信息進(jìn)行預(yù)處理;
步驟(13)、提取類關(guān)鍵詞特征;
步驟(14)、基于內(nèi)容的分類計算,建立類別空間向量,從而構(gòu)建熱點輿情檢測模型。
3.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法,其特征在于步驟(12)所述的預(yù)處理為利用中文分詞系統(tǒng)對各類中的所有熱點輿情信息進(jìn)行分詞。
4.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法,其特征在于步驟(2)中所述的基于數(shù)值表現(xiàn)的熱點輿情檢測模型建立過程如下
步驟(21)、收集輿情監(jiān)控目標(biāo)在一段時間內(nèi)的熱點輿情信息M={M1,M2,..,Mm},總熱點輿情信息數(shù)為m,獲取每個熱點輿情信息Mi,在Δt時間內(nèi)的瀏覽人數(shù)BNi,回帖人數(shù)RNi,回帖時間間隔序列Si,其中i=1,2,......,m;得到瀏覽人數(shù)BNi的數(shù)組{BNi1,BNi2,...,BNij,...},回帖人數(shù)Rni的數(shù)組{RNi1,RNi2,..., RNij,...},時間間隔序列 Si的數(shù)組{Si1,Si2,...,Sij,...};
步驟(22)、計算瀏覽人數(shù)的熱點閾值H(BN);
步驟(23)、計算回復(fù)人數(shù)的熱點閾值H(RN);
步驟(24)、計算時間間隔熱點閾值H(S)和D(S);
步驟(25)、建立基于數(shù)值表現(xiàn)的熱點預(yù)測模型。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法,其特征在于對熱點輿情進(jìn)行分析包括以下步驟
步驟(31)、所有熱點輿情的主題標(biāo)示為H,將每個熱點輿情的主題帖子分別標(biāo)示為Di,1≤i≤|H|,|H|為H中的熱點主題貼數(shù)量;
步驟(32)、對
1≤i≤|H|,采用中文分詞系統(tǒng)對其進(jìn)行分詞,保留詞組長度大于2的名詞和動詞,其余詞字刪除;
步驟(33)、對
1≤i≤|H|采用向量空間模型來表示
Di=(ti1,wi1;ti2,wi2;...;tij,wij;...)
其中tij為文本Di中的第j個關(guān)鍵詞,wij為關(guān)鍵詞tij在Di中的權(quán)重;
步驟(34)、采用K-means分類算法,輸入所有Di和分類數(shù)K;K-means從所有Di中任意選取K個特征向量作為初始聚類中心,中心集合為D′={D1′,D2′,...,Dk′);并計算每個聚類對象的均值,如果是初次計算則選用初始選取的D′作為均值,計算
與
的余弦相似度大小,即
按照Sim(Di,Dj′)最小為同一類的原則,進(jìn)行重新分類;
步驟(35)、重新計算每類的均值,并計算
與每類的均值的余弦相似度,然后進(jìn)行重新分類;
步驟(36)、如果重新分類有變化,重復(fù)步驟(35),直到每個聚類不再發(fā)生變化,最終形成熱點類集合M={M1,M2,...,Mk},Mi為一熱點輿情類,K-means算法完成。
步驟(37)、將聚類取得的分類結(jié)果進(jìn)行如下處理
對
選取Mi對應(yīng)的所有熱點主題帖子Dj(1≤j≤|H|),同時選取Mj中詞頻遞減排序的前N個作為該類的關(guān)鍵詞,然后將每一個熱點類的主題帖子內(nèi)容列表和關(guān)鍵詞顯示給用戶;
根據(jù)最新熱點分類情況,用戶判斷是否根據(jù)最新出現(xiàn)的熱點話題,對分類預(yù)警模型進(jìn)行修改。
6.根據(jù)權(quán)利要求5所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法,其特征在于所述權(quán)重wij通過TFIDF公式計算
TF(ti,Dj)表示ti在Dj中出現(xiàn)的頻率,|D|表示所有熱點主題帖子,即|D|=|H|,|DF(ti)|表示包含詞ti的文本數(shù)。
7.根據(jù)權(quán)利要求4所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法,其特征在于對熱點輿情進(jìn)行預(yù)測包括以下步驟
步驟(41)、采集輿情監(jiān)控目標(biāo)一段時間內(nèi)的輿情信息;
步驟(42)、對步驟(41)采集的輿情信息進(jìn)行中文信息預(yù)處理;
步驟(43)、根據(jù)步驟(13)和步驟(14),提取類關(guān)鍵詞特征并計算出每個類的類別值I|Ci;
步驟(44)、獲取標(biāo)記為非熱點輿情信息在Δt時間內(nèi)瀏覽人數(shù)RN,如果若RN≥H(RN),則該信息標(biāo)記為熱點輿情,做出預(yù)警;否則為普通輿情;
步驟(45)、獲取標(biāo)記為非熱點輿情信息在Δt時間內(nèi)的回復(fù)時間間隔序列Si,計算Si的Si和方差D(Si),如果Si≤H(S)&&H(D(Si)≤D(S),則為熱點輿情,否則為普通輿情。
8.根據(jù)權(quán)利要求7所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法,其特征在于步驟(42)中所述預(yù)處理為對輿情信息進(jìn)行分詞,只保留長度超過2的名詞、動詞,并對詞語去重,形成每條輿情信息對應(yīng)的關(guān)鍵詞序列。
全文摘要
本發(fā)明涉及一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法,包括以下步驟步驟(1)將及時采集的輿情信息輸入基于內(nèi)容快速識別的熱點輿情預(yù)測模型,根據(jù)處理結(jié)果將輿情信息分為熱點輿情和普通輿情,對熱點輿情發(fā)出預(yù)警;步驟(2)將普通輿情信息輸入基于數(shù)值表現(xiàn)的熱點預(yù)測模型,從參與人數(shù)分布和時間狀態(tài)分布上,對所輸入的普通輿情信息進(jìn)行數(shù)值模式匹配,檢測出步驟(1)所漏檢的熱點輿情信息;步驟(3)對熱點輿情進(jìn)行分析;步驟(4)對熱點輿情進(jìn)行預(yù)測。本發(fā)明將內(nèi)容和數(shù)值表現(xiàn)結(jié)合在一起,是一種綜合的輿情熱點監(jiān)控方法,預(yù)測時間短,且預(yù)測效果準(zhǔn)確。
文檔編號G06F17/30GK101763401SQ20091021440
公開日2010年6月30日 申請日期2009年12月30日 優(yōu)先權(quán)日2009年12月30日
發(fā)明者姚國祥, 羅偉其, 官全龍, 宋嘎子, 陳鳳其 申請人:暨南大學(xué)