一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法

文檔序號：6583321閱讀：335來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法
技術(shù)領(lǐng)域：
本發(fā)明涉及網(wǎng)絡(luò)信息安全領(lǐng)域，更具體的說是一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法。

背景技術(shù)：
輿情是指在一定的社會空間內(nèi)，圍繞中介性社會事件的發(fā)生、發(fā)展和變化，民眾對社會管理者產(chǎn)生和持有的社會政治態(tài)度。它是較多群眾關(guān)于社會中各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒等等表現(xiàn)的總和。
網(wǎng)絡(luò)輿情是社會輿情在互聯(lián)網(wǎng)空間的映射，是社會輿情的直接反映。隨著網(wǎng)絡(luò)的迅速發(fā)展，網(wǎng)絡(luò)輿情已經(jīng)成為反映社會輿情的主要表現(xiàn)形式。網(wǎng)絡(luò)輿情借助網(wǎng)絡(luò)的眾多特點表現(xiàn)出了以下幾個特點 1)參與廣泛性。網(wǎng)絡(luò)的迅速普及使得網(wǎng)絡(luò)言論更為方便，身份的隱蔽使得言論更為廣泛和自由。參與人數(shù)眾多，參與人數(shù)復(fù)雜，導(dǎo)致網(wǎng)絡(luò)輿論引起的社會事件越來越具有群體性。
2)存在多樣化。網(wǎng)絡(luò)輿情主要載體有新聞評論、BBS、博客、社區(qū)網(wǎng)站、群體聊天室等。隨著WEB技術(shù)的不斷更新，傳播方式更加多樣化。
3)傳播迅速，具有很強的突發(fā)性。輿情借助網(wǎng)絡(luò)信息的快速發(fā)布，在較短時間內(nèi)形成輿情熱點，進(jìn)而反映社會現(xiàn)實或者事件，具有突發(fā)性特點。
中國互聯(lián)網(wǎng)信息中心2009年7月發(fā)布的最新報告中說明“中國網(wǎng)民規(guī)模達(dá)到3.38億人，普及率達(dá)到25.5％。網(wǎng)民規(guī)模較2008年底年增長4000萬人，半年增長率為13.4％，中國網(wǎng)民規(guī)模依然保持快速增長之勢”。同時也說明了網(wǎng)絡(luò)輿情會越來越多地影響社會，特別是熱點輿情可能是社會問題的反應(yīng)。從網(wǎng)絡(luò)安全與社會和諧建設(shè)角度出發(fā)，網(wǎng)絡(luò)輿情的監(jiān)控，特別是熱點輿情預(yù)測和分析，是未來輿情領(lǐng)域研究的重點。
目前網(wǎng)絡(luò)熱點輿情的分析方法主要有以下幾類一是通過對抓取的輿情信息聚類分析，從分析類別的內(nèi)容和數(shù)量上闡述輿情熱點。如中國專利公開號為CN101414300A的發(fā)明專利申請將輿情信息分類、中文信息處理，得到向量化的分類特征，在后來的分析中利用特征來匹配輿情內(nèi)容。
二是通過獲取輿情信息的參與人數(shù)、信息回帖的時間分布特點等輿情信息的數(shù)字表現(xiàn)形式上預(yù)測熱點、分析熱點。如中國專利公開號為CN101394311A的發(fā)明專利申請中根據(jù)輿情熱點形成的時間序列特點，建立時間序列預(yù)測模型，進(jìn)而對可能出現(xiàn)的熱點輿情進(jìn)行分析預(yù)測。
三是從熱點輿情的形成、發(fā)展流程上分析，利用數(shù)據(jù)挖掘中的序列模式分析來建立熱點預(yù)測模型，從而對輿情信息進(jìn)行預(yù)測。如中國專利公開號為CN101231641A的發(fā)明專利申請中根據(jù)互聯(lián)網(wǎng)上熱點主題傳播過程和流程特點，設(shè)計了一種熱點分析監(jiān)控方法和系統(tǒng)。
上述三類分析方法的主要特點是第一類和第二類，可以判斷熱點信息，但是具有明顯的滯后性，應(yīng)對熱點輿情信息的突發(fā)不足；第三類的分析流程合理，但是目前還沒有較為成熟合理的預(yù)測模型。此外，上述三類分析方法都是將內(nèi)容和數(shù)值表現(xiàn)分開分析，沒有很好的體現(xiàn)輿情整體表現(xiàn)。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有輿情熱點分析方法的不足，提供一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法，本發(fā)明將內(nèi)容和數(shù)值表現(xiàn)結(jié)合在一起，是一種綜合的輿情熱點監(jiān)控方法，預(yù)測時間短，且預(yù)測效果準(zhǔn)確。
本發(fā)明的目的通過下述技術(shù)方案實現(xiàn)一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法，包括以下步驟步驟(1)、將及時采集的輿情信息輸入基于內(nèi)容快速識別的熱點輿情預(yù)測模型，根據(jù)處理結(jié)果將輿情信息分為熱點輿情和普通輿情，對熱點輿情發(fā)出預(yù)警；步驟(2)、將普通輿情信息輸入基于數(shù)值表現(xiàn)的熱點預(yù)測模型，從參與人數(shù)分布和時間狀態(tài)分布上，對所輸入的普通輿情信息進(jìn)行數(shù)值模式匹配，檢測出步驟(1)所漏檢的熱點輿情信息；步驟(3)、對熱點輿情進(jìn)行分析；步驟(4)、對熱點輿情進(jìn)行預(yù)測。
步驟(1)中所述的基于內(nèi)容快速識別的熱點輿情檢測模型建立過程如下步驟(11)、收集輿情監(jiān)控目標(biāo)在一段時間內(nèi)的熱點輿情信息，并將所收集的熱點輿情信息分為M類，得到分類信息；步驟(12)、對步驟(11)所得的分類信息進(jìn)行預(yù)處理；步驟(13)、提取類關(guān)鍵詞特征；步驟(14)、基于內(nèi)容的分類計算，建立類別空間向量，從而構(gòu)建熱點輿情檢測模型。
步驟(12)所述的預(yù)處理為利用中文分詞系統(tǒng)對各類中的所有熱點輿情信息進(jìn)行分詞。
步驟(2)中所述的基于數(shù)值表現(xiàn)的熱點輿情檢測模型建立過程如下步驟(21)、收集輿情監(jiān)控目標(biāo)在一段時間內(nèi)的熱點輿情信息M＝{M1，M2，..，Mm}，總熱點輿情信息數(shù)為m，獲取每個熱點輿情信息Mi，在Δt時間內(nèi)的瀏覽人數(shù)BNi，回帖人數(shù)RNi，回帖時間間隔序列Si，其中i＝1，2，......，m；得到瀏覽人數(shù)BNi的數(shù)組{BNi1，BNi2，...，BNij，...}，回帖人數(shù)Rni的數(shù)組{RNi1，RNi2，...，RNij，...}，時間間隔序列Si的數(shù)組{Si1，Si2，...，Sij，...}；步驟(22)、計算瀏覽人數(shù)的熱點閾值H(BN)；步驟(23)、計算回復(fù)人數(shù)的熱點閾值H(RN)；步驟(24)、計算時間間隔熱點閾值H(S)和D(S)；步驟(25)、建立基于數(shù)值表現(xiàn)的熱點預(yù)測模型。
在上述網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法中，對熱點輿情進(jìn)行分析包括以下步驟步驟(31)、所有熱點輿情的主題標(biāo)示為H，將每個熱點輿情的主題帖子分別標(biāo)示為Di，1≤i≤|H|，|H|為H中的熱點主題貼數(shù)量；步驟(32)、對

1≤i≤|H|，采用中文分詞系統(tǒng)對其進(jìn)行分詞，保留詞組長度大于2的名詞和動詞，其余詞字刪除；步驟(33)、對

1≤i≤|H|采用向量空間模型來表示 Di＝(ti1，wi1；ti2，wi2；...；tij，wij；...) 其中tij為文本Di中的第j個關(guān)鍵詞，wij為關(guān)鍵詞tij在Di中的權(quán)重；步驟(34)、采用K-means分類算法，輸入所有Di和分類數(shù)K；K-means從所有Di中任意選取K個特征向量作為初始聚類中心，中心集合為D′＝{D1′，D2′，...，Dk′)；并計算每個聚類對象的均值，如果是初次計算則選用初始選取的D′作為均值，計算

1≤i≤|H|與

1≤j≤K的余弦相似度大小，即

1≤i≤|H|按照Sim(Di，Dj′)最小為同一類的原則，進(jìn)行重新分類；步驟(35)、重新計算每類的均值，并計算

1≤i≤|H|與每類的均值的余弦相似度，然后進(jìn)行重新分類；步驟(36)、如果重新分類有變化，重復(fù)步驟(35)，直到每個聚類不再發(fā)生變化，最終形成熱點類集合M＝{M1，M2，...，Mk}，Mi為一熱點輿情類，K-means算法完成。
步驟(37)、將聚類取得的分類結(jié)果進(jìn)行如下處理對

選取Mi對應(yīng)的所有熱點主題帖子Dj(1≤j≤|H|)，同時選取Mj中詞頻遞減排序的前N個作為該類的關(guān)鍵詞，然后將每一個熱點類的主題帖子內(nèi)容列表和關(guān)鍵詞顯示給用戶；根據(jù)最新熱點分類情況，用戶判斷是否根據(jù)最新出現(xiàn)的熱點話題，對分類預(yù)警模型進(jìn)行修改。
所述權(quán)重wij通過TFIDF公式計算 TF(ti，Dj)表示ti在Dj中出現(xiàn)的頻率，|D|表示所有熱點主題帖子，即|D|＝|H|，|DF(ti)|表示包含詞ti的文本數(shù)。
在上述網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法中，對熱點輿情進(jìn)行預(yù)測包括以下步驟步驟(41)、采集輿情監(jiān)控目標(biāo)一段時間內(nèi)的輿情信息；步驟(42)、對步驟(41)采集的輿情信息進(jìn)行中文信息預(yù)處理；步驟(43)、根據(jù)步驟(13)和步驟(14)，提取類關(guān)鍵詞特征并計算出每個類的類別值I|Ci；步驟(44)、獲取標(biāo)記為非熱點輿情信息在Δt時間內(nèi)瀏覽人數(shù)RN，如果若RN≥H(RN)，則該信息標(biāo)記為熱點輿情，做出預(yù)警；否則為普通輿情；步驟(45)、獲取標(biāo)記為非熱點輿情信息在Δt時間內(nèi)的回復(fù)時間間隔序列Si，計算Si的Si和方差D(Si)，如果Si≤H(S)&&H(D(Si)≤D(S)，則為熱點輿情，否則為普通輿情。
步驟(42)中所述預(yù)處理為對輿情信息進(jìn)行分詞，只保留長度超過2的名詞、動詞，并對詞語去重，形成每條輿情信息對應(yīng)的關(guān)鍵詞序列。
本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點及效果 1、將內(nèi)容簡單快速識別、數(shù)據(jù)挖掘中的聚類算法、基于熱點參與者數(shù)量和熱點時間處理模型有效的整合在一起，從多個方面預(yù)測熱點、分析熱點。
2、本發(fā)明綜合了基于內(nèi)容快速識別的預(yù)測技術(shù)和基于數(shù)值表現(xiàn)的預(yù)測技術(shù)，建立了一個完整的預(yù)測模型和流程，利用被檢測對象(例如論壇等)的歷史熱點信息，計算設(shè)置模型的相關(guān)參數(shù)，使其可以從內(nèi)容和數(shù)值表現(xiàn)上發(fā)現(xiàn)熱點輿情，然后利用聚類算法對獲得的熱點進(jìn)行聚類分析，將分析結(jié)果呈現(xiàn)給用戶，由用戶根據(jù)結(jié)果選擇是否調(diào)整預(yù)測模型。
3、與傳統(tǒng)的基于內(nèi)容匹配的熱點預(yù)測算法相比，本發(fā)明縮短了預(yù)測時間；與基于數(shù)值計算的熱點預(yù)測算法相比，本發(fā)明的預(yù)測更加準(zhǔn)確有效，針對特定的監(jiān)控內(nèi)容也將更加準(zhǔn)確。

圖1是本發(fā)明分析熱點輿情的流程圖；圖2是建立基于內(nèi)容快速識別的熱點輿情檢測模型的流程圖；圖3是建立基于數(shù)值表現(xiàn)的熱點輿情檢測模型的流程圖；圖4是基于數(shù)值表現(xiàn)的熱點預(yù)測模型的工作流程圖；圖5是本發(fā)明熱點聚類分析的流程圖。

具體實施例方式 下面結(jié)合實施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述，但本發(fā)明的實施方式不限于此。
實施例如圖1所示，本發(fā)明一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法包括以下幾個步驟步驟(1)、將及時采集的輿情信息輸入基于內(nèi)容快速識別的熱點輿情預(yù)測模型，根據(jù)處理結(jié)果將輿情信息分為熱點輿情和普通輿情，對熱點輿情發(fā)出預(yù)警，從而有利于實現(xiàn)熱點輿情的早發(fā)現(xiàn)，早處理。
如圖2所示，在上述步驟(1)中所述的基于內(nèi)容快速識別的熱點輿情檢測模型建立過程如下步驟(11)、收集輿情監(jiān)控目標(biāo)(例如論壇)在較長一段時間內(nèi)的熱點輿情信息，并將所收集的熱點輿情信息分為M類，得到分類信息。例如，收集某高校論壇最近二個月的熱點輿情信息，分成4類(即M＝4)，分別是情感類、工作兼職類、校園話題類、考研學(xué)習(xí)類；每類各有100條熱點輿情信息。
步驟(12)、對步驟(11)所得的分類信息進(jìn)行預(yù)處理。具體為利用中文分詞系統(tǒng)對各類中的所有熱點輿情信息進(jìn)行分詞，因為代詞、副詞、形容詞、助詞等不能代表實際的類別，所以分詞過程中必須將其刪除，單個的字也不能代表實際的類別，也需要刪除，留下長度超過2的名詞和動詞。
例如，預(yù)處理前的分類信息是想/v問問/v所有/b的/udel女孩子/n女/b，/wd是/vshi舊/a愛/v重要/a還/d是/vshi新/a歡/ad值得/v把握/v？/ww倘若/c與/p一/m男子/n兩/m情/n相/d悅/ag，/wd是否/v真的/d需要/v顧慮/n那么/rz多/m？/ww是否/v不夠/a勇氣/n跟/p該/rz男子/n一起/s去/vf開拓/v幸福/n的/udel疆土/n？/ww而/cc該/rz男子/n又/c亥/n怎樣/ryv？/ww讓/v她/rr走/v？/ww抑或/c堅信/v著/uzhe自己/rr能/v給/p她/rr幸福/a？/ww雖然/c現(xiàn)在/t還/d無法/v給/p她/rr任何/rz的/udel承諾/vn。/wj她/rr曾/d說/v過/vf我/rr還/d無法/v放下/v一切/rz來/vf愛/v你/rr。/wj。
預(yù)處理后的分類信息是問問/v女孩子/n值得/v把握/v男子/n是否/v需要/v顧慮/n勇氣/n男子/n開拓/v幸福/n疆土/n堅信/v承諾/v放下/v。
步驟(13)、提取類關(guān)鍵詞特征，亦即提取類別關(guān)鍵字。
用向量空間模型(VSM)表示每個類，每一類可以表示為 Ci＝(Ti1，Wi1；Ti2，Wi2；...；Tin，Win；...) 其中Ci表示第i個熱點類，Tij表示Ci中的第j個關(guān)鍵詞，Wij表示Tij在Ci中的權(quán)重，j＝1，2，......，n。Wij的值可以通過TFIDF公式計算其中，Ti代表具有某一特征的關(guān)鍵詞；Cj表示該關(guān)鍵詞所在的類別文本；TF(Ti，Cj)表示Ti在Cj類中各個信息文檔中出現(xiàn)的頻率；|C|代表所有類別中的所有訓(xùn)練信息文檔的數(shù)目，即DF(Ti)表示包含關(guān)鍵詞Ti的類數(shù)。
對每個類按照權(quán)重遞減排序，選取前n個作為該類的代表，余下的作為備選。此時每個類可以表示為 Ci＝(Ti1，Wi1；Ti2，Wi2；...；Tin，Win) 步驟(14)、基于內(nèi)容的分類計算，建立類別空間向量，從而構(gòu)建熱點輿情檢測模型。
對于待測輿情信息I，采用中文信息預(yù)處理，獲得長度大于2的名詞、動詞和名動詞序列1＝(I1，I2，...，Im)。計算待測輿情信息I屬于每個類的類別值I|Ci 設(shè)H(I)為某一預(yù)設(shè)閾值，若I|Ci≥H(I)，且I|Ci最大，則待測輿情信息I為Ci類熱點輿情信息。若

l|Ci＜H(I)，則待測輿情信息I為普通輿情信息。
經(jīng)過中文信息處理、類關(guān)鍵詞特征提取等，取得類別特征，4類熱點輿情信息的特征向量分別為情感熱點特征向量為C1＝(失戀，0.8714；拋棄，0.8536；分手，0.8361；處女，0.8119；背叛，0.7732；暗戀，0.7471，結(jié)婚，0.7103)。
工作兼職類特征向量為C2＝(招聘會，1.1370；宣講會，0.9421；實習(xí)，0.8641；家教，0.8117；創(chuàng)業(yè)，0.8036；招聘，0.7734；offer，0.7179)。
校園話題特征向量C3＝(跳樓，1.274；自殺，0.9334；選課，0.9327；情侶，0.8743；圖書館，0.8427；食堂，0.7115)。
考研學(xué)習(xí)特征向量C4＝(真題，0.9841；公費，0.9231；自費，0.8778；導(dǎo)師，0.8692；復(fù)試，0.7326；內(nèi)幕，0.7116)。
步驟(2)、將普通輿情信息輸入基于數(shù)值表現(xiàn)的熱點預(yù)測模型，從參與人數(shù)分布和時間狀態(tài)分布上，對所輸入的普通輿情信息進(jìn)行數(shù)值模式匹配，檢測出步驟(1)所漏檢的熱點輿情信息；從而實現(xiàn)較為全面的熱點輿情發(fā)現(xiàn)，彌補步驟(1)中對熱點輿情發(fā)現(xiàn)的不足。
如圖3、4所示，以論壇為例，在步驟(2)中所述的基于數(shù)值表現(xiàn)的熱點輿情檢測模型建立過程如下步驟(21)、收集輿情監(jiān)控目標(biāo)(例如某論壇)在最近一段時間的熱點輿情信息M＝{M1，M2，..，Mm}，總熱點輿情信息數(shù)為m(即有m個熱點帖子)，獲取每個熱點帖子Mi(i＝1，2，......，m)在Δt時間內(nèi)的瀏覽人數(shù)BNi，回帖人數(shù)RNi，回帖時間間隔序列Si；得到瀏覽人數(shù)BNi的數(shù)組{BNi1，BNi2，...，BNij，...}，回帖人數(shù)Rni的數(shù)組{RNi1，RNi2，...，RNij，...}，時間間隔序列Si的數(shù)組{Si1，Si2，...，Sij，...}。
步驟(22)、計算瀏覽人數(shù)的熱點閾值H(BN)。
對于

1≤i≤m，計算根據(jù)所有實際BNi，計算得到H(BN)＝32.7144. 步驟(23)、計算回復(fù)人數(shù)的熱點閾值H(RN)。
對于

1≤i≤m 根據(jù)所有實際RNi，計算得到H(RN)＝19.5348. 步驟(24)、計算時間間隔熱點閾值H(S)和D(S)。
對于

1≤i≤m，因為Si1與其他數(shù)據(jù)相差較大，故去掉Si1，得到Si′＝{Si2，...，Sin}，根據(jù)所有實際Si，H(S)＝10.0206，D(S)＝6.5139。
步驟(25)、建立基于數(shù)值表現(xiàn)的熱點預(yù)測模型。對于待檢測輿情信息I′有 <1>.計算Δt時間內(nèi)，待檢測輿情信息I′的瀏覽人數(shù)BN，若BN≥H(BN)，則待檢測輿情信息I′為熱點輿情信息，對其進(jìn)行預(yù)警；否則進(jìn)行下一步運算。
<2>.計算Δt時間內(nèi)，待檢測輿情信息I′的回復(fù)人數(shù)RN，若RN≥H(RN)，則待檢測輿情信息I′為熱點輿情信息，對其進(jìn)行預(yù)警；否則進(jìn)行下一步運算。
<3>.計算Δt時間內(nèi)，待檢測輿情信息I′的回復(fù)時間間隔序列S′＝{S1′，S2′，...，Sk′}。若k＜5，則回帖沒有超過5個，待檢測輿情信息I′為普通輿情；若K≥5，則計算{S2′，...，Sk′}的H(S′)和D(S′)，若H(S′)≥H(S)&&D(S′)≥D(S)則待檢測輿情信息I′為熱點輿情信息，否則待檢測輿情信息I′為普通輿情，終止預(yù)測。
步驟(3)、對熱點輿情進(jìn)行分析。如圖5所示，本步驟主要處理過程如下主要是對標(biāo)記為熱點的輿情信息，采用基于劃分的K-means聚類算法，對熱點信息進(jìn)行聚類分析，其一可以明確熱點內(nèi)容分布，其二可以對步驟(1)中的分類模型調(diào)整，以不斷適應(yīng)最新熱點的預(yù)測。過程如下步驟(31)、所有熱點輿情的主題標(biāo)示為H，將每個熱點輿情的主題帖子分別標(biāo)示為Di，1≤i≤|H|，|H|為H中的熱點主題貼數(shù)量。
步驟(32)、對

1≤i≤|H|，采用中文分詞系統(tǒng)對其進(jìn)行分詞，保留詞組長度大于2的名詞和動詞，其余詞字刪除。
步驟(33)、對

1≤i≤|H|采用向量空間模型來表示 Di＝(ti1，wi1；ti2，wi2；...；tij，wij；...) 其中tij為文本Di中的第j個關(guān)鍵詞，wij為關(guān)鍵詞tij在Di中的權(quán)重。wij的計算可以通過TFIDF公式計算 TF(ti，Dj)表示ti在Dj中出現(xiàn)的頻率，|D|表示所有熱點主題帖子，即|D|＝|H|，|DF(ti)|表示包含詞ti的文本數(shù)。
按照詞頻遞減排序，選擇前n個作為每個熱點主題帖子的特征向量，即 Di＝(ti1，wi1；ti2，wi2；...；tin，win) 步驟(34)、采用K-means分類算法，輸入所有Di和分類數(shù)K。K-means從所有Di中任意選取K個特征向量作為初始聚類中心，中心集合為D′＝{D1′，D2′，...，Dk′)。
計算每個聚類對象的均值，如果是初次計算則選用初始選取的D′作為均值，計算

1≤i≤|H|與

1≤j≤K的余弦相似度大小，即

1≤i≤|H|按照Sim(Di，Dj′)最小為同一類的原則，進(jìn)行重新分類。
步驟(35)、重新計算每類的均值(中心對象)，并計算

1≤i≤|H|與每類的均值的余弦相似度，然后進(jìn)行重新分類。
步驟(36)、如果重新分類有變化，重復(fù)步驟(35)，直到每個聚類不再發(fā)生變化，最終形成熱點類集合M＝{M1，M2，...，Mk}，Mi為一熱點輿情類，K-means算法完成。
步驟(37)、將聚類取得的分類結(jié)果進(jìn)行如下處理一是對

選取Mi對應(yīng)的所有熱點主題帖子Dj(1≤j≤|H|)，同時選取Mj中詞頻遞減排序的前N個作為該類的關(guān)鍵詞，然后將每一個熱點類的主題帖子內(nèi)容列表和關(guān)鍵詞顯示給用戶，例如 ----------------第1分類--共17個------------------------------ -------關(guān)鍵字---------------- 難題放棄結(jié)婚壓力分手 --------內(nèi)容------------------ 情侶離開了旅館，服務(wù)員一見毛巾暈了畢業(yè)前的晚上他告訴我他喜歡我，我們會有未來嗎？進(jìn)來談?wù)劥蠹业淖畹蛽衽紭?biāo)準(zhǔn)，究竟愛情有什么樣的底線...... 更多... ------------------第2分類--共5個------------------------------ -------關(guān)鍵字---------------- 宣講會招聘實習(xí) 福利集團(tuán) --------內(nèi)容------------------ 聯(lián)想集團(tuán)2009-2010校園招聘啟動啦松下集團(tuán)2010校園招聘啟動(職位陸續(xù)更新中) 快樂求職網(wǎng)實習(xí)信息匯總(每日更新) 中核江蘇核電2010校園招聘火熱啟動金山多益2010校園招聘開始啦！附宣講會安排New ------------------第3分類--共4個------------------------------ -------關(guān)鍵字---------------- 真題內(nèi)幕公費自費錄取 --------內(nèi)容------------------- 求有關(guān)宿舍安排內(nèi)幕。。。。。
現(xiàn)當(dāng)代文學(xué)0809真題回憶版擬錄取名單全部公布管理學(xué)院還有公費嗎？都改革了？ ------------------第4分類--共17個------------------------------ -------關(guān)鍵字---------------- 圖書館選課考試防盜管理 --------內(nèi)容--共17個---------------- 給學(xué)校的考試制度提建議內(nèi)部消息暑期圖書館開放時間你們遇到這種騙子了嗎？手機(jī)充值優(yōu)惠事件真假更多... 二是根據(jù)最新熱點分類情況，用戶可以判斷是否根據(jù)最新出現(xiàn)的熱點話題，對分類預(yù)警模型進(jìn)行修改。
根據(jù)第3類特點在考研學(xué)習(xí)特征值中應(yīng)添加“錄取”作為熱點關(guān)鍵詞。將相關(guān)熱點信息作為訓(xùn)練信息添加到基于內(nèi)容快速預(yù)測的熱點模型當(dāng)中去。
步驟(4)、除了對熱點輿情信息進(jìn)行分析之外，本發(fā)明還能夠?qū)狳c輿情進(jìn)行預(yù)測，預(yù)測過程包括如下幾個步驟步驟(41)、采集輿情源(也稱為輿情監(jiān)控目標(biāo))一段時間內(nèi)的輿情信息。例如采集某高校論壇一天中出現(xiàn)的輿情信息。
步驟(42)、對步驟(41)采集的輿情信息進(jìn)行中文信息預(yù)處理。采用中科院的ICTCLAS2009漢語詞法分析系統(tǒng)對輿情信息進(jìn)行分詞，只保留長度超過2的名詞、動詞，并對詞語去重，形成每條輿情信息對應(yīng)的關(guān)鍵詞序列。
例如一條輿情信息I提醒喜歡晚上到小山上去的情侶(大學(xué)城校區(qū))。近日有同學(xué)報案，在圖書館旁的小山上把包丟了，這類案件基本一個月都有幾次，提醒情侶們，約會要找個好的地方，小山并不是理想場所，排開小偷不說，草從中經(jīng)常有蛇類出沒，希望大家注意安全。謝謝。
中文處理后得到序列{喜歡情侶大學(xué) 同學(xué) 報案圖書館案件地方場所小偷希望注意}。
步驟(43)、根據(jù)步驟(13)和步驟(14)，提取類關(guān)鍵詞特征并計算出每個類的類別值I|Ci。在本實施例中，根據(jù)熱點關(guān)鍵詞和論壇熱點規(guī)律設(shè)定閾值H(I)＝0.75，若 I|C1＝0＜H(I)， I|C2＝0＜H(I)， I|C3＝1.717＞H(I)， I|C4＝0＜H(I)，則第1分類、第2分類和第4分類為普通輿情，第3分類為熱點輿情。
對于經(jīng)過基于內(nèi)容快速識別的模型檢測后標(biāo)記為熱點輿情的輿情信息及時預(yù)警，這樣就可以對剛剛發(fā)布的又沒有在數(shù)值表現(xiàn)上可以判斷是否是熱點輿情的輿情信息進(jìn)行預(yù)測，可以及早發(fā)現(xiàn)熱點輿情，并做出預(yù)警。但是由于類別關(guān)鍵詞有限，所以單純靠基于內(nèi)容快速識別的檢測模型來標(biāo)記熱點輿情的話，將會漏檢很多熱點輿情；因此，有必要對判斷為非熱點的輿情信息輸入基于數(shù)值表現(xiàn)的熱點預(yù)測模型進(jìn)行處理，做進(jìn)一步檢測。
步驟(44)、獲取標(biāo)記為非熱點輿情信息在Δt時間內(nèi)瀏覽人數(shù)RN，如果若RN≥H(RN)，則該信息標(biāo)記為熱點輿情，做出預(yù)警；否則下一步運算。這里Δt取一天做時間段，例如輿情I1＝“情侶離開了旅館，服務(wù)員一見毛巾暈了”的BN＝65＞H(BN)＝32.7144，標(biāo)記I1為熱點輿情。而輿情I1′＝“請問什么時候可以看翡翠臺？？”的BN＝27＜H(BN)，所以標(biāo)記I1′為普通輿情，進(jìn)入下一步處理。又如輿情I2＝“有沒有經(jīng)歷過從珠海搬回廣州的師兄師姐？”雖然BN＝29＜H(BN)，但是RN＝22＞H(RN)＝19.5348，I2為熱點輿情。
步驟(45)、獲取標(biāo)記為非熱點輿情信息在Δt時間內(nèi)的回復(fù)時間間隔序列Si，計算Si的Si和方差D(Si)，如果Si≤H(S)&&H(D(Si)≤D(S)，則為熱點輿情，否則為普通輿情。這里Δt取一天做時間段，輿情I3＝“進(jìn)來談?wù)劥蠹业淖畹蛽衽紭?biāo)準(zhǔn)究竟愛情有什么樣的底線......”，雖然I3發(fā)布較晚，沒有在內(nèi)容識別和瀏覽人數(shù)和回復(fù)人數(shù)上形成熱點標(biāo)示，計算I3的發(fā)布時間間隔序列S3＝{18，14，10，9，9，8，7，7}的S3和D(S3)。
S3＝9.1429≤H(S)＝10.0206&&D(S3)＝5.5025≤D(S)＝6.5139，所以I3為熱點輿情。
最后可得預(yù)測結(jié)果為在上述預(yù)測結(jié)果中，采集的信息共有主題357個，其中新發(fā)表主題116個。錯誤預(yù)報主要是由于某些主題貼中有熱點類的關(guān)鍵詞；而漏報主要由于熱點類中缺少某些關(guān)鍵詞。如有發(fā)表時間較晚，關(guān)鍵詞中沒有相關(guān)比對，如墜樓代替了自殺和跳樓，在沒有明顯數(shù)量表現(xiàn)前，判為普通信息，導(dǎo)致熱點輿情信息的漏報。
上述實施例為本發(fā)明較佳的實施方式，但本發(fā)明的實施方式并不受上述實施例的限制，其他的任何未背離本發(fā)明的精神實質(zhì)與原理下所作的改變、修飾、替代、組合、簡化，均應(yīng)為等效的置換方式，都包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法，其特征在于包括以下步驟
步驟(1)、將及時采集的輿情信息輸入基于內(nèi)容快速識別的熱點輿情預(yù)測模型，根據(jù)處理結(jié)果將輿情信息分為熱點輿情和普通輿情，對熱點輿情發(fā)出預(yù)警；
步驟(2)、將普通輿情信息輸入基于數(shù)值表現(xiàn)的熱點預(yù)測模型，從參與人數(shù)分布和時間狀態(tài)分布上，對所輸入的普通輿情信息進(jìn)行數(shù)值模式匹配，檢測出步驟(1)所漏檢的熱點輿情信息；
步驟(3)、對熱點輿情進(jìn)行分析；
步驟(4)、對熱點輿情進(jìn)行預(yù)測。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法，其特征在于步驟(1)中所述的基于內(nèi)容快速識別的熱點輿情檢測模型建立過程如下
步驟(11)、收集輿情監(jiān)控目標(biāo)在一段時間內(nèi)的熱點輿情信息，并將所收集的熱點輿情信息分為M類，得到分類信息；
步驟(12)、對步驟(11)所得的分類信息進(jìn)行預(yù)處理；
步驟(13)、提取類關(guān)鍵詞特征；
步驟(14)、基于內(nèi)容的分類計算，建立類別空間向量，從而構(gòu)建熱點輿情檢測模型。
3.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法，其特征在于步驟(12)所述的預(yù)處理為利用中文分詞系統(tǒng)對各類中的所有熱點輿情信息進(jìn)行分詞。
4.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法，其特征在于步驟(2)中所述的基于數(shù)值表現(xiàn)的熱點輿情檢測模型建立過程如下
步驟(21)、收集輿情監(jiān)控目標(biāo)在一段時間內(nèi)的熱點輿情信息M＝{M1，M2，..，Mm}，總熱點輿情信息數(shù)為m，獲取每個熱點輿情信息Mi，在Δt時間內(nèi)的瀏覽人數(shù)BNi，回帖人數(shù)RNi，回帖時間間隔序列Si，其中i＝1，2，......，m；得到瀏覽人數(shù)BNi的數(shù)組{BNi1，BNi2,...，BNij,...}，回帖人數(shù)Rni的數(shù)組{RNi1，RNi2，...， RNij，...}，時間間隔序列 Si的數(shù)組{Si1，Si2，...，Sij，...}；
步驟(22)、計算瀏覽人數(shù)的熱點閾值H(BN)；
步驟(23)、計算回復(fù)人數(shù)的熱點閾值H(RN)；
步驟(24)、計算時間間隔熱點閾值H(S)和D(S)；
步驟(25)、建立基于數(shù)值表現(xiàn)的熱點預(yù)測模型。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法，其特征在于對熱點輿情進(jìn)行分析包括以下步驟
步驟(31)、所有熱點輿情的主題標(biāo)示為H，將每個熱點輿情的主題帖子分別標(biāo)示為Di，1≤i≤|H|，|H|為H中的熱點主題貼數(shù)量；
步驟(32)、對
1≤i≤|H|，采用中文分詞系統(tǒng)對其進(jìn)行分詞，保留詞組長度大于2的名詞和動詞，其余詞字刪除；
步驟(33)、對
1≤i≤|H|采用向量空間模型來表示
Di＝(ti1，wi1；ti2，wi2；...；tij，wij；...)
其中tij為文本Di中的第j個關(guān)鍵詞，wij為關(guān)鍵詞tij在Di中的權(quán)重；
步驟(34)、采用K-means分類算法，輸入所有Di和分類數(shù)K；K-means從所有Di中任意選取K個特征向量作為初始聚類中心，中心集合為D′＝{D1′，D2′，...，Dk′)；并計算每個聚類對象的均值，如果是初次計算則選用初始選取的D′作為均值，計算
與
的余弦相似度大小，即
按照Sim(Di，Dj′)最小為同一類的原則，進(jìn)行重新分類；
步驟(35)、重新計算每類的均值，并計算
與每類的均值的余弦相似度，然后進(jìn)行重新分類；
步驟(36)、如果重新分類有變化，重復(fù)步驟(35)，直到每個聚類不再發(fā)生變化，最終形成熱點類集合M＝{M1，M2，...，Mk}，Mi為一熱點輿情類，K-means算法完成。
步驟(37)、將聚類取得的分類結(jié)果進(jìn)行如下處理
對
選取Mi對應(yīng)的所有熱點主題帖子Dj(1≤j≤|H|)，同時選取Mj中詞頻遞減排序的前N個作為該類的關(guān)鍵詞，然后將每一個熱點類的主題帖子內(nèi)容列表和關(guān)鍵詞顯示給用戶；
根據(jù)最新熱點分類情況，用戶判斷是否根據(jù)最新出現(xiàn)的熱點話題，對分類預(yù)警模型進(jìn)行修改。
6.根據(jù)權(quán)利要求5所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法，其特征在于所述權(quán)重wij通過TFIDF公式計算
TF(ti，Dj)表示ti在Dj中出現(xiàn)的頻率，|D|表示所有熱點主題帖子，即|D|＝|H|，|DF(ti)|表示包含詞ti的文本數(shù)。
7.根據(jù)權(quán)利要求4所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法，其特征在于對熱點輿情進(jìn)行預(yù)測包括以下步驟
步驟(41)、采集輿情監(jiān)控目標(biāo)一段時間內(nèi)的輿情信息；
步驟(42)、對步驟(41)采集的輿情信息進(jìn)行中文信息預(yù)處理；
步驟(43)、根據(jù)步驟(13)和步驟(14)，提取類關(guān)鍵詞特征并計算出每個類的類別值I|Ci；
步驟(44)、獲取標(biāo)記為非熱點輿情信息在Δt時間內(nèi)瀏覽人數(shù)RN，如果若RN≥H(RN)，則該信息標(biāo)記為熱點輿情，做出預(yù)警；否則為普通輿情；
步驟(45)、獲取標(biāo)記為非熱點輿情信息在Δt時間內(nèi)的回復(fù)時間間隔序列Si，計算Si的Si和方差D(Si)，如果Si≤H(S)&&H(D(Si)≤D(S)，則為熱點輿情，否則為普通輿情。
8.根據(jù)權(quán)利要求7所述的網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法，其特征在于步驟(42)中所述預(yù)處理為對輿情信息進(jìn)行分詞，只保留長度超過2的名詞、動詞，并對詞語去重，形成每條輿情信息對應(yīng)的關(guān)鍵詞序列。
全文摘要
本發(fā)明涉及一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法，包括以下步驟步驟(1)將及時采集的輿情信息輸入基于內(nèi)容快速識別的熱點輿情預(yù)測模型，根據(jù)處理結(jié)果將輿情信息分為熱點輿情和普通輿情，對熱點輿情發(fā)出預(yù)警；步驟(2)將普通輿情信息輸入基于數(shù)值表現(xiàn)的熱點預(yù)測模型，從參與人數(shù)分布和時間狀態(tài)分布上，對所輸入的普通輿情信息進(jìn)行數(shù)值模式匹配，檢測出步驟(1)所漏檢的熱點輿情信息；步驟(3)對熱點輿情進(jìn)行分析；步驟(4)對熱點輿情進(jìn)行預(yù)測。本發(fā)明將內(nèi)容和數(shù)值表現(xiàn)結(jié)合在一起，是一種綜合的輿情熱點監(jiān)控方法，預(yù)測時間短，且預(yù)測效果準(zhǔn)確。
文檔編號G06F17/30GK101763401SQ20091021440
公開日2010年6月30日申請日期2009年12月30日優(yōu)先權(quán)日2009年12月30日
發(fā)明者姚國祥, 羅偉其, 官全龍, 宋嘎子, 陳鳳其申請人:暨南大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：姚國祥;羅偉其;官全龍;宋嘎子;陳鳳其
技術(shù)所有人：暨南大學(xué)
我是此專利的發(fā)明人

上一篇：應(yīng)用程序共享同一串口的方法與裝置的制作方法
上一篇：一種應(yīng)用焦點切換的方法及移動終端的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

輿情熱點相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種網(wǎng)絡(luò)輿情的熱點預(yù)測和分析方法