亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

網(wǎng)絡(luò)熱點(diǎn)和輿情的檢測方法

文檔序號(hào):6587601閱讀:243來源:國知局

專利名稱::網(wǎng)絡(luò)熱點(diǎn)和輿情的檢測方法
技術(shù)領(lǐng)域
:本發(fā)明涉及的是一種網(wǎng)絡(luò)信息處理
技術(shù)領(lǐng)域
的方法,具體是一種網(wǎng)絡(luò)熱點(diǎn)和輿情的檢測方法。
背景技術(shù)
:互聯(lián)網(wǎng)已成為人們獲取和交流信息的最重要的平臺(tái)之一。互聯(lián)網(wǎng)與傳統(tǒng)媒體相比,最大的特點(diǎn)之一是自由、開放、及時(shí),任何人都可以通過博客、論壇系統(tǒng)在互聯(lián)網(wǎng)上發(fā)布觀點(diǎn)和評論。這就使得互聯(lián)網(wǎng)上容易散布不良信息,如欺騙性的言論或是危害國家安全的言論,嚴(yán)重的會(huì)引發(fā)群體性事件。同時(shí),博客、論壇系統(tǒng)的文本中包含了大量反映民意的輿情信息,有必要對這些輿情信息進(jìn)行分析、監(jiān)控和預(yù)測,從中發(fā)現(xiàn)熱點(diǎn)信息。目前習(xí)慣的做法是使用人工對互聯(lián)網(wǎng)輿情信息進(jìn)行監(jiān)控并分析熱點(diǎn)信息。但這樣做有兩個(gè)問題,一是面對海量的信息,需要耗費(fèi)大量的人力、物力,且人工處理速度慢,實(shí)效性差;二是每個(gè)人通常只能監(jiān)控某幾個(gè)互聯(lián)網(wǎng)站點(diǎn)的文本信息,信息匯總、整理困難,容易忽略某些熱點(diǎn)信息。還有一種做法是利用計(jì)算機(jī)對特定互聯(lián)網(wǎng)站點(diǎn)的文本進(jìn)行關(guān)鍵詞提取,提取出熱點(diǎn)關(guān)鍵詞,再由人工分析出與這些熱點(diǎn)關(guān)鍵詞相對應(yīng)的熱點(diǎn)信息。但是單個(gè)關(guān)鍵詞包含的信息太少,且包含不同信息的文本可能包含相同的關(guān)鍵詞,影響對熱點(diǎn)信息的判斷。經(jīng)過對現(xiàn)有技術(shù)的文獻(xiàn)檢索發(fā)現(xiàn),中國專利公開號(hào)為CN101408883,
專利名稱:為一種網(wǎng)絡(luò)輿情觀點(diǎn)收集方法,該申請案中實(shí)現(xiàn)輿情信息的發(fā)現(xiàn)是基于計(jì)算熱點(diǎn)詞詞頻和詞頻變化的方法,以關(guān)鍵句中的動(dòng)詞和名詞作為特征值進(jìn)行聚類。其具體方法是在網(wǎng)絡(luò)論壇中根據(jù)詞頻和詞頻的變化情況來提取熱點(diǎn)詞,根據(jù)熱點(diǎn)詞從爬蟲數(shù)據(jù)庫中提取相關(guān)的信息文檔,搜索出其中含有熱點(diǎn)詞的句子形成關(guān)鍵句集,并以關(guān)鍵句中的動(dòng)詞和名詞作為特征詞,以每個(gè)特征值為特征向量的一維。如果關(guān)鍵句中含有該特征詞,則該維特征值取l;否則取0。再通過計(jì)算各關(guān)鍵句特征向量間的余弦相似度對關(guān)鍵句進(jìn)行聚類,得到多個(gè)觀點(diǎn)主題句集。最后采用帶權(quán)重的情感詞庫和手工判別相結(jié)合的方法來計(jì)算各個(gè)觀點(diǎn)主題句網(wǎng)絡(luò)情感傾向,從而得到網(wǎng)絡(luò)的輿情觀點(diǎn)。但這種方法以詞為單位進(jìn)行熱點(diǎn)詞提取和關(guān)鍵句聚類,遇到一詞多義或多詞一義的情況會(huì)影響準(zhǔn)確率,且運(yùn)算復(fù)雜。同時(shí),這種方法沒有考慮到互聯(lián)網(wǎng)上除了眾多主題文檔外,關(guān)于這些主題文檔的評論文檔也包含了網(wǎng)民的觀點(diǎn),也是網(wǎng)絡(luò)輿情傾向的重要組成部分。
發(fā)明內(nèi)容本發(fā)明針對上述現(xiàn)有技術(shù)的不足,提供了一種網(wǎng)絡(luò)熱點(diǎn)和輿情的檢測方法,通過在文檔的特征概念空間內(nèi)進(jìn)行聚類,解決了一詞多義和多詞一義情況下熱點(diǎn)的分析,并綜合主題文檔的評論文本進(jìn)行輿情分析。本發(fā)明是通過如下技術(shù)方案實(shí)現(xiàn)的,本發(fā)明包括如下步驟第一步,從網(wǎng)絡(luò)論壇和博客中抓取指定時(shí)間范圍內(nèi)的網(wǎng)頁,將其信息文檔及相應(yīng)的評論文檔保存到數(shù)據(jù)庫中。所述的信息文檔包括網(wǎng)絡(luò)論壇的主貼和博客的網(wǎng)絡(luò)日志正文,該文檔是純文本格式的文檔。所述的評論文檔包括網(wǎng)絡(luò)論壇的回帖和博客的評論內(nèi)容,該文檔是純文本格式的文檔第二步,對數(shù)據(jù)庫中的文檔進(jìn)行概念映射和概念消歧處理,最終使得每個(gè)詞語映射成唯一的概念。所述的文檔包括信息文檔及相應(yīng)的評論文檔。所述的處理,是將文檔分解成為詞序列,并且對詞序列中每一個(gè)詞語進(jìn)行詞性標(biāo)注。所述的概念映射,就是將分好的每個(gè)詞的概念用《知網(wǎng)》中若干個(gè)義元的組合表示出來所述的《知網(wǎng)》,是一個(gè)以漢語和英語的詞語所代表的概念的數(shù)據(jù)庫,其描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫,知識(shí)庫包括1500多個(gè)義元,每個(gè)概念就是由若干個(gè)義元的組合標(biāo)注的,其中所述的義元分為基本義元和關(guān)系義元。所述的概念消歧,是在含有一詞多義詞語的句子中,根據(jù)一詞多義詞語的每個(gè)概念與該句中其他詞語的概念相似度,選取概念相似度之和最大的概念作為該一詞多義詞語在該句中的概念。第三步,對每篇信息文檔基于概念網(wǎng)提取本征特征,并利用提取出的本征特征對這些信息文檔進(jìn)行聚類,形成多個(gè)信息文檔集,取包含信息文檔數(shù)量最多的前若干個(gè)信息文檔集作為熱點(diǎn)事件信息文檔集。所述的本征特征,就是能反映整篇信息文檔的概念且定義于《知網(wǎng)》中的一組義元。所述的提取本征特征是,在去除每篇信息文檔的虛詞后,將信息文檔中所有義元各自的權(quán)重值與權(quán)重閾值進(jìn)行比較,其中權(quán)重值大于權(quán)重閾值的義元就是信息文檔的本征特征。所述的聚類,具體為將待聚類的信息文檔的所有不同的本征特征義元作為特征向量的一維,如果信息文檔中含有該本征特征義元,則該維特征值取l,否則取0,由此得到每篇信息文檔的特征向量,根據(jù)待聚類的任意兩篇信息文檔的特征向量間的余弦值得到這兩篇信息文檔間的相似度,相似度大于相似度閾值的兩篇文檔就被歸屬于同一個(gè)信息文檔集中,取包含信息文檔數(shù)量最多的前若干個(gè)信息文檔集作為熱點(diǎn)事件信息文檔集。第四步,建立網(wǎng)絡(luò)用語庫,對每個(gè)熱點(diǎn)事件進(jìn)行褒貶傾向分析,得到每個(gè)熱點(diǎn)事件的網(wǎng)絡(luò)輿情傾向。所述的網(wǎng)絡(luò)用語庫,包括網(wǎng)絡(luò)指代詞表和網(wǎng)絡(luò)評論詞表,其中網(wǎng)絡(luò)評論詞表包含網(wǎng)絡(luò)評論文檔中帶感情色彩的詞語及其詞性和褒貶傾向性。所述的褒貶傾向分析,包括信息文檔對熱點(diǎn)事件的褒貶傾向分析和相應(yīng)的評論文檔的褒貶傾向分析及其褒貶對象分析。所述的網(wǎng)絡(luò)輿情傾向是結(jié)合了熱點(diǎn)事件信息文檔集中的信息文檔對熱點(diǎn)事件的褒貶傾向分析和相應(yīng)的評論文檔的褒貶傾向分析及其褒貶對象分析,根據(jù)評論文檔對信息文檔熱點(diǎn)事件的褒貶傾向得到的各個(gè)熱點(diǎn)事件信息文檔集中所有信息文檔的相應(yīng)評論文檔對熱點(diǎn)事件的褒貶傾向。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果使用概念作為文檔的本征特征,可以很好處理一詞多義和多詞一義的情況,運(yùn)算簡單;以整篇文檔為單位進(jìn)行網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)和輿情分析,且充分考慮了評論文檔包含的輿情信息,提高了網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)和輿情分析的準(zhǔn)確率。圖l是本發(fā)明的流程示意框圖。具體實(shí)施例方式下面結(jié)合附圖對本發(fā)明的實(shí)施例作詳細(xì)說明本實(shí)施例在以本發(fā)明技術(shù)方案為前提下進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和具體的操作過程,但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。本實(shí)施例包括步驟如下第一步,從網(wǎng)絡(luò)論壇和博客中抓取指定時(shí)間范圍內(nèi)的網(wǎng)頁,將其信息文檔及相應(yīng)的評論文檔保存到數(shù)據(jù)庫中。所述的從網(wǎng)絡(luò)論壇中抓取網(wǎng)頁,具體為通過鏈接分析的方式,獲得指定的網(wǎng)絡(luò)論壇的所有板塊的網(wǎng)絡(luò)地址,再通過鏈接分析方式用HTTP協(xié)議下載所有板塊在指定時(shí)間范圍內(nèi)發(fā)表7的主貼以及主貼對應(yīng)的回貼,同時(shí)記錄主貼作者的網(wǎng)絡(luò)名和回貼作者的網(wǎng)絡(luò)名,以及主貼和回貼間的對應(yīng)關(guān)系。所述的從博客中抓取網(wǎng)頁,具體為通過網(wǎng)絡(luò)爬蟲的方式,獲得包含有指定博客系統(tǒng)的一定數(shù)量用戶的網(wǎng)絡(luò)名的數(shù)據(jù)庫。通過網(wǎng)絡(luò)名,可以得到相應(yīng)用戶博客空間的網(wǎng)絡(luò)日志列表頁面的地址。對網(wǎng)絡(luò)日志列表頁面進(jìn)行鏈接分析,用HTTP協(xié)議下載網(wǎng)絡(luò)名數(shù)據(jù)庫中所有用戶在指定時(shí)間范圍內(nèi)發(fā)表的網(wǎng)絡(luò)日志正文以及網(wǎng)絡(luò)日志對應(yīng)的評論,同時(shí)記錄網(wǎng)絡(luò)日志正文作者的網(wǎng)絡(luò)名和評論作者的網(wǎng)絡(luò)名,以及網(wǎng)絡(luò)日志正文和評論間的對應(yīng)關(guān)系。所述的文檔包括信息文檔及相應(yīng)的評論文檔。所述的信息文檔包括網(wǎng)絡(luò)論壇的主貼和博客的網(wǎng)絡(luò)日志正文,該文檔是純文本格式的文檔。所述的評論文檔包括網(wǎng)絡(luò)論壇的回帖和博客的評論內(nèi)容,該文檔是純文本格式的文檔通過HTTP協(xié)議下載到的文檔一般是超文本標(biāo)記語言(HTML)的文檔,需要過濾轉(zhuǎn)換為純文本格式的文檔。本實(shí)施例從搜狐博客(blog.sohu.com)、新浪博客(blog.sina.com.cn)以及上海交通大學(xué)BBS系統(tǒng)(bbs.sjtu.edu.cn)抓取了2009年10月1日到2009年10月5日之間共8314篇信息文檔及相應(yīng)的評論文檔保存到數(shù)據(jù)庫中。本實(shí)施例使用boost庫中的正則表達(dá)模塊從抓取到的文檔中過濾HTML標(biāo)簽,以提取純文本內(nèi)容,具體的正則表達(dá)式為"〈[">]+>"。文檔保存到數(shù)據(jù)庫中;第二步,對數(shù)據(jù)庫中的文檔進(jìn)行概念映射和概念消歧處理,最終使得每個(gè)詞語映射成唯一的概念。所述的處理,是將文檔分解成為詞序列,并且對詞序列中每一個(gè)詞語進(jìn)行詞性標(biāo)注,本實(shí)施例使用了中科院計(jì)算所的ICTCLAS分詞系統(tǒng)對信息文檔進(jìn)行分詞。所述的概念映射,就是將分好的每個(gè)詞的概念用《知網(wǎng)》中若干個(gè)義元的組合表示出來所述的《知網(wǎng)》,是一個(gè)以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫,知識(shí)庫包括1500多個(gè)義元,每個(gè)概念就是由若干個(gè)義元的組合標(biāo)注的,其中所述的義元包括基本義元和關(guān)系義元。所述的概念消歧,是在含有一詞多義詞語的句子中,根據(jù)一詞多義詞語的每個(gè)概念與該句中其他詞語的概念相似度,選取概念相似度之和最大的概念作為該一詞多義詞語在該句中的概念。所述的概念相似度,具體公式為W,(K,2)=^附単6,2)+/2扁尺2)+/3>附朋)其中W附,d,2)是概念^和概念w2的概念相似度,《"必(^,萬尸2)是概念¥1的基本義元和概念W2的基本義元的相似度,是概念Wi的關(guān)系義元和概念W2的關(guān)系義元的相似度,""'"^w(s^,^)是概念w^n概念W2的基本義元和關(guān)系義元的相似度,A、^和A分別為扁,W'^)、扁萬(^,萬尸2)和^柳朋(,,iP)的權(quán)重系數(shù),且"|+^+^=1。設(shè)概念W!有nu個(gè)基本義元,概念W2有ni2個(gè)基本義元,概念W!有m個(gè)關(guān)系義元,概念沐2有!12個(gè)關(guān)系義元,7'£^,"^"1,ye"2,dij表示概念W說第i個(gè)基本義元和概念W2的第j個(gè)基本義元在義元樹上的距離,dxy表示概念W^勺第x個(gè)關(guān)系義元和概念W2的第y個(gè)關(guān)系義元在義元樹上的距離,diy表示概念W^勺第i個(gè)基本義元和概念W2的第y個(gè)關(guān)系義元在義元樹上的距離,dxj表示概念W^勺第x個(gè)關(guān)系義元和概念W2的第j個(gè)基本義元在義元樹上的距離,a是一個(gè)調(diào)節(jié)參數(shù),且在各種義元相似度計(jì)算時(shí)取同一值。貝!J:所述的W"^(^^5^的計(jì)算方法為a'/附丑CB^,丑只)=maxotw(^A,.,£^,)其中^"(^^UA》是概念&的第i個(gè)基本義元和概念W2的第j個(gè)基本義元的相似度,'一"7a+《■所述的扁^^,朋。的計(jì)算方法為:5/7^(7^,2)=2二">m,ip2,v)其中"是概念Wi的第X個(gè)關(guān)系義元和概念W2的第y個(gè)關(guān)系義的相似度,,—'.a+《,,。所述的W"^W(^3,^)的計(jì)算方法為=max(W"!朋OSA,朋2),w'附朋阿,S尸2))其中W'^i(^^iP2)是概念&的基本義元和概念W2的關(guān)系義元的相似度,^",(^',2)是概念W說關(guān)系義元和概念W2的基本義元的相似度,且一Z柳(《,恥,)其中、"^是概念Wi的第i個(gè)基本義元和概念W2的第y個(gè)關(guān)系義元的相似度,^m(^"B7^)是概念W的第x個(gè)關(guān)系義元和概念W2的第j個(gè)基本義元的相似度,且扁(《,萬尸2;):aa+義當(dāng)句子中含有兩個(gè)或者多個(gè)一詞多義的詞語時(shí),分別計(jì)算該句中每個(gè)一詞多義的詞語的每一個(gè)概念與其它詞語的概念的相似度,在處理一詞多義詞語的一個(gè)概念與另一個(gè)一詞多義的詞語的概念相似度時(shí),將后者一詞多義詞語的概念取為該詞語在《知網(wǎng)》中第一個(gè)概念來計(jì)算。第三步,對每篇信息文檔基于概念網(wǎng)提取本征特征,并利用提取出的本征特征對這些信息文檔進(jìn)行聚類,形成多個(gè)信息文檔集,取包含信息文檔數(shù)量最多的前若干個(gè)信息文檔集作為熱點(diǎn)事件信息文檔集。所述的本征特征,就是能反映整篇信息文檔的概念且定義于《知網(wǎng)》中的一組義元。所述的提取本征特征是,在去除每篇信息文檔的虛詞后,將信息文檔中所有不同的義元各自的權(quán)重值與權(quán)重閾值進(jìn)行比較,其中權(quán)重值大于權(quán)重閾值的義元就是信息文檔的本征特征。對于整篇信息文檔中只出現(xiàn)一次的義元的權(quán)重值是該義元與該信息文檔中其它所有義元的相似度之和;對于整篇信息文檔中出現(xiàn)N次的義元的權(quán)重值是該義元與該信息文檔中其它所有不同義元的相似度之和的N倍,其中計(jì)算基本義元和關(guān)系義元間的相似度時(shí),由于它們之間并不是直接的相似而是通過聯(lián)系相互關(guān)聯(lián)的,因此在計(jì)算相似度后要乘上可調(diào)節(jié)的參數(shù)£再累加到待計(jì)算的義元的權(quán)重值中。所述的聚類,具體為將待聚類的信息文檔的所有不同的本征特征義元作為特征向量的一維,如果信息文檔中含有該本征特征義元,則該維特征值取i,否則取o,由此得到每篇信息文檔的特征向量,根據(jù)待聚類的任意兩篇信息文檔的特征向量間的余弦值得到這兩篇信息文檔間的相似度&"CJ),相似度大于相似度閾值的兩篇文檔就被歸屬于同一個(gè)信息文檔集中,取包含信息文檔數(shù)量最多的前若干個(gè)信息文檔集作為熱點(diǎn)事件信息文檔集,其中<formula>formulaseeoriginaldocumentpage11</formula>其中7和7分別表示第i篇信息文檔和第j篇信息文檔的特征向量。兩篇信息文檔間的相似度越大,說明這兩篇信息文檔屬于同一個(gè)熱點(diǎn)事件的可能性就越大。通過控制相似度閾值",可以盡量保證同一個(gè)熱點(diǎn)事件信息文檔集中的信息文檔都是關(guān)于同一個(gè)事件或同一個(gè)觀點(diǎn)的。本實(shí)施例提取本征特征后,進(jìn)行聚類,形成的信息文檔數(shù)目最多的信息文檔集共包含873篇信息文檔,從這些信息文檔中提取出的本征特征義元大多包含"timel時(shí)間,day|日,congratulateI祝賀,ttco皿tryl國家,factl事情,check|査,ttarmyl軍隊(duì),military|軍"。這個(gè)信息文檔集的主題是2009年中國國慶節(jié)閱兵式。第四步,建立網(wǎng)絡(luò)用語庫,對每個(gè)熱點(diǎn)事件信息文檔集中所有信息文檔的相應(yīng)評論文檔進(jìn)行褒貶傾向分析,綜合每個(gè)熱點(diǎn)事件信息文檔集內(nèi)所有評論的褒貶傾向,得到該熱點(diǎn)事件信息文檔集所代表的事件的網(wǎng)絡(luò)輿情傾向。所述網(wǎng)絡(luò)用語庫,包括網(wǎng)絡(luò)指代詞表和網(wǎng)絡(luò)評論詞表,其中網(wǎng)絡(luò)評論詞表包含網(wǎng)絡(luò)評論文檔中帶感情色彩的詞語及其詞性和褒貶傾向性。所述的褒貶傾向分析,包括信息文檔對熱點(diǎn)事件的褒貶傾向分析和相應(yīng)的評論文檔的褒貶傾向分析及其褒貶對象分析。所述的信息文檔對熱點(diǎn)事件的褒貶傾向分析,具體為利用網(wǎng)絡(luò)評論詞表的詞分別在熱點(diǎn)事件信息文檔集中的信息文檔中搜索,將搜索到的詞性相符的網(wǎng)絡(luò)評論詞所在的句子稱為信息文檔中心句,該網(wǎng)絡(luò)評論詞稱為信息關(guān)鍵詞,所有信息文檔中心句稱為信息文檔中心句集,根據(jù)信息文檔中心句集中每個(gè)信息文檔中心句的信息關(guān)鍵詞所對應(yīng)的義元組合,得到該義元組合與該句子所在的信息文檔的本征特征義元的相似度^"0,將^"G與信息文檔褒貶傾向閾值相比較,若^"0大于信息文檔褒貶傾向閾值,則認(rèn)為該句子對信息文檔熱點(diǎn)事件的褒貶傾向與該句子的關(guān)鍵詞的褒貶傾向相同,該句子稱為褒貶傾向相同的信息文檔中心句;否則該句子稱為褒貶傾向相反的信息文檔中心句。當(dāng)信息文檔中心句集中褒貶傾向相同的信息文檔中心句與褒貶傾向相反的信息文檔中心句的個(gè)數(shù)之比超過了信息文檔褒貶一致性閾值,則認(rèn)為該信息文檔熱點(diǎn)事件的褒貶傾向與多數(shù)信息文檔中心句相同;否則就需要人工進(jìn)行判別。所述的信息關(guān)鍵詞的褒貶傾向從網(wǎng)絡(luò)評論詞表中査出。所述的相應(yīng)的評論文檔的褒貶傾向分析及其褒貶對象分析,具體為利用網(wǎng)絡(luò)評論詞表的詞分別在熱點(diǎn)事件信息文檔集信息文檔相應(yīng)的評論文檔中搜索,將搜索到的詞性相符的網(wǎng)11絡(luò)評論詞所在的句子稱為評論文檔中心句集,該網(wǎng)絡(luò)評論語稱為評論關(guān)鍵詞,所有評論文檔中心句稱為評論文檔中心句集。若評論文檔中心句只有評論關(guān)鍵詞,則認(rèn)為該評論關(guān)鍵詞的褒貶傾向就是發(fā)表該評論的網(wǎng)民對該信息文檔的褒貶傾向。若評論文檔中心句包括評論關(guān)鍵詞以外的評論指代詞語,若網(wǎng)絡(luò)指代此表中包括該評論指代詞語,則可得到評論褒貶的對象;否則,得到該評論文檔中心句中表示對象的詞語所對應(yīng)的義元組合,進(jìn)而得到該義元組合與信息文檔的本征特征的相似度sim'0,若sim'O大于評論文檔褒貶對象閾值,則認(rèn)為該評論文檔中心句中的評論關(guān)鍵詞的褒貶對象是相應(yīng)的信息文檔熱點(diǎn)事件,否則褒貶對象就是信息文檔本身。所述的評論關(guān)鍵詞的褒貶傾向從網(wǎng)絡(luò)評論詞表中査出。所述的網(wǎng)絡(luò)輿情分析是結(jié)合了熱點(diǎn)事件信息文檔集中的信息文檔對熱點(diǎn)事件的褒貶傾向分析和相應(yīng)的評論文檔的褒貶傾向分析及其褒貶對象分析,得到評論文檔對信息文檔熱點(diǎn)事件的褒貶傾向,通過統(tǒng)計(jì)各個(gè)熱點(diǎn)事件信息文檔集中所有信息文檔的相應(yīng)評論文檔對熱點(diǎn)事件的褒貶傾向,就是網(wǎng)絡(luò)對該熱點(diǎn)事件的輿情傾向,具體如表l所示。<table>tableseeoriginaldocumentpage12</column></row><table>本實(shí)施例對關(guān)于2009年中國國慶節(jié)閱兵式的信息文檔集中的873篇信息文檔的相應(yīng)評論文檔進(jìn)行處理,結(jié)果表明,包括信息文檔在內(nèi),共有96.37%的網(wǎng)民對2009年中國國慶節(jié)閱兵式持褒獎(jiǎng)、肯定的態(tài)度;有0.83%的網(wǎng)民對2009年中國國慶節(jié)閱兵式持批評、否定態(tài)度;另有2.80%的網(wǎng)民沒有表達(dá)明顯的褒貶傾向。本實(shí)施例使用概念作為文檔的本征特征,可以很好處理一詞多義和多詞一義的情況,運(yùn)算簡單;以整篇文檔為單位進(jìn)行網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)和輿情分析,且充分考慮了評論文檔包含的輿情信息,提高了網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)和輿情分析的準(zhǔn)確率。權(quán)利要求1.一種網(wǎng)絡(luò)熱點(diǎn)和輿情的檢測方法,其特征在于,包括如下步驟第一步,從網(wǎng)絡(luò)論壇和博客中抓取指定時(shí)間范圍內(nèi)的網(wǎng)頁,將其信息文檔及相應(yīng)的評論文檔保存到數(shù)據(jù)庫中;第二步,對數(shù)據(jù)庫中的文檔進(jìn)行概念映射和概念消歧處理,使得每個(gè)詞語映射成唯一的概念;第三步,對每篇信息文檔基于概念網(wǎng)提取本征特征,并利用提取出的本征特征對這些信息文檔進(jìn)行聚類,形成多個(gè)信息文檔集,取包含信息文檔數(shù)量最多的前若干個(gè)信息文檔集作為熱點(diǎn)事件信息文檔集;第四步,建立網(wǎng)絡(luò)用語庫,對每個(gè)熱點(diǎn)事件信息文檔集中所有信息文檔的相應(yīng)評論文檔進(jìn)行褒貶傾向分析,綜合每個(gè)熱點(diǎn)事件信息文檔集內(nèi)所有評論的褒貶傾向,得到該熱點(diǎn)事件信息文檔集所代表的事件的網(wǎng)絡(luò)輿情傾向。2根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)熱點(diǎn)和輿情的檢測方法,其特征是,第二步中所述的概念映射,就是將分好的每個(gè)詞的概念用《知網(wǎng)》中若干個(gè)義元的組合表示出來。3根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)熱點(diǎn)和輿情的檢測方法,其特征是,第二步中所述的概念消歧,是在含有一詞多義詞語的句子中,根據(jù)一詞多義詞語的每個(gè)概念與該句中其他詞語的概念相似度,選取概念相似度之和最大的概念作為該一詞多義詞語在該句中的概念。4根據(jù)權(quán)利要求3所述的網(wǎng)絡(luò)熱點(diǎn)和輿情的檢測方法,其特征是,所述的概念相似度,具體公式為W,(K,2)=^附単6,2)+/2扁尺2)+/3>附朋)其中扁,dW)是概念W和概念K的概念相似度,扁萬(糾,2)是概念^的基本義元和概念,2的基本義元的相似度,W"'W^'^)是概念'W的關(guān)系義元和概念,2的關(guān)系義元的相似度,W'"^W(SP'^)是概念'W和概念,2的基本義元和關(guān)系義元的相似度,A、A和A分別為扁,W,眠).、扁萬(^,,2)和^柳朋(,,iP)的權(quán)重系數(shù),且設(shè)概念'^有^^個(gè)基本義元,概念,2有^2個(gè)基本義元,概念'^有巧個(gè)關(guān)系義元,概念^有^個(gè)關(guān)系義元,^,""2,《表示概念^的第i個(gè)基本義元和概念,2的第j個(gè)基本義元在義元樹上的距離,《'表示概念^的第x個(gè)關(guān)系義元和概念,2的第y個(gè)關(guān)系義元在義元樹上的距離,《表示概念'^的第i個(gè)基本義元和概念^2的第y個(gè)關(guān)系義元在義元樹上的距離,""表示概念'^的第x個(gè)關(guān)系義元和概念,2的第j個(gè)基本義元在義元樹上的距離,a是一個(gè)調(diào)節(jié)參數(shù),且在各種義元相似度計(jì)算時(shí)取同一值,貝IJ:所述的'""^(^^,^^的計(jì)算方法為扁,S,朋2)=max扁(氣.,朋2j)其中^"(^^',2'》是概念^的第i個(gè)基本義元和概念,2的第j個(gè)基本義元的相似度—萬化.,朋2,)<formula>formulaseeoriginaldocumentpage3</formula>所述的W滅(M,2)的計(jì)算方法為:X*少'其中""《^"^^^》是概念W的第x個(gè)關(guān)系義元和概念^的第y個(gè)關(guān)系義的相似度,^附(氣,^丄a+義所述的'W"^W^P,^)的計(jì)算方法為w力必/(8尸.^P)=max(,w附fii(S^,iP2),'w附萬W(/^,5尸2))其中WW^H^'^^是概念K。的基本義元和概念"2的關(guān)系義元的相似度,概念^的關(guān)i',."'d.'《,)^"Bi(i^'^)是概念^的關(guān)系義元和概念,2的基本義元的相似度,且其中w^(S^l'^^")是概念'W的第i個(gè)基本義元和概念^2的第y個(gè)關(guān)系義元的相似度,wm(M"B^)是概念W的第x個(gè)關(guān)系義元和概念^的第j個(gè)基本義元的相似度,且<formula>formulaseeoriginaldocumentpage4</formula>5.根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)熱點(diǎn)和輿情的檢測方法,其特征是,第三步中所述的提取本征特征是,在去除每篇信息文檔的虛詞后,將信息文檔中所有義元各自的權(quán)重值與權(quán)重閾值進(jìn)行比較,其中權(quán)重值大于權(quán)重閾值的義元就是信息文檔的本征特征。6.根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)熱點(diǎn)和輿情的檢測方法,其特征是,第三步中所述的聚類,具體為將待聚類的信息文檔的所有不同的本征特征義元作為特征向量的一維,如果信息文檔中含有該本征特征義元,則該維特征值取i,否則取o,由此得到每篇信息文檔的特征向量,根據(jù)待聚類的任意兩篇信息文檔的特征向量間的余弦值得到這兩篇信息文檔間的相似度,相似度大于相似度閾值的兩篇文檔就被歸屬于同一個(gè)信息文檔集中,取包含信息文檔數(shù)量最多的前若干個(gè)信息文檔集作為熱點(diǎn)事件信息文檔集。全文摘要本發(fā)明提供了網(wǎng)絡(luò)信息處理
技術(shù)領(lǐng)域
的一種網(wǎng)絡(luò)熱點(diǎn)和輿情的檢測方法,通過搜集指定時(shí)間范圍內(nèi)的網(wǎng)絡(luò)論壇、博客系統(tǒng)的正文信息文檔和評論信息文檔,并進(jìn)行分詞、概念映射、概念消歧,再提取出能夠表達(dá)正文信息文檔內(nèi)容的本征特征,利用這些本征特征進(jìn)行聚類,形成若干個(gè)包含不等數(shù)量的信息文檔的信息文檔集,根據(jù)各信息文檔集中信息文檔的數(shù)目可以知道指定時(shí)間范圍內(nèi)網(wǎng)絡(luò)上討論的熱點(diǎn)事件,再對熱點(diǎn)事件信息文檔集進(jìn)行褒貶傾向分析,從而獲知網(wǎng)民對該熱點(diǎn)事件的輿情觀點(diǎn)。本發(fā)明消除了以往輿情系統(tǒng)以詞為單位、不夠靈活的不足,同時(shí)增強(qiáng)了對評論文本進(jìn)行輿情分析的能力。文檔編號(hào)G06F17/30GK101661513SQ20091030854公開日2010年3月3日申請日期2009年10月21日優(yōu)先權(quán)日2009年10月21日發(fā)明者張?jiān)聡?李生紅,昆梁,銘陳申請人:上海交通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1