基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法
【專利摘要】本發(fā)明涉及一種基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析系統(tǒng),包括以下模塊:網(wǎng)絡(luò)輿情信息采集模塊,從網(wǎng)頁中采集蘊(yùn)含豐富的各種輿情信息;輿情信息萃取模塊和輿情信息預(yù)處理模塊將采集的輿情信息進(jìn)行初步過濾和切分,提取正文部分的元信息,建立文本的特征語義網(wǎng)絡(luò)圖,并進(jìn)行加權(quán)計(jì)算和特征抽取,為輿情信息挖掘提供服務(wù)。輿情信息挖掘模塊,采用基于語義相似度的改進(jìn)文本聚類分析方法,將文本進(jìn)行歸類;輿情信息分析模塊,把輿情信息經(jīng)過挖掘的數(shù)據(jù)進(jìn)行OLAP多維統(tǒng)計(jì),分析輿情評(píng)測(cè)指標(biāo),為相關(guān)輿情信息決策提供支持。本發(fā)明解決文本中詞語語義信息不完整的問題,高效實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)環(huán)境下對(duì)動(dòng)態(tài)數(shù)據(jù)的聚類分析和熱點(diǎn)話題發(fā)現(xiàn)。
【專利說明】基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)信息【技術(shù)領(lǐng)域】,具體是一種基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法。
【背景技術(shù)】
[0002]當(dāng)今社會(huì),互聯(lián)網(wǎng)已經(jīng)滲透到人們的日常生活中,微博、論壇、博客等即時(shí)通信工具已經(jīng)成為人們獲取信息,進(jìn)而發(fā)表看法、傳播信息的重要渠道。借助網(wǎng)絡(luò)平臺(tái),輿情信息迅速傳播,引起廣泛關(guān)注,其傳播的速度之快、范圍之廣、影響力之大,遠(yuǎn)非傳統(tǒng)媒體可比,網(wǎng)絡(luò)空間的匿名交互性、非時(shí)空限制性等特點(diǎn),使網(wǎng)絡(luò)輿情這股強(qiáng)大的社會(huì)輿論力量,對(duì)社會(huì)發(fā)展和穩(wěn)定產(chǎn)生一定的沖擊和影響。正面的網(wǎng)絡(luò)輿情似“正能量”,推動(dòng)和促進(jìn)社會(huì)發(fā)展;負(fù)面的網(wǎng)絡(luò)輿情對(duì)社會(huì)穩(wěn)定形成負(fù)面效應(yīng),引發(fā)輿情危機(jī)。由此,加強(qiáng)網(wǎng)絡(luò)輿情信息監(jiān)測(cè)、分析、管理,對(duì)穩(wěn)定社會(huì)秩序、構(gòu)建和諧社會(huì)具有重要的現(xiàn)實(shí)意義。對(duì)網(wǎng)絡(luò)輿情信息及時(shí)監(jiān)測(cè)、正確判斷決策、迅速及時(shí)回應(yīng),積極采取有效措施化解輿情危機(jī),成為網(wǎng)絡(luò)輿情管理工作的重點(diǎn)和難點(diǎn)問題。
【發(fā)明內(nèi)容】
[0003]針對(duì)上述【背景技術(shù)】中網(wǎng)絡(luò)輿情信息的特點(diǎn)和網(wǎng)絡(luò)輿情信息管理中需要解決的問題,本發(fā)明提供一種基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法。
[0004]本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是,一種基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法。采用包括網(wǎng)絡(luò)輿情信息采集模塊、輿情信息萃取模塊、輿情信息預(yù)處理模塊、輿情信息挖掘模塊、輿情信息分析模塊和包含輿情信息數(shù)據(jù)庫的網(wǎng)絡(luò)輿情信息分析系統(tǒng),并包括如下步驟:
[0005]a.網(wǎng)絡(luò)輿情信息采集模塊從網(wǎng)頁中采集各種輿情信息,并存儲(chǔ)到輿情信息數(shù)據(jù)庫中;
[0006]b.輿情信息萃取模塊和輿情信息預(yù)處理模塊將步驟a采集的輿情信息進(jìn)行初步過濾和切分,抽取文本所包含的內(nèi)容信息,為輿情信息挖掘提供數(shù)據(jù)服務(wù);
[0007]c.在步驟b基礎(chǔ)上,輿情信息挖掘模塊采用基于語義相似度的改進(jìn)文本聚類分析方法,生成類別描述信息,篩選出聚類分析結(jié)果中包含的文本信息;利用基于特征統(tǒng)計(jì)的TFIDF詞頻特征計(jì)算方法統(tǒng)計(jì)類別特征,獲取類別特征詞,選擇名詞作為候選類別特征詞,按照候選特征詞權(quán)重排序,以權(quán)重值較大的候選特征詞作為類別關(guān)鍵詞,利用類別關(guān)鍵詞之間的語義關(guān)系,形成分類結(jié)果;識(shí)別和建立新的網(wǎng)絡(luò)輿情主題,檢測(cè)、跟蹤已有輿情主題的相關(guān)內(nèi)容;
[0008]d.最后,輿情信息分析模塊把輿情信息經(jīng)過步驟c挖掘的數(shù)據(jù)進(jìn)行OLAP多維統(tǒng)計(jì)分析,分析輿情主題內(nèi)容關(guān)注度、輿情主題情感傾向等輿情評(píng)測(cè)指標(biāo)。
[0009]在步驟a中,所述輿情信息采集模塊,是對(duì)網(wǎng)絡(luò)輿情信息源進(jìn)行采集,與一般的網(wǎng)絡(luò)爬蟲不同的是,它不僅要完成網(wǎng)頁的爬取,而且要將網(wǎng)頁內(nèi)容進(jìn)行格式化處理,提取輿情的主題和內(nèi)容,所得數(shù)據(jù)存入txt格式或html格式文件,并存儲(chǔ)到輿情信息數(shù)據(jù)庫;網(wǎng)絡(luò)輿情信息采集模塊采用分時(shí)訪問、定時(shí)更換IP地址和模擬瀏覽器進(jìn)行單點(diǎn)登錄三種技術(shù)結(jié)合進(jìn)行防屏蔽。網(wǎng)絡(luò)輿情信息采集模塊采用分時(shí)訪問、定時(shí)更換IP地址和模擬瀏覽器進(jìn)行單點(diǎn)登錄三種技術(shù)結(jié)合進(jìn)行防屏蔽。網(wǎng)絡(luò)輿情信息采集模塊執(zhí)行的具體步驟為:所述輿情信息采集模塊執(zhí)行的具體步驟為,從預(yù)先定義的主題相關(guān)網(wǎng)頁的URL開始,獲取網(wǎng)頁中的文本信息,并從當(dāng)前網(wǎng)頁中抽取新的URL放入隊(duì)列中,直到滿足條件的輿情信息采集完畢,URL隊(duì)列為空為止;將采集到的網(wǎng)頁文本信息按照字段分類存儲(chǔ)到輿情信息數(shù)據(jù)庫中,提供輿情信息萃取模塊調(diào)用。
[0010]所述輿情信息萃取模塊,是清除網(wǎng)頁中的無關(guān)內(nèi)容,如網(wǎng)頁中的廣告、導(dǎo)航信息、圖片、版權(quán)說明等噪聲數(shù)據(jù),提取對(duì)輿情分析有用的正文部分的元信息,對(duì)文本進(jìn)行重構(gòu),將具有主題代表性的信息聚集在一起;所述輿情信息預(yù)處理模塊,是對(duì)采集的輿情信息源經(jīng)過所述輿情信息萃取模塊萃取后,進(jìn)行中文分詞處理、過濾停用詞、命名實(shí)體識(shí)別、詞性標(biāo)注、語法解析和特征詞提取,建立正序索引和倒排索引;建立文本特征語義網(wǎng)絡(luò)圖,以文本中包含的實(shí)體E作為圖的節(jié)點(diǎn),兩個(gè)實(shí)體之間的語義關(guān)系作為圖的有向邊,實(shí)體之間的語義關(guān)系結(jié)合詞頻信息作為節(jié)點(diǎn)的權(quán)重,有向邊的權(quán)重表示實(shí)體關(guān)系在文本中的重要程度,所述實(shí)體E包括事物實(shí)體NE、事件實(shí)體VE、事件關(guān)系實(shí)體RE ;統(tǒng)計(jì)文本的詞頻和文本頻率信息,然后進(jìn)行特征詞抽取,選取體現(xiàn)文本特征的詞表示該文本。
[0011 ] 在步驟b中,所述輿情信息萃取模塊,是清除網(wǎng)頁中的無關(guān)內(nèi)容,提取對(duì)輿情分析有用的正文部分的元信息,對(duì)文本進(jìn)行重構(gòu),將具有主題代表性的信息聚集在一起;所述輿情信息預(yù)處理模塊,是對(duì)采集的輿情信息源經(jīng)過所述輿情信息萃取模塊萃取后,進(jìn)行中文分詞處理、過濾停用詞、命名實(shí)體識(shí)別、詞性標(biāo)注、語法解析和特征詞提取,建立正序索引和倒排索引;建立文本特征語義網(wǎng)絡(luò)圖,以文本中包含的實(shí)體E作為圖的節(jié)點(diǎn),兩個(gè)實(shí)體之間的語義關(guān)系作為圖的有向邊,實(shí)體之間的語義關(guān)系結(jié)合詞頻信息作為節(jié)點(diǎn)的權(quán)重,有向邊的權(quán)重表示實(shí)體關(guān)系在文本中的重要程度,所述實(shí)體E包括事物實(shí)體NE、事件實(shí)體VE、事件關(guān)系實(shí)體RE ;統(tǒng)計(jì)文本的詞頻和文本頻率信息,然后進(jìn)行特征詞抽取,選取體現(xiàn)文本特征的詞表示該文本。
[0012]要實(shí)現(xiàn)網(wǎng)絡(luò)輿情信息文本挖掘、自然語言處理等文本分析,首先要進(jìn)行分詞處理,借鑒國內(nèi)中文分詞領(lǐng)域的研究成果,使用中國科學(xué)院計(jì)算技術(shù)研究所研制的ICTCLAS漢語詞法分析系統(tǒng)所具有的詞語切分、詞性標(biāo)注、命名實(shí)體識(shí)別等功能,通過對(duì)輿情信息文本內(nèi)容進(jìn)行分詞,提取長度大于二的詞語。在文本分詞之后,過濾對(duì)計(jì)算機(jī)理解文本無用的停用詞,保留名詞、動(dòng)詞、名形詞、動(dòng)形詞等詞性的詞,得到備選特征詞集,有效減少索引的大小,增加檢索效率,提高準(zhǔn)確率。經(jīng)過分詞處理的文本文檔,建立正序索引和倒排索引,實(shí)現(xiàn)用戶的查詢交互。文本經(jīng)過分詞、詞性標(biāo)注、去停用詞后,建立文本的特征語義網(wǎng)絡(luò)圖,統(tǒng)計(jì)文本的詞頻和文本頻率等信息,然后進(jìn)行加權(quán)計(jì)算和特征抽取等。
[0013]在步驟c中,所述輿情信息挖掘模塊,是在對(duì)文本集進(jìn)行預(yù)處理,包括中文分詞處理、停用詞過濾和結(jié)構(gòu)化標(biāo)簽信息分析后,將信息萃取模塊生成的文本數(shù)據(jù)集,根據(jù)文本特征語義網(wǎng)絡(luò)圖構(gòu)建的文本語義特征描述結(jié)構(gòu),利用相似度評(píng)價(jià)方法計(jì)算文本之間的語義相似度,構(gòu)建相似度矩陣,采用基于語義相似度的改進(jìn)文本聚類分析方法生成聚類結(jié)果?’聚類分析結(jié)果生成類別描述信息,篩選出聚類分析結(jié)果中包含的文本信息;利用基于特征統(tǒng)計(jì)的TFIDF詞頻特征計(jì)算方法統(tǒng)計(jì)類別特征,獲取候選類別特征詞,選擇名詞作為候選類別特征詞,按照候選特征詞權(quán)重排序,以權(quán)重值確定候選特征詞作為類別關(guān)鍵詞,利用類別關(guān)鍵詞之間的語義關(guān)系,形成分類結(jié)果;將挖掘結(jié)果構(gòu)建知識(shí)庫,知識(shí)庫還可以設(shè)置成具有同時(shí)支持輿情主題發(fā)現(xiàn)、輿情傾向性分析等文本挖掘功能。
[0014]在步驟d中,所述輿情信息分析模塊,是對(duì)已存入輿情信息數(shù)據(jù)庫中的經(jīng)過步驟c挖掘的數(shù)據(jù)進(jìn)行OLAP多維統(tǒng)計(jì)分析,分析輿情主題關(guān)注度、輿情內(nèi)容敏感度、輿情傳播擴(kuò)散度、輿情發(fā)布影響度等輿情評(píng)測(cè)指標(biāo),為相關(guān)部門及時(shí)掌握輿情動(dòng)態(tài)、適時(shí)發(fā)布輿情信息、做出正確決策提供支持。
[0015]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
[0016]1.當(dāng)前網(wǎng)絡(luò)輿情信息反映出了海量性、動(dòng)態(tài)性、不完整性、表現(xiàn)形式多樣性等特點(diǎn),而現(xiàn)有的輿情信息分析方法往往忽視了輿情信息文本內(nèi)容的相關(guān)關(guān)系,導(dǎo)致輿情信息分析結(jié)果不準(zhǔn)確;本發(fā)明采用構(gòu)建輿情信息文本的文本特征語義網(wǎng)絡(luò)圖模型,在文本描述結(jié)構(gòu)中引入詞語語義關(guān)聯(lián)及上下文語境之間的聯(lián)系;結(jié)合基于語義相似度的改進(jìn)文本聚類算法,挖掘分析出輿情信息文本中上下文語義相關(guān)的內(nèi)容。
[0017]2.通過建立輿情信息文本的文本特征語義網(wǎng)絡(luò)圖,將輿情信息文本中詞語間的上下文關(guān)系形成特征項(xiàng)和權(quán)重組成的有向圖結(jié)構(gòu),在保留文本詞語上下文信息結(jié)構(gòu)的同時(shí),強(qiáng)化了文本中詞語上下文語義的內(nèi)涵,較好地描述文本中隱含的語義信息和主題特征,解決文本中詞語語義信息缺失的問題。
[0018]3.基于語義相似度的改進(jìn)文本聚類算法適合于大規(guī)模網(wǎng)絡(luò)環(huán)境下對(duì)動(dòng)態(tài)數(shù)據(jù)的聚類分析和輿情主題熱點(diǎn)發(fā)現(xiàn),通過對(duì)文本語義相似度計(jì)算,構(gòu)建文本語義相似度矩陣,深度挖掘出輿情信息文本中上下文語義相關(guān)的內(nèi)容,及時(shí)檢測(cè)、跟蹤新的主題事件;采用類內(nèi)多個(gè)中心的主題表示方法,選擇文本與類內(nèi)每個(gè)中心的相似度最大值作為該類文本的相似度,有效地提高了系統(tǒng)運(yùn)行效率,隨著文本數(shù)量的增加,聚類分析效果會(huì)更加明顯。
【專利附圖】
【附圖說明】
[0019]圖1是本發(fā)明實(shí)施例基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法的工作流程圖?!揪唧w實(shí)施方式】
[0020]下面將結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步說明。但本發(fā)明的實(shí)施方式不限于此。
[0021]如圖1所示,本發(fā)明的方法中,包括網(wǎng)絡(luò)輿情信息采集模塊、輿情信息萃取模塊、輿情信息預(yù)處理模塊、輿情信息挖掘模塊、輿情信息分析模塊和包含輿情信息數(shù)據(jù)庫的網(wǎng)絡(luò)輿情信息分析系統(tǒng)。其處理流程是:
[0022](I)輿情信息采集
[0023]對(duì)網(wǎng)絡(luò)輿情信息源進(jìn)行采集,與一般的網(wǎng)絡(luò)爬蟲不同的是,它不僅要完成網(wǎng)頁的爬取,而且要將網(wǎng)頁內(nèi)容進(jìn)行格式化處理,提取有用的輿情信息,如輿情的主題和內(nèi)容,所得數(shù)據(jù)存入txt格式或html格式文件,寫入原始輿情信息數(shù)據(jù)庫。具體步驟為:按照預(yù)設(shè)的網(wǎng)絡(luò)輿情信息采集策略,從多個(gè)種子網(wǎng)頁的URL開始,通過各類端口發(fā)送遵循h(huán)ttp協(xié)議的指令(采用GET方法);遠(yuǎn)程服務(wù)器根據(jù)申請(qǐng)指令的內(nèi)容返回HTML類型的文檔。輿情信息采集模塊收集返回文檔中所有的信息后先保存至緩存,然后傳送到數(shù)據(jù)庫中保存,獲取網(wǎng)頁中的文本信息;在獲取網(wǎng)頁文本信息過程中,不斷從當(dāng)前網(wǎng)頁中抽取新出現(xiàn)的超鏈接URL訪問,并剔除已經(jīng)訪問過的超鏈接URL,如此反復(fù)循環(huán),直到滿足搜索策略的網(wǎng)頁文本信息采集完畢,未訪問的URL隊(duì)列為空為止。將采集的網(wǎng)頁文本信息按照字段分類存儲(chǔ)到數(shù)據(jù)庫中,提供輿情信息萃取模塊調(diào)用。
[0024]網(wǎng)絡(luò)輿情信息采集模塊通常采用分時(shí)訪問、定時(shí)更換IP地址、模擬瀏覽器進(jìn)行單點(diǎn)登錄等多種技術(shù)結(jié)合的防屏蔽策略。針對(duì)許多網(wǎng)站如論壇、博客、微博等通過用戶登錄方式才能訪問,這里采用模擬瀏覽器的策略較易實(shí)現(xiàn),利用微軟.NET開發(fā)工具VisualStudio2008提供的Web Browser控件為微軟IE瀏覽器的API調(diào)用,利用SSO單點(diǎn)登錄模擬提交用戶名及密碼登錄,等待用戶登錄信息加載完成后,頁面跳轉(zhuǎn)至相應(yīng)URL地址,通過提交關(guān)鍵詞進(jìn)行檢索,獲得所需網(wǎng)頁的源文件。
[0025]采集的網(wǎng)頁文本信息包括Web內(nèi)容信息、Web結(jié)構(gòu)和使用記錄信息兩部分。Web內(nèi)容信息包含新聞標(biāo)題、正文內(nèi)容、評(píng)論信息等文本內(nèi)容信息,Web結(jié)構(gòu)和Web使用記錄信息包含點(diǎn)擊量、瀏覽量、評(píng)論量等統(tǒng)計(jì)信息。
[0026](2)輿情信息萃取
[0027]采集的網(wǎng)頁信息含有廣告、導(dǎo)航信息、圖片、版權(quán)說明等噪聲數(shù)據(jù),對(duì)輿情信息分析來說真正需要的是正文部分的元信息,清除掉這些無關(guān)內(nèi)容,提取對(duì)輿情信息分析有用的正文部分的元信息,為文本后續(xù)的挖掘、分析提供服務(wù)。具體流程如下:
[0028](2-1)首先使用Tidy工具對(duì)正文網(wǎng)頁進(jìn)行HTML標(biāo)記規(guī)范化,然后利用htmlparser工具構(gòu)建HTML樹,將HTML標(biāo)記作為樹的節(jié)點(diǎn),這樣表示便于對(duì)HTML代碼的管理和操作,可以更好地對(duì)代碼進(jìn)行結(jié)構(gòu)化挖掘。
[0029](2-2)從采集的輿情信息源中提取標(biāo)題、關(guān)鍵詞、正文、長度、更新時(shí)間和URL等相關(guān)信息,標(biāo)題可截取標(biāo)簽〈TITLE〉與〈/TITLE〉之間的信息;關(guān)鍵詞包含在HTML文件頭部的META標(biāo)簽,可從META標(biāo)簽信息中提??;時(shí)間信息可通過模式匹配分析和網(wǎng)頁分析提取。
[0030](2-3)正文提取的具體步驟為:選擇適當(dāng)?shù)年P(guān)鍵詞,獲取相關(guān)網(wǎng)頁的URL地址,通過訪問URL地址所在的服務(wù)器,得到網(wǎng)頁的HTML源代碼;刪除網(wǎng)頁源代碼中的無用標(biāo)記行,保留網(wǎng)頁主體內(nèi)容;將HTML代碼中的段落符號(hào)(如</p>、<br>等)替換為特殊符號(hào)(如*[/p]*、*[/br]*等),回車符和換行符替換為行分隔符,采用行結(jié)構(gòu)存儲(chǔ)方式,保留網(wǎng)頁內(nèi)容格式;提取每一行HTML標(biāo)記“〈”與“〉”之間的文本;用回車符替換特殊符號(hào)(如*[/p]*、*[/br]*等),保持正文原有的段落;對(duì)結(jié)果字符串進(jìn)行去除HTML特殊轉(zhuǎn)義字符(如"、<等)處理,結(jié)合正則表達(dá)式,匹配并提取最終的正文結(jié)果。
[0031]從采集的輿情信息源中提取標(biāo)題、關(guān)鍵詞、正文、長度、更新時(shí)間和URL等相關(guān)信息后,輿情信息萃取模塊還要實(shí)現(xiàn)文本信息的重構(gòu)。
[0032]文本重構(gòu)通過分析網(wǎng)絡(luò)新聞、論壇帖子、微博博文等輿情信息存在形式和文本的結(jié)構(gòu)特征,將具有代表性話題的信息組成“主旨?jí)K”,其余部分的信息組成“內(nèi)容塊”,以提高聚類分析效果。
[0033]對(duì)于網(wǎng)頁新聞的文本重構(gòu),是把網(wǎng)頁新聞的標(biāo)題和首段信息組成“主旨?jí)K”,其余的新聞描述信息和評(píng)論內(nèi)容組成“內(nèi)容塊”。
[0034]對(duì)于論壇帖子的文本重構(gòu),是將帖子的標(biāo)題和主帖組成“主旨?jí)K”,將回帖和跟帖信息凈化處理,去除沒有漢字內(nèi)容的帖子和使用常用評(píng)價(jià)詞的帖子,選擇若干條帖子構(gòu)成“內(nèi)容塊”。
[0035](3)輿情信息預(yù)處理
[0036]輿情信息萃取后,接下來進(jìn)行中文分詞處理、命名實(shí)體識(shí)別、詞性標(biāo)注、語法解析、特征詞提取等預(yù)處理,將結(jié)果保存到數(shù)據(jù)庫中。要實(shí)現(xiàn)網(wǎng)絡(luò)輿情信息文本挖掘、自然語言處理等文本分析,首先要進(jìn)行分詞處理,借鑒國內(nèi)中文分詞領(lǐng)域的研究成果,采用中國科學(xué)院計(jì)算技術(shù)研究所研制的漢語詞法分析系統(tǒng)ICTCLAS進(jìn)行文本的分詞及詞性標(biāo)注,通過中文分詞處理,提取長度大于二的詞語。ICTCLAS的功能有中文文本的分詞、詞性標(biāo)注、新詞識(shí)別等;使用角色模型(role model)的方法進(jìn)行命名實(shí)體識(shí)別;同時(shí)支持用戶根據(jù)需要定義個(gè)
性化詞典,不僅具有較高的分詞精度,分詞效果也較好。其實(shí)現(xiàn)代碼如下:[0037]
//生成ICTCLAS類實(shí)例
ICTCLAS clas=ICTCLAS.Getinstance();
List<ResultTerin>terms=cIas.Segnient(this.txtinput.Text);
StringBuilder sb_seg=new StringBuiIderQ;
foreach(ResultTerm term in terms)
[0038]
{
//得到分詞后的詞語
sb_seg.Append(term.Word)
//得到分詞后的詞性
sb_seg.AppendFomiat(“/{0 丨term.POSStr);
sb_seg.Append(“”);
}
[0039]在文本分詞之后,過濾對(duì)計(jì)算機(jī)理解文本無用的停用詞,保留名詞、動(dòng)詞、名形詞、動(dòng)形詞等詞性的詞,得到備選特征詞集,以避免文本的冗雜,有效減少索引的大小,增加檢索效率,提高檢索準(zhǔn)確率。
[0040]經(jīng)過分詞處理的文本,建立正序索引和倒排索引,實(shí)現(xiàn)用戶的查詢交互。對(duì)于正序索引,根據(jù)詞頻的排序,選擇前N個(gè)詞語表示文本,用哈希表表示為:〈文件名,關(guān)鍵詞詞組> ;建立正序索引后,搜索文本中的關(guān)鍵詞,找出包含此關(guān)鍵詞的所有文件名,建立文件名詞組,可得倒排索引,用哈希表表示為: < 關(guān)鍵詞,文件名詞組〉。[0041]索引的建立和索引的檢索服務(wù)基于Apache開源項(xiàng)目Lucene實(shí)現(xiàn),Lucene提供完整的查詢引擎和索引引擎,文本分析引擎;采用Hadoop存儲(chǔ)和管理海量的索引文件。
[0042]索引的建立過程如下:
[0043]1.創(chuàng)建索引寫對(duì)象IndexWriter。該對(duì)象創(chuàng)建時(shí)需提供詞匯解析器,不同的詞匯解析器采用不同的詞庫。選用ThesaurusAnalyzer,能夠提取內(nèi)容摘要;
[0044]2.為取自數(shù)據(jù)庫中的每個(gè)結(jié)果集創(chuàng)建一個(gè)Document對(duì)象;
[0045]3.將結(jié)果集中的數(shù)據(jù)元分別創(chuàng)建一個(gè)Field對(duì)象,并添加到Document對(duì)象;
[0046]4.寫入該 Document 對(duì)象。
[0047]索引檢索的過程為:首先創(chuàng)建查詢解析器,該查詢解析器需要Field對(duì)象名以及對(duì)應(yīng)的詞匯解析器等參數(shù);再由查詢解析器和關(guān)鍵字獲得查詢對(duì)象;通過查詢對(duì)象獲取檢索的結(jié)果集,結(jié)果集由Document對(duì)象構(gòu)成。
[0048]文本經(jīng)過分詞、詞性標(biāo)注、去停用詞后,建立文本的特征語義網(wǎng)絡(luò)圖,統(tǒng)計(jì)文本的詞頻和文本頻率等信息,然后進(jìn)行加權(quán)計(jì)算和特征抽取等。
[0049]文本特征語義網(wǎng)絡(luò)圖是一種用實(shí)體及其語義關(guān)系來表達(dá)輿情信息的有向圖,以文本中包含的實(shí)體E(包括事物實(shí)體NE、事件實(shí)體VE、事件關(guān)系實(shí)體RE)作為圖的節(jié)點(diǎn),兩個(gè)實(shí)體之間的語義關(guān)系作為圖的有向邊,實(shí)體之間的語義關(guān)系結(jié)合詞頻信息作為節(jié)點(diǎn)的權(quán)重,有向邊的權(quán)重表示實(shí)體關(guān)系在文本中的重要程度。通過網(wǎng)絡(luò)節(jié)點(diǎn)權(quán)值的引入和基于概念的合并與簡化,構(gòu)建文本特征語義網(wǎng)絡(luò)圖,提取文本的核心語義。即通過網(wǎng)絡(luò)節(jié)點(diǎn)表示的詞語合并,節(jié)點(diǎn)權(quán)值相加;再合并有向邊,有向邊權(quán)值相加,構(gòu)建文本特征語義網(wǎng)絡(luò)圖,描述文本中的語義信息和主題特征。具體概念描述如下:
[0050]Cl:事物實(shí)體 NE 定義為 NE (id, concept, property, power)。id 代表實(shí)體標(biāo)識(shí),concept代表實(shí)體概念,property代表實(shí)體屬性,power代表權(quán)重。
[0051]C2:事件實(shí)體 VE 定義為 VE (id, concept, property, power, isN, subT, objTl, objT2)。除了包含NE的幾個(gè)數(shù)據(jù)項(xiàng)外,iSN代表是否為否定,subT代表主體實(shí)體表頭,ob jTl和objT2代表客體實(shí)體I與2的表頭。
[0052]C3:事件關(guān)系實(shí)體 RE 定義為 RE (id, concept, property, power, isN, subT, objT)。RE用一對(duì)主客體實(shí)體就可完全描述。
[0053]文本特征語義網(wǎng)絡(luò)圖模型分析步驟如下:
[0054]S1:在分析文本時(shí),首先以語句為單位,構(gòu)建各條語句對(duì)應(yīng)的特征語義網(wǎng)絡(luò)圖。逐句分析每句產(chǎn)生了哪些NE,將NE及其屬性信息記入實(shí)體信息表。
[0055]S2:NE分析完畢后,分析VE,登記VE的概念,屬性,主體和客體。主客體相同的VE實(shí)體表示為同一 VE,否則設(shè)置不同的id。
[0056]S3:接下來分析RE。分析RE要注意與NE、VE區(qū)分開來,把RE的概念、屬性、主體、客體登記到實(shí)體信息表。
[0057]S4:分析結(jié)束后,得到該語句的實(shí)體信息表。實(shí)體信息表描述了實(shí)體之間的關(guān)系,用來構(gòu)造實(shí)體關(guān)系圖,NE與VE之間,RE與NE、VE之間,實(shí)體E與屬性T之間通過不同的連線把實(shí)體關(guān)系可視化。
[0058]S5:在分析構(gòu)建第一條語句的特征語義網(wǎng)絡(luò)圖基礎(chǔ)上,將后續(xù)語句的特征語義網(wǎng)絡(luò)圖合并,先合并節(jié)點(diǎn),再合并有向邊。[0059]S6:合并節(jié)點(diǎn)時(shí),把節(jié)點(diǎn)之間詞語相同或者語義相似度滿足閾值條件的節(jié)點(diǎn)合并,節(jié)點(diǎn)權(quán)值相加;否則保留該節(jié)點(diǎn)。
[0060]S7:有向邊合并,是把合并后的節(jié)點(diǎn)間存在的有向邊進(jìn)行合并,有向邊權(quán)值相加。
[0061]S8:更新新合并節(jié)點(diǎn)鄰接邊的權(quán)值為該節(jié)點(diǎn)的權(quán)值,強(qiáng)化節(jié)點(diǎn)之間的語義關(guān)系。
[0062]S9:輸出所有合并語句的特征語義網(wǎng)絡(luò)圖后,完成整個(gè)文本的特征語義網(wǎng)絡(luò)圖的構(gòu)造。
[0063]下一步對(duì)詞性特征權(quán)重賦值,以準(zhǔn)確標(biāo)示文本。按照漢語詞性特點(diǎn)及完整事件描述要素(時(shí)間、地點(diǎn)、人物以及事件內(nèi)容),結(jié)合中國科學(xué)院漢語詞性標(biāo)記集,文本特征權(quán)重賦值分為:標(biāo)題權(quán)重值為3,子標(biāo)題和關(guān)鍵詞權(quán)重值為2,摘要權(quán)重值為1.5,段首句和段尾句權(quán)重值為1.3。
[0064]輿情信息經(jīng)過預(yù)處理后,為文本的標(biāo)題、正文和回復(fù)設(shè)置不同的標(biāo)簽,在計(jì)算權(quán)重時(shí),讀取關(guān)鍵詞的標(biāo)簽信息,完成詞語的位置權(quán)重的賦值。
[0065](4)輿情信息挖掘
[0066]輿情信息挖掘模塊,是在對(duì)文本集進(jìn)行預(yù)處理,包括中文分詞處理、停用詞過濾和結(jié)構(gòu)化標(biāo)簽信息分析后,將信息萃取模塊生成的文本數(shù)據(jù)集,根據(jù)文本特征語義網(wǎng)絡(luò)圖構(gòu)建的文本語義特征描述結(jié)構(gòu),利用相似度評(píng)價(jià)方法計(jì)算文本之間的語義相似度,構(gòu)建相似度矩陣,采用基于語義相似度的改進(jìn)文本聚類分析方法生成聚類結(jié)果;聚類分析結(jié)果生成類別描述信息,篩選出聚類分析結(jié)果中包含的文本信息;利用基于特征統(tǒng)計(jì)的TFIDF詞頻特征計(jì)算方法統(tǒng)計(jì)類別特征,獲取候選類別特征詞,選擇名詞作為候選類別特征詞,按照候選特征詞權(quán)重排序,以權(quán)重值確定候選特征詞作為類別關(guān)鍵詞,利用類別關(guān)鍵詞之間的語義關(guān)系,形成分類結(jié)果;將挖掘結(jié)果構(gòu)建知識(shí)庫,知識(shí)庫還可以設(shè)置成具有同時(shí)支持輿情主題發(fā)現(xiàn)、輿情傾向性分析等文本挖掘功能。
[0067]首先定義和計(jì)算文本之間的相似度,即文本之間所討論主題的相關(guān)程度,用Sim(D11D2)表示文本D1和文本D2之間的相似度。相似度取值范圍在O和I之間,與文本D1和D2的相似程度成正比。文本之間的相似度越大,表明文本之間的主題相關(guān)程度越大。文本之間的語義相似度評(píng)價(jià)方法如下:
[0068]設(shè)經(jīng)過步驟b的輿情信息萃取和預(yù)處理后的文本為D1 (tn, t12, t13,…,tlm),D2(t21, t22, t23,...,t2J,計(jì)算文本D1中所有關(guān)鍵詞tn與文本D2中所有關(guān)鍵詞t2i的相似度,形成相似度矩陣如下:
[0069]
【權(quán)利要求】
1.基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征在于:采用包括網(wǎng)絡(luò)輿情信息采集模塊、輿情信息萃取模塊、輿情信息預(yù)處理模塊、輿情信息挖掘模塊、輿情信息分析模塊和包含輿情信息數(shù)據(jù)庫的網(wǎng)絡(luò)輿情信息分析系統(tǒng),并包括如下步驟: a.網(wǎng)絡(luò)輿情信息采集模塊從網(wǎng)頁中采集各種輿情信息,并存儲(chǔ)到輿情信息數(shù)據(jù)庫中; b.輿情信息萃取模塊和輿情信息預(yù)處理模塊將步驟a采集的輿情信息進(jìn)行初步過濾和切分,抽取文本所包含的內(nèi)容信息,為輿情信息挖掘提供數(shù)據(jù)服務(wù); c.在步驟b基礎(chǔ)上,輿情信息挖掘模塊采用基于語義相似度的改進(jìn)文本聚類分析方法,生成類別描述信息,篩選出聚類分析結(jié)果中包含的文本信息;利用基于特征統(tǒng)計(jì)的TFIDF詞頻特征計(jì)算方法統(tǒng)計(jì)類別特征,獲取類別特征詞,選擇名詞作為候選類別特征詞,按照候選特征詞權(quán)重排序,以權(quán)重值較大的候選特征詞作為類別關(guān)鍵詞,利用類別關(guān)鍵詞之間的語義關(guān)系,形成分類結(jié)果;識(shí)別和建立新的網(wǎng)絡(luò)輿情主題,檢測(cè)、跟蹤已有輿情主題的相關(guān)內(nèi)容; d.最后,輿情信息分析模塊把輿情信息經(jīng)過步驟c挖掘的數(shù)據(jù)進(jìn)行OLAP多維統(tǒng)計(jì)分析,分析輿情主題內(nèi)容關(guān)注度、輿情主題情感傾向等輿情評(píng)測(cè)指標(biāo)。
2.根據(jù)權(quán)利要求1所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征是,在步驟a中,所述輿情信息采集模塊,是對(duì)網(wǎng)絡(luò)輿情信息源進(jìn)行采集,不僅要完成網(wǎng)頁的爬取,而且要將網(wǎng)頁內(nèi)容進(jìn)行格式化處理,提取輿情的主題和內(nèi)容,所得數(shù)據(jù)存入txt格式或html格式文件,并存儲(chǔ)到輿情信息數(shù)據(jù)庫;網(wǎng)絡(luò)輿情信息采集模塊采用分時(shí)訪問、定時(shí)更換IP地址和模擬瀏覽器進(jìn)行單點(diǎn)登錄三種技術(shù)結(jié)合進(jìn)行防屏蔽。
3.根據(jù)權(quán)利要求2所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征是,所述輿情信息采集模塊執(zhí)行的具體步驟為,從預(yù)先定義的主題相關(guān)網(wǎng)頁的URL開始,獲取網(wǎng)頁中的文本信息,并從當(dāng)前網(wǎng)頁中抽取新的URL放入隊(duì)列中,直到滿足條件的輿情信息采集完畢,URL隊(duì)列為空為止;將采集到的網(wǎng)頁文本信息按照字段分類存儲(chǔ)到輿情信息數(shù)據(jù)庫中,提供輿情信息萃取模塊調(diào)用。
4.根據(jù)權(quán)利要求1所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征是,在步驟b中,所述輿情信息萃取模塊,是清除網(wǎng)頁中的無關(guān)內(nèi)容,提取對(duì)輿情分析有用的正文部分的元信息,對(duì)文本進(jìn)行重構(gòu),將具有主題代表性的信息聚集在一起;所述輿情信息預(yù)處理模塊,是對(duì)采集的輿情信息源經(jīng)過所述輿情信息萃取模塊萃取后,進(jìn)行中文分詞處理、過濾停用詞、命名實(shí)體識(shí)別、詞性標(biāo)注、語法解析和特征詞提取,建立正序索引和倒排索引;建立文本特征語義網(wǎng)絡(luò)圖,以文本中包含的實(shí)體E作為圖的節(jié)點(diǎn),兩個(gè)實(shí)體之間的語義關(guān)系作為圖的有向邊,實(shí)體之間的語義關(guān)系結(jié)合詞頻信息作為節(jié)點(diǎn)的權(quán)重,有向邊的權(quán)重表示實(shí)體關(guān)系在文本中的重要程度,所述實(shí)體E包括事物實(shí)體NE、事件實(shí)體VE、事件關(guān)系實(shí)體RE ;統(tǒng)計(jì)文本的詞頻和文本頻率信息,然后進(jìn)行特征詞抽取,選取體現(xiàn)文本特征的詞表示該文本。
5.根據(jù)權(quán)利要求4所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征是,在步驟c中,所述輿情信息挖掘模塊,是在對(duì)文本集進(jìn)行預(yù)處理,包括中文分詞處理、停用詞過濾和結(jié)構(gòu)化標(biāo)簽信息分析后,將信息萃取模塊生成的文本數(shù)據(jù)集,根據(jù)文本特征語義網(wǎng)絡(luò)圖構(gòu)建的文本語義特征描述結(jié)構(gòu),利用相似度評(píng)價(jià)方法計(jì)算文本之間的語義相似度,構(gòu)建相似度矩陣,采用基于語義相似度的改進(jìn)文本聚類分析方法生成聚類結(jié)果;聚類分析結(jié)果生成類別描述信息,篩選出聚類分析結(jié)果中包含的文本信息;利用基于特征統(tǒng)計(jì)的TFIDF詞頻特征計(jì)算方法統(tǒng)計(jì)類別特征,獲取候選類別特征詞,選擇名詞作為候選類別特征詞,按照候選特征詞權(quán)重排序,以權(quán)重值確定候選特征詞作為類別關(guān)鍵詞,利用類別關(guān)鍵詞之間的語義關(guān)系,形成分類結(jié)果;將挖掘結(jié)果構(gòu)建知識(shí)庫。
6.根據(jù)權(quán)利要求4或5所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征是,文本特征語義網(wǎng)絡(luò)圖是利用實(shí)體及其語義關(guān)系來表達(dá)輿情信息的有向圖,通過網(wǎng)絡(luò)節(jié)點(diǎn)表示的詞語合并,節(jié)點(diǎn)權(quán)值相加;再合并有向邊,有向邊權(quán)值相加,構(gòu)建文本特征語義網(wǎng)絡(luò)圖,描述文本中的語義信息和主題特征。
7.根據(jù)權(quán)利要求5所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征是,文本之間的語義相似度評(píng)價(jià)方法為: 設(shè)經(jīng)過步驟b的輿情信息萃取和預(yù)處理后的文本為D1U11, t12, t13,…,tlm),D2(t21, t22, t23,...,t2J,計(jì)算文本D1中所有關(guān)鍵詞tn與文本D2中所有關(guān)鍵詞t2i的相似度,形成相似度矩陣如下:
8.根據(jù)權(quán)利要求7所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征是,基于語義相似度的改進(jìn)文本聚類分析方法為: O首先對(duì)所有采集的文本經(jīng)過預(yù)處理后,采用TFIDF加權(quán)法對(duì)所有類別關(guān)鍵詞進(jìn)行特征加權(quán),提取m個(gè)最優(yōu)特征關(guān)鍵詞形成原始的基于關(guān)鍵詞特征向量Di* ; 2)依據(jù)所述知識(shí)庫對(duì)原始的基于關(guān)鍵詞特征向量Di*中關(guān)鍵詞進(jìn)行預(yù)處理:在知識(shí)庫中找到與關(guān)鍵詞匹配的詞匯并將其替換,形成新的特征向量Di, Di=CT1, T2,…,Ti), i=l, 2,3,...,m ; 3)形成η個(gè)文本的m個(gè)特征向量Di,利用文本語義相似度計(jì)算公式計(jì)算采集的文本之間的語義相似度,形成文本集的相似度矩陣M,并求出所有特征向量的平均相似度MA ;計(jì)算公式如下:
9.根據(jù)權(quán)利要求1所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征是,在步驟d中,所述輿情信息分析模塊,是對(duì)已存入輿情信息數(shù)據(jù)庫中的經(jīng)過步驟c挖掘的數(shù)據(jù)進(jìn)行OLAP多維統(tǒng)計(jì)分析。
【文檔編號(hào)】G06F17/30GK103544255SQ201310482522
【公開日】2014年1月29日 申請(qǐng)日期:2013年10月15日 優(yōu)先權(quán)日:2013年10月15日
【發(fā)明者】陶宇煒, 謝愛娟, 熊長江, 王娟琳 申請(qǐng)人:常州大學(xué)