基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法

文檔序號(hào)：6515495閱讀：332來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法
【專利摘要】本發(fā)明涉及一種基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析系統(tǒng)，包括以下模塊：網(wǎng)絡(luò)輿情信息采集模塊，從網(wǎng)頁中采集蘊(yùn)含豐富的各種輿情信息；輿情信息萃取模塊和輿情信息預(yù)處理模塊將采集的輿情信息進(jìn)行初步過濾和切分，提取正文部分的元信息，建立文本的特征語義網(wǎng)絡(luò)圖，并進(jìn)行加權(quán)計(jì)算和特征抽取，為輿情信息挖掘提供服務(wù)。輿情信息挖掘模塊，采用基于語義相似度的改進(jìn)文本聚類分析方法，將文本進(jìn)行歸類；輿情信息分析模塊，把輿情信息經(jīng)過挖掘的數(shù)據(jù)進(jìn)行OLAP多維統(tǒng)計(jì)，分析輿情評(píng)測(cè)指標(biāo)，為相關(guān)輿情信息決策提供支持。本發(fā)明解決文本中詞語語義信息不完整的問題，高效實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)環(huán)境下對(duì)動(dòng)態(tài)數(shù)據(jù)的聚類分析和熱點(diǎn)話題發(fā)現(xiàn)。
【專利說明】基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)信息【技術(shù)領(lǐng)域】，具體是一種基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法。
【背景技術(shù)】
[0002]當(dāng)今社會(huì)，互聯(lián)網(wǎng)已經(jīng)滲透到人們的日常生活中，微博、論壇、博客等即時(shí)通信工具已經(jīng)成為人們獲取信息，進(jìn)而發(fā)表看法、傳播信息的重要渠道。借助網(wǎng)絡(luò)平臺(tái)，輿情信息迅速傳播，引起廣泛關(guān)注，其傳播的速度之快、范圍之廣、影響力之大，遠(yuǎn)非傳統(tǒng)媒體可比，網(wǎng)絡(luò)空間的匿名交互性、非時(shí)空限制性等特點(diǎn)，使網(wǎng)絡(luò)輿情這股強(qiáng)大的社會(huì)輿論力量，對(duì)社會(huì)發(fā)展和穩(wěn)定產(chǎn)生一定的沖擊和影響。正面的網(wǎng)絡(luò)輿情似“正能量”，推動(dòng)和促進(jìn)社會(huì)發(fā)展；負(fù)面的網(wǎng)絡(luò)輿情對(duì)社會(huì)穩(wěn)定形成負(fù)面效應(yīng)，引發(fā)輿情危機(jī)。由此，加強(qiáng)網(wǎng)絡(luò)輿情信息監(jiān)測(cè)、分析、管理，對(duì)穩(wěn)定社會(huì)秩序、構(gòu)建和諧社會(huì)具有重要的現(xiàn)實(shí)意義。對(duì)網(wǎng)絡(luò)輿情信息及時(shí)監(jiān)測(cè)、正確判斷決策、迅速及時(shí)回應(yīng)，積極采取有效措施化解輿情危機(jī)，成為網(wǎng)絡(luò)輿情管理工作的重點(diǎn)和難點(diǎn)問題。

【發(fā)明內(nèi)容】

[0003]針對(duì)上述【背景技術(shù)】中網(wǎng)絡(luò)輿情信息的特點(diǎn)和網(wǎng)絡(luò)輿情信息管理中需要解決的問題，本發(fā)明提供一種基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法。
[0004]本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是，一種基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法。采用包括網(wǎng)絡(luò)輿情信息采集模塊、輿情信息萃取模塊、輿情信息預(yù)處理模塊、輿情信息挖掘模塊、輿情信息分析模塊和包含輿情信息數(shù)據(jù)庫的網(wǎng)絡(luò)輿情信息分析系統(tǒng)，并包括如下步驟:
[0005]a.網(wǎng)絡(luò)輿情信息采集模塊從網(wǎng)頁中采集各種輿情信息，并存儲(chǔ)到輿情信息數(shù)據(jù)庫中；
[0006]b.輿情信息萃取模塊和輿情信息預(yù)處理模塊將步驟a采集的輿情信息進(jìn)行初步過濾和切分，抽取文本所包含的內(nèi)容信息，為輿情信息挖掘提供數(shù)據(jù)服務(wù)；
[0007]c.在步驟b基礎(chǔ)上，輿情信息挖掘模塊采用基于語義相似度的改進(jìn)文本聚類分析方法，生成類別描述信息，篩選出聚類分析結(jié)果中包含的文本信息；利用基于特征統(tǒng)計(jì)的TFIDF詞頻特征計(jì)算方法統(tǒng)計(jì)類別特征，獲取類別特征詞，選擇名詞作為候選類別特征詞，按照候選特征詞權(quán)重排序，以權(quán)重值較大的候選特征詞作為類別關(guān)鍵詞，利用類別關(guān)鍵詞之間的語義關(guān)系，形成分類結(jié)果；識(shí)別和建立新的網(wǎng)絡(luò)輿情主題，檢測(cè)、跟蹤已有輿情主題的相關(guān)內(nèi)容；
[0008]d.最后，輿情信息分析模塊把輿情信息經(jīng)過步驟c挖掘的數(shù)據(jù)進(jìn)行OLAP多維統(tǒng)計(jì)分析，分析輿情主題內(nèi)容關(guān)注度、輿情主題情感傾向等輿情評(píng)測(cè)指標(biāo)。
[0009]在步驟a中，所述輿情信息采集模塊，是對(duì)網(wǎng)絡(luò)輿情信息源進(jìn)行采集，與一般的網(wǎng)絡(luò)爬蟲不同的是，它不僅要完成網(wǎng)頁的爬取，而且要將網(wǎng)頁內(nèi)容進(jìn)行格式化處理，提取輿情的主題和內(nèi)容，所得數(shù)據(jù)存入txt格式或html格式文件，并存儲(chǔ)到輿情信息數(shù)據(jù)庫；網(wǎng)絡(luò)輿情信息采集模塊采用分時(shí)訪問、定時(shí)更換IP地址和模擬瀏覽器進(jìn)行單點(diǎn)登錄三種技術(shù)結(jié)合進(jìn)行防屏蔽。網(wǎng)絡(luò)輿情信息采集模塊采用分時(shí)訪問、定時(shí)更換IP地址和模擬瀏覽器進(jìn)行單點(diǎn)登錄三種技術(shù)結(jié)合進(jìn)行防屏蔽。網(wǎng)絡(luò)輿情信息采集模塊執(zhí)行的具體步驟為:所述輿情信息采集模塊執(zhí)行的具體步驟為，從預(yù)先定義的主題相關(guān)網(wǎng)頁的URL開始，獲取網(wǎng)頁中的文本信息，并從當(dāng)前網(wǎng)頁中抽取新的URL放入隊(duì)列中，直到滿足條件的輿情信息采集完畢，URL隊(duì)列為空為止；將采集到的網(wǎng)頁文本信息按照字段分類存儲(chǔ)到輿情信息數(shù)據(jù)庫中，提供輿情信息萃取模塊調(diào)用。
[0010]所述輿情信息萃取模塊，是清除網(wǎng)頁中的無關(guān)內(nèi)容，如網(wǎng)頁中的廣告、導(dǎo)航信息、圖片、版權(quán)說明等噪聲數(shù)據(jù)，提取對(duì)輿情分析有用的正文部分的元信息，對(duì)文本進(jìn)行重構(gòu)，將具有主題代表性的信息聚集在一起；所述輿情信息預(yù)處理模塊，是對(duì)采集的輿情信息源經(jīng)過所述輿情信息萃取模塊萃取后，進(jìn)行中文分詞處理、過濾停用詞、命名實(shí)體識(shí)別、詞性標(biāo)注、語法解析和特征詞提取，建立正序索引和倒排索引；建立文本特征語義網(wǎng)絡(luò)圖，以文本中包含的實(shí)體E作為圖的節(jié)點(diǎn)，兩個(gè)實(shí)體之間的語義關(guān)系作為圖的有向邊，實(shí)體之間的語義關(guān)系結(jié)合詞頻信息作為節(jié)點(diǎn)的權(quán)重，有向邊的權(quán)重表示實(shí)體關(guān)系在文本中的重要程度，所述實(shí)體E包括事物實(shí)體NE、事件實(shí)體VE、事件關(guān)系實(shí)體RE ;統(tǒng)計(jì)文本的詞頻和文本頻率信息，然后進(jìn)行特征詞抽取，選取體現(xiàn)文本特征的詞表示該文本。
[0011 ] 在步驟b中，所述輿情信息萃取模塊，是清除網(wǎng)頁中的無關(guān)內(nèi)容，提取對(duì)輿情分析有用的正文部分的元信息，對(duì)文本進(jìn)行重構(gòu)，將具有主題代表性的信息聚集在一起；所述輿情信息預(yù)處理模塊，是對(duì)采集的輿情信息源經(jīng)過所述輿情信息萃取模塊萃取后，進(jìn)行中文分詞處理、過濾停用詞、命名實(shí)體識(shí)別、詞性標(biāo)注、語法解析和特征詞提取，建立正序索引和倒排索引；建立文本特征語義網(wǎng)絡(luò)圖，以文本中包含的實(shí)體E作為圖的節(jié)點(diǎn)，兩個(gè)實(shí)體之間的語義關(guān)系作為圖的有向邊，實(shí)體之間的語義關(guān)系結(jié)合詞頻信息作為節(jié)點(diǎn)的權(quán)重，有向邊的權(quán)重表示實(shí)體關(guān)系在文本中的重要程度，所述實(shí)體E包括事物實(shí)體NE、事件實(shí)體VE、事件關(guān)系實(shí)體RE ;統(tǒng)計(jì)文本的詞頻和文本頻率信息，然后進(jìn)行特征詞抽取，選取體現(xiàn)文本特征的詞表示該文本。
[0012]要實(shí)現(xiàn)網(wǎng)絡(luò)輿情信息文本挖掘、自然語言處理等文本分析，首先要進(jìn)行分詞處理，借鑒國內(nèi)中文分詞領(lǐng)域的研究成果，使用中國科學(xué)院計(jì)算技術(shù)研究所研制的ICTCLAS漢語詞法分析系統(tǒng)所具有的詞語切分、詞性標(biāo)注、命名實(shí)體識(shí)別等功能，通過對(duì)輿情信息文本內(nèi)容進(jìn)行分詞，提取長度大于二的詞語。在文本分詞之后，過濾對(duì)計(jì)算機(jī)理解文本無用的停用詞，保留名詞、動(dòng)詞、名形詞、動(dòng)形詞等詞性的詞，得到備選特征詞集，有效減少索引的大小，增加檢索效率，提高準(zhǔn)確率。經(jīng)過分詞處理的文本文檔，建立正序索引和倒排索引，實(shí)現(xiàn)用戶的查詢交互。文本經(jīng)過分詞、詞性標(biāo)注、去停用詞后，建立文本的特征語義網(wǎng)絡(luò)圖，統(tǒng)計(jì)文本的詞頻和文本頻率等信息，然后進(jìn)行加權(quán)計(jì)算和特征抽取等。
[0013]在步驟c中，所述輿情信息挖掘模塊，是在對(duì)文本集進(jìn)行預(yù)處理，包括中文分詞處理、停用詞過濾和結(jié)構(gòu)化標(biāo)簽信息分析后，將信息萃取模塊生成的文本數(shù)據(jù)集，根據(jù)文本特征語義網(wǎng)絡(luò)圖構(gòu)建的文本語義特征描述結(jié)構(gòu)，利用相似度評(píng)價(jià)方法計(jì)算文本之間的語義相似度，構(gòu)建相似度矩陣，采用基于語義相似度的改進(jìn)文本聚類分析方法生成聚類結(jié)果?’聚類分析結(jié)果生成類別描述信息，篩選出聚類分析結(jié)果中包含的文本信息；利用基于特征統(tǒng)計(jì)的TFIDF詞頻特征計(jì)算方法統(tǒng)計(jì)類別特征，獲取候選類別特征詞，選擇名詞作為候選類別特征詞，按照候選特征詞權(quán)重排序，以權(quán)重值確定候選特征詞作為類別關(guān)鍵詞，利用類別關(guān)鍵詞之間的語義關(guān)系，形成分類結(jié)果；將挖掘結(jié)果構(gòu)建知識(shí)庫，知識(shí)庫還可以設(shè)置成具有同時(shí)支持輿情主題發(fā)現(xiàn)、輿情傾向性分析等文本挖掘功能。
[0014]在步驟d中，所述輿情信息分析模塊，是對(duì)已存入輿情信息數(shù)據(jù)庫中的經(jīng)過步驟c挖掘的數(shù)據(jù)進(jìn)行OLAP多維統(tǒng)計(jì)分析，分析輿情主題關(guān)注度、輿情內(nèi)容敏感度、輿情傳播擴(kuò)散度、輿情發(fā)布影響度等輿情評(píng)測(cè)指標(biāo)，為相關(guān)部門及時(shí)掌握輿情動(dòng)態(tài)、適時(shí)發(fā)布輿情信息、做出正確決策提供支持。
[0015]與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果:
[0016]1.當(dāng)前網(wǎng)絡(luò)輿情信息反映出了海量性、動(dòng)態(tài)性、不完整性、表現(xiàn)形式多樣性等特點(diǎn)，而現(xiàn)有的輿情信息分析方法往往忽視了輿情信息文本內(nèi)容的相關(guān)關(guān)系，導(dǎo)致輿情信息分析結(jié)果不準(zhǔn)確；本發(fā)明采用構(gòu)建輿情信息文本的文本特征語義網(wǎng)絡(luò)圖模型，在文本描述結(jié)構(gòu)中引入詞語語義關(guān)聯(lián)及上下文語境之間的聯(lián)系；結(jié)合基于語義相似度的改進(jìn)文本聚類算法，挖掘分析出輿情信息文本中上下文語義相關(guān)的內(nèi)容。
[0017]2.通過建立輿情信息文本的文本特征語義網(wǎng)絡(luò)圖，將輿情信息文本中詞語間的上下文關(guān)系形成特征項(xiàng)和權(quán)重組成的有向圖結(jié)構(gòu)，在保留文本詞語上下文信息結(jié)構(gòu)的同時(shí)，強(qiáng)化了文本中詞語上下文語義的內(nèi)涵，較好地描述文本中隱含的語義信息和主題特征，解決文本中詞語語義信息缺失的問題。
[0018]3.基于語義相似度的改進(jìn)文本聚類算法適合于大規(guī)模網(wǎng)絡(luò)環(huán)境下對(duì)動(dòng)態(tài)數(shù)據(jù)的聚類分析和輿情主題熱點(diǎn)發(fā)現(xiàn)，通過對(duì)文本語義相似度計(jì)算，構(gòu)建文本語義相似度矩陣，深度挖掘出輿情信息文本中上下文語義相關(guān)的內(nèi)容，及時(shí)檢測(cè)、跟蹤新的主題事件；采用類內(nèi)多個(gè)中心的主題表示方法，選擇文本與類內(nèi)每個(gè)中心的相似度最大值作為該類文本的相似度，有效地提高了系統(tǒng)運(yùn)行效率，隨著文本數(shù)量的增加，聚類分析效果會(huì)更加明顯。
【專利附圖】

【附圖說明】
[0019]圖1是本發(fā)明實(shí)施例基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法的工作流程圖?！揪唧w實(shí)施方式】
[0020]下面將結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步說明。但本發(fā)明的實(shí)施方式不限于此。
[0021]如圖1所示，本發(fā)明的方法中，包括網(wǎng)絡(luò)輿情信息采集模塊、輿情信息萃取模塊、輿情信息預(yù)處理模塊、輿情信息挖掘模塊、輿情信息分析模塊和包含輿情信息數(shù)據(jù)庫的網(wǎng)絡(luò)輿情信息分析系統(tǒng)。其處理流程是:
[0022](I)輿情信息采集
[0023]對(duì)網(wǎng)絡(luò)輿情信息源進(jìn)行采集，與一般的網(wǎng)絡(luò)爬蟲不同的是，它不僅要完成網(wǎng)頁的爬取，而且要將網(wǎng)頁內(nèi)容進(jìn)行格式化處理，提取有用的輿情信息，如輿情的主題和內(nèi)容，所得數(shù)據(jù)存入txt格式或html格式文件，寫入原始輿情信息數(shù)據(jù)庫。具體步驟為:按照預(yù)設(shè)的網(wǎng)絡(luò)輿情信息采集策略，從多個(gè)種子網(wǎng)頁的URL開始，通過各類端口發(fā)送遵循h(huán)ttp協(xié)議的指令(采用GET方法)；遠(yuǎn)程服務(wù)器根據(jù)申請(qǐng)指令的內(nèi)容返回HTML類型的文檔。輿情信息采集模塊收集返回文檔中所有的信息后先保存至緩存，然后傳送到數(shù)據(jù)庫中保存，獲取網(wǎng)頁中的文本信息；在獲取網(wǎng)頁文本信息過程中，不斷從當(dāng)前網(wǎng)頁中抽取新出現(xiàn)的超鏈接URL訪問，并剔除已經(jīng)訪問過的超鏈接URL，如此反復(fù)循環(huán)，直到滿足搜索策略的網(wǎng)頁文本信息采集完畢，未訪問的URL隊(duì)列為空為止。將采集的網(wǎng)頁文本信息按照字段分類存儲(chǔ)到數(shù)據(jù)庫中，提供輿情信息萃取模塊調(diào)用。
[0024]網(wǎng)絡(luò)輿情信息采集模塊通常采用分時(shí)訪問、定時(shí)更換IP地址、模擬瀏覽器進(jìn)行單點(diǎn)登錄等多種技術(shù)結(jié)合的防屏蔽策略。針對(duì)許多網(wǎng)站如論壇、博客、微博等通過用戶登錄方式才能訪問，這里采用模擬瀏覽器的策略較易實(shí)現(xiàn)，利用微軟.NET開發(fā)工具VisualStudio2008提供的Web Browser控件為微軟IE瀏覽器的API調(diào)用，利用SSO單點(diǎn)登錄模擬提交用戶名及密碼登錄，等待用戶登錄信息加載完成后，頁面跳轉(zhuǎn)至相應(yīng)URL地址，通過提交關(guān)鍵詞進(jìn)行檢索，獲得所需網(wǎng)頁的源文件。
[0025]采集的網(wǎng)頁文本信息包括Web內(nèi)容信息、Web結(jié)構(gòu)和使用記錄信息兩部分。Web內(nèi)容信息包含新聞標(biāo)題、正文內(nèi)容、評(píng)論信息等文本內(nèi)容信息，Web結(jié)構(gòu)和Web使用記錄信息包含點(diǎn)擊量、瀏覽量、評(píng)論量等統(tǒng)計(jì)信息。
[0026](2)輿情信息萃取
[0027]采集的網(wǎng)頁信息含有廣告、導(dǎo)航信息、圖片、版權(quán)說明等噪聲數(shù)據(jù)，對(duì)輿情信息分析來說真正需要的是正文部分的元信息，清除掉這些無關(guān)內(nèi)容，提取對(duì)輿情信息分析有用的正文部分的元信息，為文本后續(xù)的挖掘、分析提供服務(wù)。具體流程如下:
[0028](2-1)首先使用Tidy工具對(duì)正文網(wǎng)頁進(jìn)行HTML標(biāo)記規(guī)范化，然后利用htmlparser工具構(gòu)建HTML樹，將HTML標(biāo)記作為樹的節(jié)點(diǎn)，這樣表示便于對(duì)HTML代碼的管理和操作，可以更好地對(duì)代碼進(jìn)行結(jié)構(gòu)化挖掘。
[0029](2-2)從采集的輿情信息源中提取標(biāo)題、關(guān)鍵詞、正文、長度、更新時(shí)間和URL等相關(guān)信息，標(biāo)題可截取標(biāo)簽〈TITLE〉與〈/TITLE〉之間的信息；關(guān)鍵詞包含在HTML文件頭部的META標(biāo)簽，可從META標(biāo)簽信息中提??；時(shí)間信息可通過模式匹配分析和網(wǎng)頁分析提取。
[0030](2-3)正文提取的具體步驟為:選擇適當(dāng)?shù)年P(guān)鍵詞，獲取相關(guān)網(wǎng)頁的URL地址，通過訪問URL地址所在的服務(wù)器，得到網(wǎng)頁的HTML源代碼；刪除網(wǎng)頁源代碼中的無用標(biāo)記行，保留網(wǎng)頁主體內(nèi)容；將HTML代碼中的段落符號(hào)(如</p>、<br>等)替換為特殊符號(hào)(如*[/p]*、*[/br]*等)，回車符和換行符替換為行分隔符，采用行結(jié)構(gòu)存儲(chǔ)方式，保留網(wǎng)頁內(nèi)容格式；提取每一行HTML標(biāo)記“〈”與“〉”之間的文本；用回車符替換特殊符號(hào)(如*[/p]*、*[/br]*等)，保持正文原有的段落；對(duì)結(jié)果字符串進(jìn)行去除HTML特殊轉(zhuǎn)義字符(如&quot、&lt等)處理，結(jié)合正則表達(dá)式，匹配并提取最終的正文結(jié)果。
[0031]從采集的輿情信息源中提取標(biāo)題、關(guān)鍵詞、正文、長度、更新時(shí)間和URL等相關(guān)信息后，輿情信息萃取模塊還要實(shí)現(xiàn)文本信息的重構(gòu)。
[0032]文本重構(gòu)通過分析網(wǎng)絡(luò)新聞、論壇帖子、微博博文等輿情信息存在形式和文本的結(jié)構(gòu)特征，將具有代表性話題的信息組成“主旨?jí)K”，其余部分的信息組成“內(nèi)容塊”，以提高聚類分析效果。
[0033]對(duì)于網(wǎng)頁新聞的文本重構(gòu)，是把網(wǎng)頁新聞的標(biāo)題和首段信息組成“主旨?jí)K”，其余的新聞描述信息和評(píng)論內(nèi)容組成“內(nèi)容塊”。
[0034]對(duì)于論壇帖子的文本重構(gòu)，是將帖子的標(biāo)題和主帖組成“主旨?jí)K”，將回帖和跟帖信息凈化處理，去除沒有漢字內(nèi)容的帖子和使用常用評(píng)價(jià)詞的帖子，選擇若干條帖子構(gòu)成“內(nèi)容塊”。
[0035](3)輿情信息預(yù)處理
[0036]輿情信息萃取后，接下來進(jìn)行中文分詞處理、命名實(shí)體識(shí)別、詞性標(biāo)注、語法解析、特征詞提取等預(yù)處理，將結(jié)果保存到數(shù)據(jù)庫中。要實(shí)現(xiàn)網(wǎng)絡(luò)輿情信息文本挖掘、自然語言處理等文本分析，首先要進(jìn)行分詞處理，借鑒國內(nèi)中文分詞領(lǐng)域的研究成果，采用中國科學(xué)院計(jì)算技術(shù)研究所研制的漢語詞法分析系統(tǒng)ICTCLAS進(jìn)行文本的分詞及詞性標(biāo)注，通過中文分詞處理，提取長度大于二的詞語。ICTCLAS的功能有中文文本的分詞、詞性標(biāo)注、新詞識(shí)別等；使用角色模型(role model)的方法進(jìn)行命名實(shí)體識(shí)別；同時(shí)支持用戶根據(jù)需要定義個(gè)
性化詞典，不僅具有較高的分詞精度，分詞效果也較好。其實(shí)現(xiàn)代碼如下:[0037]
//生成ICTCLAS類實(shí)例
ICTCLAS clas=ICTCLAS.Getinstance();
List<ResultTerin>terms=cIas.Segnient(this.txtinput.Text);
StringBuilder sb_seg=new StringBuiIderQ;
foreach(ResultTerm term in terms)
[0038]

{
//得到分詞后的詞語
sb_seg.Append(term.Word)
//得到分詞后的詞性

sb_seg.AppendFomiat(“/{0 丨term.POSStr);
sb_seg.Append(“”)；

}
[0039]在文本分詞之后，過濾對(duì)計(jì)算機(jī)理解文本無用的停用詞，保留名詞、動(dòng)詞、名形詞、動(dòng)形詞等詞性的詞，得到備選特征詞集，以避免文本的冗雜，有效減少索引的大小，增加檢索效率，提高檢索準(zhǔn)確率。
[0040]經(jīng)過分詞處理的文本，建立正序索引和倒排索引，實(shí)現(xiàn)用戶的查詢交互。對(duì)于正序索引，根據(jù)詞頻的排序，選擇前N個(gè)詞語表示文本，用哈希表表示為:〈文件名，關(guān)鍵詞詞組> ;建立正序索引后，搜索文本中的關(guān)鍵詞，找出包含此關(guān)鍵詞的所有文件名，建立文件名詞組，可得倒排索引，用哈希表表示為: < 關(guān)鍵詞，文件名詞組〉。[0041]索引的建立和索引的檢索服務(wù)基于Apache開源項(xiàng)目Lucene實(shí)現(xiàn),Lucene提供完整的查詢引擎和索引引擎，文本分析引擎；采用Hadoop存儲(chǔ)和管理海量的索引文件。
[0042]索引的建立過程如下:
[0043]1.創(chuàng)建索引寫對(duì)象IndexWriter。該對(duì)象創(chuàng)建時(shí)需提供詞匯解析器,不同的詞匯解析器采用不同的詞庫。選用ThesaurusAnalyzer,能夠提取內(nèi)容摘要；
[0044]2.為取自數(shù)據(jù)庫中的每個(gè)結(jié)果集創(chuàng)建一個(gè)Document對(duì)象；
[0045]3.將結(jié)果集中的數(shù)據(jù)元分別創(chuàng)建一個(gè)Field對(duì)象,并添加到Document對(duì)象；
[0046]4.寫入該 Document 對(duì)象。
[0047]索引檢索的過程為:首先創(chuàng)建查詢解析器，該查詢解析器需要Field對(duì)象名以及對(duì)應(yīng)的詞匯解析器等參數(shù)；再由查詢解析器和關(guān)鍵字獲得查詢對(duì)象；通過查詢對(duì)象獲取檢索的結(jié)果集，結(jié)果集由Document對(duì)象構(gòu)成。
[0048]文本經(jīng)過分詞、詞性標(biāo)注、去停用詞后，建立文本的特征語義網(wǎng)絡(luò)圖，統(tǒng)計(jì)文本的詞頻和文本頻率等信息，然后進(jìn)行加權(quán)計(jì)算和特征抽取等。
[0049]文本特征語義網(wǎng)絡(luò)圖是一種用實(shí)體及其語義關(guān)系來表達(dá)輿情信息的有向圖，以文本中包含的實(shí)體E(包括事物實(shí)體NE、事件實(shí)體VE、事件關(guān)系實(shí)體RE)作為圖的節(jié)點(diǎn)，兩個(gè)實(shí)體之間的語義關(guān)系作為圖的有向邊，實(shí)體之間的語義關(guān)系結(jié)合詞頻信息作為節(jié)點(diǎn)的權(quán)重，有向邊的權(quán)重表示實(shí)體關(guān)系在文本中的重要程度。通過網(wǎng)絡(luò)節(jié)點(diǎn)權(quán)值的引入和基于概念的合并與簡化，構(gòu)建文本特征語義網(wǎng)絡(luò)圖，提取文本的核心語義。即通過網(wǎng)絡(luò)節(jié)點(diǎn)表示的詞語合并，節(jié)點(diǎn)權(quán)值相加；再合并有向邊,有向邊權(quán)值相加,構(gòu)建文本特征語義網(wǎng)絡(luò)圖，描述文本中的語義信息和主題特征。具體概念描述如下:
[0050]Cl:事物實(shí)體 NE 定義為 NE (id, concept, property, power)。id 代表實(shí)體標(biāo)識(shí)，concept代表實(shí)體概念，property代表實(shí)體屬性，power代表權(quán)重。
[0051]C2:事件實(shí)體 VE 定義為 VE (id, concept, property, power, isN, subT, objTl, objT2)。除了包含NE的幾個(gè)數(shù)據(jù)項(xiàng)外，iSN代表是否為否定，subT代表主體實(shí)體表頭，ob jTl和objT2代表客體實(shí)體I與2的表頭。
[0052]C3:事件關(guān)系實(shí)體 RE 定義為 RE (id, concept, property, power, isN, subT, objT)。RE用一對(duì)主客體實(shí)體就可完全描述。
[0053]文本特征語義網(wǎng)絡(luò)圖模型分析步驟如下:
[0054]S1:在分析文本時(shí)，首先以語句為單位，構(gòu)建各條語句對(duì)應(yīng)的特征語義網(wǎng)絡(luò)圖。逐句分析每句產(chǎn)生了哪些NE，將NE及其屬性信息記入實(shí)體信息表。
[0055]S2:NE分析完畢后，分析VE，登記VE的概念，屬性，主體和客體。主客體相同的VE實(shí)體表示為同一 VE，否則設(shè)置不同的id。
[0056]S3:接下來分析RE。分析RE要注意與NE、VE區(qū)分開來，把RE的概念、屬性、主體、客體登記到實(shí)體信息表。
[0057]S4:分析結(jié)束后，得到該語句的實(shí)體信息表。實(shí)體信息表描述了實(shí)體之間的關(guān)系，用來構(gòu)造實(shí)體關(guān)系圖，NE與VE之間，RE與NE、VE之間，實(shí)體E與屬性T之間通過不同的連線把實(shí)體關(guān)系可視化。
[0058]S5:在分析構(gòu)建第一條語句的特征語義網(wǎng)絡(luò)圖基礎(chǔ)上，將后續(xù)語句的特征語義網(wǎng)絡(luò)圖合并，先合并節(jié)點(diǎn)，再合并有向邊。[0059]S6:合并節(jié)點(diǎn)時(shí)，把節(jié)點(diǎn)之間詞語相同或者語義相似度滿足閾值條件的節(jié)點(diǎn)合并，節(jié)點(diǎn)權(quán)值相加；否則保留該節(jié)點(diǎn)。
[0060]S7:有向邊合并，是把合并后的節(jié)點(diǎn)間存在的有向邊進(jìn)行合并，有向邊權(quán)值相加。
[0061]S8:更新新合并節(jié)點(diǎn)鄰接邊的權(quán)值為該節(jié)點(diǎn)的權(quán)值，強(qiáng)化節(jié)點(diǎn)之間的語義關(guān)系。
[0062]S9:輸出所有合并語句的特征語義網(wǎng)絡(luò)圖后，完成整個(gè)文本的特征語義網(wǎng)絡(luò)圖的構(gòu)造。
[0063]下一步對(duì)詞性特征權(quán)重賦值，以準(zhǔn)確標(biāo)示文本。按照漢語詞性特點(diǎn)及完整事件描述要素(時(shí)間、地點(diǎn)、人物以及事件內(nèi)容)，結(jié)合中國科學(xué)院漢語詞性標(biāo)記集，文本特征權(quán)重賦值分為:標(biāo)題權(quán)重值為3，子標(biāo)題和關(guān)鍵詞權(quán)重值為2，摘要權(quán)重值為1.5，段首句和段尾句權(quán)重值為1.3。
[0064]輿情信息經(jīng)過預(yù)處理后，為文本的標(biāo)題、正文和回復(fù)設(shè)置不同的標(biāo)簽，在計(jì)算權(quán)重時(shí)，讀取關(guān)鍵詞的標(biāo)簽信息，完成詞語的位置權(quán)重的賦值。
[0065](4)輿情信息挖掘
[0066]輿情信息挖掘模塊，是在對(duì)文本集進(jìn)行預(yù)處理，包括中文分詞處理、停用詞過濾和結(jié)構(gòu)化標(biāo)簽信息分析后，將信息萃取模塊生成的文本數(shù)據(jù)集，根據(jù)文本特征語義網(wǎng)絡(luò)圖構(gòu)建的文本語義特征描述結(jié)構(gòu)，利用相似度評(píng)價(jià)方法計(jì)算文本之間的語義相似度，構(gòu)建相似度矩陣，采用基于語義相似度的改進(jìn)文本聚類分析方法生成聚類結(jié)果；聚類分析結(jié)果生成類別描述信息，篩選出聚類分析結(jié)果中包含的文本信息；利用基于特征統(tǒng)計(jì)的TFIDF詞頻特征計(jì)算方法統(tǒng)計(jì)類別特征，獲取候選類別特征詞，選擇名詞作為候選類別特征詞，按照候選特征詞權(quán)重排序，以權(quán)重值確定候選特征詞作為類別關(guān)鍵詞，利用類別關(guān)鍵詞之間的語義關(guān)系，形成分類結(jié)果；將挖掘結(jié)果構(gòu)建知識(shí)庫，知識(shí)庫還可以設(shè)置成具有同時(shí)支持輿情主題發(fā)現(xiàn)、輿情傾向性分析等文本挖掘功能。
[0067]首先定義和計(jì)算文本之間的相似度，即文本之間所討論主題的相關(guān)程度，用Sim(D11D2)表示文本D1和文本D2之間的相似度。相似度取值范圍在O和I之間，與文本D1和D2的相似程度成正比。文本之間的相似度越大，表明文本之間的主題相關(guān)程度越大。文本之間的語義相似度評(píng)價(jià)方法如下:
[0068]設(shè)經(jīng)過步驟b的輿情信息萃取和預(yù)處理后的文本為D1 (tn, t12, t13,…，tlm),D2(t21, t22, t23,...，t2J，計(jì)算文本D1中所有關(guān)鍵詞tn與文本D2中所有關(guān)鍵詞t2i的相似度，形成相似度矩陣如下:
[0069]
【權(quán)利要求】
1.基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征在于:采用包括網(wǎng)絡(luò)輿情信息采集模塊、輿情信息萃取模塊、輿情信息預(yù)處理模塊、輿情信息挖掘模塊、輿情信息分析模塊和包含輿情信息數(shù)據(jù)庫的網(wǎng)絡(luò)輿情信息分析系統(tǒng)，并包括如下步驟: a.網(wǎng)絡(luò)輿情信息采集模塊從網(wǎng)頁中采集各種輿情信息，并存儲(chǔ)到輿情信息數(shù)據(jù)庫中； b.輿情信息萃取模塊和輿情信息預(yù)處理模塊將步驟a采集的輿情信息進(jìn)行初步過濾和切分，抽取文本所包含的內(nèi)容信息，為輿情信息挖掘提供數(shù)據(jù)服務(wù)； c.在步驟b基礎(chǔ)上，輿情信息挖掘模塊采用基于語義相似度的改進(jìn)文本聚類分析方法，生成類別描述信息，篩選出聚類分析結(jié)果中包含的文本信息；利用基于特征統(tǒng)計(jì)的TFIDF詞頻特征計(jì)算方法統(tǒng)計(jì)類別特征，獲取類別特征詞，選擇名詞作為候選類別特征詞，按照候選特征詞權(quán)重排序，以權(quán)重值較大的候選特征詞作為類別關(guān)鍵詞，利用類別關(guān)鍵詞之間的語義關(guān)系，形成分類結(jié)果；識(shí)別和建立新的網(wǎng)絡(luò)輿情主題，檢測(cè)、跟蹤已有輿情主題的相關(guān)內(nèi)容； d.最后，輿情信息分析模塊把輿情信息經(jīng)過步驟c挖掘的數(shù)據(jù)進(jìn)行OLAP多維統(tǒng)計(jì)分析，分析輿情主題內(nèi)容關(guān)注度、輿情主題情感傾向等輿情評(píng)測(cè)指標(biāo)。
2.根據(jù)權(quán)利要求1所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征是，在步驟a中，所述輿情信息采集模塊，是對(duì)網(wǎng)絡(luò)輿情信息源進(jìn)行采集，不僅要完成網(wǎng)頁的爬取，而且要將網(wǎng)頁內(nèi)容進(jìn)行格式化處理，提取輿情的主題和內(nèi)容，所得數(shù)據(jù)存入txt格式或html格式文件，并存儲(chǔ)到輿情信息數(shù)據(jù)庫；網(wǎng)絡(luò)輿情信息采集模塊采用分時(shí)訪問、定時(shí)更換IP地址和模擬瀏覽器進(jìn)行單點(diǎn)登錄三種技術(shù)結(jié)合進(jìn)行防屏蔽。
3.根據(jù)權(quán)利要求2所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征是，所述輿情信息采集模塊執(zhí)行的具體步驟為，從預(yù)先定義的主題相關(guān)網(wǎng)頁的URL開始，獲取網(wǎng)頁中的文本信息，并從當(dāng)前網(wǎng)頁中抽取新的URL放入隊(duì)列中，直到滿足條件的輿情信息采集完畢，URL隊(duì)列為空為止；將采集到的網(wǎng)頁文本信息按照字段分類存儲(chǔ)到輿情信息數(shù)據(jù)庫中，提供輿情信息萃取模塊調(diào)用。
4.根據(jù)權(quán)利要求1所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征是，在步驟b中，所述輿情信息萃取模塊，是清除網(wǎng)頁中的無關(guān)內(nèi)容，提取對(duì)輿情分析有用的正文部分的元信息，對(duì)文本進(jìn)行重構(gòu)，將具有主題代表性的信息聚集在一起；所述輿情信息預(yù)處理模塊，是對(duì)采集的輿情信息源經(jīng)過所述輿情信息萃取模塊萃取后，進(jìn)行中文分詞處理、過濾停用詞、命名實(shí)體識(shí)別、詞性標(biāo)注、語法解析和特征詞提取，建立正序索引和倒排索引；建立文本特征語義網(wǎng)絡(luò)圖，以文本中包含的實(shí)體E作為圖的節(jié)點(diǎn)，兩個(gè)實(shí)體之間的語義關(guān)系作為圖的有向邊，實(shí)體之間的語義關(guān)系結(jié)合詞頻信息作為節(jié)點(diǎn)的權(quán)重，有向邊的權(quán)重表示實(shí)體關(guān)系在文本中的重要程度，所述實(shí)體E包括事物實(shí)體NE、事件實(shí)體VE、事件關(guān)系實(shí)體RE ;統(tǒng)計(jì)文本的詞頻和文本頻率信息，然后進(jìn)行特征詞抽取，選取體現(xiàn)文本特征的詞表示該文本。
5.根據(jù)權(quán)利要求4所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征是，在步驟c中，所述輿情信息挖掘模塊，是在對(duì)文本集進(jìn)行預(yù)處理，包括中文分詞處理、停用詞過濾和結(jié)構(gòu)化標(biāo)簽信息分析后,將信息萃取模塊生成的文本數(shù)據(jù)集,根據(jù)文本特征語義網(wǎng)絡(luò)圖構(gòu)建的文本語義特征描述結(jié)構(gòu)，利用相似度評(píng)價(jià)方法計(jì)算文本之間的語義相似度，構(gòu)建相似度矩陣，采用基于語義相似度的改進(jìn)文本聚類分析方法生成聚類結(jié)果；聚類分析結(jié)果生成類別描述信息，篩選出聚類分析結(jié)果中包含的文本信息；利用基于特征統(tǒng)計(jì)的TFIDF詞頻特征計(jì)算方法統(tǒng)計(jì)類別特征，獲取候選類別特征詞，選擇名詞作為候選類別特征詞，按照候選特征詞權(quán)重排序，以權(quán)重值確定候選特征詞作為類別關(guān)鍵詞，利用類別關(guān)鍵詞之間的語義關(guān)系，形成分類結(jié)果；將挖掘結(jié)果構(gòu)建知識(shí)庫。
6.根據(jù)權(quán)利要求4或5所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征是，文本特征語義網(wǎng)絡(luò)圖是利用實(shí)體及其語義關(guān)系來表達(dá)輿情信息的有向圖，通過網(wǎng)絡(luò)節(jié)點(diǎn)表示的詞語合并,節(jié)點(diǎn)權(quán)值相加；再合并有向邊,有向邊權(quán)值相加,構(gòu)建文本特征語義網(wǎng)絡(luò)圖，描述文本中的語義信息和主題特征。
7.根據(jù)權(quán)利要求5所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征是，文本之間的語義相似度評(píng)價(jià)方法為: 設(shè)經(jīng)過步驟b的輿情信息萃取和預(yù)處理后的文本為D1U11, t12, t13,…，tlm)，D2(t21, t22, t23,...，t2J，計(jì)算文本D1中所有關(guān)鍵詞tn與文本D2中所有關(guān)鍵詞t2i的相似度，形成相似度矩陣如下:
8.根據(jù)權(quán)利要求7所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征是，基于語義相似度的改進(jìn)文本聚類分析方法為: O首先對(duì)所有采集的文本經(jīng)過預(yù)處理后，采用TFIDF加權(quán)法對(duì)所有類別關(guān)鍵詞進(jìn)行特征加權(quán)，提取m個(gè)最優(yōu)特征關(guān)鍵詞形成原始的基于關(guān)鍵詞特征向量Di* ； 2)依據(jù)所述知識(shí)庫對(duì)原始的基于關(guān)鍵詞特征向量Di*中關(guān)鍵詞進(jìn)行預(yù)處理:在知識(shí)庫中找到與關(guān)鍵詞匹配的詞匯并將其替換，形成新的特征向量Di, Di=CT1, T2，…，Ti), i=l, 2，3，...，m ; 3)形成η個(gè)文本的m個(gè)特征向量Di,利用文本語義相似度計(jì)算公式計(jì)算采集的文本之間的語義相似度，形成文本集的相似度矩陣M，并求出所有特征向量的平均相似度MA ;計(jì)算公式如下:
9.根據(jù)權(quán)利要求1所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征是，在步驟d中，所述輿情信息分析模塊，是對(duì)已存入輿情信息數(shù)據(jù)庫中的經(jīng)過步驟c挖掘的數(shù)據(jù)進(jìn)行OLAP多維統(tǒng)計(jì)分析。
【文檔編號(hào)】G06F17/30GK103544255SQ201310482522
【公開日】2014年1月29日申請(qǐng)日期:2013年10月15日優(yōu)先權(quán)日:2013年10月15日
【發(fā)明者】陶宇煒, 謝愛娟, 熊長江, 王娟琳申請(qǐng)人:常州大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陶宇煒;謝愛娟;熊長江;王娟琳
技術(shù)所有人：常州大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本內(nèi)容安全分析方法相關(guān)技術(shù)

文本語義分析相關(guān)技術(shù)

文本語義相似度計(jì)算相關(guān)技術(shù)

語義文本分析工具在線相關(guān)技術(shù)

文本語義理解相關(guān)技術(shù)

短文本語義相似度相關(guān)技術(shù)

文本語義相似度相關(guān)技術(shù)

短文本語義分析相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法