亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于行業(yè)的垂直輿情分析系統(tǒng)及方法_4

文檔序號:8258887閱讀:來源:國知局
類結(jié)果進行熱點/敏感話題分析、傾向性分析以及趨勢分析得到經(jīng)過分析處理的信息。
[0098]可選地,如圖6所示,所述步驟S3包括如下步驟:
[0099]S31、通過自組織神經(jīng)網(wǎng)絡(luò)算法、K近鄰算法、遺傳算法將抓取的文檔的分詞結(jié)果中的文章或文本信息進行相似性的比較,將相似的文章或文本信息歸為同一組實現(xiàn)文本聚類和文本分類。
[0100]S32、分析文檔的分詞結(jié)果中關(guān)鍵詞,得到并統(tǒng)計話題詞組出現(xiàn)的頻率以及更新的頻率,并根據(jù)統(tǒng)計結(jié)果生成熱點/敏感話題列表。
[0101]S33、在系統(tǒng)詞庫中預(yù)先存儲褒義、貶義、中性詞,將話題詞組與預(yù)先存儲的褒義、貶義、中性詞進行比較,判斷話題詞組的褒義、貶義或者中性,從而判斷網(wǎng)頁的傾向性。
[0102]S34、根據(jù)熱點/敏感話題列表以及網(wǎng)頁的傾向性結(jié)果進行統(tǒng)計,并生成隨時間變化的熱點趨勢跟蹤統(tǒng)計曲線圖。
[0103]S4、將經(jīng)過分析處理的信息推送給用戶。
[0104]結(jié)合本文中所公開的實施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實施。軟件模塊可以置于隨機儲存器、內(nèi)存、只讀存儲器、電可編程ROM、電可檫除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其他形式的存儲介質(zhì)中。
[0105]可以理解的是,對于本領(lǐng)域的普通技術(shù)人員來說,可以根據(jù)本發(fā)明的技術(shù)構(gòu)思做出其它各種相應(yīng)的改變與變形,而所有這些改變與變形都應(yīng)屬于本發(fā)明權(quán)利要求的保護范圍。
【主權(quán)項】
1.一種基于行業(yè)的垂直輿情分析系統(tǒng),其特征在于,其包括如下模塊: 采集預(yù)處理模塊,用于對消費電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息進行采集和預(yù)處理得到基于文檔的格式化的消費電子行業(yè)消息; 分詞模塊,用于通過字符串匹配算法進行匹配,并基于理解和統(tǒng)計進行分詞的方法對匹配結(jié)果進行修正得到文檔的分詞結(jié)果; 分析模塊,用于通過對文檔的分詞結(jié)果中關(guān)鍵詞的頻率和相似度對分詞的結(jié)果進行文檔的聚類和分類;并用于根據(jù)聚類和分類結(jié)果進行熱點/敏感話題分析、傾向性分析以及趨勢分析得到經(jīng)過分析處理的信息; 顯示模塊,用于將經(jīng)過分析處理的信息推送給用戶。
2.如權(quán)利要求1所述的基于行業(yè)的垂直輿情分析系統(tǒng),所述采集預(yù)處理模塊中消費電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息來源包括新聞網(wǎng)頁、論壇、貼吧、網(wǎng)絡(luò)博客、網(wǎng)站中的一種或幾種; 采集的方式包括通過URL采集器、http分析器、網(wǎng)絡(luò)爬蟲中的一種或幾種對消費電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息進行采集;將采集到的消費電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息存儲到關(guān)系型數(shù)據(jù)庫以及非關(guān)系型數(shù)據(jù)庫; 對采集到的消費電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息進行預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)去重、數(shù)據(jù)格式化得到格式化的消費電子行業(yè)消息。
3.如權(quán)利要求2所述的基于行業(yè)的垂直輿情分析系統(tǒng),其特征在于,所述分詞模塊包括如下單元: 存儲單元,用于在系統(tǒng)詞庫中預(yù)先存儲消費電子常用詞匯,并對預(yù)先存儲消費電子常用詞匯進行分類統(tǒng)計得到統(tǒng)計結(jié)果,并判斷常用詞匯之間的邏輯關(guān)系; 匹配單元,用于通過字符串匹配算法對格式化的消費電子行業(yè)消息進行匹配; 修正單元,用于根據(jù)存儲單元中的統(tǒng)計結(jié)果以及邏輯關(guān)系對匹配結(jié)果進行修正得到分詞結(jié)果。
4.如權(quán)利要求3所述的基于行業(yè)的垂直輿情分析系統(tǒng),其特征在于,所述分析模塊包括如下單元: 文本聚類分類單元,用于通過自組織神經(jīng)網(wǎng)絡(luò)算法、K近鄰算法、遺傳算法將抓取的文檔的分詞結(jié)果中的文章或文本信息進行相似性的比較,將相似的文章或文本信息歸為同一組實現(xiàn)文本聚類和文本分類; 熱點/敏感話題分析單元,用于分析文檔的分詞結(jié)果中關(guān)鍵詞,得到并統(tǒng)計話題詞組出現(xiàn)的頻率以及更新的頻率,并根據(jù)統(tǒng)計結(jié)果生成熱點/敏感話題列表; 傾向性分析單元,用于在系統(tǒng)詞庫中預(yù)先存儲褒義、貶義、中性詞,將話題詞組與預(yù)先存儲的褒義、貶義、中性詞進行比較,判斷話題詞組的褒義、貶義或者中性,從而判斷網(wǎng)頁的傾向性; 趨勢分析單元,根據(jù)熱點/敏感話題列表以及網(wǎng)頁的傾向性結(jié)果進行統(tǒng)計,并生成隨時間變化的熱點趨勢跟蹤統(tǒng)計曲線圖。
5.一種基于行業(yè)的垂直輿情分析方法,其特征在于,其包括如下步驟: S1、對消費電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息進行采集和預(yù)處理得到基于文檔的格式化的消費電子行業(yè)消息; 52、通過字符串匹配算法進行匹配,并基于理解和統(tǒng)計進行分詞的方法對匹配結(jié)果進行修正得到文檔的分詞結(jié)果; 53、通過對文檔的分詞結(jié)果中關(guān)鍵詞的頻率和相似度對分詞的結(jié)果進行文檔的聚類和分類;根據(jù)聚類和分類結(jié)果進行熱點/敏感話題分析、傾向性分析以及趨勢分析得到經(jīng)過分析處理的信息; 54、將經(jīng)過分析處理的信息推送給用戶。
6.如權(quán)利要求5所述的基于行業(yè)的垂直輿情分析方法,所述步驟SI中消費電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息來源包括新聞網(wǎng)頁、論壇、貼吧、網(wǎng)絡(luò)博客、網(wǎng)站中的一種或幾種; 采集的方式包括通過URL采集器、http分析器、網(wǎng)絡(luò)爬蟲中的一種或幾種對消費電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息進行采集;將采集到的消費電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息存儲到關(guān)系型數(shù)據(jù)庫以及非關(guān)系型數(shù)據(jù)庫; 對采集到的消費電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息進行預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)去重、數(shù)據(jù)格式化得到格式化的消費電子行業(yè)消息。
7.如權(quán)利要求6所述的基于行業(yè)的垂直輿情分析方法,其特征在于,所述步驟S2包括如下步驟: 521、在系統(tǒng)詞庫中預(yù)先存儲消費電子常用詞匯,并對預(yù)先存儲消費電子常用詞匯進行分類統(tǒng)計得到統(tǒng)計結(jié)果,并判斷常用詞匯之間的邏輯關(guān)系; 522、通過字符串匹配算法對格式化的消費電子行業(yè)消息進行匹配; 523、根據(jù)步驟S21中的統(tǒng)計結(jié)果以及邏輯關(guān)系對匹配結(jié)果進行修正得到分詞結(jié)果。
8.如權(quán)利要求7所述的基于行業(yè)的垂直輿情分析方法,其特征在于,所述步驟S3包括如下步驟: . 531、通過自組織神經(jīng)網(wǎng)絡(luò)算法、K近鄰算法、遺傳算法將抓取的文檔的分詞結(jié)果中的文章或文本信息進行相似性的比較,將相似的文章或文本信息歸為同一組實現(xiàn)文本聚類和文本分類; . 532、分析文檔的分詞結(jié)果中關(guān)鍵詞,得到并統(tǒng)計話題詞組出現(xiàn)的頻率以及更新的頻率,并根據(jù)統(tǒng)計結(jié)果生成熱點/敏感話題列表; . 533、在系統(tǒng)詞庫中預(yù)先存儲褒義、貶義、中性詞,將話題詞組與預(yù)先存儲的褒義、貶義、中性詞進行比較,判斷話題詞組的褒義、貶義或者中性,從而判斷網(wǎng)頁的傾向性; .534、根據(jù)熱點/敏感話題列表以及網(wǎng)頁的傾向性結(jié)果進行統(tǒng)計,并生成隨時間變化的熱點趨勢跟蹤統(tǒng)計曲線圖。
【專利摘要】一種基于行業(yè)的垂直輿情分析系統(tǒng),其包括如下模塊:采集預(yù)處理模塊,用于對消費電子行業(yè)相關(guān)的互聯(lián)網(wǎng)信息進行采集和預(yù)處理得到基于文檔的格式化的消費電子行業(yè)消息;分詞模塊,用于通過字符串匹配算法進行匹配,并基于理解和統(tǒng)計進行分詞的方法對匹配結(jié)果進行修正得到文檔的分詞結(jié)果;分析模塊,用于通過對文檔的分詞結(jié)果中關(guān)鍵詞的頻率和相似度對分詞的結(jié)果進行文檔的聚類和分類;并用于根據(jù)聚類和分類結(jié)果進行熱點/敏感話題分析、傾向性分析以及趨勢分析得到經(jīng)過分析處理的信息;顯示模塊,用于將經(jīng)過分析處理的信息推送給用戶。本發(fā)明還提供一種基于行業(yè)的垂直輿情分析方法。
【IPC分類】G06F17-30
【公開號】CN104573016
【申請?zhí)枴緾N201510012853
【發(fā)明人】李成華, 劉麗君
【申請人】武漢泰迪智慧科技有限公司
【公開日】2015年4月29日
【申請日】2015年1月12日
當前第4頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1