一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法
【技術領域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領域,具體涉及一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法。
【背景技術】
[0002] 隨著Web2. 0技術的發(fā)展,互聯(lián)網(wǎng)發(fā)生翻天覆地的變化?;ヂ?lián)網(wǎng)由靜態(tài)網(wǎng)頁和信 息,轉變成為人人參與的"群體智慧"的展示平臺。通過博客、微博、BBS、SNS、新聞評論等, 網(wǎng)民可以自由發(fā)布自己的觀點想法和對任何事件進行評論。在一個網(wǎng)絡互聯(lián)的時代,任何 的意見、想法都可能影響一大批人,形成網(wǎng)絡輿論?,F(xiàn)階段越來越多的事件表明:網(wǎng)絡輿論 在影響社會輿論發(fā)展趨勢,甚至已經作為一種主要社會輿論的方式。網(wǎng)民在網(wǎng)絡上有意識 或者無意識表達出來的民情民意,對社會熱點問題的關注表達出的價值取向和觀點越來越 具有研究和參考價值。
[0003] 熱點話題和熱點事件的檢測和提取成為近年話題檢測與跟蹤研究的分支之一,從 互聯(lián)網(wǎng)數(shù)據(jù)中,主要是新聞,博客,論壇,社交網(wǎng)站和搜索日志等數(shù)據(jù)中獲取熱點特征組或 者與行為短語,進行抽象提取,從而得到熱點話題。由于傳統(tǒng)博客、微博和社交網(wǎng)站上存在 與日倶增的話題和數(shù)據(jù),熱點話題可以提供給用戶搜索關鍵詞參考,例如,Baidu搜索引擎 中的熱點話題推薦,將獲取的熱點話題進行推薦,并能時時更新。這些無疑促使熱點新聞成 為輿論的焦點,廣泛的影響大眾的視線,引導大眾輿論,一定程度上體現(xiàn)民眾的社會政治態(tài) 度。面對多元化的網(wǎng)絡輿情表達訴求,倘若不加引導,負面的網(wǎng)絡輿情將會對社會的公共安 全造成一定的危害。
[0004] 綜上所述,進行網(wǎng)絡輿情分析,實時把控輿情態(tài)勢,形成正面的網(wǎng)絡輿情環(huán)境,對 于構建社會主義和諧社會具有現(xiàn)實指導意義。但是目前針對互聯(lián)網(wǎng)的基于文本觀點挖掘與 分類的方法還是不多,與即時的發(fā)現(xiàn)熱點、分析處理并評估輿論的要求尚有距離,因此,有 必要提供一種基于文本觀點挖掘與分類的方法。此方法應用在及時發(fā)現(xiàn)并監(jiān)控網(wǎng)絡輿情的 熱點話題,有利于讓民眾實時了解社會熱點信息,為政府及相關部門制定政策提供輔助支 持。加強信息的梳理,保證輿情的及時、準確和全面,可以有效的預防不良信息的傳播。
[0005] 此外,隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等應用的飛速發(fā)展,全球數(shù)據(jù)量出現(xiàn)了爆炸式增 長。數(shù)據(jù)量的飛速增長預示著現(xiàn)在已經進入了大數(shù)據(jù)時代?,F(xiàn)有技術中對大數(shù)據(jù)的處理 采用基于Hadoop的平臺。Hadoop是一個開源分布式計算平臺,其核心包括HDFS(Hadoop Distributed Files System,Hadoop分布式文件系統(tǒng))。HDFS的眾多優(yōu)點(主要包括高容 錯性、高伸縮性等)允許用戶將Hadoop部署在低廉的硬件上,搭建分布式集群,構成分布式 系統(tǒng)。HBase(Hadoop DataBase,Hadoop數(shù)據(jù)庫)是建立在分布式文件系統(tǒng)HDFS之上的提 供高可靠性、高性能、列存儲、可伸縮、實時讀寫的分布式數(shù)據(jù)庫系統(tǒng),主要用來存儲非結構 化和半結構化的松散數(shù)據(jù)。
【發(fā)明內容】
[0006] 為解決現(xiàn)有技術中存在的問題,本發(fā)明提出一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法。
[0007] 本發(fā)明提出的一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法,包括:
[0008] 步驟S100,數(shù)據(jù)采集,基于分布式云計算方式對網(wǎng)絡數(shù)據(jù)進行數(shù)據(jù)采集,所述數(shù)據(jù) 采集是由網(wǎng)絡爬蟲來實現(xiàn)的;通過分布式存儲設備存儲采集的網(wǎng)絡數(shù)據(jù),所述分布式存儲 設備基于HDFS實現(xiàn);
[0009] 步驟S200,數(shù)據(jù)預處理,對步驟SlOO采集的網(wǎng)絡數(shù)據(jù)進行預處理,首先對采集的 網(wǎng)絡數(shù)據(jù)進行分詞和詞性標注處理,然后進行標點符號處理、表情字符處理和停用詞處理, 最后得到用于表示文本的特征項;
[0010] 步驟S300,話題抽取,基于預處理后的網(wǎng)絡數(shù)據(jù),從中抽取出話題。
[0011] 步驟S400,輿情分析,基于步驟S300抽取的話題進行輿情分析。
[0012] 其中,步驟S200進一步包括:
[0013] 高質量詞匯提取,步驟S200所得到的每一個特征項都隱含一個質量值,其反應特 征項在文本中的貢獻度,特征項t的質量Q (t)表示為:
[0015] 其中,N表示所有文檔的數(shù)量,:^表示文檔特征項t在文檔i中出現(xiàn)的次數(shù),1廣 示特征項t的長度,
[0016] 設定閾值Q,對于Q(t)>Q的特征項予以保留,否則刪除。
[0017] 其中,步驟S300包括:對步驟S200預處理得到的文本進行文本聚類,利用層次聚 類算法計算每個類中文本對象的均值,得到k-means算法的初始聚類中心。利用k-means 算法通過重新計算每個文本對象與聚類中心的距離,修正層次聚類結果中文本對象的歸 屬類,算法步驟如下:
[0018] (1)確定聚類中心的個數(shù)k ;
[0019] (2)利用層次聚類的方法對數(shù)據(jù)集進行層次聚類分析,得到k個類的均值,將它 們作為k-means的初始聚類中心;
[0020] (3)計算每個文本對象與聚類中心的距離,將文本對象劃分到離該文本對象最近 的聚類中心所代表的簇;
[0021] (4)利用得到的值重新計算每個簇的聚類中心;
[0022] (5)重復(3)和(4),直到每個文本對象所屬的類不再變化為止;
[0023] 聚類結果所得到的類即確定為話題。
[0024] 優(yōu)選的,本發(fā)明進一步包括:
[0025] 確定熱點話題,通過下列公式計算步驟S300所得到的話題的熱度,
[0026] Ri = a丄? RFi+ a 2 ? RTi+ a 3 ? CNi+ a 4 ? DNi,
[0027] 其中,Ri表示話題i的熱度,RFi:表示話題i的報道頻率,RTi:表示在預定的N天 時間內,對話題i的報道天數(shù)和所有天數(shù)的比值,CN1:表示話題i在預定天數(shù)內的網(wǎng)民對它 的點擊閱讀數(shù)量,〇隊:表示話題i在預定天數(shù)內的網(wǎng)民對它的評論數(shù);a p a 2、a 3、a 4為 權重系數(shù);當R1大于給定閾值R時,將話題i確定為熱點話題。
[0028] 優(yōu)選的,本發(fā)明中所述網(wǎng)絡數(shù)據(jù)包括博客、微博、論壇、新聞報道網(wǎng)頁幾個類別的 數(shù)據(jù),對于博客、微博、論壇、新聞報道網(wǎng)頁的數(shù)據(jù)是分別獨立進行話題抽取的,假設對于 博客、微博、論壇、新聞報道網(wǎng)頁的數(shù)據(jù)所抽取的熱點話題集合分別為BLOG、M-BLOG、BBS、 NEWS,計算BLOG、M-BLOG、BBS、NEWS的交集,所得到的結果確定為第一熱點話題集合,計算 BLOG、M-BLOG、BBS、NEWS其中每三個集合的交集,所得到的所有結果的和減去第一熱點話題 集合確定為第二熱點話題集合,計算BLOG、M-BLOG、BBS、NEWS其中每二個集合的交集,所得 到的所有結果的和減去第一熱點話題集合以及第二熱點話題集合確定為第三熱點話題集 合,集合BLOG、M-BLOG、BBS、NEWS的和減去第一熱點話題集合、第二熱點話題集合以及第三 熱點話題集合的結果確定為第四熱點話題集合。
[0029] 本發(fā)明采用分布式的云計算方式,能夠對大規(guī)模采集的各種網(wǎng)絡數(shù)據(jù)進行挖掘、 分析;并通過對不同數(shù)據(jù)源數(shù)據(jù)分別進行計算分析,得到不同數(shù)據(jù)源的熱點話題,進而進一 步確定話題的熱度,從而能夠更加客觀的得到當前熱點話題。本發(fā)明為黨政機關、大型企業(yè) 等單位和組織及時發(fā)現(xiàn)網(wǎng)絡敏感信息、掌握網(wǎng)絡輿情熱點、把握網(wǎng)絡輿情趨勢、應對網(wǎng)絡輿 情危機提供自動化、系統(tǒng)化和科學化的信息支持。有效提高了所述網(wǎng)絡輿情監(jiān)測系統(tǒng)判斷 的準確性,為網(wǎng)絡微信輿情信息的后續(xù)處理提供了更為真實、準確的基礎。
【附圖說明】
[0030] 圖1為本發(fā)明輿情分析的流程圖;
【具體實施方式】
[0031 ] 下面將結合本發(fā)明的附圖,對本發(fā)明的技術方案進行清楚、完整地描述。這里將詳 細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表 示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方 式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權利要求書中所詳 述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
[0032] 參見圖1,本發(fā)明提出的一種基于大數(shù)據(jù)的輿情發(fā)現(xiàn)方法。本發(fā)明以下實施方式 主要是以數(shù)據(jù)源為微博的情況為例進行說明,對于數(shù)據(jù)源為博客、新聞報道網(wǎng)頁、論壇等情 況,本領域技術人員能夠根據(jù)所給出的方法以及本領域的公知技術進行實施。<