亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于微博平臺的事件輿情信息提取方法及系統(tǒng)的制作方法

文檔序號:8299053閱讀:254來源:國知局
一種基于微博平臺的事件輿情信息提取方法及系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及輿情事件提取技術,特別涉及一種基于微博平臺的事件輿情信息提取 方法及系統(tǒng)。
【背景技術】
[0002] 微博,即微博客(MicroBlog)的簡稱,是一種基于用戶關系的信息分享、獲取以及 傳播的平臺,用戶可以通過WEB、WAP以及各種客戶端組件,以140字左右的文字附加圖片、 音樂、視頻等多媒體更新信息,并實現(xiàn)即時分享。2008年以來,微博在我國開始迅速發(fā)展,涌 現(xiàn)出一批微博服務網站,如2009年8月成立的新浪微博,截至2012年12月底,擁有注冊用 戶已超5億,日活躍用戶數達4620萬,用戶每日發(fā)博量超過1億條,橫跨兩岸三地和新馬地 區(qū)。
[0003] 作為一種新型網絡應用,微博以其信息傳播方式兼具新聞傳播和人際傳播的特 點,為人們自由、快速表達觀點的同時亦形成一股網絡輿情傳播新勢力,它的特殊結構和影 響力使得輿情的傳播速度和廣度超過以往的任何一種媒介。由此,微博平臺上輿情信息的 提取對于傳統(tǒng)媒體輿論引導、政府決策制定、公共事務處理、行業(yè)市場決策等多個領域具有 重要意義。
[0004] 現(xiàn)有技術中,一般采用全網監(jiān)控的方法搜集輿情信息:首先針對全網通過網絡爬 蟲等手段廣泛獲取用戶產生的內容,然后采用事件發(fā)現(xiàn)方法檢測出熱點事件,最后過濾無 關信息提取出關鍵事件輿情信息。
[0005] 由上述可見通常的全網監(jiān)控方法在多個方面存在局限。第一,網絡信息量呈爆炸 式增長,傳統(tǒng)方法監(jiān)控全網難以高效抓取實時信息,以微博為例,每天需處理上億條微博信 息,這對于處理效率和存儲空間都有較高的要求。第二,網絡信息量不僅多而且雜,有研宄 發(fā)現(xiàn)超過40%的微博內容是無意義的"信息泡沫",而在大量的網絡數據中找出具有輿情分 析價值的信息更是好比大海撈針。第三,通過算法自動發(fā)現(xiàn)的熱點事件難免有錯漏,通常需 要人工檢驗核實才能跟真實事件對應上。
[0006] 發(fā)明專利"一種網絡輿情事件多維信息提取的方法及裝置",該發(fā)明公開了一種網 絡輿情事件多維信息提取的方法及裝置,其中,所述方法包括:基于用戶搜索行為從搜索日 志中提取種子網頁,采用所述種子網頁構建網絡輿情事件初始的主題;依據所述主題按照 預設時間段分時獲取特征網頁;獲取上一預設時間段用戶關注度的分析數據、媒體關注度 的分析數據以及用戶態(tài)度的分析數據;獲取當前預設時間段用戶關注度的分析數據、媒體 關注度的分析數據以及用戶態(tài)度的分析數據;分別對比上一預設時間段與當前時間段用戶 關注度的分析數據,媒體關注度的分析數據以及用戶態(tài)度的分析數據,獲得網絡輿情事件 的趨勢演化信息。該發(fā)明用以分析輿論事件,提高輿論事件分析的準確度。但該發(fā)明以用 戶搜索日志中挖掘出的搜索行為為種子,而本發(fā)明以事件關鍵詞為檢索關鍵詞搜集數據; 該發(fā)明以傳統(tǒng)網頁為平臺分析網頁內容,本發(fā)明專注于微博平臺以用戶發(fā)布的微博、評論、 轉發(fā)等多元信息為分析素材;該發(fā)明按預設時間段提取信息并對比分析;本發(fā)明以事件實 際發(fā)展周期為時間窗口提取信息。
[0007] 發(fā)明專利"基于微博平臺的消息搜索方法及系統(tǒng)",該發(fā)明公開了一種基于微博平 臺的消息搜索方法及系統(tǒng),該方法包括步驟:獲取用戶設置的商品信息;根據商品信息生 成相應的搜索關鍵詞;根據預先建立的關鍵詞知識庫進行搜索關鍵詞擴展;根據預先建立 的關鍵詞組合知識庫組合擴展后的搜索關鍵詞,生成至少一個包含了多個搜索關鍵詞的搜 索關鍵詞組合;用搜索關鍵詞組合在各個微博平臺上搜索相關聯(lián)的微博消息;對搜索到的 微博消息進行智能識別,將識別出的有潛在購物需求的消息作為返回給用戶的結果保存到 數據庫中。采用該方法或系統(tǒng),能找出微博平臺上有潛在購物需求的微博消息,提高了搜索 的全面性、準確性和實用性,搜索效率極高。但該發(fā)明以搜索購物、商品相關微博為目標,本 發(fā)明以搜索事件相關微博為目標;該發(fā)明不需要考慮時間因素,本發(fā)明搜索事件需要在一 段指定時間內搜索。
[0008] 發(fā)明專利"一種微博信息抓取方法及裝置",該發(fā)明公開了一種微博信息抓取方法 及裝置,所述方法包括:獲取用戶發(fā)布的歷史微博,并根據所述歷史微博的發(fā)布時間建立所 述歷史微博與預設時間點間的映射關系,所述預設時間點通過預設步長選??;將映射歷史 微博數的偏差在預設范圍內的至少兩個相鄰預設時間點合并為一個時間段;根據每個時間 段的時間長度及其映射的每條歷史微博的權重確定每個時間段的抓取周期;根據每個時間 段的抓取周期以及抓取初始時間點預測用戶再次發(fā)布微博的時間點,并在該預測時間點上 進行微博信息抓取。如此,就可避免空閑期進行信息抓取導致的資源浪費,同時還能保證繁 忙期有足夠的抓取資源,通過這種變周期的抓取方式就提高了微博信息的抓取效率。但該 發(fā)明以用戶為切入點,提取指定用戶發(fā)布的微博,本發(fā)明以事件關鍵詞為切入點,提取的是 事件相關的微博;該發(fā)明提取重點在于抓取周期的確定,本發(fā)明重點在于在事件時間窗口 內全面準確的提取信息。

【發(fā)明內容】

[0009] 針對現(xiàn)有技術的不足,本發(fā)明提出一種基于微博平臺的事件輿情信息提取方法及 系統(tǒng)。
[0010] 本發(fā)明提出一種基于微博平臺的事件輿情信息提取方法,包括:
[0011] 步驟1,獲取所述事件的關鍵詞、起始時間、截止時間,并根據所述微博平臺搜索服 務的鏈接格式,構造待采樣頁面的頁面鏈接;
[0012] 步驟2,根據所述頁面鏈接進行微博采樣,生成樣本微博,根據所述樣本微博,計算 所述事件的事件熱度,并根據所述事件熱度計算微博抓取周期;
[0013] 步驟3,根據所述微博抓取周期,結合所述頁面鏈接,獲取與所述事件相關的微博 頁面;
[0014] 步驟4,提取所述微博頁面的微博信息,以完成提取所述事件的所述輿情信息。
[0015] 所述的基于微博平臺的事件輿情信息提取方法,所述步驟2還包括:
[0016] 根據所述關鍵詞,過濾與所述事件無關的微博,并將所述樣本微博按發(fā)布時間進 tx排序。
[0017] 所述的基于微博平臺的事件輿情信息提取方法,所述步驟2通過以下公式計算所 述事件熱度:
【主權項】
1. 一種基于微博平臺的事件輿情信息提取方法,其特征在于,包括: 步驟1,獲取所述事件的關鍵詞、起始時間、截止時間,并根據所述微博平臺搜索服務的 鏈接格式,構造待采樣頁面的頁面鏈接; 步驟2,根據所述頁面鏈接進行微博采樣,生成樣本微博,根據所述樣本微博,計算所述 事件的事件熱度,并根據所述事件熱度計算微博抓取周期; 步驟3,根據所述微博抓取周期,結合所述頁面鏈接,獲取與所述事件相關的微博頁 面; 步驟4,提取所述微博頁面的微博信息,以完成提取所述事件的所述輿情信息。
2. 如權利要求1所述的基于微博平臺的事件輿情信息提取方法,其特征在于,所述步 驟2還包括: 根據所述關鍵詞,過濾與所述事件無關的微博,并將所述樣本微博按發(fā)布時間進行排 序。
3. 如權利要求1或2所述的基于微博平臺的事件輿情信息提取方法,其特征在于,所述 步驟2通過以下公式計算所述事件熱度:
其中C"ib。為所述樣本微博的微博數,Tlas#所述樣本微博中按發(fā)布時間排序后最后一 條微博的發(fā)布時間,Tfi"t為所述樣本微博中按發(fā)布時間排序后第一條微博的發(fā)布時間,He 為所述事件熱度。
4. 如權利要求1所述的基于微博平臺的事件輿情信息提取方法,其特征在于,所述步 驟2通過以下公式計算所述微博抓取周期:
其中,HE為所述事件熱度,t為所述微博抓取周期,N為所述微博平臺頁面包含的最大 微博數。
5. 如權利要求1所述的基于微博平臺的事件輿情提取方法,其特征在于,所述步驟3還 包括: 分析所述微博頁面的網頁布局,生成頁面解析模板,通過所述頁面解析模板清除與所 述事件無關的微博,并生成微博列表; 分析原創(chuàng)微博和轉發(fā)微博的結構,生成原創(chuàng)微博模板和轉發(fā)微博模板,根據所述微博 列表,通過所述原創(chuàng)微博模板和所述轉發(fā)微博模板,獲取原創(chuàng)微博列表和轉發(fā)微博列表。
6. 如權利要求1或5所述的基于微博平臺的事件輿情提取方法,其特征在于,所述步驟 4包括: 提取所述原創(chuàng)微博列表和所述轉發(fā)微博列表中每條微博的初始微博信息; 對所述初始微博信息進行鏈接提取、@關系提取、話題提取、內容過濾、內容分詞。
7. 如權利要求1所述的基于微博平臺的事件輿情提取方法,其特征在于,還包括: 根據所述微博信息,結合所述事件關鍵詞,過濾與所述事件無關的微博。
8. -種基于微博平臺的事件輿情信息提取系統(tǒng),其特征在于,包括: 構造模塊,用于獲取所述事件的關鍵詞、起始時間、截止時間,并根據所述微博平臺搜 索服務的鏈接格式,構造待采樣頁面的頁面鏈接; 采樣模塊,用于根據所述頁面鏈接進行微博采樣,生成樣本微博,根據所述樣本微博, 計算所述事件的事件熱度,并根據所述事件熱度計算微博抓取周期; 獲取微博頁面模塊,用于根據所述微博抓取周期,結合所述頁面鏈接,獲取與所述事件 相關的微博頁面; 提取微博信息模塊,用于提取所述微博頁面的微博信息,以完成提取所述事件的所述 輿情信息。
9. 如權利要求8所述的基于微博平臺的事件輿情信息提取系統(tǒng),其特征在于,還包括: 過濾模塊,用于根據所述關鍵詞,過濾與所述事件無關的微博,并將所述樣本微博按發(fā) 布時間進彳丁排序。
10. 如權利要求8所述的基于微博平臺的事件輿情信息提取系統(tǒng),其特征在于,還包 括: 模板生成模塊,用于分析所述微博頁面的網頁布局,生成頁面解析模板,通過所述頁面 解析模板清除與所述事件無關的微博,并生成微博列表;分析原創(chuàng)微博和轉發(fā)微博的結構, 生成原創(chuàng)微博模板和轉發(fā)微博模板,根據所述微博列表,通過所述原創(chuàng)微博模板和所述轉 發(fā)微博模板,獲取原創(chuàng)微博列表和轉發(fā)微博列表。
【專利摘要】本發(fā)明涉及輿情事件提取技術,本發(fā)明公開了一種基于微博平臺的事件輿情信息提取方法及系統(tǒng),該方法包括:獲取所述事件的關鍵詞、起始時間、截止時間,并根據所述微博平臺搜索服務的鏈接格式,構造待采樣頁面的頁面鏈接;根據所述頁面鏈接進行微博采樣,生成樣本微博,根據所述樣本微博,計算所述事件的事件熱度,并根據所述事件熱度計算微博抓取周期;根據所述微博抓取周期,結合所述頁面鏈接,獲取與所述事件相關的微博頁面。提取所述微博頁面的微博信息,以完成提取所述事件的所述輿情信息。本發(fā)明獲取事件輿情信息更全面而高效,能采集到實時的輿情信息。
【IPC分類】G06F17-30
【公開號】CN104615627
【申請?zhí)枴緾N201410490602
【發(fā)明人】曹娟, 儲達峰, 金志威, 張勇東, 謝菲, 蘇宇
【申請人】中國科學院計算技術研究所, 新華通訊社
【公開日】2015年5月13日
【申請日】2014年9月23日
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1