本發(fā)明涉及一種基于新聞媒體和社交網(wǎng)絡(luò)的跨媒體數(shù)據(jù)環(huán)境中的事件抽取方法,屬于信息提取領(lǐng)域。
背景技術(shù):
針對新聞事件數(shù)據(jù)進(jìn)行科學(xué)定量分析已經(jīng)在態(tài)勢感知、應(yīng)急響應(yīng)、風(fēng)險(xiǎn)預(yù)警等社會(huì)研究中展開應(yīng)用。事件數(shù)據(jù)(Event Data)記錄了特定場景中的一次人類活動(dòng),包含涉事主體和客體、施事行為、時(shí)間、地點(diǎn)、類型、社會(huì)學(xué)屬性等多類要素,通常以多元組形式進(jìn)行表示,是對現(xiàn)實(shí)世界的原子化描述。事件要素的表示類別可分為數(shù)字型、描述型、斷言型等,數(shù)字型數(shù)據(jù)通常表示事件中的數(shù)量信息,描述型數(shù)據(jù)通常為與事件要素分類的關(guān)鍵詞,斷言型數(shù)據(jù)用來表示特定的屬性特征。特定主題事件發(fā)生前后,新聞媒體和社交網(wǎng)絡(luò)展開關(guān)注,圍繞事件的信息通過文本、圖像等載體在互聯(lián)網(wǎng)進(jìn)行傳播,這也使得通過信息提取獲得事件數(shù)據(jù)成為主流方式,形成事件抽取技術(shù)。
事件抽取的主要任務(wù)是從海量網(wǎng)絡(luò)數(shù)據(jù)中發(fā)現(xiàn)事件并圍繞事件要素進(jìn)行結(jié)構(gòu)化處理,最終生成可用于機(jī)器自動(dòng)化分析的事件數(shù)據(jù),常規(guī)的主要處理步驟如下:(1)數(shù)據(jù)提取,針對不同類別的數(shù)據(jù)源,建立匹配的數(shù)據(jù)偵測規(guī)則和數(shù)據(jù)提取接口,并設(shè)置規(guī)則更新策略應(yīng)對數(shù)據(jù)源的接口變化;(2)對原始數(shù)據(jù)進(jìn)行預(yù)處理,清理數(shù)據(jù)噪聲,對文本、圖像、元數(shù)據(jù)等不同類別數(shù)據(jù)進(jìn)行適當(dāng)?shù)臄?shù)據(jù)封裝;(3)結(jié)合知識(shí)信息和機(jī)器學(xué)習(xí)方法,實(shí)現(xiàn)數(shù)據(jù)的進(jìn)一步理解,發(fā)現(xiàn)與事件要素相關(guān)的位置錨點(diǎn)或數(shù)據(jù)特征,識(shí)別并提取事件相關(guān)的要素信息;(4)對已經(jīng)識(shí)別的事件要素通過去重、聚類、規(guī)范化等一系列處理,生成候選事件數(shù)據(jù);(5)事件數(shù)據(jù)融合,生成精細(xì)的結(jié)構(gòu)化事件數(shù)據(jù),并集中存儲(chǔ)形成事件庫。用戶可通過統(tǒng)一的事件庫訪問接口提取事件數(shù)據(jù),從而極大簡化了數(shù)據(jù)處理工作,并為研究政治及社會(huì)演化提供更大的挖掘空間。
由于新聞文本文章架構(gòu)統(tǒng)一,語言風(fēng)格嚴(yán)謹(jǐn),目前常用的事件抽取方法主要針對新聞媒體中的文本數(shù)據(jù),最終生成符合預(yù)定格式的事件數(shù)據(jù)。隨著社交網(wǎng)絡(luò)的普及,用戶發(fā)布的微博消息成為事件的第一手資料,傳播過程中用戶自發(fā)地補(bǔ)充事件信息,在社交網(wǎng)絡(luò)中形成了對關(guān)鍵事件的群體效應(yīng);同時(shí),社交網(wǎng)絡(luò)在推動(dòng)事件演化中逐漸起到重要作用(例如“阿拉伯之春”事件),使得傳統(tǒng)的基于新聞文本的事件萃取方法顯現(xiàn)出局限性。此外,復(fù)雜場景下的事件分析要求抽取事件要素的多樣化,重大事件通常引起一系列關(guān)聯(lián)事件,事件發(fā)展的聯(lián)動(dòng) 關(guān)系在傳統(tǒng)的新聞數(shù)據(jù)難以體現(xiàn),因此需要精細(xì)化的事件抽取方法和動(dòng)態(tài)可變的事件數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)。目前尚未發(fā)現(xiàn)在綜合新聞媒體和社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行事件抽取的方法。隨著知識(shí)關(guān)聯(lián)和機(jī)器學(xué)習(xí)方法的不斷成熟,在海量異構(gòu)跨媒體數(shù)據(jù)中實(shí)現(xiàn)重大事件數(shù)據(jù)的精確事件抽取具備充分的實(shí)現(xiàn)條件。
技術(shù)實(shí)現(xiàn)要素:
針對上述問題,本發(fā)明提供一種跨媒體的事件抽取方法,主要分為知識(shí)準(zhǔn)備(步驟1)、基礎(chǔ)事件要素抽取(步驟2-4)、事件要素?cái)U(kuò)展(步驟5-9)三個(gè)階段,涵蓋了事件初始概要框架、由社交網(wǎng)絡(luò)信息抽取的候選事件要素和事件融合等方法。主要步驟如下:
(1)設(shè)置種子事件特征庫及所需的知識(shí)數(shù)據(jù),包括特定組織、機(jī)構(gòu)、場所、人物等實(shí)體要素資料庫,關(guān)聯(lián)本體及分類的開放知識(shí)圖譜資料集,事件行為類別模式庫或語料資源等內(nèi)容。
(2)從設(shè)定的可信新聞源中實(shí)時(shí)采集新聞網(wǎng)頁并進(jìn)行預(yù)處理,提取新聞文本及元數(shù)據(jù)信息。
(3)從每則新聞文本中抽取基礎(chǔ)的事件要素信息,生成初始事件數(shù)據(jù);并對相似事件數(shù)據(jù)進(jìn)行去重或合并,構(gòu)成初始事件集合。
(4)計(jì)算初始事件各要素在事件刻畫中的重要程度,生成由基礎(chǔ)要素構(gòu)成的事件初始概要框架。
(5)基于事件的初始概要框架生成社交網(wǎng)絡(luò)數(shù)據(jù)的檢索框架,采用動(dòng)態(tài)迭代的檢索方案實(shí)時(shí)更新檢索框架,提取滿足搜索條件的社交網(wǎng)絡(luò)消息文本,生成候選消息集合。
(6)結(jié)合文本語義分析方法,分析候選消息集合中的要素信息及所屬分類,分析每個(gè)鍵值對的重要程度,并根據(jù)鍵值對的分析結(jié)果生成候選消息的概要框架。
(7)比較候選消息概要框架與事件概要框架的相似度,當(dāng)滿足要求時(shí)將候選消息加入到初始事件對應(yīng)的消息隊(duì)列。
(8)根據(jù)預(yù)設(shè)的消息排序條件(如社交網(wǎng)絡(luò)消息的重要程度、發(fā)布時(shí)間等條件),依次選擇消息隊(duì)列中的鍵值對作為事件數(shù)據(jù)的候選事件要素;針對地理坐標(biāo)等確定性信息,根據(jù)已加入消息隊(duì)列中鍵值對進(jìn)行聚類,分析結(jié)果加入候選事件要素中。
(9)對上述新聞文本和社交網(wǎng)絡(luò)數(shù)據(jù)抽取的候選事件要素,按照時(shí)間、地點(diǎn)、實(shí)體、類別、結(jié)果、規(guī)模、社會(huì)學(xué)屬性等方面進(jìn)一步分類,采用事件融合規(guī)則,對事件要素進(jìn)行規(guī)格化整合,生成完備的事件數(shù)據(jù)。
本發(fā)明的積極效果在于:
1、提供了跨媒體數(shù)據(jù)環(huán)境中的多類別事件要素抽取方法,實(shí)現(xiàn)了精細(xì)化可擴(kuò)展的事件要素抽取,不僅融入了新聞文本描述規(guī)范的優(yōu)勢,抽取事件基礎(chǔ)要素;還利用了社交網(wǎng)絡(luò)文本數(shù)據(jù)規(guī)模大、用戶更新、內(nèi)容覆蓋范圍廣等特性,能夠增加事件結(jié)果、規(guī)模及影響、社會(huì)學(xué)屬性等類別的要素信息。
2、基于事件概要的檢索框架和候選消息概要框架的在檢索階段和過濾階段的雙向查詢,能夠更精準(zhǔn)的篩選出與事件相關(guān)的社交網(wǎng)絡(luò)消息。
3、綜合了事件要素重要程度對刻畫事件的影響,從而保留了更關(guān)鍵可信的事件要素信息。
4、不僅從跨媒體環(huán)境的文本數(shù)據(jù)中抽取事件要素,還結(jié)合了社交網(wǎng)絡(luò)元數(shù)據(jù)中在描述事件相關(guān)的時(shí)間、位置、熱度等方面的優(yōu)勢。
附圖說明
圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的跨媒體事件抽取方法流程圖。
具體實(shí)施方式
本方法提供了一種跨媒體的事件抽取方法,用于在特定類別的重大事件發(fā)生后基于新聞媒體和社交網(wǎng)絡(luò)的相關(guān)信息快速生成細(xì)粒度結(jié)構(gòu)化的事件數(shù)據(jù),包括數(shù)據(jù)提取、事件概要框架、事件要素抽取和事件融合。下面,結(jié)合具體的實(shí)施例對本發(fā)明進(jìn)行詳細(xì)說明,其中社交網(wǎng)絡(luò)事件抽取以研究微博數(shù)據(jù)為例,應(yīng)理解本實(shí)施例僅用于解釋本發(fā)明,并不限于本發(fā)明的范圍。
參照圖1所示為本發(fā)明跨媒體事件抽取方法的流程示意圖,包括如下步驟:
(1)設(shè)置種子事件特征庫及所需的知識(shí)數(shù)據(jù),包括特定組織、機(jī)構(gòu)、場所、人物等實(shí)體要素資料庫,關(guān)聯(lián)本體及分類的開放知識(shí)圖譜資料集,事件行為類別模式庫或語料資源等內(nèi)容。
在實(shí)施過程中,針對目標(biāo)事件的主題類型和公共數(shù)據(jù)資源的主要特點(diǎn),搜集并選用合適的事件特征庫和知識(shí)集合,包含了目標(biāo)事件的特征詞集和新聞事件典型語料,用于后續(xù)的事件識(shí)別及過濾,并建立同步更新規(guī)則。實(shí)體要素及本體在標(biāo)注名稱的同時(shí),建立同義詞、類別等關(guān)聯(lián),例如人物資料中,“某某某”一詞的同義關(guān)聯(lián)詞有某國總統(tǒng)、某國最高領(lǐng)導(dǎo)人等,同時(shí)又屬于政府機(jī)構(gòu)人員,并具有一定的關(guān)聯(lián)時(shí)效性,可以使用WordNet語料庫和官方組織提供的數(shù)據(jù)資源;又如“兩國簽署協(xié)定”事件屬于合作事件,同時(shí)屬于具有正面情感傾向的事件,可用編碼樹形式進(jìn)行標(biāo)注。采用DBpedia或Freebase等開源知識(shí)庫提供本體信息及對應(yīng)類別的知識(shí)圖譜,例如“聯(lián)合國”對應(yīng)類別“非營利國際組織”。事件行為模式可從句法結(jié)構(gòu)和 語法樹中的語言模板等方面定義,句法結(jié)構(gòu)與常規(guī)的實(shí)體識(shí)別方法規(guī)則關(guān)聯(lián),得到事件行為和實(shí)體在文本表示中的關(guān)系特征,用于后續(xù)的事件要素抽取。
(2)從可信的新聞源中實(shí)時(shí)采集新聞網(wǎng)頁并進(jìn)行預(yù)處理,提取新聞文本及元數(shù)據(jù)信息。
從新聞文本抽取事件數(shù)據(jù)時(shí)應(yīng)選用可信的新聞媒體,可信新聞源通常會(huì)在重大事件發(fā)生后第一時(shí)間報(bào)道,覆蓋事件類別全面,從而減少站點(diǎn)RSS種子的集成數(shù)量,同時(shí)新聞稿件文字編排和參考依據(jù)真實(shí)性方面也較同行擁有更高質(zhì)量,為后續(xù)處理模塊降低難度??尚判侣剶?shù)據(jù)源列表選擇時(shí)需從權(quán)威性、地域性、新鮮度等角度考慮,采集新聞網(wǎng)頁應(yīng)滿足大規(guī)模實(shí)時(shí)需求,可采用Redis分布式爬取機(jī)制,從新聞網(wǎng)頁中提取文本和元數(shù)據(jù)信息可采用Goose報(bào)文提取機(jī)制,同時(shí)過濾無關(guān)數(shù)據(jù),更具體的處理過程如下:
a)定義可信新聞源種子列表:按關(guān)注地域標(biāo)注新聞源的覆蓋類別,包括國內(nèi)、國際、局部地區(qū)等,并分別設(shè)定更新時(shí)間,默認(rèn)為15分鐘更新一次。
b)將新聞源列表存儲(chǔ)在主服務(wù)器中,并劃分子任務(wù)到下屬服務(wù)器中,每個(gè)新聞源種子分配單獨(dú)的后臺(tái)工作線程,并啟動(dòng)文本及元數(shù)據(jù)信息提取模塊。
c)提取模塊內(nèi)從原始網(wǎng)頁的html中使用dom、css等結(jié)構(gòu)提取出所有文本標(biāo)記部分,對于包含多個(gè)文本的node結(jié)點(diǎn),根據(jù)每個(gè)結(jié)點(diǎn)下的停用詞數(shù)量及該結(jié)點(diǎn)在網(wǎng)頁中的位置布局進(jìn)行打分,用來判斷node的重要程度:一般來說停用詞數(shù)量越多代表該部分內(nèi)容越詳實(shí),在網(wǎng)頁布局中越靠近中心的內(nèi)容越較為重要,通過這種方式找出核心結(jié)點(diǎn),并提取核心結(jié)點(diǎn)中的文本內(nèi)容作為核心新聞文本。
d)對描述無關(guān)事件的新聞文本進(jìn)行過濾。由于易產(chǎn)生混淆的無關(guān)事件通常有明顯的文本特征,例如研究政治社會(huì)事件時(shí),體育賽事等新聞報(bào)道經(jīng)常采用意為國家較量類型的用詞特點(diǎn),但同時(shí)又包含眾多“國際聯(lián)賽”等體育詞匯,因此可采用包括無關(guān)詞特征的剔除詞詞典,過濾無關(guān)事件。
e)根據(jù)一些事先定義好的規(guī)則或者模板,清除css和腳本中與內(nèi)容無關(guān)的結(jié)構(gòu)標(biāo)簽,保留發(fā)布日期、標(biāo)題信息,完成文本提取及清理。
f)將提取的新聞文本和元數(shù)據(jù)整合成規(guī)定格式的文件,并上傳至NoSQL存儲(chǔ)架構(gòu)的數(shù)據(jù)庫中。
(3)根據(jù)步驟(1)所需的知識(shí)數(shù)據(jù)從每則新聞文本中抽取基礎(chǔ)的事件要素信息,生成初始事件數(shù)據(jù);并對相似事件數(shù)據(jù)進(jìn)行去重或合并,構(gòu)成初始事件集合。
新聞文本遵循特定的寫作規(guī)范,通??壳暗亩温浣榻B新聞事件梗概,靠后的段落主要對事件做進(jìn)一步補(bǔ)充。因此可綜合模板分析和統(tǒng)計(jì)學(xué)習(xí)方法對新聞文本進(jìn)行分析,更具體的過程如下:
a)使用語句提取器將新聞文本分割成句,應(yīng)用自然語言處理工具(如斯坦福大學(xué)的CoreNLP、北京理工大學(xué)的NLPIR等)對新聞?wù)?可以選擇前六句)進(jìn)行詞法和句法分析,解析成語法樹的形式,并識(shí)別依存關(guān)系。
b)根據(jù)詞語在語法樹中的結(jié)構(gòu)特征以及實(shí)體要素資料庫,對新聞?wù)M(jìn)行命名實(shí)體識(shí)別,挖掘出事件中涉及到的人名、地名、機(jī)構(gòu)名等實(shí)體對象。
c)根據(jù)新聞?wù)械膭?dòng)作核心詞,判定行為的涉事主體和客體,根據(jù)預(yù)定義的事件行為類別模式(例如表1中的內(nèi)容示意),識(shí)別事件的行為關(guān)系和所屬類別,并計(jì)算事件的情感傾向強(qiáng)度。例如研究國際事件時(shí),從政治合作到大規(guī)模暴力事件劃分為20個(gè)大類,并分別定義了相應(yīng)子類和詞語使用特征,情感傾向強(qiáng)度被分配-10到10的評分,軍事襲擊/大規(guī)模暴力事件為-10分,終止軍事行動(dòng)為+10分,發(fā)布公開聲明為0分。
表1
d)定位新聞文本中的時(shí)間描述詞,應(yīng)用TimeML文本時(shí)間關(guān)系標(biāo)準(zhǔn)和發(fā)布時(shí)間,對模糊的時(shí)間表述(如“本周六”“昨日”等)通過推理規(guī)則轉(zhuǎn)換為規(guī)范的時(shí)間記法。綜合文本的時(shí)間關(guān)系推理出事件的時(shí)序關(guān)系,將事件與時(shí)間標(biāo)記相匹配。
e)定位文本中的位置描述詞,可以使用開源的地理信息標(biāo)注服務(wù),選取識(shí)別為位置狀語的第一個(gè)標(biāo)注詞作為事件發(fā)生地,并根據(jù)文本中的地名自動(dòng)進(jìn)行查找補(bǔ)全,達(dá)到從國家、行政區(qū)域到城市的最低識(shí)別粒度。如果文本中注明了街道、建筑等精細(xì)位置信息,則識(shí)別到城市,同時(shí)保留該描述字段。
f)將上述要素整合成初始事件數(shù)據(jù),事件要素類型值可以使用但不限于如下形式:event=(time,location,actor1,actor2,action,type,scale,url)
其中time為發(fā)生時(shí)間,描述或數(shù)值型要素;location為發(fā)生位置,包括描述名稱、國別、行政區(qū)域、城市等分量,缺省時(shí)為空;actor1和actor2分別表示施事主體和受事客體,可用多類字段進(jìn)行表示,既包括描述型名稱,也包括標(biāo)注實(shí)體性質(zhì)(如人名、官方機(jī)構(gòu)、非官方機(jī)構(gòu)、國際組織等)的斷言信息;action記錄行為描述詞;type表示事件類別,屬于斷言型要素;scale表示事件的情感傾向,屬于數(shù)值型要素;url為補(bǔ)充信息,表示原始數(shù)據(jù)的出處。
例如,8月13日發(fā)布的新聞
表2
對應(yīng)的初始事件數(shù)據(jù)可表示為
表3
g)當(dāng)同時(shí)段初始事件數(shù)據(jù)的相似度超過特定閾值時(shí),保留該時(shí)段內(nèi)生成的最新事件數(shù)據(jù)以進(jìn)行去重;同時(shí)以信息較完整的數(shù)據(jù)為準(zhǔn),對事件要素進(jìn)行信息合并,并記錄所有相應(yīng)的來源信息。
(4)計(jì)算初始事件各要素在事件刻畫中的重要程度,生成由基礎(chǔ)要素構(gòu)成的的事件初始概要框架。
a)事件要素對刻畫事件越關(guān)鍵,其重要程度取值越大,取值范圍在0到1之間,其中:發(fā)生時(shí)間要素的重要程度為1;描述型要素的重要程度由其在事件對應(yīng)的新聞文本中共現(xiàn)頻率確定,并進(jìn)行歸一化處理;對于采用多級描述形式的事件要素,例如事件發(fā)生位置信息采用地名、城市名、行政區(qū)域名、國名多級結(jié)構(gòu)描述,描述型名稱的計(jì)算方法同上,隨著要素描述粒度的擴(kuò)大,重要程度在該要素性質(zhì)的基礎(chǔ)上適當(dāng)縮小。。
b)將初始事件數(shù)據(jù)的各要素取值按照鍵值對的形式進(jìn)行展開,并根據(jù)要素重要程度對各鍵值對的重要程度進(jìn)行賦值,生成事件初始概要框架,如下:P(e)={((ki,vi),ωi(e,(ki,vi)))|(ki,vi)∈E,ωi(e,(ki,vi))∈[0,1]},其中E表示事件e所有要素分量的鍵值對集合,i的最大取值為所有鍵值對的個(gè)數(shù),(ki,vi)為第i個(gè)鍵值對,ki是要素分量的名稱,vi為分量對應(yīng)取值,ωi為鍵值對的重要程度。
(5)基于事件的初始概要框架生成社交網(wǎng)絡(luò)數(shù)據(jù)的檢索框架,采用動(dòng)態(tài)迭代的檢索方案實(shí)時(shí)更新檢索框架,提取滿足搜索條件的社交網(wǎng)絡(luò)消息文本,生成候選消息集合。
更具體的過程如下:
a)將事件初始概要框架中的鍵值對信息作為檢索關(guān)鍵詞種子,根據(jù)同義詞集對關(guān)鍵詞進(jìn)行擴(kuò)展,生成微博檢索框架;通過微博開放的數(shù)據(jù)檢索接口,檢索事件發(fā)生最近一段時(shí)間內(nèi)(比如7天之內(nèi))的微博數(shù)據(jù)。
b)在檢索到的微博消息中根據(jù)詞語或短語的TFIDF值對微博消息中詞語或短語進(jìn)行排名,選取排名較高的詞作為關(guān)鍵詞,并更新檢索框架,進(jìn)一步按照上述要求檢索微博消息。
c)當(dāng)關(guān)鍵詞的發(fā)現(xiàn)過程收斂時(shí)終止迭代搜索,提取檢索到的微博消息文本,記入候選消息集合。
(6)根據(jù)步驟(1)中的知識(shí)數(shù)據(jù),結(jié)合文本語義分析方法,分析候選消息集合中的要素信息及所屬分類,分析每個(gè)鍵值對的重要程度,并根據(jù)鍵值對的分析結(jié)果生成候選消息的概要框架。
更具體的過程如下:
a)從微博消息中提取候選消息元數(shù)據(jù)中的圖片元數(shù)據(jù)或用戶地理位置信息,得到候選消息對應(yīng)的地理坐標(biāo)信息。
b)對候選消息進(jìn)行命名實(shí)體識(shí)別和淺層語義分析,定位每條微博涉及的實(shí)體信息和語義角色。
c)使用知識(shí)圖譜資料集及關(guān)聯(lián)工具,將博文中的實(shí)體信息映射到相關(guān)概念,得到微博中 包含的鍵值對信息。例如一則微博“距離爆炸地點(diǎn)約2公里的萬通新城國際小區(qū),財(cái)產(chǎn)損失嚴(yán)重”中識(shí)別出實(shí)體“萬通新城國際小區(qū)”屬于“居民區(qū)”類別。
d)對微博文本進(jìn)行分類識(shí)別或聚類,并建立所屬類別和關(guān)鍵詞的關(guān)聯(lián),形成一組鍵值對,與該條微博文本一并存儲(chǔ)。重大事件發(fā)生后,微博內(nèi)容通常分為以下類別:事件影響、原因剖析、潛在風(fēng)險(xiǎn)、當(dāng)事人經(jīng)歷、用戶評論等,根據(jù)文本特征及相應(yīng)的類別識(shí)別規(guī)則,對文本進(jìn)行分類;然后將已經(jīng)識(shí)別出的鍵值對信息映射到相應(yīng)的類別,例如“事件影響”類別的微博下可能包括如下鍵值對,(死亡人數(shù),165)、(受傷人數(shù),798)、(居民區(qū),萬通新城國際小區(qū))等。
e)從微博元數(shù)據(jù)、用戶關(guān)注度和微博發(fā)布地理位置信息等方面評估微博消息內(nèi)容的重要程度。微博元數(shù)據(jù)中包括該則微博的轉(zhuǎn)發(fā)、評論等關(guān)注熱度,通常熱度越高,該則消息內(nèi)容越重要;用戶關(guān)注度指發(fā)布者的粉絲數(shù)量,表示發(fā)布者的影響力;微博發(fā)布的地理位置與初始事件框架中的地理位置進(jìn)行比較,地理距離在一定范圍內(nèi)則標(biāo)識(shí)為當(dāng)事人消息,重要度提高。重要程度的評估模型可以采用score=MS+US+LS,其中MS是根據(jù)元數(shù)據(jù)計(jì)算的微博熱度得分,US是根據(jù)用戶信息計(jì)算的得分,LS是根據(jù)地理相對位置計(jì)算的得分,最終得到的score進(jìn)行歸一化處理,取值在0到1之間。
f)整合每條微博的鍵值對信息,并根據(jù)鍵值對的查詢得分和微博重要程度信息,形成關(guān)于候選微博消息m的概要框架,即
P(m)={((ki,vi),si(m,(ki,vi)))|(ki,vi)∈M,si(m,(ki,vi))∈[0,1]};其中si(m,(ki,vi))為消息文本中抽取的鍵值對(ki,vi)的重要程度,根據(jù)微博m的重要程度score和鍵值對在候選消息鍵值對的TFIDF值共同計(jì)算得出;i的最大取值為該微博消息(包括文本和元數(shù)據(jù))中所包含鍵值對的個(gè)數(shù);一條微博消息的概要框架包含的鍵值對可能為空,也可能包含多組信息,M表示候選消息m所有要素分量的鍵值對集合,ki是第i個(gè)要素分量的名稱,vi為分量對應(yīng)取值。
(7)比較候選消息概要框架與事件概要框架的相似度,當(dāng)滿足要求時(shí),將候選消息加入到該事件的消息隊(duì)列。
由事件概要框架P(e)觸發(fā)的微博檢索方法是根據(jù)文本進(jìn)行的查詢過濾。通過調(diào)整余弦相似度或明氏距離方法計(jì)算每條候選消息的概要框架P(m)與P(e)的相似度,并根據(jù)相似度的閾值建立候選消息的過濾規(guī)則,實(shí)現(xiàn)語義過濾,從而得到更精確的事件消息隊(duì)列。(8)根據(jù)預(yù)設(shè)的消息排序條件(如社交網(wǎng)絡(luò)消息的重要程度、發(fā)布時(shí)間等條件),依次選 擇消息隊(duì)列中的鍵值對作為事件數(shù)據(jù)的候選事件要素;針對地理坐標(biāo)等確定性信息,根據(jù)已加入消息隊(duì)列中鍵值對進(jìn)行聚類,分析結(jié)果加入候選事件要素中。
事件的微博消息隊(duì)列包含了事件更精細(xì)化的要素信息,需要按照特定規(guī)則條件加入到事件數(shù)據(jù)中,更進(jìn)一步的說明如下:
a)對微博消息列表中的消息進(jìn)行排序:可以按照微博重要程度score或微博概要框架與初始事件概要框架的相似度進(jìn)行排序,也可按照微博消息的發(fā)布時(shí)間與事件概要框架中的時(shí)間的接近程度由小到大排序,用戶還可以綜合構(gòu)建定制化的排序策略。
b)按照隊(duì)列順序依次提取微博,如果該條微博對應(yīng)的鍵值對信息未出現(xiàn)在當(dāng)前的事件概要框架,則加入到事件數(shù)據(jù)的候選事件要素中,直到?jīng)]有新的信息加入為止。
c)對消息隊(duì)列中大量的地理坐標(biāo)數(shù)據(jù),通過異常點(diǎn)剔除和聚類分析,可以獲得事件發(fā)生的準(zhǔn)確經(jīng)緯度,特別是對多個(gè)發(fā)生地點(diǎn)的事件,該步驟起到更加精確的效果。
(9)對上述新聞文本和社交網(wǎng)絡(luò)數(shù)據(jù)抽取的候選事件要素,按照時(shí)間、地點(diǎn)、實(shí)體、類別、結(jié)果、規(guī)模、社會(huì)學(xué)屬性等方面進(jìn)一步分類,采用事件融合規(guī)則,對事件要素進(jìn)行規(guī)格化整合,生成完備的事件數(shù)據(jù)。
由于事件概要框架和通過微博數(shù)據(jù)得到的候選事件要素中可能存在內(nèi)容重疊的情況,例如“812天津港特大爆炸”事件中的涉事實(shí)體要素,對應(yīng)的取值可能是“瑞海物流”、“瑞海公司”、“天津港港務(wù)集團(tuán)”等,因此需要對事件的同類信息進(jìn)行整合,相似信息進(jìn)行合并等操作,更進(jìn)一步的說明如下:
a)根據(jù)知識(shí)和訓(xùn)練數(shù)據(jù),對要素類別名稱進(jìn)行分類,類別包括發(fā)生時(shí)間、發(fā)生地點(diǎn)、施事主體、受事客體、事件類別、事件結(jié)果、規(guī)模及影響、社會(huì)學(xué)屬性等,所涉及的類別作為事件數(shù)據(jù)的最外層的描述標(biāo)簽。
b)根據(jù)知識(shí)圖譜提供的概念網(wǎng)絡(luò),將要素類別名稱加入到事件數(shù)據(jù)的子標(biāo)簽中,必要時(shí)可加入中間概念節(jié)點(diǎn)。
c)對候選事件要素的取值類型進(jìn)行規(guī)格化處理,并將類型標(biāo)簽(描述型、斷言型、數(shù)值型等)和取值內(nèi)容加入到事件數(shù)據(jù),形成完備的事件數(shù)據(jù)。
表4完備事件部分節(jié)取