基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取方法
【專利摘要】本發(fā)明公開(kāi)了一種基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法。包括如下步驟:1)采用HCCG模型對(duì)事件建模,定義實(shí)體關(guān)系生成規(guī)則,刻畫(huà)事件屬性,利用詞級(jí)別與流級(jí)別的上下文對(duì)事件進(jìn)行多粒度抽?。?)根據(jù)被抽取事件的HCCG圖,利用最大公共子圖和最小公共超圖的信息量之比進(jìn)行相似度計(jì)算;3)通過(guò)社交媒體的上下文信息對(duì)HCCG進(jìn)行增量式聚類,在聚類過(guò)程中逐漸突出新聞的事件要素;4)通過(guò)基于HCCG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真正的事件。本發(fā)明能有效地匯聚分散的社交媒體信息,直觀地用實(shí)體關(guān)系模型多粒度地表達(dá)中間和最終的事件探測(cè)結(jié)果,相比傳統(tǒng)的社交媒體事件抽取方法有更強(qiáng)的泛化應(yīng)用能力以及更高的精確性。
【專利說(shuō)明】
基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及信息查詢與檢索領(lǐng)域,尤其設(shè)及一種基于社交媒體圖表示模型的社會(huì) 風(fēng)險(xiǎn)事件抽取的方法。
【背景技術(shù)】
[0002] 隨著信息社會(huì)消息的傳播速度大大提升,社會(huì)風(fēng)險(xiǎn)事件的輿論影響日益突出,對(duì) 社會(huì)風(fēng)險(xiǎn)事件進(jìn)行實(shí)時(shí)監(jiān)控和社會(huì)性分析有了越來(lái)越廣泛的應(yīng)用需求。在網(wǎng)絡(luò)環(huán)境下,真 實(shí)世界和虛擬世界具有相互映射的便利性,用戶持續(xù)并大量地匯集到網(wǎng)絡(luò)社交平臺(tái)。社交 媒體的實(shí)時(shí)數(shù)據(jù)從側(cè)面反映了現(xiàn)實(shí)世界事件的發(fā)展動(dòng)向,對(duì)于社會(huì)風(fēng)險(xiǎn)事件的抽取與分析 有著巨大的價(jià)值。
[0003] 現(xiàn)有基于互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行事件感知技術(shù)的研究主要可分為兩大類,一是利用自然 語(yǔ)言處理方法在句子級(jí)別上進(jìn)行原子事件的抽取進(jìn)而支持摘要的生成,如歐盟項(xiàng)目 NewsReader,商業(yè)系統(tǒng)Recorde加'uture;二是利用聚類方法實(shí)現(xiàn)文檔級(jí)別的主題事件檢測(cè) 進(jìn)而支持主題演化分析,如歐盟聯(lián)合研究中屯、(JRC)研制的肥XUS系統(tǒng)。為了支持社會(huì)風(fēng)險(xiǎn) 事件的多粒度感知,往往需要有機(jī)整合兩大類技術(shù),形成多階段的處理框架,典型的有JRC 后續(xù)研發(fā)的Frontex框架。運(yùn)類框架一般在數(shù)據(jù)匯聚的基礎(chǔ)上,通過(guò)語(yǔ)義分析、事件檢測(cè)、信 息融合等多個(gè)階段實(shí)現(xiàn)事件的感知。
[0004] 傳統(tǒng)的互聯(lián)網(wǎng)新聞是由權(quán)威機(jī)構(gòu)發(fā)布的報(bào)道性長(zhǎng)文本,通常具備完整的新聞五要 素,在組織結(jié)構(gòu)上有比較固定的表達(dá),而且長(zhǎng)文本本身自帶豐富的上下文信息。相比之下, 社交媒體上的數(shù)據(jù)是海量、冗雜且缺乏組織的短文本,并常常伴隨著新詞語(yǔ)的大量出現(xiàn)、詞 義纏變、詞語(yǔ)拼寫(xiě)錯(cuò)誤W及句子語(yǔ)法不符合規(guī)范等情況。同時(shí),社交媒體中發(fā)表的內(nèi)容也不 具備傳統(tǒng)新聞媒體的嚴(yán)謹(jǐn)性,在進(jìn)行事件抽取時(shí),判斷結(jié)果的正確性尤其重要。上述的運(yùn)些 特點(diǎn)為基于社交媒體的社會(huì)風(fēng)險(xiǎn)事件抽取帶來(lái)了許多新的挑戰(zhàn)。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于社交媒體圖表示模型的社會(huì) 風(fēng)險(xiǎn)事件抽取的方法。
[0006] 基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法包括如下步驟:
[0007] 1)采用HCCG模型對(duì)事件建模,定義實(shí)體關(guān)系生成規(guī)則,刻畫(huà)事件屬性,利用詞級(jí) 別(word-level)與流級(jí)別(steam-level)的上下文對(duì)事件進(jìn)行多粒度抽?。?br>[0008] 2)根據(jù)被抽取事件的HCCG圖,利用最大公共子圖和最小公共超圖的信息量之比進(jìn) 行相似度計(jì)算;
[0009] 3)通過(guò)社交媒體的上下文信息對(duì)HCCG進(jìn)行增量式聚類,在聚類過(guò)程中逐漸突出新 聞的事件要素;
[0010] 4)通過(guò)基于HCCG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真正的事 件。
[0011]所述的步驟I)具體為:
[0012] 1)使用HCCG模型對(duì)事件建模,則HCCG可表示為一個(gè)無(wú)向有權(quán)圖,圖中的節(jié)點(diǎn)代表 社交媒體文本中出現(xiàn)的實(shí)體;圖中的邊對(duì)應(yīng)在統(tǒng)一文本中W鄰近次序出現(xiàn),語(yǔ)義上相關(guān)聯(lián) 的兩個(gè)實(shí)體之間的聯(lián)系。模型中將節(jié)點(diǎn)分為六類,分別是災(zāi)難中屯、,參與者,地點(diǎn),事件,動(dòng) 作和普通實(shí)體。前五類實(shí)體作為關(guān)鍵節(jié)點(diǎn),W災(zāi)難中屯、節(jié)點(diǎn)為中屯、緊密圍繞。普通實(shí)體分布 在離災(zāi)難中屯、較遠(yuǎn)的位置。實(shí)體距離的遠(yuǎn)近由邊權(quán)重刻畫(huà),權(quán)重越高,實(shí)體距離越近。
[0013] 2)HCCG是無(wú)向有權(quán)圖,因?yàn)槊總€(gè)實(shí)體之間的語(yǔ)義關(guān)聯(lián)強(qiáng)弱并不相同。對(duì)于某社交 媒體文本轉(zhuǎn)化而來(lái)的圖G = (V,E),定義關(guān)聯(lián)邊e G E的權(quán)重weight (e)由3部分組成,分別為: 基本權(quán)重bw(e)、第二部分的權(quán)重kw(ei,j)、第S部分的權(quán)值scw(ei,j);
[0014] 基本權(quán)重bw(e)即反應(yīng)了兩實(shí)體在原文中的距離,有如下公式:
[001 引
(1)
[0016] 對(duì)distance (Vi,Vj)的定義即為兩個(gè)實(shí)體之間間隔的分詞數(shù)加一。
[0017]第二部分的權(quán)重kw(ei,j)由判定關(guān)鍵要素得來(lái),如果構(gòu)成e的兩個(gè)節(jié)點(diǎn)vi,v屬于時(shí) 間,參與者,動(dòng)作,地點(diǎn)要素中的一項(xiàng),運(yùn)條關(guān)連邊e有額外的權(quán)值分。
[001 引
口)
[0019] 累加兩端節(jié)點(diǎn)的關(guān)鍵要素判定分得到kw(ey),如公式3所示。
[0020] kw(ei, j) = Ekei, jKvai(vk) ,VkGV (3)
[0021] 第S部分的權(quán)值scw(ei,j)來(lái)自兩級(jí)上下文,反應(yīng)了該實(shí)體對(duì)在災(zāi)難事件中有持續(xù) 的關(guān)注度。本模型運(yùn)用信號(hào)處理中的方法檢測(cè)本文流中的關(guān)聯(lián)實(shí)體在統(tǒng)計(jì)上的脈沖,將在 一天內(nèi)出現(xiàn)脈沖的實(shí)體對(duì)作為局部上下文信息,將在一個(gè)月內(nèi)持續(xù)出現(xiàn)脈沖的實(shí)體對(duì)作 為全局上下文信息。對(duì)于社交媒體文本解析的實(shí)體對(duì),查看其是否是全局或局部上下文信 息,如果是則額外增加權(quán)重S,如公式4所示。
[0022]
(4)
[0023] 將運(yùn)=部分權(quán)重相加,得到邊e的最終權(quán)重。
[0024] wei 曲 t(ei, j) =bw(ei, j)+kw(ei, j)+scw(ei, j) (5)
[0025] 由于HCCG中不同屬性的節(jié)點(diǎn)的重要程度不同,模型對(duì)節(jié)點(diǎn)也定義了權(quán)重,節(jié)點(diǎn)權(quán) 重由該點(diǎn)在圖中的度乘W系數(shù)得來(lái)。
[00%] wei 曲 t(v) =Odegree(V) (6)
[0027] 本模型定義對(duì)不同屬性節(jié)點(diǎn)定義的系數(shù)是,災(zāi)難中屯、為3,新聞要素實(shí)體為2,普通 節(jié)點(diǎn)為1。在W上權(quán)重的設(shè)置下,圖的重屯、將位于災(zāi)難中屯、和新聞要素實(shí)體上,并且所有實(shí) 體將形成向?yàn)?zāi)難中屯、匯聚的趨勢(shì),對(duì)社會(huì)風(fēng)險(xiǎn)事件本身有十分直觀的表達(dá)。
[0028] 所述的步驟2)具體為:
[0029] 1)首先定義肥CG的信息量infos皿(G)計(jì)算方法
[0030] infosum(G) = ZeeEweight(Vi) ? Weight(Vj) ? weight(ei'j),Vi,Vj G V (7)
[0031] 算法的執(zhí)行流程為:對(duì)圖G中的每條邊e進(jìn)行遍歷,根據(jù)公式5、6介紹的邊和點(diǎn)權(quán)重 的計(jì)算法則將邊和兩個(gè)節(jié)點(diǎn)的權(quán)重分別相乘,并將圖G中所有邊e累加。
[0032] 2)在計(jì)算兩圖相似度前需要先獲得兩圖的交集和并集,即最大公共子圖Gsub和最 小公共超圖Gsup。
[0033] /A井8給m兩巧相仙化撕估化的A管/A井
[0034]
觀
[0035] 最大公共子圖表達(dá)了兩源相似性,故放在分子;最小公共超圖表達(dá)了兩源涵蓋元 素的廣度,放在分母起歸一化作用。當(dāng)兩圖信息完全相同時(shí),diff(Gi,G2)=0,diff(Gi,G2) 的數(shù)值越大,兩源數(shù)據(jù)越不相似。
[0036] 所述的對(duì)肥CG進(jìn)行增量式聚類的步驟為:
[0037] 在HCCG的事件聚類過(guò)程中,對(duì)于某社交媒體上發(fā)表的文本,將其與現(xiàn)有的事件簇 進(jìn)行相似度計(jì)算,取diff最小的聚類,查看運(yùn)個(gè)diff是否達(dá)到認(rèn)為其屬于已存在事件的闊 值e。如果達(dá)到闊值則將它們的HCCG做合并處理。沒(méi)有達(dá)到則將其作為一個(gè)新的事件保存。 為了保持diff闊值e的有效性,合并后的新HCCG需要根據(jù)實(shí)際情況做一定的剪枝處理,去 掉不太重要的邊和節(jié)點(diǎn),使事件圖保持在一個(gè)相對(duì)合理的大小。在運(yùn)個(gè)階段,爆發(fā)性出現(xiàn)的 被監(jiān)控實(shí)體對(duì)的流級(jí)別上下文信息將被匯聚到增長(zhǎng)的肥CG圖中。
[0038] 所述的通過(guò)基于肥CG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真正的 事件的步驟為:
[0039] 在經(jīng)過(guò)增量式聚類后,形成很多聚類每個(gè)聚類都WHCCG的形式表達(dá)。組成HCCG的 實(shí)體有災(zāi)難中屯、,時(shí)間,地點(diǎn),參與者和動(dòng)作運(yùn)些新聞要素,還有作為語(yǔ)義補(bǔ)充的普通實(shí)體, W及連接運(yùn)些實(shí)體的有權(quán)邊。圖中的節(jié)點(diǎn)被作為預(yù)測(cè)肥CG所表達(dá)的事件是社會(huì)風(fēng)險(xiǎn)事件的 主要依據(jù):將圖中的節(jié)點(diǎn)作為特征并根據(jù)節(jié)點(diǎn)的屬性W及與災(zāi)難中屯、的關(guān)聯(lián)度賦予其不同 的權(quán)重,使用樸素貝葉斯分類方法對(duì)選定的特征進(jìn)行條件概率計(jì)算,根據(jù)訓(xùn)練樣本集上得 出的先驗(yàn)最佳闊值過(guò)濾非事件類,得出目標(biāo)事件類。
[0040] 對(duì)于社會(huì)風(fēng)險(xiǎn)事件形成的HCCG,一般具有最顯著的事件特征便是有明確的時(shí)間地 點(diǎn)參與者動(dòng)作等要素的描寫(xiě),由于HCCG在構(gòu)建時(shí)已經(jīng)將各節(jié)點(diǎn)根據(jù)屬性和與HCCG中其他實(shí) 體的關(guān)聯(lián)度計(jì)算了權(quán)重,直接抽取HCCG中的時(shí)間、地點(diǎn)、參與者、動(dòng)作,累加其權(quán)重所謂關(guān)鍵 要素信息量,并計(jì)算運(yùn)個(gè)信息量占全部節(jié)點(diǎn)累加權(quán)重后的比重,將運(yùn)一比重作為貝葉斯分 類器的輸入特征。
[0041 ]本發(fā)明能有效地匯聚分散的社交媒體信息,直觀地用實(shí)體關(guān)系模型多粒度地表達(dá) 中間和最終的事件探測(cè)結(jié)果,因此比傳統(tǒng)的社交媒體事件抽取方法所得到的結(jié)果更準(zhǔn)確, 應(yīng)用場(chǎng)景也更加廣泛。
【附圖說(shuō)明】
[0042] 圖1是基于社交媒體圖的社會(huì)風(fēng)險(xiǎn)事件抽取任務(wù)框架。
[0043] 圖2是單條微博形成的肥CG實(shí)例圖。
[0044] 圖3是不同相似度闊值下的聚類結(jié)果。
[0045] 圖4是不同上下文附加權(quán)重下的聚類結(jié)果。
【具體實(shí)施方式】
[0046] 基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法包括如下步驟:
[0047] 1)采用HCCG模型對(duì)事件建模,定義實(shí)體關(guān)系生成規(guī)則,刻畫(huà)事件屬性,利用詞級(jí)別 (word-level)與流級(jí)別(steam-level)的上下文對(duì)事件進(jìn)行多粒度抽?。?br>[0048] 2)根據(jù)被抽取事件的HCCG圖,利用最大公共子圖和最小公共超圖的信息量之比進(jìn) 行相似度計(jì)算;
[0049] 3)通過(guò)社交媒體的上下文信息對(duì)HCCG進(jìn)行增量式聚類,在聚類過(guò)程中逐漸突出 新聞的事件要素;
[0050] 4)通過(guò)基于HCCG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真正的事 件。
[0051] 所述的步驟1)的結(jié)果如圖2所示
[0052] 1)對(duì)輸入的社交媒體文本進(jìn)行分詞、詞性標(biāo)注等自然語(yǔ)言處理;
[0053] 2)對(duì)文本中的實(shí)體進(jìn)行識(shí)別、標(biāo)引,抽取時(shí)間、人名、地名、機(jī)構(gòu)名等;
[0054] 3)抽取社會(huì)風(fēng)險(xiǎn)事件中屯、,將實(shí)體節(jié)點(diǎn)與事件中屯、節(jié)點(diǎn)進(jìn)行語(yǔ)義上的關(guān)聯(lián),
[0055] 計(jì)算關(guān)聯(lián)邊的權(quán)重;
[0056] 4)根據(jù)節(jié)點(diǎn)的度數(shù)計(jì)算節(jié)點(diǎn)權(quán)重,最后得到的無(wú)向有權(quán)圖即對(duì)單條社交媒體建模 的肥CG圖。
[0057] 所述的步驟2)具體為:
[005引1)定義肥CG圖的信息量計(jì)算方法為
[0059] infosum(G)=玄eeEwei邑ht(vi) ? wei邑ht(vj) ? wei邑ht(ei'j),Vi,VjGV
[0060] 算法執(zhí)行過(guò)程中,對(duì)圖G中的每條邊e進(jìn)行遍歷,根據(jù)邊和點(diǎn)權(quán)重的計(jì)算法則將邊 和兩個(gè)節(jié)點(diǎn)的權(quán)重分別相乘,并將圖G中所有邊e累加;
[0061] 2)計(jì)算待比較兩圖的交集和并集,即最大公共子圖和最小公共超圖;
[0062] 3)兩圖相似性數(shù)值化的計(jì)算公式
[0063]
[0064] 最大公共子圖表達(dá)了兩源相似性,故放在分子;最小公共超圖表達(dá)了兩源涵蓋元 素的廣度,放在分母起歸一化作用。當(dāng)兩圖信息完全相同時(shí),diff(Gi,G2)=0,diff(Gi,G2) 的數(shù)值越大,兩源數(shù)據(jù)越不相似。
[0065] 所述的基于肥CG進(jìn)行增量式聚類具體說(shuō)明如下:
[0066] 1)對(duì)于輸入的社交媒體文本,用肥CG對(duì)其建模;
[0067] 2)將得到的HCCG與現(xiàn)有的事件簇進(jìn)行相似度計(jì)算,取diff最小的聚類,查看運(yùn)個(gè) diff是否達(dá)到認(rèn)為其屬于已存在事件的闊值e。如果達(dá)到闊值則將它們的HCCG做合并處理, 并更新事件簇的時(shí)間戳。沒(méi)有達(dá)到則將其作為一個(gè)新的事件保存。
[0068] 3)為了保持diff闊值e的有效性,對(duì)肥CG進(jìn)行合并后,需要根據(jù)實(shí)際情況做一定的 剪枝處理,去掉不太重要的邊和節(jié)點(diǎn),使事件圖保持在一個(gè)相對(duì)合理的大小;
[0069] 4)現(xiàn)有事件簇每次與新輸入HCCG作比較時(shí),檢查時(shí)間戳與當(dāng)前時(shí)間之差是否超過(guò) 預(yù)先設(shè)置的時(shí)間窗口,如果超出則將事件類視為穩(wěn)定狀態(tài),并從臨時(shí)存儲(chǔ)轉(zhuǎn)為持久存儲(chǔ)。
[0070] 所述的基于肥CG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真正的事件 的步驟:
[0071] 1)在經(jīng)過(guò)增量式聚類后,形成很多聚類每個(gè)聚類都WHCCG的形式表達(dá)。組成HCCG 的實(shí)體有災(zāi)難中屯、,時(shí)間,地點(diǎn),參與者和動(dòng)作運(yùn)些新聞要素,還有作為語(yǔ)義補(bǔ)充的普通實(shí) 體,W及連接運(yùn)些實(shí)體的有權(quán)邊。圖中的節(jié)點(diǎn)被作為預(yù)測(cè)HCCG所表達(dá)的事件是社會(huì)風(fēng)險(xiǎn)事 件的主要依據(jù):將圖中的節(jié)點(diǎn)作為特征并根據(jù)節(jié)點(diǎn)的屬性W及與災(zāi)難中屯、的關(guān)聯(lián)度賦予其 不同的權(quán)重,使用樸素貝葉斯分類方法對(duì)選定的特征進(jìn)行條件概率計(jì)算,訓(xùn)練得到分類器 W及最佳先驗(yàn)過(guò)濾闊值。
[0072] 2)對(duì)于所有進(jìn)入穩(wěn)定狀態(tài)的聚類結(jié)果,直接抽取HCCG中的時(shí)間、地點(diǎn)、參與者、動(dòng) 作,累加其權(quán)重所謂關(guān)鍵要素信息量,并計(jì)算信息量占全部節(jié)點(diǎn)累加權(quán)重后的比重,輸入分 類器,并利用最佳先驗(yàn)過(guò)濾闊值對(duì)結(jié)果進(jìn)行過(guò)濾,通過(guò)過(guò)濾的聚類結(jié)果即可W有較高的置 信度被認(rèn)為是真正的事件。
[0073] 實(shí)施例
[0074] 由于在社交媒體平臺(tái)事件檢測(cè)領(lǐng)域沒(méi)有標(biāo)準(zhǔn)的衡量準(zhǔn)則。實(shí)驗(yàn)采用新浪微博平臺(tái) 上的真實(shí)數(shù)據(jù)檢測(cè)本發(fā)明的方法。在爬取微博時(shí),用基于關(guān)鍵詞捜索的方式,向微博大數(shù)據(jù) 投入災(zāi)難中屯、關(guān)鍵詞,在返回的數(shù)據(jù)中選取最新發(fā)布的微博。使用"埃博拉"作為災(zāi)難中屯、 詞通過(guò)新浪API,共獲得了13538微博,它們的發(fā)布日期在2014年1月1號(hào)到2014年1月30號(hào)之 間。在對(duì)微博數(shù)據(jù)進(jìn)行清洗后,剩下總計(jì)10452條微博。運(yùn)些微博信息是埃博拉話題下吸引 了較多關(guān)注的微博。2)系統(tǒng)首先對(duì)微博進(jìn)行原發(fā)轉(zhuǎn)發(fā)判斷,噪音判斷等等的前期清洗工作。 對(duì)于原發(fā)微博,噪音判斷的標(biāo)準(zhǔn)是當(dāng)原文字?jǐn)?shù)少于10或NPL處理后識(shí)別的實(shí)體數(shù)少于3則不 作為事件微博進(jìn)行分析,直接從流中濾除;轉(zhuǎn)發(fā)微博作為原發(fā)微博的加權(quán)處理。
[0075] 接下來(lái)利用TF-IDF聚類結(jié)合人工標(biāo)注的方法獲取標(biāo)準(zhǔn)集。在標(biāo)注工作完成之后, 我們得到1056個(gè)事件聚類,聚類大小從1條微博到70條微博不等。為了獲得一個(gè)更加平衡的 標(biāo)準(zhǔn)集,刪除那些聚類大小少于5條微博的事件類。最終剩下的895個(gè)事件聚類組成了聚類 實(shí)驗(yàn)的標(biāo)準(zhǔn)集。
[0076] 分類實(shí)驗(yàn)的目標(biāo)是將災(zāi)難事件從非事件中區(qū)分出來(lái)。分類實(shí)驗(yàn)的基礎(chǔ)數(shù)據(jù)在基于 HCCG聚類的最佳結(jié)果上進(jìn)行。由志愿者對(duì)聚類結(jié)果進(jìn)行標(biāo)注,區(qū)分聚類事件是否反映了真 實(shí)世界的災(zāi)難事件。根據(jù)微博發(fā)布的時(shí)間,將運(yùn)895個(gè)聚類分為1月份上半月和1月份下半月 兩部分,分別包含400和495個(gè)事件聚類。
[0077] 在對(duì)聚類性能進(jìn)行評(píng)估時(shí),選用正確率,召回率和Fl分?jǐn)?shù)作為性能度量。正確率、 召回率和Fl值是廣泛用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的=個(gè)度量值,用來(lái)評(píng)價(jià)結(jié)果的質(zhì) 量。
[0078] 圖1是本發(fā)明進(jìn)行事件抽取的任務(wù)框架。圖2給出了對(duì)單條微博進(jìn)行的社會(huì)風(fēng)險(xiǎn)事 件抽取的一個(gè)具體例子。圖3是不同相似度闊值下的HCCG聚類結(jié)果。圖4是不同上下文附加 權(quán)重下的肥CG聚類結(jié)果。
[0079] 為了驗(yàn)證本發(fā)明的有效性,我們實(shí)現(xiàn)了基于詞向量的TF-IDF方法并用余弦距離計(jì) 算文本相似度,W此作為比較基準(zhǔn)。聚類實(shí)驗(yàn)結(jié)果由表1給出。其中HCCG表示基于圖的建模 方法,HCCGc表示在加入全局和局部上下文附加權(quán)的建模方法。
[0080] 表1 £=6時(shí)的聚類結(jié)果 rn〇Ri1
[0082] 結(jié)果顯示出本發(fā)明的HCCG建模是一種更好的短文本表示方法,因?yàn)槟P涂紤]到文 本互信息和文本結(jié)構(gòu)兩個(gè)方面并突出了事件的新聞特征。當(dāng)將上下文附加權(quán)加入HCCG中, 召回率得到明顯改善,F(xiàn)值超過(guò)了 TF-IDF和HCCG,分別提升了 14.3 %和8.6 %。運(yùn)個(gè)結(jié)果表明 信息的歷史上下文對(duì)事件聚類性能有明顯的改善作用。
[0083] 分類的目標(biāo)是將社會(huì)風(fēng)險(xiǎn)事件從非事件中區(qū)分出來(lái)。在評(píng)價(jià)HCCG模型下的事件分 類時(shí),關(guān)鍵點(diǎn)在于對(duì)事件特征的選取。我們用傳統(tǒng)的基于文本的特征選取作為比較基準(zhǔn),運(yùn) 種特征是將所有在文本中出現(xiàn)的詞作為特征并不計(jì)權(quán)重。本發(fā)明的HCCG特征則是選取圖中 的新聞要素節(jié)點(diǎn)并將各節(jié)點(diǎn)的權(quán)重一并考慮進(jìn)來(lái)。分類實(shí)驗(yàn)的結(jié)果如表2所示
[0084] 表2分類實(shí)驗(yàn)的正確率
[0086] 實(shí)驗(yàn)結(jié)果說(shuō)明,本發(fā)明提出的HCCG模型下提煉的特征比基于本文的方法在兩個(gè)標(biāo) 注集上都有更好的表現(xiàn)。運(yùn)證明了 HCCG特征組合在選取表達(dá)事件的特征時(shí)有很高的效率, 因?yàn)檫\(yùn)些特征本身就是描述事件的關(guān)鍵實(shí)體。在另一個(gè)層面,模型在積累過(guò)程中的剪枝操 作去除了集合中與事件不相關(guān)的噪音信息,運(yùn)也是提升事件特征質(zhì)量的一個(gè)關(guān)鍵。
[0087] 實(shí)驗(yàn)結(jié)果表明,本發(fā)明能有效地匯聚分散的社交媒體信息,直觀地用實(shí)體關(guān)系模 型多粒度地表達(dá)中間和最終的事件探測(cè)結(jié)果,因此比傳統(tǒng)的社交媒體事件抽取方法所得到 的結(jié)果更準(zhǔn)確,應(yīng)用場(chǎng)景也更加廣泛。
【主權(quán)項(xiàng)】
1. 一種基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法,其特征在于包括如下步 驟: 1) 采用HCCG模型對(duì)事件建模,定義實(shí)體關(guān)系生成規(guī)則,刻畫(huà)事件屬性,利用詞級(jí)別與流 級(jí)別的上下文對(duì)事件進(jìn)行多粒度抽??; 2) 根據(jù)被抽取事件的HCCG圖,利用最大公共子圖和最小公共超圖的信息量之比進(jìn)行相 似度計(jì)算; 3) 通過(guò)社交媒體的上下文信息對(duì)HCCG進(jìn)行增量式聚類,在聚類過(guò)程中逐漸突出新聞的 事件要素; 4) 通過(guò)基于HCCG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真正的事件。2. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法, 其特征在于,所述的步驟1)具體為: 1) 使用HCCG模型對(duì)事件建模,HCCG表示為一個(gè)無(wú)向有權(quán)圖,圖中的節(jié)點(diǎn)代表社交媒體 文本中出現(xiàn)的實(shí)體;圖中的邊對(duì)應(yīng)在統(tǒng)一文本中以鄰近次序出現(xiàn)、語(yǔ)義上相關(guān)聯(lián)的兩個(gè)實(shí) 體之間的聯(lián)系,模型中將節(jié)點(diǎn)分為六類,分別是災(zāi)難中心,參與者,地點(diǎn),事件,動(dòng)作和普通 實(shí)體,前五類實(shí)體作為關(guān)鍵節(jié)點(diǎn),以災(zāi)難中心節(jié)點(diǎn)為中心緊密圍繞,普通實(shí)體分布在離災(zāi)難 中心較遠(yuǎn)的位置,實(shí)體距離的遠(yuǎn)近由邊權(quán)重刻畫(huà),權(quán)重越高,實(shí)體距離越近; 2. HCCG是無(wú)向有權(quán)圖,因?yàn)槊總€(gè)實(shí)體之間的語(yǔ)義關(guān)聯(lián)強(qiáng)弱并不相同,對(duì)于某社交媒體 文本轉(zhuǎn)化而來(lái)的圖G=(V,E),定義關(guān)聯(lián)邊eeE的權(quán)重weight(e)由三部分的權(quán)重計(jì)算組成, 分別為:基本權(quán)重bw(e)、第二部分的權(quán)重kw(ei, j)、第三部分的權(quán)值scw(ei, j); 基本權(quán)重bw(e)即反應(yīng)了兩實(shí)體在原文中的距離,有如下公式:(1) 對(duì)di stance (Vi,Vj)的定義即為兩個(gè)實(shí)體之間間隔的分詞數(shù)加一; 第二部分的權(quán)重kw(ei,j)由判定關(guān)鍵要素得來(lái),如果構(gòu)成e的兩個(gè)節(jié)點(diǎn)Vi, Vj屬于時(shí)間, 參與者,動(dòng)作,地點(diǎn)要素中的一項(xiàng),這條關(guān)連邊e有額外的權(quán)值分;(2) 累加兩端節(jié)點(diǎn)的關(guān)鍵要素判定分得到kw(elu),如公式(3)所示; kw( Θi, j )- Σ kei, jKval ( Vk) j Vk ^ V ( 3 ) 第三部分的權(quán)值sCW ( ei, j )來(lái)自兩級(jí)上下文,反應(yīng)了該實(shí)體對(duì)在災(zāi)難事件中有持續(xù)的關(guān) 注度,運(yùn)用信號(hào)處理中的方法檢測(cè)本文流中的關(guān)聯(lián)實(shí)體在統(tǒng)計(jì)上的脈沖,將在一天內(nèi)出現(xiàn) 脈沖的實(shí)體對(duì)作為局部上下文信息,將在一個(gè)月內(nèi)持續(xù)出現(xiàn)脈沖的實(shí)體對(duì)作為全局上下文 信息,對(duì)于社交媒體文本解析的實(shí)體對(duì),查看其是否是全局或局部上下文信息,如果是則額 外增加權(quán)重S,如公式(4)所示,將這三部分權(quán)重相加,得到邊e的最終權(quán)重: weight (ei, j) =bw(ei,j)+kw(ei,j)+scw(ei,j) (5)由于HCCG中不同屬性的節(jié)點(diǎn)的 重要程度不同,模型對(duì)節(jié)點(diǎn)也定義了權(quán)重,節(jié)點(diǎn)權(quán)重由該點(diǎn)在圖中的度乘以系數(shù)C得來(lái): weight (v) =C*degree(v) (6)。3. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法, 其特征在于,所述的步驟2)具體為: 1) 首先定義HCCG的信息量infosum(G)計(jì)算方法 infosum(G) = EeeEweight(vi) · weight(vj) · weight(ei,j) ,Vi,VjeV (7) 算法的執(zhí)行流程為:對(duì)圖G中的每條邊e進(jìn)行遍歷,根據(jù)公式(5)、(6)計(jì)算邊和節(jié)點(diǎn)權(quán) 重,將邊和兩個(gè)節(jié)點(diǎn)的權(quán)重分別相乘,并將圖G中所有邊e累加; 2) 在計(jì)算兩圖相似度前需要先獲得兩圖的交集和并集,即最大公共子圖Gsub和最小公 共超圖Gsup ; 公式8給出兩圖相似性數(shù)值化的計(jì)算公式(8) 最大公開(kāi)于圖表迖J兩源相似性,故取在分于;最小公共超圖表達(dá)了兩源涵蓋元素的 廣度,放在分母起歸一化作用,當(dāng)兩圖信息完全相同時(shí), 值越大,兩源數(shù)據(jù)越不相似。4. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法, 其特征在于,所述的對(duì)HCCG進(jìn)行增量式聚類的步驟為: 在HCCG的事件聚類過(guò)程中,對(duì)于某社交媒體上發(fā)表的文本,將其與現(xiàn)有的事件簇進(jìn)行 相似度計(jì)算,取diff最小的聚類,查看這個(gè)diff是否達(dá)到認(rèn)為其屬于已存在事件的閾值ε, 如果達(dá)到閾值則將它們的HCCG做合并處理,沒(méi)有達(dá)到則將其作為一個(gè)新的事件保存,為了 保持diff閾值ε的有效性,合并后的新HCCG需要根據(jù)實(shí)際情況做一定的剪枝處理,去掉不太 重要的邊和節(jié)點(diǎn),使事件圖保持在一個(gè)相對(duì)合理的大小,在這個(gè)階段,爆發(fā)性出現(xiàn)的被監(jiān)控 實(shí)體對(duì)的流級(jí)別上下文信息將被匯聚到增長(zhǎng)的HCCG圖中。5. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法, 其特征在于,所述的通過(guò)基于HCCG模型的聚類結(jié)果進(jìn)行事件判別,判斷聚類結(jié)果是否為真 正的事件的步驟為: 在經(jīng)過(guò)增量式聚類后,形成很多聚類,每個(gè)聚類都以HCCG的形式表達(dá),組成HCCG的實(shí)體 有災(zāi)難中心,時(shí)間,地點(diǎn),參與者和動(dòng)作這些新聞要素,還有作為語(yǔ)義補(bǔ)充的普通實(shí)體,以及 連接這些實(shí)體的有權(quán)邊,圖中的節(jié)點(diǎn)被作為預(yù)測(cè)HCCG所表達(dá)的事件是社會(huì)風(fēng)險(xiǎn)事件的依 據(jù):將圖中的節(jié)點(diǎn)作為特征并根據(jù)節(jié)點(diǎn)的屬性以及與災(zāi)難中心的關(guān)聯(lián)度賦予其不同的權(quán) 重,使用樸素貝葉斯分類方法對(duì)選定的特征進(jìn)行條件概率計(jì)算,根據(jù)訓(xùn)練樣本集上得出的 先驗(yàn)最佳閾值過(guò)濾非事件類,得出目標(biāo)事件類; 對(duì)于社會(huì)風(fēng)險(xiǎn)事件形成的HCCG,一般具有最顯著的事件特征便是有明確的時(shí)間地點(diǎn)參 與者動(dòng)作等要素的描寫(xiě),由于HCCG在構(gòu)建時(shí)已經(jīng)將各節(jié)點(diǎn)根據(jù)屬性和與HCCG中其他實(shí)體的 關(guān)聯(lián)度計(jì)算了權(quán)重,直接抽取HCCG中的時(shí)間、地點(diǎn)、參與者、動(dòng)作,累加其權(quán)重所謂關(guān)鍵要素 信息量,并計(jì)算這個(gè)信息量占全部節(jié)點(diǎn)累加權(quán)重后的比重,將這一比重作為貝葉斯分類器 的輸入特征。
【文檔編號(hào)】G06F17/30GK105956197SQ201610438133
【公開(kāi)日】2016年9月21日
【申請(qǐng)日】2016年6月15日
【發(fā)明人】凌立剛, 朱海鵬
【申請(qǐng)人】杭州量知數(shù)據(jù)科技有限公司