基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取方法

文檔序號(hào)：10594218閱讀：370來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取方法
【專利摘要】本發(fā)明公開(kāi)了一種基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法。包括如下步驟：1)采用HCCG模型對(duì)事件建模，定義實(shí)體關(guān)系生成規(guī)則，刻畫(huà)事件屬性，利用詞級(jí)別與流級(jí)別的上下文對(duì)事件進(jìn)行多粒度抽?。?)根據(jù)被抽取事件的HCCG圖，利用最大公共子圖和最小公共超圖的信息量之比進(jìn)行相似度計(jì)算；3)通過(guò)社交媒體的上下文信息對(duì)HCCG進(jìn)行增量式聚類，在聚類過(guò)程中逐漸突出新聞的事件要素；4)通過(guò)基于HCCG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件。本發(fā)明能有效地匯聚分散的社交媒體信息，直觀地用實(shí)體關(guān)系模型多粒度地表達(dá)中間和最終的事件探測(cè)結(jié)果，相比傳統(tǒng)的社交媒體事件抽取方法有更強(qiáng)的泛化應(yīng)用能力以及更高的精確性。
【專利說(shuō)明】
基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及信息查詢與檢索領(lǐng)域，尤其設(shè)及一種基于社交媒體圖表示模型的社會(huì) 風(fēng)險(xiǎn)事件抽取的方法。
【背景技術(shù)】
[0002] 隨著信息社會(huì)消息的傳播速度大大提升，社會(huì)風(fēng)險(xiǎn)事件的輿論影響日益突出，對(duì) 社會(huì)風(fēng)險(xiǎn)事件進(jìn)行實(shí)時(shí)監(jiān)控和社會(huì)性分析有了越來(lái)越廣泛的應(yīng)用需求。在網(wǎng)絡(luò)環(huán)境下，真實(shí)世界和虛擬世界具有相互映射的便利性，用戶持續(xù)并大量地匯集到網(wǎng)絡(luò)社交平臺(tái)。社交媒體的實(shí)時(shí)數(shù)據(jù)從側(cè)面反映了現(xiàn)實(shí)世界事件的發(fā)展動(dòng)向，對(duì)于社會(huì)風(fēng)險(xiǎn)事件的抽取與分析有著巨大的價(jià)值。
[0003] 現(xiàn)有基于互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行事件感知技術(shù)的研究主要可分為兩大類，一是利用自然語(yǔ)言處理方法在句子級(jí)別上進(jìn)行原子事件的抽取進(jìn)而支持摘要的生成，如歐盟項(xiàng)目 NewsReader,商業(yè)系統(tǒng)Recorde加'uture;二是利用聚類方法實(shí)現(xiàn)文檔級(jí)別的主題事件檢測(cè) 進(jìn)而支持主題演化分析，如歐盟聯(lián)合研究中屯、(JRC)研制的肥XUS系統(tǒng)。為了支持社會(huì)風(fēng)險(xiǎn) 事件的多粒度感知，往往需要有機(jī)整合兩大類技術(shù)，形成多階段的處理框架，典型的有JRC 后續(xù)研發(fā)的Frontex框架。運(yùn)類框架一般在數(shù)據(jù)匯聚的基礎(chǔ)上，通過(guò)語(yǔ)義分析、事件檢測(cè)、信息融合等多個(gè)階段實(shí)現(xiàn)事件的感知。
[0004] 傳統(tǒng)的互聯(lián)網(wǎng)新聞是由權(quán)威機(jī)構(gòu)發(fā)布的報(bào)道性長(zhǎng)文本，通常具備完整的新聞五要素，在組織結(jié)構(gòu)上有比較固定的表達(dá)，而且長(zhǎng)文本本身自帶豐富的上下文信息。相比之下，社交媒體上的數(shù)據(jù)是海量、冗雜且缺乏組織的短文本，并常常伴隨著新詞語(yǔ)的大量出現(xiàn)、詞義纏變、詞語(yǔ)拼寫(xiě)錯(cuò)誤W及句子語(yǔ)法不符合規(guī)范等情況。同時(shí)，社交媒體中發(fā)表的內(nèi)容也不具備傳統(tǒng)新聞媒體的嚴(yán)謹(jǐn)性，在進(jìn)行事件抽取時(shí)，判斷結(jié)果的正確性尤其重要。上述的運(yùn)些特點(diǎn)為基于社交媒體的社會(huì)風(fēng)險(xiǎn)事件抽取帶來(lái)了許多新的挑戰(zhàn)。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足，提供一種基于社交媒體圖表示模型的社會(huì) 風(fēng)險(xiǎn)事件抽取的方法。
[0006] 基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法包括如下步驟：
[0007] 1)采用HCCG模型對(duì)事件建模，定義實(shí)體關(guān)系生成規(guī)則，刻畫(huà)事件屬性，利用詞級(jí) 別(word-level)與流級(jí)別（steam-level)的上下文對(duì)事件進(jìn)行多粒度抽?。?br>[0008] 2)根據(jù)被抽取事件的HCCG圖，利用最大公共子圖和最小公共超圖的信息量之比進(jìn) 行相似度計(jì)算；
[0009] 3)通過(guò)社交媒體的上下文信息對(duì)HCCG進(jìn)行增量式聚類，在聚類過(guò)程中逐漸突出新聞的事件要素；
[0010] 4)通過(guò)基于HCCG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件。
[0011]所述的步驟I)具體為：
[0012] 1)使用HCCG模型對(duì)事件建模，則HCCG可表示為一個(gè)無(wú)向有權(quán)圖，圖中的節(jié)點(diǎn)代表社交媒體文本中出現(xiàn)的實(shí)體；圖中的邊對(duì)應(yīng)在統(tǒng)一文本中W鄰近次序出現(xiàn)，語(yǔ)義上相關(guān)聯(lián) 的兩個(gè)實(shí)體之間的聯(lián)系。模型中將節(jié)點(diǎn)分為六類，分別是災(zāi)難中屯、，參與者，地點(diǎn)，事件，動(dòng) 作和普通實(shí)體。前五類實(shí)體作為關(guān)鍵節(jié)點(diǎn)，W災(zāi)難中屯、節(jié)點(diǎn)為中屯、緊密圍繞。普通實(shí)體分布在離災(zāi)難中屯、較遠(yuǎn)的位置。實(shí)體距離的遠(yuǎn)近由邊權(quán)重刻畫(huà)，權(quán)重越高，實(shí)體距離越近。
[0013] 2)HCCG是無(wú)向有權(quán)圖，因?yàn)槊總€(gè)實(shí)體之間的語(yǔ)義關(guān)聯(lián)強(qiáng)弱并不相同。對(duì)于某社交媒體文本轉(zhuǎn)化而來(lái)的圖G = (V，E)，定義關(guān)聯(lián)邊e G E的權(quán)重weight (e)由3部分組成，分別為：基本權(quán)重bw(e)、第二部分的權(quán)重kw(ei,j)、第S部分的權(quán)值scw(ei,j);
[0014] 基本權(quán)重bw(e)即反應(yīng)了兩實(shí)體在原文中的距離，有如下公式：
[001 引
（1)
[0016] 對(duì)distance (Vi，Vj)的定義即為兩個(gè)實(shí)體之間間隔的分詞數(shù)加一。
[0017]第二部分的權(quán)重kw(ei,j)由判定關(guān)鍵要素得來(lái)，如果構(gòu)成e的兩個(gè)節(jié)點(diǎn)vi，v屬于時(shí) 間，參與者，動(dòng)作，地點(diǎn)要素中的一項(xiàng)，運(yùn)條關(guān)連邊e有額外的權(quán)值分。
[001 引
口）
[0019] 累加兩端節(jié)點(diǎn)的關(guān)鍵要素判定分得到kw(ey)，如公式3所示。
[0020] kw(ei, j) = Ekei, jKvai(vk) ,VkGV (3)
[0021] 第S部分的權(quán)值scw(ei,j)來(lái)自兩級(jí)上下文，反應(yīng)了該實(shí)體對(duì)在災(zāi)難事件中有持續(xù) 的關(guān)注度。本模型運(yùn)用信號(hào)處理中的方法檢測(cè)本文流中的關(guān)聯(lián)實(shí)體在統(tǒng)計(jì)上的脈沖，將在一天內(nèi)出現(xiàn)脈沖的實(shí)體對(duì)作為局部上下文信息，將在一個(gè)月內(nèi)持續(xù)出現(xiàn)脈沖的實(shí)體對(duì)作為全局上下文信息。對(duì)于社交媒體文本解析的實(shí)體對(duì)，查看其是否是全局或局部上下文信息，如果是則額外增加權(quán)重S，如公式4所示。
[0022]
(4)
[0023] 將運(yùn)=部分權(quán)重相加，得到邊e的最終權(quán)重。
[0024] wei 曲 t(ei, j) =bw(ei, j)+kw(ei, j)+scw(ei, j) (5)
[0025] 由于HCCG中不同屬性的節(jié)點(diǎn)的重要程度不同，模型對(duì)節(jié)點(diǎn)也定義了權(quán)重，節(jié)點(diǎn)權(quán) 重由該點(diǎn)在圖中的度乘W系數(shù)得來(lái)。
[00%] wei 曲 t(v) =Odegree(V) (6)
[0027] 本模型定義對(duì)不同屬性節(jié)點(diǎn)定義的系數(shù)是，災(zāi)難中屯、為3,新聞要素實(shí)體為2,普通節(jié)點(diǎn)為1。在W上權(quán)重的設(shè)置下，圖的重屯、將位于災(zāi)難中屯、和新聞要素實(shí)體上，并且所有實(shí) 體將形成向?yàn)?zāi)難中屯、匯聚的趨勢(shì)，對(duì)社會(huì)風(fēng)險(xiǎn)事件本身有十分直觀的表達(dá)。
[0028] 所述的步驟2)具體為：
[0029] 1)首先定義肥CG的信息量infos皿(G)計(jì)算方法
[0030] infosum(G) = ZeeEweight(Vi) ? Weight(Vj) ? weight(ei'j)，Vi，Vj G V (7)
[0031] 算法的執(zhí)行流程為:對(duì)圖G中的每條邊e進(jìn)行遍歷，根據(jù)公式5、6介紹的邊和點(diǎn)權(quán)重的計(jì)算法則將邊和兩個(gè)節(jié)點(diǎn)的權(quán)重分別相乘，并將圖G中所有邊e累加。
[0032] 2)在計(jì)算兩圖相似度前需要先獲得兩圖的交集和并集，即最大公共子圖Gsub和最小公共超圖Gsup。
[0033] /A井8給m兩巧相仙化撕估化的A管/A井
[0034]
觀
[0035] 最大公共子圖表達(dá)了兩源相似性，故放在分子;最小公共超圖表達(dá)了兩源涵蓋元素的廣度，放在分母起歸一化作用。當(dāng)兩圖信息完全相同時(shí)，diff(Gi，G2)=0，diff(Gi，G2) 的數(shù)值越大，兩源數(shù)據(jù)越不相似。
[0036] 所述的對(duì)肥CG進(jìn)行增量式聚類的步驟為：
[0037] 在HCCG的事件聚類過(guò)程中，對(duì)于某社交媒體上發(fā)表的文本，將其與現(xiàn)有的事件簇進(jìn)行相似度計(jì)算，取diff最小的聚類，查看運(yùn)個(gè)diff是否達(dá)到認(rèn)為其屬于已存在事件的闊值e。如果達(dá)到闊值則將它們的HCCG做合并處理。沒(méi)有達(dá)到則將其作為一個(gè)新的事件保存。為了保持diff闊值e的有效性，合并后的新HCCG需要根據(jù)實(shí)際情況做一定的剪枝處理，去掉不太重要的邊和節(jié)點(diǎn)，使事件圖保持在一個(gè)相對(duì)合理的大小。在運(yùn)個(gè)階段，爆發(fā)性出現(xiàn)的被監(jiān)控實(shí)體對(duì)的流級(jí)別上下文信息將被匯聚到增長(zhǎng)的肥CG圖中。
[0038] 所述的通過(guò)基于肥CG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件的步驟為：
[0039] 在經(jīng)過(guò)增量式聚類后，形成很多聚類每個(gè)聚類都WHCCG的形式表達(dá)。組成HCCG的實(shí)體有災(zāi)難中屯、，時(shí)間，地點(diǎn)，參與者和動(dòng)作運(yùn)些新聞要素，還有作為語(yǔ)義補(bǔ)充的普通實(shí)體， W及連接運(yùn)些實(shí)體的有權(quán)邊。圖中的節(jié)點(diǎn)被作為預(yù)測(cè)肥CG所表達(dá)的事件是社會(huì)風(fēng)險(xiǎn)事件的主要依據(jù):將圖中的節(jié)點(diǎn)作為特征并根據(jù)節(jié)點(diǎn)的屬性W及與災(zāi)難中屯、的關(guān)聯(lián)度賦予其不同的權(quán)重，使用樸素貝葉斯分類方法對(duì)選定的特征進(jìn)行條件概率計(jì)算，根據(jù)訓(xùn)練樣本集上得出的先驗(yàn)最佳闊值過(guò)濾非事件類，得出目標(biāo)事件類。
[0040] 對(duì)于社會(huì)風(fēng)險(xiǎn)事件形成的HCCG，一般具有最顯著的事件特征便是有明確的時(shí)間地點(diǎn)參與者動(dòng)作等要素的描寫(xiě)，由于HCCG在構(gòu)建時(shí)已經(jīng)將各節(jié)點(diǎn)根據(jù)屬性和與HCCG中其他實(shí) 體的關(guān)聯(lián)度計(jì)算了權(quán)重，直接抽取HCCG中的時(shí)間、地點(diǎn)、參與者、動(dòng)作，累加其權(quán)重所謂關(guān)鍵要素信息量，并計(jì)算運(yùn)個(gè)信息量占全部節(jié)點(diǎn)累加權(quán)重后的比重，將運(yùn)一比重作為貝葉斯分類器的輸入特征。
[0041 ]本發(fā)明能有效地匯聚分散的社交媒體信息，直觀地用實(shí)體關(guān)系模型多粒度地表達(dá) 中間和最終的事件探測(cè)結(jié)果，因此比傳統(tǒng)的社交媒體事件抽取方法所得到的結(jié)果更準(zhǔn)確，應(yīng)用場(chǎng)景也更加廣泛。
【附圖說(shuō)明】
[0042] 圖1是基于社交媒體圖的社會(huì)風(fēng)險(xiǎn)事件抽取任務(wù)框架。
[0043] 圖2是單條微博形成的肥CG實(shí)例圖。
[0044] 圖3是不同相似度闊值下的聚類結(jié)果。
[0045] 圖4是不同上下文附加權(quán)重下的聚類結(jié)果。
【具體實(shí)施方式】
[0046] 基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法包括如下步驟：
[0047] 1)采用HCCG模型對(duì)事件建模，定義實(shí)體關(guān)系生成規(guī)則，刻畫(huà)事件屬性，利用詞級(jí)別 (word-level)與流級(jí)別（steam-level)的上下文對(duì)事件進(jìn)行多粒度抽?。?br>[0048] 2)根據(jù)被抽取事件的HCCG圖，利用最大公共子圖和最小公共超圖的信息量之比進(jìn) 行相似度計(jì)算；
[0049] 3)通過(guò)社交媒體的上下文信息對(duì)HCCG進(jìn)行增量式聚類，在聚類過(guò)程中逐漸突出新聞的事件要素；
[0050] 4)通過(guò)基于HCCG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件。
[0051] 所述的步驟1)的結(jié)果如圖2所示
[0052] 1)對(duì)輸入的社交媒體文本進(jìn)行分詞、詞性標(biāo)注等自然語(yǔ)言處理；
[0053] 2)對(duì)文本中的實(shí)體進(jìn)行識(shí)別、標(biāo)引，抽取時(shí)間、人名、地名、機(jī)構(gòu)名等；
[0054] 3)抽取社會(huì)風(fēng)險(xiǎn)事件中屯、，將實(shí)體節(jié)點(diǎn)與事件中屯、節(jié)點(diǎn)進(jìn)行語(yǔ)義上的關(guān)聯(lián)，
[0055] 計(jì)算關(guān)聯(lián)邊的權(quán)重；
[0056] 4)根據(jù)節(jié)點(diǎn)的度數(shù)計(jì)算節(jié)點(diǎn)權(quán)重，最后得到的無(wú)向有權(quán)圖即對(duì)單條社交媒體建模的肥CG圖。
[0057] 所述的步驟2)具體為：
[005引1)定義肥CG圖的信息量計(jì)算方法為
[0059] infosum(G)=玄eeEwei邑ht(vi) ? wei邑ht(vj) ? wei邑ht(ei'j)，Vi，VjGV
[0060] 算法執(zhí)行過(guò)程中，對(duì)圖G中的每條邊e進(jìn)行遍歷，根據(jù)邊和點(diǎn)權(quán)重的計(jì)算法則將邊和兩個(gè)節(jié)點(diǎn)的權(quán)重分別相乘，并將圖G中所有邊e累加；
[0061] 2)計(jì)算待比較兩圖的交集和并集，即最大公共子圖和最小公共超圖；
[0062] 3)兩圖相似性數(shù)值化的計(jì)算公式
[0063]
[0064] 最大公共子圖表達(dá)了兩源相似性，故放在分子;最小公共超圖表達(dá)了兩源涵蓋元素的廣度，放在分母起歸一化作用。當(dāng)兩圖信息完全相同時(shí)，diff(Gi，G2)=0，diff(Gi，G2) 的數(shù)值越大，兩源數(shù)據(jù)越不相似。
[0065] 所述的基于肥CG進(jìn)行增量式聚類具體說(shuō)明如下：
[0066] 1)對(duì)于輸入的社交媒體文本，用肥CG對(duì)其建模；
[0067] 2)將得到的HCCG與現(xiàn)有的事件簇進(jìn)行相似度計(jì)算，取diff最小的聚類，查看運(yùn)個(gè) diff是否達(dá)到認(rèn)為其屬于已存在事件的闊值e。如果達(dá)到闊值則將它們的HCCG做合并處理，并更新事件簇的時(shí)間戳。沒(méi)有達(dá)到則將其作為一個(gè)新的事件保存。
[0068] 3)為了保持diff闊值e的有效性，對(duì)肥CG進(jìn)行合并后，需要根據(jù)實(shí)際情況做一定的剪枝處理，去掉不太重要的邊和節(jié)點(diǎn)，使事件圖保持在一個(gè)相對(duì)合理的大小；
[0069] 4)現(xiàn)有事件簇每次與新輸入HCCG作比較時(shí)，檢查時(shí)間戳與當(dāng)前時(shí)間之差是否超過(guò) 預(yù)先設(shè)置的時(shí)間窗口，如果超出則將事件類視為穩(wěn)定狀態(tài)，并從臨時(shí)存儲(chǔ)轉(zhuǎn)為持久存儲(chǔ)。
[0070] 所述的基于肥CG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件的步驟：
[0071] 1)在經(jīng)過(guò)增量式聚類后，形成很多聚類每個(gè)聚類都WHCCG的形式表達(dá)。組成HCCG 的實(shí)體有災(zāi)難中屯、，時(shí)間，地點(diǎn)，參與者和動(dòng)作運(yùn)些新聞要素，還有作為語(yǔ)義補(bǔ)充的普通實(shí) 體，W及連接運(yùn)些實(shí)體的有權(quán)邊。圖中的節(jié)點(diǎn)被作為預(yù)測(cè)HCCG所表達(dá)的事件是社會(huì)風(fēng)險(xiǎn)事件的主要依據(jù):將圖中的節(jié)點(diǎn)作為特征并根據(jù)節(jié)點(diǎn)的屬性W及與災(zāi)難中屯、的關(guān)聯(lián)度賦予其不同的權(quán)重，使用樸素貝葉斯分類方法對(duì)選定的特征進(jìn)行條件概率計(jì)算，訓(xùn)練得到分類器 W及最佳先驗(yàn)過(guò)濾闊值。
[0072] 2)對(duì)于所有進(jìn)入穩(wěn)定狀態(tài)的聚類結(jié)果，直接抽取HCCG中的時(shí)間、地點(diǎn)、參與者、動(dòng) 作，累加其權(quán)重所謂關(guān)鍵要素信息量，并計(jì)算信息量占全部節(jié)點(diǎn)累加權(quán)重后的比重，輸入分類器，并利用最佳先驗(yàn)過(guò)濾闊值對(duì)結(jié)果進(jìn)行過(guò)濾，通過(guò)過(guò)濾的聚類結(jié)果即可W有較高的置信度被認(rèn)為是真正的事件。
[0073] 實(shí)施例
[0074] 由于在社交媒體平臺(tái)事件檢測(cè)領(lǐng)域沒(méi)有標(biāo)準(zhǔn)的衡量準(zhǔn)則。實(shí)驗(yàn)采用新浪微博平臺(tái) 上的真實(shí)數(shù)據(jù)檢測(cè)本發(fā)明的方法。在爬取微博時(shí)，用基于關(guān)鍵詞捜索的方式，向微博大數(shù)據(jù) 投入災(zāi)難中屯、關(guān)鍵詞，在返回的數(shù)據(jù)中選取最新發(fā)布的微博。使用"埃博拉"作為災(zāi)難中屯、詞通過(guò)新浪API,共獲得了13538微博，它們的發(fā)布日期在2014年1月1號(hào)到2014年1月30號(hào)之間。在對(duì)微博數(shù)據(jù)進(jìn)行清洗后，剩下總計(jì)10452條微博。運(yùn)些微博信息是埃博拉話題下吸引了較多關(guān)注的微博。2)系統(tǒng)首先對(duì)微博進(jìn)行原發(fā)轉(zhuǎn)發(fā)判斷，噪音判斷等等的前期清洗工作。對(duì)于原發(fā)微博，噪音判斷的標(biāo)準(zhǔn)是當(dāng)原文字?jǐn)?shù)少于10或NPL處理后識(shí)別的實(shí)體數(shù)少于3則不作為事件微博進(jìn)行分析，直接從流中濾除;轉(zhuǎn)發(fā)微博作為原發(fā)微博的加權(quán)處理。
[0075] 接下來(lái)利用TF-IDF聚類結(jié)合人工標(biāo)注的方法獲取標(biāo)準(zhǔn)集。在標(biāo)注工作完成之后，我們得到1056個(gè)事件聚類，聚類大小從1條微博到70條微博不等。為了獲得一個(gè)更加平衡的標(biāo)準(zhǔn)集，刪除那些聚類大小少于5條微博的事件類。最終剩下的895個(gè)事件聚類組成了聚類實(shí)驗(yàn)的標(biāo)準(zhǔn)集。
[0076] 分類實(shí)驗(yàn)的目標(biāo)是將災(zāi)難事件從非事件中區(qū)分出來(lái)。分類實(shí)驗(yàn)的基礎(chǔ)數(shù)據(jù)在基于 HCCG聚類的最佳結(jié)果上進(jìn)行。由志愿者對(duì)聚類結(jié)果進(jìn)行標(biāo)注，區(qū)分聚類事件是否反映了真實(shí)世界的災(zāi)難事件。根據(jù)微博發(fā)布的時(shí)間，將運(yùn)895個(gè)聚類分為1月份上半月和1月份下半月兩部分，分別包含400和495個(gè)事件聚類。
[0077] 在對(duì)聚類性能進(jìn)行評(píng)估時(shí)，選用正確率，召回率和Fl分?jǐn)?shù)作為性能度量。正確率、召回率和Fl值是廣泛用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的=個(gè)度量值，用來(lái)評(píng)價(jià)結(jié)果的質(zhì) 量。
[0078] 圖1是本發(fā)明進(jìn)行事件抽取的任務(wù)框架。圖2給出了對(duì)單條微博進(jìn)行的社會(huì)風(fēng)險(xiǎn)事件抽取的一個(gè)具體例子。圖3是不同相似度闊值下的HCCG聚類結(jié)果。圖4是不同上下文附加權(quán)重下的肥CG聚類結(jié)果。
[0079] 為了驗(yàn)證本發(fā)明的有效性，我們實(shí)現(xiàn)了基于詞向量的TF-IDF方法并用余弦距離計(jì) 算文本相似度，W此作為比較基準(zhǔn)。聚類實(shí)驗(yàn)結(jié)果由表1給出。其中HCCG表示基于圖的建模方法，HCCGc表示在加入全局和局部上下文附加權(quán)的建模方法。
[0080] 表1 ￡=6時(shí)的聚類結(jié)果 rn〇Ri1
[0082] 結(jié)果顯示出本發(fā)明的HCCG建模是一種更好的短文本表示方法，因?yàn)槟Ｐ涂紤]到文本互信息和文本結(jié)構(gòu)兩個(gè)方面并突出了事件的新聞特征。當(dāng)將上下文附加權(quán)加入HCCG中，召回率得到明顯改善，F(xiàn)值超過(guò)了 TF-IDF和HCCG，分別提升了 14.3 %和8.6 %。運(yùn)個(gè)結(jié)果表明信息的歷史上下文對(duì)事件聚類性能有明顯的改善作用。
[0083] 分類的目標(biāo)是將社會(huì)風(fēng)險(xiǎn)事件從非事件中區(qū)分出來(lái)。在評(píng)價(jià)HCCG模型下的事件分類時(shí)，關(guān)鍵點(diǎn)在于對(duì)事件特征的選取。我們用傳統(tǒng)的基于文本的特征選取作為比較基準(zhǔn)，運(yùn) 種特征是將所有在文本中出現(xiàn)的詞作為特征并不計(jì)權(quán)重。本發(fā)明的HCCG特征則是選取圖中的新聞要素節(jié)點(diǎn)并將各節(jié)點(diǎn)的權(quán)重一并考慮進(jìn)來(lái)。分類實(shí)驗(yàn)的結(jié)果如表2所示
[0084] 表2分類實(shí)驗(yàn)的正確率
[0086] 實(shí)驗(yàn)結(jié)果說(shuō)明，本發(fā)明提出的HCCG模型下提煉的特征比基于本文的方法在兩個(gè)標(biāo) 注集上都有更好的表現(xiàn)。運(yùn)證明了 HCCG特征組合在選取表達(dá)事件的特征時(shí)有很高的效率，因?yàn)檫\(yùn)些特征本身就是描述事件的關(guān)鍵實(shí)體。在另一個(gè)層面，模型在積累過(guò)程中的剪枝操作去除了集合中與事件不相關(guān)的噪音信息，運(yùn)也是提升事件特征質(zhì)量的一個(gè)關(guān)鍵。
[0087] 實(shí)驗(yàn)結(jié)果表明，本發(fā)明能有效地匯聚分散的社交媒體信息，直觀地用實(shí)體關(guān)系模型多粒度地表達(dá)中間和最終的事件探測(cè)結(jié)果，因此比傳統(tǒng)的社交媒體事件抽取方法所得到的結(jié)果更準(zhǔn)確，應(yīng)用場(chǎng)景也更加廣泛。
【主權(quán)項(xiàng)】
1. 一種基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法，其特征在于包括如下步驟： 1) 采用HCCG模型對(duì)事件建模，定義實(shí)體關(guān)系生成規(guī)則，刻畫(huà)事件屬性，利用詞級(jí)別與流級(jí)別的上下文對(duì)事件進(jìn)行多粒度抽??； 2) 根據(jù)被抽取事件的HCCG圖，利用最大公共子圖和最小公共超圖的信息量之比進(jìn)行相似度計(jì)算； 3) 通過(guò)社交媒體的上下文信息對(duì)HCCG進(jìn)行增量式聚類，在聚類過(guò)程中逐漸突出新聞的事件要素； 4) 通過(guò)基于HCCG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件。2. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法，其特征在于，所述的步驟1)具體為： 1) 使用HCCG模型對(duì)事件建模，HCCG表示為一個(gè)無(wú)向有權(quán)圖，圖中的節(jié)點(diǎn)代表社交媒體文本中出現(xiàn)的實(shí)體；圖中的邊對(duì)應(yīng)在統(tǒng)一文本中以鄰近次序出現(xiàn)、語(yǔ)義上相關(guān)聯(lián)的兩個(gè)實(shí) 體之間的聯(lián)系，模型中將節(jié)點(diǎn)分為六類，分別是災(zāi)難中心，參與者，地點(diǎn)，事件，動(dòng)作和普通實(shí)體，前五類實(shí)體作為關(guān)鍵節(jié)點(diǎn)，以災(zāi)難中心節(jié)點(diǎn)為中心緊密圍繞，普通實(shí)體分布在離災(zāi)難中心較遠(yuǎn)的位置，實(shí)體距離的遠(yuǎn)近由邊權(quán)重刻畫(huà)，權(quán)重越高，實(shí)體距離越近； 2. HCCG是無(wú)向有權(quán)圖，因?yàn)槊總€(gè)實(shí)體之間的語(yǔ)義關(guān)聯(lián)強(qiáng)弱并不相同，對(duì)于某社交媒體文本轉(zhuǎn)化而來(lái)的圖G=(V，E)，定義關(guān)聯(lián)邊eeE的權(quán)重weight(e)由三部分的權(quán)重計(jì)算組成，分別為:基本權(quán)重bw(e)、第二部分的權(quán)重kw(ei, j)、第三部分的權(quán)值scw(ei, j); 基本權(quán)重bw(e)即反應(yīng)了兩實(shí)體在原文中的距離，有如下公式：(1) 對(duì)di stance (Vi，Vj)的定義即為兩個(gè)實(shí)體之間間隔的分詞數(shù)加一；第二部分的權(quán)重kw(ei,j)由判定關(guān)鍵要素得來(lái)，如果構(gòu)成e的兩個(gè)節(jié)點(diǎn)Vi, Vj屬于時(shí)間，參與者，動(dòng)作，地點(diǎn)要素中的一項(xiàng)，這條關(guān)連邊e有額外的權(quán)值分；(2) 累加兩端節(jié)點(diǎn)的關(guān)鍵要素判定分得到kw(elu)，如公式(3)所示； kw( Θi, j )- Σ kei, jKval ( Vk) j Vk ^ V ( 3 ) 第三部分的權(quán)值sCW ( ei, j )來(lái)自兩級(jí)上下文，反應(yīng)了該實(shí)體對(duì)在災(zāi)難事件中有持續(xù)的關(guān) 注度，運(yùn)用信號(hào)處理中的方法檢測(cè)本文流中的關(guān)聯(lián)實(shí)體在統(tǒng)計(jì)上的脈沖，將在一天內(nèi)出現(xiàn) 脈沖的實(shí)體對(duì)作為局部上下文信息，將在一個(gè)月內(nèi)持續(xù)出現(xiàn)脈沖的實(shí)體對(duì)作為全局上下文信息，對(duì)于社交媒體文本解析的實(shí)體對(duì)，查看其是否是全局或局部上下文信息，如果是則額外增加權(quán)重S，如公式(4)所示，將這三部分權(quán)重相加，得到邊e的最終權(quán)重： weight (ei, j) =bw(ei,j)+kw(ei,j)+scw(ei,j) (5)由于HCCG中不同屬性的節(jié)點(diǎn)的重要程度不同，模型對(duì)節(jié)點(diǎn)也定義了權(quán)重，節(jié)點(diǎn)權(quán)重由該點(diǎn)在圖中的度乘以系數(shù)C得來(lái)： weight (v) =C*degree(v) (6)。3. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法，其特征在于，所述的步驟2)具體為： 1) 首先定義HCCG的信息量infosum(G)計(jì)算方法 infosum(G) = EeeEweight(vi) · weight(vj) · weight(ei,j) ,Vi,VjeV (7) 算法的執(zhí)行流程為：對(duì)圖G中的每條邊e進(jìn)行遍歷，根據(jù)公式（5)、（6)計(jì)算邊和節(jié)點(diǎn)權(quán) 重，將邊和兩個(gè)節(jié)點(diǎn)的權(quán)重分別相乘，并將圖G中所有邊e累加； 2) 在計(jì)算兩圖相似度前需要先獲得兩圖的交集和并集，即最大公共子圖Gsub和最小公共超圖Gsup ; 公式8給出兩圖相似性數(shù)值化的計(jì)算公式(8) 最大公開(kāi)于圖表迖J兩源相似性，故取在分于；最小公共超圖表達(dá)了兩源涵蓋元素的廣度，放在分母起歸一化作用，當(dāng)兩圖信息完全相同時(shí)，值越大，兩源數(shù)據(jù)越不相似。4. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法，其特征在于，所述的對(duì)HCCG進(jìn)行增量式聚類的步驟為：在HCCG的事件聚類過(guò)程中，對(duì)于某社交媒體上發(fā)表的文本，將其與現(xiàn)有的事件簇進(jìn)行相似度計(jì)算，取diff最小的聚類，查看這個(gè)diff是否達(dá)到認(rèn)為其屬于已存在事件的閾值ε，如果達(dá)到閾值則將它們的HCCG做合并處理，沒(méi)有達(dá)到則將其作為一個(gè)新的事件保存，為了保持diff閾值ε的有效性，合并后的新HCCG需要根據(jù)實(shí)際情況做一定的剪枝處理，去掉不太重要的邊和節(jié)點(diǎn)，使事件圖保持在一個(gè)相對(duì)合理的大小，在這個(gè)階段，爆發(fā)性出現(xiàn)的被監(jiān)控實(shí)體對(duì)的流級(jí)別上下文信息將被匯聚到增長(zhǎng)的HCCG圖中。5. 根據(jù)權(quán)利要求1所述的一種基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取的方法，其特征在于，所述的通過(guò)基于HCCG模型的聚類結(jié)果進(jìn)行事件判別，判斷聚類結(jié)果是否為真正的事件的步驟為：在經(jīng)過(guò)增量式聚類后，形成很多聚類，每個(gè)聚類都以HCCG的形式表達(dá)，組成HCCG的實(shí)體有災(zāi)難中心，時(shí)間，地點(diǎn)，參與者和動(dòng)作這些新聞要素，還有作為語(yǔ)義補(bǔ)充的普通實(shí)體，以及連接這些實(shí)體的有權(quán)邊，圖中的節(jié)點(diǎn)被作為預(yù)測(cè)HCCG所表達(dá)的事件是社會(huì)風(fēng)險(xiǎn)事件的依據(jù):將圖中的節(jié)點(diǎn)作為特征并根據(jù)節(jié)點(diǎn)的屬性以及與災(zāi)難中心的關(guān)聯(lián)度賦予其不同的權(quán) 重，使用樸素貝葉斯分類方法對(duì)選定的特征進(jìn)行條件概率計(jì)算，根據(jù)訓(xùn)練樣本集上得出的先驗(yàn)最佳閾值過(guò)濾非事件類，得出目標(biāo)事件類；對(duì)于社會(huì)風(fēng)險(xiǎn)事件形成的HCCG，一般具有最顯著的事件特征便是有明確的時(shí)間地點(diǎn)參與者動(dòng)作等要素的描寫(xiě)，由于HCCG在構(gòu)建時(shí)已經(jīng)將各節(jié)點(diǎn)根據(jù)屬性和與HCCG中其他實(shí)體的關(guān)聯(lián)度計(jì)算了權(quán)重，直接抽取HCCG中的時(shí)間、地點(diǎn)、參與者、動(dòng)作，累加其權(quán)重所謂關(guān)鍵要素信息量，并計(jì)算這個(gè)信息量占全部節(jié)點(diǎn)累加權(quán)重后的比重，將這一比重作為貝葉斯分類器的輸入特征。
【文檔編號(hào)】G06F17/30GK105956197SQ201610438133
【公開(kāi)日】2016年9月21日
【申請(qǐng)日】2016年6月15日
【發(fā)明人】凌立剛, 朱海鵬
【申請(qǐng)人】杭州量知數(shù)據(jù)科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：凌立剛;朱海鵬;
技術(shù)所有人：杭州量知數(shù)據(jù)科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

社交媒體傳播模型相關(guān)技術(shù)

社交媒體相關(guān)技術(shù)

社交媒體營(yíng)銷相關(guān)技術(shù)

2017社交媒體分析報(bào)告相關(guān)技術(shù)

社交媒體的特點(diǎn)相關(guān)技術(shù)

社交媒體廣告相關(guān)技術(shù)

中國(guó)社交媒體相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于社交媒體圖表示模型的社會(huì)風(fēng)險(xiǎn)事件抽取方法