基于微博的事件特征演化挖掘方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種基于微博的事件特征演化挖掘方法,包括:在微博時(shí)序序列中選取演化起始文檔集,并在微博文檔集合上基于詞匯的共現(xiàn)特征構(gòu)造文檔的圖模型以得到事件的知識(shí)網(wǎng)絡(luò)結(jié)構(gòu);依據(jù)詞匯的字面特征,詞匯傾向性的相容性特征將微博圖模型進(jìn)行合并,構(gòu)造事件特征的微觀演化圖;在事件的微觀演化圖上進(jìn)行剪枝、切分和轉(zhuǎn)化,形成事件特征的宏觀演化圖。該方法在挖掘事件特征的演化規(guī)律過(guò)程中采用了基于事件的知識(shí)網(wǎng)絡(luò)的圖挖掘方法,使得整個(gè)事件特征演化挖掘方法在知識(shí)的繼承性方面得到提升,挖掘結(jié)果的可解釋性更強(qiáng)。
【專利說(shuō)明】基于微博的事件特征演化挖掘方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本挖掘和話題發(fā)現(xiàn)與跟蹤領(lǐng)域,特別涉及一種基于微博文本數(shù)據(jù)的事件特征演化與挖掘的方法。
【背景技術(shù)】
[0002]隨著Web2.0技術(shù)和應(yīng)用近年來(lái)的蓬勃發(fā)展,在線微博服務(wù)逐漸成為了一種擁有大量用戶、產(chǎn)生大量信息的新的信息傳播平臺(tái)。據(jù)第29次中國(guó)互聯(lián)網(wǎng)報(bào)告統(tǒng)計(jì):截至2011年12月底,我國(guó)微博的實(shí)際用戶數(shù)達(dá)到2.5億,較上一年底增長(zhǎng)了 296.0%,網(wǎng)民使用率為48.7%。
[0003]區(qū)別于Facebook等強(qiáng)關(guān)系社交網(wǎng)絡(luò)服務(wù),微博服務(wù)的社會(huì)網(wǎng)絡(luò)關(guān)系通常是單向的——即用戶不需要其他用戶授權(quán)就可以關(guān)注他們,接收他們產(chǎn)生的信息。用戶關(guān)注的人稱為該用戶的好友(friends);關(guān)注某用戶的人稱為該用戶的粉絲(followers),用戶發(fā)布的所有博文(tweets)將出現(xiàn)在公共時(shí)間線上(public timeline),該用戶所有粉絲(followers)時(shí)間線上將顯示該用戶的所有消息。
[0004]現(xiàn)實(shí)中的話題或事件投影在微博的文本空間中,就是所有用戶討論相關(guān)話題、事件的博文的集合。(在文本分析領(lǐng)域,有時(shí)對(duì)話題和事件這兩個(gè)概念不予區(qū)分,下文中均采用此觀點(diǎn)。)現(xiàn)實(shí)中的話題和事件在不斷演化,相應(yīng)地,微博文本空間中的話題和事件也在不斷演化。話題/事件演化的時(shí)刻即當(dāng)微博中的粉絲對(duì)其關(guān)注者所發(fā)出的信息進(jìn)行轉(zhuǎn)發(fā)或評(píng)論的時(shí)刻。轉(zhuǎn)發(fā)和評(píng)論中除了對(duì)原博文中的觀點(diǎn)、敘述進(jìn)行顯示或隱式的重復(fù)外,還會(huì)引入新的觀點(diǎn)和新的敘述,此時(shí)話題就會(huì)發(fā)生一定程度變化。從原博文后第一次被轉(zhuǎn)發(fā)或評(píng)論起,話題的演化過(guò)程就開(kāi)始了。隨著轉(zhuǎn)發(fā)、評(píng)論的不斷進(jìn)行,話題的外延也在不斷延伸,話題不斷演化。研究話題/事件在傳播過(guò)程中的演化,就是要跟蹤話題/事件信息在每一次傳播中的細(xì)微變化,進(jìn)而綜合考察話題/事件在宏觀上的變化。
[0005]目前對(duì)微博上話題/事件信息傳播和演化的研究分為以下兩類。第一類研究通過(guò)分析話題/事件傳播的行為要素,建立話題傳播和演化的數(shù)學(xué)模型,模擬傳播演化過(guò)程,以回答話題/事件為什么會(huì)傳播的問(wèn)題。這類研究偏向于傳播學(xué)層面的仿真建模理論,對(duì)研究某一特定話題/事件的傳播演化過(guò)程并無(wú)實(shí)際意義。第二類研究將微博中的社會(huì)網(wǎng)絡(luò)信息與傳統(tǒng)的話題/事件模型相結(jié)合,對(duì)話題/事件在微博中的傳播過(guò)程進(jìn)行推理,此類研究最終會(huì)得到兩種結(jié)果,其一是話題/事件在微博中的顯式和隱式的傳播路徑,其二是話題/事件在傳播過(guò)程中模型所發(fā)生的變化。此類研究的基本步驟是:
[0006]1、將微博中討論同一話題/事件的文本按照時(shí)序排列,保持其顯式轉(zhuǎn)發(fā)關(guān)系,按照時(shí)間由前到后的順序,和轉(zhuǎn)發(fā)順序進(jìn)行處理,必要時(shí)引入時(shí)間片的概念,對(duì)同一時(shí)間片的文本同時(shí)進(jìn)行處理。對(duì)沒(méi)有引入時(shí)間片概念的,可以視為每篇文檔單獨(dú)占據(jù)一個(gè)時(shí)間片;
[0007]2、建立每個(gè)時(shí)間片的話題/事件模型,此時(shí)多考慮使用向量空間模型和概率模型,必要時(shí)將此時(shí)間片的話題模型進(jìn)行拆分,分解為若干個(gè)子話題,以表示話題的不同方面。[0008]3、以0時(shí)刻的話題/事件模型為基準(zhǔn),依次對(duì)后續(xù)時(shí)間片中的每一個(gè)文本的話題/事件模型進(jìn)行考察,比較后者與前者的相似性,推理其傳播關(guān)系。鑒于微博中信息流走向的局部性,此步驟中需將產(chǎn)生兩個(gè)文本的用戶間的關(guān)系考慮進(jìn)來(lái),若兩用戶之間沒(méi)有明顯的聯(lián)系,則認(rèn)為文本間有傳播關(guān)系的概率小。
[0009]4、由步驟3,每個(gè)文檔可視為一個(gè)頂點(diǎn),文檔間的傳播關(guān)系可視為頂點(diǎn)間的邊,因此此時(shí)可以構(gòu)造造出文本信息的傳播樹(shù)或傳播圖。此圖中刻畫(huà)了話題/事件信息在微博中的顯式/隱式傳播路徑。沿每條路徑考察各頂點(diǎn)的話題/事件模型,該模型的變化規(guī)律即為沿此路徑的話題/事件的演化規(guī)律。
[0010]從上述描述中可以看出,由于考察話題/事件的演化過(guò)程是在建立傳播模型的同時(shí)完成的,所以話題/事件的演化過(guò)程并沒(méi)有獨(dú)立的模型,而是依賴于如向量空間或概率模型等話題模型。這些話題模型是文檔集合的有效表達(dá)方式,卻缺乏話題演化方面的表達(dá),這導(dǎo)致上述方法得到的話題/事件演化分析結(jié)果不外乎詞頻或詞匯向量隨時(shí)間的變化規(guī)律,并沒(méi)有詞匯之間的關(guān)聯(lián)信息,在話題/事件的領(lǐng)域知識(shí)方面沒(méi)有繼承性,在演化方面缺乏可解釋性。介于此,需要一種新的話題/事件特征演化挖掘方法。
【發(fā)明內(nèi)容】
[0011]本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種新的基于微博的事件特征演化挖掘方法及系統(tǒng)。
[0012]本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
[0013]一方面,本發(fā)明提供了一種基于微博的事件特征演化挖掘方法,包括:
[0014]步驟1,從與待分析事件相關(guān)的微博文本的集合中選取若干個(gè)代表事件起點(diǎn)的微博,以構(gòu)成事件演化起點(diǎn)微博集合;
[0015]步驟2,構(gòu)造事件演化起點(diǎn)微博集合的圖模型,作為初始的事件微觀演化圖;所述圖模型中頂點(diǎn)為出現(xiàn)在該事件演化起點(diǎn)微博集合的各微博文本中的名詞/動(dòng)詞,兩個(gè)頂點(diǎn)間的邊表示這兩個(gè)頂點(diǎn)對(duì)應(yīng)的詞共同出現(xiàn)在同一微博中或共現(xiàn)距離小于預(yù)先給定的閾值;
[0016]步驟3,對(duì)與待分析事件相關(guān)的微博文本的集合中其余各條微博,構(gòu)建該條微博的圖模型并將其加入到當(dāng)前的事件演化微觀圖中;
[0017]步驟4,基于經(jīng)步驟3得到的事件微觀演化圖獲取事件宏觀演化圖并基于事件宏觀演化圖觀察事件特征的演化。
[0018]上述方法中,所述步驟1中代表事件起點(diǎn)的微博可具有以下特征:a)發(fā)表時(shí)間早;
b)為原創(chuàng)微博,而非轉(zhuǎn)發(fā)或評(píng)論的微博。
[0019]上述方法中,所述步驟2中所述圖模型的頂點(diǎn)可以由該頂點(diǎn)對(duì)應(yīng)的名詞/動(dòng)詞,包含名詞/動(dòng)詞的微博文檔的集合,該名詞/動(dòng)詞的傾向性評(píng)分構(gòu)成的三元組來(lái)表示,其中該名詞/動(dòng)詞的傾向性評(píng)分為修飾該名詞/動(dòng)詞的形容詞和副詞所對(duì)應(yīng)的傾向性評(píng)分的平均值。
[0020]上述方法中,所述步驟2可包括:
[0021]步驟2-1)對(duì)事件演化起點(diǎn)微博集合中每條微博文本進(jìn)行分詞和詞性標(biāo)注;
[0022]步驟2-2)對(duì)分詞后的形容詞和副詞,設(shè)置其傾向性評(píng)分;[0023]步驟2-3)對(duì)于分詞后的名詞和動(dòng)詞,將修飾同一名詞/動(dòng)詞的形容詞和副詞所對(duì)應(yīng)的傾向性評(píng)分取平均值,作為此名詞或動(dòng)詞的傾向性評(píng)分;
[0024]步驟2-4)以名詞和動(dòng)詞作為頂點(diǎn),如果任兩個(gè)頂點(diǎn)對(duì)應(yīng)的詞共同出現(xiàn)在同一微博中或共現(xiàn)距離小于預(yù)先給定的閾值,則在這兩個(gè)頂點(diǎn)之間創(chuàng)建邊。
[0025]上述方法中,所述步驟3中將所構(gòu)建的微博的圖模型加入到當(dāng)前的事件演化微觀圖可包括:對(duì)待處理微博的圖模型中的每一條邊:
[0026]a)若該邊的兩個(gè)頂點(diǎn)都已存在于當(dāng)前的事件演化微觀圖中,且該事件演化微觀圖中已有此邊,則對(duì)該邊的出現(xiàn)次數(shù)計(jì)數(shù)進(jìn)行累加;若該事件演化微觀圖中尚無(wú)此邊,則將此邊復(fù)制到該事件演化微觀圖中;
[0027]b)若該邊中有且只有一個(gè)頂點(diǎn)出現(xiàn)在當(dāng)前的事件演化微觀圖中,則將不在該事件演化微觀圖中的頂點(diǎn)和邊復(fù)制到該事件演化微觀圖中;
[0028]c)若該邊的兩個(gè)頂點(diǎn)均不在當(dāng)前的事件演化微觀圖中,則將此邊和兩個(gè)頂點(diǎn)完整復(fù)制到該事件演化微觀圖中。
[0029]上述方法中,所述步驟3還可包括判斷微博的圖模型中某個(gè)頂點(diǎn)是否在事件演化微觀圖中的步驟,其包括:對(duì)于微博的圖模型中給定的某個(gè)頂點(diǎn),如果事件演化微觀圖中包含有與該頂點(diǎn)對(duì)應(yīng)的詞相同的頂點(diǎn),該微博與對(duì)該事件演化微觀圖中對(duì)應(yīng)頂點(diǎn)涉及的微博文本存在轉(zhuǎn)發(fā)或評(píng)論的關(guān)系,并且這兩個(gè)頂點(diǎn)的傾向性評(píng)分相容,則判定事件演化微觀圖中已包含該給定的頂點(diǎn),其中,傾向性評(píng)分相容指事件演化微觀圖中對(duì)應(yīng)頂點(diǎn)的傾向性評(píng)分與該給定的頂點(diǎn)傾向性評(píng)分的差小于一定閾值。
[0030]上述方法中,所述的步驟4)可包括對(duì)事件微觀演化圖進(jìn)行切分和轉(zhuǎn)化以獲取事件宏觀演化圖。
[0031]上述方法中,所述對(duì)事件微觀演化圖進(jìn)行切分和轉(zhuǎn)化可包括:
[0032]步驟4-1)將與待分析事件相關(guān)的微博文本按時(shí)間進(jìn)行排序,對(duì)該微博文本序列按時(shí)間進(jìn)行切片,形成所需粒度的時(shí)間片;
[0033]步驟4-2)在事件宏觀演化圖中創(chuàng)建一個(gè)頂點(diǎn),對(duì)應(yīng)初始的事件微觀演化圖;
[0034]步驟4-3)對(duì)于每一個(gè)時(shí)間片執(zhí)行下列步驟:
[0035]4-3-a)在事件微觀演化圖中依次選取每一個(gè)時(shí)間片對(duì)應(yīng)的頂點(diǎn)和邊,構(gòu)造以此子圖為基的最小連通子圖;
[0036]4-3-b)在事件宏觀演化圖中創(chuàng)建一個(gè)頂點(diǎn),對(duì)應(yīng)于該最小連通子圖,若該最小連通子圖與事件宏觀演化圖中其它頂點(diǎn)對(duì)應(yīng)的子圖相交,則創(chuàng)建一條連接兩個(gè)子圖的邊;
[0037]上述方法中,所述步驟4-3)還可包括所創(chuàng)建的連接兩個(gè)子圖的這條邊賦予權(quán)值,
邊的權(quán)值為兩個(gè)頂點(diǎn)對(duì)應(yīng)子圖的Jaccard系數(shù);其中對(duì)于事件宏觀演化圖中任兩個(gè)頂點(diǎn)ν
r Jf Λ #(GrnGr.)
和ν,,其對(duì)應(yīng)子圖的Jaccard系數(shù)計(jì)算方式為:Jaccard) =.....巧:.|其中,Gv n Gv,
和Gv U Gv,分別表示兩個(gè)頂點(diǎn)對(duì)應(yīng)子圖的頂點(diǎn)集合的交集和并集,函數(shù)#0表示集合中的元素個(gè)數(shù)。
[0038]上述方法中,所述步驟4還可包括對(duì)事件微觀演化圖進(jìn)行剪枝的步驟,其包括刪除事件微觀演化圖中出現(xiàn)次數(shù)低于給定閾值的邊,然后刪除與初始的事件微觀演化圖不連通的分支,其中邊的出現(xiàn)次數(shù)指在與待分析事件相關(guān)的微博文本的集合中該邊的兩個(gè)頂點(diǎn)對(duì)應(yīng)的詞共同出現(xiàn)在同一微博中的次數(shù)。
[0039]又一方面,本發(fā)明提供了一種基于微博的事件特征演化挖掘系統(tǒng),包括:
[0040]用于從與待分析事件相關(guān)的微博文本的集合中選取若干個(gè)代表事件起點(diǎn)的微博,以構(gòu)成事件演化起點(diǎn)微博集合的裝置;
[0041]用于構(gòu)造事件演化起點(diǎn)微博集合的圖模型,作為初始的事件微觀演化圖的裝置;所述圖模型中頂點(diǎn)為出現(xiàn)在該事件演化起點(diǎn)微博集合的各微博文本中的名詞/動(dòng)詞,兩個(gè)頂點(diǎn)間的邊表示這兩個(gè)頂點(diǎn)對(duì)應(yīng)的詞共同出現(xiàn)在同一微博中或共現(xiàn)距離小于預(yù)先給定的閾值; [0042]用于對(duì)與待分析事件相關(guān)的微博文本的集合中其余各條微博,構(gòu)建該條微博的圖模型并將其加入到當(dāng)前的事件演化微觀圖中的裝置;
[0043]用于基于最后的事件微觀演化圖獲取事件宏觀演化圖并基于事件宏觀演化圖觀察事件特征的演化的裝置。
[0044]與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:
[0045]采用事件的圖模型為基礎(chǔ),通過(guò)構(gòu)造詞匯之間的知識(shí)結(jié)構(gòu),從而得到在知識(shí)層面更具可解釋性的事件演化模型。在事件圖模型上以知識(shí)網(wǎng)絡(luò)為單位構(gòu)造事件演化圖,提升了事件知識(shí)的繼承性。權(quán)衡了微博文本的特點(diǎn),利用統(tǒng)計(jì)法,以文本數(shù)量多參與用戶多的優(yōu)點(diǎn)克服單條微博文本少,特征稀缺的不足。
【專利附圖】
【附圖說(shuō)明】
[0046]以下,結(jié)合附圖來(lái)詳細(xì)說(shuō)明本發(fā)明的實(shí)施例,其中:
[0047]圖1為根據(jù)本發(fā)明實(shí)施例的基于微博的事件特征演化挖掘方法流程示意圖?!揪唧w實(shí)施方式】
[0048]為了使本發(fā)明的目的,技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖通過(guò)具體實(shí)施例對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0049]在本發(fā)明的一個(gè)實(shí)施例中,提供了一種具有較高識(shí)別度和解釋性的基于微博的事件特征演化挖掘方法,超越文檔自身邊界,從事件知識(shí)的層面出發(fā),細(xì)粒度地對(duì)事件演化過(guò)程進(jìn)行挖掘和跟蹤。下面結(jié)合圖1對(duì)該方法的具體步驟進(jìn)行舉例說(shuō)明。
[0050]步驟1,獲取討論同一事件的微博文本的集合,并從中選取演化起點(diǎn)微博若干。其中演化起點(diǎn)微博也就是代表事件起點(diǎn)的微博,作為事件起點(diǎn)的微博必須具有如下特征:a)發(fā)表時(shí)間早;b)為原創(chuàng)微博,而非轉(zhuǎn)發(fā)或評(píng)論。根據(jù)本發(fā)明的一個(gè)實(shí)施例,步驟1)可包括下列步驟:
[0051]步驟1-1,獲取討論同一事件的微博文本的集合。例如,可采用關(guān)鍵詞搜索的方式獲取。
[0052]步驟1-2,對(duì)討論同一事件的微博按時(shí)間順序進(jìn)行排序,即將該集合中的微博文本按微博發(fā)表時(shí)間由先到后進(jìn)行排列,并保持微博間的顯式轉(zhuǎn)發(fā)、評(píng)論關(guān)系(本申請(qǐng)中將轉(zhuǎn)發(fā)和評(píng)論等同視之),可將此序列記為:0=((1^ d2,…,dj。其中,下標(biāo)1~η又可作為該文檔的時(shí)刻標(biāo)記,由于時(shí)刻的無(wú)限可分,可以認(rèn)為一個(gè)時(shí)刻最多只會(huì)產(chǎn)生一篇文檔。在此序列上建立轉(zhuǎn)發(fā)指示函數(shù)Rt:DXD— {0,1},表示文檔間的轉(zhuǎn)發(fā)關(guān)系,對(duì)于文檔屯,(1」,0〈?〈Κη,若文檔4轉(zhuǎn)發(fā)了文檔φ,則財(cái)(屯,4)=1,否則此表達(dá)式值為0。在此關(guān)系基礎(chǔ)上,又可建立函數(shù)isRt:D— {0,1},表示每個(gè)文檔是原創(chuàng)文檔(0)或轉(zhuǎn)發(fā)文檔(1)。此外,另有定義在文檔集合上的轉(zhuǎn)發(fā)指示函數(shù)Rt的版本Rt:2DX2D— {0, 1},對(duì)于文檔集合01和%:
[0053]
【權(quán)利要求】
1.一種基于微博的事件特征演化挖掘方法,包括以下步驟:步驟1,從與待分析事件相關(guān)的微博文本的集合中選取若干個(gè)代表事件起點(diǎn)的微博,以構(gòu)成事件演化起點(diǎn)微博集合;步驟2,構(gòu)造事件演化起點(diǎn)微博集合的圖模型,作為初始的事件微觀演化圖;所述圖模型中頂點(diǎn)為出現(xiàn)在該事件演化起點(diǎn)微博集合的各微博文本中的名詞/動(dòng)詞,兩個(gè)頂點(diǎn)間的邊表示這兩個(gè)頂點(diǎn)對(duì)應(yīng)的詞共同出現(xiàn)在同一微博中或共現(xiàn)距離小于預(yù)先給定的閾值;步驟3,對(duì)與待分析事件相關(guān)的微博文本的集合中其余各條微博,構(gòu)建該條微博的圖模型并將其加入到當(dāng)前的事件演化微觀圖中;步驟4,基于經(jīng)步驟3得到的事件微觀演化圖獲取事件宏觀演化圖并基于事件宏觀演化圖觀察事件特征的演化。
2.根據(jù)權(quán)利要求1所述的方法,所述步驟1中代表事件起點(diǎn)的微博具有以下特征:a)發(fā)表時(shí)間早;b)為原創(chuàng)微博,而非轉(zhuǎn)發(fā)或評(píng)論的微博。
3.根據(jù)權(quán)利要求1所述的方法,所述步驟2中所述圖模型的頂點(diǎn)以由該頂點(diǎn)對(duì)應(yīng)的名詞/動(dòng)詞,包含名詞/動(dòng)詞的微博文檔的集合,該名詞/動(dòng)詞的傾向性評(píng)分構(gòu)成的三元組來(lái)表示,其中該名詞/動(dòng)詞的傾向性評(píng)分為修飾該名詞/動(dòng)詞的形容詞和副詞所對(duì)應(yīng)的傾向性評(píng)分的平均值。
4.根據(jù)權(quán)利要求3所述的方法,所述步驟2包括: 步驟2-1)對(duì)事件演化起點(diǎn)微博集合中每條微博文本進(jìn)行分詞和詞性標(biāo)注;步驟2-2)對(duì)分詞后的形容詞和副詞,設(shè)置其傾向性評(píng)分;步驟2-3)對(duì)于分詞后的名詞和動(dòng)詞,將修飾同一名詞/動(dòng)詞的形容詞和副詞所對(duì)應(yīng)的傾向性評(píng)分取平均值,作為此名詞或動(dòng)詞的傾向性評(píng)分;步驟2-4)以名詞和動(dòng)詞作為頂點(diǎn),如果任兩個(gè)頂點(diǎn)對(duì)應(yīng)的詞共同出現(xiàn)在同一微博中或共現(xiàn)距離小于預(yù)先給定的閾值,則在這兩個(gè)頂點(diǎn)之間創(chuàng)建邊。
5.根據(jù)權(quán)利要求1所述的方法,所述步驟3中將所構(gòu)建的微博的圖模型加入到當(dāng)前的事件演化微觀圖包括:對(duì)待處理微博的圖模型中的每一條邊:a)若該邊的兩個(gè)頂點(diǎn)都已存在于當(dāng)前的事件演化微觀圖中,且該事件演化微觀圖中已有此邊,則對(duì)該邊的出現(xiàn)次數(shù)計(jì)數(shù)進(jìn)行累加;若該事件演化微觀圖中尚無(wú)此邊,則將此邊復(fù)制到該事件演化微觀圖中;b)若該邊中有且只有一個(gè)頂點(diǎn)出現(xiàn)在當(dāng)前的事件演化微觀圖中,則將不在該事件演化微觀圖中的頂點(diǎn)和邊復(fù)制到該事件演化微觀圖中;c)若該邊的兩個(gè)頂點(diǎn)均不在當(dāng)前的事件演化微觀圖中,則將此邊和兩個(gè)頂點(diǎn)完整復(fù)制到該事件演化微觀圖中。
6.根據(jù)權(quán)利要求5所述的方法,所述步驟3還包括判斷微博的圖模型中某個(gè)頂點(diǎn)是否在事件演化微觀圖中的步驟,其包括:對(duì)于微博的圖模型中給定的某個(gè)頂點(diǎn),如果事件演化微觀圖中包含有與該頂點(diǎn)對(duì)應(yīng)的詞相同的頂點(diǎn),該微博與對(duì)該事件演化微觀圖中對(duì)應(yīng)頂點(diǎn)涉及的微博文本存在轉(zhuǎn)發(fā)或評(píng)論的關(guān)系,并且這兩個(gè)頂點(diǎn)的傾向性評(píng)分相容,則判定事件演化微觀圖中已包含該給定的頂點(diǎn),其中,傾向性評(píng)分相容指事件演化微觀圖中對(duì)應(yīng)頂點(diǎn)的傾向性評(píng)分與該給定的頂點(diǎn)傾向性評(píng)分的差小于一定閾值。
7.根據(jù)權(quán)利要求1所述的方法,所述的步驟4)包括對(duì)事件微觀演化圖進(jìn)行切分和轉(zhuǎn)化以獲取事件宏觀演化圖。
8.根據(jù)權(quán)利要求7所述的方法,所述對(duì)事件微觀演化圖進(jìn)行切分和轉(zhuǎn)化包括:步驟4-1)將與待分析事件相關(guān)的微博文本按時(shí)間進(jìn)行排序,對(duì)該微博文本序列按時(shí)間進(jìn)行切片,形成所需粒度的時(shí)間片;步驟4-2)在事件宏觀演化圖中創(chuàng)建一個(gè)頂點(diǎn),對(duì)應(yīng)初始的事件微觀演化圖;步驟4-3)對(duì)于每一個(gè)時(shí)間片執(zhí)行下列步驟:4-3-a)在事件微觀演化圖中依次選取每一個(gè)時(shí)間片對(duì)應(yīng)的頂點(diǎn)和邊,構(gòu)造以此子圖為基的最小連通子圖;4-3-b)在事件宏觀演化圖中創(chuàng)建一個(gè)頂點(diǎn),對(duì)應(yīng)于該最小連通子圖,若該最小連通子圖與事件宏觀演化圖中其它頂點(diǎn)對(duì)應(yīng)的子圖相交,則創(chuàng)建一條連接兩個(gè)子圖的邊。
9.根據(jù)權(quán)利要求8所述的方法,所述步驟4-3)還包括所創(chuàng)建的連接兩個(gè)子圖的這條邊賦予權(quán)值,邊的權(quán)值為兩個(gè)頂點(diǎn)對(duì)應(yīng)子圖的Jaccard系數(shù);其中對(duì)于事件宏觀演化圖中任兩個(gè)頂點(diǎn)ν和ν’,其對(duì)應(yīng)子圖的Jaccard系數(shù)計(jì)算方式為:
10.根據(jù)權(quán)利要求7所述的方法,所述步驟4還包括對(duì)事件微觀演化圖進(jìn)行剪枝的步驟,其包括刪除事件微觀演化圖中出現(xiàn)次數(shù)低于給定閾值的邊,然后刪除與初始的事件微觀演化圖不連通的分支,其中邊的出現(xiàn)次數(shù)指在與待分析事件相關(guān)的微博文本的集合中該邊的兩個(gè)頂點(diǎn)對(duì)應(yīng)的詞共同出現(xiàn)在同一微博中的次數(shù)。
11.一種基于微博的事件特征演化挖掘系統(tǒng),包括:用于從與待分析事件相關(guān)的微博文本的集合中選取若干個(gè)代表事件起點(diǎn)的微博,以構(gòu)成事件演化起點(diǎn)微博集合的裝置;用于構(gòu)造事件演化起點(diǎn)微博集合的圖模型,作為初始的事件微觀演化圖的裝置;所述圖模型中頂點(diǎn)為出現(xiàn)在該事件演化起點(diǎn)微博集合的各微博文本中的名詞/動(dòng)詞,兩個(gè)頂點(diǎn)間的邊表示這兩個(gè)頂點(diǎn)對(duì)應(yīng)的詞共同出現(xiàn)在同一微博中或共現(xiàn)距離小于預(yù)先給定的閾值;用于對(duì)與待分析事件相關(guān)的微博文本的集合中其余各條微博,構(gòu)建該條微博的圖模型并將其加入到當(dāng)前的事件演化微觀圖中的裝置;用于基于最后的事件微觀演化圖獲取事件宏觀演化圖并基于事件宏觀演化圖觀察事件特征的演化的裝置。
【文檔編號(hào)】G06F17/30GK103631862SQ201310532377
【公開(kāi)日】2014年3月12日 申請(qǐng)日期:2013年10月31日 優(yōu)先權(quán)日:2012年11月2日
【發(fā)明者】鄧鐳, 賈焰, 鄒鵬, 楊樹(shù)強(qiáng), 周斌, 韓偉紅, 李愛(ài)平, 韓毅, 李莎莎 申請(qǐng)人:中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)