熱點事件檢測方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種熱點事件檢測方法和裝置。
【背景技術(shù)】
[0002] 微博從誕生到如今,以驚人的速度發(fā)展著,國內(nèi)最大的兩大微博平臺新浪和騰訊 的注冊人數(shù)早已超過5億。尤其是在突發(fā)和熱點事件中,微博的影響規(guī)模和傳播速度超越 了普通博客和傳統(tǒng)的新聞媒體。目前,從海量微博數(shù)據(jù)中檢測熱點事件的方法主要為:獲取 海量微博數(shù)據(jù),采用Canopy聚類算法或k-means聚類算法對海量微博數(shù)據(jù)進(jìn)行聚類,獲取 熱點事件。
[0003] 然而現(xiàn)有技術(shù)中,海量微博數(shù)據(jù)中的微博條數(shù)過多,且海量微博數(shù)據(jù)中由極大部 分微博與熱點事件毫無關(guān)系,對其進(jìn)行聚類,延長了獲取熱點事件的時間,降低了聚類獲取 熱點事件的效率。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供一種熱點事件檢測方法和裝置,用于解決現(xiàn)有技術(shù)中獲取熱點事件的 時間長,效率低的問題。
[0005] 本發(fā)明的第一個方面是提供一種熱點事件檢測方法,包括:
[0006] 獲取社交網(wǎng)絡(luò)中當(dāng)前時間段內(nèi)的微博數(shù)據(jù);
[0007] 對所述微博數(shù)據(jù)中的多條微博的內(nèi)容進(jìn)行分詞,統(tǒng)計分詞得到的各個詞在所述微 博數(shù)據(jù)中的出現(xiàn)次數(shù);
[0008] 獲取社交網(wǎng)絡(luò)中歷史時間段內(nèi)所述各個詞在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù);所述歷 史時間段和所述當(dāng)前時間段的時間長度相等;
[0009] 對所述各個詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)和在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù)進(jìn) 行比較,確定所述微博數(shù)據(jù)中的熱詞;
[0010] 獲取所述微博數(shù)據(jù)中包括所述熱詞的微博;
[0011] 對包括所述熱詞的微博進(jìn)行聚類,確定所述微博數(shù)據(jù)中的熱點事件。
[0012] 進(jìn)一步地,所述對所述各個詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)和在歷史微博數(shù)據(jù)中 的出現(xiàn)次數(shù)進(jìn)行比較,確定所述微博數(shù)據(jù)中的熱詞,包括:
[0013] 計算所述各個詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)與在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù) 的比值;
[0014] 將所述比值大于第一閾值的相應(yīng)詞確定為所述微博數(shù)據(jù)中的熱詞。
[0015] 進(jìn)一步地,所述對所述各個詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)和在歷史微博數(shù)據(jù)中 的出現(xiàn)次數(shù)進(jìn)行比較,確定所述微博數(shù)據(jù)中的熱詞,還包括:
[0016] 計算所述各個詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)與在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù) 的差值;
[0017] 所述將所述比值大于第一閾值相應(yīng)詞確定為所述微博數(shù)據(jù)中的熱詞,包括:
[0018] 將所述比值大于第一閾值,且所述差值大于第二閾值的相應(yīng)詞確定為所述微博數(shù) 據(jù)中的熱詞。
[0019] 進(jìn)一步地,所述對包括所述熱詞的微博進(jìn)行聚類,確定所述微博數(shù)據(jù)中的熱點事 件,包括:
[0020] 對包括所述熱詞的微博進(jìn)行canopy聚類,確定初始類的數(shù)目和中心點;
[0021] 根據(jù)所述初始類的數(shù)目和中心點對包括所述熱詞的微博進(jìn)行k-means聚類,確定 所述微博數(shù)據(jù)中的熱點事件。
[0022] 進(jìn)一步地,所述對包括所述熱詞的微博進(jìn)行canopy聚類,確定初始類的數(shù)目和中 心點之前,還包括:
[0023] 查詢預(yù)設(shè)的詞表,確定所述熱詞在所述詞表中的序號;
[0024] 根據(jù)所述熱詞在所述詞表中的序號和所述熱詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù),確 定包括所述熱詞的微博對應(yīng)的微博向量;
[0025] 所述對包括所述熱詞的微博進(jìn)行canopy聚類,確定初始類的數(shù)目和中心點,包 括:
[0026] 對所述微博向量進(jìn)行canopy聚類,確定初始類的數(shù)目和中心點。
[0027] 本發(fā)明的另一個方面提供一種熱點事件檢測裝置,包括:
[0028] 獲取模塊,用于獲取社交網(wǎng)絡(luò)中當(dāng)前時間段內(nèi)的微博數(shù)據(jù);
[0029] 分詞模塊,用于對所述微博數(shù)據(jù)中的多條微博的內(nèi)容進(jìn)行分詞,統(tǒng)計分詞得到的 各個詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù);
[0030] 所述獲取模塊,還用于獲取社交網(wǎng)絡(luò)中歷史時間段內(nèi)所述各個詞在歷史微博數(shù)據(jù) 中的出現(xiàn)次數(shù);所述歷史時間段和所述當(dāng)前時間段的時間長度相等;
[0031] 確定模塊,用于對所述各個詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)和在歷史微博數(shù)據(jù)中 的出現(xiàn)次數(shù)進(jìn)行比較,確定所述微博數(shù)據(jù)中的熱詞;
[0032] 所述獲取模塊,還用于獲取所述微博數(shù)據(jù)中包括所述熱詞的微博;
[0033] 聚類模塊,用于對包括所述熱詞的微博進(jìn)行聚類,確定所述微博數(shù)據(jù)中的熱點事 件。
[0034] 進(jìn)一步地,所述確定模塊具體用于,
[0035] 計算所述各個詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù)與在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù) 的比值;
[0036] 將所述比值大于第一閾值的相應(yīng)詞確定為所述微博數(shù)據(jù)中的熱詞。
[0037] 進(jìn)一步地,所述確定模塊具體還用于,計算所述各個詞在所述微博數(shù)據(jù)中的出現(xiàn) 次數(shù)與在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù)的差值;
[0038] 所述確定模塊將所述比值大于第一閾值相應(yīng)詞確定為所述微博數(shù)據(jù)中的熱詞中, 所述確定模塊具體用于,將所述比值大于第一閾值,且所述差值大于第二閾值的相應(yīng)詞確 定為所述微博數(shù)據(jù)中的熱詞。
[0039] 進(jìn)一步地,所述聚類模塊對包括所述熱詞的微博進(jìn)行聚類,確定所述微博數(shù)據(jù)中 的熱點事件中,所述聚類模塊具體用于,
[0040] 對包括所述熱詞的微博進(jìn)行canopy聚類,確定初始類的數(shù)目和中心點;
[0041] 根據(jù)所述初始類的數(shù)目和中心點對包括所述熱詞的微博進(jìn)行k-means聚類,確定 所述微博數(shù)據(jù)中的熱點事件。
[0042] 進(jìn)一步地,所述聚類模塊對包括所述熱詞的微博進(jìn)行canopy聚類,確定初始類的 數(shù)目和中心點之前,所述確定模塊還用于,查詢預(yù)設(shè)的詞表,確定所述熱詞在所述詞表中的 序號;
[0043] 根據(jù)所述熱詞在所述詞表中的序號和所述熱詞在所述微博數(shù)據(jù)中的出現(xiàn)次數(shù),確 定包括所述熱詞的微博對應(yīng)的微博向量;
[0044] 所述聚類模塊對包括所述熱詞的微博進(jìn)行canopy聚類,確定初始類的數(shù)目和中 心點中,所述聚類模塊具體用于,
[0045] 對所述微博向量進(jìn)行canopy聚類,確定初始類的數(shù)目和中心點。
[0046] 本發(fā)明中,通過獲取社交網(wǎng)絡(luò)中當(dāng)前時間段內(nèi)的微博數(shù)據(jù);對微博數(shù)據(jù)中的多條 微博的內(nèi)容進(jìn)行分詞,統(tǒng)計分詞得到的各個詞在微博數(shù)據(jù)中的出現(xiàn)次數(shù);獲取社交網(wǎng)絡(luò)中 歷史時間段內(nèi)各個詞在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù);歷史時間段和當(dāng)前時間段的時間長度 相等;對各個詞在微博數(shù)據(jù)中的出現(xiàn)次數(shù)和在歷史微博數(shù)據(jù)中的出現(xiàn)次數(shù)進(jìn)行比較,確定 微博數(shù)據(jù)中的熱詞;獲取微博數(shù)據(jù)中包括熱詞的微博;對包括熱詞的微博進(jìn)行聚類,確定 微博數(shù)據(jù)中的熱點事件,通過先從社交網(wǎng)絡(luò)中當(dāng)前時間段內(nèi)的微博數(shù)據(jù)選出包括熱詞的微 博,對包括熱詞的微博進(jìn)行聚類,減少了聚類時的微博數(shù)量,縮短了獲取熱點事件的時間, 提高了聚類獲取熱點事件的效率。
【附圖說明】
[0047] 圖1為本發(fā)明提供的熱點事件檢測方法一個實施例的流程圖;
[0048] 圖2為本發(fā)明提供的熱點事件檢測方法又一個實施例的流程圖;
[0049] 圖3為canopy聚類算法的示意圖;
[0050]圖4為本發(fā)明提供的熱點事件檢測裝置一個實施例的結(jié)構(gòu)示意圖。
【具體實施方式】
[0051] 為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0052] 圖1為本發(fā)明提供的熱點事件檢測方法一個實施例的流程圖,如圖1所示,包括:
[0053] 101、獲取社交網(wǎng)絡(luò)中當(dāng)前時間段內(nèi)的微博數(shù)據(jù)。
[0054] 本發(fā)明提供的熱點事件檢測方法的執(zhí)行主體為熱點事件檢測裝置,熱點事件檢測 裝置具體可以為互聯(lián)網(wǎng)中的應(yīng)用服務(wù)器,或者設(shè)置在應(yīng)用服務(wù)器上的軟件或系統(tǒng),用于檢 測社交網(wǎng)絡(luò)中用戶發(fā)表的各微博中的熱點事件。
[0055] 102、對微博數(shù)據(jù)中的多條微博的內(nèi)容進(jìn)行分詞,統(tǒng)計分詞得到的各個詞在微博數(shù) 據(jù)中的出現(xiàn)次數(shù)。
[005