亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法

文檔序號:6516854閱讀:310來源:國知局
基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法
【專利摘要】本發(fā)明涉及一種基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法,所述的方法包括獲取即時通訊工具中的布控數(shù)據(jù);對具有同一IP地址的不同即時通訊帳號的在線時間進(jìn)行分析得到帳號之間的時間關(guān)系;對各個即時通訊帳號的密碼數(shù)據(jù)進(jìn)行分析得到帳號之間的密碼關(guān)系;對各個即時通訊帳號的行為數(shù)據(jù)進(jìn)行分析得到帳號之間的行為關(guān)系;根據(jù)各個即時通訊帳號的IP地址、帳號之間的時間關(guān)系、密碼關(guān)系和行為關(guān)系進(jìn)行綜合分析得出各個即時通訊帳號之間的同人關(guān)系值。采用該種基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法,可以實(shí)現(xiàn)有效識別多個即時通訊帳號是否屬于一個人,關(guān)聯(lián)分析聊天記錄數(shù)據(jù),在海量數(shù)據(jù)中進(jìn)行特征提取,方法應(yīng)用簡便,具有更廣泛的應(yīng)用范圍。
【專利說明】基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機(jī)領(lǐng)域,尤其涉及計算機(jī)數(shù)據(jù)分析領(lǐng)域,具體是指一種基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法。
【背景技術(shù)】
[0002]目前即時聊天工具已經(jīng)成為人們生活中不可或缺的一部分,即時聊天工具已經(jīng)成為人們遠(yuǎn)程溝通交流的主要手段。即時通信工具的歷史記錄里內(nèi)含的各種數(shù)據(jù),可以使用數(shù)據(jù)挖掘的方法進(jìn)行特征提取。通過對特征提取的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,可以挖掘出相關(guān)人物之間的特征關(guān)系?,F(xiàn)有技術(shù)中針對即時聊天內(nèi)容的分析主要還是以人工查看為主,不僅耗時費(fèi)力而且還很容易遺漏重要相關(guān)信息,沒有成熟的技術(shù)方法來解決這個問題。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的目的是克服了上述現(xiàn)有技術(shù)的缺點(diǎn),提供了一種能夠?qū)崿F(xiàn)有效識別多個即時通訊帳號是否屬于一個人、關(guān)聯(lián)分析聊天記錄數(shù)據(jù)、在海量數(shù)據(jù)中進(jìn)行特征提取的基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法。
[0004]為了實(shí)現(xiàn)上述目的,本發(fā)明的基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法具有如下構(gòu)成:
[0005]該基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法,其主要特點(diǎn)是,所述的布控數(shù)據(jù)包括即時通訊帳號以及各個即時通訊帳號的IP地址、在線時間、密碼數(shù)據(jù)和行為數(shù)據(jù),所述的方法包括以下步驟:
[0006](I)獲取即時通訊工具中的布控數(shù)據(jù);
[0007](2)對具有同一 IP地址的不同即時通訊帳號的在線時間進(jìn)行分析得到帳號之間的時間關(guān)系;
[0008](3)對各個即時通訊帳號的密碼數(shù)據(jù)進(jìn)行分析得到帳號之間的密碼關(guān)系;
[0009](4)對各個即時通訊帳號的行為數(shù)據(jù)進(jìn)行分析得到帳號之間的行為關(guān)系;
[0010](5)根據(jù)各個即時通訊帳號的IP地址、帳號之間的時間關(guān)系、密碼關(guān)系和行為關(guān)系進(jìn)行綜合分析得出各個即時通訊帳號之間的同人關(guān)系值。
[0011]較佳地,所述的對具有同一 IP地址的不同即時通訊帳號的在線時間進(jìn)行分析得到帳號之間的時間關(guān)系,包括以下步驟:
[0012](21)從所述的布控數(shù)據(jù)中過濾出具有相同IP地址的不同即時通訊帳號;
[0013](22)對同一 IP地址具有的不同即時通訊帳號的在線時間進(jìn)行分析得到帳號之間的時間關(guān)系。
[0014]更佳地,所述的對同一 IP地址具有的不同即時通訊帳號的在線時間進(jìn)行分析得到帳號之間的時間關(guān)系,包括以下步驟:
[0015](221)對同一 IP地址具有的任兩個即時通訊帳號的登錄時間和退出時間區(qū)間的重合度分析得到支持度,所述的支持度為兩個即時通訊帳號都發(fā)生過登錄狀態(tài)在給定天數(shù)內(nèi)的數(shù)據(jù)集的頻繁程度值;
[0016](222)對同一 IP地址具有的任兩個即時通訊帳號的登錄時間和退出時間區(qū)間的重合度分析得到重合可信度,所述的重合可信度為兩個帳號同時登錄的頻繁程度值;
[0017](223)根據(jù)同一 IP地址的不同即時通訊賬號的支持度和重合可信度分析得出帳號之間的時間關(guān)系。
[0018]更佳地,所述的根據(jù)各個即時通訊帳號的IP地址、帳號之間的時間關(guān)系、密碼關(guān)系和行為關(guān)系進(jìn)行綜合分析得出各個即時通訊帳號之間的同人關(guān)系值,包括以下步驟:
[0019](51)對具有相同IP地址的不同即時通訊帳號之間的時間關(guān)系、密碼關(guān)系和行為關(guān)系進(jìn)行分析得出各個即時通訊帳號之間的同人關(guān)系值;
[0020](52)對具有不同IP地址的各個即時通訊帳號之間的IP地址、密碼關(guān)系和行為關(guān)系進(jìn)行分析得出各個即時通訊帳號之間的同人關(guān)系值。
[0021]較佳地,所述的各個即時通訊帳號的行為數(shù)據(jù)包括各個即時通訊帳號的好友數(shù)據(jù)和聊天記錄數(shù)據(jù),所述的對各個即時通訊帳號的行為數(shù)據(jù)進(jìn)行分析得到帳號之間的行為關(guān)系,包括以下步驟:
[0022](41)對各個即時通訊帳號的好友數(shù)據(jù)進(jìn)行分析得出帳號之間的好友關(guān)系;
[0023](42)對各個即時通訊帳號的聊天記錄數(shù)據(jù)進(jìn)行分析得出帳號之間的收發(fā)內(nèi)容相似度;
[0024](43)對各個即時通訊帳號之間的好友關(guān)系和收發(fā)內(nèi)容相似度進(jìn)行分析得出帳號之間的行為關(guān)系。
[0025]更佳地,所述的對各個即時通訊帳號的聊天記錄數(shù)據(jù)進(jìn)行分析得出帳號之間的收發(fā)內(nèi)容相似度,包括以下步驟:
[0026](421)對各個即時通訊帳號的聊天記錄數(shù)據(jù)進(jìn)行文本挖掘并提取關(guān)鍵詞;
[0027](422)對各個即時通訊帳號的聊天記錄數(shù)據(jù)中關(guān)鍵詞之間的相關(guān)度進(jìn)行分析得出帳號之間的收發(fā)內(nèi)容相似度。
[0028]采用了該發(fā)明中的基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法,可以實(shí)現(xiàn)通過即時通信通訊軟件的登錄信息和登錄軌跡來判斷登錄的多個虛擬賬戶是否屬于同一人員,提出STFFS (同人,時間,朋友,頻率,序列)數(shù)據(jù)挖掘的人物特征提取方法,快速的在海量數(shù)據(jù)中進(jìn)行特征提取,方法應(yīng)用簡便,具有更廣泛的應(yīng)用范圍。
【專利附圖】

【附圖說明】
[0029]圖1為本發(fā)明的基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法的流程圖。
【具體實(shí)施方式】
[0030]為了能夠更清楚地描述本發(fā)明的技術(shù)內(nèi)容,下面結(jié)合具體實(shí)施例來進(jìn)行進(jìn)一步的描述。
[0031]本發(fā)明進(jìn)行分析的基礎(chǔ)為布控數(shù)據(jù),而布控數(shù)據(jù)即為虛擬身份在即時通訊工具中登錄的如下軌跡信息項:
[0032]虛擬身份ID,即即時通訊帳號;
[0033]虛擬身份口令,即即時通訊帳號對應(yīng)的密碼;[0034]ADSL IP地址,即各個即時通訊帳號登錄的IP地址;
[0035]ADSL地理地址;
[0036]登錄時間;
[0037]在線時長;
[0038]登出時間;
[0039]好友列表和聊天記錄,即即時通訊帳號的行為數(shù)據(jù)。
[0040]本發(fā)明的同人登錄判斷問題定義及數(shù)據(jù)格式如下:
[0041]從布控數(shù)據(jù)上來看,許多被布控人員人會申請多個即時通訊工具(InstantMessaging,頂)賬號來方便與不同的人員進(jìn)行通信。因此識別出多個頂賬號是否屬于同一個人員可以有效關(guān)聯(lián)聊天記錄內(nèi)容,協(xié)同定位布控人員,幫助分析布控人員行為。
[0042]本實(shí)施例中目前收集到布控數(shù)據(jù)有:頂?shù)卿浫罩?、IM聊天記錄。
[0043]IM登錄日志格式:
[0044]
【權(quán)利要求】
1.一種基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法,其特征在于,所述的布控數(shù)據(jù)包括即時通訊帳號以及各個即時通訊帳號的IP地址、在線時間、密碼數(shù)據(jù)和行為數(shù)據(jù),所述的方法包括以下步驟: (1)獲取即時通訊工具中的布控數(shù)據(jù); (2)對具有同一IP地址的不同即時通訊帳號的在線時間進(jìn)行分析得到帳號之間的時間關(guān)系; (3)對各個即時通訊帳號的密碼數(shù)據(jù)進(jìn)行分析得到帳號之間的密碼關(guān)系; (4)對各個即時通訊帳號的行為數(shù)據(jù)進(jìn)行分析得到帳號之間的行為關(guān)系; (5)根據(jù)各個即時通訊帳號的IP地址、帳號之間的時間關(guān)系、密碼關(guān)系和行為關(guān)系進(jìn)行綜合分析得出各個即時通訊帳號之間的同人關(guān)系值。
2.根據(jù)權(quán)利要求1所述的基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法,其特征在于,所述的對具有同一 IP地址的不同即時通訊帳號的在線時間進(jìn)行分析得到帳號之間的時間關(guān)系,包括以下步驟: (21)從所述的布控數(shù)據(jù)中過濾出具有相同IP地址的不同即時通訊帳號; (22)對同一IP地址具有的不同即時通訊帳號的在線時間進(jìn)行分析得到帳號之間的時間關(guān)系。
3.根據(jù)權(quán)利要求2所述的基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法,其特征在于,所述的對同一 IP地址具有的不同即時通訊帳號的在線時間進(jìn)行分析得到帳號之間的時間關(guān)系,包括以下步驟: (221)對同一IP地址 具有的任兩個即時通訊帳號的登錄時間和退出時間區(qū)間的重合度分析得到支持度,所述的支持度為兩個即時通訊帳號都發(fā)生過登錄狀態(tài)在給定天數(shù)內(nèi)的數(shù)據(jù)集的頻繁程度值; (222)對同一IP地址具有的任兩個即時通訊帳號的登錄時間和退出時間區(qū)間的重合度分析得到重合可信度,所述的重合可信度為兩個帳號同時登錄的頻繁程度值; (223)根據(jù)同一IP地址的不同即時通訊賬號的支持度和重合可信度分析得出帳號之間的時間關(guān)系。
4.根據(jù)權(quán)利要求2所述的基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法,其特征在于,所述的根據(jù)各個即時通訊帳號的IP地址、帳號之間的時間關(guān)系、密碼關(guān)系和行為關(guān)系進(jìn)行綜合分析得出各個即時通訊帳號之間的同人關(guān)系值,包括以下步驟: (51)對具有相同IP地址的不同即時通訊帳號之間的時間關(guān)系、密碼關(guān)系和行為關(guān)系進(jìn)行分析得出各個即時通訊帳號之間的同人關(guān)系值; (52)對具有不同IP地址的各個即時通訊帳號之間的IP地址、密碼關(guān)系和行為關(guān)系進(jìn)行分析得出各個即時通訊帳號之間的同人關(guān)系值。
5.根據(jù)權(quán)利要求1所述的基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法,其特征在于,所述的各個即時通訊帳號的行為數(shù)據(jù)包括各個即時通訊帳號的好友數(shù)據(jù)和聊天記錄數(shù)據(jù),所述的對各個即時通訊帳號的行為數(shù)據(jù)進(jìn)行分析得到帳號之間的行為關(guān)系,包括以下步驟: (41)對各個即時通訊帳號的好友數(shù)據(jù)進(jìn)行分析得出帳號之間的好友關(guān)系; (42)對各個即時通訊帳號的聊天記錄數(shù)據(jù)進(jìn)行分析得出帳號之間的收發(fā)內(nèi)容相似度;(43)對各個即時通訊帳號之間的好友關(guān)系和收發(fā)內(nèi)容相似度進(jìn)行分析得出帳號之間的行為關(guān)系。
6.根據(jù)權(quán)利要求5所述的基于布控數(shù)據(jù)挖掘?qū)崿F(xiàn)特征提取的方法,其特征在于,所述的對各個即時通訊帳號的聊天記錄數(shù)據(jù)進(jìn)行分析得出帳號之間的收發(fā)內(nèi)容相似度,包括以下步驟: (421)對各個即時通訊帳號的聊天記錄數(shù)據(jù)進(jìn)行文本挖掘并提取關(guān)鍵詞; (422)對各個即時通訊帳號的聊天記錄數(shù)據(jù)中關(guān)鍵詞之間的相關(guān)度進(jìn)行分析得出帳號之間的收發(fā)內(nèi) 容相似度。
【文檔編號】G06F17/30GK103544289SQ201310518001
【公開日】2014年1月29日 申請日期:2013年10月28日 優(yōu)先權(quán)日:2013年10月28日
【發(fā)明者】吳松洋, 周治平, 王旭鵬, 張熙哲, 熊雄, 劉占斌 申請人:公安部第三研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1