亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于通信網(wǎng)絡(luò)的行為異常檢測(cè)方法

文檔序號(hào):9436012閱讀:2406來(lái)源:國(guó)知局
一種基于通信網(wǎng)絡(luò)的行為異常檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,具體涉及一種行為異常檢測(cè)的方法。
【背景技術(shù)】一種基于模式自學(xué)習(xí)的中文開(kāi)放式實(shí)體關(guān)系抽取方法
[0002] 挖掘用戶行為和分析行為異常是挖掘數(shù)據(jù)異常和內(nèi)部威脅的重要研究領(lǐng)域。
[0003] 通信網(wǎng)絡(luò)是由多人通信服務(wù)形成的,例如電子郵件,電話等等。通信網(wǎng)絡(luò)在日常生 活中扮演了一個(gè)重要的角色,而且他提供了一個(gè)前所未有的機(jī)會(huì)讓我們?nèi)シ治龊屯诰蛴脩?的模型和社會(huì)關(guān)系?,F(xiàn)在關(guān)于通信網(wǎng)絡(luò)中的用戶行為挖掘已經(jīng)有很多研究,例如社團(tuán)挖掘, 角色分析,仿真模型等。
[0004] 近期通信網(wǎng)絡(luò)中有大量研究工作集中在用戶行為模型挖掘和事件挖掘上面。然而 異常檢測(cè)和相關(guān)模型的聯(lián)系是緊密的,怎么定義常規(guī)模型是重要的研究熱點(diǎn)。
[0005]目前主要的挑戰(zhàn)就是怎樣方便準(zhǔn)確地模擬和表示用戶通信模型。比較常用的技術(shù) 就是基于文本的語(yǔ)義分析,根據(jù)提取和跟蹤文本信息的話題來(lái)獲取用戶行為模式和意圖。 然而,因?yàn)殡[私問(wèn)題和權(quán)限限制,獲取用戶信息內(nèi)容存在很多的障礙。另一個(gè)比較流行的技 術(shù)是基于網(wǎng)絡(luò)的框架和時(shí)間屬性來(lái)發(fā)掘用戶模型。與以上工作不同的是,我們的研究直接 聚焦在用戶的個(gè)體行為。
[0006] 跟蹤監(jiān)測(cè)用戶行為演化和異??梢詭椭覀冾A(yù)測(cè)潛在的威脅和挖掘未知事件。因 此尋找一個(gè)有效的方法去研究它們是十分重要的。根據(jù)收集到的通信記錄,我們可以得到 一個(gè)網(wǎng)絡(luò),網(wǎng)絡(luò)中節(jié)點(diǎn)代表用戶ID,邊代表直接的信息交互。通信網(wǎng)絡(luò)是一個(gè)典型的時(shí)間序 列網(wǎng)絡(luò)。它可以由一系列的快照來(lái)表達(dá)。根據(jù)快照中用戶的行為活動(dòng)可以得到用戶行為基 準(zhǔn),檢測(cè)用戶的行為異常。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明主要是提供一種基于通信網(wǎng)絡(luò)的行為異常檢測(cè)方法。該方法可以基于個(gè) 體的歷史行為檢測(cè)個(gè)體的行為異常,方便分析人員量化個(gè)體行為異常并提供相關(guān)的決策支 持。
[0008] 對(duì)于獲取的通信記錄,首先構(gòu)建了一個(gè)通信網(wǎng)絡(luò)。節(jié)點(diǎn)代表用戶,邊代表通信記 錄。如果發(fā)信者u在t時(shí)刻向收信者v發(fā)送了信息,就建立在t時(shí)刻的一個(gè)由u指向v的 有向邊。用一個(gè)向量(u,v,t)來(lái)表示這個(gè)邊。然后把通信網(wǎng)絡(luò)根據(jù)一定的時(shí)間間隔劃分成 一系列的快照。每一個(gè)快照在忽略它的時(shí)間屬性的情況下可以看成邊的集合。
[0009] 假設(shè)G= {gl,g2,…,gM}是截取一系列的通信網(wǎng)絡(luò)的快照。對(duì)于每個(gè)用戶,首先提 取每個(gè)用戶快照的基本信息。然后我們關(guān)注其中的三個(gè)非文本特征:通信量、通信時(shí)間分布 和收信者頻度分布。
[0010] 計(jì)算用戶的通信量異常值,利用Iglewicz和Hoaglin提出的基于絕對(duì)中位數(shù) (MAD)的改進(jìn)后的Z-scores方法,將改進(jìn)后Z-scores的絕對(duì)值Imz」作為通信量異常值 [0011] 計(jì)算用戶的通信時(shí)間分布異常值,利用所有通信時(shí)間分布的平均值來(lái)定義通信時(shí) 間分布的基準(zhǔn),利用Kullback-Leibler散度計(jì)算通信時(shí)間分布異常值。
[0012] 計(jì)算用戶的收信者頻度分布異常值,定義如果一個(gè)收信者出現(xiàn)在k個(gè)快照中, 我們就定義他的頻度就是k,和上面相似,我們也定義了一個(gè)收信人頻度分布基準(zhǔn),利用 Kullback-Leibler散度計(jì)算收信者頻度分布異常值。
[0013] 最后通過(guò)一個(gè)轉(zhuǎn)換方式來(lái)映射異常值到一個(gè)在區(qū)間[0, 1]的標(biāo)準(zhǔn)值,標(biāo)準(zhǔn)化的異 常值能夠被解釋為觀測(cè)到異常值的可能性。同時(shí)也為在不同用戶異常行為間的比較帶來(lái)了 很多便利。
【附圖說(shuō)明】
[0014] 附圖1是本發(fā)明對(duì)行為異常檢測(cè)所提出方法的基本流程圖。
【具體實(shí)施方式】
[0015] 為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0016] 圖1為本發(fā)明提供的行為異常檢測(cè)的流程圖。具體可以包括如下步驟:
[0017] 101、根據(jù)時(shí)間間隔劃分網(wǎng)絡(luò)快照:
[0018] 通信網(wǎng)絡(luò)是一個(gè)典型的時(shí)間序列網(wǎng)絡(luò)。它可以由一系列的快照來(lái)表達(dá)。根據(jù)一定 的時(shí)間間隔,可以把通信網(wǎng)絡(luò)劃分成若干個(gè)網(wǎng)絡(luò)快照,便于進(jìn)行下一步分析。
[0019] 102、根據(jù)網(wǎng)絡(luò)快照提取用戶資料:
[0020] 在獲取若干個(gè)網(wǎng)絡(luò)快照后,我們可以從中提取出用戶的有效信息,本發(fā)明重點(diǎn)關(guān) 注通信量、通信時(shí)間分布和收信者頻度分布這三個(gè)特征。
[0021] 103、根據(jù)用戶資料構(gòu)造用戶基準(zhǔn):
[0022] 我們提取出用戶資料后,根據(jù)用戶資料構(gòu)造出用戶基準(zhǔn),這些基準(zhǔn)通常是某些快 照樣本的平均值,得到用戶基準(zhǔn)便于計(jì)算異常值
[0023] 104、根據(jù)用戶資料和用戶基準(zhǔn)計(jì)算異常值:
[0024] 在本發(fā)明中選取用戶的三個(gè)特征:通信量,通信時(shí)間分布和收信者頻度分布來(lái)進(jìn) 行特征異常計(jì)算,具體計(jì)算方式如下:
[0025]I通信量
[0026] 通信網(wǎng)絡(luò)主要用于用戶間的信息傳遞,因此,某一用戶在通信網(wǎng)絡(luò)中通信量是表 征用戶行為模式的重要特征。假設(shè)一段時(shí)間間隔內(nèi)的通信量保持相對(duì)穩(wěn)定?;谠摷僭O(shè), 用戶通信量的變化能夠反映現(xiàn)實(shí)世界中某一事件的發(fā)生。我們利用改進(jìn)的Z-scores來(lái)測(cè) 量用戶通信量的異常In1,n2,…,nM}。
[0027]Z-scores通常用于數(shù)值數(shù)據(jù)中的異常值標(biāo)記。對(duì)于一組給定的數(shù)據(jù)集{Xl,x2,… ,Xn},樣本乂;的z-score由以下公式進(jìn)行計(jì)算:
[0028]
[0029]其中
[0030]如果21的絕對(duì)值超過(guò)了 3,那么對(duì)應(yīng)的xi就將被標(biāo)記為異常值。這種方法又稱為three-sigma規(guī)則。但是由于均值Z及樣本標(biāo)準(zhǔn)差s不是恒定不變的,Z-score計(jì)算所得的 可能的最大值并不依賴于數(shù)據(jù)值,而僅僅取決于觀測(cè)值的數(shù)量。因此,該方法并
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1