亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種Hadoop集群下的用戶(hù)行為異常檢測(cè)方法與流程

文檔序號(hào):11206301閱讀:2367來(lái)源:國(guó)知局
一種Hadoop集群下的用戶(hù)行為異常檢測(cè)方法與流程

本發(fā)明涉及一種用戶(hù)行為異常檢測(cè)方法,尤其是一種基于hadoop集群下的用戶(hù)行為異常檢測(cè)方法。



背景技術(shù):

近年來(lái),hadoop平臺(tái)作為一個(gè)優(yōu)秀的分布式計(jì)算系統(tǒng),在企業(yè)大規(guī)模數(shù)據(jù)處理方面扮演著越來(lái)越重要的角色。然而,由于hadoop在開(kāi)發(fā)之初并未考慮安全因素,雖然后續(xù)加入了一些安全機(jī)制,但hadoop的安全審計(jì)機(jī)制、訪(fǎng)問(wèn)控制機(jī)制和身份認(rèn)證機(jī)制等都屬于被動(dòng)的靜態(tài)安全技術(shù),不能對(duì)用戶(hù)行為活動(dòng)進(jìn)行監(jiān)控,這就導(dǎo)致容易遭受隱藏的安全攻擊。比如:非法用戶(hù)盜取合法用戶(hù)的賬號(hào)和密碼,獲得相關(guān)權(quán)限非法訪(fǎng)問(wèn)數(shù)據(jù);在惡意入侵、維修和介質(zhì)丟失時(shí)容易產(chǎn)生數(shù)據(jù)泄露問(wèn)題,集群的數(shù)據(jù)安全難以得到保障。數(shù)據(jù)是信息的載體,一旦遭遇數(shù)據(jù)災(zāi)難,可能給用戶(hù)造成不可估量的損失。因此,需要對(duì)用戶(hù)的數(shù)據(jù)訪(fǎng)問(wèn)行為建立有效的監(jiān)控,及時(shí)的發(fā)現(xiàn)異常行為,保障hadoop集群的數(shù)據(jù)安全。

在基于用戶(hù)行為活動(dòng)的監(jiān)控方面,國(guó)內(nèi)研究相對(duì)較少。ashishkamra等人提出了一種針對(duì)關(guān)系型數(shù)據(jù)庫(kù)訪(fǎng)問(wèn)模式的異常檢測(cè)方法,它是基于用戶(hù)的sql查詢(xún)?nèi)罩?,但這種方法只針對(duì)關(guān)系數(shù)據(jù)庫(kù),不適用于大數(shù)據(jù)平臺(tái)的用戶(hù)行為監(jiān)控;mohiuddinsolaimani等人提出了一種基于spark的虛擬機(jī)性能異常檢測(cè)框架,目的是通過(guò)對(duì)虛擬機(jī)性能異常檢測(cè)發(fā)現(xiàn)哪些用戶(hù)占用大量資源,造成資源的共享不均衡影響集群運(yùn)行效率,但spark是基于內(nèi)存的計(jì)算,當(dāng)數(shù)據(jù)規(guī)模很大或是中間結(jié)果超過(guò)內(nèi)存大小時(shí)就無(wú)法處理;劉朋提出了一個(gè)針對(duì)數(shù)據(jù)庫(kù)的抽象架構(gòu)和通用的異常行為檢測(cè)解決方法,但卻沒(méi)有給出具體的算法;fredrikvaleur等人提出了一種基于機(jī)器學(xué)習(xí)的sql攻擊行為檢測(cè)方法,但只針對(duì)基于網(wǎng)絡(luò)的后端數(shù)據(jù)庫(kù)。

傳統(tǒng)的用戶(hù)行為異常檢測(cè)方法主要是在數(shù)據(jù)庫(kù)以及集群性能異常方面。數(shù)據(jù)庫(kù)一般是針對(duì)關(guān)系型數(shù)據(jù)庫(kù)等,在hadoop集群分布式環(huán)境下無(wú)法適用,而集群性能異常在hadoop平臺(tái)本身的負(fù)載均衡等機(jī)制下,表現(xiàn)并不突出,異常檢測(cè)的結(jié)果正確性不高。此外,hadoop集群下的數(shù)據(jù)規(guī)模通常很大,基于傳統(tǒng)的主成分分析的模型訓(xùn)練算法,效率相對(duì)較低。

因此本發(fā)明的優(yōu)化方法將對(duì)用戶(hù)的數(shù)據(jù)訪(fǎng)問(wèn)行為建立有效的監(jiān)控,及時(shí)的發(fā)現(xiàn)異常行為,保障hadoop集群的數(shù)據(jù)安全,并且還通過(guò)并行化主成分分析算法提高模型訓(xùn)練效率,解決傳統(tǒng)模型訓(xùn)練效率低的問(wèn)題。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于克服現(xiàn)有的技術(shù)不足,提供一種hadoop集群下的用戶(hù)行為異常檢測(cè)方法,不僅能夠解決在hadoop集群下針對(duì)用戶(hù)訪(fǎng)問(wèn)hdfs數(shù)據(jù)的異常行為監(jiān)控問(wèn)題,而且還對(duì)傳統(tǒng)的主成分分析算法進(jìn)行了并行化處理,解決模型訓(xùn)練效率較低的問(wèn)題。

本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:一種hadoop集群下的用戶(hù)行為異常檢測(cè)方法,包括以下步驟:

s1:用戶(hù)行為數(shù)據(jù)采集:通過(guò)hadoop日志管理服務(wù)(log4j)從集群namenode節(jié)點(diǎn)獲得hdfs的審計(jì)日志并存儲(chǔ)于數(shù)據(jù)庫(kù);

s2:數(shù)據(jù)預(yù)處理;

s3:模型訓(xùn)練:抽取其中一個(gè)用戶(hù)的部分特征向量集作為訓(xùn)練數(shù)據(jù)并構(gòu)造為樣本數(shù)據(jù)矩陣,基于本發(fā)明提出的并行主成分分析算法對(duì)樣本數(shù)據(jù)進(jìn)行降維處理,得到樣本均值和變換矩陣,存入該用戶(hù)模型庫(kù)。其他用戶(hù)的模型訓(xùn)練方法相同。其中變換矩陣主要完成把樣本由原空間映射到主成分子空間的功能;

s4:用戶(hù)行為異常檢測(cè):針對(duì)某一個(gè)用戶(hù),把該用戶(hù)當(dāng)前的行為模式(特征向量)與該用戶(hù)模型訓(xùn)練得到的歷史行為模式做匹配,如果不匹配,則為異常行為。

所述的用戶(hù)行為數(shù)據(jù)采集,是利用hadoop日志管理服務(wù),并且默認(rèn)hadoop已經(jīng)集成了apache的開(kāi)源項(xiàng)目log4j,通過(guò)log4j日志管理服務(wù)從集群namenode節(jié)點(diǎn)獲得了hdfs的審計(jì)日志并存儲(chǔ)于數(shù)據(jù)庫(kù);

所述的用戶(hù)行為數(shù)據(jù)是用戶(hù)訪(fǎng)問(wèn)hdfs行為時(shí)的審計(jì)記錄,記錄包括訪(fǎng)問(wèn)日期和時(shí)間、用戶(hù)標(biāo)識(shí)、文件操作命令、客戶(hù)端ip地址;

所述的數(shù)據(jù)預(yù)處理,包括以下步驟:

s21:提取并統(tǒng)計(jì)數(shù)據(jù),從數(shù)據(jù)庫(kù)中讀取審計(jì)記錄,針對(duì)每一個(gè)用戶(hù)的審計(jì)記錄,基于一個(gè)時(shí)間窗口,統(tǒng)計(jì)該時(shí)間內(nèi)每個(gè)文件操作命令出現(xiàn)的次數(shù);

s22:構(gòu)成特征向量。

所述的特征向量是基于頻域?qū)傩詷?gòu)造特征向量,該特征向量用x=(x1,x2,…,x13)來(lái)表示,該特征向量一共有13種文件操作命令,每一維的值代表一種文件操作命令在該時(shí)間窗口內(nèi)出現(xiàn)的次數(shù),依次進(jìn)行便得到一個(gè)特征向量集,其中,13維對(duì)應(yīng)hdfs文件操作命令種類(lèi)數(shù)目。該特征向量集既可以作為模型訓(xùn)練數(shù)據(jù)又可以作為測(cè)試數(shù)據(jù);

所述的模型訓(xùn)練包括以下子步驟:

s31:根據(jù)抽取的模型訓(xùn)練數(shù)據(jù),構(gòu)造樣本數(shù)據(jù)矩陣;

s32:基于并行化主成分分析,求方差矩陣和樣本均值,對(duì)樣本矩陣進(jìn)行水平分割分為n塊,基于mapreduce計(jì)算模型求得樣本均值和協(xié)方差矩陣;

s33:計(jì)算協(xié)方差矩陣的特征值和對(duì)應(yīng)的特征向量,按照方差貢獻(xiàn)率確定主成分?jǐn)?shù)量k;

s34:根據(jù)方差貢獻(xiàn)率確定主成分并構(gòu)造變換矩陣,根據(jù)前k大特征值對(duì)應(yīng)的特征向量構(gòu)造變換矩陣,樣本矩陣與變換矩陣的乘積即為主成分矩陣;

s35:把得到的樣本均值和變換矩陣存入模型數(shù)據(jù)庫(kù),供異常檢測(cè)使用。

所述的用戶(hù)行為異常檢測(cè)包括以下子步驟:

s41:針對(duì)某一個(gè)用戶(hù),從測(cè)試數(shù)據(jù)提取出一個(gè)特征向量,進(jìn)行均值調(diào)整處理;

s42:計(jì)算經(jīng)過(guò)均值調(diào)整處理的向量與該向量的主成分重構(gòu)之間的歐氏距離,如果距離大于預(yù)先設(shè)定的閾值,則為異常行為;否則,為正常行為;

所述的經(jīng)均值調(diào)整過(guò)的向量的主成分重構(gòu),是把均值調(diào)整過(guò)的向量經(jīng)過(guò)訓(xùn)練得到變換矩陣,再映射到主成分子空間,隨后利用變換矩陣的轉(zhuǎn)置,把映射后的新向量重構(gòu)回原來(lái)的空間得到的向量;

所述的用戶(hù)行為異常檢測(cè)方法,將用戶(hù)行為的異常檢測(cè)分為兩種情況進(jìn)行測(cè)試:

(1)如果要測(cè)試檢測(cè)方法的誤檢率,則把一個(gè)用戶(hù)的特征向量數(shù)據(jù)抽取部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩下的部分作為測(cè)試數(shù)據(jù);

(2)如果要測(cè)試檢測(cè)方法的檢測(cè)率,則把一個(gè)用戶(hù)的特征向量數(shù)據(jù)抽取部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù),抽取另外其他用戶(hù)的部分作為測(cè)試數(shù)據(jù)。

本發(fā)明的有益效果是:為hadoop集群下的hdfs文件數(shù)據(jù)訪(fǎng)問(wèn)行為提供了一種有效的、正確的異常行為檢測(cè)方法,該方法克服了傳統(tǒng)異常檢測(cè)方法在hadoop集群環(huán)境下不適用的問(wèn)題,并且對(duì)本方法使用的主成分分析算法進(jìn)行了并行化改進(jìn)處理,提高了模型訓(xùn)練的效率。

附圖說(shuō)明

圖1為本發(fā)明的流程圖;

圖2為本發(fā)明的模型訓(xùn)練流程圖;

圖3為本發(fā)明的用戶(hù)行為異常檢測(cè)流程圖;

圖4為本發(fā)明的主成分分析并行化處理過(guò)程圖。

具體實(shí)施方式

下面結(jié)合附圖進(jìn)一步詳細(xì)描述本發(fā)明的技術(shù)方案,但本發(fā)明的保護(hù)范圍不局限于以下所述。

如圖1所示,一種hadoop集群下的用戶(hù)行為異常檢測(cè)方法,包括以下步驟:

s1:用戶(hù)行為數(shù)據(jù)采集,hadoop默認(rèn)集成了apache的開(kāi)源項(xiàng)目log4j,通過(guò)log4j日志管理服務(wù)從集群namenode節(jié)點(diǎn)獲得hdfs的審計(jì)日志并存儲(chǔ)于數(shù)據(jù)庫(kù);

s2:數(shù)據(jù)的預(yù)處理。從數(shù)據(jù)庫(kù)中讀取審計(jì)記錄,針對(duì)每一個(gè)用戶(hù)的審計(jì)記錄,基于一個(gè)時(shí)間窗口,統(tǒng)計(jì)該時(shí)間內(nèi)每個(gè)文件操作命令出現(xiàn)的次數(shù),并組合構(gòu)成一個(gè)特征向量,該特征向量用x=(x1,x2,…,x13)來(lái)表示,一共有13種文件操作命令,每一維的值代表一種文件操作命令在該時(shí)間窗口內(nèi)出現(xiàn)的次數(shù),依次進(jìn)行便得到一個(gè)特征向量集,即待檢測(cè)模式。該特征向量集可以作為模型訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù);

s3:模型訓(xùn)練:抽取其中一個(gè)用戶(hù)的部分特征向量集作為訓(xùn)練數(shù)據(jù)并構(gòu)造為樣本數(shù)據(jù)矩陣,基于本發(fā)明提出的并行主成分分析算法對(duì)樣本數(shù)據(jù)進(jìn)行降維處理,得到樣本均值和變換矩陣,存入該用戶(hù)模型庫(kù)。其他用戶(hù)的模型訓(xùn)練方法相同。其中變換矩陣主要完成把樣本由原空間映射到主成分子空間的功能;

s4:用戶(hù)行為異常檢測(cè):針對(duì)某一個(gè)用戶(hù),把該用戶(hù)當(dāng)前的行為模式(特征向量)與該用戶(hù)模型訓(xùn)練得到的歷史行為模式做匹配,如果不匹配,則為異常行為。

如圖2所示,模型訓(xùn)練的步驟為:

s31:根據(jù)抽取的模型訓(xùn)練數(shù)據(jù)(特征向量集),構(gòu)造樣本數(shù)據(jù)矩陣;

s32:如圖4所示,基于并行化主成分分析,求方差矩陣和樣本均值,對(duì)樣本矩陣進(jìn)行水平分割分為n塊,基于mapreduce計(jì)算模型求得樣本均值和協(xié)方差矩陣;抽取其中一個(gè)用戶(hù)的部分特征向量集作為訓(xùn)練數(shù)據(jù)并構(gòu)造為樣本數(shù)據(jù)矩陣,基于本發(fā)明提出的并行主成分分析算法對(duì)樣本數(shù)據(jù)進(jìn)行降維處理,得到樣本均值和變換矩陣,存入該用戶(hù)模型庫(kù)。其他用戶(hù)的模型訓(xùn)練方法相同。其中變換矩陣主要完成把樣本由原空間映射到主成分子空間的功能;

具體并行化主成分分析公式為:得到特征向量矩陣xi,xi=[x1,x2,...,x13]t,x的均值矩陣和協(xié)方差矩陣分別記為μ=e(x)和σ=d(x)。

s33:計(jì)算協(xié)方差矩陣的特征值和對(duì)應(yīng)的特征向量,按照方差貢獻(xiàn)率確定主成分?jǐn)?shù)量k;

s34:根據(jù)方差貢獻(xiàn)率確定主成分并構(gòu)造變換矩陣,根據(jù)前k大特征值對(duì)應(yīng)的特征向量構(gòu)造變換矩陣,樣本矩陣與變換矩陣的乘積即為主成分矩陣;

s35:根據(jù)變換矩陣得到主成分矩陣,把得到的樣本均值和變換矩陣存入模型數(shù)據(jù)庫(kù),供異常檢測(cè)使用。

如圖3所示,用戶(hù)行為異常檢測(cè),針對(duì)某一個(gè)用戶(hù),把該用戶(hù)當(dāng)前的行為模式(特征向量)與該用戶(hù)模型訓(xùn)練得到的歷史行為模式做匹配,如果不匹配,則為異常行為,具體步驟如下:

s41:把當(dāng)前用戶(hù)的行為特征向量作為測(cè)試數(shù)據(jù);

s42:在mapreduce框架下,將當(dāng)前用戶(hù)的行為特征向量并均值調(diào)整為待檢測(cè)數(shù)據(jù);

s43:計(jì)算待檢測(cè)特征向量和主成分重構(gòu)后的特征向量之間的距離;

s44:判斷閾值:若距離大于閾值,將當(dāng)前用戶(hù)行為劃歸為異常行為記錄,未超過(guò)閾值,則將當(dāng)前用戶(hù)行為劃歸為正常行為;

s45:判斷是否還存在測(cè)試數(shù)據(jù):若還存在測(cè)試數(shù)據(jù),則重新進(jìn)行均值調(diào)整,等到?jīng)]有測(cè)試數(shù)據(jù)存在時(shí)結(jié)束測(cè)試。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對(duì)其他實(shí)施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述構(gòu)想范圍內(nèi),通過(guò)上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識(shí)進(jìn)行改動(dòng)。而本領(lǐng)域人員所進(jìn)行的改動(dòng)和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)利要求的保護(hù)范圍內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1