一種Hadoop集群下的用戶(hù)行為異常檢測(cè)方法與流程

文檔序號(hào)：11206301閱讀：2367來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及一種用戶(hù)行為異常檢測(cè)方法，尤其是一種基于hadoop集群下的用戶(hù)行為異常檢測(cè)方法。

背景技術(shù)：

近年來(lái)，hadoop平臺(tái)作為一個(gè)優(yōu)秀的分布式計(jì)算系統(tǒng)，在企業(yè)大規(guī)模數(shù)據(jù)處理方面扮演著越來(lái)越重要的角色。然而，由于hadoop在開(kāi)發(fā)之初并未考慮安全因素，雖然后續(xù)加入了一些安全機(jī)制，但hadoop的安全審計(jì)機(jī)制、訪(fǎng)問(wèn)控制機(jī)制和身份認(rèn)證機(jī)制等都屬于被動(dòng)的靜態(tài)安全技術(shù)，不能對(duì)用戶(hù)行為活動(dòng)進(jìn)行監(jiān)控，這就導(dǎo)致容易遭受隱藏的安全攻擊。比如：非法用戶(hù)盜取合法用戶(hù)的賬號(hào)和密碼，獲得相關(guān)權(quán)限非法訪(fǎng)問(wèn)數(shù)據(jù)；在惡意入侵、維修和介質(zhì)丟失時(shí)容易產(chǎn)生數(shù)據(jù)泄露問(wèn)題，集群的數(shù)據(jù)安全難以得到保障。數(shù)據(jù)是信息的載體，一旦遭遇數(shù)據(jù)災(zāi)難，可能給用戶(hù)造成不可估量的損失。因此，需要對(duì)用戶(hù)的數(shù)據(jù)訪(fǎng)問(wèn)行為建立有效的監(jiān)控，及時(shí)的發(fā)現(xiàn)異常行為，保障hadoop集群的數(shù)據(jù)安全。

在基于用戶(hù)行為活動(dòng)的監(jiān)控方面，國(guó)內(nèi)研究相對(duì)較少。ashishkamra等人提出了一種針對(duì)關(guān)系型數(shù)據(jù)庫(kù)訪(fǎng)問(wèn)模式的異常檢測(cè)方法，它是基于用戶(hù)的sql查詢(xún)?nèi)罩?，但這種方法只針對(duì)關(guān)系數(shù)據(jù)庫(kù)，不適用于大數(shù)據(jù)平臺(tái)的用戶(hù)行為監(jiān)控；mohiuddinsolaimani等人提出了一種基于spark的虛擬機(jī)性能異常檢測(cè)框架，目的是通過(guò)對(duì)虛擬機(jī)性能異常檢測(cè)發(fā)現(xiàn)哪些用戶(hù)占用大量資源，造成資源的共享不均衡影響集群運(yùn)行效率，但spark是基于內(nèi)存的計(jì)算，當(dāng)數(shù)據(jù)規(guī)模很大或是中間結(jié)果超過(guò)內(nèi)存大小時(shí)就無(wú)法處理；劉朋提出了一個(gè)針對(duì)數(shù)據(jù)庫(kù)的抽象架構(gòu)和通用的異常行為檢測(cè)解決方法，但卻沒(méi)有給出具體的算法；fredrikvaleur等人提出了一種基于機(jī)器學(xué)習(xí)的sql攻擊行為檢測(cè)方法，但只針對(duì)基于網(wǎng)絡(luò)的后端數(shù)據(jù)庫(kù)。

傳統(tǒng)的用戶(hù)行為異常檢測(cè)方法主要是在數(shù)據(jù)庫(kù)以及集群性能異常方面。數(shù)據(jù)庫(kù)一般是針對(duì)關(guān)系型數(shù)據(jù)庫(kù)等，在hadoop集群分布式環(huán)境下無(wú)法適用，而集群性能異常在hadoop平臺(tái)本身的負(fù)載均衡等機(jī)制下，表現(xiàn)并不突出，異常檢測(cè)的結(jié)果正確性不高。此外，hadoop集群下的數(shù)據(jù)規(guī)模通常很大，基于傳統(tǒng)的主成分分析的模型訓(xùn)練算法，效率相對(duì)較低。

因此本發(fā)明的優(yōu)化方法將對(duì)用戶(hù)的數(shù)據(jù)訪(fǎng)問(wèn)行為建立有效的監(jiān)控，及時(shí)的發(fā)現(xiàn)異常行為，保障hadoop集群的數(shù)據(jù)安全，并且還通過(guò)并行化主成分分析算法提高模型訓(xùn)練效率，解決傳統(tǒng)模型訓(xùn)練效率低的問(wèn)題。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于克服現(xiàn)有的技術(shù)不足，提供一種hadoop集群下的用戶(hù)行為異常檢測(cè)方法，不僅能夠解決在hadoop集群下針對(duì)用戶(hù)訪(fǎng)問(wèn)hdfs數(shù)據(jù)的異常行為監(jiān)控問(wèn)題，而且還對(duì)傳統(tǒng)的主成分分析算法進(jìn)行了并行化處理，解決模型訓(xùn)練效率較低的問(wèn)題。

本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的：一種hadoop集群下的用戶(hù)行為異常檢測(cè)方法，包括以下步驟：

s1:用戶(hù)行為數(shù)據(jù)采集：通過(guò)hadoop日志管理服務(wù)(log4j)從集群namenode節(jié)點(diǎn)獲得hdfs的審計(jì)日志并存儲(chǔ)于數(shù)據(jù)庫(kù)；

s2:數(shù)據(jù)預(yù)處理；

s3:模型訓(xùn)練：抽取其中一個(gè)用戶(hù)的部分特征向量集作為訓(xùn)練數(shù)據(jù)并構(gòu)造為樣本數(shù)據(jù)矩陣，基于本發(fā)明提出的并行主成分分析算法對(duì)樣本數(shù)據(jù)進(jìn)行降維處理，得到樣本均值和變換矩陣，存入該用戶(hù)模型庫(kù)。其他用戶(hù)的模型訓(xùn)練方法相同。其中變換矩陣主要完成把樣本由原空間映射到主成分子空間的功能；

s4:用戶(hù)行為異常檢測(cè)：針對(duì)某一個(gè)用戶(hù)，把該用戶(hù)當(dāng)前的行為模式(特征向量)與該用戶(hù)模型訓(xùn)練得到的歷史行為模式做匹配，如果不匹配，則為異常行為。

所述的用戶(hù)行為數(shù)據(jù)采集，是利用hadoop日志管理服務(wù)，并且默認(rèn)hadoop已經(jīng)集成了apache的開(kāi)源項(xiàng)目log4j，通過(guò)log4j日志管理服務(wù)從集群namenode節(jié)點(diǎn)獲得了hdfs的審計(jì)日志并存儲(chǔ)于數(shù)據(jù)庫(kù)；

所述的用戶(hù)行為數(shù)據(jù)是用戶(hù)訪(fǎng)問(wèn)hdfs行為時(shí)的審計(jì)記錄，記錄包括訪(fǎng)問(wèn)日期和時(shí)間、用戶(hù)標(biāo)識(shí)、文件操作命令、客戶(hù)端ip地址；

所述的數(shù)據(jù)預(yù)處理，包括以下步驟：

s21：提取并統(tǒng)計(jì)數(shù)據(jù)，從數(shù)據(jù)庫(kù)中讀取審計(jì)記錄，針對(duì)每一個(gè)用戶(hù)的審計(jì)記錄，基于一個(gè)時(shí)間窗口，統(tǒng)計(jì)該時(shí)間內(nèi)每個(gè)文件操作命令出現(xiàn)的次數(shù)；

s22：構(gòu)成特征向量。

所述的特征向量是基于頻域?qū)傩詷?gòu)造特征向量，該特征向量用x＝(x1,x2,…,x13)來(lái)表示，該特征向量一共有13種文件操作命令，每一維的值代表一種文件操作命令在該時(shí)間窗口內(nèi)出現(xiàn)的次數(shù)，依次進(jìn)行便得到一個(gè)特征向量集，其中，13維對(duì)應(yīng)hdfs文件操作命令種類(lèi)數(shù)目。該特征向量集既可以作為模型訓(xùn)練數(shù)據(jù)又可以作為測(cè)試數(shù)據(jù)；

所述的模型訓(xùn)練包括以下子步驟：

s31：根據(jù)抽取的模型訓(xùn)練數(shù)據(jù)，構(gòu)造樣本數(shù)據(jù)矩陣；

s32：基于并行化主成分分析，求方差矩陣和樣本均值，對(duì)樣本矩陣進(jìn)行水平分割分為n塊，基于mapreduce計(jì)算模型求得樣本均值和協(xié)方差矩陣；

s33：計(jì)算協(xié)方差矩陣的特征值和對(duì)應(yīng)的特征向量，按照方差貢獻(xiàn)率確定主成分?jǐn)?shù)量k；

s34：根據(jù)方差貢獻(xiàn)率確定主成分并構(gòu)造變換矩陣，根據(jù)前k大特征值對(duì)應(yīng)的特征向量構(gòu)造變換矩陣，樣本矩陣與變換矩陣的乘積即為主成分矩陣；

s35：把得到的樣本均值和變換矩陣存入模型數(shù)據(jù)庫(kù)，供異常檢測(cè)使用。

所述的用戶(hù)行為異常檢測(cè)包括以下子步驟：

s41：針對(duì)某一個(gè)用戶(hù)，從測(cè)試數(shù)據(jù)提取出一個(gè)特征向量，進(jìn)行均值調(diào)整處理；

s42：計(jì)算經(jīng)過(guò)均值調(diào)整處理的向量與該向量的主成分重構(gòu)之間的歐氏距離，如果距離大于預(yù)先設(shè)定的閾值，則為異常行為；否則，為正常行為；

所述的經(jīng)均值調(diào)整過(guò)的向量的主成分重構(gòu)，是把均值調(diào)整過(guò)的向量經(jīng)過(guò)訓(xùn)練得到變換矩陣，再映射到主成分子空間，隨后利用變換矩陣的轉(zhuǎn)置，把映射后的新向量重構(gòu)回原來(lái)的空間得到的向量；

所述的用戶(hù)行為異常檢測(cè)方法，將用戶(hù)行為的異常檢測(cè)分為兩種情況進(jìn)行測(cè)試：

(1)如果要測(cè)試檢測(cè)方法的誤檢率，則把一個(gè)用戶(hù)的特征向量數(shù)據(jù)抽取部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)，剩下的部分作為測(cè)試數(shù)據(jù)；

(2)如果要測(cè)試檢測(cè)方法的檢測(cè)率，則把一個(gè)用戶(hù)的特征向量數(shù)據(jù)抽取部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)，抽取另外其他用戶(hù)的部分作為測(cè)試數(shù)據(jù)。

本發(fā)明的有益效果是：為hadoop集群下的hdfs文件數(shù)據(jù)訪(fǎng)問(wèn)行為提供了一種有效的、正確的異常行為檢測(cè)方法，該方法克服了傳統(tǒng)異常檢測(cè)方法在hadoop集群環(huán)境下不適用的問(wèn)題，并且對(duì)本方法使用的主成分分析算法進(jìn)行了并行化改進(jìn)處理，提高了模型訓(xùn)練的效率。

附圖說(shuō)明

圖1為本發(fā)明的流程圖；

圖2為本發(fā)明的模型訓(xùn)練流程圖；

圖3為本發(fā)明的用戶(hù)行為異常檢測(cè)流程圖；

圖4為本發(fā)明的主成分分析并行化處理過(guò)程圖。

具體實(shí)施方式

下面結(jié)合附圖進(jìn)一步詳細(xì)描述本發(fā)明的技術(shù)方案，但本發(fā)明的保護(hù)范圍不局限于以下所述。

如圖1所示，一種hadoop集群下的用戶(hù)行為異常檢測(cè)方法，包括以下步驟：

s1：用戶(hù)行為數(shù)據(jù)采集，hadoop默認(rèn)集成了apache的開(kāi)源項(xiàng)目log4j，通過(guò)log4j日志管理服務(wù)從集群namenode節(jié)點(diǎn)獲得hdfs的審計(jì)日志并存儲(chǔ)于數(shù)據(jù)庫(kù)；

s2：數(shù)據(jù)的預(yù)處理。從數(shù)據(jù)庫(kù)中讀取審計(jì)記錄，針對(duì)每一個(gè)用戶(hù)的審計(jì)記錄，基于一個(gè)時(shí)間窗口，統(tǒng)計(jì)該時(shí)間內(nèi)每個(gè)文件操作命令出現(xiàn)的次數(shù)，并組合構(gòu)成一個(gè)特征向量，該特征向量用x＝(x1,x2,…,x13)來(lái)表示，一共有13種文件操作命令，每一維的值代表一種文件操作命令在該時(shí)間窗口內(nèi)出現(xiàn)的次數(shù)，依次進(jìn)行便得到一個(gè)特征向量集，即待檢測(cè)模式。該特征向量集可以作為模型訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)；

s3：模型訓(xùn)練：抽取其中一個(gè)用戶(hù)的部分特征向量集作為訓(xùn)練數(shù)據(jù)并構(gòu)造為樣本數(shù)據(jù)矩陣，基于本發(fā)明提出的并行主成分分析算法對(duì)樣本數(shù)據(jù)進(jìn)行降維處理，得到樣本均值和變換矩陣，存入該用戶(hù)模型庫(kù)。其他用戶(hù)的模型訓(xùn)練方法相同。其中變換矩陣主要完成把樣本由原空間映射到主成分子空間的功能；

s4：用戶(hù)行為異常檢測(cè)：針對(duì)某一個(gè)用戶(hù)，把該用戶(hù)當(dāng)前的行為模式(特征向量)與該用戶(hù)模型訓(xùn)練得到的歷史行為模式做匹配，如果不匹配，則為異常行為。

如圖2所示，模型訓(xùn)練的步驟為：

s31：根據(jù)抽取的模型訓(xùn)練數(shù)據(jù)(特征向量集)，構(gòu)造樣本數(shù)據(jù)矩陣；

s32：如圖4所示，基于并行化主成分分析，求方差矩陣和樣本均值，對(duì)樣本矩陣進(jìn)行水平分割分為n塊，基于mapreduce計(jì)算模型求得樣本均值和協(xié)方差矩陣；抽取其中一個(gè)用戶(hù)的部分特征向量集作為訓(xùn)練數(shù)據(jù)并構(gòu)造為樣本數(shù)據(jù)矩陣，基于本發(fā)明提出的并行主成分分析算法對(duì)樣本數(shù)據(jù)進(jìn)行降維處理，得到樣本均值和變換矩陣，存入該用戶(hù)模型庫(kù)。其他用戶(hù)的模型訓(xùn)練方法相同。其中變換矩陣主要完成把樣本由原空間映射到主成分子空間的功能；

具體并行化主成分分析公式為：得到特征向量矩陣xi,xi＝[x1,x2,...,x13]^t,x的均值矩陣和協(xié)方差矩陣分別記為μ＝e(x)和σ＝d(x)。

s33：計(jì)算協(xié)方差矩陣的特征值和對(duì)應(yīng)的特征向量，按照方差貢獻(xiàn)率確定主成分?jǐn)?shù)量k；

s35：根據(jù)變換矩陣得到主成分矩陣，把得到的樣本均值和變換矩陣存入模型數(shù)據(jù)庫(kù)，供異常檢測(cè)使用。

如圖3所示，用戶(hù)行為異常檢測(cè)，針對(duì)某一個(gè)用戶(hù)，把該用戶(hù)當(dāng)前的行為模式(特征向量)與該用戶(hù)模型訓(xùn)練得到的歷史行為模式做匹配，如果不匹配，則為異常行為，具體步驟如下：

s41:把當(dāng)前用戶(hù)的行為特征向量作為測(cè)試數(shù)據(jù)；

s42:在mapreduce框架下，將當(dāng)前用戶(hù)的行為特征向量并均值調(diào)整為待檢測(cè)數(shù)據(jù)；

s43:計(jì)算待檢測(cè)特征向量和主成分重構(gòu)后的特征向量之間的距離；

s44:判斷閾值：若距離大于閾值，將當(dāng)前用戶(hù)行為劃歸為異常行為記錄，未超過(guò)閾值，則將當(dāng)前用戶(hù)行為劃歸為正常行為；

s45:判斷是否還存在測(cè)試數(shù)據(jù)：若還存在測(cè)試數(shù)據(jù)，則重新進(jìn)行均值調(diào)整，等到?jīng)]有測(cè)試數(shù)據(jù)存在時(shí)結(jié)束測(cè)試。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)理解本發(fā)明并非局限于本文所披露的形式，不應(yīng)看作是對(duì)其他實(shí)施例的排除，而可用于各種其他組合、修改和環(huán)境，并能夠在本文所述構(gòu)想范圍內(nèi)，通過(guò)上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識(shí)進(jìn)行改動(dòng)。而本領(lǐng)域人員所進(jìn)行的改動(dòng)和變化不脫離本發(fā)明的精神和范圍，則都應(yīng)在本發(fā)明所附權(quán)利要求的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郝玉潔;鐘德建;王芷若;崔建鵬;陸文斌
技術(shù)所有人：電子科技大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車(chē)檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車(chē)電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

用戶(hù)行為異常檢測(cè)相關(guān)技術(shù)

異常用戶(hù)行為分析模型相關(guān)技術(shù)

用戶(hù)行為異常相關(guān)技術(shù)

數(shù)據(jù)挖掘異常檢測(cè)方法相關(guān)技術(shù)

人群異常檢測(cè)方法相關(guān)技術(shù)

異常數(shù)據(jù)的檢測(cè)方法相關(guān)技術(shù)

異常檢測(cè)方法相關(guān)技術(shù)

集群行為相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種Hadoop集群下的用戶(hù)行為異常檢測(cè)方法與流程