網(wǎng)絡(luò)異常行為的檢測方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種網(wǎng)絡(luò)異常行為的檢測方法及系統(tǒng)。其中方法包括:從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集;從網(wǎng)絡(luò)訪問數(shù)據(jù)集中提取每個特定域名下的網(wǎng)絡(luò)訪問數(shù)據(jù),計算網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特性參數(shù);從不同維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性,生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量;基于訓(xùn)練數(shù)據(jù)集中各條訓(xùn)練數(shù)據(jù)的多維特征向量和各條訓(xùn)練數(shù)據(jù)的實際類標(biāo)、以及檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的多維特征向量,采用機器學(xué)習(xí)中的分類算法,得到檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的預(yù)測類標(biāo)。根據(jù)本發(fā)明提供的方案,得到的檢測結(jié)果同時具有較高的準(zhǔn)確率和召回率。
【專利說明】
網(wǎng)絡(luò)異常行為的檢測方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及計算機網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種網(wǎng)絡(luò)異常行為的檢測方法及系 統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的飛速發(fā)展,Web應(yīng)用越來越豐富,專門針對Web應(yīng)用的入侵手段也越 來越復(fù)雜多變,入侵檢測技術(shù)已成為網(wǎng)絡(luò)安全的核心研究對象。
[0003] 傳統(tǒng)的入侵檢測方法根據(jù)已知的攻擊行為建立規(guī)則,形成匹配規(guī)則庫,對各種已 知的攻擊類型具有良好的檢測效果。但其具有如下缺點:
[0004] (1)適應(yīng)性差,類似正則表達式的判定條件相對容易被繞過,而且該方法不能有效 地檢測出未知的攻擊類型;
[0005] (2)基于規(guī)則的檢測方式很大程度上依賴安全人員的經(jīng)驗判斷,它對研究人員的 專業(yè)水平要求較高,這從本質(zhì)上加大了研究門檻;
[0006] (3)匹配規(guī)則庫需要專家人為的經(jīng)常更新和維護,而每一次對線上系統(tǒng)模塊的修 改都會帶來高昂的成本代價。
【發(fā)明內(nèi)容】
[0007] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的網(wǎng)絡(luò)異常行為的檢測方法及系統(tǒng)。
[0008] 根據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)絡(luò)異常行為的檢測方法,其包括:
[0009] 從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集,所述網(wǎng)絡(luò)訪問數(shù)據(jù)集包含訓(xùn)練數(shù)據(jù)集和 檢測數(shù)據(jù)集;
[0010] 從所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中提取每個特定域名下的網(wǎng)絡(luò)訪問數(shù)據(jù),計算所述網(wǎng)絡(luò)訪 問數(shù)據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的統(tǒng)計特性模型;
[0011] 依據(jù)計算得到的統(tǒng)計特征參數(shù),從不同維度檢測所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò) 訪問數(shù)據(jù)的行為特性,生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量;
[0012] 基于訓(xùn)練數(shù)據(jù)集中各條訓(xùn)練數(shù)據(jù)的多維特征向量和各條訓(xùn)練數(shù)據(jù)的實際類標(biāo)、以 及檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的多維特征向量,采用機器學(xué)習(xí)中的分類算法,得到所述檢 測數(shù)據(jù)集中各條檢測數(shù)據(jù)的預(yù)測類標(biāo);其中類標(biāo)表示網(wǎng)絡(luò)訪問數(shù)據(jù)為正常數(shù)據(jù)或異常數(shù) 據(jù)。
[0013] 根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)絡(luò)異常行為的檢測系統(tǒng),其包括:
[0014] 數(shù)據(jù)準(zhǔn)備模塊,適于從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集,所述網(wǎng)絡(luò)訪問數(shù)據(jù) 集包含訓(xùn)練數(shù)據(jù)集和檢測數(shù)據(jù)集;
[0015] 統(tǒng)計特性模型構(gòu)建模塊,適于從所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中提取每個特定域名下的網(wǎng) 絡(luò)訪問數(shù)據(jù),計算所述網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的統(tǒng) 計特性模型;
[0016] 多維子系統(tǒng),適于依據(jù)計算得到的統(tǒng)計特征參數(shù),從不同維度檢測所述網(wǎng)絡(luò)訪問 數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性,生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量;
[0017] 分類模塊,適于基于訓(xùn)練數(shù)據(jù)集中各條訓(xùn)練數(shù)據(jù)的多維特征向量和各條訓(xùn)練數(shù)據(jù) 的實際類標(biāo)、以及檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的多維特征向量,采用機器學(xué)習(xí)中的分類算 法,得到所述檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的預(yù)測類標(biāo);其中類標(biāo)表示網(wǎng)絡(luò)訪問數(shù)據(jù)為正常 數(shù)據(jù)或異常數(shù)據(jù)。
[0018] 根據(jù)本發(fā)明提供的網(wǎng)絡(luò)異常行為的檢測方法及系統(tǒng),基于網(wǎng)絡(luò)訪問日志提供的數(shù) 據(jù),構(gòu)建每個特定域名的統(tǒng)計特性模型,從不同維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問 數(shù)據(jù)的行為特性,分別將各個維度的檢測結(jié)果重新映射到訪問記錄的向量空間中,采用機 器學(xué)習(xí)算法再分類,使系統(tǒng)的檢測結(jié)果同時具有較高的準(zhǔn)確率和召回率。本發(fā)明將基于無 監(jiān)督學(xué)習(xí)的特征生成技術(shù)和基于有監(jiān)督學(xué)習(xí)的分類技術(shù)相結(jié)合,具有良好的適應(yīng)性,能夠 檢測出多種類型的網(wǎng)絡(luò)入侵行為,具備一定的檢測未知異常模式的能力。
[0019]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠 更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0020] 通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0021] 圖1示出了根據(jù)本發(fā)明一個實施例的網(wǎng)絡(luò)異常行為的檢測方法的流程示意圖;
[0022] 圖2示出了根據(jù)本發(fā)明另一個實施例的網(wǎng)絡(luò)異常行為的檢測方法的流程示意圖;
[0023] 圖3示出了本發(fā)明提供的網(wǎng)絡(luò)異常行為的檢測方法中構(gòu)造得到的有向圖的示意 圖;
[0024] 圖4示出了根據(jù)本發(fā)明一個實施例的網(wǎng)絡(luò)異常行為的檢測系統(tǒng)的功能結(jié)構(gòu)示意 圖。
【具體實施方式】
[0025] 下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開 的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例 所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達給本領(lǐng)域的技術(shù)人員。
[0026] 本發(fā)明實施例提出一種網(wǎng)絡(luò)異常行為的檢測方案,將基于無監(jiān)督學(xué)習(xí)的特征生成 技術(shù)和基于有監(jiān)督學(xué)習(xí)的分類技術(shù)相結(jié)合,對網(wǎng)絡(luò)訪問記錄的行為特性做出綜合評估。本 發(fā)明實施例基于同一域名下海量日志數(shù)據(jù)的統(tǒng)計特征,從不同維度構(gòu)造出多個基于統(tǒng)計特 性的檢測子系統(tǒng)。然后分別將各個子系統(tǒng)的檢測結(jié)果重新映射到訪問記錄的向量空間中, 采用機器學(xué)習(xí)算法再分類,使系統(tǒng)的檢測結(jié)果同時具有較高的準(zhǔn)確率和召回率。
[0027] 圖1示出了根據(jù)本發(fā)明一個實施例的網(wǎng)絡(luò)異常行為的檢測方法的流程示意圖。如 圖1所示,該方法包括如下步驟:
[0028] 步驟S101,從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集,該網(wǎng)絡(luò)訪問數(shù)據(jù)集包含訓(xùn)練 數(shù)據(jù)集和檢測數(shù)據(jù)集。
[0029] 網(wǎng)絡(luò)訪問日志記錄了用戶訪問網(wǎng)絡(luò)的行為數(shù)據(jù),通過分析網(wǎng)絡(luò)訪問日志可以分析 用戶訪問網(wǎng)絡(luò)的行為特性。本步驟作為數(shù)據(jù)準(zhǔn)備步驟,首先收集網(wǎng)絡(luò)訪問日志,從網(wǎng)絡(luò)訪問 曰志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集。網(wǎng)絡(luò)訪問數(shù)據(jù)集是由大量網(wǎng)絡(luò)訪問數(shù)據(jù)組成的集合,其中的 每條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)一條HTTP應(yīng)用層數(shù)據(jù)包,完整的一條網(wǎng)絡(luò)訪問數(shù)據(jù)包括:時間戳、源 IP、源端口、目的IP、目的端口、URI(Uniform Resource Identifier,統(tǒng)一資源標(biāo)識符)、主 機域名等字段。
[0030] 為了能夠其中某些網(wǎng)絡(luò)訪問數(shù)據(jù)進行特性分析,本實施例從網(wǎng)絡(luò)訪問日志中獲取 一部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù),這些訓(xùn)練數(shù)據(jù)包含正常數(shù)據(jù)和異常數(shù)據(jù),通過實際類標(biāo)標(biāo)識網(wǎng) 絡(luò)訪問數(shù)據(jù)為正常數(shù)據(jù)或異常數(shù)據(jù)。例如,實際類標(biāo)為-1,表示為異常數(shù)據(jù),實際類標(biāo)為1, 表示為正常數(shù)據(jù)。通過這些已知特性的訓(xùn)練數(shù)據(jù)組成的訓(xùn)練數(shù)據(jù)集,可對檢測數(shù)據(jù)集內(nèi)的 多條待檢測的網(wǎng)絡(luò)訪問數(shù)據(jù)的特性進行評估。
[0031] 步驟S102,從網(wǎng)絡(luò)訪問數(shù)據(jù)集中提取每個特定域名下的網(wǎng)絡(luò)訪問數(shù)據(jù),計算網(wǎng)絡(luò) 訪問數(shù)據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的統(tǒng)計特性模型。
[0032] 基于所獲取的網(wǎng)絡(luò)訪問數(shù)據(jù)集,本發(fā)明實施例根據(jù)同一域名下海量日志數(shù)據(jù)的統(tǒng) 計特性參數(shù)構(gòu)建對應(yīng)域名的統(tǒng)計特性模型。具體地,根據(jù)網(wǎng)絡(luò)訪問數(shù)據(jù)所包括的主機域名 查找屬于同一域名的網(wǎng)絡(luò)訪問數(shù)據(jù),而后提取同一域名下的網(wǎng)絡(luò)訪問數(shù)據(jù)的指定字段,計 算統(tǒng)計特性參數(shù),從而構(gòu)建每個域名的統(tǒng)計特性模型??蛇x地,本發(fā)明實施例可計算同一域 名下的網(wǎng)絡(luò)訪問數(shù)據(jù)的URI字段的統(tǒng)計特性參數(shù),構(gòu)建每個域名的統(tǒng)計特性模型。URI用來 標(biāo)識Web資源的字符串的各個不同部分,一般由三部分組成:主機名、標(biāo)志符和相對URI。主 機名為存放資源的主機的名稱,由路徑表示;標(biāo)志符表示URI指向資源的內(nèi)部;相對URI不包 含任何命名規(guī)范信息,可能包含有相對路徑。按照RFC4395規(guī)范,URI的句法結(jié)構(gòu)為:協(xié)議名 稱://域名.根域名/目錄/文件名.后綴。
[0033]步驟S103,依據(jù)計算得到的統(tǒng)計特征參數(shù),從不同維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各 條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性,生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量。
[0034] 本發(fā)明實施例基于同一域名下海量日志數(shù)據(jù)的統(tǒng)計特征,從不同維度檢測網(wǎng)絡(luò)訪 問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性,然后分別將各個維度的檢測結(jié)果重新映射到訪 問記錄的向量空間中,從而生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量。
[0035] 步驟S104,基于訓(xùn)練數(shù)據(jù)集中各條訓(xùn)練數(shù)據(jù)的多維特征向量和各條訓(xùn)練數(shù)據(jù)的實 際類標(biāo)、以及檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的多維特征向量,采用機器學(xué)習(xí)中的分類算法,得 到檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的預(yù)測類標(biāo);其中類標(biāo)表示網(wǎng)絡(luò)訪問數(shù)據(jù)為正常數(shù)據(jù)或異常 數(shù)據(jù)。
[0036] 通過上述步驟可以得到訓(xùn)練數(shù)據(jù)集中各條訓(xùn)練數(shù)據(jù)的多維特征向量以及檢測數(shù) 據(jù)集中各條檢測數(shù)據(jù)的多維特征向量,又由于已知訓(xùn)練數(shù)據(jù)的實際類標(biāo),結(jié)合這些數(shù)據(jù)采 用機器學(xué)習(xí)算法再分類,得到檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的預(yù)測類標(biāo),從而實現(xiàn)對網(wǎng)絡(luò)訪 問記錄的行為特性的綜合評估。
[0037] 根據(jù)本發(fā)明實施例提供的網(wǎng)絡(luò)異常行為的檢測方法,基于網(wǎng)絡(luò)訪問日志提供的數(shù) 據(jù),構(gòu)建每個特定域名的統(tǒng)計特性模型,從不同維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問 數(shù)據(jù)的行為特性,分別將各個維度的檢測結(jié)果重新映射到訪問記錄的向量空間中,采用機 器學(xué)習(xí)算法再分類,使系統(tǒng)的檢測結(jié)果同時具有較高的準(zhǔn)確率和召回率。本方法將基于無 監(jiān)督學(xué)習(xí)的特征生成技術(shù)和基于有監(jiān)督學(xué)習(xí)的分類技術(shù)相結(jié)合,具有良好的適應(yīng)性,能夠 檢測出多種類型的網(wǎng)絡(luò)入侵行為,具備一定的檢測未知異常模式的能力。
[0038]圖2示出了根據(jù)本發(fā)明另一個實施例的網(wǎng)絡(luò)異常行為的檢測方法的流程示意圖。 如圖2所示,該方法包括如下步驟:
[0039]步驟S201,從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集,網(wǎng)絡(luò)訪問數(shù)據(jù)集包含訓(xùn)練數(shù) 據(jù)集和檢測數(shù)據(jù)集。
[0040]網(wǎng)絡(luò)訪問日志記錄了用戶訪問網(wǎng)絡(luò)的行為數(shù)據(jù),通過分析網(wǎng)絡(luò)訪問日志可以分析 用戶訪問網(wǎng)絡(luò)的行為特性。本步驟作為數(shù)據(jù)準(zhǔn)備步驟,首先收集網(wǎng)絡(luò)訪問日志,從網(wǎng)絡(luò)訪問 曰志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集。網(wǎng)絡(luò)訪問數(shù)據(jù)集是由大量網(wǎng)絡(luò)訪問數(shù)據(jù)組成的集合,其中的 每條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)一條HTTP應(yīng)用層數(shù)據(jù)包,完整的一條網(wǎng)絡(luò)訪問數(shù)據(jù)包括:時間戳、源 IP、源端口、目的IP、目的端口、URI、主機域名等字段。
[0041 ]為了能夠其中某些網(wǎng)絡(luò)訪問數(shù)據(jù)進行特性分析,本實施例從網(wǎng)絡(luò)訪問日志中獲取 一部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù),這些訓(xùn)練數(shù)據(jù)包含正常數(shù)據(jù)和異常數(shù)據(jù),通過實際類標(biāo)標(biāo)識網(wǎng) 絡(luò)訪問數(shù)據(jù)為正常數(shù)據(jù)或異常數(shù)據(jù)。例如,實際類標(biāo)為-1,表示為異常數(shù)據(jù),實際類標(biāo)為1, 表示為正常數(shù)據(jù)。通過這些已知特性的訓(xùn)練數(shù)據(jù)組成的訓(xùn)練數(shù)據(jù)集,可對檢測數(shù)據(jù)集內(nèi)的 多條待檢測的網(wǎng)絡(luò)訪問數(shù)據(jù)的特性進行評估。
[0042]步驟S202,對網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)進行預(yù)處理。
[0043]為了便于后續(xù)的統(tǒng)計分析,本步驟對網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)進行預(yù) 處理,使之更具規(guī)范性。具體地,預(yù)處理過程可包括:
[0044] (1)對錯誤數(shù)據(jù)、缺失數(shù)據(jù)以及重復(fù)數(shù)據(jù)進行處理;通過此處理步驟刪除掉網(wǎng)絡(luò)訪 問數(shù)據(jù)集中的無效數(shù)據(jù),提高了后續(xù)處理的有效性。
[0045] (2)按照不同的主機域名將各條網(wǎng)絡(luò)訪問數(shù)據(jù)進行分類處理;此處理步驟是為步 驟S203做準(zhǔn)備,通過分類便于步驟S203直接對各個特定域名下的網(wǎng)絡(luò)訪問數(shù)據(jù)做處理。
[0046] 步驟S203,從訓(xùn)練數(shù)據(jù)集中提取每個特定域名下的網(wǎng)絡(luò)訪問數(shù)據(jù),計算網(wǎng)絡(luò)訪問 數(shù)據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的統(tǒng)計特性模型。
[0047] 本步驟具體為計算同一域名下的網(wǎng)絡(luò)訪問數(shù)據(jù)的URI字段的統(tǒng)計特性參數(shù),構(gòu)建 每個域名的統(tǒng)計特性模型??蛇x地,本步驟構(gòu)建統(tǒng)計特性模型是基于訓(xùn)練數(shù)據(jù)集中的網(wǎng)絡(luò) 訪問數(shù)據(jù),檢測數(shù)據(jù)集中的網(wǎng)絡(luò)訪問數(shù)據(jù)不考慮在內(nèi)。
[0048]進一步的,計算網(wǎng)絡(luò)訪問數(shù)據(jù)中URI字段的統(tǒng)計特性參數(shù)主要包括以下幾個方面:
[0049] (1)統(tǒng)計得到網(wǎng)絡(luò)訪問數(shù)據(jù)的分級路徑以及相鄰路徑的頻數(shù)。
[0050] 以表1所示的4條網(wǎng)絡(luò)訪問數(shù)據(jù)為例,則可以統(tǒng)計得到分級路徑以及相鄰路徑之間 的頻數(shù)列表,如表2所示。
[0051] 表 1
L0055J (2)針對問一路社卜的每條|WJ絡(luò)訪問數(shù)據(jù),抽取該條|WJ絡(luò)訪問數(shù)據(jù)的參數(shù)字段出 現(xiàn)的所有參數(shù)名,形成該條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的參數(shù)名子集;將該路徑下各條網(wǎng)絡(luò)訪問數(shù) 據(jù)對應(yīng)的參數(shù)名子集匯總,生成該路徑下的參數(shù)名子集池。
[0056] 首先,針對同一路徑下的每一條記錄,抽取其參數(shù)字段出現(xiàn)的所有參數(shù)名(Pl, ?2,...,? 1〇,形成一個參數(shù)名子集51={{?1,?2,...,? 15}}。然后將不同的參數(shù)子集匯總,生成 特定路徑下的一個參數(shù)名子集池,即S = S1 U S2 U ... U Sn(其中η為同一路徑下的記錄數(shù))。 舉例如下:
[0057] 假如有5條網(wǎng)絡(luò)訪問數(shù)據(jù),如表3所示,則可抽取其對應(yīng)的參數(shù)名子集:
[0058] 表3 L0060」該路徑下的參數(shù)名于集池為:
[0061] S={{x,y}}U{{z}}U{{x,y,z}}U{{x,y}}U{{y}}
[0062] ={{y}, {z}, {x,y}, {x,y,z}}
[0063] (3)針對同一路徑下的每條網(wǎng)絡(luò)訪問數(shù)據(jù),按照順序抽取參數(shù)名,構(gòu)造有向圖;遍 歷有向圖中節(jié)點之間的所有兩兩組合,判斷節(jié)點之間是否連通,根據(jù)判斷結(jié)果更新所述有 向圖;根據(jù)有向圖記錄的連通關(guān)系,構(gòu)建參數(shù)名順序集。
[0064] 首先,對于同一路徑下的每一條記錄,按照順序抽取參數(shù)名,構(gòu)造有向圖。舉例來 說,假如有4條輸入數(shù)據(jù)的URI如表4所示,其構(gòu)造的有向邊對應(yīng)所示。由此可構(gòu)造得到如圖3 所示的有向圖。
[0065] 然后,遍歷參數(shù)名(即有向圖中的節(jié)點)之間的所有兩兩組合,判斷相應(yīng)的節(jié)點之 間是否連通,根據(jù)判斷結(jié)果更新有向圖。根據(jù)有向圖記錄的連通關(guān)系,構(gòu)建參數(shù)名順序集S。
[0066] 表 4
LUUbbj 以參數(shù)名X和y為例,如呆節(jié)酡到達節(jié)開乜節(jié)個酡到達節(jié)?χ,則說明節(jié) 點X-定在節(jié)點y的前面,將邊(y,x)加入S;如果節(jié)點y能到達節(jié)點X并且節(jié)點X不能到達節(jié)點 y,則說明節(jié)點y-定在節(jié)點X的前面,將邊(X,y)加入S;其余情況都無法說明固定的先后順 序,不對參數(shù)名順序集S做出任何改變。上述實例得到的參數(shù)名順序集S為:S={(y,x),(z, x),(z,y)},由此可見,參數(shù)名順序集S記錄的是不可連通的邊,也就是說,如果參數(shù)名順序 集S具有這條記錄(XI,X2),則參數(shù)名Xl不能出現(xiàn)在參數(shù)名X2的前面。
[0069 ] (4)計算網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名對應(yīng)的參數(shù)值長度分布的均值和標(biāo)準(zhǔn)差。
[0070] 對于參數(shù)值長度分布,本發(fā)明實施例統(tǒng)計同一域名下同一路徑的網(wǎng)絡(luò)訪問數(shù)據(jù)中 各參數(shù)名對應(yīng)的參數(shù)值長度,計算參數(shù)值長度分布的均值和標(biāo)準(zhǔn)差作為統(tǒng)計特性參數(shù)。
[0071] 舉例來說,統(tǒng)計路徑a/b下參數(shù)值的長度分布有如表5所示的統(tǒng)計特性。 「00721 丟 Fi
[0074] (5)計算網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值含有的特殊字符在特殊字符模型空間中出現(xiàn)的概 率。
[0075] 預(yù)先構(gòu)建特殊字符模型空間,舉例來說,假設(shè)特殊字符模型空間為:
[0077]計算網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名對應(yīng)的參數(shù)值含有的特殊字符在上述特殊字符模型 空間中出現(xiàn)的概率作為統(tǒng)計特性參數(shù)。
[0078] (6)判定網(wǎng)絡(luò)訪問數(shù)據(jù)中的具有變量參數(shù)值的參數(shù)名是否為枚舉型參數(shù)的參數(shù) 名。
[0079] 枚舉型參數(shù)指的是特定參數(shù)名下的參數(shù)值均來自于一個固定的有限枚舉集,比如 內(nèi)容標(biāo)識或索引。本發(fā)明實施例引入兩個輔助函數(shù):f(x)和g(x),分別定義如下:
[0080] 假設(shè)某路徑下的某一特定參數(shù)名q有η個參數(shù)值(qi,q2, ...,qn),其參數(shù)值均來自 于η條獨立的URI,則:
[0081]
[0082]
[0083] 根據(jù)實際數(shù)據(jù)得到f(x)和g(x),然后計算兩個函數(shù)的相關(guān)系數(shù)P,就可以用以下規(guī) 則來判定某一具有變量參數(shù)值的參數(shù)名是否為枚舉型參數(shù)的參數(shù)名:
[0084] 如果p〈0,則f(x)和g(x)負相關(guān)的,參數(shù)名q的類型為枚舉型;
[0085] 如果P>0,則f(x)和g(x)正相關(guān)的,參數(shù)名q的類型為隨機型;
[0086] 如果p~0,則無法有效判斷參數(shù)名q的類型,為了不增加誤報率,將其作為隨機型 處理。
[0087] 最后,將根據(jù)上述算法判定為枚舉型參數(shù)的參數(shù)名加入到枚舉型參數(shù)列表中。
[0088] (7)計算針對網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值在特定字符區(qū)間內(nèi)包含的字符數(shù)占參數(shù)值長 度的比例的期望值。
[0089] 對于參數(shù)值字符的分布,包含直接字符集分布檢驗和按字符類型聚合后的字符集 分布檢驗兩種情況。其中前者按照單一字符的ASCII碼進行區(qū)間劃分,后者按照字符集類別 進行劃分(類別是按照大寫字母、小寫字母、控制字符、數(shù)字、不可打印字符、超范圍字符等 來區(qū)分)。
[0090] 舉例來說,假設(shè)路徑aa/bb下字符集分布有如表6和表7所示的統(tǒng)計特性。
[0091]表6.直接字符集分布檢驗
[0095] 其中,Xi和yi分別表示對應(yīng)參數(shù)名下,特定字符區(qū)間包含的字符數(shù)占整個參數(shù)值長 度的比例的期望值,則芊
[0096] 通過以上統(tǒng)計的網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的 統(tǒng)計特性模型。
[0097] 步驟S204,從路徑維度、參數(shù)名組合維度、參數(shù)名相對位置維度、參數(shù)值長度分布 維度、特殊字符維度、枚舉型參數(shù)維度、和/或參數(shù)值分布維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條 網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性,生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量。
[0098] 本步驟從不同的維度檢測每條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性,生成新的特征向量用于 最終分類。對單條網(wǎng)絡(luò)訪問數(shù)據(jù)的特定維度進行檢測,獨立生成該特定維度下網(wǎng)絡(luò)訪問數(shù) 據(jù)的正常概率。本步驟所使用的模型參數(shù)均來源于步驟S203得到的統(tǒng)計特性模型。
[0099] 下面分別介紹從不同維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性 的方法。
[0100] (1)從路徑維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性具體為:依 據(jù)網(wǎng)絡(luò)訪問數(shù)據(jù)的分級路徑以及相鄰路徑的頻數(shù),計算網(wǎng)絡(luò)訪問數(shù)據(jù)中路徑部分的正常概 率。
[0101] 具體地,利用自然語言處理的分詞算法計算URI中路徑部分的正常概率,例如可采 用un i gram、B i gram或tr i gram算法,本發(fā)明對此不作限制。針對路徑長度不同所帶來的影 響,采用相應(yīng)的正則化算法進行修正。舉例如下:
[0102] 表8
[0104]其中,P(A|B)依據(jù)條件概率公式和最大似然估計,可得:
[0105]
[0106] 其中Count (A,B)表示路徑B出現(xiàn)在路徑A前面的次數(shù),Count (B)表示路徑B出現(xiàn)的 次數(shù),其具體數(shù)值均可在統(tǒng)計特性模型中的頻數(shù)列表中得到。
[0107] (2)從參數(shù)名組合維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性具體 為:判斷網(wǎng)絡(luò)訪問數(shù)據(jù)中各參數(shù)名組合是否位于對應(yīng)路徑下的參數(shù)名子集池中,若是,則從 參數(shù)名組合維度檢測的行為特性為正常;若否,則從參數(shù)名組合維度檢測的行為特性為異 常。
[0108] 對于參數(shù)名組合異常,若網(wǎng)絡(luò)訪問數(shù)據(jù)中各參數(shù)名組合不在其對應(yīng)路徑的參數(shù)名 子集池中,則被判定為異常,輸出0,否則輸出1。舉例如下:
[0109] 假設(shè)路徑a/b下參數(shù)名子集池為:S= {{x,y},{x,y,z},{z}},其中,Ui,X2, . . .,χη} 表示參數(shù)名X1,X2, . . .,Xn可同時作為一條記錄的參數(shù)名出現(xiàn)。假如有3條輸入數(shù)據(jù)的URI如 表9所示,則得到對應(yīng)的輸出行為特性。
[0110]表9
Lm ?2(3 )從篸數(shù)名相對位置維度粒測IWJ絡(luò)訪InJ數(shù)據(jù)集中谷條IWj絡(luò)訪InJ數(shù)據(jù)的仃為特性 具體為:從網(wǎng)絡(luò)訪問數(shù)據(jù)中抽取參數(shù)名順序,判斷參數(shù)名順序是否位于對應(yīng)路徑下的參數(shù) 名順序集中,若是,則從參數(shù)名相對位置維度檢測的行為特性為異常;若否,則從參數(shù)名相 對位置維度檢測的行為特性為正常。
[0113] 對于參數(shù)名相對位置異常,若參數(shù)名順序集包含從網(wǎng)絡(luò)訪問數(shù)據(jù)中抽取的參數(shù)名 順序,則說明參數(shù)名順序出現(xiàn)了異常情況,輸出0,否則輸出1。舉例如下:
[0114] 假設(shè)路徑a/b下參數(shù)名順序集為:S= {(x,y),(x,z)},其中,如果參數(shù)名順序集S具 有這條記錄(XI,X2),參數(shù)名Xl不能出現(xiàn)在參數(shù)名X2的前面。
[0115] 表 1〇
[0117] (4)從參數(shù)值長度分布維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性 具體為:結(jié)合網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名對應(yīng)的參數(shù)值長度分布的均值和標(biāo)準(zhǔn)差,根據(jù)修正后 的切比雪夫不等式計算網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名對應(yīng)的參數(shù)值長度分布正常的概率。
[0118] 對于參數(shù)值長度分布異常,利用修正后的切比雪夫不等式計算參數(shù)值長度分布的 正常概率。假設(shè)參數(shù)名為^的參數(shù)值長度分布的均值為μ,標(biāo)準(zhǔn)差為 〇(其中均值和標(biāo)準(zhǔn)差來 源于步驟S203得到的統(tǒng)計特性模型)。假設(shè)某條網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名^對應(yīng)的參數(shù)值長 度為h,若則輸出1;否則,根據(jù)修正后的切比雪夫不等式計算該參數(shù)名X 1對應(yīng)的參數(shù) 值長度分布正常的概率P (Xi)作為輸出:
[0119]
[0120] 其中,Ei = Ii-P
[0121] 最后將該條網(wǎng)絡(luò)訪問數(shù)據(jù)中所有參數(shù)值長度分布正常概率的最小值作為輸出。
[0122] 舉例來說,假設(shè)路徑a/b下參數(shù)值的長度分布有如表5所示的統(tǒng)計特性。這條網(wǎng)絡(luò) 訪問數(shù)據(jù)中參數(shù)名對應(yīng)的參數(shù)值長度分布正常的概率的計算方法如表11所示:
[0123] 表11
[0125] (5)從特殊字符維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性具體 為:依據(jù)網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值含有的特殊字符在特殊字符模型空間中出現(xiàn)的概率獲取從 特殊字符維度檢測行為特定為正常的概率。
[0126] 對于一條特定的網(wǎng)絡(luò)訪問數(shù)據(jù),其包含的每一個參數(shù)名的正常概率取其對應(yīng)參數(shù) 值包含的特殊字符在特殊字符模型空間中出現(xiàn)概率的最小值,最終這條網(wǎng)絡(luò)訪問數(shù)據(jù)的正 常概率取其所有參數(shù)名的正常概率的最小值,舉例如下:
[0127] 表12
[0129]其中,假設(shè)路徑a/b下特殊字符的概率統(tǒng)計特征為:(&和71分別表示對應(yīng)參數(shù)名下 特定特殊字符出現(xiàn)的概_
[0132] (6)從枚舉型參數(shù)維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性具體 為:若網(wǎng)絡(luò)訪問數(shù)據(jù)中的參數(shù)名被判定為枚舉型參數(shù)的參數(shù)名,但參數(shù)名對應(yīng)的參數(shù)值出 現(xiàn)不屬于枚舉型參數(shù)集合的情況,則從枚舉型參數(shù)維度檢測的行為特性為異常。
[0133] 對于枚舉型參數(shù)異常,如果參數(shù)名被判定為枚舉型參數(shù)的參數(shù)名,并且對應(yīng)的參 數(shù)值出現(xiàn)不屬于枚舉型參數(shù)集合的情況,則從枚舉型參數(shù)維度檢測的行為特性為異常,輸 出〇,否則輸出1。
[0134] 舉例來說,假設(shè)路徑a/b下枚舉類型的統(tǒng)計特征為:
[0135] 表14
[0140] (7)從參數(shù)值分布維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性具體 為:結(jié)合特定字符區(qū)間出現(xiàn)的概率期望值,利用卡方檢驗的方式計算參數(shù)值字符分布正常 的概率。
[0141] 對于參數(shù)值字符分布異常,分別從兩個維度來考量,分別為直接字符集分布檢驗 維度和按字符類型聚合后的字符集分布檢驗維度。其中前者按照單一字符的ASCII碼進行 區(qū)間劃分,后者按照字符集類別進行劃分(類別是按照大寫字母、小寫字母、控制字符、數(shù) 字、不可打印字符、超范圍字符等來區(qū)分)。結(jié)合參數(shù)值在特定字符區(qū)間內(nèi)包含的字符數(shù)占 參數(shù)值長度的比例的期望值,利用卡方檢驗的方式分別計算兩個維度下參數(shù)值字符分布正 常的概率。
[0142] 以直接字符集分布檢驗為例,假設(shè)URI為a/b?x=123@mm&y = nn#l#2,參數(shù)名X的參 數(shù)值為123@mm,其ASCII碼的頻數(shù)統(tǒng)計為:
[0143] 表16
[0145] 不考慮字符值的因素,將頻數(shù)按大小順序重新排列,得到有序頻數(shù)序列(2,I,I,1, 1,0,0,…,0)。該序列一共256個元素,對應(yīng)的索引分別為(0,1,2. ..,255)。然后按照表17的 劃分方式,將對應(yīng)區(qū)間編號內(nèi)的序列頻數(shù)求和,得到對應(yīng)的區(qū)間分布為:
[0146] 表17
[0149] 將區(qū)間頻數(shù)與對應(yīng)路徑下模型的字符集分布做卡方檢驗(自由度為5),求得P(xx2 5)即為參數(shù)名X所對應(yīng)的字符分布正常的概率。
[0150] 參數(shù)名y的計算過程與上述過程類似,最終參數(shù)值分布正常的概率為兩者的最小 值,即 ηι?η(Λ上2I 5), Λ Z I 5))ι:
[0151] 按字符類型聚合后的字符集分布檢驗與直接字符集分布檢驗的區(qū)別在于區(qū)間劃 分是按照字符值類型劃分的,其它過程與之類似,不再贅述。
[0152] 經(jīng)過以上檢測過程,共得到8個維度的檢測結(jié)果,最終生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)的8 維特征向量。舉例如下:
[0153] 表18
[0155] 其中,X⑴,^4),^5),^7),^ 8)為〇到1之間的浮點數(shù),^2),^3),^6)為〇或1的布爾值。 參數(shù)值分布1為直接字符集分布檢驗結(jié)果,參數(shù)值分布2為按字符類型聚合后的字符集分布 檢驗結(jié)果。
[0156] 最終輸出的8維特征向量為:
[0157] 表19
[0159] 步驟S205,基于訓(xùn)練數(shù)據(jù)集中各條訓(xùn)練數(shù)據(jù)的多維特征向量和各條訓(xùn)練數(shù)據(jù)的實 際類標(biāo)、以及檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的多維特征向量,采用機器學(xué)習(xí)中的分類算法,得 到檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的預(yù)測類標(biāo);其中類標(biāo)表示網(wǎng)絡(luò)訪問數(shù)據(jù)為正常數(shù)據(jù)或異常 數(shù)據(jù)。
[0160] 通過上述步驟可以得到訓(xùn)練數(shù)據(jù)集中各條訓(xùn)練數(shù)據(jù)的多維特征向量以及檢測數(shù) 據(jù)集中各條檢測數(shù)據(jù)的多維特征向量,又由于已知訓(xùn)練數(shù)據(jù)的實際類標(biāo),結(jié)合這些數(shù)據(jù)采 用機器學(xué)習(xí)算法再分類,得到檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的預(yù)測類標(biāo),從而實現(xiàn)對網(wǎng)絡(luò)訪 問記錄的行為特性的綜合評估。
[0161 ]可選地,本實施例所采用的機器學(xué)習(xí)算法可以為決策樹算法或隨機森林算法,本 發(fā)明對此不作限制。
[0162] 具體地,將訓(xùn)練輸入數(shù)據(jù)和檢測輸入數(shù)據(jù)作為輸入,采用機器學(xué)習(xí)算法得到最終 的檢測結(jié)果。
[0163] 其中訓(xùn)練輸入數(shù)據(jù)為:
[0165] 其中,m表示訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)總數(shù);Xa(b)表示訓(xùn)練數(shù)據(jù)集的第a條網(wǎng)絡(luò)訪問數(shù)據(jù) 的第b(l<b<8)維特征值;yk表示第k條網(wǎng)絡(luò)訪問數(shù)據(jù)的實際類標(biāo)(-1代表異常數(shù)據(jù),+ 1代 表正常數(shù)據(jù))。
[0166] 檢測輸入數(shù)據(jù)為:
[0168] 其中,η表示檢測數(shù)據(jù)集的數(shù)據(jù)總數(shù);<b)表示檢測數(shù)據(jù)集的第a條網(wǎng)絡(luò)訪問數(shù)據(jù)的 第b(l<b<8)維特征值。
[0169] 檢測結(jié)果為:
[0171] 其中,η表示檢測數(shù)據(jù)集的數(shù)據(jù)總數(shù);<b)表示檢測數(shù)據(jù)集的第a條網(wǎng)絡(luò)訪問數(shù)據(jù)的 第b(l<b<8)維特征值;苑表示第k條網(wǎng)絡(luò)訪問數(shù)據(jù)的預(yù)測類標(biāo)(-1代表異常數(shù)據(jù),+1代表 正常數(shù)據(jù))。
[0172] 根據(jù)本發(fā)明實施例提供的網(wǎng)絡(luò)異常行為的檢測方法,基于網(wǎng)絡(luò)訪問日志提供的數(shù) 據(jù),構(gòu)建每個特定域名的統(tǒng)計特性模型,從不同維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問 數(shù)據(jù)的行為特性,分別將各個維度的檢測結(jié)果重新映射到訪問記錄的向量空間中,采用機 器學(xué)習(xí)算法再分類,使系統(tǒng)的檢測結(jié)果同時具有較高的準(zhǔn)確率和召回率。本方法將基于無 監(jiān)督學(xué)習(xí)的特征生成技術(shù)和基于有監(jiān)督學(xué)習(xí)的分類技術(shù)相結(jié)合,具有良好的適應(yīng)性,能夠 檢測出多種類型的網(wǎng)絡(luò)入侵行為,具備一定的檢測未知異常模式的能力。
[0173] 圖4示出了根據(jù)本發(fā)明一個實施例的網(wǎng)絡(luò)異常行為的檢測系統(tǒng)的功能結(jié)構(gòu)示意 圖。如圖4所示,該檢測系統(tǒng)包括:數(shù)據(jù)準(zhǔn)備模塊41,統(tǒng)計特性模型構(gòu)建模塊42,多維子系統(tǒng) 43,以及分類模塊44。
[0174] 數(shù)據(jù)準(zhǔn)備模塊41適于從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集,網(wǎng)絡(luò)訪問數(shù)據(jù)集包 含訓(xùn)練數(shù)據(jù)集和檢測數(shù)據(jù)集。
[0175] 統(tǒng)計特性模型構(gòu)建模塊42適于從網(wǎng)絡(luò)訪問數(shù)據(jù)集中提取每個特定域名下的網(wǎng)絡(luò) 訪問數(shù)據(jù),計算網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的統(tǒng)計特性 模型。
[0176] 多維子系統(tǒng)43適于依據(jù)計算得到的統(tǒng)計特征參數(shù),從不同維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù) 集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性,生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量。
[0177] 分類模塊44適于基于訓(xùn)練數(shù)據(jù)集中各條訓(xùn)練數(shù)據(jù)的多維特征向量和各條訓(xùn)練數(shù) 據(jù)的實際類標(biāo)、以及檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的多維特征向量,采用機器學(xué)習(xí)中的分類 算法,得到檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的預(yù)測類標(biāo);其中類標(biāo)表示網(wǎng)絡(luò)訪問數(shù)據(jù)為正常數(shù) 據(jù)或異常數(shù)據(jù)。
[0178] 數(shù)據(jù)準(zhǔn)備模塊41進一步適于:從網(wǎng)絡(luò)訪問日志中獲取各條網(wǎng)絡(luò)訪問數(shù)據(jù),其中每 條網(wǎng)絡(luò)訪問數(shù)據(jù)包括:URI字段和主機域名??蛇x地,每條網(wǎng)絡(luò)訪問數(shù)據(jù)還包括:時間戳、源 IP、源端口、目的IP和/或目的端口。上述指定字段可為URI字段。
[0179] 可選地,檢測系統(tǒng)還包括:預(yù)處理模塊45,適于對錯誤數(shù)據(jù)、缺失數(shù)據(jù)以及重復(fù)數(shù) 據(jù)進行處理;按照不同的主機域名將各條網(wǎng)絡(luò)訪問數(shù)據(jù)進行分類處理。
[0180]統(tǒng)計特性模型構(gòu)建模塊42進一步適于:從訓(xùn)練數(shù)據(jù)集中提取每個特定域名下的網(wǎng) 絡(luò)訪問數(shù)據(jù),計算網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的統(tǒng)計特 性模型。
[0181] 統(tǒng)計特性模型構(gòu)建模塊42進一步適于:統(tǒng)計得到網(wǎng)絡(luò)訪問數(shù)據(jù)的分級路徑以及相 鄰路徑的頻數(shù)。
[0182] 統(tǒng)計特性模型構(gòu)建模塊42進一步適于:針對同一路徑下的每條網(wǎng)絡(luò)訪問數(shù)據(jù),抽 取該條網(wǎng)絡(luò)訪問數(shù)據(jù)的參數(shù)字段出現(xiàn)的所有參數(shù)名,形成該條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的參數(shù)名 子集;將該路徑下各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的參數(shù)名子集匯總,生成該路徑下的參數(shù)名子集 池。
[0183]統(tǒng)計特性模型構(gòu)建模塊42進一步適于:針對同一路徑下的每條網(wǎng)絡(luò)訪問數(shù)據(jù),按 照順序抽取參數(shù)名,構(gòu)造有向圖;遍歷有向圖中節(jié)點之間的所有兩兩組合,判斷節(jié)點之間是 否連通,根據(jù)判斷結(jié)果更新有向圖;根據(jù)有向圖記錄的連通關(guān)系,構(gòu)建參數(shù)名順序集。
[0184] 統(tǒng)計特性模型構(gòu)建模塊42進一步適于:計算網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名對應(yīng)的參數(shù)值 長度分布的均值和標(biāo)準(zhǔn)差。
[0185] 統(tǒng)計特性模型構(gòu)建模塊42進一步適于:計算網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值含有的特殊字 符在特殊字符模型空間中出現(xiàn)的概率。
[0186] 統(tǒng)計特性模型構(gòu)建模塊42進一步適于:判定網(wǎng)絡(luò)訪問數(shù)據(jù)中的具有變量參數(shù)值的 參數(shù)名是否為枚舉型參數(shù)的參數(shù)名。
[0187] 統(tǒng)計特性模型構(gòu)建模塊42進一步適于:計算針對網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值在特定字 符區(qū)間內(nèi)包含的字符數(shù)占參數(shù)值長度的比例的期望值。
[0188] 多維子系統(tǒng)43進一步適于:從路徑維度、參數(shù)名組合維度、參數(shù)名相對位置維度、 參數(shù)值長度分布維度、特殊字符維度、枚舉型參數(shù)維度、和/或參數(shù)值分布維度檢測網(wǎng)絡(luò)訪 問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性,生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量。 [0 189]具體地,多維子系統(tǒng)43包括以下系統(tǒng)中的一個或多個:路徑分析子系統(tǒng)431,參數(shù) 名組合分析子系統(tǒng)432,參數(shù)名相對位置分析子系統(tǒng)433,參數(shù)值長度分布分析子系統(tǒng)434, 特殊字符分析子系統(tǒng)435,枚舉型參數(shù)分析子系統(tǒng)436,以及參數(shù)值分布分析子系統(tǒng)437。
[0190] 路徑分析子系統(tǒng)431適于依據(jù)網(wǎng)絡(luò)訪問數(shù)據(jù)的分級路徑以及相鄰路徑的頻數(shù),計 算網(wǎng)絡(luò)訪問數(shù)據(jù)中路徑部分的正常概率。
[0191] 參數(shù)名組合分析子系統(tǒng)432適于判斷網(wǎng)絡(luò)訪問數(shù)據(jù)中各參數(shù)名組合是否位于對應(yīng) 路徑下的參數(shù)名子集池中,若是,則從參數(shù)名組合維度檢測的行為特性為正常;若否,則從 參數(shù)名組合維度檢測的行為特性為異常。
[0192] 參數(shù)名相對位置分析子系統(tǒng)433適于從網(wǎng)絡(luò)訪問數(shù)據(jù)中抽取參數(shù)名順序,判斷參 數(shù)名順序是否位于對應(yīng)路徑下的參數(shù)名順序集中,若是,則從參數(shù)名相對位置維度檢測的 行為特性為異常;若否,則從參數(shù)名相對位置維度檢測的行為特性為正常。
[0193] 參數(shù)值長度分布分析子系統(tǒng)434適于結(jié)合網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名對應(yīng)的參數(shù)值長 度分布的均值和標(biāo)準(zhǔn)差,根據(jù)修正后的切比雪夫不等式計算網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名對應(yīng)的 參數(shù)值長度分布正常的概率。
[0194] 特殊字符分析子系統(tǒng)435適于根據(jù)網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值含有的特殊字符在特殊 字符模型空間中出現(xiàn)的概率獲取從特殊字符維度檢測行為特定為正常的概率。
[0195] 枚舉型參數(shù)分析子系統(tǒng)436適于若網(wǎng)絡(luò)訪問數(shù)據(jù)中的參數(shù)名被判定為枚舉型參數(shù) 的參數(shù)名,但參數(shù)名對應(yīng)的參數(shù)值出現(xiàn)不屬于枚舉型參數(shù)集合的情況,則從枚舉型參數(shù)維 度檢測的行為特性為異常。
[0196] 參數(shù)值分布分析子系統(tǒng)437適于結(jié)合針對網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值在特定字符區(qū)域 內(nèi)包含的字符數(shù)占參數(shù)值長度的比例的期望值,利用卡方檢驗的方式計算參數(shù)值字符分布 正常的概率。
[0197] 分類模塊44進一步適于:利用決策樹算法和/或隨機森林算法,得到檢測數(shù)據(jù)集中 各條檢測數(shù)據(jù)的預(yù)測類標(biāo)。
[0198] 根據(jù)本發(fā)明實施例提供的網(wǎng)絡(luò)異常行為的檢測系統(tǒng),基于網(wǎng)絡(luò)訪問日志提供的數(shù) 據(jù),構(gòu)建每個特定域名的統(tǒng)計特性模型,從不同維度檢測網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問 數(shù)據(jù)的行為特性,分別將各個維度的檢測結(jié)果重新映射到訪問記錄的向量空間中,采用機 器學(xué)習(xí)算法再分類,使系統(tǒng)的檢測結(jié)果同時具有較高的準(zhǔn)確率和召回率。本系統(tǒng)將基于無 監(jiān)督學(xué)習(xí)的特征生成技術(shù)和基于有監(jiān)督學(xué)習(xí)的分類技術(shù)相結(jié)合,具有良好的適應(yīng)性,能夠 檢測出多種類型的網(wǎng)絡(luò)入侵行為,具備一定的檢測未知異常模式的能力。
[0199] 在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。 各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求 的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種 編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā) 明的最佳實施方式。
[0200]在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施 例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu) 和技術(shù),以便不模糊對本說明書的理解。
[0201]類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在 上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施 例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保 護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面 的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此, 遵循【具體實施方式】的權(quán)利要求書由此明確地并入該【具體實施方式】,其中每個權(quán)利要求本身 都作為本發(fā)明的單獨實施例。
[0202]本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進行自適應(yīng)性地 改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單 元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或 子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何 組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任 何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán) 利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代 替。
[0203]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例 中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的 范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護的實施例的任 意之一都可以以任意的組合方式來使用。
[0204] 本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行 的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實踐中使用 微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的網(wǎng)絡(luò)異常行為的檢測系統(tǒng) 中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的 方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣 的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形 式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形 式提供。
[0205] 應(yīng)該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng) 域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中, 不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞"包含"不排除存在未 列在權(quán)利要求中的元件或步驟。位于元件之前的單詞"一"或"一個"不排除存在多個這樣的 元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機來實 現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項 來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名 稱。
[0206]本發(fā)明公開了 :
[0207] A1、一種網(wǎng)絡(luò)異常行為的檢測方法,其包括:
[0208] 從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集,所述網(wǎng)絡(luò)訪問數(shù)據(jù)集包含訓(xùn)練數(shù)據(jù)集和 檢測數(shù)據(jù)集;
[0209]從所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中提取每個特定域名下的網(wǎng)絡(luò)訪問數(shù)據(jù),計算所述網(wǎng)絡(luò)訪 問數(shù)據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的統(tǒng)計特性模型;
[0210]依據(jù)計算得到的統(tǒng)計特征參數(shù),從不同維度檢測所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò) 訪問數(shù)據(jù)的行為特性,生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量;
[0211] 基于訓(xùn)練數(shù)據(jù)集中各條訓(xùn)練數(shù)據(jù)的多維特征向量和各條訓(xùn)練數(shù)據(jù)的實際類標(biāo)、以 及檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的多維特征向量,采用機器學(xué)習(xí)中的分類算法,得到所述檢 測數(shù)據(jù)集中各條檢測數(shù)據(jù)的預(yù)測類標(biāo);其中類標(biāo)表示網(wǎng)絡(luò)訪問數(shù)據(jù)為正常數(shù)據(jù)或異常數(shù) 據(jù)。
[0212] A2、根據(jù)Al所述的檢測方法,其中,所述從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集進 一步包括:
[0213]從網(wǎng)絡(luò)訪問日志中獲取各條網(wǎng)絡(luò)訪問數(shù)據(jù),其中每條網(wǎng)絡(luò)訪問數(shù)據(jù)包括:URI字段 和主機域名。
[0214] A3、根據(jù)A2所述的檢測方法,其中,所述每條網(wǎng)絡(luò)訪問數(shù)據(jù)還包括:時間戳、源IP、 源端口、目的IP和/或目的端口。
[0215] A4、根據(jù)Al所述的檢測方法,其中,所述從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集之 后,所述方法還包括對所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)進行預(yù)處理,所述預(yù)處理 包括:
[0216] 對錯誤數(shù)據(jù)、缺失數(shù)據(jù)以及重復(fù)數(shù)據(jù)進行處理;
[0217] 按照不同的主機域名將各條網(wǎng)絡(luò)訪問數(shù)據(jù)進行分類處理。
[0218] A5、根據(jù)Al所述的檢測方法,其中,所述從網(wǎng)絡(luò)訪問數(shù)據(jù)集中提取每個特定域名下 的網(wǎng)絡(luò)訪問數(shù)據(jù),計算所述網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名 的統(tǒng)計特性模型進一步包括:
[0219] 從所述訓(xùn)練數(shù)據(jù)集中提取每個特定域名下的網(wǎng)絡(luò)訪問數(shù)據(jù),計算所述網(wǎng)絡(luò)訪問數(shù) 據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的統(tǒng)計特性模型。
[0220] A6、根據(jù)A2所述的檢測方法,其中,所述指定字段為URI字段。
[0221] A7、根據(jù)Al所述的檢測方法,其中,所述計算網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特性 參數(shù)進一步包括:統(tǒng)計得到網(wǎng)絡(luò)訪問數(shù)據(jù)的分級路徑以及相鄰路徑的頻數(shù)。
[0222] A8、根據(jù)Al所述的檢測方法,其中,所述計算網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特性 參數(shù)進一步包括:
[0223] 針對同一路徑下的每條網(wǎng)絡(luò)訪問數(shù)據(jù),抽取該條網(wǎng)絡(luò)訪問數(shù)據(jù)的參數(shù)字段出現(xiàn)的 所有參數(shù)名,形成該條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的參數(shù)名子集;
[0224] 將該路徑下各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的參數(shù)名子集匯總,生成該路徑下的參數(shù)名子 集池。
[0225] A9、根據(jù)Al所述的檢測方法,其中,所述計算網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特性 參數(shù)進一步包括:
[0226] 針對同一路徑下的每條網(wǎng)絡(luò)訪問數(shù)據(jù),按照順序抽取參數(shù)名,構(gòu)造有向圖;
[0227] 遍歷有向圖中節(jié)點之間的所有兩兩組合,判斷節(jié)點之間是否連通,根據(jù)判斷結(jié)果 更新所述有向圖;
[0228] 根據(jù)有向圖記錄的連通關(guān)系,構(gòu)建參數(shù)名順序集。
[0229] A10、根據(jù)Al所述的檢測方法,其中,所述計算網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特 性參數(shù)進一步包括:
[0230] 計算網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名對應(yīng)的參數(shù)值長度分布的均值和標(biāo)準(zhǔn)差。
[0231] All、根據(jù)Al所述的檢測方法,其中,所述計算網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特 性參數(shù)進一步包括:
[0232] 計算網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值含有的特殊字符在特殊字符模型空間中出現(xiàn)的概率。
[0233] A12、根據(jù)Al所述的檢測方法,其中,所述計算網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特 性參數(shù)進一步包括:
[0234] 判定網(wǎng)絡(luò)訪問數(shù)據(jù)中的具有變量參數(shù)值的參數(shù)名是否為枚舉型參數(shù)的參數(shù)名。
[0235] A13、根據(jù)Al所述的檢測方法,其中,所述計算網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特 性參數(shù)進一步包括:
[0236] 計算針對網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值在特定字符區(qū)間內(nèi)包含的字符數(shù)占參數(shù)值長度 的比例的期望值。
[0237] A14、根據(jù)Al所述的檢測方法,其中,所述依據(jù)計算得到的統(tǒng)計特征參數(shù),從不同維 度檢測所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性,生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng) 的多維特征向量進一步包括:
[0238] 從路徑維度、參數(shù)名組合維度、參數(shù)名相對位置維度、參數(shù)值長度分布維度、特殊 字符維度、枚舉型參數(shù)維度、和/或參數(shù)值分布維度檢測所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪 問數(shù)據(jù)的行為特性,生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量。
[0239] A15、根據(jù)A14所述的檢測方法,其中,從路徑維度檢測所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條 網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性進一步包括:
[0240]依據(jù)網(wǎng)絡(luò)訪問數(shù)據(jù)的分級路徑以及相鄰路徑的頻數(shù),計算網(wǎng)絡(luò)訪問數(shù)據(jù)中路徑部 分的正常概率。
[0241] A16、根據(jù)A14所述的檢測方法,其中,從參數(shù)名組合維度檢測所述網(wǎng)絡(luò)訪問數(shù)據(jù)集 中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性進一步包括:
[0242] 判斷網(wǎng)絡(luò)訪問數(shù)據(jù)中各參數(shù)名組合是否位于對應(yīng)路徑下的參數(shù)名子集池中,若 是,則從參數(shù)名組合維度檢測的行為特性為正常;若否,則從參數(shù)名組合維度檢測的行為特 性為異常。
[0243] A17、根據(jù)A14所述的檢測方法,其中,從參數(shù)名相對位置維度檢測所述網(wǎng)絡(luò)訪問數(shù) 據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性進一步包括:
[0244] 從網(wǎng)絡(luò)訪問數(shù)據(jù)中抽取參數(shù)名順序,判斷所述參數(shù)名順序是否位于對應(yīng)路徑下的 參數(shù)名順序集中,若是,則從參數(shù)名相對位置維度檢測的行為特性為異常;若否,則從參數(shù) 名相對位置維度檢測的行為特性為正常。
[0245] A18、根據(jù)A14所述的檢測方法,其中,從參數(shù)值長度分布維度檢測所述網(wǎng)絡(luò)訪問數(shù) 據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性進一步包括:
[0246] 結(jié)合網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名對應(yīng)的參數(shù)值長度分布的均值和標(biāo)準(zhǔn)差,根據(jù)修正后 的切比雪夫不等式計算網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名對應(yīng)的參數(shù)值長度分布正常的概率。
[0247] A19、根據(jù)A14所述的檢測方法,其中,從特殊字符維度檢測所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中 各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性進一步包括:
[0248] 根據(jù)網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值含有的特殊字符在特殊字符模型空間中出現(xiàn)的概率 獲取從特殊字符維度檢測行為特定為正常的概率。
[0249] A20、根據(jù)A14所述的檢測方法,其中,從枚舉型參數(shù)維度檢測所述網(wǎng)絡(luò)訪問數(shù)據(jù)集 中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性進一步包括:
[0250] 若網(wǎng)絡(luò)訪問數(shù)據(jù)中的參數(shù)名被判定為枚舉型參數(shù)的參數(shù)名,但參數(shù)名對應(yīng)的參數(shù) 值出現(xiàn)不屬于枚舉型參數(shù)集合的情況,則從枚舉型參數(shù)維度檢測的行為特性為異常。
[0251] A21、根據(jù)A14所述的檢測方法,其中,從參數(shù)值分布維度檢測所述網(wǎng)絡(luò)訪問數(shù)據(jù)集 中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性進一步包括:
[0252] 結(jié)合針對網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值在特定字符區(qū)域內(nèi)包含的字符數(shù)占參數(shù)值長度 的比例的期望值,利用卡方檢驗的方式計算參數(shù)值字符分布正常的概率。
[0253] A22、根據(jù)Al所述的檢測方法,其中,所述機器學(xué)習(xí)中的分類算法包括決策樹算法 和/或隨機森林算法。
[0254] B23、一種網(wǎng)絡(luò)異常行為的檢測系統(tǒng),其包括:
[0255] 數(shù)據(jù)準(zhǔn)備模塊,適于從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集,所述網(wǎng)絡(luò)訪問數(shù)據(jù) 集包含訓(xùn)練數(shù)據(jù)集和檢測數(shù)據(jù)集;
[0256] 統(tǒng)計特性模型構(gòu)建模塊,適于從所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中提取每個特定域名下的網(wǎng) 絡(luò)訪問數(shù)據(jù),計算所述網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的統(tǒng) 計特性模型;
[0257] 多維子系統(tǒng),適于依據(jù)計算得到的統(tǒng)計特征參數(shù),從不同維度檢測所述網(wǎng)絡(luò)訪問 數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性,生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量;
[0258] 分類模塊,適于基于訓(xùn)練數(shù)據(jù)集中各條訓(xùn)練數(shù)據(jù)的多維特征向量和各條訓(xùn)練數(shù)據(jù) 的實際類標(biāo)、以及檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的多維特征向量,采用機器學(xué)習(xí)中的分類算 法,得到所述檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的預(yù)測類標(biāo);其中類標(biāo)表示網(wǎng)絡(luò)訪問數(shù)據(jù)為正常 數(shù)據(jù)或異常數(shù)據(jù)。
[0259] B24、根據(jù)B23所述的檢測系統(tǒng),其中,所述數(shù)據(jù)準(zhǔn)備模塊進一步適于:從網(wǎng)絡(luò)訪問 日志中獲取各條網(wǎng)絡(luò)訪問數(shù)據(jù),其中每條網(wǎng)絡(luò)訪問數(shù)據(jù)包括:URI字段和主機域名。
[0260] B25、根據(jù)B24所述的檢測系統(tǒng),其中,所述每條網(wǎng)絡(luò)訪問數(shù)據(jù)還包括:時間戳、源 IP、源端口、目的IP和/或目的端口。
[0261] B26、根據(jù)B23所述的檢測系統(tǒng),其中,所述檢測系統(tǒng)還包括:預(yù)處理模塊,適于對錯 誤數(shù)據(jù)、缺失數(shù)據(jù)以及重復(fù)數(shù)據(jù)進行處理;按照不同的主機域名將各條網(wǎng)絡(luò)訪問數(shù)據(jù)進行 分類處理。
[0262] B27、根據(jù)B23所述的檢測系統(tǒng),其中,所述統(tǒng)計特性模型構(gòu)建模塊進一步適于:從 所述訓(xùn)練數(shù)據(jù)集中提取每個特定域名下的網(wǎng)絡(luò)訪問數(shù)據(jù),計算所述網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字 段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的統(tǒng)計特性模型。
[0263] B28、根據(jù)B24所述的檢測系統(tǒng),其中,所述指定字段為URI字段。
[0264] B29、根據(jù)B23所述的檢測系統(tǒng),其中,所述統(tǒng)計特性模型構(gòu)建模塊進一步適于:統(tǒng) 計得到網(wǎng)絡(luò)訪問數(shù)據(jù)的分級路徑以及相鄰路徑的頻數(shù)。
[0265] B30、根據(jù)B23所述的檢測系統(tǒng),其中,所述統(tǒng)計特性模型構(gòu)建模塊進一步適于:針 對同一路徑下的每條網(wǎng)絡(luò)訪問數(shù)據(jù),抽取該條網(wǎng)絡(luò)訪問數(shù)據(jù)的參數(shù)字段出現(xiàn)的所有參數(shù) 名,形成該條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的參數(shù)名子集;將該路徑下各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的參數(shù) 名子集匯總,生成該路徑下的參數(shù)名子集池。
[0266] B31、根據(jù)B23所述的檢測系統(tǒng),其中,所述統(tǒng)計特性模型構(gòu)建模塊進一步適于:
[0267]針對同一路徑下的每條網(wǎng)絡(luò)訪問數(shù)據(jù),按照順序抽取參數(shù)名,構(gòu)造有向圖;
[0268] 遍歷有向圖中節(jié)點之間的所有兩兩組合,判斷節(jié)點之間是否連通,根據(jù)判斷結(jié)果 更新所述有向圖;
[0269] 根據(jù)有向圖記錄的連通關(guān)系,構(gòu)建參數(shù)名順序集。
[0270] B32、根據(jù)B23所述的檢測系統(tǒng),其中,所述統(tǒng)計特性模型構(gòu)建模塊進一步適于:計 算網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名對應(yīng)的參數(shù)值長度分布的均值和標(biāo)準(zhǔn)差。
[0271] B33、根據(jù)B23所述的檢測系統(tǒng),其中,所述統(tǒng)計特性模型構(gòu)建模塊進一步適于:計 算網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值含有的特殊字符在特殊字符模型空間中出現(xiàn)的概率。
[0272] B34、根據(jù)B23所述的檢測系統(tǒng),其中,所述統(tǒng)計特性模型構(gòu)建模塊進一步適于:判 定網(wǎng)絡(luò)訪問數(shù)據(jù)中的具有變量參數(shù)值的參數(shù)名是否為枚舉型參數(shù)的參數(shù)名。
[0273] B35、根據(jù)B23所述的檢測系統(tǒng),其中,所述統(tǒng)計特性模型構(gòu)建模塊進一步適于:計 算針對網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值在特定字符區(qū)間內(nèi)包含的字符數(shù)占參數(shù)值長度的比例的期 望值。
[0274] B36、根據(jù)B23所述的檢測系統(tǒng),其中,所述多維子系統(tǒng)進一步適于:從路徑維度、參 數(shù)名組合維度、參數(shù)名相對位置維度、參數(shù)值長度分布維度、特殊字符維度、枚舉型參數(shù)維 度、和/或參數(shù)值分布維度檢測所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性,生成 各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量。
[0275] B37、根據(jù)B23所述的檢測系統(tǒng),其中,所述多維子系統(tǒng)包括:路徑分析子系統(tǒng),適于 依據(jù)網(wǎng)絡(luò)訪問數(shù)據(jù)的分級路徑以及相鄰路徑的頻數(shù),計算網(wǎng)絡(luò)訪問數(shù)據(jù)中路徑部分的正常 概率。
[0276] B38、根據(jù)B23所述的檢測系統(tǒng),其中,所述多維子系統(tǒng)包括:參數(shù)名組合分析子系 統(tǒng),適于判斷網(wǎng)絡(luò)訪問數(shù)據(jù)中各參數(shù)名組合是否位于對應(yīng)路徑下的參數(shù)名子集池中,若是, 則從參數(shù)名組合維度檢測的行為特性為正常;若否,則從參數(shù)名組合維度檢測的行為特性 為異常。
[0277] B39、根據(jù)B23所述的檢測系統(tǒng),其中,所述多維子系統(tǒng)包括:參數(shù)名相對位置分析 子系統(tǒng),適于從網(wǎng)絡(luò)訪問數(shù)據(jù)中抽取參數(shù)名順序,判斷所述參數(shù)名順序是否位于對應(yīng)路徑 下的參數(shù)名順序集中,若是,則從參數(shù)名相對位置維度檢測的行為特性為異常;若否,則從 參數(shù)名相對位置維度檢測的行為特性為正常。
[0278] B40、根據(jù)B23所述的檢測系統(tǒng),其中,所述多維子系統(tǒng)包括:參數(shù)值長度分布分析 子系統(tǒng),適于結(jié)合網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名對應(yīng)的參數(shù)值長度分布的均值和標(biāo)準(zhǔn)差,根據(jù)修 正后的切比雪夫不等式計算網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)名對應(yīng)的參數(shù)值長度分布正常的概率。
[0279] B41、根據(jù)B23所述的檢測系統(tǒng),其中,所述多維子系統(tǒng)包括:特殊字符分析子系統(tǒng), 適于根據(jù)網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值含有的特殊字符在特殊字符模型空間中出現(xiàn)的概率獲取 從特殊字符維度檢測行為特定為正常的概率。
[0280] B42、根據(jù)B23所述的檢測系統(tǒng),其中,所述多維子系統(tǒng)包括:枚舉型參數(shù)分析子系 統(tǒng),適于若網(wǎng)絡(luò)訪問數(shù)據(jù)中的參數(shù)名被判定為枚舉型參數(shù)的參數(shù)名,但參數(shù)名對應(yīng)的參數(shù) 值出現(xiàn)不屬于枚舉型參數(shù)集合的情況,則從枚舉型參數(shù)維度檢測的行為特性為異常。
[0281] B43、根據(jù)B23所述的檢測系統(tǒng),其中,所述多維子系統(tǒng)包括:參數(shù)值分布分析子系 統(tǒng),適于結(jié)合針對網(wǎng)絡(luò)訪問數(shù)據(jù)中參數(shù)值在特定字符區(qū)域內(nèi)包含的字符數(shù)占參數(shù)值長度的 比例的期望值,利用卡方檢驗的方式計算參數(shù)值字符分布正常的概率。
[0282] B44、根據(jù)B23所述的檢測系統(tǒng),其中,所述分類模塊進一步適于:利用決策樹算法 和/或隨機森林算法,得到所述檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的預(yù)測類標(biāo)。
【主權(quán)項】
1. 一種網(wǎng)絡(luò)異常行為的檢測方法,其包括: 從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集,所述網(wǎng)絡(luò)訪問數(shù)據(jù)集包含訓(xùn)練數(shù)據(jù)集和檢測 數(shù)據(jù)集; 從所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中提取每個特定域名下的網(wǎng)絡(luò)訪問數(shù)據(jù),計算所述網(wǎng)絡(luò)訪問數(shù) 據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的統(tǒng)計特性模型; 依據(jù)計算得到的統(tǒng)計特征參數(shù),從不同維度檢測所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問 數(shù)據(jù)的行為特性,生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量; 基于訓(xùn)練數(shù)據(jù)集中各條訓(xùn)練數(shù)據(jù)的多維特征向量和各條訓(xùn)練數(shù)據(jù)的實際類標(biāo)、以及檢 測數(shù)據(jù)集中各條檢測數(shù)據(jù)的多維特征向量,采用機器學(xué)習(xí)中的分類算法,得到所述檢測數(shù) 據(jù)集中各條檢測數(shù)據(jù)的預(yù)測類標(biāo);其中類標(biāo)表示網(wǎng)絡(luò)訪問數(shù)據(jù)為正常數(shù)據(jù)或異常數(shù)據(jù)。2. 根據(jù)權(quán)利要求1所述的檢測方法,其中,所述從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集 進一步包括: 從網(wǎng)絡(luò)訪問日志中獲取各條網(wǎng)絡(luò)訪問數(shù)據(jù),其中每條網(wǎng)絡(luò)訪問數(shù)據(jù)包括:URI字段和主 機域名。3. 根據(jù)權(quán)利要求2所述的檢測方法,其中,所述每條網(wǎng)絡(luò)訪問數(shù)據(jù)還包括:時間戳、源 IP、源端口、目的IP和/或目的端口。4. 根據(jù)權(quán)利要求1所述的檢測方法,其中,所述從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集 之后,所述方法還包括對所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)進行預(yù)處理,所述預(yù)處 理包括: 對錯誤數(shù)據(jù)、缺失數(shù)據(jù)以及重復(fù)數(shù)據(jù)進行處理; 按照不同的主機域名將各條網(wǎng)絡(luò)訪問數(shù)據(jù)進行分類處理。5. 根據(jù)權(quán)利要求1所述的檢測方法,其中,所述從網(wǎng)絡(luò)訪問數(shù)據(jù)集中提取每個特定域名 下的網(wǎng)絡(luò)訪問數(shù)據(jù),計算所述網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域 名的統(tǒng)計特性模型進一步包括: 從所述訓(xùn)練數(shù)據(jù)集中提取每個特定域名下的網(wǎng)絡(luò)訪問數(shù)據(jù),計算所述網(wǎng)絡(luò)訪問數(shù)據(jù)中 指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的統(tǒng)計特性模型。6. 根據(jù)權(quán)利要求2所述的檢測方法,其中,所述指定字段為URI字段。7. 根據(jù)權(quán)利要求1所述的檢測方法,其中,所述計算網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特 性參數(shù)進一步包括:統(tǒng)計得到網(wǎng)絡(luò)訪問數(shù)據(jù)的分級路徑以及相鄰路徑的頻數(shù)。8. 根據(jù)權(quán)利要求1所述的檢測方法,其中,所述計算網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特 性參數(shù)進一步包括: 針對同一路徑下的每條網(wǎng)絡(luò)訪問數(shù)據(jù),抽取該條網(wǎng)絡(luò)訪問數(shù)據(jù)的參數(shù)字段出現(xiàn)的所有 參數(shù)名,形成該條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的參數(shù)名子集; 將該路徑下各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的參數(shù)名子集匯總,生成該路徑下的參數(shù)名子集 池。9. 根據(jù)權(quán)利要求1所述的檢測方法,其中,所述計算網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特 性參數(shù)進一步包括: 針對同一路徑下的每條網(wǎng)絡(luò)訪問數(shù)據(jù),按照順序抽取參數(shù)名,構(gòu)造有向圖; 遍歷有向圖中節(jié)點之間的所有兩兩組合,判斷節(jié)點之間是否連通,根據(jù)判斷結(jié)果更新 所述有向圖; 根據(jù)有向圖記錄的連通關(guān)系,構(gòu)建參數(shù)名順序集。10. -種網(wǎng)絡(luò)異常行為的檢測系統(tǒng),其包括: 數(shù)據(jù)準(zhǔn)備模塊,適于從網(wǎng)絡(luò)訪問日志中獲取網(wǎng)絡(luò)訪問數(shù)據(jù)集,所述網(wǎng)絡(luò)訪問數(shù)據(jù)集包 含訓(xùn)練數(shù)據(jù)集和檢測數(shù)據(jù)集; 統(tǒng)計特性模型構(gòu)建模塊,適于從所述網(wǎng)絡(luò)訪問數(shù)據(jù)集中提取每個特定域名下的網(wǎng)絡(luò)訪 問數(shù)據(jù),計算所述網(wǎng)絡(luò)訪問數(shù)據(jù)中指定字段的統(tǒng)計特性參數(shù),構(gòu)建每個特定域名的統(tǒng)計特 性模型; 多維子系統(tǒng),適于依據(jù)計算得到的統(tǒng)計特征參數(shù),從不同維度檢測所述網(wǎng)絡(luò)訪問數(shù)據(jù) 集中各條網(wǎng)絡(luò)訪問數(shù)據(jù)的行為特性,生成各條網(wǎng)絡(luò)訪問數(shù)據(jù)對應(yīng)的多維特征向量; 分類模塊,適于基于訓(xùn)練數(shù)據(jù)集中各條訓(xùn)練數(shù)據(jù)的多維特征向量和各條訓(xùn)練數(shù)據(jù)的實 際類標(biāo)、以及檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的多維特征向量,采用機器學(xué)習(xí)中的分類算法,得 到所述檢測數(shù)據(jù)集中各條檢測數(shù)據(jù)的預(yù)測類標(biāo);其中類標(biāo)表示網(wǎng)絡(luò)訪問數(shù)據(jù)為正常數(shù)據(jù)或 異常數(shù)據(jù)。
【文檔編號】H04L12/24GK105915555SQ201610500130
【公開日】2016年8月31日
【申請日】2016年6月29日
【發(fā)明人】李嘉偉, 王占, 王占一
【申請人】北京奇虎科技有限公司, 北京奇安信科技有限公司