一種網(wǎng)絡(luò)高維大數(shù)據(jù)異常入侵的檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種網(wǎng)絡(luò)數(shù)據(jù)異常檢測方法,具體涉及網(wǎng)絡(luò)高維大數(shù)據(jù)異常入侵的檢 測方法。
【背景技術(shù)】
[0002] 近年來網(wǎng)絡(luò)發(fā)展日新月異,從網(wǎng)絡(luò)流量異常檢測中可以檢測到惡意的網(wǎng)絡(luò)入侵, 而來自于網(wǎng)絡(luò)的數(shù)據(jù)規(guī)模越來越大,一個被入侵的計算機網(wǎng)絡(luò)將威脅到網(wǎng)絡(luò)的穩(wěn)定和安 全,甚至導(dǎo)致私人信息和財產(chǎn)的丟失。為了保證網(wǎng)絡(luò)的安全,目前用于檢測網(wǎng)絡(luò)異常入侵所 的方法主要有兩類,分別為誤用檢測方法和異常檢測方法。誤用檢測方法是從流數(shù)據(jù)中提 取特征并與已知的簽名、模式或者規(guī)格做比較,如果某個特征違反了一個或者多個簽名,這 個入侵就會被發(fā)現(xiàn),這種誤用檢測方法是由該領(lǐng)域的專家提出的,在檢測已知入侵類型的 方法中相對簡單和準(zhǔn)確,但是,由于該領(lǐng)域?qū)<业闹R的有限性,誤用檢測方法不能有效的 檢測當(dāng)前的未知的入侵。相反,異常檢測方法建立了模型和正常數(shù)據(jù)的配置文件,并認為 明顯偏離模型和正常數(shù)據(jù)的配置文件即為入侵,可以有效的檢測新的入侵,然而,異常檢測 方法通常具有較高的錯誤率,并且大部分沒有相關(guān)錯誤處理機制,從而完全的依賴于人類 (安全專家)去進一步的檢測異常,因此異常檢測方法容易產(chǎn)生錯誤和需要浪費時間去進 一步辨別。
[0003] 異常檢測方法非常類似于異常點檢測方法,因此,近年來,所提出的利用異常值檢 測的方法大部分都解決了異常檢測的問題,但大多數(shù)常規(guī)的異常值/奇異點檢測方法只能 夠檢測出相對低維和靜態(tài)數(shù)據(jù)集(沒有頻域變化的數(shù)據(jù))中的異常,在處理高維數(shù)據(jù)和數(shù) 據(jù)流的異常檢測時由于對這兩個活躍的交互領(lǐng)域缺乏實質(zhì)性的研宄工作,導(dǎo)致不能有效的 處理大的網(wǎng)絡(luò)原始數(shù)據(jù)。在高維空間中關(guān)于子空間異常值檢測方法,利用估計異常的測量 方法并不能實時更新,導(dǎo)致他們無法處理快速的數(shù)據(jù)流,在數(shù)據(jù)流中檢測異常的技術(shù)依賴 于完整的數(shù)據(jù)空間,同時這些技術(shù)不能發(fā)現(xiàn)子空間的異常,也就不能實現(xiàn)對網(wǎng)絡(luò)高維大數(shù) 據(jù)進行異常檢測。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明旨在至少在一定程度上解決現(xiàn)有網(wǎng)絡(luò)異常檢測方法不能適應(yīng)網(wǎng)絡(luò)高維大 數(shù)據(jù)異常入侵的異常檢測的問題。為此,本發(fā)明的一個目的在于提出一種網(wǎng)絡(luò)高維大數(shù)據(jù) 異常入侵的檢測方法,針對網(wǎng)絡(luò)數(shù)據(jù)量大,維數(shù)升高,使得數(shù)據(jù)之間的相關(guān)性減小的情況下 也能進一步提升網(wǎng)絡(luò)異常入侵的檢測效率和準(zhǔn)確率。
[0005] 為達到上述目的,本發(fā)明提出了一種網(wǎng)絡(luò)高維大數(shù)據(jù)異常入侵的檢測方法,所述 種網(wǎng)絡(luò)高維大數(shù)據(jù)異常入侵的檢測方法包括學(xué)習(xí)階段和檢測階段,其中學(xué)習(xí)階段首先建立 一個包括有固定的SST子空間(FS)、無監(jiān)督的SST子空間(US)、有監(jiān)督的SST子空間(SS) 的SST空間,每一個網(wǎng)絡(luò)數(shù)據(jù)到來后,為了捕獲到新到達數(shù)據(jù)的信息,數(shù)據(jù)所屬于的每個 SST子空間的概要PCS將會被更新,如果細胞的PCS屬于至少一個預(yù)定義閾值的SST子空 間,則判定這些子空間是異常的離群子空間,最后將異常的細胞的PCS值和包括異常的離 群子空間的全部或特定數(shù)量的異常值反饋給用戶。
[0006] 本發(fā)明提供的網(wǎng)絡(luò)高維大數(shù)據(jù)異常入侵的檢測方法中的學(xué)習(xí)階段包括首先建立 一個包括有固定的SST子空間(FS)、無監(jiān)督的SST子空間(US)、有監(jiān)督的SST子空間(SS) 的SST空間,從而形成了檢測數(shù)據(jù)的異常點的多重準(zhǔn)則,且每一個網(wǎng)絡(luò)數(shù)據(jù)到來后數(shù)據(jù)所 屬于的每個SST子空間的概要PCS將會被更新,最后將異常的細胞的PCS值和包括異常的 離群子空間的全部或特定數(shù)量的異常值反饋給用戶且反饋至SST空間,使得SST空間在持 續(xù)更新異常點數(shù)據(jù),因此能夠快速的發(fā)現(xiàn)子空間的各種新的異常,達到自適應(yīng)處理高維網(wǎng) 絡(luò)數(shù)據(jù)異常檢測的目的。
[0007] 進一步的,建立一個包括有固定的SST子空間(FS)、無監(jiān)督的SST子空間(US)、有 監(jiān)督的SST子空間(SS)的SST空間的過程包括
[0008] S1 :組建固定的SST子空間(FS),固定的SST子空間(FS)包含在滿的晶格中由用 戶指定的參數(shù)約束的所有子空間,F(xiàn)S滿足
[0009] S2 :離線學(xué)習(xí)構(gòu)建無監(jiān)督的SST子空間(US)過程,首先向一組歷史數(shù)據(jù)中輸入 未標(biāo)記的訓(xùn)練數(shù)據(jù),所有的訓(xùn)練數(shù)據(jù)被掃描并被唯一的指定在超立方體的一個細胞中, 超立方體中的各個已占有統(tǒng)計信息的細胞在數(shù)據(jù)分配過程其數(shù)據(jù)將會被保持,當(dāng)所有 的訓(xùn)練數(shù)據(jù)映射到相應(yīng)的細胞中后,采用多目標(biāo)遺傳算法(M0GA)從訓(xùn)練數(shù)據(jù)集中找到 子空間中更高數(shù)目的異常,這些子空間將被添加到初始的US中;在獲得最初的US后, 再進一步獲得更多有用的子空間,并在訓(xùn)練數(shù)據(jù)中找到最無關(guān)的子空間,其中訓(xùn)練數(shù) 據(jù)的整體無關(guān)程度在無監(jiān)督方式下采用聚類分析方法獲得,定義通過多目標(biāo)遺傳算法 (M0GA)所獲得整體訓(xùn)練數(shù)據(jù)的最稀少的子空間中兩個點的距離為無關(guān)的距離(0D),則
,式中m是M0GA返回的最稀少子空間的數(shù)目七是返回該集 合的子空間,Pl、P2為子空間的兩個點;
[0010] S3:監(jiān)督的SST子空間(SS)是指在一些應(yīng)用中,一些小數(shù)量的異常可以由該領(lǐng)域 專家或早期的檢測方法中獲得,包括采用多目標(biāo)遺傳算法(M0GA)應(yīng)用到每一個這些異常 的例子,找到最稀疏的子空間,這些子空間被定義為監(jiān)督的SST子空間(SS),這些異常的例 子可以被視為該領(lǐng)域的知識,可以有效的改進SST空間使其能更好的檢測。
[0011] 進一步的,所述的細胞的PCS屬于至少一個預(yù)定義閾值的SST子空間的所述細胞 的PCS為異常點,則進一步通過多目標(biāo)遺傳算法搜索存在所述異常點的SST子空間。
[0012] 進一步的,所述網(wǎng)絡(luò)高維大數(shù)據(jù)異常入侵的檢測方法是通過多目標(biāo)遺傳算法搜索 SST子空間中的RD、IRSD、IKRD,并在多代和每一代產(chǎn)生包含多個個體的一個種群(即子空 間)進行子空間搜索。
[0013] 進一步的,所述子空間的第一代的子空間為隨機產(chǎn)生,而隨后的多代子空間是利 用交叉和變異搜索算子在他們上一代的子空間中產(chǎn)生,每一代子空間的個數(shù)定位在目標(biāo)函 數(shù)空間的不同權(quán)衡表面,將位于最佳子空間的表面定義為ParetoFront,則將逐步產(chǎn)生越 來越多的位于ParetoFront的從非最優(yōu)子空間變化而來的最優(yōu)子空間。
[0014] 進一步的,所述聚類分析方法為固定寬度的聚集方法,首先數(shù)據(jù)集中已經(jīng)聚集的 每個點P將會被分配到C'簇中,即OD(p,c' ) <d。,Vc,c',〇D(p,c')彡OD(p, Ci),這樣cQ與已有m點的質(zhì)心將在p的集群分配中更新,
[0016] 如果Vc,.,有〇D(p,Ci)彡d。,然后一個新的簇形成,并且P成為這個簇的新質(zhì)心;如 此重復(fù)形成新的族,直到所述所有數(shù)據(jù)集中的數(shù)據(jù)被聚集。
[0017] 進一步的,所述反饋的異常值也被相關(guān)性反饋到SST空間的SST無監(jiān)督子空間 (US),并在SST無監(jiān)督子空間(US)內(nèi)合并相關(guān)性反饋產(chǎn)生新的子空間,實現(xiàn)SST空間的動 態(tài)更新。
[0018] 進一步的,所述合并相關(guān)性反饋過程為首先是將每個在SST中的子空間設(shè)置權(quán)重 為1 ;當(dāng)SST中的子空間是正確離群子空間的時候權(quán)重增加,當(dāng)SST中的子空間是錯誤信息 的離群子空間的時候權(quán)重將減少;每次經(jīng)過特定數(shù)量的網(wǎng)絡(luò)數(shù)據(jù)處理,在SST中的子空間 的權(quán)重將低于從SST得到的調(diào)整權(quán)重閾值;產(chǎn)生的新的子空間的權(quán)重將高于閾值。
[0019] 本發(fā)明提供的網(wǎng)絡(luò)高維大數(shù)據(jù)異常入侵的檢測方法利用多重準(zhǔn)則來檢測數(shù)據(jù)的 異常點,并利用多目標(biāo)遺傳算法搜索存在異常值的子空間,實現(xiàn)多重準(zhǔn)則的在線更新,能夠 處理網(wǎng)絡(luò)環(huán)境中的高維數(shù)據(jù)問題,且能有效的搜索子空間從而檢測到子空間的異常,能夠 利用動態(tài)子空間集適應(yīng)數(shù)據(jù)的動力特性,加快檢測的過程,降低檢測結(jié)果的錯誤率。
【附圖說明】
[0020] 圖1是本發(fā)明網(wǎng)絡(luò)高維大數(shù)據(jù)異常入侵的檢測方法的流程示意圖;
【具體實施方式】
[0021] 下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0022] 下面參考附圖來描述本發(fā)明實施例提出的網(wǎng)絡(luò)高維大數(shù)據(jù)異常入侵的檢測方法, 如圖1所示,網(wǎng)絡(luò)高維大數(shù)據(jù)異常入侵的檢測方法包括學(xué)習(xí)階段和檢測階段,其中學(xué)習(xí)階 段包括首先建立一個包括有固定的SST子空間(FS)、無監(jiān)督的SST子空間(US)、有監(jiān)督的 SST子空間(SS)的S