一種基于特征選擇的入侵檢測方法
【專利摘要】本發(fā)明涉及一種基于特征選擇的入侵檢測方法,首先對原始數(shù)據(jù)進(jìn)行離散化處理,將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇,對特征選擇之后的數(shù)據(jù)進(jìn)行歸一化處理,將歸一化處理之后的數(shù)據(jù)導(dǎo)入分類器進(jìn)行訓(xùn)練。本發(fā)明能夠在訓(xùn)練模型的時(shí)間和準(zhǔn)確率上都有提升。
【專利說明】
一種基于特征選擇的入侵檢測方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別是一種基于特征選擇的入侵檢測方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)時(shí)代的發(fā)展,數(shù)據(jù)的連接和流量也越來越大.對于計(jì)算機(jī)和設(shè)備來說, 隨之而來的惡意入侵的威脅也日益增加.所以建立一個(gè)網(wǎng)絡(luò)入侵檢測系統(tǒng)也越發(fā)重要。入 侵檢測是一種通過收集和分析被保護(hù)系統(tǒng)信息,從而發(fā)現(xiàn)入侵的技術(shù).由于入侵檢測需要 對數(shù)據(jù)進(jìn)行實(shí)時(shí)的、準(zhǔn)確地處理,預(yù)測此條數(shù)據(jù)是否為威脅信息,所以如何做到對數(shù)據(jù)的及 時(shí)、準(zhǔn)確的預(yù)測就成為了一個(gè)難題。以往的入侵檢測系統(tǒng)采用模式匹配的辦法,即人工的對 各個(gè)入侵模式建立規(guī)則,通過if?一else語句進(jìn)行判斷,但是此方法工作量法,準(zhǔn)確率也不 高,最重要的是當(dāng)一個(gè)新類型的攻擊模式出現(xiàn)時(shí),系統(tǒng)無法防御。
[0003] 近年來將機(jī)器學(xué)習(xí)的方法加入到入侵檢測系統(tǒng)中來已是一個(gè)趨勢。目前,神經(jīng)網(wǎng) 絡(luò),支持向量機(jī),樸素貝葉斯,決策樹等機(jī)器學(xué)習(xí)方法都被運(yùn)用到了入侵檢測中來。首先對 收集到的特征進(jìn)行數(shù)據(jù)的預(yù)處理,然后用這些與處理過的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),生成分類器. 當(dāng)一個(gè)實(shí)時(shí)數(shù)據(jù)通過系統(tǒng)時(shí),系統(tǒng)可以通過分類器預(yù)測出此條記錄是否為入侵記錄,若被 判定為威脅,系統(tǒng)自動(dòng)阻止入侵,若為正常,則讓其通過.對于一個(gè)入侵檢測系統(tǒng)來說,檢測 入侵的準(zhǔn)確率,發(fā)現(xiàn)入侵的速度等這些都是至關(guān)重要的因素.但是現(xiàn)在主流的機(jī)器學(xué)習(xí)方 法存在著準(zhǔn)確率只能達(dá)到95%左右,并且訓(xùn)練時(shí)間過長,無法對冗余的數(shù)據(jù)進(jìn)行處理等問 題。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明的目的是提出一種基于特征選擇的入侵檢測方法,在訓(xùn)練模型 的時(shí)間和準(zhǔn)確率上都有提升。
[0005] 本發(fā)明采用以下方案實(shí)現(xiàn):一種基于特征選擇的入侵檢測方法,首先對原始數(shù)據(jù) 進(jìn)行離散化處理,將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇,對特征選擇之后的數(shù)據(jù)進(jìn)行歸 一化處理,將歸一化處理之后的數(shù)據(jù)導(dǎo)入分類器進(jìn)行訓(xùn)練。
[0006] 進(jìn)一步地,所述離散化處理采用熵最小化離散法(EMD),首先將待劃分的屬性連續(xù) 值按次序排列,然后取每一對相連數(shù)值的中點(diǎn)作為斷點(diǎn)候選集,通過循環(huán)評估候選集中的 每個(gè)斷點(diǎn),數(shù)據(jù)被劃分成了兩部分,并且分類結(jié)果的信息熵也被計(jì)算出來了,然后選擇那個(gè) 使熵最小的斷點(diǎn)加入斷點(diǎn)集中;通過一個(gè)最小描述長度來規(guī)定所述熵最小化離散化的停止 時(shí)間。
[0007] 進(jìn)一步地,所述離散化處理也可采用比例K時(shí)間間隔離散法(PKID),通過調(diào)整離散 的間隔大小和數(shù)量找到一個(gè)間隔尺度與所期望的準(zhǔn)確率之間的一個(gè)權(quán)衡,將該權(quán)衡作為離 散化偏差和發(fā)差之間的衡量標(biāo)準(zhǔn)。
[0008] 進(jìn)一步地,所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇,采用的是基于關(guān)聯(lián)的特 征選擇方法(CFS);通過一評估函數(shù)忽略對于分類影響小的特征,所述評估函數(shù)如下:
[0010] 其中,Ms為包含k個(gè)特征的子集S的啟發(fā)式價(jià)值,是特征與類別聯(lián)系強(qiáng)度的平均 值,rff是特征與特征之間的聯(lián)系強(qiáng)度的平均值;
[0011] 進(jìn)一步地,所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇,采用的是基于一致性的 過濾器方法(CONS),通過比較訓(xùn)練樣本被投射到特征子集的一致性水平來選取特征;在每 一輪中從特征數(shù)中隨機(jī)產(chǎn)生一個(gè)子集S,如果子集S中特征數(shù)目少于當(dāng)前最好的特征子集中 的特征數(shù)目,接著計(jì)算S中的不一致標(biāo)準(zhǔn),若不一致率低于預(yù)設(shè)的值,那么S就成了最好的特 征子集。
[0012]進(jìn)一步地,所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇,采用的是INTERACT方法, 所述INTERACT方法為基于對稱不確定性SU的算法;首先通過特征自己的對稱不確定性 序排列,然后從這些特征序列最后開始,逐個(gè)評估特征,若某個(gè)特征的一致性貢獻(xiàn)低于閾 值,就移除該特征,否則采用該特征;所述對稱不確定性SU是描述兩個(gè)特征x,y之間信息收 益IG和熵H比值的度量,公式如下:
[0015] 進(jìn)一步地,所述歸一化處理采用離差歸一化(N0R),公式如下:
[0017]其中,max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。
[0018]進(jìn)一步地,所述分類器采用樸素貝葉斯分類器(Navie Bayes):設(shè)D是具有有限數(shù) 量實(shí)例的訓(xùn)練集,A= {心,A2,…,An}是n個(gè)有限的屬性,一個(gè)實(shí)例dGD用向量(ai,a 2,"_an)來 描述,其中ai是屬性Ai的當(dāng)前取值,類別屬性用C表示,函數(shù)domUO取得屬性六:的定義域集 合;當(dāng)= arg | c)成立時(shí),即預(yù)測實(shí)例d的類別是在屬性給定條件 下后驗(yàn)概率最大的類別,預(yù)測的正確性最大;引入假設(shè):在給定類別C的條件下,所有的屬性 Ai相互獨(dú)立:P(Ai | c,Aj)=p(Ai | c),'^4.4」4(〇>0,采用下式計(jì)算在給定屬性值的情況下 類別的后驗(yàn)概率: n
[0019] P(C - e\Ai- ax - a2 5 * * ? An ~ an) = arg max Pi c) I-[ P( .4. | G = c) 0
[0020] 進(jìn)一步地,所述分類器采用支持向量機(jī)分類器(SVM),采用分類函數(shù):
[0021] fix) = sign(Y,yia.K{xrx)+h);:
[0022]其中,1表示訓(xùn)練樣本的數(shù)目,x表示待分類實(shí)例的向量,Xl,yi表示第i個(gè)訓(xùn)練樣本 的屬性向量和類別標(biāo)識,K( xi,x)表示核函數(shù),ai和b表示模型參數(shù),通過計(jì)算如下一個(gè)二次 規(guī)劃問題求解參數(shù)ai:
[0024] s.t'y,aiyi = 0,0 < at < CJ = !.???,/ ; z::l
[0025] 設(shè)二分類模型為:
[0026] g(x) = 〇*x+b;
[0027]設(shè)置二分類模型的閾值為0,得到: (〇*x. -f b > 0, V.v. g c\
[0028] , ^ 5 〇j a; + h < 0, /x; e c\
[0029]選出兩類對象中距離最大的平面。
[0030] 進(jìn)一步地,所述分類器采用決策樹算法(Decision Tree),所述決策樹算法分為兩 個(gè)階段:樹構(gòu)造階段、樹剪枝階段;
[0031] 所述樹構(gòu)造階段采用自頂向下的遞歸方式,從根節(jié)點(diǎn)開始在每個(gè)節(jié)點(diǎn)上按照給定 標(biāo)準(zhǔn)選擇測試屬性,然后按照相應(yīng)屬性的所有可能取值向下建立分枝、劃分訓(xùn)練樣本,直到 一個(gè)節(jié)點(diǎn)上的所有樣本都被劃分到同一個(gè)類,或者某一節(jié)點(diǎn)中的樣本數(shù)量低于給定值時(shí)為 止;其中選擇測試屬性的標(biāo)準(zhǔn)包括信息增益、信息增益比、基尼指數(shù)以及基于距離的劃分;
[0032] 所述樹剪枝階段采用先剪枝、后剪枝或兩者相結(jié)合的方法;樹剪枝方法的剪枝標(biāo) 準(zhǔn)包括最小描述長度原則和期望錯(cuò)誤率最小原則;前者對決策樹進(jìn)行二進(jìn)位編碼,最佳剪 枝樹就是編碼所需二進(jìn)位最少的樹;后者計(jì)算某節(jié)點(diǎn)上的子樹被剪枝后出現(xiàn)的期望錯(cuò)誤 率。
[0033] 與現(xiàn)有技術(shù)相比,本發(fā)明有以下有益效果:以往的入侵檢測系統(tǒng)采用模式匹配的 辦法,本申請針對之前的分類器訓(xùn)練時(shí)間長、準(zhǔn)確率不高的情況,引入特征選擇的思想,提 出基于特征選擇的網(wǎng)絡(luò)入侵檢測算法.根據(jù)實(shí)驗(yàn)結(jié)果,基于特征選擇的算法在訓(xùn)練模型的 時(shí)間和準(zhǔn)確率上都有提升,特別是在檢測率方面,更是達(dá)到了 98 %以上。
【附圖說明】
[0034]圖1為本發(fā)明實(shí)施例原理框圖。
[0035]圖2為本發(fā)明實(shí)施例樸素貝葉斯結(jié)構(gòu)模型示意圖。
【具體實(shí)施方式】
[0036]下面結(jié)合附圖及實(shí)施例對本發(fā)明做進(jìn)一步說明。
[0037] 如圖1所示,本實(shí)施例提供了一種基于特征選擇的入侵檢測方法,首先對原始數(shù)據(jù) 進(jìn)行離散化處理,將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇,對特征選擇之后的數(shù)據(jù)進(jìn)行歸 一化處理,將歸一化處理之后的數(shù)據(jù)導(dǎo)入分類器進(jìn)行訓(xùn)練。
[0038] 在本實(shí)施例中,所述離散化處理采用熵最小化離散法,首先將待劃分的屬性連續(xù) 值按次序排列,然后取每一對相連數(shù)值的中點(diǎn)作為斷點(diǎn)候選集,通過循環(huán)評估候選集中的 每個(gè)斷點(diǎn),數(shù)據(jù)被劃分成了兩部分,并且分類結(jié)果的信息熵也被計(jì)算出來了,然后選擇那個(gè) 使熵最小的斷點(diǎn)加入斷點(diǎn)集中;通過一個(gè)最小描述長度來規(guī)定所述熵最小化離散化的停止 時(shí)間。
[0039] 在本實(shí)施例中,所述離散化處理采用比例K時(shí)間間隔離散法,通過調(diào)整離散的間隔 大小和數(shù)量找到一個(gè)間隔尺度與所期望的準(zhǔn)確率之間的一個(gè)權(quán)衡,將該權(quán)衡作為離散化偏 差和發(fā)差之間的衡量標(biāo)準(zhǔn)。
[0040] 在本實(shí)施例中,所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇,采用的是基于關(guān)聯(lián) 的特征選擇方法;通過一評估函數(shù)忽略對于分類影響小的特征,所述評估函數(shù)如下:
[0042] 其中,Ms為包含k個(gè)特征的子集S的啟發(fā)式價(jià)值,是特征與類別聯(lián)系強(qiáng)度的平均 值,rff是特征與特征之間的聯(lián)系強(qiáng)度的平均值;
[0043] 在本實(shí)施例中,所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇,采用的是基于一致 性的過濾器方法,通過比較訓(xùn)練樣本被投射到特征子集的一致性水平來選取特征;在每一 輪中從特征數(shù)中隨機(jī)產(chǎn)生一個(gè)子集S,如果子集S中特征數(shù)目少于當(dāng)前最好的特征子集中的 特征數(shù)目,接著計(jì)算S中的不一致標(biāo)準(zhǔn),若不一致率低于預(yù)設(shè)的值,那么S就成了最好的特征 子集。
[0044]在本實(shí)施例中,所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇,采用的是INTERACT 方法,所述INTERACT方法為基于對稱不確定性SU的算法;首先通過特征自己的對稱不確定 性SU降序排列,然后從這些特征序列最后開始,逐個(gè)評估特征,若某個(gè)特征的一致性貢獻(xiàn)低 于閾值,就移除該特征,否則采用該特征;所述對稱不確定性SU是描述兩個(gè)特征x,y之間信 息收益IG和熵H比值的度量,公式如下:
[0047]在本實(shí)施例中,所述歸一化處理采用離差歸一化,公式如下:
[0049] 其中,max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。
[0050] 在本實(shí)施例中,如圖2所示,所述分類器采用樸素貝葉斯分類器:設(shè)D是具有有限數(shù) 量實(shí)例的訓(xùn)練集,A= {心,A2,…,An}是n個(gè)有限的屬性,一個(gè)實(shí)例dGD用向量(ai,a 2,"_an)來 描述,其中ai是屬性Ai的當(dāng)前取值,類別屬性用C表示,函數(shù)domUO取得屬性六:的定義域集 合;當(dāng)£〇〇 = arg my | c)成立時(shí),即預(yù)測實(shí)例d的類別是在屬性給定條件 下后驗(yàn)概率最大的類別,預(yù)測的正確性最大;引入假設(shè):在給定類別C的條件下,所有的屬性 Ai相互獨(dú)立:P(Ai| c,Aj)=p(Ai | c),^^4」4(〇>0,采用下式計(jì)算在給定屬性值的情況下 類別的后驗(yàn)概率: n
[0051 ] P(C -e\Ai-a[liA2 = a2 5 * * -An ~ a n) arg max 吻n K4K = e)'。 ceG Z:=l
[0052]在本實(shí)施例中,所述分類器采用支持向量機(jī)分類器SVM,采用分類函數(shù): !
[0053] /'(.v) = ^'g/7(y] v^.AXx,.,^) + h);
[0054] 其中,1表示訓(xùn)練樣本的數(shù)目,x表示待分類實(shí)例的向量,Xl,yi表示第i個(gè)訓(xùn)練樣本 的屬性向量和類別標(biāo)識,K( xi,x)表示核函數(shù),ai和b表示模型參數(shù),通過計(jì)算如下一個(gè)二次 規(guī)劃問題求解參數(shù)ai:
[0055] maWt/) = W ^ /-I
[0056] s.f^f a:yi = 0,0 < < C,i = 1, ? ? ? J ; i~i
[0057]設(shè)二分類模型為:
[0058] g(x) = ? *x+b ;
[0059]設(shè)置二分類模型的閾值為0,得到: (〇 * x. + h > 0, Vx. e c.'
[0060] , n w ' ; 〇) * x: -!-/)< 0, V.v; e c,
[0061]選出兩類對象中距離最大的平面。
[0062] 在本實(shí)施例中,所述分類器采用決策樹算法,所述決策樹算法分為兩個(gè)階段:樹構(gòu) 造階段、樹剪枝階段;
[0063] 所述樹構(gòu)造階段采用自頂向下的遞歸方式,從根節(jié)點(diǎn)開始在每個(gè)節(jié)點(diǎn)上按照給定 標(biāo)準(zhǔn)選擇測試屬性,然后按照相應(yīng)屬性的所有可能取值向下建立分枝、劃分訓(xùn)練樣本,直到 一個(gè)節(jié)點(diǎn)上的所有樣本都被劃分到同一個(gè)類,或者某一節(jié)點(diǎn)中的樣本數(shù)量低于給定值時(shí)為 止;其中選擇測試屬性的標(biāo)準(zhǔn)包括信息增益、信息增益比、基尼指數(shù)以及基于距離的劃分;
[0064] 所述樹剪枝階段采用先剪枝、后剪枝或兩者相結(jié)合的方法;樹剪枝方法的剪枝標(biāo) 準(zhǔn)包括最小描述長度原則和期望錯(cuò)誤率最小原則;前者對決策樹進(jìn)行二進(jìn)位編碼,最佳剪 枝樹就是編碼所需二進(jìn)位最少的樹;后者計(jì)算某節(jié)點(diǎn)上的子樹被剪枝后出現(xiàn)的期望錯(cuò)誤 率。
[0065]特別的,本實(shí)施例采用KDDcup99數(shù)據(jù)庫,該數(shù)據(jù)庫是唯一能夠提供樣本標(biāo)簽和測 試數(shù)據(jù)的數(shù)據(jù)集。此數(shù)據(jù)集主要包括41位屬性和一位標(biāo)簽,其中1 一9的屬性是網(wǎng)絡(luò)連接的 基本特征,10-22的屬性是網(wǎng)絡(luò)連接的內(nèi)容特征23-41的屬性是網(wǎng)絡(luò)連接的流量特征.該 數(shù)據(jù)集包含有訓(xùn)練數(shù)據(jù),其中包括七周在TCP中的檢測到的大約500萬條連接記錄,其中每 一個(gè)大約為100個(gè)字節(jié)的數(shù)據(jù)。我們實(shí)驗(yàn)中所使用的是10%KDDcup99,即494201個(gè)數(shù)據(jù)。 [0066]為了證明本發(fā)明的算法相較于傳統(tǒng)算法的優(yōu)點(diǎn),我們將上述提到的3種特征選擇 算法和兩種離散化算法混合,這樣就得到了下列的表格:
[0068] 表1特征選擇屬性
[0069] 上表每一種結(jié)合都會產(chǎn)生不同的特征子集,再結(jié)合不同的分類器更會得到不同的 結(jié)果。所以,下面就針對不同的組合與不同的分類器進(jìn)行實(shí)驗(yàn)。
[0070] 本實(shí)施例選取的是10 %的KDD99數(shù)據(jù)集,先將前30萬個(gè)數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型, 再用剩余的20萬個(gè)數(shù)據(jù)作為測試集進(jìn)行模型的檢驗(yàn)。將標(biāo)簽中的nomal.標(biāo)記為+1,其余的 標(biāo)記為-1,將于處理完的數(shù)據(jù)帶入模型中進(jìn)行訓(xùn)練,得到支持向量機(jī)(SVM),決策樹(tree) 和樸素貝葉斯(bayes)模型。再用剩余的20萬數(shù)據(jù)進(jìn)行測試模型的準(zhǔn)確率。
[0071 ]下面就對二類的情況討論三種分類器的性能:
[0073]表2特征選擇后的分類準(zhǔn)確率
[0074] 從表1和表2中可以看出在進(jìn)行了特征選擇之后,除了 C0NS+PKID+N0R的組合,基本 上大部分選擇的特征組合都能使分類器的性能得到顯著提高,在SVM分類器中,INTERACT+ EMD+N0R_SVM的組合得到最高的精確度98.35 % ;在決策樹分類器中,INTERACT+EMD+NOR_ TREE的組合得到最高的精確度99.90%;在樸素貝葉斯分類器中,1抑^1^(^+131(10+觀1?_ BAYES的組合得到最高的準(zhǔn)確率98.32%。在上述的三個(gè)分類器中,決策樹的分類效果最好. 決策樹的錯(cuò)誤率保持在1 %以下,支持向量機(jī)則保持在2%以下,由于樸素貝葉斯模型是基 于條件獨(dú)立性和概率統(tǒng)計(jì)提出的,當(dāng)屬性之間有著關(guān)聯(lián)或者屬性的分布不均勻時(shí),都會產(chǎn) 生分類的錯(cuò)誤,所以整體上準(zhǔn)確率不如以上兩種。
[0075] 在KDDcup99數(shù)據(jù)集中,有4大類錯(cuò)誤類型,他們分別是?仰1^,0〇8,1]21?和1?2匕再加 上正常的normal類,總共有5類。如下表所示:
[0077] 表3 10%kddcup各類標(biāo)簽所占比例
[0078]本發(fā)明對這5個(gè)類別建立多分類模型,并進(jìn)行測試,具體數(shù)據(jù)見表4,表5,表6:
[0081]表4特征選擇后的多分類情況支持向量機(jī)(SVM)分類情況
[0083]表5特征選擇后的多分類情況決策樹分類情況
[0084]
[0085] 表6特征選擇后的多分類情況貝葉斯(Bayes)分類情況
[0086] 從結(jié)果上看,進(jìn)行多分類特征選擇之后,支持向量機(jī)和決策樹算法的分類準(zhǔn)確率 平均也都在95%以上,而在個(gè)別類別上分類準(zhǔn)確率相對較低是因?yàn)橛?xùn)練數(shù)量不足,不足以 生成準(zhǔn)確的分類器。在3¥11中,0?5+£1?)+勵(lì)1?_5¥11的組合得到最好的準(zhǔn)確度98.34%;在決策 樹中,C0NS+EMD+N0R_TREE的組合得到最好的準(zhǔn)確率99.29 % ;在樸素貝葉斯中,CONS+PKID+ N0R_BAYES的組合得到最好的準(zhǔn)確率91.83 %。相比之下,貝葉斯的準(zhǔn)確率則不是很高。由于 貝葉斯分類器是建立在數(shù)據(jù)的概率分布上的,可能訓(xùn)練集中的樣本不能很好的反應(yīng)樣本整 體的分布情況,所以建立模型時(shí)也出現(xiàn)了偏差,導(dǎo)致準(zhǔn)確率下降。
[0087] 以上所述僅為本發(fā)明的較佳實(shí)施例,凡依本發(fā)明申請專利范圍所做的均等變化與 修飾,皆應(yīng)屬本發(fā)明的涵蓋范圍。
【主權(quán)項(xiàng)】
1. 一種基于特征選擇的入侵檢測方法,其特征在于:首先對原始數(shù)據(jù)進(jìn)行離散化處理, 將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇,對特征選擇之后的數(shù)據(jù)進(jìn)行歸一化處理,將歸一 化處理之后的數(shù)據(jù)導(dǎo)入分類器進(jìn)行訓(xùn)練。2. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法,其特征在于:所述離散化 處理采用熵最小化離散法,首先將待劃分的屬性連續(xù)值按次序排列,然后取每一對相連數(shù) 值的中點(diǎn)作為斷點(diǎn)候選集,通過循環(huán)評估候選集中的每個(gè)斷點(diǎn),數(shù)據(jù)被劃分成了兩部分,并 且分類結(jié)果的信息熵也被計(jì)算出來了,然后選擇那個(gè)使熵最小的斷點(diǎn)加入斷點(diǎn)集中;通過 一個(gè)最小描述長度來規(guī)定所述熵最小化離散化的停止時(shí)間。3. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法,其特征在于:所述離散化 處理采用比例K時(shí)間間隔離散法,通過調(diào)整離散的間隔大小和數(shù)量找到一個(gè)間隔尺度與所 期望的準(zhǔn)確率之間的一個(gè)權(quán)衡,將該權(quán)衡作為離散化偏差和發(fā)差之間的衡量標(biāo)準(zhǔn)。4. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法,其特征在于:所述將離散 化處理之后的數(shù)據(jù)進(jìn)行特征選擇,采用的是基于關(guān)聯(lián)的特征選擇方法;通過一評估函數(shù)忽 略對于分類影響小的特征,所述評估函數(shù)如下:其中,Ms為包含k個(gè)特征的子集S的啟發(fā)式價(jià)值,是特征與類別聯(lián)系強(qiáng)度的平均值,rff 是特征與特征之間的聯(lián)系強(qiáng)度的平均值。5. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法,其特征在于:所述將離散 化處理之后的數(shù)據(jù)進(jìn)行特征選擇,采用的是基于一致性的過濾器方法,通過比較訓(xùn)練樣本 被投射到特征子集的一致性水平來選取特征;在每一輪中從特征數(shù)中隨機(jī)產(chǎn)生一個(gè)子集S, 如果子集S中特征數(shù)目少于當(dāng)前最好的特征子集中的特征數(shù)目,接著計(jì)算S中的不一致標(biāo) 準(zhǔn),若不一致率低于預(yù)設(shè)的值,那么S就成了最好的特征子集。6. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法,其特征在于:所述將離散 化處理之后的數(shù)據(jù)進(jìn)行特征選擇,采用的是INTERACT方法,所述INTERACT方法為基于對稱 不確定性SU的算法;首先通過特征自己的對稱不確定性SU降序排列,然后從這些特征序列 最后開始,逐個(gè)評估特征,若某個(gè)特征的一致性貢獻(xiàn)低于閾值,就移除該特征,否則采用該 特征;所述對稱不確定性SU是描述兩個(gè)特征x,y之間信息收益IG和熵Η比值的度量,公式如 下:7. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法,其特征在于:所述歸一化 處理采用離差歸一化,公式如下:其中,max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。8. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法,其特征在于:所述分類器 采用樸素貝葉斯分類器:設(shè)D是具有有限數(shù)量實(shí)例的訓(xùn)練集,AHA^As,···,An}是η個(gè)有限的 屬性,一個(gè)實(shí)例deD用向量(&1,&2^)來描述,其中&1是屬性仏的當(dāng)前取值,類別屬性用〇 表示,函數(shù)dom(Ai)取得屬性Ai的定義域集合;當(dāng)冰Gug nif U')成立 時(shí),即預(yù)測實(shí)例d的類別是在屬性給定條件下后驗(yàn)概率最大的類別,預(yù)測的正確性最大;弓丨 入假設(shè):在給定類別C的條件下,所有的屬性~相互獨(dú)立 >〇,采用下式計(jì)算在給定屬性值的情況下類別的后驗(yàn)概率:9. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法,其特征在于:所述分類器 采用支持向量機(jī)分類器SVM,采用分類函數(shù):其中,1表示訓(xùn)練樣本的數(shù)目,X表示待分類實(shí)例的向量,xi,yi表示第i個(gè)訓(xùn)練樣本的屬 性向量和類別標(biāo)識,K(Xl,x)表示核函數(shù),ajPb表示模型參數(shù),通過計(jì)算如下一個(gè)二次規(guī)劃 問題求解參數(shù)ai: 設(shè)二分類模型為:g(x) = ω 氺x+b; 設(shè)置二分類模型的閾值為〇,得到:選出兩類對象中距離最大的平面。10. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法,其特征在于:所述分類 器采用決策樹算法,所述決策樹算法分為兩個(gè)階段:樹構(gòu)造階段、樹剪枝階段; 所述樹構(gòu)造階段采用自頂向下的遞歸方式,從根節(jié)點(diǎn)開始在每個(gè)節(jié)點(diǎn)上按照給定標(biāo)準(zhǔn) 選擇測試屬性,然后按照相應(yīng)屬性的所有可能取值向下建立分枝、劃分訓(xùn)練樣本,直到一個(gè) 節(jié)點(diǎn)上的所有樣本都被劃分到同一個(gè)類,或者某一節(jié)點(diǎn)中的樣本數(shù)量低于給定值時(shí)為止; 其中選擇測試屬性的標(biāo)準(zhǔn)包括信息增益、信息增益比、基尼指數(shù)以及基于距離的劃分; 所述樹剪枝階段采用先剪枝、后剪枝或兩者相結(jié)合的方法;樹剪枝方法的剪枝標(biāo)準(zhǔn)包 括最小描述長度原則和期望錯(cuò)誤率最小原則;前者對決策樹進(jìn)行二進(jìn)位編碼,最佳剪枝樹 就是編碼所需二進(jìn)位最少的樹;后者計(jì)算某節(jié)點(diǎn)上的子樹被剪枝后出現(xiàn)的期望錯(cuò)誤率。
【文檔編號】G06K9/62GK105930723SQ201610246178
【公開日】2016年9月7日
【申請日】2016年4月20日
【發(fā)明人】陳星 , 戴遠(yuǎn)飛
【申請人】福州大學(xué)