一種基于特征選擇的入侵檢測方法

文檔序號：10570284閱讀：2214來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于特征選擇的入侵檢測方法
【專利摘要】本發(fā)明涉及一種基于特征選擇的入侵檢測方法,首先對原始數(shù)據(jù)進(jìn)行離散化處理，將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇，對特征選擇之后的數(shù)據(jù)進(jìn)行歸一化處理，將歸一化處理之后的數(shù)據(jù)導(dǎo)入分類器進(jìn)行訓(xùn)練。本發(fā)明能夠在訓(xùn)練模型的時(shí)間和準(zhǔn)確率上都有提升。
【專利說明】
一種基于特征選擇的入侵檢測方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域，特別是一種基于特征選擇的入侵檢測方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)時(shí)代的發(fā)展，數(shù)據(jù)的連接和流量也越來越大.對于計(jì)算機(jī)和設(shè)備來說，隨之而來的惡意入侵的威脅也日益增加.所以建立一個(gè)網(wǎng)絡(luò)入侵檢測系統(tǒng)也越發(fā)重要。入侵檢測是一種通過收集和分析被保護(hù)系統(tǒng)信息，從而發(fā)現(xiàn)入侵的技術(shù).由于入侵檢測需要對數(shù)據(jù)進(jìn)行實(shí)時(shí)的、準(zhǔn)確地處理，預(yù)測此條數(shù)據(jù)是否為威脅信息，所以如何做到對數(shù)據(jù)的及時(shí)、準(zhǔn)確的預(yù)測就成為了一個(gè)難題。以往的入侵檢測系統(tǒng)采用模式匹配的辦法，即人工的對各個(gè)入侵模式建立規(guī)則，通過if?一else語句進(jìn)行判斷，但是此方法工作量法，準(zhǔn)確率也不高，最重要的是當(dāng)一個(gè)新類型的攻擊模式出現(xiàn)時(shí)，系統(tǒng)無法防御。
[0003] 近年來將機(jī)器學(xué)習(xí)的方法加入到入侵檢測系統(tǒng)中來已是一個(gè)趨勢。目前，神經(jīng)網(wǎng) 絡(luò)，支持向量機(jī)，樸素貝葉斯，決策樹等機(jī)器學(xué)習(xí)方法都被運(yùn)用到了入侵檢測中來。首先對收集到的特征進(jìn)行數(shù)據(jù)的預(yù)處理，然后用這些與處理過的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)，生成分類器. 當(dāng)一個(gè)實(shí)時(shí)數(shù)據(jù)通過系統(tǒng)時(shí)，系統(tǒng)可以通過分類器預(yù)測出此條記錄是否為入侵記錄，若被判定為威脅，系統(tǒng)自動(dòng)阻止入侵，若為正常，則讓其通過.對于一個(gè)入侵檢測系統(tǒng)來說，檢測入侵的準(zhǔn)確率，發(fā)現(xiàn)入侵的速度等這些都是至關(guān)重要的因素.但是現(xiàn)在主流的機(jī)器學(xué)習(xí)方法存在著準(zhǔn)確率只能達(dá)到95%左右，并且訓(xùn)練時(shí)間過長，無法對冗余的數(shù)據(jù)進(jìn)行處理等問題。

【發(fā)明內(nèi)容】

[0004] 有鑒于此，本發(fā)明的目的是提出一種基于特征選擇的入侵檢測方法，在訓(xùn)練模型的時(shí)間和準(zhǔn)確率上都有提升。
[0005] 本發(fā)明采用以下方案實(shí)現(xiàn):一種基于特征選擇的入侵檢測方法，首先對原始數(shù)據(jù) 進(jìn)行離散化處理，將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇，對特征選擇之后的數(shù)據(jù)進(jìn)行歸一化處理，將歸一化處理之后的數(shù)據(jù)導(dǎo)入分類器進(jìn)行訓(xùn)練。
[0006] 進(jìn)一步地，所述離散化處理采用熵最小化離散法(EMD)，首先將待劃分的屬性連續(xù) 值按次序排列，然后取每一對相連數(shù)值的中點(diǎn)作為斷點(diǎn)候選集，通過循環(huán)評估候選集中的每個(gè)斷點(diǎn)，數(shù)據(jù)被劃分成了兩部分，并且分類結(jié)果的信息熵也被計(jì)算出來了，然后選擇那個(gè) 使熵最小的斷點(diǎn)加入斷點(diǎn)集中；通過一個(gè)最小描述長度來規(guī)定所述熵最小化離散化的停止時(shí)間。
[0007] 進(jìn)一步地，所述離散化處理也可采用比例K時(shí)間間隔離散法(PKID)，通過調(diào)整離散的間隔大小和數(shù)量找到一個(gè)間隔尺度與所期望的準(zhǔn)確率之間的一個(gè)權(quán)衡，將該權(quán)衡作為離散化偏差和發(fā)差之間的衡量標(biāo)準(zhǔn)。
[0008] 進(jìn)一步地，所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇，采用的是基于關(guān)聯(lián)的特征選擇方法(CFS);通過一評估函數(shù)忽略對于分類影響小的特征，所述評估函數(shù)如下：
[0010] 其中，Ms為包含k個(gè)特征的子集S的啟發(fā)式價(jià)值，是特征與類別聯(lián)系強(qiáng)度的平均值，rff是特征與特征之間的聯(lián)系強(qiáng)度的平均值；
[0011] 進(jìn)一步地，所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇，采用的是基于一致性的過濾器方法(CONS)，通過比較訓(xùn)練樣本被投射到特征子集的一致性水平來選取特征;在每一輪中從特征數(shù)中隨機(jī)產(chǎn)生一個(gè)子集S，如果子集S中特征數(shù)目少于當(dāng)前最好的特征子集中的特征數(shù)目，接著計(jì)算S中的不一致標(biāo)準(zhǔn)，若不一致率低于預(yù)設(shè)的值，那么S就成了最好的特征子集。
[0012]進(jìn)一步地，所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇，采用的是INTERACT方法，所述INTERACT方法為基于對稱不確定性SU的算法;首先通過特征自己的對稱不確定性序排列，然后從這些特征序列最后開始，逐個(gè)評估特征，若某個(gè)特征的一致性貢獻(xiàn)低于閾值，就移除該特征，否則采用該特征;所述對稱不確定性SU是描述兩個(gè)特征x，y之間信息收益IG和熵H比值的度量，公式如下：
[0015] 進(jìn)一步地，所述歸一化處理采用離差歸一化(N0R)，公式如下：
[0017]其中，max為樣本數(shù)據(jù)的最大值，min為樣本數(shù)據(jù)的最小值。
[0018]進(jìn)一步地，所述分類器采用樸素貝葉斯分類器(Navie Bayes):設(shè)D是具有有限數(shù) 量實(shí)例的訓(xùn)練集，A= {心，A2，…，An}是n個(gè)有限的屬性，一個(gè)實(shí)例dGD用向量(ai，a 2，"_an)來描述，其中ai是屬性Ai的當(dāng)前取值，類別屬性用C表示，函數(shù)domUO取得屬性六:的定義域集合；當(dāng)= arg | c)成立時(shí)，即預(yù)測實(shí)例d的類別是在屬性給定條件下后驗(yàn)概率最大的類別，預(yù)測的正確性最大；引入假設(shè):在給定類別C的條件下，所有的屬性 Ai相互獨(dú)立:P(Ai | c，Aj)=p(Ai | c)，'^4.4」4(〇>0，采用下式計(jì)算在給定屬性值的情況下類別的后驗(yàn)概率： n
[0019] P(C - e\Ai- ax - a2 5 * * ? An ~ an) = arg max Pi c) I-[ P( .4. | G = c) 0
[0020] 進(jìn)一步地，所述分類器采用支持向量機(jī)分類器(SVM)，采用分類函數(shù)：
[0021] fix) = sign(Y,yia.K{xrx)+h)；：
[0022]其中，1表示訓(xùn)練樣本的數(shù)目，x表示待分類實(shí)例的向量，Xl，yi表示第i個(gè)訓(xùn)練樣本的屬性向量和類別標(biāo)識，K( xi，x)表示核函數(shù)，ai和b表示模型參數(shù)，通過計(jì)算如下一個(gè)二次規(guī)劃問題求解參數(shù)ai:
[0024] s.t'y,aiyi = 0,0 < at < CJ = !.???,/ ； z::l
[0025] 設(shè)二分類模型為：
[0026] g(x) = 〇*x+b；
[0027]設(shè)置二分類模型的閾值為0,得到： (〇*x. -f b > 0, V.v. g c\
[0028] , ^ 5 〇j a; + h < 0, /x; e c\
[0029]選出兩類對象中距離最大的平面。
[0030] 進(jìn)一步地，所述分類器采用決策樹算法(Decision Tree)，所述決策樹算法分為兩個(gè)階段:樹構(gòu)造階段、樹剪枝階段；
[0031] 所述樹構(gòu)造階段采用自頂向下的遞歸方式，從根節(jié)點(diǎn)開始在每個(gè)節(jié)點(diǎn)上按照給定標(biāo)準(zhǔn)選擇測試屬性，然后按照相應(yīng)屬性的所有可能取值向下建立分枝、劃分訓(xùn)練樣本，直到一個(gè)節(jié)點(diǎn)上的所有樣本都被劃分到同一個(gè)類，或者某一節(jié)點(diǎn)中的樣本數(shù)量低于給定值時(shí)為止;其中選擇測試屬性的標(biāo)準(zhǔn)包括信息增益、信息增益比、基尼指數(shù)以及基于距離的劃分；
[0032] 所述樹剪枝階段采用先剪枝、后剪枝或兩者相結(jié)合的方法;樹剪枝方法的剪枝標(biāo) 準(zhǔn)包括最小描述長度原則和期望錯(cuò)誤率最小原則;前者對決策樹進(jìn)行二進(jìn)位編碼，最佳剪枝樹就是編碼所需二進(jìn)位最少的樹；后者計(jì)算某節(jié)點(diǎn)上的子樹被剪枝后出現(xiàn)的期望錯(cuò)誤率。
[0033] 與現(xiàn)有技術(shù)相比，本發(fā)明有以下有益效果：以往的入侵檢測系統(tǒng)采用模式匹配的辦法，本申請針對之前的分類器訓(xùn)練時(shí)間長、準(zhǔn)確率不高的情況，引入特征選擇的思想，提出基于特征選擇的網(wǎng)絡(luò)入侵檢測算法.根據(jù)實(shí)驗(yàn)結(jié)果，基于特征選擇的算法在訓(xùn)練模型的時(shí)間和準(zhǔn)確率上都有提升，特別是在檢測率方面，更是達(dá)到了 98 %以上。
【附圖說明】
[0034]圖1為本發(fā)明實(shí)施例原理框圖。
[0035]圖2為本發(fā)明實(shí)施例樸素貝葉斯結(jié)構(gòu)模型示意圖。
【具體實(shí)施方式】
[0036]下面結(jié)合附圖及實(shí)施例對本發(fā)明做進(jìn)一步說明。
[0037] 如圖1所示，本實(shí)施例提供了一種基于特征選擇的入侵檢測方法，首先對原始數(shù)據(jù) 進(jìn)行離散化處理，將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇，對特征選擇之后的數(shù)據(jù)進(jìn)行歸一化處理，將歸一化處理之后的數(shù)據(jù)導(dǎo)入分類器進(jìn)行訓(xùn)練。
[0038] 在本實(shí)施例中，所述離散化處理采用熵最小化離散法，首先將待劃分的屬性連續(xù) 值按次序排列，然后取每一對相連數(shù)值的中點(diǎn)作為斷點(diǎn)候選集，通過循環(huán)評估候選集中的每個(gè)斷點(diǎn)，數(shù)據(jù)被劃分成了兩部分，并且分類結(jié)果的信息熵也被計(jì)算出來了，然后選擇那個(gè) 使熵最小的斷點(diǎn)加入斷點(diǎn)集中；通過一個(gè)最小描述長度來規(guī)定所述熵最小化離散化的停止時(shí)間。
[0039] 在本實(shí)施例中，所述離散化處理采用比例K時(shí)間間隔離散法，通過調(diào)整離散的間隔大小和數(shù)量找到一個(gè)間隔尺度與所期望的準(zhǔn)確率之間的一個(gè)權(quán)衡，將該權(quán)衡作為離散化偏差和發(fā)差之間的衡量標(biāo)準(zhǔn)。
[0040] 在本實(shí)施例中，所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇，采用的是基于關(guān)聯(lián) 的特征選擇方法;通過一評估函數(shù)忽略對于分類影響小的特征，所述評估函數(shù)如下：
[0042] 其中，Ms為包含k個(gè)特征的子集S的啟發(fā)式價(jià)值，是特征與類別聯(lián)系強(qiáng)度的平均值，rff是特征與特征之間的聯(lián)系強(qiáng)度的平均值；
[0043] 在本實(shí)施例中，所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇，采用的是基于一致性的過濾器方法，通過比較訓(xùn)練樣本被投射到特征子集的一致性水平來選取特征;在每一輪中從特征數(shù)中隨機(jī)產(chǎn)生一個(gè)子集S，如果子集S中特征數(shù)目少于當(dāng)前最好的特征子集中的特征數(shù)目，接著計(jì)算S中的不一致標(biāo)準(zhǔn)，若不一致率低于預(yù)設(shè)的值，那么S就成了最好的特征子集。
[0044]在本實(shí)施例中，所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇，采用的是INTERACT 方法，所述INTERACT方法為基于對稱不確定性SU的算法;首先通過特征自己的對稱不確定性SU降序排列，然后從這些特征序列最后開始，逐個(gè)評估特征，若某個(gè)特征的一致性貢獻(xiàn)低于閾值，就移除該特征，否則采用該特征;所述對稱不確定性SU是描述兩個(gè)特征x，y之間信息收益IG和熵H比值的度量，公式如下：
[0047]在本實(shí)施例中，所述歸一化處理采用離差歸一化，公式如下：
[0049] 其中，max為樣本數(shù)據(jù)的最大值，min為樣本數(shù)據(jù)的最小值。
[0050] 在本實(shí)施例中，如圖2所示，所述分類器采用樸素貝葉斯分類器:設(shè)D是具有有限數(shù) 量實(shí)例的訓(xùn)練集，A= {心，A2，…，An}是n個(gè)有限的屬性，一個(gè)實(shí)例dGD用向量(ai，a 2，"_an)來描述，其中ai是屬性Ai的當(dāng)前取值，類別屬性用C表示，函數(shù)domUO取得屬性六:的定義域集合；當(dāng)￡〇〇 = arg my | c)成立時(shí)，即預(yù)測實(shí)例d的類別是在屬性給定條件下后驗(yàn)概率最大的類別，預(yù)測的正確性最大；引入假設(shè):在給定類別C的條件下，所有的屬性 Ai相互獨(dú)立:P(Ai| c，Aj)=p(Ai | c)，^^4」4(〇>0，采用下式計(jì)算在給定屬性值的情況下類別的后驗(yàn)概率： n
[0051 ] P(C -e\Ai-a[liA2 = a2 5 * * -An ~ a n) arg max 吻n K4K = e)'。 ceG Z:=l
[0052]在本實(shí)施例中，所述分類器采用支持向量機(jī)分類器SVM，采用分類函數(shù)： !
[0053] /'(.v) = ^'g/7(y] v^.AXx,.,^) + h);
[0054] 其中，1表示訓(xùn)練樣本的數(shù)目，x表示待分類實(shí)例的向量，Xl，yi表示第i個(gè)訓(xùn)練樣本的屬性向量和類別標(biāo)識，K( xi，x)表示核函數(shù)，ai和b表示模型參數(shù)，通過計(jì)算如下一個(gè)二次規(guī)劃問題求解參數(shù)ai:
[0055] maWt/) = W ^ /-I
[0056] s.f^f a:yi = 0,0 < < C,i = 1, ? ? ? J ； i~i
[0057]設(shè)二分類模型為：
[0058] g(x) = ? *x+b ；
[0059]設(shè)置二分類模型的閾值為0,得到： (〇 * x. + h > 0, Vx. e c.'
[0060] , n w ' ；〇) * x： -!-/)< 0, V.v； e c,
[0061]選出兩類對象中距離最大的平面。
[0062] 在本實(shí)施例中，所述分類器采用決策樹算法，所述決策樹算法分為兩個(gè)階段:樹構(gòu) 造階段、樹剪枝階段；
[0063] 所述樹構(gòu)造階段采用自頂向下的遞歸方式，從根節(jié)點(diǎn)開始在每個(gè)節(jié)點(diǎn)上按照給定標(biāo)準(zhǔn)選擇測試屬性，然后按照相應(yīng)屬性的所有可能取值向下建立分枝、劃分訓(xùn)練樣本，直到一個(gè)節(jié)點(diǎn)上的所有樣本都被劃分到同一個(gè)類，或者某一節(jié)點(diǎn)中的樣本數(shù)量低于給定值時(shí)為止;其中選擇測試屬性的標(biāo)準(zhǔn)包括信息增益、信息增益比、基尼指數(shù)以及基于距離的劃分；
[0064] 所述樹剪枝階段采用先剪枝、后剪枝或兩者相結(jié)合的方法;樹剪枝方法的剪枝標(biāo) 準(zhǔn)包括最小描述長度原則和期望錯(cuò)誤率最小原則;前者對決策樹進(jìn)行二進(jìn)位編碼，最佳剪枝樹就是編碼所需二進(jìn)位最少的樹；后者計(jì)算某節(jié)點(diǎn)上的子樹被剪枝后出現(xiàn)的期望錯(cuò)誤率。
[0065]特別的，本實(shí)施例采用KDDcup99數(shù)據(jù)庫，該數(shù)據(jù)庫是唯一能夠提供樣本標(biāo)簽和測試數(shù)據(jù)的數(shù)據(jù)集。此數(shù)據(jù)集主要包括41位屬性和一位標(biāo)簽，其中1 一9的屬性是網(wǎng)絡(luò)連接的基本特征，10-22的屬性是網(wǎng)絡(luò)連接的內(nèi)容特征23-41的屬性是網(wǎng)絡(luò)連接的流量特征.該數(shù)據(jù)集包含有訓(xùn)練數(shù)據(jù)，其中包括七周在TCP中的檢測到的大約500萬條連接記錄，其中每一個(gè)大約為100個(gè)字節(jié)的數(shù)據(jù)。我們實(shí)驗(yàn)中所使用的是10%KDDcup99，即494201個(gè)數(shù)據(jù)。 [0066]為了證明本發(fā)明的算法相較于傳統(tǒng)算法的優(yōu)點(diǎn)，我們將上述提到的3種特征選擇算法和兩種離散化算法混合，這樣就得到了下列的表格：
[0068] 表1特征選擇屬性
[0069] 上表每一種結(jié)合都會產(chǎn)生不同的特征子集，再結(jié)合不同的分類器更會得到不同的結(jié)果。所以，下面就針對不同的組合與不同的分類器進(jìn)行實(shí)驗(yàn)。
[0070] 本實(shí)施例選取的是10 %的KDD99數(shù)據(jù)集，先將前30萬個(gè)數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型，再用剩余的20萬個(gè)數(shù)據(jù)作為測試集進(jìn)行模型的檢驗(yàn)。將標(biāo)簽中的nomal.標(biāo)記為+1，其余的標(biāo)記為-1，將于處理完的數(shù)據(jù)帶入模型中進(jìn)行訓(xùn)練，得到支持向量機(jī)(SVM)，決策樹(tree) 和樸素貝葉斯(bayes)模型。再用剩余的20萬數(shù)據(jù)進(jìn)行測試模型的準(zhǔn)確率。
[0071 ]下面就對二類的情況討論三種分類器的性能：
[0073]表2特征選擇后的分類準(zhǔn)確率
[0074] 從表1和表2中可以看出在進(jìn)行了特征選擇之后，除了 C0NS+PKID+N0R的組合，基本上大部分選擇的特征組合都能使分類器的性能得到顯著提高，在SVM分類器中，INTERACT+ EMD+N0R_SVM的組合得到最高的精確度98.35 % ;在決策樹分類器中，INTERACT+EMD+NOR_ TREE的組合得到最高的精確度99.90%;在樸素貝葉斯分類器中，1抑^1^(^+131(10+觀1?_ BAYES的組合得到最高的準(zhǔn)確率98.32%。在上述的三個(gè)分類器中，決策樹的分類效果最好. 決策樹的錯(cuò)誤率保持在1 %以下，支持向量機(jī)則保持在2%以下，由于樸素貝葉斯模型是基于條件獨(dú)立性和概率統(tǒng)計(jì)提出的，當(dāng)屬性之間有著關(guān)聯(lián)或者屬性的分布不均勻時(shí)，都會產(chǎn) 生分類的錯(cuò)誤，所以整體上準(zhǔn)確率不如以上兩種。
[0075] 在KDDcup99數(shù)據(jù)集中，有4大類錯(cuò)誤類型，他們分別是？仰1^，0〇8，1]21?和1?2匕再加上正常的normal類，總共有5類。如下表所示：
[0077] 表3 10%kddcup各類標(biāo)簽所占比例
[0078]本發(fā)明對這5個(gè)類別建立多分類模型，并進(jìn)行測試，具體數(shù)據(jù)見表4，表5，表6:
[0081]表4特征選擇后的多分類情況支持向量機(jī)(SVM)分類情況
[0083]表5特征選擇后的多分類情況決策樹分類情況
[0084]
[0085] 表6特征選擇后的多分類情況貝葉斯(Bayes)分類情況
[0086] 從結(jié)果上看，進(jìn)行多分類特征選擇之后，支持向量機(jī)和決策樹算法的分類準(zhǔn)確率平均也都在95%以上，而在個(gè)別類別上分類準(zhǔn)確率相對較低是因?yàn)橛?xùn)練數(shù)量不足，不足以生成準(zhǔn)確的分類器。在3￥11中，0?5+￡1?)+勵(lì)1?_5￥11的組合得到最好的準(zhǔn)確度98.34%;在決策樹中，C0NS+EMD+N0R_TREE的組合得到最好的準(zhǔn)確率99.29 % ;在樸素貝葉斯中，CONS+PKID+ N0R_BAYES的組合得到最好的準(zhǔn)確率91.83 %。相比之下，貝葉斯的準(zhǔn)確率則不是很高。由于貝葉斯分類器是建立在數(shù)據(jù)的概率分布上的，可能訓(xùn)練集中的樣本不能很好的反應(yīng)樣本整體的分布情況，所以建立模型時(shí)也出現(xiàn)了偏差，導(dǎo)致準(zhǔn)確率下降。
[0087] 以上所述僅為本發(fā)明的較佳實(shí)施例，凡依本發(fā)明申請專利范圍所做的均等變化與修飾，皆應(yīng)屬本發(fā)明的涵蓋范圍。
【主權(quán)項(xiàng)】
1. 一種基于特征選擇的入侵檢測方法，其特征在于:首先對原始數(shù)據(jù)進(jìn)行離散化處理，將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇，對特征選擇之后的數(shù)據(jù)進(jìn)行歸一化處理，將歸一化處理之后的數(shù)據(jù)導(dǎo)入分類器進(jìn)行訓(xùn)練。2. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法，其特征在于:所述離散化處理采用熵最小化離散法，首先將待劃分的屬性連續(xù)值按次序排列，然后取每一對相連數(shù) 值的中點(diǎn)作為斷點(diǎn)候選集，通過循環(huán)評估候選集中的每個(gè)斷點(diǎn)，數(shù)據(jù)被劃分成了兩部分，并且分類結(jié)果的信息熵也被計(jì)算出來了，然后選擇那個(gè)使熵最小的斷點(diǎn)加入斷點(diǎn)集中；通過一個(gè)最小描述長度來規(guī)定所述熵最小化離散化的停止時(shí)間。3. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法，其特征在于:所述離散化處理采用比例K時(shí)間間隔離散法，通過調(diào)整離散的間隔大小和數(shù)量找到一個(gè)間隔尺度與所期望的準(zhǔn)確率之間的一個(gè)權(quán)衡，將該權(quán)衡作為離散化偏差和發(fā)差之間的衡量標(biāo)準(zhǔn)。4. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法，其特征在于:所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇，采用的是基于關(guān)聯(lián)的特征選擇方法;通過一評估函數(shù)忽略對于分類影響小的特征，所述評估函數(shù)如下：其中，Ms為包含k個(gè)特征的子集S的啟發(fā)式價(jià)值，是特征與類別聯(lián)系強(qiáng)度的平均值，rff 是特征與特征之間的聯(lián)系強(qiáng)度的平均值。5. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法，其特征在于:所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇，采用的是基于一致性的過濾器方法，通過比較訓(xùn)練樣本被投射到特征子集的一致性水平來選取特征;在每一輪中從特征數(shù)中隨機(jī)產(chǎn)生一個(gè)子集S，如果子集S中特征數(shù)目少于當(dāng)前最好的特征子集中的特征數(shù)目，接著計(jì)算S中的不一致標(biāo) 準(zhǔn)，若不一致率低于預(yù)設(shè)的值，那么S就成了最好的特征子集。6. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法，其特征在于:所述將離散化處理之后的數(shù)據(jù)進(jìn)行特征選擇，采用的是INTERACT方法，所述INTERACT方法為基于對稱不確定性SU的算法;首先通過特征自己的對稱不確定性SU降序排列，然后從這些特征序列最后開始，逐個(gè)評估特征，若某個(gè)特征的一致性貢獻(xiàn)低于閾值，就移除該特征，否則采用該特征;所述對稱不確定性SU是描述兩個(gè)特征x，y之間信息收益IG和熵Η比值的度量，公式如下：7. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法，其特征在于:所述歸一化處理采用離差歸一化，公式如下：其中，max為樣本數(shù)據(jù)的最大值，min為樣本數(shù)據(jù)的最小值。8. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法，其特征在于:所述分類器采用樸素貝葉斯分類器:設(shè)D是具有有限數(shù)量實(shí)例的訓(xùn)練集，AHA^As，···，An}是η個(gè)有限的屬性，一個(gè)實(shí)例deD用向量(&1，&2^)來描述，其中&1是屬性仏的當(dāng)前取值，類別屬性用〇表示，函數(shù)dom(Ai)取得屬性Ai的定義域集合；當(dāng)冰Gug nif U')成立時(shí)，即預(yù)測實(shí)例d的類別是在屬性給定條件下后驗(yàn)概率最大的類別，預(yù)測的正確性最大；弓丨入假設(shè):在給定類別C的條件下，所有的屬性~相互獨(dú)立 >〇,采用下式計(jì)算在給定屬性值的情況下類別的后驗(yàn)概率：9. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法，其特征在于:所述分類器采用支持向量機(jī)分類器SVM，采用分類函數(shù)：其中，1表示訓(xùn)練樣本的數(shù)目，X表示待分類實(shí)例的向量，xi，yi表示第i個(gè)訓(xùn)練樣本的屬性向量和類別標(biāo)識，K(Xl，x)表示核函數(shù)，ajPb表示模型參數(shù)，通過計(jì)算如下一個(gè)二次規(guī)劃問題求解參數(shù)ai: 設(shè)二分類模型為：g(x) = ω 氺x+b; 設(shè)置二分類模型的閾值為〇，得到：選出兩類對象中距離最大的平面。10. 根據(jù)權(quán)利要求1所述的一種基于特征選擇的入侵檢測方法，其特征在于:所述分類器采用決策樹算法，所述決策樹算法分為兩個(gè)階段:樹構(gòu)造階段、樹剪枝階段；所述樹構(gòu)造階段采用自頂向下的遞歸方式，從根節(jié)點(diǎn)開始在每個(gè)節(jié)點(diǎn)上按照給定標(biāo)準(zhǔn) 選擇測試屬性，然后按照相應(yīng)屬性的所有可能取值向下建立分枝、劃分訓(xùn)練樣本，直到一個(gè) 節(jié)點(diǎn)上的所有樣本都被劃分到同一個(gè)類，或者某一節(jié)點(diǎn)中的樣本數(shù)量低于給定值時(shí)為止；其中選擇測試屬性的標(biāo)準(zhǔn)包括信息增益、信息增益比、基尼指數(shù)以及基于距離的劃分；所述樹剪枝階段采用先剪枝、后剪枝或兩者相結(jié)合的方法;樹剪枝方法的剪枝標(biāo)準(zhǔn)包括最小描述長度原則和期望錯(cuò)誤率最小原則;前者對決策樹進(jìn)行二進(jìn)位編碼，最佳剪枝樹就是編碼所需二進(jìn)位最少的樹;后者計(jì)算某節(jié)點(diǎn)上的子樹被剪枝后出現(xiàn)的期望錯(cuò)誤率。
【文檔編號】G06K9/62GK105930723SQ201610246178
【公開日】2016年9月7日
【申請日】2016年4月20日
【發(fā)明人】陳星 , 戴遠(yuǎn)飛
【申請人】福州大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳星;戴遠(yuǎn)飛;
技術(shù)所有人：福州大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

入侵檢測方法相關(guān)技術(shù)

特征選擇方法相關(guān)技術(shù)

特征選擇的方法相關(guān)技術(shù)

文本特征選擇方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于特征選擇的入侵檢測方法