亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于決策樹分類算法的http隧道檢測方法

文檔序號(hào):7691277閱讀:902來源:國知局
專利名稱:基于決策樹分類算法的http隧道檢測方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種HTTP隧道檢測方法,特別是基于決策樹分類算法的HTTP隧道檢 測方法。
背景技術(shù)
HTTP隧道的出現(xiàn)方便了用戶使用網(wǎng)絡(luò),突破了很多網(wǎng)絡(luò)訪問限制。但也給黑客們 提供了實(shí)施網(wǎng)絡(luò)攻擊的有力工具。目前流行的木馬技術(shù)基本上都是使用隧道技術(shù)來穿透用 戶的安全防護(hù)設(shè)施,達(dá)到竊取用戶私密信息的目的。因此,HTTP隧道檢測技術(shù)是一種重要 的網(wǎng)絡(luò)信息安全技術(shù)。目前的HTTP隧道檢測技術(shù)主要有基于簽名的檢測、基于協(xié)議的檢 測、基于行為的檢測等。隨著HTTP隧道技術(shù)的不斷發(fā)展,現(xiàn)有的檢測技術(shù)越來越不能滿足 應(yīng)用需求。
文獻(xiàn) 1 "Web Tap -Detecting Covert Web Traffic, Proceedings of the Ilth ACMConference on Computer and Communications Security (CCS), Oct. 2004. " yJ^JfT一 種基于網(wǎng)絡(luò)數(shù)據(jù)流分析的HTTP隧道檢測方法,該方法采用過濾器來檢測木馬軟件和間諜 軟件,這些軟件都是通過HTTP隧道向外傳輸數(shù)據(jù)。過濾器檢測機(jī)制主要基于對(duì)HTTP協(xié)議 頭的分析,包括協(xié)議頭格式、請(qǐng)求到達(dá)時(shí)間間隔、請(qǐng)求包大小、上行帶寬使用率等,然而隨著 隧道技術(shù)的不斷發(fā)展,協(xié)議偽裝技術(shù)也會(huì)越來越高,單純使用應(yīng)用層特征的檢測方法難以 實(shí)施有效的的檢測。
文 獻(xiàn) 2 "Tunnel Hunter -Detecting Application-Layer Tunnels with Statistical Fingerprinting,Elsevier Computer Networks (COMNET),Vol. 53, No. 1, pp. 81-97,Jan. 2009. ”公開了一種基于傳輸層數(shù)據(jù)包統(tǒng)計(jì)特征分析的隧道檢測方法,該方 法采用包的大小、包的到達(dá)時(shí)間間隔、包的隊(duì)列順序等三個(gè)傳輸層特征建立了 HTTP協(xié)議的 統(tǒng)計(jì)指印。通過與指印對(duì)比計(jì)算出當(dāng)前數(shù)據(jù)流與正常HTTP數(shù)據(jù)流的相異度,若相異度超過 某個(gè)臨界值,則判斷該數(shù)據(jù)流是HTTP隧道流。這種統(tǒng)計(jì)指印算法在HTTP隧道檢測方面存在 一些不足,首先,算法的精確度很大程度上依賴于指印的建立,而指印的建立完全依賴于訓(xùn) 練數(shù)據(jù)集,當(dāng)訓(xùn)練集的數(shù)量不夠充足時(shí),無法保障算法的準(zhǔn)確性;其次,模型的訓(xùn)練需要大 量的數(shù)據(jù),過程比較復(fù)雜,需要建立指印圖像,對(duì)內(nèi)存的消耗較大,訓(xùn)練效率不高;指印模型 是二維圖像,所以只能使用包大小和到達(dá)時(shí)間間隔兩個(gè)流特征,有很大的局限性;最后,臨 界值的選取對(duì)精度影響較大,使用單一數(shù)值來進(jìn)行判斷,相當(dāng)于根據(jù)一個(gè)屬性值進(jìn)行分類, 穩(wěn)定性不高。發(fā)明內(nèi)容
為了克服現(xiàn)有的基于傳輸層數(shù)據(jù)包統(tǒng)計(jì)特征分析的隧道檢測方法穩(wěn)定性差的不 足,本發(fā)明提供一種基于決策樹分類算法的HTTP隧道檢測方法,使用HTTP數(shù)據(jù)流和隧道數(shù) 據(jù)流對(duì)決策樹分類模型進(jìn)行訓(xùn)練,使用更多的特征來訓(xùn)練模型,模型的訓(xùn)練過程相對(duì)簡單, 不牽涉圖像指印,對(duì)內(nèi)存的消耗較少,依據(jù)多個(gè)分支節(jié)點(diǎn)上的屬性進(jìn)行判斷,而不依賴于某一個(gè)特定臨界值,可以實(shí)現(xiàn)包特征和流特征的有效融合,提高檢測穩(wěn)定性。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一種基于決策樹分類算法的HTTP 隧道檢測方法,其特點(diǎn)是包括以下步驟
(a)使用流量采集卡在網(wǎng)關(guān)出口捕獲目的端口為80并且傳輸協(xié)議為TCP的上行網(wǎng) 絡(luò)流量,周期為一個(gè)星期,以PCAP文件格式保持;
(b)對(duì)捕獲的網(wǎng)絡(luò)流量進(jìn)行數(shù)據(jù)包解析,根據(jù)包頭信息中的源IP地址、源端口、傳 輸協(xié)議、目的端口、目的IP地址進(jìn)行網(wǎng)絡(luò)流重組,源IP地址、源端口、傳輸協(xié)議、目的端口、 目的IP地址中相同的數(shù)據(jù)包組成一個(gè)數(shù)據(jù)流;
(c)以數(shù)據(jù)流為單位提取統(tǒng)計(jì)特征,包括包大小、包到達(dá)時(shí)間間隔、流大小、流持續(xù) 時(shí)間,加上協(xié)議類別標(biāo)簽;
(d)根據(jù)數(shù)據(jù)流的目的IP進(jìn)行分類匯總,并按照降序排列;然后對(duì)前30個(gè)IP地址 進(jìn)行域名解析,并對(duì)屬于知名網(wǎng)站的數(shù)據(jù)流進(jìn)行標(biāo)注,并認(rèn)為訪問這些知名網(wǎng)站的數(shù)據(jù)流 是純凈的HTTP數(shù)據(jù);為獲取HTTP隧道數(shù)據(jù),在流量采集過程中,在連接互聯(lián)網(wǎng)的計(jì)算機(jī)上 運(yùn)行隧道軟件——HTTP-Tunnel且只允許運(yùn)行隧道軟件,根據(jù)這些連接互聯(lián)網(wǎng)的計(jì)算機(jī)IP 地址從樣本數(shù)據(jù)集中獲取HTTP隧道數(shù)據(jù);分別對(duì)采集的HTTP流量和HTTP隧道流量進(jìn)行特 征提取,生成兩個(gè)數(shù)據(jù)集,分別記為Http_SET和TurmelSET ;
(e)使用兩個(gè)數(shù)據(jù)集Http_SET和Turme 1_SET訓(xùn)練HTTP隧道的檢測模型;
分別從Http_SET和TurmelSET中選取60%的數(shù)據(jù)組成訓(xùn)練集合D,訓(xùn)練集中包 含兩種不同類別,HTTP數(shù)據(jù)和HTTP隧道數(shù)據(jù);用Cu表示D中屬于類別Ci的數(shù)據(jù)流構(gòu)成的 子集,IDI和ICuI分別表示集合中的數(shù)據(jù)流的數(shù)目;用下面公式來計(jì)算信息熵的增益率m
Info(D) = Pi Iog2 (Pi)( j )i=\
式中,Pi表示集合D中任一數(shù)據(jù)流屬于類別Ci的概率,用ICul/lDl來估計(jì), Info(D)稱為集合D的信息熵;
假設(shè)集合D中的數(shù)據(jù)流在屬性A上有ν種不同的取值Ia1, a2,…,av},則使用屬 性A作為分類節(jié)點(diǎn)時(shí),將集合D劃分成ν個(gè)子集{D1;D2,…,Dv};屬性A達(dá)到純凈所需要的 信息量用下面公式表示

權(quán)利要求
1. 一種基于決策樹分類算法的HTTP隧道檢測方法,其特征在于包括下述步驟(a)使用流量采集卡在網(wǎng)關(guān)出口捕獲目的端口為80并且傳輸協(xié)議為TCP的上行網(wǎng)絡(luò)流 量,周期為一個(gè)星期,以PCAP文件格式保持;(b)對(duì)捕獲的網(wǎng)絡(luò)流量進(jìn)行數(shù)據(jù)包解析,根據(jù)包頭信息中的源IP地址、源端口、傳輸協(xié) 議、目的端口、目的IP地址進(jìn)行網(wǎng)絡(luò)流重組,源IP地址、源端口、傳輸協(xié)議、目的端口、目的 IP地址中相同的數(shù)據(jù)包組成一個(gè)數(shù)據(jù)流;(c)以數(shù)據(jù)流為單位提取統(tǒng)計(jì)特征,包括包大小、包到達(dá)時(shí)間間隔、流大小、流持續(xù)時(shí) 間,加上協(xié)議類別標(biāo)簽;(d)根據(jù)數(shù)據(jù)流的目的IP進(jìn)行分類匯總,并按照降序排列;然后對(duì)前30個(gè)IP地址進(jìn) 行域名解析,并對(duì)屬于知名網(wǎng)站的數(shù)據(jù)流進(jìn)行標(biāo)注,并認(rèn)為訪問這些知名網(wǎng)站的數(shù)據(jù)流是 純凈的HTTP數(shù)據(jù);為獲取HTTP隧道數(shù)據(jù),在流量采集過程中,在連接互聯(lián)網(wǎng)的計(jì)算機(jī)上運(yùn) 行隧道軟件——HTTP-Turmel且只允許運(yùn)行隧道軟件,根據(jù)這些連接互聯(lián)網(wǎng)的計(jì)算機(jī)IP地 址從樣本數(shù)據(jù)集中獲取HTTP隧道數(shù)據(jù);分別對(duì)采集的HTTP流量和HTTP隧道流量進(jìn)行特征 提取,生成兩個(gè)數(shù)據(jù)集,分別記為Http_SET和TurmelSET ;(e)使用兩個(gè)數(shù)據(jù)集Http_SET和TurmelSET訓(xùn)練HTTP隧道的檢測模型;分別從Http_SET和TurmelSET中選取60%的數(shù)據(jù)組成訓(xùn)練集合D,訓(xùn)練集中包含兩 種不同類別,HTTP數(shù)據(jù)和HTTP隧道數(shù)據(jù);用Ci, D表示D中屬于類別Ci的數(shù)據(jù)流構(gòu)成的子 集,IDI和ICuI分別表示集合中的數(shù)據(jù)流的數(shù)目;用下面公式來計(jì)算信息熵的增益率
全文摘要
本發(fā)明公開了一種基于決策樹分類算法的HTTP隧道檢測方法,用于解決現(xiàn)有的基于傳輸層數(shù)據(jù)包統(tǒng)計(jì)特征分析的隧道檢測方法穩(wěn)定性差的技術(shù)問題。技術(shù)方案是使用HTTP數(shù)據(jù)流和隧道數(shù)據(jù)流對(duì)決策樹分類模型進(jìn)行訓(xùn)練,對(duì)訓(xùn)練集數(shù)量的要求比統(tǒng)計(jì)指印方法要低;其次相對(duì)于統(tǒng)計(jì)指印方法只能使用兩個(gè)流量特征,決策樹分類方法可以使用更多的特征來訓(xùn)練模型,得到的分類規(guī)則更加準(zhǔn)確,穩(wěn)定性更好;模型的訓(xùn)練過程相對(duì)簡單,不牽涉圖像指印,對(duì)內(nèi)存的消耗較少;最后,決策樹分類方法依據(jù)多個(gè)分支節(jié)點(diǎn)上的屬性進(jìn)行判斷,而不依賴于某一個(gè)特定臨界值,具有更好的穩(wěn)定性。
文檔編號(hào)H04L12/26GK102035698SQ201110005150
公開日2011年4月27日 申請(qǐng)日期2011年1月6日 優(yōu)先權(quán)日2011年1月6日
發(fā)明者丁要軍, 蔡皖東 申請(qǐng)人:西北工業(yè)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1