專利名稱:基于特征關聯(lián)的對等網絡特征分析方法
技術領域:
本發(fā)明涉及網絡信息安全領域,具體涉及一種對等網絡(Peer-to-Peer networking, P2P)特征分析方法。
背景技術:
目前,對等網絡應用在Internet網絡上的廣泛流行,已成為互聯(lián)網主流應用技術。對對等網絡特征的測量、提取與分析,能夠有效指導新型P2P協(xié)議的設計與實現(xiàn),并能夠對于規(guī)?;ヂ?lián)網絡安全事件的檢測與預警提供可靠的數(shù)據(jù)保障。對等網絡系統(tǒng)具有大規(guī)模復雜性、強動態(tài)性、以及時空演進特性等特征。而從目前技術發(fā)展狀況來看,絕大部分研究均局限于某個或某部分較為單一的網絡特征的測量與分析,且測量與分析方法還存在較大的局限性。然而,大量研究表明,單純將一部分特征割裂開來,進行單一角度、單一層次的檢測分析,而不是從宏觀上把握整個網絡的特征,從中得到的結論往往不夠全面準確,致使難以很好反映對等網絡系統(tǒng)的真實狀態(tài),甚至出現(xiàn)特征偏差。此外,隨著研究的不斷深入, 一些新的網絡特征也不斷被提出來。這要求我們必須從網絡的時空靜態(tài)、動態(tài)特征,宏觀、 微觀行為特征,以及用戶偏好特征等多個方面進行分析,通過關聯(lián)各層次特征,找到這些特征的相互內在聯(lián)系,發(fā)現(xiàn)對等網絡系統(tǒng)的潛在隱藏特征。
發(fā)明內容
為了克服現(xiàn)有方式方法測量手段單一、測量數(shù)據(jù)片面的問題,在分析歸類當前主流對等網絡的基礎上,研究具備人工智能與自主學習能力的對等網絡特征挖掘技術,建立對等網絡主被動測量相結合的監(jiān)測體系,從對等網絡結構、消息流量、用戶行為等多個層次,綜合發(fā)現(xiàn)對等網絡的新特征、隱藏特征,通過對對等網絡監(jiān)測結果時間、空間特征的跟蹤分析,建立對等網絡在上述各個特征層面上的演進規(guī)律模型,并探索對等網絡應用綜合特征分析算法,實現(xiàn)了多層次、多特征的監(jiān)測和分析。本發(fā)明主要解決了兩個問題(1)建立了對等網絡環(huán)境下性能參數(shù)測量體系,準確提取對等網絡的多個重要特性,從結構特征、流量特征、以及用戶行為特征等多個層次對對等網絡性能指標進行監(jiān)測;(2)通過數(shù)據(jù)挖掘、機器學習等技術,建立了對等網絡質量評價分析模型,實現(xiàn)了對等網絡特征與特性的準確把握,從而為對等網絡大規(guī)模安全事件應急響應提供基本的數(shù)據(jù)保障。本發(fā)明具有以下特點(1)測量算法具有高效性和實時性,能實時監(jiān)測當前對等網絡的性能指標;(2)具有自主學習能力,減少了人工干預;(3)彌補了傳統(tǒng)的基于單一特征的測量分析方法缺點,使得測量分析結論更可
罪;(4)具備數(shù)據(jù)挖掘能力,能夠發(fā)現(xiàn)對等網絡隱藏特征。
圖1為整體框架流程圖;圖2為基本網絡特征示意圖;圖3為網絡重繪示意圖;圖4為復雜網絡特征示意圖。
具體實施例方式本發(fā)明整體框架流程如下一、對網絡特征參數(shù)進行測量與統(tǒng)計。一般而言,對等網絡抽象協(xié)議可描述如下1.加入對等網絡。節(jié)點ν連接D個緩存點,緩存節(jié)點的選擇可以采用隨機選擇策略或其它更為復雜的選擇策略。2.鄰居重連。當節(jié)點ν的鄰居離開網絡后,節(jié)點ν將選擇新的緩存節(jié)點作為其鄰居,緩存節(jié)點的選擇策略可以是隨機選擇或更為復雜的策略。3.緩存節(jié)點替換。當緩存節(jié)點ν的鄰居數(shù)超過C,或者離開對等網絡,需要選擇其它節(jié)點(非緩存節(jié)點)作為新的補充。設vk是緩存節(jié)點集合中第k個節(jié)點,則選擇的基本策略是k = 0 ;while (沒有找到一個非緩存節(jié)點){在節(jié)點Vk的鄰居中尋找一個非緩存節(jié)點;k++ ;}4.鄰居信息報告。當節(jié)點ν收到鄰居信息請求消息時,ν將自己當時所有鄰居的地址信息,以及自己的相關信息一同發(fā)送給請求者。而對等網絡主動測量過程可以描述為1.預先收集對等網絡入口節(jié)點(緩存節(jié)點)的地址信息,將其保存到隊列Q中。 其中,隊列Q中的元素是唯一的。2.從隊列Q中每次取出m個未訪問的節(jié)點,獲取這些節(jié)點的信息以及其k個鄰居地址信息。3.將k個鄰居節(jié)點地址信息保存到隊列尾部,保存m個節(jié)點的鄰居關系。4.重復第2步,直到訪問完隊列Q中的所有節(jié)點或訪問了網絡中ε比例的節(jié)點。 采用多點并行分布式測量策略,以及,提高了測量速度,減少了測量誤差。由于對等網絡大規(guī)模、強動態(tài)的特性,本方法采用多點并行分布式測量策略來增大測量系統(tǒng)的獲取速度。同時,由于網絡具有異構混合(disassortative mixing)特性—— 網絡中大度節(jié)點偏好與低度節(jié)點建立鄰居關系——本方法優(yōu)先選擇大度節(jié)點訪問能獲得更多的節(jié)點信息,以減小產生訪問回路的概率。對于規(guī)則網絡和正態(tài)簡單隨機網絡,本策略不會影響測量速度;而且,對于冪律網絡和具有混雜特征(mixing pattern)的隨機網絡, 這一策略顯然更具優(yōu)勢?,F(xiàn)有的研究結論表明,節(jié)點隨機加入、離開網絡。節(jié)點隨機加入對等網絡的統(tǒng)計行為服從參數(shù)為λ的泊松分布(Possion distribution);而節(jié)點的在線時間服從參數(shù)為μ 的指數(shù)分布(Exponential distribution)。令Gt = (Vt,Et)是時刻t的網絡拓撲,節(jié)點加入網絡的泊松分布參數(shù)λ,節(jié)點在線時間的指數(shù)分布參數(shù)為μ ;令N = λ/μ。得到1.對于任意時刻 t = Ω (N),Vt = θ (N);當 t/N—c 時,滿足P (I Vt =N士 ο(Ν)) = 1-Ν"ω(1);2.存在一個常數(shù)c,對于給定的任意時刻t > clogN,對等網絡圖Gt滿足概率關系Pr (Gt 是連通的)彡 1-0 (log2N/N)。上述兩個結論說明根據(jù)抽象協(xié)議描述的對等網絡,經過一段時間后,該網絡的節(jié)點數(shù)量是相對穩(wěn)定的,同時網絡是連通的。定義完整性指數(shù)、形變指數(shù)和穩(wěn)定性指數(shù)作為衡量系統(tǒng)框架和策略中測量結果數(shù)據(jù)的指標5.設Nmax,Emax分別表示網絡中節(jié)點和邊的總數(shù),n,e為測量系統(tǒng)當前獲取節(jié)點、邊的數(shù)量,定義拓撲數(shù)據(jù)完整性指數(shù)ε = (n/Nmax+e/Emax)/2,作為測量系統(tǒng)在某一時刻獲取的拓撲數(shù)據(jù)占網絡總體的比例。根據(jù)實驗結果,我們選擇測量系統(tǒng)運行30分鐘時獲取的節(jié)點和邊的總數(shù)作為Nmax和Emax。6.同時做兩次反向爬行(Back-to-Back Crawling),獲取拓撲圖 Gtl = (V0, E0I,G1 =IV1, EJ。定義 Gc^G1W點差異集合 Vd= {v|ve (V0 xor V1)},邊差異集合 Ed = {e | e e (E0 xor E1)} ο設δ e為集合Ed中元素個數(shù),δ v為Vd中元素個數(shù),N, E分別為Gtl,G1節(jié)點數(shù)和邊數(shù)的均值。定義拓撲數(shù)據(jù)形變指數(shù)δ = (δ^Ε+δν/Νν2,以反映拓撲圖微觀結構變化情況。δ越小,說明測量系統(tǒng)越準確。δ值與每次訪問的節(jié)點數(shù)m、這m個節(jié)點的平均度數(shù) d,以及運行時間T等密切相關,通過增加m和d可以在短時間內獲得較小形變的網絡拓撲圖。7.設X,y分別為Gtl,G1節(jié)點度排名前K的節(jié)點分布序列,則拓撲數(shù)據(jù)穩(wěn)定性指數(shù) S定義為s =^Zxy-ZxZy
^{κΣχ2-α^Τ- κΣγ2 — CIy)2]S衡量連續(xù)兩次快照拓撲圖Gtl,G1節(jié)點度分布序列的相似程度,從而比較拓撲圖在宏觀結構上的一致性。S越大,說明測量系統(tǒng)獲取的拓撲圖越穩(wěn)定,數(shù)據(jù)越可靠。二、建立拓撲特征選擇模型。它包含一個基本拓撲特征參數(shù)有限集、一個復雜拓撲特征集合、以及相應的分析方法。基本拓撲特征參數(shù)集合Φ中的元素權(d = 0,1,. . . D)描述了網絡的特定拓撲特征, 也代表了具有粉(d = 0,1,. . . D)特征的網絡圖集合,內(d = 0,1,. . . D)滿足如下一些約束1.可生成性。通過構造特定的網絡拓撲生成算法,能夠生成具有相同(或相似)(Pd (d = 0,l,...D)的“人造”網絡圖;2.包容性。拓撲特征參數(shù)集合中,元素權包含元素釣(d = 0,1,. . . d-Ι)所描述的所有拓撲特征。也就是說,具有徹拓撲特征的網絡圖,必然同時具有豹(d = 0,l,...d-l)的拓撲特征;3.收斂性。模型中的拓撲特征參數(shù)集合是有限的,即在集合中,存在正整數(shù)n,元素辦描述的所有拓撲圖是同構的。集合Φ中,定義辦是網絡的平均度數(shù)<k>,它描述了每個節(jié)點的平均連接數(shù)。φ0是對網絡圖拓撲特征的描述相對粗糙,不能反映網絡中節(jié)點度分布特征,于是定義奶為網絡圖的度分布特征p(k)。類似的,列描述了度為k的節(jié)點在網絡中的數(shù)量,但是沒有反映節(jié)點間的相互連接特征,也就是說,料沒有提供度為k和k’的節(jié)點之間連接關系這一信息,于是定文內為聯(lián)合度分布特征P (k1; k2)。φ ο,約和內滿足可生成性約束條件。通過連邊重畫算法(link rewriting algorithm)可以容易地重現(xiàn)這些拓撲特征(<k>、P(k)和P(k1;k2));此外,給定網絡圖的聯(lián)合度分布特征P(k1;k2),可以很容易得到相應的度分布特征,即P(k) = <k> Σ k,P(k,k’ )/ k,同樣,給定網絡圖的度分布特征P(k),也能夠得到平均度數(shù)<k>,即<k> =Σ kP(k)。這說明,辦、列和約也滿足包容性約束條件可以通過給定的內計算出相應的特征外,進而得到特征仰,它們是單向拓撲特征包含的關系。附圖1顯示了基本拓撲特征有限集Φ中元素的相互關系以及辦、竹和內·代表的拓撲特征。附圖2是節(jié)點數(shù)為4的網絡圖實例,其粉(d = 0,1,2)描述的拓撲特征進一步定義仍為網絡圖中三角形和鍥形子圖分布密度,用網絡的聚集系數(shù)C,C(k) 等來表示;同理,可以做推廣定義仰為k個節(jié)點組成的不同子圖在網絡圖中的分布特征。容易發(fā)現(xiàn),由k+Ι個節(jié)點組成的子圖必然包含k個節(jié)點組成的子圖,也就是說,這個推廣定義滿足包容性約束條件;另一方面,當k = η時,η個節(jié)點的子圖其實就是整個網絡圖的拓撲, 也就是滿足收斂性的約束。我們將富人俱樂部連接性作為基本拓撲特征參數(shù)集合Φ中元素化。就網絡拓撲的靜態(tài)特征而言,Φ=徹(d = 0,1,2,3)既能夠很好的描述多數(shù)現(xiàn)實網絡的拓撲特征。此外, 為了描述對等網絡的可生存性包含網絡的整體性能、動態(tài)演化等特征,建立了復雜拓撲特征集合Φ’作為基本拓撲特征有限集Φ的補充。Φ’中的元素從宏觀角度描述網絡的性能、彈性、指紋等。通過集合Φ描述的特征再生成“實際”的網絡拓撲,同時利用Φ’中元素描述的特征,進一步衡量、比較分析這些拓撲特征的影響。至此,建立的拓撲特征選擇模型整體框架可以由附圖3表示。我們提出的拓撲特征選擇模型是動態(tài)的、可擴展的。也就是說,隨著網絡拓撲研究的深入和實際應用的需求,通過擴展Φ可以更細致的描述網絡的拓撲特征;通過改變Φ’中的元素則可以實現(xiàn)不同角度的分析目的。三、對等網絡拓撲特征分析方法在拓撲特征選擇模型基礎上,獲取對等網絡有效、穩(wěn)定的大規(guī)模拓撲測量數(shù)據(jù)。并針對對等網絡動態(tài)性、大規(guī)模的特點,建立了層次化的對等網絡拓撲特征分析方法如下1.計算集合0,使用0=內(d = 0,1,2,3)描述現(xiàn)實對等網絡的拓撲特征。2.測量獲取的拓撲實例進行重采樣與“再生成”,重建可以代表實際對等網絡的、 規(guī)模相對較小的,并且能夠計算其復雜拓撲特征的“再生”拓撲圖,從而得到復雜網絡拓撲特征集合Φ’中的元素,以代替目前由于計算復雜,而無法直接得到復雜拓撲特征參數(shù)。3.根據(jù)集合Φ’中的元素,分析、動態(tài)模擬“再生”拓撲圖的復雜拓撲特征;
4.根據(jù)網絡拓撲“指紋”特征、對消息轉發(fā)的影響,以及在面臨節(jié)點失效或惡意攻擊時的可生存性能等指標,得出對等網絡特征分析的最終結論。
權利要求
1.一種基于數(shù)據(jù)挖掘技術的拒絕服務攻擊防御方法和系統(tǒng),該系統(tǒng)需部署在被保護網絡的網絡入口,并為該系統(tǒng)配置數(shù)據(jù)庫服務器以存儲系統(tǒng)抽樣的實時流量;其特征在于,所述系統(tǒng)包括有異常檢測模塊,負責檢測當前網絡流量的狀態(tài)以判斷當前系統(tǒng)是否異常,并根據(jù)當前系統(tǒng)的狀態(tài)將當前網絡流量隨機抽樣至數(shù)據(jù)庫服務器的正常流量庫和異常流量庫;數(shù)據(jù)挖掘引擎模塊,負責利用數(shù)據(jù)庫服務器中的正常流量庫和異常流量庫提取可信源 IP列表和屬性分值表,并將可信源IP列表和屬性分值表分別傳遞給可信IP過濾器和流量控制模塊;可信IP過濾器模塊,負責根據(jù)可信源IP列表對數(shù)據(jù)包的源IP進行匹配,如果匹配則放行流量,否則將流量交給流量控制模塊處理;流量控制模塊,負責根據(jù)屬性分值表對流經流量控制模塊的網絡數(shù)據(jù)包進行打分,并將分值映射成數(shù)據(jù)包危險等級,該模塊根據(jù)危險度等級的高低進行選擇性的丟包。
2.如權利要求1所述的異常檢測模塊,其特征在于,所述異常檢測算法包括 定時提取TCP包頭的標志字段和IP包頭的分片標志;構造協(xié)方差矩陣,并計算協(xié)方差矩陣與協(xié)方差矩陣序列的均值的距離; 構造存儲大量距離值的歷史窗口,在假設距離值獨立同分布的情況下,計算距離值的置信區(qū)間;對判斷結果進行二次評估,使檢測算法的檢測結果更準確。
3.如權利要求1所述的網絡流量隨機抽樣,其特征在于,所述方法包括隨機生成16比特匹配串,與IP數(shù)據(jù)包Identification字段16比特進行匹配,若匹配成功則抽樣該數(shù)據(jù)包。
4.如權利要求1所述的提取可信源IP列表,其特征在于,所述方法包括 對正常流量庫中的源IP進行訪問頻度排序,得到集合S1 ;在正常流量庫中,根據(jù)IP數(shù)據(jù)包TTL屬性和IP包長度屬性提取頻繁項集,并得到頻繁屬性集對應的IP列表,得到集合S2 ;在異常流量庫中,根據(jù)IP數(shù)據(jù)包TTL屬性和IP包長度屬性提取頻繁項集,并得到頻繁屬性集對應的IP列表,得到集合S3 ; 根據(jù)前三個集合得到可信IP列表。
5.如權利要求1所述的提取屬性分值表方法,其特征在于,所述提取方法包括根據(jù)IP數(shù)據(jù)包的TTL屬性和源IP前綴(16比特)兩屬性,對正常流量庫和異常流量庫中的數(shù)據(jù)包進行頻率統(tǒng)計;按照貝葉斯定理生成屬性分值表;根據(jù)屬性分值表計算正常流量庫和異常流量庫中的數(shù)據(jù)包分值的平均值和標準差。
6.如權利要求1所述的將分值映射成數(shù)據(jù)包危險等級,其特征在于,所采用的映射方法充分考慮了貝葉斯分類誤差,并減少映射關系對數(shù)據(jù)包危險度劃分的影響。
7.如權利要求1所述的根據(jù)危險度等級的高低進行選擇性的丟包,其特征在于根據(jù)危險等級與丟包概率的對應關系,對高危險度的數(shù)據(jù)包進行高概率丟包,對于低危險度的數(shù)據(jù)包進行低概率丟包。
8.如權利要求7所述的危險等級與丟包概率的對應關系,其特征在于當危險等級為0時,丟包概率為0%,當危險等級為9時,丟包概率為10%,其他危險等級可以按照線性或指數(shù)函數(shù)關系來設定丟包率。
全文摘要
本發(fā)明公開了一種對等網絡(Peer-to-Peer networking,P2P)特征分析方法。該方法從結構特征、流量特征、以及用戶行為特征等多個層次對對等網絡進行監(jiān)測,通過在線實時數(shù)據(jù)流特征分析和離線信息內容深入挖掘等技術,實現(xiàn)對等網絡特性指標的獲取與網絡態(tài)勢的感知,從而為對等網絡安全預警,事件應急響應等方面的研究提供基本的支撐平臺和技術保障。
文檔編號H04L29/06GK102299897SQ20101020720
公開日2011年12月28日 申請日期2010年6月23日 優(yōu)先權日2010年6月23日
發(fā)明者張鳳荔, 王勇, 秦志光 申請人:電子科技大學