專利名稱:互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù),尤其涉及互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析方法及系統(tǒng)。
背景技術(shù):
互聯(lián)網(wǎng)的數(shù)據(jù)都是為網(wǎng)絡(luò)應(yīng)用服務(wù)的,每一個數(shù)據(jù)包都歸屬于某種具體的網(wǎng)絡(luò)應(yīng) 用協(xié)議。但是在網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù)并不會明確標(biāo)記自己是什么類型的數(shù)據(jù),需要通過數(shù)據(jù) 承載的網(wǎng)絡(luò)應(yīng)用某些特征用算法予以判斷識別。網(wǎng)絡(luò)應(yīng)用的特征非常多,可以從不同角度來描述,這些不同角度的描述構(gòu)成一個 網(wǎng)絡(luò)應(yīng)用的特征信息。從網(wǎng)絡(luò)應(yīng)用的角度來看,有如下的關(guān)系網(wǎng)絡(luò)應(yīng)用由一個或者多個網(wǎng)絡(luò)會話組成,一個網(wǎng)絡(luò)會話由一組網(wǎng)絡(luò)數(shù)據(jù)包(TCP/ UDP)組成,網(wǎng)絡(luò)數(shù)據(jù)包(TCP/UDP)由一組二進制網(wǎng)絡(luò)數(shù)據(jù)組成。其層次結(jié)構(gòu)為TCP/UDP數(shù)據(jù)包_>網(wǎng)絡(luò)會話_>網(wǎng)絡(luò)應(yīng)用?!獋€網(wǎng)絡(luò)應(yīng)用的特征信息包含在數(shù)據(jù)包或者網(wǎng)絡(luò)會話及其組合里面,特征信息可 能非常簡單,也可能非常復(fù)雜。復(fù)雜的特征信息可能包含如下內(nèi)容網(wǎng)絡(luò)會話的數(shù)量;各個網(wǎng)絡(luò)會話之間的先后關(guān)系和交互關(guān)系;每個網(wǎng)絡(luò)會話的數(shù)據(jù)包數(shù)量;每個數(shù)據(jù)包的大小、取值和先后關(guān)系。許多復(fù)雜的應(yīng)用協(xié)議,必需對上述四個方面構(gòu)成的信息進行完成判斷才能予以準(zhǔn) 確識別。利用上述四方面信息描述的應(yīng)用特征稱之為應(yīng)用協(xié)議的行為模式。行為模式匹配就是將某個實際數(shù)據(jù)流和已有的各種應(yīng)用協(xié)議的特征信息進行匹 配,如果匹配即認為屬于某種應(yīng)用。目前常用的行為模式匹配算法是正向匹配。正向匹配 是指一個模式比較中吻合點的數(shù)量達到某個比例即認為相同,而逆向匹配是計算不吻合點 的數(shù)量,只有不吻合點數(shù)量低于一定值才認為是相同。正向匹配容易導(dǎo)致誤判,誤判的原因是因為應(yīng)用協(xié)議非常多,而且許多應(yīng)用協(xié)議 都是借用已有的應(yīng)用協(xié)議并改進生成的新協(xié)議(我們稱前者為衍生協(xié)議,后者為原始協(xié) 議)。因此原始協(xié)議特征模式去匹配衍生協(xié)議很容易匹配上,導(dǎo)致誤判。
發(fā)明內(nèi)容
本發(fā)明提出一種互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析方法,包括根據(jù)通信模式或會話 結(jié)構(gòu),將互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采用的會話結(jié)構(gòu)進行分類;根據(jù)所述分類的結(jié)果,采用下述識別 方法中的一種或者多種將所述網(wǎng)絡(luò)應(yīng)用與預(yù)定的應(yīng)用協(xié)議進行不吻合點匹配,所述的識別 方法包括基于端口識別、基于特征碼識別、基于協(xié)議解析算法識別、基于網(wǎng)絡(luò)關(guān)聯(lián)算法識 別;當(dāng)一個網(wǎng)絡(luò)應(yīng)用與預(yù)定的應(yīng)用協(xié)議的不吻合點的數(shù)量小于預(yù)定的門限值時,將該網(wǎng)絡(luò) 應(yīng)用識別為采用所述預(yù)定的應(yīng)用協(xié)議的網(wǎng)絡(luò)應(yīng)用。
4
所述將互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采用的會話結(jié)構(gòu)進行分類包括將網(wǎng)絡(luò)應(yīng)用采用的會話 結(jié)構(gòu)分為下屬類別“Type S-F-2”類型,具有單個會話、固定端口、使用2個主機;“Type M-F-2”類型,具有多個會話、固定端口、使用2個主機;“Type M_D_2”類型,具有多個會話、 動態(tài)端口、使用2個主機;“Type M-F-3”類型,具有多個會話、固定端口、使用3個以上的主 機;“Type M-D-3”類型,具有多個會話、動態(tài)端口、使用3個以上的主機。所述基于端口識別依據(jù)網(wǎng)絡(luò)應(yīng)用使用的端口與預(yù)定的應(yīng)用協(xié)議進行不吻合點匹 配,所述基于端口識別適用于使用固定端口的網(wǎng)絡(luò)應(yīng)用;所述基于端口識別識別的端口包 括由IANA組織分配的公認端口、在IANA組織注冊的登記端口、未在IANA組織注冊但通過 流量分析得到的常用端口。所述基于特征碼識別檢查一個網(wǎng)絡(luò)應(yīng)用前幾個數(shù)據(jù)包的負載部分,確定是否存在 預(yù)定義的應(yīng)用特征碼,并以次為依據(jù)與預(yù)定的應(yīng)用協(xié)議進行不吻合點匹配;所述特征碼包 括固定長度字符串、或者可變長度字符串,所述固定長度字符串或可變長度字符串用正規(guī) 表達式表不。所述基于協(xié)議解析算法識別適用于使用動態(tài)端口的網(wǎng)絡(luò)應(yīng)用,進一步包括1)建 立描述控制會話端口的表CPT ;2)如果網(wǎng)絡(luò)應(yīng)用的主端口在CPT中存在,并且沒有設(shè)置FIN 標(biāo)志,則執(zhí)行步驟3)-6);否則執(zhí)行步驟7) ;3)由分派函數(shù)指派相應(yīng)的協(xié)議解析函數(shù),對 負載進行協(xié)議分析;4)如果協(xié)議分析結(jié)果正確,則為該網(wǎng)絡(luò)應(yīng)用建立一個會話流,并且解 析出后續(xù)動態(tài)會話端口 ;否則,該網(wǎng)絡(luò)應(yīng)用視為其他應(yīng)用;5)如果所述網(wǎng)絡(luò)應(yīng)用有二級控 制會話,則依據(jù)步驟3)和4)繼續(xù)對負載進行協(xié)議分析,直至解析出數(shù)據(jù)會話端口 ;6)所 有屬于二級控制會話和數(shù)據(jù)會話的網(wǎng)絡(luò)包,都屬于該網(wǎng)絡(luò)應(yīng)用的所述會話流;7)如果收到 Disconnect網(wǎng)絡(luò)包,或者在一定的超時時間內(nèi)會話流的數(shù)據(jù)包不再到達,則該會話流結(jié)束。所述基于網(wǎng)絡(luò)關(guān)聯(lián)算法識別將一些具有時間、空間屬性相似性的網(wǎng)絡(luò)應(yīng)用相關(guān) 聯(lián),將獲取的交互圖與預(yù)定的應(yīng)用協(xié)議相比較進行不吻合點匹配;所述于網(wǎng)絡(luò)關(guān)聯(lián)算法識 別應(yīng)用加權(quán)流關(guān)聯(lián)映射分組,將獨立的網(wǎng)絡(luò)應(yīng)用按照關(guān)聯(lián)管理組合成網(wǎng)絡(luò)應(yīng)用組,所述網(wǎng) 絡(luò)應(yīng)用組被認為是屬于同一應(yīng)用,所述加權(quán)流關(guān)聯(lián)映射分組包括按照屬性依賴關(guān)系進行 分組,將網(wǎng)絡(luò)應(yīng)用進行關(guān)聯(lián)合并,形成PDG組;按照預(yù)定權(quán)重將在源、目的地址上存在關(guān)聯(lián) 關(guān)系的PDG組進一步進行關(guān)聯(lián)合并,形成LDG組。本發(fā)明還提出一種互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析系統(tǒng),包括分類裝置,根據(jù)通信 模式或會話結(jié)構(gòu),將互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采用的會話結(jié)構(gòu)進行分類;逆向匹配裝置,根據(jù)所述 分類的結(jié)果,所述網(wǎng)絡(luò)應(yīng)用與預(yù)定的應(yīng)用協(xié)議進行不吻合點匹配;識別裝置,當(dāng)一個網(wǎng)絡(luò)應(yīng) 用與預(yù)定的應(yīng)用協(xié)議的不吻合點的數(shù)量小于預(yù)定的門限值時,將該網(wǎng)絡(luò)應(yīng)用識別為采用所 述預(yù)定的應(yīng)用協(xié)議的網(wǎng)絡(luò)應(yīng)用。所述逆向匹配裝置包括基于端口識別的裝置、基于特征碼識別的裝置、基于協(xié)議 解析算法識別的裝置、基于網(wǎng)絡(luò)關(guān)聯(lián)算法識別的裝置。本發(fā)明利用行為模式的逆向匹配,計算不吻合點的數(shù)量,只有不吻合點數(shù)量低于 一定值才認為是相同,大大提高了網(wǎng)絡(luò)應(yīng)用識別的準(zhǔn)確性。
圖1揭示了互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析方法的流程圖2揭示了互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析系統(tǒng)的結(jié)構(gòu)圖。
具體實施例方式參考圖1所示,揭示了互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析方法的流程圖,該方法包括下述的步驟S1、根據(jù)通信模式或會話結(jié)構(gòu),將互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采用的會話結(jié)構(gòu)進行分類;S2、根據(jù)分類的結(jié)果,采用下述識別方法中的一種或者多種將網(wǎng)絡(luò)應(yīng)用與預(yù)定的 應(yīng)用協(xié)議進行不吻合點匹配,識別方法包括基于端口識別、基于特征碼識別、基于協(xié)議解 析算法識別、基于網(wǎng)絡(luò)關(guān)聯(lián)算法識別;S3、當(dāng)一個網(wǎng)絡(luò)應(yīng)用與預(yù)定的應(yīng)用協(xié)議的不吻合點的數(shù)量小于預(yù)定的門限值時, 將該網(wǎng)絡(luò)應(yīng)用識別為采用所述預(yù)定的應(yīng)用協(xié)議的網(wǎng)絡(luò)應(yīng)用。目前互聯(lián)網(wǎng)上的新型網(wǎng)絡(luò)應(yīng)用紛繁復(fù)雜、協(xié)議繁多,且不斷出現(xiàn)私有協(xié)議類應(yīng)用, 再利用傳統(tǒng)的基于公認端口或注冊端口的方法識別流量的應(yīng)用類型是存在許多不足和不 準(zhǔn)確的。總結(jié)而言,目前互聯(lián)網(wǎng)上常見的協(xié)議和應(yīng)用見表1 表 1 分析以上這些網(wǎng)絡(luò)應(yīng)用的通信模式或會話結(jié)構(gòu),可以將這些網(wǎng)絡(luò)應(yīng)用采用的會話 結(jié)構(gòu)分為以下幾類,如表2所示表2 針對上述的幾種不同會話結(jié)構(gòu)的網(wǎng)絡(luò)應(yīng)用,可以采用的網(wǎng)絡(luò)應(yīng)用的識別方法包 括基于端口識別,對于Type S_F_2類型的應(yīng)用,這種方法準(zhǔn)確度較高;基于特征碼識別,對于部分Type M_F_3和Type M_D_3類型的應(yīng)用有效,但該方法 對機器性能要求高;基于協(xié)議解析算法識別,適合于Type M_D_2類型的應(yīng)用;基于網(wǎng)絡(luò)關(guān)聯(lián)算法識別,適合于Type M_F_2、Type M_F_3和TypeM-D-3?;诙丝诘淖R別基于端口識別方法依據(jù)網(wǎng)絡(luò)應(yīng)用使用的端口識別應(yīng)用類型,主要適用于識別使用 固定端口流量的協(xié)議及應(yīng)用類型。這些協(xié)議及應(yīng)用類型使用固定端口分三種情況使用IANA組織分配的公認端口,例如,web應(yīng)用、e-maile-mai 1應(yīng)用,DNS協(xié)議等。 公認端口(Well Known)主要由超級用戶進程或特權(quán)用戶程序使用,由IANA統(tǒng)一分配,在0 到1023之間;一些企業(yè)開發(fā)的專用協(xié)議或應(yīng)用使用在IANA組織注冊的登記端口,例如,MS SQL、 Oracle database等應(yīng)用;登記端口 (Registered Ports)由普通用戶進程使用,在1024到 49151之間;一些流行協(xié)議或應(yīng)用也使用專用端口,盡管這些端口未在IANA組織注冊,但我們 可以通過流量分析得到這些網(wǎng)絡(luò)應(yīng)用的常用端口?;诙丝谧R別應(yīng)用類型方法的優(yōu)點是實現(xiàn)簡單,但當(dāng)前許多網(wǎng)絡(luò)應(yīng)用為了穿透防 火墻也經(jīng)常使用公認端口或者使用動態(tài)端口,對于這些應(yīng)用情況,不能使用端口方法識別 流量的應(yīng)用類型?;谔卣鞔a識別基于特征碼識別應(yīng)用類型方法已廣泛地應(yīng)用于安全領(lǐng)域,例如,防病毒程序、入侵
7檢測系統(tǒng)都是使用特征匹配技術(shù)發(fā)現(xiàn)已知病毒、已知網(wǎng)絡(luò)攻擊行為。類似地,可以將特征匹 配技術(shù)應(yīng)用于識別網(wǎng)絡(luò)應(yīng)用量的應(yīng)用類型?;谔卣鞔a識別是檢查一個網(wǎng)絡(luò)應(yīng)用前幾個數(shù)據(jù)包的負載部分,確定是否存在預(yù) 定義的應(yīng)用特征碼。應(yīng)用特征碼有兩種類型,一般是固定長度字符串,另一種是可變長度字 符串,都用正規(guī)表達式表示。一些網(wǎng)絡(luò)應(yīng)用及其特征見表3:表 3 基于特征碼識別的特點是不管網(wǎng)絡(luò)應(yīng)用使用什么端口,都可以準(zhǔn)確流量的應(yīng)用類 型。但特征碼匹配開銷很大,同時獲取一個網(wǎng)絡(luò)應(yīng)用的唯一特征碼需要大量的離線流量分 析?;趨f(xié)議解析算法識別基于協(xié)議解析算法識別適用于識別一些使用動態(tài)端口的網(wǎng)絡(luò)應(yīng)用產(chǎn)生的流量。 比如,VoIP、流媒體、多媒體等網(wǎng)絡(luò)應(yīng)用。動態(tài)會話過程的特點是先通過一個公開的固定 端口建立一個控制會話(Control Session),在控制會話中協(xié)商出后面的數(shù)據(jù)會話(Data Session)的動態(tài)端口。有些應(yīng)用則是在協(xié)商出數(shù)據(jù)會話的動態(tài)端口之前,還有一個二級控 制會話(Second Control Session)的端口協(xié)商過程。后者的典型應(yīng)用如H. 323體系的多 媒體通信,這些應(yīng)用除了關(guān)注流量和流向外,往往還需要連接時長、適用的何種音視頻編解 碼算法、音視頻質(zhì)量等信息,因此,就有必要對Payload進行解析。為分析上述網(wǎng)絡(luò)應(yīng)用,基于協(xié)議解析算法識別適用于使用動態(tài)端口的網(wǎng)絡(luò)應(yīng)用虛 包含下述的步驟1)建立一個描述控制會話端口的表(CPT);2)如果網(wǎng)絡(luò)應(yīng)用的網(wǎng)絡(luò)包的主端口在CPT中存在,并且,沒有設(shè)置FIN標(biāo)志,則執(zhí) 行3)-6);否則執(zhí)行步驟7);3)由分派函數(shù)指派相應(yīng)的協(xié)議解析函數(shù),對負載進行協(xié)議分析;4)如果協(xié)議分析結(jié)果正確,則為該應(yīng)用建立一個會話流(SessionFlow),并且解 析出后續(xù)動態(tài)會話(Dynamic Session)端口 ;否則,該網(wǎng)絡(luò)包視為其他應(yīng)用,參與其他應(yīng)用的分析;5)如果所述網(wǎng)絡(luò)應(yīng)用有二級控制會話,則仿照3)、4)的步驟,繼續(xù)進行負載分析, 直至解析出數(shù)據(jù)會話(Data Session)端口 ;6)所有屬于二級控制會話和數(shù)據(jù)會話的網(wǎng)絡(luò)包,都屬于該應(yīng)用的這個會話流;7)如果收到Disconnect的網(wǎng)絡(luò)包,或者在一定的超時時間內(nèi)會話流的數(shù)據(jù)包不 再到達,則該會話流結(jié)束?;趨f(xié)議解析算法識別的特點是可以準(zhǔn)確識別流量的應(yīng)用類型,缺點是需要解析 信令數(shù)據(jù)包,處理開銷較大,同時只適用于已知協(xié)議類型。基于網(wǎng)絡(luò)關(guān)聯(lián)算法識別基于單個網(wǎng)絡(luò)應(yīng)用識別應(yīng)用類型的方法在當(dāng)前網(wǎng)絡(luò)應(yīng)用更加復(fù)雜的情況下,不能 完全滿足識別需要。例如P2P應(yīng)用,在一個會話過程中可能同時建立多個網(wǎng)絡(luò)應(yīng)用,僅依賴 于單個網(wǎng)絡(luò)應(yīng)用識別應(yīng)用類型是不完整的,有時是不準(zhǔn)確的。例如,BT應(yīng)用使用HTTP協(xié)議 下載數(shù)據(jù),如果只依據(jù)單個HTTP網(wǎng)絡(luò)應(yīng)用識別應(yīng)用類型,就會將流量應(yīng)用類型識別為一種 Web應(yīng)用?;诰W(wǎng)絡(luò)關(guān)聯(lián)算法識別將一些具有時間、空間屬性相似性的網(wǎng)絡(luò)應(yīng)用相關(guān)聯(lián),將 獲取的交互圖與已知網(wǎng)絡(luò)應(yīng)用的會話結(jié)構(gòu)相比較而識別應(yīng)用類型。這種方法可以更準(zhǔn)確識 別網(wǎng)絡(luò)應(yīng)用量的應(yīng)用類型,同時可以識別未知應(yīng)用類型網(wǎng)絡(luò)應(yīng)用的應(yīng)用類型。在基于網(wǎng)絡(luò)關(guān)聯(lián)算法識別的過程中,分析網(wǎng)絡(luò)應(yīng)用相關(guān)性采用加權(quán)流關(guān)聯(lián)映射分 組(Weighted Session Flow Relationship Grouping,WSFRG)方法。加權(quán)流關(guān)聯(lián)映射分組 將獨立的網(wǎng)絡(luò)應(yīng)用(Flow)按照關(guān)聯(lián)管理組合成網(wǎng)絡(luò)應(yīng)用組(Flow Group),這些網(wǎng)絡(luò)應(yīng)用 組被認為是屬于同一種應(yīng)用,算法分兩個步驟第一步是按照屬性依賴關(guān)系進行分組,稱作Property DependencyGrouping (PDG), 將網(wǎng)絡(luò)應(yīng)用進行關(guān)聯(lián)合并,稱為PDG組第二步在第一步的基礎(chǔ)上,按照一定權(quán)重將在源、目的地址上存在關(guān)聯(lián)關(guān)系的PDG 組進一步進行關(guān)聯(lián)合并,稱為Location D印endencyGrouping(LDG),最后形成LDG組。經(jīng)過上述兩個步驟合并后的網(wǎng)絡(luò)應(yīng)用組的數(shù)目就少了很多,根據(jù)這些流組信息分 析應(yīng)用類型,對于未知應(yīng)用類型的流組,包含的信息也可以提供給離線的應(yīng)用分析作為參考。參考圖2所示,本發(fā)明還揭示了一種互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析系統(tǒng),包括分類裝置20,根據(jù)通信模式或會話結(jié)構(gòu),將互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采用的會話結(jié)構(gòu)進 行分類;逆向匹配裝置21,根據(jù)分類的結(jié)果,所述網(wǎng)絡(luò)應(yīng)用與預(yù)定的應(yīng)用協(xié)議進行不吻合 點匹配,該逆向匹配裝置21包括基于端口識別的裝置30、基于特征碼識別的裝置31、基于 協(xié)議解析算法識別的裝置32、基于網(wǎng)絡(luò)關(guān)聯(lián)算法識別的裝置33 ;識別裝置22,當(dāng)一個網(wǎng)絡(luò)應(yīng)用與預(yù)定的應(yīng)用協(xié)議的不吻合點的數(shù)量小于預(yù)定的門 限值時,將該網(wǎng)絡(luò)應(yīng)用識別為采用所述預(yù)定的應(yīng)用協(xié)議的網(wǎng)絡(luò)應(yīng)用。本發(fā)明利用行為模式的逆向匹配,計算不吻合點的數(shù)量,只有不吻合點數(shù)量低于 一定值才認為是相同,大大提高了網(wǎng)絡(luò)應(yīng)用識別的準(zhǔn)確性。
權(quán)利要求
一種互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析方法,其特征在于,包括根據(jù)通信模式或會話結(jié)構(gòu),將互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采用的會話結(jié)構(gòu)進行分類;根據(jù)所述分類的結(jié)果,采用下述識別方法中的一種或者多種將所述網(wǎng)絡(luò)應(yīng)用與預(yù)定的應(yīng)用協(xié)議進行不吻合點匹配,所述的識別方法包括基于端口識別、基于特征碼識別、基于協(xié)議解析算法識別、基于網(wǎng)絡(luò)關(guān)聯(lián)算法識別;當(dāng)一個網(wǎng)絡(luò)應(yīng)用與預(yù)定的應(yīng)用協(xié)議的不吻合點的數(shù)量小于預(yù)定的門限值時,將該網(wǎng)絡(luò)應(yīng)用識別為采用所述預(yù)定的應(yīng)用協(xié)議的網(wǎng)絡(luò)應(yīng)用。
2.如權(quán)利要求1所述的互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析方法,其特征在于,所述將互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采用的會話結(jié)構(gòu)進行分類包括將網(wǎng)絡(luò)應(yīng)用采用的會話結(jié)構(gòu) 分為下屬類別"Type S-F-2”類型,具有單個會話、固定端口、使用2個主機;"Type M-F-2”類型,具有多個會話、固定端口、使用2個主機;"Type M-D-2”類型,具有多個會話、動態(tài)端口、使用2個主機;"Type M-F-3”類型,具有多個會話、固定端口、使用3個以上的主機;"Type M-D-3”類型,具有多個會話、動態(tài)端口、使用3個以上的主機。
3.如權(quán)利要求2所述的互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析方法,其特征在于,所述基于端 口識別依據(jù)網(wǎng)絡(luò)應(yīng)用使用的端口與預(yù)定的應(yīng)用協(xié)議進行不吻合點匹配,所述基于端口識別 適用于使用固定端口的網(wǎng)絡(luò)應(yīng)用;所述基于端口識別識別的端口包括由IANA組織分配的公認端口、在IANA組織注冊的 登記端口、未在IANA組織注冊但通過流量分析得到的常用端口。
4.如權(quán)利要求2所述的互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析方法,其特征在于,所述基于特 征碼識別檢查一個網(wǎng)絡(luò)應(yīng)用前幾個數(shù)據(jù)包的負載部分,確定是否存在預(yù)定義的應(yīng)用特征 碼,并以次為依據(jù)與預(yù)定的應(yīng)用協(xié)議進行不吻合點匹配;所述特征碼包括固定長度字符串、或者可變長度字符串,所述固定長度字符串或可變 長度字符串用正規(guī)表達式表示。
5.如權(quán)利要求2所述的互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析方法,其特征在于,所述基于協(xié) 議解析算法識別適用于使用動態(tài)端口的網(wǎng)絡(luò)應(yīng)用,進一步包括1)建立描述控制會話端口的表CPT;2)如果網(wǎng)絡(luò)應(yīng)用的主端口在CPT中存在,并且沒有設(shè)置FIN標(biāo)志,則執(zhí)行步驟3)-6); 否則執(zhí)行步驟7);3)由分派函數(shù)指派相應(yīng)的協(xié)議解析函數(shù),對負載進行協(xié)議分析;4)如果協(xié)議分析結(jié)果正確,則為該網(wǎng)絡(luò)應(yīng)用建立一個會話流,并且解析出后續(xù)動態(tài)會 話端口 ;否則,該網(wǎng)絡(luò)應(yīng)用視為其他應(yīng)用;5)如果所述網(wǎng)絡(luò)應(yīng)用有二級控制會話,則依據(jù)步驟3)和4)繼續(xù)對負載進行協(xié)議分析, 直至解析出數(shù)據(jù)會話端口;6)所有屬于二級控制會話和數(shù)據(jù)會話的網(wǎng)絡(luò)包,都屬于該網(wǎng)絡(luò)應(yīng)用的所述會話流;7)如果收到Disconnect網(wǎng)絡(luò)包,或者在一定的超時時間內(nèi)會話流的數(shù)據(jù)包不再到達, 則該會話流結(jié)束。
6.如權(quán)利要求2所述的互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析方法,其特征在于,所述基于網(wǎng)絡(luò)關(guān)聯(lián)算法識別將一些具有時間、空間屬性相似性的網(wǎng)絡(luò)應(yīng)用相關(guān)聯(lián),將獲取的交互圖與 預(yù)定的應(yīng)用協(xié)議相比較進行不吻合點匹配;所述于網(wǎng)絡(luò)關(guān)聯(lián)算法識別應(yīng)用加權(quán)流關(guān)聯(lián)映射分組,將獨立的網(wǎng)絡(luò)應(yīng)用按照關(guān)聯(lián)管理 組合成網(wǎng)絡(luò)應(yīng)用組,所述網(wǎng)絡(luò)應(yīng)用組被認為是屬于同一應(yīng)用,所述加權(quán)流關(guān)聯(lián)映射分組包 括按照屬性依賴關(guān)系進行分組,將網(wǎng)絡(luò)應(yīng)用進行關(guān)聯(lián)合并,形成PDG組; 按照預(yù)定權(quán)重將在源、目的地址上存在關(guān)聯(lián)關(guān)系的PDG組進一步進行關(guān)聯(lián)合并,形成 LDG 組。
7.—種互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析系統(tǒng),其特征在于,包括分類裝置,根據(jù)通信模式或會話結(jié)構(gòu),將互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采用的會話結(jié)構(gòu)進行分類;逆向匹配裝置,根據(jù)所述分類的結(jié)果,所述網(wǎng)絡(luò)應(yīng)用與預(yù)定的應(yīng)用協(xié)議進行不吻合點 匹配;識別裝置,當(dāng)一個網(wǎng)絡(luò)應(yīng)用與預(yù)定的應(yīng)用協(xié)議的不吻合點的數(shù)量小于預(yù)定的門限值 時,將該網(wǎng)絡(luò)應(yīng)用識別為采用所述預(yù)定的應(yīng)用協(xié)議的網(wǎng)絡(luò)應(yīng)用。
8.如權(quán)利要求7所述的網(wǎng)絡(luò)應(yīng)用采集與分析系統(tǒng),其特征在于,所述逆向匹配裝置包括基于端口識別的裝置、基于特征碼識別的裝置、基于協(xié)議解析算法識別的裝置、基于網(wǎng) 絡(luò)關(guān)聯(lián)算法識別的裝置。
全文摘要
本發(fā)明揭示了一種互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析方法,包括根據(jù)通信模式或會話結(jié)構(gòu),將互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采用的會話結(jié)構(gòu)進行分類;根據(jù)分類的結(jié)果,采用下述識別方法中的一種或者多種將所述網(wǎng)絡(luò)應(yīng)用與預(yù)定的應(yīng)用協(xié)議進行不吻合點匹配,識別方法包括基于端口識別、基于特征碼識別、基于協(xié)議解析算法識別、基于網(wǎng)絡(luò)關(guān)聯(lián)算法識別;當(dāng)一個網(wǎng)絡(luò)應(yīng)用與預(yù)定的應(yīng)用協(xié)議的不吻合點的數(shù)量小于預(yù)定的門限值時,將該網(wǎng)絡(luò)應(yīng)用識別為采用所述預(yù)定的應(yīng)用協(xié)議的網(wǎng)絡(luò)應(yīng)用。本發(fā)明還揭示了一種互聯(lián)網(wǎng)的網(wǎng)絡(luò)應(yīng)用采集與分析系統(tǒng)。
文檔編號H04L29/06GK101854330SQ20091004876
公開日2010年10月6日 申請日期2009年4月2日 優(yōu)先權(quán)日2009年4月2日
發(fā)明者周向陽, 張曉初, 楊瑞君, 胡申明 申請人:上?;ヂ?lián)網(wǎng)絡(luò)交換中心