本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)傳輸技術(shù)領(lǐng)域,尤其涉及一種DPI規(guī)則的生成方法及裝置。
背景技術(shù):
DPI(Deep Packet Inspection,深度業(yè)務(wù)識別)是一種對網(wǎng)絡(luò)中不同的業(yè)務(wù)流進行區(qū)分的技術(shù),DPI通過分析業(yè)務(wù)流中數(shù)據(jù)包的深度特征值和協(xié)議行為識別出數(shù)據(jù)屬性及業(yè)務(wù)類型,通過不同客戶、不同業(yè)務(wù)的標(biāo)識為網(wǎng)絡(luò)業(yè)務(wù)的精細化分析及控制提供支持。
目前,移動互聯(lián)網(wǎng)的業(yè)務(wù)應(yīng)用層出不窮,且同一應(yīng)用的版本更新頻繁,導(dǎo)致當(dāng)前DPI規(guī)則庫的基于已知業(yè)務(wù)識別的DPI規(guī)則無法滿足業(yè)務(wù)分析的需要,造成DPI規(guī)則無法準確識別互聯(lián)網(wǎng)數(shù)據(jù)中的業(yè)務(wù)數(shù)據(jù)。
技術(shù)實現(xiàn)要素:
本發(fā)明提供一種DPI規(guī)則的生成方法及裝置,旨在解決DPI規(guī)則庫的DPI規(guī)則無法準確識別互聯(lián)網(wǎng)數(shù)據(jù)中的業(yè)務(wù)數(shù)據(jù)的技術(shù)問題。
為實現(xiàn)上述目的,本發(fā)明提供的一種DPI規(guī)則的生成方法,所述DPI規(guī)則的生成方法包括以下步驟:
獲取互聯(lián)網(wǎng)數(shù)據(jù),基于DPI規(guī)則庫的DPI規(guī)則識別所述互聯(lián)網(wǎng)數(shù)據(jù);
在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,分析所述未識別數(shù)據(jù),以獲取所述未識別數(shù)據(jù)的第一特征,其中,所述未識別數(shù)據(jù)為所述互聯(lián)網(wǎng)數(shù)據(jù)中所述DPI規(guī)則無法識別的互聯(lián)網(wǎng)數(shù)據(jù);
基于所述第一特征編譯生成DPI規(guī)則;
將所述DPI規(guī)則存儲至所述DPI規(guī)則庫。
優(yōu)選地,所述在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,分析所述未識別數(shù)據(jù),以獲取所述未識別數(shù)據(jù)的第一特征的步驟包括:
在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,獲取所述未識別數(shù)據(jù)的第二特征;
基于所述第二特征過濾所述未識別數(shù)據(jù),以獲取業(yè)務(wù)數(shù)據(jù);
分析所述業(yè)務(wù)數(shù)據(jù),以獲取所述業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)特征;
將獲取的所述業(yè)務(wù)特征作為所述未識別數(shù)據(jù)的第一特征。
優(yōu)選地,在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,獲取所述未識別數(shù)據(jù)的第二特征的步驟與所述基于所述第二特征過濾所述未識別數(shù)據(jù),以獲取業(yè)務(wù)數(shù)據(jù)的步驟之間,所述DPI規(guī)則的生成方法還包括:
獲取所述第二特征對應(yīng)的第一目標(biāo)IP地址和/或第一用戶數(shù)據(jù);
在所述第一目標(biāo)IP地址與所述第二特征對應(yīng)的第二目標(biāo)IP地址不一致時,采用所述第二目標(biāo)IP更新所述未識別數(shù)據(jù)中的第一目標(biāo)IP地址;
和/或,在所述第一用戶數(shù)據(jù)與所述第二特征對應(yīng)的第二用戶數(shù)據(jù)不一致時,采用所述第二用戶數(shù)據(jù)更新所述未識別數(shù)據(jù)中的所述第一用戶數(shù)據(jù)。
優(yōu)選地,所述分析所述業(yè)務(wù)數(shù)據(jù),以獲取所述業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)特征的步驟包括:
將所述業(yè)務(wù)數(shù)據(jù)分為多組業(yè)務(wù)數(shù)據(jù)組;
對所述業(yè)務(wù)數(shù)據(jù)組的相同序列的載荷報文進行數(shù)據(jù)挖掘,以獲取各個所述業(yè)務(wù)數(shù)據(jù)組的業(yè)務(wù)特征;
將獲取的所述業(yè)務(wù)特征作為所述未識別數(shù)據(jù)的第一特征。
優(yōu)選地,所述將所述DPI規(guī)則存儲至DPI規(guī)則庫的步驟包括:
判斷生成的所述DPI規(guī)則與所述DPI規(guī)則庫的所述DPI規(guī)則是否沖突;
在生成的所述DPI規(guī)則與DPI規(guī)則庫的DPI規(guī)則均不存在沖突時,將所述DPI規(guī)則存儲至DPI規(guī)則庫。
此外,為實現(xiàn)上述目的,本發(fā)明還提供一種DPI規(guī)則的生成裝置,所述DPI規(guī)則的生成裝置包括:
識別模塊,用于獲取互聯(lián)網(wǎng)數(shù)據(jù),基于DPI規(guī)則庫的DPI規(guī)則識別所述互聯(lián)網(wǎng)數(shù)據(jù);
分析模塊,用于在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,分析所述未識別數(shù)據(jù),以獲取所述未識別數(shù)據(jù)的第一特征,其中,所述未識別數(shù)據(jù)為所述互聯(lián)網(wǎng)數(shù)據(jù)中所述DPI規(guī)則無法識別的互聯(lián)網(wǎng)數(shù)據(jù);
編譯模塊,用于基于所述第一特征編譯生成DPI規(guī)則;
存儲模塊,用于將所述DPI規(guī)則存儲至所述DPI規(guī)則庫。
優(yōu)選地,所述分析模塊包括:
第一獲取單元,用于在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,獲取所述未識別數(shù)據(jù)的第二特征;
過濾單元,用于基于所述第二特征過濾所述未識別數(shù)據(jù),以獲取業(yè)務(wù)數(shù)據(jù);
分析單元,用于分析所述業(yè)務(wù)數(shù)據(jù),以獲取所述業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)特征,并將獲取的所述業(yè)務(wù)特征作為所述未識別數(shù)據(jù)的第一特征。
優(yōu)選地,所述分析模塊還包括:
第二獲取單元,用于所述第二特征對應(yīng)的第一目標(biāo)IP地址和/或第一用戶數(shù)據(jù);
更新單元,用于在所述第一目標(biāo)IP地址與所述第二特征對應(yīng)的第二目標(biāo)IP地址不一致時,采用所述第二目標(biāo)IP更新所述未識別數(shù)據(jù)中的第一目標(biāo)IP地址;和/或,用于在所述第一用戶數(shù)據(jù)與所述第二特征對應(yīng)的第二用戶數(shù)據(jù)不一致時,采用所述第二用戶數(shù)據(jù)更新所述未識別數(shù)據(jù)中的所述第一用戶數(shù)據(jù)。
優(yōu)選地,所述分析單元包括:
分組子單元,用于將所述業(yè)務(wù)數(shù)據(jù)分為多組業(yè)務(wù)數(shù)據(jù)組;
數(shù)據(jù)挖掘子單元,用于對所述業(yè)務(wù)數(shù)據(jù)組的相同序列的載荷報文進行數(shù)據(jù)挖掘,以獲取各個所述業(yè)務(wù)數(shù)據(jù)組的業(yè)務(wù)特征,并將獲取的所述業(yè)務(wù)特征作為所述未識別數(shù)據(jù)的第一特征。
優(yōu)選地,所述存儲模塊包括:
判斷單元,用于判斷生成的所述DPI規(guī)則與所述DPI規(guī)則庫的所述DPI規(guī)則是否沖突;
存儲單元,用于在生成的所述DPI規(guī)則與所述DPI規(guī)則庫的所述DPI規(guī)則不存在沖突時,將所述DPI規(guī)則存儲至DPI規(guī)則庫。
本發(fā)明首先通過獲取互聯(lián)網(wǎng)數(shù)據(jù),基于DPI規(guī)則庫的DPI規(guī)則識別所述互聯(lián)網(wǎng)數(shù)據(jù),以獲取未識別數(shù)據(jù);接著分析所述未識別數(shù)據(jù),以獲取所述未識別數(shù)據(jù)的業(yè)務(wù)特征;然后基于所述業(yè)務(wù)特征編譯生成DPI規(guī)則;最后存儲所述DPI規(guī)則至所述DPI規(guī)則庫。根據(jù)獲取到的互聯(lián)網(wǎng)數(shù)據(jù)獲取未識別數(shù)據(jù)、分析未識別數(shù)據(jù)的業(yè)務(wù)特征,基于業(yè)務(wù)特征編譯生成DPI規(guī)則,并基于DPI 規(guī)則更新DPI規(guī)則庫,完成了DPI規(guī)則庫的實時自動更新,避免出現(xiàn)DPI規(guī)則庫的DPI規(guī)則無法準確識別互聯(lián)網(wǎng)數(shù)據(jù)中的業(yè)務(wù)數(shù)據(jù)的問題,提高了數(shù)據(jù)識別的識別率和準確率。
附圖說明
圖1為本發(fā)明DPI規(guī)則的生成方法第一實施例的流程示意圖;
圖2為圖1中步驟S40的細化流程示意圖;
圖3為圖1中步驟S20第一實施例的細化流程示意圖;
圖4為圖1中步驟S20第二實施例的細化流程示意圖;
圖5為圖3中步驟S23的細化流程示意圖;
圖6為DPI規(guī)則的生成裝置第一實施例的功能模塊示意圖;
圖7為圖6中存儲模塊的細化功能模塊示意圖;
圖8為圖6中分析模塊第一實施例的細化功能模塊示意圖;
圖9為圖6中分析模塊第二實施例的細化功能模塊示意圖;
圖10為圖8中分析單元的細化功能模塊示意圖。
本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。
具體實施方式
應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明提供一種DPI規(guī)則的生成方法。
參照圖1,圖1為DPI規(guī)則的生成方法第一實施例的流程示意圖。
在本實施例中,該DPI規(guī)則的生成方法包括:
步驟S10,獲取互聯(lián)網(wǎng)數(shù)據(jù),基于DPI規(guī)則庫的DPI規(guī)則識別所述互聯(lián)網(wǎng)數(shù)據(jù);
采集/獲取移動互聯(lián)網(wǎng)數(shù)據(jù),基于DPI規(guī)則庫的DPI規(guī)則識別采集/獲取到的移動互聯(lián)網(wǎng)數(shù)據(jù)。
步驟S20,在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,分析所述未識別數(shù)據(jù),以獲取所述未識別數(shù)據(jù)的第一特征,其中,所述未識別數(shù)據(jù)為所述互聯(lián)網(wǎng)數(shù) 據(jù)中所述DPI規(guī)則無法識別的互聯(lián)網(wǎng)數(shù)據(jù);
在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,對未識別數(shù)據(jù)進行分析,用以獲取未識別數(shù)據(jù)的第一特征。采用固有特征集包含的特征、未識別數(shù)據(jù)的負載和/或未識別數(shù)據(jù)中多數(shù)數(shù)據(jù)流的相同序列具有的共同特征等基于數(shù)據(jù)挖掘算法獲取第一特征。該第一特征為固有特征集包含的特征、未識別數(shù)據(jù)的負載和/或未識別數(shù)據(jù)中多數(shù)數(shù)據(jù)流的相同序列具有的共同特征中的一種或幾種;其中負載是指未識別數(shù)據(jù)包含的對應(yīng)的服務(wù)器等加密數(shù)據(jù)序列。
步驟S30,基于所述第一特征編譯生成DPI規(guī)則;
基于獲取的第一特征編譯生成DPI規(guī)則。編譯方式可以采用現(xiàn)有DPI規(guī)則的編譯方式,也可以采用其他編譯方式,譬如現(xiàn)有DPI規(guī)則的編譯方式優(yōu)化后的編譯方式等,本實施例中不做進一步地限定。
步驟S40,將所述DPI規(guī)則存儲至所述DPI規(guī)則庫。
將編譯生成的DPI規(guī)則存儲至DPI規(guī)則庫,即基于編譯生成的DPI規(guī)則更新DPI規(guī)則庫,其更新過程采用熱更新。
在其他實施例中,請參考圖2,步驟S40包括:
步驟S41、判斷生成的所述DPI規(guī)則與所述DPI規(guī)則庫的所述DPI規(guī)則是否沖突;
步驟S42、在生成的所述DPI規(guī)則與所述DPI規(guī)則庫的所述DPI規(guī)則不存在沖突時,將所述DPI規(guī)則存儲至DPI規(guī)則庫。
在基于生成的DPI規(guī)則搜索的數(shù)據(jù)與基于DPI規(guī)則庫的DPI規(guī)則搜索的數(shù)據(jù)一致、基于生成的DPI規(guī)則搜索的數(shù)據(jù)包含或者包含于基于DPI規(guī)則庫的DPI規(guī)則搜索的數(shù)據(jù)、或基于生成的DPI規(guī)則搜索的數(shù)據(jù)與基于DPI規(guī)則庫的DPI規(guī)則搜索的數(shù)據(jù)具有相同的數(shù)據(jù)時,判定所述DPI規(guī)則與DPI規(guī)則庫的DPI規(guī)則發(fā)送沖突。在所述DPI規(guī)則與DPI規(guī)則庫的DPI規(guī)則存在沖突時,分析所述DPI規(guī)則以及對應(yīng)沖突的DPI規(guī)則,找出發(fā)生沖突的原因,基于該原因修改DPI規(guī)則,在修改后的DPI規(guī)則與DPI規(guī)則庫的DPI規(guī)則不存在沖突,則存儲修改的DPI規(guī)則至DPI規(guī)則庫,其中,在基于生成的DPI規(guī)則搜索的數(shù)據(jù)包含或者包含于基于DPI規(guī)則庫的DPI規(guī)則搜索的數(shù)據(jù)時,設(shè)置生成的DPI規(guī)則與DPI規(guī)則庫的DPI規(guī)則的優(yōu)先級,并基于設(shè)置后的生成的DPI規(guī)則與DPI規(guī)則庫的DPI規(guī)則更新DPI規(guī)則庫;否則,繼續(xù)修改或者 放棄該DPI規(guī)則。
在基于編譯生成的DPI規(guī)則更新DPI規(guī)則庫之后,即可采用更新后DPI規(guī)則庫的DPI規(guī)則識別移動互聯(lián)網(wǎng)中新出現(xiàn)的業(yè)務(wù)數(shù)據(jù)。
本實施例DPI規(guī)則的生成方法,首先通過獲取互聯(lián)網(wǎng)數(shù)據(jù),基于DPI規(guī)則庫的DPI規(guī)則識別所述互聯(lián)網(wǎng)數(shù)據(jù);接著在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,分析所述未識別數(shù)據(jù),以獲取所述未識別數(shù)據(jù)的第一特征;然后基于所述第一特征編譯生成DPI規(guī)則;最后將所述DPI規(guī)則存儲至所述DPI規(guī)則庫。根據(jù)獲取到的互聯(lián)網(wǎng)數(shù)據(jù)獲取未識別數(shù)據(jù)、分析未識別數(shù)據(jù)的業(yè)務(wù)特征,基于業(yè)務(wù)特征編譯生成DPI規(guī)則,并基于DPI規(guī)則更新DPI規(guī)則庫,完成了DPI規(guī)則庫的實時自動更新,避免出現(xiàn)DPI規(guī)則庫的DPI規(guī)則無法準確識別互聯(lián)網(wǎng)數(shù)據(jù)中的業(yè)務(wù)數(shù)據(jù)的問題,提高了數(shù)據(jù)識別的識別率和準確率。
參照圖3,圖3為圖1中步驟S20第一實施例的細化流程示意圖。
基于第一實施例提出本發(fā)明DPI規(guī)則的生成方法中步驟S20的細化流程的實施例,本實施例中,步驟S20包括:
步驟S21,在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,獲取所述未識別數(shù)據(jù)的第二特征;
基于未識別數(shù)據(jù)的明文數(shù)據(jù)采用現(xiàn)有的協(xié)議獲取未識別數(shù)據(jù)的第二特征,第二特征包括域名等未識別數(shù)據(jù)的明文數(shù)據(jù)特征,并以該第二特征作為對應(yīng)未識別數(shù)據(jù)的業(yè)務(wù)名稱。
步驟S22,基于所述第二特征過濾所述未識別數(shù)據(jù),以獲取業(yè)務(wù)數(shù)據(jù);
過濾未識別數(shù)據(jù),去除未識別數(shù)據(jù)的非業(yè)務(wù)數(shù)據(jù),保證剩余的未識別數(shù)據(jù)為純業(yè)務(wù)數(shù)據(jù)。可以通過獲取未識別數(shù)據(jù)中的用戶數(shù)據(jù)及用戶數(shù)據(jù)對應(yīng)的目標(biāo)IP地址,在用戶數(shù)據(jù)及用戶數(shù)據(jù)對應(yīng)的目標(biāo)IP地址均能夠與第二特征匹配成功時,該用戶數(shù)據(jù)對應(yīng)的未識別數(shù)據(jù)為業(yè)務(wù)數(shù)據(jù);在用戶數(shù)據(jù)及用戶數(shù)據(jù)對應(yīng)的目標(biāo)IP地址不能同時與第二特征匹配成功時,該用戶數(shù)據(jù)對應(yīng)的未識別數(shù)據(jù)為非業(yè)務(wù)數(shù)據(jù)。本實施的過濾未識別數(shù)據(jù)的方式可以講未識別數(shù)據(jù)中的非業(yè)務(wù)數(shù)據(jù)刪除或者標(biāo)示為非業(yè)務(wù)數(shù)據(jù)。
步驟S23,分析所述業(yè)務(wù)數(shù)據(jù),以獲取所述業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)特征;
采用固有特征集包含的特征、未識別數(shù)據(jù)的負載和/或未識別數(shù)據(jù)中多數(shù) 數(shù)據(jù)流的相同序列具有的共同特征等基于數(shù)據(jù)挖掘算法分析業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)特征。該業(yè)務(wù)特征為固有特征集包含的特征、未識別數(shù)據(jù)的負載和/或未識別數(shù)據(jù)中多數(shù)數(shù)據(jù)流的相同序列具有的共同特征中的一種或幾種;其中負載是指未識別數(shù)據(jù)包含的對應(yīng)的服務(wù)器等加密數(shù)據(jù)序列。
步驟S24,將獲取的所述業(yè)務(wù)特征作為所述未識別數(shù)據(jù)的第一特征。
在其他實施例中,請參照圖4,在步驟S21和步驟S22之間,DPI規(guī)則的生成方法還包括:
步驟S25,獲取所述第二特征對應(yīng)的第一目標(biāo)IP地址和/或第一用戶數(shù)據(jù);
其中,第一目標(biāo)IP地址、第一用戶數(shù)據(jù)分別為未識別數(shù)據(jù)中第二特征對應(yīng)的目標(biāo)IP地址和用戶數(shù)據(jù)。
步驟S26,在所述第一目標(biāo)IP地址與所述第二特征對應(yīng)的第二目標(biāo)IP地址不一致時,采用所述第二目標(biāo)IP更新所述未識別數(shù)據(jù)中的第一目標(biāo)IP地址;
和/或,在所述第一用戶數(shù)據(jù)與所述第二特征對應(yīng)的第二用戶數(shù)據(jù)不一致時,采用所述第二用戶數(shù)據(jù)更新所述未識別數(shù)據(jù)中的所述第一用戶數(shù)據(jù)。
其中,第二目標(biāo)IP地址為互聯(lián)網(wǎng)數(shù)據(jù)中第二特征對應(yīng)的目標(biāo)IP地址,第二用戶數(shù)據(jù)為互聯(lián)網(wǎng)數(shù)據(jù)中第二特征對應(yīng)的用戶數(shù)據(jù)。
通過獲取未識別數(shù)據(jù)中所述第二特征對應(yīng)的第一目標(biāo)IP地址和/或第一用戶數(shù)據(jù),并在所述第一目標(biāo)IP地址與所述第二特征對應(yīng)的第二目標(biāo)IP地址不一致時,采用所述第二目標(biāo)IP更新所述未識別數(shù)據(jù)中的第一目標(biāo)IP地址,和/或,在所述第一用戶數(shù)據(jù)與所述第二特征對應(yīng)的第二用戶數(shù)據(jù)不一致時,采用所述第二用戶數(shù)據(jù)更新所述未識別數(shù)據(jù)中的所述第一用戶數(shù)據(jù)。補全了未識別數(shù)據(jù),確保了第二特征對應(yīng)的未識別數(shù)據(jù)的完整性,進而提高了后續(xù)生成的DPI規(guī)則的準確率。
本實施例中,通過第二特征過濾所述未識別數(shù)據(jù),獲取未識別數(shù)據(jù)中的業(yè)務(wù)數(shù)據(jù),并通過分析所述業(yè)務(wù)數(shù)據(jù)獲取所述業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)特征,并將獲取的所述業(yè)務(wù)特征作為所述未識別數(shù)據(jù)的第一特征,提高了第一特征的準確性,進而提高了后續(xù)生成的DPI規(guī)則的準確率。
參照圖5,圖5為圖3中步驟S23的細化流程示意圖。
基于上一實施例提出本發(fā)明DPI規(guī)則的生成方法中步驟S23的細化流程 的實施例,本實施例中,步驟S23包括:
步驟S231,將所述業(yè)務(wù)數(shù)據(jù)分為多組業(yè)務(wù)數(shù)據(jù)組;
以用戶流為單位將所述業(yè)務(wù)數(shù)據(jù)分為多組業(yè)務(wù)數(shù)據(jù)組,分組時可以以N個用戶流為一組對業(yè)務(wù)數(shù)據(jù)進行分組。用戶流是指用戶訪問某一服務(wù)器時,與該服務(wù)器IP連接過程中的產(chǎn)生的數(shù)據(jù)流。
步驟S232,對所述業(yè)務(wù)數(shù)據(jù)組的相同序列的載荷報文進行數(shù)據(jù)挖掘,以獲取各個所述業(yè)務(wù)數(shù)據(jù)組的業(yè)務(wù)特征。
采用數(shù)據(jù)挖掘算法對每一個業(yè)務(wù)數(shù)據(jù)組的相同序列的載荷報文進行數(shù)據(jù)挖掘,以獲取所述業(yè)務(wù)數(shù)據(jù)組的業(yè)務(wù)特征,該業(yè)務(wù)特征是指能夠覆蓋預(yù)設(shè)比例以上的業(yè)務(wù)數(shù)據(jù)組的業(yè)務(wù)數(shù)據(jù)的共同特征,即業(yè)務(wù)數(shù)據(jù)組預(yù)設(shè)比例以上的業(yè)務(wù)數(shù)據(jù)的共同特征,或者業(yè)務(wù)數(shù)據(jù)組預(yù)設(shè)比例以上的業(yè)務(wù)數(shù)據(jù)都包含該業(yè)務(wù)特征,其中預(yù)設(shè)比例是為保證后續(xù)生成的DPI規(guī)則的準確率而預(yù)先設(shè)置的比例,該預(yù)設(shè)比例可以根據(jù)需求設(shè)置為90%、95%等比例。
步驟S233,將獲取的所述業(yè)務(wù)特征作為所述未識別數(shù)據(jù)的第一特征。
本實施例中,通過將所述業(yè)務(wù)數(shù)據(jù)分為多組業(yè)務(wù)數(shù)據(jù)組;并對所述業(yè)務(wù)數(shù)據(jù)組的相同序列的載荷報文進行數(shù)據(jù)挖掘,以獲取所述業(yè)務(wù)數(shù)據(jù)組的業(yè)務(wù)特征,并將獲取的所述業(yè)務(wù)特征作為所述未識別數(shù)據(jù)的第一特征;分組且采用數(shù)據(jù)挖掘的方式獲取業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)特征,提高了業(yè)務(wù)特征的準確性。
本發(fā)明進一步提供一種DPI規(guī)則的生成裝置。
參照圖6,圖6為DPI規(guī)則的生成裝置第一實施例的功能模塊示意圖。
在本實施例中,該DPI規(guī)則的生成裝置包括:
識別模塊10,用于獲取互聯(lián)網(wǎng)數(shù)據(jù),基于DPI規(guī)則庫的DPI規(guī)則識別所述互聯(lián)網(wǎng)數(shù)據(jù);
識別模塊10采集/獲取移動互聯(lián)網(wǎng)數(shù)據(jù),基于DPI規(guī)則庫的DPI規(guī)則識別采集/獲取到的移動互聯(lián)網(wǎng)數(shù)據(jù)。
分析模塊20,在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,分析所述未識別數(shù)據(jù),以獲取所述未識別數(shù)據(jù)的第一特征,其中,所述未識別數(shù)據(jù)為所述互聯(lián)網(wǎng)數(shù)據(jù)中所述DPI規(guī)則無法識別的互聯(lián)網(wǎng)數(shù)據(jù);
在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,分析模塊20對未識別數(shù)據(jù)進行分 析,用以獲取未識別數(shù)據(jù)的第一特征。分析模塊20采用固有特征集包含的特征、未識別數(shù)據(jù)的負載和/或未識別數(shù)據(jù)中多數(shù)數(shù)據(jù)流的相同序列具有的共同特征等基于數(shù)據(jù)挖掘算法獲取第一特征。該第一特征為固有特征集包含的特征、未識別數(shù)據(jù)的負載和/或未識別數(shù)據(jù)中多數(shù)數(shù)據(jù)流的相同序列具有的共同特征中的一種或幾種;其中負載是指未識別數(shù)據(jù)包含的對應(yīng)的服務(wù)器等加密數(shù)據(jù)序列。
編譯模塊30,用于基于所述第一特征編譯生成DPI規(guī)則;
編譯模塊30基于獲取的第一特征編譯生成DPI規(guī)則。編譯方式可以采用現(xiàn)有DPI規(guī)則的編譯方式,也可以采用其他編譯方式,譬如現(xiàn)有DPI規(guī)則的編譯方式優(yōu)化后的編譯方式等,本實施例中不做進一步地限定。
存儲模塊40,用于將所述DPI規(guī)則存儲至所述DPI規(guī)則庫。
存儲模塊40將編譯生成的DPI規(guī)則存儲至DPI規(guī)則庫,即基于編譯生成的DPI規(guī)則更新DPI規(guī)則庫,其更新過程采用熱更新。
在其他實施例中,請參考圖7,所述存儲模塊40包括:
判斷單元41,用于判斷所述生成的DPI規(guī)則與所述DPI規(guī)則庫的所述DPI規(guī)則是否沖突;
存儲單元42,用于在生成的所述DPI規(guī)則與所述DPI規(guī)則庫的所述DPI規(guī)則不存在沖突時,將所述DPI規(guī)則存儲至DPI規(guī)則庫。
在基于生成的DPI規(guī)則搜索的數(shù)據(jù)與基于DPI規(guī)則庫的DPI規(guī)則搜索的數(shù)據(jù)一致、基于生成的DPI規(guī)則搜索的數(shù)據(jù)包含或者包含于基于DPI規(guī)則庫的DPI規(guī)則搜索的數(shù)據(jù)、或基于生成的DPI規(guī)則搜索的數(shù)據(jù)與基于DPI規(guī)則庫的DPI規(guī)則搜索的數(shù)據(jù)具有相同的數(shù)據(jù)時,判斷單元41判定所述DPI規(guī)則與DPI規(guī)則庫的DPI規(guī)則發(fā)送沖突。在所述DPI規(guī)則與DPI規(guī)則庫的DPI規(guī)則存在沖突時,分析所述DPI規(guī)則以及對應(yīng)沖突的DPI規(guī)則,找出發(fā)生沖突的原因,基于該原因修改DPI規(guī)則,在修改后的DPI規(guī)則與DPI規(guī)則庫的DPI規(guī)則不存在沖突,則存儲修改的DPI規(guī)則至DPI規(guī)則庫,其中,在基于生成的DPI規(guī)則搜索的數(shù)據(jù)包含或者包含于基于DPI規(guī)則庫的DPI規(guī)則搜索的數(shù)據(jù)時,設(shè)置生成的DPI規(guī)則與DPI規(guī)則庫的DPI規(guī)則的優(yōu)先級,并基于設(shè)置后的生成的DPI規(guī)則與DPI規(guī)則庫的DPI規(guī)則更新DPI規(guī)則庫;否則,繼續(xù)修改或者放棄該DPI規(guī)則。
本實施例DPI規(guī)則的生成裝置,首先通過識別模塊10獲取互聯(lián)網(wǎng)數(shù)據(jù),基于DPI規(guī)則庫的DPI規(guī)則識別所述互聯(lián)網(wǎng)數(shù)據(jù);接著在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,分析模塊20分析所述未識別數(shù)據(jù),以獲取所述未識別數(shù)據(jù)的第一特征;然后編譯模塊30基于所述第一特征編譯生成DPI規(guī)則;最后存儲模塊40將所述DPI規(guī)則存儲至所述DPI規(guī)則庫。根據(jù)獲取到的互聯(lián)網(wǎng)數(shù)據(jù)獲取未識別數(shù)據(jù)、分析未識別數(shù)據(jù)的業(yè)務(wù)特征,基于業(yè)務(wù)特征編譯生成DPI規(guī)則,并基于DPI規(guī)則更新DPI規(guī)則庫,完成了DPI規(guī)則庫的實時自動更新,避免出現(xiàn)DPI規(guī)則庫的DPI規(guī)則無法準確識別互聯(lián)網(wǎng)數(shù)據(jù)中的業(yè)務(wù)數(shù)據(jù)的問題,提高了數(shù)據(jù)識別的識別率和準確率。
參照圖8,圖8為圖6中分析模塊第一實施例的細化功能模塊示意圖。
基于第一實施例提出本發(fā)明DPI規(guī)則的生成裝置中分析模塊的細化功能模塊的實施例,本實施例中,所述分析模塊20包括:
第一獲取單元21,用于在所述互聯(lián)網(wǎng)數(shù)據(jù)存在未識別數(shù)據(jù)時,獲取所述未識別數(shù)據(jù)的第二特征;
第一獲取單元21基于未識別數(shù)據(jù)的明文數(shù)據(jù)采用現(xiàn)有的協(xié)議獲取未識別數(shù)據(jù)的第二特征,第二特征包括域名等未識別數(shù)據(jù)的明文數(shù)據(jù)特征,并以該第二特征作為對應(yīng)未識別數(shù)據(jù)的業(yè)務(wù)名稱。
過濾單元22,用于基于所述第二特征過濾所述未識別數(shù)據(jù),以獲取業(yè)務(wù)數(shù)據(jù);
過濾單元22過濾未識別數(shù)據(jù),去除未識別數(shù)據(jù)的非業(yè)務(wù)數(shù)據(jù),保證剩余的未識別數(shù)據(jù)為純業(yè)務(wù)數(shù)據(jù)??梢酝ㄟ^獲取未識別數(shù)據(jù)中的用戶數(shù)據(jù)及用戶數(shù)據(jù)對應(yīng)的目標(biāo)IP地址,在用戶數(shù)據(jù)及用戶數(shù)據(jù)對應(yīng)的目標(biāo)IP地址均能夠與第二特征匹配成功時,該用戶數(shù)據(jù)對應(yīng)的未識別數(shù)據(jù)為業(yè)務(wù)數(shù)據(jù);在用戶數(shù)據(jù)及用戶數(shù)據(jù)對應(yīng)的目標(biāo)IP地址不能同時與第二特征匹配成功時,該用戶數(shù)據(jù)對應(yīng)的未識別數(shù)據(jù)為非業(yè)務(wù)數(shù)據(jù)。本實施的過濾未識別數(shù)據(jù)的方式可以講未識別數(shù)據(jù)中的非業(yè)務(wù)數(shù)據(jù)刪除或者標(biāo)示為非業(yè)務(wù)數(shù)據(jù)。
分析單元23,用于分析所述業(yè)務(wù)數(shù)據(jù),以獲取所述業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)特征,并將獲取的所述業(yè)務(wù)特征作為所述未識別數(shù)據(jù)的第一特征。
分析單元23采用固有特征集包含的特征、未識別數(shù)據(jù)的負載和/或未識別 數(shù)據(jù)中多數(shù)數(shù)據(jù)流的相同序列具有的共同特征等基于數(shù)據(jù)挖掘算法分析業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)特征。該業(yè)務(wù)特征為固有特征集包含的特征、未識別數(shù)據(jù)的負載和/或未識別數(shù)據(jù)中多數(shù)數(shù)據(jù)流的相同序列具有的共同特征中的一種或幾種;其中負載是指未識別數(shù)據(jù)包含的對應(yīng)的服務(wù)器等加密數(shù)據(jù)序列。
在其他實施例中,請參照圖9,所述分析模塊20還包括:
第二獲取單元24,用于獲取所述第二特征對應(yīng)的第一目標(biāo)IP地址和/或第一用戶數(shù)據(jù);
其中,第一目標(biāo)IP地址、第一用戶數(shù)據(jù)分別為未識別數(shù)據(jù)中第二特征對應(yīng)的目標(biāo)IP地址和用戶數(shù)據(jù)。
更新單元25,用于在所述第一目標(biāo)IP地址與所述第二特征對應(yīng)的第二目標(biāo)IP地址不一致時,采用所述第二目標(biāo)IP更新所述未識別數(shù)據(jù)中的第一目標(biāo)IP地址;和/或,在所述第一用戶數(shù)據(jù)與所述第二特征對應(yīng)的第二用戶數(shù)據(jù)不一致時,采用所述第二用戶數(shù)據(jù)更新所述未識別數(shù)據(jù)中的所述第一用戶數(shù)據(jù)。
其中,第二目標(biāo)IP地址為互聯(lián)網(wǎng)數(shù)據(jù)中第二特征對應(yīng)的目標(biāo)IP地址,第二用戶數(shù)據(jù)為互聯(lián)網(wǎng)數(shù)據(jù)中第二特征對應(yīng)的用戶數(shù)據(jù)。
通過第二獲取單元24獲取未識別數(shù)據(jù)中所述第二特征對應(yīng)的第一目標(biāo)IP地址和/或第一用戶數(shù)據(jù),在所述第一目標(biāo)IP地址與所述第二特征對應(yīng)的第二目標(biāo)IP地址不一致時,更新單元25采用所述第二目標(biāo)IP更新所述未識別數(shù)據(jù)中的第一目標(biāo)IP地址,和/或,在所述第一用戶數(shù)據(jù)與所述第二特征對應(yīng)的第二用戶數(shù)據(jù)不一致時,更新單元25采用所述第二用戶數(shù)據(jù)更新所述未識別數(shù)據(jù)中的所述第一用戶數(shù)據(jù)。補全了未識別數(shù)據(jù),確保了第二特征對應(yīng)的未識別數(shù)據(jù)的完整性,進而提高了后續(xù)生成的DPI規(guī)則的準確率。
本實施例中,通過過濾單元22基于第二特征過濾所述未識別數(shù)據(jù)獲取未識別數(shù)據(jù)中的業(yè)務(wù)數(shù)據(jù),并通過分析所述業(yè)務(wù)數(shù)據(jù)獲取所述業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)特征,并將獲取的所述業(yè)務(wù)特征作為所述未識別數(shù)據(jù)的第一特征,提高了第一特征的準確性,進而提高了后續(xù)生成的DPI規(guī)則的準確率。
參照圖10,圖10為圖8中分析單元的細化功能模塊示意圖。
基于上一實施例提出本發(fā)明DPI規(guī)則的生成裝置中分析單元的細化流功能模塊程的實施例,本實施例中,所述分析單元23包括:
分組子單元231,用于將所述業(yè)務(wù)數(shù)據(jù)分為多組業(yè)務(wù)數(shù)據(jù)組;
分組子單元231以用戶流為單位將所述業(yè)務(wù)數(shù)據(jù)分為至少兩組業(yè)務(wù)數(shù)據(jù)組,分組時也可以以N個用戶流為一組對業(yè)務(wù)數(shù)據(jù)進行分組。用戶流是指用戶成功訪問某一服務(wù)器IP時,訪問過程中的全部數(shù)據(jù)。
數(shù)據(jù)挖掘子單元232,用于對所述業(yè)務(wù)數(shù)據(jù)組的相同序列的載荷報文進行數(shù)據(jù)挖掘,以獲取各個所述業(yè)務(wù)數(shù)據(jù)組的業(yè)務(wù)特征,并將獲取的所述業(yè)務(wù)特征作為所述未識別數(shù)據(jù)的第一特征。
數(shù)據(jù)挖掘子單元232采用數(shù)據(jù)挖掘算法對每一個業(yè)務(wù)數(shù)據(jù)組的相同序列的載荷報文進行數(shù)據(jù)挖掘,以獲取所述業(yè)務(wù)數(shù)據(jù)組的業(yè)務(wù)特征,該業(yè)務(wù)特征是指能夠覆蓋預(yù)設(shè)比例以上的業(yè)務(wù)數(shù)據(jù)組的業(yè)務(wù)數(shù)據(jù)的共同特征,即業(yè)務(wù)數(shù)據(jù)組預(yù)設(shè)比例以上的業(yè)務(wù)數(shù)據(jù)的共同特征,或者業(yè)務(wù)數(shù)據(jù)組預(yù)設(shè)比例以上的業(yè)務(wù)數(shù)據(jù)都包含該業(yè)務(wù)特征,其中預(yù)設(shè)比例是為保證后續(xù)生成的DPI規(guī)則的準確率而預(yù)先設(shè)置的比例,該預(yù)設(shè)比例可以根據(jù)需求設(shè)置為90%、95%等。
本實施例中,分組子單元221將所述業(yè)務(wù)數(shù)據(jù)分為多組業(yè)務(wù)數(shù)據(jù)組;數(shù)據(jù)挖掘子單元222對所述業(yè)務(wù)數(shù)據(jù)組的相同序列的載荷報文進行數(shù)據(jù)挖掘,以獲取各個所述業(yè)務(wù)數(shù)據(jù)組的業(yè)務(wù)特征;分組且采用數(shù)據(jù)挖掘的方式獲取業(yè)務(wù)數(shù)據(jù)的業(yè)務(wù)特征,提高了業(yè)務(wù)特征的準確性。
以上僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。