流量數(shù)據(jù)分類方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別是涉及一種流量數(shù)據(jù)分類方法及裝置。
【背景技術(shù)】
[0002] 在現(xiàn)有技術(shù)中,網(wǎng)絡(luò)流量的業(yè)務(wù)類型分類具有廣泛的使用范圍和極高的實(shí)用價(jià) 值。它能夠?qū)崟r(shí)地對(duì)高帶寬,高傳輸速率的端口中的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行準(zhǔn)確的業(yè)務(wù)類型分 類。由于網(wǎng)絡(luò)中不同的業(yè)務(wù)類型對(duì)網(wǎng)絡(luò)資源的需求不同,以及人們對(duì)不同業(yè)務(wù)類型的網(wǎng)絡(luò) 流量的管理方式有所不同,所以高效、準(zhǔn)確的網(wǎng)絡(luò)流量業(yè)務(wù)分類是網(wǎng)絡(luò)資源管理和流量控 制等操作的依據(jù)。
[0003] 基于深度報(bào)文檢測(cè)(De印Packet Inspection,簡(jiǎn)稱為DPI)的網(wǎng)絡(luò)流量分類技術(shù) 需要依賴對(duì)應(yīng)的業(yè)務(wù)類型特征庫(kù),而特征庫(kù)的構(gòu)建本身需要依靠大量人工開銷來完成;同 時(shí),現(xiàn)有網(wǎng)絡(luò)流量的業(yè)務(wù)種類和特征會(huì)不斷發(fā)生著變化和更新。這就導(dǎo)致目前的DPI流量 分類技術(shù)不能夠?qū)W(wǎng)絡(luò)中新的流量業(yè)務(wù)特征進(jìn)行及時(shí)更新,因此也就無法對(duì)新的業(yè)務(wù)流量 進(jìn)行識(shí)別。
【發(fā)明內(nèi)容】
[0004] 鑒于現(xiàn)有技術(shù)中DPI流量分類技術(shù)不能夠?qū)W(wǎng)絡(luò)中新的流量業(yè)務(wù)特征進(jìn)行及時(shí) 更新而導(dǎo)致的更新效率低和準(zhǔn)確率易退化的問題,提出了本發(fā)明以便提供一種流量數(shù)據(jù)分 類方法及裝置。
[0005] 本發(fā)明提供一種流量數(shù)據(jù)分類方法,包括:
[0006] 在網(wǎng)絡(luò)匯聚端口進(jìn)行數(shù)據(jù)包采集,將數(shù)據(jù)包按照五元組重組為流,生成流量數(shù)據(jù), 并根據(jù)預(yù)先對(duì)流量數(shù)據(jù)中的一部分流量數(shù)據(jù)進(jìn)行的業(yè)務(wù)類型標(biāo)記,針對(duì)每個(gè)業(yè)務(wù)種類,對(duì) 應(yīng)形成學(xué)習(xí)樣本,并將流量數(shù)據(jù)中的剩余部分設(shè)置為待分類的流量數(shù)據(jù)集合;
[0007] 抽取流量數(shù)據(jù)集合中每條流量數(shù)據(jù)的公共數(shù)值屬性特征集合,并將流量數(shù)據(jù)集合 中的流量數(shù)據(jù)整理成由公共數(shù)值屬性特征集合構(gòu)成的流記錄;
[0008] 根據(jù)學(xué)習(xí)樣本,采用子空間聚類方式對(duì)流記錄中每個(gè)業(yè)務(wù)種類的公共數(shù)值屬性特 征集合進(jìn)行計(jì)算,并根據(jù)計(jì)算得到的每個(gè)業(yè)務(wù)種類的公共數(shù)值屬性特征集合、以及流記錄 中流量數(shù)據(jù)的公共數(shù)值屬性特征集合,對(duì)流量數(shù)據(jù)集合中的流量數(shù)據(jù)進(jìn)行業(yè)務(wù)類型標(biāo)記。
[0009] 優(yōu)選地,五元組包括:源網(wǎng)絡(luò)協(xié)議IP地址、目的IP地址、源端口、目的端口、以及 傳輸層協(xié)議。
[0010] 優(yōu)選地,根據(jù)學(xué)習(xí)樣本,采用子空間聚類方式對(duì)流記錄中每個(gè)業(yè)務(wù)種類的公共數(shù) 值屬性特征集合進(jìn)行計(jì)算具體包括:
[0011] 步驟1,對(duì)每個(gè)公共數(shù)值屬性的維度均劃分出等數(shù)量區(qū)域單元個(gè)數(shù),對(duì)每個(gè)公共數(shù) 值屬性建立一個(gè)對(duì)應(yīng)的一維空間,將每個(gè)區(qū)域單元按照其對(duì)某一業(yè)務(wù)種類的學(xué)習(xí)樣本的覆 蓋率進(jìn)行排序,通過熵值計(jì)算模型,計(jì)算出區(qū)域單元對(duì)某一業(yè)務(wù)種類的學(xué)習(xí)樣本達(dá)到的最 小覆蓋率,將最小覆蓋率作為區(qū)域單元的密度門限值;
[0012] 步驟2,根據(jù)密度門限值,在λ維子空間集合中,刪除λ維子空間中覆蓋率小于密 度門限值的區(qū)域單元,將λ維子空間中剩余的區(qū)域單元對(duì)一業(yè)務(wù)種類的學(xué)習(xí)樣本的覆蓋 率進(jìn)行相加,得到λ維子空間對(duì)一類學(xué)習(xí)樣本的覆蓋率,其中,λ > 1 ;
[0013] 步驟3,對(duì)當(dāng)前λ維子空間集合中的每個(gè)λ維子空間,按照它們對(duì)一業(yè)務(wù)種類的 學(xué)習(xí)樣本的覆蓋率進(jìn)行排序,并采用最短編碼長(zhǎng)度計(jì)算模型,統(tǒng)計(jì)出當(dāng)前λ維子空間集合 中,一個(gè)λ維子空間對(duì)一業(yè)務(wù)種類的學(xué)習(xí)樣本至少達(dá)到的覆蓋率,將該至少達(dá)到的覆蓋率 作為λ維子空間的學(xué)習(xí)樣本覆蓋率門限值;
[0014] 步驟4,在當(dāng)前λ維子空間集合中,刪除覆蓋率小于學(xué)習(xí)樣本覆蓋率門限值的子 空間,針對(duì)當(dāng)前λ維子空間集合中的每?jī)蓚€(gè)λ維子空間,只有當(dāng)兩者僅有一個(gè)維度的屬性 不同才時(shí)進(jìn)行λ+l維子空間的計(jì)算,此時(shí)先搜索它們各自包含的區(qū)域單元,如果兩個(gè)不同 子空間的區(qū)域單元在所有相同的維度屬性中的區(qū)域單元編號(hào)均相同,則對(duì)兩個(gè)區(qū)域單元包 含的學(xué)習(xí)樣本求交集,如果交集不為空則創(chuàng)建對(duì)應(yīng)的λ+1維子空間的新單元,不斷循環(huán)計(jì) 算λ+1維子空間的新單元,直到所有的λ維子空間兩兩均被處理過后停止;
[0015] 步驟5,根據(jù)獲取的所有λ +1維子空間集合,重復(fù)步驟2到步驟4,直到符合預(yù)定 條件后停止,執(zhí)行步驟6;
[0016] 步驟6,從維度數(shù)最大的子空間集合中,選擇樣本覆蓋率最大的子空間,通過最大 區(qū)域計(jì)算模型,得到對(duì)應(yīng)每個(gè)聚類的表達(dá)式,將所有聚類結(jié)果的表達(dá)式用析取范式表示,獲 取每個(gè)業(yè)務(wù)種類的公共數(shù)值屬性特征集合。
[0017] 優(yōu)選地,預(yù)定條件為滿足以下條件至少之一:
[0018] 當(dāng)前維度為λ的子空間集合無法合成維度數(shù)目為λ+1的子空間;
[0019] 合成之后的新高維度子空間沒有覆蓋率大于或等于密度門限值的區(qū)域單元; [0020] 當(dāng)前子空間的維度數(shù)目為最大值;
[0021] 對(duì)于λ維子空間集合,當(dāng)前不存在λ維子空間的樣本的覆蓋率大于等于預(yù)定值 時(shí)。
[0022] 優(yōu)選地,對(duì)每個(gè)公共數(shù)值屬性的維度均劃分出等數(shù)量區(qū)域單元個(gè)數(shù)具體包括:
[0023] 針對(duì)流記錄,計(jì)算每個(gè)業(yè)務(wù)種類的公共數(shù)值屬性特征能取到的最大值和最小值, 并將最大值和最小值作為公共數(shù)值屬性的取值范圍,并根據(jù)取值范圍,對(duì)每個(gè)公共數(shù)值屬 性的維度均劃分出等數(shù)量區(qū)域單元個(gè)數(shù),其中,每個(gè)區(qū)域單元等長(zhǎng)。
[0024] 本發(fā)明還提供了一種流量數(shù)據(jù)分類裝置,包括:
[0025] 采集設(shè)置模塊,用于在網(wǎng)絡(luò)匯聚端口進(jìn)行數(shù)據(jù)包采集,將數(shù)據(jù)包按照五元組重組 為流,生成流量數(shù)據(jù),并根據(jù)預(yù)先對(duì)流量數(shù)據(jù)中的一部分流量數(shù)據(jù)進(jìn)行的業(yè)務(wù)類型標(biāo)記,針 對(duì)每個(gè)業(yè)務(wù)種類,對(duì)應(yīng)形成學(xué)習(xí)樣本,并將流量數(shù)據(jù)中的剩余部分設(shè)置為待分類的流量數(shù) 據(jù)集合;
[0026] 抽取整理模塊,用于抽取流量數(shù)據(jù)集合中每條流量數(shù)據(jù)的公共數(shù)值屬性特征集 合,并將流量數(shù)據(jù)集合中的流量數(shù)據(jù)整理成由公共數(shù)值屬性特征集合構(gòu)成的流記錄;
[0027] 計(jì)算標(biāo)記模塊,用于根據(jù)學(xué)習(xí)樣本,采用子空間聚類方式對(duì)流記錄中每個(gè)業(yè)務(wù)種 類的公共數(shù)值屬性特征集合進(jìn)行計(jì)算,并根據(jù)計(jì)算得到的每個(gè)業(yè)務(wù)種類的公共數(shù)值屬性特 征集合、以及流記錄中流量數(shù)據(jù)的公共數(shù)值屬性特征集合,對(duì)流量數(shù)據(jù)集合中的流量數(shù)據(jù) 進(jìn)行業(yè)務(wù)類型標(biāo)記。
[0028] 優(yōu)選地,五元組包括:源網(wǎng)絡(luò)協(xié)議IP地址、目的IP地址、源端口、目的端口、以及 傳輸層協(xié)議。
[0029] 優(yōu)選地,計(jì)算標(biāo)記模塊具體包括:
[0030] 第一處理子模塊,用于對(duì)每個(gè)公共數(shù)值屬性的維度均劃分出等數(shù)量區(qū)域單元個(gè) 數(shù),對(duì)每個(gè)公共數(shù)值屬性建立一個(gè)對(duì)應(yīng)的一維空間,將每個(gè)區(qū)域單元按照其對(duì)某一業(yè)務(wù)種 類的學(xué)習(xí)樣本的覆蓋率進(jìn)行排序,通過熵值計(jì)算模型,計(jì)算出區(qū)域單元對(duì)某一業(yè)務(wù)種類的 學(xué)習(xí)樣本達(dá)到的最小覆蓋率,將最小覆蓋率作為區(qū)域單元的密度門限值;
[0031] 第二處理子模塊,用于根據(jù)密度門限值,在λ維子空間集合中,刪除λ維子空間 中覆蓋率小于密度門限值的區(qū)域單元,將λ維子空間中剩余的區(qū)域單元對(duì)一業(yè)務(wù)種類的 學(xué)習(xí)樣本的覆蓋率進(jìn)行相加,得到λ維子空間對(duì)一類學(xué)習(xí)樣本的覆蓋率,其中,λ > 1;
[0032] 第三處理子模塊,用于對(duì)當(dāng)前λ維子空間集合中的每個(gè)λ維子空間,按照它們對(duì) 一業(yè)務(wù)種類的學(xué)習(xí)樣本的覆蓋率進(jìn)行排序,并采用最短編碼長(zhǎng)度計(jì)算模型,統(tǒng)計(jì)出當(dāng)前λ 維子空間集合中,一個(gè)λ維子空間對(duì)一業(yè)務(wù)種類的學(xué)習(xí)樣本至少達(dá)到的覆蓋率,將該至少 達(dá)到的覆蓋率作為λ維子空間的學(xué)習(xí)樣本覆蓋率門限值;
[0033] 第四處理子模塊,用于在當(dāng)前λ維子空間集合中,刪除覆蓋率小于學(xué)習(xí)樣本覆蓋 率門限值的子空間,針對(duì)當(dāng)前λ維子空間集合中的每?jī)蓚€(gè)λ維子空間,只有當(dāng)兩者僅有一 個(gè)維度的屬性不同才時(shí)進(jìn)行λ+l維子空間的計(jì)算,此時(shí)先搜索它們各自包含的區(qū)域單元, 如果兩個(gè)不同子空間的區(qū)域單元在所有相同的維度屬性中的區(qū)域單元編號(hào)均相同,則對(duì)兩 個(gè)區(qū)域單元包含的學(xué)習(xí)樣本求交集,如果交集不為空則創(chuàng)建對(duì)應(yīng)的λ+1維子空間的新單 元,不斷循環(huán)計(jì)算λ+l維子空間的新單元,直到所有的λ維子空間兩兩均被處理過后停 止;
[0034] 第五處理子模塊,用于根據(jù)獲取的所有λ +1維子空間集合,調(diào)用第二處理子模塊 到第四處理子模塊,直到符合預(yù)定條件后停止,調(diào)用第六處理子模塊;
[0035] 第六處理子模塊,用于從維度數(shù)最大的子空間集合中,選擇樣本覆蓋率最大的子 空間,通過最大區(qū)域計(jì)算模型,得到對(duì)應(yīng)每個(gè)聚類的表達(dá)式,將所有聚類結(jié)果的表達(dá)式用析 取范式表示,獲取每個(gè)業(yè)務(wù)種類的公共數(shù)值屬性特征集合。
[0036] 優(yōu)選地,預(yù)定條件為滿足以下條件至少之一