基于多層聚類的網(wǎng)絡(luò)視頻流分類方法
【專利摘要】本發(fā)明公開了基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,該方法包括如下步驟:步驟1:在開放的網(wǎng)絡(luò)環(huán)境中獲取所需的視頻業(yè)務(wù)數(shù)據(jù),對(duì)原始的視頻數(shù)據(jù)流進(jìn)行基本的流量統(tǒng)計(jì)特征計(jì)算;步驟2:對(duì)上述的基本流統(tǒng)計(jì)特征進(jìn)行深入地統(tǒng)計(jì)分析,選取具有實(shí)際意義的QoS相關(guān)的統(tǒng)計(jì)特征;步驟3:將獲得的特征進(jìn)行適當(dāng)?shù)慕M合來(lái)標(biāo)識(shí)原始的網(wǎng)絡(luò)數(shù)據(jù)流,通過(guò)多層聚類分類器的多層聚類識(shí)別,得到最后的分類結(jié)果。本發(fā)明方法是一種基于視頻流統(tǒng)計(jì)特征的業(yè)務(wù)流分類方法,采用分層聚類的方法,配合有效的特征組合,能取得較好的分類效果。
【專利說(shuō)明】基于多層聚類的網(wǎng)絡(luò)視頻流分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,屬于模式識(shí)別與分類【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著因特網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)被廣泛地應(yīng)用于人們生活的各個(gè)領(lǐng)域。網(wǎng)絡(luò)中的視頻業(yè)務(wù)的增長(zhǎng)尤為迅速,與此同時(shí),各種新的復(fù)雜應(yīng)用和未知協(xié)議使得我們的網(wǎng)絡(luò)環(huán)境日趨復(fù)雜,一系列的問(wèn)題如有效的網(wǎng)管、不同業(yè)務(wù)的QoS保證等也隨之產(chǎn)生。對(duì)于網(wǎng)絡(luò)服務(wù)提供商(ISP)和網(wǎng)絡(luò)環(huán)境監(jiān)管者來(lái)說(shuō),快速準(zhǔn)確地識(shí)別不同的網(wǎng)絡(luò)業(yè)務(wù)流是一種行之有效的解決方法。
[0003]常用的識(shí)別和分類方法主要有基于端口的方法、基于深度包檢測(cè)的和基于統(tǒng)計(jì)特征的方法?;诙丝诘淖R(shí)別方法是根據(jù)國(guó)際互聯(lián)網(wǎng)代理成員管理局(IANA)建議的非強(qiáng)制端口號(hào)來(lái)區(qū)分不同的應(yīng)用類型,隨著P2P和被動(dòng)FTP的新型網(wǎng)絡(luò)應(yīng)用的日益流行,數(shù)據(jù)傳輸中使用大量的隨機(jī)端口,使得這種方法識(shí)別效率很低,分類準(zhǔn)確度不高。為了突破基于端口的方法的限制,有大量文獻(xiàn)嘗試對(duì)應(yīng)用層、載荷等進(jìn)行深度包檢測(cè),該方法通過(guò)網(wǎng)絡(luò)應(yīng)用在傳輸過(guò)程中的特征來(lái)區(qū)分不同的應(yīng)用。它需要解析數(shù)據(jù)包并獲得特征字段,準(zhǔn)確性很高,但隨著應(yīng)用負(fù)載加密和新型應(yīng)用的不斷涌現(xiàn),該方法的有效性逐步下降。因此很多研究人員嘗試借助業(yè)務(wù)流的統(tǒng)計(jì)特征識(shí)別業(yè)務(wù)流。該方法不需要獲取分組的負(fù)載,僅通過(guò)流的統(tǒng)計(jì)特征就能夠識(shí)別不同的網(wǎng)絡(luò)業(yè)務(wù)。然而,如何找到確實(shí)有效的業(yè)務(wù)流統(tǒng)計(jì)特征,是一個(gè)巨大的挑戰(zhàn)。
[0004]目前網(wǎng)絡(luò)業(yè)務(wù)流分類研究主要集中在基于流統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)的方法。這種方法可以避免基于端口和基于負(fù)載檢測(cè)的方法在應(yīng)對(duì)動(dòng)態(tài)端口、加密流和用戶隱私方面的不足。通過(guò)深入的研究證明包到達(dá)時(shí)間間隔業(yè)務(wù)流分類過(guò)程中的重要作用。Mujtaba,G等利用各類業(yè)務(wù)流的包長(zhǎng)分布,對(duì)加密通道中的的網(wǎng)絡(luò)流量進(jìn)行業(yè)務(wù)識(shí)別和區(qū)分,取得了良好的效果。Ibrahim H A H, Mohd Nor S,Ahmed A采用平均包大小和平均包到達(dá)時(shí)間間隔這兩個(gè)特征識(shí)別在線游戲,同樣取得了不錯(cuò)的效果。Erman等提出了一種半監(jiān)督的方法,使用K均值方法分類業(yè)務(wù)流數(shù)據(jù)集,但只強(qiáng)調(diào)對(duì)方法的改進(jìn)。上述的工作要么針對(duì)某種特定的業(yè)務(wù)類型,要么只強(qiáng)調(diào)對(duì)方法的改進(jìn)而忽略問(wèn)題的關(guān)鍵,即,如何從原始流的屬性中提取有意義的特征組合來(lái)標(biāo)識(shí)原始流,進(jìn)而提高流量分類模型的分類有效性。而本發(fā)明能夠很好地解決上面的問(wèn)題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明目的在于針對(duì)網(wǎng)絡(luò)視頻業(yè)務(wù)進(jìn)行識(shí)別分類的問(wèn)題,提出一種多層聚類網(wǎng)絡(luò)視頻流分類方法,該方法基于網(wǎng)絡(luò)視頻流的統(tǒng)計(jì)特征,通過(guò)采用QoS相關(guān)的統(tǒng)計(jì)特征組合標(biāo)識(shí)不同的原始視頻業(yè)務(wù)流,在不同層次的聚類中采用不同的分類特征或分類特征組合標(biāo)識(shí)業(yè)務(wù)流數(shù)據(jù)作為分類器的輸入,經(jīng)過(guò)多層聚類后,得到最終的聚類結(jié)果,將該方法用于分析非對(duì)稱(如在線播放視頻)標(biāo)清、非對(duì)稱高清、HTTP下載、QQ、Xunle1、Sopcast六種網(wǎng)絡(luò)視頻流應(yīng)用,實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有同類方法相比,本方法對(duì)上述六種應(yīng)用能夠獲得更高的分類準(zhǔn)確性。
[0006]本發(fā)明解決其技術(shù)問(wèn)題所采取的技術(shù)方案是:本發(fā)明提出了一種基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,該方法通過(guò)大量的特征計(jì)算和統(tǒng)計(jì)分析,找到了一些典型視頻業(yè)務(wù)流的QoS相關(guān)統(tǒng)計(jì)特征,并驗(yàn)證了這些統(tǒng)計(jì)特征組合用于分類的有效性。在基本FCM聚類方法的基礎(chǔ)上采用分層聚類的新思路,搭配有效的特征組合設(shè)計(jì)一種新的網(wǎng)絡(luò)視頻流分類方法。
[0007]方法流程:
[0008]步驟1:在開放的網(wǎng)絡(luò)環(huán)境中獲取所需的視頻業(yè)務(wù)數(shù)據(jù),對(duì)原始的視頻數(shù)據(jù)流進(jìn)行基本的流量統(tǒng)計(jì)特征計(jì)算,具體步驟為:
[0009]步驟1-1:在開放的網(wǎng)絡(luò)環(huán)境中,通過(guò)WireShark網(wǎng)絡(luò)分析工具抓取所需的網(wǎng)絡(luò)視頻數(shù)據(jù)流,然后將抓取的原始數(shù)據(jù)流保存成包含五列數(shù)據(jù)的標(biāo)準(zhǔn)文本格式,其中包括包到達(dá)時(shí)間(s)、源IP地址、目的IP地址、協(xié)議、包尺寸五列原始信息。
[0010]步驟1-2:對(duì)原始的視頻數(shù)據(jù)流進(jìn)行基本的流量統(tǒng)計(jì)特征計(jì)算,這些特征包括:包尺寸、包到達(dá)時(shí)間間隔、字節(jié)速率、分組速率、包大小的信息熵、包到達(dá)時(shí)間間隔的概率密度函數(shù),包到達(dá)時(shí)間間隔的累積密度函數(shù)等。
[0011]步驟2:對(duì)上述的基本流統(tǒng)計(jì)特征進(jìn)行深入地統(tǒng)計(jì)分析,選取具有實(shí)際意義的QoS相關(guān)的統(tǒng)計(jì)特征,具體步驟為:
[0012]步驟2-1:通過(guò)對(duì)基本的流統(tǒng)計(jì)特征進(jìn)行大量的統(tǒng)計(jì)分析和實(shí)驗(yàn)驗(yàn)證,得出具有一定區(qū)分效果的QoS相關(guān)的統(tǒng)計(jì)特征;
[0013]步驟2-2:對(duì)于區(qū)分實(shí)際分析的網(wǎng)絡(luò)視頻流所選取的QoS相關(guān)特征有四個(gè),其特征包括:
[0014]I)下上行字節(jié)數(shù)之比
[0015]下上行字節(jié)數(shù)之比即一條流中去除開銷之后剩余的數(shù)據(jù)中下行字節(jié)數(shù)與上行字節(jié)數(shù)的比值。該特征能夠有效地避免網(wǎng)絡(luò)環(huán)境變化對(duì)識(shí)別結(jié)果的影響,具有較好的穩(wěn)定性。在區(qū)分對(duì)稱(如P2P流)和非對(duì)稱業(yè)務(wù)時(shí)具有較好的區(qū)分效果,結(jié)合下面介紹的下行包大小的信息熵或下行子流片段數(shù)目能夠有效地區(qū)分對(duì)稱和非對(duì)稱視頻業(yè)務(wù)。
[0016]2)下行包大小的信息熵
[0017]下行包大小的信息熵可用來(lái)衡量一條流下行包大小的分布均勻程度。該值越大,說(shuō)明某種業(yè)務(wù)的包大小分布越均勻。大量的實(shí)驗(yàn)證明該參數(shù)對(duì)于區(qū)分對(duì)稱業(yè)務(wù)中的QQ、Xunlei和Sopcast具有較好的效果。下行子流片段數(shù)目連續(xù)的出現(xiàn)相同源IP的數(shù)據(jù)包稱為子流片段,這些IP地址可以重復(fù)。研究表明對(duì)稱業(yè)務(wù)中經(jīng)常出現(xiàn)不同IP地址與本地IP交互的情況,因而對(duì)稱業(yè)務(wù)流中的子流片段數(shù)目較多。
[0018]3)下行子流片段數(shù)目
[0019]連續(xù)的出現(xiàn)相同源IP的數(shù)據(jù)包稱為子流片段,這些IP地址可以重復(fù)。研究表明對(duì)稱業(yè)務(wù)中經(jīng)常出現(xiàn)不同IP地址與本地IP交互的情況,因而對(duì)稱業(yè)務(wù)流中的子流片段數(shù)目較多。
[0020]4)下行有效IP數(shù)目
[0021]在數(shù)據(jù)流抓取的過(guò)程中會(huì)出現(xiàn)不同的IP地址與本地IP信息交互的情況,由于在運(yùn)行過(guò)程中避免不了會(huì)有一些后臺(tái)應(yīng)用,因而可能出現(xiàn)一些與該流無(wú)關(guān)的IP地址。在這種情況下,定義持續(xù)持續(xù)時(shí)間大于0.5秒的IP地址為有效IP地址。下行有效IP數(shù)目也就是指下行數(shù)據(jù)中總的持續(xù)時(shí)間大于0.5秒的源IP地址數(shù)目的總和。
[0022]步驟3:將獲得的特征進(jìn)行適當(dāng)?shù)慕M合來(lái)標(biāo)識(shí)原始的網(wǎng)絡(luò)數(shù)據(jù)流,通過(guò)多層聚類分類器(即FCM)的多層聚類識(shí)別,得到最后的分類結(jié)果,具體步驟為:
[0023]步驟3-1:經(jīng)分析發(fā)現(xiàn)對(duì)稱業(yè)務(wù)和非對(duì)稱業(yè)務(wù)在下上行字節(jié)數(shù)之比和下行子流片段數(shù)目這兩個(gè)特征上有很大的差異,因此選取該二維特征空間作為區(qū)分對(duì)稱視頻業(yè)務(wù)和非對(duì)稱視頻業(yè)務(wù)的特征組合;
[0024]步驟3-2:對(duì)稱視頻業(yè)務(wù)中的QQ、Xunlei和Sopcast這三種業(yè)務(wù):QQ的下行包大小的信息熵較后兩者明顯偏大,而Sopcast的下行包大小的信息熵比其余兩種都要小,Xunlei的下行包大小的信息熵跨度較大,但與其余兩者也都有一定的區(qū)分度,并且在下行子流片段數(shù)目這維特征空間上QQ與Xunle1、Sopcast也有明顯的區(qū)別。因此,選取下行包大小的信息熵和下行子流片段數(shù)目作為區(qū)分對(duì)稱業(yè)務(wù)的有效特征組合;
[0025]步驟3-3:非對(duì)稱標(biāo)清、非對(duì)稱高清和HTTP下載這三種業(yè)務(wù):HTTP下載是一種傳統(tǒng)的應(yīng)用類型,它類似于FTP服務(wù),只是兩個(gè)IP之間的交互,因而該業(yè)務(wù)的有效IP數(shù)目必然較少。而對(duì)于非對(duì)稱的高清和標(biāo)清業(yè)務(wù),雖然某一時(shí)刻也同樣是兩個(gè)IP之間的信息交互,但是本發(fā)明所要獲取的資源不僅僅存在于一個(gè)視頻服務(wù)器中,可能由于網(wǎng)絡(luò)環(huán)境的影響,與當(dāng)前連接的服務(wù)器斷掉了,這樣本地IP就要重新獲取其他服務(wù)器上的資源,因而這兩種業(yè)務(wù)的下行有效IP數(shù)目必然偏多。采用這個(gè)特征基本上能將HTTP下載和非對(duì)稱的標(biāo)清、高清區(qū)分開。對(duì)于非對(duì)稱的標(biāo)清和高清而言,從現(xiàn)有的特征空間看,只有下上行字節(jié)數(shù)之比能將他們近似分開。
[0026]步驟3-4:采用上面所述的特征組合表示原始的網(wǎng)絡(luò)視頻流,采用基于(線性和高斯)核函數(shù)的FCM進(jìn)行多層聚類,多層聚類方法的步驟包括:
[0027]步驟1:將所有的原始數(shù)據(jù)流使用二維特征矢量(Ti,Tj)標(biāo)識(shí)進(jìn)行第一層聚類,得到兩大類聚類結(jié)果Cl,C2;
[0028]步驟2:對(duì)一層聚類結(jié)果C1,C2的數(shù)據(jù)流分別使用特征矢量Vi,Vj進(jìn)行標(biāo)識(shí),進(jìn)行第三次聚類得到聚類結(jié)果C21,C22,...;
[0029]步驟3:對(duì)上層聚類結(jié)果采用同樣的方法再次進(jìn)行聚類,直到最終的聚類結(jié)果等于給定的類別數(shù)就停止;
[0030]步驟4:統(tǒng)計(jì)聚類輸出結(jié)果。
[0031]有益效果:
[0032]1、本發(fā)明與現(xiàn)有的采用基本流統(tǒng)計(jì)特征的視頻業(yè)務(wù)識(shí)別分類技術(shù)相比,采用的是具有較好區(qū)分度的特征組合標(biāo)識(shí)原始視頻數(shù)據(jù),能夠取得更高的分類準(zhǔn)確性。
[0033]2、本發(fā)明是一種基于視頻流統(tǒng)計(jì)特征的業(yè)務(wù)流分類方法,采用分層聚類的方法,配合有效的特征組合,能取得較好的分類效果。
【專利附圖】
【附圖說(shuō)明】
[0034]圖1為本發(fā)明視頻業(yè)務(wù)特征分析與分類方法的流程框圖。
[0035]圖2為本發(fā)明所選特征組合有效性驗(yàn)證圖。
[0036]標(biāo)識(shí)說(shuō)明:(a)表示三維特征組合(下上行字節(jié)數(shù)之比、下行子流片段數(shù)目和下行包大小的信息熵)的整體區(qū)分效果圖;(b)表示二維特征組合(下上行字節(jié)數(shù)之比和下行包大小的信息熵)區(qū)分對(duì)稱業(yè)務(wù)和非對(duì)稱業(yè)務(wù)的效果圖;(C)表示二維特征組合(下行包大小的信息熵和下行子流片段數(shù)目的對(duì)數(shù))區(qū)分對(duì)稱業(yè)務(wù)的效果圖;(d)表示二維特征組合(下上行字節(jié)數(shù)之比和下行有效IP數(shù)目)區(qū)分非對(duì)稱業(yè)務(wù)的效果圖。
[0037]圖3為本發(fā)明與現(xiàn)有技術(shù)F-measure性能上的對(duì)比效果圖,現(xiàn)有技術(shù)采用基本的流統(tǒng)計(jì)特征(平均包大小和平均包到達(dá)時(shí)間間隔)。
【具體實(shí)施方式】
[0038]以下結(jié)合說(shuō)明書附圖對(duì)本發(fā)明創(chuàng)造作進(jìn)一步的詳細(xì)說(shuō)明。
[0039]如圖1所示,本發(fā)明提出的一種基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,該方法包括:流量的獲取及統(tǒng)計(jì)特征的計(jì)算、統(tǒng)計(jì)特征分析及選擇、多層FCM聚類輸出結(jié)果統(tǒng)計(jì)等。主要具體步驟為:
[0040]步驟1,流量的獲取及統(tǒng)計(jì)特征的計(jì)算:通過(guò)網(wǎng)絡(luò)分析工具WireShark在開放的網(wǎng)絡(luò)環(huán)境中獲取待分析的網(wǎng)絡(luò)視頻數(shù)據(jù),其中包括非對(duì)稱標(biāo)清(以youku標(biāo)清為例)、非對(duì)稱高清(以youku高清為例)、HTTP下載、交互式視頻通信類(以QQ為例)、P2P文件共享類(以Xunlei為例)、網(wǎng)絡(luò)在線直播類(以Sopcast為例)六類視頻應(yīng)用。將獲取的網(wǎng)絡(luò)視頻流數(shù)據(jù)保存成TXT文檔格式(即為一條流),其中包含5列,從左至右依次是包到達(dá)時(shí)間、源IP地址、目的IP地址、協(xié)議、分組大小。流是指同種業(yè)務(wù)在30分鐘時(shí)間內(nèi)所抓取的數(shù)據(jù)包序列,在次稱其為一條流,每種業(yè)務(wù)都抓取60條流來(lái)分析問(wèn)題。然后,將原始的視頻流輸入到網(wǎng)絡(luò)數(shù)據(jù)流處理平臺(tái),進(jìn)行統(tǒng)計(jì)特征計(jì)算,最后得到一些列的網(wǎng)絡(luò)視頻流的QoS相關(guān)的統(tǒng)計(jì)特征。
[0041]步驟2,統(tǒng)計(jì)特征分析及選擇:通過(guò)大量的統(tǒng)計(jì)實(shí)驗(yàn)和分析驗(yàn)證,發(fā)現(xiàn)采用下上行字節(jié)數(shù)之比、下行包大小的信息熵、下行子流片段數(shù)目和下行有效IP數(shù)目四個(gè)特征對(duì)所選取的典型網(wǎng)絡(luò)視頻流進(jìn)行分類識(shí)別。
[0042]在實(shí)驗(yàn)中,本發(fā)明首先采用三維特征向量V = (Vi,Vj,Vk)來(lái)標(biāo)識(shí)原始的網(wǎng)絡(luò)視頻流,其中Vi是下上行字節(jié)數(shù)之比,Vj是下行包大小的信息熵,Vk是下行子流片段數(shù)目。具體的區(qū)分效果如圖2的(a)所示。從圖中可以看出不同的網(wǎng)絡(luò)視頻流業(yè)務(wù)在上述三個(gè)統(tǒng)計(jì)特征上具有明顯的差異。特別地,對(duì)于對(duì)稱的QQ、Xunle1、Sopcast三種業(yè)務(wù)和非對(duì)稱的高清、標(biāo)清、HTTP三種業(yè)務(wù)在下上行字節(jié)數(shù)之比這一維度上有明顯的區(qū)別。對(duì)稱業(yè)務(wù)的下上行字節(jié)數(shù)之比較非對(duì)稱業(yè)務(wù)明顯偏少;而其中的QQ、Xunlei這兩種業(yè)務(wù)的下行包大小的信息熵與非對(duì)稱業(yè)務(wù)區(qū)別也相當(dāng)明顯,Sopcast應(yīng)用在這一維度上卻與非對(duì)稱的幾種業(yè)務(wù)區(qū)分并不明顯。如圖2的(b)所示,在二維空間上使用下行包大小的信息熵和下上行字節(jié)數(shù)之比可以將對(duì)稱和非對(duì)稱業(yè)務(wù)區(qū)分。而從任意單維特征都無(wú)法將兩大類業(yè)務(wù)區(qū)分開,從這個(gè)意義上講文中選取的這對(duì)特征組合是有效的。
[0043]接著從更細(xì)的角度劃分兩大類業(yè)務(wù)流,如圖2的(C)所示,對(duì)于對(duì)稱的三種視頻業(yè)務(wù),同樣的從任何一個(gè)單維特征空間都無(wú)法將三種業(yè)務(wù)流分開,而在本發(fā)明的二維特征空間中就可以將三種業(yè)務(wù)基本分開,也可以看出QQ和Xunlei之間在包大小的信息熵上有交疊的情況。但從整體上看,這兩個(gè)特征對(duì)于區(qū)分對(duì)稱的三種業(yè)務(wù)也是有效的。強(qiáng)調(diào)一點(diǎn),在本發(fā)明的實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),采用下行子流片段數(shù)目的對(duì)數(shù)形式要比直接采用下行子流片段數(shù)目具有更佳的分類效果。
[0044]對(duì)于非對(duì)稱業(yè)務(wù)而言,如圖2的(d)所示,僅使用上述的三個(gè)統(tǒng)計(jì)特征無(wú)法將它們分開,因而,本發(fā)明又引入一維新的特征即下行有效IP數(shù)目。HTTP下載是一種傳統(tǒng)的應(yīng)用類型,它類似于FTP服務(wù),只是兩個(gè)IP之間的交互,因而該業(yè)務(wù)的有效IP數(shù)目必然較少。而對(duì)于非對(duì)稱的高清和標(biāo)清業(yè)務(wù),雖然某一時(shí)刻也同樣是兩個(gè)IP之間的信息交互,但是,本發(fā)明所要獲取的資源不僅僅存在于一個(gè)視頻服務(wù)器中,可能由于網(wǎng)絡(luò)環(huán)境的影響,與當(dāng)前連接的服務(wù)器斷掉了,這樣本地IP就要重新獲取其他服務(wù)器上的資源,因而這兩種業(yè)務(wù)的下行有效IP數(shù)目必然偏多。采用這個(gè)特征基本上能將HTTP下載和另外兩種業(yè)務(wù)區(qū)分開,但也不可避免的存在一些交疊的情況。
[0045]因此,可以選擇上述三組二維特征矢量作為本發(fā)明的特征組合。
[0046]步驟3,多層FCM聚類輸出結(jié)果統(tǒng)計(jì),其實(shí)現(xiàn)方法為:采用上述的QoS相關(guān)統(tǒng)計(jì)特征組合,標(biāo)識(shí)原始的網(wǎng)絡(luò)視頻業(yè)務(wù)流,實(shí)施多層FCM聚類分類方法。
[0047]本發(fā)明的多層聚類方法步驟包括:
[0048]步驟:將所有的原始數(shù)據(jù)流使用二維特征矢量(Ti,Tj)標(biāo)識(shí)進(jìn)行第一層聚類,得到兩大類聚類結(jié)果Cl,C2;
[0049]步驟2:對(duì)一層聚類結(jié)果C1,C2的數(shù)據(jù)流分別使用特征矢量Vi,Vj進(jìn)行標(biāo)識(shí),進(jìn)行第三次聚類得到聚類結(jié)果C21,C22,...;
[0050]步驟3:對(duì)上層聚類結(jié)果采用同樣的方法再次進(jìn)行聚類,直到最終的聚類結(jié)果等于給定的類別數(shù)就停止;
[0051]步驟4:統(tǒng)計(jì)聚類輸出結(jié)果。
[0052]本發(fā)明的實(shí)驗(yàn)結(jié)果:
[0053]為了進(jìn)一步驗(yàn)證本發(fā)明選取的統(tǒng)計(jì)特征的有效性,本發(fā)明采用上述的特征組合標(biāo)識(shí)六種網(wǎng)絡(luò)視頻流數(shù)據(jù),利用本發(fā)明中提出的多層聚類方法進(jìn)行聚類識(shí)別。主要從衡量網(wǎng)絡(luò)流分類性能的綜合指標(biāo)F測(cè)度(F-measure)進(jìn)行對(duì)比驗(yàn)證。
[0054]在圖3中展示了兩種方法對(duì)于六種網(wǎng)絡(luò)視頻業(yè)務(wù)的F-測(cè)度值。其中Original是采用平均包大小和平均包到達(dá)時(shí)間間隔兩個(gè)特征進(jìn)行網(wǎng)絡(luò)流量分類的分類結(jié)果,Improved是采用本發(fā)明提出的統(tǒng)計(jì)特征組合利用基于徑向基核函數(shù)的多層聚類方法的分類結(jié)果。從整體上觀察,對(duì)于F-measure值來(lái)說(shuō),本方法對(duì)六種網(wǎng)絡(luò)視頻流的識(shí)別結(jié)果都有較明顯的改善。
【權(quán)利要求】
1.基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,其特征在于,所述方法步驟包括: 步驟1:在開放的網(wǎng)絡(luò)環(huán)境中獲取所需的視頻業(yè)務(wù)數(shù)據(jù),對(duì)原始的視頻數(shù)據(jù)流進(jìn)行基本的流量統(tǒng)計(jì)特征計(jì)算; 步驟2:對(duì)上述的基本流統(tǒng)計(jì)特征進(jìn)行深入地統(tǒng)計(jì)分析,選取具有實(shí)際意義的QoS相關(guān)的統(tǒng)計(jì)特征; 步驟3:將獲得的特征進(jìn)行適當(dāng)?shù)慕M合來(lái)標(biāo)識(shí)原始的網(wǎng)絡(luò)數(shù)據(jù)流,通過(guò)多層聚類分類器的多層聚類識(shí)別,得到最后的分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,其特征在于,所述方法的步驟I中包括如下步驟: 步驟1-1:在開放的網(wǎng)絡(luò)環(huán)境中,通過(guò)WireShark網(wǎng)絡(luò)分析工具抓取所需的網(wǎng)絡(luò)視頻數(shù)據(jù)流,然后將抓取的原始數(shù)據(jù)流保存成包含五列數(shù)據(jù)的標(biāo)準(zhǔn)文本格式,其中包括包到達(dá)時(shí)間、源IP地址、目的IP地址、協(xié)議、包尺寸五列原始信息; 步驟1-2:對(duì)原始的視頻數(shù)據(jù)流進(jìn)行基本的流量統(tǒng)計(jì)特征計(jì)算,這些特征包括:包尺寸、包到達(dá)時(shí)間間隔、字節(jié)速率、分組速率、包大小的信息熵、包到達(dá)時(shí)間間隔的概率密度函數(shù),包到達(dá)時(shí)間間隔的累積密度函數(shù)。
3.根據(jù)權(quán)利要求1所述的基于多層FCM的視頻業(yè)務(wù)特征分析與分類方法,其特征在于,所述方法的步驟2中包括如下步驟: 步驟2-1:通過(guò)對(duì)基本的流統(tǒng)計(jì)特征進(jìn)行大量的統(tǒng)計(jì)分析和實(shí)驗(yàn)驗(yàn)證,得出具有一定區(qū)分效果的QoS相關(guān)的統(tǒng)計(jì)特征; 步驟2-2:對(duì)于區(qū)分實(shí)際分析的網(wǎng)絡(luò)視頻流所選取的QoS相關(guān)特征有四個(gè)。
4.根據(jù)權(quán)利要求3所述的基于多層FCM的視頻業(yè)務(wù)特征分析與分類方法,其特征在于,上述步驟2-2中的QoS特征包括: 1)下上行字節(jié)數(shù)之比; 下上行字節(jié)數(shù)之比即一條流中去除開銷之后剩余的數(shù)據(jù)中下行字節(jié)數(shù)與上行字節(jié)數(shù)的比值; 2)下行包大小的信息熵; 下行包大小的信息熵可用來(lái)衡量一條流下行包大小的分布均勻程度;該值越大,說(shuō)明某種業(yè)務(wù)的包大小分布越均勻; 3)下行子流片段數(shù)目; 連續(xù)的出現(xiàn)相同源IP的數(shù)據(jù)包稱為子流片段,這些IP地址能重復(fù);對(duì)稱業(yè)務(wù)流中的子流片段數(shù)目較多; 4)下行有效IP數(shù)目; 定義持續(xù)時(shí)間大于0.5秒的IP地址為有效IP地址;下行有效IP數(shù)目是指下行數(shù)據(jù)中總的持續(xù)時(shí)間大于0.5秒的源IP地址數(shù)目的總和。
5.根據(jù)權(quán)利要求1所述的基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,其特征在于,所述方法的步驟3中包括如下步驟: 步驟3-1:經(jīng)分析發(fā)現(xiàn)對(duì)稱業(yè)務(wù)和非對(duì)稱業(yè)務(wù)在下上行字節(jié)數(shù)之比和下行子流片段數(shù)目這兩個(gè)特征上有很大的差異,因此選取該二維特征空間作為區(qū)分對(duì)稱視頻業(yè)務(wù)和非對(duì)稱視頻業(yè)務(wù)的特征組合; 步驟3-2:對(duì)稱視頻業(yè)務(wù)中的QQ、Xunlei和Sopcast這三種業(yè)務(wù):QQ的下行包大小的信息熵較后兩者明顯偏大,而Sopcast的下行包大小的信息熵比其余兩種都要小,Xunlei的下行包大小的信息熵跨度較大,但與其余兩者也都有一定的區(qū)分度,并且在下行子流片段數(shù)目這維特征空間上QQ與Xunle1、Sopcast也有明顯的區(qū)別;選取下行包大小的信息熵和下行子流片段數(shù)目作為區(qū)分對(duì)稱業(yè)務(wù)的有效特征組合; 步驟3-3:非對(duì)稱標(biāo)清、非對(duì)稱高清和HTTP下載這三種業(yè)務(wù):HTTP下載是一種傳統(tǒng)的應(yīng)用類型,它類似于FTP服務(wù),只是兩個(gè)IP之間的交互,因而該業(yè)務(wù)的有效IP數(shù)目必然較少;而對(duì)于非對(duì)稱的高清和標(biāo)清業(yè)務(wù),雖然某一時(shí)刻也同樣是兩個(gè)IP之間的信息交互,但是本發(fā)明所要獲取的資源不僅僅存在于一個(gè)視頻服務(wù)器中,可能由于網(wǎng)絡(luò)環(huán)境的影響,與當(dāng)前連接的服務(wù)器斷掉了,這樣本地IP就要重新獲取其他服務(wù)器上的資源,因而這兩種業(yè)務(wù)的下行有效IP數(shù)目必然偏多;采用這個(gè)特征基本上能將HTTP下載和非對(duì)稱的標(biāo)清、高清區(qū)分開;對(duì)于非對(duì)稱的標(biāo)清和高清而言,從現(xiàn)有的特征空間看,只有下上行字節(jié)數(shù)之比能將他們近似分開; 步驟3-4:采用所述的特征組合表示原始的網(wǎng)絡(luò)視頻流,采用核函數(shù)的FCM進(jìn)行多層聚類。
6.根據(jù)權(quán)利要求5所述的基于多層聚類的網(wǎng)絡(luò)視頻流分類方法,其特征在于,上述步驟3-4中多層聚類的方法,包括如下步驟: 步驟1:將所有的原始數(shù)據(jù)流使用二維特征矢量(Ti,Tj)標(biāo)識(shí)進(jìn)行第一層聚類,得到兩大類聚類結(jié)果Cl,C2; 步驟2:對(duì)一層聚類結(jié)果C1,C2的數(shù)據(jù)流分別使用特征矢量Vi,Vj進(jìn)行標(biāo)識(shí),進(jìn)行第三次聚類得到聚類結(jié)果C21,C22,...; 步驟3:對(duì)上層聚類結(jié)果采用同樣的方法再次進(jìn)行聚類,直到最終的聚類結(jié)果等于給定的類別數(shù)就停止; 步驟4:統(tǒng)計(jì)聚類輸出結(jié)果。
【文檔編號(hào)】H04N21/24GK104244035SQ201410432130
【公開日】2014年12月24日 申請(qǐng)日期:2014年8月27日 優(yōu)先權(quán)日:2014年8月27日
【發(fā)明者】董育寧, 姚利濤 申請(qǐng)人:南京郵電大學(xué)