亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

Tor匿名通信流量應(yīng)用分類的方法

文檔序號(hào):7810394閱讀:823來(lái)源:國(guó)知局
Tor匿名通信流量應(yīng)用分類的方法
【專利摘要】一種Tor匿名通信流量應(yīng)用分類的方法,主要解決Tor匿名通信流量中上層應(yīng)用類型信息獲取的問(wèn)題,涉及到特征選擇、樣本預(yù)處理以及流量建模等相關(guān)技術(shù)。該方法首先利用Tor的數(shù)據(jù)包調(diào)度機(jī)制,定義流突發(fā)段概念,并以流突發(fā)段的體積值和方向作為分類特征。然后基于K-均值聚類算法和多序列比對(duì)算法對(duì)數(shù)據(jù)樣本進(jìn)行預(yù)處理,通過(guò)數(shù)值符號(hào)化和插入空隙的方式來(lái)解決數(shù)據(jù)樣本過(guò)擬合和長(zhǎng)度不一致問(wèn)題。最后,使用Profile隱馬爾科夫模型對(duì)不同應(yīng)用的上行和下行Tor匿名通信流量分別進(jìn)行建模,提出一種啟發(fā)式算法快速建立Profile隱馬爾可夫模型。在具體分類時(shí),將待分類網(wǎng)絡(luò)流量的特征代入不同應(yīng)用的Profile隱馬爾可夫模型中,分別計(jì)算出上行和下行流量模型對(duì)應(yīng)的概率,并以最大聯(lián)合概率值來(lái)決定待分類的Tor匿名通信流量所包含的上層應(yīng)用類型。
【專利說(shuō)明】
Tor匿名通信流量應(yīng)用分類的方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明是一種Tor匿名通信流量應(yīng)用分類方法,利用了特征選擇、樣本預(yù)處理以及流量建模等相關(guān)技術(shù),涉及網(wǎng)絡(luò)安全特別是匿名通信和流量分析研究領(lǐng)域。

【背景技術(shù)】
[0002]隨著Internet以及移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展和廣泛使用,網(wǎng)絡(luò)已融入人們?nèi)粘I畹姆椒矫婷妗Ec此同時(shí),網(wǎng)絡(luò)通信所帶來(lái)的安全與隱私問(wèn)題也受到了越來(lái)越多的關(guān)注。為保護(hù)網(wǎng)絡(luò)用戶的隱私信息,研究人員設(shè)計(jì)了多種匿名通信方案如洋蔥路由協(xié)議等,并在此基礎(chǔ)上開(kāi)發(fā)了一些實(shí)用匿名通信系統(tǒng),如Tor、JAP、I2P等。但匿名通信系統(tǒng)的廣泛使用也給網(wǎng)絡(luò)監(jiān)管帶來(lái)了巨大挑戰(zhàn)。用戶可借助匿名通信系統(tǒng)突破現(xiàn)有的網(wǎng)絡(luò)訪問(wèn)控制策略以獲取非法網(wǎng)絡(luò)資源、泄露機(jī)密信息以及實(shí)施匿名攻擊等。由于匿名通信流量均為加密流量,為實(shí)現(xiàn)對(duì)其的有效監(jiān)管,有必要對(duì)匿名通信流量的識(shí)別與分析技術(shù)展開(kāi)深入研究。一方面可以有效地規(guī)范用戶的網(wǎng)絡(luò)行為,打擊并阻止基于匿名通信系統(tǒng)進(jìn)行的網(wǎng)絡(luò)犯罪;另一方面隨著匿名通信流量識(shí)別與分析技術(shù)的研究深入,可以揭示現(xiàn)有匿名通信協(xié)議和匿名通信系統(tǒng)實(shí)現(xiàn)上存在的漏洞,從而能夠設(shè)計(jì)更完善的匿名通信協(xié)議以及其系統(tǒng)實(shí)現(xiàn),為網(wǎng)絡(luò)用戶提供更好的隱私保護(hù)。
[0003]匿名通信技術(shù)是由Chaum于1981年首次提出,該技術(shù)通過(guò)在發(fā)送者和接收者的通信路徑上插入一個(gè)或多個(gè)中間節(jié)點(diǎn)(Mix節(jié)點(diǎn))來(lái)實(shí)現(xiàn)用戶身份和通信關(guān)系的隱藏。用戶在發(fā)送數(shù)據(jù)時(shí),首先確定轉(zhuǎn)發(fā)路徑上Mix節(jié)點(diǎn)和接收者的地址信息,然后利用轉(zhuǎn)發(fā)路徑上各Mix節(jié)點(diǎn)的公鑰對(duì)數(shù)據(jù)和地址信息進(jìn)行層層加密,形成“洋蔥包”,并將該“洋蔥包”發(fā)送至轉(zhuǎn)發(fā)路徑上的第一個(gè)Mix節(jié)點(diǎn)。收到“洋蔥包”后,該Mix節(jié)點(diǎn)對(duì)其進(jìn)行解密操作以獲得下一跳地址,并將解密后的“洋蔥包”發(fā)送至下一跳節(jié)點(diǎn),其它節(jié)點(diǎn)依次操作直至最后將原始數(shù)據(jù)轉(zhuǎn)發(fā)至接收者。返回?cái)?shù)據(jù)時(shí)則按對(duì)應(yīng)的相反順序進(jìn)行,接收者將數(shù)據(jù)返回至與其直接相連的Mix節(jié)點(diǎn)(即轉(zhuǎn)發(fā)路徑上的最后一個(gè)Mix節(jié)點(diǎn)),然后路徑上各Mix節(jié)點(diǎn)利用自己的私鑰對(duì)數(shù)據(jù)進(jìn)行層層加密并反方向轉(zhuǎn)發(fā),并最終由用戶執(zhí)行多次解密操作得出通信內(nèi)容。
[0004]匿名通信系統(tǒng)的濫用給網(wǎng)絡(luò)安全帶來(lái)巨大威脅。例如德國(guó)政府在2007年陸續(xù)逮捕了多名Tor出口節(jié)點(diǎn)的提供者,而實(shí)際上這些Tor出口節(jié)點(diǎn)的提供者是非法瀏覽色情信息等此類網(wǎng)絡(luò)犯罪的替罪羊。當(dāng)匿名犯罪分子利用Tor網(wǎng)絡(luò)獲取兒童色情信息時(shí),對(duì)應(yīng)的網(wǎng)絡(luò)流量將首先被發(fā)送到Tor出口節(jié)點(diǎn),再由這些出口節(jié)點(diǎn)將相關(guān)數(shù)據(jù)經(jīng)Tor網(wǎng)絡(luò)轉(zhuǎn)發(fā)給匿名罪犯。依據(jù)網(wǎng)絡(luò)流量的IP地址信息僅能追查到這些Tor出口節(jié)點(diǎn),而真正的網(wǎng)絡(luò)罪犯卻無(wú)法得知。此外,僵尸網(wǎng)絡(luò)(Botnet)已開(kāi)始使用Tor匿名通信網(wǎng)絡(luò)來(lái)隱藏命令與控制(C&C)服務(wù)器,各Bot節(jié)點(diǎn)通過(guò)Tor與C&C服務(wù)器進(jìn)行通信,隱藏了 C&C服務(wù)器的真實(shí)身份和Bot節(jié)點(diǎn)之間的關(guān)聯(lián)性,使得對(duì)僵尸網(wǎng)絡(luò)的檢測(cè)更加困難。更為嚴(yán)重的是,一些流行的網(wǎng)絡(luò)攻擊工具,如針對(duì)Web服務(wù)器的DoS攻擊工具torshammer、SQL注入攻擊工具sqlmap等已提供配置選項(xiàng)使得攻擊流量經(jīng)過(guò)Tor匿名網(wǎng)絡(luò)轉(zhuǎn)發(fā)從而躲避檢測(cè)和追蹤。原本用于保護(hù)用戶隱私信息的匿名通信系統(tǒng)正被攻擊者濫用,給網(wǎng)絡(luò)安全帶來(lái)巨大威脅。因此,為阻止匿名網(wǎng)絡(luò)犯罪和維護(hù)網(wǎng)絡(luò)安全,有必要對(duì)Tor匿名通信流量中包含的上層應(yīng)用類型進(jìn)行分類,從而能夠確定匿名用戶的網(wǎng)絡(luò)行為。
[0005]目前Tor匿名通信流量應(yīng)用分類研究以提升Tor網(wǎng)絡(luò)的整體性能為目標(biāo),因而應(yīng)用分類工作是由Tor節(jié)點(diǎn)根據(jù)其可觀察到的協(xié)議層信息完成,而并非在網(wǎng)絡(luò)流中提取特征來(lái)進(jìn)行應(yīng)用分類。


【發(fā)明內(nèi)容】

[0006]技術(shù)問(wèn)題:應(yīng)用分類的目標(biāo)是獲取匿名通信流量中隱藏的上層應(yīng)用類型,即對(duì)于匿名通信流f,攻擊者需確定其中包含的上層應(yīng)用的類型T1, T2,, Tn,從而能夠推斷出目標(biāo)用戶Alice正進(jìn)行哪項(xiàng)匿名網(wǎng)絡(luò)活動(dòng),如匿名Web瀏覽、匿名P2P下載等。具體地,匿名通信流量的應(yīng)用分類問(wèn)題可表述如下:對(duì)于所有可能的應(yīng)用類型T1, T2,, Tn,如何將匿名通信流f映射至其中的一類或幾類?針對(duì)上述技術(shù)問(wèn)題,本發(fā)明根據(jù)Tor的數(shù)據(jù)包調(diào)度機(jī)制,定義網(wǎng)絡(luò)流突發(fā)段,并以段體積值和方向?yàn)榉诸愄卣鳎岢鲆环N基于Profile隱馬爾科夫模型(Profile HMM)的應(yīng)用分類方法,并使用樣本預(yù)處理技術(shù)對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)先處理,便于最終模型的建立。
[0007]技術(shù)方案:
[0008]為解決上述技術(shù)問(wèn)題,本發(fā)明在深入分析Tor匿名通信系統(tǒng)實(shí)現(xiàn)機(jī)制的基礎(chǔ)上,提出了一種Tor匿名通信流量應(yīng)用分類方法。該分類方法具體如下:
[0009]一種Tor匿名通信流量應(yīng)用分類方法,包括步驟:
[0010]l)Tor匿名通信流量應(yīng)用分類特征的獲取:
[0011]2)樣本數(shù)據(jù)預(yù)處理:
[0012]3) Tor匿名通信流量的流量模型建立:
[0013]4)聯(lián)合不同模型計(jì)算出的概率值進(jìn)行分類。
[0014]所述步驟I)中將網(wǎng)絡(luò)流中相反方向報(bào)文間的數(shù)據(jù)長(zhǎng)度大于O (即不包括報(bào)文頭部字段)的連續(xù)報(bào)文定義為流突發(fā)段,并將流突發(fā)段體積值(Segment Volume)定義為段中所有報(bào)文長(zhǎng)度的總和,突發(fā)段的方向定義為段中報(bào)文的方向,即入流方向或出流方向。特征選擇為流突發(fā)段的體積值和方向。
[0015]所述步驟2)中,使用K-均值聚類算法將流突發(fā)段體積值進(jìn)行聚類,并根據(jù)聚類的有效性確定最終的聚類數(shù)量,然后進(jìn)行數(shù)值符號(hào)化。同時(shí),使用多序列比對(duì)算法對(duì)符合化后的樣本數(shù)據(jù)進(jìn)行處理,通過(guò)插入空隙的方式使得樣本數(shù)據(jù)長(zhǎng)度保持一致,實(shí)現(xiàn)模型建立的通用性。
[0016]所述步驟3)中,使用啟發(fā)式方法建立Tor匿名通信流量的Profile隱馬爾可夫模型。如果一列中字母出現(xiàn)的數(shù)量超過(guò)一半,則為Match狀態(tài),否則為Insert狀態(tài)。而Delete狀態(tài)則由Match狀態(tài)對(duì)應(yīng)的列中的空位決定,空位越多,則表示從前一個(gè)狀態(tài)轉(zhuǎn)移到此Delete狀態(tài)的概率越大。設(shè)Match狀態(tài)共有N個(gè)字母和空位,其中空位數(shù)量為n,則前一個(gè)狀態(tài)轉(zhuǎn)移到Delete狀態(tài)的概率為(n+l)/(N+l)。同時(shí),轉(zhuǎn)移概率計(jì)算為狀態(tài)i轉(zhuǎn)移到狀態(tài)j的次數(shù)除以狀態(tài)i轉(zhuǎn)移的總次數(shù),輸出概率計(jì)算為第i個(gè)Match狀態(tài)輸出字符a的次數(shù)除以該狀態(tài)輸出的所有字符的總數(shù)量。
[0017]所述步驟4)中,使用單個(gè)參數(shù)α聯(lián)合上行和下行流量模型產(chǎn)生的概率,且α值位于O和I之間。根據(jù)最大聯(lián)合概率值來(lái)決定Tor匿名通信流量所包含的上層應(yīng)用類型信肩、O
[0018]本發(fā)明針對(duì)Tor匿名通信流量應(yīng)用分類問(wèn)題,利用Tor的數(shù)據(jù)包調(diào)度機(jī)制,定義流突發(fā)段概念,并以流突發(fā)段的體積值和方向作為分類特征;基于K-均值聚類算法和多序列比對(duì)算法對(duì)數(shù)據(jù)樣本進(jìn)行預(yù)處理,通過(guò)數(shù)值符號(hào)化和插入空隙的方式來(lái)解決數(shù)據(jù)樣本過(guò)擬合和長(zhǎng)度不一致問(wèn)題;使用Profile隱馬爾科夫模型對(duì)不同應(yīng)用的上行和下行Tor匿名通信流量分別進(jìn)行建模,提出一種啟發(fā)式算法快速建立Profile隱馬爾可夫模型。
[0019]有益效果:本發(fā)明具有分類效果好,運(yùn)行速度快,額外的網(wǎng)絡(luò)負(fù)荷少(只需被動(dòng)觀察網(wǎng)絡(luò)流量)等特點(diǎn),能夠在大規(guī)模網(wǎng)絡(luò)環(huán)境下有效地實(shí)現(xiàn)Tor匿名通信流量的應(yīng)用分類。

【專利附圖】

【附圖說(shuō)明】
[0020]圖1為本發(fā)明所述的Tor匿名通信系統(tǒng)架構(gòu)圖;
[0021]圖2為本發(fā)明所述的Tor匿名節(jié)點(diǎn)的數(shù)據(jù)調(diào)度策略圖;
[0022]圖3為本發(fā)明中Profile隱馬爾科夫模型示意圖;
[0023]圖4為本發(fā)明的具體實(shí)施流程圖。

【具體實(shí)施方式】
[0024]本方法主要解決Tor匿名通信流量中上層應(yīng)用類型信息獲取的問(wèn)題,涉及到特征選擇、樣本預(yù)處理以及流量建模等相關(guān)技術(shù)。本方法首先利用Tor的數(shù)據(jù)包調(diào)度機(jī)制,定義流突發(fā)段概念,并以流突發(fā)段的體積值和方向作為分類特征。然后基于K-均值聚類算法和多序列比對(duì)算法對(duì)數(shù)據(jù)樣本進(jìn)行預(yù)處理,通過(guò)數(shù)值符號(hào)化和插入空隙的方式來(lái)解決數(shù)據(jù)樣本過(guò)擬合和長(zhǎng)度不一致問(wèn)題。最后,使用Profile隱馬爾科夫模型對(duì)不同應(yīng)用的上行和下行Tor匿名通信流量分別進(jìn)行建模,提出一種啟發(fā)式算法快速建立Profile隱馬爾可夫模型。在具體分類時(shí),將待分類網(wǎng)絡(luò)流量的特征代入不同應(yīng)用的Profile隱馬爾可夫模型中,分別計(jì)算出上行和下行流量模型對(duì)應(yīng)的概率,并以最大聯(lián)合概率值來(lái)決定待分類的Tor匿名通信流量所包含的上層應(yīng)用類型。
[0025]下面結(jié)合附圖對(duì)本發(fā)明再作進(jìn)一步詳細(xì)的說(shuō)明。
[0026]UTor匿名通信流量應(yīng)用分類特征的獲取
[0027]Tor匿名通信系統(tǒng)利用Iibevent事件實(shí)現(xiàn)輸入緩沖區(qū)和輸出緩沖區(qū)中數(shù)據(jù)的處理調(diào)度,可表示為隱式的輪詢(Round Robin)調(diào)度。當(dāng)Tor節(jié)點(diǎn)從TLS/Socks接口接收到信元數(shù)據(jù)后,將其存入相對(duì)應(yīng)的輸入緩沖區(qū)中(Input Buffer)。對(duì)于存在輸入緩沖區(qū)中的信元,根據(jù)鏈路方向的不同,Tor采用輪詢調(diào)度策略對(duì)其進(jìn)行解密或加密處理。
[0028]輪詢調(diào)度策略具體描述為:首先處理第一個(gè)輸入緩沖區(qū)中的信元,處理完一定數(shù)量的信元后,接著處理第二個(gè)輸入緩沖區(qū)中的信元,以此類推,直至最后一個(gè)輸入緩沖區(qū)。然后再?gòu)牡谝粋€(gè)輸入緩沖區(qū)開(kāi)始,如此循環(huán)反復(fù)。對(duì)于輸入緩沖區(qū)中的信元,處理完畢后,再存入相對(duì)應(yīng)的輸出緩沖區(qū)(Output Buffer)中。對(duì)于輸出緩沖區(qū)隊(duì)列,與輸入緩沖區(qū)隊(duì)列類似,Tor同樣采用輪詢策略來(lái)進(jìn)行調(diào)度,將不同緩沖區(qū)中的信元通過(guò)TLS/Socks接口發(fā)送至網(wǎng)絡(luò)。
[0029]根據(jù)Tor匿名通信系統(tǒng)的調(diào)度策略,本發(fā)明定義流突發(fā)段(FBS,F(xiàn)low BurstSegmentat1n)為位于相反方向報(bào)文間的數(shù)據(jù)長(zhǎng)度大于0 (不包括報(bào)文頭部字段)的連續(xù)報(bào)文。設(shè)cl, c2, si, s2, s3, s4, c3, c4為客戶端與服務(wù)器之間的交互報(bào)文且報(bào)文長(zhǎng)度大于0,其中,ci代表客戶端發(fā)出的報(bào)文,Si為服務(wù)器端返回的響應(yīng)報(bào)文,i為自然數(shù)。根據(jù)上述流突發(fā)段的定義,{01,(:2}、{81,82,83,84}和{c3,c4}為三個(gè)不同流突發(fā)段。自然的,可將流突發(fā)段體積值(Segment Volume)定義為段中所有報(bào)文長(zhǎng)度的總和,突發(fā)段的方向定義為段中報(bào)文的方向,即入流方向或出流方向。
[0030]2、樣本數(shù)據(jù)預(yù)處理
[0031]本發(fā)明采用K-均值聚類算法對(duì)流突發(fā)段的體積值進(jìn)行符號(hào)化,即將數(shù)值轉(zhuǎn)化為字母符號(hào),從而縮減流突發(fā)段體積值的取值范圍,增加所建模型的通用性。
[0032]樣本符號(hào)化的具體過(guò)程:(如表I所示)
[0033]首先確定合適的聚類數(shù)量kf。將聚類數(shù)量k從2遞增至26,計(jì)算各類中距離intrak和類間距離interk,然后計(jì)算有效性vk = intrak/interk,并以最小Vk值所對(duì)應(yīng)的k作為聚類數(shù)量,使得建立的流量模型具有較好泛化性。
[0034]確定聚類數(shù)量kf后,對(duì)于所有類型的應(yīng)用,首先對(duì)其訓(xùn)練階段采集的所有流突發(fā)段體積值進(jìn)行K-均值聚類,然后對(duì)每一類中的數(shù)值都用同一字母表示。(例如,對(duì)于類1,其中的數(shù)值范圍是16至676,則該段范圍內(nèi)的數(shù)值統(tǒng)一用字母A表示。)完成聚類后,對(duì)所有訓(xùn)練樣本進(jìn)行符號(hào)化,確定每一體積值所在的類,然后用該類對(duì)應(yīng)的符號(hào)來(lái)替換數(shù)值,得到符號(hào)化后的特征向量(形如<A, A, B, B, D,C,C,...>)。
[0035]本發(fā)明采用多序列比對(duì)算法對(duì)特征向量進(jìn)行比對(duì),使同一類型應(yīng)用的不同特征向量長(zhǎng)度相同。
[0036]多序列比對(duì)算法的基本方法可表述為:通過(guò)加入空位(Gap)來(lái)使得特征向量長(zhǎng)度相同,同時(shí)使得加入的空位數(shù)量最少,即代價(jià)最小。由于序列精確匹配需要大量的計(jì)算時(shí)間和內(nèi)存空間,因此本發(fā)明主要考慮基于序列長(zhǎng)度的漸進(jìn)比對(duì)算法,其漸進(jìn)比對(duì)由以下三個(gè)步驟完成:
[0037]步驟1:通過(guò)序列的兩兩比對(duì),計(jì)算出每對(duì)序列間的距離,進(jìn)而得到距離矩陣。序列的兩兩比對(duì)由動(dòng)態(tài)規(guī)劃算法完成,用迭代方法計(jì)算出兩個(gè)序列的相似分值,存于一個(gè)得分矩陣中,然后根據(jù)這個(gè)得分矩陣,回溯尋找最優(yōu)的比對(duì)序列。
[0038]步驟2:根據(jù)距離矩陣計(jì)算向?qū)?shù)。在這一步,根據(jù)步驟I中獲得的距離矩陣,構(gòu)建向?qū)?shù)(Guide Tree)。向?qū)?shù)表示的是后續(xù)多序列比對(duì)中每一對(duì)比對(duì)序列的順序。
[0039]步驟3:沿著向?qū)?shù)中分枝的順序,漸進(jìn)比對(duì)新加入的序列。在此步驟中,同樣通過(guò)漸進(jìn)對(duì)比完成多序列的比對(duì)。根據(jù)向?qū)?shù)從葉子節(jié)點(diǎn)到根節(jié)點(diǎn)的順序,對(duì)序列進(jìn)行比對(duì),首先比對(duì)關(guān)系最為接近的序列對(duì),然后逐漸再將臨近的序列引入并不斷重新構(gòu)建比對(duì),直到所有序列都被加入為止。
[0040]與步驟I類似,序列間的比對(duì)仍然通過(guò)動(dòng)態(tài)規(guī)劃算法完成,但特別的是,在步驟3中會(huì)存在序列與組(Profile)以及組與組之間的比對(duì)。所有的序列根據(jù)距離被分為許多組,需要對(duì)不同組進(jìn)行比對(duì)從而完成最終的序列比對(duì)。
[0041]表I是樣本數(shù)據(jù)符號(hào)化的算法偽代碼:
[0042] 算法樣本數(shù)據(jù)符號(hào)化算法
輸入:數(shù)值形式的樣本數(shù)據(jù)輸出:符號(hào)形式的樣本數(shù)據(jù)
1:令S表示流突發(fā)段體積值,A表示聚類數(shù)量
2:for k=2 to 26
3: 對(duì)所有樣本進(jìn)行K-均值聚類,并產(chǎn)生k個(gè)聚類,標(biāo)記類q的中心為Z,.4' 計(jì)算類間的平均距離為=,聚類中心點(diǎn)之間的距離計(jì)算為
N /二I SeC
inte。讀叫丨卜-?丨廠)
5: 計(jì)算有效性 VfintmiJinierk
6: end for
7: 選擇具有最小&的聚類數(shù)量kf作為最終的聚類數(shù)量 8: fbr/=I,..., kf
9; 確定對(duì)第j個(gè)類對(duì)應(yīng)的符號(hào) 10: end for 11: for i=.I η
12: 對(duì)第i個(gè)樣本進(jìn)行符號(hào)化 13: end for
[0043]3、Tor匿名通信流量的流量模型建立
[0044]Profile隱馬爾可夫模型由Match、Insert、Delete三種狀態(tài)組成。為確定Match、Insert、Delete狀態(tài),首先對(duì)學(xué)習(xí)樣本進(jìn)行排列,每一特征向量為一行,形成樣本矩陣。值得注意的是此時(shí)的特征向量已經(jīng)過(guò)樣本預(yù)處理,由字母和空位(用短橫線表示)組成,且長(zhǎng)度是相同的??疾炀仃嚨拿恳涣?,每一列即對(duì)應(yīng)Profile HMM模型中的一個(gè)Match或Insert狀態(tài)。本發(fā)明采用如下啟發(fā)式方法來(lái)確定每一列對(duì)應(yīng)的具體的狀態(tài):如果該列中字母出現(xiàn)的數(shù)量超過(guò)一半,則為Match狀態(tài),否則為Insert狀態(tài)。Delete狀態(tài)則由Match狀態(tài)對(duì)應(yīng)的列中的空位決定。
[0045]確定Match、Insert和Delete狀態(tài)后,還需要計(jì)算狀態(tài)之間的轉(zhuǎn)移概率以及Match狀態(tài)的輸出概率。由于Delete狀態(tài)不產(chǎn)生輸出,因而無(wú)需計(jì)算對(duì)應(yīng)的輸出概率,而Insert狀態(tài)的輸出為隨機(jī)輸出,其可觀察字符集包括樣本中所有出現(xiàn)的字符,且輸出概率為等概率分布,即對(duì)于所有的可觀察字符,其產(chǎn)生的概率均為1/C,C為字符集合大小。
[0046]為計(jì)算狀態(tài)間的轉(zhuǎn)移概率以及Match狀態(tài)的輸出概率,需首先統(tǒng)計(jì)狀態(tài)間的轉(zhuǎn)移次數(shù)和Match狀態(tài)對(duì)應(yīng)的列種各字符出現(xiàn)的數(shù)量。轉(zhuǎn)移概率計(jì)算為狀態(tài)i轉(zhuǎn)移到狀態(tài)j的次數(shù)除以狀態(tài)i轉(zhuǎn)移的總次數(shù),輸出概率計(jì)算為第i個(gè)Match狀態(tài)輸出字符a的次數(shù)除以該狀態(tài)輸出的所有字符的總數(shù)量。
[0047]4、聯(lián)合不同模型計(jì)算出的概率值進(jìn)行分類
[0048]應(yīng)用分類流程為:
[0049]步驟1:從流f中提取入和出兩個(gè)方向上的流突發(fā)段體積值,得到特征向量V1和VE。
[0050]步驟2:根據(jù)在訓(xùn)練階段得到的聚類信息,對(duì)V1和Ve進(jìn)行符號(hào)化。記符號(hào)化后的特征向量分別為S1和Se。
[0051]步驟3:對(duì)每一個(gè)Profile隱馬爾可夫模型,計(jì)算SI由模紀(jì)產(chǎn)生的概率。記概率為 P;,P1i = Pr(57 \M;), i=\,…,N。
[0052]步驟4:與步驟3類似,對(duì)每一個(gè)Profile隱馬爾可夫模型W 斤算Se由模型Mf
產(chǎn)生的概率。記概率為pfi=l,…,N。
[0053]步驟5:計(jì)算聯(lián)合概率
[0054]Pi = ap\ + (1- Gr)μ.', ? = 1.....N.
[0055]其中,O ( α ( 1,用于調(diào)節(jié)入流和出流對(duì)分類的不同貢獻(xiàn)以達(dá)到最優(yōu)的分類結(jié)果O
[0056]步驟6:選擇值最大的聯(lián)合概率
[0057]pm = argmax {p1; p2,..., pN}
[0058]則流f的應(yīng)用類型即確定為訓(xùn)練集中的第m個(gè)應(yīng)用類型。
[0059]本發(fā)明還可有其他多種實(shí)施方式,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員可根據(jù)本發(fā)明做出各種相應(yīng)的改變和變形,這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【權(quán)利要求】
1.一種Tor匿名通信流量應(yīng)用分類的方法,其特征是包括步驟: 1)利用Tor的數(shù)據(jù)包調(diào)度機(jī)制,定義流突發(fā)段概念,并以流突發(fā)段的體積值和方向作為分類特征; 2)基于K-均值聚類算法和多序列比對(duì)算法對(duì)分類特征的數(shù)據(jù)樣本進(jìn)行預(yù)處理,通過(guò)數(shù)值符號(hào)化和插入空隙的方式來(lái)解決數(shù)據(jù)樣本過(guò)擬合和長(zhǎng)度不一致問(wèn)題;經(jīng)過(guò)數(shù)據(jù)樣本預(yù)處理,數(shù)值已經(jīng)符號(hào)化,是由字母和空位組成,且長(zhǎng)度是相同的; 3)使用Profile隱馬爾科夫模型對(duì)不同應(yīng)用的上行和下行Tor匿名通信流量分別進(jìn)行建模; 4)最后,將待分類網(wǎng)絡(luò)流量的特征代入不同應(yīng)用的Profile隱馬爾可夫模型中,分別計(jì)算出上行和下行流量模型對(duì)應(yīng)的概率,并以最大聯(lián)合概率值來(lái)決定待分類的Tor匿名通信流量所包含的上層應(yīng)用類型; 所述步驟3)中,使用啟發(fā)式方法建立Tor匿名通信流量的Profile隱馬爾可夫模型,方法如下: Tor匿名通信流量的Profile隱馬爾可夫模型由Match、Insert、Delete三種狀態(tài)組成;為確定Match、Insert、Delete狀態(tài),首先對(duì)學(xué)習(xí)樣本進(jìn)行排列,分類特征的每一特征向量為一行,構(gòu)成樣本矩陣; 考察樣本矩陣的每一列,每一列即對(duì)應(yīng)Profile隱馬爾可夫模型中的一個(gè)Match或Insert狀態(tài);確定每一列對(duì)應(yīng)的具體的狀態(tài)的方法為:如果該列中字母出現(xiàn)的數(shù)量超過(guò)一半,則為Match狀態(tài),如果該列中字母出現(xiàn)的數(shù)量沒(méi)有超過(guò)一半,為Insert狀態(tài);Delete狀態(tài)則由Match狀態(tài)對(duì)應(yīng)的列中的空位決定,空位越多,則表示從前一個(gè)狀態(tài)轉(zhuǎn)移到此Delete狀態(tài)的概率越大; 由于Delete狀態(tài)不產(chǎn)生輸出,因而無(wú)需計(jì)算其對(duì)應(yīng)的輸出概率,而Insert狀態(tài)的輸出為隨機(jī)輸出,其可觀察字符集包括樣本中所有出現(xiàn)的字符,且輸出概率為等概率分布,即對(duì)于所有的可觀察字符,其產(chǎn)生的概率均為1/C,C為字符集合大?。凰源_定Match、Insert和Delete狀態(tài)后,僅計(jì)算狀態(tài)間的轉(zhuǎn)移概率以及Match狀態(tài)的輸出概率,方法為: 首先統(tǒng)計(jì)狀態(tài)間的轉(zhuǎn)移次數(shù)和Match狀態(tài)對(duì)應(yīng)的列中各字符出現(xiàn)的數(shù)量; 轉(zhuǎn)移概率計(jì)算為:狀態(tài)i轉(zhuǎn)移到狀態(tài)j的次數(shù)除以狀態(tài)i轉(zhuǎn)移的總次數(shù); 輸出概率計(jì)算為:第i個(gè)Match狀態(tài)輸出字符a的次數(shù)除以該狀態(tài)輸出的所有字符的總數(shù)量。
2.根據(jù)權(quán)利要求1所述的Tor匿名通信流量應(yīng)用分類的方法,其特征是所述步驟I)中,將網(wǎng)絡(luò)流中相反方向報(bào)文間的數(shù)據(jù)長(zhǎng)度大于O即不包括報(bào)文頭部字段的連續(xù)報(bào)文定義為流突發(fā)段,并將流突發(fā)段的體積值定義為該流突發(fā)段中所有報(bào)文長(zhǎng)度的總和,流突發(fā)段的方向定義為流突發(fā)段中報(bào)文的方向,即入流方向或出流方向;分類特征選擇為流突發(fā)段的體積值和方向。
3.根據(jù)權(quán)利要求2所述的Tor匿名通信流量應(yīng)用分類的方法,其特征是所述步驟I)中, Tor匿名通信系統(tǒng)利用Iibevent事件實(shí)現(xiàn)輸入緩沖區(qū)和輸出緩沖區(qū)中數(shù)據(jù)的處理調(diào)度,表示為隱式的輪詢調(diào)度;當(dāng)Tor節(jié)點(diǎn)從TLS/Socks接口接收到信元數(shù)據(jù)后,將其存入相對(duì)應(yīng)的輸入緩沖區(qū)中;對(duì)于存在輸入緩沖區(qū)中的信元,Tor采用輪詢調(diào)度策略對(duì)其進(jìn)行解密或加密處理; 輪詢調(diào)度策略的方法為: 首先處理第一個(gè)輸入緩沖區(qū)中的信元,處理完一定數(shù)量的信元后,接著處理第二個(gè)輸入緩沖區(qū)中的信元,以此類推,直至最后一個(gè)輸入緩沖區(qū);然后再返回第一個(gè)輸入緩沖區(qū)處理,如此循環(huán)反復(fù); 對(duì)于輸入緩沖區(qū)中的信元,處理完畢后,再存入相對(duì)應(yīng)的輸出緩沖區(qū)中;對(duì)于輸出緩沖區(qū)隊(duì)列,與輸入緩沖區(qū)隊(duì)列類似,Tor同樣采用輪詢策略來(lái)進(jìn)行調(diào)度,將不同緩沖區(qū)中的信元通過(guò)TLS/Socks接口發(fā)送至網(wǎng)絡(luò); 對(duì)于流突發(fā)段,設(shè)Cl,c2, si, s2, s3, s4, c3, c4為客戶端與服務(wù)器之間的交互報(bào)文且報(bào)文長(zhǎng)度大于0,其中,ci代表客戶端發(fā)出的報(bào)文,Si為服務(wù)器端返回的響應(yīng)報(bào)文,i為自然數(shù);則{cl, c2}、{si, s2, s3, s4}和{c3,c4}為三個(gè)不同流突發(fā)段;則將流突發(fā)段體積值定義為段中所有報(bào)文長(zhǎng)度的總和,突發(fā)段的方向定義為段中報(bào)文的方向,即入流方向或出流方向。
4.根據(jù)權(quán)利要求1所述的Tor匿名通信流量應(yīng)用分類的方法,其特征是所述步驟2)中,采用K-均值聚類算法對(duì)流突發(fā)段的體積值進(jìn)行符號(hào)化,即將數(shù)值轉(zhuǎn)化為字母符號(hào),樣本的符號(hào)化過(guò)程包括: 首先確定合適的聚類數(shù)量kf:將聚類數(shù)量k從2遞增至26,計(jì)算各類中距離intrak和類間距離interk,然后計(jì)算有效性vk = intrak/interk,并以最小Vk值所對(duì)應(yīng)的k作為聚類數(shù)量; 確定聚類數(shù)量kf后,對(duì)于所有類型的應(yīng)用,首先對(duì)其訓(xùn)練階段采集的所有流突發(fā)段體積值進(jìn)行K-均值聚類,然后對(duì)每一類中的數(shù)值都用同一字母表示;完成聚類后,對(duì)所有訓(xùn)練樣本進(jìn)行符號(hào)化,確定每一體積值所在的類,然后用該類對(duì)應(yīng)的符號(hào)來(lái)替換數(shù)值,得到符號(hào)化后的分類特征的特征向量; 采用多序列比對(duì)算法對(duì)特征向量進(jìn)行比對(duì),使同一類型應(yīng)用的不同特征向量的長(zhǎng)度相同,具體采用基于序列長(zhǎng)度的漸進(jìn)比對(duì)算法,其漸進(jìn)比對(duì)由以下三個(gè)步驟完成: a:通過(guò)序列的兩兩比對(duì),計(jì)算出每對(duì)序列間的距離,進(jìn)而得到距離矩陣;序列的兩兩比對(duì)由動(dòng)態(tài)規(guī)劃算法完成,用迭代方法計(jì)算出兩個(gè)序列的相似分值,存于一個(gè)得分矩陣中,然后根據(jù)這個(gè)得分矩陣,回溯尋找最優(yōu)的比對(duì)序列; b:根據(jù)步驟a中獲得的距離矩陣,構(gòu)建向?qū)?shù),向?qū)?shù)表示的是后續(xù)多序列比對(duì)中每一對(duì)比對(duì)序列的順序; c:沿著向?qū)?shù)中分枝的順序,漸進(jìn)比對(duì)新加入的序列;在此步驟中,通過(guò)漸進(jìn)對(duì)比完成多序列的比對(duì);根據(jù)向?qū)?shù)從葉子節(jié)點(diǎn)到根節(jié)點(diǎn)的順序,對(duì)序列進(jìn)行比對(duì),首先比對(duì)關(guān)系最為接近的序列對(duì),然后逐漸再將臨近的序列引入并不斷重新構(gòu)建比對(duì),直到所有序列都被加入為止;與步驟a類似,序列間的比對(duì)仍然通過(guò)動(dòng)態(tài)規(guī)劃算法完成,但特別的是,本步驟c中會(huì)存在序列與組以及組與組之間的比對(duì);所有的序列根據(jù)距離被分為許多組,需要對(duì)不同組進(jìn)行比對(duì)從而完成最終的序列比對(duì)。
5.根據(jù)權(quán)利要求1所述的Tor匿名通信流量應(yīng)用分類的方法,其特征是所述步驟4)中,應(yīng)用分類流程為: .4.1:從流f中提取下行和上行兩個(gè)方向上的流突發(fā)段體積值,得到特征向量分別記為V1和 Ve ; .4.2:根據(jù)在訓(xùn)練階段得到的聚類信息,對(duì)V1和Ve進(jìn)行符號(hào)化;記符號(hào)化后的特征向量分別為S1和Se ; . 4.3:下行方向上的流突發(fā)段的體積值的向量對(duì)應(yīng)的Profile隱馬爾可夫模型為;對(duì)每一個(gè)模型M;,計(jì)算S1由模型M/產(chǎn)生的概率,記概率力,P1i = VriS1 |M/), i=l,…,N' .4.4:上行方向上的流突發(fā)段的體積值的向量對(duì)應(yīng)的Profile隱馬爾可夫模型為Mf ;對(duì)每一個(gè)模型M 計(jì)算Se由模型產(chǎn)生的概率,記概率為P,, =Pr(&|Mf), .4.5:計(jì)算聯(lián)合概率 P = a p..+.(1.....cc) p' , / = 1.....N.其中,OS a ^ I, α用于調(diào)節(jié)入流和出流對(duì)分類的不同貢獻(xiàn),以達(dá)到最優(yōu)的分類結(jié)果; .4.6:選擇值最大的聯(lián)合概率 Pm = argmax {ρ1; P2,…,ρΝ} 則流f的應(yīng)用類型即確定為訓(xùn)練集中的第m個(gè)應(yīng)用類型。
【文檔編號(hào)】H04L29/06GK104135385SQ201410370944
【公開(kāi)日】2014年11月5日 申請(qǐng)日期:2014年7月30日 優(yōu)先權(quán)日:2014年7月30日
【發(fā)明者】蔣平, 許勇, 趙琛, 史明文, 汪兆斌 申請(qǐng)人:南京市公安局
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1