亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

釣魚網(wǎng)頁的深度學習智能檢測方法

文檔序號:6439881閱讀:966來源:國知局
專利名稱:釣魚網(wǎng)頁的深度學習智能檢測方法
釣魚網(wǎng)頁的深度學習智能檢測方法技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域,尤其涉及釣魚網(wǎng)頁的深度學習智能檢測方法。
背景技術(shù)
近年來網(wǎng)絡(luò)“釣魚”攻擊頻頻出現(xiàn),嚴重地影響了電子商務(wù)的發(fā)展,也給公眾造成了很大的危害。國內(nèi)常見的“釣魚”式攻擊(Phishing),如仿冒各大銀行等金融機構(gòu)和大型交易門戶的釣魚網(wǎng)站,危害非常嚴重。當前針對釣魚網(wǎng)頁的檢測技術(shù)一般是單獨基于文檔模型或網(wǎng)頁圖像的檢測方法。由于HTML語言的靈活性和網(wǎng)頁元素的動態(tài)性,仿冒者能做出看上去一樣但結(jié)構(gòu)完全不同的網(wǎng)頁,因而單獨基于文檔模型的釣魚網(wǎng)頁檢測方法存有很大缺陷;同樣,目前基于圖像的網(wǎng)頁相似檢測方法主要是根據(jù)人的視覺原理,對網(wǎng)頁的視覺相似度進行判定,雖然難度較大,攻擊發(fā)起者對被仿冒的網(wǎng)頁的模仿也可以做到以假亂真的程度。綜上所述,以往釣魚網(wǎng)頁檢測方法中存在的檢測識別特征不全面、智能檢測精度不足等缺點。發(fā)明內(nèi)容
本發(fā)明針對上述缺陷公開了釣魚網(wǎng)頁的深度學習智能檢測方法,該方法用于解決目前單純基于文檔型或圖像型釣魚網(wǎng)頁檢測技術(shù)對圖片網(wǎng)頁處理的不足,以及釣魚網(wǎng)頁檢測精度不高的問題。
釣魚網(wǎng)頁的深度學習智能檢測方法,包括以下步驟
1)對網(wǎng)頁文檔模型進行分析,生成網(wǎng)頁文檔特征向量F ;
2)將待測網(wǎng)頁轉(zhuǎn)化為圖像,并采用譜聚類方法對所得圖像進行分割;
3)提取網(wǎng)頁圖像特征,從而獲得網(wǎng)頁內(nèi)容特征向量N;
4)使用流形學習Isomap算法對網(wǎng)頁內(nèi)容特征向量N降維得到特征空間Vnew ;
5)用DBN分類器對特征空間Vmw進行訓練和測試,根據(jù)DBN分類器結(jié)果判別待檢測的網(wǎng)頁是否為釣魚網(wǎng)頁。
所述步驟幻具體包括以下步驟
21)將待測網(wǎng)頁保存為網(wǎng)頁圖像;
22)將網(wǎng)頁圖像由RGB空間變換為HSI空間;
23)采用譜聚類方法,確定網(wǎng)頁圖像的聚類數(shù)目k ;
24)生成k個子圖。
所述步驟幻具體包括以下步驟
31)提取分割后的各個子圖的特征向量Vi ;
32)提取分割后的各個子圖間的位置關(guān)系特征向量C ;
33)將以上特征組合成網(wǎng)頁圖像特征向量A,并與網(wǎng)頁文檔特征向量F—起合成為網(wǎng)頁內(nèi)容特征向量N。3
所述步驟4)具體包括以下步驟
41)選擇鄰域參數(shù),構(gòu)造鄰域42)在步驟41)所選擇的鄰域參數(shù)K下,求出產(chǎn)生的子鄰域圖個數(shù)以及每個子鄰域圖是由哪些數(shù)據(jù)點組成;
43)求出子鄰域圖數(shù)據(jù)集間最短的Y條歐式距離分別對應(yīng)的數(shù)據(jù)點;
44)對WMj中相互連接的數(shù)據(jù)點對應(yīng)的鄰域集合進行修正
45)求出數(shù)據(jù)點間的最短路徑;
46)構(gòu)建m維的低維嵌入,獲得降維后的特征空間V_。
所述步驟幻具體包括以下步驟
51)從網(wǎng)頁內(nèi)容特征空間Vnrat中,給出部分有標簽的訓練樣本;
52)使用網(wǎng)頁圖像特征空間Vnew中給出的有標簽的訓練樣本,對DBN進行訓練;
53)對DBN實施修正訓練,進行參數(shù)微調(diào),得到DBN分類器;
54)用得到的DBN分類器對特征空間Vnew中的無標簽樣本進行測試,輸出釣魚網(wǎng)頁檢測結(jié)果。
本發(fā)明的有益效果為使用本發(fā)明提供的方法進行釣魚網(wǎng)頁檢測,綜合網(wǎng)頁文檔和圖像特征,檢測的特征參數(shù)覆蓋更加全面。在檢測方法方面,相比文本特征提取方法,DBN 深度信任網(wǎng)絡(luò)算法具有較高的檢測精度和較快的檢測速度,提高了釣魚式攻擊檢測率。


圖1是釣魚網(wǎng)頁的深度學習智能檢測方法流程圖。
具體實施方式
下面結(jié)合附圖,對優(yōu)選實施例作詳細說明。應(yīng)該強調(diào)的是,下述說明僅僅是示例性的,而不是為了限制本發(fā)明的范圍及其應(yīng)用。
如圖1所示為本發(fā)明所提供的釣魚網(wǎng)頁的智能檢測方法的檢測過程示意圖。該方法包括如下步驟
1)對網(wǎng)頁文檔模型進行分析,生成網(wǎng)頁文檔特征向量F ;
2)將待測網(wǎng)頁轉(zhuǎn)化為圖像,并采用譜聚類方法對所得圖像進行分割;
3)提取網(wǎng)頁圖像特征,從而獲得網(wǎng)頁內(nèi)容特征向量N;
4)使用流形學習Isomap算法對網(wǎng)頁內(nèi)容特征向量N降維得到特征空間Vnew ;
5)用DBN分類器對特征空間Vmw進行訓練和測試,根據(jù)DBN分類器結(jié)果判別待檢測的網(wǎng)頁是否為釣魚網(wǎng)頁。
步驟1)具體包括下列步驟
11)對網(wǎng)頁文檔模型進行分析從Web頁面的文檔對象模型(D0M模型)和HTTP協(xié)議方面進行特征分析;
12)對網(wǎng)頁文檔特征進行提取
根據(jù)HTTP協(xié)議和文檔對象模型(D0M模型),基于相關(guān)性,提取以下五種類別釣魚網(wǎng)頁敏感身份信息特征Web頁面URL地址、鏈接對象、表單元素、SSL證書和域名DNS信息。 使用特征函數(shù)FiG = 1,2,3,4,5)來分別表示上述五種類別釣魚網(wǎng)頁敏感身份信息特征,每個特征函數(shù)的輸出為實數(shù)值,表示W(wǎng)eb網(wǎng)頁中對應(yīng)的敏感身份信息特征的狀態(tài),定義F = {F” F2, F3, F4, FJ為生成的網(wǎng)頁文檔特征向量。
其中特征函數(shù)F1 (Web頁面URL地址)的具體定義如下
權(quán)利要求
1.釣魚網(wǎng)頁的深度學習智能檢測方法,其特征在于,分為以下步驟1)對網(wǎng)頁文檔模型進行分析,生成網(wǎng)頁文檔特征向量F;2)將待測網(wǎng)頁轉(zhuǎn)化為圖像,并采用譜聚類方法對所得圖像進行分割;3)提取網(wǎng)頁圖像特征,從而獲得網(wǎng)頁內(nèi)容特征向量N;4)使用流形學習Isomap算法對網(wǎng)頁內(nèi)容特征向量N降維得到特征空間Vnew;5)用DBN分類器對特征空間Vnew進行訓練和測試,根據(jù)DBN分類器結(jié)果判別待檢測的網(wǎng)頁是否為釣魚網(wǎng)頁。
2.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)頁的深度學習智能檢測方法,其特征在于,所述步驟2)具體分為以下步驟21)將待測網(wǎng)頁保存為網(wǎng)頁圖像;22)將網(wǎng)頁圖像由RGB空間變換為HSI空間;23)采用譜聚類方法,確定網(wǎng)頁圖像的聚類數(shù)目k;24)生成k個子圖。
3.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)頁的深度學習智能檢測方法,其特征在于,所述步驟3)具體分為以下步驟31)提取分割后的各個子圖的特征向量Vi;32)提取分割后的各個子圖間的位置關(guān)系特征向量C;33)將以上特征組合成網(wǎng)頁圖像特征向量A,并與網(wǎng)頁文檔特征向量F—起合成為網(wǎng)頁內(nèi)容特征向量N。
4.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)頁的深度學習智能檢測方法,其特征在于,所述步驟4)具體分為以下步驟41)選擇鄰域參數(shù),構(gòu)造鄰域圖;42)在步驟41)所選擇的鄰域參數(shù)K下,求出產(chǎn)生的子鄰域圖個數(shù)以及每個子鄰域圖是由哪些數(shù)據(jù)點組成;43)求出子鄰域圖數(shù)據(jù)集間最短的Y條歐式距離分別對應(yīng)的數(shù)據(jù)點;44)對WMi,WMj中相互連接的數(shù)據(jù)點對應(yīng)的鄰域集合進行修正45)求出數(shù)據(jù)點間的最短路徑;46)構(gòu)建m維的低維嵌入,獲得降維后的特征空間VMW。
5.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)頁的深度學習智能檢測方法,其特征在于,所述步驟5)具體分為以下步驟51)從網(wǎng)頁內(nèi)容特征空間Vnrat中,給出部分有標簽的訓練樣本;52)使用網(wǎng)頁圖像特征空間Vnrat中給出的有標簽的訓練樣本,對DBN進行訓練;53)對DBN實施修正訓練,進行參數(shù)微調(diào),得到DBN分類器;54)用得到的DBN分類器對特征空間Vmw中的無標簽樣本進行測試,輸出釣魚網(wǎng)頁檢測結(jié)果。
全文摘要
本發(fā)明公開了屬于網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域的釣魚網(wǎng)頁的深度學習智能檢測方法。包括以下步驟1)對網(wǎng)頁文檔模型進行分析,生成網(wǎng)頁文檔特征向量F;2)將待測網(wǎng)頁轉(zhuǎn)化為圖像,并采用譜聚類方法對所得圖像進行分割;3)提取網(wǎng)頁圖像特征,從而獲得網(wǎng)頁內(nèi)容特征向量N;4)使用流形學習Isomap算法對網(wǎng)頁內(nèi)容特征向量N降維得到特征空間Vnew;5)用DBN分類器對特征空間Vnew進行訓練和測試,根據(jù)DBN分類器結(jié)果判別待檢測的網(wǎng)頁是否為釣魚網(wǎng)頁。本發(fā)明的有益效果為檢測的特征參數(shù)覆蓋更加全面,相比文本特征提取方法,DBN深度信任網(wǎng)絡(luò)算法具有較高的檢測精度和較快的檢測速度,提高了釣魚式攻擊檢測率。
文檔編號G06F17/30GK102523202SQ201110393959
公開日2012年6月27日 申請日期2011年12月1日 優(yōu)先權(quán)日2011年12月1日
發(fā)明者李元誠, 沈尚方 申請人:華北電力大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1