專利名稱:網站篡改識別的方法及裝置的制作方法
技術領域:
本發(fā)明涉及到網站防篡改技術,特別涉及到一種網站篡改識別的方法及裝置。
背景技術:
國家互聯(lián)網應急中心(CNCERT/CC)近期公布數據稱2011年9月,境內被篡改的網站數量為2227個,根據網站的類型統(tǒng)計,被篡改的數量最多的是商業(yè)類網站,對網民的財產安全造成重大威脅。目前一般的篡改識別方案很多,可靠的主要有兩種,一種是核心內嵌技術,另一種是基于網關網橋靜態(tài)篡改識別技術。核心內嵌技術中,篡改檢測部件運行于WEB服務器內部。被防護的網站發(fā)布的時候,篡改檢測部件會計算出每一個頁面唯一的加密水印。每次網頁被瀏覽時候,對網頁的當前水印和發(fā)布水印進行比對,實時對網站進行防護。此種技術缺點需要在Web服務器內部運行篡改檢測部件,增加了管理員的操作,同時對每一個流出的網站都進行水印計算和比對,占用巨大的資源,給Web服務器造成很大負擔?;诰W關網橋靜態(tài)篡改識別技術通常是對整個網頁進行緩存,并且對緩存內容進行Hash計算獲得其哈希值。當頁面被瀏覽時候,計算出頁面的哈希值和發(fā)布的哈希值比對,對Web服務器進行保護。但是對于動態(tài)網站,網頁變化頻率很大,動態(tài)網站網頁哈希值也經常變化,依靠Hash值比較并不可靠,會加大誤判,識別效果不理想。
發(fā)明內容
本發(fā)明的主要目的為提供一種網站篡改識別的方法,提升了網站篡改識別的效
果O本發(fā)明提出一種網站篡改識別的方法,包括步驟獲取網站頁面的框架結構信息;將獲取的框架結構信息與服務器鏡像框架結構信息進行比較;根據比較結果進行識別處理。優(yōu)選地,所述獲取網站頁面的框架結構信息的步驟具體包括抓取服務器響應客戶端數據包,提取符合框架信息庫的網頁信息并保存。優(yōu)選地,所述將獲取的框架結構信息與服務器鏡像框架結構信息進行比較的步驟具體包括根據獲取的框架結構信息與服務器鏡像框架結構信息,進行相似度計算,獲取相似度數值。優(yōu)選地,所述根據比較結果進行識別處理的步驟具體包括將所述相似度數值與預設閾值比較,判斷網站頁面是否被篡改;當網站網頁被篡改時,對網站網頁進行重定向并告警;當網站網頁未被篡改時,放行數據。
優(yōu)選地,所述服務器鏡像框架結構信息通過網絡爬蟲方式獲得。本發(fā)明還提出一種網站篡改識別的裝置,包括框架結構提取單元,用于獲取網站頁面的框架結構信息;
相似度比較單元,用于將獲取的框架結構信息與服務器鏡像框架結構信息進行比較;識別處理單元,用于根據比較結果進行識別處理。優(yōu)選地,所述框架結構提取單元具體用于抓取服務器響應客戶端數據包,提取符合框架信息庫的網頁信息并保存。優(yōu)選地,所述相似度比較單元具體用于根據獲取的框架結構信息與服務器鏡像框架結構信息,進行相似度計算,獲取相似度數值。優(yōu)選地,所述識別處理單元具體包括比較判斷模塊,用于將所述相似度數值與預設閾值比較,判斷網站頁面是否被篡改;重定向及告警模塊,用于當網站網頁被篡改時,對網站網頁進行重定向并告警;
放行模塊,用于當網站網頁未被篡改時,放行數據。優(yōu)選地,所述服務器鏡像框架結構信息通過網絡爬蟲方式獲得。本發(fā)明可根據Web服務器響應數據包中提取的頁面框架結構信息,以及保存的服務器鏡像的框架結構信息,進行相似度比對,判斷網站頁面是否被篡改,如此可提升篡改識別的效果。
圖I是本發(fā)明網站篡改識別的方法一實施例中的步驟流程示意圖;圖2是本發(fā)明網站篡改識別的方法一實施例中的識別處理步驟流程示意圖;圖3是本發(fā)明網站篡改識別的裝置一實施例中的結構示意圖;圖4是本發(fā)明網站篡改識別的裝置一實施例中的識別處理單元結構示意圖。本發(fā)明目的的實現、功能特點及優(yōu)點將結合實施例,參照附圖做進一步說明。
具體實施例方式應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。參照圖1,提出本發(fā)明一種網站篡改識別的方法的一實施例。該方法可包括步驟S10、獲取網站頁面的框架結構信息;步驟S11、將獲取的框架結構信息與服務器鏡像框架結構信息進行比較;步驟S12、根據比較結果進行識別處理。本實施例的網站防篡改系統(tǒng)(Website Tamper-Preventing System,WTPS)架設到Web服務器和客戶端之間,該網站防篡改系統(tǒng)可以配置成網關、網橋模式等。上述框架結構信息的獲取,可通過上述網站防篡改系統(tǒng)抓取服務器響應客戶端每一個數據包,提取符合框架信息庫的網頁信息并保存。該框架結構信息庫提取頁面信息標準是網站頁面(比如動態(tài)頁面)變化頻度較小。
然后,該網站防篡改系統(tǒng)可根據獲取的框架結構信息與服務器鏡像框架結構信息,進行相似度計算,獲取相似度數值。該服務器鏡像框架結構信息通過網絡爬蟲等方式獲得。該相似度計算采用的算法可包括Shingle算法、Simhash算法和Bloom filter算法等。參照圖2,上述步驟S12可具體包括步驟S121、將所述相似度數值與預設閾值比較,判斷網站頁面是否被篡改;當網站網頁被篡改時,進行步驟S122 ;當網站網頁未被篡改時,進行步驟S123 ;步驟S122、對網站網頁進行重定向并告警;步驟S123、放行數據。上述預設閾值可根據具體情況設定,可設定上述相似度數值低于該預設閾值即可判定網站頁面被篡改。當判定網站網頁被篡改時,對網站網頁進行重定向并告警;當判定網站網頁未被篡改時,說明該網站頁面可安全訪問,可放行數據。上述網站篡改識別的方法,針對現有的識別技術性能、識別效果不佳的情況,提出了基于網關網橋動態(tài)/靜態(tài)網頁篡改識別方式??蓪⒕W站防篡改系統(tǒng)架設在客戶端和Web服務器之間。Web服務器的響應數據包經過網站防篡改系統(tǒng)傳遞到客戶端,對Web服務器響應數據包的頁面框架結構信息進行提取,同時根據保存的服務器鏡像提取相應的框架結構信息(已備份),對兩份框架結構信息進行相似度比對,判斷網站頁面是否被篡改,如此可提升篡改識別的性能以及效果。由于相似度識別針對的是網頁框架,因此可支持靜態(tài)網站或動態(tài)網站等任何類型的Web頁面篡改的識別,并具有良好的識別效果。參照圖3,提出本發(fā)明一種網站篡改識別的裝置20的一實施例。該裝置20可包括框架結構提取單元21、相似度比較單元22以及識別處理單元23 ;該框架結構提取單元21,用于獲取網站頁面的框架結構信息;該相似度比較單元22,用于將獲取的框架結構信息與服務器鏡像框架結構信息進行比較;該識別處理單元23,用于根據比較結果進行識別處理。上述框架結構提取單元21具體用于抓取服務器響應客戶端的每一個數據包,提取符合框架信息庫的網頁信息并保存。該框架結構信息庫提取頁面信息標準是網站頁面(比如動態(tài)頁面)變化頻度較小。上述相似度比較單元22具體用于根據獲取的框架結構信息與服務器鏡像框架結構信息,進行相似度計算,獲取相似度數值。該服務器鏡像框架結構信息通過網絡爬蟲等方式獲得。該相似度計算采用的算法可包括Shingle算法、Simhash算法和Bloom filter
算法等。參照圖4,上述識別處理單元23具體包括比較判斷模塊231、重定向及告警模塊232以及放行模塊233 ;該比較判斷模塊231,用于將所述相似度數值與預設閾值比較,判斷網站頁面是否被篡改;該重定向及告警模塊232,用于當網站網頁被篡改時,對網站網頁進行重定向并告警;該放行模塊233,用于當網站網頁未被篡改時,放行數據。上述預設閾值可根據具體情況設定,可設定上述相似度數值低于該預設閾值即可判定網站頁面被篡改。當判定網站網頁被篡改時,對網站網頁進行重定向并告警;當判定網站網頁未被篡改時,說明該網站頁面可安全訪問,可放行數據。
上述網站篡改識別的裝置20,針對現有的識別技術性能、識別效果不佳的情況,提出了基于網關網橋動態(tài)/靜態(tài)網頁篡改識別方式??蓪⒃摼W站篡改識別的裝置20架設在客戶端和Web服務器之間。Web服務器的響應數據包經過網站篡改識別的裝置20傳遞到客戶端,對Web服務器響應數據包的頁面框架結構信息進行提取,同時根據保存的服務器鏡像提取相應的框架結構信息(已備份),對兩份框架結構信息進行相似度比對,判斷網站頁面是否被篡改,如此可提升篡改識別的性能以及效果。由于相似度識別針對的是網頁框架,因此可支持靜態(tài)網站或動態(tài)網 站等任何類型的Web頁面篡改的識別,并具有良好的識別效果O以上所述僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內容所作的等效結構或等效流程變換,或直接或間接運用在其他相關的技術領域,均同理包括在本發(fā)明的專利保護范圍內。
權利要求
1.一種網站篡改識別的方法,其特征在于,包括步驟 獲取網站頁面的框架結構信息; 將獲取的框架結構信息與服務器鏡像框架結構信息進行比較; 根據比較結果進行識別處理。
2.根據權利要求I所述的網站篡改識別的方法,其特征在于,所述獲取網站頁面的框架結構信息的步驟具體包括 抓取服務器響應客戶端數據包,提取符合框架信息庫的網頁信息并保存。
3.根據權利要求I所述的網站篡改識別的方法,其特征在于,所述將獲取的框架結構信息與服務器鏡像框架結構信息進行比較的步驟具體包括 根據獲取的框架結構信息與服務器鏡像框架結構信息,進行相似度計算,獲取相似度數值。
4.根據權利要求3所述的網站篡改識別的方法,其特征在于,所述根據比較結果進行識別處理的步驟具體包括 將所述相似度數值與預設閾值比較,判斷網站頁面是否被篡改; 當網站網頁被篡改時,對網站網頁進行重定向并告警; 當網站網頁未被篡改時,放行數據。
5.根據權利要求3或4所述的網站篡改識別的方法,其特征在于,所述服務器鏡像框架結構信息通過網絡爬蟲方式獲得。
6.一種網站篡改識別的裝置,其特征在于,包括 框架結構提取單元,用于獲取網站頁面的框架結構信息; 相似度比較單元,用于將獲取的框架結構信息與服務器鏡像框架結構信息進行比較; 識別處理單元,用于根據比較結果進行識別處理。
7.根據權利要求6所述的網站篡改識別的裝置,其特征在于,所述框架結構提取單元具體用于 抓取服務器響應客戶端數據包,提取符合框架信息庫的網頁信息并保存。
8.根據權利要求6所述的網站篡改識別的裝置,其特征在于,所述相似度比較單元具體用于 根據獲取的框架結構信息與服務器鏡像框架結構信息,進行相似度計算,獲取相似度數值。
9.根據權利要求8所述的網站篡改識別的裝置,其特征在于,所述識別處理單元具體包括 比較判斷模塊,用于將所述相似度數值與預設閾值比較,判斷網站頁面是否被篡改; 重定向及告警模塊,用于當網站網頁被篡改時,對網站網頁進行重定向并告警; 放行模塊,用于當網站網頁未被篡改時,放行數據。
10.根據權利要求8或9所述的網站篡改識別的裝置,其特征在于,所述服務器鏡像框架結構信息通過網絡爬蟲方式獲得。
全文摘要
本發(fā)明揭示了一種網站篡改識別的方法及裝置。該方法可包括步驟獲取網站頁面的框架結構信息;將獲取的框架結構信息與服務器鏡像框架結構信息進行比較;根據比較結果進行識別處理。本發(fā)明可根據Web服務器響應數據包中提取的頁面框架結構信息,以及保存的服務器鏡像的框架結構信息,進行相似度比對,判斷網站頁面是否被篡改,如此可提升篡改識別的效果。
文檔編號H04L29/08GK102624713SQ201210049129
公開日2012年8月1日 申請日期2012年2月29日 優(yōu)先權日2012年2月29日
發(fā)明者李艷坤 申請人:深信服網絡科技(深圳)有限公司