專利名稱:一種頁面篡改的綜合檢測方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及計算機安全技術領域,尤其涉及一種頁面篡改的綜合檢測方法及系統(tǒng)。
背景技術:
隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們信息獲取和信息交流不可或缺的工具,從而為人們的工作、生活帶來了很多便捷。但如此同時,互聯(lián)網(wǎng)網(wǎng)站也容易成為黑客攻擊的目標,網(wǎng)站頁面被黑客篡改的事件時有發(fā)生,一旦打開被篡改的頁面就很容易感染網(wǎng)站上的病毒。
目前對頁面篡改的監(jiān)測技術通常采用文本相似度檢測,而文本相似度檢測主要是將待檢測頁面的文本與預存的正常頁面的文本進行對比,通過設置的閾值判斷待檢測頁面是否為篡改頁面,例如,當相似度低于某個閾值時,就認為待檢測頁面是篡改頁面,而超過某個閾值時,則認為是非篡改頁面。但是,由于文本相似度檢測主要是通過預設的閾值判斷兩個頁面之間的相似度,若閾值設置過高則容易造成誤報,若閾值設置過低又容易產(chǎn)生漏報;另外,若一個網(wǎng)站的某個頁面是發(fā)布新聞的頁面,因此該頁面的頁面內容會實時變化,當將該頁面的文本與預存頁面的文本進行比較時,該頁面與預存頁面的相似度會極低,而這種相似度低的頁面卻不屬于篡改頁面的范疇,但是如果采用現(xiàn)有的文本相似度檢測卻會被誤認為是篡改頁面。
發(fā)明內容
本發(fā)明的目的在于提供一種頁面篡改的綜合檢測方法及系統(tǒng),以解決現(xiàn)有技術中頁面篡改的誤報漏報問題。本發(fā)明的第一個方面是提供一種頁面篡改的綜合檢測方法,包括獲取當前檢測頁面的屬性信息;確定當前檢測頁面的屬性信息與預先存儲的惡意屬性規(guī)則是否匹配,若所述當前檢測頁面的屬性信息與預設的惡意屬性規(guī)則不匹配,則分別對所述當前檢測頁面進行頁面元素匹配、頁面變化率和頁面內容的檢測,并分別根據(jù)所述頁面元素匹配、頁面變化率和頁面內容的檢測結果確定當前檢測頁面是否為疑似篡改頁面;若根據(jù)至少兩項檢測結果確定當前檢測頁面是疑似篡改頁面,則確定當前檢測頁面為篡改頁面。本發(fā)明的另一個方面是提供一種頁面篡改的綜合檢測系統(tǒng),包括獲取模塊,用于獲取當前檢測頁面的屬性信息,所述當前檢測頁面的屬性信息包括頁面內容的長度、頁面的返回碼信息;檢測模塊,用于若所述當前檢測頁面的屬性信息與預設的惡意屬性規(guī)則不匹配,則分別對所述當前檢測頁面進行頁面元素匹配、頁面變化率和頁面內容的檢測,并分別根據(jù)所述頁面元素匹配、頁面變化率和頁面內容的檢測結果確定當前檢測頁面是否為疑似篡改頁面;判定模塊,用于若根據(jù)至少兩項檢測結果確定當前檢測頁面是疑似篡改頁面,則確定當前檢測頁面為篡改頁面。采用上述本發(fā)明技術方案的有益效果是本發(fā)明通過預設的惡意屬性規(guī)則與當前檢測頁面的屬性信息進行匹配,并在當前檢測頁面的屬性信息與預設的惡意屬性規(guī)則不匹配時,進一步對當前檢測頁面進行頁面元素匹配、頁面變化率和頁面內容的檢測,并分別根據(jù)頁面元素匹配、頁面變化率和頁面內容的檢測結果確定當前檢測頁面是否為疑似篡改頁面,當至少有兩項檢測結果確定當前檢測頁面是疑似篡改頁面時,則確定當前檢測頁面為篡改頁面。因本發(fā)明的方法能夠實現(xiàn)從多方位多角度對頁面進行檢測,從而減少了頁面篡改的誤報和漏報問題,使得對頁面篡改的檢測結果更加精準。
圖I為本發(fā)明實施例一提供的一種頁面篡改的綜合檢測方法的流程示意圖;圖2為本發(fā)明實施例二提供的一種頁面篡改的綜合檢測系統(tǒng)的結構示意圖。
具體實施例方式圖I為本發(fā)明實施例一提供的一種頁面篡改的綜合檢測方法的流程示意圖,如圖I所述,所述頁面篡改的綜合檢測方法可以包括如下步驟步驟101,獲取當前檢測頁面的屬性信息;步驟102,若所述當前檢測頁面的屬性信息與預設的惡意屬性規(guī)則不匹配,則分別對所述當前檢測頁面進行頁面元素匹配、頁面變化率和頁面內容的檢測,并分別根據(jù)所述頁面元素匹配、頁面變化率和頁面內容的檢測結果確定當前檢測頁面是否為疑似篡改頁面;步驟103,若至少兩項檢測結果確定當前檢測頁面是疑似篡改頁面,則確定當前檢測頁面為篡改頁面。在本實施例中,執(zhí)行主體可以是頁面篡改的綜合檢測系統(tǒng),該系統(tǒng)首先截獲需要進行檢測的檢測頁面,從而獲取當前檢測頁面的屬性信息,所述當前檢測頁面的屬性信息包括頁面內容的長度、頁面的返回碼信息等。在該系統(tǒng)中,預先存儲了一系列的惡意屬性規(guī)貝U,例如頁面內容的長度閾值、頁面的錯誤返回碼的集合等。系統(tǒng)則根據(jù)獲取的當前檢測頁面的頁面內容的長度、頁面的返回碼信息在預先存儲的惡意屬性規(guī)則中進行查找,并判斷當前檢測頁面的屬性信息與預先存儲的惡意屬性規(guī)則是否匹配,例如,若系統(tǒng)獲取的當前檢測頁面的頁面返回碼不屬于預先設置的頁面的錯誤返回碼的集合中的任一個、系統(tǒng)獲取的當前檢測頁面的頁面內容的長度未達到預先設置的頁面內容的長度閾值,則可以確定當前檢測頁面的屬性信息與預先存儲的惡意屬性規(guī)則不匹配。此時,系統(tǒng)進一步對當前檢測頁面分別進行頁面元素匹配、頁面變化率和頁面內容的檢測,并分別根據(jù)頁面元素匹配、頁面變化率和頁面內容的檢測結果確定當前檢測頁面是否為疑似篡改頁面。例如,在本實施例中,如對當前檢測頁面進行頁面元素匹配的檢測時,若檢測結果為匹配,則可以確定當前檢測頁面為疑似篡改頁面;如對當前檢測頁面進行頁面變化率的檢測時,若頁面變化率大于預設的變化率閾值,則可以確定當前檢測頁面為疑似篡改頁面;如對當前檢測頁面進行頁面內容的檢測時,若當前檢測頁面的頁面內容為惡意頁面的概率大于當前檢測頁面的頁面內容為非惡意頁面的概率,則可以確定當前檢測頁面為疑似篡改頁面。系統(tǒng)則根據(jù)上述三項檢測結果綜合確定當前檢測頁面是否為篡改頁面,若在上述三項檢測結果中至少有兩項檢測結果可以確定當前檢測頁面是疑似篡改頁面,則系統(tǒng)可以確定當前檢測頁面為篡改頁面。本實施例提供的頁面篡改的綜合檢測方法,通過預設的惡意屬性規(guī)則與當前檢測頁面的屬性信息進行匹配,并在當前檢測頁面的屬性信息與預設的惡意屬性規(guī)則不匹配時,進一步對當前檢測頁面進行頁面元素匹配、頁面變化率和頁面內容的檢測,并分別根據(jù)頁面元素匹配、頁面變化率和頁面內容的檢測結果確定當前檢測頁面是否為疑似篡改頁面,當至少有兩項檢測結果確定當前檢測頁面是疑似篡改頁面時,則確定當前檢測頁面為篡改頁面。因本發(fā)明的方法能夠實現(xiàn)從多方位多角度對頁面進行檢測,從而減少了頁面篡改的誤報和漏報問題,使得對頁面篡改的檢測結果更加精準。進一步的,在上述實施例中,系統(tǒng)判斷當前檢測頁面的屬性信息與預先存儲的惡 意屬性規(guī)則是否匹配,具體為,例如,若系統(tǒng)獲取的當前檢測頁面的頁面返回碼屬于預先設置的頁面的錯誤返回碼的集合中的一個或系統(tǒng)獲取的當前檢測頁面的頁面內容的長度達到預先設置的頁面內容的長度閾值,則可以確定當前檢測頁面的屬性信息與預先存儲的惡意屬性規(guī)則匹配,此時,系統(tǒng)則可以直接確定當前檢測頁面為篡改頁面。具體地,在上述實施例中,系統(tǒng)對當前檢測頁面進行頁面變化率的檢測,并根據(jù)所述頁面變化率的檢測結果確定當前檢測頁面是否為疑似篡改頁面的檢測結果,具體為系統(tǒng)獲取當前檢測頁面的頁面內容和預先設置的參照頁面的頁面內容;根據(jù)預設的惡意語料庫并通過算法分別將當前檢測頁面的頁面內容和預先設置的參照頁面的頁面內容轉換為詞語組文檔SI和S2,并根據(jù)詞語組文檔SI和S2確定所述當前檢測頁面和預先設置的參照頁面之間的相似度R,通過T=I-R得到頁面變化率T的值,若頁面變化率T大于預設的變化率閾值,則可以確定當前檢測頁面為疑似篡改頁面,否則確定當前檢測頁面為非疑似篡改頁面。在本實施例中,所述惡意語料庫可以包括預先收集的惡意頁面中的至少一個惡意詞語以及所述至少一個惡意詞語在所述惡意頁面中出現(xiàn)的次數(shù)。具體的,在本實施例中,頁面篡改的綜合檢測系統(tǒng)中預先存儲有惡意語料庫,其包括預先收集的惡意頁面中的至少一個惡意詞語以及該至少一個惡意詞語在惡意頁面中出現(xiàn)的次數(shù)。而本實施例中所指的算法是指在生成詞語組文檔的同時,會考慮文檔中詞語、句子的上下文關系,并根據(jù)詞語在惡意語料庫中查找該詞語對應的出現(xiàn)次數(shù)來將一個文檔的上下文進行詞語的切分,從而生成文檔中詞語長度K值可變的詞語組文檔,其具體過程舉例說明如下例如,給定一個文檔B= “解釋器是比較深入的辦理假證內容”,按照上述方法對其生成詞語組文檔b,若預設的惡意語料庫如下表I所示,且給定的詞語長度K的最大值為4,則首先從文檔B的第一個字符開始,截取第一組K=f 4的詞語組bl=(解、解釋、解釋器、解釋器是),然后分別在惡意語料庫中查找bl中的各詞語對應的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)較高的詞語放入文檔b中。例如,通過上述方法查找可知,bl中出現(xiàn)次數(shù)較高的詞語為“解釋器”,因此,將“解釋器”放入文檔b中;然后按照上述方法繼續(xù)解析文檔B中剩下的內容,從“解釋器”后的第一個字符開始,即生成詞語組b2=(是、是比、是比較、是比較深),通過查找表I可知,“是”的出現(xiàn)的次數(shù)最高,因此,將“是”依次放入文檔b中;根據(jù)上述方法對文檔B完成解析,最后生成的文檔b=(解釋器、是、比較、深入、的、辦理、假證、內容)。如果根據(jù)上述方法生成的方檔b中有重復的詞語出現(xiàn),則只保留其中的一個詞語,并刪除其余重復的詞語。表I :
權利要求
1.一種頁面篡改的綜合檢測方法,其特征在于,包括 獲取當前檢測頁面的屬性信息; 確定當前檢測頁面的屬性信息與預先存儲的惡意屬性規(guī)則是否匹配,若所述當前檢測頁面的屬性信息與預設的惡意屬性規(guī)則不匹配,則分別對所述當前檢測頁面進行頁面元素匹配、頁面變化率和頁面內容的檢測,并分別根據(jù)所述頁面元素匹配、頁面變化率和頁面內容的檢測結果確定當前檢測頁面是否為疑似篡改頁面; 若根據(jù)至少兩項檢測結果確定當前檢測頁面是疑似篡改頁面,則確定當前檢測頁面為篡改頁面。
2.根據(jù)權利要求I所述的方法,其特征在于,還包括 若所述當前檢測頁面的屬性信息與預設的惡意屬性規(guī)則匹配,則確定當前檢測頁面為 篡改頁面。
3.根據(jù)權利要求I或2所述的方法,其特征在于,所述惡意屬性規(guī)則包括錯誤返回碼集合和頁面內容長度閾值;所述確定當前檢測頁面的屬性信息與預先存儲的惡意屬性規(guī)則是否匹配,具體包括 獲取當前檢測頁面的頁面內容的長度、頁面的返回碼; 若所述頁面返回碼屬于所述錯誤返回碼集合中的一個或所述頁面內容的長度達到所述頁面內容的長度閾值,則確定當前檢測頁面的屬性信息與預先存儲的惡意屬性規(guī)則匹配,否則確定當前檢測頁面的屬性信息與預先存儲的惡意屬性規(guī)則不匹配。
4.根據(jù)權利要求I或2所述的方法,其特征在于,所述對所述當前檢測頁面進行頁面變化率的檢測,并根據(jù)所述頁面變化率的檢測結果確定當前檢測頁面是否為疑似篡改頁面的檢測結果,具體包括 獲取當前檢測頁面的頁面內容和預先設置的參照頁面的頁面內容; 根據(jù)預設的惡意語料庫并通過算法分別將所述當前檢測頁面的頁面內容和預先設置的參照頁面的頁面內容轉換為詞語組文檔SI和S2,所述惡意語料庫包括預先收集的惡意頁面中的至少一個惡意詞語以及所述至少一個惡意詞語在所述惡意頁面中出現(xiàn)的次數(shù); 根據(jù)所述詞語組文檔SI和S2確定所述當前檢測頁面和預先設置的參照頁面之間的相似度R; 若頁面變化率T大于變化率閾值,則確定當前檢測頁面為疑似篡改頁面,否則確定當前檢測頁面為非疑似篡改頁面,其中T=l-R。
5.根據(jù)權利要求4所述的方法,其特征在于,所述對所述當前檢測頁面進行頁面元素匹配的檢測,并根據(jù)所述頁面元素匹配的檢測結果確定當前檢測頁面是否為疑似篡改頁面,具體包括 獲取當前檢測頁面的頁面標簽; 根據(jù)所述頁面標簽獲取與所述頁面標簽相對應的標簽內容; 對所述標簽內容進行消息摘要算法第五版MD5計算,獲得與所述標簽內容相對應的MD5 碼; 若預設的惡意特征碼集合中存在與所述MD5碼相同的惡意特征碼,則確定當前檢測頁面為疑似篡改頁面,否則確定當前檢測頁面為非疑似篡改頁面。
6.根據(jù)權利要求4所述的方法,其特征在于,所述對所述當前檢測頁面進行頁面內容的檢測,并根據(jù)所述頁面內容的檢測結果確定當前檢測頁面是否為疑似篡改頁面,具體包括 獲取當前檢測頁面的頁面內容,所述頁面內容包括詞語Wi,其中I < i < η,η為所述頁面內容包括的詞語總數(shù); 通過以下公式分別計算所述當前檢測頁面為惡意頁面的概率和為非惡意頁面的概率
7.一種頁面篡改的綜合檢測系統(tǒng),其特征在于,包括 獲取模塊,用于獲取當前檢測頁面的屬性信息,所述當前檢測頁面的屬性信息包括頁面內容的長度、頁面的返回碼信息; 檢測模塊,用于若所述當前檢測頁面的屬性信息與預設的惡意屬性規(guī)則不匹配,則分別對所述當前檢測頁面進行頁面元素匹配、頁面變化率和頁面內容的檢測,并分別根據(jù)所述頁面元素匹配、頁面變化率和頁面內容的檢測結果確定當前檢測頁面是否為疑似篡改頁面; 判定模塊,用于若根據(jù)至少兩項檢測結果確定當前檢測頁面是疑似篡改頁面,則確定當前檢測頁面為篡改頁面。
8.根據(jù)權利要求7所述的系統(tǒng),其特征在于,所述判定模塊還用于 若所述當前檢測頁面的屬性信息與預設的惡意屬性規(guī)則匹配,則確定當前檢測頁面為篡改頁面。
9.根據(jù)權利要求7或8所述的系統(tǒng),其特征在于,所述惡意屬性規(guī)則包括錯誤返回碼集合和頁面內容長度閾值;所述檢測模塊具體用于 獲取當前檢測頁面的頁面內容的長度、頁面的返回碼; 若所述頁面返回碼屬于所述錯誤返回碼集合中的一個或所述頁面內容的長度達到所述頁面內容的長度閾值,則確定當前檢測頁面的屬性信息與預先存儲的惡意屬性規(guī)則匹配,否則確定當前檢測頁面的屬性信息與預先存儲的惡意屬性規(guī)則不匹配。
10.根據(jù)權利要求7或8所述的系統(tǒng),其特征在于,所述檢測模塊具體用于 獲取當前檢測頁面的頁面內容和預先設置的參照頁面的頁面內容; 根據(jù)預設的惡意語料庫并通過算法分別將所述當前檢測頁面的頁面內容和預先設置的參照頁面的頁面內容轉換為詞語組文檔SI和S2,所述惡意語料庫包括預先收集的惡意頁面中的至少一個惡意詞語以及所述至少一個惡意詞語在所述惡意頁面中出現(xiàn)的次數(shù);根據(jù)所述詞語組文檔SI和S2確定所述當前檢測頁面和預先設置的參照頁面之間的相似度R; 若頁面變化率T大于變化率閾值,則確定當前檢測頁面為疑似篡改頁面,否則確定當前檢測頁面為非疑似篡改頁面,其中T=l-R。
11.根據(jù)權利要求10所述的系統(tǒng),其特征在于,所述檢測模塊具體還用于 獲取當前檢測頁面的頁面標簽; 根據(jù)所述頁面標簽獲取與所述頁面標簽相對應的標簽內容; 對所述標簽內容進行消息摘要算法第五版MD5計算,獲得與所述標簽內容相對應的MD5 碼; 若預設的惡意特征碼集合中存在與所述MD5碼相同的惡意特征碼,則確定當前檢測頁面為疑似篡改頁面,否則確定當前檢測頁面為非疑似篡改頁面。
12.根據(jù)權利要求10所述的系統(tǒng),其特征在于,所述檢測模塊具體還用于 獲取當前檢測頁面的頁面內容,所述頁面內容包括詞語Wi,其中I < i <η,η為所述頁面內容包括的詞語總數(shù); 通過以下公式分別計算所述當前檢測頁面為惡意頁面的概率和為非惡意頁面的概率
全文摘要
本發(fā)明提供一種頁面篡改的綜合檢測方法及系統(tǒng),所述方法包括獲取當前檢測頁面的屬性信息;確定當前檢測頁面的屬性信息與預先存儲的惡意屬性規(guī)則是否匹配,若所述當前檢測頁面的屬性信息與預設的惡意屬性規(guī)則不匹配,則分別對所述當前檢測頁面進行頁面元素匹配、頁面變化率和頁面內容的檢測,并分別根據(jù)所述頁面元素匹配、頁面變化率和頁面內容的檢測結果確定當前檢測頁面是否為疑似篡改頁面;若根據(jù)至少兩項檢測結果確定當前檢測頁面是疑似篡改頁面,則確定當前檢測頁面為篡改頁面。本發(fā)明的方法能夠實現(xiàn)從多方位多角度對頁面進行檢測,從而減少了頁面篡改的誤報和漏報問題,使得對頁面篡改的檢測結果更加精準。
文檔編號G06F17/30GK102938041SQ201210424499
公開日2013年2月20日 申請日期2012年10月30日 優(yōu)先權日2012年10月30日
發(fā)明者張鴻勛, 王帥, 盧梁 申請人:北京神州綠盟信息安全科技股份有限公司, 北京神州綠盟科技有限公司