源定位符中重寫過的分段參數(shù)的重寫標(biāo)識; 從網(wǎng)站訪問數(shù)據(jù)中獲取要去重的統(tǒng)一資源定位符數(shù)據(jù); 根據(jù)統(tǒng)一資源定位符的結(jié)構(gòu)和分段參數(shù),將所述要去重的統(tǒng)一資源定位符與所述去重 規(guī)則庫中的去重規(guī)則進行匹配;以及 將匹配出的與相同去重規(guī)則對應(yīng)的統(tǒng)一資源定位符進行過濾,并對應(yīng)每個去重規(guī)則保 留一個統(tǒng)一資源定位符。2. 如權(quán)利要求1所述的統(tǒng)一資源定位符去重方法,其特征在于,所述去重規(guī)則的結(jié)構(gòu) 包括域名參數(shù)部分、后綴部分、分段數(shù)目部分以及重寫規(guī)則部分。3. 如權(quán)利要求2所述的統(tǒng)一資源定位符去重方法,其特征在于,所述去重規(guī)則的所述 重寫規(guī)則部分設(shè)置有對應(yīng)統(tǒng)一資源定位符中重寫過的分段參數(shù)的重寫標(biāo)識。4. 如權(quán)利要求3所述的統(tǒng)一資源定位符去重方法,其特征在于,所述將所述要去重的 統(tǒng)一資源定位符與所述去重規(guī)則庫中的去重規(guī)則進行匹配的步驟包括: 根據(jù)所述去重規(guī)則中的域名參數(shù)部分,過濾掉所述要去重的統(tǒng)一資源定位符中域名不 對應(yīng)的統(tǒng)一資源定位符; 根據(jù)所述去重規(guī)則中的后綴部分和分段數(shù)目部分,過濾掉所述要去重的統(tǒng)一資源定位 符中,與所有去重規(guī)則結(jié)構(gòu)都不對應(yīng)的統(tǒng)一資源定位符中;以及 根據(jù)所述去重規(guī)則中的重寫規(guī)則部分,過濾掉所述要去重的統(tǒng)一資源定位符中沒有重 寫過的統(tǒng)一資源定位符。5. 如權(quán)利要求1所述的統(tǒng)一資源定位符去重方法,其特征在于,所述從網(wǎng)站訪問數(shù)據(jù) 中獲取要去重的統(tǒng)一資源定位符數(shù)據(jù)的步驟包括:通過網(wǎng)絡(luò)爬蟲獲取所述要去重的統(tǒng)一資 源定位符數(shù)據(jù),或者從網(wǎng)頁訪問的原始日志中獲取所述要去重的統(tǒng)一資源定位符數(shù)據(jù)。6. -種如權(quán)利要求1~5任一項所述的去重規(guī)則生成方法,其特征在于,包括: 獲取要生成去重規(guī)則的域名下的統(tǒng)一資源定位符數(shù)據(jù); 對所述獲取的統(tǒng)一資源定位符進行聚類; 將聚類后的統(tǒng)一資源定位符按照域名參數(shù)部分、后綴部分、分段數(shù)目部分以及分段參 數(shù)部分進行分割,并形成多條統(tǒng)計信息; 獲取經(jīng)過分割后相同結(jié)構(gòu)的統(tǒng)計信息;以及 將相同結(jié)構(gòu)的統(tǒng)計信息中值不同的對應(yīng)分段參數(shù)值替換為重寫標(biāo)識,并通過替換過重 寫標(biāo)識的統(tǒng)計信息生成新的去重規(guī)則。7. 如權(quán)利要求6所述的去重規(guī)則生成方法,其特征在于,所述對所述獲取的統(tǒng)一資源 定位符進行聚類的步驟包括:對所述獲取的統(tǒng)一資源定位符按照長度和字符字典序進行聚 類。8. 如權(quán)利要求6所述的去重規(guī)則生成方法,其特征在于,所述獲取要生成去重規(guī)則的 域名下的統(tǒng)一資源定位符數(shù)據(jù)的步驟之后包括:過濾掉獲取的所述統(tǒng)一資源定位符數(shù)據(jù)中 重寫過的統(tǒng)一資源定位符。9. 如權(quán)利要求8所述的去重規(guī)則生成方法,其特征在于,所述過濾掉獲取的所述統(tǒng)一 資源定位符數(shù)據(jù)中重寫過的統(tǒng)一資源定位符的步驟包括: 將獲取的所述統(tǒng)一資源定位符數(shù)據(jù)與已有的去重規(guī)則進行匹配;以及 過濾掉匹配出對應(yīng)的去重規(guī)則的統(tǒng)一資源定位符。10. 如權(quán)利要求6所述的去重規(guī)則生成方法,其特征在于,所述生成新的去重規(guī)則的 步驟之后包括:將新的去重規(guī)則與同一域名下所有相同結(jié)構(gòu)的統(tǒng)一資源定位符進行匹配驗 證。11. 如權(quán)利要求10所述的去重規(guī)則生成方法,其特征在于,所述將新的去重規(guī)則與同 一域名下所有相同結(jié)構(gòu)的統(tǒng)一資源定位符進行匹配驗證的步驟包括: 獲取與新的去重規(guī)則擁有相同域名參數(shù)、后綴、分段數(shù)目的所有統(tǒng)一資源定位符; 將新的去重規(guī)則與所述獲取的統(tǒng)一資源定位符進行匹配;以及 當(dāng)匹配到對應(yīng)的統(tǒng)一資源定位符的數(shù)目超過設(shè)定閾值時,驗證通過。12. 如權(quán)利要求6所述的去重規(guī)則生成方法,其特征在于,所述生成新的去重規(guī)則的步 驟之后包括:對新的去重規(guī)則設(shè)置一個待審核標(biāo)識。13. -種如權(quán)利要求1~5任一項所述的去重規(guī)則生成方法,其特征在于,包括: 獲取預(yù)設(shè)的去重規(guī)則庫中已有的去重規(guī)則,所述去重規(guī)則的結(jié)構(gòu)包括域名參數(shù)部分、 后綴部分、分段數(shù)目部分以及重寫規(guī)則部分; 獲取要生成去重規(guī)則的域名下的多個統(tǒng)一資源定位符數(shù)據(jù); 通過已有的去重規(guī)則的后綴部分和重寫規(guī)則部分,對要生成去重規(guī)則的域名下的多個 統(tǒng)一資源定位符進行匹配;以及 當(dāng)匹配到的統(tǒng)一資源定位符的數(shù)目大于設(shè)定的閾值,則將要生成去重規(guī)則的域名替換 對應(yīng)的去重規(guī)則中的域名參數(shù)部分,并生成新的去重規(guī)則。14. 如權(quán)利要求13所述的去重規(guī)則生成方法,其特征在于,所述獲取預(yù)設(shè)的去重規(guī)則 庫中已有的去重規(guī)則的步驟之后還包括: 對已有的去重規(guī)則中后綴部分和重寫規(guī)則部分相同的去重規(guī)則,按照不同域名的數(shù)目 進行排序; 根據(jù)排序結(jié)果,獲取不同域名的數(shù)目最多的設(shè)定數(shù)量個去重規(guī)則的后綴部分和重寫規(guī) 則部分; 所述通過已有的去重規(guī)則的后綴部分和重寫規(guī)則部分,對要生成去重規(guī)則的域名下的 多個統(tǒng)一資源定位符進行匹配的步驟包括:通過獲取的不同域名的數(shù)目最多的設(shè)定數(shù)量個 去重規(guī)則的后綴部分和重寫規(guī)則部分,對要生成去重規(guī)則的域名下的多個統(tǒng)一資源定位符 進行匹配。15. -種統(tǒng)一資源定位符去重裝置,其特征在于,包括: 去重規(guī)則庫設(shè)置模塊,用于根據(jù)統(tǒng)一資源定位符的結(jié)構(gòu)預(yù)設(shè)去重規(guī)則庫,所述去重規(guī) 則庫中存放多個去重規(guī)則,每個去重規(guī)則對應(yīng)統(tǒng)一資源定位符的不同結(jié)構(gòu),且所述去重規(guī) 則中設(shè)置有表示對應(yīng)統(tǒng)一資源定位符中重寫過的分段參數(shù)的重寫標(biāo)識; 統(tǒng)一資源定位符抓取模塊,用于從網(wǎng)站訪問數(shù)據(jù)中獲取要去重的統(tǒng)一資源定位符數(shù) 據(jù); 匹配模塊,用于根據(jù)統(tǒng)一資源定位符的結(jié)構(gòu)和分段參數(shù),將所述要去重的統(tǒng)一資源定 位符與所述去重規(guī)則庫中的去重規(guī)則進行匹配;以及 去重模塊,用于將匹配出的與相同去重規(guī)則對應(yīng)的統(tǒng)一資源定位符進行過濾,并對應(yīng) 每個去重規(guī)則保留一個統(tǒng)一資源定位符。16. 如權(quán)利要求15所述的統(tǒng)一資源定位符去重裝置,其特征在于,所述去重規(guī)則的結(jié) 構(gòu)包括域名參數(shù)部分、后綴部分、分段數(shù)目部分以及重寫規(guī)則部分。17. 如權(quán)利要求16所述的統(tǒng)一資源定位符去重裝置,其特征在于,所述去重規(guī)則的所 述重寫規(guī)則部分設(shè)置有對應(yīng)統(tǒng)一資源定位符中重寫過的分段參數(shù)的重寫標(biāo)識。18. 如權(quán)利要求17所述的統(tǒng)一資源定位符去重裝置,其特征在于,所述匹配模塊進一 步包括: 第一過濾單元,用于根據(jù)所述去重規(guī)則中的域名參數(shù)部分,過濾掉所述要去重的統(tǒng)一 資源定位符中域名不對應(yīng)的統(tǒng)一資源定位符; 第二過濾單元,用于根據(jù)所述去重規(guī)則中的后綴部分和分段數(shù)目部分,過濾掉所述要 去重的統(tǒng)一資源定位符中,與所有去重規(guī)則結(jié)構(gòu)都不對應(yīng)的統(tǒng)一資源定位符中;以及 第三過濾單元,用于根據(jù)所述去重規(guī)則中的重寫規(guī)則部分,過濾掉所述要去重的統(tǒng)一 資源定位符中沒有重寫過的統(tǒng)一資源定位符。19. 如權(quán)利要求15所述的統(tǒng)一資源定位符去重裝置,其特征在于,所述統(tǒng)一資源定位 符抓取模塊通過網(wǎng)絡(luò)爬蟲獲取所述要去重的統(tǒng)一資源定位符數(shù)據(jù),或者從網(wǎng)頁訪問的原始 日志中獲取所述要去重的統(tǒng)一資源定位符數(shù)據(jù)。20. -種如權(quán)利要求15~19任一項所述的去重規(guī)則生成裝置,其特征在于,包括: 統(tǒng)一資源定位符獲取模塊,用于獲取要生成去重規(guī)則的域名下的統(tǒng)一資源定位符數(shù) 據(jù); 聚類模塊,用于對所述獲取的統(tǒng)一資源定位符進行聚類; 分割模塊,用于將聚類后的統(tǒng)一資源定位符按照域名參數(shù)部分、后綴部分、分段數(shù)目部 分以及分段參數(shù)部分進行分割,并形成多條統(tǒng)計信息; 統(tǒng)計信息獲取模塊,用于獲取經(jīng)過分割后相同結(jié)構(gòu)的統(tǒng)計信息;以及 分段參數(shù)替換模塊,用于將相同結(jié)構(gòu)的統(tǒng)計信息中值不同的對應(yīng)分段參數(shù)值替換為重 寫標(biāo)識,并通過替換過重寫標(biāo)識的統(tǒng)計信息生成新的去重規(guī)則。21. 如權(quán)利要求20所述的去重規(guī)則生成裝置,其特征在于,所述聚類模塊對所述獲取 的統(tǒng)一資源定位符按照長度和字符字典序進行聚類。22. 如權(quán)利要求20所述的去重規(guī)則生成裝置,其特征在于,所述去重規(guī)則生成裝置還 包括: 重寫過濾模塊,用于在所述統(tǒng)一資源定位符獲取模塊獲取了要生成去重規(guī)則的域名下 的統(tǒng)一資源定位符數(shù)據(jù)后,過濾掉所述統(tǒng)一資源定位符獲取模塊獲取的所述統(tǒng)一資源定位 符數(shù)據(jù)中重寫過的統(tǒng)一資源定位符。23. 如權(quán)利要求22所述的去重規(guī)則生成裝置,其特征在于,所述重寫過濾模塊進一步 包括: 去重規(guī)則匹配單元,用于將所述統(tǒng)一資源定位符獲取模塊獲取的所述統(tǒng)一資源定位符 數(shù)據(jù)與已有的去重規(guī)則進行匹配;以及 統(tǒng)一資源定位符數(shù)據(jù)過濾單元,用于過濾掉所述去重規(guī)則匹配單元匹配出對應(yīng)的去重 規(guī)則的統(tǒng)一資源定位符。24. 如權(quán)利要求20所述的去重規(guī)則生成裝置,其特征在于,所述去重規(guī)則生成裝置還 包括: 驗證模塊,用于在所述分段參數(shù)替換模塊生成新的去重規(guī)則后,將新的去重規(guī)則與同 一域名下所有相同結(jié)構(gòu)的統(tǒng)一資源定位符進行匹配驗證。25. 如權(quán)利要求24所述的去重規(guī)則生成裝置,其特征在于,所述驗證模塊進一步包括: 選取單元,用于獲取與新的去重規(guī)則擁有相同域名參數(shù)、后綴、分段數(shù)目的所有統(tǒng)一資 源定位符;以及 匹配判別單元,用于將新的去重規(guī)則與所述獲取的統(tǒng)一資源定位符進行匹配,當(dāng)匹配 到對應(yīng)的統(tǒng)一資源定位符的數(shù)目超過設(shè)定閾值時,驗證通過。26. 如權(quán)利要求20所述的去重規(guī)則生成裝置,其特征在于,所述去重規(guī)則生成裝置還 包括: 審核標(biāo)識設(shè)置模塊,用于在所述分段參數(shù)替換模塊生成新的去重規(guī)則后,對新的去重 規(guī)則設(shè)置一個待審核標(biāo)識。27. -種如權(quán)利要求15~19任一項所述的去重規(guī)則生成裝置,其特征在于,包括: 去重規(guī)則獲取模塊,用于獲取預(yù)設(shè)的去重規(guī)則庫中已有的去重規(guī)則,所述去重規(guī)則的 結(jié)構(gòu)包括域名參數(shù)部分、后綴部分、分段數(shù)目部分以及重寫規(guī)則部分; 統(tǒng)一資源定位符獲取模塊,用于獲取要生成去重規(guī)則的域名下的多個統(tǒng)一資源定位符 數(shù)據(jù); 后綴和重寫規(guī)則匹配模塊,用于通過已有的去重規(guī)則的后綴部分和重寫規(guī)則部分,對 要生成去重規(guī)則的域名下的多個統(tǒng)一資源定位符進行匹配;以及 域名參數(shù)替換模塊,用于當(dāng)匹配到的統(tǒng)一資源定位符的數(shù)目大于設(shè)定的閾值,則將要 生成去重規(guī)則的域名替換對應(yīng)的去重規(guī)則中的域名參數(shù)部分,并生成新的去重規(guī)則。28. 如權(quán)利要求27所述的去重規(guī)則生成裝置,其特征在于,所述去重規(guī)則生成裝置還 包括: 排序模塊,用于對所述去重規(guī)則獲取模塊獲取的已有的去重規(guī)則中后綴部分和重寫規(guī) 則部分相同的去重規(guī)則,按照不同域名的數(shù)目進行排序; 去重規(guī)則篩選模塊,用于根據(jù)所述排序模塊的排序結(jié)果,獲取不同域名的數(shù)目最多的 設(shè)定數(shù)量個去重規(guī)則的后綴部分和重寫規(guī)則部分; 所述后綴和重寫規(guī)則匹配模塊通過獲取的不同域名的數(shù)目最多的設(shè)定數(shù)量個去重規(guī) 則的后綴部分和重寫規(guī)則部分,對要生成去重規(guī)則的域名下的多個統(tǒng)一資源定位符進行匹 配。
【專利摘要】本發(fā)明提出一種統(tǒng)一資源定位符去重方法及裝置,其統(tǒng)一資源定位符去重方法包括:根據(jù)統(tǒng)一資源定位符的結(jié)構(gòu)預(yù)設(shè)去重規(guī)則庫;從網(wǎng)站訪問數(shù)據(jù)中獲取要去重的統(tǒng)一資源定位符數(shù)據(jù);根據(jù)統(tǒng)一資源定位符的結(jié)構(gòu)和分段參數(shù),將所述要去重的統(tǒng)一資源定位符與所述去重規(guī)則庫中的去重規(guī)則進行匹配;以及將匹配出的與相同去重規(guī)則對應(yīng)的統(tǒng)一資源定位符進行過濾,并對應(yīng)每個去重規(guī)則保留一個統(tǒng)一資源定位符。通過本發(fā)明實施例的方法及裝置,可以通過去重規(guī)則對海量URL數(shù)據(jù)進行過濾去重,避免在URL安全漏洞檢測時,安全漏洞掃描器重復(fù)的掃描同一個CGI,從而提高安全漏洞的檢測效率。
【IPC分類】H04L29/06, G06F17/30
【公開號】CN104933056
【申請?zhí)枴緾N201410100765
【發(fā)明人】何雙寧
【申請人】騰訊科技(深圳)有限公司
【公開日】2015年9月23日
【申請日】2014年3月18日