專利名稱:一種針對ip地址段掃描發(fā)現(xiàn)特定網(wǎng)站的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種網(wǎng)絡(luò)信息安全方法。具體地說,涉及一種自定義IP段 掃描發(fā)現(xiàn)特定網(wǎng)站的方法。
背景技術(shù):
互聯(lián)網(wǎng)發(fā)展迅猛,網(wǎng)站數(shù)量激增。但是一些網(wǎng)站存在非法的內(nèi)容,這很 容易引發(fā)網(wǎng)絡(luò)違法犯罪行為,特別是一些未進(jìn)行備案的網(wǎng)站,網(wǎng)絡(luò)監(jiān)管部門 無法對其進(jìn)行監(jiān)管。對于存在非法內(nèi)容的網(wǎng)站,單純依靠網(wǎng)民舉報或網(wǎng)絡(luò)監(jiān) 管人員進(jìn)行逐一排查遠(yuǎn)遠(yuǎn)不夠,網(wǎng)絡(luò)監(jiān)管部門需要能夠主動地去發(fā)現(xiàn)。
現(xiàn)有一種在互聯(lián)網(wǎng)上發(fā)現(xiàn)網(wǎng)站的蜘蛛搜索技術(shù),又名網(wǎng)絡(luò)爬蟲技術(shù),通
過豐敘人一個起始網(wǎng)站的統(tǒng)一資源定4立才尋(Uniform Resource Locator,英 文縮寫為URL)也被稱為網(wǎng)頁地址,系統(tǒng)會到該網(wǎng)頁地址上上搜索全部的網(wǎng) 頁,然后在每一個網(wǎng)頁中尋找引用的其他的網(wǎng)頁地址,根據(jù)這種引用關(guān)系無 限制的循環(huán)搜索,找到數(shù)量龐大的網(wǎng)頁,然后進(jìn)行信息過濾,找到包含特定 關(guān)鍵詞的網(wǎng)頁。該現(xiàn)有技術(shù)的缺點(diǎn)是第一,只能進(jìn)行不確定的遍歷搜索, 無法針對特定IP地址段進(jìn)行搜索發(fā)現(xiàn)特定網(wǎng)站(在本專利申請中,所述特定 網(wǎng)站是指包含特定關(guān)鍵詞的網(wǎng)站,例如含有非法詞語的網(wǎng)站);第二,對服務(wù) 器性能要求很高,同時要求服務(wù)器具有海量數(shù)據(jù)的存儲能力;第三,發(fā)現(xiàn)特 定網(wǎng)站的效率低;第四,對與其他網(wǎng)站之間無引用關(guān)系的網(wǎng)站、需要用戶登 陸驗證的網(wǎng)站等不能進(jìn)行發(fā)現(xiàn)。
另外一種方法是在網(wǎng)站服務(wù)器上安裝網(wǎng)絡(luò)監(jiān)管客戶端進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)抓 包,對獲取的網(wǎng)頁進(jìn)行篩選,當(dāng)找到包含特定關(guān)鍵詞的網(wǎng)頁時將該網(wǎng)頁的信 息傳送給網(wǎng)絡(luò)監(jiān)管服務(wù)器端。該現(xiàn)有技術(shù)存在的缺點(diǎn)是第一,只能針對已 知的網(wǎng)站服務(wù)器進(jìn)行特定網(wǎng)站尋找,對未備案的網(wǎng)站無法實施;第二,需要安裝網(wǎng)絡(luò)監(jiān)管客戶端,使用起來不方便,而且網(wǎng)絡(luò)客戶端的運(yùn)行也會降低網(wǎng) 站服務(wù)器的工作效率,影響網(wǎng)站的運(yùn)行速度。
在互聯(lián)網(wǎng)上,任何網(wǎng)站的網(wǎng)頁都必然還有一定的內(nèi)容,也就是說,由關(guān) 鍵詞構(gòu)成的內(nèi)容是網(wǎng)頁的重要組成部分。雖然因為人為的因素,相同或等同 的內(nèi)容的表達(dá)方式因人而異,但可選擇的關(guān)鍵詞的范圍則是相對固定的。這 樣為用關(guān)鍵詞作為技術(shù)特征提供了應(yīng)用基礎(chǔ)。
本文中,IP是英文Internet Protocol的縮寫,意為國際互聯(lián)網(wǎng)絡(luò)通 訊協(xié)定。IP地址是互聯(lián)網(wǎng)通信地址,采用標(biāo)準(zhǔn)格式,具有全球唯一性,在互 聯(lián)網(wǎng)上尋找一個主機(jī)必須靠IP地址才能找到。端口 (port)是計算機(jī)與外界 通訊交流的出口 ,即計算機(jī)的操作系統(tǒng)為需要與互聯(lián)網(wǎng)通信的應(yīng)用程序分配 的出口。 4乘作系統(tǒng)的端口有許多個,以端口號加以區(qū)分,不同端口號的端口 對應(yīng)不同的功能,例如80端口被默認(rèn)為用于網(wǎng)頁瀏覽。在互聯(lián)網(wǎng)上,各主機(jī) 間通過TCP/IP協(xié)議發(fā)送和接收數(shù)據(jù)包,各個數(shù)據(jù)包根據(jù)其目的主機(jī)的IP地 址來進(jìn)行互聯(lián)網(wǎng)絡(luò)中的傳輸,當(dāng)目的主機(jī)接收到數(shù)據(jù)包后,將根據(jù)數(shù)據(jù)包包 含的目的端口號,把數(shù)據(jù)發(fā)送到相應(yīng)端口,對應(yīng)的程序就會收到數(shù)據(jù)包。計 算機(jī)操作系統(tǒng)為應(yīng)用程序與TCP/IP協(xié)議交互提供了稱為套接字(Socket)的 接口,套接字里面有豐富的網(wǎng)絡(luò)開發(fā)函數(shù),可以完成多種網(wǎng)絡(luò)通訊。默認(rèn)頁 面是指提供互聯(lián)網(wǎng)網(wǎng)頁服務(wù)的主機(jī)中預(yù)先設(shè)置的默認(rèn)被訪問的頁面,主機(jī)中 存在若干可以^皮訪問的頁面,如果請求訪問的人不指明要訪問哪個頁面時, 主機(jī)默認(rèn)就把設(shè)置好的頁面返回給發(fā)送請求的人,每一個默認(rèn)頁面都有內(nèi)容 和標(biāo)題。
發(fā)明內(nèi)容
為此,本發(fā)明要解決現(xiàn)有技術(shù)不能針對IP地址段掃描發(fā)現(xiàn)特定網(wǎng)站的問 題,提出一種針對IP地址段掃描發(fā)現(xiàn)特定網(wǎng)站的方法。
為解決上述技術(shù)問題,本發(fā)明的一種針對IP地址段掃描發(fā)現(xiàn)特定網(wǎng)站的 方法,包括以下步驟
①輸入IP地址段,對所述IP地址段內(nèi)的每個IP地址在網(wǎng)絡(luò)上進(jìn)行掃描;②檢測所述每個IP地址所屬的網(wǎng)絡(luò)終端的操作系統(tǒng)的用于提供網(wǎng)頁瀏覽
服務(wù)的端口是否開放,若所述端口開放,則獲取所述端口的默認(rèn)頁面;
③對獲取的所述默認(rèn)頁面的標(biāo)題和/或內(nèi)容通過關(guān)鍵詞進(jìn)行篩選,若所述 默認(rèn)頁面包含所述關(guān)鍵詞,則報警提示。
所述步驟③中還包括在所述報警提示之前或之后進(jìn)行數(shù)據(jù)儲存。 所述步驟①中采用多線程進(jìn)行掃描。
所述獲取所述端口的默認(rèn)頁面是通過創(chuàng)建套接字與所述用于提供網(wǎng)頁瀏 覽服務(wù)的端口連接,并發(fā)送HTTP協(xié)議的get請求報文。
本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn)第一,可以對任意 的IP地址段進(jìn)行掃描發(fā)現(xiàn)特定網(wǎng)站,由于IP地址與地理區(qū)域存在關(guān)聯(lián),各 地的網(wǎng)絡(luò)監(jiān)管部門可以針對所轄區(qū)域的IP地址段進(jìn)行掃描,這樣可以掌握 所轄區(qū)域內(nèi)的特定網(wǎng)站情況,不論該特定網(wǎng)站是否備案、是否與其他網(wǎng)站存 在引用關(guān)系;第二,對服務(wù)器設(shè)備要求不高,不需要海量的存儲能力;第三, 采用多線程掃描,發(fā)現(xiàn)特定網(wǎng)站的效率高。
為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實施 例并結(jié)合附圖,對本發(fā)明作進(jìn)一步詳細(xì)的說明,其中 圖l是本發(fā)明的流程圖; 圖2是本發(fā)明的中間通信過程圖。
具體實施例方式
如圖l所示,本發(fā)明的針對IP地址段掃描發(fā)現(xiàn)特定網(wǎng)站的方法,包括 下列步驟第一步,錄入需掃描的IP地址段,所述IP地址段是指兩個IP 地址之間的所有IP地址的集合,如60. 214. 176. 24-60. 214. 189. 252就是一個IP地址段,根據(jù)所述IP地址段內(nèi)包含的IP地址數(shù)量的多少采用多線程 在網(wǎng)絡(luò)上掃描遍歷所述IP地址段內(nèi)的每一個IP地址。第二步,判斷所述每 一個IP地址所屬的網(wǎng)絡(luò)終端上是否存在網(wǎng)站服務(wù),方法是通過檢測所述網(wǎng) 絡(luò)終端的操作系統(tǒng)的用于提供網(wǎng)頁瀏覽服務(wù)的端口是否開放,所述操作系統(tǒng)
一般默認(rèn)80端口用于提供網(wǎng)頁瀏覽等服務(wù),如果所述端口開放,則認(rèn)為存 在網(wǎng)站服務(wù),進(jìn)一步獲取所述端口的默認(rèn)頁面;如果所述端口關(guān)閉,則認(rèn)為 不存在網(wǎng)站服務(wù),返回進(jìn)行下一個IP地址的掃描。第三步,對獲取的所述 默認(rèn)頁面的內(nèi)容通過關(guān)鍵詞進(jìn)行篩選,若所述默認(rèn)頁面包含所述關(guān)鍵詞,則 進(jìn)行數(shù)據(jù)信息存儲并報警提示;如果所述默認(rèn)頁面不包含所述關(guān)鍵詞則返回 進(jìn)行下一個IP地址的掃描。所述默認(rèn)頁面的內(nèi)容不可能為空,內(nèi)容里面必 然包含有所述關(guān)鍵詞,雖然人們對于同一事物的表述有差異,但是所述關(guān)鍵 詞還是可以確定的,人們通過所述關(guān)4泉詞進(jìn)行^r索能夠找到目標(biāo)網(wǎng)頁。特別 是網(wǎng)絡(luò)監(jiān)管部門需要主動地去發(fā)現(xiàn)所轄區(qū)域內(nèi)包含非法內(nèi)容的網(wǎng)站,例如涉 及毒品內(nèi)容的網(wǎng)站,所述關(guān)鍵詞可以設(shè)置為"毒品"、"白粉"、"海洛因"、 "搖頭丸",這樣在將所述IP地址段設(shè)置為包含所轄區(qū)域內(nèi)的所有IP地址 的條件下,網(wǎng)絡(luò)監(jiān)管部門就可以發(fā)現(xiàn)所轄區(qū)域內(nèi)涉及毒品內(nèi)容的網(wǎng)站,從而 能夠進(jìn)行下一步的監(jiān)管。
如圖2所示,本發(fā)明的中間通信過程,先是創(chuàng)建套接字,請求與IP地址 對應(yīng)的所述網(wǎng)絡(luò)終端的所述才喿作系統(tǒng)的80端口建立連接,如果建立連接成 功,說明所述80端口是開放的,所述IP地址對應(yīng)的可能是網(wǎng)站服務(wù)器;如 果建立連接失敗,說明所述80端口是關(guān)閉的,在排除網(wǎng)站的架設(shè)者更改所述 才喿作系統(tǒng)用于提供網(wǎng)頁瀏覽服務(wù)的端口的情況下,可以明確判斷所述IP地址 對應(yīng)的不是網(wǎng)站服務(wù)器。在與所述80端口建立連接成功之后,在所述套接字 上寫HTTP協(xié)議的get請求,所述網(wǎng)站服務(wù)器在接到所述get請求后會將其默 認(rèn)頁面發(fā)給請求者,請求者在所述套接字上獲取所述默認(rèn)頁面,對所述默認(rèn) 頁面的內(nèi)容進(jìn)行關(guān)鍵詞篩選,如果有則對信息進(jìn)行存儲并報警提示;如果沒 有,則返回;然后關(guān)閉所述套接字,結(jié)束與該IP地址對應(yīng)的所述網(wǎng)絡(luò)終端的 所述操作系統(tǒng)的80端口的通信。本發(fā)明可以針對任意的IP地址段進(jìn)行掃描發(fā)現(xiàn)特定網(wǎng)站,不僅針對性 強(qiáng),而且效率高,不存在漏檢。使各地的網(wǎng)絡(luò)監(jiān)管部門可以主動地去發(fā)現(xiàn)所 轄區(qū)域IP地址段內(nèi)的特定網(wǎng)站情況,不論網(wǎng)站備案與否,從而為網(wǎng)絡(luò)監(jiān)管 提供了有利條件。
顯然,上述實施例僅僅是為清楚地說明所作的舉例,而并非對實施方式 的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做 出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮 舉。而由此所引伸出的顯而易見的變化或變動仍處于本發(fā)明創(chuàng)造的保護(hù)范圍 之中。
權(quán)利要求
1. 一種針對IP地址段掃描發(fā)現(xiàn)特定網(wǎng)站的方法,其特征在于包括以下步驟①輸入IP地址段,對所述IP地址段內(nèi)的每個IP地址在網(wǎng)絡(luò)上進(jìn)行掃描;②檢測所述每個IP地址所屬的網(wǎng)絡(luò)終端的操作系統(tǒng)的用于提供網(wǎng)頁瀏覽服務(wù)的端口是否開放,若所述端口開放,則獲取所述端口的默認(rèn)頁面;③對獲取的所述默認(rèn)頁面的標(biāo)題和/或內(nèi)容通過關(guān)鍵詞進(jìn)行篩選,若所述默認(rèn)頁面包含所述關(guān)鍵詞,則報警提示。
2. 根據(jù)權(quán)利要求1所述的針對IP地址段掃描發(fā)現(xiàn)特定網(wǎng)站的方法,其 特征在于所述步驟③中還包括在所述報警提示之前或之后進(jìn)行數(shù)據(jù)儲存。
3. 根據(jù)權(quán)利要求1所述的針對IP地址段掃描發(fā)現(xiàn)特定網(wǎng)站的方法,其 特征在于所述步驟①中采用多線程進(jìn)行掃描。
4. 根據(jù)權(quán)利要求1至3任一所述的針對IP地址段掃描發(fā)現(xiàn)特定網(wǎng)站的 方法,其特征在于所述獲取所述端口的默認(rèn)頁面是通過創(chuàng)建套接字與所述 用于提供網(wǎng)頁瀏覽服務(wù)的端口連接,并發(fā)送HTTP協(xié)議的get請求報文。
全文摘要
本發(fā)明的一種針對IP地址段掃描發(fā)現(xiàn)特定網(wǎng)站的方法,包括以下步驟①輸入IP地址段,對所述IP地址段內(nèi)的每個IP地址在網(wǎng)絡(luò)上進(jìn)行掃描;②檢測所述每個IP地址所屬的網(wǎng)絡(luò)終端的操作系統(tǒng)的用于提供網(wǎng)頁瀏覽服務(wù)的端口是否開放,若所述端口開放,則獲取所述端口的默認(rèn)頁面;③對獲取的所述默認(rèn)頁面的標(biāo)題和/或內(nèi)容通過關(guān)鍵詞進(jìn)行篩選,若所述默認(rèn)頁面包含所述關(guān)鍵詞,則報警提示。本發(fā)明可以對任意IP地址段進(jìn)行掃描發(fā)現(xiàn)該IP地址段內(nèi)是否存在包含所述關(guān)鍵詞的特定網(wǎng)站,不僅針對性強(qiáng),而且效率高、準(zhǔn)確度高。
文檔編號H04L29/06GK101547211SQ20091014286
公開日2009年9月30日 申請日期2009年5月19日 優(yōu)先權(quán)日2009年5月19日
發(fā)明者孫偉力 申請人:濟(jì)寧盛世光明軟件技術(shù)有限公司