一種爬蟲模擬登陸采集的方法
【專利摘要】本發(fā)明提供一種爬蟲模擬登陸采集的方法,其具體實現(xiàn)過程為:設置采集請求模塊、身份認證模塊、采集下載模塊,其中采集請求模塊實現(xiàn)對待采集頁面發(fā)送采集請求;身份認證模塊實現(xiàn)待采集網(wǎng)站自動化登錄認證;采集下載模塊實現(xiàn)對待采集頁面進行采集。該一種爬蟲模擬登陸采集的方法和現(xiàn)有技術相比,可以實現(xiàn)采集需要用戶認證后才能采集的網(wǎng)頁;解決了需要用戶認證才能進行訪問的頁面采集問題,提高了網(wǎng)絡采集的全面性,實用性強,易于推廣。
【專利說明】 一種爬蟲模擬登陸采集的方法
【技術領域】
[0001]本發(fā)明涉及計算機【技術領域】,具體的說是一種爬蟲模擬登陸采集的方法。
【背景技術】
[0002]有的網(wǎng)站對爬蟲做了限制,需要進行身份認證才能信息采集。如果使用爬蟲直接對此類網(wǎng)站進行采集,得到的通常是用戶信息認證失敗后跳轉(zhuǎn)到的用戶登錄頁面,而不是實際想要采集的頁面內(nèi)容?;诖耍F(xiàn)提供一種可以采集到需要的頁面內(nèi)容的方法。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的技術任務是解決現(xiàn)有技術的不足,提供一種爬蟲模擬登陸采集的方法。
[0004]本發(fā)明的技術方案是按以下方式實現(xiàn)的,該一種爬蟲模擬登陸采集的方法,其具體實現(xiàn)過程為:
一、首先設置采集請求模塊、身份認證模塊、采集下載模塊,其中采集請求模塊實現(xiàn)對待采集頁面發(fā)送采集請求;身份認證模塊實現(xiàn)待采集網(wǎng)站自動化登錄認證;采集下載模塊實現(xiàn)對待采集頁面進行采集;
二、通過瀏覽器自帶的網(wǎng)絡監(jiān)聽工具監(jiān)聽網(wǎng)絡數(shù)據(jù)包,查看用戶登錄過程發(fā)送的POST
包;
三、身份認證模塊實現(xiàn)對步驟二中POST包內(nèi)容再現(xiàn),發(fā)送到待采集網(wǎng)頁;
四、身份認證模塊實現(xiàn)對待采集網(wǎng)站服務器返回值的記錄;
五、采集請求模塊把步驟四中返回的相關記錄值和采集請求做集成處理;
六、采集請求模塊發(fā)送對待采集頁面的采集請求;
七、采集下載模塊實現(xiàn)對待采集頁面的采集;
八、如果不需要模擬登錄采集,只需要進行步驟五和六。
[0005]本發(fā)明與現(xiàn)有技術相比所產(chǎn)生的有益效果是:
本發(fā)明的一種爬蟲模擬登陸采集的方法自動化模擬用戶登錄,可以實現(xiàn)采集需要用戶認證后才能采集的網(wǎng)頁;解決了需要用戶認證才能進行訪問的頁面采集問題,提高了網(wǎng)絡采集的全面性,實用性強,易于推廣。
【專利附圖】
【附圖說明】
[0006]附圖1為本發(fā)明的實現(xiàn)流程圖。
【具體實施方式】
[0007]下面結合附圖對本發(fā)明的一種爬蟲模擬登陸采集的方法作以下詳細說明。
[0008]如附圖1所示,該一種爬蟲模擬登陸采集的方法,其具體實現(xiàn)過程為:
一、首先設置采集請求模塊、身份認證模塊、采集下載模塊,其中采集請求模塊實現(xiàn)對待采集頁面發(fā)送采集請求;身份認證模塊實現(xiàn)待采集網(wǎng)站自動化登錄認證;采集下載模塊實現(xiàn)對待采集頁面進行采集;
二、通過瀏覽器自帶的網(wǎng)絡監(jiān)聽工具監(jiān)聽網(wǎng)絡數(shù)據(jù)包,查看用戶登錄過程發(fā)送的POST
包;
三、身份認證模塊實現(xiàn)對步驟二中POST包內(nèi)容再現(xiàn),發(fā)送到待采集網(wǎng)頁;
四、身份認證模塊實現(xiàn)對待采集網(wǎng)站服務器返回值的記錄;
五、采集請求模塊把步驟四中返回的相關記錄值和采集請求做集成處理;
六、采集請求模塊發(fā)送對待采集頁面的采集請求;
七、采集下載模塊實現(xiàn)對待采集頁面的采集;
八、如果不需要模擬登錄采集,只需要進行步驟五和六。
[0009]本發(fā)明適用于必須要身份認證才能采集的網(wǎng)頁。該方法能夠?qū)崿F(xiàn)對需要身份認證網(wǎng)站的自動登錄,并采集該頁面內(nèi)容。
[0010]以上所述僅為本發(fā)明的實施例而已,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
【權利要求】
1.一種爬蟲模擬登陸采集的方法,其特征在于其具體實現(xiàn)過程為: 一、首先設置采集請求模塊、身份認證模塊、采集下載模塊,其中采集請求模塊實現(xiàn)對待采集頁面發(fā)送采集請求;身份認證模塊實現(xiàn)待采集網(wǎng)站自動化登錄認證;采集下載模塊實現(xiàn)對待采集頁面進行采集; 二、通過瀏覽器自帶的網(wǎng)絡監(jiān)聽工具監(jiān)聽網(wǎng)絡數(shù)據(jù)包,查看用戶登錄過程發(fā)送的POST包; 三、身份認證模塊實現(xiàn)對步驟二中POST包內(nèi)容再現(xiàn),發(fā)送到待采集網(wǎng)頁; 四、身份認證模塊實現(xiàn)對待采集網(wǎng)站服務器返回值的記錄; 五、采集請求模塊把步驟四中返回的相關記錄值和采集請求做集成處理; 六、采集請求模塊發(fā)送對待采集頁面的采集請求; 七、采集下載模塊實現(xiàn)對待采集頁面的采集; 八、如果不需要模擬登錄采集,只需要進行步驟五和六。
【文檔編號】H04L9/32GK103984719SQ201410196086
【公開日】2014年8月13日 申請日期:2014年5月12日 優(yōu)先權日:2014年5月12日
【發(fā)明者】程瑤 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司