網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)及網(wǎng)頁(yè)爬取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)及網(wǎng)頁(yè)爬取方法。
【背景技術(shù)】
[0002]爬蟲(chóng)技術(shù)目前正遭受前所未有的挑戰(zhàn),隨著反爬技術(shù)的發(fā)展,數(shù)據(jù)抓取變得越來(lái)越困難,可以預(yù)計(jì)今后通過(guò)傳統(tǒng)手段,將再也無(wú)法成功抓取到有價(jià)值的數(shù)據(jù),現(xiàn)有技術(shù)亟需新的爬蟲(chóng)技術(shù)來(lái)爬取網(wǎng)頁(yè)數(shù)據(jù)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明要解決的技術(shù)問(wèn)題是為了克服現(xiàn)有技術(shù)中反爬技術(shù)的發(fā)展使得數(shù)據(jù)抓取變得越來(lái)越困難的缺陷,提供一種網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)及網(wǎng)頁(yè)爬取方法。
[0004]本發(fā)明是通過(guò)下述技術(shù)方案來(lái)解決上述技術(shù)問(wèn)題的:
[0005]本發(fā)明提供了一種網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng),其特點(diǎn)在于,包括:
[0006]頁(yè)面打開(kāi)模塊,用于自動(dòng)調(diào)度瀏覽器打開(kāi)目標(biāo)頁(yè)面;
[0007]區(qū)域爬取模塊,用于對(duì)目標(biāo)頁(yè)面中的指定區(qū)域進(jìn)行自動(dòng)截圖,并將截圖回傳至OCR (光學(xué)字符識(shí)別)服務(wù)器;
[0008]所述OCR服務(wù)器用于根據(jù)所述指定區(qū)域及樣本字庫(kù),對(duì)截圖進(jìn)行圖像識(shí)別,并按照預(yù)設(shè)配置格式,對(duì)識(shí)別結(jié)果進(jìn)行輸出。
[0009]較佳地,所述區(qū)域爬取模塊還用于對(duì)截圖進(jìn)行壓縮,并將壓縮后的截圖回傳至OCR服務(wù)器。
[0010]較佳地,所述配置格式為可自定義的配置格式。
[0011]較佳地,所述頁(yè)面打開(kāi)模塊用于基于調(diào)度系統(tǒng)下發(fā)的任務(wù)打開(kāi)目標(biāo)頁(yè)面。
[0012]本發(fā)明的目的在于還提供了一種網(wǎng)頁(yè)爬取方法,其特點(diǎn)在于,其利用上述的網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)實(shí)現(xiàn),包括以下步驟:
[0013]S1、頁(yè)面打開(kāi)模塊自動(dòng)調(diào)度瀏覽器打開(kāi)目標(biāo)頁(yè)面;
[0014]S2、區(qū)域爬取模塊對(duì)目標(biāo)頁(yè)面中的指定區(qū)域進(jìn)行自動(dòng)截圖,并將截圖回傳至OCR月艮務(wù)器;
[0015]S3、所述OCR服務(wù)器根據(jù)所述指定區(qū)域及樣本字庫(kù),對(duì)截圖進(jìn)行圖像識(shí)別,并按照預(yù)設(shè)配置格式,對(duì)識(shí)別結(jié)果進(jìn)行輸出。
[0016]較佳地,步驟S2中所述區(qū)域爬取模塊還對(duì)截圖進(jìn)行壓縮,并將壓縮后的截圖回傳至OCR服務(wù)器。
[0017]較佳地,所述配置格式為可自定義的配置格式。
[0018]較佳地,步驟S1中所述頁(yè)面打開(kāi)模塊基于調(diào)度系統(tǒng)下發(fā)的任務(wù)打開(kāi)目標(biāo)頁(yè)面。
[0019]本發(fā)明的積極進(jìn)步效果在于:本發(fā)明能夠突破現(xiàn)有網(wǎng)站的一切前端反爬限制,實(shí)現(xiàn)了只要能打開(kāi)頁(yè)面,在未被封鎖IP(網(wǎng)絡(luò)之間互連的協(xié)議)的情況下,就可以進(jìn)行信息的識(shí)別和抓取,從而提升了爬蟲(chóng)系統(tǒng)的可用性。
【附圖說(shuō)明】
[0020]圖1為本發(fā)明的較佳實(shí)施例的網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)的模塊示意圖。
[0021]圖2為本發(fā)明的較佳實(shí)施例的網(wǎng)頁(yè)爬取方法的流程圖。
【具體實(shí)施方式】
[0022]下面通過(guò)實(shí)施例的方式進(jìn)一步說(shuō)明本發(fā)明,但并不因此將本發(fā)明限制在所述的實(shí)施例范圍之中。
[0023]如圖1所示,本發(fā)明的網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)包括頁(yè)面打開(kāi)模塊1、區(qū)域爬取模塊2及OCR服務(wù)器3,其中,頁(yè)面打開(kāi)模塊I用于自動(dòng)調(diào)度瀏覽器打開(kāi)目標(biāo)頁(yè)面,基于調(diào)度系統(tǒng)下發(fā)的任務(wù),直接在普通瀏覽器中,將目標(biāo)頁(yè)面打開(kāi);
[0024]所述區(qū)域爬取模塊2用于對(duì)目標(biāo)頁(yè)面中的指定區(qū)域進(jìn)行自動(dòng)截圖,并將截圖回傳至OCR服務(wù)器3,由于爬蟲(chóng)機(jī)性能有限,OCR需要占用大量的CPU (中央處理器)資源,因此,比較合適的方式就是所述區(qū)域爬取模塊2對(duì)截圖進(jìn)行適當(dāng)壓縮,并將壓縮后的截圖回傳至OCR服務(wù)器,以便后者進(jìn)行集中處理;
[0025]所述OCR服務(wù)器3則根據(jù)所述指定區(qū)域及樣本字庫(kù),對(duì)截圖進(jìn)行圖像識(shí)別,并按照既定配置格式,對(duì)識(shí)別結(jié)果進(jìn)行輸出。其中,所述配置格式可根據(jù)用戶(hù)需求自定義。
[0026]綜上可以看出,整套系統(tǒng)的工作方式和真實(shí)用戶(hù)的瀏覽行為并沒(méi)有任何差異,模擬人類(lèi)的視覺(jué)系統(tǒng)進(jìn)行信息的抓取,使目標(biāo)網(wǎng)站的一切基于前端的反爬策略完全失效,使爬蟲(chóng)可以按需進(jìn)行數(shù)據(jù)抓取,保證了系統(tǒng)在大部分時(shí)間的可用性,即使網(wǎng)站前端UI (用戶(hù)界面)進(jìn)行大面積的改版,本發(fā)明的系統(tǒng)也可以通過(guò)及時(shí)調(diào)整相應(yīng)配置文件進(jìn)行動(dòng)態(tài)適配。
[0027]如圖2所示,本發(fā)明利用本實(shí)施例的網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)實(shí)現(xiàn)的網(wǎng)頁(yè)爬取方法包括以下步驟:
[0028]步驟101、頁(yè)面打開(kāi)模塊自動(dòng)調(diào)度瀏覽器打開(kāi)目標(biāo)頁(yè)面;
[0029]步驟102、區(qū)域爬取模塊對(duì)目標(biāo)頁(yè)面中的指定區(qū)域進(jìn)行自動(dòng)截圖,并將截圖回傳至OCR服務(wù)器;
[0030]步驟103、所述OCR服務(wù)器根據(jù)所述指定區(qū)域及樣本字庫(kù),對(duì)截圖進(jìn)行圖像識(shí)別,并按照預(yù)設(shè)配置格式,對(duì)識(shí)別結(jié)果進(jìn)行輸出。
[0031]其中,步驟S1中所述頁(yè)面打開(kāi)模塊基于調(diào)度系統(tǒng)下發(fā)的任務(wù)打開(kāi)目標(biāo)頁(yè)面,步驟S2中所述區(qū)域爬取模塊還對(duì)截圖進(jìn)行壓縮,并將壓縮后的截圖回傳至OCR服務(wù)器,而所述配置格式可根據(jù)用戶(hù)需要自定義。
[0032]雖然以上描述了本發(fā)明的【具體實(shí)施方式】,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說(shuō)明,本發(fā)明的保護(hù)范圍是由所附權(quán)利要求書(shū)限定的。本領(lǐng)域的技術(shù)人員在不背離本發(fā)明的原理和實(shí)質(zhì)的前提下,可以對(duì)這些實(shí)施方式做出多種變更或修改,但這些變更和修改均落入本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1.一種網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng),其特征在于,包括: 頁(yè)面打開(kāi)模塊,用于自動(dòng)調(diào)度瀏覽器打開(kāi)目標(biāo)頁(yè)面; 區(qū)域爬取模塊,用于對(duì)目標(biāo)頁(yè)面中的指定區(qū)域進(jìn)行自動(dòng)截圖,并將截圖回傳至OCR服務(wù)器; 所述OCR服務(wù)器用于根據(jù)所述指定區(qū)域及樣本字庫(kù),對(duì)截圖進(jìn)行圖像識(shí)別,并按照預(yù)設(shè)配置格式,對(duì)識(shí)別結(jié)果進(jìn)行輸出。2.如權(quán)利要求1所述的網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng),其特征在于,所述區(qū)域爬取模塊還用于對(duì)截圖進(jìn)行壓縮,并將壓縮后的截圖回傳至OCR服務(wù)器。3.如權(quán)利要求1所述的網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng),其特征在于,所述配置格式為可自定義的配置格式。4.如權(quán)利要求1所述的網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng),其特征在于,所述頁(yè)面打開(kāi)模塊用于基于調(diào)度系統(tǒng)下發(fā)的任務(wù)打開(kāi)目標(biāo)頁(yè)面。5.一種網(wǎng)頁(yè)爬取方法,其特征在于,其利用如權(quán)利要求1所述的網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)實(shí)現(xiàn),包括以下步驟: 51、頁(yè)面打開(kāi)模塊自動(dòng)調(diào)度瀏覽器打開(kāi)目標(biāo)頁(yè)面; 52、區(qū)域爬取模塊對(duì)目標(biāo)頁(yè)面中的指定區(qū)域進(jìn)行自動(dòng)截圖,并將截圖回傳至OCR服務(wù)器; 53、所述OCR服務(wù)器根據(jù)所述指定區(qū)域及樣本字庫(kù),對(duì)截圖進(jìn)行圖像識(shí)別,并按照預(yù)設(shè)配置格式,對(duì)識(shí)別結(jié)果進(jìn)行輸出。6.如權(quán)利要求5所述的網(wǎng)頁(yè)爬取方法,其特征在于,步驟S2中所述區(qū)域爬取模塊還對(duì)截圖進(jìn)行壓縮,并將壓縮后的截圖回傳至OCR服務(wù)器。7.如權(quán)利要求5所述的網(wǎng)頁(yè)爬取方法,其特征在于,所述配置格式為可自定義的配置格式。8.如權(quán)利要求5所述的網(wǎng)頁(yè)爬取方法,其特征在于,步驟Si中所述頁(yè)面打開(kāi)模塊基于調(diào)度系統(tǒng)下發(fā)的任務(wù)打開(kāi)目標(biāo)頁(yè)面。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)及網(wǎng)頁(yè)爬取方法,網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)包括:頁(yè)面打開(kāi)模塊,用于自動(dòng)調(diào)度瀏覽器打開(kāi)目標(biāo)頁(yè)面;區(qū)域爬取模塊,用于對(duì)目標(biāo)頁(yè)面中的指定區(qū)域進(jìn)行自動(dòng)截圖,并將截圖回傳至OCR服務(wù)器;所述OCR服務(wù)器用于根據(jù)所述指定區(qū)域及樣本字庫(kù),對(duì)截圖進(jìn)行圖像識(shí)別,并按照預(yù)設(shè)配置格式,對(duì)識(shí)別結(jié)果進(jìn)行輸出。本發(fā)明能夠突破現(xiàn)有網(wǎng)站的一切前端反爬限制,實(shí)現(xiàn)了只要能打開(kāi)頁(yè)面,在未被封鎖IP的情況下,就可以進(jìn)行信息的識(shí)別和抓取,從而提升了爬蟲(chóng)系統(tǒng)的可用性。
【IPC分類(lèi)】G06F17/30
【公開(kāi)號(hào)】CN104933138
【申請(qǐng)?zhí)枴緾N201510334805
【發(fā)明人】吳鵬越, 吳凌峰, 華浩鋒
【申請(qǐng)人】攜程計(jì)算機(jī)技術(shù)(上海)有限公司
【公開(kāi)日】2015年9月23日
【申請(qǐng)日】2015年6月16日