網(wǎng)頁(yè)內(nèi)容的抓取方法及裝置、電子設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001]本公開(kāi)涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及網(wǎng)頁(yè)內(nèi)容的抓取方法及裝置、電子設(shè)備。
【背景技術(shù)】
[0002]爬蟲(chóng)(spider/crawler)是搜索引擎的重要組成部分,用于自動(dòng)抓取網(wǎng)頁(yè)內(nèi)容。爬蟲(chóng)包括爬蟲(chóng)引擎和抓取處理組件。其中,爬蟲(chóng)引擎是通用的,用于實(shí)現(xiàn)調(diào)度和下載等功能,并驅(qū)動(dòng)抓取處理組件完成抓取操作;而抓取處理組件則需要針對(duì)每一網(wǎng)頁(yè)進(jìn)行單獨(dú)生成,用于實(shí)現(xiàn)網(wǎng)頁(yè)分析、抓取內(nèi)容入庫(kù)等功能。
【發(fā)明內(nèi)容】
[0003]本公開(kāi)提供網(wǎng)頁(yè)內(nèi)容的抓取方法及裝置、電子設(shè)備,以解決相關(guān)技術(shù)中的不足。
[0004]根據(jù)本公開(kāi)實(shí)施例的第一方面,提供一種網(wǎng)頁(yè)內(nèi)容的抓取方法,包括:
[0005]獲取對(duì)應(yīng)于當(dāng)前目標(biāo)網(wǎng)頁(yè)的抓取處理組件的內(nèi)容,并將所述抓取處理組件的內(nèi)容展示于終端屏幕上的第一顯示區(qū)域;
[0006]調(diào)取第一服務(wù)器中預(yù)存儲(chǔ)的爬蟲(chóng)引擎,并由所述爬蟲(chóng)引擎驅(qū)動(dòng)所述抓取處理組件來(lái)抓取所述當(dāng)前目標(biāo)網(wǎng)頁(yè)的內(nèi)容;
[0007]接收所述第一服務(wù)器的返回?cái)?shù)據(jù)并展示于所述終端屏幕上的第二顯示區(qū)域,其中所述返回?cái)?shù)據(jù)包括:對(duì)所述當(dāng)前目標(biāo)網(wǎng)頁(yè)的內(nèi)容抓取結(jié)果的信息。
[0008]可選的,所述獲取對(duì)應(yīng)于當(dāng)前目標(biāo)網(wǎng)頁(yè)的抓取處理組件的內(nèi)容,包括:
[0009]讀取存儲(chǔ)于本地的所述抓取處理組件的內(nèi)容;
[0010]或者,向存儲(chǔ)所述抓取處理組件的第二服務(wù)器發(fā)起訪問(wèn)請(qǐng)求,并接收所述第二服務(wù)器返回的所述抓取處理組件的內(nèi)容。
[0011]可選的,還包括:
[0012]根據(jù)所述第一顯示區(qū)域內(nèi)檢測(cè)到的用戶操作,對(duì)所述抓取處理組件進(jìn)行編輯處理。
[0013]可選的,所述第一顯示區(qū)域采用WebDAV協(xié)議實(shí)現(xiàn)所述編輯處理。
[0014]可選的,還包括:
[0015]提取所述返回?cái)?shù)據(jù)中包含的對(duì)應(yīng)于所述當(dāng)前目標(biāo)網(wǎng)頁(yè)的已抓取內(nèi)容;
[0016]將所述已抓取內(nèi)容存儲(chǔ)至數(shù)據(jù)庫(kù)。
[0017]根據(jù)本公開(kāi)實(shí)施例的第二方面,提供一種網(wǎng)頁(yè)內(nèi)容的抓取裝置,包括:
[0018]組件展示單元,用于獲取對(duì)應(yīng)于當(dāng)前目標(biāo)網(wǎng)頁(yè)的抓取處理組件的內(nèi)容,并將所述抓取處理組件的內(nèi)容展示于終端屏幕上的第一顯示區(qū)域;
[0019]引擎調(diào)取單元,用于調(diào)取第一服務(wù)器中預(yù)存儲(chǔ)的爬蟲(chóng)引擎,并由所述爬蟲(chóng)引擎驅(qū)動(dòng)所述抓取處理組件來(lái)抓取所述當(dāng)前目標(biāo)網(wǎng)頁(yè)的內(nèi)容;
[0020]數(shù)據(jù)展示單元,用于接收所述第一服務(wù)器的返回?cái)?shù)據(jù)并展示于所述終端屏幕上的第二顯示區(qū)域,其中所述返回?cái)?shù)據(jù)包括:對(duì)所述當(dāng)前目標(biāo)網(wǎng)頁(yè)的內(nèi)容抓取結(jié)果的信息。
[0021]可選的,所述組件展示單元包括本地讀取子單元或內(nèi)容請(qǐng)求子單元,其中:
[0022]所述本地讀取子單元,用于讀取存儲(chǔ)于本地的所述抓取處理組件的內(nèi)容;
[0023]所述內(nèi)容請(qǐng)求子單元,用于向存儲(chǔ)所述抓取處理組件的第二服務(wù)器發(fā)起訪問(wèn)請(qǐng)求,并接收所述第二服務(wù)器返回的所述抓取處理組件的內(nèi)容。
[0024]可選的,還包括:
[0025]組件編輯單元,用于根據(jù)所述第一顯示區(qū)域內(nèi)檢測(cè)到的用戶操作,對(duì)所述抓取處理組件進(jìn)行編輯處理。
[0026]可選的,所述第一顯示區(qū)域采用WebDAV協(xié)議實(shí)現(xiàn)所述編輯處理。
[0027]可選的,還包括:
[0028]內(nèi)容提取單元,用于提取所述返回?cái)?shù)據(jù)中包含的對(duì)應(yīng)于所述當(dāng)前目標(biāo)網(wǎng)頁(yè)的已抓取內(nèi)容;
[0029]內(nèi)容存儲(chǔ)單元,用于將所述已抓取內(nèi)容存儲(chǔ)至數(shù)據(jù)庫(kù)。
[0030]根據(jù)本公開(kāi)實(shí)施例的第三方面,提供一種電子設(shè)備,包括:
[0031]處理器;
[0032]用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;
[0033]其中,所述處理器被配置為:
[0034]獲取對(duì)應(yīng)于當(dāng)前目標(biāo)網(wǎng)頁(yè)的抓取處理組件的內(nèi)容,并將所述抓取處理組件的內(nèi)容展示于終端屏幕上的第一顯示區(qū)域;
[0035]調(diào)取第一服務(wù)器中預(yù)存儲(chǔ)的爬蟲(chóng)引擎,并由所述爬蟲(chóng)引擎驅(qū)動(dòng)所述抓取處理組件來(lái)抓取所述當(dāng)前目標(biāo)網(wǎng)頁(yè)的內(nèi)容;
[0036]接收所述第一服務(wù)器的返回?cái)?shù)據(jù)并展示于所述終端屏幕上的第二顯示區(qū)域,其中所述返回?cái)?shù)據(jù)包括:對(duì)所述當(dāng)前目標(biāo)網(wǎng)頁(yè)的內(nèi)容抓取結(jié)果的信息。
[0037]本公開(kāi)的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
[0038]本公開(kāi)通過(guò)在終端屏幕上生成第一顯示區(qū)域和第二顯示區(qū)域,分別用于展示抓取處理組件的內(nèi)容以及內(nèi)容抓取結(jié)果的信息,使得針對(duì)當(dāng)前目標(biāo)網(wǎng)頁(yè)進(jìn)行抓取時(shí),能夠?qū)崟r(shí)查看抓取狀況,并對(duì)抓取處理組件進(jìn)行實(shí)時(shí)調(diào)整,確保抓取結(jié)果滿足用戶需求。
[0039]應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開(kāi)。
【附圖說(shuō)明】
[0040]此處的附圖被并入說(shuō)明書(shū)中并構(gòu)成本說(shuō)明書(shū)的一部分,示出了符合本公開(kāi)的實(shí)施例,并與說(shuō)明書(shū)一起用于解釋本公開(kāi)的原理。
[0041]圖1是根據(jù)一示例性實(shí)施例示出的一種網(wǎng)頁(yè)內(nèi)容的抓取方法的流程圖。
[0042]圖2是根據(jù)一示例性實(shí)施例示出的另一種網(wǎng)頁(yè)內(nèi)容的抓取方法的流程圖。
[0043]圖3是根據(jù)一示例性實(shí)施例示出的屏幕界面示意圖。
[0044]圖4-7是根據(jù)一示例性實(shí)施例示出的一種網(wǎng)頁(yè)內(nèi)容的抓取裝置的框圖。
[0045]圖8是根據(jù)一示例性實(shí)施例示出的一種用于網(wǎng)頁(yè)內(nèi)容的抓取的裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0046]這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說(shuō)明,其示例表示在附圖中。下面的描述涉及附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本公開(kāi)相一致的所有實(shí)施方式。相反,它們僅是與如所附權(quán)利要求書(shū)中所詳述的、本公開(kāi)的一些方面相一致的裝置和方法的例子。
[0047]圖1是根據(jù)一示例性實(shí)施例示出的一種網(wǎng)頁(yè)內(nèi)容的抓取方法的流程圖,如圖1所示,該方法用于終端中,包括以下步驟。
[0048]在步驟102中,獲取對(duì)應(yīng)于當(dāng)前目標(biāo)網(wǎng)頁(yè)的抓取處理組件的內(nèi)容,并將所述抓取處理組件的內(nèi)容展示于終端屏幕上的第一顯示區(qū)域。
[0049]在本實(shí)施例中,抓取處理組件可以存儲(chǔ)在任意位置,與爬蟲(chóng)引擎的存儲(chǔ)位置無(wú)關(guān)。比如作為一示例性實(shí)施例,抓取處理組件可以存儲(chǔ)于終端本地的存儲(chǔ)空間,則可以直接讀取存儲(chǔ)于本地的所述抓取處理組件的內(nèi)容。
[0050]或者,作為另一示例性實(shí)施例,抓取處理組件可以存儲(chǔ)于服務(wù)器中,比如用于存儲(chǔ)爬蟲(chóng)引擎的第一服務(wù)器中,或者作為另一服務(wù)器的第二服務(wù)器中;其中,當(dāng)抓取處理組件存儲(chǔ)于第二服務(wù)器中時(shí),可以向存儲(chǔ)所述抓取處理組件的第二服務(wù)器發(fā)起訪問(wèn)請(qǐng)求,并接收所述第二服務(wù)器返回的所述抓取處理組件的內(nèi)容。
[0051]在步驟104中,調(diào)取第一服務(wù)器中預(yù)存儲(chǔ)的爬蟲(chóng)引擎,并由所述爬蟲(chóng)引擎驅(qū)動(dòng)所述抓取處理組件來(lái)抓取所述當(dāng)前目標(biāo)網(wǎng)頁(yè)的內(nèi)容。
[0052]在本實(shí)施例中,若抓取處理組件存儲(chǔ)于終端本地,則需要將該抓取處理組件或其內(nèi)容發(fā)送至第一服務(wù)器,以配合于爬蟲(chóng)引擎的內(nèi)容抓取操作;若抓取處理組件存儲(chǔ)于第二服務(wù)器,則終端可以向第一服務(wù)器發(fā)起對(duì)應(yīng)的請(qǐng)求,使得第一服務(wù)器從第二服