對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新的系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新的系統(tǒng)及方法,方法包括:S1、利用網(wǎng)絡(luò)爬蟲從網(wǎng)頁(yè)中抓取目標(biāo)數(shù)據(jù);S2、將目標(biāo)數(shù)據(jù)打包成目標(biāo)壓縮文件,并對(duì)目標(biāo)壓縮文件添加MD5標(biāo)簽;S3、判斷數(shù)據(jù)庫(kù)服務(wù)器中是否存儲(chǔ)網(wǎng)頁(yè)數(shù)據(jù)及壓縮文件,若是,則執(zhí)行步驟S4,若否,則執(zhí)行步驟S7;S4、判斷網(wǎng)頁(yè)數(shù)據(jù)的壓縮文件與目標(biāo)壓縮文件的MD5值是否相同,若是,則執(zhí)行步驟S5,若否,則執(zhí)行步驟S6;S5、刪除目標(biāo)數(shù)據(jù)及目標(biāo)壓縮文件;S6、將網(wǎng)頁(yè)數(shù)據(jù)及壓縮文件分別更新為目標(biāo)數(shù)據(jù)及目標(biāo)壓縮文件;S7、將目標(biāo)數(shù)據(jù)及目標(biāo)壓縮文件存儲(chǔ)至數(shù)據(jù)庫(kù)服務(wù)器中。本發(fā)明能夠判斷出網(wǎng)頁(yè)數(shù)據(jù)的更新,實(shí)現(xiàn)了對(duì)獲取到的網(wǎng)頁(yè)數(shù)據(jù)的及時(shí)更新。
【專利說(shuō)明】對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新的系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新的系統(tǒng)及方法,特別是涉及一種能夠 及時(shí)檢測(cè)出獲取的網(wǎng)頁(yè)數(shù)據(jù)的更新并進(jìn)行相應(yīng)更新處理的系統(tǒng)以及一種利用所述系統(tǒng)實(shí) 現(xiàn)的對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新的方法。
【背景技術(shù)】
[0002] 在現(xiàn)階段的網(wǎng)絡(luò)技術(shù)飛速發(fā)展的情況下,大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,如何快速有效地 拉取網(wǎng)站的數(shù)據(jù)信息成為亟待解決的問(wèn)題?,F(xiàn)在很多的網(wǎng)站出于信息保護(hù)的目的,在對(duì)網(wǎng) 頁(yè)數(shù)據(jù)進(jìn)行更新時(shí),一般不會(huì)在更新數(shù)據(jù)中提供時(shí)間戳這種標(biāo)識(shí)時(shí)間的信息數(shù)據(jù)。因此,現(xiàn) 有技術(shù)中在抓取到網(wǎng)頁(yè)數(shù)據(jù)后,基本無(wú)法判斷網(wǎng)頁(yè)數(shù)據(jù)的更新時(shí)間,一旦無(wú)法判斷更新時(shí) 間,就無(wú)法判斷抓取到的網(wǎng)頁(yè)數(shù)據(jù)中哪些是更新過(guò)的數(shù)據(jù),哪些是沒有更新過(guò)的數(shù)據(jù),從而 導(dǎo)致無(wú)法第一時(shí)間獲取到網(wǎng)頁(yè)中最新更新的數(shù)據(jù)。
[0003] 以在線旅游搜索平臺(tái)為例,由于無(wú)法判斷目標(biāo)網(wǎng)站(例如各種酒店及訂票網(wǎng)站)的 數(shù)據(jù)更新,導(dǎo)致很難在第一時(shí)間獲取到最新更新的機(jī)票、酒店及火車票等資源信息,而數(shù)據(jù) 更新的實(shí)時(shí)性不高的話,會(huì)使得用戶在進(jìn)行相關(guān)信息查詢時(shí)精準(zhǔn)度變低,嚴(yán)重影響到用戶 的使用體驗(yàn)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明要解決的技術(shù)問(wèn)題是為了克服現(xiàn)有技術(shù)中在線旅游搜索平臺(tái)等無(wú)法及時(shí) 判斷網(wǎng)站的數(shù)據(jù)更新,導(dǎo)致很難在第一時(shí)間獲取到最新更新的機(jī)票、酒店及火車票等資源 信息,使得用戶在進(jìn)行相關(guān)信息查詢時(shí)精準(zhǔn)度變低,嚴(yán)重影響到用戶的使用體驗(yàn)的缺陷,提 供一種能夠及時(shí)檢測(cè)出獲取的網(wǎng)頁(yè)數(shù)據(jù)的更新并進(jìn)行相應(yīng)更新處理的系統(tǒng)以及一種利用 所述系統(tǒng)實(shí)現(xiàn)的對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新的方法。
[0005] 本發(fā)明是通過(guò)下述技術(shù)方案來(lái)解決上述技術(shù)問(wèn)題的:
[0006] 本發(fā)明提供了一種對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新的方法,其特點(diǎn)在于,所述方法包 括以下步驟:
[0007] Si、利用網(wǎng)絡(luò)爬蟲從一網(wǎng)頁(yè)中抓取帶有所述網(wǎng)頁(yè)ID (身份識(shí)別號(hào)碼)的目標(biāo)數(shù)據(jù);
[0008] S2、將所述目標(biāo)數(shù)據(jù)打包成一目標(biāo)壓縮文件,并對(duì)所述目標(biāo)壓縮文件添加MD5 (消 息摘要算法第五版,計(jì)算機(jī)領(lǐng)域使用的一種散列函數(shù))標(biāo)簽;
[0009] S3、判斷一數(shù)據(jù)庫(kù)服務(wù)器中是否存儲(chǔ)帶有所述網(wǎng)頁(yè)ID的網(wǎng)頁(yè)數(shù)據(jù)及所述網(wǎng)頁(yè)數(shù)據(jù) 的壓縮文件,若是,則執(zhí)行步驟S 4,若否,則執(zhí)行步驟S7 ;
[0010] S4、判斷所述網(wǎng)頁(yè)數(shù)據(jù)的壓縮文件的MD5值與所述目標(biāo)壓縮文件的MD5值是否相 同,若是,則執(zhí)行步驟S 5,若否,則執(zhí)行步驟S6 ;
[0011] S5、刪除所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件,然后結(jié)束流程;
[0012] s6、將所述網(wǎng)頁(yè)數(shù)據(jù)及所述網(wǎng)頁(yè)數(shù)據(jù)的壓縮文件分別更新為所述目標(biāo)數(shù)據(jù)及所述 目標(biāo)壓縮文件,然后結(jié)束流程;
[0013] s7、將所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件存儲(chǔ)至所述數(shù)據(jù)庫(kù)服務(wù)器中。
[0014] 在步驟Si中通過(guò)設(shè)定所述網(wǎng)頁(yè)的網(wǎng)址,所述網(wǎng)絡(luò)爬蟲的遞歸算法以及網(wǎng)頁(yè)數(shù)據(jù)的 定位信息后,所述網(wǎng)絡(luò)爬蟲就可以快速抓取所需要的網(wǎng)頁(yè)數(shù)據(jù),即所述目標(biāo)數(shù)據(jù),而所有的 目標(biāo)數(shù)據(jù)都是在具有獨(dú)有的唯一的ID的網(wǎng)頁(yè)中的數(shù)據(jù)。
[0015] 此處的網(wǎng)頁(yè)ID并不是指網(wǎng)頁(yè)的URL (統(tǒng)一資源定位符)地址中的數(shù)字,而是表明 了所需數(shù)據(jù)的唯一身份標(biāo)識(shí),該網(wǎng)頁(yè)ID與網(wǎng)頁(yè)中的數(shù)據(jù)是對(duì)應(yīng)的,并且它能夠表征與之相 對(duì)應(yīng)的一個(gè)獨(dú)一無(wú)二的網(wǎng)頁(yè),而不同的網(wǎng)頁(yè)也會(huì)具有不同的網(wǎng)頁(yè)ID。
[0016] 在考慮到將抓取到的所述目標(biāo)數(shù)據(jù)存儲(chǔ)至所述數(shù)據(jù)庫(kù)服務(wù)器的時(shí)候,首先會(huì)在步 驟33中判斷所述數(shù)據(jù)庫(kù)服務(wù)器中是否已經(jīng)存儲(chǔ)有同樣來(lái)自所述網(wǎng)頁(yè)的網(wǎng)頁(yè)數(shù)據(jù),即判斷所 述數(shù)據(jù)庫(kù)服務(wù)器中是否存儲(chǔ)帶有所述網(wǎng)頁(yè)ID的網(wǎng)頁(yè)數(shù)據(jù)以及與所述網(wǎng)頁(yè)數(shù)據(jù)對(duì)應(yīng)的壓縮 文件。
[0017] 若是,則說(shuō)明所述數(shù)據(jù)庫(kù)服務(wù)器中已經(jīng)存儲(chǔ)有所述網(wǎng)頁(yè)的網(wǎng)頁(yè)數(shù)據(jù),此時(shí)尚不能 確定抓取到的所述目標(biāo)數(shù)據(jù)是否為所述網(wǎng)頁(yè)最新更新的數(shù)據(jù),需要進(jìn)行后續(xù)判斷;
[0018] 若否,則說(shuō)明所述數(shù)據(jù)庫(kù)服務(wù)器中尚未存儲(chǔ)所述網(wǎng)頁(yè)的網(wǎng)頁(yè)數(shù)據(jù),此時(shí)對(duì)所述數(shù) 據(jù)庫(kù)服務(wù)器來(lái)說(shuō),所述目標(biāo)數(shù)據(jù)為最新的網(wǎng)頁(yè)數(shù)據(jù),因此執(zhí)行步驟s 7對(duì)所述數(shù)據(jù)庫(kù)服務(wù)器 中存儲(chǔ)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新。
[0019] 而在判斷出所述數(shù)據(jù)庫(kù)服務(wù)器中已經(jīng)存儲(chǔ)有所述網(wǎng)頁(yè)的網(wǎng)頁(yè)數(shù)據(jù)及所述網(wǎng)頁(yè)數(shù) 據(jù)的壓縮文件時(shí),會(huì)執(zhí)行步驟S 4來(lái)繼續(xù)判斷所述網(wǎng)頁(yè)數(shù)據(jù)的壓縮文件的MD5值與所述目標(biāo) 壓縮文件的MD5值是否相同;
[0020] 若相同,則說(shuō)明所述網(wǎng)頁(yè)數(shù)據(jù)沒有被更新過(guò),即所述數(shù)據(jù)庫(kù)服務(wù)器中存儲(chǔ)的網(wǎng)頁(yè) 數(shù)據(jù)是最新的,此時(shí)執(zhí)行步驟S 5 ;若不相同,則說(shuō)明步驟Si中抓取到的所述目標(biāo)數(shù)據(jù)是最新 的,此時(shí)執(zhí)行步驟S6對(duì)所述數(shù)據(jù)庫(kù)中存儲(chǔ)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新。
[0021] 這樣,通過(guò)本發(fā)明的方法就能夠保證所述數(shù)據(jù)庫(kù)服務(wù)器中存儲(chǔ)的網(wǎng)頁(yè)數(shù)據(jù)一直是 最新,實(shí)現(xiàn)了對(duì)獲取到的網(wǎng)頁(yè)數(shù)據(jù)的及時(shí)更新,同時(shí)減少了所述數(shù)據(jù)庫(kù)服務(wù)器中的數(shù)據(jù)冗 余。
[0022] 并且,本發(fā)明能夠極大地提高所述數(shù)據(jù)庫(kù)服務(wù)器中存儲(chǔ)的網(wǎng)頁(yè)數(shù)據(jù)的實(shí)時(shí)性,特 別是對(duì)于在線旅游搜索平臺(tái)等,能夠在第一時(shí)間獲取到最新更新的機(jī)票、酒店及火車票等 資源信息,使得用戶在進(jìn)行相關(guān)信息查詢時(shí)精準(zhǔn)度大大提高,方便了用戶的使用,提升了用 戶的使用體驗(yàn),也極大地提高了在線旅游搜索平臺(tái)等對(duì)網(wǎng)頁(yè)數(shù)據(jù)處理的靈活性和實(shí)時(shí)性。
[0023] 較佳地,步驟&中的所述網(wǎng)絡(luò)爬蟲為聚焦爬蟲,所述聚焦爬蟲在抓取時(shí)通過(guò)設(shè)置 過(guò)濾算法過(guò)濾所述網(wǎng)頁(yè)中與所述目標(biāo)數(shù)據(jù)無(wú)關(guān)的鏈接。
[0024] 區(qū)別于普通的網(wǎng)絡(luò)爬蟲,步驟S2中采用的聚焦爬蟲能夠過(guò)濾掉無(wú)關(guān)鏈接,只保留 有用鏈接并存入等待隊(duì)列中,從而提高了抓取網(wǎng)頁(yè)數(shù)據(jù)的速度和效率,進(jìn)而也提高了整個(gè) 方法流程的速度和效率。
[0025] 較佳地,步驟&中還將所述目標(biāo)數(shù)據(jù)按照數(shù)據(jù)類型劃分為多個(gè)字段,并將所述多 個(gè)字段分類為靜態(tài)信息數(shù)據(jù)和動(dòng)態(tài)信息數(shù)據(jù);
[0026] 步驟S2中的所述目標(biāo)壓縮文件包括分別帶有MD5標(biāo)簽的所述靜態(tài)信息數(shù)據(jù)的壓 縮文件及所述動(dòng)態(tài)信息數(shù)據(jù)的壓縮文件。
[0027] 對(duì)于步驟Si中抓取到的所述目標(biāo)數(shù)據(jù),表征的信息不同使得數(shù)據(jù)的類型也會(huì)有差 另|J,因此在步驟Si中還可以按照網(wǎng)頁(yè)數(shù)據(jù)表征信息的不同將所述目標(biāo)數(shù)據(jù)劃分為多個(gè)字 段。
[0028] 所有字段的數(shù)據(jù)大體都可以分為靜態(tài)信息數(shù)據(jù)和動(dòng)態(tài)信息數(shù)據(jù),其中靜態(tài)信息數(shù) 據(jù)是指事物的基本特征信息數(shù)據(jù),這些數(shù)據(jù)隨著時(shí)間的變化非常緩慢或者基本不會(huì)變化, 例如火車的車次、起始站、終點(diǎn)站等。而動(dòng)態(tài)信息數(shù)據(jù)則是指隨著時(shí)間的變化而比較容易發(fā) 生變化的數(shù)據(jù),例如火車票的數(shù)量、硬座、臥鋪的余量等。
[0029] 較佳地,每隔一時(shí)間段執(zhí)行一次所述方法的流程。
[0030] 本發(fā)明的目的在于還提供了一種對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新的系統(tǒng),其特點(diǎn)在 于,所述系統(tǒng)包括一數(shù)據(jù)抓取模塊、一文件壓縮模塊、一第一判斷模塊、一第二判斷模塊以 及一數(shù)據(jù)更新模塊;
[0031] 所述數(shù)據(jù)抓取模塊用于利用網(wǎng)絡(luò)爬蟲從一網(wǎng)頁(yè)中抓取帶有所述網(wǎng)頁(yè)ID的目標(biāo)數(shù) 據(jù);
[0032] 所述文件壓縮模塊用于將所述目標(biāo)數(shù)據(jù)打包成一目標(biāo)壓縮文件,并對(duì)所述目標(biāo)壓 縮文件添加MD5標(biāo)簽;
[0033] 所述第一判斷模塊用于判斷一數(shù)據(jù)庫(kù)服務(wù)器中是否存儲(chǔ)帶有所述網(wǎng)頁(yè)ID的網(wǎng)頁(yè) 數(shù)據(jù)及所述網(wǎng)頁(yè)數(shù)據(jù)的壓縮文件,若是,則啟用所述第二判斷模塊,若否,則調(diào)用所述數(shù)據(jù) 更新模塊將所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件存儲(chǔ)至所述數(shù)據(jù)庫(kù)服務(wù)器中;
[0034] 所述第二判斷模塊用于判斷所述網(wǎng)頁(yè)數(shù)據(jù)的壓縮文件的MD5值與所述目標(biāo)壓縮 文件的MD5值是否相同;
[0035] 若是,則調(diào)用所述數(shù)據(jù)更新模塊刪除所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件;
[0036] 若否,則調(diào)用所述數(shù)據(jù)更新模塊分別將所述網(wǎng)頁(yè)數(shù)據(jù)及所述網(wǎng)頁(yè)數(shù)據(jù)的壓縮文件 更新為所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件。
[0037] 較佳地,所述網(wǎng)絡(luò)爬蟲為聚焦爬蟲,所述聚焦爬蟲還用于在抓取時(shí)通過(guò)設(shè)置過(guò)濾 算法過(guò)濾所述網(wǎng)頁(yè)中與所述目標(biāo)數(shù)據(jù)無(wú)關(guān)的鏈接。
[0038] 較佳地,所述數(shù)據(jù)抓取模塊還用于將所述目標(biāo)數(shù)據(jù)按照數(shù)據(jù)類型劃分為多個(gè)字 段,并將所述多個(gè)字段分類為靜態(tài)信息數(shù)據(jù)和動(dòng)態(tài)信息數(shù)據(jù);
[0039] 所述目標(biāo)壓縮文件包括分別帶有MD5標(biāo)簽的所述靜態(tài)信息數(shù)據(jù)的壓縮文件及所 述動(dòng)態(tài)信息數(shù)據(jù)的壓縮文件。
[0040] 本發(fā)明的積極進(jìn)步效果在于:本發(fā)明能夠判斷出網(wǎng)頁(yè)數(shù)據(jù)的更新,實(shí)現(xiàn)了對(duì)獲取 到的網(wǎng)頁(yè)數(shù)據(jù)的及時(shí)更新,并且能夠極大地提高存儲(chǔ)的網(wǎng)頁(yè)數(shù)據(jù)的實(shí)時(shí)性,特別是對(duì)于在 線旅游搜索平臺(tái)等,能夠在第一時(shí)間獲取到最新更新的機(jī)票、酒店及火車票等資源信息,使 得用戶在進(jìn)行相關(guān)信息查詢時(shí)精準(zhǔn)度大大提高,方便了用戶的使用,提升了用戶的使用體 驗(yàn),也極大地提高了在線旅游搜索平臺(tái)等對(duì)網(wǎng)頁(yè)數(shù)據(jù)處理的靈活性和實(shí)時(shí)性。
【專利附圖】
【附圖說(shuō)明】
[0041] 圖1為本發(fā)明的一較佳實(shí)施例的對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新的系統(tǒng)的結(jié)構(gòu)示意 圖。
[0042] 圖2為本發(fā)明的一較佳實(shí)施例的對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新的方法的流程圖。
【具體實(shí)施方式】
[0043] 下面結(jié)合附圖給出本發(fā)明較佳實(shí)施例,以詳細(xì)說(shuō)明本發(fā)明的技術(shù)方案。
[0044] 如圖1所示,本發(fā)明的對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新的系統(tǒng)包括一數(shù)據(jù)抓取模塊1、 一文件壓縮模塊2、一第一判斷模塊3、一第二判斷模塊4以及一數(shù)據(jù)更新模塊5。
[0045] 在本實(shí)施例中利用所述系統(tǒng)對(duì)鐵道部火車票網(wǎng)上訂票官網(wǎng)(網(wǎng)址為www. 12306. cn)中的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行抓取,并能夠?qū)Λ@取到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新。
[0046] 具體地,首先通過(guò)設(shè)定所述網(wǎng)頁(yè)的網(wǎng)址,網(wǎng)絡(luò)爬蟲的遞歸算法以及網(wǎng)頁(yè)數(shù)據(jù)的定 位信息后,所述數(shù)據(jù)抓取模塊1利用所述網(wǎng)絡(luò)爬蟲就能夠快速抓取所需要的網(wǎng)頁(yè)數(shù)據(jù),即 所述目標(biāo)數(shù)據(jù),而所有的目標(biāo)數(shù)據(jù)都帶有所述網(wǎng)頁(yè)的一個(gè)獨(dú)有的唯一的ID。
[0047] 所述目標(biāo)數(shù)據(jù)具體包括車次、起始站、終點(diǎn)站、發(fā)車時(shí)間、到達(dá)時(shí)間、硬座余量、硬 臥余量等等,在此就不再一一列舉。對(duì)于抓取到的所述目標(biāo)數(shù)據(jù),由于表征的信息的不同使 得數(shù)據(jù)的類型也會(huì)有差別,例如,表征車次的數(shù)據(jù)與表征起始站的數(shù)據(jù)的類型是不同的。 [0048] 因此,所述數(shù)據(jù)抓取模塊1還將所述目標(biāo)數(shù)據(jù)按照數(shù)據(jù)類型劃分為多個(gè)字段,即 上述的表征車次、起始站、終點(diǎn)站、發(fā)車時(shí)間、到達(dá)時(shí)間、硬座余量、硬臥余量等的字段,并將 所述多個(gè)字段分類為靜態(tài)信息數(shù)據(jù)和動(dòng)態(tài)信息數(shù)據(jù)這兩種數(shù)據(jù)。
[0049] 所有字段的數(shù)據(jù)大體都可以分為靜態(tài)信息數(shù)據(jù)和動(dòng)態(tài)信息數(shù)據(jù),其中靜態(tài)信息數(shù) 據(jù)是指事物的基本特征信息數(shù)據(jù),這些數(shù)據(jù)隨著時(shí)間的變化非常緩慢或者基本不會(huì)變化, 例如火車的車次、起始站、終點(diǎn)站等。而動(dòng)態(tài)信息數(shù)據(jù)則是指隨著時(shí)間的變化而比較容易發(fā) 生變化的數(shù)據(jù),例如火車票的數(shù)量、硬座的余量、硬臥的余量等。
[0050] 表1-表3分別示出了所述目標(biāo)數(shù)據(jù)、所述靜態(tài)信息數(shù)據(jù)和所述動(dòng)態(tài)信息數(shù)據(jù)的具 體數(shù)據(jù)分類。
[0051]
【權(quán)利要求】
1. 一種對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新的方法,其特征在于,所述方法包括以下步驟: 51、 利用網(wǎng)絡(luò)爬蟲從一網(wǎng)頁(yè)中抓取帶有所述網(wǎng)頁(yè)ID的目標(biāo)數(shù)據(jù); 52、 將所述目標(biāo)數(shù)據(jù)打包成一目標(biāo)壓縮文件,并對(duì)所述目標(biāo)壓縮文件添加MD5標(biāo)簽; 53、 判斷一數(shù)據(jù)庫(kù)服務(wù)器中是否存儲(chǔ)帶有所述網(wǎng)頁(yè)ID的網(wǎng)頁(yè)數(shù)據(jù)及所述網(wǎng)頁(yè)數(shù)據(jù)的壓 縮文件,若是,則執(zhí)行步驟S4,若否,則執(zhí)行步驟S7 ; 54、 判斷所述網(wǎng)頁(yè)數(shù)據(jù)的壓縮文件的MD5值與所述目標(biāo)壓縮文件的MD5值是否相同,若 是,則執(zhí)行步驟S5,若否,則執(zhí)行步驟S6 ; 55、 刪除所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件,然后結(jié)束流程; 56、 將所述網(wǎng)頁(yè)數(shù)據(jù)及所述網(wǎng)頁(yè)數(shù)據(jù)的壓縮文件分別更新為所述目標(biāo)數(shù)據(jù)及所述目標(biāo) 壓縮文件,然后結(jié)束流程; 57、 將所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件存儲(chǔ)至所述數(shù)據(jù)庫(kù)服務(wù)器中。
2. 如權(quán)利要求1所述的方法,其特征在于,步驟Si中的所述網(wǎng)絡(luò)爬蟲為聚焦爬蟲,所述 聚焦爬蟲在抓取時(shí)通過(guò)設(shè)置過(guò)濾算法過(guò)濾所述網(wǎng)頁(yè)中與所述目標(biāo)數(shù)據(jù)無(wú)關(guān)的鏈接。
3. 如權(quán)利要求2所述的方法,其特征在于,步驟Si中還將所述目標(biāo)數(shù)據(jù)按照數(shù)據(jù)類型 劃分為多個(gè)字段,并將所述多個(gè)字段分類為靜態(tài)信息數(shù)據(jù)和動(dòng)態(tài)信息數(shù)據(jù); 步驟S2中的所述目標(biāo)壓縮文件包括分別帶有MD5標(biāo)簽的所述靜態(tài)信息數(shù)據(jù)的壓縮文 件及所述動(dòng)態(tài)信息數(shù)據(jù)的壓縮文件。
4. 如權(quán)利要求1-3中任意一項(xiàng)所述的方法,其特征在于,每隔一時(shí)間段執(zhí)行一次所述 方法的流程。
5. -種對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行更新的系統(tǒng),其特征在于,所述系統(tǒng)包括一數(shù)據(jù)抓取模 塊、一文件壓縮模塊、一第一判斷模塊、一第二判斷模塊以及一數(shù)據(jù)更新模塊; 所述數(shù)據(jù)抓取模塊用于利用網(wǎng)絡(luò)爬蟲從一網(wǎng)頁(yè)中抓取帶有所述網(wǎng)頁(yè)ID的目標(biāo)數(shù)據(jù); 所述文件壓縮模塊用于將所述目標(biāo)數(shù)據(jù)打包成一目標(biāo)壓縮文件,并對(duì)所述目標(biāo)壓縮文 件添加MD5標(biāo)簽; 所述第一判斷模塊用于判斷一數(shù)據(jù)庫(kù)服務(wù)器中是否存儲(chǔ)帶有所述網(wǎng)頁(yè)ID的網(wǎng)頁(yè)數(shù)據(jù) 及所述網(wǎng)頁(yè)數(shù)據(jù)的壓縮文件,若是,則啟用所述第二判斷模塊,若否,則調(diào)用所述數(shù)據(jù)更新 模塊將所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件存儲(chǔ)至所述數(shù)據(jù)庫(kù)服務(wù)器中; 所述第二判斷模塊用于判斷所述網(wǎng)頁(yè)數(shù)據(jù)的壓縮文件的MD5值與所述目標(biāo)壓縮文件 的MD5值是否相同; 若是,則調(diào)用所述數(shù)據(jù)更新模塊刪除所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件; 若否,則調(diào)用所述數(shù)據(jù)更新模塊分別將所述網(wǎng)頁(yè)數(shù)據(jù)及所述網(wǎng)頁(yè)數(shù)據(jù)的壓縮文件更新 為所述目標(biāo)數(shù)據(jù)及所述目標(biāo)壓縮文件。
6. 如權(quán)利要求5所述的系統(tǒng),其特征在于,所述網(wǎng)絡(luò)爬蟲為聚焦爬蟲,所述聚焦爬蟲還 用于在抓取時(shí)通過(guò)設(shè)置過(guò)濾算法過(guò)濾所述網(wǎng)頁(yè)中與所述目標(biāo)數(shù)據(jù)無(wú)關(guān)的鏈接。
7. 如權(quán)利要求6所述的系統(tǒng),其特征在于,所述數(shù)據(jù)抓取模塊還用于將所述目標(biāo)數(shù)據(jù) 按照數(shù)據(jù)類型劃分為多個(gè)字段,并將所述多個(gè)字段分類為靜態(tài)信息數(shù)據(jù)和動(dòng)態(tài)信息數(shù)據(jù); 所述目標(biāo)壓縮文件包括分別帶有MD5標(biāo)簽的所述靜態(tài)信息數(shù)據(jù)的壓縮文件及所述動(dòng) 態(tài)信息數(shù)據(jù)的壓縮文件。
【文檔編號(hào)】G06F17/30GK104424188SQ201310362978
【公開日】2015年3月18日 申請(qǐng)日期:2013年8月19日 優(yōu)先權(quán)日:2013年8月19日
【發(fā)明者】葉亞明 申請(qǐng)人:攜程計(jì)算機(jī)技術(shù)(上海)有限公司