本發(fā)明涉及計(jì)算機(jī)及其軟件技術(shù)領(lǐng)域,特別涉及一種抓取網(wǎng)站數(shù)據(jù)的方法和裝置。
背景技術(shù):
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人)是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種,同時(shí)在網(wǎng)頁權(quán)重判定有專門的算法,例如pagerank,即網(wǎng)頁排名,又稱網(wǎng)頁級(jí)別、google左側(cè)排名或佩奇排名,是google創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1997年構(gòu)建早期的搜索系統(tǒng)原型時(shí)提出的鏈接分析算法,自從google在商業(yè)上獲得空前的成功后,該算法也成為其他搜索引擎和學(xué)術(shù)界十分關(guān)注的計(jì)算模型。
目前,很多重要的鏈接分析算法都是在pagerank算法基礎(chǔ)上衍生出來的。pagerank算法是google用于用來標(biāo)識(shí)網(wǎng)頁的等級(jí)/重要性的一種方法,是google用來衡量一個(gè)網(wǎng)站的好壞的唯一標(biāo)準(zhǔn)。在揉合了諸如title標(biāo)識(shí)和keywords標(biāo)識(shí)等所有其它因素之后,google通過pagerank來調(diào)整結(jié)果,使那些更具“等級(jí)/重要性”的網(wǎng)頁在搜索結(jié)果中的網(wǎng)站排名獲得提升,從而提高搜索結(jié)果的相關(guān)性和質(zhì)量。pagerank算法得到的級(jí)別從0到10級(jí),10級(jí)為滿分。pr值越高說明該網(wǎng)頁越受歡迎(越重要),那么該網(wǎng)頁被抓取的概率也就越高。例如:一個(gè)pr值為1的網(wǎng)站表明這個(gè)網(wǎng)站不太具有流行度,而pr值為7到10則表明這個(gè)網(wǎng)站非常受歡迎(或者說極其重要)。一般pr值達(dá)到4,就算是一個(gè)不錯(cuò)的網(wǎng)站了。google把自己的網(wǎng)站的pr值定到10,這說明google這個(gè)網(wǎng)站是非常受歡迎的,也可以說這個(gè)網(wǎng)站非常重要。
現(xiàn)有的網(wǎng)絡(luò)爬蟲在抓取網(wǎng)頁時(shí)都會(huì)用到pagerank算法,就是按照算法來計(jì)算網(wǎng)頁重要性,只要網(wǎng)頁的pr值滿足要求,就會(huì)對(duì)網(wǎng)站的數(shù)據(jù)進(jìn)行抓取,在一定程度上增加了網(wǎng)絡(luò)爬蟲的工作負(fù)載,同時(shí)也因龐大的網(wǎng)站數(shù)據(jù)浪費(fèi)了客戶的時(shí)間,進(jìn)一步降低了客戶的使用體驗(yàn)。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供一種抓取網(wǎng)站數(shù)據(jù)的方法和裝置,能夠根據(jù)網(wǎng)站的代碼質(zhì)量對(duì)網(wǎng)站進(jìn)行抓取,從而過濾掉一些代碼質(zhì)量差的網(wǎng)站,從而減少了網(wǎng)絡(luò)爬蟲的工作負(fù)載,進(jìn)而也避免了客戶在進(jìn)行搜索的時(shí)候無需在一些代碼質(zhì)量不高的網(wǎng)站浪費(fèi)時(shí)間,也在一定程度上提高了用戶的使用體驗(yàn)。
為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種抓取網(wǎng)站數(shù)據(jù)的方法。
本發(fā)明的抓取網(wǎng)站數(shù)據(jù)的方法包括:獲取網(wǎng)站的網(wǎng)頁,確定該網(wǎng)頁的代碼質(zhì)量;根據(jù)所述網(wǎng)頁的代碼質(zhì)量確定所述網(wǎng)站的抓取概率;根據(jù)所述網(wǎng)站的抓取概率抓取所述網(wǎng)站的數(shù)據(jù)。
可選地,所述確定該網(wǎng)頁的代碼質(zhì)量的步驟包括:先根據(jù)如下的一種或幾種方式確定各方式對(duì)應(yīng)的得分:使用冗余代碼檢查工具確定該網(wǎng)頁的冗余代碼得分,統(tǒng)計(jì)重復(fù)關(guān)鍵詞得到該網(wǎng)頁的重復(fù)度得分,檢查網(wǎng)頁的引用庫(kù)版本確定該網(wǎng)頁的引用庫(kù)版本得分,使用代碼檢查工具確定該網(wǎng)頁的javascript代碼質(zhì)量得分,使用css代碼靜態(tài)檢查工具確定該網(wǎng)頁的css質(zhì)量得分,統(tǒng)計(jì)html標(biāo)簽中不推薦使用的標(biāo)簽的個(gè)數(shù)得到該網(wǎng)頁的標(biāo)簽得分;然后將所述得分之和作為該網(wǎng)頁的代碼質(zhì)量。
可選地,所述網(wǎng)站的網(wǎng)頁包括該網(wǎng)站首頁以及設(shè)定數(shù)目的該網(wǎng)站 的二級(jí)頁面;根據(jù)所述網(wǎng)頁的代碼質(zhì)量確定所述網(wǎng)站的抓取概率的步驟包括:根據(jù)如下公式計(jì)算網(wǎng)頁的質(zhì)量平均分:網(wǎng)頁的質(zhì)量平均分=(網(wǎng)站的首頁的代碼質(zhì)量分+網(wǎng)站的二級(jí)頁面的代碼質(zhì)量分)/(1+網(wǎng)站的二級(jí)頁面的數(shù)目);根據(jù)如下公式計(jì)算該網(wǎng)站的抓取概率,網(wǎng)站的抓取概率=(設(shè)定分?jǐn)?shù)范圍的最大值-網(wǎng)頁的質(zhì)量平均分)/設(shè)定分?jǐn)?shù)范圍的最大值。
可選地,根據(jù)所述網(wǎng)站的抓取概率抓取所述網(wǎng)站的數(shù)據(jù)的步驟包括:首先確定所述網(wǎng)站的抓取概率不小于預(yù)設(shè)的抓取概率的下限值,然后抓取所述網(wǎng)站的數(shù)據(jù)。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種抓取網(wǎng)站數(shù)據(jù)的裝置。
本發(fā)明的抓取網(wǎng)站數(shù)據(jù)的裝置包括:獲取模塊,用于獲取網(wǎng)站的網(wǎng)頁,然后確定該網(wǎng)頁的代碼質(zhì)量;確定模塊,用于根據(jù)所述網(wǎng)頁的代碼質(zhì)量確定所述網(wǎng)站的抓取概率;抓取模塊,用于根據(jù)所述網(wǎng)站的抓取概率抓取所述網(wǎng)站的數(shù)據(jù)。
可選地,所述獲取模塊還用于:首先根據(jù)如下的一種或幾種方式確定各方式對(duì)應(yīng)的得分:使用冗余代碼檢查工具確定該網(wǎng)頁的冗余代碼得分,統(tǒng)計(jì)重復(fù)關(guān)鍵詞得到該網(wǎng)頁的重復(fù)度得分,檢查網(wǎng)頁的引用庫(kù)版本確定該網(wǎng)頁的引用庫(kù)版本得分,使用代碼檢查工具確定該網(wǎng)頁的javascript代碼質(zhì)量得分,使用css代碼靜態(tài)檢查工具確定該網(wǎng)頁的css質(zhì)量得分,統(tǒng)計(jì)html標(biāo)簽中不推薦使用的標(biāo)簽的個(gè)數(shù)得到該網(wǎng)頁的標(biāo)簽得分;然后將所述得分之和作為該網(wǎng)頁的代碼質(zhì)量。
可選地,所述網(wǎng)站的網(wǎng)頁包括該網(wǎng)站首頁以及設(shè)定數(shù)目的該網(wǎng)站的二級(jí)頁面;所述確定模塊還用于:根據(jù)如下公式計(jì)算網(wǎng)頁的質(zhì)量平均分:網(wǎng)頁的質(zhì)量平均分=(網(wǎng)站的首頁的代碼質(zhì)量分+網(wǎng)站的二級(jí)頁面的代碼質(zhì)量分)/(1+網(wǎng)站的二級(jí)頁面的數(shù)目);根據(jù)如下公式計(jì)算 該網(wǎng)站的抓取概率,網(wǎng)站的抓取概率=(設(shè)定分?jǐn)?shù)范圍的最大值-網(wǎng)頁的質(zhì)量平均分)/設(shè)定分?jǐn)?shù)范圍的最大值。
可選地,所述抓取模塊還用于首先確定所述網(wǎng)站的抓取概率不小于預(yù)設(shè)的抓取概率的下限值,然后抓取所述網(wǎng)站的數(shù)據(jù)。
根據(jù)本發(fā)明的又一個(gè)方面,提供了一種抓取網(wǎng)站數(shù)據(jù)的裝置。
本發(fā)明的抓取網(wǎng)站數(shù)據(jù)的裝置,包括:存儲(chǔ)器和處理器,其中,所述存儲(chǔ)器存儲(chǔ)指令;所述處理器執(zhí)行所述指令,用于:獲取網(wǎng)站的網(wǎng)頁,確定該網(wǎng)頁的代碼質(zhì)量;根據(jù)所述網(wǎng)頁的代碼質(zhì)量確定所述網(wǎng)站的抓取概率;根據(jù)所述網(wǎng)站的抓取概率抓取所述網(wǎng)站的數(shù)據(jù)。
可選地,所述處理器還用于:先根據(jù)如下的一種或幾種方式確定各方式對(duì)應(yīng)的得分:使用冗余代碼檢查工具確定該網(wǎng)頁的冗余代碼得分,統(tǒng)計(jì)重復(fù)關(guān)鍵詞得到該網(wǎng)頁的重復(fù)度得分,檢查網(wǎng)頁的引用庫(kù)版本確定該網(wǎng)頁的引用庫(kù)版本得分,使用代碼檢查工具確定該網(wǎng)頁的javascript代碼質(zhì)量得分,使用css代碼靜態(tài)檢查工具確定該網(wǎng)頁的css質(zhì)量得分,統(tǒng)計(jì)html標(biāo)簽中不推薦使用的標(biāo)簽的個(gè)數(shù)得到該網(wǎng)頁的標(biāo)簽得分;然后將所述得分之和作為該網(wǎng)頁的代碼質(zhì)量。
可選地,所述網(wǎng)站的網(wǎng)頁包括該網(wǎng)站首頁以及設(shè)定數(shù)目的該網(wǎng)站的二級(jí)頁面;所述處理器還用于:根據(jù)如下公式計(jì)算網(wǎng)頁的質(zhì)量平均分:網(wǎng)頁的質(zhì)量平均分=(網(wǎng)站的首頁的代碼質(zhì)量分+網(wǎng)站的二級(jí)頁面的代碼質(zhì)量分)/(1+網(wǎng)站的二級(jí)頁面的數(shù)目);根據(jù)如下公式計(jì)算該網(wǎng)站的抓取概率,網(wǎng)站的抓取概率=(設(shè)定分?jǐn)?shù)范圍的最大值-網(wǎng)頁的質(zhì)量平均分)/設(shè)定分?jǐn)?shù)范圍的最大值。
根據(jù)本發(fā)明的技術(shù)方案,由于是從網(wǎng)站的代碼質(zhì)量的角度進(jìn)行分析得到的該網(wǎng)站的抓取概率,因而能夠過濾掉一些代碼質(zhì)量差的網(wǎng)站, 從而減少了網(wǎng)絡(luò)爬蟲的工作負(fù)載,進(jìn)而也避免了客戶在進(jìn)行搜索的時(shí)候無需在一些代碼質(zhì)量不高的網(wǎng)站浪費(fèi)時(shí)間,也在一定程度上提高了用戶的使用體驗(yàn)。
附圖說明
附圖用于更好地理解本發(fā)明,不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。其中:
圖1是根據(jù)本發(fā)明實(shí)施例的一種抓取網(wǎng)站數(shù)據(jù)的裝置的示意圖;
圖2是根據(jù)本發(fā)明實(shí)施例的一種抓取網(wǎng)站數(shù)據(jù)的方法的示意圖;
圖3是根據(jù)本發(fā)明實(shí)施例的另一種抓取網(wǎng)站數(shù)據(jù)的裝置的示意圖。
具體實(shí)施方式
以下結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例做出說明,其中包括本發(fā)明實(shí)施例的各種細(xì)節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)到,可以對(duì)這里描述的實(shí)施例做出各種改變和修改,而不會(huì)背離本發(fā)明的范圍和精神。同樣,為了清楚和簡(jiǎn)明,以下的描述中省略了對(duì)公知功能和結(jié)構(gòu)的描述。
圖1是根據(jù)本發(fā)明實(shí)施例的一種抓取網(wǎng)站數(shù)據(jù)的裝置的示意圖。如圖1所示,本發(fā)明實(shí)施例的抓取網(wǎng)站數(shù)據(jù)的裝置10主要包括獲取模塊11、確定模塊12、以及抓取模塊13;獲取模塊11用于獲取網(wǎng)站的網(wǎng)頁,然后確定該網(wǎng)頁的代碼質(zhì)量;確定模塊12用于根據(jù)所述網(wǎng)頁的代碼質(zhì)量確定所述網(wǎng)站的抓取概率;抓取模塊13用于根據(jù)所述網(wǎng)站的抓取概率抓取所述網(wǎng)站的數(shù)據(jù);其中,網(wǎng)站的網(wǎng)頁包括該網(wǎng)站首頁以及設(shè)定數(shù)目的該網(wǎng)站的二級(jí)頁面。
本發(fā)明實(shí)施例的抓取網(wǎng)站數(shù)據(jù)的裝置10的獲取模塊11還可用于:首先根據(jù)如下的一種或幾種方式確定各方式對(duì)應(yīng)的得分:使用冗余代碼檢查工具確定該網(wǎng)頁的冗余代碼得分,統(tǒng)計(jì)重復(fù)關(guān)鍵詞得到該網(wǎng)頁的重復(fù)度得分,檢查網(wǎng)頁的引用庫(kù)版本確定該網(wǎng)頁的引用庫(kù)版本得分,使用代碼檢查工具確定該網(wǎng)頁的javascript代碼質(zhì)量得分,使用css 代碼靜態(tài)檢查工具確定該網(wǎng)頁的css質(zhì)量得分;統(tǒng)計(jì)html標(biāo)簽中不推薦使用的標(biāo)簽的個(gè)數(shù)得到該網(wǎng)頁的標(biāo)簽得分;然后將所述得分之和作為該網(wǎng)頁的代碼質(zhì)量。
本發(fā)明實(shí)施例的抓取網(wǎng)站數(shù)據(jù)的裝置10的確定模塊12還可用于:根據(jù)如下公式計(jì)算網(wǎng)頁的質(zhì)量平均分:網(wǎng)頁的質(zhì)量平均分=(網(wǎng)站的首頁的代碼質(zhì)量分+網(wǎng)站的二級(jí)頁面的代碼質(zhì)量分)/(1+網(wǎng)站的二級(jí)頁面的數(shù)目);根據(jù)如下公式計(jì)算該網(wǎng)站的抓取概率,網(wǎng)站的抓取概率=(設(shè)定分?jǐn)?shù)范圍的最大值-網(wǎng)頁的質(zhì)量平均分)/設(shè)定分?jǐn)?shù)范圍的最大值。
本發(fā)明實(shí)施例的抓取網(wǎng)站數(shù)據(jù)的裝置10的抓取模塊13還可用于首先確定所述網(wǎng)站的抓取概率不小于預(yù)設(shè)的抓取概率的下限值,然后抓取所述網(wǎng)站的數(shù)據(jù)。
圖2是根據(jù)本發(fā)明實(shí)施例的一種抓取網(wǎng)站數(shù)據(jù)的方法的示意圖。如圖2所示,該方法的執(zhí)行主體為圖1中所提到的抓取網(wǎng)站數(shù)據(jù)的裝置10,該方法主要包括步驟s20至s22。
步驟s20:獲取網(wǎng)站的網(wǎng)頁,確定該網(wǎng)頁的代碼質(zhì)量。在該步驟中,首先獲取網(wǎng)站的網(wǎng)頁,然后根據(jù)如下的一種或幾種方式確定各方式對(duì)應(yīng)的得分:
使用冗余代碼檢查工具確定該網(wǎng)頁的冗余代碼得分;此處所提到的冗余代碼指的是在網(wǎng)頁的代碼中不必要的代碼段,冗余代碼可以通過重復(fù)代碼檢查工具simian、codestyle或findbug等插件來對(duì)網(wǎng)頁的冗余代碼進(jìn)行檢查,從而得到網(wǎng)頁的冗余代碼得分;例如,可以設(shè)定每多n行冗余代碼,則該網(wǎng)頁的冗余代碼得分加1分;其中,n≥1。
統(tǒng)計(jì)重復(fù)關(guān)鍵詞得到該網(wǎng)頁的重復(fù)度得分;meta標(biāo)簽是針對(duì)網(wǎng)頁的描述,通常比較差的網(wǎng)頁,都會(huì)為了讓搜索引擎收錄,而將頁面描述metacontent中加入很多重復(fù)關(guān)鍵詞,因而可以通過統(tǒng)計(jì)頁面描述 metacontent中關(guān)鍵詞的重復(fù)次數(shù)確定該網(wǎng)頁的重復(fù)度得分;例如,可以設(shè)定一個(gè)關(guān)鍵詞每重復(fù)n次,該網(wǎng)頁的重復(fù)度得分加1分;其中n≥3。
檢查網(wǎng)頁的引用庫(kù)版本確定該網(wǎng)頁的引用庫(kù)版本得分;例如,可以通過檢查網(wǎng)頁的引用庫(kù)的版本號(hào)確定該網(wǎng)頁所引用的版本庫(kù)是否低于設(shè)定的引用版本庫(kù),如果低于設(shè)定的引用版本庫(kù),則該網(wǎng)頁的引用版本得分加1分;如果不低于設(shè)定的引用版本庫(kù),則該網(wǎng)頁的引用版本得分不變;同時(shí),將該網(wǎng)頁的引用版本與預(yù)先保存的穩(wěn)定版本庫(kù)進(jìn)行對(duì)比,如果該網(wǎng)頁的引用版本不屬于所述穩(wěn)定版本庫(kù)中的一個(gè),則該網(wǎng)頁的引用版本庫(kù)得分再加1分;否則,該網(wǎng)頁的引用版本庫(kù)得分不變。
使用代碼檢查工具確定該網(wǎng)頁的代碼質(zhì)量得分;此處所提到的代碼質(zhì)量即指的是代碼中所存在的問題,可以通過jscs等代碼檢查工具檢查網(wǎng)站javascript代碼所存在的問題的個(gè)數(shù),從而確定該網(wǎng)頁的代碼質(zhì)量;例如,設(shè)定通過代碼檢查工具確定該網(wǎng)頁代碼的問題個(gè)數(shù),如果問題個(gè)數(shù)大于設(shè)定的問題個(gè)數(shù)的上限值,則該網(wǎng)頁的代碼質(zhì)量得分加1分;否則,該網(wǎng)頁的代碼質(zhì)量不變。
使用css代碼靜態(tài)檢查工具確定該網(wǎng)頁的css質(zhì)量得分;網(wǎng)頁的css質(zhì)量可以通過檢查該網(wǎng)頁代碼中使用的標(biāo)簽確定該網(wǎng)頁的css質(zhì)量得分;例如,檢查該網(wǎng)頁代碼中使用css不推薦的標(biāo)簽的次數(shù),如每使用<tr></tr>一次,則該網(wǎng)頁的css質(zhì)量得分加1分;同時(shí)檢查css寫在獨(dú)立的標(biāo)簽里的次數(shù),每檢查到寫在獨(dú)立的標(biāo)簽里的n次,則該網(wǎng)頁的css質(zhì)量得分加1分;否則,該網(wǎng)頁的css質(zhì)量得分不變;其中,n≥1。
統(tǒng)計(jì)html標(biāo)簽中不推薦使用的標(biāo)簽的個(gè)數(shù)得到該網(wǎng)頁的標(biāo)簽得分;很多html標(biāo)簽中包括不推薦的標(biāo)簽,所以可以通過將html標(biāo)簽與預(yù)先保存的不推薦使用的標(biāo)簽庫(kù)進(jìn)行對(duì)比得到該網(wǎng)頁的標(biāo)簽得分,如 果使用不推薦使用的標(biāo)簽,則該網(wǎng)頁的標(biāo)簽得分加1分;否則,該網(wǎng)頁的標(biāo)簽得分不變。
再將上述各個(gè)得分之和作為該網(wǎng)頁的代碼質(zhì)量。
步驟s21:根據(jù)所述網(wǎng)頁的代碼質(zhì)量確定所述網(wǎng)站的抓取概率。在步驟s20中所提到的網(wǎng)頁包括該網(wǎng)站首頁以及設(shè)定數(shù)目的該網(wǎng)站的二級(jí)頁面。通過步驟s20抓取網(wǎng)站數(shù)據(jù)的裝置10確定了所抓取的網(wǎng)站首頁以及該網(wǎng)站二級(jí)網(wǎng)頁的質(zhì)量;進(jìn)而通過根據(jù)如下公式計(jì)算網(wǎng)頁的質(zhì)量平均分:網(wǎng)頁的質(zhì)量平均分=(網(wǎng)站的首頁的代碼質(zhì)量分+網(wǎng)站的二級(jí)頁面的代碼質(zhì)量分)/(1+網(wǎng)站的二級(jí)頁面的數(shù)目),最后根據(jù)如下公式計(jì)算該網(wǎng)站的抓取概率,網(wǎng)站的抓取概率=(設(shè)定分?jǐn)?shù)范圍的最大值-網(wǎng)頁的質(zhì)量平均分)/設(shè)定分?jǐn)?shù)范圍的最大值。例如,設(shè)定分?jǐn)?shù)范圍的最大值為100,如果該網(wǎng)站的網(wǎng)頁的質(zhì)量平均分為50分,那么可以計(jì)算得到該網(wǎng)站的抓取概率為0.5;如果該網(wǎng)站的網(wǎng)頁的質(zhì)量平均分為20,則計(jì)算得到的該網(wǎng)站的抓取概率為0.8,也就是說一個(gè)網(wǎng)站的網(wǎng)頁的質(zhì)量平均分越低,則該網(wǎng)站的抓取概率也就越大。
步驟s22:根據(jù)所述網(wǎng)站的抓取概率抓取所述網(wǎng)站的數(shù)據(jù)。在該步驟中,抓取網(wǎng)站數(shù)據(jù)的裝置10根據(jù)步驟s21所得到的網(wǎng)站的抓取概率抓取網(wǎng)站的數(shù)據(jù);例如,可以設(shè)定如果所需抓取的網(wǎng)站的概率小于設(shè)定的抓取概率的下限值,則該網(wǎng)站將不會(huì)被抓??;設(shè)定抓取概率的下限值為0.4,如果步驟s21中得到的網(wǎng)站的抓取概率為0.35,則該網(wǎng)站不會(huì)被抓取。
根據(jù)本發(fā)明實(shí)施例的技術(shù)方案,由于是從網(wǎng)站的代碼質(zhì)量的角度進(jìn)行分析得到的該網(wǎng)站的抓取概率,因而能夠過濾掉一些代碼質(zhì)量差的網(wǎng)站,從而減少了網(wǎng)絡(luò)爬蟲的工作負(fù)載,進(jìn)而也避免了客戶在進(jìn)行搜索的時(shí)候無需在一些代碼質(zhì)量不高的網(wǎng)站浪費(fèi)時(shí)間,也在一定程度上提高了用戶的使用體驗(yàn)。
圖3是根據(jù)本發(fā)明實(shí)施例的另一種抓取網(wǎng)站數(shù)據(jù)的裝置的示意圖。如圖3所示,本發(fā)明的抓取網(wǎng)站數(shù)據(jù)的裝置30主要包括存儲(chǔ)器31和處理器32;其中,所述存儲(chǔ)器31存儲(chǔ)指令;所述處理器32執(zhí)行所述指令,用于:獲取網(wǎng)站的網(wǎng)頁,確定該網(wǎng)頁的代碼質(zhì)量;根據(jù)所述網(wǎng)頁的代碼質(zhì)量確定所述網(wǎng)站的抓取概率;根據(jù)所述網(wǎng)站的抓取概率抓取所述網(wǎng)站的數(shù)據(jù);其中,所述網(wǎng)站的網(wǎng)頁包括該網(wǎng)站首頁以及設(shè)定數(shù)目的該網(wǎng)站的二級(jí)頁面
本發(fā)明的抓取網(wǎng)站數(shù)據(jù)的裝置30的處理器32還可用于:先根據(jù)如下的一種或幾種方式確定各方式對(duì)應(yīng)的得分:使用冗余代碼檢查工具確定該網(wǎng)頁的冗余代碼得分,統(tǒng)計(jì)重復(fù)關(guān)鍵詞得到該網(wǎng)頁的重復(fù)度得分,檢查網(wǎng)頁的引用庫(kù)版本確定該網(wǎng)頁的引用庫(kù)版本得分,使用代碼檢查工具確定該網(wǎng)頁的javascript代碼質(zhì)量得分,使用css代碼靜態(tài)檢查工具確定該網(wǎng)頁的css質(zhì)量得分,統(tǒng)計(jì)html標(biāo)簽中不推薦使用的標(biāo)簽的個(gè)數(shù)得到該網(wǎng)頁的標(biāo)簽得分;然后將所述得分之和作為該網(wǎng)頁的代碼質(zhì)量。
本發(fā)明的抓取網(wǎng)站數(shù)據(jù)的裝置30的處理器32還可用于:根據(jù)如下公式計(jì)算網(wǎng)頁的質(zhì)量平均分:網(wǎng)頁的質(zhì)量平均分=(網(wǎng)站的首頁的代碼質(zhì)量分+網(wǎng)站的二級(jí)頁面的代碼質(zhì)量分)/(1+網(wǎng)站的二級(jí)頁面的數(shù)目);根據(jù)如下公式計(jì)算該網(wǎng)站的抓取概率,網(wǎng)站的抓取概率=(設(shè)定分?jǐn)?shù)范圍的最大值-網(wǎng)頁的質(zhì)量平均分)/設(shè)定分?jǐn)?shù)范圍的最大值。
上述具體實(shí)施方式,并不構(gòu)成對(duì)本發(fā)明保護(hù)范圍的限制。本領(lǐng)域技術(shù)人員應(yīng)該明白的是,取決于設(shè)計(jì)要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)范圍之內(nèi)。