抓取目標(biāo)圖片的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種抓取目標(biāo)圖片的方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們已經(jīng)習(xí)慣于通過(guò)互聯(lián)網(wǎng)獲取想要查找的信息,這些信息不僅包括文本信息,還包括圖片,圖片信息為用戶直觀地描述了用戶所關(guān)注對(duì)象的特征,這在一些平臺(tái)類(lèi)型的網(wǎng)站十分常見(jiàn)。例如,電子商務(wù)平臺(tái)不僅通過(guò)文字,還通過(guò)圖片對(duì)商品進(jìn)行描述,從而使用戶在瀏覽文本信息與圖片信息后做出進(jìn)一步的決策。為了滿足用戶瀏覽到圖片信息的需求,網(wǎng)頁(yè)內(nèi)容提供方需要提供相應(yīng)的圖片。網(wǎng)頁(yè)內(nèi)容提供方可以在本地網(wǎng)站服務(wù)器存儲(chǔ)圖片信息,也可以從其他站點(diǎn)資源抓取圖片存儲(chǔ)至本地服務(wù)器,再向用戶展示相應(yīng)的圖片信息。在實(shí)際應(yīng)用中,通過(guò)從其他站點(diǎn)資源抓取圖片是網(wǎng)頁(yè)內(nèi)容提供方向用戶提供展示圖片的一種常用手段。
[0003]但是,目前從其他站點(diǎn)資源抓取圖片的現(xiàn)有技術(shù)存在系統(tǒng)資源浪費(fèi)的問(wèn)題,這主要表現(xiàn)為網(wǎng)絡(luò)資源和存儲(chǔ)資源的浪費(fèi)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明解決的技術(shù)問(wèn)題是在從其他站點(diǎn)資源抓取圖片時(shí),節(jié)省抓取圖片的系統(tǒng)資源。
[0005]為解決上述問(wèn)題,本發(fā)明提供一種抓取目標(biāo)圖片的方法,包括:
[0006]當(dāng)用戶在客戶端打開(kāi)圖片顯示頁(yè)訪問(wèn)本地目標(biāo)圖片時(shí),若根據(jù)所述目標(biāo)圖片的加載鏈接包含的本地圖片路徑無(wú)法加載所述目標(biāo)圖片,則獲取錯(cuò)誤資源參數(shù);
[0007]參照所述錯(cuò)誤資源參數(shù)從圖片源地址表中獲得所述目標(biāo)圖片的源地址;其中,所述圖片源地址表存儲(chǔ)了所述錯(cuò)誤資源參數(shù)以及對(duì)應(yīng)的所述目標(biāo)圖片的源地址;
[0008]根據(jù)所述目標(biāo)圖片的源地址從目標(biāo)站點(diǎn)服務(wù)器下載所述目標(biāo)圖片,并按所述本地圖片路徑存儲(chǔ)當(dāng)前下載的目標(biāo)圖片。
[0009]可選地,所述獲取錯(cuò)誤資源參數(shù),包括:
[0010]配置所述目標(biāo)圖片的http404錯(cuò)誤頁(yè)信息以獲取所述錯(cuò)誤資源參數(shù)。
[0011 ]可選地,所述圖片源地址表通過(guò)以下方式獲得:
[0012]從目標(biāo)站點(diǎn)服務(wù)器返回的頁(yè)面信息中提取所述目標(biāo)圖片的源地址;
[0013]預(yù)設(shè)所述目標(biāo)圖片的本地圖片路徑;
[0014]建立所述錯(cuò)誤資源參數(shù),以及所述錯(cuò)誤資源參數(shù)與所述目標(biāo)圖片的源地址的對(duì)應(yīng)關(guān)系,形成所述圖片源地址表。
[0015]可選地,所述錯(cuò)誤資源參數(shù)包括所述目標(biāo)圖片的標(biāo)識(shí)碼。
[0016]可選地,所述參照所述錯(cuò)誤資源參數(shù)從圖片源地址表中獲得所述目標(biāo)圖片的源地址,包括:
[0017]根據(jù)所述目標(biāo)圖片的標(biāo)識(shí)碼從所述圖片源地址表中查找對(duì)應(yīng)的所述目標(biāo)圖片的源地址。
[0018]本發(fā)明實(shí)施例還提供一種抓取目標(biāo)圖片的裝置,包括:
[0019]錯(cuò)誤資源參數(shù)獲取單元,適于當(dāng)用戶在客戶端打開(kāi)圖片顯示頁(yè)訪問(wèn)本地目標(biāo)圖片時(shí),若根據(jù)所述目標(biāo)圖片的加載鏈接包含的本地圖片路徑無(wú)法加載所述目標(biāo)圖片,則獲取錯(cuò)誤資源參數(shù);
[0020]源地址獲取單元,適于參照所述錯(cuò)誤資源參數(shù)從圖片源地址表中獲得所述目標(biāo)圖片的源地址;其中,所述圖片源地址表存儲(chǔ)了所述錯(cuò)誤資源參數(shù)以及對(duì)應(yīng)的所述目標(biāo)圖片的源地址;
[0021 ]目標(biāo)圖片下載單元,適于根據(jù)所述目標(biāo)圖片的源地址從目標(biāo)站點(diǎn)服務(wù)器下載所述目標(biāo)圖片,并按所述本地圖片路徑存儲(chǔ)當(dāng)前下載的目標(biāo)圖片。
[0022]可選地,所述錯(cuò)誤資源參數(shù)獲取單元,適于當(dāng)用戶在客戶端打開(kāi)圖片顯示頁(yè)訪問(wèn)本地目標(biāo)圖片時(shí),若根據(jù)所述目標(biāo)圖片的加載鏈接包含的本地圖片路徑無(wú)法加載所述目標(biāo)圖片,配置所述目標(biāo)圖片的http 404錯(cuò)誤頁(yè)信息以獲取錯(cuò)誤資源參數(shù)。
[0023]可選地,所述圖片源地址表通過(guò)以下單元獲得:
[0024]源地址解析單元,適于從目標(biāo)站點(diǎn)服務(wù)器返回的頁(yè)面信息中提取所述目標(biāo)圖片的源地址;
[0025]圖片路徑預(yù)設(shè)單元,適于預(yù)設(shè)所述目標(biāo)圖片的本地圖片路徑;
[0026]所述圖片源地址表形成單元,適于建立所述錯(cuò)誤資源參數(shù),以及所述錯(cuò)誤資源參數(shù)與所述目標(biāo)圖片的源地址的對(duì)應(yīng)關(guān)系,形成所述圖片源地址表。
[0027]可選地,所述錯(cuò)誤資源參數(shù)包括所述目標(biāo)圖片的標(biāo)識(shí)碼。
[0028]可選地,所述源地址獲取單元,適于根據(jù)所述目標(biāo)圖片的標(biāo)識(shí)碼從所述圖片源地址表中查找對(duì)應(yīng)的所述目標(biāo)圖片的源地址。
[0029]與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例的技術(shù)方案具有以下有益效果:
[0030]本發(fā)明實(shí)施例的技術(shù)方案通過(guò)在用戶訪問(wèn)目標(biāo)圖片時(shí),如果根據(jù)圖片加載鏈接中包含的圖片路徑加載圖片失敗,則獲取錯(cuò)誤資源參數(shù),參照所述錯(cuò)誤資源參數(shù)從圖片源地址表中獲得所述目標(biāo)圖片的源地址,其中,所述錯(cuò)誤資源參數(shù)與所述目標(biāo)圖片的源地址存在對(duì)應(yīng)關(guān)系并存儲(chǔ)于圖片源地址表中,再根據(jù)所述源地址從目標(biāo)站點(diǎn)服務(wù)器下載所述目標(biāo)圖片。由于本技術(shù)方案是在用戶訪問(wèn)目標(biāo)圖片時(shí)才通過(guò)已獲取的源地址從目標(biāo)站點(diǎn)服務(wù)器下載所述目標(biāo)圖片,避免了不必要的抓取下載和重復(fù)抓取下載,從而可以節(jié)省網(wǎng)絡(luò)資源和存儲(chǔ)資源。
【附圖說(shuō)明】
[0031]圖1是本發(fā)明實(shí)施例中的一種抓取目標(biāo)圖片的方法的流程圖;
[0032]圖2是一種使用本發(fā)明實(shí)施例中的抓取目標(biāo)圖片的方法向客戶端加載目標(biāo)圖片的流程圖;
[0033]圖3是本發(fā)明實(shí)施例中的一種抓取目標(biāo)圖片的裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0034]如【背景技術(shù)】所言,目前從其他站點(diǎn)資源抓取圖片的現(xiàn)有技術(shù)存在系統(tǒng)資源浪費(fèi)的問(wèn)題,這主要表現(xiàn)為網(wǎng)絡(luò)資源和存儲(chǔ)資源的浪費(fèi)。
[0035]本申請(qǐng)的發(fā)明人經(jīng)研究發(fā)現(xiàn),一方面,在先抓取圖片后又抓取文本信息,或僅需要抓取圖片時(shí),往往存在圖片不必要抓取以及圖片被重復(fù)抓取的問(wèn)題。例如,系統(tǒng)抓取1000張商品圖片,但僅僅有較小比例的商品圖片被用戶點(diǎn)擊瀏覽,這樣其余沒(méi)有被抓取的圖片實(shí)際上是沒(méi)有必要抓取的,從而使得1000張圖片中大部分圖片的抓取浪費(fèi)了資源,同時(shí),系統(tǒng)抓取的1000張商品圖片中還存在圖片被重復(fù)抓取的情況。另一方面,如果先抓取信息后抓取圖片時(shí)可以避免圖片被重復(fù)抓取,但仍然存在上述圖片不必要抓取的問(wèn)題。
[0036]本發(fā)明實(shí)施例的技術(shù)方案通過(guò)在用戶訪問(wèn)目標(biāo)圖片時(shí),若根據(jù)圖片加載鏈接中包含的圖片路徑加載圖片失敗,則獲取錯(cuò)誤資源參數(shù),參照所述錯(cuò)誤資源參數(shù)從圖片源地址表中獲得所述目標(biāo)圖片的源地址,其中,所述錯(cuò)誤資源參數(shù)及與之對(duì)應(yīng)的所述目標(biāo)圖片的源地址存儲(chǔ)于圖片源地址表中,再根據(jù)所述源地址從目標(biāo)站點(diǎn)服務(wù)器下載所述目標(biāo)圖片,從而避免不必要的抓取和重復(fù)抓取,進(jìn)而能節(jié)省資源。
[0037]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更為明顯易懂,下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施例做詳細(xì)的說(shuō)明。
[0038]圖1是本發(fā)明實(shí)施例中的一種抓取目標(biāo)圖片的方法的流程圖。參照?qǐng)D1,所述抓取目標(biāo)圖片的方法包括以下步驟:
[0039]步驟S101:當(dāng)用戶在客戶端打開(kāi)圖片顯示頁(yè)訪問(wèn)本地目標(biāo)圖片時(shí),若根據(jù)所述目標(biāo)圖片的加載鏈接包含的本地圖片路徑無(wú)法加載所述目標(biāo)圖片,則獲取錯(cuò)誤資源參數(shù)。
[0040]一般來(lái)說(shuō),為了能讓客戶端打開(kāi)的某個(gè)頁(yè)面顯示圖片,需在本地?cái)?shù)據(jù)庫(kù)中存儲(chǔ)該圖片,該圖片的加載鏈接中包含了該圖片的存儲(chǔ)路徑信息。
[0041]在具體實(shí)施中,訪問(wèn)目標(biāo)圖片是指打開(kāi)的某個(gè)頁(yè)面需要加載所述目標(biāo)圖片,圖片的加載鏈接中包含了所述目標(biāo)圖片的本地圖片路徑,此時(shí)如果按照所述本地圖片路徑加載圖片出錯(cuò),說(shuō)明在所述路徑下不存在所述目標(biāo)圖片,則配置加載出錯(cuò)的所述目標(biāo)圖片的錯(cuò)誤頁(yè)信息以獲取錯(cuò)誤資源參數(shù)。
[0042]在具體實(shí)施中,所述獲取錯(cuò)誤資源參數(shù)可