一種網(wǎng)頁收藏方法、裝置及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開一種網(wǎng)頁收藏方法、裝置及系統(tǒng)。所述方法包括:接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息;對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容;對所抓取的網(wǎng)頁內(nèi)容進行保存。應(yīng)用本發(fā)明實施例所提供的技術(shù)方案,可以保證抓取的網(wǎng)頁內(nèi)容的全面性,并且可以提升網(wǎng)頁收藏結(jié)果的有序性,便于用戶進行閱讀。
【專利說明】一種網(wǎng)頁收藏方法、裝置及系統(tǒng)
[0001]本發(fā)明專利申請是申請日為2012年3月31日、申請?zhí)枮?01210092944.7、名稱為“一種網(wǎng)頁收藏方法、裝置及系統(tǒng)”的中國發(fā)明專利申請的分案申請。
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)處理領(lǐng)域,特別是涉及一種網(wǎng)頁收藏方法、裝置及系統(tǒng)。
【背景技術(shù)】
[0003]收藏網(wǎng)頁,是指互聯(lián)網(wǎng)用戶將感興趣的網(wǎng)頁進行保存,以便于隨時能夠重新閱讀相關(guān)信息。
[0004]現(xiàn)有技術(shù)中一種網(wǎng)頁收藏方法是:將用戶瀏覽過的網(wǎng)頁內(nèi)容以快照的形式保存起來。具體的,該方法實現(xiàn)的過程中,根據(jù)用戶所提供的待收藏網(wǎng)頁的超鏈接,定位網(wǎng)頁并對網(wǎng)頁進行快照,將快照保存為網(wǎng)頁收藏信息,用戶還可以進一步對所收藏的網(wǎng)頁標題、簡介和標簽等信息進行編輯。網(wǎng)頁收藏成功后,用戶可以隨時進行查看。
[0005]但是,現(xiàn)有技術(shù)中的網(wǎng)頁收藏方法,在快照的形式顯示網(wǎng)頁收藏內(nèi)容時,也丟失大量的網(wǎng)頁原始信息,很容易導(dǎo)致所述顯示的收藏網(wǎng)頁內(nèi)容失去原有的排版格式,頁面雜亂無章,可讀性差。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是提供一種網(wǎng)頁收藏方法、裝置及系統(tǒng),能夠較為完整的保存網(wǎng)頁收藏頁面內(nèi)容。
[0007]為實現(xiàn)上述目的,本發(fā)明提供了如下方案:
[0008]一種網(wǎng)頁收藏方法,包括:
[0009]接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息;
[0010]對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容;
[0011]對所抓取的網(wǎng)頁內(nèi)容進行保存。
[0012]其中,還包括:
[0013]當檢測到所述用戶所瀏覽的網(wǎng)頁加載完成時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼;
[0014]或者,
[0015]當接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼。
[0016]其中,所述向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼,包括:
[0017]在用戶所瀏覽的網(wǎng)頁中添加內(nèi)嵌框架;
[0018]在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0019]其中,所述抓取所述網(wǎng)頁的內(nèi)容描述信息,包括:[0020]抓取所述網(wǎng)頁的文檔對象模型信息。
[0021]其中,所述對所抓取的網(wǎng)頁內(nèi)容進行保存,包括:
[0022]根據(jù)所述網(wǎng)頁的文檔對象模型信息,將所抓取的網(wǎng)頁內(nèi)容以結(jié)構(gòu)化樣式進行保存。
[0023]其中,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容包括:
[0024]根據(jù)預(yù)設(shè)的規(guī)則對網(wǎng)頁內(nèi)容中包含的不具有收藏意義的內(nèi)容進行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁的內(nèi)容。
[0025]其中,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容包括:
[0026]在網(wǎng)頁內(nèi)容包括圖片的情況下,判斷網(wǎng)頁中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁的圖片內(nèi)容。
[0027]其中,
[0028]在抓取網(wǎng)頁的內(nèi)容描述信息之后,還包括:將所述內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0029]所述服務(wù)器端設(shè)備對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容,并對所抓取的網(wǎng)頁內(nèi)容進行保存。
[0030]一種網(wǎng)頁收藏裝置,包括:
[0031]描述信息抓取單元,用于接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息;
[0032]網(wǎng)頁內(nèi)容抓取單元,用于對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容;
[0033]網(wǎng)頁內(nèi)容保存單元,用于對所抓取的網(wǎng)頁內(nèi)容進行保存。
[0034]其中,還包括:
[0035]代碼注入單元,用于當檢測到所述用戶所瀏覽的網(wǎng)頁加載完成時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼;或者,當接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼。
[0036]其中,所述代碼注入單元,包括:
[0037]框架添加子單元,用于在用戶所瀏覽的網(wǎng)頁中添加內(nèi)嵌框架;
[0038]代碼寫入子單元,用于在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0039]其中,所述描述信息抓取單元,具體用于:
[0040]在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁的文檔對象模型信息。
[0041]其中,所述網(wǎng)頁內(nèi)容保存單元,具體用于:
[0042]根據(jù)所述網(wǎng)頁的文檔對象模型信息,將所抓取的網(wǎng)頁內(nèi)容以結(jié)構(gòu)化樣式進行保存。
[0043]其中,所述網(wǎng)頁內(nèi)容抓取單元,具體用于:
[0044]根據(jù)預(yù)設(shè)的規(guī)則對網(wǎng)頁內(nèi)容中包含的不具有收藏意義的內(nèi)容進行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁的內(nèi)容。
[0045]其中,所述網(wǎng)頁內(nèi)容抓取單元,具體用于:
[0046]在網(wǎng)頁內(nèi)容包括圖片的情況下,判斷網(wǎng)頁中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁的圖片內(nèi)容。
[0047]一種網(wǎng)頁收藏系統(tǒng),包括客戶端設(shè)備和服務(wù)器端設(shè)備;
[0048]所述客戶端設(shè)備,包括:
[0049]描述信息抓取單元,用于接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息;
[0050]描述信息發(fā)送單元,用于將所述網(wǎng)頁內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0051]所述服務(wù)器端設(shè)備,包括:
[0052]描述信息接收單元,用于接收客戶端設(shè)備發(fā)送的網(wǎng)頁內(nèi)容描述信息;
[0053]網(wǎng)頁內(nèi)容抓取單元,用于對所述網(wǎng)頁內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取網(wǎng)頁的內(nèi)容;
[0054]網(wǎng)頁內(nèi)容保存單元,用于對所抓取的網(wǎng)頁內(nèi)容進行保存。
[0055]其中,所述客戶端設(shè)備還包括:
[0056]代碼注入單元,用于當檢測到所述用戶所瀏覽的網(wǎng)頁加載完成時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼;或者,當接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼。
[0057]其中,所述代碼注入單元,包括:
[0058]框架添加子單元,用于在用戶所瀏覽的網(wǎng)頁中添加內(nèi)嵌框架;
[0059]代碼寫入子單元,用于在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0060]其中,所述描述信息抓取單元,具體用于:
[0061]在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁的文檔對象模型信息。
[0062]其中,所述網(wǎng)頁內(nèi)容保存單元,具體用于:
[0063]根據(jù)所述網(wǎng)頁的文檔對象模型信息,將所抓取的網(wǎng)頁內(nèi)容以結(jié)構(gòu)化樣式進行保存。
[0064]其中,所述網(wǎng)頁內(nèi)容抓取單元,具體用于:
[0065]根據(jù)預(yù)設(shè)的規(guī)則對網(wǎng)頁內(nèi)容中包含的不具有收藏意義的內(nèi)容進行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁的內(nèi)容。
[0066]其中,所述網(wǎng)頁內(nèi)容抓取單元,具體用于:
[0067]在網(wǎng)頁內(nèi)容包括圖片的情況下,判斷網(wǎng)頁中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁的圖片內(nèi)容。
[0068]本發(fā)明實施例所提供的技術(shù)方案,由于通過預(yù)先寫入所述網(wǎng)頁的腳本代碼對網(wǎng)頁的描述信息進行抓取,一方面保證了抓取的網(wǎng)頁內(nèi)容的全面性;另一方面,由于網(wǎng)頁的描述信息中攜帶有網(wǎng)頁的樣式信息,因此在保存網(wǎng)頁內(nèi)容時,可以根據(jù)樣式信息對網(wǎng)頁內(nèi)容進行排版,從而提高了網(wǎng)頁收藏結(jié)果的有序性,便于用戶進行閱讀。
【專利附圖】
【附圖說明】
[0069]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0070]圖1為本發(fā)明的網(wǎng)頁收藏方法一種實施例的流程圖;
[0071]圖2為本發(fā)明的網(wǎng)頁收藏方法另一種實施例的流程圖;
[0072]圖3為本發(fā)明的網(wǎng)頁收藏裝置實施例的結(jié)構(gòu)示意圖;
[0073]圖4為本發(fā)明的網(wǎng)頁收藏系統(tǒng)實施例的結(jié)構(gòu)示意圖。
【具體實施方式】
[0074]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0075]首先對本發(fā)明實施例所提供的一種網(wǎng)頁收藏方法進行說明,該方法可以包括以下步驟:
[0076]接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息;
[0077]對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容;
[0078]對所抓取的網(wǎng)頁內(nèi)容進行保存。
[0079]在本發(fā)明的一種實施方式中,上述步驟可以全部在客戶端設(shè)備中實現(xiàn),例如在瀏覽器本身、瀏覽器插件或者專用的網(wǎng)頁收藏軟件中實現(xiàn)。
[0080]在本發(fā)明的一種實施方式中,上述步驟中寫入腳本代碼步驟以及抓取網(wǎng)頁內(nèi)容描述信息的步驟在客戶端設(shè)備中實現(xiàn),客戶端抓取到網(wǎng)頁內(nèi)容描述信息后發(fā)送至服務(wù)器端設(shè)備,由服務(wù)器完成后續(xù)步驟。
[0081]首先,如圖1所示,該網(wǎng)頁收藏方法包括步驟:
[0082]SlOl:接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息;
[0083]在本發(fā)明實施例中,并不是采用服務(wù)器直接抓取網(wǎng)頁頁面內(nèi)容,這是因為:對于一部分網(wǎng)頁,服務(wù)器無法直接抓取,比如某些頁面必須登錄后才能展現(xiàn),如果客戶端沒有登錄,則服務(wù)器端也無法抓取。因此在本發(fā)明實施例中,抓取網(wǎng)頁頁面的內(nèi)容的操作由客戶端完成,例如由瀏覽器等軟件完成。
[0084]根據(jù)本發(fā)明實施例的方案,可以在用戶瀏覽網(wǎng)頁時,在檢測到被瀏覽的網(wǎng)頁加載完畢之后,向用戶所瀏覽的網(wǎng)頁內(nèi)寫入腳本代碼。這段代碼能在網(wǎng)頁指定位置處(例如右偵D顯示一個按鈕(按鈕上可以顯示“我喜歡”等文字),點“我喜歡”按鈕后即可觸發(fā)收藏操作?;蛘?,在另一種實時方式下,可以默認在網(wǎng)頁指定位置處(例如右側(cè))顯示一個按鈕(按鈕上可以顯示“我喜歡”等文字),用戶如果想要收藏當前瀏覽的網(wǎng)頁,就可以點擊該“我喜歡”按鈕,然后執(zhí)行向用戶所瀏覽的網(wǎng)頁內(nèi)寫入腳本代碼的操作,同時相當于用戶觸發(fā)了收藏操作。
[0085]其中,寫入網(wǎng)頁的腳本代碼具有抓取網(wǎng)頁頁面內(nèi)容的功能,由于目前有很多網(wǎng)頁頁面采用JS (JavaScript)技術(shù)開發(fā),因此本發(fā)明實施例中,采向網(wǎng)頁中寫入JS腳本代碼的方式實現(xiàn),既能夠解決用戶登錄后的頁面內(nèi)容抓取問題,又可以保證信息抓取的安全性。[0086]在本發(fā)明的一種改進實施方式中,可以先在用戶所瀏覽的網(wǎng)頁中中添加內(nèi)嵌框架,然后在內(nèi)嵌框架中寫入所述腳本代碼。
[0087]其中內(nèi)嵌框架可以是iframe框架,iframe框架可以隔離腳本代碼和瀏覽器接口。這樣實施的原因在于:因為實際應(yīng)用中,別有用心的用戶如果能夠獲取腳本代碼,就可以操作瀏覽器接口,從而帶來一些安全問題,比如:用戶可以通過利用腳本代碼在瀏覽器中發(fā)起跨域請求,可以操作瀏覽器接口修改瀏覽器配置文件,以及瀏覽器的其他接口功能。為了避免腳本代碼被惡意利用,本發(fā)明實施例中,將腳本代碼寫入內(nèi)嵌框架中,通過內(nèi)嵌框架將腳本代碼與瀏覽器接口相隔離,從而增加安全性。
[0088]向網(wǎng)頁寫入腳本代碼后,可以待頁面加載完畢后,在頁面一側(cè)繪制按鈕或用戶交互面板。以便用戶點擊該按鈕觸發(fā)收藏操作。當然,在本發(fā)明中,用戶發(fā)出收藏操作指令的方式并僅限于點擊按鈕。此外,用戶還可以用過交互面板進行設(shè)置按鈕皮膚、分享配置等操作,這里不再贅述。
[0089]當然,在實際應(yīng)用中,本發(fā)明實施例的方案可以通過一個瀏覽器插件的方式來實現(xiàn),在瀏覽器插件支持的情況下,也可以直接在用戶瀏覽的網(wǎng)頁中注入腳本,而不必采用上述添加內(nèi)嵌框架的方式來實現(xiàn)。
[0090]當接收用戶通過點擊收藏操作按鈕或其他方式發(fā)起收藏操作指令后,利用預(yù)先寫A的腳本代碼,抓取網(wǎng)頁的內(nèi)容描述信息。
[0091]在本發(fā)明中,主要需要抓取的網(wǎng)頁內(nèi)容描述信息包括網(wǎng)頁的DOM (DocumentObject Model,文檔對象模型)信息,在網(wǎng)頁的DOM樹中包含有頁面的布局結(jié)構(gòu)信息,利用這些信息,后續(xù)就可以在保存網(wǎng)頁內(nèi)容時,根據(jù)網(wǎng)頁原有的樣式進行排版,以結(jié)構(gòu)化的形式進行保存。
[0092]本領(lǐng)域技術(shù)人員可以理解,在抓取網(wǎng)頁內(nèi)容描述信息的過程中,除DOM信息之外,還可以進一步抓取網(wǎng)頁的頁面超鏈接、標題等信息。本發(fā)明實施例對此并不需要進行限定。
[0093]S102:對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容;
[0094]通過解析網(wǎng)頁的DOM樹,可以抽取出頁面所包含的文字、圖片等內(nèi)容。其中,所解析出的圖片內(nèi)容是圖片文件所在的源位置,還需要進一步從源位置將實際的圖片文件下載下載到本地。
[0095]在下在圖片文件的過程中,可以首先判斷判斷網(wǎng)頁中的圖片數(shù)量是否大于某個預(yù)設(shè)的閾值(例如10幅、20幅等等),如果否,則直接下載每個圖像文件。而在網(wǎng)頁所包含的圖片數(shù)量比較多時,抓取圖片文件的過程中將會十分費時。為了提高系統(tǒng)性能,可以采用異步方式實現(xiàn)圖片文件的多線程批量下載,所有圖片文件處理完之后在統(tǒng)一歸檔,這樣可以有效降低抓取圖片所需的時間。
[0096]在實際應(yīng)用中,有些網(wǎng)站可能采用了防盜鏈技術(shù),無法直接下載圖片文件。針對這種情況,在本發(fā)明實施例中,在下載圖片文件的請求發(fā)起時,可以在http頭的referer字段中添加上圖片資源所在的網(wǎng)站的源域名。圖片資源所在的網(wǎng)站的服務(wù)器解析該請求時,會認為這個請求是由自身發(fā)起的,從而返回圖片內(nèi)容。
[0097]在抓取圖片內(nèi)容的過程中,還可以首先獲得網(wǎng)頁中圖片的尺寸,對于尺寸過小的圖片,不進行下載。這種抓取圖片的方式,可以篩選出圖片尺寸大于預(yù)設(shè)尺寸閾值的圖片。這是因為網(wǎng)頁中的圖片可能有很多,這其中包括大量的廣告圖片等等不存在收藏意義的內(nèi)容。然而作為網(wǎng)頁主要內(nèi)容的圖片,通常都具有較大的尺寸,因此采用圖片尺寸進行過濾的方式,可以有效減少無用圖片內(nèi)容的抓取,既節(jié)約了系統(tǒng)資源,也提高了收藏結(jié)果的可讀性。
[0098]可以理解的是,處除了利用圖片尺寸進行圖片內(nèi)容過濾之外,還可以采用其他的預(yù)置規(guī)則,例如網(wǎng)址關(guān)鍵字、文件名關(guān)鍵字等方式,對網(wǎng)頁中可能存在的不具有收藏意義的信息進行過濾,從而達到節(jié)約系統(tǒng)資源和提高了收藏結(jié)果的可讀性的目的,本發(fā)明實施例對此并不需要進行限定。
[0099]S103:對所抓取的網(wǎng)頁內(nèi)容進行保存。
[0100]在本步驟中,對S103中所抓取的網(wǎng)頁內(nèi)容進行保存,特別地,根據(jù)網(wǎng)頁的DOM樹信息,可以對抓取的網(wǎng)頁內(nèi)容按照網(wǎng)頁的原始樣式,樣式進行排版,以結(jié)構(gòu)化的形式進行保存。
[0101]進一步地,還可以根據(jù)所保存的內(nèi)容信息生成網(wǎng)頁摘要,以便在收藏列表中展示給用戶,便于用戶進行瀏覽。在具體實施過程中,可以根據(jù)網(wǎng)頁標題信息可以生成摘要的標題、根據(jù)網(wǎng)頁的頁面文字可以生成摘要中的文字部分、根據(jù)頁面圖片信息可以生成摘要中的縮略圖,等等。保存所述摘要信息,用戶就可以在后續(xù)的上網(wǎng)瀏覽過程中,在網(wǎng)頁收藏列表中直接查看收藏過的網(wǎng)頁的摘要信息。
[0102]此外,應(yīng)用本發(fā)明方案,還允許用戶將收藏的網(wǎng)頁分享到其他網(wǎng)站,還可以通過調(diào)用其他網(wǎng)站的接口,將排版好的網(wǎng)頁內(nèi)容信息以及摘要信息發(fā)送到目標網(wǎng)站,從而實現(xiàn)用戶信息的共享,提高用戶體驗。
[0103]上述所提供的網(wǎng)頁收藏方法,通過預(yù)先寫入所述網(wǎng)頁的腳本代碼對網(wǎng)頁的描述信息進行抓取,一方面保證了抓取的網(wǎng)頁內(nèi)容的全面性;另一方面,由于網(wǎng)頁的描述信息中攜帶有網(wǎng)頁的樣式信息,因此在保存網(wǎng)頁內(nèi)容時,可以根據(jù)樣式信息對網(wǎng)頁內(nèi)容進行排版,從而提高了網(wǎng)頁收藏結(jié)果的有序性,便于用戶進行閱讀。
[0104]在上述實施例中,所有網(wǎng)頁收藏步驟都是在客戶端設(shè)備中實現(xiàn),在本發(fā)明的另一種實施方式中,可以由客戶端和服務(wù)器設(shè)備協(xié)作完成網(wǎng)頁收藏操作,參見圖2所示,該方法包括以下步驟:
[0105]S201:客戶端設(shè)備接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息;
[0106]S202:客戶端設(shè)備將所述內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0107]S203:服務(wù)器端設(shè)備對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容;
[0108]S204:服務(wù)器端設(shè)備對所抓取的網(wǎng)頁內(nèi)容進行保存。
[0109]與前一實施例相比:S201與SlOl相同;S203-S204與S102-S103相比,區(qū)別在于執(zhí)行主體由客戶端設(shè)備變?yōu)榉?wù)器端設(shè)備;增加了 S202客戶端設(shè)備將內(nèi)容描述信息描述信息發(fā)送至服務(wù)器端設(shè)備的步驟。
[0110]由于服務(wù)端的分析能力、下載可控性、重新排版等方面要比前端JS腳本高出很多。因此可以這種方式可以有效提升網(wǎng)頁內(nèi)容的抓取質(zhì)量。而且服務(wù)端的存儲空間更為充裕,也更便于用戶之間的信息分享。
[0111]此外,根據(jù)之前的描述,由于服務(wù)端無法直接抓取某些網(wǎng)頁,因此抓取網(wǎng)頁描述信息的步驟仍然由客戶端完成,從而保證抓取的成功率。
[0112]可以理解的是,客戶端設(shè)備在將內(nèi)容描述信息描述信息發(fā)送至服務(wù)器端設(shè)備的過程中,可以采用數(shù)據(jù)壓縮技術(shù),從而進一步提升傳輸效率。
[0113]相應(yīng)于上面的方法實施例,本發(fā)明實施例還提供一種網(wǎng)頁收藏裝置,參見圖3所示,該裝置可以包括:
[0114]描述信息抓取單元301,用于接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息;
[0115]網(wǎng)頁內(nèi)容抓取單元302,用于對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容;
[0116]網(wǎng)頁內(nèi)容保存單元303,用于對所抓取的網(wǎng)頁內(nèi)容進行保存。
[0117]具體實現(xiàn)時,該裝置還可以包括:
[0118]代碼注入單元,用于當檢測到所述用戶所瀏覽的網(wǎng)頁加載完成時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼;或者,當接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼。
[0119]其中,在本發(fā)明的一種實施方式中,所述代碼注入單元,可以包括:
[0120]框架添加子單元,用于在用戶所瀏覽的網(wǎng)頁中中添加內(nèi)嵌框架;
[0121]代碼寫入子單元,用于在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0122]其中,所述描述信息抓取單元301,可以具體用于:
[0123]在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁的文檔對象模型信息。
[0124]網(wǎng)頁內(nèi)容保存單元303,可以具體用于:
[0125]根據(jù)所述網(wǎng)頁的文檔對象模型信息,將所抓取的網(wǎng)頁內(nèi)容以結(jié)構(gòu)化樣式進行保存。
[0126]在本發(fā)明的一種實施方式中,所述網(wǎng)頁內(nèi)容抓取單元302,可以具體用于:
[0127]根據(jù)預(yù)設(shè)的規(guī)則對網(wǎng)頁內(nèi)容中包含的不具有收藏意義的內(nèi)容進行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁的內(nèi)容。
[0128]在本發(fā)明的另一種實施方式中,所述網(wǎng)頁內(nèi)容抓取單元302,還可以具體用于:
[0129]在網(wǎng)頁內(nèi)容包括圖片的情況下,判斷網(wǎng)頁中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁的圖片內(nèi)容。
[0130]以上提供的網(wǎng)頁收藏裝置,可以是位于客戶端的功能模塊,該模塊可以是瀏覽器本身、瀏覽器插件或者專用的網(wǎng)頁收藏軟件等等。
[0131]相應(yīng)與上述在客戶端實現(xiàn)全部收藏操作的方案,本發(fā)明實施例還提供一種網(wǎng)頁收藏系統(tǒng),參見圖4所示,該系統(tǒng)包括客戶端設(shè)備401和服務(wù)器端設(shè)備402 ;
[0132]所述客戶端設(shè)備401,包括:
[0133]描述信息抓取單元4011,用于在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息;
[0134]描述信息發(fā)送單元4012,用于將所述網(wǎng)頁內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0135]所述服務(wù)器端設(shè)備402,包括:
[0136]描述信息接收單元4021,用于接收客戶端設(shè)備發(fā)送的網(wǎng)頁內(nèi)容描述信息;[0137]網(wǎng)頁內(nèi)容抓取單元4022,用于對所述網(wǎng)頁內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取網(wǎng)頁的內(nèi)容;
[0138]網(wǎng)頁內(nèi)容保存單元4023,用于對所抓取的網(wǎng)頁內(nèi)容進行保存。
[0139]由于服務(wù)端的分析能力、下載可控性、重新排版等方面要比前端JS腳本高出很多。因此本發(fā)明實施例所提供的網(wǎng)頁收藏系統(tǒng)可以有效提升網(wǎng)頁內(nèi)容的抓取質(zhì)量。而且服務(wù)端的存儲空間更為充裕,也更便于用戶之間的信息分享。
[0140]此外,根據(jù)之前的描述,由于服務(wù)端無法直接抓取某些網(wǎng)頁,因此抓取網(wǎng)頁描述信息的步驟仍然由客戶端完成,從而保證抓取的成功率。
[0141]具體實現(xiàn)時,客戶端設(shè)備401還可以包括:
[0142]代碼注入單元,用于當檢測到所述用戶所瀏覽的網(wǎng)頁加載完成時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼;或者,當接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼。
[0143]在本發(fā)明的一種實施方式中,所述代碼注入單元可以包括:
[0144]框架添加子單元,用于在用戶所瀏覽的網(wǎng)頁中中添加內(nèi)嵌框架;
[0145]代碼寫入子單元,用于在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0146]在本發(fā)明的一種實施方式中,所述描述信息抓取單兀4011,可以具體用于:
[0147]在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁的文檔對象模型信息。
[0148]在本發(fā)明的一種實施方式中,所述網(wǎng)頁內(nèi)容保存單元4023,可以具體用于:
[0149]根據(jù)所述網(wǎng)頁的文檔對象模型信息,將所抓取的網(wǎng)頁內(nèi)容以結(jié)構(gòu)化樣式進行保存。
[0150]在本發(fā)明的一種實施方式中,所述網(wǎng)頁內(nèi)容抓取單元4022,可以具體用于:
[0151]根據(jù)預(yù)設(shè)的規(guī)則對網(wǎng)頁內(nèi)容中包含的不具有收藏意義的內(nèi)容進行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁的內(nèi)容。
[0152]在本發(fā)明的一種實施方式中,所述網(wǎng)頁內(nèi)容抓取單元4022,還可以具體用于:
[0153]在網(wǎng)頁內(nèi)容包括圖片的情況下,判斷網(wǎng)頁中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁的圖片內(nèi)容。
[0154]通過以上的實施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例或者實施例的某些部分所述的方法。
[0155]本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置或系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。以上所描述的裝置及系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。
[0156]以上對本發(fā)明所提供的一種網(wǎng)頁收藏方法、裝置及系統(tǒng),進行了詳細介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
[0157]本發(fā)明實施例公開了 Al 一種網(wǎng)頁收藏方法,包括:
[0158]接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息;
[0159]對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容;
[0160]對所抓取的網(wǎng)頁內(nèi)容進行保存。
[0161]A2、根據(jù)Al所述的方法,還包括:
[0162]當檢測到所述用戶所瀏覽的網(wǎng)頁加載完成時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼;
[0163]或者,
[0164]當接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼。
[0165]A3、根據(jù)A2所述的方法,所述向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼,包括:
[0166]在用戶所瀏覽的網(wǎng)頁中添加內(nèi)嵌框架;
[0167]在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0168]A4、根據(jù)Al所述的方法,所述抓取所述網(wǎng)頁的內(nèi)容描述信息,包括:
[0169]抓取所述網(wǎng)頁的文檔對象模型信息。
[0170]A5、根據(jù)Al所述的方法,所述對所抓取的網(wǎng)頁內(nèi)容進行保存,包括:
[0171]根據(jù)所述網(wǎng)頁的文檔對象模型信息,將所抓取的網(wǎng)頁內(nèi)容以結(jié)構(gòu)化樣式進行保存。
[0172]A6、根據(jù)Al所述的方法,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容包括:
[0173]根據(jù)預(yù)設(shè)的規(guī)則對網(wǎng)頁內(nèi)容中包含的不具有收藏意義的內(nèi)容進行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁的內(nèi)容。
[0174]A7、根據(jù)Al所述的方法,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容包括:
[0175]在網(wǎng)頁內(nèi)容包括圖片的情況下,判斷網(wǎng)頁中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁的圖片內(nèi)容。
[0176]A8、根據(jù)A1-A7任一項所述的方法,
[0177]在抓取網(wǎng)頁的內(nèi)容描述信息之后,還包括:將所述內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0178]所述服務(wù)器端設(shè)備對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容,并對所抓取的網(wǎng)頁內(nèi)容進行保存。
[0179]B9、一種網(wǎng)頁收藏裝置,包括:[0180]描述信息抓取單元,用于接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息;
[0181]網(wǎng)頁內(nèi)容抓取單元,用于對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容;
[0182]網(wǎng)頁內(nèi)容保存單元,用于對所抓取的網(wǎng)頁內(nèi)容進行保存。
[0183]B10、根據(jù)B9所述的裝置,還包括:
[0184]代碼注入單元,用于當檢測到所述用戶所瀏覽的網(wǎng)頁加載完成時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼;或者,當接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼。
[0185]B11、根據(jù)BlO所述的裝置,所述代碼注入單元,包括:
[0186]框架添加子單元,用于在用戶所瀏覽的網(wǎng)頁中添加內(nèi)嵌框架;
[0187]代碼寫入子單元,用于在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0188]B12、根據(jù)B9所述的裝置,所述描述信息抓取單元,具體用于:
[0189]在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁的文檔對象模型信息。
[0190]B13、根據(jù)B9所述的裝置,所述網(wǎng)頁內(nèi)容保存單元,具體用于:
[0191]根據(jù)所述網(wǎng)頁的文檔對象模型信息,將所抓取的網(wǎng)頁內(nèi)容以結(jié)構(gòu)化樣式進行保存。
[0192]B14、根據(jù)B9所述的裝置,所述網(wǎng)頁內(nèi)容抓取單元,具體用于:
[0193]根據(jù)預(yù)設(shè)的規(guī)則對網(wǎng)頁內(nèi)容中包含的不具有收藏意義的內(nèi)容進行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁的內(nèi)容。
[0194]B15、根據(jù)B9所述的裝置,所述網(wǎng)頁內(nèi)容抓取單元,具體用于:
[0195]在網(wǎng)頁內(nèi)容包括圖片的情況下,判斷網(wǎng)頁中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁的圖片內(nèi)容。
[0196]C16、一種網(wǎng)頁收藏系統(tǒng),包括客戶端設(shè)備和服務(wù)器端設(shè)備;
[0197]所述客戶端設(shè)備,包括:
[0198]描述信息抓取單元,用于接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息;
[0199]描述信息發(fā)送單元,用于將所述網(wǎng)頁內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備;
[0200]所述服務(wù)器端設(shè)備,包括:
[0201]描述信息接收單元,用于接收客戶端設(shè)備發(fā)送的網(wǎng)頁內(nèi)容描述信息;
[0202]網(wǎng)頁內(nèi)容抓取單元,用于對所述網(wǎng)頁內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取網(wǎng)頁的內(nèi)容;
[0203]網(wǎng)頁內(nèi)容保存單元,用于對所抓取的網(wǎng)頁內(nèi)容進行保存。
[0204]C17、根據(jù)C16所述的系統(tǒng),所述客戶端設(shè)備還包括:
[0205]代碼注入單元,用于當檢測到所述用戶所瀏覽的網(wǎng)頁加載完成時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼;或者,當接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼。
[0206]C18、根據(jù)C17所述的系統(tǒng),所述代碼注入單元,包括:[0207]框架添加子單元,用于在用戶所瀏覽的網(wǎng)頁中添加內(nèi)嵌框架;
[0208]代碼寫入子單元,用于在所述內(nèi)嵌框架中寫入所述腳本代碼。
[0209]C19、根據(jù)C16所述的系統(tǒng),所述描述信息抓取單元,具體用于:
[0210]在接收到用戶的收藏操作指令后,利用預(yù)先寫入的腳本代碼,抓取所述網(wǎng)頁的文檔對象模型信息。
[0211]C20、根據(jù)C16所述的系統(tǒng),所述網(wǎng)頁內(nèi)容保存單元,具體用于:
[0212]根據(jù)所述網(wǎng)頁的文檔對象模型信息,將所抓取的網(wǎng)頁內(nèi)容以結(jié)構(gòu)化樣式進行保存。
[0213]C21、根據(jù)C16所述的系統(tǒng),所述網(wǎng)頁內(nèi)容抓取單元,具體用于:
[0214]根據(jù)預(yù)設(shè)的規(guī)則對網(wǎng)頁內(nèi)容中包含的不具有收藏意義的內(nèi)容進行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁的內(nèi)容。
[0215]C22、根據(jù)C16所述的系統(tǒng),所述網(wǎng)頁內(nèi)容抓取單元,具體用于:
[0216]在網(wǎng)頁內(nèi)容包括圖片的情況下,判斷網(wǎng)頁中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁的圖片內(nèi)容。
【權(quán)利要求】
1.一種網(wǎng)頁收藏方法,其特征在于,包括: 接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息; 對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容; 對所抓取的網(wǎng)頁內(nèi)容進行保存。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 當檢測到所述用戶所瀏覽的網(wǎng)頁加載完成時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼; 或者, 當接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令時,向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述向用戶所瀏覽的網(wǎng)頁中寫入用于抓取網(wǎng)頁內(nèi)容的腳本代碼,包括: 在用戶所瀏覽的網(wǎng)頁中添加內(nèi)嵌框架; 在所述內(nèi)嵌框架中寫入所述腳本代碼。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述抓取所述網(wǎng)頁的內(nèi)容描述信息,包括: 抓取所述網(wǎng)頁的文檔對象模型信息。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所抓取的網(wǎng)頁內(nèi)容進行保存,包括: 根據(jù)所述網(wǎng)頁的文檔對象模型信息,將所抓取的網(wǎng)頁內(nèi)容以結(jié)構(gòu)化樣式進行保存。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容包括: 根據(jù)預(yù)設(shè)的規(guī)則對網(wǎng)頁內(nèi)容中包含的不具有收藏意義的內(nèi)容進行過濾,根據(jù)過濾結(jié)果抓取所述網(wǎng)頁的內(nèi)容。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容包括: 在網(wǎng)頁內(nèi)容包括圖片的情況下,判斷網(wǎng)頁中的圖片數(shù)量是否大于預(yù)設(shè)的閾值,如果是,則采用異步方式下載所述網(wǎng)頁的圖片內(nèi)容。
8.根據(jù)權(quán)利要求1-7任一項所述的方法,其特征在于, 在抓取網(wǎng)頁的內(nèi)容描述信息之后,還包括:將所述內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備; 所述服務(wù)器端設(shè)備對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容,并對所抓取的網(wǎng)頁內(nèi)容進行保存。
9.一種網(wǎng)頁收藏裝置,其特征在于,包括: 描述信息抓取單元,用于接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息; 網(wǎng)頁內(nèi)容抓取單元,用于對所述內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取所述網(wǎng)頁的內(nèi)容;網(wǎng)頁內(nèi)容保存單元,用于對所抓取的網(wǎng)頁內(nèi)容進行保存。
10.一種網(wǎng)頁收藏系統(tǒng),其特征在于,包括客戶端設(shè)備和服務(wù)器端設(shè)備; 所述客戶端設(shè)備,包括: 描述信息抓取單元,用于接收到用戶對所瀏覽的網(wǎng)頁執(zhí)行的收藏操作指令后,利用寫入所述網(wǎng)頁的用于抓取網(wǎng)頁內(nèi)容的腳本代碼,抓取所述網(wǎng)頁的內(nèi)容描述信息; 描述信息發(fā)送單元,用于將所述網(wǎng)頁內(nèi)容描述信息發(fā)送至服務(wù)器端設(shè)備; 所述服務(wù)器端設(shè)備,包括: 描述信息接收單元,用于接收客戶端設(shè)備發(fā)送的網(wǎng)頁內(nèi)容描述信息; 網(wǎng)頁內(nèi)容抓取單元,用于對所述網(wǎng)頁內(nèi)容描述信息進行解析,根據(jù)解析結(jié)果抓取網(wǎng)頁的內(nèi)容; 網(wǎng)頁內(nèi)容保存單元,用 于對所抓取的網(wǎng)頁內(nèi)容進行保存。
【文檔編號】G06F17/30GK103617224SQ201310603186
【公開日】2014年3月5日 申請日期:2012年3月31日 優(yōu)先權(quán)日:2012年3月31日
【發(fā)明者】曾強, 張平, 魏欽剛 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司