對網(wǎng)頁提供可視化標注的方法及裝置制造方法
【專利摘要】本發(fā)明公開一種對網(wǎng)頁提供可視化標注的方法及裝置,屬于互聯(lián)網(wǎng)【技術(shù)領域】。所述方法包括:構(gòu)建通過位于網(wǎng)頁內(nèi)容區(qū)域上方的蒙版對網(wǎng)頁進行標注的可視化效果框架;獲取在所述蒙版上對網(wǎng)頁各部分內(nèi)容區(qū)域進行標注的指示。本發(fā)明能夠提高對網(wǎng)頁進行標注的效率和準確性。
【專利說明】對網(wǎng)頁提供可視化標注的方法及裝置
【技術(shù)領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領域】,具體涉及一種對網(wǎng)頁提供可視化標注的方法及裝置。
【背景技術(shù)】
[0002]網(wǎng)頁模板可以用于抽取網(wǎng)頁的內(nèi)容,比如有的搜索引擎在抓取網(wǎng)站時使用了定向采集技術(shù),定向采集的蜘蛛使用網(wǎng)頁模板把網(wǎng)站的相關(guān)內(nèi)容抽取出來,獲得格式化的內(nèi)容,包括網(wǎng)頁的標題、作者、發(fā)表時間和正文等信息。
[0003]現(xiàn)有的一種生成網(wǎng)頁模板的方法為:首先,根據(jù)頁面的URL(Uniform ResourceLocator,統(tǒng)一資源定位符),下載頁面的源代碼;其次,根據(jù)頁面的源代碼對頁面結(jié)構(gòu)進行自動分析,計算出頁面中各結(jié)構(gòu)的哈希值;然后,根據(jù)頁面的源代碼人工判斷頁面中哪些結(jié)構(gòu)對應標題,哪些結(jié)構(gòu)對應正文,哪些結(jié)構(gòu)對應發(fā)表時間等,并進行標記;最后,生成結(jié)構(gòu)的哈希值與結(jié)構(gòu)的內(nèi)容類型的對應關(guān)系,得到網(wǎng)頁模板。
[0004]現(xiàn)有的生成網(wǎng)頁模板方法至少存在如下缺點:
[0005]人工標記頁面結(jié)構(gòu)的內(nèi)容類型是通過文本編輯進行的,網(wǎng)頁模板里面有大量的不相關(guān)的內(nèi)容,有的網(wǎng)頁模板甚至有好幾萬行,導致人工標記的效率非常低;
[0006]網(wǎng)頁模板中的各種內(nèi)容夾雜在網(wǎng)頁代碼中,由于網(wǎng)頁內(nèi)容沒有直觀的呈現(xiàn)出來,如果對網(wǎng)頁設計語言不熟,則不容易確定頁面結(jié)構(gòu)的內(nèi)容類型,人工標記時就容易出錯,導致生成的網(wǎng)頁模板的準確性不高,進而導致根據(jù)該網(wǎng)頁模板進行內(nèi)容抽取的準確性也不聞。
【發(fā)明內(nèi)容】
[0007]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的對網(wǎng)頁提供可視化標注的方法及裝置。
[0008]依據(jù)本發(fā)明的一個方面,提供了一種對網(wǎng)頁提供可視化標注的方法,所述方法包括:
[0009]構(gòu)建通過位于網(wǎng)頁內(nèi)容區(qū)域上方的蒙版對網(wǎng)頁進行標注的可視化效果框架;
[0010]獲取在所述蒙版上對網(wǎng)頁各部分內(nèi)容區(qū)域進行標注的指示。
[0011]可選地,所述可視化效果框架包括內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標注菜單,所述標注菜單包括多種內(nèi)容類型菜單項,所述指示為通過標注菜單選擇的對應于選中的內(nèi)容區(qū)域的內(nèi)容類型。
[0012]可選地,在構(gòu)建對網(wǎng)頁進行標注的可視化效果框架之前,所述方法還包括:
[0013]獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹;
[0014]獲取所述DOM樹中各節(jié)點對應的標簽的哈希值;
[0015]為所述網(wǎng)頁的各標簽添加哈希值屬性,其中,所述哈希值用于定位和標識網(wǎng)頁中的內(nèi)容區(qū)域。[0016]可選地,所述哈希值包括:標簽在所述DOM樹中的層級哈希值和標簽自身的哈希值。
[0017]可選地,所述獲取所述DOM樹中各節(jié)點對應的標簽的哈希值,包括:
[0018]為所述網(wǎng)頁的各標簽添加索引屬性;
[0019]將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務端,以供服務端進行標簽的哈希值計算;
[0020]接收服務端發(fā)送的標簽索引值與哈希值的對應關(guān)系。
[0021]根據(jù)本發(fā)明的另一方面,提供了一種對網(wǎng)頁提供可視化標注的裝置,所述裝置包括:
[0022]可視化效果框架構(gòu)建器,適于構(gòu)建通過位于網(wǎng)頁內(nèi)容區(qū)域上方的蒙版對網(wǎng)頁進行標注的可視化效果框架;
[0023]標注指示獲取器,適于獲取在所述蒙版上對網(wǎng)頁各部分內(nèi)容區(qū)域進行標注的指
/Jn ο
[0024]可選地,所述可視化效果框架包括內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標注菜單,所述標注菜單包括多種內(nèi)容類型菜單項,所述指示為通過標注菜單選擇的對應于選中的內(nèi)容區(qū)域的內(nèi)容類型。
[0025]可選地,所述裝置還包括:
[0026]DOM樹生成器,適于獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹;
[0027]哈希值獲取器,適于獲取所述DOM樹中各節(jié)點對應的標簽的哈希值;
[0028]哈希值屬性添加器,適于為所述網(wǎng)頁的各標簽添加哈希值屬性,其中,所述哈希值用于定位和標識網(wǎng)頁中的內(nèi)容區(qū)域。
[0029]可選地,所述哈希值包括:標簽在所述DOM樹中的層級哈希值和標簽自身的哈希值。
[0030]可選地,所述哈希值獲取器進一步適于:
[0031]為所述網(wǎng)頁的各標簽添加索引屬性;
[0032]將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務端,以供服務端進行標簽的哈希值計算;
[0033]接收服務端發(fā)送的標簽索引值與哈希值的對應關(guān)系。
[0034]根據(jù)本發(fā)明上述的一個或多個技術(shù)方案,通過構(gòu)建可視化效果框架,可以對網(wǎng)頁進行可視化標注,提高了標注的效率;而且,由于網(wǎng)頁內(nèi)容被直觀的呈現(xiàn)出來,很容易確定頁面結(jié)構(gòu)的內(nèi)容類型,提高了標注的準確性。
[0035]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【專利附圖】
【附圖說明】
[0036]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:[0037]圖1示出了根據(jù)本發(fā)明一個實施例的生成網(wǎng)頁模板的方法流程圖;
[0038]圖2示出了本發(fā)明實施例中對網(wǎng)頁的標題進行標注的示意圖;
[0039]圖3示出了本發(fā)明實施例中對網(wǎng)頁的正文進行標注的示意圖;
[0040]圖4示出了根據(jù)本發(fā)明一個實施例的生成網(wǎng)頁模板的方法詳細流程圖;
[0041]圖5示出了根據(jù)本發(fā)明一個實施例的生成網(wǎng)頁模板的裝置結(jié)構(gòu)圖;
[0042]圖6示出了根據(jù)本發(fā)明一個實施例的對網(wǎng)頁提供可視化標注的方法流程圖;
[0043]圖7示出了根據(jù)本發(fā)明一個實施例的對網(wǎng)頁提供可視化標注的裝置結(jié)構(gòu)圖;
[0044]圖8示出了根據(jù)本發(fā)明一個實施例的根據(jù)可視化模板進行網(wǎng)頁內(nèi)容抽取的方法流程圖;
[0045]圖9示出了根據(jù)本發(fā)明一個實施例的根據(jù)可視化模板進行網(wǎng)頁內(nèi)容抽取的裝置結(jié)構(gòu)圖;
[0046]圖10示出了根據(jù)本發(fā)明一個實施例的根據(jù)可視化模板進行網(wǎng)頁內(nèi)容抽取的系統(tǒng)結(jié)構(gòu)圖。
【具體實施方式】
[0047]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領域的技術(shù)人員。
[0048]實施例1
[0049]本實施例提供一種生成網(wǎng)頁模板的方法及裝置
[0050]圖1示出了根據(jù)本發(fā)明一個實施例的生成網(wǎng)頁模板的方法流程圖,參照圖1,所述方法包括:
[0051]步驟102,構(gòu)建對網(wǎng)頁進行標注的可視化效果框架;
[0052]在一種實現(xiàn)方式中,所述可視化效果框架可以包括:內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標注菜單,所述標注菜單包括多種內(nèi)容類型菜單項。
[0053]通過獲取網(wǎng)頁的源代碼例如html (hypertext mark-up language,超文本標記語言)文檔,將樣式表文件例如CSS (cascading style sheets,層疊樣式表)文件附加到html文檔,并在html文檔中增加js (javascript)腳本,可以構(gòu)建網(wǎng)頁的可視化效果框架。具體地,通過js腳本可以實現(xiàn)當檢測到某個內(nèi)容區(qū)域被選中時,在選中的內(nèi)容區(qū)域上方出現(xiàn)蒙版和標注菜單,所述蒙版和標注菜單的顯示方式可以由樣式表文件中定義的規(guī)則來限定。
[0054]根據(jù)上述的可視化效果框架,網(wǎng)頁在瀏覽器中進行顯示時,網(wǎng)頁的各部分內(nèi)容區(qū)域會具有可視化效果,某個內(nèi)容區(qū)域被選中時(例如檢測到鼠標移動到該內(nèi)容區(qū)域上方,又例如,在觸摸屏中檢測到對該內(nèi)容區(qū)域的點擊或者檢測到在該內(nèi)容區(qū)域的滑動手勢),該內(nèi)容區(qū)域的上方會出現(xiàn)蒙版,并且,該內(nèi)容區(qū)域的上方會同時出現(xiàn)標記菜單或者根據(jù)觸發(fā)出現(xiàn)標記菜單,例如,在被選中的內(nèi)容區(qū)域上單擊鼠標右鍵,會出現(xiàn)各種內(nèi)容類型菜單項。如圖2和圖3所示,所述內(nèi)容類型菜單項可以包括“標記為標題”、“標記為正文”和“標記為日期”等,另外,所述內(nèi)容類型菜單項還可以包括“保存標記”和“結(jié)束標記”等。
[0055]步驟104,獲取對網(wǎng)頁各部分內(nèi)容區(qū)域進行標注的指示;[0056]在本發(fā)明實施例中,執(zhí)行標注的主體是客戶端,客戶端可以由用戶、運營人員或管理人員進行操作。可以通過鼠標對網(wǎng)頁進行標注,將鼠標移動到某個內(nèi)容區(qū)域上方并單擊鼠標右鍵,然后,點擊某個內(nèi)容類型菜單項,便可完成對該部分內(nèi)容區(qū)域的標注。在觸摸屏中,還可以根據(jù)對菜單項的觸摸操作來選擇內(nèi)容類型,實現(xiàn)對網(wǎng)頁的標注。如圖2所示,通過單擊“標記為標題”,可以將相應的內(nèi)容區(qū)域標記為標題,如圖3所示,通過單擊“標記為正文”,可以將相應的內(nèi)容區(qū)域標記為正文。
[0057]步驟106,記錄內(nèi)容區(qū)域與標注指示的對應關(guān)系,得到網(wǎng)頁模板。
[0058]每標記一個內(nèi)容區(qū)域,并選則“保存標記”菜單項,就可以將該內(nèi)容區(qū)域與選擇的內(nèi)容類型的對應關(guān)系存儲到網(wǎng)頁模板中,通過選擇“結(jié)束標記”菜單項,完成對網(wǎng)頁中所有需要標記的內(nèi)容區(qū)域的標記,得到該網(wǎng)頁對應的網(wǎng)頁模板(或者稱為網(wǎng)頁內(nèi)容模板)。
[0059]可見,根據(jù)本發(fā)明實施例的技術(shù)方案,只需要在所述可視化效果框架中選擇網(wǎng)頁內(nèi)容區(qū)域進行可視化操作,即可輕松定義網(wǎng)頁模板,提高了生成網(wǎng)頁模板的效率;而且,由于網(wǎng)頁內(nèi)容被直觀的呈現(xiàn)出來,很容易確定頁面結(jié)構(gòu)的內(nèi)容類型,提高了生成網(wǎng)頁模板的準確性。
[0060]上述方案是根據(jù)一個網(wǎng)頁來生成對應于該網(wǎng)頁的網(wǎng)頁模板。對于一個資源站點而言,其可能包括很多網(wǎng)頁,這些網(wǎng)頁一般是根據(jù)相同的網(wǎng)頁設計模板生成,因而這些網(wǎng)頁的結(jié)構(gòu)會基本相同,有可能僅存在很少的不同之處,例如,有的網(wǎng)頁中可能包括評論內(nèi)容,而有的網(wǎng)頁不包括評論內(nèi)容,但這些網(wǎng)頁都包括標題、作者、發(fā)表時間和正文等內(nèi)容。如果對每個網(wǎng)頁都進行上述的步驟來生成網(wǎng)頁模板,則工作量仍然較大。
[0061]于是,為進一步提高網(wǎng)頁模板的生成效率,所述方法還可以包括:對根據(jù)同一資源站點下的多個網(wǎng)頁生成的多個網(wǎng)頁模板進行統(tǒng)計,提取所述多個網(wǎng)頁模板中的相同部分生成最終的網(wǎng)頁模板。具體地,可以對資源站點包括的所有網(wǎng)頁進行抽樣,得到多個網(wǎng)頁;然后,根據(jù)上述方法生成多個網(wǎng)頁模板;最后,提取所述多個網(wǎng)頁模板(網(wǎng)頁模板中每條內(nèi)容區(qū)域與內(nèi)容類型的對應關(guān)系為網(wǎng)頁模板的一個部分)中的相同部分生成最終的網(wǎng)頁模板(或者稱為該資源站點的網(wǎng)頁模板)。
[0062]例如,對于360網(wǎng)站,可以先根據(jù)該網(wǎng)站的主頁URL(http://www.#/)獲取首頁的HTML文檔;然后對該HTML文檔進行分析發(fā)現(xiàn)該網(wǎng)站包括多個(例如1000個)子網(wǎng)頁,于是,從這1000個子網(wǎng)頁按照預定的算法(例如隨機算法)抽取50個子網(wǎng)頁;對這50個子網(wǎng)頁進行可視化標注后生成50個網(wǎng)頁模板;最后,提取這50個網(wǎng)頁模板中的相同部分生成對應于360網(wǎng)站的網(wǎng)頁模板。
[0063]另外,在本發(fā)明實施例中,為便于定位和標識網(wǎng)頁中的內(nèi)容區(qū)域,還可以為各內(nèi)容區(qū)域所屬的標簽添加哈希值屬性,相應地,在網(wǎng)頁模板中存儲的就是內(nèi)容區(qū)域所屬標簽的哈希值與選擇的內(nèi)容類型的對應關(guān)系。在此種情況下,本發(fā)明實施例的生成網(wǎng)頁模板的方法在構(gòu)建對網(wǎng)頁進行標注的可視化效果框架的步驟之前,還可以包括如下步驟:
[0064]首先,獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM(Document ObjectModel,文檔對象模型)樹;
[0065]然后,獲取所述DOM樹中各節(jié)點對應的標簽的哈希值;
[0066]最后,為所述網(wǎng)頁的各標簽添加哈希值屬性。
[0067]其中,所述哈希值可以包括標簽在所述DOM樹中的層級哈希值和標簽自身的哈希值。標簽在DOM樹中的層級哈希值可以根據(jù)當前標簽所在的DOM樹的層級關(guān)系計算出來,標簽自身的哈希值可以根據(jù)當前標簽所擁有的屬性節(jié)點計算出來。
[0068]在具體實現(xiàn)時,可以由服務端來進行標簽的哈希值計算。如圖10所示,服務端210位于搜索引擎200中,搜索引擎200與多個(圖中示出了 3個)第三方網(wǎng)站服務器300通信連接,服務端210可以配合客戶端100來生成網(wǎng)頁模板。此種情況下,所述獲取所述DOM樹中各節(jié)點對應的標簽的哈希值可以包括:
[0069]首先,在客戶端100為所述網(wǎng)頁的各標簽添加索引屬性;
[0070]然后,客戶端100將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務端210 ;
[0071]其次,服務端210進行標簽的哈希值計算;
[0072]最后,服務端210將標簽索引值與哈希值的對應關(guān)系發(fā)送到客戶端100。
[0073]在實施本發(fā)明時,客戶端的操作可以包括如下步驟:
[0074]首先,在客戶端安裝可視化效果框架生成插件,并訪問第三方網(wǎng)站服務器300中的網(wǎng)頁;
[0075]然后,在一種實現(xiàn)方式中,鼠標移動到網(wǎng)頁內(nèi)容區(qū)域上方,內(nèi)容區(qū)域的上方出現(xiàn)淡藍色的蒙版,表示該內(nèi)容區(qū)域被選中,右鍵單擊,出現(xiàn)選擇菜單,可以選擇該內(nèi)容區(qū)域?qū)儆跇祟}、正文等內(nèi)容類型;
[0076]最后,標記完成后,客戶端生成網(wǎng)頁|旲板。
[0077]客戶端可以把生成的網(wǎng)頁模板發(fā)送給服務端,服務端在進行定向采集網(wǎng)頁內(nèi)容時即可使用該網(wǎng)頁模板進行信息采集。
[0078]以下給出一個本發(fā)明實施例的生成網(wǎng)頁模板的方法一個詳細流程。參照圖4,所述方法包括:
[0079]步驟402,客戶端獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹;
[0080]步驟404,客戶端為DOM樹的每個標簽添加索引屬性,其中,DOM樹的遍歷可以使用深度優(yōu)先的算法進行;
[0081]步驟406,客戶端把添加索引(index)屬性后的網(wǎng)頁的源代碼發(fā)送給服務端,發(fā)送
的內(nèi)容例如為:
[0082]
【權(quán)利要求】
1.一種對網(wǎng)頁提供可視化標注的方法,包括: 構(gòu)建通過位于網(wǎng)頁內(nèi)容區(qū)域上方的蒙版對網(wǎng)頁進行標注的可視化效果框架; 獲取在所述蒙版上對網(wǎng)頁各部分內(nèi)容區(qū)域進行標注的指示。
2.如權(quán)利要求1所述的方法,其中,所述可視化效果框架包括內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標注菜單,所述標注菜單包括多種內(nèi)容類型菜單項,所述指示為通過標注菜單選擇的對應于選中的內(nèi)容區(qū)域的內(nèi)容類型。
3.如權(quán)利要求1所述的方法,其中,在構(gòu)建對網(wǎng)頁進行標注的可視化效果框架之前,所述方法還包括: 獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹; 獲取所述DOM樹中各節(jié)點對應的標簽的哈希值; 為所述網(wǎng)頁的各標簽添加哈希值屬性,其中,所述哈希值用于定位和標識網(wǎng)頁中的內(nèi)容區(qū)域。
4.如權(quán)利要求3所述的方法,其中,所述哈希值包括: 標簽在所述DOM樹中的層級哈希值和標簽自身的哈希值。
5.如權(quán)利要求3所述的方法,其中,所述獲取所述DOM樹中各節(jié)點對應的標簽的哈希值,包括: 為所述網(wǎng)頁的各標簽添加索引屬性; 將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務端,以供服務端進行標簽的哈希值計算; 接收服務端發(fā)送的標簽索引值與哈希值的對應關(guān)系。
6.一種對網(wǎng)頁提供可視化標注的裝置,包括: 可視化效果框架構(gòu)建器,適于構(gòu)建通過位于網(wǎng)頁內(nèi)容區(qū)域上方的蒙版對網(wǎng)頁進行標注的可視化效果框架; 標注指示獲取器,適于獲取在所述蒙版上對網(wǎng)頁各部分內(nèi)容區(qū)域進行標注的指示。
7.如權(quán)利要求6所述的裝置,其中,所述可視化效果框架包括內(nèi)容區(qū)域、位于選中的內(nèi)容區(qū)域上方的蒙版和標注菜單,所述標注菜單包括多種內(nèi)容類型菜單項,所述指示為通過標注菜單選擇的對應于選中的內(nèi)容區(qū)域的內(nèi)容類型。
8.如權(quán)利要求6所述的裝置,其中,還包括: DOM樹生成器,適于獲取網(wǎng)頁的源代碼,根據(jù)所述源代碼生成所述網(wǎng)頁的DOM樹; 哈希值獲取器,適于獲取所述DOM樹中各節(jié)點對應的標簽的哈希值; 哈希值屬性添加器,適于為所述網(wǎng)頁的各標簽添加哈希值屬性,其中,所述哈希值用于定位和標識網(wǎng)頁中的內(nèi)容區(qū)域。
9.如權(quán)利要求8所述的裝置,其中,所述哈希值包括: 標簽在所述DOM樹中的層級哈希值和標簽自身的哈希值。
10.如權(quán)利要求8所述的裝置,其中,所述哈希值獲取器進一步適于: 為所述網(wǎng)頁的各標簽添加索引屬性; 將添加索引屬性后的網(wǎng)頁的源代碼發(fā)送到服務端,以供服務端進行標簽的哈希值計算; 接收服務端發(fā)送的標簽索引值與哈希值的對應關(guān)系。
【文檔編號】G06F17/30GK103678510SQ201310606202
【公開日】2014年3月26日 申請日期:2013年11月25日 優(yōu)先權(quán)日:2013年11月25日
【發(fā)明者】馬曉輝 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司