亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種網頁分類方法和系統的制作方法

文檔序號:9396900閱讀:333來源:國知局
一種網頁分類方法和系統的制作方法
【技術領域】
[0001]本發(fā)明涉及互聯網應用技術領域,尤其涉及一種網頁分類方法和系統。
【背景技術】
[0002]隨著互聯網信息需求的擴大,信息定向投放成為一種趨勢。為了更有針對性地投放信息,需要對互聯網上的人群進行屬性分析或標簽界定,而這主要通過判斷用戶訪問的媒體網頁類型來進行分析。其中,常見的對媒體網頁進行分類的方法主要包括:
[0003]I)利用url (統一資源定位)的字符串進行分類,如利用sports, qq.com中的字符串“sports”將該網頁分類至體育類目;
[0004]2)人工識別,由有經驗的人員根據網頁內容進行網頁分類;
[0005]3)網頁內容關鍵字頻次識別,主要通過解析url對應的html (超文本標記語言)內容,根據其中的關鍵字頻次進行網頁分類。
[0006]上述各分類方法中,方法3)通過機器學習等算法予以實現,準確度相對較低;方法2)雖然準確度較高,但是效率低;方法I)雖然效率和質量都不錯,但是對于主要由日期或數據表示的url的網頁分類卻顯得無可奈何,而這類網頁的流量往往非常大,諸如視頻網站、電子商務網站以及博客網站中的網頁等。

【發(fā)明內容】

[0007]本發(fā)明的目的是提供一種網頁分類方法和系統,可以有效對媒體網頁類型進行分類。
[0008]根據本發(fā)明的一個方面,提供了一種網頁分類方法,該方法包括以下步驟:
[0009]接收用戶輸入的域名,基于所述域名得到需要爬取面包肩的網頁所對應的地址(url);
[0010]基于所述地址爬取所述網頁的面包肩;
[0011]基于所爬取的面包肩對所述網頁進行分類。
[0012]進一步地,所述基于所述域名得到需要爬取面包肩的網頁所對應的地址的步驟具體包括:
[0013]基于所述域名,得到包括所述域名在內的至少部分網頁地址;
[0014]判斷所述網頁地址對應的網頁是否存在歷史被爬取面包肩的記錄或/和所述網頁是否活躍;
[0015]基于所述判斷,篩選出需要爬取面包肩的網頁所對應的地址。
[0016]其中,在篩選出需要爬取面包肩的網頁所對應的地址的步驟前,還包括:
[0017]對面包肩的有效性進行判斷,過濾無效面包肩對應的網頁地址。
[0018]進一步地,所述基于所述地址爬取所述網頁的面包肩的步驟包括:
[0019]基于面包肩的提取規(guī)則和所述地址,多線程地分別同時爬取并記錄所述網頁的面包肩。
[0020]其中,所述基于面包肩的提取規(guī)則爬取所述網頁的面包肩具體包括:
[0021]對所述網頁的html代碼進行解析;
[0022]設定所述面包肩的開始字段和結束字段,獲取所述面包肩的完整字段。
[0023]進一步地,所述基于所爬取的面包肩對所述網頁進行分類的步驟具體包括:
[0024]確定面包肩分類關鍵字/詞,基于所述關鍵字/詞篩選出所述域名下包含所述關鍵字/詞的所有面包肩對應的網頁地址;
[0025]將所述篩選的網頁地址所對應的網頁歸類于所述面包肩分類關鍵字/詞所確定的類別。
[0026]進一步地,所述網頁分類方法還包括:
[0027]基于所爬取的面包肩對網頁進行的分類,對訪問所述網頁的用戶進行屬性分類。
[0028]根據本發(fā)明的另一個方面,還提供了一種網頁分類系統,包括:
[0029]待分類網頁獲取裝置,用于接收用戶輸入的域名,基于所述域名得到需要爬取面包肩的網頁所對應的地址(url);
[0030]面包肩爬取裝置,基于所述地址爬取所述網頁的面包肩;
[0031]網頁分類器,基于所爬取的面包肩對所述網頁進行分類。
[0032]進一步地,所述待分類網頁獲取裝置具體用于:
[0033]基于所述域名,得到包括所述域名在內的至少部分網頁地址;
[0034]判斷所述網頁地址對應的網頁是否存在歷史被爬取面包肩的記錄或/和所述網頁是否活躍;
[0035]基于所述判斷,篩選出需要爬取面包肩的網頁所對應的地址。
[0036]其中,所述待分類網頁獲取裝置在篩選出需要爬取面包肩的網頁所對應的地址前,還用于:
[0037]對面包肩的有效性進行判斷,過濾無效面包肩對應的網頁地址。
[0038]進一步地,所述面包肩爬取裝置具體用于:
[0039]基于面包肩的提取規(guī)則和所述地址,多線程地分別同時爬取并記錄所述網頁的面包肩。
[0040]其中,所述面包肩爬取裝置基于面包肩的提取規(guī)則爬取所述網頁的面包肩中,具體用于:
[0041 ]對所述網頁的html代碼進行解析;
[0042]設定所述面包肩的開始字段和結束字段,獲取所述面包肩的完整字段。
[0043]進一步地,所述網頁分類器具體用于:
[0044]確定面包肩分類關鍵字/詞,基于所述關鍵字/詞篩選出所述域名下包含所述關鍵字/詞的所有面包肩對應的網頁地址;
[0045]將所述篩選的網頁地址所對應的網頁歸類于所述面包肩分類關鍵字/詞所確定的類別。
[0046]進一步地,所述網頁分類系統還包括:
[0047]用戶屬性分類裝置,基于所爬取的面包肩對網頁進行的分類,對訪問所述網頁的用戶進行屬性分類。
[0048]與現有技術相比,本發(fā)明具有以下優(yōu)點:本發(fā)明通過識別面包肩中的字段,基于面包肩進行網頁分類,提升了網頁分類的準確率和效率,并進一步提高了對網絡人群的屬性進行標記的準確性。
【附圖說明】
[0049]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
[0050]圖1示出根據本發(fā)明一個方面的一種網頁分類系統的示意性框圖;
[0051]圖2示出某視頻類網頁中所展示的面包肩示意圖;
[0052]圖3(a)-圖3(b)示出所述待分類網頁獲取裝置的具體工作流程圖;
[0053]圖4示出根據本發(fā)明一個優(yōu)選實施例的基于面包肩對人群進行分類的界面圖;
[0054]圖5示出根據本發(fā)明另一個方面的一種網頁分類的方法流程圖;
[0055]附圖中相同或相似的附圖標記代表相同或相似的部件。
【具體實施方式】
[0056]下面結合附圖對本發(fā)明作進一步詳細描述。
[0057]圖1示出根據本發(fā)明一個方面的一種網頁分類系統的示意性框圖。其中,所述系統包括待分類網頁獲取裝置11、面包肩爬取裝置12以及網頁分類器13。優(yōu)選地,所述系統還包括用戶屬性分類裝置14。具體地,待分類網頁獲取裝置11接收用戶輸入的域名,基于所述域名得到需要爬取面包肩的網頁所對應的地址(url);面包肩爬取裝置12基于所述地址爬取所述網頁的面包肩;網頁分類器13基于所爬取的面包肩對所述網頁進行分類。進一步地,用戶屬性分類裝置14基于所爬取的面包肩對網頁進行的分類,對訪問所述網頁的用戶進行屬性分類。
[0058]上述各裝置之間是持續(xù)不斷工作的,在此,本領域技術人員應理解“持續(xù)”是指上述各裝置分別實時地,或者按照設定的或實時調整的工作模式要求,進行工作。
[0059]其中,待分類網頁獲取裝置11接收用戶輸入的域名,基于所述域名得到需要爬取面包肩的網頁所對應的地址(url),而所得到的網頁為至少一個或多個,相應的網頁地址也為至少一個或多個。具體地,所述域名可以包括任意級別的域名,例如一級域名、二級域名或三級域名等等,在此不作限定,典型地,視頻類網址的域名例如為V.youku.com。通常,同一域名下,存在至少一個網頁或多個網頁對應的地址,仍以域名V.youku.com為例,其下存在的網址包括 http://v.youku.com/v_show/idj 或 http://v.youku.com/v_show/id_xnjqlb jtcw 等。
[0060]其中,所述面包肩是用于表達內容歸屬關系的界面元素,面包肩導航一般表現為“主分類 > 一級分類> 二級分類 > 三級分類 >…… > 最終內容頁面”或者“首頁 > 分類頁 > 次級分類頁”或者“首頁 >> 分類頁 >> 次級分類頁”等形式。請參考圖2示出的某視頻類網頁中所展示的面包肩示意圖,如圖2所示,該網頁展示的面包肩為:電視劇〉韓國〉劇情/家庭/偶像/言情/時裝。當然,不同網站的面包肩格式可以相同或不同,不同網站的面包肩對應的代碼也可以相同或不同。
[0061]待分類網頁獲取裝置11基于各種通信協議或/和網頁規(guī)則通過與用戶的用戶設備進行交互,例如,通過一次或多次調用該用戶設備提供的應用程序接口(API)或其他約定的通信方式,或者,通過ASP、JSP或PHP等頁面技術,獲取用戶在搜索框、查詢框等接收用戶輸入的域名,又或者,通過與搜索引擎等第三方設備的交互,接收用戶
當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1