基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法
【專利摘要】本發(fā)明涉及一種基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法,其中包括加載預定義的視聽節(jié)目元數據庫;加載需要提取視聽節(jié)目網站的種子地址;下載需要提取視聽節(jié)目網站的網頁內容;判斷下載的網頁是否為一視聽節(jié)目的播放頁面;對于播放頁面,查找該視聽節(jié)目的上文并生成視聽節(jié)目單,對于不是播放頁面的,根據加載的視聽節(jié)目元數據庫量化該下載的網頁內容作為視聽節(jié)目上文并存入上文集合中。采用該種基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法,實現了在不針對特定網站創(chuàng)建提取模板的情況下,提取所有互聯網上網站的視聽節(jié)目,可以規(guī)避視聽節(jié)目信息抓取過程中不必要的干擾,保證視聽節(jié)目信息抓取的準確性,具有更廣泛的應用范圍。
【專利說明】基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法
【技術領域】
[0001]本發(fā)明涉及互聯網【技術領域】,尤其涉及互聯網視聽節(jié)目信息及播放鏈接提取領域,具體是指一種基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法。
【背景技術】
[0002]目前現有互聯網視聽節(jié)目的一般提取方法是:對網站的每一類型節(jié)目創(chuàng)建一種提取模板,設置提取節(jié)目信息的詳細元素路徑,然后由爬蟲根據模板收集頁面元素,最后匯總生成視頻節(jié)目信息。這種方案對于互聯網龐大的視聽網站數量,每個網站都生成一個提取模板,如果網站改版或更新頁面結構,就需要修改相應的爬蟲配置模板。
[0003]在現有技術下,如果要爬取所有互聯網上的視聽節(jié)目,并形成一致的視聽節(jié)目表,模板的配置量如同天文數字,加上網站會不停的升級更新,維護這么多數據是不可能完成的任務。
【發(fā)明內容】
[0004]本發(fā)明的目的是克服了上述現有技術的缺點,提供了一種能夠實現在不針對特定網站創(chuàng)建提取模板的情況下、提取所有互聯網上網站的視聽節(jié)目、保證視聽節(jié)目信息抓取的準確性、具有更廣泛應用范圍的基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法。
[0005]為了實現上述目的,本發(fā)明的基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法具有如下構成:
[0006]該基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法,其主要特點是,所述的方法包括以下步驟:
[0007](I)加載預定義的視聽節(jié)目元數據庫;
[0008](2)加載需要提取視聽節(jié)目網站的種子地址;
[0009](3)下載需要提取視聽節(jié)目網站的網頁內容;
[0010](4)判斷下載的網頁是否為一視聽節(jié)目的播放頁面,如果是,則繼續(xù)步驟(5),否則繼續(xù)步驟(6);
[0011](5)查找該視聽節(jié)目的上文并生成視聽節(jié)目單;
[0012](6)根據加載的視聽節(jié)目元數據庫量化該下載的網頁內容作為視聽節(jié)目上文并存入上文集合中。
[0013]較佳地,所述的視聽節(jié)目元數據包括視聽節(jié)目的導演、主演、演員、發(fā)布時間、更新時間和節(jié)目梗概。
[0014]較佳地,所述的加載需要提取視聽節(jié)目網站的種子地址,具體為:
[0015]從Xml文件或數據庫加載需要抓取視聽節(jié)目網站的種子地址。
[0016]較佳地,所述的下載需要提取視聽節(jié)目網站的網頁內容,具體為:
[0017]使用Http客戶端或爬蟲將指定目標網站的指定網頁的網頁內容從服務器下載到本地。[0018]較佳地,所述的查找該視聽節(jié)目的上文并生成視聽節(jié)目單,包括以下步驟:
[0019](51)對該視聽節(jié)目對應的播放類型進行識別;
[0020](52)從上文集合中查找該視聽節(jié)目的上文;
[0021](53)合并上文中元數據信息和該下載的網頁內容數據信息生成該視聽節(jié)目的完整記錄。
[0022]更佳地,所述的對該視聽節(jié)目對應的播放類型進行識別,具體為:
[0023]識別該視聽節(jié)目對應的播放類型并利用對應的播放器對該視聽節(jié)目進行驗證播放。
[0024]較佳地,所述的根據加載的視聽節(jié)目元數據庫量化該下載的網頁內容作為視聽節(jié)目上文并存入上文集合中,包括以下步驟:
[0025](61)判斷該網頁是否為一視聽節(jié)目的詳細信息頁面,如果是,則繼續(xù)步驟(62),否則繼續(xù)步驟(3);
[0026](62)根據視聽節(jié)目元數據庫定義的規(guī)則對該網頁進行量化并判斷該網頁是否是一視聽節(jié)目的上文,如果是,則繼續(xù)步驟(63),否則繼續(xù)步驟(64);
[0027](63)將該網頁作為一視聽節(jié)目的上文并存入上文集合,然后繼續(xù)步驟(64);
[0028](64)判斷該網頁是否為網站的最后一個網頁,如果是,則結束退出,否則,繼續(xù)步驟(65);
[0029](65)分析該網頁的超鏈接并加入待下載網頁隊列,然后繼續(xù)步驟(3)。
[0030]采用了該發(fā)明中的基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法,具有如下有益效果:
[0031](I)采用視聽節(jié)目信息特征量化方法,可以規(guī)避視聽節(jié)目信息抓取過程中不必要的干擾,從而能夠保證抓取到的視聽節(jié)目是準確的。
[0032](2)利用視聽節(jié)目元數據信息的不變性,對于網站布局或者內容的更新,只要實施該方法的增量抓取,可以抓取到網站的最新更新視聽節(jié)目信息。
[0033](3)利用播放器規(guī)則驗證,可以確保抓取到的視聽節(jié)目是可以播放的視聽節(jié)目。
[0034](4)采用少量的配置,不針對特定的網站,而是通過網頁之間的關系能夠識別互聯網上的視聽節(jié)目,獲得視聽節(jié)目的基本信息和播放地址,可以在不針對特定網站創(chuàng)建提取模板的情況下,提取所有互聯網上網站的視聽節(jié)目,具有更廣泛的應用范圍。
【專利附圖】
【附圖說明】
[0035]圖1為本發(fā)明的基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法的流程圖?!揪唧w實施方式】
[0036]為了能夠更清楚地描述本發(fā)明的技術內容,下面結合具體實施例來進行進一步的描述。
[0037]現有互聯網視聽節(jié)目抓取方法,都是針對網頁布局和內容配置模板,從而識別視聽節(jié)目。
[0038]本發(fā)明從視聽節(jié)目本身出發(fā),對視聽節(jié)目的元數據進行抽象,比如:視聽節(jié)目一般都會發(fā)布時間/更新時間、導演、演員,本發(fā)明就是針對這些元數據進行模板配置,在網頁的主要內容展示區(qū)域識別這些元數據,進而形成視聽節(jié)目的信息記錄的上文。
[0039]根據本發(fā)明實施,只要配置一次(或少量幾次)視聽節(jié)目元數據的模板,就可避免現有技術下配置的大量不同網站的模板,以及網站版面更新后的后期維護,因為對于已有的視聽節(jié)目,它基本的元數據信息是不會變的,如:電影《大決戰(zhàn)》的導演和演員始終是不會變的。
[0040]互聯網上的視聽節(jié)目,會有視聽節(jié)目的詳細信息頁面,詳細信息頁面匯集了該視聽節(jié)目的大部分元數據,該數據能夠形成視聽節(jié)目信息的一部分,在詳細信息頁面會有鏈接關聯到播放頁面,播放頁面的信息與詳細信息頁面的信息組合在一起,形成一條視聽節(jié)目的上下文,結合上下文,系統(tǒng)生成一條視聽節(jié)目記錄。
[0041]實現流程:
[0042]1、系統(tǒng)啟動,加載預定義的視聽節(jié)目元數據庫中的元數據分類、定義,加載網頁播放器識別特征;
[0043]2、加載配置的網頁爬蟲的種子地址,這些地址中可能存在預期的視聽節(jié)目信息;
[0044]3、由爬蟲定義的網絡下載邏輯,下載存在于待爬取隊列中的網頁內容;
[0045]4、分析網頁內容:
[0046]由播放器識別模塊先識別該頁面是否是一個視聽節(jié)目的播放頁面;
[0047]由視聽節(jié)目元數據收集模塊識別該網頁是否是一個視聽節(jié)目的詳細信息頁面;
[0048]由URL分析模塊收集本頁面的超鏈接,這些超鏈接有可能是一個視聽節(jié)目上文的下文,也可能是一個新視聽節(jié)目的上文,將這些超鏈接加入爬蟲的待爬隊列中,用于繼續(xù)下一個頁面的抓取,以此完成對整個網站的遍歷;
[0049]5、如果當前頁面是一個視聽節(jié)目的播放頁面,從上文集合查找該頁面的上文,合并上文元數據信息和本頁元數據信息,生成一條視聽節(jié)目的完整記錄;
[0050]6、如果當前頁面不是一個視聽節(jié)目的播放頁面,根據元數據定義的規(guī)則,量化該頁面,以判斷該頁是否是一個視聽節(jié)目的上文,如果量化結果符合一個視聽節(jié)目的上文規(guī)貝U,將當前頁面存入上文集合;
[0051]7、如果系統(tǒng)需要進一步抓取,跳轉到3 ;
[0052]8、系統(tǒng)完成有待分析頁面,完成視聽節(jié)目提取。
[0053]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明的【具體實施方式】作進一步的描述。
[0054]圖1是本發(fā)明實施例提供的一種基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法,包括:
[0055]步驟(I):加載視聽節(jié)目特征庫即元數據庫。
[0056]具體地,視聽節(jié)目都附帶有導演、主演、演員、發(fā)布時間、更新時間、節(jié)目梗概等,根據不同的視聽節(jié)目類型,可以配置不同的視聽節(jié)目元數據組合。
[0057]步驟(2):加載需要提取視聽節(jié)目網站的種子地址。
[0058]具體地,可以從Xml文件或數據庫加載需要抓取視聽節(jié)目的網站。
[0059]步驟(3):下載網頁內容。
[0060]具體地,使用Http客戶端或爬蟲,將指目標網站的指定網頁從服務器上下載到本地。[0061]步驟(4):分析網頁內容,確定該頁是否為視聽節(jié)目的播放頁面。
[0062]具體地,由播放器識別模塊先識別該頁面是否是一個視聽節(jié)目的播放頁面,并識別出是哪一類的播放器,如Flash播放器;由視聽節(jié)目元數據收集模塊識別該網頁是否是一個視聽節(jié)目的詳細信息頁面,整理出視聽節(jié)目元信息定義所需要的內容;由URL分析模塊收集本頁面的鏈接,用于繼續(xù)下一個頁面的抓取。
[0063]步驟(5):查找視聽節(jié)目上文,生成視聽節(jié)目單。
[0064]具體地,根據步驟(4)獲取到的視聽節(jié)目信息,如果當前頁面是一個視聽節(jié)目的播放頁面,從上文集合查找該頁面的上文,合并上文元數據信息和本頁元數據信息,生成一條視聽節(jié)目的完整記錄。
[0065]步驟(6):以視聽節(jié)目特征庫為準則,量化網頁內容,作為視聽節(jié)目上文。
[0066]具體地,根據步驟(4)獲取到的視聽節(jié)目信息,量化該頁面,以判斷該頁是否是一個視聽節(jié)目的上文,如果量化結果符合一個視聽節(jié)目的上文規(guī)則,將當前頁面存入上文集合,該集合可以是一個HASH表,或者是數據庫中的一個數據表。
[0067]采用了該發(fā)明中的基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法,具有如下有益效果:
[0068](I)采用視聽節(jié)目信息特征量化方法,可以規(guī)避視聽節(jié)目信息抓取過程中不必要的干擾,從而能夠保證抓取到的視聽節(jié)目是準確的。
[0069](2)利用視聽節(jié)目元數據信息的不變性,對于網站布局或者內容的更新,只要實施該方法的增量抓取,可以抓取到網站的最新更新視聽節(jié)目信息。
[0070](3)利用播放器規(guī)則驗證,可以確保抓取到的視聽節(jié)目是可以播放的視聽節(jié)目。
[0071](4)采用少量的配置,不針對特定的網站,而是通過網頁之間的關系能夠識別互聯網上的視聽節(jié)目,獲得視聽節(jié)目的基本信息和播放地址,可以在不針對特定網站創(chuàng)建提取模板的情況下,提取所有互聯網上網站的視聽節(jié)目,具有更廣泛的應用范圍。
[0072]在此說明書中,本發(fā)明已參照其特定的實施例作了描述。但是,很顯然仍可以作出各種修改和變換而不背離本發(fā)明的精神和范圍。因此,說明書和附圖應被認為是說明性的而非限制性的。
【權利要求】
1.一種基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法,其特征在于,所述的方法包括以下步驟: (1)加載預定義的視聽節(jié)目元數據庫; (2)加載需要提取視聽節(jié)目網站的種子地址; (3 )下載需要提取視聽節(jié)目網站的網頁內容; (4)判斷下載的網頁是否為一視聽節(jié)目的播放頁面,如果是,則繼續(xù)步驟(5),否則繼續(xù)步驟(6); (5)查找該視聽節(jié)目的上文并生成視聽節(jié)目單; (6)根據加載的視聽節(jié)目元數據庫量化該下載的網頁內容作為視聽節(jié)目上文并存入上文集合中。
2.根據權利要求1所述的基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法,其特征在于,所述的視聽節(jié)目元數據包括視聽節(jié)目的導演、主演、演員、發(fā)布時間、更新時間和節(jié)目梗概。
3.根據權利要求1所述的基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法,其特征在于,所述的加載需要提取視聽節(jié)目網站的種子地址,具體為: 從Xml文件或數據庫加載 需要抓取視聽節(jié)目網站的種子地址。
4.根據權利要求1所述的基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法,其特征在于,所述的下載需要提取視聽節(jié)目網站的網頁內容,具體為: 使用Http客戶端或爬蟲將指定目標網站的指定網頁的網頁內容從服務器下載到本地。
5.根據權利要求1所述的基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法,其特征在于,所述的查找該視聽節(jié)目的上文并生成視聽節(jié)目單,包括以下步驟: (51)對該視聽節(jié)目對應的播放類型進行識別; (52)從上文集合中查找該視聽節(jié)目的上文; (53)合并上文中元數據信息和該下載的網頁內容數據信息生成該視聽節(jié)目的完整記錄。
6.根據權利要求5所述的基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法,其特征在于,所述的對該視聽節(jié)目對應的播放類型進行識別,具體為: 識別該視聽節(jié)目對應的播放類型并利用對應的播放器對該視聽節(jié)目進行驗證播放。
7.根據權利要求1所述的基于上下文環(huán)境實現互聯網視聽節(jié)目提取的方法,其特征在于,所述的根據加載的視聽節(jié)目元數據庫量化該下載的網頁內容作為視聽節(jié)目上文并存入上文集合中,包括以下步驟: (61)判斷該網頁是否為一視聽節(jié)目的詳細信息頁面,如果是,則繼續(xù)步驟(62),否則繼續(xù)步驟(3); (62)根據視聽節(jié)目元數據庫定義的規(guī)則對該網頁進行量化并判斷該網頁是否是一視聽節(jié)目的上文,如果是,則繼續(xù)步驟(63),否則繼續(xù)步驟(64); (63)將該網頁作為一視聽節(jié)目的上文并存入上文集合,然后繼續(xù)步驟(64); (64)判斷該網頁是否為網站的最后一個網頁,如果是,則結束退出,否則,繼續(xù)步驟(65);(65)分析該網頁的超 鏈接并加入待下載網頁隊列,然后繼續(xù)步驟(3)。
【文檔編號】G06F17/30GK103778256SQ201410065728
【公開日】2014年5月7日 申請日期:2014年2月26日 優(yōu)先權日:2014年2月26日
【發(fā)明者】逯利軍, 錢培專, 焦建華, 林強, 戚永蕾, 張昆, 張樹民, 宋聚平, 侯衛(wèi)東, 李克民 申請人:賽特斯信息科技股份有限公司