列表頁識(shí)別系統(tǒng)及方法
【專利說明】
[0001] 本發(fā)明專利申請(qǐng)是申請(qǐng)日為2012年09月29日、申請(qǐng)?zhí)枮?01210376384. 8、名稱 為"列表頁識(shí)別系統(tǒng)及方法"的中國(guó)發(fā)明專利申請(qǐng)的分案申請(qǐng)。
技術(shù)領(lǐng)域
[0002] 本發(fā)明設(shè)及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體設(shè)及一種列表頁識(shí)別系統(tǒng)及方法。
【背景技術(shù)】
[0003] 在捜索技術(shù)中,基本上分為兩大類。一類是W整個(gè)互聯(lián)網(wǎng)為對(duì)象,抓取全部網(wǎng)頁 (目前在一個(gè)站點(diǎn)內(nèi)會(huì)限制抓取深度,且一般不處理js(javascript),而且只是處理部分 動(dòng)態(tài)頁面),并對(duì)網(wǎng)頁進(jìn)行處理和分析的網(wǎng)頁捜索,即全網(wǎng)捜索。另一類是只針對(duì)某類頁面 進(jìn)行抓取和分析處理的垂直捜索,如:圖片捜索、視頻捜索、博客捜索、論壇捜索、新聞捜索 等。對(duì)于大部分垂直捜索來說,目前都是基于種子(也稱作列表頁)進(jìn)行處理。垂直捜索 的處理可分為兩個(gè)部分:其一是找種子;其二是從種子頁面上發(fā)現(xiàn)具體產(chǎn)品頁面,即不同 類別(圖片、視頻、新聞等)的頁面,然后對(duì)運(yùn)些產(chǎn)品頁面進(jìn)行處理。
[0004] 基于列表頁進(jìn)行垂直捜索。先W人工或W某些預(yù)先指定的規(guī)則發(fā)現(xiàn)種子,然后對(duì) 列表頁進(jìn)行變頻抓取,從列表頁面上發(fā)現(xiàn)垂直捜索產(chǎn)品的具體產(chǎn)品頁面,對(duì)運(yùn)些產(chǎn)品頁面 進(jìn)行下載、分析處理,最終形成垂直捜索系統(tǒng)需要的數(shù)據(jù)。 陽〇化]傳統(tǒng)的W人工方式或已知的一些規(guī)則收集列表頁,很難把所有的列表頁面收集 全。而且網(wǎng)站改版后,舊的列表頁會(huì)失效,而新的列表頁又可能會(huì)漏掉。所W,在傳統(tǒng)的垂 直捜索引擎內(nèi),總有很多內(nèi)容捜索不到,導(dǎo)致捜索的準(zhǔn)確度不高。
【發(fā)明內(nèi)容】
[0006] 鑒于上述問題,提出了本發(fā)明W便提供一種克服上述問題或者至少部分地解決上 述問題的列表頁識(shí)別系統(tǒng)及方法。
[0007] 依據(jù)本發(fā)明的一個(gè)方面,提供了一種列表頁識(shí)別系統(tǒng),包括:
[0008] 頁面框架ID計(jì)算模塊,適于抽取預(yù)先獲取的網(wǎng)頁的頁面框架,計(jì)算頁面框架ID;
[0009] 模式累計(jì)模塊,適于累計(jì)相同ID的頁面框架數(shù)量達(dá)到闊值時(shí),計(jì)算頁面框架模 式;
[0010] 列表頁識(shí)別模塊,適于按所述頁面框架模式與事先建立的產(chǎn)品知識(shí)庫中列表頁的 頁面框架模式比對(duì),W識(shí)別出列表頁。
[0011] 可選地,頁面框架ID計(jì)算模塊進(jìn)一步包括:頁面框架抽取模塊,適于根據(jù)網(wǎng)頁源 代碼中的html語言標(biāo)簽抽取所述網(wǎng)頁的頁面框架。
[0012] 可選地,頁面框架ID計(jì)算模塊進(jìn)一步包括:頁面框架抽取模塊,適于按標(biāo)點(diǎn)識(shí)別 出網(wǎng)頁正文,去除正文W得到所述網(wǎng)頁的頁面框架。
[0013] 可選地,所述模式累計(jì)模塊進(jìn)一步包括:闊值調(diào)節(jié)模塊,適于判斷在預(yù)定時(shí)間內(nèi)對(duì) 應(yīng)同一ID的頁面框架數(shù)量是否累計(jì)達(dá)到所述闊值,若沒有,則將該ID對(duì)應(yīng)的闊值W-定的 步長(zhǎng)遞減。
[0014] 可選地,所述模式累計(jì)模塊進(jìn)一步包括:
[0015] 待定列表頁識(shí)別模塊,適于判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定 時(shí)間的鏈接,若有,則設(shè)定該網(wǎng)頁為待定列表頁;
[0016] 列表頁框架模式確定模塊,適于每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁,如果 所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式。
[0017] 可選地,所述產(chǎn)品知識(shí)庫存儲(chǔ)有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的 權(quán)重,所述列表頁識(shí)別模塊進(jìn)一步包括:
[0018] 特征匹配模塊,適于將所述頁面框架模式的各網(wǎng)頁特征與知識(shí)庫中已知類別的頁 面框架模式的各網(wǎng)頁特征進(jìn)行匹配;
[0019] 特征評(píng)分模塊,適于對(duì)匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加 相應(yīng)的權(quán)重;
[0020] 權(quán)重累計(jì)模塊,適于按類別累計(jì)所述頁面框架模式在該類別下所得的權(quán)重,若對(duì) 應(yīng)列表頁類別所得的權(quán)重最高,則所述頁面為列表頁。
[0021] 可選地,所述系統(tǒng)還包括:列表頁處理模塊,適于若識(shí)別出網(wǎng)頁為列表頁,則提取 所述列表頁的內(nèi)容,進(jìn)一步獲取所述列表頁中列出的信息對(duì)應(yīng)的網(wǎng)頁。
[0022] 可選地,所述系統(tǒng)還包括:網(wǎng)頁獲取模塊,適于通過全網(wǎng)捜索獲取網(wǎng)頁,并W站點(diǎn) 為單位獲取網(wǎng)頁,同一站點(diǎn)下不同域名的對(duì)應(yīng)的網(wǎng)頁存儲(chǔ)在相同的根目錄下。
[0023] 根據(jù)本發(fā)明的另一方面,提供了一種列表頁識(shí)別方法,包括W下步驟:
[0024] 抽取預(yù)先獲取的網(wǎng)頁的頁面框架,并計(jì)算頁面框架ID ;
[0025] 累計(jì)相同ID的頁面框架數(shù)量達(dá)到闊值時(shí),計(jì)算頁面框架模式;
[0026] 按所述頁面框架模式與事先建立的產(chǎn)品知識(shí)庫中列表頁的頁面框架模式比對(duì),W 識(shí)別出列表頁。
[0027] 可選地,抽取所述網(wǎng)頁的頁面框架的方式為:根據(jù)網(wǎng)頁源代碼中的html語言標(biāo)簽 抽取所述網(wǎng)頁的頁面框架。
[0028] 可選地,抽取所述網(wǎng)頁的頁面框架的方式為:按標(biāo)點(diǎn)識(shí)別出網(wǎng)頁正文,去除正文W 得到所述網(wǎng)頁的頁面框架。
[0029] 可選地,判斷在預(yù)定時(shí)間內(nèi)對(duì)應(yīng)同一ID的頁面框架數(shù)量是否累計(jì)達(dá)到所述闊值, 若沒有,則將該ID對(duì)應(yīng)的闊值W-定的步長(zhǎng)遞減。
[0030] 可選地,所述列表頁框架模式的計(jì)算方式為:
[0031] 判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時(shí)間的鏈接,若有,則設(shè)定 該網(wǎng)頁為待定列表頁;
[0032] 每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就 將所述網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式。
[0033] 可選地,所述產(chǎn)品知識(shí)庫存儲(chǔ)有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的 權(quán)重,將所述頁面框架模式與事先建立的產(chǎn)品知識(shí)庫中已知類別的頁面框架模式比對(duì)的方 式為:
[0034] 將所述頁面框架模式的各網(wǎng)頁特征與知識(shí)庫中已知類別的頁面框架模式的各網(wǎng) 頁特征進(jìn)行匹配;
[0035] 對(duì)匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加相應(yīng)的權(quán)重;
[0036] 按類別累計(jì)所述頁面框架模式在該類別下所得的權(quán)重,若對(duì)應(yīng)列表頁類別所得的 權(quán)重最高,則所述頁面為列表頁。
[0037] 可選地,若識(shí)別出網(wǎng)頁為列表頁,則提取所述列表頁的內(nèi)容,進(jìn)一步獲取所述列表 頁中列出的信息對(duì)應(yīng)的網(wǎng)頁。
[003引可選地,通過全網(wǎng)捜索獲取網(wǎng)頁,并W站點(diǎn)為單位獲取網(wǎng)頁,同一站點(diǎn)下不同域名 的對(duì)應(yīng)的網(wǎng)頁存儲(chǔ)在相同的根目錄下。
[0039] 根據(jù)本發(fā)明的列表頁識(shí)別系統(tǒng)及方法通過計(jì)算網(wǎng)頁的頁面框架模式并按模式在 產(chǎn)品知識(shí)庫比對(duì),W識(shí)別出列表頁,由此解決了列表頁很難捜集全的問題,取得了全面捜集 列表頁,捜索的準(zhǔn)確度高的有益效果。
[0040] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予W實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,W下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0041] 通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0042] 圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的列表頁識(shí)別方法流程圖;
[0043] 圖2示出了圖1中步驟S130的具體流程圖;
[0044] 圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的列表頁識(shí)別系統(tǒng)結(jié)構(gòu)示意圖; W45] 圖4示出了圖3中列表頁識(shí)別模塊的具體結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0046] 下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可各種形式實(shí)現(xiàn)本公開而不應(yīng)被運(yùn)里闡述的實(shí)施例 所限制。相反,提供運(yùn)些實(shí)施例是為了能夠更透徹地理解本公開,并