專利名稱::一種策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種用于垂直搜索引擎的互聯(lián)網(wǎng)信息采集方法。
背景技術(shù):
:搜索引擎技術(shù)發(fā)展至今,已經(jīng)經(jīng)過了兩代的技術(shù)更新。1998年,以Google和DirectHit為代表的第二代搜索引擎出現(xiàn)在互聯(lián)網(wǎng)上。它們基于鏈接分析和分詞技術(shù),對(duì)互聯(lián)網(wǎng)上的信息進(jìn)行無(wú)差別地搜索,其優(yōu)勢(shì)是可以用一種統(tǒng)一的數(shù)學(xué)模型處理互聯(lián)網(wǎng)上各種各樣的數(shù)據(jù)而不需要對(duì)數(shù)據(jù)本身的含義加以區(qū)分。然而,第二代搜索引擎技術(shù)對(duì)信息的處理方式也成為了它的弊端。在處理海量數(shù)據(jù)的過程中,由于采用統(tǒng)一的數(shù)學(xué)模型和處理方式,第二代搜索引擎將信息作為無(wú)差別的數(shù)據(jù)單元進(jìn)行處理。這種處理方式使得第二代搜索引擎無(wú)法區(qū)分?jǐn)?shù)據(jù)之間的區(qū)別,特別是具有同樣關(guān)鍵字的數(shù)據(jù)在不同領(lǐng)域所具有的特殊含義。隨著越來(lái)越多互聯(lián)網(wǎng)應(yīng)用的出現(xiàn),人們不再僅僅關(guān)注從互聯(lián)網(wǎng)獲得信息的數(shù)量,而越來(lái)越關(guān)心信息的質(zhì)量。用戶對(duì)信息的新需求導(dǎo)致了以垂直搜索引擎技術(shù)為主體和核心的第三代搜索引擎的誕生。垂直搜索引擎分析網(wǎng)頁(yè)的方法與方向與第二代搜索引擎不同。第二代搜索引擎進(jìn)行網(wǎng)頁(yè)分析時(shí),主要以關(guān)鍵詞提取為目標(biāo),而不關(guān)心網(wǎng)頁(yè)內(nèi)容本身的含義;垂直搜索引擎的信息采集目標(biāo)是領(lǐng)域相關(guān)信息,因此,它在分析網(wǎng)頁(yè)時(shí),不僅僅需要關(guān)注網(wǎng)頁(yè)中的關(guān)鍵詞,還應(yīng)該能夠"理解"網(wǎng)頁(yè)內(nèi)容在特定領(lǐng)域下的含義。要求垂直搜索引擎能夠具備識(shí)別和處理領(lǐng)域相關(guān)信息的能力。識(shí)別和處理領(lǐng)域相關(guān)信息,這是目前垂直搜索引擎面臨的難題。由于不同領(lǐng)域的信息內(nèi)容與數(shù)據(jù)結(jié)構(gòu)有可能很不相同,甚至互相不兼容,故垂直搜索引擎不能繼續(xù)使用第二代搜索引擎的數(shù)據(jù)采集方式。對(duì)于不同領(lǐng)域的信息,垂直搜索引擎的數(shù)據(jù)采集方式應(yīng)該有針對(duì)性,這樣才能更好地適應(yīng)各領(lǐng)域的特點(diǎn)。因此,垂直搜索引擎的數(shù)據(jù)采集機(jī)構(gòu)應(yīng)該被重新設(shè)計(jì)。
發(fā)明內(nèi)容本發(fā)明的目的就是針對(duì)現(xiàn)有技術(shù)的不足,提供一種策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法,該互聯(lián)網(wǎng)信息采集方法不僅可針對(duì)不同領(lǐng)域的特點(diǎn),進(jìn)行靈活地配置,從而根據(jù)領(lǐng)域特點(diǎn)定制垂直搜索引擎的信息采集的行為,而且具有高適應(yīng)性,平臺(tái)無(wú)關(guān)性,部署靈活,以此作為垂直:f叟索引擎的核心和基礎(chǔ)模塊能高效、準(zhǔn)確地為垂直搜索引擎的信息分析單元提供原始數(shù)據(jù)。為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下本發(fā)明提出的策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法步驟如下(1)由領(lǐng)域?qū)<胰斯ぬ砑?,或采用軟件自?dòng)分類方法,或利用第二代搜索引擎的分類目錄選定指定領(lǐng)域的領(lǐng)域網(wǎng)站集;網(wǎng)站集是面向領(lǐng)域信息采集的初始范圍,也是進(jìn)行面向領(lǐng)域信息采集的第一步。(2)編寫信息采集策略,利用信息采集策略解釋器分析編寫好的信息釆集策略,指導(dǎo)網(wǎng)頁(yè)采集器在領(lǐng)域網(wǎng)站集中采集目標(biāo)網(wǎng)頁(yè)。(3)建立能夠代表指定領(lǐng)域特點(diǎn)的名詞組成的領(lǐng)域名詞庫(kù),才艮據(jù)領(lǐng)域名詞定義,利用網(wǎng)頁(yè)信息分析器獲取目標(biāo)網(wǎng)頁(yè)中的領(lǐng)域相關(guān)信息。(4)將領(lǐng)域相關(guān)信息放入領(lǐng)域信息數(shù)據(jù)庫(kù)。所述信息釆集策略采用XML語(yǔ)言編寫。該XMLSchema的根結(jié)點(diǎn)是一個(gè)site標(biāo)簽,定義所述領(lǐng)域網(wǎng)站集中一個(gè)領(lǐng)域網(wǎng)站的信息釆集策略,根結(jié)點(diǎn)的屬性包括該網(wǎng)站的名稱、URL和登錄器。才艮結(jié)點(diǎn)下有startPages子結(jié)點(diǎn),定義對(duì)該網(wǎng)站進(jìn)行信息采集的起始頁(yè)集合,startPages子結(jié)點(diǎn)下包含startPage元素結(jié)點(diǎn);startPage元素結(jié)點(diǎn)的屬性包括該startPage元素結(jié)點(diǎn)對(duì)應(yīng)的起始頁(yè)的地址和擴(kuò)展信息。根結(jié)點(diǎn)下有pageTypes子結(jié)點(diǎn),定義該網(wǎng)站中的相似網(wǎng)頁(yè)集,pageTypes子結(jié)點(diǎn)下包含pageType元素結(jié)點(diǎn);pageType元素結(jié)點(diǎn)的屬性包括該相似網(wǎng)頁(yè)集的名稱、判別標(biāo)準(zhǔn)、擴(kuò)展信息分析器,及網(wǎng)頁(yè)處理器。pageType元素結(jié)點(diǎn)下有expectedValues元素,定義網(wǎng)頁(yè)采集器需要在該expectedValues元素所在的pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集中提取的公共變量集合;expectedValues元素下有expectedValue子元素,定義一個(gè)公共變量;所述公共變量來(lái)源于expectedValues元素所在的pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集的擴(kuò)展信息和網(wǎng)頁(yè)采集器當(dāng)前采集頁(yè)面的內(nèi)容。pageType元素結(jié)點(diǎn)下有expectedUrls元素,定義該expectedUrls元素所在pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集在信息采集路徑上的下一個(gè)pageType元素結(jié)點(diǎn);expectedUrls元素下有expectedUrl子元素,定義一個(gè)新的相似網(wǎng)頁(yè)集。所述信息釆集策略代碼如下<xmlversion="1.0"encoding=,,utf-8"〉<sitexmlns:xsi="http:〃www.w3.org/2001/XMLSchema-instance"xsi:noNamespaceSchemaLocation="SiteXml.xsd"name="smt"siteUrl="http:〃www.scsme.gov.cn/smt/"><startPages〉<startPageurl="http:〃www.scsme.gov.cn/smt/yp—add—vlist.aspid=40"extlnfo二"homepage、yp—add—vlist.aspid=407></startPages〉<pageTypes〉<pageTypename="homepage"expectedExtInfoPattem="Ahomepage、(?<url>.+)$"〉<6xpcctedValu6s〉<expectedValuename="province"nodeSource="〃a[@href='${extlnfo.url}']/text(),V〉</expectedValues〉<expectedUrls〉<expectedUrlurlPattern="yp—add—list\.asp\id={3}$"extInfo=,,corpList、${url}、${province}"/〉</expectedUrls〉</pageType>〈pageTypename="corplist"expectedExtInfoPattern="AcorpList、(?<url>[A、]+)、(?<province>[A,〗+)$"><expectedValues〉<expectedValuename="city"nodeSource:"〃a蹈href:'S{extlnfo.url}']/text()'V〉</expectedValues〉<expectedUrls〉<expectedUrlgeneratedUrlPattem=="http:〃www.scsme.gov.cn/smt/co/co8/contact.aspid=${url.id}"urlPattern="http:〃www\.scsme\.gov\.cn/smt/co\.asp\id=(<id>+)"extInfo="corpInfo、${extlnfo.province}、${city},,/></expectedUrls〉</pageType><pageTypeuserDefmedHandler="SmartSearcherConsole.SmtPageHandler"name="corpInfo"expectedExtInfoPattern="AcorpInfo、(?<province>[A、]+)、(?<city>[A、]+)$,,><expectedValues〉<expectedValuename="address"pattern="${extInfo.province}/${extlnfo.city}7〉</expectedValues〉</pageType〉</pageTypes〉</site〉所述信息采集策略解釋器是整個(gè)互聯(lián)網(wǎng)信息采集方法的推動(dòng)單元,其作用是分析給定的信息采集策略代碼,并制導(dǎo)網(wǎng)頁(yè)采集器的行為。信息采集策略解釋器的工作包括讀入并分析信息采集策略代/馬,一瞼^E其合法性,并將其轉(zhuǎn)化為可執(zhí)行的結(jié)構(gòu);按照pageType元素結(jié)點(diǎn)的定義進(jìn)行相似網(wǎng)頁(yè)集的劃分和處理;按照pageType元素結(jié)點(diǎn)中expectedUrl子元素的定義,產(chǎn)生當(dāng)前pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集的所有后繼相似網(wǎng)頁(yè)集;在需要覆蓋信息采集策略解釋器默認(rèn)行為的地方,動(dòng)態(tài)地創(chuàng)建分析器或處理器。所述信息采集策略解釋器的工作流程如下(1)讀入信息采集策略代碼并將其轉(zhuǎn)化為內(nèi)存可執(zhí)行形式;(2)將信息采集策略代碼中startPages子結(jié)點(diǎn)中的起始頁(yè)URL添加到網(wǎng)頁(yè)庫(kù)中,并將它們的狀態(tài)標(biāo)注為"待采集";(3)啟動(dòng)網(wǎng)頁(yè)采集器從網(wǎng)頁(yè)庫(kù)中取出狀態(tài)為"待采集,,的URL進(jìn)行網(wǎng)頁(yè)采集;(4)對(duì)于每一個(gè)待采集的網(wǎng)頁(yè),根據(jù)信息采集策略代碼中pageTypes子結(jié)點(diǎn)的定義,將當(dāng)前網(wǎng)頁(yè)匹配至每一個(gè)pageType元素結(jié)點(diǎn)定義,直到找到第一個(gè)可以匹配的pageType元素結(jié)點(diǎn)為止;對(duì)于成功匹配的網(wǎng)頁(yè),才艮據(jù)成功匹配的pageType元素結(jié)點(diǎn)定義,生成對(duì)應(yīng)的expectedValue和expectedUrl,并將產(chǎn)生的URL添加到網(wǎng)頁(yè)庫(kù)中;如果找不到成功匹配的pageType元素結(jié)點(diǎn)定義,則忽略該網(wǎng)頁(yè);(5)重復(fù)第(4)個(gè)步驟直到網(wǎng)頁(yè)庫(kù)中不存在狀態(tài)為"待采集"的URL為止。所述網(wǎng)頁(yè)采集器是本發(fā)明即一種策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法與互聯(lián)網(wǎng)交互的部分,其作用是在信息采集策略的指導(dǎo)下,不斷地從互聯(lián)網(wǎng)上抓取目標(biāo)網(wǎng)頁(yè)。網(wǎng)頁(yè)采集器的本質(zhì)是一個(gè)簡(jiǎn)化的瀏覽器,模擬一般瀏覽器進(jìn)行互聯(lián)網(wǎng)訪問的全過程,但裁剪掉了顯示HTML和執(zhí)行JavaScript,VBScript等客戶端腳本功能。領(lǐng)域名詞對(duì)領(lǐng)域的特征有很強(qiáng)的表現(xiàn)力,一般而言,各領(lǐng)域都有其最具代表性或最典型的領(lǐng)域名詞。所述領(lǐng)域名詞定義及其取值和類型均采用XML語(yǔ)言定義;該XMLSchema的根結(jié)點(diǎn)是一個(gè)dv標(biāo)簽,定義一條領(lǐng)域名詞,根結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞的名稱和類型,其中類型屬性的取值為布爾型或單值型或多值型或結(jié)構(gòu)型;根結(jié)點(diǎn)下有零個(gè)或多個(gè)synonym子結(jié)點(diǎn),定義該領(lǐng)域名詞的一個(gè)同義詞,synonym子結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞同義詞的名稱;當(dāng)根結(jié)點(diǎn)的類型屬性的取值為單值型或多值型或結(jié)構(gòu)型時(shí),根結(jié)點(diǎn)下有value子結(jié)點(diǎn),定義該領(lǐng)域名詞的一個(gè)取值,value子結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞取值的內(nèi)容。所述網(wǎng)頁(yè)信息分析器的作用是分析由網(wǎng)頁(yè)采集器采集的網(wǎng)頁(yè),嘗試提取其中的領(lǐng)域相關(guān)信息,主要以提取領(lǐng)域名詞及其取值為工作方向,將網(wǎng)頁(yè)中非結(jié)構(gòu)化的信息轉(zhuǎn)化為結(jié)構(gòu)化的信息,為垂直搜索引擎的用戶交互部分提供領(lǐng)域信息庫(kù)。所述網(wǎng)頁(yè)信息分析器的工作流程如下(1)將目標(biāo)網(wǎng)頁(yè)的HTML代碼轉(zhuǎn)化為XHTML代碼;(2)將XHTML代碼轉(zhuǎn)化為DOM樹;(3)計(jì)算DOM樹中各結(jié)點(diǎn)的領(lǐng)域覆蓋度和領(lǐng)域信息比,并按給定的閾值將內(nèi)容結(jié)點(diǎn)篩選出來(lái);(4)對(duì)于DOM樹中的每個(gè)內(nèi)容結(jié)點(diǎn),根據(jù)領(lǐng)域名詞庫(kù)中的領(lǐng)域名詞類型,分別采取提取領(lǐng)域名詞取值信息;(5)重復(fù)第(4)個(gè)步驟直到所有的內(nèi)容結(jié)點(diǎn)都^L處理。所述網(wǎng)頁(yè)庫(kù)用于存放網(wǎng)頁(yè)采集器從互聯(lián)網(wǎng)上采集的網(wǎng)頁(yè)。網(wǎng)頁(yè)庫(kù)中的每個(gè)網(wǎng)頁(yè)除了具有URL、采集時(shí)間、內(nèi)容長(zhǎng)度這些第二代搜索引擎的網(wǎng)頁(yè)庫(kù)具備的基本屬性外,還有一個(gè)與信息采集策略有很大關(guān)系的屬性,即擴(kuò)展信息。擴(kuò)展信息屬性是網(wǎng)頁(yè)的"描述符",是非自描述的,不獨(dú)立表義,網(wǎng)頁(yè)擴(kuò)展信息的意義由信息采集策略的相關(guān)部分確定。在默認(rèn)情況下,信息采集策略解釋器按照正則表達(dá)式的語(yǔ)法對(duì)網(wǎng)頁(yè)擴(kuò)展信息進(jìn)行分析,但信息釆集策略的制定者(開發(fā)人員或程序)可根據(jù)具體情況覆蓋信息采集策略解釋器對(duì)網(wǎng)頁(yè)擴(kuò)展信息的處理方式。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是具有高適應(yīng)性,可根據(jù)信息采集目標(biāo)領(lǐng)域的特點(diǎn)定制恰當(dāng)?shù)男畔⒉杉桨福痪哂衅脚_(tái)無(wú)關(guān)性,部署靈活,以此作為垂直搜索引擎的核心和基礎(chǔ)模塊能高效、準(zhǔn)確地為垂直搜索引擎的信息分析單元提供原始數(shù)據(jù)。圖1是策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法流程圖。圖2是網(wǎng)頁(yè)信息分析器的工作流程圖。圖3是信息采集策略解釋器的工作流程圖。具體實(shí)施例方式下面結(jié)合附圖,對(duì)本發(fā)明的優(yōu)選實(shí)施例作進(jìn)一步的描述。實(shí)施例一如圖1、圖2、圖3所示。使用策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法,實(shí)現(xiàn)手機(jī)領(lǐng)域相關(guān)信息的采集,采集目標(biāo)為手機(jī)的相關(guān)參數(shù)和手機(jī)的當(dāng)前價(jià)格,并根據(jù)信息采集的效果對(duì)所述互聯(lián)網(wǎng)信息采集方法的性能進(jìn)行評(píng)測(cè)。第一步,由人工添加選定指定領(lǐng)域的領(lǐng)域網(wǎng)站集。使用以下手機(jī)網(wǎng)上商城作為領(lǐng)域網(wǎng)站集18900手才幾網(wǎng)http:〃www.18900.com/52手機(jī)商城http:〃www.52mobiles.com/鴻信通手機(jī)網(wǎng)http:〃www.529buy.com/友人手才幾網(wǎng)http:〃www.younet.com/中關(guān)村手機(jī)頻道http:Vmobile.zol.com.cn/手才幾之家http:〃www.imobile.com.cn/北斗手才幾網(wǎng)http:〃www.139shop.com/第二步,編寫信息采集策略,利用信息采集策略解釋器分析編寫好的信息采集策略,指導(dǎo)網(wǎng)頁(yè)采集器在領(lǐng)域網(wǎng)站集中采集目標(biāo)網(wǎng)頁(yè)。所述信息采集策略采用XML語(yǔ)言編寫;該XMLSchema的根結(jié)點(diǎn)是一個(gè)site標(biāo)簽,定義所述領(lǐng)域網(wǎng)站集中一個(gè)領(lǐng)域網(wǎng)站的信息采集策略,根結(jié)點(diǎn)的屬性包括該網(wǎng)站的名稱、URL和登錄器。根結(jié)點(diǎn)下有startPages子結(jié)點(diǎn),定義對(duì)該網(wǎng)站進(jìn)行信息采集的起始頁(yè)集合,startPages子結(jié)點(diǎn)下包含startPage元素結(jié)點(diǎn);startPage元素結(jié)點(diǎn)的屬性包括該startPage元素結(jié)點(diǎn)對(duì)應(yīng)的起始頁(yè)的地址和擴(kuò)展信息。根結(jié)點(diǎn)下有pageTypes子結(jié)點(diǎn),定義該網(wǎng)站中的相似網(wǎng)頁(yè)集,pageTypes子結(jié)點(diǎn)下包含pageType元素結(jié)點(diǎn);pageType元素結(jié)點(diǎn)的屬性包括該相似網(wǎng)頁(yè)集的名稱、判別標(biāo)準(zhǔn)、擴(kuò)展信息分析器,及網(wǎng)頁(yè)處理器。pageType元素結(jié)點(diǎn)下有expectedValues元素,定義網(wǎng)頁(yè)采集器需要在該expectedValues元素所在的pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集中提取的公共變量集合;expectedValues元素下有expectedValue子元素,定義一個(gè)公共變量;所述公共變量來(lái)源于expectedValues元素所在的pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集的擴(kuò)展信息和網(wǎng)頁(yè)釆集器當(dāng)前采集頁(yè)面的內(nèi)容。pageType元素結(jié)點(diǎn)下有expectedUrls元素,定義該expectedUrls元素所在pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集在信息采集路^圣上的下一個(gè)pageType元素結(jié)點(diǎn);expectedUrls元素下有expectedUrl子元素,定義一個(gè)新的相似網(wǎng)頁(yè)集。領(lǐng)域網(wǎng)站集中18900手機(jī)網(wǎng)的信息采集策略代碼如下<xmlversion="1.0"encoding="utf-8,,?><sitexmlns:xsi="http:〃www,w3.org/2001/XMLSchema-instance"xsi:noNamespaceSchemaLocation="../SiteXml.xsd"name=,,18900"siteUrl="http:〃www.18900.com"〉<startPages><startPageurl="http:〃www.18900.com/select.html"extInfo="homepage'V></startPages><pagcTypss〉<pageTypename="catetory,,expectedExtInfoPattern="homepage"〉<expectedUrls〉<expectedUrlurlPattern="A/list\.php\goods—type=5|6&goods—corp=+$"extlnfo=,,manu、${url.text}"/〉</expectedUrls〉</pageType〉〈pageTypename二"manu"expectedExtInfoPattern="Amanu、(?<name>[A、]+)$"〉<expectedUrls〉<expectedUrlextlnfo="product、${url.text}manu、${extlnfo.name},,urlPattern="A/goods/[A\.]+\.html$"/〉</expectedUrls〉</pageType〉〈pageTypename="product"expectedExtInfoPattern="Aproduct、(?<product>[A、]+)manu、(?<manu>[A、]+),,userDefmedHandler="SmartSearcherEngine.Test.Cellphone.CellphoneInformationCollector"/〉</pageTypes></site>所述信息采集策略解釋器的工作流程如下(1)讀入信息采集策略代碼并將其轉(zhuǎn)化為內(nèi)存可執(zhí)行形式;(2)將信息采集策略代碼中startPages子結(jié)點(diǎn)中的起始頁(yè)URL添加到網(wǎng)頁(yè)庫(kù)中,并將它們的狀態(tài)標(biāo)注為"待采集";(3)啟動(dòng)網(wǎng)頁(yè)采集器從網(wǎng)頁(yè)庫(kù)中取出狀態(tài)為"待采集"的URL進(jìn)行網(wǎng)頁(yè)采集;(4)對(duì)于每一個(gè)待采集的網(wǎng)頁(yè),根據(jù)信息采集策略代碼中pageTypes子結(jié)點(diǎn)的定義,將當(dāng)前網(wǎng)頁(yè)匹配至每一個(gè)pageType元素結(jié)點(diǎn)定義,直到找到第一個(gè)可以匹配的pageType元素結(jié)點(diǎn)為止;對(duì)于成功匹配的網(wǎng)頁(yè),才艮據(jù)成功匹配的pageType元素結(jié)點(diǎn)定義,生成只于應(yīng)的expectedValue和expectedUrl,并一尋產(chǎn)生的URL添加到網(wǎng)頁(yè)庫(kù)中;如果找不到成功匹配的pageType元素結(jié)點(diǎn)定義,則忽略該網(wǎng)頁(yè);(5)重復(fù)第(4)個(gè)步驟直到網(wǎng)頁(yè)庫(kù)中不存在狀態(tài)為"待采集"的URL為止。所述網(wǎng)頁(yè)采集器是一個(gè)簡(jiǎn)化的瀏覽器,模擬一般瀏覽器進(jìn)行互聯(lián)網(wǎng)訪問的全過程,但裁剪掉了客戶端腳本功能。第三步,建立能夠代表指定領(lǐng)域特點(diǎn)的名詞組成的領(lǐng)域名詞庫(kù),根據(jù)領(lǐng)域名詞定義,利用網(wǎng)頁(yè)信息分析器獲取目標(biāo)網(wǎng)頁(yè)中的領(lǐng)域相關(guān)信息。所述領(lǐng)域名詞定義及其取值和類型均采用XML語(yǔ)言定義;該XMLSchema的根結(jié)點(diǎn)是一個(gè)dv標(biāo)簽,定義一條領(lǐng)域名詞,根結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞的名稱和類型,其中類型屬性的取值為布爾型或單值型或多值型或結(jié)構(gòu)型;根結(jié)點(diǎn)下有零個(gè)或多個(gè)synonym子結(jié)點(diǎn),定義該領(lǐng)域名詞的一個(gè)同義詞,synonym子結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞同義詞的名稱;當(dāng)根結(jié)點(diǎn)的類型屬性的取值為單值型或多值型時(shí),根結(jié)點(diǎn)下有value子結(jié)點(diǎn),定義該領(lǐng)域名詞的一個(gè)取值,value子結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞取值的內(nèi)容。領(lǐng)域名詞庫(kù)定義代碼部分如下<xmlversion="l,0"encoding="utf-8"〉<dvs><dvname-"網(wǎng)絡(luò)類型"type="nrnltipleVahxe"><synonymname="網(wǎng)絡(luò)制式"/〉<synonymtiame=',網(wǎng)絡(luò)"/><synonymname二',手機(jī)制式"/><valuename="+"/><valuename二"GSM"/〉<valuename="GPRS"/〉<valuename="CDMA"/></dv><dvname二"價(jià)格"type="singleValue"><synonymname=',價(jià)"/><synonymname:"零售價(jià)"/><synonymname:"優(yōu)惠價(jià)"/><synonymname:"巿場(chǎng)價(jià)"/〉<synonymname:"巿場(chǎng)價(jià)格"/><synonymnamcy參考報(bào)價(jià)',/><synonymname:"參考價(jià)格"/><synonymname二"各地巿場(chǎng)價(jià)"/><valuename^,+(V+)元"/〉<valuename="¥+(V+)元?"/></dv><dvname二"攝像頭"type="boolean"/〉<dvname二"游戲"type="boolean"><synonymname二"內(nèi)置游戲"/></dv><dvname二"簡(jiǎn)介"type="structural"><synonymname二"介紹"/><synonymname:"描述"/></dv></dvs>所述網(wǎng)頁(yè)信息分^f器的工作流程如下(1)將目標(biāo)網(wǎng)頁(yè)的HTML代碼轉(zhuǎn)化為XHTML代碼;(2)將XHTML代碼轉(zhuǎn)化為DOM樹;(3)計(jì)算D0M樹中各結(jié)點(diǎn)的領(lǐng)域覆蓋度和領(lǐng)域信息比,并按給定的閾值(本次測(cè)試中取60%)將內(nèi)容結(jié)點(diǎn)篩選出來(lái);(4)對(duì)于DOM樹中的每個(gè)內(nèi)容結(jié)點(diǎn),根據(jù)領(lǐng)域名詞庫(kù)中的領(lǐng)域名詞類型,分別采取提取領(lǐng)域名詞取值信息;(5)重復(fù)第(4)個(gè)步驟直到所有的內(nèi)容結(jié)點(diǎn)都被處理。第四步,將領(lǐng)域相關(guān)信息放入領(lǐng)域信息數(shù)據(jù)庫(kù)。實(shí)驗(yàn)結(jié)果包含以下參數(shù)總網(wǎng)頁(yè)數(shù)《f。'策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法在對(duì)應(yīng)的網(wǎng)站上采集的網(wǎng)頁(yè)總數(shù)。過程網(wǎng)頁(yè)數(shù)^'—e:策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法在對(duì)應(yīng)的網(wǎng)站上采集的過程網(wǎng)頁(yè)的數(shù)量。目標(biāo)網(wǎng)頁(yè)凄t:策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法在對(duì)應(yīng)的網(wǎng)站上采集的包含領(lǐng)域相關(guān)信息的網(wǎng)頁(yè)數(shù)量。瓦■領(lǐng)域信息率&。"目標(biāo)網(wǎng)頁(yè)數(shù)與總網(wǎng)頁(yè)數(shù)的比值,計(jì)算公式為",'"W,。toZ平均網(wǎng)頁(yè)處理時(shí)間Ls順策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法在對(duì)應(yīng)的網(wǎng)站上分析每個(gè)網(wǎng)頁(yè)平均耗費(fèi)的平均時(shí)間(單位為毫秒)。此時(shí)間不包含下載網(wǎng)頁(yè)所需的網(wǎng)絡(luò)傳輸時(shí)間。<table>tableseeoriginaldocumentpage16</column></row><table>從以上實(shí)驗(yàn)結(jié)果可以看出,策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法在進(jìn)行信息采集的時(shí)候,通過信息采集策略的指導(dǎo)和領(lǐng)域名詞定義的約束,可進(jìn)行高效的領(lǐng)域相關(guān)信息采集,既可獲得較高領(lǐng)域信息率,又具有較高執(zhí)行效率。實(shí)施例二如圖1、圖2、圖3所示。與實(shí)施例一相同的地方不再重復(fù)l又述,不同之處在于采用軟件自動(dòng)分類方法選定指定領(lǐng)域的領(lǐng)域網(wǎng)站集。定義一段典型的信息采集策略代碼。<xmlversion="1.0"encoding-"utf陽(yáng)8"〉<sitexmlns:xsi二"http:〃www.w3.org/2001/XMLSchema-instance"xsi:noNamespaceSchemaLocation="SiteXml.xsd"name="smt"siteUrl="http:〃www.scsme.gov.cn/smt/,,><startPages〉<startPageurl="http:〃www.scsme.govxn/smt/yp—add—vlist.aspid二40"extInfo=,,hoinepage、yp_add—vlist.aspid=407></startPages〉<pageTypes><pageTypename="homepage,,expectedExtInfoPattern="Ahomepage、(?<url>.+)$,,〉<expectedValues〉<expectedValuename=,,province,,nodeSource="〃a[@href=,${extInfo.url},]/text()"/></expectedValues><expectedUrls><expectedUrlurlPattern=,,yp—add—list\,asp\id={3}$"ext!nfo=,,corpList、${url}、${province},,/></expectedUrls〉</pageType〉〈pageTypename="corpList"expectedExtInfoPattem="AcorpList、(?<url>[A、]+)、(?<province>[A、]+)$"〉<expectedValues〉<expectedValuename="city"nodeSource=,,〃a[@href='${extlnfo.url}']/text()7〉</expectedValues><expectedUrls〉<sxpcctedUrlgeneratedUrlPattem="http:〃www.scsme.gov.cn/smt/co/co8/contact.aspid=${uii.id}"urlPattern="http:〃wwwVscsme\.gov\.cn/smt/co\,asp\id=(<id>+)"extInfo="corpInfo、${extlnfo.province}、${city}"/〉</expectedUrls〉</pageType><pageTypeuserDefinedHandler="SmartSearcherConsole.SmtPageHandler,,name="corp!nfo,,expectedExtInfoPattern="AcorpInfo、(?<province>[A、]+)、(?<city>[A、]+)$"><expectedValues〉<expectedValuename-"address"pattern="${extInfo.province}/${extlnfo.city}7></expectedValues〉</pageType〉</pageTypes〉</site〉其中,所述信息釆集策略中pageType元素結(jié)點(diǎn)的擴(kuò)展信息分析器屬性釆用C弁定義,具體代碼如下publicinterfaceIPageHandlervoidHandle(stringurl,stringhtml,PageTypeParsingResultpageTypeParseResult);其中url為當(dāng)前正在分析的網(wǎng)頁(yè)地址,html為該網(wǎng)頁(yè)的HTML代碼,pageTypeParseResult的定義如下(C弁定義,只列出數(shù)據(jù)成員)publicclassPageTypeParsingResultSiteCrawlingStrategym—scs;Iist<PendingURI>m—urls;SortedList<string,List<string〉〉m—values;}_其中m—scs為網(wǎng)頁(yè)采集器策略對(duì)象,m_urls為網(wǎng)頁(yè)采集器在當(dāng)前網(wǎng)頁(yè)中新發(fā)現(xiàn)的,需要加到URL隊(duì)列中的URL列表,m—values為網(wǎng)頁(yè)采集器根據(jù)expectedValues元素的值從當(dāng)前網(wǎng)頁(yè)中取得的值。擴(kuò)展信息的作用是采用一定策略填充m—urls的內(nèi)容。實(shí)施例三如圖1、圖2、圖3所示。與實(shí)施例一相同的地方不再重復(fù)敘述,不同之處在于利用第二代搜索引擎的分類目錄選定指定領(lǐng)域的領(lǐng)域網(wǎng)站集。權(quán)利要求1.一種策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法,其特征在于所述互聯(lián)網(wǎng)信息采集方法步驟如下(1)由領(lǐng)域?qū)<胰斯ぬ砑?,或采用軟件自?dòng)分類方法,或利用第二代搜索引擎的分類目錄選定指定領(lǐng)域的領(lǐng)域網(wǎng)站集;(2)編寫信息采集策略,利用信息采集策略解釋器分析編寫好的信息采集策略,指導(dǎo)網(wǎng)頁(yè)采集器在領(lǐng)域網(wǎng)站集中采集目標(biāo)網(wǎng)頁(yè);(3)建立能夠代表指定領(lǐng)域特點(diǎn)的名詞組成的領(lǐng)域名詞庫(kù),根據(jù)領(lǐng)域名詞定義,利用網(wǎng)頁(yè)信息分析器獲取目標(biāo)網(wǎng)頁(yè)中的領(lǐng)域相關(guān)信息;(4)將領(lǐng)域相關(guān)信息放入領(lǐng)域信息數(shù)據(jù)庫(kù)。2.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)信息采集方法,其特征在于所述信息釆集策略采用XML語(yǔ)言編寫;該XMLSchema的根結(jié)點(diǎn)是一個(gè)site標(biāo)簽,定義所述領(lǐng)域網(wǎng)站集中一個(gè)領(lǐng)域網(wǎng)站的信息采集策略,根結(jié)點(diǎn)的屬性包括該網(wǎng)站的名稱、URL和登錄器;根結(jié)點(diǎn)下有startPages子結(jié)點(diǎn),定義對(duì)該網(wǎng)站進(jìn)行信息采集的起始頁(yè)集合,startPages子結(jié)點(diǎn)下包含startPage元素結(jié)點(diǎn);startPage元素結(jié)點(diǎn)的屬性包括該startPage元素結(jié)點(diǎn)對(duì)應(yīng)的起始頁(yè)的地址和擴(kuò)展信息;才艮結(jié)點(diǎn)下有pageTypes子結(jié)點(diǎn),定義該網(wǎng)站中的相似網(wǎng)頁(yè)集,pageTypes子結(jié)點(diǎn)下包含pageType元素結(jié)點(diǎn);pageType元素結(jié)點(diǎn)的屬性包括該相似網(wǎng)頁(yè)集的名稱、判別標(biāo)準(zhǔn)、擴(kuò)展信息分析器,及網(wǎng)頁(yè)處理器;pageType元素結(jié)點(diǎn)下有expectedValues元素,定義網(wǎng)頁(yè)采集器需要在該expectedValues元素所在的pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集中提耳又的公共變量集合;expectedValues元素下有expectedValue子元素,定義一個(gè)^>共變量;所述7>共變量來(lái)源于expectedValues元素所在的pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集的擴(kuò)展信息和網(wǎng)頁(yè)采集器當(dāng)前采集頁(yè)面的內(nèi)容;pageType元素結(jié)點(diǎn)下有expectedUrls元素,定義該expectedUrls元素所在pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集在信息采集^各徑上的下一個(gè)pageType元素結(jié)點(diǎn);expectedUrls元素下有expectedUrl子元素,定義一個(gè)新的相似網(wǎng)頁(yè)集。3.根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)信息采集方法,其特征在于所述信息采集策略解釋器的工作流程如下(1)讀入信息采集策略代碼并將其轉(zhuǎn)化為內(nèi)存可執(zhí)行形式;(2)將信息采集策略代碼中startPages子結(jié)點(diǎn)中的起始頁(yè)URL添加到網(wǎng)頁(yè)庫(kù)中,并將它們的狀態(tài)標(biāo)注為"待采集";(3)啟動(dòng)網(wǎng)頁(yè)采集器從網(wǎng)頁(yè)庫(kù)中取出狀態(tài)為"待采集,,的URL進(jìn)行網(wǎng)頁(yè)采集;(4)對(duì)于每一個(gè)待采集的網(wǎng)頁(yè),根據(jù)信息采集策略代碼中pageTypes子結(jié)點(diǎn)的定義,將當(dāng)前網(wǎng)頁(yè)匹配至每一個(gè)pageType元素結(jié)點(diǎn)定義,直到找到第一個(gè)可以匹配的pageType元素結(jié)點(diǎn)為止;對(duì)于成功匹配的網(wǎng)頁(yè),才艮據(jù)成功匹配的pageType元素結(jié)點(diǎn)定義,生成對(duì)應(yīng)的expectedValue和expectedUrl,并將產(chǎn)生的URL添加到網(wǎng)頁(yè)庫(kù)中;如果找不到成功匹配的pageType元素結(jié)點(diǎn)定義,則忽略該網(wǎng)頁(yè);(5)重復(fù)第(4)個(gè)步驟直到網(wǎng)頁(yè)庫(kù)中不存在狀態(tài)為"待采集"的URL為止。4.根據(jù)權(quán)利要求1至3任一所述的互聯(lián)網(wǎng)信息采集方法,其特征在于所述網(wǎng)頁(yè)采集器是一個(gè)簡(jiǎn)化的瀏覽器,模擬一般瀏覽器進(jìn)行互聯(lián)網(wǎng)訪問的全過程,但裁剪掉了客戶端腳本功能。5.根據(jù)權(quán)利要求1至3任一所述的互聯(lián)網(wǎng)信息采集方法,其特征在于所述領(lǐng)域名詞定義及其取值和類型均采用XML語(yǔ)言定義;該XMLSchema的根結(jié)點(diǎn)是一個(gè)dv標(biāo)簽,定義一條領(lǐng)域名詞,根結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞的名稱和類型,其中類型屬性的取值為布爾型或單值型或多值型或結(jié)構(gòu)型;根結(jié)點(diǎn)下有零個(gè)或多個(gè)synonym子結(jié)點(diǎn),定義該領(lǐng)域名詞的一個(gè)同義詞,synonym子結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞同義詞的名稱;當(dāng)根結(jié)點(diǎn)的類型屬性的取值為單值型或多值型時(shí),根結(jié)點(diǎn)下有value子結(jié)點(diǎn),定義該領(lǐng)域名詞的一個(gè)取值,value子結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞取值的內(nèi)容。6.根據(jù)權(quán)利要求5所述的互聯(lián)網(wǎng)信息采集方法,其特征在于所述網(wǎng)頁(yè)信息分析器的工作流程如下(1)將目標(biāo)網(wǎng)頁(yè)的HTML代碼轉(zhuǎn)化為XHTML代碼;(2)將XHTML代碼轉(zhuǎn)化為DOM樹;(3)計(jì)算DOM樹中各結(jié)點(diǎn)的領(lǐng)域覆蓋度和領(lǐng)域信息比,并按給定的閾值將內(nèi)容結(jié)點(diǎn)篩選出來(lái);(4)對(duì)于DOM樹中的每個(gè)內(nèi)容結(jié)點(diǎn),根據(jù)領(lǐng)域名詞庫(kù)中的領(lǐng)域名詞類型,分別釆取提取領(lǐng)域名詞取值信息;(5)重復(fù)第(4)個(gè)步驟直到所有的內(nèi)容結(jié)點(diǎn)都^L處理。全文摘要本發(fā)明公開了一種策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法。該互聯(lián)網(wǎng)信息采集方法步驟如下由領(lǐng)域?qū)<胰斯ぬ砑?,或采用軟件自?dòng)分類方法,或利用第二代搜索引擎的分類目錄選定指定領(lǐng)域的領(lǐng)域網(wǎng)站集;編寫信息采集策略,利用信息采集策略解釋器分析編寫好的信息采集策略,指導(dǎo)網(wǎng)頁(yè)采集器在領(lǐng)域網(wǎng)站集中采集目標(biāo)網(wǎng)頁(yè);建立能夠代表指定領(lǐng)域特點(diǎn)的名詞組成的領(lǐng)域名詞庫(kù),根據(jù)領(lǐng)域名詞定義,利用網(wǎng)頁(yè)信息分析器獲取目標(biāo)網(wǎng)頁(yè)中的領(lǐng)域相關(guān)信息;將領(lǐng)域相關(guān)信息放入領(lǐng)域信息數(shù)據(jù)庫(kù)。與現(xiàn)有技術(shù)相比,本發(fā)明具有高適應(yīng)性,平臺(tái)無(wú)關(guān)性,部署靈活,以此作為垂直搜索引擎的核心和基礎(chǔ)模塊能高效、準(zhǔn)確地為垂直搜索引擎的信息分析單元提供原始數(shù)據(jù)。文檔編號(hào)G06F17/30GK101118553SQ200710049709公開日2008年2月6日申請(qǐng)日期2007年8月9日優(yōu)先權(quán)日2007年8月9日發(fā)明者邊姜申請(qǐng)人:邊姜