一種策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法

文檔序號(hào)：6572970閱讀：497來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：一種策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及一種用于垂直搜索引擎的互聯(lián)網(wǎng)信息采集方法。
背景技術(shù)：
：搜索引擎技術(shù)發(fā)展至今，已經(jīng)經(jīng)過了兩代的技術(shù)更新。1998年，以Google和DirectHit為代表的第二代搜索引擎出現(xiàn)在互聯(lián)網(wǎng)上。它們基于鏈接分析和分詞技術(shù)，對(duì)互聯(lián)網(wǎng)上的信息進(jìn)行無(wú)差別地搜索，其優(yōu)勢(shì)是可以用一種統(tǒng)一的數(shù)學(xué)模型處理互聯(lián)網(wǎng)上各種各樣的數(shù)據(jù)而不需要對(duì)數(shù)據(jù)本身的含義加以區(qū)分。然而，第二代搜索引擎技術(shù)對(duì)信息的處理方式也成為了它的弊端。在處理海量數(shù)據(jù)的過程中，由于采用統(tǒng)一的數(shù)學(xué)模型和處理方式，第二代搜索引擎將信息作為無(wú)差別的數(shù)據(jù)單元進(jìn)行處理。這種處理方式使得第二代搜索引擎無(wú)法區(qū)分?jǐn)?shù)據(jù)之間的區(qū)別，特別是具有同樣關(guān)鍵字的數(shù)據(jù)在不同領(lǐng)域所具有的特殊含義。隨著越來(lái)越多互聯(lián)網(wǎng)應(yīng)用的出現(xiàn)，人們不再僅僅關(guān)注從互聯(lián)網(wǎng)獲得信息的數(shù)量，而越來(lái)越關(guān)心信息的質(zhì)量。用戶對(duì)信息的新需求導(dǎo)致了以垂直搜索引擎技術(shù)為主體和核心的第三代搜索引擎的誕生。垂直搜索引擎分析網(wǎng)頁(yè)的方法與方向與第二代搜索引擎不同。第二代搜索引擎進(jìn)行網(wǎng)頁(yè)分析時(shí)，主要以關(guān)鍵詞提取為目標(biāo)，而不關(guān)心網(wǎng)頁(yè)內(nèi)容本身的含義；垂直搜索引擎的信息采集目標(biāo)是領(lǐng)域相關(guān)信息，因此，它在分析網(wǎng)頁(yè)時(shí)，不僅僅需要關(guān)注網(wǎng)頁(yè)中的關(guān)鍵詞，還應(yīng)該能夠"理解"網(wǎng)頁(yè)內(nèi)容在特定領(lǐng)域下的含義。要求垂直搜索引擎能夠具備識(shí)別和處理領(lǐng)域相關(guān)信息的能力。識(shí)別和處理領(lǐng)域相關(guān)信息，這是目前垂直搜索引擎面臨的難題。由于不同領(lǐng)域的信息內(nèi)容與數(shù)據(jù)結(jié)構(gòu)有可能很不相同，甚至互相不兼容，故垂直搜索引擎不能繼續(xù)使用第二代搜索引擎的數(shù)據(jù)采集方式。對(duì)于不同領(lǐng)域的信息，垂直搜索引擎的數(shù)據(jù)采集方式應(yīng)該有針對(duì)性，這樣才能更好地適應(yīng)各領(lǐng)域的特點(diǎn)。因此，垂直搜索引擎的數(shù)據(jù)采集機(jī)構(gòu)應(yīng)該被重新設(shè)計(jì)。
發(fā)明內(nèi)容本發(fā)明的目的就是針對(duì)現(xiàn)有技術(shù)的不足，提供一種策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法，該互聯(lián)網(wǎng)信息采集方法不僅可針對(duì)不同領(lǐng)域的特點(diǎn)，進(jìn)行靈活地配置，從而根據(jù)領(lǐng)域特點(diǎn)定制垂直搜索引擎的信息采集的行為，而且具有高適應(yīng)性，平臺(tái)無(wú)關(guān)性，部署靈活，以此作為垂直:f叟索引擎的核心和基礎(chǔ)模塊能高效、準(zhǔn)確地為垂直搜索引擎的信息分析單元提供原始數(shù)據(jù)。為實(shí)現(xiàn)上述目的，本發(fā)明的技術(shù)方案如下本發(fā)明提出的策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法步驟如下(1)由領(lǐng)域?qū)＜胰斯ぬ砑?，或采用軟件自?dòng)分類方法，或利用第二代搜索引擎的分類目錄選定指定領(lǐng)域的領(lǐng)域網(wǎng)站集；網(wǎng)站集是面向領(lǐng)域信息采集的初始范圍，也是進(jìn)行面向領(lǐng)域信息采集的第一步。(2)編寫信息采集策略，利用信息采集策略解釋器分析編寫好的信息釆集策略，指導(dǎo)網(wǎng)頁(yè)采集器在領(lǐng)域網(wǎng)站集中采集目標(biāo)網(wǎng)頁(yè)。(3)建立能夠代表指定領(lǐng)域特點(diǎn)的名詞組成的領(lǐng)域名詞庫(kù)，才艮據(jù)領(lǐng)域名詞定義，利用網(wǎng)頁(yè)信息分析器獲取目標(biāo)網(wǎng)頁(yè)中的領(lǐng)域相關(guān)信息。(4)將領(lǐng)域相關(guān)信息放入領(lǐng)域信息數(shù)據(jù)庫(kù)。所述信息釆集策略采用XML語(yǔ)言編寫。該XMLSchema的根結(jié)點(diǎn)是一個(gè)site標(biāo)簽，定義所述領(lǐng)域網(wǎng)站集中一個(gè)領(lǐng)域網(wǎng)站的信息釆集策略，根結(jié)點(diǎn)的屬性包括該網(wǎng)站的名稱、URL和登錄器。才艮結(jié)點(diǎn)下有startPages子結(jié)點(diǎn)，定義對(duì)該網(wǎng)站進(jìn)行信息采集的起始頁(yè)集合，startPages子結(jié)點(diǎn)下包含startPage元素結(jié)點(diǎn)；startPage元素結(jié)點(diǎn)的屬性包括該startPage元素結(jié)點(diǎn)對(duì)應(yīng)的起始頁(yè)的地址和擴(kuò)展信息。根結(jié)點(diǎn)下有pageTypes子結(jié)點(diǎn)，定義該網(wǎng)站中的相似網(wǎng)頁(yè)集，pageTypes子結(jié)點(diǎn)下包含pageType元素結(jié)點(diǎn)；pageType元素結(jié)點(diǎn)的屬性包括該相似網(wǎng)頁(yè)集的名稱、判別標(biāo)準(zhǔn)、擴(kuò)展信息分析器，及網(wǎng)頁(yè)處理器。pageType元素結(jié)點(diǎn)下有expectedValues元素，定義網(wǎng)頁(yè)采集器需要在該expectedValues元素所在的pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集中提取的公共變量集合；expectedValues元素下有expectedValue子元素，定義一個(gè)公共變量；所述公共變量來(lái)源于expectedValues元素所在的pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集的擴(kuò)展信息和網(wǎng)頁(yè)采集器當(dāng)前采集頁(yè)面的內(nèi)容。pageType元素結(jié)點(diǎn)下有expectedUrls元素，定義該expectedUrls元素所在pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集在信息采集路徑上的下一個(gè)pageType元素結(jié)點(diǎn)；expectedUrls元素下有expectedUrl子元素，定義一個(gè)新的相似網(wǎng)頁(yè)集。所述信息釆集策略代碼如下<xmlversion="1.0"encoding=，，utf-8"〉<sitexmlns:xsi="http:〃www.w3.org/2001/XMLSchema-instance"xsi:noNamespaceSchemaLocation="SiteXml.xsd"name="smt"siteUrl="http:〃www.scsme.gov.cn/smt/"><startPages〉<startPageurl="http:〃www.scsme.gov.cn/smt/yp—add—vlist.aspid=40"extlnfo二"homepage、yp—add—vlist.aspid=407></startPages〉<pageTypes〉<pageTypename="homepage"expectedExtInfoPattem="Ahomepage、(？<url>.+)$"〉<6xpcctedValu6s〉<expectedValuename="province"nodeSource="〃a[@href='${extlnfo.url}']/text()，V〉</expectedValues〉<expectedUrls〉<expectedUrlurlPattern="yp—add—list\.asp\id={3}$"extInfo=，，corpList、${url}、${province}"/〉</expectedUrls〉</pageType>〈pageTypename="corplist"expectedExtInfoPattern="AcorpList、(？<url>[A、]+)、(？<province>[A，〗+)$"><expectedValues〉<expectedValuename="city"nodeSource:"〃a蹈href:'S{extlnfo.url}']/text()'V〉</expectedValues〉<expectedUrls〉<expectedUrlgeneratedUrlPattem=="http:〃www.scsme.gov.cn/smt/co/co8/contact.aspid=${url.id}"urlPattern="http:〃www\.scsme\.gov\.cn/smt/co\.asp\id=(<id>+)"extInfo="corpInfo、${extlnfo.province}、${city}，，/></expectedUrls〉</pageType><pageTypeuserDefmedHandler="SmartSearcherConsole.SmtPageHandler"name="corpInfo"expectedExtInfoPattern="AcorpInfo、(？<province>[A、]+)、(？<city>[A、]+)$，，><expectedValues〉<expectedValuename="address"pattern="${extInfo.province}/${extlnfo.city}7〉</expectedValues〉</pageType〉</pageTypes〉</site〉所述信息采集策略解釋器是整個(gè)互聯(lián)網(wǎng)信息采集方法的推動(dòng)單元，其作用是分析給定的信息采集策略代碼，并制導(dǎo)網(wǎng)頁(yè)采集器的行為。信息采集策略解釋器的工作包括讀入并分析信息采集策略代/馬，一瞼^E其合法性，并將其轉(zhuǎn)化為可執(zhí)行的結(jié)構(gòu)；按照pageType元素結(jié)點(diǎn)的定義進(jìn)行相似網(wǎng)頁(yè)集的劃分和處理；按照pageType元素結(jié)點(diǎn)中expectedUrl子元素的定義，產(chǎn)生當(dāng)前pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集的所有后繼相似網(wǎng)頁(yè)集；在需要覆蓋信息采集策略解釋器默認(rèn)行為的地方，動(dòng)態(tài)地創(chuàng)建分析器或處理器。所述信息采集策略解釋器的工作流程如下(1)讀入信息采集策略代碼并將其轉(zhuǎn)化為內(nèi)存可執(zhí)行形式；(2)將信息采集策略代碼中startPages子結(jié)點(diǎn)中的起始頁(yè)URL添加到網(wǎng)頁(yè)庫(kù)中，并將它們的狀態(tài)標(biāo)注為"待采集"；(3)啟動(dòng)網(wǎng)頁(yè)采集器從網(wǎng)頁(yè)庫(kù)中取出狀態(tài)為"待采集，，的URL進(jìn)行網(wǎng)頁(yè)采集；(4)對(duì)于每一個(gè)待采集的網(wǎng)頁(yè)，根據(jù)信息采集策略代碼中pageTypes子結(jié)點(diǎn)的定義，將當(dāng)前網(wǎng)頁(yè)匹配至每一個(gè)pageType元素結(jié)點(diǎn)定義，直到找到第一個(gè)可以匹配的pageType元素結(jié)點(diǎn)為止；對(duì)于成功匹配的網(wǎng)頁(yè)，才艮據(jù)成功匹配的pageType元素結(jié)點(diǎn)定義，生成對(duì)應(yīng)的expectedValue和expectedUrl,并將產(chǎn)生的URL添加到網(wǎng)頁(yè)庫(kù)中；如果找不到成功匹配的pageType元素結(jié)點(diǎn)定義，則忽略該網(wǎng)頁(yè)；(5)重復(fù)第(4)個(gè)步驟直到網(wǎng)頁(yè)庫(kù)中不存在狀態(tài)為"待采集"的URL為止。所述網(wǎng)頁(yè)采集器是本發(fā)明即一種策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法與互聯(lián)網(wǎng)交互的部分，其作用是在信息采集策略的指導(dǎo)下，不斷地從互聯(lián)網(wǎng)上抓取目標(biāo)網(wǎng)頁(yè)。網(wǎng)頁(yè)采集器的本質(zhì)是一個(gè)簡(jiǎn)化的瀏覽器，模擬一般瀏覽器進(jìn)行互聯(lián)網(wǎng)訪問的全過程，但裁剪掉了顯示HTML和執(zhí)行JavaScript,VBScript等客戶端腳本功能。領(lǐng)域名詞對(duì)領(lǐng)域的特征有很強(qiáng)的表現(xiàn)力，一般而言，各領(lǐng)域都有其最具代表性或最典型的領(lǐng)域名詞。所述領(lǐng)域名詞定義及其取值和類型均采用XML語(yǔ)言定義；該XMLSchema的根結(jié)點(diǎn)是一個(gè)dv標(biāo)簽，定義一條領(lǐng)域名詞，根結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞的名稱和類型，其中類型屬性的取值為布爾型或單值型或多值型或結(jié)構(gòu)型；根結(jié)點(diǎn)下有零個(gè)或多個(gè)synonym子結(jié)點(diǎn)，定義該領(lǐng)域名詞的一個(gè)同義詞，synonym子結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞同義詞的名稱；當(dāng)根結(jié)點(diǎn)的類型屬性的取值為單值型或多值型或結(jié)構(gòu)型時(shí)，根結(jié)點(diǎn)下有value子結(jié)點(diǎn)，定義該領(lǐng)域名詞的一個(gè)取值，value子結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞取值的內(nèi)容。所述網(wǎng)頁(yè)信息分析器的作用是分析由網(wǎng)頁(yè)采集器采集的網(wǎng)頁(yè)，嘗試提取其中的領(lǐng)域相關(guān)信息，主要以提取領(lǐng)域名詞及其取值為工作方向，將網(wǎng)頁(yè)中非結(jié)構(gòu)化的信息轉(zhuǎn)化為結(jié)構(gòu)化的信息，為垂直搜索引擎的用戶交互部分提供領(lǐng)域信息庫(kù)。所述網(wǎng)頁(yè)信息分析器的工作流程如下(1)將目標(biāo)網(wǎng)頁(yè)的HTML代碼轉(zhuǎn)化為XHTML代碼；(2)將XHTML代碼轉(zhuǎn)化為DOM樹；(3)計(jì)算DOM樹中各結(jié)點(diǎn)的領(lǐng)域覆蓋度和領(lǐng)域信息比，并按給定的閾值將內(nèi)容結(jié)點(diǎn)篩選出來(lái)；(4)對(duì)于DOM樹中的每個(gè)內(nèi)容結(jié)點(diǎn)，根據(jù)領(lǐng)域名詞庫(kù)中的領(lǐng)域名詞類型，分別采取提取領(lǐng)域名詞取值信息；(5)重復(fù)第(4)個(gè)步驟直到所有的內(nèi)容結(jié)點(diǎn)都^L處理。所述網(wǎng)頁(yè)庫(kù)用于存放網(wǎng)頁(yè)采集器從互聯(lián)網(wǎng)上采集的網(wǎng)頁(yè)。網(wǎng)頁(yè)庫(kù)中的每個(gè)網(wǎng)頁(yè)除了具有URL、采集時(shí)間、內(nèi)容長(zhǎng)度這些第二代搜索引擎的網(wǎng)頁(yè)庫(kù)具備的基本屬性外，還有一個(gè)與信息采集策略有很大關(guān)系的屬性，即擴(kuò)展信息。擴(kuò)展信息屬性是網(wǎng)頁(yè)的"描述符"，是非自描述的，不獨(dú)立表義，網(wǎng)頁(yè)擴(kuò)展信息的意義由信息采集策略的相關(guān)部分確定。在默認(rèn)情況下，信息采集策略解釋器按照正則表達(dá)式的語(yǔ)法對(duì)網(wǎng)頁(yè)擴(kuò)展信息進(jìn)行分析，但信息釆集策略的制定者(開發(fā)人員或程序)可根據(jù)具體情況覆蓋信息采集策略解釋器對(duì)網(wǎng)頁(yè)擴(kuò)展信息的處理方式。與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是具有高適應(yīng)性，可根據(jù)信息采集目標(biāo)領(lǐng)域的特點(diǎn)定制恰當(dāng)?shù)男畔⒉杉桨福痪哂衅脚_(tái)無(wú)關(guān)性，部署靈活，以此作為垂直搜索引擎的核心和基礎(chǔ)模塊能高效、準(zhǔn)確地為垂直搜索引擎的信息分析單元提供原始數(shù)據(jù)。圖1是策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法流程圖。圖2是網(wǎng)頁(yè)信息分析器的工作流程圖。圖3是信息采集策略解釋器的工作流程圖。具體實(shí)施例方式下面結(jié)合附圖，對(duì)本發(fā)明的優(yōu)選實(shí)施例作進(jìn)一步的描述。實(shí)施例一如圖1、圖2、圖3所示。使用策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法，實(shí)現(xiàn)手機(jī)領(lǐng)域相關(guān)信息的采集，采集目標(biāo)為手機(jī)的相關(guān)參數(shù)和手機(jī)的當(dāng)前價(jià)格，并根據(jù)信息采集的效果對(duì)所述互聯(lián)網(wǎng)信息采集方法的性能進(jìn)行評(píng)測(cè)。第一步，由人工添加選定指定領(lǐng)域的領(lǐng)域網(wǎng)站集。使用以下手機(jī)網(wǎng)上商城作為領(lǐng)域網(wǎng)站集18900手才幾網(wǎng)http:〃www.18900.com/52手機(jī)商城http:〃www.52mobiles.com/鴻信通手機(jī)網(wǎng)http:〃www.529buy.com/友人手才幾網(wǎng)http:〃www.younet.com/中關(guān)村手機(jī)頻道http:Vmobile.zol.com.cn/手才幾之家http:〃www.imobile.com.cn/北斗手才幾網(wǎng)http:〃www.139shop.com/第二步，編寫信息采集策略，利用信息采集策略解釋器分析編寫好的信息采集策略，指導(dǎo)網(wǎng)頁(yè)采集器在領(lǐng)域網(wǎng)站集中采集目標(biāo)網(wǎng)頁(yè)。所述信息采集策略采用XML語(yǔ)言編寫；該XMLSchema的根結(jié)點(diǎn)是一個(gè)site標(biāo)簽，定義所述領(lǐng)域網(wǎng)站集中一個(gè)領(lǐng)域網(wǎng)站的信息采集策略，根結(jié)點(diǎn)的屬性包括該網(wǎng)站的名稱、URL和登錄器。根結(jié)點(diǎn)下有startPages子結(jié)點(diǎn)，定義對(duì)該網(wǎng)站進(jìn)行信息采集的起始頁(yè)集合，startPages子結(jié)點(diǎn)下包含startPage元素結(jié)點(diǎn)；startPage元素結(jié)點(diǎn)的屬性包括該startPage元素結(jié)點(diǎn)對(duì)應(yīng)的起始頁(yè)的地址和擴(kuò)展信息。根結(jié)點(diǎn)下有pageTypes子結(jié)點(diǎn)，定義該網(wǎng)站中的相似網(wǎng)頁(yè)集，pageTypes子結(jié)點(diǎn)下包含pageType元素結(jié)點(diǎn)；pageType元素結(jié)點(diǎn)的屬性包括該相似網(wǎng)頁(yè)集的名稱、判別標(biāo)準(zhǔn)、擴(kuò)展信息分析器，及網(wǎng)頁(yè)處理器。pageType元素結(jié)點(diǎn)下有expectedValues元素，定義網(wǎng)頁(yè)采集器需要在該expectedValues元素所在的pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集中提取的公共變量集合；expectedValues元素下有expectedValue子元素，定義一個(gè)公共變量；所述公共變量來(lái)源于expectedValues元素所在的pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集的擴(kuò)展信息和網(wǎng)頁(yè)釆集器當(dāng)前采集頁(yè)面的內(nèi)容。pageType元素結(jié)點(diǎn)下有expectedUrls元素，定義該expectedUrls元素所在pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集在信息采集路^圣上的下一個(gè)pageType元素結(jié)點(diǎn)；expectedUrls元素下有expectedUrl子元素,定義一個(gè)新的相似網(wǎng)頁(yè)集。領(lǐng)域網(wǎng)站集中18900手機(jī)網(wǎng)的信息采集策略代碼如下<xmlversion="1.0"encoding="utf-8，，？><sitexmlns:xsi="http:〃www,w3.org/2001/XMLSchema-instance"xsi:noNamespaceSchemaLocation="../SiteXml.xsd"name=，，18900"siteUrl="http:〃www.18900.com"〉<startPages><startPageurl="http:〃www.18900.com/select.html"extInfo="homepage'V></startPages><pagcTypss〉<pageTypename="catetory，，expectedExtInfoPattern="homepage"〉<expectedUrls〉<expectedUrlurlPattern="A/list\.php\goods—type=5|6&goods—corp=+$"extlnfo=，，manu、${url.text}"/〉</expectedUrls〉</pageType〉〈pageTypename二"manu"expectedExtInfoPattern="Amanu、(？<name>[A、]+)$"〉<expectedUrls〉<expectedUrlextlnfo="product、${url.text}manu、${extlnfo.name}，，urlPattern="A/goods/[A\.]+\.html$"/〉</expectedUrls〉</pageType〉〈pageTypename="product"expectedExtInfoPattern="Aproduct、(？<product>[A、]+)manu、(？<manu>[A、]+)，，userDefmedHandler="SmartSearcherEngine.Test.Cellphone.CellphoneInformationCollector"/〉</pageTypes></site>所述信息采集策略解釋器的工作流程如下(1)讀入信息采集策略代碼并將其轉(zhuǎn)化為內(nèi)存可執(zhí)行形式；(2)將信息采集策略代碼中startPages子結(jié)點(diǎn)中的起始頁(yè)URL添加到網(wǎng)頁(yè)庫(kù)中，并將它們的狀態(tài)標(biāo)注為"待采集"；(3)啟動(dòng)網(wǎng)頁(yè)采集器從網(wǎng)頁(yè)庫(kù)中取出狀態(tài)為"待采集"的URL進(jìn)行網(wǎng)頁(yè)采集；(4)對(duì)于每一個(gè)待采集的網(wǎng)頁(yè)，根據(jù)信息采集策略代碼中pageTypes子結(jié)點(diǎn)的定義，將當(dāng)前網(wǎng)頁(yè)匹配至每一個(gè)pageType元素結(jié)點(diǎn)定義，直到找到第一個(gè)可以匹配的pageType元素結(jié)點(diǎn)為止；對(duì)于成功匹配的網(wǎng)頁(yè)，才艮據(jù)成功匹配的pageType元素結(jié)點(diǎn)定義，生成只于應(yīng)的expectedValue和expectedUrl，并一尋產(chǎn)生的URL添加到網(wǎng)頁(yè)庫(kù)中；如果找不到成功匹配的pageType元素結(jié)點(diǎn)定義，則忽略該網(wǎng)頁(yè)；(5)重復(fù)第(4)個(gè)步驟直到網(wǎng)頁(yè)庫(kù)中不存在狀態(tài)為"待采集"的URL為止。所述網(wǎng)頁(yè)采集器是一個(gè)簡(jiǎn)化的瀏覽器，模擬一般瀏覽器進(jìn)行互聯(lián)網(wǎng)訪問的全過程，但裁剪掉了客戶端腳本功能。第三步，建立能夠代表指定領(lǐng)域特點(diǎn)的名詞組成的領(lǐng)域名詞庫(kù)，根據(jù)領(lǐng)域名詞定義，利用網(wǎng)頁(yè)信息分析器獲取目標(biāo)網(wǎng)頁(yè)中的領(lǐng)域相關(guān)信息。所述領(lǐng)域名詞定義及其取值和類型均采用XML語(yǔ)言定義；該XMLSchema的根結(jié)點(diǎn)是一個(gè)dv標(biāo)簽，定義一條領(lǐng)域名詞，根結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞的名稱和類型，其中類型屬性的取值為布爾型或單值型或多值型或結(jié)構(gòu)型；根結(jié)點(diǎn)下有零個(gè)或多個(gè)synonym子結(jié)點(diǎn)，定義該領(lǐng)域名詞的一個(gè)同義詞，synonym子結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞同義詞的名稱；當(dāng)根結(jié)點(diǎn)的類型屬性的取值為單值型或多值型時(shí)，根結(jié)點(diǎn)下有value子結(jié)點(diǎn)，定義該領(lǐng)域名詞的一個(gè)取值，value子結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞取值的內(nèi)容。領(lǐng)域名詞庫(kù)定義代碼部分如下<xmlversion="l,0"encoding="utf-8"〉<dvs><dvname-"網(wǎng)絡(luò)類型"type="nrnltipleVahxe"><synonymname="網(wǎng)絡(luò)制式"/〉<synonymtiame='，網(wǎng)絡(luò)"/><synonymname二'，手機(jī)制式"/><valuename="+"/><valuename二"GSM"/〉<valuename="GPRS"/〉<valuename="CDMA"/></dv><dvname二"價(jià)格"type="singleValue"><synonymname=',價(jià)"/><synonymname:"零售價(jià)"/><synonymname:"優(yōu)惠價(jià)"/><synonymname:"巿場(chǎng)價(jià)"/〉<synonymname:"巿場(chǎng)價(jià)格"/><synonymnamcy參考報(bào)價(jià)'，/><synonymname:"參考價(jià)格"/><synonymname二"各地巿場(chǎng)價(jià)"/><valuename^，+(V+)元"/〉<valuename="￥+(V+)元？"/></dv><dvname二"攝像頭"type="boolean"/〉<dvname二"游戲"type="boolean"><synonymname二"內(nèi)置游戲"/></dv><dvname二"簡(jiǎn)介"type="structural"><synonymname二"介紹"/><synonymname:"描述"/></dv></dvs>所述網(wǎng)頁(yè)信息分^f器的工作流程如下(1)將目標(biāo)網(wǎng)頁(yè)的HTML代碼轉(zhuǎn)化為XHTML代碼；(2)將XHTML代碼轉(zhuǎn)化為DOM樹；(3)計(jì)算D0M樹中各結(jié)點(diǎn)的領(lǐng)域覆蓋度和領(lǐng)域信息比,并按給定的閾值(本次測(cè)試中取60%)將內(nèi)容結(jié)點(diǎn)篩選出來(lái)；(4)對(duì)于DOM樹中的每個(gè)內(nèi)容結(jié)點(diǎn)，根據(jù)領(lǐng)域名詞庫(kù)中的領(lǐng)域名詞類型，分別采取提取領(lǐng)域名詞取值信息；(5)重復(fù)第(4)個(gè)步驟直到所有的內(nèi)容結(jié)點(diǎn)都被處理。第四步，將領(lǐng)域相關(guān)信息放入領(lǐng)域信息數(shù)據(jù)庫(kù)。實(shí)驗(yàn)結(jié)果包含以下參數(shù)總網(wǎng)頁(yè)數(shù)《f。'策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法在對(duì)應(yīng)的網(wǎng)站上采集的網(wǎng)頁(yè)總數(shù)。過程網(wǎng)頁(yè)數(shù)^'—e:策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法在對(duì)應(yīng)的網(wǎng)站上采集的過程網(wǎng)頁(yè)的數(shù)量。目標(biāo)網(wǎng)頁(yè)凄t:策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法在對(duì)應(yīng)的網(wǎng)站上采集的包含領(lǐng)域相關(guān)信息的網(wǎng)頁(yè)數(shù)量。瓦■領(lǐng)域信息率&。"目標(biāo)網(wǎng)頁(yè)數(shù)與總網(wǎng)頁(yè)數(shù)的比值，計(jì)算公式為"，'"W,。toZ平均網(wǎng)頁(yè)處理時(shí)間Ls順策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法在對(duì)應(yīng)的網(wǎng)站上分析每個(gè)網(wǎng)頁(yè)平均耗費(fèi)的平均時(shí)間(單位為毫秒)。此時(shí)間不包含下載網(wǎng)頁(yè)所需的網(wǎng)絡(luò)傳輸時(shí)間。<table>tableseeoriginaldocumentpage16</column></row><table>從以上實(shí)驗(yàn)結(jié)果可以看出，策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法在進(jìn)行信息采集的時(shí)候，通過信息采集策略的指導(dǎo)和領(lǐng)域名詞定義的約束，可進(jìn)行高效的領(lǐng)域相關(guān)信息采集，既可獲得較高領(lǐng)域信息率，又具有較高執(zhí)行效率。實(shí)施例二如圖1、圖2、圖3所示。與實(shí)施例一相同的地方不再重復(fù)l又述，不同之處在于采用軟件自動(dòng)分類方法選定指定領(lǐng)域的領(lǐng)域網(wǎng)站集。定義一段典型的信息采集策略代碼。<xmlversion="1.0"encoding-"utf陽(yáng)8"〉<sitexmlns:xsi二"http:〃www.w3.org/2001/XMLSchema-instance"xsi:noNamespaceSchemaLocation="SiteXml.xsd"name="smt"siteUrl="http:〃www.scsme.gov.cn/smt/，，><startPages〉<startPageurl="http:〃www.scsme.govxn/smt/yp—add—vlist.aspid二40"extInfo=，，hoinepage、yp_add—vlist.aspid=407></startPages〉<pageTypes><pageTypename="homepage，，expectedExtInfoPattern="Ahomepage、(？<url>.+)$，，〉<expectedValues〉<expectedValuename=，，province，，nodeSource="〃a[@href=，${extInfo.url}，]/text()"/></expectedValues><expectedUrls><expectedUrlurlPattern=，，yp—add—list\,asp\id={3}$"ext!nfo=，，corpList、${url}、${province}，，/></expectedUrls〉</pageType〉〈pageTypename="corpList"expectedExtInfoPattem="AcorpList、(？<url>[A、]+)、(？<province>[A、]+)$"〉<expectedValues〉<expectedValuename="city"nodeSource=，，〃a[@href='${extlnfo.url}']/text()7〉</expectedValues><expectedUrls〉<sxpcctedUrlgeneratedUrlPattem="http:〃www.scsme.gov.cn/smt/co/co8/contact.aspid=${uii.id}"urlPattern="http:〃wwwVscsme\.gov\.cn/smt/co\,asp\id=(<id>+)"extInfo="corpInfo、${extlnfo.province}、${city}"/〉</expectedUrls〉</pageType><pageTypeuserDefinedHandler="SmartSearcherConsole.SmtPageHandler，，name="corp!nfo，，expectedExtInfoPattern="AcorpInfo、(？<province>[A、]+)、(？<city>[A、]+)$"><expectedValues〉<expectedValuename-"address"pattern="${extInfo.province}/${extlnfo.city}7></expectedValues〉</pageType〉</pageTypes〉</site〉其中，所述信息釆集策略中pageType元素結(jié)點(diǎn)的擴(kuò)展信息分析器屬性釆用C弁定義，具體代碼如下publicinterfaceIPageHandlervoidHandle(stringurl,stringhtml,PageTypeParsingResultpageTypeParseResult);其中url為當(dāng)前正在分析的網(wǎng)頁(yè)地址，html為該網(wǎng)頁(yè)的HTML代碼，pageTypeParseResult的定義如下(C弁定義，只列出數(shù)據(jù)成員)publicclassPageTypeParsingResultSiteCrawlingStrategym—scs;Iist<PendingURI>m—urls;SortedList<string，List<string〉〉m—values;}_其中m—scs為網(wǎng)頁(yè)采集器策略對(duì)象，m_urls為網(wǎng)頁(yè)采集器在當(dāng)前網(wǎng)頁(yè)中新發(fā)現(xiàn)的，需要加到URL隊(duì)列中的URL列表，m—values為網(wǎng)頁(yè)采集器根據(jù)expectedValues元素的值從當(dāng)前網(wǎng)頁(yè)中取得的值。擴(kuò)展信息的作用是采用一定策略填充m—urls的內(nèi)容。實(shí)施例三如圖1、圖2、圖3所示。與實(shí)施例一相同的地方不再重復(fù)敘述，不同之處在于利用第二代搜索引擎的分類目錄選定指定領(lǐng)域的領(lǐng)域網(wǎng)站集。權(quán)利要求1.一種策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法，其特征在于所述互聯(lián)網(wǎng)信息采集方法步驟如下(1)由領(lǐng)域?qū)＜胰斯ぬ砑?，或采用軟件自?dòng)分類方法，或利用第二代搜索引擎的分類目錄選定指定領(lǐng)域的領(lǐng)域網(wǎng)站集；(2)編寫信息采集策略，利用信息采集策略解釋器分析編寫好的信息采集策略，指導(dǎo)網(wǎng)頁(yè)采集器在領(lǐng)域網(wǎng)站集中采集目標(biāo)網(wǎng)頁(yè)；(3)建立能夠代表指定領(lǐng)域特點(diǎn)的名詞組成的領(lǐng)域名詞庫(kù)，根據(jù)領(lǐng)域名詞定義，利用網(wǎng)頁(yè)信息分析器獲取目標(biāo)網(wǎng)頁(yè)中的領(lǐng)域相關(guān)信息；(4)將領(lǐng)域相關(guān)信息放入領(lǐng)域信息數(shù)據(jù)庫(kù)。2.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)信息采集方法，其特征在于所述信息釆集策略采用XML語(yǔ)言編寫；該XMLSchema的根結(jié)點(diǎn)是一個(gè)site標(biāo)簽，定義所述領(lǐng)域網(wǎng)站集中一個(gè)領(lǐng)域網(wǎng)站的信息采集策略，根結(jié)點(diǎn)的屬性包括該網(wǎng)站的名稱、URL和登錄器；根結(jié)點(diǎn)下有startPages子結(jié)點(diǎn)，定義對(duì)該網(wǎng)站進(jìn)行信息采集的起始頁(yè)集合，startPages子結(jié)點(diǎn)下包含startPage元素結(jié)點(diǎn)；startPage元素結(jié)點(diǎn)的屬性包括該startPage元素結(jié)點(diǎn)對(duì)應(yīng)的起始頁(yè)的地址和擴(kuò)展信息；才艮結(jié)點(diǎn)下有pageTypes子結(jié)點(diǎn)，定義該網(wǎng)站中的相似網(wǎng)頁(yè)集，pageTypes子結(jié)點(diǎn)下包含pageType元素結(jié)點(diǎn)；pageType元素結(jié)點(diǎn)的屬性包括該相似網(wǎng)頁(yè)集的名稱、判別標(biāo)準(zhǔn)、擴(kuò)展信息分析器，及網(wǎng)頁(yè)處理器；pageType元素結(jié)點(diǎn)下有expectedValues元素，定義網(wǎng)頁(yè)采集器需要在該expectedValues元素所在的pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集中提耳又的公共變量集合；expectedValues元素下有expectedValue子元素，定義一個(gè)^>共變量；所述7>共變量來(lái)源于expectedValues元素所在的pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集的擴(kuò)展信息和網(wǎng)頁(yè)采集器當(dāng)前采集頁(yè)面的內(nèi)容;pageType元素結(jié)點(diǎn)下有expectedUrls元素,定義該expectedUrls元素所在pageType元素結(jié)點(diǎn)對(duì)應(yīng)的相似網(wǎng)頁(yè)集在信息采集^各徑上的下一個(gè)pageType元素結(jié)點(diǎn)；expectedUrls元素下有expectedUrl子元素，定義一個(gè)新的相似網(wǎng)頁(yè)集。3.根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)信息采集方法，其特征在于所述信息采集策略解釋器的工作流程如下(1)讀入信息采集策略代碼并將其轉(zhuǎn)化為內(nèi)存可執(zhí)行形式；(2)將信息采集策略代碼中startPages子結(jié)點(diǎn)中的起始頁(yè)URL添加到網(wǎng)頁(yè)庫(kù)中，并將它們的狀態(tài)標(biāo)注為"待采集"；(3)啟動(dòng)網(wǎng)頁(yè)采集器從網(wǎng)頁(yè)庫(kù)中取出狀態(tài)為"待采集，，的URL進(jìn)行網(wǎng)頁(yè)采集；(4)對(duì)于每一個(gè)待采集的網(wǎng)頁(yè)，根據(jù)信息采集策略代碼中pageTypes子結(jié)點(diǎn)的定義，將當(dāng)前網(wǎng)頁(yè)匹配至每一個(gè)pageType元素結(jié)點(diǎn)定義，直到找到第一個(gè)可以匹配的pageType元素結(jié)點(diǎn)為止；對(duì)于成功匹配的網(wǎng)頁(yè)，才艮據(jù)成功匹配的pageType元素結(jié)點(diǎn)定義，生成對(duì)應(yīng)的expectedValue和expectedUrl,并將產(chǎn)生的URL添加到網(wǎng)頁(yè)庫(kù)中；如果找不到成功匹配的pageType元素結(jié)點(diǎn)定義，則忽略該網(wǎng)頁(yè)；(5)重復(fù)第(4)個(gè)步驟直到網(wǎng)頁(yè)庫(kù)中不存在狀態(tài)為"待采集"的URL為止。4.根據(jù)權(quán)利要求1至3任一所述的互聯(lián)網(wǎng)信息采集方法，其特征在于所述網(wǎng)頁(yè)采集器是一個(gè)簡(jiǎn)化的瀏覽器，模擬一般瀏覽器進(jìn)行互聯(lián)網(wǎng)訪問的全過程，但裁剪掉了客戶端腳本功能。5.根據(jù)權(quán)利要求1至3任一所述的互聯(lián)網(wǎng)信息采集方法，其特征在于所述領(lǐng)域名詞定義及其取值和類型均采用XML語(yǔ)言定義；該XMLSchema的根結(jié)點(diǎn)是一個(gè)dv標(biāo)簽，定義一條領(lǐng)域名詞，根結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞的名稱和類型，其中類型屬性的取值為布爾型或單值型或多值型或結(jié)構(gòu)型；根結(jié)點(diǎn)下有零個(gè)或多個(gè)synonym子結(jié)點(diǎn)，定義該領(lǐng)域名詞的一個(gè)同義詞，synonym子結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞同義詞的名稱；當(dāng)根結(jié)點(diǎn)的類型屬性的取值為單值型或多值型時(shí)，根結(jié)點(diǎn)下有value子結(jié)點(diǎn)，定義該領(lǐng)域名詞的一個(gè)取值，value子結(jié)點(diǎn)的屬性包括該領(lǐng)域名詞取值的內(nèi)容。6.根據(jù)權(quán)利要求5所述的互聯(lián)網(wǎng)信息采集方法，其特征在于所述網(wǎng)頁(yè)信息分析器的工作流程如下(1)將目標(biāo)網(wǎng)頁(yè)的HTML代碼轉(zhuǎn)化為XHTML代碼；(2)將XHTML代碼轉(zhuǎn)化為DOM樹；(3)計(jì)算DOM樹中各結(jié)點(diǎn)的領(lǐng)域覆蓋度和領(lǐng)域信息比，并按給定的閾值將內(nèi)容結(jié)點(diǎn)篩選出來(lái)；(4)對(duì)于DOM樹中的每個(gè)內(nèi)容結(jié)點(diǎn)，根據(jù)領(lǐng)域名詞庫(kù)中的領(lǐng)域名詞類型，分別釆取提取領(lǐng)域名詞取值信息；(5)重復(fù)第(4)個(gè)步驟直到所有的內(nèi)容結(jié)點(diǎn)都^L處理。全文摘要本發(fā)明公開了一種策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法。該互聯(lián)網(wǎng)信息采集方法步驟如下由領(lǐng)域?qū)＜胰斯ぬ砑?，或采用軟件自?dòng)分類方法，或利用第二代搜索引擎的分類目錄選定指定領(lǐng)域的領(lǐng)域網(wǎng)站集；編寫信息采集策略，利用信息采集策略解釋器分析編寫好的信息采集策略，指導(dǎo)網(wǎng)頁(yè)采集器在領(lǐng)域網(wǎng)站集中采集目標(biāo)網(wǎng)頁(yè)；建立能夠代表指定領(lǐng)域特點(diǎn)的名詞組成的領(lǐng)域名詞庫(kù)，根據(jù)領(lǐng)域名詞定義，利用網(wǎng)頁(yè)信息分析器獲取目標(biāo)網(wǎng)頁(yè)中的領(lǐng)域相關(guān)信息；將領(lǐng)域相關(guān)信息放入領(lǐng)域信息數(shù)據(jù)庫(kù)。與現(xiàn)有技術(shù)相比，本發(fā)明具有高適應(yīng)性，平臺(tái)無(wú)關(guān)性，部署靈活，以此作為垂直搜索引擎的核心和基礎(chǔ)模塊能高效、準(zhǔn)確地為垂直搜索引擎的信息分析單元提供原始數(shù)據(jù)。文檔編號(hào)G06F17/30GK101118553SQ200710049709公開日2008年2月6日申請(qǐng)日期2007年8月9日優(yōu)先權(quán)日2007年8月9日發(fā)明者邊姜申請(qǐng)人:邊姜

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：姜邊
技術(shù)所有人：姜邊
我是此專利的發(fā)明人

上一篇：特殊蝸殼展開參數(shù)計(jì)算方法
上一篇：反惡意程序隱蔽調(diào)試引擎與方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

面向領(lǐng)域編程相關(guān)技術(shù)

面向領(lǐng)域設(shè)計(jì)相關(guān)技術(shù)

面向領(lǐng)域相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種策略導(dǎo)向的面向領(lǐng)域的互聯(lián)網(wǎng)信息采集方法