專利名稱:基于增量Q-Learning的學(xué)習(xí)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于增量Q-Learning的學(xué)習(xí)方法及系統(tǒng),是一種應(yīng) 用于從萬維網(wǎng)上快速有效的檢索用戶所需信息的一種增量Q-Learning學(xué) 習(xí)方法及系統(tǒng)。
技術(shù)背景Web爬蟲(Web Crawler或Spider, Robot)是一種信息收集系統(tǒng)。它通 過下載Web頁面,并沿著已爬行頁面中的超鏈接來遍歷Web,收集Web 頁面。 一般Web爬蟲通常用于通用搜索引擎中,作為搜索引擎的頁面收集 系統(tǒng)。它通常以寬度優(yōu)先的模式(即無選擇性)遍歷Web,力求在限定的 爬行周期內(nèi)收集到盡可能多的Web頁面。Web爬蟲采用特定的爬行(Crawling)策略,周期性的收集盡可能多的 Web網(wǎng)頁,然后提交給自動(dòng)索引系統(tǒng);索引系統(tǒng)根據(jù)定義的索引要求建立 基于相應(yīng)檢索元的索引庫;用戶通過系統(tǒng)提供的查詢接口訪問搜索引擎; 查詢系統(tǒng)根據(jù)用戶提交的查詢條件搜索索引庫,獲得檢索結(jié)果,并且采用 一定的評(píng)價(jià)算法計(jì)算用戶查詢條件和檢索結(jié)果之間的相關(guān)性,檢索結(jié)果根 據(jù)相關(guān)度進(jìn)行排序后按高相關(guān)度優(yōu)先的順序返回給用戶。爬蟲的工作過程是一個(gè)沿著存在于Web頁面之間的超鏈接遍歷Web 的過程。作為通用搜索引擎的頁面收集代理, 一般Web爬蟲在選擇下一個(gè) 要爬行的URL ( Uniform Resoure Locator統(tǒng)一資源定位器、網(wǎng)絡(luò)地址)時(shí), 是無目的性的,即一般采用FIFO (First-in First-out先進(jìn)先出)的順序從 URL隊(duì)列中逐個(gè)取出URL,其爬行策略是無選擇性的。這是由通用搜索引 擎的目標(biāo)決定的,即要求在有限的時(shí)間內(nèi)收集到盡可能多的頁面。它沒有 預(yù)定義的目標(biāo)主題的導(dǎo)向,因此對(duì)Web的遍歷過程是沒有選擇性的。主題爬蟲(Topical Crawler ),又稱為聚焦爬蟲(Focused crawler)或 主題驅(qū)動(dòng)的爬蟲(Topic-driven crawler )。它是一種智能的Web爬蟲,因此 它的基本工作過程與 一般的爬蟲是相似的。然而,與一般Web爬蟲不同的是,主題爬蟲在進(jìn)行爬行時(shí)是目標(biāo)主 題驅(qū)動(dòng)的,在遍歷Web時(shí)是有選擇性的,其目標(biāo)是使爬行結(jié)果的"收獲率" 最大化。"收獲率"的定義與傳統(tǒng)信息檢索領(lǐng)域中的查準(zhǔn)率(或精度)相似, 可計(jì)算為爬行結(jié)果頁面集中主題相關(guān)頁面所占的百分?jǐn)?shù)。主題爬蟲的爬行過程可以看作是一個(gè)有選^^性的遍歷Web圖的過程,它從一組種子URL 出發(fā),沿著Web頁面上的超鏈接不斷爬行網(wǎng)頁。在爬行過程中,系統(tǒng)要 判斷已爬行到的頁面是否是主題相關(guān)的,并通過超鏈接分析算法(或其它 優(yōu)化算法)確定下一個(gè)被訪問的候選URL(候選URL存放在URL隊(duì)列中, 是從已收集的網(wǎng)頁中抽取出來的,并且未經(jīng)爬行)。在遍歷Web圖時(shí),主 題爬蟲就是要確保盡可能多的訪問那些屬于相關(guān)集的節(jié)點(diǎn),同時(shí)盡可能避 免搜集到那些屬于不相關(guān)集的節(jié)點(diǎn)。雖然現(xiàn)有的主題爬蟲技術(shù)已經(jīng)取得了令人鼓舞的進(jìn)步,但從系統(tǒng)性能 上看還難盡如人意。特別是對(duì)于比較"窄"的目標(biāo)主題來說,系統(tǒng)的爬行收 獲率還需要較大的提高??v觀現(xiàn)有的主題爬蟲方法,它們大部分都依賴于 有監(jiān)督或半監(jiān)督的學(xué)習(xí)算法(例如樸素貝葉斯方法,Q-Learning),從而能 夠從初始的目標(biāo)主題信息(特別是樣本頁面)中學(xué)習(xí)并構(gòu)造頁面(超文本) 分類模型和超鏈接評(píng)價(jià)模型,而生成的模型通常是靜態(tài)的,在爬行過程中 得不到更新,即它們?nèi)狈稍诰€增量學(xué)習(xí)的能力。這種靜態(tài)的策略是影響 主題爬蟲性能以及可用性的主要原因首先,由于缺乏增量學(xué)習(xí)能力,初始樣本頁面(包括主題層次目錄中 的頁面和用戶提供的樣本頁面)就成為決定超文本分類器和超鏈接評(píng)價(jià)器 性能的主要因素。然而,要提供一個(gè)全面的、高質(zhì)量的初始樣本集通常是 比較困難且耗時(shí)的,因此初始樣本通常是很有限的,不足以構(gòu)造精確的超 文本分類器和超鏈接評(píng)價(jià)器,從而影響了系統(tǒng)的性能?;谟斜O(jiān)督學(xué)習(xí)算法的超文本分類器在訓(xùn)練時(shí)既需要正例樣本,也需 要大量的反例樣本。然而,要在爬行開始時(shí)就提供足夠的反例以完全覆蓋 反例主題是很困難的。例如,假設(shè)目標(biāo)主題是"計(jì)算機(jī)",那么如何找到足 夠全面的反例頁面來表示"所有非計(jì)算機(jī)"呢?雖然主題層次目錄可以在一 定程度上解決這個(gè)問題,即將目錄樹中的某個(gè)結(jié)點(diǎn)標(biāo)識(shí)為正例集(目標(biāo)主 題),而所有其它結(jié)點(diǎn)標(biāo)識(shí)為反例集,但是由于主題層次目錄所覆蓋的主題 范圍比較有限,因此目標(biāo)主題可能無法用它來表示,特別是對(duì)于那些"窄" 的目標(biāo)主題,這種方法就存在明顯的局限性。Web頁面的內(nèi)容以及不同主題頁面集的超鏈接結(jié)構(gòu)是多種多樣的,這 就要求頁面分類模型和超鏈接評(píng)價(jià)模型能夠在爬行過程中得到不斷的更 新和調(diào)整,以適應(yīng)異構(gòu)的爬行環(huán)境。 發(fā)明內(nèi)容為了解決現(xiàn)有主題爬蟲技術(shù)中存在的對(duì)于比較"窄"的目標(biāo)主題來說, 系統(tǒng)的爬行收獲率較低,生成的頁面(超文本)分類模型和超鏈接評(píng)價(jià)模 型是靜態(tài)的,在爬行過程中得不到更新,缺乏可在線增量學(xué)習(xí)的能力,導(dǎo) 致初始樣本頁面(包括主題層次目錄中的頁面和用戶提供的樣本頁面)就 成為決定超文本分類器和超鏈接評(píng)價(jià)器性能的主要因素。然而,要提供一 個(gè)全面的、高質(zhì)量的初始樣本集通常是比較困難且耗時(shí)的,因此初始樣本 通常是很有限的,不足以構(gòu)造精確的超文本分類器和超鏈接評(píng)價(jià)器,從而 影響了系統(tǒng)的性能。而且由于利用現(xiàn)有技術(shù)進(jìn)行主題層次目錄所覆蓋的主 題范圍比較有限,因此目標(biāo)主題可能無法全面表示,特別是對(duì)于那些"窄" 的目標(biāo)主題,現(xiàn)有技術(shù)方法存在明顯的局限性等技術(shù)問題,本發(fā)明提供了一種基于增量Q - Learning的學(xué)習(xí)方法。為了解決現(xiàn)有主題爬蟲技術(shù)中存在的對(duì)于比較"窄"的目標(biāo)主題來說, 系統(tǒng)的爬行收獲率較低,生成的頁面(超文本)分類模型和超鏈接評(píng)價(jià)模 型是靜態(tài)的,在爬行過程中得不到更新,缺乏可在線增量學(xué)習(xí)的能力,導(dǎo) 致初始樣本頁面(包括主題層次目錄中的頁面和用戶提供的樣本頁面)就 成為決定超文本分類器和超鏈接評(píng)價(jià)器性能的主要因素。然而,要提供一 個(gè)全面的、高質(zhì)量的初始樣本集通常是比較困難且耗時(shí)的,因此初始樣本 通常是很有限的,不足以構(gòu)造精確的超文本分類器和超鏈接評(píng)價(jià)器,從而 影響了系統(tǒng)的性能。而且由于利用現(xiàn)有技術(shù)進(jìn)行主題層次目錄所覆蓋的主 題范圍比較有限,因此目標(biāo)主題可能無法全面表示,特別是對(duì)于那些"窄" 的目標(biāo)主題,現(xiàn)有技術(shù)方法存在明顯的局限性等技術(shù)問題,本發(fā)明提供了 一種基于增量Q - Learning的學(xué)習(xí)。本發(fā)明解決現(xiàn)有技術(shù)問題所采用的技術(shù)方案為提供一種基于增量Q-Learning學(xué)習(xí)方法,所述增量Q-Learning學(xué)習(xí)方法包括步驟第一步 將種子站點(diǎn)集合S作為起始爬行URL隊(duì)列H;第二步、對(duì)初始樣本頁面 集W進(jìn)行學(xué)習(xí);第三步、從所述起始爬行URL隊(duì)列H中取Q函數(shù)值最高 的結(jié)點(diǎn)U;第四步、爬行得到所述節(jié)點(diǎn)U對(duì)應(yīng)的頁面d;第五步、將所述 頁面d加入到已爬行頁面集D;第六步、從所述頁面d中解析出新的URL 節(jié)點(diǎn)集11*;第七步、將所述URL節(jié)點(diǎn)集l^加入到所述起始爬行URL隊(duì) 列H中;第八步、計(jì)算所述頁面d的相關(guān)度R(d);第九步、將所述相關(guān)度 R(d)沿鏈接路徑進(jìn)行反饋對(duì)其祖先頁面重新計(jì)算函數(shù)Q值;第十步、使 用所述第十步中所述函數(shù)Q值進(jìn)行重新訓(xùn)練;第十一步、對(duì)于待選的URL使用重新訓(xùn)練過的分類器進(jìn)行函數(shù)Q值的估算;第十二步、對(duì)所述URL 對(duì)列中進(jìn)行基于所述函數(shù)Q值的排序。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述第二步為使用頁面相關(guān)度評(píng)估器對(duì) 初始樣本頁面集W進(jìn)行學(xué)習(xí),具體包括步驟首先、用普通爬蟲或其它類 型的主題爬蟲爬行一部分頁面,作為函數(shù)Q值計(jì)算的訓(xùn)練集;其次、設(shè)超鏈接為"',計(jì)算它的函數(shù)2值^"')的方法是設(shè)定e("';i",如果所述超鏈接&直接鏈接向 一個(gè)主題相關(guān)頁面,則設(shè)定G("') = 0 。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述第三步具體為對(duì)候選URL進(jìn)行IQ-Learning評(píng)估,在IQ-Learning算法中,候選URL的函數(shù)Q值是基于已爬行頁面集合在線計(jì)算,它的定義既考慮了立即回報(bào)也考慮了長(zhǎng)遠(yuǎn)回報(bào),2(",)=単,)+艦), 附)丄公式為 ";其中,"'是已爬行的超鏈接、《是爬行所述"'獲得的頁面、表示頁面《的主題相關(guān)度、"4是所述"'的子URL,并且是一個(gè)已爬行的URL、"表示"'的已爬行子URL的總數(shù)、^"》表示^的函數(shù)Q值、^是一個(gè)折算因子;這個(gè)定義是一個(gè)遞歸的定義,其中^《)表示了爬行"'而獲得的立即回報(bào),而幼《)表示折算 了的累計(jì)長(zhǎng)遠(yuǎn)回報(bào),^決定了長(zhǎng)遠(yuǎn)回報(bào)相對(duì)于立即回報(bào)的重要性。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述第八步為通過頁面相關(guān)度評(píng)估器計(jì) 算所述頁面d的相關(guān)度R(d),具體包括步驟(一)、提取鏈接上下文信息; (二)、對(duì)以獲取到的鏈接進(jìn)行分類;(三)、根據(jù)訓(xùn)練樣本集計(jì)算出先驗(yàn)概 率和后驗(yàn)概率。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述步驟(一)具體為每個(gè)超鏈接的 上下文""》是由它的錨文本以及該超鏈接的源頁面的標(biāo)題(Title )組成的,這樣每個(gè)訓(xùn)練樣本可以表示為〈n"'),c'、采用樸素貝葉斯作為訓(xùn)練算 法,首先r")要通過向量空間模型表示為一個(gè)詞頻加權(quán)向量,最后f("')表示為r(M,)=<0h,02,,.'.,A,,-.,A, > 。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述步驟(二)具體為對(duì)每一個(gè)新發(fā)現(xiàn)的超鏈接^ (對(duì)應(yīng)于候選URL),分類器要根據(jù)所述URL的上下文^"》判 斷它屬于哪個(gè)類C',并把與該類相對(duì)應(yīng)的Q值賦給所述候選URL以表示 它的爬行優(yōu)先級(jí);對(duì)于NB分類器,這個(gè)任務(wù)可以表示為要找到一個(gè)類C',使該類相對(duì)于所述r("')的條件概率P^I^"'》最大化,可用下式來表示i廠(",)iC* = arg max P(C,) | C》=arg max戶(。)fj尸( | )根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述步驟(三)具體為先驗(yàn)概率P(C》 為類G包含的樣本數(shù)量占整個(gè)樣本集的百分比;后驗(yàn)概率^("^ 1 C》為1^1+丄,=,,,其中,IH表示特征空間的大小,氣表示特征(詞)"在類。的一個(gè)訓(xùn)練樣本F("》中所具有的c權(quán)值,即^i、表 示了特征"在類e'中的^ *蜂權(quán)值總和,"'表示e'的一個(gè)訓(xùn)練樣本f")中所有特征的^,權(quán)值的總和,即21=>'表示類q中的所有特征的e, 權(quán)值總和。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述步驟J具體為使用所述步驟I中新 獲取的函數(shù)Q值對(duì)樸素貝葉斯Q值映射分類器進(jìn)行重新訓(xùn)練。為了解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明還提供了一種基于增量Q -Learning學(xué)習(xí)系統(tǒng),所述系統(tǒng)包括頁面相關(guān)度評(píng)估器、超鏈接評(píng)價(jià)器和 網(wǎng)頁爬行器,所述系統(tǒng)還包括樣本生成器,所述樣本生成器分別與所述頁 面相關(guān)度評(píng)估器、所述超鏈接評(píng)價(jià)器和所述網(wǎng)頁爬行器連接。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述頁面相關(guān)度評(píng)估器與所述超鏈接評(píng) 價(jià)器是緊耦合的關(guān)系。本發(fā)明的有益效果在于在基于增量Q-Learning學(xué)習(xí)系統(tǒng)中,頁面 分類器和超鏈接評(píng)價(jià)器具有增量學(xué)習(xí)能力,從而改進(jìn)了現(xiàn)有主題爬蟲的體 系結(jié)構(gòu),使主題爬蟲在爬行過程中能進(jìn)行在線學(xué)習(xí),具有更強(qiáng)的自適應(yīng)性能快速優(yōu)化其爬行策略?;谠隽縌-Leaming學(xué)習(xí)方法是基于增強(qiáng)學(xué)習(xí)思想的,它在學(xué)習(xí)時(shí) 考慮到了長(zhǎng)遠(yuǎn)回報(bào)問題,因此不容易陷入局部最優(yōu),具有更好的性能。我 們通過大量的對(duì)比實(shí)驗(yàn)證明了增量學(xué)習(xí)對(duì)于提高主題爬蟲的收獲率是非常 有效的。 說明書附l.本發(fā)明基于增量Q-Leaming的學(xué)習(xí)方法及系統(tǒng)中增量Q-Learning學(xué)習(xí)方法流程圖;圖2.—個(gè)從已爬行頁面集中構(gòu)造的超鏈接結(jié)構(gòu)示意圖;圖3.本發(fā)明基于增量Q-Learning的學(xué)習(xí)方法及系統(tǒng)中增量Q-Learning學(xué)習(xí)系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一 步說明增強(qiáng)學(xué)習(xí)(Reinforcementlearning )是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支。 從智能Agent (代理程序在一些查詢系統(tǒng)中,用戶可以采用自己喜歡的 格式提出查詢要求,再由代理程序Agent轉(zhuǎn)換成適合數(shù)據(jù)庫使用的嚴(yán)格定 義的查詢參數(shù))的角度看,它是研究如何使自治的Agent感知環(huán)境并在與 環(huán)境的交互中學(xué)習(xí)到最優(yōu)的控制策略,從而在該策略的指導(dǎo)下達(dá)到目標(biāo)狀 態(tài)的過程。Agent尋找目標(biāo)狀態(tài)的過程是一個(gè)馬爾可夫決策過程(Markov decision process, MDP),它可以用回報(bào)(Reward)方程來定義,即Agent 與環(huán)境的交互結(jié)果是以回報(bào)的形式表達(dá)的,如果Agent對(duì)當(dāng)前環(huán)境采取的 行動(dòng)對(duì)最終達(dá)到目標(biāo)有利,則將得到正回報(bào),否則為負(fù)回報(bào),判斷Agent 是否達(dá)到目標(biāo)的標(biāo)準(zhǔn)就是要使Agent得到的累計(jì)回報(bào)總和最大化。這個(gè) MDP (Markov Decision Process馬爾可夫決策)過程可以更形式化的定義 如下假設(shè)Agent的狀態(tài)空間為S,初始狀態(tài)為st,可能采取的動(dòng)作空間 為A,狀態(tài)轉(zhuǎn)換函數(shù)為&S" —S,回報(bào)函數(shù)為rS" — i ,則Agent與環(huán)境的交互過程得到的累計(jì)回凈艮可表示為<formula>formula see original document page 10</formula>
其中,。+'表示Agent進(jìn)行第i次狀態(tài)轉(zhuǎn)移而得到的回報(bào)(由回報(bào)函數(shù)"確定),這是學(xué)習(xí)系統(tǒng)提供給Agent 的唯一訓(xùn)練信息。根據(jù)MDP的性質(zhì),Agent采取的動(dòng)作"'+'只與它當(dāng)前所處的狀態(tài)^有關(guān),而不依賴于以前的狀態(tài)和動(dòng)作。Z為折算因子,通常情 況下0《ySl,它表示從初始狀態(tài)出發(fā),越往后的狀態(tài)轉(zhuǎn)移得到的回報(bào)對(duì)最優(yōu)控制策略選擇的影響越小,即未來的回報(bào)相對(duì)于立即回報(bào)要進(jìn)行折算。這種折算通常是比較合理的,因?yàn)樵谠S多情況下我們希望獲得更快的回報(bào)。那么,"")表示在策略"的控制下,Agent由任意狀態(tài)&出發(fā)獲得的折算累計(jì)回報(bào),增強(qiáng)學(xué)習(xí)的目標(biāo)是要找到一個(gè)控制策略冗,它使"")最大化。 這個(gè)策略稱為最優(yōu)策略(Optimal policy ),可用"'來表示那么如何學(xué)習(xí)到這個(gè)最優(yōu)策略冗'呢?直接學(xué)習(xí)函數(shù),S — J是很困難 的,因?yàn)橛?xùn)練數(shù)據(jù)中沒有提供"',"'>形式的訓(xùn)練樣例。作為替代,唯一可用的訓(xùn)練信息是立即回報(bào)序列"","'),"G'1,2…。給定這種類型的訓(xùn)練信息,更容易的是學(xué)習(xí)一個(gè)定義在狀態(tài)和動(dòng)作上的數(shù)值評(píng)估函數(shù),然后以此 評(píng)估函數(shù)的形式實(shí)現(xiàn)最優(yōu)策略。目前,2函數(shù)是使用最廣泛的評(píng)估函數(shù),它的定義如下<formula>formula see original document page 11</formula>三W, ,", ) + ^ max"',), a"i)評(píng)估函數(shù)2" , A)表示從狀態(tài) 開始并使用A作為第 一個(gè)動(dòng)作時(shí)的最大 折算累積回報(bào)。換言之,2",",)的值為從狀態(tài)&執(zhí)行動(dòng)作"'的立即回報(bào)加上以后(即從新狀態(tài)^","')開始)遵循最優(yōu)策略^而獲得的回報(bào)。根據(jù)Q 函數(shù)的定義,上述公式可以重寫為0"'^的形式這樣,Agent尋找最優(yōu)策略的過程就可以轉(zhuǎn)化為如何學(xué)習(xí)最優(yōu)G函數(shù)的問題,稱為s學(xué)習(xí)(e-丄ewm'"g)。從公式可以看出e函數(shù)的定義是一個(gè)遞歸定義,因此可以采用迭代逼近的e學(xué)習(xí)算法來確定最優(yōu)的G函數(shù)。通 過該最優(yōu)^函數(shù)Agent可以對(duì)當(dāng)前所處狀態(tài)^時(shí)應(yīng)該采取哪一個(gè)動(dòng)作"'做出最優(yōu)選擇(即選擇具有最大e函數(shù)值的動(dòng)作)。以下結(jié)合附圖對(duì)本發(fā)明所述技術(shù)進(jìn)行詳細(xì)說明請(qǐng)參閱
圖1本發(fā)明基于增量Q-Learning學(xué)習(xí)方法及系統(tǒng)中增量Q-Learning學(xué)習(xí)方法流程圖,如圖1所示本發(fā)明一種基于增量Q - Learning 學(xué)習(xí)方法,所述增量Q-Learning學(xué)習(xí)方法包括步驟第一步將種子站 點(diǎn)集合S作為起始爬行URL隊(duì)列H;第二步、對(duì)初始樣本頁面集W進(jìn)行 學(xué)習(xí);第三步、從所述起始爬行URL隊(duì)列H中取Q函數(shù)值最高的結(jié)點(diǎn)U; 第四步、爬行得到所述節(jié)點(diǎn)U對(duì)應(yīng)的頁面d;第五步、將所述頁面d加入 到已爬行頁面集D;第六步、從所述頁面d中解析出新的URL節(jié)點(diǎn)集U*; 第七步、將所述URL節(jié)點(diǎn)集IP加入到所述起始爬行URL隊(duì)列H中;第 八步、計(jì)算所述頁面d的相關(guān)度R(d);第九步、將所述相關(guān)度R(d)沿鏈 接路徑進(jìn)行反饋對(duì)其祖先頁面重新計(jì)算函數(shù)Q值;第十步、使用所述第十 步中所述函數(shù)Q值進(jìn)行重新訓(xùn)練;第十一步、對(duì)于待選的URL使用重新 訓(xùn)練過的分類器進(jìn)行函數(shù)Q值的估算;第十二步、對(duì)所述URL對(duì)列中進(jìn) 行基于所述函數(shù)Q值的排序。其中,所述第二步為使用頁面相關(guān)度評(píng)估器對(duì)初始樣本頁面集W進(jìn)行 學(xué)習(xí),具體包括步驟首先可以用一個(gè)一般的爬蟲或其它類型的主題爬蟲 爬行一部分頁面,作為函數(shù)2值計(jì)算的訓(xùn)練集。這部分頁面將被手工標(biāo)識(shí) 為主題相關(guān)的或主題不相關(guān)的,然后對(duì)頁面集中的每一個(gè)超鏈接根據(jù)它鏈 接向的頁面相關(guān)性,以及超鏈接結(jié)構(gòu)計(jì)算出它相對(duì)應(yīng)的函數(shù)2值。如附圖 2.—個(gè)從已爬行頁面集中構(gòu)造的超鏈接結(jié)構(gòu)示意圖所示,這是一個(gè)已爬行 頁面集中的超鏈接形成的超鏈接結(jié)構(gòu)圖。圖中陰影結(jié)點(diǎn)表示主題相關(guān)頁面,白色結(jié)點(diǎn)為不相關(guān)頁面。箭頭線表示頁面之間的超鏈接。設(shè)超鏈接為"', 則計(jì)算它的2值""')的最簡(jiǎn)單的方法是讓""》=1如果"'直接鏈接向一個(gè)主題相關(guān)頁面,否則讓2("')=()。按照以上所述計(jì)算方法,圖2中的超鏈接B、 C、 D、 E、 G、 H的^值 將為1,而超鏈接A、 F、 I、 J的2值為0。這種計(jì)算方法相當(dāng)折算因子^設(shè) 為0,即只考慮立即回報(bào),而不考慮長(zhǎng)遠(yuǎn)回報(bào)。如果考慮長(zhǎng)遠(yuǎn)回報(bào),那么就要使7 >0 ,并根據(jù)迭代定義要沿著超鏈接鏈路考慮與"'對(duì)應(yīng)的子頁面的 2值,這樣"^就成為一個(gè)連續(xù)的值。所述第三步具體為在IQ-Leaming算法中,候選URL的Q值是基于已爬行頁面集合在線計(jì)算的,它的定義既考慮了立即回報(bào)也考慮了長(zhǎng)遠(yuǎn)回報(bào),3口下式戶斤示其中,"'是已爬行的超鏈接,《是爬行"'獲得的頁面。w《)表示頁面《的主題相關(guān)度。^是《的子URL,并且是一個(gè)已爬行的URL,"表示《 的已爬行子URL的總數(shù)。Q("J表示^的Q值,^是一個(gè)折算因子。可以 看出,這個(gè)定義是一個(gè)遞歸的定義,其中W《)表示了爬行"'而獲得的立即 回報(bào),而"W)表示折算了的長(zhǎng)遠(yuǎn)回報(bào)(累計(jì)的),"夬定了長(zhǎng)遠(yuǎn)回報(bào)相對(duì) 于立即回報(bào)的重要性。本發(fā)明基于增量Q - Learning學(xué)習(xí)方法及系統(tǒng)中增量Q - Learning學(xué) 習(xí)方法中第八步為通過頁面相關(guān)度評(píng)估器計(jì)算所述頁面d的相關(guān)度R(d), 具體包括步驟(一)、提取鏈接上下文信息;(二)、對(duì)以獲取到的鏈接進(jìn) 行分類;(三)、根據(jù)訓(xùn)練樣本集計(jì)算出先驗(yàn)概率和后驗(yàn)概率。 其中,所述(一)步的實(shí)現(xiàn)方式為每個(gè)超鏈接的上下文)是由它的錨文本以及該超鏈接的源頁面的 標(biāo)題(Title)組成的,這樣每個(gè)訓(xùn)練樣本可以表示為<n"'),C,>。我們采用樸素貝葉斯作為訓(xùn)練算法。首先r("')要通過向量空間模型表示為 一個(gè) 詞頻加權(quán)向量,最后""')表示為r>,) =<^,, 2,,■■ , ,…,氣,〉。 所述(二)步的實(shí)現(xiàn)方式為對(duì)每一個(gè)新發(fā)現(xiàn)的超鏈接"'(對(duì)應(yīng)于候選URL),分類器要根據(jù)該URL的上下文F("')判斷它屬于哪個(gè)類C',并把與該類相對(duì)應(yīng)的函數(shù)Q值 賦給該候選URL以表示它的爬行優(yōu)先級(jí)。對(duì)于NB (Naive Bayes樸素貝葉斯)分類器,這個(gè)任務(wù)可以表示為要找到一個(gè)類^,使該類相對(duì)于F("') 的條件概率P(C'1 ))最大化,可用下式來表示C* = argmax尸(。| r(w,)) = argmax尸(C,)尸(r(w,) | C,)直接計(jì)算^F("')1 。)在計(jì)算上是不可行的,因?yàn)樗鶎俚奶卣骺臻g的維數(shù)太高。然而,按照NB算法的統(tǒng)計(jì)特征獨(dú)立假設(shè),可以認(rèn)為任一個(gè)特征氣 在頁面中(或上下文)出現(xiàn)的概率與其它特征是否出現(xiàn)沒有內(nèi)在關(guān)系?;谶@個(gè)假設(shè),可以用下式來表示<formula>formula see original document page 14</formula>所述(三)步的實(shí)現(xiàn)方式為計(jì)算先驗(yàn)概率P(C')比較筒單,它等于類^包含的樣本數(shù)量占整個(gè)樣 本集的百分比。后驗(yàn)概率P( 1 。)可按照下式計(jì)算其中,1「l表示特征空間的大小,氣表示特征(詞)"在類^的一個(gè),,,,7、,^--,, 屮',M^'表示了特征"在類C'中的z/"'"/權(quán)值總和,"'表示q的一個(gè)訓(xùn)練樣本""')中所有特征的p峰權(quán)值M M"'表示類、中的所有特征的^峰權(quán)值總和。 主題爬蟲剛開始爬行時(shí),由于只爬行了少量的頁面,產(chǎn)生的訓(xùn)練樣本 數(shù)量比較有限,因此在實(shí)際爬行中一般需要一個(gè)過渡期,在這個(gè)期間主題過渡期一般比較短,在本發(fā)明技術(shù)的實(shí)驗(yàn)中一般設(shè)為50個(gè)頁面左右。經(jīng)過 這個(gè)過渡期后,IQ-Learning算法就要進(jìn)行正常的運(yùn)行??梢钥闯觯麄€(gè)算 法的運(yùn)行不需要手工標(biāo)識(shí)樣本,系統(tǒng)可以為Q值分類器在線生成訓(xùn)練樣本, 而分類器就可以進(jìn)行增量的學(xué)習(xí),從而可以及時(shí)更新候選URL的Q值估 計(jì)模型,調(diào)整和優(yōu)化爬行的策略為了解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明還提供了一種基于增量Q -Learning學(xué)習(xí)系統(tǒng),如附圖3所示本發(fā)明系統(tǒng)結(jié)構(gòu)的最大創(chuàng)新點(diǎn)在于 增加了 一個(gè)Q-Leaming在線樣本生成器,它對(duì)在線爬行獲得的頁面進(jìn)行分 析和評(píng)價(jià),生成新的正例樣本或反例樣本,使增量學(xué)習(xí)成為可能。頁面相 關(guān)度評(píng)估器的功能相當(dāng)于超文本分類器,對(duì)頁面進(jìn)行相關(guān)度評(píng)估,但它對(duì) 分類算法有特殊要求由于爬行開始時(shí)只有正例,因此它必須能只基于正 例學(xué)習(xí);它可以產(chǎn)生一個(gè)連續(xù)的相關(guān)度值,使超鏈接評(píng)價(jià)器可以更好的集成相關(guān)度信息。頁面相關(guān)度評(píng)估器與超鏈接評(píng)價(jià)器是緊耦合的關(guān)系,它們 能在線相互反饋。本發(fā)明技術(shù)的有益效果在于在基于增量Q _ Learning學(xué)習(xí)系統(tǒng)中, 頁面分類器和超鏈接評(píng)價(jià)器具有增量學(xué)習(xí)能力,從而改進(jìn)了現(xiàn)有主題爬蟲 的體系結(jié)構(gòu),使主題爬蟲在爬行過程中能進(jìn)行在線學(xué)習(xí),具有更強(qiáng)的自適應(yīng)性,能快速優(yōu)化其爬行策略。以上內(nèi)容是結(jié)合具體的優(yōu)選實(shí)施方式對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說 明,不能認(rèn)定本發(fā)明的具體實(shí)施只局限于這些說明。對(duì)于本發(fā)明所屬技術(shù) 領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若 干推演或替換,都應(yīng)當(dāng)視為屬于本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種基于增量Q-Learning的學(xué)習(xí)方法,其特征在于所述增量Q-Learning學(xué)習(xí)方法包括步驟A將種子站點(diǎn)集合S作為起始爬行URL隊(duì)列H;B對(duì)初始樣本頁面集W進(jìn)行學(xué)習(xí);C從所述起始爬行URL隊(duì)列H中取Q函數(shù)值最高的結(jié)點(diǎn)U;D爬行得到所述節(jié)點(diǎn)U對(duì)應(yīng)的頁面d;E將所述頁面d加入到已爬行頁面集D;F從所述頁面d中解析出新的URL節(jié)點(diǎn)集U*;G將所述URL節(jié)點(diǎn)集U*加入到所述起始爬行URL隊(duì)列H中;H計(jì)算所述頁面d的相關(guān)度R(d);I將所述相關(guān)度R(d)沿鏈接路徑進(jìn)行反饋對(duì)其祖先頁面重新計(jì)算函數(shù)Q值;J使用所述步驟I中所述函數(shù)Q值進(jìn)行重新訓(xùn)練;K對(duì)于待選的URL使用重新訓(xùn)練過的分類器進(jìn)行函數(shù)Q值的估算;L對(duì)所述URL對(duì)列中進(jìn)行基于所述函數(shù)Q值的排序。
2. 根據(jù)權(quán)利要求1所述基于增量Q-Leaming的學(xué)習(xí)方法,其特征在 于所述步驟B為使用頁面相關(guān)度評(píng)估器對(duì)初始樣本頁面集W進(jìn)行學(xué)習(xí), 具體包括步驟Bl:用普通爬蟲或其它類型的主題爬蟲爬行一部分頁面,作為函數(shù)Q 值計(jì)算的訓(xùn)練集;B2:設(shè)超鏈接為"',計(jì)算它的函數(shù)2值""》的方法是設(shè)定^"') = 1, 如果所述超鏈接"'直接鏈接向一個(gè)主題相關(guān)頁面,則設(shè)定""')=0。
3. 根據(jù)權(quán)利要求1所述基于增量Q-Learning的學(xué)習(xí)方法,其特征 在于所述步驟C具體為對(duì)候選URL進(jìn)行IQ-Leaming評(píng)估,在IQ-Learning 算法中,候選URL的函數(shù)Q值是基于已爬行頁面集合在線計(jì)算,它的定 義既考慮了立即回報(bào)也考慮了長(zhǎng)遠(yuǎn)回報(bào),公式為 0(",)=尺(《)+ &(《), 0(《)=丄't^("J""UW.;其中,"'是已爬行的超鏈接、 《是爬行所述"'獲得的頁面、WW)表示頁面《的主題相關(guān)度、^是所述《的子URL,并且是一個(gè)已爬行的URL、"表示A的已爬行子URL的總數(shù)、 e("J表示^的函數(shù)Q值、y是一個(gè)折算因子;這個(gè)定義是一個(gè)遞歸的定義,其中*W)表示了爬行"'而獲得的立即回報(bào),而"W)表示折算了的累計(jì)長(zhǎng)遠(yuǎn)回報(bào),7決定了長(zhǎng)遠(yuǎn)回報(bào)相對(duì)于立即回報(bào)的重要性。
4. 根據(jù)權(quán)利要求1所述基于增量Q - Learning的學(xué)習(xí)方法,其特征在 于所述步驟H為通過頁面相關(guān)度評(píng)估器計(jì)算所述頁面d的相關(guān)度R(d), 具體包括步驟H1 :提取鏈接上下文信息;H2 :對(duì)以獲取到的鏈接進(jìn)行分類;H3:根據(jù)訓(xùn)練樣本集計(jì)算出先驗(yàn)概率和后驗(yàn)概率。
5. 根據(jù)權(quán)利要求4所述基于增量Q _ Learning的學(xué)習(xí)方法,其特征在于所述步驟H1具體為每個(gè)超鏈接的上下文r("》是由它的錨文本以及該 超鏈接的源頁面的標(biāo)題(Title)組成的,這樣每個(gè)訓(xùn)練樣本可以表示為<n",),c,>;采用樸素貝葉斯作為訓(xùn)練算法,首先n"')要通過向量空間模型表示為一個(gè)詞頻加權(quán)向量,最后「("》表示為r(w,)《氣一2,,…,^,,…,氣> 。
6. 根據(jù)權(quán)利要求4所述基于增量Q _ Learning的學(xué)習(xí)方法,其特征在 于所述步驟H2具體為對(duì)每一個(gè)新發(fā)現(xiàn)的超鏈接"'(對(duì)應(yīng)于候選URL), 分類器要根據(jù)所述URL的上下文^"')判斷它屬于哪個(gè)類C,并^與該類 相對(duì)應(yīng)的Q值賦給所述候選URL以表示它的爬行優(yōu)先級(jí);對(duì)于NB分類器,這個(gè)任務(wù)可以表示為要找到一個(gè)類C',使該類相對(duì)于所述R"')的條件概率P(C 1 ""》)最大化,可用下式來表示C* = arg max尸(Q )尸(r ,)| Cy) = arg max尸(。)f] P( | 。)
7. 根據(jù)權(quán)利要求4所述基于增量Q - Learning的學(xué)習(xí)方法,其特征在 于所述步驟H3具體為先驗(yàn)概率為類&包含的樣本數(shù)量占整個(gè)樣本集的百分比;后驗(yàn)概率尸( ^.)為 in+2^,',其中,Wl表示特征空間的大小,^'表示特征(詞)"在類q的一個(gè)訓(xùn)練樣本卩"》中所具有的//"#權(quán)值,即2^、'表示了特征"在類c'中的P蜂權(quán)值總和,",表類Q中的所有特征的^*,權(quán)值總和。
8. 根據(jù)權(quán)利要求1所述基于增量Q - Learning的學(xué)習(xí)方法,其特征在 于所述步驟J具體為使用所述步驟I中新獲取的函數(shù)Q值對(duì)樸素貝葉斯 Q值映射分類器進(jìn)行重新訓(xùn)練。
9. 一種基于增量Q-Learning的學(xué)習(xí)系統(tǒng),所述系統(tǒng)包括頁面相關(guān) 度評(píng)估器、超鏈接評(píng)價(jià)器和網(wǎng)頁爬行器,其特征在于所述系統(tǒng)還包括樣 本生成器,所述樣本生成器分別與所述頁面相關(guān)度評(píng)估器、所述超鏈接評(píng) 價(jià)器和所述網(wǎng)頁爬行器連接。
10. 根據(jù)權(quán)利要求9所述基于增量Q-Learning的學(xué)習(xí)系統(tǒng),其特征 在于所述頁面相關(guān)度評(píng)估器與所述超鏈接評(píng)價(jià)器是緊耦合的關(guān)系。
全文摘要
本發(fā)明涉及一種基于增量Q-Learning的學(xué)習(xí)方法及系統(tǒng)。所述方法中系統(tǒng)要沿著新爬行頁面對(duì)應(yīng)的超鏈接鏈路重新計(jì)算鏈路上各個(gè)結(jié)點(diǎn)函數(shù)Q值,根據(jù)計(jì)算得到的新的函數(shù)Q值,系統(tǒng)重新進(jìn)行函數(shù)Q值的離散化,形成新的樣本,然后重新訓(xùn)練NB分類器以獲得新的Q值分類模型,再利用該新的Q值分類模型為URL隊(duì)列中的各個(gè)候選URL重新計(jì)算Q值,最后IQ-Learning算法也要讓頁面相關(guān)度評(píng)估器進(jìn)行增量學(xué)習(xí)。本發(fā)明系統(tǒng)體系結(jié)構(gòu)的創(chuàng)新點(diǎn)在于增加了一個(gè)Q-Learning在線樣本生成器,它對(duì)在線爬行獲得的頁面進(jìn)行分析和評(píng)價(jià),生成新的正例樣本或反例樣本,使增量學(xué)習(xí)成為可能。本發(fā)明所述技術(shù)有效的提高了主題爬蟲的收獲率。
文檔編號(hào)G06F17/30GK101261634SQ20081006662
公開日2008年9月10日 申請(qǐng)日期2008年4月11日 優(yōu)先權(quán)日2008年4月11日
發(fā)明者葉允明 申請(qǐng)人:哈爾濱工業(yè)大學(xué)深圳研究生院