基于增量Q-Learning的學(xué)習(xí)方法及系統(tǒng)的制作方法

文檔序號(hào)：6460843閱讀：149來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于增量Q-Learning的學(xué)習(xí)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種基于增量Q-Learning的學(xué)習(xí)方法及系統(tǒng)，是一種應(yīng) 用于從萬維網(wǎng)上快速有效的檢索用戶所需信息的一種增量Q-Learning學(xué) 習(xí)方法及系統(tǒng)。
技術(shù)背景Web爬蟲(Web Crawler或Spider, Robot)是一種信息收集系統(tǒng)。它通過下載Web頁面，并沿著已爬行頁面中的超鏈接來遍歷Web，收集Web 頁面。一般Web爬蟲通常用于通用搜索引擎中，作為搜索引擎的頁面收集系統(tǒng)。它通常以寬度優(yōu)先的模式(即無選擇性)遍歷Web,力求在限定的爬行周期內(nèi)收集到盡可能多的Web頁面。Web爬蟲采用特定的爬行(Crawling)策略，周期性的收集盡可能多的 Web網(wǎng)頁，然后提交給自動(dòng)索引系統(tǒng)；索引系統(tǒng)根據(jù)定義的索引要求建立基于相應(yīng)檢索元的索引庫；用戶通過系統(tǒng)提供的查詢接口訪問搜索引擎；查詢系統(tǒng)根據(jù)用戶提交的查詢條件搜索索引庫，獲得檢索結(jié)果，并且采用一定的評(píng)價(jià)算法計(jì)算用戶查詢條件和檢索結(jié)果之間的相關(guān)性，檢索結(jié)果根據(jù)相關(guān)度進(jìn)行排序后按高相關(guān)度優(yōu)先的順序返回給用戶。爬蟲的工作過程是一個(gè)沿著存在于Web頁面之間的超鏈接遍歷Web 的過程。作為通用搜索引擎的頁面收集代理，一般Web爬蟲在選擇下一個(gè) 要爬行的URL ( Uniform Resoure Locator統(tǒng)一資源定位器、網(wǎng)絡(luò)地址)時(shí)，是無目的性的，即一般采用FIFO (First-in First-out先進(jìn)先出)的順序從 URL隊(duì)列中逐個(gè)取出URL，其爬行策略是無選擇性的。這是由通用搜索引擎的目標(biāo)決定的，即要求在有限的時(shí)間內(nèi)收集到盡可能多的頁面。它沒有預(yù)定義的目標(biāo)主題的導(dǎo)向，因此對(duì)Web的遍歷過程是沒有選擇性的。主題爬蟲(Topical Crawler )，又稱為聚焦爬蟲(Focused crawler)或主題驅(qū)動(dòng)的爬蟲(Topic-driven crawler )。它是一種智能的Web爬蟲，因此它的基本工作過程與一般的爬蟲是相似的。然而，與一般Web爬蟲不同的是，主題爬蟲在進(jìn)行爬行時(shí)是目標(biāo)主題驅(qū)動(dòng)的，在遍歷Web時(shí)是有選擇性的，其目標(biāo)是使爬行結(jié)果的"收獲率" 最大化。"收獲率"的定義與傳統(tǒng)信息檢索領(lǐng)域中的查準(zhǔn)率(或精度)相似，可計(jì)算為爬行結(jié)果頁面集中主題相關(guān)頁面所占的百分?jǐn)?shù)。主題爬蟲的爬行過程可以看作是一個(gè)有選^^性的遍歷Web圖的過程，它從一組種子URL 出發(fā)，沿著Web頁面上的超鏈接不斷爬行網(wǎng)頁。在爬行過程中，系統(tǒng)要判斷已爬行到的頁面是否是主題相關(guān)的，并通過超鏈接分析算法(或其它優(yōu)化算法)確定下一個(gè)被訪問的候選URL(候選URL存放在URL隊(duì)列中，是從已收集的網(wǎng)頁中抽取出來的，并且未經(jīng)爬行)。在遍歷Web圖時(shí)，主題爬蟲就是要確保盡可能多的訪問那些屬于相關(guān)集的節(jié)點(diǎn)，同時(shí)盡可能避免搜集到那些屬于不相關(guān)集的節(jié)點(diǎn)。雖然現(xiàn)有的主題爬蟲技術(shù)已經(jīng)取得了令人鼓舞的進(jìn)步，但從系統(tǒng)性能上看還難盡如人意。特別是對(duì)于比較"窄"的目標(biāo)主題來說，系統(tǒng)的爬行收獲率還需要較大的提高?？v觀現(xiàn)有的主題爬蟲方法，它們大部分都依賴于有監(jiān)督或半監(jiān)督的學(xué)習(xí)算法(例如樸素貝葉斯方法，Q-Learning)，從而能夠從初始的目標(biāo)主題信息(特別是樣本頁面)中學(xué)習(xí)并構(gòu)造頁面(超文本) 分類模型和超鏈接評(píng)價(jià)模型，而生成的模型通常是靜態(tài)的，在爬行過程中得不到更新，即它們?nèi)狈稍诰€增量學(xué)習(xí)的能力。這種靜態(tài)的策略是影響主題爬蟲性能以及可用性的主要原因首先，由于缺乏增量學(xué)習(xí)能力，初始樣本頁面(包括主題層次目錄中的頁面和用戶提供的樣本頁面)就成為決定超文本分類器和超鏈接評(píng)價(jià)器性能的主要因素。然而，要提供一個(gè)全面的、高質(zhì)量的初始樣本集通常是比較困難且耗時(shí)的，因此初始樣本通常是很有限的，不足以構(gòu)造精確的超文本分類器和超鏈接評(píng)價(jià)器，從而影響了系統(tǒng)的性能?；谟斜O(jiān)督學(xué)習(xí)算法的超文本分類器在訓(xùn)練時(shí)既需要正例樣本，也需要大量的反例樣本。然而，要在爬行開始時(shí)就提供足夠的反例以完全覆蓋反例主題是很困難的。例如，假設(shè)目標(biāo)主題是"計(jì)算機(jī)"，那么如何找到足夠全面的反例頁面來表示"所有非計(jì)算機(jī)"呢？雖然主題層次目錄可以在一定程度上解決這個(gè)問題，即將目錄樹中的某個(gè)結(jié)點(diǎn)標(biāo)識(shí)為正例集(目標(biāo)主題)，而所有其它結(jié)點(diǎn)標(biāo)識(shí)為反例集，但是由于主題層次目錄所覆蓋的主題范圍比較有限，因此目標(biāo)主題可能無法用它來表示，特別是對(duì)于那些"窄" 的目標(biāo)主題，這種方法就存在明顯的局限性。Web頁面的內(nèi)容以及不同主題頁面集的超鏈接結(jié)構(gòu)是多種多樣的，這就要求頁面分類模型和超鏈接評(píng)價(jià)模型能夠在爬行過程中得到不斷的更新和調(diào)整，以適應(yīng)異構(gòu)的爬行環(huán)境。發(fā)明內(nèi)容為了解決現(xiàn)有主題爬蟲技術(shù)中存在的對(duì)于比較"窄"的目標(biāo)主題來說，系統(tǒng)的爬行收獲率較低，生成的頁面(超文本)分類模型和超鏈接評(píng)價(jià)模型是靜態(tài)的，在爬行過程中得不到更新，缺乏可在線增量學(xué)習(xí)的能力，導(dǎo) 致初始樣本頁面(包括主題層次目錄中的頁面和用戶提供的樣本頁面)就成為決定超文本分類器和超鏈接評(píng)價(jià)器性能的主要因素。然而，要提供一個(gè)全面的、高質(zhì)量的初始樣本集通常是比較困難且耗時(shí)的，因此初始樣本通常是很有限的，不足以構(gòu)造精確的超文本分類器和超鏈接評(píng)價(jià)器，從而影響了系統(tǒng)的性能。而且由于利用現(xiàn)有技術(shù)進(jìn)行主題層次目錄所覆蓋的主題范圍比較有限，因此目標(biāo)主題可能無法全面表示，特別是對(duì)于那些"窄" 的目標(biāo)主題，現(xiàn)有技術(shù)方法存在明顯的局限性等技術(shù)問題，本發(fā)明提供了一種基于增量Q - Learning的學(xué)習(xí)方法。為了解決現(xiàn)有主題爬蟲技術(shù)中存在的對(duì)于比較"窄"的目標(biāo)主題來說，系統(tǒng)的爬行收獲率較低，生成的頁面(超文本)分類模型和超鏈接評(píng)價(jià)模型是靜態(tài)的，在爬行過程中得不到更新，缺乏可在線增量學(xué)習(xí)的能力，導(dǎo) 致初始樣本頁面(包括主題層次目錄中的頁面和用戶提供的樣本頁面)就成為決定超文本分類器和超鏈接評(píng)價(jià)器性能的主要因素。然而，要提供一個(gè)全面的、高質(zhì)量的初始樣本集通常是比較困難且耗時(shí)的，因此初始樣本通常是很有限的，不足以構(gòu)造精確的超文本分類器和超鏈接評(píng)價(jià)器，從而影響了系統(tǒng)的性能。而且由于利用現(xiàn)有技術(shù)進(jìn)行主題層次目錄所覆蓋的主題范圍比較有限，因此目標(biāo)主題可能無法全面表示，特別是對(duì)于那些"窄" 的目標(biāo)主題，現(xiàn)有技術(shù)方法存在明顯的局限性等技術(shù)問題，本發(fā)明提供了一種基于增量Q - Learning的學(xué)習(xí)。本發(fā)明解決現(xiàn)有技術(shù)問題所采用的技術(shù)方案為提供一種基于增量Q-Learning學(xué)習(xí)方法，所述增量Q-Learning學(xué)習(xí)方法包括步驟第一步將種子站點(diǎn)集合S作為起始爬行URL隊(duì)列H;第二步、對(duì)初始樣本頁面集W進(jìn)行學(xué)習(xí)；第三步、從所述起始爬行URL隊(duì)列H中取Q函數(shù)值最高的結(jié)點(diǎn)U;第四步、爬行得到所述節(jié)點(diǎn)U對(duì)應(yīng)的頁面d;第五步、將所述頁面d加入到已爬行頁面集D;第六步、從所述頁面d中解析出新的URL 節(jié)點(diǎn)集11*;第七步、將所述URL節(jié)點(diǎn)集l^加入到所述起始爬行URL隊(duì) 列H中；第八步、計(jì)算所述頁面d的相關(guān)度R(d);第九步、將所述相關(guān)度 R(d)沿鏈接路徑進(jìn)行反饋對(duì)其祖先頁面重新計(jì)算函數(shù)Q值；第十步、使用所述第十步中所述函數(shù)Q值進(jìn)行重新訓(xùn)練；第十一步、對(duì)于待選的URL使用重新訓(xùn)練過的分類器進(jìn)行函數(shù)Q值的估算；第十二步、對(duì)所述URL 對(duì)列中進(jìn)行基于所述函數(shù)Q值的排序。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述第二步為使用頁面相關(guān)度評(píng)估器對(duì) 初始樣本頁面集W進(jìn)行學(xué)習(xí)，具體包括步驟首先、用普通爬蟲或其它類型的主題爬蟲爬行一部分頁面，作為函數(shù)Q值計(jì)算的訓(xùn)練集；其次、設(shè)超鏈接為"'，計(jì)算它的函數(shù)2值^"')的方法是設(shè)定e("';i",如果所述超鏈接&直接鏈接向一個(gè)主題相關(guān)頁面，則設(shè)定G("') = 0 。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述第三步具體為對(duì)候選URL進(jìn)行IQ-Learning評(píng)估，在IQ-Learning算法中，候選URL的函數(shù)Q值是基于已爬行頁面集合在線計(jì)算，它的定義既考慮了立即回報(bào)也考慮了長(zhǎng)遠(yuǎn)回報(bào)，2(",)=単,)+艦)，附)丄公式為 "；其中，"'是已爬行的超鏈接、《是爬行所述"'獲得的頁面、表示頁面《的主題相關(guān)度、"4是所述"'的子URL，并且是一個(gè)已爬行的URL、"表示"'的已爬行子URL的總數(shù)、^"》表示^的函數(shù)Q值、^是一個(gè)折算因子；這個(gè)定義是一個(gè)遞歸的定義，其中^《)表示了爬行"'而獲得的立即回報(bào)，而幼《)表示折算了的累計(jì)長(zhǎng)遠(yuǎn)回報(bào)，^決定了長(zhǎng)遠(yuǎn)回報(bào)相對(duì)于立即回報(bào)的重要性。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述第八步為通過頁面相關(guān)度評(píng)估器計(jì) 算所述頁面d的相關(guān)度R(d)，具體包括步驟(一)、提取鏈接上下文信息; (二)、對(duì)以獲取到的鏈接進(jìn)行分類；(三)、根據(jù)訓(xùn)練樣本集計(jì)算出先驗(yàn)概率和后驗(yàn)概率。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述步驟(一)具體為每個(gè)超鏈接的上下文""》是由它的錨文本以及該超鏈接的源頁面的標(biāo)題(Title )組成的，這樣每個(gè)訓(xùn)練樣本可以表示為〈n"')，c'、采用樸素貝葉斯作為訓(xùn)練算法，首先r")要通過向量空間模型表示為一個(gè)詞頻加權(quán)向量，最后f("')表示為r(M,)=<0h，02,，.'.，A,，-.,A, > 。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述步驟(二)具體為對(duì)每一個(gè)新發(fā)現(xiàn)的超鏈接^ (對(duì)應(yīng)于候選URL)，分類器要根據(jù)所述URL的上下文^"》判斷它屬于哪個(gè)類C',并把與該類相對(duì)應(yīng)的Q值賦給所述候選URL以表示它的爬行優(yōu)先級(jí)；對(duì)于NB分類器，這個(gè)任務(wù)可以表示為要找到一個(gè)類C',使該類相對(duì)于所述r("')的條件概率P^I^"'》最大化,可用下式來表示i廠(",)iC* = arg max P(C,) | C》=arg max戶(。)fj尸( | )根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述步驟(三)具體為先驗(yàn)概率P(C》為類G包含的樣本數(shù)量占整個(gè)樣本集的百分比；后驗(yàn)概率^("^ 1 C》為1^1+丄,=,,,其中，IH表示特征空間的大小，氣表示特征(詞)"在類。的一個(gè)訓(xùn)練樣本F("》中所具有的c權(quán)值，即^i、表示了特征"在類e'中的^ *蜂權(quán)值總和，"'表示e'的一個(gè)訓(xùn)練樣本f")中所有特征的^,權(quán)值的總和，即21=>'表示類q中的所有特征的e, 權(quán)值總和。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述步驟J具體為使用所述步驟I中新獲取的函數(shù)Q值對(duì)樸素貝葉斯Q值映射分類器進(jìn)行重新訓(xùn)練。為了解決現(xiàn)有技術(shù)中存在的問題，本發(fā)明還提供了一種基于增量Q -Learning學(xué)習(xí)系統(tǒng)，所述系統(tǒng)包括頁面相關(guān)度評(píng)估器、超鏈接評(píng)價(jià)器和網(wǎng)頁爬行器，所述系統(tǒng)還包括樣本生成器，所述樣本生成器分別與所述頁面相關(guān)度評(píng)估器、所述超鏈接評(píng)價(jià)器和所述網(wǎng)頁爬行器連接。根據(jù)本發(fā)明的一優(yōu)選實(shí)施例所述頁面相關(guān)度評(píng)估器與所述超鏈接評(píng) 價(jià)器是緊耦合的關(guān)系。本發(fā)明的有益效果在于在基于增量Q-Learning學(xué)習(xí)系統(tǒng)中，頁面分類器和超鏈接評(píng)價(jià)器具有增量學(xué)習(xí)能力，從而改進(jìn)了現(xiàn)有主題爬蟲的體系結(jié)構(gòu)，使主題爬蟲在爬行過程中能進(jìn)行在線學(xué)習(xí)，具有更強(qiáng)的自適應(yīng)性能快速優(yōu)化其爬行策略?；谠隽縌-Leaming學(xué)習(xí)方法是基于增強(qiáng)學(xué)習(xí)思想的，它在學(xué)習(xí)時(shí) 考慮到了長(zhǎng)遠(yuǎn)回報(bào)問題，因此不容易陷入局部最優(yōu)，具有更好的性能。我們通過大量的對(duì)比實(shí)驗(yàn)證明了增量學(xué)習(xí)對(duì)于提高主題爬蟲的收獲率是非常有效的。說明書附l.本發(fā)明基于增量Q-Leaming的學(xué)習(xí)方法及系統(tǒng)中增量Q-Learning學(xué)習(xí)方法流程圖；圖2.—個(gè)從已爬行頁面集中構(gòu)造的超鏈接結(jié)構(gòu)示意圖；圖3.本發(fā)明基于增量Q-Learning的學(xué)習(xí)方法及系統(tǒng)中增量Q-Learning學(xué)習(xí)系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明增強(qiáng)學(xué)習(xí)(Reinforcementlearning )是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支。從智能Agent (代理程序在一些查詢系統(tǒng)中，用戶可以采用自己喜歡的格式提出查詢要求，再由代理程序Agent轉(zhuǎn)換成適合數(shù)據(jù)庫使用的嚴(yán)格定義的查詢參數(shù))的角度看，它是研究如何使自治的Agent感知環(huán)境并在與環(huán)境的交互中學(xué)習(xí)到最優(yōu)的控制策略，從而在該策略的指導(dǎo)下達(dá)到目標(biāo)狀態(tài)的過程。Agent尋找目標(biāo)狀態(tài)的過程是一個(gè)馬爾可夫決策過程(Markov decision process, MDP)，它可以用回報(bào)(Reward)方程來定義，即Agent 與環(huán)境的交互結(jié)果是以回報(bào)的形式表達(dá)的，如果Agent對(duì)當(dāng)前環(huán)境采取的行動(dòng)對(duì)最終達(dá)到目標(biāo)有利，則將得到正回報(bào)，否則為負(fù)回報(bào)，判斷Agent 是否達(dá)到目標(biāo)的標(biāo)準(zhǔn)就是要使Agent得到的累計(jì)回報(bào)總和最大化。這個(gè) MDP (Markov Decision Process馬爾可夫決策)過程可以更形式化的定義如下假設(shè)Agent的狀態(tài)空間為S,初始狀態(tài)為st，可能采取的動(dòng)作空間為A，狀態(tài)轉(zhuǎn)換函數(shù)為&S" —S,回報(bào)函數(shù)為rS" — i ,則Agent與環(huán)境的交互過程得到的累計(jì)回凈艮可表示為<formula>formula see original document page 10</formula>
其中，。+'表示Agent進(jìn)行第i次狀態(tài)轉(zhuǎn)移而得到的回報(bào)(由回報(bào)函數(shù)"確定)，這是學(xué)習(xí)系統(tǒng)提供給Agent 的唯一訓(xùn)練信息。根據(jù)MDP的性質(zhì)，Agent采取的動(dòng)作"'+'只與它當(dāng)前所處的狀態(tài)^有關(guān)，而不依賴于以前的狀態(tài)和動(dòng)作。Z為折算因子，通常情況下0《ySl，它表示從初始狀態(tài)出發(fā)，越往后的狀態(tài)轉(zhuǎn)移得到的回報(bào)對(duì)最優(yōu)控制策略選擇的影響越小，即未來的回報(bào)相對(duì)于立即回報(bào)要進(jìn)行折算。這種折算通常是比較合理的，因?yàn)樵谠S多情況下我們希望獲得更快的回報(bào)。那么，"")表示在策略"的控制下，Agent由任意狀態(tài)&出發(fā)獲得的折算累計(jì)回報(bào)，增強(qiáng)學(xué)習(xí)的目標(biāo)是要找到一個(gè)控制策略冗，它使"")最大化。這個(gè)策略稱為最優(yōu)策略(Optimal policy )，可用"'來表示那么如何學(xué)習(xí)到這個(gè)最優(yōu)策略冗'呢？直接學(xué)習(xí)函數(shù),S — J是很困難的，因?yàn)橛?xùn)練數(shù)據(jù)中沒有提供"'，"'>形式的訓(xùn)練樣例。作為替代，唯一可用的訓(xùn)練信息是立即回報(bào)序列""，"')，"G'1，2…。給定這種類型的訓(xùn)練信息，更容易的是學(xué)習(xí)一個(gè)定義在狀態(tài)和動(dòng)作上的數(shù)值評(píng)估函數(shù)，然后以此評(píng)估函數(shù)的形式實(shí)現(xiàn)最優(yōu)策略。目前，2函數(shù)是使用最廣泛的評(píng)估函數(shù)，它的定義如下<formula>formula see original document page 11</formula>三W, ，", ) + ^ max"',)， a"i)評(píng)估函數(shù)2" ， A)表示從狀態(tài) 開始并使用A作為第一個(gè)動(dòng)作時(shí)的最大折算累積回報(bào)。換言之，2"，",)的值為從狀態(tài)&執(zhí)行動(dòng)作"'的立即回報(bào)加上以后(即從新狀態(tài)^"，"')開始)遵循最優(yōu)策略^而獲得的回報(bào)。根據(jù)Q 函數(shù)的定義，上述公式可以重寫為0"'^的形式這樣，Agent尋找最優(yōu)策略的過程就可以轉(zhuǎn)化為如何學(xué)習(xí)最優(yōu)G函數(shù)的問題，稱為s學(xué)習(xí)(e-丄ewm'"g)。從公式可以看出e函數(shù)的定義是一個(gè)遞歸定義，因此可以采用迭代逼近的e學(xué)習(xí)算法來確定最優(yōu)的G函數(shù)。通過該最優(yōu)^函數(shù)Agent可以對(duì)當(dāng)前所處狀態(tài)^時(shí)應(yīng)該采取哪一個(gè)動(dòng)作"'做出最優(yōu)選擇(即選擇具有最大e函數(shù)值的動(dòng)作)。以下結(jié)合附圖對(duì)本發(fā)明所述技術(shù)進(jìn)行詳細(xì)說明請(qǐng)參閱

圖1本發(fā)明基于增量Q-Learning學(xué)習(xí)方法及系統(tǒng)中增量Q-Learning學(xué)習(xí)方法流程圖，如圖1所示本發(fā)明一種基于增量Q - Learning 學(xué)習(xí)方法，所述增量Q-Learning學(xué)習(xí)方法包括步驟第一步將種子站點(diǎn)集合S作為起始爬行URL隊(duì)列H;第二步、對(duì)初始樣本頁面集W進(jìn)行學(xué)習(xí)；第三步、從所述起始爬行URL隊(duì)列H中取Q函數(shù)值最高的結(jié)點(diǎn)U; 第四步、爬行得到所述節(jié)點(diǎn)U對(duì)應(yīng)的頁面d;第五步、將所述頁面d加入到已爬行頁面集D;第六步、從所述頁面d中解析出新的URL節(jié)點(diǎn)集U*; 第七步、將所述URL節(jié)點(diǎn)集IP加入到所述起始爬行URL隊(duì)列H中；第八步、計(jì)算所述頁面d的相關(guān)度R(d);第九步、將所述相關(guān)度R(d)沿鏈接路徑進(jìn)行反饋對(duì)其祖先頁面重新計(jì)算函數(shù)Q值；第十步、使用所述第十步中所述函數(shù)Q值進(jìn)行重新訓(xùn)練；第十一步、對(duì)于待選的URL使用重新訓(xùn)練過的分類器進(jìn)行函數(shù)Q值的估算；第十二步、對(duì)所述URL對(duì)列中進(jìn) 行基于所述函數(shù)Q值的排序。其中，所述第二步為使用頁面相關(guān)度評(píng)估器對(duì)初始樣本頁面集W進(jìn)行學(xué)習(xí)，具體包括步驟首先可以用一個(gè)一般的爬蟲或其它類型的主題爬蟲爬行一部分頁面，作為函數(shù)2值計(jì)算的訓(xùn)練集。這部分頁面將被手工標(biāo)識(shí) 為主題相關(guān)的或主題不相關(guān)的，然后對(duì)頁面集中的每一個(gè)超鏈接根據(jù)它鏈接向的頁面相關(guān)性，以及超鏈接結(jié)構(gòu)計(jì)算出它相對(duì)應(yīng)的函數(shù)2值。如附圖 2.—個(gè)從已爬行頁面集中構(gòu)造的超鏈接結(jié)構(gòu)示意圖所示，這是一個(gè)已爬行頁面集中的超鏈接形成的超鏈接結(jié)構(gòu)圖。圖中陰影結(jié)點(diǎn)表示主題相關(guān)頁面，白色結(jié)點(diǎn)為不相關(guān)頁面。箭頭線表示頁面之間的超鏈接。設(shè)超鏈接為"'，則計(jì)算它的2值""')的最簡(jiǎn)單的方法是讓""》=1如果"'直接鏈接向一個(gè)主題相關(guān)頁面，否則讓2("')=()。按照以上所述計(jì)算方法，圖2中的超鏈接B、 C、 D、 E、 G、 H的^值將為1，而超鏈接A、 F、 I、 J的2值為0。這種計(jì)算方法相當(dāng)折算因子^設(shè) 為0，即只考慮立即回報(bào)，而不考慮長(zhǎng)遠(yuǎn)回報(bào)。如果考慮長(zhǎng)遠(yuǎn)回報(bào)，那么就要使7 >0 ，并根據(jù)迭代定義要沿著超鏈接鏈路考慮與"'對(duì)應(yīng)的子頁面的 2值，這樣"^就成為一個(gè)連續(xù)的值。所述第三步具體為在IQ-Leaming算法中，候選URL的Q值是基于已爬行頁面集合在線計(jì)算的，它的定義既考慮了立即回報(bào)也考慮了長(zhǎng)遠(yuǎn)回報(bào)，3口下式戶斤示其中，"'是已爬行的超鏈接，《是爬行"'獲得的頁面。w《)表示頁面《的主題相關(guān)度。^是《的子URL，并且是一個(gè)已爬行的URL,"表示《的已爬行子URL的總數(shù)。Q("J表示^的Q值，^是一個(gè)折算因子。可以看出，這個(gè)定義是一個(gè)遞歸的定義，其中W《)表示了爬行"'而獲得的立即回報(bào)，而"W)表示折算了的長(zhǎng)遠(yuǎn)回報(bào)(累計(jì)的)，"夬定了長(zhǎng)遠(yuǎn)回報(bào)相對(duì) 于立即回報(bào)的重要性。本發(fā)明基于增量Q - Learning學(xué)習(xí)方法及系統(tǒng)中增量Q - Learning學(xué) 習(xí)方法中第八步為通過頁面相關(guān)度評(píng)估器計(jì)算所述頁面d的相關(guān)度R(d), 具體包括步驟(一)、提取鏈接上下文信息；(二)、對(duì)以獲取到的鏈接進(jìn) 行分類；(三)、根據(jù)訓(xùn)練樣本集計(jì)算出先驗(yàn)概率和后驗(yàn)概率。其中，所述(一)步的實(shí)現(xiàn)方式為每個(gè)超鏈接的上下文)是由它的錨文本以及該超鏈接的源頁面的標(biāo)題(Title)組成的，這樣每個(gè)訓(xùn)練樣本可以表示為<n"')，C,>。我們采用樸素貝葉斯作為訓(xùn)練算法。首先r("')要通過向量空間模型表示為一個(gè) 詞頻加權(quán)向量，最后""')表示為r>,) =<^,, 2,,■■ ， ,…,氣,〉。所述(二)步的實(shí)現(xiàn)方式為對(duì)每一個(gè)新發(fā)現(xiàn)的超鏈接"'(對(duì)應(yīng)于候選URL)，分類器要根據(jù)該URL的上下文F("')判斷它屬于哪個(gè)類C'，并把與該類相對(duì)應(yīng)的函數(shù)Q值賦給該候選URL以表示它的爬行優(yōu)先級(jí)。對(duì)于NB (Naive Bayes樸素貝葉斯)分類器，這個(gè)任務(wù)可以表示為要找到一個(gè)類^，使該類相對(duì)于F("') 的條件概率P(C'1 ))最大化,可用下式來表示C* = argmax尸(。| r(w,)) = argmax尸(C,)尸(r(w,) | C,)直接計(jì)算^F("')1 。)在計(jì)算上是不可行的，因?yàn)樗鶎俚奶卣骺臻g的維數(shù)太高。然而，按照NB算法的統(tǒng)計(jì)特征獨(dú)立假設(shè)，可以認(rèn)為任一個(gè)特征氣在頁面中(或上下文)出現(xiàn)的概率與其它特征是否出現(xiàn)沒有內(nèi)在關(guān)系?；谶@個(gè)假設(shè)，可以用下式來表示<formula>formula see original document page 14</formula>所述(三)步的實(shí)現(xiàn)方式為計(jì)算先驗(yàn)概率P(C')比較筒單，它等于類^包含的樣本數(shù)量占整個(gè)樣本集的百分比。后驗(yàn)概率P( 1 。)可按照下式計(jì)算其中，1「l表示特征空間的大小，氣表示特征(詞)"在類^的一個(gè),,,,7、，^--,, 屮'，M^'表示了特征"在類C'中的z/"'"/權(quán)值總和，"'表示q的一個(gè)訓(xùn)練樣本""')中所有特征的p峰權(quán)值M M"'表示類、中的所有特征的^峰權(quán)值總和。主題爬蟲剛開始爬行時(shí)，由于只爬行了少量的頁面，產(chǎn)生的訓(xùn)練樣本數(shù)量比較有限，因此在實(shí)際爬行中一般需要一個(gè)過渡期，在這個(gè)期間主題過渡期一般比較短，在本發(fā)明技術(shù)的實(shí)驗(yàn)中一般設(shè)為50個(gè)頁面左右。經(jīng)過這個(gè)過渡期后，IQ-Learning算法就要進(jìn)行正常的運(yùn)行?？梢钥闯觯麄€(gè)算法的運(yùn)行不需要手工標(biāo)識(shí)樣本，系統(tǒng)可以為Q值分類器在線生成訓(xùn)練樣本，而分類器就可以進(jìn)行增量的學(xué)習(xí)，從而可以及時(shí)更新候選URL的Q值估計(jì)模型，調(diào)整和優(yōu)化爬行的策略為了解決現(xiàn)有技術(shù)中存在的問題，本發(fā)明還提供了一種基于增量Q -Learning學(xué)習(xí)系統(tǒng)，如附圖3所示本發(fā)明系統(tǒng)結(jié)構(gòu)的最大創(chuàng)新點(diǎn)在于增加了一個(gè)Q-Leaming在線樣本生成器，它對(duì)在線爬行獲得的頁面進(jìn)行分析和評(píng)價(jià)，生成新的正例樣本或反例樣本，使增量學(xué)習(xí)成為可能。頁面相關(guān)度評(píng)估器的功能相當(dāng)于超文本分類器，對(duì)頁面進(jìn)行相關(guān)度評(píng)估，但它對(duì) 分類算法有特殊要求由于爬行開始時(shí)只有正例，因此它必須能只基于正例學(xué)習(xí)；它可以產(chǎn)生一個(gè)連續(xù)的相關(guān)度值，使超鏈接評(píng)價(jià)器可以更好的集成相關(guān)度信息。頁面相關(guān)度評(píng)估器與超鏈接評(píng)價(jià)器是緊耦合的關(guān)系，它們能在線相互反饋。本發(fā)明技術(shù)的有益效果在于在基于增量Q _ Learning學(xué)習(xí)系統(tǒng)中，頁面分類器和超鏈接評(píng)價(jià)器具有增量學(xué)習(xí)能力，從而改進(jìn)了現(xiàn)有主題爬蟲的體系結(jié)構(gòu)，使主題爬蟲在爬行過程中能進(jìn)行在線學(xué)習(xí)，具有更強(qiáng)的自適應(yīng)性，能快速優(yōu)化其爬行策略。以上內(nèi)容是結(jié)合具體的優(yōu)選實(shí)施方式對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說明，不能認(rèn)定本發(fā)明的具體實(shí)施只局限于這些說明。對(duì)于本發(fā)明所屬技術(shù) 領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干推演或替換，都應(yīng)當(dāng)視為屬于本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種基于增量Q-Learning的學(xué)習(xí)方法，其特征在于所述增量Q-Learning學(xué)習(xí)方法包括步驟A將種子站點(diǎn)集合S作為起始爬行URL隊(duì)列H；B對(duì)初始樣本頁面集W進(jìn)行學(xué)習(xí)；C從所述起始爬行URL隊(duì)列H中取Q函數(shù)值最高的結(jié)點(diǎn)U；D爬行得到所述節(jié)點(diǎn)U對(duì)應(yīng)的頁面d；E將所述頁面d加入到已爬行頁面集D；F從所述頁面d中解析出新的URL節(jié)點(diǎn)集U*；G將所述URL節(jié)點(diǎn)集U*加入到所述起始爬行URL隊(duì)列H中；H計(jì)算所述頁面d的相關(guān)度R(d)；I將所述相關(guān)度R(d)沿鏈接路徑進(jìn)行反饋對(duì)其祖先頁面重新計(jì)算函數(shù)Q值；J使用所述步驟I中所述函數(shù)Q值進(jìn)行重新訓(xùn)練；K對(duì)于待選的URL使用重新訓(xùn)練過的分類器進(jìn)行函數(shù)Q值的估算；L對(duì)所述URL對(duì)列中進(jìn)行基于所述函數(shù)Q值的排序。
2. 根據(jù)權(quán)利要求1所述基于增量Q-Leaming的學(xué)習(xí)方法，其特征在于所述步驟B為使用頁面相關(guān)度評(píng)估器對(duì)初始樣本頁面集W進(jìn)行學(xué)習(xí)，具體包括步驟Bl:用普通爬蟲或其它類型的主題爬蟲爬行一部分頁面，作為函數(shù)Q 值計(jì)算的訓(xùn)練集；B2:設(shè)超鏈接為"'，計(jì)算它的函數(shù)2值""》的方法是設(shè)定^"') = 1, 如果所述超鏈接"'直接鏈接向一個(gè)主題相關(guān)頁面，則設(shè)定""')=0。
3. 根據(jù)權(quán)利要求1所述基于增量Q-Learning的學(xué)習(xí)方法，其特征在于所述步驟C具體為對(duì)候選URL進(jìn)行IQ-Leaming評(píng)估，在IQ-Learning 算法中，候選URL的函數(shù)Q值是基于已爬行頁面集合在線計(jì)算，它的定義既考慮了立即回報(bào)也考慮了長(zhǎng)遠(yuǎn)回報(bào)，公式為 0(",)=尺(《)+ &(《)， 0(《)=丄't^("J""UW.;其中，"'是已爬行的超鏈接、《是爬行所述"'獲得的頁面、WW)表示頁面《的主題相關(guān)度、^是所述《的子URL,并且是一個(gè)已爬行的URL、"表示A的已爬行子URL的總數(shù)、 e("J表示^的函數(shù)Q值、y是一個(gè)折算因子；這個(gè)定義是一個(gè)遞歸的定義，其中*W)表示了爬行"'而獲得的立即回報(bào)，而"W)表示折算了的累計(jì)長(zhǎng)遠(yuǎn)回報(bào)，7決定了長(zhǎng)遠(yuǎn)回報(bào)相對(duì)于立即回報(bào)的重要性。
4. 根據(jù)權(quán)利要求1所述基于增量Q - Learning的學(xué)習(xí)方法，其特征在于所述步驟H為通過頁面相關(guān)度評(píng)估器計(jì)算所述頁面d的相關(guān)度R(d)，具體包括步驟H1 :提取鏈接上下文信息；H2 :對(duì)以獲取到的鏈接進(jìn)行分類；H3:根據(jù)訓(xùn)練樣本集計(jì)算出先驗(yàn)概率和后驗(yàn)概率。
5. 根據(jù)權(quán)利要求4所述基于增量Q _ Learning的學(xué)習(xí)方法，其特征在于所述步驟H1具體為每個(gè)超鏈接的上下文r("》是由它的錨文本以及該超鏈接的源頁面的標(biāo)題(Title)組成的，這樣每個(gè)訓(xùn)練樣本可以表示為<n",)，c,>;采用樸素貝葉斯作為訓(xùn)練算法，首先n"')要通過向量空間模型表示為一個(gè)詞頻加權(quán)向量，最后「("》表示為r(w,)《氣一2,，…,^,，…,氣> 。
6. 根據(jù)權(quán)利要求4所述基于增量Q _ Learning的學(xué)習(xí)方法，其特征在于所述步驟H2具體為對(duì)每一個(gè)新發(fā)現(xiàn)的超鏈接"'(對(duì)應(yīng)于候選URL)，分類器要根據(jù)所述URL的上下文^"')判斷它屬于哪個(gè)類C,并^與該類相對(duì)應(yīng)的Q值賦給所述候選URL以表示它的爬行優(yōu)先級(jí)；對(duì)于NB分類器，這個(gè)任務(wù)可以表示為要找到一個(gè)類C',使該類相對(duì)于所述R"')的條件概率P(C 1 ""》)最大化，可用下式來表示C* = arg max尸(Q )尸(r ,)| Cy) = arg max尸(。)f] P( | 。)
7. 根據(jù)權(quán)利要求4所述基于增量Q - Learning的學(xué)習(xí)方法，其特征在于所述步驟H3具體為先驗(yàn)概率為類&包含的樣本數(shù)量占整個(gè)樣本集的百分比；后驗(yàn)概率尸( ^.)為 in+2^,'，其中，Wl表示特征空間的大小，^'表示特征(詞)"在類q的一個(gè)訓(xùn)練樣本卩"》中所具有的//"#權(quán)值，即2^、'表示了特征"在類c'中的P蜂權(quán)值總和，",表類Q中的所有特征的^*,權(quán)值總和。
8. 根據(jù)權(quán)利要求1所述基于增量Q - Learning的學(xué)習(xí)方法，其特征在于所述步驟J具體為使用所述步驟I中新獲取的函數(shù)Q值對(duì)樸素貝葉斯 Q值映射分類器進(jìn)行重新訓(xùn)練。
9. 一種基于增量Q-Learning的學(xué)習(xí)系統(tǒng)，所述系統(tǒng)包括頁面相關(guān) 度評(píng)估器、超鏈接評(píng)價(jià)器和網(wǎng)頁爬行器，其特征在于所述系統(tǒng)還包括樣本生成器，所述樣本生成器分別與所述頁面相關(guān)度評(píng)估器、所述超鏈接評(píng) 價(jià)器和所述網(wǎng)頁爬行器連接。
10. 根據(jù)權(quán)利要求9所述基于增量Q-Learning的學(xué)習(xí)系統(tǒng)，其特征在于所述頁面相關(guān)度評(píng)估器與所述超鏈接評(píng)價(jià)器是緊耦合的關(guān)系。
全文摘要
本發(fā)明涉及一種基于增量Q-Learning的學(xué)習(xí)方法及系統(tǒng)。所述方法中系統(tǒng)要沿著新爬行頁面對(duì)應(yīng)的超鏈接鏈路重新計(jì)算鏈路上各個(gè)結(jié)點(diǎn)函數(shù)Q值，根據(jù)計(jì)算得到的新的函數(shù)Q值，系統(tǒng)重新進(jìn)行函數(shù)Q值的離散化，形成新的樣本，然后重新訓(xùn)練NB分類器以獲得新的Q值分類模型，再利用該新的Q值分類模型為URL隊(duì)列中的各個(gè)候選URL重新計(jì)算Q值，最后IQ-Learning算法也要讓頁面相關(guān)度評(píng)估器進(jìn)行增量學(xué)習(xí)。本發(fā)明系統(tǒng)體系結(jié)構(gòu)的創(chuàng)新點(diǎn)在于增加了一個(gè)Q-Learning在線樣本生成器，它對(duì)在線爬行獲得的頁面進(jìn)行分析和評(píng)價(jià)，生成新的正例樣本或反例樣本，使增量學(xué)習(xí)成為可能。本發(fā)明所述技術(shù)有效的提高了主題爬蟲的收獲率。
文檔編號(hào)G06F17/30GK101261634SQ20081006662
公開日2008年9月10日申請(qǐng)日期2008年4月11日優(yōu)先權(quán)日2008年4月11日
發(fā)明者葉允明申請(qǐng)人:哈爾濱工業(yè)大學(xué)深圳研究生院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：葉允明
技術(shù)所有人：哈爾濱工業(yè)大學(xué)深圳研究生院
我是此專利的發(fā)明人

上一篇：觸摸屏電極制造方法
上一篇：HDMI以及Display Port圖像信號(hào)分割方法及其裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于增量Q-Learning的學(xué)習(xí)方法及系統(tǒng)的制作方法