亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于遺傳算法的搜索方法及裝置的制作方法

文檔序號(hào):6338959閱讀:449來(lái)源:國(guó)知局
專利名稱:一種基于遺傳算法的搜索方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種基于遺傳算法的搜索方法及裝置。
背景技術(shù)
隨著技術(shù)的不斷發(fā)展,新的信息檢索方法不斷涌現(xiàn)。但在目前很多搜索服務(wù)中, 沒(méi)有針對(duì)不同用戶的個(gè)性化的信息搜索服務(wù),不同用戶相同查詢請(qǐng)求返回的查詢結(jié)果也相 同,即系統(tǒng)不能識(shí)別不同用戶個(gè)性信息需求上的差別。因此如何在搜索的過(guò)程中合理描述 并利用用戶的個(gè)性化信息,提供個(gè)性化搜索成為了信息檢索領(lǐng)域中許多學(xué)者的研究熱點(diǎn)。 在個(gè)性化信息服務(wù)中,如何表達(dá)和提取用戶的個(gè)性化信息以及如何實(shí)現(xiàn)信息的個(gè)性化過(guò)濾 成為個(gè)性化服務(wù)研究的關(guān)鍵技術(shù)。在目前的個(gè)性化服務(wù)中,基于本體的個(gè)性化信息服務(wù),改 變了以往在判別網(wǎng)頁(yè)相關(guān)性方面所采用的向量空間模型?;诒倔w的個(gè)性化信息服務(wù)中,通過(guò)將關(guān)鍵詞匯映射到語(yǔ)義概念一級(jí),雖然在一 定程度上可以改善計(jì)算網(wǎng)頁(yè)相關(guān)性方面的效果,但是語(yǔ)義表達(dá)不準(zhǔn)確會(huì)影響網(wǎng)頁(yè)相關(guān)性的 判斷,進(jìn)而影響個(gè)性化搜索的準(zhǔn)確性?;谟脩粜袨榉治龅膫€(gè)性化信息服務(wù)或者需要由用 戶提供與興趣相關(guān)或無(wú)關(guān)的示例來(lái)建立模型,此方法需要用戶在瀏覽過(guò)程中標(biāo)注頁(yè)面以得 到示例,干擾了用戶的正常瀏覽;或者由系統(tǒng)自動(dòng)進(jìn)行建模,但是自動(dòng)化效果不佳。因此,設(shè)計(jì)一種性能良好、保證查全率、有效滿足用戶的個(gè)性化需求的搜索方法及 裝置十分必要,是信息檢索技術(shù)領(lǐng)域目前急待解決的問(wèn)題之

發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種基于遺傳算法的搜索方法及裝置,通過(guò)依據(jù)用戶瀏覽過(guò) 的頁(yè)面進(jìn)行內(nèi)容分析,根據(jù)信息主題對(duì)頁(yè)面進(jìn)行聚類,形成用戶興趣模型,并依據(jù)適應(yīng)度均 值選擇適應(yīng)度函數(shù)值最理想的個(gè)體,優(yōu)化用戶興趣模型,然后將搜索的頁(yè)面集合進(jìn)行隊(duì)列, 并依據(jù)相關(guān)度進(jìn)行排序,優(yōu)先搜索相關(guān)度高的網(wǎng)頁(yè),以獲得相關(guān)度較高的網(wǎng)頁(yè),既體現(xiàn)了用 戶的個(gè)性化,又提高了搜索的準(zhǔn)確性。本發(fā)明實(shí)施例提供以下技術(shù)方案—種基于遺傳算法的搜索方法,包括步驟Si、依據(jù)用戶瀏覽過(guò)的頁(yè)面進(jìn)行內(nèi)容分析,根據(jù)信息主題對(duì)頁(yè)面進(jìn)行聚類,形 成用戶興趣模型。步驟S2、依據(jù)適應(yīng)度均值選擇適應(yīng)度函數(shù)值最理想的個(gè)體,優(yōu)化用戶興趣模型。步驟S3、將搜索的頁(yè)面集合進(jìn)行隊(duì)列,并依據(jù)相關(guān)度進(jìn)行排序,優(yōu)先搜索相關(guān)度高 的網(wǎng)頁(yè)。優(yōu)選的,上述步驟一中,采用模糊C均值算法,在數(shù)據(jù)集的聚類數(shù)目已知的情況 下,計(jì)算最佳的數(shù)據(jù)劃分。優(yōu)選的,上述步驟一中,依據(jù)用戶的長(zhǎng)期興趣和短期興趣進(jìn)行分析。優(yōu)選的,上述步驟一中,采用一個(gè)三元組(keyi,Wi, f)來(lái)表示每一個(gè)興趣節(jié)點(diǎn),其中keyi表興趣節(jié)點(diǎn)的關(guān)鍵詞,Wi表示該關(guān)鍵詞的權(quán)重,f表示該興趣的新鮮度。優(yōu)選的,上述步驟二中,進(jìn)一步包括如下步驟S21、隨機(jī)產(chǎn)生size個(gè)長(zhǎng)度為m的二進(jìn)制串組成種群。S22、種群進(jìn)行以ρ概率進(jìn)行交叉、以pc概率進(jìn)行變異,產(chǎn)生下一代種群個(gè)體。S23、計(jì)算個(gè)體ρ的適應(yīng)度并判斷適應(yīng)度均值是否不再發(fā)生較大變化或當(dāng)前的代數(shù)是否已經(jīng)達(dá)到最大代數(shù),若是則執(zhí)行S24,否則轉(zhuǎn)S22。S24、選擇適應(yīng)度函數(shù)值最理想的個(gè)體。優(yōu)選的,上述步驟三中,進(jìn)一步包括利用通用搜索引擎獲得初始的網(wǎng)頁(yè)集合,并 放入待搜索的網(wǎng)頁(yè)隊(duì)列。優(yōu)選的,上述步驟三中,進(jìn)一步包括對(duì)待搜索的網(wǎng)頁(yè)隊(duì)列,利用向量空間模型計(jì) 算查詢結(jié)果與用戶興趣的相關(guān)度,并按照相關(guān)度進(jìn)行排序,優(yōu)先搜索相關(guān)度高的網(wǎng)頁(yè)。一種基于遺傳算法的搜索裝置,包括分析聚類模塊、優(yōu)化模塊、列隊(duì)及優(yōu)先搜索模 塊。優(yōu)選的,上述分析聚類模塊,用于依據(jù)用戶瀏覽過(guò)的頁(yè)面進(jìn)行內(nèi)容分析,根據(jù)信息 主題對(duì)頁(yè)面進(jìn)行聚類,形成用戶興趣模型。優(yōu)選的,上述優(yōu)化模塊,用于依據(jù)適應(yīng)度均值選擇適應(yīng)度函數(shù)值最理想的個(gè)體,優(yōu) 化用戶興趣模型。優(yōu)選的,上述列隊(duì)及優(yōu)先搜索模塊,用于將搜索的頁(yè)面集合進(jìn)行隊(duì)列,并依據(jù)相關(guān) 度進(jìn)行排序,優(yōu)先搜索相關(guān)度高的網(wǎng)頁(yè)。優(yōu)選的,上述優(yōu)化模塊,進(jìn)一步包含第一生成模塊,隨機(jī)產(chǎn)生size個(gè)長(zhǎng)度為m的二 進(jìn)制串組成種群。優(yōu)選的,上述優(yōu)化模塊,進(jìn)一步包含第二生成模塊,種群進(jìn)行以ρ概率進(jìn)行交叉、 以PC概率進(jìn)行變異,產(chǎn)生下一代種群個(gè)體。優(yōu)選的,上述優(yōu)化模塊,進(jìn)一步包含計(jì)算及判斷模塊,計(jì)算個(gè)體P的適應(yīng)度并判斷 適應(yīng)度均值是否不再發(fā)生較大變化或當(dāng)前的代數(shù)是否已經(jīng)達(dá)到最大代數(shù)。優(yōu)選的,上述優(yōu)化模塊,進(jìn)一步包含輸出模塊,選擇適應(yīng)度函數(shù)值最理想的個(gè)體, 最終獲得最優(yōu)的用戶興趣模型。本發(fā)明提供的一種基于遺傳算法的搜索方法及裝置,通過(guò)依據(jù)用戶瀏覽過(guò)的頁(yè)面 進(jìn)行內(nèi)容分析,根據(jù)信息主題對(duì)頁(yè)面進(jìn)行聚類,形成用戶興趣模型,并依據(jù)適應(yīng)度均值選擇 適應(yīng)度函數(shù)值最理想的個(gè)體,優(yōu)化用戶興趣模型,然后將搜索的頁(yè)面集合進(jìn)行隊(duì)列,并依據(jù) 相關(guān)度進(jìn)行排序,優(yōu)先搜索相關(guān)度高的網(wǎng)頁(yè),以獲得相關(guān)度較高的網(wǎng)頁(yè),既體現(xiàn)了用戶的個(gè) 性化,又提高了搜索的準(zhǔn)確性。


為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹。顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可 以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實(shí)施例提供的基于遺傳算法的搜索方法流程圖2是本發(fā)明實(shí)施例提供的基于遺傳算法的搜索裝置示意圖;圖3是本發(fā)明實(shí)施例提供的優(yōu)化模塊裝置示意圖。
具體實(shí)施例方式本發(fā)明實(shí)施例提供一種基于遺傳算法的搜索方法及裝置,通過(guò)依據(jù)用戶瀏覽過(guò)的頁(yè)面進(jìn)行內(nèi)容分析,根據(jù)信息主題對(duì)頁(yè)面進(jìn)行聚類,形成用戶興趣模型,并依據(jù)適應(yīng)度均值 選擇適應(yīng)度函數(shù)值最理想的個(gè)體,優(yōu)化用戶興趣模型,然后將搜索的頁(yè)面集合進(jìn)行隊(duì)列,并 依據(jù)相關(guān)度進(jìn)行排序,優(yōu)先搜索相關(guān)度高的網(wǎng)頁(yè),以獲得相關(guān)度較高的網(wǎng)頁(yè),既體現(xiàn)了用戶 的個(gè)性化,又提高了搜索的準(zhǔn)確性。為使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,下 面參照附圖并舉實(shí)施例,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。本發(fā)明實(shí)施例提供一種基于遺傳算法的搜索方法,如圖1所示,具體步驟包括步驟Si、依據(jù)用戶瀏覽過(guò)的頁(yè)面進(jìn)行內(nèi)容分析,根據(jù)信息主題對(duì)頁(yè)面進(jìn)行聚類,形 成用戶興趣模型。具體而言,在本發(fā)明實(shí)施例中,用戶往往有多個(gè)不同的興趣類別,為了區(qū)分各種不 同興趣,本發(fā)明實(shí)施例采用分類層次結(jié)構(gòu)來(lái)表示用戶可能具有的興趣。首先對(duì)用戶瀏覽過(guò) 的頁(yè)面進(jìn)行內(nèi)容分析,根據(jù)信息主題對(duì)頁(yè)面進(jìn)行聚類,以形成不同用戶的興趣樹(shù)。采用模糊 C均值(FCM)算法,該算法能夠在數(shù)據(jù)集的聚類數(shù)目已知的情況下,計(jì)算最佳的數(shù)據(jù)劃分。進(jìn)一步的,在本發(fā)明實(shí)施例中,由于用戶在不同的時(shí)期表現(xiàn)出的興趣不同,長(zhǎng)期興 趣比較穩(wěn)定,短期興趣則能體現(xiàn)用戶最近的興趣,故本發(fā)明實(shí)施例中將依據(jù)用戶的長(zhǎng)期興 趣和短期興趣進(jìn)行分析。因此,本發(fā)明實(shí)施例采用一個(gè)三元組(keyi,Wi,f)來(lái)表示每一個(gè)興 趣節(jié)點(diǎn),其中keyi表興趣節(jié)點(diǎn)的關(guān)鍵詞,Wi表示該關(guān)鍵詞的權(quán)重,f表示該興趣的新鮮度。步驟S2、依據(jù)適應(yīng)度均值選擇適應(yīng)度函數(shù)值最理想的個(gè)體,優(yōu)化用戶興趣模型。具體而言,在本發(fā)明實(shí)施例中,采用遺傳算法,對(duì)用戶興趣模型進(jìn)行優(yōu)化。算法描 述如下(1)隨機(jī)產(chǎn)生size個(gè)長(zhǎng)度為m的二進(jìn)制串組成種群。(2)種群進(jìn)行以ρ概率進(jìn)行交叉、以pc概率進(jìn)行變異,產(chǎn)生下一代種群個(gè)體。(3)計(jì)算個(gè)體ρ的適應(yīng)度并判斷適應(yīng)度均值是否不再發(fā)生較大變化或當(dāng)前的代數(shù) 是否已經(jīng)達(dá)到最大代數(shù),若是則執(zhí)行(4),否則轉(zhuǎn)(2)。(4)選擇適應(yīng)度函數(shù)值最理想的個(gè)體。最終獲得最優(yōu)的用戶興趣模型。步驟S3、將搜索的頁(yè)面集合進(jìn)行隊(duì)列,并依據(jù)相關(guān)度進(jìn)行排序,優(yōu)先搜索相關(guān)度高 的網(wǎng)頁(yè)。具體而言,在本發(fā)明實(shí)施例中,利用通用搜索引擎獲得初始的網(wǎng)頁(yè)集合,并放入待 搜索的網(wǎng)頁(yè)隊(duì)列。對(duì)待搜索的網(wǎng)頁(yè)隊(duì)列,利用向量空間模型計(jì)算查詢結(jié)果與用戶興趣的相 關(guān)度(similarity),并按照相關(guān)度進(jìn)行排序,優(yōu)先搜索相關(guān)度高的網(wǎng)頁(yè)。一種基于遺傳算法的搜索裝置,包括分析聚類模塊11、優(yōu)化模塊22、列隊(duì)及優(yōu)先 搜索模塊33。分析聚類模塊,用于依據(jù)用戶瀏覽過(guò)的頁(yè)面進(jìn)行內(nèi)容分析,根據(jù)信息主題對(duì)頁(yè)面 進(jìn)行聚類,形成用戶興趣模型。具體而言,在本發(fā)明實(shí)施例中,用戶往往有多個(gè)不同的興趣類別,為了區(qū)分各種不同興趣,本發(fā)明實(shí)施例采用分類層次結(jié)構(gòu)來(lái)表示用戶可能具有的興趣。首先對(duì)用戶瀏覽過(guò)的頁(yè)面進(jìn)行內(nèi)容分析,根據(jù)信息主題對(duì)頁(yè)面進(jìn)行聚類,以形成不同用戶的興趣樹(shù)。采用模糊 C均值(FCM)算法,該算法能夠在數(shù)據(jù)集的聚類數(shù)目已知的情況下,尋找最佳的數(shù)據(jù)劃分。進(jìn)一步的,在本發(fā)明實(shí)施例中,還包含一節(jié)點(diǎn)分析模塊,用于對(duì)興趣節(jié)點(diǎn)的關(guān)鍵 詞、關(guān)鍵詞權(quán)重、新鮮度三個(gè)參數(shù)進(jìn)行分析。具體而言,由于用戶在不同的時(shí)期表現(xiàn)出的興 趣不同,長(zhǎng)期興趣比較穩(wěn)定,短期興趣則能體現(xiàn)用戶最近的興趣。因此,本發(fā)明實(shí)施例采用 一個(gè)三元組(key” Wi, f)來(lái)表示每一個(gè)興趣節(jié)點(diǎn),其中keyi表興趣節(jié)點(diǎn)的關(guān)鍵詞,Wi表示 該關(guān)鍵詞的權(quán)重,f表示該興趣的新鮮度。優(yōu)化模塊,用于依據(jù)適應(yīng)度均值選擇適應(yīng)度函數(shù)值最理想的個(gè)體,優(yōu)化用戶興趣 模型。具體而言,在本發(fā)明實(shí)施例中,采用遺傳算法,對(duì)用戶興趣模型進(jìn)行優(yōu)化。進(jìn)一步 的,本發(fā)明實(shí)施例還包括第一生成模塊221 隨機(jī)產(chǎn)生size個(gè)長(zhǎng)度為m的二進(jìn)制串組成種群。第二生成模塊222 種群進(jìn)行以ρ概率進(jìn)行交叉、以pc概率進(jìn)行變異,產(chǎn)生下一代 種群個(gè)體。計(jì)算及判斷模塊223 計(jì)算個(gè)體ρ的適應(yīng)度并判斷適應(yīng)度均值是否不再發(fā)生較大 變化或當(dāng)前的代數(shù)是否已經(jīng)達(dá)到最大代數(shù),若是則執(zhí)行(4),否則轉(zhuǎn)(2)。輸出模塊224 選擇適應(yīng)度函數(shù)值最理想的個(gè)體,最終獲得最優(yōu)的用戶興趣模型。列隊(duì)及優(yōu)先搜索模塊,用于將搜索的頁(yè)面集合進(jìn)行隊(duì)列,并依據(jù)相關(guān)度進(jìn)行排序, 優(yōu)先搜索相關(guān)度高的網(wǎng)頁(yè)。具體而言,在本發(fā)明實(shí)施例中,進(jìn)一步的,還包括一列隊(duì)模塊331,用于利用通用搜 索引擎獲得初始的網(wǎng)頁(yè)集合,并放入待搜索的網(wǎng)頁(yè)隊(duì)列。進(jìn)一步的,還包括一優(yōu)選搜索模塊332,用于對(duì)待搜索的網(wǎng)頁(yè)隊(duì)列,利用向量空間 模型計(jì)算查詢結(jié)果與用戶興趣的相關(guān)度(similarity),并按照相關(guān)度進(jìn)行排序,優(yōu)先搜索 相關(guān)度高的網(wǎng)頁(yè)。用戶的個(gè)性化信息的表達(dá)是是個(gè)性化搜索服務(wù)中一項(xiàng)關(guān)鍵的技術(shù)。在本發(fā)明實(shí)施 例中,首先根據(jù)對(duì)用戶行為進(jìn)行分析,采用模糊均值算法對(duì)用戶的行為進(jìn)行聚類,自動(dòng)完成 對(duì)用戶興趣模型的初步建立。然后利用遺傳算法對(duì)已經(jīng)建立的用戶興趣模型進(jìn)行優(yōu)化,得 到最優(yōu)的用戶興趣模型,從而對(duì)用戶的興趣進(jìn)行較為精確的表達(dá),解決了單純依靠用戶行 為分析建立用戶興趣模型的不準(zhǔn)確的問(wèn)題。本發(fā)明實(shí)施例的這種基于遺傳算法的個(gè)性化搜索算法,在對(duì)用戶行為分析的基礎(chǔ) 上建立初步的用戶興趣模型,再利用遺傳算法對(duì)用戶的興趣模型進(jìn)行進(jìn)一步的優(yōu)化,使得 興趣模型與用戶的個(gè)性化信息較為貼切。并在搜索的過(guò)程中,依據(jù)已經(jīng)建立的較為精確的 用戶興趣模型對(duì)待搜索網(wǎng)頁(yè)進(jìn)行相關(guān)度計(jì)算排序,以獲得相關(guān)度較高的網(wǎng)頁(yè)。這種方法既 體現(xiàn)了用戶的個(gè)性化,又提高了搜索的準(zhǔn)確性。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可 以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中, 該程序在執(zhí)行時(shí),包括方法實(shí)施例的步驟之一或其組合。另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如 果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī) 可讀取存儲(chǔ)介質(zhì)中。綜上所述,本文提供了本發(fā)明實(shí)施例提供一種基于遺傳算法的搜索方法及裝置, 通過(guò)依據(jù)用戶瀏覽過(guò)的頁(yè)面進(jìn)行內(nèi)容分析,根據(jù)信息主題對(duì)頁(yè)面進(jìn)行聚類,形成用戶興趣 模型,并依據(jù)適應(yīng)度均值選擇適應(yīng)度函數(shù)值最理想的個(gè)體,優(yōu)化用戶興趣模型,然后將搜索 的頁(yè)面集合進(jìn)行隊(duì)列,并依據(jù)相關(guān)度進(jìn)行排序,優(yōu)先搜索相關(guān)度高的網(wǎng)頁(yè),以獲得相關(guān)度較 高的網(wǎng)頁(yè),既體現(xiàn)了用戶的個(gè)性化,又提高了搜索的準(zhǔn)確性。以上對(duì)本發(fā)明所提供的一種基于遺傳算法的搜索方法及裝置進(jìn)行了詳細(xì)介紹,本 文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于 幫助理解本發(fā)明的方案;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí) 施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限 制。
權(quán)利要求
1.一種基于遺傳算法的搜索方法,其特征在于,所述搜索方法包括步驟Si、依據(jù)用戶瀏覽過(guò)的頁(yè)面進(jìn)行內(nèi)容分析,根據(jù)信息主題對(duì)頁(yè)面進(jìn)行聚類,形成用 戶興趣模型;步驟S2、依據(jù)適應(yīng)度均值選擇適應(yīng)度函數(shù)值最理想的個(gè)體,優(yōu)化用戶興趣模型; 步驟S3、將搜索的頁(yè)面集合進(jìn)行隊(duì)列,并依據(jù)相關(guān)度進(jìn)行排序,優(yōu)先搜索相關(guān)度高的網(wǎng)頁(yè)。
2.根據(jù)權(quán)利要求1所述的搜索方法,其特征在于,在所述步驟一中,采用模糊C均值算 法,在數(shù)據(jù)集的聚類數(shù)目已知的情況下,計(jì)算最佳的數(shù)據(jù)劃分。
3.根據(jù)權(quán)利要求1所述的搜索方法,其特征在于,在所述步驟一中,依據(jù)用戶的長(zhǎng)期興 趣和短期興趣進(jìn)行分析。
4.根據(jù)權(quán)利要求1所述的搜索方法,其特征在于,在所述步驟一中,采用一個(gè)三元組 (key,, Wi, f)來(lái)表示每一個(gè)興趣節(jié)點(diǎn),其中keyi表興趣節(jié)點(diǎn)的關(guān)鍵詞,Wi表示該關(guān)鍵詞的權(quán) 重,f表示該興趣的新鮮度。
5.根據(jù)權(quán)利要求1所述的搜索方法,其特征在于,在所述步驟二中,進(jìn)一步包括如下步驟521、隨機(jī)產(chǎn)生size個(gè)長(zhǎng)度為m的二進(jìn)制串組成種群;522、種群進(jìn)行以ρ概率進(jìn)行交叉、以pc概率進(jìn)行變異,產(chǎn)生下一代種群個(gè)體;523、計(jì)算個(gè)體ρ的適應(yīng)度并判斷適應(yīng)度均值是否不再發(fā)生較大變化或當(dāng)前的代數(shù)是 否已經(jīng)達(dá)到最大代數(shù),若是則執(zhí)行S24,否則轉(zhuǎn)S22 ;524、選擇適應(yīng)度函數(shù)值最理想的個(gè)體。
6.根據(jù)權(quán)利要求1所述的搜索方法,其特征在于,在所述步驟三中,進(jìn)一步包括利用 通用搜索引擎獲得初始的網(wǎng)頁(yè)集合,并放入待搜索的網(wǎng)頁(yè)隊(duì)列。
7.根據(jù)權(quán)利要求1所述的搜索方法,其特征在于,在所述步驟三中,進(jìn)一步包括對(duì)待 搜索的網(wǎng)頁(yè)隊(duì)列,利用向量空間模型計(jì)算查詢結(jié)果與用戶興趣的相關(guān)度,并按照相關(guān)度進(jìn) 行排序,優(yōu)先搜索相關(guān)度高的網(wǎng)頁(yè)。
8.一種基于遺傳算法的搜索裝置,其特征在于,所述搜索裝置包括分析聚類模塊、優(yōu)化 模塊、列隊(duì)及優(yōu)先搜索模塊。
9.根據(jù)權(quán)利要求8所述的搜索裝置,其特征在于,所述分析聚類模塊,用于依據(jù)用戶瀏 覽過(guò)的頁(yè)面進(jìn)行內(nèi)容分析,根據(jù)信息主題對(duì)頁(yè)面進(jìn)行聚類,形成用戶興趣模型。
10.根據(jù)權(quán)利要求8所述的搜索裝置,其特征在于,優(yōu)化模塊,用于依據(jù)適應(yīng)度均值選 擇適應(yīng)度函數(shù)值最理想的個(gè)體,優(yōu)化用戶興趣模型。
11.根據(jù)權(quán)利要求8所述的搜索裝置,其特征在于,列隊(duì)及優(yōu)先搜索模塊,用于將搜索 的頁(yè)面集合進(jìn)行隊(duì)列,并依據(jù)相關(guān)度進(jìn)行排序,優(yōu)先搜索相關(guān)度高的網(wǎng)頁(yè)。
12.根據(jù)權(quán)利要求10所述的搜索裝置,其特征在于,進(jìn)一步包含第一生成模塊,隨機(jī)產(chǎn) 生size個(gè)長(zhǎng)度為m的二進(jìn)制串組成種群。
13.根據(jù)權(quán)利要求10所述的搜索裝置,其特征在于,進(jìn)一步包含第二生成模塊,種群進(jìn) 行以P概率進(jìn)行交叉、以PC概率進(jìn)行變異,產(chǎn)生下一代種群個(gè)體。
14.根據(jù)權(quán)利要求10所述的搜索裝置,其特征在于,進(jìn)一步包含計(jì)算及判斷模塊,計(jì)算 個(gè)體P的適應(yīng)度并判斷適應(yīng)度均值是否不再發(fā)生較大變化或當(dāng)前的代數(shù)是否已經(jīng)達(dá)到最大代數(shù)。
15.根據(jù)權(quán)利要求10所述的搜索裝置,其特征在于,進(jìn)一步包含輸出模塊,選擇適應(yīng)度 函數(shù)值最理想的個(gè)體,最終獲得最優(yōu)的用戶興趣模型。
全文摘要
本發(fā)明提供的一種基于遺傳算法的搜索方法及裝置,通過(guò)依據(jù)用戶瀏覽過(guò)的頁(yè)面進(jìn)行內(nèi)容分析,根據(jù)信息主題對(duì)頁(yè)面進(jìn)行聚類,形成用戶興趣模型,并依據(jù)適應(yīng)度均值選擇適應(yīng)度函數(shù)值最理想的個(gè)體,優(yōu)化用戶興趣模型,然后將搜索的頁(yè)面集合進(jìn)行隊(duì)列,并依據(jù)相關(guān)度進(jìn)行排序,優(yōu)先搜索相關(guān)度高的網(wǎng)頁(yè),以獲得相關(guān)度較高的網(wǎng)頁(yè),既體現(xiàn)了用戶的個(gè)性化,又提高了搜索的準(zhǔn)確性。
文檔編號(hào)G06F17/30GK102043846SQ20101059262
公開(kāi)日2011年5月4日 申請(qǐng)日期2010年12月16日 優(yōu)先權(quán)日2010年12月16日
發(fā)明者寧建紅, 熊玉梅, 閆俊英 申請(qǐng)人:上海電機(jī)學(xué)院
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1