基于可拒絕策略的元搜索結(jié)果排序算法
【專利摘要】本發(fā)明公開了一種基于可拒絕策略的元搜索結(jié)果排序算法,用戶注冊后登錄,系統(tǒng)調(diào)取用戶相關(guān)偏好信息;針對用戶輸入檢索請求,按照用戶所選擇的成員搜索引擎進行分發(fā)。對檢索結(jié)果計算相關(guān)度并依照改進的Borda方法進行排序后呈現(xiàn)給用戶;根據(jù)用戶對所返回結(jié)果的點擊情況調(diào)整成員搜索引擎權(quán)重大小,直至拒絕調(diào)用某個成員搜索引擎,對用戶偏好模型進行優(yōu)化。本發(fā)明提供的基于可拒絕策略的元搜索結(jié)果排序算法,適用于互聯(lián)網(wǎng)中的元搜索引擎,具有準確度高和覆蓋率廣的優(yōu)點。
【專利說明】基于可拒絕策略的元搜索結(jié)果排序算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于可拒絕策略的元搜索結(jié)果排序算法,屬于搜索引擎方法技術(shù) 領(lǐng)域。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)的迅速發(fā)展使得網(wǎng)絡(luò)資源急劇增加,用戶如何能夠有效地獲取所需信息成 為一個非常值得研究的課題。搜索引擎(Search Engine)是指根據(jù)一定的策略、運用特定 的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù),將 用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。搜索引擎的出現(xiàn)大大提高了人們對互聯(lián)網(wǎng)信息檢 索的能力和效率。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC) 2014年1月《第33次中國互聯(lián)網(wǎng)絡(luò)發(fā) 展?fàn)顩r統(tǒng)計報告》的數(shù)據(jù),中國網(wǎng)民搜索引擎用戶規(guī)模達4. 90億,使用率為79. 3%,成為互 聯(lián)網(wǎng)的基礎(chǔ)應(yīng)用之一,是網(wǎng)民獲取信息的重要工具。
[0003] 搜索引擎給人們帶來便利的同時也存在著較大的問題。傳統(tǒng)搜索引擎網(wǎng)絡(luò)資源覆 蓋率較低,檢索返回結(jié)果的相關(guān)度不高,而且不同搜索引擎針對同一個查詢所返回結(jié)果的 重疊率也很低。用戶要想獲得全面、準確的搜索結(jié)果,往往需要使用多個搜索引擎。
[0004] 為進一步提高用戶檢索滿意度,減少用戶檢索次數(shù),提高檢索覆蓋率和準確率,元 搜索引擎(Meta-Search Engine)應(yīng)運而生。元搜索引擎提供統(tǒng)一檢索界面,將用戶的檢索 請求提交給多個成員搜索引擎(或源搜索引擎),并將它們的檢索結(jié)果匯集在一起呈現(xiàn)給 用戶。
[0005] 現(xiàn)有的元搜索引擎對于成員搜索引擎按照相等的權(quán)重進行調(diào)用,并對所返回的檢 索結(jié)果或按照先后原則直接合并排序,或按照位置進行排序,或利用相關(guān)分值進行融合排 序,沒有考慮到用戶的實際需求、興趣愛好以及對排序結(jié)果的瀏覽查看情況,等等。
【發(fā)明內(nèi)容】
[0006] 目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種基于可拒絕策略的元搜 索結(jié)果排序算法。
[0007] 技術(shù)方案:為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:
[0008] -種基于可拒絕策略的元搜索結(jié)果排序算法,包括如下步驟:
[0009] 步驟一:用戶通過用戶注冊登錄模塊進行注冊并初次登錄,輸入查詢串q ;
[0010] 步驟二:元搜索引擎根據(jù)用戶輸入的查詢串q,提取關(guān)鍵詞,通過分發(fā)模塊將關(guān)鍵 詞按照成員搜索引擎的格式分發(fā)給所調(diào)用的成員搜索引擎,收集每個成員搜索引擎返回的 搜索結(jié)果;
[0011] 步驟三:通過排序模塊接收每個成員搜索引擎返回的搜索結(jié)果,對搜索結(jié)果計算 相關(guān)度,然后依照改進的Borda函數(shù),并結(jié)合成員搜索引擎權(quán)重進行排序,將排序后的結(jié)果 返回給用戶;
[0012] 步驟四:通過搜索引擎權(quán)重調(diào)整模塊對用戶權(quán)重模型進行更新;根據(jù)用戶點擊等 反饋信息來調(diào)整成員搜索引擎權(quán)重分配,直至拒絕調(diào)用某些成員搜索引擎。
[0013] 所述用戶注冊登錄模塊包括登記用戶的基本信息;所述基本信息包括地域、行業(yè)、 教育程度、興趣愛好等,可初步了解用戶的偏好信息;所述初次登錄用戶默認設(shè)置選擇全 部的成員搜索引擎,各成員搜索引擎權(quán)重相同。
[0014] 所述排序模塊包括對返回的搜索結(jié)果的預(yù)處理,所述預(yù)處理包括如下步驟:
[0015] 步驟一:提取返回的搜索結(jié)果重要組成部分,包括網(wǎng)址、標(biāo)題、摘要、出處、位置,并 根據(jù)網(wǎng)址、標(biāo)題、摘要、出處、位置對返回的搜索結(jié)果進行排序;
[0016] 步驟二:計算查詢串與搜索結(jié)果之間的相關(guān)度,主要計算查詢串與標(biāo)題、摘要之間 的相關(guān)度;所述標(biāo)題的重要程度高于摘要,計算相關(guān)度時標(biāo)題和摘要所占權(quán)重不一樣;所 述摘要的長度大于標(biāo)題的長度時,文檔越長,所包含信息越多,同樣關(guān)鍵詞也可能多次出 現(xiàn);所述關(guān)鍵詞第二次出現(xiàn)不如第一次出現(xiàn)的信息量大,如果某個關(guān)鍵詞在搜索結(jié)果中反 復(fù)出現(xiàn),則會降低該關(guān)鍵詞的可信度,在計算相關(guān)度時需要對其進行懲罰;
[0017] 假設(shè)元搜索引擎調(diào)用的成員搜索引擎?zhèn)€數(shù)為m,用Si(i = 1,2,...,m)表示,成員 搜索引擎的初始權(quán)重R = l/m(i = 1,2,. . .,m),構(gòu)成權(quán)重向量W = {wp w2,. . .,wm};對于 輸入的查詢串q進行分詞,用% (j = 1,2, . . .,t)表示;成員搜索引擎Si檢索返回的結(jié)果 個數(shù)為SiNumberQ = 1,2,…,m),成員搜索引擎Si的第k個結(jié)果用= 1,2,…,m, k =1,2,. . .,SiNumber)表示,每個riik由網(wǎng)址、標(biāo)題、摘要、相關(guān)分值和所屬成員搜索引擎五 部分組成;分別用數(shù)組 SiJJrl [k]、s^Titlelik]、Si_Text[k]、s^Simlik]、Si_SE[k]表示,其 中 k = 1,2, · · ·,SiNumber, i = 1,2, · · ·,m,Si_SE [k] = 2(1_? ;去重操作時,要去掉重復(fù)的 記錄,但必須把返回該記錄的成員搜索引擎標(biāo)記出來,這里進行加法處理,為了保證能區(qū)分 不同成員搜索引擎,故對成員搜索引擎的取值進行處理,設(shè)置為2 (i'所述i為成員搜索引 擎的編號,用于保證最終結(jié)果分解的唯一性;
[0018] 所述查詢串q與搜索結(jié)果riik相關(guān)度計算步驟如下:
[0019] 步驟一:計算查詢串q中每個關(guān)鍵詞%與搜索結(jié)果riik標(biāo)題之間的相關(guān)度,采用 如下計算公式:
[0020]
【權(quán)利要求】
1. 一種基于可拒絕策略的元搜索結(jié)果排序算法,其特征在于,包括如下步驟: 步驟一:用戶通過用戶注冊登錄模塊進行注冊并初次登錄,輸入查詢串q; 步驟二:元搜索引擎根據(jù)用戶輸入的查詢串q,提取關(guān)鍵詞,通過分發(fā)模塊將關(guān)鍵詞按 照成員搜索引擎的格式分發(fā)給所調(diào)用的成員搜索引擎,收集每個成員搜索引擎返回的搜索 結(jié)果; 步驟三:通過排序模塊接收每個成員搜索引擎返回的搜索結(jié)果,對搜索結(jié)果計算相關(guān) 度,然后依照改進的Borda函數(shù),并結(jié)合成員搜索引擎權(quán)重進行排序,將排序后的結(jié)果返回 給用戶; 步驟四:通過搜索引擎權(quán)重調(diào)整模塊對用戶權(quán)重模型進行更新;根據(jù)用戶點擊等反饋 信息來調(diào)整成員搜索引擎權(quán)重分配,直至拒絕調(diào)用某些成員搜索引擎。
2. 根據(jù)權(quán)利要求1所述的基于可拒絕策略的元搜索結(jié)果排序算法,其特征在于:所述 用戶注冊登錄模塊包括登記用戶的基本信息;所述基本信息包括地域、行業(yè)、教育程度、興 趣愛好,可初步了解用戶的偏好信息;所述初次登錄用戶默認設(shè)置選擇全部的成員搜索引 擎,各成員搜索引擎權(quán)重相同。
3. 根據(jù)權(quán)利要求1所述的基于可拒絕策略的元搜索結(jié)果排序算法,其特征在于:所述 排序模塊包括對返回的搜索結(jié)果的預(yù)處理,所述預(yù)處理包括如下步驟: 步驟一:提取返回的搜索結(jié)果重要組成部分,包括網(wǎng)址、標(biāo)題、摘要、出處、位置,并根據(jù) 網(wǎng)址、標(biāo)題、摘要、出處、位置對返回的搜索結(jié)果進行排序; 步驟二:計算查詢串與搜索結(jié)果之間的相關(guān)度,主要計算查詢串與標(biāo)題、摘要之間的 相關(guān)度;所述標(biāo)題的重要程度高于摘要,計算相關(guān)度時標(biāo)題和摘要所占權(quán)重不一樣;所述 摘要的長度大于標(biāo)題的長度時,文檔越長,所包含信息越多,同樣關(guān)鍵詞也可能多次出現(xiàn); 所述關(guān)鍵詞第二次出現(xiàn)不如第一次出現(xiàn)的信息量大,如果某個關(guān)鍵詞在搜索結(jié)果中反復(fù)出 現(xiàn),則會降低該關(guān)鍵詞的可信度,在計算相關(guān)度時需要對其進行懲罰; 假設(shè)元搜索引擎調(diào)用的成員搜索引擎?zhèn)€數(shù)為m,用Si(i=l,2,...,m)表示,成員搜索 引擎的初始權(quán)重Wi =l/m(i= 1,2,. . .,m),構(gòu)成權(quán)重向量W= (W1,w2,. ..,wj;對于輸入 的查詢串q進行分詞,用%(j= 1,2, ...,t)表示;成員搜索引擎Si檢索返回的結(jié)果個數(shù) 為SiNumber(i= 1,2,…,m),成員搜索引擎Si的第k個結(jié)果用= 1,2,…,m,k= 1,2, ...,SiNumber)表示,每個由網(wǎng)址、標(biāo)題、摘要、相關(guān)分值和所屬成員搜索引擎五部 分組成;分別用數(shù)組SiJJrl[k]、SiJitleM、SiJext[k]、s^Simlik]、Si_SE[k]表示,其中 k= 1,2, ? ? ?,SiNumber,i= 1,2, ? ? ?,m,Si_SE[k] = 2(1_1};去重操作時,要去掉重復(fù)的記 錄,但必須把返回該記錄的成員搜索引擎標(biāo)記出來,這里進行加法處理,為了保證能區(qū)分不 同成員搜索引擎,故對成員搜索引擎的取值進行處理,設(shè)置為2^,所述i為成員搜索引擎 的編號,用于保證最終結(jié)果分解的唯一性; 所述查詢串q與搜索結(jié)果相關(guān)度計算步驟如下: 步驟一:計算查詢串q中每個關(guān)鍵詞%與搜索結(jié)果ru標(biāo)題之間的相關(guān)度,采用如下 計算公式:
乘以Si的權(quán)重Wi和rj的相關(guān)度,即成員搜索引擎Si對結(jié)果rj的最終Borda評分為
步驟二:依次改變i(i= 1,2,...,m)的值,SiQ= 1,2,...,m)對所有結(jié)果的評分可 組成總評分矩陣
m 最后統(tǒng)計結(jié)果集合中L的最終相關(guān)分值然后對f(rp從大到小進行 排序,將排序結(jié)果返回給用戶;當(dāng)進行步驟一、步驟二操作時,定義數(shù)組totalUrl[x]、totalTitle[x]、totalText[x]、totalSim[x]、totalSE[x],X= 1,2,…,n;將SiJJrl[k]、 Si-Titlelik]、Si_Text[k]、Si-Sim[k]、Si_SE[k](i= 1,2,…,m,k= 1,2,…,SiNumber)的 值分別賦給定義的數(shù)組,這樣就將所有的搜索結(jié)果賦給了這五個數(shù)組; 當(dāng)建立評分矩陣時,按照網(wǎng)址進行比較,即對totalUrl[i]進行比較,如果網(wǎng)址相同, 即totalUrl[i] =totalUrl[j],貝U認為是同一條記錄;則將相關(guān)分值的和作為前一個結(jié) 果的相關(guān)分值,totalSim[i] =totalSim[i]+totalSim[j],并將對應(yīng)成員搜索引擎的值累 力口,即totalSE[i] =totalSE[i]+totalSE[j],然后將totalUrl[j]及相關(guān)信息清除; 當(dāng)排序時,如果有兩個或多個記錄的最終相關(guān)分值一致,則參照成員搜索引擎的權(quán)重, 權(quán)重小的排在前面; 最終返回給用戶的結(jié)果中包含網(wǎng)址、標(biāo)題、摘要、相關(guān)度和成員搜索引擎等信息。
4.根據(jù)權(quán)利要求1所述的基于可拒絕策略的元搜索結(jié)果排序算法,其特征在于:所述 搜索引擎權(quán)重調(diào)整模塊包括通過用戶的隱式反饋信息來調(diào)整成員搜索引擎的決策權(quán)重; 假設(shè)元搜索引擎有m個成員搜索引擎Sl,s2, ...,Sm組成,返回n個結(jié)果,對結(jié)果集合R =Ii^r2,. ? .,rn}進行總體評價;令XijQ= 1,2,. ..,n;j= 1,2,. . .,m)表示搜索引擎j 對于第i個結(jié)果的評價值,得到全部搜索引擎的初始評價矩陣:
元搜索引擎的整體效用函數(shù)要參考所調(diào)用成員搜索引擎的效用函數(shù),即元搜索引擎 的效用函數(shù)應(yīng)該是成員搜索引擎效用函數(shù)的函數(shù)ue(y) =f[Ul(y),u2(y),...,Uni(y)];最簡 單的元搜索引擎集結(jié)函數(shù)采用的是求平均值的方法:
,其中xM表示元搜索引 擎對方案i的評價值;記W= 是元搜索引擎的初始權(quán)重,其中wf表示第j個 成員搜索引擎的初始權(quán)重,該
計算每個方案的元搜索引擎平均估計 值彳得到元搜索引擎平均估計向量f=fx丨,4...,?1),將元搜索引擎的平均估計向量作為 方案的真實值,用成員搜索引擎的評價值與元搜索引擎平均估計的一致程度重新修正初始 權(quán)重:
其中,⑨是搜索引擎平均估計向量與搜索引擎評價矩陣元素乘積的累加和,是一個確 定的值。對于最佳方案,若某個成員搜索引擎的評分值高,則該成員搜索引擎的權(quán)重就會 加大,修正權(quán)W1反映了成員搜索引擎對相對最優(yōu)方案判斷的正確性,修正后的權(quán)重向量 為= 權(quán)重的變化又帶來元搜索引擎平均估計的變化
根據(jù)群體新的平均估計,再一次驗證成員搜索引擎對相對最優(yōu)方案判斷的正確性,重 新修正權(quán)重向量:
按照算法Xt =Xwt'Wf 不斷修正權(quán)重向量和元搜索引擎平均估計,直到收 斂為止;成員搜索引擎的最終權(quán)重向量Wt =Wt'或Xt =Xw ; 計算方法:記Xt是X的轉(zhuǎn)置矩陣,根據(jù)轉(zhuǎn)置矩陣的性質(zhì),上式變?yōu)镴T=XTfJTV# ?W=I7I,I/#,令B=X1X,得到W=AiW/¢/ ,其中Wt > 0,B= (I^j)nxm是nXm階矩陣,
多次調(diào)整后,某個成員搜索引擎的權(quán)重變?yōu)榱悖瑒t說明元搜索引擎不再信任該成員搜 索引擎,即使用戶選擇了該成員搜索引擎,系統(tǒng)也會即拒絕調(diào)用該成員搜索引擎。
【文檔編號】G06F17/30GK104268142SQ201410382660
【公開日】2015年1月7日 申請日期:2014年8月5日 優(yōu)先權(quán)日:2014年8月5日
【發(fā)明者】韓立新, 劉合兵, 曹林, 郭海鳳 申請人:河海大學(xué)