專利名稱:一種搜索引擎性能評價(jià)的自動(dòng)化處理方法
技術(shù)領(lǐng)域:
本發(fā)明屬于互聯(lián)網(wǎng)信息處理領(lǐng)域,特別是涉及一種基于用戶行為分析、挖掘的搜索引擎性能評價(jià)的自動(dòng)化處理方法。
背景技術(shù):
1.搜索引擎的定義與結(jié)構(gòu)搜索引擎是一種提供網(wǎng)絡(luò)信息服務(wù)的計(jì)算機(jī)系統(tǒng),它包括計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)硬件系統(tǒng)以及在硬件系統(tǒng)上運(yùn)行的軟件程序三個(gè)部分。它的主要作用是幫助用戶快捷、高效的獲取存在于互聯(lián)網(wǎng)信息環(huán)境中的能夠滿足用戶需求的高質(zhì)量信息。
目前,絕大多數(shù)搜索引擎提供服務(wù)的方式是通過關(guān)鍵詞查詢的方式實(shí)現(xiàn)的,即用戶利用網(wǎng)頁瀏覽器訪問搜索引擎網(wǎng)站,并提交反映自己查詢需求的關(guān)鍵詞(通常為幾個(gè)字、詞);搜索引擎系統(tǒng)繼而反饋互聯(lián)網(wǎng)絡(luò)上與用戶查詢相關(guān)的結(jié)果列表。結(jié)果列表通常是一系列網(wǎng)絡(luò)頁面或通過計(jì)算機(jī)網(wǎng)絡(luò)可以獲取的文件,并按照搜索引擎計(jì)算的與用戶查詢相關(guān)程度的大小排序,相關(guān)程度高的頁面(或文件)排在列表中比較靠前的位置。
使用搜索引擎進(jìn)行查詢的過程可以看作用戶向系統(tǒng)輸入以關(guān)鍵詞表示的查詢需求,系統(tǒng)輸出與查詢需求相關(guān)的網(wǎng)頁(或文件)列表。搜索引擎通過被稱為網(wǎng)絡(luò)蜘蛛的網(wǎng)頁獲取裝置收集互聯(lián)網(wǎng)頁面和文件并建立索引,進(jìn)而通過查詢裝置處理用戶查詢,并反饋結(jié)果列表,達(dá)到滿足用戶查詢需求的效果。
2.搜索引擎的性能評價(jià)技術(shù)搜索引擎的性能評價(jià)一直受到產(chǎn)業(yè)界和研究人員的廣泛關(guān)注對于搜索引擎服務(wù)供應(yīng)商而言,性能評價(jià)是進(jìn)一步提高檢索服務(wù)質(zhì)量的必要輔助手段;對于一般企業(yè)而言,性能評價(jià)關(guān)系到企業(yè)互聯(lián)網(wǎng)廣告投放的有效性問題;對于一般用戶而言,性能評價(jià)的結(jié)果則會(huì)對他們使用搜索引擎的行為產(chǎn)生明確的引導(dǎo)作用,從而又對搜索引擎的用戶量變化產(chǎn)生影響??傊?、準(zhǔn)確、全面、客觀的搜索引擎性能評價(jià)會(huì)得到廣泛的社會(huì)群體關(guān)注,并具有很強(qiáng)的引導(dǎo)作用。
由于搜索引擎系統(tǒng)很大程度上屬于網(wǎng)絡(luò)信息檢索系統(tǒng)的范疇,因此主流研究人員應(yīng)用傳統(tǒng)的信息檢索評價(jià)方法來評測搜索引擎的性能。在信息檢索評價(jià)方法中,評測用查詢集合以及對應(yīng)這些查詢的標(biāo)準(zhǔn)答案集合是不可或缺的兩個(gè)因素。而傳統(tǒng)評測方法中,這兩者的確定都需要耗費(fèi)大量的人力勞動(dòng)。相比較而言,由于查詢集合的規(guī)模一般在幾百到幾千,因此可通過搜索引擎日志或者用戶調(diào)研的方式進(jìn)行,難度相對較低,但如何確定有充分代表性的查詢集合也是需要深入研究的課題。
真正造成搜索引擎評測困境的是查詢標(biāo)準(zhǔn)答案的確定,由于搜索引擎的檢索對象可以認(rèn)為是互聯(lián)網(wǎng)數(shù)據(jù)集合全體,考慮到互聯(lián)網(wǎng)頁面浩瀚的數(shù)量,確定與這些查詢集合相對應(yīng)的標(biāo)準(zhǔn)答案集合則完全不可能單純由手工完成。
當(dāng)前解決這一問題的主要思路來自于由美國國家標(biāo)準(zhǔn)技術(shù)研究所(NIST)組織的文本檢索會(huì)議(Text retrieval conference,TREC),TREC從1992年創(chuàng)立之初就將促進(jìn)大規(guī)模文本信息檢索的研究作為其首要目的,通過每年組織各種形式的檢索評測,TREC積累了豐富的對大規(guī)模文本信息檢索系統(tǒng)的評價(jià)經(jīng)驗(yàn),其核心技術(shù)被稱為結(jié)果池過濾技術(shù)(pooling)。
結(jié)果池過濾技術(shù)的施行步驟如下1.根據(jù)數(shù)據(jù)規(guī)模的大小,選擇適當(dāng)?shù)牟樵兇鸢讣弦?guī)模N。
2.對于某個(gè)查詢主題,利用若干檢索技術(shù)(T1,T2,...,Ti)對大規(guī)模文檔集合進(jìn)行檢索,并分別得出各自的查詢答案集合(RC1,RC2,...,RCn),其中|RCi|=N,(i=1,2,...,n)。
3.構(gòu)建結(jié)果池,pool=RC1∪RC2∪…RCn。
4.對上述結(jié)果池進(jìn)行過濾,利用手工評價(jià)結(jié)果池中的文檔是否與查詢主題相關(guān)經(jīng)過過濾的結(jié)果池中的文檔,就可以視作此主題的相關(guān)文檔集合。TREC在應(yīng)用結(jié)果池過濾技術(shù)構(gòu)建相關(guān)文檔集合方面積累了相當(dāng)豐富的經(jīng)驗(yàn)檢索的數(shù)據(jù)對象從純文本集合到真實(shí)的網(wǎng)絡(luò)數(shù)據(jù)集合,而數(shù)據(jù)規(guī)模則從較小規(guī)模(1-2G)到大規(guī)模(20G)再到超大規(guī)模(500G),然而無論文檔集合、查詢?nèi)蝿?wù)的變化如何,結(jié)果池過濾技術(shù)構(gòu)建出的相關(guān)文檔集合還是能夠得到廣泛的認(rèn)可,TREC的評測結(jié)果也始終具有較高的公信力。國內(nèi)從2003年開始,也逐漸開始進(jìn)行針對搜索引擎系統(tǒng)的相關(guān)評測,而所采用的構(gòu)建標(biāo)準(zhǔn)答案集合的方法,也基本沿用了結(jié)果池過濾方法。
盡管結(jié)果池過濾技術(shù)在現(xiàn)有的搜索引擎評測中被普遍應(yīng)用,但其缺點(diǎn)也是明顯的,盡管手工標(biāo)注的工作量被大大減少了,但大規(guī)模的評測依然難以操作,而手工標(biāo)注帶來的標(biāo)注人員主觀影響也仍然很難避免。盡管TREC的評測語料庫規(guī)模在1000萬文檔左右,而評測查詢集合的規(guī)模一般僅在200個(gè)左右,NIST仍需要花費(fèi)幾個(gè)月的時(shí)間以及組織幾十名評測人員對標(biāo)準(zhǔn)答案進(jìn)行標(biāo)注。這對于大規(guī)模(語料規(guī)模超過10億文檔)、及時(shí)(每周或每幾天反饋一次)的網(wǎng)絡(luò)搜索引擎評測和性能變化趨勢分析是遠(yuǎn)遠(yuǎn)不夠的。
除結(jié)果池過濾技術(shù)之外,對于某些特定種類的用戶需求而言,還可以利用已有的網(wǎng)絡(luò)信息資源自動(dòng)尋找相關(guān)文檔集合。美國在線公司的Chowdhury在就研究了利用開放目錄計(jì)劃(ODP,Open Directory Project,一個(gè)利用志愿者標(biāo)注網(wǎng)絡(luò)資源的項(xiàng)目)自動(dòng)查找導(dǎo)航類查詢目標(biāo)頁面的可能性。由于導(dǎo)航類查詢目標(biāo)頁面的唯一性,這種嘗試得到了成功,但由于缺乏相應(yīng)的網(wǎng)絡(luò)資源,對于目標(biāo)頁面集合較大的查詢需求而言,這種自動(dòng)定位不可能得到廣泛的應(yīng)用。
IBM Haifa研究院的研究人員提出的基于相關(guān)詞項(xiàng)集合(Term Relevant Set,TRELS)方法的評測方法一定程度上能夠緩解上述兩類評價(jià)方法帶來的問題。該方法選取一部分有代表性的用戶查詢,并組織評測人員選取網(wǎng)絡(luò)上通常用來描述這些用戶查詢詞的詞項(xiàng),這些詞項(xiàng)組成相關(guān)詞項(xiàng)集合。在評測過程中,一個(gè)網(wǎng)頁如果包括較多的相關(guān)詞項(xiàng),則可以認(rèn)為是檢索的標(biāo)準(zhǔn)答案。通過這個(gè)方法,評測算法避免了在每次評價(jià)時(shí)組織手工文檔相關(guān)度標(biāo)注的繁瑣操作,從而能夠及時(shí)地反饋評價(jià)結(jié)果。但這個(gè)方法本身也難以克服手工標(biāo)注相關(guān)詞項(xiàng)的主觀性、以及標(biāo)注人員的不一致問題,而且利用相關(guān)詞項(xiàng)集合評價(jià)文檔相關(guān)度這一假設(shè)的可靠性也值得商榷。
3.搜索引擎查詢分類體系將查詢(Query)進(jìn)行分類不是最近幾年才出現(xiàn)的新想法,但真正比較可行的分類方式卻是經(jīng)過了很長時(shí)間的討論和綜合才得到的?,F(xiàn)在一般認(rèn)為比較合適的分類是搜索引擎的分類分為導(dǎo)航類檢索(Navigational search)和信息事務(wù)類檢索(Informational & trasactionalsearch)兩類。這兩類檢索的分類標(biāo)準(zhǔn),則是用戶是否有一個(gè)確定的查找目標(biāo)頁面。
對于導(dǎo)航類檢索而言,用戶有一個(gè)確定的查找目標(biāo),這個(gè)目標(biāo)的獲知,或者來自于以前的瀏覽經(jīng)歷,或者來自于道聽途說??傊?,他想要瀏覽這個(gè)頁面,但卻記不起或不知道這個(gè)頁面的地址(URL),因此需要搜索引擎的幫助。典型的例子為這樣的查詢(摘自Baidu的查詢瞬時(shí)風(fēng)向標(biāo))“上海市虹口區(qū)政府”、“中國簽證網(wǎng)”、“國家環(huán)??偩帧?、“德國大使館商務(wù)簽證表”等等。
而對于信息事務(wù)類檢索而言,用戶沒有一個(gè)確定的查找目標(biāo),它查找的目的,是為了獲得關(guān)于某個(gè)主題的信息,或者想要享受某種類型的服務(wù)(如軟件下載,購買商品等)。典型的例子為(同樣摘自Baidu的查詢瞬時(shí)風(fēng)向標(biāo))“FIFA2004游戲下載”、“現(xiàn)代企業(yè)制度的形式”、“農(nóng)村黨員隊(duì)伍狀況”等。
在考慮搜索引擎評價(jià)技術(shù)的實(shí)施時(shí),必須對這兩類查詢主題進(jìn)行不同的處理,這是由于此兩類查詢對應(yīng)的查詢目的、檢索方法、評價(jià)指標(biāo)等都有較大的不同,分別進(jìn)行評價(jià)有利于評價(jià)搜索引擎不同方面的檢索性能優(yōu)劣。
發(fā)明內(nèi)容
本發(fā)明的目的是針對已有方法的不足,提出基于用戶行為分析的搜索引擎評價(jià)方法。該方法利用搜索引擎用戶查詢、點(diǎn)擊行為的宏觀分析,自動(dòng)挑選適用于搜索引擎評價(jià)的查詢集合,并進(jìn)一步自動(dòng)定位對應(yīng)這些查詢的標(biāo)準(zhǔn)答案。由于挑選查詢集合和標(biāo)準(zhǔn)答案的過程由計(jì)算機(jī)自動(dòng)完成,因此可以及時(shí)、準(zhǔn)確、客觀的反映搜索引擎的真實(shí)性能。該方法的具體內(nèi)容描述如下1.從評價(jià)算法設(shè)計(jì)的角度,搜索引擎的用戶查詢可以依據(jù)用戶的查詢目標(biāo)頁面是否唯一這一標(biāo)準(zhǔn)分為兩類導(dǎo)航類查詢(查詢目標(biāo)唯一)以及信息類查詢(查詢目標(biāo)不唯一);2.依照用戶點(diǎn)擊次數(shù)以及對不同排序結(jié)果點(diǎn)擊的集中程度等因素,利用機(jī)器學(xué)習(xí)算法把用戶查詢自動(dòng)分類成導(dǎo)航類查詢和信息類查詢;3.依照用戶查詢頻率、結(jié)果點(diǎn)擊等因素,自動(dòng)篩選出適合充當(dāng)評價(jià)用查詢集合的查詢,這些查詢應(yīng)該具備代表用戶需求、有較明確答案等特點(diǎn);4.針對查詢集合中的導(dǎo)航類查詢與信息類查詢,分別利用用戶點(diǎn)擊集中程度等因素自動(dòng)標(biāo)注其標(biāo)準(zhǔn)答案;5.根據(jù)以上自動(dòng)篩選的查詢集合和標(biāo)注的答案集合對不同搜索引擎(不限于提供用戶日志的搜索引擎)的查詢答案進(jìn)行評測,評測指標(biāo)等因素可以采用平均精度、前n位結(jié)果精度等傳統(tǒng)信息檢索指標(biāo)。
本發(fā)明的特征在于它是在計(jì)算機(jī)上完成的,依次含有如下步驟步驟1.評價(jià)用查詢集合的篩選和分類步驟1.1數(shù)據(jù)預(yù)處理搜索引擎評價(jià)使用的查詢集合是來自于搜索引擎用戶日志,對于某個(gè)搜索引擎的用戶日志而言,它至少應(yīng)該包括如下內(nèi)容才能用于提取評價(jià)用查詢集合表1供評價(jià)使用的搜索引擎用戶日志包括的內(nèi)容
一般搜索引擎服務(wù)提供商都可以很容易的通過搜索引擎網(wǎng)絡(luò)服務(wù)器得到以上信息,從而保證了本方法的可行性。對用戶日志進(jìn)行預(yù)處理的步驟包括步驟1.1.1進(jìn)行用戶日志編碼轉(zhuǎn)換,將服務(wù)器記錄的編碼格式(通常為通用資源標(biāo)志符即URI格式)轉(zhuǎn)換成國家標(biāo)準(zhǔn)漢字編碼的GBK格式。
步驟1.1.2利用表1中列出的內(nèi)容項(xiàng)對用戶日志進(jìn)行整理,去除表1內(nèi)容項(xiàng)之外的信息,并將日志整理成以上內(nèi)容項(xiàng)字符串的形式。
步驟1.1.3利用字符串匹配技術(shù)過濾用戶查詢中的噪聲信息,包括違禁查詢詞、某些在線商品推廣使用的查詢詞等,僅保留直接反映搜索引擎普通用戶查詢需求與行為的內(nèi)容項(xiàng)。
經(jīng)過數(shù)據(jù)預(yù)處理過程,我們可以從搜索引擎原始用戶日志中提取以上內(nèi)容,并應(yīng)用于方法的以下步驟。
步驟1.2提取“前N位結(jié)果滿足用戶需求率”信息通過表1提供的用戶查詢和點(diǎn)擊信息,我們可以計(jì)算針對某個(gè)查詢的“前N位結(jié)果滿足用戶需求率”,即只需點(diǎn)擊前N位搜索引擎返回的網(wǎng)頁結(jié)果就滿足其信息需求的用戶比例。對于某個(gè)查詢Q而言,具體的計(jì)算公式是
其中,“查詢Q的總用戶數(shù)”可以通過對查詢Q的不同Id計(jì)數(shù)得到,而“查詢Q時(shí)用戶都點(diǎn)擊了哪些排序的結(jié)果”則可以通過對查詢Q的不同Id對應(yīng)的Rank得到,進(jìn)而也可以對“查詢Q時(shí)只點(diǎn)擊前N個(gè)結(jié)果的用戶數(shù)”進(jìn)行統(tǒng)計(jì)。
按照其定義,由于“查詢Q時(shí)只點(diǎn)擊前N個(gè)結(jié)果的用戶”必然是“查詢Q的用戶”的一部分,因此“前N位結(jié)果滿足用戶需求率”的取值范圍必然在0至1之間。
步驟1.3提取“前N次點(diǎn)擊滿足用戶需求率”信息與步驟1.2類似,通過表1提供的用戶查詢和點(diǎn)擊信息,我們可以計(jì)算針對某個(gè)查詢的“前N次點(diǎn)擊滿足用戶需求率”,即只需對搜索引擎返回的結(jié)果進(jìn)行小于或等于N次點(diǎn)擊就滿足其信息需求的用戶比例。對于某個(gè)查詢Q而言,具體的計(jì)算公式是 其中,“查詢Q的總用戶數(shù)”可以通過對查詢Q的不同Id計(jì)數(shù)得到,而“查詢Q時(shí)用戶的點(diǎn)擊數(shù)”則可以通過對查詢Q的不同Id對應(yīng)的用戶點(diǎn)擊數(shù)得到,進(jìn)而也可以對“查詢Q時(shí)只點(diǎn)擊不足N次的用戶數(shù)”進(jìn)行統(tǒng)計(jì)。
按照其定義,由于“查詢Q時(shí)點(diǎn)擊次數(shù)小于或等于N次的用戶”必然是“查詢Q的用戶”的一部分,因此“前N次點(diǎn)擊滿足用戶需求率”的取值范圍必然在0至1之間。
步驟1.4提取“用戶點(diǎn)擊集中度”信息與步驟1.2和1.3類似,我們可以通過表1提供的用戶查詢和點(diǎn)擊信息計(jì)算針對某個(gè)查詢的“用戶點(diǎn)擊集中度”,即針對某個(gè)查詢用戶對于搜索引擎返回結(jié)果點(diǎn)擊的集中程度。對于某個(gè)查詢Q而言,我們可以首先定義“用戶點(diǎn)擊最集中的查詢答案”為針對Q的查詢中,被不同用戶點(diǎn)擊的次數(shù)最多的查詢答案URL。
則對于Q的“用戶點(diǎn)擊集中度”具體計(jì)算公式是 其中,“查詢Q用戶的總點(diǎn)擊數(shù)”可以通過對查詢Q的用戶點(diǎn)擊計(jì)數(shù)得到,而“用戶點(diǎn)擊最集中的查詢答案被點(diǎn)擊的次數(shù)”則可以通過對查詢Q時(shí)“用戶點(diǎn)擊最集中的查詢答案”的用戶點(diǎn)擊計(jì)數(shù)得到,進(jìn)而也可以對“用戶點(diǎn)擊集中度”進(jìn)行統(tǒng)計(jì)。
按照其定義,由于“用戶點(diǎn)擊最集中的查詢結(jié)果被點(diǎn)擊的次數(shù)”必然小于或者等于“查詢Q用戶的總點(diǎn)擊數(shù)”,因此“用戶點(diǎn)擊集中度”的取值范圍必然在0至1之間。
步驟1.5待評測查詢分類利用步驟1.2-1.4計(jì)算出的“前N次點(diǎn)擊滿足用戶需求率”、“前N位結(jié)果滿足用戶需求率”和“用戶點(diǎn)擊集中度”,可以根據(jù)如下統(tǒng)計(jì)規(guī)律(如附圖2所示)判定某個(gè)用戶查詢Q屬于“導(dǎo)航類查詢”還是“信息類查詢”。
若Q的“前5位結(jié)果滿足用戶需求率”取值在0.6至1.0之間,則Q初步判定為“導(dǎo)航類查詢”。
若Q的“前5位結(jié)果滿足用戶需求率”取值在0至0.6之間,但“前2次點(diǎn)擊滿足用戶需求率”取值在0.9至1之間,則Q初步判定為“導(dǎo)航類查詢”。
否則Q初步判定為“信息類查詢”為求得更準(zhǔn)確地分類判定結(jié)果,對以上初步判定的結(jié)果進(jìn)行修正,即若Q的“用戶點(diǎn)擊集中度”取值在0.5至1.0之間,則Q判定為“導(dǎo)航類查詢”;若Q的“用戶點(diǎn)擊集中度”取值在0至0.2之間,則Q判定為“信息類查詢”;否則Q的初步判定結(jié)果保持不變。
步驟1.6確定評測用查詢集合按照以下規(guī)則挑選用于評測的查詢集合S若某個(gè)查詢Q的在搜索引擎日志中被不同用戶查詢的次數(shù)小于50次,則排除在S之外。
若某個(gè)查詢Q是信息類查詢,對于Q,如果“用戶點(diǎn)擊最集中的五個(gè)查詢結(jié)果”對應(yīng)的“用戶點(diǎn)擊集中度”之和小于0.8,則排除在S之外。
對于不屬于以上任何一個(gè)限制條件的Q的集合,依據(jù)計(jì)算機(jī)運(yùn)算處理能力的高低選擇300-500個(gè)左右的查詢進(jìn)入S。依據(jù)已有的大規(guī)模信息檢索系統(tǒng)評測工作,這個(gè)規(guī)模的查詢集合具有較好的代表性,能夠起到較為可靠的評價(jià)作用。
步驟2.導(dǎo)航類/信息類查詢答案的自動(dòng)標(biāo)注步驟2.1導(dǎo)航類查詢答案的自動(dòng)標(biāo)注對于依照步驟1挑選出的導(dǎo)航類查詢,記為Q(NAV)。則按照如下規(guī)則標(biāo)注Q(NAV)對應(yīng)的標(biāo)準(zhǔn)答案對于Q(NAV),其“用戶點(diǎn)擊集中度”最大的網(wǎng)頁即是其標(biāo)準(zhǔn)答案。
按照步驟1.5的挑選規(guī)則,所有Q(NAV)對應(yīng)的“用戶點(diǎn)擊集中度”都大于0.5,這表示“用戶點(diǎn)擊集中度”最大的網(wǎng)頁有且僅有一個(gè),以此保證導(dǎo)航類查詢答案的唯一性。
步驟2.2信息類查詢答案的自動(dòng)標(biāo)注對于依照步驟1挑選出的導(dǎo)航類查詢,記為Q(INF)。則按照如下規(guī)則標(biāo)注Q(INF)對應(yīng)的標(biāo)準(zhǔn)答案對于Q(INF),其“用戶點(diǎn)擊集中度”最大的連續(xù)前M個(gè)網(wǎng)頁即是其標(biāo)準(zhǔn)答案,其中M滿足從“用戶點(diǎn)擊集中度”最大的網(wǎng)頁開始,連續(xù)前M個(gè)網(wǎng)頁的“用戶點(diǎn)擊集中度”之和大于0.8,但連續(xù)前M-1個(gè)網(wǎng)頁的“用戶點(diǎn)擊集中度”之和小于0.8。
依照步驟1.6的要求,M應(yīng)當(dāng)不大于5,這保證了信息類查詢答案的數(shù)目處于一個(gè)合理的范圍內(nèi)。
步驟3.搜索引擎結(jié)果的抓取與過濾步驟3.1針對指定查詢詞的搜索引擎結(jié)果頁面抓取對步驟1挑選出的待評測查詢集合S中的每一個(gè)查詢詞Q,需要對搜索引擎結(jié)果頁面進(jìn)行抓取,以便進(jìn)一步獲得搜索引擎針對Q的查詢結(jié)果條目。
抓取搜索引擎結(jié)果頁面的方法是首先選用一種互聯(lián)網(wǎng)網(wǎng)頁抓取程序,如Linux平臺下的公開源代碼工具wget,Windows平臺下的免費(fèi)軟件FlashGet等。以便利用這個(gè)工具對對應(yīng)URL的網(wǎng)頁進(jìn)行抓取。這些程序使用時(shí),都具有用戶提供網(wǎng)頁URL地址,程序下載對應(yīng)網(wǎng)頁并保存的特性。
其次根據(jù)Q的不同,利用模式替換的方式生成對應(yīng)Q的搜索引擎結(jié)果頁面的URL。不同搜索引擎結(jié)果頁面URL記錄Q的方式不同。但搜索引擎都需要在URL中記錄Q以便向服務(wù)器傳遞Q的信息。如Baidu搜索引擎對應(yīng)Q的結(jié)果頁面URL是http://www.baidu.com/baidu?wd=Q;Google搜索引擎對應(yīng)Q的結(jié)果頁面URL是http://www.google.cn/search?q=Q;而Sogou搜索引擎對應(yīng)Q的結(jié)果頁面URL就是http://www.sogou.com/web?query=Q。由于待評測搜索引擎的數(shù)目不多,因此可以針對不同搜索引擎,在瀏覽器中進(jìn)行一些樣例查詢的搜索。根據(jù)樣例查詢與搜索引擎結(jié)果頁面URL的對應(yīng)關(guān)系,獲得搜索引擎結(jié)果頁面自動(dòng)生成URL的規(guī)律。
最后,利用計(jì)算機(jī)網(wǎng)絡(luò)和運(yùn)行在計(jì)算機(jī)上的軟件程序,調(diào)用互聯(lián)網(wǎng)網(wǎng)頁抓取程序,自動(dòng)抓取待評測查詢集合S中的每一個(gè)查詢詞Q對應(yīng)的查詢結(jié)果頁面并加以保存。
步驟3.2搜索引擎結(jié)果頁面中結(jié)果條目的抽取通過步驟3.1,可以獲得每一個(gè)待評測搜索引擎對應(yīng)待評測查詢集合S中的每一個(gè)查詢詞Q的查詢結(jié)果頁面。對這些結(jié)果頁面,可以利用模式匹配的方法獲得其中的查詢結(jié)果條目。
由于搜索引擎的查詢結(jié)果頁面都是通過腳本語言自動(dòng)生成,因此可以根據(jù)其HTML文本發(fā)現(xiàn)查詢結(jié)果的組織規(guī)律,進(jìn)而利用這個(gè)規(guī)律和模式匹配的方法實(shí)現(xiàn)結(jié)果提取。
例如對于Baidu搜索引擎而言,查詢結(jié)果條目就是記錄在如下格式中的<td class=f><a href=″查詢結(jié)果URL″target=″_blank″><font size=″3″>
對于Google搜索引擎,其結(jié)果條目記錄格式如下<p class=g><a class=l href=″查詢結(jié)果URL″target=_blank而對于Sogou搜索引擎,其查詢結(jié)果條目記錄格式如下<a class=″ff″href=″查詢結(jié)果URL″onclick=″itmclk由于待評測搜索引擎的個(gè)數(shù)不多,因此可以針對不同搜索引擎,在瀏覽器中進(jìn)行一些樣例查詢的搜索。根據(jù)樣例查詢的結(jié)果條目與搜索引擎結(jié)果頁面中HTML內(nèi)容的對應(yīng)關(guān)系,獲得搜索引擎結(jié)果頁面自動(dòng)生成查詢結(jié)果頁面的規(guī)律,并把這個(gè)規(guī)律用計(jì)算機(jī)程序的方式記錄下來。
利用記錄了搜索引擎結(jié)果頁面組織規(guī)律的計(jì)算機(jī)程序,即可以針對待評測查詢集合S中的每一個(gè)查詢詞Q,獲得不同搜索引擎對應(yīng)Q的查詢結(jié)果條目。
步驟4.根據(jù)標(biāo)準(zhǔn)答案的搜索引擎結(jié)果評測對步驟3獲得的搜索引擎對應(yīng)S中查詢的結(jié)果條目,以及步驟1標(biāo)注的對應(yīng)S中查詢的標(biāo)準(zhǔn)答案,對搜索引擎的查詢性能進(jìn)行評價(jià)。評價(jià)的主要指標(biāo)包括如下幾種1.平均檢索精度(Average Precision,AP)應(yīng)用于導(dǎo)航類和信息類查詢評測。
AP=1KΣi=1KPrecision(i),]]>其中 平均檢索精度用來評價(jià)搜索引擎的綜合性能(既包括信息類檢索性能,也包括導(dǎo)航類檢索性能),式子中的K表示標(biāo)準(zhǔn)答案的數(shù)目,而Precision(i)則是系統(tǒng)找到第i個(gè)答案時(shí)返回結(jié)果的精確度(匹配標(biāo)準(zhǔn)答案的結(jié)果數(shù)/總結(jié)果數(shù))。例如一個(gè)query有2個(gè)標(biāo)準(zhǔn)答案,分別在第3位和第5位返回,則我們系統(tǒng)對于這個(gè)query的AP就是0.5*(1/3+2/5)=36.67%。AP對于各個(gè)用戶查詢進(jìn)行平均,就是平均檢索精度,這個(gè)指標(biāo)可以用于對兩類查詢主題中任何一類的評測。
2.排序倒數(shù)(Reciprocal Rank,RR)應(yīng)用于導(dǎo)航類查詢評測。
RR=1Rank(1),]]>其中Rank(1)表示第1個(gè)標(biāo)準(zhǔn)答案出現(xiàn)的排序值排序倒數(shù)RR是指出現(xiàn)第一個(gè)標(biāo)準(zhǔn)答案的排序倒數(shù),這個(gè)指標(biāo)主要用于導(dǎo)航類檢索的評測。值得注意的是,標(biāo)準(zhǔn)答案出現(xiàn)在前列的結(jié)果被給予一個(gè)很高的評價(jià),把標(biāo)準(zhǔn)答案返回在第一位,則RR=100%,返回在第2位,則RR下降到50%。另外,當(dāng)只有一個(gè)標(biāo)準(zhǔn)答案時(shí),RR=AP。
3.前10位結(jié)果精度(Precision@10)應(yīng)用于信息類查詢評測。
前10位結(jié)果精度是指搜索引擎返回的前10個(gè)結(jié)果對應(yīng)的精確度。實(shí)際的應(yīng)用背景就是看搜索引擎返回的的第一頁結(jié)果(因?yàn)榇蠖鄶?shù)搜索引擎返回的每個(gè)結(jié)果頁面都包含10個(gè)結(jié)果)有多高的Precision,它比較適用于信息事務(wù)類檢索的評價(jià)。
利用以上三個(gè)指標(biāo),可以給出待評測搜索引擎處理不同類型查詢的絕對性能與橫向比較結(jié)果,從而實(shí)現(xiàn)搜索引擎的性能評價(jià)。
為了驗(yàn)證本發(fā)明的有效性和可靠性,我們進(jìn)行了性能評測的相關(guān)試驗(yàn)。
從運(yùn)行效率上講,當(dāng)程序運(yùn)行硬件環(huán)境為1.8G主頻CPU、1G內(nèi)存與100MLAN網(wǎng)絡(luò)時(shí),計(jì)算機(jī)在進(jìn)行搜索引擎性能評價(jià)時(shí)處理400個(gè)查詢所需的時(shí)間約為2個(gè)小時(shí)。這比較原有人工評價(jià)方式耗時(shí)幾周到幾個(gè)月才能進(jìn)行性能評價(jià)反饋的做法有了很大的提高。
從評價(jià)的正確性上講,經(jīng)過與一定量手工標(biāo)注結(jié)果的比照(81個(gè)信息類查詢、152個(gè)導(dǎo)航類查詢及它們對應(yīng)的標(biāo)準(zhǔn)答案),自動(dòng)標(biāo)注結(jié)果的準(zhǔn)確率如下信息類查詢自動(dòng)標(biāo)注準(zhǔn)確率為72%,而導(dǎo)航類查詢自動(dòng)標(biāo)注準(zhǔn)確率為91%。表2列出了部分標(biāo)注結(jié)果表2部分標(biāo)注結(jié)果
利用從sogou公司獲取的2006年2月份搜索引擎用戶日志,經(jīng)過對部分著名中文搜索引擎的性能比較,我們發(fā)現(xiàn),兩種類型自動(dòng)評價(jià)的結(jié)果與手動(dòng)評測的結(jié)果基本相同表3手工評測結(jié)果與搜索引擎自動(dòng)評測結(jié)果的比較
不僅如此,這個(gè)評價(jià)與權(quán)威機(jī)構(gòu)對用戶使用體驗(yàn)的市場調(diào)研結(jié)果也基本相同(數(shù)值關(guān)系基本相同,Google與搜狐的排序關(guān)系略有差別)表4市場調(diào)研結(jié)果與搜索引擎自動(dòng)評側(cè)結(jié)果的比較
本發(fā)明能夠自動(dòng)從搜索引擎日志數(shù)據(jù)中發(fā)現(xiàn)和提取用于搜索引擎自動(dòng)評價(jià)的用戶查詢,并對這些查詢進(jìn)行分類和答案的自動(dòng)標(biāo)注,進(jìn)而利用對互聯(lián)網(wǎng)數(shù)據(jù)的抓取,可以實(shí)現(xiàn)搜索引擎的自動(dòng)評價(jià)。模型結(jié)構(gòu)和參數(shù)簡單,算法復(fù)雜度低,在實(shí)驗(yàn)測試數(shù)據(jù)上取得了很好的性能,與手工搜索引擎評測結(jié)果和權(quán)威機(jī)構(gòu)市場調(diào)查結(jié)果基本一致。這說明本發(fā)明具有較好的推廣性和適應(yīng)性,對搜索引擎性能的評價(jià)具有客觀、可靠、全面的特點(diǎn),具有良好的應(yīng)用前景。
圖1.搜索引擎自動(dòng)評價(jià)方法流程圖;圖2.預(yù)處理后的日志組織結(jié)構(gòu)圖;圖3.查詢分類算法流程圖;圖4.待評測用戶查詢集合挑選流程圖;圖5.查詢答案自動(dòng)標(biāo)注5a.導(dǎo)航類查詢答案標(biāo)注;5b.信息類查詢答案標(biāo)注。
具體實(shí)施例方式
附圖1描述了本方法的流程。本發(fā)明對于評價(jià)各種搜索引擎性能具有廣泛的適應(yīng)性,但出于描述的方便,下面將以利用Sogou網(wǎng)站的搜索引擎日志評價(jià)Baidu搜索引擎檢索性能為例,就以上方法詳細(xì)進(jìn)行說明1.數(shù)據(jù)預(yù)處理所使用的日志包括了搜狗搜索引擎在2006年2月1日至2006年2月28日的28天時(shí)間內(nèi)的所有查詢。其中,非空查詢共45,745,985個(gè),非重復(fù)的非空查詢共4,345,557個(gè)。日志中包括的信息有表5Sogou搜索引擎日志包含的信息項(xiàng)
以上日志信息中包含了足夠的用于搜索引擎自動(dòng)評價(jià)的信息項(xiàng),因此可以利用這個(gè)日志進(jìn)行各中文搜索引擎的性能評價(jià)。
搜索引擎日志的數(shù)據(jù)預(yù)處理包括對原始搜索引擎日志進(jìn)行統(tǒng)一編碼(日志中記錄的一般是UTF-8編碼,需要統(tǒng)一轉(zhuǎn)換為GBK編碼統(tǒng)一分析處理),過濾無用信息(僅保留搜索引擎自動(dòng)評價(jià)所需的信息項(xiàng)),統(tǒng)一計(jì)算搜索引擎各個(gè)查詢的“用戶查詢量”、“前5位結(jié)果滿足用戶需求率”、“前2次點(diǎn)擊滿足用戶需求率”、對應(yīng)這個(gè)查詢的各個(gè)結(jié)果URL的“用戶點(diǎn)擊集中度”等操作。
經(jīng)過數(shù)據(jù)預(yù)處理的搜索引擎日志統(tǒng)一成如附圖2的格式,依次記錄了查詢詞、查詢詞對應(yīng)的“用戶查詢量”、“前5位結(jié)果滿足用戶需求率”、“前2次點(diǎn)擊滿足用戶需求率”信息,以及此查詢詞對應(yīng)的N個(gè)用戶點(diǎn)擊結(jié)果的URL和它們對應(yīng)的用戶點(diǎn)擊集中度信息。
2.待評測查詢集合篩選可以依據(jù)附圖4的步驟對用戶查詢進(jìn)行篩選,挑選出適用于搜索引擎自動(dòng)評價(jià)的查詢集合Q,其中查詢分類的操作需要依照附圖3的決策樹方式進(jìn)行。
其具體步驟是1.對每個(gè)日志中出現(xiàn)的查詢,首先根據(jù)其用戶查詢量進(jìn)行篩選,如果總的查詢次數(shù)少于50,則認(rèn)為這個(gè)查詢沒有足夠的宏觀用戶點(diǎn)擊行為信息,無法用戶搜索引擎的自動(dòng)評價(jià)。根據(jù)對我們所使用的sogou日志進(jìn)行分析后發(fā)現(xiàn),用戶查詢次數(shù)大于100的查詢超過3萬個(gè),而用戶在這部分查詢上的總點(diǎn)擊次數(shù)占到全部點(diǎn)擊次數(shù)的70%左右,這與前人的一些研究結(jié)果相同,即搜索引擎中,較少數(shù)量的查詢被反復(fù)查詢,占據(jù)了大多數(shù)的搜索引擎服務(wù)時(shí)間。
2.對查詢依據(jù)用戶查詢量進(jìn)行篩選后,即按照圖3的決策樹方式對其進(jìn)行分類操作。由于導(dǎo)航類查詢具有查詢目標(biāo)頁面單一的特點(diǎn),而搜索引擎系統(tǒng)對于導(dǎo)航類查詢的查詢性能一般也比較高(對80%的查詢能將正確結(jié)果返回在第一位);因此導(dǎo)航類查詢的“前2次點(diǎn)擊滿足用戶需求率”和“前5個(gè)結(jié)果滿足用戶需求率”比較高也是可以預(yù)見的。認(rèn)為這兩個(gè)標(biāo)準(zhǔn)比較高的查詢屬于導(dǎo)航類查詢也就是合理的。而由于導(dǎo)航類查詢的歧義性較小,不同用戶的查找目標(biāo)相對固定,因此其“用戶點(diǎn)擊集中度”自然也比較高。利用決策樹形式將三個(gè)特征加以綜合,就得到了圖3所示的分類方法。輸入查詢后,依據(jù)這三個(gè)特征就可以將其分類為導(dǎo)航類查詢或信息類查詢。根據(jù)我們利用手工標(biāo)注結(jié)果進(jìn)行的評測,這個(gè)算法的分類準(zhǔn)確率和召回率都在80%以上,能夠較好的滿足下一步性能評測算法的需要(如表6所示)。
表6查詢分類算法的性能
3.查詢分類結(jié)束后,需要依據(jù)查詢種類的不同對用戶查詢進(jìn)行進(jìn)一步的篩選,這是出于控制查詢對應(yīng)的答案頁面數(shù)量,選取答案頁面相對較為集中的查詢用于評測。對于導(dǎo)航類查詢,由于其“用戶點(diǎn)擊集中度”都超過0.5,而其對應(yīng)的答案頁面一般僅有一個(gè),所以可以簡單的把這個(gè)“用戶點(diǎn)擊集中度”最大的頁面作為答案頁面。對于信息類查詢,則需要進(jìn)行答案頁面數(shù)量的控制,根據(jù)對信息類檢索算法的已有研究,一個(gè)典型的此類查詢所對應(yīng)的答案頁面一般在4-5個(gè),因此規(guī)定只有“用戶點(diǎn)擊集中度”最大的前5位結(jié)果所對應(yīng)的“用戶點(diǎn)擊集中度”之和大于0.8,即超過80%的用戶點(diǎn)擊集中在這5個(gè)(或更少數(shù)目)的結(jié)果上時(shí),我們才認(rèn)為這個(gè)信息類查詢對應(yīng)的答案頁面比較集中,可以用于搜索引擎評測。
經(jīng)過上述3個(gè)步驟,即可篩選出待評測查詢集合。經(jīng)過篩選后,一個(gè)月的用戶日志中有2637個(gè)信息類查詢和793個(gè)導(dǎo)航類查詢進(jìn)入了待評測查詢集合。
3.用戶查詢對應(yīng)答案的自動(dòng)標(biāo)注導(dǎo)航類查詢答案的自動(dòng)標(biāo)注可以參見圖5a所示的流程,對導(dǎo)航類查詢詞Q而言,它的標(biāo)注過程就是挑選出其用戶點(diǎn)擊焦點(diǎn)頁面的過程,由于按照分類方法,導(dǎo)航類查詢有且僅有一個(gè)結(jié)果頁面對應(yīng)的“用戶點(diǎn)擊集中度”大于0.5,因此這個(gè)挑選焦點(diǎn)的過程又可以簡化為找出“用戶點(diǎn)擊集中度”大于0.5的頁面的過程,一旦找出這個(gè)頁面,算法就可以結(jié)束。
信息類查詢答案的自動(dòng)標(biāo)注可以參見圖5b所示的流程,按照篩選方法,只有“用戶點(diǎn)擊集中度”最大的前5位結(jié)果所對應(yīng)的“用戶點(diǎn)擊集中度”之和大于0.8的信息類查詢才會(huì)被挑選出來。這就意味著,如果我們選取“用戶點(diǎn)擊集中度”之和大于0.8的前N位結(jié)果,N一定小于或者等于5。這保證了我們至多選取5個(gè)頁面作為信息類查詢的標(biāo)準(zhǔn)答案頁面。
利用“用戶點(diǎn)擊集中度”進(jìn)行答案標(biāo)注的合理性在于“用戶點(diǎn)擊集中度”記錄了頁面被用戶關(guān)注的程度,這個(gè)數(shù)值較大的頁面是用戶在進(jìn)行某個(gè)查詢時(shí)的點(diǎn)擊焦點(diǎn),也是關(guān)注焦點(diǎn)。而海量搜索引擎用戶的宏觀行為,能夠很大程度上反映頁面的內(nèi)容質(zhì)量及其與查詢在語義上的相關(guān)性,成為用戶關(guān)注焦點(diǎn)的頁面則必然具有內(nèi)容上的高質(zhì)量或者與當(dāng)前查詢具有較大的相關(guān)性。
經(jīng)過答案自動(dòng)標(biāo)注后,所有的導(dǎo)航類查詢(793個(gè))都有且僅有一個(gè)標(biāo)準(zhǔn)答案;而所有的信息類查詢(2637個(gè))共被標(biāo)注了9558個(gè)答案,即每個(gè)查詢對應(yīng)約3.6個(gè)答案。
4.搜索引擎性能評價(jià)經(jīng)過以上步驟,我們已經(jīng)選取出了用于評測的查詢集合,并標(biāo)注了對應(yīng)這些查詢的標(biāo)準(zhǔn)答案頁面??紤]到計(jì)算機(jī)、網(wǎng)絡(luò)系統(tǒng)的實(shí)際處理能力以及評測的可靠性,可以選取其中約1/6的查詢用于最終的搜索引擎評測操作。
對于每一個(gè)待評測查詢,可以按如下步驟獲取搜索引擎對應(yīng)的查詢結(jié)果1.抓取搜索引擎對應(yīng)的查詢結(jié)果頁面。根據(jù)搜索引擎網(wǎng)絡(luò)服務(wù)的格式,可以自動(dòng)生成搜索引擎對應(yīng)待評測查詢結(jié)果頁面的URL,從而實(shí)現(xiàn)頁面的抓取。如Baidu搜索引擎的查詢結(jié)果頁面URL就是“http://www.baidu.com/baidu?wd=查詢詞”,只要把“查詢詞”換成待評測查詢,就可以對結(jié)果頁面進(jìn)行抓取。
2.對搜索引擎返回的結(jié)果頁面,根據(jù)其頁面組織形式抽取其中的查詢結(jié)果URL。由于搜索引擎的查詢結(jié)果頁面都是通過腳本語言自動(dòng)生成,因此可以根據(jù)其HTML文本發(fā)現(xiàn)查詢結(jié)果的組織規(guī)律,進(jìn)而利用這個(gè)規(guī)律實(shí)現(xiàn)結(jié)果提取。例如對于Baidu搜索引擎而言,查詢結(jié)果就是記錄在如下格式中的<td class=f><a href=″查詢結(jié)果URL″target=″_blank″><font size=″3″>
3.對不同搜索引擎返回的查詢結(jié)果序列,按照標(biāo)準(zhǔn)答案對其進(jìn)行評價(jià)。其中平均檢索精度(MAP)用于綜合性能的評價(jià),平均排序倒數(shù)(MRR)用于導(dǎo)航類查詢性能的評價(jià),而前十位結(jié)果精度(P@10)則用于信息類查詢性能的評價(jià)。
按照以上步驟,就可以實(shí)現(xiàn)搜索引擎性能的自動(dòng)評價(jià),利用宏觀搜索引擎用戶的行為客觀、可靠的對搜索引擎查詢性能進(jìn)行評價(jià)。
權(quán)利要求
1.一種搜索引擎性能評價(jià)的自動(dòng)化處理方法其特征在于該方法依次含有如下步驟步驟(1)評價(jià)用查詢集合的篩選和分類,搜索引擎服務(wù)提供商通過搜索引擎網(wǎng)絡(luò)服務(wù)獲得搜索引擎用戶日志,其中依次記錄了以下表項(xiàng)用戶提交的查詢Query、對應(yīng)這個(gè)查詢用戶點(diǎn)擊的結(jié)果地址URL、統(tǒng)一標(biāo)準(zhǔn)的資源地址URL按搜索引擎計(jì)算的與用戶查詢相關(guān)的程度在返回結(jié)果中的排名Rank、當(dāng)某個(gè)用戶某次使用搜索引擎時(shí)由系統(tǒng)自動(dòng)分配唯一的用戶標(biāo)識號ID;接著,按以下步驟進(jìn)行步驟(1.1)數(shù)據(jù)預(yù)處理步驟(1.1.1)該搜索引擎網(wǎng)絡(luò)服務(wù)商進(jìn)行用戶日志編碼轉(zhuǎn)換,把該服務(wù)器記錄的編碼格式從URL格式轉(zhuǎn)換成國家標(biāo)準(zhǔn)漢字編碼的GBK格式;步驟(1.1.2)利用字符串匹配技術(shù)過濾用戶查詢過程中的冗余信息和噪聲信息,把用戶日志的內(nèi)容整理成內(nèi)容項(xiàng)字符串;步驟(1.2)提取“前N位結(jié)果滿足用戶需求率”信息 取值范圍在0到1之間,其中,N為設(shè)定值,“查詢Q的總用戶數(shù)”通過對查詢Q的不同Id計(jì)數(shù)得到,“查詢Q時(shí)只點(diǎn)擊前N個(gè)結(jié)果的用戶數(shù)”則通過對查詢Q的不同Id對應(yīng)的Rank得到;步驟(1.3)提取“前N次點(diǎn)擊滿足用戶需求率”信息 取值范圍在0到1之間,其中,N為設(shè)定值,“查詢Q時(shí)點(diǎn)擊次數(shù)小于或等于N次的用戶”通過對查詢Q的不同ID對應(yīng)的用戶點(diǎn)擊數(shù)中只點(diǎn)擊不足N次的用戶數(shù)得到;步驟(1.4)提取“用戶點(diǎn)擊集中度”信息 取值范圍在0到1之間;步驟(1.5)待評測查詢的分類若Q的“前5位結(jié)果滿足用戶需求率”取值在0.6至1.0之間,則Q為“導(dǎo)航類查詢”,若Q的“前5位結(jié)果滿足用戶需求率”取值在0至0.6之間,但“前2次點(diǎn)擊滿足用戶需求率”取值在0.9至1之間,則Q為“導(dǎo)航類查詢”,是一種查詢目標(biāo)唯一的查詢,否則Q為“信息類查詢”,是一種查詢目標(biāo)不唯一的查詢;步驟(1.6)確定評測用的查詢集合,形成標(biāo)準(zhǔn)答案若某個(gè)查詢Q在搜索引擎用戶日志中被不同用戶查詢的次數(shù)小于50次,則排除在S之外,若某個(gè)查詢Q是信息類查詢,對于該查詢,如果“用戶點(diǎn)擊最集中的五個(gè)查詢結(jié)果”對應(yīng)的“用戶點(diǎn)擊集中度”之和小于0.8,則排除在S之外;步驟(2)導(dǎo)航類、信息類查詢答案的自動(dòng)標(biāo)注對于導(dǎo)航類查詢Q(NAV),其“用戶點(diǎn)擊集中度”最大的網(wǎng)頁即是其標(biāo)準(zhǔn)答案,對于信息類查詢Q(INF),其“用戶點(diǎn)擊集中度”最大的連續(xù)前M個(gè)網(wǎng)頁即是其標(biāo)準(zhǔn)答案,其中M滿足從“用戶點(diǎn)擊集中度”最大的網(wǎng)頁開始,連續(xù)前M個(gè)網(wǎng)頁的“用戶點(diǎn)擊集中度”之和大于0.8,但連續(xù)前M-1個(gè)網(wǎng)頁的“用戶點(diǎn)擊集中度”之和小于0.8;步驟(3)搜索引擎結(jié)果的抓取與過濾步驟(3.1)針對指定查詢詞的搜索引擎結(jié)果頁面抓取對步驟1挑選出的待評測查詢集合S中的每一個(gè)查詢詞Q,對其搜索引擎結(jié)果頁面進(jìn)行抓取,以便進(jìn)一步獲得搜索引擎針對Q的查詢結(jié)果條目,其步驟依次如下步驟(3.1.1)選用一種互聯(lián)網(wǎng)網(wǎng)頁抓取程序;步驟(3.1.2)根據(jù)不同的查詢類別,利用模式替換的方式生成對應(yīng)查詢的搜索引擎結(jié)果頁面的URL,同時(shí),搜索引擎在該URL中記錄該查詢;步驟(3.1.3)調(diào)用步驟3.1.1中的互聯(lián)網(wǎng)網(wǎng)頁抓取程序,自動(dòng)抓取待評測查詢集合S中的每一個(gè)查詢詞對應(yīng)的查詢結(jié)果頁面并保存;步驟(3.2)搜索引擎結(jié)果頁面中結(jié)果條目的抓取,依次含有以下步驟步驟(3.2.1)找出形成搜索引擎的查詢結(jié)果頁面的腳本語言中的HTML文本;步驟(3.2.2)針對不同的搜索引擎,在瀏覽器中進(jìn)行一些樣例查詢的搜索,得到陽歷查詢的結(jié)果條目;步驟(3.2.3)通過模式匹配的方法,根據(jù)樣例查詢的結(jié)果條目與搜索引擎結(jié)果頁面中HTML文本的對應(yīng)關(guān)系,得到描述由搜索引擎結(jié)果頁面自動(dòng)生成查詢結(jié)果的程序;步驟(3.2.4)根據(jù)步驟3.2.3得到的程序,針對待評測查詢集合中的每一個(gè)查詢詞,得到對應(yīng)的查詢結(jié)果條目;步驟(4)根據(jù)步驟1.6得到的標(biāo)準(zhǔn)答案進(jìn)行搜索引擎結(jié)果評價(jià),所用的評測指標(biāo)如下A.平均檢索精度AP同時(shí)應(yīng)用于導(dǎo)航和信息類查詢的評測,評價(jià)搜索引擎的綜合性能AP=1KΣι=1KPrecision(i),]]>其中, K表示標(biāo)準(zhǔn)答案的數(shù)目,B.排序倒數(shù)RR,用于導(dǎo)航類查詢評測RR=1Rank(1),]]>其中Rank(1)表示第1個(gè)標(biāo)準(zhǔn)答案出現(xiàn)的排序值,RR是第1個(gè)標(biāo)準(zhǔn)答案的排序倒數(shù);C.前十位結(jié)果精度,用于信息類查詢評測,用Precision@10表示 Precision@10表示搜索引擎返回的前10個(gè)結(jié)果的精度,在大多數(shù)搜索引擎返回的結(jié)果頁面首頁中都包含有10個(gè)結(jié)果,因此Precision@10也代表了搜索引擎返回的第1頁結(jié)果的精度。
2.根據(jù)權(quán)利要求1所述的一種搜索引擎性能評價(jià)的自動(dòng)化處理方法,其特征在于,在步驟(1.5)所述的待評測查詢分類中;若Q的“用戶點(diǎn)擊集中度”取值在0.5至1.0之間,則Q判定為“導(dǎo)航類查詢”,若取值在0至0.2之間,則判定為“信息類查詢”,否則,查詢Q的初步判定結(jié)果保持不變。
3.根據(jù)權(quán)利要求1所述的一種搜索引擎性能評價(jià)的自動(dòng)化處理方法,其特征在于,在步驟(1.6)確定評測用查詢集合S中,對于不屬于所述任何一個(gè)限制條件的集合S,選擇300-500個(gè)查詢進(jìn)入集合S。
4.根據(jù)權(quán)利要求1所述的一種搜索引擎性能評價(jià)的自動(dòng)化處理方法,其特征在于,在步驟(2)所述的導(dǎo)航類查詢Q(NAV)中,所有用戶點(diǎn)擊集中度大于0.5,就表示“用戶點(diǎn)擊集中度”最大的網(wǎng)頁有且僅有一個(gè)。
全文摘要
本發(fā)明屬于互聯(lián)網(wǎng)信息處理領(lǐng)域,其特征在于它首先從搜索引擎用戶訪問日志中提取出用戶的查詢信息,在此基礎(chǔ)上對用戶查詢進(jìn)行分類;隨后,對于不同類型的用戶查詢,根據(jù)用戶訪問日志中的用戶點(diǎn)擊信息進(jìn)行自動(dòng)分析,得出對應(yīng)這些查詢的用戶點(diǎn)擊焦點(diǎn);最后對待評價(jià)搜索引擎的查詢結(jié)果進(jìn)行抓取,并根據(jù)用戶查詢的對應(yīng)點(diǎn)擊焦點(diǎn)對查詢結(jié)果進(jìn)行評價(jià),得到搜索引擎性能的數(shù)值評價(jià)結(jié)果。它具有不需要人工參與,準(zhǔn)確客觀和快捷及時(shí)的優(yōu)點(diǎn)。
文檔編號G06F17/30GK1963816SQ200610144289
公開日2007年5月16日 申請日期2006年12月1日 優(yōu)先權(quán)日2006年12月1日
發(fā)明者劉奕群, 張敏, 金奕江, 馬少平 申請人:清華大學(xué)