亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于評估搜索引擎的質(zhì)量的方法和系統(tǒng)的制作方法

文檔序號:6556835閱讀:241來源:國知局
專利名稱:用于評估搜索引擎的質(zhì)量的方法和系統(tǒng)的制作方法
技術領域
本發(fā)明涉及信息搜索和檢索領域。具體地,本發(fā)明涉及使用從查詢?nèi)罩局刑崛〉男畔⒃u估搜索引擎的質(zhì)量。
背景技術
搜索萬維網(wǎng)所涉及的人中有三個群體。有提供Web的所有內(nèi)容的作者。有使用搜索引擎查找其感興趣的內(nèi)容的搜索者。最后,有創(chuàng)建和維護搜索引擎的開發(fā)者。這三個群體有時會重疊,人們根據(jù)他們的需要常常屬于幾個群體。
搜索引擎用戶將這樣的知識帶入搜索過程,該知識可能沒有在集合(collection)中被記錄,可能沒有被開發(fā)者處理和在排序函數(shù)中被處理,且可被除了提交查詢的人之外的所有其他搜索者認為是不相關的。如圖1中所示,用戶102的知識范圍和搜索引擎101的通過其集合和搜索過程的單個視野之間的重疊從一個個別用戶102到另一個用戶各不相同。一些用戶可能會在他們?nèi)绾蚊枋鰞?nèi)容上達成一致,但是不能在哪個查詢最好地捕獲該描述上達成一致。其他用戶會提出完全相同的查詢并且會期望找到完全不同的事物。一些人會選擇在他們的查詢中使用非常有限制性的語法以要求搜索引擎符合他們的請求。其他人可能會對引擎發(fā)展出信任感并讓其決定應該如何處理查詢。
搜索引擎可信賴度的概念對于與搜索引擎的交互是必要的。它指示人們開始搜索過程的方式,以及他們愿意花費多長時間來探查可搜索的集合以找到答案。將搜索引擎理解為具有不同范圍的視野的機器使得搜索引擎用戶開始進行關于他們的信息需求的小的協(xié)商。用戶會試圖以不同的風味和焦點詢問相同的問題以得到這樣的結論,即他們已做完所有可能的事情,并且已得到可搜索范圍內(nèi)的最大信息。
在因特網(wǎng)上存在很多搜索引擎,每個搜索引擎具有其自己的操作方式。通常,搜索引擎包括在因特網(wǎng)上爬行以采集信息的至少一個蜘蛛(spider)或爬蟲(crawler)應用;以索引或目錄的形式包含爬蟲采集的所有信息的數(shù)據(jù)庫;以及用于用戶搜尋該數(shù)據(jù)庫的搜索工具。搜索引擎以不同方式提取和索引信息并也以不同方式返回結果。
因特網(wǎng)技術也被用于創(chuàng)建稱為內(nèi)聯(lián)網(wǎng)的私有公司網(wǎng)。內(nèi)聯(lián)網(wǎng)網(wǎng)絡和資源不能在因特網(wǎng)上公開地可用,并且通過防火墻與因特網(wǎng)的其余部分隔開,防火墻禁止未被授權的對內(nèi)聯(lián)網(wǎng)的訪問。內(nèi)聯(lián)網(wǎng)也具有在內(nèi)聯(lián)網(wǎng)的界限內(nèi)進行搜索的搜索引擎。
另外,在例如大公司的單獨網(wǎng)站內(nèi)設置了搜索引擎。使用搜索引擎僅索引和檢索它所相關的網(wǎng)站的內(nèi)容以及相關聯(lián)的數(shù)據(jù)庫和其他資源。
2003年12月23日提交的美國專利申請10/743158認識到在用戶查詢中存在大量的關于用戶如何看待他們搜索的項目的信息,并提供了一個系統(tǒng),其中使查詢字與搜索引擎的索引內(nèi)的信息相結合從而增加可描述項目的方式。
搜索引擎的用戶經(jīng)常不能以他們提出的第一個查詢找到所要查找的內(nèi)容。一些用戶然后以各種方式—可能是通過增加或除去項—來改變他們的最初的查詢,并重新提交。
從搜索者的角度看,必須重構(reformulate)查詢損害了用戶的體驗。另外,每當雇員必須花費額外的時間來在內(nèi)聯(lián)網(wǎng)搜索引擎中重構查詢時,公司直接遭受經(jīng)濟損失。因此,在查詢?nèi)罩局姓业降臅挼臄?shù)量和長度可以是搜索質(zhì)量的有價值的量度。
搜索引擎用戶使用一些不同的方法來協(xié)商他們通過信息失配的路徑。此協(xié)商通常被稱為查詢重構,但是也可使用其他術語。
查詢重構不同于查詢細化。查詢重構是專門由單個人類使用者采取以找到所需信息的行為。另一方面,查詢細化是許多檢索系統(tǒng)使用以便改進用戶查詢以使其最好地匹配索引的信息的自動過程。有可能搜索引擎對用戶隱瞞此事,或者它們要求用戶選擇最好的細化,但是查詢細化在本質(zhì)上仍是自動的。查詢重構源于搜索引擎用戶的對世界的感知,而查詢細化源于搜索引擎的對世界的感知。
重構通常在已知的一段時間內(nèi)并對單個搜索引擎發(fā)生。它們被分組成被稱為重構會話的會話。重構會話的定義是由一用戶發(fā)出以便滿足單個信息需求的至少兩個查詢的系列。一個示例可包括查詢“hershy park”,“hersky park pa”和最終“hershey park pa”。盡管在結果中翻頁可被認為是一種重構,但是如果用戶進行的重構的唯一類型是翻頁,則在此上下文內(nèi)不認為它是重構。
影響會話長度的因素有很多,包括搜索算法、集合的質(zhì)量、用戶的搜索技能以及用戶的耐心。但是,當所有其他因素不變時,其查詢?nèi)罩痉治鲲@示較高的會話比率和/或較長的會話的搜索引擎應被認為質(zhì)量較差??舍槍捎糜谒阉鞯牟煌瑑?nèi)容使用該相同的比較。
搜索引擎存在的一個問題是需要提供對單個搜索引擎或者多于一個搜索引擎的性能的度量。本發(fā)明的一目標是通過監(jiān)視查詢重構以提供對一個或多個搜索引擎的質(zhì)量評估,從而提供對此問題的解決方案。本發(fā)明的另一個目標是根據(jù)對查詢重構的分析控制一個或多個搜索引擎的操作。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面,提供了一種用于評估一個或多個搜索引擎的質(zhì)量的方法,該方法包括監(jiān)視搜索引擎的用戶的重構會話,其中一重構會話是用戶發(fā)出以滿足單個信息需求的至少兩個對搜索引擎的查詢的系列;確定用于搜索引擎的重構會話參數(shù);以及分析該重構會話參數(shù)。
該方法可任選地包括根據(jù)所述分析控制搜索引擎的操作。
重構會話參數(shù)可以是在重構會話中的查詢重構的比率,該比率是通過將作為重構會話的一部分的查詢的數(shù)量除以查詢?nèi)罩局械牟樵兊目倲?shù)計算出的。另一個重構會話參數(shù)可以是重構會話持續(xù)時間,其是用每個重構會話的查詢數(shù)量或一重構會話的持續(xù)時間計算的??蓪⒔y(tǒng)計方法應用于這些重構會話參數(shù)。
重構會話參數(shù)可與被重構的查詢的內(nèi)容的性質(zhì)或趨勢有關。例如,同義詞、拼寫錯誤、擴展項或收縮項的使用。
重構會話參數(shù)可與被重構的查詢中語法的使用的性質(zhì)或趨勢有關。例如,減號、加號或引號的使用。
該方法可包括將與重構會話有關的數(shù)據(jù)記錄在搜索引擎的外部或內(nèi)部的日志內(nèi)。
所述監(jiān)視重構會話的步驟可包括識別在閾值時間或閾值類似性內(nèi)的重構查詢,并將這些查詢歸組為重構會話。
分析重構會話參數(shù)可包括確定對于單個搜索引擎參數(shù)是否隨時間改變,或者根據(jù)單個搜索引擎內(nèi)的不同設置確定該參數(shù)。所述監(jiān)視可在被搜索的數(shù)據(jù)集合的更新之后執(zhí)行。控制搜索引擎的操作可控制單個搜索引擎的操作參數(shù)。
分析重構會話參數(shù)可包括比較兩個或更多個搜索引擎的參數(shù)??刂扑阉饕娴牟僮骺蓮膬蓚€或更多個搜索引擎選擇供使用的搜索引擎。
控制搜索引擎的操作可包括一個或多個以下操作如果重構會話參數(shù)改變到預定閾值之外則提供警報;為搜索引擎啟動爬蟲操作;向查詢細化過程添加輸入查詢項;確定用戶輸入指令;或啟動搜索引擎內(nèi)的索引改變。
根據(jù)本發(fā)明的第二方面,提供了一種用于評估一個或多個搜索引擎的質(zhì)量的系統(tǒng),該系統(tǒng)包括搜索引擎的用戶提交的查詢的查詢?nèi)罩?;用于監(jiān)視搜索引擎的用戶的重構會話的裝置,其中一重構會話是用戶發(fā)出以滿足單個信息需求的至少兩個對搜索引擎的查詢的系列;用于確定搜索引擎的重構會話參數(shù)的裝置;以及用于分析重構會話參數(shù)的裝置。
該系統(tǒng)任選地包括用于根據(jù)所述分析控制搜索引擎的操作的裝置。
可在搜索引擎內(nèi)部或在搜索引擎外部設置查詢?nèi)罩尽T撓到y(tǒng)可包括用于從查詢?nèi)罩緳z索數(shù)據(jù)的裝置。
所述用于分析重構會話參數(shù)的裝置包括確定對于單個搜索引擎參數(shù)是否隨時間改變,或者根據(jù)單個搜索引擎內(nèi)的不同設置確定該參數(shù)。所述用于監(jiān)視的裝置可在已更新的被搜索的數(shù)據(jù)集合上執(zhí)行。
該系統(tǒng)可包括兩個或更多個搜索引擎,并且所述用于分析重構會話參數(shù)的裝置可包括比較兩個或更多個搜索引擎的參數(shù)。
所述搜索引擎可以是因特網(wǎng)搜索引擎、內(nèi)聯(lián)網(wǎng)搜索引擎、網(wǎng)站搜索引擎、或專用于文件的任何集合的搜索引擎。
根據(jù)本發(fā)明的第三方面,提供了一種存儲在計算機可讀存儲介質(zhì)上的計算機程序產(chǎn)品,其包括用于執(zhí)行以下步驟的計算機可讀程序代碼裝置監(jiān)視搜索引擎的用戶的重構會話,其中一重構會話是用戶發(fā)出以滿足單個信息需求的至少兩個對搜索引擎的查詢的系列;確定用于搜索引擎的重構會話參數(shù);以及分析該重構會話參數(shù)。
該計算機程序產(chǎn)品還可包括根據(jù)所述分析控制搜索引擎的操作。
根據(jù)本發(fā)明的第四方面,提供了一種用于控制一個或多個搜索引擎的操作的系統(tǒng),該系統(tǒng)包括用于接收搜索引擎的用戶對重構會話的分析的裝置,其中一重構會話是用戶發(fā)出以滿足單個信息需求的至少兩個對搜索引擎的查詢的系列;以及用于根據(jù)所述分析控制搜索引擎的操作的裝置。
所述用于控制搜索引擎的操作的裝置可通過提供用于一個或多個以下操作的裝置來控制所述操作從兩個或更多個搜索引擎中選擇供使用的搜索引擎;如果重構會話參數(shù)改變到預定閾值之外則提供警報;為搜索引擎啟動爬蟲操作;向查詢細化過程添加輸入查詢項;確定用戶輸入指令;或在搜索引擎內(nèi)提供索引改變。


下面將參照附圖僅作為示例說明本發(fā)明的實施例,在附圖中圖1是示出搜索引擎及其用戶感知的知識范圍的示意圖;圖2是示例性的Web體系結構的框圖;圖3是可根據(jù)本發(fā)明使用的搜索引擎體系結構的框圖;圖4是根據(jù)本發(fā)明的系統(tǒng)的框圖;以及圖5是根據(jù)本發(fā)明的方法的流程圖。
具體實施例方式
如上所述,圖1示出搜索引擎的各個用戶102的不同的知識庫和搜索引擎101自身的知識。搜索引擎的用戶從他們的知識庫開始進行搜索查詢。因此,在搜索引擎檢索到用戶查找的信息之前,經(jīng)常需要該查詢的重構。單個查詢的重構被稱為重構會話。所描述的方法和系統(tǒng)使用用戶的重構會話提供的信息來評估搜索引擎的質(zhì)量。
參照圖2,其示出Web體系結構200的示例性實施例。客戶計算機系統(tǒng)201通常包括中央處理單元(CPU)210,并具有操作系統(tǒng)、存儲器、輸入/輸出接口、總線、輸入/輸出設備。客戶計算機系統(tǒng)201包括瀏覽器應用202,該應用經(jīng)由使用網(wǎng)絡205(例如因特網(wǎng))的連接209(例如TCP(傳輸控制協(xié)議)連接)與主機服務器系統(tǒng)204交互??蛻粲嬎銠C系統(tǒng)201包括圖形用戶界面(GUI)203,其顯示瀏覽器應用202提供的信息。
主機服務器系統(tǒng)204的功能是將瀏覽器應用202請求的信息發(fā)送給客戶計算機系統(tǒng)201。主機服務器系統(tǒng)204是通常包括中央處理單元(CPU)211并具有操作系統(tǒng)和數(shù)據(jù)庫206的計算機系統(tǒng)。主機服務器系統(tǒng)201包括服務器應用207,其處理來自客戶計算機系統(tǒng)201的瀏覽器應用202的請求并與主機操作系統(tǒng)通信。主機服務器系統(tǒng)204是HTTP(超文本傳輸協(xié)議)服務器,其使用HTTP傳輸208將信息發(fā)送給客戶機瀏覽器應用202。在萬維網(wǎng)的上下文中,主機服務器系統(tǒng)204是Web服務器。
通常,客戶機瀏覽器應用202請求主機服務器系統(tǒng)204返回HTML(超文本標記語言)文件。主機服務器系統(tǒng)204接收該請求并返回響應。主機服務器系統(tǒng)204從其數(shù)據(jù)庫206檢索請求的信息212,并將該信息212發(fā)送給客戶機瀏覽器應用202,該客戶機瀏覽器應用在客戶機的GUI 203內(nèi)顯示該信息212。
參照圖3,其示出搜索引擎系統(tǒng)300的示例性實施例。所提供的服務器系統(tǒng)301通常包括中央處理單元(CPU)302并具有操作系統(tǒng)和數(shù)據(jù)庫303。服務器系統(tǒng)301提供了搜索引擎308,該搜索引擎包括用于經(jīng)由網(wǎng)絡205從服務器310、311、312收集信息的爬蟲應用304;用于在數(shù)據(jù)庫303中創(chuàng)建收集的信息的索引或目錄的應用305;以及搜索查詢應用306。
數(shù)據(jù)庫303中存儲的索引通過從服務器310、311、312中的文件提取的信息引用這些文件的URL(統(tǒng)一資源定位器)。
搜索查詢應用306經(jīng)由網(wǎng)絡205接收來自客戶機201的查詢請求320,將其與數(shù)據(jù)庫303中存儲的索引中的條目相比較,并在HTML頁面中返回結果。當客戶機201選擇到文件的鏈接時,客戶機瀏覽器應用202被直接路由到存放該文件的服務器310、311、312。
搜索查詢應用306使用搜索引擎303保持從客戶機機接受到的搜索查詢的查詢?nèi)罩?07。作為另一種選擇,可通過首先在日志中保存查詢并然后將信息發(fā)送給搜索引擎300,保持與搜索引擎300分開的查詢?nèi)罩尽?br> 了解客戶機的查詢重構的最好方式是分析搜索引擎303的查詢?nèi)罩?07。為了調(diào)查查詢?nèi)罩?07中的重構,必須首先將日志307劃分為重構會話。用于提取這些會話的方法除了依賴于每個查詢的文本和時間戳之外還依賴于查詢?nèi)罩?07為每個查詢提供的信息。相關的附加信息是單個會話或單個用戶的標識。
所描述的實施例集中于其中沒有提供附加信息的情況,并且它不依賴于搜索引擎自身之外的任何事物。這種情況的一個示例是開盒即用的搜索引擎,其假設不了解運行它的應用。
最好的情況是搜索引擎在其日志內(nèi)保持會話信息,實際上跟蹤何時用戶返回到搜索結果的頁面以及改變查詢。在此情況下,不需要進行額外的處理,并且將查詢歸組為重構會話是簡單直接的。不過,一些用戶會在單個被記錄的會話內(nèi)尋求滿足若干信息需求,在此情況下它們可能需要被劃分。
更常見的可能性是日志通過一些標識符例如IP(網(wǎng)際協(xié)議)地址包含標識其用戶的信息。在此情況下,假設在用戶發(fā)出一查詢之后,他們在短時間范圍內(nèi)發(fā)出的所有其他查詢將是該查詢的重構。一旦已確定該時間界限,就可用簡單的算法將查詢歸組。在許多情況下,即使已知IP地址,也不能使用該IP地址來識別單個用戶,例如通過代理服務器的請求。在這種情況下,必須如下文所述地近似得出會話。
查詢?nèi)罩境32粫魏斡糜谧R別用戶的信息。對于這種日志,僅能通過在該日志中找到很可能是其他查詢的重構的查詢來近似得出會話。
觀察到大多數(shù)重構使查詢的大部分未改變,而使用近似字符串匹配算法。工作良好的一種形式的算法是tf*idf加權三字母組匹配。Jaro-Winkler算法也表現(xiàn)得很好并被調(diào)查。當用戶完全重寫查詢時。這種方法不能發(fā)現(xiàn)重構。
簡單的說,重構會話提取算法被賦予兩個閾值—時間閾值和類似性閾值。如果一系列查詢均在時間閾值內(nèi)發(fā)生,并且每兩個連續(xù)的查詢都處于類似性閾值內(nèi),則將該一系列查詢歸組到單個會話。
Sessions<-φLog<-{按時間排序的所有查詢}while(Log?。溅?Q1<-從Log移除第一個查詢Q_start<-Q1New Session<-{Q1}for each Q2 in Logif(time(Q2)-time(Q_start)<time threshold)if(compare(Q1,Q2)<similarity threshold)New Session<-New Session U{Q2}Log<-Log\{Q2}Q1=Q2if(|New Session|>1)Session<-Session U{New Session}在下面給出的示例中,此分析中報告的發(fā)現(xiàn)是在10分鐘的時間閾值內(nèi)完成的。已實驗了從5分鐘直到30分鐘的各種窗口尺寸,并且已發(fā)現(xiàn)在長度、持續(xù)時間和持續(xù)時間分布方面在所有時間閾值上各值幾乎相同。唯一隨時間閾值改變的值是重構會話在整個查詢?nèi)罩局械陌俜直?,其隨著時間的增加而輕微地增加。使用了10分鐘時間閾值,因為它代表了查詢重構特性,并且在提取錯誤方面更為可靠。例如,幾個不同的用戶在非常短的時間范圍內(nèi)提交相同查詢的可能性不大。時間范圍越短,則會話提取就越精確并且處理越快。
示例此示例跟蹤了具有兩個非常不同的用戶群體的兩個不同搜索引擎—計算機公司的內(nèi)聯(lián)網(wǎng)搜索引擎和相同計算機公司的外部網(wǎng)站搜索引擎—的內(nèi)聯(lián)網(wǎng)和Web查詢?nèi)罩尽?nèi)聯(lián)網(wǎng)搜索引擎每個月唯一地從公司的雇員那里接收到大約50萬條查詢。外部因特網(wǎng)網(wǎng)站每個月從全世界的公司顧客那里接收到約幾百萬條查詢。
這里分析的日志是從具有兩個不同用戶群體的兩個不同搜索引擎獲得的。內(nèi)聯(lián)網(wǎng)搜索引擎被采樣并且在不同的幾天內(nèi)有大約200000條查詢被記入日志。公共網(wǎng)站僅被記錄了大約1周并且收集了超過500000條查詢。內(nèi)聯(lián)網(wǎng)搜索日志是從主機器生成的;公共網(wǎng)站搜索日志是從作為一些機器的群集的一部分的兩個不同的機器獲得的。兩個搜索引擎的用戶在性質(zhì)上是不同的。內(nèi)聯(lián)網(wǎng)用戶非常有技術意識,而公共網(wǎng)站搜索引擎的用戶則是來購買產(chǎn)品、尋求技術支持、和了解公司的財務狀況。
下面給出可被分析的會話參數(shù)的示例,以及為了評估質(zhì)量或獲得關于用戶行為的信息而在搜索引擎之間進行的比較。
分析了每個內(nèi)聯(lián)網(wǎng)搜索日志中的重構的比率。記入日志被限制為每個日志大約25000條查詢。會話中的查詢的百分比是通過將被發(fā)現(xiàn)為重構的一部分的查詢的數(shù)量除以日志中的查詢的總數(shù)計算出的。
僅僅計算來自不同引擎的日志的平均可得到驚人相似的結果,其中提交給內(nèi)聯(lián)網(wǎng)搜索引擎的查詢的31.7%是重構會話的一部分,而31.3%的查詢是公共網(wǎng)站搜索引擎上的重構會話的一部分。
也分析了工作日之間的差別并且在搜索引擎之間進行了比較。
以每個會話的查詢數(shù)度量的重構會話長度是人們愿意花費的與搜索引擎交互的時間的指示。由于結果的“下一頁”的所有發(fā)生以及查詢的重構都包含在計算的會話內(nèi)(但是要求每個會話具有至少一個重構),所以還可提供關于決定完全改變查詢而不是瀏覽搜索引擎提供的結果的過程的指示。
在每個日志中,監(jiān)視每個會話的查詢的數(shù)量的樣本方差和標準偏差。
還比較了內(nèi)聯(lián)網(wǎng)和公共網(wǎng)站內(nèi)的每個會話的查詢的平均數(shù)量。
可有助于解釋兩個不同引擎之間的輕微差別的一個因素是瀏覽搜索結果的比率。由于“下一結果頁”被計算為會話中新發(fā)出的一個查詢,所以還度量了瀏覽內(nèi)聯(lián)網(wǎng)搜索結果和公共網(wǎng)站搜索結果的比率之間的差。
用于包括發(fā)送給搜索引擎的所有查詢的一般日志的該比率對于內(nèi)聯(lián)網(wǎng)和公共網(wǎng)站是大約14%到16%。此發(fā)現(xiàn)表明用戶瀏覽搜索結果和發(fā)出查詢重構之間正相關。
重構會話持續(xù)時間是用戶選擇與搜索引擎協(xié)商信息需求所花費時間長度的量度。為此,使用每個會話中的第一條和最后一條查詢的時間戳來計算會話持續(xù)時間。
比較日志上的重構會話的中間持續(xù)時間和平均持續(xù)時間的一致性。
可獲得每個會話的查詢的平均數(shù),并用會話持續(xù)時間去除該平均數(shù)以近似得出平均用戶在每個查詢中瀏覽搜索結果和確定是否滿足了信息需求將花費的時間。此參數(shù)可在搜索引擎之間相比較。
查詢的重構反應了用戶對搜索引擎的感知。用戶在無意中使用兩種不同方法來解決發(fā)現(xiàn)信息的問題。一種方法是試圖解讀作者群體如何描述集合中的概念。另一種方法相當于試圖對搜索引擎開發(fā)者群體選擇的排列和分析集合的信息的方式進行逆向工程。第一種方法相當于使用內(nèi)容重構與創(chuàng)作者對話,而第二種方法相當于使用語法重構與開發(fā)者交談。此劃分可幫助更好地理解每種方法提出的問題。也可檢測和分析內(nèi)容和語法重構。
與內(nèi)容相關的重構可以有以下幾種類型查找同義項,簡單地拼錯項,擴展查詢以使搜索范圍變窄,以及簡化查詢以拓寬搜索范圍。
語法重構包括在查詢中插入搜索運算符例如減號、加號和引號。
現(xiàn)參照圖4,系統(tǒng)406示出為本發(fā)明的示例性實施例。系統(tǒng)406包括用于分析和控制一個或多個搜索引擎402、403的應用401。應用401(或一系列應用)可相對于分析中的一個或多個搜索引擎402、403經(jīng)由網(wǎng)絡405遠程地或本地地設置在客戶機系統(tǒng)或服務器系統(tǒng)上。如在上文給出的示例中,分析中的搜索引擎402、403可以是因特網(wǎng)搜索引擎、公共網(wǎng)站搜索引擎、內(nèi)聯(lián)網(wǎng)搜索引擎、專用于任何文件的集合的搜索引擎或上述各引擎的組合。
應用401包括用于檢索分析中的一個或多個搜索引擎402、403的查詢?nèi)罩?07、408的裝置410。在此示例性實施例中,查詢?nèi)罩?07、408被示為在搜索引擎402、403的內(nèi)部;但是查詢?nèi)罩?07、408可設置在搜索引擎外部,例如設置在用戶系統(tǒng)或外部服務器上??蓮脑O置在包括搜索引擎的群集內(nèi)機器子集中獲得分析的查詢?nèi)罩尽?01包括用于分析來自查詢?nèi)罩?07、408的數(shù)據(jù)的分析裝置411。分析裝置411包括用于監(jiān)視重構會話412的裝置、用于確定會話比率或其他會話參數(shù)413的裝置以及比較裝置414。應用401可包含依賴于需要的分析的其他形式的數(shù)據(jù)操作。
在一個示例性實施例中,應用401還包括用于控制分析中的搜索引擎402、403的控制裝置420。控制裝置420可作為另一種選擇與分析裝置411分開設置,例如設置在搜索引擎402、403本地或遠程的另一系統(tǒng)上??刂蒲b置420可根據(jù)一個或多個下面的基于分析結果的操作控制搜索引擎402、403。
·控制裝置420可根據(jù)分析從多個搜索引擎中選擇搜索引擎。
·控制裝置420可根據(jù)一個搜索引擎的分析選擇用于單個搜索引擎的操作參數(shù)。
·如果所監(jiān)視的重構會話的參數(shù)根據(jù)預先設置的閾值改變,控制裝置420可發(fā)出警報。
·如果分析指示出需要重構的重復地未被識別的輸入查詢,控制裝置420可啟動爬蟲應用。
·如果分析識別出查詢重構中的重復地改正的項,控制裝置420可向搜索引擎的查詢細化過程自動添加輸入查詢項。
·控制裝置420可根據(jù)對查詢重構中的語法參數(shù)的分析,選擇將包含在用戶界面內(nèi)的指令(例如查詢語法示例)。
·控制裝置420可根據(jù)查詢重構的高的重構比率啟動索引改變。
圖5是一個或多個計算機過程執(zhí)行的分析重構會話的方法的流程圖500。在501,從查詢?nèi)罩窘邮盏讲樵冎貥嫊挃?shù)據(jù)。在502監(jiān)視數(shù)據(jù),并在503確定預定義的重構會話參數(shù)。所述監(jiān)視和確定502和503可執(zhí)行有限的一段時間或持續(xù)進行。在504分析被確定的參數(shù),并且在505根據(jù)分析的結果控制一個或多個搜索引擎的操作。
簡單的用于搜索引擎的質(zhì)量測試將是監(jiān)視查詢?nèi)罩疽远攘坎樵兊闹貥嫳嚷省H绻摫嚷孰S著時間增加,則這需要更全面地分析重構的性質(zhì)。另一種使用重構比率量度的方法是比較兩個不同的搜索引擎的性能,或在相同集合上具有相同用戶群體而具有不同設置的相同搜索引擎的性能。假設較好的搜索引擎或搜索設置將需要用戶付出較少的重構努力。還可能在定期更新索引之后運行重構比率分析,以了解用戶是否錯過先前存在那里的且沒有被索引的或者被不同地命名的某些內(nèi)容。
重構會話的分析還揭示了用于內(nèi)容增強的豐富的源。例如,可能用戶主要通過產(chǎn)品的舊的或常見名稱要求產(chǎn)品,而索引僅包含用新產(chǎn)品名稱標示的信息。這是一個可通過分析重構列表相當容易發(fā)現(xiàn)的非常常見的問題??蓪⒋酥匾畔⑥D發(fā)給網(wǎng)站編輯者,并建議向它們的現(xiàn)有內(nèi)容添加項。
通過分析會話,可發(fā)現(xiàn)可搜索的集合中沒有包含的項和主題。此信息使得能夠通過添加新的文件和新的內(nèi)容來增強集合。
知道哪些查詢或孤立的項被搜索但是不易于被發(fā)現(xiàn)或者根本不被發(fā)現(xiàn)可提供可能需要專注式爬蟲(focused crawler)的證據(jù)。爬蟲可被配置為優(yōu)選包含從重構會話中提取出的所需的項的文件。另外,爬蟲可被設置為訪問被識別為包含來自重構會話的項的新網(wǎng)站。
還可能存在這樣的情況,即用戶查找的信息只是缺失,并且更嚴格的分析可指示在可搜索信息中存在“漏洞”。在此情況下,應創(chuàng)建新內(nèi)容以滿足該信息需求。
可搜索的集合的管理員可通過分析重復地重新出現(xiàn)的重構序列來識別集合中不包含的主題。然后,管理員可指令將寫入新內(nèi)容以包含這些主題。也可購買或獲得這樣的內(nèi)容例如幫助文件、驅動器的支持頁等。也可在在線零售店中想象到這種情況,其中從會話識別新的趨勢并擴展當前的存貨以滿足需要。
可使用在查詢?nèi)罩局邪l(fā)現(xiàn)的重構會話作為用于查詢細化的候選。如果發(fā)出類似查詢的一些用戶在對結果感到滿意之前結束了重構它們,則很可能更多的用戶將遇到類似的困難。搜索引擎可利用以前的用戶已經(jīng)完成的檢測工作自動將這些重構建議為細化。這種方法比當前的查詢細化的方法更加以用戶為中心,當前方法通常根據(jù)搜索引擎已經(jīng)索引的內(nèi)容確定將建議什么細化。
可分析在查詢?nèi)罩局邪l(fā)現(xiàn)的重構會話信息而不對日志中存儲的用戶信息進行假設。可以許多方式利用從它們得到的信息以提高用戶體驗并改進Web內(nèi)容。該信息還可用作搜索引擎或搜索引擎已索引的內(nèi)容的質(zhì)量的量度。
本發(fā)明通常實現(xiàn)為包括用于控制計算機或類似設備的一組程序指令的計算機程序產(chǎn)品。這些指令可通過被預裝載在系統(tǒng)上或記錄在存儲介質(zhì)例如CD-ROM上而被提供,或被提供到網(wǎng)絡例如因特網(wǎng)或移動電話網(wǎng)絡上供下載。
可對前文內(nèi)容進行改進和修改而不會背離本發(fā)明的范圍。
權利要求
1.一種用于評估一個或多個搜索引擎的質(zhì)量的方法,該方法包括監(jiān)視(502)搜索引擎的用戶的重構會話,其中一重構會話是用戶發(fā)出以滿足單個信息需求的至少兩個對搜索引擎的查詢的系列;確定(503)用于該搜索引擎的重構會話參數(shù);以及分析(504)該重構會話參數(shù)。
2.根據(jù)權利要求1的方法,包括根據(jù)所述分析控制(505)所述搜索引擎的操作。
3.根據(jù)權利要求1或2的方法,其中,所述重構會話參數(shù)是以下組中的一個重構會話中的查詢重構的比率;重構會話持續(xù)時間;被重構的查詢的內(nèi)容;或被重構的查詢的語法。
4.根據(jù)權利要求1-3中的任何一個的方法,其中,所述監(jiān)視(502)重構會話的步驟包括識別在閾值時間內(nèi)的重構查詢,并將這些查詢歸組為重構會話。
5.根據(jù)前面任何一個權利要求的方法,其中,所述監(jiān)視(502)重構會話的步驟包括識別在閾值類似性內(nèi)的重構查詢,并將這些查詢歸組為重構會話。
6.根據(jù)前面任何一個權利要求的方法,其中,所述分析(504)重構會話參數(shù)包括確定對于單個搜索引擎該參數(shù)是否隨時間改變。
7.根據(jù)前面任何一個權利要求的方法,其中,所述分析(504)重構會話參數(shù)包括根據(jù)單個搜索引擎內(nèi)的不同設置確定該參數(shù)。
8.根據(jù)權利要求2-7中的任何一個的方法,其中,所述控制(505)搜索引擎的操作控制單個搜索引擎的操作參數(shù)。
9.根據(jù)前面任何一個權利要求的方法,其中,所述分析(504)重構會話參數(shù)包括比較兩個或更多個搜索引擎的參數(shù)。
10.根據(jù)權利要求9的方法,其中,所述控制(505)搜索引擎的操作從兩個或更多個搜索引擎中選擇供使用的搜索引擎。
11.根據(jù)權利要求2-10中的任何一個的方法,其中,如果重構會話參數(shù)改變到預定的閾值之外,則所述控制(505)搜索引擎的操作提供警報。
12.根據(jù)權利要求2-11中的任何一個的方法,其中,所述控制(505)搜索引擎的操作為該搜索引擎啟動爬蟲操作。
13.根據(jù)權利要求2-12中的任何一個的方法,其中,所述控制(505)搜索引擎的操作向查詢細化過程添加輸入查詢項。
14.根據(jù)權利要求2-13中的任何一個的方法,其中,所述控制(505)搜索引擎的操作確定用戶輸入指令。
15.根據(jù)權利要求2-14中的任何一個的方法,其中,所述控制(505)搜索引擎的操作啟動搜索引擎內(nèi)的索引改變。
16.根據(jù)前面任何一個權利要求的方法,其中,所述監(jiān)視(504)是在被搜索的數(shù)據(jù)集合的更新之后執(zhí)行的。
17.一種用于評估一個或多個搜索引擎(402,403)的質(zhì)量的系統(tǒng),該系統(tǒng)包括搜索引擎(402,403)的用戶提交的查詢的查詢?nèi)罩?407,408);用于監(jiān)視搜索引擎的用戶的重構會話的裝置(412),其中一重構會話是用戶發(fā)出以滿足單個信息需求的至少兩個對搜索引擎的查詢的系列;用于確定搜索引擎的重構會話參數(shù)的裝置(413);以及用于分析該重構會話參數(shù)的裝置(411)。
18.根據(jù)權利要求17的系統(tǒng),其中,該系統(tǒng)包括用于根據(jù)所述分析控制搜索引擎(402,403)的操作的裝置(420)。
19.根據(jù)權利要求17或18的系統(tǒng),其中,所述重構會話參數(shù)是以下組中的一個重構會話中的查詢重構的比率;重構會話持續(xù)時間;被重構的查詢的內(nèi)容;或被重構的查詢的語法。
20.根據(jù)權利要求17-19中的任何一個的系統(tǒng),其中,所述查詢?nèi)罩?407,408)被設置在搜索引擎(402,403)內(nèi)。
21.根據(jù)權利要求17-19中的任何一個的系統(tǒng),其中,所述查詢?nèi)罩驹谒鏊阉饕?402,403)的外部。
22.根據(jù)權利要求17-21中的任何一個的系統(tǒng),其中,該系統(tǒng)包括用于從所述查詢?nèi)罩?407,408)檢索數(shù)據(jù)的裝置(410)。
23.根據(jù)權利要求17-22中的任何一個的系統(tǒng),其中,所述用于分析重構會話參數(shù)的裝置(411)包括確定對于單個搜索引擎該參數(shù)是否隨時間改變。
24.根據(jù)權利要求17-23中的任何一個的系統(tǒng),其中,所述用于分析重構會話參數(shù)的裝置(411)包括根據(jù)單個搜索引擎內(nèi)的不同設置確定該參數(shù)。
25.根據(jù)權利要求17-24中的任何一個的系統(tǒng),其中,該系統(tǒng)包括兩個或更多個搜索引擎(402,403),并且所述用于分析重構會話參數(shù)的裝置(411)包括比較該兩個或更多個搜索引擎的參數(shù)。
26.根據(jù)權利要求17-25中的任何一個的系統(tǒng),其中,所述搜索引擎(402,403)是因特網(wǎng)搜索引擎、內(nèi)聯(lián)網(wǎng)搜索引擎、網(wǎng)站搜索引擎、或專用于文件的任何集合的搜索引擎。
27.一種存儲在計算機可讀存儲介質(zhì)上的計算機程序產(chǎn)品,其包括用于執(zhí)行以下步驟的計算機可讀程序代碼裝置監(jiān)視(502)搜索引擎的用戶的重構會話,其中一重構會話是用戶發(fā)出以滿足單個信息需求的至少兩個對搜索引擎的查詢的系列;確定(503)用于該搜索引擎的重構會話參數(shù);以及分析(504)該重構會話參數(shù)。
28.根據(jù)權利要求27的計算機程序產(chǎn)品,包括根據(jù)所述分析控制(505)搜索引擎的操作。
29.一種用于控制一個或多個搜索引擎的操作的系統(tǒng),該系統(tǒng)包括用于接收搜索引擎的用戶對重構會話的分析的裝置,其中一重構會話是用戶發(fā)出以滿足單個信息需求的至少兩個對搜索引擎的查詢的系列;以及用于根據(jù)所述分析控制搜索引擎的操作的裝置(420)。
30.根據(jù)權利要求29的系統(tǒng),其中,所述用于控制搜索引擎的操作的裝置(420)從兩個或更多個搜索引擎(402,403)中選擇供使用的搜索引擎。
31.根據(jù)權利要求29或30的系統(tǒng),其中,如果重構會話參數(shù)改變到預定的閾值之外,則所述用于控制搜索引擎的操作的裝置(420)提供警報。
32.根據(jù)權利要求29-31中的任何一個的系統(tǒng),其中,所述用于控制搜索引擎的操作的裝置(420)包括用于為該搜索引擎啟動爬蟲操作的裝置。
33.根據(jù)權利要求29-32中的任何一個的系統(tǒng),其中,所述用于控制搜索引擎的操作的裝置(420)包括用于向查詢細化過程添加輸入查詢項的裝置。
34.根據(jù)權利要求29-33中的任何一個的系統(tǒng),其中,所述用于控制搜索引擎的操作的裝置(420)包括用于確定用戶輸入指令的裝置。
35.根據(jù)權利要求29-34中的任何一個的系統(tǒng),其中,所述用于控制搜索引擎的操作的裝置(402)包括用于在搜索引擎內(nèi)提供索引改變的裝置。
全文摘要
一種用于評估一個或多個搜索引擎的質(zhì)量的方法和系統(tǒng),通過從查詢?nèi)罩?307,407,408)檢索數(shù)據(jù)來監(jiān)視搜索引擎(308,402,403)的用戶(201)的重構會話,其中一重構會話是用戶(201)發(fā)出以滿足單個信息需求的至少兩個對搜索引擎(308)的查詢的系列。然后確定用于該搜索引擎(308,402,403)的重構會話參數(shù),并分析該重構會話參數(shù)。該重構會話參數(shù)可以是在重構會話中的查詢重構的比率或重構會話持續(xù)時間。分析單個搜索引擎的重構會話參數(shù)可確定參數(shù)是否隨時間改變或根據(jù)單個搜索引擎內(nèi)的不同設置確定參數(shù)。分析兩個或更多個搜索引擎的重構會話參數(shù)包括比較該兩個或更多個搜索引擎的參數(shù)以度量搜索質(zhì)量??墒褂迷摲治鰜砜刂埔粋€或多個搜索引擎的操作。
文檔編號G06F17/30GK1834965SQ20061005812
公開日2006年9月20日 申請日期2006年3月6日 優(yōu)先權日2005年3月17日
發(fā)明者E·阿米泰, A·達洛, U·韋斯 申請人:國際商業(yè)機器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1