亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種在搜索引擎中應用搜索者反饋信息的方法

文檔序號:6555284閱讀:357來源:國知局
專利名稱:一種在搜索引擎中應用搜索者反饋信息的方法
技術領域
本發(fā)明屬于在互聯(lián)網(wǎng)上搜索信息的方法,具體地說,是一種對搜索者的反饋信息進行統(tǒng)計,并根據(jù)統(tǒng)計結果調整搜索引擎結果排序的方法。
背景技術
目前,各種各樣的搜索網(wǎng)站在互聯(lián)網(wǎng)上層出不窮,互聯(lián)網(wǎng)終端可以通過瀏覽器等上網(wǎng)進行信息的搜索,智能手機、PDA等智能移動終端(本發(fā)明統(tǒng)稱手機)也可以通過無線網(wǎng)絡與互聯(lián)網(wǎng)連接搜索信息。在搜索過程中,搜索引擎是必不可少的工具。
目前搜索引擎的實現(xiàn)原理,一般可以看作四步;1、從互聯(lián)網(wǎng)上抓取網(wǎng)頁。
利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的網(wǎng)絡蜘蛛程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復這過程,并把爬過的所有網(wǎng)頁收集到服務器中。
2、建立索引數(shù)據(jù)庫。
由索引系統(tǒng)程序對收集回來的網(wǎng)頁進行分析,提取相關網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關系等),根據(jù)一定的相關度算法進行大量復雜計算,得到每一個網(wǎng)頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網(wǎng)頁索引數(shù)據(jù)庫。
3、在索引數(shù)據(jù)庫中搜索。
當用戶輸入關鍵詞搜索后,分解搜索請求,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關鍵詞的所有相關網(wǎng)頁。
4、對搜索結果進行處理排序。
所有相關網(wǎng)頁針對該關鍵詞的相關信息在索引庫中都有記錄,只需綜合相關信息和網(wǎng)頁級別形成相關度數(shù)值,然后進行排序,相關度越高,排名越靠前。最后由頁面生成系統(tǒng)將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。
搜索引擎的原理,在網(wǎng)絡應用程序中也有很多的應用,如手機通過GPRS連接互聯(lián)網(wǎng),查詢網(wǎng)絡服務器上的信息。
從以上步驟可以看出對搜索結果進行排序,是依靠計算機程序自動進行的,搜索引擎索引數(shù)據(jù)庫建好后,在進行下一次重新索引之前,對于某一關鍵詞,搜索結果的排序將一直保持不變。但實際上,搜索者才是排序是否準確的評判者?,F(xiàn)有搜索引擎缺乏搜索者對于搜索結果的反饋機制。
從單個搜索者來看,單個搜索者對搜索結果的反饋信息具有一定的隨意性和隨機性,但從統(tǒng)計學的角度,當樣本量(即參加反饋的搜索者人數(shù))足夠大時,搜索者的反饋意見總體上符合某一統(tǒng)計學模型,因而,使用此統(tǒng)計學模型進行分析,能獲得總體上客觀的反饋,根據(jù)此反饋信息,搜索引擎調整關鍵詞的相關度,再對搜索結果進行排序,具有一定的實用價值。
本發(fā)明所述的搜索引擎,為包括網(wǎng)絡應用中進行信息搜索的廣義的搜索引擎。所述的關鍵詞,為信息項的某種屬性或屬性的組合。所述的相關度,為關鍵詞與信息項的關聯(lián)程度的一種量化表示值,用于關鍵詞的排序。

發(fā)明內容
本發(fā)明的目的是克服現(xiàn)有技術存在的搜索結果排序不能體現(xiàn)搜索者的反饋信息的技術問題。
為實現(xiàn)上述目的,本發(fā)明提出一種在搜索引擎中應用搜索者反饋信息的方法,其特征在于1)、記錄搜索者的反饋信息。
2)、對反饋信息進行統(tǒng)計處理。
3)、使用統(tǒng)計處理的結果調整相關度數(shù)值。
具體來說,包括,一反饋信息處理單元,所述反饋信息處理單元,用于存放搜索者的反饋信息,所述的反饋信息,一般包括搜索者ID、關鍵詞ID、關鍵詞所在文檔ID、搜索者的評分。所述的搜索者的評分,是搜索者對某項搜索結果的主動評分或非主動評分,有連續(xù)值和離散值兩種。所述反饋信息處理單元,還用于存放搜索者反饋信息的統(tǒng)計值,一般包括關鍵詞ID、關鍵詞所在文檔ID、統(tǒng)計所得評分、此關鍵詞-文檔的原始相關度數(shù)值,其中,可由原始相關度數(shù)值和統(tǒng)計所得評分得到新的相關度數(shù)值。
所述的主動評分包括但不限于對搜索結果項直接評分、選擇評分,由搜索者主動交互完成。
所述的非主動評分包括但不限于對搜索者逗留時間長短折合成評分、對搜索結果項做收錄操作與否折合成評分,可通過智能代理實現(xiàn)自動評分。
所述的一種統(tǒng)計搜索者反饋信息的搜索引擎,還包括在記錄搜索者的反饋信息前,先根據(jù)最初的相關度數(shù)值的值域及分布情況,設計一個合理的評分體系。搜索者使用某關鍵詞搜索,服務器返回搜索結果,搜索者在查看搜索結果項的過程中,為該項評分,評分結果由反饋信息處理單元保存。一般地,相同的搜索者在一個統(tǒng)計期內,對同一搜索項只能有一個評分,同一搜索者對同一搜索項的多次評分,由反饋信息處理單元根據(jù)情況拋棄處理或覆蓋原來的值。
所述的統(tǒng)計處理,其特征是包括a.采樣的步驟,包括判斷樣本量是否夠大,b.進行數(shù)據(jù)清洗的步驟,c.使用統(tǒng)計算法進行數(shù)據(jù)處理的步驟,d.計算統(tǒng)計學評分的步驟。
在樣本量足夠大時,才進行統(tǒng)計處理。樣本的采樣范圍可以采取已知的多種措施的一種,包括但不限于使用所有的樣本、使用最新的樣本。對樣本進行統(tǒng)計計算后,反饋信息處理單元要保存關鍵詞的統(tǒng)計評分,并對樣本進行處理。
修正搜索引擎對應關鍵詞項的相關度數(shù)值得到新的相關度數(shù)值,此步驟在反饋信息處理單元計算出統(tǒng)計評分后或在下一次排序前。
下一次的搜索結果將按照新的相關度數(shù)值進行排序。
本發(fā)明通過記錄搜索者對搜索結果的反饋信息,使用統(tǒng)計學方法,對反饋信息進行統(tǒng)計處理,得到關鍵詞的統(tǒng)計評分,使用此統(tǒng)計評分計算得到新的相關度數(shù)值,從而調整搜索結果的排序。使用此發(fā)明,新的相關度數(shù)值在一定程度上可以反映搜索者的客觀的評價,從而提高搜索結果排序的準確性。


圖1是本發(fā)明的典型的流程示意圖,顯示搜索者在一次搜索后進行評分的情況,此示意圖不用于限定本發(fā)明。
1)搜索者提交關鍵詞進行搜索。可以在互聯(lián)網(wǎng)終端或手機中進行。
2)搜索引擎返回搜索結果。搜索引擎在網(wǎng)絡服務器上,搜索結果返回給互聯(lián)網(wǎng)終端或手機之前已經(jīng)按照相關度數(shù)值進行了排序處理。
3)搜索者閱讀搜索結果項。
4)對項進行評分。根據(jù)閱讀的情況,搜索者可以選擇對該項進行評分,如果放棄評分,則轉到第10)步。
5)評分提交到反饋信息處理單元。反饋信息處理單元根據(jù)提交的關鍵詞-文檔評分,增加一個樣本,如果是重復的評分,則拋棄處理或覆蓋上一次的評分。
6)樣本量大小合適?判斷樣本量大小是否達到統(tǒng)計模型所需的樣本大小。若未達到所需樣本大小,則不進行統(tǒng)計計算,轉到第10)步。
7)使用統(tǒng)計學方法計算評分。按照統(tǒng)計模型的算法計算,一般計算統(tǒng)計平均分。
8)統(tǒng)計評分儲存在反饋信息處理單元。反饋信息處理單元保存此關鍵詞-文檔及其統(tǒng)計評分。
9)反饋信息處理單元進行調整以重新啟動下一個評分過程。根據(jù)所選擇的采樣方式的不同進行操作,一般是刪除先前的評分樣本,或者標記樣本為已經(jīng)使用過。此步驟還包括重新計算搜索引擎對應關鍵詞-文檔項的相關度數(shù)值得到新的相關度數(shù)值。
10)繼續(xù)閱讀搜索項?一輪評分過程結束。對于同一次搜索,搜索者可以閱讀多個搜索項,進行多次評分。若搜索者選擇繼續(xù)閱讀,則可以繼續(xù)評分,否則結束此次搜索實踐過程。
具體實施例方式
下面通過具體的實施例對本發(fā)明作進一步詳細的描述。
實施例1、本發(fā)明實施例通過應用一種在搜索引擎中應用搜索者反饋信息的方法,實現(xiàn)在網(wǎng)絡信息系統(tǒng)中使用手機搜索菜單項。
本網(wǎng)絡信息系統(tǒng)為手機通過無線網(wǎng)、互聯(lián)網(wǎng)以訪問網(wǎng)絡服務器上的信息。網(wǎng)絡服務器上的信息以分區(qū)、分組目錄的類似菜單的方式組織,手機上相應地以菜單的形式顯示,通過點選菜單項獲取子菜單或獲取信息進行顯示,菜單使用列表的顯示方式,子菜單覆蓋父菜單,子菜單返回后,父菜單又覆蓋子菜單。每一菜單項有一ID屬性、一關鍵詞屬性,一菜單名屬性,一積分值屬性。積分值是反映關鍵詞與菜單項內容的相關程度的值,積分值是一實數(shù)。
從手機中鍵入要搜索的關鍵詞,提交到服務器,服務器把搜索結果按積分值、菜單名排序后返回到手機,手機顯示一組原始菜單,其中可以包含不同一級的菜單項。
手機將監(jiān)視此組菜單項的選擇情況,當搜索者從子菜單返回原始菜單,或閱讀信息項后返回原始菜單時,系統(tǒng)詢問是否進行菜單項評分,本實施例的評分體系為設置五個等級分-10,-5,0,5,10,相應地,手機上可以顯示關鍵詞與內容為“完全不相關”,“不相關”,“無明顯相關”,“相關”,“完全相關”。此時搜索者可對該菜單項進行評分。
評分被保存到反饋信息處理單元中。當有關此關鍵詞一信息項的評分樣本數(shù)達到100時(假設統(tǒng)計學上計算得到,當去除干擾數(shù)據(jù)后,樣本數(shù)達到100時,樣本總體符合t分布)反饋信息處理單元進行處理。反饋信息處理單元對此關鍵詞一信息項的評分樣本使用t分布的模型進行統(tǒng)計學計算,得出其數(shù)學平均值,把此數(shù)學平均值儲存在反饋信息處理單元中,并把原始評分儲存在反饋信息處理單元中,并更新該菜單項的積分值為此數(shù)學平均值與原始評分之和。
這樣下一個搜索者使用相同的關鍵詞進行搜索菜單項時,搜索結果將按照新的積分值排序后返回。
本發(fā)明的上述實施例只用于說明的目的,并非用以限定本發(fā)明,本領域的技術人員可以在本發(fā)明的范圍內做出各種等同的修改,如上述實施例是手機搜索的例子,也可以從互聯(lián)網(wǎng)終端進行搜索,還可以在互聯(lián)網(wǎng)搜索引擎中使用此技術;又如手機菜單可以是分段顯示的,手機從服務器一段一段地獲取菜單進行顯示以減少內存占用;又如網(wǎng)絡服務器可以是服務器群。其工作原理類似,希望所附的權利要求包括這些變形和變化而不脫離本發(fā)明的精神。
權利要求
1.一種在搜索引擎中應用搜索者反饋信息的方法,其特征是1)、記錄搜索者的反饋信息。2)、對反饋信息進行統(tǒng)計處理。3)、使用統(tǒng)計處理的結果調整相關度數(shù)值。
2.如權利要求1所述的一種在搜索引擎中應用搜索者反饋信息的方法,其特征在于所述的統(tǒng)計處理,其特征是包括1).采樣的步驟,包括判斷樣本量是否夠大,2).進行數(shù)據(jù)清洗的步驟,3).使用統(tǒng)計算法進行數(shù)據(jù)處理的步驟,4).計算統(tǒng)計學評分的步驟。
3.如權利要求1所述的一種在搜索引擎中應用搜索者反饋信息的方法,其特征在于所述的反饋信息包括,搜索者對搜索結果的主動評價和/或非主動評價。
4.如權利要求1所述的一種在搜索引擎中應用搜索者反饋信息的方法,其特征在于還包括根據(jù)最初的相關度數(shù)值的值域和分布情況,設計一個合理的評分體系。
5.如權利要求1所述的一種在搜索引擎中應用搜索者反饋信息的方法,其特征在于相同的搜索者在一個統(tǒng)計階段,對同一搜索項只能有一個評分。
6.如權利要求1所述的一種在搜索引擎中應用搜索者反饋信息的方法,其特征在于統(tǒng)計的采樣方式,包括但不限于使用所有的樣本、使用最新的樣本。
全文摘要
本發(fā)明通過記錄搜索者對搜索結果的反饋信息,使用統(tǒng)計學方法,對反饋信息進行統(tǒng)計處理,得到關鍵詞的統(tǒng)計評分,使用此統(tǒng)計評分計算得到新的相關度數(shù)值,從而影響搜索結果的排序。使用此發(fā)明,新的相關度數(shù)值在一定程度上可以反映搜索者的客觀的評價,從而提高搜索結果排序的準確性。
文檔編號G06F17/30GK1818908SQ20061002472
公開日2006年8月16日 申請日期2006年3月16日 優(yōu)先權日2006年3月16日
發(fā)明者董崇軍 申請人:董崇軍
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1