專利名稱:使用網(wǎng)絡(luò)上的文檔的偏離點擊距離的排序函數(shù)的制作方法
使用網(wǎng)絡(luò)上的文檔的偏離點擊距離的排序函數(shù)
扭旦 冃足
根據(jù)文檔與給定搜索査詢的相關(guān)性來對文檔排序的排序函數(shù)是已知的。在本 領(lǐng)域中繼續(xù)努力開發(fā)為給定搜索查詢提供比由搜索引擎使用已知排序函數(shù)生成的 搜索結(jié)果更好的搜索結(jié)果的排序函數(shù)。
概述
在此所描述的特別地是用于確定網(wǎng)絡(luò)上的給定文檔的文檔相關(guān)性得分的各種 技術(shù)。文檔相關(guān)性得分經(jīng)由包括一個或多個查詢無關(guān)組件的排序函數(shù)來生成,其
中至少一個查詢無關(guān)組件包括偏離點擊距離(biased click distance)參數(shù),該參數(shù) 考慮了網(wǎng)絡(luò)上的多個文檔的偏離點擊距離值。排序函數(shù)可以由搜索引擎用來基于多 個文檔的文檔相關(guān)性得分按順序(通常是降序)對多個文檔排序。
提供本概述一般以簡化的形式向讀者介紹在"詳細(xì)描述" 一節(jié)中所描述的一 個或多個選擇概念。本概述并非旨在標(biāo)識所要求保護的主題的關(guān)鍵和/或必需特征。
附圖簡述
圖1表示示出響應(yīng)于由用戶輸入的搜索查詢產(chǎn)生已排序的搜索結(jié)果的方法的
示例性步驟的示例性邏輯流程圖2是用于實現(xiàn)在此公開的方法和過程的示例性操作環(huán)境的一些主要組件的
框圖3描述了標(biāo)識網(wǎng)絡(luò)空間中的文檔、文檔之間的鏈接、具有分配的偏離點擊 距離值的權(quán)威節(jié)點和具有計算的偏離點擊距離值的非權(quán)威節(jié)點的的示例性網(wǎng)圖4A-4B表示示出為網(wǎng)圖上的節(jié)點分配并生成偏離點擊距離值的方法中的示 例性步驟的邏輯流程圖5A-5B表示示出為網(wǎng)圖上非權(quán)威節(jié)點生成偏離點擊距離值的方法中的示例 性步驟的邏輯流程圖;以及
圖6表示使用包含偏離點擊距離值參數(shù)的排序函數(shù)來生成排序搜索結(jié)果的方法中的示例性步驟的邏輯流程圖。 詳細(xì)描述為促進對在此所公開的方法和過程的原理的理解,使用以下的具體實施例的 描述和特定語言來描述該具體實施例。然而應(yīng)該理解,并不旨在通過使用特定語言 來限制所公開的方法和過程的范圍。所討論的所公開的方法和過程的原理的改變、 進一步的修改以及此類進一步的應(yīng)用被認(rèn)為通常是所公開的方法和過程所屬的領(lǐng) 域內(nèi)的技術(shù)人員能想到的。公開了為網(wǎng)絡(luò)上的文檔確定文檔相關(guān)性得分的方法。使用包含一個或多個查 詢相關(guān)分量(例如,依賴于給定搜索査詢或搜索査詢項的細(xì)節(jié)的函數(shù)分量)的以及 一個或多個查詢無關(guān)組件(例如,不依賴于給定搜索查詢或搜索査詢項的函數(shù)分量) 的排序函數(shù)來計算每個文檔相關(guān)性得分。由排序函數(shù)確定的文檔相關(guān)性得分可以被 用來根據(jù)每一文檔相關(guān)性得分對網(wǎng)絡(luò)空間(例如,公司的內(nèi)聯(lián)網(wǎng)空間)中的文檔排 序。其中可使用所公開的方法的一個示例性搜索過程在圖1中被示為示例性過程10。圖1描述示例性搜索過程10,它從處理步驟80開始,其中用戶輸入搜索查詢。 從步驟80,示例性搜索過程10前進到步驟200,其中搜索引擎搜索網(wǎng)絡(luò)空間中的 所有文檔以得到該搜索査詢的一個或多個項。從步驟200,示例性搜索過程10前 進到步驟300,其中搜索引擎的排序函數(shù)基于每個文檔的相關(guān)性得分對網(wǎng)絡(luò)空間中 的文檔進行排序,該文檔相關(guān)性得分基于一個或多個查詢相關(guān)組件和一個或多個查 詢無關(guān)組件。從步驟300,示例性搜索10過程前進到步驟400,其中已排序的搜索 結(jié)果通常以相關(guān)性的降序被呈現(xiàn)給用戶,從而標(biāo)識了網(wǎng)絡(luò)空間里與搜索查詢最相關(guān) 的文檔。如在下面更詳細(xì)討論的那樣,在確定文檔相關(guān)性得分的某些示例性方法中, 被用來確定文檔相關(guān)性得分的排序函數(shù)的至少一個査詢無關(guān)組件考慮了網(wǎng)絡(luò)空間 里的每個文檔的"偏離點擊距離"。在此被稱為網(wǎng)絡(luò)中的"權(quán)威文檔(authoritative document)"或網(wǎng)圖上的"權(quán)威節(jié)點"的特定文檔的偏離點擊距離可以被分配一初 始點擊距離值,以便把這些文檔標(biāo)識為相對于彼此有不同的重要程度,并且可能是 相對于網(wǎng)絡(luò)上的其余文檔更高的重要程度。在此被稱為網(wǎng)絡(luò)中的"非權(quán)威文檔"或 網(wǎng)圖上的"非權(quán)威節(jié)點"的其余文檔具有基于這些文檔相對于網(wǎng)絡(luò)空間中最接近的 權(quán)威節(jié)點(或網(wǎng)圖上最接近的權(quán)威節(jié)點)的位置來計算的偏離點擊距離值,得到向權(quán)威節(jié)點偏離的點擊距離值。在一個示例性實施例中,偏離點擊距離值可以被分配給包括總共N個文檔的網(wǎng)絡(luò)上的m個權(quán)威文檔,其中m大于或等于2且小于N。在這一示例性實施例中, 系統(tǒng)管理員手動選擇或搜索系統(tǒng)中的應(yīng)用程序代碼自動標(biāo)識給定網(wǎng)絡(luò)空間里在該 網(wǎng)絡(luò)空間中具有某一重要程度的m個權(quán)威文檔。例如,m個權(quán)威文檔的其中之一 可以是網(wǎng)站的主頁或直接鏈接到網(wǎng)站的主頁的另一網(wǎng)頁。在另一示例性實施例中,分配給m個權(quán)威文檔的偏離點擊距離值中的至少兩 個彼此不同。在這一實施例中,不同數(shù)值可以被分配給m個權(quán)威文檔中的兩個或 多個,以便進一步量化一個權(quán)威文檔對另一權(quán)威文檔的重要性。例如,給定權(quán)威文 檔重要性可以由低偏離點擊距離值來指示。在這一例子中,具有等于0的偏離點擊 距離值的權(quán)威文檔將被認(rèn)為是比具有大于0的偏離點擊距離值的權(quán)威文檔更重要。所公開的確定文檔相關(guān)性得分的方法還可以利用包括至少一個查詢無關(guān)組件 的排序函數(shù),其中該査詢無關(guān)組件包括考慮了被分配給網(wǎng)絡(luò)上的每條邊的邊值的邊 值參數(shù),其中每條邊把在網(wǎng)絡(luò)的超鏈接結(jié)構(gòu)中的一個文檔連接到另一文檔(或把網(wǎng) 圖上的一個節(jié)點連接到另一節(jié)點)。把邊值分配給將網(wǎng)絡(luò)上的文檔相互連接的一條 或多條邊提供了影響網(wǎng)絡(luò)上的文檔的文檔相關(guān)性得分的進一步方法。例如,在其中 較低的偏離點擊距離值指示給定文檔的重要性的上述例子中,增加如第一文檔和鏈 接到該第一文檔的第二文檔等兩個文檔之間的邊值會進一步減小第二文檔(即被鏈 接的文檔)相對于第一文檔的重要性。相反,通過把較低的邊值分配給第一文檔和 第二文檔之間的邊,第二文檔相對于第一文檔的重要性變大。在一個示例性實施例中,鏈接網(wǎng)絡(luò)空間中的文檔的兩條或多條邊可以被分配 彼此不同的邊值。在這一示例性實施例中,不同的數(shù)值可以被分配給兩條或多條邊, 以便進一步量化網(wǎng)絡(luò)空間中一個文檔對另一文檔的重要性。在其他示例性實施例 中,鏈接網(wǎng)絡(luò)空間中的文檔的所有邊都被分配相同的邊值,其中分配的邊值是1 或某一其他正數(shù)。在又一實施例中,邊值彼此相等且等于或大于最初被分配給一個 或多個權(quán)威文檔的最高偏離點擊距離值。在再一示例性實施例中,所公開的確定文檔相關(guān)性得分的方法利用了包括至 少一個查詢無關(guān)組件的排序函數(shù),該查詢無關(guān)組件包括上述偏離點擊距離參數(shù)和上述邊值參數(shù)兩者。文檔相關(guān)性得分可以被用來對網(wǎng)絡(luò)空間中的文檔排序。例如,對網(wǎng)絡(luò)上的文 檔排序的一種方法可以包括以下步驟使用上述方法為網(wǎng)絡(luò)上的每個文檔確定文檔相關(guān)性得分;以及基于每個文檔的文檔相關(guān)性得分以所需順序(通常以降序)來對 文檔排序。文檔相關(guān)性得分也可以被用來對搜索查詢的搜索結(jié)果排序。例如,對搜索查 詢的搜索結(jié)果排序的一種方法可以包括以下步驟使用上述方法來為搜索査詢的搜 索結(jié)果中的每個文檔確定文檔相關(guān)性得分;以及基于每個文檔的文檔相關(guān)性得分以 所需順序(通常以降序)對文檔排序。使用在此所公開的方法的應(yīng)用程序可以在包括各種硬件組件的各種計算機系 統(tǒng)上加載并執(zhí)行。以下描述用于實施在此所公開的方法的示例性計算機系統(tǒng)和示例 性操作環(huán)境。示例性操作環(huán)境圖2示出了可在其上實現(xiàn)此處所公開的方法的合適的計算系統(tǒng)環(huán)境100的一 個例子。計算系統(tǒng)環(huán)境100只是合適的計算環(huán)境的一個例子,并非旨在對在此所公 開的方法的使用范圍或功能提出任何限制。計算環(huán)境100也不應(yīng)該被解釋成具有與 在示例性操作環(huán)境100中所示的組件中的任意一個或其組合有關(guān)的任何依賴性或要求。在此所公開的方法可以與多種其他通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置一起操 作。適用于在此所公開的方法的公知的計算系統(tǒng)、環(huán)境和/或配置的例子包括但不 限于,個人計算機、服務(wù)器計算機、手持式或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、可編程消費性電子產(chǎn)品、網(wǎng)絡(luò)PC、小型機、大型計算機、包括任何上述系統(tǒng)或設(shè)備的分布式計算環(huán)境等等。此處所公開的方法和過程可以在諸如程序模塊等由計算機執(zhí)行的計算機可執(zhí) 行指令的一般上下文中描述。通常,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù) 據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。此處所公開的方法和過程也可 以在分布式計算環(huán)境中實施,其中由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備來執(zhí)行任 務(wù)。在分布式計算環(huán)境中,程序模塊可以位于包括存儲器存儲設(shè)備在內(nèi)的本地和遠(yuǎn) 程計算機存儲介質(zhì)中。參見圖2,用于實現(xiàn)在此所公開的方法和過程的一個示例性系統(tǒng)包括計算機 110形式的通用計算設(shè)備。計算機110的組件可以包括但不限于,處理單元120、 系統(tǒng)存儲器130和將包括但不限于系統(tǒng)存儲器130在內(nèi)的各種系統(tǒng)組件耦合到處理 單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是幾種類型的總線結(jié)構(gòu)中的任一種,包括存儲器總線或存儲器控制器、外圍總線以及使用多種總線體系結(jié)構(gòu)中的任一種 的局部總線。作為例子而非限制,此類體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、增強型ISA (EISA)總線、視頻電子技術(shù)標(biāo) 準(zhǔn)協(xié)會(VESA)局部總線以及外圍部件互連(PCI)總線(也稱為背板(Mezzanine)總線)。計算機110通常包括各種計算機可讀介質(zhì)。計算機可讀介質(zhì)可以是能由計算 機IIO訪問的任何可用介質(zhì),并包括易失性和非易失性介質(zhì)、可移動和不可移動介 質(zhì)。作為例子而非限制,計算機可讀介質(zhì)可以包括計算機存儲介質(zhì)和通信介質(zhì)。計 算機存儲介質(zhì)包括用存儲如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)等信 息的任何方法或技術(shù)實現(xiàn)的易失性和非易失性、可移動的和不可移動的介質(zhì)。計算 機存儲介質(zhì)包括但不限于RAM、ROM、EEPROM、閃存或其他存儲技術(shù)、CD-ROM、 數(shù)字多功能盤(DVD)或其他光盤存儲、磁帶盒、磁帶、磁盤存儲或其他磁存儲 設(shè)備、或者可以被用來存儲所需信息并能被計算機110訪問的任何其他介質(zhì)。通信 介質(zhì)通常以如載波或其他傳輸機制等已調(diào)制數(shù)據(jù)信號的形式來體現(xiàn)計算機可讀指 令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù),并包括任何信息傳輸介質(zhì)。術(shù)語"已調(diào)制數(shù) 據(jù)信號"是指以在該信號中編碼信息的方式來設(shè)置或改變其一個或多個特性的信 號。作為例子而非限制,通信介質(zhì)包括諸如有線網(wǎng)絡(luò)或有線直接連接等有線介質(zhì), 以及諸如聲學(xué)、射頻、紅外和其他無線介質(zhì)等無線介質(zhì)。以上任何一個的組合也應(yīng) 當(dāng)被包括在如此處所使用的計算機可讀介質(zhì)的范圍之內(nèi)。系統(tǒng)存儲器130包括易失性和/或非易失性存儲器形式的計算機存儲介質(zhì),諸 如只讀存儲器(ROM) 131和隨機存取存儲器(RAM) 132?;据斎?輸出系統(tǒng) 133 (BIOS)通常被存儲在ROM 131中,它包含例如在啟動過程中幫助在計算機 110內(nèi)的各個元件之間傳輸信息的基本例程。RAM 132 —般包含可由處理單元120 立即訪問和/或當(dāng)前進行操作的數(shù)據(jù)和/或程序模塊。作為例子而非限制,圖2 示出了操作系統(tǒng)134、應(yīng)用程序135、其他程序模塊136以及程序數(shù)據(jù)137。計算機110也可以包括其他可移動/不可移動、易失性/非易失性的計算機存儲 介質(zhì)。僅僅作為例子,圖2示出了從不可移動、非易失性磁介質(zhì)讀取或向其中寫入 的硬盤驅(qū)動器140,從可移動、非易失性磁盤152讀取或向其中寫入的磁盤驅(qū)動器 151,以及從可移動、非易失性光盤156 (例如,CD ROM或其他光學(xué)介質(zhì))讀取 或向其中寫入的光盤驅(qū)動器155??梢杂糜谑纠圆僮鳝h(huán)境的其他可移動/不可移 動、易失性/非易失性的計算機存儲介質(zhì)包括但不限于盒式磁帶、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動器141通常通過不 可移動存儲器接口,如接口 140連接到系統(tǒng)總線121,而磁盤驅(qū)動器151和光盤驅(qū) 動器155通常通過可移動存儲器接口,如接口 150連接到系統(tǒng)總線121。以上所討論并在圖2中所示的這些驅(qū)動器及其相關(guān)聯(lián)的計算機存儲介質(zhì)為計 算機110提供計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的存儲。例如,在 圖2中,硬盤驅(qū)動器141被示為存儲操作系統(tǒng)144、應(yīng)用程序145、其他程序模塊 146和程序數(shù)據(jù)147。注意,這些組件可以等同于或不同于操作系統(tǒng)134、應(yīng)用程 序135、其他程序模塊136和程序數(shù)據(jù)137。對操作系統(tǒng)144、應(yīng)用程序145、其他 程序模塊146和程序數(shù)據(jù)147給予不同的標(biāo)號以說明至少它們是不同的副本。用戶可以通過輸入設(shè)備,如鍵盤162和定位設(shè)備161 (通常指鼠標(biāo)、跟蹤球或 觸摸墊)向計算機110輸入命令和信息。其他輸入設(shè)備(未示出)可以包括話筒、 操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀等等。這些和其他輸入設(shè)備通常通過耦 合至系統(tǒng)總線121的用戶輸入接口 160連接至處理單元120,但是也可以通過其他 接口和總線結(jié)構(gòu)連接,如并行端口、游戲端口或通用串行總線(USB)。監(jiān)視器 191或其他類型的顯示設(shè)備也通過接口,如視頻接口 190連接至系統(tǒng)總線121。除 監(jiān)視器191之外,計算機也可以包括其他外圍輸出設(shè)備,如揚聲器197和打印機 196,它們可通過輸出外圍接口 195連接。計算機110可以使用到一個或多個遠(yuǎn)程計算機,如遠(yuǎn)程計算機180的邏輯連 接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計算機180可以是個人計算機、服務(wù)器、路由器、網(wǎng) 絡(luò)PC、對等設(shè)備或者其他常見的網(wǎng)絡(luò)節(jié)點,并且一般包括許多或所有上面相對于 計算機110所描述的元件,盡管在圖2中只示出了存儲器存儲設(shè)備181。圖2中所 描繪的這些邏輯連接包括局域網(wǎng)(LAN) 171和廣域網(wǎng)(WAN) 173,但也可以包 括其他網(wǎng)絡(luò)。這類網(wǎng)絡(luò)環(huán)境常見于辦公室、企業(yè)范圍計算機網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)。當(dāng)用于LAN網(wǎng)絡(luò)環(huán)境時,計算機110通過網(wǎng)絡(luò)接口或適配器170連接到LAN 171。當(dāng)用于WAN網(wǎng)絡(luò)環(huán)境時,計算機110通常包括調(diào)制解調(diào)器172或用于通過 WAN 173,如因特網(wǎng)建立通信的其他裝置??梢詢?nèi)置或者外置的調(diào)制解調(diào)器172 可通過用戶輸入接口 160或者其他適當(dāng)?shù)臋C制被連接到系統(tǒng)總線121。在網(wǎng)絡(luò)化環(huán) 境中,相對于計算機110描述的程序模塊或其部分可以被存儲在遠(yuǎn)程存儲器存儲設(shè) 備中。作為例子而非限制,圖2示出遠(yuǎn)程應(yīng)用程序185駐留在存儲器設(shè)備181上。 應(yīng)該明白,所示的網(wǎng)絡(luò)連接是示例性的,并且可以使用在計算機之間建立通信鏈路 的其他方式。此處所公開的方法和過程可以使用包括但不限于搜索排序應(yīng)用程序的一個或 多個應(yīng)用程序來實現(xiàn),其中該搜索排序應(yīng)用程序可以是被指定為示例性系統(tǒng)100中的應(yīng)用程序135、應(yīng)用程序145和遠(yuǎn)程應(yīng)用程序185的多個應(yīng)用程序的其中之一。 如上所述,本領(lǐng)域的技術(shù)人員應(yīng)明白,所公開的為給定文檔生成文檔相關(guān)性 得分的方法可以在其他計算機系統(tǒng)配置中實現(xiàn),包括手持式設(shè)備、多處理器系統(tǒng)、 基于微處理機的或可編程的消費性電子產(chǎn)品、網(wǎng)絡(luò)化個人計算機、小型機、大型計 算機等等。所公開的為給定文檔生成文檔相關(guān)性得分的方法也可以在分布式計算中 環(huán)境實踐,其中任務(wù)由通過通信網(wǎng)絡(luò)而被鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行。在分布式計算 環(huán)境中,程序模塊可以位于本地和遠(yuǎn)程存儲器存儲設(shè)備中。示例性實施例的實現(xiàn)如上所討論的,提供了為網(wǎng)絡(luò)上的文檔的文檔相關(guān)性得分的方法。所公開的 方法可利用(i)考慮到網(wǎng)絡(luò)上的每個文檔的偏離點擊距離值的排序函數(shù),(ii)考 慮到被分配給網(wǎng)絡(luò)上的諸文檔之間的邊(或鏈接)的一個或多個邊值的排序函數(shù), 或(iii) (i)和(ii)兩者來對網(wǎng)絡(luò)上的文檔排序。所公開的為網(wǎng)絡(luò)上的文檔確定文檔相關(guān)性得分的方法可以包括若干步驟。在 一個示例性實施例中,該為網(wǎng)絡(luò)上的文檔確定文檔相關(guān)性得分的方法包括以下步 驟存儲網(wǎng)絡(luò)上的文檔和關(guān)于文檔的鏈接信息;從文檔和鏈接信息生成網(wǎng)絡(luò)表示, 其中該網(wǎng)絡(luò)表示包括表示文檔的節(jié)點和表示鏈接的邊;把偏離點擊距離值(CZ)》 分配給網(wǎng)絡(luò)上的至少兩個節(jié)點,其中被分配了偏離點擊距離值的節(jié)點是權(quán)威節(jié)點; 為該網(wǎng)絡(luò)表示中的每個非權(quán)威節(jié)點計算偏離點擊距離,其中給定非權(quán)威節(jié)點的偏離 點擊距離是從給定非權(quán)威節(jié)點到最接近該給定非權(quán)威節(jié)點的權(quán)威節(jié)點來測量的,其 中該計算步驟得到每個非權(quán)威文檔的計算的偏離點擊距離值(CDC);以及使用每 個文檔的偏離點擊距離值(即CZ)力或CDc)來確定網(wǎng)絡(luò)上的給定文檔的文檔相關(guān)性得分。存儲網(wǎng)絡(luò)上的諸文檔和關(guān)于文檔的鏈接信息的步驟可以由計算系統(tǒng)上常見的 索引應(yīng)用程序代碼來執(zhí)行。該索引應(yīng)用程序代碼從文檔和鏈接信息中生成網(wǎng)絡(luò)表 示,其中該網(wǎng)絡(luò)表示包括表示文檔的節(jié)點和表示鏈接的邊。此類網(wǎng)絡(luò)表示通常被稱為"網(wǎng)圖(web graph)"。生成網(wǎng)圖的一個示例性方法包括使用由一過程收集的 數(shù)據(jù),在該過程中,鏈接和定位點文本信息被收集,且被歸因于該定位點的具體目 標(biāo)文檔。這一過程和定位點文本的概念在于2004年8月30日提交的題為"SYSTEMAND METHOD FOR INCORPORATING ANCHOR TEXT INTO RANKING SEARCH RESULTS (用于將定位點文本結(jié)合到排序搜索結(jié)果中的系統(tǒng)和方法)" 的美國專利申請第10/955,462號中更完全地描述,該申請的主題通過引用而整體結(jié) 合于此。圖3描述了標(biāo)識網(wǎng)絡(luò)空間中的諸文檔以及諸文檔之間的鏈接的示例性網(wǎng)圖。 如圖3所示,示例性網(wǎng)圖30包括節(jié)點31和邊32,其中節(jié)點31表示給定網(wǎng)絡(luò)空間 (例如,公司的內(nèi)聯(lián)網(wǎng))中的每個文檔,邊32表示給定網(wǎng)絡(luò)空間中的諸文檔之間 的鏈接。應(yīng)該理解,示例性網(wǎng)圖30是給定網(wǎng)絡(luò)空間的過度簡化的表示。通常,給 定網(wǎng)絡(luò)空間可以包括數(shù)百、數(shù)千或數(shù)百萬的文檔和數(shù)百、數(shù)千或數(shù)百萬的把文檔相 互連接起來的鏈接。此外,盡管示例性網(wǎng)圖30描述多達八個被連接到給定節(jié)點(例 如,中心節(jié)點33)的鏈接,但是應(yīng)該理解,在實際的網(wǎng)絡(luò)設(shè)置中,給定節(jié)點可以 具有把節(jié)點(例如,文檔)連接到網(wǎng)絡(luò)中的數(shù)百個其他文檔的數(shù)百個鏈接(例如, 網(wǎng)絡(luò)的主頁可以被鏈接到網(wǎng)絡(luò)中的每個頁面)。另外,示例性網(wǎng)圖30示出極少的循環(huán)(例如,第一節(jié)點鏈接到第二節(jié)點,第 二節(jié)點可以鏈接到另外的節(jié)點,其中第二節(jié)點或另外的節(jié)點的其中之一鏈接回到第 一節(jié)點)。 一個此類循環(huán)由圖3中的節(jié)點41和42表示。如果任何結(jié)束節(jié)點40鏈 接回到圖3中所示出的任一其他節(jié)點,如中心節(jié)點33,則表示其他循環(huán)。不管給 定網(wǎng)圖簡單還是復(fù)雜,所公開的為給定文檔生成文檔相關(guān)性得分的方法可以在任何 網(wǎng)圖上使用,包括那些包含循環(huán)的網(wǎng)圖。一旦網(wǎng)圖已經(jīng)被生成,可以使用一種或多種技術(shù)來影響網(wǎng)絡(luò)空間中的由網(wǎng)圖 的節(jié)點表示的一個或多個文檔的相對重要性。如以上和以下所討論的,這些技術(shù)包 括但不限于,(i)把兩個或多個節(jié)點指定為權(quán)威節(jié)點;(ii)向每一權(quán)威節(jié)點分配 一偏離點擊距離值(CZ)》,(iii)可任選地,分配相互不同的兩個或多個偏離點 擊距離值(CD》;(iv)將邊值分配給網(wǎng)圖的每條邊;(v)可任選地,將最小 邊值分配給網(wǎng)圖的每條邊,其中最小邊值大于最大或最高的分配的偏離點擊距離值(CA4,) ; (Vi)可任選地,分配相互不同的兩個或多個邊值;(Vii)為每個非 權(quán)威節(jié)點計算偏離點擊距離值(CDc);以及(Viii)可任選地,如果使用偏離點擊距離值的測試查詢生成不相關(guān)的搜索結(jié)果,則在有必要時,降級偏離點擊距離值(CZ^或CDc)中的任一個。以上所描述的用于影響由示例性網(wǎng)圖30表示的網(wǎng)絡(luò) 中的一個或多個文檔的偏離點擊距離值的示例性技術(shù)中的某一些在圖3中示出。 在示例性網(wǎng)圖30中,具有正方形的節(jié)點31用來標(biāo)識網(wǎng)絡(luò)中的權(quán)威節(jié)點,而具有圓形的節(jié)點31用來標(biāo)識非權(quán)威節(jié)點。應(yīng)該理解,取決于包括但不限于網(wǎng)絡(luò)空 間中的文檔總數(shù)以及網(wǎng)絡(luò)空間中"重要"文檔的數(shù)目的多個因素,給定網(wǎng)圖中任意數(shù)量的節(jié)點可以被指定為權(quán)威節(jié)點。在示例性網(wǎng)圖30中,104個節(jié)點中的9個被 指定為權(quán)威節(jié)點(即,將104個文檔中的9個表示為特別重要)。此外,盡管在示例性網(wǎng)圖30上未示出,但每一節(jié)點對31之間的邊32具有與 其關(guān)聯(lián)的邊權(quán)重。通常,每條邊32具有為1的默認(rèn)邊權(quán)重;然而,如以上所討論 的,除1之外的邊權(quán)重可以被分配給每條邊32。此外,在某些實施例中,兩個或 多個不同的邊權(quán)重可以被分配給同一網(wǎng)圖中的各邊。在圖3中,在示例性網(wǎng)圖30 上示出的字母p、《、r、 s和Z被用來指示邊32中的某一些的邊值。如以上所討論 的,邊值p、《、r、 s和Z可以具有為1的值、除1之外的值和/或相互不同的值, 以便于進一步影響示例性網(wǎng)圖30中的節(jié)點31的偏離點擊距離值。通常,p、《、r、 s和f以及示例性網(wǎng)圖30中的其他邊的邊值為相同的數(shù)字,并通常等于或大于1。 在某些實施例中,p、《、r、 s和?以及示例性網(wǎng)圖30中的其他邊的邊值是相同的 數(shù)字,并且等于或大于被分配給權(quán)威節(jié)點的最高偏離點擊距離值。用來修改網(wǎng)圖以便影響網(wǎng)絡(luò)上的文檔的偏離點擊距離的一種或多種技術(shù)可以 由系統(tǒng)管理員手動啟動并執(zhí)行。系統(tǒng)管理員可以查看給定網(wǎng)圖并根據(jù)需要編譯該網(wǎng) 圖,以如上所述增加或減小網(wǎng)絡(luò)空間中的一個或多個文檔的相對重要性。如能夠進 行搜索査詢的計算系統(tǒng)中的應(yīng)用程序代碼等應(yīng)用程序代碼可以使用上述技術(shù)中的 一種或多種來自動產(chǎn)生網(wǎng)圖中的偏離(例如,為每個非權(quán)威節(jié)點計算偏離點擊距離 值(CA:))。圖4A-4B表示一邏輯流程圖,該邏輯流程圖示出為網(wǎng)圖上的節(jié)點分配并生成 偏離點擊距離值的示例性方法中的示例性步驟,隨后是由系統(tǒng)管理員進行的可任選 降級過程。如圖4A所示,示例性方法401在框402處開始并前進到步驟403。在 步驟403中,從網(wǎng)絡(luò)空間中總共W個節(jié)點(或URL)中選擇若干權(quán)威節(jié)點(或URL)。 在示例性方法401中,選擇w個權(quán)威節(jié)點(或URL),其中m大于或等于2。 一 旦選擇了權(quán)威節(jié)點(或URL),示例性方法401前進到判定框404。在判定框404處,由系統(tǒng)管理員做出是否把至少兩個不同的偏離點擊距離值 (CD》分配給m個權(quán)威節(jié)點(或URL)中的兩個或多個的判斷。如果做出把至 少兩個不同的偏離點擊距離值(CD》分配給w個權(quán)威節(jié)點(或URL)中的兩個 或多個的判定,則示例性方法401前進到步驟405,將至少兩個不同的偏離點擊距 離值(CD》分配給m個權(quán)威節(jié)點(或URL)中的兩個或多個。例如,參見在圖3中所示的示例性網(wǎng)圖30,可以向權(quán)威節(jié)點33和34分配為0的偏離點擊距離值, 可以向權(quán)威節(jié)點35和36分配為+3的偏離點擊距離值,可以向權(quán)威節(jié)點48分配為 十2的偏離點擊距離值。從步驟405,示例性方法401前進到判定框407。返回到判定框404,如果做出不把至少兩個不同的偏離點擊距離值(CD》分 配給w個權(quán)威節(jié)點(或URL)中的兩個或多個的判定,則示例性方法401前進到 步驟406,將相同的偏離點擊距離值(CZX4)分配給m個權(quán)威節(jié)點(或URL)中 的每一個。例如,再次參見圖3的示例性網(wǎng)圖30,可以向每個權(quán)威節(jié)點分配一偏 離點擊距離值,如0、 +2或+5。從步驟406,示例性方法401前進到判定框407。在判定框407處,由系統(tǒng)管理員或應(yīng)用程序代碼做出是否把除1之外的邊權(quán) 重分配給網(wǎng)圖的一條或多條邊的判斷。如果做出把除1之外的邊權(quán)重分配給網(wǎng)圖的 一條或多條邊的判定,則示例性方法401前進到判定框408。在判定框408處,由 系統(tǒng)管理員做出是否把最小邊值分配給網(wǎng)圖的邊的判斷,其中最小邊值大于最大的 分配的邊偏離點擊距離值(CZ^,)。如果做出把最小邊值分配給網(wǎng)圖的邊的判定, 其中最小邊值大于最大的分配的邊偏離點擊距離值(CDiw),則示例性方法401 前進到步驟409,將大于最大的分配的邊偏離點擊距離值(CA^?!返淖钚∵呏捣?配給網(wǎng)圖的每條邊。例如,參見在圖3中所示的示例性網(wǎng)圖30,如果向權(quán)威節(jié)點 33分配最大點擊距離值(CA^w)且CA^^等于+3,則將大于+3的最小邊值分配 給圖3中示出的每條邊32。在某些實施例中,將大于最大的分配的值偏離點擊距離值(CZ)^。》的最小 邊值應(yīng)用于網(wǎng)圖中的每條邊可能有一些好處。在這一實施例中,這樣的技術(shù)保證每 個權(quán)威節(jié)點(或文檔或URL)的分配的偏離點擊距離值(CA^)小于網(wǎng)圖中每個非 權(quán)威節(jié)點(或文檔或URL)的計算的偏離點擊距離值(CDc)。當(dāng)文檔的重要性 是基于較低的偏離點擊距離值時,這樣的技術(shù)使得所有權(quán)威節(jié)點(或文檔或URL) 能夠被認(rèn)為是比網(wǎng)圖中的非權(quán)威節(jié)點(或文檔或URL)更重要。從步驟409,示例性方法401前進到在圖4B中示出并在下面描述的判定框 410。返回到判定框408,如果做出不把最小邊值分配給每條邊的判定,其中最小 邊值大于最大的分配的邊偏離點擊距離值(CA^。》,則示例性方法401直接前進 到圖4B中所示并在下面描述的判定框410。在這一實施例中,對非權(quán)威節(jié)點來說 可能有小于權(quán)威節(jié)點的偏離點擊距離值(即,被認(rèn)為比權(quán)威節(jié)點更重要,其中文檔 的重要性是基于較低的偏離點擊距離值)。例如,參見圖3的示例性網(wǎng)圖30,如 果向權(quán)威節(jié)點34分配為+3的偏離點擊距離值,向權(quán)威節(jié)點48分配為0的偏離點擊距離值,并且邊值S為+ 1 ,則非權(quán)威節(jié)點39有為+ 1的計算的偏離點擊距離值(即,最接近的權(quán)威節(jié)點48的分配的偏離點擊距離值、0、和邊值s即+l之和)。在圖4B中所示出的判定框410處,由系統(tǒng)管理員做出是否把至少兩個不同的 邊值分配給網(wǎng)圖的兩條或多條邊的判斷。如果做出把至少兩個不同的邊值分配給網(wǎng) 圖的兩條或多條邊的判定,則示例性方法401前進到步驟411,其中把至少兩個不 同邊值分配給網(wǎng)圖的兩條或多條邊。例如,參見在圖3中所示的示例性網(wǎng)圖30, 邊值p、《、r、 s和f中的任何兩個可以被分配至少兩個不同的數(shù)字。從步驟411, 示例性方法401前進到在下面描述的步驟414。返回到判定框410,如果做出不把至少兩個不同的邊值分配給網(wǎng)圖的兩條或多 條邊的判定,則示例性方法401前進到步驟412,把相同的邊值分配給網(wǎng)圖的每條 邊,且該邊值是除l之外的值。例如,參見在圖3中所示的示例性網(wǎng)圖30,向邊 值p、《、r、 s和?中的每一個分配相同的數(shù)字和除l之外的數(shù)字。從步驟412,示 例性方法401前進到在下面描述的步驟414。返回到在圖4A中所示的判定框407,如果做出不把一邊權(quán)重分配給網(wǎng)圖的一 條或多條邊的判定,則示例性方法401前進到步驟413,對網(wǎng)圖的每條邊使用默認(rèn) 邊值(例如,+1),以使得網(wǎng)圖的邊對計算的偏離點擊距離值具有最小的影響。 在這一實施例中,諸如權(quán)威節(jié)點的個數(shù)和位置等因素對計算的偏離點擊距離值具有 比默認(rèn)邊值更大的影響。從步驟413,示例性方法401前進到在圖4B中所示出的 步驟4M。在步驟414,計算非權(quán)威節(jié)點(或文檔或URL)的偏離點擊距離值(CDc)。 如在下面更詳細(xì)地描述的,直接鏈接到權(quán)威節(jié)點的給定目標(biāo)節(jié)點(即非權(quán)威節(jié)點) 的偏離點擊距離值(CZ)Cto^,)可以使用以下公式來計算CIWg" = min(CD^顯(+五(igCg的,其中CD^。^表示最接近目標(biāo)節(jié)點的權(quán)威節(jié)點的分配的偏離點擊距離值;而^/ge,/g似(在此也被稱為五c/ge^/we)表示被分配給將最接近的權(quán)威節(jié)點鏈接到 目標(biāo)節(jié)點的邊的邊權(quán)重。min(x)函數(shù)被用來指示例如如果給定節(jié)點直接鏈接到兩個 權(quán)威節(jié)點,則對該給定節(jié)點使用最小的計算的偏離點擊距離值。除直接鏈接到權(quán)威 節(jié)點的節(jié)點之外的給定目標(biāo)節(jié)點(即非權(quán)威節(jié)點)的偏離點擊距離值(CZ)。。^,) 可以使用以下公式來計算CDcwge,= min(CDc幽+五咖脂g的, 其中CDo^表示具有最低的計算的偏離點擊距離值的相鄰節(jié)點的計算的偏離點擊距離值;而五倉e,/gfe表示被分配給將具有最低的計算的偏離點擊距離值的 相鄰節(jié)點和目標(biāo)節(jié)點邊鏈接起來的邊的邊值或邊權(quán)重。從步驟414,示例性方法401 前進到步驟415。在步驟415,由系統(tǒng)管理員測試所得到的偏離點擊距離值,即分配的偏離點擊 距離值(CZ)》和計算(CDc)的偏離點擊距離值。通常,系統(tǒng)管理員使用所得到 的偏離點擊距離值(分配的(CDA)和計算的(CDC))通過執(zhí)行一個或多個搜 索査詢來測試系統(tǒng)。如果系統(tǒng)管理員注意到明顯不相關(guān)的內(nèi)容返回,則系統(tǒng)管理員 可以使用上述偏離工具/技術(shù)來降級生成不相關(guān)內(nèi)容的一個或多個站點,例如檔案 文檔夾或網(wǎng)站。上述測試允許系統(tǒng)管理員評估偏離點擊距離值以發(fā)現(xiàn)(i)網(wǎng)絡(luò)空 間中的給定文檔的實際重要性和(ii)如由文檔的偏離點擊距離值所指示的其重要 性之間的可能的不一致性。從步驟415,示例性方法401前進到判定框416。在判定框416處,由系統(tǒng)管理員做出是否降級任何偏離點擊距離值以便更接 近地表示網(wǎng)絡(luò)空間中的給定文檔的重要性的判斷。如果做出降級一個或多個偏離點 擊距離值以便更接近地表示網(wǎng)絡(luò)空間中的給定文檔的重要性的判定,則示例性方法 401前進到步驟417,正向或負(fù)向地調(diào)整一個或多個文檔(或URL)的偏離點擊距 離值。從步驟417,示例性方法401前進到步驟418。返回到判定框416,如果做出不降級一個或多個偏離點擊距離值以便更接近地 表示網(wǎng)絡(luò)空間中的給定文檔的重要性的判定,則示例性方法401直接前進到步驟 418。在步驟418中,在排序函數(shù)中利用被分配給權(quán)威節(jié)點并為非權(quán)威節(jié)點計算的 偏離點擊距離值來為網(wǎng)絡(luò)空間中的每個文檔確定總體文檔相關(guān)性得分。從步驟 418,示例性方法401前進到結(jié)束框419。如上面所討論的,網(wǎng)圖上的非權(quán)威節(jié)點(或URL)的偏離點擊距離值(CZ)C) 是基于也被稱為"目標(biāo)節(jié)點"的給定非權(quán)威節(jié)點(或URL)與最接近的權(quán)威節(jié)點 (或URL)之間的最短距離來計算的。在圖5A-5B中描述了用于為網(wǎng)絡(luò)空間中的 非權(quán)威URL計算偏離點擊距離值(C£ c)的一個示例性過程。圖5A-5B示出用于為網(wǎng)絡(luò)空間中的非權(quán)威URL計算偏離點擊距離值(CDc) 的示例性過程40的邏輯流程圖。示例性過程40從框4140開始并前進到步驟4141 , 將包括(i)帶有其分配的偏離點擊距離值(CD》的權(quán)威節(jié)點、(ii)非權(quán)威節(jié)點、 (iii)節(jié)點之間的鏈接、以及(iv)每一鏈接的邊值的網(wǎng)圖從數(shù)據(jù)庫載入到存儲器 中。(例如,見圖3的示例性網(wǎng)圖30)。該網(wǎng)圖可能先前已經(jīng)使用如上所述的索 引過程來生成。從步驟4141,示例性過程40前進到步驟4142。在步驟4142中,非權(quán)威節(jié)點的偏離點擊距離值(CD—被初始化成最大偏離點擊距離值,如無窮大。將最大偏離點擊距離值,如無窮大分配給非權(quán)威節(jié)點標(biāo)識了需要計算其偏離點擊距離值(CDC)的節(jié)點。 一旦完成最大偏離點擊距離值的初 始化,示例性過程40前進到步驟4143。在步驟4143中,將w個權(quán)威節(jié)點插入到一隊列中。插入到隊列中的m個權(quán) 威節(jié)點對應(yīng)于網(wǎng)絡(luò)空間中由系統(tǒng)管理員或某一其他系統(tǒng)決定者預(yù)先確定的m個最 權(quán)威節(jié)點。一旦m個權(quán)威節(jié)點被添加到隊列中,示例性過程40前進到判定框4144。在判定框4144處,由應(yīng)用程序代碼做出隊列是否為空的判斷??贞犃斜硎揪W(wǎng) 圖的所有節(jié)點已經(jīng)(i)獲得分配的偏離點擊距離值(CD》或(ii)計算了其偏離 點擊距離值(CZ)c)。如果隊列為空,則示例性過程40前進到結(jié)束框4145,在那 里示例性過程40結(jié)束。然而,如果隊列不為空,則示例性過程40繼續(xù)到步驟4146。在步驟4146中,從隊列中移除具有最小偏離點擊距離值(即CZ^或CZ)c)的 節(jié)點。這一節(jié)點在此被稱為"當(dāng)前節(jié)點"。在通過示例性過程40的第一次迭代期 間,具有最小的分配的偏離點擊距離值(即CA^,")的權(quán)威節(jié)點是當(dāng)前節(jié)點。在通 過示例性過程40的后續(xù)的迭代期間,具有最小偏離點擊距離值的節(jié)點可以是權(quán)威 節(jié)點或非權(quán)威節(jié)點。在通過示例性過程40的最后一次迭代期間,具有最小的分配 的偏離點擊距離值的節(jié)點將通常是非權(quán)威節(jié)點。一旦從隊列中移除了具有最小偏離 點擊距離值(即CZ^或CZ)c)的節(jié)點,示例性過程40前進到判定框4147。在判定框4147,由應(yīng)用程序代碼做出當(dāng)前節(jié)點是否有任何目標(biāo)節(jié)點的判斷。 在此所使用的術(shù)語"目標(biāo)節(jié)點"或"諸目標(biāo)節(jié)點"是指鏈接到當(dāng)前節(jié)點的一個或多 個節(jié)點。如果當(dāng)前節(jié)點沒有任何目標(biāo)節(jié)點,則示例性過程40返回到判定框4144, 以再次判定隊列是否為空,然后如上面所討論的那樣前進。然而,如果當(dāng)前節(jié)點具 有一個或多個目標(biāo)節(jié)點,則示例性過程40前進到步驟4148。在步驟4148中,從網(wǎng)圖檢索與當(dāng)前節(jié)點關(guān)聯(lián)的目標(biāo)節(jié)點并對其進行評估。例 如,參見圖3的示例性網(wǎng)圖30,如果權(quán)威節(jié)點48是當(dāng)前節(jié)點(即具有最小偏離點 擊距離值的節(jié)點),則非權(quán)威節(jié)點39中的任一個可以是目標(biāo)節(jié)點(即,鏈接到權(quán) 威節(jié)點48并且初始偏離點擊距離值被設(shè)為無窮大的節(jié)點)。 一旦選擇了當(dāng)前節(jié)點 和目標(biāo)節(jié)點,示例性過程40前進到判定框4149。在判定框4149處,由應(yīng)用程序代碼做出與目標(biāo)節(jié)點偏離點擊距離值相關(guān)聯(lián)的 點擊距離是否大于當(dāng)前節(jié)點的偏離點擊距離值加上將當(dāng)前節(jié)點連接到目標(biāo)節(jié)點的 邊的邊權(quán)重值的判斷。如果做出目標(biāo)節(jié)點偏離點擊距離值大于當(dāng)前節(jié)點的偏離點擊距離值加上將當(dāng)前節(jié)點連接到目標(biāo)節(jié)點的邊的邊權(quán)重值的判斷,則示例性過程40前進到步驟4150 (在圖5B中示出),將目標(biāo)節(jié)點偏離點擊距離值更新為等于當(dāng)前節(jié)點的偏離點擊距離值加上將當(dāng)前節(jié)點連接到目標(biāo)節(jié)點的邊的邊權(quán)重值。在通過示例性過程40的第一次迭代期間,所有目標(biāo)節(jié)點將初始目標(biāo)節(jié)點偏離 點擊距離值設(shè)成無窮大。結(jié)果,示例性過程40將前進到步驟4150,如上所述地更 新目標(biāo)節(jié)點的偏離點擊距離值。然而,在通過示例性過程40的后續(xù)迭代中,所選 擇的目標(biāo)節(jié)點例如可以將初始目標(biāo)節(jié)點偏離點擊距離值設(shè)成無窮大(示例性過程 40將前進到步驟4150),或者可以具有先前由系統(tǒng)管理員配置的偏離點擊距離值 (例如,目標(biāo)節(jié)點是權(quán)威節(jié)點)。從步驟4150,示例性過程40前進到步驟4151。在步驟4151,將當(dāng)前節(jié)點和具有已更新的目標(biāo)節(jié)點偏離點擊距離值的目標(biāo)節(jié) 點兩者添加到隊列中。從步驟4150,示例性過程40返回到判定框4146 (在圖5A 中示出)并如上所述地繼續(xù)。返回到判定框4149 (在圖5A中示出),如果做出目標(biāo)節(jié)點偏離點擊距離值 不大于當(dāng)前節(jié)點的偏離點擊距離值加上將當(dāng)前節(jié)點連接到目標(biāo)節(jié)點的邊的邊權(quán)重 值的判斷,則(0目標(biāo)節(jié)點保持其計算的目標(biāo)節(jié)點偏離點擊距離值,(ii)目標(biāo)節(jié) 點仍保留在隊列之外,以及(m)示例性過程40返回到判定框4147 (在圖5A中 示出),做出當(dāng)前節(jié)點具有任何其他目標(biāo)節(jié)點的判斷。如果做出當(dāng)前節(jié)點沒有另一 目標(biāo)節(jié)點的判斷,則示例性過程40返回到判定框4144并如上所述地繼續(xù)。如果做 出當(dāng)前節(jié)點具有另一 目標(biāo)節(jié)點的判斷,則示例性過程40返回到步驟4148并如上所 述地繼續(xù)。當(dāng)示例性過程40返回到步驟4148時,如上所述地選擇并評估與當(dāng)前節(jié)點相 關(guān)聯(lián)的另一目標(biāo)節(jié)點。如果所選擇的目標(biāo)節(jié)點在以前沒有被選擇過,則該目標(biāo)節(jié)點 將偏離點擊距離值設(shè)成無窮大,且示例性過程40將如上所述地前進到步驟4150。上述將偏離點擊距離值提供給網(wǎng)圖上的所有節(jié)點的示例性方法防止在該偏離 點擊距離值低于當(dāng)前節(jié)點的偏離點擊距離值加上將目標(biāo)節(jié)點鏈接到當(dāng)前節(jié)點的邊 的邊值的情況下給定目標(biāo)節(jié)點的偏離點擊距離值被改變。一旦確定并在需要時可任選地降級(或可任選地升級)了給定網(wǎng)圖的所有節(jié) 點,則可將每個文檔的偏離點擊距離值用作排序函數(shù)中的參數(shù),以提供每個文檔的 文檔相關(guān)性得分。這一文檔相關(guān)性得分可以被用來對搜索査詢的搜索結(jié)果排序。使 用包含偏離點擊距離值參數(shù)的排序函數(shù)來對搜索結(jié)果排序的示例性方法在圖6中 示出。法20中的示例性步驟的邏輯流程圖,其中示例性方 法20包括使用包含偏離點擊距離值參數(shù)的排序函數(shù)來對搜索結(jié)果排序的方法。如圖6所示,示例性方法20在框201處開始并前進到步驟202。在步驟202中,用 戶通過輸入搜索查詢來請求搜索。在步驟202之前,先前已經(jīng)計算了網(wǎng)絡(luò)上的每個 文檔的偏離點擊距離值。從步驟202,示例性方法20前進到步驟203。在步驟203中,將網(wǎng)絡(luò)上的每個文檔的偏離點擊距離值與儲存在索引中的每 一文檔的任何其他文檔統(tǒng)計量(例如,查詢無關(guān)統(tǒng)計量)合并。將偏離點擊距離值 與其他文檔統(tǒng)計量合并允許更快的查詢響應(yīng)時間,因為涉及排序的所有信息都被聚 集在一起。因此,在索引中列出的每個文檔具有合并之后的相關(guān)聯(lián)的偏離點擊距離 值。 一旦完成合并,示例性方法20前進到步驟204。在步驟204中,提供包括偏離點擊距離值的給定文檔的查詢無關(guān)文檔統(tǒng)計量 作為排序函數(shù)的分量。還為給定文檔提供查詢相關(guān)數(shù)據(jù),通常作為排序函數(shù)的一單 獨分量。排序函數(shù)的查詢相關(guān)數(shù)據(jù)或內(nèi)容相關(guān)部分依賴于實際搜索項和給定文檔的 內(nèi)容。在一個實施例中,排序函數(shù)包括至少一個査詢相關(guān)(QD)分量和至少一個查 詢無關(guān)(QID)分量之和,例如/享分=QD(文教,產(chǎn)^) +QD分量可以是任何文檔評分函數(shù)。在一個實施例中,QD分量對應(yīng)于在2004 年3月18日提交的題為"FIELD WEIGHTING IN TEXT DOCUMENT SEARCHING (文本文檔搜索中的字段加權(quán))"的美國專利申請第10/804,326號中描述的字段加 權(quán)評分函數(shù),該申請的主題通過引用而整體結(jié)合于此。如美國專利申請第10/804, 326號中所提供的,可以用作字段加權(quán)平分函數(shù)的表示的一個方程如下其中wf/表示加權(quán)項頻率或搜索査詢中的給定項的項頻率之和乘以所有字段(例 如,文檔的標(biāo)題、正文等等)上的權(quán)重,并根據(jù)每個字段的長度和相應(yīng)的平均長度 來歸一化,W表示網(wǎng)絡(luò)上的文檔數(shù)目,"表示包含查詢項的文檔數(shù)目,以及^是可調(diào)整常數(shù)。在美國專利申請第10/804, 326號中進一步描述了上述項和方程,該申請的主題通過引用而整體結(jié)合于此。QID分量可以是給定文檔的偏離點擊距離值和其他文檔統(tǒng)計量(如URL深度) 的任何變換。在一個實施例中,QID分量包括如下函數(shù)= -^-其中MW表示查詢無關(guān)分量,如包含偏離點擊距離參數(shù)的分量的權(quán)重, ZW表示偏離點擊距離相對于URL深度的的權(quán)重, Zw表示URL深度的權(quán)重,CZ)表示文檔的計算的點擊距離或分配的偏離點擊距離, 々,表示通過優(yōu)化排序函數(shù)的精度來確定的調(diào)整常數(shù),類似于其他調(diào)整參數(shù) (即,^w可以表示當(dāng)所有邊具有相同的邊權(quán)重值時的邊權(quán)重值,或者^U可以表示 當(dāng)邊權(quán)重值相互不同時的平均邊值), t/D表示URL深度,以及 ^/是偏離點擊距離飽和常數(shù)。加權(quán)項(Wd、 Zw和&》協(xié)助定義其每一相關(guān)項(即,分別包含偏離點擊距 離參數(shù)、給定文檔的偏離點擊距離值以及給定文檔的URL深度的分量)的重要性, 并最終定義評分函數(shù)的結(jié)果。URL深度(UD)是對上述查詢無關(guān)組件的可選附加,以平滑偏離點擊距離值 對評分函數(shù)的影響。例如,在某些情況中,不是非常重要(即具有大URL深度) 的文檔可能具有短的偏離點擊距離值。URL深度由文檔的URL的斜杠數(shù)目表示。 例如,www.example.com\dl\d2\d3\d4.htm包括四個斜杠,因此具有為4的URL深 度。然而,該文檔可能具有直接來自主頁www.example.com的鏈接,這給予其相 對低的偏離點擊距離值。在上述函數(shù)中包括URL深度項以及針對偏離點擊距離值 來加權(quán)URL深度項補償了相對高的偏離點擊距離值,以更準(zhǔn)確地反映網(wǎng)絡(luò)中的文 檔的重要性。取決于網(wǎng)絡(luò),為3或更多的URL深度可以被認(rèn)為是深鏈接。在一個實施例中,用來確定給定文檔的文檔相關(guān)性得分的排序函數(shù)包括如下函數(shù)淳分^7、 卞, log(二) + w'其中諸項為如上所描述的。在其他實施例中,可以從排序函數(shù)中移除URL深度,或者可以向排序函數(shù)添 加其他分量,以改進查詢相關(guān)分量、查詢無關(guān)分量或兩者的準(zhǔn)確度。此外,上述包 含偏離點擊距離參數(shù)的查詢無關(guān)分量可以被結(jié)合到其他排序函數(shù)(未示出)中,以 改進搜索結(jié)果的排序。一旦在步驟204中將給定文檔的文檔統(tǒng)計量提供給排序函數(shù),示例性方法20 前進到步驟205。在步驟205中,對給定文檔確定文檔相關(guān)性得分、將其存儲在存 儲器中、并將其與該給定文檔相關(guān)聯(lián)。從步驟205,示例性方法20前進到判定框 206。在判定框206處,由應(yīng)用程序代碼做出是否已經(jīng)為網(wǎng)絡(luò)中的每個文檔計算了 文檔相關(guān)性得分的判斷。如果做出還沒有為網(wǎng)絡(luò)中的每個文檔計算文檔相關(guān)性得分 的判斷,則示例性方法20返回到步驟204并如上所述地繼續(xù)。如果做出已經(jīng)為網(wǎng) 絡(luò)中的每個文檔計算了文檔相關(guān)性得分的判斷,則示例性方法20前進到步驟207。在步驟207中,根據(jù)其關(guān)聯(lián)的文檔相關(guān)性得分對包括多個文檔的査詢的搜索 結(jié)果排序。所得到的文檔相關(guān)性得分考慮了網(wǎng)絡(luò)中的每個文檔的偏離點擊距離值。 一旦搜索結(jié)果被排序,示例性方法20前進到步驟208,將排序的結(jié)果顯示給用戶。 從步驟208,示例性方法20前進到步驟209,由用戶選擇并査看最高排序的結(jié)果。 從步驟209,示例性方法20前進到步驟210,在那里示例性方法20結(jié)束。除了為網(wǎng)絡(luò)中的文檔生成文檔相關(guān)性得分并使用該文檔相關(guān)性得分來對搜索 查詢的搜索結(jié)果排序的上述方法之外,在此也公開了其上存儲有用于執(zhí)行上述方法 的計算機可執(zhí)行指令的計算機可讀介質(zhì)。在此也公開了計算系統(tǒng)。 一個示例性計算系統(tǒng)包含可在該計算系統(tǒng)上使用的 至少一個應(yīng)用程序模塊,其中該至少一個應(yīng)用程序模塊包括在其上載入的應(yīng)用程序 代碼,其中該應(yīng)用程序代碼執(zhí)行為網(wǎng)絡(luò)中的文檔生成文檔相關(guān)性得分的方法。該應(yīng) 用程序代碼可以使用上述其上存儲有用于為網(wǎng)絡(luò)中的文檔生成文檔相關(guān)性得分并 使用文檔相關(guān)性得分來對搜索查詢的搜索結(jié)果排序的計算機可執(zhí)行指令的計算機 可讀介質(zhì)中的任一種被載入到計算系統(tǒng)中。盡管已經(jīng)相對于其具體實施例詳細(xì)描述了本說明書,然而應(yīng)該明白,本領(lǐng)域的技術(shù)人員在獲得并理解前述內(nèi)容之后可以容易地想到這些實施例的改變、變型和 等效方案。因此,所公開的方法、計算機可讀介質(zhì)和計算系統(tǒng)的范圍應(yīng)該被認(rèn)為是 所附權(quán)利要求書及其任何等效技術(shù)方案的范圍。
權(quán)利要求
1.一種其上存儲有用于對網(wǎng)絡(luò)上的文檔排序的計算機可執(zhí)行指令的計算機可讀介質(zhì),所述計算機可執(zhí)行指令利用包括一個或多個查詢無關(guān)分量的排序函數(shù),其中至少一個查詢無關(guān)分量包括偏離點擊距離參數(shù),所述偏離點擊距離參數(shù)考慮了所述網(wǎng)絡(luò)上的每個文檔的偏離點擊距離值。
2. 如權(quán)利要求1所述的計算機可讀介質(zhì),其特征在于, 一偏離點擊距離值被 分配給包括總共W個文檔的網(wǎng)絡(luò)上的w個權(quán)威文檔,其中m大于或等于2且小于 7V。
3. 如權(quán)利要求2所述的計算機可讀介質(zhì),其特征在于,所述分配的偏離點擊 距離值中的至少兩個相互不同。
4. 如權(quán)利要求1所述的計算機可讀介質(zhì),其特征在于,所述排序函數(shù)還包括 至少一個查詢無關(guān)分量,所述查詢無關(guān)分量包括考慮了所述網(wǎng)絡(luò)上的每條邊的邊值 的邊值參數(shù),其中一個或多個邊值是除l之外的數(shù)字。
5. 如權(quán)利要求4所述的計算機可讀介質(zhì),其特征在于,所述邊值彼此相等并 等于除l之外的數(shù)字。
6. 如權(quán)利要求4所述的計算機可讀介質(zhì),其特征在于,所述邊值彼此相等且 等于或大于最初被分配給一個或多個權(quán)威文檔的最高偏離點擊距離值。
7. 如權(quán)利要求4所述的計算機可讀介質(zhì),其特征在于,所述至少一個查詢無 關(guān)分量包括所述偏離點擊距離參數(shù)和所述邊值參數(shù)兩者。
8. 如權(quán)利要求1所述的計算機可讀介質(zhì),其特征在于,還包括用于將由所述 排序函數(shù)生成的得分分配給所述網(wǎng)絡(luò)上的每個文檔的計算機可執(zhí)行指令,所述得分 被用來以升序或降序?qū)ξ臋n排序。
9. 如權(quán)利要求7所述的計算機可讀介質(zhì),其特征在于,所述每個文檔的得分 是使用以下公式生成的淳分=Z , ,, x log(—) + W"--其中W/表示加權(quán)的項頻率,iV表示所述網(wǎng)絡(luò)上的文檔數(shù)目, "表示包含查詢項的文檔數(shù)目, W^表示查詢無關(guān)分量的權(quán)重, 6^表示點擊距離的權(quán)重,6^表示URL深度的權(quán)重,CD表示文檔的計算的點擊距離或分配的偏離點擊距離,^v表示與邊權(quán)重相關(guān)的調(diào)整常數(shù),M)表URL深度,以及Aw和^是常數(shù)。
10. 如權(quán)利要求1所述的計算機可讀介質(zhì),其特征在于,還包括用于接受由 用戶輸入的搜索査詢、進行對網(wǎng)絡(luò)上的文檔的搜索以生成包括多個文檔的搜索結(jié) 果、使用所述排序函數(shù)來對所述搜索結(jié)果的多個文檔排序以生成經(jīng)排序的搜索結(jié) 果、以及將所述經(jīng)排序的搜索結(jié)果顯示給用戶的計算機可執(zhí)行指令。
11. 一種計算系統(tǒng),所述計算系統(tǒng)包含可在所述計算系統(tǒng)上使用的至少一個 應(yīng)用程序模塊,其中所述至少一個應(yīng)用程序模塊包括從如權(quán)利要求1所述的計算機 可讀介質(zhì)載入到其上的應(yīng)用程序代碼。
12. —種為網(wǎng)絡(luò)上的文檔確定文檔相關(guān)性得分的方法,所述方法包括以下步驟儲存網(wǎng)絡(luò)上的文檔以及關(guān)于文檔的鏈接信息;從所述文檔和鏈接信息生成所述網(wǎng)絡(luò)的表示,所述網(wǎng)絡(luò)的表示包括表示所述 文檔的節(jié)點和表示所述鏈接的邊;向所述網(wǎng)絡(luò)上的至少兩個節(jié)點分配偏離點擊距離值,其中被分配了偏離點擊 距離值的節(jié)點是權(quán)威節(jié)點;為所述網(wǎng)絡(luò)表示種的非權(quán)威節(jié)點中的每一個計算點擊距離,其中給定非權(quán)威 節(jié)點的所述點擊距離是從所述給定非權(quán)威節(jié)點到最接近所述給定非權(quán)威節(jié)點的權(quán) 威節(jié)點測量的,所述計算步驟得到每個文檔的偏離點擊距離值;以及使用每個文檔的所述偏離點擊距離值來確定所述網(wǎng)絡(luò)上的給定文檔的文檔相 關(guān)性得分。
13. 如權(quán)利要求12所述的方法,其特征在于,至少兩個權(quán)威節(jié)點具有相互不 同的分配的偏離點擊距離值。
14. 如權(quán)利要求12所述的方法,其特征在于,還包括以下步驟將邊值分配所述表示中的每條邊,其中所述邊值等于或大于1。
15. 如權(quán)利要求14所述的方法,其特征在于,每個邊值大于被分配給所述權(quán) 威節(jié)點中的任一個的最高偏離點擊距離值。
16. 如權(quán)利要求12所述的方法,其特征在于,所述網(wǎng)絡(luò)上的每個文檔的文檔相關(guān)性得分是使用以下公式生成的<formula>formula see original document page 4</formula>其中W《表示加權(quán)的項頻率,AA表示網(wǎng)絡(luò)上的文檔數(shù)目,M表示包含查詢項的文檔數(shù)目,w^表示查詢無關(guān)分量的權(quán)重,6^表示點擊距離的權(quán)重,Z^表示URL深度的權(quán)重,CD表示文檔的計算的點擊距離或分配的偏離點擊距離, ^^表示與邊權(quán)重相關(guān)的調(diào)整常數(shù), t/D表URL深度,以及 》W和A是常數(shù)。
17. —種對網(wǎng)絡(luò)上的文檔排序的方法,所述方法包括以下步驟-使用如權(quán)利要求12所述的方法為所述網(wǎng)絡(luò)上的每個文檔確定文檔相關(guān)性得分;以及基于每個文檔的所述文檔相關(guān)性得分以降序?qū)λ鑫臋n排序。
18. —種對搜索查詢的搜索結(jié)果排序的方法,所述方法包括以下步驟 使用如權(quán)利要求12所述的方法來為所述搜索查詢的搜索結(jié)果中的每個文檔確定文檔相關(guān)性得分;以及基于每個文檔的所述文檔相關(guān)性得分以降序?qū)λ鑫臋n排序。
19. 一種其上存儲有用于執(zhí)行如權(quán)利要求12所述的方法的計算機可執(zhí)行指令 的計算機可讀介質(zhì)。
20. —種計算系統(tǒng),所述計算系統(tǒng)包含可在所述計算系統(tǒng)上使用的至少一個 應(yīng)用程序模塊,其中所述至少一個應(yīng)用程序模塊包括用于執(zhí)行一種為網(wǎng)絡(luò)上的文檔確定文檔相關(guān)性得分的方法的應(yīng)用程序代碼,所述方法包括以下步驟將偏離點擊距離值分配給所述網(wǎng)絡(luò)的表示上的至少兩個節(jié)點,其中被分配了偏離點擊距離值的所述節(jié)點是權(quán)威節(jié)點;為所述網(wǎng)絡(luò)的表示中的每個非權(quán)威節(jié)點計算點擊距離,其中給定非權(quán)威節(jié)點的所述點擊距離是從所述給定非權(quán)威節(jié)點到最接近所述給定非權(quán)威節(jié)點的權(quán)威節(jié)點測量的,所述計算步驟得到每個文檔的偏離點擊距離值;以及使用每個文檔的所述偏離點擊距離值來為所述網(wǎng)絡(luò)上的給定文檔確定所述文檔相關(guān)性得分。
全文摘要
公開了用于向網(wǎng)絡(luò)上的文檔提供文檔相關(guān)性得分的方法。還公開了其上存儲有用于執(zhí)行一種向網(wǎng)絡(luò)上的文檔提供文檔相關(guān)性得分的方法的計算機可執(zhí)行指令的計算機可讀介質(zhì)。此外還公開了包含至少一個應(yīng)用程序模塊的計算系統(tǒng),其中該至少一個應(yīng)用程序模塊包括用于執(zhí)行向網(wǎng)絡(luò)上的文檔提供文檔相關(guān)性得分的方法的應(yīng)用程序代碼。
文檔編號G06F17/30GK101243435SQ200680029645
公開日2008年8月13日 申請日期2006年8月15日 優(yōu)先權(quán)日2005年8月15日
發(fā)明者D·梅耶左, H·扎拉格扎 申請人:微軟公司