亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于文檔索引的非頻繁字索引的制作方法

文檔序號:6513889閱讀:204來源:國知局
專利名稱:用于文檔索引的非頻繁字索引的制作方法
技術(shù)領(lǐng)域
本發(fā)明通常涉及用于因特網(wǎng)搜索引擎的文檔索引領(lǐng)域,特別涉及一種對文檔中不經(jīng)常出現(xiàn)的字進行特別索引的索引方案。
背景技術(shù)
典型的文檔索引系統(tǒng)具有以逆置內(nèi)容索引形式安排的字出現(xiàn)數(shù)據(jù),所述內(nèi)容索引按文檔進行分隔。所述數(shù)據(jù)分布在多個索引存儲專用計算機系統(tǒng)上,每個計算機系統(tǒng)對經(jīng)索引的文檔總集合中的一個子集合進行處理。這就允許將一個字搜索查詢立刻呈現(xiàn)給許多計算機系統(tǒng),而每個計算機系統(tǒng)相對于該計算機系統(tǒng)所處理的文檔來處理所述查詢。
按文檔所分隔的逆置字位置索引通常比按字分隔的索引更加有效。這是因為當需要在多個字上排列命中率(rank hits)時,按字分隔會變得代價昂貴。在計算機系統(tǒng)之間有大量信息進行交換,而字就會在許多地方出現(xiàn)。因此,典型的文檔索引系統(tǒng)按文檔進行分隔。

發(fā)明內(nèi)容
一種用于非頻繁出現(xiàn)的字的非頻繁字索引與按文檔分隔的頻繁字索引被分別創(chuàng)建和維護,從而更好地利用存儲器和磁盤活動性,并允許更好的規(guī)模伸縮性。
一種索引系統(tǒng),使得對含有對應(yīng)于用戶查詢的字的文檔的搜索更加便利。該索引系統(tǒng)識別出出現(xiàn)率低于文檔閾值數(shù)目的非頻繁字,并通過將非頻繁字映射到含有這些字的文檔的位置來維護非頻繁字索引。一種頻繁字索引通過映射含有超過文檔閾值數(shù)目的出現(xiàn)率的字的文檔位置來單獨維護。當該索引系統(tǒng)用于搜索用戶查詢中的字時,該系統(tǒng)檢測該查詢中的非頻繁字,并掃描這些非頻繁字索引以找出含有該非頻繁字的文檔位置。
非頻繁字索引可以以不同于頻繁字索引的方式進行存儲和分隔。非頻繁字索引可以存儲在專用的計算機系統(tǒng)或跨多個計算機系統(tǒng)分布在專用分區(qū)中。
通過結(jié)合下述附圖的描述,本發(fā)明的這些目標、優(yōu)點和特征將更加詳細清楚。


通過附圖中的示例來說明本發(fā)明,并不是要將本發(fā)明局限于此。
圖1說明用于處理和安排數(shù)據(jù)庫查詢的系統(tǒng)的示例操作環(huán)境。
圖2是用于實踐本發(fā)明實施例的計算機系統(tǒng)體系框圖。
圖3是可用于本發(fā)明實施例的索引生成處理的功能框圖。
圖4是可用于本發(fā)明實施例的索引服務(wù)處理的功能框圖。
圖5是根據(jù)本發(fā)明實施例的索引方案的說明。
圖6是根據(jù)本發(fā)明實施例的索引方案的說明。
具體實施例方式
圖2說明索引引擎10的框圖,所述引擎的特點在于一種文檔索引系統(tǒng),該系統(tǒng)接受文檔數(shù)據(jù),并以字對文檔內(nèi)容進行索引。一種網(wǎng)絡(luò)排行器(webcrawler)235對因特網(wǎng)上由索引系統(tǒng)所索引的文檔進行訪問,并將該文檔數(shù)據(jù)傳送給索引構(gòu)造器(index builder)240,該構(gòu)造器對文檔進行分析,并提取字和字位置以便在索引服務(wù)行(index serving row)250中存儲。所述網(wǎng)絡(luò)排行器、索引構(gòu)造器、索引服務(wù)行維護和搜索引擎通常由計算機系統(tǒng)20(圖1)上執(zhí)行的軟件來構(gòu)造。所述計算機系統(tǒng)20依次通過通信連接和網(wǎng)絡(luò)與其他計算機系統(tǒng)耦合。
該索引服務(wù)行250可以作為計算機系統(tǒng)20的矩陣構(gòu)建,而每個計算機系統(tǒng)在一行中存儲了已經(jīng)被索引的文檔的子集的字位置。在索引服務(wù)行中計算機系統(tǒng)20的附加行可以把計算機系統(tǒng)中找到的數(shù)據(jù)拷貝存儲在第一行中,以允許對查詢的并行處理,并當計算機系統(tǒng)故障時進行備份。
非頻繁字索引如背景技術(shù)所述,按文檔進行分隔是一種構(gòu)建文檔索引的典型方法。而這種方法可以有效處理具有顯著出現(xiàn)次數(shù)的字(“頻繁”字),而對于不經(jīng)常出現(xiàn)的字(“非頻繁”字)會導致非有效區(qū)域例如緩沖和I/O開銷。例如,非頻繁字位于頻繁字之間,由于非頻繁字通常比頻繁字更少被查詢,使得對數(shù)據(jù)緩沖效率低下。當含有被較經(jīng)常查詢的頻繁字的存儲器頁移到存儲器中,非頻繁且因而較少使用的字包含在頁中,占據(jù)了昂貴的緩沖存儲器,且提供很少利益。
另一種將非頻繁字和頻繁字混合的壞處是在于磁盤I/O區(qū)域方面。查詢被分布給含有文檔的所有計算機系統(tǒng),并且每個計算機系統(tǒng)必須執(zhí)行I/O和搜索操作以檢索信息的較少字節(jié),如果存在的話。因此,分開地對一種非頻繁字索引和按文檔分隔的頻繁字索引進行創(chuàng)建和維護。這能更好地利用存儲器和磁盤活動性,并允許更好的規(guī)模伸縮性。
再次參照圖2,示出一種文檔搜索系統(tǒng)的計算機系統(tǒng)布局體系結(jié)構(gòu)10。當處理用戶的查詢和請求時,自動導航計算機系統(tǒng)215對該系統(tǒng)中的其他計算機系統(tǒng)的工作進行協(xié)調(diào)。排序計算模塊245跟蹤Web網(wǎng)站的流行程度并將該信息提供給網(wǎng)絡(luò)排行器235,該排行器基于已經(jīng)處理的Web網(wǎng)頁上存在的鏈接從因特網(wǎng)檢索文檔。索引構(gòu)造器240對由排行器235所檢索到的文檔中找到的字進行索引,并將數(shù)據(jù)傳送給一組索引服務(wù)行250以存儲所索引的信息。在此所述的實施例中,索引服務(wù)行包括十“行”或每行中五百臺計算機系統(tǒng)集合。經(jīng)索引的文檔跨一行中的五百臺計算機系統(tǒng)分布。這十行含有相同的索引數(shù)據(jù)并對彼此拷貝,以允許并行處理請求,并實現(xiàn)備份。索引器將任何有關(guān)非頻繁字的信息放置在專用分區(qū)或存儲非頻繁字索引的計算機系統(tǒng)(在索引服務(wù)行250中標記為“D”)中。該非頻繁字索引如圖2所示存儲字或如圖6(下面將詳細描述)所示按文檔進行存儲。
前端處理器220接受用戶的請求或查詢,并將查詢傳送給聯(lián)盟(federation)和高速緩沖服務(wù)器230,將查詢安排給合適的外部數(shù)據(jù)源,并訪問索引服務(wù)行250以對存儲的信息進行內(nèi)部搜索。查詢結(jié)果由聯(lián)盟和高速緩沖服務(wù)器230提供給前端處理器220,并且前端處理器220與用戶對接以便以合適的格式提供經(jīng)排序的結(jié)果。前端處理器220還特別通過監(jiān)測用戶選擇了哪些結(jié)果以對所提供的結(jié)果的相關(guān)性進行跟蹤。
圖3示出網(wǎng)絡(luò)排行器235、索引構(gòu)造器240和索引服務(wù)行250的功能性提供詳細描述的功能框圖。該排行器包括提取器(fetcher),從Web網(wǎng)絡(luò)提取文檔,并將這些要索引的文檔提供給索引構(gòu)造器240。在所索引的文檔261中找到的有關(guān)URL的信息提供給排行器235以提供給提取器236新站點來訪問。該排行器使用由排序計算模塊245的排序信息來對其訪問以檢索文檔的站點進行優(yōu)先排序。
要索引的文檔被排行器235傳送給索引構(gòu)造器240,該構(gòu)造器包括分析器265,分析器對文檔進行分析并從文檔中提取特征。將包含在文檔中找到的任何鏈接的鏈接映射278傳送給排序計算模塊245。該排序計算模塊245將與查詢獨立的排序分配給正在分析的文檔。該查詢獨立的靜態(tài)排序可以基于許多其他文檔,這些文檔具有到該文檔的鏈接、基于正在分析的URL的有用數(shù)據(jù),或該文檔的靜態(tài)分析,或這些或其他因素的任意組合。
文檔內(nèi)容、在該文檔中找到的任何鏈接和文檔的靜態(tài)排序傳送給文檔分隔模塊272,該模塊通過將存儲器索引276傳送給所選擇的計算機系統(tǒng),將所索引的文檔內(nèi)容分布到在索引服務(wù)行中的計算機系統(tǒng)中。鏈接映射278提供給排序計算模塊245,以用于對將來文檔的靜態(tài)排序的計算。
非頻繁字可以安排給如圖2所示的行中的指定計算機系統(tǒng)273,或如果該非頻繁字索引是存儲在跨如圖5所示頻繁字索引相同的計算機系統(tǒng)上分布的分區(qū)中,就將非頻繁字安排給文檔分區(qū)272。
對一個字是非頻繁的或不是非頻繁的判定涉及在所索引的數(shù)據(jù)集上設(shè)置出現(xiàn)次數(shù)的閾值。該閾值可以依據(jù)能夠容忍的網(wǎng)絡(luò)負載量或依據(jù)磁盤I/O操作的尺寸來建立。當該索引在構(gòu)造時,對字進行分隔并將頻繁字存儲在頻繁字索引中,而將非頻繁字存儲在非頻繁字索引中,這可能將其存儲在如圖2所述的單獨計算機系統(tǒng)中,或分布在計算機系統(tǒng)的行上,如圖5和6將要描述。
圖4描述了相對于索引服務(wù)行250對搜索查詢的處理的功能框圖。該搜索查詢安排給查詢請求處理器123,該處理器將查詢指定給聯(lián)盟和高速緩沖服務(wù)230,在其中對查詢進行預(yù)處理131以便使其以更好的條件呈現(xiàn)給聯(lián)盟模塊134,該模塊有選擇地安排所述查詢給數(shù)據(jù)源例如搜索提供器137以及外部聯(lián)盟提供器139。搜索提供器137是一種“內(nèi)部”提供器,可以由同一作為搜索引擎的提供器進行維護。外部聯(lián)盟提供器139被分開進行維護,并可以在搜索引擎提供者允許的情況下由搜索引擎訪問。為了評價搜索提供器137上的查詢,搜索提供器將查詢141安排給查詢散開和集合模塊151,該模塊將該查詢跨索引服務(wù)行250所選行中的計算機系統(tǒng)上進行分布,并將從各計算機系統(tǒng)返回的結(jié)果進行集合。在非頻繁字索引和頻繁字索引157、159上執(zhí)行來自散開模塊的索引查詢155。
圖5和6說明了在跨計算機系統(tǒng)行上以分布形式存儲非頻繁字索引的兩種替換方法。圖5示出計算機系統(tǒng)I,II和III,每個系統(tǒng)分別存儲從1到N,N+1到N+M和N+M+1到N+2M的所索引文檔數(shù)的子集。示出了鄰近非頻繁字索引157的頻繁字索引159的區(qū)域。在圖5中,在文檔上對頻繁字和非頻繁字索引進行索引和分隔。還是參照圖4,當查詢索引提供查詢給散開和集合模塊151時,檢查該查詢中的字以判定是否存在任何非頻繁字。如果沒有非頻繁字,那么,該查詢?nèi)缜斑M行處理。如果存在非頻繁字,那么,可以檢索非頻繁字索引數(shù)據(jù)159,并隨后將其與頻繁字索引數(shù)據(jù)157進行組合。如果該非頻繁字數(shù)據(jù)以文檔進行分隔,則在每個索引服務(wù)計算機系統(tǒng)上讀取該數(shù)據(jù)并進行處理。由于非頻繁字數(shù)據(jù)可能很快過期(age out),而頻繁數(shù)據(jù)索引可能更密集高速緩存,所以,將略微改善高速緩沖性能。
圖6示出非頻繁字索引157’,該索引未被文檔分隔,并且駐留在單個計算機系統(tǒng)D上。該數(shù)據(jù)按字形式而不是按文檔形式存儲。在所選擇的索引行中的每個計算機系統(tǒng)將通過訪問存儲該非頻繁字數(shù)據(jù)的計算機系統(tǒng)來取得有關(guān)任意非頻繁字的數(shù)據(jù)。通過使用推方法(push approach),生成查詢的計算機系統(tǒng)可以首先檢索非頻繁字數(shù)據(jù),隨后將其推出給所有的索引服務(wù)計算機系統(tǒng)。由于索引服務(wù)節(jié)點不需要彼此進行通信,而是通常把該數(shù)據(jù)提供給網(wǎng)絡(luò)(因為該數(shù)據(jù)隨查詢傳遞),這就簡化了處理過程。在一種拉方法中(pull approach),每個索引服務(wù)節(jié)點要么請求整個字信息,要么僅請求其所包含的文檔的有關(guān)信息。通過拉方法,該索引服務(wù)節(jié)點可以對數(shù)據(jù)進行高速緩存。如果存在一些經(jīng)常被查詢的非頻繁字,用于最近被查詢非頻繁出現(xiàn)的字的高速緩存就可以提高效率。
示范操作環(huán)境圖1和下面的描述的目的是為了給可以實施本發(fā)明的合適計算環(huán)境提供一種簡單、通用的描述。本發(fā)明將以計算機可執(zhí)行指令為上下文環(huán)境來進行描述,例如計算機可執(zhí)行程序模塊,但這并不是必須要求的。通常,程序模塊包括例行程序、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等,它們是執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型。而且,本領(lǐng)域的技術(shù)人員可以理解本發(fā)明可以由其他計算機系統(tǒng)配置來實現(xiàn),包括手持設(shè)備、多處理器系統(tǒng)、基于微處理器或可編程消費電子設(shè)備、網(wǎng)絡(luò)PC、迷你計算機、大型計算機等。本發(fā)明還能在分布式計算機環(huán)境中實現(xiàn),在該環(huán)境中任務(wù)是由通過通信網(wǎng)絡(luò)鏈接的遠程處理設(shè)備來執(zhí)行。在分布式計算機環(huán)境中,程序模塊可以位于本地或遠程存儲器存儲設(shè)備中。
參照圖1,一種用于執(zhí)行本發(fā)明的示范系統(tǒng)包括以傳統(tǒng)個人計算機20形式出現(xiàn)的通用計算機設(shè)備,包括處理單元21、系統(tǒng)存儲器22和將各種系統(tǒng)部件(包括系統(tǒng)存儲器22)耦合到處理單元21的系統(tǒng)總線24。系統(tǒng)總線23可以是任意幾種類型的總線結(jié)構(gòu),包括存儲器總線或存儲器控制器、外圍總線以及使用各種總線體系的局部總線。系統(tǒng)存儲器22包括只讀存儲器(ROM)24和隨機訪問存儲器(RAM)25?;据斎?輸出系統(tǒng)(BIOS)26存儲在ROM24中,它包括幫助例如在啟動期間在個人計算機20的各單元之間傳送信息的基本例行程序。個人計算機20進一步包括用于對硬盤進行讀取和寫入的硬盤驅(qū)動器27,用于對可移動磁盤29進行讀寫的磁盤驅(qū)動器28,以及用于對可移動光盤31例如CD ROM或其他光媒體進行讀寫的光盤驅(qū)動器30。硬盤驅(qū)動器27、磁盤驅(qū)動器28和光盤驅(qū)動器30分別通過硬盤驅(qū)動器接口32、磁盤驅(qū)動器接口33和光盤驅(qū)動器接口34與系統(tǒng)總線23相連。這些驅(qū)動器和它們相關(guān)的計算機可讀媒體為個人計算機20提供了計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和的非易失存儲。雖然在此所述的示范環(huán)境使用硬盤、可移動磁盤29和可移動光盤31,但本領(lǐng)域的技術(shù)人員需要理解其他可由計算機存取、可以存儲數(shù)據(jù)的計算機可讀媒體類型也可用于示范操作環(huán)境中,例如隨機訪問存儲器(RAM)、只讀存儲器(ROM)等等。
許多程序模塊可以存儲在硬盤、磁盤29、光盤31、ROM 24或RAM 25上,包括操作系統(tǒng)35、一個或更多應(yīng)用程序36、其他程序模塊37和程序數(shù)據(jù)38。數(shù)據(jù)系統(tǒng)55可以存儲在硬盤、磁盤29、光盤31、ROM 24或RAM 25上。用戶可以通過輸入設(shè)備向個人計算機20輸入命令和信息,所述設(shè)備包括例如鍵盤40和指示設(shè)備42。其他輸入設(shè)備包括麥克風、操縱桿、游戲手柄、衛(wèi)星天線、掃描儀等等。這些和其他輸入設(shè)備通常通過串行端口接口46與處理單元21相連,所述接口與系統(tǒng)總線23相連,但這些設(shè)備還可以與其他接口,例如并行接口,游戲接口或通用串行總線(USB)。監(jiān)視器47或其他類型的顯示設(shè)備還通過接口例如視頻適配器48與系統(tǒng)總線23相連。除了監(jiān)視器,個人計算機通常還包括其他外圍輸出設(shè)備,例如揚聲器和打印機。
個人計算機20可以使用連接到一個或更多遠程計算機,例如遠程計算機49,的邏輯連接來在聯(lián)網(wǎng)環(huán)境中工作。遠程計算機49可以是另一個人計算機、服務(wù)器、路由器、聯(lián)網(wǎng)PC、對等設(shè)備或其他公共網(wǎng)絡(luò)節(jié)點,并且雖然在圖1中僅示出一個存儲器存儲設(shè)備50,但通常包括許多或所有上述參照個人計算機20所述的元件。圖1中描述的邏輯連接包括局域網(wǎng)絡(luò)(LAN)51和廣域網(wǎng)絡(luò)(WAN)52。這種聯(lián)網(wǎng)環(huán)境在辦公室、公司計算機網(wǎng)絡(luò)、企業(yè)內(nèi)部互聯(lián)網(wǎng)和因特網(wǎng)中很常見。
當使用LAN聯(lián)網(wǎng)環(huán)境,個人計算機20通過網(wǎng)絡(luò)接口或適配器53連接到局域網(wǎng)絡(luò)51。當在WAN聯(lián)網(wǎng)環(huán)境中使用,個人計算機20通常包括調(diào)制解調(diào)器54或其他用于在廣域網(wǎng)52上建立通信的裝置,例如因特網(wǎng)調(diào)制解調(diào)器54(可以是內(nèi)置或外置式)可以通過串行端口接口46連接到系統(tǒng)總線23。在聯(lián)網(wǎng)環(huán)境中,有關(guān)個人計算機20所描述的程序模塊或其部分可以存儲在遠程存儲器存儲設(shè)備50中。可以理解所示的網(wǎng)絡(luò)連接是示意性的,并且可以使用其他能夠在計算機之間建立通信的裝置。
從前面的描述中可以看出將頻繁字索引與非頻繁字索引分開創(chuàng)建和維護可以提高系統(tǒng)的性能。雖然本發(fā)明結(jié)合特定實施例進行描述,但需要理解本發(fā)明涵蓋了所有落入本發(fā)明權(quán)利要求精神和范疇的修改和替換。
權(quán)利要求
1.用于處理用戶查詢的搜索引擎的系統(tǒng),所述系統(tǒng)對含有對應(yīng)于用戶查詢的字的文檔進行定位,其特征在于,所述系統(tǒng)包括非頻繁字識別器,對小于閾值數(shù)目的文檔中出現(xiàn)的非頻繁字進行識別;頻繁字索引,對含有超出閾值數(shù)目的文檔中出現(xiàn)的字的文檔位置進行映射;與頻繁字索引分開地進行維護的非頻繁字索引,對含有非頻繁字的文檔位置進行映射;索引掃描部件,響應(yīng)于含有非頻繁字的查詢,掃描所述非頻繁字索引以找出含有所述非頻繁字的文檔位置。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述頻繁字索引按文檔存儲。
3.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述頻繁字索引按文檔分隔。
4.如權(quán)利要求3所述的系統(tǒng),其特征在于,所述頻繁字索引跨多個計算系統(tǒng)分布。
5.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述非頻繁字索引按文檔存儲。
6.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述非頻繁字索引按文檔分隔。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述非頻繁字索引跨多個計算計算機系統(tǒng)分布。
8.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述非頻繁字索引按字存儲。
9.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述非頻繁字索引按字分隔。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述非頻繁字索引被存儲在單個計算計算機系統(tǒng)上。
11.如權(quán)利要求10所述的系統(tǒng),其特征在于,所述索引掃描部件響應(yīng)于含有非頻繁字的用戶查詢,從非頻繁字索引中檢索具有所述非頻繁字的文檔的文檔位置,并將所檢索到的文檔位置發(fā)送給含有所檢索到的文檔的頻繁字索引的計算機系統(tǒng)。
12.如權(quán)利要求1所述的系統(tǒng),其特征在于,進一步包括與非頻繁字索引相關(guān)的索引高速緩存,存儲最近被查詢的非頻繁字的文檔位置。
13.用于處理用戶查詢的搜索引擎的方法,所述方法對含有用戶查詢中所要找的術(shù)語的文檔集合進行搜索,其特征在于,所述方法包括掃描所述文檔集合,并收集出現(xiàn)次數(shù)小于閾值的非頻繁字;構(gòu)建非頻繁字索引,所述索引將非頻繁字映射到含有所述字的文檔位置;構(gòu)建頻繁字索引,與所述非頻繁字索引分開地被維護,所述索引將出現(xiàn)次數(shù)大于閾值的頻繁字映射給含有所述字的文檔位置;檢驗所述用戶查詢中的術(shù)語以識別是非頻繁字的任何術(shù)語;以及對識別為非頻繁字的術(shù)語進行非頻繁字索引搜索。
14.如權(quán)利要求13所述的方法,其特征在于,進一步包括在專用計算機系統(tǒng)中存儲所述非頻繁字索引。
15.如權(quán)利要求13所述的方法,其特征在于,進一步包括將所述非頻繁字索引存儲在計算機系統(tǒng)上的專用分區(qū)中,所述計算機系統(tǒng)還存儲了頻繁字索引。
16.如權(quán)利要求13所述的方法,其特征在于,進一步包括按字存儲所述非頻繁索引。
17.如權(quán)利要求13所述的方法,其特征在于,進一步包括按文檔存儲所述非頻繁索引。
18.一種計算機可讀媒體,其特征在于,包括用于執(zhí)行權(quán)利要求13的方法的計算機可執(zhí)行指令。
19.用于處理用戶查詢的搜索引擎的計算機可讀媒體,其特征在于,包括用于對包含對應(yīng)于用戶查詢的字的文檔進行定位的計算機可執(zhí)行指令對小于閾值數(shù)目的文檔中出現(xiàn)的非頻繁字進行識別;對頻繁字索引中含有超出閾值數(shù)目的文檔中出現(xiàn)的字的文檔位置進行映射;與頻繁字索引分開地對含有非頻繁字的文檔位置進行映射的非頻繁字索引進行維護;響應(yīng)于含有非頻繁字的查詢,掃描所述非頻繁字索引以找出含有所述非頻繁字的文檔位置。
20.如權(quán)利要求19所述的計算機可讀媒體,其特征在于,所述非頻繁字索引按文檔存儲。
21.如權(quán)利要求19所述的計算機可讀媒體,其特征在于,所述非頻繁字索引按文檔進行分隔。
22.如權(quán)利要求19所述的計算機可讀媒體,其特征在于,所述非頻繁字索引跨多個計算計算機系統(tǒng)分布。
23.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述非頻繁字索引按字存儲。
24.如權(quán)利要求19所述的計算機可讀媒體,其特征在于,所述非頻繁字索引按字分隔。
25.如權(quán)利要求19所述的計算機可讀媒體,其特征在于,所述非頻繁字索引被存儲在單個計算計算機系統(tǒng)上。
26.如權(quán)利要求19所述的計算機可讀媒體,其特征在于,包括創(chuàng)建與非頻繁字索引相關(guān)的索引高速緩存,以存儲最近被查詢的非頻繁字的文檔位置。
27.用于處理用戶查詢的搜索引擎的設(shè)備,所述設(shè)備用于對含有用戶查詢中所找到的術(shù)語的文檔集合進行搜索,其特征在于,所述設(shè)備包括掃描所述文檔集合,并收集出現(xiàn)次數(shù)小于閾值的非頻繁字的裝置;構(gòu)建非頻繁字索引的裝置,所述索引將非頻繁字映射到含有所述字的文檔位置;構(gòu)建頻繁字索引裝置,與所述非頻繁字索引分開地進行維護,所述頻繁字索引將出現(xiàn)次數(shù)大于閾值的頻繁字映射給含有所述字的文檔位置;檢驗所述用戶查詢中的術(shù)語以識別是非頻繁字的任何術(shù)語的裝置;以及對識別為非頻繁字的術(shù)語進行對非頻繁字索引的搜索的裝置。
全文摘要
一種文檔索引系統(tǒng)利用了兩種索引。一種非頻繁字索引與一種頻繁字索引被分開維護,所述非頻繁字索引對在所索引的文檔中不經(jīng)常出現(xiàn)的字的位置進行映射。該非頻繁字索引可以以與頻繁字索引不同的方式進行存儲和分隔以提高效率。
文檔編號G06F17/30GK1648899SQ200510005929
公開日2005年8月3日 申請日期2005年1月20日 優(yōu)先權(quán)日2004年1月20日
發(fā)明者D·A·沙基比, M·伯羅斯, G·薩林 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1