亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

分布式搜索方法、體系結(jié)構(gòu)、系統(tǒng)及軟件的制作方法

文檔序號:6487254閱讀:243來源:國知局
專利名稱:分布式搜索方法、體系結(jié)構(gòu)、系統(tǒng)及軟件的制作方法
技術(shù)領(lǐng)域
本發(fā)明的各種實施例涉及信息檢索系統(tǒng)和知識管理系統(tǒng),更具體地涉及這類系統(tǒng)中的分布式搜索功能。
背景現(xiàn)代計算機聯(lián)機信息提供商通常需要搜索大量數(shù)據(jù)的能力。例如,美國法律體系以及全球的一些其它法律體系極大地依靠書面司法意見、法官的書面判決來表達或解釋控制爭端解決的法律。因此,我們的法律體系中的法官和律師一直在搜索不斷擴充的大量過往意見或判例法,以便獲取與新爭端的解決或預防最相關(guān)的意見或判例法。找到的案例經(jīng)過關(guān)聯(lián)性研究,最終在文檔中引述和論述,稱作工作成果,例如,它為法庭訴訟辯護、對相似的法庭訴訟向客戶進行建議或者在特定權(quán)限中關(guān)于法律狀況指導客戶和律師。
另外,知識管理系統(tǒng)、文檔管理系統(tǒng)和其它聯(lián)機數(shù)據(jù)提供商通常需要來自其大小可能從大到小變化的數(shù)據(jù)集的信息。太拉字節(jié)范圍的數(shù)據(jù)集不再罕見。例如,一些系統(tǒng)可利用包含大約1.2太拉字節(jié)的唯一數(shù)據(jù)的公開記錄以及包括大約20千兆字節(jié)(GB)的唯一數(shù)據(jù)的稅務(wù)和會計(TA)數(shù)據(jù)。在先前系統(tǒng)中,由于系統(tǒng)通常僅可存儲唯一公開記錄數(shù)據(jù)的百分之五而出現(xiàn)問題。此外,系統(tǒng)對于唯一TA數(shù)據(jù)過大,它通常與其它數(shù)據(jù)提供商共享服務(wù)器空間。
數(shù)據(jù)集和系統(tǒng)大小的這類差異對搜索引擎性能、尤其對于與企業(yè)服務(wù)器實現(xiàn)相關(guān)的搜索引擎性能有影響(包括固有可用性問題)。例如,如果在系統(tǒng)的CPU中發(fā)生存儲器故障,則系統(tǒng)在排除故障之前通常無法運行搜索服務(wù),以及故障轉(zhuǎn)移機制是有問題的。由于搜索服務(wù)通常是存儲器密集的,并且沒有束縛于CPU,因此,解決這些故障問題浪費資源。
此外,有時,如果數(shù)據(jù)頁面在文件系統(tǒng)高速緩存中不可用,查詢處理迫使搜索引擎訪問盤以找到數(shù)據(jù)頁面。雖然在一些情況下,如果數(shù)據(jù)集小到足以完全保存在RAM中,則通常可在文件系統(tǒng)高速緩存中找到數(shù)據(jù),但情況往往是,數(shù)據(jù)集很大,使得查詢處理往往在盤級而不是在文件系統(tǒng)高速緩存級發(fā)生。此外,當前體系結(jié)構(gòu)通常沒有確保同一個搜索引擎會一致地處理相同的數(shù)據(jù),這消除了搜索引擎高速緩存的優(yōu)勢。
因此,本發(fā)明人已經(jīng)認識到,需要提供聯(lián)機傳送平臺中的搜索功能的更好的系統(tǒng)、工具及方法。

發(fā)明內(nèi)容
為了滿足這個和/或其它需求,本發(fā)明人設(shè)計了為律師事務(wù)所和其它企業(yè)中使用的聯(lián)機傳送平臺提供分布式搜索功能的新穎系統(tǒng)、方法和軟件。例如,系統(tǒng)、方法及軟件的一個方面提供多個數(shù)據(jù)集。數(shù)據(jù)集可包含對其它數(shù)據(jù)集的索引。至少一個搜索引擎與各數(shù)據(jù)集關(guān)聯(lián)。接收搜索請求的系統(tǒng)根據(jù)搜索請求中涉及的數(shù)據(jù)集來確定哪些搜索引擎被用來處理搜索請求。然后,搜索請求被轉(zhuǎn)發(fā)給所識別的搜索引擎。
值得注意的是,示范實施例提供一種搜索功能,它分布在多個搜索引擎之中,其方式是,搜索數(shù)據(jù)很可能被高速緩存在可用RAM中,從而避免代價高的盤搜索。
附圖概述

圖1是與本發(fā)明的一個或多個實施例對應(yīng)的示范分布式搜索系統(tǒng)100的框圖。
圖2是框圖,提供對于與本發(fā)明的一個或多個實施例對應(yīng)的示范分布式搜索系統(tǒng)200的更詳細說明。
圖3是與操作實施本發(fā)明的示范分布式搜索系統(tǒng)及關(guān)聯(lián)組件的一個或多個示范方法對應(yīng)的流程圖。
示范實施例的詳細描述以下結(jié)合附圖和所附權(quán)利要求的描述描述和/或說明一個或多個發(fā)明的一個或多個示范實施例。足夠詳細地表示和描述了這些實施例,以便使本領(lǐng)域的技術(shù)人員能夠?qū)嵤┖褪褂帽景l(fā)明,提供這些實施例只是為了舉例說明和講授本發(fā)明而非限定。因此,在需要避免使一個或多個發(fā)明難以理解的情況下,描述可能省略相關(guān)領(lǐng)域的技術(shù)人員已知的某些信息。
示范信息系統(tǒng)圖1說明結(jié)合本發(fā)明的一個或多個理論的示范分布式搜索系統(tǒng)100。系統(tǒng)100包括搜索控制器102、消息交換機104、搜索引擎106、網(wǎng)絡(luò)連接存儲器(NAS)110以及可通信地把搜索引擎106耦合到NAS110的網(wǎng)絡(luò)108。上述組件可分布在一個或多個服務(wù)器計算機之中。在一些實施例中,服務(wù)器計算機包括Sun Microsystems,Inc.制造的基于刀片的服務(wù)計算機。但是,在備選實施例中,可采用基于Intel處理器體系結(jié)構(gòu)的服務(wù)器。
搜索控制器102“收聽”搜索請求。利用“分割-合并”引擎,搜索控制器接收請求,并將它們分為成分請求(由搜索引擎106提供服務(wù))。從搜索引擎106接收到響應(yīng)時,搜索控制器合并響應(yīng),并將其發(fā)送給請求方。可對于組成數(shù)據(jù)收集或收集集合或者從其中產(chǎn)生的各種數(shù)據(jù)集進行在程序設(shè)計上稱作“搜索引擎請求”的分割請求。在一些實施例中,數(shù)據(jù)集包括對數(shù)據(jù)收集或收集集合的索引的一部分(稱作“索引集”)。
消息交換機104用于把消息從搜索控制器102路由到一個或多個搜索引擎106。消息可包含將由一個或多個搜索引擎106執(zhí)行的搜索請求。在本發(fā)明的一些實施例中,消息交換機104提供Java消息服務(wù)(JMS)接口。此外,在一些實施例中,可采用諸如可向IBM Corp.購買的MQ消息傳輸系統(tǒng)之類的消息排隊軟件來路由消息。但是,本發(fā)明沒有任何實施例被認為局限于特定的消息路由系統(tǒng),在備選實施例中,可采用Sonic Software Corporation的SonicMQ消息排隊軟件。
在一些實施例中,搜索引擎106包括Java“包裝機”,它對于服務(wù)器搜索和解決的數(shù)據(jù)進行預處理和后處理。在一些實施例中,這個處理可通過Java本地接口來執(zhí)行。搜索引擎106接收“搜索引擎請求”成分和特定“索引集”,并使得對于請求指定的“索引集”執(zhí)行搜索。
要搜索的數(shù)據(jù)集可能駐留于可通信地通過網(wǎng)絡(luò)108耦合到搜索引擎106的網(wǎng)絡(luò)連接存儲器110。網(wǎng)絡(luò)連接存儲器可以是通過網(wǎng)絡(luò)可訪問的任何類型的存儲裝置。這種網(wǎng)絡(luò)連接存儲器的實例是本領(lǐng)域已知的,并且包括文件服務(wù)器、存儲服務(wù)器和其它網(wǎng)絡(luò)連接存儲媒體。
網(wǎng)絡(luò)108可以是能夠支持數(shù)據(jù)通信的任何類型的有線或無線網(wǎng)絡(luò)。在本發(fā)明的一些實施例中,網(wǎng)絡(luò)108包括專用千兆位以太網(wǎng)網(wǎng)絡(luò)。但是,本發(fā)明沒有任何實施例被認為局限于特定的網(wǎng)絡(luò)類型。
搜索引擎106可在安裝了Linux OS的普通Intel系統(tǒng)中運行。在一些實施例中,可通過網(wǎng)絡(luò)文件系統(tǒng)(NFS)協(xié)議從網(wǎng)絡(luò)連接存儲器(NAS)服務(wù)器110來訪問“索引集”的數(shù)據(jù)。當初始查詢進入搜索引擎時,對搜索引擎提供滿足搜索查詢所需的“索引集”名稱和文件名。
搜索引擎106可向NAS服務(wù)器110進行NFS調(diào)用,并請求那些文件的數(shù)據(jù)。這個數(shù)據(jù)通常是靜態(tài)的,并且被高速緩存在NFS客戶機系統(tǒng)中。隨后,當搜索引擎訪問它的已分配“索引集”的數(shù)據(jù)時,它可為文件信息向NFS服務(wù)器進行元目錄調(diào)用。搜索引擎1-6從本地RAM高速緩存中讀取數(shù)據(jù)頁面,這允許查詢條件的RAM速度搜索。
圖2提供結(jié)合本發(fā)明的一個或多個理論的示范分布式搜索系統(tǒng)200的更詳細說明。系統(tǒng)200包括以上參照圖1所述的組件,另外還包括產(chǎn)品/客戶機202、資源管理器206和聯(lián)機傳送平臺代理208。
產(chǎn)品/客戶機202可以是任何客戶機軟件模塊,它采用根據(jù)本發(fā)明的實施例的理論所提供的分布式搜索功能性。這類軟件包括瀏覽器、文檔管理系統(tǒng)、知識管理系統(tǒng)、文檔檢索系統(tǒng)、判例法檢索系統(tǒng)等。產(chǎn)品/客戶機202向消息交換機104發(fā)出一個或多個搜索請求,消息交換機104根據(jù)搜索請求中的數(shù)據(jù)把請求路由到服務(wù)控制器。
聯(lián)機傳送平臺(ODP)代理進程208在服務(wù)器、如搜索控制器102和搜索引擎106中啟動進程,并監(jiān)測和管理這些進程。在一些實施例中,ODP代理進程208還跟蹤各個進程,并向公告板數(shù)據(jù)庫報告其處理狀態(tài)。此外,在一些實施例中,ODP代理進程208當存在故障或者“長事務(wù)處理”條件時重新啟動搜索控制器或搜索引擎。ODP代理208被看作是運行ODP環(huán)境的宿主代理進程。
當系統(tǒng)啟動時,服務(wù)器上的ODP代理208啟動和查詢把ODP代理208分配給代理管理器(未示出)的引擎的(預先配置的)資源管理器206。代理管理器包含有關(guān)域中的代理和搜索引擎的信息,并且可對查詢它的ODP代理208動態(tài)分配工作負荷。在一些實施例中,代理管理器包括LDAP(輕型目錄訪問協(xié)議)代理。在一些實施例中,對搜索引擎分配具有與搜索引擎106關(guān)聯(lián)的“索引集”的名稱對應(yīng)的名稱的消息隊列。
在一些實施例中,如果搜索引擎106出故障,則其代理將檢測出故障引擎并使它重新啟動。在搜索引擎出故障時所處理的查詢可能丟失,以及控制器請求“出錯”。(一些實施例可能把出故障查詢的副本傳遞到對主題索引集操作的另一個搜索引擎。)但是,出故障搜索引擎106可重新啟動,使得新的查詢可無延遲地被處理。
在一些實施例中,如果搜索引擎系統(tǒng)遇到CPU、RAM或其它硬件故障,則消息交換機代理檢測“索引集”隊列沒有為它提供服務(wù)的進程。代理立即警告代理管理器重新分配搜索引擎,以便為那個“索引集”隊列提供服務(wù)。
各種實施例的示范系統(tǒng)設(shè)計結(jié)合部署普通系統(tǒng)以及在引導過程期間“學習”它在分布式搜索體系結(jié)構(gòu)中的角色的固定OS影像。系統(tǒng)的彈性包容進程或硬件故障,以及它的靈活性允許對出故障組件的附加資源的分配。
此外,在一些實施例中,為故障轉(zhuǎn)移分配的附加資源不是“空閑”(等待故障轉(zhuǎn)移)。如果檢測到處理瓶頸,它們可作為“工作負荷處理機”來部署,從而提供附加處理。這種工作負荷可通過消息交換機104或ODP代理208來檢測,它可對每個“索引集”隊列的工作負荷模式進行檢測和報告。
另外,各種實施例的示范體系結(jié)構(gòu)有助于“懶監(jiān)測”方案。組件故障不需要立即被檢測及修復。當災難性事件發(fā)生時,可出現(xiàn)檢測和通知,但修復組件可在任何時間發(fā)生,只要存在可用于承擔其工作負荷的附加資源。
示范操作方法圖3說明操作信息管理系統(tǒng)、如系統(tǒng)100的一個或多個示范方法的流程圖300。流程圖300包括框310-340,它們在示范實施例中以順次執(zhí)行序列來排列及描述。但是,其它實施例可采用多個處理器或類似處理器的裝置或者組織成兩個或兩個以上虛擬機或子處理器的單一處理器來并行執(zhí)行兩個或兩個以上框。其它實施例還改變過程序列或者提供不同的功能劃分來得到類似結(jié)果。此外,又一些實施例把這些框?qū)崿F(xiàn)為兩個或兩個以上互連的硬件模塊,其中的相關(guān)控制和數(shù)據(jù)信號在模塊之間或者通過模塊傳遞。因此,示范過程流適用于軟件、硬件和固件實現(xiàn)。
在框310,示范方法以提供一個或多個數(shù)據(jù)集開始。在一些實施例中,數(shù)據(jù)集包括對數(shù)據(jù)收集或數(shù)據(jù)收集集合的索引的一些部分。索引可根據(jù)數(shù)據(jù)庫索引的范圍來劃分,其中每個范圍包含一個數(shù)據(jù)集。然后,數(shù)據(jù)集存儲在存儲裝置、如NAS 110中。
框320需要接收搜索請求。在框330,搜索請求經(jīng)過分析以確定要求哪些數(shù)據(jù)集。
在框340,搜索請求則被轉(zhuǎn)發(fā)到與框330中識別的數(shù)據(jù)集對應(yīng)的搜索引擎。在本發(fā)明的一些實施例中,搜索請求通過消息隊列轉(zhuǎn)發(fā)給搜索引擎。此外,在一些實施例中,向與特定搜索引擎關(guān)聯(lián)的消息隊列提供與配置用于搜索引擎的“索引集”相同的名稱。
結(jié)論上述實施例只是用于說明和講授實施和使用本發(fā)明的一種或多種方式,而不是限制其廣度或范圍。包含實施或?qū)崿F(xiàn)本發(fā)明的理論的全部方式的本發(fā)明的實際范圍僅由一個或多個已發(fā)布專利權(quán)利要求及其等效物來定義。
權(quán)利要求
1.一種包括多個數(shù)據(jù)集和多個搜索引擎的聯(lián)機搜索系統(tǒng),其中,每個數(shù)據(jù)集具有分配給所述數(shù)據(jù)集的所述多個搜索引擎中的至少一個。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括多個服務(wù)器,其中,各服務(wù)器容納所述搜索引擎中的至少一個。
3.如權(quán)利要求2所述的系統(tǒng),其特征在于,各服務(wù)器包括一個或多個處理器以及關(guān)聯(lián)的Linux操作系統(tǒng)。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括可用于向所述多個搜索引擎分配搜索請求的多個搜索控制器。
5.如權(quán)利要求4所述的系統(tǒng),其特征在于,還包括可用于在所述多個搜索控制器與所述多個搜索引擎之間路由搜索請求的消息服務(wù)器。
6.如權(quán)利要求5所述的系統(tǒng),其特征在于,所述消息服務(wù)包括JAVA消息服務(wù)。
7.如權(quán)利要求5所述的系統(tǒng),其特征在于,搜索請求被路由到消息隊列。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述消息隊列由IBM/MQ消息隊列軟件的一種版本來提供。
9.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述數(shù)據(jù)集中的每一個包含對數(shù)據(jù)收集的索引的一部分。
10.一種用于執(zhí)行搜索的方法,包括提供多個數(shù)據(jù)集;接收搜索請求;響應(yīng)所述搜索請求而識別要搜索的所述多個數(shù)據(jù)集中的至少一個數(shù)據(jù)集;以及把所述搜索請求發(fā)送給多個搜索引擎中的至少一個搜索引擎,所述搜索引擎具有與所述至少一個數(shù)據(jù)集的關(guān)聯(lián)。
11.如權(quán)利要求10所述的方法,其特征在于,所述數(shù)據(jù)集包含對數(shù)據(jù)收集的索引的一部分。
12.如權(quán)利要求10所述的方法,其特征在于,發(fā)送所述搜索請求包括把所述搜索請求放入消息隊列。
13.如權(quán)利要求12所述的方法,其特征在于,與所述消息隊列關(guān)聯(lián)的標識符和與所述數(shù)據(jù)集關(guān)聯(lián)的標識符相同。
14.如權(quán)利要求10所述的方法,其特征在于,還包括分割所述搜索請求以便發(fā)送給多個所述搜索引擎。
15.一種機器可讀媒體,其中具有用于運行執(zhí)行搜索的方法的指令,所述方法包括提供多個數(shù)據(jù)集;接收搜索請求;響應(yīng)所述搜索請求而識別要搜索的所述多個數(shù)據(jù)集中的至少一個數(shù)據(jù)集;以及把所述搜索請求發(fā)送給多個搜索引擎中的至少一個搜索引擎,所述搜索引擎具有與所述至少一個數(shù)據(jù)集的關(guān)聯(lián)。
16.如權(quán)利要求15所述的機器可讀媒體,其特征在于,所述數(shù)據(jù)集包含對數(shù)據(jù)收集的索引的一部分。
17.如權(quán)利要求15所述的機器可讀媒體,其特征在于,發(fā)送所述搜索請求包括把所述搜索請求放入消息隊列。
18.如權(quán)利要求17所述的機器可讀媒體,其特征在于,與所述消息隊列關(guān)聯(lián)的標識符和與所述數(shù)據(jù)集關(guān)聯(lián)的標識符相同。
19.如權(quán)利要求15所述的機器可讀媒體,其特征在于,還包括分割所述搜索請求以便發(fā)送給多個所述搜索引擎。
20.一種用于執(zhí)行搜索的系統(tǒng),所述系統(tǒng)包括用于提供多個數(shù)據(jù)集的部件;用于接收搜索請求的部件;用于響應(yīng)所述搜索請求而識別要搜索的所述多個數(shù)據(jù)集中的至少一個數(shù)據(jù)集的部件;以及用于把所述搜索請求發(fā)送給多個搜索引擎中的至少一個搜索引擎的部件,所述搜索引擎具有與所述至少一個數(shù)據(jù)集的關(guān)聯(lián)。
21.如權(quán)利要求20所述的系統(tǒng),其特征在于,所述數(shù)據(jù)集包含對數(shù)據(jù)收集的索引的一部分。
22.如權(quán)利要求20所述的系統(tǒng),其特征在于,用于發(fā)送所述搜索請求的部件包括把所述搜索請求放入消息隊列。
23.如權(quán)利要求22所述的系統(tǒng),其特征在于,與所述消息隊列關(guān)聯(lián)的標識符和與所述數(shù)據(jù)集關(guān)聯(lián)的標識符相同。
24.如權(quán)利要求20所述的系統(tǒng),其特征在于,還包括用于分割所述搜索請求以便發(fā)送給多個所述搜索引擎的部件。
全文摘要
描述了用于為律師事務(wù)所及其它企業(yè)中使用的聯(lián)機傳送平臺提供分布式搜索功能的系統(tǒng)、方法及軟件。例如,系統(tǒng)、方法及軟件的一個方面提供多個數(shù)據(jù)集。數(shù)據(jù)集可包含對其它數(shù)據(jù)集的索引。至少一個搜索引擎與各數(shù)據(jù)集關(guān)聯(lián)。接收搜索請求的系統(tǒng)根據(jù)搜索請求中涉及的數(shù)據(jù)集來確定哪些搜索引擎被用來處理搜索請求。然后,搜索請求被轉(zhuǎn)發(fā)給所識別的搜索引擎。
文檔編號G06F17/30GK1839385SQ200480017052
公開日2006年9月27日 申請日期2004年4月26日 優(yōu)先權(quán)日2003年4月25日
發(fā)明者M·布盧姆 申請人:湯姆森環(huán)球資源公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1