亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

在數(shù)字圖書館中所采用的檢索系統(tǒng)和檢索方法

文檔序號:7959400閱讀:589來源:國知局
專利名稱:在數(shù)字圖書館中所采用的檢索系統(tǒng)和檢索方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索領(lǐng)域,更具體地,涉及一種在數(shù)字圖書館中所采用的檢索系統(tǒng)和檢索方法,能夠高效地進行檢索且易于擴展,并且能應(yīng)用于具有海量數(shù)據(jù)和大規(guī)模并發(fā)訪問的數(shù)字圖書館。
背景技術(shù)
當前,有很多技術(shù)可用于構(gòu)建數(shù)字圖書館。一般的數(shù)字圖書館采用數(shù)據(jù)庫方法,該方法能夠方便快捷地構(gòu)建數(shù)據(jù)規(guī)模比較小的圖書館系統(tǒng)。但是當數(shù)據(jù)規(guī)模增長到TB級時,其索引規(guī)模十分龐大,檢索速度低,無法滿足當前信息爆炸式增長的要求。另一方面,當用戶并發(fā)查詢請求量增長時,這些技術(shù)無法靈活擴展,難以適應(yīng)不斷增長的用戶需求。
當前,還存在被一些著名的商業(yè)搜索引擎所采用的信息檢索技術(shù)。這些技術(shù)通常采用采集器從互聯(lián)網(wǎng)(INTERNET)上自動抓取網(wǎng)頁,且采用索引技術(shù)為網(wǎng)頁進行索引。在這些技術(shù)中,典型地使用倒排表(Inverted List),并基于網(wǎng)頁特點進行排序且返回檢索結(jié)果,為用戶提供秒級的檢索服務(wù)。
然而,圖書檢索有其自身的特點與自動抓取的Web數(shù)據(jù)不同,圖書館的數(shù)據(jù)為經(jīng)過加工的質(zhì)量較高的結(jié)構(gòu)化數(shù)據(jù),其數(shù)據(jù)內(nèi)容更為豐富;另外,Web檢索只是針對網(wǎng)頁平面內(nèi)容進行檢索,而圖書檢索系統(tǒng)需要更深層次的字段級檢索;此外,Web檢索更為注重前幾十個檢索結(jié)果的準確性,而圖書檢索要求查全、查準,且要求長期有效的檢索。
目前的商業(yè)搜索引擎沒有充分考慮到數(shù)字圖書館服務(wù)的這些特點,而且對于硬件資源的要求很高,這對于目前作為公共服務(wù)的圖書館來說,是難以做到的。
隨著近年來圖書館的發(fā)展和館藏數(shù)字化資源的不斷豐富,數(shù)字圖書館已經(jīng)擁有大量的數(shù)字資源,并需要通過互聯(lián)網(wǎng)對外提供服務(wù)。這就對數(shù)字圖書館建設(shè)提出了一個挑戰(zhàn)如何面臨海量元數(shù)據(jù)和服務(wù)于全世界需求者來構(gòu)造一個檢索系統(tǒng)。因此,人們迫切需要一種高效率、可擴展的數(shù)字圖書館構(gòu)建方法,該方法必須滿足圖書檢索查全、查準的要求,且能夠隨著數(shù)據(jù)增長、用戶并發(fā)查詢的增長而進行擴展,并且能處理多語種數(shù)據(jù)源。

發(fā)明內(nèi)容
因此,本發(fā)明的目的是提出一種在數(shù)字圖書館中所采用的檢索系統(tǒng)和檢索方法,能夠高效地進行檢索且易于擴展,并且能應(yīng)用于具有海量數(shù)據(jù)和大規(guī)模并發(fā)訪問的數(shù)字圖書館。
為了實現(xiàn)以上目的,本發(fā)明提出了一種在數(shù)字圖書館中所采用的檢索系統(tǒng),包括包含一個或多個檢索控制器的檢索控制器層,用于將來自用戶的用戶查詢轉(zhuǎn)發(fā)到檢索服務(wù)器層,并對來自檢索服務(wù)器層的相應(yīng)檢索結(jié)果進行處理以返回給用戶;包含一個或多個檢索服務(wù)器的檢索服務(wù)器層,用于存儲數(shù)字圖書館的核心索引數(shù)據(jù),并針對所述用戶查詢首先在所述核心索引數(shù)據(jù)中執(zhí)行檢索以獲取檢索結(jié)果,而在核心索引數(shù)據(jù)中無法獲取檢索結(jié)果的情況下,則通過訪問索引服務(wù)器層以獲取檢索結(jié)果,并將所獲得的檢索結(jié)果提供給檢索控制器層;以及包含一個或多個索引服務(wù)器的索引服務(wù)器層,用于存儲數(shù)字圖書館的所有索引數(shù)據(jù),以便通過檢索服務(wù)器層的訪問從所述所有索引數(shù)據(jù)中檢索出相應(yīng)的索引以獲取檢索結(jié)果。
優(yōu)選地,所述檢索系統(tǒng)還包括分發(fā)服務(wù)器層,用于對來自用戶的用戶查詢進行負載均衡處理。
優(yōu)選地,所述負載均衡處理采用基于IP層的負載分發(fā)、基于傳輸層的負載分發(fā)、基于應(yīng)用層的負載分發(fā)來實現(xiàn)。
優(yōu)選地,所述基于IP層的負載分發(fā)包括基于IP層的Round-Robin方式。
優(yōu)選地,由所述檢索控制器層對來自檢索服務(wù)器層的相應(yīng)檢索結(jié)果進行處理通過對所述相應(yīng)檢索結(jié)果進行合并并生成摘要來實現(xiàn)。
優(yōu)選地,所述檢索控制器層對檢索結(jié)果用XML格式進行組織。
優(yōu)選地,所述檢索服務(wù)器層中的檢索服務(wù)器按照對應(yīng)于不同的圖書數(shù)據(jù)庫分別建立相應(yīng)的核心索引的方式來形成相應(yīng)的檢索服務(wù)器組,并且所述索引服務(wù)器層中的索引服務(wù)器按照對應(yīng)于不同的圖書數(shù)據(jù)庫分別保存相應(yīng)的索引的方式來形成相應(yīng)的索引服務(wù)器組。
優(yōu)選地,所述核心索引按照索引的倒排鏈長度處于兩個閾值之間的方式來建立。
優(yōu)選地,所述核心索引根據(jù)索引的歷史出現(xiàn)頻度來建立。
優(yōu)選地,所述核心索引根據(jù)與用戶訪問行為特征相對應(yīng)的核心詞匯來建立。
優(yōu)選地,當用戶并發(fā)查詢請求增長時,檢索控制器和檢索服務(wù)器組的數(shù)目以線性的方式增加。
優(yōu)選地,當數(shù)字圖書館的數(shù)據(jù)規(guī)模增加時,檢索控制器和索引服務(wù)器的數(shù)目以線性的方式增加。
為了實現(xiàn)上述目的,根據(jù)本發(fā)明,還提出了一種在數(shù)字圖書館中所采用的檢索方法,包括由檢索控制器層將來自用戶的用戶查詢轉(zhuǎn)發(fā)到檢索服務(wù)器層,并對來自檢索服務(wù)器層的相應(yīng)檢索結(jié)果進行處理以返回給用戶;由檢索服務(wù)器層針對所述用戶查詢,首先在所存儲的數(shù)字圖書館核心索引數(shù)據(jù)中執(zhí)行檢索以獲取檢索結(jié)果,而在核心索引數(shù)據(jù)中無法獲取檢索結(jié)果的情況下,則通過訪問索引服務(wù)器層以獲取檢索結(jié)果,并將所獲得的檢索結(jié)果提供給檢索控制器層;以及響應(yīng)來自檢索服務(wù)器層的訪問,由索引服務(wù)器層從所存儲的數(shù)字圖書館的所有索引數(shù)據(jù)中檢索出相應(yīng)的索引以獲取檢索結(jié)果。


通過參考以下結(jié)合附圖對所采用的優(yōu)選實施例的詳細描述,本發(fā)明的上述目的、優(yōu)點和特征將變得顯而易見,其中圖1是示出了根據(jù)本發(fā)明的實施例,在數(shù)字圖書館中所采用的檢索系統(tǒng)的示意配置圖;以及圖2示出了對圖1所示的檢索系統(tǒng)的測試平臺架構(gòu)的示意圖。
具體實施例方式
下面將參考附圖來說明本發(fā)明的優(yōu)選實施例。
圖1是示出了根據(jù)本發(fā)明的實施例,在數(shù)字圖書館中所采用的檢索系統(tǒng)的示意配置圖。該檢索系統(tǒng)采用了基于集群(cluster)的體系架構(gòu)。
如圖1所示,根據(jù)本發(fā)明實施例的在數(shù)字圖書館中所采用的檢索系統(tǒng)包括分發(fā)服務(wù)器層1,其采用Round-Robin方式進行負載均衡;檢索控制器層2,其中包括作為檢索控制器的Web服務(wù)器,該Web服務(wù)器采用Apache服務(wù)器,并將原始數(shù)據(jù)文檔以XML格式來進行存儲,且采用歸并算法對來自檢索服務(wù)器的檢索結(jié)果進行合并,生成摘要返回給用戶;檢索服務(wù)器層3,對用戶查詢進行檢索并將檢索結(jié)果返回給檢索控制器層2;以及索引服務(wù)器層4,存放所有數(shù)據(jù)索引,以便為檢索服務(wù)器層3服務(wù)。下面分別詳細描述各層次的配置。
1)分發(fā)服務(wù)器層1首先,描述分發(fā)服務(wù)器層1中的分發(fā)服務(wù)器如何進行負載均衡,即,如何實現(xiàn)分發(fā)服務(wù)器層1的負載分發(fā)功能。
目前,負載分發(fā)主要有3種類型基于IP層的負載分發(fā)、基于第四層(傳輸層)的負載分發(fā)、基于第7層(應(yīng)用層)的負載分發(fā),并且,針對各種類型的負載分發(fā)存在相應(yīng)的硬件交換機。作為示例,在本發(fā)明中,可以采用基于IP層的Round-Robin方式進行負載均衡。
2)檢索控制器層2下面描述檢索控制器層2中的檢索控制器如何分發(fā)用戶查詢給檢索服務(wù)器,如何進行歸并排序、生成摘要并返回給用戶,即實現(xiàn)檢索控制器層2的檢索控制功能。
通常,作為檢索控制器的Web服務(wù)器采用Apache服務(wù)器,并同時加載FastCgi模塊。
在該Web服務(wù)器中,對對應(yīng)于檢索結(jié)果的圖書數(shù)據(jù)用XML格式進行組織。作為示例,其格式如下<METADATA>
<ID>00001<ID>
<TITLE>現(xiàn)代信息檢索</TITLE>
<AUTHOR>Ricardo Baeza-Yates,etc</AUTHOR>
<PUBLISHER>機械工業(yè)出版社</PUBLISHER>
…</METADATA>
同時,該Web服務(wù)器中采用如下算法為用戶進行服務(wù)該Web服務(wù)器從分發(fā)服務(wù)器器獲取用戶查詢Query_A;然后將所獲取的用戶查詢Query_A轉(zhuǎn)發(fā)給相應(yīng)的檢索服務(wù)器。在檢索服務(wù)器完成檢索之后,從相應(yīng)組內(nèi)的檢索服務(wù)器中獲取檢索結(jié)果,例如,得到了相應(yīng)組內(nèi)的3個檢索服務(wù)器的檢索結(jié)果檢索服務(wù)器A向其返回Ra,檢索服務(wù)器B向其返回Rb,檢索服務(wù)器C向其返回Rc。然后,檢索控制器對檢索結(jié)果Ra、Rb、Rc進行歸并排序以得到合并結(jié)果R。
根據(jù)合并結(jié)果R獲取檢索結(jié)果并生成摘要,將所生成的摘要返回給用戶。
3)檢索服務(wù)器層3再次,描述檢索服務(wù)器層3中的檢索服務(wù)器如何根據(jù)本地的核心索引進行檢索,即實現(xiàn)檢索服務(wù)器層3的檢索功能。
由于面對的是海量數(shù)據(jù),將所有數(shù)據(jù)的索引全部放在檢索服務(wù)器上不是現(xiàn)實的。因此,在本發(fā)明中,引入了“檢索服務(wù)器組”的概念。也就是,將索引分布在不同的機器上,所有這些機器組成了一個檢索服務(wù)器組。根據(jù)本發(fā)明的數(shù)字圖書館中所采用的檢索系統(tǒng)對用戶提供的服務(wù)是分庫檢索的,數(shù)據(jù)也是分庫組織的,因此,可以采用局部分布的方式,即,對應(yīng)于不同的圖書數(shù)據(jù)庫,分別建立相應(yīng)的索引,然后,由不同的檢索服務(wù)器組為用戶服務(wù)。
但是,如果將所有數(shù)據(jù)的索引都放在檢索服務(wù)器組上,當用戶并發(fā)查詢請求數(shù)增長時,那么需要的機器數(shù)目將是非常龐大的。
為了解決該問題,在本發(fā)明中,引入了“核心索引”概念。對所有數(shù)據(jù)的索引設(shè)定兩個閾值LOW_INDEX_LIST和HIGH_INDEX_LIST。然后,將索引的倒排鏈長度INVERTED_LIST_LENGTH滿足LOW_INDEX_LIST<=INVERTED_LIST_LENGTH<=HIGH_INDEX_LIST的所有倒排鏈組成的索引稱為“核心索引”。兩個閾值LOW_INDEX_LIST和HIGH_INDEX_LIST可以根據(jù)實踐來進行調(diào)整。通常,“核心索引”大小約占所有數(shù)據(jù)的索引的30%。
核心索引的建立可以采用多種依據(jù),例如,該核心索引的建立可以根據(jù)索引的歷史出現(xiàn)頻度來實現(xiàn),或者可以根據(jù)與用戶訪問行為特征相對應(yīng)的核心詞匯來實現(xiàn)。
當接收到來自檢索控制器層2的用戶查詢時,所述檢索服務(wù)器層3針對所述用戶查詢,首先在所述核心索引數(shù)據(jù)中執(zhí)行檢索以獲取檢索結(jié)果,而在核心索引數(shù)據(jù)中無法獲取檢索結(jié)果的情況下,則通過訪問索引服務(wù)器層4以獲取檢索結(jié)果,并將所獲得的檢索結(jié)果提供給檢索控制器層2。
4)索引服務(wù)器層4最后,將描述索引服務(wù)器層4中的索引服務(wù)器的配置,即實現(xiàn)索引服務(wù)器層4的海量索引數(shù)據(jù)存儲功能。
數(shù)字圖書館所涉及的索引數(shù)據(jù)可以是海量數(shù)據(jù)。由于所有索引數(shù)據(jù)的數(shù)據(jù)量十分龐大,將所有索引數(shù)據(jù)放在單臺機器上也是不現(xiàn)實的。通常,如以上所提到的,數(shù)字圖書館對數(shù)據(jù)進行處理時是按照圖書分類學把圖書數(shù)據(jù)分成多個庫為用戶提供服務(wù)的。因此,在本發(fā)明中,采用了局部分布的方式。也就是,對應(yīng)于不同的圖書數(shù)據(jù)庫,分別建立索引,加載分布在不同的索引服務(wù)器組上,所有的索引服務(wù)器組構(gòu)成檢索服務(wù)器層。
在此基礎(chǔ)上,所述索引服務(wù)器層4可以響應(yīng)檢索服務(wù)器層3的訪問從所述所有索引數(shù)據(jù)中檢索出相應(yīng)的索引以獲取檢索結(jié)果,并將檢索結(jié)果返回給檢索服務(wù)器層3。
另外,需要注意的是,為了處理多語種,在本發(fā)明的檢索過程中采用了UNICODE編碼。
下面將參考圖2來描述對圖1所示的檢索系統(tǒng)的測試平臺架構(gòu)的示意圖。更進一步,將說明基于圖1描述的體系架構(gòu),如何從數(shù)據(jù)規(guī)模小且用戶并發(fā)查詢請求數(shù)少的架構(gòu)到數(shù)據(jù)規(guī)模大且用戶并發(fā)查詢請求數(shù)大的架構(gòu)推演方案,即圖1所示的檢索系統(tǒng)的擴展問題。
如圖2所示,對圖1所示的檢索系統(tǒng)的測試平臺架構(gòu)包括4個CPU2G、內(nèi)存為8G的節(jié)點機、16個CPU2G、內(nèi)存為4G的刀片機構(gòu)成的集群平臺上測試。操作系統(tǒng)均為Redhat Linux 9.0(內(nèi)核版本2.4.26#SMP)。在圖2中的具體配置表現(xiàn)為多個模擬客戶端、千兆以太網(wǎng)、Web服務(wù)器接入設(shè)備、以及檢索服務(wù)器機群。
在該測試中的用戶實驗的數(shù)據(jù)可以包括(1)中文目次數(shù)據(jù);(2)西文目次數(shù)據(jù);(3)EBSCO數(shù)據(jù);(4)CNMARC數(shù)據(jù);(5)USMARC數(shù)據(jù)。所涉及的元數(shù)據(jù)總量為2300多萬條,容量為13.6G。
各個負載的分布為各個庫、字段(題名、摘要、出版社、作者)均勻分布,包含有單個檢索詞、2個檢索詞、3個檢索詞“與”的查詢約各占23%;兩個檢索詞“或”約占11%;4個檢索詞“與”約占10%;5個檢索詞“與”約占5%;兩個檢索詞“非”占5%。檢索結(jié)果返回前500個結(jié)果(文檔ID和權(quán)值)。
根據(jù)該測試可以得到如果在單節(jié)點上加載索引大小為2G(約2300萬條元數(shù)據(jù))的核心索引,則檢索速度為283.3應(yīng)答/秒(replies/second),檢索控制器CPU平均占用率約為27%;檢索控制器加載2個檢索服務(wù)器時,CPU平均占用率約為51%,檢索速度為555.5應(yīng)答/秒;加載1個檢索服務(wù)器CPU平均占用率約為90%,檢索速度為740.8應(yīng)答/秒。特別指出的是,分發(fā)服務(wù)器的性能不是瓶頸,通常1到2臺就可以滿足較大的并發(fā)請求數(shù)目,在推演中我們設(shè)置為2臺。
當數(shù)據(jù)規(guī)模增大時,對新增的數(shù)據(jù)建立索引,加載到新的檢索服務(wù)器上,同時把新的檢索服務(wù)器加到各個組中,具體來說,每一組檢索服務(wù)器節(jié)點的數(shù)目是由索引的總大小p和每一個節(jié)點的可用內(nèi)存大小q決定的,即,所需檢索服務(wù)器節(jié)點數(shù)目=p/q。
當用戶規(guī)模增大時,將部署更多組同構(gòu)的檢索服務(wù)器,各組檢索服務(wù)器加載相同的數(shù)據(jù)索引,同時由負載均衡器轉(zhuǎn)發(fā)用戶請求給相應(yīng)的檢索服務(wù)器組。
在此數(shù)據(jù)條件下進行推演得到2億條記錄和10000次并發(fā)請求的基于當前測試系統(tǒng)需要的硬件配置方案2億條記錄的索引大小約為20G,索引服務(wù)器需要2臺16G內(nèi)存的節(jié)點;核心索引的大小約為20×30%=6G;檢索控制器個數(shù)10000/740.8=13.49 14個;檢索服務(wù)器組數(shù)10000/283.3=35.30 36組;每組檢索服務(wù)器的節(jié)點個數(shù)6GB/2GB=3個;負載分發(fā)器2臺;因此,總的節(jié)點個數(shù)為14+38×3+2+2=132臺。
如上所述,根據(jù)本發(fā)明,構(gòu)建了面向具有海量數(shù)據(jù)、大規(guī)模用戶并發(fā)查詢請求的數(shù)字圖書館系統(tǒng)的檢索系統(tǒng)。本發(fā)明采用了四層體系框架。在實現(xiàn)上,本發(fā)明充分考慮到圖書館應(yīng)用的特點,分庫建立索引。當用戶并發(fā)查詢請求增長時,通過增加相應(yīng)的檢索控制器和檢索服務(wù)器組,以近似線性的方式增加;當數(shù)字圖書館的數(shù)據(jù)規(guī)模增加時,也以近似線性的方式增加各個檢索控制器組內(nèi)的檢索控制器和索引服務(wù)器。另外,由于采用了UINCODE編碼,所以該檢索系統(tǒng)和檢索方法獨立于語種。
盡管以上已經(jīng)結(jié)合本發(fā)明的優(yōu)選實施例示出了本發(fā)明,但是本領(lǐng)域的技術(shù)人員將會理解,在不脫離本發(fā)明的精神和范圍的情況下,可以對本發(fā)明進行各種修改、替換和改變。因此,本發(fā)明不應(yīng)由上述實施例來限定,而應(yīng)由所附權(quán)利要求及其等價物來限定。
權(quán)利要求
1.一種在數(shù)字圖書館中所采用的檢索系統(tǒng),包括包含一個或多個檢索控制器的檢索控制器層,用于將來自用戶的用戶查詢轉(zhuǎn)發(fā)到檢索服務(wù)器層,并對來自檢索服務(wù)器層的相應(yīng)檢索結(jié)果進行處理以返回給用戶;包含一個或多個檢索服務(wù)器的檢索服務(wù)器層,用于存儲數(shù)字圖書館的核心索引數(shù)據(jù),并針對所述用戶查詢首先在所述核心索引數(shù)據(jù)中執(zhí)行檢索以獲取檢索結(jié)果,而在核心索引數(shù)據(jù)中無法獲取檢索結(jié)果的情況下,則通過訪問索引服務(wù)器層以獲取檢索結(jié)果,并將所獲得的檢索結(jié)果提供給檢索控制器層;以及包含一個或多個索引服務(wù)器的索引服務(wù)器層,用于存儲數(shù)字圖書館的所有索引數(shù)據(jù),以便響應(yīng)檢索服務(wù)器層的訪問從所述所有索引數(shù)據(jù)中檢索出相應(yīng)的索引以獲取檢索結(jié)果。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于還包括分發(fā)服務(wù)器層,用于對來自用戶的用戶查詢進行負載均衡處理。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于所述負載均衡處理采用基于IP層的負載分發(fā)、基于傳輸層的負載分發(fā)、基于應(yīng)用層的負載分發(fā)來實現(xiàn)。
4.根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于所述基于IP層的負載分發(fā)包括基于IP層的Round-Robin方式。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于由所述檢索控制器層對來自檢索服務(wù)器層的相應(yīng)檢索結(jié)果進行處理通過對所述相應(yīng)檢索結(jié)果進行合并并生成摘要來實現(xiàn)。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于所述檢索控制器層對檢索結(jié)果用XML格式進行組織。
7.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于所述檢索服務(wù)器層中的檢索服務(wù)器按照對應(yīng)于不同的圖書數(shù)據(jù)庫分別建立相應(yīng)的核心索引的方式來形成相應(yīng)的檢索服務(wù)器組,并且所述索引服務(wù)器層中的索引服務(wù)器按照對應(yīng)于不同的圖書數(shù)據(jù)庫分別保存相應(yīng)的索引的方式來形成相應(yīng)的索引服務(wù)器組。
8.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于所述核心索引按照索引的倒排鏈長度處于兩個閾值之間的方式來建立。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于所述核心索引根據(jù)索引的歷史出現(xiàn)頻度來建立。
10.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于所述核心索引根據(jù)與用戶訪問行為特征相對應(yīng)的核心詞匯來建立。
11.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于當用戶并發(fā)查詢請求增長時,檢索控制器和檢索服務(wù)器組的數(shù)目以線性的方式增加。
12.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于當數(shù)字圖書館的數(shù)據(jù)規(guī)模增加時,檢索控制器和索引服務(wù)器的數(shù)目以線性的方式增加。
13.一種在數(shù)字圖書館中所采用的檢索方法,包括由檢索控制器層將來自用戶的用戶查詢轉(zhuǎn)發(fā)到檢索服務(wù)器層,并對來自檢索服務(wù)器層的相應(yīng)檢索結(jié)果進行處理以返回給用戶;由檢索服務(wù)器層針對所述用戶查詢,首先在所存儲的數(shù)字圖書館核心索引數(shù)據(jù)中執(zhí)行檢索以獲取檢索結(jié)果,而在核心索引數(shù)據(jù)中無法獲取檢索結(jié)果的情況下,則通過訪問索引服務(wù)器層以獲取檢索結(jié)果,并將所獲得的檢索結(jié)果提供給檢索控制器層;以及響應(yīng)來自檢索服務(wù)器層的訪問,由索引服務(wù)器層從所存儲的數(shù)字圖書館的所有索引數(shù)據(jù)中檢索出相應(yīng)的索引以獲取檢索結(jié)果。
14.根據(jù)權(quán)利要求13所述的方法,其特征在于還包括由分發(fā)服務(wù)器層對來自用戶的用戶查詢進行負載均衡處理。
15.根據(jù)權(quán)利要求13所述的方法,其特征在于所述負載均衡處理采用基于IP層的負載分發(fā)、基于傳輸層的負載分發(fā)、基于應(yīng)用層的負載分發(fā)來實現(xiàn)。
16.根據(jù)權(quán)利要求15所述的方法,其特征在于所述基于IP層的負載分發(fā)包括基于IP層的Round-Robin方式。
17.根據(jù)權(quán)利要求13所述的方法,其特征在于由所述檢索控制器層對來自檢索服務(wù)器層的相應(yīng)檢索結(jié)果進行處理的步驟包括對來自檢索服務(wù)器層的相應(yīng)檢索結(jié)果進行合并并生成摘要。
18.根據(jù)權(quán)利要求17所述的方法,其特征在于所述檢索控制器層對檢索結(jié)果用XML格式進行組織。
19.根據(jù)權(quán)利要求13所述的方法,其特征在于所述檢索服務(wù)器層包含一個或多個檢索服務(wù)器,所述檢索服務(wù)器按照對應(yīng)于不同的圖書數(shù)據(jù)庫分別建立相應(yīng)的核心索引的方式來形成相應(yīng)的檢索服務(wù)器組;并且所述索引服務(wù)器層包含一個或多個索引服務(wù)器,所述索引服務(wù)器按照對應(yīng)于不同的圖書數(shù)據(jù)庫分別保存相應(yīng)的索引的方式來形成相應(yīng)的索引服務(wù)器組。
20.根據(jù)權(quán)利要求13所述的方法,其特征在于所述核心索引按照索引的倒排鏈長度處于兩個閾值之間的方式來建立。
21.根據(jù)權(quán)利要求13所述的方法,其特征在于所述核心索引根據(jù)索引的歷史出現(xiàn)頻度來建立。
22.根據(jù)權(quán)利要求13所述的方法,其特征在于所述核心索引根據(jù)與用戶訪問行為特征相對應(yīng)的核心詞匯來建立。
23.根據(jù)權(quán)利要求19所述的方法,其特征在于當用戶并發(fā)查詢請求增長時,檢索控制器和檢索服務(wù)器組的數(shù)目以線性的方式增加;
24.根據(jù)權(quán)利要求19所述的方法,其特征在于當數(shù)字圖書館的數(shù)據(jù)規(guī)模增加時,檢索控制器和索引服務(wù)器的數(shù)目以線性的方式增加。
全文摘要
本發(fā)明提出了一種在數(shù)字圖書館中所采用的檢索系統(tǒng),包括包含一個或多個檢索控制器的檢索控制器層,用于將來自用戶的用戶查詢轉(zhuǎn)發(fā)到檢索服務(wù)器層,并對來自檢索服務(wù)器層的相應(yīng)檢索結(jié)果進行處理以返回給用戶;包含一個或多個檢索服務(wù)器的檢索服務(wù)器層,用于存儲數(shù)字圖書館的核心索引數(shù)據(jù),并針對所述用戶查詢首先在所述核心索引數(shù)據(jù)中執(zhí)行檢索以獲取檢索結(jié)果,而在核心索引數(shù)據(jù)中無法獲取檢索結(jié)果的情況下,則通過訪問索引服務(wù)器層以獲取檢索結(jié)果,并將所獲得的檢索結(jié)果提供給檢索控制器層;以及包含一個或多個索引服務(wù)器的索引服務(wù)器層,用于存儲數(shù)字圖書館的所有索引數(shù)據(jù),以便從所述所有索引數(shù)據(jù)中檢索出相應(yīng)的索引以獲取檢索結(jié)果。
文檔編號H04L29/06GK101051309SQ20061007207
公開日2007年10月10日 申請日期2006年4月6日 優(yōu)先權(quán)日2006年4月6日
發(fā)明者廖祥文, 孫健, 王斌, 楊東波, 程學旗 申請人:中國科學院計算技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1