亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服務(wù)系統(tǒng)的制作方法

文檔序號(hào):6602960閱讀:249來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服務(wù)系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)檢索技術(shù)領(lǐng)域,涉及一種基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索 服務(wù)系統(tǒng),主要是從框架角度設(shè)計(jì)和實(shí)現(xiàn),能夠?qū)ξ臋n進(jìn)行實(shí)時(shí)監(jiān)控和全文檢索服務(wù)。
背景技術(shù)
伴隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展和信息技術(shù)的日益成熟,網(wǎng)絡(luò)帶來(lái)的便利和快捷更加 突顯,越來(lái)越多的企事業(yè)單位及個(gè)人通過(guò)網(wǎng)絡(luò)發(fā)布和獲取信息,人們?cè)诤棋木W(wǎng)絡(luò)知識(shí)海 洋中獲取信息,主要是通過(guò)搜索引擎進(jìn)行的?,F(xiàn)有的搜索引擎主要有Google、百度、Yahoo、 中搜、Sogou等,由于網(wǎng)絡(luò)信息的膨脹速度呈指數(shù)急速增長(zhǎng),各種各樣的網(wǎng)站及Web服務(wù)都 需要為其加入檢索功能,以滿(mǎn)足用戶(hù)的需求,另外,在企業(yè)級(jí)應(yīng)用的市場(chǎng)上,全文信息檢索 的需求也一直在增加,各種文檔處理、內(nèi)容管理軟件都需要加入全文檢索的功能。全文檢索系統(tǒng)所提供的索引服務(wù)是建立在功能強(qiáng)大的索引機(jī)制的基礎(chǔ)上,其索引 的創(chuàng)建與管理對(duì)于一個(gè)搜索引擎而言是至關(guān)重要的。傳統(tǒng)全文檢索功能中索引過(guò)程控制部 分開(kāi)發(fā)流程包含以下步驟(1)定義和描述文檔數(shù)據(jù)的各種屬性及索引過(guò)程中相關(guān)的參數(shù),選擇合適的分詞
o(2)向索引添加數(shù)據(jù)信息,對(duì)文件進(jìn)行解析,抽取索引項(xiàng),建立索引表,并優(yōu)化合并 索引,最終將索引文件從內(nèi)存刷新到磁盤(pán)。(3)針對(duì)文檔信息的CRUD操作,提供相應(yīng)的索引更新機(jī)制,同時(shí)還要考慮索引備 份。(4)針對(duì)分布式環(huán)境下全文檢索系統(tǒng)的索引構(gòu)建與管理及多線(xiàn)程環(huán)境下對(duì)索引訪(fǎng) 問(wèn)和更新的同步、互斥等問(wèn)題提供對(duì)應(yīng)的策略代碼。這部分開(kāi)發(fā)與整體系統(tǒng)的業(yè)務(wù)流程相對(duì)獨(dú)立,但是現(xiàn)有的具備了全文檢索功能 Web服務(wù)系統(tǒng)或文檔信息管理軟件都在重復(fù)以上的開(kāi)發(fā),而未能從框架角度對(duì)索引過(guò)程的 控制邏輯進(jìn)行概括和抽象。傳統(tǒng)的全文檢索功能中索引過(guò)程控制部分開(kāi)發(fā)存在著重復(fù)開(kāi) 發(fā),未能從框架角度對(duì)索引過(guò)程的控制邏輯進(jìn)行概括和抽象,過(guò)多的參數(shù)設(shè)置和不同的應(yīng) 用環(huán)境導(dǎo)致了開(kāi)發(fā)人員要花費(fèi)很多的時(shí)間來(lái)進(jìn)行系統(tǒng)的調(diào)試維護(hù)和升級(jí),與目前提倡的 RAD (Rapid ApplicationDevelopment)思想相比存在著諸多缺陷。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服務(wù)系統(tǒng),利用 該系統(tǒng)能動(dòng)態(tài)地對(duì)文檔的變更作記錄并自動(dòng)執(zhí)行文檔的索引管理。本發(fā)明基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服務(wù)系統(tǒng)所采取的技術(shù)方案是該系 統(tǒng)包括文件實(shí)時(shí)監(jiān)控模塊,索引構(gòu)建模塊,索引優(yōu)化模塊,索引變更模塊,查詢(xún)檢索模塊, 日志記錄模塊,數(shù)據(jù)備份模塊和數(shù)據(jù)恢復(fù)模塊。其中,文件實(shí)時(shí)監(jiān)控模塊,用于實(shí)時(shí)監(jiān)控服務(wù)器端文檔信息的變更,啟動(dòng)日志記錄模塊和索引變更模塊;索引構(gòu)建模塊,用于分析和處理指定目錄下非結(jié)構(gòu)化的文檔,生成中間格式文件, 通過(guò)分詞器從中抽取索引項(xiàng),用于表示文檔,并生成文檔集合的索引表,由索引變更模塊啟 動(dòng),生成的索引存入索引庫(kù);索引優(yōu)化模塊,用于通過(guò)合并和優(yōu)化索引的手段提高全文索引時(shí)系統(tǒng)的效率,其 作用于索引構(gòu)建模塊所生成的索引;索引變更模塊,用于接收變更的文檔信息,包括文檔的添加、刪除和修改,從而動(dòng) 態(tài)更新索引,其作用于索引構(gòu)建模塊;查詢(xún)檢索模塊,用于為用戶(hù)提供全文檢索的搜索接口,接受來(lái)自用戶(hù)的查詢(xún)關(guān)鍵 字,對(duì)其進(jìn)行分詞,交由索引庫(kù)檢索,并返回結(jié)果集;日志記錄模塊,用于記錄管理員對(duì)服務(wù)器目錄下的文檔數(shù)據(jù)的CRUD操作,由文件 實(shí)時(shí)監(jiān)控模塊啟動(dòng);數(shù)據(jù)備份模塊,用于備份數(shù)據(jù)信息,生成備份數(shù)據(jù),以防止系統(tǒng)出現(xiàn)故障或受到惡 意攻擊而導(dǎo)致數(shù)據(jù)遭到破壞或丟失,確保數(shù)據(jù)信息從錯(cuò)誤狀態(tài)恢復(fù)到某一已知的正確狀 態(tài),由日志記錄模塊操作完成后啟動(dòng);數(shù)據(jù)恢復(fù)模塊,用于當(dāng)系統(tǒng)運(yùn)行過(guò)程中發(fā)生故障,利用數(shù)據(jù)備份整體和日志文件 將數(shù)據(jù)恢復(fù)到故障前的某個(gè)一致性狀態(tài)。所述文件實(shí)時(shí)監(jiān)控模塊包括初始化系統(tǒng)引擎模塊,用于系統(tǒng)初始化時(shí),對(duì)文件目錄遞歸遍歷,喚醒數(shù)據(jù)備份模 塊進(jìn)行數(shù)據(jù)拷貝,繼而交由索引變更模塊觸發(fā)執(zhí)行索引的初始化構(gòu)建和索引優(yōu)化;捕獲文檔添加模塊,用于實(shí)時(shí)監(jiān)控管理員添加文檔的操作;捕獲文檔刪除模塊,用于實(shí)時(shí)監(jiān)控管理員刪除過(guò)期文檔的操作;捕獲文檔更新模塊組成,用于實(shí)時(shí)監(jiān)控管理員更新文檔的操作。所述索引構(gòu)建模塊包括文本解析器,用來(lái)分析網(wǎng)頁(yè)和文檔的內(nèi)容,統(tǒng)一為無(wú)格式文檔或中間格式文檔,索引器,用于對(duì)文本解析器處理和分析非結(jié)構(gòu)化文檔結(jié)果進(jìn)行再處理,依次讀取 分析索引項(xiàng),利用預(yù)設(shè)的索引項(xiàng)字典建立按索引項(xiàng)排列的鏈表,并動(dòng)態(tài)更改索引字典,最終 完成按照索引項(xiàng)組織的索引列表、索引字典和文檔索引。所述索引優(yōu)化模塊包括離線(xiàn)索引優(yōu)化模塊,用于文檔更新時(shí),在離線(xiàn)下作用于索引構(gòu)建模塊,調(diào)用相應(yīng)的 優(yōu)化函數(shù)調(diào)整、優(yōu)化離線(xiàn)索引;離線(xiàn)索引合并模塊,用于將一系列小的索引文件合并為一個(gè)索引文件,以提高檢 索效率,其和離線(xiàn)索引優(yōu)化模塊一起共同對(duì)離線(xiàn)索引改造、優(yōu)化,生成最終的優(yōu)化索引。索引服務(wù)切換模塊,用于將離線(xiàn)索引與當(dāng)前的服務(wù)索引進(jìn)行切換,保證離線(xiàn)索引 的正常優(yōu)化運(yùn)轉(zhuǎn),不影響服務(wù)索引的檢索效率。所述索引變更模塊包括文檔添加處理模塊,用于接收添加的文檔信息,從而動(dòng)態(tài)更新索引;文檔刪除處理模塊,用于接收刪除的文檔信息,從而動(dòng)態(tài)更新索引;文檔修改處理模塊,用于接收修改的文檔信息,從而動(dòng)態(tài)更新索引。
所述查詢(xún)檢索模塊包括關(guān)鍵字提交模塊,用于向用戶(hù)提供全文檢索關(guān)鍵字提交頁(yè)面,為全文檢索系統(tǒng)獲 取用戶(hù)提交查詢(xún)請(qǐng)求提供接口,并按照一定的分詞策略對(duì)接收到的關(guān)鍵字進(jìn)行分詞處理;后臺(tái)檢索模塊,用于負(fù)責(zé)將接收到的關(guān)鍵字及用戶(hù)組信息提交給索引庫(kù)進(jìn)行檢 索,然后從索引庫(kù)獲取檢索結(jié)果并排序;快照生成模塊,用于根據(jù)返回結(jié)果集生成結(jié)果快照,并負(fù)責(zé)生成結(jié)果頁(yè)面將結(jié)果 顯示給用戶(hù)。本發(fā)明采取上述技術(shù)方案所設(shè)計(jì)開(kāi)發(fā)的基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服 務(wù)系統(tǒng),由于提供了索引過(guò)程和數(shù)據(jù)備份中需要的各種參數(shù)、服務(wù)形式和相應(yīng)的部署方案, 基本上涵蓋常用全文檢索系統(tǒng)的開(kāi)發(fā)需求,為開(kāi)發(fā)者提供一套集實(shí)時(shí)監(jiān)控和數(shù)據(jù)恢復(fù)功能 在內(nèi)的高效、完整的全文檢索服務(wù)框架,具有支持快速應(yīng)用開(kāi)發(fā)、系統(tǒng)易于部署維護(hù)、查全 率高、使用方便等諸多優(yōu)點(diǎn)。


圖1表示本發(fā)明系統(tǒng)結(jié)構(gòu)方框圖2表示本發(fā)明文件實(shí)時(shí)監(jiān)控模塊結(jié)構(gòu)方框圖3表示本發(fā)明索引構(gòu)建模塊結(jié)構(gòu)方框圖4表示本發(fā)明索引優(yōu)化模塊結(jié)構(gòu)方框圖5表示本發(fā)明索引變更模塊結(jié)構(gòu)方框圖6表示本發(fā)明查詢(xún)檢索模塊結(jié)構(gòu)方框圖7表示本發(fā)明索引器上下文環(huán)境方框圖8表示本發(fā)明系統(tǒng)中索引層次結(jié)構(gòu)方框圖9表示本發(fā)明系統(tǒng)中索引初始化構(gòu)建基本流程圖10表示本發(fā)明系統(tǒng)中索引管理基本流程圖11表示本發(fā)明系統(tǒng)中多檢索器跨索引檢索基本結(jié)構(gòu)方框圖
圖12是本發(fā)明系統(tǒng)中檢索查詢(xún)基本流程圖13是本發(fā)明系統(tǒng)中數(shù)據(jù)信息備份原理示意圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作具體說(shuō)明。參見(jiàn)圖1,圖1表示本發(fā)明基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服務(wù)系統(tǒng)的結(jié)構(gòu) 方框圖,包括文件實(shí)時(shí)監(jiān)控模塊100,索引構(gòu)建模塊200,索引優(yōu)化模塊300,索引變更模塊 400,查詢(xún)檢索模塊500,日志記錄模塊600,數(shù)據(jù)備份模塊700,數(shù)據(jù)恢復(fù)模塊800。系統(tǒng)在初 始化時(shí),管理員需要對(duì)系統(tǒng)屬性和實(shí)際應(yīng)用需求參數(shù)進(jìn)行配置,如索引配置文件和數(shù)據(jù)備 份配置文件的配置工作;系統(tǒng)配置完畢后,需要先對(duì)系統(tǒng)原有的文檔數(shù)據(jù)進(jìn)行解析,構(gòu)造索 引庫(kù),并優(yōu)化合并成總索引;使用中,文檔信息的變更(管理員對(duì)文檔信息的CRUD操作)被 文件實(shí)時(shí)監(jiān)控模塊100捕獲后,將啟動(dòng)日志記錄模塊600記錄管理員的操作,然后轉(zhuǎn)交給數(shù) 據(jù)備份模塊700復(fù)制變更的文檔信息更新備份數(shù)據(jù),數(shù)據(jù)備份完成之后,索引變更模塊400 被喚醒,根據(jù)操作類(lèi)別的不同,執(zhí)行相應(yīng)的策略流程,繼而交由索引構(gòu)建模塊200進(jìn)行索引的更新與重構(gòu),同時(shí),索引優(yōu)化模塊300通過(guò)優(yōu)化函數(shù)和索引合并等手段對(duì)新生索引優(yōu)化 處理,最終導(dǎo)入索引庫(kù),用戶(hù)通過(guò)前臺(tái)查詢(xún)界面輸入關(guān)鍵字,提交給查詢(xún)檢索模塊500,從索 引庫(kù)獲取結(jié)果集,渲染成Web頁(yè)面反饋給用戶(hù),當(dāng)系統(tǒng)出現(xiàn)故障或受到惡意攻擊而導(dǎo)致原 始數(shù)據(jù)遭到破壞或丟失時(shí),管理員可啟動(dòng)數(shù)據(jù)恢復(fù)模塊800,加載日志記錄和備份數(shù)據(jù)恢復(fù) 原始數(shù)據(jù)。文件實(shí)時(shí)監(jiān)控模塊100是整個(gè)系統(tǒng)的核心模塊,用于實(shí)時(shí)監(jiān)控服務(wù)器端文檔信息 的變更,屬于后臺(tái)服務(wù),任何文檔的變更都將被捕獲,針對(duì)不同的操作啟動(dòng)相應(yīng)的任務(wù)模塊 處理。文件實(shí)時(shí)監(jiān)控模塊100所調(diào)度的模塊按性能可劃分為索引過(guò)程和數(shù)據(jù)備份過(guò)程兩 類(lèi)。其中索引過(guò)程包括索引構(gòu)建模塊200、索引優(yōu)化模塊300和索變更模塊400,數(shù)據(jù)備份過(guò) 程包括日志記錄模塊600、數(shù)據(jù)備份模塊700和數(shù)據(jù)恢復(fù)模塊800。參見(jiàn)圖2,文件實(shí)時(shí)監(jiān)控 模塊100包括初始化系統(tǒng)引擎模塊210、捕獲文檔添加模塊220、捕獲文檔刪除模塊230和 捕獲文檔更新模塊240。文件實(shí)時(shí)監(jiān)控模塊100提供了一整套的實(shí)時(shí)監(jiān)控機(jī)制以完成索引 初始化構(gòu)建及對(duì)所捕獲到的操作觸發(fā)相應(yīng)的策略流程。當(dāng)系統(tǒng)初始化時(shí),文件實(shí)時(shí)監(jiān)控模 塊100獲知文檔信息的文件目錄,啟動(dòng)初始化系統(tǒng)引擎模塊210,對(duì)目錄遞歸遍歷,依次讀 入所有文檔,同時(shí)喚醒數(shù)據(jù)備份模塊700進(jìn)行數(shù)據(jù)拷貝,繼而交由索引變更模塊400觸發(fā)執(zhí) 行索引的初始化構(gòu)建和索引優(yōu)化。由于不需要?jiǎng)?chuàng)建日志記錄,初始化系統(tǒng)引擎模塊210不 與日志記錄模塊600發(fā)生交互。在后期的系統(tǒng)使用維護(hù)過(guò)程中,管理員所有的CRUD操作都 會(huì)被文件實(shí)時(shí)監(jiān)控模塊100所捕獲,細(xì)分為上傳添加文檔、刪除過(guò)期文檔、更新文檔三種, 并分別交由捕獲文檔添加模塊220、捕獲文檔刪除模塊230、捕獲文檔更新模塊240完成,并 在執(zhí)行處理之前,操作的具體信息都已寫(xiě)入日志,且變更的文檔信息也已備份完成,以便于 數(shù)據(jù)恢復(fù)。索引構(gòu)建模塊是實(shí)時(shí)全文檢索服務(wù)系統(tǒng)的核心模塊,用于分析和處理指定目錄下 非結(jié)構(gòu)化的文檔,生成中間格式文件,通過(guò)分詞器從中抽取索引項(xiàng),用于表示文檔,并生成 文檔集合的索引表。參見(jiàn)圖3,索引構(gòu)建模塊200包括文本解析器310和索引器320,其接受 來(lái)自索引變更模塊400描述的文檔變更信息以完成索引的構(gòu)建,索引器的上下文環(huán)境如圖 7所示,原始文本庫(kù)710指網(wǎng)絡(luò)蜘蛛從網(wǎng)上獲取的網(wǎng)頁(yè)及本地存儲(chǔ)的各種格式文本的原始 備份,原始文本庫(kù)710保留了文本的完整原始格式,主要為后續(xù)解析器提供數(shù)據(jù)源;文本解 析器310用來(lái)分析網(wǎng)頁(yè)和文檔的內(nèi)容,統(tǒng)一為無(wú)格式文檔或中間格式文檔,文本解析器310 往往是一系列不同文檔格式的分析和處理程序,通常還包括中文分詞、垃圾信息過(guò)濾、為索 引器提供統(tǒng)一的可分析數(shù)據(jù);文本中間格式庫(kù)720是經(jīng)過(guò)文本解析器310處理后得到的純 文本或者統(tǒng)一中間格式的數(shù)據(jù)庫(kù),已經(jīng)去除了噪音和其他垃圾信息,并且根據(jù)需要完成了 分詞等處理過(guò)程,可以為索引器320提供輸入數(shù)據(jù);文本索引庫(kù)730是以索引形式組織存放 的數(shù)據(jù)文件,在全文檢索系統(tǒng)中,通常采用倒排索引方式;索引字典740是詞和編碼的二元 組結(jié)構(gòu)數(shù)據(jù)庫(kù),對(duì)每個(gè)詞匯都有一個(gè)惟一的縮寫(xiě)對(duì)應(yīng),在建立索引過(guò)程中,完成索引項(xiàng)的轉(zhuǎn) 換,以減少磁盤(pán)和內(nèi)存的使用量。全文檢索的文檔內(nèi)容通常包括文檔的附屬信息、文檔的內(nèi)容信息。文檔在索引之 前通常會(huì)利用預(yù)處理程序和分詞程序解析內(nèi)容轉(zhuǎn)化成中間文檔格式,進(jìn)而交由索引器320 生成索引字典740和文本索引庫(kù)730寫(xiě)入索引庫(kù)。索引器320是系統(tǒng)的核心組件,主要功 能是對(duì)文本解析器310處理和分析非結(jié)構(gòu)化文檔結(jié)果進(jìn)行再處理,依次讀取分析索引項(xiàng),利用預(yù)設(shè)的索引項(xiàng)字典建立按索引項(xiàng)排列的鏈表,并動(dòng)態(tài)更改索引字典740,最終完成按照 索引項(xiàng)組織的索引列表、索引字典和文檔索引,用于表示文檔以及生成文檔庫(kù)的索引表。索 引變更模塊400對(duì)操作預(yù)處理后,借助于系統(tǒng)提供的索引鎖write, lock和commit, lock以 保證索引器320同步和并發(fā)地執(zhí)行。文本解析器310和索引器320協(xié)同工作,統(tǒng)一完成了 索引的建立和維護(hù)管理工作,文本索引庫(kù)統(tǒng)一保存對(duì)應(yīng)的文檔索引。圖8表示本發(fā)明索引層次結(jié)構(gòu)。系統(tǒng)的索引采用了一套非常高效的數(shù)據(jù)結(jié)構(gòu),通 常以單個(gè)或一系列索引文件形式存放在系統(tǒng)目錄中,索引文件可以存放在硬盤(pán)或內(nèi)存中。 索引結(jié)構(gòu)以文件形式存儲(chǔ),不依賴(lài)于數(shù)據(jù)庫(kù)或者某種特定平臺(tái),并且支持分塊索引,對(duì)新加 入的文件建立新的索引,縮短索引生效時(shí)間,然后通過(guò)索引合并建立整體索引。具體說(shuō)明如 下索引索引結(jié)構(gòu)最終體現(xiàn)到特定格式的磁盤(pán)文件來(lái)存儲(chǔ),索引在內(nèi)存和磁盤(pán)中,使 用相同的邏輯結(jié)構(gòu),每個(gè)索引的結(jié)構(gòu)由一個(gè)或多個(gè)索引段組成。磁盤(pán)文件包括當(dāng)前活躍索 引段和新建的索引文件,通過(guò)工具整理可以把分段合并為統(tǒng)一的索引段。索引段通常一個(gè)索引會(huì)包含一個(gè)或多個(gè)索引段。在每次創(chuàng)建過(guò)程中,文檔都是添 加到特定的段里,然后索引段會(huì)根據(jù)參數(shù)合并。索引段相當(dāng)于子索引,新建的索引通常以一 個(gè)新段形式出現(xiàn),在合并操作后每個(gè)索引體系通常只包含一個(gè)索引段。索引文檔索引文件是索引器320可以直接添加的對(duì)象。每個(gè)索引可以包含多個(gè) 不同的文檔,每個(gè)文檔又管理了數(shù)目不等的域集合,這里的文檔是一個(gè)邏輯概念。文檔最后 被添加到索引中,在相應(yīng)的索引文件中存儲(chǔ),為檢索做好準(zhǔn)備。任何實(shí)際希望添加到索引的 文件都必須生成索引才能使用。索引域索引域是索引文檔對(duì)象的基本組成單位。每個(gè)域內(nèi)存儲(chǔ)了實(shí)際的索引文 本數(shù)據(jù),這些文本數(shù)據(jù)在內(nèi)部調(diào)用了分析器的索引項(xiàng)結(jié)果。域內(nèi)數(shù)據(jù)的檢索查詢(xún)最終是以 索引項(xiàng)為單位的,比索引項(xiàng)更小的單位無(wú)法檢索到。通常英文的索引項(xiàng)是以單詞為檢索單 位,中文的索引項(xiàng)是以中文分詞的結(jié)果作為檢索單位。索引項(xiàng)索引項(xiàng)是索引管理的最小單位,它是利用文本解析器310,后臺(tái)自動(dòng)把一 個(gè)域的值進(jìn)行分割。得到的每一個(gè)獨(dú)立的元素作為一個(gè)索引項(xiàng),用于建立索引。系統(tǒng)根據(jù)選用的索引生成形式不同,可以分成復(fù)合索引格式和多文件索引格式。 復(fù)合索引通常在靜態(tài)索引中比較合適,而在動(dòng)態(tài)索引中采用多文件索引更為方便。圖9表示本發(fā)明索引初始化構(gòu)建基本流程圖。全文檢索功能在首次的時(shí)候,索引 庫(kù)是不存在的,因此系統(tǒng)在初始化的時(shí)候,需要加載已經(jīng)存在的文檔信息,以構(gòu)建一個(gè)初始 化的索引庫(kù)。首先生成一個(gè)FileReader對(duì)象S901以對(duì)目錄下已經(jīng)存在的文檔進(jìn)行遞歸遍歷, 依次讀入所有文檔,準(zhǔn)備索引目錄S902,加載配置文件設(shè)定的參數(shù),創(chuàng)建標(biāo)準(zhǔn)的文本分析 器S903,創(chuàng)建空的文檔對(duì)象S904,對(duì)文檔內(nèi)容解析,從中抽取出索引項(xiàng),用于表示文檔,生 成文檔集合的索引表和文件名域S905,并添加文件名域到文檔S906 ;其次,生成文件內(nèi)容 域S907,從而添加文件名域到文檔S908,然后,添加新的索引文檔S909,判斷索引內(nèi)容是否 添加完畢S911,如果沒(méi)有,轉(zhuǎn)到創(chuàng)建空的文檔對(duì)象S904,循環(huán)執(zhí)行直至對(duì)文檔遍歷完成;最 后,調(diào)用索引優(yōu)化模塊300完成相關(guān)的索引優(yōu)化,關(guān)閉索引S910,將其從內(nèi)存刷新入磁盤(pán)的 索引庫(kù)。
參見(jiàn)圖4,索引優(yōu)化模塊300包括離線(xiàn)索引優(yōu)化模塊410、離線(xiàn)索引合并模塊420 和索引服務(wù)切換模塊430。在索引建立過(guò)程中,需要考慮如何提高索引建立的速度,如何減 少索引的資源占用,索引的使用當(dāng)中如何合理地分配有限的內(nèi)存資源,如何提高資源的訪(fǎng) 問(wèn)速度,類(lèi)似于上述的所有關(guān)于索引性能方面的問(wèn)題都是由索引優(yōu)化模塊300處理的;根據(jù)索引生成形式的不同,可以分為復(fù)合索引格式和多文件索引格式。索引的建 立過(guò)程會(huì)處理海量數(shù)據(jù),生成的索引段和索引文件會(huì)非常龐大,具體實(shí)現(xiàn)當(dāng)中需要根據(jù)實(shí) 際的應(yīng)用需求選用不同的索引形式。復(fù)合索引通常在靜態(tài)索引中比較合適,而在動(dòng)態(tài)索引 中采用多文件索引更為方便。系統(tǒng)支持多種索引文件的格式的選擇,以適用于不同的應(yīng)用 需求。為了保證索引更新不影響檢索服務(wù)的響應(yīng)效率,系統(tǒng)提供了離線(xiàn)索引和服務(wù)索引相 結(jié)合的索引機(jī)制。更新的索引離線(xiàn)處理,當(dāng)更新完成后,直接切換索引服務(wù),從而保證了檢 索效率。當(dāng)文檔更新時(shí),離線(xiàn)索引優(yōu)化模塊410在離線(xiàn)下作用于索引構(gòu)建模塊200,調(diào)用相 應(yīng)的優(yōu)化函數(shù)調(diào)整、優(yōu)化離線(xiàn)索引,同時(shí)離線(xiàn)索引合并模塊420將一系列小的索引文件合 并為一個(gè)索引文件,以提高檢索效率。二者對(duì)離線(xiàn)索引共同改造、優(yōu)化生成最終的優(yōu)化索 引,在二者均完成的前提下,索引服務(wù)切換模塊430被喚醒,將離線(xiàn)索引與當(dāng)前的服務(wù)索引 進(jìn)行切換,從而既保證了離線(xiàn)索引的正常優(yōu)化運(yùn)轉(zhuǎn),又不影響服務(wù)索引的檢索效率。參見(jiàn)圖5,索引變更模塊400包括文檔添加處理模塊510、文檔刪除處理模塊520 和文檔修改處理模塊530。由于三個(gè)模塊均作用于索引構(gòu)建模塊200,在多線(xiàn)程的環(huán)境下動(dòng) 態(tài)索引和增量索引會(huì)不可避免地會(huì)遇到同步問(wèn)題。系統(tǒng)為全文檢索和并發(fā)訪(fǎng)問(wèn)控制提供了 一系列機(jī)制來(lái)保證索引文件不會(huì)同時(shí)被兩個(gè)對(duì)象操作,保證了索引同步和并發(fā)時(shí)的一致性 和完整性。系統(tǒng)提供了 write, lock和commit, lock兩種索引鎖,實(shí)際是一個(gè)臨時(shí)文件。索 引器320執(zhí)行操作前會(huì)查看該文件是否存在,如果存在,后面的操作需要等待前面的操作 完成。write, lock鎖是為了避免幾個(gè)線(xiàn)程同時(shí)修改一個(gè)索引文檔而設(shè)置的,當(dāng)索引建立、添 加文檔和刪除文檔時(shí)使用;commit, lock鎖主要在索引段建立、合并或讀取時(shí)使用,當(dāng)索引 或段合并完成,會(huì)自動(dòng)刪除。圖10表示本發(fā)明索引管理基本流程圖。系統(tǒng)的索引采用文檔作為邏輯單位,索引 的管理也對(duì)應(yīng)到了對(duì)文檔的管理上,文檔管理功能主要體現(xiàn)在對(duì)索引的各種主要操作,包 括文檔的添加、文檔的刪除、文檔的修改更新。索引的創(chuàng)建、刪除與更新均是由索引器320完成的。當(dāng)文檔信息的更新時(shí),索引器 320將隨之變更索引,刷新索引庫(kù),索引更新的流程采用的是先刪除后構(gòu)建的方式實(shí)現(xiàn)的。 具體流程如下索引構(gòu)建模塊200獲知文件實(shí)時(shí)監(jiān)控模塊100捕獲的操作,判定出選擇何種索引 操作S1000,具體分為添加、刪除和修改索引。(1)索引添加具體執(zhí)行步驟首先創(chuàng)建索引分析器S1001,針對(duì)不同的文 本和應(yīng)用環(huán)境,系統(tǒng)提供了多種分析器以供選擇,常用的包括SimpleAnalyzer和 StandardAnalyzer。創(chuàng)建索引生成器S1002,并生成索引文檔S1003,繼而生成并添加索引 域S1004,添加索引文檔S1005,最后喚醒索引優(yōu)化模塊400完成索引的優(yōu)化,并關(guān)閉索引 S1006將其從內(nèi)存寫(xiě)入磁盤(pán)的索引庫(kù)。(2)刪除索引具體執(zhí)行步驟首先創(chuàng)建索引管理器S1007,建立索引項(xiàng)用于刪除S1008,對(duì)已經(jīng)被刪除的文檔信息進(jìn)行分析,同時(shí)刪除符合條件的索引S1009,關(guān)閉索引 S1010將其從內(nèi)存寫(xiě)入磁盤(pán)的索引庫(kù)。(3)修改索引首先創(chuàng)建索引修改器S1011,對(duì)于已經(jīng)被修改的文檔信息分析處 理,采用先刪除,后添加索引的組合方式實(shí)現(xiàn)了對(duì)索引文檔的修改操作S1012,繼而完成索 引優(yōu)化S1013,關(guān)閉索引S1014將其從內(nèi)存寫(xiě)入磁盤(pán)的索引庫(kù)。圖11表示本發(fā)明多檢索器跨索引檢索基本結(jié)構(gòu)方框圖。在一些應(yīng)用場(chǎng)合,全文 檢索系統(tǒng)需要從不同的索引文件中進(jìn)行聯(lián)合檢索。如果數(shù)據(jù)比較小可以考慮合并成一個(gè) 單獨(dú)的索引進(jìn)行,如果索引數(shù)據(jù)比較大且還有其他檢索要求,為了效率和存儲(chǔ)案例,必須 實(shí)現(xiàn)對(duì)多個(gè)索引的聯(lián)合檢索。針對(duì)此應(yīng)用需求,系統(tǒng)提供了對(duì)跨索引檢索MultiSearcher 的支持,通過(guò)相應(yīng)的配置,即可完成多檢索器跨索引檢索,從而適用于分布式索引環(huán)境。 MultiSearcher可以從不同的索引文件中查找需要的結(jié)果,按照排序規(guī)則排序后,作為統(tǒng)一 的結(jié)果集反饋給用戶(hù)。MultiSearcher的出現(xiàn)使索引文件的分布式存儲(chǔ)成為可能,避免了過(guò) 于龐大的單一索引文件造成的存儲(chǔ)和管理困難。參見(jiàn)圖6,查詢(xún)檢索模塊500包括關(guān)鍵字提交模塊610、后臺(tái)檢索模塊620和快照 生成模塊630。關(guān)鍵字提交模塊610向用戶(hù)提供全文檢索關(guān)鍵字提交頁(yè)面,為全文檢索系 統(tǒng)獲取用戶(hù)提交查詢(xún)請(qǐng)求提供接口,并按照一定的分詞策略對(duì)接收到的關(guān)鍵字進(jìn)行分詞處 理。關(guān)鍵字提交模塊610獲得用戶(hù)輸入的關(guān)鍵字后,將關(guān)鍵字分割成若干個(gè)具有詞義的單 詞,并將分詞后的關(guān)鍵字以及用戶(hù)組信息傳遞給后臺(tái)檢索模塊620 ;后臺(tái)檢索模塊620負(fù)責(zé) 將接收到的關(guān)鍵字及用戶(hù)組信息提交給索引庫(kù)進(jìn)行檢索,然后從索引庫(kù)獲取檢索結(jié)果并排 序;快照生成模塊630能夠根據(jù)返回結(jié)果集生成結(jié)果快照,使檢索結(jié)果易于閱讀,并負(fù)責(zé)生 成結(jié)果頁(yè)面將結(jié)果顯示給用戶(hù)。查詢(xún)檢索模塊500內(nèi)各模塊間的數(shù)據(jù)流傳遞細(xì)節(jié)如下關(guān)鍵字提交模塊610對(duì)從 用戶(hù)接受的檢索關(guān)鍵字進(jìn)行適當(dāng)策略的分詞,使檢索結(jié)果更加精準(zhǔn),然后將分詞后的檢索 詞以及用戶(hù)組信息交給后臺(tái)檢索模塊620;后臺(tái)檢索模塊620接收分詞后的檢索詞,然后分 別將關(guān)鍵詞遞交給索引庫(kù)與索引中對(duì)應(yīng)域進(jìn)行匹配,并從索引庫(kù)返回命中的記錄并對(duì)返回 結(jié)果集進(jìn)行排序,然后將結(jié)果集與關(guān)鍵詞交給快照生成模塊630,其中結(jié)果集中的每條結(jié)果 記錄包括網(wǎng)頁(yè)URL、標(biāo)題和內(nèi)容三個(gè)域;快照生成模塊630將索引標(biāo)題和內(nèi)容字段中與關(guān)鍵 詞相關(guān)內(nèi)容高亮顯示,并在內(nèi)容字段中取出最相關(guān)的段落顯示在結(jié)果返回頁(yè)面,使用戶(hù)更 加直觀(guān)地閱讀結(jié)果集。后臺(tái)檢索模塊620根據(jù)排序策略對(duì)返回的所有鏈接進(jìn)行排序,將對(duì) 用戶(hù)來(lái)說(shuō)更重要的鏈接排在列表前面,并將排序后的鏈接及快照結(jié)果返回給用戶(hù),即完成 檢索服務(wù)。這個(gè)處理過(guò)程就是搜索查詢(xún)的基本流程,包括查詢(xún)關(guān)鍵詞預(yù)處理、文本庫(kù)匹配、相 似度和排名計(jì)算以及文檔排重和結(jié)果頁(yè)生成,整體處理流程如圖12所示。檢索查詢(xún)模塊 500直接使用了索引過(guò)程中的字典和文檔索引庫(kù),獲取的數(shù)據(jù)結(jié)果內(nèi)容都是索引提供的。用 戶(hù)查詢(xún)請(qǐng)求輸入S1201輸入查詢(xún)關(guān)鍵詞后,查詢(xún)?cè)~的預(yù)處理S1202是針對(duì)關(guān)鍵詞的凈化和 篩選過(guò)程,通常首先過(guò)濾關(guān)鍵詞中的停用詞,截?cái)喑L(zhǎng)查詢(xún)?cè)~,最后利用分詞程序獲得檢索 項(xiàng)組合;查詢(xún)?cè)~格式化S1203是通過(guò)索引字典對(duì)檢索項(xiàng)進(jìn)行轉(zhuǎn)化,把檢索詞匯轉(zhuǎn)化成最終 的詞匯索引編碼形式,為后續(xù)處理提供方便;文本庫(kù)索引匹配S1204是使用查詢(xún)?cè)~的格式 化的表示從文本倒排索引庫(kù)中獲取匹配的檢索結(jié)果;相似度和排序計(jì)算S1205是按照全文檢索特定的計(jì)算公式?jīng)Q定結(jié)果文檔的排列次序;結(jié)果排重和生成S1206用來(lái)判斷結(jié)果是否 重復(fù),避免同一文檔多次出現(xiàn),判斷的依據(jù)是文檔的內(nèi)容和文檔編號(hào)。整個(gè)流程中的幾個(gè)功 能模塊協(xié)同工作,統(tǒng)一完成了檢索和結(jié)果的展示。用戶(hù)查詢(xún)請(qǐng)求通常采用Web方式輸入,全文檢索服務(wù)得到用戶(hù)遠(yuǎn)程提交的檢索詞 內(nèi)容。在本地搜索和硬盤(pán)搜索等特定場(chǎng)合,也可以采用程序接口來(lái)實(shí)現(xiàn)。日志記錄模塊600用于記錄管理員對(duì)服務(wù)器目錄下的文檔數(shù)據(jù)的CRUD操作,日 志記錄的內(nèi)容主要包括事務(wù)標(biāo)識(shí)、操作類(lèi)型(新增、修改、刪除)、操作對(duì)象、更新前數(shù)據(jù)舊 值、更新后數(shù)據(jù)新值。日志記錄模塊遵循兩條原則一是登記的次序嚴(yán)格按照并發(fā)事務(wù)執(zhí)行 的時(shí)間次序;二是必須先寫(xiě)日志文件,后修改文檔信息。參見(jiàn)圖13,數(shù)據(jù)備份模塊700根據(jù)管理員的設(shè)置,自動(dòng)把整個(gè)文檔信息復(fù)制到另 一個(gè)磁盤(pán)上。每當(dāng)主數(shù)據(jù)信息更新時(shí),數(shù)據(jù)備份模塊700自動(dòng)把更新后的數(shù)據(jù)復(fù)制過(guò)去, 即系統(tǒng)自動(dòng)保證備份數(shù)據(jù)與主數(shù)據(jù)信息的一致性,如圖13(a)所示,這樣,一旦出現(xiàn)介質(zhì)故 障,可由備份磁盤(pán)繼續(xù)提供使用,同時(shí)系統(tǒng)自動(dòng)利用備份磁盤(pán)數(shù)據(jù)進(jìn)行數(shù)據(jù)信息的恢復(fù),不 需要關(guān)閉系統(tǒng)和重裝數(shù)據(jù)信息的副本,如圖13(b)所示。由于備份數(shù)據(jù)是通過(guò)復(fù)制數(shù)據(jù)實(shí) 現(xiàn)的,頻繁地復(fù)制數(shù)據(jù)自然會(huì)降低系統(tǒng)運(yùn)行時(shí)的效率,因此在實(shí)際應(yīng)用中,可以只選擇對(duì)關(guān) 鍵數(shù)據(jù)和日志文件備份,而不是對(duì)整個(gè)原始數(shù)據(jù)文檔庫(kù)進(jìn)行備份。數(shù)據(jù)恢復(fù)模塊800用于當(dāng)系統(tǒng)運(yùn)行過(guò)程中發(fā)生故障,利用數(shù)據(jù)備份整本和日志文 件可以將數(shù)據(jù)恢復(fù)到故障前的某個(gè)一致性狀態(tài),從而保證了前臺(tái)系統(tǒng)能夠處于一種相對(duì)穩(wěn) 定的狀態(tài)?;謴?fù)的步驟是1、正向掃描日志文件,找出在故障發(fā)生前已經(jīng)提交的事務(wù),將其 事務(wù)標(biāo)識(shí)記入重做隊(duì)列,同時(shí)找出故障發(fā)生時(shí)尚未完成的事務(wù),將其事務(wù)標(biāo)識(shí)記入撤銷(xiāo)隊(duì) 列;2、對(duì)撤銷(xiāo)隊(duì)列中的各個(gè)事務(wù)進(jìn)行撤銷(xiāo)(UNDO)處理,反向掃描日志文件,對(duì)每個(gè)UNDO事 務(wù)的更新操作執(zhí)行逆操作,即將日志記錄中“更新前的值”重新寫(xiě)入到服務(wù)器相應(yīng)的文件目 錄下;3、對(duì)重做隊(duì)列中的各個(gè)事務(wù)進(jìn)行重做(REDO)處理,正向掃描日志文件,對(duì)每個(gè)重做 (REDO)事務(wù)重新執(zhí)行日志文件登記操作,即將日志記錄中“更新后的值”寫(xiě)入到服務(wù)器相應(yīng) 的文件目錄下。本發(fā)明基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服務(wù)系統(tǒng)的工作過(guò)程描述如下系統(tǒng)在投入使用時(shí),管理員需要配置系統(tǒng)屬性及實(shí)際應(yīng)用需求參數(shù),配置文件中 提供了常用檢索服務(wù)所涉及的各項(xiàng)參數(shù)及服務(wù)形式,包括1)完成索引配置文檔的配置工 作,定制索引過(guò)程服務(wù);2)完成數(shù)據(jù)備份配置文檔的配置工作,定制數(shù)據(jù)備份服務(wù)。全文檢 索服務(wù)的基礎(chǔ)是擁有完整健全的索引機(jī)制,在系統(tǒng)配置完成之后,需要先對(duì)系統(tǒng)原有的文 檔數(shù)據(jù)解析構(gòu)造服務(wù)索引庫(kù)。在日常的系統(tǒng)使用過(guò)程中,文檔信息的變更被文件實(shí)時(shí)監(jiān)控 模塊100捕獲后,將啟動(dòng)日志記錄模塊600記錄管理員的操作,然后轉(zhuǎn)交給數(shù)據(jù)備份模塊 700復(fù)制變更的文檔信息更新備份數(shù)據(jù)。數(shù)據(jù)備份完成之后,索引變更模塊400被喚醒,根 據(jù)操作的類(lèi)別的不同,執(zhí)行相應(yīng)的策略流程,繼而交由索引構(gòu)建模塊200進(jìn)行索引的更新 與重構(gòu),同時(shí),索引優(yōu)化模塊300通過(guò)優(yōu)化函數(shù)和索引合并等手段對(duì)新生索引優(yōu)化處理,最 終導(dǎo)入索引庫(kù)。用戶(hù)通過(guò)前臺(tái)查詢(xún)界面輸入關(guān)鍵字,提交給查詢(xún)檢索模塊500,從索引庫(kù)獲 取結(jié)果集,渲染成Web頁(yè)面反饋給用戶(hù)。當(dāng)系統(tǒng)出現(xiàn)故障或受到惡意攻擊而導(dǎo)致原始數(shù)據(jù) 遭到破壞或丟失時(shí),管理員可啟動(dòng)數(shù)據(jù)恢復(fù)模塊800,加載日志記錄和備份數(shù)據(jù)恢復(fù)原始數(shù) 據(jù)。本發(fā)明的系統(tǒng)支持在原有的系統(tǒng)中擴(kuò)展全文檢索功能,而不需要對(duì)原有系統(tǒng)代碼及文檔信息進(jìn)行任何改動(dòng)。
權(quán)利要求
一種基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服務(wù)系統(tǒng),其特征在于該系統(tǒng)包括文件實(shí)時(shí)監(jiān)控模塊,索引構(gòu)建模塊,索引優(yōu)化模塊,索引變更模塊,查詢(xún)檢索模塊,日志記錄模塊,數(shù)據(jù)備份模塊和數(shù)據(jù)恢復(fù)模塊,其中,文件實(shí)時(shí)監(jiān)控模塊,用于實(shí)時(shí)監(jiān)控服務(wù)器端文檔信息的變更,啟動(dòng)日志記錄模塊和索引變更模塊;索引構(gòu)建模塊,用于分析和處理指定目錄下非結(jié)構(gòu)化的文檔,生成中間格式文件,通過(guò)分詞器從中抽取索引項(xiàng),用于表示文檔,并生成文檔集合的索引表,由索引變更模塊啟動(dòng),生成的索引存入索引庫(kù);索引優(yōu)化模塊,用于通過(guò)合并和優(yōu)化索引的手段提高全文索引時(shí)系統(tǒng)的效率,其作用于索引構(gòu)建模塊所生成的索引;索引變更模塊,用于接收變更的文檔信息,包括文檔的添加、刪除和修改,從而動(dòng)態(tài)更新索引,其作用于索引構(gòu)建模塊;查詢(xún)檢索模塊,用于為用戶(hù)提供全文檢索的搜索接口,接受來(lái)自用戶(hù)的查詢(xún)關(guān)鍵字,對(duì)其進(jìn)行分詞,交由索引庫(kù)檢索,并返回結(jié)果集;日志記錄模塊,用于記錄管理員對(duì)服務(wù)器目錄下的文檔數(shù)據(jù)的CRUD操作,由文件實(shí)時(shí)監(jiān)控模塊啟動(dòng);數(shù)據(jù)備份模塊,用于備份數(shù)據(jù)信息,生成備份數(shù)據(jù),以防止系統(tǒng)出現(xiàn)故障或受到惡意攻擊而導(dǎo)致數(shù)據(jù)遭到破壞或丟失,確保數(shù)據(jù)信息從錯(cuò)誤狀態(tài)恢復(fù)到某一已知的正確狀態(tài),由日志記錄模塊操作完成后啟動(dòng);數(shù)據(jù)恢復(fù)模塊,用于當(dāng)系統(tǒng)運(yùn)行過(guò)程中發(fā)生故障,利用數(shù)據(jù)備份整體和日志文件將數(shù)據(jù)恢復(fù)到故障前的某個(gè)一致性狀態(tài)。
2.如權(quán)利要求1所述的基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服務(wù)系統(tǒng),其特征在于文 件實(shí)時(shí)監(jiān)控模塊包括初始化系統(tǒng)引擎模塊,用于系統(tǒng)初始化時(shí),對(duì)文件目錄遞歸遍歷,喚醒數(shù)據(jù)備份模塊進(jìn) 行數(shù)據(jù)拷貝,繼而交由索引變更模塊觸發(fā)執(zhí)行索引的初始化構(gòu)建和索引優(yōu)化; 捕獲文檔添加模塊,用于實(shí)時(shí)監(jiān)控管理員添加文檔的操作; 捕獲文檔刪除模塊,用于實(shí)時(shí)監(jiān)控管理員刪除過(guò)期文檔的操作; 捕獲文檔更新模塊組成,用于實(shí)時(shí)監(jiān)控管理員更新文檔的操作。
3.如權(quán)利要求1所述的基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服務(wù)系統(tǒng),其特征在于索 引構(gòu)建模塊包括文本解析器,用來(lái)分析網(wǎng)頁(yè)和文檔的內(nèi)容,統(tǒng)一為無(wú)格式文檔或中間格式文檔, 索引器,用于對(duì)文本解析器處理和分析非結(jié)構(gòu)化文檔結(jié)果進(jìn)行再處理,依次讀取分析 索引項(xiàng),利用預(yù)設(shè)的索引項(xiàng)字典建立按索引項(xiàng)排列的鏈表,并動(dòng)態(tài)更改索引字典,最終完成 按照索引項(xiàng)組織的索引列表、索引字典和文檔索引。
4.如權(quán)利要求1所述的基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服務(wù)系統(tǒng),其特征在于索 引優(yōu)化模塊包括離線(xiàn)索引優(yōu)化模塊,用于文檔更新時(shí),在離線(xiàn)下作用于索引構(gòu)建模塊,調(diào)用相應(yīng)的優(yōu)化 函數(shù)調(diào)整、優(yōu)化離線(xiàn)索引;離線(xiàn)索引合并模塊,用于將一系列小的索引文件合并為一個(gè)索引文件,以提高檢索效率,其和離線(xiàn)索引優(yōu)化模塊一起共同對(duì)離線(xiàn)索引改造、優(yōu)化,生成最終的優(yōu)化索引。索引服務(wù)切換模塊,用于將離線(xiàn)索引與當(dāng)前的服務(wù)索引進(jìn)行切換,保證離線(xiàn)索引的正 常優(yōu)化運(yùn)轉(zhuǎn),不影響服務(wù)索引的檢索效率。
5.如權(quán)利要求1所述的基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服務(wù)系統(tǒng),其特征在于索 引變更模塊包括文檔添加處理模塊,用于接收添加的文檔信息,從而動(dòng)態(tài)更新索引; 文檔刪除處理模塊,用于接收刪除的文檔信息,從而動(dòng)態(tài)更新索引; 文檔修改處理模塊,用于接收修改的文檔信息,從而動(dòng)態(tài)更新索引。
6.如權(quán)利要求1所述的基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服務(wù)系統(tǒng),其特征在于查 詢(xún)檢索模塊包括關(guān)鍵字提交模塊,用于向用戶(hù)提供全文檢索關(guān)鍵字提交頁(yè)面,為全文檢索系統(tǒng)獲取用 戶(hù)提交查詢(xún)請(qǐng)求提供接口,并按照一定的分詞策略對(duì)接收到的關(guān)鍵字進(jìn)行分詞處理;后臺(tái)檢索模塊,用于負(fù)責(zé)將接收到的關(guān)鍵字及用戶(hù)組信息提交給索引庫(kù)進(jìn)行檢索,然 后從索引庫(kù)獲取檢索結(jié)果并排序;快照生成模塊,用于根據(jù)返回結(jié)果集生成結(jié)果快照,并負(fù)責(zé)生成結(jié)果頁(yè)面將結(jié)果顯示 給用戶(hù)。
全文摘要
本發(fā)明屬于計(jì)算機(jī)檢索技術(shù)領(lǐng)域,提供了一種基于文檔實(shí)時(shí)監(jiān)控可配置的全文檢索服務(wù)系統(tǒng),主要特點(diǎn)是由文件實(shí)時(shí)監(jiān)控模塊,索引構(gòu)建模塊,索引優(yōu)化模塊,索引變更模塊,查詢(xún)檢索模塊,日志記錄模塊,數(shù)據(jù)備份模塊和數(shù)據(jù)恢復(fù)模塊組成,由于采用框架結(jié)構(gòu),系統(tǒng)具有支持快速應(yīng)用開(kāi)發(fā)、易于部署維護(hù)、查全率高、使用方便等諸多優(yōu)點(diǎn)。
文檔編號(hào)G06F17/30GK101853288SQ20101018132
公開(kāi)日2010年10月6日 申請(qǐng)日期2010年5月19日 優(yōu)先權(quán)日2010年5月19日
發(fā)明者劉妍, 張振蓮, 李爭(zhēng)艷, 梁晶晶, 湯澹, 董勐, 馬曉普 申請(qǐng)人:馬曉普
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1