一種支持多種方式創(chuàng)建索引的方法
【專利摘要】本發(fā)明公開了一種支持多種方式創(chuàng)建索引的方法,其具體實現(xiàn)過程為:配置統(tǒng)一索引模型,部署安裝搜索引擎服務器集群;配置數(shù)據(jù)庫與索引的映射;配置HBASE與索引的映射;配置結構化文檔導入腳本;配置非結構化文檔導入腳本;創(chuàng)建消息隊列,通過消息隊列實時創(chuàng)建索弓I;搜索引擎集群對傳來的數(shù)據(jù)進行分詞、過濾處理,將處理的結果保存在HDFS中;根據(jù)輸入的關鍵字,進行相關檢索。該一種支持多種方式創(chuàng)建索引的方法與現(xiàn)有技術相比,能夠解決不同來源、不同格式的數(shù)據(jù)的統(tǒng)一檢索問題,提高對數(shù)據(jù)實時索引的能力,增強對海量數(shù)據(jù)的匯集和整合能力,大大提高對海量數(shù)據(jù)的檢索效率,實用性強。
【專利說明】一種支持多種方式創(chuàng)建索引的方法
【技術領域】
[0001] 本發(fā)明涉及數(shù)據(jù)索引【技術領域】,具體地說是一種實用性強、支持多種方式創(chuàng)建索 引的方法。
【背景技術】
[0002] 對于企事業(yè)單位內(nèi)的信息資源,由于其分屬的業(yè)務不同,采用的管理系統(tǒng)也不盡 相同,這就導致了信息資源的分散問題,不利于資源的共享;同時,不同的管理系統(tǒng)需要不 同的業(yè)務人員去管理維護,資源共享過程中就會導致非業(yè)務人員很難查詢了解到其他業(yè)務 資源的情況,這也增加了資源共享的難度;另外,不同的管理系統(tǒng)采用的技術、規(guī)范又不盡 相同,數(shù)據(jù)資料之間很難相互調(diào)用,維護也極為不便,嚴重阻礙了企事業(yè)單位信息化進程。
[0003] 對于這些分處在不同系統(tǒng)中的數(shù)據(jù),很難有效的利用起來,一般只提供各自系統(tǒng) 內(nèi)的檢索查詢。所以企事業(yè)單位的信息化建設是一項長期、復雜而又艱巨的工作。
[0004] 支持多種方式創(chuàng)建索引,能夠有效的客服多系統(tǒng)檢索帶來的不便,提供統(tǒng)一的檢 索入口。
[0005] 要實現(xiàn)支持多種方式創(chuàng)建索引,首先要創(chuàng)建一個統(tǒng)一的索引模型,部署一套相關 的索引處理程序一搜索引擎,然后分析企事業(yè)單位內(nèi)數(shù)據(jù)存放的位置,就一般情況而言, 企事業(yè)單位內(nèi)的信息資源不論采用何種管理系統(tǒng),數(shù)據(jù)信息會存儲在以下四個地方:數(shù)據(jù) 庫、HBASE、HDFS,或者以非結構化的文檔進行保存,對這些情況分別建立不同的創(chuàng)建索引的 方式,再經(jīng)由搜索引擎來處理不同方式創(chuàng)建的索引,將不同系統(tǒng)、不同類型的資源整合在一 起,并將處理后的結果存放在文件系統(tǒng)中,從而達到信息資源的整合和統(tǒng)一檢索的目的?;?于該設計思路,現(xiàn)提供一種支持多種方式創(chuàng)建索引的方法。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的技術任務是針對以上不足之處,提供一種實用性強、支持多種方式創(chuàng)建 索引的方法。 一種支持多種方式創(chuàng)建索引的方法,其具體實現(xiàn)過程為: 1) 配置統(tǒng)一索引模型,部署安裝搜索引擎服務器集群; 2) 配置數(shù)據(jù)庫與索引的映射,建立數(shù)據(jù)源向搜索引擎創(chuàng)建索引的連接; 3) 配置HBASE與索引的映射,建立HBASE向搜索引擎創(chuàng)建索引的連接; 4) 配置結構化文檔導入腳本,建立結構化文檔目錄向搜索引擎創(chuàng)建索引的連接; 5) 配置非結構化文檔導入腳本,建立非結構化文檔目錄向搜索引擎創(chuàng)建索引的連接; 6) 創(chuàng)建消息隊列,通過消息隊列實時創(chuàng)建索引; 7) 搜索引擎集群對傳來的數(shù)據(jù)進行分詞、過濾處理,將處理的結果保存在HDFS中; 8) 根據(jù)輸入的關鍵字,進行相關檢索。
[0007] 所述步驟二中的映射將不同業(yè)務系統(tǒng)中存在于數(shù)據(jù)庫中的數(shù)據(jù)導入到統(tǒng)一索引 中,映射關系與配置保存在數(shù)據(jù)庫中。
[0008] 所述步驟三中的映射將不同業(yè)務系統(tǒng)中存在于HBASE中的數(shù)據(jù)導入到統(tǒng)一索引 中,映射關系與配置保存在數(shù)據(jù)庫中。
[0009] 所述步驟四中的結構化文檔腳本配置過程為:把不同業(yè)務系統(tǒng)中存在于結構化文 檔中的數(shù)據(jù)導入到統(tǒng)一索引中,形成獨立腳本。
[0010] 所述步驟五中的非結構化文檔腳本配置過程為:把不同業(yè)務系統(tǒng)中存在于非結構 化文檔中的數(shù)據(jù)導入到統(tǒng)一索引中,形成獨立腳本。
[0011] 本發(fā)明的一種支持多種方式創(chuàng)建索引的方法,具有以下優(yōu)點: 該發(fā)明的一種支持多種方式創(chuàng)建索引的方法能夠解決不同來源、不同格式的數(shù)據(jù)的統(tǒng) 一檢索問題,提高對數(shù)據(jù)實時索引的能力,增強對海量數(shù)據(jù)的匯集和整合能力,大大提高對 海量數(shù)據(jù)的檢索效率,加快企事業(yè)單位內(nèi)信息化公開檢索的步伐,降低企事業(yè)單位信息化 建設的成本;通過提供統(tǒng)一索引模型,將企事業(yè)單位內(nèi)存在于不同管理系統(tǒng)中的數(shù)據(jù)信息 進行整合;克服信息化過程中海量數(shù)據(jù)檢索的瓶頸,提高企事業(yè)單位內(nèi)數(shù)據(jù)信息的利用率; 針對行業(yè)領域,能夠為各企事業(yè)單位提供企業(yè)內(nèi)信息化檢索的統(tǒng)一入口,其云服務特性,能 夠降低企事業(yè)單位信息化建設的成本;實用性強,適用范圍廣泛,易于推廣。
【專利附圖】
【附圖說明】
[0012] 附圖1為本發(fā)明的實現(xiàn)示意圖。
【具體實施方式】
[0013] 下面結合附圖和具體實施例對本發(fā)明作進一步說明。
[0014] 本發(fā)明提供一種支持多種方式創(chuàng)建索引的方法,通過創(chuàng)建一種模型,提供對結構 化數(shù)據(jù)、半結構化數(shù)據(jù),以及非結構化的數(shù)據(jù)進行定時或者實時方式創(chuàng)建索引的方案,從而 解決不同來源,不同格式的數(shù)據(jù)的統(tǒng)一檢索問題,并提高對這些數(shù)據(jù)檢索時的效率,尤其是 海量數(shù)據(jù)檢索的效率。基于此設計思路,如附圖1所示,該方法的具體實現(xiàn)過程為: 一、配置統(tǒng)一索引模型,部署處理服務器集群。
[0015] 需要根據(jù)企事業(yè)單位內(nèi)的業(yè)務信息,配置統(tǒng)一的索引模型,并部署索引處理服務 器(搜索引擎)。
[0016] 二、配置數(shù)據(jù)庫與索引的映射,建立數(shù)據(jù)源向搜索引擎創(chuàng)建索引的連接。
[0017] 根據(jù)映射關系,把不同業(yè)務系統(tǒng)關系型數(shù)據(jù)庫中的數(shù)據(jù)導入到統(tǒng)一索引中,方便 企事業(yè)單位內(nèi)人員能夠查詢到數(shù)據(jù)庫中的數(shù)據(jù)信息。映射關系與配置保存在數(shù)據(jù)庫中,方 便進行增量更新以及定時更新。
[0018] 三、配置HBASE與索引的映射,建立HBASE向搜索引擎創(chuàng)建索引的連接。
[0019] 根據(jù)映射關系,把不同業(yè)務系統(tǒng)中存在于HBASE中的數(shù)據(jù)導入到統(tǒng)一索引中,方 便企事業(yè)單位內(nèi)人員能夠查詢到HBASE中的數(shù)據(jù)信息。映射關系與配置保存在系統(tǒng)的數(shù)據(jù) 庫中,方便進行增量更新及定時更新。
[0020] 四、配置結構化文檔導入腳本,建立結構化文檔目錄向搜索引擎創(chuàng)建索引的連接。
[0021] 根據(jù)結構化文檔腳本,把不同業(yè)務系統(tǒng)中存在于結構化文檔中的數(shù)據(jù)導入到統(tǒng)一 索引中,方便企事業(yè)單位內(nèi)人員能夠查詢到結構化文檔中的數(shù)據(jù)信息。形成獨立腳本,以便 進行增量更新及定時更新。
[0022] 五、配置非結構化文檔導入腳本,建立非結構化文檔目錄向搜索引擎創(chuàng)建索引的 連接。
[0023] 根據(jù)非結構化文檔腳本,把不同業(yè)務系統(tǒng)中存在于非結構化文檔中的數(shù)據(jù)導入到 統(tǒng)一索引中,方便企事業(yè)單位內(nèi)人員能夠查詢到非結構化文檔中的數(shù)據(jù)信息。形成獨立腳 本,以便進行增量更新及定時更新。
[0024] 六、創(chuàng)建消息隊列,通過消息隊列實時創(chuàng)建索引。
[0025] 對于企事業(yè)單位內(nèi)的其他外接應用數(shù)據(jù),可以通過消息隊列的方式來實時創(chuàng)建索 引。
[0026] 七、搜索引擎集群對傳來的數(shù)據(jù)進行分詞、過濾處理,將處理的結果保存在HDFS 中。
[0027] 索引處理服務器對不同方式的索引數(shù)據(jù)進行分析處理,并將分析處理的結果保存 在HDFS中。
[0028] 八、提供統(tǒng)一檢索入口。
[0029] 系統(tǒng)提供統(tǒng)一的檢索入口,方便企事業(yè)單位內(nèi)用戶對整合的共享數(shù)據(jù)信息進行檢 索。
[0030] 本發(fā)明通過配置統(tǒng)一的索引模型,使用搜索引擎來管理、處理不同來源、不同格式 的數(shù)據(jù),針對不同的業(yè)務數(shù)據(jù),配置相應的映射或腳本,然后采用相應的方式來創(chuàng)建索引, 由搜索引擎來處理這些索引數(shù)據(jù),并將處理的結果保存在HDFS中。最終提供統(tǒng)一的檢索入 口,企事業(yè)單位可以利用該入口來實現(xiàn)共享資源的檢索,或開發(fā)自己的信息檢索門戶。
[0031] 其中所配置統(tǒng)一的索引模型是企事業(yè)單位內(nèi)各個管理系統(tǒng)數(shù)據(jù)模型的一個抽象。
[0032] 上述【具體實施方式】僅是本發(fā)明的具體個案,本發(fā)明的專利保護范圍包括但不限于 上述【具體實施方式】,任何符合本發(fā)明的一種支持多種方式創(chuàng)建索引的方法的權利要求書的 且任何所屬【技術領域】的普通技術人員對其所做的適當變化或替換,皆應落入本發(fā)明的專利 保護范圍。
【權利要求】
1. 一種支持多種方式創(chuàng)建索引的方法,其特征在于其具體實現(xiàn)過程為: 1) 配置統(tǒng)一索引模型,部署安裝搜索引擎服務器集群; 2) 配置數(shù)據(jù)庫與索引的映射,建立數(shù)據(jù)源向搜索引擎創(chuàng)建索引的連接; 3) 配置HBASE與索引的映射,建立HBASE向搜索引擎創(chuàng)建索引的連接; 4) 配置結構化文檔導入腳本,建立結構化文檔目錄向搜索引擎創(chuàng)建索引的連接; 5) 配置非結構化文檔導入腳本,建立非結構化文檔目錄向搜索引擎創(chuàng)建索引的連接; 6) 創(chuàng)建消息隊列,通過消息隊列實時創(chuàng)建索引; 7) 搜索引擎集群對傳來的數(shù)據(jù)進行分詞、過濾處理,將處理的結果保存在HDFS中; 8) 根據(jù)輸入的關鍵字,進行相關檢索。
2. 根據(jù)權利要求1所述的一種支持多種方式創(chuàng)建索引的方法,其特征在于:所述步驟 二中的映射將不同業(yè)務系統(tǒng)中存在于數(shù)據(jù)庫中的數(shù)據(jù)導入到統(tǒng)一索引中,映射關系與配置 保存在數(shù)據(jù)庫中。
3. 根據(jù)權利要求1所述的一種支持多種方式創(chuàng)建索引的方法,其特征在于:所述步驟 三中的映射將不同業(yè)務系統(tǒng)中存在于HBASE中的數(shù)據(jù)導入到統(tǒng)一索引中,映射關系與配置 保存在數(shù)據(jù)庫中。
4. 根據(jù)權利要求1所述的一種支持多種方式創(chuàng)建索引的方法,其特征在于:所述步驟 四中的結構化文檔腳本配置過程為:把不同業(yè)務系統(tǒng)中存在于結構化文檔中的數(shù)據(jù)導入到 統(tǒng)一索引中,形成獨立腳本。
5. 根據(jù)權利要求1所述的一種支持多種方式創(chuàng)建索引的方法,其特征在于:所述步驟 五中的非結構化文檔腳本配置過程為:把不同業(yè)務系統(tǒng)中存在于非結構化文檔中的數(shù)據(jù)導 入到統(tǒng)一索引中,形成獨立腳本。
【文檔編號】G06F17/30GK104216966SQ201410419509
【公開日】2014年12月17日 申請日期:2014年8月25日 優(yōu)先權日:2014年8月25日
【發(fā)明者】高傳集, 于沈課 申請人:浪潮軟件股份有限公司