一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)。其中,該方法包括:1)當離線客戶端系統(tǒng)對電子文件進行登記歸檔時,首先基于樸素貝葉斯算法,對電子文件進行自動分類;2)電子文件分類完畢后,根據(jù)電子文件所屬類別,基于一致性哈希算法對電子文件進行分布式索引;3)索引文件建立完畢后,用戶輸入查詢語句進行電子文件的查詢。該系統(tǒng)采用開源搜索工具Solr的分發(fā)模式,將查詢請求分發(fā)到分布式節(jié)點,各個分布式節(jié)點響應(yīng)搜索請求,然后對結(jié)果進行合并去重,排序好后返回給用戶,實現(xiàn)了分布式垂直搜索。通過上述方式,本發(fā)明能夠提高電子文件自動分類的準確性,增強系統(tǒng)的穩(wěn)定性。
【專利說明】一種基于sol r技術(shù)的分布式搜索方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息檢索領(lǐng)域,尤其是涉及一種基于solr技術(shù)的分布式搜索方法及 系統(tǒng)。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)技術(shù)得到飛速發(fā)展,網(wǎng)上的數(shù)據(jù)量急劇增長,海量數(shù)據(jù)的增多對通用搜索 引擎的搜索質(zhì)量產(chǎn)生了巨大影響。這時,要在網(wǎng)上準確、快速找到自己需要的信息困難重 重。歸結(jié)其原因有三點:一是,網(wǎng)上的信息是復(fù)雜無序的,且不同的網(wǎng)站有可能出現(xiàn)重復(fù)的 信息,因此利用搜索引擎查詢到的搜索結(jié)果就會產(chǎn)生信息噪音;二是僅僅根據(jù)用戶輸入的 查詢詞語來判斷用戶真正的搜索意圖是非常困難的;三是搜索引擎的爬蟲程序不可能爬取 到所有互聯(lián)網(wǎng)上的信息,或者說實時抓取網(wǎng)上信息。此時迫切需要有一種針對某一領(lǐng)域或 者主題的搜索引擎的出現(xiàn)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明主要解決的技術(shù)問題是提供一種基于solr技術(shù)的分布式搜索方法及系 統(tǒng),能夠提高電子文件自動分類的準確性,增強系統(tǒng)的穩(wěn)定性,并能對搜索結(jié)果進行合并去 重、自動分組,實現(xiàn)了垂直搜索,使搜索更加專注、具體和深入。
[0004] 為解決上述技術(shù)問題,本發(fā)明采用的一個技術(shù)方案是:提供一種基于solr技術(shù)的 分布式搜索方法,包括以下步驟: 1) 當離線客戶端系統(tǒng)對電子文件進行登記歸檔時,首先基于樸素貝葉斯算法,對電子 文件進行自動分類; 2) 電子文件分類完畢后,根據(jù)電子文件所屬類別,基于一致性哈希算法對電子文件進 行分布式索引,索引的內(nèi)容包括電子文件的重要元數(shù)據(jù)和電子文件包含的電子文檔的相關(guān) 元數(shù)據(jù); 3) 索引文件建立完畢后,用戶輸入查詢語句進行電子文件的查詢; 其中,所述步驟3)具體包括:采用開源搜索工具Solr的分發(fā)模式,將查詢請求分發(fā)到 分布式節(jié)點,各個分布式節(jié)點響應(yīng)搜索請求,然后對結(jié)果進行合并去重,排序好后返回給用 戶。
[0005] 在本發(fā)明一較佳實施例中,所述步驟1)中對電子文件進行自動分類時,采用協(xié)調(diào) 因子來動態(tài)調(diào)整自動分類的側(cè)重面,所述協(xié)調(diào)因子的大小為0-1。
[0006] 在本發(fā)明一較佳實施例中,所述協(xié)調(diào)因子的大小為0. 5。
[0007] 在本發(fā)明一較佳實施例中,所述步驟1)中的樸素貝葉斯算法,具體包括以下步 驟: 1. 1)詞庫的選擇與處理:采用搜索引擎的索引工具對詞庫中相應(yīng)類別的文檔分別進行 索引處理; 1. 2)提取待分類文檔的特征詞:采用搜索引擎的安裝組件,對文檔的摘要和關(guān)鍵字信 息進行提取,然后對提取出的關(guān)鍵字進行去重,提選取特征詞; 1. 3)將提取出的特征詞采用貝葉斯公式與詞庫樣本文檔進行貝葉斯計算,獲取待分類 文檔針對每個分類的概率,然后比較概率值,獲取最大的概率,從而找到待分類文檔的所屬 類別。
[0008] 在本發(fā)明一較佳實施例中,所述步驟1. 3)中所述的貝葉斯公式為: Class (d) =argmax P(c|d); 其中,d :文檔; c :分類; class (d):文檔所屬的類別; p(c|d):文檔d屬于類別c的概率; argmaxP(c|d):文檔屬于某一類別的最大值; 其中的P(c|d)的值由以下公式得出: P (c | d) = λ P (c) + (1-λ ) bayes (c I d); 其中,P (C):給定分類的集合,在集合中屬于c類的概率,取值為P (c) =l/n,其中n表示 分類的個數(shù); 入:協(xié)調(diào)因子; bayes (c | d):利用貝葉斯公式求出文檔d屬于類別c的概率。
[0009] 本發(fā)明還提供一種分布式搜索系統(tǒng),所述系統(tǒng)包括: 自動分類器,用于對電子文件進行自動分類; 分布式索引和搜索裝置,采用Solr的復(fù)制模式和分發(fā)模式,由復(fù)制模式對分布式節(jié)點 的索引文件進行備份,由分發(fā)模式進行分布式的搜索。
[0010] 在本發(fā)明一較佳實施例中,所述系統(tǒng)還包括對查詢語句進行智能提示的智能提示 裝置、對搜索結(jié)果進行自動分組統(tǒng)計的分組統(tǒng)計裝置和搜索結(jié)果權(quán)限過濾裝置。
[0011] 本發(fā)明的有益效果是:基于樸素貝葉斯算法,對電子文件進行自動分類并引入?yún)f(xié) 調(diào)因子來動態(tài)調(diào)整自動分類的側(cè)重面,能夠提高電子文件自動分類的準確性;基于一致性 哈希算法,對電子文件進行分布式索引,能夠增強系統(tǒng)的穩(wěn)定性;通過采用Slor的分發(fā)模 式,對分布式節(jié)點進行優(yōu)化,并對搜索結(jié)果進行合并去重、自動分組,實現(xiàn)了垂直搜索,使搜 索更加專注、具體和深入。
【專利附圖】
【附圖說明】
[0012] 圖1為本發(fā)明一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)的流程示意圖; 圖2為本發(fā)明基于solr技術(shù)的分布式搜索方法中的分布式索引狀態(tài)圖; 圖3為本發(fā)明基于solr技術(shù)的分布式搜索方法中的分布式搜索流程圖; 圖4為本發(fā)明分布式搜索系統(tǒng)軟件體系結(jié)構(gòu)圖; 圖5為本發(fā)明分布式搜索系統(tǒng)的自動分類器的類接口設(shè)計圖; 圖6為本發(fā)明分布式搜索系統(tǒng)的分布式索引裝置的類接口設(shè)計圖; 圖7為本發(fā)明分布式搜索系統(tǒng)的搜索智能提示界面; 圖8為本發(fā)明分布式搜索系統(tǒng)的高級檢索界面; 圖9為本發(fā)明分布式搜索系統(tǒng)的搜索結(jié)果界面; 附圖中各部件的標記如下:1、索引器,2、搜索器。
【具體實施方式】
[0013] 下面結(jié)合附圖對本發(fā)明的較佳實施例進行詳細闡述,以使本發(fā)明的優(yōu)點和特征能 更易于被本領(lǐng)域技術(shù)人員理解,從而對本發(fā)明的保護范圍做出更為清楚明確的界定。
[0014] 請參閱圖1-圖9,本發(fā)明實施例包括: 一種分布式搜索系統(tǒng),所述系統(tǒng)包括: 1)自動分類器,用于對電子文件進行自動分類; ERMS離線客戶端系統(tǒng)對電子文件進行登記歸檔時,要對電子文件進行自動分類,以便 于后續(xù)的分布式索引。由于電子文件下的文檔可能和文件元數(shù)據(jù)描述的主題不一致,因此 不能完全依據(jù)ERMS離線客戶端系統(tǒng)中定義的電子文件類型來對電子文件進行最終類型的 判定。本實施例中的自動分類器采用了協(xié)調(diào)因子由用戶來設(shè)置因子的大小,即由用戶決定 ERMS離線客戶端系統(tǒng)定義的分類和貝葉斯分類各占的比例。其中,默認的協(xié)調(diào)因子的大小 為 0· 5。
[0015] 所述的貝葉斯公式為: Class (d) =argmax P(c|d); 其中,d :文檔; c :分類; class (d):文檔所屬的類別; p(c|d):文檔d屬于類別c的概率; argmaxP(c|d):文檔屬于某一類別的最大值; 其中的P(c|d)的值由以下公式得出: P (c | d) = λ P (c) + (1-λ ) bayes (c I d); 其中,P (C):給定分類的集合,在集合中屬于c類的概率,取值為P (c) =l/n,其中n表示 分類的個數(shù); λ :協(xié)調(diào)因子,取值為0-1 ; bayes (c | d):利用貝葉斯公式求出文檔d屬于類別c的概率。
[0016] 由以上公式可知,當λ=1時,不按照貝葉斯算法對電子文件進行分類,完全依據(jù) 當前ERMS離線客戶端系統(tǒng)中配置的電子文件的類型進行分類;反之,當λ=〇時,則完全按 照貝葉斯分類算法對電子文件進行重新分類。
[0017] 因為文檔d可以表示為η個不相關(guān)獨立的特征值的集合,即d=(wl,《2,…,前), 則bayes (cld)的計算可由貝葉斯算法求出,即:
【權(quán)利要求】
1. 一種基于solr技術(shù)的分布式搜索方法,其特征在于,包括以下步驟: 1) 當離線客戶端系統(tǒng)對電子文件進行登記歸檔時,首先基于樸素貝葉斯算法,對電子 文件進行自動分類; 2) 電子文件分類完畢后,根據(jù)電子文件所屬類別,基于一致性哈希算法對電子文件進 行分布式索引,索引的內(nèi)容包括電子文件的重要元數(shù)據(jù)和電子文件包含的電子文檔的相關(guān) 元數(shù)據(jù); 3) 索引文件建立完畢后,用戶輸入查詢語句進行電子文件的查詢; 其中,所述步驟3)具體包括:采用開源搜索工具Solr的分發(fā)模式,將查詢請求分發(fā)到 分布式節(jié)點,各個分布式節(jié)點響應(yīng)搜索請求,然后對結(jié)果進行合并去重,排序好后返回給用 戶。
2. 根據(jù)權(quán)利要求1所述的基于solr技術(shù)的分布式搜索方法,其特征在于,所述步驟1) 中對電子文件進行自動分類時,采用協(xié)調(diào)因子來動態(tài)調(diào)整自動分類的側(cè)重面,所述協(xié)調(diào)因 子的大小為0-1。
3. 根據(jù)權(quán)利要求2所述的基于solr技術(shù)的分布式搜索方法,其特征在于,所述協(xié)調(diào)因 子的大小為0. 5。
4. 根據(jù)權(quán)利要求1所述的基于solr技術(shù)的分布式搜索方法,其特征在于,所述步驟1) 中的樸素貝葉斯算法,具體包括以下步驟: 1. 1)詞庫的選擇與處理:采用搜索引擎的索引工具對詞庫中相應(yīng)類別的文檔分別進行 索引處理; 1. 2)提取待分類文檔的特征詞:采用搜索引擎的安裝組件,對文檔的摘要和關(guān)鍵字信 息進行提取,然后對提取出的關(guān)鍵字進行去重,提選取特征詞; 1. 3)將提取出的特征詞采用貝葉斯公式與詞庫樣本文檔進行貝葉斯計算,獲取待分類 文檔針對每個分類的概率,然后比較概率值,獲取最大的概率,從而找到待分類文檔的所屬 類別。
5. 根據(jù)權(quán)利要求4所述的基于solr技術(shù)的分布式搜索方法,其特征在于,所述步驟 1.3)中所述的貝葉斯公式為: Class (d) =argmax P(c|d); 其中,d :文檔; c :分類; class (d):文檔所屬的類別; p(c|d):文檔d屬于類別c的概率; argmaxP(c|d):文檔屬于某一類別的最大值; 其中的P(c|d)的值由以下公式得出: P (c | d) = λ P (c) + (1-λ ) bayes (c I d); 其中,P (C):給定分類的集合,在集合中屬于c類的概率,取值為P (c) =l/n,其中n表示 分類的個數(shù); 入:協(xié)調(diào)因子; bayes (c | d):利用貝葉斯公式求出文檔d屬于類別c的概率。
6. -種分布式搜索系統(tǒng),其特征在于,所述系統(tǒng)包括: 自動分類器,用于對電子文件進行自動分類; 分布式索引和搜索裝置,采用Solr的復(fù)制模式和分發(fā)模式,由復(fù)制模式對分布式節(jié)點 的索引文件進行備份,由分發(fā)模式進行分布式的搜索。
7.根據(jù)權(quán)利要求6所述的分布式搜索系統(tǒng),其特征在于,所述系統(tǒng)還包括對查詢語句 進行智能提示的智能提示裝置、對搜索結(jié)果進行自動分組統(tǒng)計的分組統(tǒng)計裝置和搜索結(jié)果 權(quán)限過濾裝置。
【文檔編號】G06F17/30GK104142968SQ201310577657
【公開日】2014年11月12日 申請日期:2013年11月19日 優(yōu)先權(quán)日:2013年11月19日
【發(fā)明者】吳含前, 姚莉, 王存哲, 李露 申請人:東南大學(xué)