一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)的制作方法

文檔序號：6519603閱讀：188來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)。其中，該方法包括：1）當離線客戶端系統(tǒng)對電子文件進行登記歸檔時，首先基于樸素貝葉斯算法，對電子文件進行自動分類；2）電子文件分類完畢后，根據(jù)電子文件所屬類別，基于一致性哈希算法對電子文件進行分布式索引；3）索引文件建立完畢后，用戶輸入查詢語句進行電子文件的查詢。該系統(tǒng)采用開源搜索工具Solr的分發(fā)模式，將查詢請求分發(fā)到分布式節(jié)點，各個分布式節(jié)點響應(yīng)搜索請求，然后對結(jié)果進行合并去重，排序好后返回給用戶，實現(xiàn)了分布式垂直搜索。通過上述方式，本發(fā)明能夠提高電子文件自動分類的準確性，增強系統(tǒng)的穩(wěn)定性。
【專利說明】一種基于sol r技術(shù)的分布式搜索方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息檢索領(lǐng)域，尤其是涉及一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)。

【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)技術(shù)得到飛速發(fā)展，網(wǎng)上的數(shù)據(jù)量急劇增長，海量數(shù)據(jù)的增多對通用搜索引擎的搜索質(zhì)量產(chǎn)生了巨大影響。這時，要在網(wǎng)上準確、快速找到自己需要的信息困難重重。歸結(jié)其原因有三點：一是，網(wǎng)上的信息是復(fù)雜無序的，且不同的網(wǎng)站有可能出現(xiàn)重復(fù)的信息，因此利用搜索引擎查詢到的搜索結(jié)果就會產(chǎn)生信息噪音；二是僅僅根據(jù)用戶輸入的查詢詞語來判斷用戶真正的搜索意圖是非常困難的；三是搜索引擎的爬蟲程序不可能爬取到所有互聯(lián)網(wǎng)上的信息，或者說實時抓取網(wǎng)上信息。此時迫切需要有一種針對某一領(lǐng)域或者主題的搜索引擎的出現(xiàn)。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明主要解決的技術(shù)問題是提供一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)，能夠提高電子文件自動分類的準確性，增強系統(tǒng)的穩(wěn)定性，并能對搜索結(jié)果進行合并去重、自動分組，實現(xiàn)了垂直搜索，使搜索更加專注、具體和深入。
[0004] 為解決上述技術(shù)問題，本發(fā)明采用的一個技術(shù)方案是：提供一種基于solr技術(shù)的分布式搜索方法，包括以下步驟： 1) 當離線客戶端系統(tǒng)對電子文件進行登記歸檔時，首先基于樸素貝葉斯算法，對電子文件進行自動分類； 2) 電子文件分類完畢后，根據(jù)電子文件所屬類別，基于一致性哈希算法對電子文件進行分布式索引，索引的內(nèi)容包括電子文件的重要元數(shù)據(jù)和電子文件包含的電子文檔的相關(guān) 元數(shù)據(jù)； 3) 索引文件建立完畢后，用戶輸入查詢語句進行電子文件的查詢；其中，所述步驟3)具體包括：采用開源搜索工具Solr的分發(fā)模式，將查詢請求分發(fā)到分布式節(jié)點，各個分布式節(jié)點響應(yīng)搜索請求，然后對結(jié)果進行合并去重，排序好后返回給用戶。
[0005] 在本發(fā)明一較佳實施例中，所述步驟1)中對電子文件進行自動分類時，采用協(xié)調(diào) 因子來動態(tài)調(diào)整自動分類的側(cè)重面，所述協(xié)調(diào)因子的大小為0-1。
[0006] 在本發(fā)明一較佳實施例中，所述協(xié)調(diào)因子的大小為0. 5。
[0007] 在本發(fā)明一較佳實施例中，所述步驟1)中的樸素貝葉斯算法，具體包括以下步驟： 1. 1)詞庫的選擇與處理：采用搜索引擎的索引工具對詞庫中相應(yīng)類別的文檔分別進行索引處理； 1. 2)提取待分類文檔的特征詞：采用搜索引擎的安裝組件，對文檔的摘要和關(guān)鍵字信息進行提取，然后對提取出的關(guān)鍵字進行去重，提選取特征詞； 1. 3)將提取出的特征詞采用貝葉斯公式與詞庫樣本文檔進行貝葉斯計算，獲取待分類文檔針對每個分類的概率，然后比較概率值，獲取最大的概率，從而找到待分類文檔的所屬類別。
[0008] 在本發(fā)明一較佳實施例中，所述步驟1. 3)中所述的貝葉斯公式為： Class (d) =argmax P(c|d)；其中，d :文檔； c :分類； class (d):文檔所屬的類別； p(c|d):文檔d屬于類別c的概率； argmaxP(c|d):文檔屬于某一類別的最大值；其中的P(c|d)的值由以下公式得出： P (c | d) = λ P (c) + (1-λ ) bayes (c I d)；其中，P (C):給定分類的集合，在集合中屬于c類的概率，取值為P (c) =l/n，其中n表示分類的個數(shù)；入：協(xié)調(diào)因子； bayes (c | d):利用貝葉斯公式求出文檔d屬于類別c的概率。
[0009] 本發(fā)明還提供一種分布式搜索系統(tǒng)，所述系統(tǒng)包括：自動分類器，用于對電子文件進行自動分類；分布式索引和搜索裝置，采用Solr的復(fù)制模式和分發(fā)模式，由復(fù)制模式對分布式節(jié)點的索引文件進行備份，由分發(fā)模式進行分布式的搜索。
[0010] 在本發(fā)明一較佳實施例中，所述系統(tǒng)還包括對查詢語句進行智能提示的智能提示裝置、對搜索結(jié)果進行自動分組統(tǒng)計的分組統(tǒng)計裝置和搜索結(jié)果權(quán)限過濾裝置。
[0011] 本發(fā)明的有益效果是：基于樸素貝葉斯算法，對電子文件進行自動分類并引入?yún)f(xié) 調(diào)因子來動態(tài)調(diào)整自動分類的側(cè)重面，能夠提高電子文件自動分類的準確性；基于一致性哈希算法，對電子文件進行分布式索引，能夠增強系統(tǒng)的穩(wěn)定性；通過采用Slor的分發(fā)模式，對分布式節(jié)點進行優(yōu)化，并對搜索結(jié)果進行合并去重、自動分組，實現(xiàn)了垂直搜索，使搜索更加專注、具體和深入。

【專利附圖】

【附圖說明】
[0012] 圖1為本發(fā)明一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)的流程示意圖；圖2為本發(fā)明基于solr技術(shù)的分布式搜索方法中的分布式索引狀態(tài)圖；圖3為本發(fā)明基于solr技術(shù)的分布式搜索方法中的分布式搜索流程圖；圖4為本發(fā)明分布式搜索系統(tǒng)軟件體系結(jié)構(gòu)圖；圖5為本發(fā)明分布式搜索系統(tǒng)的自動分類器的類接口設(shè)計圖；圖6為本發(fā)明分布式搜索系統(tǒng)的分布式索引裝置的類接口設(shè)計圖；圖7為本發(fā)明分布式搜索系統(tǒng)的搜索智能提示界面；圖8為本發(fā)明分布式搜索系統(tǒng)的高級檢索界面；圖9為本發(fā)明分布式搜索系統(tǒng)的搜索結(jié)果界面；附圖中各部件的標記如下：1、索引器，2、搜索器。

【具體實施方式】
[0013] 下面結(jié)合附圖對本發(fā)明的較佳實施例進行詳細闡述，以使本發(fā)明的優(yōu)點和特征能更易于被本領(lǐng)域技術(shù)人員理解，從而對本發(fā)明的保護范圍做出更為清楚明確的界定。
[0014] 請參閱圖1-圖9,本發(fā)明實施例包括：一種分布式搜索系統(tǒng)，所述系統(tǒng)包括： 1)自動分類器，用于對電子文件進行自動分類； ERMS離線客戶端系統(tǒng)對電子文件進行登記歸檔時，要對電子文件進行自動分類，以便于后續(xù)的分布式索引。由于電子文件下的文檔可能和文件元數(shù)據(jù)描述的主題不一致，因此不能完全依據(jù)ERMS離線客戶端系統(tǒng)中定義的電子文件類型來對電子文件進行最終類型的判定。本實施例中的自動分類器采用了協(xié)調(diào)因子由用戶來設(shè)置因子的大小，即由用戶決定 ERMS離線客戶端系統(tǒng)定義的分類和貝葉斯分類各占的比例。其中，默認的協(xié)調(diào)因子的大小為 0· 5。
[0015] 所述的貝葉斯公式為： Class (d) =argmax P(c|d)；其中，d :文檔； c :分類； class (d):文檔所屬的類別； p(c|d):文檔d屬于類別c的概率； argmaxP(c|d):文檔屬于某一類別的最大值；其中的P(c|d)的值由以下公式得出： P (c | d) = λ P (c) + (1-λ ) bayes (c I d)；其中，P (C):給定分類的集合，在集合中屬于c類的概率，取值為P (c) =l/n，其中n表示分類的個數(shù)； λ :協(xié)調(diào)因子，取值為0-1 ; bayes (c | d):利用貝葉斯公式求出文檔d屬于類別c的概率。
[0016] 由以上公式可知，當λ=1時，不按照貝葉斯算法對電子文件進行分類，完全依據(jù) 當前ERMS離線客戶端系統(tǒng)中配置的電子文件的類型進行分類；反之，當λ=〇時，則完全按照貝葉斯分類算法對電子文件進行重新分類。
[0017] 因為文檔d可以表示為η個不相關(guān)獨立的特征值的集合，即d=(wl，《2,…，前），則bayes (cld)的計算可由貝葉斯算法求出，即：

【權(quán)利要求】
1. 一種基于solr技術(shù)的分布式搜索方法，其特征在于，包括以下步驟： 1) 當離線客戶端系統(tǒng)對電子文件進行登記歸檔時，首先基于樸素貝葉斯算法，對電子文件進行自動分類； 2) 電子文件分類完畢后，根據(jù)電子文件所屬類別，基于一致性哈希算法對電子文件進行分布式索引，索引的內(nèi)容包括電子文件的重要元數(shù)據(jù)和電子文件包含的電子文檔的相關(guān) 元數(shù)據(jù)； 3) 索引文件建立完畢后，用戶輸入查詢語句進行電子文件的查詢；其中，所述步驟3)具體包括：采用開源搜索工具Solr的分發(fā)模式，將查詢請求分發(fā)到分布式節(jié)點，各個分布式節(jié)點響應(yīng)搜索請求，然后對結(jié)果進行合并去重，排序好后返回給用戶。
2. 根據(jù)權(quán)利要求1所述的基于solr技術(shù)的分布式搜索方法，其特征在于，所述步驟1) 中對電子文件進行自動分類時，采用協(xié)調(diào)因子來動態(tài)調(diào)整自動分類的側(cè)重面，所述協(xié)調(diào)因子的大小為0-1。
3. 根據(jù)權(quán)利要求2所述的基于solr技術(shù)的分布式搜索方法，其特征在于，所述協(xié)調(diào)因子的大小為0. 5。
4. 根據(jù)權(quán)利要求1所述的基于solr技術(shù)的分布式搜索方法，其特征在于，所述步驟1) 中的樸素貝葉斯算法，具體包括以下步驟： 1. 1)詞庫的選擇與處理：采用搜索引擎的索引工具對詞庫中相應(yīng)類別的文檔分別進行索引處理； 1. 2)提取待分類文檔的特征詞：采用搜索引擎的安裝組件，對文檔的摘要和關(guān)鍵字信息進行提取，然后對提取出的關(guān)鍵字進行去重，提選取特征詞； 1. 3)將提取出的特征詞采用貝葉斯公式與詞庫樣本文檔進行貝葉斯計算，獲取待分類文檔針對每個分類的概率，然后比較概率值，獲取最大的概率，從而找到待分類文檔的所屬類別。
5. 根據(jù)權(quán)利要求4所述的基于solr技術(shù)的分布式搜索方法，其特征在于，所述步驟 1.3)中所述的貝葉斯公式為： Class (d) =argmax P(c|d)；其中，d :文檔； c :分類； class (d):文檔所屬的類別； p(c|d):文檔d屬于類別c的概率； argmaxP(c|d):文檔屬于某一類別的最大值；其中的P(c|d)的值由以下公式得出： P (c | d) = λ P (c) + (1-λ ) bayes (c I d)；其中，P (C):給定分類的集合，在集合中屬于c類的概率，取值為P (c) =l/n，其中n表示分類的個數(shù)；入：協(xié)調(diào)因子； bayes (c | d):利用貝葉斯公式求出文檔d屬于類別c的概率。
6. -種分布式搜索系統(tǒng)，其特征在于，所述系統(tǒng)包括：自動分類器，用于對電子文件進行自動分類；分布式索引和搜索裝置，采用Solr的復(fù)制模式和分發(fā)模式，由復(fù)制模式對分布式節(jié)點的索引文件進行備份，由分發(fā)模式進行分布式的搜索。
7.根據(jù)權(quán)利要求6所述的分布式搜索系統(tǒng)，其特征在于，所述系統(tǒng)還包括對查詢語句進行智能提示的智能提示裝置、對搜索結(jié)果進行自動分組統(tǒng)計的分組統(tǒng)計裝置和搜索結(jié)果權(quán)限過濾裝置。
【文檔編號】G06F17/30GK104142968SQ201310577657
【公開日】2014年11月12日申請日期:2013年11月19日優(yōu)先權(quán)日:2013年11月19日
【發(fā)明者】吳含前, 姚莉, 王存哲, 李露申請人:東南大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳含前;姚莉;王存哲;李露
技術(shù)所有人：東南大學(xué)
我是此專利的發(fā)明人

上一篇：一種基于局部隨機詞匯密度模型poi中文文本分類的方法
上一篇：在Android模擬器中模擬操作USB設(shè)備的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)的制作方法