一種基于時間特征支持復(fù)雜條件的大數(shù)據(jù)檢索方法

文檔序號：9375844閱讀：276來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于時間特征支持復(fù)雜條件的大數(shù)據(jù)檢索方法
【專利說明】一種基于時間特征支持復(fù)雜條件的大數(shù)據(jù)檢索方法技術(shù)背景
[0001]本發(fā)明涉及一種基于時間特征支持復(fù)雜條件的大數(shù)據(jù)檢索方法。
【背景技術(shù)】
[0002]
[0003]在大數(shù)據(jù)的環(huán)境下，根據(jù)用戶提供的條件快速和準(zhǔn)確的檢索到用戶關(guān)心和感興趣的信息，是大數(shù)據(jù)應(yīng)用的基礎(chǔ)和重要的組成部分。目前，大數(shù)據(jù)的檢索主要存在兩個不足:首先，在大數(shù)據(jù)環(huán)境下，為了提供最佳的查詢性能，一般都采用軟硬一體的大數(shù)據(jù)一體機(jī)，這樣項目的成本顯著提升；其次，在數(shù)據(jù)量遞增和集群擴(kuò)展后，檢索的性能降低的趨勢明顯。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的在于提供一種基于時間特征的支持復(fù)雜條件的大數(shù)據(jù)檢索方法，可以滿足用戶各種不同情況下多條件組合以及復(fù)雜條件的檢索需求，并且能夠保證在數(shù)據(jù)和集群不斷遞增情況下，依然能夠保持良好的性能。
[0005]本發(fā)明一種基于時間特征的支持復(fù)雜條件的大數(shù)據(jù)檢索方法，具體包括如下步驟:
[0006]步驟1、數(shù)據(jù)的存儲:
[0007](I)將業(yè)務(wù)數(shù)據(jù)完整地保存至分布式數(shù)據(jù)庫HBase中；
[0008](2)根據(jù)該業(yè)務(wù)數(shù)據(jù)在全文檢索引擎Solr中創(chuàng)建對應(yīng)的索引:
[0009]在全文檢索引擎Solr中創(chuàng)建索引時，根據(jù)業(yè)務(wù)數(shù)據(jù)的時間特征判斷所要保存的集群ColIect1n是否已經(jīng)存在，如果不存在則先創(chuàng)建集群Collect1n，集群Collect1n的命名按照制定的時間規(guī)則，然后保存Solr索引，如果已經(jīng)存在，則直接保存Solr索引；
[0010]步驟2、數(shù)據(jù)的查詢:
[0011](I)查詢?nèi)臋z索引擎Solr獲取分布式數(shù)據(jù)庫HBase的Rowkey值:
[0012]根據(jù)用戶提供的多字段或者復(fù)雜的查詢條件，判斷查詢條件中是否包含時間特征，如果存在，獲取需要查詢的集群Collect1n信息，即先確定具體需要查詢哪幾個時間分段索引，從中檢索符合用戶需求的Rowkey值集合；如果不存在，則利用組合索引，根據(jù)具體業(yè)務(wù)情況檢索時間區(qū)間內(nèi)的索引，甚至全部索引，以獲取符合條件的Rowkey值集合；
[0013](2)在獲取到Rowkey值集合后，根據(jù)Rowkey值在分布式數(shù)據(jù)庫HBase中查詢，獲取完整的業(yè)務(wù)數(shù)據(jù)，并將其作為結(jié)果集返回給用戶。
[0014]目前，在大數(shù)據(jù)應(yīng)用中，其數(shù)據(jù)信息都保存有時間特征，即時間戳。本發(fā)明按照數(shù)據(jù)保存時產(chǎn)生的時間戳或者根據(jù)用戶自定義的時間特征，將數(shù)據(jù)信息按照時間特性進(jìn)行切分，在全文檢索引擎Solr上以不同的集群Collect1n建立索引，在用戶已經(jīng)知曉所查詢的信息產(chǎn)生的時間的情況下，可以快速的定位到當(dāng)月的集群Collect1n的索引庫中進(jìn)行檢索，可以大大縮小了檢索的范圍，提升了效率；在用戶無法確定信息產(chǎn)生的時間的情況下，將符合用戶查詢的結(jié)果按信息產(chǎn)生的時間的倒敘進(jìn)行排列，作為用戶默認(rèn)的排序方式，并把排完序后的信息提供給用戶參考和選擇。本發(fā)明不僅彌補(bǔ)了分布式數(shù)據(jù)庫HBase沒有二級索引的劣勢，而且使得索引的創(chuàng)建更加靈活，滿足不同需求情況下的檢索，并且檢索的效率能夠得到保證。在大數(shù)據(jù)應(yīng)用中，不僅能夠滿足用戶各種情況下的多條件和復(fù)雜條件的檢索需求，而且能夠保持高效性，避免在數(shù)據(jù)量和集群擴(kuò)展后出現(xiàn)性能急劇下降的情況。
【附圖說明】
[0015]圖1為本發(fā)明中數(shù)據(jù)入庫和創(chuàng)建索引的流程圖；
[0016]圖2為本發(fā)明中數(shù)據(jù)查詢的流程圖。
[0017]以下結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步詳述。
【具體實施方式】
[0018]目前，在大數(shù)據(jù)應(yīng)用中，其數(shù)據(jù)信息都保存有時間特征，即時間戳。本發(fā)明按照數(shù)據(jù)保存時產(chǎn)生的時間戳或者根據(jù)用戶自定義的時間特征，將數(shù)據(jù)信息按照時間特性進(jìn)行切分，在全文檢索引擎Solr上以不同的集群Collect1n建立索引，例如可以按照年月，在用戶已經(jīng)知曉所查詢的信息產(chǎn)生的時間的情況下，可以快速的定位到當(dāng)月的集群Collect1n的索引庫中進(jìn)行檢索，可以大大縮小檢索的范圍，提升了效率；在用戶無法確定信息產(chǎn)生的時間的情況下，將符合用戶查詢的結(jié)果按信息產(chǎn)生的時間進(jìn)行倒敘排列，作為用戶默認(rèn)的排序方式，并把排完序后的信息提供給用戶參考和選擇。本發(fā)明不僅彌補(bǔ)了分布式數(shù)據(jù)庫HBase沒有二級索引的劣勢，而且使得索引的創(chuàng)建更加靈活，滿足不同需求情況下的檢索，并且檢索的效率能夠得到保證。
[0019]本發(fā)明一種基于時間特征的支持復(fù)雜條件的大數(shù)據(jù)檢索方法，具體包括如下步驟:
[0020]步驟1、如圖1所示，數(shù)據(jù)的存儲:
[0021](I)將業(yè)務(wù)數(shù)據(jù)完整地保存至分布式數(shù)據(jù)庫HBase中；
[0022](2)根據(jù)該業(yè)務(wù)數(shù)據(jù)在全文檢索引擎Solr中創(chuàng)建對應(yīng)的索引:
[0023]在全文檢索引擎Solr中創(chuàng)建索引時，根據(jù)業(yè)務(wù)數(shù)據(jù)的時間特征判斷所要保存的集群ColIect1n是否已經(jīng)存在，如果不存在則先創(chuàng)建集群Collect1n，集群Collect1n的命名按照制定的時間規(guī)則，然后保存Solr索引，如果已經(jīng)存在，則直接保存Solr索引；
[0024]所述的時間規(guī)則按照時間特征對數(shù)據(jù)實現(xiàn)分段索引，具體內(nèi)容如下所示:
[0025](I)指定時間特征值的參照標(biāo)準(zhǔn)，即標(biāo)準(zhǔn)時間，本發(fā)明以Java里通用的1970年I月I日作為參照時間；
[0026](2)設(shè)置時間特征的間隔單位，根據(jù)具體的業(yè)務(wù)系統(tǒng)實際產(chǎn)生的數(shù)據(jù)量多少的情況，制定劃分?jǐn)?shù)據(jù)的時間單位，當(dāng)產(chǎn)生的數(shù)據(jù)量特別巨大時，可以以較短的時間周期為一個時間單位，例如天、周等；當(dāng)產(chǎn)生數(shù)據(jù)量不是很大時，采用較長的時間周期為一個時間單位，例如月、年；
[0027](3)可以是數(shù)據(jù)主題名稱與和標(biāo)準(zhǔn)時間相差的時間單位的個數(shù)為后綴，例如:topic_123 等
[0028](4)按照時間特征的組合索引:
[0029]根據(jù)具體業(yè)務(wù)對數(shù)據(jù)的使用頻度和使用的狀況，按照當(dāng)前的時間特征的分段單位進(jìn)行各種不同的組合，以滿足各種不同的需求，例如:最近一個月，三個月，半年等；或者按照前一步驟組合好的特征時間段，分別建立不同的別名，方便進(jìn)行查詢使用。采用這種索引組合的形式，靈活的適應(yīng)了各種不同時間段的業(yè)務(wù)需求。
[0030]步驟2、如圖2所示，數(shù)據(jù)的查詢:
[0031](I)查詢?nèi)臋z索引擎Solr獲取分布式數(shù)據(jù)庫HBase的Rowkey值:
[0032]根據(jù)用戶提供的多字段或者復(fù)雜的查詢條件，判斷查詢條件中是否包含時間特征，如果存在，則根據(jù)制定的時間規(guī)則，獲取需要查詢的集群Collect1n信息，即先確定具體需要查詢哪幾個時間分段索引，從中檢索符合用戶需求的Rowkey值集合；如果不存在，則充分利用組合索引，根據(jù)具體業(yè)務(wù)情況檢索最近三個月、最近一年、最近三年、甚至全部索引等，獲取符合條件的Rowkey集合，這里采用基于時間特征的查詢大大縮小了數(shù)據(jù)檢索的范圍，提高了查詢的性能；
[0033](2)在獲取到Rowkey值集合后，根據(jù)Rowkey值在分布式數(shù)據(jù)庫HBase中查詢，便可快速的獲取到完整的業(yè)務(wù)數(shù)據(jù)，將其作為結(jié)果集返回給用戶。
[0034]以上所述，僅是本發(fā)明較佳實施例而已，并非對本發(fā)明的技術(shù)范圍作任何限制，故凡是依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何細(xì)微修改、等同變化與修飾，均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項】
1.一種基于時間特征的支持復(fù)雜條件的大數(shù)據(jù)檢索方法，其特征在于包括如下步驟: 步驟1、數(shù)據(jù)的存儲: (1)將業(yè)務(wù)數(shù)據(jù)完整地保存至分布式數(shù)據(jù)庫HBase中； (2)根據(jù)該業(yè)務(wù)數(shù)據(jù)在全文檢索引擎Solr中創(chuàng)建對應(yīng)的索引: 在全文檢索引擎Solr中創(chuàng)建索引時，根據(jù)業(yè)務(wù)數(shù)據(jù)的時間特征判斷所要保存的集群Collect1n是否已經(jīng)存在，如果不存在則先創(chuàng)建集群Collect1n，集群Collect1n的命名按照制定的時間規(guī)則，然后保存Solr索引，如果已經(jīng)存在，則直接保存Solr索引；步驟2、數(shù)據(jù)的查詢: (1)查詢?nèi)臋z索引擎Solr獲取分布式數(shù)據(jù)庫HBase的Rowkey值: 根據(jù)用戶提供的多字段或者復(fù)雜的查詢條件，判斷查詢條件中是否包含時間特征，如果存在，獲取需要查詢的集群Collect1n信息，即先確定具體需要查詢哪幾個時間分段索引，從中檢索符合用戶需求的Rowkey值集合；如果不存在，則利用組合索引，根據(jù)具體業(yè)務(wù)情況檢索時間區(qū)間內(nèi)的索引，甚至全部索引，以獲取符合條件的Rowkey值集合； (2)在獲取到Rowkey值集合后，根據(jù)Rowkey值在分布式數(shù)據(jù)庫HBase中查詢，獲取完整的業(yè)務(wù)數(shù)據(jù)，并將其作為結(jié)果集返回給用戶。
【專利摘要】本發(fā)明一種基于時間特征的支持復(fù)雜條件的大數(shù)據(jù)檢索方法，按照數(shù)據(jù)保存時產(chǎn)生的時間戳或者根據(jù)用戶自定義的時間特征，將數(shù)據(jù)信息按照時間特性進(jìn)行切分，在全文檢索引擎Solr上以不同的集群Collection建立索引，在用戶已經(jīng)知曉所查詢信息產(chǎn)生的時間的情況下，可以快速的定位到當(dāng)月的集群Collection的索引庫中進(jìn)行檢索，可以大大縮小檢索的范圍，提升了效率；在用戶無法確定信息產(chǎn)生的時間的情況下，將符合用戶查詢的結(jié)果提供給用戶參考和選擇；本發(fā)明不僅彌補(bǔ)了分布式數(shù)據(jù)庫HBase沒有二級索引的劣勢，而且使得索引的創(chuàng)建更加靈活，滿足不同需求情況下的檢索，并且檢索的效率能夠得到保證。
【IPC分類】G06F17/30
【公開號】CN105095458
【申請?zhí)枴緾N201510454526
【發(fā)明人】陳光淙, 周華, 游建友
【申請人】南威軟件股份有限公司
【公開日】2015年11月25日
【申請日】2015年7月29日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳光淙;周華;游建友;
技術(shù)所有人：南威軟件股份有限公司;
我是此專利的發(fā)明人

上一篇：專屬客服方法及裝置的制造方法
上一篇：歷史數(shù)據(jù)存儲管理方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

復(fù)雜網(wǎng)絡(luò)的統(tǒng)計特征相關(guān)技術(shù)

復(fù)雜網(wǎng)絡(luò)特征相關(guān)技術(shù)

復(fù)雜金融產(chǎn)品特征包括相關(guān)技術(shù)

復(fù)雜網(wǎng)絡(luò)特征路徑長度相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于時間特征支持復(fù)雜條件的大數(shù)據(jù)檢索方法