亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于時間特征支持復(fù)雜條件的大數(shù)據(jù)檢索方法

文檔序號:9375844閱讀:276來源:國知局
一種基于時間特征支持復(fù)雜條件的大數(shù)據(jù)檢索方法
【專利說明】一種基于時間特征支持復(fù)雜條件的大數(shù)據(jù)檢索方法技術(shù)背景
[0001]本發(fā)明涉及一種基于時間特征支持復(fù)雜條件的大數(shù)據(jù)檢索方法。
【背景技術(shù)】
[0002]
[0003]在大數(shù)據(jù)的環(huán)境下,根據(jù)用戶提供的條件快速和準(zhǔn)確的檢索到用戶關(guān)心和感興趣的信息,是大數(shù)據(jù)應(yīng)用的基礎(chǔ)和重要的組成部分。目前,大數(shù)據(jù)的檢索主要存在兩個不足:首先,在大數(shù)據(jù)環(huán)境下,為了提供最佳的查詢性能,一般都采用軟硬一體的大數(shù)據(jù)一體機(jī),這樣項目的成本顯著提升;其次,在數(shù)據(jù)量遞增和集群擴(kuò)展后,檢索的性能降低的趨勢明顯。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的在于提供一種基于時間特征的支持復(fù)雜條件的大數(shù)據(jù)檢索方法,可以滿足用戶各種不同情況下多條件組合以及復(fù)雜條件的檢索需求,并且能夠保證在數(shù)據(jù)和集群不斷遞增情況下,依然能夠保持良好的性能。
[0005]本發(fā)明一種基于時間特征的支持復(fù)雜條件的大數(shù)據(jù)檢索方法,具體包括如下步驟:
[0006]步驟1、數(shù)據(jù)的存儲:
[0007](I)將業(yè)務(wù)數(shù)據(jù)完整地保存至分布式數(shù)據(jù)庫HBase中;
[0008](2)根據(jù)該業(yè)務(wù)數(shù)據(jù)在全文檢索引擎Solr中創(chuàng)建對應(yīng)的索引:
[0009]在全文檢索引擎Solr中創(chuàng)建索引時,根據(jù)業(yè)務(wù)數(shù)據(jù)的時間特征判斷所要保存的集群ColIect1n是否已經(jīng)存在,如果不存在則先創(chuàng)建集群Collect1n,集群Collect1n的命名按照制定的時間規(guī)則,然后保存Solr索引,如果已經(jīng)存在,則直接保存Solr索引;
[0010]步驟2、數(shù)據(jù)的查詢:
[0011](I)查詢?nèi)臋z索引擎Solr獲取分布式數(shù)據(jù)庫HBase的Rowkey值:
[0012]根據(jù)用戶提供的多字段或者復(fù)雜的查詢條件,判斷查詢條件中是否包含時間特征,如果存在,獲取需要查詢的集群Collect1n信息,即先確定具體需要查詢哪幾個時間分段索引,從中檢索符合用戶需求的Rowkey值集合;如果不存在,則利用組合索引,根據(jù)具體業(yè)務(wù)情況檢索時間區(qū)間內(nèi)的索引,甚至全部索引,以獲取符合條件的Rowkey值集合;
[0013](2)在獲取到Rowkey值集合后,根據(jù)Rowkey值在分布式數(shù)據(jù)庫HBase中查詢,獲取完整的業(yè)務(wù)數(shù)據(jù),并將其作為結(jié)果集返回給用戶。
[0014]目前,在大數(shù)據(jù)應(yīng)用中,其數(shù)據(jù)信息都保存有時間特征,即時間戳。本發(fā)明按照數(shù)據(jù)保存時產(chǎn)生的時間戳或者根據(jù)用戶自定義的時間特征,將數(shù)據(jù)信息按照時間特性進(jìn)行切分,在全文檢索引擎Solr上以不同的集群Collect1n建立索引,在用戶已經(jīng)知曉所查詢的信息產(chǎn)生的時間的情況下,可以快速的定位到當(dāng)月的集群Collect1n的索引庫中進(jìn)行檢索,可以大大縮小了檢索的范圍,提升了效率;在用戶無法確定信息產(chǎn)生的時間的情況下,將符合用戶查詢的結(jié)果按信息產(chǎn)生的時間的倒敘進(jìn)行排列,作為用戶默認(rèn)的排序方式,并把排完序后的信息提供給用戶參考和選擇。本發(fā)明不僅彌補(bǔ)了分布式數(shù)據(jù)庫HBase沒有二級索引的劣勢,而且使得索引的創(chuàng)建更加靈活,滿足不同需求情況下的檢索,并且檢索的效率能夠得到保證。在大數(shù)據(jù)應(yīng)用中,不僅能夠滿足用戶各種情況下的多條件和復(fù)雜條件的檢索需求,而且能夠保持高效性,避免在數(shù)據(jù)量和集群擴(kuò)展后出現(xiàn)性能急劇下降的情況。
【附圖說明】
[0015]圖1為本發(fā)明中數(shù)據(jù)入庫和創(chuàng)建索引的流程圖;
[0016]圖2為本發(fā)明中數(shù)據(jù)查詢的流程圖。
[0017]以下結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步詳述。
【具體實施方式】
[0018]目前,在大數(shù)據(jù)應(yīng)用中,其數(shù)據(jù)信息都保存有時間特征,即時間戳。本發(fā)明按照數(shù)據(jù)保存時產(chǎn)生的時間戳或者根據(jù)用戶自定義的時間特征,將數(shù)據(jù)信息按照時間特性進(jìn)行切分,在全文檢索引擎Solr上以不同的集群Collect1n建立索引,例如可以按照年月,在用戶已經(jīng)知曉所查詢的信息產(chǎn)生的時間的情況下,可以快速的定位到當(dāng)月的集群Collect1n的索引庫中進(jìn)行檢索,可以大大縮小檢索的范圍,提升了效率;在用戶無法確定信息產(chǎn)生的時間的情況下,將符合用戶查詢的結(jié)果按信息產(chǎn)生的時間進(jìn)行倒敘排列,作為用戶默認(rèn)的排序方式,并把排完序后的信息提供給用戶參考和選擇。本發(fā)明不僅彌補(bǔ)了分布式數(shù)據(jù)庫HBase沒有二級索引的劣勢,而且使得索引的創(chuàng)建更加靈活,滿足不同需求情況下的檢索,并且檢索的效率能夠得到保證。
[0019]本發(fā)明一種基于時間特征的支持復(fù)雜條件的大數(shù)據(jù)檢索方法,具體包括如下步驟:
[0020]步驟1、如圖1所示,數(shù)據(jù)的存儲:
[0021](I)將業(yè)務(wù)數(shù)據(jù)完整地保存至分布式數(shù)據(jù)庫HBase中;
[0022](2)根據(jù)該業(yè)務(wù)數(shù)據(jù)在全文檢索引擎Solr中創(chuàng)建對應(yīng)的索引:
[0023]在全文檢索引擎Solr中創(chuàng)建索引時,根據(jù)業(yè)務(wù)數(shù)據(jù)的時間特征判斷所要保存的集群ColIect1n是否已經(jīng)存在,如果不存在則先創(chuàng)建集群Collect1n,集群Collect1n的命名按照制定的時間規(guī)則,然后保存Solr索引,如果已經(jīng)存在,則直接保存Solr索引;
[0024]所述的時間規(guī)則按照時間特征對數(shù)據(jù)實現(xiàn)分段索引,具體內(nèi)容如下所示:
[0025](I)指定時間特征值的參照標(biāo)準(zhǔn),即標(biāo)準(zhǔn)時間,本發(fā)明以Java里通用的1970年I月I日作為參照時間;
[0026](2)設(shè)置時間特征的間隔單位,根據(jù)具體的業(yè)務(wù)系統(tǒng)實際產(chǎn)生的數(shù)據(jù)量多少的情況,制定劃分?jǐn)?shù)據(jù)的時間單位,當(dāng)產(chǎn)生的數(shù)據(jù)量特別巨大時,可以以較短的時間周期為一個時間單位,例如天、周等;當(dāng)產(chǎn)生數(shù)據(jù)量不是很大時,采用較長的時間周期為一個時間單位,例如月、年;
[0027](3)可以是數(shù)據(jù)主題名稱與和標(biāo)準(zhǔn)時間相差的時間單位的個數(shù)為后綴,例如:topic_123 等
[0028](4)按照時間特征的組合索引:
[0029]根據(jù)具體業(yè)務(wù)對數(shù)據(jù)的使用頻度和使用的狀況,按照當(dāng)前的時間特征的分段單位進(jìn)行各種不同的組合,以滿足各種不同的需求,例如:最近一個月,三個月,半年等;或者按照前一步驟組合好的特征時間段,分別建立不同的別名,方便進(jìn)行查詢使用。采用這種索引組合的形式,靈活的適應(yīng)了各種不同時間段的業(yè)務(wù)需求。
[0030]步驟2、如圖2所示,數(shù)據(jù)的查詢:
[0031](I)查詢?nèi)臋z索引擎Solr獲取分布式數(shù)據(jù)庫HBase的Rowkey值:
[0032]根據(jù)用戶提供的多字段或者復(fù)雜的查詢條件,判斷查詢條件中是否包含時間特征,如果存在,則根據(jù)制定的時間規(guī)則,獲取需要查詢的集群Collect1n信息,即先確定具體需要查詢哪幾個時間分段索引,從中檢索符合用戶需求的Rowkey值集合;如果不存在,則充分利用組合索引,根據(jù)具體業(yè)務(wù)情況檢索最近三個月、最近一年、最近三年、甚至全部索引等,獲取符合條件的Rowkey集合,這里采用基于時間特征的查詢大大縮小了數(shù)據(jù)檢索的范圍,提高了查詢的性能;
[0033](2)在獲取到Rowkey值集合后,根據(jù)Rowkey值在分布式數(shù)據(jù)庫HBase中查詢,便可快速的獲取到完整的業(yè)務(wù)數(shù)據(jù),將其作為結(jié)果集返回給用戶。
[0034]以上所述,僅是本發(fā)明較佳實施例而已,并非對本發(fā)明的技術(shù)范圍作任何限制,故凡是依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何細(xì)微修改、等同變化與修飾,均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項】
1.一種基于時間特征的支持復(fù)雜條件的大數(shù)據(jù)檢索方法,其特征在于包括如下步驟: 步驟1、數(shù)據(jù)的存儲: (1)將業(yè)務(wù)數(shù)據(jù)完整地保存至分布式數(shù)據(jù)庫HBase中; (2)根據(jù)該業(yè)務(wù)數(shù)據(jù)在全文檢索引擎Solr中創(chuàng)建對應(yīng)的索引: 在全文檢索引擎Solr中創(chuàng)建索引時,根據(jù)業(yè)務(wù)數(shù)據(jù)的時間特征判斷所要保存的集群Collect1n是否已經(jīng)存在,如果不存在則先創(chuàng)建集群Collect1n,集群Collect1n的命名按照制定的時間規(guī)則,然后保存Solr索引,如果已經(jīng)存在,則直接保存Solr索引; 步驟2、數(shù)據(jù)的查詢: (1)查詢?nèi)臋z索引擎Solr獲取分布式數(shù)據(jù)庫HBase的Rowkey值: 根據(jù)用戶提供的多字段或者復(fù)雜的查詢條件,判斷查詢條件中是否包含時間特征,如果存在,獲取需要查詢的集群Collect1n信息,即先確定具體需要查詢哪幾個時間分段索引,從中檢索符合用戶需求的Rowkey值集合;如果不存在,則利用組合索引,根據(jù)具體業(yè)務(wù)情況檢索時間區(qū)間內(nèi)的索引,甚至全部索引,以獲取符合條件的Rowkey值集合; (2)在獲取到Rowkey值集合后,根據(jù)Rowkey值在分布式數(shù)據(jù)庫HBase中查詢,獲取完整的業(yè)務(wù)數(shù)據(jù),并將其作為結(jié)果集返回給用戶。
【專利摘要】本發(fā)明一種基于時間特征的支持復(fù)雜條件的大數(shù)據(jù)檢索方法,按照數(shù)據(jù)保存時產(chǎn)生的時間戳或者根據(jù)用戶自定義的時間特征,將數(shù)據(jù)信息按照時間特性進(jìn)行切分,在全文檢索引擎Solr上以不同的集群Collection建立索引,在用戶已經(jīng)知曉所查詢信息產(chǎn)生的時間的情況下,可以快速的定位到當(dāng)月的集群Collection的索引庫中進(jìn)行檢索,可以大大縮小檢索的范圍,提升了效率;在用戶無法確定信息產(chǎn)生的時間的情況下,將符合用戶查詢的結(jié)果提供給用戶參考和選擇;本發(fā)明不僅彌補(bǔ)了分布式數(shù)據(jù)庫HBase沒有二級索引的劣勢,而且使得索引的創(chuàng)建更加靈活,滿足不同需求情況下的檢索,并且檢索的效率能夠得到保證。
【IPC分類】G06F17/30
【公開號】CN105095458
【申請?zhí)枴緾N201510454526
【發(fā)明人】陳光淙, 周華, 游建友
【申請人】南威軟件股份有限公司
【公開日】2015年11月25日
【申請日】2015年7月29日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1