一種基于概率的大數(shù)據(jù)查詢方法_4

文檔序號：9396908閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于概率的大數(shù)據(jù)查詢方法

Base外的其它數(shù)據(jù)庫；當(dāng)查全概率為0. 5時，數(shù)據(jù)查詢性能基本上優(yōu)于所有進行實驗的數(shù)據(jù)庫。
【主權(quán)項】
1. 一種基于概率的大數(shù)據(jù)查詢方法，其特征在于：包括以下步驟：步驟1:對具有多個屬性的數(shù)據(jù)集進行劃分；步驟2 :對經(jīng)過劃分后的數(shù)據(jù)集進行裝載；步驟3 :對數(shù)據(jù)集進行概率查詢。2. 根據(jù)權(quán)利要求1所述的基于概率的大數(shù)據(jù)查詢方法，其特征在于：所述的步驟1包括如下步驟：步驟1. 1 :選擇數(shù)據(jù)集的一個或者多個屬性作為數(shù)據(jù)集的查詢屬性，給定每個查詢屬性值域的等寬劃分粒度；步驟1. 2 :填補數(shù)據(jù)集中查詢屬性取值空缺的數(shù)據(jù)，通常情況下，將這些查詢屬性的取值設(shè)為該查詢屬性在其值域的最小值、最大值或者空值；步驟1. 3 :判斷查詢屬性取值的數(shù)據(jù)類型，查詢屬性取值的數(shù)據(jù)類型共有數(shù)值和文本兩種類型，如果是數(shù)值類型，則執(zhí)行步驟1. 4,如果是文本類型，則執(zhí)行步驟1. 5 ; 步驟1. 4 :按照查詢屬性取值的大小進行排序，根據(jù)查詢屬性的劃分粒度對查詢屬性進行等寬劃分，繼續(xù)執(zhí)行步驟1. 6 ; 步驟1. 5 :按照查詢屬性取值首字母的字典序進行排序，根據(jù)查詢屬性的劃分粒度對查詢屬性進行等寬劃分，繼續(xù)執(zhí)行步驟1. 6 ; 步驟1. 6 :將各個維的維信息存儲在分布式文件系統(tǒng)中，維信息主要包括維名稱、維值取值類型以及維的劃分粒度。3.根據(jù)權(quán)利要求1所述的基于概率的大數(shù)據(jù)查詢方法，其特征在于：所述的步驟2包括如下步驟：步驟2. 1 :對數(shù)據(jù)集中所有劃分得到的數(shù)據(jù)分塊進行分組；將每個查詢屬性作為多維數(shù)據(jù)空間的一個維，那么該數(shù)據(jù)集中的數(shù)據(jù)分布在一個多維數(shù)據(jù)空間中，對查詢屬性的值域進行等寬劃分其實也就是對每個維的取值空間進行等寬劃分，基于每個維的劃分，分布在多維數(shù)據(jù)空間中的數(shù)據(jù)被劃分為多個小的數(shù)據(jù)塊，在此將劃分得到的每個小的數(shù)據(jù)塊稱作一個block ; 基于多維空間線性化方法對多維數(shù)據(jù)空間中的block進行編號，按照編號的大小順序將block劃分一個或者多個block小組；步驟2. 2 :創(chuàng)建數(shù)據(jù)集在分布式文件系統(tǒng)中的存儲目錄；步驟2. 2. 1 :判斷數(shù)據(jù)庫系統(tǒng)存儲數(shù)據(jù)的根目錄root目錄是否存在，如果不存在，則執(zhí) 行步驟2. 2. 2 ;如果存在，則執(zhí)行步驟2. 2. 3 ; 步驟2. 2. 2 :創(chuàng)建數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)存儲數(shù)據(jù)根目錄root目錄，執(zhí)行步驟2. 2. 3 ; 步驟2. 2. 3 :在根目錄root目錄下創(chuàng)建該存儲該數(shù)據(jù)的特定目錄table目錄，該目錄以該數(shù)據(jù)集所指定的名稱命名；步驟2. 2. 4 :為每個block小組創(chuàng)建m個bucket子目錄來存放數(shù)據(jù)，這m個子目錄的命名規(guī)則為"block小組編號.子目錄bucket編號"；步驟2. 3 :將每個block小組中各個block中的數(shù)據(jù)分別以m個不同的放置概率放置到table目錄中的m個不同的bucket子目錄中，數(shù)據(jù)存儲在bucket子目錄的trunk文件中；對于block中的任意一條數(shù)據(jù)，數(shù)據(jù)可能存放在m個bucket子目錄中的不同的trunk 文件中，在此稱這m個trunk文件為一個trunk小組；對于放置到該trunk小組的任意一個block的數(shù)據(jù)，需要記錄block數(shù)據(jù)在該trunk小組的放置次數(shù)；如果trunk小組中任意一個trunk文件達到了指定的大小，則執(zhí)行步驟2. 4 ;否則，繼續(xù)執(zhí)行步驟2. 3 ; 如果完成數(shù)據(jù)集中的所有數(shù)據(jù)的放置，則執(zhí)行步驟2. 5 ; 步驟2. 4 :在m個bucket子目錄中分別創(chuàng)建新的trunk文件存儲數(shù)據(jù)，執(zhí)行步驟2. 3 ; 步驟2. 5 :將每個block小組中各個block在所有trunk小組的放置次數(shù)存放在分布式文件系統(tǒng)中。4.根據(jù)權(quán)利要求1所述的基于概率的大數(shù)據(jù)查詢方法，其特征在于：所述的步驟3包括如下步驟：步驟3. 1 :用戶通過輸入查詢語句設(shè)置查詢條件；步驟3. 2 :判斷步驟3. 1設(shè)置好的查詢條件是否滿足如下約束條件：約束1 :目標(biāo)數(shù)據(jù)集必須存在于數(shù)據(jù)庫系統(tǒng)中；約束2 :查詢屬性是指定的查詢屬性，且是查詢屬性集合的一個非空子集；約束3 :聚集方式是指定的聚集方法中的一個；約束4 :查全概率必須是一個大于0小于等于1的小數(shù)；若滿足約束1~約束3,未指定或不滿足約束4,則執(zhí)行步驟3. 3 ;若同時滿足上述4個約束，則執(zhí)行步驟3. 4 ;若不滿足約束1~約束3的任意一個約束條件，則查詢失敗，結(jié)束；步驟3. 3 :將查全概率設(shè)為1，執(zhí)行步驟3. 4 ; 步驟3. 4 :根據(jù)查詢語句所指定的數(shù)據(jù)表以及查詢屬性確定查詢數(shù)據(jù)所屬的block以及block小組；步驟3. 5 :讀取block小組中該block的數(shù)據(jù)在各個trunk小組的放置次數(shù)；步驟3. 6 :求解查詢數(shù)據(jù)在各個trunk文件的存在概率；步驟3. 7 :根據(jù)數(shù)據(jù)在各個trunk文件的存在概率，啟發(fā)式地選擇trunk文件，使所選的trunk文件滿足以下兩個約束條件；約束1 :查詢數(shù)據(jù)在所選擇的trunk文件上的查全概率大于或者等于查全概率pj約束2 :對于相同的查詢條件，每次查詢所選擇的trunk文件不完全相同，使得每次的查詢結(jié)果具有一定的隨機性，保證滿足查詢條件的所有數(shù)據(jù)都有可能被查詢到； trunk文件的啟發(fā)式選擇方法具體步驟描述如下：步驟3. 7. 1 :對可能存儲查詢數(shù)據(jù)的所有trunk文件的存在概率進行歸一化處理；步驟3. 7. 2 :選擇不存在概率l-pe小于或者等于查全概率p1^的trunk文件，將其添加到MapSelect〈trunk,pe> 集合中，將其它的trunk文件添加到MapNonSelect〈trunk,pe> 集合中；步驟3. 7. 3 :在MapNonSelect〈trunk,pe>集合中隨機選擇兩個trunk文件，設(shè)查詢數(shù)據(jù) 在這兩個trunk文件的不存在概率分別為ppp2，求解口1與p2的乘積p; 步驟3. 7. 4 :如果其不存在概率之積p大于查全概率K，則執(zhí)行步驟3. 7. 5 ; 如果其不存在概率之積P小于查全概率則執(zhí)行步驟3. 7. 6 ; 如果其不存在概率之積P等于查全概率則執(zhí)行步驟3. 7. 7 ; 如果MapNonSelect〈trunk,pe>集合沒有可以選擇的trunk文件，則執(zhí)行步驟3. 8 ; 步驟3. 7. 5 :從MapNonSelect〈trunk,pe>集合中刪除這兩個元素，繼續(xù)在MapNonSelect〈trunk,pe>集合中隨機選擇一個不存在概率大于p的trunk文件，令p= p? (l-pe)，pe為所選擇的trunk文件的存在概率，執(zhí)行步驟3. 7. 4 ;步驟 3. 7. 6 :將在MapNonSelect〈trunk,pe> 集合中的不存在概率l_pe<{min|pup2} 的所有trunk文件添加到MapSelect〈trunk,pe>集合中，并將這些trunk文件在 ]\^卩1^0113616(31：〈1：1'11111<：，卩(;>集合中刪除；在]\^卩1^0113616(3 十^十1^1^1"''>隹各由論丨全的1：1'11111<：文件中繼續(xù)去選擇比{min|Pl，p2}更大的trunk文件，令執(zhí)行步驟 3. 7. 4 ；步驟3. 7. 7 :如果在MapNonSelect〈trunk,pe>集合中有未被選擇的trunk文件全部添加到MapSelect〈trunk,pe>集合中，執(zhí)行步驟3. 8 ; 步驟3.8 :通過公￥章查詢誤差，其中trunkik表示第 i個bucket子目錄中第k個trunk小組的中的trunk文件，Pi表示block數(shù)據(jù)在第i個bucket子目錄的放置概率，wk表示block數(shù)據(jù)在第k個trunk小組的放置次數(shù)；s表示所有trunk小組的總數(shù)；步驟3. 9 :基于MapReduce編程模型并行處理MapSelect〈trunk,pe>集合中的trunk文件，查詢滿足查詢屬性的數(shù)據(jù)。5. 根據(jù)權(quán)利要求4所述的基于概率的大數(shù)據(jù)查詢方法，其特征在于：所述步驟3. 1中所述的查詢語句，包括select、from、where和recall四個子句，其中，select子句表示需要查詢的屬性以及聚集操作的類型，包括avg,min,max,sum和count;from子句表示需要查詢的目標(biāo)數(shù)據(jù)集;where子句表示查詢屬性及其取值；recall子句表示查全概率，表示查全概率的大小，查全概率是一個取值大于〇小于等于1的數(shù)，表示查詢到滿足查詢條件的所有數(shù)據(jù)的可能性的大小。6. 根據(jù)權(quán)利要求4所述的基于概率的大數(shù)據(jù)查詢方法，其特征在于：所述步驟3. 6中查詢數(shù)據(jù)在各個trunk文件的存在概率的求解公式為=卜(1 _A)"vi<m，其中口1表示該block數(shù)據(jù)在第i個bucket子目錄的放置概率，wk表示該block數(shù)據(jù)在第k個trunk 小組的放置次數(shù)。
【專利摘要】本發(fā)明公開一種基于概率的大數(shù)據(jù)查詢方法，屬于數(shù)據(jù)庫技術(shù)領(lǐng)域。該方法包括：根據(jù)數(shù)據(jù)模型，對具有多個屬性的數(shù)據(jù)集進行劃分的步驟；將劃分后的數(shù)據(jù)集按照數(shù)據(jù)概率放置模型進行裝載的步驟；對數(shù)據(jù)集進行概率查詢的步驟。該方法為一種近似完整性的查詢方法，通過適當(dāng)?shù)負(fù)p失查詢完整性來提高數(shù)據(jù)的查詢性能；通過一種基于概率的數(shù)據(jù)放置模型，實現(xiàn)了數(shù)據(jù)的概率放置以及數(shù)據(jù)在各個存儲文件存在概率的求解；通過一種啟發(fā)式數(shù)據(jù)查詢方法，使得數(shù)據(jù)庫系統(tǒng)可以通過查全概率來查詢數(shù)據(jù)；且通過概率計算保證了概率查詢的查詢誤差。
【IPC分類】G06F17/30
【公開號】CN105117442
【申請?zhí)枴緾N201510492377
【發(fā)明人】宋杰, 伍晉博, 張一川, 張莉
【申請人】東北大學(xué)
【公開日】2015年12月2日
【申請日】2015年8月12日

完整全部詳細技術(shù)資料下載

當(dāng)前第4頁1 2 3 4

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)相關(guān)技術(shù)

概率數(shù)據(jù)關(guān)聯(lián)相關(guān)技術(shù)

聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)算法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于概率的大數(shù)據(jù)查詢方法_4