一種地理空間數(shù)據(jù)的用戶隱私保護方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息安全隱私保護領(lǐng)域,特別涉及一種地理空間數(shù)據(jù)的用戶隱私保護 方法及系統(tǒng)。
【背景技術(shù)】
[0002] 信息時代的飛速發(fā)展,使得數(shù)據(jù)的獲取變得日益容易,如用戶的移動軌跡數(shù)據(jù)、購 物記錄數(shù)據(jù)和辦公/家庭地址數(shù)據(jù)等,所有這些由位置點構(gòu)成的數(shù)據(jù)稱之為地理空間數(shù) 據(jù)。通過對地理空間數(shù)據(jù)進行分析,能夠獲取很多有用信息。對于交通部門,可以通過分析 用戶移動軌跡數(shù)據(jù),得出當(dāng)前交通狀況,為城市交通控制提供數(shù)據(jù)支持;對于商家,可以分 析用戶購物記錄數(shù)據(jù)或車輛移動軌跡數(shù)據(jù),得出用戶感興趣的區(qū)域或者聚集地,為商業(yè)布 局提供數(shù)據(jù)支持;對于城市規(guī)劃局,可以分析用戶家庭地址數(shù)據(jù),得出城市住宅布局信息, 為城市規(guī)劃提供數(shù)據(jù)支持。
[0003] 上述決策制定離不開對數(shù)據(jù)的分析,這些數(shù)據(jù)的發(fā)布與共享為決策制定與科研分 析提供了極大便利,然而,數(shù)據(jù)的分析不可避免地涉及到用戶隱私安全,存在隱私泄露風(fēng) 險。例如,2015年,麻省理工學(xué)院研究員DeMontjoye等證明,在一個110萬人的匿名購物 記錄數(shù)據(jù)中,僅需要四條購物記錄中的日期和位置信息,便能識別出數(shù)據(jù)集中90%的用戶, 當(dāng)今,用戶隱私問題已經(jīng)成為地理空間數(shù)據(jù)應(yīng)用的阻礙,如何確保數(shù)據(jù)高可用性的同時保 證用戶隱私安全是我們需要考慮的問題。
[0004] 地理空間數(shù)據(jù)的廣泛應(yīng)用為數(shù)據(jù)的安全性提出了更高的要求,如安全可控和嚴(yán)格 地可證明安全性,傳統(tǒng)的基于匿名模型(如k-匿名、1-多樣性)的方法存在泄露用戶隱私 的風(fēng)險,并且不能提供安全可控的隱私保護。與此相反,差分隱私是一種嚴(yán)格證明和安全可 控的隱私保護技術(shù),在數(shù)據(jù)分析和應(yīng)用的同時,能夠保護用戶隱私數(shù)據(jù)不被泄露,差分隱私 已經(jīng)成為信息安全研究領(lǐng)域隱私保護事實上的標(biāo)準(zhǔn)。差分隱私通過噪音機制實現(xiàn),即向輸 出結(jié)果中添加隨機噪聲來保護數(shù)據(jù)安全,添加的噪聲越大,數(shù)據(jù)越安全,然而,數(shù)據(jù)的可用 性越低,反之亦然,即數(shù)據(jù)安全性與數(shù)據(jù)可用性是一對矛盾關(guān)系。
[0005] 基于差分隱私的數(shù)據(jù)隱私保護為了提高數(shù)據(jù)的可用性,增強查詢精度,提出了基 于樹型結(jié)構(gòu)的隱私空間分解方法,它主要是將一個整體數(shù)據(jù)空間劃分成為若干個獨立單元 格,然后統(tǒng)計每個單元格中的點數(shù)。
[0006] Cormode等基于完全四叉樹提出一種算法,此算法主要采用等比預(yù)算分配策略為 四叉樹每層分配不同隱私預(yù)算,以提高數(shù)據(jù)查詢精度。Fan等利用四叉樹將數(shù)據(jù)空間遞歸劃 分成四等份,與kd-樹劃分相比,四叉樹遞歸劃分效率高。然而,當(dāng)數(shù)據(jù)比較稀疏時,會導(dǎo)致 較大誤差。為了降低添加噪聲大小,提高數(shù)據(jù)查詢精確度,F(xiàn)an等人將相似單元格合并到一 個劃分中以克服數(shù)據(jù)的稀疏性,并向此劃分添加噪聲,降低了每個單元格中噪聲大小。針對 二維地理空間數(shù)據(jù),通過樹型結(jié)構(gòu)對數(shù)據(jù)域進行分割以提高數(shù)據(jù)可用性時,樹深是影響數(shù) 據(jù)查詢結(jié)果的關(guān)鍵因素,而上述文獻沒有給出具體樹深或者劃分粒度的理論支持。Qardaji 等從數(shù)據(jù)域的劃分粒度出發(fā),研究如何構(gòu)建差分隱私數(shù)據(jù)集,并提出一種基于噪聲誤差和 均勻假設(shè)誤差的粒度劃分模型,開辟了提高數(shù)據(jù)可用性的新方向,然而其模型建立時假設(shè) 數(shù)據(jù)查詢形狀為正方形,長等于寬,不符合數(shù)據(jù)查詢實際情況,并且設(shè)均勻假設(shè)誤差正比于 查詢邊界單元格中總點數(shù),未考慮單元格面積因素。
【發(fā)明內(nèi)容】
[0007] 針對現(xiàn)有技術(shù)存在的不足,本發(fā)明結(jié)合一種新穎的數(shù)據(jù)域粒度劃分模型和均勻性 度量參數(shù),提供了一種面向地理空間數(shù)據(jù)的用戶隱私保護技術(shù)方案。
[0008] 本發(fā)明的技術(shù)方案提供一種地理空間數(shù)據(jù)的用戶隱私保護方法,包括以下步驟,
[0009] 步驟1,根據(jù)數(shù)據(jù)域粒度劃分模型對數(shù)據(jù)空間進行分割,包括以下步驟,
[0010] 步驟1. 1,根據(jù)數(shù)據(jù)空間大小得到數(shù)據(jù)空間的長度L和寬度H;
[0011] 步驟1. 2,根據(jù)以下數(shù)據(jù)域粒度劃分模型,將數(shù)據(jù)空間劃分為mXm個單元格,
[0012]
[0013] 其中,k為相對誤差與面積的比例系數(shù),e為隱私預(yù)算,
[0014] 計算橫軸上每個單元格長度1,I=L/m,
[0015] 計算縱軸上每個單元格長度h,h=H/m,
[0016] 根據(jù)1和h的值,依次記錄每個單元格Ci的左、上、右、下四個邊框的坐標(biāo)值,i= 1,2,? ? ?,mXm ;
[0017]步驟1. 3,從數(shù)據(jù)集中依次取出一個數(shù)據(jù)點point(X,y),如果point(X,y)落于單 元格C1,則C1增加一個計數(shù),否則不增加;
[0018] 步驟1.4,返回步驟1.3從數(shù)據(jù)集中依次取出下一個數(shù)據(jù)點進行處理, 直到數(shù)據(jù)集中所有數(shù)據(jù)點都取完成為止,最后得到一個數(shù)據(jù)空間S的單元格集合 Ic1,C2,…Ci,…CmxJ,對應(yīng)的計數(shù)集合為(X1,X2,…Xi,…XmxJ,Xi為單元格Ci中的數(shù)據(jù) 點計數(shù);
[0019] 步驟2,基于均勻性度量參數(shù),將相似單元格合并到同一個劃分,包括以下步驟,
[0020] 步驟2. 1,從數(shù)據(jù)空間S的mXm個單元格中依次取出一個單元格Ci,計算均勾性 度量參數(shù)U(S),
[0022] 其中,X(Ci)為當(dāng)前單元格中數(shù)據(jù)點集計數(shù),X(Cj)為除當(dāng)前單元格的其他單元格 中數(shù)據(jù)點集計數(shù),Ix(Ci)-X(Cj) I不超過相應(yīng)給定閾值,Num為Ix(Ci)-X(Cj) I不超過相應(yīng)給 定閾值的單元格總個數(shù);
[0023] 步驟2. 2,若U(S)小于等于相應(yīng)給定閾值,則單元格(^與c^合并到一個劃分,若 大于相應(yīng)給定閾值,則單元格(^與c,不合并到一個劃分;
[0024] 若當(dāng)前單元格C1沒有與任何單元格進行合并,則當(dāng)前單元格c1單獨作為一個劃 分;
[0025] 將合并的單元格從數(shù)據(jù)空間S中移除;
[0026] 步驟2. 3,返回步驟2. 1從數(shù)據(jù)空間S中依次取出下一個單元格進行處理,直到數(shù) 據(jù)空間S為空,設(shè)得到N個劃分,最后得到一個數(shù)據(jù)空間S的劃分集合{Pl,p2,...pn,...pN}, n= 1,2,. ..,N;步驟3,向每個劃分中分別添加符合拉普拉斯分布的隨機噪聲,得到含噪數(shù) 據(jù)集,包括以下步驟,
[0027] 步驟3. 1,計算符合拉普拉斯分布的隨機噪聲noise~Lap(Af/e),相應(yīng)位置參 數(shù)為〇,尺度參數(shù)為△f/e,其中,△f為全局敏感度;
[0028] 步驟3. 2,從數(shù)據(jù)空間S的劃分集合{Pl,p2, ...pn,...pN}中依次取出一個劃分pn, 向劃分Pn中添加噪聲noise(pn);
[0029] 步驟3. 3,計算劃分pn中每個單元格噪聲的大小,設(shè)某單元格c;為劃分pn中所包 含的單元格,相應(yīng)噪聲noise(Ci) =noise(pn)/pn.size(),pn.size()為劃分pn中所包含的 單元格個數(shù);
[0030] 步驟3. 4,返回步驟3. 2從數(shù)據(jù)空間S的劃分集合{Pl,p2, ...pn,...pN}中依次取 出下一個劃分進行處理,直到數(shù)據(jù)空間S的N個劃分都取完為止,最后得到一個含噪數(shù)據(jù)集 {無,天,....?,,...元/,,,},每個含噪計數(shù).|;對應(yīng)一個單元格 (;1;
[0031] 步驟4,基于含噪數(shù)據(jù)集對外提供數(shù)據(jù)查詢結(jié)果,包括以下步驟,
[0032] 步驟4. 1,給定一個查詢Q,指定左、上、右、下四個邊框的坐標(biāo)值,Q為正方形或矩 形;
[0033] 步驟4. 2,從數(shù)據(jù)空間S的mXm個單元格中依次取出一個單元格C1,若C1完全包 含于查詢Q,則Q得到單元格C1的噪聲計數(shù)果'=笨,若C1不完全包含于查詢Q,Q與c,的交 集為I1,通過I1的面積與c,面積的比值乘以噪聲計數(shù)尾得到交集I1中的噪聲計數(shù)足、
[0034] 步驟4. 3,返回步驟4. 2從數(shù)據(jù)空間S的mXm個單元格中依次取出下一個單元格 進行處理,直到數(shù)據(jù)空間S的mXm個單元格都取完為止,求得查詢Q包含的單元格中噪聲 計數(shù)&'之和%
[0035] 步驟4. 4,為查詢Q返回含噪結(jié)果X6
[0036] 而且,步驟3. 1中,全局敏感度Af= 1。
[0037] 而且,步驟4. 2中,若C1不完全包含于查詢Q,Q與單元格ci交集Ii的噪聲計數(shù) X' =.yXarea(/)jarea(c),area(Ii)為Q與單元格Ci交集I;的面積,area(c;)為單元格 C1的面積。
[0038] 本發(fā)明提供一種地理空間數(shù)據(jù)的用戶隱私保護系統(tǒng),包括以下模塊,
[0039] 數(shù)據(jù)空間分割模塊,用于根據(jù)數(shù)據(jù)域粒度劃分模型對數(shù)據(jù)空間進行分割,包括以 下子模塊,
[