針對失配的先驗信息對抗推斷攻擊的隱私的制作方法
【專利說明】
[0001] 相關申請的交叉引用
[0002] 本申請請求于2013年2月8日,在美國專利和商標局提交,并且被分配的序列號為 61 /762480的臨時申請的優(yōu)先權和從其獲得的所有利益。
技術領域
[0003] 本發(fā)明一般地設及用于保護隱私的方法和裝置,并且更特別地,設及根據(jù)在聯(lián)合 概率比較中使用的失配或不完整的先驗信息生成隱私保護映射機制的方法和裝置。
【背景技術】
[0004] 在大數(shù)據(jù)時代,用戶數(shù)據(jù)的收集和挖掘已經(jīng)成為大量的私有和公共機構的快速成 長的慣常做法。例如,技術公司利用用戶數(shù)據(jù),W向他們的客戶提供個性化服務,政府代理 依賴數(shù)據(jù)W解決各類挑戰(zhàn),例如,國家安全、國民健康狀況、預算和經(jīng)費分配,或者醫(yī)療機構 分析數(shù)據(jù)W發(fā)現(xiàn)疾病的起源和可能的治療方案。在一些情形下,收集、分析或與第=方共享 用戶數(shù)據(jù),在未經(jīng)用戶許可或覺察的情況下執(zhí)行。在另一些情形下,數(shù)據(jù)被用戶自愿向特定 分析方公布,W獲得服務作為回報,例如,產(chǎn)品評級被公布W獲得推薦。運一服務,或者用戶 從允許訪問該用戶的數(shù)據(jù)所獲得的其它利益,可W被稱為效用。在二者之一的情形下,當一 些被收集的數(shù)據(jù)可能被用戶認為是敏感的(例如,政治觀點、健康狀態(tài)、收入水平)時,或乍 看可能無害(例如產(chǎn)品評級),仍然導致對與其相關的更為敏感的數(shù)據(jù)的推斷時,隱私風險 將會增加。后者的威脅設及推斷攻擊(inference attack),運是一種通過利用隱私數(shù)據(jù)與 被公開公布數(shù)據(jù)的關系,對隱私數(shù)據(jù)進行推斷的技術。
[0005] 在近些年中,在線隱私濫用的許多威脅已經(jīng)顯露,包括身份竊取、名譽損害、工作 丟失、歧視、騷擾、網(wǎng)絡恐嚇、追蹤甚至自殺。同時,對在線社會網(wǎng)絡(OSN)提供方的指控已經(jīng) 變成常見的設嫌非法數(shù)據(jù)收集、未經(jīng)用戶許可共享數(shù)據(jù)、未經(jīng)通知用戶改變隱私設置、誤導 用戶追蹤他們的瀏覽行為、不執(zhí)行用戶的刪除行為,W及未適當?shù)赝ㄖ脩絷P于他們的數(shù) 據(jù)的用途和其他哪些人得W訪問運些數(shù)據(jù)。OSN的賠償責任可能上升到幾千萬甚至幾億美 J L O
[0006] 互聯(lián)網(wǎng)中管理隱私的一個中屯、問題在于同時管理公開數(shù)據(jù)和隱私數(shù)據(jù)。許多用戶 愿意公布關于他們的一些數(shù)據(jù),比如他們的觀影史或者他們的性別;他們運么做是因為運 種數(shù)據(jù)允許有用的服務,并且因為運些屬性很少被認為隱私。然而,用戶還有其他他們認為 隱私的數(shù)據(jù),比如收入水平、政治立場、或醫(yī)療條件。在運樣的工作中,我們關注用戶能夠公 布她的公開數(shù)據(jù),但是能夠阻止可W從公開信息得到她的隱私數(shù)據(jù)的推斷攻擊的方法。通 知用戶關于如何使她的公開數(shù)據(jù)失真(在公布它之前),W致推斷攻擊不能夠成功地得知她 的隱私數(shù)據(jù),運一點將是受期望的。同時,該失真應當是有界的,W便于原來的服務(比如推 薦)能夠繼續(xù)有效。
[0007] 期望用戶獲得對公開公布的數(shù)據(jù)的分析的利益,比如電影喜好、或購物習慣。然 而,不期望第=方能夠分析運一公開數(shù)據(jù)并推斷隱私數(shù)據(jù),比如政治立場或收入水平。期待 用戶或服務能夠公布一些公開信息W獲得利益,但是控制第=方推斷隱私信息的能力,運 一點將是受期望的。運一控制機制的困難方面在于,使用先驗記錄和隱私記錄(不容易被獲 取W進行可靠比較)的聯(lián)合概率比較,隱私數(shù)據(jù)通常被推斷。隱私數(shù)據(jù)和公開數(shù)據(jù)的運一限 定數(shù)目的樣本導致先驗信息失配的問題。因此,期望克服上面的難點,并且向用戶提供對于 隱私數(shù)據(jù)安全的體驗。
【發(fā)明內(nèi)容】
[0008] 根據(jù)本發(fā)明的一方面,公開了一種裝置。根據(jù)示例性的實施例,用于處理用戶數(shù)據(jù) 的裝置包括:存儲器,用于存儲所述用戶數(shù)據(jù),其中所述用戶數(shù)據(jù)包括公開數(shù)據(jù);處理器,用 于將所述用戶數(shù)據(jù)與調(diào)查數(shù)據(jù)比較,用于響應于所述比較,確定隱私數(shù)據(jù)的概率,并響應于 所述概率的值超過預定闊值,用于改變所述公開數(shù)據(jù)W生成改變后的數(shù)據(jù);網(wǎng)絡接口,用于 傳送所述改變后數(shù)據(jù)。
[0009] 根據(jù)本發(fā)明的另一方面,公開了一種用于保護隱私數(shù)據(jù)的方法。根據(jù)示例性的實 施例,該方法包括W下步驟:獲取所述用戶數(shù)據(jù),其中所述用戶數(shù)據(jù)包括公開數(shù)據(jù);將所述 用戶數(shù)據(jù)與調(diào)查數(shù)據(jù)比較;響應于所述比較確定隱私數(shù)據(jù)的概率;并響應于所述概率的值 超過預定闊值,改變所述公開數(shù)據(jù)W生成改變后的數(shù)據(jù)。
[0010] 根據(jù)本發(fā)明的另一方面,公開了用于保護隱私數(shù)據(jù)的第二方法。根據(jù)示例性的實 施例,該方法包括W下步驟:收集與用戶相關的多個用戶公開數(shù)據(jù);將所述多個公開數(shù)據(jù)與 多個公開調(diào)查數(shù)據(jù)比較,其中所述公開調(diào)查數(shù)據(jù)與多個隱私調(diào)查數(shù)據(jù)相關;響應于所述比 較確定所述用戶隱私數(shù)據(jù)的概率,其中所述用戶隱私數(shù)據(jù)的概率準確地超過闊值;并改變 所述多個用戶公開數(shù)據(jù)的至少一個W生成多個改變后的用戶公開數(shù)據(jù);將所述多個改變后 的用戶公開數(shù)據(jù)與所述多個公開調(diào)查數(shù)據(jù)比較;W及響應于所述多個改變后的公開數(shù)據(jù)與 所述多個公開調(diào)查數(shù)據(jù)的所述比較,確定所述用戶隱私數(shù)據(jù)的所述概率,其中所述用戶隱 私數(shù)據(jù)的概率低于所述闊值。
【附圖說明】
[0011] 通過參考下面結合附圖對本發(fā)明的實施例的描述,本發(fā)明的上面提及的和其他特 征和優(yōu)勢,W及獲得運些的方式,將變得更為明顯,且本發(fā)明將被更好地理解,其中:
[0012] 圖1為根據(jù)本原理的實施例,描述了用于保護隱私的示例性方法的流程圖。
[0013] 圖2為根據(jù)本原理的實施例,描述了當隱私數(shù)據(jù)和公開數(shù)據(jù)之間的聯(lián)合分布已知 時,用于保護隱私的示例性方法的流程圖。
[0014] 圖3為根據(jù)本原理的實施例,描述了當隱私數(shù)據(jù)和公開數(shù)據(jù)之間的聯(lián)合分布未知 且公開數(shù)據(jù)的邊緣概率測度也未知時,用于保護隱私的示例性方法的流程圖。
[0015] 圖4為根據(jù)本原理的實施例,描述了當隱私數(shù)據(jù)和公開數(shù)據(jù)之間的聯(lián)合分布未知 但公開數(shù)據(jù)的邊緣概率測度已知時,用于保護隱私的示例性方法的流程圖。
[0016] 圖5為根據(jù)本原理的實施例,描述了示例性的隱私代理的框圖。
[0017]圖6為根據(jù)本原理的實施例,描述了具有多個隱私代理的示例性系統(tǒng)的框圖。
[0018] 圖7為根據(jù)本原理的實施例,描述了用于保護隱私的示例性方法的流程圖。
[0019] 圖8為根據(jù)本原理的實施例,描述了用于保護隱私的第二示例性方法的流程圖。
[0020] 運里提出的范例示出了本發(fā)明的優(yōu)選實施例,并且運些范例不被解釋為W任何方 式限制本發(fā)明的范圍。
【具體實施方式】
[0021] 現(xiàn)在參考附圖,并且更特別地參考圖1,示出用于實現(xiàn)本發(fā)明的示例性方法100的 示圖。
[0022] 圖1示出了根據(jù)本原理,用于使將被公布的公開數(shù)據(jù)失真W保護隱私的示例性方 法100。方法100起始于105。在步驟110,例如,從不關屯、他們的公開數(shù)據(jù)或隱私數(shù)據(jù)的隱私 的那些用戶,基于被公布的數(shù)據(jù)收集統(tǒng)計信息。我們將運些用戶表示為"公開用戶",并且將 希望使將被公布的公開數(shù)據(jù)失真的用戶表示為"隱私用戶"。
[0023] 統(tǒng)計信息可W通過網(wǎng)絡爬蟲、訪問不同的數(shù)據(jù)庫收集,或者可W被數(shù)據(jù)整合方提 供。哪些統(tǒng)計信息能夠被收集取決于公開用戶所公布的內(nèi)容。例如,如果公開用戶公布了隱 私數(shù)據(jù)和公開數(shù)據(jù),聯(lián)合分布Ps,x的估計能夠被獲取。在另一示例中,如果公開用戶僅公布 了公開數(shù)據(jù),邊緣概率測度Px(而非聯(lián)合分布Ps,X)的估計,能夠被獲取。在另一示例中,我們 可能僅能夠獲得公開數(shù)據(jù)的均值和方差。在最差的情形下,我們可能不能獲得關于公開數(shù) 據(jù)或隱私數(shù)據(jù)的任何信息。
[0024] 在步驟120,假定效用約束,該方法基于統(tǒng)計信息確定隱私保護映射。如之前討論 的,隱私保護映射機制的解決方法取決于可用的統(tǒng)計信息。
[0025] 在步驟130,在于步驟140向例如服務提供方或數(shù)據(jù)收集代理公布之前,根據(jù)被確 定的隱私保護映射,使當前隱私用戶的公開數(shù)據(jù)失真。對隱私用戶,假定值X = X,根據(jù)分布 Pyix=X,值Y = y被采樣。運一值y被公布,而非真實值X。注意到該隱私映射的使用W生成被公 布的y