大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流通與交易的敏感數(shù)據(jù)保護(hù)系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,具體地說,涉及大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流通與交易的敏感數(shù)據(jù)保護(hù)系統(tǒng)及方法。
【背景技術(shù)】
[0002]在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的匯集、流通、交換共享、交易、分析挖掘等需求越來越強(qiáng),大量的敏感數(shù)據(jù)匯集到大數(shù)據(jù)中心平臺(tái),如何在流通、交換共享、交易、分析挖掘等數(shù)據(jù)使用中保護(hù)這些敏感數(shù)據(jù),防止用戶隱私泄露已成為大數(shù)據(jù)安全關(guān)注的重點(diǎn)。目前,已有的敏感數(shù)據(jù)保護(hù)采用以下四種保護(hù)方式:
[0003](I)訪問控制的方法:通過對(duì)用戶身份及其所屬的安全等級(jí)來限制用戶對(duì)數(shù)據(jù)的訪問,防止敏感數(shù)據(jù)的未授權(quán)訪問,實(shí)現(xiàn)敏感數(shù)據(jù)的保護(hù)。該方法在一定程度上降低了數(shù)據(jù)共享的可用性。
[0004](2)基于數(shù)據(jù)失真的敏感數(shù)據(jù)保護(hù)技術(shù):采用擾動(dòng)、置換、遮擋等方法對(duì)敏感數(shù)據(jù)進(jìn)行處理,在處理的同時(shí)保證數(shù)據(jù)保留某些統(tǒng)計(jì)的特征,以便進(jìn)行數(shù)據(jù)分析與挖掘。該方法效率比較高,但是會(huì)使數(shù)據(jù)中的信息丟失。
[0005](3)基于數(shù)據(jù)加密的技術(shù):采用安全多方計(jì)算等加密技術(shù)對(duì)數(shù)據(jù)進(jìn)行加密處理,保障數(shù)據(jù)流通過程中的敏感數(shù)據(jù)安全。該方法能有效地保障數(shù)據(jù)流通中數(shù)據(jù)的準(zhǔn)確性和安全性,但是計(jì)算的效率相對(duì)較低,開銷比較大。
[0006](4)基于限制發(fā)布的技術(shù):依據(jù)實(shí)際需求,借助差分隱私、k_匿名等算法對(duì)發(fā)布的數(shù)據(jù)進(jìn)行處理,比如不發(fā)布數(shù)據(jù)中的某些屬性或者對(duì)某些數(shù)據(jù)型進(jìn)行泛化,實(shí)現(xiàn)敏感數(shù)據(jù)的保護(hù)。該方法能保證共享數(shù)據(jù)的真實(shí)性,但是會(huì)存在數(shù)據(jù)中信息的丟失。
[0007]綜上所述,存在的問題:
[0008](I)已有的敏感數(shù)據(jù)保護(hù)方法大都集中在對(duì)數(shù)據(jù)流通的共享與發(fā)布環(huán)節(jié),缺乏對(duì)數(shù)據(jù)流通整個(gè)環(huán)節(jié)的敏感數(shù)據(jù)的保護(hù)。
[0009](2)過度關(guān)注用戶隱私也會(huì)阻礙數(shù)據(jù)流通,如何結(jié)合不同敏感數(shù)據(jù)保護(hù)方法的優(yōu)缺點(diǎn)為數(shù)據(jù)流通的不同環(huán)節(jié)選擇恰當(dāng)?shù)募夹g(shù),實(shí)現(xiàn)敏感數(shù)據(jù)保護(hù)與數(shù)據(jù)可用性之間的平衡,是亟待解決的問題。
[0010](3)關(guān)于敏感數(shù)據(jù)保護(hù)技術(shù)的大都是直接對(duì)敏感數(shù)據(jù)處理,但是并未考慮到如何發(fā)現(xiàn)敏感數(shù)據(jù)、如何驗(yàn)證脫敏結(jié)果的正確性、真實(shí)性。
[0011 ]因此提供一種大數(shù)據(jù)平臺(tái)上數(shù)據(jù)流通過程中的敏感數(shù)據(jù)保護(hù)機(jī)制,保障數(shù)據(jù)流通過程中的敏感數(shù)據(jù)安全,平衡隱私保護(hù)與數(shù)據(jù)流通之間的關(guān)系,是迫切需要的。
【發(fā)明內(nèi)容】
[0012]為了達(dá)到上述目的,本發(fā)明提供一種保障數(shù)據(jù)流通過程中的數(shù)據(jù)采集、數(shù)據(jù)共享、數(shù)據(jù)交換以及數(shù)據(jù)獲取整個(gè)過程敏感數(shù)據(jù)安全的大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流通與交易的敏感數(shù)據(jù)保護(hù)系統(tǒng)及方法。
[0013]本發(fā)明的一種大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流通與交易的敏感數(shù)據(jù)保護(hù)系統(tǒng),其特征在于,所述大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流通與交易的敏感數(shù)據(jù)保護(hù)系統(tǒng)包括在數(shù)據(jù)采集中發(fā)現(xiàn)敏感內(nèi)容并對(duì)敏感內(nèi)容進(jìn)行保護(hù)處理的數(shù)據(jù)采集模塊、對(duì)數(shù)據(jù)共享過程中的敏感數(shù)據(jù)進(jìn)行保護(hù)處理的數(shù)據(jù)共享模塊、對(duì)數(shù)據(jù)交換過程中的相對(duì)敏感數(shù)據(jù)配置脫敏策略進(jìn)行脫敏處理的數(shù)據(jù)交換模塊、在數(shù)據(jù)獲取過程中對(duì)數(shù)據(jù)文件下載鏈接及存儲(chǔ)地址進(jìn)行保護(hù)的數(shù)據(jù)獲取模塊、對(duì)敏感數(shù)據(jù)的脫敏及保護(hù)處理進(jìn)行管理和監(jiān)控以及審計(jì)的脫敏管理模塊。
[0014]其中,所述數(shù)據(jù)采集模塊包括對(duì)上傳大數(shù)據(jù)平臺(tái)的數(shù)據(jù)進(jìn)行數(shù)據(jù)信息提取為敏感數(shù)據(jù)保護(hù)提供數(shù)據(jù)準(zhǔn)備的元數(shù)據(jù)提取模塊、在所述元數(shù)據(jù)提取模塊提取的數(shù)據(jù)信息基礎(chǔ)上自動(dòng)發(fā)現(xiàn)涉密信息及敏感數(shù)據(jù)的第一敏感數(shù)據(jù)發(fā)現(xiàn)模塊、為所述第一敏感數(shù)據(jù)發(fā)現(xiàn)模塊發(fā)現(xiàn)的敏感內(nèi)容配置相應(yīng)的脫敏算法形成脫敏策略的第一脫敏策略配置模塊、通過系統(tǒng)調(diào)用所述第一脫敏策略配置模塊預(yù)定義的脫敏策略對(duì)敏感數(shù)據(jù)實(shí)現(xiàn)批量離線脫敏的離線脫敏模塊。
[0015]所述數(shù)據(jù)共享模塊包括對(duì)存儲(chǔ)于大數(shù)據(jù)平臺(tái)中的數(shù)據(jù)根據(jù)數(shù)據(jù)屬性選擇采用人工定義和自動(dòng)發(fā)現(xiàn)方式中的一種進(jìn)行敏感數(shù)據(jù)發(fā)現(xiàn)的第二敏感數(shù)據(jù)發(fā)現(xiàn)模塊、在所述第二敏感數(shù)據(jù)發(fā)現(xiàn)模塊發(fā)現(xiàn)的敏感數(shù)據(jù)基礎(chǔ)上為每一類敏感數(shù)據(jù)配置脫敏算法形成脫敏策略的第二脫敏策略配置模塊、對(duì)大數(shù)據(jù)平臺(tái)中允許共享的數(shù)據(jù)進(jìn)行噪聲干擾處理保護(hù)敏感數(shù)據(jù)的敏感數(shù)據(jù)查詢保護(hù)模塊、對(duì)大數(shù)據(jù)平臺(tái)中的數(shù)據(jù)檢索結(jié)果進(jìn)行數(shù)據(jù)脫敏保護(hù)的檢索結(jié)果保護(hù)t吳塊。
[0016]所述數(shù)據(jù)獲取模塊包括對(duì)文件存儲(chǔ)的真實(shí)地址進(jìn)行變換形成新的存儲(chǔ)地址達(dá)到存儲(chǔ)地址保護(hù)的文件存儲(chǔ)地址變換模塊、在所述文件存儲(chǔ)地址編號(hào)模塊對(duì)文件真實(shí)存儲(chǔ)地址進(jìn)行變換的基礎(chǔ)上為有下載需求的數(shù)據(jù)需求方展示變換后的文件存儲(chǔ)地址防止文件存儲(chǔ)地址泄露保護(hù)下載鏈接安全的下載鏈接保護(hù)模塊。
[0017]所述脫敏管理模塊包括對(duì)數(shù)據(jù)脫敏算法進(jìn)行添加、刪除和修改的脫敏算法管理模塊、對(duì)數(shù)據(jù)流通過過程中的數(shù)據(jù)脫敏策略進(jìn)行增加、刪除和修改的脫敏策略管理模塊、對(duì)敏感內(nèi)容和敏感數(shù)據(jù)特征分析的基礎(chǔ)上訓(xùn)練得到機(jī)器學(xué)習(xí)模型并在有敏感數(shù)據(jù)自動(dòng)發(fā)現(xiàn)需求時(shí)對(duì)敏感數(shù)據(jù)進(jìn)行自動(dòng)發(fā)現(xiàn)的自學(xué)習(xí)引擎、對(duì)數(shù)據(jù)流通過程中的各個(gè)環(huán)節(jié)的數(shù)據(jù)脫敏進(jìn)行實(shí)時(shí)監(jiān)控以便及時(shí)發(fā)現(xiàn)異常的脫敏監(jiān)控模塊、對(duì)數(shù)據(jù)流通和交易過程中的數(shù)據(jù)脫敏任務(wù)進(jìn)行分析審計(jì)的脫敏審計(jì)模塊、對(duì)數(shù)據(jù)流通和交易過程中敏感數(shù)據(jù)保護(hù)處理進(jìn)行評(píng)價(jià)的脫敏效能評(píng)估t吳塊。
[0018]本發(fā)明的一種大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流通和交易的敏感數(shù)據(jù)保護(hù)方法,采用大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流通和交易的敏感數(shù)據(jù)保護(hù)系統(tǒng)來實(shí)現(xiàn),包括如下步驟:
[0019]步驟一、資源發(fā)布人在數(shù)據(jù)采集前發(fā)現(xiàn)數(shù)據(jù)中的敏感內(nèi)容,對(duì)數(shù)據(jù)采集中的敏感數(shù)據(jù)進(jìn)行保護(hù)處理再將數(shù)據(jù)上傳到大數(shù)據(jù)平臺(tái);
[0020]步驟二、數(shù)據(jù)上傳到大數(shù)據(jù)平臺(tái)后,資源發(fā)布人對(duì)數(shù)據(jù)進(jìn)行共享時(shí),對(duì)數(shù)據(jù)共享中的敏感數(shù)據(jù)進(jìn)行保護(hù)之后再共享發(fā)布;
[0021]步驟三、數(shù)據(jù)需求方對(duì)資源發(fā)布人共享的數(shù)據(jù)請(qǐng)求交換,資源發(fā)布人對(duì)數(shù)據(jù)需求方請(qǐng)求交換的數(shù)據(jù)中的敏感內(nèi)容進(jìn)行定義,對(duì)數(shù)據(jù)交換中的敏感數(shù)據(jù)進(jìn)行保護(hù)處理后再交換給數(shù)據(jù)需求方;
[0022]步驟四、數(shù)據(jù)需求方請(qǐng)求下載資源發(fā)布人共享的數(shù)據(jù),對(duì)數(shù)據(jù)下載中的敏感數(shù)據(jù)存儲(chǔ)地址進(jìn)行保護(hù)。
[0023]其中,所述對(duì)數(shù)據(jù)采集中的敏感數(shù)據(jù)進(jìn)行保護(hù)包括如下步驟:
[0024]s 11、資源發(fā)布人在向大數(shù)據(jù)平臺(tái)上傳數(shù)據(jù)前,制定元數(shù)據(jù)提取標(biāo)準(zhǔn);進(jìn)入步驟sl2;
[0025]sl2、解析上傳的數(shù)據(jù),進(jìn)入步驟sl3;
[0026]sl3、通過所述大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流通與交易的敏感數(shù)據(jù)保護(hù)系統(tǒng)中的元數(shù)據(jù)提取模塊根據(jù)所述步驟sll中制定的元數(shù)據(jù)提取標(biāo)準(zhǔn)提取經(jīng)步驟sl2解析后的上傳數(shù)據(jù)的元數(shù)據(jù)信息,進(jìn)入步驟sl4;
[0027]sl4、根據(jù)所述步驟sl3中提取的元數(shù)據(jù)信息進(jìn)行敏感內(nèi)容配置,進(jìn)入步驟sl5;
[0028]sl5通過所述大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流通與交易的敏感數(shù)據(jù)保護(hù)系統(tǒng)中的第一敏感數(shù)據(jù)發(fā)現(xiàn)模塊根據(jù)所述步驟sl4中配置的敏感內(nèi)容,對(duì)數(shù)據(jù)中的敏感內(nèi)容進(jìn)行自動(dòng)識(shí)別,進(jìn)入步驟s 16;
[0029]sl6、通過所述大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流通與交易的敏感數(shù)據(jù)保護(hù)系統(tǒng)中的第一脫敏策略配置模塊根據(jù)所述步驟sl5中識(shí)別確定的敏感內(nèi)容的特點(diǎn),自動(dòng)配置脫敏算法,形成脫敏策略,進(jìn)入步驟sl7;
[0030]sl7、根據(jù)所述步驟sl6中配置的脫敏算法,對(duì)數(shù)據(jù)進(jìn)行脫敏處理,進(jìn)入步驟sl8;[0031 ] sl8、將脫敏后的數(shù)據(jù)上傳到大數(shù)據(jù)平臺(tái)。
[0032]所述對(duì)數(shù)據(jù)共享中的敏感數(shù)據(jù)進(jìn)行保護(hù)包括如下步驟:
[0033]s21、資源發(fā)布人上傳數(shù)據(jù)到大數(shù)據(jù)平臺(tái),進(jìn)入步驟s22;
[0034]s22、在大數(shù)據(jù)平臺(tái)環(huán)境下,通過所述大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流通與交易的敏感數(shù)據(jù)保護(hù)系統(tǒng)中的第二敏感數(shù)據(jù)發(fā)現(xiàn)模塊根據(jù)數(shù)據(jù)屬性定義敏感數(shù)據(jù),進(jìn)入步驟s23;
[0035]s23、根據(jù)所述步驟s22中定義的敏感數(shù)據(jù)確定數(shù)據(jù)中的敏感數(shù)據(jù),進(jìn)入步驟s24;
[0036]s24、通過所述大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流通與交易的敏感數(shù)據(jù)保護(hù)系統(tǒng)中的第二脫敏策略配置模塊為所述步驟s23中確定的敏感數(shù)據(jù)配置脫敏算法,進(jìn)入步驟s25;
[0037]s25、判斷為敏感數(shù)據(jù)配置的脫敏算法是否合適,若否,進(jìn)入步驟s26,若是,進(jìn)入步驟s27.’
[0038]s26、為敏感數(shù)據(jù)重新配置脫敏算法,進(jìn)入步驟s27;
[0039]s27、根據(jù)配置的脫敏算法形成脫敏策略,進(jìn)入步驟s28;
[0040]s28、保存脫敏策略,并對(duì)不同脫敏策略的使用情況進(jìn)行統(tǒng)計(jì)分析,進(jìn)入步驟s29;
[0041]s29、根據(jù)步驟s28中對(duì)脫敏策略使用情況的統(tǒng)計(jì)分析結(jié)果對(duì)脫敏策略使用率進(jìn)行排序,進(jìn)入步驟s210;
[0042 ] S210、根據(jù)脫敏策略使用率建立脫敏策略自動(dòng)推薦機(jī)制。
[0043]所述對(duì)數(shù)據(jù)交換中的敏感數(shù)據(jù)進(jìn)行保護(hù)包括如下步驟:
[0044]s31、數(shù)據(jù)需求方輸入查詢條件對(duì)數(shù)據(jù)進(jìn)行查詢,進(jìn)入步驟s32;
[0045]s32、對(duì)與查詢條件匹配的數(shù)據(jù)進(jìn)行差分隱私保護(hù)處理,進(jìn)步步驟s33;
[0046]s33、將經(jīng)過差分隱私保護(hù)處理的數(shù)據(jù)反饋給數(shù)據(jù)需求方,進(jìn)步步驟s34;
[0047]s34、將反饋給數(shù)據(jù)需求方的數(shù)據(jù)以脫敏方式將數(shù)據(jù)顯示給數(shù)據(jù)需求方供其查看,進(jìn)入步驟s35;
[0048]s35、數(shù)據(jù)需求方請(qǐng)求共享數(shù)據(jù),進(jìn)入步驟s36;
[0049]s36、資源發(fā)布人審核數(shù)據(jù)需求方的身份和數(shù)據(jù)使用權(quán)限,以此為基礎(chǔ)通過所述大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流通與交易的敏感數(shù)據(jù)保護(hù)系統(tǒng)中的敏感數(shù)據(jù)定義模塊預(yù)定義相對(duì)于數(shù)據(jù)需求方的敏感數(shù)據(jù),進(jìn)入步驟s37;
[0050]s37、判斷預(yù)定義的敏感數(shù)據(jù)與數(shù)據(jù)需求方身份與權(quán)限是否相符,若否,進(jìn)入步驟s38,若是,進(jìn)入步驟s39 ;
[0051]s38、重新定義敏感數(shù)據(jù),進(jìn)入步驟s39;
[0052]s39、根據(jù)定義確定相對(duì)于數(shù)據(jù)需求方的