專利名稱:一種基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)動態(tài)識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉 及一種敏感數(shù)據(jù)動態(tài)識別的方法。主要用于解決企業(yè)中敏感數(shù)據(jù)的動 態(tài)準確的識別,為敏感數(shù)據(jù)泄漏保護提供支撐。屬于信息安全軟件領(lǐng)域。
背景技術(shù):
數(shù)據(jù)的保密性、完整性和可用性關(guān)系到國家的安全、企業(yè)的核心競爭力、個人 的隱私,數(shù)據(jù)安全,作為信息安全領(lǐng)域中的重要課題,正越來越受到關(guān)注。數(shù)據(jù)安全涵蓋了防泄露、防丟失、防濫用三個方面,其中,數(shù)據(jù)防泄漏是當前 尤為突出的熱點問題。電子郵件、即時通訊、可移動存儲介質(zhì)的廣泛應(yīng)用,在提升人們 工作效率的同時,也不可避免地擴展了數(shù)據(jù)泄漏的通道,尤其是主動泄密行為,其泄漏 途徑更是紛繁復(fù)雜。面對這樣的嚴峻形勢,國內(nèi)外安全廠商紛紛推出自己的解決方案, 目標就是確保數(shù)據(jù)的安全,防止數(shù)據(jù)被有意和無意的非法竊取和丟失。敏感數(shù)據(jù)泄漏事關(guān)國家安全和社會穩(wěn)定,其防泄漏產(chǎn)品是信息安全的基礎(chǔ)性產(chǎn) 品,無論從國家安全的高度來看,還是從經(jīng)濟發(fā)展的角度來看,敏感數(shù)據(jù)防泄漏都變得 日益重要。敏感數(shù)據(jù)防泄漏的關(guān)鍵技術(shù)主要包括敏感數(shù)據(jù)識別、敏感數(shù)據(jù)標記、敏感數(shù) 據(jù)阻斷與銷毀和策略管理等,其中敏感數(shù)據(jù)識別是敏感數(shù)據(jù)防泄漏解決方案中非常關(guān)鍵 的一環(huán),只有準確地識別出了敏感數(shù)據(jù)才能對這些數(shù)據(jù)進行有效保護。因此研究一種能 夠準確并高效地識別敏感數(shù)據(jù)的方法能夠更好地提高敏感數(shù)據(jù)防泄漏方案的能力,具有 重要的意義。敏感數(shù)據(jù)識別主要考慮如下幾方面的問題(1)敏感數(shù)據(jù)和待識別文檔的預(yù)處 理;(2)敏感數(shù)據(jù)動態(tài)識別模型的建立。對于敏感數(shù)據(jù)動態(tài)識別而言,首先就是要對敏 感數(shù)據(jù)和待識別文檔進行分詞、量化和歸一化處理,得到敏感數(shù)據(jù)和待識別文檔對應(yīng)的 特征詞-文檔矩陣,然后對特征詞_文檔矩陣中進行降維處理,再對降維后的敏感數(shù)據(jù)文 檔進行訓(xùn)練,得到敏感數(shù)據(jù)動態(tài)識別模型。最后將待識別的文檔輸入到敏感數(shù)據(jù)動態(tài)識 別模型中進行動態(tài)識別。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)識別方法,來解決數(shù)據(jù)防泄 漏方案中敏感數(shù)據(jù)的識別問題,通過使用本方法可以實現(xiàn)對企業(yè)數(shù)據(jù)中心中存儲的敏感 數(shù)據(jù)的自動、準確和高效的識別。為了實現(xiàn)上述發(fā)明目的,本發(fā)明采用的是一種數(shù)據(jù)挖掘的方法,通過對已知的 敏感數(shù)據(jù)文檔向量化和特征提取,組成敏感數(shù)據(jù)訓(xùn)練樣本集,使用BP神經(jīng)網(wǎng)絡(luò)來訓(xùn)練學(xué) 習出一個敏感數(shù)據(jù)識別模型,最終使用該BP神經(jīng)網(wǎng)絡(luò)模型來識別敏感數(shù)據(jù)。該模型還可 以在使用過程中通過不斷地學(xué)習來提高識別的準確度。一種基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)動態(tài)識別方法,包括以下步驟為
步驟1:流程開始輸入敏感數(shù)據(jù)文檔和待識別的文檔這兩類文檔,前者是用于 敏感數(shù)據(jù)識別模型的訓(xùn)練數(shù)據(jù),后者由敏感數(shù)據(jù)識別模型進行運算得出是否為敏感數(shù)據(jù) 文檔;步驟2:對文檔進行分詞處理,使用中文電子詞典將文檔中的漢字串與詞典中 的字符串相匹配,匹配采用逆向最大匹配的方法,從右往左對文檔的漢字串進行匹配直 到找到最長的匹配,將最后匹配成功的漢字串作為文檔的特征詞匯;步驟3 對分詞處理后文檔中的特征詞匯進行統(tǒng)計運算,生成特征詞_文檔矩 陣,記錄分詞后的特征詞在文檔中出現(xiàn)的頻率;步驟4:采用向量空間模型對特征詞_文檔矩陣進行向量化處理,構(gòu)造出文本特 征向量;步驟5 計算文本特征向量的協(xié)方差矩陣和該協(xié)方差矩陣的特征值及特征向 量;步驟6:根據(jù)主成分分析法的定義計算出各特征值的貢獻率及累積貢獻率,并 根據(jù)累積貢獻率選擇對應(yīng)的特征值計算出主成分,同時計算出文檔特征向量空間的主成 分后,確定各文檔特征分量在各主成分在上的載荷,最后得到降維后的主成分分量來代 替原來特征向量空間;步驟7 根據(jù)步驟1中的兩類文檔來選擇是否對敏感數(shù)據(jù)識別模型進行訓(xùn)練;如 果是則轉(zhuǎn)到步驟8,否則轉(zhuǎn)到步驟13 ;步驟8:根據(jù)預(yù)處理后的敏感數(shù)據(jù)訓(xùn)練樣本集參數(shù),初始化BP神經(jīng)網(wǎng)絡(luò),包括 BP神經(jīng)網(wǎng)絡(luò)的輸入層、隱層和輸出層神經(jīng)元的個數(shù)及各神經(jīng)元的權(quán)值和閾值;步驟9 由BP神經(jīng)網(wǎng)絡(luò)來對訓(xùn)練數(shù)據(jù)集進行運算;步驟10 計算BP神經(jīng)網(wǎng)絡(luò)的輸出向量和預(yù)先定義文檔敏感級別向量之間的誤 差,如果誤差超過閾值,則轉(zhuǎn)到步驟11,否則轉(zhuǎn)到步驟14;步驟11 調(diào)整BP神經(jīng)網(wǎng)絡(luò)隱層中神經(jīng)元個數(shù)及其權(quán)值,轉(zhuǎn)到步驟9 ;步驟12 輸出一個BP神經(jīng)網(wǎng)絡(luò)敏感數(shù)據(jù)識別模型;步驟13 根據(jù)步驟12得到的敏感數(shù)據(jù)識別模型,對待識別的文檔進 行動態(tài)識 另IJ,并輸出動態(tài)識別結(jié)果;步驟14 敏感數(shù)據(jù)識別結(jié)束。本發(fā)明的有益效果在于提出了一種基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)動態(tài)識別方法,主 要用于解決數(shù)據(jù)防泄漏中敏感數(shù)據(jù)動態(tài)識別的問題,通過使用本發(fā)明中提出的方法可以 快速識別出當前用戶操作的數(shù)據(jù)是否為敏感數(shù)據(jù),便于結(jié)合策略管理來阻斷敏感數(shù)據(jù)的 泄漏。
圖1是敏感數(shù)據(jù)識別組成結(jié)構(gòu)圖。主要包括敏感數(shù)據(jù)動態(tài)識別器、敏感數(shù)據(jù) 識別操作核心、文本預(yù)處理控制器和敏感數(shù)據(jù)動態(tài)識別控制器。圖2是參考體系結(jié)構(gòu)示意圖。表示本發(fā)明方法包括的組件。圖3是本發(fā)明方法的流程示意圖。
具體實施例方式體系結(jié)構(gòu)圖1給出了基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)識別方法的組成結(jié)構(gòu)圖,它主要包括四個部分敏感數(shù)據(jù)識別模型訓(xùn)練器、敏感數(shù)據(jù)識別操作核心、文本預(yù)處理控制器和敏感數(shù) 據(jù)動態(tài)識別控制器。圖中的敏感數(shù)據(jù)操作核心包括了在文檔被預(yù)處理過后對文檔集中的 敏感數(shù)據(jù)進行識別的所有具體操作。本發(fā)明增加的其它三個部分是用來保證使用數(shù)據(jù)挖 掘的方法進行敏感數(shù)據(jù)識別的輔助模塊,能夠保證敏感數(shù)據(jù)識別更加順利有效地進行。下面給出這四個部分的具體介紹敏感數(shù)據(jù)動態(tài)識別器在該發(fā)明中進行敏感數(shù)據(jù)識別主要是使用BP神經(jīng)網(wǎng)絡(luò)作 為識別敏感數(shù)據(jù)的模型,通過該模型來完成對敏感數(shù)據(jù)的動態(tài)識別,本發(fā)明中由敏感數(shù) 據(jù)識別器來完成模型的建立、訓(xùn)練以及使用模型對敏感數(shù)據(jù)進行識別。敏感數(shù)據(jù)識別操作核心該部分是在其他三個部分的輔助下完成敏感數(shù)據(jù)識別 具體操作的核心部分,通過將預(yù)處理過的文檔以多個分向量的方式作為一個識別模型的 輸入,由該模型來計算文檔的敏感程度作為模型的輸出從而達到動態(tài)識別敏感數(shù)據(jù)的效果。文本預(yù)處理控制器由文本分詞器提取出來的各敏感關(guān)鍵詞的頻度并不能直接 作為敏感數(shù)據(jù)識別操作核心中敏感數(shù)據(jù)識別模型的輸入,需要將其量化,使用向量空間 模型表示出來,并且為了消除各文檔詞匯集合中詞匯量不同所造成的敏感詞匯頻度統(tǒng)計 上的差異還需要由文本向量處理器來對向量空間模型中各向量進行標準化處理。敏感數(shù)據(jù)動態(tài)識別控制器在該發(fā)明中,需要通過BP神經(jīng)網(wǎng)絡(luò)的方法來得到一 個敏感數(shù)據(jù)的識別模型。該敏感數(shù)據(jù)識別模型使用敏感數(shù)據(jù)訓(xùn)練樣本集通過BP神經(jīng)網(wǎng)絡(luò) 訓(xùn)練得到,同時將待識別的文檔輸入到該模型中得到相應(yīng)的敏感數(shù)據(jù)類型,故需要一個 控制器來區(qū)分是訓(xùn)練用的已知包含敏感數(shù)據(jù)的文檔還是待識別的文檔。本專利中對敏感 數(shù)據(jù)動態(tài)識別控制的具體實現(xiàn)不做任何限制。方法流程1、文本預(yù)處理控制器文本屬于非結(jié)構(gòu)化的數(shù)據(jù),對可能包含敏感數(shù)據(jù)的文檔進行識別時首先需要對 文檔進行預(yù)處理將其轉(zhuǎn)化為可處理的結(jié)構(gòu)化形式,它把從文本中抽取出的特征詞進行量 化來表示文本信息,將文檔從無結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計算機可識別和處理的 信息,這樣就可以由計算機挖掘和識別文本中的一些有用信息。目前對文本的預(yù)處理需要考慮如下的幾個問題1)有具體的分詞方法,對敏感 數(shù)據(jù)進行分詞處理,將文檔中有獨立含義的詞匯統(tǒng)計出來;2)對分詞處理后的詞匯統(tǒng)計 信息這種離散值進行處理,用結(jié)構(gòu)化的形式表示;3)對從不同結(jié)構(gòu)的文本中統(tǒng)計出來的 數(shù)據(jù)要能夠屏蔽其差異;4)對統(tǒng)計出來的初始結(jié)構(gòu)化信息表示要能夠盡量消除其中無用 數(shù)據(jù)的干擾。針對上述問題,在本發(fā)明中,我們對分詞過后的文本采用詞頻統(tǒng)計的方法來得 到文本中詞匯的統(tǒng)計信息,對這樣一種離散的信息我們采用向量空間模型來得到文本的 向量描述。在選擇特征詞匯時,本發(fā)明主要考慮如下的幾個原則1)特征項要能夠確實標識文本內(nèi)容;2)特征項具有將目標文本與其他文本相區(qū)分的能力;3)特征項的個數(shù)不能 太多;4)特征項分離要比較容易實現(xiàn)。一般在中文文本中可以采用字、詞或短語作為表 示文本的特征項。相比較而言,詞比字具有更強的表達能力,而詞和短語相比,詞的切 分難度比短語的切分難度小得多。因此,本發(fā)明中采用詞作為文本的特征項,稱作為特 征詞,用Tk表示。特征詞的選取方面我們主要采用對文本進行分詞的方法,使用一個中文電子詞 典與文檔中的漢字串匹配,將匹配得到的文本中的漢字串作為文本的特征詞。匹配過程 采用逆向最大匹配算法,該算法從右往左對文本中的漢字串進行最大匹配,匹配成功則 將該漢字串提取出來作為文本的一個特征詞,若匹配不成功則將文本中用于匹配的漢字 串最前的一個漢字去掉,剩下的漢字串作為新的匹配字段與中文電子詞典中的字符串進 行匹配,重復(fù)上述的過程直到提取出所有的特征詞。對預(yù)處理的文本用DJj = 1,2,…,η)來表示,經(jīng)過分詞處理得到一個詞-文 檔矩陣,矩陣中的每一個元素表示詞Tk在文檔D”中出現(xiàn)的頻率。如表1所示表1詞在文檔中出現(xiàn)的頻率
權(quán)利要求
1. 一種基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)動態(tài)識別方法,其特征就在于,包括以下步驟為 步驟1:流程開始輸入敏感數(shù)據(jù)文檔和待識別的文檔這兩類文檔,前者是用于敏感 數(shù)據(jù)識別模型的訓(xùn)練數(shù)據(jù),后者由敏感數(shù)據(jù)識別模型進行運算得出是否為敏感數(shù)據(jù)文 檔;步驟2:對文檔進行分詞處理,使用中文電子詞典將文檔中的漢字串與詞典中的字 符串相匹配,匹配采用逆向最大匹配的方法,從右往左對文檔的漢字串進行匹配直到找 到最長的匹配,將最后匹配成功的漢字串作為文檔的特征詞匯;步驟3:對分詞處理后文檔中的特征詞匯進行統(tǒng)計運算,生成特征詞-文檔矩陣,記 錄分詞后的特征詞在文檔中出現(xiàn)的頻率;步驟4:采用向量空間模型對特征詞_文檔矩陣進行向量化處理,構(gòu)造出文本特征向量;步驟5 計算文本特征向量的協(xié)方差矩陣和該協(xié)方差矩陣的特征值及特征向量; 步驟6:根據(jù)主成分分析法的定義計算出各特征值的貢獻率及累積貢獻率,并根據(jù) 累積貢獻率選擇對應(yīng)的特征值計算出主成分,同時計算出文檔特征向量空間的主成分后, 確定各文檔特征分量在各主成分在上的載荷,最后得到降維后的主成分分量來代替原來 特征向量空間;步驟7:根據(jù)步驟1中的兩類文檔來選擇是否對敏感數(shù)據(jù)識別模型進行訓(xùn)練;如果 是則轉(zhuǎn)到步驟8,否則轉(zhuǎn)到步驟13 ;步驟8:根據(jù)預(yù)處理后的敏感數(shù)據(jù)訓(xùn)練樣本集參數(shù),初始化BP神經(jīng)網(wǎng)絡(luò),包括BP神 經(jīng)網(wǎng)絡(luò)的輸入層、隱層和輸出層神經(jīng)元的個數(shù)及各神經(jīng)元的權(quán)值和閾值; 步驟9 由BP神經(jīng)網(wǎng)絡(luò)來對訓(xùn)練數(shù)據(jù)集進行運算;步驟10:計算BP神經(jīng)網(wǎng)絡(luò)的輸出向量和預(yù)先定義文檔敏感級別向量之間的誤差,如 果誤差超過閾值,則轉(zhuǎn)到步驟11,否則轉(zhuǎn)到步驟14;步驟11:調(diào)整BP神經(jīng)網(wǎng)絡(luò)隱層中神經(jīng)元個數(shù)及其權(quán)值,轉(zhuǎn)到步驟9; 步驟12:輸出一個BP神經(jīng)網(wǎng)絡(luò)敏感數(shù)據(jù)識別模型;步驟13:根據(jù)步驟12得到的敏感數(shù)據(jù)識別模型,對待識別的文檔進行動態(tài)識別,并 輸出動態(tài)識別結(jié)果;步驟14:敏感數(shù)據(jù)識別結(jié)束。
全文摘要
一種基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)動態(tài)識別方法。當各種數(shù)據(jù)需要進行網(wǎng)絡(luò)傳輸、終端處理時,需要判斷當前待傳輸或處理的業(yè)務(wù)數(shù)據(jù)是否敏感,根據(jù)敏感程度結(jié)合管理策略來決定業(yè)務(wù)數(shù)據(jù)是否可以進行網(wǎng)絡(luò)傳輸?shù)雀鞣N操作。通過對現(xiàn)有的敏感數(shù)據(jù)文檔進行分詞、量化和歸一化處理,得到該敏感數(shù)據(jù)文檔的特征詞-文檔矩陣,利用主成分分析法對特征詞-文檔矩陣進行降維,得到降維后的特征詞-文檔矩陣,再基于BP神經(jīng)網(wǎng)絡(luò)對降維后的特征詞-文檔矩陣進行分類建模,得到敏感數(shù)據(jù)識別模型,對待識別的文檔進行分詞、量化、歸一化和降維處理后代入敏感數(shù)據(jù)識別模型中進行識別計算,判斷出待識別的文檔是否為敏感數(shù)據(jù)。用于解決數(shù)據(jù)防泄漏中敏感數(shù)據(jù)動態(tài)識別的問題。
文檔編號G06F21/00GK102012985SQ20101055265
公開日2011年4月13日 申請日期2010年11月19日 優(yōu)先權(quán)日2010年11月19日
發(fā)明者張濤, 林為民, 楚杰, 秦超, 費稼軒, 鄧松, 邵志鵬, 陳亞東 申請人:國網(wǎng)電力科學(xué)研究院