本發(fā)明涉及文檔安全技術(shù)領(lǐng)域,特別涉及一種文檔密級(jí)自動(dòng)識(shí)別方法。
背景技術(shù):
隨著信息化的快速發(fā)展,各類軍工企事業(yè)單位大力進(jìn)行信息化建設(shè)的同時(shí),對(duì)文檔的定密技術(shù)要求越來(lái)越高。目前,自動(dòng)定密研究很少,而傳統(tǒng)的手工標(biāo)記或分級(jí),往往效率低下且效果不理想。因此利用機(jī)器學(xué)習(xí)等技術(shù)對(duì)敏感信息進(jìn)行自動(dòng)分析、自動(dòng)定密成了一個(gè)重要而實(shí)用的技術(shù)方向。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種基于插件架構(gòu)的主機(jī)監(jiān)控系統(tǒng),用于解決上述現(xiàn)有技術(shù)的問(wèn)題。
本發(fā)明一種文檔密級(jí)自動(dòng)識(shí)別方法,其中,包括:定義特征詞項(xiàng)、特征詞項(xiàng)分布向量、特征詞項(xiàng)庫(kù)、段落特征詞項(xiàng)空間向量、段落基準(zhǔn)庫(kù)以及文檔敏感度;進(jìn)行預(yù)處理,基于訓(xùn)練文檔,標(biāo)定訓(xùn)練文檔中各段落密級(jí)及與之對(duì)應(yīng)的初始敏感度;抽取段落的特征詞項(xiàng),建立段落空間向量,從而構(gòu)建段落基準(zhǔn)庫(kù);初始敏感度計(jì)算階段,在待定密的目標(biāo)文檔中對(duì)各段落進(jìn)行敏感度判定時(shí),通過(guò)計(jì)算待定密段落與段落基準(zhǔn)庫(kù)中各段落的相似度,鎖定與待定密段落相似度最大的段落,以其敏感度作為待定密段落的初始敏感值;敏感度修正階段,基于待定密段落與所匹配段落的特征詞項(xiàng)所攜帶的敏感度的差異,修正待定密段落的敏感度,文檔密級(jí)確定階段,通過(guò)計(jì)算目標(biāo)文檔所有段落的敏感度,并獲取敏感度最高者作為目標(biāo)文檔的敏感度,確定文檔的敏感 度及其對(duì)應(yīng)密級(jí)。
根據(jù)本發(fā)明的文檔密級(jí)自動(dòng)識(shí)別方法的一實(shí)施例,其中,通過(guò)TF-IDF方法構(gòu)建向量空間模型。
根據(jù)本發(fā)明的文檔密級(jí)自動(dòng)識(shí)別方法的一實(shí)施例,其中,特征詞項(xiàng)庫(kù)獲取框架獲取段落特征詞項(xiàng),特征詞項(xiàng)庫(kù)獲取框架包括:
χ2值越大,則詞項(xiàng)與段落文本敏感度相關(guān)性就大;χ2值越小,則詞項(xiàng)與段落文本敏感度相關(guān)性就?。?/p>
式(1)表示,對(duì)任意詞項(xiàng)t,其中k11代表在訓(xùn)練文本集中,所有涉密段落文本集c中包含詞t的段落文本個(gè)數(shù),k00代表在涉密段落文本集c中不包含詞項(xiàng)t的段落文本個(gè)數(shù);k01代表在非密段落文本集中包含詞t的段落文本個(gè)數(shù),k10代表在非密段落文本集中不包含詞項(xiàng)t的段落文本個(gè)數(shù);N代表兩類集合中文檔的總數(shù)量,即訓(xùn)練文本集中的段落總數(shù)N=k11+k00+k01+k10,sgn(x)表示取χ2的正負(fù)號(hào)符號(hào);
通過(guò)對(duì)涉密段落文本集合和非涉密段落文本集合的詞項(xiàng)頻率統(tǒng)計(jì),用帶有正負(fù)符號(hào)的χ2分布計(jì)算值,最后通過(guò)閾值過(guò)濾來(lái)得到特征詞項(xiàng)。
根據(jù)本發(fā)明的文檔密級(jí)自動(dòng)識(shí)別方法,其中,獲取特征詞項(xiàng)的方法包括:第一步:收集訓(xùn)練庫(kù);第二步:對(duì)段落文本集合進(jìn)行分詞;第三步:對(duì)有實(shí)際意義的詞項(xiàng)進(jìn)行進(jìn)一步篩選,將過(guò)濾后所得詞項(xiàng)在當(dāng)前涉密段落文本中進(jìn)行詞項(xiàng)出現(xiàn)次數(shù)統(tǒng)計(jì),當(dāng)大于閾值θ的詞項(xiàng),列入候選特征詞項(xiàng);第四步:統(tǒng)計(jì)候選特征詞項(xiàng)出現(xiàn)段落數(shù)目;第五步:計(jì)算候選特征詞項(xiàng)敏感度相關(guān)性,將相關(guān)性大于閾值的詞項(xiàng)加入到特征詞項(xiàng)庫(kù)中。
根據(jù)本發(fā)明的文檔密級(jí)自動(dòng)識(shí)別方法的一實(shí)施例,其中,訓(xùn)練 文檔的密級(jí)由該文檔所標(biāo)定的敏感度標(biāo)定,敏感度在[90-100]范圍內(nèi)為絕密、敏感度在[80-90]范圍內(nèi)為機(jī)密、敏感度在[70-80]范圍內(nèi)為秘密、敏感度在[60-70]范圍內(nèi)為內(nèi)部、敏感度在[50-60]范圍內(nèi)為非密。
根據(jù)本發(fā)明的文檔密級(jí)自動(dòng)識(shí)別方法的一實(shí)施例,其中,進(jìn)行預(yù)處理,基于訓(xùn)練文檔,標(biāo)定訓(xùn)練文檔中各段落密級(jí)及與之對(duì)應(yīng)的初始敏感度包括:依次掃描訓(xùn)練庫(kù)中各文本的每個(gè)段落文本,選定任一訓(xùn)練文檔S,對(duì)其各段落進(jìn)行密級(jí)和初始敏感度的標(biāo)定,訓(xùn)練庫(kù)代表頤定密的we文本;對(duì)于當(dāng)前訓(xùn)練段落文本,根據(jù)特征詞項(xiàng)庫(kù)獲取框架,提取該段落的若干特征詞項(xiàng),對(duì)每個(gè)特征詞項(xiàng),計(jì)算詞項(xiàng)的權(quán)值,由所有特征詞項(xiàng)及其權(quán)值構(gòu)成當(dāng)前訓(xùn)練段落文本的特征詞項(xiàng)空間向量,以此表示段落基本特征信息;完成訓(xùn)練庫(kù)中所有文本的所有段落的特征詞項(xiàng)空間向量的構(gòu)建及其相關(guān)數(shù)據(jù)結(jié)構(gòu)的初始化,形成段落基準(zhǔn)庫(kù);訓(xùn)練文檔的敏感度由該文檔所有段落中敏感度最高的段落的敏感度決定,由此以標(biāo)定目標(biāo)文檔的敏感度。
本發(fā)明的文檔密級(jí)自動(dòng)識(shí)別方法,特別適合于重點(diǎn)領(lǐng)域的大型軍工企業(yè)涉密文檔管理。通過(guò)文檔密級(jí)自動(dòng)識(shí)別方法對(duì)對(duì)軍工企業(yè)涉密內(nèi)網(wǎng)的所有文檔進(jìn)行密級(jí)識(shí)別,防范敏感信息的泄露,能夠滿足各類涉密信息安全可控的需求。
附圖說(shuō)明
無(wú)
具體實(shí)施方式
為使本發(fā)明的目的、內(nèi)容、和優(yōu)點(diǎn)更加清楚,下面結(jié)合實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。
本發(fā)明文檔密級(jí)自動(dòng)識(shí)別方法中的文檔密級(jí)自動(dòng)識(shí)別方法實(shí)現(xiàn)軍工企業(yè)內(nèi)網(wǎng)文檔的自動(dòng)定密。本發(fā)明文檔密級(jí)自動(dòng)識(shí)別方法的思想包括:文檔的密級(jí)由文檔中的密級(jí)最高的文本塊決定。本發(fā)明中,基于文檔物理結(jié)構(gòu)特征,以段落為單位,通過(guò)識(shí)別每個(gè)段落的敏感度,來(lái)標(biāo)定文檔的敏感度。而全網(wǎng)文檔每個(gè)段落通過(guò)向量空間模型(VSM)來(lái)構(gòu)建段落空間向量,代表段落的基本信息。預(yù)處理階段,由定密管理員基于訓(xùn)練文檔,標(biāo)定訓(xùn)練文檔中各段落密級(jí)及與之對(duì)應(yīng)的初始敏感度;同時(shí)抽取段落的特征詞項(xiàng),建立段落空間向量,從而構(gòu)建段落基準(zhǔn)庫(kù)。初始敏感度計(jì)算階段,在待定密的目標(biāo)文檔中對(duì)各段落進(jìn)行敏感度判定時(shí),通過(guò)計(jì)算待定密段落與段落基準(zhǔn)庫(kù)中各段落的相似度,鎖定與待定密段落相似度最大的段落,以其敏感度作為待定密段落的初始敏感值;敏感度修正階段,基于待定密段落與所匹配段落的特征詞項(xiàng)所攜帶的敏感度的差異,修正待定密段落的敏感度。文檔密級(jí)確定階段,通過(guò)計(jì)算目標(biāo)文檔所有段落的敏感度,并獲取敏感度最高者作為目標(biāo)文檔的敏感度,確定文檔的敏感度及其對(duì)應(yīng)密級(jí)。
本發(fā)明中的文檔密級(jí)自動(dòng)識(shí)別方法包括:
一、基本定義及預(yù)處理
軍工企業(yè)中目標(biāo)文檔的保密等級(jí)一般分為絕密、機(jī)密、秘密、內(nèi)部和公開(kāi)五類,本發(fā)明對(duì)應(yīng)這五類保密等級(jí)使用一至五級(jí)標(biāo)識(shí),且每一級(jí)保密等級(jí)都對(duì)應(yīng)特定的敏感度范圍,如一級(jí)對(duì)應(yīng)敏感值域?yàn)閇90,100]、二級(jí)對(duì)應(yīng)敏感值域?yàn)閇80,90]、三級(jí)對(duì)應(yīng)敏感值域?yàn)閇70,80]、四級(jí)對(duì)應(yīng)敏感值域?yàn)閇60,70]、五級(jí)對(duì)應(yīng)敏感值域?yàn)閇50,60],文檔級(jí)文檔中各段落同時(shí)以敏感度及密級(jí)兩種方式進(jìn)行標(biāo)注,且密級(jí)直接由敏感度的取值標(biāo)定。
基本定義包括:
定義1:特征詞項(xiàng)。對(duì)反映段落文本信息敏感程度貢獻(xiàn)較為顯著的詞匯。
定義2:特征詞項(xiàng)分布向量。包含特征詞項(xiàng),敏感貢獻(xiàn)度以及其在各類密級(jí)段落文本中的出現(xiàn)頻率。{word,weight,avg count in Rl,…count in Rn,count in n,float percent};
其中,word為特征詞項(xiàng);wei ght為敏感貢獻(xiàn)度;avg_count_in_Rn為該特征詞項(xiàng)在密級(jí)為n的段落文本中出現(xiàn)的平均次數(shù)。n記錄特征詞項(xiàng)在本段落中出現(xiàn)的次數(shù),percent記錄特征詞項(xiàng)在本段落中占所有特征詞項(xiàng)比例的統(tǒng)計(jì)情況。
定義3:特征詞項(xiàng)庫(kù)。由訓(xùn)練文本中所有特征詞項(xiàng)構(gòu)成,在訓(xùn)練階段通過(guò)特征詞項(xiàng)庫(kù)獲取框架構(gòu)建。
定義4:段落特征詞項(xiàng)空間向量。由段落中提取出的特征詞項(xiàng)及其權(quán)值組成的集合,構(gòu)建段落特征詞項(xiàng)空間向量,代表一個(gè)段落的基本特征信息。
定義5:段落基準(zhǔn)庫(kù)。所有訓(xùn)練文本的段落特征詞項(xiàng)空間向量集合,用于存儲(chǔ)從訓(xùn)練文本庫(kù)中提取的能代表各段落特征信息的段落特征詞項(xiàng)向量。
定義6:文檔敏感度。代表文檔敏感程度的值,值域?yàn)?0-100。
預(yù)處理包括:
依次掃描訓(xùn)練庫(kù)中各文本的每個(gè)段落文本,首先,定密人員在訓(xùn)練庫(kù)中選定任一訓(xùn)練文檔S,對(duì)其各段落Si進(jìn)行密級(jí)和初始敏感度的標(biāo)定{絕密(取初始敏感度為95)、機(jī)密(取初始敏感度為85)、秘密(取初始敏感度為75)、內(nèi)部(取初始敏感度為65)、非密(取初始敏感度為55)}。
對(duì)于當(dāng)前訓(xùn)練段落文本Si,本發(fā)明根據(jù)特征詞項(xiàng)庫(kù)獲取框架,提取該段落的若干特征詞項(xiàng)。對(duì)每個(gè)特征詞項(xiàng),本發(fā)明通過(guò)TF-IDF方法計(jì)算詞項(xiàng)的權(quán)值。最后,由所有特征詞項(xiàng)及其權(quán)值構(gòu)成當(dāng)前訓(xùn)練段 落文本Si的特征詞項(xiàng)空間向量,以此表示該段落基本特征信息。
依次完成訓(xùn)練庫(kù)中所有文本的所有段落的特征詞項(xiàng)空間向量的構(gòu)建及其相關(guān)數(shù)據(jù)結(jié)構(gòu)的初始化,形成段落基準(zhǔn)庫(kù),為本發(fā)明中的段落密級(jí)自動(dòng)識(shí)別技術(shù)做支撐。
訓(xùn)練文檔S的敏感度由該文檔所有段落中敏感度最高的段落的敏感度決定,由此可以標(biāo)定目標(biāo)文檔的敏感度。
訓(xùn)練文檔S的密級(jí)由該文檔所標(biāo)定的敏感度標(biāo)定,敏感度在[90-100]范圍內(nèi)為絕密、敏感度在[80-90]范圍內(nèi)為機(jī)密、敏感度在[70-80]范圍內(nèi)為秘密、敏感度在[60-70]范圍內(nèi)為內(nèi)部、敏感度在[50-60]范圍內(nèi)為非密。
二、構(gòu)建段落空間向量,包括:
構(gòu)建向量空間模型(VSM):
向量空間模型(VSM)是統(tǒng)計(jì)學(xué)方法中最為經(jīng)典的一種文本相似度度量方法,本發(fā)明即采用向量空間模型進(jìn)行段落文本相似度計(jì)算。向量空間模型中較為重要的概念是段落詞項(xiàng)的權(quán)重,即詞項(xiàng)在段落文本中的重要程度,目前學(xué)術(shù)界普遍采用TF-IDF方法。本發(fā)明即使用TF-IDF方法。且在計(jì)算向量中詞項(xiàng)的權(quán)重時(shí)涉及兩個(gè)重要概念:
a)詞頻:即特定詞項(xiàng)在一個(gè)段落文本中出現(xiàn)的次數(shù),通常情況下詞項(xiàng)的詞頻越大,表明其與該段落文本的主題越相關(guān)。
b)逆文本頻率:即詞項(xiàng)在段落文本集合的多個(gè)段落文本中出現(xiàn)的次數(shù),在不同文本中出現(xiàn)的次數(shù)越多,表明該詞項(xiàng)的區(qū)分能力越差。
本發(fā)明即依據(jù)上述概念計(jì)算段落向量空間中每一個(gè)詞項(xiàng)的TF-IDF:
TFIDF(wi)=tf(wi)×tdf(wi)=tfj(wi)×log(N/df(wi)) (1);
其中:TFIDF(wi)表示當(dāng)前詞項(xiàng)wi的TF-IDF值,該值等于詞項(xiàng)wi的詞頻tf(wi)與逆文本頻率tdf(wi)的乘積,具體地,段落文本j中任一詞項(xiàng)wi的TF-IDF值可以通過(guò)tdf(wi)和log(N/df(wi))計(jì)算得出;tfj(wi)表 示當(dāng)前詞項(xiàng)wi在段落文本j中出現(xiàn)的頻率;N表示訓(xùn)練段落文本集合中所有段落文本總數(shù);df(wi)表示訓(xùn)練段落文本集合中出現(xiàn)當(dāng)前詞項(xiàng)wi的有段落文本個(gè)數(shù)。理論上而言,通過(guò)對(duì)段落文本集合中的每個(gè)詞項(xiàng)進(jìn)行上述計(jì)算,可以得到每個(gè)段落文本中中每一個(gè)詞項(xiàng)的TF-IDF值,然后從而以詞項(xiàng)及其TF-IDF值可為每個(gè)段落文本建立一個(gè)向量空間模型。然而,實(shí)踐表明,由上述方法得到的向量維度非常高而且稀疏,因此需要對(duì)其進(jìn)行降維處理。本發(fā)明中通過(guò)段落特征詞庫(kù)獲取框架來(lái)選擇最能代表段落特征信息的特征詞項(xiàng),構(gòu)建段落特征向量空間模型,
選擇段落特征詞項(xiàng):
本發(fā)明采取的方法是從每個(gè)段落文本中挑選若干關(guān)鍵詞項(xiàng)來(lái)表示段落,即由特征詞項(xiàng)庫(kù)獲取框架獲取段落特征詞項(xiàng)。并在保證不影響段落文本特征的前提下,最大可能地減少文本特征向量的表示維度。
1)特征詞項(xiàng)庫(kù)獲取框架
本發(fā)明采用文本分類研究中常用的特征抽取方法卡方分布檢驗(yàn)的結(jié)果值作為詞項(xiàng)與段落文本敏感度相關(guān)性的度量標(biāo)準(zhǔn)。本發(fā)明中為了區(qū)分某個(gè)詞項(xiàng)和文檔敏感度否的相關(guān)性,采用正負(fù)符號(hào)的卡方分布。χ2值越大,則詞項(xiàng)與段落文本敏感度相關(guān)性就大;χ2值越小,則詞項(xiàng)與段落文本敏感度相關(guān)性就小,從而將段落文本涉密相關(guān)性大的詞項(xiàng)加入到段落特征詞項(xiàng)向量空間中。具體如公式:
;式(1)表示,對(duì)任意詞項(xiàng)t,其中k11代表在訓(xùn)練文本集中,所有涉密段落文本集c中包含詞t的段落文本個(gè)數(shù),k00代表在涉密段落文本集c中不包含詞項(xiàng)t的段落文本個(gè)數(shù);k01代表在非密段落文本集中包含詞t的段落文本個(gè)數(shù),k10代表在非密段落文本集中不包含詞項(xiàng)t的段落文本個(gè)數(shù);N代表兩類集合中文檔的總數(shù)量,即訓(xùn)練文 本集中的段落總數(shù)N=k11+k00+k01+k10,sgn(x)表示取χ2的正負(fù)號(hào)符號(hào)。
通過(guò)對(duì)涉密段落文本集合和非涉密段落文本集合的詞項(xiàng)頻率統(tǒng)計(jì),用帶有正負(fù)符號(hào)的χ2分布計(jì)算值,最后通過(guò)閾值過(guò)濾來(lái)得到特征詞項(xiàng)。
2)特征詞項(xiàng)獲取的主要步驟包括:
第一步:訓(xùn)練庫(kù)的收集。不僅要獲取涉密段落文本集c作為正類,還需要獲取非密的段落文本數(shù)據(jù)作為反類??偠温鋽?shù)記為N;
第二步:對(duì)段落文本集合進(jìn)行分詞。本發(fā)明采用中國(guó)科學(xué)院的ICTCLAS分詞工具進(jìn)行分詞處理以及詞性標(biāo)注,接著對(duì)分詞過(guò)后的段落文本進(jìn)行去除停用詞的處理,依據(jù)停用詞表進(jìn)行停用詞過(guò)濾,同時(shí)過(guò)濾時(shí)間詞語(yǔ),得到具有實(shí)際意義的詞項(xiàng)集合;
第三步:對(duì)有實(shí)際意義的詞項(xiàng)進(jìn)行進(jìn)一步篩選。將過(guò)濾后所得詞項(xiàng)在當(dāng)前涉密段落文本中進(jìn)行詞項(xiàng)出現(xiàn)次數(shù)統(tǒng)計(jì),當(dāng)大于閾值θ的詞項(xiàng),列入候選特征詞項(xiàng);本發(fā)明中,基于實(shí)驗(yàn)經(jīng)驗(yàn)θ取2。
第四步:統(tǒng)計(jì)候選特征詞項(xiàng)出現(xiàn)段落數(shù)目。統(tǒng)計(jì)包含候選特征詞項(xiàng)的涉密段落文本集合和非涉密段落文本集合的段落文本數(shù)目,分別為k11、k01,同時(shí)統(tǒng)計(jì)未包含候選特征詞項(xiàng)的涉密段落文本集合和非涉密段落文本集合的段落文本數(shù)目,分別為k00、k10;
第五步:候選特征詞項(xiàng)敏感度相關(guān)性計(jì)算。按照卡方分布計(jì)算公式(1)計(jì)算候選詞項(xiàng)t的敏感度相關(guān)性值χ2(t,x),然后進(jìn)行敏感度相關(guān)性閾值w過(guò)濾,最后將相關(guān)性大于w的詞項(xiàng)加入到特征詞項(xiàng)庫(kù)中。本發(fā)明中,基于實(shí)驗(yàn)經(jīng)驗(yàn)w取30。
構(gòu)建特征詞項(xiàng)向量包括:
本發(fā)明通過(guò)特征詞項(xiàng)庫(kù)獲取框架獲取段落文本集合中的特征詞項(xiàng),并對(duì)每個(gè)特征詞項(xiàng),計(jì)算其TF-IDF值,從而為每個(gè)段落文本建立一個(gè)向量空間,且可通過(guò)余弦計(jì)算得到任意兩段落文本之間的相似 度。
計(jì)算段落相似度ParSim包括:
本發(fā)明在進(jìn)行段落相似度計(jì)算時(shí),綜合考慮特征詞項(xiàng)之間的語(yǔ)義相似度及特征詞項(xiàng)向量空間的相似度。
詞項(xiàng)與詞項(xiàng)之間的語(yǔ)義相似度計(jì)算,包括:
詞項(xiàng)與詞項(xiàng)之間的相似度量需要將所有的詞項(xiàng)組織起來(lái)構(gòu)成一個(gè)語(yǔ)義網(wǎng)絡(luò),通過(guò)考察該網(wǎng)絡(luò)中詞與詞之間的邊、節(jié)點(diǎn)等信息來(lái)建立詞與詞之間的相似度。英文最常用的是普林斯頓大學(xué)研究開(kāi)發(fā)的WordNet,而中文中常用的是由董振東先生編著的知網(wǎng),即HowNet。本發(fā)明采用HowNet進(jìn)行詞項(xiàng)語(yǔ)義相似度計(jì)算。學(xué)術(shù)界通常利用HowNet進(jìn)行詞項(xiàng)相似度計(jì)算和詞項(xiàng)相似度計(jì)算的公式如下:
其中:s1、s2表示兩個(gè)義原;dist(s1,s2)表示它們的路徑長(zhǎng)度;α是一個(gè)調(diào)節(jié)參數(shù),表示相似度為0.5時(shí)的路徑長(zhǎng)度。由于式(2)僅從義原路徑長(zhǎng)度來(lái)考慮兩個(gè)詞項(xiàng)的相似度,而未充分利用HowNet體系結(jié)構(gòu),計(jì)算結(jié)果不夠準(zhǔn)確。通過(guò)相關(guān)研究發(fā)現(xiàn),影響詞項(xiàng)相似度的因素除義原節(jié)點(diǎn)之間的路徑長(zhǎng)度之外,義原所在概念樹(shù)的深度以及概念樹(shù)的密度也是影響相似度計(jì)算的重要因子。公式(3)在計(jì)算式(2)的基礎(chǔ)上,加入了義原所在樹(shù)的深度信息,能更好的體現(xiàn)詞項(xiàng)之間的相似度。本發(fā)明采用公式(3)進(jìn)行詞項(xiàng)的相似度計(jì)算:
其中:depth(S)表示S距離根節(jié)點(diǎn)的層次。
計(jì)算段落與段落之間的相似度,包括:
本發(fā)明中,段落由特征詞項(xiàng)向量空間來(lái)表示,段落之間的相似度可以由特征詞項(xiàng)向量間的相似度來(lái)描述。假設(shè)當(dāng)前待定密級(jí)的目標(biāo)文檔P由m個(gè)段落構(gòu)成,即P={P1,P2...Pi...Pm},其中,Pi表示目標(biāo)文檔P 的第i個(gè)段落,并假定當(dāng)前待定密的段落為Pi。獲取當(dāng)前段落Pi的特征詞項(xiàng)向量vi=(wi1,wi2,...,wim)(假定段落Pi中通過(guò)特征詞項(xiàng)庫(kù)獲取框架所獲取的特征詞項(xiàng)總計(jì)m個(gè)),依次與段落基準(zhǔn)庫(kù)S中的段落Sj的特征詞項(xiàng)向量如vj=(wj1,wj2,...,wjn)(假定段落基準(zhǔn)庫(kù)S中的段落Sj通過(guò)特征詞項(xiàng)庫(kù)獲取框架所獲取的特征詞項(xiàng)總計(jì)n個(gè))進(jìn)行相似性計(jì)算,定義段落相似度為ParSim(vi,vj)。
ParSim(vi,vj)=wf*vectSim(vi,vj)+(1-wf)*cosSim(vi,vj) (4);
其中:wf表示特征詞項(xiàng)向量vi和vj之間語(yǔ)義相似度的加權(quán)因子,vectSim(vi,vj)表示特征詞項(xiàng)向量vi和vj之間的語(yǔ)義相似度,由式(8)計(jì)算得出。而cosSim(vi,vj)表示向量vi和vj之間的余弦相似度,如式(5)所示。
其中λ為向量vi和vj中出現(xiàn)的相同詞項(xiàng)的數(shù)目。
本發(fā)明基于這樣的假設(shè)來(lái)推導(dǎo)公式,如果兩個(gè)段落文本中彼此相似度較高的詞項(xiàng)越多,那么這些詞項(xiàng)所占的TF-IDF值在各自文檔中的比例越高,說(shuō)明計(jì)算這些詞項(xiàng)的語(yǔ)義相似度更能反映文本的相似情況。而剩余的詞項(xiàng)由于語(yǔ)義相似度偏低,再通過(guò)計(jì)算語(yǔ)義相似度來(lái)得出的文本相似情況可信度不高,但可以利用它們?cè)谡麄€(gè)段落文本集合中的概率分布情況反映相似度。因此需要計(jì)算vectSim(vi,vj)的加權(quán)因子,而加權(quán)因子根據(jù)關(guān)鍵詞向量中滿足相似度閾值條件的關(guān)鍵詞的TF-IDF值在整個(gè)段落TF-IDF值總和中所占的比例計(jì)算得到。具體的加權(quán)因子計(jì)算式由式(6)給出:
其中,TFIDF(wik)表示關(guān)鍵詞詞項(xiàng)wik的TF-IDF值,右端表示關(guān)鍵詞向量vi中所有滿足相似度閾值條件的關(guān)鍵詞項(xiàng)wik(k∈Λi)的TF-IDF值在vi所有的詞項(xiàng)TF-IDF值總和中所占的百分比。式(6)中的集合Λi和Λj定義如下:
如果關(guān)鍵詞向量vi中的某個(gè)關(guān)鍵詞wik與另一個(gè)關(guān)鍵詞向量vj中的關(guān)鍵詞ωjl(l=1,2,…,n)的相似度超過(guò)用戶設(shè)定的相似度閾值μ,則將該關(guān)鍵詞wik放入集合Λi。同理集合Λj中的元素依據(jù)集合Λi的方法對(duì)關(guān)鍵詞向量vj中的關(guān)鍵詞進(jìn)行選擇。
其中:sim(wjl,wik)表示關(guān)鍵詞wik與wjl之間的語(yǔ)義相似度,由式(3)計(jì)算得到;vectSim(vi,vj)由向量vi、vj中所包含的特征詞項(xiàng)語(yǔ)義相似度決定,由于相似的向量必定包含相似度較高的詞項(xiàng),而不相似的向量則彼此所包含的詞項(xiàng)相似度較低。
相似度計(jì)算的基本流程包括:
輸入:關(guān)鍵詞項(xiàng)向量vi、vj的詞項(xiàng)相似度閾值為μ,本發(fā)明中基于實(shí)驗(yàn)經(jīng)驗(yàn)μ取0.7。
輸出:關(guān)鍵詞項(xiàng)向量vi、vj的相似度。
a)從向量vi中的詞項(xiàng)wi1開(kāi)始,利用式(3)尋找向量vj中與wil最為相似的詞項(xiàng)wjk(即sim(wil,wjk)詞項(xiàng)語(yǔ)義相似度取得最大值),記錄詞項(xiàng)wil和wjk之間的相似度,同時(shí)判斷sim(wil,wjk)是否大于等于閾值μ,如果是,則將wil放入集合Λi。同理,vi中的其他項(xiàng)作相同處理。
b)累加vi中每個(gè)項(xiàng)的相似度,除以向量vi中詞項(xiàng)的數(shù)量,即向量vi的維度,以此作為向量νi和νj的相似度sim(vi,vj)。重復(fù)步驟a)b)的過(guò)程,得到向量vj和vi的相似度sim(vi,vj)。
c)計(jì)算sim(vi,vj)和sim(vj,vi)的算術(shù)平均值,作為向量vi和vj的語(yǔ)義相似度vecSim(vi,vj)。
d)利用式(1)分別為向量vi和vj中的每個(gè)詞項(xiàng)計(jì)算TF-IDF權(quán)值,利用式(5)計(jì)算向量vi和vj之間的余弦相似度。
e)由于在前面的步驟中已經(jīng)分別找出了集合Λi和Λj中的元素,因此利用式(6)計(jì)算加權(quán)因子wf。
f)根據(jù)前述一系列步驟,利用式(4)最終得出當(dāng)前文本段落特征項(xiàng)值向量vi與段落特征庫(kù)中待匹配的某段落特征項(xiàng)值向量vj之間的段落文本相似度ParSim(vi,vj)。
計(jì)算目標(biāo)文檔各段落的敏感度,包括:
如前文中的假定,目標(biāo)文檔P由m個(gè)段落構(gòu)成,即P={P1,P2...Pi...Pm},其中,Pi表示目標(biāo)文檔P的第i個(gè)段落,且當(dāng)前待定密的段落為Pi。
由特征詞項(xiàng)庫(kù)獲取框架獲取當(dāng)前段落Sj的特征詞項(xiàng)向量vi=(wi1,wi2,...,wim)(假定所獲取的特征詞項(xiàng)總計(jì)m個(gè)),依次與段落基準(zhǔn)庫(kù)S中的段落Sj的特征詞項(xiàng)向量如vj=(wj1,wj2,...,wjn)(假定段落基準(zhǔn)庫(kù)S中的段落Sj的特征詞項(xiàng)總計(jì)n個(gè))進(jìn)行相似性計(jì)算,得到ParSim(vi,vj)的值。在段落基準(zhǔn)庫(kù)S的所有段落中取匹配度最高(即ParSim值最大)的段落Pre的敏感值Sens(Pre),作為當(dāng)前段落Pi的初始敏感值;
對(duì)當(dāng)前段落Pi的敏感值進(jìn)行修正:Sens(Pi)=Sens(Pre)*sim;
其中,Sens(Pi)為當(dāng)前段落Pi的最終敏感值,Sens(Pre)則為段落Pi的初始敏感值,即2)所取得的初始敏感值,Sim為當(dāng)前段落Pi中所有特征詞項(xiàng)所攜帶的敏感信息集合與2)所匹配的段落Pre中所有特征詞項(xiàng)所攜帶的的敏感信息集合的比值。
Sim的取值方法如下:取出當(dāng)前段落中Pi中所有的特征詞項(xiàng)wi的 敏感度Sens(wi)的集合以及所匹配段落Pre中的所有特征詞項(xiàng)wk的敏感度Sens(wk)的集合比較兩者所有特征詞項(xiàng)所攜帶敏感度的比值,對(duì)段落Pi的敏感度進(jìn)行修正。
其中,
其中,Sec(wi)為五個(gè)敏感度級(jí)別訓(xùn)練段落文本中,包含特征詞項(xiàng)wi個(gè)數(shù)最多的一級(jí)段落文本所對(duì)應(yīng)的敏感度初值,即{絕密取敏感度初值95、機(jī)密取敏感度初值85、秘密取敏感度初值75、內(nèi)部取敏感度初值65、非密取敏感度初值55},N(wi)為當(dāng)前段落Pi包含的特征詞項(xiàng)wi的個(gè)數(shù),為段落Pi所含特征詞項(xiàng)的總個(gè)數(shù),Sec(wk)為五個(gè)敏感度級(jí)別訓(xùn)練段落文本中,包含特征詞項(xiàng)wk個(gè)數(shù)最多的一級(jí)段落文本所對(duì)應(yīng)的敏感度初值,即{絕密取敏感度初值95、機(jī)密取敏感度初值85、秘密取敏感度初值75、內(nèi)部取敏感度初值65、非密取敏感度初值55},N(wk)為當(dāng)前所匹配段落Pre中包含的特征詞項(xiàng)wk的個(gè) 數(shù),為段落Pre所含特征詞項(xiàng)的總個(gè)數(shù)。
本發(fā)明根據(jù)Sens(Pi)=Sens(Pre)*sim計(jì)算目標(biāo)文檔P的段落Pi的敏感度Sens(Pi),類似,可以計(jì)算目標(biāo)文檔P的所有段落的敏感度集合{Sens(P1),Sens(P2)...Sens(Pi)...Sens(Pm)}。
確定目標(biāo)文檔的敏感度及密級(jí),包括:
目標(biāo)文檔P的敏感度由{Sens(P1),Sens(P2)...Sens(Pi)...Sens(Pm)}中敏感度最高的段落決定,即目標(biāo)文檔P的敏感度Sens(P)=max{Sens(P1),Sens(P2)...Sens(Pi)...Sens(Pm)}。其中,Pi為目標(biāo)文檔P的第i個(gè)段落。
目標(biāo)文檔P的密級(jí)由1)中得出的目標(biāo)文檔P的敏感度Sens(P)決定:即P的敏感度在區(qū)間[90-100]為絕密,在區(qū)間[80-90]為機(jī)密、在區(qū)間[70-80]為秘密,在區(qū)間[60-70]為內(nèi)部,在區(qū)間[50-60]為非密。
本發(fā)明的文檔密級(jí)自動(dòng)識(shí)別方法,特別適合于重點(diǎn)領(lǐng)域的大型軍工企業(yè)涉密文檔管理。通過(guò)文檔密級(jí)自動(dòng)識(shí)別方法對(duì)對(duì)軍工企業(yè)涉密內(nèi)網(wǎng)的所有文檔進(jìn)行密級(jí)識(shí)別,防范敏感信息的泄露,能夠滿足各類涉密信息安全可控的需求。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進(jìn)和變形,這些改進(jìn)和變形也應(yīng)視為本發(fā)明的保護(hù)范圍。