一種信息安全過濾方法
【專利摘要】本發(fā)明公開了一種信息安全過濾方法,其具體實(shí)現(xiàn)過程包括了第一級(jí)的基于Web緩存技術(shù)的地址過濾和第二級(jí)的基于內(nèi)容的過濾兩大步驟。其中基于內(nèi)容的過濾步驟又包含了文檔預(yù)處理、生成文本特征和過濾三個(gè)子步驟。該一種信息安全過濾方法與現(xiàn)有技術(shù)相比,利用了Web緩存技術(shù)及統(tǒng)計(jì)和知識(shí)特征兩個(gè)方面的知識(shí),很好地提高了信息過濾的準(zhǔn)確性和網(wǎng)絡(luò)信息的安全性,實(shí)用性強(qiáng)。
【專利說明】一種信息安全過濾方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息安全【技術(shù)領(lǐng)域】,具體地說是一種實(shí)用性強(qiáng)、信息安全過濾方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)通信技術(shù)的快速發(fā)展和因特網(wǎng)上數(shù)據(jù)量的急劇增長,主動(dòng)信息服務(wù)作為一種新的信息服務(wù)模式,可以通過收集和分析用戶興趣建立用戶模型,并在領(lǐng)域知識(shí)的指導(dǎo)下,按照用戶模型對(duì)網(wǎng)絡(luò)信息進(jìn)行收集、整理和分類,最后將符合用戶興趣的內(nèi)容及時(shí)推送給用戶,大大提高了用戶在網(wǎng)上獲取信息的效率。但是,由于因特網(wǎng)的開放性、動(dòng)態(tài)性和異構(gòu)性的特點(diǎn),又不可避免地給這種服務(wù)方式帶來了諸多不安全的因素,如缺乏對(duì)信息發(fā)布的有效控制、不良信息的泛濫等。如何在這樣的網(wǎng)絡(luò)環(huán)境下為網(wǎng)絡(luò)用戶提供更好的服務(wù),并有效控制網(wǎng)絡(luò)信息的傳播,保障網(wǎng)絡(luò)信息的內(nèi)容安全,就成為了目前急待解決的問題。信息過濾技術(shù)作為信息檢索和主動(dòng)信息服務(wù)中的關(guān)鍵技術(shù),它的快速發(fā)展及廣泛應(yīng)用成為了解決該問題的最好方式。
[0003]所謂主動(dòng)信息服務(wù),就是指在沒有用戶干預(yù)的情況下,信息服務(wù)者或信息服務(wù)系統(tǒng)能根據(jù)用戶的信息需求和偏好自動(dòng)提供信息響應(yīng)的服務(wù)。其實(shí)質(zhì)就是針對(duì)計(jì)算機(jī)系統(tǒng)而言的服務(wù)的主動(dòng)性。其特征有以下幾點(diǎn):主動(dòng)發(fā)布信息、主動(dòng)預(yù)測需求、主動(dòng)采集信息、主動(dòng)處理信息、主動(dòng)挖掘知識(shí)、主動(dòng)預(yù)測仿真、主動(dòng)人機(jī)交互和主動(dòng)適應(yīng)用戶。
[0004]上面的論述中可以看出,主動(dòng)信息服務(wù)不僅可以根據(jù)用戶信息需求的變化,把用戶需要的感興趣的信息主動(dòng)動(dòng)性也大大提高了用戶獲取網(wǎng)絡(luò)信息的效率,節(jié)省了用戶的時(shí)間和網(wǎng)絡(luò)帶寬。但是,它也帶來了主動(dòng)信息服務(wù)過程中極為突出的安全性問題:信息推送的不相關(guān)性和惡意的主動(dòng)性問題。信息推送的不相關(guān)性主要體現(xiàn)在信息服務(wù)方在收集了用戶興趣之后,在定期為用戶推送用戶感興趣的信息的同時(shí),也會(huì)將一些與用戶興趣無關(guān)的或以前有關(guān)而現(xiàn)在無關(guān)(用戶興趣改變)的信息強(qiáng)行推送到用戶桌面的工作方式。
[0005]惡意的主動(dòng)性是指在用戶允許主動(dòng)信息服務(wù)的情況下,授權(quán)的或非授權(quán)的信息服務(wù)方將一些與用戶需求無關(guān)的信息(如廣告)或不良的惡意信息(如病毒、腳本程序和不良網(wǎng)頁等)推送到用戶桌面的工作方式。由此我們可以看出,以上兩種服務(wù)方式不僅給接受主動(dòng)信息服務(wù)的用戶帶來了許多使用上的不便,如浪費(fèi)用戶時(shí)間和網(wǎng)絡(luò)帶寬,也給用戶的計(jì)算機(jī)系統(tǒng)造成了很大的威脅。下面將針對(duì)以上安全問題給出相關(guān)的判斷、限制和阻止惡意主動(dòng)信息服務(wù)的方法,提供一種信息安全過濾方法。
[0006]該方法基于信息安全過濾技術(shù)設(shè)計(jì),其中信息過濾(Informat1nFiltering, IF)也就是所謂的信息的選擇性傳播。它是通過監(jiān)控動(dòng)態(tài)的信息源以找到滿足用戶需求的信息或剔除用戶不需要的信息。該技術(shù)作為信息檢索和主動(dòng)信息服務(wù)的關(guān)鍵技術(shù),可以有效地提高信息查詢的查全率和查準(zhǔn)率,為用戶提供高效的個(gè)性化服務(wù)。但在網(wǎng)絡(luò)安全領(lǐng)域,它的任務(wù)就是從動(dòng)態(tài)的信息源中過濾掉在一段時(shí)間內(nèi)比較固定的非需求信息或非法信息,并阻斷有害信息的進(jìn)一步的傳播,這就是信息的安全過濾。
[0007]安全過濾的特點(diǎn): 從上面的有關(guān)定義,我們可以對(duì)安全過濾的特點(diǎn)總結(jié)如下:
1)安全過濾是從兩個(gè)方面進(jìn)行描述的:非需求信息過濾和非法信息過濾;
2)非需求信息和非法信息的特征描述與表達(dá)在一段時(shí)間內(nèi)是相對(duì)固定的;
3)安全過濾直接阻斷或刪除過濾出的有關(guān)信息,并將其記入日志文件,以避免用戶下一次瀏覽相關(guān)信息,過濾的準(zhǔn)確性和自主性更高;
4)安全過濾的實(shí)現(xiàn)對(duì)用戶是隱藏的,在用戶使用網(wǎng)絡(luò)的過程中可以實(shí)時(shí)地進(jìn)行過濾;
5)對(duì)于非需求信息的過濾需要用戶進(jìn)行反饋評(píng)價(jià),但對(duì)于非法信息的過濾是不需要用戶反饋的。
[0008]安全過濾的主要方法:
O名單過濾(URL/IP過濾)。建立不良網(wǎng)站的URL或者IP地址列表數(shù)據(jù)庫,并對(duì)該數(shù)據(jù)庫進(jìn)行定期的數(shù)據(jù)更新,當(dāng)用戶訪問這些站點(diǎn)時(shí),將訪問站點(diǎn)的URL或者IP地址與數(shù)據(jù)庫列表中的進(jìn)行匹配,如果能夠正確匹配,則給予阻斷或封鎖。
[0009]2)分級(jí)過濾。根據(jù)網(wǎng)頁的內(nèi)容屬性或其他特征,并按照一定的分級(jí)標(biāo)準(zhǔn),建立網(wǎng)站的分級(jí)標(biāo)記,分級(jí)標(biāo)記可以附在網(wǎng)頁上,也可以保存在文件或數(shù)據(jù)庫中,使用時(shí)以分級(jí)標(biāo)記為過濾的依據(jù),與過濾模板進(jìn)行比較,或通過瀏覽器的安全設(shè)置選項(xiàng)實(shí)現(xiàn)分級(jí)過濾。
[0010]3)關(guān)鍵詞過濾。該方法是對(duì)文本內(nèi)容、文檔的元數(shù)據(jù)等進(jìn)行關(guān)鍵詞簡單匹配或者布爾邏輯運(yùn)算,對(duì)滿足匹配條件的網(wǎng)頁或網(wǎng)站進(jìn)行的過濾。在進(jìn)行關(guān)鍵詞過濾時(shí),時(shí)常會(huì)出現(xiàn)關(guān)鍵詞變形的情況,如同音字詞、字詞順序顛倒、字詞中插入其他字符串等,這些變形后的關(guān)鍵詞是不能通過簡單的匹配或者邏輯運(yùn)算來實(shí)現(xiàn)有效過濾的。因此,可以采用計(jì)算關(guān)鍵詞的匹配相關(guān)度、計(jì)算關(guān)鍵詞中字之間的位置差等方法來完成對(duì)變形后的關(guān)鍵詞的過濾。
[0011]前面提到的名單過濾和關(guān)鍵詞過濾雖然是目前實(shí)現(xiàn)信息安全過濾的主要方法,但是它們在進(jìn)行過濾時(shí)也存在一定的缺陷,如在名單過濾中,當(dāng)網(wǎng)頁中的部分內(nèi)容為非需求信息或非法信息時(shí),有可能導(dǎo)致整個(gè)網(wǎng)站被封,或者非法網(wǎng)站也可以通過改變IP地址,使之能夠在一段時(shí)間內(nèi)避免被過濾;而對(duì)于關(guān)鍵詞過濾,其較高的漏報(bào)和錯(cuò)報(bào)率影響了安全過濾的效率。本發(fā)明提供一種基于統(tǒng)計(jì)和知識(shí)特征的多級(jí)信息安全過濾方法,能很好地解決以上問題。
【發(fā)明內(nèi)容】
[0012]本發(fā)明的技術(shù)任務(wù)是針對(duì)以上不足之處,提供一種實(shí)用性強(qiáng)、信息安全過濾方法。
[0013]一種信息安全過濾方法,其具體實(shí)現(xiàn)過程為:
一、設(shè)置第一級(jí)過濾,即基于Web緩存的地址過濾,利用Web緩存技術(shù)在機(jī)器空閑或不忙時(shí)啟動(dòng)內(nèi)容分析功能,對(duì)網(wǎng)頁內(nèi)容分類識(shí)別:使用標(biāo)題判別引擎或內(nèi)容判別引擎,根據(jù)預(yù)先設(shè)定的規(guī)則對(duì)緩存數(shù)據(jù)進(jìn)行判斷,對(duì)提供不良內(nèi)容的URL進(jìn)行登記,生成攔截黑名單加入數(shù)據(jù)庫,同時(shí)刪除緩存的不良網(wǎng)頁,在該級(jí)將不良網(wǎng)站過濾掉;
二、設(shè)置第二級(jí)過濾,即基于內(nèi)容的過濾,該級(jí)過濾包括:
文檔預(yù)處理:對(duì)文本進(jìn)行分詞后加權(quán),計(jì)算出文本中詞的權(quán)值;
生成文本特征:根據(jù)上述計(jì)算的權(quán)值大小構(gòu)造特征詞典;
過濾:計(jì)算預(yù)先收集的滿足和不滿足過濾需求的兩類文本的特征值,根據(jù)兩類特征值的差異設(shè)置該過濾步驟中的閾值,計(jì)算得到的閾值用來判斷待分析文本的特征值是否超過了該值,以決定是否進(jìn)行相應(yīng)的過濾處理,超過該值時(shí),進(jìn)行過濾。
[0014]所述分詞為文檔預(yù)處理的第一步,即將經(jīng)第一級(jí)過濾后待處理的文檔轉(zhuǎn)換成詞序列后,供信息過濾系統(tǒng)使用,上述分詞采用機(jī)械匹配法、特征詞庫法、正向/逆向最大匹配法、抽取中頻字串法、鄰接約束法、最少分詞法中的一種或幾種的結(jié)合。
[0015]所述加權(quán)計(jì)算為文檔預(yù)處理的第二步,其具體實(shí)現(xiàn)過程為:
將分詞后待處理的文檔D用一個(gè)m維向量表示為:D=(wl,w2,…,wi,其中wi
表示第i個(gè)詞的權(quán)值;用詞頻因子與反向文檔頻度因子之積來計(jì)算詞的權(quán)值,即詞的加權(quán)函數(shù)表示為:Wi=f (wi) *v (wi),其中詞頻因子f (wi)反映詞在文檔中出現(xiàn)的頻率,反向文檔頻度因子V(Wi)表示詞在文檔中的重要程度。
[0016]所述文檔特征的生成包括:
創(chuàng)建特征詞典:經(jīng)過對(duì)待處理文檔的分詞和詞的權(quán)值計(jì)算之后,設(shè)置一個(gè)門檻值,該值作為構(gòu)建特征詞典的標(biāo)準(zhǔn),權(quán)值高于門檻值的詞作為特征詞加入到特征詞典中;然后根據(jù)詞的權(quán)值大小來決定是否將對(duì)應(yīng)的詞加入到特征詞典中;
創(chuàng)建好特征詞典后,對(duì)特征詞典中的特征詞進(jìn)行量化,即將其作為屬性因子與詞的權(quán)值進(jìn)行運(yùn)算,從而生成文檔特征。
[0017]所述文檔經(jīng)過兩級(jí)過濾后,系統(tǒng)根據(jù)所得到的過濾結(jié)果,發(fā)送相關(guān)反饋給特征詞典及特征閾值,以及時(shí)改變其大小范圍,實(shí)現(xiàn)最優(yōu)的過濾。
[0018]本發(fā)明的一種信息安全過濾方法,具有以下優(yōu)點(diǎn):
該發(fā)明的一種信息安全過濾方法從地址和文檔內(nèi)容兩個(gè)方面,利用了 Web緩存技術(shù)及統(tǒng)計(jì)和知識(shí)特征兩個(gè)方面的知識(shí),很好地提高了信息過濾的準(zhǔn)確性和網(wǎng)絡(luò)信息的安全性,實(shí)用性較強(qiáng),適用范圍廣泛,易于推廣。
【專利附圖】
【附圖說明】
[0019]附圖1為本發(fā)明的實(shí)現(xiàn)示意圖。
【具體實(shí)施方式】
[0020]下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明。
[0021]本發(fā)明提供一種信息安全過濾方法,該方法包括了第一級(jí)的基于Web緩存技術(shù)的地址過濾和第二級(jí)的基于內(nèi)容的過濾兩大步驟。其中基于內(nèi)容的過濾又包含了文檔預(yù)處理、生成文本特征和過濾三個(gè)子步驟。此方法從地址和文檔內(nèi)容兩個(gè)方面,利用了 Web緩存技術(shù)及統(tǒng)計(jì)和知識(shí)特征兩個(gè)方面的知識(shí),很好地提高了信息過濾的準(zhǔn)確性和網(wǎng)絡(luò)信息的安全性。如附圖1所示,其具體實(shí)現(xiàn)過程為:
一、設(shè)置第一級(jí)過濾,簡單的URL過濾。由于Web高速緩存服務(wù)器技術(shù)可以緩存用戶訪問過的對(duì)象,這一特點(diǎn)使得我們可以利用Web緩存技術(shù)在機(jī)器空閑或不忙時(shí)啟動(dòng)內(nèi)容分析功能,采用網(wǎng)頁內(nèi)容判別技術(shù),使用標(biāo)題判別引擎或內(nèi)容判別引擎,并根據(jù)預(yù)先設(shè)定的規(guī)則對(duì)緩存數(shù)據(jù)進(jìn)行判斷,對(duì)提供不良內(nèi)容的URL進(jìn)行登記,生成攔截黑名單加入數(shù)據(jù)庫,同時(shí)刪除緩存的不良網(wǎng)頁,這樣,在以后正常工作時(shí),便可以在這一級(jí)將不良網(wǎng)站過濾掉,從而實(shí)現(xiàn)了一次掃描,多次服務(wù)的高效服務(wù)模式。該技術(shù)采用事后審計(jì)的方式,避免了常用的基于事先判別的內(nèi)容過濾技術(shù)中用戶響應(yīng)時(shí)間長、瀏覽速度慢、誤判率較高的缺點(diǎn)。
[0022]二、設(shè)置第二級(jí)過濾,由于上一級(jí)的過濾有可能存在一些沒有被過濾掉的不良網(wǎng)頁,此時(shí)可以對(duì)可能含有不安全信息的文本進(jìn)行預(yù)處理,然后經(jīng)過加權(quán),計(jì)算出文本中詞的權(quán)值,根據(jù)權(quán)值的大小構(gòu)造特征詞典。同時(shí)計(jì)算預(yù)先收集的滿足和不滿足過濾需求的兩類文本的特征值,根據(jù)兩類特征值的差異設(shè)置過濾模塊中的閾值,計(jì)算得到的閾值可用來判斷待分析文本的特征值是否超過了該值,以決定是否進(jìn)行相應(yīng)的過濾處理,超過該值時(shí),進(jìn)行過濾。
[0023]所述分詞為文檔預(yù)處理的第一步,也是進(jìn)行信息過濾的基礎(chǔ)環(huán)節(jié),其目的在于將一篇待處理的文檔先轉(zhuǎn)換成詞序列后,供信息過濾系統(tǒng)使用。目前常用的分詞方法主要有機(jī)械匹配法、特征詞庫法、正向/逆向最大匹配法、抽取中頻字串法、鄰接約束法、最少分詞法等。在這里我們采用詞頻統(tǒng)計(jì)和機(jī)械匹配相結(jié)合的方法進(jìn)行文檔的分詞。
[0024]加權(quán)計(jì)算:一篇待處理的文檔D可以用一個(gè)m維向量表示為:D=(wl,《2,…,wi,…,wm),其中wi表示第i個(gè)詞的權(quán)值。因此,在對(duì)文檔進(jìn)行了分詞預(yù)處理后,還需要對(duì)表示文檔的詞進(jìn)行加權(quán)計(jì)算。計(jì)算詞的權(quán)值最常用的方法是用詞頻因子(TermFrequency,TF)與反向文檔頻度因子(InverseDocumentFrequency, IDF)之積來表示的,即詞的加權(quán)函數(shù)可以表示為:Wi=f (wi)*v(wi),其中詞頻因子f (wi)反映詞在文檔中出現(xiàn)的頻率,反向文檔頻度因子V(Wi)表示詞在文檔中的重要程度。
[0025]所述文檔特征的生成包括:
創(chuàng)建特征詞典:經(jīng)過對(duì)待處理文檔的分詞和詞的權(quán)值計(jì)算之后,設(shè)置一個(gè)門檻值,該值作為構(gòu)建特征詞典的標(biāo)準(zhǔn),權(quán)值高于門檻值的詞作為特征詞加入到特征詞典中;然后根據(jù)詞的權(quán)值大小(權(quán)值大的詞更能反映文檔的特征)來決定是否將對(duì)應(yīng)的詞加入到特征詞典中;
創(chuàng)建好特征詞典后,對(duì)特征詞典中的特征詞進(jìn)行量化,即將其作為屬性因子與詞的權(quán)值進(jìn)行運(yùn)算,從而生成文檔特征。
[0026]所述文檔經(jīng)過兩級(jí)過濾后,系統(tǒng)根據(jù)所得到的過濾結(jié)果,發(fā)送相關(guān)反饋給特征詞典及特征閾值,以及時(shí)改變其大小范圍,實(shí)現(xiàn)最優(yōu)的過濾。
[0027]上述【具體實(shí)施方式】僅是本發(fā)明的具體個(gè)案,本發(fā)明的專利保護(hù)范圍包括但不限于上述【具體實(shí)施方式】,任何符合本發(fā)明的一種信息安全過濾方法的權(quán)利要求書的且任何所述【技術(shù)領(lǐng)域】的普通技術(shù)人員對(duì)其所做的適當(dāng)變化或替換,皆應(yīng)落入本發(fā)明的專利保護(hù)范圍。
【權(quán)利要求】
1.一種信息安全過濾方法,其特征在于,其具體實(shí)現(xiàn)過程為: 一、設(shè)置第一級(jí)過濾,即基于Web緩存的地址過濾,利用Web緩存技術(shù)在機(jī)器空閑或不忙時(shí)啟動(dòng)內(nèi)容分析功能,對(duì)網(wǎng)頁內(nèi)容分類識(shí)別:使用標(biāo)題判別引擎或內(nèi)容判別引擎,根據(jù)預(yù)先設(shè)定的規(guī)則對(duì)緩存數(shù)據(jù)進(jìn)行判斷,對(duì)提供不良內(nèi)容的URL進(jìn)行登記,生成攔截黑名單加入數(shù)據(jù)庫,同時(shí)刪除緩存的不良網(wǎng)頁,在該級(jí)將不良網(wǎng)站過濾掉; 二、設(shè)置第二級(jí)過濾,即基于內(nèi)容的過濾,該級(jí)過濾包括: 文檔預(yù)處理:對(duì)文本進(jìn)行分詞后加權(quán),計(jì)算出文本中詞的權(quán)值; 生成文本特征:根據(jù)上述計(jì)算的權(quán)值大小構(gòu)造特征詞典; 過濾:計(jì)算預(yù)先收集的滿足和不滿足過濾需求的兩類文本的特征值,根據(jù)兩類特征值的差異設(shè)置該過濾步驟中的閾值,計(jì)算得到的閾值用來判斷待分析文本的特征值是否超過了該值,以決定是否進(jìn)行相應(yīng)的過濾處理,超過該值時(shí),進(jìn)行過濾。
2.根據(jù)權(quán)利要求1所述的一種信息安全過濾方法,其特征在于,所述分詞為文檔預(yù)處理的第一步,即將經(jīng)第一級(jí)過濾后待處理的文檔轉(zhuǎn)換成詞序列后,供信息過濾系統(tǒng)使用,上述分詞采用機(jī)械匹配法、特征詞庫法、正向/逆向最大匹配法、抽取中頻字串法、鄰接約束法、最少分詞法中的一種或幾種的結(jié)合。
3.根據(jù)權(quán)利要求2所述的一種信息安全過濾方法,其特征在于,所述加權(quán)計(jì)算為文檔預(yù)處理的第二步,其具體實(shí)現(xiàn)過程為: 將分詞后待處理的文檔D用一個(gè)m維向量表示為:D=(wl, w2,..., wi,…,wm),其中wi表示第i個(gè)詞的權(quán)值;用詞頻因子與反向文檔頻度因子之積來計(jì)算詞的權(quán)值,即詞的加權(quán)函數(shù)表示為:Wi=f (wi)*v(wi),其中詞頻因子f (wi)反映詞在文檔中出現(xiàn)的頻率,反向文檔頻度因子V(Wi)表示詞在文檔中的重要程度。
4.根據(jù)權(quán)利要求1所述的一種信息安全過濾方法,其特征在于,所述文檔特征的生成包括: 創(chuàng)建特征詞典:經(jīng)過對(duì)待處理文檔的分詞和詞的權(quán)值計(jì)算之后,設(shè)置一個(gè)門檻值,該值作為構(gòu)建特征詞典的標(biāo)準(zhǔn),權(quán)值高于門檻值的詞作為特征詞加入到特征詞典中;然后根據(jù)詞的權(quán)值大小來決定是否將對(duì)應(yīng)的詞加入到特征詞典中; 創(chuàng)建好特征詞典后,對(duì)特征詞典中的特征詞進(jìn)行量化,即將其作為屬性因子與詞的權(quán)值進(jìn)行運(yùn)算,從而生成文檔特征。
5.根據(jù)權(quán)利要求1-4中任一所述的一種信息安全過濾方法,其特征在于,所述文檔經(jīng)過兩級(jí)過濾后,系統(tǒng)根據(jù)所得到的過濾結(jié)果,發(fā)送相關(guān)反饋給特征詞典及特征閾值,以及時(shí)改變其大小范圍,實(shí)現(xiàn)最優(yōu)的過濾。
【文檔編號(hào)】H04L29/06GK104394158SQ201410711235
【公開日】2015年3月4日 申請日期:2014年12月1日 優(yōu)先權(quán)日:2014年12月1日
【發(fā)明者】劉洋 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司