一種基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)的制作方法

文檔序號：6573455閱讀：235來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息過濾技術(shù)領(lǐng)域，尤指識別含有敏感信息的網(wǎng)頁的方法。
背景技術(shù)：
由于互聯(lián)網(wǎng)敏感信息對于互聯(lián)網(wǎng)用戶尤其是青少年造成了極大的危害，因此引起了研究者和業(yè)界的廣泛關(guān)注。目前有很多種敏感信息過濾方法，包括黑白名單，IP過濾以及關(guān)鍵詞匹配等等過濾手段?？偟膩碚f，一方面，這些過濾技術(shù)采用一種非常機械的方式，能夠?qū)σ恍┟舾芯W(wǎng)頁達到100%的過濾效率，響應(yīng)時間也非常短，但是過濾參數(shù)更新的周期只能跟隨著實際敏感網(wǎng)頁的出現(xiàn)而變化，不能夠應(yīng)對實際敏感網(wǎng)站的快速變化。另一方面，由于網(wǎng)頁的內(nèi)容信息基本上沒有利用或者很少利用，因此造成了很高的誤過濾率，影響了用戶的正常上網(wǎng)?；趦?nèi)容的敏感信息智能識別技術(shù)是近年來過濾技術(shù)的一個發(fā)展方向。目前已有多種基于內(nèi)容的敏感信息識別方法。目前的敏感網(wǎng)頁識別方法一般主要建立敏感文本識別基礎(chǔ)之上。因此核心是對文本的處理，首先提取網(wǎng)頁中的文本，然后提取特征，然后利用機器學(xué)習(xí)里面的分類算法來對特征進行訓(xùn)練和分類。其中特征提取的方法通常采用的是(l)人工給定一個關(guān)鍵詞列表；(2)利用文本匹配的方法來統(tǒng)計各關(guān)鍵詞出現(xiàn)的次數(shù)；(3)各關(guān)鍵詞出現(xiàn)的次數(shù)組成一個向量，經(jīng)過歸一化等處理后，該向量作為該文本的特征向量。一般給定的關(guān)鍵詞數(shù)目小于100。然后選取分類器來進行訓(xùn)練和預(yù)測。新加坡Pui Y.Lee等人利用Kohonen自組織神經(jīng)網(wǎng)絡(luò)作為分類器，取得了較好的實際效果。還存在一些敏感圖像識別方法，中國科學(xué)院自動化所楊金鋒等人提出了一種基于內(nèi)容的敏感圖像識別方法，在CAMPAQ數(shù)據(jù)庫上取得了超過80%的識別率。同機械的過濾方法類似，以上方法沒有很好的利用web特征，目前還不能夠達到滿意的效果，例如基于文本的敏感網(wǎng)頁識別不能夠?qū)εc敏感主題相關(guān)的正常網(wǎng)頁進行很好的識別，基于圖像的敏感網(wǎng)頁識別的誤識別率很高。已存在的融合算法也僅僅是通過與或操作來融合，不能夠根本上提高識別率。發(fā)明內(nèi)容現(xiàn)有技術(shù)基于文本的敏感網(wǎng)頁識別不能夠?qū)εc敏感主題相關(guān)的正常網(wǎng)頁進行很好的識別，基于圖像的敏感網(wǎng)頁識別的誤識別率高，采用的融合算法是通過與或操作來融合，不能夠根本上提高識別率，為了解決現(xiàn)有技術(shù)的這些問題，本發(fā)明的目的是從web網(wǎng)頁特點出發(fā)，提供一種基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)。為了實現(xiàn)所述的目的，本發(fā)明的一方面，提供基于多分類器融合的敏感網(wǎng)頁過濾方法，包括如下步驟步驟Sl:獲取目標(biāo)網(wǎng)頁統(tǒng)一資源定位符的源代碼，進行預(yù)處理，用于獲取中文文本信息，獲取網(wǎng)頁中有效圖像集合信息；步驟S2:基于預(yù)處理提供信息，利用決策樹學(xué)習(xí)中的C《5算法將輸入網(wǎng)頁中文文本和有效圖像生成文本、圖像及文本與圖像的混合網(wǎng)頁樣式，用于獲得文本流、圖像流和文本與圖像混合流信息；步驟S3:利用多分類器識別與網(wǎng)頁樣式的指定分配關(guān)系，獲得目標(biāo)網(wǎng)頁；步驟S4:根據(jù)識別結(jié)果綜合判斷目標(biāo)網(wǎng)頁是否敏感，如果敏感，則執(zhí)行步驟5，如果不敏感，則執(zhí)行步驟6;步驟S5:將識別的敏感網(wǎng)頁送入Web瀏覽器，并在瀏覽器中警示用戶所瀏覽網(wǎng)頁含有敏感內(nèi)容，瀏覽被禁止；步驟S6:在Web瀏覽器中正常顯示原網(wǎng)頁。所述分類器識別包括利用連續(xù)敏感文本分類器對以文本為主的網(wǎng)頁樣式進行識別、利用敏感圖像分類器器對以圖像為主的網(wǎng)頁樣式中的圖像集合進行識別和對混合型網(wǎng)頁樣式則利用離散敏感文本分類器和敏感圖像分類器融合進行識別。所述獲取網(wǎng)頁中有效圖像步驟包括步驟11:在預(yù)處理階段通過解析網(wǎng)頁超文本標(biāo)示語言代碼，獲取該網(wǎng)頁所包含每幅圖像的尺寸和位置信息，用于識別目標(biāo)網(wǎng)頁的整體內(nèi)容；步驟12:如果尺寸信息和位置信息符合事先統(tǒng)計好的規(guī)則，則將該圖像劃分至有效圖像集合中。所述決策樹C4.5算法將輸入網(wǎng)頁生成網(wǎng)頁樣式的步驟包括-步驟21:計算屬性集中網(wǎng)頁統(tǒng)一資源定位符、網(wǎng)頁中文本長度和網(wǎng) 頁中圖像基于像素量的分級，得到信息熵和分類前后信息熵的增益變化；步驟22:將信息熵增益作為分類尺度，給出分類依據(jù)，即取最大的信息熵增益的屬性集劃分為最終決策；步驟23:重復(fù)步驟22直到所有屬性集都被劃分，從而形成決策樹和分類規(guī)則。所述利用連續(xù)敏感文本分類器對以文字為主的網(wǎng)頁進行識別步驟包括步驟l):用細胞神經(jīng)網(wǎng)絡(luò)(CNN)定義N維離散空間上的大型并行計算網(wǎng)絡(luò)，將網(wǎng)絡(luò)上的一個節(jié)點作為一個關(guān)鍵詞，將節(jié)點之間的連接描述，用于生成文本中詞匯之間的語義關(guān)系；步驟2):利用文本中詞匯之間的語義關(guān)系，將節(jié)點之間相互的抑制與激活，用于取得節(jié)點的激活次數(shù)作為文本的統(tǒng)計特征；步驟3):以統(tǒng)計特征作為輸入，選用支持向量機(SVM)作為訓(xùn)練以及預(yù)測的分類器，對預(yù)處理網(wǎng)頁中得到的文本進行分類，得到分類結(jié)果。所述利用離散敏感文本分類器對混合型的網(wǎng)頁中文字進行識別首先利用向量空間模型(VSM)提取離散敏感文本的特征；把離散敏感文本特征輸入到己經(jīng)訓(xùn)練好的貝葉斯網(wǎng)絡(luò)(BayesNetworks,簡稱BNS)中,輸出的結(jié)果為該文本輸入敏感的概率值，如果該概率值大于閾值，則得到該文本為敏感分類結(jié)果。所述對混合型網(wǎng)頁的圖像識別與文字識別的信息融合步驟包括首先利用圖像識別器對混合型網(wǎng)頁的每幅圖像進行識別，獲得識別結(jié)果為敏感的圖像數(shù)量M，獲得圖像識別結(jié)果為正常的圖像數(shù)量A^;離散文本識別的結(jié)果與上述圖像識別的結(jié)果融合，如果結(jié)果大于閾值，則該網(wǎng)頁為敏感，否則為正常網(wǎng)頁。為了實現(xiàn)所述的目的，本發(fā)明的另一方面，提供一種基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng)，包括數(shù)據(jù)流的獲取與預(yù)處理單元，生成原網(wǎng)頁的文本流和圖像流，并以此為依據(jù)將原網(wǎng)頁分為網(wǎng)頁樣式；圖像與文本流過濾單元，針對不同網(wǎng)頁樣式，使用相應(yīng)的分類器對文本和圖像進行識別；圖像過濾器與文本過濾器的信息融合單元，針對混合型網(wǎng)頁樣式，通過融合結(jié)合圖像過濾器與文本過濾器，得到最終是否為敏感類的識別結(jié)果。本發(fā)明利用了微軟提供的基于正內(nèi)核的瀏覽器核心控件完成了數(shù)據(jù) 分流傳遞，利用多分類器協(xié)作完成智能識別，利用網(wǎng)絡(luò)導(dǎo)航技術(shù)完成了過濾器與瀏覽器的數(shù)據(jù)交互，解決了對網(wǎng)絡(luò)上敏感信息訪問的嚴(yán)格控制問題。本發(fā)明系統(tǒng)處理時間較快，單幅網(wǎng)頁處理時間小于10秒，處理結(jié) 果的準(zhǔn)確率也可以達到80%以上。因而在網(wǎng)絡(luò)信息安全領(lǐng)域有很好的應(yīng)用前景。

圖1示出三種網(wǎng)頁樣式與分類器的分配關(guān)系圖2(a)gif訓(xùn)練集有效/無效圖像尺寸分布，圖2 (b) jpg訓(xùn)練集有效/無效圖像分布圖3是本發(fā)明多分類器敏感網(wǎng)頁識別方法總體框4是本發(fā)明多分類器敏感網(wǎng)頁識別系統(tǒng)框圖具體實施方式
下面將結(jié)合附圖對本發(fā)明加以詳細說明，應(yīng)指出的是，所描述的實施例僅旨在便于對本發(fā)明的理解，而對其不起任何限定作用。如圖4本發(fā)明基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng)所示，包括數(shù) 據(jù)流的獲取與預(yù)處理單元1，生竭原網(wǎng)頁的文本流和圖像流，并以此為依據(jù)將原網(wǎng)頁分為網(wǎng)頁樣式；圖像與文本流過濾單元2，針對不同網(wǎng)頁樣式，使用相應(yīng)的分類器對文本和圖像進行識別；圖像過濾器與文本過濾器的信息融合單元3，針對混合型網(wǎng)頁樣式，通過融合公式結(jié)合圖像過濾器與文本過濾器，得到最終是否為敏感類的識別結(jié)果。綜上所述，數(shù)據(jù)流的獲取與預(yù)處理單元1將網(wǎng)頁解析得到文本與圖像流，利用C4. 5算法將網(wǎng) 頁歸為網(wǎng)頁樣式；圖像與文本流過濾單元2針對數(shù)據(jù)流的獲取與預(yù)處理單元1劃分的不同網(wǎng)頁樣式，使用相對應(yīng)的分類器識別處理數(shù)據(jù)流的獲取與預(yù)處理單元1中解析產(chǎn)生的文本和圖像流；圖像過濾器與文本過濾器的信息融合單元3針對處理圖像與文本流過濾單元2中處理的混合型網(wǎng)頁，將圖像與文本流過濾單元2產(chǎn)生的文本與圖像分類結(jié)果代入融合公式，得到綜合識別結(jié)果。識別完畢。本發(fā)明已于微軟windows XP平臺，VC6.0， VC.Net編程環(huán)境下以微軟正瀏覽器插件的方式實現(xiàn)，經(jīng)實驗可正確運行于個人電腦及電腦終端上。在本發(fā)明方法中，基于對web的分析，把web網(wǎng)頁分為三類。如圖 1示出三種網(wǎng)頁樣式與分類器的分配關(guān)系所示第一類為以文本為主的網(wǎng) 頁，其中文本多為文章性質(zhì)的文本，例如小說，新聞，人物傳記等，其特點是上下文之間有較強的語義關(guān)聯(lián)，有豐富的語義信息可以利用。該類型網(wǎng)頁通常包含有一篇或者幾篇文章。第二類是指以圖像為主的網(wǎng)頁，網(wǎng)頁里主要呈現(xiàn)的是圖像信息，附加有少量的分散文本，起輔助說明作用。這類型的網(wǎng)頁主要以圖庫的形式呈現(xiàn)。第三類也是最普遍的網(wǎng)頁樣式是文字和圖像混合的網(wǎng)頁，其中的文本也是分塊分散出現(xiàn)的，主要起著鏈接或者說明作用,，此外網(wǎng)頁中包含多幅圖像以豐富網(wǎng)頁的內(nèi)容，這種樣式的網(wǎng)頁主要有一些著名門戶網(wǎng)站的首頁和電子公告牌(BBS)?；陬A(yù)處理提供信息，包括網(wǎng)頁URL，網(wǎng)頁中文本長度，網(wǎng)頁中圖像基于像素量的分級等作為屬性集合，利用決策樹學(xué)習(xí)中的C4.5算法將輸入網(wǎng)頁分為如上定義的三種樣式。然后對三種類型的網(wǎng)頁使用相對應(yīng) 的分類器實行分而治之的策略。 .對于第一種樣式的網(wǎng)頁(以文本為主)，運用細胞神經(jīng)網(wǎng)絡(luò)C麗處理， C,與其他神經(jīng)網(wǎng)絡(luò)最大的區(qū)別在于信息只在相鄰單元之間交換，而全局信息的處理則通過局部信息的交互來實現(xiàn)。細胞神經(jīng)網(wǎng)絡(luò)可以是任意維的，但最常見的是一維或者二維。在一維細胞神經(jīng)網(wǎng)絡(luò)中，最常見的連接方式是每個細胞與周圍2r+l個細胞(包括它自己)相連。在二維網(wǎng)絡(luò)中最常見的連接方式是Von Neumann連接與Moore連接，其每個細胞只與其Von Neumann和Moore鄰域中的細胞相連。對一個細胞單元狀態(tài)的形式化描述為x(/ +1) = g(;c(O) + /(/) + / (,(/)) + /2 = /(柳其中x為細胞的內(nèi)部狀態(tài)，^是它的輸出，"是外部輸入，/是偏差，乂和/2是兩個函數(shù)。為了構(gòu)建敏感詞匯網(wǎng)絡(luò)，首先把傳統(tǒng)意義上的關(guān)鍵詞分為三類(1)顯式關(guān)鍵字；(2)隱式關(guān)鍵字(3)邏輯關(guān)鍵字；其中，顯式關(guān)鍵字決定了邏輯關(guān)鍵字，同時顯式關(guān)鍵字和隱式關(guān)鍵字之間也存在內(nèi)在的聯(lián)系。利用三者之間的關(guān)系，可以構(gòu)造我們的聯(lián)想反饋網(wǎng)絡(luò)。為了利用細胞神經(jīng)網(wǎng)絡(luò)，我們定義一個節(jié)點為一個詞匯，另外這個詞匯有三個狀態(tài)沉寂態(tài)，隱藏態(tài)和激發(fā)態(tài)。節(jié)點與節(jié)點之間按照語義關(guān) 聯(lián)進行連接，計算規(guī)則是一旦一個節(jié)點結(jié)束到一個刺激或者輸入，那么根據(jù)該節(jié)點以往的狀態(tài)和周圍節(jié)點的狀態(tài)以及連接所代表的語義規(guī)則來確定該節(jié)點的下一個狀態(tài)。沉寂態(tài)定義為節(jié)點還未接受一個輸入是的狀態(tài)；隱藏態(tài)定義為節(jié)點已經(jīng)接受輸入，但其參數(shù)以及周圍節(jié)點的參數(shù)未能夠達到其激發(fā)條件; 激發(fā)態(tài)定義為節(jié)點接受了輸入并且收到了激發(fā)。一旦一個節(jié)點被激發(fā)，那么我們就統(tǒng)計該節(jié)點出現(xiàn)的次數(shù)，最后所有激發(fā)節(jié)點的次數(shù)作為一個向量來進行訓(xùn)練和預(yù)測。選用支持向量機(Support Vector Machine,簡稱 SVM)作為分類器，對上述向量形成的特征進行訓(xùn)練和分類，根據(jù)SVM輸出來決定該網(wǎng)頁是否是敏感網(wǎng)頁。對于第二種樣式的網(wǎng)頁(以圖像為主)，則提取網(wǎng)頁中有效圖像集合利用圖像分類器進行集合識別，如果判別為敏感的圖像數(shù)目超過預(yù)定閾值，則將該網(wǎng)頁判別為敏感。10對于第三種樣式的網(wǎng)頁(混合型)，首先根據(jù)尺寸來獲取網(wǎng)頁里面的有效圖像集合，然后利用圖像分類器對圖像一一進行識別，識別的結(jié)果為 (TV,, W)，其中A^為識別結(jié)果為敏感的圖像個數(shù)，A^為識別結(jié)果為正常的圖像個數(shù)。同時把網(wǎng)頁里面的文本當(dāng)成圖像是否為敏感的先驗,使用針對離散文本的Bayes分類器對文本進行判別，輸出結(jié)果為P,。然后將各分類器的三個輸出參數(shù)^， w，《代入融合公式，得到一個判別因子/;通過該因子,與預(yù)定閾值相比較來判斷該網(wǎng)頁是否是敏感網(wǎng)頁。如圖3是本發(fā)明多分類器敏感網(wǎng)頁識別方法總體流程圖所示，具體地包括如下步驟l)獲取給定的目標(biāo)網(wǎng)頁統(tǒng)一資源定位符URL的源代碼，分離出源碼中的中文文本?；赪3C上關(guān)于Html和XML的相關(guān)文檔，然后針對解析的難點對源解析程序進行了改進。嚴(yán)格來說，Html文檔是一種完全的樹形結(jié)構(gòu)，但是標(biāo)準(zhǔn)中對一些標(biāo)記的寬松規(guī)定使得實際的文檔可以不以嚴(yán)格的層次結(jié)構(gòu)出現(xiàn)。首先獲取目標(biāo)網(wǎng)頁的超文本標(biāo)示語言Html源代碼，之后對 Html文檔進行解析，這個解析過程分為3個子步驟(1) 文檔的元素分析，生成節(jié)點序列；(2) 元素序列的結(jié)構(gòu)/語法分析，生成初始的Html樹；(3) Html樹重構(gòu)?；谏傻腍tml樹中各種tag標(biāo)記間包含的文本內(nèi)容，將其分離出來作為源碼中的中文文本流。步驟2)獲取源代碼中圖像的尺寸大小和位置信息，根據(jù)相關(guān)規(guī)則剔除掉部分圖像，獲得有效圖像集合。處理圖像的開銷很大，如果網(wǎng)頁中大部分都是無效圖片的話，會對系統(tǒng)性能造成很大影響。我們圖片尺寸放在第一位，因為HTML標(biāo)準(zhǔn)支持網(wǎng)頁中包含圖片時就指定它的尺寸，因此可以僅從HTML文件本身就忽略掉無效圖片，而根本不需要另外下載它們。這同時也減少了網(wǎng)絡(luò)開銷，總的來說，從網(wǎng)絡(luò)上下載一幅圖片要比分析它更加耗時。網(wǎng)頁通常都包含了相當(dāng)數(shù)量的圖像。一般來說，一個圖文并茂的網(wǎng) 頁，可能包含幾十甚至上百幅圖像。但憑人的主觀估計，雖然這個網(wǎng)頁包含圖片較多，但數(shù)量應(yīng)該在幾十幅左右。實際統(tǒng)計的圖片數(shù)和主觀感受差別很大是因為圖片中有很多完全是為了網(wǎng)頁框架需要起裝飾作用的，還有些由于包含信息太少，或是在網(wǎng)頁中的位置問題，根本不會引起人的注意。而實際需要識別則是里面有效圖像集合，這種有效性表現(xiàn) 在兩個方面，一是圖像尺寸，二是圖像位置，用來識別目標(biāo)網(wǎng)頁的整體內(nèi)容。如附圖2所示，橫坐標(biāo)和縱坐標(biāo)分別為圖像的寬度和高度，坐標(biāo) 采用對數(shù)式。在這種狀態(tài)下，很明顯可以看出有效圖像的聚類特征。我們就根據(jù)這個特征編制分類策略。圖像出現(xiàn)的位置是另外一個重要的指標(biāo)，在上文中已經(jīng)詳細討論過網(wǎng)頁結(jié)構(gòu)特征對網(wǎng)頁元素的影響。相應(yīng)的，處于網(wǎng)頁核心位置的圖片其有效性應(yīng)大于處在角落位置的圖片。最后依據(jù)以上規(guī)則提取出網(wǎng)頁中有效圖像集合作為圖像流。3)依據(jù)步驟l)和步驟2)中提取出的網(wǎng)頁中的中文文本和有效圖像集合，構(gòu)成屬性集合，以這些屬性集合為基礎(chǔ)，將其代入C4.5決策樹算法的學(xué)習(xí)公式，得到?jīng)Q策規(guī)則。之后只要將目標(biāo)網(wǎng)頁的文本和圖像的屬性集合參照形成的決策規(guī)則分類，就可以將該網(wǎng)頁自動分為三種樣式中的一種以文本為主的網(wǎng)頁，以圖像為主的網(wǎng)頁，混合型的網(wǎng)頁。C4.5算法的決策規(guī)則形成公式如下C是分類的數(shù)目(在我們的系統(tǒng)中分類數(shù)為3), ^D，力是在數(shù)據(jù)集o中屬于類別y的那部分的比例。那么可以按照如下公式定義信息熵 /"/o(D):<formula>formula see original document page 12</formula>給定一個有^個值的屬性集合r，那么D,就相應(yīng)代表數(shù)據(jù)集D中在屬性r上取值為/的那部分?jǐn)?shù)據(jù)所形成的子集，之后可以按照如下公式定義出在屬性集T和數(shù)據(jù)集D上依據(jù)T的不同取值而產(chǎn)生的信息增益<formula>formula see original document page 12</formula> (2)C4.5算法依據(jù)信息增益，每次選取帶有最大信息增益的那個屬性作為分裂結(jié)點形成決策樹(決策規(guī)則)，以后的分類只要按照這個已經(jīng)形成的規(guī)則來就可以了。本發(fā)明中利用的網(wǎng)頁屬性集如下表所示網(wǎng)頁URL,網(wǎng)頁中文本長度，網(wǎng)頁中圖像基于像素量的分級。屬性集描述是否為首頁性質(zhì)是否在網(wǎng)頁的URL中包含有表示首頁性質(zhì)的關(guān)鍵詞 (例如"main " 或者 "index")一般文本的長度網(wǎng)頁中一般文本的字符數(shù)超文本的長度網(wǎng)頁中超文本的字符數(shù)大圖像的數(shù)目像素值超過50,000個像素的圖像數(shù)目中等圖像數(shù)目像素值在10， 000和50， 000 個像素之間的圖像數(shù)目小圖像數(shù)目像素值低于10， 000個像素的圖像數(shù)目步驟4)利用連續(xù)敏感文本分類器對按照步驟3)分類為以文本為主的網(wǎng)頁中的文本進行識別，識別結(jié)果為l，該網(wǎng)頁為敏感，則退出。并給出了描述性的定義。第一類是顯式關(guān)鍵詞，這類關(guān)鍵詞基本上只可能出現(xiàn)在敏感文本里面，從統(tǒng)計上來說就是出現(xiàn)在敏感文本里面的概率很大(接近于1)，而出現(xiàn)在正常文本里面的概率很小(接近于O)。從語義上來說，這些詞本身就攜帶著敏感信息。第二類是隱式關(guān)鍵詞，這類關(guān) 鍵詞本來不攜帶任何的敏感信息。但由于某種原因，這類詞于敏感文本產(chǎn)生了固定的聯(lián)系，也就是說，這些詞在敏感文本里面也是以很大的概率出現(xiàn)，當(dāng)然也會在其它文本里面出現(xiàn)。第三類式邏輯關(guān)鍵詞，這類關(guān) 鍵詞分為兩類一類是多義詞，即這類關(guān)鍵詞在正常文本里面意義正常，可是在敏感文本里面攜帶敏感信息；另外一類關(guān)鍵詞主要是在于一定的詞搭配起來之后，共同攜帶著敏感信息。而這種搭配，我們可以分為兩種，一種是顯式加邏輯，一種是邏輯加邏輯?；谏鲜龆x，選取了關(guān) 鍵詞集合，同時構(gòu)建了語義規(guī)則來描述詞匯之間的語義關(guān)聯(lián)，幫助正確的提取特征信息。提出之后的特征經(jīng)過歸一化之后，作為該連續(xù)文本的特征向量。選用支持向量機(Support Vector Machine,簡稱SVM)作為分類器，對特征進行訓(xùn)練和分類，根據(jù)SVM輸出來決定該網(wǎng)頁是否是敏感網(wǎng)頁。步驟5)利用敏感圖像分類器對按照步驟3)分類為以圖像為主的網(wǎng)頁中的有效圖像集合進行識別，將圖像分類器判別為敏感的那部分圖像數(shù) 目和預(yù)定閾值進行比較，依據(jù)該項來決定該網(wǎng)頁是否是敏感網(wǎng)頁，如果判別為敏感的圖像數(shù)目超過了閾值則將該網(wǎng)頁判別為敏感。步驟6)利用離散文本分類器和敏感圖像分類器的融合算法對按照步驟3)分類為混合型(即包含大量圖像又包含一定數(shù)量的文本)的網(wǎng)頁中進行融合識別，首先人工構(gòu)建一個關(guān)鍵詞列表,對網(wǎng)頁里的文本統(tǒng)計關(guān)鍵詞后，歸一化后作為離散敏感文本的特征向量輸入到訓(xùn)練好的Bayes網(wǎng)絡(luò) 里面，通過離散文本分類器對中文文本進行識別，并獲得離散文本分類因子，具體算法描述如下首先定義r = Uj2,..., Vl}作為類別Qi的訓(xùn)練集，}作為類別；作為關(guān)鍵詞集合。此外，定義W(w,f,)作為在文檔《中關(guān)鍵詞W出現(xiàn)的次數(shù)，也就是PT的詞頻。然后計算出概率P(叫C》，這個概率表示關(guān)鍵詞W和一個類別。的相關(guān)聯(lián)程度的大小<formula>formula see original document page 14</formula>在處理目標(biāo)文本/,時，計算概率p(。lo作為離散文本分類器因子，這個概率表示目標(biāo)文本。屬于一個類別q的可能性到底有多大，其中需要利用上面提到的概率尸(wlC》。這里使用了一個Bayes獨立性假設(shè): p(w,,mv..wj。 = ]1p(w,|。。即隱式得表達了在第三類混合型的網(wǎng)頁中文本關(guān)鍵詞之間的堪義聯(lián)系并不是很緊密，可以視為獨立分散存在。p(C卞,)一尸(c臉(喝)D(c》rOic廣'" (4)對于第三類型的網(wǎng)頁，根據(jù)尺寸來獲取網(wǎng)頁里面的部分符合要求的圖像，然后利用圖像分類器對圖像一一進行識別,識別的結(jié)果為(w,， w)，其中y為識別結(jié)果為敏感的圖正常的圖像個數(shù)，w為識別結(jié)果為像個數(shù)。同時把網(wǎng)頁里面的文本當(dāng)成圖像是否為敏感的先驗，使用針對離散文本的Bayes分類器對文本進行判別，即上面提到的離散文本分類器因子，記為《。利用兩個參數(shù)來描述圖像分類器《表示把一副正常圖像誤分為敏感圖像的概率，^表示把一副敏感圖像誤分為正常圖像的概率。三個參數(shù)代入如下公式7V(1-A,1-尸， ()得到一個判別因子/;通過該因子,與預(yù)定閾值相比較來判斷該網(wǎng)頁是否是敏感網(wǎng)頁。步驟7)將最終的敏感判別結(jié)果返回給web瀏覽器，結(jié)果為敏感則在客戶端阻止該網(wǎng)頁的顯示，結(jié)果為非敏感則正常顯示。以上所述，僅為本發(fā)明中的具體實施方式
，但本發(fā)明的保護范圍并不局限于此，任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi)，可理解想到的變換或替換，都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi)，因此，本發(fā) 明的保護范圍應(yīng)該以權(quán)利要求書的保護范圍為準(zhǔn)。
權(quán)利要求
1. 一種基于多分類器融合的敏感網(wǎng)頁過濾方法，包括步驟步驟S1獲取目標(biāo)網(wǎng)頁統(tǒng)一資源定位符的源代碼，進行預(yù)處理，用于獲取中文文本信息，獲取網(wǎng)頁中有效圖像集合信息；步驟S2基于預(yù)處理提供信息，利用決策樹學(xué)習(xí)中的C4.5算法將輸入網(wǎng)頁中文文本和有效圖像生成文本、圖像及文本與圖像的混合網(wǎng)頁樣式，用于獲得文本流、圖像流和文本與圖像混合流信息；步驟S3利用多分類器識別與網(wǎng)頁樣式的指定分配關(guān)系，獲得目標(biāo)網(wǎng)頁；步驟S4根據(jù)識別結(jié)果綜合判斷目標(biāo)網(wǎng)頁是否敏感，如果敏感，則執(zhí)行步驟5，如果不敏感，則執(zhí)行步驟6；步驟S5將識別的敏感網(wǎng)頁送入Web瀏覽器，并在瀏覽器中警示用戶所瀏覽網(wǎng)頁含有敏感內(nèi)容，瀏覽被禁止；步驟S6在Web瀏覽器中正常顯示原網(wǎng)頁。
2、按權(quán)利要求l所述的方法，其特征在于，所述分類器識別包括利用連續(xù)敏感文本分類器對以文本為主的網(wǎng)頁樣式進行識別、利用敏感圖像分類器器對以圖像為主的網(wǎng)頁樣式中的圖像集合進行識別和對混合型網(wǎng)頁樣式則利用離散敏感文本分類器和敏感圖像分類器融合進行識別。
3、按權(quán)利要求l所述的方法，其特征在于，所述獲取網(wǎng)頁中有效圖像步驟包括步驟11:在預(yù)處理階段通過解析網(wǎng)頁超文本標(biāo)示語言代碼，獲取該網(wǎng)頁所包含每幅圖像的尺寸和位置信息，用于識別目標(biāo)網(wǎng)頁的整體內(nèi)容;步驟12:如果尺寸信息和位置信息符合事先統(tǒng)計好的規(guī)則,則將該圖像劃分至有效圖像集合中。
4、按權(quán)利要求l所述的方法，其特征在于，所述決策樹C4.5算法將輸入網(wǎng)頁生成網(wǎng)頁樣式的步驟包括步驟21:計算屬性集中網(wǎng)頁統(tǒng)一資源定位符、網(wǎng)頁中文本長度和網(wǎng) 頁中圖像基于像素量的分級，得到信息熵和分類前后信息熵的增益變化;步驟22:將信息熵增益作為分類尺度，給出分類依據(jù)，即取最大的信息熵增益的屬性集劃分為最終決策；步驟23:重復(fù)步驟22直到所有屬性集都被劃分，從而形成決策樹和分類規(guī)則。
5、按權(quán)利要求2所述的方法，其特征在于，利用連續(xù)敏感文本分類器對以文字為主的網(wǎng)頁進行識別步驟包括步驟1):用細胞神經(jīng)網(wǎng)絡(luò)定義N維離散空間上的大型并行計算網(wǎng)絡(luò)，將網(wǎng)絡(luò)上的一個節(jié)點作為一個關(guān)鍵詞，將節(jié)點之間的連接描述，用于生成文本中詞匯之間的語義關(guān)系；步驟2):利用文本中詞匯之間的語義關(guān)系，將節(jié)點之間相互的抑制與激活，用于取得節(jié)點的激活次數(shù)作為文本的統(tǒng)計特征；步驟3):以統(tǒng)計特征作為輸入，選用支持向量機作為訓(xùn)練以及預(yù)測的分類器，對預(yù)處理網(wǎng)頁中得到的文本進行分類，得到分類結(jié)果。
6、按權(quán)利要求2所述的方法，其特征在于，利用離散敏感文本分類器對混合型的網(wǎng)頁中文字進行識別首先利用向量空間模型提取離散敏感文本的特征；把離散敏感文本特征輸入到已經(jīng)訓(xùn)練好的貝葉斯網(wǎng)絡(luò)中，輸出的結(jié) 果為該文本輸入敏感的概率值，如果該概率值大于閾值,則得到該文本為敏感分類結(jié)果。
7、按權(quán)利要求1所述的方法，其特征在于，對混合型網(wǎng)頁的圖像識別與文字識別的信息融合步驟包括-.首先利用圖像識別器對混合型網(wǎng)頁的每幅圖像進行識別，獲得識別結(jié)果為敏感的圖像數(shù)量W,,獲得圖像識別結(jié)果為正常的圖像數(shù)量A^;離散文本識別的結(jié)果與上述圖像識別的結(jié)果融合，如果結(jié)果大于閾值，則該網(wǎng)頁為敏感，否則為正常網(wǎng)頁。
8、一種基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng)，其特征在于數(shù)據(jù)流的獲取與預(yù)處理單元(1)，生成原網(wǎng)頁的文本流和圖像流，并以此為依據(jù)將原網(wǎng)頁分為網(wǎng)頁樣式；圖像與文本流過濾單元(2)，針對不同網(wǎng)頁樣式，使用相應(yīng)的分類器對文本和圖像進行識別；圖像過濾器與文本過濾器的信息融合單元(3)，針對混合型網(wǎng)頁樣式，通過融合結(jié)合圖像過濾器與文本過濾器，得到最終是否為敏感類的識別結(jié)果。
全文摘要
本發(fā)明公開基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng)及方法，處理對象是一幅網(wǎng)頁，其處理結(jié)果是該網(wǎng)頁是否包含敏感內(nèi)容，此處的敏感可以定義為色情，反動，暴力等危害社會的不健康互聯(lián)網(wǎng)內(nèi)容。系統(tǒng)包括數(shù)據(jù)流的獲取與預(yù)處理單元、圖像與文本流過濾單元、圖像過濾器與文本過濾器的信息融合單元，系統(tǒng)基于多個分類器的協(xié)作，在給定網(wǎng)頁的統(tǒng)一資源定位器的條件下，獲取該網(wǎng)頁的源代碼，在預(yù)處理階段進行文本和圖像的分流，獲取文本信息和有效圖像信息；利用決策樹算法將輸入網(wǎng)頁分為三種樣式；利用連續(xù)文本分類器、離散敏感文本分類器和圖像分類器對網(wǎng)頁進行識別，根據(jù)各分類器識別的輸出結(jié)果進行融合計算，給出判別因子，將最終結(jié)果返回給瀏覽器。
文檔編號G06K9/62GK101281521SQ20071006518
公開日2008年10月8日申請日期2007年4月5日優(yōu)先權(quán)日2007年4月5日
發(fā)明者偶吳, 朱明亮, 胡衛(wèi)明, 陳周耀申請人:中國科學(xué)院自動化研究所

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡衛(wèi)明;陳周耀;吳偶;朱明亮
技術(shù)所有人：中國科學(xué)院自動化研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

多分類器融合相關(guān)技術(shù)

分類器融合相關(guān)技術(shù)

敏感詞過濾相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)的制作方法