亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)的制作方法

文檔序號:6573455閱讀:235來源:國知局
專利名稱:一種基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息過濾技術(shù)領(lǐng)域,尤指識別含有敏感信息的網(wǎng)頁的方法。
背景技術(shù)
由于互聯(lián)網(wǎng)敏感信息對于互聯(lián)網(wǎng)用戶尤其是青少年造成了極大的危 害,因此引起了研究者和業(yè)界的廣泛關(guān)注。目前有很多種敏感信息過濾方法,包括黑白名單,IP過濾以及關(guān)鍵 詞匹配等等過濾手段??偟膩碚f, 一方面,這些過濾技術(shù)采用一種非常機械的方式,能夠?qū)σ恍┟舾芯W(wǎng)頁達到100%的過濾效率,響應(yīng)時間也非常短,但是過濾參數(shù)更新的周期只能跟隨著實際敏感網(wǎng)頁的出現(xiàn)而變化, 不能夠應(yīng)對實際敏感網(wǎng)站的快速變化。另一方面,由于網(wǎng)頁的內(nèi)容信息基 本上沒有利用或者很少利用,因此造成了很高的誤過濾率,影響了用戶 的正常上網(wǎng)?;趦?nèi)容的敏感信息智能識別技術(shù)是近年來過濾技術(shù)的一個發(fā)展方 向。目前已有多種基于內(nèi)容的敏感信息識別方法。目前的敏感網(wǎng)頁識別方法一般主要建立敏感文本識別基礎(chǔ)之上。因此 核心是對文本的處理,首先提取網(wǎng)頁中的文本,然后提取特征,然后利 用機器學(xué)習(xí)里面的分類算法來對特征進行訓(xùn)練和分類。其中特征提取的方法通常采用的是(l)人工給定一個關(guān)鍵詞列表;(2)利用文本匹配的方 法來統(tǒng)計各關(guān)鍵詞出現(xiàn)的次數(shù);(3)各關(guān)鍵詞出現(xiàn)的次數(shù)組成一個向量, 經(jīng)過歸一化等處理后,該向量作為該文本的特征向量。 一般給定的關(guān)鍵詞 數(shù)目小于100。然后選取分類器來進行訓(xùn)練和預(yù)測。新加坡Pui Y.Lee等 人利用Kohonen自組織神經(jīng)網(wǎng)絡(luò)作為分類器,取得了較好的實際效果。 還存在一些敏感圖像識別方法,中國科學(xué)院自動化所楊金鋒等人提出了 一種基于內(nèi)容的敏感圖像識別方法,在CAMPAQ數(shù)據(jù)庫上取得了超過80%的識別率。同機械的過濾方法類似,以上方法沒有很好的利用web特征,目前 還不能夠達到滿意的效果,例如基于文本的敏感網(wǎng)頁識別不能夠?qū)εc敏 感主題相關(guān)的正常網(wǎng)頁進行很好的識別,基于圖像的敏感網(wǎng)頁識別的誤 識別率很高。已存在的融合算法也僅僅是通過與或操作來融合,不能夠 根本上提高識別率。發(fā)明內(nèi)容現(xiàn)有技術(shù)基于文本的敏感網(wǎng)頁識別不能夠?qū)εc敏感主題相關(guān)的正常 網(wǎng)頁進行很好的識別,基于圖像的敏感網(wǎng)頁識別的誤識別率高,采用的 融合算法是通過與或操作來融合,不能夠根本上提高識別率,為了解決 現(xiàn)有技術(shù)的這些問題,本發(fā)明的目的是從web網(wǎng)頁特點出發(fā),提供一種 基于多分類器融合的敏感網(wǎng)頁過濾方法及系統(tǒng)。為了實現(xiàn)所述的目的,本發(fā)明的一方面,提供基于多分類器融合的 敏感網(wǎng)頁過濾方法,包括如下步驟步驟Sl:獲取目標(biāo)網(wǎng)頁統(tǒng)一資源定位符的源代碼,進行預(yù)處理,用于獲取中文文本信息,獲取網(wǎng)頁中有效圖像集合信息;步驟S2:基于預(yù)處理提供信息,利用決策樹學(xué)習(xí)中的C《5算法將輸入網(wǎng)頁中文文本和有效圖像生成文本、圖像及文本與圖像的混合網(wǎng)頁樣式,用于獲得文本流、圖像流和文本與圖像混合流信息;步驟S3:利用多分類器識別與網(wǎng)頁樣式的指定分配關(guān)系,獲得目標(biāo)網(wǎng)頁;步驟S4:根據(jù)識別結(jié)果綜合判斷目標(biāo)網(wǎng)頁是否敏感,如果敏感,則 執(zhí)行步驟5,如果不敏感,則執(zhí)行步驟6;步驟S5:將識別的敏感網(wǎng)頁送入Web瀏覽器,并在瀏覽器中警示用 戶所瀏覽網(wǎng)頁含有敏感內(nèi)容,瀏覽被禁止;步驟S6:在Web瀏覽器中正常顯示原網(wǎng)頁。所述分類器識別包括利用連續(xù)敏感文本分類器對以文本為主的網(wǎng)頁樣式進行識別、利用敏感圖像分類器器對以圖像為主的網(wǎng)頁樣式中的 圖像集合進行識別和對混合型網(wǎng)頁樣式則利用離散敏感文本分類器和敏感圖像分類器融合進行識別。所述獲取網(wǎng)頁中有效圖像步驟包括步驟11:在預(yù)處理階段通過解析網(wǎng)頁超文本標(biāo)示語言代碼,獲取該 網(wǎng)頁所包含每幅圖像的尺寸和位置信息,用于識別目標(biāo)網(wǎng)頁的整體內(nèi)容;步驟12:如果尺寸信息和位置信息符合事先統(tǒng)計好的規(guī)則,則將該圖 像劃分至有效圖像集合中。所述決策樹C4.5算法將輸入網(wǎng)頁生成網(wǎng)頁樣式的步驟包括-步驟21:計算屬性集中網(wǎng)頁統(tǒng)一資源定位符、網(wǎng)頁中文本長度和網(wǎng) 頁中圖像基于像素量的分級,得到信息熵和分類前后信息熵的增益變化;步驟22:將信息熵增益作為分類尺度,給出分類依據(jù),即取最大的信息熵增益的屬性集劃分為最終決策;步驟23:重復(fù)步驟22直到所有屬性集都被劃分,從而形成決策樹和分類規(guī)則。所述利用連續(xù)敏感文本分類器對以文字為主的網(wǎng)頁進行識別步驟包括步驟l):用細胞神經(jīng)網(wǎng)絡(luò)(CNN)定義N維離散空間上的大型并行計算網(wǎng)絡(luò),將網(wǎng)絡(luò)上的一個節(jié)點作為一個關(guān)鍵詞,將節(jié)點之間的連接描述,用于生成文本中詞匯之間的語義關(guān)系;步驟2):利用文本中詞匯之間的語義關(guān)系,將節(jié)點之間相互的抑制與激活,用于取得節(jié)點的激活次數(shù)作為文本的統(tǒng)計特征;步驟3):以統(tǒng)計特征作為輸入,選用支持向量機(SVM)作為訓(xùn)練以及預(yù)測的分類器,對預(yù)處理網(wǎng)頁中得到的文本進行分類,得到分類結(jié)果。 所述利用離散敏感文本分類器對混合型的網(wǎng)頁中文字進行識別 首先利用向量空間模型(VSM)提取離散敏感文本的特征;把離散敏感文本特征輸入到己經(jīng)訓(xùn)練好的貝葉斯網(wǎng)絡(luò)(BayesNetworks,簡稱BNS)中,輸出的結(jié)果為該文本輸入敏感的概率值,如果該概率值大于閾值,則得到該文本為敏感分類結(jié)果。所述對混合型網(wǎng)頁的圖像識別與文字識別的信息融合步驟包括 首先利用圖像識別器對混合型網(wǎng)頁的每幅圖像進行識別,獲得識別結(jié)果為敏感的圖像數(shù)量M,獲得圖像識別結(jié)果為正常的圖像數(shù)量A^;離散文本識別的結(jié)果與上述圖像識別的結(jié)果融合,如果結(jié)果大于閾 值,則該網(wǎng)頁為敏感,否則為正常網(wǎng)頁。為了實現(xiàn)所述的目的,本發(fā)明的另一方面,提供一種基于多分類器 融合的敏感網(wǎng)頁過濾系統(tǒng),包括數(shù)據(jù)流的獲取與預(yù)處理單元,生成原 網(wǎng)頁的文本流和圖像流,并以此為依據(jù)將原網(wǎng)頁分為網(wǎng)頁樣式;圖像與 文本流過濾單元,針對不同網(wǎng)頁樣式,使用相應(yīng)的分類器對文本和圖像 進行識別;圖像過濾器與文本過濾器的信息融合單元,針對混合型網(wǎng)頁 樣式,通過融合結(jié)合圖像過濾器與文本過濾器,得到最終是否為敏感類 的識別結(jié)果。本發(fā)明利用了微軟提供的基于正內(nèi)核的瀏覽器核心控件完成了數(shù)據(jù) 分流傳遞,利用多分類器協(xié)作完成智能識別,利用網(wǎng)絡(luò)導(dǎo)航技術(shù)完成了 過濾器與瀏覽器的數(shù)據(jù)交互,解決了對網(wǎng)絡(luò)上敏感信息訪問的嚴(yán)格控制 問題。本發(fā)明系統(tǒng)處理時間較快,單幅網(wǎng)頁處理時間小于10秒,處理結(jié) 果的準(zhǔn)確率也可以達到80%以上。因而在網(wǎng)絡(luò)信息安全領(lǐng)域有很好的應(yīng)用 前景。


圖1示出三種網(wǎng)頁樣式與分類器的分配關(guān)系圖2(a)gif訓(xùn)練集有效/無效圖像尺寸分布,圖2 (b) jpg訓(xùn)練集有效/無效圖像分布圖3是本發(fā)明多分類器敏感網(wǎng)頁識別方法總體框4是本發(fā)明多分類器敏感網(wǎng)頁識別系統(tǒng)框圖具體實施方式
下面將結(jié)合附圖對本發(fā)明加以詳細說明,應(yīng)指出的是,所描述的實 施例僅旨在便于對本發(fā)明的理解,而對其不起任何限定作用。如圖4本發(fā)明基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng)所示,包括數(shù) 據(jù)流的獲取與預(yù)處理單元1,生竭原網(wǎng)頁的文本流和圖像流,并以此為依 據(jù)將原網(wǎng)頁分為網(wǎng)頁樣式;圖像與文本流過濾單元2,針對不同網(wǎng)頁樣式, 使用相應(yīng)的分類器對文本和圖像進行識別;圖像過濾器與文本過濾器的信息融合單元3,針對混合型網(wǎng)頁樣式,通過融合公式結(jié)合圖像過濾器與 文本過濾器,得到最終是否為敏感類的識別結(jié)果。綜上所述,數(shù)據(jù)流的獲取與預(yù)處理單元1將網(wǎng)頁解析得到文本與圖像流,利用C4. 5算法將網(wǎng) 頁歸為網(wǎng)頁樣式;圖像與文本流過濾單元2針對數(shù)據(jù)流的獲取與預(yù)處理 單元1劃分的不同網(wǎng)頁樣式,使用相對應(yīng)的分類器識別處理數(shù)據(jù)流的獲 取與預(yù)處理單元1中解析產(chǎn)生的文本和圖像流;圖像過濾器與文本過濾 器的信息融合單元3針對處理圖像與文本流過濾單元2中處理的混合型 網(wǎng)頁,將圖像與文本流過濾單元2產(chǎn)生的文本與圖像分類結(jié)果代入融合 公式,得到綜合識別結(jié)果。識別完畢。本發(fā)明已于微軟windows XP平臺,VC6.0, VC.Net編程環(huán)境下以微 軟正瀏覽器插件的方式實現(xiàn),經(jīng)實驗可正確運行于個人電腦及電腦終端 上。在本發(fā)明方法中,基于對web的分析,把web網(wǎng)頁分為三類。如圖 1示出三種網(wǎng)頁樣式與分類器的分配關(guān)系所示第一類為以文本為主的網(wǎng) 頁,其中文本多為文章性質(zhì)的文本,例如小說,新聞,人物傳記等,其特 點是上下文之間有較強的語義關(guān)聯(lián),有豐富的語義信息可以利用。該類 型網(wǎng)頁通常包含有一篇或者幾篇文章。第二類是指以圖像為主的網(wǎng)頁, 網(wǎng)頁里主要呈現(xiàn)的是圖像信息,附加有少量的分散文本,起輔助說明作 用。這類型的網(wǎng)頁主要以圖庫的形式呈現(xiàn)。第三類也是最普遍的網(wǎng)頁樣 式是文字和圖像混合的網(wǎng)頁,其中的文本也是分塊分散出現(xiàn)的,主要起 著鏈接或者說明作用,,此外網(wǎng)頁中包含多幅圖像以豐富網(wǎng)頁的內(nèi)容,這 種樣式的網(wǎng)頁主要有一些著名門戶網(wǎng)站的首頁和電子公告牌(BBS)?;陬A(yù)處理提供信息,包括網(wǎng)頁URL,網(wǎng)頁中文本長度,網(wǎng)頁中圖 像基于像素量的分級等作為屬性集合,利用決策樹學(xué)習(xí)中的C4.5算法將 輸入網(wǎng)頁分為如上定義的三種樣式。然后對三種類型的網(wǎng)頁使用相對應(yīng) 的分類器實行分而治之的策略。 .對于第一種樣式的網(wǎng)頁(以文本為主),運用細胞神經(jīng)網(wǎng)絡(luò)C麗處理, C,與其他神經(jīng)網(wǎng)絡(luò)最大的區(qū)別在于信息只在相鄰單元之間交換,而全局 信息的處理則通過局部信息的交互來實現(xiàn)。細胞神經(jīng)網(wǎng)絡(luò)可以是任意維 的,但最常見的是一維或者二維。在一維細胞神經(jīng)網(wǎng)絡(luò)中,最常見的連接方式是每個細胞與周圍2r+l個細胞(包括它自己)相連。在二維網(wǎng)絡(luò)中 最常見的連接方式是Von Neumann連接與Moore連接,其每個細胞只與 其Von Neumann和Moore鄰域中的細胞相連。對一個細胞單元狀態(tài)的形 式化描述為x(/ +1) = g(;c(O) + /(/) + / (,(/)) + /2 = /(柳其中x為細胞的內(nèi)部狀態(tài),^是它的輸出,"是外部輸入,/是偏差, 乂和/2是兩個函數(shù)。為了構(gòu)建敏感詞匯網(wǎng)絡(luò),首先把傳統(tǒng)意義上的關(guān)鍵詞分為三類(1)顯式關(guān)鍵字;(2)隱式關(guān)鍵字(3)邏輯關(guān)鍵字;其中,顯式關(guān)鍵字決定了邏輯關(guān)鍵字,同時顯式關(guān)鍵字和隱式關(guān)鍵 字之間也存在內(nèi)在的聯(lián)系。利用三者之間的關(guān)系,可以構(gòu)造我們的聯(lián)想 反饋網(wǎng)絡(luò)。為了利用細胞神經(jīng)網(wǎng)絡(luò),我們定義一個節(jié)點為一個詞匯,另外這個詞匯有三個狀態(tài)沉寂態(tài),隱藏態(tài)和激發(fā)態(tài)。節(jié)點與節(jié)點之間按照語義關(guān) 聯(lián)進行連接,計算規(guī)則是 一旦一個節(jié)點結(jié)束到一個刺激或者輸入,那 么根據(jù)該節(jié)點以往的狀態(tài)和周圍節(jié)點的狀態(tài)以及連接所代表的語義規(guī)則 來確定該節(jié)點的下一個狀態(tài)。沉寂態(tài)定義為節(jié)點還未接受一個輸入是的狀態(tài);隱藏態(tài)定義為節(jié)點 已經(jīng)接受輸入,但其參數(shù)以及周圍節(jié)點的參數(shù)未能夠達到其激發(fā)條件; 激發(fā)態(tài)定義為節(jié)點接受了輸入并且收到了激發(fā)。 一旦一個節(jié)點被激發(fā),那 么我們就統(tǒng)計該節(jié)點出現(xiàn)的次數(shù),最后所有激發(fā)節(jié)點的次數(shù)作為一個向量來進行訓(xùn)練和預(yù)測。選用支持向量機(Support Vector Machine,簡稱 SVM)作為分類器,對上述向量形成的特征進行訓(xùn)練和分類,根據(jù)SVM輸 出來決定該網(wǎng)頁是否是敏感網(wǎng)頁。對于第二種樣式的網(wǎng)頁(以圖像為主),則提取網(wǎng)頁中有效圖像集合 利用圖像分類器進行集合識別,如果判別為敏感的圖像數(shù)目超過預(yù)定閾 值,則將該網(wǎng)頁判別為敏感。10對于第三種樣式的網(wǎng)頁(混合型),首先根據(jù)尺寸來獲取網(wǎng)頁里面的有 效圖像集合,然后利用圖像分類器對圖像一一進行識別,識別的結(jié)果為 (TV,, W),其中A^為識別結(jié)果為敏感的圖像個數(shù),A^為識別結(jié)果為正常的 圖像個數(shù)。同時把網(wǎng)頁里面的文本當(dāng)成圖像是否為敏感的先驗,使用針對離散文本的Bayes分類器對文本進行判別,輸出結(jié)果為P,。然后將各分類器的三個輸出參數(shù)^, w,《代入融合公式,得到一個判別因子/;通過該因子,與預(yù)定閾值相比較來判斷該網(wǎng)頁是否是敏感網(wǎng)頁。如圖3是本發(fā)明多分類器敏感網(wǎng)頁識別方法總體流程圖所示,具體地 包括如下步驟l)獲取給定的目標(biāo)網(wǎng)頁統(tǒng)一資源定位符URL的源代碼,分離 出源碼中的中文文本?;赪3C上關(guān)于Html和XML的相關(guān)文檔,然后針對解析的難點 對源解析程序進行了改進。嚴(yán)格來說,Html文檔是一種完全的樹形結(jié)構(gòu), 但是標(biāo)準(zhǔn)中對一些標(biāo)記的寬松規(guī)定使得實際的文檔可以不以嚴(yán)格的層次 結(jié)構(gòu)出現(xiàn)。首先獲取目標(biāo)網(wǎng)頁的超文本標(biāo)示語言Html源代碼,之后對 Html文檔進行解析,這個解析過程分為3個子步驟(1) 文檔的元素分析,生成節(jié)點序列;(2) 元素序列的結(jié)構(gòu)/語法分析,生成初始的Html樹;(3) Html樹重構(gòu)?;谏傻腍tml樹中各種tag標(biāo)記間包含的文本 內(nèi)容,將其分離出來作為源碼中的中文文本流。步驟2)獲取源代碼中圖像的尺寸大小和位置信息,根據(jù)相關(guān)規(guī)則剔 除掉部分圖像,獲得有效圖像集合。處理圖像的開銷很大,如果網(wǎng)頁中大部分都是無效圖片的話,會對 系統(tǒng)性能造成很大影響。我們圖片尺寸放在第一位,因為HTML標(biāo)準(zhǔn)支 持網(wǎng)頁中包含圖片時就指定它的尺寸,因此可以僅從HTML文件本身就 忽略掉無效圖片,而根本不需要另外下載它們。這同時也減少了網(wǎng)絡(luò)開 銷,總的來說,從網(wǎng)絡(luò)上下載一幅圖片要比分析它更加耗時。網(wǎng)頁通常都包含了相當(dāng)數(shù)量的圖像。 一般來說, 一個圖文并茂的網(wǎng) 頁,可能包含幾十甚至上百幅圖像。但憑人的主觀估計,雖然這個網(wǎng)頁 包含圖片較多,但數(shù)量應(yīng)該在幾十幅左右。實際統(tǒng)計的圖片數(shù)和主觀感受差別很大是因為圖片中有很多完全是為了網(wǎng)頁框架需要起裝飾作用 的,還有些由于包含信息太少,或是在網(wǎng)頁中的位置問題,根本不會引 起人的注意。而實際需要識別則是里面有效圖像集合,這種有效性表現(xiàn) 在兩個方面, 一是圖像尺寸,二是圖像位置,用來識別目標(biāo)網(wǎng)頁的整體 內(nèi)容。如附圖2所示,橫坐標(biāo)和縱坐標(biāo)分別為圖像的寬度和高度,坐標(biāo) 采用對數(shù)式。在這種狀態(tài)下,很明顯可以看出有效圖像的聚類特征。我 們就根據(jù)這個特征編制分類策略。圖像出現(xiàn)的位置是另外一個重要的指 標(biāo),在上文中已經(jīng)詳細討論過網(wǎng)頁結(jié)構(gòu)特征對網(wǎng)頁元素的影響。相應(yīng)的, 處于網(wǎng)頁核心位置的圖片其有效性應(yīng)大于處在角落位置的圖片。最后依 據(jù)以上規(guī)則提取出網(wǎng)頁中有效圖像集合作為圖像流。3)依據(jù)步驟l)和步驟2)中提取出的網(wǎng)頁中的中文文本和有效圖像集 合,構(gòu)成屬性集合,以這些屬性集合為基礎(chǔ),將其代入C4.5決策樹算法 的學(xué)習(xí)公式,得到?jīng)Q策規(guī)則。之后只要將目標(biāo)網(wǎng)頁的文本和圖像的屬性 集合參照形成的決策規(guī)則分類,就可以將該網(wǎng)頁自動分為三種樣式中的 一種以文本為主的網(wǎng)頁,以圖像為主的網(wǎng)頁,混合型的網(wǎng)頁。C4.5算 法的決策規(guī)則形成公式如下C是分類的數(shù)目(在我們的系統(tǒng)中分類數(shù)為3), ^D,力是在數(shù)據(jù)集o中屬于類別y的那部分的比例。那么可以按照如下公式定義信息熵 /"/o(D):<formula>formula see original document page 12</formula>給定一個有^個值的屬性集合r,那么D,就相應(yīng)代表數(shù)據(jù)集D中在屬 性r上取值為/的那部分?jǐn)?shù)據(jù)所形成的子集,之后可以按照如下公式定義出在屬性集T和數(shù)據(jù)集D上依據(jù)T的不同取值而產(chǎn)生的信息增益<formula>formula see original document page 12</formula> (2)C4.5算法依據(jù)信息增益,每次選取帶有最大信息增益的那個屬性作 為分裂結(jié)點形成決策樹(決策規(guī)則),以后的分類只要按照這個已經(jīng)形成的 規(guī)則來就可以了。本發(fā)明中利用的網(wǎng)頁屬性集如下表所示網(wǎng)頁URL,網(wǎng)頁中文本長 度,網(wǎng)頁中圖像基于像素量的分級。屬性集描述是否為首頁性質(zhì)是否在網(wǎng)頁的URL中包含 有表示首頁性質(zhì)的關(guān)鍵詞 (例如"main " 或者 "index")一般文本的長度網(wǎng)頁中一般文本的字符數(shù)超文本的長度網(wǎng)頁中超文本的字符數(shù)大圖像的數(shù)目像素值超過50,000個像素 的圖像數(shù)目中等圖像數(shù)目像素值在10, 000和50, 000 個像素之間的圖像數(shù)目小圖像數(shù)目像素值低于10, 000個像素 的圖像數(shù)目步驟4)利用連續(xù)敏感文本分類器對按照步驟3)分類為以文本為主的 網(wǎng)頁中的文本進行識別,識別結(jié)果為l,該網(wǎng)頁為敏感,則退出。并給出了描述性的定義。第一類是顯式關(guān)鍵詞,這類關(guān)鍵詞基本上只 可能出現(xiàn)在敏感文本里面,從統(tǒng)計上來說就是出現(xiàn)在敏感文本里面的概 率很大(接近于1),而出現(xiàn)在正常文本里面的概率很小(接近于O)。從語義 上來說,這些詞本身就攜帶著敏感信息。第二類是隱式關(guān)鍵詞,這類關(guān) 鍵詞本來不攜帶任何的敏感信息。但由于某種原因,這類詞于敏感文本 產(chǎn)生了固定的聯(lián)系,也就是說,這些詞在敏感文本里面也是以很大的概率出現(xiàn),當(dāng)然也會在其它文本里面出現(xiàn)。第三類式邏輯關(guān)鍵詞,這類關(guān) 鍵詞分為兩類 一類是多義詞,即這類關(guān)鍵詞在正常文本里面意義正常, 可是在敏感文本里面攜帶敏感信息;另外一類關(guān)鍵詞主要是在于一定的 詞搭配起來之后,共同攜帶著敏感信息。而這種搭配,我們可以分為兩 種, 一種是顯式加邏輯, 一種是邏輯加邏輯?;谏鲜龆x,選取了關(guān) 鍵詞集合,同時構(gòu)建了語義規(guī)則來描述詞匯之間的語義關(guān)聯(lián),幫助正確 的提取特征信息。提出之后的特征經(jīng)過歸一化之后,作為該連續(xù)文本的特征向量。選用支持向量機(Support Vector Machine,簡稱SVM)作為分類 器,對特征進行訓(xùn)練和分類,根據(jù)SVM輸出來決定該網(wǎng)頁是否是敏感網(wǎng)頁。步驟5)利用敏感圖像分類器對按照步驟3)分類為以圖像為主的網(wǎng)頁 中的有效圖像集合進行識別,將圖像分類器判別為敏感的那部分圖像數(shù) 目和預(yù)定閾值進行比較,依據(jù)該項來決定該網(wǎng)頁是否是敏感網(wǎng)頁,如果 判別為敏感的圖像數(shù)目超過了閾值則將該網(wǎng)頁判別為敏感。步驟6)利用離散文本分類器和敏感圖像分類器的融合算法對按照步 驟3)分類為混合型(即包含大量圖像又包含一定數(shù)量的文本)的網(wǎng)頁中進 行融合識別,首先人工構(gòu)建一個關(guān)鍵詞列表,對網(wǎng)頁里的文本統(tǒng)計關(guān)鍵詞 后,歸一化后作為離散敏感文本的特征向量輸入到訓(xùn)練好的Bayes網(wǎng)絡(luò) 里面,通過離散文本分類器對中文文本進行識別,并獲得離散文本分類 因子,具體算法描述如下首先定義r = Uj2,..., Vl}作為類別Qi的訓(xùn)練集 ,}作為類別; 作為關(guān)鍵詞集合。此外,定義W(w,f,)作為在文檔《中關(guān)鍵詞W出現(xiàn)的次數(shù),也就是PT的詞 頻。然后計算出概率P(叫C》,這個概率表示關(guān)鍵詞W和一個類別。的相 關(guān)聯(lián)程度的大小<formula>formula see original document page 14</formula>在處理目標(biāo)文本/,時,計算概率p(。lo作為離散文本分類器因子,這個概率表示目標(biāo)文本。屬于一個類別q的可能性到底有多大,其中需要利用上面提到的概率尸(wlC》。這里使用了一個Bayes獨立性假設(shè): p(w,,mv..wj。 = ]1p(w,|。。即隱式得表達了在第三類混合型的網(wǎng)頁中文本 關(guān)鍵詞之間的堪義聯(lián)系并不是很緊密,可以視為獨立分散存在。p(C卞,)一尸(c臉(喝)D(c》rOic廣'" (4)對于第三類型的網(wǎng)頁,根據(jù)尺寸來獲取網(wǎng)頁里面的部分符合要求的圖 像,然后利用圖像分類器對圖像一一進行識別,識別的結(jié)果為(w,, w),其 中y為識別結(jié)果為敏感的圖正常的圖像個數(shù),w為識別結(jié)果為像個數(shù)。同 時把網(wǎng)頁里面的文本當(dāng)成圖像是否為敏感的先驗,使用針對離散文本的Bayes分類器對文本進行判別,即上面提到的離散文本分類器因子,記為 《。利用兩個參數(shù)來描述圖像分類器《表示把一副正常圖像誤分為敏感 圖像的概率,^表示把一副敏感圖像誤分為正常圖像的概率。三個參數(shù)代 入如下公式7V(1-A,1-尸, ()得到一個判別因子/;通過該因子,與預(yù)定閾值相比較來判斷該網(wǎng)頁 是否是敏感網(wǎng)頁。步驟7)將最終的敏感判別結(jié)果返回給web瀏覽器,結(jié)果為敏感則在 客戶端阻止該網(wǎng)頁的顯示,結(jié)果為非敏感則正常顯示。以上所述,僅為本發(fā)明中的具體實施方式
,但本發(fā)明的保護范圍并 不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理 解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā) 明的保護范圍應(yīng)該以權(quán)利要求書的保護范圍為準(zhǔn)。
權(quán)利要求
1. 一種基于多分類器融合的敏感網(wǎng)頁過濾方法,包括步驟步驟S1獲取目標(biāo)網(wǎng)頁統(tǒng)一資源定位符的源代碼,進行預(yù)處理,用于獲取中文文本信息,獲取網(wǎng)頁中有效圖像集合信息;步驟S2基于預(yù)處理提供信息,利用決策樹學(xué)習(xí)中的C4.5算法將輸入網(wǎng)頁中文文本和有效圖像生成文本、圖像及文本與圖像的混合網(wǎng)頁樣式,用于獲得文本流、圖像流和文本與圖像混合流信息;步驟S3利用多分類器識別與網(wǎng)頁樣式的指定分配關(guān)系,獲得目標(biāo)網(wǎng)頁;步驟S4根據(jù)識別結(jié)果綜合判斷目標(biāo)網(wǎng)頁是否敏感,如果敏感,則執(zhí)行步驟5,如果不敏感,則執(zhí)行步驟6;步驟S5將識別的敏感網(wǎng)頁送入Web瀏覽器,并在瀏覽器中警示用戶所瀏覽網(wǎng)頁含有敏感內(nèi)容,瀏覽被禁止;步驟S6在Web瀏覽器中正常顯示原網(wǎng)頁。
2、 按權(quán)利要求l所述的方法,其特征在于,所述分類器識別包括利用連續(xù)敏感文本分類器對以文本為主的網(wǎng)頁樣式進行識別、利用敏感 圖像分類器器對以圖像為主的網(wǎng)頁樣式中的圖像集合進行識別和對混合 型網(wǎng)頁樣式則利用離散敏感文本分類器和敏感圖像分類器融合進行識 別。
3、 按權(quán)利要求l所述的方法,其特征在于,所述獲取網(wǎng)頁中有效圖 像步驟包括步驟11:在預(yù)處理階段通過解析網(wǎng)頁超文本標(biāo)示語言代碼,獲取該 網(wǎng)頁所包含每幅圖像的尺寸和位置信息,用于識別目標(biāo)網(wǎng)頁的整體內(nèi)容;步驟12:如果尺寸信息和位置信息符合事先統(tǒng)計好的規(guī)則,則將該圖 像劃分至有效圖像集合中。
4、 按權(quán)利要求l所述的方法,其特征在于,所述決策樹C4.5算法將輸入網(wǎng)頁生成網(wǎng)頁樣式的步驟包括步驟21:計算屬性集中網(wǎng)頁統(tǒng)一資源定位符、網(wǎng)頁中文本長度和網(wǎng) 頁中圖像基于像素量的分級,得到信息熵和分類前后信息熵的增益變化;步驟22:將信息熵增益作為分類尺度,給出分類依據(jù),即取最大的 信息熵增益的屬性集劃分為最終決策;步驟23:重復(fù)步驟22直到所有屬性集都被劃分,從而形成決策樹和 分類規(guī)則。
5、 按權(quán)利要求2所述的方法,其特征在于,利用連續(xù)敏感文本分類 器對以文字為主的網(wǎng)頁進行識別步驟包括步驟1):用細胞神經(jīng)網(wǎng)絡(luò)定義N維離散空間上的大型并行計算網(wǎng)絡(luò), 將網(wǎng)絡(luò)上的一個節(jié)點作為一個關(guān)鍵詞,將節(jié)點之間的連接描述,用于生 成文本中詞匯之間的語義關(guān)系;步驟2):利用文本中詞匯之間的語義關(guān)系,將節(jié)點之間相互的抑制 與激活,用于取得節(jié)點的激活次數(shù)作為文本的統(tǒng)計特征;步驟3):以統(tǒng)計特征作為輸入,選用支持向量機作為訓(xùn)練以及預(yù)測 的分類器,對預(yù)處理網(wǎng)頁中得到的文本進行分類,得到分類結(jié)果。
6、 按權(quán)利要求2所述的方法,其特征在于,利用離散敏感文本分類 器對混合型的網(wǎng)頁中文字進行識別首先利用向量空間模型提取離散敏感文本的特征;把離散敏感文本特征輸入到已經(jīng)訓(xùn)練好的貝葉斯網(wǎng)絡(luò)中,輸出的結(jié) 果為該文本輸入敏感的概率值,如果該概率值大于閾值,則得到該文本為 敏感分類結(jié)果。
7、 按權(quán)利要求1所述的方法,其特征在于,對混合型網(wǎng)頁的圖像識別 與文字識別的信息融合步驟包括-.首先利用圖像識別器對混合型網(wǎng)頁的每幅圖像進行識別,獲得識別 結(jié)果為敏感的圖像數(shù)量W,,獲得圖像識別結(jié)果為正常的圖像數(shù)量A^;離散文本識別的結(jié)果與上述圖像識別的結(jié)果融合,如果結(jié)果大于閾 值,則該網(wǎng)頁為敏感,否則為正常網(wǎng)頁。
8、 一種基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng),其特征在于 數(shù)據(jù)流的獲取與預(yù)處理單元(1),生成原網(wǎng)頁的文本流和圖像流,并以此為依據(jù)將原網(wǎng)頁分為網(wǎng)頁樣式;圖像與文本流過濾單元(2),針對不同網(wǎng)頁樣式,使用相應(yīng)的分類 器對文本和圖像進行識別;圖像過濾器與文本過濾器的信息融合單元(3),針對混合型網(wǎng)頁樣 式,通過融合結(jié)合圖像過濾器與文本過濾器,得到最終是否為敏感類的 識別結(jié)果。
全文摘要
本發(fā)明公開基于多分類器融合的敏感網(wǎng)頁過濾系統(tǒng)及方法,處理對象是一幅網(wǎng)頁,其處理結(jié)果是該網(wǎng)頁是否包含敏感內(nèi)容,此處的敏感可以定義為色情,反動,暴力等危害社會的不健康互聯(lián)網(wǎng)內(nèi)容。系統(tǒng)包括數(shù)據(jù)流的獲取與預(yù)處理單元、圖像與文本流過濾單元、圖像過濾器與文本過濾器的信息融合單元,系統(tǒng)基于多個分類器的協(xié)作,在給定網(wǎng)頁的統(tǒng)一資源定位器的條件下,獲取該網(wǎng)頁的源代碼,在預(yù)處理階段進行文本和圖像的分流,獲取文本信息和有效圖像信息;利用決策樹算法將輸入網(wǎng)頁分為三種樣式;利用連續(xù)文本分類器、離散敏感文本分類器和圖像分類器對網(wǎng)頁進行識別,根據(jù)各分類器識別的輸出結(jié)果進行融合計算,給出判別因子,將最終結(jié)果返回給瀏覽器。
文檔編號G06K9/62GK101281521SQ20071006518
公開日2008年10月8日 申請日期2007年4月5日 優(yōu)先權(quán)日2007年4月5日
發(fā)明者偶 吳, 朱明亮, 胡衛(wèi)明, 陳周耀 申請人:中國科學(xué)院自動化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1