專利名稱:基于多層特征的不良圖像自動(dòng)過(guò)濾方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)圖像處理技術(shù)領(lǐng)域,涉及一種基于多層特征的不良圖像自動(dòng)過(guò) 濾方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,人們通過(guò)網(wǎng)絡(luò)獲取、發(fā)布、傳播信息使得互聯(lián)網(wǎng)上的文字、圖 像、視頻等各種形式的信息急劇增長(zhǎng)。由于網(wǎng)絡(luò)信息發(fā)布缺少有效的監(jiān)督機(jī)制,大量的色 情、暴力、反動(dòng)等不良信息被發(fā)布到互聯(lián)網(wǎng)上,影響了和諧網(wǎng)絡(luò)環(huán)境的構(gòu)建。不良圖像作為 不良信息的一種,嚴(yán)重破壞了健康的網(wǎng)絡(luò)環(huán)境。為此研究者們提出了多種不良圖像過(guò)濾技 術(shù),其中以基于內(nèi)容分析的過(guò)濾方法最為流行。然而,基于內(nèi)容的不良圖像過(guò)濾技術(shù)目前仍 存在膚色建模不夠準(zhǔn)確、特征提取不夠完備、分類器性能不佳等缺點(diǎn)?;趦?nèi)容的過(guò)濾方法根據(jù)圖像的內(nèi)容特征實(shí)現(xiàn)自動(dòng)分類并過(guò)濾。近年來(lái),已有很 多研究機(jī)構(gòu)開(kāi)展了這方面的研究工作,提出了一些方法,而且取得了一定的效果。這些方法 主要分為兩類基于人體組合的過(guò)濾方法和基于特征提取和機(jī)器學(xué)習(xí)的過(guò)濾方法。第一種 方法利用人體幾何約束,按照一定規(guī)則,先提取有效肢體部件,再?gòu)闹w部件按照幾何約束 識(shí)別人體。此方法檢測(cè)的對(duì)象僅限于包含人體較為完整的圖像,對(duì)于人體部分遮擋或者多 人擁擠的圖像檢測(cè)能力有限,對(duì)人體姿勢(shì)、形狀在圖像中較為復(fù)雜或則非正?;瘯r(shí)更難于 檢測(cè)。此方法過(guò)分依賴于人體各部件的約束關(guān)系以及幾何分析,對(duì)于約束關(guān)系尚不能復(fù)雜 到描述人體姿勢(shì)的多變以及遮擋的情況。第二種方法多數(shù)都是通過(guò)構(gòu)建特征向量,并利用 機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器。這種方法具有適應(yīng)多數(shù)樣本的能力,檢測(cè)速度更快,但缺點(diǎn)也 很明顯,其分類器的性能取決于提取的特征以及分類器本身的分類能力。因此,使用這種方 法必須考慮更加完備的特征,并選擇合適的機(jī)器學(xué)習(xí)方法構(gòu)建分類器。
發(fā)明內(nèi)容
本發(fā)明的目的主要是針對(duì)當(dāng)前不良圖像過(guò)濾方法的準(zhǔn)確率不高,誤檢率較高、魯 棒性較差等不足,提出了具有較高魯棒性和較高準(zhǔn)確率的不良圖像過(guò)濾方法。本發(fā)明的不良圖像過(guò)濾方法包含更加完備的特征提取方法,人體軀干定位方法以 及多層過(guò)濾技術(shù)。特征提取利用基于RGB顏色空間的快速膚色模型進(jìn)行膚色檢測(cè),進(jìn)而提取膚色、 輪廓、空間分布、紋理特征。人體軀干定位方法主要有三種一種是基于頭肩檢測(cè),它使用離線訓(xùn)練模型檢測(cè) 頭肩區(qū)域進(jìn)而定位人體軀干;第二種是基于人臉檢測(cè)的定位方法;第三種是采用橢圓擬合 的方法定位人體軀干。本發(fā)明的多層過(guò)濾技術(shù)第一層采用二進(jìn)制分類樹(shù)過(guò)濾掉多數(shù)正常圖像;第二層 采用基于頭肩檢測(cè)的方法定位軀干,提取相關(guān)特征后,使用第三層的決策樹(shù)分類器進(jìn)行過(guò) 濾;第三層采用基于人臉檢測(cè)的方法定位軀干,提取相關(guān)特征后,使用第三層的決策樹(shù)分類器進(jìn)行過(guò)濾;第四層采用基于橢圓擬合的方法定位人體軀干,提取相關(guān)特征后,使用第四層 的二進(jìn)制分類樹(shù)進(jìn)行過(guò)濾。本發(fā)明的過(guò)濾方法包括如下步驟
步驟Sl 輸入圖像后對(duì)圖像進(jìn)行預(yù)處理,所述的預(yù)處理包括圖像的縮放處理和平滑處
理;
步驟S2 采用基于RGB顏色空間閾值方法構(gòu)建的膚色模型進(jìn)行膚色檢測(cè),獲得膚色掩 碼圖像;
步驟S3 提取圖像的膚色、紋理、空間分布特征作為第一層特征,然后采用第一層二進(jìn) 制分類樹(shù)將圖像分為正常和疑似兩種,其中疑似圖像需進(jìn)一步過(guò)濾;
步驟S4 對(duì)步驟S3未濾除的圖像進(jìn)行基于頭肩檢測(cè)的人體軀干定位,如果定位成功則 提取第二層特征,并采用第二層決策樹(shù)分類器將圖像分為正常和不良兩種;
步驟S5 對(duì)檢測(cè)不到頭肩的圖像采用人臉檢測(cè)方法定位軀干,提取第三層特征后采用 第三層的決策樹(shù)分類器將圖像分為正常和不良兩種;
步驟S6:對(duì)于檢測(cè)不到人臉的圖像,采用橢圓擬合方法定位人體軀干,提取第四層特 征然后采用第四層的二進(jìn)制分類樹(shù)將圖像分為正常和疑似兩種;
具體地,圖像預(yù)處理包括圖像的縮放處理、適當(dāng)?shù)钠交ピ?。圖像的縮放處理是在保證 圖像色彩不失真、主要特征不丟失的情況下,對(duì)超過(guò)一定大小的圖像進(jìn)行縮小處理,以加快 檢測(cè)速度。圖像一般都會(huì)由于各種原因受到一定程度的干擾和損害,從而使圖像中包含噪 聲信號(hào)。圖像平滑處理的目的就是為了減少和消除圖像中的噪聲,以改善圖像質(zhì)量,有利于 接下來(lái)的特征提取。具體地,基于RGB顏色空間閾值方法構(gòu)建的膚色模型。在分析現(xiàn)有膚色模型以及 適用場(chǎng)景的基礎(chǔ)上,根據(jù)膚色在RGB顏色空間中的分布特征,提出了適合本發(fā)明應(yīng)用背景 的快速膚色模型,此模型具有較高的膚色像素召回率,受光照及拍攝環(huán)境的變化影響較小, 而且應(yīng)用此模型檢測(cè)膚色的速度非???,能夠滿足于特征提取的時(shí)間復(fù)雜度要求。具體地,各層的特征提取。第一層特征包括圖像的膚色、紋理、空間分布特征;第二 層特征包括基于膚色掩碼圖像的全局特征、基于軀干信息的圖像局部特征、非膚色全局和 局部特征;第三層特征除基于膚色掩碼圖像的全局特征、非膚色全局特征、局部特征外還包 括人臉面積占圖像的比例、人臉與軀干的大小比例、人臉與軀干內(nèi)最大塊的比例;第四層特 征除基于膚色掩碼圖像的全局特征、非膚色全局和局部特征外,還包括橢圓的面積之和與 圖像面積比例、最大橢圓與圖像面積的比例、最大橢圓與其周圍橢圓的面積比例。具體地,基于膚色掩碼圖像的全局特征包括
①所有膚色像素占整幅圖像面積的比例;
②經(jīng)連通域分析后得到的各膚色塊面積和占整幅圖像面積的比例;
③最大獨(dú)立膚色塊的面積占膚色總面積的比例; 最大膚色塊輪廓的周長(zhǎng)和面積的比例; 最大膚色塊面積占其外接矩形的比例; 具體地,非膚色全局和局部特征包括
①圖像一階顏色矩、二階顏色矩,又分為上半部分、下半部分兩種顏色矩;
(|)膚色塊上的紋理特征提取,比如塊內(nèi)carmy邊緣點(diǎn)數(shù)占膚色面積的比例;
(|)整幅圖像的紋理特征提??; 具體地,基于軀干信息的圖像局部特征包括 ①人體軀干面積占圖像面積的比例;
(|)軀干內(nèi)部膚色像素總數(shù)占軀干面積的比例;
③軀干內(nèi)膚色最大塊占軀干面積的比例;
④軀干內(nèi)膚色最大塊的位置相對(duì)于軀干中心的位置偏移比例;
具體地,人體軀干定位是用來(lái)獲取軀干位置、大小信息的重要方法,通過(guò)軀干定位可以 更加準(zhǔn)確地提取特征,對(duì)于提高分類的準(zhǔn)確率有很重要的作用。本發(fā)明的人體軀干定位方 法分為如下三種
第一種是基于頭肩檢測(cè)技術(shù)的定位方法,此方法借鑒了行人檢測(cè)的相關(guān)技術(shù),通過(guò)提 取訓(xùn)練圖像的HOG特征,利用Adaboost和線性SVM結(jié)合的機(jī)器學(xué)習(xí)方法訓(xùn)練得到頭肩的級(jí) 聯(lián)分類器,并利用它進(jìn)行頭肩檢測(cè)定位人體軀干。第二種方法是采用基于Adaboost級(jí)聯(lián)器的快速人臉檢測(cè)方法檢測(cè)人臉,并利用 人臉的大小、位置信息以及圖像的長(zhǎng)寬比信息估計(jì)人體軀干的位置及大小。第三種方法是基于橢圓擬合的軀干定位方法,首先將圖像轉(zhuǎn)換為灰度圖像,然后 采用Carmy算子提取圖像的邊緣,接著進(jìn)行橢圓擬合,最后根據(jù)橢圓的大小、位置以及人體 各部分的組成關(guān)系去除噪聲。具體地,多層過(guò)濾技術(shù)如下
第一層二進(jìn)制分類樹(shù)根據(jù)第一層特征定義屬性集,并從屬性集中選擇具有最優(yōu)分類能 力的屬性組成分類樹(shù);第二層決策樹(shù)分類器使用C4. 5決策樹(shù)根據(jù)屬性的信息增益率選擇 屬性,訓(xùn)練得到一個(gè)由若干屬性組成的分類器;第三層的決策樹(shù)分類器訓(xùn)練方法與第二層 一樣,由于所提取的特征有較大差異,因此訓(xùn)練得到的分類器在結(jié)構(gòu)和屬性集上有很大不 同;第四層二進(jìn)制分類樹(shù)的生成方法跟第一層的相同,但屬性集不同。本發(fā)明相對(duì)于現(xiàn)有技術(shù)具有以下有益效果本發(fā)明方法的實(shí)現(xiàn)具有重要的應(yīng)用價(jià) 值,將為整治互聯(lián)網(wǎng)低俗之風(fēng)、凈化互聯(lián)網(wǎng)環(huán)境產(chǎn)生重大的促進(jìn)作用,保證網(wǎng)絡(luò)視頻、社交 網(wǎng)站等載有多媒體信息較多的互聯(lián)網(wǎng)產(chǎn)業(yè)健康、持續(xù)發(fā)展。
圖1表示了本發(fā)明不良圖像過(guò)濾方法從圖像輸入開(kāi)始至輸出檢測(cè)結(jié)果的流程圖。圖2表示本發(fā)明中第二層分類器所采用的二叉樹(shù)形分類器的結(jié)構(gòu)圖。圖3表示HOG積分圖。圖4表示用于頭肩檢測(cè)的級(jí)聯(lián)分類器。圖5 (a)表示實(shí)驗(yàn)原圖。圖5 (b)表示橢圓擬合的初步結(jié)果圖。圖5 (c)表示根據(jù)橢圓大小、長(zhǎng)短軸比等特征去噪后得到的擬合結(jié)果圖。
具體實(shí)施例方式下面將結(jié)合附圖對(duì)本發(fā)明加以詳細(xì)說(shuō)明,應(yīng)指出的是,所描述的實(shí)施例僅旨在便 于對(duì)本發(fā)明的理解,而對(duì)其不起任何限定作用。下面將參考附圖詳細(xì)介紹本發(fā)明的實(shí)施例。圖1是本發(fā)明過(guò)濾方法的流程圖,展示了圖像從輸入到檢測(cè)完畢的整個(gè)流程。1.圖1中的膚色檢測(cè)單元。具體技術(shù)方案是利用基于RGB顏色空間的閾值膚色模型進(jìn)行膚色檢測(cè)并獲得膚 色掩碼圖像。因?yàn)槟w色檢測(cè)的性能取決于膚色-非膚色的重疊程度,顏色空間的變換并影 響這一決定因素,RGB及線性顏色空間具有較好的可分離性和分類性能,是比較理想的一類 顏色空間。因此,本發(fā)明建立了基于RGB顏色空間的膚色模型,避免了顏色空間的轉(zhuǎn)換,通 過(guò)如下規(guī)則對(duì)膚色在R、G、B三維空間中的分布進(jìn)行了刻畫(huà)。規(guī)則一,單分量的約束R>40,G>55,B>66,三個(gè)條件必須同時(shí)滿足; 規(guī)則二,分量間的大小關(guān)系約束R>G,以召-」 認(rèn)兩個(gè)條件必須同時(shí)滿足; 規(guī)則三,分量間的差值約束Abs (R-G) +Abs (G-B) >20 ;
規(guī)則四,為抑制偏紅的顏色必須滿足R<2*G+10。如果某個(gè)像素點(diǎn)滿足上述四個(gè)規(guī)則的約束,則為膚色像素,否則為非膚色像素。2.圖1中的第一層分類器單元。采用第一層過(guò)濾目的是快速地過(guò)濾掉和不良圖像差異較大的圖像,我們選擇膚 色、紋理、空間分布特征作為第一層過(guò)濾算法的主特征,這些特征滿足同一類別的不同個(gè) 體之間特征值波動(dòng)較小,不同類別樣本特征值之間差異較大。利用這些特征通過(guò)構(gòu)建一個(gè) 二進(jìn)制分類樹(shù)實(shí)現(xiàn)第一層過(guò)濾。這種過(guò)濾方法實(shí)現(xiàn)簡(jiǎn)單,速度快能夠滿足第一層過(guò)濾的要 求。第一層選擇膚色像素點(diǎn)數(shù)占圖像總像素?cái)?shù)的比例,有效膚色塊占圖像大小的比 例,關(guān)鍵區(qū)域的膚色比例,紋理特征,所設(shè)計(jì)的第一層分類器要解決的是一個(gè)兩類問(wèn)題,即 判別當(dāng)前圖像是正?;蚴且伤?,這一層的工作是盡量去除那些正常圖像,然后將通過(guò)過(guò)濾 的疑似圖像送入后面幾層分類器進(jìn)行過(guò)濾。根據(jù)如圖2所示的二進(jìn)制分類樹(shù)能夠快速、準(zhǔn) 確地過(guò)濾掉大部分和不良圖像差異較大的圖像。其中,、(n=0, 1,2,3)分別表示第η次分類后的結(jié)果。Xx (η=0, 1,2,3)分別表
示各步驟所選用的特征,分別為膚色像素點(diǎn)數(shù)占圖像的比例特征,膚色塊內(nèi)的紋理特征特征,有效膚色塊的特征等等,^s (n=0, 1,2,3)為各特征的閾值。%和 2分別表示兩類結(jié)果, 正常和疑似。3.圖1中的基于頭肩檢測(cè)的軀干定位單元。對(duì)于不良圖像過(guò)濾來(lái)說(shuō),要想獲得較高的準(zhǔn)確率,膚色檢測(cè)是基礎(chǔ),軀干(除人臉 以外的部分)定位是關(guān)鍵,如果一幅圖像無(wú)法確定人體的存在與否以及人體的位置,對(duì)分類 來(lái)說(shuō)具有很大的困難。本發(fā)明在研究常用檢測(cè)方法之后,提出了合適的三種方法基于頭肩 檢測(cè)的定位方法、基于人臉檢測(cè)的定位方法、基于橢圓擬合的定位方法。其中基于頭肩檢測(cè) 的軀干定位方法借鑒了行人檢測(cè)的基于HOG特征的方法?;陬^肩檢測(cè)的定位方法的技術(shù)方案是首先使用Adaboost與線性SVM結(jié)合的方 法訓(xùn)練得到基于頭肩的人體級(jí)聯(lián)分類器,然后利用它對(duì)圖像進(jìn)行滑動(dòng)窗口進(jìn)行檢測(cè),來(lái)實(shí) 現(xiàn)人體軀干的定位。本發(fā)明還使用了如圖3所示的HOG積分圖來(lái)提高HOG特征提取的速度, 使用如圖4所示的級(jí)聯(lián)結(jié)構(gòu)來(lái)加快分類器的速度。訓(xùn)練級(jí)聯(lián)分類器的方法如下
訓(xùn)練樣本大小為64X 64像素,使用HOG特征時(shí)將塊大小定義為16 X 16像素,每個(gè)塊平 均分為2X2共4個(gè)單元,每個(gè)單元8X8像素,偏移步長(zhǎng)定義為8個(gè)像素,共可得到105個(gè) 塊,每個(gè)塊可生成36維的特征向量。采用大小變化的塊來(lái)提取HOG特征向量,在64X64的 窗口中我們定義的塊大小從16X16到64X64范圍內(nèi)變化,另有1 1、1 2、2 1三種不同的
長(zhǎng)寬比,滑動(dòng)步長(zhǎng){4,6,8}單位像素,如此總共定義了 2000多個(gè)塊,每個(gè)塊含2 X 2個(gè)單元,每
個(gè)單元對(duì)應(yīng)9個(gè)方向的梯度方向直方圖。每個(gè)塊對(duì)應(yīng)一個(gè)36維HOG特征向量,利用線性 SVM訓(xùn)練得到對(duì)應(yīng)的弱分類器。訓(xùn)練算法如下
1)Input 全局允許的誤檢率;
^ 級(jí)聯(lián)器中每一級(jí)所允許的最大誤檢率;
^aift :每一級(jí)所允許的最小檢出率; Pos 正樣本集即含頭肩的圖像; Afeg:負(fù)樣本集即不含頭肩的圖像;
2)初始化:i=0,Di =1. 0,F(xiàn)i =1. 0。Loop Pi > Ftmzet i=i+l;
:1· 0;
Loop Si > fmsn
1)訓(xùn)練若干線性SVM弱分類器根據(jù)正負(fù)樣本;
2)將選擇的“最優(yōu)”SVM分類器加入強(qiáng)分類器中,并更新權(quán)重;
3)根據(jù)最新的強(qiáng)分類器計(jì)算正樣本的檢出率和負(fù)樣本的誤檢率;
4)調(diào)整閾值使其達(dá)到^ttia要求;5)計(jì)算在此閾值下的Z
權(quán)利要求
1.基于多層特征的不良圖像自動(dòng)過(guò)濾方法,其特征在于該方法包括以下步驟 步驟Sl 輸入圖像后對(duì)圖像進(jìn)行預(yù)處理,所述的預(yù)處理包括圖像的縮放處理和平滑處理;步驟S2 采用基于RGB顏色空間閾值方法構(gòu)建的膚色模型進(jìn)行膚色檢測(cè),獲得膚色掩 碼圖像;所述的基于RGB顏色空間閾值方法構(gòu)建的膚色模型包括以下規(guī)則 規(guī)則一,單分量的約束滿足RMO且G>55且B>66 ;其中R表示紅色分量,G表示綠色 分量,B表示藍(lán)色分量;規(guī)則二,分量間的大小關(guān)系約束滿足R>G且G>B-20 ;規(guī)則三,分量間的差值約束Abs (R-G)+Abs (G-B)>20,其中Abs表示取絕對(duì)值運(yùn)算; 規(guī)則四,為抑制偏紅的顏色,滿足R<2XG+10 ;如果某個(gè)像素點(diǎn)滿足上述四個(gè)規(guī)則的約束,則為膚色像素,否則為非膚色像素; 步驟S3 提取圖像的膚色特征、紋理特征和空間分布特征作為第一層特征,然后采用 第一層二進(jìn)制分類樹(shù)將圖像分為正常和疑似兩種,對(duì)于正常圖像,則直接輸出分類結(jié)果并 結(jié)束;對(duì)于疑似圖像則繼續(xù)執(zhí)行;步驟S4:對(duì)該疑似圖像進(jìn)行基于頭肩檢測(cè)的人體軀干定位,如果定位成功,則提取第 二層特征,并采用第二層決策樹(shù)分類器將圖像分為正常和不良兩種,輸出分類結(jié)果并結(jié)束; 如果定位不成功,則執(zhí)行步驟S5 ;所述的基于頭肩檢測(cè)的人體軀干定位具體過(guò)程為通過(guò)提取訓(xùn)練圖像的梯度方向直方 圖特征,利用Adaboost算法和線性SVM算法結(jié)合的機(jī)器學(xué)習(xí)方法訓(xùn)練得到頭肩的級(jí)聯(lián)分類 器,并利用級(jí)聯(lián)分類器進(jìn)行頭肩檢測(cè)定位人體軀干;所述的第二層特征包括基于膚色掩碼圖像的全局特征、第一類基于人體的圖像局部特 征和其它非膚色特征;步驟S5:對(duì)定位不成功的圖像采用人臉檢測(cè)方法定位軀干,如果定位成功,則提取第 三層特征,然后采用第三層的決策樹(shù)分類器將圖像分為正常和不良兩種,輸出分類結(jié)果并 結(jié)束;如果定位不成功,則執(zhí)行步驟S6 ;所述的第三層特征包括基于膚色掩碼圖像的全局特征、第二類基于人體的圖像局部特 征和其它非膚色特征;所述的第三層的決策樹(shù)分類器,其訓(xùn)練方法與第二層決策樹(shù)分類器訓(xùn)練方法相同; 步驟S6:對(duì)定位不成功的圖像,采用橢圓擬合方法定位人體軀干,提取第四層特征然 后采用第四層的二進(jìn)制分類樹(shù)將圖像分為正常和疑似兩種,輸出分類結(jié)果并結(jié)束;所述的第四層特征包括基于膚色掩碼圖像的全局特征和基于橢圓擬合結(jié)果的特征; 所述的第四層二進(jìn)制分類樹(shù),其訓(xùn)練方法與第一層二進(jìn)制分類樹(shù)的訓(xùn)練方法相同。
全文摘要
本發(fā)明涉及一種基于多層特征的不良圖像自動(dòng)過(guò)濾方法?,F(xiàn)有的過(guò)濾方法效果不好。本發(fā)明首先對(duì)輸入圖像后對(duì)圖像進(jìn)行預(yù)處理,預(yù)處理后進(jìn)行膚色檢測(cè),獲得膚色掩碼圖像;其次提取圖像的第一層特征,采用第一層二進(jìn)制分類樹(shù)將圖像分類,對(duì)于疑似圖像進(jìn)行軀干定位,輸出分類結(jié)果;然后對(duì)定位不成功的圖像采用人臉檢測(cè)方法定位軀干,如果定位成功,則提取第三層特征,采用決策樹(shù)分類器將圖像輸出;對(duì)定位不成功的圖像,采用橢圓擬合方法定位人體軀干,提取特征后采用二進(jìn)制分類樹(shù)將圖像輸出分類結(jié)果并結(jié)束。本發(fā)明保證網(wǎng)絡(luò)視頻、社交網(wǎng)站等載有多媒體信息較多的互聯(lián)網(wǎng)產(chǎn)業(yè)健康、持續(xù)發(fā)展。
文檔編號(hào)G06K9/66GK102117413SQ20111004828
公開(kāi)日2011年7月6日 申請(qǐng)日期2011年3月1日 優(yōu)先權(quán)日2011年3月1日
發(fā)明者嚴(yán)俊杰, 傅政軍, 吳海虹, 周建政, 周渝清, 姚金良, 明建華, 王小華, 王榮波, 諶志群 申請(qǐng)人:天格科技(杭州)有限公司, 金華就約我吧網(wǎng)絡(luò)科技有限公司