基于隱含主題分析的不良圖像檢測(cè)方法

文檔序號(hào)：6343974閱讀：286來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于隱含主題分析的不良圖像檢測(cè)方法
技術(shù)領(lǐng)域：
本發(fā)明屬于計(jì)算機(jī)視覺與模式識(shí)別的交叉領(lǐng)域，特別涉及基于隱含主題分析的不良圖像語義分類方法，可用于過濾圖像中的色情信息。
背景技術(shù)：
隨著20世紀(jì)90年代互聯(lián)網(wǎng)的蓬勃興起，網(wǎng)絡(luò)上的各種信息飛速增長和傳播。特別是隨著3G時(shí)代的來臨以及融合網(wǎng)絡(luò)概念的提出，圖像以彩信、手機(jī)視頻流等為載體在即時(shí)通信領(lǐng)域中高速傳播，其中包含大量的淫穢色情等不良信息。大量不良信息的傳播對(duì)人們身心健康產(chǎn)生不利影響，因此，提出一種先進(jìn)的不良信息過濾方法具有深遠(yuǎn)意義。對(duì)于不良信息過濾，如何正確完成不良信息的檢測(cè)成為關(guān)鍵，不良信息檢測(cè)任務(wù)包含如下兩步圖像鑒別性信息提取與描述；圖像隱含語義主題分析與分類。下面分別從這兩個(gè)方面的研究現(xiàn)狀、發(fā)展動(dòng)態(tài)及其在不良圖像信息檢測(cè)中的應(yīng)用進(jìn)行綜述與分析。(1)圖像鑒別性信息提取與描述不良圖像中通常裸露大量的皮膚區(qū)域和人體隱私器官，因此，首先需要檢測(cè)皮膚區(qū)域，然后提取皮膚區(qū)域內(nèi)的有鑒別性能的特征點(diǎn)。早期的不良圖像信息檢測(cè)忽略了人體膚色區(qū)域內(nèi)特征的代表性，而僅用膚色作為判別的線索，如Fleck等提出的“Finding Naked People. Proceedings of the European Conference of Computer Vision. 1996，2: 593-602. ”方法。膚色描述需要合適的色彩空間。研究表明在YCb(；色彩空間中的Cb(；色度分量上，人類皮膚區(qū)域具有良好的聚類特性?？紤]到人種、光照色偏等因素對(duì)膚色范圍的影響，研究人員常采用高斯混合模型GMM統(tǒng)計(jì)出膚色的分布情況。(2)圖像隱含語義主題分析與分類目前，大部分不良信息檢測(cè)方法不考慮圖像所隱含的語義信息，導(dǎo)致包含大量類膚色區(qū)域的自然圖像或者裸露的人體正常區(qū)域被判斷成不良信息。因此，如何根據(jù)圖像的語義特征來有效區(qū)分圖像性質(zhì)是提高不良信息檢測(cè)技術(shù)的關(guān)鍵。為分析圖像的語義內(nèi)容，受基于文本隱含主題分析方法的啟發(fā)，以隱含狄利克雷分配LDA模型為代表的主題模型被計(jì)算機(jī)視覺研究人員用來表征圖像的語義。LDA模型以詞袋模型為基礎(chǔ)，即將圖像看作一組視覺單詞的組合，視覺單詞之間無順序關(guān)系。詞袋模型包括三個(gè)步驟特征檢測(cè)、特征描述和碼本生成。特征通常用高斯差分算子來檢測(cè)；由于SIFT (Scale invariant feature transformation)描述子具有尺度、旋轉(zhuǎn)和仿射等不變性，通常用于描述特征；最后，對(duì)訓(xùn)練圖像的描述進(jìn)行K-均值聚類得到圖像的碼本。對(duì)圖像首先用高斯差分算子提取顯著特征點(diǎn)，然后對(duì)特征進(jìn)行SIFT描述，將SIFT描述子通過向量量化的方法映射為碼本中某一個(gè)確定的視覺單詞。這樣，一幅圖像就可以被看作由若干視覺單詞組成，根據(jù)碼本中視覺單詞在一幅圖像中發(fā)生的頻次，即可將圖像表示成單詞的共現(xiàn)向量。多幅圖像的共現(xiàn)向量可組成一個(gè)共現(xiàn)矩陣，對(duì)共現(xiàn)矩陣進(jìn)行LDA建模，LDA模型是一個(gè)圖像_主題-視覺單詞的三層貝葉斯網(wǎng)絡(luò)，即將圖像視為由若干隱含的主題組成，而主題由若干視覺單詞組成，由LDA模型可推斷出每幅中隱含主題的混合概率，這樣可以將圖像從高維單詞發(fā)生頻次的組合降為低維主題的混合概率?；谥黝}模型的不良圖像檢測(cè)才剛剛起步，Sheng Tang等人在“PornProbe AnLDA-SVM based Pornography Detection System. Proceedings of the Iit ACMInternational Conference on Multimedia. 2009，2 :593_602. ” 一文中采用 LDA 方法以圖像的色度信息為特征，結(jié)合SVM方法判別圖像的不良程度。基于主題分析的圖像語義描述是解決不良信息檢測(cè)極具潛力的發(fā)展方向之一。上述已有的不良信息分類方法主要存在以下三個(gè)主要問題
權(quán)利要求
1. 一種基于隱含主題分析的不良圖像檢測(cè)方法，包括如下過程(1)在顏色空間YCbCr中，構(gòu)建雙高斯混合模型 (Ia)手動(dòng)切割包含皮膚區(qū)域的圖像I ；(Ib)將圖像I從RGB顏色空間轉(zhuǎn)換到顏色空間YCb(；，其中Y表示亮度分量，Cb是藍(lán)色色度分量，Cr是紅色色度分量；(Ic)去除亮度分量Y后，在Cb(；色度空間中采用高斯混合模型建立膚色模型，其高斯混合模型的概率密度函數(shù)為G(x I κ, ω,μ, Σ) = Σ二 ωηΝ°(χ | μη,Ση)其中K為高斯分量的個(gè)數(shù)，ω = (ωι，ω2，…，ωκ)是K個(gè)獨(dú)立高斯分量在混合模型中的權(quán)重，Σ κωη= 1，Σ = ( Σ 1;Σ 2，…，Σ κ)和μ = (μι，μ2，…，μκ)分別是各個(gè)高斯分量的協(xié)方差矩陣和均值向量，凡，=是第η個(gè)高斯分量的D維正態(tài)密度函數(shù)；利用期望最大化EM算法及最小描述長度準(zhǔn)則MDL估計(jì)高斯混合模型的各個(gè)參數(shù)ω， μ，Σ，K，建立膚色模型；(Id)手動(dòng)切割包含頭發(fā)區(qū)域的圖像I，重復(fù)上述步驟(lb)-(Ic)，建立頭發(fā)區(qū)域模型； (Ie)將膚色模型與頭發(fā)區(qū)域模型級(jí)聯(lián)，建立雙高斯混合模型；(2)利用貝葉斯模型，剔除膚色區(qū)域中的頭發(fā)區(qū)域；(3)在膚色區(qū)域中用高斯差分算子檢測(cè)圖像I中的顯著特征點(diǎn)，去除特征點(diǎn)集中在膚色區(qū)域邊緣部分的特征點(diǎn)，得到有效的特征點(diǎn)集合V'；(4)對(duì)特征點(diǎn)集合V'中的有效特征點(diǎn)用尺度不變特征轉(zhuǎn)換SIFT描述子進(jìn)行描述，將每個(gè)特征點(diǎn)表示成128維的特征向量f ；(5)對(duì)訓(xùn)練集中正常和不良圖像，通過步驟(1)_(4)得到所有圖像的有效特征點(diǎn)的 SIFT描述子，對(duì)所有SIFT描述子進(jìn)行cosine距離測(cè)度下的K均值聚類，得到C個(gè)聚類中心，定義每個(gè)聚類中心為一個(gè)視覺單詞，得到圖像的碼本集合W = Iw1, w2, L，wj，其中，w表示視覺單詞，C表示碼本中視覺單詞的數(shù)目；(6)對(duì)訓(xùn)練集中每一幅圖像有效特征點(diǎn)的SIFT描述子，通過向量量化的方法計(jì)算每個(gè) SIFT描述子與碼本中每個(gè)視覺單詞的距離，將SIFT描述子量化為與其最近的那個(gè)碼本單詞；(7)根據(jù)步驟(5)得到的碼本單詞，統(tǒng)計(jì)第j幅圖像中所有單詞的詞頻-逆鑒別性文檔頻率tf-iddf值，將這些值按照單詞在碼本中出現(xiàn)的順序排列成一個(gè)有權(quán)重的共現(xiàn)向量… 來表示第j幅圖像；(8)所有訓(xùn)練圖像共現(xiàn)向量組成共現(xiàn)矩陣，采用基于Gibbs取樣算法的LDA模型對(duì)共現(xiàn)向量進(jìn)行LDA建模，得到訓(xùn)練圖像的混合主題分布θ ；(9)將訓(xùn)練圖像的混合主題分布θ及其類別標(biāo)記輸入BP神經(jīng)網(wǎng)絡(luò)，訓(xùn)練基于BP神經(jīng)網(wǎng)絡(luò)的不良圖像分類器；(10)對(duì)待測(cè)圖像，根據(jù)步驟(1)_(4)得到其有效特征點(diǎn)的SIFT描述子，再利用步驟 (6)-(7)的向量量化法及tf-iddf法，待測(cè)圖像被表示成碼本單詞的共現(xiàn)向量，將共現(xiàn)向量輸入到LDA模型得到待測(cè)圖像的主題分布θ ‘；(11)將待測(cè)圖像的主題分布θ ‘輸入到基于BP神經(jīng)網(wǎng)絡(luò)的不良圖像分類器中，判斷待測(cè)圖像是否為不良圖像，最終完成不良圖像的檢測(cè)。
2.根據(jù)權(quán)利要求1所述的不良圖像檢測(cè)方法，其特征在于步驟(Ic)所述的利用期望最大化EM算法及最小描述長度準(zhǔn)則MDL估計(jì)高斯混合模型的各個(gè)參數(shù)ω，μ，Σ，K，其步驟如下(Icl)隨機(jī)初始化高斯分量的個(gè)數(shù)K;(lc2)使用期望最大化算法EM估計(jì)初始化的K值下的高斯混合模型權(quán)重ω，均值向量 μ和協(xié)方差矩陣Σ的參數(shù)值；(lc3)利用距離公式d(l，m)計(jì)算高斯混合模型中每兩個(gè)高斯分量的距離，選出距離最近的兩個(gè)高斯分量，并將其合并為一個(gè)高斯分量，以使高斯分量的個(gè)數(shù)K減l，d(l，m)公式如下
3.根據(jù)權(quán)利要求1所述的不良圖像檢測(cè)方法，其特征在于步驟(8)所述的統(tǒng)計(jì)第j幅圖像中所有視覺單詞的詞頻_逆鑒別性文檔頻率tf-iddf值，按如下步驟進(jìn)行(8a)統(tǒng)計(jì)第i個(gè)單詞Wi在第j幅圖像中發(fā)生的頻次為Iiij,統(tǒng)計(jì)第j幅圖像中所有單詞發(fā)生的頻次為ΣΙΡΜ，根據(jù)下式計(jì)算第j幅圖像中第i個(gè)單詞發(fā)生的詞頻tfy
4.根據(jù)權(quán)利要求1所述的不良圖像檢測(cè)方法，其特征在于步驟(9)所述的采用基于Gibbs取樣算法的LDA模型對(duì)共現(xiàn)向量進(jìn)行LDA建模，其步驟如下
全文摘要
本發(fā)明公開了一種基于隱含主題分析的不良圖像檢測(cè)方法，主要解決現(xiàn)有的不良信息檢測(cè)方法不考慮圖像的語義信息，導(dǎo)致正常圖像誤判的問題。其方案是采用雙混合高斯模型來提取圖像的皮膚區(qū)域；通過詞袋模型生成膚色區(qū)域中所包含顯著特征的碼本庫，用詞頻-逆鑒別性文檔頻率法將每幅訓(xùn)練圖像表示成一組有權(quán)重的單詞共現(xiàn)向量；所有共現(xiàn)向量組成一個(gè)共現(xiàn)矩陣，對(duì)共現(xiàn)矩陣進(jìn)行LDA建模，得到圖像的主題；將訓(xùn)練圖像的混合主題輸入BP神經(jīng)網(wǎng)絡(luò)，進(jìn)行不良圖像分類器的訓(xùn)練；得到待測(cè)圖像的主題并輸入到不良圖像分類器，判斷其是否為不良圖像，完成不良圖像檢測(cè)。實(shí)驗(yàn)表明，本發(fā)明能更好的分辨出不良圖像和正常圖像，可用于過濾圖像中的色情信息。
文檔編號(hào)G06N3/08GK102360435SQ20111032987
公開日2012年2月22日申請(qǐng)日期2011年10月26日優(yōu)先權(quán)日2011年10月26日
發(fā)明者季秀云, 李東陽, 李潔, 王代富, 王華青, 田春娜, 蒲倩, 袁博, 趙林, 高新波申請(qǐng)人:西安電子科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：田春娜;高新波;王華青;李東陽;袁博;趙林;李潔;蒲倩;王代富;季秀云
技術(shù)所有人：西安電子科技大學(xué)
我是此專利的發(fā)明人

上一篇：圖像超分辨率重建方法
上一篇：用于汽車安全電子系統(tǒng)的圖像特征檢測(cè)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

紅外圖像檢測(cè)方法相關(guān)技術(shù)

農(nóng)藥殘留檢測(cè)方法相關(guān)技術(shù)

ct圖像質(zhì)量的檢測(cè)方法相關(guān)技術(shù)

文本不良信息檢測(cè)方法相關(guān)技術(shù)

對(duì)圖像不良信息的檢測(cè)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于隱含主題分析的不良圖像檢測(cè)方法