亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于cnn和lstm的暴恐視頻檢測(cè)方法

文檔序號(hào):10489355閱讀:784來(lái)源:國(guó)知局
一種基于cnn和lstm的暴恐視頻檢測(cè)方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于CNN和LSTM的暴恐視頻檢測(cè)方法,屬于模式識(shí)別、視頻檢測(cè)、深度學(xué)習(xí)技術(shù)領(lǐng)域。所述檢測(cè)方法首先對(duì)待檢測(cè)視頻進(jìn)行關(guān)鍵幀采樣,并提取關(guān)鍵幀特征;然后進(jìn)行視頻層面的表達(dá)與判別,包括CNN語(yǔ)義模塊的VLAD特征表達(dá)與SVM判別、CNN場(chǎng)景模塊的場(chǎng)景VLAD特征表達(dá)與SVM判別,以及LSTM時(shí)序模塊的LSTM判別;最后進(jìn)行結(jié)果融合。本發(fā)明利用了CNN在圖像特征提取和LSTM在時(shí)序序列表達(dá)方面的優(yōu)勢(shì),并充分考慮暴恐視頻在場(chǎng)景方面的特色,實(shí)際測(cè)試中檢測(cè)指標(biāo)mAP值達(dá)到98.0%,接近人工作業(yè)水準(zhǔn)。在運(yùn)行速度方面,僅采用單機(jī)GPU加速的方式,每秒鐘便可以處理76.4秒的網(wǎng)絡(luò)視頻,適于阻斷暴恐視頻在大型視頻網(wǎng)站上的傳播,有利于維護(hù)社會(huì)穩(wěn)定和國(guó)家長(zhǎng)治久安。
【專(zhuān)利說(shuō)明】
一種基于CNN和LSTM的暴恐視頻檢測(cè)方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明屬于模式識(shí)別、視頻檢測(cè)、深度學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及一種基于CNN和 LSTM的暴恐視頻檢測(cè)方法。
【背景技術(shù)】
[0002] 近年來(lái),大量境內(nèi)外暴力恐怖視頻在互聯(lián)網(wǎng)上非法傳播,已經(jīng)成為危害社會(huì)穩(wěn)定 的重大毒瘤。但相關(guān)的自動(dòng)化暴恐視頻檢測(cè)技術(shù)尚處于研發(fā)階段,大多數(shù)是采用已有的事 件視頻檢測(cè)方法,這些方法基本可以分為三類(lèi):基于圖像局部特征的視頻檢測(cè)方法、基于語(yǔ) 義概念的視頻檢測(cè)方法和基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱(chēng)CNN) 的視頻檢測(cè)方法。
[0003] 參考文獻(xiàn)[I ] (Sun,Chen,and Ram Nevatia · "Large-scale web video event classification by use of fisher vectors ,In Applications of Computer Vision (WACV) ,2013IEEE Workshop on,pp. 15-22. IEEE,2013.)公開(kāi)了一種基于圖像局部特征的 視頻檢測(cè)方法,首先在關(guān)鍵幀層面,提取圖像的局部特征,例如尺度不變特征變換(Scale-invariant Feature Transform, 簡(jiǎn)稱(chēng)SIFT) 特征; 隨后在視頻層面 ,采用Fi sher核向量 (Fisher Vector)表達(dá)的方式獲取視頻的全局表達(dá);最后再利用支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱(chēng)SVM)分類(lèi)器,判別視頻的類(lèi)別,例如是暴恐視頻或者非暴恐視頻。該 方法在訓(xùn)練過(guò)程中不需要過(guò)多人工標(biāo)注,簡(jiǎn)單易行,但存在的以下不足:(1)檢測(cè)準(zhǔn)確率受 限于所采用的局部特征。(2)檢測(cè)速度較慢。SIFT等局部特征的計(jì)算開(kāi)銷(xiāo)較大,導(dǎo)致該方法 不宜應(yīng)用于大規(guī)模視頻檢測(cè)任務(wù),實(shí)用性不高。
[0004] 參考文獻(xiàn)[2] (Liu,J. ;Yu,Qian; Javed,0·;Ali,S·;Tamrakar,A. ;Divakaran,Α·; Hui Cheng;&Sawhney,H.,Video event recognition using concept attributes,WACV, 2013.)公開(kāi)了一種基于語(yǔ)義概念的視頻檢測(cè)方法,首先需要在關(guān)鍵幀層面,采用局部特征 提取與SVM分類(lèi)器相結(jié)合的方式,判別畫(huà)面中各種預(yù)設(shè)語(yǔ)義概念(對(duì)于暴恐視頻而言,這些 語(yǔ)義概念包括但不限于槍支、爆炸、蒙面人、暴恐組織標(biāo)志等)的置信度;隨后在視頻層面, 采用Fisher Vector表達(dá)的方式,生成視頻的全局特征;最后再采用SVM分類(lèi)器,判別視頻的 類(lèi)型。由于預(yù)設(shè)語(yǔ)義概念具有導(dǎo)向性,基于語(yǔ)義概念的視頻檢測(cè)方法對(duì)于暴恐視頻識(shí)別的 精度更高,但具有以下不足:(1)訓(xùn)練過(guò)程中需要大量有標(biāo)注的圖像樣本,人工開(kāi)銷(xiāo)較大。 (2)當(dāng)待檢測(cè)的暴恐視頻剛好不包含任一預(yù)設(shè)概念時(shí),檢測(cè)精度沒(méi)有保障。(3)檢測(cè)速度較 慢。
[0005] 參考文獻(xiàn)[3 ] (Xu,Zhongwen,Yi Yang,and Alexander G · Hauptmann ·" Adiscriminative CNN video representation for event detection.^arXiv preprint arXiv: 1411.4006(2014).)公開(kāi)了一種基于CNN語(yǔ)義特征的視頻檢測(cè)方法,在訓(xùn)練階段,用 大量有標(biāo)注圖像訓(xùn)練CNN語(yǔ)義模型。而在測(cè)試階段,利用已訓(xùn)練的模型提取關(guān)鍵幀的CNN語(yǔ) 義特征(如FC6,F(xiàn)C7,SPP等特征),隨后在視頻層面采用局部特征聚合描述子(Vector of Locally Aggregated Descriptors,VLAD)方法,進(jìn)行特征的表達(dá)并獲得視頻的高維特征, 該方法在多媒體事件檢測(cè)(Multimedia Event Detection,簡(jiǎn)稱(chēng)MED)數(shù)據(jù)集上獲得了較好 的效果。該方法充分利用了 CNN在靜態(tài)圖像特征提取方面的優(yōu)勢(shì),可以在暴恐視頻檢測(cè)中取 得較好的效果,但仍存在以下可以提高的方面:(1)該方法在VLAD特征表達(dá)的過(guò)程中對(duì)于視 頻的時(shí)序特性運(yùn)用并不充分。(2)該方法僅提取了關(guān)鍵幀的CNN語(yǔ)義特征,沒(méi)有關(guān)注到暴恐 視頻的其他個(gè)性化特征。綜上,基于CNN語(yǔ)義特征的視頻檢測(cè)方法仍有一定的性能提升空 間。

【發(fā)明內(nèi)容】

[0006]為了解決現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提出了一種基于CNN和長(zhǎng)短時(shí)記憶單元 (Long Short-term Memory,簡(jiǎn)稱(chēng)LSTM)的暴恐視頻檢測(cè)方法。該方法利用了CNN在圖像特征 提取和LSTM在時(shí)序序列表達(dá)方面的優(yōu)勢(shì),并充分考慮暴恐視頻在場(chǎng)景方面的特色,實(shí)際測(cè) 試中檢測(cè)指標(biāo)mAP值達(dá)到98.0 %,接近人工作業(yè)水準(zhǔn)。在運(yùn)行速度方面,僅采用單機(jī)GPU加速 的方式,每秒鐘便可以處理76.4秒的網(wǎng)絡(luò)視頻(平均碼率為632kbps),適于阻斷暴恐視頻在 大型視頻網(wǎng)站上的傳播,有利于維護(hù)社會(huì)穩(wěn)定和國(guó)家長(zhǎng)治久安。
[0007]通過(guò)對(duì)大量暴恐視頻的分析發(fā)現(xiàn),暴恐視頻在時(shí)序結(jié)構(gòu)和拍攝場(chǎng)景兩方面極具特 色?;诖税l(fā)現(xiàn),本發(fā)明在原有基于CNN語(yǔ)義特征的視頻檢測(cè)模塊(簡(jiǎn)稱(chēng)CNN語(yǔ)義模塊)基礎(chǔ) 上,增加了基于CNN場(chǎng)景特征的視頻檢測(cè)模塊(簡(jiǎn)稱(chēng)CNN場(chǎng)景模塊)以及基于LSTM的時(shí)序檢測(cè) 模塊(簡(jiǎn)稱(chēng)LSTM時(shí)序模塊)。對(duì)于待檢測(cè)視頻,本發(fā)明采用語(yǔ)義、場(chǎng)景和時(shí)序結(jié)構(gòu)三方面檢測(cè) 結(jié)果相融合的方式,更為全面的判別視頻是否涉恐,降低了誤檢率,提高了方法的實(shí)用價(jià) 值。
[0008]本發(fā)明提供的基于CNN和LSTM的暴恐視頻檢測(cè)方法,具體包括如下步驟:
[0009]第一步,對(duì)待檢測(cè)視頻進(jìn)行關(guān)鍵幀采樣,并提取關(guān)鍵幀特征;
[0010] 第二步,利用提取到的關(guān)鍵幀特征,進(jìn)行視頻層面的表達(dá)與判別;包括CNN語(yǔ)義模 塊的VLAD特征表達(dá)與SVM判別、CNN場(chǎng)景模塊的場(chǎng)景VLAD特征表達(dá)與SVM判別,以及LSTM時(shí)序 模塊的LSTM判別。
[0011] 第三步,結(jié)果融合。采用了基于校驗(yàn)集mAP值的層次融合策略,即對(duì)于一個(gè)待識(shí)別 視頻,分別計(jì)算三個(gè)模塊(CNN語(yǔ)義模塊、CNN場(chǎng)景模塊和LSTM時(shí)序模塊)的判決得分,再以各 模塊在校驗(yàn)集上的mAP值作為權(quán)重進(jìn)行加權(quán)融合。
[0012] 本發(fā)明的優(yōu)點(diǎn)或有益效果在于:
[0013] (1)現(xiàn)有技術(shù)中單采用CNN語(yǔ)義模塊忽略了視頻的時(shí)序信息。為充分利用暴恐視頻 在時(shí)序結(jié)構(gòu)方面的特點(diǎn),本發(fā)明在原有方法的基礎(chǔ)上,增加了LSTM時(shí)序模塊。測(cè)試結(jié)果表 明,引入時(shí)序信息,對(duì)于識(shí)別精度的提升較為顯著。
[0014] (2)本發(fā)明基于對(duì)大規(guī)模暴恐視頻樣本的統(tǒng)計(jì)與分析,挖掘到暴恐視頻在錄制場(chǎng) 景方面極具特色。因此,在原有結(jié)構(gòu)的基礎(chǔ)上,本發(fā)明將CNN場(chǎng)景模塊加入到暴恐視頻檢測(cè) 中,保證了在特定視頻場(chǎng)景下的識(shí)別精度。
[0015] 本發(fā)明提供的基于CNN和LSTM的暴恐視頻檢測(cè)方法,主要應(yīng)用于政府網(wǎng)絡(luò)監(jiān)管部 門(mén)和大型視頻網(wǎng)站,用于檢測(cè)用戶(hù)上傳的視頻是否涉及暴力恐怖內(nèi)容。一旦發(fā)現(xiàn)視頻疑似 包含此類(lèi)非法內(nèi)容,應(yīng)及時(shí)發(fā)出警告,交人工復(fù)核:
[0016] (1)本發(fā)明可以應(yīng)用于政府網(wǎng)絡(luò)監(jiān)管部門(mén)"鏟除網(wǎng)上暴恐音視頻"的系列行動(dòng)中, 在原有基于人工舉報(bào)的基礎(chǔ)上,采用本發(fā)明對(duì)于主流視頻網(wǎng)站的在線(xiàn)視頻進(jìn)行抽樣檢測(cè), 對(duì)于發(fā)現(xiàn)問(wèn)題的視頻網(wǎng)站下發(fā)整改通知,維護(hù)境內(nèi)互聯(lián)網(wǎng)環(huán)境的安全。
[0017] (2)本發(fā)明可以應(yīng)用于大型視頻網(wǎng)站的內(nèi)容安全系統(tǒng)中,既可以在用戶(hù)上傳視頻 過(guò)程中過(guò)濾掉暴恐內(nèi)容,又可以對(duì)于已有庫(kù)存視頻進(jìn)行復(fù)查,避免因?yàn)橛|及內(nèi)容安全的紅 線(xiàn)給網(wǎng)站造成不必要的損失。
【附圖說(shuō)明】
[0018] 圖1是本發(fā)明提供的視頻檢測(cè)方法流程框架圖。
[0019] 圖2是本發(fā)明中SPP特征提取示意圖。
[0020] 圖3是本發(fā)明中LSTM神經(jīng)單元結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0021]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。
[0022]本發(fā)明提供一種基于CNN和LSTM的暴恐視頻檢測(cè)方法,如圖1所示,所述的視頻檢 測(cè)方法具體包括如下步驟:
[0023]第一步,對(duì)待檢測(cè)視頻進(jìn)行關(guān)鍵幀采樣,并提取關(guān)鍵幀特征;
[0024] (1)對(duì)于待檢測(cè)視頻,首先進(jìn)行等間隔關(guān)鍵幀采樣,采樣間隔為1秒,得到關(guān)鍵幀圖 像。
[0025] (2)將關(guān)鍵幀圖像下采樣至227 X 227,輸入到CNN語(yǔ)義模型和CNN場(chǎng)景模型中,分別 提取該關(guān)鍵幀圖像的CNN語(yǔ)義特征和CNN場(chǎng)景特征。
[0026] 所述的CNN語(yǔ)義特征和CNN場(chǎng)景特征又分別具體包括FC6特征、FC7特征和SPP特征 三種特征。其中,F(xiàn)C6特征和FC7特征為常用的4096維向量,而SPP特征提取過(guò)程較為特殊,下 面詳細(xì)說(shuō)明。
[0027] 如圖2中給出的SPP特征提取示意圖,SPP特征提取自Conv5層(Conv5全稱(chēng) convolutional layer 5,即CNN模型卷積第5層)之后,Conv5層充分保留了目標(biāo)的空間位置 信息,但由于其特征維度過(guò)高,不便于直接利用。為避免這一問(wèn)題,首先將Conv5層的特征圖 樣按照1X1,2X2和3X3進(jìn)行空間區(qū)域劃分,然后在每個(gè)劃分區(qū)域內(nèi)采用最大值池化的方 法得到14個(gè)256維(256D)的向量,每一個(gè)向量的每一維特征都對(duì)應(yīng)著某一種顯式或隱式的 語(yǔ)義概念,即SPP特征。
[0028]對(duì)于每一個(gè)關(guān)鍵幀圖像,本發(fā)明中都提取三種CNN語(yǔ)義特征(包括SPP、FC6和FC7特 征)和三種CNN場(chǎng)景特征(包括SPP、FC6和FC7特征),隨后將他們按需分別輸入到不同的視頻 層面判別模塊中,進(jìn)行進(jìn)一步處理。
[0029] 第二步,利用提取到的關(guān)鍵幀特征,進(jìn)行視頻層面的表達(dá)與判別;
[0030] 所述的視頻層面包含三個(gè)獨(dú)立的特征表達(dá)與判別,分別為CNN語(yǔ)義模塊的VLAD特 征表達(dá)與SVM判別、CNN場(chǎng)景模塊的場(chǎng)景VLAD特征表達(dá)與SVM判別,以及LSTM時(shí)序模塊的LSTM 判別。
[0031] 所述的CNN語(yǔ)義模塊的語(yǔ)義VLAD特征表達(dá)與SVM判別,輸入特征為三種CNN語(yǔ)義特 征(SPP,F(xiàn)C6,F(xiàn)C7)。首先采用主成分分析(Principal Components Analysis,簡(jiǎn)稱(chēng)PCA)的方 法,分別將三種特征降至128維、256維和256維。
[0032] 隨后,應(yīng)用VLAD方法,對(duì)降維后的D維特征向量,向預(yù)先通過(guò)K-均值聚類(lèi)(K-Means) 得到的聚類(lèi)中心集合C={ci,C2, . . .,ck}進(jìn)行差分累積投影。令V={vi,V2, . . .,vn}表示一個(gè) 包含N個(gè)已降維特征向量的集合,則與聚類(lèi)中心以相關(guān)的差分累積向量diffk可以表示為:
[0033]
.⑴
[0034] 其中,i = l,2···,N;k=l,2,···,Kc3NN(Vi)表示已降維特征向量Vi在聚類(lèi)中心集合C 中的歐氏距離的最近鄰。對(duì)每個(gè)差分累積向量diffKl < j SK)分別進(jìn)行I2范數(shù)歸一化,再 將K個(gè)差分累積向量級(jí)聯(lián),便得到了最終的KXD維VLAD特征表達(dá)。此處聚類(lèi)中心數(shù)目K被設(shè) 定為256,則SPP,F(xiàn)C6,F(xiàn)C7對(duì)應(yīng)VLAD特征表達(dá)后的維度分別為32,768維,65,536維和65,536 維。
[0035]最后,訓(xùn)練線(xiàn)性SVM分類(lèi)器完成視頻涉恐置信度的判定。令視頻VLAD特征表達(dá)組成 的樣本集合為X= {X1,X2, . . .,XN},對(duì)應(yīng)視頻類(lèi)別(暴恐,非暴恐)集合為Y= {yi,y2, . . .,yN}, 其中yie{+i,-i},通過(guò)幾何間隔最大化將其轉(zhuǎn)換為求解凸二次優(yōu)化問(wèn)題,學(xué)習(xí)得到的分割 超平面為:
[0036] w · x+b = 0 (2)
[0037] 其中,w和b分別為分割超平面的斜率和偏置量??梢詫⒆畲蠡指畛矫娴膸缀?間隔,表示為帶不等式約束條件的最優(yōu)化問(wèn)題:
[0038] (3)
[0039] (4)
[0040] 其中,γ表示樣本點(diǎn)Xl到分割超平面的幾何距離。該問(wèn)題可以通過(guò)極大極小化拉 格朗日對(duì)偶問(wèn)題進(jìn)行優(yōu)化,并通過(guò)序列最小化(Sequential Minimal Optimization,簡(jiǎn)稱(chēng) SM0)算法進(jìn)行求解。求解后得到最優(yōu)的分割超平面的參數(shù)wlPb'則暴恐視頻分類(lèi)決策函數(shù) 可以表示為:
[0041 ] (5)
[0042] ?。當(dāng)前VLAD特征表達(dá)被判別為暴恐的置信度為:
[0043] (6)
[0044] SPP,F(xiàn)C6,F(xiàn)C7的VLAD特征表達(dá)分別通過(guò)線(xiàn)性SVM分類(lèi)器,最后輸出三種CNN語(yǔ)義特 征FC6、FC7和SPP特征所對(duì)應(yīng)的判別置信度Ps(fe6),Ps (fe7WPPs(spp)。
[0045]所述的CNN場(chǎng)景模塊的場(chǎng)景VLAD特征表達(dá)與SVM判別,輸入特征為三種CNN場(chǎng)景特 征(SPP,F(xiàn)C6,F(xiàn)C7)。該模塊的處理流程與語(yǔ)義VLAD特征表達(dá)與SVM判別模炔基本一致,最后 輸出三種CNN場(chǎng)景特征FC6、FC7和SPP特征所對(duì)應(yīng)的判別置信度和。
[0046]所述的LSTM時(shí)序模塊的LSTM判別,輸入特征為兩種CNN語(yǔ)義特征(FC6,F(xiàn)C7)。首先 將兩類(lèi)特征分別輸入到LSTM判別模型中。該模型包含2層LSTM單元,第一層包含1024個(gè)神經(jīng) 元,第二層包含512個(gè)神經(jīng)元。每個(gè)LSTM神經(jīng)元的結(jié)構(gòu)如圖3所示。LSTM神經(jīng)單元的前向傳導(dǎo) 過(guò)程可以表示為:
[0047] it = o (WiXt+Uiht-1+bi) (7)
[0048] f t = σ (fff xt+Ufht-i+bf) (8)
[0049] 〇t = 〇 (ff〇xt+U〇ht-i + b〇) (9)
[0050] ct = ft*ct-ι + it* Φ (WcXt+Ucht-i+bc) (10)
[0051] ht = 〇t*Φ (ct) (11)
[0052] 其中,兩種非線(xiàn)性激活函數(shù)分別為?7(Λ·,) = (i +t/_v )_1 和 Φ (Xt) = tanh(xt) 和ct分別代表t時(shí)刻輸入門(mén)、記憶門(mén)、輸出門(mén)和核心門(mén)所對(duì)應(yīng)的狀態(tài)量。對(duì)于每一個(gè)邏輯門(mén), Wi,Wf,W。和Wc分別代表輸入門(mén)、記憶門(mén)、輸出門(mén)和核心門(mén)所對(duì)應(yīng)的權(quán)重轉(zhuǎn)移矩陣,U i,Uf,U。和 Uc分別代表輸入門(mén)、記憶門(mén)、輸出門(mén)和核心門(mén)所對(duì)應(yīng)的t-ι時(shí)刻隱藏層變量ht-1對(duì)應(yīng)的權(quán)重 轉(zhuǎn)移矩陣,bi,b f,b。,bc則代表輸入門(mén)、記憶門(mén)、輸出門(mén)和核心門(mén)所對(duì)應(yīng)偏置向量。
[0053]首先,t時(shí)刻輸入特征Xt和t-Ι時(shí)刻隱藏層變量hn,在權(quán)重轉(zhuǎn)移矩陣W和U,以及偏 置向量b的共同作用下,生成t時(shí)刻的狀態(tài)量it,ft和〇t,見(jiàn)公式(7)至公式(9)。進(jìn)一步在t-1 時(shí)刻核心門(mén)狀態(tài)量輔助下,生成t時(shí)刻核心門(mén)狀態(tài)量ct,見(jiàn)公式(10)。最終,在t時(shí)刻核 心門(mén)狀態(tài)量ct與輸出門(mén)狀態(tài)量 〇t的作用下,生成t時(shí)刻隱藏層變量ht,進(jìn)而影響t+Ι時(shí)刻LSTM 神經(jīng)元的內(nèi)部變化,見(jiàn)公式(11)。
[0054]第二層LSTM神經(jīng)元的輸出與全連接層分類(lèi)器相連,最終輸出兩種CNN語(yǔ)義特征FC6 和FC7特征對(duì)應(yīng)的時(shí)序判別置信度Pt(fd5)和Pt(fc:7)。
[0055]第三步,結(jié)果融合。
[0056]為保證融合效率,在結(jié)果融合方面采用了基于校驗(yàn)集mAP值的層次融合 (Hierarchical Fusion)策略,即對(duì)于一個(gè)待識(shí)別視頻,分別計(jì)算三個(gè)模塊(CNN語(yǔ)義模塊、 CNN場(chǎng)景模塊和LSTM時(shí)序模塊)的判決得分,再以各模塊在校驗(yàn)集上的mAP值作為權(quán)重進(jìn)行 加權(quán)融合。實(shí)際操作中,首先分別進(jìn)行CNN語(yǔ)義模塊、CNN場(chǎng)景模塊和LSTM時(shí)序模塊的得分融
合,隨后里講軒仝屆的犋分副!會(huì).
[0057] (12)
[0058] (13)
[0059] (14)
[0060] (卜)
[〇〇611其中,Ps ,Pt^PPt分別代表基于CNN語(yǔ)義模塊、CNN場(chǎng)景模塊和LSTM時(shí)序模塊的判決 得分;ω s、ω JP ω *分別為CNN語(yǔ)義模塊、CNN場(chǎng)景模塊和LSTM時(shí)序模塊對(duì)應(yīng)的校驗(yàn)集mAP值; 1^& 6)、1^&7)和1^(5" )分別為(:關(guān)語(yǔ)義模塊中代6、代7、3??特征對(duì)應(yīng)的判決得分; 、《丨" 7>和〇廣~分別為CNN語(yǔ)義模塊中FC6、FC7、SPP特征對(duì)應(yīng)的的校驗(yàn)集mAP值; 7'和^??分別為CNN場(chǎng)景模塊中FC6、FC7、 spp特征對(duì)應(yīng)的判決得分;</~、 和分別為CNN場(chǎng)景模塊中FC6、FC7、SPP特征對(duì)應(yīng)的校驗(yàn)集mAP值;Pt(fe6)和P t(fe7)分別為
【主權(quán)項(xiàng)】
1. 一種基于CNN和LSTM的暴恐視頻檢測(cè)方法,其特征在于: 具體包括如下步驟: 第一步,對(duì)待檢測(cè)視頻進(jìn)行關(guān)鍵帖采樣,并提取關(guān)鍵帖特征; 第二步,利用提取到的關(guān)鍵帖特征,進(jìn)行視頻層面的表達(dá)與判別;包括C順語(yǔ)義模塊的 VLAD特征表達(dá)與SVM判別、C順場(chǎng)景模塊的場(chǎng)景VLAD特征表達(dá)與SVM判別,W及LSTM時(shí)序模塊 的LSTM判別; 第Ξ步,結(jié)果融合:采用基于校驗(yàn)集mAP值的層次融合策略,即對(duì)于一個(gè)待識(shí)別視頻,分 別計(jì)算CN的吾義模塊、CNN場(chǎng)景模塊和LSTM時(shí)序模塊的判決得分,再W各模塊在校驗(yàn)集上的 mAP值作為權(quán)重進(jìn)行加權(quán)融合。2. 根據(jù)權(quán)利要求1所述的一種基于C順和LSTM的暴恐視頻檢測(cè)方法,其特征在于:第一 步中,關(guān)鍵帖采樣間隔為1秒,關(guān)鍵帖特征包括的CN的吾義特征和CNN場(chǎng)景特征,所述的CN的吾 義特征和CNN場(chǎng)景特征又分別具體包括FC6特征、F 口特征和SPP特征Ξ種特征。3. 根據(jù)權(quán)利要求1或2所述的一種基于C順和LSTM的暴恐視頻檢測(cè)方法,其特征在于: SPP特征提取自Conv5層,首先將Conv5層的特征圖樣按照1 X 1,2 X 2和3 X 3進(jìn)行空間區(qū)域劃 分,然后在每個(gè)劃分區(qū)域內(nèi)采用最大值池化的方法得到14個(gè)256維的向量,每一個(gè)向量的每 一維特征都對(duì)應(yīng)著某一種顯式或隱式的語(yǔ)義概念,即SPP特征。4. 根據(jù)權(quán)利要求1所述的一種基于C順和LSTM的暴恐視頻檢測(cè)方法,其特征在于:第二 步中所述的C順語(yǔ)義模塊的語(yǔ)義化AD特征表達(dá)與SVM判別,輸入特征為Ξ種C順語(yǔ)義特征 SPP,F(xiàn)C6,F(xiàn)C7;首先采用主成分分析的方法,分別將Ξ種特征降至128維、256維和256維;隨 后,應(yīng)用VLAD方法,對(duì)降維后的特征向量,向預(yù)先通過(guò)K-均值聚類(lèi)得到的聚類(lèi)中屯、集合C = kl,C2, . . .,Ck}進(jìn)行差分累積投影;令V={V1,V2, . . .,vn}表示一個(gè)包含N個(gè)已降維特征向量 的集合,則與聚類(lèi)中屯、Ck相關(guān)的差分累積向量diffk表示為:(1) 其中,i = l,2···,N;k=l,2,···,KDNN(vi)表示已降維特征向量Vi在聚類(lèi)中屯、集合C中的 歐氏距離的最近鄰;對(duì)每個(gè)差分累積向量difb(l含j含K)分別進(jìn)行b范數(shù)歸一化,再將K個(gè) 差分累積向量級(jí)聯(lián),便得到了最終的KXD維化AD特征表達(dá);此處聚類(lèi)中屯、數(shù)目K被設(shè)定為 256,貝IJSPP,F(xiàn)C6,F(xiàn)C7對(duì)應(yīng)VLAD特征表達(dá)后的維度分別為32,768維,65,536維和65,536維; 最后,訓(xùn)練線(xiàn)性SVM分類(lèi)器完成視頻設(shè)恐置信度的判定。5. 根據(jù)權(quán)利要求4所述的一種基于C順和LSTM的暴恐視頻檢測(cè)方法,其特征在于:所述 的訓(xùn)練線(xiàn)性SVM分類(lèi)器完成視頻設(shè)恐置信度的判定,具體為:令視頻VLAD特征表達(dá)組成的樣 本集合為x= {X1,X2,. . .,xn},對(duì)應(yīng)視頻類(lèi)別集合為Υ= {yi,y2,. . .,yN},其中yiE {+1,-1}, 通過(guò)幾何間隔最大化將其轉(zhuǎn)換為求解凸二次優(yōu)化問(wèn)題,學(xué)習(xí)得到的分割超平面為: W · x+b = 0 (2) 其中,W和b分別為分割超平面的斜率和偏置量;將最大化分割超平面的幾何間隔,表示 為帶不等式約束條件的最優(yōu)化問(wèn)題:(3)(4) 其中,丫表示樣本點(diǎn)Χι到分割超平面的幾何距離;該問(wèn)題通過(guò)極大極小化拉格朗日對(duì)偶 問(wèn)題進(jìn)行優(yōu)化,并通過(guò)序列最小化算法進(jìn)行求解;求解后得到最優(yōu)的分割超平面的參數(shù)*^ 和ΙΛ則暴恐視頻分類(lèi)決策函數(shù)表示為: f(x) = sign(w* · x+b*) (5) 其中,sign(x)表示符號(hào)函數(shù);當(dāng)前VLAD特征表達(dá)被判別為暴恐的置信度為:(6) SPP,F(xiàn)C6,F(xiàn)C7的化AD特征表達(dá)分別通過(guò)線(xiàn)性SVM分類(lèi)器,最后輸出Ξ種C順語(yǔ)義特征 FC6、F口和SPP特征所對(duì)應(yīng)的判別置信度",ip7哺巧ww。6. 根據(jù)權(quán)利要求1所述的一種基于C順和LSTM的暴恐視頻檢測(cè)方法,其特征在于:第二 步中所述的LSTM時(shí)序模塊的LSTM判別,輸入特征為兩種C順語(yǔ)義特征FC6,F(xiàn)C7;首先將兩類(lèi) 特征分別輸入到LSTM判別模型中,該模型包含2層LSTM單元,第一層包含1024個(gè)神經(jīng)元,第 二層包含512個(gè)神經(jīng)元;每個(gè)LSTM神經(jīng)單元的前向傳導(dǎo)過(guò)程表示為: it = 〇(WiXt+U 出 t-1+bi) (7) ft = 〇(W巧 t+陽(yáng) ht-1+bf) (8) ot = σ (WoXt+Uoht-i+bo) (9) ct = ft*ct-i+it* Φ (WcXt+Ucht-i+bc) (10) ht = 〇t* Φ (ct) (11) 其中,兩種非線(xiàn)性激活函數(shù)分別為伊U) = (Ue-x')-i和(Hx〇 = tanh(x〇;it,ft,o^ct 分別代表t時(shí)刻輸入口、記憶口、輸出口和核屯、口所對(duì)應(yīng)的狀態(tài)量;對(duì)于每一個(gè)邏輯口,Wi, Wf,W。和W。分別代表輸入口、記憶口、輸出口和核屯、口所對(duì)應(yīng)的權(quán)重轉(zhuǎn)移矩陣;Ui,Uf,U。和Uc 分別代表輸入口、記憶口、輸出口和核屯、口所對(duì)應(yīng)的t-1時(shí)刻隱藏層變量ht-i對(duì)應(yīng)的權(quán)重轉(zhuǎn) 移矩陣,61,6:,6。,13。則代表輸入口、記憶口、輸出口和核屯、口所對(duì)應(yīng)偏置向量; 第二層LSTM神經(jīng)元的輸出與全連接層分類(lèi)器相連,最終輸出兩種C順語(yǔ)義特征FC6和 FC7特征對(duì)應(yīng)的時(shí)序判別置信度巧ybAl和巧。7. 根據(jù)權(quán)利要求1所述的一種基于C順和LSTM的暴恐視頻檢測(cè)方法,其特征在于:第Ξ 步結(jié)果融合,首先分別進(jìn)行CN的吾義模塊、CNN場(chǎng)景模塊和LSTM時(shí)序模塊的得分融合,隨后再 進(jìn)行全局的得分融合:其中,Ps,Pp和Pt分別代表基于C順語(yǔ)義模塊、C順場(chǎng)景模塊和LSTM時(shí)序模塊的判決得分; ω S、ω P和ω t分別為C順語(yǔ)義模塊、C順場(chǎng)景模塊和LSTM時(shí)序模塊對(duì)應(yīng)的校驗(yàn)集mAP值; 巧wi、巧f"'和巧分別為CNN語(yǔ)義模塊中FC6、FC 7、SPP特征對(duì)應(yīng)的判決得分; 嗎、仿^/"1和蜂分別為C麗語(yǔ)義模塊中Fce、FC7、SPP特征對(duì)應(yīng)的的校驗(yàn)集mAP值; 巧&6)、巧和巧(猶3分別為C順場(chǎng)景模塊中Fce、FC 7、spp特征對(duì)應(yīng)的判決得分;句/(6)、仍; 和邸W分別為C順場(chǎng)景模塊中FC6、FC7、SPP特征對(duì)應(yīng)的校驗(yàn)集mAP值;巧和巧分別為 LSTM時(shí)序模塊中FC6、FC7特征對(duì)應(yīng)的判決得分;謝P6)郝巧"分別為L(zhǎng)STM時(shí)序模塊中FC6、 FC7特征對(duì)應(yīng)的校驗(yàn)集mAP值;最終的暴恐視頻檢測(cè)結(jié)果P。是通過(guò)Ξ個(gè)模炔基于mAP值進(jìn)行 加權(quán)的方式獲得的。
【文檔編號(hào)】G06K9/62GK105844239SQ201610168334
【公開(kāi)日】2016年8月10日
【申請(qǐng)日】2016年3月23日
【發(fā)明人】蘇菲, 宋凡, 宋一凡, 趙志誠(chéng)
【申請(qǐng)人】北京郵電大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1