一種基于cnn和lstm的暴恐視頻檢測(cè)方法

文檔序號(hào)：10489355閱讀：784來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于cnn和lstm的暴恐視頻檢測(cè)方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于CNN和LSTM的暴恐視頻檢測(cè)方法，屬于模式識(shí)別、視頻檢測(cè)、深度學(xué)習(xí)技術(shù)領(lǐng)域。所述檢測(cè)方法首先對(duì)待檢測(cè)視頻進(jìn)行關(guān)鍵幀采樣，并提取關(guān)鍵幀特征；然后進(jìn)行視頻層面的表達(dá)與判別，包括CNN語(yǔ)義模塊的VLAD特征表達(dá)與SVM判別、CNN場(chǎng)景模塊的場(chǎng)景VLAD特征表達(dá)與SVM判別，以及LSTM時(shí)序模塊的LSTM判別；最后進(jìn)行結(jié)果融合。本發(fā)明利用了CNN在圖像特征提取和LSTM在時(shí)序序列表達(dá)方面的優(yōu)勢(shì)，并充分考慮暴恐視頻在場(chǎng)景方面的特色，實(shí)際測(cè)試中檢測(cè)指標(biāo)mAP值達(dá)到98.0％，接近人工作業(yè)水準(zhǔn)。在運(yùn)行速度方面，僅采用單機(jī)GPU加速的方式，每秒鐘便可以處理76.4秒的網(wǎng)絡(luò)視頻，適于阻斷暴恐視頻在大型視頻網(wǎng)站上的傳播，有利于維護(hù)社會(huì)穩(wěn)定和國(guó)家長(zhǎng)治久安。
【專(zhuān)利說(shuō)明】
一種基于CNN和LSTM的暴恐視頻檢測(cè)方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明屬于模式識(shí)別、視頻檢測(cè)、深度學(xué)習(xí)技術(shù)領(lǐng)域，具體涉及一種基于CNN和 LSTM的暴恐視頻檢測(cè)方法。
【背景技術(shù)】
[0002] 近年來(lái)，大量境內(nèi)外暴力恐怖視頻在互聯(lián)網(wǎng)上非法傳播，已經(jīng)成為危害社會(huì)穩(wěn)定的重大毒瘤。但相關(guān)的自動(dòng)化暴恐視頻檢測(cè)技術(shù)尚處于研發(fā)階段，大多數(shù)是采用已有的事件視頻檢測(cè)方法，這些方法基本可以分為三類(lèi):基于圖像局部特征的視頻檢測(cè)方法、基于語(yǔ) 義概念的視頻檢測(cè)方法和基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network，簡(jiǎn)稱(chēng)CNN) 的視頻檢測(cè)方法。
[0003] 參考文獻(xiàn)[I ] (Sun，Chen，and Ram Nevatia · "Large-scale web video event classification by use of fisher vectors ,In Applications of Computer Vision (WACV) ,2013IEEE Workshop on,pp. 15-22. IEEE，2013.)公開(kāi)了一種基于圖像局部特征的視頻檢測(cè)方法，首先在關(guān)鍵幀層面，提取圖像的局部特征，例如尺度不變特征變換（Scale-invariant Feature Transform，簡(jiǎn)稱(chēng)SIFT) 特征；隨后在視頻層面，采用Fi sher核向量 (Fisher Vector)表達(dá)的方式獲取視頻的全局表達(dá)；最后再利用支持向量機(jī)（Support Vector Machine，簡(jiǎn)稱(chēng)SVM)分類(lèi)器，判別視頻的類(lèi)別，例如是暴恐視頻或者非暴恐視頻。該方法在訓(xùn)練過(guò)程中不需要過(guò)多人工標(biāo)注，簡(jiǎn)單易行，但存在的以下不足：（1)檢測(cè)準(zhǔn)確率受限于所采用的局部特征。（2)檢測(cè)速度較慢。SIFT等局部特征的計(jì)算開(kāi)銷(xiāo)較大，導(dǎo)致該方法不宜應(yīng)用于大規(guī)模視頻檢測(cè)任務(wù)，實(shí)用性不高。
[0004] 參考文獻(xiàn)[2] (Liu，J. ;Yu,Qian; Javed，0·;Ali，S·;Tamrakar，A. ;Divakaran，Α·; Hui Cheng；&Sawhney,H.,Video event recognition using concept attributes,WACV, 2013.)公開(kāi)了一種基于語(yǔ)義概念的視頻檢測(cè)方法，首先需要在關(guān)鍵幀層面，采用局部特征提取與SVM分類(lèi)器相結(jié)合的方式，判別畫(huà)面中各種預(yù)設(shè)語(yǔ)義概念(對(duì)于暴恐視頻而言，這些語(yǔ)義概念包括但不限于槍支、爆炸、蒙面人、暴恐組織標(biāo)志等）的置信度;隨后在視頻層面，采用Fisher Vector表達(dá)的方式，生成視頻的全局特征;最后再采用SVM分類(lèi)器，判別視頻的類(lèi)型。由于預(yù)設(shè)語(yǔ)義概念具有導(dǎo)向性，基于語(yǔ)義概念的視頻檢測(cè)方法對(duì)于暴恐視頻識(shí)別的精度更高，但具有以下不足：（1)訓(xùn)練過(guò)程中需要大量有標(biāo)注的圖像樣本，人工開(kāi)銷(xiāo)較大。 (2)當(dāng)待檢測(cè)的暴恐視頻剛好不包含任一預(yù)設(shè)概念時(shí)，檢測(cè)精度沒(méi)有保障。（3)檢測(cè)速度較慢。
[0005] 參考文獻(xiàn)[3 ] (Xu，Zhongwen，Yi Yang，and Alexander G · Hauptmann ·" Adiscriminative CNN video representation for event detection.^arXiv preprint arXiv: 1411.4006(2014).)公開(kāi)了一種基于CNN語(yǔ)義特征的視頻檢測(cè)方法，在訓(xùn)練階段，用大量有標(biāo)注圖像訓(xùn)練CNN語(yǔ)義模型。而在測(cè)試階段，利用已訓(xùn)練的模型提取關(guān)鍵幀的CNN語(yǔ) 義特征（如FC6，F(xiàn)C7，SPP等特征），隨后在視頻層面采用局部特征聚合描述子(Vector of Locally Aggregated Descriptors，VLAD)方法，進(jìn)行特征的表達(dá)并獲得視頻的高維特征，該方法在多媒體事件檢測(cè)(Multimedia Event Detection,簡(jiǎn)稱(chēng)MED)數(shù)據(jù)集上獲得了較好的效果。該方法充分利用了 CNN在靜態(tài)圖像特征提取方面的優(yōu)勢(shì)，可以在暴恐視頻檢測(cè)中取得較好的效果，但仍存在以下可以提高的方面：（1)該方法在VLAD特征表達(dá)的過(guò)程中對(duì)于視頻的時(shí)序特性運(yùn)用并不充分。（2)該方法僅提取了關(guān)鍵幀的CNN語(yǔ)義特征，沒(méi)有關(guān)注到暴恐視頻的其他個(gè)性化特征。綜上，基于CNN語(yǔ)義特征的視頻檢測(cè)方法仍有一定的性能提升空間。

【發(fā)明內(nèi)容】

[0006]為了解決現(xiàn)有技術(shù)中存在的問(wèn)題，本發(fā)明提出了一種基于CNN和長(zhǎng)短時(shí)記憶單元 (Long Short-term Memory,簡(jiǎn)稱(chēng)LSTM)的暴恐視頻檢測(cè)方法。該方法利用了CNN在圖像特征提取和LSTM在時(shí)序序列表達(dá)方面的優(yōu)勢(shì)，并充分考慮暴恐視頻在場(chǎng)景方面的特色，實(shí)際測(cè) 試中檢測(cè)指標(biāo)mAP值達(dá)到98.0 %，接近人工作業(yè)水準(zhǔn)。在運(yùn)行速度方面，僅采用單機(jī)GPU加速的方式，每秒鐘便可以處理76.4秒的網(wǎng)絡(luò)視頻(平均碼率為632kbps)，適于阻斷暴恐視頻在大型視頻網(wǎng)站上的傳播，有利于維護(hù)社會(huì)穩(wěn)定和國(guó)家長(zhǎng)治久安。
[0007]通過(guò)對(duì)大量暴恐視頻的分析發(fā)現(xiàn)，暴恐視頻在時(shí)序結(jié)構(gòu)和拍攝場(chǎng)景兩方面極具特色?；诖税l(fā)現(xiàn)，本發(fā)明在原有基于CNN語(yǔ)義特征的視頻檢測(cè)模塊(簡(jiǎn)稱(chēng)CNN語(yǔ)義模塊)基礎(chǔ) 上，增加了基于CNN場(chǎng)景特征的視頻檢測(cè)模塊(簡(jiǎn)稱(chēng)CNN場(chǎng)景模塊）以及基于LSTM的時(shí)序檢測(cè) 模塊(簡(jiǎn)稱(chēng)LSTM時(shí)序模塊）。對(duì)于待檢測(cè)視頻，本發(fā)明采用語(yǔ)義、場(chǎng)景和時(shí)序結(jié)構(gòu)三方面檢測(cè) 結(jié)果相融合的方式，更為全面的判別視頻是否涉恐，降低了誤檢率，提高了方法的實(shí)用價(jià) 值。
[0008]本發(fā)明提供的基于CNN和LSTM的暴恐視頻檢測(cè)方法，具體包括如下步驟：
[0009]第一步，對(duì)待檢測(cè)視頻進(jìn)行關(guān)鍵幀采樣，并提取關(guān)鍵幀特征；
[0010] 第二步，利用提取到的關(guān)鍵幀特征，進(jìn)行視頻層面的表達(dá)與判別；包括CNN語(yǔ)義模塊的VLAD特征表達(dá)與SVM判別、CNN場(chǎng)景模塊的場(chǎng)景VLAD特征表達(dá)與SVM判別，以及LSTM時(shí)序模塊的LSTM判別。
[0011] 第三步，結(jié)果融合。采用了基于校驗(yàn)集mAP值的層次融合策略，即對(duì)于一個(gè)待識(shí)別視頻，分別計(jì)算三個(gè)模塊(CNN語(yǔ)義模塊、CNN場(chǎng)景模塊和LSTM時(shí)序模塊)的判決得分，再以各模塊在校驗(yàn)集上的mAP值作為權(quán)重進(jìn)行加權(quán)融合。
[0012] 本發(fā)明的優(yōu)點(diǎn)或有益效果在于：
[0013] (1)現(xiàn)有技術(shù)中單采用CNN語(yǔ)義模塊忽略了視頻的時(shí)序信息。為充分利用暴恐視頻在時(shí)序結(jié)構(gòu)方面的特點(diǎn)，本發(fā)明在原有方法的基礎(chǔ)上，增加了LSTM時(shí)序模塊。測(cè)試結(jié)果表明，引入時(shí)序信息，對(duì)于識(shí)別精度的提升較為顯著。
[0014] (2)本發(fā)明基于對(duì)大規(guī)模暴恐視頻樣本的統(tǒng)計(jì)與分析，挖掘到暴恐視頻在錄制場(chǎng) 景方面極具特色。因此，在原有結(jié)構(gòu)的基礎(chǔ)上，本發(fā)明將CNN場(chǎng)景模塊加入到暴恐視頻檢測(cè) 中，保證了在特定視頻場(chǎng)景下的識(shí)別精度。
[0015] 本發(fā)明提供的基于CNN和LSTM的暴恐視頻檢測(cè)方法，主要應(yīng)用于政府網(wǎng)絡(luò)監(jiān)管部門(mén)和大型視頻網(wǎng)站，用于檢測(cè)用戶(hù)上傳的視頻是否涉及暴力恐怖內(nèi)容。一旦發(fā)現(xiàn)視頻疑似包含此類(lèi)非法內(nèi)容，應(yīng)及時(shí)發(fā)出警告，交人工復(fù)核：
[0016] (1)本發(fā)明可以應(yīng)用于政府網(wǎng)絡(luò)監(jiān)管部門(mén)"鏟除網(wǎng)上暴恐音視頻"的系列行動(dòng)中，在原有基于人工舉報(bào)的基礎(chǔ)上，采用本發(fā)明對(duì)于主流視頻網(wǎng)站的在線(xiàn)視頻進(jìn)行抽樣檢測(cè)，對(duì)于發(fā)現(xiàn)問(wèn)題的視頻網(wǎng)站下發(fā)整改通知，維護(hù)境內(nèi)互聯(lián)網(wǎng)環(huán)境的安全。
[0017] (2)本發(fā)明可以應(yīng)用于大型視頻網(wǎng)站的內(nèi)容安全系統(tǒng)中，既可以在用戶(hù)上傳視頻過(guò)程中過(guò)濾掉暴恐內(nèi)容，又可以對(duì)于已有庫(kù)存視頻進(jìn)行復(fù)查，避免因?yàn)橛|及內(nèi)容安全的紅線(xiàn)給網(wǎng)站造成不必要的損失。
【附圖說(shuō)明】
[0018] 圖1是本發(fā)明提供的視頻檢測(cè)方法流程框架圖。
[0019] 圖2是本發(fā)明中SPP特征提取示意圖。
[0020] 圖3是本發(fā)明中LSTM神經(jīng)單元結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0021]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。
[0022]本發(fā)明提供一種基于CNN和LSTM的暴恐視頻檢測(cè)方法，如圖1所示，所述的視頻檢測(cè)方法具體包括如下步驟：
[0023]第一步，對(duì)待檢測(cè)視頻進(jìn)行關(guān)鍵幀采樣，并提取關(guān)鍵幀特征；
[0024] (1)對(duì)于待檢測(cè)視頻，首先進(jìn)行等間隔關(guān)鍵幀采樣，采樣間隔為1秒，得到關(guān)鍵幀圖像。
[0025] (2)將關(guān)鍵幀圖像下采樣至227 X 227,輸入到CNN語(yǔ)義模型和CNN場(chǎng)景模型中，分別提取該關(guān)鍵幀圖像的CNN語(yǔ)義特征和CNN場(chǎng)景特征。
[0026] 所述的CNN語(yǔ)義特征和CNN場(chǎng)景特征又分別具體包括FC6特征、FC7特征和SPP特征三種特征。其中，F(xiàn)C6特征和FC7特征為常用的4096維向量，而SPP特征提取過(guò)程較為特殊，下面詳細(xì)說(shuō)明。
[0027] 如圖2中給出的SPP特征提取示意圖，SPP特征提取自Conv5層（Conv5全稱(chēng) convolutional layer 5,即CNN模型卷積第5層)之后，Conv5層充分保留了目標(biāo)的空間位置信息，但由于其特征維度過(guò)高，不便于直接利用。為避免這一問(wèn)題，首先將Conv5層的特征圖樣按照1X1，2X2和3X3進(jìn)行空間區(qū)域劃分，然后在每個(gè)劃分區(qū)域內(nèi)采用最大值池化的方法得到14個(gè)256維(256D)的向量，每一個(gè)向量的每一維特征都對(duì)應(yīng)著某一種顯式或隱式的語(yǔ)義概念，即SPP特征。
[0028]對(duì)于每一個(gè)關(guān)鍵幀圖像，本發(fā)明中都提取三種CNN語(yǔ)義特征(包括SPP、FC6和FC7特征)和三種CNN場(chǎng)景特征(包括SPP、FC6和FC7特征），隨后將他們按需分別輸入到不同的視頻層面判別模塊中，進(jìn)行進(jìn)一步處理。
[0029] 第二步，利用提取到的關(guān)鍵幀特征，進(jìn)行視頻層面的表達(dá)與判別；
[0030] 所述的視頻層面包含三個(gè)獨(dú)立的特征表達(dá)與判別，分別為CNN語(yǔ)義模塊的VLAD特征表達(dá)與SVM判別、CNN場(chǎng)景模塊的場(chǎng)景VLAD特征表達(dá)與SVM判別，以及LSTM時(shí)序模塊的LSTM 判別。
[0031] 所述的CNN語(yǔ)義模塊的語(yǔ)義VLAD特征表達(dá)與SVM判別，輸入特征為三種CNN語(yǔ)義特征(SPP，F(xiàn)C6，F(xiàn)C7)。首先采用主成分分析(Principal Components Analysis，簡(jiǎn)稱(chēng)PCA)的方法，分別將三種特征降至128維、256維和256維。
[0032] 隨后，應(yīng)用VLAD方法，對(duì)降維后的D維特征向量，向預(yù)先通過(guò)K-均值聚類(lèi)(K-Means) 得到的聚類(lèi)中心集合C={ci，C2, . . .，ck}進(jìn)行差分累積投影。令V={vi，V2, . . .，vn}表示一個(gè) 包含N個(gè)已降維特征向量的集合，則與聚類(lèi)中心以相關(guān)的差分累積向量diffk可以表示為：
[0033]
.⑴
[0034] 其中，i = l，2···，N;k=l，2，···，Kc3NN(Vi)表示已降維特征向量Vi在聚類(lèi)中心集合C 中的歐氏距離的最近鄰。對(duì)每個(gè)差分累積向量diffKl < j SK)分別進(jìn)行I2范數(shù)歸一化，再將K個(gè)差分累積向量級(jí)聯(lián)，便得到了最終的KXD維VLAD特征表達(dá)。此處聚類(lèi)中心數(shù)目K被設(shè) 定為256，則SPP，F(xiàn)C6，F(xiàn)C7對(duì)應(yīng)VLAD特征表達(dá)后的維度分別為32，768維，65，536維和65，536 維。
[0035]最后，訓(xùn)練線(xiàn)性SVM分類(lèi)器完成視頻涉恐置信度的判定。令視頻VLAD特征表達(dá)組成的樣本集合為X= {X1，X2, . . .，XN}，對(duì)應(yīng)視頻類(lèi)別(暴恐，非暴恐)集合為Y= {yi，y2, . . .，yN}，其中yie{+i，-i}，通過(guò)幾何間隔最大化將其轉(zhuǎn)換為求解凸二次優(yōu)化問(wèn)題，學(xué)習(xí)得到的分割超平面為：
[0036] w · x+b = 0 (2)
[0037] 其中，w和b分別為分割超平面的斜率和偏置量?？梢詫⒆畲蠡指畛矫娴膸缀?間隔，表示為帶不等式約束條件的最優(yōu)化問(wèn)題：
[0038] (3)
[0039] (4)
[0040] 其中，γ表示樣本點(diǎn)Xl到分割超平面的幾何距離。該問(wèn)題可以通過(guò)極大極小化拉格朗日對(duì)偶問(wèn)題進(jìn)行優(yōu)化，并通過(guò)序列最小化（Sequential Minimal Optimization，簡(jiǎn)稱(chēng) SM0)算法進(jìn)行求解。求解后得到最優(yōu)的分割超平面的參數(shù)wlPb'則暴恐視頻分類(lèi)決策函數(shù) 可以表示為：
[0041 ] (5)
[0042] ?。當(dāng)前VLAD特征表達(dá)被判別為暴恐的置信度為：
[0043] (6)
[0044] SPP，F(xiàn)C6，F(xiàn)C7的VLAD特征表達(dá)分別通過(guò)線(xiàn)性SVM分類(lèi)器，最后輸出三種CNN語(yǔ)義特征FC6、FC7和SPP特征所對(duì)應(yīng)的判別置信度Ps(fe6)，Ps (fe7WPPs(spp)。
[0045]所述的CNN場(chǎng)景模塊的場(chǎng)景VLAD特征表達(dá)與SVM判別，輸入特征為三種CNN場(chǎng)景特征（SPP，F(xiàn)C6，F(xiàn)C7)。該模塊的處理流程與語(yǔ)義VLAD特征表達(dá)與SVM判別模炔基本一致，最后輸出三種CNN場(chǎng)景特征FC6、FC7和SPP特征所對(duì)應(yīng)的判別置信度和。
[0046]所述的LSTM時(shí)序模塊的LSTM判別，輸入特征為兩種CNN語(yǔ)義特征(FC6，F(xiàn)C7)。首先將兩類(lèi)特征分別輸入到LSTM判別模型中。該模型包含2層LSTM單元，第一層包含1024個(gè)神經(jīng) 元，第二層包含512個(gè)神經(jīng)元。每個(gè)LSTM神經(jīng)元的結(jié)構(gòu)如圖3所示。LSTM神經(jīng)單元的前向傳導(dǎo) 過(guò)程可以表示為：
[0047] it = o (WiXt+Uiht-1+bi) (7)
[0048] f t = σ (fff xt+Ufht-i+bf) (8)
[0049] 〇t = 〇 (ff〇xt+U〇ht-i + b〇) (9)
[0050] ct = ft*ct-ι + it* Φ (WcXt+Ucht-i+bc) (10)
[0051] ht = 〇t*Φ (ct) (11)
[0052] 其中，兩種非線(xiàn)性激活函數(shù)分別為?7(Λ·,) = (i +t/_v )_1 和 Φ (Xt) = tanh(xt) 和ct分別代表t時(shí)刻輸入門(mén)、記憶門(mén)、輸出門(mén)和核心門(mén)所對(duì)應(yīng)的狀態(tài)量。對(duì)于每一個(gè)邏輯門(mén)， Wi，Wf，W。和Wc分別代表輸入門(mén)、記憶門(mén)、輸出門(mén)和核心門(mén)所對(duì)應(yīng)的權(quán)重轉(zhuǎn)移矩陣，U i，Uf，U。和 Uc分別代表輸入門(mén)、記憶門(mén)、輸出門(mén)和核心門(mén)所對(duì)應(yīng)的t-ι時(shí)刻隱藏層變量ht-1對(duì)應(yīng)的權(quán)重轉(zhuǎn)移矩陣，bi，b f，b。，bc則代表輸入門(mén)、記憶門(mén)、輸出門(mén)和核心門(mén)所對(duì)應(yīng)偏置向量。
[0053]首先，t時(shí)刻輸入特征Xt和t-Ι時(shí)刻隱藏層變量hn，在權(quán)重轉(zhuǎn)移矩陣W和U，以及偏置向量b的共同作用下，生成t時(shí)刻的狀態(tài)量it，ft和〇t，見(jiàn)公式(7)至公式(9)。進(jìn)一步在t-1 時(shí)刻核心門(mén)狀態(tài)量輔助下，生成t時(shí)刻核心門(mén)狀態(tài)量ct，見(jiàn)公式（10)。最終，在t時(shí)刻核心門(mén)狀態(tài)量ct與輸出門(mén)狀態(tài)量〇t的作用下，生成t時(shí)刻隱藏層變量ht，進(jìn)而影響t+Ι時(shí)刻LSTM 神經(jīng)元的內(nèi)部變化，見(jiàn)公式(11)。
[0054]第二層LSTM神經(jīng)元的輸出與全連接層分類(lèi)器相連，最終輸出兩種CNN語(yǔ)義特征FC6 和FC7特征對(duì)應(yīng)的時(shí)序判別置信度Pt(fd5)和Pt(fc:7)。
[0055]第三步，結(jié)果融合。
[0056]為保證融合效率，在結(jié)果融合方面采用了基于校驗(yàn)集mAP值的層次融合 (Hierarchical Fusion)策略，即對(duì)于一個(gè)待識(shí)別視頻，分別計(jì)算三個(gè)模塊(CNN語(yǔ)義模塊、 CNN場(chǎng)景模塊和LSTM時(shí)序模塊)的判決得分，再以各模塊在校驗(yàn)集上的mAP值作為權(quán)重進(jìn)行加權(quán)融合。實(shí)際操作中，首先分別進(jìn)行CNN語(yǔ)義模塊、CNN場(chǎng)景模塊和LSTM時(shí)序模塊的得分融
合，隨后里講軒仝屆的犋分副!會(huì).
[0057] (12)
[0058] (13)
[0059] (14)
[0060] (卜）
[〇〇611其中，Ps ,Pt^PPt分別代表基于CNN語(yǔ)義模塊、CNN場(chǎng)景模塊和LSTM時(shí)序模塊的判決得分；ω s、ω JP ω *分別為CNN語(yǔ)義模塊、CNN場(chǎng)景模塊和LSTM時(shí)序模塊對(duì)應(yīng)的校驗(yàn)集mAP值； 1^& 6)、1^&7)和1^(5" )分別為(：關(guān)語(yǔ)義模塊中代6、代7、3??特征對(duì)應(yīng)的判決得分；、《丨" 7>和〇廣~分別為CNN語(yǔ)義模塊中FC6、FC7、SPP特征對(duì)應(yīng)的的校驗(yàn)集mAP值； 7'和^??分別為CNN場(chǎng)景模塊中FC6、FC7、 spp特征對(duì)應(yīng)的判決得分；</~、和分別為CNN場(chǎng)景模塊中FC6、FC7、SPP特征對(duì)應(yīng)的校驗(yàn)集mAP值;Pt(fe6)和P t(fe7)分別為
【主權(quán)項(xiàng)】
1. 一種基于CNN和LSTM的暴恐視頻檢測(cè)方法，其特征在于：具體包括如下步驟：第一步，對(duì)待檢測(cè)視頻進(jìn)行關(guān)鍵帖采樣，并提取關(guān)鍵帖特征；第二步，利用提取到的關(guān)鍵帖特征，進(jìn)行視頻層面的表達(dá)與判別；包括C順語(yǔ)義模塊的 VLAD特征表達(dá)與SVM判別、C順場(chǎng)景模塊的場(chǎng)景VLAD特征表達(dá)與SVM判別，W及LSTM時(shí)序模塊的LSTM判別；第Ξ步，結(jié)果融合:采用基于校驗(yàn)集mAP值的層次融合策略，即對(duì)于一個(gè)待識(shí)別視頻，分別計(jì)算CN的吾義模塊、CNN場(chǎng)景模塊和LSTM時(shí)序模塊的判決得分，再W各模塊在校驗(yàn)集上的 mAP值作為權(quán)重進(jìn)行加權(quán)融合。2. 根據(jù)權(quán)利要求1所述的一種基于C順和LSTM的暴恐視頻檢測(cè)方法，其特征在于：第一步中，關(guān)鍵帖采樣間隔為1秒，關(guān)鍵帖特征包括的CN的吾義特征和CNN場(chǎng)景特征，所述的CN的吾義特征和CNN場(chǎng)景特征又分別具體包括FC6特征、F 口特征和SPP特征Ξ種特征。3. 根據(jù)權(quán)利要求1或2所述的一種基于C順和LSTM的暴恐視頻檢測(cè)方法，其特征在于： SPP特征提取自Conv5層，首先將Conv5層的特征圖樣按照1 X 1，2 X 2和3 X 3進(jìn)行空間區(qū)域劃分，然后在每個(gè)劃分區(qū)域內(nèi)采用最大值池化的方法得到14個(gè)256維的向量，每一個(gè)向量的每一維特征都對(duì)應(yīng)著某一種顯式或隱式的語(yǔ)義概念，即SPP特征。4. 根據(jù)權(quán)利要求1所述的一種基于C順和LSTM的暴恐視頻檢測(cè)方法，其特征在于:第二步中所述的C順語(yǔ)義模塊的語(yǔ)義化AD特征表達(dá)與SVM判別，輸入特征為Ξ種C順語(yǔ)義特征 SPP，F(xiàn)C6，F(xiàn)C7;首先采用主成分分析的方法，分別將Ξ種特征降至128維、256維和256維；隨后，應(yīng)用VLAD方法，對(duì)降維后的特征向量，向預(yù)先通過(guò)K-均值聚類(lèi)得到的聚類(lèi)中屯、集合C = kl，C2, . . .，Ck}進(jìn)行差分累積投影;令V={V1，V2, . . .，vn}表示一個(gè)包含N個(gè)已降維特征向量的集合，則與聚類(lèi)中屯、Ck相關(guān)的差分累積向量diffk表示為：(1) 其中，i = l，2···，N;k=l，2，···，KDNN(vi)表示已降維特征向量Vi在聚類(lèi)中屯、集合C中的歐氏距離的最近鄰;對(duì)每個(gè)差分累積向量difb(l含j含K)分別進(jìn)行b范數(shù)歸一化，再將K個(gè) 差分累積向量級(jí)聯(lián)，便得到了最終的KXD維化AD特征表達(dá);此處聚類(lèi)中屯、數(shù)目K被設(shè)定為 256，貝IJSPP，F(xiàn)C6，F(xiàn)C7對(duì)應(yīng)VLAD特征表達(dá)后的維度分別為32，768維，65，536維和65，536維；最后，訓(xùn)練線(xiàn)性SVM分類(lèi)器完成視頻設(shè)恐置信度的判定。5. 根據(jù)權(quán)利要求4所述的一種基于C順和LSTM的暴恐視頻檢測(cè)方法，其特征在于:所述的訓(xùn)練線(xiàn)性SVM分類(lèi)器完成視頻設(shè)恐置信度的判定，具體為:令視頻VLAD特征表達(dá)組成的樣本集合為x= {X1，X2,. . .，xn}，對(duì)應(yīng)視頻類(lèi)別集合為Υ= {yi，y2,. . .，yN}，其中yiE {+1，-1}，通過(guò)幾何間隔最大化將其轉(zhuǎn)換為求解凸二次優(yōu)化問(wèn)題，學(xué)習(xí)得到的分割超平面為： W · x+b = 0 (2) 其中，W和b分別為分割超平面的斜率和偏置量;將最大化分割超平面的幾何間隔，表示為帶不等式約束條件的最優(yōu)化問(wèn)題：(3)(4) 其中，丫表示樣本點(diǎn)Χι到分割超平面的幾何距離;該問(wèn)題通過(guò)極大極小化拉格朗日對(duì)偶問(wèn)題進(jìn)行優(yōu)化，并通過(guò)序列最小化算法進(jìn)行求解;求解后得到最優(yōu)的分割超平面的參數(shù)*^ 和ΙΛ則暴恐視頻分類(lèi)決策函數(shù)表示為： f(x) = sign(w* · x+b*) (5) 其中，sign(x)表示符號(hào)函數(shù);當(dāng)前VLAD特征表達(dá)被判別為暴恐的置信度為：(6) SPP，F(xiàn)C6，F(xiàn)C7的化AD特征表達(dá)分別通過(guò)線(xiàn)性SVM分類(lèi)器，最后輸出Ξ種C順語(yǔ)義特征 FC6、F口和SPP特征所對(duì)應(yīng)的判別置信度"，ip7哺巧ww。6. 根據(jù)權(quán)利要求1所述的一種基于C順和LSTM的暴恐視頻檢測(cè)方法，其特征在于:第二步中所述的LSTM時(shí)序模塊的LSTM判別，輸入特征為兩種C順語(yǔ)義特征FC6，F(xiàn)C7;首先將兩類(lèi) 特征分別輸入到LSTM判別模型中，該模型包含2層LSTM單元，第一層包含1024個(gè)神經(jīng)元，第二層包含512個(gè)神經(jīng)元;每個(gè)LSTM神經(jīng)單元的前向傳導(dǎo)過(guò)程表示為： it = 〇(WiXt+U 出 t-1+bi) (7) ft = 〇(W巧 t+陽(yáng) ht-1+bf) (8) ot = σ (WoXt+Uoht-i+bo) (9) ct = ft*ct-i+it* Φ (WcXt+Ucht-i+bc) (10) ht = 〇t* Φ (ct) (11) 其中，兩種非線(xiàn)性激活函數(shù)分別為伊U) = (Ue-x')-i和(Hx〇 = tanh(x〇;it，ft，o^ct 分別代表t時(shí)刻輸入口、記憶口、輸出口和核屯、口所對(duì)應(yīng)的狀態(tài)量;對(duì)于每一個(gè)邏輯口，Wi， Wf，W。和W。分別代表輸入口、記憶口、輸出口和核屯、口所對(duì)應(yīng)的權(quán)重轉(zhuǎn)移矩陣;Ui，Uf，U。和Uc 分別代表輸入口、記憶口、輸出口和核屯、口所對(duì)應(yīng)的t-1時(shí)刻隱藏層變量ht-i對(duì)應(yīng)的權(quán)重轉(zhuǎn) 移矩陣，61，6:，6。，13。則代表輸入口、記憶口、輸出口和核屯、口所對(duì)應(yīng)偏置向量；第二層LSTM神經(jīng)元的輸出與全連接層分類(lèi)器相連，最終輸出兩種C順語(yǔ)義特征FC6和 FC7特征對(duì)應(yīng)的時(shí)序判別置信度巧ybAl和巧。7. 根據(jù)權(quán)利要求1所述的一種基于C順和LSTM的暴恐視頻檢測(cè)方法，其特征在于:第Ξ 步結(jié)果融合，首先分別進(jìn)行CN的吾義模塊、CNN場(chǎng)景模塊和LSTM時(shí)序模塊的得分融合，隨后再進(jìn)行全局的得分融合：其中，Ps，Pp和Pt分別代表基于C順語(yǔ)義模塊、C順場(chǎng)景模塊和LSTM時(shí)序模塊的判決得分； ω S、ω P和ω t分別為C順語(yǔ)義模塊、C順場(chǎng)景模塊和LSTM時(shí)序模塊對(duì)應(yīng)的校驗(yàn)集mAP值；巧wi、巧f"'和巧分別為CNN語(yǔ)義模塊中FC6、FC 7、SPP特征對(duì)應(yīng)的判決得分；嗎、仿^/"1和蜂分別為C麗語(yǔ)義模塊中Fce、FC7、SPP特征對(duì)應(yīng)的的校驗(yàn)集mAP值；巧&6)、巧和巧(猶3分別為C順場(chǎng)景模塊中Fce、FC 7、spp特征對(duì)應(yīng)的判決得分；句/(6)、仍; 和邸W分別為C順場(chǎng)景模塊中FC6、FC7、SPP特征對(duì)應(yīng)的校驗(yàn)集mAP值;巧和巧分別為 LSTM時(shí)序模塊中FC6、FC7特征對(duì)應(yīng)的判決得分；謝P6)郝巧"分別為L(zhǎng)STM時(shí)序模塊中FC6、 FC7特征對(duì)應(yīng)的校驗(yàn)集mAP值；最終的暴恐視頻檢測(cè)結(jié)果P。是通過(guò)Ξ個(gè)模炔基于mAP值進(jìn)行加權(quán)的方式獲得的。
【文檔編號(hào)】G06K9/62GK105844239SQ201610168334
【公開(kāi)日】2016年8月10日
【申請(qǐng)日】2016年3月23日
【發(fā)明人】蘇菲, 宋凡, 宋一凡, 趙志誠(chéng)
【申請(qǐng)人】北京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蘇菲;宋一凡;趙志誠(chéng);
技術(shù)所有人：北京郵電大學(xué);
我是此專(zhuān)利的發(fā)明人

上一篇：一種紅外測(cè)溫系統(tǒng)中的人臉檢測(cè)方法及裝置的制造方法
上一篇：視頻鑒別方法及系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

暴恐音視頻檢測(cè)工具相關(guān)技術(shù)

暴恐音視頻識(shí)別系統(tǒng)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于cnn和lstm的暴恐視頻檢測(cè)方法