亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于改進udn提取聯(lián)合特征的行人檢測方法

文檔序號:9579604閱讀:715來源:國知局
一種基于改進udn提取聯(lián)合特征的行人檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機視覺的技術(shù)領(lǐng)域,具體地涉及一種基于改進UDN提取聯(lián)合特征 的行人檢測方法,主要用于車輛輔助駕駛、智能視頻監(jiān)控和人體行為分析等行業(yè)。
【背景技術(shù)】
[0002] 近年來,隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional NeuralNetworks,CNN)在行人檢測中取得了很好的效果。CNN的特點在于,直接基于圖像 檢測行人區(qū)域,避免了傳統(tǒng)識別算法中復(fù)雜的特征提取過程;卷積層利用局部感受視野策 略獲取的特征與對象的平移、縮放和旋轉(zhuǎn)無關(guān),因此所獲得的特征具有較好的魯棒性;卷積 核的權(quán)值共享結(jié)構(gòu)減少了權(quán)值的數(shù)量進而降低了網(wǎng)絡(luò)模型的復(fù)雜度,這一點在輸入特征圖 是高分辨率圖像時表現(xiàn)的更為明顯;同時,下采樣階段利用圖像局部相關(guān)性原理對特征圖 進行的子抽樣在保留有用結(jié)構(gòu)信息的同時,有效地減少了數(shù)據(jù)的處理量,因此CNN被廣泛 應(yīng)用于特征提取。
[0003]PierreSermanet等人在2013年提出無監(jiān)督多級特征學(xué)習(xí)的行人檢測模型 ConvNet。該網(wǎng)絡(luò)包含三個卷積層,并將第二層卷積下采樣后獲得的特征與第三次卷積得到 特征進行融合,最后通過全連接實現(xiàn)行人檢測。在訓(xùn)練方法上,提出了無監(jiān)督卷積稀疏自 編碼方法對網(wǎng)絡(luò)參數(shù)進行預(yù)訓(xùn)練,然后采用end-to-end的有監(jiān)督方法進行微調(diào),該方法在 Caltech上的平均漏檢率為77. 20%。
[0004]同年WanliOuyang等人結(jié)合CNN和DBN構(gòu)建了UDN(UnifiedDeepNet,統(tǒng)一深度 模型),將行人檢測的平均漏檢率降到了 39.32%。但是,UDN在進行分類時,容易把樹木、 電線桿等與行人有相似整體輪廓的非行人物體誤判為行人,因此行人檢測的平均漏檢率還 是比較高。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的技術(shù)解決問題是:克服現(xiàn)有技術(shù)的不足,提供了一種基于改進UDN提取 聯(lián)合特征的行人檢測方法,所提方法能夠有效降低行人檢測的平均漏檢率。
[0006] 本發(fā)明的技術(shù)解決方案是:這種基于改進UDN提取聯(lián)合特征的行人檢測方法,該 方法包括以下步驟:
[0007] (1)圖像預(yù)處理:對原始輸入圖像中人體的整體特征和頭部特征進行不同的預(yù)處 理,使圖像的邊緣和顏色特征更加突出,便于神經(jīng)網(wǎng)絡(luò)的特征提??;
[0008] (2)基于卷積神經(jīng)網(wǎng)絡(luò)CNN模型對預(yù)處理的圖像提取人體整體特征;
[0009] (3)基于卷積神經(jīng)網(wǎng)絡(luò)CNN模型對預(yù)處理的圖像的上1/3部分提取局部特征;
[0010] (4)對步驟⑵和⑶輸出的類別概率進行加權(quán)平均得到最終概率值,根據(jù)最終概 率值判斷原始輸入圖像是否包含行人。
[0011] 由于行人檢測場景主要是針對戶外道路交通圖像/視頻,而該場景下最容易與人 體圖像混淆的是樹木、電線桿等柱狀物體,而這些物體與人體圖像相比在頭部區(qū)域位置的 特征差別較大,因此提出聯(lián)合人體整體圖像特征和頭部圖像特征來進行行人檢測,并且以 圖像的上1/3部分作為頭部圖像,因此能夠降低行人檢測的平均漏檢率。
【附圖說明】
[0012] 圖1是根據(jù)本發(fā)明的步驟(1)圖像預(yù)處理的流程圖。
[0013] 圖2是根據(jù)本發(fā)明的步驟⑵-⑷的結(jié)構(gòu)示意圖。
[0014] 圖3是本發(fā)明在Caltech數(shù)據(jù)庫上的檢測結(jié)果。
【具體實施方式】
[0015] 這種基于改進UDN提取聯(lián)合特征的行人檢測方法,該方法包括以下步驟:
[0016] (1)圖像預(yù)處理:對原始輸入圖像中人體的整體特征和頭部特征進行不同的預(yù)處 理,使圖像的邊緣和顏色特征更加突出,便于神經(jīng)網(wǎng)絡(luò)的特征提?。?br>[0017] (2)基于卷積神經(jīng)網(wǎng)絡(luò)CNN模型對預(yù)處理的圖像提取人體整體特征;
[0018] (3)基于卷積神經(jīng)網(wǎng)絡(luò)CNN模型對預(yù)處理的圖像的上1/3部分提取局部特征;
[0019] (4)對步驟⑵和⑶輸出的類別概率進行加權(quán)平均得到最終概率值,根據(jù)最終概 率值判斷原始輸入圖像是否包含行人。
[0020] 由于行人檢測場景主要是針對戶外道路交通圖像/視頻,而該場景下最容易與人 體圖像混淆的是樹木、電線桿等柱狀物體,而這些物體與人體圖像相比在頭部區(qū)域位置的 特征差別較大,因此提出聯(lián)合人體整體圖像特征和頭部圖像特征來進行行人檢測,并且以 圖像的上1/3部分作為頭部圖像,因此能夠降低行人檢測的平均漏檢率。
[0021] 優(yōu)選地,所述步驟(1)中將原圖像轉(zhuǎn)換到Y(jié)UV顏色空間,對轉(zhuǎn)換后的圖像提取邊 緣特征,利用原圖像和邊緣圖像組合得到CNN輸入的三個通道;其中對于人體的整體特征, 第一個通道是原圖的Y通道;第二個通道被均分為四個block,分別是Y通道,U通道,V通 道,和全0;第三個通道是對原圖像進行高斯濾波后提取的邊緣特征圖像,也是分為四個 block,其中前三個block是利用sobel算子針對原圖像YUV三個通道分別計算的圖像邊 緣,第四個block是YUV三個通道的邊緣的最大值;其中對于人體的頭部特征,第一個通道 是原圖的Y通道;第二個通道是輸入圖像的H0G特征;第三個通道被均分為4個block,前 三個block是利用sobel算子針對源圖像YUV三個通道分別計算出圖像邊緣,第四個block 是YUV三個通道的邊緣的最大值。
[0022] 優(yōu)選地,在所述步驟(1)中還包括:將預(yù)處理后的圖像作為正樣本,對正樣本進行 鏡像翻轉(zhuǎn),并將翻轉(zhuǎn)后得到的圖像標定為訓(xùn)練集的正樣本的擴充。
[0023] 優(yōu)選地,所述步驟(2)包括:卷積層特征提取、進行形變計算、通過分類估計模型 進行分類估計。
[0024] 優(yōu)選地,所述步驟(3)包括:第一次卷積、池化、第二次卷積。
[0025] 現(xiàn)在給出一個本發(fā)明的詳細實施例。
[0026] 本發(fā)明主要涉及基于多特征的行人檢測方法。行人檢測的關(guān)鍵點是找到可能包含 人體的圖像區(qū)域??紤]到人體頭部相對于多變的人體姿勢而言具有更好的不變性和相對于 樹、電線桿等物體具有很好的區(qū)分性,本發(fā)明通過提取人體頭部圖像區(qū)域的特征輔助行人 檢測。
[0027] 本發(fā)明所用到的基礎(chǔ)數(shù)據(jù)來自Caltech數(shù)據(jù)庫,訓(xùn)練和測試樣本圖像均為Wanli Ouyan等人利用H0G+CSS+SVM對Caltech數(shù)據(jù)庫中的圖像進行區(qū)域劃分和分類后得到的圖 像集,每張圖像是數(shù)據(jù)庫中原圖像分割得到的84X28大小的區(qū)域圖像,正樣本圖像是包含 行人的圖像,負樣本是不包含行人的圖像。
[0028] 本發(fā)明提出的行人檢測網(wǎng)絡(luò)模型包含兩個子網(wǎng),分別用于提取行人的整體特征和 區(qū)域特征,行人的整體特征提取采用類似于UDN的網(wǎng)絡(luò)結(jié)構(gòu)?;趦蓚€子網(wǎng)提取的特征分 別計算該圖像屬于行人類別的得分,對兩部分得分進行加權(quán)求和求出該樣本是行人類別的 概率。
[0029] 1、圖像預(yù)處理
[0030] 適當?shù)膱D像預(yù)處理方法,可以消除原始圖像中的天氣、光照等環(huán)境影響,使圖像的 邊緣和顏色特征更加突出,便于神經(jīng)網(wǎng)絡(luò)的特征提取。由于人體的整體特征和頭部特征的 分布不同,我們對這兩個特征圖的原始輸入進行不同的預(yù)處理。
[0031] 1.1卷積網(wǎng)絡(luò)輸入數(shù)據(jù)
[0032] 本發(fā)明首先將源圖像轉(zhuǎn)換到Y(jié)UV顏色空間,對轉(zhuǎn)換后的圖像提取邊緣特征,利用 源圖像和邊緣圖像組合得到CNN輸入的三個通道(如圖1)。
[0033] 整體特征CNN:第一個通道是原圖的Y通道;第二個通道被均分為四個block,分 別是Y通道,U通道,V通道,和全0 ;第三個通道是對源圖像進行高斯濾波后提取的邊緣特 征圖像,也是分為四個block,其中前三個block是利用sobel算子針對源圖像YUV三個通 道分別計算的圖像邊緣,第四個block是YUV三個通道的邊緣的最大值。
[0034] 局部特征CNN:該網(wǎng)絡(luò)使用的源圖像是整體特征CNN網(wǎng)絡(luò)所用源圖像的上1/3區(qū) 域圖像。網(wǎng)絡(luò)輸入第一個通道是原圖的Y通道;第二個通道是輸入圖像的H0G特征;第三個 通道被均分為4個block,前三個block是利用sobel算子針對源圖像YUV三個通道分別計 算出圖像邊緣,第四個block是YUV三個通道的邊緣的最大值。
[0035] 1. 2訓(xùn)練樣本擴充
[0036] 由于所用數(shù)據(jù)集為車載攝像頭拍攝的街景視頻,正樣本數(shù)量較少,為了提高算法 的泛化能力,本發(fā)明采用對正樣本進行鏡像翻轉(zhuǎn)并將反轉(zhuǎn)后得到的圖像標定為訓(xùn)練集的正 樣本的擴充方法。網(wǎng)絡(luò)訓(xùn)練時,輸入樣本為隨機選擇得到,每組實驗輸入60個樣本,包括50 個負樣本和10個正樣本。
[0037] 2、行人檢測網(wǎng)絡(luò)模型
[0038] 本發(fā)明的網(wǎng)絡(luò)結(jié)構(gòu)聯(lián)合考慮圖像區(qū)域整體特征與圖像上1/3區(qū)域的局部特征,網(wǎng) 絡(luò)結(jié)構(gòu)如圖2所示。
[0039] 2. 1待檢測區(qū)域整體特征提取
[0040] 基于圖像提取人體整體特征是指將源圖像作為網(wǎng)絡(luò)的輸入,提取行人特征,便于 行人與非行人的判別。
[0041] 2. 1. 1卷積層特征提取
[0042] 本發(fā)明中整體特征提取由2個卷積層和1個池化層交替完成。卷積操作實現(xiàn)輸入 信號在特定模式下的觀測。第一層卷積操作的輸入^是84X28大小的圖像,卷積核大小 為9X9,輸出特征圖7]的計算公式如式(2. 1)所示:
[0043] yj=bj+Σ (2. 1)
[0044] 其中,i表示輸入特征圖的數(shù)量,j表示輸出特征圖的數(shù)量,Wg為待求的卷積核參 數(shù),b,是偏置參數(shù),wu和b,在實驗開始時采用隨機初始化的方式獲取。
[0045] 接下來對卷積階段得到的特征按照一定的原則進行篩選,通常采用非線性變換函 數(shù)作為篩選策略。本發(fā)明采用的非線性變換函數(shù)是softplus,因為softplus與神經(jīng)學(xué)領(lǐng) 域提出的腦神經(jīng)元激活頻率函數(shù)有相似的特性,且在訓(xùn)練梯度下降時,softplus比傳統(tǒng)的 sigomid等飽和非線性函數(shù)有更快的收斂速度,其公式如式(2. 2)所示:
[0046]softplus:y=log(l+ex) (2. 2)
[0047] 其中,x表示卷積階段得到的特征,y表示激活函數(shù)的輸出結(jié)果。池化階段采用的 是平均池化方式,通過計算每4X4鄰域內(nèi)像素的均值
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1