本發(fā)明涉及圖像處理、視頻監(jiān)控以及安防,特別涉及行人檢測(cè)方法及裝置。
背景技術(shù):
行人檢測(cè)是機(jī)器人視覺(jué)、車(chē)輛輔助駕駛、智能視頻監(jiān)控和人體行為分析等應(yīng)用中的第一步,近年來(lái)也應(yīng)用在航拍圖像、受害者營(yíng)救等新興領(lǐng)域中,但行人兼具剛性和柔性物體的特性,外觀一首穿著、尺度、遮擋、姿態(tài)和視角等影響,使得行人檢測(cè)成為計(jì)算機(jī)視覺(jué)研究的熱點(diǎn)和難點(diǎn)。
目前,基于機(jī)器學(xué)習(xí)的行人檢測(cè)方法主要包括兩個(gè)重要方面:特征描述算子和學(xué)習(xí)算法。特征描述算子包括:Haar、HOG(梯度方向直方圖)、LBP(局部二值模式)、edgelet(邊緣特征)以及shapelet等。學(xué)習(xí)算法有SVM(支持向量機(jī))、Adaboost級(jí)聯(lián)分類(lèi)器、神經(jīng)網(wǎng)絡(luò)、以及深度學(xué)習(xí)等。其中深度學(xué)習(xí)由于其在圖像分類(lèi)、識(shí)別的優(yōu)異特性,近年來(lái)基于深度學(xué)習(xí)的行人檢測(cè)方法成為研究熱點(diǎn)。
公開(kāi)號(hào)為CN104063719A的中國(guó)發(fā)明專(zhuān)利申請(qǐng)公開(kāi)了一種基于深度卷積網(wǎng)絡(luò)的行人檢測(cè)方法及裝置,該方法包括:卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練步驟和行人檢測(cè)步驟;其中卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練為:從圖像庫(kù)中選取多組樣本圖像數(shù)據(jù);將一組樣本圖像數(shù)據(jù)送入多層神經(jīng)卷積網(wǎng)絡(luò)的輸入層;計(jì)算神經(jīng)卷積網(wǎng)絡(luò)的中間層的輸出矢量以及輸出層的實(shí)際輸出矢量得出中間層誤差以及輸出層誤差;調(diào)整輸出層矢量元素到中間層輸出矢量元素的權(quán)值以及中間層輸出矢量元素到輸出層矢量元素的權(quán)值;判斷總誤差函數(shù)值,并利用訓(xùn)練后的網(wǎng)絡(luò)檢測(cè)行人。公開(kāi)號(hào)為CN105335716A的中國(guó)發(fā)明專(zhuān)利申請(qǐng)公開(kāi)了一種基于改進(jìn)UDN提取聯(lián)合特征的行人檢測(cè)方法,該方法包括:對(duì)原始輸入圖像中的人體的整體特征和頭部特征進(jìn)行不同的預(yù)處理;基于卷積神經(jīng)網(wǎng)絡(luò)CNN模型對(duì)預(yù)處理的圖像提取人體整體特征;基于卷積神經(jīng)網(wǎng)絡(luò)CNN模型對(duì)預(yù)處理的圖像的上1/3部分提取局部特征;對(duì)輸出的類(lèi)別概率進(jìn)行加權(quán)平均得到最終概率值,根據(jù)最終概率值判斷原始輸入圖像是否包含行人。
然而,上述行人檢測(cè)方法運(yùn)行時(shí)間較長(zhǎng)、魯棒性較差。
綜上所述,目前迫切需要提出一種快速且魯棒性較好的行人檢測(cè)方法及裝置。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的主要目的在于實(shí)現(xiàn)快速的行人檢測(cè),且魯棒性較好。
為達(dá)到上述目的,按照本發(fā)明的第一個(gè)方面,提供了基于顯著性檢測(cè)和卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)方法,該方法包括:
第一步驟,選取標(biāo)簽行人和非行人的樣本圖像,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本圖像進(jìn)行訓(xùn)練,獲取訓(xùn)練好的行人分類(lèi)模型;
第二步驟,采集場(chǎng)景彩色圖像;
第三步驟,采用顯著性檢測(cè)算法提取顯著區(qū)域,并通過(guò)篩選獲取行人的候選區(qū)域;及
第四步驟,利用訓(xùn)練好的行人分類(lèi)模型對(duì)行人的候選區(qū)域進(jìn)行識(shí)別,輸出識(shí)別結(jié)果。
所述第一步驟進(jìn)一步包括:
樣本選取步驟,選取Th_ped個(gè)標(biāo)簽的行人灰度圖像作為正樣本圖像,選取Th_nonped個(gè)標(biāo)簽的非行人灰度圖像作為負(fù)樣本圖像;
初步訓(xùn)練步驟,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)正樣本圖像和負(fù)樣本圖像進(jìn)行特征訓(xùn)練,獲得初步訓(xùn)練的模型;
二次訓(xùn)練步驟,選取Th_Test個(gè)測(cè)試灰度圖像,根據(jù)初步訓(xùn)練的模型對(duì)測(cè)試灰度圖像進(jìn)行反復(fù)訓(xùn)練,直至模型收斂,該收斂的模型即為訓(xùn)練好的行人分類(lèi)模型。
所述初步訓(xùn)練步驟中卷積神經(jīng)網(wǎng)絡(luò)包括:輸入層、Th_Conc個(gè)卷積層、Th_Pool個(gè)池化層、Th_Full個(gè)全連接層。
所述第i個(gè)卷積層包括Th_CKi個(gè)卷積核,卷積核的大小為CKSi*CKSi、步長(zhǎng)為T(mén)h_CSi,i=1,2,…,Th_Conc;第j個(gè)池化層的核的大小為PKSj*PKSj、步長(zhǎng)為T(mén)h_PSj,j=1,2,…,Th_Pool;所述全連接層的最后一層全連接層輸出的神經(jīng)元的數(shù)量為2。
所述二次訓(xùn)練步驟進(jìn)一步包括:
訓(xùn)練特征提取步驟,根據(jù)初步訓(xùn)練的模型提取Th_Test個(gè)測(cè)試灰度圖像的特征;
訓(xùn)練分類(lèi)判定步驟,分別計(jì)算該測(cè)試灰度圖像的特征與行人類(lèi)別的相似度Simi1、非行人類(lèi)別特征的相似度Simi2,若Simi1>Simi2,則判定為行人類(lèi)別,否則判定為非行人類(lèi)別;
反復(fù)訓(xùn)練步驟,計(jì)算判定結(jié)果與真實(shí)結(jié)果的誤差,利用反向傳播算法來(lái)訓(xùn)練模型,重復(fù)訓(xùn)練特征提取步驟和訓(xùn)練分類(lèi)判定步驟,直至該模型收斂,收斂的模型即為訓(xùn)練好的行人分類(lèi)模型。
所述第三步驟進(jìn)一步包括:
高斯濾波處理步驟,對(duì)場(chǎng)景彩色圖像進(jìn)行高斯濾波處理,獲取高斯圖像IG(x,y),其中(x,y)為圖像的像素點(diǎn);
色彩空間計(jì)算步驟,將場(chǎng)景彩色圖像轉(zhuǎn)換到CIELAB色彩空間,并計(jì)算L分量、A分量、B分量的平均值M、N分別為場(chǎng)景彩色圖像的寬度和高度,L(x,y)、A(x,y)、B(x,y)分別為CIELAB色彩空間像素點(diǎn)(x,y)的L分量、A分量、B分量的亮度值;
顯著圖獲取步驟,計(jì)算高斯圖像IG與μL、μA、μB的歐幾里得距離得到顯著圖S(x,y)=[IG(x,y)-μL]2+[IG(x,y)-μA]2+[IG(x,y)-μB]2;
中值濾波處理步驟,對(duì)顯著圖S(x,y)進(jìn)行中值濾波處理,獲取中值濾波處理后的顯著圖S′(x,y);
顯著區(qū)域獲取步驟,利用迭代算法計(jì)算分割閾值ST,利用分割閾值ST分割中值濾波處理后的顯著圖S′(x,y),獲取顯著區(qū)域SRk,k=1,2,…,SNum,SNum為顯著區(qū)域的個(gè)數(shù);
顯著區(qū)域篩選步驟,統(tǒng)計(jì)顯著區(qū)域SRk內(nèi)前景點(diǎn)的總數(shù)FSumk,若FSumk<Th_FSum,則刪除該顯著區(qū)域,將該顯著區(qū)域內(nèi)的前景點(diǎn)置為背景點(diǎn);
行人的候選區(qū)域輸出步驟,將剩余的顯著區(qū)域作為行人的候選區(qū)域并輸出。
所述顯著區(qū)域獲取步驟進(jìn)一步包括:
初始分割閾值選取步驟,計(jì)算中值濾波處理后的顯著圖S′(x,y)的平均灰度值ST,將ST作為初始分割閾值;
分割閾值更新步驟,提取S′(x,y)≥ST的像素點(diǎn)作為第一分割圖像S′1(x,y),提取S′(x,y)<ST的像素點(diǎn)作為第二分割圖像S′2(x,y),分別計(jì)算S′1(x,y)、S′2(x,y)的平均灰度值ST1、ST2,
分割閾值迭代步驟,重復(fù)分割閾值更新步驟,若連續(xù)兩次計(jì)算的ST的差值ΔST≤Th_ST,則轉(zhuǎn)入顯著區(qū)域分割步驟;
顯著區(qū)域分割步驟,將S′(x,y)≥ST的像素點(diǎn)設(shè)置為前景點(diǎn),S′(x,y)<ST的像素點(diǎn)設(shè)置為背景點(diǎn),利用連通區(qū)域方法進(jìn)行處理,獲取前景點(diǎn)的連通區(qū)域作為顯著區(qū)域SRk,k=1,2,…,SNum,SNum為顯著區(qū)域的個(gè)數(shù)。
所述第四步驟進(jìn)一步包括:
檢測(cè)特征提取步驟,根據(jù)訓(xùn)練好的行人分類(lèi)模型提取行人的候選區(qū)域的特征;
檢測(cè)分類(lèi)判定步驟,分別計(jì)算該行人的候選區(qū)域的特征與行人類(lèi)別的相似度Simi1、非行人類(lèi)別特征的相似度Simi2,若Simi1>Simi2,則判定為行人類(lèi)別,否則判定為非行人類(lèi)別,輸出判定結(jié)果。
按照本發(fā)明的另一個(gè)方面,提供了基于顯著性檢測(cè)和卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)裝置,該裝置包括:
行人檢測(cè)模型訓(xùn)練模塊,用于選取標(biāo)簽行人和非行人的樣本圖像,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本圖像進(jìn)行訓(xùn)練,獲取訓(xùn)練好的行人分類(lèi)模型;
彩色圖像采集模塊,用于采集場(chǎng)景彩色圖像;
行人的候選區(qū)域獲取模塊,用于采用顯著性檢測(cè)算法提取顯著區(qū)域,并通過(guò)篩選獲取行人的候選區(qū)域;及
行人檢測(cè)輸出模塊,用于利用訓(xùn)練好的行人分類(lèi)模型對(duì)行人的候選區(qū)域進(jìn)行識(shí)別,輸出識(shí)別結(jié)果。
所述行人檢測(cè)模型訓(xùn)練模塊進(jìn)一步包括:
樣本選取模塊,用于選取Th_ped個(gè)標(biāo)簽的行人灰度圖像作為正樣本圖像,選取Th_nonped個(gè)標(biāo)簽的非行人灰度圖像作為負(fù)樣本圖像;
初步訓(xùn)練模塊,用于利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)正樣本圖像和負(fù)樣本圖像進(jìn)行特征訓(xùn)練,獲得初步訓(xùn)練的模型;
二次訓(xùn)練模塊,用于選取Th_Test個(gè)測(cè)試灰度圖像,根據(jù)初步訓(xùn)練的模型對(duì)測(cè)試灰度圖像進(jìn)行反復(fù)訓(xùn)練,直至模型收斂,該收斂的模型即為訓(xùn)練好的行人分類(lèi)模型。
所述初步訓(xùn)練模塊中卷積神經(jīng)網(wǎng)絡(luò)包括:輸入層、Th_Conc個(gè)卷積層、Th_Pool個(gè)池化層、Th_Full個(gè)全連接層。
所述第i個(gè)卷積層包括Th_CKi個(gè)卷積核,卷積核的大小為CKSi*CKSi、步長(zhǎng)為T(mén)h_CSi,i=1,2,…,Th_Conc;第j個(gè)池化層的核的大小為PKSj*PKSj、步長(zhǎng)為T(mén)h_PSj,j=1,2,…,Th_Pool;所述全連接層的最后一層全連接層輸出的神經(jīng)元的數(shù)量為2。
所述二次訓(xùn)練模塊進(jìn)一步包括:
訓(xùn)練特征提取模塊,用于根據(jù)初步訓(xùn)練的模型提取Th_Test個(gè)測(cè)試灰度圖像的特征;
訓(xùn)練分類(lèi)判定模塊,用于分別計(jì)算該測(cè)試灰度圖像的特征與行人類(lèi)別的相似度Simi1、非行人類(lèi)別特征的相似度Simi2,若Simi1>Simi2,則判定為行人類(lèi)別,否則判定為非行人類(lèi)別;
反復(fù)訓(xùn)練模塊,用于計(jì)算判定結(jié)果與真實(shí)結(jié)果的誤差,利用反向傳播算法來(lái)訓(xùn)練模型,重復(fù)訓(xùn)練特征提取模塊和訓(xùn)練分類(lèi)判定模塊,直至該模型收斂,收斂的模型即為訓(xùn)練好的行人分類(lèi)模型。
所述行人的候選區(qū)域獲取模塊進(jìn)一步包括:
高斯濾波處理模塊,用于對(duì)場(chǎng)景彩色圖像進(jìn)行高斯濾波處理,獲取高斯圖像IG(x,y),其中(x,y)為圖像的像素點(diǎn);
色彩空間計(jì)算模塊,用于將場(chǎng)景彩色圖像轉(zhuǎn)換到CIELAB色彩空間,并計(jì)算L分量、A分量、B分量的平均值M、N分別為場(chǎng)景彩色圖像的寬度和高度,L(x,y)、A(x,y)、B(x,y)分別為CIELAB色彩空間像素點(diǎn)(x,y)的L分量、A分量、B分量的亮度值;
顯著圖獲取模塊,用于計(jì)算高斯圖像IG與μL、μA、μB的歐幾里得距離得到顯著圖S(x,y)=[IG(x,y)-μL]2+[IG(x,y)-μA]2+[IG(x,y)-μB]2;
中值濾波處理模塊,用于對(duì)顯著圖S(x,y)進(jìn)行中值濾波處理,獲取中值濾波處理后的顯著圖S′(x,y);
顯著區(qū)域獲取模塊,用于利用迭代算法計(jì)算分割閾值ST,利用分割閾值ST分割中值濾波處理后的顯著圖S′(x,y),獲取顯著區(qū)域SRk,k=1,2,…,SNum,SNum為顯著區(qū)域的個(gè)數(shù);
顯著區(qū)域篩選模塊,用于統(tǒng)計(jì)顯著區(qū)域SRk內(nèi)前景點(diǎn)的總數(shù)FSumk,若FSumk<Th_FSum,則刪除該顯著區(qū)域,將該顯著區(qū)域內(nèi)的前景點(diǎn)置為背景點(diǎn);
行人的候選區(qū)域輸出模塊,用于將剩余的顯著區(qū)域作為行人的候選區(qū)域并輸出。
所述顯著區(qū)域獲取模塊進(jìn)一步包括:
初始分割閾值選取模塊,用于計(jì)算中值濾波處理后的顯著圖S′(x,y)的平均灰度值ST,將ST作為初始分割閾值;
分割閾值更新模塊,用于提取S′(x,y)≥ST的像素點(diǎn)作為第一分割圖像S′1(x,y),提取S′(x,y)<ST的像素點(diǎn)作為第二分割圖像S′2(x,y),分別計(jì)算S′1(x,y)、S′2(x,y)的平均灰度值ST1、ST2,
分割閾值迭代模塊,用于重復(fù)分割閾值更新模塊,若連續(xù)兩次計(jì)算的ST的差值ΔST≤Th_ST,則轉(zhuǎn)入顯著區(qū)域分割模塊;
顯著區(qū)域分割模塊,用于將S′(x,y)≥ST的像素點(diǎn)設(shè)置為前景點(diǎn),S′(x,y)<ST的像素點(diǎn)設(shè)置為背景點(diǎn),利用連通區(qū)域方法進(jìn)行處理,獲取前景點(diǎn)的連通區(qū)域作為顯著區(qū)域SRk,k=1,2,…,SNum,SNum為顯著區(qū)域的個(gè)數(shù)。
所述行人檢測(cè)輸出模塊進(jìn)一步包括:
檢測(cè)特征提取模塊,用于根據(jù)訓(xùn)練好的行人分類(lèi)模型提取行人的候選區(qū)域的特征;
檢測(cè)分類(lèi)判定模塊,用于分別計(jì)算該行人的候選區(qū)域的特征與行人類(lèi)別的相似度Simi1、非行人類(lèi)別特征的相似度Simi2,若Simi1>Simi2,則判定為行人類(lèi)別,否則判定為非行人類(lèi)別,輸出判定結(jié)果。
與現(xiàn)有的行人檢測(cè)技術(shù)相比,本發(fā)明的基于顯著性檢測(cè)和卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)方法及裝置一方面采用顯著性檢測(cè)算法先獲取可能是行人的候選區(qū)域,提高了檢測(cè)速度;另一方面采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本圖像進(jìn)行訓(xùn)練,根據(jù)訓(xùn)練好的行人分類(lèi)模型對(duì)行人的候選區(qū)域進(jìn)行識(shí)別,提高了行人的識(shí)別準(zhǔn)確率,且魯棒性較好。
附圖說(shuō)明
圖1示出了按照本發(fā)明的基于顯著性檢測(cè)和卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)方法的流程圖。
圖2示出了按照本發(fā)明的第三步驟的流程圖。
圖3示出了按照本發(fā)明的基于顯著性檢測(cè)和卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)裝置的框架圖。
圖4示出了按照本發(fā)明的行人的候選區(qū)域獲取模塊的框架圖。
具體實(shí)施方式
為使貴審查員能進(jìn)一步了解本發(fā)明的結(jié)構(gòu)、特征及其他目的,現(xiàn)結(jié)合所附較佳實(shí)施例詳細(xì)說(shuō)明如下,所說(shuō)明的較佳實(shí)施例僅用于說(shuō)明本發(fā)明的技術(shù)方案,并非限定本發(fā)明。
圖1給出了按照本發(fā)明的基于顯著性檢測(cè)和卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)方法的流程圖。如圖1所示,按照本發(fā)明的基于顯著性檢測(cè)和卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)方法包括:
第一步驟S1,選取標(biāo)簽行人和非行人的樣本圖像,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本圖像進(jìn)行訓(xùn)練,獲取訓(xùn)練好的行人分類(lèi)模型;
第二步驟S2,采集場(chǎng)景彩色圖像;
第三步驟S3,采用顯著性檢測(cè)算法提取顯著區(qū)域,并通過(guò)篩選獲取行人的候選區(qū)域;及
第四步驟S4,利用訓(xùn)練好的行人分類(lèi)模型對(duì)行人的候選區(qū)域進(jìn)行識(shí)別,輸出識(shí)別結(jié)果。
所述第一步驟S1進(jìn)一步包括:
樣本選取步驟S11,選取Th_ped個(gè)標(biāo)簽的行人灰度圖像作為正樣本圖像,選取Th_nonped個(gè)標(biāo)簽的非行人灰度圖像作為負(fù)樣本圖像;
初步訓(xùn)練步驟S12,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)正樣本圖像和負(fù)樣本圖像進(jìn)行特征訓(xùn)練,獲得初步訓(xùn)練的模型;
二次訓(xùn)練步驟S13,選取Th_Test個(gè)測(cè)試灰度圖像,根據(jù)初步訓(xùn)練的模型對(duì)測(cè)試灰度圖像進(jìn)行反復(fù)訓(xùn)練,直至模型收斂,該收斂的模型即為訓(xùn)練好的行人分類(lèi)模型。
其中,所述樣本選取步驟S11中Th_ped≥1000,Th_nonped≥0。當(dāng)Th_nonped選為0時(shí),沒(méi)選取負(fù)樣本圖像。所述二次訓(xùn)練步驟S13中Th_Test≥1000。
優(yōu)選地,Th_ped≥5000,Th_nonped≥1000,Th_Test≥4000。
所述樣本選取步驟S11中標(biāo)簽的正樣本灰度圖像根據(jù)光照環(huán)境、性別、年齡、發(fā)型、服裝進(jìn)行選取。選取的標(biāo)簽正樣本圖像涵蓋不同的光照環(huán)境、性別、年齡、發(fā)型、服裝。光照環(huán)境包括:晴天、陰天、雨天、黑夜等。發(fā)型包括:長(zhǎng)發(fā)、短發(fā)、光頭等。不同的服裝包括:短袖、長(zhǎng)袖、裙子、帽子、背包等。
所述標(biāo)簽的非行人灰度圖像為不含有行人的灰度圖像。
所述樣本選取步驟S11中若標(biāo)簽的行人圖像和非行人圖像為彩色圖像,則先進(jìn)行灰度化處理,以獲取標(biāo)簽的行人灰度圖像和非行人灰度圖像。
所述初步訓(xùn)練步驟S12中卷積神經(jīng)網(wǎng)絡(luò)包括:輸入層、Th_Conc個(gè)卷積層、Th_Pool個(gè)池化層、Th_Full個(gè)全連接層。
所述第i個(gè)卷積層包括Th_CKi個(gè)卷積核,卷積核的大小為CKSi*CKSi、步長(zhǎng)為T(mén)h_CSi,i=1,2,…,Th_Conc;第j個(gè)池化層的核的大小為PKSj*PKSj、步長(zhǎng)為T(mén)h_PSj,j=1,2,…,Th_Pool;所述全連接層的最后一層全連接層輸出的神經(jīng)元的數(shù)量為2。
所述Th_Con∈[2,22],Th_Pool∈[2,16],Th_Full∈[1,4]。Th_CKi∈[4,512],CKSi∈[3,11],Th_CSi∈[1,2],PKSj∈[2,4],Th_PKj∈[2,4]。
進(jìn)一步地,所述Th_Con∈[2,12],Th_Pool∈[2,10],Th_Full∈[1,3]。Th_CKi∈[4,200],CKSi∈[3,9],Th_CSi∈[1,2],PKSj∈[2,4],Th_PKj∈[2,3]。
優(yōu)選地,所述卷積神經(jīng)網(wǎng)絡(luò)包括:
輸入層,輸入Th_Width*Th_Height的圖像;
第一層卷積層,輸出Th_CK1個(gè)卷積核,卷積核的大小為CKS1*CKS1、步長(zhǎng)為T(mén)h_CS1;
第一層池化層,采用最大池化法輸出PKS1*PKS1、步長(zhǎng)為T(mén)h_PS1的核;
第二層卷積層,輸出Th_CK2個(gè)卷積核,卷積核的大小為CKS2*CKS2、步長(zhǎng)為T(mén)h_CS2;
第二層池化層,采用最大池化法輸出PKS2*PKS2、步長(zhǎng)為T(mén)h_PS2的核;
第三層卷積層,輸出Th_CK3個(gè)卷積核,卷積核的大小為CKS3*CKS3、步長(zhǎng)為T(mén)h_CS3;
第一層全連接層,采用ReLU作為激活函數(shù),輸出Th_Neur個(gè)神經(jīng)元;
第二層全連接層,輸出2個(gè)類(lèi)別。
其中,Th_Width和Th_Height分別為輸入圖像的寬度和高度,Th_Width∈[32,128],Th_Height∈[64,256]。Th_CK1∈[6,20],CKS1∈[5,9],Th_CS1∈[1,2]。PKS1∈[2,4],Th_PK1∈[2,3]。Th_CK2∈[10,40],CKS2∈[3,5],Th_CS2∈[1,2]。PKS2∈[2,4],Th_PK2∈[2,3]。Th_CK3∈[10,40],CKS3∈[3,5],Th_CS3∈[1,2]。Th_Neur∈[160,10000]。
優(yōu)選地,Th_Width選為64,Th_Height選為128;Th_CK1選為16,CKS1選為9,Th_CS1選為1;PKS1選為2,Th_PS1選為2;Th_CK2選為32,CKS2選為5,Th_CS2選為1;PKS2選為2,Th_PS2選為2;Th_CK3選為32,CKS3選為3,Th_CS3選為1。Th_Neur設(shè)為256。
所述第一層池化層和第二層池化層中的最大池化法可以替換為平均池化法或者隨機(jī)池化法。
所述第一層全連接層中ReLU全稱(chēng)為Rectified Linear Units,中文譯為修正線性單元,可以參考文獻(xiàn)“Taming the ReLU with Parallel Dither in a Deep Neural Network.AJR Simpson.Computer Science,2015”。
所述第一層全連接層中ReLU可以替換為sigmoid函數(shù)或者tanh函數(shù)作為激活函數(shù)。
所述二次訓(xùn)練步驟S13進(jìn)一步包括:
訓(xùn)練特征提取步驟S131,根據(jù)初步訓(xùn)練的模型提取Th_Test個(gè)測(cè)試灰度圖像的特征;
訓(xùn)練分類(lèi)判定步驟S132,分別計(jì)算該測(cè)試灰度圖像的特征與行人類(lèi)別的相似度Simi1、非行人類(lèi)別特征的相似度Simi2,若Simi1>Simi2,則判定為行人類(lèi)別,否則判定為非行人類(lèi)別;
反復(fù)訓(xùn)練步驟S133,計(jì)算判定結(jié)果與真實(shí)結(jié)果的誤差,利用反向傳播算法來(lái)訓(xùn)練模型,重復(fù)訓(xùn)練特征提取步驟S131和訓(xùn)練分類(lèi)判定步驟S132,直至該模型收斂,收斂的模型即為訓(xùn)練好的行人分類(lèi)模型。
其中,所述反向傳播算法通過(guò)現(xiàn)有的技術(shù)實(shí)現(xiàn)。
所述第二步驟S2中采集場(chǎng)景彩色圖像也可以替換為輸入場(chǎng)景彩色圖像。所述場(chǎng)景彩色圖像是指實(shí)際場(chǎng)景的彩色圖像。
圖2給出了按照本發(fā)明的第三步驟的流程圖。如圖2所示,按照本發(fā)明的第三步驟S3進(jìn)一步包括:
高斯濾波處理步驟S31,對(duì)場(chǎng)景彩色圖像進(jìn)行高斯濾波處理,獲取高斯圖像IG(x,y),其中(x,y)為圖像的像素點(diǎn);
色彩空間計(jì)算步驟S32,將場(chǎng)景彩色圖像轉(zhuǎn)換到CIELAB色彩空間,并計(jì)算L分量、A分量、B分量的平均值M、N分別為場(chǎng)景彩色圖像的寬度和高度,L(x,y)、A(x,y)、B(x,y)分別為CIELAB色彩空間像素點(diǎn)(x,y)的L分量、A分量、B分量的亮度值;
顯著圖獲取步驟S33,計(jì)算高斯圖像IG與μL、μA、μB的歐幾里得距離得到顯著圖S(x,y)=[IG(x,y)-μL]2+[IG(x,y)-μA]2+[IG(x,y)-μB]2;
中值濾波處理步驟S34,對(duì)顯著圖S(x,y)進(jìn)行中值濾波處理,獲取中值濾波處理后的顯著圖S′(x,y);
顯著區(qū)域獲取步驟S35,利用迭代算法計(jì)算分割閾值ST,利用分割閾值ST分割中值濾波處理后的顯著圖S′(x,y),獲取顯著區(qū)域SRk,k=1,2,…,SNum,SNum為顯著區(qū)域的個(gè)數(shù);
顯著區(qū)域篩選步驟S36,統(tǒng)計(jì)顯著區(qū)域SRk內(nèi)前景點(diǎn)的總數(shù)FSumk,若FSumk<Th_FSum,則刪除該顯著區(qū)域,將該顯著區(qū)域內(nèi)的前景點(diǎn)置為背景點(diǎn);
行人的候選區(qū)域輸出步驟S37,將剩余的顯著區(qū)域作為行人的候選區(qū)域并輸出。
其中,所述高斯濾波處理步驟S31中的高斯濾波處理通過(guò)現(xiàn)有技術(shù)實(shí)現(xiàn)。
所述中值濾波處理步驟S34中的中值濾波處理通過(guò)現(xiàn)有技術(shù)實(shí)現(xiàn)。
所述顯著區(qū)域獲取步驟S35進(jìn)一步包括:
初始分割閾值選取步驟S351,計(jì)算中值濾波處理后的顯著圖S′(x,y)的平均灰度值ST,將ST作為初始分割閾值;
分割閾值更新步驟S352,提取S′(x,y)≥ST的像素點(diǎn)作為第一分割圖像S′1(x,y),提取S′(x,y)<ST的像素點(diǎn)作為第二分割圖像S′2(x,y),分別計(jì)算S′1(x,y)、S′2(x,y)的平均灰度值ST1、ST2,
分割閾值迭代步驟S353,重復(fù)分割閾值更新步驟S352,若連續(xù)兩次計(jì)算的ST的差值ΔST≤Th_ST,則轉(zhuǎn)入顯著區(qū)域分割步驟S354;
顯著區(qū)域分割步驟S354,將S′(x,y)≥ST的像素點(diǎn)設(shè)置為前景點(diǎn),S′(x,y)<ST的像素點(diǎn)設(shè)置為背景點(diǎn),利用連通區(qū)域方法進(jìn)行處理,獲取前景點(diǎn)的連通區(qū)域作為顯著區(qū)域SRk,k=1,2,…,SNum,SNum為顯著區(qū)域的個(gè)數(shù)。
所述分割閾值迭代步驟S353中Th_ST∈[0.3,0.7]。優(yōu)選地,Th_ST選為0.5。
所述顯著區(qū)域分割步驟S354中連通區(qū)域方法為現(xiàn)有技術(shù)。
所述顯著區(qū)域篩選步驟S36中Th_FSum∈[10,50]。優(yōu)選地,Th_FSum選為20。
所述第四步驟S4進(jìn)一步包括:
檢測(cè)特征提取步驟S41,根據(jù)訓(xùn)練好的行人分類(lèi)模型提取行人的候選區(qū)域的特征;
檢測(cè)分類(lèi)判定步驟S42,分別計(jì)算該行人的候選區(qū)域的特征與行人類(lèi)別的相似度Simi1、非行人類(lèi)別特征的相似度Simi2,若Simi1>Simi2,則判定為行人類(lèi)別,否則判定為非行人類(lèi)別,輸出判定結(jié)果。
圖3給出了按照本發(fā)明的基于顯著性檢測(cè)和卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)裝置的框架圖。如圖3所示,按照本發(fā)明的基于顯著性檢測(cè)和卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)裝置包括:
行人檢測(cè)模型訓(xùn)練模塊1,用于選取標(biāo)簽行人和非行人的樣本圖像,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本圖像進(jìn)行訓(xùn)練,獲取訓(xùn)練好的行人分類(lèi)模型;
彩色圖像采集模塊2,用于采集場(chǎng)景彩色圖像;
行人的候選區(qū)域獲取模塊3,用于采用顯著性檢測(cè)算法提取顯著區(qū)域,并通過(guò)篩選獲取行人的候選區(qū)域;及
行人檢測(cè)輸出模塊4,用于利用訓(xùn)練好的行人分類(lèi)模型對(duì)行人的候選區(qū)域進(jìn)行識(shí)別,輸出識(shí)別結(jié)果。
所述行人檢測(cè)模型訓(xùn)練模塊1進(jìn)一步包括:
樣本選取模塊11,用于選取Th_ped個(gè)標(biāo)簽的行人灰度圖像作為正樣本圖像,選取Th_nonped個(gè)標(biāo)簽的非行人灰度圖像作為負(fù)樣本圖像;
初步訓(xùn)練模塊12,用于利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)正樣本圖像和負(fù)樣本圖像進(jìn)行特征訓(xùn)練,獲得初步訓(xùn)練的模型;
二次訓(xùn)練模塊13,用于選取Th_Test個(gè)測(cè)試灰度圖像,根據(jù)初步訓(xùn)練的模型對(duì)測(cè)試灰度圖像進(jìn)行反復(fù)訓(xùn)練,直至模型收斂,該收斂的模型即為訓(xùn)練好的行人分類(lèi)模型。
其中,所述樣本選取模塊11中Th_ped≥1000,Th_nonped≥0。當(dāng)Th_nonped選為0時(shí),沒(méi)選取負(fù)樣本圖像。所述二次訓(xùn)練模塊13中Th_Test≥1000。
優(yōu)選地,Th_ped≥5000,Th_nonped≥1000,Th_Test≥4000。
所述樣本選取模塊11中標(biāo)簽的正樣本灰度圖像根據(jù)光照環(huán)境、性別、年齡、發(fā)型、服裝進(jìn)行選取。選取的標(biāo)簽正樣本圖像涵蓋不同的光照環(huán)境、性別、年齡、發(fā)型、服裝。光照環(huán)境包括:晴天、陰天、雨天、黑夜等。發(fā)型包括:長(zhǎng)發(fā)、短發(fā)、光頭等。不同的服裝包括:短袖、長(zhǎng)袖、裙子、帽子、背包等。
所述標(biāo)簽的非行人灰度圖像為不含有行人的灰度圖像。
所述樣本選取模塊11中若標(biāo)簽的行人圖像和非行人圖像為彩色圖像,則先進(jìn)行灰度化處理,以獲取標(biāo)簽的行人灰度圖像和非行人灰度圖像。
所述初步訓(xùn)練模塊12中卷積神經(jīng)網(wǎng)絡(luò)包括:輸入層、Th_Conc個(gè)卷積層、Th_Pool個(gè)池化層、Th_Full個(gè)全連接層。
所述第i個(gè)卷積層包括Th_CKi個(gè)卷積核,卷積核的大小為CKSi*CKSi、步長(zhǎng)為T(mén)h_CSi,i=1,2,…,Th_Conc;第j個(gè)池化層的核的大小為PKSj*PKSj、步長(zhǎng)為T(mén)h_PSj,j=1,2,…,Th_Pool;所述全連接層的最后一層全連接層輸出的神經(jīng)元的數(shù)量為2。
所述Th_Con∈[2,22],Th_Pool∈[2,16],Th_Full∈[1,4]。Th_CKi∈[4,512],CKSi∈[3,11],Th_CSi∈[1,2],PKSj∈[2,4],Th_PKj∈[2,4]。
進(jìn)一步地,所述Th_Con∈[2,12],Th_Pool∈[2,10],Th_Full∈[1,3]。Th_CKi∈[4,200],CKSi∈[3,9],Th_CSi∈[1,2],PKSj∈[2,4],Th_PKj∈[2,3]。
優(yōu)選地,所述卷積神經(jīng)網(wǎng)絡(luò)包括:
輸入層,輸入Th_Width*Th_Height的圖像;
第一層卷積層,輸出Th_CK1個(gè)卷積核,卷積核的大小為CKS1*CKS1、步長(zhǎng)為T(mén)h_CS1;
第一層池化層,采用最大池化法輸出PKS1*PKS1、步長(zhǎng)為T(mén)h_PS1的核;
第二層卷積層,輸出Th_CK2個(gè)卷積核,卷積核的大小為CKS2*CKS2、步長(zhǎng)為T(mén)h_CS2;
第二層池化層,采用最大池化法輸出PKS2*PKS2、步長(zhǎng)為T(mén)h_PS2的核;
第三層卷積層,輸出Th_CK3個(gè)卷積核,卷積核的大小為CKS3*CKS3、步長(zhǎng)為T(mén)h_CS3;
第一層全連接層,采用ReLU作為激活函數(shù),輸出Th_Neur個(gè)神經(jīng)元;
第二層全連接層,輸出2個(gè)類(lèi)別。
其中,Th_Width和Th_Height分別為輸入圖像的寬度和高度,Th_Width∈[32,128],Th_Height∈[64,256]。Th_CK1∈[6,20],CKS1∈[5,9],Th_CS1∈[1,2]。PKS1∈[2,4],Th_PK1∈[2,3]。Th_CK2∈[10,40],CKS2∈[3,5],Th_CS2∈[1,2]。PKS2∈[2,4],Th_PK2∈[2,3]。Th_CK3∈[10,40],CKS3∈[3,5],Th_CS3∈[1,2]。Th_Neur∈[160,10000]。
優(yōu)選地,Th_Width選為64,Th_Height選為128;Th_CK1選為16,CKS1選為9,Th_CS1選為1;PKS1選為2,Th_PS1選為2;Th_CK2選為32,CKS2選為5,Th_CS2選為1;PKS2選為2,Th_PS2選為2;Th_CK3選為32,CKS3選為3,Th_CS3選為1。Th_Neur設(shè)為256。
所述第一層池化層和第二層池化層中的最大池化法可以替換為平均池化法或者隨機(jī)池化法。
所述第一層全連接層中ReLU全稱(chēng)為Rectified Linear Units,中文譯為修正線性單元,可以參考文獻(xiàn)“Taming the ReLU with Parallel Dither in a Deep Neural Network.AJR Simpson.Computer Science,2015”。
所述第一層全連接層中ReLU可以替換為sigmoid函數(shù)或者tanh函數(shù)作為激活函數(shù)。
所述二次訓(xùn)練模塊13進(jìn)一步包括:
訓(xùn)練特征提取模塊131,用于根據(jù)初步訓(xùn)練的模型提取Th_Test個(gè)測(cè)試灰度圖像的特征;
訓(xùn)練分類(lèi)判定模塊132,用于分別計(jì)算該測(cè)試灰度圖像的特征與行人類(lèi)別的相似度Simi1、非行人類(lèi)別特征的相似度Simi2,若Simi1>Simi2,則判定為行人類(lèi)別,否則判定為非行人類(lèi)別;
反復(fù)訓(xùn)練模塊133,用于計(jì)算判定結(jié)果與真實(shí)結(jié)果的誤差,利用反向傳播算法來(lái)訓(xùn)練模型,重復(fù)訓(xùn)練特征提取模塊131和訓(xùn)練分類(lèi)判定模塊132,直至該模型收斂,收斂的模型即為訓(xùn)練好的行人分類(lèi)模型。
其中,所述反向傳播算法通過(guò)現(xiàn)有的技術(shù)實(shí)現(xiàn)。
所述彩色圖像采集模塊也可以替換為彩色圖像輸入模塊,用于輸入場(chǎng)景彩色圖像。所述場(chǎng)景彩色圖像是指實(shí)際場(chǎng)景的彩色圖像。
圖4給出了按照本發(fā)明的行人的候選區(qū)域獲取模塊的框架圖。如圖4所示,按照本發(fā)明的行人的候選區(qū)域獲取模塊3進(jìn)一步包括:
高斯濾波處理模塊31,用于對(duì)場(chǎng)景彩色圖像進(jìn)行高斯濾波處理,獲取高斯圖像IG(x,y),其中(x,y)為圖像的像素點(diǎn);
色彩空間計(jì)算模塊32,用于將場(chǎng)景彩色圖像轉(zhuǎn)換到CIELAB色彩空間,并計(jì)算L分量、A分量、B分量的平均值M、N分別為場(chǎng)景彩色圖像的寬度和高度,L(x,y)、A(x,y)、B(x,y)分別為CIELAB色彩空間像素點(diǎn)(x,y)的L分量、A分量、B分量的亮度值;
顯著圖獲取模塊33,用于計(jì)算高斯圖像IG與μL、μA、μB的歐幾里得距離得到顯著圖S(x,y)=[IG(x,y)-μL]2+[IG(x,y)-μA]2+[IG(x,y)-μB]2;
中值濾波處理模塊34,用于對(duì)顯著圖S(x,y)進(jìn)行中值濾波處理,獲取中值濾波處理后的顯著圖S′(x,y);
顯著區(qū)域獲取模塊35,用于利用迭代算法計(jì)算分割閾值ST,利用分割閾值ST分割中值濾波處理后的顯著圖S′(x,y),獲取顯著區(qū)域SRk,k=1,2,…,SNum,SNum為顯著區(qū)域的個(gè)數(shù);
顯著區(qū)域篩選模塊36,用于統(tǒng)計(jì)顯著區(qū)域SRk內(nèi)前景點(diǎn)的總數(shù)FSumk,若FSumk<Th_FSum,則刪除該顯著區(qū)域,將該顯著區(qū)域內(nèi)的前景點(diǎn)置為背景點(diǎn);
行人的候選區(qū)域輸出模塊37,用于將剩余的顯著區(qū)域作為行人的候選區(qū)域并輸出。
其中,所述高斯濾波處理模塊31中的高斯濾波處理通過(guò)現(xiàn)有技術(shù)實(shí)現(xiàn)。
所述中值濾波處理模塊34中的中值濾波處理通過(guò)現(xiàn)有技術(shù)實(shí)現(xiàn)。
所述顯著區(qū)域獲取模塊35進(jìn)一步包括:
初始分割閾值選取模塊351,用于計(jì)算中值濾波處理后的顯著圖S′(x,y)的平均灰度值ST,將ST作為初始分割閾值;
分割閾值更新模塊352,用于提取S′(x,y)≥ST的像素點(diǎn)作為第一分割圖像S′1(x,y),提取S′(x,y)<ST的像素點(diǎn)作為第二分割圖像S′2(x,y),分別計(jì)算S′1(x,y)、S′2(x,y)的平均灰度值ST1、ST2,
分割閾值迭代模塊353,用于重復(fù)分割閾值更新模塊352,若連續(xù)兩次計(jì)算的ST的差值ΔST≤Th_ST,則轉(zhuǎn)入顯著區(qū)域分割模塊354;
顯著區(qū)域分割模塊354,用于將S′(x,y)≥ST的像素點(diǎn)設(shè)置為前景點(diǎn),S′(x,y)<ST的像素點(diǎn)設(shè)置為背景點(diǎn),利用連通區(qū)域方法進(jìn)行處理,獲取前景點(diǎn)的連通區(qū)域作為顯著區(qū)域SRk,k=1,2,…,SNum,SNum為顯著區(qū)域的個(gè)數(shù)。
所述分割閾值迭代模塊353中Th_ST∈[0.3,0.7]。優(yōu)選地,Th_ST選為0.5。
所述顯著區(qū)域分割模塊354中連通區(qū)域方法為現(xiàn)有技術(shù)。
所述顯著區(qū)域篩選模塊36中Th_FSum∈[10,50]。優(yōu)選地,Th_FSum選為20。
所述行人檢測(cè)輸出模塊4進(jìn)一步包括:
檢測(cè)特征提取模塊41,用于根據(jù)訓(xùn)練好的行人分類(lèi)模型提取行人的候選區(qū)域的特征;
檢測(cè)分類(lèi)判定模塊42,用于分別計(jì)算該行人的候選區(qū)域的特征與行人類(lèi)別的相似度Simi1、非行人類(lèi)別特征的相似度Simi2,若Simi1>Simi2,則判定為行人類(lèi)別,否則判定為非行人類(lèi)別,輸出判定結(jié)果。
與現(xiàn)有的行人檢測(cè)技術(shù)相比,本發(fā)明的基于顯著性檢測(cè)和卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)方法及裝置一方面采用顯著性檢測(cè)算法先獲取可能是行人的候選區(qū)域,提高了檢測(cè)速度;另一方面采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)樣本圖像進(jìn)行訓(xùn)練,根據(jù)訓(xùn)練好的行人分類(lèi)模型對(duì)行人的候選區(qū)域進(jìn)行識(shí)別,提高了行人的識(shí)別準(zhǔn)確率,且魯棒性較好。
以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍,應(yīng)當(dāng)理解,本發(fā)明并不限于這里所描述的實(shí)現(xiàn)方案,這些實(shí)現(xiàn)方案描述的目的在于幫助本領(lǐng)域中的技術(shù)人員實(shí)踐本發(fā)明。任何本領(lǐng)域中的技術(shù)人員很容易在不脫離本發(fā)明精神和范圍的情況下進(jìn)行進(jìn)一步的改進(jìn)和完善,因此本發(fā)明只受到本發(fā)明權(quán)利要求的內(nèi)容和范圍的限制,其意圖涵蓋所有包括在由所附權(quán)利要求所限定的本發(fā)明精神和范圍內(nèi)的備選方案和等同方案。