本發(fā)明涉及圖像的檢測方法,特別涉及一種基于并行卷積神經(jīng)網(wǎng)絡(luò)的圖像顯著性檢測方法。
背景技術(shù):
圖像顯著性檢測的目的在于識別一幅圖像在視覺上最突出的區(qū)域,是計(jì)算機(jī)視覺及圖像處理領(lǐng)域中一門非常重要的課題。顯著性檢測作為一種預(yù)處理手段在計(jì)算機(jī)視覺及圖像處理方面有著廣泛的應(yīng)用,如多媒體信息傳輸,圖像視頻重構(gòu),圖像視頻質(zhì)量評估等。同時(shí),顯著性檢測在高層次視覺任務(wù)中也被大量應(yīng)用,如物體檢測,身份識別。作為一門非常成熟的課題,大量顯著性檢測模型被學(xué)者們提出。
傳統(tǒng)顯著性檢測模型分為基于手工特征的方法和基于先驗(yàn)知識的方法?;谑止ぬ卣鞯姆椒ㄖ铝τ谠O(shè)計(jì)各類手工特征如顏色、亮度、紋理,當(dāng)圖像具有較為復(fù)雜的語義時(shí),這類方法無法有效的檢測出顯著性主體,如當(dāng)主體與背景的顏色、亮度差異較小時(shí),基于手工特征的方法無法有效的將顯著主體從背景中區(qū)分出來?;谙闰?yàn)知識的方法對顯著性主體的公有特性進(jìn)行定義,如基于背景先驗(yàn)的方法假定靠近圖像的邊緣區(qū)域?yàn)楸尘?,但有些圖像的顯著主體處于圖像邊緣,這使得基于先驗(yàn)知識的方法具有局限性。
技術(shù)實(shí)現(xiàn)要素:
為了克服現(xiàn)有技術(shù)的上述缺點(diǎn)與不足,本發(fā)明的目的在于提供一種基于并行卷積神經(jīng)網(wǎng)絡(luò)的圖像顯著性檢測方法,有效檢測顯著主體的內(nèi)在語義以及與背景的差異,從全局和局部角度去檢測顯著性,實(shí)現(xiàn)自動(dòng)對圖像進(jìn)行顯著性檢測。
本發(fā)明的目的通過以下技術(shù)方案實(shí)現(xiàn):
一種基于并行卷積神經(jīng)網(wǎng)絡(luò)的圖像顯著性檢測方法,包括以下步驟:
(1)設(shè)計(jì)并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);所述并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括全局角度檢測模塊cnn-g和局部角度檢測模塊cnn-l;
所述全局角度檢測模塊cnn-g為單路卷積神經(jīng)網(wǎng)絡(luò);所述局部角度檢測模塊cnn-l為雙路并行卷積神經(jīng)網(wǎng)絡(luò);所述全局角度檢測模塊cnn-g和局部角度檢測模塊cnn-l通過一個(gè)全連接層實(shí)現(xiàn)并行;
(2)設(shè)計(jì)兩種網(wǎng)絡(luò)輸入圖,并針對輸入定義基于超像素的標(biāo)簽;所述網(wǎng)絡(luò)輸入圖包括全局填充圖和局部裁剪圖;
所述全局填充圖以超像素為中心、包含原圖全部信息的填充圖,代表全局特征,作為全局角度檢測模塊cnn-g的輸入;
所述局部裁剪圖以超像素為中心、包含超像素鄰域細(xì)節(jié)信息的裁剪圖,代表局部特征,作為局部角度檢測模塊cnn-l的輸入;
(3)數(shù)據(jù)集平衡化處理與輸入預(yù)處理;
(4)模型訓(xùn)練:所述模型包括數(shù)據(jù)預(yù)處理模塊和并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);
(5)對目標(biāo)圖像使用已訓(xùn)練好的模型計(jì)算顯著圖。
步驟(2)所述針對輸入定義基于超像素的標(biāo)簽,具體為:
超像素標(biāo)簽由超像素與顯著圖真實(shí)標(biāo)注的重疊率決定,若大于設(shè)定的閾值則標(biāo)簽為1,視為顯著;反之,若重疊率小于設(shè)定的閾值則標(biāo)簽為0,視為非顯著。
步驟(3)所述數(shù)據(jù)集平衡化處理,具體為:
對一張圖像所取得的正樣本全部采用,并隨機(jī)選取與正樣本數(shù)量一致的負(fù)樣本;將所有樣本的規(guī)格歸一化到256*256大小。
步驟(1)所述并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的前5層為5個(gè)卷積層;第一層卷積層有96個(gè)卷積核,大小為11*11*3;第2層有256個(gè)卷積核,大小為5*5*48。第三層卷積層有384個(gè)核,大小為3*3*256;第四層卷積層有384個(gè)核,大小為3*3*192;第5層卷積層有256個(gè)核,大小為3*3*192;前兩層和第五層卷積層的后面都接一層池化層和一層正則化層。
步驟(1)所述并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的同層卷積層參數(shù)共享,以學(xué)習(xí)尺度不變性特征。
步驟(4)中,所述并行卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練包括以下步驟:
(4-1)網(wǎng)絡(luò)參數(shù)初始化;
(4-2)設(shè)置訓(xùn)練參數(shù);
(4-3)加載訓(xùn)練數(shù)據(jù);
(4-4)迭代訓(xùn)練。
步驟(4-1)所述網(wǎng)絡(luò)參數(shù)初始化,具體為:采用fine-tune策略,利用alexnet模型的前六層網(wǎng)絡(luò)參數(shù)初始化并行卷積神經(jīng)網(wǎng)絡(luò)的前六層;全連接層的初始化設(shè)置為隨機(jī)值初始化。
步驟(4-2)所述訓(xùn)練參數(shù),具體為:并行卷積神經(jīng)網(wǎng)絡(luò)的前5層的初始學(xué)習(xí)率設(shè)置為0.0001;全連接層參數(shù)的初始學(xué)習(xí)率為0.001;訓(xùn)練過程設(shè)為每8次遍歷樣本集后,學(xué)習(xí)率降低40%。
步驟(4-3)所述迭代訓(xùn)練:采用隨機(jī)梯度下降算法對并行卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,每迭代1000次保存一次網(wǎng)絡(luò)參數(shù),經(jīng)過不斷迭代,取得網(wǎng)絡(luò)最優(yōu)解。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)和有益效果:
1.本發(fā)明同時(shí)從全局和局部角度檢測顯著性,有效避免了從單一角度檢測顯著性的缺點(diǎn);且同時(shí)考慮了多尺度信息,使檢測結(jié)果更加清晰完整。
2.本發(fā)明使用了超像素分割算法,超像素作為基本處理單元,與以像素點(diǎn)作為基本處理單元的方法相比,不僅大大降低了計(jì)算量,且一定程度上有助于提升算法效果。
3.本發(fā)明基于并行卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練出的模型可以適應(yīng)多種情況,如圖像具有多個(gè)顯著主體、顯著主體過大或過小、顯著主體處于圖像邊緣、顯著主體與背景相似、圖像背景復(fù)雜等等。
附圖說明
圖1為本發(fā)明的實(shí)施例的基于并行卷積神經(jīng)網(wǎng)絡(luò)的圖像顯著性檢測方法的流程圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例,對本發(fā)明作進(jìn)一步地詳細(xì)說明,但本發(fā)明的實(shí)施方式不限于此。
實(shí)施例
如圖1所示,本實(shí)施例的基于并行卷積神經(jīng)網(wǎng)絡(luò)的圖像顯著性檢測方法,包括以下步驟:
(1)設(shè)計(jì)并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);所述并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括全局角度檢測模塊cnn-g和局部角度檢測模塊cnn-l。
所述全局角度檢測模塊cnn-g為單路卷積神經(jīng)網(wǎng)絡(luò);所述局部角度檢測模塊cnn-l為雙路并行卷積神經(jīng)網(wǎng)絡(luò);所述全局角度檢測模塊cnn-g和局部角度檢測模塊cnn-l通過一個(gè)全連接層實(shí)現(xiàn)并行。
采用alex網(wǎng)絡(luò)[a.krizhevsky,i.sutskever,g.e.hinton,imagenetclassificationwithdeepconvolutionneuralnetworks,in:proceedingsoftheannualconferenceonneuralinformationprocessingsystem(nips),2012,pp.1097-1105.]的前六層作為單路基準(zhǔn)網(wǎng)絡(luò)。
并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的輸入圖像大小為227*227*3,這三維數(shù)值分別是寬度、高度、通道數(shù)。前5層是5個(gè)卷積層。第一層卷積層有96個(gè)卷積核,大小為11*11*3。第2層有256個(gè)卷積核,大小為5*5*48。第三層卷積層有384個(gè)核,大小為3*3*256。第四層卷積層有384個(gè)核,大小為3*3*192。第5層卷積層有256個(gè)核,大小為3*3*192。前兩層和第五層卷積層的后面都接一層池化層(pooling)和一層正則化層(normalization)。cnn-g和cnn-l通過一個(gè)神經(jīng)元數(shù)量為4096的全連接層實(shí)現(xiàn)并行,使得模型同時(shí)從全局和局部角度檢測顯著性。并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的最后一層為只有2個(gè)神經(jīng)元的輸出層,代表待預(yù)測超像素的顯著性值。
(2)設(shè)計(jì)兩種網(wǎng)絡(luò)輸入圖,并針對輸入定義基于超像素的標(biāo)簽;所述網(wǎng)絡(luò)輸入圖包括全局填充圖和局部裁剪圖;所述全局填充圖以超像素為中心、包含原圖全部信息的填充圖,代表全局特征,作為全局角度檢測模塊cnn-g的輸入;所述局部裁剪圖以超像素為中心、包含超像素領(lǐng)域細(xì)節(jié)信息的裁剪圖,代表局部特征,作為局部角度檢測模塊cnn-l的輸入。
本實(shí)施例先用slic超像素分割算法對圖像進(jìn)行分割,然后以某一超像素s為中心填充或裁剪出三個(gè)輸入圖,包括一個(gè)全局填充圖和兩個(gè)局部裁剪圖,超出原圖像區(qū)域的部分用數(shù)據(jù)庫的像素平均值填充。然后將這三個(gè)大小不同的圖縮放到同一尺寸,將它們分別作為并行網(wǎng)絡(luò)中三個(gè)卷積神經(jīng)網(wǎng)絡(luò)的輸入。
在設(shè)計(jì)三個(gè)輸入圖像包含原圖信息的多少時(shí),規(guī)定如下:設(shè)(wo,ho)分別為原始圖像的寬與高,(wp,hp)分別為輸入圖像的寬與高,兩者間的計(jì)算公式為:
(wp,hp)=2×(wo,ho)×cp
式中cp為裁剪因子。由于有三個(gè)不同的輸入圖像,因此cp也有三個(gè)不同的值,在本發(fā)明中cp=[1,1/4,1/8]。全局網(wǎng)絡(luò)中cp=1,輸入圖像為包含原圖全部信息的填充圖,將這個(gè)填充圖作為全局網(wǎng)絡(luò)的輸入,從全局的角度檢測顯著性;局部網(wǎng)絡(luò)中,cp=[1/4,1/8],輸入圖像為包含超像素s領(lǐng)域內(nèi)不同尺度的局部細(xì)節(jié)信息,本發(fā)明將這兩個(gè)裁剪圖像作為局部網(wǎng)絡(luò)的輸入,多尺度檢測局部顯著性。最終通過網(wǎng)絡(luò)的并行,使得整個(gè)網(wǎng)絡(luò)具有同時(shí)從全局和局部角度檢測顯著性的能力。
目前顯著性檢測研究中常用的數(shù)據(jù)庫,其標(biāo)簽是基于超像素的標(biāo)注。而本發(fā)明是以超像素為基本處理單元,因此需要定義基于超像素的標(biāo)簽。超像素的標(biāo)簽定義規(guī)則如下:s為超像素,g為顯著圖真實(shí)標(biāo)注。(1)若|s∩g|/s>0.9,則標(biāo)簽為1,表示該超像素為顯著的;(2)若|s∩g|/s<0.1,則標(biāo)簽為0,表示該超像素非顯著;(3)若0.1<|s∩g|/s<0.9,則舍棄該超像素,不作為訓(xùn)練數(shù)據(jù)。
(3)數(shù)據(jù)集平衡化處理與輸入預(yù)處理:
不平衡的訓(xùn)練數(shù)據(jù)集會(huì)對分類結(jié)果產(chǎn)生不良影響,弱化學(xué)習(xí)得到特征的表達(dá)能力。按照(2)中方法取正負(fù)樣本時(shí),從數(shù)據(jù)庫取得的正樣本數(shù)量要遠(yuǎn)遠(yuǎn)少于負(fù)樣本數(shù)量,為了使正負(fù)樣本數(shù)量一致,訓(xùn)練過程中,對一張圖像所取得的正樣本全部采用,并隨機(jī)選取與正樣本數(shù)量一致的副樣本,將所有樣本的規(guī)格歸一化到256*256大小。
(4)模型訓(xùn)練:所述模型包括數(shù)據(jù)預(yù)處理模塊和并行卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);
并行卷積神經(jīng)網(wǎng)絡(luò)的具體訓(xùn)練步驟如下:
(4-1)網(wǎng)絡(luò)參數(shù)初始化:采用了fine-tune策略,利用alexnet模型的前六層網(wǎng)絡(luò)參數(shù)初始化并行卷積神經(jīng)網(wǎng)絡(luò)的前六層;全連接層的初始化設(shè)置為隨機(jī)值初始化。
(4-2)設(shè)置訓(xùn)練參數(shù):前5層的初始學(xué)習(xí)率設(shè)置為0.0001。全連接層參數(shù)的初始學(xué)習(xí)率為0.001。訓(xùn)練過程設(shè)為每8次遍歷樣本集后,學(xué)習(xí)率降低40%。
(4-3)加載訓(xùn)練數(shù)據(jù):訓(xùn)練集為從msra10k數(shù)據(jù)庫隨機(jī)選取的6000張圖像和從dut-omron數(shù)據(jù)庫中隨機(jī)選取3500張圖像,驗(yàn)證集為從msra10k數(shù)據(jù)庫中隨機(jī)選取的800張圖像和從dut-omron數(shù)據(jù)庫中隨機(jī)選取的468張圖像。訓(xùn)練集和驗(yàn)證集的圖像沒有重合。
(4-4)采用隨機(jī)梯度下降算法對并行卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,每迭代1000次保存一次網(wǎng)絡(luò)參數(shù),經(jīng)過不斷迭代,取得網(wǎng)絡(luò)最優(yōu)解。綜合考慮在驗(yàn)證集上準(zhǔn)確率高、損失函數(shù)低的網(wǎng)絡(luò)作為本發(fā)明的最優(yōu)網(wǎng)絡(luò)。
(5)對目標(biāo)圖像使用已訓(xùn)練好的模型計(jì)算顯著圖。
利用本發(fā)明設(shè)計(jì)的顯著性檢測模型,用戶給定圖像后,系統(tǒng)根據(jù)訓(xùn)練學(xué)習(xí)好的深度模型計(jì)算顯著圖。
上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受所述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。