基于多級卷積神經(jīng)網(wǎng)絡(luò)的全局-局部優(yōu)化模型及顯著性檢測算法
【專利說明】基于多級卷積神經(jīng)網(wǎng)絡(luò)的全局-局部優(yōu)化模型及顯著性檢測 算法 【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的自然圖像中視覺顯著性檢測的方法,應(yīng) 用于復(fù)雜背景下顯著目標(biāo)區(qū)域的檢測。 【【背景技術(shù)】】
[0002] 人類的視覺可以很快地找到周圍環(huán)境中的顯著目標(biāo),忽略掉一些人類不感興趣的 信息,并關(guān)注視覺圖像中重要的部分,這樣可以避免大腦處理繁雜而用處不大的信息。視覺 顯著性檢測就是為了模擬人的快速感知環(huán)境行為。
[0003] 隨著各種數(shù)碼設(shè)備的普及以及互聯(lián)網(wǎng)的高速發(fā)展,各種圖片、視頻數(shù)據(jù)越來越多。 與人的視覺類似,計(jì)算機(jī)可以通過圖像或視頻的顯著性檢測來提取圖片中顯著性信息,快 速定位圖像中需要處理的區(qū)域。通過視覺顯著性檢測,可以將計(jì)算資源優(yōu)先分配給圖像中 的主要區(qū)域,減少計(jì)算開銷,在計(jì)算機(jī)視覺領(lǐng)域意義重大。視覺顯著性是很多視覺檢測任務(wù) 的重要步驟,在很多計(jì)算機(jī)視覺領(lǐng)域都起到了很大的作用,如目標(biāo)檢測與識別、自適應(yīng)壓 縮、圖像分割、圖像檢索、基于內(nèi)容感知的圖像編輯等。
[0004] 神經(jīng)網(wǎng)絡(luò)提出時與生物學(xué)系統(tǒng)緊密相連,模擬了生物神經(jīng)元的結(jié)構(gòu)和功能。在BP 算法提出后,神經(jīng)網(wǎng)絡(luò)能解決許多基本的學(xué)習(xí)問題。在之后的幾十年中,發(fā)展出了許多新的 方法和技術(shù),例如非監(jiān)督的權(quán)重預(yù)訓(xùn)練技術(shù)、模型的設(shè)計(jì)和訓(xùn)練方法,也由此引出了深度學(xué) 習(xí)技術(shù)。LeCun在1998年提出了 LeNet-5,成功應(yīng)用于手寫體識別并被認(rèn)為是手寫體識別領(lǐng) 域評判算法識別性能的標(biāo)準(zhǔn)。隨后,卷積神經(jīng)網(wǎng)絡(luò)在許多模式識別任務(wù)上都取得了很好的 效果。使用深度學(xué)習(xí)技術(shù)有助于顯著性檢測算法取得更魯棒、更優(yōu)秀的效果。
[0005] 現(xiàn)有準(zhǔn)確率較高的算法大多使用了過分割技術(shù)作為預(yù)處理手段,再通過判斷每一 個分割區(qū)域是否顯著生成顯著性圖。這種方法的效果以及運(yùn)算速度很大地依賴于分割算 法,一方面顯著目標(biāo)的邊界劃分完全依賴于分割算法的分割精度,另一方面運(yùn)行速度完全 受限于分割算法的速度。 【
【發(fā)明內(nèi)容】
】
[0006] 本發(fā)明提供了一種基于多級卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測算法,其目的在于檢測、 查找自然圖像中的顯著目標(biāo),提高算法的準(zhǔn)確度和運(yùn)行速度。
[0007] 本發(fā)明采用以下技術(shù)方案:
[0008] -種基于多級卷積神經(jīng)網(wǎng)絡(luò)的全局-局部優(yōu)化模型,包括:全局估計(jì)模型和局部優(yōu) 化模型;所述全局估計(jì)模型包括初始化分支通路和主通路,所述初始化分支通路由A部分和 B部分級聯(lián)組成,所述主通路由A部分和C部分級聯(lián)組成;其中,A部分由卷積層和池化層組 成;B部分由兩個級聯(lián)的全連接層組成;C部分由多個卷積層和升采樣層級聯(lián)組成;A部分的 輸入連接原始圖像,A部分的輸出分別與B部分和C部分的輸入連接,C部分的輸入為全局估 計(jì)模型的輸出;局部優(yōu)化模型主要由卷積層、池化層、升采樣層組成,分為D、E兩部分;其中, D部分的輸入端與原始圖像相連,D部分的輸出端與全局估計(jì)模型的輸出端一起輸入到E部 分的輸入端,E部分的輸出端即為全局-局部優(yōu)化模型的輸出。
[0009] 優(yōu)選地,A部分由七個卷積層和三個池化層組成,其連接關(guān)系為:
[0010] convl-pooll-conv2-conv3-conv4-pool2-conv5-conv6-pool3-conv7,
[0011]其中,convl為輸入端,與原始圖像連接,conv7為輸出端。
[0012] 優(yōu)選地,所述C部分的連接為:
[0013] upscalel-conv8~conv9-conv1〇-upscale2~conv11-conv12-upseale3~conv13-convl4_convl5〇
[0014] 一種基于多級卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測算法,包括以下步驟:
[0015] S1:以原始圖像作為訓(xùn)練樣本,以標(biāo)準(zhǔn)圖像為樣本標(biāo)注,對全局估計(jì)模型中A部分 的參數(shù)進(jìn)行初始化;
[0016] S2:以原始圖像作為訓(xùn)練樣本,以標(biāo)準(zhǔn)圖像為樣本標(biāo)注,對全局估計(jì)模型中C部分 的參數(shù)進(jìn)行訓(xùn)練,得到粗略的全局顯著性圖;
[0017] S3:以原始圖像作為訓(xùn)練樣本,以標(biāo)準(zhǔn)圖像為樣本標(biāo)準(zhǔn),以得到的粗略的全局顯著 性圖作為參考,對局部優(yōu)化模型進(jìn)行訓(xùn)練,即可得到最終的顯著性圖。
[0018]優(yōu)選地,作為訓(xùn)練樣本的原始圖像和作為樣本標(biāo)注的標(biāo)準(zhǔn)圖像的縮放大小以由所 應(yīng)用的t吳塊決定。
[0019]優(yōu)選地,步驟S2的訓(xùn)練過程中,A部分中的參數(shù)固定不變,訓(xùn)練采用以下公式作為 損失函數(shù):
[0021] 02={PconvC}
[0022]其中,X為輸入,y為ground truth,02為C部分的所有參數(shù)。
[0023]優(yōu)選地,步驟S3中的訓(xùn)練采用以下公式作為損失函數(shù):
[0025]其中,X為輸入的原始圖像,XGE為粗略的顯著性圖,y為ground truth,03為局部優(yōu) 化模塊的所有參數(shù)。
[0026]優(yōu)選地,步驟S1中的初始化采用以下公式作為損失函數(shù):
[0028] θχ= {PconvA,PFCs}
[0029] hci表示該網(wǎng)絡(luò)的預(yù)測結(jié)果,X為輸入,y為ground truth,Θ^Α部分和B部分的所有 參數(shù)。
[0030]與現(xiàn)有技術(shù)相比,本發(fā)明至少具有以下有益效果:本發(fā)明首先搭建了一種基于多 級卷積神經(jīng)網(wǎng)絡(luò)的全局-局部優(yōu)化模型,包括全局估計(jì)模型(GEM)和局部優(yōu)化模型(RfM);所 述全局估計(jì)模型包括初始化分支通路和主通路,所述初始化分支通路由A部分和B部分級聯(lián) 組成,所述主通路由A部分和C部分級聯(lián)組成;其中,A部分由卷積層和池化層組成;B部分由 兩個級聯(lián)的全連接層(FC)組成;C部分由多個卷積層和升采樣層級聯(lián)組成;A部分的輸入連 接原始圖像,A部分的輸出分別與B部分和C部分的輸入連接,C部分的輸入為全局估計(jì)模型 的輸出;局部優(yōu)化模型(RfM)主要由卷積層、池化層、升采樣層組成,分為D、E兩部分;其中,D 部分的輸入端與原始圖像相連,D部分的輸出端與全局估計(jì)模型的輸出端一起輸入到E部分 的輸入端,E部分的輸出端即為全局-局部優(yōu)化模型的輸出。首先對全局估計(jì)模型中A部分的 參數(shù)進(jìn)行初始化;然后對全局估計(jì)模型中C部分的參數(shù)進(jìn)行訓(xùn)練,得到粗略的全局顯著性 圖;最后以得到的粗略的全局顯著性圖作為參考,對局部優(yōu)化模型進(jìn)行訓(xùn)練,即可得到最終 的顯著性圖。本發(fā)明可以將原始圖像作為模型的輸入,最終的輸出的結(jié)果不僅與原始輸入 圖像具有相同大小,并且更加清晰。 【【附圖說明】】
[0031]圖1是本發(fā)明具體實(shí)施的一種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖,其中conv表示卷積層, pool表示池化層,upscale表示升采樣層,F(xiàn)C表示全連接層;
[0032]圖2是本發(fā)明的實(shí)驗(yàn)結(jié)果,由左至右:原圖、全局顯著性圖、最終顯著性圖、標(biāo)準(zhǔn)顯 著性圖;
[0033] 圖3是本發(fā)明與其他方法的查準(zhǔn)率-查全率曲線(Pricition-Recall curve,簡稱 PR curve)對比。 【【具體實(shí)施方式】】
[0034]本發(fā)明提供了一種基于多級卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測算法,所述的基于卷積神 經(jīng)網(wǎng)絡(luò)的全局-局部優(yōu)化模型(GE-RM)由全局估計(jì)模型(GEM)和局部優(yōu)化模型(RfM)組成;
[0035] 全局估計(jì)模型有兩個輸出通路,初始化分支通路和主通路。
[0036] 全局估計(jì)模型的初始化分支通路由A部分和B部分級聯(lián)組成,A部分由七個卷積層 和三個池化層組成,優(yōu)選的連接順序?yàn)椋?br>[0037] convl-pooll-conv2-conv3-conv4-pool2-conv5-conv6-pool3-conv7,
[0038] 其中,convl為輸入端;
[0039] B部分由兩個級聯(lián)的全連接層(FC)組成,其中末端的全連接層作為輸出層;優(yōu)選 地,輸出層有4096個輸出單元,可組成一張64x64的顯著性圖。
[0040] 全局估計(jì)模型的主通路由A部分和C部分級聯(lián)組成,其中A部分與上述相同。
[0041] 主通路的輸出通路為C部分,由多個卷積層和升采樣層級聯(lián)組成,優(yōu)選的連接順序 為:upscaleI_conv8-conv9-convl〇-upscale2-convll-convl2-upscale3-convl3_conv14-convl5,其中,upscalel連接在A部分的末端(conv7)之后,convl5為輸出端;
[0042] 局部優(yōu)化模型(RfM)由卷積層、池化層、升采樣層組成,分為D和E兩部分。
[0043]局部優(yōu)化模型(RfM)有兩個輸入,及原始圖像和由全局估計(jì)模型產(chǎn)生的全局顯著 性圖;原始圖像輸入到D部分的輸入端,全局顯著性圖與D部分的輸出一起輸入到E部分的輸 入端,E部分的輸出端即為局部優(yōu)化模型的輸出端。
[0044]以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的 具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0045] 具體實(shí)施步驟如下:
[0046] 1、首先使