一種基于優(yōu)化卷積架構(gòu)的圖像目標(biāo)識(shí)別方法
【專利摘要】本發(fā)明公開了一種基于優(yōu)化卷積架構(gòu)的圖像目標(biāo)識(shí)別方法,該方法首先對(duì)輸入圖像進(jìn)行采集和增強(qiáng)處理形成樣本;然后基于優(yōu)化的卷積架構(gòu)對(duì)樣本進(jìn)行訓(xùn)練;最后用訓(xùn)練后的卷積架構(gòu)對(duì)圖像目標(biāo)進(jìn)行分類識(shí)別。其中,卷積架構(gòu)的優(yōu)化包括:ReLU激活函數(shù);局部響應(yīng)歸一化;卷積區(qū)重疊合并;神經(jīng)元連接Drop-out技術(shù);啟發(fā)式學(xué)習(xí)。與現(xiàn)有技術(shù)相比,本發(fā)明能夠擴(kuò)充帶標(biāo)簽樣本,支持較多對(duì)象分類并獲得較快的訓(xùn)練收斂速度和較高的圖像目標(biāo)識(shí)別率,并具備更高的魯棒性。
【專利說(shuō)明】一種基于優(yōu)化卷積架構(gòu)的圖像目標(biāo)識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像分析識(shí)別【技術(shù)領(lǐng)域】,具體涉及一種基于優(yōu)化卷積架構(gòu)的圖像目標(biāo) 識(shí)別方法。
【背景技術(shù)】
[0002] 目前,模式識(shí)別作為機(jī)器學(xué)習(xí)中的熱門研宄領(lǐng)域,隨著計(jì)算機(jī)網(wǎng)絡(luò)圖像數(shù)據(jù)的海 量出現(xiàn)越來(lái)越受到重視。為了有效管理圖像數(shù)據(jù)并更好的為用戶服務(wù),圖像目標(biāo)的自動(dòng)識(shí) 別變得尤為重要。
[0003] 傳統(tǒng)的圖形識(shí)別方法如SVM(Support Vector Machine,支持向量機(jī))、Boosting主 要是通過(guò)提取圖像的特征再進(jìn)行分類識(shí)別。卷積神經(jīng)網(wǎng)絡(luò)則是一種基于監(jiān)督的深度學(xué)習(xí)模 型,實(shí)質(zhì)是模擬人腦機(jī)制構(gòu)建具有多隱層的學(xué)習(xí)網(wǎng)絡(luò),其"感受野"和權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu) 降低了模型復(fù)雜度,并對(duì)平移、縮放、傾斜等變形具有高度不變性。以圖像直接作為網(wǎng)絡(luò)輸 入,卷積神經(jīng)網(wǎng)絡(luò)通過(guò)逐層特征變換來(lái)學(xué)習(xí)更抽象的特征表達(dá)以達(dá)到分類識(shí)別的目的。
[0004] Yann LeCun提出卷積神經(jīng)網(wǎng)絡(luò)是一種基于監(jiān)督的深度學(xué)習(xí)模型,實(shí)質(zhì)是模擬人腦 機(jī)制構(gòu)建具有多隱層的學(xué)習(xí)網(wǎng)絡(luò),其"感受野"和權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu)降低了模型復(fù)雜度, 并對(duì)平移、縮放、傾斜等變形具有高度不變性。具體而言,卷積神經(jīng)網(wǎng)絡(luò)包括卷積層、采樣 層、全連接層和輸出層。其中,卷積層以圖像直接作為網(wǎng)絡(luò)輸入,通過(guò)與不同的卷積濾波器 卷積得到多個(gè)特征圖。特征圖經(jīng)降采樣操作降低維數(shù)并通過(guò)激活函數(shù)得到采樣層。采樣層 輸出直接作為下一卷積層的輸入,這一卷積、采樣操作可重復(fù)多次。全連接層以最高卷積層 的特征為輸入并映射為向量輸出。輸出層則是一個(gè)C-類的softmax分類器。
[0005] 卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫數(shù)字開始,基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類技術(shù)已經(jīng)應(yīng)用 于車型、人臉等識(shí)別任務(wù)上,并在訓(xùn)練收斂速度和識(shí)別率取得了較好的效果。盡管如此,目 前卷積神經(jīng)網(wǎng)絡(luò)在模式識(shí)別中的應(yīng)用還存在以下缺陷:
[0006] 第一,盡管當(dāng)前圖像數(shù)據(jù)海量,但由于基于監(jiān)督的學(xué)習(xí)方式其訓(xùn)練數(shù)據(jù)需要帶標(biāo) 簽,使當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用的分類對(duì)象較少且受限于訓(xùn)練庫(kù)。
[0007] 第二,在對(duì)較多圖像類別進(jìn)行識(shí)別時(shí),卷積神經(jīng)網(wǎng)絡(luò)規(guī)模相應(yīng)增大,其待訓(xùn)練參數(shù) 大幅增長(zhǎng),容易出現(xiàn)過(guò)擬合現(xiàn)象。
[0008] 第三,卷積神經(jīng)網(wǎng)絡(luò)對(duì)新的對(duì)象識(shí)別任務(wù)的可移植性不強(qiáng),即在面對(duì)未知復(fù)雜的 圖像識(shí)別對(duì)象時(shí),訓(xùn)練收斂速度和目標(biāo)識(shí)別率上很難以讓用戶滿意。
【發(fā)明內(nèi)容】
[0009] 針對(duì)現(xiàn)有技術(shù)所存在的上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于優(yōu)化卷積架構(gòu)的圖 像目標(biāo)識(shí)別方法,能夠擴(kuò)充帶標(biāo)簽樣本,支持較多對(duì)象分類并獲得較快的訓(xùn)練收斂速度和 較高的圖像目標(biāo)識(shí)別率。
[0010] 一種基于優(yōu)化卷積架構(gòu)的圖像目標(biāo)識(shí)別方法,包括如下步驟:
[0011] (1)對(duì)輸入的樣本圖像進(jìn)行圖像增強(qiáng)處理;
[0012] (2)利用處理后得到的樣本圖像對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化訓(xùn)練;
[0013] (3)輸入目標(biāo)圖像至訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)中,以對(duì)該目標(biāo)圖像進(jìn)行分類識(shí)別。 [0014] 所述的樣本圖像來(lái)自目前圖像識(shí)別領(lǐng)域最大且語(yǔ)義學(xué)上分類最全的訓(xùn)練庫(kù) ImageNet0
[0015] 所述的步驟(1)中對(duì)樣本圖像進(jìn)行圖像增強(qiáng)處理的具體過(guò)程如下:
[0016] I. 1圖像平移和翻轉(zhuǎn):在樣本圖像四周和中心分別提取固定大小的圖像塊并做水 平翻轉(zhuǎn),以得到擴(kuò)增10倍的圖像訓(xùn)練集;
[0017] 1. 2圖像的RGB顏色通道強(qiáng)度變更:對(duì)于每一樣本圖像,在對(duì)圖像RGB像素值做 PCA處理后,通過(guò)以下算式將像素各通道主成份倍乘對(duì)應(yīng)標(biāo)準(zhǔn)高斯隨機(jī)量化的特征值,將結(jié) 果添加到原始的RGB通道分量上,以改變像素的顏色強(qiáng)度:
[0018] Ixy - [R xy, Gxy, Bxy] + [PR, PG, PB] [ a R λ R,a G λ G, a B 入 B]
[0019] 其中:Ixy為任一像素變更后的顏色強(qiáng)度,Rxy、G xy、Bxy對(duì)應(yīng)為該像素變更前對(duì)應(yīng)紅 色、綠色、藍(lán)色三個(gè)通道上的顏色強(qiáng)度值,PjP λ κ分別為顏色強(qiáng)度值Rxy對(duì)應(yīng)的3X3協(xié)方 差矩陣的特征向量和特征值,Pe和λ e分別為顏色強(qiáng)度值Gxy對(duì)應(yīng)的3X3協(xié)方差矩陣的特 征向量和特征值,PjP λ B分別為顏色強(qiáng)度值Bxy對(duì)應(yīng)的3X3協(xié)方差矩陣的特征向量和特 征值,aK、a e、αΒ均為標(biāo)準(zhǔn)正太分布下產(chǎn)生的隨機(jī)變量值。
[0020] 所述的步驟(2)在對(duì)卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行優(yōu)化訓(xùn)練過(guò)程中,通過(guò)卷積濾波器對(duì) 輸入進(jìn)行卷積操作提取特征時(shí),為使卷積架構(gòu)充分利用同一特征核映射圖鄰近神經(jīng)元的信 息,采取減少降采樣步進(jìn)的方式,使降采樣區(qū)域部分重疊的方法進(jìn)行卷積。
[0021] 所述的步驟(2)在對(duì)卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行優(yōu)化訓(xùn)練過(guò)程中,特征圖在降采樣處 理后,對(duì)圖像中神經(jīng)元輸出采用ReLU(修正線性單元)作為建模激活函數(shù),函數(shù)的具體表達(dá) 如下:
[0022] f (X) = max (0, X)
[0023] 其中:x為函數(shù)的輸入,f(x)表示為神經(jīng)元輸出。
[0024] 所述的步驟(2)在對(duì)卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行優(yōu)化訓(xùn)練過(guò)程中,在卷積層根據(jù)以下 算式對(duì)卷積濾波器輸出得到的多個(gè)特征圖進(jìn)行歸一化處理:
[0025]
【權(quán)利要求】
1. 一種基于優(yōu)化卷積架構(gòu)的圖像目標(biāo)識(shí)別方法,包括如下步驟: (1) 對(duì)輸入的樣本圖像進(jìn)行圖像增強(qiáng)處理; (2) 利用處理后得到的樣本圖像對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化訓(xùn)練; (3) 輸入目標(biāo)圖像至訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)中,以對(duì)該目標(biāo)圖像進(jìn)行分類識(shí)別。
2. 根據(jù)權(quán)利要求1所述的圖像目標(biāo)識(shí)別方法,其特征在于:所述的樣本圖像來(lái)自目前 圖像識(shí)別領(lǐng)域最大且語(yǔ)義學(xué)上分類最全的訓(xùn)練庫(kù)ImageNet。
3. 根據(jù)權(quán)利要求1所述的圖像目標(biāo)識(shí)別方法,其特征在于:所述的步驟(1)中對(duì)樣本 圖像進(jìn)行圖像增強(qiáng)處理的具體過(guò)程如下: 1. 1圖像平移和翻轉(zhuǎn):在樣本圖像四周和中心分別提取固定大小的圖像塊并做水平翻 轉(zhuǎn),以得到擴(kuò)增10倍的圖像訓(xùn)練集; 1. 2圖像的RGB顏色通道強(qiáng)度變更:對(duì)于每一樣本圖像,在對(duì)圖像RGB像素值做PCA處 理后,通過(guò)以下算式將像素各通道主成份倍乘對(duì)應(yīng)標(biāo)準(zhǔn)高斯隨機(jī)量化的特征值,將結(jié)果添 加到原始的RGB通道分量上,以改變像素的顏色強(qiáng)度: T Ixy = [Rxy,GXy,BXy] + [PR, PG, PB][a.R XR, OCg Xg, αΒ XB]T 其中:Ixy為任一像素變更后的顏色強(qiáng)度,R xy、Gxy、Bxy對(duì)應(yīng)為該像素變更前對(duì)應(yīng)紅色、綠 色、藍(lán)色三個(gè)通道上的顏色強(qiáng)度值,匕和λ κ分別為顏色強(qiáng)度值Rxy對(duì)應(yīng)的3X3協(xié)方差矩陣 的特征向量和特征值,Pe和λ e分別為顏色強(qiáng)度值G xy對(duì)應(yīng)的3 X 3協(xié)方差矩陣的特征向量和 特征值,PjP λ B分別為顏色強(qiáng)度值Bxy對(duì)應(yīng)的3X3協(xié)方差矩陣的特征向量和特征值,a κ、 a e、a Β均為標(biāo)準(zhǔn)正態(tài)分布下產(chǎn)生的隨機(jī)變量值。
4. 根據(jù)權(quán)利要求1所述的圖像目標(biāo)識(shí)別方法,其特征在于:所述的步驟(2)在對(duì)卷積 神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行優(yōu)化訓(xùn)練過(guò)程中,通過(guò)卷積濾波器對(duì)輸入進(jìn)行卷積操作提取特征時(shí),為 使卷積架構(gòu)充分利用同一特征核映射圖鄰近神經(jīng)元的信息,采取減少降采樣步進(jìn)的方式, 使降采樣區(qū)域部分重疊的方法進(jìn)行卷積。
5. 根據(jù)權(quán)利要求1所述的圖像目標(biāo)識(shí)別方法,其特征在于:所述的步驟(2)在對(duì)卷 積神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行優(yōu)化訓(xùn)練過(guò)程中,特征圖在降采樣處理后,對(duì)圖像中神經(jīng)元輸出采用 ReLU(修正線性單元)作為建模激活函數(shù),函數(shù)的具體表達(dá)如下: f (X) = max (0, X) 其中:x為函數(shù)的輸入,f(x)表示為神經(jīng)元輸出。
6. 根據(jù)權(quán)利要求1所述的圖像目標(biāo)識(shí)別方法,其特征在于:所述的步驟(2)在對(duì)卷積 神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行優(yōu)化訓(xùn)練過(guò)程中,在卷積層根據(jù)以下算式對(duì)卷積濾波器輸出得到的多個(gè) 特征圖進(jìn)行歸一化處理:
其中:aJP (寸應(yīng)為第i個(gè)和第j個(gè)核函數(shù)在特征圖任一像素位置的神經(jīng)元響應(yīng),b i 對(duì)應(yīng)為Bi歸一化后的神經(jīng)元響應(yīng),N為卷積層的核函數(shù)總數(shù),k、η、α、β均為由驗(yàn)證集決 定的參數(shù)。
7. 根據(jù)權(quán)利要求1所述的圖像目標(biāo)識(shí)別方法,其特征在于:所述的步驟(2)在對(duì)卷積 神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行優(yōu)化訓(xùn)練過(guò)程中,對(duì)于神經(jīng)元采用Drop-out技術(shù),將隱層神經(jīng)元輸出以 50%的概率設(shè)為零,被丟棄神經(jīng)元不再參與前向傳遞和后向傳播。
8. 根據(jù)權(quán)利要求1所述的圖像目標(biāo)識(shí)別方法,其特征在于:所述的步驟(2)在對(duì)卷積 神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行優(yōu)化訓(xùn)練過(guò)程中,采取啟發(fā)式算法更新學(xué)習(xí)速率。
【文檔編號(hào)】G06N3/02GK104517122SQ201410767043
【公開日】2015年4月15日 申請(qǐng)日期:2014年12月12日 優(yōu)先權(quán)日:2014年12月12日
【發(fā)明者】王雪姣, 王梁昊, 李東曉, 張明 申請(qǐng)人:浙江大學(xué)