基于深度神經(jīng)網(wǎng)絡(luò)的實時人臉識別方法
【專利摘要】本發(fā)明提出了一種基于深度神經(jīng)網(wǎng)絡(luò)和鄰近元分析的實時人臉識別方法。本發(fā)明首先利用多樣性較好的大規(guī)模人臉庫訓(xùn)練出一種多層神經(jīng)網(wǎng)絡(luò),其中除最后一層外的每層為非線性層,尾層為線性層;然后利用有監(jiān)督的鄰近元分析的方法在混合人臉庫的基礎(chǔ)上繼續(xù)訓(xùn)練得到的網(wǎng)絡(luò),使得網(wǎng)絡(luò)對于人臉圖像的理解加深,達到縮短同一個體間人臉圖像距離、增大不同個體間人臉圖像距離的目的,最后在實際的人臉識別階段,本發(fā)明提出了一種“搜索半徑”的概念,在確保識別率的前提下,縮短了識別所需時間,實現(xiàn)了實時的人臉識別。本發(fā)明的識別正確率較高,同時,本發(fā)明的識別速度較快,適合應(yīng)用于實時人臉識別任務(wù)中。
【專利說明】基于深度神經(jīng)網(wǎng)絡(luò)的實時人臉識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于模式識別領(lǐng)域,涉及一種人臉識別方法,特別涉及一種可實時進行人臉識別任務(wù)的人臉識別方法。
【背景技術(shù)】
[0002]作為生物認(rèn)證技術(shù)的一種,人臉識別憑借著非接觸性、良好的用戶體驗等特性,以及穩(wěn)步上升的識別率,有著巨大的市場潛力與科學(xué)研究價值。人臉識別屬于圖像識別的一種,圖像識別的重難點在于賦予機器理解圖像所蘊含隱含信息的能力,而作為一種可提取數(shù)據(jù)深層信息的特征提取方法,深度神經(jīng)網(wǎng)絡(luò)對基于圖像的人臉識別技術(shù)有著一定的啟發(fā)。
[0003]目前,深度神經(jīng)網(wǎng)絡(luò)在模式識別領(lǐng)域已經(jīng)有多項突破:微軟采用深度神經(jīng)網(wǎng)絡(luò)技術(shù)進行語音識別,達到了現(xiàn)今最高的語音識別率;百度采用紐約大學(xué)Yann LeCun教授提出的深度卷積網(wǎng)絡(luò)搭建了百度識圖等應(yīng)用,并組建了百度深度學(xué)習(xí)研究院;最新消息指出,谷歌搭建的深度學(xué)習(xí)系統(tǒng)在“學(xué)習(xí)”存儲在服務(wù)器中大規(guī)模數(shù)據(jù)庫的基礎(chǔ)上已經(jīng)可以做到獨立思考的程度。
[0004]然而,鮮有研究者將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于人臉識別領(lǐng)域, 申請人:認(rèn)為原因在于兩點:一方面?zhèn)鹘y(tǒng)的深度神經(jīng)網(wǎng)絡(luò)+softmax的框架需要多張圖像為每個個體建立一個模型,對于人臉識別這種類別數(shù)目不確定的任務(wù)適用性較差;另一方面,人臉識別所需要的圖片尺寸較大,一般情況下,30X 30以上的圖片才能達到滿意效果,這樣就加大了訓(xùn)練深度網(wǎng)絡(luò)模型的難度。
【發(fā)明內(nèi)容】
[0005]為探究深度神經(jīng)網(wǎng)絡(luò)對于人臉識別任務(wù)的識別效果,本發(fā)明提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的實時人臉識別方法。首先利用多樣性較好的大規(guī)模人臉庫訓(xùn)練出一種多層神經(jīng)網(wǎng)絡(luò),其中除最后一層外的每層為非線性層,尾層為線性層;然后利用有監(jiān)督的鄰近元分析的方法在混合人臉庫的基礎(chǔ)上繼續(xù)訓(xùn)練得到的網(wǎng)絡(luò),使得網(wǎng)絡(luò)對于人臉圖像的理解加深,達到縮短同一個體間人臉圖像距離、增大不同個體間人臉圖像距離的目的,最后在實際的人臉識別階段,本發(fā)明提出了一種“搜索半徑”的概念,在確保識別率的前提下,縮短了識別所需時間,實現(xiàn)了實時的人臉識別。
[0006]為了實現(xiàn)以上目的,本發(fā)明方法主要包括以下步驟:
[0007]步驟(I).獲取網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù),具體是:選取多樣性較好的人臉庫作為大規(guī)模人臉庫。另外,從多個人臉庫中選取一部分圖像組合成混合人臉庫,其中對部分光照變化較強烈的圖像進行光照歸一化操作,減小光照的影響。采用Viola-Jones人臉檢測器檢測并剪切大規(guī)模人臉庫與混合人臉庫中圖像內(nèi)人臉部分。將大規(guī)模人臉庫與混合人臉庫中每張圖像的像素值按行或列拉伸為一列,組合成行數(shù)為圖像像素點數(shù),列數(shù)為圖像張數(shù)的矩陣,矩陣除以255,使得數(shù)據(jù)分布在0-1范圍。[0008]步驟(2).使用深度神經(jīng)網(wǎng)絡(luò)在步驟(1)獲取的大規(guī)模人臉庫中人臉部分圖像的基礎(chǔ)上以無監(jiān)督方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),具體算法如下。
[0009]本發(fā)明以Autoencoder深度神經(jīng)網(wǎng)絡(luò)為框架,通過恢復(fù)大規(guī)模人臉庫中人臉圖像,以達到訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的目的,首先用反向傳導(dǎo)算法訓(xùn)練每層網(wǎng)絡(luò),最后同樣用反向傳導(dǎo)算法調(diào)整網(wǎng)絡(luò)整體表現(xiàn)。算法具體步聚如下:
[0010]I)初始化每一層網(wǎng)絡(luò)的權(quán)重懲罰因子、權(quán)重縮放比例、權(quán)重值、偏置值、
[0011]分組數(shù)據(jù)大小等參數(shù)。權(quán)重懲罰因子為控制不讓訓(xùn)練得到的網(wǎng)絡(luò)權(quán)重過
[0012]大,引起過擬合,假設(shè)初始化的權(quán)重比例為Ws,則有:
[0013]Ws = sqrt (6)/sqrt (v+h+1) (I)
[0014]式(I)中,V表示可見層節(jié)點數(shù),h表示隱含層節(jié)點數(shù)。則可得到:
【權(quán)利要求】
1.基于深度神經(jīng)網(wǎng)絡(luò)的實時人臉識別方法,其特征在于該方法包括如下步驟: 步驟(1).獲取網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù),具體是:選取多樣性較好的人臉庫作為大規(guī)模人臉庫;另外,從多個人臉庫中選取一部分圖像組合成混合人臉庫,其中對部分光照變化較強烈的圖像進行光照歸一化操作,減小光照的影響;采用Viola-Jones人臉檢測器檢測并剪切大規(guī)模人臉庫與混合人臉庫中圖像內(nèi)人臉部分;將大規(guī)模人臉庫與混合人臉庫中每張圖像的像素值按行或列拉伸為一列,組合成行數(shù)為圖像像素點數(shù),列數(shù)為圖像張數(shù)的矩陣,矩陣除以255,使得數(shù)據(jù)分布在0-1范圍; 步驟(2).使用深度神經(jīng)網(wǎng)絡(luò)在步驟(1)獲取的大規(guī)模人臉庫中人臉部分圖像的基礎(chǔ)上以無監(jiān)督方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),具體算法如下; 1)初始化每一層網(wǎng)絡(luò)的權(quán)重懲罰因子、權(quán)重縮放比例、權(quán)重值、偏置值、分組數(shù)據(jù)大?。粰?quán)重懲罰因子為控制不讓訓(xùn)練得到的網(wǎng)絡(luò)權(quán)重過大,引起過擬合,假設(shè)初始化的權(quán)重比例為1,則有: Ws = sqrt(6)/sqrt(v+h+l) (I)式(I)中,V表示可見層節(jié)點數(shù),h表示隱含層節(jié)點數(shù);則可得到:
W = 2*ws* (rand (h, v) -0.5) (2)
Ψ = 2*ws* (rand (v, h) -0.5) (3) 式(2) (3)中,W、W'分別為可見層、隱含層的初始化權(quán)重,rand(m,n)為可生成在(0,I)之間均勻分布隨機數(shù)組成的mXn矩陣的函數(shù); 2)確定網(wǎng)絡(luò)的損失函數(shù);Autoencoder的目標(biāo)是是不斷改進網(wǎng)絡(luò),增強網(wǎng)絡(luò)對于原始數(shù)據(jù)的恢復(fù)能力,網(wǎng)絡(luò)的損失函數(shù)為:
【文檔編號】G06K9/00GK103778414SQ201410023333
【公開日】2014年5月7日 申請日期:2014年1月17日 優(yōu)先權(quán)日:2014年1月17日
【發(fā)明者】羅志增, 邢健飛, 席旭剛, 高云園 申請人:杭州電子科技大學(xué)