亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于從人臉圖像的數(shù)據(jù)提取人臉特征的方法和系統(tǒng)的制作方法

文檔序號:10617912閱讀:473來源:國知局
用于從人臉圖像的數(shù)據(jù)提取人臉特征的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種用于從人臉圖像的數(shù)據(jù)提取人臉特征的方法和系統(tǒng)。該系統(tǒng)可包括:第一特征提取單元,其被配置成對人臉圖像的數(shù)據(jù)進(jìn)行濾波形成第一層次(dimension)的、第一多個(gè)通道的特征圖,并將該特征圖下采樣為第二層次的特征圖;第二特征提取單元,其被配置成對第二層次的特征圖進(jìn)行濾波,以形成第二層次的、第二多個(gè)通道的特征圖,并將第二多個(gè)通道特征圖下采樣為第三層次的特征圖;以及第三特征提取單元,其被配置成對第三層次的特征圖進(jìn)行濾波以進(jìn)一步減少位于人臉區(qū)域以外的高響應(yīng),從而在減少人臉圖像的身份內(nèi)差異的同時(shí)維持在人臉圖像的身份之間的辨別力。
【專利說明】
用于從人臉圖像的數(shù)據(jù)提取人臉特征的方法和系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本申請涉及一種用于從人臉圖像的數(shù)據(jù)提取人臉特征的方法和系統(tǒng)。
[0002] 發(fā)明背景
[0003] 在許多實(shí)際應(yīng)用中,姿勢和光照變化成為影響人臉辨識的瓶頸。目前已經(jīng)提出了 許多現(xiàn)有的工作來解決此類變化。姿勢不變的方法可一般分成兩種:基于2D的類型和基于 3D的類型。在第一種類型中,通過2D圖像匹配或者通過使用一些基礎(chǔ)或范本對測試圖像進(jìn) 行編碼來處置姿勢。例如,在一種常規(guī)的方式中,使用立體匹配來計(jì)算兩張人臉之間的相似 性,然后給出訓(xùn)練圖像的測試人臉組合,并且接著利用線性回歸系數(shù)作為用于人臉辨識的 特征?;?D的方法通常捕獲3D人臉數(shù)據(jù)或從2D輸入來估計(jì)3D模型,并且嘗試將其與2D探 針人臉圖像匹配。此類方法使合成探針人臉的任何視圖成為可能,從而使得這些方法通常 對姿勢變化更穩(wěn)健。
[0004] 光照不變(illumination-invariant)方法通常對光照如何影響人臉圖像作出假 設(shè),并使用該假設(shè)來模型化和移除光照效應(yīng)。舉例來說,在本領(lǐng)域中已設(shè)計(jì)出基于投影儀的 系統(tǒng)以捕獲在少量光照下畫廊里的每個(gè)對象的圖像,所捕獲的圖像可以線性地組合以生成 任意光照下的圖像。在該增強(qiáng)的畫廊中,采用了稀疏編碼來執(zhí)行人臉辨識。
[0005] 以上方法具有某些限制性。例如,捕獲3D數(shù)據(jù)需要額外成本和資源,而從2D數(shù)據(jù)推 斷出3D模型是一個(gè)不適定的問題。由于統(tǒng)計(jì)的光照模型常常是從受控的環(huán)境來總結(jié),所以 無法在實(shí)際應(yīng)用中對其進(jìn)行很好的概括。

【發(fā)明內(nèi)容】

[0006] 在一個(gè)方面中,本申請?zhí)峁┝艘环N用于從人臉圖像的數(shù)據(jù)提取臉特征的方法,包 括:
[0007] 1)對所述人臉圖像的數(shù)據(jù)進(jìn)行濾波形成第一多個(gè)通道的、第一層次的特征圖;
[0008] 2)根據(jù)〇(x)=max(0,x)的規(guī)則計(jì)算每個(gè)所述特征圖,其中X表示所述第一層次的 特征圖;
[0009] 3)對所計(jì)算的特征圖下采樣,形成第二層次的特征圖;
[0010] 4)對經(jīng)下采樣形成的特征圖進(jìn)行濾波,形成第二層次的、第二多個(gè)通道的特征圖;
[0011] 5)根據(jù)〇(X)=max(0,X)的規(guī)則計(jì)算所述第二層次的特征圖中的每個(gè)特征圖,其中 X表示所述第二多個(gè)通道的特征圖;
[0012] 6)對計(jì)算的第二多個(gè)通道的特征圖進(jìn)行下采樣,形成第三層次的特征圖;以及
[0013] 7)對所述第三層次的特征圖中的每個(gè)特征圖進(jìn)行濾波以減少人臉區(qū)域以外的高 響應(yīng),
[0014] 借以,減少所述人臉圖像的身份內(nèi)差異并且在所述人臉圖像的身份之間維持辨別 力。
[0015] 在另一個(gè)方面中,本申請?zhí)峁┝艘环N用于從人臉圖像的數(shù)據(jù)提取人臉特征的系 統(tǒng),包括:
[0016] 第一特征提取單元,被配置成對所述人臉圖像的數(shù)據(jù)進(jìn)行濾波形成第一層次的、 第一多個(gè)通道的特征圖,并將所述特征圖下采樣為第二層次的特征圖;
[0017] 第二特征提取單元,被配置成對所述第二層次的特征圖進(jìn)行濾波以形成第二層次 的、第二多個(gè)通道的特征圖,并將所述第二多個(gè)通道的特征圖下采樣成第三層次的特征圖;
[0018] 第三特征提取單元,被配置成對所述第三層次的特征圖進(jìn)行濾波,以進(jìn)一步減少 位于人臉區(qū)域以外的高響應(yīng),從而減少人臉圖像的身份內(nèi)差異同時(shí)在所述人臉圖像的身份 之間維持辨別力。
[0019] 在一個(gè)實(shí)施例中,上述方法可由計(jì)算機(jī)中的一或多個(gè)處理器來實(shí)施或?qū)嵭小?br>[0020] 在一個(gè)實(shí)施例中,第一特征提取單元包括第一濾波器矩陣、第一非線性激活單元 和第一下采樣單元矩陣。第一濾波器矩陣被配置成對人臉圖像的數(shù)據(jù)進(jìn)行濾波使得每個(gè)特 征圖具有:位于人臉區(qū)域以外的、用于主要捕獲人臉圖像的姿勢信息的大量高響應(yīng);以及位 于人臉區(qū)域內(nèi)部的、用于捕獲人臉圖像的人臉結(jié)構(gòu)的多個(gè)高響應(yīng)。第一下采樣單元矩陣被 配置成將特征圖下采樣為第二層次的特征圖。第一非線性激活單元被配置成非線性地聯(lián)接 第一濾波器矩陣和第一下采樣單元矩陣。
[0021] 在另外的實(shí)施例中,第二特征提取單元包括第二濾波器矩陣21,第二濾波器矩陣 被配置成對來自第一特征提取單元的每個(gè)特征圖進(jìn)行濾波以減少位于人臉區(qū)域以外的高 響應(yīng),從而在舍棄大多數(shù)姿勢變化的同時(shí)保持人臉圖像的人臉結(jié)構(gòu)。第二特征提取單元進(jìn) 一步包括:第二非線性激活單元以及第二下采樣單元矩陣。第二下采樣單元矩陣被配置成 將特征圖下采樣為第二層次的特征圖,其中第二非線性激活單元被配置成非線性地聯(lián)接第 二濾波器矩陣和第二下采樣單元矩陣。
[0022] 在其它方面中,本申請?zhí)峁┝擞?jì)算機(jī)可讀媒體,所述計(jì)算機(jī)可讀媒體用于存儲用 于執(zhí)行以下步驟的指令:
[0023] 1)對所述人臉圖像的數(shù)據(jù)進(jìn)行濾波形成第一層次的、第一多個(gè)通道的特征圖;
[0024] 2)根據(jù)〇(x)=max(0,x)的規(guī)則計(jì)算每個(gè)所述特征圖,其中X表示所述第一層次的 特征圖;
[0025] 3)對所計(jì)算的特征圖下采樣,形成第二層次的特征圖;
[0026] 4)對經(jīng)下采樣形成的特征圖進(jìn)行濾波,形成第二層次的、第二多個(gè)通道的特征圖;
[0027] 5)根據(jù)σ(X)= max(0,X)的規(guī)則計(jì)算所述第二層次的特征圖中的每個(gè)特征圖,其中 X表示所述第二多個(gè)通道的特征圖;
[0028] 6)對計(jì)算的第二多個(gè)通道的特征圖進(jìn)行下采樣,形成第三層次的特征圖;以及
[0029] 7)對所述第三層次的特征圖中的每個(gè)特征圖進(jìn)行濾波以減少人臉區(qū)域以外的高 響應(yīng),
[0030] 借以,減少所述人臉圖像的身份內(nèi)差異并且在所述人臉圖像的身份之間維持辨別 力。
【附圖說明】
[0031] 圖1示出了用于從人臉圖像的數(shù)據(jù)提取人臉特征的過程的流程圖。
[0032]圖2示出了根據(jù)本申請的實(shí)施例的用于從人臉圖像的數(shù)據(jù)提取人臉特征的系統(tǒng)的 架構(gòu)。
[0033]圖3示出了根據(jù)本申請的實(shí)施例的用于從人臉圖像的數(shù)據(jù)提取人臉特征的例示性 系統(tǒng)的框圖。
[0034]圖4示出了根據(jù)本申請的一個(gè)實(shí)施例的用于訓(xùn)練權(quán)值中的參數(shù)的流程。
【具體實(shí)施方式】
[0035]下面將詳細(xì)參考例示性實(shí)施方式,并根據(jù)附圖來描述本發(fā)明的具體實(shí)施例。如果 合適,在整個(gè)附圖中使用相同附圖標(biāo)號來指代相同或相似部分。
[0036]圖1示出了用于從人臉圖像的數(shù)據(jù)提取人臉特征的過程100的流程圖。在過程100 中,一個(gè)人的具有任意姿勢和光照變化的人臉圖像將被用作輸入,并且以該人的規(guī)范視角 重建其人臉以作為目標(biāo)(見圖2)。首先,經(jīng)由特征提取層對輸入圖像進(jìn)行編碼,該特征提取 層具有三個(gè)局部連接層和交替堆疊的兩個(gè)池化層,稍后將論述這些層。每個(gè)層以不同尺度 來捕獲人臉特征。第一局部連接層輸出第一多個(gè)(例如,32個(gè))特征圖。每個(gè)特征圖具有位于 人臉區(qū)域以外的、主要捕獲姿勢信息的大量高響應(yīng),以及具有位于人臉區(qū)域內(nèi)部的、用于捕 獲人臉結(jié)構(gòu)的一些高響應(yīng)。在第二局部連接層輸出的特征圖中,位于人臉區(qū)域以外的高響 應(yīng)已顯著減少,這指示其舍棄了大多數(shù)姿勢變化并同時(shí)保持了人臉結(jié)構(gòu)。第三局部連接層 輸出稀疏的并保留了身份特征的FIP特征。FIP特征可用來以規(guī)范的視角恢復(fù)人臉圖像。 [0037]在一個(gè)實(shí)施例中,過程100包括步驟slOl,在該步驟中,對人臉圖像的數(shù)據(jù)進(jìn)行濾 波以形成第一層次(dimension)的、第一多個(gè)通道的特征圖。接著,通過σ(χ) =max(0,x)來 計(jì)算每個(gè)特征圖,其中X表示每個(gè)第二層次的特征圖。將所計(jì)算的特征圖進(jìn)一步下采樣形成 第二層次的特征圖。在該步驟中,對人臉圖像的數(shù)據(jù)進(jìn)行濾波,使得每個(gè)特征圖具有:1)位 于人臉區(qū)域以外的、用于主要捕獲人臉圖像的姿勢信息的大量高響應(yīng);以及2)位于人臉區(qū) 域內(nèi)部的、用于捕獲人臉圖像的人臉結(jié)構(gòu)的多個(gè)高響應(yīng)。
[0038] 舉例來說,/表示在任意姿勢和光照下的人臉圖像的數(shù)據(jù)矩陣,其具有原始層次 (例如,96X96)。出于描述的目的,以下內(nèi)容基于96X96的原始層次。可將數(shù)據(jù)矩陣/的原始 層次濾波形成32個(gè)通道的特征圖。
[0039] 在一個(gè)實(shí)施例中,經(jīng)由含有32個(gè)子矩陣的權(quán)值矩陣W1將X*3轉(zhuǎn)換為32個(gè)特征圖/通道 中:
[0040] W'-fW,1 ; W* W]2] VW,;1 e Κβ?·,?(,?
[0041] 其中no表示數(shù)據(jù)矩陣的原始層次(即,n〇 = 96)。
[0042] 每個(gè)子矩陣是稀疏的,以保持圖像數(shù)據(jù)的局部連接結(jié)構(gòu)。直觀地,子矩陣中的每行 表示中心在像素 X*3處的小濾波器,使得除屬于該濾波器的元素之外這行中的所有元素均 等于零。特別而言,W1的權(quán)值不共享,這些行的非零值也不同。因此,權(quán)值矩陣W1產(chǎn)生32個(gè)特 征圖{<}=,每個(gè)特征圖具有no層次。
[0043] 接著,使用矩陣V1 (其中Vij e {〇,1})來將這些特征圖中的每個(gè)下采樣為48X48特 征,以減少需要學(xué)習(xí)的參數(shù)的數(shù)目并獲得更穩(wěn)健的特征??梢詫的每個(gè)4計(jì)算為:
[0044]
(1)
[0045] 其中〇(x)=max(0,x)是特征強(qiáng)度不變的經(jīng)修正的線性函數(shù)。因此其對形狀和光照 變化較穩(wěn)健??梢酝ㄟ^將所有串聯(lián)在一起、獲得ηι = 48Χ48Χ32層次的較大特征 圖來獲得X1。
[0046] 在一個(gè)實(shí)施例中,在步驟slOl之前,過程100可根據(jù)〇(x)=max(0,x)的規(guī)則非線 性地激活人臉圖像的數(shù)據(jù),其中X表示人臉圖像的每個(gè)數(shù)據(jù)。在另一個(gè)實(shí)施例中,可在步驟 sl〇l之前將人臉圖像轉(zhuǎn)換成灰階圖像。
[0047]在步驟S102中,將所計(jì)算的每個(gè)特征圖進(jìn)一步濾波為第二層次的、第二多個(gè)通道 的特征圖,并且通過σ(X) =max(0,X)來進(jìn)一步計(jì)算每個(gè)經(jīng)濾波的特征圖,其中X表示第二層 次的每個(gè)特征圖。接著,將上述特征圖進(jìn)一步下采樣為第三層次的特征圖。
[0048] 具體而言,每個(gè)#被濾波為具有32個(gè)子矩陣死HV%2e的xf
[0049]
.(2)
[0050] 其中,使用V2將xf下采樣到24X24層次。方程式2意指第一層中的每個(gè)小特征圖乘 以32個(gè)子矩陣并接著將其相加。在這里,每個(gè)子矩陣具有如上文所述的稀疏結(jié)構(gòu)。我們可以 將方程式(2)重新用公式表示成矩陣形式:
[0051] x2 = V2〇(ffV) (3)
[0052] 其中,疋2=倆2:;...;咬'^呢 2'^股4_押并且2=[4;...;4]€股" 1。通過重復(fù)甿達(dá)32 次來簡單地獲得》f。因此,X2具有n2 = 24 X 24 X 32的層次。
[0053]在步驟sl03中,過程100對從步驟sl02獲得的第三層次的特征圖中的每個(gè)特征圖 進(jìn)行濾波以減少位于人臉區(qū)域以外的高響應(yīng),從而減少人臉圖像的身份內(nèi)差異并維持人臉 圖像的身份之間的辨別力。所獲得的人臉特征在本公開中也被稱為FIP(face identitypreserving; 人臉身份保留) 特征。
[0054]在一個(gè)實(shí)施例中,過程100對從步驟sl02接收到的每個(gè)特征圖進(jìn)行加權(quán),并在步驟 S104中將經(jīng)加權(quán)的特征圖轉(zhuǎn)換到無姿勢和光照變化的正面人臉圖像。
[0055] 具體而言,X2將轉(zhuǎn)換到x3(即,F(xiàn)IP特征),x3與X2的大小相同。
[0056] x3 = o(ffV) (4)
[0057] 其中,r3 -二],V時(shí) e E24 2切并且,Y2 = [xf;…;4 ] e RS2。
[0058] 接著,在步驟sl06中,過程100經(jīng)由權(quán)值矩陣ff4 elT#'將FIP特征x3轉(zhuǎn)換到正面人 臉圖像y:
[0059] y = o(ff4x3) (5)
[0060] 已論述了用于從人臉圖像的數(shù)據(jù)提取人臉特征的方法。下文中參考圖2和圖3論述 用于從人臉圖像的數(shù)據(jù)提取人臉特征的系統(tǒng),其中圖2示出了根據(jù)本申請的實(shí)施方式的用 于從人臉圖像的數(shù)據(jù)提取人臉特征的系統(tǒng)200的架構(gòu),而圖3示出了根據(jù)本申請的實(shí)施例的 用于從人臉圖像的數(shù)據(jù)提取人臉特征的例示性系統(tǒng)200的框圖。
[0061] 如圖2所示,系統(tǒng)200包括特征提取層和特征。如上文中所提及,一個(gè)人的具有任意 姿勢和光照變化的人臉圖像將被用作系統(tǒng)200的輸入。系統(tǒng)200以同一人的規(guī)范視角重建人 臉以作為目標(biāo)。首先,經(jīng)由特征提取層對輸入圖像進(jìn)行編碼,該特征提取層具有三個(gè)局部連 接層和交替堆疊的兩個(gè)池化層。每個(gè)層以不同尺度來捕獲人臉特征。第一局部連接層輸出 第一多個(gè)(例如,32個(gè))特征圖。每個(gè)特征圖具有位于人臉區(qū)域以外的、用于主要捕獲姿勢信 息的大量高響應(yīng),以及具有位于人臉區(qū)域內(nèi)部的、用于捕獲人臉結(jié)構(gòu)的一些高響應(yīng)。在第二 局部連接層輸出的特征圖中,位于人臉區(qū)域以外的高響應(yīng)已被顯著減少,這表明其舍棄了 大多數(shù)姿勢變化并同時(shí)保持了人臉結(jié)構(gòu)。第三局部連接層輸出稀疏的并保留身份的FIP特 征。FIP特征可用來以規(guī)范視角恢復(fù)人臉圖像。
[0062]更具體而言,如圖3中所示,系統(tǒng)200可包括第一特征提取單元10、第二特征提取單 元20和第三特征提取單元30。第一特征提取單元10被配置成將人臉圖像的數(shù)據(jù)濾波為第一 層次的、第一多個(gè)通道的特征圖,并將特征圖下采樣為第二層次的特征圖。第二特征提取單 元11被配置成對第二層次的特征圖進(jìn)行濾波,從而形成第二層次的、第二多個(gè)通道的特征 圖,并將第二多個(gè)通道特征圖下采樣從而形成第三層次的特征圖。第三特征提取單元12被 配置成對第三層次的特征圖進(jìn)行濾波以進(jìn)一步減少位于人臉區(qū)域以外的高響應(yīng)從而減少 人臉圖像的身份內(nèi)差異并同時(shí)維持在人臉圖像的身份之間的辨別力。
[0063]如圖3中所示,系統(tǒng)200進(jìn)一步包括布置在第一特征提取單元10和第二特征提取單 元11之間的第一非線性激活單元20以及布置在第二特征提取單元11和第三特征提取單元 12之間的第二非線性激活單元21。第一和第二非線性激活單元被配置成分別根據(jù)σ( χ) = max(0,X)的規(guī)則非線性地聯(lián)接第一、第二和第三特征提取單元,其中X是所提取的特征圖。 [0064]在一個(gè)實(shí)施例中,第一特征提取單元10包括第一濾波器矩陣11、第一非線性激活 單元12和第一下采樣單元矩陣13。第一濾波器矩陣11被配置成對人臉圖像的數(shù)據(jù)進(jìn)行濾 波,使得每個(gè)特征圖均具有位于人臉區(qū)域以外的、用于主要捕獲人臉圖像的姿勢信息的大 量高響應(yīng),以及具有位于人臉區(qū)域內(nèi)部的用于捕獲人臉圖像的人臉結(jié)構(gòu)的多個(gè)高響應(yīng)。第 一非線性激活單元12被配置成非線性地聯(lián)接第一濾波器矩陣11和第一下采樣單元矩陣13。 第一下采樣單元矩陣13被配置成將特征圖下采樣為第二層次的特征圖。第一濾波器矩陣 11、第一非線性激活單元12和第一下采樣單元矩陣13合作以根據(jù)如上述公式(5)描述的規(guī) 則繼續(xù)進(jìn)行其功能。
[0065]第二特征提取單元20包括第二濾波器矩陣21、第二非線性激活單元22和第二下采 樣單元矩陣23。第二濾波器矩陣21被配置成對來自第一特征提取單元的每個(gè)特征圖進(jìn)行濾 波以減少在人臉區(qū)域以外的高響應(yīng),從而舍棄大多數(shù)姿勢變化并同時(shí)保持人臉圖像的人臉 結(jié)構(gòu)。第二下采樣單元矩陣23被配置成將特征圖下采樣為第二層次的特征圖。第二非線性 激活單元22被配置成非線性地聯(lián)接第二濾波器矩陣21和第二下采樣單元矩陣23。第二濾波 器矩陣21、第二非線性激活單元22和第二下采樣單元矩陣23合作以根據(jù)如上所述的公式 (2)到(4)的規(guī)則繼續(xù)進(jìn)行上文所提及的功能。
[0066]另外,系統(tǒng)200可進(jìn)一步包括重建單元40,該重建單元被配置成對從第三特征提取 單元30接收到的每個(gè)特征進(jìn)行加權(quán),并根據(jù)如上所述的公式(5)的規(guī)則將經(jīng)加權(quán)的特征轉(zhuǎn) 換為無姿勢和光照變化的正面人臉圖像。
[0067]此外,在一個(gè)實(shí)施例中,系統(tǒng)200可進(jìn)一步包括非線性預(yù)激活單元50,該非線性預(yù) 激活單元在將人臉圖像的數(shù)據(jù)輸入到第一特征提取單元之前處理人臉圖像的數(shù)據(jù)。非線性 預(yù)激活單元50可進(jìn)一步被配置成將圖像轉(zhuǎn)換成灰階圖像。
[0068]分別用第一權(quán)值矩陣W1、第二權(quán)值矩陣W2、第三權(quán)值矩陣W3來執(zhí)行在三個(gè)層中進(jìn) 行濾波的過程(即,步驟S101-103,單元10-20),并且用第四權(quán)值矩陣W4來實(shí)行轉(zhuǎn)換。本申請 基于最小二乘方字典學(xué)習(xí)來設(shè)計(jì)一種監(jiān)督方法。特別而言,通過以下步驟來訓(xùn)練矩陣W1、 W2、W3和W4:基于最小二乘方字典學(xué)習(xí)來初始化W1、W2、W3和W4的參數(shù),接著通過對重建圖像 和實(shí)測值(ground truth)之間的相加平方的重建誤差進(jìn)行反向傳播來更新所有參數(shù)。
[0069] 圖4示出了用于初始化W1、W2、W3和W4的參數(shù)的流程。給定f3 =丨.rfK:是一組FIP特 征并且?={^匕是一組目標(biāo)圖像(其中m表示訓(xùn)練示例的數(shù)目),在第一步驟中,提供固定矩 陣〇,根據(jù)以下規(guī)則用X0和Y來初始化W1:
[0070]
(6)
[0071] 其中= ^匕是一組輸入圖像,并且I I · I |F是弗羅貝尼烏斯范數(shù)。
[0072] 在第二步驟中,該方法提供固定矩陣P以根據(jù)以下規(guī)則用W1X0和Y來初始化W2:
[0073] n
,u (7)
[0074] 其中W1是固定的。
[0075]在第三步驟中,該方法提供固定矩陣Q以根據(jù)以下規(guī)則用W2W1X0和Y來初始化W3: [0076]
(8)
[0077] 在第四步驟中,該方法根據(jù)以下規(guī)則用W3W2W1X0和Y來初始化W4:
[0078]
(9)
[0079] 對于更新而言,所提議的方法在初始化之后通過將重建誤差的損失函數(shù)最小化來 更新所有權(quán)值矩陣:
[0080] E(X°-,W)=\\Y-Y\\^ (10)
[0081] 其中WHW1,· · ·,W4},,= {x,°}、f =漢}以及Y={yi}分別是一組輸入圖像,一組 目標(biāo)圖像和一組經(jīng)重建構(gòu)的圖像。其使用隨機(jī)梯度下降法來更新W,其中在第k個(gè)迭代中W 1, i = 1... 4的更新規(guī)則是:
[0082] (11)
[0083] (12)
[0084] 其中,Δ是動(dòng)量變量,e是學(xué)習(xí)率,并且| = 是導(dǎo)數(shù),其被計(jì)算作為反向 V-W 傳播誤差e1和先前層的特征的外積。在該深度網(wǎng)絡(luò)中,存在e1的三種不同表達(dá)式。首先, 對于轉(zhuǎn)換層而言,基于線性修正函數(shù)的導(dǎo)數(shù)來計(jì)算e4:
[0085]
(13)
[0086] 其中< = · L表示向量的第j個(gè)元素。
[0087] 類似地,e3的反向傳播誤差被計(jì)算為:
[0088]
(14)
[0089] 其中<=[沙'、:],。
[0090] 在本公開中,e1和e2是以與e3相同的方式來計(jì)算的,因?yàn)樗鼈儍烧卟捎孟嗤募せ?函數(shù)。由于進(jìn)行了下采樣,因此存在細(xì)微差異。對于這兩個(gè)層而言,我們必須對相應(yīng)的反向 傳播誤差e進(jìn)行上采樣,使得其具有與輸入特征相同的層次。本申請需要加強(qiáng)權(quán)值矩陣以在 每個(gè)梯度步驟之后具有局部連接的結(jié)構(gòu)。為此,如果對應(yīng)矩陣元素假設(shè)為沒有連接,則將這 些元素設(shè)定為零。
[0091] 可使用某種硬件、軟件或其組合來實(shí)施本發(fā)明的實(shí)施方式。另外,本發(fā)明的實(shí)施方 式可適合計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品體現(xiàn)在含有計(jì)算機(jī)程序代碼的一或多個(gè)計(jì)算 機(jī)可讀存儲媒體(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上。舉例來說,可由一 或多個(gè)處理器實(shí)施上文所提及的方法以實(shí)行存儲在計(jì)算機(jī)可讀媒體中的指令。具體而言, 媒體可存儲:用于檢索一對人臉圖像的指令;用于將每個(gè)人臉圖像分割成圖像的多個(gè)分塊 的指令,一個(gè)圖像中的每個(gè)分塊和另一圖像中的對應(yīng)分塊形成一對分塊;用于確定每對分 塊的第一相似性的指令;用于從所有對分塊確定所述一對人臉圖像的第二相似性的指令; 以及用于使用第一相似性和第二相似性的指令;以及用于辨識人臉圖像的指令。
[0092] 在以上描述中,出于說明的目的,在單個(gè)實(shí)施例中集合了本發(fā)明的各個(gè)方面、步驟 或部件。本公開不應(yīng)該被解釋為需要所要求保護(hù)主題的所有的公開的變化。所附權(quán)利要求 書也應(yīng)該被理解為合并到例示性實(shí)施例的描述中,其中每個(gè)權(quán)利要求本身應(yīng)被認(rèn)為是本公 開的獨(dú)立的實(shí)施方式。
[0093] 此外,從本公開的說明書和實(shí)踐考慮,本領(lǐng)域的技術(shù)人員將顯而易見的是,在不背 離如本公開的范圍的情況下,可以對所公開的系統(tǒng)和方法作出各種修改和變化。因此,說明 書及其中的實(shí)施例僅視作示例性的,本公開的真正保護(hù)范圍由所附權(quán)利要求書及其等同來 指示。
【主權(quán)項(xiàng)】
1. 一種用于從人臉圖像的數(shù)據(jù)提取人臉特征的方法,包括: 1) 對所述人臉圖像的數(shù)據(jù)進(jìn)行濾波形成第一多個(gè)通道的、第一層次的特征圖; 2) 根據(jù)〇(x)=max(0,x)的規(guī)則計(jì)算每個(gè)所述特征圖,其中X表示所述第一層次的特征 圖; 3) 對所計(jì)算的特征圖下采樣,形成第二層次的特征圖; 4) 對經(jīng)下采樣形成的特征圖進(jìn)行濾波,形成第二多個(gè)通道的、第二層次的特征圖; 5) 根據(jù)〇(x)=max(0,x)的規(guī)則計(jì)算所述第二層次的特征圖中的每個(gè)特征圖,其中X表 示所述第二多個(gè)通道的特征圖; 6) 對計(jì)算的第二多個(gè)通道的特征圖進(jìn)行下采樣,形成第Ξ層次的特征圖;W及 7) 對所述第Ξ層次的特征圖中的每個(gè)特征圖進(jìn)行濾波W減少人臉區(qū)域W外的高響應(yīng), 借W,減少所述人臉圖像的身份內(nèi)差異并且在所述人臉圖像的身份之間維持辨別力。2. 根據(jù)權(quán)利要求1所述的方法,其中,所述步驟1)進(jìn)一步包括: 對所述人臉圖像的數(shù)據(jù)進(jìn)行濾波,使得所述第一多個(gè)通道的特征圖中的每個(gè)均具有: 位于所述人臉區(qū)域W外的大量高響應(yīng),其主要捕獲所述人臉圖像的姿勢信息;W及 位于所述人臉區(qū)域內(nèi)部的多個(gè)高響應(yīng),其捕獲所述人臉圖像的人臉結(jié)構(gòu)。3. 根據(jù)權(quán)利要求1或2所述的方法,其中,所述步驟7)進(jìn)一步包括: 對從步驟6)接收到的每個(gè)所述特征圖進(jìn)行濾波W減少位于所述人臉區(qū)域W外的高響 應(yīng),從而在舍棄大多數(shù)姿勢變化的同時(shí)保持所述人臉圖像的所述人臉結(jié)構(gòu)。4. 根據(jù)權(quán)利要求3所述的方法,其中,所述步驟7)進(jìn)一步包括: 對從步驟6)接收到的每個(gè)所述特征圖進(jìn)行加權(quán);W及 將經(jīng)加權(quán)的特征圖轉(zhuǎn)換為無姿勢和光照變化的正面人臉圖像。5. 根據(jù)權(quán)利要求1到4中的任一項(xiàng)所述的方法,在步驟1)之前進(jìn)一步包括: 將所述人臉圖像轉(zhuǎn)換成灰階圖像。6. 根據(jù)權(quán)利要求4所述的方法,其中,分別用第一權(quán)值矩陣Wi、第二權(quán)值矩陣W2、第Ξ權(quán) 值矩陣W3來實(shí)行步驟1)、4)和7)中的濾波操作,并且用第四權(quán)值矩陣W4來實(shí)行所述轉(zhuǎn)換, 其中,通過W下步驟來訓(xùn)練所述矩陣Wi、W2、W3和W4:基于最小二乘方字典學(xué)習(xí)來初始化 Wi、W2、W3和W4的參數(shù),并且接著通過對重建圖像和實(shí)測值之間的相加平方的重建誤差進(jìn)行 反向傳播來更新所有的所述參數(shù)。7. 根據(jù)權(quán)利要求6所述的方法,其中, 給定X3二記促是一組FIP特征而F =拓指是一組目標(biāo)圖像,其中m表示訓(xùn)練示例的數(shù) 目,所述初始化的操作包括: 提供固定矩陣0,根據(jù)W下規(guī)則用X呀日Y來初始化Wi:其中義° =詩促是一組輸入圖像,并且 I · I If是弗羅貝尼烏斯范數(shù), 提供固定矩陣P,根據(jù)W下規(guī)則用WiX呀日Y來初始化W2: 其中Wi是固定的,提供固定矩陣Q,根據(jù)W下規(guī)則用W2W4呀日Υ來初始化W3:W及 根據(jù)W下規(guī)則用W3wVx哺Y來初始化W4:8. -種用于從人臉圖像的數(shù)據(jù)提取人臉特征的系統(tǒng),包括: 第一特征提取單元,被配置成對所述人臉圖像的數(shù)據(jù)進(jìn)行濾波形成第一多個(gè)通道的、 第一層次的特征圖,并將所述特征圖下采樣為第二層次的特征圖; 第二特征提取單元,被配置成對所述第二層次的特征圖進(jìn)行濾波W形成第二層次的、 第二多個(gè)通道的特征圖,并將所述第二多個(gè)通道的特征圖下采樣成第Ξ層次的特征圖; 第Ξ特征提取單元,被配置成對所述第Ξ層次的特征圖進(jìn)行濾波,W進(jìn)一步減少位于 人臉區(qū)域W外的高響應(yīng),從而減少人臉圖像的身份內(nèi)差異同時(shí)在所述人臉圖像的身份之間 維持辨別力。9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中,所述第一特征提取單元包括第一濾波器矩陣; 所述第一濾波器矩陣被配置成對所述人臉圖像的數(shù)據(jù)進(jìn)行濾波使得所述第一多個(gè)通 道的特征圖中的每個(gè)均具有: 位于所述人臉區(qū)域W外的大量高響應(yīng),其主要捕獲所述人臉圖像的姿勢信息;W及 位于所述人臉區(qū)域內(nèi)部的多個(gè)高響應(yīng),其捕獲所述人臉圖像的人臉結(jié)構(gòu)。10. 根據(jù)權(quán)利要求9所述的系統(tǒng),所述第二特征提取單元進(jìn)一步包括: 第一非線性激活單元;W及 第一下采樣單元矩陣,其被配置成將所第一多個(gè)通道的特征圖下采樣為所述第二層次 的特征圖, 其中,所述第一非線性激活單元被配置成非線性地聯(lián)接所述第一濾波器矩陣11和所述 第一下采樣單元矩陣。11. 根據(jù)權(quán)利要求8所述的系統(tǒng),所述第二特征提取單元包括: 第二濾波器矩陣,被配置成對來自所述第一特征提取單元的每個(gè)所述特征圖進(jìn)行濾波 W減少位于所述人臉區(qū)域W外的高響應(yīng)從而舍棄大多數(shù)姿勢變化并同時(shí)保持所述人臉圖 像的所述人臉結(jié)構(gòu)。12. 根據(jù)權(quán)利要求11所述的系統(tǒng),其中,所述第二特征提取單元進(jìn)一步包括: 第二非線性激活單元;W及 第二下采樣單元矩陣,被配置成將所述特征圖下采樣為所述第二層次的特征圖, 其中,所述第二非線性激活單元被配置成非線性地聯(lián)接所述第二濾波器矩陣和所述第 二下采樣單元矩陣。13. 根據(jù)權(quán)利要求10或12所述的系統(tǒng),其中第一非線性激活單元和所述第二非線性激 活單元中的每個(gè)均被配置成執(zhí)行所述函數(shù)〇(x)=max(0,x),其中X是所述第一非線性激活 單元和所述第二非線性激活單元中的每個(gè)的輸入。14. 根據(jù)權(quán)利要求8所述的系統(tǒng),其進(jìn)一步包括: 重建單元,被配置成對每個(gè)所述特征圖進(jìn)行加權(quán)并將經(jīng)加權(quán)的特征圖轉(zhuǎn)換為無姿勢和 光照變化的正面人臉圖像。15.根據(jù)權(quán)利要求8所述的系統(tǒng),其進(jìn)一步包括: 非線性預(yù)激活單元,被配置成在將所述人臉圖像的數(shù)據(jù)輸入到所述第一特征提取單元 之前將所述人臉圖像的數(shù)據(jù)轉(zhuǎn)換成灰階圖像。
【文檔編號】G06K9/46GK105981050SQ201380081289
【公開日】2016年9月28日
【申請日】2013年11月30日
【發(fā)明人】湯曉鷗, 朱臻垚, 羅平, 王曉剛
【申請人】北京市商湯科技開發(fā)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1