專利名稱:基于深度信息和彩色圖像的頭部姿勢估計方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)字圖像處理、模式識別和統(tǒng)計學習等技術(shù)領(lǐng)域,特別是一種基于深度信息和彩色圖像的頭部姿勢估計方法。
背景技術(shù):
二十世紀50年代以來,計算機技術(shù)的出現(xiàn)極大地改變了人類生產(chǎn)生活的方式。與此同時,人類的日益增長的需求也推動著計算機技術(shù)的飛速發(fā)展。隨著社會的進步,基于鍵盤和鼠標這種傳統(tǒng)輸入方式的計算機技術(shù)已經(jīng)滿足不了人們生活的需要,人們呼吁一種基于視覺的智能交互技術(shù),這種技術(shù)能讓機器掌握人的姿勢或動作進而理解人的意圖。智能交互領(lǐng)域的重要研究課題之一——頭部姿勢估計,在人臉識別、視點跟蹤和輔助駕駛等方 向上有著廣泛的應(yīng)用。關(guān)于頭部姿勢估計的傳統(tǒng)方法大多基于二維灰度或彩色圖像。譚鐵牛等(CN1601549)融合了人臉的形狀、膚色、紋理、運動等信息使用機器學習的方法得到人臉的位置和姿態(tài)參數(shù)。Y·胡等(CN1573660)通過檢測面部關(guān)鍵點包括左右眼中心、左右嘴角、鼻尖等5個關(guān)鍵點,采用由粗到精的方法來確定用戶的頭部姿勢信息。謝東海等(CN1866271)使用主動形狀模型ASM檢測定位人臉器官,進而估計出人臉的姿態(tài)。趙清杰等(CN101889928A)把人臉劃分為7個狀態(tài)無頭勢、右側(cè)、左側(cè)、半右側(cè)、半左側(cè)、仰頭、低頭,通過鼻尖信息來判斷臉部所處狀態(tài),進而控制輪椅的運動。這些方法在一定程度上滿足了 實時應(yīng)用需求,具有獨特價值,但是這類方法的精度不夠高并且受光照和噪聲的影響較大,有待進一步改善。相對于上述方法,基于深度信息的頭部姿勢估計方法具有天然的優(yōu)越性。第一,深度圖中的像素值具有明確的物理意義,它可以度量空間中一點到攝像機的距離信息。第二,基于深度信息的圖像處理方法可以快速精確地從場景中分割出感興趣的區(qū)域。第三,該類方法受光照變化的影響較小。這類方法可實時地、較為準確地估計出變化幅度較大的頭部姿勢。例如,文獻 M. D. Breitenstein, D. Kuettel, T. Weise, L. Van Gool, H. Pfister,Real-time face pose estimation from single range images, IEEE ConferenceonComputer Vision and Pattern Recognition, 2008,提出了一種基于單幅深度信息圖的實時頭部姿勢估計系統(tǒng),該系統(tǒng)在10度誤差范圍內(nèi)估計精度可達80.8%,但是它需要 GPU 的輔助,應(yīng)用有限。文獻 G.Fanelli,J. Gall, L. Van Gool, Real Time Head PoseEstimation with Random Regression Forests, IEEE Conference on Computer Visionand Pattern Recognition, 2011,也提出了一種基于單幅深度信息圖的實時頭部姿勢估計系統(tǒng),它利用隨機森林的快速高效性也可滿足實時應(yīng)用需求,10度誤差范圍內(nèi)的估計精度可達90. 4%,可較為精確地估計出頭部姿勢,但是估計精度還有很大的改進空間。近年來,隨著深度傳感技術(shù)Light coding的出現(xiàn)深度攝像機的制作成本大大降低?;诖思夹g(shù),2010年底微軟推出一款名為“Kinect”的游戲傳感器,可實時地獲取場景的深度信息和彩色圖像,并以大眾消費品價格出售。Kinect的出現(xiàn)為頭部姿勢方法提供了新的發(fā)展平臺。本發(fā)明設(shè)計一種基于Kinect的頭部姿勢估計方法,該方法利用Kinect所獲取的深度圖像和彩色圖像的特性,實時、精確地完成頭部姿勢估計?;谏疃葓D像的特性簡單快速地把目標從背景中分割出來并定位到頭部區(qū)域;基于彩色圖像的特性實時地除去頭部區(qū)域的頭發(fā)噪聲和服飾噪聲。同時,本方法還設(shè)計了一種新穎、魯棒的頭部姿勢描述子——切片子區(qū)域幾何向量,它以頭部深度圖像的物理屬性為基礎(chǔ),利用人臉關(guān)于鼻尖的對稱特性,可準確地表達頭部姿勢的變化規(guī)律,具備精度高、魯棒性高的優(yōu)點。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于深度信息和彩色圖像相結(jié)合的頭部姿勢估計方法,即利用頭部的深度信息和彩色圖像來實時地估計頭部姿勢。
本發(fā)明提出的一種基于深度信息和彩色圖像的頭部姿勢估計方法,其特征在于,該方法包括以下步驟步驟SI,建立頭部姿勢訓練圖像庫,該訓練圖像庫中的每一訓練樣本均包括一一對應(yīng)的深度信息灰度圖和彩色圖像;步驟S2,基于深度信息灰度圖對其中的頭部位置進行粗定位,得到粗定位的頭部圖像;步驟S3,基于與所述深度信息灰度圖對應(yīng)的彩色圖像對所述步驟S2得到的粗定位的頭部圖像進行噪聲去除;步驟S4,對去噪后的頭部圖像中的頭部分辨率和深度信息灰度圖像素值進行歸一化處理;步驟S5,對于歸一化后的頭部深度信息灰度圖,提取其切片子區(qū)域三維質(zhì)心向量集A ;步驟S6,對于歸一化后的頭部深度信息灰度圖,提取其切片子區(qū)域幾何向量集B;步驟S7,基于所述步驟S5提取出的切片子區(qū)域三維質(zhì)心向量集A、所述步驟S6提取出的切片子區(qū)域幾何向量集B,使用訓練圖像庫中的訓練圖像數(shù)據(jù)訓練隨機森林回歸器,得到隨機森林回歸器模型;步驟S8,采集需要進行頭部姿勢估計的一一對應(yīng)的深度信息灰度圖和彩色圖像,并利用所述步驟S2-S5提取出待估計圖像的切片子區(qū)域三維質(zhì)心向量集A ;步驟S9,基于所述待估計圖像的切片子區(qū)域三維質(zhì)心向量集A,使用所述步驟S7中訓練得到的隨機森林回歸器模型粗步估計待估計圖像中的頭部姿勢;步驟S10,根據(jù)粗步估計出的頭部姿勢檢測鼻尖的位置,并根據(jù)檢測得到的鼻尖的位置,利用所述步驟S6提取出待估計圖像的切片子區(qū)域幾何向量集B ;步驟S11,基于所述步驟SlO得到的待估計圖像的切片子區(qū)域幾何向量集B,使用所述步驟S7中訓練得到的隨機森林回歸器模型精確估計待估計圖像中的頭部姿勢。本發(fā)明方法對于人臉識別、人機交互等領(lǐng)域的發(fā)展具有重要意義,其主要優(yōu)點如下I.本發(fā)明充分利用了深度信息和彩色圖像的特性,深度信息灰度圖用于頭部定位分割與特征提取,彩色圖像用于噪聲去除,具有實時性好的特性。2.本發(fā)明基于人臉的幾何對稱特性,設(shè)計的切片子區(qū)域幾何向量集能很好地描述頭部姿勢的變化規(guī)律,對噪聲有很好的抑制作用,具有良好的魯棒性和較高的估計精度。3.本發(fā)明使用隨機森林回歸器來估計頭部姿勢,具有訓練速度快、泛化性能好、回歸結(jié)果穩(wěn)定等優(yōu)點。4.本發(fā)明所使用的特征簡單有效,對硬件沒有特殊要求,而且不涉及復雜的計算,易于使用。
綜上所述,在不依賴任何特殊硬件的情況下,本發(fā)明可實時、準確地估計出頭部姿勢,這使得多姿態(tài)人臉識別、視點估計成為可能。一方面,基于本發(fā)明的多姿態(tài)人臉識別技術(shù)可極大提高人臉識別的識別精度,因此本發(fā)明可廣泛應(yīng)用于使用人臉進行身份認證或者識別的系統(tǒng)中。另一方面,基于本發(fā)明的人機交互技術(shù)能保證機器實時地掌握人的視點情況進而理解人的意圖,因此本發(fā)明也能廣泛應(yīng)用于人機交互的場景中。
圖I為本發(fā)明基于深度信息和彩色圖像的頭部姿勢估計方法流程圖;圖2為訓練圖像庫中來自不同性別的深度信息灰度圖及彩色圖像;圖3為基于直方圖投影的頭部定位算法示意圖;圖4為頭部圖像中頭發(fā)噪聲和服飾噪聲的示意圖;圖5為頭部圖像噪聲去除和歸一化結(jié)果的示意圖;圖6為頭部二維深度圖像的三維模型及頭部切片示意圖;圖7為切片子區(qū)域幾何向量示意圖;圖8為頭部姿勢參數(shù)模型;圖9為鼻子形狀隨頭部姿勢變化示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。深度圖像(深度信息灰度圖)和彩色圖像是數(shù)字空間對物理世界的兩種映像,它們各具特性,各具應(yīng)用優(yōu)勢。深度信息灰度圖是對物理世界的距離映像,其像素值表示空間物體表面某一點到攝像機的距離信息,受光照變化影響較小,可用于快速檢測分割目標物體、設(shè)計魯棒頭部姿勢特征;彩色圖像是物理世界色彩空間的真實反映,往往含有豐富的紋理色彩信息,可用于區(qū)分人臉、頭發(fā)和服飾區(qū)域?;诖?,本發(fā)明提出一種基于深度信息和彩色圖像的頭部姿勢估計方法。本方法基于Kinect所采集的深度信息及彩色圖像實現(xiàn)深度信息快速預(yù)處理,然后基于歸一化的深度圖設(shè)計一種精確、魯棒的頭部姿勢描述子并使用機器學習的方法估計頭部姿勢。圖I為本發(fā)明基于深度信息和彩色圖像的頭部姿勢估計方法流程圖,如圖I所示,本發(fā)明提出的基于深度信息和彩色圖像的頭部姿勢估計方法主要包括離線學習和在線估計兩個模塊離線學習模塊主要完成離線狀態(tài)下對隨機森林回歸器的學習訓練,包括建立頭部姿勢訓練圖像庫SI、頭部粗定位(S2)、噪聲去除(S3)、深度信息歸一化(S4)、提取切片子區(qū)域幾何向量集A(S5)、提取切片子區(qū)域幾何向量集B(S6)和訓練隨機森林回歸器
(S7)七個部分;在線估計模塊主要完成在線狀態(tài)下使用訓練所得的回歸器估計頭部姿勢,包括深度信息和彩色圖像的采集(S8)、頭部粗定位(S2)、噪聲去除(S3)、深度信息歸一化
(S4)、提取切片子區(qū)域幾何向量集A(S5)、提取切片子區(qū)域幾何向量集B(S6)、使用隨機森林回歸器粗步估計頭部姿勢(S9)、鼻尖檢測(SlO)和使用隨機森林回歸器精確估計頭部姿勢(Sll)九個部分。其中,頭部粗定位(S2)、噪聲去除(S3)、深度信息歸一化(S4)、提取切片子區(qū)域幾何向量集A(S5)、提取切片子區(qū)域幾何向量集B(S6)為這兩個模塊的公共部分。本發(fā)明所述方法的基本原理是首先,利用基于機器學習的方法訓練一個隨機森林回歸器;然后使用訓練所得的回歸器實時地估計所采集圖像的頭部姿勢。具體來說,本發(fā)明提出的基于深度信息和彩色圖像的頭部姿勢估計方法包括以下幾個步驟步驟SI,建立頭部姿勢訓練圖像庫,該訓練圖像庫中的每一訓練樣本均包括一一 對應(yīng)的深度信息灰度圖和彩色圖像;鑒于本方法是基于有監(jiān)督學習的,需要逐一標定訓練樣本圖像的頭部姿勢。為了保證本發(fā)明方法的泛化性能,訓練庫中的頭部圖像應(yīng)具有多樣性,它們采自不同種族、不同性別以及不同發(fā)型的人。本發(fā)明使用文獻Fanelli,G. ,ffeise,T.,Gall,J. ,Gool,L. V. =Realtime head pose estimation from consumer depth cameras. The 33rd Annual Symposiumof the German Association for Pattern Recognition,2011,所發(fā)布的數(shù)據(jù)庫作為訓練圖像庫。圖2(a)和(b)示出了訓練圖像庫中來自不同性別的深度信息灰度圖和彩色圖像。步驟S2,基于深度信息灰度圖對其中的頭部位置進行粗定位,得到粗定位的頭部圖像;頭部粗定位是離線學習模塊和在線估計模塊的公有部分,主要是基于深度信息灰度圖來粗定位頭部位置。在頭部姿態(tài)變化較大的情況下,基于彩色圖像的頭部檢測算法很難準確、快速地檢測定位到頭部位置,本發(fā)明利用深度信息灰度圖的深度信息特性提出的一種頭部定位算法可簡單快速實現(xiàn)頭部定位,其原理示意圖如圖3所示。該頭部定位算法進一步包括以下幾個步驟步驟S21,首先,使用閾值法把目標人從深度信息灰度圖背景中分割出來;深度信息灰度圖中,像素值大于T的所有像素點被視為背景,像素值小于等于T的所有像素點即為目標,因此,把深度信息灰度圖中背景像素點的像素值置為最大深度值便可簡單地把目標分割出來,如圖3(a)所示。步驟S22,然后分別計算分割出的目標人區(qū)域沿水平方向和垂直方向的投影直方圖 Histo_h 和 1^810_¥,分別如圖3((3)、(b)所不;步驟S23,基于投影直方圖Histo_h和Histo_v計算分割出的目標人區(qū)域中最高點G的坐標(Gsx, Gy),具體計算方法如下Gx = argmax(Histo_h(x))
XGy = argmin(Histo_v(y)), s. t. Histo_v(y) > 0 gp,Gx 為使得 Histo_h(x)最
大時對應(yīng)X的值,Gy為使得Histo_V(y)最小并滿足Histo_V(y)大于O時對應(yīng)y的值。步驟S24,確定G點的坐標后,將以G點為頂邊中心、以w為寬、以h為高的長方形區(qū)域R作為粗定位的頭部圖像,其中,w e [140,160],he [100,120]。步驟S3,基于與所述深度信息灰度圖對應(yīng)的彩色圖像對所述步驟S2得到的粗定位的頭部圖像進行噪聲去除;在頭部圖像中,頭發(fā)和服飾是主要的噪聲來源。深度信息灰度圖中的像素值表示空間中一點到攝像機的距離信息,因此利用深度信息灰度圖可方便地把目標人從背景中分離出來,但很難檢測出目標頭部的頭發(fā)和服飾噪聲;相反,彩色圖像含有豐富的彩色紋理信息,利用彩色圖像可容易地檢測出頭部圖像中的頭發(fā)和服飾噪聲。圖4中的頭部圖像為步驟S2中頭部粗
權(quán)利要求
1.一種基于深度信息和彩色圖像的頭部姿勢估計方法,其特征在于,該方法包括以下步驟 步驟SI,建立頭部姿勢訓練圖像庫,該訓練圖像庫中的每ー訓練樣本均包括一一對應(yīng)的深度信息灰度圖和彩色圖像; 步驟S2,基于深度信息灰度圖對其中的頭部位置進行粗定位,得到粗定位的頭部圖像; 步驟S3,基干與所述深度信息灰度圖對應(yīng)的彩色圖像對所述步驟S2得到的粗定位的頭部圖像進行噪聲去除; 步驟S4,對去噪后的頭部圖像中的頭部分辨率和深度信息灰度圖像素值進行歸ー化處理; 步驟S5,對于歸一化后的頭部深度信息灰度圖,提取其切片子區(qū)域三維質(zhì)心向量集A ; 步驟S6,對于歸一化后的頭部深度信息灰度圖,提取其切片子區(qū)域幾何向量集B; 步驟S7,基于所述步驟S5提取出的切片子區(qū)域三維質(zhì)心向量集A、所述步驟S6提取出的切片子區(qū)域幾何向量集B,使用訓練圖像庫中的訓練圖像數(shù)據(jù)訓練隨機森林回歸器,得到隨機森林回歸器模型; 步驟S8,采集需要進行頭部姿勢估計的一一對應(yīng)的深度信息灰度圖和彩色圖像,井利用所述步驟S2-S5提取出待估計圖像的切片子區(qū)域三維質(zhì)心向量集A ; 步驟S9,基于所述待估計圖像的切片子區(qū)域三維質(zhì)心向量集A,使用所述步驟S7中訓練得到的隨機森林回歸器模型粗步估計待估計圖像中的頭部姿勢; 步驟S10,根據(jù)粗步估計出的頭部姿勢檢測鼻尖的位置,井根據(jù)檢測得到的鼻尖的位置,利用所述步驟S6提取出待估計圖像的切片子區(qū)域幾何向量集B ; 步驟S11,基于所述步驟SlO得到的待估計圖像的切片子區(qū)域幾何向量集B,使用所述步驟S7中訓練得到的隨機森林回歸器模型精確估計待估計圖像中的頭部姿勢。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟S2中對頭部位置進行粗定位的步驟進一歩包括以下幾個步驟 步驟S21,使用閾值法把目標人從深度信息灰度圖背景中分割出來; 步驟S22,分別計算分割出的目標人區(qū)域沿水平方向和垂直方向的投影直方圖Histo_h 和 Histo_v ; 步驟S23,基于投影直方圖Histo_h和Histo_v計算分割出的目標人區(qū)域中最高點G的坐標; 步驟S24,將以G點為頂邊中心、以w為寬、以h為高的長方形區(qū)域R作為粗定位的頭部圖像。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟S21進ー步為將深度信息灰度圖中像素值大于T的所有像素點視為背景,像素值小于等于T的所有像素點視為目標,將深度信息灰度圖中背景像素點的像素值置為最大深度值即可將目標分割出來。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟S23中,最高點G的坐標(Gx,Gy)按照下式計算
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟S4中對去噪后的頭部圖像中的頭部分辨率進行歸ー化處理的步驟進一歩包括以下幾個步驟 步驟S411,計算頭部圖像中臉部區(qū)域的平均深度值adv 其中,η表示臉部區(qū)域中像素點的個數(shù),Pi表示第i個像素點的深度值; 步驟S412,計算圖像縮放因子sf 步驟S413,使用縮放因子sf對頭部深度圖像進行歸ー化處理。
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟S4中對去噪后的頭部圖像中的深度信息灰度圖像素值進行歸ー化處理的步驟進一歩包括以下幾個步驟 步驟S421,計算深度信息灰度圖的直方圖H ; 步驟S422,分別計算歸ー化閾值low和high 其中,V為0到255的正整數(shù); 步驟S423,使用計算出來的歸ー化閾值low和high對深度信息灰度圖進行歸ー化處理 其中P1力歸ー化之后的深度信息灰度圖像素值,Pi為歸ー化之前的深度信息灰度圖像素值。
7.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述切片子區(qū)域三維質(zhì)心向量集A為所述頭部深度信息灰度圖多個切片的子區(qū)域的三維質(zhì)心所組成的向量,所述切片子區(qū)域三維質(zhì)心向量集A的建立包括以下步驟 步驟S51,以垂直于ー個軸Z的兩個平面Pl和P2對所述頭部深度信息灰度圖I構(gòu)成的三維頭部模型做截取操作,得到處于兩個平面間的像素點的集合Soj (I) = {(X, y) 11 彡 P (X, y) ( 1+d} 其中,Su (I)稱為頭部深度信息灰度圖I的ー個切片;ω = (1,d)表示切片參數(shù);1為下灰度閾值,即平面Pi沿Z軸的坐標值;d為兩切面間的距離,Ι+d為上灰度閾值,即平面P2沿Z軸的坐標值;P(x,y)為像素點(X,y)的灰度值; 步驟S52,將ー個切片s沿橫向和縱向或者沿環(huán)向和徑向分別分成m、η等份,得到m*n個子區(qū)域; 步驟S53,所述切片s中第i*j個子區(qū)域的三維質(zhì)心為
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述切片子區(qū)域幾何向量集B由多個切片的切片子區(qū)域幾何向量集共同組成,所述切片子區(qū)域幾何向量集B的建立包括以下步驟 步驟S61,計算每個子區(qū)域的三維質(zhì)心和鼻尖決定的三維幾何向量CCS(s,i,j) CCS (s, i, j) = ( Δ X, Δ y, Δ Z),Δ X = nx-Centoid(s, i, j)し,Ay = ny-Centoid(s, i, j) |y,Az= P(nx, ny)-Centoid(s, i, j)し 其中,(nx,ny)為鼻尖所在位置的坐標,Centoid(S,i,j)し表示切片子區(qū)域質(zhì)心坐標的X分量,Centoid(s, i, j) I y表示切片子區(qū)域質(zhì)心坐標的y分量,Centoid(s, i, j) | z表示切片子區(qū)域質(zhì)心坐標的z分量,P(nx,ny)表示像素點(nx,ny)的深度值; 步驟S62,根據(jù)所述每個子區(qū)域的三維幾何向量CCS(s,i,j)得到切片s的切片子區(qū)域幾何向量集CCS (s)CCS(s) = {CCS (s,i,j) 11 ≤ i ≤ m, I≤j≤ η}; 步驟S63,由所有切片的切片子區(qū)域幾何向量集CCS(s)共同組成所述切片子區(qū)域幾何向量集B。
9.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟S8進ー步包括將采集到的深度信息灰度圖的深度值歸ー化到O到255范圍內(nèi)。
10.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟SlO進ー步包括以下步驟 步驟S101,采集各種頭部姿勢下的鼻子圖像作為模板;步驟S102,利用所述步驟S9得到的頭部姿勢參數(shù),使用與其參數(shù)最接近的姿勢下的鼻子模板,采用模板匹配的方法來檢測鼻尖的位置。
全文摘要
本發(fā)明公開了一種基于深度信息和彩色圖像的頭部姿勢估計方法,該方法首先在深度信息灰度圖中使用直方圖投影方法快速定位頭部位置;然后在彩色圖像中使用膚色檢測算法去除頭部區(qū)域膚色之外的頭發(fā)噪聲和衣服噪聲;再利用攝像機成像原理歸一化頭部區(qū)域分辨率,并對深度信息灰度圖做均衡化處理;最后對所得歸一化深度圖像提取切片子區(qū)域幾何向量集來描述頭部姿勢的變化規(guī)律。本發(fā)明利用了深度信息灰度圖和彩色圖像的特性、人臉的幾何特性尤其是人臉關(guān)于鼻尖的對稱性,設(shè)計了一種新穎的頭部姿勢描述特征碼,并使用隨機森林回歸器來估計頭部姿勢,具有實時性好、精度高、魯棒性高和可靠性高的優(yōu)點,可廣泛應(yīng)用于人臉識別和人機交互等應(yīng)用場景。
文檔編號G06K9/62GK102737235SQ20121022442
公開日2012年10月17日 申請日期2012年6月28日 優(yōu)先權(quán)日2012年6月28日
發(fā)明者唐云祁, 孫哲南, 譚鐵牛 申請人:中國科學院自動化研究所