專(zhuān)利名稱:基于視頻的面部識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像識(shí)別領(lǐng)域,更具體地涉及基于視頻圖像進(jìn)行面部識(shí)別的技術(shù)。
背景技術(shù):
自動(dòng)面部識(shí)別是模式識(shí)別研究中具有挑戰(zhàn)性的任務(wù)。近些年,已經(jīng)提出大量的技術(shù),例如1.局部特征分析方法,包括1)主動(dòng)表象模型(AAM)方法參見(jiàn)T.F.Cootes,C.J.Edwards,和C.J.Taylor所著的“Active Appearance Models”(主動(dòng)表象模型(AAM),參考文獻(xiàn)1),刊登于IEEE Trans.On PAMI(IEEE關(guān)于PAMI的會(huì)刊),第23卷,第6期,第681-685頁(yè),2001年6月;和2)彈性圖匹配(EGM)方法參見(jiàn)L.Wiskott,J.M.Fellous,N.Krueger,C.von der Malsbug所著的“Face Recognition by Elastic Bunch GraphMatching”(通過(guò)彈性串圖形匹配進(jìn)行面部識(shí)別,參考文獻(xiàn)2),發(fā)表于IEEETrans.on Pattern Analysis and Machine Intelligence(IEEE圖案分析和機(jī)器智能會(huì)刊),第19卷,第7期,第775-779頁(yè),1997。
2.基于表象的子空間方法,包括1)特征臉(eigenface)方法參見(jiàn)M.Turk和A.Pentland所著的“Facerecognition using eigenfaces”(使用特征面部法進(jìn)行面部識(shí)別,參考文獻(xiàn)3),IEEE International Conference Computer Vision and Pattern Recognition(IEEE國(guó)際計(jì)算機(jī)視覺(jué)和圖案識(shí)別會(huì)議,參考文獻(xiàn)3),第586-591頁(yè),1991年。
2)LDA方法參見(jiàn)V.Belhumeur,J.Hespanda,和D.Kiregeman所著的,“Eigenfaces vs.fisherfacesRecognition Using Class Specific Linear Projection”(特征面部與費(fèi)舍人臉的比較使用類(lèi)別所特定的線性投影進(jìn)行識(shí)別,參考文獻(xiàn)4),發(fā)表于IEEE Trans.on PAMI(IEEE關(guān)于PAMI的會(huì)刊),第19卷,第7期,第711-720頁(yè),1997年7月。以及W.Zhao,R.Chellappa,和N.Nandhakumar所著的“Empirical performance analysis of linear discriminantclassifiers”(線性判別分類(lèi)器的經(jīng)驗(yàn)性能分析,參考文獻(xiàn)5),Proceedings ofCVPR(CVPR會(huì)議錄),第164-169頁(yè),1998年。
3)貝葉斯(Bayesian)方法參見(jiàn)B.Moghaddam,T.Jebara,和A.Pentland所著的“Bayesian face recognition”(貝葉斯法的面部識(shí)別,參考文獻(xiàn)6),PatternRecognition(圖案識(shí)別),第33卷,第1771-1782頁(yè),2000年。
但是,上述這些方法都屬于使用靜止圖像作為輸入數(shù)據(jù)的基于圖像的面部識(shí)別方法?;趫D像的面部識(shí)別的第一個(gè)問(wèn)題是,有人可能使用預(yù)先記錄的面部照片去迷惑照相機(jī),使照相機(jī)誤將它作為活動(dòng)的物體來(lái)拍照。第二個(gè)問(wèn)題是與其它高準(zhǔn)確性的生物測(cè)定技術(shù)相比,基于圖像的識(shí)別的準(zhǔn)確性在一些實(shí)際的應(yīng)用中仍然太低。為了解決這些問(wèn)題,近來(lái)已經(jīng)提出了基于視頻的面部識(shí)別?;谝曨l的面部識(shí)別的一個(gè)主要的優(yōu)點(diǎn)是防止了通過(guò)預(yù)先存儲(chǔ)的面部圖像來(lái)欺騙識(shí)別系統(tǒng)。這是因?yàn)樵趯?shí)時(shí)的視頻照相機(jī)前偽造視頻序列盡管有可能,但是難度非常大。這樣,可確保在認(rèn)證時(shí)的生物數(shù)據(jù)是來(lái)自真實(shí)的對(duì)象?;谝曨l的識(shí)別方法的另一關(guān)鍵優(yōu)點(diǎn)是在視頻序列中的可用信息比單個(gè)的圖像要多。如果能夠正確提取額外的信息,就可以進(jìn)一步提高識(shí)別準(zhǔn)確性。
但是,與大量的基于圖像的面部識(shí)別技術(shù)相比,關(guān)于視頻到視頻的面部識(shí)別的研究仍存在局限。大部分關(guān)于視頻中的面部識(shí)別的研究主要集中在視頻中進(jìn)行面部檢測(cè)和跟蹤。
一旦將面部定位在視頻幀中,現(xiàn)有方法通常使用傳統(tǒng)的基于圖像的面部識(shí)別技術(shù)進(jìn)行單幀的識(shí)別。關(guān)于直接使用視頻數(shù)據(jù)的識(shí)別,可參見(jiàn)S.Satoh所著的“Comparative Evaluation of Face Sequence Matching for Content-BasedVideo Access”(用于基于內(nèi)容的視頻訪問(wèn)的面部序列匹配的比較評(píng)價(jià),參考文獻(xiàn)8),發(fā)表于Proceedings of IEEE International Conference on AutomaticFace and Gesture(IEEE自動(dòng)面部和姿勢(shì)識(shí)別國(guó)際研討會(huì)會(huì)議錄),第163-168頁(yè),2000年。Satoh通過(guò)選擇兩個(gè)視頻中最接近的幀對(duì)來(lái)匹配這兩個(gè)視頻序列,其仍然是圖像到圖像的匹配。
另外,關(guān)于使用視頻序列來(lái)訓(xùn)練用于匹配的統(tǒng)計(jì)模型面部的方法,可參考如下文獻(xiàn)V.Kruger和S.Zhou所著的“Exemplar-based Face Recognition fromVideo”(基于標(biāo)本對(duì)視頻中的面部識(shí)別,參考文獻(xiàn)9),發(fā)表于Proceedings ofIEEE International Conference on Automatic Face and Gesture(IEEE自動(dòng)面部和姿勢(shì)識(shí)別國(guó)際研討會(huì)會(huì)議錄),第182-187頁(yè),2002年。
G.Edwards,C.Taylor,和T.Cootes所著的“Improving IdentificationPerformance by Integrating Evidence from Sequences”(通過(guò)集成來(lái)自序列的證據(jù)來(lái)改進(jìn)識(shí)別性能,參考文獻(xiàn)10),發(fā)表于IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition(IEEE計(jì)算機(jī)協(xié)會(huì)關(guān)于計(jì)算機(jī)視覺(jué)和圖案識(shí)別的研討會(huì)),第486-491頁(yè),1999年。
雖然這種訓(xùn)練模型比從單個(gè)圖像訓(xùn)練的模型更穩(wěn)定和健壯,但是如果給定相同的特征維數(shù),那么包含在該模型中的整體信息仍然與單個(gè)圖像相似。與圖像到圖像的匹配相似,其訓(xùn)練數(shù)據(jù)規(guī)模也增加了。
在上述Satoh的文獻(xiàn)中以及O.Yamaguchi,K.Fukui,和K.Maeda所著的“Face Recognition Using Temporal Image Sequence”(使用時(shí)間圖像序列進(jìn)行的面部識(shí)別,參考文獻(xiàn)11,發(fā)表于Proceedings of IEEE InternationalConference on Automatic Face and Gesture(IEEE自動(dòng)面部和姿勢(shì)識(shí)別國(guó)際研討會(huì)會(huì)議錄),第318-323頁(yè),1998年)中描述了一種相互子空間(mutualsubspace)方法,為每個(gè)人使用視頻幀來(lái)計(jì)算許多個(gè)體的本征空間。因?yàn)樗荒軓牟煌酥g的差別來(lái)獲取判別信息,所以識(shí)別準(zhǔn)確性比其它方法要低。
另外,雖然在視頻序列中可用的信息比單個(gè)圖像中要多,并且由此可以有助于提高識(shí)別準(zhǔn)確性,但是其必須解決數(shù)據(jù)規(guī)模大、處理速度慢,以及處理復(fù)雜度高的問(wèn)題。
發(fā)明內(nèi)容
因此,鑒于上面討論的關(guān)于面部識(shí)別的現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明的目的是提供一種新的視頻到視頻的面部識(shí)別方法,能夠充分利用包含在視頻序列中的空間-時(shí)間信息,實(shí)現(xiàn)高的識(shí)別精度,同時(shí)能夠克服采用視頻序列進(jìn)行面部識(shí)別帶來(lái)的數(shù)據(jù)規(guī)模大和處理速度慢的缺陷。
根據(jù)本發(fā)明的面部識(shí)別方法包括1)確定被識(shí)別的視頻序列和參考圖像庫(kù)的視頻序列中對(duì)應(yīng)的多個(gè)相似的視頻幀;2)對(duì)所述被識(shí)別的視頻序列和參考圖像庫(kù)的視頻序列中的對(duì)應(yīng)的相似視頻幀進(jìn)行基準(zhǔn)點(diǎn)的對(duì)準(zhǔn);3)從所述被識(shí)別視頻中的經(jīng)過(guò)基準(zhǔn)點(diǎn)對(duì)準(zhǔn)后的多個(gè)視頻幀構(gòu)成被識(shí)別者的面部數(shù)據(jù)立方體;和4)對(duì)所述面部數(shù)據(jù)立方體進(jìn)行子空間分析,提取被識(shí)別者的面部特征,與所述參考圖像庫(kù)中的面部特征向量進(jìn)行比較。
其中,在本發(fā)明中,上述步驟1)的確定被識(shí)別視頻序列中與參考圖像庫(kù)中圖像相似的視頻幀的處理被稱為對(duì)視頻幀進(jìn)行時(shí)間同步。通過(guò)這種時(shí)間同步,確定兩個(gè)視頻序列中具有相似圖像的幀。根據(jù)本發(fā)明的一種方案,使用了音頻信號(hào)的波形在每個(gè)視頻中確定期望的幀。因此,利用視頻中包含的音頻信號(hào),簡(jiǎn)單而有效地避免了復(fù)雜的算法。
在時(shí)間同步后,對(duì)每個(gè)圖像對(duì)準(zhǔn)基準(zhǔn)點(diǎn)的過(guò)程在本發(fā)明中稱為空間同步。在本發(fā)明的一實(shí)施方案中,使用Gabor小波特征來(lái)進(jìn)行空間同步。關(guān)于Gabor小波特征可參見(jiàn)參考文獻(xiàn)2。后面將進(jìn)一步說(shuō)明。對(duì)于在子空間方法中利用不同的面部圖像間的形狀相似性來(lái)說(shuō),基準(zhǔn)點(diǎn)的對(duì)準(zhǔn)是重要的。
為了對(duì)經(jīng)過(guò)時(shí)間和空間同步的大的視頻序列進(jìn)行快速的匹配識(shí)別,本發(fā)明提供的方法包括多級(jí)子空間分析方法和多分類(lèi)器集成方法。
其中,多級(jí)子空間分析方法是將視頻中的被識(shí)別者的面部立方體的每一幀的特征向量作為一個(gè)特征片(slice),在第一級(jí)子空間分析中,從每個(gè)特征片中提取判別特征向量。在第二級(jí)子空間分析中,先將從每個(gè)特征片中提取的判別特征向量依次相連組成新的特征向量。然后,對(duì)新的特征向量進(jìn)行PCA處理,消除多個(gè)幀中的冗余信息。選取具有大特征值的特征,以形成用于識(shí)別的最終特征向量。
在根據(jù)本發(fā)明的多分類(lèi)器集成方法中,在進(jìn)行上述多級(jí)子空間分析方法中的第一級(jí)子空間分析后,不進(jìn)行第二級(jí)子空間分析,而是直接采用第一級(jí)子空間分析中得到的判別特征向量來(lái)對(duì)每一幀進(jìn)行識(shí)別,然后使用多種融合規(guī)則融合所有的基于幀的分類(lèi)器的結(jié)果,以進(jìn)行視頻序列的最后識(shí)別。
根據(jù)本發(fā)明,可以取得如下有益的效果1)避免了對(duì)原始的視頻數(shù)據(jù)直接進(jìn)行識(shí)別處理帶來(lái)的處理復(fù)雜的問(wèn)題,能夠快速和高準(zhǔn)確性地進(jìn)行面部識(shí)別。
2)對(duì)于采用音頻輔助的視頻識(shí)別方法進(jìn)行身份鑒別的系統(tǒng),由于需要被識(shí)別者實(shí)時(shí)地發(fā)聲,可避免傳統(tǒng)的基于靜止圖像的識(shí)別(甚至包括傳統(tǒng)的視頻識(shí)別)安全性不足的問(wèn)題,因此具有更高的安全性。
圖1顯示了根據(jù)本發(fā)明方法的采用音頻輔助來(lái)進(jìn)行視頻序列幀的時(shí)間同步的示意圖;圖2是人臉圖形模板的示意圖,示出了在人臉上選擇的基準(zhǔn)點(diǎn)的例子。
具體實(shí)施例方式
以下參考
本發(fā)明的優(yōu)選實(shí)施方式。
在根據(jù)本發(fā)明的基于視頻的識(shí)別方法中,為了發(fā)揮視頻能夠提供更多信息的優(yōu)點(diǎn),視頻中的單獨(dú)的幀應(yīng)當(dāng)是互不相同的。因?yàn)槿绻械膸枷嗷ヮ?lèi)似,那么包含在視頻序列中的信息與單個(gè)圖像的情況基本上是相同的。然而,對(duì)于幀內(nèi)容變化的視頻,兩個(gè)視頻序列(模板視頻序列和被識(shí)別的視頻序列)逐幀的簡(jiǎn)單匹配不會(huì)有很大幫助。這是因?yàn)?,可能?huì)發(fā)生將一個(gè)視頻中的幀與另一視頻中的不同表情的幀進(jìn)行匹配的情況,這反而會(huì)進(jìn)一步損害面部識(shí)別的性能。
因此,對(duì)于基于視頻的識(shí)別性能進(jìn)行改進(jìn)的關(guān)鍵是,兩個(gè)視頻序列中的圖像就其每個(gè)單獨(dú)的幀而言必須具有相同的順序,例如無(wú)表情(neutral)面部能與無(wú)表情面部匹配,笑容面部能與笑容面部匹配。由此可見(jiàn),如果要將視頻序列用于面部識(shí)別,那么對(duì)兩個(gè)視頻序列以相同的順序排列相似的視頻幀(即時(shí)間同步)是重要的。換言之,需要按照每個(gè)幀中的內(nèi)容對(duì)原始的時(shí)間視頻序列(模板視頻序列和被識(shí)別的視頻序列)進(jìn)行重排序。
為了實(shí)現(xiàn)這一點(diǎn),可以使用常規(guī)的基于面部的表情算法技術(shù)來(lái)在不同的視頻中匹配相似的表情。但是,這種計(jì)算對(duì)于視頻數(shù)據(jù)這種數(shù)據(jù)規(guī)模大的情況來(lái)說(shuō)成本太高,而且表情識(shí)別的準(zhǔn)確性也不是很高。當(dāng)然,可以使用表情、光照或者方向等信息來(lái)用于視頻同步。根據(jù)本發(fā)明的優(yōu)選實(shí)施方式,可以使用視頻中包含的音頻信號(hào)的信息來(lái)進(jìn)行視頻序列幀的時(shí)間同步。下面將具體說(shuō)明這一方法。
以XM2VTS數(shù)據(jù)庫(kù)(公眾可得的最大的面部視頻數(shù)據(jù)庫(kù),參見(jiàn)參考文獻(xiàn)12,K.Messer,J.Matas,J.Kittler,J.Luettin,和G.Matitre所著的“XM2VTSDBThe Extended M2VTS Database”(XM2VTSDB擴(kuò)展的M2VTS數(shù)據(jù)庫(kù)),Second International Conference on AVBPA(第二屆國(guó)際AVBPA研討會(huì)),1999年3月)為例,其中的視頻數(shù)據(jù)包括295個(gè)人的視頻序列。對(duì)于每個(gè)人,以四個(gè)不同的時(shí)間段(session)提取幾個(gè)視頻序列(每個(gè)20秒)。在每個(gè)段中,在記錄視頻序列時(shí),人們被要求誦讀兩段文字“0,1,2,......,9”和“5,0,6,9,2,8,1,3,7,4”??梢杂眠@些語(yǔ)音信號(hào)結(jié)合區(qū)別表情對(duì)幀進(jìn)行定位。
圖1顯示了一個(gè)例子,其中以5個(gè)單詞的發(fā)音為例“Zero”,“one”,“two”,“three”,“four”。本例是對(duì)每個(gè)單詞發(fā)音的音頻波形的峰值(最大點(diǎn))進(jìn)行定位,然后選取與該音頻波形峰值對(duì)應(yīng)時(shí)刻的視頻幀。對(duì)用于建立參考圖像庫(kù)的訓(xùn)練視頻和被識(shí)別的測(cè)試視頻都采用這種方法來(lái)選定視頻幀,從而將兩種視頻序列中的視頻幀進(jìn)行時(shí)間同步。當(dāng)然,也可以使用其它的參數(shù)作為基準(zhǔn)點(diǎn)(例如音頻波形的波谷(最小點(diǎn))、或者每個(gè)單詞的音頻區(qū)的中心點(diǎn))來(lái)選取對(duì)應(yīng)的視頻幀。通常,當(dāng)一個(gè)人讀不同的單詞時(shí),可以表現(xiàn)出不同的表情。當(dāng)然,可以使用其它的語(yǔ)段或句子,只要用于模型建立的訓(xùn)練視頻和被識(shí)別的測(cè)試視頻中使用的內(nèi)容相同即可。
盡管可以使用計(jì)算成本更高級(jí)的語(yǔ)言識(shí)別技術(shù)來(lái)改進(jìn)這一結(jié)果,但是,上述方法對(duì)于采用同步視頻序列以及選取多個(gè)用于面部識(shí)別的區(qū)別幀已經(jīng)證明是非常有效果和有效率的。
此外,對(duì)上述方法也可容易地?cái)U(kuò)展以包含更多的信息。例如,在身份識(shí)別系統(tǒng)中,也可將采用上述利用被識(shí)別者發(fā)聲的音頻選幀的視頻識(shí)別方法和基于發(fā)聲的內(nèi)容的驗(yàn)證(如口令驗(yàn)證)方法、或/和對(duì)被識(shí)別者聲調(diào)特性進(jìn)行識(shí)別的方法集成,來(lái)實(shí)現(xiàn)更準(zhǔn)確和安全的性能。
在進(jìn)行上述時(shí)間同步之后,對(duì)每個(gè)圖像進(jìn)行基準(zhǔn)點(diǎn)的對(duì)準(zhǔn),這是因?yàn)楫?dāng)人們交談時(shí),他們的面部將移動(dòng)和變化。圖2顯示了這種圖像的面部基準(zhǔn)點(diǎn)的例子。在該例中,共有35個(gè)基準(zhǔn)點(diǎn)。在本說(shuō)明書(shū)中,稱這一步驟為空間同步?;鶞?zhǔn)點(diǎn)的對(duì)準(zhǔn)對(duì)于子空間方法利用不同人的面部中的形狀相似性來(lái)說(shuō)是很重要的??梢允褂肎abor小波特征來(lái)為空間同步分配基準(zhǔn)點(diǎn)。
具體方法是,計(jì)算參考圖像各基準(zhǔn)點(diǎn)的Gabor小波特征值,對(duì)被識(shí)別圖像在各基準(zhǔn)點(diǎn)所在的局部區(qū)域提取Gabor小波特征值,然后尋找被識(shí)別圖像中與參考圖像(模板)上對(duì)應(yīng)位置附近基準(zhǔn)點(diǎn)具有最相近Gabor小波特征值的點(diǎn),作為該被識(shí)別圖像在此位置附近的基準(zhǔn)點(diǎn)。
對(duì)于識(shí)別中所有用到的視頻序列,分別從經(jīng)過(guò)時(shí)間和空間同步之后的視頻幀(二維矩陣)構(gòu)成每個(gè)人的對(duì)準(zhǔn)的(aligned)3D面部數(shù)據(jù)立方體(三維矩陣)。在此基礎(chǔ)上,可以使用大量的方法進(jìn)行視頻序列匹配。但是,如上所述,使用傳統(tǒng)的方法(例如最近圖像或相互子空間方法)不能利用所有的視頻數(shù)據(jù)中的判別信息。
一種直接的方法是將整個(gè)數(shù)據(jù)立方體作為單個(gè)的大特征向量來(lái)對(duì)待,并執(zhí)行正常的子空間分析以提取特征。雖然這一特征值層次的融合方法利用了視頻中所有的數(shù)據(jù),但是這種方法存在幾個(gè)問(wèn)題。首先,數(shù)據(jù)規(guī)模非常龐大。例如對(duì)于每個(gè)視頻序列使用尺寸為41×27的21個(gè)圖像,則特征維數(shù)為23247。對(duì)這樣大的向量進(jìn)行直接的子空間分析,處理成本是非常高的。第二,更嚴(yán)重的問(wèn)題是,因?yàn)橄鄬?duì)于判別子空間分析算法的大的特征維數(shù),樣本規(guī)模卻很小,所以存在所謂過(guò)擬合(over fitting)的問(wèn)題。
為了克服這些問(wèn)題,根據(jù)本發(fā)明的優(yōu)選實(shí)施方式,采用了一種多級(jí)子空間分析算法。即,將視頻中的面部數(shù)據(jù)立方體的每一幀作為一個(gè)特征片,然后對(duì)每個(gè)特征片執(zhí)行統(tǒng)一的子空間分析,從每個(gè)片中提取判別特征。關(guān)于該分析方法的詳細(xì)內(nèi)容可參見(jiàn)參考文獻(xiàn)13,即X.Wang和X.Tang所著的“Unified Subspace Analysis for Face Recognition”(用于面部識(shí)別的統(tǒng)一的子空間分析),Proceeding of IEEE International Conference on Computer Vision(IEEE國(guó)際計(jì)算機(jī)視覺(jué)研討會(huì)),2003年。
然后,將從每個(gè)片提取的判別特征向量進(jìn)行組合,以形成新的特征向量。對(duì)新的特征向量進(jìn)行PCA(主成分分析)處理,以消除特征片之間的冗余信息,從而提取出最終的特征向量。下面具體說(shuō)明本發(fā)明的多級(jí)子空間分析方法。
在本發(fā)明中,術(shù)語(yǔ)“類(lèi)(class)”的含義是指訓(xùn)練集或參考圖像庫(kù)中的個(gè)體(人)。
在第一級(jí)子空間分析中,對(duì)于每個(gè)特征片
1-1.將每個(gè)特征片投影到從該片的訓(xùn)練集確定的PCA子空間,然后通過(guò)多次識(shí)別的試驗(yàn)結(jié)果來(lái)選擇PCA子空間的維數(shù),以去除大部分噪聲。
1-2.在維數(shù)減小的PCA子空間中使用類(lèi)內(nèi)散布矩陣(within-class scattermatrix)來(lái)確定類(lèi)內(nèi)(intrapersonal)子空間。
1-3.為參考圖像庫(kù)(gallery,即用于識(shí)別的參照模板庫(kù))中的L個(gè)類(lèi)分別計(jì)算它們的訓(xùn)練數(shù)據(jù)的平均值,以得到每個(gè)類(lèi)的訓(xùn)練樣本的中心。將所有的類(lèi)中心投影到類(lèi)內(nèi)子空間,然后通過(guò)類(lèi)內(nèi)特征值對(duì)投影進(jìn)行歸一化,得到白化的(whitened)特征向量。
1-4.對(duì)上述所有L個(gè)類(lèi)的白化的特征向量中心組成的空間進(jìn)行PCA處理,得到判別特征向量。
在第二級(jí)子空間分析中,進(jìn)行如下操作2-1.將從每個(gè)片中提取的判別特征向量依次相連組成新的特征向量。
2-2.對(duì)新的特征向量進(jìn)行PCA處理,消除多個(gè)幀中的冗余信息。選取具有大特征值的前幾個(gè)特征,以形成被識(shí)別的最終特征向量。
在上述第一級(jí)子空間分析中,PCA子空間以及類(lèi)內(nèi)子空間的維數(shù)是通過(guò)如下方式選擇的選擇一個(gè)PCA子空間以及類(lèi)內(nèi)子空間的維數(shù),進(jìn)行識(shí)別試驗(yàn),通過(guò)多次試驗(yàn),選取能夠獲得好的識(shí)別結(jié)果的PCA子空間和類(lèi)內(nèi)子空間維數(shù)。
在第二級(jí)子空間分析中,只使用PCA而不是統(tǒng)一的子空間分析。這是因?yàn)樵诘谝患?jí)白化步驟中類(lèi)內(nèi)變化已經(jīng)被減小,而判別特征已經(jīng)在第一級(jí)子空間分析的步驟1-4中被提取。重復(fù)進(jìn)行統(tǒng)一的子空間分析不會(huì)增加任何新的信息。但是,在不同的片之間仍有大量的重疊信息。因?yàn)楸M管具有表情變化,但這些幀相互之間仍然非常相似。需要采用PCA來(lái)減少冗余信息。
本發(fā)明的多級(jí)子空間分析相比于現(xiàn)有的子空間分析,不會(huì)損失很多信息。具體地說(shuō),由于白化步驟只消除了類(lèi)內(nèi)變化信息,所以在分析算法中的信息損失時(shí)不需要考慮它們。只需要關(guān)注兩個(gè)PCA步驟。為了進(jìn)行PCA處理,首先生成一個(gè)n乘m的采樣矩陣。
A=x1(1)x2(1)···xm(1)x1(2)x2(2)···xm(2)············x1(n)x2(n)···xm(n)---(1)]]>
其中xi是視頻的面部數(shù)據(jù)立方體特征向量,n是向量的長(zhǎng)度,m是訓(xùn)練采樣的數(shù)目。通過(guò)將長(zhǎng)的特征向量分解為g=n/k組的長(zhǎng)度為k的小特征向量,A=B1[x1(1)x2(1)···xm(1)············x1(k)x2(k)···xm(k)]B2[x1(k+1)x2(k+1)···xm(k+1)············x1(2k)x2(2k)···xm(2k)]Bg[x1((g-1)k+1)x2((g-1)k+1)···xm((g-1)k+1)············x1(n)x2(n)···xm(n)]---(2)]]>可以在g組短特征向量集Bi中的每一個(gè)上執(zhí)行PCA。然后通過(guò)從每個(gè)組選取的少數(shù)幾個(gè)特征值形成新的特征向量。通過(guò)對(duì)新的特征向量執(zhí)行PCA,計(jì)算出最終的特征向量。
下面以選取兩組短特征向量集為例來(lái)說(shuō)明。特征向量矩陣和其協(xié)方差矩陣為A=B1B2,---(3)]]>W=AAT=B1B1TB1B2TB2B1TB2B2T=W1W12W21W2---(4)]]>設(shè)協(xié)方差矩陣W1和W2的特征向量矩陣分別為T(mén)1和T2,那么T1TW1T1=Λ1---(5)]]>T2TW2T2=Λ2---(6)]]>其中,Λ1和Λ2是對(duì)角特征值矩陣。對(duì)于第一級(jí)的分組(B1,B2,...,Bg)的PCA的有效旋轉(zhuǎn)矩陣為
T=T100T2---(7)]]>T也是一個(gè)正交矩陣,因?yàn)門(mén)TT=T1TT100T2TT2=I---(8)]]>所以在第一級(jí)的分組(B1,B2,...,Bg)的PCA之后,因?yàn)樾D(zhuǎn)矩陣T的正交性,旋轉(zhuǎn)特征向量的協(xié)方差矩陣Wr=TTWT=Λ1T1TW12T2T2TW21T1Λ2=Λ1b00Λ1sCbbCbsCsbCssTCbbCbsCsbCssΛ2b00Λ2s---(9)]]>是原特征向量協(xié)方差矩陣W的相似矩陣。因?yàn)橄嗨凭仃囉邢嗤奶卣髦?,所以可以使用方?9)的最右項(xiàng),通過(guò)只保留每一組中在前面的少數(shù)幾個(gè)優(yōu)勢(shì)特征值來(lái)討論在原特征向量協(xié)方差矩陣W上的影響。
在方程(9)中,在n=1或2時(shí),Λnb和Λns分別代表特征值矩陣Λn的較大優(yōu)勢(shì)特征值段以及較小可忽略特征值段。Cxx(其中x=b或s)代表兩組旋轉(zhuǎn)特征的交叉協(xié)方差矩陣。通過(guò)只保留第二級(jí)PCA中的優(yōu)勢(shì)特征值,新的特征向量協(xié)方差矩陣變成Wd=Λ1bCbbTCbbΛ2b---(10)]]>從Wr中消除的項(xiàng)有Λ1s、Λ2s、Css、Cbs和Csb。因?yàn)橹饕哪芰勘话趦?yōu)勢(shì)特征值當(dāng)中,Λ1s和Λ2s的信息損耗非常小,從而包含在兩個(gè)小能量特征向量的交叉協(xié)方差矩陣中的能量Css應(yīng)該更小。
可以證明Cbs和Csb都不可能很大。如果兩組特征B1和B2互不相關(guān),那么方程(9)中的所有交叉協(xié)方差Cxx矩陣都會(huì)很小。另一方面,如果兩組特征值相互很相關(guān),這兩組的優(yōu)勢(shì)特征值會(huì)非常相似。因此,第二組大特征和第一組小特征的交叉協(xié)方差矩陣Cbs會(huì)與第一組大特征和第一組小特征的交叉協(xié)方差矩陣非常相似,且由于PCA的去相關(guān)性而為零。
當(dāng)兩組特征B1和B2部分相關(guān)時(shí),相關(guān)的部分應(yīng)該是主要的信號(hào),這是因?yàn)樘卣鰾1和B2的噪聲部分相互之間幾乎不相關(guān)。PCA的基本性能是為了保持在前面的少數(shù)幾個(gè)大特征值中的所有信號(hào)能量。所以,B2中的大部分信號(hào)能量,特別是與B1相關(guān)的B2信號(hào)能量的大部分被保留在B2協(xié)方差矩陣的大特征值段中。B2的小特征值段的被丟棄的能量幾乎不包含與B1相關(guān)的能量。所以,Cbs和Csb應(yīng)當(dāng)是很小的,將它們從協(xié)方差矩陣Wr中去除不會(huì)丟失太多信息。
由上述分析可知,協(xié)方差矩陣Wd是Wr的近似,而Wr是W的相似矩陣。因此,可以說(shuō)來(lái)自多級(jí)子空間方法的Wd的特征值實(shí)際上是從標(biāo)準(zhǔn)PCA方法的W計(jì)算出的特征值的近似。
根據(jù)本發(fā)明的另一種實(shí)施方式,在上述的多級(jí)子空間分析方法中,也可以用多分類(lèi)器集成技術(shù)來(lái)替代第二級(jí)的子空間分析。即,在第一級(jí)分析當(dāng)中,仍然用統(tǒng)一子空間分析來(lái)處理每一個(gè)個(gè)體的視頻幀。然后,用融合規(guī)則來(lái)集成所有的基于幀的分類(lèi)器,以確定最后的分類(lèi)。其詳細(xì)的方法陳述如下。
第一級(jí)子空間分析與上文描述的多級(jí)子空間分析中的步驟1-1到1-4相同,不再贅述。
在第二級(jí)分析處理中,執(zhí)行如下步驟2-1’.在基于幀的分類(lèi)器中,用步驟1-4中所得到的判別特征向量對(duì)每一幀進(jìn)行識(shí)別。
2-2’.使用融合規(guī)則對(duì)基于幀的分類(lèi)器的識(shí)別結(jié)果進(jìn)行組合,得到最終的識(shí)別結(jié)果。
已經(jīng)有很多關(guān)于對(duì)多分類(lèi)器的融合的方法。這些方法都可用于實(shí)現(xiàn)本發(fā)明的上述過(guò)程。下面舉出分別采用兩種簡(jiǎn)單的融合規(guī)則來(lái)融合基于幀的分類(lèi)器的例子,即多數(shù)決投票規(guī)則和求和規(guī)則。
多數(shù)決投票(Majority voting)每一個(gè)分類(lèi)器Ck(x)對(duì)輸入的面部數(shù)據(jù)設(shè)定類(lèi)標(biāo)簽Ck(x)=i。這一事件可表示成一個(gè)二進(jìn)制函數(shù), 用多數(shù)決投票,最后的類(lèi)可以選擇成
β(x)=argmaxXiΣk=1KTk(x∈Xi).---(12)]]>求和規(guī)則(Sum rule)假設(shè)P(Xi|Ck(x))是由基于幀的分類(lèi)器Ck(x)的測(cè)量的x屬于Xi的概率。按照求和規(guī)則,用于最終決定的類(lèi)別被選作β(x)=argmaxXiΣk=1KP(Xi|Ck(x))---(13)]]>P(Xi|Ck(x))可從基于幀的分類(lèi)器的輸出中估計(jì)。對(duì)于基于幀的分類(lèi)器Ck(x),類(lèi)別Xi的中心mi和輸入面部數(shù)據(jù)x被投影為判別向量Wkwki=WkTmi---(14)]]>wkx=WkTx---(15)]]>P(Xi|Ck(x))被估計(jì)為P^(Xi|Ck(x))=(1+(wkx)T(wki)||wkx||·||wkx||)/2---(16)]]>其值已經(jīng)被歸一化到
。
本發(fā)明在最大的標(biāo)準(zhǔn)視頻面部數(shù)據(jù)庫(kù)XM2VTS上進(jìn)行了實(shí)驗(yàn)。
在XM2VTS上的從上述四個(gè)不同的時(shí)間段中選取294個(gè)不同的人的294×4個(gè)視頻序列。對(duì)于訓(xùn)練數(shù)據(jù),選擇前三個(gè)段的294×3個(gè)視頻序列。參考圖像庫(kù)集合由第一時(shí)間段的294個(gè)視頻序列組成。作為被識(shí)別視頻序列的測(cè)試集由第四時(shí)間段的294個(gè)視頻序列組成。在視頻中的人被要求讀兩個(gè)數(shù)字序列“0 1 2 3 4 5 6 7 8 9”和“5 0 6 9 2 8 1 3 7 4”。
對(duì)于每個(gè)視頻,分別通過(guò)兩個(gè)策略選擇21幀音頻-視頻時(shí)間同步和沒(méi)有音頻信息的隨機(jī)選取。所以有兩組分別標(biāo)記為A-V同步數(shù)據(jù)和A-V非同步數(shù)據(jù)的不同的面部圖形序列集合。對(duì)于A-V同步數(shù)據(jù),每一幀與數(shù)字的波峰對(duì)應(yīng)。另外的幀定位在第一個(gè)句子末尾與第二個(gè)句子的開(kāi)始的中點(diǎn)。幀的數(shù)量對(duì)于不同的實(shí)驗(yàn)可以不同。
首先查看使用將圖像灰度值直接作為特征的基于表象的方法的識(shí)別結(jié)果。對(duì)于靜止圖像和視頻序列的結(jié)果都概括在表1中。靜止圖像是從視頻序列的第一幀選取的(A-V同步的情況),或從視頻序列隨機(jī)選取的(A-V非同步的情況)??梢钥吹酵ㄟ^(guò)歐幾里德距離分類(lèi)直接使用靜止圖像的性能非常低(61%)。這一結(jié)果實(shí)際上反映出該數(shù)據(jù)庫(kù)的識(shí)別難度很大。對(duì)于面部識(shí)別來(lái)說(shuō),如果測(cè)試圖像和參考圖像庫(kù)中的圖像來(lái)自不同的時(shí)間段,那么結(jié)果通常很差。通過(guò)使用相同的歐幾里德距離(78.3%)的視頻數(shù)據(jù)可得到顯著的改進(jìn)。在應(yīng)用了本發(fā)明的多級(jí)子空間分析算法和多分類(lèi)器算法以后,視頻識(shí)別率進(jìn)一步增加到超過(guò)98%。這清楚地表明實(shí)際上在視頻序列中包含了大量的信息。
下面在表1的兩欄中比較時(shí)間同步和非同步結(jié)果??梢钥闯?,A-V時(shí)間同步方法與所有的其它分類(lèi)方法相比,對(duì)識(shí)別準(zhǔn)確性有顯著改進(jìn)。注意雖然使用多級(jí)子空間分析對(duì)視頻分類(lèi)的改進(jìn)只有1.7%,但是它反映出識(shí)別誤差率被減小了超過(guò)45%,這一結(jié)果是顯著的。
表1使用灰度表象特征的識(shí)別結(jié)果的比較
表2中總結(jié)了用局部小波特征的結(jié)果。如同預(yù)期的那樣,所有的結(jié)果都得到進(jìn)一步改進(jìn)。在不同方法之間的比較進(jìn)一步確認(rèn)了在表1中的研究結(jié)果。注意使用所有三種算法(時(shí)間同步、空間同步和多級(jí)子空間分析(或多分類(lèi)器))的該實(shí)驗(yàn)的最終的識(shí)別準(zhǔn)確性為99%。考慮到是跨時(shí)間段(cross-session)的識(shí)別,所以這個(gè)準(zhǔn)確性是非常高的。
表2使用局部小波特征的識(shí)別結(jié)果的比較
最后,在表3中將本發(fā)明的視頻識(shí)別方法與現(xiàn)有的基于視頻的面部識(shí)別方法、最近幀方法和相互子空間方法進(jìn)行了比較。注意表3中現(xiàn)有方法的結(jié)果是從A-V時(shí)間同步視頻序列計(jì)算出的。最近幀方法中也應(yīng)用了統(tǒng)一子空間分析方法,所以它們已經(jīng)比原始的方法好。從表3中可清楚地看出,本發(fā)明的方法具有顯著的進(jìn)步,其出錯(cuò)率僅為傳統(tǒng)方法的5%到10%。
表3與現(xiàn)有的基于視頻的方法的識(shí)別結(jié)果的比較
以上說(shuō)明了基于音頻輔助的視頻的面部識(shí)別方法。該方法充分利用了視頻序列中的所有空間-時(shí)間信息。為了克服處理速度和數(shù)據(jù)規(guī)模問(wèn)題,開(kāi)發(fā)了空間和時(shí)間幀同步算法、多級(jí)子空間分析算法和多分類(lèi)器集成算法。在最大的可得的面部視頻數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)證明了所有這些技術(shù)在改進(jìn)識(shí)別性能上是有效的。通過(guò)新的算法得到了近乎完美的識(shí)別結(jié)果。與基于靜止圖像的方法和現(xiàn)有的基于視頻的方法相比,其具有顯著進(jìn)步。并且,本發(fā)明還可以使用多分類(lèi)器集成技術(shù)來(lái)進(jìn)一步對(duì)基于表象的視頻分類(lèi)和基于小波的視頻分類(lèi)方法進(jìn)行集成,由此可進(jìn)一步提高識(shí)別準(zhǔn)確性。
權(quán)利要求
1.基于視頻的面部識(shí)別方法,包括1)確定被識(shí)別的視頻序列和參考圖像庫(kù)的視頻序列中對(duì)應(yīng)的多個(gè)相似的視頻幀;2)對(duì)所述被識(shí)別的視頻序列和參考圖像庫(kù)的視頻序列中的對(duì)應(yīng)的相似視頻幀進(jìn)行基準(zhǔn)點(diǎn)的對(duì)準(zhǔn);3)從所述被識(shí)別視頻序列中的經(jīng)過(guò)基準(zhǔn)點(diǎn)對(duì)準(zhǔn)后的多個(gè)視頻幀構(gòu)成被識(shí)別者的面部數(shù)據(jù)立方體;和4)對(duì)所述面部數(shù)據(jù)立方體進(jìn)行子空間分析,提取被識(shí)別者的面部特征,與所述參考圖像庫(kù)中的面部特征向量進(jìn)行比較。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,使用Gabor小波特征對(duì)所述視頻幀進(jìn)行基準(zhǔn)點(diǎn)的對(duì)準(zhǔn)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)面部數(shù)據(jù)立方體進(jìn)行子空間分析包括3-1)從所述面部數(shù)據(jù)立方體的每一幀組成的特征片中提取判別特征向量;3-2)將提取的所述每個(gè)特征片的判別特征向量依次相連,組成新的特征向量;和3-3)消除所述新的特征向量中的冗余信息,得到反映被識(shí)別者的面部特征的最終的特征向量。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟3-1)包括對(duì)于每個(gè)特征片執(zhí)行第一級(jí)子空間分析,包括3-1-1)將每個(gè)所述特征片投影到根據(jù)該特征片的訓(xùn)練集確定的PCA子空間;3-1-2)從所述PCA子空間確定類(lèi)內(nèi)子空間;3-1-3)確定參考圖像庫(kù)中的個(gè)體的訓(xùn)練數(shù)據(jù)類(lèi)的中心,將所有的類(lèi)中心投影到所述類(lèi)內(nèi)子空間;3-1-4)利用所述類(lèi)內(nèi)子空間的類(lèi)內(nèi)特征值對(duì)投影進(jìn)行歸一化,以確定白化的特征向量;3-1-5)對(duì)所述所有類(lèi)的所述白化的特征向量中心組成的空間進(jìn)行PCA處理,確定判別特征向量。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟3-3)包括在對(duì)每個(gè)特征片執(zhí)行第一級(jí)子空間分析后,進(jìn)行第二級(jí)子空間分析,包括對(duì)所述新的特征向量進(jìn)行PCA處理,選取具有大特征值的多個(gè)特征向量,形成用于識(shí)別的最終特征向量。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)面部數(shù)據(jù)立方體進(jìn)行子空間分析包括3-1)從所述面部數(shù)據(jù)立方體的每一幀組成的特征片中提取判別特征向量;3-2’)在基于幀的分類(lèi)器中用所述判別特征向量來(lái)對(duì)每一幀進(jìn)行識(shí)別;3-3’)使用融合規(guī)則對(duì)所述分類(lèi)器的結(jié)果進(jìn)行融合,對(duì)被識(shí)別的視頻序列進(jìn)行識(shí)別。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述融合規(guī)則包括多數(shù)決投票規(guī)則,求和規(guī)則。
8.根據(jù)權(quán)利要求1-7任一項(xiàng)所述的方法,其特征在于,確定被識(shí)別視頻序列和作為參考圖像庫(kù)的視頻序列中對(duì)應(yīng)的多個(gè)相似的視頻幀的步驟包括使用預(yù)定聲音所產(chǎn)生的音頻信號(hào)的波形,選擇所述被識(shí)別視頻序列和作為參考圖像庫(kù)的視頻序列中的對(duì)應(yīng)的多個(gè)相似幀。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,從所述音頻信號(hào)的波形中選擇包括以下參數(shù)中的一種為基準(zhǔn),來(lái)選取所述視頻幀音頻波形的峰值、音頻波形的波谷,每個(gè)單詞音頻區(qū)的中心點(diǎn)。
10.根據(jù)權(quán)利要求8所述的方法,其特征在于,進(jìn)一步包括對(duì)被識(shí)別者在被識(shí)別時(shí)發(fā)聲的內(nèi)容進(jìn)行識(shí)別,或/和對(duì)被識(shí)別者的聲調(diào)特性進(jìn)行識(shí)別。
11.基于視頻的面部識(shí)別方法,包括從被識(shí)別的視頻序列中的每一幀組成的特征片中提取判別特征向量;將提取的所述每個(gè)特征片的判別特征向量依次相連,組成新的特征向量;和消除所述新的特征向量中的冗余信息,得到反映被識(shí)別者的面部特征的最終的特征向量。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述從特征片中提取判別特征向量的步驟包括將每個(gè)所述特征片投影到根據(jù)該特征片的訓(xùn)練集確定的PCA子空間;從所述PCA子空間確定類(lèi)內(nèi)子空間;確定參考圖像庫(kù)中的個(gè)體的訓(xùn)練數(shù)據(jù)類(lèi)的中心,將所有的類(lèi)中心投影到所述類(lèi)內(nèi)子空間;利用所述類(lèi)內(nèi)子空間的類(lèi)內(nèi)特征值對(duì)投影進(jìn)行歸一化,以確定白化的特征向量;對(duì)所述所有類(lèi)的所述白化的特征向量中心組成的空間進(jìn)行PCA處理,確定判別特征向量。
13.根據(jù)權(quán)利要求12所述的方法,其特征在于,在所述消除所述新的特征向量中的冗余信息的步驟中,對(duì)所述新的特征向量進(jìn)行PCA處理,選取具有大特征值的多個(gè)特征向量,形成用于識(shí)別的最終特征向量。
14.基于視頻的面部識(shí)別方法,包括從被識(shí)別的視頻序列中的每一幀組成的特征片中提取判別特征向量;在基于幀的分類(lèi)器中用所述判別特征向量來(lái)對(duì)每一幀進(jìn)行識(shí)別;和使用融合規(guī)則對(duì)所述分類(lèi)器的結(jié)果進(jìn)行融合,對(duì)被識(shí)別的視頻序列進(jìn)行識(shí)別。
15.根據(jù)權(quán)利要求14所述的方法,其特征在于,所述從特征片中提取判別特征向量的步驟包括將每個(gè)所述特征片投影到根據(jù)該特征片的訓(xùn)練集確定的PCA子空間;從所述PCA子空間確定類(lèi)內(nèi)子空間;確定參考圖像庫(kù)中的個(gè)體的訓(xùn)練數(shù)據(jù)類(lèi)的中心,將所有的類(lèi)中心投影到所述類(lèi)內(nèi)子空間;利用所述類(lèi)內(nèi)子空間的類(lèi)內(nèi)特征值對(duì)投影進(jìn)行歸一化,以確定白化的特征向量;對(duì)所述所有類(lèi)的所述白化的特征向量中心組成的空間進(jìn)行PCA處理,確定判別特征向量。
16.根據(jù)權(quán)利要求15所述的方法,其特征在于,所述融合規(guī)則包括多數(shù)決投票規(guī)則,求和規(guī)則。
全文摘要
本發(fā)明提供了一種新的利用音頻輔助的視頻對(duì)視頻的面部識(shí)別方法。該方法首先對(duì)視頻圖像進(jìn)行時(shí)間和空間同步,然后對(duì)所述視頻圖像進(jìn)行多級(jí)子空間分析,對(duì)經(jīng)時(shí)間和空間同步的面部數(shù)據(jù)立方體進(jìn)行處理,以提取被識(shí)別者的面部特征。本發(fā)明的方法主要優(yōu)點(diǎn)是充分利用了視頻序列中可用的信息比單個(gè)的圖像多的特點(diǎn),最大程度地利用了視頻序列中的大量信息,并同時(shí)克服了處理速度和數(shù)據(jù)規(guī)模的問(wèn)題。而且,本方法能保留所有包含在視頻序列中的空間-時(shí)間信息,在XM2VTS面部視頻數(shù)據(jù)庫(kù)中獲得了近乎完美的分類(lèi)結(jié)果。
文檔編號(hào)G06K9/00GK1866270SQ200510070919
公開(kāi)日2006年11月22日 申請(qǐng)日期2005年5月17日 優(yōu)先權(quán)日2004年5月17日
發(fā)明者湯曉鷗 申請(qǐng)人:香港中文大學(xué)