專利名稱:基于增強(qiáng)耦合hmm的語音-視覺融合的情感識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多通道信息融合的情感識別方法,特別涉及一種增強(qiáng)耦合HMM(Hidden Markov Model,隱馬爾科夫模型)的語音-視覺融合的情感識別方法,屬于自動情感識別領(lǐng)域。
背景技術(shù):
各個學(xué)科的研究人員已經(jīng)在自動情感識別領(lǐng)域做了很多工作。情感可以使用離散類別方法表示(如Ekman提出的6種基本情感類別),或者使用連續(xù)維度方法表示(如activation-evaluation空間方法),或者使用基于評價的方法表示。臉部表情、語音、身體姿勢及上下文等多種不同的特征都可以用來識別人的情感狀態(tài)。研究人員已經(jīng)針對單模態(tài)情感識別與分析做了很多工作。融合語音和視覺兩個通道的信息可以提高情感識別的準(zhǔn)確度。原因在于語音-視覺雙模態(tài)融合可以利用這兩個通道的互補(bǔ)信息。語音-視覺情感識別中使用的數(shù)據(jù)融合方法大都可以歸為以下三類特征層融合、模型層融合和決策層融合。模型層融合使用了多個數(shù)據(jù)流之間的關(guān)聯(lián)信息,可能是該融合問題的最佳選擇。Zeng等人在文獻(xiàn)《Audio - Visual Affective Expression Recognition ThroughMultistream FusedHMM》(IEEE TRANSACTIONS ON MULTIMEDIA, vol. 10, no. 4, June 2008)中提出了一種多流融合HMM (MFHMM)方法,根據(jù)最大熵和最大相互信息準(zhǔn)則,建立多個語音-視覺流間的優(yōu)化連接。MFHMM通過將一個分量HMM的隱節(jié)點(diǎn)和其它分量HMM的觀察變量相連來融合多個分量 HMM。他們接著在文獻(xiàn)《Training Combination Strategy of Multi-StreamFusedHidden Markov Model for Audio-Visual Affect Recognition》(Proc. 14th ACMInt,IConf· Multimedia (Multimedia,06), pp. 65-68,2006.)中擴(kuò)展了該框架,米用訓(xùn)練組合策略,使多個HMM的組合機(jī)制既可以是線性也可以是非線性的。Petridis等人在文獻(xiàn)〈〈Audiovisual Discrimination between Laughter and Speech)) (IEEEIntJ I Conf.Acoustics, Speech, and Signal Processing(ICASSP), pp. 5117-5120, 2008.)中使用神經(jīng)網(wǎng)絡(luò)來合并語音-視覺通道的信息。這些方法的缺點(diǎn)是這些方法在使用某個模態(tài)的特征流訓(xùn)練分類器時,沒有對用其它模態(tài)的特征難于識別的樣本進(jìn)行重點(diǎn)訓(xùn)練,在使用同一模態(tài)的樣本進(jìn)行訓(xùn)練時,也未對同一模態(tài)的樣本中難于識別的樣本進(jìn)行重點(diǎn)訓(xùn)練,從而造成識別率不高。本發(fā)明中涉及到的重要已有技術(shù)有耦合HMM ;AdaBoost方法。(I)耦合 HMM HMM是一種有效的描述存在于離散時間段上的具有關(guān)聯(lián)關(guān)系的數(shù)據(jù)序列的統(tǒng)計學(xué)方法。HMM的理論基礎(chǔ)是在1970年前后由Baum等人建立起來的,隨后有CMU的Baker和IBM的Jelinek等人將其應(yīng)用到語音識別之中,由于Bell實(shí)驗(yàn)室Rabiner等人在80年代中期對HMM的深入淺出的介紹,才逐漸使隱馬爾科夫模型為世界各國從事語音處理的研究員所了解和熟悉,進(jìn)而成為公認(rèn)的一個研究熱點(diǎn)。HMM是在Markov鏈(一種有限狀態(tài)機(jī))的基礎(chǔ)上發(fā)展起來的。首先介紹兩個概念狀態(tài)集合和觀察序列。狀態(tài)集合指隱馬爾科夫模型所具有的全部狀態(tài){Si,. . . , Si,. . . , SJ ,其中N為狀態(tài)數(shù);觀察序列是一個具有上下文關(guān)聯(lián)性的數(shù)據(jù)序列,用V1,. . .,Vt,,. . .,Vt表示,V1, . . .,Vt, , . . .,Vt為一個觀測序列,其中Vt, = Cb,表示該序列中時刻t'的元素的取值為cb,I < b < B,B表示每個狀態(tài)可輸出的元素(值)的總數(shù)。由于實(shí)際問題比Markov鏈模型所描述的更為復(fù)雜,觀察到的觀察序列中的元素并不是與Markov鏈中的狀態(tài)對應(yīng),而是通過一組概率分布相聯(lián)系。這樣,站在觀察者的角度,只能看到觀察值,不像Markov鏈模型中的觀察值和狀態(tài)一一對應(yīng)。因此,不能直接看到狀態(tài),而是通過一個隨機(jī)過程去感知狀態(tài)的存在及其特性,這就是所謂的“隱”Markov模型,即 Hidden Markov Model (HMM)0隱馬爾科夫模型的三個基本問題是評估問題、解碼問題及學(xué)習(xí)問題。其中,學(xué)習(xí)問題是使模型參數(shù)最優(yōu)化,及調(diào)整模型參數(shù),以使模型能最好的描述一個給定觀測序列,最好的說明這個觀測序列就是最優(yōu)化模型產(chǎn)生出來的,用來解決分類問題。耦合HMM整合了 2個以上分量HMM。它允許分量HMM的隱節(jié)點(diǎn)之間進(jìn)行交互,同時各個分量HMM的隱節(jié)點(diǎn)具有獨(dú)立的觀察變量。在某一時刻,某個分量HMM的隱節(jié)點(diǎn)狀態(tài)依賴于所有相關(guān)的分量HMM在前一時刻的隱節(jié)點(diǎn)狀態(tài)。耦合HMM適合于需要對不同模態(tài)的異步性進(jìn)行建模,并捕獲它們在時間域中關(guān)聯(lián)的許多任務(wù)。常用的二分量耦合HMM結(jié)構(gòu)如圖I所示,圓圈代表可見節(jié)點(diǎn),或稱為觀察節(jié)點(diǎn),方塊代表隱節(jié)點(diǎn);相鄰采樣時間點(diǎn)上的隱節(jié)點(diǎn)互聯(lián)。圖I顯不的稱合HMM中的兩條分量HMM的米樣率一樣,即在同一米樣時間點(diǎn)上,每條分量HMM均有I個可見節(jié)點(diǎn)和I個隱節(jié)點(diǎn)相對應(yīng)。(2) AdaBoost 方法AdaBoost (adaptive boosting,自適應(yīng)增強(qiáng))方法是 “Boosting” 方法中的一種。該方法允許設(shè)計者不斷的加入新的“弱分類器”,直到達(dá)到某個預(yù)定的足夠小的誤差率。在AdaBoost方法中,每一個訓(xùn)練樣本都被賦予一個權(quán)重,表明它被某個分量分類器選入訓(xùn)練集的概率;相反,如果某個樣本點(diǎn)沒有被正確分類,那么它的權(quán)重就得到提高。通過這樣的方式,AdaBoost方法能夠“聚焦于”那些較困難識別的樣本上。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決已有技術(shù)存在的識別率不高的問題,提出一種增強(qiáng)耦合HMM的語音-視覺融合的情感識別方法。本發(fā)明的目的是通過下述技術(shù)方案實(shí)現(xiàn)的。一種增強(qiáng)耦合HMM的語音-視覺融合的情感識別方法,用于識別情感視頻中的人的情感,所述情感包括中性、高興、生氣、驚訝、恐懼、悲傷、厭惡等;所述情感視頻是指包含人臉表情和語音的視頻數(shù)據(jù),并且每段情感視頻都開始于中性表情。所述增強(qiáng)耦合HMM的語音-視覺融合的情感識別方法包括2部分訓(xùn)練過程和識別過程。所述訓(xùn)練過程的具體實(shí)施步驟如下步驟一、對訓(xùn)練數(shù)據(jù)中的情感視頻數(shù)據(jù)進(jìn)行預(yù)處理。將每一種情感的訓(xùn)練數(shù)據(jù)稱為一個訓(xùn)練樣本集;一個訓(xùn)練樣本集中的訓(xùn)練樣本數(shù)量用R表示,R ^ 20 ;該訓(xùn)練樣本集中的第r個訓(xùn)練樣本用&表示,I ^ R0分別對每個訓(xùn)練樣本集中的每個情感視頻數(shù)據(jù)做預(yù)處理,得到表情觀察向量序列和音頻觀察向量序列。一個訓(xùn)練樣本集中的全部情感視頻數(shù)據(jù)在預(yù)處理后,得到的表情觀察向量序列的集合稱為表情特征數(shù)據(jù)流,得到的音頻觀察向量序列的集合稱為音頻特征數(shù)據(jù)流,這2種特征
數(shù)據(jù)流用符號Xv表示,Xv = fxr] > V e {a, f} ,a表示音頻,f表示表情表示V特征數(shù)據(jù)
V ) f=|
流的第r個觀察向量序列。步驟一中所述對每個訓(xùn)練樣本集中的每個情感視頻數(shù)據(jù)做預(yù)處理,得到音頻觀察向量序列的具體步驟為步驟a :從每個情感視頻中以Vb的采樣率提取P個音頻巾貞組成一條音頻序列,vb ^ 5赫茲(Hz), p=vbXta, ta為情感視頻的時間長度。步驟b :依次從每條音頻序列的各音頻幀中提取α個音頻特征值,分別用F1Ia表示,a彡4。所述音頻特征值包括信號強(qiáng)度;短時過零率;基音頻率;共振峰頻率;線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstral Coefficients, LPCC);線譜對參數(shù)(LineSpectrum Pair, LSP);Mel 頻率倒譜系數(shù)(Mel Frequency CepstralCoefficients,MFCC);感知線性預(yù)測倒譜系數(shù)(Perceptual Linear PredictionCepstral Coefficients, PLPCC)。步驟c :對所有音頻幀的音頻特征值F1'進(jìn)行歸一化處理,具體為步驟c. I :找出與待處理音頻幀為同一發(fā)聲人物的所有中性情感的音頻序列;所述待處理音頻幀為當(dāng)前等待做歸一化處理的音頻幀。步驟c. 2 :分別計算經(jīng)過步驟c. I處理后得到的與待處理音頻幀為同一發(fā)聲人物的所有中性情感的音頻序列中各音頻幀的音頻特征值F1的均值、F2的均值、……、Fa的均值,分別用巧至巧表示;步驟c. 3 :用巧對待處理音頻幀的音頻特征值F1進(jìn)行歸一化處理,歸一化處理后的音頻特征值F1用符號F1'表示,f/= F1/巧;用馬對待處理音頻幀的音頻特征值F2進(jìn)行歸一化處理,歸一化處理后的音頻特征值F2用符號F' 2表示,6=^/5;……;以此類推,用I對待處理音頻幀的音頻特征值Fa進(jìn)行歸一化處理,歸一化處理后的音頻特征值Fa用符號 F' HF’u=FalFa 0步驟d :獲得每個首頻序列中各首頻巾貞的首頻觀察向量,用V' t表不,I ^ t ^ po一個音頻序列中的第t幀音頻幀的音頻觀察向量V t由經(jīng)過歸一化處理后的a個特征值組成,V' t = [f' tl,f' t2,……,f' t JT,f' tl為該音頻序列的第t幀音頻幀中經(jīng)過歸一化處理的第I個音頻特征值F' pf' t2為該音頻序列的第t幀音頻幀中經(jīng)過歸一化處理的第2個音頻特征值F' 2,……,以此類推,f' ta為該音頻序列的第t幀音頻幀中經(jīng)過歸一化處理的第a個音頻特征值F' a。步驟f :對于一個情感視頻,使用矩陣]T來表示其音頻觀察向量序列,]T =[V, !,V' 2,……,V p] e RaXp。步驟一中所述對每個訓(xùn)練樣本集中的每個情感視頻數(shù)據(jù)做預(yù)處理,得到表情觀察向量序列的具體步驟為第I步從每個情感視頻中以Va的采樣率提取m幀圖像組成一個圖像序列,va ^ 5赫茲(Hz), m=vaxta, Va = Vb/ η , η = I, 2,3。由于每段情感視頻都開始于中性表情,因此每個圖像序列中的第一幀圖像為中性表情圖像。第2步依次從每個圖像序列中的各幀圖像中提取Θ個臉部表情特征值,分別用T1至T0表示,Θ≥5。所述臉部表情特征值包括臉部幾何特征值;臉部紋理特征值。步驟一第2步中所述依次從每個圖像序列中的各幀圖像中提取Θ個臉部幾何特征值,Θ = 10,其具體步驟為第2. I步依次在每個圖像序列中的第一幀圖像中標(biāo)識出20個臉部特征點(diǎn);其中,第1、2特征點(diǎn)分別位于右邊眉毛和左邊眉毛的眉頭位置,分別用(Xl,yi)、(x2,y2)表示;第3、4特征點(diǎn)分別位于右邊眉毛和左邊眉毛的眉尾位置,分別用(x3,y3)、(x4, y4)表示;第5、6特征點(diǎn)分別位于右邊眼睛和左邊眼睛的內(nèi)眼角位置,分別用(x5,y5)、(x6, y6)表示;第7、8特征點(diǎn)分別位于右邊眼睛和左邊眼睛的最低點(diǎn),分別用(x7,y7)、(x8, y8)表示;第9、10特征點(diǎn)分別位于右邊眼睛和左邊眼睛的外眼角位置,分別用(x9,y9)、(xlcl,y1(l)表示;第11、12特征點(diǎn)分別位于右邊眼睛和左邊眼睛的最高點(diǎn),分別用(Xll,yn)、(x12, y12)表示;第13、14特征點(diǎn)分別位于鼻翼的最右側(cè)位置和鼻翼的最左側(cè)位置,分別用(x13,y13)、(x14, Y14)表示;第15特征點(diǎn)位于鼻尖位置,用(x15,y15)表示;第16、17特征點(diǎn)分別位于嘴角的最右側(cè)位置和嘴角的最左側(cè)位置,分別用(x16,y16)、(x17, y17)表示;第18、19特征點(diǎn)分別位于唇部中心線與唇部輪廓線相交的最高點(diǎn)和最低點(diǎn),分別用(x18, y18)、(x19, y19)表示;第20特征點(diǎn)位于臉部中心線與臉部輪廓線相交的最低點(diǎn),用(X2(l,y2(l)表示。所述標(biāo)識20個臉部特征點(diǎn)的方法包括①人工手動標(biāo)識;②使用基于Gabor特征的增強(qiáng)分類器方法實(shí)現(xiàn)對20個臉部特征點(diǎn)的自動定位。第2. 2步根據(jù)每個圖像序列中的第一幀圖像中的20個特征點(diǎn)的位置,定位出該圖像序列中除第一幀圖像以外的后續(xù)幀圖像中的20個臉部特征點(diǎn);所述定位出該圖像序列中除第一幀圖像以外的后續(xù)幀圖像中的20個臉部特征點(diǎn)的方法包括①人工手動標(biāo)識;②使用基于分解概率的粒子濾波跟蹤算法實(shí)現(xiàn)對20個臉部特征點(diǎn)的自動跟蹤。第2. 3步根據(jù)各圖像中的20個特征點(diǎn)的位置,分別計算每個圖像序列中的各幀圖像的10個臉部表情特征值T1至Tltl,具體為⑴兩眼寬度的平均值,用T1表示,T1=(IX9-X5I+ IX10-X6I)/2 ;⑵兩眼高度的平均值,用 T2 表示,T2 = (|yn-y7|+|y12-y8|)/2 ;⑶兩支眉毛寬度的平均值,用T3表示,T3 = (IX3-X11+ I X4-X21 )/2 ; (4)兩支眉毛高度的平均值,用T4表示,T4= (Iy3-Yl,+1Y4-Y21)/2; (5)內(nèi)眼角和眉頭之間垂直距離的均值,用T5表示,T5= (IY5-Y11+ I y6-y21 )/2 ; (6)鼻尖和左右嘴角的垂直距離均值,用丁6表示,T6 = (Iyi6-Yi5I + IyiT-Yi5I)/2 ; (7)嘴角和外眼角垂直距離的均值,用T7表示,T7 =(I Yi6-Y91+ I YiT-Yio I )/2; (8)嘴張開寬度,用 T8 表示,T8= X17-X16I ;(9)嘴張開高度,用 T9表示,T9 = y18-y19 ; (10)鼻尖和下巴的距離,用Tltl表示,Tltl = |y15-y2(l|。由于口型更容易受到說話內(nèi)容的影響,因此為了減小說話內(nèi)容對于臉部表情特征值T8至Tltl的影響,第2. 3步中所述計算臉部表情特征值T8至Tltl的優(yōu)選方法是在第2. 3步操作的基礎(chǔ)上,在每個圖像序列中的第η幀圖像中,I < η < m,將T8至Tl。這三個特征值分別用相應(yīng)特征在第(η-I)幀、第η幀、第(η+1)幀圖像中的均值來替換。
第3步為了解決因不同人臉型不同造成的對臉部表情特征值Tl至T Θ的影響,對所有圖像的臉部表情特征值T1至Te進(jìn)行歸一化處理,具體為第3. I步從全部表情圖像序列中找出包含待處理圖像中人臉的所有表情圖像序列;所述待處理圖像為當(dāng)前等待做歸一化處理的圖像。第3. 2步分別計算經(jīng)過第3. I步處理后得到的包含待處理圖像中人臉的所有表情圖像序列的第一幀圖像中臉部表情特征值T1的均值、T2的均值、……、Te的均值,分別用巧至^表示;第3. 3步用巧對待處理圖像的臉部表情特征值T1進(jìn)行歸一化處理,歸一化處理后的臉部表情特征值T1用符號T' !轟示,T卜T1IT1 ;用巧對待處理圖像的臉部表情特征值T2進(jìn)行歸一化處理,歸一化處理后的臉部表情特征值T2用符號T' 2表示,z2'=r2/f2;……;以此類推,用^對待處理圖像的臉部表情特征值Te進(jìn)行歸一化處理,歸一化處理后的臉部表情特征值Te用符號T' 0表示,第4步獲得每個表情圖像序列中各巾貞圖像的表情觀察向量,用Vq表不,I ^ 一個表情圖像序列中第q幀圖像的表情觀察向量\由經(jīng)過第3步歸一化處理后的Θ個特征值組成,Vq= [fql, fq2,……為該表情圖像序列的第q幀圖像中經(jīng)過歸一化處理的第I個臉部表情特征值T' Pfq2為該表情圖像序列的第q幀圖像中經(jīng)過歸一化處理的第2個臉部表情特征值T' 2,……,以此類推,為該表情圖像序列的第q幀圖像中經(jīng)過歸一化處理的第Θ個臉部表情特征值T' 0。第5步對于一個情感視頻,其表情圖像序列中各幀圖像的表情觀察向量V1至Vm組成該情感視頻的原始表情觀察向量序列,用矩陣M"來表示,M" = [V1, V2,……,VJ e Rexm5第6步在每個情感視頻的原始表情觀察向量序列M"中的表情觀察向量V, q和V, q+1之間通過線性插值法插入(η-i)個表情觀察向量,并在表情觀察向量VmB,增加(n-l)個Vm,得到該情感視頻的表情觀察向量序列,用M表示,M= [V1, V2,……,Vp] e R0 Xp,I < q' < m。步驟二、建立增強(qiáng)耦合HMM分類器。在步驟一操作的基礎(chǔ)上,建立增強(qiáng)耦合HMM分類器。所述增強(qiáng)耦合HMM分類器由從左向右的Γ個連續(xù)型二分量耦合HMM組合而成,I < Γ < K,K的值由人為預(yù)先設(shè)定,4 ^ K ^ 10 ;連續(xù)型二分量耦合HMM的兩條分量HMM分別稱為音頻通道分量HMM和表情通道分量HMM ;同一采樣時間點(diǎn)上,每條分量HMM均有I個可見節(jié)點(diǎn)和I個隱節(jié)點(diǎn)相對應(yīng);在某一時刻,某個分量HMM的隱節(jié)點(diǎn)狀態(tài)依賴于所有相關(guān)的分量HMM在前一時刻的隱節(jié)點(diǎn)狀
OO用Nv表示連續(xù)型二分量耦合HMM的V通道的分量HMM的隱狀態(tài)個數(shù),v e {a, f};用5" =·[&’,劣,……,^^丨表示連續(xù)型二分量耦合HMM的V通道分量HMM的隱狀態(tài)集合;用N表示連續(xù)型二分量耦合HMM的隱狀態(tài)個數(shù),N = NaXNf ;用S表示連續(xù)型二分量耦合HMM的隱狀態(tài)集合,則S =■[貧,…, 丨…,衫^。所述連續(xù)型二分量耦合HMM的參數(shù)由公式(I)至公式(3)表示。
權(quán)利要求
1.一種增強(qiáng)耦合HMM的語音-視覺融合的情感識別方法,用于識別情感視頻中的人的情感,所述情感包括中性、高興、生氣、驚訝、恐懼、悲傷、厭惡等;所述情感視頻是指包含人臉表情和語音的視頻數(shù)據(jù),并且每段情感視頻都開始于中性表情;其特征在于所述增強(qiáng)耦合HMM的語音-視覺融合的情感識別方法包括2部分訓(xùn)練過程和識別過程; 所述訓(xùn)練過程的具體實(shí)施步驟包括步驟一至步驟六,具體為 步驟一、對訓(xùn)練數(shù)據(jù)中的情感視頻數(shù)據(jù)進(jìn)行預(yù)處理; 將每一種情感的訓(xùn)練數(shù)據(jù)稱為一個訓(xùn)練樣本集;一個訓(xùn)練樣本集中的訓(xùn)練樣本數(shù)量用R表示,R ^ 20 ;該訓(xùn)練樣本集中的第r個訓(xùn)練樣本用&表示,l^r^R ;分別對每個訓(xùn)練樣本集中的每個情感視頻數(shù)據(jù)做預(yù)處理,得到表情觀察向量序列和音頻觀察向量序列;一個訓(xùn)練樣本集中的全部情感視頻數(shù)據(jù)在預(yù)處理后,得到的表情觀察向量序列的集合稱為表情特征數(shù)據(jù)流,得到的音頻觀察向量序列的集合稱為音頻特征數(shù)據(jù)流,這2種特征數(shù)據(jù)流用符號Xv表示,Xv = |x〗’|· ,v e {a, f},a表示音頻表示表情y表示V特征數(shù)據(jù)流的第 *.r=l1Ir個觀察向量序列; 所述對每個訓(xùn)練樣本集中的每個情感視頻數(shù)據(jù)做預(yù)處理,得到音頻觀察向量序列的操作步驟包括步驟a至步驟f,具體為 步驟a :從每個情感視頻中以Vb的采樣率提取P個音頻巾貞組成一條音頻序列,Vb > 5赫茲,p=vbXta, ta為情感視頻的時間長度; 步驟b:依次從每條音頻序列的各音頻幀中提取α個音頻特征值,分別用F1Ia表示,a彡4 ; 所述音頻特征值包括信號強(qiáng)度;短時過零率;基音頻率;共振峰頻率;線性預(yù)測倒譜系數(shù);線譜對參數(shù);Mel頻率倒譜系數(shù);感知線性預(yù)測倒譜系數(shù); 步驟c :對所有音頻幀的音頻特征值F^Fa進(jìn)行歸一化處理,操作過程為步驟c. I至c.3,具體為 步驟c. I :找出與待處理音頻幀為同一發(fā)聲人物的所有中性情感的音頻序列;所述待處理音頻幀為當(dāng)前等待做歸一化處理的音頻幀; 步驟c. 2 :分別計算經(jīng)過步驟c. I處理后得到的與待處理音頻幀為同一發(fā)聲人物的所有中性情感的音頻序列中各音頻幀的音頻特征值F1的均值、F2的均值、……、Fa的均值,分別用巧至Fa表示; 步驟c. 3 :用巧對待處理音頻幀的音頻特征值F1進(jìn)行歸一化處理,歸一化處理后的音頻特征值F1用符號F' i表示,濘=巧/巧;用,2對待處理音頻幀的音頻特征值F2進(jìn)行歸一化處理,歸一化處理后的音頻特征值F2用符號F' 2表示,Κ =·…··;以此類推,用&對待處理音頻幀的音頻特征值Fa進(jìn)行歸一化處理,歸一化處理后的音頻特征值Fa用符號F' α轟示兄二 FjFa ; 步驟d :獲得每個音頻序列中各音頻幀的音頻觀察向量,用V' t表示,I ^ t^p ; 一個音頻序列中的第t幀音頻幀的音頻觀察向量V t由經(jīng)過歸一化處理后的a個特征值組成,V' t=[f' tl,f' t2,……,f' tJT,f' tl為該音頻序列的第t幀音頻幀中經(jīng)過歸一化處理的第I個音頻特征值F' 1; f/ t2為該音頻序列的第t幀音頻幀中經(jīng)過歸一化處理的第2個音頻特征值F' 2,……,以此類推,f' ta為該音頻序列的第t幀音頻幀中經(jīng)過歸一化處理的第α個音頻特征值F' α ; 步驟f:對于一個情感視頻,使用矩陣M'來表示其音頻觀察向量序列,M' = [V' 1;V, 2,……,V, P] e Raxp; 所述對每個訓(xùn)練樣本集中的每個情感視頻數(shù)據(jù)做預(yù)處理,得到表情觀察向量序列的操作步驟包括第I步至第6步,具體為 第I步從每個情感視頻中以Va的采樣率提取m巾貞圖像組成一個圖像序列,Va > 5赫茲,m=vaXta,va = vb/ n , n = I, 2, 3 ;由于每段情感視頻都開始于中性表情,因此每個圖像序列中的第一幀圖像為中性表情圖像; 第2步依次從每個圖像序列中的各幀圖像中提取Θ個臉部表情特征值,分別用T1至Te表示,Θ > 5 ;所述臉部表情特征值包括臉部幾何特征值;臉部紋理特征值; 第3步為了解決因不同人臉型不同造成的對臉部表情特征值T1至Te的影響,對所有圖像的臉部表情特征值T1至Te進(jìn)行歸一化處理,具體為 第3. I步從全部表情圖像序列中找出包含待處理圖像中人臉的所有表情圖像序列;所述待處理圖像為當(dāng)前等待做歸一化處理的圖像; 第3. 2步分別計算經(jīng)過第3. I步處理后得到的包含待處理圖像中人臉的所有表情圖像序列的第一幀圖像中臉部表情特征值T1的均值、T2的均值、……、Te的均值,分別用$至%表示; 第3. 3步用II對待處理圖像的臉部表情特征值Tl進(jìn)行歸一化處理,歸一化處理后的臉部表情特征值T1用符號T' !轟示,Ti = TlIfl ;用巧對待處理圖像的臉部表情特征值T2進(jìn)行歸一化處理,歸一化處理后的臉部表情特征值T2用符號T' 2表示,r〗 = r2/f2;……;以此類推,用G對待處理圖像的臉部表情特征值Te進(jìn)行歸一化處理,歸一化處理后的臉部表情特征值1\用符號T' 0表示,6= / ; 第4步獲得每個表情圖像序列中各巾貞圖像的表情觀察向量,用Vq表不,I ^ q ^ m ;一個表情圖像序列中第q幀圖像的表情觀察向量'由經(jīng)過第3步歸一化處理后的Θ個特征值組成,V, = [fql, fq2,……,為該表情圖像序列的第q幀圖像中經(jīng)過歸一化處理的第I個臉部表情特征值T' 1; fq2為該表情圖像序列的第q幀圖像中經(jīng)過歸一化處理的第2個臉部表情特征值T, 2,……,以此類推,fqe為該表情圖像序列的第q幀圖像中經(jīng)過歸一化處理的第Θ個臉部表情特征值t' θ ; 第5步對于一個情感視頻,其表情圖像序列中各幀圖像的表情觀察向量V1至Vm組成該情感視頻的原始表情觀察向量序列,用矩陣M"來表示,M" = [V1, V2,……,Vm] e Rexm5第6步在每個情感視頻的原始表情觀察向量序列M"中的表情觀察向量和+1之間通過線性插值法插入(n-i)個表情觀察向量,并在表情觀察向量VmB,增加(η-I)個Vm,得到該情感視頻的表情觀察向量序列,用M表示,M = [V1, V2,……,VN] e R0 Xp,I ( q'< m ; 步驟二、建立增強(qiáng)耦合HMM分類器; 在步驟一操作的基礎(chǔ)上,建立增強(qiáng)耦合HMM分類器;所述增強(qiáng)耦合HMM分類器由從 左向右的K'個連續(xù)型二分量耦合HMM組合而成,I < K' < K,K的值由人為預(yù)先設(shè)定,.4 ^ 10 ;連續(xù)型二分量耦合HMM的兩條分量HMM分別稱為音頻通道分量HMM和表情通道分量HMM ;同一采樣時間點(diǎn)上,每條分量HMM均有I個可見節(jié)點(diǎn)和I個隱節(jié)點(diǎn)相對應(yīng); 用Nv表示連續(xù)型二分量耦合HMM的V通道的分量HMM的隱狀態(tài)個數(shù),V e {a, f};用Sv表示連續(xù)型二分量耦合HMM的V通道分量HMM的隱狀態(tài)集合,
2.如權(quán)利要求I所述的一種增強(qiáng)耦合HMM的語音-視覺融合的情感識別方法,其特征在于步驟一第2步中所述依次從每個圖像序列中的各幀圖像中提取Θ個臉部幾何特征值,Θ = 10,其操作步驟包括第2. I步至第2. 3步,具體為 第2. I步依次在每個圖像序列中的第一幀圖像中標(biāo)識出20個臉部特征點(diǎn);其中,第.1、2特征點(diǎn)分別位于右邊眉毛和左邊眉毛的眉頭位置,分別用(Xl,Y1)、(x2, y2)表示;第3、4特征點(diǎn)分別位于右邊眉毛和左邊眉毛的眉尾位置,分別用(x3,y3)、(x4, y4)表示;第5、6特征點(diǎn)分別位于右邊眼睛和左邊眼睛的內(nèi)眼角位置,分別用(x5,y5)、(x6, y6)表示;第7、8特征點(diǎn)分別位于右邊眼睛和左邊眼睛的最低點(diǎn),分別用(x7, J7)、(x8, y8)表示;第9、10特征點(diǎn)分別位于右邊眼睛和左邊眼睛的外眼角位置,分別用(x9,y9)、(x10, y10)表示;第11、12特征點(diǎn)分別位于右邊眼睛和左邊眼睛的最高點(diǎn),分別用(Xll,yil)、(x12, y12)表示;第13、14特征點(diǎn)分別位于鼻翼的最右側(cè)位置和鼻翼的最左側(cè)位置,分別用(x13,y13)、(x14, Y14)表示;第15特征點(diǎn)位于鼻尖位置,用(x15,y15)表示;第16、17特征點(diǎn)分別位于嘴角的最右側(cè)位置和嘴角的最左側(cè)位置,分別用(x16,y16)、(χ17, y17)表示;第18、19特征點(diǎn)分別位于唇部中心線與唇部輪廓線相交的最高點(diǎn)和最低點(diǎn),分別用(X18, Yi8)、(x19, yi9)表示;第20特征點(diǎn)位于臉部中心線與臉部輪廓線相交的最低點(diǎn),用(χΜ,y2。)表示; 第2. 2步根據(jù)每個圖像序列中的第一幀圖像中的20個特征點(diǎn)的位置,定位出該圖像序列中除第一幀圖像以外的后續(xù)幀圖像中的20個臉部特征點(diǎn); 第2. 3步根據(jù)各圖像中的20個特征點(diǎn)的位置,分別計算每個圖像序列中的各幀圖像的10個臉部表情特征值T1至Tltl,具體為⑴兩眼寬度的平均值,用T1表示,T1 =(IX9-X51+ IX10-X61)/2 ; (2)兩眼高度的平均值,用 T2 表示,T2 = (Iy11-Y7I+ Iy12-y8|)/2 ;(3)兩支眉毛寬度的平均值,用T3表示,T3 = (IX3-X11+ I X4-X21 )/2 ; (4)兩支眉毛高度的平均值,用T4表示,T4= (Iy3-Y1KIy4-Y2I)^5(S)內(nèi)眼角和眉頭之間垂直距離的均值,用T5表示,T5= (IY5-Y11+ I Y6-Y21 )/2 ; (6)鼻尖和左右嘴角的垂直距離均值,用丁6表示,T6 = (Iyi6-Yi5I + IyiT-Yi5I)/2 ; (7)嘴角和外眼角垂直距離的均值,用T7表示,T7 =(I Yi6-Y91+ I YiT-Yio I )/2; (8)嘴張開寬度,用 T8 表示,T8= X17-X16I ;(9)嘴張開高度,用 T9表示,T9 = y18-y19 ; (10)鼻尖和下巴的距離,用Tltl表示,Tltl = |y15-y2(l|。
3.如權(quán)利要求2所述的一種增強(qiáng)耦合HMM的語音-視覺融合的情感識別方法,其特征在于訓(xùn)練過程的步驟一第2步第2. I步中所述標(biāo)識20個臉部特征點(diǎn)的方法包括①人工手動標(biāo)識;②使用基于Gabor特征的增強(qiáng)分類器方法實(shí)現(xiàn)對20個臉部特征點(diǎn)的自動定位。
4.如權(quán)利要求2或3所述的一種增強(qiáng)耦合HMM的語音-視覺融合的情感識別方法,其特征在于訓(xùn)練過程的步驟一第2步第2. 2步中所述定位出該圖像序列中除第一幀圖像以外的后續(xù)幀圖像中的20個臉部特征點(diǎn)的方法包括①人工手動標(biāo)識;②使用基于分解概率的粒子濾波跟蹤算法實(shí)現(xiàn)對20個臉部特征點(diǎn)的自動跟蹤。
5.如權(quán)利要求2至4之一所述的一種增強(qiáng)耦合HMM的語音-視覺融合的情感識別方法,其特征在于訓(xùn)練過程的步驟一第2步第2. 3步中所述計算臉部表情特征值T8至Tltl的優(yōu)選方法是在第2. 3步操作的基礎(chǔ)上,在每個圖像序列中的第η幀圖像中,I < η < m,將T8至Tltl這三個特征值分別用相應(yīng)特征在第(η-I)幀、第η巾貞、第(η+1)幀圖像中的均值來替換。
6.如權(quán)利要求I至5之一所述的一種增強(qiáng)耦合HMM的語音-視覺融合的情感識別方法,其特征在于訓(xùn)練過程的步驟一步驟4. 4中所述判斷某一訓(xùn)練樣本&是否被連續(xù)型二分量耦合HMM^f正確分類的方法的操作過程包括步驟4. 4. I至步驟4. 4. 2,具體為 步驟4. 4. I :首先取出增強(qiáng)耦合HMM分類器Φ。中的連續(xù)型二分量耦合HMMf然后對其它并行訓(xùn)練的(C-I)個增強(qiáng)耦合HMM分類器分別進(jìn)行如下操作如果K。,,c' e {1,2,……,c-l} U {c+1, c+2,……,C},Kc,表示第c'個增強(qiáng)耦合HMM分類器Φ c,中包含的連續(xù)型二分量耦合HMM的個數(shù),則取出第y個增強(qiáng)耦合HMM分類器Φ。,中的連續(xù)型二分量耦合HMMg%否則,取出第c'個增強(qiáng)耦合HMM分類器Φ。,中的連續(xù)型二分量耦合HMM咬,; 步驟4. 4. 2 :分別計算各訓(xùn)練樣本在步驟4. 4. I取出的C個連續(xù)型二分量耦合HMM下·的概率;如果訓(xùn)練樣本&屬于第c個情感類別,且訓(xùn)練樣本&在連續(xù)型二分量耦合HMM$下的概率最大,則認(rèn)為訓(xùn)練樣本xr被正確分類;否則,認(rèn)為訓(xùn)練樣本&未被正確分類。
全文摘要
本發(fā)明提出的一種基于增強(qiáng)耦合HMM的語音-視覺融合的情感識別方法,屬于自動情感識別領(lǐng)域。本發(fā)明方法融合了臉部表情和語音兩種特征流,使用改進(jìn)的EM算法訓(xùn)練連續(xù)型二分量耦合HMM,訓(xùn)練時考慮并不斷更新各樣本的權(quán)重,使得訓(xùn)練過程偏重于難于識別的樣本。本發(fā)明方法與已有識別方法相比明顯提高了分類的準(zhǔn)確度。
文檔編號G06K9/66GK102930297SQ20121043594
公開日2013年2月13日 申請日期2012年11月5日 優(yōu)先權(quán)日2012年11月5日
發(fā)明者呂坤, 張欣, 賈云得 申請人:北京理工大學(xué)