基于語音和面部表情的雙模態(tài)情感融合的識(shí)別方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種基于語音和面部表情的雙模態(tài)情感融合的識(shí)別方法,包括以下步驟:獲取待識(shí)別對象的音頻數(shù)據(jù)和視頻數(shù)據(jù);從視頻數(shù)據(jù)中提取人臉表情圖像,并進(jìn)行眼睛、鼻子、嘴巴區(qū)域的分割;從三個(gè)區(qū)域的圖像中提取每個(gè)區(qū)域圖像中的面部表情特征;S4、對語音情感特征和面部表情特征進(jìn)行PCA分析降維;將兩種模態(tài)樣本進(jìn)行樸素貝葉斯的情感語音分類,并將條件概率進(jìn)行決策級(jí)融合,得到最終情感識(shí)別結(jié)果。本發(fā)明采用決策級(jí)融合方法對語音情感特征和面部表情特征進(jìn)行融合,能夠?yàn)橄乱徊竭M(jìn)行相應(yīng)條件概率的計(jì)算提供了更加準(zhǔn)確的數(shù)據(jù),使得本發(fā)明的方法能夠更準(zhǔn)確的得出受測對象的情感狀態(tài),從而提高情感識(shí)別的準(zhǔn)確性和可靠性。
【專利說明】
基于語音和面部表情的雙模態(tài)情感融合的識(shí)別方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于情感識(shí)別領(lǐng)域,更具體地,涉及一種基于語音和面部表情的雙模態(tài)情 感融合和識(shí)別方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著生活水平的提高和信息技術(shù)的高速發(fā)展人類對智能化生活的需求越來越高, 人機(jī)交互能力也越來越得到重視,作為人機(jī)交互的重要部分的情感計(jì)算也就成為了研究熱 點(diǎn)。目前國內(nèi)外在情感識(shí)別方面的研究主要分為兩大類,一類是基于單一模態(tài)的情感識(shí)別, 另一類是基于多模態(tài)的情感識(shí)別。兩類情感識(shí)別的主要區(qū)別是多模態(tài)情感識(shí)別是通過對多 通道采集到的信息進(jìn)行分析,并通過一系列的技術(shù)手段最終較為準(zhǔn)確的獲得被測者的情感 狀態(tài),而單一模態(tài)情感識(shí)別是通過對某一通道采集到的信息進(jìn)行分析,并通過一系列的技 術(shù)手段最終較為準(zhǔn)確的獲得被測者的情感狀態(tài)。
[0003] 現(xiàn)有的情感識(shí)別主要是基于單一模態(tài)的情感識(shí)別,在面部表情識(shí)別上多數(shù)研究仍 停留在對基本面部表情的情感識(shí)別,對更加細(xì)微的表情的識(shí)別效果不好。對于語音情感識(shí) 別方面的研究較為成熟,但是針對語音進(jìn)行單一模態(tài)的情感識(shí)別時(shí),如果語音通道受阻則 對情感識(shí)別的結(jié)果影響很大。
[0004] 葉亮等提出了一種用于混合語音情感識(shí)別的語音特征篩選方法,能夠很好地提取 一系列聲學(xué)特征中的最佳特征集合,但是未考慮聲學(xué)通道受阻的情況。趙小明等提出了基 于壓縮感知的魯棒性語音情感識(shí)別方法,將特征參數(shù)的提取從韻律特征和音質(zhì)特征兩方面 擴(kuò)充到梅爾頻率倒譜系數(shù)MFCC,提高了特征信號(hào)的抗干擾性,但是仍未解決聲學(xué)通道無法 獲取信號(hào)時(shí)的情感識(shí)別。
[0005] 韓志艷等提出了一種串并結(jié)合的多模式情感信息融合與識(shí)別方法,通過講語音 信號(hào)特征參數(shù)和面部表情特征參數(shù)順序組合起來等處理方法融合語音和面部表情的特征 信息,采用Adaboost算法訓(xùn)練獲得分類器,最終采用投票法獲得最終結(jié)果。而本專利創(chuàng)新的 采用貝葉斯分類器和決策級(jí)融合方法,融合情感語音特征和面部表情特征,獲得更好的效 果。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明所要解決的技術(shù)問題是提供一種基于語音和面部表情的雙模態(tài)情感融合 和識(shí)別方法及系統(tǒng)。
[0007] 本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:
[0008] 基于語音和面部表情的雙模態(tài)情感融合的識(shí)別方法,包括以下步驟:
[0009] S1、獲取待識(shí)別對象的音頻數(shù)據(jù)和視頻數(shù)據(jù);
[0010] S2、對所述音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號(hào);從所述視頻數(shù)據(jù)中提取人臉 表情圖像,并進(jìn)行眼睛、鼻子、嘴巴區(qū)域的分割,預(yù)處理后得到統(tǒng)一標(biāo)準(zhǔn)的三個(gè)區(qū)域的圖像;
[0011] S3、從所述情感語音信號(hào)中提取語音情感特征;從所述三個(gè)區(qū)域的圖像中提取每 個(gè)區(qū)域圖像中的面部表情特征;
[0012] S4、對所述語音情感特征和所述面部表情特征進(jìn)行PCA分析降維,獲得最終語音情 感特征和最終面部表情特征,并將最終語音情感特征作為語音模態(tài)樣本,將最終面部表情 特征作為面部模態(tài)樣本;
[0013] S5、將所述語音模態(tài)樣本進(jìn)行樸素貝葉斯的情感語音分類,得到語音模態(tài)樣本在 不同情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進(jìn)行基于樸素貝葉斯的人 臉表情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率集合;
[0014] S6、將所述第一條件概率集合和所述第二條件概率集合進(jìn)行決策級(jí)融合,得到待 識(shí)別對象的最終情感識(shí)別結(jié)果。
[0015] 本發(fā)明的有益效果是:本發(fā)明基于語音和面部表情的雙模態(tài)情感識(shí)別方法使用 了標(biāo)準(zhǔn)數(shù)據(jù)庫對分類器進(jìn)行訓(xùn)練使得情感識(shí)別結(jié)果更加的準(zhǔn)確高效。并且采用決策級(jí)融合 方法對語音情感特征和面部表情特征進(jìn)行融合,能夠更好地得到融合后的情感特征為下一 步進(jìn)行相應(yīng)條件概率的計(jì)算提供了更加準(zhǔn)確的數(shù)據(jù),使得本專利的方法能夠更準(zhǔn)確的得出 受測對象的情感狀態(tài),從而提高情感識(shí)別的準(zhǔn)確性和可靠性。
[0016] 在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。
[0017] 進(jìn)一步的,所述步驟S2對音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號(hào)的具體步驟為:
[0018] S2A.1、對音頻數(shù)據(jù)進(jìn)行固定頻率的采樣,將音頻數(shù)據(jù)的幅值分為若干個(gè)有限區(qū) 間,將屬于同一區(qū)間的音頻數(shù)據(jù)用區(qū)間所對應(yīng)的幅值統(tǒng)一表示,最終將信號(hào)轉(zhuǎn)化為時(shí)間和 幅值離散的數(shù)字信號(hào);
[0019] S2A.2、采用高通濾波器11(2) = 1^1對數(shù)字信號(hào)的高頻部分的功率進(jìn)行補(bǔ)償,放 大語音信號(hào)高頻部分,得到補(bǔ)償語音信號(hào),其中H(z)為語音信號(hào)功率函數(shù),z為頻率,α為預(yù) 加重系數(shù)且0.9彡α<1;
[0020] S2A. 3、對步驟S2A. 2處理后的補(bǔ)償語音信號(hào)進(jìn)行分幀處理,將補(bǔ)償語音信號(hào)劃分 為多幀語音段,并對分幀后的語音段進(jìn)行加窗處理,得到情感語音信號(hào)。
[0021] 采用上述進(jìn)一步方案的有益效果為:對語音信號(hào)進(jìn)行一定頻率的采樣保證了信號(hào) 不失真的同時(shí),包含最少的冗余信息。預(yù)加重增強(qiáng)了情感識(shí)別中所需要的信息。分幀和加窗 確保了幀與幀之間的平穩(wěn)過渡并且減少幀起始處與幀結(jié)束處信號(hào)的不連續(xù)問題。
[0022] 進(jìn)一步的,所述步驟S2從步驟S1抽取的視頻數(shù)據(jù)中提取人臉表情圖像,并進(jìn)行眼 睛、鼻子、嘴巴區(qū)域的分割,預(yù)處理后得到統(tǒng)一標(biāo)準(zhǔn)的三個(gè)區(qū)域圖像的具體步驟為:
[0023] S2B.1、獲取所述人臉表情圖像中眼睛、鼻子、嘴巴的三個(gè)區(qū)域的四角坐標(biāo),將每個(gè) 區(qū)域的坐標(biāo)值經(jīng)過坐標(biāo)變換和取整數(shù),獲取相應(yīng)裁剪區(qū)域的矩形信息,將眼睛、鼻子、嘴巴 從所述人臉表情圖像中分割出來,分別得到眼睛區(qū)域圖像、鼻子區(qū)域圖像和嘴巴區(qū)域圖像;
[0024] S2B.2、將待識(shí)別對象的所有眼睛區(qū)域圖像調(diào)節(jié)為同一尺寸,所有的鼻子區(qū)域圖像 調(diào)節(jié)為同一尺寸,所有的嘴巴區(qū)域圖像調(diào)節(jié)為同一尺寸;
[0025] S2B. 3、增加所有區(qū)域圖像的亮度和對比度,得到高亮度圖像;
[0026] S2B. 4、通過調(diào)整高亮度圖像的灰度值將圖像像素均勻地分布在整個(gè)圖像范圍內(nèi) 得到統(tǒng)一標(biāo)準(zhǔn)的三個(gè)區(qū)域圖像。
[0027] 采用上述進(jìn)一步方案的有益效果為:三個(gè)區(qū)域分割減少了圖像中非關(guān)鍵部分對表 情變化信息的干擾,也減少了數(shù)據(jù)量,提高了計(jì)算速度,由于分割后的灰度圖像較為模糊, 不易識(shí)別,灰度變換通過調(diào)整圖像的灰度值,將其均勻地分布在整個(gè)范圍的灰度區(qū)域,使一 定灰度區(qū)間的像素個(gè)數(shù)大體相同,從而使圖像的對比度得以增強(qiáng),直方圖均衡化使圖像的 對比度得以增強(qiáng)。
[0028] 進(jìn)一步的,所述步驟S3從情感語音信號(hào)中提取語音情感特征的具體包括以下步 驟:
[0029] S3A.1、利用短時(shí)自相關(guān)函數(shù)法確定情感語音信號(hào)的周期,提取出基頻特征的10個(gè) 統(tǒng)計(jì)學(xué)特征參數(shù),短時(shí)自相關(guān)函數(shù)R ω ( k )的定義為:
,其中,S (η)為情感語音信號(hào)的時(shí)間序列,Su (η) 為第ω幀情感語音信號(hào),每幀幀長為N,k為時(shí)間的延遲量,10個(gè)統(tǒng)計(jì)學(xué)特征參數(shù)包括:基頻 的最大值Pmax、最小值Pmin、變化范圍Pd = Pmax-Pmin、平均值Pm、標(biāo)準(zhǔn)差σρ、平均絕對斜度Ms、上 四分位數(shù)P〇. 75、下四分位數(shù)Ρο. 25、內(nèi)四分極值Pi = Ρ〇. 75-Ρ(). 25、中位數(shù)P〇. 5 ;
[0030] 334.2、根據(jù)1^的線性預(yù)測運(yùn)算求出預(yù)測系數(shù){&1^=1,2,"_,?},再根據(jù)預(yù)測系 數(shù)通過FFT運(yùn)算確定聲道的功率譜響應(yīng)曲線;最后用峰值檢出法精準(zhǔn)地計(jì)算出功率譜與中 心頻率,并計(jì)算出共振峰以及與其相關(guān)的統(tǒng)計(jì)學(xué)參數(shù),具體包括:Fi平均值、Fi標(biāo)準(zhǔn) 差、F 2平均值、F2標(biāo)準(zhǔn)差、F3平均值、F3標(biāo)準(zhǔn)差、Fi中位數(shù)、Fi中位數(shù)所占帶寬、F 2中位數(shù)、F2中 位數(shù)所占帶寬、F3中位數(shù)、F3中位數(shù)所占帶寬,共12個(gè)共振峰特征參數(shù);
[0031] S3A. 3、對每一幀情感語音信號(hào)進(jìn)行FFT變換得到語音信號(hào)的頻譜;再對每一幀的 數(shù)據(jù)求頻譜幅值的平方得到能量譜,并采用Mel濾波器對每一幀的譜線進(jìn)行帶通濾波;最后 對Mel濾波器組的輸出求對數(shù),并作逆傅里葉變換便可得到Mel倒譜系數(shù);
[0032] S3A. 4、綜合步驟S3A. 1中得到的10個(gè)統(tǒng)計(jì)學(xué)特征參數(shù)、步驟S3A. 3中得到的12個(gè)共 振峰特征參數(shù)和步驟S3A.4得到的Mel倒譜系數(shù),最終得到語音情感特征。
[0033]采用上述進(jìn)一步方案的有益效果為:通過采集10個(gè)基頻特征參數(shù),12個(gè)共振峰特 征參數(shù)和14個(gè)Mel倒譜系數(shù)特征參數(shù)能夠較為全面的代表語音的情感特征,從而為情感識(shí) 別做好了數(shù)據(jù)保障。
[0034]進(jìn)一步的,所述步驟S3從步驟S2處理得到的統(tǒng)一標(biāo)準(zhǔn)的三個(gè)區(qū)域圖像中提取每個(gè) 區(qū)域圖像中的面部表情特征的具體步驟為:
[0035] S3B.1、通過2D_Gabor小波變換從統(tǒng)一標(biāo)準(zhǔn)的人臉圖像中提取圖像紋理特征,將眼 睛、鼻子、嘴巴的區(qū)域圖像的每個(gè)方向與尺度進(jìn)行2D-Gabor小波變換處理獲得眼睛、鼻子、 嘴巴R〇 I圖像每個(gè)方向與尺度的2D-Gabor幅值圖譜;
[0036] S3B.2、將眼睛、鼻子、嘴巴圖像每個(gè)方向與尺度的2D-Gabor幅值圖譜進(jìn)行均勻模 式的LBP算子處理,并對其求取直方圖,最后將各子塊、各方向、各尺度的直方圖級(jí)聯(lián)為表示 一幅人臉表情圖像特征的直方圖序列,將所述直方圖序列作為多特征提取算法的面部表情 特征。
[0037]采用上述進(jìn)一步方案的有益效果為:融合了 2D-Gabor小波變換和LBP算子地優(yōu)良 特性且使用了特征數(shù)據(jù)PCA分析。2D-Gabor小波變換可多方向、多尺度地提取原始圖像在每 個(gè)通道下的局部特征,具有優(yōu)良的空間位置及方向選擇性。且能夠放大眼睛、鼻子、嘴巴的 灰度變化等局部特征,增強(qiáng)人臉中關(guān)鍵部位的局部特性,可更容易區(qū)分出不同的人臉圖 像。此外,2D-Gabor小波變換特征提取方法可接受一定程度的人臉姿態(tài)變化、圖像旋轉(zhuǎn)和形 變,對光照變化不敏感,且由于其計(jì)算的數(shù)據(jù)量較少具有實(shí)時(shí)性。使用的LBP算子在有效提 取圖像局部紋理特征的同時(shí),計(jì)算過程也較為簡單,減少了計(jì)算量,并且具有良好的旋轉(zhuǎn)不 變性和灰度不變性,不易受圖像的位移、光照不均衡等因素的影響。
[0038]進(jìn)一步的,所述步驟S4對步驟S3中提取的語音情感特征和面部表情特征進(jìn)行PCA 分析降維的具體步驟為:
[0039] S4.1、使用PCA對步驟S4提取的語音情感特征進(jìn)行降維處理,獲得用于表情分類的 最終語音情感特征;
[0040] S4.2、將步驟S3B. 2得到的面部表情特征經(jīng)過PCA降維處理后,獲得用于表情分類 的最終面部表情特征。
[0041] 采用上述進(jìn)一步方案的有益效果為:PCA分析可以減少樣本在某一屬性的特征變 量個(gè)數(shù),并盡量確保新特征之間的相互獨(dú)立性;在保證最大化包含數(shù)據(jù)內(nèi)在信息的條件下, 可對高維數(shù)據(jù)進(jìn)行降維、提高計(jì)算速度、去除噪聲。
[0042] 進(jìn)一步的,所述步驟S5中分別使用語音模態(tài)樣本和面部表情模態(tài)樣本進(jìn)行樸素貝 葉斯情感分類的具體步驟為:
[0043] S5.1、設(shè)分別有m個(gè)語音模態(tài)樣本,設(shè)語音模態(tài)樣本為XI,則對XI進(jìn)行樸素貝葉斯情 感分類后可得到XI在每種情感類別下的第一條件概率集合{pij(x),i = l,3,…,2m-l,j = l, 2,…,6},其中,i = l,3,···,2m-l代表不同的情感語音模態(tài)樣本數(shù)據(jù),j = 1,2,…,6分別代表 高興、生氣、討厭、害怕、悲傷和驚奇六種基本情感類別;
[0044] S5.2、設(shè)分別有m個(gè)面部表情模態(tài)樣本,設(shè)面部表情模態(tài)樣本為X2,則對X2進(jìn)行樸素 貝葉斯情感分類后可得到第二條件概率集合{pij(x),i = 2,4,···,2m, j = l,2,…,6},其中,i =2,4,…,2m代表不同的情感語音模態(tài)樣本數(shù)據(jù),j = 1,2,…,6分別代表高興、生氣、討厭、 害怕、悲傷和驚奇六種基本情感類別。
[0045] 采用上述進(jìn)一步方案的有益效果為:通過將情感語音和面部表情的樣本數(shù)據(jù)分別 輸入到對應(yīng)的分類器進(jìn)行分類得到該樣本在不同情感類別下的條件概率,能夠更加快速準(zhǔn) 確的為下一步情感識(shí)別提供良好的數(shù)據(jù)支持。
[0046] 進(jìn)一步的,所述步驟S6的將所述第一條件概率集合和所述第二條件概率集合進(jìn)行 決策級(jí)融合,得到待識(shí)別對象的最終情感識(shí)別結(jié)果具體步驟為:
[0047] S6.1、按照乘積規(guī)則Γ?/;〃,對第一條件概率集合和第二條件概率集合 i 進(jìn)行融合,將不同模態(tài)的情感特征在同一情感類別下的條件概率相乘,得到的后驗(yàn)概率集 合,IVj(x),j = i,2,…,6};
[0048] S6.2、將所述后驗(yàn)概率集合中最大的后驗(yàn)概率數(shù)值所對應(yīng)的類別作為最終識(shí)別結(jié) 果,若有多個(gè)數(shù)值相同的最大后驗(yàn)概率,則對數(shù)值相同的最大后驗(yàn)概率對應(yīng)的樣本重新進(jìn) 行步驟S5的分類并計(jì)算條件概率,直至得到最終識(shí)別結(jié)果。
[0049] 采用上述進(jìn)一步方案的有益效果為:
[0050] 將條件概率通過乘積規(guī)則得到相應(yīng)的后驗(yàn)概率,并選擇最大的后驗(yàn)概率所對應(yīng)的 情感狀態(tài)作為情感識(shí)別結(jié)果的方法能夠更加準(zhǔn)確地得到情感識(shí)別結(jié)果,有效地提高了情感 識(shí)別率。
[0051] 基于語音和面部表情的雙模態(tài)情感融合的識(shí)別系統(tǒng),包括以下模塊:
[0052]數(shù)據(jù)提取模塊,用于獲取待識(shí)別對象的音頻數(shù)據(jù)和視頻數(shù)據(jù);信號(hào)提取模塊,用于 對所述音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號(hào);從所述視頻數(shù)據(jù)中提取人臉表情圖像,并 進(jìn)行眼睛、鼻子、嘴巴區(qū)域的分割,預(yù)處理后得到統(tǒng)一標(biāo)準(zhǔn)的三個(gè)區(qū)域的圖像;
[0053]特征提取模塊,用于從所述情感語音信號(hào)中提取語音情感特征;從所述三個(gè)區(qū)域 的圖像中提取每個(gè)區(qū)域圖像中的面部表情特征;
[0054] PCA分析降維模塊,用于對語音情感特征和面部表情特征進(jìn)行PCA分析降維;
[0055] 貝葉斯分類模塊,用于將所述語音模態(tài)樣本進(jìn)行樸素貝葉斯的情感語音分類,得 到語音模態(tài)樣本在不同情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進(jìn)行基 于樸素貝葉斯的人臉表情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率 集合;
[0056] 決策級(jí)融合模塊,用于將第一條件概率集合和第二條件概率集合進(jìn)行決策級(jí)融 合,得到最終識(shí)別結(jié)果。
[0057] 進(jìn)一步的,所述的基于語音和面部表情的雙模態(tài)情感融合的識(shí)別系統(tǒng),其特征在 于,所述PCA分析降維模塊還包括語音情感特征降維單元和面部表情特征降維單元,
[0058]所述語音情感特征降維單元用于使用PCA對步驟S4提取的語音情感特征進(jìn)行降維 處理,獲得用于表情分類的最終語音情感特征;
[0059]將所述面部表情特征經(jīng)過PCA降維處理后,獲得用于表情分類的最終面部表情特 征。
【附圖說明】
[0060]圖1為本發(fā)明方法的總體示意圖;
[0061 ]圖2為本發(fā)明方法步驟S2A的流程示意圖;
[0062] 圖3為本發(fā)明方法步驟S2B的流程示意圖;
[0063] 圖4為本發(fā)明方法步驟S3的流程示意圖;
[0064]圖5為本發(fā)明系統(tǒng)示意圖。
【具體實(shí)施方式】
[0065]以下結(jié)合附圖對本發(fā)明的原理和特征進(jìn)行描述,所舉實(shí)例只用于解釋本發(fā)明,并 非用于限定本發(fā)明的范圍。
[0066]本實(shí)施例以eNTERFACE ' 05音視頻多模態(tài)情感數(shù)據(jù)庫的數(shù)據(jù)作為素材,仿真平臺(tái) 是MATLAB R2015b。
[0067] 如圖1所示,基于語音和面部表情的雙模態(tài)情感融合的識(shí)別方法,包括以下步驟:
[0068] S1、獲取待識(shí)別對象的音頻數(shù)據(jù)和視頻數(shù)據(jù);
[0069] S2、對所述音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號(hào);從所述視頻數(shù)據(jù)中提取人臉 表情圖像,并進(jìn)行眼睛、鼻子、嘴巴區(qū)域的分割,預(yù)處理后得到統(tǒng)一標(biāo)準(zhǔn)的三個(gè)區(qū)域的圖像;
[0070] S3、從所述情感語音信號(hào)中提取語音情感特征;從所述三個(gè)區(qū)域的圖像中提取每 個(gè)區(qū)域圖像中的面部表情特征;
[0071] S4、對所述語音情感特征和所述面部表情特征進(jìn)行PCA分析降維,獲得最終語音情 感特征和最終面部表情特征,并將最終語音情感特征作為語音模態(tài)樣本,將最終面部表情 特征作為面部模態(tài)樣本;
[0072] S5、將所述語音模態(tài)樣本進(jìn)行樸素貝葉斯的情感語音分類,得到語音模態(tài)樣本在 不同情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進(jìn)行基于樸素貝葉斯的人 臉表情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率集合;
[0073] S6、將所述第一條件概率集合和所述第二條件概率集合進(jìn)行決策級(jí)融合,得到待 識(shí)別對象的最終情感識(shí)別結(jié)果。
[0074] 如圖2所示,所述步驟S2對音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號(hào)的具體步驟為:
[0075] S2A.1、采樣和量化,對音頻數(shù)據(jù)進(jìn)行固定頻率的采樣,將音頻數(shù)據(jù)的幅值分為若 干個(gè)有限區(qū)間,將屬于同一區(qū)間的音頻數(shù)據(jù)用區(qū)間所對應(yīng)的幅值統(tǒng)一表示,最終將信號(hào)轉(zhuǎn) 化為時(shí)間和幅值離散的數(shù)字信號(hào);
[0076] S2A.2、預(yù)加重,采用高通濾波器11(2) = 1^1對數(shù)字信號(hào)的高頻部分的功率進(jìn)行 補(bǔ)償,放大語音信號(hào)高頻部分,得到補(bǔ)償語音信號(hào),其中H(z)為語音信號(hào)功率函數(shù),z為頻 率,α為預(yù)加重系數(shù)且0.9<α<1;
[0077] S2A.3、分幀和加窗,對步驟S2A.2處理后的補(bǔ)償語音信號(hào)進(jìn)行分幀處理,將補(bǔ)償語 音信號(hào)劃分為多幀語音段,并對分幀后的語音段進(jìn)行加窗處理,得到情感語音信號(hào)。
[0078] 如圖3所示,所述步驟S2從步驟S1抽取的視頻數(shù)據(jù)中提取人臉表情圖像,并進(jìn)行眼 睛、鼻子、嘴巴區(qū)域的分割,預(yù)處理后得到統(tǒng)一標(biāo)準(zhǔn)的三個(gè)區(qū)域圖像的具體步驟為:
[0079] S2B.1、R0I區(qū)域分割,獲取所述人臉表情圖像中眼睛、鼻子、嘴巴的三個(gè)區(qū)域的四 角坐標(biāo),將每個(gè)區(qū)域的坐標(biāo)值經(jīng)過坐標(biāo)變換和取整數(shù),獲取相應(yīng)裁剪區(qū)域的矩形信息,將眼 睛、鼻子、嘴巴從所述人臉表情圖像中分割出來,分別得到眼睛區(qū)域圖像、鼻子區(qū)域圖像和 嘴巴區(qū)域圖像;
[0080] S2B. 2、尺寸調(diào)整,將待識(shí)別對象的所有眼睛區(qū)域圖像調(diào)節(jié)為10X30,所有的鼻子 區(qū)域圖像調(diào)節(jié)為16X24,所有的嘴巴區(qū)域圖像調(diào)節(jié)為12X18;
[0081] S2B. 3、灰度變換,增加所有區(qū)域圖像的亮度和對比度,得到高亮度圖像;
[0082] S2B. 4、通過調(diào)整高亮度圖像的灰度值將圖像像素均勻地分布在整個(gè)圖像范圍內(nèi) 得到統(tǒng)一標(biāo)準(zhǔn)的三個(gè)區(qū)域圖像。
[0083] 如圖4所示,所述步驟S3從情感語音信號(hào)中提取語音情感特征的具體包括以下步 驟:
[0084] S3A.1、提取基頻特征,利用短時(shí)自相關(guān)函數(shù)法確定情感語音信號(hào)的周期,提取出 基頻特征的1 〇個(gè)統(tǒng)計(jì)學(xué)特征參數(shù),短時(shí)自相關(guān)函數(shù)R ω ( k )的定義為:
其中,S(η)為情感語音信號(hào)的時(shí)間序列,(η) 為第ω幀情感語音信號(hào),每幀幀長為N,k為時(shí)間的延遲量,10個(gè)統(tǒng)計(jì)學(xué)特征參數(shù)包括:基頻 的最大值Pmax、最小值Pmin、變化范圍Pd = Pmax-Pmin、平均值Pm、標(biāo)準(zhǔn)差σρ、平均絕對斜度Ms、上 四分位數(shù)P〇. 75、下四分位數(shù)Ρο. 25、內(nèi)四分極值Pi = Ρ〇. 75-Ρ(). 25、中位數(shù)P〇. 5 ;
[0085] S3A.2、計(jì)算共振峰特征,根據(jù)LPC的線性預(yù)測運(yùn)算求出預(yù)測系數(shù){ak,k=l,2,…, p},再根據(jù)預(yù)測系數(shù)通過FFT運(yùn)算確定聲道的功率譜響應(yīng)曲線;最后用峰值檢出法精準(zhǔn)地計(jì) 算出功率譜與中心頻率,并計(jì)算出 Fl、F2、F3共振峰以及與其相關(guān)的統(tǒng)計(jì)學(xué)參數(shù),具體包括: Fi平均值、Fi#準(zhǔn)差、F 2平均值、F2標(biāo)準(zhǔn)差、F3平均值、F3標(biāo)準(zhǔn)差、Fi中位數(shù)、Fi中位數(shù)所占帶寬、 F2中位數(shù)、F2中位數(shù)所占帶寬、F3中位數(shù)、F3中位數(shù)所占帶寬,共12個(gè)共振峰特征參數(shù);
[0086] S3A. 3、計(jì)算Mel倒譜系數(shù),對每一幀情感語音信號(hào)進(jìn)行FFT變換得到語音信號(hào)的頻 譜;再對每一幀的數(shù)據(jù)求頻譜幅值的平方得到能量譜,并采用Mel濾波器對每一幀的譜線進(jìn) 行帶通濾波;最后對Mel濾波器組的輸出求對數(shù),并作逆傅里葉變換便可得到Mel倒譜系數(shù); [0087] S3A. 4、綜合步驟S3A. 1中得到的10個(gè)統(tǒng)計(jì)學(xué)特征參數(shù)、步驟S3A. 3中得到的12個(gè)共 振峰特征參數(shù)和步驟S3A.4得到的Mel倒譜系數(shù),最終得到語音情感特征。
[0088]所述步驟S3從步驟S2處理得到的統(tǒng)一標(biāo)準(zhǔn)的三個(gè)區(qū)域圖像中提取每個(gè)區(qū)域圖像 中的面部表情特征的具體步驟為:
[0089] S3B.1、通過2D_Gabor小波變換從統(tǒng)一標(biāo)準(zhǔn)的人臉圖像中提取圖像紋理特征,將眼 睛、鼻子、嘴巴的區(qū)域圖像的每個(gè)方向與尺度進(jìn)行2D-Gabor小波變換處理獲得眼睛、鼻子、 嘴巴R〇 I圖像每個(gè)方向與尺度的2D-Gabor幅值圖譜;
[0090] S3B.2、將眼睛、鼻子、嘴巴圖像每個(gè)方向與尺度的2D-Gab〇r幅值圖譜進(jìn)行均勻模 式的LBP算子處理,并對其求取直方圖,最后將各子塊、各方向、各尺度的直方圖級(jí)聯(lián)為表示 一幅人臉表情圖像特征的直方圖序列,將所述直方圖序列作為多特征提取算法的面部表情 特征。
[0091] 所述步驟S4對步驟S3中提取的語音情感特征和面部表情特征進(jìn)行PCA分析降維的 具體步驟為:
[0092] S4.1、使用PCA對步驟S4提取的語音情感特征進(jìn)行降維處理,獲得用于表情分類的 最終語音情感特征;
[0093] S4.2、將步驟S3B. 2得到的面部表情特征經(jīng)過PCA降維處理后,獲得用于表情分類 的最終面部表情特征。
[0094] 所述步驟S5中分別使用語音模態(tài)樣本和面部表情模態(tài)樣本進(jìn)行樸素貝葉斯情感 分類的具體步驟為:
[0095] S5.1、設(shè)分別有m個(gè)語音模態(tài)樣本,設(shè)語音模態(tài)樣本為XI,則對XI進(jìn)行樸素貝葉斯情 感分類后可得到?在每種情感類別下的第一條件概率集合{pij(x),i = l,3,…,2m-l,j = l, 2,…,6},其中,i = l,3,···,2m-l代表不同的情感語音模態(tài)樣本數(shù)據(jù),j = 1,2,…,6分別代表 高興、生氣、討厭、害怕、悲傷和驚奇六種基本情感類別;
[0096] S5.2、設(shè)分別有m個(gè)面部表情模態(tài)樣本,設(shè)面部表情模態(tài)樣本為X2,則對X2進(jìn)行樸素 貝葉斯情感分類后可得到第二條件概率集合{pij(x),i = 2,4,···,2m, j = l,2,…,6},其中,i =2,4,…,2m代表不同的情感語音模態(tài)樣本數(shù)據(jù),j = 1,2,…,6分別代表高興、生氣、討厭、 害怕、悲傷和驚奇六種基本情感類別。
[0097] 所述步驟S6的將所述第一條件概率集合和所述第二條件概率集合進(jìn)行決策級(jí)融 合,得到待識(shí)別對象的最終情感識(shí)別結(jié)果具體步驟為:
[0098] S6.1、按照乘積規(guī)貝
對第一條件概率集合和第二條件概率集合 進(jìn)行融合,將不同模態(tài)的情感特征在同一情感類別下的條件概率相乘,得到的后驗(yàn)概率集 合,IVj(x),j = i,2,…,6};
[0099] S6.2、將所述后驗(yàn)概率集合中最大的后驗(yàn)概率數(shù)值所對應(yīng)的類別作為最終識(shí)別結(jié) 果,若有多個(gè)數(shù)值相同的最大后驗(yàn)概率,則對數(shù)值相同的最大后驗(yàn)概率對應(yīng)的樣本重新進(jìn) 行步驟S5的分類并計(jì)算條件概率,直至得到最終識(shí)別結(jié)果。
[0100]如圖5所示,基于語音和面部表情的雙模態(tài)情感融合的識(shí)別系統(tǒng),包括以下模塊: [0101 ]數(shù)據(jù)提取模塊,用于獲取待識(shí)別對象的音頻數(shù)據(jù)和視頻數(shù)據(jù);信號(hào)提取模塊,用于 對所述音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號(hào);從所述視頻數(shù)據(jù)中提取人臉表情圖像,并 進(jìn)行眼睛、鼻子、嘴巴區(qū)域的分割,預(yù)處理后得到統(tǒng)一標(biāo)準(zhǔn)的三個(gè)區(qū)域的圖像;
[0102] 特征提取模塊,用于從所述情感語音信號(hào)中提取語音情感特征;從所述三個(gè)區(qū)域 的圖像中提取每個(gè)區(qū)域圖像中的面部表情特征;
[0103] PCA分析降維模塊,用于對語音情感特征和面部表情特征進(jìn)行PCA分析降維;
[0104] 貝葉斯分類模塊,用于將所述語音模態(tài)樣本進(jìn)行樸素貝葉斯的情感語音分類,得 到語音模態(tài)樣本在不同情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進(jìn)行基 于樸素貝葉斯的人臉表情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率 集合;
[0105] 決策級(jí)融合模塊,用于將第一條件概率集合和第二條件概率集合進(jìn)行決策級(jí)融 合,得到最終識(shí)別結(jié)果。
[0106] 所述PCA分析降維模塊還包括語音情感特征降維單元和面部表情特征降維單元,
[0107] 所述語音情感特征降維單元用于使用PCA對步驟S4提取的語音情感特征進(jìn)行降維 處理,獲得用于表情分類的最終語音情感特征;
[0108] 將所述面部表情特征經(jīng)過PCA降維處理后,獲得用于表情分類的最終面部表情特 征。
[0109]以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和 原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 基于語音和面部表情的雙模態(tài)情感融合的識(shí)別方法,其特征在于,包括W下步驟: 51、 獲取待識(shí)別對象的音頻數(shù)據(jù)和視頻數(shù)據(jù); 52、 對所述音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號(hào);從所述視頻數(shù)據(jù)中提取人臉表情 圖像,并進(jìn)行眼睛、鼻子、嘴己區(qū)域的分割,預(yù)處理后得到統(tǒng)一標(biāo)準(zhǔn)的Ξ個(gè)區(qū)域的圖像; 53、 從所述情感語音信號(hào)中提取語音情感特征;從所述Ξ個(gè)區(qū)域的圖像中提取每個(gè)區(qū) 域圖像中的面部表情特征; 54、 對所述語音情感特征和所述面部表情特征進(jìn)行PCA分析降維,獲得最終語音情感特 征和最終面部表情特征,并將最終語音情感特征作為語音模態(tài)樣本,將最終面部表情特征 作為面部模態(tài)樣本; 55、 將所述語音模態(tài)樣本進(jìn)行樸素貝葉斯的情感語音分類,得到語音模態(tài)樣本在不同 情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進(jìn)行基于樸素貝葉斯的人臉表 情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率集合; 56、 將所述第一條件概率集合和所述第二條件概率集合進(jìn)行決策級(jí)融合,得到待識(shí)別 對象的最終情感識(shí)別結(jié)果。2. 根據(jù)權(quán)利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識(shí)別方法,其特征 在于,所述步驟S2對音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號(hào)的具體步驟為: S2A.1、對音頻數(shù)據(jù)進(jìn)行固定頻率的采樣,將音頻數(shù)據(jù)的幅值分為若干個(gè)有限區(qū)間,將 屬于同一區(qū)間的音頻數(shù)據(jù)用區(qū)間所對應(yīng)的幅值統(tǒng)一表示,最終將信號(hào)轉(zhuǎn)化為時(shí)間和幅值離 散的數(shù)字信號(hào); S2A.2、采用高通濾波器Η(ζ) = 1-αζ^ι對數(shù)字信號(hào)的高頻部分的功率進(jìn)行補(bǔ)償,放大語 音信號(hào)高頻部分,得到補(bǔ)償語音信號(hào),其中Η(ζ)為語音信號(hào)功率函數(shù),Ζ為頻率,α為預(yù)加重 系數(shù)且0.9《α<1; S2A. 3、對步驟S2A. 2處理后的補(bǔ)償語音信號(hào)進(jìn)行分帖處理,將補(bǔ)償語音信號(hào)劃分為多 帖語音段,并對分帖后的語音段進(jìn)行加窗處理,得到情感語音信號(hào)。3. 根據(jù)權(quán)利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識(shí)別方法,其特征 在于,所述步驟S2從步驟S1抽取的視頻數(shù)據(jù)中提取人臉表情圖像,并進(jìn)行眼睛、鼻子、嘴己 區(qū)域的分割,預(yù)處理后得到統(tǒng)一標(biāo)準(zhǔn)的Ξ個(gè)區(qū)域圖像的具體步驟為: S2B.1、獲取所述人臉表情圖像中眼睛、鼻子、嘴己的Ξ個(gè)區(qū)域的四角坐標(biāo),將每個(gè)區(qū)域 的坐標(biāo)值經(jīng)過坐標(biāo)變換和取整數(shù),獲取相應(yīng)裁剪區(qū)域的矩形信息,將眼睛、鼻子、嘴己從所 述人臉表情圖像中分割出來,分別得到眼睛區(qū)域圖像、鼻子區(qū)域圖像和嘴己區(qū)域圖像; S2B. 2、將待識(shí)別對象的所有眼睛區(qū)域圖像調(diào)節(jié)為同一尺寸,所有的鼻子區(qū)域圖像調(diào)節(jié) 為同一尺寸,所有的嘴己區(qū)域圖像調(diào)節(jié)為同一尺寸; S2B.3、增加所有區(qū)域圖像的亮度和對比度,得到高亮度圖像; S2B.4、通過調(diào)整高亮度圖像的灰度值將圖像像素均勻地分布在整個(gè)圖像范圍內(nèi)得到 統(tǒng)一標(biāo)準(zhǔn)的Ξ個(gè)區(qū)域圖像。4. 根據(jù)權(quán)利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識(shí)別方法,其特征 在于,所述步驟S3從情感語音信號(hào)中提取語音情感特征的具體包括W下步驟: S3A. 1、利用短時(shí)自相關(guān)函數(shù)法確定情感語音信號(hào)的周期,提取出基頻特征的10個(gè)統(tǒng)計(jì) 學(xué)特征參數(shù),短時(shí)自相關(guān)函數(shù)R?;?的定義為:其中,S(n)為情感語音信號(hào)的時(shí)間序列,Su(n)為第ω帖情感語音信號(hào),每帖帖長為N,k為時(shí) 間的延遲量,10個(gè)統(tǒng)計(jì)學(xué)特征參數(shù)包括:基頻的最大值Pmax、最小值Pmin、變化范圍Pd = Pmax- Pmin、平均值Pm、標(biāo)準(zhǔn)差Op、平均絕對斜度Ms、上四分位數(shù)PO.7日、下四分位數(shù)PO.2日、內(nèi)四分極值Pi =Po. 7日-Po. 2日、中位數(shù)Po. 5 ; S3A.2、根據(jù)LPC的線性預(yù)測運(yùn)算求出預(yù)測系數(shù){ak,k=l,2,…,p},再根據(jù)預(yù)測系數(shù)通過 FFT運(yùn)算確定聲道的功率譜響應(yīng)曲線;最后用峰值檢出法精準(zhǔn)地計(jì)算出功率譜與中屯、頻率, 并計(jì)算出Fi、F2、F3共振峰W及與其相關(guān)的統(tǒng)計(jì)學(xué)參數(shù),具體包括:Fi平均值、Fi標(biāo)準(zhǔn)差、F2平 均值、F2標(biāo)準(zhǔn)差、F3平均值、F3標(biāo)準(zhǔn)差、Fi中位數(shù)、Fi中位數(shù)所占帶寬、F2中位數(shù)、F2中位數(shù)所占 帶寬、的中位數(shù)、的中位數(shù)所占帶寬,共12個(gè)共振峰特征參數(shù); S3A. 3、對每一帖情感語音信號(hào)進(jìn)行FFT變換得到語音信號(hào)的頻譜;再對每一帖的數(shù)據(jù) 求頻譜幅值的平方得到能量譜,并采用Mel濾波器對每一帖的譜線進(jìn)行帶通濾波;最后對 Mel濾波器組的輸出求對數(shù),并作逆傅里葉變換便可得到Mel倒譜系數(shù); S3A. 4、綜合步驟S3A. 1中得到的10個(gè)統(tǒng)計(jì)學(xué)特征參數(shù)、步驟S3A. 3中得到的12個(gè)共振峰 特征參數(shù)和步驟S3A. 4得到的Mel倒譜系數(shù),最終得到語音情感特征。5. 根據(jù)權(quán)利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識(shí)別方法,其特征 在于,所述步驟S3從步驟S2處理得到的統(tǒng)一標(biāo)準(zhǔn)的Ξ個(gè)區(qū)域圖像中提取每個(gè)區(qū)域圖像中的 面部表情特征的具體步驟為: S3B.1、通過2D-Gabor小波變換從統(tǒng)一標(biāo)準(zhǔn)的人臉圖像中提取圖像紋理特征,將眼睛、 鼻子、嘴己的區(qū)域圖像的每個(gè)方向與尺度進(jìn)行2D-Gabor小波變換處理,獲得眼睛、鼻子、嘴 己R0I圖像每個(gè)方向與尺度的2D-Gabor幅值圖譜; S3B.2、將眼睛、鼻子、嘴己區(qū)域圖像每個(gè)方向與尺度的2D-Gabor幅值圖譜進(jìn)行均勻模 式的LBP算子處理,并對其求取直方圖,最后將各子塊、各方向、各尺度的直方圖級(jí)聯(lián)為表 示一幅人臉表情圖像特征的直方圖序列,將所述直方圖序列作為多特征提取算法的面部表 情特征。6. 根據(jù)權(quán)利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識(shí)別方法,其特征 在于,所述步驟S4對步驟S3中提取的語音情感特征和面部表情特征進(jìn)行PCA分析降維的具 體步驟為: 54.1、 使用PCA對步驟S4提取的語音情感特征進(jìn)行降維處理,獲得用于表情分類的最終 語音情感特征; 54.2、 將步驟S3B. 2得到的面部表情特征經(jīng)過PCA降維處理后,獲得用于表情分類的最 終面部表情特征。7. 根據(jù)權(quán)利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識(shí)別方法,其特征 在于,所述步驟S5中分別使用語音模態(tài)樣本和面部表情模態(tài)樣本進(jìn)行樸素貝葉斯情感分類 的具體步驟為: S5.1、設(shè)分別有m個(gè)語音模態(tài)樣本,設(shè)語音模態(tài)樣本為XI,則對XI進(jìn)行樸素貝葉斯情感分 類后可得到XI在每種情感類別下的第一條件概率集合{pu(x),i = l,3,-,,2m-l,j = l, 2,…,6},其中,i = l,3,···,2m-l代表不同的情感語音模態(tài)樣本數(shù)據(jù),j = 1,2,…,6分別代表 高興、生氣、討厭、害怕、悲傷和驚奇六種基本情感類別; S5.2、設(shè)分別有m個(gè)面部表情模態(tài)樣本,設(shè)面部表情模態(tài)樣本為X2,則對X2進(jìn)行樸素貝葉 斯情感分類后可得到第二條件概率集合{pij(x),i = 2,4,···,2m, j = l,2,…,6},其中,i = 2, 4,…,2m代表不同的情感語音模態(tài)樣本數(shù)據(jù),j = 1,2,…,6分別代表高興、生氣、討厭、害怕、 悲傷和驚奇六種基本情感類別。8. 根據(jù)權(quán)利要求1所述的基于語音和面部表情的雙模態(tài)情感融合的識(shí)別方法,其特征 在于,所述步驟S6的將所述第一條件概率集合和所述第二條件概率集合進(jìn)行決策級(jí)融合, 得到待識(shí)別對象的最終情感識(shí)別結(jié)果具體步驟為: 56.1、 按照乘積規(guī)奶計(jì)第一條件概率集合和第二條件概率集合進(jìn)行融 合,將不同模態(tài)的情感特征在同一情感類別下的條件概率相乘,得到的后驗(yàn)概率集合,{q'j (x),j = l,2,---,6)5 56.2、 將所述后驗(yàn)概率集合中最大的后驗(yàn)概率數(shù)值所對應(yīng)的類別作為最終識(shí)別結(jié)果, 若有多個(gè)數(shù)值相同的最大后驗(yàn)概率,則對數(shù)值相同的最大后驗(yàn)概率對應(yīng)的樣本重新進(jìn)行步 驟S5的分類并計(jì)算條件概率,直至得到最終識(shí)別結(jié)果。9. 基于語音和面部表情的雙模態(tài)情感融合的識(shí)別系統(tǒng),其特征在于,包括W下模塊: 數(shù)據(jù)提取模塊,用于獲取待識(shí)別對象的音頻數(shù)據(jù)和視頻數(shù)據(jù);信號(hào)提取模塊,用于對所 述音頻數(shù)據(jù)進(jìn)行預(yù)處理得到情感語音信號(hào);從所述視頻數(shù)據(jù)中提取人臉表情圖像,并進(jìn)行 眼睛、鼻子、嘴己區(qū)域的分割,預(yù)處理后得到統(tǒng)一標(biāo)準(zhǔn)的Ξ個(gè)區(qū)域的圖像; 特征提取模塊,用于從所述情感語音信號(hào)中提取語音情感特征;從所述Ξ個(gè)區(qū)域的圖 像中提取每個(gè)區(qū)域圖像中的面部表情特征; PCA分析降維模塊,用于對語音情感特征和面部表情特征進(jìn)行PCA分析降維; 貝葉斯分類模塊,用于將所述語音模態(tài)樣本進(jìn)行樸素貝葉斯的情感語音分類,得到語 音模態(tài)樣本在不同情感狀態(tài)下的第一條件概率集合;將所述面部表情模態(tài)樣本進(jìn)行基于樸 素貝葉斯的人臉表情分類,得到面部表情模態(tài)樣本在不同情感狀態(tài)下的第二條件概率集 合; 決策級(jí)融合模塊,用于將第一條件概率集合和第二條件概率集合進(jìn)行決策級(jí)融合,得 到最終識(shí)別結(jié)果。10. 根據(jù)權(quán)利要求9所述的基于語音和面部表情的雙模態(tài)情感融合的識(shí)別系統(tǒng),其特征 在于,所述PCA分析降維模塊還包括語音情感特征降維單元和面部表情特征降維單元, 所述語音情感特征降維單元用于使用PCA對步驟S4提取的語音情感特征進(jìn)行降維處 理,獲得用于表情分類的最終語音情感特征; 將所述面部表情特征經(jīng)過PCA降維處理后,獲得用于表情分類的最終面部表情特征。
【文檔編號(hào)】G10L15/06GK105976809SQ201610352750
【公開日】2016年9月28日
【申請日】2016年5月25日
【發(fā)明人】劉振燾, 吳敏, 曹衛(wèi)華, 陳鑫, 潘芳芳, 徐建平, 張日, 丁學(xué)文
【申請人】中國地質(zhì)大學(xué)(武漢)