本申請主張以2015年12月24日申請的日本專利申請第2015-250995號以及2016年4月1日申請的日本專利申請第2016-074175號為基礎(chǔ)申請的優(yōu)先權(quán),將該基礎(chǔ)申請的內(nèi)容全部引入到本申請中。
本發(fā)明情緒估計(jì)裝置以及情緒估計(jì)方法。
背景技術(shù):
已知一種估計(jì)被估計(jì)者的情緒的技術(shù)。例如特開2014-178970號公報(bào)公開了使用被估計(jì)者的臉圖像來估計(jì)被估計(jì)者的情緒的裝置。
然而,有時(shí)懷有一種情緒且正在講話的狀態(tài)下的被估計(jì)者的口的形狀、和懷有其他情緒且未在講話的狀態(tài)系的被估計(jì)者的口的形狀類似。在這樣的情況下,特開2014-178970號公報(bào)所公開的裝置,會將懷有一種情緒且正在講話的狀態(tài)下的被估計(jì)者的表情誤認(rèn)識為懷有其他情緒且未在講話的狀態(tài)下的被估計(jì)者的表情,沒法防止不正確地估計(jì)被估計(jì)者的情緒。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明鑒于上述狀況而提出,目的在于,使用被估計(jì)者的臉圖像以高的精度估計(jì)被估計(jì)者的情緒。
本發(fā)明的情緒估計(jì)裝置的特征在于,具備:講話判定單元,其判定在拍攝被估計(jì)者的臉圖像時(shí)所述被估計(jì)者是否正在講話;和情緒估計(jì)單元,其基于所述講話判定單元的判定結(jié)果來執(zhí)行利用了所述被估計(jì)者的臉圖像的情緒估計(jì)處理,由此估計(jì)所述被估計(jì)者的情緒。
本發(fā)明的情緒估計(jì)方法的特征在于,包括:講話判定步驟,判定在拍攝被估計(jì)者的臉圖像時(shí)所述被估計(jì)者是否正在講話;和情緒估計(jì)步驟,基于所述講話判定步驟的判定結(jié)果來執(zhí)行利用了所述被估計(jì)者的臉圖像的情緒估計(jì)處理,由此估計(jì)所述被估計(jì)者的情緒。
附圖說明
圖1是表示本發(fā)明的實(shí)施方式所涉及的情緒估計(jì)裝置的物理構(gòu)成的一例的框圖。
圖2是表示本發(fā)明的實(shí)施方式所涉及的情緒估計(jì)裝置的功能構(gòu)成的一例的框圖。
圖3是用于說明本發(fā)明的實(shí)施方式所涉及的情緒認(rèn)識模型生成裝置所執(zhí)行的情緒認(rèn)識模型生成處理的流程圖。
圖4a是用來說明用于生成第1情緒認(rèn)識模型的情緒認(rèn)識模型生成處理的圖。
圖4b是用來說明用于生成第2情緒認(rèn)識模型的情緒認(rèn)識模型生成處理的圖。
圖5是表示本發(fā)明的實(shí)施方式所涉及的情緒認(rèn)識模型的結(jié)構(gòu)例的框圖。
圖6是用于說明本發(fā)明的實(shí)施方式所涉及的情緒估計(jì)裝置所執(zhí)行的情緒估計(jì)處理的流程圖。
圖7是用于說明本發(fā)明的變形例所涉及的情緒估計(jì)裝置所執(zhí)行的情緒估計(jì)處理的流程圖。
具體實(shí)施方式
以下參考附圖來詳細(xì)說明本發(fā)明的實(shí)施方式所涉及的情緒估計(jì)裝置的功能以及動作。圖中對彼此相同或同等的部分標(biāo)注相同標(biāo)號。
情緒估計(jì)裝置使用被估計(jì)者的臉圖像來估計(jì)被估計(jì)者的情緒。
情緒估計(jì)裝置1如圖1所示那樣,具備centralprocessingunit(中央處理器,以下稱作cpu)10、存儲部20、輸入部30、輸出部40和外部接口50。
cpu10執(zhí)行存儲于存儲部20的各種程序。具體地,cpu10通過執(zhí)行存儲于存儲部20的控制程序21來控制情緒估計(jì)裝置1整體。另外,cpu10通過執(zhí)行存儲于存儲部20的情緒估計(jì)程序22而實(shí)現(xiàn)后述的講話判定部100以及情緒估計(jì)部110的功能。
存儲部20具備ram(randomaccessmemory,隨機(jī)存取存儲器),作為cpu10的工作內(nèi)存發(fā)揮功能。另外,存儲部20具備rom(read-onlymemory,只讀存儲器)和硬盤驅(qū)動器等非易失性存儲器,存儲各種數(shù)據(jù)以及各種程序。具體地,在本實(shí)施方式中,存儲部20存儲控制程序21、情緒估計(jì)程序22、被估計(jì)者的臉圖像23、周邊聲音數(shù)據(jù)24、第1情緒認(rèn)識模型25和第2情緒認(rèn)識模型26。
控制程序21是用于控制情緒估計(jì)裝置1整體的程序。情緒估計(jì)程序22是用于實(shí)現(xiàn)后述的講話判定部100以及情緒估計(jì)部110的功能的程序。被估計(jì)者的臉圖像23是表征被估計(jì)者的臉的圖像。情緒估計(jì)裝置1使用被估計(jì)者的臉圖像23來估計(jì)被估計(jì)者的情緒。周邊聲音數(shù)據(jù)24是表征拍攝被估計(jì)者的臉圖像23時(shí)的被估計(jì)者的周邊的聲音的聲音數(shù)據(jù)。在存儲部20中,被估計(jì)者的臉圖像23和周邊聲音數(shù)據(jù)24相互建立對應(yīng)而存儲。另外,在被估計(jì)者的臉圖像23是靜止圖像數(shù)據(jù)的情況下,周邊聲音數(shù)據(jù)24例如取得拍攝該靜止圖像數(shù)據(jù)的前后數(shù)秒程度的聲音數(shù)據(jù),將靜止圖像數(shù)據(jù)和聲音數(shù)據(jù)相互建立對應(yīng),在被估計(jì)者的臉圖像23是動態(tài)圖象數(shù)據(jù)的情況下,還與該動態(tài)圖象數(shù)據(jù)的取得同時(shí)取得聲音數(shù)據(jù),被估計(jì)者的臉圖像23和周邊聲音數(shù)據(jù)24例如也可以如影片文件數(shù)據(jù)那樣包含在1個(gè)文件數(shù)據(jù)中。關(guān)于第1情緒認(rèn)識模型25以及第2情緒認(rèn)識模型26的詳細(xì),之后敘述。
情緒估計(jì)裝置1預(yù)先取得未圖示的外部的拍攝裝置所拍攝的被估計(jì)者的臉圖像23,存儲于存儲部20。情緒估計(jì)裝置1預(yù)先取得未圖示的外部的錄音裝置所取得的周邊聲音數(shù)據(jù)24,存儲于存儲部20。情緒估計(jì)裝置1預(yù)先取得未圖示的外部的情緒認(rèn)識模型生成裝置所生成的第1情緒認(rèn)識模型25以及第2情緒認(rèn)識模型26,存儲于存儲部20。情緒認(rèn)識模型生成裝置例如是在制造情緒估計(jì)裝置1的工廠設(shè)置的計(jì)算機(jī)。關(guān)于情緒認(rèn)識模型生成裝置所進(jìn)行的第1情緒認(rèn)識模型25以及第2情緒認(rèn)識模型26的生成的詳細(xì),之后敘述。
輸入部30按照用戶的操作而接受輸入。輸入部30將接受到的輸入提供給cpu10。
輸出部40以能由用戶認(rèn)識各種數(shù)據(jù)的方式進(jìn)行輸出。具體地,輸出部40具備未圖示的顯示器,將表征情緒估計(jì)裝置1所估計(jì)的被估計(jì)者的情緒的圖像即情緒圖像顯示在該顯示器。作為情緒圖像的具體例,能舉出表征被估計(jì)者的情緒的文本消息等。
外部接口50在與未圖示的外部的裝置之間交換各種數(shù)據(jù)。具體地,情緒估計(jì)裝置1經(jīng)由外部接口50取得被估計(jì)者的臉圖像23、周邊聲音數(shù)據(jù)24、第1情緒認(rèn)識模型25以及第2情緒認(rèn)識模型26。另外,情緒估計(jì)裝置1將表征估計(jì)出的被估計(jì)者的情緒的信息即情緒信息向未圖示的外部的信息處理裝置送出。
具有上述的物理構(gòu)成的情緒估計(jì)裝置1,在功能上如圖2所示那樣具備講話判定部100和情緒估計(jì)部110。
講話判定部100判定在拍攝被估計(jì)者的臉圖像23時(shí)被估計(jì)者是否正在講話。
具體地,講話判定部100在被估計(jì)者的臉圖像23是靜止圖像數(shù)據(jù)的情況下,將與該靜止圖像數(shù)據(jù)建立對應(yīng)的聲音數(shù)據(jù)作為周邊聲音數(shù)據(jù)24,在被估計(jì)者的臉圖像23例如是影片文件數(shù)據(jù)那樣的動態(tài)圖象數(shù)據(jù)的情況下,將該影片文件數(shù)據(jù)中的聲音數(shù)據(jù)作為周邊聲音數(shù)據(jù)24。并且,若周邊聲音數(shù)據(jù)24的音量不足第1閾值,則判定為被估計(jì)者未正在講話,若周邊聲音數(shù)據(jù)24的音量為第1閾值以上,則判定為被估計(jì)者正在講話。第1閾值用實(shí)驗(yàn)等任意的方法預(yù)先設(shè)定即可。
情緒估計(jì)部110基于講話判定部100的判定結(jié)果來估計(jì)利用了被估計(jì)者的臉圖像23的被估計(jì)者的情緒。
具體地,情緒估計(jì)部110具備基于講話判定部100的判定的結(jié)果來選擇情緒識別模型的模型選擇部110a,執(zhí)行利用了模型選擇部110a所選擇的情緒認(rèn)識模型的情緒估計(jì)處理。在講話判定部100判定為被估計(jì)者未正在講話的情況下,模型選擇部110a選擇第1情緒認(rèn)識模型25。另一方面,在講話判定部100判定為被估計(jì)者正在講話的情況下,模型選擇部110a選擇第2情緒認(rèn)識模型26。
即,在講話判定部100判定為被估計(jì)者未正在講話的情況下,情緒估計(jì)部110執(zhí)行利用了第1情緒認(rèn)識模型25的情緒估計(jì)處理。另一方面,在講話判定部100判定為被估計(jì)者正在講話的情況下,情緒估計(jì)部110執(zhí)行利用了第2情緒認(rèn)識模型26的情緒估計(jì)處理。另外,在被估計(jì)者的臉圖像23是例如影片文件數(shù)據(jù)那樣的動態(tài)圖象數(shù)據(jù)的情況下,有在該動態(tài)圖象數(shù)據(jù)的記錄時(shí)間的期間內(nèi)被估計(jì)者未正在講話的部分和正在講話的部分混合存在的情況,在該情況下,講話判定部100在被估計(jì)者未正在講話的部分判定為被估計(jì)者未正在講話,在正在講話的部分判定為被估計(jì)者正在講話。然后,情緒估計(jì)部110在該動態(tài)圖象數(shù)據(jù)的記錄時(shí)間內(nèi),基于講話判定部100的判定結(jié)果適宜切換第1情緒認(rèn)識模型25和第2情緒認(rèn)識模型26,來執(zhí)行情緒估計(jì)處理。
第1情緒認(rèn)識模型25以及第2情緒認(rèn)識模型26,是用于使用被估計(jì)者的臉圖像來估計(jì)被估計(jì)者的情緒的認(rèn)識模型。第1情緒認(rèn)識模型25是適于在被估計(jì)者未正在講話的情況下進(jìn)行情緒估計(jì)的情緒認(rèn)識模型,第2情緒認(rèn)識模型26是適于在被估計(jì)者正在講話的情況下進(jìn)行情緒估計(jì)的情緒認(rèn)識模型。更具體的,第1情緒認(rèn)識模型25使用被估計(jì)者的臉圖像的包含被估計(jì)者的口區(qū)域的圖像來估計(jì)被估計(jì)者的情緒。第2情緒認(rèn)識模型26使用被估計(jì)者的臉圖像的不含被估計(jì)者的口區(qū)域的圖像來估計(jì)被估計(jì)者的情緒。
第1情緒認(rèn)識模型25以及第2情緒認(rèn)識模型26,在被未圖示的外部的情緒認(rèn)識模型生成裝置生成后,由情緒估計(jì)裝置1取得,存儲于存儲部20。第1情緒認(rèn)識模型25使用多個(gè)學(xué)習(xí)用臉圖像來生成,使用包含各學(xué)習(xí)用臉圖像中的被攝體的口區(qū)域的圖像來生成。第2情緒認(rèn)識模型26使用多個(gè)學(xué)習(xí)用臉圖像來生成,使用不含各學(xué)習(xí)用臉圖像中的被攝體的口區(qū)域的圖像來生成。
[情緒認(rèn)識模型生成處理的實(shí)施方式]
以下參考圖3~圖5來說明情緒認(rèn)識模型生成裝置生成第1情緒認(rèn)識模型25以及第2情緒認(rèn)識模型26的動作。情緒認(rèn)識模型生成裝置通過執(zhí)行圖3的流程圖所示的情緒認(rèn)識模型生成處理來生成第1情緒認(rèn)識模型25以及第2情緒認(rèn)識模型26。
首先說明情緒認(rèn)識模型生成裝置通過執(zhí)行圖3的流程圖所示的情緒認(rèn)識模型生成處理來生成第1情緒認(rèn)識模型25的動作。
設(shè)情緒認(rèn)識模型生成裝置預(yù)先取得外部的拍攝裝置所拍攝的多個(gè)臉圖像,并存儲起來。對這些臉圖像預(yù)先賦予表征各臉圖像中的被攝體的情緒的情緒標(biāo)簽。
情緒認(rèn)識模型生成裝置將存儲的多個(gè)臉圖像當(dāng)中的一部分指定為學(xué)習(xí)用臉圖像,將剩余的臉圖像指定為評價(jià)用臉圖像。
若在該狀態(tài)下,用戶經(jīng)由未圖示的輸入部指示第1情緒認(rèn)識模型25的生成,則情緒認(rèn)識模型生成裝置開始圖3的流程圖所示的情緒認(rèn)識模型生成處理。
首先,情緒認(rèn)識模型生成裝置,分別對學(xué)習(xí)用臉圖像檢測各學(xué)習(xí)用臉圖像的表征被攝體的眼的圖像區(qū)域即眼區(qū)域、各學(xué)習(xí)用臉圖像的表征被攝體的鼻的圖像區(qū)域即鼻區(qū)域和各學(xué)習(xí)用臉圖像的表征被攝體的口的圖像區(qū)域即口區(qū)域(步驟s101)。由于從臉圖像檢測眼區(qū)域、鼻區(qū)域以及口區(qū)域的技術(shù)為公知,因此省略詳細(xì)的說明。
接下來,情緒認(rèn)識模型生成裝置基于在步驟s101檢測到的眼區(qū)域、鼻區(qū)域以及口區(qū)域的位置,來將學(xué)習(xí)用臉圖像分別歸一化(步驟s102)。情緒認(rèn)識模型生成裝置,對在步驟s102中將學(xué)習(xí)用臉圖像歸一化時(shí)所用的參數(shù)即圖像歸一化參數(shù)進(jìn)行存儲。
具體地,情緒認(rèn)識模型生成裝置在生成第1情緒認(rèn)識模型25的情況下,在步驟s102,基于在步驟s101檢測到的眼區(qū)域的位置和口區(qū)域的位置來將學(xué)習(xí)用臉圖像分別歸一化,由此如圖4a所示那樣,將各學(xué)習(xí)用臉圖像包含口區(qū)域那樣地歸一化。情緒認(rèn)識模型生成裝置存儲這時(shí)所用的圖像歸一化參數(shù)。
例如若臉圖像的大小不同,即使是相同的人笑時(shí)的臉,皺紋的長度、粗細(xì)也會變得不同。為此,有可能成為搞錯(cuò)講話時(shí)的情緒認(rèn)識的要因。為了減輕該誤認(rèn)識,進(jìn)行臉圖像的歸一化。
情緒認(rèn)識模型生成裝置對在步驟s102歸一化的學(xué)習(xí)用臉圖像分別算出各學(xué)習(xí)用臉圖像所包含的像素的localbinarypattern(局部二值模式,以下稱作lbp),由此生成lbp圖像(步驟s103)。
情緒認(rèn)識模型生成裝置將在步驟s103生成的lbp圖像分別分割為多個(gè)塊(步驟s104)。情緒認(rèn)識模型生成裝置存儲在步驟s104將lbp圖像分割為多個(gè)塊時(shí)所用的參數(shù)即分割參數(shù)。
例如對于眼區(qū)域,可以對內(nèi)眼角、瞳孔、外眼角這樣進(jìn)一步細(xì)致的部分分割區(qū)域,將歸一化的臉圖像以小矩形區(qū)域瓷磚狀鋪滿那樣進(jìn)行分割。然后,對細(xì)致分割的每個(gè)區(qū)域提取特征量(lbp)。
情緒認(rèn)識模型生成裝置,在對在步驟s104分割的每隔塊生成lbp直方圖的基礎(chǔ)上將全部塊的lbp直方圖連結(jié),由此對在步驟s102歸一化的學(xué)習(xí)用臉圖像分別生成lbp直方圖(步驟s105)。這時(shí),若分割的區(qū)域的像素?cái)?shù)在每個(gè)臉圖像中不同,則需要將直方圖歸一化,以使各區(qū)域的頻度的合計(jì)成為1。
作成直方圖的目的在于,通過將特征量的分布圖形化,變得易于綜合比較生氣時(shí)或開心時(shí)的外眼角的皺紋的朝向等。情緒認(rèn)識模型生成裝置對預(yù)先賦予了情緒標(biāo)簽的每個(gè)學(xué)習(xí)用臉圖像作成lbp直方圖。
情緒認(rèn)識模型生成裝置,使用基于全部學(xué)習(xí)用臉圖像的lbp直方圖取得的參數(shù)來將全部lbp直方圖以維度為單位進(jìn)行歸一化(步驟s106)。情緒認(rèn)識模型生成裝置,存儲將全部lbp直方圖以維度為單位進(jìn)行歸一化時(shí)所用的參數(shù)即直方圖歸一化參數(shù)。
所謂維度歸一化,用于使lbp直方圖的各維度的擴(kuò)展?fàn)顩r不會因不同維度而異。這有助于減輕對情緒識別貢獻(xiàn)大的維度的分布窄、對情緒識別沒有貢獻(xiàn)的維度的分布寬的情況下認(rèn)識性能降低的問題。作為歸一化方法,有基于最大值最小值的歸一化方法、基于平均標(biāo)準(zhǔn)偏差的歸一化方法等。
情緒認(rèn)識模型生成裝置將圖4a所示的在步驟s106以維度為單位進(jìn)行了歸一化的全部學(xué)習(xí)用臉圖像的lbp直方圖(特征量)、和對各學(xué)習(xí)用臉圖像預(yù)先賦予的情緒標(biāo)簽用作示教數(shù)據(jù)來進(jìn)行機(jī)器學(xué)習(xí),生成支持向量機(jī)(supportvectormachine)(步驟s107)。情緒認(rèn)識模型生成裝置存儲定義生成的支持向量機(jī)的參數(shù)即svm參數(shù)。即,情緒認(rèn)識模型生成裝置將預(yù)先賦予了情緒標(biāo)簽的學(xué)習(xí)用臉圖像作為示教數(shù)據(jù),來生成將講話者的講話時(shí)的情緒狀態(tài)識別為例如喜怒哀樂的支持向量機(jī)。另外,在本實(shí)施方式中說明了將歸一化的lbp直方圖用作特征量,但這只是一例。第1情緒認(rèn)識模型25以及第2情緒認(rèn)識模型26能通過對任意的特征量進(jìn)行機(jī)器學(xué)習(xí)來生成。
情緒認(rèn)識模型生成裝置將表示在步驟s102所用的圖像歸一化參數(shù)的信息、表示在步驟s104所用的圖像分割參數(shù)的信息、表示在步驟s106所用的直方圖歸一化參數(shù)的信息和表示在步驟s107取得的svm參數(shù)的信息相互建立對應(yīng),由此生成具有圖5所示的結(jié)構(gòu)的第1情緒認(rèn)識模型25(步驟s108),結(jié)束情緒認(rèn)識模型生成處理。
另外,情緒認(rèn)識模型生成裝置也可以在步驟s108使用評價(jià)用臉圖像來評價(jià)生成的情緒認(rèn)識模型的品質(zhì)。具體地,情緒認(rèn)識模型生成裝置使用生成的情緒認(rèn)識模型來估計(jì)評價(jià)用臉圖像所表征的被攝體的情緒,基于估計(jì)結(jié)果和對該評價(jià)用臉圖像預(yù)先賦予的情緒標(biāo)簽是否一致來評價(jià)情緒認(rèn)識模型的品質(zhì)即可。也可以在評價(jià)的結(jié)果是生成的情緒認(rèn)識模型的品質(zhì)不滿足給定的基準(zhǔn)的情況下,進(jìn)行修正情緒認(rèn)識模型的各參數(shù)的調(diào)諧,或進(jìn)行再度進(jìn)行機(jī)器學(xué)習(xí)來重新定義各參數(shù)的再學(xué)習(xí)。
如以上說明的那樣,情緒認(rèn)識模型生成裝置使用在步驟s102包含口區(qū)域那樣地歸一化的學(xué)習(xí)用臉圖像來生成第1情緒認(rèn)識模型25。即,情緒認(rèn)識模型生成裝置使用多個(gè)學(xué)習(xí)用臉圖像的包含各學(xué)習(xí)用臉圖像中的被攝體的口區(qū)域的圖像來生成第1情緒認(rèn)識模型25。
接下來說明情緒認(rèn)識模型生成裝置通過執(zhí)行圖3的流程圖所示的情緒認(rèn)識模型生成處理來生成第2情緒認(rèn)識模型26的動作。
情緒認(rèn)識模型生成裝置通過執(zhí)行與生成上述的第1情緒認(rèn)識模型25時(shí)的步驟s101~s108的處理大致相同的處理,來生成第2情緒認(rèn)識模型26。但步驟s102的處理部分不同。
具體地,情緒認(rèn)識模型生成裝置在生成第2情緒認(rèn)識模型26的情況下,在步驟s102基于在步驟s101檢測到的眼區(qū)域的位置和鼻區(qū)域的位置將學(xué)習(xí)用臉圖像分別歸一化,由此如圖4b所示那樣,將各學(xué)習(xí)用臉圖像不含口區(qū)域那樣地歸一化。情緒認(rèn)識模型生成裝置存儲這時(shí)所用的圖像歸一化參數(shù)。
情緒認(rèn)識模型生成裝置使用在步驟s102不含口區(qū)域地歸一化的學(xué)習(xí)用臉圖像來執(zhí)行步驟s103~s108的處理,由此生成具有圖5所示的結(jié)構(gòu)的第2情緒認(rèn)識模型26。即,情緒認(rèn)識模型生成裝置將表征各臉圖像中的被攝體的口的圖像區(qū)域即口區(qū)域除外來使用多個(gè)臉圖像,來生成第2情緒認(rèn)識模型26。
另外,在本實(shí)施方式中說明了個(gè)別生成第1情緒認(rèn)識模型25和第2情緒認(rèn)識模型26,但這只是一例。第1情緒認(rèn)識模型25和第2情緒認(rèn)識模型26也可以使用共通的學(xué)習(xí)用臉圖像通過1個(gè)處理匯總生成。
[情緒估計(jì)處理的實(shí)施方式]
以下參考圖6,來說明具有上述的物理、功能構(gòu)成的情緒估計(jì)裝置1使用被估計(jì)者的臉圖像23估計(jì)被估計(jì)者的情緒的動作。情緒估計(jì)裝置1通過執(zhí)行圖6的流程圖所示的情緒估計(jì)處理,來使用被估計(jì)者的臉圖像23估計(jì)被估計(jì)者的情緒。
情緒估計(jì)裝置1經(jīng)由外部接口50預(yù)先取得被估計(jì)者的臉圖像23、周邊聲音數(shù)據(jù)24、第1情緒認(rèn)識模型25以及第2情緒認(rèn)識模型26,存儲于存儲部20。在存儲部20中,被估計(jì)者的臉圖像23和周邊聲音數(shù)據(jù)24相互建立對應(yīng)而存儲。
若在該狀態(tài)下,由希望估計(jì)被估計(jì)者的情緒的用戶經(jīng)由輸入部30指示情緒的估計(jì),則cpu10響應(yīng)于該指示而開始圖6的流程圖所示的情緒估計(jì)處理。
首先,講話判定部100判定在拍攝被估計(jì)者的臉圖像23時(shí)被估計(jì)者是否正在講話(步驟s201)。具體地,若周邊聲音數(shù)據(jù)24的音量不足第1閾值,則講話判定部100判定為被估計(jì)者未正在講話,若周邊聲音數(shù)據(jù)24的音量為第1閾值以上,則講話判定部100判定為被估計(jì)者正在講話。
模型選擇部110a基于步驟s201中的判定結(jié)果來選擇第1情緒認(rèn)識模型25和第2情緒認(rèn)識模型26當(dāng)中的任一者(步驟s202)。具體地,在講話判定部100在步驟s201判定為被估計(jì)者未正在講話的情況下,模型選擇部110a選擇第1情緒認(rèn)識模型25,在步驟s201中判定為被估計(jì)者正在講話的情況下,模型選擇部110a選擇第2情緒認(rèn)識模型26。
情緒估計(jì)部110檢測被估計(jì)者的臉圖像23的表征眼的圖像區(qū)域即眼區(qū)域、表征被估計(jì)者的鼻的圖像區(qū)域即鼻區(qū)域和表征被估計(jì)者的口的圖像區(qū)域即口區(qū)域(步驟s203),基于檢測到的眼區(qū)域、鼻區(qū)域以及口區(qū)域的位置,使用在步驟s202選擇的情緒認(rèn)識模型所包含的圖像歸一化參數(shù)來將被估計(jì)者的臉圖像23歸一化(步驟s204)。
具體地,在步驟s202中由模型選擇部110a選擇第1情緒認(rèn)識模型25的情況下,情緒估計(jì)部110在步驟s204使用第1情緒認(rèn)識模型25所包含的圖像歸一化參數(shù)來將被估計(jì)者的臉圖像23歸一化,由此將被估計(jì)者的臉圖像23包含表征被估計(jì)者的口的圖像區(qū)域那樣地歸一化。另外,在步驟s202中由模型選擇部110a選擇第2情緒認(rèn)識模型26的情況下,情緒估計(jì)部110在步驟s204使用第2情緒認(rèn)識模型26所包含的圖像歸一化參數(shù)來將被估計(jì)者的臉圖像23歸一化,由此將被估計(jì)者的臉圖像23不含表征被估計(jì)者的口的圖像區(qū)域那樣地歸一化。
情緒估計(jì)部110算出在步驟s204歸一化的被估計(jì)者的臉圖像23所含的全部像素的lbp,由此生成lbp圖像(步驟s205)。
情緒估計(jì)部110使用在步驟s202選擇的情緒認(rèn)識模型所包含的分割參數(shù),將在步驟s205生成的lbp圖像分割為多個(gè)塊(步驟s206)。具體地,在步驟s202中由模型選擇部110a選擇第1情緒認(rèn)識模型25的情況下,情緒估計(jì)部110使用第1情緒認(rèn)識模型25所包含的分割參數(shù)來分割lbp圖像。另外,在步驟s202中由模型選擇部110a選擇第2情緒認(rèn)識模型26的情況下,情緒估計(jì)部110使用第2情緒認(rèn)識模型26所包含的分割參數(shù)來分割lbp圖像。
情緒估計(jì)部110在對步驟s206中分割的每個(gè)塊生成lbp直方圖的基礎(chǔ)上將全塊的lbp直方圖連結(jié),由此對在步驟s204歸一化的被估計(jì)者的臉圖像23生成lbp直方圖(步驟s207)。
情緒估計(jì)部110,使用在步驟s202選擇的情緒認(rèn)識模型所包含的直方圖歸一化參數(shù),對在步驟s207生成的lbp直方圖以維度為單位進(jìn)行歸一化(步驟s208)。具體地,在步驟s202中由模型選擇部110a選擇第1情緒認(rèn)識模型25的情況下,情緒估計(jì)部110使用第1情緒認(rèn)識模型25所包含的直方圖歸一化參數(shù)來將lbp直方圖歸一化。另外,在步驟s202中由模型選擇部110a選擇第2情緒認(rèn)識模型26的情況下,情緒估計(jì)部110使用第2情緒認(rèn)識模型26所包含的直方圖歸一化參數(shù)來將lbp直方圖歸一化。
情緒估計(jì)部110使用在步驟s208歸一化的lbp直方圖和以在步驟s202選擇的情緒認(rèn)識模型所包含的svm參數(shù)定義的支持向量機(jī),來估計(jì)被估計(jì)者的情緒(步驟s209)。具體地,在步驟s202中由模型選擇部110a選擇第1情緒認(rèn)識模型25的情況下,情緒估計(jì)部110使用以第1情緒認(rèn)識模型25所包含的svm參數(shù)定義的支持向量機(jī)來估計(jì)被估計(jì)者的情緒。另外,在步驟s202中由模型選擇部110a選擇第2情緒認(rèn)識模型26的情況下,情緒估計(jì)部110使用以第2情緒認(rèn)識模型26所包含的svm參數(shù)定義的支持向量機(jī)來估計(jì)被估計(jì)者的情緒。
即,情緒估計(jì)部110與情緒認(rèn)識模型生成裝置生成情緒認(rèn)識模型時(shí)同樣地將被估計(jì)者的臉圖像23分割為眼、鼻、口等的區(qū)域。然后,進(jìn)一步如內(nèi)眼角、外眼角那樣將區(qū)域細(xì)分化。然后,對細(xì)分化的每個(gè)區(qū)域,與情緒認(rèn)識模型生成裝置同樣地生成lbp直方圖,從而進(jìn)行維度歸一化。然后將歸一化的lbp直方圖作為被估計(jì)者的臉圖像23的特征數(shù)據(jù),使用情緒識別模型內(nèi)的svm,識別該特征數(shù)據(jù)屬于喜怒哀樂哪種情緒狀態(tài)的臉圖像。
情緒估計(jì)部110將表征在步驟s209估計(jì)出的被估計(jì)者的情緒的文本消息作為情緒圖像顯示在輸出部40的顯示器,將表征在步驟s209估計(jì)出的被估計(jì)者的情緒的情緒信息,經(jīng)由外部接口50向未圖示的外部的信息處理裝置送出(步驟s210),并結(jié)束情緒估計(jì)處理。
如以上說明的那樣,情緒估計(jì)裝置1按照是否由講話判定部100判定為拍攝被估計(jì)者的臉圖像23時(shí)被估計(jì)者正在講話,來執(zhí)行利用了被估計(jì)者的臉圖像23的相互不同的情緒估計(jì)處理。由此,情緒估計(jì)裝置1能使用被估計(jì)者的臉圖像23以高的精度估計(jì)被估計(jì)者的情緒。
以上說明了本發(fā)明的實(shí)施方式,但本實(shí)施方式只是一例,本發(fā)明的范圍并不限定于本實(shí)施方式。本發(fā)明能以種種形態(tài)實(shí)施,所有的實(shí)施方式均包含在本發(fā)明的范圍中。
在上述的實(shí)施方式中,情緒估計(jì)裝置1預(yù)先取得未圖示的外部的拍攝裝置所拍攝的被估計(jì)者的臉圖像23和未圖示的外部的錄音裝置所取得的拍攝該臉圖像23時(shí)的被估計(jì)者的周邊聲音數(shù)據(jù)24,將被估計(jì)者的臉圖像23和周邊聲音數(shù)據(jù)24相互建立對應(yīng)并存儲在存儲部20。但這只是一例。情緒估計(jì)裝置1能用任意的方法取得被估計(jì)者的臉圖像23和周邊聲音數(shù)據(jù)24。
例如情緒估計(jì)裝置1具備未圖示的拍攝單元,使用該拍攝單元拍攝被估計(jì)者的臉來取得被估計(jì)者的臉圖像23即可。另外,情緒估計(jì)裝置1具備未圖示的聲音輸入單元,使用該聲音輸入單元取得表征由拍攝單元拍攝被估計(jì)者的臉圖像23時(shí)被估計(jì)者的周邊的聲音的聲音數(shù)據(jù),作為周邊聲音數(shù)據(jù)24即可。在該情況下,情緒估計(jì)裝置1也可以一直進(jìn)行被估計(jì)者的臉圖像23和被估計(jì)者的周邊聲音的取得、和基于被估計(jì)者的講話的有無的利用了被估計(jì)者的臉圖像23的該被估計(jì)者的情緒認(rèn)識。
在上述的實(shí)施方式中,第1情緒認(rèn)識模型25以及第2情緒認(rèn)識模型26通過圖3的流程圖所示的情緒認(rèn)識模型生成處理生成,具有圖5所示的結(jié)構(gòu)。但這只是一例。第1情緒認(rèn)識模型25只要是使用被估計(jì)者的臉圖像的包含被估計(jì)者的口區(qū)域的圖像來估計(jì)被估計(jì)者的情緒的認(rèn)識模型即可,可以是用任意的方法生成的、具有任意的結(jié)構(gòu)的認(rèn)識模型。第2情緒認(rèn)識模型26只要是使用被估計(jì)者的臉圖像的不含被估計(jì)者的口區(qū)域的圖像來估計(jì)被估計(jì)者的情緒的認(rèn)識模型即可,可以是用任意的方法生成的、具有任意的結(jié)構(gòu)的認(rèn)識模型。
在上述的實(shí)施方式中,若周邊聲音數(shù)據(jù)24的音量不足第1閾值,則講話判定部100判定為被估計(jì)者未正在講話,若周邊聲音數(shù)據(jù)24的音量為第1閾值以上,則講話判定部100判定為被估計(jì)者正在講話。但這只是一例。講話判定部100能用任意的方法判定在拍攝被估計(jì)者的臉圖像23時(shí)被估計(jì)者是否正在講話。
例如,講話判定部100基于周邊聲音數(shù)據(jù)24與元音聲音數(shù)據(jù)以及輔音聲音數(shù)據(jù)之間的類似度來判定被估計(jì)者是否正在講話即可。另外,元音聲音數(shù)據(jù)是表征元音的聲音數(shù)據(jù),輔音聲音數(shù)據(jù)是表征輔音的聲音數(shù)據(jù)。具體地,若周邊聲音數(shù)據(jù)24與元音聲音數(shù)據(jù)之間的類似度、和周邊聲音數(shù)據(jù)24與輔音聲音數(shù)據(jù)之間的類似度當(dāng)中至少任意一方不足第2閾值,則講話判定部100判定為被估計(jì)者未正在講話即可。另外,若周邊聲音數(shù)據(jù)24與元音聲音數(shù)據(jù)之間的類似度、和周邊聲音數(shù)據(jù)24與輔音聲音數(shù)據(jù)之間的類似度當(dāng)中至少任意一方為第2閾值以上,則講話判定部100判定為被估計(jì)者正在講話即可。另外,第2閾值能通過實(shí)驗(yàn)等任意的方法預(yù)先設(shè)定。
或者,講話判定部100也可以從外部取得表示拍攝被估計(jì)者的臉圖像23時(shí)被估計(jì)者是否正在講話的講話信息,基于該講話信息來判定被估計(jì)者是否正在講話。講話判定部100能用任意的方法取得講話信息。例如,講話判定部100取得用戶使用輸入部30輸入的表示拍攝被估計(jì)者的臉圖像23時(shí)被估計(jì)者是否正在講話的信息,作為講話信息。
[情緒估計(jì)處理的變形例]
在上述的實(shí)施方式中,情緒估計(jì)部110在講話判定部100判定為被估計(jì)者未正在講話的情況下、和講話判定部100判定為被估計(jì)者正在講話的情況下,執(zhí)行利用被估計(jì)者的臉圖像23的相互不同的情緒估計(jì)處理。具體地,在講話判定部100判定為被估計(jì)者未正在講話的情況下,情緒估計(jì)部110選擇第1情緒認(rèn)識模型25來執(zhí)行情緒估計(jì)處理,在講話判定部100判定為被估計(jì)者正在講話的情況下,情緒估計(jì)部110選擇第2情緒認(rèn)識模型26來執(zhí)行情緒估計(jì)處理。
在情緒估計(jì)處理的變形例中,在講話判定部100判定為被估計(jì)者未正在講話的情況下,情緒估計(jì)部110執(zhí)行利用了被估計(jì)者的臉圖像23的情緒估計(jì)處理,在講話判定部100判定為被估計(jì)者正在講話的情況下,情緒估計(jì)部110不進(jìn)行利用了被估計(jì)者的臉圖像23的情緒估計(jì)處理,如此地動作。
以下參考圖7來說明情緒估計(jì)處理的變形例。
首先,講話判定部100判定拍攝被估計(jì)者的臉圖像23時(shí)被估計(jì)者是否正在講話(步驟s301)。本處理是與第1實(shí)施方式中的步驟s201相同的處理。
情緒估計(jì)部110在步驟s301的判定結(jié)果中判定為被估計(jì)者未正在講話的情況下(步驟s302:“是”),執(zhí)行利用了被估計(jì)者的臉圖像23的情緒估計(jì)處理(步驟s303)。具體地,使用第1情緒認(rèn)識模型25進(jìn)行第1實(shí)施方式中的步驟s203~步驟s210的處理,之后結(jié)束情緒估計(jì)處理。
另外,情緒估計(jì)部110在步驟s301的判定結(jié)果中判定為被估計(jì)者正在講話的情況下(步驟s302:“否”),不執(zhí)行利用了被估計(jì)者的臉圖像23的情緒估計(jì)處理(禁止利用了被估計(jì)者的臉圖像23的情緒估計(jì)處理的執(zhí)行)而結(jié)束情緒估計(jì)處理。另外,在本實(shí)施方式中,說明了在判定為被估計(jì)者正在講話的情況下不執(zhí)行利用了被估計(jì)者的臉圖像23的情緒估計(jì)處理而結(jié)束情緒估計(jì)處理,但這只是一例。還能在判定為被估計(jì)者正在講話的情況下,不執(zhí)行利用了被估計(jì)者的臉圖像23的情緒估計(jì)處理(禁止利用被估計(jì)者的臉圖像23的情緒估計(jì)處理的執(zhí)行),而執(zhí)行不用被估計(jì)者的臉圖像23的任意的情緒估計(jì)處理,由此估計(jì)被估計(jì)者的情緒。例如在判定為被估計(jì)者正在講話的情況下,不執(zhí)行利用了被估計(jì)者的臉圖像23的情緒估計(jì)處理,而是使用周邊聲音數(shù)據(jù)24所表征的被估計(jì)者的聲音來估計(jì)被估計(jì)者的情緒即可。使用被估計(jì)者的聲音來估計(jì)被估計(jì)者的情緒的技術(shù)由于在該技術(shù)領(lǐng)域中周知,因此省略詳細(xì)的說明。
另外,情緒估計(jì)部110也可以在判定為被估計(jì)者正在講話的情況下執(zhí)行利用了被估計(jì)者的臉圖像23的情緒估計(jì)處理。具體地,可以使用第2情緒認(rèn)識模型26進(jìn)行第1實(shí)施方式中的步驟s203~步驟s210的處理,在判定為被估計(jì)者未正在講話的情況下,不執(zhí)行利用了被估計(jì)者的臉圖像23的情緒估計(jì)處理而結(jié)束情緒估計(jì)處理。
如以上說明的那樣,情緒估計(jì)裝置1由于在估計(jì)利用被估計(jì)者的臉圖像23的被估計(jì)者的情緒時(shí),進(jìn)行不影響到被估計(jì)者的講話的有無的情緒估計(jì),因此能以高的精度估計(jì)被估計(jì)者的情緒。
在上述的實(shí)施方式以及變形例中,情緒估計(jì)裝置1在輸出部40所具備的顯示器顯示情緒圖像,經(jīng)由外部接口50送出情緒信息,由此輸出情緒估計(jì)處理的結(jié)果。但這只是一例。情緒估計(jì)裝置1能用任意的方法輸出情緒估計(jì)處理的結(jié)果。例如情緒估計(jì)裝置1的輸出部40具備未圖示的揚(yáng)聲器,將表征情緒估計(jì)裝置1所估計(jì)出的被估計(jì)者的情緒的聲音即情緒聲音從該揚(yáng)聲器輸出即可。
本發(fā)明所涉及的情緒估計(jì)裝置能通過計(jì)算機(jī)、便攜電話、智能手機(jī)、攝像機(jī)、pda(personaldigitalassistant,個(gè)人數(shù)字助理)等任意的電子設(shè)備實(shí)現(xiàn)。具體地,通過將用于使這些電子設(shè)備作為本發(fā)明所涉及的情緒估計(jì)裝置而動作的程序存放在這些電子設(shè)備可讀的記錄介質(zhì)(例如存儲卡或cd-rom(compactdiscread-onlymemory,只讀光盤)、dvd-rom(digitalversatilediscread-onlymemory,數(shù)字多功能盤)等)來進(jìn)行分發(fā),并安裝在這些電子設(shè)備中,由此能實(shí)現(xiàn)本發(fā)明所涉及的情緒估計(jì)裝置。
或者,也可以將上述程序存放在互聯(lián)網(wǎng)等通信網(wǎng)絡(luò)上的服務(wù)器裝置所具有的存儲裝置(例如盤裝置等)中,通過計(jì)算機(jī)、便攜電話、智能手機(jī)、攝像機(jī)、pda等電子設(shè)備下載該程序來實(shí)現(xiàn)本發(fā)明所涉及的情緒估計(jì)裝置。
另外,在通過os(operatingsystem,操作系統(tǒng))和應(yīng)用程序的協(xié)作或分擔(dān)來實(shí)現(xiàn)本發(fā)明所涉及的情緒估計(jì)裝置的功能的情況下,也可以僅將應(yīng)用程序部分存放在記錄介質(zhì)或存儲裝置。
另外,也可以將應(yīng)用程序疊加到載波,經(jīng)由通信網(wǎng)絡(luò)發(fā)布。例如可以在通信網(wǎng)絡(luò)上的布告牌(bbs:bulletinboardsystem)布告應(yīng)用程序,經(jīng)由網(wǎng)絡(luò)發(fā)布應(yīng)用程序。然后將該應(yīng)用程序安裝在計(jì)算機(jī)并起動,在os的控制下與其他應(yīng)用程序同樣地執(zhí)行,由此實(shí)現(xiàn)本發(fā)明所涉及的情緒估計(jì)裝置。