專利名稱:虛擬電視通話裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種帶顯示裝置的通信終端裝置的虛擬電視通話裝置,目的在于使用者通過虛擬的三維CG(計算機(jī)制圖)角色(character),視覺地享受語音對話。
背景技術(shù):
以前,被稱為電視通信的裝置是指在帶相機(jī)和顯示裝置的電話裝置彼此間,一邊看著相機(jī)拍攝的通話對方的臉的圖像,一邊通話的裝置。通常,為了減少傳送量,壓縮拍攝的臉圖像數(shù)據(jù),并與語音數(shù)據(jù)多路復(fù)用后傳送給接收者。接收者側(cè)將多路復(fù)用數(shù)據(jù)分離為語音數(shù)據(jù)和壓縮后的圖像數(shù)據(jù),拉伸圖像數(shù)據(jù)后,與語音數(shù)據(jù)取得同步,進(jìn)行語音輸出和圖像顯示。最近,基于MPEG-4(移動圖像專家組階段4)的標(biāo)準(zhǔn)圖像壓縮規(guī)格,開發(fā)出針對下一代移動通信的稱為可視電話的便攜電話(參照非專利文獻(xiàn)NIKKEIELECTRONICS 1999.11.1(NO.765),pp99-117)。
另一方面,如上所述在多路復(fù)用圖像后發(fā)送的情況下,必需去掉現(xiàn)有語音通信框架的寬帶通信規(guī)格和實(shí)現(xiàn)它的基本設(shè)施。因此,根據(jù)這種圖案壓縮方法,僅通過語音數(shù)據(jù)通信就可模擬實(shí)現(xiàn)電視通信和類似功能(參照專利文獻(xiàn)特開昭62-274962)。該發(fā)明在電話中保持事先將對方臉圖案加工成沒有口的狀態(tài)的臉靜止圖像和形成“あ”、“い”、“う”…等元音(母音)的發(fā)音狀態(tài)的口形的靜止圖像。使用語音識別技術(shù)對從對方發(fā)送來的語音數(shù)據(jù)進(jìn)行發(fā)送來的語音的元音分析,根據(jù)分析結(jié)果,隨時顯示將口形數(shù)據(jù)與臉圖像合成后的圖像,顯示對方說話的狀態(tài)。該發(fā)明的優(yōu)點(diǎn)在于可在通常的語音通信框架中實(shí)現(xiàn)模擬電視通信,但使用者對口以外不動的靜止畫面感到不適,另外,對是否感覺為與本人對話存在疑問。
從語音通信框架引伸出通過發(fā)送圖像來減少數(shù)據(jù)量,與圖像識別技術(shù)相組合的發(fā)明(參照專利文獻(xiàn)特開平05-153581)。在該發(fā)明中,通過圖像識別,識別表情和口形,參數(shù)化后與語音數(shù)據(jù)一起發(fā)送。在接收側(cè),事先保持對方的三維模型,在輸出語音時,根據(jù)接收到的參數(shù)來變形三維模型后進(jìn)行顯示。
上述三種技術(shù)任一種的目的都在于一邊看著通信對方的臉一邊對話,而不是以提高對話自身娛樂性為目的。
上面涉及所謂電話技術(shù),但隨著因特網(wǎng)的普及,基于文字的對話成為主體,但也可能通過個人計算機(jī)進(jìn)行對話。其中,使自己的代理CG(計算機(jī)制圖)角色加入共同的虛擬空間中,在虛擬空間中通過其代理CG角色,與加入其中的其他人的代理CG角色進(jìn)行對話(參照美國專利5880731)。該發(fā)明的目的在于在自己具有匿名性的狀態(tài)下與對方進(jìn)行對話,因?yàn)樵谂c現(xiàn)實(shí)的自己游離的狀態(tài)下參加,所以多是享受包含虛偽的不真實(shí)對話。另外,代理CG角色由于用作進(jìn)行通信的本人選擇的自己替身,所以被稱為化身(Avatar)。該化身是參加者自身選擇的,所以對話對方不能變更該化身的角色。另外,該化身自身只是用于其他參加者特定對方,所以也不必變更。實(shí)現(xiàn)的問題在于除參加者的終端計算機(jī)(客戶計算機(jī))外,必需具有服務(wù)器計算機(jī),其進(jìn)行參加者招募的共同虛擬空間的管理控制和參加者的狀態(tài)控制、它們的信息通知等。
在例如因特網(wǎng)上的Extempo Systems公司的主頁上,公開了所謂與虛擬的CG角色進(jìn)行對話的技術(shù)。其中,使用者與網(wǎng)上的專門角色進(jìn)行對話,這是基本文字的對話,而不是語音對話。
另外,在技術(shù)上事先形成用關(guān)鍵字對對話字典進(jìn)行分類的字典,針對對方的對話內(nèi)容,分析對分類后的關(guān)鍵字的適合性,并通過顯示最適合的對話文件,使CG角色與人的對話成立。因?yàn)槿说睦斫饽芰Ω?,雖然可以通過適當(dāng)文件進(jìn)行對話,但因?yàn)閷υ捨募?shù)量遠(yuǎn)遠(yuǎn)高于登錄數(shù)量,所以在進(jìn)行幾次對話處理中,引起文件往返緩慢。雖然存在所謂的與虛擬CG角色對話的這種新的娛樂性,但其與實(shí)際的人進(jìn)行的對話,在彈性或多樣性、適當(dāng)性、個性方面大不相同。這種技術(shù)的目標(biāo)在于如何貼近現(xiàn)實(shí)的人的對話能力。
總結(jié)上述現(xiàn)有技術(shù)的特征,上述從最初開始的三個技術(shù)的任意一種都是對想一邊看著通信對方的臉一邊對話的要求所作的發(fā)明,目的在于一邊確認(rèn)通信對方的表情或狀態(tài)等一邊進(jìn)行對話。因此,其目的不是使接聽者獨(dú)自地發(fā)揮任何作用,以加工顯示圖像和語音來提高娛樂性,另外也未公開該技術(shù)。
下面,第四個現(xiàn)有實(shí)例使自己選擇的CG角色加入虛擬共用空間,具有匿名性,但由于具有匿名性,所以可以享受沒有回避的真實(shí)聲音的對話和不真實(shí)、虛偽的對話。因此,對話對方的CG角色只需要被簡單地特定即可,對對話對方的CG角色和語音不起任何作用,不是享受提高娛樂性的對話的。第五個現(xiàn)有實(shí)例可進(jìn)行與具有人工智能的對話設(shè)備的虛擬CG角色進(jìn)行對話,與實(shí)際的人的對話不相似,在彈性和多樣性、適當(dāng)性、個性方面與實(shí)際的人的對話區(qū)別較大。
發(fā)明內(nèi)容
因此,鑒于上述問題,本發(fā)明的目的在于提供一種帶顯示功能的通信終端,將通信對方顯示為接聽者選擇的虛擬三維CG角色,利用通信對方的對話,進(jìn)行虛擬的三維CG角色和語音對話。由此,通過與所謂“可以看通信對方的臉或看類似圖像”、“完成變?yōu)椴徽鎸?shí)角色”的功能不同的方法,可實(shí)現(xiàn)提高語音對話娛樂性的新的通信終端。
另外,本發(fā)明的目的在于提供一種帶顯示裝置的通話裝置,其不象上述現(xiàn)有技術(shù)那樣使用象服務(wù)器這樣的裝置來實(shí)現(xiàn)虛擬空間中的對話。
另外,本發(fā)明的目的還在于提供一種新的通話裝置,其通過三維CG角色進(jìn)行適于通話中對話的感情表現(xiàn)。
為了實(shí)現(xiàn)上述目的,本發(fā)明的虛擬電視通話裝置的特征在于具備通信單元,進(jìn)行語音通信;角色選擇單元,選擇使用者本人或通信對方至少一方的CG角色形狀數(shù)據(jù);語音輸入單元,輸入上述使用者本人語音;語音輸出單元,輸出通信對方的語音;語音分析單元,對上述通信單元接收的通信對方的語音數(shù)據(jù)或上述接收的通信對方語音數(shù)據(jù),與上述語音輸入單元輸入的使用者本人的語音數(shù)據(jù)兩者進(jìn)行語音分析;感情推定單元,使用上述語音分析單元的語音分析結(jié)果,推定通信對方或通信對方和使用者本人的感情狀態(tài);動作控制單元,根據(jù)上述感情推定單元進(jìn)行上述CG角色的動作控制;描繪單元,使用根據(jù)上述CG角色形狀數(shù)據(jù)和上述動作控制單元的控制信息生成的動作數(shù)據(jù),進(jìn)行描繪處理,生成圖像;和顯示單元,顯示上述描繪單元生成的圖像。
另外,本發(fā)明的虛擬電視通話裝置的特征在于上述感情推定單元向上述動作控制單元通知該感情推定單元的推定結(jié)果,上述動作控制單元基于該通知結(jié)果來特定上述動作數(shù)據(jù)。
另外,本發(fā)明不僅可作為上述虛擬電視通話裝置來實(shí)現(xiàn),而且還可作為將上述虛擬電視通話裝置具備的單元形成為步驟的虛擬電視通信方法來實(shí)現(xiàn),還可作為使用該步驟的虛擬電視通信系統(tǒng)來實(shí)現(xiàn)。
另外,不用說,也可作為由計算機(jī)等實(shí)現(xiàn)上述虛擬電視通信方法的程序來實(shí)現(xiàn),可通過CD-ROM等存儲媒體或通信網(wǎng)絡(luò)等傳輸媒體來流通該程序。
圖1是表示本發(fā)明實(shí)施例1的虛擬電視通話裝置結(jié)構(gòu)的框圖。
圖2是表示本發(fā)明實(shí)施例2的虛擬電視通話裝置結(jié)構(gòu)的框圖。
圖3是本發(fā)明CG角色數(shù)據(jù)管理表和CG角色選擇畫面的說明圖。
圖4(a)是本發(fā)明的通信管理表、CG數(shù)據(jù)管理表、語音管理表的說明圖。
圖4(b)是本發(fā)明的設(shè)定時的動作流程圖。
圖5(a)是本發(fā)明的音強(qiáng)度分析和嘴唇動作的說明圖。
圖5(b)是本發(fā)明的音素分析和嘴唇動作的說明圖。
圖6(a)是本發(fā)明的表情動作變遷的說明圖。
圖(b)是本發(fā)明的身體動作變遷的說明圖。
圖7是關(guān)于本發(fā)明的流水線處理和延遲的說明圖。
圖8(a)表示本發(fā)明的虛擬電視通信的示意圖。(b)表示本發(fā)明的虛擬電視通信的示意圖。
圖9是表示使用頻率信號的感情推定方法的處理順序的流程圖。
圖10(a)是表示本發(fā)明實(shí)施例1和2以外的其它利用方式的參考圖。
圖10(b)是表示本發(fā)明實(shí)施例1和2以外的其它利用方式的參考圖。
圖11是表示在本發(fā)明的虛擬電視通話裝置的功能框圖中加入傳感器部后的框圖。
圖12(a)是表示為了感情推定而具備各種傳感器部的便攜電話使用例的圖。
圖12(b)是表示為了感情推定而具備各種傳感器的便攜電話的參考圖。
具體實(shí)施例方式
實(shí)施例1下面,參照附圖來說明本發(fā)明實(shí)施例1的虛擬電視通話裝置。
圖1表示本發(fā)明實(shí)施例1的虛擬電視通話裝置的結(jié)構(gòu)。該虛擬電視通話裝置包括通信部1、角色背景選擇輸入部2、數(shù)據(jù)管理部3、語音選擇輸入部4、語音處理部5、語音變換部6、語音輸出部7、語音輸入部8、語音分析部9、感情推定部10、嘴唇動作控制部11、身體動作控制部12、表情控制部13、三維描繪部14、顯示部15、動作表情輸入部16、視點(diǎn)變更輸入部17、角色形狀數(shù)據(jù)保存部18、角色動作數(shù)據(jù)保存部19、背景數(shù)據(jù)保存部20、紋路數(shù)據(jù)保存部21和音樂數(shù)據(jù)保存部22。下面,對如此構(gòu)成的本發(fā)明實(shí)施例1的虛擬電視通話裝置進(jìn)行詳細(xì)說明。在本發(fā)明實(shí)施例1中,可分為設(shè)定時的動作和收發(fā)信對話時的動作,所以分別依次說明,但作為它們共同的事項(xiàng),首先說明裝置中保存的數(shù)據(jù)及其管理。
(保存數(shù)據(jù)與管理的說明)在角色形狀數(shù)據(jù)保存部18中,按地址保存CG角色的形狀數(shù)據(jù)和與其對應(yīng)的縮略數(shù)據(jù)(thumbnail data判斷CG角色姿容的圖像數(shù)據(jù))。角色形狀數(shù)據(jù)通常由頭部、上肢、軀干、下肢等部件構(gòu)成,各部件中,如頭部還由眼、鼻、口、頭發(fā)等子部件構(gòu)成,上肢由手、小臂、上臂等子部件構(gòu)成。若是更詳細(xì)的角色形狀,則手由指或手掌等子部件構(gòu)成。這些階梯結(jié)構(gòu)關(guān)系表示角色形狀的結(jié)構(gòu),通常稱為大致事物(thing rough)。各部件、子部件通常被稱為表面模型(surfacemodel),僅把物體表面近似為多邊形,通過面的集合體來表現(xiàn),由三維空間中的頂點(diǎn)坐標(biāo)、同頂點(diǎn)的法線向量分量(計算光源亮度時必須)、紋路坐標(biāo)(進(jìn)行紋路貼圖時必須)的索引化點(diǎn)列數(shù)據(jù)、和表示其關(guān)聯(lián)方的拓樸數(shù)據(jù)(例如,按1、2、3的順序繪出頂點(diǎn)索引,表示頂點(diǎn)具有點(diǎn)1、2、3的三角形)構(gòu)成,另外,還包含各面的反射率(擴(kuò)散反射率、鏡面反射率)和環(huán)境光強(qiáng)度、物體顏色等屬性數(shù)據(jù)。在由紋路(texture)貼圖(mapping)來表現(xiàn)CG角色身上的衣服等的情況下,在對應(yīng)于CG角色的形狀數(shù)據(jù)的部件中公開使用的紋路在紋路數(shù)據(jù)保存部21中的地址或與其對應(yīng)的識別符的ID。
在角色動作數(shù)據(jù)保存部19中,按地址保存CG角色的身體動作數(shù)據(jù)、作為身體動作的變遷圖形數(shù)據(jù)的身體動作圖形數(shù)據(jù)、表情數(shù)據(jù)和表情圖形數(shù)據(jù)、嘴唇動作數(shù)據(jù)和嘴唇動作圖形數(shù)據(jù)。
為了進(jìn)行通常的CG角色動畫,身體動作數(shù)據(jù)為三維空間中作為身體代表點(diǎn)路線的表示身體整體移動的平行移動量、表示身體整體的姿勢狀態(tài)的繞三維空間的三個坐標(biāo)軸的旋轉(zhuǎn)角度量或繞表示旋轉(zhuǎn)中心軸的矢量分量的矢量的旋轉(zhuǎn)角度量、和繞由各關(guān)節(jié)定義的局部坐標(biāo)系的坐標(biāo)軸的旋轉(zhuǎn)角度量的時系列數(shù)據(jù)。通過這些路線位置和關(guān)節(jié)部的局部坐標(biāo)系中的變換系,變換CG角色形狀數(shù)據(jù),生成各時刻CG角色所處位置和方向、CG角色的身體姿勢,進(jìn)行三維描繪處理,通過在時間上連接進(jìn)行處理,可實(shí)現(xiàn)CG的動畫。在使用關(guān)鍵畫面動畫技術(shù)的情況下,不具備整幀畫面的身體動作數(shù)據(jù),用時間上分散的時間系列數(shù)據(jù),在該期間的時刻的動作狀態(tài)通過內(nèi)插進(jìn)行計算,所以作為身體動作數(shù)據(jù),在時間上分散的上述平行移動量和角度量的時間系列數(shù)據(jù)是身體動作數(shù)據(jù)。
身體動作圖案數(shù)據(jù)是如圖6(b)所示有限狀態(tài)的圖表數(shù)據(jù),是由可從某個動作移動的動作關(guān)系與實(shí)體動作信息(動作ID、數(shù)據(jù)種類、各實(shí)體身體動作的地址和幀數(shù)、各轉(zhuǎn)變的移動概率)構(gòu)成的數(shù)據(jù)。例如,圖6(b)中,根據(jù)表示標(biāo)準(zhǔn)狀態(tài)的身體動作數(shù)據(jù)判斷可移動到動作A、動作C、動作D、動作E。在CG角色處于標(biāo)準(zhǔn)狀態(tài)時,產(chǎn)生預(yù)定的某些事件,基于記述在實(shí)體動作信息中的移動概率,通過選擇處理,從動作A、動作C、動作D、動作E中選擇動作,通過地址取得該動作實(shí)體。另外,在本實(shí)施例的情況下,說明了通話開始后的身體動作圖案數(shù)據(jù)中將根據(jù)感情推定部10的通常狀態(tài)、笑狀態(tài)、哭泣狀態(tài)、生氣狀態(tài)、煩惱狀態(tài)、認(rèn)可狀態(tài)等推定結(jié)果和動作表情輸入部16的輸入結(jié)果作為事件引起轉(zhuǎn)變,但即使更復(fù)雜的推定結(jié)果和其它輸入部的事件引起轉(zhuǎn)變的情況下也可一樣實(shí)施。另外,身體動作取決于形狀數(shù)據(jù)的結(jié)構(gòu)(骨架構(gòu)造、層次構(gòu)造)(例如6腳昆蟲的動作不能適用于兩腳步行的人),因?yàn)樯眢w動作不可能適用于所有形狀數(shù)據(jù),所以通過實(shí)體動作信息的數(shù)據(jù)種類將它們與可適用的形狀數(shù)據(jù)分類。另外,以上的身體動作圖案數(shù)據(jù)在上層新設(shè)置身體動作圖案數(shù)據(jù),通過該上層的身體動作圖案數(shù)據(jù)進(jìn)行管理,也可將多個身體動作圖案數(shù)據(jù)的實(shí)體地址變?yōu)橐粋€上層的身體動作圖案。例如,如場面等切換身體動作圖案來使用是非常有效的。
如圖6(a)所示,表情動作數(shù)據(jù)是生成CG角色臉的表情用的數(shù)據(jù)。表情生成方法是通過使用通常進(jìn)行的面部動畫技術(shù)來進(jìn)行的,但例如也有變形臉形狀來進(jìn)行的方法和改變臉紋路的方法等。在變形臉形狀的情況下,臉形狀數(shù)據(jù)中對應(yīng)于生成表情的眉、眼和嘴等端點(diǎn)的頂點(diǎn)坐標(biāo)的移動量的時間系列數(shù)據(jù)是表情動作數(shù)據(jù)。這些移動量可根據(jù)臉的肌肉模型通過模擬計算來算出。在進(jìn)行變換的頂點(diǎn)跨躍多個變換系的情況下,還使用所謂包絡(luò)方法,對頂點(diǎn)提供對應(yīng)于各變換的加權(quán),對在各變換系中算出暫時變換該頂點(diǎn)后的多個頂點(diǎn),考慮對它們進(jìn)行加權(quán)后變換成平均了的坐標(biāo)。在圖6(a)中,通過變形眼形、鼻子大小、耳、臉形等形狀來表現(xiàn)各感情。另外,在改變紋路的情況下,笑的表情和哭泣表情的紋路、其中途階段的紋路為表情數(shù)據(jù)。表情圖案數(shù)據(jù)為這些表情數(shù)據(jù)的轉(zhuǎn)變圖表數(shù)據(jù)(graph data),與身體動作數(shù)據(jù)的轉(zhuǎn)變圖表數(shù)據(jù)一樣,是可從某種表情數(shù)據(jù)向某種表情數(shù)據(jù)移動的有限狀態(tài)圖表和實(shí)體表情信息(表情ID、數(shù)據(jù)種類、各實(shí)體表情動作數(shù)據(jù)的地址和幀數(shù)、各轉(zhuǎn)變的移動概率)。例如,如圖6(a)所示,在該實(shí)例中表示若不經(jīng)由通常的臉則不能移動到其它的臉,根據(jù)實(shí)體表情信息的移動概率來進(jìn)行移動目的的選擇。另外,與身體移動時一樣,通過實(shí)體表情信息的數(shù)據(jù)種類來特定表情動作或紋路和可適用形狀。例如,將數(shù)據(jù)種類的第一位用于表情或紋路的分類,將第二位以上的數(shù)字設(shè)為形狀用識別序號。以上的表情圖案數(shù)據(jù)與身體動作圖案數(shù)據(jù)時一樣,通過設(shè)置上層的表情圖案數(shù)據(jù),也可將多個表情圖案作為一個。
另外,在本實(shí)施例的情況下,說明了通話后的表情圖案數(shù)據(jù)通過感情推定部10推定為通常狀態(tài)、笑狀態(tài)、哭泣狀態(tài)、生氣狀態(tài)、煩惱狀態(tài),將該推定結(jié)果和動作表情輸入部16的輸入結(jié)果作為事件引起轉(zhuǎn)變,但即使在通過更復(fù)雜的推定結(jié)果和其它輸入部作為事件引起轉(zhuǎn)變的情況下也可同樣實(shí)施。
對嘴唇動作數(shù)據(jù)而言,也與表情動作數(shù)據(jù)、表情動作圖案數(shù)據(jù)一樣,有變形嘴形狀來進(jìn)行的方法或改變貼圖紋路的方法。但是,嘴唇動作數(shù)據(jù)取決于語音分析處理內(nèi)容,并且,如后所述,在根據(jù)聲音強(qiáng)度分析結(jié)果生成嘴唇動作的情況下,只保存對應(yīng)于嘴張開量的動作數(shù)據(jù)(參照圖5(a))。在進(jìn)行音素分析的處理的情況下,例如在進(jìn)行元音分析和“ん”音分析的情況下,將用于生成與該音一致的嘴唇形狀的形狀變形數(shù)據(jù)和該嘴唇紋路數(shù)據(jù)保存為動作數(shù)據(jù)(參照圖5(b))。嘴唇圖案數(shù)據(jù)是表示以上任一種嘴唇動作的集合的,是由實(shí)體嘴唇信息(各嘴唇ID、數(shù)據(jù)種類、各實(shí)體嘴唇動作地址和幀數(shù))構(gòu)成的數(shù)據(jù)。各實(shí)體嘴唇ID例如圖5(a)所示若由音強(qiáng)度來進(jìn)行控制時,是通過將相當(dāng)于級別的數(shù)據(jù)作為識別符,將0設(shè)為級別0、…、將3設(shè)為級別3等的識別符,如圖5(b)所示若基于音素分析,則是將相當(dāng)于“ん”、“あ”、…、“お”的識別符分別作為0、1、…、5的識別符。另外,也可通過組合音強(qiáng)度分析和音素分析,即使相同的“あ”音也設(shè)置音強(qiáng)度大的“あ”和音強(qiáng)度小的“あ”。此時,在圖5(b)的縱向上合并圖5(a)的級別,將嘴唇ID定義為二維識別符即可。
背景數(shù)據(jù)保存部20將背景的形狀數(shù)據(jù)或背景的圖像和與之對應(yīng)的縮略圖像,作為顯示CG角色時的背景數(shù)據(jù),進(jìn)行地址管理并保存。背景形狀數(shù)據(jù)與CG角色的形狀數(shù)據(jù)一樣,是以背景作為形狀的物體。背景的圖像數(shù)據(jù)例如是天空或遠(yuǎn)景的圖像數(shù)據(jù),也可與背景的物體組合。另外,在通過紋路貼圖在背景的物體形狀數(shù)據(jù)中加入圖案等情況下,使用的紋路數(shù)據(jù)保存部21中的地址或與之對應(yīng)的識別符ID被明示。
紋路數(shù)據(jù)保存部21對下列圖像數(shù)據(jù)進(jìn)行地址管理和保存,即通過三維描繪部14進(jìn)行紋路貼圖時使用的、CG角色身上的衣類等紋路的圖像數(shù)據(jù)和背景使用的物體紋路貼圖用的圖像數(shù)據(jù)。
音樂數(shù)據(jù)保存部22對音樂數(shù)據(jù)進(jìn)行地址管理和保存。這些在進(jìn)行對發(fā)送對方的收接時,產(chǎn)生聲音,作為信號來使用。
數(shù)據(jù)管理部3進(jìn)行保存數(shù)據(jù)的管理、設(shè)定數(shù)據(jù)的保存管理、設(shè)定數(shù)據(jù)的通知。其中,首先說明角色形狀數(shù)據(jù)保存部18、角色動作數(shù)據(jù)保存部19、背景數(shù)據(jù)保存部20、紋路數(shù)據(jù)保存部21、音樂數(shù)據(jù)保存部22中保存的數(shù)據(jù)的管理。圖3是數(shù)據(jù)管理部3保持的一個表,其所示為CG角色數(shù)據(jù)管理表3a。CG角色數(shù)據(jù)包括CG角色名稱;CG角色形狀數(shù)據(jù)的實(shí)體在某個紋路形狀數(shù)據(jù)保存部18中的地址;相對CG角色形狀數(shù)據(jù)中明示的衣類等紋路、基于使用者指定來進(jìn)行交換時的衣類紋路數(shù)據(jù)在紋路數(shù)據(jù)保存部21中的交換前衣類紋路的地址和交換后的衣類紋路的地址(可記錄多個);角色動作數(shù)據(jù)保存部19中保存的表情圖案數(shù)據(jù)的通話開始前和通話開始后的兩個地址;嘴唇動作圖案的地址;角色形狀數(shù)據(jù)保存部18中保存的縮略圖像的地址;將它們由CG角色I(xiàn)D的識別符表格化后成為CG角色數(shù)據(jù)管理表3a。
其它保存數(shù)據(jù)管理用表包括背景數(shù)據(jù)管理表、動作圖案管理表、語音管理表三種,加上CG角色數(shù)據(jù)管理表3a共四種。背景數(shù)據(jù)管理表中,用背景ID的識別符將背景的物體和遠(yuǎn)景的圖像數(shù)據(jù)名稱與背景數(shù)據(jù)保存部20中的地址表格化。動作圖案管理表中,用動作圖案ID的識別符將身體動作圖案數(shù)據(jù)的名稱和角色動作數(shù)據(jù)保存部19中的地址表格化。音樂數(shù)據(jù)管理表中,用音樂ID的識別符將音樂數(shù)據(jù)的名稱和音樂數(shù)據(jù)保存部22中的地址表格化。
(設(shè)定時的動作)如圖4(a)所示,通信部1中保存通信者管理表。通信者管理表管理通信對方的發(fā)送者ID、電話號碼、姓名、顯示模式的內(nèi)容。顯示模式包括不顯示CG角色以通常的語音通信進(jìn)行通話的情況的非顯示模式;僅將通信對方顯示為CG角色,作為虛擬電視通信進(jìn)行通話的對方顯示模式;不僅對方,也可將使用者自身顯示為CG角色,作為虛擬電視通信進(jìn)行通話的本人同時顯示模式;這些顯示模式由識別符進(jìn)行管理。在本實(shí)施例中,說明將非顯示模式設(shè)為0、將對方顯示模式設(shè)為1、將本人同時顯示模式設(shè)為2來分配識別符。另外,發(fā)送者ID的序號0是預(yù)定來表示本人的。在本實(shí)施例中,是以電話通信為基本來考慮的,所以由電話號碼進(jìn)行收發(fā)信管理進(jìn)行通話,但例如如果是因特網(wǎng),則也可是基于TCP/IP的IP地址和針對使用者的郵件地址等。這些是取決于通信基礎(chǔ)設(shè)施的、特定通信者用的識別符,所以如果是滿足這種條件的識別符,則可全部對應(yīng)。
圖4(a)的CG數(shù)據(jù)管理表3b是用于通過數(shù)據(jù)管理部3中保存的表來保存管理通信對方的CG數(shù)據(jù)設(shè)定的表。通過發(fā)送者ID來管理如下所述項(xiàng)目,即由發(fā)送者確定的CG角色數(shù)據(jù)管理表3a中的CG角色I(xiàn)D、背景數(shù)據(jù)管理表中的背景ID、動作圖案管理表中的通話開始前和通話開始后的身體動作圖案ID構(gòu)成的項(xiàng)目。
圖4(a)的語音管理表3c也是數(shù)據(jù)管理部3中保存的表,語音變換數(shù)值參數(shù)由語音變換部6使用,語音變換數(shù)值參數(shù)用于通過發(fā)送者ID管理由針對發(fā)送者確定的、通信對方的語音變換數(shù)值參數(shù)和收信時的音樂數(shù)據(jù)ID構(gòu)成的項(xiàng)目,所以在通過帶通濾波器進(jìn)行語音變換的情況下,該語音變換數(shù)值參數(shù)是分配給各帶通濾波器的識別符。例如,如下分配識別符,即0對應(yīng)沒有濾波器、1對應(yīng)1kHz以下的濾波器、2對應(yīng)1-5kHz的濾波器、3對應(yīng)5kHz以上的濾波器。這樣,通過識別符化變換必需的參數(shù),所以不取決于變換方法(例如,即使在由間距變換來進(jìn)行語音變換的情況下,也可把變換必需的參數(shù)組識別符化)。另外,上述語音變換數(shù)值參數(shù)通過使用者變更設(shè)定作為確定語音高低的識別符,而具有改變語音的效果。另外,音樂數(shù)據(jù)ID成為所謂確定接收音樂的識別符。
基于圖4(b)來說明設(shè)定時的動作。一旦使用者操作角色背景選擇輸入部2中具備的該設(shè)定狀態(tài)移動輸入部,則通知數(shù)據(jù)管理部3可以向設(shè)定狀態(tài)轉(zhuǎn)移,數(shù)據(jù)管理部3讀取通信部1中保存的通信者管理表的內(nèi)容,發(fā)送給三維描繪部14(S401)。三維描繪部14基于事先保持的設(shè)定畫面數(shù)據(jù),生成反映發(fā)送來的通信者管理表內(nèi)容的設(shè)定畫面,在顯示部15中顯示設(shè)定畫面。角色背景選擇輸入部2選擇通信者(S402),根據(jù)對應(yīng)該通信者的上述識別符來輸入顯示模式。選擇表示非顯示模式0的情況下(S403),結(jié)束設(shè)定。
接著,顯示模式在僅將對方顯示為CG角色的顯示模式1、或還將使用者本人顯示為CG角色的顯示模式2的情況下,將結(jié)果通過數(shù)據(jù)管理部3通知給通信部1和三維描繪部14。通信部1將選擇結(jié)果作為顯示模式記入保存在通信者管理表中。三維描繪部14依次生成如圖3所示的預(yù)定的角色選擇設(shè)定畫面和衣類紋路設(shè)定畫面、身體動作圖案設(shè)定畫面,由顯示部15顯示。另外,在角色選擇畫面中,基于CG角色數(shù)據(jù)管理表3a中所示縮略地址和名稱,如圖3所示,描繪CG角色的圖像和名稱。另外,依次顯示CG角色選擇設(shè)定畫面、衣類紋路設(shè)定畫面、以及身體動作圖案設(shè)定畫面,其中,對于通過角色背景選擇輸入部2選擇輸入的默認(rèn)值或?qū)?yīng)特定通信者的上述CG角色選擇設(shè)定畫面的選擇結(jié)果、以及上述身體動作圖案設(shè)定畫面的選擇結(jié)果,將其ID記錄在數(shù)據(jù)管理部3中保存的CG數(shù)據(jù)管理表3b的對應(yīng)欄中。另外,將上述衣類紋路設(shè)定畫面的選擇結(jié)果記錄,在數(shù)據(jù)管理部3中保存的CG角色管理表的對應(yīng)欄中。此外,身體動作圖案的選擇是選擇通話開始前和通話開始后這兩種,此時,還可能在設(shè)定畫面中顯示動作圖案管理表中記載的名稱。通過該顯示,使用者容易地掌握身體動作的信息,所以容易地進(jìn)行選擇。例如,曼波舞、華爾茲舞、播音員的動作、有名天才的動作等(S404)。
同樣,語音選擇輸入部4設(shè)定輸入語音變換參數(shù)和音樂數(shù)據(jù),若使用者操作語音選擇輸入部4中預(yù)定的向該輸入模式移動的該設(shè)定狀態(tài)移動輸入部,則該移動經(jīng)通信部1通過數(shù)據(jù)管理部3通知到三維描繪部14。三維描繪部14生成預(yù)定的設(shè)定畫面并顯示在顯示部15中。根據(jù)顯示的設(shè)定畫面,使用者通過語音選擇輸入部4選擇輸入語音變換參數(shù)和音樂數(shù)據(jù)。將輸入的選擇結(jié)果記錄在數(shù)據(jù)管理部3中保存的語音管理表3c中(S404)。
接著,在對方顯示模式的情況下,移動到背景選擇設(shè)定(S405)。另外,在選擇本人同時顯示模式的情況下,由角色背景選擇輸入部2與上述一樣進(jìn)行對應(yīng)使用者本人的CG角色、衣類紋路、動作圖案的選擇輸入后(S406),移動到背景選擇。
對于背景選擇,也顯示預(yù)定的背景設(shè)定畫面,由角色背景選擇輸入部2選擇背景(S407)。將選擇結(jié)果存儲在數(shù)據(jù)管理部3中保存的CG數(shù)據(jù)管理表3中。
最后,在上述CG角色的設(shè)定和身體動作圖案的設(shè)定時,將表情圖案數(shù)據(jù)中的特定表情動作數(shù)據(jù)的地址、身體動作圖案數(shù)據(jù)中的特定身體動作數(shù)據(jù)地址通知給動作表情輸入部16。動作表情輸入部16保持通知的身體動作數(shù)據(jù)的地址和表情動作數(shù)據(jù)的地址,與動作表情輸入部16中事先準(zhǔn)備的輸入按鈕對應(yīng)。若使用者按下該輸入按鈕,則將與之對應(yīng)的身體動作數(shù)據(jù)或表情數(shù)據(jù)的地址通知給數(shù)據(jù)管理部3,在通知結(jié)果為身體動作數(shù)據(jù)的地址時通知給身體動作控制部12,在為表情動作數(shù)據(jù)的地址時通知給表情控制部13。通過準(zhǔn)備多個輸入按鈕,可保持多個可保持的身體動作數(shù)據(jù)的地址、表情動作數(shù)據(jù)的地址。另外,明示判斷通話開始前和通話開始后的身體動作數(shù)據(jù)的地址、表情動作數(shù)據(jù)的地址。另外,本實(shí)施例中雖然記述為按鈕輸入,但也可以是可特定的輸入部(例如鍵盤、鼠標(biāo)等)。因此,在使用者選擇自身的角色的同時,也可自由選擇通話對方的角色,另外,因?yàn)槭褂谜邆?cè)的通話裝置具備虛擬電視通話必需的數(shù)據(jù),所以即使通話對方不一定使用虛擬通話裝置,使用者也可進(jìn)行虛擬電視通話。
另外,通常由PC進(jìn)行上述圖解(graphical)的設(shè)定,可由現(xiàn)有的軟件技術(shù)來實(shí)現(xiàn)。
(收發(fā)信時的動作)發(fā)信時,通信部1輸入電話號碼,通過與記錄在被保存的通信者管理表中的電話號碼欄的內(nèi)容互相對應(yīng),來特定發(fā)送者的ID和顯示模式。收信時,由于通常在通話前通知收信對方的電話號碼,所以通過互相對應(yīng)電話號碼和通信者管理表的電話號碼欄,確定發(fā)送者ID和顯示模式。另外,通信部1是具有通常的語音通信功能(若在便攜電話的情況下為所謂的基帶處理等)的。
在特定的顯示模式為非顯示模式的情況下,進(jìn)行通常的語音通話處理。即,在獲得與通信對方的通信認(rèn)可后,從發(fā)送者發(fā)送來語音數(shù)據(jù)的情況下,通過語音處理部5進(jìn)行解碼處理等通常進(jìn)行的語音處理,通過語音變換部6,發(fā)送給語音輸出部7,輸出語音。另外,使用者本人的語音從語音輸入部8輸入,通過語音處理部5進(jìn)行通常進(jìn)行的語音數(shù)據(jù)壓縮等語音處理,通過通信部1發(fā)送給通信對方。
在特定的顯示模式是僅將對方顯示為CG角色的對方顯示模式情況下說明其動作,將動作分為通話開始前和通話開始后,通話開始時由通信部1將該開始的情況告知數(shù)據(jù)管理部3。
在收發(fā)信時的通話開始前,如上所述,因?yàn)榭纱_定發(fā)送對方的電話號碼,所以通信部1根據(jù)通信者管理表來特定通信對方的發(fā)送者ID,將發(fā)送者ID發(fā)送到數(shù)據(jù)管理部3。數(shù)據(jù)管理部3根據(jù)保存的CG數(shù)據(jù)管理表3b,特定對應(yīng)于發(fā)送者ID的CG角色I(xiàn)D、背景ID、動作圖案ID(通話前和后的身體動作圖案的兩個ID)。在CG數(shù)據(jù)管理表3b中沒有與可發(fā)送的發(fā)送者ID對應(yīng)的數(shù)據(jù)時,特定默認(rèn)設(shè)定的CG角色I(xiàn)D、背景ID、動作圖案ID(通話前和后的身體動作圖案的兩個ID)。數(shù)據(jù)管理部3通過確定的CG角色I(xiàn)D,從CG角色數(shù)據(jù)管理表3a中特定CG角色形狀數(shù)據(jù)的地址、交換前衣類紋路的地址和交換后衣類紋路的地址、通話開始前和通話開始后的兩個表情圖案數(shù)據(jù)的地址、嘴唇動作圖案的地址。由保存的背景數(shù)據(jù)管理表根據(jù)特定的背景ID來特定背景數(shù)據(jù)的地址。另外,由保存的動作圖案管理表,根據(jù)動作圖案ID(通話前和后的身體動作圖案兩個ID)來特定通話開始前和通話開始后的兩個身體動作圖案的地址。
數(shù)據(jù)管理部3將特定的CG角色形狀數(shù)據(jù)的地址、交換前的衣類紋路的地址和交換后的衣類紋路的地址、背景數(shù)據(jù)的地址通知給三維描繪部14。另外,數(shù)據(jù)管理部3由特定的通話開始前和通話開始后的兩個身體動作圖案地址、通話開始前和通話開始后的兩個表情圖案數(shù)據(jù)的地址、嘴唇動作圖案數(shù)據(jù)的地址,從角色動作數(shù)據(jù)保存部19中讀取通話開始前和通話開始后的兩個身體動作圖案數(shù)據(jù)后,發(fā)送給身體動作控制部12,讀取通話開始前和通話開始后的兩個表情圖案數(shù)據(jù)后發(fā)送給表情控制部13,讀取嘴唇動作圖案數(shù)據(jù)后發(fā)送給嘴唇動作控制部11。
嘴唇動作控制部11從嘴唇動作圖案數(shù)據(jù)中選擇適當(dāng)?shù)淖齑絼幼鲾?shù)據(jù)的地址,從幀序號0至數(shù)幀和該地址一起依次通知給三維描繪部14。從嘴唇動作圖案數(shù)據(jù)中選擇適當(dāng)嘴唇動作數(shù)據(jù)地址的方法,有使用隨機(jī)數(shù)的方法,但除等概率選擇外,進(jìn)行嘴唇重疊來選擇控制。重復(fù)該處理,直到通話開始。另外,不使用隨機(jī)數(shù)而事先規(guī)定固定的轉(zhuǎn)變,根據(jù)轉(zhuǎn)變順序,向三維描繪部14通知嘴唇動作數(shù)據(jù)的地址和幀序號。但是,此時,使用者看到有規(guī)律的重復(fù)嘴唇動作。例如,可重復(fù)顯示與“電話呦”的語言一致的嘴唇動作。
身體動作控制部12最初從通話開始前的身體動作圖案數(shù)據(jù)中,如圖6(b)所示,將相當(dāng)于標(biāo)準(zhǔn)狀態(tài)的身體動作數(shù)據(jù)的地址和幀序號按從0到數(shù)幀依次通知給三維描繪部14。通知數(shù)幀后,根據(jù)各轉(zhuǎn)變的移動概率產(chǎn)生隨機(jī)數(shù),選擇下個身體動作數(shù)據(jù),并將該移動目的的身體動作數(shù)據(jù)的地址和幀序號從0到數(shù)幀通知給三維描繪部14。結(jié)束后,再根據(jù)各移動概率產(chǎn)生隨機(jī)數(shù)并進(jìn)行轉(zhuǎn)變。重復(fù)該處理,直到通話開始。另外,不使用隨機(jī)數(shù)而將固定的轉(zhuǎn)變事先規(guī)定為身體動作圖案,根據(jù)轉(zhuǎn)變順序,將身體動作數(shù)據(jù)的地址和幀序號通知給三維描繪部14。但是,此時,使用者有規(guī)律地重復(fù)并看到身體動作。例如,可重復(fù)顯示“取下電話話筒”這種身體動作。
表情控制部13最初從通話開始前的表情動作圖案數(shù)據(jù)中,如圖6(a)所示,將相當(dāng)于通常臉的表情動作數(shù)據(jù)的地址和幀序號按從0到數(shù)幀依次通知給三維描繪部14。通知數(shù)幀后,根據(jù)各轉(zhuǎn)變的移動概率產(chǎn)生隨機(jī)數(shù),選擇下個表情動作數(shù)據(jù),并將該移動目的地的表情動作數(shù)據(jù)的地址和幀序號從0到數(shù)幀通知給三維描繪部14。結(jié)束后,再根據(jù)各移動概率產(chǎn)生隨機(jī)數(shù)并進(jìn)行移動。重復(fù)該處理,直到通話開始。另外,不使用隨機(jī)數(shù)而將固定的轉(zhuǎn)變事先規(guī)定為表情動作圖案,根據(jù)轉(zhuǎn)變順序,將表情動作數(shù)據(jù)的地址和幀序號通知給三維描繪部14。但是,此時,使用者看到有規(guī)律的重復(fù)表情動作。例如,可重復(fù)顯示“通常的臉和為難的臉”這種表情動作。
說明三維描繪部14的基本三維描繪動作。三維描繪部14首先通過由數(shù)據(jù)管理部3通知了的CG角色形狀數(shù)據(jù)的地址、交換前的衣類紋路的地址和交換后的衣類紋路的地址、以及背景數(shù)據(jù)的地址,從角色形狀數(shù)據(jù)保存部18加載進(jìn)行描繪的CG角色的形狀數(shù)據(jù)、從角色數(shù)據(jù)保存部21加載衣類紋路數(shù)據(jù)、以及從背景數(shù)據(jù)保存部20加載背景數(shù)據(jù)。接著,接收從嘴唇動作控制部11通知的嘴唇動作數(shù)據(jù)的地址和幀序號,從身體動作控制部12通知的身體動作數(shù)據(jù)地址和幀序號,從表情控制部13通知的表情動作數(shù)據(jù)的地址和幀序號。通過接收的嘴唇動作數(shù)據(jù)的地址、身體動作數(shù)據(jù)的地址、表情動作數(shù)據(jù)的地址,從角色動作數(shù)據(jù)保存部加載嘴唇動作數(shù)據(jù)、身體動作數(shù)據(jù)、表情動作數(shù)據(jù)。該加載(load)限于不更新從嘴唇動作控制部11、身體動作控制部12、表情控制部13通知的各動作的地址,在通知最初僅進(jìn)行一次。另外,因?yàn)樵谑招艜r在畫面中顯示對應(yīng)于特定的通信對方的角色,所以使用者僅通過觀看畫面中顯示的角色就可知道來自誰的收信。
雖然根據(jù)嘴唇動作數(shù)據(jù)生成,該嘴唇動作數(shù)據(jù)加載了從嘴唇動作控制部11通知的幀序號的動作數(shù)據(jù),但這與嘴唇動作數(shù)據(jù)為形狀變形的情況下通常進(jìn)行的關(guān)鍵幀動畫技術(shù)一樣,通過成為關(guān)鍵的動作數(shù)據(jù)的插入生成,在紋路的情況下也由成為關(guān)鍵的紋路的插入生成。使用生成的幀序號的動作數(shù)據(jù),在形狀變形的情況下,變形CG角色形狀數(shù)據(jù)的嘴部形狀。在紋路的情況下,通過通常進(jìn)行的紋路貼圖技術(shù),對嘴部進(jìn)行貼圖,但也可在三維描繪處理時進(jìn)行。
表情動作數(shù)據(jù)的情況也一樣,生成通知的幀序號的動作數(shù)據(jù),根據(jù)該動作數(shù)據(jù),在形狀變形時進(jìn)行臉的變形。在紋路的情況下,由紋路貼圖來進(jìn)行臉部的描繪,但可在三維描繪處理時進(jìn)行。另外,通過成為關(guān)鍵的身體動作數(shù)據(jù)的插入來生成通知的幀序號的身體動作數(shù)據(jù)的動作數(shù)據(jù),根據(jù)該身體動作數(shù)據(jù),對CG角色實(shí)施上述變換,確定CG角色的位置和身體狀態(tài)。
之后,在背景數(shù)據(jù)、衣類紋路數(shù)據(jù)、嘴唇動作數(shù)據(jù)是紋路的情況下,在其紋路、表情動作數(shù)據(jù)是紋路時使用該紋路,通過通常進(jìn)行的三維描繪處理(依次進(jìn)行模型變換、視野變換、透視變換、場景變換、對場景的像素(ピクセル)處理,在對場景的像素處理時實(shí)施紋路貼圖),生成圖像。此時,相機(jī)數(shù)據(jù)(相機(jī)的位置和方向、畫面中視野變換、場景變換必需)最初使用默認(rèn)值。例如,在設(shè)定為朝向CG角色正面位于生成身體整體的圖像的中心部等中,這種設(shè)定求出包含CG角色的最小立方體,并通過與相當(dāng)于CG角色腳的方向矢量的正面部的方向和反向的光軸來設(shè)定畫角,使其重心部位于光軸上,使各頂點(diǎn)包含于場景中即可。
另外,視點(diǎn)變更輸入部17輸入相機(jī)數(shù)據(jù),通知三維描繪部14,并根據(jù)該相機(jī)數(shù)據(jù)進(jìn)行三維描繪處理,可生成變更視點(diǎn)的圖像。另外,視點(diǎn)變更輸入部17中準(zhǔn)備預(yù)置的相機(jī)數(shù)據(jù),將該預(yù)置數(shù)據(jù)通知給三維描繪部14,進(jìn)行視點(diǎn)變更。
動作表情輸入部16如上所述在使用者按下事先設(shè)定的輸入按鈕,則將身體動作數(shù)據(jù)的地址或表情動作數(shù)據(jù)的地址通過數(shù)據(jù)管理部3,就身體動作數(shù)據(jù)的地址通知給身體動作控制部12,就表情動作數(shù)據(jù)的地址通知給表情控制部13。在身體動作數(shù)據(jù)地址的情況下,身體動作控制部12一旦接受該通知,則對于現(xiàn)在通知三維描繪部14的身體動作數(shù)據(jù),若最后的幀數(shù)序號通知結(jié)束,則通常如上所述選擇下一移動目的地的身體動作數(shù)據(jù),將強(qiáng)制通知的身體動作數(shù)據(jù)的地址和幀序號通知三維描繪部14。表情動作數(shù)據(jù)地址的情況也一樣,表情控制部13在現(xiàn)在通知的表情動作數(shù)據(jù)通知結(jié)束后,強(qiáng)制地將數(shù)據(jù)管理部3通知的表情動作數(shù)據(jù)的地址和幀序號通知給三維描繪部14。由此,通常進(jìn)行自動選擇的動畫,使用者可強(qiáng)制顯示根據(jù)自身愛好選擇的動作。
將如上所述生成的三維描繪結(jié)束后的圖案傳送到顯示部15進(jìn)行顯示。
通常,三維描繪部14中的三維描繪處理與顯示部15的更新速率一致進(jìn)行處理。在三維描繪部14的三信描繪處理中通知由嘴唇動作控制部11、身體動作控制部12、表情控制部13通知的動作地址和幀序號,設(shè)定為下面使用的數(shù)據(jù)。在進(jìn)行下一幀的三維描繪處理時,使用該設(shè)定的各動作數(shù)據(jù)地址和幀序號。如此對來自嘴唇動作控制部11、身體動作控制部12、表情控制部13的通知進(jìn)行同步控制。
對有關(guān)音樂數(shù)據(jù)進(jìn)行說明。數(shù)據(jù)管理部3特定由語音管理表3c對應(yīng)于發(fā)送者ID的語音變換數(shù)值參數(shù)值和音樂數(shù)據(jù)ID。在與被發(fā)送來的發(fā)送者ID對應(yīng)的值不在語音管理表3c中時,特定默認(rèn)設(shè)定的語音變換數(shù)值參數(shù)和音樂數(shù)據(jù)ID。從音樂數(shù)據(jù)管理表中由音樂ID取得音樂數(shù)據(jù)的地址。通過取得的音樂數(shù)據(jù)地址,從音樂數(shù)據(jù)保存部22加載該音樂數(shù)據(jù),傳送到語音處理部5。語音處理部5在壓縮音樂數(shù)據(jù)的情況下進(jìn)行伸展處理,在MIDI數(shù)據(jù)等的被編碼化的音樂數(shù)據(jù)的情況下,進(jìn)行保存的音源數(shù)據(jù)的語音生成處理,通過語音變換部6,從語音輸出部7輸出音樂。由此,在收信時,通過從語音輸出部7輸出與通信對方的角色關(guān)聯(lián)的收信音樂,可以容易地確認(rèn)通信對方。
通過如上操作,在音樂播放的狀態(tài)下,可顯示CG角色,但音樂與CG角色的動作基本不同步(對照音樂數(shù)據(jù),為了事先取得同步而形成動作數(shù)據(jù)來取得同步,所以至少可使最初的輸出同步)。這里,描述音樂與CG角色的同步。音樂數(shù)據(jù)中包含相當(dāng)于圖像數(shù)據(jù)等使用的時間標(biāo)記(time stamp)的時間管理數(shù)據(jù)。在MPEG-4(移動圖像專家組階段4)的旋律中加入時間標(biāo)記,而且如果是MIDI數(shù)據(jù),則稱為增量時間(delta time),若積分控制時間增量數(shù)據(jù)則可代用。語音處理部5在將音樂數(shù)據(jù)傳送給語音輸出部7時,管理時間標(biāo)記,其中將作為音樂輸出使用的時間標(biāo)記作為時間同步信號,發(fā)送給嘴唇動作控制部11、身體動作控制部12、表情控制部13。在嘴唇動作數(shù)據(jù)、表情動作數(shù)據(jù)、身體動作數(shù)據(jù)中也加入從0開始的時間標(biāo)記。事先與音樂對照來分配時間標(biāo)記。嘴唇動作控制部11、身體動作控制部12、表情控制部13互相對應(yīng)被發(fā)送來的時間標(biāo)記和分別控制的動作數(shù)據(jù)的時間標(biāo)記序號,但此時,若將此前進(jìn)行三維描繪來的動作數(shù)據(jù)的時間標(biāo)記累加數(shù)與各動作持有的時間標(biāo)記相加,則與音樂時間標(biāo)記一致。向三維描繪部14同時發(fā)送與該對照一致的幀序號和動作數(shù)據(jù)的地址。通過以上處理,可進(jìn)行與音樂數(shù)據(jù)同步的動作控制。
接著,說明通話開始后的動作。通信部1判斷與通信對方的通話開始成立。若是通常的電話通信,如果自己打電話,則在對方拿話筒時,通過返回接受信號可知通信成立,另外,在對方打來時,通過拿起話筒將接受信號返回到對方,可知通信成立。便攜電話等無線通信和因特網(wǎng)等通信,基本結(jié)構(gòu)也相同,可知通信開始成立。通信部1將通話成立通知數(shù)據(jù)管理部3。
若數(shù)據(jù)管理部3收到通信成立通知,則中止對語音處理部5的音樂數(shù)據(jù)傳送,通知開始通話,并且數(shù)據(jù)管理部3從語音管理表3c中讀取語音變換數(shù)值參數(shù),通過語音處理部5通知語音變換部6。另外,同時通知嘴唇動作控制部11、身體動作控制部12、表情控制部13通話開始。
若嘴唇動作控制部11、身體動作控制部12、表情控制部13收到通知,則停止向三維描繪部14傳送。嘴唇動作控制部11在后述的語音分析部9僅進(jìn)行聲音強(qiáng)度分析處理的情況下,在對圖5(a)所示級別0狀態(tài)的嘴唇動作數(shù)據(jù)的地址和幀序號僅進(jìn)行音素分析或進(jìn)行聲音強(qiáng)度分析和音素分析兩者的情況下,將圖5(b)所示“ん”音的嘴唇動作數(shù)據(jù)地址和幀序號發(fā)送給三維描繪部4。身體動作控制部12將通話開始后的身體動作圖案數(shù)據(jù)的標(biāo)準(zhǔn)狀態(tài)的身體動作數(shù)據(jù)地址和幀序號發(fā)送給三維描繪部14。表情控制部13將通話開始后的表情動作圖案數(shù)據(jù)的通常臉的表情動作數(shù)據(jù)地址和幀序號發(fā)送給三維描繪部14。一旦三維描繪部14收到從嘴唇動作控制部11、身體動作控制部12、表情控制部13發(fā)送的動作數(shù)據(jù)地址和幀序號,則通過與上述一樣的動作進(jìn)行三維處理,向顯示部15發(fā)送生成的圖像并顯示。
若語音處理部5收到通話開始通知,則對從通話部1發(fā)送來的通信媒體進(jìn)行到達(dá)語音數(shù)據(jù)的語音處理(語音數(shù)據(jù)的解碼和去噪聲),將語音處理后的數(shù)據(jù)發(fā)送給語音變換部6和語音分析部9。
語音變換部6根據(jù)發(fā)送來的語音變量或數(shù)值參數(shù),施加語音變換(例如如上所述,在進(jìn)行濾波處理時,加上該濾波器的)后發(fā)送到語音輸出部7。因此,將通話者的語音變換為其它語音后輸出。
語音分析部9對發(fā)送來的語音數(shù)據(jù)進(jìn)行聲音強(qiáng)度分析或音素分析或這兩種分析。如圖5(a)所示,聲音強(qiáng)度分析對預(yù)定語音數(shù)據(jù)的一定期間(例如顯示速率(レ—ト)時間),積分其振幅絕對值(采樣值的加法運(yùn)算),對應(yīng)于預(yù)定該積分值的區(qū)分值來確定級別值。音素分析通常進(jìn)行在語音識別中進(jìn)行的處理,各音素分類“ん”、“あ”、…、“お”之一或輸出其比例。將標(biāo)準(zhǔn)化了的基本統(tǒng)計匯集的“ん”、“あ”、“い”、…、“お”音的語音數(shù)據(jù)作為模板,音素分解輸入的語音數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和模板匹配,選出匹配度最高的或輸出匹配度比例。匹配度規(guī)定適當(dāng)?shù)木嚯x函數(shù)(歐幾里得距離、希爾伯特、馬氏距離),選擇由該距離函數(shù)計算時距離最小的,算出由測定“ん”、“あ”、…、“お”音的所有距離的和除以各距離的值作為比例。將以上的語音分析結(jié)果發(fā)送給感情推定部10。另外,根據(jù)語音分析結(jié)果如上所述確定嘴唇ID,將確定的嘴唇ID發(fā)送給嘴唇動作控制部11。
嘴唇動作控制部11通過語音分析部9發(fā)送來的嘴唇ID,根據(jù)嘴唇動作圖案數(shù)據(jù),確定與其對應(yīng)的嘴唇動作數(shù)據(jù)的地址,將嘴唇動作數(shù)據(jù)的地址和幀序號發(fā)送到三維描繪部14。
感情推定部10按預(yù)定的一定期間保存從語音分析部9發(fā)送的語音分析結(jié)果,對該保存結(jié)果推定通話者的感情狀態(tài)。例如,將分類的感情設(shè)為“通?!薄ⅰ靶Α?、“生氣”、“哭泣”、“煩惱”。關(guān)于聲音強(qiáng)度,保持一定期間的級別圖案作為各感情模板。如果將一定期間設(shè)為例如三次語音分析,則若為“級別2、級別2、級別2”,則保持“通?!弊鳛槟0?,若為“級別3、級別2、級別3”,則保持“笑”作為模板,若為“級別3、級別3、級別3”,則保持“生氣”作為模板,若為“級別1、級別2、級別1”,則保持“哭泣”作為模板,若為“級別0、級別1、級別0”,則保持“煩惱”作為模板。對于這些,對保存的三次語音結(jié)果,計算各級別值差的絕對值的和(希爾伯特距離)或各級別差的平方和(歐幾里得距離),將最近的判斷為此時的感情狀態(tài)。或者,計算對各感情的距離的和,將用該和除以對各感情的距離后作為比例來算出感情狀態(tài)。在發(fā)送音素分析結(jié)果的情況下,保持關(guān)鍵字作為字典模板,并通過與關(guān)鍵字的模板匹配來進(jìn)行。但是,在本實(shí)施例中,例如音素分析僅為元音分析,所以使用如下方法。例如,在生氣的情況下,元音顯示表示“生氣”、“憤怒”、“毆打”等單詞,表示為“いあえいう”、“いいおい”、“あうう”,將一定期間設(shè)為三次語音分析結(jié)果的,并在該排列中,從頭形成三文字的字典。同樣,對其它感情狀態(tài)也一樣形成字典。通常這些字典可當(dāng)然得到相同的行,進(jìn)行日常對話等的分析,包含于頻度高的一方的感情狀態(tài)字典中,事先生成字典模板。在一定期間是三次的情況下,元音的組合為216組,字典模板按感情狀態(tài)分類216個詞匯。對保存的三次音素分析結(jié)果進(jìn)行字典模板和模板匹配,判斷感情狀態(tài)。在對其進(jìn)行聲音強(qiáng)度情況與音素情況組合時、在判斷都是相同的感情狀態(tài)時、在感情狀態(tài)不同時,由隨機(jī)數(shù)概率地選擇某一感情狀態(tài)作為感情狀態(tài)。將上述算出的感情狀態(tài)發(fā)送給身體動作控制部12和表情控制部13。
另一方面,將使用者產(chǎn)生的對話輸入語音輸入部8,向語音處理部5發(fā)送輸入的語音數(shù)據(jù)。將麥克風(fēng)用作語音輸入部8。語音處理部5對發(fā)送來的輸入語音數(shù)據(jù)進(jìn)行通常進(jìn)行的去噪聲處理和去回聲處理,將處理后的語音數(shù)據(jù)發(fā)送給語音分析部9。另外,將處理后的語音數(shù)據(jù)進(jìn)行取決于通信方法的處理、例如編碼處理數(shù)據(jù)流化、數(shù)據(jù)包化處理后,通過通信部1發(fā)送給通信對方。語音分析部9對發(fā)送來的輸入語音數(shù)據(jù)也進(jìn)行上述聲音強(qiáng)度分析和音素分析,并與表示作為對輸入語音的語音分析結(jié)果和輸入語音的識別符一起發(fā)送給感情推定部10。感情推定部10如上所述將語音分析結(jié)果在一定期間內(nèi)保存在對輸入語音的專用保存區(qū)域中,對保存結(jié)果進(jìn)行與上述一樣的感情推定處理。但是,對感情推定進(jìn)行加入聽眾時特有的狀態(tài)、例如“認(rèn)可”狀態(tài)等感情推定。即,對發(fā)送對方的語音數(shù)據(jù)和使用者本人的語音數(shù)據(jù)的感情推定也可不同。將感情推定結(jié)果發(fā)送給身體動作控制部12和表情控制部13。
另外,作為其它感情推定方法,有使用韻律和振幅、強(qiáng)勢等語音數(shù)據(jù)的頻率信號的方法。圖9是表示使用頻率信號的感情推定方法的處理順序的流程圖。另外,將推定作為最基本感情分類的“生氣”、“悲傷”、“喜悅”及“標(biāo)準(zhǔn)”的四種感情作為前提說明該感情推定方法。
首先,使用者本人的語音作為語音數(shù)據(jù)輸入語音輸入部8后發(fā)送給語音處理部5。另一方面,通信對方的語音通過通信部1輸入語音處理部5(S901)。語音處理部5對發(fā)送來的語音數(shù)據(jù)進(jìn)行通常進(jìn)行的去噪聲處理和去回音處理,并將處理后的語音數(shù)據(jù)發(fā)送給語音分析部9。
語音分析部9通過使用韻律和振幅、強(qiáng)勢等語音數(shù)據(jù)的頻率信號的處理取出特征量。在該特征量中,以反映每種感情不同的基本頻率為基礎(chǔ),使用例如FOmax(說話中的基本頻率(FO)的最大值Hz)、Amax(說話中的振幅最大值Hz)、T(從說話開始到結(jié)束的時間長sec)、FOinit(說話剛開始后的基本頻率Hz)、FOrange(說話中的最大基本頻率-最小基本頻率Hz)等。另外,可向特征量中加入作為其它參數(shù),例如性別差補(bǔ)償?shù)取?br>
作為語音分析部9的基本頻率的提取方法,使用考慮發(fā)話整體連續(xù)性的DP匹配的方法。簡單說明該提取方法,就是輸入語音輸入部的語音數(shù)據(jù)在語音分析部9一旦變換為頻率區(qū)域的數(shù)據(jù)后,通過預(yù)定操作成為時間區(qū)域的數(shù)據(jù)。從該數(shù)據(jù)中按峰值大的順序選擇某一常數(shù),通過預(yù)定處理使其連續(xù)來提取基本頻率(S902)。
接著,感情推定部10根據(jù)語音分析部9提取的特征量來算出統(tǒng)計(S903),由此來推定各語音數(shù)據(jù)屬于哪個感情組(S904)。根據(jù)該感情推定方法,能夠以高的概率來推定說話者的感情。之后,感情推定部10將感情推定結(jié)果發(fā)送給嘴唇動作控制部11、身體動作控制部12、以及表情控制部13。
因此,顯示在虛擬電視通話裝置的畫面中的角色推定使用者和通話對方的感情而動作,所以可實(shí)現(xiàn)娛樂性更高的虛擬電視通話裝置。
另外,身體動作控制部12將下一動作轉(zhuǎn)變確定(預(yù)定)為與發(fā)送來的感情推定結(jié)果對應(yīng)的身體動作數(shù)據(jù),如果現(xiàn)在發(fā)送給三維描繪部14的身體動作數(shù)據(jù)的地址和幀序號完成幀數(shù),就將確定后的身體動作數(shù)據(jù)的地址和幀序號發(fā)送給三維描繪部14。在概率地控制身體動作數(shù)據(jù)的轉(zhuǎn)變確定的情況下,決定引起對應(yīng)于感情推定結(jié)果轉(zhuǎn)變的概率或不引起的概率(由于是二項(xiàng)分布,若決定單方的概率,則必然還剩余需決定的),使用根據(jù)其分布的隨機(jī)數(shù)來確定轉(zhuǎn)變。表情控制部13也通過同樣的處理進(jìn)行轉(zhuǎn)變確定處理,并將表情動作數(shù)據(jù)的地址和幀序號發(fā)送給三維描繪部14。
三維描繪部14使用從嘴唇動作控制部11發(fā)送來的上述嘴唇動作數(shù)據(jù)的地址和幀序號、從身體動作控制部12發(fā)送來的身體動作數(shù)據(jù)的地址和幀序號、從表情控制部13發(fā)送來的表情動作數(shù)據(jù)的地址和幀序號,通過與通話開始前時同樣的處理生成圖像,并發(fā)送到顯示部15。顯示部15顯示發(fā)送來的圖像。
在有從動作表情輸入部16和視點(diǎn)變更輸入部17輸入的情況下,與通話開始前時一樣,將對應(yīng)于該輸入的動作和表情反映到CG角色,或進(jìn)行視點(diǎn)變更。
在同時顯示模式的情況下,基本動作也與上述動作一樣,但不同之處在于需要追加本人部分。即,在通話開始前和開始后,向數(shù)據(jù)管理部3通知的數(shù)據(jù)中加入本人的數(shù)據(jù)。另外,嘴唇動作控制部11、身體動作控制部12、表情控制部13除對方的CG角色動作數(shù)據(jù)的地址和幀序號外,在發(fā)送表示對方和本人的識別符的同時,還向三維描繪部14發(fā)送本人的CG角色的動作數(shù)據(jù)地址和幀序號。三維描繪部14根據(jù)該識別符確定對方CG角色的身體狀態(tài)和表情、嘴唇狀態(tài)、本人的CG角色的身體狀態(tài)和表情、嘴唇狀態(tài),進(jìn)行上述同樣的處理生成圖像,并將生成的圖像發(fā)送給顯示部15顯示。在從語音處理部5發(fā)送的語音數(shù)據(jù)中加入對方或本人的識別符后,將語音數(shù)據(jù)發(fā)送到語音分析部9。語音分析部9進(jìn)行與上述一樣的處理,加上對方或本人的識別符后,將語音分析結(jié)果發(fā)送給嘴唇動作控制部11和感情推定部10。嘴唇動作控制部11通過對方或本人的識別符來確定來自對方或本人的嘴唇動作轉(zhuǎn)變或嘴唇動作圖案的嘴唇動作數(shù)據(jù)的地址和幀序號。感情推定部10進(jìn)行與上述一樣的感情推定,進(jìn)行分別對應(yīng)于對方和本人的感情推定,將結(jié)果與對方或本人的識別符一起發(fā)送給身體動作控制部12和表情控制部13。身體動作控制部12由對方或本人的識別符來確定對方的身體動作轉(zhuǎn)變目的地、本人的轉(zhuǎn)變目的地,將各身體動作數(shù)據(jù)的地址和幀序號與識別符一起發(fā)送到三維描繪部14。表情控制部13也一樣,一邊分別確定對方的表情動作轉(zhuǎn)變目的地、本人的表情動作轉(zhuǎn)變目的地,一邊將各表情動作數(shù)據(jù)的地址和幀序號與識別符一起發(fā)送到三維描繪部14。
另外,感情推定部10的感情推定結(jié)果通過基本的交互對話,推定針對對方對話內(nèi)容的對方和本人的感情,將推定結(jié)果反映到對方和本人的CG角色的身體動作、表情動作,之后,接受該結(jié)果的本人的對話內(nèi)容的感情推定結(jié)果一樣交互重復(fù)地反映到對方和本人的CG角色的身體動作、表情動作上。
視點(diǎn)變更輸入部17邊輸入邊與上述一樣生成變更視點(diǎn)的圖案,在顯示部15中顯示。在本實(shí)施例中,描述了動作表情輸入部16進(jìn)行對方動作和表情變更的動作,設(shè)置對方用和本人用的輸入按鈕,當(dāng)按下輸入按鈕時,除加上對方或本人的識別符外,一樣進(jìn)行來自數(shù)據(jù)管理部3的處理,對方的CG角色和本人的CG角色也進(jìn)行對應(yīng)于動作表情輸入部16的變更。
圖7表示流水線化了的以上從語音輸入到圖像顯示的一連串動作。語音處理部5的處理結(jié)果作為語音變換輸出,在描繪時使用雙緩沖器。從圖7可知,顯示為語音變換輸出的CG角色的嘴唇動作通過顯示速率產(chǎn)生兩幀的延遲,例如顯示速率為30幀/秒時是66ms左右,由于看見而不判斷。另外,感情推定結(jié)果產(chǎn)生在語音分析結(jié)果的保存一定期間內(nèi)加上一幀的延遲。如圖7所示,若保存用期間為3幀,則產(chǎn)生4幀的延遲(顯示速率為30幀/秒時大致為134ms)。但是,在實(shí)際的人說什么時,因?yàn)榧由仙蓪ζ涓星橹暗臅r間(也取決于識別內(nèi)容,理解對方的詞匯后,推定為數(shù)100ms左右),該延遲在保存期間不太大時不成為問題。
(實(shí)施例2)下面參照附圖來說明本發(fā)明實(shí)施例2的虛擬電視通話裝置。
圖2表示本發(fā)明實(shí)施例2的虛擬電視通話裝置的結(jié)構(gòu)。包含通信部101、數(shù)據(jù)下載部102、通信數(shù)據(jù)判斷部103、角色背景選擇輸入部2、數(shù)據(jù)管理部104、語音選擇輸入部4、語音處理部5、語音變換部6、語音輸出部7、語音輸入部8、語音分析部9、感情推定部10、嘴唇動作控制部11、身體動作控制部12、表情控制部13、三維描繪部14、顯示部15、動作表情輸入部16、視點(diǎn)變更輸入部17、角色形狀數(shù)據(jù)保存部18、角色動作數(shù)據(jù)保存部19、背景數(shù)據(jù)保存部20、紋路數(shù)據(jù)保存部21及音樂數(shù)據(jù)保存部22。
下面說明說明如此構(gòu)成的本發(fā)明實(shí)施例2的虛擬電視通話裝置,但由于僅與本發(fā)明實(shí)施例1在CG數(shù)據(jù)下載上不同,所以僅說明CG數(shù)據(jù)的下載動作。
在本實(shí)施例中,下載數(shù)據(jù)為CG角色數(shù)據(jù)(形狀數(shù)據(jù)、衣類紋路數(shù)據(jù)、表情圖案數(shù)據(jù)和表情動作數(shù)據(jù)、嘴唇動作圖案數(shù)據(jù)和嘴唇動作數(shù)據(jù)、縮略圖像數(shù)據(jù))、身體動作圖案數(shù)據(jù)和身體動作數(shù)據(jù)、背景數(shù)據(jù)、音樂數(shù)據(jù),但分別下載各數(shù)據(jù)時也一樣進(jìn)行。
從數(shù)據(jù)下載部102通過通信部101訪問數(shù)據(jù)保存用服務(wù)器。該訪問與通過通常的便攜電話下載時和通過個人計算機(jī)的下載時進(jìn)行的一樣。例如,可以由IP地址特定服務(wù)器,通知服務(wù)器設(shè)備訪問,進(jìn)行TCP/IP協(xié)議的手續(xù)。接著,由http和ftp協(xié)議發(fā)送服務(wù)器中保存的上述數(shù)據(jù)的目錄,數(shù)據(jù)下載部102接收發(fā)送結(jié)果。使用者從目錄中選擇想下載的數(shù)據(jù)。例如,通過通信部101向通信數(shù)據(jù)判斷部103發(fā)送目錄,通信數(shù)據(jù)判斷部103判斷該數(shù)據(jù)位于目錄中,通過數(shù)據(jù)管理部104發(fā)送給三維描繪部14。三維描繪部14圖像化目錄后發(fā)送給顯示部15進(jìn)行顯示,從而使用者可確認(rèn)其內(nèi)容。
通過數(shù)據(jù)下載部102來進(jìn)行使用者的數(shù)據(jù)選擇。通信部101根據(jù)上述協(xié)議規(guī)定向服務(wù)器發(fā)送選擇的數(shù)據(jù)名稱或識別符。服務(wù)器側(cè)根據(jù)上述協(xié)議規(guī)定向通信部101發(fā)送選擇的數(shù)據(jù)文件,通過通信數(shù)據(jù)判斷部103判斷通信內(nèi)容為數(shù)據(jù)文件,并發(fā)送給數(shù)據(jù)管理部104。數(shù)據(jù)管理部104對該數(shù)據(jù)進(jìn)行CG角色數(shù)據(jù)、身體動作圖案數(shù)據(jù)和身體動作數(shù)據(jù)、背景數(shù)據(jù)或音樂數(shù)據(jù)的判斷和數(shù)據(jù)大小的特定。在將數(shù)據(jù)下載部102的選擇結(jié)果通過通信部101、通信數(shù)據(jù)判斷部103通知給數(shù)據(jù)管理部104的情況下,由于事先判斷,所以不必該判斷。接著,數(shù)據(jù)管理部104對應(yīng)于數(shù)據(jù)內(nèi)容,對角色形狀數(shù)據(jù)保存部18、角色動作數(shù)據(jù)保存部19、背景數(shù)據(jù)保存部20、紋路數(shù)據(jù)保存部21及音樂數(shù)據(jù)保存部22進(jìn)行保存用空區(qū)域的詢問,在存在空區(qū)域的情況下,將數(shù)據(jù)文件發(fā)送給該保存部。該保存部保存數(shù)據(jù)文件,將保存的地址發(fā)送給數(shù)據(jù)管理部104。數(shù)據(jù)管理部104對應(yīng)于數(shù)據(jù)內(nèi)容,向管理表追加應(yīng)保存在管理表中的數(shù)據(jù)。例如,在圖3的CG角色數(shù)據(jù)的情況下,追加4作為CG角色I(xiàn)D,向該欄中記入從保存部返回的地址。其它數(shù)據(jù)的情況也一樣。完成管理表追記后,將完成通知通過通信數(shù)據(jù)判斷部103、通信部101發(fā)送給數(shù)據(jù)下載部102,通過通信部101將數(shù)據(jù)下載結(jié)束發(fā)送給服務(wù)器,下載處理結(jié)束。
在沒有數(shù)據(jù)保存區(qū)域時,將沒有數(shù)據(jù)保存區(qū)域通過通信數(shù)據(jù)判斷部103、通信部101通知數(shù)據(jù)下載部102。數(shù)據(jù)下載部102通知使用者沒有保存區(qū)域(如上所述顯示在顯示部15中等),下載處理與上述一樣,將完成通知通過通信數(shù)據(jù)判斷部103、通信部101發(fā)送給數(shù)據(jù)下載部102,通過通信部101向服務(wù)器發(fā)送數(shù)據(jù)下載結(jié)束,下載處理結(jié)束。
在語音數(shù)據(jù)通信時,通信數(shù)據(jù)判斷部03判斷是語音數(shù)據(jù),發(fā)送給語音處理部5。
另外,本發(fā)明的實(shí)施例1、2可實(shí)現(xiàn)為對具有語音通信部、顯示部、語音輸入輸出部、中央運(yùn)算裝置和存儲器的裝置的程序。例如,例如是便攜電話、袖珍計算機(jī)、帶顯示裝置的固定電話機(jī)、帶通信功能的車載終端器、個人計算機(jī)等。但是,具有專用的三維處理裝置或語音輸入輸出裝置、語音處理裝置的設(shè)備可使處理高速化。在個人計算機(jī)的情況下,使用具有三維繪圖板和聲霸板的裝置有效。另外,顯示部15可使用CRT、液晶、有機(jī)EL等,不管其種類如何。
圖8(a)、(b)表示本發(fā)明的虛擬電視通信的示意圖,通過如上結(jié)構(gòu),顯示對應(yīng)于選擇接收對方的CG角色,享受與CG角色的對話。另外,也同樣顯示使用者本人,享受虛擬空間中的對話。另外,設(shè)定時的動作也可在通話開始前、通話開始后進(jìn)行動作。
另外,圖10(a)是表示具備本發(fā)明虛擬電視通信功能的個人計算機(jī)(下面記為PC)1001的圖,具備揚(yáng)聲器1002和麥克1003。
使用者若選擇自身或通信對方至少一方的角色開始通話時,感情推定部10根據(jù)通話中的語音來推定感情。根據(jù)該感情推定,使畫面1004中顯示的CG角色變化動作和表情,所以是更具有娛樂性的虛擬電視通話裝置。另外,由于PC1001的使用者可自由選擇對方的角色和聲色,所以可以是例如在上司的設(shè)定中將背景設(shè)定設(shè)為森林、將角色設(shè)定設(shè)為熊、將語音變小等具備高的娛樂性的虛擬電視通話功能的PC1001。
圖10(b)是表示具備本發(fā)明的虛擬電視通話功能的便攜電話1005的圖,該便攜電話1005具備免提功能,邊進(jìn)行感情推定的動作,邊在畫面1006中顯示選擇的角色。因此,可以是具有娛樂性高的虛擬電視通話功能的便攜電話1005。
另外,為了提高本發(fā)明的感情推定功能,也可向虛擬電視通話裝置附加新的傳感器部。圖11表示在圖1或圖2的虛擬電視通話裝置的功能框圖中添加傳感器部1101后的框圖。傳感器部1101是檢測使用者的體溫和心跳、握便攜設(shè)備的握力等變化,向感情推定部10傳遞變化用的處理部。例如,傳感器部1101通過熱敏電阻檢測使用者的體溫變化,將結(jié)果傳遞給感情推定部10,感情推定部10使用作為新的感情推定參數(shù)的體溫變化來確實(shí)進(jìn)行感情推定。
另外,圖12(a)是表示為了感情推定而具備各種傳感器部的便攜電話的使用例,具備檢測使用者握力變化的握力測定部1201。圖12(b)是表示為了感情推定而具備各種傳感器部的便攜電話的參考圖,具備測定握力測定部1201及使用者體溫變化用的熱敏電阻1202。因此,使用上述語音數(shù)據(jù)以外的新的參數(shù)來進(jìn)行較確實(shí)的感情推定功能。
另外,本發(fā)明不限于上述各實(shí)施例,可在其可利用范圍內(nèi)實(shí)施,在上述實(shí)施例中說明為在畫面中顯示使用者和通信對方至少一方的角色的虛擬電視通話裝置,但例如也可認(rèn)為是PC通信等對匯聚多人的通信進(jìn)行感情推定,在畫面中顯示伴隨感情推定的多個角色的虛擬電視通話裝置。另外,將感情推定結(jié)果反映在音樂數(shù)據(jù)中,輸出陰暗、明快、歡樂、和諧等音樂來進(jìn)行CG角色的表情動作和身體動作的控制。
發(fā)明效果通過上述結(jié)構(gòu),本發(fā)明可將通信對方顯示為接聽者選擇的虛擬三維CG角色,利用利用通信對方的對話,與虛擬三維CG角色進(jìn)行語音對話。由此,通過與所謂看通信對方的臉或看類似圖像、完成變?yōu)椴徽鎸?shí)角色的功能不同的方法,可實(shí)現(xiàn)提高語音對話娛樂性的新的通信終端。另外,本發(fā)明不象上述現(xiàn)有技術(shù)那樣使用服務(wù)器裝置,可實(shí)現(xiàn)實(shí)現(xiàn)虛擬空間中對話的帶顯示裝置的通話裝置。另外,因?yàn)榭上螺d,所以可將CG數(shù)據(jù)更新為新數(shù)據(jù)。即使通話對方是同一人,也可通過交換CG角色,并由語音變換來變更語音,享受與各種CG角色的對話。
另外,是在接聽者側(cè)可選擇自己的角色及通話對方的角色的同時,可使用感情推定功能對適于通話中對話的感情表現(xiàn)進(jìn)行表征的提高娛樂性的新的虛擬電視通話裝置。
如上所述,認(rèn)為本發(fā)明的效果絕大部分在于對語音對話裝置的對話帶來新的享受和喜悅。
權(quán)利要求
1.一種虛擬電視通話裝置,其特征在于具備通信單元,進(jìn)行語音通信;角色選擇單元,選擇使用者本人或通信對方至少一方的CG角色形狀數(shù)據(jù);語音輸入單元,輸入上述使用者本人的語音;語音輸出單元,輸出上述通信對方的語音;語音分析單元,對通過上述通信單元接收的通信對方的語音數(shù)據(jù)或上述接收的通信對方語音數(shù)據(jù)和通過上述語音輸入單元輸入的使用者本人的語音數(shù)據(jù)兩者進(jìn)行語音分析;感情推定單元,使用上述語音分析單元的語音分析結(jié)果,推定通信對方或通信對方和使用者本人的感情狀態(tài);動作控制單元,根據(jù)上述感情推定單元進(jìn)行上述CG角色的動作控制;描繪單元,根據(jù)上述CG角色形狀數(shù)據(jù)和上述動作控制單元的控制信息,使用生成的動作數(shù)據(jù),來進(jìn)行描繪處理,并生成圖像;和顯示單元,顯示上述描繪單元生成的圖像。
2.根據(jù)權(quán)利要求1所述的虛擬電視通話裝置,其特征在于上述感情推定單元向上述動作控制單元通知該感情推定單元的推定結(jié)果,上述動作控制單元基于該通知結(jié)果來特定上述動作數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的虛擬電視通話裝置,其特征在于上述動作控制單元具備嘴唇動作控制單元,該嘴唇動作控制裝置通過上述語音分析單元的語音分析結(jié)果,生成上述CG角色數(shù)據(jù)的嘴唇動作控制信息,上述描繪單元根據(jù)上述CG角色形狀數(shù)據(jù)和上述嘴唇動作控制單元的控制信息,使用生成的嘴唇動作數(shù)據(jù),來進(jìn)行描繪處理,并生成圖像。
4.根據(jù)權(quán)利要求3所述的虛擬電視通話裝置,其特征在于上述感情推定單元向上述嘴唇動作控制單元通知該感情推定單元的推定結(jié)果,上述嘴唇動作控制單元基于該通知結(jié)果來特定上述嘴唇動作數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備嘴唇動作數(shù)據(jù)的保存單元;和可從外部裝置進(jìn)行嘴唇動作數(shù)據(jù)的下載、并保存在上述保存單元中的單元。
6.根據(jù)權(quán)利要求4所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備嘴唇動作圖案數(shù)據(jù)的保存單元;和可從外部單元裝置進(jìn)行嘴唇動作圖案數(shù)據(jù)的下載、并保存在上述保存單元中的單元。
7.根據(jù)權(quán)利要求1所述的虛擬電視通話裝置,其特征在于上述動作控制單元具備進(jìn)行上述CG角色身體動作控制的身體動作控制單元,上述描繪單元根據(jù)上述身體動作控制單元生成的身體動作控制信息,使用身體動作數(shù)據(jù)進(jìn)行描繪處理。
8.根據(jù)權(quán)利要求7所述的虛擬電視通話裝置,其特征在于上述感情推定單元向上述身體動作控制單元通知該感情推定單元的推定結(jié)果,上述身體動作控制單元基于該通知結(jié)果來特定上述身體動作數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備身體動作數(shù)據(jù)的保存單元;和可從外部單元裝置進(jìn)行身體動作數(shù)據(jù)的下載、并保存在上述保存單元中的單元。
10.根據(jù)權(quán)利要求8所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置還具備確定特定身體動作的身體動作圖案數(shù)據(jù)的選擇單元,上述身體動作控制單元根據(jù)上述選擇單元選擇的上述身體動作圖案數(shù)據(jù)進(jìn)行身體控制。
11.根據(jù)權(quán)利要求10所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備身體動作圖案數(shù)據(jù)的保存單元;和可從外部單元裝置進(jìn)行身體動作圖案數(shù)據(jù)的下載、并保存在上述保存單元中的單元。
12.根據(jù)權(quán)利要求8所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備可控制CG角色的身體動作的指定和開始的單元。
13.根據(jù)權(quán)利要求1所述的虛擬電視通話裝置,其特征在于上述動作控制單元具備進(jìn)行上述CG角色表情動作控制的表情控制單元;上述描繪裝置根據(jù)使用表情動作數(shù)據(jù)來進(jìn)行描繪處理,該表情動作數(shù)據(jù)基于上述表情控制裝置生成的表情動作控制信息。
14.根據(jù)權(quán)利要求13所述的虛擬電視通話裝置,其特征在于上述感情推定單元向上述表情控制單元通知該感情推定單元的推定結(jié)果,上述表情控制單元基于該通知結(jié)果來特定上述表情動作數(shù)據(jù)。
15.根據(jù)權(quán)利要求14所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備表情動作數(shù)據(jù)的保存單元;和可從外部單元裝置進(jìn)行表情動作數(shù)據(jù)的下載、并保存在上述保存單元中的單元。
16.根據(jù)權(quán)利要求14所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備表情圖案數(shù)據(jù)的保存單元;和可從外部單元裝置進(jìn)行表情圖案數(shù)據(jù)的下載、并保存在上述保存單元中的單元。
17.根據(jù)權(quán)利要求14所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備可控制CG角色的表情動作的指定和開始的單元。
18.根據(jù)權(quán)利要求1所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置還具備將接收到的通信對方的語音變換為其它語音的語音變換單元。
19.根據(jù)權(quán)利要求18所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置還具備語音選擇輸入單元,該語音選擇輸入裝置在將通過上述語音變換單元接收到的通信對方的語音變換為其它語音時,可選擇其音質(zhì)。
20.根據(jù)權(quán)利要求1所述的虛擬電視通話裝置,其特征在于上述描繪單元在從通信對方通信收信時生成該通信對方的CG角色圖像,上述顯示單元在從上述通信收信時到語音通信開始前,顯示上述CG角色的圖像,來表示語音通信等待狀態(tài)。
21.根據(jù)權(quán)利要求1所述的虛擬電視通話裝置,其特征在于上述語音輸出單元在從通信對方通信收信時,輸出分別對應(yīng)于該通信對方的音樂數(shù)據(jù),來表示語音通信等待狀態(tài)。
22.根據(jù)權(quán)利要求21所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備音樂數(shù)據(jù)的保存單元;和從外部裝置進(jìn)行音樂數(shù)據(jù)的下載、來保存在上述保存單元中的單元。
23.根據(jù)權(quán)利要求1所述的虛擬電視通話裝置,其特征在于上述描繪單元使用背景數(shù)據(jù)進(jìn)行描繪處理,并生成圖像。
24.根據(jù)權(quán)利要求23所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置還具備進(jìn)行背景數(shù)據(jù)選擇的背景選擇單元。
25.根據(jù)權(quán)利要求24所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備背景數(shù)據(jù)的保存單元;和從外部裝置進(jìn)行背景數(shù)據(jù)的下載、并保存在上述保存單元中的單元。
26.根據(jù)權(quán)利要求1所述的虛擬電視通話裝置,其特征在于上述描繪單元進(jìn)行三維描繪處理,并生成三維圖像。
27.根據(jù)權(quán)利要求1所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備CG角色的衣類紋路數(shù)據(jù)的保存單元;和從外部裝置進(jìn)行CG角色衣類紋路數(shù)據(jù)下載、并保存在上述保存單元中的單元。
28.根據(jù)權(quán)利要求1所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備CG角色形狀數(shù)據(jù)的保存單元;和從外部裝置進(jìn)行CG角色形狀數(shù)據(jù)下載、并保存在上述保存單元中的單元。
29.根據(jù)權(quán)利要求1所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備是否進(jìn)行CG角色顯示的顯示模式的選擇單元。
30.根據(jù)權(quán)利要求29所述的虛擬電視通話裝置,其特征在于上述顯示模式是僅進(jìn)行通信對方的CG角色顯示的通信對方顯示模式、顯示通信對方和使用者本人的CG角色的同時顯示模式、不進(jìn)行CG角色顯示的非顯示模式之一。
31.根據(jù)權(quán)利要求1所述的虛擬電視通話裝置,其特征在于上述虛擬電視通話裝置具備用于從根據(jù)使用者意圖的視點(diǎn)方向進(jìn)行CG角色的顯示的視點(diǎn)變更單元。
32.一種虛擬電視通話系統(tǒng),至少在使用者與通信對方的通話裝置間進(jìn)行通話,其特征在于該虛擬電視通話系統(tǒng)至少由使用者的通話裝置和通信對方的通話裝置構(gòu)成,上述通話裝置具備通信單元,進(jìn)行語音通信;角色選擇單元,選擇使用者本人或通信對方至少一方的CG角色形狀數(shù)據(jù);語音輸入單元,輸入上述使用者本人語音;語音輸出單元,輸出上述通信對方的語音;語音分析單元,對通過上述通信單元接收的通信對方的語音數(shù)據(jù)或通過上述接收的通信對方語音數(shù)據(jù)和上述語音輸入單元輸入的使用者本人的語音數(shù)據(jù)兩者進(jìn)行語音分析;感情推定單元,使用上述語音分析單元的語音分析結(jié)果,推定通信對方或通信對方和使用者本人的感情狀態(tài);動作控制單元,根據(jù)上述感情推定單元進(jìn)行上述CG角色的動作控制;描繪單元,根據(jù)上述CG角色形狀數(shù)據(jù)和上述動作控制單元的控制信息,使用生成的動作數(shù)據(jù),來進(jìn)行描繪處理,并生成圖像;和顯示單元,顯示上述描繪單元生成的圖像。
33.根據(jù)權(quán)利要求32所述的虛擬電視通話系統(tǒng),其特征在于上述感情推定單元向上述動作控制單元通知該感情推定單元的推定結(jié)果,上述動作控制單元基于該通知結(jié)果來特定上述動作數(shù)據(jù)。
34.一種程序,至少通過通信對方和使用者進(jìn)行通信,用于通信對方裝置與自裝置進(jìn)行虛擬電視通話,其特征在于包括通信步驟,進(jìn)行語音通信;角色選擇步驟,選擇使用者本人或通信對方至少一方的CG角色形狀數(shù)據(jù);語音輸入步驟,輸入上述使用者本人語音;語音輸出步驟,輸出上述通信對方的語音;語音分析步驟,對上述通信步驟接收的通信對方的語音數(shù)據(jù)或上述接收的通信對方語音數(shù)據(jù)和上述語音輸入步驟輸入的使用者本人的語音數(shù)據(jù)兩者進(jìn)行語音分析;感情推定步驟,使用上述語音分析步驟的語音分析結(jié)果,推定通信對方或通信對方和使用者本人的感情狀態(tài);動作控制步驟,根據(jù)上述感情推定步驟進(jìn)行上述CG角色的動作控制;描繪步驟,根據(jù)上述CG角色形狀數(shù)據(jù)和上述動作控制步驟的控制信息,使用生成的動作數(shù)據(jù),來進(jìn)行描繪處理,并生成圖像;和顯示步驟,顯示上述描繪步驟生成的圖像。
35.根據(jù)權(quán)利要求34所述的程序,其特征在于上述感情推定步驟基于該感情推定步驟的推定結(jié)果,來特定上述動作數(shù)據(jù)。
全文摘要
本發(fā)明提供一種將通信對方顯示為接聽者選擇的虛擬三維CG角色,并通過CG角色進(jìn)行語音對話的帶顯示功能的通信終端。通信部(1)進(jìn)行語音通信,角色背景選擇輸入部(2)選擇對應(yīng)于通話對方的CG角色。語音處理部5進(jìn)行通話必需的語音處理,語音變換部(6)進(jìn)行語音變換,并從語音輸出部(7)輸出。語音輸入部(8)取得語音,語音分析部(9)進(jìn)行語音分析,感情推定部(10)根據(jù)語音分析結(jié)果進(jìn)行感情推定。嘴唇動作控制部(11)、身體動作控制部(12)、表情控制部(13)向三維描繪部(14)傳送控制信息,來生成圖像后,并由顯示部(15)顯示。
文檔編號G06T13/40GK1427626SQ0215747
公開日2003年7月2日 申請日期2002年12月20日 優(yōu)先權(quán)日2001年12月20日
發(fā)明者望月義幸, 折本勝則, 樋尻利紀(jì), 大谷尚毅, 中俊彌, 山本剛司, 原重夫 申請人:松下電器產(chǎn)業(yè)株式會社