數(shù)字人生成方法、介質(zhì)及裝置與流程

文檔序號：39805270發(fā)布日期：2024-10-29 17:21閱讀：5來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本申請涉及數(shù)字人，特別涉及一種數(shù)字人生成方法、介質(zhì)及裝置。

背景技術(shù)：

1、傳統(tǒng)的真人直播行業(yè)為真人主播，其存在如下弊端：需要大量時間和精力進(jìn)行準(zhǔn)備和直播，且受限于個人工作時間；受工作時間、情緒和疲勞等因素影響，服務(wù)質(zhì)量不穩(wěn)定。會導(dǎo)致客戶在高峰時段可能無法得到及時響應(yīng)，影響客戶滿意度；真人導(dǎo)購數(shù)量有限，難以在繁忙時段為每位客戶提供個性化的購物建議。會導(dǎo)致客戶購物體驗不佳，影響銷售轉(zhuǎn)化率。

2、因此，采用數(shù)字人替代真人，成為一種新的直播方式。但當(dāng)前的數(shù)字人仍然存在可改進(jìn)之處，即，虛擬數(shù)字人行為表現(xiàn)缺乏真實感，尤其在情感表達(dá)方面。

技術(shù)實現(xiàn)思路

1、本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。為此，本發(fā)明的一個目的在于提出一種數(shù)字人生成方法，能夠有效提高數(shù)字人情感表達(dá)效果，進(jìn)而提高數(shù)字人的真實程度。

2、第一方面，本發(fā)明提出了一種數(shù)字人生成方法，包括以下步驟：獲取原始圖像數(shù)據(jù)，并對所述原始圖像數(shù)據(jù)進(jìn)行特征提取，以得到所述原始圖像數(shù)據(jù)對應(yīng)的表情系數(shù)和頭部姿態(tài)信息；基于所述表情系數(shù)和所述頭部姿態(tài)信息進(jìn)行合成，以得到數(shù)字人模型；獲取語音數(shù)據(jù)，并基于tts模型對所述語音數(shù)據(jù)進(jìn)行情感標(biāo)記，以及對所述語音數(shù)據(jù)進(jìn)行多層次音調(diào)劃分，以生成語音特征數(shù)據(jù)；基于所述數(shù)字人模型和所述語音特征數(shù)據(jù)進(jìn)行合成，以生成最終數(shù)字人視頻。

3、根據(jù)本發(fā)明實施例的數(shù)字人生成方法，首先，獲取原始圖像數(shù)據(jù)，并對所述原始圖像數(shù)據(jù)進(jìn)行特征提取，以得到所述原始圖像數(shù)據(jù)對應(yīng)的表情系數(shù)和頭部姿態(tài)信息；接著，基于所述表情系數(shù)和所述頭部姿態(tài)信息進(jìn)行合成，以得到數(shù)字人模型；然后，獲取語音數(shù)據(jù)，并基于tts模型對所述語音數(shù)據(jù)進(jìn)行情感標(biāo)記，以及對所述語音數(shù)據(jù)進(jìn)行多層次音調(diào)劃分，以生成語音特征數(shù)據(jù)；接著，基于所述數(shù)字人模型和所述語音特征數(shù)據(jù)進(jìn)行合成，以生成最終數(shù)字人視頻；從而實現(xiàn)有效提高數(shù)字人情感表達(dá)效果，進(jìn)而提高數(shù)字人的真實程度。

4、在一些實施例中，在基于所述數(shù)字人模型和所述語音特征數(shù)據(jù)進(jìn)行合成之后，還包括：將合成得到的合成視頻輸入到校驗?zāi)K，以通過所述校驗?zāi)K對所述合成視頻進(jìn)行口型同步校驗，并在口型同步校驗通過之后，將所述合成視頻作為最終數(shù)字人視頻。

5、在一些實施例中，對所述原始圖像數(shù)據(jù)進(jìn)行特征提取，以得到所述原始圖像數(shù)據(jù)對應(yīng)的表情系數(shù)和頭部姿態(tài)信息，包括：通過表情系數(shù)模型提取所述原始圖像數(shù)據(jù)的表情系數(shù)，所述表情系數(shù)包括多個人臉關(guān)鍵點和合成面具；通過頭部姿態(tài)模型提取所述原始圖像數(shù)據(jù)的頭部姿態(tài)信息。

6、在一些實施例中，所述表情系數(shù)模型通過以下方式建立：將初始系數(shù)輸入到audioencoder和wav2lip中，audio?encoder生成的數(shù)據(jù)傳給一個全連接層mapping，調(diào)整β0和zblink以控制mapping的訓(xùn)練結(jié)果，再把mapping的訓(xùn)練結(jié)果傳入到β中，同時和預(yù)設(shè)好的3dmm模型re和rd，輸出人臉關(guān)鍵點和合成的面具，并計算出loss，以獲得表情系數(shù)模型。

7、在一些實施例中，所述頭部姿態(tài)模型通過以下方式建立：采用encoder-decoder框架建模，采用的vae?encoder和vae?decoder為兩層mlp網(wǎng)絡(luò)，將原始數(shù)據(jù)頭部姿態(tài)系數(shù)和圖片風(fēng)格特性輸入，并將原始頭部姿態(tài)系數(shù)嵌入到高斯分布中，調(diào)整原始數(shù)據(jù)頭部姿態(tài)系數(shù)和圖片風(fēng)格特性，得到穩(wěn)定性及時間最優(yōu)的頭部運動，以獲得頭部姿態(tài)模型。

8、在一些實施例中，通過人臉合成模型對所述表情系數(shù)和所述頭部姿態(tài)信息進(jìn)行合成，其中，所述人臉合成模型通過以下方式建立：采用face?vid2vid進(jìn)行人臉合成，將驅(qū)動圖和原始圖輸入就可以讓原始圖擁有驅(qū)動圖的效果，最后用的卷積網(wǎng)絡(luò)則是mappingnet，用真實的系數(shù)替換expnet模型得到系數(shù)，使用超分模型gfpgan對牙齒部分經(jīng)行處理，獲得人臉合成模型。

9、在一些實施例中，獲取語音數(shù)據(jù)，包括：獲取用戶上傳的待播放目標(biāo)地址信息和數(shù)字人問答數(shù)據(jù)，并基于所述待播放目標(biāo)地址信息獲取相應(yīng)的文本信息；根據(jù)所述文本信息查詢所述數(shù)字人問答數(shù)據(jù)，以得到所述文本信息對應(yīng)的答復(fù)信息；基于tts模型將所述答復(fù)信息轉(zhuǎn)換為語音數(shù)據(jù)。

10、在一些實施例中，所述原始圖像數(shù)據(jù)包括：虛擬數(shù)字人形象、場景背景圖、場景貼圖、用戶圖像、用戶視頻。

11、第二方面，本發(fā)明實施例提出了一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，所述計算機程序能夠被所述計算機可讀存儲介質(zhì)所在設(shè)備的處理器執(zhí)行，以實現(xiàn)如上所述的數(shù)字人生成方法。

12、第三方面，本發(fā)明實施例提出了一種數(shù)字人生成裝置，包括：特征提取模塊，所述特征提取模塊用于獲取原始圖像數(shù)據(jù)，并對所述原始圖像數(shù)據(jù)進(jìn)行特征提取，以得到所述原始圖像數(shù)據(jù)對應(yīng)的表情系數(shù)和頭部姿態(tài)信息；合成模塊，所述合成模塊用于基于所述表情系數(shù)和所述頭部姿態(tài)信息進(jìn)行合成，以得到數(shù)字人模型；語音處理模塊，所述語音處理模塊用于獲取語音數(shù)據(jù)，并基于tts模型對所述語音數(shù)據(jù)進(jìn)行情感標(biāo)記，以及對所述語音數(shù)據(jù)進(jìn)行多層次音調(diào)劃分，以生成語音特征數(shù)據(jù)；數(shù)字人生成模塊，所述數(shù)字人生成模塊用于基于所述數(shù)字人模型和所述語音特征數(shù)據(jù)進(jìn)行合成，以生成最終數(shù)字人視頻。

13、根據(jù)本發(fā)明實施例的數(shù)字人生成裝置，通過設(shè)置特征提取模塊用于獲取原始圖像數(shù)據(jù)，并對所述原始圖像數(shù)據(jù)進(jìn)行特征提取，以得到所述原始圖像數(shù)據(jù)對應(yīng)的表情系數(shù)和頭部姿態(tài)信息；合成模塊用于基于所述表情系數(shù)和所述頭部姿態(tài)信息進(jìn)行合成，以得到數(shù)字人模型；語音處理模塊用于獲取語音數(shù)據(jù)，并基于tts模型對所述語音數(shù)據(jù)進(jìn)行情感標(biāo)記，以及對所述語音數(shù)據(jù)進(jìn)行多層次音調(diào)劃分，以生成語音特征數(shù)據(jù)；數(shù)字人生成模塊用于基于所述數(shù)字人模型和所述語音特征數(shù)據(jù)進(jìn)行合成，以生成最終數(shù)字人視頻；從而實現(xiàn)有效提高數(shù)字人情感表達(dá)效果，進(jìn)而提高數(shù)字人的真實程度。

14、本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實踐了解到。

技術(shù)特征：

1.一種數(shù)字人生成方法，其特征在于，包括以下步驟：

2.如權(quán)利要求1所述的數(shù)字人生成方法，其特征在于，在基于所述數(shù)字人模型和所述語音特征數(shù)據(jù)進(jìn)行合成之后，還包括：

3.如權(quán)利要求1所述的數(shù)字人生成方法，其特征在于，對所述原始圖像數(shù)據(jù)進(jìn)行特征提取，以得到所述原始圖像數(shù)據(jù)對應(yīng)的表情系數(shù)和頭部姿態(tài)信息，包括：

4.如權(quán)利要求3所述的數(shù)字人生成方法，其特征在于，所述表情系數(shù)模型通過以下方式建立：

5.如權(quán)利要求3所述的數(shù)字人生成方法，其特征在于，所述頭部姿態(tài)模型通過以下方式建立：

6.如權(quán)利要求1所述的數(shù)字人生成方法，其特征在于，通過人臉合成模型對所述表情系數(shù)和所述頭部姿態(tài)信息進(jìn)行合成，其中，所述人臉合成模型通過以下方式建立：

7.如權(quán)利要求1所述的數(shù)字人生成方法，其特征在于，獲取語音數(shù)據(jù)，包括：

8.如權(quán)利要求1所述的數(shù)字人生成方法，其特征在于，所述原始圖像數(shù)據(jù)包括：虛擬數(shù)字人形象、場景背景圖、場景貼圖、用戶圖像、用戶視頻。

9.一種計算機可讀存儲介質(zhì)，其特征在于，存儲有計算機程序，所述計算機程序能夠被所述計算機可讀存儲介質(zhì)所在設(shè)備的處理器執(zhí)行，以實現(xiàn)如權(quán)利要求1至8任意一項所述的數(shù)字人生成方法。

10.一種數(shù)字人生成裝置，其特征在于，包括：

技術(shù)總結(jié)
本發(fā)明公開了一種數(shù)字人生成方法，包括以下步驟：獲取原始圖像數(shù)據(jù)，并對所述原始圖像數(shù)據(jù)進(jìn)行特征提取，以得到所述原始圖像數(shù)據(jù)對應(yīng)的表情系數(shù)和頭部姿態(tài)信息；基于所述表情系數(shù)和所述頭部姿態(tài)信息進(jìn)行合成，以得到數(shù)字人模型；獲取語音數(shù)據(jù)，并基于TTS模型對所述語音數(shù)據(jù)進(jìn)行情感標(biāo)記，以及對所述語音數(shù)據(jù)進(jìn)行多層次音調(diào)劃分，以生成語音特征數(shù)據(jù)；基于所述數(shù)字人模型和所述語音特征數(shù)據(jù)進(jìn)行合成，以生成最終數(shù)字人視頻。能夠有效提高數(shù)字人情感表達(dá)效果，進(jìn)而提高數(shù)字人的真實程度。

技術(shù)研發(fā)人員：劉少可,李賀,何偉龍,王占興
受保護(hù)的技術(shù)使用者：廈門璟宸毓智能科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/28

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉少可,李賀,何偉龍,王占興
技術(shù)所有人：廈門璟宸毓智能科技有限公司
我是此專利的發(fā)明人

上一篇：帶束光纜的制作方法
上一篇：一種檢測環(huán)保氣體放電分解產(chǎn)物的方法和系統(tǒng)與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

數(shù)字人生成方法、介質(zhì)及裝置與流程