本申請涉及數(shù)字人,特別涉及一種數(shù)字人生成方法、介質(zhì)及裝置。
背景技術(shù):
1、傳統(tǒng)的真人直播行業(yè)為真人主播,其存在如下弊端:需要大量時間和精力進(jìn)行準(zhǔn)備和直播,且受限于個人工作時間;受工作時間、情緒和疲勞等因素影響,服務(wù)質(zhì)量不穩(wěn)定。會導(dǎo)致客戶在高峰時段可能無法得到及時響應(yīng),影響客戶滿意度;真人導(dǎo)購數(shù)量有限,難以在繁忙時段為每位客戶提供個性化的購物建議。會導(dǎo)致客戶購物體驗不佳,影響銷售轉(zhuǎn)化率。
2、因此,采用數(shù)字人替代真人,成為一種新的直播方式。但當(dāng)前的數(shù)字人仍然存在可改進(jìn)之處,即,虛擬數(shù)字人行為表現(xiàn)缺乏真實感,尤其在情感表達(dá)方面。
技術(shù)實現(xiàn)思路
1、本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。為此,本發(fā)明的一個目的在于提出一種數(shù)字人生成方法,能夠有效提高數(shù)字人情感表達(dá)效果,進(jìn)而提高數(shù)字人的真實程度。
2、第一方面,本發(fā)明提出了一種數(shù)字人生成方法,包括以下步驟:獲取原始圖像數(shù)據(jù),并對所述原始圖像數(shù)據(jù)進(jìn)行特征提取,以得到所述原始圖像數(shù)據(jù)對應(yīng)的表情系數(shù)和頭部姿態(tài)信息;基于所述表情系數(shù)和所述頭部姿態(tài)信息進(jìn)行合成,以得到數(shù)字人模型;獲取語音數(shù)據(jù),并基于tts模型對所述語音數(shù)據(jù)進(jìn)行情感標(biāo)記,以及對所述語音數(shù)據(jù)進(jìn)行多層次音調(diào)劃分,以生成語音特征數(shù)據(jù);基于所述數(shù)字人模型和所述語音特征數(shù)據(jù)進(jìn)行合成,以生成最終數(shù)字人視頻。
3、根據(jù)本發(fā)明實施例的數(shù)字人生成方法,首先,獲取原始圖像數(shù)據(jù),并對所述原始圖像數(shù)據(jù)進(jìn)行特征提取,以得到所述原始圖像數(shù)據(jù)對應(yīng)的表情系數(shù)和頭部姿態(tài)信息;接著,基于所述表情系數(shù)和所述頭部姿態(tài)信息進(jìn)行合成,以得到數(shù)字人模型;然后,獲取語音數(shù)據(jù),并基于tts模型對所述語音數(shù)據(jù)進(jìn)行情感標(biāo)記,以及對所述語音數(shù)據(jù)進(jìn)行多層次音調(diào)劃分,以生成語音特征數(shù)據(jù);接著,基于所述數(shù)字人模型和所述語音特征數(shù)據(jù)進(jìn)行合成,以生成最終數(shù)字人視頻;從而實現(xiàn)有效提高數(shù)字人情感表達(dá)效果,進(jìn)而提高數(shù)字人的真實程度。
4、在一些實施例中,在基于所述數(shù)字人模型和所述語音特征數(shù)據(jù)進(jìn)行合成之后,還包括:將合成得到的合成視頻輸入到校驗?zāi)K,以通過所述校驗?zāi)K對所述合成視頻進(jìn)行口型同步校驗,并在口型同步校驗通過之后,將所述合成視頻作為最終數(shù)字人視頻。
5、在一些實施例中,對所述原始圖像數(shù)據(jù)進(jìn)行特征提取,以得到所述原始圖像數(shù)據(jù)對應(yīng)的表情系數(shù)和頭部姿態(tài)信息,包括:通過表情系數(shù)模型提取所述原始圖像數(shù)據(jù)的表情系數(shù),所述表情系數(shù)包括多個人臉關(guān)鍵點和合成面具;通過頭部姿態(tài)模型提取所述原始圖像數(shù)據(jù)的頭部姿態(tài)信息。
6、在一些實施例中,所述表情系數(shù)模型通過以下方式建立:將初始系數(shù)輸入到audioencoder和wav2lip中,audio?encoder生成的數(shù)據(jù)傳給一個全連接層mapping,調(diào)整β0和zblink以控制mapping的訓(xùn)練結(jié)果,再把mapping的訓(xùn)練結(jié)果傳入到β中,同時和預(yù)設(shè)好的3dmm模型re和rd,輸出人臉關(guān)鍵點和合成的面具,并計算出loss,以獲得表情系數(shù)模型。
7、在一些實施例中,所述頭部姿態(tài)模型通過以下方式建立:采用encoder-decoder框架建模,采用的vae?encoder和vae?decoder為兩層mlp網(wǎng)絡(luò),將原始數(shù)據(jù)頭部姿態(tài)系數(shù)和圖片風(fēng)格特性輸入,并將原始頭部姿態(tài)系數(shù)嵌入到高斯分布中,調(diào)整原始數(shù)據(jù)頭部姿態(tài)系數(shù)和圖片風(fēng)格特性,得到穩(wěn)定性及時間最優(yōu)的頭部運動,以獲得頭部姿態(tài)模型。
8、在一些實施例中,通過人臉合成模型對所述表情系數(shù)和所述頭部姿態(tài)信息進(jìn)行合成,其中,所述人臉合成模型通過以下方式建立:采用face?vid2vid進(jìn)行人臉合成,將驅(qū)動圖和原始圖輸入就可以讓原始圖擁有驅(qū)動圖的效果,最后用的卷積網(wǎng)絡(luò)則是mappingnet,用真實的系數(shù)替換expnet模型得到系數(shù),使用超分模型gfpgan對牙齒部分經(jīng)行處理,獲得人臉合成模型。
9、在一些實施例中,獲取語音數(shù)據(jù),包括:獲取用戶上傳的待播放目標(biāo)地址信息和數(shù)字人問答數(shù)據(jù),并基于所述待播放目標(biāo)地址信息獲取相應(yīng)的文本信息;根據(jù)所述文本信息查詢所述數(shù)字人問答數(shù)據(jù),以得到所述文本信息對應(yīng)的答復(fù)信息;基于tts模型將所述答復(fù)信息轉(zhuǎn)換為語音數(shù)據(jù)。
10、在一些實施例中,所述原始圖像數(shù)據(jù)包括:虛擬數(shù)字人形象、場景背景圖、場景貼圖、用戶圖像、用戶視頻。
11、第二方面,本發(fā)明實施例提出了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序能夠被所述計算機可讀存儲介質(zhì)所在設(shè)備的處理器執(zhí)行,以實現(xiàn)如上所述的數(shù)字人生成方法。
12、第三方面,本發(fā)明實施例提出了一種數(shù)字人生成裝置,包括:特征提取模塊,所述特征提取模塊用于獲取原始圖像數(shù)據(jù),并對所述原始圖像數(shù)據(jù)進(jìn)行特征提取,以得到所述原始圖像數(shù)據(jù)對應(yīng)的表情系數(shù)和頭部姿態(tài)信息;合成模塊,所述合成模塊用于基于所述表情系數(shù)和所述頭部姿態(tài)信息進(jìn)行合成,以得到數(shù)字人模型;語音處理模塊,所述語音處理模塊用于獲取語音數(shù)據(jù),并基于tts模型對所述語音數(shù)據(jù)進(jìn)行情感標(biāo)記,以及對所述語音數(shù)據(jù)進(jìn)行多層次音調(diào)劃分,以生成語音特征數(shù)據(jù);數(shù)字人生成模塊,所述數(shù)字人生成模塊用于基于所述數(shù)字人模型和所述語音特征數(shù)據(jù)進(jìn)行合成,以生成最終數(shù)字人視頻。
13、根據(jù)本發(fā)明實施例的數(shù)字人生成裝置,通過設(shè)置特征提取模塊用于獲取原始圖像數(shù)據(jù),并對所述原始圖像數(shù)據(jù)進(jìn)行特征提取,以得到所述原始圖像數(shù)據(jù)對應(yīng)的表情系數(shù)和頭部姿態(tài)信息;合成模塊用于基于所述表情系數(shù)和所述頭部姿態(tài)信息進(jìn)行合成,以得到數(shù)字人模型;語音處理模塊用于獲取語音數(shù)據(jù),并基于tts模型對所述語音數(shù)據(jù)進(jìn)行情感標(biāo)記,以及對所述語音數(shù)據(jù)進(jìn)行多層次音調(diào)劃分,以生成語音特征數(shù)據(jù);數(shù)字人生成模塊用于基于所述數(shù)字人模型和所述語音特征數(shù)據(jù)進(jìn)行合成,以生成最終數(shù)字人視頻;從而實現(xiàn)有效提高數(shù)字人情感表達(dá)效果,進(jìn)而提高數(shù)字人的真實程度。
14、本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
1.一種數(shù)字人生成方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的數(shù)字人生成方法,其特征在于,在基于所述數(shù)字人模型和所述語音特征數(shù)據(jù)進(jìn)行合成之后,還包括:
3.如權(quán)利要求1所述的數(shù)字人生成方法,其特征在于,對所述原始圖像數(shù)據(jù)進(jìn)行特征提取,以得到所述原始圖像數(shù)據(jù)對應(yīng)的表情系數(shù)和頭部姿態(tài)信息,包括:
4.如權(quán)利要求3所述的數(shù)字人生成方法,其特征在于,所述表情系數(shù)模型通過以下方式建立:
5.如權(quán)利要求3所述的數(shù)字人生成方法,其特征在于,所述頭部姿態(tài)模型通過以下方式建立:
6.如權(quán)利要求1所述的數(shù)字人生成方法,其特征在于,通過人臉合成模型對所述表情系數(shù)和所述頭部姿態(tài)信息進(jìn)行合成,其中,所述人臉合成模型通過以下方式建立:
7.如權(quán)利要求1所述的數(shù)字人生成方法,其特征在于,獲取語音數(shù)據(jù),包括:
8.如權(quán)利要求1所述的數(shù)字人生成方法,其特征在于,所述原始圖像數(shù)據(jù)包括:虛擬數(shù)字人形象、場景背景圖、場景貼圖、用戶圖像、用戶視頻。
9.一種計算機可讀存儲介質(zhì),其特征在于,存儲有計算機程序,所述計算機程序能夠被所述計算機可讀存儲介質(zhì)所在設(shè)備的處理器執(zhí)行,以實現(xiàn)如權(quán)利要求1至8任意一項所述的數(shù)字人生成方法。
10.一種數(shù)字人生成裝置,其特征在于,包括: