本技術(shù)涉及圖像處理,具體涉及基于文本信息借助三維渲染生成視頻的方法及系統(tǒng)。
背景技術(shù):
1、隨著人工智能技術(shù)的快速發(fā)展,文本到視頻生成已經(jīng)成為一個(gè)熱門研究領(lǐng)域。通過(guò)利用ai大模型,可以實(shí)現(xiàn)從自然語(yǔ)言文本自動(dòng)生成與之對(duì)應(yīng)的視頻內(nèi)容。傳統(tǒng)文生視頻技術(shù)原理,即大規(guī)模深度神經(jīng)網(wǎng)絡(luò)組成的大模型來(lái)實(shí)現(xiàn)自然語(yǔ)言文本向目標(biāo)結(jié)果的轉(zhuǎn)換,期間采取噪音數(shù)據(jù)擴(kuò)散出模仿訓(xùn)練樣本體系文與視頻關(guān)聯(lián)關(guān)系的成果。
2、現(xiàn)有技術(shù)中,基于transformer架構(gòu)的擴(kuò)散模型所合成畫面幀視頻會(huì)存在生成內(nèi)容分辨率低、一致性差,生成內(nèi)容不可控等缺陷問(wèn)題,例如,基于transformer架構(gòu)的擴(kuò)散模型所合成畫面幀視頻可能存在異形缺陷,畫面幀視頻會(huì)呈現(xiàn)反人類常識(shí)的行為或動(dòng)作。采用大模型生成自然語(yǔ)言格式劇本文本,再通過(guò)三維引擎解析格式劇本渲染獲得文生視頻,能夠有效降低大模型合成視頻的不可控性,避免文生視頻中出現(xiàn)一致性錯(cuò)誤。
3、在模型生成格式文本再到三維渲染生成視頻的過(guò)程中,現(xiàn)有技術(shù)需要耗費(fèi)大量的時(shí)間對(duì)劇本場(chǎng)景中的三維模型進(jìn)行渲染,提高圖像視頻的真實(shí)感,存在輸出內(nèi)容隨機(jī)性,不可控,視頻分辨率低等問(wèn)題,同時(shí),現(xiàn)有技術(shù)渲染會(huì)花費(fèi)大量時(shí)間對(duì)不必要的模型細(xì)節(jié)進(jìn)行深度渲染,導(dǎo)致視頻渲染時(shí)間過(guò)長(zhǎng),大幅影響視頻生產(chǎn)速度。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問(wèn)題,提供基于文本信息借助三維渲染生成視頻的方法及系統(tǒng),以解決現(xiàn)有的問(wèn)題。
2、本技術(shù)解決技術(shù)問(wèn)題的方案是提供基于文本信息借助三維渲染生成視頻的方法及系統(tǒng),包括以下步驟:
3、第一方面,本技術(shù)實(shí)施例提供了基于文本信息借助三維渲染生成視頻的方法,該方法包括以下步驟:
4、獲取用戶文本,并采用大語(yǔ)言模型劇本生成器,獲得格式劇本,基于格式劇本描述的3d場(chǎng)景中各3d模型和攝像機(jī)視角數(shù)據(jù),獲得未渲染視頻;基于格式劇本和未渲染視頻中所有圖像的各3d模型,獲取各3d模型對(duì)應(yīng)的格式劇本中的名詞;
5、根據(jù)各3d模型對(duì)應(yīng)的格式劇本中的名詞與用戶文本的名詞的匹配情況,確定各3d模型對(duì)應(yīng)的名詞;根據(jù)各3d模型內(nèi)像素點(diǎn)的數(shù)量,各3d模型與攝像機(jī)視角數(shù)據(jù)的距離,及其對(duì)應(yīng)的每個(gè)名詞與每幀圖像的映射關(guān)系,確定每幀圖像中各3d模型的所有映射數(shù)據(jù)對(duì);
6、基于所述映射數(shù)據(jù)對(duì),分析每幀圖像中各3d模型對(duì)應(yīng)的每個(gè)名詞在用戶文本中的位置分布情況,確定每幀圖像中各3d模型的渲染權(quán)重;
7、基于所述渲染權(quán)重,確定每幀圖像中各3d模型的最短邊長(zhǎng),對(duì)所有3d模型進(jìn)行重構(gòu),通過(guò)渲染引擎的方式對(duì)未渲染視頻進(jìn)行渲染,最終獲得文生視頻。
8、優(yōu)選的,所述未渲染視頻的獲取方法為:
9、將各3d模型和攝像機(jī)焦點(diǎn)位置輸入到三維模型圖像軟件,獲得未渲染視頻,并對(duì)未渲染視頻中每幀圖像的各像素點(diǎn)所屬的3d模型進(jìn)行標(biāo)記。
10、優(yōu)選的,所述獲取各3d模型在格式劇本中對(duì)應(yīng)的名詞,包括:
11、對(duì)格式劇本采用名詞提取算法,獲得格式劇本中所有名詞;
12、將每個(gè)名詞與未渲染視頻中所有圖像中對(duì)應(yīng)的3d模型進(jìn)行標(biāo)注,獲得各3d模型在格式劇本中對(duì)應(yīng)的名詞。
13、優(yōu)選的,所述確定各3d模型對(duì)應(yīng)的名詞,包括:
14、采用名詞提取算法,獲得用戶文本中所有名詞;采用字符串模糊匹配算法,對(duì)各3d模型在格式文本中對(duì)應(yīng)的名詞與用戶文本中的名詞進(jìn)行匹配,將格式文本與用戶文本中匹配的名詞所對(duì)應(yīng)的3d模型,作為各3d模型對(duì)應(yīng)的名詞。
15、優(yōu)選的,所述確定每幀圖像中各3d模型的所有映射數(shù)據(jù)對(duì),包括:
16、計(jì)算每幀圖像中各3d模型的幾何中心與攝像機(jī)視角數(shù)據(jù)中焦點(diǎn)位置之間的距離,記為位置權(quán)重;
17、計(jì)算每幀圖像中各3d模型對(duì)應(yīng)標(biāo)記的像素點(diǎn)的數(shù)量與所述位置權(quán)重的乘積,作為每幀圖像中各3d模型的呈現(xiàn)權(quán)重;
18、將各3d模型在所有圖像的所述呈現(xiàn)權(quán)重按照?qǐng)D像幀序號(hào)順序排列,組成呈現(xiàn)權(quán)重序列,獲取各3d模型的呈現(xiàn)權(quán)重序列中的所有極大值點(diǎn);
19、分析各3d模型對(duì)應(yīng)的每個(gè)名詞在用戶文本中的位置關(guān)系,確定各3d模型對(duì)應(yīng)的每個(gè)名詞的相對(duì)文本位置;
20、分析每個(gè)名詞的相對(duì)文本位置與所述極大值點(diǎn)所對(duì)應(yīng)的圖像幀序號(hào)之間的差異情況,結(jié)合極大值點(diǎn)對(duì)應(yīng)的所述呈現(xiàn)權(quán)重,確定各3d模型對(duì)應(yīng)的每個(gè)名詞與各極大值點(diǎn)的映射判別值;
21、針對(duì)每個(gè)名詞與所有極大值點(diǎn)的所述映射判別值,選取每個(gè)名詞的映射判別值的最大值對(duì)應(yīng)的極大值點(diǎn)及圖像幀序號(hào),將每個(gè)名詞與對(duì)應(yīng)圖像幀序號(hào)組成一個(gè)二維數(shù)組,獲得每幀圖像中各3d模型的所有映射數(shù)據(jù)對(duì)。
22、優(yōu)選的,所述確定各3d模型對(duì)應(yīng)的每個(gè)名詞的相對(duì)文本位置,包括:
23、針對(duì)各3d模型對(duì)應(yīng)的每個(gè)名詞,確定每個(gè)名詞中第一個(gè)字符在用戶文本中的字符位置;
24、將每個(gè)名詞的所述字符位置與用戶文本的所有字符數(shù)量之間的比值,作為各3d模型對(duì)應(yīng)的每個(gè)名詞的相對(duì)文本位置。
25、優(yōu)選的,所述確定各3d模型對(duì)應(yīng)的每個(gè)名詞與各極大值點(diǎn)的映射判別值,包括:,其中,為第m個(gè)3d模型對(duì)應(yīng)的第r個(gè)名詞與第k個(gè)極大值點(diǎn)的映射判別值,為第m個(gè)3d模型對(duì)應(yīng)的第r個(gè)名詞的相對(duì)文本位置,為未渲染視頻的所有圖像的數(shù)量,為第m個(gè)3d模型的呈現(xiàn)權(quán)重序列中第k個(gè)極大值點(diǎn)所對(duì)應(yīng)的圖像幀序號(hào),為第m個(gè)3d模型的呈現(xiàn)權(quán)重序列中第k個(gè)極大值點(diǎn)所對(duì)應(yīng)的呈現(xiàn)權(quán)重,為向上取整函數(shù),為預(yù)設(shè)大于零的數(shù)值。
26、優(yōu)選的,所述確定每幀圖像中各3d模型的渲染權(quán)重,包括:
27、計(jì)算每幀圖像所有3d模型的所有所述映射數(shù)據(jù)對(duì)對(duì)應(yīng)的名詞的所述相對(duì)文本位置的均值,作為每幀圖像的視頻文本位置;
28、將每幀圖像中各3d模型對(duì)應(yīng)的每個(gè)名詞的所述相對(duì)文本位置與所述視頻文本位置之間的差異,記為第一差異;
29、將每幀圖像中各3d模型對(duì)應(yīng)的所有名詞的所述第一差異的和,作為每幀圖像中各3d模型的渲染權(quán)重。
30、優(yōu)選的,所述確定每幀圖像中各3d模型的最短邊長(zhǎng),對(duì)所有3d模型進(jìn)行重構(gòu),包括:
31、獲取每幀圖像中所有3d模型的渲染權(quán)重的最大值;
32、將每幀圖像中各3d模型的所述渲染權(quán)重與所述最大值的比值,記為第一比值;
33、將所述第一比值與預(yù)設(shè)邊長(zhǎng)閾值的和,作為每幀圖像中各3d模型的最短邊長(zhǎng);
34、對(duì)各3d模型和對(duì)應(yīng)的最短邊長(zhǎng)輸入到三角剖分算法中,獲得表面重構(gòu)的3d模型;采用渲染引擎的方式對(duì)重構(gòu)后3d模型進(jìn)行渲染。
35、第二方面,本技術(shù)實(shí)施例還提供了基于文本信息借助三維渲染生成視頻的系統(tǒng),包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任意一項(xiàng)所述基于文本信息借助三維渲染生成視頻的方法的步驟。
36、本技術(shù)至少具有如下有益效果:
37、本技術(shù)通過(guò)大語(yǔ)言模型將用戶文本轉(zhuǎn)換為格式劇本,并基于格式劇本與3d數(shù)據(jù)庫(kù),獲得未渲染視頻,其有益效果在于通過(guò)大語(yǔ)言模型能夠得到規(guī)定格式的劇本,降低視頻幀出現(xiàn)缺陷的可能性,減少不可控因素的發(fā)生;本技術(shù)通過(guò)每幀圖像中各3d模型的呈現(xiàn)權(quán)重以及映射數(shù)據(jù)對(duì),分析了各3d模型在圖像中的所占權(quán)重,以反映各3d模型呈現(xiàn)在對(duì)應(yīng)圖像的重要性,考慮文本的出現(xiàn)與對(duì)應(yīng)圖像之間的映射關(guān)系,以反映文本的位置與圖像呈現(xiàn)時(shí)刻的對(duì)應(yīng)情況;進(jìn)一步通過(guò)每幀圖像中各3d模型的渲染權(quán)重,分析各3d模型與對(duì)應(yīng)圖像之間的關(guān)聯(lián)強(qiáng)度,從而對(duì)圖像中不同關(guān)聯(lián)強(qiáng)度的3d模型進(jìn)行不同程度的渲染;基于所述渲染權(quán)重,確定每幀圖像中各3d模型的最短邊長(zhǎng),對(duì)所有3d模型進(jìn)行重構(gòu),完成對(duì)不同3d模型的差別化渲染,加快視頻渲染速度,解決渲染時(shí)間過(guò)長(zhǎng)的問(wèn)題;相比于傳統(tǒng)transformer架構(gòu)的擴(kuò)散模型,本技術(shù)通過(guò)將用戶文本轉(zhuǎn)化為格式劇本,并結(jié)合3d模型,以渲染引擎的方式進(jìn)行渲染,獲得文生視頻,使得生成的視頻內(nèi)容具有高度確定性和唯一性,減少了視頻生成過(guò)程中的不確定性,確保最終文生視頻的質(zhì)量和預(yù)期效果,提高渲染視頻質(zhì)量,降低渲染功耗,同時(shí)可以根據(jù)需求調(diào)整渲染精度,隨時(shí)調(diào)整視頻分辨率。