本發(fā)明涉及計算機(jī)視覺三維重建領(lǐng)域,尤其涉及一種基于無參影像的三維重建與渲染方法。
背景技術(shù):
1、稠密視覺三維場景重建在機(jī)器人、虛擬現(xiàn)實和增強(qiáng)現(xiàn)實等領(lǐng)域具有重要的應(yīng)用價值。這項技術(shù)的核心目標(biāo)是創(chuàng)建未知環(huán)境的高保真三維重建,并實時跟蹤相機(jī)的位姿。在計算機(jī)視覺和機(jī)器人技術(shù)中,這種能力被廣泛應(yīng)用于自主導(dǎo)航、環(huán)境感知和增強(qiáng)現(xiàn)實等應(yīng)用場景。
2、傳統(tǒng)的稠密視覺三維場景重建方法通常采用點云、網(wǎng)格或體素格來表示場景,例如采用從運動恢復(fù)結(jié)構(gòu)sfm的方法去估計影像的位姿,然后以多視圖立體匹配mvs的方法去構(gòu)建稠密場景,這個過程存在跟蹤精度差、重建質(zhì)量較差與不能實現(xiàn)端到端的場景重建等問題。近年來的神經(jīng)輻射場(nerf)重建方法的提出,展示重建高保真場景的潛力,由于其需要有參影像作為輸入和訓(xùn)練速度慢,限制了其在實時應(yīng)用中的廣泛使用。例如:現(xiàn)有發(fā)明“一種基于自適應(yīng)法向先驗的室內(nèi)場景三維重建方法”(cn202410438152.3)存在需要利用colmap工具去獲取每張影像的位姿,重建時間長的弊端;“一種基于神經(jīng)輻射場的三維場景模型構(gòu)建方法”(cn202410037336.9)存在需要使用sfm算法去獲取影像的位姿,重建場景的質(zhì)量差的弊端。
3、針對上述問題,本發(fā)明公開了一種基于無參影像的三維重建與渲染方法,可廣泛應(yīng)用于場景的實時渲染與高質(zhì)量重建。該方法無需影像的位姿輸入,端到端重建高保真3d高斯場景的性質(zhì),能夠?qū)θ我庖暯沁M(jìn)行實時渲染。
技術(shù)實現(xiàn)思路
1、本發(fā)明公開了一種基于無參影像的三維重建與渲染方法,能夠?qū)崿F(xiàn)端到端實時渲染和對場景的高保真重建。為實現(xiàn)上述目的,本發(fā)明提供了一種基于無參影像的三維重建與渲染方法,包括以下步驟:
2、對輸入的rgbd影像數(shù)據(jù)流使用預(yù)訓(xùn)練的光流估計網(wǎng)絡(luò)模型進(jìn)行光流估計;
3、將光流大于設(shè)定閾值的影像作為關(guān)鍵幀,對rgbd影像數(shù)據(jù)流的關(guān)鍵幀集構(gòu)建關(guān)鍵幀圖;
4、根據(jù)關(guān)鍵幀圖構(gòu)建以關(guān)鍵幀對的平均光流為共視度值的共視矩陣并在長為歷史關(guān)鍵幀長度,寬為局部關(guān)鍵幀長度的共視矩陣之內(nèi)建立邊;
5、使用反向投影過濾掉共視度較低的邊,選擇合適邊的關(guān)鍵幀對使用阻尼高斯-牛頓法優(yōu)化當(dāng)前影像的位姿;
6、對每一幀關(guān)鍵幀影像利用優(yōu)化的位姿將二維像素點投影到世界空間,基于3d高斯場景表征使用高斯?jié)姙R渲染可見性輪廓對每一幀的關(guān)鍵幀影像進(jìn)行高斯的插入與剪枝;
7、通過在幀圖中動態(tài)選擇k個關(guān)鍵幀影像作為動態(tài)滑動窗口,利用高斯?jié)姙R循環(huán)迭代渲染顏色和深度信息來優(yōu)化3d高斯場景表征。
8、所述光流估計,通過使用公開數(shù)據(jù)集訓(xùn)練光流估計網(wǎng)絡(luò)獲得預(yù)訓(xùn)練模型,利用預(yù)訓(xùn)練模型估計當(dāng)前輸入的rgbd影像數(shù)據(jù)的光流。
9、所述建立邊,通過使用關(guān)鍵幀集來構(gòu)建關(guān)鍵幀圖,根據(jù)關(guān)鍵幀圖構(gòu)建以關(guān)鍵幀對的平均光流為共視度值的共視矩陣并在長為歷史關(guān)鍵幀長度,寬為局部關(guān)鍵幀長度的共視矩陣之內(nèi)建立邊。
10、所述優(yōu)化位姿,通過將合適邊的關(guān)鍵幀對使用幀間位姿將當(dāng)前幀影像的像素投影到下一幀影像所對應(yīng)的像素區(qū)域,通過預(yù)測的光流作為投影的真實像素位置,使用阻尼高斯-牛頓法迭代優(yōu)化當(dāng)前幀影像的位姿,減小兩幀影像之間的重投影誤差。
11、所述高斯插入與剪枝,通過將場景表征為各項同性3d高斯即是將場景表征為一系列的3d高斯球,對應(yīng)的參數(shù)有3d高斯球的中心位置、顏色,不透明度以及高斯半徑,首先將第一幀關(guān)鍵幀影像的所有像素點利用優(yōu)化的位姿投影到世界空間,作為初始各向同性3d高斯場景表征,通過一定次數(shù)的迭代優(yōu)化獲得相對較好的初始3d高斯場景表征,接著后面的每一幀關(guān)鍵幀影像進(jìn)行高斯的插入與剪枝,使用優(yōu)化的位姿將當(dāng)前幀的像素點投影到世界空間并根據(jù)高斯?jié)姙R渲染的輪廓可見性進(jìn)行高斯點云的插入,同時對不透明度較小的高斯進(jìn)行去除。
12、所述優(yōu)化3d高斯場景表征,通過在幀圖中選擇k個動態(tài)關(guān)鍵幀作為動態(tài)滑動窗口,在動態(tài)滑動窗口中隨機(jī)選擇一個關(guān)鍵幀影像,利用選擇的關(guān)鍵幀影像的位姿進(jìn)行高斯?jié)姙R渲染其對應(yīng)的顏色和深度與真實的顏色和深度作損失,最后循環(huán)迭代優(yōu)化3d高斯場景表征。
1.一種基于無參影像的三維重建與渲染方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的光流估計,其特征在于,通過使用公開數(shù)據(jù)集訓(xùn)練光流估計網(wǎng)絡(luò)獲得預(yù)訓(xùn)練模型,利用預(yù)訓(xùn)練模型估計當(dāng)前輸入的rgbd影像數(shù)據(jù)的光流。
3.如權(quán)利要求1所述的建立邊,其特征在于,通過使用關(guān)鍵幀集來構(gòu)建關(guān)鍵幀圖,根據(jù)關(guān)鍵幀圖構(gòu)建以關(guān)鍵幀對的平均光流為共視度值的共視矩陣并在長為歷史關(guān)鍵幀長度,寬為局部關(guān)鍵幀長度的共視矩陣之內(nèi)建立邊。
4.如權(quán)利要求1所述的優(yōu)化位姿,其特征在于,通過將合適邊的關(guān)鍵幀對使用幀間位姿將當(dāng)前幀影像的像素投影到下一幀影像所對應(yīng)的像素區(qū)域,通過預(yù)測的光流作為投影的真實像素位置,使用阻尼高斯-牛頓法迭代優(yōu)化當(dāng)前幀影像的位姿,減小兩幀影像之間的重投影誤差。
5.如權(quán)利要求1所述的高斯插入與剪枝,其特征在于,通過將場景表征為各項同性3d高斯即是將場景表征為一系列的3d高斯球,對應(yīng)的參數(shù)有3d高斯球的中心位置、顏色,不透明度以及高斯半徑,首先將第一幀關(guān)鍵幀影像的所有像素點利用優(yōu)化的位姿投影到世界空間,作為初始各向同性3d高斯場景表征,通過一定次數(shù)的迭代優(yōu)化獲得相對較好的初始3d高斯場景表征,接著后面的每一幀關(guān)鍵幀影像進(jìn)行高斯的插入與剪枝,使用優(yōu)化的位姿將當(dāng)前幀的像素點投影到世界空間并根據(jù)高斯?jié)姙R渲染的輪廓可見性進(jìn)行高斯點云的插入,同時對不透明度較小的高斯進(jìn)行去除。
6.如權(quán)利要求1所述的優(yōu)化3d高斯場景表征,其特征在于,通過在幀圖中選擇k個動態(tài)關(guān)鍵幀作為動態(tài)滑動窗口,在動態(tài)滑動窗口中隨機(jī)選擇一個關(guān)鍵幀影像,利用選擇的關(guān)鍵幀影像的位姿進(jìn)行高斯?jié)姙R渲染其對應(yīng)的顏色和深度與真實的顏色和深度作損失,最后循環(huán)迭代優(yōu)化3d高斯場景表征。