專利名稱:改進(jìn)的圖像轉(zhuǎn)換和編碼技術(shù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及立體圖像合成,特別涉及轉(zhuǎn)換二維(2D)圖像的改進(jìn)方法以用于立體圖像顯示目的的編碼、傳輸和譯碼。
背景技術(shù):
申請(qǐng)人在PCT/AU96/00820中描述了一種從初始2D圖像產(chǎn)生立體顯示的左右眼圖像的方法,它包括以下步驟a.識(shí)別初始圖像中至少一個(gè)物體b.勾畫(huà)每個(gè)物體的輪廓c.定義每個(gè)物體的深度特性d.使每個(gè)物體的選定區(qū)域沿橫向位移一個(gè)作為每個(gè)物體深度特性函數(shù)的確定量,從而形成拉伸圖像供觀察者左右眼觀看。
這些步驟可以單獨(dú)或統(tǒng)稱為動(dòng)態(tài)深度插入或DDC。
發(fā)明內(nèi)容
本發(fā)明進(jìn)一步改進(jìn)了申請(qǐng)人先前系統(tǒng)的操作。本發(fā)明提供的深度圖產(chǎn)生方法用于將2D圖像轉(zhuǎn)換為立體圖像,它包括以下步驟識(shí)別2D圖像內(nèi)至少一個(gè)物體;為所述或每個(gè)物體指定一個(gè)識(shí)別標(biāo)簽;為所述或每個(gè)物體指定一個(gè)深度標(biāo)簽;以及確定和定義每個(gè)或所述物體的輪廓。
在進(jìn)一步方面中,本發(fā)明提供一種編碼深度圖的方法,用于2D圖像轉(zhuǎn)換為立體圖像,方法包括以下步驟將物體標(biāo)識(shí)符指定給物體;為所述物體指定深度標(biāo)簽;以及定義物體輪廓。
物體輪廓可以由一系列的坐標(biāo)、曲線和/或幾何形狀定義。通常情況下,識(shí)別標(biāo)簽可以是唯一的編號(hào)。
在本發(fā)明的另一方面,提供了利用Bezier曲線產(chǎn)生2D-3D轉(zhuǎn)換過(guò)程中物體的輪廓。
在本發(fā)明的另一方面,提供了利用曲線定義2D-3D轉(zhuǎn)換過(guò)程中的物體。
在本發(fā)明的另一方面,提供了利用幾何形狀定義2D-3D轉(zhuǎn)換過(guò)程中物體的輪廓。
在本發(fā)明的另一方面,提供了深度圖信息的傳輸方法,其中信息包含在垂直消隱間隔或MPEG數(shù)據(jù)流內(nèi)。
在本發(fā)明的另一方面,提供了利用類屬庫(kù)輔助2D-3D的轉(zhuǎn)換過(guò)程。
附圖的簡(jiǎn)要說(shuō)明為了更好地理解本發(fā)明,以下借助附圖描述本發(fā)明的較佳實(shí)施例。
在附圖中
圖1和2示出了將深度圖數(shù)據(jù)轉(zhuǎn)換為變形網(wǎng)格的較佳方法。
圖3、4、5和6示出了如本發(fā)明所述確定物體輪廓的各種技術(shù)。
圖7示出了示例性的失真網(wǎng)格。
圖8示出了用于另一譯碼器的硬件框圖。
圖9示出了另一譯碼器譯碼過(guò)程的示意性流程圖。
圖10示出了未變形網(wǎng)格實(shí)例。
圖11示出了圓錐體的示意性深度圖。
圖12示出了經(jīng)深度圖修正的示意性網(wǎng)格。
圖13-16示出了將深度圖Z標(biāo)高轉(zhuǎn)換為X位移的方法。
圖17示出了未失真網(wǎng)格上的初始幀。
圖18示出了經(jīng)X位移圖修正的示意性網(wǎng)格。
圖19示出了初始幀網(wǎng)格與位移網(wǎng)格的示意性組合。
圖20示出了另一只眼睛的示意性的最終拉伸圖像。
圖21示出了簡(jiǎn)化的位移流程圖。
實(shí)施發(fā)明的較佳方式物體識(shí)別被轉(zhuǎn)換的2D圖像內(nèi)的物體由操作人員通過(guò)肉眼識(shí)別。操作人員利用計(jì)算機(jī)鼠標(biāo)、光筆、觸摸指或其他裝置在圖像內(nèi)的每個(gè)物體或物體組上作出標(biāo)簽并且為物體指定唯一的編號(hào)。編號(hào)可以由操作人員人工生成或者由計(jì)算機(jī)按照特定的指令序列自動(dòng)生成。
物體也可以利用計(jì)算機(jī)全自動(dòng)識(shí)別或者由操作人員幫助計(jì)算機(jī)確定物體位置從而半自動(dòng)識(shí)別。
為了自動(dòng)識(shí)別物體,計(jì)算機(jī)將利用諸如物體尺寸、顏色、運(yùn)動(dòng)速度、顏色深淺、紋理、亮度、暗淡焦距之類的特征以及先前、當(dāng)前和后續(xù)圖像之間差異。也可以利用神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)輔助識(shí)別物體。
在半自動(dòng)物體識(shí)別中,操作人員可以通過(guò)向計(jì)算機(jī)提出何處可發(fā)現(xiàn)物體的圖像性質(zhì)的建議來(lái)幫助計(jì)算機(jī)。例如,操作人員可以建議計(jì)算機(jī)場(chǎng)景是“新聞閱讀者”類屬格式,這樣計(jì)算機(jī)將試圖定位行為閱讀者的頭部和肩部、桌子和背景等。操作人員可以從可能的類屬場(chǎng)景菜單中選擇。操作人員可以手動(dòng)地取消和/或糾正和調(diào)整計(jì)算機(jī)作出的物體選擇。計(jì)算機(jī)程序例如可以利用神經(jīng)網(wǎng)絡(luò)或?qū)<蚁到y(tǒng)從這些糾正中學(xué)習(xí),從而持續(xù)改進(jìn)物體識(shí)別和編號(hào)的精度。
一旦識(shí)別出物體并進(jìn)行編號(hào),則隨著物體在連續(xù)幀之間圖像內(nèi)的運(yùn)動(dòng),可以對(duì)其作人工、自動(dòng)或半自動(dòng)地跟蹤。
操作人員也可以利用其他操作人員在處理同一序列或類似場(chǎng)景轉(zhuǎn)換中獲得的物體識(shí)別信息。
物體輪廓勾畫(huà)物體的輪廓可以人工、自動(dòng)或半自動(dòng)確定。
在人工勾畫(huà)中,操作人員利用計(jì)算機(jī)鼠標(biāo)、光筆、觸摸指或其他裝置跟蹤物體的輪廓。操作人員可以逐個(gè)像素地選擇物體的輪廓,利用曲線或類屬形狀庫(kù)內(nèi)的直線或曲線逼近、Bezier曲線或最佳擬合。操作人員也可以從形狀和尺度已經(jīng)得當(dāng)校正或動(dòng)態(tài)形狀調(diào)整的類屬庫(kù)中選擇。例如操作人員希望選擇人體輪廓,此時(shí)可以從庫(kù)中搜索人體類屬輪廓并且手工、自動(dòng)或半自動(dòng)地作些調(diào)整。操作人員還可以從諸如圓、橢圓、三角形、正方形等幾何形狀中選擇。
在自動(dòng)勾畫(huà)中,計(jì)算機(jī)可利用諸如物體尺寸、顏色運(yùn)動(dòng)速度、顏色深淺、紋理、亮度、暗淡、焦距之類的特征以及先前、當(dāng)前和后續(xù)圖像之間差異。也可以利用神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)確定物體的輪廓。
在半自動(dòng)勾畫(huà)中,操作人員可以通過(guò)向計(jì)算機(jī)提出何處可發(fā)現(xiàn)物體的圖像性質(zhì)的建議來(lái)幫助計(jì)算機(jī)。例如,操作人員可以建議計(jì)算機(jī)場(chǎng)景是“新聞閱讀者”類屬格式,這樣計(jì)算機(jī)將試圖定位行為閱讀者的頭部和肩部、桌子和背景等。操作人員可以從可能的類屬場(chǎng)景菜單中選擇。操作人員可以手動(dòng)地取消和/或糾正和調(diào)整計(jì)算機(jī)作出的物體勾畫(huà)。計(jì)算機(jī)程序例如可以利用神經(jīng)網(wǎng)絡(luò)或?qū)<蚁到y(tǒng)從這些校正中學(xué)習(xí),從而持續(xù)改進(jìn)物體勾畫(huà)的精度。
一旦勾畫(huà)出物體,則隨著物體在連續(xù)幀之間圖像內(nèi)的運(yùn)動(dòng),可以對(duì)其作人工、自動(dòng)或半自動(dòng)地跟蹤。
操作人員也可以利用其他操作人員在處理同一序列或類似場(chǎng)景轉(zhuǎn)換中獲得的物體輪廓信息。操作人員也可以從包括諸如圓、橢圓、三角形、正方形等幾何形狀的預(yù)定義庫(kù)中選擇,并且人工、半自動(dòng)或自動(dòng)地調(diào)整庫(kù)輪廓以擬合選定的物體。庫(kù)可以用單獨(dú)的輪廓(例如新聞閱讀者)或根據(jù)特定物體族(例如賽馬、晚間新聞)索引。
定義深度物體的深度可以人工、自動(dòng)或半自動(dòng)確定。可以利用字母、視覺(jué)、聽(tīng)覺(jué)或觸覺(jué)信息為物體指定深度。在較佳實(shí)施例中,物體的深度通過(guò)用特定的顏色深淺表示。對(duì)于一旦轉(zhuǎn)換在3D位置上最靠近觀看者的物體用白色,而離開(kāi)觀看者3D距離最遠(yuǎn)的物體用黑色。顯然,這種慣例是可以改變的,例如采用相反的深淺或顏色表示相對(duì)或絕對(duì)深度。
在另一實(shí)施例中,可以為物體深度指定一個(gè)數(shù)值。該值可以是線性或非線性序列中的正數(shù)或負(fù)數(shù)并包含一個(gè)或多個(gè)位數(shù)。在較佳實(shí)施例中,該值介于0-255之間,從而使數(shù)值編碼為一個(gè)字節(jié),這里255表示一旦轉(zhuǎn)換在3D位置上最靠近觀看者的物體而0表示離開(kāi)觀看者3D距離最遠(yuǎn)的物體。顯然,這種慣例是可以改變的,例如采用相反的表示或者采用其他范圍的數(shù)值。
在人工深度定義中,操作人員可以利用計(jì)算機(jī)鼠標(biāo)、光筆、觸摸指或其他裝置為物體指定深度。操作人員可以通過(guò)將定位裝置放置在物體輪廓內(nèi)部并輸入深度值為物體指定深度。深度可以由操作人員鍵入作為數(shù)值、字符或圖像值,并且可以由操作人員指定或者由計(jì)算機(jī)從允許值的預(yù)設(shè)范圍內(nèi)自動(dòng)指定。操作人員也可以從允許深度庫(kù)或菜單中選擇物體深度。
操作人員也可以在物體范圍內(nèi)指定一個(gè)深度范圍或者隨時(shí)間、物體位置或運(yùn)動(dòng)或這些因素組合而變化的深度范圍。例如物體可以是一張桌子,它的最近邊緣朝向觀看者而最遠(yuǎn)的邊緣和離開(kāi)觀看者。當(dāng)轉(zhuǎn)換為3D時(shí),桌子的表觀深度必需沿長(zhǎng)度方向變化。為此,操作人員可以將桌子分割為多個(gè)段并且為每個(gè)段指定單獨(dú)的深度。操作人員可以通過(guò)使物體呈深淺顏色變化而在物體內(nèi)部指定一個(gè)連續(xù)變化的深度,深淺的程度表示桌子特定位置上的深度。在該實(shí)例中,淺色表示較近的物體而深色表示較遠(yuǎn)的物體。對(duì)于桌子實(shí)例,最近的邊緣顏色很淺,然后逐漸加深,直到最遠(yuǎn)的邊緣。
物體內(nèi)的深度變化可以是線性或非線性的并且可以隨時(shí)間、物體位置或運(yùn)動(dòng)或這些因素的組合而變化。
物體內(nèi)深度變化可以是斜坡形。線性斜坡具有始點(diǎn)(A)和結(jié)束點(diǎn)(B)。定義點(diǎn)A和B上的顏色。在垂直線上應(yīng)用從點(diǎn)A至點(diǎn)B的梯度。
雖然徑向斜坡采用的是從中心點(diǎn)(A)到半徑(B)的距離,但是與線性斜坡是相似的。
對(duì)徑向斜坡的簡(jiǎn)單推廣是把邊緣外部形成錐形或者允許尺寸可變的中心點(diǎn)。
線性擴(kuò)展是從線段的距離相對(duì)于到垂線的距離。在該實(shí)例中,為線段定義顏色,并且為“外部”定義顏色。沿線段定義顏色,并且逐漸變?yōu)椤巴獠俊鳖伾?br>
各種斜坡可以容易地編碼。斜坡也可以基于更加復(fù)雜的曲線、方程、可變透明度等。
在另一實(shí)例中,物體可以經(jīng)過(guò)一個(gè)幀周期從圖像前面運(yùn)動(dòng)到后面。操作人員可以為第一幀內(nèi)物體指定一個(gè)深度并且為最后或后續(xù)場(chǎng)景內(nèi)物體指定一個(gè)深度。計(jì)算機(jī)隨后在連續(xù)幀內(nèi)以線性或預(yù)定方式對(duì)物體深度徑向插值。該過(guò)程也可以是全自動(dòng)的,從而使計(jì)算機(jī)根據(jù)物體相對(duì)時(shí)間運(yùn)動(dòng)時(shí)尺寸的變化指定變化的物體深度。
在自動(dòng)深度定義中,計(jì)算機(jī)可以利用諸如物體尺寸、顏色、運(yùn)動(dòng)速度、顏色深淺、亮度、暗淡、焦距之類的特征以及先前、當(dāng)前和后續(xù)圖像之間差異。也可以利用神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)確定物體的深度。
在半自動(dòng)深度定義中,操作人員可以通過(guò)向計(jì)算機(jī)提出何處可發(fā)現(xiàn)物體的圖像性質(zhì)的建議來(lái)幫助計(jì)算機(jī)。例如,操作人員可以建議計(jì)算機(jī)場(chǎng)景是“新聞閱讀者”類屬格式,這樣計(jì)算機(jī)將試圖定位行為閱讀者的頭部和肩部、桌子和背景等并且將這些放入邏輯深度序列內(nèi)。操作人員可以從可能的類屬物體和深度中選擇。操作人員可以手動(dòng)地取消和/或糾正和調(diào)整計(jì)算機(jī)確定的物體深度。計(jì)算機(jī)程序例如可以利用神經(jīng)網(wǎng)絡(luò)或?qū)<蚁到y(tǒng)從這些校正中學(xué)習(xí),從而持續(xù)改進(jìn)物體深度指定的精度。
一旦為物體指定具體的深度,則隨著物體在連續(xù)幀之間圖像內(nèi)的運(yùn)動(dòng),可以對(duì)其作人工、自動(dòng)或半自動(dòng)地跟蹤。
操作人員也可以利用其他操作人員在處理同一序列或類似場(chǎng)景轉(zhuǎn)換中獲得的物體深度定義。
多操作人員為了及時(shí)地轉(zhuǎn)換視頻序列,需要多個(gè)操作人員處理2D源材料。盡管在同一前提下,但是利用在線計(jì)算機(jī)(例如因特網(wǎng)),操作人員可以位于世界上不同的地方。在這種布局下,為了保證源材料的安全性,可能需要去除聲音并且修改圖像的顏色。這對(duì)操作人員確定物體輪廓的能力沒(méi)有影響但是防止了源材料的偷盜。由于物體輪廓的實(shí)際選擇相對(duì)簡(jiǎn)單,所以在低勞動(dòng)力成本的國(guó)家完成是最合算的。在利用這種布局中,轉(zhuǎn)換程序通常具有如下特征1.監(jiān)督員識(shí)別轉(zhuǎn)換為3D的視頻序列并且給每個(gè)序列幀賦予編號(hào)。
2.如有需要監(jiān)督員采用必要的安全程序。
3.監(jiān)督員識(shí)別場(chǎng)景內(nèi)需要勾畫(huà)輪廓的物體并且如上所述作出唯一的標(biāo)簽。
4.視頻序列隨后被轉(zhuǎn)換為合適的數(shù)字格式并且經(jīng)在線服務(wù)發(fā)送至遠(yuǎn)處的目的地。對(duì)于較長(zhǎng)的視頻序列,這樣做可能不合算,比較好的是復(fù)制在CD-ROM或其他復(fù)制介質(zhì)上。
5.序列由遠(yuǎn)端接收,那里有操作人員承擔(dān)物體操作工作。
6.由于操作結(jié)果是數(shù)據(jù)隨后被壓縮的識(shí)別物體的輪廓,所以文件尺寸大大小于初始圖像。這是利用在線電子郵件服務(wù)可以方便地將物體信息返回監(jiān)督員。
7.監(jiān)督員承擔(dān)對(duì)接收的物體輪廓的質(zhì)量控制工作并且使幀編號(hào)與初始視頻源材料匹配。
8.監(jiān)督員隨后將物體輪廓和初始源材料送至后續(xù)為每個(gè)物體賦予所需深度信息的操作人員。
由于深度信息的賦予是藝術(shù)性和創(chuàng)造性的過(guò)程,所以雖然不是必要,可考慮由一小群操作人員在核心位置內(nèi)進(jìn)行。這還將保證長(zhǎng)序列范圍內(nèi)物體深度的一致性。
定義復(fù)雜深度為了產(chǎn)生更逼真的3D圖像,有時(shí)候需要比簡(jiǎn)單斜坡或線性變化更為復(fù)雜的深度定義。對(duì)于具有復(fù)雜內(nèi)部結(jié)構(gòu)的深度變化很多的物體(例如樹(shù))特別需要。這種物體的深度圖可以通過(guò)向物體加入紋理起伏圖形成。例如,如果我們考慮一棵樹(shù),第一步是是跟蹤樹(shù)的輪廓并為其指定深度。隨后可以加入紋理起伏圖從而為樹(shù)上每片葉子賦予單獨(dú)的深度。對(duì)于本發(fā)明來(lái)說(shuō),為了增加相對(duì)簡(jiǎn)單物體的細(xì)節(jié),這種紋理圖是有用的。
但是對(duì)于精細(xì)的細(xì)節(jié)(例如樹(shù)上的葉子或其他復(fù)雜物體),由于樹(shù)隨風(fēng)而動(dòng)或者隨攝像機(jī)角度而逐幀變化,這種方法將更加復(fù)雜,所以它不是優(yōu)選的方法。較好的方法是利用原始物體的照度(或黑色和白色分量)來(lái)形成所需的起伏圖。一般而言,較為靠近觀看者的物體元素較亮而較遠(yuǎn)的較暗。因此通過(guò)為近距離元素賦予較亮的照度而為遠(yuǎn)距離元素賦予較暗的照度可以自動(dòng)形成起伏圖。這種技術(shù)的優(yōu)點(diǎn)是物體本身可以用來(lái)形成自己的起伏圖并且自動(dòng)跟蹤物體逐幀的運(yùn)動(dòng)。物體的其他屬性也可以用來(lái)形成起伏圖,這些包括但是并不局限于色度、飽和度、顏色分組、反射、陰影、焦距、銳度等。
從物體屬性獲得的起伏圖比較好的是進(jìn)行標(biāo)度,從而使物體內(nèi)深度變化的范圍與整個(gè)圖像總的深度范圍一致。
深度圖檢測(cè)物體、確定其輪廓并指定深度的過(guò)程被稱為深度圖的形成。在較佳實(shí)施例中,深度圖由80×60×8位分辨率的灰度圖像組成,從而可以256種深度定義相關(guān)的2D圖像內(nèi)的物體。
曲線形狀可以定義為序列xy坐標(biāo)之間的距離與這些點(diǎn)之間曲線離直線的位移的比率。x1y1和x2y2位于直線A上并且由曲線連接。這些點(diǎn)之間的曲線具有從直線A到曲線中點(diǎn)的最大位移B。曲線因此定義如下曲線=B/A它比較好的是取值在-128~+128之間,0表示兩點(diǎn)之間為直線。值得指出的是,由于為曲線指定的值是兩個(gè)測(cè)量值的比率,所以同一曲線值可以指定給具有相同B/A比率的其他曲線。
深度圖的編碼深度圖可以有多種編碼方式。在較佳實(shí)施例中,物體編號(hào)、深度和物體輪廓編碼如下??紤]如圖3所示人體輪廓。該人被分配的物體編號(hào)為,深度為20。物體的輪廓已經(jīng)如上所述確定并且位于具體的x、y位置。在物體輪廓方向改變的地方作上特殊的標(biāo)記。該標(biāo)記可以是字符、形狀、顏色或其他形式的視覺(jué)指示。每個(gè)這樣的標(biāo)記具有特定的x、y位置。在較佳實(shí)施例中,其范圍為0~255。在每對(duì)x、y位置之間存在一條曲線。每條曲線可以通過(guò)從所有可能曲線形狀的庫(kù)中選擇確定。在較佳實(shí)施例中,每條曲線被賦予-127~+128范圍內(nèi)的數(shù)值,從而可以用1個(gè)字節(jié)定義曲線。從x、y位置順時(shí)針行進(jìn)至下-x、y位置的曲線可以被賦予正數(shù)而逆時(shí)針行進(jìn)的曲線可以被賦予負(fù)數(shù)。也可以采用其他指定方式。
深度閾值將深度閾值加入轉(zhuǎn)換算法以確保閾值前的物體不變形。在前景物體與背景物體相交時(shí),這避免了前景物體邊緣的某些細(xì)小變形。
在較佳的轉(zhuǎn)換算法中,深度圖被用來(lái)生成構(gòu)成最終場(chǎng)景的3D輪廓的連續(xù)深度圖。當(dāng)閾值被用于該處理時(shí),深度圖被處理為檢測(cè)閾值轉(zhuǎn)變,并且轉(zhuǎn)變之上和之下的深度被單獨(dú)處理。
該物體的深度圖數(shù)據(jù)因此定義如下<物體編號(hào)><物體深度><x1,y1,曲線1,x2,y2,曲線物體深度信息包含了產(chǎn)生當(dāng)前物體深度所需的數(shù)據(jù)據(jù)可以是單個(gè)值、斜坡(線性、徑向或其他)或者其他法。下列方法示出了編碼單個(gè)物體深度數(shù)據(jù)的可能手段單個(gè)深度值深度數(shù)據(jù)可以編碼如下<深度標(biāo)志1> <深度值>
對(duì)于深度值具有線性斜坡變化的物體,深度數(shù)據(jù)編碼如下<深度標(biāo)志2> <x1,y1,深度值1,x2,y2,深度值2>
這里物體的深度從x1、y1處的值1線性變化至x2、y2處的值2。
對(duì)于深度值呈非線性斜坡變化的物體,深度數(shù)據(jù)編碼如下<深度標(biāo)志3> <x1,y1,深度值1,x2,y2,深度值2,gamma>
這里gamma為描述深度在x1,y1~x2,y2之間范圍內(nèi)非線性變化的數(shù)值。
對(duì)于深度值呈徑向斜坡變化的物體,深度數(shù)據(jù)編碼如下<深度標(biāo)志4><x1,y1,深度值1,半徑,深度值2>
這里物體在x1、y1的深度值為1并且深度呈線性變化至離開(kāi)x1、y1的所有半徑像素處的深度值2。
應(yīng)該理解的是,一旦發(fā)送物體深度值,則無(wú)需再發(fā)送深度圖,直到物體運(yùn)動(dòng)或形狀改變。如果只是物體位置變化,則可以通過(guò)如下為物體位置分配偏移而發(fā)送物體新的位置<物體編號(hào)> <x偏移,y偏移>
同樣,物體深度變化而位置或尺寸不變時(shí)可以是發(fā)送下述<物體編號(hào)> <深度>
將會(huì)理解的是,鄰近的接觸的物體將共享x,y坐標(biāo)并且因此在需要發(fā)送以唯一定義場(chǎng)景內(nèi)每個(gè)物體深度圖的x,y坐標(biāo)內(nèi)存在冗余。
為了使發(fā)送或存儲(chǔ)的附加數(shù)據(jù)量最小,需要壓縮包含深度圖的數(shù)據(jù)。壓縮可以利用任何形式的壓縮算法并且對(duì)于本領(lǐng)域內(nèi)技術(shù)人員來(lái)說(shuō)許多都是已知的。壓縮的實(shí)例包括擔(dān)不局限于游程長(zhǎng)度編碼和Huffman編碼。由于物體可能在幀之間沒(méi)有運(yùn)動(dòng),所以僅需發(fā)送幀之間深度圖的差異。測(cè)量并處理幀之間差異的技術(shù)對(duì)于本領(lǐng)域內(nèi)技術(shù)人員來(lái)說(shuō)也是已知的。
將會(huì)看到,如上變形網(wǎng)格傳輸中所述,深度圖信息可以包含在模擬電視信號(hào)的垂直消隱間隔(VBI)或數(shù)字電視信號(hào)的MPEG或其他數(shù)字傳輸流內(nèi)。同樣,深度圖數(shù)據(jù)可以加入DVD的VOB文件內(nèi)。
數(shù)據(jù)如何包含在VBI和MPEG數(shù)據(jù)流中是已知的并且較佳實(shí)施例是當(dāng)前用于將封閉的標(biāo)題和圖文包含在標(biāo)準(zhǔn)電視圖像內(nèi)的技術(shù)。在另一較佳實(shí)施例中,數(shù)據(jù)可以包含在MPEG數(shù)據(jù)流中的用戶數(shù)據(jù)區(qū)內(nèi)。
對(duì)于將數(shù)據(jù)包含在VBI或MPEG2流的情況,以下計(jì)算表明了可能需要的數(shù)據(jù)大小。
假定VBI規(guī)定允許32字節(jié)/視頻線每幅圖像的最多物體數(shù)=20每個(gè)物體的最大X,Y坐標(biāo)=20物體#、物體深度、X,Y和形狀數(shù)據(jù)每種占用1個(gè)字節(jié)則字節(jié)/物體=1+1+3(20)=62個(gè)字節(jié)因此對(duì)于20個(gè)物體,VBI數(shù)據(jù)=20×62=1240個(gè)字節(jié)/幀應(yīng)該理解的是,這是最差的情況,實(shí)踐中一般的場(chǎng)景需要200字節(jié)/幀。如果采用合適的數(shù)據(jù)壓縮并且考慮到冗余,該數(shù)值將明顯減小。
對(duì)于將信息包含在MPEG數(shù)據(jù)流的情況,MPEG標(biāo)準(zhǔn)允許向接收位置發(fā)送數(shù)據(jù)流。提供MPEG流內(nèi)數(shù)據(jù)發(fā)送的技術(shù)可以用于向接收譯碼器發(fā)送深度圖數(shù)據(jù)。也可以將該信息包含在MPEG信號(hào)的其中一個(gè)聲道內(nèi)。在記錄MPEG信號(hào)的介質(zhì)(例如CD-ROM或DVD)上,信息可以包含在數(shù)字音頻文件內(nèi)作為分離的數(shù)字或模擬文件,或者記錄在其他裝置的盤片上。對(duì)于本領(lǐng)域內(nèi)技術(shù)人員來(lái)說(shuō),其他技術(shù)也是顯而易見(jiàn)的。
也可以發(fā)送初始深度圖作為MPEG數(shù)據(jù)流的一部分。在較佳實(shí)施例中,深度圖的分辨率可以從640×480×8壓縮至80×60×8而在最終3D圖像內(nèi)物體深度的誤差不會(huì)很明顯。這種分辨率與MPEG編碼視頻信號(hào)內(nèi)DCT塊尺寸相同。因此,通過(guò)向轉(zhuǎn)換為3D時(shí)定義每個(gè)塊深度的DCT塊加入附加信息,深度圖信息可以包含在MPEG信號(hào)內(nèi)。如上所述,深度圖也可以包含在MPEG數(shù)據(jù)流內(nèi),例如音頻信道或其他本領(lǐng)域內(nèi)技術(shù)人員熟悉的方法。分辨率減小的深度圖也可以在包含入MPEG流之前利用標(biāo)準(zhǔn)的壓縮技術(shù)(包括但不局限于JPEG、MJPEG、MPEG等)進(jìn)行壓縮。
在進(jìn)一步的較佳實(shí)施例中,物體輪廓利用Bezier曲線定義??紤]如圖4所示人的輪廓。Bezier曲線應(yīng)用至輪廓,從而得當(dāng)所示的x,y坐標(biāo)。物體的深度圖可以定義為<物體編號(hào)> <物體深度> <x1,y1,x1a,y1a,x2b,y2b,x2,y2,…x1b,y1b>
也可以生成如圖5所示僅需3個(gè)x,y坐標(biāo)的Bezier曲線并且定義如下<物體編號(hào)> <物體深度> <x1,y1,x1a,y1a,x2,y2,…x8a,y8a>
由于需要較少的元素?cái)?shù)來(lái)定義曲線,所以這種方法比較好。
在進(jìn)一步的較佳實(shí)施例中,物體輪廓利用幾何形狀來(lái)定義??紤]如圖5所示的人的輪廓。將幾何形狀用于輪廓從而得到所示構(gòu)造。構(gòu)成頭部的圓的圓心為x1,y1,而半徑為r1。三角形可以描述為x2a,y2a,x2b,y2b,x2c,y2c,并且對(duì)于其他多邊形也是如此。每種幾何形狀具有一般的形式<形狀><參數(shù)>
物體的深度圖因此定義為<物體編號(hào)><物體深度><形狀1><參數(shù)>……<形狀n><參數(shù)>
顯而易見(jiàn)的是,利用這些方法生成的輪廓和/或深度圖,不管是壓縮還是未壓縮的,都可以合適的模擬或數(shù)字格式和介質(zhì)帶有或不帶相關(guān)的2D圖像存儲(chǔ)。存儲(chǔ)介質(zhì)包括但不局限于軟盤、硬盤、CD-ROM、激光盤、DVD、RAM、ROM、磁帶、錄像帶、錄像機(jī)等。存儲(chǔ)的輪廓和/或深度圖可以在后面調(diào)用并且/或回放以重建深度圖,用于產(chǎn)生生成3D圖像所用的變形網(wǎng)格或者作進(jìn)一步的調(diào)整和精細(xì)調(diào)整用。
譯碼器如上所述,變形網(wǎng)格可以用來(lái)將2D圖像轉(zhuǎn)換為3D。
現(xiàn)在可以從深度圖產(chǎn)生所需的變形網(wǎng)格。深度圖本身從2D視頻內(nèi)發(fā)送的附加信息中產(chǎn)生??梢詫?shí)時(shí)、半實(shí)時(shí)或離線地從深度圖產(chǎn)生變形網(wǎng)格并且可以在本地完成,也可以經(jīng)合適的傳輸介質(zhì)在遠(yuǎn)端完成??梢攒浖蛴布绞酵瓿缮?。
因此與發(fā)送變形網(wǎng)格的子像素點(diǎn)作為2D圖像部分不同,可以發(fā)送重新生成深度圖所需的信息。深度圖隨后可以在譯碼器處重建并且轉(zhuǎn)換為變形網(wǎng)格。這些轉(zhuǎn)換可以在接收處實(shí)時(shí)、半實(shí)時(shí)或離線地完成并且可以軟件或硬件方式完成。圖1的軟件流程圖和圖2的硬件示出了從深度圖數(shù)據(jù)轉(zhuǎn)換為深度圖。隨后又轉(zhuǎn)換為變形網(wǎng)格的較佳方法。軟件轉(zhuǎn)換過(guò)程的單個(gè)單元的功能如下圖像序列源-2D影片或視頻或其他圖像序列源。
區(qū)域和深度源-該信息與圖像序列一起發(fā)送并且在較佳實(shí)施例中包含在VBI或MPEG數(shù)據(jù)流內(nèi)。它包含每個(gè)物體的位置、形狀和深度信息。
將帶深度的區(qū)域作用至深度圖—為了表示物體,物體內(nèi)部的“區(qū)域”被按照深度信息填充/涂上陰影。陰影區(qū)域外部的所有區(qū)域是未接觸的。該過(guò)程重建初始的深度圖。
使深度圖模糊-隨后模糊(高斯、快速或其他方法)硬的深度圖以去除銳利的邊緣。模糊化在物體之間提供了平滑的過(guò)渡以消除圖像重疊。模糊化在水平方向上權(quán)重略大。垂直模糊通過(guò)滲透入圖像之上和之下防止圖像撕裂,從而使遠(yuǎn)近物體的過(guò)渡更為平滑。
利用深度圖處理圖像-模糊化的深度圖隨后被用作變形網(wǎng)格位移的源,白色為最大位移,黑色為無(wú)位移。沿水平軸的變形量按照給定軸位上深度圖的深度標(biāo)度。在較佳實(shí)施例中,左邊圖像的位移向右,右邊圖像的位移向左??梢詫?duì)圖像陰影整體強(qiáng)迫視差,從而白色(前景)位移物體匯聚到屏幕水平。黑色(背景)區(qū)域隨后具有與未偏移圖像相等的強(qiáng)迫視差。位移的方向和強(qiáng)迫視差可以變化以適合顯示被轉(zhuǎn)換圖像的3D顯示系統(tǒng)特殊的要求。
一旦生成變形網(wǎng)格,則如上所述將2D圖像變換為3D圖像。
圖2示出了從變形網(wǎng)格產(chǎn)生分離的左和右圖像的硬件轉(zhuǎn)換器的較佳實(shí)施例,它可以是全數(shù)字的。圖2a示出了實(shí)現(xiàn)該過(guò)程的方法并且操作如下。
系統(tǒng)采用兩線存儲(chǔ)器,它是多端口的以允許同時(shí)存取。視頻線被寫入其中一個(gè)線存儲(chǔ)器,而另一線存儲(chǔ)器被讀取以產(chǎn)生輸出視頻信號(hào)。在當(dāng)前線的結(jié)束處,交換線存儲(chǔ)器。
深度信息從視頻信號(hào)中提取以重新生成當(dāng)前圖像的深度圖。對(duì)于每個(gè)輸出像素,深度圖被平移一個(gè)(變形網(wǎng)格的)像素偏移。當(dāng)視頻線從線存儲(chǔ)器中讀取時(shí),像素偏移被加入像素計(jì)數(shù)器。像素偏移是一個(gè)分?jǐn)?shù)值,所以需要所需像素每側(cè)的像素值并且內(nèi)插中間值。來(lái)自視頻譯碼器的奇/偶場(chǎng)信號(hào)被用來(lái)控制場(chǎng)序列的視頻輸出并且使觀眾快門鏡頭與輸出視頻信號(hào)同步?;镜碾娐房梢詮?fù)制以產(chǎn)生需要該視頻格式的3D顯示的左右視頻信號(hào)。
圖2b示出了DDC譯碼器的功能框圖。第一個(gè)過(guò)程是從輸入的可插入VBI或MPEG數(shù)據(jù)流的視頻中提取物體數(shù)據(jù)。提取的數(shù)據(jù)將是壓縮格式并且隨后利用微處理器解壓縮。來(lái)自微處理器的輸出是原始物體輪廓的信息并且經(jīng)過(guò)再次處理以產(chǎn)生每個(gè)物體的深度信息。該數(shù)據(jù)被送至一組三個(gè)旋轉(zhuǎn)場(chǎng)緩沖器內(nèi),緩沖器由微處理器控制。第一緩沖器重新創(chuàng)建原始深度圖。深度圖隨后被送至下一緩沖器,在那里經(jīng)過(guò)水平和垂直模糊化。一旦完成模糊化,最終的數(shù)據(jù)被施加在最后緩沖器,在那里數(shù)據(jù)被送至圖2a所示的深度-像素偏移轉(zhuǎn)換器內(nèi)。一旦數(shù)據(jù)被轉(zhuǎn)送至偏移轉(zhuǎn)換器,最后緩沖器就被清除并且準(zhǔn)備接收下一深度圖。
圖2c示出了DDC譯碼器過(guò)程。這示出了該過(guò)程的時(shí)序圖并且假定當(dāng)前微處理器的速度無(wú)法同時(shí)承擔(dān)所有的譯碼處理。因此譯碼過(guò)程以流水線過(guò)程順序執(zhí)行。隨著微處理器性能的提高,預(yù)期如果不是全部也是多個(gè)這樣的過(guò)程將被同時(shí)執(zhí)行。在圖2c(1)中,示出了4幅視頻幀,每幀包含奇場(chǎng)和偶場(chǎng)。在(2)中,產(chǎn)生幀4的物體列表,而在(3)中產(chǎn)生幀4的深度圖。在(4)中,應(yīng)用水平和垂直模糊化,并且在(5)中輸出幀4的深度圖并清除緩沖器以準(zhǔn)備下一物體列表。在(5)中,幀4的深度圖和2D圖像可以同時(shí)利用以轉(zhuǎn)換為3D。值得注意的是,圖2c示出了單個(gè)幀的處理,實(shí)際上,在任一時(shí)刻,硬件的不同部分產(chǎn)生4幅不同幀的深度圖。
替換的譯碼器如上所述,當(dāng)前可用的微處理器的速度無(wú)法同時(shí)承擔(dān)所有的譯碼處理。因此以下描述無(wú)需使用快速微處理器的譯碼器的另一較佳實(shí)施例。該替換譯碼器利用處理2D和3D計(jì)算機(jī)圖形的集成電路。這種專用圖形處理器能夠每秒提供500,000個(gè)多邊形。由于這些集成電路的產(chǎn)量很大,所以價(jià)格便宜,并且可制造出低成本的DDC譯碼器。譯碼器采用圖形處理器的最簡(jiǎn)單的多邊形生成能力,無(wú)陰影紋理映射的多邊形。
通過(guò)解釋貌似手工完成的處理可以更為容易地理解譯碼過(guò)程。這可由圖9和以后各圖的流程說(shuō)明。過(guò)程開(kāi)始時(shí)產(chǎn)生未變形網(wǎng)格作為xy平面內(nèi)完成相對(duì)平滑變形所需的多個(gè)許多多邊形。在較佳實(shí)施例中,每場(chǎng)一般采用10,000多邊形。圖10示出了未變形網(wǎng)格部分的實(shí)例。被轉(zhuǎn)換為3D的物體(在該實(shí)例中是圖11所示頂部朝向觀眾的圓錐)的深度圖被作用于修改為網(wǎng)格多邊形的z軸標(biāo)高依賴于深度圖內(nèi)對(duì)應(yīng)像素值的網(wǎng)格。它示于圖12中。該過(guò)程的下一步是將每個(gè)多邊形的z軸標(biāo)高轉(zhuǎn)換為相等的x位移量。這示于圖13-16。在圖13中,示出了x軸部分-z標(biāo)高網(wǎng)格。在圖14中,沿x軸選擇一行點(diǎn)并且圍繞點(diǎn)y=0旋轉(zhuǎn)90度。圖15示出了在45度點(diǎn)旋轉(zhuǎn)的效果而圖16是90度旋轉(zhuǎn)后的效果。對(duì)于有效地將深度圖z軸標(biāo)高轉(zhuǎn)換為x位移量的所有x行重復(fù)該過(guò)程。
該過(guò)程的下一步驟是如圖17所示將初始視頻幀映射到未變形網(wǎng)格上。未變形網(wǎng)格隨后如圖18所示形態(tài)化為前述產(chǎn)生的x位移圖。最終的視頻圖像隨后如圖19所示根據(jù)網(wǎng)格位移擴(kuò)張。這與在前面申請(qǐng)PCT/AU96/00820中所述的拉伸圖像具有相同的效果。拉伸圖像可以用來(lái)構(gòu)成一對(duì)立體圖的一個(gè)視角,另一個(gè)通過(guò)將圖13中的點(diǎn)旋轉(zhuǎn)-90度(將產(chǎn)生網(wǎng)格并對(duì)應(yīng)圖20所示的圖像)形成。
當(dāng)利用2D/3D圖形處理器在硬件中實(shí)現(xiàn)該過(guò)程時(shí),可以省略將z軸標(biāo)高轉(zhuǎn)換為相等的x位移量的步驟。由于已知靠近觀眾的多邊形需要比遠(yuǎn)離觀眾的多邊形橫向偏移更多,所以圖18網(wǎng)格的位移可以直接從圖11的深度圖中產(chǎn)生。由于深度圖的灰度值與每個(gè)對(duì)應(yīng)多邊形的偏移具有直接的關(guān)系,所以可以這樣做。圖21的流程圖示出了該簡(jiǎn)化過(guò)程。
替換的硬件譯碼器圖8示出了基于2D/3D圖形處理器的硬件DDC譯碼器的框圖。從DDC數(shù)據(jù)中提取和生成深度圖如上所述并且示于圖2b中。譯碼器的操作如下。輸入的視頻送至DDC數(shù)據(jù)譯碼器,從視頻流中提取DDC信息并且回復(fù)每個(gè)視頻場(chǎng)的深度圖。視頻也可以轉(zhuǎn)換為RGB、YUV或其他標(biāo)準(zhǔn)的視頻格式并且放入雙場(chǎng)存儲(chǔ)器。這使得視頻場(chǎng)在加載新的場(chǎng)時(shí)被同時(shí)讀取入2D/3D圖形處理器。從DDC數(shù)據(jù)譯碼器輸出的深度圖被送至定義被2D/3D圖形處理器處理的多邊形形狀的深度圖—多邊形網(wǎng)格轉(zhuǎn)換器。其他向圖形處理器的輸入是初始2D視頻圖像,它被用作作用于多邊形的紋理圖。圖像處理器的輸出被送至使視頻以交錯(cuò)格式讀取的場(chǎng)存儲(chǔ)器。隨后被送至PAL/NTSC編碼器,其輸出將是標(biāo)準(zhǔn)的場(chǎng)順序3D視頻信號(hào)。
深度圖的再使用顯然,由于同樣的深度圖在再次顯示同一或類似場(chǎng)景時(shí)將被復(fù)用,所以無(wú)需向接收機(jī)發(fā)送整個(gè)深度圖。因此在存儲(chǔ)器中譯碼器保存先前發(fā)送的深度圖序列供復(fù)用而無(wú)需重新處理先前發(fā)送的深度圖。在譯碼器存儲(chǔ)器(可以是易失或非易失存儲(chǔ)器并包括但是不局限于RAM、EEPROM、快閃存儲(chǔ)器、磁性或光學(xué)存儲(chǔ)器等)內(nèi)可以保存深度圖或最終的變形網(wǎng)格。也可以在譯碼器內(nèi)存儲(chǔ)類屬深度圖和/或變形網(wǎng)格。這常常發(fā)生在無(wú)需發(fā)生或轉(zhuǎn)換深度圖的圖像轉(zhuǎn)換中。通過(guò)將數(shù)據(jù)包含在對(duì)譯碼器唯一識(shí)別哪個(gè)缺省的深度圖要應(yīng)用的視頻信號(hào)內(nèi),可以選擇正確的深度圖。譯碼器應(yīng)該能接收新的或改變的深度圖,從而維護(hù)譯碼器內(nèi)的深度圖和/或變形網(wǎng)格庫(kù)。該庫(kù)可以但是不局限于保存在下列介質(zhì)內(nèi),例如RAM、EEPROM、快閃存儲(chǔ)器、磁性或光學(xué)存儲(chǔ)器等??梢酝ㄟ^(guò)發(fā)送包含在視頻信號(hào)內(nèi)的特定深度圖或變形網(wǎng)格更新庫(kù)。庫(kù)也可以借助外部或內(nèi)部插入模塊(包含這樣的深度圖或變形網(wǎng)格)并經(jīng)視頻信號(hào)、調(diào)制解調(diào)器或因特網(wǎng)下載至譯碼器來(lái)維護(hù)。對(duì)于本領(lǐng)域內(nèi)技術(shù)人員來(lái)說(shuō),維護(hù)庫(kù)的其他手段是顯而易見(jiàn)的。
在較佳實(shí)施例中,包含在視頻信號(hào)內(nèi)的DDC數(shù)據(jù)的通用格式可以包括向譯碼器指示隨后數(shù)據(jù)性質(zhì)的頭部標(biāo)志??梢杂卸喾N已有標(biāo)準(zhǔn)用于這種格式,該格式通常為<標(biāo)志#> <譯碼器處理的數(shù)據(jù)>
標(biāo)志的實(shí)例包括但不局限于標(biāo)志1-下列數(shù)據(jù)為深度圖標(biāo)志2-下列數(shù)據(jù)涉及已有物體的重新定位標(biāo)志3-下列數(shù)據(jù)涉及物體深度的變化標(biāo)志4-下列數(shù)據(jù)涉及先前發(fā)送的深度圖的復(fù)用標(biāo)志5-下列數(shù)據(jù)涉及庫(kù)內(nèi)深度圖的使用標(biāo)志6-下列數(shù)據(jù)涉及庫(kù)內(nèi)深度圖的修改標(biāo)志7-下列數(shù)據(jù)涉及庫(kù)內(nèi)新深度圖的增加標(biāo)志8-下列數(shù)據(jù)涉及已有庫(kù)深度圖的刪除標(biāo)志9-下列數(shù)據(jù)涉及運(yùn)動(dòng)視差延遲的利用標(biāo)志10-下列數(shù)據(jù)涉及強(qiáng)迫視差的利用標(biāo)志11-下列數(shù)據(jù)涉及數(shù)學(xué)算法的使用標(biāo)志12下列數(shù)據(jù)涉及數(shù)學(xué)算法庫(kù)的使用每個(gè)數(shù)據(jù)包的長(zhǎng)度可以不同,它唯一定義每個(gè)包并且減少了標(biāo)志的需要。
在前面描述中,相同的處理可作用于變形網(wǎng)格上。
譯碼器應(yīng)該能通過(guò)從庫(kù)內(nèi)標(biāo)稱范圍內(nèi)自動(dòng)選擇確定作用于相關(guān)3D圖像的最合適的深度圖。例如,DDC數(shù)據(jù)可以指導(dǎo)譯碼器搜索特定索引點(diǎn)之間或通過(guò)類屬(即晚間新聞、馬賽)分類的深度圖。譯碼器隨后根據(jù)物體尺寸、形狀、速度、方向、顏色、深淺、濃淡選擇合適的圖。
初始深度圖作為譯碼處理的副產(chǎn)品,在譯碼過(guò)程中生成,它可以合適的格式與需要2D圖像和物體深度信息的3D顯示系統(tǒng)使用。這些顯示在性質(zhì)上可以是自動(dòng)立體的和/或有容量的。
替換的途徑網(wǎng)格變形處理可以用數(shù)學(xué)算法定義。該算法可以存儲(chǔ)在譯碼器內(nèi)并且DDC數(shù)據(jù)包含算法應(yīng)用的參數(shù)。例如考慮通用公式f(x,y)=[1-exp(-|(|x|-rx).dx|)].sin(((PI.x)/rx)+PI/2).[1-exp(-|(|y|-ry).dy|)].sin(((PI.y)/ry)+PI/2)這里PI-常數(shù)3.14159…|x|-x的絕對(duì)值rx-x的范圍,-rx<=x<=rxry-y的范圍,-ry<=y<=rydx-x的斜率因子
dy-y的斜率因子如果下列值通過(guò)DDC數(shù)據(jù)被傳遞至方程,則產(chǎn)生圖7的變形網(wǎng)格rx=ry=50dx=dy=0.1就DDC數(shù)據(jù)而言,發(fā)送下列數(shù)據(jù)<標(biāo)志11> <50,50,0.1,0.1>
此外,這些參數(shù)可以庫(kù)的形式存儲(chǔ)在譯碼器內(nèi)部的存儲(chǔ)器內(nèi)并且通過(guò)在DDC數(shù)據(jù)內(nèi)發(fā)送庫(kù)索引調(diào)用。
就DDC數(shù)據(jù)而言,發(fā)送下列數(shù)據(jù)<標(biāo)志12> <庫(kù)索引>
以下考慮利用標(biāo)志9運(yùn)動(dòng)視差的實(shí)例。現(xiàn)有技術(shù)表明,水平方向運(yùn)動(dòng)的2D圖像可以利用運(yùn)動(dòng)視差轉(zhuǎn)換為3D。圖像需要因照相機(jī)的水平運(yùn)動(dòng)(即拍攝全景)而運(yùn)動(dòng)。在這種技術(shù)中,觀眾的其中一只眼睛接收當(dāng)前的視頻場(chǎng),而另一只眼睛接收前一場(chǎng),即,提供給每只眼睛的圖像之間存在延遲。哪一只眼睛接收延遲的圖像和延遲量的選擇取決于2D圖像水平運(yùn)動(dòng)的方向和速度。延遲一般在1~4場(chǎng)范圍內(nèi)??梢酝ㄟ^(guò)考慮2D圖像內(nèi)的總體運(yùn)動(dòng)矢量并根據(jù)矢量的尺寸、方向和穩(wěn)定性選擇這些參數(shù)來(lái)選擇方向和延遲。在現(xiàn)有技術(shù)中,需要在觀看位置實(shí)時(shí)完成這些計(jì)算。較佳的方法是計(jì)算運(yùn)動(dòng)矢量和發(fā)送位置的場(chǎng)延遲的方向和量,隨后將這些值作為視頻信號(hào)的一部分發(fā)送。因此在較佳實(shí)施例中,發(fā)送的數(shù)據(jù)如下<標(biāo)志9> <方向和延遲>
這里<方向和延遲>一般在-4~+4的范圍內(nèi)。
DDC譯碼器隨后恢復(fù)該數(shù)據(jù)并利用其將正確的場(chǎng)延遲量和方向插入處理圖像。
通過(guò)將攝像機(jī)加入已有的2D視頻或影片攝像機(jī)(它利用變焦透鏡和銳度檢測(cè)算法確定攝像機(jī)觀察的圖像內(nèi)的物體深度)也可以實(shí)時(shí)獲得變形網(wǎng)格。物體深度可以從一對(duì)立體攝像機(jī)中獲得,每幅圖像內(nèi)像素之間的相關(guān)度指示物體深度。這種結(jié)構(gòu)的輸出在處理前提供了變形網(wǎng)格,可以用來(lái)生成深度圖。為此處理初始2D圖像并且采用陰影或其他指示來(lái)表示這里描述中所述的物體深度。每個(gè)物體的輪廓可以從諸如物體尺寸、顏色、運(yùn)動(dòng)速度、陰影、紋理、亮度、濃淡以及先前、當(dāng)前和后續(xù)幀之間差異之類的物體特性中獲得。神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)也可以用來(lái)輔助識(shí)別物體。也可以在攝像機(jī)內(nèi)移動(dòng)圖像從而在攝像機(jī)圖像傳感器上獲得后續(xù)圖像的物理偏移。這種偏移可以本領(lǐng)域內(nèi)技術(shù)人員熟知的光學(xué)、電光、機(jī)械、電機(jī)、電子或其他方法產(chǎn)生。偏移可以是單向的,即x方向,或者多方向的,即,順序地或隨機(jī)地。在攝像機(jī)傳感器上,靠近攝像機(jī)的物體的偏移將更大。通過(guò)使連續(xù)圖像內(nèi)的像素相關(guān)可以確定每個(gè)物體的深度。也可以采用多個(gè)攝像機(jī)。
也可以采用其他技術(shù)確定場(chǎng)景內(nèi)的物體深度。這些包括但不局限于根據(jù)光學(xué)、激光、超聲或微波原理利用范圍尋找器或者將網(wǎng)格投影在場(chǎng)景內(nèi)的物體上并根據(jù)最終的網(wǎng)格變形確定物體深度。
大量的計(jì)算機(jī)輔助繪圖(CAD)軟件包可以產(chǎn)生圖像的線幀模型。這些線幀模型是物體側(cè)面的投影,可以用來(lái)確定場(chǎng)景內(nèi)物體的位置。
同樣,來(lái)自3D Studio之類軟件包的3D非立體圖像的著色處理部分允許輸出攝像機(jī)與每個(gè)像素之間的距離。這種著色可以產(chǎn)生灰度圖像,最靠近的物體為白色,離開(kāi)攝像機(jī)最遠(yuǎn)的點(diǎn)為黑色。這種灰度圖可以用作兼容的深度圖,用于轉(zhuǎn)換為立體3D。
權(quán)利要求
1.一種產(chǎn)生用于2D圖像轉(zhuǎn)換為立體圖像的深度圖的方法,其特征在于包括以下步驟識(shí)別2D圖像內(nèi)至少一個(gè)物體;為所述或每個(gè)物體分配識(shí)別標(biāo)簽;為所述或每個(gè)物體分配深度標(biāo)簽;以及確定并定義每個(gè)或所述物體的輪廓。
2.如權(quán)利要求1所述的方法,其特征在于物體輪廓由一系列的坐標(biāo)、曲線和/或幾何形狀定義。
3.如權(quán)利要求1或2所述的方法,其特征在于所述識(shí)別標(biāo)簽是唯一的數(shù)字編號(hào)。
4.如權(quán)利要求1-3中任意一項(xiàng)所述的方法,其特征在于識(shí)別所述至少一個(gè)物體包括將2D圖像與類屬場(chǎng)景庫(kù)比較的步驟。
5.如權(quán)利要求1-4中任意一項(xiàng)所述的方法,其特征在于確定輪廓的步驟進(jìn)一步包括逐個(gè)像素地跟蹤物體。
6.如權(quán)利要求1-4中任意一項(xiàng)所述的方法,其特征在于確定輪廓的步驟進(jìn)一步包括利用線段來(lái)逼近物體的輪廓。
7.如權(quán)利要求1-4中任意一項(xiàng)所述的方法,其特征在于確定輪廓的步驟進(jìn)一步包括利用曲線來(lái)逼近物體的輪廓。
8.如權(quán)利要求1-4中任意一項(xiàng)所述的方法,其特征在于確定輪廓的步驟進(jìn)一步包括利用Bezier曲線來(lái)逼近物體的輪廓。
9.如權(quán)利要求1-4中任意一項(xiàng)所述的方法,其特征在于確定輪廓的步驟進(jìn)一步包括將物體與曲線和/或類屬或幾何形狀庫(kù)比較來(lái)逼近物體的輪廓。
10.如權(quán)利要求9所述的方法,其特征在于進(jìn)一步包括標(biāo)度曲線和/或類屬或幾何形狀以最佳擬合物體。
11.如權(quán)利要求1-10中任意一項(xiàng)所述的方法,其特征在于深度標(biāo)簽包括顏色編碼。
12.如權(quán)利要求11所述的方法,其特征在于白色代表靠近觀察者的物體,而黑色表示遠(yuǎn)離觀察者的物體。
13.如權(quán)利要求1-10中任意一項(xiàng)所述的方法,其特征在于所述深度標(biāo)簽為數(shù)值。
14.如權(quán)利要求13所述的方法,其特征在于所述數(shù)值的范圍為0-255。
15.如權(quán)利要求1-14中任意一項(xiàng)所述的方法,其特征在于所述至少一個(gè)物體進(jìn)一步分割為多個(gè)部分,每個(gè)部分分配一個(gè)深度標(biāo)簽。
16.如權(quán)利要求15所述的方法,其特征在于深度變化用斜坡函數(shù)定義。
17.如權(quán)利要求16所述的方法,其特征在于所述斜坡函數(shù)為線性或徑向斜坡。
18.如權(quán)利要求1-17中任意一項(xiàng)所述的方法,其特征在于進(jìn)一步包括跟蹤圖像連續(xù)幀上該物體或每個(gè)物體并且為每幀內(nèi)物體確定和分配深度標(biāo)簽。
19.如權(quán)利要求1-18中任意一項(xiàng)所述的方法,其特征在于進(jìn)一步包括向該物體或每個(gè)物體加入紋理起伏圖。
20.如權(quán)利要求19所述的方法,其特征在于所述紋理起伏圖通過(guò)將物體分裂為多個(gè)單元并為每個(gè)單元分配單獨(dú)的深度標(biāo)簽來(lái)定義。
21.如權(quán)利要求19所述的方法,其特征在于所述紋理起伏圖由物體單個(gè)單元的亮度值來(lái)定義。
22.如權(quán)利要求19所述的方法,其特征在于所述紋理起伏圖由物體單個(gè)單元的色度、飽和度、顏色分組、反射、陰影、焦距和/或銳度來(lái)定義。
23.如權(quán)利要求1-22中任意一項(xiàng)所述的方法,其特征在于進(jìn)一步包括產(chǎn)生每個(gè)2D圖像的80×60×8位分辨率的灰度圖像。
24.一種產(chǎn)生用于將視頻序列中2D圖像轉(zhuǎn)換為立體圖像的深度圖的方法,其特征在于包括以下步驟識(shí)別并編號(hào)視頻序列每幀;識(shí)別視頻序列內(nèi)至少一個(gè)物體;為每個(gè)物體分配識(shí)別標(biāo)簽;將視頻序列分割為多個(gè)局部序列;向多個(gè)操作者發(fā)送局部序列,每個(gè)操作者確定并定義已經(jīng)分配所述識(shí)別標(biāo)簽的局部序列內(nèi)的每個(gè)物體的輪廓;從所述多個(gè)操作者接收所述局部序列;整理所述局部序列以重新構(gòu)成視頻序列;以及為每個(gè)物體分配深度標(biāo)簽。
25.如權(quán)利要求24所述的方法,其特征在于進(jìn)一步包括在所述視頻序列被分割為多個(gè)局部序列之前向序列增加安全措施的步驟。
26.如權(quán)利要求25所述的方法,其特征在于所述安全措施包括從視頻序列中去除音頻和/或修改視頻序列的顏色。
27.一種對(duì)用于2D圖像轉(zhuǎn)換為立體圖像的深度圖的進(jìn)行編碼方法,其特征在于包括以下步驟為每個(gè)物體分配物體識(shí)別符;為所述物體分配深度標(biāo)簽;以及定義物體輪廓。
28.如權(quán)利要求27所述的方法,其特征在于所述物體輪廓由一系列的x,y坐標(biāo)定義,每對(duì)x,y坐標(biāo)由曲線分離。
29.如權(quán)利要求28所述的方法,其特征在于每條所述曲線存儲(chǔ)在庫(kù)中并且被分配唯一的編號(hào)。
30.如權(quán)利要求28或29所述的方法,其特征在于所述物體輪廓還包括有關(guān)每條曲線取向的數(shù)據(jù)。
31.如權(quán)利要求28-30中任意一項(xiàng)所述的方法,其特征在于每條所述取向?yàn)锽ezier曲線。
32.如權(quán)利要求27所述的方法,其特征在于所述物體輪廓由至少一種幾何形狀定義。
33.如權(quán)利要求32所述的方法,其特征在于所述至少一種幾何形狀借助形狀的形式和形狀參數(shù)定義。
34.如權(quán)利要求27-33中任意一項(xiàng)所述的方法,其特征在于所述物體深度標(biāo)簽的編碼包括分配深度類型;以及為物體分配深度。
35.如權(quán)利要求34所述的方法,其特征在于深度類型包括單值、線性斜坡或徑向斜坡。
36.一種發(fā)送用于在立體觀看系統(tǒng)上觀看的2D圖像和深度圖數(shù)據(jù)的方法,其特征在于包括以下步驟將深度圖數(shù)據(jù)嵌入模擬電視信號(hào)垂直消隱間隔內(nèi)。
37.一種發(fā)送用于在立體觀看系統(tǒng)上觀看的2D圖像和深度圖數(shù)據(jù)的方法,其特征在于包括以下步驟將深度圖數(shù)據(jù)嵌入數(shù)字電視信號(hào)的MPEG內(nèi)。
38.一種發(fā)送用于在立體觀看系統(tǒng)上觀看的2D圖像和深度圖數(shù)據(jù)的方法,其特征在于包括以下步驟將深度圖數(shù)據(jù)嵌入DVD的VOB文件內(nèi)。
39.一種譯碼深度圖數(shù)據(jù)的方法,其特征在于包括以下步驟接收2D圖像和對(duì)應(yīng)所述2D圖像的深度圖數(shù)據(jù);確定深度圖數(shù)據(jù)內(nèi)標(biāo)識(shí)的物體;確定所述物體的對(duì)應(yīng)深度;根據(jù)深度給所述物體著色;以及處理圖像以形成變形網(wǎng)格,其中失真量取決于深度。
40.如權(quán)利要求39所述的方法,其特征在于包括以下步驟在形成變形網(wǎng)格之前使深度圖模糊,從而在物體之間提供更為平滑的過(guò)渡。
41.一種譯碼深度圖數(shù)據(jù)的方法,其特征在于包括以下步驟從多個(gè)多邊形中產(chǎn)生未變形網(wǎng)格;將深度圖作用于所述網(wǎng)格,其中網(wǎng)格內(nèi)多邊形的標(biāo)高取決于深度內(nèi)記錄的深度;將多邊形的標(biāo)高轉(zhuǎn)換為平移位移從而形成變形網(wǎng)格;以及將變形網(wǎng)格作用于對(duì)應(yīng)深度圖數(shù)據(jù)的2D圖像。
42.一種譯碼深度圖數(shù)據(jù)的譯碼器,其特征在于包括深度圖庫(kù),其中輸入數(shù)據(jù)與所述庫(kù)比較,并且如果所述數(shù)據(jù)與所述深度圖庫(kù)內(nèi)的深度圖不匹配,則譯碼器利用如權(quán)利要求41所述的方法處理所述輸入數(shù)據(jù)。
全文摘要
一種產(chǎn)生用于2D圖像轉(zhuǎn)換為立體圖像的深度圖的方法,包括以下步驟:識(shí)別2D圖像內(nèi)至少一個(gè)物體;為所述或每個(gè)物體分配識(shí)別標(biāo)簽;為所述或每個(gè)物體分配深度標(biāo)簽;以及確定并定義每個(gè)或所述物體的輪廓。
文檔編號(hào)H04N13/04GK1281569SQ98811849
公開(kāi)日2001年1月24日 申請(qǐng)日期1998年12月3日 優(yōu)先權(quán)日1997年12月5日
發(fā)明者P·V·哈曼 申請(qǐng)人:動(dòng)力數(shù)字深度研究有限公司