一種基于rgb-d數(shù)據(jù)的室內(nèi)場景語義標(biāo)注方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種圖像語義標(biāo)注方法,尤其涉及一種基于RGB-D數(shù)據(jù)的室內(nèi)場景語 義標(biāo)注方法,屬于計算機視覺的語義標(biāo)簽分類技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 圖像語義標(biāo)注是計算機視覺中場景理解工作的核心單元,其基本目標(biāo)是為給定的 查詢圖像中的每一個像素稠密地提供一個預(yù)定義的語義類別標(biāo)簽??紤]到圖像語義的模糊 性、復(fù)雜性和抽象性,一般建立的圖像語義模型都是分層次的。其中,"目標(biāo)語義"處于語義 層次中的中層,在很多高層次語義推理過程中起到了承上啟下的作用。根據(jù)圖像語義標(biāo)注 問題中標(biāo)注基元的量化級別,可將當(dāng)前多數(shù)圖像語義標(biāo)注方案大致分為兩類,包括:像素級 的語義標(biāo)注方案和區(qū)域級的語義標(biāo)注方案。兩種方案在實現(xiàn)效率、標(biāo)注精度和視覺效果上 各有其優(yōu)劣勢。
[0003] 一方面,相較于區(qū)域級表達(dá),像素級表達(dá)的確不失為是一種簡易直觀的圖像表達(dá) 層次,像素級語義標(biāo)注方案將單一像素作為標(biāo)注的基本單元,免除了對數(shù)據(jù)集中的圖像進 行區(qū)域級分割的繁復(fù)操作。此外,像素級特征的獲取一般較為簡單,故相較于區(qū)域級標(biāo)注 方案,其在整體實現(xiàn)效率上存在較大優(yōu)勢,而且由于其表達(dá)層次較低,不易出現(xiàn)錯誤標(biāo)簽 分布密集的問題。但由于像素自身有效載荷相對有限,如何針對像素級方案構(gòu)建更為魯 棒且更具辨識力的像素級特征,成為了像素級語義標(biāo)注方案發(fā)展的難點和瓶頸。典型的 像素級語義標(biāo)注方案包括:[KR HENB HL P,KOLTUN V. Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials[C]//Advances in Neural Information Processing Systems (NIPS), 2011.]通過探討一種成對項勢能由高斯核線性組合而成的像 素級稠密全連通Conditional Random Fields (CRFs)概率圖模型的推斷算法,一定程度上 提升了像素級標(biāo)注方案在上下文推斷期間的效率。
[0004] 另一方面,區(qū)域級表達(dá)在特征構(gòu)建層面上較像素級表達(dá)具有顯著優(yōu)勢,這主要 是因為分割區(qū)域一般被定義為像素的集合,相較于單一像素,具有更為豐富的紋理及上 下文信息。以往利用區(qū)域級表達(dá)進行圖像語義標(biāo)注的經(jīng)典范例很多:[REN Xiaofeng,BO Liefeng, FOX D.RGB-(D)scene labeling:Features and algorithms[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2012:2759-2766.] 在區(qū)域級表達(dá)層面上成功構(gòu)建了一種稱為核描述子的特征,在一定程度上提高了室內(nèi)場 景語義標(biāo)注的性能;[SILBERMAN N,H0IEM D,K0HLI P,et al. Indoor segmentation and support inference from RGBD images[M]. Computer Vision - ECCV 2012.Springer Ber 1 in Heidelberg,2012:746-760.]則不僅在區(qū)域級上解析了室內(nèi)場景中的主要平面 和物體,還利用上述信息對室內(nèi)場景中物體的支撐關(guān)系進行了推斷;[TIGHE J,LAZEBNIK S. Superparsing:scalable nonparametric image parsing with superpixels[C]// European Conference on Computer Vision (ECCV),2010:352-365.]提出了一種簡單有效 的非參數(shù)語義標(biāo)注算法,其基于懶惰學(xué)習(xí)的思想,實現(xiàn)中涉及區(qū)域級匹配等降低系統(tǒng)復(fù)雜 度的操作。但基于區(qū)域的語義標(biāo)注方案仍存在一個致命的缺陷,即其大大依賴于區(qū)域分割 算法的性能。一旦區(qū)域分割算法將所屬兩種或兩種以上類別的像素劃分至同一個分割區(qū)域 下,則無論后續(xù)采用的分類器性能如何優(yōu)異,即便通過有效的區(qū)域級上下文推斷,皆無法改 變該區(qū)域誤標(biāo)注的結(jié)果(僅能在誤標(biāo)注的前提下,盡可能地提升像素標(biāo)簽正確率),嚴(yán)重限 制了區(qū)域級語義標(biāo)注方案的準(zhǔn)確度和視覺表現(xiàn)能力。
[0005] 鑒于深度傳感器能夠獲取更加豐富的外觀和幾何結(jié)構(gòu)信息,深度攝像機在計算機 視覺領(lǐng)域越來越受到廣泛的關(guān)注。近年來,越來越多的公司開發(fā)出了 RGB-D攝像機,該類設(shè) 備的特點是能夠?qū)崟r地為所攝場景捕獲得到相應(yīng)的RGB圖像和深度圖像,比如2010年微 軟發(fā)布了能夠?qū)崟r采集RGB-D圖像的攝像頭(即Kinect) ;2011年華碩發(fā)布了 Xtion PRO ; 2013年體感控制器制造公司Leap發(fā)布的Leap Motion。
[0006] 室內(nèi)場景語義標(biāo)注,有其內(nèi)在固有屬性(即存在大量的語義類別及類別間存在遮 擋、視覺特征缺乏較強辨識能力以及室內(nèi)光照不可控等問題),已成為了圖像語義標(biāo)注技術(shù) 中棘手且極富挑戰(zhàn)性的研宄方向之一。在室內(nèi)條件下,相較于單一的RGB數(shù)據(jù),RGB-D數(shù) 據(jù)的優(yōu)勢在于:其提供了普通攝像機在三維投影過程中丟失的3D幾何信息,包含的深度信 息可作為一個獨立于室內(nèi)環(huán)境照明條件的通道,這為解決室內(nèi)場景語義標(biāo)注問題帶來了新 思路。作為利用深度信息進行室內(nèi)場景語義標(biāo)注的先驅(qū),[SILBERMAN N,F(xiàn)ERGUS R. Indoor scene segmentation using a structured light sensor[C]//IEEE International Conference on Computer Vision(ICCV), 2011:601-608.]在 NYU RGB-D 數(shù)據(jù)集中獲得了 56. 6%的準(zhǔn)確率,展示了基于RGB-D數(shù)據(jù)語義感知室內(nèi)場景的巨大潛力。但目前大多數(shù)語 義標(biāo)注工作僅僅將深度信息用于構(gòu)造區(qū)域級特征,卻忽略了其在上下文推斷中的作用,而 且所采用的深度信息也較為單一。
[0007] 綜上所述,現(xiàn)有室內(nèi)場景語義標(biāo)注方案普遍存在著標(biāo)注基元量化級別難于選擇的 問題,且?guī)缀紊疃刃畔⒃谏舷挛耐评磉^程中的作用也未獲得足夠的重視。
【發(fā)明內(nèi)容】
[0008] 針對上述技術(shù)問題,本發(fā)明所要解決的技術(shù)問題是提供一種基于RGB-D數(shù)據(jù)的室 內(nèi)場景語義標(biāo)注方法,基于RGB-D數(shù)據(jù),采用區(qū)域級語義標(biāo)簽推斷與像素級語義標(biāo)簽求精, 兩部分交替迭代更新優(yōu)化的方式,能夠在一定程度上解決傳統(tǒng)語義標(biāo)注工作中難以合適地 選擇標(biāo)注基元的問題。
[0009] 本發(fā)明為了解決上述技術(shù)問題采用以下技術(shù)方案:本發(fā)明設(shè)計了一種基于RGB-D 數(shù)據(jù)的室內(nèi)場景語義標(biāo)注方法,利用基于RGB-D信息的由粗到精、全局遞歸式反饋的語義 標(biāo)注框架進行室內(nèi)場景圖像的語義標(biāo)注,該語義標(biāo)注框架是由粗粒度的區(qū)域級語義標(biāo)簽推 斷與細(xì)粒度的像素級語義標(biāo)簽求精,交替迭代更新構(gòu)成,包括如下步驟:
[0010] 步驟001.針對RGB-D訓(xùn)練數(shù)據(jù)集合中的RGB圖像進行過分割,獲取該RGB圖像中 的超像素,形成訓(xùn)練數(shù)據(jù)的超像素集;
[0011] 步驟002.根據(jù)RGB-D訓(xùn)練數(shù)據(jù)集合中的RGB圖像和對應(yīng)的深度圖像,分別針對該 訓(xùn)練數(shù)據(jù)的超像素集中的各個超像素做如下操作:求取對應(yīng)超像素的各個區(qū)域特征單元, 然后對該超像素的各個區(qū)域特征單元分別進行歸一化處理,獲得該超像素的各個歸一化區(qū) 域特征單元,最后將該超像素的各個歸一化區(qū)域特征單元進行拼接,構(gòu)成對應(yīng)于該超像素 的多模態(tài)特征向量;
[0012] 步驟003.針對該訓(xùn)練數(shù)據(jù)的超像素集中的各個超像素,根據(jù)RGB-D訓(xùn)練數(shù)據(jù)集合 中包含的基準(zhǔn)標(biāo)注信息,獲取該各個超像素分別對應(yīng)的類別標(biāo)簽;
[0013] 步驟004.針對該訓(xùn)練數(shù)據(jù)的超像素集中各個超像素分別對應(yīng)的類別標(biāo)簽、多模 態(tài)特征向量,分別整合構(gòu)成分別對應(yīng)于各個超像素的各個條目,并整合該所有超像素對應(yīng) 的各個條目,構(gòu)成該訓(xùn)練數(shù)據(jù)的超像素集對應(yīng)的語義標(biāo)簽池;
[0014] 步驟005.將獲得的該訓(xùn)練數(shù)據(jù)的超像素集對應(yīng)的語義標(biāo)簽池作為訓(xùn)練樣本,訓(xùn) 練隨機決策森林分類器;
[0015] 步驟006.針對查詢圖像進行過分割,獲取該查詢圖像中的超像素,形成查詢圖像 的超像素集;并按步驟002中的方法,根據(jù)查詢圖像和對應(yīng)的深度圖像,針對該查詢圖像的 超像素集中的各個超像素,分別求取對應(yīng)超像素的多模態(tài)特征向量,構(gòu)成該查詢圖像的超 像素集對應(yīng)的語義標(biāo)簽池;
[0016] 步驟007.采用已經(jīng)訓(xùn)練的隨機決策森林分類器,針對該查詢圖像的超像素集中 的超像素進行語義標(biāo)簽推斷,獲得對應(yīng)該查詢圖像的區(qū)域結(jié)構(gòu)粗粒度級別標(biāo)注圖像;
[0017] 步驟008.針對獲得對應(yīng)該查詢圖像的區(qū)域結(jié)構(gòu)粗粒度級別標(biāo)注圖像進行標(biāo)簽求 精,獲得對應(yīng)該查詢圖像的細(xì)粒度級別標(biāo)注圖像;
[0018] 步驟009.針對獲得對應(yīng)該查詢圖像的細(xì)粒度級別標(biāo)注圖像,采用內(nèi)部遞歸式反 饋機制進行標(biāo)簽求精,獲得該查詢圖像的最終細(xì)粒度級別標(biāo)注圖像;
[0019] 步驟010.根據(jù)獲得該查詢圖像的最終細(xì)粒度級別標(biāo)注圖像,設(shè)計獲得由粗粒度 的區(qū)域級語義推斷到細(xì)粒度的像素級語義求精的全局遞歸式反饋機制,將該查詢圖像的最 終細(xì)粒度級別標(biāo)注圖像作為額外信息引入步驟001和步驟006中分別針對圖像的過分割操 作中,并根據(jù)該全局遞歸式反饋機制,返回步驟〇〇1依次執(zhí)行各個步驟,且根據(jù)全局遞歸式 反饋機制中的終止條件,獲得該查詢圖像的最終標(biāo)注圖像。
[0020] 作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟001和所述步驟006中分別針對圖像 進行過分割的操作,采用基于圖像分層顯著度導(dǎo)引的簡單線性迭代聚類過分割算法,其中, 該基于圖像分層顯著度導(dǎo)引的簡單線性迭代聚類過分割算法具體包括如下步驟:
[0021] 步驟A01.初始化各個聚類中心
【主權(quán)項】
1. 一種基于RGB-D數(shù)據(jù)的室內(nèi)場景語義標(biāo)注方法,利用基于RGB-D信息的由粗到