一種基于rgb-d數(shù)據(jù)的室內(nèi)場景語義標(biāo)注方法

文檔序號：8487852閱讀：1004來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于rgb-d數(shù)據(jù)的室內(nèi)場景語義標(biāo)注方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種圖像語義標(biāo)注方法，尤其涉及一種基于RGB-D數(shù)據(jù)的室內(nèi)場景語義標(biāo)注方法，屬于計算機視覺的語義標(biāo)簽分類技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 圖像語義標(biāo)注是計算機視覺中場景理解工作的核心單元，其基本目標(biāo)是為給定的查詢圖像中的每一個像素稠密地提供一個預(yù)定義的語義類別標(biāo)簽?？紤]到圖像語義的模糊性、復(fù)雜性和抽象性，一般建立的圖像語義模型都是分層次的。其中，"目標(biāo)語義"處于語義層次中的中層，在很多高層次語義推理過程中起到了承上啟下的作用。根據(jù)圖像語義標(biāo)注問題中標(biāo)注基元的量化級別，可將當(dāng)前多數(shù)圖像語義標(biāo)注方案大致分為兩類，包括：像素級的語義標(biāo)注方案和區(qū)域級的語義標(biāo)注方案。兩種方案在實現(xiàn)效率、標(biāo)注精度和視覺效果上各有其優(yōu)劣勢。
[0003] 一方面，相較于區(qū)域級表達(dá)，像素級表達(dá)的確不失為是一種簡易直觀的圖像表達(dá) 層次，像素級語義標(biāo)注方案將單一像素作為標(biāo)注的基本單元，免除了對數(shù)據(jù)集中的圖像進行區(qū)域級分割的繁復(fù)操作。此外，像素級特征的獲取一般較為簡單，故相較于區(qū)域級標(biāo)注方案，其在整體實現(xiàn)效率上存在較大優(yōu)勢，而且由于其表達(dá)層次較低，不易出現(xiàn)錯誤標(biāo)簽分布密集的問題。但由于像素自身有效載荷相對有限，如何針對像素級方案構(gòu)建更為魯棒且更具辨識力的像素級特征，成為了像素級語義標(biāo)注方案發(fā)展的難點和瓶頸。典型的像素級語義標(biāo)注方案包括：[KR HENB HL P，KOLTUN V. Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials[C]//Advances in Neural Information Processing Systems (NIPS), 2011.]通過探討一種成對項勢能由高斯核線性組合而成的像素級稠密全連通Conditional Random Fields (CRFs)概率圖模型的推斷算法，一定程度上提升了像素級標(biāo)注方案在上下文推斷期間的效率。
[0004] 另一方面，區(qū)域級表達(dá)在特征構(gòu)建層面上較像素級表達(dá)具有顯著優(yōu)勢，這主要是因為分割區(qū)域一般被定義為像素的集合，相較于單一像素，具有更為豐富的紋理及上下文信息。以往利用區(qū)域級表達(dá)進行圖像語義標(biāo)注的經(jīng)典范例很多：[REN Xiaofeng，BO Liefeng, FOX D.RGB-(D)scene labeling:Features and algorithms[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2012:2759-2766.] 在區(qū)域級表達(dá)層面上成功構(gòu)建了一種稱為核描述子的特征，在一定程度上提高了室內(nèi)場景語義標(biāo)注的性能；[SILBERMAN N，H0IEM D，K0HLI P，et al. Indoor segmentation and support inference from RGBD images[M]. Computer Vision - ECCV 2012.Springer Ber 1 in Heidelberg，2012:746-760.]則不僅在區(qū)域級上解析了室內(nèi)場景中的主要平面和物體，還利用上述信息對室內(nèi)場景中物體的支撐關(guān)系進行了推斷；[TIGHE J，LAZEBNIK S. Superparsing:scalable nonparametric image parsing with superpixels[C]// European Conference on Computer Vision (ECCV)，2010:352-365.]提出了一種簡單有效的非參數(shù)語義標(biāo)注算法，其基于懶惰學(xué)習(xí)的思想，實現(xiàn)中涉及區(qū)域級匹配等降低系統(tǒng)復(fù)雜度的操作。但基于區(qū)域的語義標(biāo)注方案仍存在一個致命的缺陷，即其大大依賴于區(qū)域分割算法的性能。一旦區(qū)域分割算法將所屬兩種或兩種以上類別的像素劃分至同一個分割區(qū)域下，則無論后續(xù)采用的分類器性能如何優(yōu)異，即便通過有效的區(qū)域級上下文推斷，皆無法改變該區(qū)域誤標(biāo)注的結(jié)果（僅能在誤標(biāo)注的前提下，盡可能地提升像素標(biāo)簽正確率），嚴(yán)重限制了區(qū)域級語義標(biāo)注方案的準(zhǔn)確度和視覺表現(xiàn)能力。
[0005] 鑒于深度傳感器能夠獲取更加豐富的外觀和幾何結(jié)構(gòu)信息，深度攝像機在計算機視覺領(lǐng)域越來越受到廣泛的關(guān)注。近年來，越來越多的公司開發(fā)出了 RGB-D攝像機，該類設(shè) 備的特點是能夠?qū)崟r地為所攝場景捕獲得到相應(yīng)的RGB圖像和深度圖像，比如2010年微軟發(fā)布了能夠?qū)崟r采集RGB-D圖像的攝像頭（即Kinect) ;2011年華碩發(fā)布了 Xtion PRO ; 2013年體感控制器制造公司Leap發(fā)布的Leap Motion。
[0006] 室內(nèi)場景語義標(biāo)注，有其內(nèi)在固有屬性（即存在大量的語義類別及類別間存在遮擋、視覺特征缺乏較強辨識能力以及室內(nèi)光照不可控等問題），已成為了圖像語義標(biāo)注技術(shù) 中棘手且極富挑戰(zhàn)性的研宄方向之一。在室內(nèi)條件下，相較于單一的RGB數(shù)據(jù)，RGB-D數(shù) 據(jù)的優(yōu)勢在于：其提供了普通攝像機在三維投影過程中丟失的3D幾何信息，包含的深度信息可作為一個獨立于室內(nèi)環(huán)境照明條件的通道，這為解決室內(nèi)場景語義標(biāo)注問題帶來了新思路。作為利用深度信息進行室內(nèi)場景語義標(biāo)注的先驅(qū)，[SILBERMAN N，F(xiàn)ERGUS R. Indoor scene segmentation using a structured light sensor[C]//IEEE International Conference on Computer Vision(ICCV), 2011:601-608.]在 NYU RGB-D 數(shù)據(jù)集中獲得了 56. 6%的準(zhǔn)確率，展示了基于RGB-D數(shù)據(jù)語義感知室內(nèi)場景的巨大潛力。但目前大多數(shù)語義標(biāo)注工作僅僅將深度信息用于構(gòu)造區(qū)域級特征，卻忽略了其在上下文推斷中的作用，而且所采用的深度信息也較為單一。
[0007] 綜上所述，現(xiàn)有室內(nèi)場景語義標(biāo)注方案普遍存在著標(biāo)注基元量化級別難于選擇的問題，且?guī)缀紊疃刃畔⒃谏舷挛耐评磉^程中的作用也未獲得足夠的重視。

【發(fā)明內(nèi)容】

[0008] 針對上述技術(shù)問題，本發(fā)明所要解決的技術(shù)問題是提供一種基于RGB-D數(shù)據(jù)的室內(nèi)場景語義標(biāo)注方法，基于RGB-D數(shù)據(jù)，采用區(qū)域級語義標(biāo)簽推斷與像素級語義標(biāo)簽求精，兩部分交替迭代更新優(yōu)化的方式，能夠在一定程度上解決傳統(tǒng)語義標(biāo)注工作中難以合適地選擇標(biāo)注基元的問題。
[0009] 本發(fā)明為了解決上述技術(shù)問題采用以下技術(shù)方案：本發(fā)明設(shè)計了一種基于RGB-D 數(shù)據(jù)的室內(nèi)場景語義標(biāo)注方法，利用基于RGB-D信息的由粗到精、全局遞歸式反饋的語義標(biāo)注框架進行室內(nèi)場景圖像的語義標(biāo)注，該語義標(biāo)注框架是由粗粒度的區(qū)域級語義標(biāo)簽推斷與細(xì)粒度的像素級語義標(biāo)簽求精，交替迭代更新構(gòu)成，包括如下步驟：
[0010] 步驟001.針對RGB-D訓(xùn)練數(shù)據(jù)集合中的RGB圖像進行過分割，獲取該RGB圖像中的超像素，形成訓(xùn)練數(shù)據(jù)的超像素集；
[0011] 步驟002.根據(jù)RGB-D訓(xùn)練數(shù)據(jù)集合中的RGB圖像和對應(yīng)的深度圖像，分別針對該訓(xùn)練數(shù)據(jù)的超像素集中的各個超像素做如下操作：求取對應(yīng)超像素的各個區(qū)域特征單元，然后對該超像素的各個區(qū)域特征單元分別進行歸一化處理，獲得該超像素的各個歸一化區(qū) 域特征單元，最后將該超像素的各個歸一化區(qū)域特征單元進行拼接，構(gòu)成對應(yīng)于該超像素的多模態(tài)特征向量；
[0012] 步驟003.針對該訓(xùn)練數(shù)據(jù)的超像素集中的各個超像素，根據(jù)RGB-D訓(xùn)練數(shù)據(jù)集合中包含的基準(zhǔn)標(biāo)注信息，獲取該各個超像素分別對應(yīng)的類別標(biāo)簽；
[0013] 步驟004.針對該訓(xùn)練數(shù)據(jù)的超像素集中各個超像素分別對應(yīng)的類別標(biāo)簽、多模態(tài)特征向量，分別整合構(gòu)成分別對應(yīng)于各個超像素的各個條目，并整合該所有超像素對應(yīng) 的各個條目，構(gòu)成該訓(xùn)練數(shù)據(jù)的超像素集對應(yīng)的語義標(biāo)簽池；
[0014] 步驟005.將獲得的該訓(xùn)練數(shù)據(jù)的超像素集對應(yīng)的語義標(biāo)簽池作為訓(xùn)練樣本，訓(xùn) 練隨機決策森林分類器；
[0015] 步驟006.針對查詢圖像進行過分割，獲取該查詢圖像中的超像素，形成查詢圖像的超像素集；并按步驟002中的方法，根據(jù)查詢圖像和對應(yīng)的深度圖像，針對該查詢圖像的超像素集中的各個超像素，分別求取對應(yīng)超像素的多模態(tài)特征向量，構(gòu)成該查詢圖像的超像素集對應(yīng)的語義標(biāo)簽池；
[0016] 步驟007.采用已經(jīng)訓(xùn)練的隨機決策森林分類器，針對該查詢圖像的超像素集中的超像素進行語義標(biāo)簽推斷，獲得對應(yīng)該查詢圖像的區(qū)域結(jié)構(gòu)粗粒度級別標(biāo)注圖像；
[0017] 步驟008.針對獲得對應(yīng)該查詢圖像的區(qū)域結(jié)構(gòu)粗粒度級別標(biāo)注圖像進行標(biāo)簽求精，獲得對應(yīng)該查詢圖像的細(xì)粒度級別標(biāo)注圖像；
[0018] 步驟009.針對獲得對應(yīng)該查詢圖像的細(xì)粒度級別標(biāo)注圖像，采用內(nèi)部遞歸式反饋機制進行標(biāo)簽求精，獲得該查詢圖像的最終細(xì)粒度級別標(biāo)注圖像；
[0019] 步驟010.根據(jù)獲得該查詢圖像的最終細(xì)粒度級別標(biāo)注圖像，設(shè)計獲得由粗粒度的區(qū)域級語義推斷到細(xì)粒度的像素級語義求精的全局遞歸式反饋機制，將該查詢圖像的最終細(xì)粒度級別標(biāo)注圖像作為額外信息引入步驟001和步驟006中分別針對圖像的過分割操作中，并根據(jù)該全局遞歸式反饋機制，返回步驟〇〇1依次執(zhí)行各個步驟，且根據(jù)全局遞歸式反饋機制中的終止條件，獲得該查詢圖像的最終標(biāo)注圖像。
[0020] 作為本發(fā)明的一種優(yōu)選技術(shù)方案：所述步驟001和所述步驟006中分別針對圖像進行過分割的操作，采用基于圖像分層顯著度導(dǎo)引的簡單線性迭代聚類過分割算法，其中，該基于圖像分層顯著度導(dǎo)引的簡單線性迭代聚類過分割算法具體包括如下步驟：
[0021] 步驟A01.初始化各個聚類中心
【主權(quán)項】
1. 一種基于RGB-D數(shù)據(jù)的室內(nèi)場景語義標(biāo)注方法，利用基于RGB-D信息的由粗到

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮希龍;劉天亮;
技術(shù)所有人：南京郵電大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

大數(shù)據(jù)應(yīng)用場景相關(guān)技術(shù)

大數(shù)據(jù)的應(yīng)用場景相關(guān)技術(shù)

場景分類數(shù)據(jù)集相關(guān)技術(shù)

大數(shù)據(jù)場景相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于rgb-d數(shù)據(jù)的室內(nèi)場景語義標(biāo)注方法