基于概率圖模型的非參數(shù)化的rgb-d場景理解方法
【技術領域】
[0001] 本發(fā)明屬于圖像處理技術領域,具體涉及一種基于概率圖模型的非參數(shù)化的 RGB-D場景理解方法。
【背景技術】
[0002] 場景理解是用模式識別和人工智能的方法對場景圖像進行分析、描述、分類和解 釋,最終得到場景圖像逐像素語義標注的技術,是計算機視覺的一個重要課題,在機器人導 航、虛擬現(xiàn)實、安防監(jiān)控以及網絡搜索領域有著廣泛的應用。
[0003] 場景理解的方法主要分為參數(shù)化方法和非參數(shù)化方法兩大類。參數(shù)化的方法大多 都基于依賴訓練的生成模型,而非參數(shù)化的方法則無需依賴任何訓練,通過圖像間的相似 性傳遞語義標簽。在參數(shù)化的方法中,需要對場景中的每個類別分別訓練一個分類器,然后 利用貝葉斯網絡或者馬爾科夫隨機場(MRF)等概率圖模型構建得到生成模型。這種方法對 于場景類別的伸縮性非常差,一旦場景的語義類別發(fā)生增減,就需要對所有語義類別重新 進行訓練,而且訓練是一個非常耗費時間和計算資源的過程,導致參數(shù)化的場景理解方法 在實際應用中受到了極大的限制。然而,大數(shù)據(jù)時代的到來為場景理解打開了非參數(shù)化方 法的大門。不同于訓練復雜的參數(shù)化模型,非參數(shù)化方法試圖利用圖像像素或者超像素間 的匹配將已標注的相似圖像的語義標簽傳遞給待標注的圖像。在數(shù)據(jù)集中的數(shù)據(jù)量足夠大 的前提下,我們總是能夠找到與目標待標注圖像場景相似的圖像,而相似的場景所包含的 語義信息往往是相似的,這為圖像間語義標簽的傳遞提供了可能。
[0004] 傳統(tǒng)的非參數(shù)化場景理解方法主要針對二維圖像展開研宄,隨著激光雷達以及微 軟Kinect等距離傳感器的面世,場景深度信息的獲取變得越來越容易,結合三維點云數(shù) 據(jù)或者致密深度等三維信息的場景理解方法受到了學者的廣泛關注和研宄。然而現(xiàn)有的 RGB-D圖像的場景理解都基于參數(shù)化的方法,如何快速高效高性能并且魯棒地實現(xiàn)非參數(shù) 化的RGB-D場景理解是目前面臨的難題。
【發(fā)明內容】
[0005] 本發(fā)明的目的在于針對參數(shù)化RGB-D場景理解方法的不足,提供一種基于概率圖 模型的非參數(shù)化的RGB-D場景理解方法,該方法避免了參數(shù)化方法耗時耗資源的離線訓 練,利用圖像超像素間的相似性進行語義標簽的轉移,計算高效且能適應各種場景。同時, 本發(fā)明提出的雙向匹配以及基于協(xié)同表示分類(CRC)的標簽轉移機制使得本發(fā)明的方法 與傳統(tǒng)的非參數(shù)化場景理解方法相比,有效的減少了超像素之間的誤匹配,取得了更好的 性能。
[0006] 本發(fā)明的目的是通過以下技術方案來實現(xiàn)的:
[0007] 一種基于概率圖模型的非參數(shù)化的RGB-D場景理解方法,包括如下步驟:
[0008] (1)輸入待標注圖像,利用GIST特征、顏色直方圖、法向量直方圖三種全局特征將 待標注圖像與訓練集中的圖像進行特征匹配,構建待標注圖像的相似圖像檢索集;
[0009] (2)將步驟1輸入的待標注圖像及得到的相似圖像檢索集中的圖像進行過分割, 生成超像素,并利用梯度核描述符、顏色核描述符以及深度梯度核描述符三種核描述符 (Kernel descriptor)提取超像素的特征A,其中i表示超像素的索引值;計算訓練集中各 個語義類別所占的比例,分別對各個稀有類別的超像素進行K-means聚類,取每個聚類的 中心構建該稀有類別的詞典;將所有稀有類別的詞典與步驟1得到的相似圖像檢索集一起 作為待標注圖像的標簽源;
[0010] (3)將步驟2得到的待標注圖像中的每個超像素的特征{./;&與該圖像標簽源中 的所有超像素的特征1/;}^進行雙向特征匹配,生成匹配集{叫丨二;匹配度用基于協(xié)同表示 分類(CRC)的殘差度量;其中P,Q分別表示待標注圖像中所有超像素的數(shù)量和標簽源中所 有超像素的數(shù)量;
[0011] (4)把步驟2得到的超像素的特征作為節(jié)點,將具有共同邊界的超像素相連,構建 概率圖模型,將求解最大化后驗概率的問題轉化成求解最小化能量函數(shù)的馬爾科夫隨機場 (MRF),其描述如下:
【主權項】
1. 一種基于概率圖模型的非參數(shù)化的RGB-D場景理解方法,其特征在于,包括如下步 驟: (1) 輸入待標注圖像,利用GIST特征、顏色直方圖、法向量直方圖S種全局特征將待標 注圖像與訓練集中的圖像進行特征匹配,構建待標注圖像的相似圖像檢索集; (2) 將步驟1輸入的待標注圖像及得到的相似圖像檢索集中的圖像進行過分割,生成 超像素,并利用梯度核描述符、顏色核描述符W及深度梯度核描述符=種核描述符化ernel descriptor)提取超像素的特征fi,其中i表示超像素的索引值;計算訓練集中各個語義類 別所占的比例,分別對各個稀有類別的超像素進行K-means聚類,取每個聚類的中屯、構建 該稀有類別的詞典;將所有稀有類別的詞典與步驟1得到的相似圖像檢索集一起作為待標 注圖像的標簽源; (3) 將步驟2得到的待標注圖像中的每個超像素的特征{乂倍與該圖像標簽源中的所 有超像素的特征巧擊1進行雙向特征匹配,生成匹配集如,括;匹配度用基于協(xié)同表示分類 (CRC)的殘差度量;其中P,Q分別表示待標注圖像中所有超像素的數(shù)量和標簽源中所有超 像素的數(shù)量; (4) 把步驟2得到的超像素的特征作為節(jié)點,將具有共同邊界的超像素相連,構建概 率圖模型,將求解最大化后驗概率的問題轉化成求解最小化能量函數(shù)的馬爾科夫隨機場 (MRF),其描述如下:
(1) 其中,L表示待標注圖像所有超像素的標簽集,ih。,。是馬爾科夫隨機場(MR巧的數(shù)據(jù) 項,1]^。。。1虎馬爾科夫隨機場(MRF)的平滑項,1濟1冷別表示索引值為i和j的超像素 的語義標簽,A是平衡系數(shù); (5) 根據(jù)步驟3得到的匹配結果構建馬爾科夫隨機場(MR巧的數(shù)據(jù)項ihw。,其描述如 下:
其中S康示索引值為i的超像素,F(xiàn)。表示步驟4得到的匹配集m沖標簽為C的超像素 的核描述符按列排列構建得到的測量矩陣,巧;為測量矩陣F。對應的系數(shù)矩陣,C(Si)表示 匹配集叫中語義類別集合,0是一個自定義的比大的常數(shù),用來懲罰cgCCs,.) 的情況; 根據(jù)圖像超像素鄰域間的平滑關系構建馬爾科夫隨機場(MRF)的平滑項It,mwth,其描 述如下:
其中巧,。,?。/表示相鄰超像素表面法向量間的平滑性,戶fwfwe表示相鄰超像素的核描述 符之間的平滑性。
2. 根據(jù)權利要求1所述的方法,其特征在于,所述對待標注圖像的相似圖像檢索集的 求解方法具體為:分別計算待標注圖像與訓練集中所有圖像的GIST特征、顏色直方圖W及 法向量直方圖之間的歐氏距離,分別取距離最小的前Ki個圖像,將S種全局特征匹配得到 的3Ki個圖像的交集作為待標注圖像相似圖像的檢索集,K 1是一個自定義的常數(shù)。
3. 根據(jù)權利要求1所述的方法,其特征在于,所述對稀有類別字典的求解方法具體為: 計算訓練集中各個語義類別所占的比例,將占比不超過3 %的語義類別定義為稀有類別,利 用K-means聚類分別將屬于各個稀有類別的超像素聚成馬類,提取K 2個聚類中屯、作為該稀 有類別的詞典,K,是一個自定義的常數(shù)。
4. 根據(jù)權利要求1所述的方法,其特征在于,步驟3所述利用雙向匹配策略對待標注圖 像中的每個超像素匹配集如的求解方法具體為;對一個待標注的超像素Si,先根據(jù)該 超像素與檢索集中超像素核描述符特征的歐氏距離,在檢索集中選出距離該超像素最近的 Ks個超像素,K 3是一個自定義的常數(shù);然后對其中的每個超像素S j.,根據(jù)核描述符特征的歐 氏距離在待標注圖像中找出其最近鄰N(Sj.),當Sj.不滿足W下條件時,將S j.從S i的匹配集 中移除掉,其描述如下: D(s。N(Sj))《e 1 and H(s。N(Sj))《e 2 妨 式中D表示超像素間二維的空間距離,H表示超像素=維的高度差。
5. 根據(jù)權利要求1所述的方法,其特征在于,步驟5所述對馬爾科夫隨機場(MR巧數(shù)據(jù) 項ihw。的求解方法具體為;用基于協(xié)同表示分類(CRC)的匹配殘差來構建數(shù)據(jù)項,其描述 如下:
式中丫是一個自定義的權重標量,F(xiàn)是匹配集中所有超像素的核描述符按列排列構 建得到的測量矩陣。
6. 根據(jù)權利要求1所述的方法,其特征在于,所述對馬爾科夫隨機場(MR巧數(shù)據(jù)項 1]^。。。1曲求解方法具體為:利用相鄰超像素間表面法向量的角度^及特征的相似度來對鄰 域進行平滑,其描述如下:
式中rii表示超像素s i的表面法向量,o是一個自定義的常數(shù)。
【專利摘要】本發(fā)明公開了一種基于概率圖模型的非參數(shù)化的RGB-D場景理解方法。將待標注圖像與訓練集中已標注的圖像進行全局特征匹配,構建待標注圖像相似圖像的檢索集;將待標注圖像及其相似圖像檢索集中的圖像進行過分割,生成超像素,并對生成的超像素進行特征提??;計算訓練集中各個類別所占的比例,構建稀有類別的詞典,與相似圖像的檢索集一起作為待標注圖像的標簽源;將待標注圖像中的每個超像素與該圖像標簽源中的所有超像素進行特征匹配;構建概率圖模型,利用馬爾科夫隨機場將最大化后驗概率轉化成最小化能量函數(shù)的優(yōu)化問題,利用圖割方法求解該問題得到待標注圖像每個超像素的語義標注。本發(fā)明整合了全局和局部的幾何信息,提高了RGB-D場景理解的性能。
【IPC分類】G06T7-00, G06F17-30
【公開號】CN104599275
【申請?zhí)枴緾N201510039559
【發(fā)明人】費婷婷, 龔小謹
【申請人】浙江大學
【公開日】2015年5月6日
【申請日】2015年1月27日