亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于檢測器和跟蹤器的3D對象檢測方法與流程

文檔序號:11691324閱讀:312來源:國知局
一種基于檢測器和跟蹤器的3D對象檢測方法與流程

本發(fā)明涉及3d對象檢測領域,尤其涉及一種基于檢測器和跟蹤器的3d對象檢測方法。



背景技術:

隨著3d視覺采集設備尤其是kinect傳感器的發(fā)展,3d點云數(shù)據(jù)集可以輕松獲得,使得3d場景上下文標記和檢測逐漸成為計算機視覺的熱門研究課題[1]?,F(xiàn)有的3d對象檢測方法,給計算機視覺和機器人的研究帶來重大突破,但由于對象之間的遮擋以及復雜背景等因素的存在,使得對3d對象的檢測仍存在很大的挑戰(zhàn)。

針對對象檢測,已經(jīng)開發(fā)了許多方法以獲得準確的結果。這些方法主要分為兩類:基于2d圖像中的對象檢測和基于3d場景中的對象檢測。

早期研究主要集中在2d圖像中的對象檢測。viola等人[2]提出了一種基于視覺對象檢測的機器學習方法,它可以從較大的集合中選擇少量關鍵視覺特征,并產(chǎn)生非常高效的分類器。girshick等人[3]提出了一種流行的檢測結果(dpm(deformablepart-basedmodels,基于部分的可變形模型)),其使用可變形部分模型的混合,利用圖像中對象邊界框的區(qū)分方法來訓練這些模型。nie等人[4]提出利用零件的分數(shù)來定義物體檢測的最終分數(shù),可以充分利用零件信息來判斷物體的邊界框,提高最終檢測結果的查全率。

大規(guī)模的3d數(shù)據(jù)導致3d場景中的對象檢測成為熱門課題。lai等人[5]提出了一種基于視圖的方法用于3d場景中的對象標記,其利用從svm的對象視圖中訓練的滑動窗口檢測器來完成。koppula等人[6]將對由一組對齊的rgb-d(redgreenblue-depth,彩色-深度)幀生成的點云進行分割,并基于在分段上累積的局部特征來執(zhí)行分類。所有這些方法聚焦于三維場景中的3d對象檢測,而忽略由rgb攝像機拍攝到的視覺信息。同時,這些方法常常依賴于大規(guī)模的訓練方法,訓練成本高。

3d對象檢測目前面臨的主要挑戰(zhàn)為:通過機器學習方法來處理3d對象的弱特征問題時缺乏用于檢測器學習的有效3d數(shù)據(jù)集;對象之間的遮擋和復雜背景的存在,給特征的提取以及分類器的訓練造成很大困難;同類目標的差異性、觀察視點變化、光照差異的影響,使得對象檢測的魯棒性受到很大制約。



技術實現(xiàn)要素:

本發(fā)明提供了一種基于檢測器和跟蹤器的3d對象檢測方法,本發(fā)明避免了多目標場景下的對象遮擋對檢測精度的影響,提高了軌跡生成的可靠性,降低了計算的復雜度,詳見下文描述:

一種基于檢測器和跟蹤器的3d對象檢測方法,所述3d對象檢測方法包括以下步驟:

采用修正的tmd算法,在跟蹤的過程中根據(jù)塊區(qū)域的檢測結果,對每一個塊區(qū)域單獨進行跟蹤;

利用檢測和跟蹤結果,在時間的約束下生成一組可靠的軌跡片段,軌跡片段是每個跟蹤對象的表征特征;

采用gs方法將得到的軌跡片段融合,得到圖像中每個對象的標簽。

其中,所述3d對象檢測方法還包括:采用修正的exemplar-svm算法,對深度圖像和rgb圖像分別學習分類器,以從測試視頻中檢測和跟蹤每幀中的對象。

其中,所述3d對象檢測方法還包括:發(fā)布一個現(xiàn)實世界的3d模型數(shù)據(jù)集mv-red。

所述采用修正的tmd算法,在跟蹤的過程中根據(jù)塊區(qū)域的檢測結果,對每一個塊區(qū)域單獨進行跟蹤的步驟具體為:

根據(jù)最后一幀中的檢測結果更新對象模型,把新的對象檢測結果加入到訓練樣本中并刪除訓練樣本中被錯誤劃為正樣本的負樣本,通過在線學習不斷地更新訓練樣本,保證檢測器更適應于當前對象的狀態(tài);

利用更新模型中的模板,以增量方式學習具有隨機森林的對象檢測器,用于實時序列評估,根據(jù)跟蹤結果和檢測結果來預測出目標的真實位置。

所述根據(jù)跟蹤結果和檢測結果來預測出目標的真實位置的步驟具體為:

如果兩個結果的重疊區(qū)域超過某個閾值,則選擇兩者的中間位置作為目標的新位置;

否則,選擇與上一幀中目標特征相似度較大的結果作為在當前幀中跟蹤目標的新坐標。

所述采用修正的exemplar-svm算法,對深度圖像和rgb圖像分別學習分類器,以從測試視頻中檢測和跟蹤每幀中的對象的步驟具體為:

應用exemplar-svm訓練對象i的分類器并收集預測分數(shù)s;

將其他對象的正樣本添加到負樣本中,并發(fā)起另一輪svm訓練;

重復前兩個步驟,直到找不到新的正樣本或達到預設迭代次數(shù);從mv-red數(shù)據(jù)集中為每個對象學習一組分類器,在檢測過程中,為每個分類器獲得一組檢測分數(shù),選擇閾值過濾一些低質量檢測結果,并選擇最高的分數(shù)作為最終檢測結果。

本發(fā)明提供的技術方案的有益效果是:

1、本發(fā)明發(fā)布了一個新的現(xiàn)實世界的3d模型數(shù)據(jù)集mv-red(multi-viewrgb-dobjectdataset,多視圖rgb-d對象數(shù)據(jù)集),為每個對象提供721個rgb圖像和721個深度圖像,足以學習每個對象的魯棒性分類器;

2、提出的修正后的exemplar-svm(exemplarsupportvectormachine,基于范例的支持向量機)方法,可以更新訓練樣本,使分類器的魯棒性得到明顯的改善;

3、利用檢測器與跟蹤器來提高對象檢測的準確性,通過修正的tmd(tracking-modeling-detection,跟蹤-建模-檢測)方法克服遮擋處理的無效性,有效地解決目標小范圍遮擋的問題,保證軌跡片的準確性。

附圖說明

圖1為一種基于檢測器和跟蹤器的3d對象檢測方法的流程圖;

圖2為所提出算法在不同場景下對盒子的檢測結果的示意圖。

具體實施方式

為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面對本發(fā)明實施方式作進一步地詳細描述。

實施例1

為了解決以上問題,需要能夠全面、自動、準確地檢測對象并生成對象的運動軌跡。研究表明:一般檢測器不能保證檢測精度為100%,采用檢測加跟蹤的方式可以彌補檢測器的不足,提高檢測精度。本發(fā)明實施例提出了基于檢測器和跟蹤器的3d對象檢測方法,參見圖1,詳見下文描述:

101:采用修正的tmd算法,在跟蹤的過程中根據(jù)塊區(qū)域的檢測結果,對每一個塊區(qū)域單獨進行跟蹤;

102:利用檢測和跟蹤結果,在時間的約束下生成一組可靠的軌跡片段,軌跡片段是每個跟蹤對象的表征特征;

103:采用gs方法將得到的軌跡片段融合,得到圖像中每個對象的標簽。

其中,在步驟101之前,該3d對象檢測方法還包括:采用修正的exemplar-svm算法,對深度圖像和rgb圖像分別學習分類器,以從測試視頻中檢測和跟蹤每幀中的對象。

其中,在步驟101之前,該3d對象檢測方法還包括:發(fā)布一個現(xiàn)實世界的3d模型數(shù)據(jù)集mv-red。

其中,步驟101中的采用修正的tmd算法,在跟蹤的過程中根據(jù)塊區(qū)域的檢測結果,對每一個塊區(qū)域單獨進行跟蹤的步驟具體為:

根據(jù)最后一幀中的檢測結果更新對象模型,把新的對象檢測結果加入到訓練樣本中并刪除訓練樣本中被錯誤劃為正樣本的負樣本,通過在線學習不斷地更新訓練樣本,保證檢測器更適應于當前對象的狀態(tài);

利用更新模型中的模板,以增量方式學習具有隨機森林的對象檢測器,用于實時序列評估,根據(jù)跟蹤結果和檢測結果來預測出目標的真實位置。

進一步地,上述根據(jù)跟蹤結果和檢測結果來預測出目標的真實位置的步驟具體為:

如果兩個結果的重疊區(qū)域超過某個閾值,則選擇兩者的中間位置作為目標的新位置;

否則,選擇與上一幀中目標特征相似度較大的結果作為在當前幀中跟蹤目標的新坐標。

進一步地,采用修正的exemplar-svm算法,對深度圖像和rgb圖像分別學習分類器,以從測試視頻中檢測和跟蹤每幀中的對象的步驟具體為:

應用exemplar-svm訓練對象i的分類器并收集預測分數(shù)s;

將其他對象的正樣本添加到負樣本中,并發(fā)起另一輪svm訓練;

重復前兩個步驟,直到找不到新的正樣本或達到預設迭代次數(shù);從mv-red數(shù)據(jù)集中為每個對象學習一組分類器,在檢測過程中,為每個分類器獲得一組檢測分數(shù),選擇閾值過濾一些低質量檢測結果,并選擇最高的分數(shù)作為最終檢測結果。

綜上所述,本發(fā)明實施例避免了多目標場景下的對象遮擋對檢測精度的影響,提高了軌跡生成的可靠性,降低了計算的復雜度。

實施例2

下面結合具體的計算公式、圖1對實施例1中的方案進行進一步地介紹,詳見下文描述:

201:發(fā)布一個現(xiàn)實世界的3d模型數(shù)據(jù)集mv-red;

多視圖rgb-d對象數(shù)據(jù)集(mv-red),由天津大學多媒體研究所記錄,通過三個kinect傳感器在兩種不同的設置下分別記錄共505個對象,所記錄的每個對象具有721個rgb圖像和721個深度圖像,每個rgb圖像和深度圖像的分辨率為640×480。

兩種記錄設置之間的差異在于視圖采集的方向。第一種設置下記錄202個對象,相機1、相機2與桌面的夾角分別為0°和45°。第二種設置下記錄303個對象,相機1、相機2與桌面的夾角分別為45°和60°。

具體地,相機1和相機2由步進電機控制桌子均勻旋轉來捕獲360個rgb和深度圖像,相機3在自頂向下視圖中僅捕獲一個rgb圖像和一個深度圖像,通過這種方式,每個對象具有721個rgb圖像和721個深度圖像。

202:采用修正的exemplar-svm算法,對深度圖像和rgb圖像分別學習分類器,以從測試視頻中檢測和跟蹤每幀中的對象{d1,d2,...,dn};

圖像中感興趣的目標物體,都可以稱之為“范例(exemplar)”。mv-red數(shù)據(jù)集中的每個對象,均包括一組rgb圖像和深度圖像。從深度圖像xe中提取hog(histogramoforientedgradient,方向梯度直方圖)模板,對于每個范例或正樣本,利用exemplar-svm算法[7]學習一個檢測器(we,be),在特征空間中最大程度地將正樣本xe'從所有負樣本窗口ne中分離開,其中,we為范例的權重;be為范例的偏置向量。分類器即學習范例的特定hog權重向量。權重向量通過優(yōu)化以下凸函數(shù)獲得:

其中,w為權重向量;c1和c2是分類器對錯誤分類的正樣本、及錯誤分類的負樣本的懲罰系數(shù);ξj為鉸鏈損失函數(shù);yj為第j個分類標簽;witxj+bi為線性判別函數(shù),具體地,xj是第j個訓練樣本的視覺特征向量,wi為第i個范例的權向量,t表示轉置,bi為第i個范例的偏移量。

實際訓練過程中,由于正樣本與負樣本非常相似,懲罰系數(shù)很難確定,所以,本發(fā)明實施例對exemplar-svm算法進行修正,采用迭代學習的方式為最終的分類器選擇高辨別度的正樣本,具體為:

1)應用exemplar-svm訓練對象i的分類器并收集預測分數(shù)s;

2)將其他對象的正樣本添加到負樣本中,并發(fā)起另一輪svm訓練;

3)重復前兩個步驟,直到找不到新的正樣本或達到預設迭代次數(shù);

4)從mv-red數(shù)據(jù)集中為每個對象學習一組分類器,在檢測過程中,為每個分類器獲得一組檢測分數(shù),選擇閾值t過濾一些低質量檢測結果,并選擇最高的分數(shù)作為最終檢測結果。

同樣地,提取rgb圖像的hsv(huesaturationvalue,色度-飽和度-亮度)特征,通過上述修正的exemplar-svm算法學習分類器,用于訓練跟蹤器和補救檢測器的缺陷。

203:采用修正的tmd算法,利用跟蹤器的跟蹤結果{t1k,t2k,...,tmk}提高檢測器的準確性,在跟蹤的過程中根據(jù)塊區(qū)域的檢測結果{d1k,d2k,...,dnk},對每一個塊區(qū)域單獨進行跟蹤;

修正的tmd算法包含以下兩個步驟:

1)訓練模型;

將檢測結果用于訓練每個跟蹤對象的個體檢測器。每次訓練過程中,根據(jù)最后一幀中的檢測結果更新對象模型,把新的對象檢測結果加入到訓練樣本中并刪除訓練樣本中被錯誤劃為正樣本的負樣本,通過在線學習不斷地更新訓練樣本,保證檢測器更適應于當前對象的狀態(tài),

2)檢測。

利用更新模型中的模板,以增量方式學習具有隨機森林的對象檢測器,用于實時序列評估,根據(jù)跟蹤結果{t1k,t2k,...,tmk}和檢測結果{d1k,d2k,...,dnk}來預測出目標的真實位置;

即,如果兩個結果的重疊區(qū)域超過某個閾值,則選擇兩者的中間位置作為目標的新位置;否則,選擇與上一幀中目標特征相似度較大的結果作為在當前幀中跟蹤目標的新坐標。

204:利用檢測器的檢測結果{d1k,d2k,...,dnk}和跟蹤器的跟蹤結果{t1k,t2k,...,tnk},在時間的約束下生成一組可靠的軌跡片段{o1k,o2k,...,onk},軌跡片段是每個跟蹤對象的表征特征;

通過修正的tmd算法,引入在線學習的方式,根據(jù)跟蹤結果{t1k,t2k,...,tnk}和檢測結果{d1k,d2k,...,dnk}預測出目標的真實位置,保證最終檢測結果的魯棒性,得到可靠的軌跡片段{o1k,o2k,...,onk},其中,k為幀號。

205:重復步驟203-204,直至測試視頻結束;

206:采用gs(graphshift,圖偏移)方法將得到的軌跡片段融合,得到圖像中每個對象的標簽。

基于上述過程,獲得測試視頻中的不同對象一組可靠的軌跡片段,每個軌跡片段包括一組檢測結果。

記錄每個軌跡片的初始和終止狀態(tài),包括位置和時空時間信息,然后使用ti={ns,ne,fc,fd,xs,ys,xe,ye}來代表每一個軌跡片,ns是初始狀態(tài)的軌跡片,ne是終止狀態(tài)的軌跡片,fc是軌跡片的hsv特征,fd是軌跡片的hog特征,(xs,ys)是軌跡片的初始位置,(xe,ye)是軌跡片的終止位置,兩個不同軌跡片的相似性用下式來計算:

s(i,j)=εd(i,j)+τ1hc(i,j)+τ2hd(i,j)

其中,s(i,j)是軌跡片段i與軌跡片段j的相似度,d(i,j)代表軌跡片段i與軌跡片段j的空間距離,hc(i,j)和hd(i,j)是軌跡片段i與軌跡片段j在不同特征空間中的相似度,ε、τ1、τ2分別是d(i,j)、hc(i,j)、hd(i,j)的權重,本方法中設置ε=τ1=τ2=0.3

d(i,j)的求解公式如下:

其中,(xie,yie)是視頻中軌跡片段i的終止位置,(xjs,yjs)視頻中軌跡片段j的初始位置,軌跡片段i與軌跡片段j的相似性用歐氏距離表示:

其中,fi表示軌跡片段i的特征,fj表示軌跡片段j的特征。

相似性可以用于構建圖模型,通過構建圖模型,利用圖形移位方法將產(chǎn)生的一段段的軌跡片融合,最終得到的密集子圖即為每個對象的運動軌跡。下面介紹圖模型的構建方式:

圖模型中,每個節(jié)點表示每個軌跡片,每個邊表示兩個不同軌跡片之間的相似性,密集子圖是每個對象的軌跡。采用gs方法[8]來檢測密集子圖,將多媒體的相鄰矩陣a作為輸入,軌跡圖的子圖由概率集群x∈δn表示,其中,δn={x|x∈rn,x≥0,|x|1=1},δn為概率集群;x為子圖包含每個頂點的概率,是單位映射向量;rn為n維實數(shù)集。每個局部最大值表示圖的密集子圖,即每個對象的檢測結果。目標函數(shù)如下:

x*=argmaxxtax

∑xi=1,xi≥ci

其中,a為鄰接矩陣;x*為密集子圖;xi為第i個頂點包含在子圖中的概率;ci為常數(shù),當i=0時,ci=1,當i=1,...,n時,ci=0。

使用多次圖形移位,以獲得一組子圖作為數(shù)據(jù)關聯(lián)的結果。采用拉格朗日處理優(yōu)化問題。引入拉格朗日乘數(shù)λ、αi,i=1,...,n,得到拉格朗日函數(shù):

局部最大值x*必須滿足kkt(karush-kuhn-tucker,一種最優(yōu)化條件)條件:

其中,xi*為第i個頂點包含在密集子圖中的概率;

綜上所述,本發(fā)明實施例避免了多目標場景下的對象遮擋對檢測精度的影響,提高了軌跡生成的可靠性,降低了計算的復雜度。

實施例3

下面結合具體的實例、計算公式、表1和表2對實施例1和2中的方案進行可行性驗證,詳見下文描述:

本實驗發(fā)布了一個由天津大學多媒體研究所記錄的基于多視角和多模態(tài)信息的現(xiàn)實世界對象數(shù)據(jù)集,名為多視圖rgb-d對象數(shù)據(jù)集(mv-red)。該數(shù)據(jù)集通過三個kinect傳感器在兩種不同的設置下分別記錄202個和303個對象,所記錄的每個對象具有721個rgb圖像和721個深度圖像,每個rgb圖像和深度圖像的分辨率為640×480,兩種設置之間的差異在于視圖采集的方向,使得基于該數(shù)據(jù)集的視圖匹配難度增加。

不失一般性的,本實驗使用查準率(precision)與查全率(recall)來衡量方法的檢索性能。查準率與查全率是三維物體檢索性能評估的重要指標之一,查準率越大,代表檢索性能越優(yōu)良。recall和precision根據(jù)以下公式求得:

其中,recall是查全率;nz是正確檢索對象的數(shù)量;nr是所有相關對象的數(shù)量。

其中,precision是查準率,nall是所有檢索對象的數(shù)量。

實驗中將本方法與dpm算法、原始exemplar-svm方法進行對比來驗證所提出方法的檢測性能;與graphcut、k-means等聚類算法進行比較來驗證數(shù)據(jù)關聯(lián)的準確性:

dpm[3]:利用根濾波器在檢測區(qū)域上定位對象的各個部件,對象的最終分數(shù)由所有部件濾波器和根過濾器的響應計算。

exemplar-svm[7]:。為每一個單獨的屬于同類的范例訓練出獨一無二的分類器,將其通過一定方式集成后用于目標檢測。

graphcut[9]:又稱“圖像分割”。是一種十分有用和流行的能量優(yōu)化算法。

k-means[10]:又稱“k-均值”。是一種基于樣本間相似性度量的間接聚類方法。

表1

由表1可知,本方法所提出的方法優(yōu)于dpm和原始exemplar-svm方法。這是由于dpm通過在一些固定角度或某些固定元素中學習檢測器,在實際檢測過程中不靈活,很難檢測視頻中出現(xiàn)的特殊形狀;與原始的exemplar-svm比較,本方法通過更新訓練樣本來保證魯棒性分類器,可以減少錯誤檢測結果的數(shù)量。

表2

由表2可知,本方法勝過比較的聚類方法。這是由于所提出的方法利用圖形移位來處理數(shù)據(jù)關聯(lián),在優(yōu)化過程中,每次運行將更新每個子簇的所有點,以保證所有節(jié)點的特征相似。實驗結果驗證了本方法的可行性與優(yōu)越性。

參考文獻:

[1]熊亮.基于視頻序列的運動檢測與跟蹤方法研究[d].華南理工大學,2010.

[2]paulviola,michaeljones,rapidobjectdetectionusingaboostedcascadeofsimplefeatures.in:proceedingsofthe2001ieeecomputersocietyconferenceoncomputervisionandpatternrecognition,2001,cvpr2001,vol.1.ieee,kauai,hawaii,usa,2001,p.i-511.

[3]rossb.girshick,pedrof.felzenszwalb,d.mcallester,discriminativelytraineddeformablepartmodels,release5,2012.

[4]weizhinie,ananliu,yutingsu,huan-boluan,zhaoxuanyang,liujuancao,rongrongji,single/cross-cameramultiple-persontrackingbygraphmatching,neurocomputing139(2014)220–232.

[5]kevinlai,liefengbo,xiaofengren,dieterfox,detection-basedobjectlabelingin3dscenes,in:ieeeinternationalconferenceonroboticsandautomation,icra2012,st.paul,minnesota,usa,14–18may2012,pp.1330–1337.

[6]hemas.koppula,abhishekanand,thorstenjoachims,ashutoshsaxena,semanticlabelingof3dpointcloudsforindoorscenes,in:advancesinneuralinformationprocessingsystems,2011,pp.244–252.

[7]陳璐艷.基于范例集成的目標檢測模型研究[d].上海交通大學,2015.

[8]hairongliu,shuichengyan,robustgraphmodeseekingbygraphshift,in:proceedingsofthe27thinternationalconferenceonmachinelearning(icml10),haifa,israel,21–24june2010,pp.671–678.

[9]高林爽.基于graphcuts的圖像分割方法研究[d].寧夏大學,2015.

[10]chrish.q.ding,xiaofenghe,andhorstd.simon.nonnegativelagrangianrelaxationofk-meansandspectralclustering.inecml,pages530–538,2005.

本領域技術人員可以理解附圖只是一個優(yōu)選實施例的示意圖,上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。

以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1