本公開涉及機(jī)器視覺系統(tǒng)和用于識別感興趣的對象的方法。
背景技術(shù):
計算機(jī)視覺是這樣的科學(xué)學(xué)科,其制造能“看”的機(jī)器,從而機(jī)器可以從圖像提取信息,并基于提取的信息執(zhí)行某任務(wù)或解決某問題。圖像數(shù)據(jù)可以采用多種形式,比如靜態(tài)圖像、視頻、來自多個攝像頭的視圖、或來自醫(yī)學(xué)掃描儀的多維度數(shù)據(jù)。
已知的機(jī)器人感知系統(tǒng)通過構(gòu)建特定的光照條件、構(gòu)造觀察條件和開發(fā)過程配置而實現(xiàn)期望的性能和可靠性。在較窄的條件范圍下(僅在實際條件的子集中工作)他們是靈活的,且可能由于周圍環(huán)境中的微小改變而發(fā)生故障。另外,已知系統(tǒng)和相關(guān)技術(shù)的處理速度不足以進(jìn)行有效率的實時處理。當(dāng)引入更寬的靈活性且通過嚴(yán)酷地構(gòu)造域(domain)而被使得強(qiáng)健地(robustly)工作時,Turnkey商業(yè)機(jī)器視覺系統(tǒng)可能很慢。例如,進(jìn)行在大的視野(FOV)下搜索占據(jù)FOV的5-10%的未知取向的對象會花費若干秒或更多。當(dāng)搜索正/后/側(cè)視圖以精確地發(fā)現(xiàn)對象位置和姿態(tài)時,更加復(fù)雜。此外,與構(gòu)造用于機(jī)器人材料傳輸?shù)囊阎詣踊桨傅沫h(huán)境相關(guān)的、以及與處理應(yīng)用(handling applications)相關(guān)聯(lián)的費用可以是與機(jī)器人裝置相關(guān)的費用的三倍至十倍。在已知的自動化系統(tǒng)中,可被有效操作的產(chǎn)品的范圍可被限制,且通常被局限為僅少數(shù)類型。此外,這樣的系統(tǒng)笨重而難以重組,且重新配置以用于不同類別的產(chǎn)品是較慢的。由此,由于與投資、操作成本、靈活性以及可重構(gòu)性相關(guān)聯(lián)的問題,現(xiàn)有的自動化方案在涉及多種部件的組裝操作方面不易于應(yīng)用。
技術(shù)實現(xiàn)要素:
本發(fā)明涉及一種用于識別機(jī)器視覺系統(tǒng)的視野中的已知對象的方法,包括:
采用機(jī)器視覺系統(tǒng),捕獲視野的位圖圖像文件;
執(zhí)行位圖圖像文件的第一特征提取,以產(chǎn)生包括顏色直方圖和邊緣方向直方圖的外觀特征;
基于包括顏色直方圖和邊緣方向直方圖的外觀特征,識別縮減的搜索空間;
執(zhí)行位圖圖像文件的第二特征提取,以辨識幾何特征,所述幾何特征包括視角特征直方圖和與之相關(guān)聯(lián)的形狀函數(shù)的集合;
將外觀特征和幾何特征與縮減的搜索空間的內(nèi)容融合;
將融合的外觀特征、幾何特征和縮減的搜索空間的內(nèi)容與多個已知對象的多個預(yù)定的局部視圖比較;和
通過控制器,基于所述比較而識別已知對象中的一個。
在上述方法中,其中將融合的外觀特征、幾何特征和縮減的搜索空間的內(nèi)容與多個已知對象的多個預(yù)定的局部視圖比較包括,執(zhí)行自適應(yīng)提高學(xué)習(xí)算法以實現(xiàn)該比較。
在上述方法中,其中執(zhí)行位圖圖像文件的第一特征提取以產(chǎn)生包括顏色直方圖的外觀特征包括,產(chǎn)生針對位圖圖像文件的色調(diào)和顏色飽和度進(jìn)行量化的直方圖。
在上述方法中,其中執(zhí)行位圖圖像文件的第一特征提取以產(chǎn)生包括邊緣方向直方圖的外觀特征包括,產(chǎn)生表示位圖圖像文件中的被捕獲對象的亮度變化的方向性和頻率的直方圖。
在上述方法中,其中執(zhí)行位圖圖像文件的第二特征提取以辨識包括視角特征直方圖的幾何特征包括,通過積累與位圖圖像文件相關(guān)的輸入點云的所有點對之間的幾何關(guān)系而將其形狀的統(tǒng)計數(shù)據(jù)編碼。
本發(fā)明還涉及一種由機(jī)器執(zhí)行的、基于視覺的對象識別過程,包括:
捕獲針對多個已知對象的每一個的多個預(yù)定局部視圖;
經(jīng)由機(jī)器視覺系統(tǒng),采用機(jī)器視覺系統(tǒng),捕獲包括視野的三維圖像的位圖圖像文件,該視野包括已知對象的至少一個;
通過控制器,執(zhí)行位圖圖像文件的二維(2D)特征提取,以產(chǎn)生包括顏色直方圖和邊緣方向直方圖的二維外觀特征;
基于包括顏色直方圖和邊緣方向直方圖的二維外觀特征,識別縮減的搜索空間;
執(zhí)行位圖圖像文件的三維特征提取,以辨識幾何特征,所述幾何特征包括視角特征直方圖和與之相關(guān)聯(lián)的形狀函數(shù)的集合;
將外觀特征和幾何特征與縮減的搜索空間的內(nèi)容融合;
將融合的外觀特征、幾何特征和縮減的搜索空間的內(nèi)容與所述多個已知對象的所述多個預(yù)定的局部視圖比較;和
通過控制器,基于所述比較而識別已知對象中的一個。
在上述過程中,其中將融合的外觀特征、幾何特征和縮減的搜索空間的內(nèi)容與多個已知對象的多個預(yù)定的局部視圖比較包括,執(zhí)行自適應(yīng)提高學(xué)習(xí)算法以實現(xiàn)該比較。
在上述過程中,其中執(zhí)行位圖圖像文件的二維特征提取以產(chǎn)生包括顏色直方圖的外觀特征包括,產(chǎn)生針對位圖圖像文件的色調(diào)和顏色飽和度進(jìn)行量化的直方圖。
在上述過程中,其中執(zhí)行位圖圖像文件的二維特征提取以產(chǎn)生包括邊緣方向直方圖的外觀特征包括,產(chǎn)生表示位圖圖像文件中的被捕獲對象的亮度變化的方向性和頻率的直方圖。
在上述過程中,其中執(zhí)行位圖圖像文件的三維特征提取以辨識包括視角特征直方圖的幾何特征包括,通過積累與位圖圖像文件相關(guān)的輸入點云的所有點對之間的幾何關(guān)系而將其形狀的統(tǒng)計數(shù)據(jù)編碼。
本發(fā)明還涉及一種機(jī)器視覺裝置,包括:
圖像檢測器,信號連接到編碼器,所述編碼器信號連接到控制器;和
控制器,執(zhí)行基于視覺的對象識別過程,包括以下步驟:
經(jīng)由圖像檢測器和編碼器,采用機(jī)器視覺系統(tǒng)捕獲包括視野的三維圖像的位圖圖像文件,該視野包括已知對象的至少一個;
執(zhí)行位圖圖像文件的二維(2D)特征提取,以產(chǎn)生包括顏色直方圖和邊緣方向直方圖的二維外觀特征;
基于包括顏色直方圖和邊緣方向直方圖的二維外觀特征,識別縮減的搜索空間;
執(zhí)行位圖圖像文件的三維特征提取,以辨識幾何特征,所述幾何特征包括視角特征直方圖和與之相關(guān)聯(lián)的形狀函數(shù)的集合;
將外觀特征和幾何特征與縮減的搜索空間的內(nèi)容融合;
將融合的外觀特征、幾何特征和縮減的搜索空間的內(nèi)容與所述多個已知 對象的所述多個預(yù)定的局部視圖比較;和
基于所述比較而識別已知對象中的一個。
一種用于識別三維(3D)視覺系統(tǒng)的視野中的已知對象的方法,包括采用機(jī)器視覺系統(tǒng)捕獲視野的位圖圖像文件以及執(zhí)行位圖圖像文件的第一特征提取,以產(chǎn)生包括顏色直方圖(histogram)和邊緣方向直方圖的外觀特征(appearance feature)?;诎伾狈綀D和邊緣方向直方圖的外觀特征,辨識縮減的搜索空間。執(zhí)行位圖圖像文件的第二特征提取,以辨識幾何特征,所述幾何特征包括視角特征直方圖和與之相關(guān)的形狀函數(shù)的集合。將外觀特征和幾何特征與經(jīng)縮減的搜索空間的內(nèi)容融合。將經(jīng)融合的外觀特征、幾何特征和縮減的搜索空間的內(nèi)容與多個已知對象的多個預(yù)定的局部視圖比較,以識別已知對象中的一個。
本教導(dǎo)的上述特征和優(yōu)勢及其他特征和優(yōu)勢將從用于實施如所附的權(quán)利要求中定義的本教導(dǎo)的一些最佳模式和其它實施例的以下詳細(xì)描述連同附圖時顯而易見。
附圖說明
現(xiàn)在將通過示例的方式參考附圖來描述一個或多個實施例,其中:
圖1示意性地示出了根據(jù)本公開的用于捕獲、處理和存儲視野(FOV)的圖像的機(jī)器視覺系統(tǒng),包括信號連接到編碼器的圖像檢測器(攝像頭),所述編碼器信號連接到控制器;
圖2示出了根據(jù)本公開的通過結(jié)合2D局部特征和3D總體特征而實現(xiàn)攝像頭的FOV中的一個或多個已知對象的機(jī)器識別的對象識別過程的示意性框圖;
圖3圖示了根據(jù)本公開的從輸入點云(point cloud)提取的經(jīng)分割圖像文件中的、用于單個點對Pt和Ps的向量和表示相鄰點的相關(guān)聯(lián)的點向量;
圖4圖示了根據(jù)本公開的視角分量直方圖的示例,其收集視角方向與每個正交方向之間的角度;和
圖5圖示了根據(jù)本公開的形狀函數(shù)的集合(ESF)的示例,其被應(yīng)用于包括3D對象的點云。
具體實施方式
現(xiàn)在參考附圖,其中圖示僅出于圖解一些示例性實施例的目的,而不是出于對其進(jìn)行限制的目的,圖1示意性地示出了示例性機(jī)器視覺系統(tǒng)100,其用于捕獲、處理和存儲視野(FOV)35的圖像,包括信號連接到編碼器20的圖像檢測器(攝像頭)10,所述編碼器20信號連接到控制器50。攝像頭10優(yōu)選地是能夠捕獲FOV 35的三維(3D)圖像15的立體感裝置。攝像頭10可以處于相對于在FOV 35內(nèi)的已知對象40的任何位置和取向,已知對象40在平面45上取向。已知對象40是具有預(yù)限定特征的結(jié)構(gòu)實體,所述特征包括例如空間尺寸、材料、和指示反射性的表面處理等。貫穿說明書和附圖,相同的術(shù)語和相同的數(shù)字指示相同的元件。
在一個實施例中,由攝像頭10捕獲的3D圖像15為24位立體圖像的形式,包括代表FOV 35的RGB(紅-綠-藍(lán))值和深度值。3D圖像15的其他實施例可以包括代表3D FOV的黑和白或灰度表現(xiàn)形式的3D圖像,以及沒有限制的其他圖像表現(xiàn)形式。攝像頭10包括圖像獲取傳感器,其信號連接到編碼器20,所述編碼器20在3D圖像15上執(zhí)行數(shù)字信號處理(DSP)。圖像獲取傳感器以預(yù)定的分辨率捕獲3D圖像15作為FOV 35中的多個像素,且編碼器20將FOV 35中的像素編碼,以產(chǎn)生FOV 35的位圖圖像文件25,例如以預(yù)定分辨率表示FOV 35的像素的8位位圖。位圖圖像文件25被通信到控制器50。在一個實施例中,位圖圖像文件25是存儲在非瞬時性數(shù)字?jǐn)?shù)據(jù)存儲介質(zhì)中的編碼的數(shù)據(jù)文件。位圖圖像文件25包括可包括一個或多個已知對象40的3D圖像的數(shù)字表現(xiàn)形式,并表示以攝像頭10的原始分辨率捕獲的FOV 35的原始圖像。多個已知對象40可以都為相同的設(shè)計,或可以為不相似的設(shè)計。由攝像頭10捕獲的已知對象40的3D圖像15包含足夠的信息以評估已知對象40關(guān)于攝像頭10的位置,且還允許位圖圖像文件25中的數(shù)據(jù)的評估,以產(chǎn)生FOV 35的色調(diào)-飽和度-明度或亮度(Hue-Saturation-Value or Brightness)(HSV)模型和顏色直方圖(CH)。在與照明和反射率相關(guān)聯(lián)的影響已經(jīng)被考慮在內(nèi)且攝像頭10已經(jīng)被校準(zhǔn)之后,每個已知對象40的形狀取決于攝像頭10與已知對象40之間的相對觀察角度和距離。
“控制器”、“控制模塊”、“模塊”、“控制”、“控制單元”、“處理器”和類似術(shù)語意思是以下的一個或多個的組合:(一個或多個)專用集成電路(ASIC)、(一個或多個)電子電路、(一個或多個)中央處理單元(優(yōu)選地 為(一個或多個)微處理器)和執(zhí)行一個或多個軟件或固件程序或例程的相關(guān)存儲器和儲存器(只讀、可編程只讀、隨機(jī)訪問、硬盤驅(qū)動器等)、(一個或多個)組合的邏輯電路、(一個或多個)輸入/輸出電路和裝置、適當(dāng)?shù)男盘栒{(diào)制和緩沖電路、和其他部件以提供所描述的功能性,包括數(shù)據(jù)存儲和數(shù)據(jù)分析?!败浖?、“固件”、“程序”、“指令”、“例程”、“代碼”、“算法”和類似術(shù)語意思是,包括校準(zhǔn)和查找表的任何控制器可執(zhí)行的指令集。
圖2顯示了框圖形式的機(jī)器執(zhí)行的基于視覺的對象識別過程200,其通過結(jié)合在FOV的位圖圖像文件中的2D局部特征和3D總體特征而識別一個或多個已知對象。FOV的位圖圖像文件為輸入點云217的形式,所述點云可通過采用參考圖1描述的機(jī)器視覺系統(tǒng)100的實施例而被捕獲。目標(biāo)識別過程200的步驟優(yōu)選地以增大的復(fù)雜度按次序執(zhí)行,以采用機(jī)器視覺系統(tǒng)100提取、比較和細(xì)化特征,以識別對象,所述機(jī)器視覺系統(tǒng)可被機(jī)器人系統(tǒng)采用而用于材料管理、抓持和其他操作。對象識別過程200采用對象分割(segmentation)和對象識別,其使用由機(jī)器視覺系統(tǒng)100捕獲的可辨識的多模型(multimodal)特征。
在執(zhí)行對象識別過程200之前先執(zhí)行對象識別訓(xùn)練過程250,所述對象識別訓(xùn)練過程是這樣的過程,其用于收集多個已知對象的每一個的多個局部視圖,包括識別存儲在局部視圖數(shù)據(jù)庫255中且可從其獲取的3D總體特征和2D局部特征。優(yōu)選地,對象識別訓(xùn)練過程250被離線執(zhí)行,結(jié)果以可獲取的方式被分析、驗證和捕獲。
對象識別過程200開始于低水平處理(其使用基于外觀的標(biāo)記),且通過融合2D和3D標(biāo)記二者而進(jìn)行至高水平對象表現(xiàn)形式,以實現(xiàn)一個或多個已知對象的機(jī)器識別。
舉例來描述對象識別過程200的操作,通過使用機(jī)器視覺系統(tǒng)100的實施例,已知對象211,212,213,214和215在平面表面216上的任意布置被捕獲成為輸入點云217形式的位圖圖像文件(210)。已知對象211,212,213,214和215包括開關(guān)211、收音機(jī)212、水壺213、噴灑瓶214、和把手215,其被任意選擇以用于說明的目的。
輸入點云217經(jīng)受分割,以將表示平面表面216的數(shù)據(jù)從輸入點云217去除(220),得到經(jīng)分割的圖像數(shù)據(jù)文件225。這包括辨識輸入點云217的表示平面表面216的部分,以及將它們?nèi)コ蛘呤顾鼈儾黄鹱饔?,并由此? 被進(jìn)行進(jìn)一步分析。
經(jīng)分割的圖像數(shù)據(jù)文件225經(jīng)受2D特征提取(230)和3D特征提取(240)。2D特征提取(230)包括基于2D外觀特征而辨識經(jīng)分割的圖像數(shù)據(jù)文件225中的單獨的項目。2D外觀特征的提取通過從經(jīng)分割的圖像數(shù)據(jù)文件225開發(fā)顏色直方圖(CH)和邊緣方向直方圖(EDH)237而實現(xiàn)。CH 235優(yōu)選地基于顏色空間的色調(diào)-飽和度-明度或亮度(HSV)模型,其限定以色調(diào)、飽和度和數(shù)值的分量表示的顏色空間。色調(diào)指示可見光譜上的顏色類型,比如紅、橘、黃等。色調(diào)優(yōu)選地為范圍為0至179的值,紅為0,綠為60,藍(lán)為120,等。飽和度指示顏色的純度,用于顏色的飽和度的值下降指示“灰度”存在的增加以及顏色脫色的增加。顏色的飽和度的值范圍是0至255,其中0表示黑-灰-白,255表示純的光譜顏色。明度或亮度指示顏色的強(qiáng)度,且范圍為從0至100%。HSV模型提供RGB顏色空間的非線性變換。
GH 235表示顏色在經(jīng)分割的圖像數(shù)據(jù)文件225中的分布,且包括具有在跨色譜的顏色范圍列表的每一個中的顏色的像素的數(shù)值量。在一個實施例中,僅采用色調(diào)和飽和度值以最小化光照效應(yīng)。色調(diào)從0變化到179,且飽和度從0(黑-灰-白)變化到255(純光譜顏色)。在一個實施例中,色調(diào)被量化到15的水平,飽和度被量化到16的水平。CH 235提供顏色值的潛在連續(xù)分布的統(tǒng)計學(xué)近似。
EDH 237是多位(multi-bin)直方圖,其捕獲局部邊緣分布,以表示捕獲在經(jīng)分割的圖像數(shù)據(jù)文件225中的對象的亮度變化的頻率和方向性。表示2D對象的經(jīng)分割的圖像數(shù)據(jù)文件225被分成4x4的不重疊的矩形區(qū)域。在每一個區(qū)域中,EDH 237計算四個方向性邊緣(水平、垂直和兩個斜對角線)以及一個非方向性邊緣。
針對存儲在局部視圖數(shù)據(jù)庫255中的已知對象的多個局部視圖的每一個,將CH 235和EDH 237與2D外觀特征進(jìn)行比較(260),以縮窄和縮減與一個或多個已知對象相關(guān)聯(lián)的經(jīng)分割的圖像數(shù)據(jù)文件225中的搜索空間。局部視圖數(shù)據(jù)庫255中的這些局部視圖(其相對于經(jīng)分割的圖像數(shù)據(jù)文件225具有外觀上的總體類似性)基于由分別與CH 235和EDH237相關(guān)聯(lián)的2D顏色和邊緣方向分類符(classifier)給出的融合的結(jié)果而被選擇。由此,辨識出經(jīng)分割的圖像數(shù)據(jù)文件225的縮減的搜索空間265。
經(jīng)分割的圖像數(shù)據(jù)文件225被經(jīng)受3D特征提取(240),其包括評估3D幾何特征,所述3D幾何特征包括用于經(jīng)分割的圖像數(shù)據(jù)文件225的數(shù)據(jù)點的視角特征直方圖(VFH)245和形狀函數(shù)的集合(ESF)247。VFH 245包括點特征直方圖(PFH)以及視角分量直方圖。
圖3圖示了用于單個點對Pt 320和Ps 310的向量,所述點對表示在從輸入點云217提取的經(jīng)分割的圖像數(shù)據(jù)文件225和相關(guān)聯(lián)的點向量305中的任何兩個相鄰或連續(xù)的點。在一個實施例中,k維或基于k-d樹(k-dtree-based)的最近相鄰搜索被采用,以比較特征。k-d樹是空間-分區(qū)數(shù)據(jù)結(jié)構(gòu),用于組織k維空間中的點以用于實現(xiàn)涉及多維搜索關(guān)鍵的搜索,例如范圍搜索和最近相鄰搜索?;趉-d樹的最近相鄰搜索過程是已知的。單個點對Pt 320和Ps 310提供了構(gòu)成VFH 245的點特征直方圖(PFH)的元素的示例。點向量305是點Pt 320和Ps 310之間的直線。使用VFH 245的PFH的這種特征描述被執(zhí)行,以便以允許機(jī)器識別的方式提供經(jīng)分割的圖像數(shù)據(jù)文件225中所包含的點的幾何描述。點Ps 310在包括us 312,vs 314和ws 316的第一3D軸線的環(huán)境下被特征化,其中向量ns313表示點ps310的法線(normal)。點Pt 320在包括ut 322,vt 324和wt 326的第二3D軸線的環(huán)境下被特征化,其中向量nt 323的特征在于在軸線u 322和w 326所限定的第一平面中的第一角度θ325,以及在軸線u 322和v 324所限定的第二平面中的第二角度α321。
包括us 312,vs 314和ws 316的第一3D軸線分別對應(yīng)于被沿點向量305平移的包括ut 322,vt 324和wt 326的第二3D軸線。向量ns 313表示點ps 310的法線,其平行于ut軸線322,并限定在向量ns 313和點向量305之間的第三角度向量nt 323表示用于點pt 320的表面法線,且特征在于在由軸線u 322和w 326所限定的第一平面中的第一角度θ325,以及在由軸線u322和v 324所限定的第二平面中的第二角度α321。
通過積累(accumulate)從輸入點云217提取的經(jīng)分割的圖像數(shù)據(jù)文件225的所有點對之間的幾何關(guān)系,PFH將點云(例如參考圖2所描述的輸入點云217)的形狀的統(tǒng)計數(shù)據(jù)編碼。給定相鄰的一對點以及它們的法線,例如參考圖3所描述的,PFH積累四維直方圖,包括第二角度α321的余弦、第三角度的余弦、第一角度θ325以及被標(biāo)準(zhǔn)化到相鄰點的點Pt 320和Ps 310之間的距離。PFH參數(shù)包括計算直方圖所考慮的維度,以及用于每 個維度的位(bin)數(shù)。
包括第一角度θ325、第二角度α321以及第三角度的角度表示成對的平移、傾斜和俯仰(pan,tilt,yaw)角度,其中前述角度針對每一對法線被確定,以用于經(jīng)分割的圖像數(shù)據(jù)文件225中的辨識的曲面補(bǔ)片(surface patch)。該特征不使用顏色信息。
圖4圖示了視角分量的示例,所述視角分量通過收集針對輸入點云417的視角412、由線410指示的中心視角方向、以及多個表面法線ni 405的每一個之間的相對角度α421的直方圖而被計算,其中輸入點云417對應(yīng)于參考圖2所描述的輸入點云217。表面法線ni 405是針對輸入點云417的單個點的。輸入點云417的每個點具有表面法線(未示出)。直線414提供視角方向,且直線410是中心視角方向,其平行于其中原點對應(yīng)于輸入點云417的中心點420的視角方向。相對角度α421被采用以構(gòu)建視角分量,所述視角分量包括表面法線ni 405和中心視角方向410之間的相對角度α421的統(tǒng)計數(shù)據(jù)。視角分量通過收集由視角方向414與每個表面法線ni 405形成的角度的直方圖而被計算,其包括被平移到每個表面法線ni 405的中心視角方向之間的角度。第二分量測量關(guān)于圖3描述的表面上的法線405的每一個與在中心點420處的視角方向410之間測量的相對平移、傾斜和俯仰角度。
圖5圖示了被應(yīng)用到輸入點云的形狀函數(shù)的集合(ESF)的示例,所述輸入點云包括3D對象501,其也被示出。參考圖2描述了一個經(jīng)分割的圖像數(shù)據(jù)文件225,其包括從輸入點云提取的3D對象501。3D對象501作為3D對象的非限制性圖示被示出。ESF包括與3D對象501相關(guān)的形狀函數(shù)的直方圖,其包括集合D2502和相關(guān)聯(lián)的直方圖503、集合A3504和相關(guān)聯(lián)的直方圖505、集合D3506和相關(guān)聯(lián)的直方圖507、以及集合比率(Ratio)508和相關(guān)聯(lián)的直方圖509。直方圖503,505,507和509的每一個包括關(guān)于每個直線在垂直軸線上發(fā)生的頻率。集合D2502和相關(guān)聯(lián)的直方圖503基于從代表3D對象501的輸入點云選擇的隨機(jī)取樣的點之間的距離而形成。集合A3504和相關(guān)聯(lián)的直方圖505基于從代表3D對象501的輸入點云選擇的兩條隨機(jī)直線之間的封閉角度而形成。集合D3506和相關(guān)聯(lián)的直方圖507基于從代表3D對象501的輸入點云選擇的三個隨機(jī)取樣的點所跨越的面積而形成。集合Ratio 508和相關(guān)聯(lián)的直方圖509基于從代表3D對象501的輸入點云選擇的、在3D對象501的表面上以及在該表面外的隨機(jī)直線的比率 而形成。
回頭參考圖2,將視角特征直方圖(VFH)245和形狀函數(shù)的集合(ESF)247和顏色直方圖(CH)235以及邊緣方向直方圖(EDH)237與經(jīng)分割的圖像數(shù)據(jù)文件225的經(jīng)縮減的搜索空間265的內(nèi)容進(jìn)行比較,以實現(xiàn)來自VFH 245、ESF 247、CH 235、EDH 237以及經(jīng)縮減的搜索空間265的內(nèi)容的特征的融合(270)。前述特征的融合基于人類識別路徑而被促成,其中人類識別從使用基于外觀的標(biāo)記的低水平處理開始,到通過融合多個幾何標(biāo)記的高水平對象表現(xiàn)形式。顏色和形狀快速地傳遞信息,這在通過2D外觀特征將來自局部視圖數(shù)據(jù)庫225的搜索空間縮窄之后,有助于物理世界中人類感知系統(tǒng)的視覺搜索。基于由2D顏色和邊緣方向分類符給出的融合的決定,局部視圖數(shù)據(jù)庫255中相對于輸入對象具有外觀上的總體相似性的這些局部視圖被選擇。
與2D融合相關(guān)聯(lián)的特征的融合包括,將對象的2D特征與存儲在局部視圖數(shù)據(jù)庫255中的已知對象的局部視圖的特征比較。這包括將CH 235和EDH 237與局部視圖數(shù)據(jù)庫255的內(nèi)容進(jìn)行比較。加權(quán)總和被用來結(jié)合兩個匹配的存儲:
S2d=ωSch+(1-ω)Sedh [1]
其中Sch和Sedh分別是顏色和邊緣方向中的測試和訓(xùn)練特征之間的歐氏(Euclidian)距離,且在CH 235和EDH 237中被量化。匹配存儲使用最大標(biāo)準(zhǔn)化而被標(biāo)準(zhǔn)化。項ω是用于兩個特征之一的權(quán)重,且在一個實施例中為0.6。
結(jié)合3D幾何和2D外觀特征的自適應(yīng)提高(adaptive boosting,Adaboost)學(xué)習(xí)算法在縮減的搜索空間上被執(zhí)行,以選擇用于將經(jīng)分割的圖像數(shù)據(jù)文件225的每個部分與已知對象中的一個相關(guān)聯(lián)的最終決定的最有效特征(280)。自適應(yīng)提高(Adaboost)是一種機(jī)器學(xué)習(xí)方式,其通過結(jié)合多個相對弱且不準(zhǔn)確的規(guī)則或分類符而產(chǎn)生高度準(zhǔn)確的預(yù)測規(guī)則。只要每個弱的分類符以至少50%的成功率進(jìn)行,且不同分類符的錯誤是獨立的,則該算法能夠通過優(yōu)化地選擇用于弱分類符的權(quán)重而改進(jìn)錯誤率。在該情況下,四個弱分類符被采用,例如包括CH235和EDH 237的兩個2D特征以及包括VFH 245和ESF 247的兩個3D特征。
舉例來說,Adaboost過程的該部分的執(zhí)行包括,令hn為第n個弱分類符,且令y=hn(x)為到輸入x的分類符的輸出。在該情況下,x是輸入對象,y是指示對象是否由弱分類符識別的二進(jìn)制(binary)標(biāo)簽。強(qiáng)分類符通過弱分類符的加權(quán)總和而給出:
其中αn是Adaboost發(fā)現(xiàn)的指示弱指示符hn的重要性的標(biāo)量權(quán)重,且N=4。權(quán)重以迭代的方式根據(jù)如下計算:
其中誤差εn如下地確定:
在該方程中,輸出yi∈{-1,+1}是用于訓(xùn)練集的實際值(ground truth),且Dn(i)是在n次時分配到第i個訓(xùn)練示例的權(quán)重。
由此,對象分割和對象識別,通過將2D局部和3D總體特征結(jié)合成多模型優(yōu)化而使用針對機(jī)器應(yīng)用的來自任意視角的多模型特征而被優(yōu)化,以實現(xiàn)高對象識別率和很低的故障警告。這允許以一致的方式,例如使用Adaboost融合幾何和視覺特征,以及使用局部視圖建模從任意視角分類具有特定結(jié)構(gòu)(textured)和不具有特定結(jié)構(gòu)的對象。局部視圖匹配允許針對快速精確姿態(tài)對準(zhǔn)的粗略姿態(tài)估計。這樣的功能提高用于對象操縱的機(jī)器人自動化以及用于制造的人-機(jī)協(xié)作。
再次參考圖2,以一致的方式(例如使用Adaboost)有效地融合幾何和視覺特征,并從任意視角使用局部視圖建模而分類具有特定結(jié)構(gòu)和不具有特定結(jié)構(gòu)二者的對象,其結(jié)果導(dǎo)致了對象識別過程200中實現(xiàn)將已知對象211,212,213,214和215分別識別為開關(guān)211、收音機(jī)212、噴灑瓶214和把手215的機(jī)器識別(290)。
這里所描述的基于視覺的方式自動地識別FOV中的已知對象。這樣的能力使得裝置,例如機(jī)器人手臂,能夠針對較寬范圍的對象以及條件、取向、光照、視角、封閉(occlusion)、背景、空間認(rèn)知,通過提取關(guān)于對象在其周圍環(huán)境的境況中的特質(zhì),以靈活的匹配局部化對象以用于抓持和/或操縱。這里所描述的方式平衡了外觀和幾何二者,以局部化和識別對象,能利用從深度傳感器到姿態(tài)優(yōu)化算法的范圍信息來提高準(zhǔn)確性。多傳感感知的使用通過將多傳感器感知注意機(jī)制并入和通過開發(fā)分類符分類法而用于快速剖析寬范圍的對象而加速了分類和搜索。
這里描述的對象識別方法通過提供高水平的靈活性和可重構(gòu)性而有利于自動化系統(tǒng)的調(diào)度。這里描述的概念允許靈活性和可變換性,其在組裝操作中,如在提起箱子或材料操作中,以第一代人形機(jī)器人自動化程度使用最小化的基礎(chǔ)構(gòu)造。其還實現(xiàn)魯棒且自治的組裝能力,在較少結(jié)構(gòu)環(huán)境中發(fā)現(xiàn)部件、任務(wù)的視覺確認(rèn)、以及復(fù)雜且靈活部件的容易的操縱。這里所描述的系統(tǒng)使得機(jī)器人手臂能夠在組裝線上補(bǔ)償人類手臂的角色,并降低工人花費在例行公事、非關(guān)鍵性、重復(fù)性組裝過程上的時間,所述過程在靈巧的人形機(jī)器人近項能力內(nèi)。這里所描述的系統(tǒng)使得機(jī)器人手臂能夠處理各種形狀和形式的半剛性、剛性、棱柱形部件,快速檢測多個對象,且具有以半自動方式學(xué)習(xí)用于新對象的模型的能力。對于實現(xiàn)能使用同一過程基礎(chǔ)構(gòu)造與人類協(xié)作地工作的機(jī)器人而言,該能力是必要和關(guān)鍵的。
詳細(xì)描述和附圖或視圖支持和描述本教導(dǎo),但是本教導(dǎo)的范圍僅由權(quán)利要求限定。盡管已詳細(xì)描述了用于執(zhí)行本教導(dǎo)的最佳模式和其他實施例,但存在各種替換設(shè)計和實施例用于實踐限定在所附權(quán)利要求中的本教導(dǎo)。