提供圖像特征描述符的方法
【專利說(shuō)明】提供圖像特征描述符的方法
[0001]本發(fā)明涉及提供特征描述符組的方法,該特征描述符組被配置成用于匹配相機(jī)圖像中的對(duì)象的至少一個(gè)特征,還涉及用于執(zhí)行所述方法的相應(yīng)的計(jì)算機(jī)程序產(chǎn)品。
[0002]這樣的方法可以用于其他的應(yīng)用中,例如,在確定相機(jī)相對(duì)于對(duì)象的位置和方向的方法中。確定相機(jī)相對(duì)于具有已知幾何形狀和可視外觀的對(duì)象的位置和方向的常見方法利用通過(guò)局部特征描述符獲得的2D-3D對(duì)應(yīng)關(guān)系,諸如[I](參見說(shuō)明書結(jié)尾處的目錄)中描述的SIFT。在離線步驟中,所述對(duì)象的一個(gè)或多個(gè)視圖用作參考圖像??紤]到這些圖像,局部特征被檢測(cè)然后描述,產(chǎn)生具有已知3D位置的參考特征描述符組。對(duì)于實(shí)況相機(jī)圖像,執(zhí)行同樣的程序以獲得具有2D圖像坐標(biāo)的當(dāng)前特征描述符??梢岳孟嗨菩远攘?諸如描述符的歐式距離(Euclidean distance)的倒數(shù))來(lái)確定兩個(gè)特征的相似性。將當(dāng)前特征描述符與參考描述符組匹配產(chǎn)生當(dāng)前相機(jī)圖像和參考對(duì)象之間的2D-3D對(duì)應(yīng)關(guān)系。然后基于這些對(duì)應(yīng)關(guān)系確定相對(duì)于對(duì)象的相機(jī)姿態(tài),并且所述相機(jī)姿態(tài)可以用于增強(qiáng)現(xiàn)實(shí)(Augmented Reality)應(yīng)用中以覆蓋記錄有真實(shí)對(duì)象的虛擬3D內(nèi)容。注意到,類似地,可相對(duì)于相機(jī)坐標(biāo)系來(lái)確定對(duì)象的位置和方向。
[0003]一般地,特征檢測(cè)器和特征描述方法均需要的觀點(diǎn)是在一定程度上以不變應(yīng)萬(wàn)變。存在有[2]中所描述的仿射不變特征檢測(cè)器,其估計(jì)仿射變換以使特征的鄰域歸一化,但是所述仿射不變特征檢測(cè)器目前對(duì)于在移動(dòng)裝置上的實(shí)時(shí)應(yīng)用太昂貴。相反,通常只有一個(gè)統(tǒng)一的尺度因子和一個(gè)平面內(nèi)旋轉(zhuǎn)被估計(jì),得到僅對(duì)于這兩個(gè)變換的真正不變性。然后所述特征描述方法利用特征的所確定的尺度和方向在計(jì)算描述符之前使支持區(qū)域歸一化。然而,平面外旋轉(zhuǎn)的不變性通常是相當(dāng)有限的并且對(duì)描述方法本身負(fù)責(zé)。
[0004]如果輔助信息是可獲得的,這可以用于補(bǔ)償平面外旋轉(zhuǎn)。設(shè)置有相機(jī)像素的深度,可以確定特征的3D法向矢量來(lái)建立特征的視角不變補(bǔ)丁,如[3]中所描述的。對(duì)于水平面,用慣性傳感器測(cè)量的重力矢量使得能夠在特征描述之前對(duì)相機(jī)圖像進(jìn)行矯正,如[4]中所描述的。
[0005]如果這些數(shù)據(jù)是不可獲得的,可以采用渲染技術(shù)(諸如圖像扭曲)來(lái)生成特征的多個(gè)合成視圖,即圖像。對(duì)于向視角變化或平面內(nèi)旋轉(zhuǎn)提供低不變性但能夠非常快速進(jìn)行描述符匹配的描述符,利用這樣的合成視圖為不同的視角和/或旋轉(zhuǎn)創(chuàng)建不同的描述符以支持較大的變化,如[5,6]中所描述的。
[0006]然而,隨著參考特征描述符的數(shù)量的增加,匹配單一當(dāng)前特征描述符的時(shí)間也增加,使得實(shí)時(shí)處理在一些點(diǎn)上不可能。此外,潛在地需要通過(guò)移動(dòng)網(wǎng)絡(luò)傳輸?shù)膮⒖紨?shù)據(jù)的總量增加,導(dǎo)致更長(zhǎng)的加載時(shí)間。
[0007]特征分類器的目的還在于,對(duì)于給定的圖像特征識(shí)別數(shù)據(jù)庫(kù)(或第二圖像)中的相應(yīng)參考特征。這可以歸結(jié)為分類問題,其中每個(gè)參考特征是一個(gè)類別,并且分類器確定對(duì)于給定的當(dāng)前特征具有最高概率的類別。需要離線修整階段,其中利用特征的通常通過(guò)隨意扭曲的補(bǔ)丁獲得的不同可能的外觀修整分類器。隨機(jī)樹狀圖(如[7]中所描述的)使用這些來(lái)估計(jì)對(duì)于每個(gè)葉節(jié)點(diǎn)的遍及所有類別的概率,而內(nèi)部節(jié)點(diǎn)包含基于圖像強(qiáng)度對(duì)比的二元判定。修整之后,通過(guò)加和所到達(dá)葉節(jié)點(diǎn)的概率并找到具有最高概率的類別,對(duì)當(dāng)前特征進(jìn)行分類。
[0008]除了由不同視角產(chǎn)生的空間變化的不變性,特征描述符(以及特征分類器)對(duì)光照、噪聲和其它非空間變換的變化提供不變性也是關(guān)鍵的。存在學(xué)習(xí)型的方法,在劇烈變化的姿勢(shì)和光照條件下,基于包含特征的相應(yīng)圖像補(bǔ)丁的真實(shí)結(jié)果數(shù)據(jù)集,在定義的設(shè)計(jì)空間內(nèi)找到理想的特征描述符布局,如[8]中所描述的。類推地,分類器可以設(shè)有扭曲的補(bǔ)丁,該扭曲的補(bǔ)丁在修整階段附加地含有合成噪聲、模糊或類似物。
[0009]由于設(shè)有特征的不同外觀的修整階段,分類器通常對(duì)修整期間合成的變換提供良好的不變性。然而,需要為特征分類器存儲(chǔ)的概率要求有大量的內(nèi)存,這使得它們對(duì)于大量特征而言尤其是在內(nèi)存受限的移動(dòng)設(shè)備上是不可行的。
[0010]利用對(duì)象的不同合成視圖(即圖像)來(lái)模擬不同外觀已經(jīng)呈現(xiàn)出對(duì)平面外旋轉(zhuǎn)提供良好的不變性。然而,在大量描述符數(shù)據(jù)中利用這個(gè)結(jié)果的現(xiàn)有方法使得它們?cè)谝苿?dòng)設(shè)備上幾乎不可行。
[0011]因此,有利的是提供一種提供特征描述符組的方法,該特征描述符組能夠用于匹配相機(jī)圖像中的對(duì)象的特征的方法中,該相機(jī)應(yīng)用在具有減少存儲(chǔ)容量的設(shè)備上。
[0012]本發(fā)明的各方面根據(jù)獨(dú)立權(quán)利要求來(lái)提供。
[0013]根據(jù)一方面,公開了一種提供特征描述符組的方法,該特征描述符組被配置成用于匹配相機(jī)圖像中的對(duì)象的至少一個(gè)特征,該方法包括以下步驟:
[0014]a)提供第一對(duì)象或第一對(duì)象的多個(gè)情況實(shí)例的至少兩個(gè)圖像,其中,所述多個(gè)情況實(shí)例提供一個(gè)對(duì)象的不同外觀或不同樣式,
[0015]b)在圖像中的至少兩個(gè)圖像中,從相應(yīng)的圖像提取至少一個(gè)特征,
[0016]c)提供用于所提取特征的至少一個(gè)描述符,并將用于多個(gè)所提取特征的描述符存儲(chǔ)于第一描述符組中,
[0017]d)使第一描述符組中的多個(gè)描述符與第一描述符組中的多個(gè)描述符匹配,
[0018]e)基于匹配過(guò)程的結(jié)果,計(jì)算用于多個(gè)描述符的評(píng)分參數(shù),
[0019]f)基于與其他描述符的評(píng)分參數(shù)對(duì)比的評(píng)分參數(shù),從描述符中選擇至少一個(gè)描述符,
[0020]g)將所選擇的描述符添加至第二描述符組,
[0021]h)根據(jù)任一前面的選擇過(guò)程并根據(jù)匹配過(guò)程的結(jié)果,更新第一描述符組中的多個(gè)描述符的評(píng)分參數(shù),
[0022]i)再次執(zhí)行步驟f)和g),
[0023]其中,第二描述符組被配置成用于匹配相機(jī)圖像中的第一對(duì)象或第二對(duì)象的至少一個(gè)特征。
[0024]對(duì)象的“視圖”這一術(shù)語(yǔ)是指對(duì)象的圖像,其可以利用真正的相機(jī)捕獲或者利用適當(dāng)?shù)暮铣梢晥D創(chuàng)建方法合成地創(chuàng)建,如后續(xù)更詳細(xì)地闡述的。
[0025]我們的方法一般建立第一描述符組然后將來(lái)自第一描述符組的描述符添加至第二描述符組。對(duì)專家來(lái)說(shuō)熟知的是,這可以用很多不同的方法實(shí)現(xiàn),并且并不必然意味著描述符從第一描述符組中在存儲(chǔ)器中的某一位置被物理地復(fù)制到第二描述符組中在存儲(chǔ)器中的不同位置。相反地,例如第二組可以通過(guò)將第一組中的描述符標(biāo)記為第二組的一部分來(lái)實(shí)現(xiàn),例如通過(guò)修改描述符的指定參數(shù)。另一種可能的實(shí)施方式是在根本不修改存儲(chǔ)器中的描述符的情況下存儲(chǔ)屬于第二描述符組的描述符的存儲(chǔ)地址、指針、參考或指標(biāo)。
[0026]具體地,根據(jù)一個(gè)實(shí)施方式,提出了一種自動(dòng)確定描述對(duì)象的特征描述符組使得它可以在各種條件下匹配和/或定位的方法。這些條件可以包括視角、光照以及相機(jī)參數(shù)(諸如焦距、焦點(diǎn)、曝光時(shí)間、信噪比等)的變化?;趯?duì)象的例如以合成方式生成的一組視圖,優(yōu)選地在不同條件下,檢測(cè)和描述局部圖像特征,并匯集在數(shù)據(jù)庫(kù)中。所提出的方法評(píng)估這些數(shù)據(jù)庫(kù)特征之間的匹配,以從數(shù)據(jù)庫(kù)中最終找到減少的(優(yōu)選最少的)最具代表性的描述符組。使用該可擴(kuò)展的離線過(guò)程,匹配和/或定位成功率能夠在不增加運(yùn)行方法的計(jì)算負(fù)荷的情況下顯著增加。
[0027]例如,步驟h)和i)重復(fù)地進(jìn)行,直至第二描述符組中的描述符的數(shù)量已經(jīng)達(dá)到特定值或第二描述符組中的描述符的數(shù)量停止變化為止。
[0028]根據(jù)一個(gè)實(shí)施方式,在步驟g)之前可以修改基于選擇過(guò)程的至少一個(gè)所選擇的描述符。
[0029]例如,所選擇的描述符的修改包括將描述符更新為所選擇的描述符和第一描述符組中的其他描述符的組合。
[0030]根據(jù)一個(gè)實(shí)施方式,更新步驟h)中的匹配過(guò)程的結(jié)果的使用受限于至少一個(gè)所選擇的描述符的匹配過(guò)程的結(jié)果,或限于與所述至少一個(gè)所選擇的描述符匹配的描述符的匹配過(guò)程的結(jié)果。
[0031]根據(jù)本公開的另一方面,提出了一種提供至少兩個(gè)描述符組的方法,所述描述符組被配置成用于匹配相機(jī)圖像中的對(duì)象的至少一個(gè)特征,該方法包括如下步驟:
[0032]a)提供第一對(duì)象或第一對(duì)象的多個(gè)情況實(shí)例的至少兩個(gè)圖像,其中,所述多個(gè)情況實(shí)例提供一個(gè)對(duì)象的不同外觀或不同樣式,其中,當(dāng)生成相應(yīng)圖像時(shí),每個(gè)圖像通過(guò)具有相對(duì)于重力的已知定位的相應(yīng)相機(jī)生成,
[0033]b)在圖像中的至少兩個(gè)圖像中,從相應(yīng)圖像提取至少一個(gè)特征,
[0034]c)提供用于所提取特征的至少一個(gè)描述符,并將用于多個(gè)所提取特征的描述符存儲(chǔ)于至少具有第一描述符組和第二描述符組的多個(gè)描述符組中,其中,第一描述符組包含從與相應(yīng)相機(jī)的相對(duì)于重力的第一方位區(qū)對(duì)應(yīng)的圖像中提取的特征的描述符,并且第二描述符組包含從與相應(yīng)相機(jī)的相對(duì)于重力的第二方位區(qū)對(duì)應(yīng)的圖像中提取的特征的描述符,
[0035]d)使第一描述符組的多個(gè)描述符與第一描述符組的多個(gè)描述符匹配,并且使第二描述符組的多個(gè)描述符與第二描述符組的多個(gè)描述符匹配,
[0036]e)基于匹配過(guò)程的結(jié)果,計(jì)算用于多個(gè)描述符的評(píng)分參數(shù),
[0037]f)基于與其他描述符的評(píng)分參數(shù)對(duì)比的評(píng)分參數(shù),從第一描述符組內(nèi)選擇至少一個(gè)描述符,并且基于與其他描述符的評(píng)分參數(shù)對(duì)比的評(píng)分參數(shù),從第二描述符組內(nèi)選擇至少另一個(gè)描述符,
[0038]g)將來(lái)自第一組的至少一個(gè)所選擇的描述符添加至第三描述符組,并將來(lái)自于第二組的至少一個(gè)所選擇的描述符添加至第四描述符組,
[0039]h)根據(jù)任一前面的選擇過(guò)程并根據(jù)匹配過(guò)程的結(jié)果,更新第一和/或第二描述符組中的多個(gè)描述符的評(píng)分參數(shù),
[0040]i)再次執(zhí)行步驟f)和g),
[0041]其中,第三和/或第四描述符組被配置成用于匹配相機(jī)圖像中的第一對(duì)象或第二對(duì)象的至少一個(gè)特征。
[0042]因此,如果例如相機(jī)定位相對(duì)于對(duì)象在相機(jī)的相對(duì)于重力的已知定位來(lái)進(jìn)行,提出了創(chuàng)建用于相機(jī)的不同方位區(qū)的多個(gè)參考描述符組。例如,可以利用相機(jī)光線和所測(cè)量的重力矢量之間的不同角度,如下面更詳細(xì)地闡述的。這個(gè)方法尤其適用于具有內(nèi)置慣性傳感器(可用于測(cè)量相對(duì)于重力的定位)的手動(dòng)裝置并且能夠與參考數(shù)據(jù)集相匹配,該參考數(shù)據(jù)集僅包含與所測(cè)量方向一致的相機(jī)姿態(tài)有關(guān)的信息。
[0043]因此,所提出的方法目的在于在不會(huì)增加存儲(chǔ)器消耗的情況下有利于對(duì)象的多個(gè)(例如合成)視圖。所述方法(該方法可以作為所謂的離線方法執(zhí)行,當(dāng)運(yùn)行應(yīng)用程序時(shí)該離線方法不需要運(yùn)行)因此首先建立一個(gè)來(lái)自于多個(gè)視圖(即,對(duì)象的圖像)的更大的描述符數(shù)據(jù)庫(kù),并然后確定能夠在多種條件下匹配和/或定位對(duì)象的優(yōu)選的最具代表性的描述符的子集。
[0044]例如,步驟h)和i)重復(fù)地進(jìn)行,直至第三和/或第四描述符組中的描述符的數(shù)量已經(jīng)達(dá)到特定值或者第三和/或第四描述符組中的描述符的數(shù)量停止變化。
[0045]根據(jù)一個(gè)實(shí)施方式,在步驟g)之前修改基于選擇過(guò)程的至少一個(gè)所選擇的描述符。
[0046]例如,所選擇的描述符的修改包括將描述符更新為所選擇的描述符和第一或第二描述符組中的其他描述符的組合。
[0047]例如,在上述方法中,步驟h)和i)多次迭代地進(jìn)行,直到存儲(chǔ)在第二、第三和/或第四描述符組內(nèi)的描述符的數(shù)量已經(jīng)達(dá)到特定值。
[0048]根據(jù)一個(gè)實(shí)施方式,步驟d)包括對(duì)于每個(gè)被匹配的描述符確定它們被正確地還是錯(cuò)誤地匹配,并且步驟e)包括根據(jù)描述符被正確地還是錯(cuò)誤地匹配來(lái)計(jì)算評(píng)