用于基于梯度直方圖編碼圖像描述符的圖像處理裝置和方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及用于高效地編碼、轉(zhuǎn)碼、解碼和處理在圖像感興趣關(guān)鍵點(diǎn)周圍的局部 區(qū)域中計(jì)算出的圖像描述符的方法,并且設(shè)及包括用于編碼、轉(zhuǎn)碼、解碼和處理運(yùn)種描述符 的部件的圖像處理設(shè)備。
【背景技術(shù)】
[0002] 運(yùn)種圖像描述符已經(jīng)在許多計(jì)算機(jī)視覺(jué)應(yīng)用中發(fā)現(xiàn)了廣泛的適用性,運(yùn)些應(yīng)用包 括對(duì)象識(shí)別、基于內(nèi)容的圖像檢索和圖像配準(zhǔn),僅舉幾例。
[0003] 對(duì)運(yùn)種描述符進(jìn)行編碼的現(xiàn)有方法呈現(xiàn)出某些缺點(diǎn)。
[0004] 例如,現(xiàn)有的編碼方法產(chǎn)生運(yùn)樣的描述符,它們需要解析整個(gè)描述符來(lái)執(zhí)行轉(zhuǎn)碼, 借此給定描述符長(zhǎng)度的描述符被轉(zhuǎn)換為不同描述符長(zhǎng)度的描述符,或者它們需要解析整個(gè) 描述符來(lái)執(zhí)行不同長(zhǎng)度的描述符的解碼和比較。
[0005] 作為另一個(gè)例子,現(xiàn)有的編碼方法就編碼復(fù)雜性而言是低效的,因?yàn)樗鼈兒雎粤?產(chǎn)生變長(zhǎng)圖像描述符所需的操作中的共性和冗余。
[0006] 由本申請(qǐng)人自己提交的尚未公布的意大利專利申請(qǐng)NO.T02012A000602描述了局 部圖像描述符的編碼,借此基于梯度直方圖的變換從采用所述梯度直方圖的圖像描述符計(jì) 算健壯、可區(qū)分、可擴(kuò)展且緊湊的圖像描述符,其中所述變換捕獲包含在梯度直方圖中的顯 著且健壯的信息,運(yùn)些信息是梯度直方圖的區(qū)間(bin)值之間的關(guān)系和分布的形狀的形式 的。
[0007] 在所述尚未發(fā)表的意大利專利申請(qǐng)中,公開(kāi)了所述描述符的編碼方法,其就產(chǎn)生 容易擴(kuò)展的位流而言比現(xiàn)有技術(shù)方法更高效。
[000引運(yùn)種描述符在W上提到的尚未發(fā)表的意大利專利申請(qǐng)NO.T02012A000602中公開(kāi), 該申請(qǐng)公開(kāi)了基于梯度直方圖的變換從采用所述梯度直方圖的圖像描述符計(jì)算健壯、可區(qū) 分、可擴(kuò)展且緊湊的圖像描述符,其中所述變換捕獲包含在梯度直方圖中的顯著且健壯的 信息,運(yùn)些信息是梯度直方圖的區(qū)間值之間的關(guān)系和分布的形狀的形式的。
[0009] 根據(jù)尚未發(fā)表的意大利專利申請(qǐng)NO.T02012A000602的從采用梯度直方圖的圖像 描述符(尤其是SIFT圖像描述符)計(jì)算健壯、可區(qū)分、可擴(kuò)展且緊湊的圖像描述符的重要方 面在下文進(jìn)行描述。
[0010] 簡(jiǎn)要地說(shuō),利用SIFT方法,局部圖像描述符是如下形成的:首先,執(zhí)行跨多個(gè)圖像 尺度和位置的捜索,W識(shí)別和定位對(duì)尺度和朝向不變的穩(wěn)定的圖像關(guān)鍵點(diǎn);接著,對(duì)每個(gè)關(guān) 鍵點(diǎn),基于局部圖像梯度確定一個(gè)或多個(gè)主導(dǎo)朝向,從而允許后續(xù)的局部描述符計(jì)算相對(duì) 于每個(gè)關(guān)鍵點(diǎn)的分配的朝向、尺度和位置來(lái)執(zhí)行,因此實(shí)現(xiàn)運(yùn)些變換的不變性。接著,關(guān)鍵 點(diǎn)周圍的局部圖像描述符如下形成:首先,在關(guān)鍵點(diǎn)周圍的區(qū)域中的圖像樣本點(diǎn)處計(jì)算梯 度量值和朝向信息;接著,運(yùn)些樣本被累積到總結(jié)nXn個(gè)子區(qū)域上的內(nèi)容的朝向直方圖中。
[0011] 僅僅作為說(shuō)明,SIFT關(guān)鍵點(diǎn)描述符的例子在圖Ia和Ib中示出,其中圖Ia示出了將 局部區(qū)域R細(xì)分成4X4子區(qū)域SR,并且圖化示出了對(duì)于每個(gè)朝向直方圖將360°朝向范圍細(xì) 分成八個(gè)區(qū)間,其中每個(gè)箭頭的長(zhǎng)度對(duì)應(yīng)于該直方圖條目的量值。因此,如圖I中所示的局 部圖像描述符具有4x4x8= 128個(gè)元素。SIFT技術(shù)的更多細(xì)節(jié)可W在International Journal of Computer Vision,60,2(2004),PP.91-110 由David G.Lowe 所寫的 "Distinctive image features from scale-invariant keypoints" 中找至Ij。
[0012] 根據(jù)尚未發(fā)表的意大利專利申請(qǐng)NO.T02012A000602,健壯、可區(qū)分、可擴(kuò)展且緊湊 的圖像描述符可W從SIFT描述符如下計(jì)算。
[0013] 在W下描述中,H是包括16個(gè)梯度直方圖h的整個(gè)SIFT描述符,每個(gè)梯度直方圖h具 有八個(gè)區(qū)間h,而V是根據(jù)本發(fā)明的包括16個(gè)子描述符V的整個(gè)局部描述符,每個(gè)子描述符V 具有八個(gè)元素 V。
[0014] 令H表示包括16個(gè)梯度直方圖h〇-hi5的SIFT局部圖像描述符,如圖2a中所示,每個(gè) 直方圖包括八個(gè)區(qū)間值ho-h?,如圖化中所示。更健壯、可區(qū)分、可擴(kuò)展且緊湊的圖像描述符 可W通過(guò)變換H的h〇-hl5中的每一個(gè)并接著對(duì)結(jié)果產(chǎn)生的變換后的值執(zhí)行標(biāo)量量化來(lái)計(jì)算。 更具體而言,根據(jù)圖3的變換利用信息,h〇-hi5中的每一個(gè)根據(jù)變換A或變換B被變換,如W下 所示,即變換A應(yīng)用到]10、112、115、117、118、1110、1113、1115并且變換6應(yīng)用到111、113、114、116、119、1111、1112、 hl4,給出變換后的描述符V具有分別對(duì)應(yīng)于h〇-hl5的子描述符V0-V15,并且每個(gè)子描述符包括 元素 V0-V7,從而給出總共128個(gè)元素。
[0015] 變換 A (1)
[0016] vo = h2-h6
[0017] vi = h3-h7 [001 引 v2 = h0-hi
[0019] V3 = h2-h3
[0020] V4=h4-h5
[0021] 化= h6-h7
[0022] V6=化o+h4)-化2+h6)
[0023] V7 =化 o+h2+h4+h6)-化i+hs+hs+h?)
[0024] 變換 B (I)
[0025] vo = h〇-h4
[0026] vi = hi-h 已
[0027] V2 = h7-ho
[002引 V3 = hi-h2
[0029] V4=h3-h4
[0030] 化= h5-h6
[0031] V6=化 l+h5)-化 3+h7)
[0032] V7=化0+hl+h2+h3)-化4+h5+h6+h7)
[0033] 接著,每個(gè)元素經(jīng)受粗標(biāo)量量化,例如=元(3級(jí))量化,其中量化闊值被選擇為在 用于每個(gè)元素的量化區(qū)間之間實(shí)現(xiàn)特定的發(fā)生概率分布。運(yùn)種標(biāo)量量化產(chǎn)生量化后的描述 符,具有子描述符…每個(gè)子描述符包括元素玲'Ir錢1%再次具有總共128個(gè) 元素。運(yùn)種緊湊的描述符捕獲包含在原始梯度直方圖中的最可區(qū)分且健壯的信息,其中信 息是它們的區(qū)間值之間的關(guān)系和分布的形狀的形式的。
[0034] 描述符VW及其量化版本古的關(guān)鍵優(yōu)點(diǎn)是它是高度可擴(kuò)展的,并且,如果應(yīng)用的存 儲(chǔ)需求或傳輸通道的特性要求的話,其維度可W通過(guò)簡(jiǎn)單地消除其一個(gè)或多個(gè)元素來(lái)容易 地減小。為了簡(jiǎn)化,在W下描述中,將就量化之前的具有子描述符V0-V15的描述符V的編碼來(lái) 描述本發(fā)明的重要方面,其中每個(gè)子描述符包括元素 V0-V7,并且,除非另外聲明,否則應(yīng)當(dāng) 理解,量化后的描述符t的編碼W類似的方式進(jìn)行。
[0035] 圖4a-4e示出了已經(jīng)被找出W對(duì)五個(gè)目標(biāo)描述符長(zhǎng)度產(chǎn)生卓越的可區(qū)分能力和健 壯性的示例性元素集合,從描述符長(zhǎng)度〇(化0)、僅利用20個(gè)描述符元素的最短描述符長(zhǎng)度 到描述符長(zhǎng)度4(化4)一一利用所有128個(gè)元素的最長(zhǎng)描述符長(zhǎng)度。更具體而言,圖4a示出了 用于包括20元素的描述符長(zhǎng)度DLO的示例性元素集合,圖4b示出了用于包括40個(gè)元素的描 述符長(zhǎng)度化1的示例性元素集合,圖4c示出了包括64個(gè)元素的描述符長(zhǎng)度化2的示例性元素 集合,圖4d示出了用于包括80個(gè)元素的描述符長(zhǎng)度化3的示例性元素集合,并且圖4e示出了 用于包括全部128個(gè)元素的描述符長(zhǎng)度化4的示例性元素集合。因此,對(duì)于每個(gè)描述符長(zhǎng)度, 每個(gè)子描述符的每個(gè)元素將根據(jù)圖4a-4e的元素利用集合來(lái)編碼或者不根據(jù)圖4a-4e的元 素利用集合來(lái)編碼。
[0036] 運(yùn)種可擴(kuò)展性屬性的關(guān)鍵在于對(duì)每個(gè)描述符長(zhǎng)度被利用的元素集合必須與對(duì)所 有更高描述符長(zhǎng)度被利用的元素集合相同或者是其子集,如圖4a-4e中所示。通過(guò)對(duì)具有更 高描述符長(zhǎng)度的描述符的過(guò)多元素的簡(jiǎn)單消除,使得其被減小至與具有較低描述符長(zhǎng)度的 描述符的相同元素集合,運(yùn)允許具有不同長(zhǎng)度的描述符的轉(zhuǎn)碼和比較。
[0037] 運(yùn)種描述符的簡(jiǎn)明的編碼方法包括W "按子描述符"次序計(jì)算和編碼元素,即,在 一般情況下是作為V0,0,V0,1, . . .,V0,7,V1,0,V1,1, . . .,V1,7, . . . ,Vl日,0,V1 日,1,. . .,Vl日,7,其中ViJ 表示子描述符Vi的元素 Vj。運(yùn)意味著通過(guò)使用適當(dāng)?shù)淖儞Q來(lái)編碼變換后的直方圖VO的元素 V0,V1, . . .,V7,接著編碼變換后的直方圖Vl的元素 V0,V1, . . .,V7,等等,例如圖3中所示,并且 還對(duì)期望的描述符長(zhǎng)度使用適當(dāng)?shù)脑乩眉?,例如圖4中所示,W決定哪些元素應(yīng)當(dāng)被 編碼。
[003引運(yùn)種編碼,例如對(duì)描述符長(zhǎng)度DLO產(chǎn)生描述符V0,0,V1,0,V2,0,V3,0,V4,0,V5,0,V5,6, V6,0,V6,6,V7,0,V8,0,V9,0,V9,6,V10,0,V10,6,V11,0,V12,0,V13,0,V14,0,V化,0并且對(duì)描述符長(zhǎng)度DL1產(chǎn) 生描述符V0,0,V0,1,V1,0,V1,1,V2'0,V2'1,V3'0,V3'1,V4'0,V4'1,V5,0,V5,1,V5,2,V5,6,V6'0,V6'1,V6'2, V6,6,V7,0,V7,1,V8,0,V8,1,V9,0,V9,1,V9,2,V9,6,V10,0,V10,1,V10,2,V10,6,V11,0,V11,1,V12,0,V12,1, V13,0