協(xié)變局部特征聚集的圖像特征表示法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)視覺(jué)與多媒體信息檢索,具體是涉及協(xié)變局部特征聚集的圖像 特征表示法。
【背景技術(shù)】
[0002] 隨著Web2. 0的引入以及各種便攜式移動(dòng)多媒體設(shè)備,如智能手機(jī)、iPad、數(shù)碼照 相機(jī)等的普及,互聯(lián)網(wǎng)上有著數(shù)以千億的多媒體資源。這些多媒體資源,主要以圖像和視頻 的形式存在。據(jù)2014年的統(tǒng)計(jì),每分鐘就有超過(guò)3300幅照片上傳到全球最大的照片分享 網(wǎng)站Flickr上。Flickr所維護(hù)的照片總數(shù)已經(jīng)超過(guò)了 70億張。在國(guó)內(nèi)最大的視頻分享網(wǎng) 站YouKu,其視頻總數(shù)在2010年已經(jīng)達(dá)到4500萬(wàn)個(gè),日均上傳6萬(wàn)個(gè)。注意到以上照片和 視頻分享網(wǎng)站的數(shù)據(jù)規(guī)模仍以較快速度增長(zhǎng)。面對(duì)互聯(lián)網(wǎng)海量多媒體數(shù)據(jù),如何對(duì)其進(jìn)行 有效的組織、管理允許用戶以便捷的方式檢索及瀏覽成為一個(gè)亟待解決的問(wèn)題。
[0003] 目前,對(duì)于基于內(nèi)容的圖像檢索的解決方法主要有兩種思路。一種是基于詞袋模 型,另一種是基于費(fèi)舍爾核的方法(即把局部特征全局化)。前者的優(yōu)點(diǎn)是便于加入各種對(duì) 檢索結(jié)果的優(yōu)化方案,例如加入各種視覺(jué)和幾何驗(yàn)證,缺點(diǎn)是所需存儲(chǔ)空間較大。計(jì)算復(fù)雜 度與數(shù)據(jù)集所衍生的局部特征總數(shù)呈線性關(guān)系。這通常比圖像庫(kù)大小本身大三個(gè)數(shù)量級(jí)。 當(dāng)圖像庫(kù)達(dá)到百億級(jí)時(shí),計(jì)算的時(shí)間和空間代價(jià)都非常大。
[0004] 基于費(fèi)舍爾核的方法將局部特征聚集為一個(gè)高維向量。其具體方法是總體上可以 分為兩個(gè)步驟。首先從圖像提取局部特征,圖像被表示為一個(gè)局部特征集;接著把一個(gè)輸入 局部特征量化到一個(gè)視覺(jué)詞匯并進(jìn)行累集。在第二步中,累集操作只針對(duì)局部特征同其對(duì) 映的詞匯之間的差值。最終,對(duì)一幅圖,得到一個(gè)長(zhǎng)德向量表示。這個(gè)向量被稱為局部累集 特征向量。注意到,這里需要一個(gè)視覺(jué)詞匯。通常使用的視覺(jué)詞匯從幾十個(gè)到幾百個(gè),遠(yuǎn)小 于采用視覺(jué)詞匯量化方法時(shí)使用的視覺(jué)詞匯數(shù)目。該方法的優(yōu)點(diǎn)是可以很大程度上壓縮圖 像局部特征。當(dāng)同主成分分析方法結(jié)合時(shí),這個(gè)長(zhǎng)向量可以大幅降維,同時(shí)保持較高的可區(qū) 分性。當(dāng)進(jìn)一步與積量化的最近鄰檢索算法結(jié)合時(shí),該表示方法可以有效降低內(nèi)存消耗。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于提供一種協(xié)變局部特征聚集的圖像特征表示法。
[0006] 本發(fā)明包括以下步驟:
[0007] 1)提取圖像的局部特征,采用描述子進(jìn)行描述,一幅圖像被表示為一系列描述子 的集合X,同時(shí)獲得每個(gè)局部特征的主方向Θ;
[0008] 2)用一個(gè)獨(dú)立的圖像集,提取并收集其局部特征,從而生成一個(gè)由描述子組成的 矩陣;采用K平均聚類算法,獲得K個(gè)聚類中心,K一般設(shè)為32至64之間的一個(gè)整數(shù)值,K 個(gè)聚類中心作為視覺(jué)詞匯集C= {Cl...K};
[0009] 3)采用如下公式(1)對(duì)一幅圖的每個(gè)局部特征進(jìn)行簡(jiǎn)化的費(fèi)舍爾聚集:
[0010] (1)
[0011] 其中,q(x)在C中找到最近鄰Cl,b=B(0) ;Ci為視覺(jué)詞匯集C= {Cl...K}中離局 部特征χ(χex)最近的視覺(jué)詞匯;函數(shù)Β(θ)對(duì)圖像局部特征χ的主方向θ進(jìn)行量化, 主方向量化為8個(gè)量化區(qū)段,公式(1)將一個(gè)圖像的一系列描述子轉(zhuǎn)化為一個(gè)長(zhǎng)的向量Υ 表示,根據(jù)主方向的量化值,長(zhǎng)向量又分為多個(gè)子向量,由于使用8個(gè)量化區(qū)段,因此有8個(gè) 子向量,即Y= {p^p2,...,#};
[0012] 4)將獲得的8個(gè)費(fèi)舍爾子向量重組,獲得一系列8維的子向量;
[0013] 在步驟4)中,所述將獲得的8個(gè)費(fèi)舍爾子向量重組,獲得一系列8維的子向量的 具體做法可為:
[0014] 把8個(gè)子向量每個(gè)對(duì)映維度放到一起,按量化主方向值一次排列,獲得一系列8維 子向量,如果把Y看作一個(gè)8行的矩陣,這個(gè)重組操作相當(dāng)于對(duì)Y進(jìn)行轉(zhuǎn)置操作;
[0015] 對(duì)得到的每個(gè)8維子向量逆排(逆序操作如公式(2)所示)后進(jìn)行1維離散余弦 變換(II型離散余弦變換)。給定重組后得到的一個(gè)子向量Q,逆序操作如下:
[0016]
(2)
[0017] 5)再對(duì)這一系列8維子向量組成的向量進(jìn)行重組,把所有8維子向量對(duì)映維放到 一起,依次排列,獲得8個(gè)子向量;如果把離散余弦變換得到一系列8維子向量看作一個(gè)有 8列的矩陣,這個(gè)重組操作相當(dāng)于對(duì)矩陣進(jìn)行轉(zhuǎn)置;然后,對(duì)重組后得到的每個(gè)子向量做主 成分分析,以降低整個(gè)特征的維度;
[0018] 6)再對(duì)降維之后的8個(gè)子向量進(jìn)行重組;
[0019] 在步驟6)中,所述對(duì)降維之后的8個(gè)子向量進(jìn)行重組的具體做法可為:把8個(gè)子 向量每個(gè)對(duì)映維度放到一起,按量化主方向值一次排列,獲得一系列8維子向量;
[0020] 7)在由一系列8維子向量拼合成的向量上定義距離度量,以衡量圖像兩兩之間的 相似度。距離度量如公式(3): 則
⑶
[0022] 其中,|kl|2= | |,| |2=l,d是子向量的個(gè)數(shù),U和V分別為兩幅圖像經(jīng)步驟A 至F獲得的向量表示,u1和v1是它們的各自的子向量;這里假設(shè)它們分別由d個(gè)子向量組 成;子向量u1和v1進(jìn)行內(nèi)積運(yùn)算。
[0023] 在大規(guī)模圖像檢索的情況下,公式(3)定義的距離度量需要高效的最近鄰查找算 法做支撐。注意到,公式(2)的距離度量是d個(gè)距離之和。這里每個(gè)距離度量可以分別進(jìn) 行。本發(fā)明提出可以對(duì)每個(gè)子向量單獨(dú)進(jìn)行索引,d個(gè)最近鄰查找可以并行進(jìn)行。
[0024] 本發(fā)明將提出一種基于費(fèi)舍爾核方法的圖像表示方案,并將這種表示方法應(yīng)用到 基于內(nèi)容的大規(guī)模圖像檢索上。該表示方法首先將圖像局部特征的主方向信息作為特征累 集時(shí)的一個(gè)量化參數(shù),將屬于不同主方向的局部特征累集到不同子向量上。之后將該特征 用一維離散余弦變換轉(zhuǎn)換到其頻率域。在頻率域進(jìn)行主成分分析和距離度量。本發(fā)明所設(shè) 計(jì)的圖像表示方法具有很好區(qū)分力和可伸縮性。
【附圖說(shuō)明】
[0025] 圖1為協(xié)變局部特征聚集表示與當(dāng)前主流方法在圖像檢索測(cè)試集上的結(jié)果對(duì)比。 原圖像集大小為1492幅圖。為測(cè)試本發(fā)明方法的可伸縮性,測(cè)試逐漸添加候選集至1百萬(wàn) 幅圖。
【具體實(shí)施方式】
[0026] 本發(fā)明實(shí)施例包括以下步驟:
[0027] 1)提取圖像的局部特征,采用描述子進(jìn)行描述,一幅圖像被表示為一系列描述子 的集合X,同時(shí)獲得每個(gè)局部特征的主方向Θ;
[0028] 2)用一個(gè)獨(dú)立的圖像集,提取并收集其局部特征,從而生成一個(gè)由描述子組成的 矩陣;采用K平均聚類算法,獲得K個(gè)聚類中心,K一般設(shè)為32至64之間的一個(gè)整數(shù)值,K 個(gè)聚類中心作為視覺(jué)詞匯集C= {Cl...K};
[0029] 3)采用如下公式(1)對(duì)一幅圖的每個(gè)局部特征進(jìn)行簡(jiǎn)化的費(fèi)舍爾聚集:
[0030] (1)
[0031] 其中,q(x)在C中找到最近鄰Cl,b=B(0);Ci為視覺(jué)詞匯集C={Cl...K}中離局 部特征χ(χeX)最近的視覺(jué)詞匯;函數(shù)Β(θ)對(duì)圖像局部特征X的主方向θ進(jìn)行量化, 主方向量化為8個(gè)量化區(qū)段,公式(1)將一個(gè)圖像的一系列描述子轉(zhuǎn)化為一個(gè)長(zhǎng)的向量Y 表示,根據(jù)主方向的量化值,長(zhǎng)向量又分為多個(gè)子向量,由于使用8個(gè)量化區(qū)段,因此有8個(gè) 子向量,即Y= {p^p2,...,#};
[0032] 4)將獲得的8個(gè)費(fèi)舍爾子向量重組,獲得一系列8維的子向量,具體做法為:
[0033] 把8個(gè)子向量每個(gè)對(duì)映維度放到一起,按量化主方向值一次排列,獲得一系列8維 子向量,如果把Y看作一個(gè)8行的矩陣,這個(gè)重組操作相當(dāng)于對(duì)Y進(jìn)行轉(zhuǎn)置操作;
[0034] 對(duì)得到的每個(gè)8維子向量逆排(逆序操作如公式(2)所示)后進(jìn)行1維離散余弦 變換(II型離散余弦變換)。給定重組后得到的一個(gè)子向量Q,逆序操作如下:
[0035] ,.…(卜屮]二(J二[Μ.?ch^h] ⑵
[0036] 5)再對(duì)這一系列8維子向量組成的向量進(jìn)行重組,把所有8維子向量對(duì)映維放到 一起,依次排列,獲得8個(gè)子向量;如果把離散余弦變換得到一系列8維子向量看作一個(gè)有 8列的矩陣,這個(gè)重組操作相當(dāng)于對(duì)矩陣進(jìn)行轉(zhuǎn)置;然后,對(duì)重組后得到的每個(gè)子向量做主 成分分析,以降低整個(gè)特征的維度;
[0037] 6)再對(duì)降維之后的8個(gè)子向量進(jìn)行重組,具體做法為:把8個(gè)子向量每個(gè)對(duì)映維 度放到一起,按量化主方向值一次排列,獲得一系列8維子向量;
[0038] 7)在由一系列8維子向量拼合成的向量上定義距離度量,以衡量圖像兩兩之間的 相似度。距離