一種基于多標簽最小二乘哈希算法的大規(guī)模圖像檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像處理領(lǐng)域,具體涉及一種基于多標簽最小二乘哈希算法的大規(guī)模 圖像檢索方法。
【背景技術(shù)】
[0002] 最鄰近搜索(NN)是一個在尺度空間中尋找最近點的優(yōu)化問題。問題描述如下:在 尺度空間M中給定一個點集S和一個目標點qGM,在S中找到距離q最近的點。很多情況 下,M為多維的歐幾里得空間,距離由歐幾里得距離或曼哈頓距離決定。隨著互聯(lián)網(wǎng)近幾年 不斷發(fā)展,互聯(lián)網(wǎng)中產(chǎn)生了巨大規(guī)模的數(shù)據(jù)。在大規(guī)模數(shù)據(jù)中最近鄰搜索往往需要很多時 間,許多情況下,我們選擇近似最近鄰搜索(ANN)算法,來近似NN的結(jié)果,使計算復雜度大 大下降。
[0003] 在ANN方法發(fā)展的這幾年中,提出了許多哈希方法用于高效的近似最近鄰ANN搜 索。這些哈希方法把高維數(shù)據(jù)嵌入在一個能夠保持相似性的低維海明空間中,比較類似的 圖像在低維海明空間距離比較小。如果把現(xiàn)有的哈希方法按監(jiān)督信息劃分,大致分為3中 類型:無監(jiān)督哈希、有監(jiān)督哈希、半監(jiān)督哈希。
[0004] 當數(shù)據(jù)有監(jiān)督信息的時候,有監(jiān)督哈希方法性能總是表現(xiàn)的比無監(jiān)督哈希方法要 好。在實際應用中,多標簽數(shù)據(jù)會經(jīng)常出現(xiàn)在監(jiān)督搜索場景中(多標簽指的是一個樣本同 時有多個標簽),比如對一張描述"江南"的圖像來講,可能有水、山、竹子、白云、人等事物同 時出現(xiàn)在圖像中;所以,研宄多標簽哈希方法在監(jiān)督哈希領(lǐng)域有非常大有意義。然而,現(xiàn)有 的哈希方法主要是解決單標簽的數(shù)據(jù),很少有多標簽哈希方法被提出。
【發(fā)明內(nèi)容】
[0005] 為應對并處理有監(jiān)督數(shù)據(jù)的圖像,該發(fā)明提出了一種基于多標簽最小二乘哈希算 法的大規(guī)模圖像檢索方法。該方法提高了模型的泛化能力,而且對多標簽數(shù)據(jù)的圖像搜索 結(jié)果有很大提尚。
[0006] 為實現(xiàn)上述目的,本發(fā)明的具體方案如下:
[0007] 一種基于多標簽最小二乘哈希算法的大規(guī)模圖像檢索方法,包括以下步驟:
[0008] 步驟(1):提取訓練集中圖像的視覺特征和監(jiān)督信息,分別得到原始視覺特征數(shù) 據(jù)矩陣和監(jiān)督信息矩陣,所述訓練集中每幅圖像均包括多個標簽信息;
[0009] 步驟(2):對原始視覺特征數(shù)據(jù)矩陣進行兩次降維處理,分別得到第一次降維最 優(yōu)投影矩陣和第二次降維最優(yōu)投影矩陣;
[0010] 步驟(3):優(yōu)化兩次降維后的視覺特征數(shù)據(jù)矩陣,求取最優(yōu)旋轉(zhuǎn)矩陣R以及兩次降 維后的視覺特征數(shù)據(jù)矩陣的哈希編碼,得到標準哈希編碼;
[0011] 步驟⑷:檢索圖像庫中的圖像時,根據(jù)訓練集得到的第一次降維最優(yōu)投影矩陣、 第二次降維最優(yōu)投影矩陣和最優(yōu)旋轉(zhuǎn)矩陣R,求取圖像庫中的每幅圖像的哈希編碼,并計算 圖像庫中的每幅圖像的哈希編碼與標準哈希編碼之間的海明距離,輸出圖像庫中與標準哈 希編碼之間具有最小海明距離的圖像。
[0012] 所述步驟(1)的具體過程為:
[0013] 步驟(1. 1):對訓練集中每幅圖像提取d維的視覺特征,得到一個dXn的原始視 覺特征數(shù)據(jù)矩陣X= [Xl,...,xn]ERdXn,其中,n表示訓練集中訓練樣本的個數(shù),所述訓練 樣本是具有標簽的圖像;
[0014] 步驟(1. 2):標注訓練集中每張圖中的標簽,然后對所標注的結(jié)果進行篩選和統(tǒng)一;假設標注后圖像庫中的所有圖像一共有k個標簽,每幅圖像的標簽信息表示為kX1的 向量;
[0015] 當圖像包含某個標簽,標簽向量中對應位置為1,否則為0,那么對于訓練樣本個 數(shù)為n的訓練集得到一個kXn的監(jiān)督信息矩陣Y= [yi,. . .,yn]eRkxn。
[0016] 所述步驟(2)的具體過程為:
[0017] 步驟(2. 1):使用與典型相關(guān)分析等價的最小二乘法,把訓練集的原始視覺特征 數(shù)據(jù)矩陣均投影到與訓練集的監(jiān)督信息矩陣維度一致的低維空間中,得到訓練集的第一次 降維后的視覺特征數(shù)據(jù)矩陣;
[0018] 步驟(2. 2):使用主成分析方法,把經(jīng)過步驟(2. 1)降維后的視覺特征數(shù)據(jù)矩陣再 投影預設的哈希碼長度的維度空間中,得到第二次降維后的視覺特征數(shù)據(jù)矩陣。
[0019] 所述步驟(2. 1)的具體過程為:
[0020] 步驟(2. 1. 1):確定投影矩陣Wdxk的求解模型,該模型采用典型 相關(guān)分析的等價形式的最小二乘法加上二范數(shù)約束的方法獲得:
【主權(quán)項】
1. 一種基于多標簽最小二乘哈希算法的大規(guī)模圖像檢索方法,其特征在于,包括以下 步驟: 步驟(1):提取訓練集中圖像的視覺特征和監(jiān)督信息,分別得到原始視覺特征數(shù)據(jù)矩 陣和監(jiān)督信息矩陣,所述訓練集中每幅圖像均包括多個標簽信息; 步驟(2):對原始視覺特征數(shù)據(jù)矩陣進行兩次降維處理,分別得到第一次降維最優(yōu)投 影矩陣和第二次降維最優(yōu)投影矩陣; 步驟(3):優(yōu)化兩次降維后的視覺特征數(shù)據(jù)矩陣,求取最優(yōu)旋轉(zhuǎn)矩陣R以及兩次降維后 的視覺特征數(shù)據(jù)矩陣的哈希編碼,得到標準哈希編碼; 步驟(4):檢索圖像庫中的圖像時,根據(jù)訓練集得到的第一次降維最優(yōu)投影矩陣、第二 次降維最優(yōu)投影矩陣和最優(yōu)旋轉(zhuǎn)矩陣R,求取圖像庫中的每幅圖像的哈希編碼,并計算圖像 庫中的每幅圖像的哈希編碼與標準哈希編碼之間的海明距離,輸出圖像庫中與標準哈希編 碼之間具有最小海明距離的圖像。
2. 如權(quán)利要求1所述的一種基于多標簽最小二乘哈希算法的大規(guī)模圖像檢索方法,其 特征在于,所述步驟(1)的具體過程為: 步驟(I. 1):對訓練集中每幅圖像提取d維的視覺特征,得到一個dXn的原始視覺特 征數(shù)據(jù)矩陣X= [Xl,...,xn] ERdxn,其中,n表示訓練集中訓練樣本的個數(shù),所述訓練樣本 是具有標簽的圖像; 步驟(1.2):標注訓練集中每張圖中的標簽,然后對所標注的結(jié)果進行篩選和統(tǒng)一;假 設標注后圖像庫中的所有圖像一共有k個標簽,每幅圖像的標簽信息表示為kXl的向量; 當圖像包含某個標簽,標簽向量中對應位置為1,否則為〇,那么對于訓練樣本個數(shù)為n 的訓練集得到一個kXn的監(jiān)督信息矩陣Y = [yi,? ? ?,yn] e Rkxn。
3. 如權(quán)利要求1所述的一種基于多標簽最小二乘哈希算法的大規(guī)模圖像檢索方法,其 特征在于,所述步驟(2)的具體過程為: 步驟(2. 1):使用與典型相關(guān)分析等價的最小二乘法,把訓練集的原始視覺特征數(shù)據(jù) 矩陣均投影到與訓練集的監(jiān)督信息矩陣維度一致的低維空間中,得到訓練集的第一次降維 后的視覺特征數(shù)據(jù)矩陣; 步驟(2. 2):使用主成分析方法,把經(jīng)過步驟(2. 1)降維后的視覺特征數(shù)據(jù)矩陣再投影 預設的哈希碼長度的維度空間中,得到第二次降維后的視覺特征數(shù)據(jù)矩陣。
4. 如權(quán)利要求3所述的一種基于多標簽最小二乘哈希算法的大規(guī)模圖像檢索方法,其 特征在于,所述步驟(2. 1)的具體過程為: 步驟(2. I. 1):確定投影矩陣Wdxk的求解模型
分析的等價形式的最小二乘法加上二范數(shù)約束的方法獲得:
其中,f為類指示矩陣;Y為監(jiān)督信息;X為原始視覺特征數(shù)據(jù)矩陣,(Wdxk)T是W dxk的轉(zhuǎn) 值矩陣;《」是W dxk矩陣的第j列,w /是w」的轉(zhuǎn)置;k指的是訓練數(shù)據(jù)集中樣本具有標簽的 總個數(shù),n是訓練樣本的個數(shù);a表示系數(shù); 步驟(2. 1.2):采用最小二乘QR分解方法來求解公式(1),得到Wdxk的最優(yōu)投影矩陣, 記為^; 步驟(2. 1.3):將投影矩陣代入降維方程中,得到第一次降維后的視覺特征數(shù)據(jù)矩陣 X1,所述降維方程的表達式為:
其中,X為原始視覺特征數(shù)據(jù)矩陣;的轉(zhuǎn)置矩陣。
5. 如權(quán)利要求3所述的一種基于多標簽最小二乘哈希算法的大規(guī)模圖像檢索方法,其 特征在于,所述步驟(2.2)中獲取第二次降維后的視覺特征數(shù)據(jù)矩陣再投影預設的哈希碼 長度的維度空間中的線性映射投影矩陣的具體過程為: 步驟(2.2. 1):假設把第二次降維后的視覺特征數(shù)據(jù)矩陣再投影預設的哈希碼長度的 維度空間中的線性映射投影矩陣為Wkx%確定其優(yōu)化函數(shù):
其中,h (X)表示假定的哈希函數(shù);c表示要將數(shù)據(jù)降到的維數(shù);Wi表示W(wǎng) kXc;的第i列; <表示^的轉(zhuǎn)置;n表示樣本的個數(shù);X為原始視覺特征數(shù)據(jù)矩陣;X為原始視覺特征數(shù)據(jù) 矩陣的元素; 步驟(2. 2. 2):對SgnO函數(shù)進行松弛,然后得到下列優(yōu)化函數(shù):
其中,X1為第一次降維后的視覺特征數(shù)據(jù)矩陣;時X1W")表示求取矩陣 ((灰的主對角線上的元素之和;n表示訓練集的樣本個數(shù); 步驟(2.2.3):通過分解特征值,來求得各個特征值對應的特征向量,從而得到投影矩 陣WkXc;的最優(yōu)矩陣ff/S。
6. 如權(quán)利要求3所述的一種基于多標簽最小二乘哈希算法的大規(guī)模圖像檢索方法,其 特征在于,所述步驟(2.2)中的第二次降維后的視覺特征數(shù)據(jù)矩陣&為: x2 xi (5) 其中,ar/sf為的轉(zhuǎn)置矩陣;X1為第一次降維后的視覺特征數(shù)據(jù)矩陣。
7. 如權(quán)利要求1所述的一種基于多標簽最小二乘哈希算法的大規(guī)模圖像檢索方法,其 特征在于,所述步驟(3)中使用迭代量化方法優(yōu)化經(jīng)過步驟(2)降維后的視覺特征數(shù)據(jù)矩 陣。
8.如權(quán)利要求1所述的一種基于多標簽最小二乘哈希算法的大規(guī)模圖像檢索方法,其 特征在于,所述步驟(3)中獲取標準哈希編碼的具體過程為: 步驟(3. 1):隨機生成出一個旋轉(zhuǎn)矩陣R ; 步驟(3.2):采用旋轉(zhuǎn)矩陣R來旋轉(zhuǎn)經(jīng)過步驟(2)降維后的視覺特征數(shù)據(jù)矩陣; 步驟(3.3):采用符號函數(shù)SgnO,把使用步驟(3.2)旋轉(zhuǎn)過后的視覺特征數(shù)據(jù)矩陣進 行二值化,得到二值化矩陣B ; 步驟(3.4):將旋轉(zhuǎn)矩陣R和二值化矩陣B代入公式(6)中,重復步驟(3. 2)~步驟 (3. 3),得到公式(6)的局部最優(yōu)解,也就是最優(yōu)旋轉(zhuǎn)矩陣R ;
其中,X2為第二次降維后的視覺特征數(shù)據(jù)矩陣;RT為R的轉(zhuǎn)置矩陣; 步驟(3. 5):再重復步驟(3. 2)~步驟(3. 3),得到標準哈希編碼。
【專利摘要】本發(fā)明公開了一種基于多標簽最小二乘哈希算法的大規(guī)模圖像檢索方法,包括:提取訓練集中圖像的視覺特征和監(jiān)督信息,分別得到原始視覺特征數(shù)據(jù)矩陣和監(jiān)督信息矩陣,訓練集中每幅圖像均包括多個標簽信息;對原始視覺特征數(shù)據(jù)矩陣進行兩次降維處理,分別得到第一次降維最優(yōu)投影矩陣和第二次降維最優(yōu)投影矩陣;求取最優(yōu)旋轉(zhuǎn)矩陣及兩次降維后的視覺特征數(shù)據(jù)矩陣的哈希編碼,得到標準哈希編碼;根據(jù)訓練集得到的第一次降維最優(yōu)投影矩陣、第二次降維最優(yōu)投影矩陣和最優(yōu)旋轉(zhuǎn)矩陣,檢索圖像庫中的圖像時,求取圖像庫中的每幅圖像的哈希編碼,并計算圖像庫中的每幅圖像的哈希編碼與標準哈希編碼之間的海明距離,輸出圖像庫中與標準哈希編碼之間具有最小海明距離的圖像。
【IPC分類】G06F17-30, G06K9-62
【公開號】CN104820696
【申請?zhí)枴緾N201510213390
【發(fā)明人】許信順, 汪勝圣, 郭山清, 崔立真, 王曉琳
【申請人】山東大學
【公開日】2015年8月5日
【申請日】2015年4月29日