一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法

文檔序號：9750949閱讀：439來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像檢索領(lǐng)域與深度學(xué)習(xí)領(lǐng)域，更具體的，涉及一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)飛速發(fā)展，以圖像和視頻為載體的多媒信息的數(shù)量也呈現(xiàn)爆炸性增長。如何才能從海量的數(shù)據(jù)中獲取自己想要信息，成為工業(yè)界和學(xué)術(shù)界廣泛討論的內(nèi)容。哈希技術(shù)憑借在存儲空間和計算效率兩個方面的巨大優(yōu)勢，受到了廣泛的關(guān)注與研究。隨著研究的不斷深入，基于圖像內(nèi)容的哈希學(xué)習(xí)側(cè)重將圖像轉(zhuǎn)化成為二進(jìn)制編碼后仍然能夠有效保持其與其他圖像的語義相關(guān)性。為了解決以上問題，多篇基于機(jī)器學(xué)習(xí)的哈希學(xué)習(xí)算法被提出。其中，一類基于有監(jiān)督的圖像哈希學(xué)習(xí)算法表現(xiàn)出了更為良好的效果，有著更加巨大的潛力。
[0003] -般來說，有監(jiān)督框架下的圖像哈希學(xué)習(xí)有兩個主要部分構(gòu)成，首先，圖像將被手工設(shè)計的特征描述子表達(dá)成特征向量的形式，這一步的目的是為了在圖像存在噪聲或者其他冗余信息的情況下提取出圖像的語義信息;其次是將哈希的學(xué)習(xí)過程表達(dá)成一個圖像之間距離的優(yōu)化問題，以此在學(xué)習(xí)到的海明空間中保持圖像的語義一致性。但是大多數(shù)的學(xué) 習(xí)方法將以上兩個過程拆分開進(jìn)行處理，這樣就使得圖像的特征表達(dá)無法在特征的學(xué)習(xí)過程中進(jìn)行優(yōu)化。同時，通過手工設(shè)計圖像的特征需要大量的領(lǐng)域知識，很難有效適應(yīng)不同的應(yīng)用任務(wù)。近幾年，一種名為多層自動編碼器的模型被提出，該模型可以直接從原圖像中得到圖像特征并進(jìn)一步轉(zhuǎn)化為二進(jìn)制編碼。但由于其復(fù)雜的優(yōu)化過程使得其在實(shí)際應(yīng)用中受到很大限制。
[0004] 另一方面，現(xiàn)有大多數(shù)的哈希學(xué)習(xí)算法生成的哈希編碼是固定長度的。但是在實(shí) 際的應(yīng)用場景中，卻需要根據(jù)任務(wù)的不同選取不同的編碼長度。例如，對于計算資源較少的設(shè)備，較短的哈希編碼具有更為明顯的計算優(yōu)勢。但是對于查準(zhǔn)率較高的任務(wù)，選擇較長的哈希編碼的可能性相對較大。為了解決以上問題，一個較為直接的方案是存儲不同比特長度的哈希編碼，但是這樣對學(xué)習(xí)時間和存儲空間都有較大的浪費(fèi)。因此有若干長度可變的哈希學(xué)習(xí)算法被先后提出。該類方法根據(jù)重要性的大小一位一位的產(chǎn)生哈希碼，重要性較大的比特位率先產(chǎn)生。因此用戶可以根據(jù)需要，從頭至尾選取所期望的哈希編碼長度。但是這類方法通常都與精心設(shè)計的特征空間緊密相連，同時其檢索準(zhǔn)確性也會隨著哈希碼位數(shù) 的減少出現(xiàn)急劇的下跌。

【發(fā)明內(nèi)容】

[0005] 為了克服現(xiàn)有技術(shù)的不足，本發(fā)明提出一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法，該方法通過最大化匹配的圖像對與不匹配的圖像對在海明空間的間隔，來語義相似圖像的特征一致性。通過對現(xiàn)有深度卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)，實(shí)現(xiàn)了端到端的模型結(jié)構(gòu)，從而能夠從原始的輸入圖像直接獲得相對應(yīng)的哈希編碼。最后，該方法在訓(xùn)練的過程中對每一個哈希比特位引入了權(quán)重，進(jìn)而能夠通多權(quán)重對哈希碼的長度進(jìn)行截取，使得哈希編碼具備了長度可變性。從而實(shí)現(xiàn)了在一次訓(xùn)練的情況下，模型能夠針對不同應(yīng)用場景選取不同長度哈希編碼進(jìn)行減檢索的目的。
[0006] 為了實(shí)現(xiàn)上述目的，本發(fā)明的技術(shù)方案為：
[0007] 一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法，包括以下步驟：
[0008] si.預(yù)處理:將訓(xùn)練圖像集合劃分成一批三元圖像組；
[0009] S2.訓(xùn)練階段，圖像哈希碼的生成：將三元圖像組輸入到深度卷積神經(jīng)網(wǎng)絡(luò)中，通過網(wǎng)絡(luò)的變換直接輸出與圖像對應(yīng)的哈希碼；
[0010] S3.訓(xùn)練階段，深度神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化:計算每張圖像產(chǎn)生的損失，并通過反向傳播算法來訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)；
[0011] S4.測試階段，圖像相似性的計算:根據(jù)用戶的輸入，截斷不重要的哈希比特位，并且計算查詢圖像與數(shù)據(jù)庫每張圖像之間的帶權(quán)重海明距離；
[0012] S5.測試階段，返回查詢結(jié)果:根據(jù)步驟S4中的帶權(quán)重的海明距離，從大到小對數(shù) 據(jù)庫圖像進(jìn)行排序，排序結(jié)果即為返回的相似性檢索結(jié)果。
[0013] 本發(fā)明通過訓(xùn)練圖像集合產(chǎn)生一系列的三元組，利用圖像三元組來最大化匹配的圖像對與不匹配的圖像對在海明空間的間隔，進(jìn)而有效地挖掘了訓(xùn)練圖像類內(nèi)的一致性和類間的差異性，解決了具有相同語義信息的圖片在海明空間相似性保持的問題。
[0014] 優(yōu)選的，所述步驟S1中將訓(xùn)練集合劃分成一批三元圖像組，具體方法為:從訓(xùn)練數(shù) 據(jù)集中隨機(jī)抽取若干張圖像作為中心圖像。在確定中心圖像的基礎(chǔ)上，選取一張與中心圖像具有相同類別標(biāo)簽的圖像與一張具有不同類別標(biāo)簽的圖像，從而形成若干圖像三元組。
[0015] 本發(fā)明的特點(diǎn)在于學(xué)習(xí)部分引入了深度卷積神經(jīng)網(wǎng)絡(luò)，通過對圖像特征與哈希函數(shù)的聯(lián)合優(yōu)化，實(shí)現(xiàn)了端到端的訓(xùn)練過程。從而可以利用卷積神經(jīng)網(wǎng)絡(luò)直接從原始圖像提取哈希碼。省去了傳統(tǒng)方法中手動設(shè)計特征的環(huán)節(jié)。其中深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程則是通過累加每張圖像所產(chǎn)生的損失作為總的損失，進(jìn)而利用反向傳播算法對網(wǎng)絡(luò)中的參數(shù)進(jìn)行更新。
[0016] 優(yōu)選的，步驟S2中的深度卷積神經(jīng)網(wǎng)絡(luò)包含以下組成部分:若干卷積層和池化層，部分全連接層，一個類雙曲正切函數(shù)層以及一個哈希權(quán)重層。其中倒數(shù)第二個全連接層的輸出表示了圖片的特征向量。倒數(shù)第一個全連接層中的參數(shù)代表了哈希函數(shù)的參數(shù)。類雙曲正切函數(shù)層是一個以特征向量為輸入的，每個維度的取值范圍在[_1，1]之間的類雙曲正切函數(shù)，其中函數(shù)有一個調(diào)和參數(shù)用于控制其平滑性。該參數(shù)越小，函數(shù)越平滑。哈希權(quán)重層是一個以類雙曲正切函數(shù)層輸出為輸入的，每個維度對應(yīng)一個權(quán)重的深度網(wǎng)絡(luò)層。
[0017] 優(yōu)選的，步驟S3中的深度卷積神經(jīng)網(wǎng)絡(luò)參數(shù)學(xué)習(xí)的具體實(shí)現(xiàn)方式為：以圖像為中心來計算所產(chǎn)生損失，計算某圖像在所有三元組中出現(xiàn)的損失，并將其累計求和，獲得最終的圖像損失。具體的，對于確定的某張圖像，首先確定其在三元組中的具體存在形式(作為中心圖像、作為正樣本、作為負(fù)樣本或是根本不在三元組中）。隨后根據(jù)具體的存在形式計算其相應(yīng)的損失，若圖像不存在于某三元組中，則計圖像在該三元組中產(chǎn)生的損失為零。累加圖像在所有三元組中不同存在形式下的損失，獲得最終該圖像的損失。每次在進(jìn)行深度卷積神經(jīng)網(wǎng)絡(luò)參數(shù)更新的時候則是將一批圖像一次載入，利用這些圖像隨機(jī)產(chǎn)生若干三元組。統(tǒng)計這一批圖像在這個三元組集合上的損失。利用反向傳播算法(back propagation a 1 gor i thm)對深度卷積神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行更新。
[0018] 本發(fā)明的優(yōu)勢在于針對不同查詢?nèi)蝿?wù)，用戶可以根據(jù)實(shí)際需要對哈希碼的長度進(jìn) 行選擇，
[0019] 進(jìn)而算法根據(jù)每個哈希比特位的權(quán)重對哈希碼進(jìn)行截斷，實(shí)現(xiàn)了哈希編碼的長度可變性。本發(fā)明有效地解決了一次訓(xùn)練，多任務(wù)可用的目標(biāo)。在計算資源、存儲空間有限的情況下，本方法依舊能夠在哈希編碼較短的情況下，保持其判別性。
[0020] 優(yōu)選的，步驟S4中的圖像相似性計算的具體實(shí)現(xiàn)方式為:獲取確定長度的哈希編碼，根據(jù)用戶的輸入，確定要選取的哈希比特位長度L。利用深度卷積神經(jīng)網(wǎng)絡(luò)中哈希權(quán)重層學(xué)習(xí)到的每一個比特位的權(quán)重，從大到小依次選取權(quán)重較大的前L個比特位，從而實(shí)現(xiàn)哈希比特位的截取。利用截取的哈希比特位計算帶權(quán)重的海明距離，作為最終兩個圖像的相似性度量。
[0021] 優(yōu)選的，步驟S4中計算帶權(quán)重的海明距離使用了快速查表法，其具體的實(shí)現(xiàn)方式為:根據(jù)選取的哈希比特位長度L，構(gòu)建大小為的查詢表，該查詢表的中的每一個元素對應(yīng)了兩個長度為L的哈希編碼可能存在的一種異或操作的結(jié)果(共存在種可能）。結(jié)合每一個哈希比特位的權(quán)重，計算帶權(quán)情況下每一種異或操作的值，并將其存儲在查詢表的對應(yīng)位置。查詢時，根據(jù)輸入的兩個哈希編碼值，計算其異或操作的結(jié)果，并將存儲在查詢表中對應(yīng)位置的數(shù)值作為結(jié)果返回，從而獲得兩個哈希編碼帶權(quán)重的海明距離。
[0022] 優(yōu)選的，步驟S5中對帶權(quán)重的海明距離進(jìn)行排序，其所采用的排序算法是快速排序算法、歸并排序算法或選擇排序算法中的任意一種。
[0023]本發(fā)明提取具有豐富信息的圖像特征和學(xué)習(xí)近似哈希函數(shù)是圖像檢索領(lǐng)域兩個十分重要的研究方向。同時，當(dāng)前的多媒體應(yīng)用要求輸出的哈希碼能夠依據(jù)應(yīng)用場景的不同而變化長度?；谝陨闲枨?，提出一種基于可變長度深度哈希學(xué)習(xí)的圖像檢索方法，主要涉及圖像檢索與深度學(xué)習(xí)領(lǐng)域。該方法將哈希碼的學(xué)習(xí)建模成相似性學(xué)習(xí)的過程。具體來說，該方法利用訓(xùn)練圖像產(chǎn)生一批三元圖像組，其中每個三元組包含兩張具有相同類標(biāo)的圖像與一張具有不同類標(biāo)的圖像。對模型訓(xùn)練的目的是最大化匹配的圖像對與不匹配的圖像對在海明空間的間隔。本方法模型的學(xué)習(xí)部分引入了深度卷積神經(jīng)網(wǎng)絡(luò)，通過對圖像特征與哈希函數(shù)的聯(lián)合優(yōu)化，實(shí)現(xiàn)了端到端的訓(xùn)練過程。另一方面，卷積網(wǎng)絡(luò)輸出的哈希碼每一位都具有不同的權(quán)重。針對不同的檢索任務(wù)，用戶可以通過截斷不重要的比特位來實(shí)現(xiàn) 哈希碼長度的調(diào)控。同時，該方法能夠在哈希碼較短的情況下的有效地保持其判別性。
[0024]與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果為：
[0025] 1.本發(fā)明是一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法，通過利用深度神經(jīng)網(wǎng) 絡(luò)，該方法將圖像的特征學(xué)習(xí)與哈希函數(shù)的學(xué)習(xí)過程統(tǒng)一到一個端到端的框架中，實(shí)現(xiàn)了兩者的聯(lián)合優(yōu)化?？朔艘延蟹椒ㄔ诠：瘮?shù)學(xué)習(xí)方面，嚴(yán)重依賴于所嵌入的圖像特征空間的現(xiàn)狀。
[0026] 2 .本發(fā)明是一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法，在進(jìn)行檢索的過程中，該方法強(qiáng)調(diào)的是通過對帶權(quán)重的比特位的選取來應(yīng)對不同的檢索任務(wù)。因而克服了大多數(shù)現(xiàn)有方法通過存儲不同比特位的哈希碼來解決不同的任務(wù)的弊端。同時，一種針對帶權(quán)重哈希碼的查表方法被提出，進(jìn)一步保證了可變長哈希的檢索效率。
[0027] 3.本發(fā)明是一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法，在哈希碼學(xué)習(xí)的過程中本方法引入了基于圖像三元組比對的相對相似性比對，這種方法能夠有效挖掘類內(nèi)的一致性和類間的差異性。保證了所產(chǎn)生的哈希碼能夠有效保持實(shí)例級別的相似性。
【附圖說明】
[0028]圖1為基于可變長深度哈希學(xué)習(xí)的圖像檢索方法的框架圖。
[0029 ]圖2為本發(fā)明的基于可變長深度哈希學(xué)習(xí)的圖像檢索方法的深度神經(jīng)網(wǎng)絡(luò)的架構(gòu) 圖。
[0030] 圖3為本發(fā)明的圖像相似性哈希學(xué)習(xí)的原理圖。
[0031] 圖4為本發(fā)明的基

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林倞;張瑞茂;王青;江波;
技術(shù)所有人：中山大學(xué);
我是此專利的發(fā)明人

上一篇：信息搜索方法及裝置的制造方法
上一篇：一種用于比對音頻信息的系統(tǒng)及音頻信息比對方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法