亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法

文檔序號:9750949閱讀:439來源:國知局
一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像檢索領(lǐng)域與深度學(xué)習(xí)領(lǐng)域,更具體的,涉及一種基于可變長深度 哈希學(xué)習(xí)的圖像檢索方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)飛速發(fā)展,以圖像和視頻為載體的多媒信息的數(shù)量也呈現(xiàn)爆炸性增 長。如何才能從海量的數(shù)據(jù)中獲取自己想要信息,成為工業(yè)界和學(xué)術(shù)界廣泛討論的內(nèi)容。哈 希技術(shù)憑借在存儲空間和計算效率兩個方面的巨大優(yōu)勢,受到了廣泛的關(guān)注與研究。隨著 研究的不斷深入,基于圖像內(nèi)容的哈希學(xué)習(xí)側(cè)重將圖像轉(zhuǎn)化成為二進(jìn)制編碼后仍然能夠有 效保持其與其他圖像的語義相關(guān)性。為了解決以上問題,多篇基于機(jī)器學(xué)習(xí)的哈希學(xué)習(xí)算 法被提出。其中,一類基于有監(jiān)督的圖像哈希學(xué)習(xí)算法表現(xiàn)出了更為良好的效果,有著更加 巨大的潛力。
[0003] -般來說,有監(jiān)督框架下的圖像哈希學(xué)習(xí)有兩個主要部分構(gòu)成,首先,圖像將被手 工設(shè)計的特征描述子表達(dá)成特征向量的形式,這一步的目的是為了在圖像存在噪聲或者其 他冗余信息的情況下提取出圖像的語義信息;其次是將哈希的學(xué)習(xí)過程表達(dá)成一個圖像之 間距離的優(yōu)化問題,以此在學(xué)習(xí)到的海明空間中保持圖像的語義一致性。但是大多數(shù)的學(xué) 習(xí)方法將以上兩個過程拆分開進(jìn)行處理,這樣就使得圖像的特征表達(dá)無法在特征的學(xué)習(xí)過 程中進(jìn)行優(yōu)化。同時,通過手工設(shè)計圖像的特征需要大量的領(lǐng)域知識,很難有效適應(yīng)不同的 應(yīng)用任務(wù)。近幾年,一種名為多層自動編碼器的模型被提出,該模型可以直接從原圖像中得 到圖像特征并進(jìn)一步轉(zhuǎn)化為二進(jìn)制編碼。但由于其復(fù)雜的優(yōu)化過程使得其在實(shí)際應(yīng)用中受 到很大限制。
[0004] 另一方面,現(xiàn)有大多數(shù)的哈希學(xué)習(xí)算法生成的哈希編碼是固定長度的。但是在實(shí) 際的應(yīng)用場景中,卻需要根據(jù)任務(wù)的不同選取不同的編碼長度。例如,對于計算資源較少的 設(shè)備,較短的哈希編碼具有更為明顯的計算優(yōu)勢。但是對于查準(zhǔn)率較高的任務(wù),選擇較長的 哈希編碼的可能性相對較大。為了解決以上問題,一個較為直接的方案是存儲不同比特長 度的哈希編碼,但是這樣對學(xué)習(xí)時間和存儲空間都有較大的浪費(fèi)。因此有若干長度可變的 哈希學(xué)習(xí)算法被先后提出。該類方法根據(jù)重要性的大小一位一位的產(chǎn)生哈希碼,重要性較 大的比特位率先產(chǎn)生。因此用戶可以根據(jù)需要,從頭至尾選取所期望的哈希編碼長度。但是 這類方法通常都與精心設(shè)計的特征空間緊密相連,同時其檢索準(zhǔn)確性也會隨著哈希碼位數(shù) 的減少出現(xiàn)急劇的下跌。

【發(fā)明內(nèi)容】

[0005] 為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提出一種基于可變長深度哈希學(xué)習(xí)的圖像檢索 方法,該方法通過最大化匹配的圖像對與不匹配的圖像對在海明空間的間隔,來語義相似 圖像的特征一致性。通過對現(xiàn)有深度卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn),實(shí)現(xiàn)了端到端的模型結(jié)構(gòu),從而 能夠從原始的輸入圖像直接獲得相對應(yīng)的哈希編碼。最后,該方法在訓(xùn)練的過程中對每一 個哈希比特位引入了權(quán)重,進(jìn)而能夠通多權(quán)重對哈希碼的長度進(jìn)行截取,使得哈希編碼具 備了長度可變性。從而實(shí)現(xiàn)了在一次訓(xùn)練的情況下,模型能夠針對不同應(yīng)用場景選取不同 長度哈希編碼進(jìn)行減檢索的目的。
[0006] 為了實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案為:
[0007] 一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法,包括以下步驟:
[0008] si.預(yù)處理:將訓(xùn)練圖像集合劃分成一批三元圖像組;
[0009] S2.訓(xùn)練階段,圖像哈希碼的生成:將三元圖像組輸入到深度卷積神經(jīng)網(wǎng)絡(luò)中,通 過網(wǎng)絡(luò)的變換直接輸出與圖像對應(yīng)的哈希碼;
[0010] S3.訓(xùn)練階段,深度神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化:計算每張圖像產(chǎn)生的損失,并通過反向 傳播算法來訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò);
[0011] S4.測試階段,圖像相似性的計算:根據(jù)用戶的輸入,截斷不重要的哈希比特位,并 且計算查詢圖像與數(shù)據(jù)庫每張圖像之間的帶權(quán)重海明距離;
[0012] S5.測試階段,返回查詢結(jié)果:根據(jù)步驟S4中的帶權(quán)重的海明距離,從大到小對數(shù) 據(jù)庫圖像進(jìn)行排序,排序結(jié)果即為返回的相似性檢索結(jié)果。
[0013] 本發(fā)明通過訓(xùn)練圖像集合產(chǎn)生一系列的三元組,利用圖像三元組來最大化匹配的 圖像對與不匹配的圖像對在海明空間的間隔,進(jìn)而有效地挖掘了訓(xùn)練圖像類內(nèi)的一致性和 類間的差異性,解決了具有相同語義信息的圖片在海明空間相似性保持的問題。
[0014] 優(yōu)選的,所述步驟S1中將訓(xùn)練集合劃分成一批三元圖像組,具體方法為:從訓(xùn)練數(shù) 據(jù)集中隨機(jī)抽取若干張圖像作為中心圖像。在確定中心圖像的基礎(chǔ)上,選取一張與中心圖 像具有相同類別標(biāo)簽的圖像與一張具有不同類別標(biāo)簽的圖像,從而形成若干圖像三元組。
[0015] 本發(fā)明的特點(diǎn)在于學(xué)習(xí)部分引入了深度卷積神經(jīng)網(wǎng)絡(luò),通過對圖像特征與哈希函 數(shù)的聯(lián)合優(yōu)化,實(shí)現(xiàn)了端到端的訓(xùn)練過程。從而可以利用卷積神經(jīng)網(wǎng)絡(luò)直接從原始圖像提 取哈希碼。省去了傳統(tǒng)方法中手動設(shè)計特征的環(huán)節(jié)。其中深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程則是通 過累加每張圖像所產(chǎn)生的損失作為總的損失,進(jìn)而利用反向傳播算法對網(wǎng)絡(luò)中的參數(shù)進(jìn)行 更新。
[0016] 優(yōu)選的,步驟S2中的深度卷積神經(jīng)網(wǎng)絡(luò)包含以下組成部分:若干卷積層和池化層, 部分全連接層,一個類雙曲正切函數(shù)層以及一個哈希權(quán)重層。其中倒數(shù)第二個全連接層的 輸出表示了圖片的特征向量。倒數(shù)第一個全連接層中的參數(shù)代表了哈希函數(shù)的參數(shù)。類雙 曲正切函數(shù)層是一個以特征向量為輸入的,每個維度的取值范圍在[_1,1]之間的類雙曲正 切函數(shù),其中函數(shù)有一個調(diào)和參數(shù)用于控制其平滑性。該參數(shù)越小,函數(shù)越平滑。哈希權(quán)重 層是一個以類雙曲正切函數(shù)層輸出為輸入的,每個維度對應(yīng)一個權(quán)重的深度網(wǎng)絡(luò)層。
[0017] 優(yōu)選的,步驟S3中的深度卷積神經(jīng)網(wǎng)絡(luò)參數(shù)學(xué)習(xí)的具體實(shí)現(xiàn)方式為:以圖像為中 心來計算所產(chǎn)生損失,計算某圖像在所有三元組中出現(xiàn)的損失,并將其累計求和,獲得最終 的圖像損失。具體的,對于確定的某張圖像,首先確定其在三元組中的具體存在形式(作為 中心圖像、作為正樣本、作為負(fù)樣本或是根本不在三元組中)。隨后根據(jù)具體的存在形式計 算其相應(yīng)的損失,若圖像不存在于某三元組中,則計圖像在該三元組中產(chǎn)生的損失為零。累 加圖像在所有三元組中不同存在形式下的損失,獲得最終該圖像的損失。每次在進(jìn)行深度 卷積神經(jīng)網(wǎng)絡(luò)參數(shù)更新的時候則是將一批圖像一次載入,利用這些圖像隨機(jī)產(chǎn)生若干三元 組。統(tǒng)計這一批圖像在這個三元組集合上的損失。利用反向傳播算法(back propagation a 1 gor i thm)對深度卷積神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行更新。
[0018] 本發(fā)明的優(yōu)勢在于針對不同查詢?nèi)蝿?wù),用戶可以根據(jù)實(shí)際需要對哈希碼的長度進(jìn) 行選擇,
[0019] 進(jìn)而算法根據(jù)每個哈希比特位的權(quán)重對哈希碼進(jìn)行截斷,實(shí)現(xiàn)了哈希編碼的長度 可變性。本發(fā)明有效地解決了一次訓(xùn)練,多任務(wù)可用的目標(biāo)。在計算資源、存儲空間有限的 情況下,本方法依舊能夠在哈希編碼較短的情況下,保持其判別性。
[0020] 優(yōu)選的,步驟S4中的圖像相似性計算的具體實(shí)現(xiàn)方式為:獲取確定長度的哈希編 碼,根據(jù)用戶的輸入,確定要選取的哈希比特位長度L。利用深度卷積神經(jīng)網(wǎng)絡(luò)中哈希權(quán)重 層學(xué)習(xí)到的每一個比特位的權(quán)重,從大到小依次選取權(quán)重較大的前L個比特位,從而實(shí)現(xiàn)哈 希比特位的截取。利用截取的哈希比特位計算帶權(quán)重的海明距離,作為最終兩個圖像的相 似性度量。
[0021] 優(yōu)選的,步驟S4中計算帶權(quán)重的海明距離使用了快速查表法,其具體的實(shí)現(xiàn)方式 為:根據(jù)選取的哈希比特位長度L,構(gòu)建大小為的查詢表,該查詢表的中的每一個元素對 應(yīng)了兩個長度為L的哈希編碼可能存在的一種異或操作的結(jié)果(共存在種可能)。結(jié)合每 一個哈希比特位的權(quán)重,計算帶權(quán)情況下每一種異或操作的值,并將其存儲在查詢表的對 應(yīng)位置。查詢時,根據(jù)輸入的兩個哈希編碼值,計算其異或操作的結(jié)果,并將存儲在查詢表 中對應(yīng)位置的數(shù)值作為結(jié)果返回,從而獲得兩個哈希編碼帶權(quán)重的海明距離。
[0022] 優(yōu)選的,步驟S5中對帶權(quán)重的海明距離進(jìn)行排序,其所采用的排序算法是快速排 序算法、歸并排序算法或選擇排序算法中的任意一種。
[0023]本發(fā)明提取具有豐富信息的圖像特征和學(xué)習(xí)近似哈希函數(shù)是圖像檢索領(lǐng)域兩個 十分重要的研究方向。同時,當(dāng)前的多媒體應(yīng)用要求輸出的哈希碼能夠依據(jù)應(yīng)用場景的不 同而變化長度?;谝陨闲枨?,提出一種基于可變長度深度哈希學(xué)習(xí)的圖像檢索方法,主要 涉及圖像檢索與深度學(xué)習(xí)領(lǐng)域。該方法將哈希碼的學(xué)習(xí)建模成相似性學(xué)習(xí)的過程。具體來 說,該方法利用訓(xùn)練圖像產(chǎn)生一批三元圖像組,其中每個三元組包含兩張具有相同類標(biāo)的 圖像與一張具有不同類標(biāo)的圖像。對模型訓(xùn)練的目的是最大化匹配的圖像對與不匹配的圖 像對在海明空間的間隔。本方法模型的學(xué)習(xí)部分引入了深度卷積神經(jīng)網(wǎng)絡(luò),通過對圖像特 征與哈希函數(shù)的聯(lián)合優(yōu)化,實(shí)現(xiàn)了端到端的訓(xùn)練過程。另一方面,卷積網(wǎng)絡(luò)輸出的哈希碼每 一位都具有不同的權(quán)重。針對不同的檢索任務(wù),用戶可以通過截斷不重要的比特位來實(shí)現(xiàn) 哈希碼長度的調(diào)控。同時,該方法能夠在哈希碼較短的情況下的有效地保持其判別性。
[0024]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
[0025] 1.本發(fā)明是一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法,通過利用深度神經(jīng)網(wǎng) 絡(luò),該方法將圖像的特征學(xué)習(xí)與哈希函數(shù)的學(xué)習(xí)過程統(tǒng)一到一個端到端的框架中,實(shí)現(xiàn)了 兩者的聯(lián)合優(yōu)化??朔艘延蟹椒ㄔ诠:瘮?shù)學(xué)習(xí)方面,嚴(yán)重依賴于所嵌入的圖像特征空 間的現(xiàn)狀。
[0026] 2 .本發(fā)明是一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法,在進(jìn)行檢索的過程 中,該方法強(qiáng)調(diào)的是通過對帶權(quán)重的比特位的選取來應(yīng)對不同的檢索任務(wù)。因而克服了大 多數(shù)現(xiàn)有方法通過存儲不同比特位的哈希碼來解決不同的任務(wù)的弊端。同時,一種針對帶 權(quán)重哈希碼的查表方法被提出,進(jìn)一步保證了可變長哈希的檢索效率。
[0027] 3.本發(fā)明是一種基于可變長深度哈希學(xué)習(xí)的圖像檢索方法,在哈希碼學(xué)習(xí)的過程 中本方法引入了基于圖像三元組比對的相對相似性比對,這種方法能夠有效挖掘類內(nèi)的一 致性和類間的差異性。保證了所產(chǎn)生的哈希碼能夠有效保持實(shí)例級別的相似性。
【附圖說明】
[0028]圖1為基于可變長深度哈希學(xué)習(xí)的圖像檢索方法的框架圖。
[0029 ]圖2為本發(fā)明的基于可變長深度哈希學(xué)習(xí)的圖像檢索方法的深度神經(jīng)網(wǎng)絡(luò)的架構(gòu) 圖。
[0030] 圖3為本發(fā)明的圖像相似性哈希學(xué)習(xí)的原理圖。
[0031] 圖4為本發(fā)明的基
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1