亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

圖像檢索方法以及裝置與流程

文檔序號(hào):12719987閱讀:223來(lái)源:國(guó)知局
圖像檢索方法以及裝置與流程

本發(fā)明涉及圖像搜索領(lǐng)域,特別涉及一種圖像檢索方法以及裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,用戶(hù)對(duì)于數(shù)據(jù)檢索的需求也越來(lái)越高,用戶(hù)不只滿(mǎn)足于文字、語(yǔ)音的輸入獲得的檢索結(jié)果,還希望能夠輸入圖像等獲得滿(mǎn)意的匹配結(jié)果,例如,用戶(hù)進(jìn)行網(wǎng)上購(gòu)物可能并不知道想要購(gòu)買(mǎi)的商品的品牌、型號(hào)等,也無(wú)法準(zhǔn)確描述其特點(diǎn),但是用戶(hù)有拍攝的圖片,用戶(hù)希望輸入圖片即可檢索到想要購(gòu)買(mǎi)的商品。

目前,比較常用的圖片檢索技術(shù)為積量化算法,這種算法對(duì)于圖像特征的描述較為復(fù)雜,占用內(nèi)存大,在面對(duì)互聯(lián)網(wǎng)中海量數(shù)據(jù)的情況下,無(wú)法支持大量圖片的計(jì)算和匹配過(guò)程,只能支持千萬(wàn)量級(jí)的圖片處理,無(wú)法滿(mǎn)足用戶(hù)的需求。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明所要實(shí)現(xiàn)的一個(gè)目的是:提出一種圖片檢索方法,在不降低圖片檢索準(zhǔn)確率的情況下,提高圖片檢索能力。

根據(jù)本發(fā)明的一個(gè)方面,提供的一種圖像檢索方法,包括:利用深度學(xué)習(xí)模型提取待檢索圖片的全局特征;利用降維模型中的降維矩陣對(duì)待檢索圖片的全局特征進(jìn)行降維,降維模型是以減小降維訓(xùn)練集中相似圖片的降維后的全局特征的距離且增大降維訓(xùn)練集中不相似圖片的降維后的全局特征的距離為目標(biāo)構(gòu)建的;利用矢量量化模型將待檢索圖片的降維后的全局特征量化為二值比特串;根據(jù)待檢索圖片的二值比特串與數(shù)據(jù)庫(kù)中的圖片的二值比特串的距離,從數(shù)據(jù)庫(kù)中檢索出與待檢索圖片相似的圖片。

在一個(gè)實(shí)施例中,利用深度學(xué)習(xí)模型提取待檢索圖片的全局特征包括:將待檢索圖片輸入GoogleNet模型;從GoogleNet模型各層輸出的待檢索圖片的特征向量中,選取最后一個(gè)平均池化層和最后一個(gè)最大池化層輸出的特征向量進(jìn)行組合,作為待檢索圖片的全局特征。

在一個(gè)實(shí)施例中,利用矢量量化模型將待檢索圖片的降維后的全局特征量化為二值比特串包括:根據(jù)矢量量化模型中的均值向量和旋轉(zhuǎn)矩陣對(duì)待檢索圖片的降維后的全局特征進(jìn)行投影,得到待檢索圖片的投影特征;根據(jù)矢量量化模型中劃分的子空間以及獲得的各個(gè)子空間的碼本,確定待檢索圖片的投影特征在各個(gè)子空間中的編碼;將待檢索圖片的投影特征在各個(gè)子空間中的編碼進(jìn)行組合,得到待檢索圖片的二值比特串。

在一個(gè)實(shí)施例中,根據(jù)矢量量化模型中劃分的子空間以及獲得的各個(gè)子空間的碼本,確定待檢索圖片的投影特征在各個(gè)子空間中的編碼包括:將待檢索圖片的投影特征的各維數(shù)據(jù)按照子空間的個(gè)數(shù)均分到各個(gè)子空間,獲得待檢索圖片在各個(gè)子空間的分特征;在各個(gè)子空間內(nèi),根據(jù)該子空間內(nèi)的碼本中與待檢索圖片在該子空間內(nèi)的分特征的距離最近的碼字確定待檢索圖片的投影特征在各個(gè)子空間中的編碼。

在一個(gè)實(shí)施例中,該方法還包括:采用以下方法對(duì)深度學(xué)習(xí)模型進(jìn)行訓(xùn)練:選取人工拍攝的圖片作為檢索訓(xùn)練集,選取與檢索訓(xùn)練集中圖片相對(duì)應(yīng)的評(píng)論圖以及與檢索訓(xùn)練集中圖片不相關(guān)的圖片作為數(shù)據(jù)訓(xùn)練集,并將檢索訓(xùn)練集和數(shù)據(jù)訓(xùn)練集作為深度學(xué)習(xí)訓(xùn)練集;將檢索訓(xùn)練集中的圖片輸入深度學(xué)習(xí)模型獲得各層輸出的特征向量;將數(shù)據(jù)訓(xùn)練集中的圖片輸入深度學(xué)習(xí)模型獲得各層輸出的特征向量;根據(jù)檢索訓(xùn)練集中一張圖片的在一個(gè)輸出層的特征向量與數(shù)據(jù)訓(xùn)練集中的各個(gè)圖片在該輸出層的特征向量的距離,對(duì)數(shù)據(jù)訓(xùn)練集中的各個(gè)圖片進(jìn)行排序,并根據(jù)數(shù)據(jù)訓(xùn)練集中與檢索訓(xùn)練集中的該圖片對(duì)應(yīng)的評(píng)論圖的排序位置以及該排序位置對(duì)應(yīng)的權(quán)重,確定檢索訓(xùn)練集中該圖片在該輸出層的匹配結(jié)果;根據(jù)檢索訓(xùn)練集中各圖片在該輸出層的匹配結(jié)果,確定該輸出層的描述能力;根據(jù)各輸出層的描述能力確定描述圖片全局特征最優(yōu)的兩個(gè)輸出層。

在一個(gè)實(shí)施例中,該方法還包括:采用以下方法對(duì)降維模型進(jìn)行訓(xùn)練:選取人工拍攝的圖片作為檢索訓(xùn)練集,從數(shù)據(jù)庫(kù)中選取與檢索訓(xùn)練集中相似的圖片組成正樣本對(duì);從數(shù)據(jù)庫(kù)中選取與檢索訓(xùn)練集中不相似的圖片組成負(fù)樣本對(duì),并將正樣本對(duì)和負(fù)樣本對(duì)作為降維訓(xùn)練集;利用圖片的全局特征乘以降維矩陣表示圖片降維后的全局特征;確定所有正樣本對(duì)和負(fù)樣本對(duì)中圖片的降維后的全局特征的距離與分類(lèi)閾值的差量信息的總和的關(guān)系表示;將求取關(guān)系表示取最小值時(shí)的降維矩陣和分類(lèi)閾值的代價(jià)函數(shù)確定為降維模型;對(duì)降維模型進(jìn)行訓(xùn)練求取最優(yōu)解,得到降維矩陣。

在一個(gè)實(shí)施例中,該方法還包括:采用以下方法對(duì)矢量量化模型進(jìn)行訓(xùn)練:計(jì)算量化訓(xùn)練集中的圖片的降維后的全局特征的均值作為矢量量化模型的均值向量;將量化訓(xùn)練集中的圖片的降維后的全局特征減去均值向量并組成去均值后的圖片特征矩陣;計(jì)算去均值后的圖片特征矩陣的協(xié)方差矩陣,并將協(xié)方差分解為特征值矩陣與特征向量矩陣;根據(jù)特征值矩陣劃分子空間;將特征向量矩陣根據(jù)特征值在劃分的子空間中的位置對(duì)特征向量矩陣進(jìn)行旋轉(zhuǎn),得到旋轉(zhuǎn)矩陣;計(jì)算去均值后的圖片特征矩陣與矢量量化模型的旋轉(zhuǎn)矩陣的乘積,得到量化訓(xùn)練集中的圖片的投影特征;將量化訓(xùn)練集中的圖片的投影特征的各維數(shù)據(jù)按照子空間的個(gè)數(shù)均分到各個(gè)子空間;在各個(gè)子空間內(nèi),根據(jù)K均值哈希算法確定該子空間內(nèi)的子碼本以及子碼本中各個(gè)碼字對(duì)應(yīng)的編碼。

根據(jù)本發(fā)明的第二個(gè)方面,提供的一種圖片檢索裝置,包括:全局特征提取模塊,用于利用深度學(xué)習(xí)模型提取待檢索圖片的全局特征;特征降維模塊,用于利用降維模型中的降維矩陣對(duì)待檢索圖片的全局特征進(jìn)行降維,降維模型是以減小降維訓(xùn)練集中相似圖片的降維后的全局特征的距離且增大降維訓(xùn)練集中不相似圖片的降維后的全局特征的距離為目標(biāo)構(gòu)建的;矢量量化模塊,用于利用矢量量化模型將待檢索圖片的降維后的全局特征量化為二值比特串;檢索模塊,用于根據(jù)待檢索圖片的二值比特串與數(shù)據(jù)庫(kù)中的圖片的二值比特串的距離,從數(shù)據(jù)庫(kù)中檢索出與待檢索圖片相似的圖片。

在一個(gè)實(shí)施例中,全局特征提取模塊,用于將待檢索圖片輸入GoogleNet模型,從GoogleNet模型各層輸出的待檢索圖片的特征向量中,選取最后一個(gè)平均池化層和最后一個(gè)最大池化層輸出的特征向量進(jìn)行組合,作為待檢索圖片的全局特征。

在一個(gè)實(shí)施例中,矢量量化模塊,用于根據(jù)矢量量化模型中的均值向量和旋轉(zhuǎn)矩陣對(duì)待檢索圖片的降維后的全局特征進(jìn)行投影,得到待檢索圖片的投影特征,根據(jù)矢量量化模型中劃分的子空間以及獲得的各個(gè)子空間的碼本,確定待檢索圖片的投影特征在各個(gè)子空間中的編碼,將待檢索圖片的投影特征在各個(gè)子空間中的編碼進(jìn)行組合,得到待檢索圖片的二值比特串。

在一個(gè)實(shí)施例中,矢量量化模塊,用于將待檢索圖片的投影特征的各維數(shù)據(jù)按照子空間的個(gè)數(shù)均分到各個(gè)子空間,獲得待檢索圖片在各個(gè)子空間的分特征,在各個(gè)子空間內(nèi),根據(jù)該子空間內(nèi)的碼本中與待檢索圖片在該子空間內(nèi)的分特征的距離最近的碼字確定待檢索圖片的投影特征在各個(gè)子空間中的編碼。

在一個(gè)實(shí)施例中,該裝置還包括:深度學(xué)習(xí)模型訓(xùn)練模塊,用于選取人工拍攝的圖片作為檢索訓(xùn)練集,選取與檢索訓(xùn)練集中圖片相對(duì)應(yīng)的評(píng)論圖以及與檢索訓(xùn)練集中圖片不相關(guān)的圖片作為數(shù)據(jù)訓(xùn)練集,并將檢索訓(xùn)練集和數(shù)據(jù)訓(xùn)練集作為深度學(xué)習(xí)訓(xùn)練集,將檢索訓(xùn)練集中的圖片輸入深度學(xué)習(xí)模型獲得各層輸出的特征向量,將數(shù)據(jù)訓(xùn)練集中的圖片輸入深度學(xué)習(xí)模型獲得各層輸出的特征向量,根據(jù)檢索訓(xùn)練集中一張圖片的在一個(gè)輸出層的特征向量與數(shù)據(jù)訓(xùn)練集中的各個(gè)圖片在該輸出層的特征向量的距離,對(duì)數(shù)據(jù)訓(xùn)練集中的各個(gè)圖片進(jìn)行排序,并根據(jù)數(shù)據(jù)訓(xùn)練集中與檢索訓(xùn)練集中的該圖片對(duì)應(yīng)的評(píng)論圖的排序位置以及該排序位置對(duì)應(yīng)的權(quán)重,確定檢索訓(xùn)練集中該圖片在該輸出層的匹配結(jié)果,根據(jù)檢索訓(xùn)練集中各圖片在該輸出層的匹配結(jié)果,確定該輸出層的描述能力,根據(jù)各輸出層的描述能力確定描述圖片全局特征最優(yōu)的兩個(gè)輸出層。

在一個(gè)實(shí)施例中,該裝置還包括:降維模型訓(xùn)練模塊,用于選取人工拍攝的圖片作為檢索訓(xùn)練集,從數(shù)據(jù)庫(kù)中選取與檢索訓(xùn)練集中相似的圖片組成正樣本對(duì),從數(shù)據(jù)庫(kù)中選取與檢索訓(xùn)練集中不相似的圖片組成負(fù)樣本對(duì),并將正樣本對(duì)和負(fù)樣本對(duì)作為降維訓(xùn)練集;利用圖片的全局特征乘以降維矩陣表示圖片降維后的全局特征,確定所有正樣本對(duì)和負(fù)樣本對(duì)中圖片的降維后的全局特征的距離與分類(lèi)閾值的差量信息的總和的關(guān)系表示,將求取關(guān)系表示取最小值時(shí)的降維矩陣和分類(lèi)閾值的代價(jià)函數(shù)確定為降維模型,對(duì)降維模型進(jìn)行訓(xùn)練求取最優(yōu)解,得到降維矩陣。

在一個(gè)實(shí)施例中,該裝置還包括:矢量量化模型訓(xùn)練模塊,用于計(jì)算量化訓(xùn)練集中的圖片的降維后的全局特征的均值作為矢量量化模型的均值向量,將量化訓(xùn)練集中的圖片的降維后的全局特征減去均值向量并組成去均值后的圖片特征矩陣,計(jì)算去均值后的圖片特征矩陣的協(xié)方差矩陣,并將協(xié)方差分解為特征值矩陣與特征向量矩陣,根據(jù)特征值矩陣劃分子空間,將特征向量矩陣根據(jù)特征值在劃分的子空間中的位置對(duì)特征向量矩陣進(jìn)行旋轉(zhuǎn),得到旋轉(zhuǎn)矩陣,計(jì)算去均值后的圖片特征矩陣與矢量量化模型的旋轉(zhuǎn)矩陣的乘積,得到量化訓(xùn)練集中的圖片的投影特征,將量化訓(xùn)練集中的圖片的投影特征的各維數(shù)據(jù)按照子空間的個(gè)數(shù)均分到各個(gè)子空間,在各個(gè)子空間內(nèi),根據(jù)K均值哈希算法確定該子空間內(nèi)的子碼本以及子碼本中各個(gè)碼字對(duì)應(yīng)的編碼。

根據(jù)本發(fā)明的第三個(gè)方面,提供的一種圖片檢索裝置,包括:存儲(chǔ)器;以及耦接至存儲(chǔ)器的處理器,處理器被配置為基于存儲(chǔ)在存儲(chǔ)器設(shè)備中的指令,執(zhí)行如前述任一個(gè)實(shí)施例中的圖片檢索方法。

根據(jù)本發(fā)明的第四個(gè)方面,提供的一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序(指令),其特征在于,該程序(指令)被處理器執(zhí)行時(shí)實(shí)現(xiàn)前述任一個(gè)實(shí)施例中的圖片檢索方法的步驟。

本發(fā)明對(duì)圖片提取全局特征后進(jìn)行降維,再量化為二值比特串,根據(jù)圖片二值比特串的距離從數(shù)據(jù)庫(kù)中檢索出相似的圖片。本發(fā)明應(yīng)用全局特征對(duì)圖片的描述更加準(zhǔn)確,對(duì)全局特征降維可以減少圖片特征的數(shù)據(jù)量,同時(shí)由于降維模型可以使相似圖片的降維后的全局特征的距離減小,且不相似圖片的降維后的全局特征的距離增大,因此,圖片的全局特征經(jīng)過(guò)降維后描述能力得以提高,進(jìn)一步的,將圖片的特征量化為二值比特串能夠降低數(shù)據(jù)的復(fù)雜度,進(jìn)而減少數(shù)據(jù)的存儲(chǔ)量,降低檢索時(shí)的匹配的復(fù)雜度,提高檢索效率,將圖片檢索處理能力提高到上億量級(jí)。

通過(guò)以下參照附圖對(duì)本發(fā)明的示例性實(shí)施例的詳細(xì)描述,本發(fā)明的其它特征及其優(yōu)點(diǎn)將會(huì)變得清楚。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1示出本發(fā)明的一個(gè)實(shí)施例的圖像檢索裝置的結(jié)構(gòu)示意圖。

圖2示出本發(fā)明的另一個(gè)實(shí)施例的圖像檢索裝置的結(jié)構(gòu)示意圖。

圖3示出本發(fā)明的一個(gè)實(shí)施例的圖像檢索方法的流程示意圖。

圖4示出本發(fā)明的另一個(gè)實(shí)施例的圖像檢索方法的流程示意圖。

圖5示出本發(fā)明的又一個(gè)實(shí)施例的圖像檢索裝置的結(jié)構(gòu)示意圖。

圖6示出本發(fā)明的再一個(gè)實(shí)施例的圖像檢索裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。以下對(duì)至少一個(gè)示例性實(shí)施例的描述實(shí)際上僅僅是說(shuō)明性的,決不作為對(duì)本發(fā)明及其應(yīng)用或使用的任何限制?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

針對(duì)現(xiàn)有技術(shù)對(duì)于圖像特征的描述較為復(fù)雜,占用內(nèi)存大,在面對(duì)互聯(lián)網(wǎng)中海量數(shù)據(jù)的情況下,無(wú)法支持大量圖片的計(jì)算和匹配過(guò)程,只能支持千萬(wàn)量級(jí)的圖片處理,無(wú)法滿(mǎn)足用戶(hù)的需求的問(wèn)題,提出本方案。

本發(fā)明的實(shí)施例中的圖像檢索裝置可各由各種計(jì)算設(shè)備或計(jì)算機(jī)系統(tǒng)來(lái)實(shí)現(xiàn),下面結(jié)合圖1以及圖2進(jìn)行描述。

圖1為本發(fā)明圖像檢索裝置的一個(gè)實(shí)施例的結(jié)構(gòu)圖。如圖1所示,該實(shí)施例的裝置10包括:存儲(chǔ)器110以及耦接至該存儲(chǔ)器110的處理器120,處理器120被配置為基于存儲(chǔ)在存儲(chǔ)器110中的指令,執(zhí)行本發(fā)明中任意一個(gè)實(shí)施例中的圖像檢索方法。

其中,存儲(chǔ)器110例如可以包括系統(tǒng)存儲(chǔ)器、固定非易失性存儲(chǔ)介質(zhì)等。系統(tǒng)存儲(chǔ)器例如存儲(chǔ)有操作系統(tǒng)、應(yīng)用程序、引導(dǎo)裝載程序(Boot Loader)、數(shù)據(jù)庫(kù)以及其他程序等。

圖2為本發(fā)明圖像檢索裝置的另一個(gè)實(shí)施例的結(jié)構(gòu)圖。如圖2所示,該實(shí)施例的裝置10包括:存儲(chǔ)器110以及處理器120,還可以包括輸入輸出接口230、網(wǎng)絡(luò)接口240、存儲(chǔ)接口250等。這些接口230,240,250以及存儲(chǔ)器110和處理器120之間例如可以通過(guò)總線260連接。其中,輸入輸出接口230為顯示器、鼠標(biāo)、鍵盤(pán)、觸摸屏等輸入輸出設(shè)備提供連接接口。網(wǎng)絡(luò)接口240為各種聯(lián)網(wǎng)設(shè)備提供連接接口,例如可以連接到數(shù)據(jù)庫(kù)服務(wù)器或者云端存儲(chǔ)服務(wù)器等。存儲(chǔ)接口250為SD卡、U盤(pán)等外置存儲(chǔ)設(shè)備提供連接接口。

下面結(jié)合圖3描述本發(fā)明的圖像檢索方法。

圖3為本發(fā)明圖像檢索方法一個(gè)實(shí)施例的流程圖。如圖3所示,該實(shí)施例的方法包括:

步驟S302,利用深度學(xué)習(xí)模型提取待檢索圖片的全局特征。

其中,深度學(xué)習(xí)模型例如為GoogleNet模型、AlexNet模型、VGG(Visual Graphics Generator,目視圖像生成器)等。發(fā)明人經(jīng)過(guò)測(cè)試,選取在圖像分類(lèi)精度和特征描述性上都比較好的GoogleNet模型。

具體的,將待檢索圖片輸入GoogleNet模型,從GoogleNet模型各層輸出的待檢索圖片的特征向量中,選取最后一個(gè)平均池化層和最后一個(gè)最大池化層輸出的特征向量進(jìn)行組合,作為待檢索圖片的全局特征。圖片輸入GoogleNet模型后,會(huì)分別輸出圖片在34個(gè)層的特征向量,選取其中最后一個(gè)平均池化(average pooling)層輸出的1024維特征和最后一個(gè)最大池化(max pooling)層輸出40768維特征進(jìn)行組合,例如對(duì)兩層輸出的特征向量進(jìn)行線性組合或直接形成412792維向量等。選取這兩層輸出的特征向量用了描述圖片的全局特征,是通過(guò)對(duì)GoogleNet模型進(jìn)行訓(xùn)練并對(duì)各輸出層的描述能力進(jìn)行評(píng)估后得出的結(jié)論,后續(xù)將進(jìn)行具體描述。

步驟S304,利用降維模型中的降維矩陣對(duì)待檢索圖片的全局特征進(jìn)行降維。

其中,降維模型是以減小降維訓(xùn)練集中相似圖片的降維后的全局特征的距離且增大降維訓(xùn)練集中不相似圖片的降維后的全局特征的距離為目標(biāo)構(gòu)建的。由于降維模型的構(gòu)建不僅滿(mǎn)足圖片的全局特征乘以降維矩陣后得以降維,同時(shí)還對(duì)降維后圖片之間的距離進(jìn)行了限定,因此,相似圖片的降維后的全局特征的距離減小且不相似圖片的降維后的全局特征的距離增大,在后續(xù)檢索過(guò)程中更容易檢索到相似的圖片,在對(duì)圖片的全局特征進(jìn)行降維的同時(shí)提高了圖片降維后的全局特征的描述能力。對(duì)于降維模型的構(gòu)建和訓(xùn)練過(guò)程后續(xù)將進(jìn)行詳細(xì)描述。

具體的,利用待檢索圖片的全局特征乘以降維矩陣得到降維后的全局特征,例如將待檢索圖片的全局特征降維到1024維,對(duì)于圖片特征降維后的維數(shù),可以通過(guò)測(cè)試得到,在對(duì)降維模型進(jìn)行訓(xùn)練的過(guò)程中,求取不同的降維矩陣,對(duì)圖片的全局特征降維到不同的維數(shù),并根據(jù)降維后的全局特征的匹配準(zhǔn)確性確定圖片全局特征降維后的維數(shù),具體將在后續(xù)進(jìn)行具體描述。

步驟S306,利用矢量量化模型將待檢索圖片的降維后的全局特征量化為二值比特串。

其中,矢量量化模型例如為K均值哈希模型,K均值哈希算法中參考積量化(Product Quantizer)的方法擴(kuò)展到積空間,即對(duì)圖片的特征進(jìn)行子空間的劃分,在各個(gè)子空間中分別對(duì)圖片的特征進(jìn)行量化,之后再將各個(gè)子空間中量化后的二值比特串進(jìn)行組合。這樣做的目的是減少計(jì)算的復(fù)雜度,例如檢索時(shí)希望利用圖片的B比特的特征進(jìn)行檢索,不劃分子空間的情況下需要2B個(gè)碼字,如果劃分為M個(gè)子空間,每個(gè)子空間中對(duì)圖像特征的維特征進(jìn)行量化,需要2b個(gè)碼字,總共需要M*2b個(gè)碼字,相對(duì)于2B=2M*b個(gè)碼字,大大減少了存儲(chǔ)量和計(jì)算量。對(duì)K均值哈希模型進(jìn)行訓(xùn)練后得到均值向量、旋轉(zhuǎn)矩陣和每個(gè)子空間的碼本,具體的訓(xùn)練過(guò)程在后續(xù)進(jìn)行具體描述。

具體的,根據(jù)矢量量化模型中的均值向量和旋轉(zhuǎn)矩陣對(duì)待檢索圖片的降維后的全局特征進(jìn)行投影,得到待檢索圖片的投影特征;根據(jù)矢量量化模型中劃分的子空間以及獲得的各個(gè)子空間的碼本,確定待檢索圖片的投影特征在各個(gè)子空間中的編碼;將待檢索圖片的投影特征在各個(gè)子空間中的編碼進(jìn)行組合,得到待檢索圖片的二值比特串。優(yōu)選的,將待檢索圖片的降維后的全局特征x減去均值向量μ,得到去均值后的特征x-μ,利用x-μ乘以旋轉(zhuǎn)矩陣得到待檢索圖片的投影特征,其中均值向量μ和旋轉(zhuǎn)矩陣是在對(duì)K均值哈希模型進(jìn)行訓(xùn)練時(shí)獲得的,后續(xù)進(jìn)行具體描述。進(jìn)一步的,將待檢索圖片的投影特征的各維數(shù)據(jù)按照子空間的個(gè)數(shù)均分到各個(gè)子空間,獲得待檢索圖片在各個(gè)子空間的分特征,例如將圖片的1024維投影特征均分到512個(gè)子空間,則每個(gè)子空間中分配2維圖片的投影特征。在各個(gè)子空間內(nèi),根據(jù)該子空間內(nèi)的碼本中與待檢索圖片在該子空間內(nèi)的分特征的距離最近的碼字確定待檢索圖片的投影特征在各個(gè)子空間中的編碼。其中碼字與待檢索圖片的分特征的距離例如為歐式距離,每個(gè)子空間內(nèi)的碼本是訓(xùn)練過(guò)程中得到的,后續(xù)進(jìn)行具體描述。

步驟S308,根據(jù)待檢索圖片的二值比特串與數(shù)據(jù)庫(kù)中的圖片的二值比特串的距離,從數(shù)據(jù)庫(kù)中檢索出與待檢索圖片相似的圖片。

其中,數(shù)據(jù)庫(kù)中的圖片的二值比特串也采用前述步驟S302~S306的方法生成,例如,對(duì)于每張圖片最后量化得到1024比特的特征描述,則數(shù)據(jù)庫(kù)中只需要存儲(chǔ)1024比特的二值比特串表示一張圖片,大大減少了存儲(chǔ)的數(shù)據(jù)量,以64G內(nèi)存的服務(wù)器為例能夠容納5億張圖片的存儲(chǔ),可以將圖片的檢索處理能力提高到上億量級(jí)。在進(jìn)行檢索時(shí)可以采取快速漢明距的比對(duì)方法,比對(duì)待檢索圖片的二值比特串與數(shù)據(jù)庫(kù)中的圖片的二值比特串的漢明距離,進(jìn)一步減少了比對(duì)的復(fù)雜度提高了檢索效率。

上述實(shí)施例的方法,對(duì)圖片提取全局特征后進(jìn)行降維,再量化為二值比特串,根據(jù)圖片二值比特串的距離從數(shù)據(jù)庫(kù)中檢索出相似的圖片。上述實(shí)施例的方法應(yīng)用全局特征對(duì)圖片的描述更加準(zhǔn)確,對(duì)全局特征降維可以減少圖片特征的數(shù)據(jù)量,同時(shí)由于降維模型可以使相似圖片的降維后的全局特征的距離減小,且不相似圖片的降維后的全局特征的距離增大,因此,圖片的全局特征經(jīng)過(guò)降維后描述能力得以提高,進(jìn)一步的,將圖片的特征量化為二值比特串能夠降低數(shù)據(jù)的復(fù)雜度,進(jìn)而減少數(shù)據(jù)的存儲(chǔ)量,降低檢索時(shí)的匹配的復(fù)雜度,提高檢索效率,將圖片檢索處理能力提高到上億量級(jí)。

上述實(shí)施例的方法描述了圖片檢索的過(guò)程,在進(jìn)行圖片檢索之前還包括模型的離線訓(xùn)練過(guò)程,下面結(jié)合圖4進(jìn)行描述。

圖4為本發(fā)明圖像檢索方法另一個(gè)實(shí)施例的流程圖。如圖4所示,在步驟S302之前還包括:

深度學(xué)習(xí)模型的訓(xùn)練過(guò)程如下:

步驟S402,選取人工拍攝的圖片作為檢索訓(xùn)練集,選取與檢索訓(xùn)練集中圖片相對(duì)應(yīng)的評(píng)論圖以及與檢索訓(xùn)練集中圖片不相關(guān)的圖片作為數(shù)據(jù)訓(xùn)練集,并將檢索訓(xùn)練集和數(shù)據(jù)訓(xùn)練集作為深度學(xué)習(xí)訓(xùn)練集。

其中,深度學(xué)習(xí)訓(xùn)練集數(shù)據(jù)包括兩部分即檢索訓(xùn)練集和數(shù)據(jù)訓(xùn)練集,便于對(duì)模型進(jìn)行訓(xùn)練的同時(shí)對(duì)模型的訓(xùn)練結(jié)果進(jìn)行評(píng)估,以便選擇對(duì)圖片描述能力更好的特征。例如,選取938張人工拍攝的女裝圖片作為檢索訓(xùn)練集,進(jìn)一步根據(jù)檢索訓(xùn)練集中的圖片選擇1至2張對(duì)應(yīng)的評(píng)論圖片即其他人拍攝的同樣產(chǎn)品的圖片加入數(shù)據(jù)訓(xùn)練集,另外選擇一些與檢索訓(xùn)練集中圖片不相似的圖片也加入數(shù)據(jù)訓(xùn)練集,組成擁有46806張圖片的數(shù)據(jù)訓(xùn)練集。

步驟S404,將檢索訓(xùn)練集中的圖片輸入深度學(xué)習(xí)模型獲得各層輸出的特征向量。

其中,深度學(xué)習(xí)模型例如為GoogleNet模型,共輸出34個(gè)層的特征向量。

步驟S406,將數(shù)據(jù)訓(xùn)練集中的圖片輸入深度學(xué)習(xí)模型獲得各層輸出的特征向量。

其中,共輸出34個(gè)層的特征向量。

步驟S408,根據(jù)檢索訓(xùn)練集中的圖片與數(shù)據(jù)訓(xùn)練集中的圖片在各層輸出的特征向量的距離,確定檢索訓(xùn)練集中的圖片與數(shù)據(jù)訓(xùn)練集中的圖片在各層的匹配結(jié)果。

具體的,計(jì)算檢索訓(xùn)練集中一張圖片A的在一個(gè)輸出層L1的特征向量與數(shù)據(jù)訓(xùn)練集中的各個(gè)圖片在該輸出層L1的特征向量的距離(例如歐氏距離),對(duì)數(shù)據(jù)訓(xùn)練集中的各個(gè)圖片根據(jù)計(jì)算得到的距離由小到大進(jìn)行排序,對(duì)與檢索訓(xùn)練集中的圖片A對(duì)應(yīng)的評(píng)論圖(已標(biāo)記)的排序位置進(jìn)行統(tǒng)計(jì),可以對(duì)評(píng)論圖所在的排序位置進(jìn)行權(quán)重的設(shè)置,例如,評(píng)論圖排在0~4的位置則權(quán)重設(shè)置為5,排在5~19的位置則權(quán)重設(shè)置為4,排在20~99的位置則權(quán)重設(shè)置為3,排在100~499的位置則權(quán)重設(shè)置為2,排在500~8191的位置則權(quán)重設(shè)置為1,排在8192以及之后的位置則權(quán)重設(shè)置為0,進(jìn)一步,將圖片A對(duì)應(yīng)的評(píng)論圖的權(quán)重進(jìn)行相加可以得到圖片A在輸出層L1的匹配結(jié)果,進(jìn)一步,可以確定檢索訓(xùn)練集中任一張圖片在L1層的匹配結(jié)果。

步驟S410,根據(jù)檢索訓(xùn)練集中的圖片與數(shù)據(jù)訓(xùn)練集中的圖片在各層的匹配結(jié)果,確定各層的描述能力,選取描述能力最優(yōu)的兩層。

具體的,例如,檢索訓(xùn)練集中938張圖片對(duì)應(yīng)1789張?jiān)u論圖,匹配結(jié)果最高為1789*5=8945,將檢索訓(xùn)練集所有圖片在L1層的匹配結(jié)果相加,并除以8945則得到L1層的描述能力。根據(jù)各層的描述能力,選取描述能力最優(yōu)的兩層,發(fā)明人經(jīng)過(guò)測(cè)試,最后一個(gè)平均池化層描述能力最強(qiáng),最后一個(gè)最大池化層描述能力次之,因此,選取這兩層作為檢索時(shí)描述圖片特征的兩個(gè)輸出層。也可以根據(jù)實(shí)際需求選取一個(gè)或多個(gè)輸出層用于描述圖片特征。

上述深度學(xué)習(xí)模型的訓(xùn)練過(guò)程能夠選出對(duì)圖片描述能力更好的全局特征,提高圖片檢索的準(zhǔn)確性。

降維模型的訓(xùn)練過(guò)程如下:

步驟S412,從數(shù)據(jù)庫(kù)中選取與檢索訓(xùn)練集中相似的圖片組成正樣本對(duì),從數(shù)據(jù)庫(kù)中選取與檢索訓(xùn)練集中不相似的圖片組成負(fù)樣本對(duì),并將正樣本對(duì)和負(fù)樣本對(duì)作為降維訓(xùn)練集。

選取正樣本對(duì)和負(fù)樣本對(duì)的過(guò)程例如為,首先利用深度學(xué)習(xí)模型獲得數(shù)據(jù)庫(kù)中的所有圖片的全局特征,針對(duì)檢索訓(xùn)練集中的一張圖片A,根據(jù)數(shù)據(jù)庫(kù)中各圖片與圖片A的全局特征的距離(例如歐氏距離)檢索出與圖片A相似的圖片并進(jìn)行排序,選取排在最前面的預(yù)設(shè)數(shù)量的圖片與圖片A分別組成正樣本對(duì)(例如,選取排在前20位的圖片與圖片A組成20組正樣本對(duì)),從剩余未選取的圖片中隨機(jī)選取預(yù)設(shè)數(shù)量的圖片與圖片A分別組成負(fù)樣本對(duì)(例如隨機(jī)選取20張與圖片A組成20組負(fù)樣本對(duì),進(jìn)一步的,針對(duì)檢索訓(xùn)練集中的每一張圖片都可以組成正樣本對(duì)和負(fù)樣本對(duì)。

步驟S414,確定所有正樣本對(duì)和負(fù)樣本對(duì)中圖片的降維后的全局特征的距離與分類(lèi)閾值的差量信息的總和的關(guān)系表示。

其中,利用圖片的全局特征乘以降維矩陣表示圖片降維后的全局特征。降維模型的訓(xùn)練的目標(biāo)是學(xué)習(xí)一個(gè)線性映射即降維矩陣p<<d,能夠?qū)⒏呔S矢量映射為低維矢量使得當(dāng)i和j是相同商品時(shí),圖片i和j的歐氏距離小于一個(gè)分類(lèi)閾值進(jìn)一步,圖片i和j降維后的全局特征的距離表示為(φij)TWTW(φij),所有正樣本對(duì)和負(fù)樣本對(duì)中圖片的降維后的全局特征的距離與分類(lèi)閾值的差量信息的總和的關(guān)系表示為∑i,jmax[1-yij(b-(φij)TWTW(φij)),0],其中,yij為樣本對(duì)的標(biāo)簽,正樣本對(duì)為1,負(fù)樣本對(duì)為-1。

步驟S416,將求取關(guān)系表示取最大值時(shí)的降維矩陣和分類(lèi)閾值的代價(jià)函數(shù)確定為降維模型。

其中,代價(jià)函數(shù)設(shè)置為:

步驟S418,對(duì)降維模型進(jìn)行訓(xùn)練求取最優(yōu)解,得到降維矩陣。

例如通過(guò)SGD(Stochastic Gradient Descent,隨機(jī)梯度下降)迭代優(yōu)化W和b,對(duì)于正樣本對(duì)的圖像降維后的全局特征的距離小于b-1,對(duì)于負(fù)樣本對(duì)的圖像降維后的全局特征的距離大于b-1。φi與φj構(gòu)成輸入的一對(duì)特征,W為待學(xué)習(xí)的降維矩陣,維度為p×d且p<<d,使得降維后的全局特征維度遠(yuǎn)小于原始特征的維度,從而在提升特征描述能力的同時(shí)達(dá)到降維目的。降維矩陣W的維度可以根據(jù)需求進(jìn)行設(shè)置,也可以根據(jù)對(duì)降維后圖片的特征在檢索時(shí)的準(zhǔn)確率進(jìn)行確定,發(fā)明人對(duì)降維矩陣W分別設(shè)置不同的維度進(jìn)行測(cè)試,對(duì)檢索訓(xùn)練集中的圖片參考步驟S408中的方法進(jìn)行檢索獲得匹配結(jié)果,即根據(jù)評(píng)論圖的排名和權(quán)重進(jìn)行匹配結(jié)果的計(jì)算,發(fā)現(xiàn)將全局特征降維到1024維時(shí),匹配結(jié)果最好,因此,降維矩陣W的行數(shù)p設(shè)置維1024。

上述實(shí)施例的方法中通過(guò)對(duì)降維模型的構(gòu)建,使得圖片的特征經(jīng)過(guò)降維后還能提升特征的描述能力,在提高檢索效率的同時(shí)還能提升檢索的準(zhǔn)確率。

矢量量化模型例如為K均值哈希模型,本發(fā)明對(duì)K均值哈希模型進(jìn)行了優(yōu)化,以使計(jì)算過(guò)程更加簡(jiǎn)單,效率更高,一是利用快速漢明距離的計(jì)算代替查表距離,二是將K均值哈希算法擴(kuò)展到積空間。

矢量量化模型的訓(xùn)練過(guò)程如下:

步驟S420,計(jì)算量化訓(xùn)練集中的圖片的降維后的全局特征的均值作為矢量量化模型的均值向量。

其中,量化訓(xùn)練集中的圖片可以是在數(shù)據(jù)庫(kù)中隨機(jī)選取的圖片,將隨機(jī)選取的圖片經(jīng)過(guò)深度學(xué)習(xí)模型和降維模型后得到圖片降維后的全局特征。將量化訓(xùn)練集中的圖片的降維后的全局特征組成矩陣第i(0≤i≤n-1)行元素代表一張圖片降維后的全局特征(d維),共n行。將矩陣的n行向量加和取平均值得到矢量量化模型的均值向量μ。

步驟S422,將量化訓(xùn)練集中的圖片的降維后的全局特征減去均值向量并組成去均值后的圖片特征矩陣。

將矩陣的每一行向量與均值向量μ得到去均值后的圖片特征矩陣

步驟S424,計(jì)算去均值后的圖片特征矩陣的協(xié)方差矩陣,并將協(xié)方差分解為特征值矩陣與特征向量矩陣。

其中,將去均值后的圖片特征矩陣的協(xié)方差矩陣分解為特征值矩陣Δ和特征向量矩陣

步驟S426,根據(jù)特征值矩陣劃分子空間。

具體的,設(shè)置M個(gè)桶,每個(gè)桶對(duì)應(yīng)一個(gè)子空間,每個(gè)桶的最大容量為d/M,其中d為圖片特征的維數(shù),不重復(fù)地選取Δ(i,i)中最大的特征值,并把它分配到具有最小的特征值乘積且沒(méi)有達(dá)到最大容量的桶中,直到所有的特征值Δ(i,i)都分配到各個(gè)桶中;最后得到每個(gè)桶中每個(gè)特征值在Δ中的位置索引,其中對(duì)于位置(i,i),其索引用索引向量I保存。

上述步驟S420~S422為劃分子空間的過(guò)程,可以簡(jiǎn)要描述為:首先圖片特征轉(zhuǎn)換為二值比特串后各bit應(yīng)該是獨(dú)立的,期望子空間也是獨(dú)立的,所以使用PCA(Principal Component Analysis,主成分分析)預(yù)處理數(shù)據(jù)。其次,期望各子空間的方差是均衡的,定義方差是各子空間特征值的積。采用貪婪算法來(lái)實(shí)現(xiàn)均衡,根據(jù)特征值降序排列主分量,順序分配它們中的每一個(gè)到M個(gè)桶的方差最小的一個(gè)里面。每個(gè)桶里的主分量形成一個(gè)子空間。

步驟S428,將特征向量矩陣根據(jù)特征值在劃分的子空間中的位置對(duì)特征向量矩陣進(jìn)行旋轉(zhuǎn),得到旋轉(zhuǎn)矩陣。

其中,將特征向量矩陣的每一列,按照索引向量I重新排序,構(gòu)成旋轉(zhuǎn)矩陣P。

步驟S430,計(jì)算去均值后的圖片特征矩陣與矢量量化模型的旋轉(zhuǎn)矩陣的乘積,得到量化訓(xùn)練集中的圖片的投影特征。

即計(jì)算得到投影矩陣X,投影矩陣中每一行i為一張圖片i的投影特征。

步驟S432,將量化訓(xùn)練集中的圖片的投影特征的各維數(shù)據(jù)按照子空間的個(gè)數(shù)均分到各個(gè)子空間。

發(fā)明人針對(duì)圖片特征經(jīng)過(guò)矢量量化后的比特?cái)?shù)以及劃分的子空間的個(gè)數(shù)分別進(jìn)行了不同的測(cè)試,發(fā)現(xiàn)將矢量量化后的比特?cái)?shù)設(shè)置為1024bit,劃分M=512個(gè)子空間時(shí),應(yīng)用驟S408中的方法進(jìn)行檢索獲得的匹配結(jié)果最好。因此,每個(gè)子空間中分配圖片的投影特征的兩維分特征。

步驟S434,在各個(gè)子空間內(nèi),根據(jù)K均值哈希算法確定該子空間內(nèi)的子碼本以及子碼本中各個(gè)碼字對(duì)應(yīng)的編碼。

在各個(gè)子空間內(nèi),K均值哈希算法的運(yùn)算過(guò)程如下:

在一個(gè)子空間內(nèi),映射d維矢量到另一個(gè)矢量集合C被稱(chēng)為碼本,ci是碼字,k是碼字?jǐn)?shù)量。假定用b個(gè)比特進(jìn)行檢索,需要k=2b個(gè)碼字。矢量量化方法分配任一個(gè)矢量(即圖片的投影特征)到碼本中最近的碼字。通常碼字由k-means(K均值)聚類(lèi)中心給出,因?yàn)樗鼈兡芴峁┳钚×炕`差。

矢量量化方法通過(guò)兩個(gè)矢量x,y(即圖片的投影特征)對(duì)應(yīng)的碼字間距離來(lái)近似矢量間的距離:

d(x,y)≈d(q(x),q(y))=d(ci(x),ci(y)) (1)

其中,d(x,y)=||x-y||表示兩個(gè)矢量間的歐氏距離,i(x)表示包括x所屬cell的索引號(hào)。距離計(jì)算依賴(lài)與它們的索引號(hào),能夠從lookup表d(.,.)中查到。

為了不用查表,使用漢明距離計(jì)算,利用漢明距離近似基于查表的距離:

d(ci(x),ci(y))≈dh(i(x),i(y)) (2)

其中,dh定義為兩個(gè)索引i和j的漢明距離:

其中,s是個(gè)常量,h表示漢明距離,是h的均方根。

綜上,給定一個(gè)碼本C,通過(guò)dh(i(x),i(y))近似距離d(X,y)。

應(yīng)用上述K均值哈希模型,產(chǎn)生訓(xùn)練樣本的平均量化誤差Equan,

同時(shí),針對(duì)(2)的應(yīng)用產(chǎn)生相似性誤差Eaff,

其中ωij=ninj/n2,其中ni、nj是索引號(hào)為i和j的樣本數(shù)量。

進(jìn)一步,組合量化誤差和相似性誤差得到總誤差:

E=Equan+λEaFf (6)

對(duì)公式(6)進(jìn)行求解采用如下步驟:

初始化步驟:

用PCA哈希方法學(xué)習(xí)二值碼,初始化索引號(hào)。

分配步驟:

固定{ci},優(yōu)化i(x)。該步與經(jīng)典k-means算法相似,每個(gè)樣本點(diǎn)x分配到碼本{ci}中最近的碼字。

更新步驟:

固定i(x),優(yōu)化{ci}。固定其他{ci}i≠j,根據(jù)下式優(yōu)化每個(gè)獨(dú)立的碼字cj

對(duì)上式例如使用坐標(biāo)下降方法進(jìn)行優(yōu)化,即可獲得該子空間內(nèi)的碼字組成的碼本{ci}以及各碼字對(duì)應(yīng)的編碼。

將各個(gè)子空間的碼本進(jìn)行組合即可得到積空間中的碼本。

上述實(shí)施例的方法,應(yīng)用漢明距離代替查表距離簡(jiǎn)化了計(jì)算過(guò)程,同時(shí)將積空間內(nèi)的編碼過(guò)程劃分至多個(gè)子空間,降低了計(jì)算的復(fù)雜度和存儲(chǔ)的數(shù)據(jù)量,進(jìn)一步提高了圖片檢索處理能力。

本發(fā)明還提供一種圖像檢索裝置,下面結(jié)合圖5進(jìn)行描述。

圖5為本發(fā)明圖像檢索裝置的一個(gè)實(shí)施例的結(jié)構(gòu)圖。如圖5所示,該裝置50包括:

全局特征提取模塊502,用于利用深度學(xué)習(xí)模型提取待檢索圖片的全局特征。

具體的,全局特征提取模塊502,用于將待檢索圖片輸入GoogleNet模型,從GoogleNet模型各層輸出的待檢索圖片的特征向量中,選取最后一個(gè)平均池化層和最后一個(gè)最大池化層輸出的特征向量進(jìn)行組合,作為待檢索圖片的全局特征。

特征降維模塊504,用于利用降維模型中的降維矩陣對(duì)待檢索圖片的全局特征進(jìn)行降維,降維模型是以減小降維訓(xùn)練集中相似圖片的降維后的全局特征的距離且增大降維訓(xùn)練集中不相似圖片的降維后的全局特征的距離為目標(biāo)構(gòu)建的。

矢量量化模塊506,用于利用矢量量化模型將待檢索圖片的降維后的全局特征量化為二值比特串。

具體的,矢量量化模塊506,用于根據(jù)矢量量化模型中的均值向量和旋轉(zhuǎn)矩陣對(duì)待檢索圖片的降維后的全局特征進(jìn)行投影,得到待檢索圖片的投影特征,根據(jù)矢量量化模型中劃分的子空間以及獲得的各個(gè)子空間的碼本,確定待檢索圖片的投影特征在各個(gè)子空間中的編碼,將待檢索圖片的投影特征在各個(gè)子空間中的編碼進(jìn)行組合,得到待檢索圖片的二值比特串。

優(yōu)選的,矢量量化模塊506,用于將待檢索圖片的投影特征的各維數(shù)據(jù)按照子空間的個(gè)數(shù)均分到各個(gè)子空間,獲得待檢索圖片在各個(gè)子空間的分特征,在各個(gè)子空間內(nèi),根據(jù)該子空間內(nèi)的碼本中與待檢索圖片在該子空間內(nèi)的分特征的距離最近的碼字確定待檢索圖片的投影特征在各個(gè)子空間中的編碼。

檢索模塊508,用于根據(jù)待檢索圖片的二值比特串與數(shù)據(jù)庫(kù)中的圖片的二值比特串的距離,從數(shù)據(jù)庫(kù)中檢索出與待檢索圖片相似的圖片。

下面結(jié)合圖6描述本發(fā)明圖像檢索裝置的另一個(gè)實(shí)施例。

圖6為本發(fā)明圖像檢索裝置的另一個(gè)實(shí)施例的結(jié)構(gòu)圖。如圖6所示,該裝置50還包括:

深度學(xué)習(xí)模型訓(xùn)練模塊610,用于選取人工拍攝的圖片作為檢索訓(xùn)練集,選取與檢索訓(xùn)練集中圖片相對(duì)應(yīng)的評(píng)論圖以及與檢索訓(xùn)練集中圖片不相關(guān)的圖片作為數(shù)據(jù)訓(xùn)練集,并將檢索訓(xùn)練集和數(shù)據(jù)訓(xùn)練集作為深度學(xué)習(xí)訓(xùn)練集,將檢索訓(xùn)練集中的圖片輸入深度學(xué)習(xí)模型獲得各層輸出的特征向量,將數(shù)據(jù)訓(xùn)練集中的圖片輸入深度學(xué)習(xí)模型獲得各層輸出的特征向量,根據(jù)檢索訓(xùn)練集中一張圖片的在一個(gè)輸出層的特征向量與數(shù)據(jù)訓(xùn)練集中的各個(gè)圖片在該輸出層的特征向量的距離,對(duì)數(shù)據(jù)訓(xùn)練集中的各個(gè)圖片進(jìn)行排序,并根據(jù)數(shù)據(jù)訓(xùn)練集中與檢索訓(xùn)練集中的該圖片對(duì)應(yīng)的評(píng)論圖的排序位置以及該排序位置對(duì)應(yīng)的權(quán)重,確定檢索訓(xùn)練集中該圖片在該輸出層的匹配結(jié)果,根據(jù)檢索訓(xùn)練集中各圖片在該輸出層的匹配結(jié)果,確定該輸出層的描述能力,根據(jù)各輸出層的描述能力確定描述圖片全局特征最優(yōu)的兩個(gè)輸出層。

降維模型訓(xùn)練模塊612,用于選取人工拍攝的圖片作為檢索訓(xùn)練集,從數(shù)據(jù)庫(kù)中選取與檢索訓(xùn)練集中相似的圖片組成正樣本對(duì),從數(shù)據(jù)庫(kù)中選取與檢索訓(xùn)練集中不相似的圖片組成負(fù)樣本對(duì),并將正樣本對(duì)和負(fù)樣本對(duì)作為降維訓(xùn)練集;利用圖片的全局特征乘以降維矩陣表示圖片降維后的全局特征,確定所有正樣本對(duì)和負(fù)樣本對(duì)中圖片的降維后的全局特征的距離與分類(lèi)閾值的差量信息的總和的關(guān)系表示,將求取關(guān)系表示取最大值時(shí)的降維矩陣和分類(lèi)閾值的代價(jià)函數(shù)確定為降維模型,對(duì)降維模型進(jìn)行訓(xùn)練求取最優(yōu)解,得到降維矩陣。

矢量量化模型訓(xùn)練模塊614,用于計(jì)算量化訓(xùn)練集中的圖片的降維后的全局特征的均值作為矢量量化模型的均值向量,將量化訓(xùn)練集中的圖片的降維后的全局特征減去均值向量并組成去均值后的圖片特征矩陣,計(jì)算去均值后的圖片特征矩陣的協(xié)方差矩陣,并將協(xié)方差分解為特征值矩陣與特征向量矩陣,根據(jù)特征值矩陣劃分子空間,將特征向量矩陣根據(jù)特征值在劃分的子空間中的位置對(duì)特征向量矩陣進(jìn)行旋轉(zhuǎn),得到旋轉(zhuǎn)矩陣,計(jì)算去均值后的圖片特征矩陣與矢量量化模型的旋轉(zhuǎn)矩陣的乘積,得到量化訓(xùn)練集中的圖片的投影特征,將量化訓(xùn)練集中的圖片的投影特征的各維數(shù)據(jù)按照子空間的個(gè)數(shù)均分到各個(gè)子空間,在各個(gè)子空間內(nèi),根據(jù)K均值哈希算法確定該子空間內(nèi)的子碼本以及子碼本中各個(gè)碼字對(duì)應(yīng)的編碼。

本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序(指令),其特征在于,該程序(指令)被處理器執(zhí)行時(shí)實(shí)現(xiàn)前述任一個(gè)實(shí)施例中的圖片檢索方法的步驟。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)當(dāng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用非瞬時(shí)性存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解為可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專(zhuān)用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1