本發(fā)明屬于多媒體信息檢索、模式識別等智能信息處理領域,尤其涉及一種基于興趣目標的圖像檢索方法。
背景技術:
智能手機、數(shù)碼相機等便攜式圖像捕獲設備的普及以及微信、微博等數(shù)據(jù)共享平臺的流行,導致網(wǎng)絡上圖像數(shù)量呈現(xiàn)爆炸式增長。面對海量的圖像數(shù)據(jù),傳統(tǒng)人工標注的圖像檢索方式已無法應對?;趦?nèi)容的圖像檢索逐漸成為科學研究的熱點,圖像檢索技術的相關應用也得到了發(fā)展。
在當前圖像檢索模型與相應構建的圖像搜索引擎中,通常針對整體圖像來提取圖像的底層特征。從技術角度來說,這一做法是自然的,而從應用角度來說則可能無法滿足人們的實際需求。即,如果用戶僅僅對圖像中的特定目標物體感興趣,此時從整體圖像提取的特征一部分是有效的,而另一部分則是無效的且會對查詢結果帶來消極影響。
顯著性檢測是圖像分析與理解領域另一個重要分支,其主要任務是模擬人眼視覺注意選擇機制,檢測出圖像中密度、顏色、形狀等與周圍區(qū)域有顯著差異的區(qū)域。當進行“這是什么東西”這類查詢?nèi)蝿諘r,我們以圖像顯著性檢測來理解用戶的興趣目標。一個理想的顯著性檢測模型能夠像人類視覺系統(tǒng)一樣快速定位出復雜場景中最重要的視覺信息.近年來,人們提出了各種顯著性檢測算法.Itti等人提出了一種基于生物啟發(fā)模型和特征整合理論的視覺顯著性檢測算法(IT算法).該算法分別在圖像顏色、亮度、方向特征圖中,按照贏者通吃的顯著性競爭準則,保留局部最為突出的位置,最后將所有特征圖組合成最終的顯著圖。Hou和Zhang等人提出了一種基于頻譜殘差的圖像顯著性檢測算法(SR算法),該算法通過分析輸入圖像的對數(shù)譜,從圖像的頻域提取普殘差,并在對應的空間域構建顯著性圖。Li等人提出了一種頻域圖像顯著性檢測算法(HFT算法),該算法基于超復數(shù)傅里葉變換,利用頻譜尺度空間技術進行圖像顯著性區(qū)域檢測。Cheng等人提出了一種同時使用空間加權和區(qū)域的全局對比度的顯著性區(qū)域檢測算法(RC算法)。Yan等人提出了一種分層顯著性區(qū)域檢測算法(HS算法)。除此之外,還有很多其他顯著性檢測算法。
此前,研究者已經(jīng)嘗試過將視覺注意機制融入到圖像檢索框架中。Fu等人提出了基于注意力驅動的圖像檢索系統(tǒng),該方法通過最大化一個全局注意函數(shù),以一個迭代方式將顯著物體從背景中分離出來,并賦予較高的注意值;檢索時,只比較注意值較高的目標物體。Liu等人提出了一種利用顯著性結構直方圖描述圖像的方法。該方法融入視覺注意內(nèi)核和神經(jīng)元的方向選擇性機制,以此來提高檢索系統(tǒng)的準確性。然而,在Fu等人提出其算法時,人們對顯著性檢測問題的理解還不夠完善,相關技術效率較低,并且該算法所提取的圖像特征僅包括顏色和紋理,在描述目標時區(qū)分力不夠,從而導致圖像檢索效率低下。Liu等人的算法介于基于整體圖像的檢索和基于興趣目標的檢索之間,可以解決目標類似(權重較高)同時背景類似(權重較低)的圖像檢索任務。該算法從功能上來說與現(xiàn)有的圖像檢索引擎的表現(xiàn)類似。實際上,如果用戶所感興趣的是圖像中的特定目標,此時是無需考慮目標背景特征的。
有鑒于上述的缺陷,本設計人,積極加以研究創(chuàng)新,結合顯著性檢測與圖像分割領域最新研究成果,實現(xiàn)一種基于用戶興趣目標的圖像檢索方法,以解決“這是什么東西”這類圖像檢索任務。
技術實現(xiàn)要素:
為解決上述技術問題,本發(fā)明的目的是提供一種基于興趣目標的圖像檢索方法,僅在興趣目標區(qū)域提取特征,以有效地抑制背景對檢索結果的影響,提高檢索的查全率和查準率。
本發(fā)明的基于興趣目標的圖像檢索方法,包括以下步驟:
(1)依據(jù)HS顯著性檢測算法分析用戶的興趣目標,結合SaliencyCut算法分割出興趣目標;
(2)對用戶的興趣目標提取HSV顏色特征、SIFT局部特征和CNN語義特征;
(3)將提取的興趣目標的特征與數(shù)據(jù)庫圖像進行特征相似度匹配,并根據(jù)相似度排序得到基于興趣目標的檢索結果。
進一步的,所述數(shù)據(jù)庫為:對圖像數(shù)據(jù)庫中所有的圖像進行顯著性檢測并分割出興趣目標,然后在興趣目標區(qū)域提取特征,所有圖像的興趣目標區(qū)域的特征組成的特征數(shù)據(jù)庫。
進一步的,所述HS顯著性檢測算法首先提取輸入圖像不同尺度的圖像層,然后計算每張圖像層的顯著性線索,最后利用圖模型將每層的顯著性線索融合成一張顯著圖。
進一步的,通過樹結構的所述圖模型進行分層推理,實現(xiàn)對所有線索圖的融合,將每層的顯著性線索融合成一張顯著圖。
進一步的,所述SaliencyCut算法首先利用所述顯著圖來生成一個不完全的三值圖,然后迭代地調(diào)用GrabCut算法來改進興趣區(qū)域的分割結果,每次迭代后,分別對分割結果使用膨脹和腐蝕操作來得到新的三值圖以進行下一次迭代。
進一步的,迭代次數(shù)小于等于4次。
進一步的,HSV顏色特征的提取,首先根據(jù)興趣目標分割結果,保留興趣目標區(qū)域的像素,接著將興趣目標中所有像素的(r,g,b)值轉換為(h,s,v)值,并將HSV顏色空間量化成240種顏色,最后用歸一化的240維HSV顏色直方圖描述興趣目標的顏色特征。
進一步的,SIFT局部特征的提取,首先采用DoG或Hessian-affine檢測器檢測出圖像中穩(wěn)定的關鍵點,并且根據(jù)興趣目標分割結果保留興趣目標區(qū)域的關鍵點,然后用128維向量描述興趣目標區(qū)域內(nèi)每個關鍵點周圍16×16區(qū)域的信息。
進一步的,在利用SIFT局部特征進行特征相似度匹配時,將訓練得到的視覺詞典,采用多分配方法,將每個SIFT特征通過最近鄰算法量化成視覺單詞,然后采用漢明嵌入、rootSIFT和IDF方法,最終建立一個標準的倒排索引,并利用投票機制進行檢索。
進一步的,CNN語義特征的提取,根據(jù)興趣目標的分割結果,用一個矩形框包含興趣目標并將其剪切出來,然后利用MatConvNet工具提取興趣目標的4096維的CNN特征向量,并對該特征向量進行歸一化。
進一步的,所述步驟(3)中使用加權的特征距離計算查詢圖像和數(shù)據(jù)庫中每一幅圖像之間的相似度,然后按照相似度由大到小的順序返回圖像檢索結果。
借由上述方案,本發(fā)明通過僅在興趣目標區(qū)域提取特征的做法,可以有效抑制背景對檢索結果的影響,提高檢索的查全率和查準率。
上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,并可依照說明書的內(nèi)容予以實施,以下以本發(fā)明的較佳實施例并配合附圖詳細說明如后。
附圖說明
圖1是本發(fā)明流程圖;
圖2是本發(fā)明中SaliencyCut算法流程圖;
圖3是為本發(fā)明采用的SIVAL數(shù)據(jù)庫的樣例圖像;
圖4是結合HS算法和SaliencyCut算法提取興趣目標的結果:(a)輸入圖像,(b)顯著圖,(c)興趣目標分割結果,(d)人工標注的興趣目標;
圖5是不同顯著性檢測算法的結果比較,其中HS為本文所采用的算法;
圖6是不同的顯著圖分割方法的比較;
圖7是基于興趣目標與基于整體圖像的檢索效果比較:(a)關于HSV特征的比較,(b)關于SIFT特征的比較,(c)關于CNN特征的比較;
圖8為不同特征相結合檢索效果的比較:(a)PR曲線,(b)F-度量曲線;
圖9為本發(fā)明和基準算法的檢索樣例,最左上的圖像為查詢圖像,(a)為本發(fā)明的檢索結果,(b)為基準算法的檢索結果;
圖10為本發(fā)明與現(xiàn)有其他算法及基準算法的比較:(a)PR曲線,(b)F-度量曲線。
具體實施方式
下面結合附圖和實施例,對本發(fā)明的具體實施方式作進一步詳細描述。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
本發(fā)明結合顯著性檢測與圖像分割領域最新研究成果,實現(xiàn)一種基于興趣目標的圖像檢索方法,并在圖像數(shù)據(jù)庫上對所提方法進行測評。與基于整體圖像的檢索模型及Liu等人提出的檢索模型相比,本發(fā)明解決了用戶不同的檢索任務;與Fu等人提出的算法相比,本發(fā)明的檢索性能顯著提升。本發(fā)明的檢索方法為:依據(jù)HS顯著性檢測算法分析用戶的興趣目標,結合SaliencyCut算法分割出興趣目標;然后對用戶的興趣目標提取HSV顏色特征、SIFT局部特征和CNN語義特征;最后將其與數(shù)據(jù)庫圖像進行特征相似度匹配,并根據(jù)相似度排序得到基于興趣目標的檢索結果.以上僅在興趣目標區(qū)域提取特征的做法,可以有效抑制背景對檢索結果的影響,提高檢索的查全率和查準率。基于興趣目標的圖像檢索流程如圖1所示。
1、分層顯著性模型
在對比常用的顯著性檢測算法的各方面性能后,本發(fā)明采用HS算法來理解和獲取用戶的興趣目標,該算法首先提取輸入圖像不同尺度的圖像層,然后計算每張圖像層的顯著性線索,最后利用圖模型將每層的顯著性線索融合成一張顯著圖。
1.1、提取圖像層
圖像層是對輸入圖像在不同細節(jié)程度上的描述,不同層對輸入圖像的表示和結構復雜度的表現(xiàn)不一樣。圖像層的層數(shù)一般設定為3層。在第1層,圖像的細節(jié)盡可能被保留,在第2層,圖像的細節(jié)消失,顯現(xiàn)出圖像的結構,在第3層,細節(jié)消失,只剩下大尺度的圖像結構。
為了產(chǎn)生三幅圖像層,首先使用分水嶺分割算法生成一幅初始化的過分割圖,并計算每個分割區(qū)域的尺度值.然后使用一個迭代程序合并鄰近的分割區(qū)域。如果區(qū)域尺度值小于3,這個區(qū)域將被合并到最近鄰的區(qū)域,隨之更新合并后區(qū)域的尺度值和顏色。當所有的區(qū)域都處理完后,將產(chǎn)生第1層區(qū)域圖,第2層區(qū)域圖和第3層區(qū)域圖的產(chǎn)生方式與第1層類似,只是尺度閾值更大。
1.2、單層顯著性線索
用于單層顯著性的主要線索包括局部對比度和啟發(fā)式位置。
1)局部對比度。與周圍顏色對比度較大的圖像區(qū)域一般更會吸引人們的關注??紤]圖像的兩個區(qū)域Ri和Rj,其顏色分別記為ci和cj。區(qū)域的像素數(shù)目為w(Rj)。記
φ(i,j)=exp{-D(Ri,Rj)/σ2}
為區(qū)域Rj在空間上對區(qū)域Ri的顯著性影響程度,其中D(Ri,Rj)表示區(qū)域Ri中心和區(qū)域Rj中心的歐氏距離的平方,參數(shù)σ2控制周圍區(qū)域影響范圍。區(qū)域Ri局部對比度顯著性線索定義如下.
其中n為圖像中區(qū)域的總數(shù)。
2)啟發(fā)式位置。心理學研究表明人們注意力傾向于圖像中間區(qū)域,因此靠近圖像中心的區(qū)域顯著性更高。記xc為圖像中心的坐標,{x0,x1,…}為區(qū)域Ri中像素坐標的集合。啟發(fā)式位置模型如下:
為了更好地得到圖像的顯著性,需要融合以上形式線索,形式如下:
其中λ控制位置線索與局部對比度線索的權重。λ越大,位置線索權重越小,一般λ設置為9。對每一層計算完si后,即可分別得到初始的顯著圖。
1.3、分層推理
不同層的線索圖揭示的顯著性一般是不一樣的,在底層,產(chǎn)生了分散的顯著區(qū)域,在頂層則保留了大結構的顯著區(qū)域。每層的顯著信息都不一樣,因此單獨層的線索圖不能夠保證完整的顯著性信息。此外,很難決定哪一層最好。考慮到背景和前景的復雜性,平均所有線索圖的融合方式也達不到最好的效果。為此,可以借助樹結構的圖模型進行分層推理,實現(xiàn)對所有線索圖的融合。
在第k(k=1,2,3)層,對區(qū)域i對應的節(jié)點定義一個顯著性變量集合S包含所有的顯著性變量。為了分層推理,最小化下面的能量函數(shù):
其中第二項要求該能量函數(shù)包含兩部分,分別為數(shù)據(jù)項和層次項。數(shù)據(jù)項用來收集各個顯著性置信度,對于每個節(jié)點定義如下:
其中β(k)控制層置信度,并且是由式(3)計算得到的初始化的顯著性值。
層次項控制不同層對應區(qū)域的一致性。ES定義如下:
其中λ(k)控制層與層之間的一致性強度。層次項使得不同層對應區(qū)域的顯著性分配更相似,能夠有效地糾正初始顯著性錯誤。
式(4)中的能量函數(shù)是一個簡單的分層圖模型,采用置信傳播的方法可以實現(xiàn)最優(yōu)化。當能量函數(shù)達到全局最優(yōu)時,便可得到最終的顯著圖。
2、興趣目標分割
在圖像分割領域,SaliencyCut算法是對GrabCut算法的一種改進。GrabCut算法需要用戶在圖像中框選出所要分割的目標,而SaliencyCut算法則利用顯著性檢測來理解用戶期待的目標區(qū)域,從而不需要人工參與就能自動選擇目標區(qū)域??梢钥闯?,SaliencyCut算法與本發(fā)明有著類似的思想,均使用了顯著性檢測來理解和獲取用戶的目標。不同的是,SaliencyCut算法使用了RC顯著性檢測算法,而本發(fā)明使用了效率更高的HS顯著性檢測算法。SaliencyCut算法實現(xiàn)步驟如下。
2.1、興趣區(qū)域初始化
SaliencyCut算法首先對圖像進行顯著性檢測,然后利用顯著圖來生成一個不完全的三值圖(0表示背景像素,128表示未知像素,255表示目標像素)。顯著性值低于閾值的像素被認為背景像素,其余像素被認為可能是目標像素,也有可能是背景像素,對應于三值圖中的未知像素。此時三值圖中值為255的像素個數(shù)為0,之后值為128的像素可被賦為255,因此此處三值圖為不完全的三值圖。初始三值圖中的背景像素用來訓練背景顏色模型,未知像素用來訓練前景顏色模型。在生成不完全的三值圖時,此算法將置信度非常高的非顯著性區(qū)域中的像素作為背景像素。在利用HS算法計算得到的顯著圖生成三值圖時,如果將所有的顯著性值歸一化到[0,255]范圍內(nèi),這個閾值為70。
2.2、興趣區(qū)域分割
初始化步驟完成后,SaliencyCut算法迭代地調(diào)用了GrabCut算法來改進興趣區(qū)域的分割結果(一般最多迭代4次)。每次迭代后,分別對分割結果使用膨脹和腐蝕操作來得到新的三值圖以進行下一次迭代。膨脹后仍然落在外面的區(qū)域像素設成背景像素,腐蝕后仍然落在區(qū)域內(nèi)的像素設為前景像素,其余像素為三值圖中的未知像素。此時,背景像素用來訓練背景顏色模型,前景像素用來訓練前景顏色模型。SaliencyCut算法流程圖如圖2所示。
3、興趣目標的特征提取
在應用HS算法和SaliencyCut算法理解和獲取用戶的興趣目標后,為了對其進行描述,本發(fā)明考慮和比較了若干不同圖像特征,最后使用HSV顏色特征、SIFT局部特征和CNN語義特征相結合的方式從多個不同的角度去描述興趣目標。下面首先給出以上三種特征的提取細節(jié),然后融合這些特征進行圖像相似度計算。
3.1、興趣目標的HSV顏色特征
由于RGB顏色空間與人眼的感知差異較大,因此本文采用更符合人眼感知特性的HSV顏色空間。首先根據(jù)興趣目標分割結果,保留興趣目標區(qū)域的像素;接著將興趣目標中所有像素的(r,g,b)值轉換為(h,s,v)值,并將HSV顏色空間量化成10×8×3=240種顏色;最后用歸一化的240維HSV顏色直方圖描述興趣目標的顏色特征。實驗結果表明,在比較興趣目標的顏色直方圖時,應用HSV顏色特征能夠有效地描述與識別興趣目標。
3.2興趣目標的SIFT特征
鑒于SIFT特征的優(yōu)良特性,本發(fā)明提取出興趣目標的SIFT局部特征。首先采用DoG,Hessian-affine等檢測器檢測出圖像中穩(wěn)定的關鍵點,并且根據(jù)興趣目標分割結果保留興趣目標區(qū)域的關鍵點;然后用128維向量描述興趣目標區(qū)域內(nèi)每個關鍵點周圍16×16區(qū)域的信息。本發(fā)明在獨立的數(shù)據(jù)集上訓練得到20k的視覺詞典,隨之將每個SIFT特征通過最近鄰算法量化成視覺單詞。為了提高召回率,本文采用多分配方法;為了提高精確度,本繁忙采用漢明嵌入,rootSIFT[25]和IDF[2],最終建立一個標準的倒排索引,并利用投票機制進行檢索。在對目標相同背景不同的圖像進行匹配時,利用SIFT特征,能夠有效去除由于背景干擾而產(chǎn)生的錯配對;對于背景相同目標不同的兩幅圖像,雖然在背景區(qū)域能夠產(chǎn)生大量匹配對,但由于本發(fā)明關注的是目標部分,所以背景區(qū)域的匹配對應該給予剔除。
3.3、興趣目標的CNN特征
卷積神經(jīng)網(wǎng)絡(ConvolutionNeural Network,CNN)是一種多層神經(jīng)網(wǎng)絡模型。在底層,提取的特征較原始,層次越高,提取的特征越抽象,在高層已經(jīng)是一種語義組合。這種網(wǎng)絡結構提取的特征對平移變換、旋轉變換、仿射變換等具有高度不變性。為了提取興趣目標的語義特征,本發(fā)明根據(jù)興趣目標的分割結果,用一個矩形框包含興趣目標并將其剪切出來,然后利用MatConvNet工具提取興趣目標的4096維的CNN特征向量,并對該特征向量進行歸一化。仿真實驗表明,提取剪切后興趣目標的特征比提取整體圖像的特征更能夠描述圖像的目標部分。
3.4、基于興趣目標的圖像相似度計算
本發(fā)明使用加權的特征距離計算查詢圖像Q和數(shù)據(jù)庫中每一幅圖像I之間的相似度,然后按照相似度由大到小的順序返回圖像檢索結果。
記Sh(Q,I)為兩幅圖像興趣目標的HSV顏色直方圖相似度,計算如下:
其中,N為直方圖區(qū)間數(shù)。
記Ss(Q,I)為兩幅圖像的興趣目標區(qū)域SIFT匹配數(shù)的得分,匹配點的數(shù)目越多,該得分越高,計算如下:
其中表示圖像Q和I中SIFT特征,表示兩SIFT特征的匹配函數(shù),匹配則為1,不匹配則為0,idf表示倒排文檔頻率,||Q||2表示詞頻的歐式范數(shù)。
記Sc(Q,I)為兩幅圖像興趣目標的CNN特征相似度,采用余弦距離度量,計算如下:
多個特征相似度得分的融合策略有加法、乘法、最大值、最小值法則等?;谝韵聝蓚€原因,本發(fā)明采用乘法法則。第一,前人工作證實乘法法則有不低于加法法則的性能;第二,使用乘法法則時,不同意義的特征組合不需要進行外部特征歸一化。
基于以上三種特征相似度得分以及乘法法則融合策略,查詢圖像Q和數(shù)據(jù)庫中的圖像I之間的相似度定義為
其中wh,ws,wc為上述3個特征對應的權值,滿足wh+ws+wc=1?;诜抡鎸嶒灲Y果,這些參數(shù)默認值取為wh=0.2,ws=0.1,wc=0.7.值得一提的是,可以通過對數(shù)運算操作將式(10)轉化為加法形式以減小計算復雜度。
4、實驗結果及分析
4.1、實驗數(shù)據(jù)庫選擇
目前用于測試圖像檢索算法的常用數(shù)據(jù)庫包括Ukbench、Holidays、Corel-10k、Caltech256等數(shù)據(jù)庫。這些數(shù)據(jù)庫中圖像的內(nèi)容一般填滿整幅圖像區(qū)域,主要用來測試現(xiàn)有基于整體圖像的檢索算法在旋轉不變性、仿射不變性、光照不變性及其他條件下的穩(wěn)定性,或測試算法在語義方面的描述能力。
由于本發(fā)明基于興趣目標來完成圖像檢索任務,為了展示和評估其性能,本發(fā)明選擇了更符合問題背景的SIVAL圖像數(shù)據(jù)庫。該數(shù)據(jù)庫之前主要用于測試多示例學習算法的性能,并可以進一步用于測試基于多示例學習的圖像檢索算法。這個數(shù)據(jù)庫共由1500幅圖像組成,分為25類,每類60幅圖像,同類圖像均含有一個相同的目標,但其背景具有高度多樣性,且目標的空間位置、尺度大小、光照等在不同的圖像中也會發(fā)生很大的變化。數(shù)據(jù)庫將目標相同的圖像歸為一類,因此檢索時需要忽略圖像背景而關注對目標的描述和識別。圖3展示了SIVAL數(shù)據(jù)庫的部分樣例。
對于Ukbench、Holidays、Corel-10k、Caltech256等常用數(shù)據(jù)庫,若在顯著性檢測步驟能夠將圖像整體當作顯著性區(qū)域,則本發(fā)明所提出的檢索模型和現(xiàn)有的圖像檢索模型是等效的。但在實際執(zhí)行檢索時,由于當前的顯著性檢測技術并不傾向于將大塊圖像區(qū)域當作顯著性目標,本發(fā)明的效率會受到影響,此時可通過改進顯著性檢測機理或在本發(fā)明的框架外增加視覺注意力引導步驟來保證最終的檢索效果。
4.2評估指標
評估圖像檢索性能主要有兩個指標:查準率(Precision)和查全率(Recall)。查準率是指系統(tǒng)返回的查詢結果中同類圖像的數(shù)目占返回的圖像數(shù)目的百分比;查全率是指系統(tǒng)返回的查詢結果中同類圖像的數(shù)目占整個圖像數(shù)據(jù)庫中同類圖像數(shù)目的百分比。F-度量(F-Measure)為這兩個指標的調(diào)和平均數(shù),是對查準率和查全率綜合性能的評估。查準率P,查全率R以及F-度量具體計算方法如下:
其中IN為檢索返回的同類圖像數(shù)目,N為檢索返回的圖像數(shù)目,M為數(shù)據(jù)庫中所包含的同類圖像數(shù)目(包括檢索返回的和沒有檢索出來的同類圖像)。參數(shù)β權衡查準率和查全率之間的重要性,由于圖像檢索中查準率和查全率同樣重要,因此,β2一般設定為1。
若用X軸表示查全率,Y軸表示查準率,在設定好返回圖像的數(shù)目時,可得到查準率-查全率(Precision-Recall,PR)曲線。若用X軸表示返回的圖像數(shù)目,Y軸表示F-得分,則可以得到F-度量曲線。
4.3不同顯著性檢測算法的比較
驗證一個顯著性檢測算法的性能最簡單的方法是設置一個閾值Tf∈[0,255]對算法產(chǎn)生的顯著圖進行二值化,從而得到興趣目標的二值分割。為了全面地比較各種顯著性檢測算法凸顯興趣目標的好壞,閾值Tf從0到255動態(tài)地變化。根據(jù)二值化顯著圖與手工標注的目標顯著性區(qū)域進行比較來評估,評估準則采用檢測精度-召回率(Precision-Recall,PR)曲線。檢測精度表示顯著性檢測算法檢測出的目標前景區(qū)域包含的真正的有效前景目標的比例,反映的是顯著性檢測算法檢測前景目標的準確率;召回率表示顯著性檢測算法檢測出的真正有效的前景區(qū)域與圖像中實際的目標前景區(qū)域之間的比例,反映的是顯著性檢測算法檢測出有效前景區(qū)域的完整性。
圖4展示了本發(fā)明所采用HS算法結合SaliencyCut算法提取興趣目標的結果,圖4(a)為輸入圖像,圖4(b)為HS算法檢測得到的顯著圖,圖4(c)是基于顯著圖分割出興趣目標的結果,圖4(d)是人工標注的興趣目標區(qū)域。可以看出,最終的顯著性區(qū)域均可以有效指向興趣目標。
圖5給出了HS算法與其他4種顯著性檢測算法(IT,SR,HFT,RC)在SIVAL數(shù)據(jù)庫上的性能表現(xiàn)??梢钥闯?,HS算法能夠取得最佳的效果。在具體細節(jié)上,由IT算法生成的顯著圖雖然可以得到興趣目標的位置,但興趣目標的尺寸和范圍無法確定,獲取的區(qū)域中往往包含大量的背景區(qū)域;SR算法關注的是圖像特征變化比較劇烈的部分,因此對紋理不豐富、對比不明顯的圖像提取顯著圖效果較差;HFT算法是在頻域上對圖像的振幅譜進行尺度空間分析,并重組分析后的振幅譜、相位譜和能量譜,因此該算法檢測出來的顯著性區(qū)域常會出現(xiàn)空心化;RC算法考慮的是空間加權和區(qū)域的全局對比度因素,對背景比較復雜的圖像效果也不好。綜上,本發(fā)明選擇HS算法來完成對圖像的顯著性檢測。
4.4、基于顯著圖的不同分割方法比較
基于顯著圖分割出興趣目標的傳統(tǒng)方法是設定一個經(jīng)驗閾值Tf∈[0,255]對顯著圖進行二值化。該方法稱為固定閾值分割法(Fixed Threshold Cut,F(xiàn)TC)。另一種傳統(tǒng)方法是自動閾值分割法(Automatic Threshold Cut,ATC)。圖6給出了SaliencyCut算法與以上兩種閾值分割算法的比較結果.分割效果的評估采用精度(Precision),召回率(Recall),F(xiàn)-度量這三項指標。本實施例中,由于分割精度和召回率對興趣目標的特征提取同樣重要,因而式(11)中的β2設為1。
4.5基于興趣目標與基于整體圖像的檢索效果比較
興趣目標的每一種特征都可以單獨用于匹配檢索。為了展現(xiàn)基于興趣目標的檢索算法的優(yōu)越性,本發(fā)明分別提取整體圖像和興趣目標的HSV顏色特征、SIFT局部特征和CNN語義特征。對于不同特征,分別比較基于興趣目標的檢索算法和基于整體圖像的檢索算法。SIVAL數(shù)據(jù)庫上每一幅圖像都作為查詢圖像,并將所有的查詢結果進行統(tǒng)計計算。圖7給出了檢索效果的PR曲線圖??梢钥闯?,對于不同特征,基于興趣目標的檢索算法都能夠大幅度提升檢索效果。相比于SIFT特征和CNN特征,HSV特征對檢索效果提升的幅度稍低。這是因為顏色特征容易受到光照、噪聲等因素影響,并且圖像庫中某些不同類別的顏色比較相似,而有些類別類內(nèi)的顏色差異卻較大。CNN語義特征和SIFT局部特征都具有優(yōu)秀的區(qū)分力,在去除圖像背景區(qū)域的影響后,對興趣目標的檢索性能均得到了較大提升。
4.6多特征組合與單一特征檢索效果比較
單一的特征可能在某些樣本上效果比較好,但在另外一些樣本上效果會變差。為此,一般通過多特征組合的方式來進行圖像檢索。為了研究不同特征組合的貢獻,本發(fā)明分別提取圖像中興趣目標的HSV顏色特征、SIFT局部特征和CNN語義特征,并且比較這三種特征以及它們組合特征的檢索效果。從圖8中可以得出兩個主要結論:1)僅僅使用單一特征很難獲得較好的檢索效果.在本實施例中,CNN特征和SIFT特征的檢索效果相當,優(yōu)于HSV特征;2)兩個或者三個特征的組合,會明顯提高檢索效果,CNN特征和SIFT特征組合的檢索效果比其他兩兩特征組合的效果要好,三個特征相組合的檢索效果達到最佳。
4.7、本發(fā)明與現(xiàn)有檢索算法的比較
依據(jù)4.6節(jié)的實驗結果與分析,本實施例選取HSV,SIFT,CNN三種特征的聯(lián)合形式來描述興趣目標,然后通過相似度計算完成基于興趣目標的圖像檢索。為了可客觀地測評本發(fā)明,本實施例提取整體圖像的HSV特征、SIFT特征、CNN特征,并將這三種特征的聯(lián)合形式來描述整體圖像,從而實現(xiàn)了一種基于整體圖像的基準檢索方法。圖9展示了本發(fā)明和基準算法的檢索樣例,對檢索結果的觀察可以看出,在返回的前28張圖像中,本發(fā)明檢索出的圖像中的興趣目標均與查詢圖像中的興趣目標(花盆)相同,見圖9(a)所示,而基準算法檢索出的圖像均在背景上(藍色椅子)與查詢圖像相同,見圖9(b)所示??梢?,基準算法無助于解決用戶的實際問題。
為了進一步評估本發(fā)發(fā)明的性能,本實施例遴選了如下的檢索算法作參照:1)HE算法。該算法在局部圖像描述子中融入了漢明嵌入,并采用投票機制進行圖像匹配檢索;2)c-MI算法。該算法在基于詞袋的圖像檢索模型中加入了局部顏色特征,在對圖像中關鍵點進行匹配時,不僅需要SIFT特征匹配,同時也需要局部顏色特征匹配;3)CDH算法。該算法融合了圖像的邊緣方向信息、顏色信息、顏色差異信息以及空間布局信息,形成了一種新的視覺特征描述符,并以此來進行圖像檢索;4)MSD算法。該算法融合了圖像的顏色信息、紋理信息、形狀信息和顏色布局信息,生成了一種稱作微結構的圖像特征描述符;5)SSH算法。該算法在對圖像的顏色信息、亮度信息和邊緣方向信息進行描述時,融入了視覺注意內(nèi)核和神經(jīng)元的方向選擇機制,提出了一種新的圖像特征描述符,稱為顯著性結構直方圖。
圖10給出了本發(fā)明與比較算法的PR曲線圖和F-度量曲線圖。可以看出,本發(fā)明的效果明顯高于其他算法及基準算法。分析這些比較算法可知,這些算法都是提取整體圖像的特征,在進行檢索時,檢索效果都嚴重受到了背景的干擾。而本發(fā)明先采用HS算法結合SaliencyCut算法來理解和獲取用戶的興趣目標,并且僅針對興趣目標進行特征描述.選取的HSV特征、SIFT特征和CNN特征的描述力較強,且這三種特征均具有旋轉不變性、仿射不變性等特性。因而本發(fā)明能夠較好地解決“這是什么東西”這類檢索任務,彌補了現(xiàn)有的圖像檢索算法的不足。
5、結論
在用戶使用現(xiàn)有的圖像搜索引擎查詢一幅圖像時,通常是想識別圖像中他們所感興趣的目標或者返回與興趣目標相關的圖像。然而,當前圖像檢索算法大多根據(jù)整體圖像的特征來設計,很難滿足這種需求。特別地,當圖像中興趣目標比較小時,即便根據(jù)語義特征來檢索也不能有效解決用戶的問題。為此,本發(fā)明提出的基于興趣目標的圖像檢索方法,首先以圖像顯著性檢測來理解用戶的興趣目標,這是因為用戶一般會有意識地將其所關注的目標以顯眼的方式來呈現(xiàn);接著結合基于顯著性的分割算法分割出該興趣目標;然后針對興趣目標提取特征;最后將其與數(shù)據(jù)庫圖像進行相似度計算并根據(jù)相似度排序返回檢索結果。通過仿真實驗,本發(fā)明分析與比較了各種特征以及組合特征的檢索效果,最終遴選了興趣目標的HSV顏色特征、SIFT局部特征和CNN語義特征,并以這些特征的組合形式進行基于興趣目標的圖像檢索。在測試數(shù)據(jù)庫選擇方面,選擇了更符合問題背景的SIVAL數(shù)據(jù)庫。在不同特征相似度得分進行融合時,采用了乘法法則融合策略。實驗結果表明,本發(fā)明提出的檢索算法與基于整體圖像的檢索算法相比,在解決興趣目標識別的任務上具有更佳的性能。
以上所述僅是本發(fā)明的優(yōu)選實施方式,并不用于限制本發(fā)明,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明技術原理的前提下,還可以做出若干改進和變型,這些改進和變型也應視為本發(fā)明的保護范圍。