亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種目標搜索方法

文檔序號:6433123閱讀:181來源:國知局
專利名稱:一種目標搜索方法
技術(shù)領(lǐng)域
本發(fā)明屬于計算機視覺技術(shù)領(lǐng)域,特別涉及一種目標搜索方法。
背景技術(shù)
科學技術(shù)的不斷發(fā)展使得各類信息量急劇增長,如何使計算機有效地處理多媒體信息,從中獲取需要的信息是亟待解決的問題。而人眼能夠?qū)M入視網(wǎng)膜的海量信息很快做出反應(yīng),因此希望能夠模擬人類的視覺處理機制從大量、冗余的復雜場景數(shù)字圖像數(shù)據(jù)中快速、準確地獲取我們尋找的目標區(qū)域,提高數(shù)字圖像處理的效率和準確性。1998年 Itti和Koch等人提出了一種自底向上的選擇性注意模型——Itti模型,具體可參見文獻 L Itti,C. Koch. Ε. Niebur. A model of saliency-based visual attention for rapid scene analysis. Pattern Analysis and Machine Intelligence,IEEE Transactions on, 1998,20(11) :1254-1259.這種方法充分利用了濾波器的思想并且模擬了視覺生理機制中的感受野的中央外周機制機返回抑制機制,形成了一個擬生理結(jié)構(gòu)的計算模型。從整體來說,它基本完成了對初期視覺注意機制的建模,對于研究生理意義上的視覺選擇性注意機制有重要的意義。但是用該模型僅利用了圖像本身的信息,忽略了搜索任務(wù)對人眼的調(diào)制, 因此對目標顯著區(qū)域的檢測準確性低。在文獻Antonio Torralba, Aude Oliva, Monica S. Castelhano. Contextual Guidance of Eye Movement and Attention in Real—World Scenes :The Role ofGlobal Features in Object Search. Psychological Review,2006, Vol. 113,No. 4,766-786,提出了一種采用高斯濾波獲取圖像全局信息的計算方法,通過學習獲取圖像全局信息與目標坐標的分布函數(shù),同時采用指數(shù)分布函數(shù)模擬圖像局部信息的分布,結(jié)合兩個分布函數(shù)之積獲取人眼的注視位置。但是該模型計算全局信息的過程中忽略了人眼在獲取圖像全局信息中的多尺度特性,不符合人眼在圖像中的目標搜索過程,沒有準確地同局部信息結(jié)合。

發(fā)明內(nèi)容
本發(fā)明的目的是為了解決現(xiàn)有的注意模型對復雜場景中目標搜索時存在的缺陷, 提出了一種目標搜索方法。本發(fā)明的技術(shù)方案是一種目標搜索方法,包括對訓練圖像進行訓練的步驟和對目標圖像進行搜索的步驟,其中,對訓練圖像進行訓練的步驟具體包括如下分步驟Si.小波變換對訓練圖像進行小波變換,分別獲得每個訓練圖像的高頻成分矩陣和低頻成分矩陣;S2.高斯濾波分別對每個訓練圖像高頻成分矩陣和低頻成分矩陣進行高斯濾波得到每個訓練圖像的高頻全局特征和低頻全局特征;S3.主分量提取采用PCA算法分別提取訓練圖像的高頻全局特征和低頻全局特征的主分量;S4.確定分布函數(shù)從訓練圖像中選取若干個圖像,利用步驟S3得到的高頻全局
3特征和低頻全局特征的主分量與若干個圖像的目標坐標,通過EM算法學習得到混合高斯函數(shù)的參數(shù),確定分布函數(shù)。對目標圖像進行搜索的步驟具體包括如下分步驟S5.提取全局特征向量對目標圖像進行小波變換,分別獲得目標圖像的高頻成分矩陣和低頻成分矩陣;對獲得的高頻成分矩陣和低頻成分矩陣進行高斯濾波得到目標圖像的高頻全局特征和低頻全局特征;將得到的高頻全局特征和低頻全局特征分別映射到步驟S3得到的高頻全局特征和低頻全局特征的主分量,獲得高頻全局特征向量和低頻全局特征向量;S6.獲取目標分布圖像分別將步驟S5得到的高頻全局特征向量和目標圖像的坐標矩陣以及步驟S5得到的低頻全局特征向量和目標圖像的坐標矩陣輸入到步驟S4得到的分布函數(shù),確定高頻分布矩陣和低頻分布矩陣,將高頻分布矩陣和低頻分布矩陣進行疊加得到分布矩陣,將分布矩陣與目標圖相乘得到目標分布圖像;S7.特征提取從步驟S6得到的目標分布圖像提取兩個顏色特征金字塔,強度特征金字塔以及四個方向特征金字塔;S8.特征疊加對步驟S7得到的7個特征金字塔分別進行中央-周邊操作和規(guī)范化,得到7個子特征金字塔,分別對顏色,強度,方向的特征金字塔進行疊加,得到3個特征圖,對得到的3個特征圖進行規(guī)范化,然后對規(guī)范化后的3個特征圖進行疊加,得到一幅顯著圖。本發(fā)明的有益效果本發(fā)明基于人類大腦視覺信息處理機制,模擬人眼搜索過程提出了一種目標搜索方法。本發(fā)明的方法通過小波變換模擬人眼在全局特征提取中的多尺度特性,再采用高斯濾波獲取高頻和低頻全局特征,利用圖像全局特征與目標位置的分布函數(shù)得到目標分布圖像,再從中提取強度特征金字塔、顏色特征金字塔以及方向特征金字塔,整合成為一幅顯著圖。本發(fā)明的方法通過高斯濾波獲取圖像的全局信息,通過訓練圖像全局特征與目標位置得到的分布函數(shù)模擬圖像中的目標對人眼注意的自頂向下的調(diào)制,提取強度,顏色,方向等特征模擬自底向上的調(diào)制,更準確的模擬了人眼搜索過程,同時在獲取圖像全局信息的過程中考慮了人眼的多尺度特性,更合人眼視覺習慣,提高了結(jié)果的準確性。


圖1是本發(fā)明目標搜索方法的流程示意圖。圖2是本發(fā)明的方法對一幅自然圖像進行目標搜索的顯著圖與經(jīng)典模型檢測作比較的結(jié)果圖。
具體實施例方式下面結(jié)合附圖和具體的實施例對本發(fā)明做進一步的闡述。本發(fā)明模擬人眼搜索過程,先計算場景的全局信息引導注意轉(zhuǎn)移到目標可能存在區(qū)域,再由目標可能存在區(qū)域的局部的細節(jié)信息搜索目標。下面以一幅自然場景的目標搜索進行具體說明。如圖加所示,首先從圖片庫中選出一幅自然圖像作為目標圖像,圖像大小為600X800。具體搜索方法的流程如圖1所示,具體過程如下其中訓練圖像的數(shù)目為2000幅,訓練圖像的大小為1280X1400且所有訓練圖像
中目標的位置坐標已標定。Si.小波變換對訓練圖像進行小波變換,獲得高頻成分矩陣和低頻成分矩陣;這里的小波變換指的是先對訓練圖像進行小波分解,然后再分別對高頻系數(shù)和低頻系數(shù)分別重構(gòu),進而獲得高頻成分矩陣和低頻成分矩陣,在本實施例中即將彩色訓練圖像進行尺度調(diào)整和灰度處理后,通過復數(shù)小波進行一層小波分解,獲得六個方向(30°, 60°,90°,120°,150°,180° )的高頻系數(shù)和以兩個低頻系數(shù)。重構(gòu)這六個方向的高頻系數(shù),然后將所有的高頻成分線性疊加起來后量化編碼得到一個高頻成分矩陣;將低頻系數(shù)重構(gòu)并線性疊加然后量化編碼可以得到低頻成分矩陣;S2.高斯濾波分別對每個訓練圖像的高頻成分矩陣和低頻成分矩陣進行高斯濾波得到每個訓練圖像的高頻全局特征和低頻全局特征;這里的高斯濾波具體為進行四個尺度六個方向的高斯濾波,即是分別將高頻和低頻成分矩陣同六個方向的高斯金字塔卷積,六個方向具體為(30°,60°,90°,120°, 150°,180° )。這里的金字塔為4層,其中第0層是訓練圖像,1到3層分別是用離散高斯濾波器對訓練圖像進行濾波和采樣形成的,大小為訓練圖像的1/2到1/16。對高頻和低頻高斯金字塔分別進行采樣,每個方向的每一層采樣后為1X16的向量,最終得到兩個1X384 的向量,分別對應(yīng)訓練圖像的高頻和低頻的全局特征。S3.主分量提取采用PCA算法分別提取訓練圖像的高頻全局特征和低頻全局特征的主分量;將所有訓練圖像的高頻和低頻的全局特征分別組合為兩個全局特征矩陣,矩陣大小為2000X384。用PCA算法對兩個矩陣分別進行主成份分析,提取前100個主分量,得到高頻全局特征和低頻全局特征的主分量,大小為100X384。這里,PCA算法具體可參考文獻Hancock PJB, Baddeley R J, Smith L S. The principal components of natural images. Network Computation in Neural Systems, 1992,3 :61-71oS4.確定分布函數(shù)從訓練圖像中選取500幅圖像,利用步驟S3得到的高頻全局特征和低頻全局特征的主分量與若干個圖像的目標坐標,通過EM算法學習得到混合高斯函數(shù)的參數(shù),確定分布函數(shù);這里,EM算法具體可參考文獻Arthur Dempster, Nan Laird, and Donald Rubin. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B,39(1) :1_38,19770這里的分布函數(shù)是圖像的全局特征與目標位置坐標的聯(lián)合概率分布函數(shù),即式 (1)的P(x,GlO= 1),用混合高斯函數(shù)模擬,如式(1)所示,其中0= 1代表圖像中目標存在,X代表目標坐標,G代表圖像全局信息,P(X,G|0= 1)代表在目標存在的情況下,目標的坐標和圖像全局信息的聯(lián)合分布函數(shù)4表示高斯函數(shù),μ 和An分別表示坐標高斯函數(shù)的均值向量和協(xié)方差矩陣,( 和Yn分別代表全局信息高斯函數(shù)的均值向量和協(xié)方差矩陣,
N
JIn表示權(quán)重且=1,N = 4。
5
P(X, G|C = 1) = X P{n)P{X | n)P{G | ) = Χ πηφ{(diào)Χ· μη, Λ 么,&)式
η=\η=\
(ι)采用EM算法,用目標位置坐標和步驟S3獲得的主分量估計μη,An, ζ η, ^和
Π η。S5.提取全局特征向量對目標圖像進行小波變換,分別獲得目標圖像的高頻成分矩陣和低頻成分矩陣;對獲得的高頻成分矩陣和低頻成分矩陣進行高斯濾波得到目標圖像的高頻全局特征和低頻全局特征;將得到的高頻全局特征和低頻全局特征分別映射到步驟S2得到的高頻全局特征和低頻全局特征的主分量,獲得高頻全局特征向量和低頻全局特征向量;這里的高斯濾波具體為進行四個尺度六個方向的高斯濾波,即是分別將高頻和低頻成分矩陣同六個方向的高斯金字塔卷積,六個方向具體為(30°,60°,90°,120°, 150°,180° )。這里的金字塔為4層,其中第0層是目標圖像,1到3層分別是用離散高斯濾波器對目標圖像進行濾波和采樣形成的,大小為目標圖像的1/2到1/16。對高頻和低頻高斯金字塔分別進行采樣,每個方向的每一層采樣后為1X16的向量,最終得到兩個1X384 的向量,分別對應(yīng)目標圖像的高頻和低頻的全局特征。S6.獲取目標分布圖像分別將步驟S5得到的高頻全局特征向量和目標圖像的坐標矩陣以及步驟S5得到的低頻全局特征向量和目標圖像的坐標矩陣輸入到步驟S4得到的分布函數(shù),確定高頻分布矩陣和低頻分布矩陣,將高頻分布矩陣和低頻分布矩陣進行疊加得到分布矩陣,將分布矩陣與目標圖相乘得到目標分布圖像;這里的坐標點矩陣大小為74X99,通過對600X800的坐標位置矩陣采樣得到,采樣率為8.S7.特征提取從步驟S5得到的目標分布圖像提取兩個顏色特征金字塔,強度特征金字塔以及四個方向特征金字塔;其中,強度特征是由紅、綠、藍三種顏色分量的平均值得到;方向特征是其使用四個方向(0°,45°,90°,135° )的Gabor濾波器直接對強度特征進行濾波,即可得到四個方向(0°,45°,90°,135° )上的方向特征映射圖;顏色特征分別計算對應(yīng)于紅-綠/ 綠-紅色對的特征圖MKe和對應(yīng)于藍-黃/黃-藍色對的特征圖Mby,以像素點Q00200)為例,對應(yīng)的紅、綠、藍顏色值為0. 5529,0. 8078,0. 1569,那么這個點的Mffi就是紅、綠顏色矩陣值相減再除以紅、綠、藍三個值中最大的值,即0.3155,如果紅、綠、藍三個值中最大的值小于0. 1,則Mby和Mffi都歸零,進而可以得到兩個顏色特征金字塔、四個方向特征金字塔和一個強度特征金字塔。S8.特征疊加對得到的7個特征金字塔分別進行中央-周邊操作和規(guī)范化,得到 7個子特征金字塔,分別對顏色,強度,方向的特征金字塔進行疊加,得到3個特征圖,對得到的3個特征圖進行規(guī)范化,然后對規(guī)范化后的3個特征圖進行疊加,得到一幅目標顯著圖。中央-周邊操作和規(guī)范化可參考文獻L. Itti,C. Koch, Ε. Niebur, A model of saliency-based visual attention for rapid scene analysis, Pattern Analysis and Machine Intelligence, IEEE Transactions on,1998,Vol. 20 (11),1254—1259。具體過程如下中央-周邊操作是在兩個金字塔層之間進行,將高層金字塔圖像利用插值放大到低層圖像的尺寸,再對兩圖像進行點對點的減法操作。由視覺尺度問題知道,金字塔的不同層對應(yīng)了視覺中的不同尺度,金字塔的低層稱為主尺度,與該主尺度相差的層數(shù)稱為尺度差,令主尺度c e {1,2,3},周邊尺度s = c+δ,δ =2,δ即為尺度差,通過計算不同尺度和尺度差的高斯差圖像,來提取圖像的信息。中央-周邊操作高斯金字塔后可以得到3個子特征金字塔,即為21個不同尺度的子特征映射圖。由于對單幅獨立圖像進行顯著區(qū)域提取,沒有先驗知識,通過規(guī)范化算子Ν( ·)來增強顯著峰較少的特征圖,同時削弱存在大量顯著峰的特征圖,在特征映射圖中,存在最顯著區(qū)域(顯著性最大)和其它一些較感興趣(顯著性局部極大)。根據(jù)皮層中的側(cè)抑制機制,當這一最顯著值與局部顯著值差值較小時,則認為特征圖中的顯著區(qū)域顯著性并不獨特,相反,若差值較大,則認為顯著性大的區(qū)域的確有很高的顯著性。因此需要將映射圖規(guī)范化,首先計算特征映射圖的全局最大值Μ,將映射圖歸一化到
的區(qū)間內(nèi),然后計算映射圖中除M之外的所有局部最大值的平均值^,用(Μ-S)2乘以特征圖。對3個子特征金字塔分別進行疊加,得到3個特征圖,對得到的3個特征圖進行規(guī)范化,然后對規(guī)范化后的3個特征圖進行疊加,得到一幅顯著圖,具體為21個不同尺度的子特征映射圖具體分為兩類顏色特征映射圖、一類強度特征映射圖、四類方向特征映射圖, 每類特征包含3個子特征映射圖,一共21個子特征映射圖。將每類特征里面的3個子特征映射圖進行點對點相加后規(guī)格化處理,得到一個特征映射圖;如果某種特征不止一類特征映射圖,例如顏色特征有兩類特征映射圖,則這兩類特征映射圖再相加,得到顏色特征映射圖。圖2為采用本發(fā)明方法對自然圖像進行目標搜索,將結(jié)果與人類眼動數(shù)據(jù)構(gòu)成的顯著圖和單一計算局部信息經(jīng)典的Itti模型和單一用全局信息的自頂向下模型對比的圖組。其中2a.輸入自然圖像,2b.人眼顯著圖,2c.通過全局信息獲取的目標分布圖像, 2d. Itti模型檢測所得顯著圖像,2e.本方法檢測得到的顯著圖。從圖中可以看出,基于全局信息的自頂向下模型能將檢測出目標可能存在的區(qū)域的縱坐標,并不能分辨出水平方向的不同區(qū)域。Itti模型包含了很多非人眼注視區(qū)域,本發(fā)明的方法計算得到的顯著圖與人類顯著圖更接近,證明了該方法在顯著檢測中的可行性。本領(lǐng)域的普通技術(shù)人員將會意識到,這里所述的實施例是為了幫助讀者理解本發(fā)明的原理,應(yīng)被理解為本發(fā)明的保護范圍并不局限于這樣的特別陳述和實施例。本領(lǐng)域的普通技術(shù)人員可以根據(jù)本發(fā)明公開的這些技術(shù)啟示做出各種不脫離本發(fā)明實質(zhì)的其它各種具體變形和組合,這些變形和組合仍然在本發(fā)明的保護范圍內(nèi)。
權(quán)利要求
1. 一種目標搜索方法,包括對訓練圖像進行訓練的步驟和對目標圖像進行搜索的步驟,其中,對訓練圖像進行訓練的步驟具體包括如下分步驟S1.小波變換對訓練圖像進行小波變換,分別獲得每個訓練圖像的高頻成分矩陣和低頻成分矩陣;S2.高斯濾波分別對每個訓練圖像高頻成分矩陣和低頻成分矩陣進行高斯濾波得到每個訓練圖像的高頻全局特征和低頻全局特征;S3.主分量提取采用PCA算法分別提取訓練圖像的高頻全局特征和低頻全局特征的主分量;S4.確定分布函數(shù)從訓練圖像中選取若干個圖像,利用步驟S3得到的高頻全局特征和低頻全局特征的主分量與若干個圖像的目標坐標,通過EM算法學習得到混合高斯函數(shù)的參數(shù),確定分布函數(shù)。對目標圖像進行搜索的步驟具體包括如下分步驟S5.提取全局特征向量對目標圖像進行小波變換,分別獲得目標圖像的高頻成分矩陣和低頻成分矩陣;對獲得的高頻成分矩陣和低頻成分矩陣進行高斯濾波得到目標圖像的高頻全局特征和低頻全局特征;將得到的高頻全局特征和低頻全局特征分別映射到步驟 S3得到的高頻全局特征和低頻全局特征的主分量,獲得高頻全局特征向量和低頻全局特征向量;S6.獲取目標分布圖像分別將步驟S5得到的高頻全局特征向量和目標圖像的坐標矩陣以及步驟S5得到的低頻全局特征向量和目標圖像的坐標矩陣輸入到步驟S4得到的分布函數(shù),確定高頻分布矩陣和低頻分布矩陣,將高頻分布矩陣和低頻分布矩陣進行疊加得到分布矩陣,將分布矩陣與目標圖相乘得到目標分布圖像;S7.特征提取從步驟S6得到的目標分布圖像提取兩個顏色特征金字塔,強度特征金字塔以及四個方向特征金字塔;S8.特征疊加對步驟S7得到的7個特征金字塔分別進行中央-周邊操作和規(guī)范化,得到7個子特征金字塔,分別對顏色,強度,方向的特征金字塔進行疊加,得到3個特征圖,對得到的3個特征圖進行規(guī)范化,然后對規(guī)范化后的3個特征圖進行疊加,得到一幅顯著圖。
全文摘要
本發(fā)明屬于計算機視覺技術(shù)領(lǐng)域,公開了一種目標搜索方法。具體包括小波變換、高斯濾波、主分量提取、確定分布函數(shù)、提取全局特征向量、獲取目標分布圖像、特征提取和特征疊加步驟。本發(fā)明的方法通過高斯濾波獲取圖像的全局信息,通過訓練圖像全局特征與目標位置得到的分布函數(shù)模擬圖像中的目標對人眼注意的自頂向下的調(diào)制,提取強度,顏色,方向等特征模擬自底向上的調(diào)制,更準確的模擬了人眼搜索過程,同時在獲取圖像全局信息的過程中考慮了人眼的多尺度特性,更適合人眼視覺習慣,提高了結(jié)果的準確性。
文檔編號G06K9/66GK102339393SQ20111027123
公開日2012年2月1日 申請日期2011年9月14日 優(yōu)先權(quán)日2011年9月14日
發(fā)明者何琦, 李朝義, 李永杰 申請人:電子科技大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1