專利名稱:基于非負矩陣分解的相關(guān)反饋圖像檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于非負矩陣分解的相關(guān)反饋圖像檢索方法,涉及模式識別、矩陣分析和圖像檢索等領(lǐng)域,能直接應(yīng)用于基于內(nèi)容的圖像檢索。
背景技術(shù):
上個世紀后期,隨著大規(guī)模圖像數(shù)據(jù)庫的不斷涌現(xiàn),對于如此大數(shù)據(jù)量的管理和有效的應(yīng)用逐漸引起人們的重視,圖像檢索也成為研究的熱點。最初的圖像檢索技術(shù)是基于文本的檢索技術(shù),這種技術(shù)的框架就是首先用文本來標注圖像,然后使用基于文本的數(shù)據(jù)庫管理系統(tǒng)來進行圖像檢索,但是這種方法存在著兩個缺陷1、對大規(guī)模的圖像數(shù)據(jù)庫進行人工標注需要大量的人力,物力和財力,2、人工標注的主觀性非常強,對于同樣的一副圖像,不同的人可能就有不同的感覺。到了90年代,為了克服這兩個缺點,基于內(nèi)容的圖像檢索(content-based imageretrieval,CBIR)應(yīng)運而生。CBIR的實際意義就是讓用戶根據(jù)自己所要檢索的圖像內(nèi)容和含義,在圖像庫中直觀地進行檢索并判別圖像滿足自己的需要程度。
當前成熟的基于內(nèi)容的圖像檢索系統(tǒng)在對圖像內(nèi)容進行描述的時候,大多直接從圖像中分析抽取底層視覺特征,例如圖像的顏色、形狀、紋理、空間關(guān)系等,而在這些底層視覺特征基礎(chǔ)上建立的圖像描述模型中,而對圖像數(shù)據(jù)的描述一般以統(tǒng)計數(shù)據(jù)的形式出現(xiàn),這些數(shù)據(jù)與人對圖像內(nèi)容的理解有著很大的差異。1、人具有學(xué)習(xí)的能力,對圖像內(nèi)容的理解并不僅僅依靠統(tǒng)計進行;2、圖像的內(nèi)容具有模糊性,不能簡單的用特征向量來描述;3、人對圖像內(nèi)容的理解無法直接從圖像的數(shù)據(jù)中獲得,而要根據(jù)人的知識來判斷,這個過程結(jié)合了日常生活中積累的大量的經(jīng)驗,而底層特征無法反應(yīng)這些經(jīng)驗知識。因此在傳統(tǒng)的底層視覺特征基礎(chǔ)上的圖像檢索并不能取得良好的效果。劉忠偉等(劉忠偉,章毓晉基于特征的圖象查詢和檢索系統(tǒng)應(yīng)用基礎(chǔ)及工程學(xué)學(xué)報2000.8(1)69-77)探討了利用顏色、紋理、形狀等單一特征以及綜合利用不同特征的查詢和檢索方法。但由于使用的特征都是底層的視覺特征,無法提供準確的語義描述。為解決該問題,必須提供有效的圖像語義的表達方式,即如何表達圖像的內(nèi)容,使其與人對圖像內(nèi)容的理解一致;此外還必須有提取圖像語義表達的方法,即如何通過學(xué)習(xí)來獲取圖像語義,實現(xiàn)底層視覺特征和高層語義之間的映射。
相關(guān)反饋技術(shù)可以看作是連接底層視覺特征和高層語義之間的橋梁,這種方法具體過程是系統(tǒng)首先返回一組結(jié)果圖像,通過交互反饋信息自動分析最能表征查詢目標的特征,自動調(diào)整相似度的度量方法,然后進行新的查詢,如此多次反饋,最終得到滿意的結(jié)果。相關(guān)反饋可以起到兩個作用,一是逐步把握真正的檢索需求;二是逐步建立特定語義與底層視覺特征的對應(yīng),或是修正與圖像關(guān)聯(lián)的高層概念。
最初的相關(guān)反饋方法是從信息檢索中直接借用過來的,其算法是基于底層特征的,不能有效的提取圖像的語義特征。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對上述相關(guān)反饋技術(shù)的不足,提出一種基于非負矩陣分解(Non-negative Matrix Factorization)的相關(guān)反饋方法,用于圖像的自動檢索,提高檢索精度。
為實現(xiàn)這樣的目的,本發(fā)明利用初次檢索返回的結(jié)果來構(gòu)建相關(guān)類圖像矩陣,應(yīng)用非負矩陣分解訓(xùn)練算法對該矩陣進行矩陣分解,得到語義空間的基矩陣和系數(shù)矩陣,對系數(shù)矩陣求取均值,生成代表該語義類的語義特征,然后通過非負矩陣分解測試算法將圖像庫中所有圖像在此語義空間進行投影,得到所有圖像的語義特征,求取所有圖像的語義特征和該語義類特征的相似性,并按照相似性的大小返回出結(jié)果圖像,如未滿足檢索要求,重復(fù)反饋,給出最終的檢索結(jié)果。
本發(fā)明的基于非負矩陣分解的相關(guān)反饋圖像檢索系統(tǒng)的實現(xiàn)方法按如下步驟進行1.初始檢索針對檢索圖像,提取色度-飽和度混合直方圖特征,局部累加直方圖特征,基于小波模極大值的形狀特征,基于Gabor濾波器的紋理特征,并通過歸一化形成綜合的底層視覺特征,與圖像庫中所有圖像形成的特征庫進行相似性度量,按照相似性的大小進行排序,將與檢索圖像最相似的若干幅圖像返回。
2.構(gòu)造待分解矩陣將檢索返回的圖像進行分類,分成相關(guān)圖像類和非相關(guān)圖像類,并將相關(guān)圖像類和檢索圖像的底層視覺特征組合為待分解相關(guān)圖像矩陣,該矩陣的每一列對應(yīng)于一個圖像,每一行對應(yīng)于特征的一個分量,該矩陣就代表和檢索圖像處于相同語義類的圖像。
3.基和語義類特征的生成應(yīng)用非負矩陣分解訓(xùn)練算法對待分解相關(guān)圖像矩陣進行分解,經(jīng)過迭代收斂后得到基矩陣和系數(shù)矩陣,用該基矩陣張成語義空間,因為系數(shù)矩陣是相同語義類在此語義空間的投影,所以可求取系數(shù)矩陣的均值,來生成代表該語義類的語義特征,語義特征的維數(shù)r的取值要滿足(n+m)r<nm,此處n代表底層視覺特征的維數(shù),m代表相關(guān)圖像的個數(shù)。使得語義特征的維數(shù)大大降低,減小了相似性度量的計算量。
4.圖像庫中所有圖像語義特征的生成將圖像庫中所有圖像的綜合底層視覺特征構(gòu)造一個待分解矩陣。這里同樣利用上步中的非負矩陣分解訓(xùn)練算法生成的基矩陣構(gòu)造的語義空間,通過非負矩陣分解測試算法來計算圖像庫中所有圖像的語義特征,即固定非負矩陣分解訓(xùn)練算法得到的基矩陣,通過同樣的迭代過程對系數(shù)矩陣進行更新來得到所有圖像的語義特征。
5.相似性度量及結(jié)果返回先將前次返回的相關(guān)圖像記憶下來優(yōu)先返回,再計算所有圖像的語義特征和該語義類特征的相似性,按照相似性的大小進行排序,將與檢索圖像最相似的其余若干副圖像返回。
6.利用人機交互反饋平臺,重復(fù)上面的2-5步,直到滿足檢索需求為止,并給出最終的檢索結(jié)果。
在實際應(yīng)用中,當通過該系統(tǒng)輸入檢索圖像,首先返回一組結(jié)果圖像,系統(tǒng)從反饋信息中自動構(gòu)建該語義類特征空間,生成語義特征,進行相似性的度量,反饋回結(jié)果圖像,然后進行新的構(gòu)建,如此多次反饋,最終得到滿意的結(jié)果,從而提高檢索的準確率。
本發(fā)明的方法能夠獲得較高的檢索準確率。由于充分利用人機交互反饋信息,能更好地模擬人對于圖像的感覺,使得生成的語義空間能更好的吻合圖像檢索的要求。在一些初始檢索效果不好,要求反饋次數(shù)少便能給出較好效果的應(yīng)用中,本發(fā)明的方法更具有使用價值。
本發(fā)明建立的基于非負矩陣分解的相關(guān)反饋圖像檢索系統(tǒng),可以用于基于圖像內(nèi)容和語義的檢索,能較準確的檢索出所需要的圖像。
圖1為本發(fā)明實施例的初次檢索結(jié)果示意圖。
圖2為本發(fā)明實施例的第一次反饋檢索結(jié)果示意圖。
圖3為本發(fā)明實施例的第二次反饋檢索結(jié)果示意圖。
圖4為本發(fā)明實施例的第三次反饋檢索結(jié)果示意圖。
具體實施例方式
以下結(jié)合具體的實施例對本發(fā)明的技術(shù)方案作進一步詳細描述。
本發(fā)明實施例采用的圖像數(shù)據(jù)庫共有500個樣本,儲存有從網(wǎng)絡(luò)收集的各種語義類別的圖像,包括動物、室外風景、植物、汽車、人造建筑、室內(nèi)風景等,初始檢索用的綜合底層視覺特征包括色度-飽和度混合直方圖特征,局部累加直方圖特征,基于小波模極大值的形狀特征,基于Gabor濾波器的紋理特征。綜合特征用向量表示,T={x→l}.]]>(l=1,2,…,500),x→l={xl1,xl2,···,xlp,···,xl340}]]>含340個特征。每次返回和檢索圖像最相似的12個圖像,結(jié)果圖像分為相關(guān)圖像和非相關(guān)圖像兩個類別,所有這些信息被存儲在一個數(shù)據(jù)庫中。
整個系統(tǒng)實現(xiàn)過程如下
1.初始檢索針對檢索圖像q,提取其綜合的視覺特征x→q={xq1,xq2,···,xqp,···,xq240},]]>與圖像庫中所有圖像形成的特征庫進行相似性度量,dqj=Σi=1240|xqi-xji|,]]>并按照相似性的大小進行排序,將與檢索圖像最相似的12副顯示出來。圖1為系統(tǒng)初次檢索返回結(jié)果示意,其中,左上角第一個圖像為檢索圖像。
2.構(gòu)造待分解矩陣將檢索返回的圖像進行分類,分成相關(guān)圖像類和非相關(guān)圖像類,本實施例中共有8個相關(guān)圖像,將其底層視覺特征組合為待分解相關(guān)圖像矩陣,該矩陣大小為240×8,每一列對應(yīng)一個相關(guān)圖像,每一行對應(yīng)于底層視覺特征的一個分量,該矩陣代表和檢索圖像處于相同語義類的圖像。
3.基和語義類特征的生成用非負矩陣分解訓(xùn)練算法對待分解相關(guān)圖像矩陣進行分解,此處,語義特征的維數(shù)取值為7,經(jīng)過數(shù)次迭代收斂后得到基矩陣(大小為240×7)和系數(shù)矩陣(7×8),用該基矩陣張成語義空間,因為系數(shù)矩陣是相同語義類在此語義空間的投影,所以可求取系數(shù)矩陣的均值,大小為7×1,代表該語義類的語義特征。
4.圖像庫中所有圖像語義特征的生成將圖像庫中所有圖像的綜合底層特征構(gòu)造一個待分解矩陣,大小為240×500。這里同樣利用上步中的非負矩陣分解訓(xùn)練算法生成的基矩陣構(gòu)造的語義空間,通過非負矩陣分解測試算法來計算圖像庫中所有圖像的語義特征,即固定非負矩陣分解訓(xùn)練算法得到的基矩陣,通過同樣的迭代過程對系數(shù)矩陣進行更新來得到所有圖像的語義特征矩陣,大小為7×500,每一列對應(yīng)一個圖像,每一行對應(yīng)于語義特征的一個分量。
5.相似性度量及結(jié)果返回現(xiàn)在所有的圖像已經(jīng)用其在語義空間的特征來表示,下面計算所有圖像的語義特征和該語義類特征的相似性,先將前次返回的8個相關(guān)圖像記憶下來,并按照相似性的大小返回出其余的4個圖像。圖2為本發(fā)明實施例的第一次反饋檢索結(jié)果示意圖。
6.利用人機交互反饋平臺,重復(fù)上面的2-5步兩次,滿足檢索需求,給出最終的檢索結(jié)果,圖3為本發(fā)明實施例的第二次反饋檢索結(jié)果示意圖,圖4為本發(fā)明實施例的第三次反饋檢索結(jié)果示意圖。
在實際應(yīng)用中,利用本發(fā)明方法建立的基于非負矩陣分解的相關(guān)反饋圖像檢索系統(tǒng),只要利用人機交互反饋信息來構(gòu)建語義空間,就可以返回和檢索圖像屬于相同語義類的圖像,從而滿足檢索需求。
權(quán)利要求
1.一種基于非負矩陣分解的相關(guān)反饋圖像檢索方法,其特征在于包括如下具體步驟1)初始檢索針對檢索圖像,提取色度一飽和度混合直方圖特征,局部累加直方圖特征,基于小波模極大值的形狀特征,基于Gabor濾波器的紋理特征,并通過歸一化形成綜合的底層視覺特征,與圖像庫中所有圖像形成的特征庫進行相似性度量,按照相似性的大小進行排序,將與檢索圖像最相似的若干副圖像返回;2)構(gòu)造待分解矩陣將檢索返回的圖像進行分類,分成相關(guān)圖像類和非相關(guān)圖像類,并將相關(guān)圖像類和檢索圖像的底層視覺特征組合為待分解相關(guān)圖像矩陣,該矩陣的每一列對應(yīng)于一個圖像,每一行對應(yīng)于特征的一個分量,該矩陣就代表和檢索圖像處于相同語義類的圖像;3)基和語義類特征的生成應(yīng)用非負矩陣分解訓(xùn)練算法對待分解相關(guān)圖像矩陣進行分解,經(jīng)過迭代收斂后得到基矩陣和系數(shù)矩陣,用該基矩陣張成語義空間,求取系數(shù)矩陣的均值來生成代表該語義類的語義特征,語義特征的維數(shù)r的取值要滿足(n+m)r<nm,此處n代表底層視覺特征的維數(shù),m代表相關(guān)圖像的個數(shù);4)圖像庫中所有圖像語義特征的生成將圖像庫中所有圖像的綜合底層視覺特征構(gòu)造一個待分解矩陣,利用上一步基矩陣構(gòu)造的語義空間,通過非負矩陣分解測試算法來計算圖像庫中所有圖像的語義特征,即固定非負矩陣分解訓(xùn)練算法得到的基矩陣,通過同樣的迭代過程對系數(shù)矩陣進行更新來得到所有圖像的語義特征;5)相似性度量及結(jié)果返回先將前次返回的相關(guān)圖像記憶下來優(yōu)先返回,再計算所有圖像的語義特征和該語義類特征的相似性,按照相似性的大小進行排序,將與檢索圖像最相似的其余若干副圖像返回;6)利用人機交互反饋平臺,重復(fù)上面的2-5步,直到滿足檢索需求為止,給出最終的檢索結(jié)果。
全文摘要
一種基于非負矩陣分解的相關(guān)反饋圖像檢索方法,利用初次檢索返回的結(jié)果來構(gòu)建相關(guān)類圖像矩陣,應(yīng)用非負矩陣分解訓(xùn)練算法對該矩陣進行矩陣分解,得到語義空間的基矩陣和系數(shù)矩陣,對系數(shù)矩陣求取均值,生成代表該語義類的語義特征,然后通過非負矩陣分解測試算法將圖像庫中所有圖像在此語義空間進行投影,得到所有圖像的語義特征,求取所有圖像的語義特征和該語義類特征的相似性,并按照相似性的大小返回出結(jié)果圖像,如未滿足檢索要求,重復(fù)反饋,給出最終的檢索結(jié)果。應(yīng)用本發(fā)明的方法所建立的圖像檢索系統(tǒng),充分利用人機的交互反饋,能更好地模擬人對于圖像的感覺,使得生成的語義空間能更好的吻合圖像檢索的要求,能夠獲得較高的檢索準確率。
文檔編號G06K9/54GK1581164SQ20041001848
公開日2005年2月16日 申請日期2004年5月20日 優(yōu)先權(quán)日2004年5月20日
發(fā)明者梁棟, 楊杰, 姚莉秀, 盧進軍 申請人:上海交通大學(xué)