基于多矩形劃分的圖像表示方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像特征匯集技術(shù)領(lǐng)域,具體地說是一種面向圖像分類的圖像表示方 法。
【背景技術(shù)】
[0002] 隨著Internet和多媒體技術(shù)的發(fā)展,面對海量的圖像數(shù)據(jù),如何對其進(jìn)行有效管 理和檢索變成一個緊迫的任務(wù)。圖像分類技術(shù)是實(shí)現(xiàn)對圖像自動理解的一條重要途徑,是 目前研宄的熱點(diǎn)問題。
[0003] 目前的圖像分類方法一般而言可以分為兩大類:基于生成模型的方法和基于判別 模型的方法兩大類。在生成模型中,BoF模型是近年來在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用最廣泛的一 類特征。BoF特征,也被稱為Bag-of-Features,其思想來源于文本信息檢索和分類任務(wù)中 的文檔表示技術(shù),將圖像表示為無序的特征集合。構(gòu)建BoF圖像表示的過程包括特征提取、 字典的生成、特征的編碼和特征的匯集。SPM是一種經(jīng)典的特征匯集方法,通過不斷的將圖 像區(qū)域進(jìn)行網(wǎng)格細(xì)分,在金字塔的子區(qū)域單元上進(jìn)行特征的匯集操作而不是在整幅圖像上 進(jìn)行特征的匯集,因此融入了更多的空間信息,從而大大提高了性能??臻g金字塔的成功也 說明了對鄰域進(jìn)行空間匯集操作的重要性。SPM已經(jīng)在圖像分類任務(wù)中顯示出非常好的性 能。由于SPM的空間網(wǎng)格劃分方法的特點(diǎn),圖像中的對象或區(qū)域排列大體有規(guī)律時(shí),SPM的 分類效果較好。但是當(dāng)圖像中的對象排列沒有規(guī)律的時(shí)候,SPM的分類性能可能會有很大 的下降。如圖4所示,菱形和黑點(diǎn)代表兩種不同的視覺詞特征。由于在兩幅圖像中特征的 排列有明顯的不同,當(dāng)通過SPM匹配的時(shí)候,圖像間的相似性會變小??梢钥闯?,SPM在某 些情況下對圖像的劃分過于嚴(yán)格,缺乏靈活性,對于圖像的旋轉(zhuǎn)不變性和平移不變性不能 很好的適應(yīng)。
[0004] 由于BoF特征是通過統(tǒng)計(jì)局部不變特征的全局出現(xiàn)情況來實(shí)現(xiàn)的,其特征既保留 了局部特征的不變性又增加了全局特征的魯棒性,同時(shí)與數(shù)量龐大的局部不變特征相比還 能起到簡化特征的作用,是對圖像的壓縮表示,但是BoF特征的最大的缺點(diǎn)是丟失了特征 的空間、相對位置、尺度和方向信息。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明需要解決的技術(shù)問題是:針對現(xiàn)有的圖像表示方法一、BoF特征丟失了特 征的空間、相對位置、尺度和方向信息的缺點(diǎn),方法二、SPM方法雖然包含了更多的空間信 息,但在某些情況下對圖像的劃分過于嚴(yán)格,缺乏靈活性,對于圖像的旋轉(zhuǎn)不變性和平移不 變性的缺點(diǎn),提供了一種基于多矩形劃分的圖像表示方法,該方法既能保持BoF模型方法 中范式簡潔高效的優(yōu)點(diǎn),又能保留特征的空間和尺度信息的圖像表示方法。
[0006] 為解決上述技術(shù)問題:本發(fā)明提出了基于多矩形劃分的圖像表示方法,包括以下 步驟:
[0007] 步驟一、對需要分類的圖像集中的每幅圖像進(jìn)行SIFT特征提??;
[0008] 步驟二、對獲得的圖像集中SIFT特征進(jìn)行聚類得到視覺詞字典;
[0009] 步驟三、對需要分類的圖像集中的每幅圖像進(jìn)行特征的量化,獲得編碼特征;
[0010] 步驟四、對每幅圖像按著指定劃分層次數(shù)進(jìn)行多矩形劃分,并分別計(jì)算圖像各個 層的直方圖特征;
[0011] 步驟五、獲取每幅圖像的超級圖像特征。
[0012] 所述步驟三中對需要分類的圖像集中的每幅圖像進(jìn)行特征的量化,獲得編碼特征 的具體過程為:
[0013] 對圖像中的每個SIFT特征和dictionarySize大小的視覺詞字典中的每個視覺詞 進(jìn)行歐式距離的計(jì)算,獲得dictionarySize大小的向量,向量中的每個分量的值為1或0, 其中距離最近的視覺詞的位置編碼值為1,其余視覺詞的位置的編碼值為〇。
[0014] 所述步驟四中對每幅圖像按著指定劃分層次數(shù)進(jìn)行多矩形劃分,并計(jì)算圖像各個 層的直方圖特征,其中,第η層直方圖特征的計(jì)算公式如下:
[0015]
[0016] 其中,fn為第η層劃分的直方圖特征,/T為圖像最內(nèi)層矩形區(qū)域的直方圖特征, 為第i個矩形與第i-1個矩形之間環(huán)形區(qū)域的直方圖特征,/;>為自身邊緣矩形和它相鄰 的矩形之間環(huán)形區(qū)域的直方圖特征;
[0017] 按上述方法計(jì)算一幅圖像各個層的直方圖特征。
[0018] 獲取第η層劃分的權(quán)重直方圖特征r如下:
[0019]
[0020] 其中,Wn為第η層劃分的權(quán)重。
[0021] 所述步驟五中所述超級圖像特征具體獲取過程為:將一幅圖像所有層劃分的直方 圖特征連接起來形成圖像的超級特征,即表示為f:
[0022] f = (f1, f2, ···, fn, ···, fL)
[0023] 其中,,L為圖像劃分層次的總數(shù),c(n)為第η層劃分形成區(qū) 域的個數(shù),I < η < L,L為圖像劃分的層次數(shù),f1為第一層劃分的直方圖特征,f 2為第二層 劃分的直方圖特征,fn為第η層劃分的直方圖特征,f 1為第L層劃分的直方圖特征。
[0024] 獲取超級權(quán)重特征是,將所有層的權(quán)重直方圖特征連接起來形成圖像的超級權(quán)重 特征表示fw:
[0025] fw= (w ^1, w2f2, ···, wnfn, ···, wLfL)
[0026] 其中,w1為第一層劃分的權(quán)重,w 2為第二層劃分的權(quán)重,w 1為第L層劃分的權(quán)重。
[0027] 上述方案中對于第η層來說,圖像特征的權(quán)重為wn,η越大則Wn越大。
[0028] 所述步驟一對需要分類的圖像集中的每幅圖像進(jìn)行SIFT特征提取,具體提取過 程如下:
[0029] 打開要處理的圖像數(shù)據(jù)庫,圖像的數(shù)量設(shè)定為numTextonlmages個,1 < numTextonlmages < m, m為自然數(shù);分別讀入每張圖像,提取每張圖像的SIFT特征,并 將像的SIFT特征保存在n*128維的特征矩陣中,其中η為圖像中提取的SIFT特征的個數(shù), 128表示每個SIFT特征為128維向量。
[0030] 所述步驟二中對獲得的圖像集中SIFT特征進(jìn)行聚類得到視覺詞字典具體過程如 下:
[0031] 1)假定聚類生成視覺詞字典的SIFT特征的個數(shù)最多為ndata_max,如果一個圖像 中SIFT特征個數(shù)大于ndata_max/numTextonImages,則在這幅圖像中隨機(jī)抽取ndata_max/ numTextonlmages個SIFT特征,否則保留圖像中的所有SIFT特征。這樣最終獲得的用于聚 類視覺詞字典的特征個數(shù)為data_max ;
[0032] 2)對于data_max個SIFT特征進(jìn)行k-means聚類,得到dictionarySize大小的視 覺詞字典,該字典為dictionarySize*128的矩陣,128表示每個視覺詞的特征維數(shù)。
[0033] 所述基于多矩形劃分的圖像表示方法,還包括步驟六,步驟如下:圖像分類時(shí)按步 驟五獲取的每幅圖像的超級圖像特征分類。
[0034] 所述基于多矩形劃分的圖像表示方法,還包括圖像分類時(shí)按獲取的每幅圖像的超 級權(quán)重圖像特征分類。
[0035] 本發(fā)明方法概念簡單,保留了 BoF范式的優(yōu)點(diǎn)。
[0036] 本發(fā)明方法特征表示更加緊湊,特征維數(shù)較SPM方法降低。
[0037] 本發(fā)明方法融入了圖像的空間信息,能更好的適應(yīng)圖像的旋轉(zhuǎn)不變性和平移不變 性。
【附圖說明】
[0038] 圖1是按照本發(fā)明的基于多矩形劃分的圖像表示方法的一實(shí)施例中對圖像按三 層進(jìn)行多矩形劃分中第一層圖像劃分的示意圖。
[0039] 圖2按照本發(fā)明的基于多矩形劃分的圖像表示方法的與圖1所示相同的實(shí)施例中 對圖像按三層進(jìn)行多矩形劃分中第二層圖像劃分的示意圖。
[0040] 圖3是按照本發(fā)明的基于多矩形劃分的圖像表示方法的與圖1和圖2相同的實(shí)施 例中對圖像按三層進(jìn)行多矩形劃分中第三層圖像劃分的示意圖。
[0041] 圖4是現(xiàn)有技術(shù)圖像整體統(tǒng)計(jì)特征相同而空間特征不同的示意圖。
[0042] 圖5是按照本發(fā)明的基于多矩形劃分的圖像表示方法的框圖。
【具體實(shí)施方式】
[0043] 下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述,有必要在此指出的是,以下具體實(shí)施 方式只用于對本發(fā)明進(jìn)行進(jìn)一步的說明,不能理解為對本發(fā)明保護(hù)范圍的限制,該領(lǐng)域的 技術(shù)人員可以根據(jù)上述
【發(fā)明內(nèi)容】
對本發(fā)明作出一些非本質(zhì)的改進(jìn)和調(diào)整。
[0044] 如圖5所示,基于多矩形劃分的圖像表示方法,包括以下步驟:
[0045] 步驟一、對需要分類的圖像集中的每幅圖像進(jìn)行SIFT特征提取。
[0046] 對需要分類的圖像集中的每幅圖像進(jìn)行特征提取,具體提取過程如下:
[0047] 打開要處理的圖像數(shù)據(jù)庫,圖像的數(shù)量設(shè)定為numTextonlmages個,1 < numTextonlmages < m, m為自然數(shù);分別讀入每張圖像,提取每張圖像的SIFT特征,并將 像的SIFT特征保存在n*128維的特征矩陣中,其中η為圖像中提取的SIFT特征的個數(shù),128 表不每個SIFT特征為128維向量。具體詳見David Lowe. Distinctive image features from scale invariant keypoints. IJCV 2004.
[0048] 步驟二、對獲得的圖像集中SIFT特征進(jìn)行聚類得到視覺詞字典。
[0049] 對獲得的圖像集中SIFT特征進(jìn)行聚類得到視覺詞字典具體過程如下:
[0050] 1)假定聚類生成視覺詞字典的SIFT特征的個數(shù)最多為ndata_max,如果一個圖像 中SIFT特征個數(shù)大于ndata_max/numTextonImages,則在這幅圖像中隨機(jī)抽取ndata_max/ numTextonlmages個SIFT特征,否則保留圖像中的所有SIFT特征。這樣最終獲得的用于聚 類視覺詞字典的特征個數(shù)為data_max。
[0051] 2)對于data_max個SIFT特征進(jìn)行k-means聚類,得到dictionarySize大小的視 覺詞字典,該字典為dictionarySize*128的矩陣,128表示每個視覺詞的特征維數(shù)。
[0052] 步驟三、對需要分類的圖像集中的每幅圖像進(jìn)行特征的量化,獲得編碼特征。
[0053] 對需要分類的圖像集中的每幅圖像進(jìn)行特征的量化,獲得編碼特征的具體過程 為:
[0054] 對圖像中的每個SIFT特征和dictionarySize大小的視覺詞字典中的每個視覺詞 進(jìn)行歐式距離的計(jì)算,獲得dictionarySize大小的向量,向量中的每個分量的值為1或0, 其中距離最近的視覺詞的位置編碼值為1,其余視覺詞的位置的編碼值為