一種基于自編碼器詞袋的視覺特征表示方法
【專利摘要】一種基于自編碼器詞袋的視覺特征表示方法:輸入訓練樣本構(gòu)成訓練集;對訓練集中的每個訓練樣本進行預(yù)處理,減小光照、噪聲等對圖像表示準確度的影響;生成視覺字典,是利用自編碼器提取隨機圖像塊特征,再使用聚類方法把所述的隨機圖像塊的特征聚類成若干視覺單詞,所有視覺單詞組成了視覺字典;使用滑窗的方式對訓練集里的圖像依次采集圖像塊,并將所采集的圖像塊作為自編碼器的輸入,自編碼器的輸出即為圖像的局部特征;將圖像的局部特征依據(jù)視覺字典量化為視覺單詞;統(tǒng)計視覺單詞的頻率,生成視覺單詞直方圖,所述視覺單詞直方圖即為圖像的全局視覺特征表示。本發(fā)明既利用自編碼器自主學習特征表達的特點,又通過BoVW框架降低了對訓練樣本數(shù)量的要求。
【專利說明】-種基于自編碼器詞袋的視覺特征表示方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種多媒體分析、機器視覺等領(lǐng)域的視覺特征表示方法。特別是涉及 一種基于自編碼器詞袋的視覺特征表示方法。
【背景技術(shù)】
[0002] 視覺表示是多媒體分析、機器視覺等領(lǐng)域的重要問題之一,它深刻地影響著多媒 體檢索、圖像分類、場景分析、目標識別等諸多現(xiàn)實應(yīng)用問題。近年來,隨著網(wǎng)絡(luò)技術(shù)的飛速 發(fā)展,越來越多的數(shù)字圖像開始充斥人們的生活,如何準確地表示這些視覺數(shù)據(jù)(特別是 在大數(shù)據(jù)環(huán)境下),已經(jīng)成為一個迫切需要解決的問題。
[0003] 詞袋(Bag of Words, BoW)模型最初應(yīng)用于文檔檢索和分類領(lǐng)域,其基本思想是: 統(tǒng)計語料庫(corpus)中的所有單詞組成字典,對于每一篇文檔依據(jù)字典統(tǒng)計其中單詞出 現(xiàn)的頻次,用由這些單詞頻率組成的直方圖來表示這篇文檔。BoW模型因其簡單而有效的 優(yōu)點得到了廣泛的應(yīng)用,計算機視覺領(lǐng)域的研究者們將同樣的思想應(yīng)用到多媒體分析、機 器視覺等領(lǐng)域,建立了由文本分析技術(shù)向視覺分析領(lǐng)域的過渡,相應(yīng)的方法稱作視覺詞袋 (Bag of Visual Words, BoVff)〇
[0004] BoVW主要包含局部特征提取,視覺字典建立,局部特征量化,圖像表示等四個 步驟。其中最關(guān)鍵的就是局部特征的提取和視覺字典的建立。比較經(jīng)典的方法是使用 SIFT (Scale-Invariant Feature Transform)描述子。SIFT 是 David Lowe 于 1999 年提出 的局部描述子,并于2004年進行了進一步的完善。在此之后,相關(guān)研究領(lǐng)域的研究者們針 對SIFT算法提出了大量改進方法。雖然SIFT特征對平移、旋轉(zhuǎn)等具有良好的不變性,然 而,該算法及其改進方法所提取的局部特征都是手工設(shè)計的特征,并不是從數(shù)據(jù)中自主學 習到的特征,因而難以挖掘數(shù)據(jù)本質(zhì)結(jié)構(gòu),尤其在大數(shù)據(jù)環(huán)境下,手工設(shè)計的特征局限性比 較大。
[0005] 深度學習模型是近些年研究的熱點,它通過構(gòu)建多層神經(jīng)網(wǎng)絡(luò)以及利用大量的訓 練數(shù)據(jù)提升特征表達的能力。在深度學習領(lǐng)域中,堆疊自編碼器(Stacked Autoencoder, SAE)是一個重要的模型。SAE是由自編碼器(Autoencoder,AE)堆疊而成的深度模型。在訓 練SAE時,一般都以整個圖像作為網(wǎng)絡(luò)的輸入,并且使用全連接,即第一個隱層的每個神經(jīng) 元都與輸入圖像的所有像素連接,因而圖像的尺寸對整個網(wǎng)絡(luò)參數(shù)的數(shù)量有很大的影響, 若圖像的尺寸較大,將導(dǎo)致參數(shù)非常多。由于深度架構(gòu)的固有屬性(含有較多的隱層)以 及使用整個圖像作為輸入等原因,導(dǎo)致SAE僅適用于圖像尺寸較小、訓練樣本較多的情況, 而在圖像尺寸比較大、樣本個數(shù)比較少的情況下,深度網(wǎng)絡(luò)(不僅僅是SAE)很容易過擬合, 因而難以學習到有效的特征。
[0006] 在基于深度網(wǎng)絡(luò)的特征表示方法中,由于深度網(wǎng)絡(luò)含有大量參數(shù),在訓練樣本較 少的情況下容易出現(xiàn)過擬合問題;在基于視覺詞袋的特征表示方法中,一般使用SIFT等人 工設(shè)計的特征,因而難以發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明所要解決的技術(shù)問題是,提供一種結(jié)合視覺詞袋框架以及自編碼器,以達 到有效利用數(shù)據(jù)內(nèi)在結(jié)構(gòu)、提高特征表示能力的基于自編碼器詞袋的視覺特征表示方法。
[0008] 本發(fā)明所采用的技術(shù)方案是:一種基于自編碼器詞袋的視覺特征表示方法,包括 如下步驟:
[0009] 1)輸入訓練樣本構(gòu)成訓練集;
[0010] 2)對訓練集中的每個訓練樣本進行預(yù)處理,以減小光照、噪聲等對圖像表示準確 度的影響;
[0011] 3)生成視覺字典,是利用自編碼器提取隨機圖像塊特征,再使用聚類方法把所述 的隨機圖像塊的特征聚類成若干視覺單詞,所有視覺單詞組成了視覺字典;
[0012] 4)使用滑窗的方式對訓練集里的圖像依次采集圖像塊,并將所采集的圖像塊作為 自編碼器的輸入,自編碼器的輸出即為圖像的局部特征;
[0013] 5)將圖像的局部特征依據(jù)視覺字典量化為視覺單詞;
[0014] 6)統(tǒng)計視覺單詞的頻率,生成視覺單詞直方圖,所述視覺單詞直方圖即為圖像的 全局視覺特征表示。
[0015] 步驟2)所述的預(yù)處理是采用均值歸一化或方差歸一化進行的。
[0016] 步驟3)所述的生成視覺字典具體過程包括:
[0017] (1)從預(yù)處理后的訓練集中隨機選取多個訓練樣本,再從所述的每個訓練樣本中 隨機米集圖像塊;
[0018] (2)將第(1)步采集的圖像塊作為自編碼器的輸入,訓練自編碼器;
[0019] (3)再次將第(1)步隨機采集的圖像塊輸入到已訓練完成的自編碼器中,得到所 述隨機采集圖像塊的特征;
[0020] (4)使用聚類方法把所述的隨機采集圖像塊的特征聚類成若干視覺單詞,所有視 覺單詞組成了視覺字典。
[0021] 第(1)步所述的隨機采集圖像塊。是每次從所有樣本中隨機選取一張圖像,再從 所述圖像中隨機采集一個pXp大小的圖像塊,重復(fù)N p次后可以得到一個P2XNp的矩陣,所 述的矩陣用于自編碼器的訓練,其中P和N都是大于1的整數(shù)。
[0022] 第(2)步所述的訓練,是以Jspa_(W,b)為目標函數(shù),使用反向傳播算法求得 Jspa^(W,b)對神經(jīng)網(wǎng)絡(luò)中每個參數(shù)的偏導(dǎo)數(shù),再結(jié)合無約束優(yōu)化算法,從而訓練得到一個 用以提取圖像局部特征的自編碼器,其中,
【權(quán)利要求】
1. 一種基于自編碼器詞袋的視覺特征表示方法,其特征在于,包括如下步驟: 1) 輸入訓練樣本構(gòu)成訓練集; 2) 對訓練集中的每個訓練樣本進行預(yù)處理,以減小光照、噪聲等對圖像表示準確度的 影響; 3) 生成視覺字典,是利用自編碼器提取隨機圖像塊特征,再使用聚類方法把所述的隨 機圖像塊的特征聚類成若干視覺單詞,所有視覺單詞組成了視覺字典; 4) 使用滑窗的方式對訓練集里的圖像依次采集圖像塊,并將所采集的圖像塊作為自編 碼器的輸入,自編碼器的輸出即為圖像的局部特征; 5) 將圖像的局部特征依據(jù)視覺字典量化為視覺單詞; 6) 統(tǒng)計視覺單詞的頻率,生成視覺單詞直方圖,所述視覺單詞直方圖即為圖像的全局 視覺特征表示。
2. 根據(jù)權(quán)利要求1所述的一種基于自編碼器詞袋的視覺特征表示方法,其特征在于, 步驟2)所述的預(yù)處理是采用均值歸一化或方差歸一化進行的。
3. 根據(jù)權(quán)利要求1所述的一種基于自編碼器詞袋的視覺特征表示方法,其特征在于, 步驟3)所述的生成視覺字典具體過程包括: (1) 從預(yù)處理后的訓練集中隨機選取多個訓練樣本,再從所述的每個訓練樣本中隨機 采集圖像塊; (2) 將第(1)步采集的圖像塊作為自編碼器的輸入,訓練自編碼器; (3) 再次將第(1)步隨機采集的圖像塊輸入到已訓練完成的自編碼器中,得到所述隨 機采集圖像塊的特征; (4) 使用聚類方法把所述的隨機采集圖像塊的特征聚類成若干視覺單詞,所有視覺單 詞組成了視覺字典。
4. 根據(jù)權(quán)利要求3所述的一種基于自編碼器詞袋的視覺特征表示方法,其特征在于, 第(1)步所述的隨機采集圖像塊。是每次從所有樣本中隨機選取一張圖像,再從所述圖像 中隨機采集一個PXp大小的圖像塊,重復(fù)Np次后可以得到一個P2XNp的矩陣,所述的矩陣 用于自編碼器的訓練,其中P和N都是大于1的整數(shù)。
5. 根據(jù)權(quán)利要求3所述的一種基于自編碼器詞袋的視覺特征表示方法,其特征在于, 第⑵步所述的訓練,是以Jsp_ (W,b)為目標函數(shù),使用反向傳播算法求得Jspa_ (W,b)對 神經(jīng)網(wǎng)絡(luò)中每個參數(shù)的偏導(dǎo)數(shù),再結(jié)合無約束優(yōu)化算法,從而訓練得到一個用以提取圖像 局部特征的自編碼器,其中, 式中,N是隨機圖像塊的總數(shù),表示第
i個隨機圖像塊,W是目編碼器的權(quán)重參數(shù)矩 陣,Wu表示第i層第j個神經(jīng)元的權(quán)重參數(shù),b是自編碼器的偏置參數(shù)向量,J(W,b;χω)表 示輸入第i個隨機圖像塊時自編碼器的代價函數(shù),λ和β分別是控制權(quán)重衰減項和稀疏 懲罰項的權(quán)重系數(shù),S2是隱藏層神經(jīng)元的個數(shù),/>,表示隱藏層第j個神經(jīng)元的平均激活度, P為稀疏性參數(shù)。
【文檔編號】G06K9/62GK104239897SQ201410448549
【公開日】2014年12月24日 申請日期:2014年9月4日 優(yōu)先權(quán)日:2014年9月4日
【發(fā)明者】冀中, 劉青 申請人:天津大學