一種基于自編碼器詞袋的視覺特征表示方法

文檔序號：6625933閱讀：808來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于自編碼器詞袋的視覺特征表示方法
【專利摘要】一種基于自編碼器詞袋的視覺特征表示方法：輸入訓練樣本構(gòu)成訓練集；對訓練集中的每個訓練樣本進行預(yù)處理，減小光照、噪聲等對圖像表示準確度的影響；生成視覺字典，是利用自編碼器提取隨機圖像塊特征，再使用聚類方法把所述的隨機圖像塊的特征聚類成若干視覺單詞，所有視覺單詞組成了視覺字典；使用滑窗的方式對訓練集里的圖像依次采集圖像塊，并將所采集的圖像塊作為自編碼器的輸入，自編碼器的輸出即為圖像的局部特征；將圖像的局部特征依據(jù)視覺字典量化為視覺單詞；統(tǒng)計視覺單詞的頻率，生成視覺單詞直方圖，所述視覺單詞直方圖即為圖像的全局視覺特征表示。本發(fā)明既利用自編碼器自主學習特征表達的特點，又通過BoVW框架降低了對訓練樣本數(shù)量的要求。
【專利說明】-種基于自編碼器詞袋的視覺特征表示方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種多媒體分析、機器視覺等領(lǐng)域的視覺特征表示方法。特別是涉及一種基于自編碼器詞袋的視覺特征表示方法。

【背景技術(shù)】
[0002] 視覺表示是多媒體分析、機器視覺等領(lǐng)域的重要問題之一，它深刻地影響著多媒體檢索、圖像分類、場景分析、目標識別等諸多現(xiàn)實應(yīng)用問題。近年來，隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展，越來越多的數(shù)字圖像開始充斥人們的生活，如何準確地表示這些視覺數(shù)據(jù)（特別是在大數(shù)據(jù)環(huán)境下），已經(jīng)成為一個迫切需要解決的問題。
[0003] 詞袋（Bag of Words, BoW)模型最初應(yīng)用于文檔檢索和分類領(lǐng)域，其基本思想是：統(tǒng)計語料庫（corpus)中的所有單詞組成字典，對于每一篇文檔依據(jù)字典統(tǒng)計其中單詞出現(xiàn)的頻次，用由這些單詞頻率組成的直方圖來表示這篇文檔。BoW模型因其簡單而有效的優(yōu)點得到了廣泛的應(yīng)用，計算機視覺領(lǐng)域的研究者們將同樣的思想應(yīng)用到多媒體分析、機器視覺等領(lǐng)域，建立了由文本分析技術(shù)向視覺分析領(lǐng)域的過渡，相應(yīng)的方法稱作視覺詞袋 (Bag of Visual Words, BoVff)〇
[0004] BoVW主要包含局部特征提取，視覺字典建立，局部特征量化，圖像表示等四個步驟。其中最關(guān)鍵的就是局部特征的提取和視覺字典的建立。比較經(jīng)典的方法是使用 SIFT (Scale-Invariant Feature Transform)描述子。SIFT 是 David Lowe 于 1999 年提出的局部描述子，并于2004年進行了進一步的完善。在此之后，相關(guān)研究領(lǐng)域的研究者們針對SIFT算法提出了大量改進方法。雖然SIFT特征對平移、旋轉(zhuǎn)等具有良好的不變性，然而，該算法及其改進方法所提取的局部特征都是手工設(shè)計的特征，并不是從數(shù)據(jù)中自主學習到的特征，因而難以挖掘數(shù)據(jù)本質(zhì)結(jié)構(gòu)，尤其在大數(shù)據(jù)環(huán)境下，手工設(shè)計的特征局限性比較大。
[0005] 深度學習模型是近些年研究的熱點，它通過構(gòu)建多層神經(jīng)網(wǎng)絡(luò)以及利用大量的訓練數(shù)據(jù)提升特征表達的能力。在深度學習領(lǐng)域中，堆疊自編碼器（Stacked Autoencoder, SAE)是一個重要的模型。SAE是由自編碼器（Autoencoder，AE)堆疊而成的深度模型。在訓練SAE時，一般都以整個圖像作為網(wǎng)絡(luò)的輸入，并且使用全連接，即第一個隱層的每個神經(jīng) 元都與輸入圖像的所有像素連接，因而圖像的尺寸對整個網(wǎng)絡(luò)參數(shù)的數(shù)量有很大的影響，若圖像的尺寸較大，將導(dǎo)致參數(shù)非常多。由于深度架構(gòu)的固有屬性（含有較多的隱層）以及使用整個圖像作為輸入等原因，導(dǎo)致SAE僅適用于圖像尺寸較小、訓練樣本較多的情況，而在圖像尺寸比較大、樣本個數(shù)比較少的情況下，深度網(wǎng)絡(luò)（不僅僅是SAE)很容易過擬合，因而難以學習到有效的特征。
[0006] 在基于深度網(wǎng)絡(luò)的特征表示方法中，由于深度網(wǎng)絡(luò)含有大量參數(shù)，在訓練樣本較少的情況下容易出現(xiàn)過擬合問題；在基于視覺詞袋的特征表示方法中，一般使用SIFT等人工設(shè)計的特征，因而難以發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明所要解決的技術(shù)問題是，提供一種結(jié)合視覺詞袋框架以及自編碼器，以達到有效利用數(shù)據(jù)內(nèi)在結(jié)構(gòu)、提高特征表示能力的基于自編碼器詞袋的視覺特征表示方法。
[0008] 本發(fā)明所采用的技術(shù)方案是：一種基于自編碼器詞袋的視覺特征表示方法，包括如下步驟：
[0009] 1)輸入訓練樣本構(gòu)成訓練集；
[0010] 2)對訓練集中的每個訓練樣本進行預(yù)處理，以減小光照、噪聲等對圖像表示準確度的影響；
[0011] 3)生成視覺字典，是利用自編碼器提取隨機圖像塊特征，再使用聚類方法把所述的隨機圖像塊的特征聚類成若干視覺單詞，所有視覺單詞組成了視覺字典；
[0012] 4)使用滑窗的方式對訓練集里的圖像依次采集圖像塊，并將所采集的圖像塊作為自編碼器的輸入，自編碼器的輸出即為圖像的局部特征；
[0013] 5)將圖像的局部特征依據(jù)視覺字典量化為視覺單詞；
[0014] 6)統(tǒng)計視覺單詞的頻率，生成視覺單詞直方圖，所述視覺單詞直方圖即為圖像的全局視覺特征表示。
[0015] 步驟2)所述的預(yù)處理是采用均值歸一化或方差歸一化進行的。
[0016] 步驟3)所述的生成視覺字典具體過程包括：
[0017] (1)從預(yù)處理后的訓練集中隨機選取多個訓練樣本，再從所述的每個訓練樣本中隨機米集圖像塊；
[0018] (2)將第（1)步采集的圖像塊作為自編碼器的輸入，訓練自編碼器；
[0019] (3)再次將第（1)步隨機采集的圖像塊輸入到已訓練完成的自編碼器中，得到所述隨機采集圖像塊的特征；
[0020] (4)使用聚類方法把所述的隨機采集圖像塊的特征聚類成若干視覺單詞，所有視覺單詞組成了視覺字典。
[0021] 第（1)步所述的隨機采集圖像塊。是每次從所有樣本中隨機選取一張圖像，再從所述圖像中隨機采集一個pXp大小的圖像塊，重復(fù)N p次后可以得到一個P2XNp的矩陣，所述的矩陣用于自編碼器的訓練，其中P和N都是大于1的整數(shù)。
[0022] 第（2)步所述的訓練，是以Jspa_(W，b)為目標函數(shù)，使用反向傳播算法求得 Jspa^(W，b)對神經(jīng)網(wǎng)絡(luò)中每個參數(shù)的偏導(dǎo)數(shù)，再結(jié)合無約束優(yōu)化算法，從而訓練得到一個用以提取圖像局部特征的自編碼器，其中，

【權(quán)利要求】
1. 一種基于自編碼器詞袋的視覺特征表示方法，其特征在于，包括如下步驟： 1) 輸入訓練樣本構(gòu)成訓練集； 2) 對訓練集中的每個訓練樣本進行預(yù)處理，以減小光照、噪聲等對圖像表示準確度的影響； 3) 生成視覺字典，是利用自編碼器提取隨機圖像塊特征，再使用聚類方法把所述的隨機圖像塊的特征聚類成若干視覺單詞，所有視覺單詞組成了視覺字典； 4) 使用滑窗的方式對訓練集里的圖像依次采集圖像塊，并將所采集的圖像塊作為自編碼器的輸入，自編碼器的輸出即為圖像的局部特征； 5) 將圖像的局部特征依據(jù)視覺字典量化為視覺單詞； 6) 統(tǒng)計視覺單詞的頻率，生成視覺單詞直方圖，所述視覺單詞直方圖即為圖像的全局視覺特征表示。
2. 根據(jù)權(quán)利要求1所述的一種基于自編碼器詞袋的視覺特征表示方法，其特征在于，步驟2)所述的預(yù)處理是采用均值歸一化或方差歸一化進行的。
3. 根據(jù)權(quán)利要求1所述的一種基于自編碼器詞袋的視覺特征表示方法，其特征在于，步驟3)所述的生成視覺字典具體過程包括： (1) 從預(yù)處理后的訓練集中隨機選取多個訓練樣本，再從所述的每個訓練樣本中隨機采集圖像塊； (2) 將第（1)步采集的圖像塊作為自編碼器的輸入，訓練自編碼器； (3) 再次將第（1)步隨機采集的圖像塊輸入到已訓練完成的自編碼器中，得到所述隨機采集圖像塊的特征； (4) 使用聚類方法把所述的隨機采集圖像塊的特征聚類成若干視覺單詞，所有視覺單詞組成了視覺字典。
4. 根據(jù)權(quán)利要求3所述的一種基于自編碼器詞袋的視覺特征表示方法，其特征在于，第（1)步所述的隨機采集圖像塊。是每次從所有樣本中隨機選取一張圖像，再從所述圖像中隨機采集一個PXp大小的圖像塊，重復(fù)Np次后可以得到一個P2XNp的矩陣，所述的矩陣用于自編碼器的訓練，其中P和N都是大于1的整數(shù)。
5. 根據(jù)權(quán)利要求3所述的一種基于自編碼器詞袋的視覺特征表示方法，其特征在于，第⑵步所述的訓練，是以Jsp_ (W，b)為目標函數(shù)，使用反向傳播算法求得Jspa_ (W，b)對神經(jīng)網(wǎng)絡(luò)中每個參數(shù)的偏導(dǎo)數(shù)，再結(jié)合無約束優(yōu)化算法，從而訓練得到一個用以提取圖像局部特征的自編碼器，其中，式中，N是隨機圖像塊的總數(shù)，表示第
i個隨機圖像塊，W是目編碼器的權(quán)重參數(shù)矩陣，Wu表示第i層第j個神經(jīng)元的權(quán)重參數(shù)，b是自編碼器的偏置參數(shù)向量，J(W，b;χω)表示輸入第i個隨機圖像塊時自編碼器的代價函數(shù)，λ和β分別是控制權(quán)重衰減項和稀疏懲罰項的權(quán)重系數(shù)，S2是隱藏層神經(jīng)元的個數(shù)，/>,表示隱藏層第j個神經(jīng)元的平均激活度， P為稀疏性參數(shù)。
【文檔編號】G06K9/62GK104239897SQ201410448549
【公開日】2014年12月24日申請日期:2014年9月4日優(yōu)先權(quán)日:2014年9月4日
【發(fā)明者】冀中, 劉青申請人:天津大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：冀中;劉青
技術(shù)所有人：天津大學
我是此專利的發(fā)明人

上一篇：文件監(jiān)控方法及裝置制造方法
上一篇：一種利用布娃娃物理系統(tǒng)模擬人物角色死亡的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

視覺詞袋模型相關(guān)技術(shù)

視覺詞袋相關(guān)技術(shù)

視覺特征相關(guān)技術(shù)

計算機視覺特征提取相關(guān)技術(shù)

視覺特征提取相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于自編碼器詞袋的視覺特征表示方法