一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法

文檔序號：6635930閱讀：320來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法
【專利摘要】本發(fā)明公開了一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法，包含如下步驟：視覺特征提?。惶卣髯值鋵W(xué)習(xí)；視覺特征編碼；特征編碼的空間匯合；訓(xùn)練與分類。本發(fā)明能獲取更為準(zhǔn)確的圖像特征表示，提升圖像分類的準(zhǔn)確率。此外，通過將特征字典中的結(jié)構(gòu)信息整合到視覺特征編碼過程，得到更有判別性的圖像特征表示，因此使得對圖像的分類更加有效。本發(fā)明實(shí)現(xiàn)了高效、準(zhǔn)確的圖像分類，因此具有較高的使用價(jià)值。
【專利說明】一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像分類領(lǐng)域，特別是基于碼書模型（Bag-of-Words，BoW)的一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法

【背景技術(shù)】
[0002] 隨著信息技術(shù)的不斷飛速發(fā)展，各個(gè)領(lǐng)域每天都在以驚人的速度產(chǎn)生各種類型的數(shù)據(jù)，包括文字、圖像、視頻、音樂等。在豐富多彩的數(shù)據(jù)信息中，圖像因其表現(xiàn)直觀生動(dòng)、內(nèi) 容豐富、信息量大，以及存儲與傳輸方便，備受青睞，并已經(jīng)成為二十一世紀(jì)最重要的信息載體之一。特別是隨著照相機(jī)、手機(jī)、平板等具有拍照功能的移動(dòng)設(shè)備的日益普及，以及社交網(wǎng)絡(luò)的興起，人們獲取圖像的方式越來越多，也進(jìn)一步促使圖像數(shù)據(jù)急劇增長，快速準(zhǔn)確地查找所需圖像和高效地管理卻因此變得越來越困難。人們迫切希望計(jì)算機(jī)能幫助人類，對互聯(lián)網(wǎng)中海量圖像所蘊(yùn)含的語義進(jìn)行分析，并充分理解圖像所表達(dá)的內(nèi)容，從而更有效地對圖像進(jìn)行管理、分類標(biāo)注，或檢索感興趣的圖像。
[0003] 圖像分類作為計(jì)算機(jī)理解圖像最主要的基礎(chǔ)技術(shù)之一，已經(jīng)受到了學(xué)術(shù)界和工業(yè) 界各研究機(jī)構(gòu)的廣泛研究，并在國內(nèi)外各權(quán)威期刊和重要學(xué)術(shù)會議上作為重要主題，是計(jì) 算機(jī)視覺領(lǐng)域一個(gè)極重要的研究課題。圖像分類是指按照一定的分類準(zhǔn)則將圖像智能化地分到一組已有定義類別中的過程，包括物體識別、場景語義分類、行為識別等。圖像分類已經(jīng)成為研究圖像語義理解的重要技術(shù)手段?？茖W(xué)研究人員已經(jīng)漸漸意識到以上問題的重要性并不斷深入分析。近幾年，碼書模型為圖像高層語義表示帶來新的啟發(fā)，以碼書模型為關(guān) 鍵技術(shù)的圖像分類已取得了一定成果，但是仍有許多研究點(diǎn)尚未涉及，仍有巨大的突破空間?；诖a書模型的圖像分類方法的研究，已經(jīng)成為當(dāng)前人工智能、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí) 和數(shù)據(jù)挖掘等諸多交叉領(lǐng)域中前沿性的熱點(diǎn)，對積極推進(jìn)社會信息化起到重要作用。在創(chuàng) 造了無可替代的社會價(jià)值的同時(shí)，該領(lǐng)域仍有許多關(guān)鍵技術(shù)問題尚未解決，仍有許多功能實(shí)現(xiàn)需要進(jìn)一步完善，因此，如何利用碼書模型，更有效地理解和描述圖像高層語義，以更靈活地實(shí)現(xiàn)圖像分類的研究，具有深遠(yuǎn)的意義。

【發(fā)明內(nèi)容】

[0004] 發(fā)明目的：本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足，提供一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法，利用特征字典中視覺單詞的分布信息輔助視覺特征編碼，以使編碼結(jié)果更具有判別性，從而提高圖像分類的準(zhǔn)確率。
[0005] 為了解決上述技術(shù)問題，本發(fā)明公開了一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法，包含如下步驟：
[0006] 步驟1，提取圖像的視覺特征：對每幅圖像進(jìn)行局部采樣，得到一組區(qū)域塊，提取每塊區(qū)域的視覺特征，得到每幅圖像對應(yīng)的視覺特征集合，稱所有圖像的視覺特征集合的整體為所有圖像的視覺特征集，記為集合X ;
[0007] 步驟2,特征字典學(xué)習(xí)：以集合X為輸入，使用特征字典學(xué)習(xí)方法，得到由一組具有代表性的視覺單詞組成的特征字典；
[0008] 步驟3,視覺特征編碼：將每幅圖像的每個(gè)視覺特征表示成視覺單詞的線性組合，每個(gè)視覺單詞對應(yīng)一個(gè)系數(shù)，稱這組系數(shù)為視覺特征的編碼；
[0009] 步驟4,視覺特征編碼的空間匯合：以每幅圖像的所有視覺特征的編碼為輸入，使用統(tǒng)計(jì)方法，將每幅圖像表示為一個(gè)向量，該向量就是對應(yīng)圖像的圖像特征表示；
[0010] 步驟5,將步驟4得到的每幅圖像的編碼作為輸入，使用分類模型進(jìn)行訓(xùn)練和分類，得到分類結(jié)果。
[0011] 步驟1具體包括如下步驟：
[0012] 對每幅圖像I進(jìn)行局部采樣，采用等步長的方式做密集采樣，得到若干大小相同的區(qū)域塊，對每個(gè)區(qū)域塊提取一個(gè)視覺特征，使用視覺特征提取方法得到表示該局部塊一個(gè)視覺特征，視覺特征提取方法包括：方向梯度直方圖（Histogram of Oriented Gradient, H0G)，尺度不變特征變換（Scale-invariant feature transform，SIFT)等。得到圖像I的視覺特征集合LFS1，最終得到所有圖像的視覺特征集合的整體X = [Xl，X2，… ，xN] GRdXN，其中，d表示視覺特征的維度，其大小由視覺特征提取技術(shù)決定，N表示所有圖像的視覺特征的總數(shù)，Xi表示第i個(gè)視覺特征，i取值1?N。
[0013] 步驟2具體包括如下步驟：
[0014] 以集合X為輸入，使用特征字典學(xué)習(xí)方法，得到一組具有代表性的視覺單詞組成的特征字典，將該特征字典記為：B= [bi，b2，…，bM] ERdXM，其中M為視覺單詞的個(gè)數(shù)；bj 是一個(gè)維度d的列向量，表示第j個(gè)視覺單詞，j取值1?M。常用的特征字典學(xué)習(xí)方法包括：k-means，K-SVD 等。
[0015] 步驟3具體包括如下步驟：
[0016] 本步驟逐一對集合X中的每個(gè)視覺特征編碼，對于視覺特征Xi，其編碼過程如下：
[0017] 首先，從特征字典B中選出Xi的？個(gè)最近鄰的視覺單詞，即與視覺特征Xi的距離最小的P個(gè)視覺單詞，記這P個(gè)視覺單詞組成的特征字典為Bi, p取值1?M，i取值1?N，。
[0018] 其次，求出特征字典Bi中各視覺單詞之間的距離所表示的矩陣Di和計(jì)算視覺特征Xi到特征字典Bi的各視覺單詞的距離表示的列向量屯，i取值1?N。矩陣Di的第m 行s列的元素為Bi中對應(yīng)視覺單詞之間的距離，m，s = 1，2,…，p 的第n個(gè)分量din表示視覺特征Xi與Bi中第n個(gè)視覺單詞之間的距離，n = 1，2,…，p。距離計(jì)算公式為：

【權(quán)利要求】
1. 一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法，其特征在于，包括如下步驟：步驟1，提取圖像的視覺特征：對每幅圖像進(jìn)行局部采樣，得到一組區(qū)域塊，提取每塊區(qū)域的視覺特征，得到每幅圖像對應(yīng)的視覺特征集合，稱所有圖像的視覺特征集合的整體為所有圖像的視覺特征集，記為集合X; 步驟2,特征字典學(xué)習(xí)：以集合X為輸入，使用特征字典學(xué)習(xí)方法，得到由一組具有代表性的視覺單詞組成的特征字典；步驟3,視覺特征編碼：將每幅圖像的每個(gè)視覺特征表示成視覺單詞的線性組合，每個(gè) 視覺單詞對應(yīng)一個(gè)系數(shù)，稱這組系數(shù)為視覺特征的編碼；步驟4,視覺特征編碼的空間匯合：以每幅圖像的所有視覺特征的編碼為輸入，使用統(tǒng) 計(jì)方法，將每幅圖像表示為一個(gè)向量，該向量就是對應(yīng)圖像的圖像特征表示；步驟5,將步驟4得到的每幅圖像的編碼作為輸入，使用分類模型進(jìn)行訓(xùn)練和分類，得到分類結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟1包括如下步驟：對于圖像I進(jìn)行局部采樣，每次采樣得到一個(gè)區(qū)域塊，每個(gè)區(qū)域塊提取一個(gè)視覺特征，得到圖像I的視覺特征集合LFS1，最終得到所有圖像的視覺特征集合X= [Xl，x2^- ，xN] e RdXN，其中，d表示視覺特征的維度，N表示所有圖像的視覺特征的總數(shù)，Xi表示第i個(gè) 視覺特征，i取值1?N。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，步驟2包括如下步驟：以集合X為輸入，使用特征字典學(xué)習(xí)方法，得到由一組具有代表性的視覺單詞組成的特征字典，將該特征字典記為：B= [bi，b2，…，bM] ERdXM，其中M為視覺單詞的個(gè)數(shù)；卜是一個(gè)維度d的列向量，表不第j個(gè)視覺單詞，j取值1?M。
4. 根據(jù)權(quán)利要求3所述的方法，其特征在于，步驟3包括如下步驟：針對視覺特征Xi，選取視覺特征Xi的由步驟2得到的特征字典B中的p個(gè)最近鄰的視覺單詞，即與視覺特征Xi的距離最小的P個(gè)視覺單詞，P取值1?M，記這p個(gè)視覺單詞組成的特征字典為Bi, i取值1?N，求出特征字典Bi中各視覺單詞之間的距離所表示的矩陣Di, 矩陣Di的第m行s列的元素為特征字典Bi中對應(yīng)視覺單詞之間的距離，m，s = 1，2,…，p ; 再計(jì)算視覺特征Xi到特征字典Bi的各視覺單詞的距離表示的列向量屯，Cli的第n個(gè)分量 din表示視覺特征Xi與Bi中第n個(gè)視覺單詞之間的距離，n = 1，2,…，p，以Xi, (Ii, Di, Bi和兩個(gè)參數(shù)入與P為輸入，入，P彡〇,最小化下式，得到\在Bi上的編碼 |x廠 B,'zf，+ ? zf L + /?/* D,'zf ,約束條件：f z/' = 1 其中?表示點(diǎn)積，即兩個(gè)向量對應(yīng)的分量相乘得到一個(gè)新向量；求解得到Xi在這p個(gè) 視覺單詞的編碼結(jié)果 < ;最后對編碼rf中的分量排序，得到k個(gè)最大的編碼系數(shù)zf及其對應(yīng)的k個(gè)視覺單詞構(gòu)成的特征字典? k = 1，2,…，p，則視覺特征Xi的編碼Zi是一個(gè)M維的向量，向量中與Bf對應(yīng)的分量為zf，其余分量都置為0。
5. 根據(jù)權(quán)利要求4所述的方法，其特征在于，步驟5包括如下步驟：采用空間金字塔匹配模型，將每幅圖像的所有視覺特征的編碼匯合成一個(gè)向量作為該圖像的圖像特征表示。
6.根據(jù)權(quán)利要求5所述方法，其特征在于，步驟6包括如下步驟：得到所有圖像的圖像特征表示所構(gòu)成的集合后，將該集合分為訓(xùn)練集和測試集兩部分，訓(xùn)練集用于訓(xùn)練分類模型，用訓(xùn)練好的模型對測試集分類。
【文檔編號】G06K9/66GK104331717SQ201410693888
【公開日】2015年2月4日申請日期:2014年11月26日優(yōu)先權(quán)日:2014年11月26日
【發(fā)明者】楊育彬, 朱啟海申請人:南京大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊育彬;朱啟海
技術(shù)所有人：南京大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

視覺特征相關(guān)技術(shù)

計(jì)算機(jī)視覺特征提取相關(guān)技術(shù)

視覺特征提取相關(guān)技術(shù)

視覺識別系統(tǒng)特征有相關(guān)技術(shù)

動(dòng)畫視頻的視覺特征相關(guān)技術(shù)

視覺心理的主要特征相關(guān)技術(shù)

圖像視覺特征相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法