亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法

文檔序號:6635930閱讀:320來源:國知局
一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法
【專利摘要】本發(fā)明公開了一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法,包含如下步驟:視覺特征提?。惶卣髯值鋵W(xué)習(xí);視覺特征編碼;特征編碼的空間匯合;訓(xùn)練與分類。本發(fā)明能獲取更為準(zhǔn)確的圖像特征表示,提升圖像分類的準(zhǔn)確率。此外,通過將特征字典中的結(jié)構(gòu)信息整合到視覺特征編碼過程,得到更有判別性的圖像特征表示,因此使得對圖像的分類更加有效。本發(fā)明實(shí)現(xiàn)了高效、準(zhǔn)確的圖像分類,因此具有較高的使用價(jià)值。
【專利說明】一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像分類領(lǐng)域,特別是基于碼書模型(Bag-of-Words,BoW)的一種整 合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法

【背景技術(shù)】
[0002] 隨著信息技術(shù)的不斷飛速發(fā)展,各個(gè)領(lǐng)域每天都在以驚人的速度產(chǎn)生各種類型的 數(shù)據(jù),包括文字、圖像、視頻、音樂等。在豐富多彩的數(shù)據(jù)信息中,圖像因其表現(xiàn)直觀生動(dòng)、內(nèi) 容豐富、信息量大,以及存儲與傳輸方便,備受青睞,并已經(jīng)成為二十一世紀(jì)最重要的信息 載體之一。特別是隨著照相機(jī)、手機(jī)、平板等具有拍照功能的移動(dòng)設(shè)備的日益普及,以及社 交網(wǎng)絡(luò)的興起,人們獲取圖像的方式越來越多,也進(jìn)一步促使圖像數(shù)據(jù)急劇增長,快速準(zhǔn)確 地查找所需圖像和高效地管理卻因此變得越來越困難。人們迫切希望計(jì)算機(jī)能幫助人類, 對互聯(lián)網(wǎng)中海量圖像所蘊(yùn)含的語義進(jìn)行分析,并充分理解圖像所表達(dá)的內(nèi)容,從而更有效 地對圖像進(jìn)行管理、分類標(biāo)注,或檢索感興趣的圖像。
[0003] 圖像分類作為計(jì)算機(jī)理解圖像最主要的基礎(chǔ)技術(shù)之一,已經(jīng)受到了學(xué)術(shù)界和工業(yè) 界各研究機(jī)構(gòu)的廣泛研究,并在國內(nèi)外各權(quán)威期刊和重要學(xué)術(shù)會議上作為重要主題,是計(jì) 算機(jī)視覺領(lǐng)域一個(gè)極重要的研究課題。圖像分類是指按照一定的分類準(zhǔn)則將圖像智能化地 分到一組已有定義類別中的過程,包括物體識別、場景語義分類、行為識別等。圖像分類已 經(jīng)成為研究圖像語義理解的重要技術(shù)手段??茖W(xué)研究人員已經(jīng)漸漸意識到以上問題的重要 性并不斷深入分析。近幾年,碼書模型為圖像高層語義表示帶來新的啟發(fā),以碼書模型為關(guān) 鍵技術(shù)的圖像分類已取得了一定成果,但是仍有許多研究點(diǎn)尚未涉及,仍有巨大的突破空 間?;诖a書模型的圖像分類方法的研究,已經(jīng)成為當(dāng)前人工智能、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí) 和數(shù)據(jù)挖掘等諸多交叉領(lǐng)域中前沿性的熱點(diǎn),對積極推進(jìn)社會信息化起到重要作用。在創(chuàng) 造了無可替代的社會價(jià)值的同時(shí),該領(lǐng)域仍有許多關(guān)鍵技術(shù)問題尚未解決,仍有許多功能 實(shí)現(xiàn)需要進(jìn)一步完善,因此,如何利用碼書模型,更有效地理解和描述圖像高層語義,以更 靈活地實(shí)現(xiàn)圖像分類的研究,具有深遠(yuǎn)的意義。


【發(fā)明內(nèi)容】

[0004] 發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種整合特 征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法,利用特征字典中視覺單詞的分布信息輔助視 覺特征編碼,以使編碼結(jié)果更具有判別性,從而提高圖像分類的準(zhǔn)確率。
[0005] 為了解決上述技術(shù)問題,本發(fā)明公開了一種整合特征字典結(jié)構(gòu)與視覺特征編碼的 圖像分類方法,包含如下步驟:
[0006] 步驟1,提取圖像的視覺特征:對每幅圖像進(jìn)行局部采樣,得到一組區(qū)域塊,提取 每塊區(qū)域的視覺特征,得到每幅圖像對應(yīng)的視覺特征集合,稱所有圖像的視覺特征集合的 整體為所有圖像的視覺特征集,記為集合X ;
[0007] 步驟2,特征字典學(xué)習(xí):以集合X為輸入,使用特征字典學(xué)習(xí)方法,得到由一組具有 代表性的視覺單詞組成的特征字典;
[0008] 步驟3,視覺特征編碼:將每幅圖像的每個(gè)視覺特征表示成視覺單詞的線性組合, 每個(gè)視覺單詞對應(yīng)一個(gè)系數(shù),稱這組系數(shù)為視覺特征的編碼;
[0009] 步驟4,視覺特征編碼的空間匯合:以每幅圖像的所有視覺特征的編碼為輸入,使 用統(tǒng)計(jì)方法,將每幅圖像表示為一個(gè)向量,該向量就是對應(yīng)圖像的圖像特征表示;
[0010] 步驟5,將步驟4得到的每幅圖像的編碼作為輸入,使用分類模型進(jìn)行訓(xùn)練和分 類,得到分類結(jié)果。
[0011] 步驟1具體包括如下步驟:
[0012] 對每幅圖像I進(jìn)行局部采樣,采用等步長的方式做密集采樣,得到若干大小相 同的區(qū)域塊,對每個(gè)區(qū)域塊提取一個(gè)視覺特征,使用視覺特征提取方法得到表示該局部 塊一個(gè)視覺特征,視覺特征提取方法包括:方向梯度直方圖(Histogram of Oriented Gradient, H0G),尺度不變特征變換(Scale-invariant feature transform,SIFT)等。得 到圖像I的視覺特征集合LFS1,最終得到所有圖像的視覺特征集合的整體X = [Xl,X2,… ,xN] GRdXN,其中,d表示視覺特征的維度,其大小由視覺特征提取技術(shù)決定,N表示所有圖像 的視覺特征的總數(shù),Xi表示第i個(gè)視覺特征,i取值1?N。
[0013] 步驟2具體包括如下步驟:
[0014] 以集合X為輸入,使用特征字典學(xué)習(xí)方法,得到一組具有代表性的視覺單詞組成 的特征字典,將該特征字典記為:B= [bi,b2,…,bM] ERdXM,其中M為視覺單詞的個(gè)數(shù);bj 是一個(gè)維度d的列向量,表示第j個(gè)視覺單詞,j取值1?M。常用的特征字典學(xué)習(xí)方法包 括:k-means,K-SVD 等。
[0015] 步驟3具體包括如下步驟:
[0016] 本步驟逐一對集合X中的每個(gè)視覺特征編碼,對于視覺特征Xi,其編碼過程如下:
[0017] 首先,從特征字典B中選出Xi的?個(gè)最近鄰的視覺單詞,即與視覺特征Xi的距離最 小的P個(gè)視覺單詞,記這P個(gè)視覺單詞組成的特征字典為Bi, p取值1?M,i取值1?N,。
[0018] 其次,求出特征字典Bi中各視覺單詞之間的距離所表示的矩陣Di和計(jì)算視覺特 征Xi到特征字典Bi的各視覺單詞的距離表示的列向量屯,i取值1?N。矩陣Di的第m 行s列的元素為Bi中對應(yīng)視覺單詞之間的距離,m,s = 1,2,…,p 的第n個(gè)分量din表示視覺特征Xi與Bi中第n個(gè)視覺單詞之間的距離,n = 1,2,…,p。距離計(jì)算公式為:

【權(quán)利要求】
1. 一種整合特征字典結(jié)構(gòu)與視覺特征編碼的圖像分類方法,其特征在于,包括如下步 驟: 步驟1,提取圖像的視覺特征:對每幅圖像進(jìn)行局部采樣,得到一組區(qū)域塊,提取每塊 區(qū)域的視覺特征,得到每幅圖像對應(yīng)的視覺特征集合,稱所有圖像的視覺特征集合的整體 為所有圖像的視覺特征集,記為集合X; 步驟2,特征字典學(xué)習(xí):以集合X為輸入,使用特征字典學(xué)習(xí)方法,得到由一組具有代表 性的視覺單詞組成的特征字典; 步驟3,視覺特征編碼:將每幅圖像的每個(gè)視覺特征表示成視覺單詞的線性組合,每個(gè) 視覺單詞對應(yīng)一個(gè)系數(shù),稱這組系數(shù)為視覺特征的編碼; 步驟4,視覺特征編碼的空間匯合:以每幅圖像的所有視覺特征的編碼為輸入,使用統(tǒng) 計(jì)方法,將每幅圖像表示為一個(gè)向量,該向量就是對應(yīng)圖像的圖像特征表示; 步驟5,將步驟4得到的每幅圖像的編碼作為輸入,使用分類模型進(jìn)行訓(xùn)練和分類,得 到分類結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟1包括如下步驟: 對于圖像I進(jìn)行局部采樣,每次采樣得到一個(gè)區(qū)域塊,每個(gè)區(qū)域塊提取一個(gè)視覺特 征,得到圖像I的視覺特征集合LFS1,最終得到所有圖像的視覺特征集合X= [Xl,x2^- ,xN] e RdXN,其中,d表示視覺特征的維度,N表示所有圖像的視覺特征的總數(shù),Xi表示第i個(gè) 視覺特征,i取值1?N。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,步驟2包括如下步驟: 以集合X為輸入,使用特征字典學(xué)習(xí)方法,得到由一組具有代表性的視覺單詞組成的 特征字典,將該特征字典記為:B= [bi,b2,…,bM] ERdXM,其中M為視覺單詞的個(gè)數(shù);卜是 一個(gè)維度d的列向量,表不第j個(gè)視覺單詞,j取值1?M。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,步驟3包括如下步驟: 針對視覺特征Xi,選取視覺特征Xi的由步驟2得到的特征字典B中的p個(gè)最近鄰的視 覺單詞,即與視覺特征Xi的距離最小的P個(gè)視覺單詞,P取值1?M,記這p個(gè)視覺單詞組成 的特征字典為Bi, i取值1?N,求出特征字典Bi中各視覺單詞之間的距離所表示的矩陣Di, 矩陣Di的第m行s列的元素為特征字典Bi中對應(yīng)視覺單詞之間的距離,m,s = 1,2,…,p ; 再計(jì)算視覺特征Xi到特征字典Bi的各視覺單詞的距離表示的列向量屯,Cli的第n個(gè)分量 din表示視覺特征Xi與Bi中第n個(gè)視覺單詞之間的距離,n = 1,2,…,p,以Xi, (Ii, Di, Bi和 兩個(gè)參數(shù)入與P為輸入,入,P彡〇,最小化下式,得到\在Bi上的編碼 |x廠 B,'zf,+ ? zf L + /?/* D,'zf ,約束條件:f z/' = 1 其中?表示點(diǎn)積,即兩個(gè)向量對應(yīng)的分量相乘得到一個(gè)新向量;求解得到Xi在這p個(gè) 視覺單詞的編碼結(jié)果 < ;最后對編碼rf中的分量排序,得到k個(gè)最大的編碼系數(shù)zf及其對 應(yīng)的k個(gè)視覺單詞構(gòu)成的特征字典? k = 1,2,…,p,則視覺特征Xi的編碼Zi是一個(gè)M維 的向量,向量中與Bf對應(yīng)的分量為zf,其余分量都置為0。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,步驟5包括如下步驟:采用空間金字塔匹 配模型,將每幅圖像的所有視覺特征的編碼匯合成一個(gè)向量作為該圖像的圖像特征表示。
6.根據(jù)權(quán)利要求5所述方法,其特征在于,步驟6包括如下步驟:得到所有圖像的圖像 特征表示所構(gòu)成的集合后,將該集合分為訓(xùn)練集和測試集兩部分,訓(xùn)練集用于訓(xùn)練分類模 型,用訓(xùn)練好的模型對測試集分類。
【文檔編號】G06K9/66GK104331717SQ201410693888
【公開日】2015年2月4日 申請日期:2014年11月26日 優(yōu)先權(quán)日:2014年11月26日
【發(fā)明者】楊育彬, 朱啟海 申請人:南京大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1