基于核稀疏編碼的人體行為識別方法

文檔序號：10570348閱讀：367來源：國知局

基于核稀疏編碼的人體行為識別方法
【專利摘要】本發(fā)明公開了一種基于核稀疏編碼的人體行為識別方法，屬于數(shù)字圖像處理技術領域。本發(fā)明首先將輸入視頻分成固定長度且相互重疊的視頻段，再對每個視頻段提取梯度與光流特征協(xié)方差或者形狀特征協(xié)方差，并采用對稱正定矩陣降維方法對協(xié)方差矩陣進行降維。在Stein核的基礎上，提出一種稀疏最大化的對陣正定矩陣空間字典學習，并將黎曼流形嵌入再生核希爾伯特空間提出一種黎曼稀疏求解器。本發(fā)明用于視頻的人體行為識別，處理簡單，計算復雜度低，對行為差異、視角變化、低分辨率具有很好的魯棒性。
【專利說明】
基于核稀疏編碼的人體行為識別方法
技術領域
[0001] 本發(fā)明屬于數(shù)字圖像處理技術領域，涉及計算機視覺、模式識別等相關理論知識，尤其是基于協(xié)方差矩陣的人體行為識別。
【背景技術】
[0002] 人體行為識別是計算機視覺領域的研究熱點和難點，其核心是利用計算機視覺技術自動從視頻序列中檢測、跟蹤、識別人并對其行為進行理解和描述。人體運動分析和行為識別方法是人體行為理解的核心內(nèi)容，主要包括對視頻人體檢測，跟蹤運動人體，獲取人體行為的相關參數(shù)，最終達到理解人體行為的目的。
[0003] 人體行為識別方法主要運用于智能監(jiān)控系統(tǒng)，主動、實時地分析視頻中人體行為，及時報告可疑行為;基于內(nèi)容的視頻檢索，對視頻內(nèi)容進行分析和理解，簡歷結構和索引；還廣泛應用于人體交互、機器人、智能房間和看護中心。
[0004] 人體行為識別主要由人體行為表示和人體行為識別分類兩個基本步驟構成，它們對人體行為識別率有顯著的影響。當前人體行為識別方法主要有：
[0005] -基于時空興趣點云的行為識別。從不同的時間尺度提取興趣點積累成點云，并避免對背景和靜態(tài)前景檢測。采用近鄰分類或者支撐向量機SVM進行識別分類。該方式可以捕獲平滑運動，對視角改變具有魯棒性，遮擋處理代價小，詳見文獻"Matteo Bregonzio， Shaogang Gong and Tao Xiang.Recognising Action as Clouds of Space-Time Interest Points.IEEE Conference on Computer Vision and Pattern Recognition (CVPR)June 2009."；
[0006] 二）：基于深度軌跡的行為識別。對每幀像素進行深度采樣，并利用深度光流場中位移信息跟蹤特征點?；谝粰C遇運動邊界直方圖的描述子，對相機運動具有魯棒性。深度軌跡對不規(guī)則運動以及鏡頭邊界具有魯棒性，能很好的提取視頻中的運動信息。實驗結果表明比大部分特征描述方法具有更好的識別準確率，詳見文獻"Heng Wang，Klaser，A.， Schmid，C?，Cheng-Lin Liu.Action Recognition by Dense Trajectories.IEEE Conference on Computer Vision and Pattern Recognition(CVPR),June 2011.''；
[0007] 三）：基于協(xié)方差的行為識別方法。提取連續(xù)視頻序列中的協(xié)方差特征，轉換到對數(shù)歐式空間，使用對數(shù)歐式空間距離度量方式。采用最近鄰分類方法或者稀疏線性估計方法進行識別分類。該方式框架簡單，計算復雜度低，能很好的應對人體行為差異、視角變換以及低分辨率等問題，并且識別準確率極高，詳見文獻"Kai Guo，Prakash Ishwar，Janusz Konrad.Action Recognition from Video Using Feature Covariance Matrices.IEEE Transactions on Image Processing,Mar 2013."。
[0008] 人體行為識別在實現(xiàn)時由于受到人體行為的類間變化和類內(nèi)變化、行為執(zhí)行環(huán)境和攝像機位置和人體行為在時空中的變化等因素的影響，大大限制了識別準確率的提升。行為表征中往往不能有效融合不同特征，降低特征表征力度，減少外界干擾。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明的發(fā)明目的在于:針對上述存在的問題，提供一種基于核稀疏編碼的人體行為識別方法。
[0010] 本發(fā)明的基于核稀疏編碼的人體行為識別方法，包括下列步驟：
[0011]步驟1:提取輸入視頻的行為特征：
[0012] 將輸入視頻分成長度固定且相互重疊的視頻段;分別對各視頻段的像素點進行特征提取，得到像素點(x，y，t)的像素點特征f(x， y，t)，其中（X，y)表示像素點的平面坐標，t 表示像素點的視頻幀信息；
[0013] 特征提取的方式為梯度光流特征或者形狀協(xié)方差特征：
[0014] 當采用梯度光流特征時，分別計算像素點（x，y，t)的像素值沿x、y方向的一階、二階梯度絕對值：I Ix|，I Iy|，I IXX|，I Iyy|，沿X，y，t方向的光流U，V，W，以及U，V，W對時刻t求偏導數(shù)，貝時(叉，7,1:) = |^，〇]，其中）
[0015] 當采用形狀特征時，提取當前視頻塊的前景圖像，再在前景圖像中，分別計算坐標位置(x，y)到前景圖像的輪廓邊界的水平與垂直四個方向的距離咖，心，(1 5，如，坐標位置(^ y)至I」前景圖像的輪廓的最小外接矩形的頂點的距離d NE，d S w，d S e，d NW;計算像素點（X，y，t)所在視頻幀與當前視頻段的起始幀、結束幀的間隔幀數(shù)d t-、d t +，貝f (x，y，t) = [ x，y，t，d e，d w， ds, dN, dNE, dsw, dsE, dNW, cIt+ , cIt-]；
[0016]基于每個視頻段的行為特征向量f (x, y, t)構建n*n維(取決于f (x, y, t)的維度)協(xié) 方差矩陣
'其中
；表示視頻段的不同視頻幀的圖像區(qū)域，|S|表示圖像區(qū)域S的像素點數(shù)目；
[0017] 步驟2:將協(xié)方差矩陣F轉換到再生核希爾伯特空間，對行為特征向量進行核稀疏編碼；
[0018] 步驟3:基于核稀疏編碼，完成對各視頻段的人體行為分類學習及識別。
[0019] 優(yōu)選的，在將協(xié)方差矩陣F轉換到再生核希爾伯特空間之前，先采用對稱正定矩陣降維方法對協(xié)方差矩陣F進行降維處理。即將矩陣F轉換為F = WTXW，其中X為n*n維協(xié)方差矩陣，WSn*m維滿秩矩陣，降維后，將協(xié)方差矩陣F的變?yōu)閙*m維對稱矩陣，即m*m維協(xié)方差矩陣。
[0020] 步驟2中，將協(xié)方差矩陣F轉換到再生核希爾伯特空間，對行為特征向量進行核稀疏編碼可基于黎曼流行實現(xiàn)。即利用Stein核，在對稱正定矩陣空間（步驟1得到的協(xié)方差矩陣F，或者經(jīng)對稱正定矩陣降維處理后的將協(xié)方差矩陣F)，利用稀疏最大化方法進行字典D (黎曼字典)學習。利用Stein核，將黎曼流形（即步驟1得到的協(xié)方差矩陣F，或者經(jīng)對稱正定矩陣降維處理后的將協(xié)方差矩陣F)嵌入再生核希爾伯特空間(RKHS)進行核稀疏編碼，其具體步驟為：
[0021 ]步驟2-1:基于預設值初始化字典D，其中字典D包括n個字典原子Di，i = 1，2，…，N，且字典原子Di屬于維黎曼空間點集，其中字典D的初始值可以是隨機選擇的T個樣本，也可以是Karchar均值聚類中心；
[0022] 步驟2-2:基于字典D的當前取值，當前視頻段對應的m*m維的協(xié)方差矩陣F，查找使得||0(/) - Sf=iK0〇^)||2 + MNIIi取得最小的稀疏向量Vi，其中Vi為N維行向量;將m個核稀疏向量Vi構成核稀疏編碼V，其中RN表示1*N維實矩陣，函數(shù)0(〇表示將括號中的對象轉換到再生核希爾伯特空間，A表示預設系數(shù)；
[0023] 步驟2-3:對核稀疏編碼V、字典D進行迭代更新：
[0024] 固定核稀疏編碼V，更新字典D:基于當核前稀疏編碼V、當前視頻段對應的協(xié)方差矩陣F，查找使得||0CF：) - + ilhlk取得最小的字典原子Di，其中Di屬于維黎曼空間點集；
[0025] 固定字典D，更新核稀疏編碼V:基于當前字典D、當前視頻段對應的協(xié)方差矩陣F，查找使得||0(F) - + Whlli取得最小的核稀疏向量Vi，其中Vi為N維行向量；
[0026] 基于當前和上一次V、D更新結果，分別計算:供)f + 若兩次計算結果的差小于或等于預設閾值，則停止迭代更新，輸出當前核稀疏編碼V。
[0027] 其中，||0(X) - =? - 2i/rK^,Z),.) + v7'K(D,L〇r，X對應步驟 2-1 ~2-3 中描述的 F 或 Fj，其中 k(Di，Di)。其中函數(shù)k(X，Y)表示Stein核：用…，XN}表示黎曼流形的非空集合，函數(shù)(p: Q X Q =尺+是黎曼核，若識(足K) = <p(K, ；〇,且匕產(chǎn)內(nèi)免(七\)2()(;1叫表示任意實向量，Xi，Xj表示黎曼空間的點），則函數(shù)
其中，函數(shù) k(X，Y)的輸入?yún)?shù)X，YG Q，S(X，Y)表示stein距離，〇表示預設系數(shù)，det( ?)表示矩陣行列式。即上述1^，01)、（01，01)基于函數(shù)1^，￥)進行求解。
[0028] 綜上所述，由于采用了上述技術方案，本發(fā)明的有益效果是：
[0029] a)提出兩種全局協(xié)方差特征描述方法，梯度光流協(xié)方差可以表征運動信息，形狀協(xié)方差可以表征運動形狀變化信息。
[0030] b)在對稱正定矩陣空間對協(xié)方差進行降維，不僅可以降低特征維數(shù)并且可以提高特征類內(nèi)聚合度以及類間離散度，從而提高計算速度和識別準確率。
[0031 ] c)在Stein核的基礎上，采用稀疏最大化進行黎曼字典學習，從黎曼空間嵌入再生核希爾伯特空間進行稀疏編碼。
【附圖說明】
[0032]圖1是【具體實施方式】的處理流程圖。
【具體實施方式】
[0033]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚，下面結合實施方式和附圖，對本發(fā) 明作進一步地詳細描述。
[0034]參見圖1，本發(fā)明的實現(xiàn)包括下列步驟：
[0035] 步驟S01:輸入視頻。
[0036]步驟S02:提取輸入視頻的協(xié)方差特征，即提取行為特征向量f(s)。
[0037]首先，將輸入視頻分成長度為L幀（一個完整的人體行為大約為0.4s~0.6s，L的長度至少設置為涵蓋完整人體行為，通常L可取20)且相互重疊的視頻段。提取視頻段的移動步長可根據(jù)實際情況調整(如設置為8幀）。
[0038]對視頻段的像素點進行特征提取，得到像素點(x，y，t)的行為特征向量f(x，y，t)，令f ( s ) = f ( x，y，t )，對行為特征向量f ( s )進行組合計算協(xié)方差矩陣F，即
:.，其中
，其中cov(F)表示協(xié)方差矩陣F，S表示視頻段的不同時空立方塊對應的區(qū)域，|S|表示時空立方塊S中像素點總數(shù)目，s表示區(qū)域S中的像素點。若對像素點(x，y，t)采用梯度光流特征進行行為特征向量提取時，則可得到12*12維的協(xié)方差矩陣F;若對像素點(x，y，t)采用形狀特征進行行為特征向量提取時，則可得到13* 13維的協(xié)方差矩陣F。
[0039]采用對稱正定矩陣降維方法對cov(F)進行降維，得到降維后的協(xié)方差矩陣F'，其中F為n*n維協(xié)方差矩陣。
[0040] 步驟S03:基于協(xié)方差矩陣K，將協(xié)方差矩陣F轉換到再生核希爾伯特空間，對行為特征向量進行核稀疏編碼，即基于字典D和核稀疏編碼的迭代更新，得到對應的核稀疏編碼
[0041] 步驟S04:基于核稀疏編碼，完成對各視頻段的人體行為分類及識別。在對訓練樣本進行人體行為分類處理時，可以采用直接分類方法，利用殘差對行為特征向量進行分類；也可以采取歐式空間分類學習方法對編碼后的行為特征向量進行分類學習，例如SVM、kNN (K近鄰分類)等。
[0042]將本反用于標準人體行為數(shù)據(jù)庫Weizmann、KTH、ADL進行人體行為識別實驗，表明本發(fā)明提出的技術方案相較于傳統(tǒng)方案具有更好的識別準確率，并對視角變化、人體行為差異以及低分辨率具有良好的魯棒性。
[0043]以上所述，僅為本發(fā)明的【具體實施方式】，本說明書中所公開的任一特征，除非特別敘述，均可被其他等效或具有類似目的的替代特征加以替換;所公開的所有特征、或所有方法或過程中的步驟，除了互相排斥的特征和/或步驟以外，均可以任何方式組合。
【主權項】
1. 一種基于核稀疏編碼的人體行為識別方法，其特征在于，包括下列步驟：步驟1:提取輸入視頻的行為特征：將輸入視頻分成長度固定且相互重疊的視頻段;分別對各視頻段的像素點進行特征提取，得到像素點（X，y，t)的像素點特征f(x，y，t)，其中（x，y)表示像素點的平面坐標，t表示像素點的視頻幀信息；特征提取的方式為梯度光流特征或者形狀協(xié)方差特征：當采用梯度光流特征時，分別計算像素點（X，y，t)的像素值沿X、y方向的一階、二階梯度絕對值：| IX|，| Iy |，| Ixx|，| Iyy |，沿X，y，t方向的光流U，V，W，以及U，V，W對時刻t求偏導數(shù)，當采用形狀特征時，提取當前視頻塊的前景圖像，再在前景圖像中，分別計算坐標位置（X，y)到前景圖像的輪廓邊界的水平與垂直四個方向的距離辦，心，(15，如，坐標位置 (X，y )到前景圖像的輪廓的最小外接矩形的頂點的距離dNE，dsw，dsE，dNW;計算像素點 (X，y，t )所在視頻幀與當前視頻段的起始幀、結束幀的間隔幀數(shù)4，則 [(χ.\\?)-\χ.\\?.?Ι Λ?^Μκ,?Ιχ.?Ι^} ,dsn .dt <」；基于每個視頻段的行為特征向量f ( X，y，t )構建協(xié)方差矩陣F :4表示視頻段的不同視頻幀的圖像區(qū)域，|s|表示圖像區(qū)域S的像素點數(shù)目；步驟2:將協(xié)方差矩陣F轉換到再生核希爾伯特空間，對行為特征向量進行核稀疏編碼；步驟3:基于核稀疏編碼，完成對各視頻段的人體行為分類及識別。2. 如權利要求1所述的方法，其特征在于，還包括采用對稱正定矩陣降維方法對協(xié)方差矩陣F進行降維處理后再轉換到再生核希爾伯特空間。3. 如權利要求1或2所述的方法，其特征在于，對行為特征向量進行稀疏編碼的過程為：步驟2-1:基于預設值初始化字典D，其中字典D包括η個字典原子Di，1 = 1，2，一，1且字典原子〇,屬于維黎曼空間點集；步驟2-2:基于字典D的當前取值，當前視頻段對應的m*m維的協(xié)方差矩陣F，查找使得 ||0(F) - Sf=j_A0C^)|r + Jbilli取得最小的核稀疏向量Vi，其中Vi為N維行向量;將m個稀疏向量Vi構成核稀疏編碼V，其中RN表示1*N維實矩陣，函數(shù)0:(·)表示將括號中的對象轉換到再生核希爾伯特空間，λ表示預設系數(shù)；步驟2-3:對核稀疏編碼V、字典D進行迭代更新：固定核稀疏編碼V，更新字典D:基于當前核稀疏編碼V、當前視頻段對應的協(xié)方差矩陣 F，查找使得||:0Ci〇 - + Akilli取得最小的字典原子Di，其中Di屬于維黎曼空間點集；固定字典D，更新核稀疏編碼V:基于當前字典D、當前視頻段對應的協(xié)方差矩陣F，查找使得||0(/〇 - + 得最小的核稀疏向量Vi，其中Vi為N維行向量;基于當前和上一次V、D更新結果，分別計算，若兩次計算結果的差小于或等于預設閾值，則停止迭代更新，輸出當前核稀疏編碼V。
【文檔編號】G06K9/46GK105930790SQ201610241121
【公開日】2016年9月7日
【申請日】2016年4月19日
【發(fā)明人】解梅, 黃成揮, 程石磊, 劉伸展
【申請人】電子科技大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：解梅;黃成揮;程石磊;劉伸展;
技術所有人：電子科技大學;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于核稀疏編碼的人體行為識別方法