基于骨架信息的時不變及視不變的人體行為識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及行為識別方法,具體涉及一種基于骨架信息的時不變及視不變的人體 行為識別方法。
【背景技術(shù)】
[0002] 人體行為識別在視頻監(jiān)控,人機交互,視頻提取等很多領(lǐng)域都扮演著十分重要的 角色。人體行為識別可以適用到犯罪偵查、病人照護、養(yǎng)老院等領(lǐng)域。在過去的一段時間, 機器視覺類任務(wù)大多數(shù)基于人工設(shè)計的特征,如尺度不變特征變換(SIFT),方向梯度直方 圖(HOG),運動歷史圖像(MHI)等。然而很多經(jīng)典的視覺識別方法僅僅是通過拼湊現(xiàn)有的一 些成功方法而實現(xiàn)。有學(xué)者認為,行為識別的研究在近些年的研究進展非常緩慢。深度相 機的出現(xiàn)使得研究者可以重新考慮圖像處理和機器視覺的一些問題。與RGB相機相比拍攝 顏色和紋理信息不同,深度相機能記錄人體的深度信息,從這些信息中能夠獲得人體的幾 何信息和骨架信息。而且,深度相機對光線的變化不敏感,因而在視頻分割、目標識別、行為 識別等視覺任務(wù)中比傳統(tǒng)的RGB視頻具有更好的可分辨性。
[0003] 現(xiàn)在人們對行為識別的研究專注于尋找人體行為類別和骨架信息之間的潛 在關(guān)系,如:基于李群和3D骨架點的人體行為識別"Human action recognition by representing 3D skeletons as points in a lie group,',見[1],該行為識別方法計算 復(fù)雜度高,花費時間長,提取單個視頻所有特征的平均時間為6. 53秒,不便于推廣使用。 如:一種基于3D關(guān)節(jié)直方圖的視不變?nèi)梭w行為識別方法"View invariant human action recognition using histograms of 3D joints,"見[2],該識別方法丟失了關(guān)節(jié)前后幀間 的上下文信息,識別正確率低。如:3D人體行為識別中的時空姿勢表示"Space-time pose representation for 3d human action recognition," 見[3],該行為識別方法僅僅研究 姿勢,即以圖像為研究基準,通過圖像進行識別,不僅對視頻拍攝設(shè)備要求高,而且使獲得 的信息識別率低。又如:自然人機交互中的行為識別"Activity recognition for natural human robot interaction,"見[4],該行為識別研究人機交互,識別效率低。因此通過骨 架關(guān)節(jié)信息建模身體不同部位的3D幾何關(guān)系可以表示人體的一個姿勢,但是現(xiàn)有的識別 效率低,時間開銷更大。
[0004] 文南犬[l]Vemulapalli,F(xiàn). Arrate,and R. Chellappa,''Human action recognition by representing 3D skeletons as points in a lie group,',in Computer Vision and Pattern Recognition(CVPR),2014 IEEE Conference on,2014,pp.588-595。
[0005] 文獻[2] L. Xia,C.-C. Chen,and J. K. Aggarwal,"View invariant human action recognition using histograms of 3D joints,',in Computer Vision and Pattern Recognition Workshops (CVPRff),2012IEEE Computer Society Conference on,2012, pp.20-27〇
[0006] 文獻[3]M. Devanne,H. Wannous,S. Berretti,P. Pala,M. Daoudi,and A. Del Bimbo. "Space-time pose representation for 3d human action recognition,',in New Trends in Image Analysis and Processing_ICIAP2013. Springer,2013,pp.456_464〇
[0007] 文南犬[4] A. Chrungoo,S. Manimaran,and B. Ravindran,"Activity recognition for natural human robot interaction," in Social Robotics. Springer,2014, pp.84-94〇
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的目的是為了克服現(xiàn)有技術(shù)的不足,提供一種基于骨架信息的時不變及視 不變的人體行為識別方法,該識別方法簡單直觀,識別正確率高,且識別時間短。
[0009] 本發(fā)明的目的可以通過以下技術(shù)方案實現(xiàn):
[0010] 一種基于骨架信息的時不變及視不變的人體行為識別方法,其特征在于:包括以 下步驟:
[0011] 1)提取人體行為視頻段,并將不同長度的視頻段規(guī)范化到一個固定的視頻長度;
[0012] 2)根據(jù)所得的固定長度的視頻提取骨架信息,即從視頻的每一幀中提取表達人體 行為的二十個關(guān)節(jié)信息;
[0013] 3)根據(jù)每一幀中提取表達人體行為的二十個關(guān)節(jié)信息提取三個特征向量,即從視 頻每一幀中二十個關(guān)節(jié)的信息計算處理得出以兩髖中心為基準的特征向量HCBV,角度特征 向量AV及相對位置特征向量PRPV,所述以兩髖中心為基準的特征向量HCBV,以每一幀兩髖 中心關(guān)節(jié)為坐標原點,計算該幀其他關(guān)節(jié)到原點的距離d,仰角Φ和方位角Θ三個參數(shù),將 該視頻所有幀中除原點以外的其他關(guān)節(jié)到原點的距離d,仰角Φ和方位角Θ三個參數(shù)串接 即為HCBV;所述角度特征向量AV是將該視頻所有幀中兩相鄰關(guān)節(jié)之間的夾角串接而成的 向量;所述相對位置特征向量PRPV是將該視頻所有幀中某一關(guān)節(jié)相對于其他關(guān)節(jié)之間的 相對位置串接而成的向量;
[0014] 4)對得到的三個特征向量分別進行分類識別:采用支持向量機分類器分別對以 兩髖中心為基準的特征向量HCBV進行分類識別,對角度特征向量AV進行分類識別,對相對 位置特征向量PRPV行分類識別,得出各個行為類別的識別概率;
[0015] 5)對各行為類別的識別概率進行融合:對以兩髖中心為基準的特征向量HCBV、角 度特征向量AV及相對位置特征向量PRPV得出的各個行為類別的識別概率進行加權(quán)求和融 合得到行為的識別結(jié)果,其中以兩髖中心為基準的特征向量HCBV的權(quán)值為0. 4,角度特征 向量AV的權(quán)值為0. 3,相對位置特征向量PRPV的權(quán)值為0. 3。
[0016] 所述二十個關(guān)節(jié)分別是兩髖中心、脊、兩肩中心、頭、左肩、左肘、左腕、左手、右肩、 右肘、右腕、右手、左髖、左膝、左踝、左腳、右髖、右膝、右踝、右腳。
[0017] 所述提取人體行為視頻段,先要對各視頻長度進行預(yù)處理,采用視頻幀規(guī)則化插 值法將不同視頻長度的視頻段規(guī)范化到一個相同的視頻長度。
[0018] 所述以兩髖中心為基準的特征向量HCBV的計算方法是從視頻的每一幀中提取以 兩髖中心關(guān)節(jié)為坐標原點,其他關(guān)節(jié)到原點的距離d,仰角Φ和方位角Θ三個參數(shù),然后將 該視頻中所有幀的其他關(guān)節(jié)到原點的距離d,仰角Φ和方位角Θ進行向量化處理形成基準 特征向量;若所述視頻中含有tNum幀,則該特征向量的維度為3 X 19 X tNum。