專利名稱:基于在線序貫極限學習機的遞增式人體行為識別方法
技術(shù)領域:
本發(fā)明涉及一種利用機器視覺進行人體行為識別的方法,屬于模式識別技術(shù)領域。
背景技術(shù):
基于視頻的人的行為識別在機器人學、人機交互、基于視頻的智能監(jiān)控、運動分析、基于內(nèi)容的視頻檢索等領域應用廣泛,是計算機視覺中一個研究熱點,有著廣泛的應用前景和潛在的經(jīng)濟和社會價值,因而得到了廣大科研工作者及相關(guān)商家的高度關(guān)注。在機器人學方面,研究人的步態(tài)特征為雙足機器人的步態(tài)規(guī)劃提供理論基礎;在構(gòu)建和諧社會,維護社會穩(wěn)定以及犯罪技術(shù)偵察等方面,基于視頻的智能監(jiān)控發(fā)揮著不可
估量的作用,理解人的行為則是關(guān)鍵;在人機交互方面,未來的人機交互將是基于人的手勢、行為、表情等智能化的交互方式,行為識別的研究為智能人機交互提供了技術(shù)支持;在體育運動分析方向中,分析人的行為并進行數(shù)字量化為體育運動打破傳統(tǒng)的憑經(jīng)驗練習并向數(shù)字化體育發(fā)展打下堅實基礎;21世紀是數(shù)字化時代,互聯(lián)網(wǎng)上的信息尤其是視頻信息呈指數(shù)型迅速增長趨勢,如何檢索到想要的視頻信息并歸類是一個亟待解決的問題,基于視頻的人體行為分析為解決此問題提供了技術(shù)解決方案。然而,由于真實自然環(huán)境復雜多變(如背景復雜、環(huán)境光照變化),人的個體差異(身高、外形、衣服等),獲得視頻圖像的視角不同,以及人們完成某一動作的方式和速度不同,使得基于視頻的人體行為識別問題是一個非常具有挑戰(zhàn)性的問題。針對基于視頻圖像的人體行為識別問題,研究者們提出了很多檢測和描述基于視頻圖像的人體行為特征的方法。2003年《Proceedings of Ninth IEEE InternationalConference on Computer Vision》(第九屆IEEE計算機視覺國際會議論文集)在432-439頁發(fā)表的《Space-time interest points))(時空興趣點)將二維Harris角點檢測算法擴展到三維時空,首次提出了時空興趣點檢測子-3D Harris角點檢測子,將那些灰度值在時間和空間都有很大變化的區(qū)域定義為三維角點。由于同時滿足條件的區(qū)域較少,故3D Harris角點具有稀疏性。2005 年《Proceedings of2ndJoint IEEE International Workshop onVisual Surveillance and performance Evaluationof Tracking and Survei I lance〉〉(第二屆IEEE視頻監(jiān)控和跟蹤與監(jiān)控性能評價聯(lián)合國際研討會會議論文集》在65-72頁發(fā)表的((Behavior recognition via sparse spatio-temporal features))(基于稀疏時空特征的行為識別)提出Cuboids檢測算法,在空間2D高斯濾波器的基礎上引入時間ID Gabor濾波器,將響應函數(shù)高于某一閾值的區(qū)域定義為時空興趣點。2008年《Proceedingsof EuropeanConference on Computer Vision》(歐洲計算機視覺國際會議論文集)在650-663頁發(fā)表的((An Efficient Dense and Scale-Invariant Spatio-Temporal Interest PointDetector))(一種有效的高密度和尺度不變的時空興趣點檢測子)首次將二維Hessian檢測子擴展到時空領域得到Hessian時空興趣點(Hes-STIP)檢測子,檢測到的時空興趣點在時間和空間上尺度不變并且能夠密集地覆蓋視頻內(nèi)容,利用三維Hessian矩陣的行列式,將興趣點定位與尺度選擇合二為一,避免了迭代運算。2009年《Proceedings of IEEEConference on Computer Vision and Pattern Recognition)) (IEEE 計算機視覺與模式識別國際會議論文集)在1996-2003頁發(fā)表的《Recognizing realistic actions fromvideos "in the wild”》(自然環(huán)境下人體行為識別)從視頻中提取運動特征和靜態(tài)特征,利用運動統(tǒng)計特性獲取穩(wěn)定的運動特征,并對靜態(tài)特征進行去噪處理,使用Cuboid檢測子檢測運動特征,而靜態(tài)特征的提取則通過檢測感興趣的區(qū)域,利用運動線索和網(wǎng)頁排名技術(shù)實現(xiàn),改善了復雜自然環(huán)境下人體行為識別精度。2011年《Neurocomputing》(神經(jīng)計算)在74 (6) :962-973 頁發(fā)表的((Transform based spatio-temporal descriptors for humanaction recognition))(基于變換的時空描述子的人體行為識別)將基于變換的方法應用到動作識別領域采用Cuboid檢測子提取視頻幀的興趣點,利用基于變換(離散傅里葉變換(DFT)、離散余弦變換(DCT)、離散小波變換(DWT))的H0G/H0F描述子對Cuboid檢測子提取出的興趣點進行描述。2009 年《Proceedingsof the 13th International ConferenceonComputer Analysisof Images and Patterns))(第13屆圖像和模式計算機分析國際會議論文集)在 740-747 頁發(fā)表的((Human action recognition using LBP-TOP as sparsespatio-temporal feature descriptor》(基于LBP-TOP稀疏時空特征描述子的人體行為·識別)用 Cuboid 檢測子提取興趣點,利用 Local Binary Pattern on Three OrthogonalPlanes (LBP-TOP)描述子描述提取到的興趣點及其鄰域,生成時空單詞(spatial-temporalwords)用以表不人的行為。2008 年《International Journal of Computer Vision》(計算機視覺國際期刊)在 79 (3):299-318 頁發(fā)表的《Unsupervised learning of human actioncategories using spatial-temporal words》(基于時空單詞的非監(jiān)督的人體行為學習)應用Cuboid檢測子從視頻序列中提取興趣點,利用HoG描述子描述提取到的興趣點,生成視覺單詞,應用概率潛在語義分析模型(Probabilistic Latent Semantic Analysis)學習和分類人體行為,該方法不僅可以識別多個單動作視頻序列,而且可以識別一個長視頻中的多個動作。2008 年《Proceedings of IEEE International Conference on ComputerVision and Pattern Recognition》(IEEE計算機視覺與模式識別國際會議論文集)在1-8頁發(fā)表的《Recognizing human actions using multiple features》(基于多特征的人體行為識別)將視覺單詞表示的局部特征和反映人的體型變化的全局特征相結(jié)合實現(xiàn)人體行為識別。在特征檢測和識別基礎上,研究者們應用閾值法、支持向量機、隱馬爾科夫模型以及神經(jīng)網(wǎng)絡等離線分類器分類和識別人體行為。2008年《Proceedingsof EuropeanConference on Computer Vision》(歐洲計算機視覺國際會議論文集)在650-663頁發(fā)表的((An Efficient Dense and Scale-Invariant Spatio-Temporal Interest PointDetector))(一種有效的高密度和尺度不變的時空興趣點檢測子)應用Kmeans聚類算法聚類從視頻集中提取的運動特征向量構(gòu)造視覺詞匯表,利用支持向量機(SVM)分類器分類和識別人體行為,SVM分類器的建立需要大量的訓練樣本和較長的訓練時間。2010年《Neurocomputing》(神經(jīng)計算)在 73 (10-12) : 1906-1917 頁發(fā)表的《Human actionrecognition using extreme learning machine basedon visual vocabularies〉〉(基于視頻詞匯利用極限學習機的人體行為識別)將時空特征和局部靜態(tài)特征相結(jié)合,應用三維二元樹復小波變換(3D DT-CWT)和仿射SIFT (ASIFT)局部描述子檢測和描述時空特征和局部靜態(tài)特征,建立詞包模型,然后利用極限學習機ELM分類器進行分類。2005年《Proceedingsof IASTED International Conference onComputational Intelligence)))(計算機智倉泛國際會議論文集)發(fā)表的《On-line sequential extreme learning machine))(在線序貫極限學習機)提出一種基于單隱層前饋神經(jīng)網(wǎng)絡的在線學習算法一在線序貫極限學習機(0S-ELM),這種基于批量學習的極限學習機,學習速度快,具有在線學習能力。人的行為識別在人機交互、基于視頻的智能監(jiān)控、運動分析、基于內(nèi)容的視頻檢索等領域應用非常廣泛,隨著處理器速度的大幅度提升和攝像機價格的下降,基于視覺的行為識別系統(tǒng)越來越受到研究者的關(guān)注?;跈C器視覺的行為識別系統(tǒng),不需要復雜的設備,尤其伴隨著視覺算法的不斷進步,識別行為的準確率不斷提高,但是這種系統(tǒng)也有著不足。到目前為止,大部分識別系統(tǒng)是首先檢測三維時空特征點,然后對特征點進行描述,用該特征向量建立模型,然后進行離線分類器的學習與訓練。利用離線分類器訓練的分類模型只適用于特定的環(huán)境或特定的人,由于離線分類器訓練的特點,需要被檢測對象和訓練對象具有一致性,所以當視頻圖像中人的大小和姿態(tài)、環(huán)境等與訓練樣本嚴重不一致時,無法進行精確的行為識別,可移植性不好。此外,離線分類器一般都是對分類樣本一個一個地學習,學習速度慢,實時性不好。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有基于視頻的人體行為識別方法存在的不足,提出一種基于在線序貫極限學習機的遞增式人體行為識別方法,該方法基于在線序貫極限學習機分類器對人體行為進行識別,不但能夠在訓練樣本很少的情況下,以較少的訓練時間,獲得較為精確的人體行為識別結(jié)果,而且具有在線學習能力,即當環(huán)境和識別對象發(fā)生變化時,無需重新訓練新的分類器,只需在現(xiàn)有的分類器基礎上繼續(xù)在線學習就可以達到人體行為的準確識別。本發(fā)明的基于在線序貫極限學習機的遞增式人體行為識別方法,基于以下條件在靜態(tài)背景環(huán)境下,人的活動范圍能夠用攝像機捕捉到;具體包括以下步驟(I)采用3D Harris角點檢測子提取視頻中的時空興趣點,定義時空角函數(shù)在時間和空間同時取得局部最大的極值點為時空興趣點;3D Harris角點檢測子能夠有效地檢測視頻中的三維角點(即典型運動部位的特征點),3D Harris檢測子可以很好地利用角點信息來表示人的動作。該步驟具體實現(xiàn)方法是3D Harris檢測子是將Harris角點檢測子從空間(x, y)擴展到時空(x, y, t)得到的,定義的時空角函數(shù)為H=det ( μ ) -ktrace3 ( μ ), H>0,其中,時空二階矩a)=辦.;64)*(財(.;64)(Vi(w,)f),上標T 表示矩陣轉(zhuǎn)置,O1, ^分別為局部空間和時間尺度,Oi=SO1和Ti=S T1為集成尺度,i表示集成,系數(shù)S把局部空間和時間尺度O1, ^轉(zhuǎn)變?yōu)榧沙叨萇i, Ti, S的取值范圍為(0,1),g(x,y,t; σ2,τ2)為高斯平滑函數(shù),σ, τ分別為空間和時間尺度M 為 γΑσ2,!1) = -1=====I;====== X exp(—(X2 + /) / 2σ2 —12 / 2r2),
^{2π)'σ rm是時空梯度
權(quán)利要求
1.一種基于在線序貫極限學習機的遞增式人體行為識別方法,其特征是,基于以下條件在靜態(tài)背景環(huán)境下,人的活動范圍能夠用攝像機捕捉到;具體包括以下步驟 (1)采用3DHarri s角點檢測子提取視頻中的時空興趣點,定義角函數(shù)在時間和空間同時取得局部最大的極值點為空興趣點; (2)利用3DSIFT描述子計算檢測到的時空興趣點的描述子; (3)采用K-means聚類算法生成視頻詞典,建立視頻圖像的詞包模型; (4)用得到視頻詞包模型訓練在線序貫極限學習機分類器; (5)利用在線序貫極限學習機分類器進行人體行為識別,并進行在線學習。
2.根據(jù)權(quán)利要求I所述的基于在線序貫極限學習機的遞增式人體行為識別方法,其特征是,所述步驟(I)的具體實現(xiàn)方法是 3D Harris檢測子是將Harris角點檢測子從空間(x, y)擴展到時空(x, y, t)得到的,定義的時空角函數(shù)為 H=det ( μ ) -ktrace3 ( μ ), H>0, 其中,時空二階矩Γ)(ν (·;σ,Γ)/),上標T表示矩陣轉(zhuǎn)置,O1, ^分別為局部空間和時間尺度,Oi = SO1和Ti = S h為集成尺度,i表示集成,系數(shù)s把局部空間和時間尺度0l,^轉(zhuǎn)變?yōu)榧沙叨萉i, Ti, s的取值范圍為(0,1),g(x,y,t; σ2,τ2)為高斯平滑函數(shù),σ, τ分別為空間和時間尺度g(^,yj;a2,r2) = —I..........................................................................................................;:=Xexp(—(I2 + r)/ 2σ2 — 2 /2r2) —^(2πγσ4τ~ ▽/.是時空梯度 r 4 kh 441 (ν£(·;σ,Γ)(¥/,(·;σ Γ))Γ)= LxLj L2y LyLt , v44 LyLl 4 J 其中,Lx(.af,rf) = cv(g*f),rf) = c,(g*f)- 其中,f = R2XR — R為構(gòu)造函數(shù),Lx、Ly和Lt分別為視頻圖像上三維時空點(X,y, t)在X,y, t方向上的梯度; 通過尋找角函數(shù)在時間和空間同時取得局部最大的極值點來檢測時空興趣點。
3.根據(jù)權(quán)利要求I所述的基于在線序貫極限學習機的遞增式人體行為識別方法,其特征是所述步驟(2)的具體實現(xiàn)方法是 通過在方向直方圖中增加一個深層維度,將2D SIFT描述子(x,y)擴展到3D SIFT描述(X,y, t),梯度值的計算公式為(x, V,/) = ψ + ^ + Ι; r Θ (X,y, t) =tan_1 (Ly/Lx),
全文摘要
一種基于在線序貫極限學習機的遞增式人體行為識別方法,該方法基于所有人的活動范圍能夠用攝像機捕捉到人體;包括以下步驟(1)采用3D Harris角點檢測子提取視頻中的時空興趣點;(2)利用3D SIFT描述子計算檢測到的時空興趣點的描述子;(3)采用K-means聚類算法生成視頻詞典,建立視頻圖像的詞包模型;(4)用得到視頻詞包模型訓練在線序貫極限學習機分類器;(5)利用在線序貫極限學習機分類器進行人體行為識別,并進行在線學習。該方法不但能夠在訓練樣本很少的情況下,以較少的訓練時間,獲得較為精確的人體行為識別結(jié)果,而且對于環(huán)境場景變化、環(huán)境光照變化、檢測對象變化、人體形態(tài)變化具有一定的不敏感性。
文檔編號G06K9/66GK102930302SQ201210398379
公開日2013年2月13日 申請日期2012年10月18日 優(yōu)先權(quán)日2012年10月18日
發(fā)明者馬昕, 周生凱, 李貽斌 申請人:山東大學