一種多視角動作識別方法
【專利摘要】本發(fā)明公開了一種多視角動作識別方法,包括動作訓(xùn)練和動作識別兩個過程。動作訓(xùn)練時,通過二維條件隨機(jī)場的方法訓(xùn)練分類器;動作識別過程包括如下步驟:提取時空興趣點;計算特征描述子;特征描述子降維;特征描述子聚類,獲得預(yù)處理文件;將預(yù)處理文件送入訓(xùn)練過程中得到的分類器。本發(fā)明充分利用了時空興趣點之間的時空關(guān)系,有效地描述了不同動作之間的特征;采用K-means聚類將不同動作聚集到不同的類別,增加了動作識別的區(qū)分度;通過引入二維條件隨機(jī)場,對單個攝像頭下的時間動作序列及多個攝像頭之間的空間動作序列進(jìn)行有效的建模,使得訓(xùn)練模型更加準(zhǔn)確,從而實現(xiàn)了對人體動作的有效識別。
【專利說明】一種多視角動作識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機(jī)視覺【技術(shù)領(lǐng)域】,特別涉及一種多視角動作識別方法。
【背景技術(shù)】
[0002] 使用攝像機(jī)和計算機(jī)代替人眼"看",也就是計算機(jī)視覺技術(shù),開始得到了越來越 多的關(guān)注。該技術(shù)通過攝像機(jī)攝像以及使用計算機(jī)內(nèi)的預(yù)設(shè)算法進(jìn)行運(yùn)算,可以對圖像、視 頻識別,并做進(jìn)一步的處理,該種技術(shù)試圖建立一種從圖像或者視頻中獲取信息并處理的 人工智能系統(tǒng)。
[0003] 而且,隨著視頻監(jiān)控技術(shù)的日益成熟和監(jiān)控設(shè)備的普及,攝像機(jī)等監(jiān)控設(shè)備的成 本的日益降低,視頻信息的獲得變得更加的容易和方便,同時視頻信息的質(zhì)量也越來越高。 基于此,人體動作識別得到越來越多的關(guān)注。特別對于火車站、機(jī)場、地鐵、銀行、監(jiān)獄等一 些對安全要求較高的公共場所,一旦有危險可疑行為發(fā)生時,若計算機(jī)能夠準(zhǔn)確地識別并 發(fā)出警報,對于安保甚至反恐工作有著重要的意義。
[0004] 人體動作識別往往既需要提取特征來合理的描述人體動作,又需要設(shè)計分類器來 準(zhǔn)確的區(qū)分不同的動作。
[0005] 目前,動作描述方法大致分為三類:基于全局特征的方法、基于局部特征的方法以 及多特征融合的方法?;谌痔卣鞯姆椒ǎ绻饬?、運(yùn)動能量圖、運(yùn)動歷史圖、方向梯度直 方圖、時空體等;基于局部特征的方法,如時空興趣點、Harris興趣點、三維尺度不變特征 轉(zhuǎn)換等。
[0006] 動作識別方法大致分為模板匹配、生成模型、判別模型三類。
[0007] 模板匹配就是通過計算待識別模板與已知模板的相似度,把相似度最大的已知模 板所對應(yīng)的類別作為識別結(jié)果。生成模型基于一個聯(lián)合概率函數(shù)建立觀察值與類別間的關(guān) 系,通過訓(xùn)練得到每個類別的模型參數(shù),然后分別計算待識別動作與每個模型的匹配程度, 將最匹配的類別作為識別結(jié)果。生成模型主要包括隱馬爾科夫模型、潛在狄利克雷分配模 型、概率潛在語義分析模型等。判別模型主要包括支持向量機(jī)、條件隨機(jī)場等。
[0008] 模板匹配的優(yōu)點是算法簡單易實現(xiàn),時間開銷少,對相差比較大的行為識別效果 較好,但對細(xì)微差別的行為識別效果較差,對運(yùn)動持續(xù)時間的變化及噪聲比較敏感。
[0009] 生成模型中,隱馬爾科夫模型被廣泛使用。隱馬爾科夫模型基于兩個假設(shè):輸出獨 立性假設(shè)和馬爾科夫性假設(shè)。由于其輸出獨立性假設(shè)要求觀察值序列嚴(yán)格相互獨立才能保 證推導(dǎo)的正確性,導(dǎo)致其不能考慮上下文的特征,即不能適應(yīng)存在依賴關(guān)系的觀察值序列。 而且傳統(tǒng)隱馬爾科夫模型的鏈狀結(jié)構(gòu)能夠為簡單的動作,如走、跑等,進(jìn)行較好的建模,但 對于較為復(fù)雜的運(yùn)動,如交互行為、場景事件等,不能得到很好的結(jié)果,所以也無法實現(xiàn)多 視角的人體動作識別。
[0010] 判別模型中,條件隨機(jī)場被廣泛使用。條件隨機(jī)場對整個觀察值序列進(jìn)行建模,它 使用了一種概率圖模型,具有表達(dá)長距離依賴性和交疊性特征的能力,并不在每一個節(jié)點 進(jìn)行歸一化,而是所有特征進(jìn)行全局歸一化,因此可以求得全局的最優(yōu)值。然而,對于多視 角的人體動作存在兩種觀察值序列,一種是單個攝像頭下的時間動作序列,另一種是多個 攝像頭之間的空間動作序列,顯然,一維的線性條件隨機(jī)場已不能表達(dá)多視角的人體動作。 [0011] 綜上所述,模型匹配對細(xì)微差別的行為識別效果差、對運(yùn)動持續(xù)時間的變化及噪 聲比較敏感,生成模型不能適應(yīng)存在依賴關(guān)系的觀察值序列且對于較復(fù)雜的運(yùn)動不能得到 很好的效果,判別模型只能使用一維的線性條件隨機(jī)場,由于上述方法都存在較大的缺陷, 所以提供一種對細(xì)微差別的行為識別效果強(qiáng)、對運(yùn)動持續(xù)時間的變化及噪聲不敏感、適應(yīng) 存在依賴關(guān)系的觀察值序列、對復(fù)雜動作識別能力強(qiáng)且能表達(dá)多視角的人體動作的方法成 為了本領(lǐng)域技術(shù)人員一直追求的目標(biāo)。
【發(fā)明內(nèi)容】
[0012] 由于現(xiàn)有技術(shù)存在對細(xì)微差別的行為識別效果差、對運(yùn)動持續(xù)時間的變化及噪聲 比較敏感、適應(yīng)存在依賴關(guān)系的觀察值序列、對于較復(fù)雜的運(yùn)動不能得到很好的效果、只能 使用一維的線性條件隨機(jī)場的問題,本發(fā)明提出了一種多視角動作識別方法。
[0013] 為實現(xiàn)上述技術(shù)目的,本發(fā)明具體提供了如下的技術(shù)方案:
[0014] 一種多視角動作識別方法,該方法包括如下步驟:(1)動作訓(xùn)練過程,通過二維條 件隨機(jī)場的方法訓(xùn)練并獲得分類器;(2)動作識別過程,利用步驟(1)獲得的分類器識別動 作;
[0015] 動作識別過程包括如下步驟:
[0016] S1 :對待識別視頻文件提取時空興趣點;
[0017] S2 :計算時空興趣點所在區(qū)域的特征描述子;
[0018] S3 :對S2中所有的特征描述子降維;
[0019] S4 :將S3中降維后的特征描述子聚類,獲得預(yù)處理文件;
[0020] S5 :將S4所得預(yù)處理文件送入訓(xùn)練過程中得到的分類器。
[0021] 通過使用二維條件隨機(jī)場的方法訓(xùn)練分類器,實現(xiàn)了在時間序列和空間序列的有 效的二維建模,使得訓(xùn)練模型的準(zhǔn)確度更高,為后續(xù)的多視角的人體動作的識別提供了基 礎(chǔ),能夠有效地識別人體動作。
[0022] 進(jìn)一步地,動作訓(xùn)練過程包括如下步驟:
[0023] XI :對訓(xùn)練視頻文件進(jìn)行人工標(biāo)注;
[0024] X2 :對訓(xùn)練視頻文件提取時空興趣點;
[0025] X3 :計算時空興趣點所在區(qū)域的特征描述子;
[0026] X4 :對步驟X3中的特征描述子構(gòu)成的集合抽樣,得到子集;
[0027] X5 :對步驟X4得到的子集中所有的特征描述子降維;
[0028] X6 :對步驟X5中降維后的特征描述子進(jìn)行聚類,獲得訓(xùn)練文件;
[0029] X7 :通過二維條件隨機(jī)場的方法,使用步驟X6所得的訓(xùn)練文件訓(xùn)練分類器。
[0030] 進(jìn)一步地,時空興趣點的提取方法為高斯濾波和Gabor濾波。
[0031] 通過在二維圖像平面進(jìn)行高斯濾波和在時間軸上一維Gabor濾波,可以檢測得到 稠密的時空興趣點。
[0032] 進(jìn)一步地,特征描述子包括方向梯度直方圖、光流直方圖。采用多種特征描述子, 增強(qiáng)特征描述的準(zhǔn)確性和全面性,為動作識別的有效性做好鋪墊。
[0033] 進(jìn)一步地,采用主成分分析的方法進(jìn)行降維。主成分分析能夠消除特征描述子之 間的相關(guān)影響,減少降維時特征描述子選擇的工作量,且這種方法便于在計算機(jī)上實現(xiàn),可 操作性強(qiáng)。
[0034] 進(jìn)一步地,對特征描述子進(jìn)行聚類的方法為K-mesns。對于大數(shù)據(jù)集時,這種算法 是相對可非常高效的。
[0035] 進(jìn)一步地,對步驟X3中的特征描述子構(gòu)成的集合進(jìn)行抽樣的方法是隨機(jī)抽樣。通 過概率的方式客觀地選取抽樣,保證了每個特征描述子被選取的概率相同,保證得到合適 的子集。
[0036] 本發(fā)明的有益效果為:本發(fā)明充分利用了時空興趣點之間的時空關(guān)系,有效地描 述了不同動作之間的特征;采用K-means聚類將不同動作聚集到不同的類別,增加了動作 識別的區(qū)分度;通過引入二維條件隨機(jī)場,對單個攝像頭下的時間動作序列及多個攝像頭 之間的空間動作序列進(jìn)行有效的建模,使得訓(xùn)練模型更加準(zhǔn)確,從而實現(xiàn)了對人體動作的 有效識別。
【專利附圖】
【附圖說明】
[0037] 圖1為動作訓(xùn)練過程流程圖。
[0038] 圖2為動作識別過程流程圖。
[0039] 圖3為二維條件隨機(jī)場的狀態(tài)序列圖。
【具體實施方式】
[0040] 下面結(jié)合附圖對本發(fā)明的結(jié)構(gòu)進(jìn)行詳細(xì)解釋說明。
[0041] 一種多視角動作識別方法,包括動作訓(xùn)練和動作識別兩個過程。
[0042] 如圖1所示,動作訓(xùn)練過程包括如下步驟:
[0043] XI :對訓(xùn)練視頻文件進(jìn)行人工標(biāo)注,共計4個視角,10類動作;
[0044] X2 :對訓(xùn)練視頻文件提取時空興趣點,本發(fā)明采用的是高斯濾波及Gabor濾波等 方法;
[0045] X3:計算時空興趣點所在區(qū)域的特征描述子,本發(fā)明的特征描述子包括方向梯度 直方圖、光流直方圖;
[0046] X4 :對步驟X3中的特征描述子構(gòu)成的集合通過隨機(jī)抽樣的方式,得到子集;
[0047] X5 :對步驟X4得到的子集中所有的特征描述子通過主成分分析的方式降維;
[0048] X6 :對步驟X5中降維后的特征描述子通過K-means進(jìn)行聚類,獲得訓(xùn)練文件;
[0049] X7 :通過二維條件隨機(jī)場的方法,使用步驟X6所得的訓(xùn)練文件訓(xùn)練分類器。
[0050] 如圖2所示,動作識別過程包括如下步驟:
[0051] S1 :對待識別視頻文件提取時空興趣點,本發(fā)明采用的是高斯濾波及Gabor濾波 等方法;
[0052] S2:計算時空興趣點所在區(qū)域的特征描述子,本發(fā)明的特征描述子包括方向梯度 直方圖、光流直方圖;
[0053] S3 :對S2中所有的特征描述子通過主成分分析的方式降維;
[0054] S4 :將S3中降維后的特征描述子通過K-means進(jìn)行聚類,獲得預(yù)處理文件;
[0055] S5 :將S4所得預(yù)處理文件送入訓(xùn)練過程中得到的分類器,實現(xiàn)多視角動作的識 別。
[0056] 需要說明的是,時空興趣點是典型的局部時空特征,分布在濾波器響應(yīng)局部較大 的區(qū)域,反映了該區(qū)域的圖像灰度值變化比較顯著,具有很好的特征描述和類別區(qū)分能力, 所以將響應(yīng)函數(shù)的局部極大值定義為時空興趣點。
[0057] 本發(fā)明中采用的聚類方法是K-means,主要原理是以特征空間中k個特征點為中 心進(jìn)行聚類,將最靠近某一特征點的特征集合歸為一類,并在不斷添加特征點的過程中更 新特征點中心的位置。具體的K-means算法步驟如下:算法之前先確定特征聚類的中心點 的個數(shù)k :
[0058] J1、隨機(jī)選擇k個訓(xùn)練樣本的特征值直接作為k個中心點;
[0059] J2、對每個新特征值計算離它最近的中心點,即確定其聚類中心點;
[0060] J3、添加進(jìn)去之后,計算此類特征值的新的中心點,即更新中心點的值;滿足收斂 需求則停止,不滿足則返回到J2。
[0061] 訓(xùn)練過程中,對十類兩人交互動作進(jìn)行訓(xùn)練,包括握手、揮手、擁抱、鞠躬、拳擊、推 開、頭擊、掌摑、鎖喉及單腿踢。每個動作由10組共14個演員表演三遍,每組由兩個演員組 成,所有動作都沒有具體的規(guī)范,由演員自由完成。所有視頻由四個角度不同的攝像機(jī)進(jìn)行 拍攝,視頻的幀率為每秒25幀,大小為400*320。該數(shù)據(jù)集共包含1200段視頻,每段視頻長 度約為150幀。
[0062] 如圖3所示,用二維條件隨機(jī)場的狀態(tài)序列圖表示多視角人體動作的時間序列和 空間序列,每行T代表單個攝像頭下的時間動作序列,每列C代表某個時間下多個攝像頭的 空間動作序列。
[0063] 傳統(tǒng)的一維條件隨機(jī)場只能表達(dá)一種觀察值序列,而本發(fā)明可以多視角地從時間 和空間的角度觀察、識別人體動作。
[0064] 為了方便說明,我們做了如下設(shè)定:
[0065] 圖3中,X = {Χ\Χ2, "·,Γ}為多視角動作序列,其中Γ = {χ?2,…,χ\}是第 c個視角的視頻序列,對應(yīng)于圖3的每一行;每個節(jié)點代表著一個隨機(jī)變量,對應(yīng)的狀態(tài)標(biāo) 簽為7^匕=匕,1,7\ 2,?,7\。}表示第《行的狀態(tài)序列,即視角《下所有時刻的狀 態(tài)序列;Tm= {71,"1,72,"1,一,7。," 1}表示第111列的狀態(tài)序列,即時刻111下所有視角的狀態(tài)序列; Arow(i,j)表示隨機(jī)變量yu所在行;厶。。1疆",j)表示隨機(jī)變量yu所在列;
[0066] Ι(ω) = {(i',j' ),,j' ) = ω}表示第ω行的隨機(jī)變量集合,即第 ω個視角的觀察值序列;
[0067] J(m) = {(i〃, j〃),ΔΜ?_(;?〃,j〃)= m}表示第m列的隨機(jī)變量集合,即第m時刻 的觀察值序列;
[0068] ΕΓΟΨ(ω) = {((i/ ), (i, j)) e Erow: (i/ ) e I ( ω-1), (i, j) e I ( ω )} 表示第ω-l行與第ω行之間的邊,即兩個視角間的空間依賴關(guān)系;
[0069] Εεο1"η(ω) = {((i", j"), (i, j)) e Ecolumn(i//, j") e J(m-l), (i, j) e J(m)} 第m-1列與第m列之間的邊,即兩個時刻間的時間依賴關(guān)系。
[0070] 構(gòu)造矩陣:Mm d, Tm | X) = exp (Wm d, Tm | X))
[0071 ] 將勢函數(shù)d,Tm | x)定義為:
[0072]
【權(quán)利要求】
1. 一種多視角動作識別方法,其特征在于:該方法包括如下步驟:(1)動作訓(xùn)練過程, 通過二維條件隨機(jī)場的方法訓(xùn)練并獲得分類器;(2)動作識別過程,利用步驟(1)獲得的分 類器識別動作; 動作識別過程包括如下步驟: 51 :提取待識別視頻文件的時空興趣點; 52 :計算時空興趣點所在區(qū)域的特征描述子; 53 :對S2中所有的特征描述子降維; 54 :將S3中降維后的特征描述子聚類,獲得預(yù)處理文件; 55 :將S4所得預(yù)處理文件送入訓(xùn)練過程中得到的分類器。
2. 根據(jù)權(quán)利要求1所述的多視角動作識別方法,其特征在于:動作訓(xùn)練過程包括如下 步驟: XI :人工標(biāo)注訓(xùn)練視頻文件; X2 :提取訓(xùn)練視頻文件的時空興趣點; X3 :計算時空興趣點所在區(qū)域的特征描述子; X4 :對步驟X3中的特征描述子構(gòu)成的集合抽樣,得到子集; X5 :對步驟X4得到的子集中所有的特征描述子降維; X6 :對步驟X5中降維后的特征描述子進(jìn)行聚類,獲得訓(xùn)練文件; X7 :通過二維條件隨機(jī)場的方法,使用步驟X6所得的訓(xùn)練文件訓(xùn)練分類器。
3. 根據(jù)權(quán)利要求1或2所述的多視角動作識別方法,其特征在于:時空興趣點的提取 方法為高斯濾波和Gabor濾波。
4. 根據(jù)權(quán)利要求1或2所述的多視角動作識別方法,其特征在于:特征描述子包括方 向梯度直方圖、光流直方圖。
5. 根據(jù)權(quán)利要求1或2所述的多視角動作識別方法,其特征在于:采用主成分分析的 方法進(jìn)行降維。
6. 根據(jù)權(quán)利要求1或2所述的多視角動作識別方法,其特征在于:對特征描述子進(jìn)行 聚類的方法為K-means。
7. 根據(jù)權(quán)利要求2所述的多視角動作識別方法,其特征在于:對步驟X3中的特征描述 子構(gòu)成的集合進(jìn)行抽樣的方法是隨機(jī)抽樣。
【文檔編號】G06K9/46GK104268586SQ201410553477
【公開日】2015年1月7日 申請日期:2014年10月17日 優(yōu)先權(quán)日:2014年10月17日
【發(fā)明者】馬華東, 傅慧源, 張征 申請人:北京郵電大學(xué)