亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于多視圖和多模態(tài)特征的自適應動作識別方法

文檔序號:6509570閱讀:991來源:國知局
基于多視圖和多模態(tài)特征的自適應動作識別方法
【專利摘要】一種基于多視圖和多模態(tài)特征的自適應動作識別方法。具體包括:視頻預處理;目標運動變化過程多視圖描述;等級金字塔特征提??;多視圖深度和RGB模型構(gòu)建;多視圖模型選擇,推斷及多模態(tài)特征結(jié)果融合。本發(fā)明首先針對可見光圖像動作識別常遇到的光照變化和陰影等困難,提出基于多視圖和多模態(tài)特征進行動作識別;其次本發(fā)明針對單一視圖的局限性,提出了目標運動變化過程多視圖描述,它能夠比較全面的捕獲深度和RGB圖像序列中目標的變化過程;再次本發(fā)明公開的等級金字塔特征既有空間分辨能力也有細節(jié)描述能力,具有非常好的魯棒性和區(qū)分性;最后,根據(jù)環(huán)境光線的變化情況,自適應的進行多模態(tài)特征的融合,進一步提高動作識別方法的性能和穩(wěn)定性。
【專利說明】基于多視圖和多模態(tài)特征的自適應動作識別方法
【技術領域】
[0001]本發(fā)明屬于計算機視覺和模式識別【技術領域】,設計了一種基于多視圖和多模態(tài)特征的自適應動作識別方法,解決利用可見光圖像進行動作識別的困難,并提高動作識別的準確性和魯棒性,可以用于對監(jiān)控視頻中人體目標的動作識別,實現(xiàn)對監(jiān)控視頻的智能化管理。
【背景技術】
[0002]隨著計算機技術和信息技術的發(fā)展,對基于視頻的人體動作分析的需求越來越迫切,在諸如智能監(jiān)控、家居安全、智能機器人、運動員輔助訓練等系統(tǒng)中,動作分析起到了越來越重要的作用。然而早期的人體動作識別大多是利用普通的RGB圖像序列進行動作分析,這樣會受到光照、陰影、色度、環(huán)境變化等因素的干擾。
[0003]利用深度圖像進行人體動作識別是近年來興起的技術。這主要得益于深度圖攝像機的成本降低,特別是微軟推出Kinect設備。與可見光圖像不同,深度圖像像素值僅與物體空間位置有關,不會受光照、陰影、色度、環(huán)境變化等因素的干擾,能夠有效地突破可見光圖像識別遇到的問題和瓶頸。在一定的空間范圍內(nèi),深度圖像可以用來進行3D空間中的動作識別,代替可見光攝像機的雙目視覺。因為人體運動分析在高級人機交互、視頻會議、安全監(jiān)控、醫(yī)療診斷、基于內(nèi)容的圖像存儲和檢索等方面,具有潛在的經(jīng)濟價值和廣泛的應用前景,因此利用深度圖像進行動作分析得到國內(nèi)外廣大機器視覺研究者們的關注。
[0004]在計算機視覺和模式識別相關研究領域中,提高人體動作識別的準確性和穩(wěn)定性一直是最活躍的研究問題之一,并且能夠設計出一種魯棒的動作描述法也是一個重點和難點。由于利用可見光圖像會受到光照、陰影、色度、環(huán)境變化等因素的干擾,在識別目標的動作時,基于可見光的方法常常失敗,當光線發(fā)生較大變化時,例如,夜晚,其性能將急劇下降。因此,近些年利用深度圖像進行動作識別成為該領域主流方法,但是由于目標差異較大,同時,即使相同目標的動作也存在差異,這給人體動作識別帶來了很大困難。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的是解決基于可見光的動作識別方法識別性能不穩(wěn)定,當光線發(fā)生較大變化時,例如,夜晚,其性能將急劇下降的問題,同時,由于觀察視角的不同,從某個觀察視角,不能全面的捕獲目標運動歷史變化過程,因此,本發(fā)明提出一種基于多視圖和多模態(tài)特征的自適應動作識別方法,用于對視頻監(jiān)控中目標動作進行識別,以實現(xiàn)對監(jiān)控視頻的智能分析。
[0006]本發(fā)明提供的基于多視圖和多模態(tài)特征的自適應動作識別方法,克服了現(xiàn)有技術的不足并提高了動作識別的準確性,能夠很好的應用于現(xiàn)實生活中。該方法具體包含以下步驟:
第1、視頻預處理
預處理包括對輸入的深度圖像和RGB圖像序列濾波去噪,同時,通過Kinect設備的紅外裝置,可以測出目標與攝像頭的近似距離,在該距離值的基礎上,增加0.5米獲得對應的大閾值,減去I米獲得對應的小閾值。當某像素的深度值大于大閾值或小于小閾值時,將該像素標記為O,否則標記為1,這樣,能夠移除背景對目標的干擾;
第2、目標運動變化過程多視圖描述
由于環(huán)境光線的變化,將對RGB圖像序列有較大的影響,同時,由于觀察視角的不同,從某個觀察視角,不能全面地捕獲目標運動歷史變化過程,因此,提出了基于RGB圖像和深度圖像的多視圖目標運動歷史變化過程,捕獲目標的運動變化,即:
(1)捕獲深度視頻序列人體變化過程,獲得對應的多視圖深度運動歷史圖像;
(2)捕獲RGB視頻序列人體運動變化過程,獲得對應的深度限制RGB圖的多視圖運動歷史圖像;
第3、等級金字塔特征提取
在第2步獲得的多視圖深度運動歷史圖像和深度限制RGB圖的多視圖運動歷史圖像的基礎上,分別尋找圖像中非零像素,從而獲得對應的人體歷史運動的矩形區(qū)域,并在該區(qū)域內(nèi),提取等級金字塔特征描述對應的人體動作,其中人體動作包括:(I)彎腰鞠躬,(2)原地起跳且手抬起,(3)跳遠,(4)單手揮手,(5)原地跳起手不動,(6)跑步,(7)側(cè)移,
(8)單腳走路,(9)雙手揮手,(10)雙腳走路,(11)鼓掌,(12)甩胳膊,(13)踢腿,(14)網(wǎng)球、羽毛球等發(fā)球,(15)聞爾夫搖桿擊球,(16)拳擊,(17)太極z?手。
[0007]第4、多視圖深度模型構(gòu)建和多視圖RGB模型構(gòu)建
網(wǎng)路中公共的動作數(shù)據(jù)集DHA中每個樣本都包括RGB和深度圖像序列,同時,該數(shù)據(jù)集被劃分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集,按照第3步的方法,為DHA訓練數(shù)據(jù)集中的每個樣本分別提取深度圖像序列和RGB圖像序列上的多視圖的等級金字塔特征,并將每個樣本的不同視圖的特征串聯(lián),然后,在訓練數(shù)據(jù)集上,分別訓練基于深度的多視圖等級金字塔特征和基于RGB的多視圖等級金字塔特征的支持向量機模型;
第5、多視圖模型選擇,模型推斷以及多模態(tài)特征結(jié)果融合
在公共動作數(shù)據(jù)集DHA中測試數(shù)據(jù)集上,按照第3步的方法,提取深度和RGB運動歷史圖像上的多視圖的等級金字塔特征,同時,計算RGB矩形區(qū)域內(nèi)平均亮度,根據(jù)其光線的亮暗情況,自適應的選擇已經(jīng)訓練好的模型。當環(huán)境光線較暗時,RGB圖像序列非常模糊,無法進行動作識別,因此,采用基于深度的多視圖等級金字塔特征的支持向量機模型,反之,則采用基于深度和RGB融合的多視圖,多模態(tài)特征的支持向量機模型。即將測試樣本中提取基于深度的多視圖特征和基于RGB的多視圖特征分別輸入到模型中,模型將自動地對樣本的動作類別進行判斷,并給出對應的屬于某個動作類別的概率,最后,融合多模態(tài)特征的結(jié)果。
[0008]本發(fā)明方法首先針對可見光圖像動作識別常遇到的困難,例如,光照變化、陰影和遮擋等變化,引入基于深度圖的動作識別方法,同時,針對觀察視角的不同,從某個觀察視角,不能全面的捕獲目標運動歷史變化過程,因此,本發(fā)明提出了目標運動變化過程多視圖描述,它能夠比較全面的捕獲深度圖像序列和RGB圖像序列中人體動作的變化過程;再次本發(fā)明公開的等級金字塔特征既有空間分辨能力也有細節(jié)描述能力,且具有非常好的魯棒性和區(qū)分性;最后、根據(jù)環(huán)境光線的變化情況,自適應的進行多模態(tài)特征的融合,進一步的提高動作識別方法的性能和穩(wěn)定性。[0009]本發(fā)明的優(yōu)點和有益效果:
I)通過引入基于深度圖像的動作識別方法,解決由于光照、陰影、色度、環(huán)境變化等因素帶來的影響;2)本發(fā)明公開的目標運動變化過程多視圖描述,能夠比較全面的捕獲深度圖像序列和RGB圖像序列中人體動作的變化過程,克服由于觀察視角的不同,從某個觀察視角,不能全面的捕獲目標運動歷史變化過程的困難;3)本發(fā)明公開的等級金字塔特征既具有空間分辨能力也具有細節(jié)描述能力,且具有很好的魯棒性和區(qū)分性,很大程度上提高動作識別的準確性。4)根據(jù)環(huán)境光線的變化情況,自適應的進行多模態(tài)特征的融合,進一步的提高動作識別方法的性能和穩(wěn)定性。
[0010]
【專利附圖】

【附圖說明】
[0011]圖1為本發(fā)明的流程圖。
[0012]圖2從左至右分別為“單手揮手”動作的(a) RGB圖像和(b)深度圖像。
[0013]圖3從左至右分別為“高爾夫搖桿擊球”動作的(a) RGB圖像和(b) RGB圖人體剪
影圖像。
[0014]圖4從左至右分別為基于深度圖的“鞠躬”動作的(a)正視圖,(b)俯視圖和(C)左視圖的運動歷史過程。
[0015]圖5從左至右分別為基于RGB圖的“單手揮”動作的(a)正視圖,(b)俯視圖和(C)左視圖的運動歷史過 程。
[0016]圖6為“雙手揮動”的正視圖下等級金字塔特征的提取過程。
[0017]
【具體實施方式】
[0018]下面結(jié)合附圖對本發(fā)明作進一步的描述。
[0019]實施例1
如圖1所示,為本發(fā)明基于多視圖和多模態(tài)特征的自適應動作識別方法的操作流程圖,該方法的操作步驟包括:
步驟01視頻預處理
對輸入的深度圖像和RGB圖像序列濾波去噪,同時,通過Kinect設備的紅外裝置,可以測出目標與攝像頭的大概距離,根據(jù)該距離值,加上0.5米獲得大閾值,減去I米獲得小閾值,例如,在本實施例中,目標與攝像頭的距離大約為2米,則大閾值為2.5米,小閾值為I米。當某像素的深度值大于大閾值或小于小閾值時,將該像素標記為0,否則標記為1,這樣,可以移除背景對目標的干擾;其結(jié)果如圖2 Ca)和(b)所示。具體定義為:.ο5>Thres\ or 其中代表深度圖像中像素的深度值,代表兩個不同的閾值,
且1&1§2;1>11?|16*0,實施例中,113|18?1=2.5, Ihredl =10其中圖像去噪采用均值濾波方法。[0020]步驟02目標運動歷史變化過程多視圖描述
(I)深度運動過程多視圖描述:
任意長度的N幀視頻,例如N=23、31、54,由于觀察視角的不同,從某個觀察視角,不能全面的捕獲目標運動歷史變化過程,因此,本發(fā)明提出了基于多視圖的目標運動歷史變化過程,具體包括正視圖、俯視圖和左視圖的目標運動歷史變化過程。下面依次介紹不同視圖的目標運動歷史變化過程:
(a)正視圖下的目標運動歷史變化過程
為了描述連續(xù)運動序列的深度變化過程,針對每個非零像素,計算N幀中該像素位置的最大值和最小值,獲得對應的最大值和最小值圖像,將這兩幅圖像做差,并取絕對值,獲得對應的正視圖下的目標運動歷史變化過程,其效果圖如圖3 (a)所示,具體定義如下所示:
【權(quán)利要求】
1.一種基于多視圖和多模態(tài)特征的自適應動作識別方法,該方法具體包含以下步驟: 第1、視頻預處理 預處理包括對輸入的深度圖像和RGB圖像序列濾波去噪,同時,通過Kinect設備的紅外裝置,測出目標與攝像頭的近似距離,在該距離值的基礎上,增加0.5米獲得對應的大閾值,減去I米獲得對應的小閾值;當某像素的深度值大于大閾值或小于小閾值時,將該像素標記為O,否則標記為1,這樣,能夠移除背景對目標的干擾; 第2、目標運動變化過程多視圖描述 由于環(huán)境光線的變化,將對RGB圖像序列有較大的影響,同時,由于觀察視角的不同,從某個觀察視角,不能全面地捕獲目標運動歷史變化過程,因此,提出了基于RGB圖像和深度圖像的多視圖目標運動歷史變化過程,捕獲目標的運動變化,即: (1)捕獲深度視頻序列人體變化過程,獲得對應的多視圖深度運動歷史圖像; (2)捕獲RGB視頻序列人體運動變化過程,獲得對應的深度限制RGB圖的多視圖運動歷史圖像; 第3、等級金字塔特征提取 在第2步獲得的多視圖深度運動歷史圖像和深度限制RGB圖的多視圖運動歷史圖像的基礎上,分別尋找圖像中非零像素,從而獲得對應的人體歷史運動的矩形區(qū)域,并在該區(qū)域內(nèi),提取等級金字塔特征描述對應的人體動作,其中人體動作包括:(I)彎腰鞠躬,(2)原地起跳且手抬起,(3)跳遠,(4)單手揮手,(5)原地跳起手不動,(6)跑步,(7)側(cè)移,(8)單腳走路,(9)雙手揮 手,(10)雙腳走路,(11)鼓掌,(12)甩胳膊,(13)踢腿,(14)網(wǎng)球、羽毛球等發(fā)球,(15)聞爾夫搖桿擊球,(16)拳擊,(17)太極z?手; 第4、多視圖深度模型構(gòu)建和多視圖RGB模型構(gòu)建 網(wǎng)絡中公開的動作數(shù)據(jù)集DHA中每個樣本都包括RGB和深度圖像序列,同時,該數(shù)據(jù)集被劃分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集,按照第3步的方法,為DHA訓練數(shù)據(jù)集中的每個樣本分別提取深度圖像序列和RGB圖像序列上的多視圖的等級金字塔特征,并將每個樣本的不同視圖的特征串聯(lián),然后,在訓練數(shù)據(jù)集上,分別訓練基于深度的多視圖等級金字塔特征和基于RGB的多視圖等級金字塔特征的支持向量機模型; 第5、多視圖模型選擇,模型推斷以及多模態(tài)特征結(jié)果融合 在公共動作數(shù)據(jù)集DHA中測試數(shù)據(jù)集上,按照第3步的方法,提取深度和RGB運動歷史圖像上的多視圖的等級金字塔特征,同時,計算RGB矩形區(qū)域內(nèi)平均亮度,根據(jù)光線的亮暗情況,自適應的選擇已經(jīng)訓練好的模型;當環(huán)境光線較暗時,RGB圖像序列非常模糊,無法進行動作識別,因此,采用基于深度的多視圖等級金字塔特征的支持向量機模型,反之,則采用基于深度和RGB融合的多視圖,多模態(tài)特征的支持向量機模型,即將測試樣本中提取基于深度的多視圖特征和基于RGB的多視圖特征分別輸入到模型中,模型將自動地對樣本的動作類別進行判斷,并給出對應的屬于某個動作類別的概率,最后,融合多模態(tài)特征的結(jié)果O
2.根據(jù)權(quán)利要求1所述的方法,其特征在于該方法首先針對可見光圖像動作識別常遇到的光照變化、陰影和遮擋困難,引入基于深度圖的動作識別方法,同時,針對觀察視角的不同,從某個觀察視角,不能全面的捕獲目標運動歷史變化過程,因此,本發(fā)明提出了目標運動變化過程多視圖描述,它能夠比較全面的捕獲深度和RGB圖像序列中人體動作的變化過程;再次本發(fā)明公開的等級金字塔特征既有空間分辨能力也有細節(jié)描述能力,且具有非常好的魯棒性和區(qū)分性;最后、根據(jù)環(huán)境光線的變化情況,自適應的進行多模態(tài)特征的融合,進一步的提高動 作識別方法的性能和穩(wěn)定性。
【文檔編號】G06K9/00GK103473530SQ201310386606
【公開日】2013年12月25日 申請日期:2013年8月30日 優(yōu)先權(quán)日:2013年8月30日
【發(fā)明者】高贊, 張樺, 徐光平, 薛彥兵, 申曉霞, 宋健明 申請人:天津理工大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1