基于多視圖和多模態(tài)特征的自適應動作識別方法

文檔序號：6509570閱讀：991來源：國知局

基于多視圖和多模態(tài)特征的自適應動作識別方法
【專利摘要】一種基于多視圖和多模態(tài)特征的自適應動作識別方法。具體包括：視頻預處理；目標運動變化過程多視圖描述；等級金字塔特征提??；多視圖深度和RGB模型構(gòu)建；多視圖模型選擇，推斷及多模態(tài)特征結(jié)果融合。本發(fā)明首先針對可見光圖像動作識別常遇到的光照變化和陰影等困難，提出基于多視圖和多模態(tài)特征進行動作識別；其次本發(fā)明針對單一視圖的局限性，提出了目標運動變化過程多視圖描述，它能夠比較全面的捕獲深度和RGB圖像序列中目標的變化過程；再次本發(fā)明公開的等級金字塔特征既有空間分辨能力也有細節(jié)描述能力，具有非常好的魯棒性和區(qū)分性；最后，根據(jù)環(huán)境光線的變化情況，自適應的進行多模態(tài)特征的融合，進一步提高動作識別方法的性能和穩(wěn)定性。
【專利說明】基于多視圖和多模態(tài)特征的自適應動作識別方法
【技術領域】
[0001]本發(fā)明屬于計算機視覺和模式識別【技術領域】，設計了一種基于多視圖和多模態(tài)特征的自適應動作識別方法，解決利用可見光圖像進行動作識別的困難，并提高動作識別的準確性和魯棒性，可以用于對監(jiān)控視頻中人體目標的動作識別，實現(xiàn)對監(jiān)控視頻的智能化管理。
【背景技術】
[0002]隨著計算機技術和信息技術的發(fā)展，對基于視頻的人體動作分析的需求越來越迫切，在諸如智能監(jiān)控、家居安全、智能機器人、運動員輔助訓練等系統(tǒng)中，動作分析起到了越來越重要的作用。然而早期的人體動作識別大多是利用普通的RGB圖像序列進行動作分析，這樣會受到光照、陰影、色度、環(huán)境變化等因素的干擾。
[0003]利用深度圖像進行人體動作識別是近年來興起的技術。這主要得益于深度圖攝像機的成本降低，特別是微軟推出Kinect設備。與可見光圖像不同，深度圖像像素值僅與物體空間位置有關，不會受光照、陰影、色度、環(huán)境變化等因素的干擾，能夠有效地突破可見光圖像識別遇到的問題和瓶頸。在一定的空間范圍內(nèi)，深度圖像可以用來進行3D空間中的動作識別，代替可見光攝像機的雙目視覺。因為人體運動分析在高級人機交互、視頻會議、安全監(jiān)控、醫(yī)療診斷、基于內(nèi)容的圖像存儲和檢索等方面，具有潛在的經(jīng)濟價值和廣泛的應用前景，因此利用深度圖像進行動作分析得到國內(nèi)外廣大機器視覺研究者們的關注。
[0004]在計算機視覺和模式識別相關研究領域中，提高人體動作識別的準確性和穩(wěn)定性一直是最活躍的研究問題之一，并且能夠設計出一種魯棒的動作描述法也是一個重點和難點。由于利用可見光圖像會受到光照、陰影、色度、環(huán)境變化等因素的干擾，在識別目標的動作時，基于可見光的方法常常失敗，當光線發(fā)生較大變化時，例如，夜晚，其性能將急劇下降。因此，近些年利用深度圖像進行動作識別成為該領域主流方法，但是由于目標差異較大，同時，即使相同目標的動作也存在差異，這給人體動作識別帶來了很大困難。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的是解決基于可見光的動作識別方法識別性能不穩(wěn)定，當光線發(fā)生較大變化時，例如，夜晚，其性能將急劇下降的問題，同時，由于觀察視角的不同，從某個觀察視角，不能全面的捕獲目標運動歷史變化過程，因此，本發(fā)明提出一種基于多視圖和多模態(tài)特征的自適應動作識別方法，用于對視頻監(jiān)控中目標動作進行識別，以實現(xiàn)對監(jiān)控視頻的智能分析。
[0006]本發(fā)明提供的基于多視圖和多模態(tài)特征的自適應動作識別方法，克服了現(xiàn)有技術的不足并提高了動作識別的準確性，能夠很好的應用于現(xiàn)實生活中。該方法具體包含以下步驟:
第1、視頻預處理
預處理包括對輸入的深度圖像和RGB圖像序列濾波去噪，同時，通過Kinect設備的紅外裝置，可以測出目標與攝像頭的近似距離，在該距離值的基礎上，增加0.5米獲得對應的大閾值，減去I米獲得對應的小閾值。當某像素的深度值大于大閾值或小于小閾值時，將該像素標記為O，否則標記為1，這樣，能夠移除背景對目標的干擾；
第2、目標運動變化過程多視圖描述
由于環(huán)境光線的變化，將對RGB圖像序列有較大的影響，同時，由于觀察視角的不同，從某個觀察視角，不能全面地捕獲目標運動歷史變化過程，因此，提出了基于RGB圖像和深度圖像的多視圖目標運動歷史變化過程，捕獲目標的運動變化，即:
(1)捕獲深度視頻序列人體變化過程，獲得對應的多視圖深度運動歷史圖像；
(2)捕獲RGB視頻序列人體運動變化過程，獲得對應的深度限制RGB圖的多視圖運動歷史圖像；
第3、等級金字塔特征提取
在第2步獲得的多視圖深度運動歷史圖像和深度限制RGB圖的多視圖運動歷史圖像的基礎上，分別尋找圖像中非零像素，從而獲得對應的人體歷史運動的矩形區(qū)域，并在該區(qū)域內(nèi)，提取等級金字塔特征描述對應的人體動作，其中人體動作包括:(I)彎腰鞠躬，(2)原地起跳且手抬起，(3)跳遠，(4)單手揮手，(5)原地跳起手不動，(6)跑步，(7)側(cè)移，
(8)單腳走路，(9)雙手揮手，(10)雙腳走路，(11)鼓掌，(12)甩胳膊，(13)踢腿，(14)網(wǎng)球、羽毛球等發(fā)球，(15)聞爾夫搖桿擊球，(16)拳擊，(17)太極z?手。
[0007]第4、多視圖深度模型構(gòu)建和多視圖RGB模型構(gòu)建
網(wǎng)路中公共的動作數(shù)據(jù)集DHA中每個樣本都包括RGB和深度圖像序列，同時,該數(shù)據(jù)集被劃分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集，按照第3步的方法，為DHA訓練數(shù)據(jù)集中的每個樣本分別提取深度圖像序列和RGB圖像序列上的多視圖的等級金字塔特征，并將每個樣本的不同視圖的特征串聯(lián)，然后，在訓練數(shù)據(jù)集上，分別訓練基于深度的多視圖等級金字塔特征和基于RGB的多視圖等級金字塔特征的支持向量機模型；
第5、多視圖模型選擇，模型推斷以及多模態(tài)特征結(jié)果融合
在公共動作數(shù)據(jù)集DHA中測試數(shù)據(jù)集上，按照第3步的方法，提取深度和RGB運動歷史圖像上的多視圖的等級金字塔特征，同時，計算RGB矩形區(qū)域內(nèi)平均亮度，根據(jù)其光線的亮暗情況，自適應的選擇已經(jīng)訓練好的模型。當環(huán)境光線較暗時，RGB圖像序列非常模糊，無法進行動作識別，因此，采用基于深度的多視圖等級金字塔特征的支持向量機模型，反之，則采用基于深度和RGB融合的多視圖，多模態(tài)特征的支持向量機模型。即將測試樣本中提取基于深度的多視圖特征和基于RGB的多視圖特征分別輸入到模型中，模型將自動地對樣本的動作類別進行判斷，并給出對應的屬于某個動作類別的概率，最后，融合多模態(tài)特征的結(jié)果。
[0008]本發(fā)明方法首先針對可見光圖像動作識別常遇到的困難，例如，光照變化、陰影和遮擋等變化，引入基于深度圖的動作識別方法，同時，針對觀察視角的不同，從某個觀察視角，不能全面的捕獲目標運動歷史變化過程，因此，本發(fā)明提出了目標運動變化過程多視圖描述，它能夠比較全面的捕獲深度圖像序列和RGB圖像序列中人體動作的變化過程；再次本發(fā)明公開的等級金字塔特征既有空間分辨能力也有細節(jié)描述能力，且具有非常好的魯棒性和區(qū)分性；最后、根據(jù)環(huán)境光線的變化情況，自適應的進行多模態(tài)特征的融合，進一步的提高動作識別方法的性能和穩(wěn)定性。[0009]本發(fā)明的優(yōu)點和有益效果:
I)通過引入基于深度圖像的動作識別方法，解決由于光照、陰影、色度、環(huán)境變化等因素帶來的影響；2)本發(fā)明公開的目標運動變化過程多視圖描述，能夠比較全面的捕獲深度圖像序列和RGB圖像序列中人體動作的變化過程，克服由于觀察視角的不同，從某個觀察視角，不能全面的捕獲目標運動歷史變化過程的困難；3)本發(fā)明公開的等級金字塔特征既具有空間分辨能力也具有細節(jié)描述能力，且具有很好的魯棒性和區(qū)分性，很大程度上提高動作識別的準確性。4)根據(jù)環(huán)境光線的變化情況，自適應的進行多模態(tài)特征的融合，進一步的提高動作識別方法的性能和穩(wěn)定性。
[0010]
【專利附圖】

【附圖說明】
[0011]圖1為本發(fā)明的流程圖。
[0012]圖2從左至右分別為“單手揮手”動作的(a) RGB圖像和(b)深度圖像。
[0013]圖3從左至右分別為“高爾夫搖桿擊球”動作的(a) RGB圖像和(b) RGB圖人體剪
影圖像。
[0014]圖4從左至右分別為基于深度圖的“鞠躬”動作的(a)正視圖，(b)俯視圖和(C)左視圖的運動歷史過程。
[0015]圖5從左至右分別為基于RGB圖的“單手揮”動作的(a)正視圖，(b)俯視圖和(C)左視圖的運動歷史過程。
[0016]圖6為“雙手揮動”的正視圖下等級金字塔特征的提取過程。
[0017]
【具體實施方式】
[0018]下面結(jié)合附圖對本發(fā)明作進一步的描述。
[0019]實施例1
如圖1所示，為本發(fā)明基于多視圖和多模態(tài)特征的自適應動作識別方法的操作流程圖，該方法的操作步驟包括:
步驟01視頻預處理
對輸入的深度圖像和RGB圖像序列濾波去噪，同時，通過Kinect設備的紅外裝置，可以測出目標與攝像頭的大概距離，根據(jù)該距離值，加上0.5米獲得大閾值，減去I米獲得小閾值，例如，在本實施例中，目標與攝像頭的距離大約為2米，則大閾值為2.5米，小閾值為I米。當某像素的深度值大于大閾值或小于小閾值時，將該像素標記為0，否則標記為1，這樣，可以移除背景對目標的干擾；其結(jié)果如圖2 Ca)和(b)所示。具體定義為:.ο5>Thres\ or 其中代表深度圖像中像素的深度值，代表兩個不同的閾值，
且1&1§2；1>11?|16*0,實施例中，113|18?1=2.5, Ihredl =10其中圖像去噪采用均值濾波方法。[0020]步驟02目標運動歷史變化過程多視圖描述
(I)深度運動過程多視圖描述:
任意長度的N幀視頻，例如N=23、31、54，由于觀察視角的不同，從某個觀察視角，不能全面的捕獲目標運動歷史變化過程，因此，本發(fā)明提出了基于多視圖的目標運動歷史變化過程，具體包括正視圖、俯視圖和左視圖的目標運動歷史變化過程。下面依次介紹不同視圖的目標運動歷史變化過程:
(a)正視圖下的目標運動歷史變化過程
為了描述連續(xù)運動序列的深度變化過程，針對每個非零像素，計算N幀中該像素位置的最大值和最小值，獲得對應的最大值和最小值圖像，將這兩幅圖像做差，并取絕對值，獲得對應的正視圖下的目標運動歷史變化過程，其效果圖如圖3 (a)所示，具體定義如下所示:
【權(quán)利要求】
1.一種基于多視圖和多模態(tài)特征的自適應動作識別方法，該方法具體包含以下步驟: 第1、視頻預處理預處理包括對輸入的深度圖像和RGB圖像序列濾波去噪，同時，通過Kinect設備的紅外裝置，測出目標與攝像頭的近似距離，在該距離值的基礎上，增加0.5米獲得對應的大閾值，減去I米獲得對應的小閾值；當某像素的深度值大于大閾值或小于小閾值時，將該像素標記為O，否則標記為1，這樣，能夠移除背景對目標的干擾；第2、目標運動變化過程多視圖描述由于環(huán)境光線的變化，將對RGB圖像序列有較大的影響，同時，由于觀察視角的不同，從某個觀察視角，不能全面地捕獲目標運動歷史變化過程，因此，提出了基于RGB圖像和深度圖像的多視圖目標運動歷史變化過程，捕獲目標的運動變化，即: (1)捕獲深度視頻序列人體變化過程，獲得對應的多視圖深度運動歷史圖像； (2)捕獲RGB視頻序列人體運動變化過程，獲得對應的深度限制RGB圖的多視圖運動歷史圖像；第3、等級金字塔特征提取在第2步獲得的多視圖深度運動歷史圖像和深度限制RGB圖的多視圖運動歷史圖像的基礎上，分別尋找圖像中非零像素，從而獲得對應的人體歷史運動的矩形區(qū)域，并在該區(qū)域內(nèi)，提取等級金字塔特征描述對應的人體動作，其中人體動作包括:(I)彎腰鞠躬，(2)原地起跳且手抬起，(3)跳遠，(4)單手揮手，(5)原地跳起手不動，(6)跑步，(7)側(cè)移，(8)單腳走路，(9)雙手揮手，(10)雙腳走路，(11)鼓掌，(12)甩胳膊，(13)踢腿，(14)網(wǎng)球、羽毛球等發(fā)球，(15)聞爾夫搖桿擊球，(16)拳擊，(17)太極z?手；第4、多視圖深度模型構(gòu)建和多視圖RGB模型構(gòu)建網(wǎng)絡中公開的動作數(shù)據(jù)集DHA中每個樣本都包括RGB和深度圖像序列，同時,該數(shù)據(jù)集被劃分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集，按照第3步的方法，為DHA訓練數(shù)據(jù)集中的每個樣本分別提取深度圖像序列和RGB圖像序列上的多視圖的等級金字塔特征，并將每個樣本的不同視圖的特征串聯(lián)，然后，在訓練數(shù)據(jù)集上，分別訓練基于深度的多視圖等級金字塔特征和基于RGB的多視圖等級金字塔特征的支持向量機模型；第5、多視圖模型選擇，模型推斷以及多模態(tài)特征結(jié)果融合在公共動作數(shù)據(jù)集DHA中測試數(shù)據(jù)集上，按照第3步的方法，提取深度和RGB運動歷史圖像上的多視圖的等級金字塔特征，同時，計算RGB矩形區(qū)域內(nèi)平均亮度，根據(jù)光線的亮暗情況，自適應的選擇已經(jīng)訓練好的模型；當環(huán)境光線較暗時，RGB圖像序列非常模糊，無法進行動作識別，因此，采用基于深度的多視圖等級金字塔特征的支持向量機模型，反之，則采用基于深度和RGB融合的多視圖，多模態(tài)特征的支持向量機模型，即將測試樣本中提取基于深度的多視圖特征和基于RGB的多視圖特征分別輸入到模型中，模型將自動地對樣本的動作類別進行判斷，并給出對應的屬于某個動作類別的概率，最后，融合多模態(tài)特征的結(jié)果O
2.根據(jù)權(quán)利要求1所述的方法，其特征在于該方法首先針對可見光圖像動作識別常遇到的光照變化、陰影和遮擋困難，引入基于深度圖的動作識別方法，同時，針對觀察視角的不同，從某個觀察視角，不能全面的捕獲目標運動歷史變化過程，因此，本發(fā)明提出了目標運動變化過程多視圖描述，它能夠比較全面的捕獲深度和RGB圖像序列中人體動作的變化過程；再次本發(fā)明公開的等級金字塔特征既有空間分辨能力也有細節(jié)描述能力，且具有非常好的魯棒性和區(qū)分性；最后、根據(jù)環(huán)境光線的變化情況，自適應的進行多模態(tài)特征的融合，進一步的提高動作識別方法的性能和穩(wěn)定性。
【文檔編號】G06K9/00GK103473530SQ201310386606
【公開日】2013年12月25日申請日期:2013年8月30日優(yōu)先權(quán)日:2013年8月30日
【發(fā)明者】高贊, 張樺, 徐光平, 薛彥兵, 申曉霞, 宋健明申請人:天津理工大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：高贊;張樺;徐光平;薛彥兵;申曉霞;宋健明
技術所有人：天津理工大學
我是此專利的發(fā)明人

上一篇：雙主板硬件測試控制方法及系統(tǒng)的制作方法
上一篇：一種獲取熱點資訊的方法及裝置制造方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

多模態(tài)生物特征識別相關技術

多模態(tài)生物特征組合相關技術

多模態(tài)特征融合相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于多視圖和多模態(tài)特征的自適應動作識別方法