一種基于hoirm和局部特征融合的行為識別方法
【專利摘要】一種基于HOIRM和局部特征融合的行為識別方法,包括:視頻的時(shí)空興趣點(diǎn)檢測;對所有時(shí)空興趣點(diǎn)使用3D HOG和3D HOF描述子進(jìn)行描述得到聯(lián)合的特征向量;根據(jù)每一幀的時(shí)空興趣點(diǎn)分布情況提取興趣點(diǎn)區(qū)域ROI;根據(jù)ROI提取視頻的興趣點(diǎn)區(qū)域運(yùn)動(dòng)方向直方圖特征HOIRM;對三種特征采用累加直方圖的方法進(jìn)行多特征融合;對所有的特征向量進(jìn)行K?Means聚類生成視覺詞典,并用視覺詞典重新描述特征向量;用視覺詞典描述測試視頻的特征向量;用支持向量機(jī)對前兩步得到的特征進(jìn)行學(xué)習(xí)和分類,得到測試視頻的行為類別。本發(fā)明提高了局部特征在復(fù)雜場景下對攝像機(jī)的視角變化、距離變化的魯棒性,有利于提高真實(shí)環(huán)境下行為識別的正確率。
【專利說明】
一種基于HO IRM和局部特征融合的行為識別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及圖像處理、視頻處理、模式識別等領(lǐng)域,尤其涉及基于視頻的人體行為 識別領(lǐng)域。
【背景技術(shù)】
[0002] 根據(jù)對行為特征描述的不同,基于視頻的人體行為識別方法大體上可分為兩大 類:基于全局特征的方法和基于局部時(shí)空興趣點(diǎn)的方法?;诰植繒r(shí)空興趣點(diǎn)的方法因其 對各種干擾都具有較好的魯棒性而成為目前主流的方法,這種方法通過檢測像素值在時(shí)空 鄰域有顯著變化的興趣點(diǎn)并從中提取底層特征來進(jìn)行行為描述,無需對圖像進(jìn)行前背景分 割和目標(biāo)跟蹤。但純粹的局部特征之間非常離散,完全忽視了人體的全局特性,因此在某些 人體輪廓形狀單一的視頻數(shù)據(jù)庫下測試,其識別率還略低于基于全局特征的方法。也有將 全局特征與局部特征直接融合,在某些測試數(shù)據(jù)庫上識別率有了一定的提高,但是兩種不 同類別的特征融合本身就比較困難,且全局特征的提取十分繁瑣,離不開目標(biāo)檢測和跟蹤, 從某種意義上又回到了基于全局特征的方法。
【發(fā)明內(nèi)容】
[0003] 為了克服現(xiàn)有特征提取方法的人體行為識別率不高的不足,本發(fā)明提出一種基于 H0IRM和局部特征融合的行為識別方法,該方法提取的特征可看成是介于局部特征和全局 特征之間的一種中層特征,這種中層特征既具有局部特征的優(yōu)點(diǎn)又加入了全局特征的特 性,同時(shí)避免了提取全局特征所需的繁瑣步驟,進(jìn)一步提高了局部特征在復(fù)雜場景下對攝 像機(jī)的視角變化、距離變化的魯棒性,有利于提高真實(shí)環(huán)境下行為識別的正確率。
[0004] 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
[0005] -種基于H0IRM和局部特征融合的行為識別方法,包括以下步驟:
[0006] 步驟1,對所有視頻進(jìn)行時(shí)空興趣點(diǎn)檢測;
[0007] 步驟2,使用3D H0G和3D H0F描述子對檢測到的所有時(shí)空興趣點(diǎn)進(jìn)行特征向量描 述;
[0008] 步驟3,根據(jù)每一幀的時(shí)空興趣點(diǎn)分布情況提取興趣點(diǎn)區(qū)域R0I;
[0009]步驟4,根據(jù)R0I提取視頻的興趣點(diǎn)區(qū)域運(yùn)動(dòng)方向直方圖特征H0IRM;
[0010] 步驟5,興趣點(diǎn)區(qū)域的H0IRM特征與步驟2中由3D H0G和3D H0F描述興趣點(diǎn)獲得的 特征向量進(jìn)行特征融合;
[0011] 步驟6,對訓(xùn)練視頻多特征融合后的特征向量構(gòu)建詞袋模型,即對訓(xùn)練視頻所有的 特征向量進(jìn)行K-Means聚類生成視覺詞典,并用視覺詞典重新描述特征向量;
[0012] 步驟7,用步驟6構(gòu)建的視覺詞典描述測試視頻的特征向量;
[0013] 步驟8,用步驟6得到的特征向量訓(xùn)練支持向量機(jī)分類器,用已訓(xùn)練的支持向量機(jī) 分類器對步驟7得到的測試視頻特征向量分類,得到測試視頻行為類別。
[0014] 進(jìn)一步,所述步驟1中,采用Bregonzio興趣點(diǎn)檢測算法對視頻進(jìn)行興趣點(diǎn)檢測,得 到時(shí)空興趣點(diǎn)集,根據(jù)獲取的每一個(gè)時(shí)空興趣點(diǎn)(x,y,t)確定其所在的幀以及在整段視頻 序列中的空間位置,其中x,y表示興趣點(diǎn)在每一幀上的坐標(biāo)位置,t表示當(dāng)前所在幀的時(shí)間。
[0015] 再進(jìn)一步,所述步驟2中,使用3D H0G和3D H0F描述子進(jìn)行聯(lián)合描述的過程為:以 每一個(gè)時(shí)空興趣點(diǎn)(x,y,t)為中心,構(gòu)建空間立方體Patch,簡稱P,其中大小為(H,W,T),H、 W、T分別表示立方體的高、寬、長,分別用3D HOG和3D HOF特征描述子進(jìn)行描述,得到時(shí)空特 征向量L,以空間立方體P的8個(gè)頂點(diǎn)為中心,分別構(gòu)建跟P相同大小的空間立方體Pi,P 2,…, Ps,同樣,分別采用3D HOG和3D HOF特征描述子進(jìn)行描述,得到時(shí)空特征向量U,L2,…,L8, 將得到的時(shí)空特征向量L跟LhU,…,L 8拼接在一起,得到9個(gè)空間立方體的3D HOG和3D HOF 特征,作為興趣點(diǎn)(x,y,t)的時(shí)空描述子;
[0016] 更進(jìn)一步,所述步驟3中,提取視頻的興趣點(diǎn)區(qū)域的過程為:計(jì)算每一幀所有興趣 點(diǎn)空間的質(zhì)心位置分,其中橫縱坐標(biāo)的計(jì)算方式分別為
yxdPyi 分別表示當(dāng)前幀第i個(gè)興趣點(diǎn)空間位置的橫、縱坐標(biāo),n表示當(dāng)前幀的興趣點(diǎn)數(shù),計(jì)算所有興 趣點(diǎn)到質(zhì)心的距離di,選出最大距離dmax,dmax = max{di,d2,......,dn},定義一個(gè)以質(zhì)心 為圓心,最大距離dmax為半徑的圓,以質(zhì)心為中心,圓的直徑為邊長,得到一個(gè) 正方形,即圓的外切矩形,該矩形即為所在幀的興趣點(diǎn)區(qū)域。
[0017] 所述步驟4中,H0IRM特征提取過程為:選擇興趣點(diǎn)區(qū)域的質(zhì)心r)作為代表點(diǎn)統(tǒng) 一描述興趣點(diǎn)區(qū)域的運(yùn)動(dòng)情況,由幾何關(guān)系可得,在任意時(shí)刻t,R0I質(zhì)心的方向角 , _v;,〇為:
,其中.xv和,表示當(dāng)前幀的質(zhì)心坐標(biāo),^>和,表 示前一幀的質(zhì)心坐標(biāo),將方向角外xw)量化至K個(gè)區(qū)間,本發(fā)明取K = 9,每個(gè)區(qū)間大小為 20°,9個(gè)區(qū)間分別為:0°~20°,20°~40°,…,140°~160°,160°~180°,分別統(tǒng)計(jì)落入每個(gè) 區(qū)間中的方向個(gè)數(shù),形成興趣點(diǎn)區(qū)域運(yùn)動(dòng)方向直方圖,在直方圖中以百分比的形式表示,計(jì) 算
,其中MTMX.WiVpO e幻表不在方向角區(qū)間1內(nèi)對應(yīng) 的視頻幀數(shù),NUM (f rame s)表示該視頻總幀數(shù),即表示HO IRM在該方向角區(qū)間內(nèi)對應(yīng)的視頻 幀數(shù)占該視頻總幀數(shù)的比例。
[0018] 所述步驟5中,基于時(shí)空興趣點(diǎn)區(qū)域的運(yùn)動(dòng)方向特征H0IRM與3D H0G、3D H0F描述 的特征向量的融合過程為:采用累加直方圖對每一幀圖像的特征進(jìn)行融合,所用公式為 r/z(/) = $>(/),其中,ch(i)表示累加直方圖的第i個(gè)區(qū)間,h(i)表示特征直方圖的第i個(gè)區(qū) 間,n表不幀的數(shù)目,最后得到的特征向量可以表不為F= {ch3DHQG,ch3DHQF,chHQIRM},其中, ch3DHQG,ch3DHQF和chHQIRM分別代表3D H0G、3D H0F和H0IRM特征的累加直方圖。
[0019]所述步驟6中,構(gòu)建詞袋模型的過程為:首先指定視覺詞典容量的大小為K,K的值 為接下去使用的K-Means聚類算法的聚類中心數(shù)目,為了構(gòu)建一個(gè)具有K個(gè)單詞的視覺詞 典,將所有訓(xùn)練視頻的特征向量組合在一起,構(gòu)建一個(gè)特征向量矩陣并進(jìn)行K-Means聚類獲 得K個(gè)聚類中心,即K個(gè)關(guān)鍵特征,為每個(gè)訓(xùn)練視頻分配一個(gè)K維的向量,且初始化為0,這個(gè) 向量的每一維對應(yīng)著視覺詞典中的每個(gè)單詞,計(jì)算每個(gè)訓(xùn)練視頻對應(yīng)的特征向量距離K個(gè) 關(guān)鍵特征的距離,假定與第i個(gè)關(guān)鍵特征的距離最近,則在對應(yīng)初始化為〇的K維向量的第i 個(gè)位置加1,這樣就得到一個(gè)K維的特征向量,并用該特征向量表征輸入視頻的特征,將所有 通過詞典重新描述過的視頻對應(yīng)的特征向量進(jìn)行標(biāo)記,在每一類別的最后一維后面添加一 維用于標(biāo)記該視頻的類別,為接下去的模型訓(xùn)練做準(zhǔn)備。
[0020] 本發(fā)明的有益效果主要表現(xiàn)在:提出的H0IRM特征是一種介于全局特征和局部特 征的中層特征,這種中層特征既具有局部特征的優(yōu)點(diǎn)又加入了全局特征的特性,同時(shí)避免 了提取全局特征所需的繁瑣步驟,進(jìn)一步提高了局部特征在復(fù)雜場景下對攝像機(jī)的視角變 化、距離變化的魯棒性,有利于提高真實(shí)環(huán)境下行為識別的正確率。
【附圖說明】
[0021] 圖1為本發(fā)明的基于H0IRM和局部特征融合的行為識別方法的流程圖。
[0022] 圖2為3D H0G和3D H0F聯(lián)合描述示意圖。
[0023]圖3為時(shí)空興趣點(diǎn)區(qū)域R0I確定示意圖。
[0024]圖4為揮手動(dòng)作的H0IRM特征示意圖,其中,圖(a)、(b)、(c)所示為揮手動(dòng)作按時(shí)間 先后排序的其中三幀圖像的興趣點(diǎn)區(qū)域R0I檢測圖;(d)所示為揮手動(dòng)作的其中4幀圖像按 時(shí)間先后次序置加在一起后的效果。
[0025]圖5為揮手動(dòng)作的H0IRM直方圖表示示意圖。
【具體實(shí)施方式】
[0026]下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步說明。
[0027] 參照圖1~圖5,一種基于H0IRM和局部特征融合的行為識別方法,包括以下步驟:
[0028]步驟1,對所有視頻進(jìn)行時(shí)空興趣點(diǎn)檢測;
[0029]步驟2,使用3D H0G和3D H0F描述子對檢測到的所有時(shí)空興趣點(diǎn)進(jìn)行特征向量描 述;
[0030]步驟3,根據(jù)每一幀的時(shí)空興趣點(diǎn)分布情況提取興趣點(diǎn)區(qū)域R0I;
[0031]步驟4,根據(jù)R0I提取視頻的興趣點(diǎn)區(qū)域運(yùn)動(dòng)方向直方圖特征H0IRM;
[0032] 步驟5,興趣點(diǎn)區(qū)域的H0IRM特征與步驟2中由3D H0G和3D H0F描述興趣點(diǎn)獲得的 特征向量進(jìn)行特征融合;
[0033]步驟6,對訓(xùn)練視頻多特征融合后的特征向量構(gòu)建詞袋模型,即對訓(xùn)練視頻所有的 特征向量進(jìn)行K-Means聚類生成視覺詞典,并用視覺詞典重新描述特征向量;
[0034]步驟7,用步驟6構(gòu)建的視覺詞典描述測試視頻的特征向量;
[0035] 步驟8,用步驟6得到的特征向量訓(xùn)練支持向量機(jī)分類器,用已訓(xùn)練的支持向量機(jī) 分類器對步驟7得到的測試視頻特征向量分類,得到測試視頻行為類別。
[0036] 本實(shí)施例采用兩種數(shù)據(jù)集進(jìn)行測試,一種是目前公認(rèn)的經(jīng)典的行為識別算法測試 數(shù)據(jù)集KTH,該視頻存在光照變化、尺度變化、噪聲影響、攝像頭抖動(dòng)等情況;另一種是UCF數(shù) 據(jù)集,該數(shù)據(jù)庫的運(yùn)動(dòng)背景都是自然場景,非常貼近生活。本實(shí)施例對所有視頻進(jìn)行了實(shí) 驗(yàn),并使用基于K-Means的詞袋模型構(gòu)建視覺詞典。依次取視覺詞典容量大小為300,400, 500,800,1000,1500。對行為數(shù)據(jù)庫采用leave-one-out的交叉驗(yàn)證方法,即對每個(gè)動(dòng)作類, 隨機(jī)取其中的80 %個(gè)視頻當(dāng)作訓(xùn)練集,剩余的20 %作為測試集。
[0037]具體的實(shí)施流程包括8個(gè)步驟,如圖1所示,具體為:
[0038] (1)視頻的時(shí)空興趣點(diǎn)檢測
[0039] 這里需要對所有的視頻進(jìn)行興趣點(diǎn)檢測,檢測算法采用Bregonzio興趣點(diǎn)檢測算 法,得到訓(xùn)練視頻和測試視頻的時(shí)空興趣點(diǎn)集,根據(jù)獲取的每一個(gè)時(shí)空興趣點(diǎn)(x,y,t)確定 其所在的幀以及在整段視頻序列中的空間位置,其中x,y表示興趣點(diǎn)在每一幀上的坐標(biāo)位 置,t表示當(dāng)前所在幀的時(shí)間。
[0040]考慮到對于不同的視頻,檢測到的時(shí)空興趣點(diǎn)數(shù)目會(huì)存在差異,因此,本文在對所 有的視頻提取時(shí)空興趣點(diǎn)并分別統(tǒng)計(jì)數(shù)目之后,選取數(shù)目最少的興趣點(diǎn),假設(shè)數(shù)目為N。而 對于數(shù)目超過N的時(shí)空興趣點(diǎn)對應(yīng)的視頻,則刪除視頻中后續(xù)檢測出的時(shí)空興趣點(diǎn)。這么做 并不會(huì)影響最終的特征提取效果,因?yàn)橐话闱闆r下訓(xùn)練視頻總是包含重復(fù)的動(dòng)作,因此從 一段視頻中檢測得到的時(shí)空興趣點(diǎn)集本身就包含許多重復(fù)的點(diǎn)。經(jīng)過這種方式的統(tǒng)一處 理,后續(xù)的特征描述以及多特征融合都可以保證得到同樣維度的特征向量。
[0041 ] (2)時(shí)空興趣點(diǎn)描述
[0042]對檢測得到的所有時(shí)空興趣點(diǎn)使用3D H0G和3D H0F描述子進(jìn)行描述得到聯(lián)合的 特征向量,聯(lián)合描述的方法如圖2所示,最終分別得到訓(xùn)練視頻和測試視頻的基于時(shí)空興趣 點(diǎn)的局部特征集合。具體方法如下:
[0043]第1步:以每一個(gè)時(shí)空興趣點(diǎn)(x,y,t)為中心,構(gòu)建空間立方體Patch,簡稱P,其大 小為(H,W,T),H、W、T分別表示立方體的高、寬、長,并分別采用3D H0G、3D H0F特征描述子進(jìn) 行描述,得到時(shí)空特征向量L;
[0044] 第2步:以空間立方體P的8個(gè)頂點(diǎn)為中心,分別構(gòu)建跟P相同大小的空間立方體Pi, P2,…,Ps;同樣,分別采用3D H0G、3D HOF特征描述子進(jìn)行描述,得到時(shí)空特征向量U, L2,…兒8;
[0045] 第3步:將得到的時(shí)空特征向量,L2,…,Ls拼接在一起,得到9個(gè)空間立方體的 3D H0G、3D H0F特征,作為興趣點(diǎn)(x,y,t)的時(shí)空描述子;
[0046] 第4步:確定聯(lián)合描述子的維度。通常一個(gè)Patch包含18個(gè)胞體積,胞體積對應(yīng)二維 H0G和二維H0F中細(xì)胞單元的概念。對于H0G和H0F中每個(gè)細(xì)胞單元的描述,分別選取長度為4 個(gè)區(qū)間和5個(gè)區(qū)間的直方圖。所以對應(yīng)的3D H0G特征維度為18 X 4 = 72維,3D H0F特征維度 為18X5 = 90維,單個(gè)Patch的聯(lián)合描述子的維度為72+90 = 162維,特征向量L的維度為162 X 9 = 1458維。
[0047] (3)興趣點(diǎn)區(qū)域R0I提取
[0048] 該步驟可以跟步驟(2)同時(shí)進(jìn)行,對象同樣是步驟(1)中得到的所有時(shí)空興趣點(diǎn)。 該步驟需要對所有時(shí)空興趣點(diǎn)按時(shí)間點(diǎn)分類,即以幀為單位,根據(jù)每一幀上的時(shí)空興趣點(diǎn) 分布情況確定時(shí)空興趣點(diǎn)區(qū)域R0I,時(shí)空興趣點(diǎn)區(qū)域確定的方法如圖3所示,提取算法的具 體步驟如下:
[0049] 第1步:檢測Bregonzio時(shí)空興趣點(diǎn),得到興趣點(diǎn)在每一幀圖像上的坐標(biāo)位置,如圖 3圓點(diǎn)所示;
[0050] 第2步:計(jì)算每一幀所有興趣點(diǎn)空間的質(zhì)心位置彳,.其中
,XdPyi分別表示當(dāng)前幀第i個(gè)興趣點(diǎn)空間位置的橫、縱坐標(biāo),n 表示當(dāng)前幀的興趣點(diǎn)數(shù);
[0051 ] 第3步:計(jì)算所有興趣點(diǎn)到質(zhì)心的距離di,選出最大距離dmax,dmax x max {di, d2,......,dn};
[0052] 第4步:定義一個(gè)以質(zhì)心0為圓心,最大距離dmax為半徑的圓;
[0053] 第5步:以質(zhì)心為中心,圓的直徑為邊長,得到一個(gè)正方形,即圓的外切矩 形,該矩形即為所在幀的興趣點(diǎn)區(qū)域R0I。
[0054] 圖4(a)、(b)、(c)所示為揮手動(dòng)作按時(shí)間先后排序的其中三幀圖像的興趣點(diǎn)區(qū)域 R0I檢測圖,其中矩形框表示R0I的大小,白色點(diǎn)表示時(shí)空興趣點(diǎn)的分布,矩形框的中心點(diǎn)為 得到的質(zhì)心,可以看出不同幀的時(shí)空興趣點(diǎn)分布狀況不同,R0I區(qū)域的大小也不同。圖4(d) 所示為揮手動(dòng)作的其中4幀圖像按時(shí)間先后次序疊加在一起后的效果,可以看出,興趣點(diǎn)區(qū) 域的質(zhì)心運(yùn)動(dòng)方向可以代表整個(gè)興趣點(diǎn)區(qū)域的運(yùn)動(dòng)方向。為了便于描述,我們將這種興趣 點(diǎn)區(qū)域的運(yùn)動(dòng)方向特征稱作HOIRM(Histogram of Oriented Interest Region Motion)特 征。
[0055] (4)H0IRM 特征提取
[0056] H0IRM特征代表了興趣點(diǎn)區(qū)域總體的運(yùn)動(dòng)趨勢,為了更精確地描述視頻中各個(gè)時(shí) 刻每一幀的運(yùn)動(dòng)方向,我們選擇R0I的質(zhì)心作為代表點(diǎn)統(tǒng)一描述R〇I的運(yùn)動(dòng)情況。由幾 何關(guān)系可得,在任意時(shí)刻t,R0I質(zhì)心的方向角為:
(1)
[0058]其中%;和;^表不當(dāng)前幀的質(zhì)心坐標(biāo),和.v&4>表不前一幀的質(zhì)心坐標(biāo),為了后續(xù) 進(jìn)行特征融合時(shí)更加方便,按照梯度方向直方圖(H0G)的方法,將方向角量化為K 個(gè)區(qū)間,本發(fā)明取K = 9,每個(gè)區(qū)間大小為20°,9個(gè)區(qū)間分別為:0°~20°,20°~40°,…,140° ~160°,160°~180°。根據(jù)式(1)分別統(tǒng)計(jì)落入每個(gè)區(qū)間中的方向個(gè)數(shù),形成興趣點(diǎn)區(qū)域運(yùn) 動(dòng)方向直方圖,即H0IRM。圖5為揮手動(dòng)作按式(2)計(jì)算所得的H0IRM,橫坐標(biāo)表示方向角的各 個(gè)區(qū)間,縱坐標(biāo)表示H0IRM在該方向角區(qū)間內(nèi)對應(yīng)的視頻幀數(shù)占該視頻總幀數(shù)的比例。
(2)
[0060] 式(2)中0i表示第i個(gè)方向角區(qū)間,表示在方向角區(qū)間I內(nèi)對 應(yīng)的視頻幀數(shù),NUM(frames)表示該視頻總幀數(shù),由于每一幀視頻包含9維的特征向量,每一 段視頻的H0IRM特征向量維數(shù)為9 X NUM( frames)。
[0061] 結(jié)合圖4(d),可以看出,對于揮手動(dòng)作的視頻,絕大部分幀的興趣點(diǎn)區(qū)域運(yùn)動(dòng)的方 向角都小于20°,只有當(dāng)手勢從向上轉(zhuǎn)到向下或向下轉(zhuǎn)到向上這兩種方向變化明顯的情況 下方向角的大小才接近180°。
[0062] (5)多特征融合
[0063] 在步驟(2)中已經(jīng)得到了視頻中所有興趣點(diǎn)的3D H0G和3D H0F聯(lián)合特征向量表 示,接下去將以上特征和步驟(4)獲得的興趣點(diǎn)區(qū)域運(yùn)動(dòng)方向特征H0IRM融合在一起。
[0064]由于3D H0G、3D H0F和H0IRM特征都以直方圖的形式表示,因此這里用累加直方圖 對每一幀圖像的特征進(jìn)行融合,如公式(3)所示: n
[0065] ch(i)= !>(/) (3) i=l
[0066] 其中,ch(i)表示累加直方圖的第i個(gè)區(qū)間,h(i)表示特征直方圖的第i個(gè)區(qū)間,n表 示幀的數(shù)目。
[0067] 前面提取的3D H0G、3D H0F和H0IRM特征都可以通過公式(3)來進(jìn)行計(jì)算,然后串 聯(lián)成為一個(gè)特征向量。經(jīng)過計(jì)算,最后得到的特征向量可以表示如下:
[0068] F = { ch3DH0G , ch3DH0F , chHOIRM} (4)
[0069] 其中,ch3DHQG,ch3DH〇F和chroiRM分別代表3D H0G、3D HOF和H0IRM特征的累加直方圖。
[0070] (6)訓(xùn)練視頻構(gòu)建詞袋模型
[0071] 構(gòu)建詞袋模型的關(guān)鍵步驟是對所有的特征向量進(jìn)行聚類生成視覺詞典。這里使用 K-Means聚類算法構(gòu)建視覺詞典。再用聚類生成的視覺詞典以直方圖的形式重新表征訓(xùn)練 視頻的所有特征向量。
[0072]構(gòu)建一個(gè)具有K個(gè)單詞的視覺詞典,即獲得K個(gè)K-Means聚類中心,在進(jìn)行訓(xùn)練步驟 之前,構(gòu)建詞袋模型需要完成以下幾步:
[0073] 第1步,將所有訓(xùn)練視頻的特征向量組合在一起,這里假定選取的訓(xùn)練視頻總共有 NUM個(gè),由之前的步驟可知,每段訓(xùn)練視頻包含N個(gè)時(shí)空興趣點(diǎn),每個(gè)時(shí)空興趣點(diǎn)的特征向量 維數(shù)為1458,每一段視頻的H0IRM特征向量維數(shù)為9 XNUM(frames),因此特征融合后所有的 特征向量維數(shù)為1458N+9NUM(frames)。將所有訓(xùn)練視頻的特征向量組合在一起后可以構(gòu)建 一個(gè)NUM X [ 1458N+9 X NUM(frames)]的特征向量矩陣,并進(jìn)行K-Means聚類獲得K個(gè)聚類中 心,即K個(gè)關(guān)鍵特征;
[0074] 第2步,為每個(gè)視頻分配一個(gè)K維的向量,且初始化為0,其中這個(gè)向量的每一維對 應(yīng)著視覺詞典中的每個(gè)單詞;
[0075]第3步,計(jì)算每個(gè)訓(xùn)練視頻對應(yīng)的特征向量距離K個(gè)關(guān)鍵特征的距離,假定與第i個(gè) 關(guān)鍵特征的距離最近,則在對應(yīng)初始化為0的K維向量的第i個(gè)位置加1,這樣就得到一個(gè)K維 的特征向量;
[0076] 第4步,用第3步得到的K維特征向量重新表征輸入視頻的特征;
[0077] 第5步,將所有通過詞典重新描述過的視頻對應(yīng)的特征向量進(jìn)行標(biāo)記,在每一類別 的最后一維后面添加一維用于標(biāo)記該視頻的類別,為接下去的模型訓(xùn)練做準(zhǔn)備。
[0078] (7)詞袋模型描述測試視頻
[0079]由于在特征提取階段,訓(xùn)練視頻和測試視頻使用相同的特征檢測子和描述子,因 此生成的特征向量維數(shù)也相同,所以測試視頻的特征向量可以使用訓(xùn)練視頻構(gòu)建的詞典來 表示,這也是詞袋模型的關(guān)鍵步驟。具體方法是使用步驟(6)第3步得到的K維特征向量表示 測試視頻的特征,即用訓(xùn)練階段聚類生成的詞典重新描述測試視頻的特征向量。
[0080] (8)支持向量機(jī)學(xué)習(xí)和測試
[0081] 這里支持向量機(jī)(SVM)學(xué)習(xí)的特征是用詞袋模型重新描述過后的各類特征。具體 方法是將步驟(6)第5步得到的帶有類別標(biāo)記的特征向量輸入SVM中進(jìn)行訓(xùn)練得到訓(xùn)練模 型。
[0082] 同樣,測試視頻的特征也是用詞袋模型重新描述過后的各類特征。用已訓(xùn)練的SVM 分類器對步驟(7)得到的測試視頻特征向量分類得到行為類別。
[0083] 不同詞典容量下KTH動(dòng)作數(shù)據(jù)集的行為識別率如表1所示。不同詞典容量下UCF動(dòng) 作數(shù)據(jù)集的行為識別率如表2所示。兩種動(dòng)作數(shù)據(jù)集的最佳行為識別率結(jié)果如表3所示。
[0091] 本發(fā)明的基于H0IRM和局部特征融合的行為識別方法,在復(fù)雜場景下對攝像機(jī)的 視角變化、距離變化具有較強(qiáng)的魯棒性,有利于提高真實(shí)環(huán)境下行為識別的正確率。
[0092] 顯而易見,在不偏離本發(fā)明的真實(shí)精神和范圍的前提下,在此描述的本發(fā)明可以 有許多變化。因此,所有對于本領(lǐng)域技術(shù)人員來說顯而易見的改變,都應(yīng)包括在本權(quán)利要求 書所涵蓋的范圍之內(nèi)。本發(fā)明所要求保護(hù)的范圍僅由所述的權(quán)利要求書進(jìn)行限定。
【主權(quán)項(xiàng)】
1. 一種基于HOIRM和局部特征融合的行為識別方法,其特征在于:所述行為識別方法包 括以下步驟: 步驟1,對所有視頻進(jìn)行時(shí)空興趣點(diǎn)檢測; 步驟2,使用3D HOG和3D HOF描述子對檢測到的所有時(shí)空興趣點(diǎn)進(jìn)行特征向量描述; 步驟3,根據(jù)每一幀的時(shí)空興趣點(diǎn)分布情況提取興趣點(diǎn)區(qū)域R0I; 步驟4,根據(jù)ROI提取視頻的興趣點(diǎn)區(qū)域運(yùn)動(dòng)方向直方圖特征HOIRM; 步驟5,興趣點(diǎn)區(qū)域的HOIRM特征與步驟2中由3D HOG和3D HOF描述興趣點(diǎn)獲得的特征 向量進(jìn)行特征融合; 步驟6,對訓(xùn)練視頻多特征融合后的特征向量構(gòu)建詞袋模型,即對訓(xùn)練視頻所有的特征 向量進(jìn)行K-Means聚類生成視覺詞典,并用視覺詞典重新描述特征向量; 步驟7,用步驟6構(gòu)建的視覺詞典描述測試視頻的特征向量; 步驟8,用步驟6得到的特征向量訓(xùn)練支持向量機(jī)分類器,用已訓(xùn)練的支持向量機(jī)分類 器對步驟7得到的測試視頻特征向量分類,得到測試視頻行為類別。2. 如權(quán)利要求1所述的一種基于HOIRM和局部特征融合的行為識別方法,其特征在于: 所述步驟1中,采用Bregonzio興趣點(diǎn)檢測算法對視頻進(jìn)行興趣點(diǎn)檢測,得到時(shí)空興趣點(diǎn)集, 根據(jù)獲取的每一個(gè)時(shí)空興趣點(diǎn)(x,y,t)確定其所在的幀以及在整段視頻序列中的空間位 置,其中X,y表示興趣點(diǎn)在每一幀上的坐標(biāo)位置,t表示當(dāng)前所在幀的時(shí)間。3. 如權(quán)利要求1或2所述的一種基于HOIRM和局部特征融合的行為識別方法,其特征在 于:所述步驟2中,使用3D HOG和3D HOF描述子進(jìn)行聯(lián)合描述的過程為:以每一個(gè)時(shí)空興趣 點(diǎn)(X,y,t)為中心,構(gòu)建空間立方體Patch,簡稱P,其中大小為(H,W,T),H、W、T分別表示立方 體的高、寬、長,分別用3D HOG和3D HOF特征描述子進(jìn)行描述,得到時(shí)空特征向量L,以空間 立方體P的8個(gè)頂點(diǎn)為中心,分別構(gòu)建跟P相同大小的空間立方體Pi,P2,…,P8,同樣,分別米 用3D HOG和3D HOF特征描述子進(jìn)行描述,得到時(shí)空特征向量L1,L2,…,L8,將得到的時(shí)空特 征向量L跟L 1,L2,…,L8拼接在一起,得到9個(gè)空間立方體的3D HOG和3D HOF特征,作為興趣 點(diǎn)(x,y,t)的時(shí)空描述子。4. 如權(quán)利要求1或2所述的一種基于HOIRM和局部特征融合的行為識別方法,其特征在 于:所述步驟3中,提取視頻的興趣點(diǎn)區(qū)域的A興趣點(diǎn)空間的質(zhì)心位 置Cd,>〇,其中橫縱坐標(biāo)的計(jì)算方式分別戈 Py1*別表示當(dāng)前幀 第i個(gè)興趣點(diǎn)空間位置的橫、縱坐標(biāo),η表示當(dāng)前幀的興趣點(diǎn)數(shù),計(jì)算所有興趣點(diǎn)到質(zhì)心的距 離di,選出最大距離dmax,dmax=max{di,d2,......,dn},定義一個(gè)以質(zhì)心C(W)為圓心,最大 距離dmax為半徑的圓,以質(zhì)心為中心,圓的直徑為邊長,得到一個(gè)正方形,即圓的外切 矩形,該矩形即為所在幀的興趣點(diǎn)區(qū)域。5. 如權(quán)利要求1或2所述的一種基于HOIRM和局部特征融合的行為識別方法,其特征在 于:所述步驟4中,HOIRM特征提取過程為:選擇興趣點(diǎn)區(qū)域的質(zhì)心0作為代表點(diǎn)統(tǒng)一描述 興趣點(diǎn)區(qū)域的運(yùn)動(dòng)情況,由幾何關(guān)系可得,在任意時(shí)刻t,ROI質(zhì)心 (χ,.,_v;,〇的方向角 外X,, A,i)為:6,其中尤和A表示當(dāng)前幀的質(zhì)心坐標(biāo),ft、丨:)和表 示前一幀的質(zhì)心坐標(biāo),將方向角沒〇量化至K個(gè)區(qū)間,本發(fā)明取K = 9,每個(gè)區(qū)間大小為 20°,9個(gè)區(qū)間分別為:0°~20°,20°~40°,···,140°~160°,160°~180°,分別統(tǒng)計(jì)落入每個(gè) 區(qū)間中的方向個(gè)數(shù),形成興趣點(diǎn)區(qū)域運(yùn)動(dòng)方向直方圖,在直方圖中以百分比的形式表示,計(jì) 算Iiom車中ML/M⑷(X;,@表示在方向角區(qū)間0i內(nèi)對應(yīng) 的視頻幀數(shù),NUM (f rame s)表示該視頻總幀數(shù),即表示HO IRM在該方向角區(qū)間內(nèi)對應(yīng)的視頻 幀數(shù)占該視頻總幀數(shù)的比例。6. 如權(quán)利要求1或2所述的一種基于HOIRM和局部特征融合的行為識別方法,其特征在 于:所述步驟5中,基于時(shí)空興趣點(diǎn)區(qū)域的運(yùn)動(dòng)方向特征HOIRM與3D H0G、3D HOF描述的特征 向量?々融合過程為:采用累加直方圖對每一幀圖像的特征進(jìn)行融合,所用公式為其中,ch(i)表示累加直方圖的第i個(gè)區(qū)間,h(i)表示特征直方圖的第i個(gè)區(qū) 間,η表不幀的數(shù)目,最后得到的特征向量可以表不為F= {ch3DHQG,ch3DHQF,chHQIRM},其中, ch3DHQG,ch3DH〇F和chmiiRM分別代表3D H0G、3D HOF和HOIRM特征的累加直方圖。7. 如權(quán)利要求1或2所述的一種基于HOIRM和局部特征融合的行為識別方法,其特征在 于:所述步驟6中,構(gòu)建詞袋模型的過程為:首先指定視覺詞典容量的大小為K,K的值為接下 去使用的K-Means聚類算法的聚類中心數(shù)目,為了構(gòu)建一個(gè)具有K個(gè)單詞的視覺詞典,將所 有訓(xùn)練視頻的特征向量組合在一起,構(gòu)建一個(gè)特征向量矩陣并進(jìn)行K-Means聚類獲得K個(gè)聚 類中心,即K個(gè)關(guān)鍵特征,為每個(gè)訓(xùn)練視頻分配一個(gè)K維的向量,且初始化為0,這個(gè)向量的每 一維對應(yīng)著視覺詞典中的每個(gè)單詞,計(jì)算每個(gè)訓(xùn)練視頻對應(yīng)的特征向量距離K個(gè)關(guān)鍵特征 的距離,假定與第i個(gè)關(guān)鍵特征的距離最近,則在對應(yīng)初始化為〇的K維向量的第i個(gè)位置加 1,這樣就得到一個(gè)K維的特征向量,并用該特征向量表征輸入視頻的特征,將所有通過詞典 重新描述過的視頻對應(yīng)的特征向量進(jìn)行標(biāo)記,在每一類別的最后一維后面添加一維用于標(biāo) 記該視頻的類別,為接下去的模型訓(xùn)練做準(zhǔn)備。
【文檔編號】G06K9/00GK105893936SQ201610184680
【公開日】2016年8月24日
【申請日】2016年3月28日
【發(fā)明人】宦若虹, 郭峰, 王楚
【申請人】浙江工業(yè)大學(xué)