本發(fā)明涉及計算機視覺領(lǐng)域,更具體地,涉及一種基于混合池化策略的深度卷積特征的動作識別方法。
背景技術(shù):
科技的發(fā)展使得攝像設(shè)備得到了普及,數(shù)量巨大的視頻數(shù)據(jù)也隨之產(chǎn)生。同時,針對視頻的應(yīng)用也應(yīng)運而生:智能視頻監(jiān)控、視頻數(shù)據(jù)分類、高級人機交互等。在這些應(yīng)用中,針對人的動作進行理解是最核心的關(guān)注點,也是人們研究的核心內(nèi)容。
由于人體動作識別有很大的潛在價值,所以此課題作為一個研究熱點已經(jīng)持續(xù)了至少十年時間,很多種方法都被提出,例如:基于密集軌跡(DT)的方法、基于時空興趣點的方法以及基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法等。其中,基于CNN的方法研究的人數(shù)最多,這種方法能夠取得目前最好的結(jié)果。然而,大多數(shù)深層CNN網(wǎng)絡(luò)都將單張卷積圖看成一個整體來用,而卷積圖中的局部信息往往被忽略,所以,我們的動作識別研究將會針對基于深度卷積特征多通道金字塔池化的動作識別方法以提取深度特征中的局部信息。
基于卷積神經(jīng)網(wǎng)絡(luò)的方法的主要思想是:首先,對視頻采用多層的卷積層、池化層和全連接層,提取視頻的描述子特征;接下來將這些特征放入分類器中進行分類,以完成最終的識別過程。很多學(xué)者在這個基礎(chǔ)上進行了探索和改進。Annane等人提出了一種雙流卷積網(wǎng)絡(luò)用于動作識別,包括空間流和時間流網(wǎng)絡(luò),空間流用于提取視頻幀的表觀特征,時間流用于提取視頻連續(xù)幀的運動特征,將二者進行融合,以此提升識別效果。Wang等人將深度卷積特征和人工特征進行融合,學(xué)習(xí)到深度特征和人工特征這兩種不同類型特征的優(yōu)勢。以上方法都取得了較好的效果,但是現(xiàn)存的基于深度網(wǎng)絡(luò)的研究通常將單張深度特征圖作為一個整體來使用而忽略了深度特征中的局部信息,而這種線索對于提高基于深度網(wǎng)絡(luò)的識別準確率是有幫助的。
技術(shù)實現(xiàn)要素:
為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于混合池化策略的深度卷積特征的動作識別方法。該方法將視頻數(shù)據(jù)集的視頻作為輸入,進行視頻特征提取和識別,最后輸出視頻的分類結(jié)果,該方法具有簡單易實現(xiàn),識別效果好的特點。
為了達到上述目的,本發(fā)明采用的技術(shù)方案是:
一種基于混合池化策略的深度卷積特征的動作識別方法,包括以下步驟:
(1)輸入待識別的視頻,對輸入視頻的每一幀,利用空間流深度網(wǎng)絡(luò)模型得到每幀的表觀特征;同時對輸入視頻的每連續(xù)10幀,利用時間流深度網(wǎng)絡(luò)模型得到運動特征。其中空間流深度網(wǎng)絡(luò)和時間流深度網(wǎng)絡(luò)模型均包括5個卷積層,3個池化層,以及3個全連接層;
(2)對空間流深度網(wǎng)絡(luò)模型和時間流深度網(wǎng)絡(luò)模型得到的最后一層卷積層輸出的深度卷積圖采用時間濾波器池化方法得到對應(yīng)的特征表示,采用不同長度間隔的時間序列,以獲取視頻的全局和局部運動,并采用主成分分析方法對特征進行降維,得到第一描述子特征;
同時,對空間流深度網(wǎng)絡(luò)模型和時間流深度網(wǎng)絡(luò)模型得到的最后一層卷積層輸出的深度卷積圖采用時空金字塔池化方法得到對應(yīng)的特征表示,采用4層的時空金字塔結(jié)構(gòu)來獲取深度特征圖中的局部信息,并對于目標和幾何變形具有魯棒性;同樣的也采用主成分分析進行特征降維,得到第二描述子特征;
(4)對步驟(2)提取的第一、二描述子特征級聯(lián)起來,形成該視頻最終的向量表示;采用支持向量機(SVM)進行特征分類,最終輸出分類結(jié)果,獲取視頻的動作識別結(jié)果,在UCF50人體行為數(shù)據(jù)集上實現(xiàn)了90.8%的準確率。
本發(fā)明基于深度卷積神經(jīng)網(wǎng)絡(luò)方法,并且通過探索深度特征圖中的局部信息和運動信息,提出了一種新的基于混合池化策略的深度卷積特征,它能夠有效地獲取特征圖在不同尺度下的局部信息和運動信息,顯著提高了動作識別的準確率。
優(yōu)選的,步驟(1)中,空間流和時間流深度網(wǎng)絡(luò)模型將視頻每幀作為輸入,對原始圖像做多層的卷積和池化操作,得到每層的輸出都是多個深度卷積圖,形成更具抽象的圖像特征。
優(yōu)選的,步驟(2)中,選取空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)的最后一層卷積層輸出的卷積圖來進行時間濾波器池化的操作,具體是對特征圖采用4種不同時間間隔的濾波器(1,4,8,16)來分析深度特征在時間域的運動,其中時間間隔1對應(yīng)的是整個視頻范圍內(nèi)的時間運動也即全局運動,而時間間隔16對應(yīng)的是最大尺度下的局部時間運動。對于每個不同的時間間隔,深度特征在整個視頻時間范圍內(nèi)都會被分割成多個時間片,對每個時間片內(nèi)的特征我們同時采用最大池化和求和池化方法獲取該時間片內(nèi)最具代表性的特征,并將這兩種池化結(jié)果串聯(lián)起來表示在該時間片內(nèi)的運動。然后對整個時間濾波器池化后得到的視頻特征進行PCA降維。
優(yōu)選的,步驟(2)中,選取空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)的最后一層卷積層輸出的多通道卷積圖來進行時空金字塔池化的操作,具體是對卷積圖采用4層時空金字塔結(jié)構(gòu)(1×1×1,2×2×2,3×3×3,4×4×4),其中第一層(1×1×1)對應(yīng)的是整個時間和空間范圍內(nèi)的特征圖,而第4層(4×4×4)對應(yīng)的是最大尺度下的局部時空特征塊。因此通過時空金字塔結(jié)構(gòu)得到特征圖位于不同時空尺度下的局部塊。對每個局部時空塊采用最大池化方法,計算時空塊中的最大值作為該局部塊的特征表示。由于每個通道上的特征圖提取了不同的圖像/視頻信息,故將所有通道上的特征圖中同一時空位置的局部塊的特征串聯(lián)起來,形成該局部時空塊的多通道特征描述子。最后將視頻內(nèi)所有時空塊特征級聯(lián)起來,形成視頻的特征表示。然后對整個時空金字塔池化后得到的視頻特征進行PCA降維。
優(yōu)選的,步驟(3)中,將視頻的深度特征通過時間濾波器池化和時空金字塔池化后的兩種特征串聯(lián)起來,得到視頻最終的特征表示。采用支持向量機SVM對特征進行分類,得到該視頻的動作類別標簽。
本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點及效果:
1、本發(fā)明提出了一種新的描述子特征來充分獲取不同尺度下的運動信息和局部信息,提升了識別效果。
2、本發(fā)明對不同通道下的卷積圖的相同區(qū)域做池化連接,可以得到該區(qū)域的不同方面的信息,比如邊緣或者紋理。
附圖說明
圖1為本發(fā)明的總體流程圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。
附圖給出了本發(fā)明的操作過程,如圖所示,一種基于混合池化策略的深度卷積特征的動作識別方法,包括以下步驟:
(1)輸入待識別的視頻,對輸入視頻的每一幀,利用空間流深度網(wǎng)絡(luò)模型得到每幀的表觀特征;同時對輸入視頻的每連續(xù)10幀,利用時間流深度網(wǎng)絡(luò)模型得到運動特征。其中空間流深度網(wǎng)絡(luò)和時間流深度網(wǎng)絡(luò)模型均包括5個卷積層,3個池化層,以及3個全連接層;
(2)對空間流網(wǎng)絡(luò)模型和時間流網(wǎng)絡(luò)模型得到的最后一層卷積層輸出的深度卷積圖采用時間濾波器池化方法得到對應(yīng)的特征表示,采用不同長度間隔的時間序列,以獲取視頻的全局和局部運動,并采用主成分分析方法對特征進行降維;
(3)對空間流網(wǎng)絡(luò)模型和時間流網(wǎng)絡(luò)模型得到的最后一層卷積層輸出的深度卷積圖采用時空金字塔池化方法得到對應(yīng)的特征表示,采用4層的時空金字塔結(jié)構(gòu)來獲取深度特征圖中的局部信息,并對于目標和幾何變形具有魯棒性;同樣的也采用主成分分析進行特征降維;
(4)對步驟(2)和(3)提取的描述子特征級聯(lián)起來,形成該視頻最終的向量表示;采用支持向量機(SVM)進行特征分類,最終輸出分類結(jié)果,預(yù)測視頻的動作類別標簽,并在UCF50人體行為數(shù)據(jù)集上實現(xiàn)了90.8%的準確率。
進一步地,步驟(1)中的具體過程如下:空間流和時間流深度網(wǎng)絡(luò)模型將視頻每幀作為輸入,對原始圖像做多層的卷積和池化操作,得到每層的輸出都是多個深度卷積圖,形成更具抽象的圖像特征。
步驟(2)中的具體過程如下:選取空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)的最后一層卷積層輸出的卷積圖來進行時間濾波器池化的操作,對特征圖采用4種不同時間間隔的濾波器(1,4,8,16)來分析深度特征在時間域的運動,其中時間間隔1對應(yīng)的是整個視頻范圍內(nèi)的時間運動也即全局運動,而時間間隔16對應(yīng)的是最大尺度下的局部時間運動。對于每個不同的時間間隔,深度特征在整個視頻時間范圍內(nèi)都會被分割成多個時間片,對每個時間片內(nèi)的特征我們同時采用最大池化和求和池化方法獲取該時間片內(nèi)最具代表性的特征,并將這兩種池化結(jié)果串聯(lián)起來表示在該時間片內(nèi)的運動。然后對整個時間濾波器池化后得到的視頻特征進行PCA降維。
步驟(3)中的具體過程如下:選取空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)的最后一層卷積層輸出的多通道卷積圖來進行時空金字塔池化的操作,對卷積圖采用4層時空金字塔結(jié)構(gòu)(1×1×1,2×2×2,3×3×3,4×4×4),其中第一層(1×1×1)對應(yīng)的是整個時間和空間范圍內(nèi)的特征圖,而第4層(4×4×4)對應(yīng)的是最大尺度下的局部時空特征塊。因此通過時空金字塔結(jié)構(gòu)得到特征圖位于不同時空尺度下的局部塊。對每個局部時空塊采用最大池化方法,計算時空塊中的最大值作為該局部塊的特征表示。由于每個通道上的特征圖提取了不同的圖像/視頻信息,故將所有通道上的特征圖中同一時空位置的局部塊的特征串聯(lián)起來,形成該局部時空塊的多通道特征描述子。最后將視頻內(nèi)所有時空塊特征級聯(lián)起來,形成視頻的特征表示。然后對整個時空金字塔池化后得到的視頻特征進行PCA降維。
步驟(4)中的具體過程如下:將視頻的深度特征通過時間濾波器池化和時空金字塔池化后的兩種特征串聯(lián)起來,得到視頻最終的特征表示。采用支持向量機SVM對特征進行分類,得到該視頻的動作類別標簽。
顯然,本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明權(quán)利要求的保護范圍之內(nèi)。