專利名稱:基于混合投影函數(shù)和支持向量機(jī)的視頻鏡頭邊界檢查方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多媒體、視頻處理和視頻分析,模式識(shí)別領(lǐng)域,尤其涉及一種利用混合投影函數(shù)和支持向量機(jī)的視頻鏡頭邊界檢查方法。
背景技術(shù):
視頻數(shù)據(jù)是以幀為單位、按特定的時(shí)間間隔(如PAL、NTSC制等)順序組織的,是一維的線性結(jié)構(gòu)。然而,視頻數(shù)據(jù)包含著復(fù)雜的語義內(nèi)容,具有復(fù)雜的“段落”結(jié)構(gòu)。視頻數(shù)據(jù)的結(jié)構(gòu)化就是分析視頻中存在的種語義結(jié)構(gòu),是視頻分析和視頻理解的基本前提。按從粗到細(xì)的順序,一個(gè)視頻可分成視頻(Video)、片段(Section)、場(chǎng)景(Scene)和鏡頭(Shot)四層結(jié)構(gòu)。其中鏡頭是由攝像機(jī)一次連續(xù)拍攝得到的時(shí)間上連續(xù)的視頻幀組成,鏡頭間通過不同的轉(zhuǎn)換方式進(jìn)行連接。任何一段視頻數(shù)據(jù)都是由鏡頭組成的,是視頻內(nèi)容分析的基本單元,鏡頭的劃分是整個(gè)視頻分析的基礎(chǔ),只有首先把視頻序列分解成鏡頭,才能進(jìn)一步進(jìn)行關(guān)鍵幀提取、視頻縮略和視頻序列辯識(shí)等工作。因此,鏡頭切換的檢測(cè)(shotdetection)成了視頻檢索技術(shù)中首先需要解決的問題,其檢測(cè)效果的好壞將直接影響到視頻分析、視頻理解的性能。
鏡頭之間轉(zhuǎn)換方式有兩種突變(Cut Transition和漸變(Gradual Transition)。突變是指前一鏡頭的末幀與后一鏡頭的首幀直接相連,中間沒有使用任何剪輯效果。漸變則是從一個(gè)鏡頭緩慢變化到另一個(gè)鏡頭,整個(gè)轉(zhuǎn)換過程是逐漸完成的,通常延續(xù)十幾或幾十幀。漸變的類型非常豐富,有些視頻編輯工具,如AdobePremiere和Ulead MediaStudio,可提供100多種不同的編輯方法。
由于鏡頭是由一個(gè)具有時(shí)間和空間連續(xù)性的視頻幀序列組成,因此,同一鏡頭內(nèi)的各幀間內(nèi)容相近;而在鏡頭轉(zhuǎn)換時(shí),視頻內(nèi)容會(huì)發(fā)生較大的變化,這種變化一般表現(xiàn)在顏色差異突然增大、新舊邊緣的遠(yuǎn)離、對(duì)象形狀的改變和運(yùn)動(dòng)的不連續(xù)性等方面。鏡頭邊界檢測(cè)的基本思想就是通過選擇合適的特征來度量視頻幀間的差異,從而尋找鏡頭邊界變化的規(guī)律,并通過分析變化特性,識(shí)別鏡頭的邊界。此外,如何消除噪聲,特別是光照變化、攝像機(jī)或物體運(yùn)動(dòng)對(duì)算法性能的影響,也是鏡頭邊界檢測(cè)算法考慮的重要問題。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于混合投影函數(shù)和支持向量機(jī)的視頻鏡頭邊界檢查方法。
基于混合投影函數(shù)和支持向量機(jī)的視頻鏡頭邊界檢測(cè)方法包括如下步驟 (1)視頻幀圖像數(shù)據(jù)在垂直方和水平方向上求取差分和積分投影函數(shù); (2)視頻幀的投影函數(shù)值作為該視頻幀的特征向量,視頻幀間差為2個(gè)視頻幀的特征向量在其向量空間中的距離; (3)利用滑動(dòng)窗口,計(jì)算在窗口內(nèi)的相鄰視頻幀的幀間差,利用自適應(yīng)的閾值判斷鏡頭切變邊界; (4)對(duì)于一個(gè)視頻幀序列,相鄰視頻幀的幀間差組成的向量為視頻幀序列的特征向量,根據(jù)相鄰視頻幀的幀間差選取候選視頻幀序列,通過視頻幀序列等間隔刪除或插值,使視頻幀序列的特征向量長(zhǎng)度達(dá)到設(shè)指定值; (5)利用支持向量機(jī)對(duì)視頻幀序列的幀間差向量進(jìn)行分類,識(shí)別屬于漸變過程的視頻幀序列。
所述的視頻幀圖像數(shù)據(jù)在垂直方和水平方向上求取差分和積分投影函數(shù)步驟包括 以多個(gè)行(列)為單位計(jì)算積分投影函數(shù)值和差分函數(shù)值,離散的水平積分投影函數(shù)MH和垂直積分投影函數(shù)MV的表達(dá)式分別為 離散的水平差分投影函數(shù)和垂直差分投影函數(shù)表達(dá)式為 其中,w和h分別為視頻中幀的寬度和高度,λ和η分別為合并的行數(shù)和列數(shù),
所述的視頻幀的投影函數(shù)值作為該視頻幀的特征向量,視頻幀間差為2個(gè)視頻幀的特征向量在其向量空間中的距離步驟包括 (1)將幀間差向量的長(zhǎng)度作為幀間距離,計(jì)算公式為 其中,DHi,j是視頻中第i個(gè)幀的第j個(gè)水平投影函數(shù),DVi,j是視頻的第i幀的第j個(gè)垂直投影函數(shù)值。
(2)視頻幀序列的特征向量的構(gòu)成為幀序列中相鄰幀間差作為特征向量的第i個(gè)分量,特征向量可以表示為 SV=[V2-V1,V3-V2,...,Vn-Vn-1]T 6 Vi為序列中的第i視頻幀的特征向量。
所述的利用滑動(dòng)窗口,計(jì)算在窗口內(nèi)的相鄰視頻幀的幀間差,利用自適應(yīng)的閾值判斷鏡頭切變邊界步驟包括 判斷第i與i+1幀之間是否為邊界的自適應(yīng)閾值T(i)確定方法為在視頻幀序列中取第i幀為中心的一個(gè)滑動(dòng)窗口,求取窗口范圍內(nèi)次大的相鄰幀的幀間距離Dsec-max,取自適應(yīng)閾值T(i)=a×Dsec-max,其中a為某一常數(shù)。
鏡頭按下列條件判斷第i和第i+1幀是否為邊界
其中,N為滑動(dòng)窗口的寬度。如果|FFD(i)|是滑動(dòng)窗口中的最大值,并且大于滑動(dòng)窗口中第二大值的a倍,則認(rèn)為第i幀和第i+1幀之間存在鏡頭切變。
所述的利用支持向量機(jī)對(duì)視頻幀序列的幀間差向量進(jìn)行分類,識(shí)別屬于漸變過程的視頻幀序列步驟包括 (1)確定特征向量 一個(gè)長(zhǎng)度為l(l≥2)幀的視頻序列對(duì)應(yīng)一個(gè)長(zhǎng)度為l-1的幀間差向量序列。通過對(duì)侯選序列對(duì)應(yīng)的幀間差向量序列作線性插值或等間隔刪除,把對(duì)應(yīng)的幀間差向量序列寬展或壓縮到一個(gè)固定長(zhǎng)度。用幀間差向量的序列定義侯選序列的特征向量,并把該向量作為SVM輸入空間的輸入向量 其中,l為侯選序列經(jīng)寬展或壓縮后的幀數(shù),即序列長(zhǎng)度,m,n分別為水平和垂直方向上投影分量的個(gè)數(shù),fi,j為侯選序列對(duì)應(yīng)的幀間差向量序列中第i個(gè)向量的第j個(gè)分量 (2)采用訓(xùn)練樣本確定支持向量集。
確定了問題的特征向量以后,用已知類型的侯選序列的特征向量作為訓(xùn)練樣本就可以求取SVM的支持向量集,再根據(jù)支持向量集構(gòu)造支持向量機(jī)。
(3)構(gòu)建下述支持向量機(jī),用來對(duì)候選幀序列分類 其中,K為RBF核函數(shù),閾值b可通過任一標(biāo)準(zhǔn)支持向量求得。
本發(fā)明與現(xiàn)有技術(shù)相比具有的有益的效果是 (1)提出了一種以差分和積分投影函數(shù)為基礎(chǔ)的混合投影函數(shù)作為視頻幀圖像的空間特征,與以往的基于像素或輪廓的特征提取方法相比,降低了特征提取的時(shí)間復(fù)雜度和特征維度,并能有效地減少視頻中常見的隨機(jī)噪聲對(duì)鏡頭邊界檢測(cè)的影響。
(2)提出了一種利用視頻幀特征向量計(jì)算視頻幀間距離定義視頻幀序列的特征向量的定義方法,通過對(duì)視頻幀序列的特征向量的從粗到精的多重分析,快速確定候選幀序列和切變鏡頭邊界,解決了檢測(cè)精度和檢測(cè)速度之間的矛盾。
(3)通過采用支持向量機(jī)的方法在候選的幀序列進(jìn)行分類方法檢測(cè)鏡頭的漸變邊界,避免了采用閾值方法容易漏檢漸變鏡頭弱點(diǎn),也避免了像模型法只針對(duì)指定模型的檢測(cè)限制。
圖1是本發(fā)明算法的基本步驟示意圖; 圖2(a)是步驟2中幀圖像的混合投影函數(shù),其中視頻幀圖像,寬和高分別為360和288; 圖2(b)是圖2(a)中的圖像的水平混合投影函數(shù),X方向?yàn)榇怪狈较蛏系奈恢?,Y方向?yàn)閷?duì)應(yīng)圖像位置在水平方向上的投影值; 圖2(c)是圖2(a)中的圖像的垂直混合投影函數(shù),X方向?yàn)樗椒较蛏系奈恢?,Y方向?yàn)閷?duì)應(yīng)圖像位置在垂直方向上的投影值; 圖3步驟4中幀間差變化曲線,第0-80幀和第400-450幀之間較大的幀間差是鏡頭內(nèi)場(chǎng)景變化引起的;第305幀和550幀附近則是2個(gè)鏡頭切變;第210和第500幀附近對(duì)應(yīng)2個(gè)鏡頭漸變; 圖4是圖3中第491-512幀對(duì)應(yīng)的鏡頭漸變序列,等間隔取其中的10幀;。
圖5是采用本發(fā)明方法的一個(gè)實(shí)現(xiàn);。
圖6是圖5方法中DirectShow的Graphic中Filter鏈路。
具體實(shí)施例方式 具體實(shí)施的技術(shù)方案及步驟如下 1.計(jì)算視頻幀圖像的差分投影函數(shù)和積分投影函數(shù) 一幅二維圖像可以由兩個(gè)正交的一維投影函數(shù)來分析,維數(shù)的降低便于分析圖像的特征,并且減少了計(jì)算量,本發(fā)明采用以投影函數(shù)有積分投影函數(shù)(Integral Projection Function,IPF)和方差投影函數(shù)(Variance Projection Function,VPF)為基礎(chǔ)的混合投影函數(shù)計(jì)算視頻幀圖像的特征。
假設(shè)I(x,y)為圖像在點(diǎn)(x,y)的灰度或顏色分量值,那么在區(qū)間[x1,x2]上的水平方向的平均積分投影函數(shù)Mh(y)和在區(qū)間[y1,y2]上的垂直方向的平均積分投影函數(shù)Mv(x)分別為 水平(垂直)積分投影函數(shù)是處在某一相同水平(垂直)位置上的所有象素的灰度或顏色分量值的積分和。當(dāng)圖像的某一行的灰度均值發(fā)生變化時(shí),這種變化會(huì)在水平投影積分函數(shù)值上反映出來,同樣當(dāng)圖像的某一列灰度發(fā)生變化時(shí),這種變化也會(huì)從垂直投影函數(shù)值上反映出來,通過積分投影函數(shù)值可以提取圖像中的特征。由于積分投影函數(shù)沒有考慮在投影方向上圖像灰度的變化情況,無法區(qū)分投影方向上灰度均值相同的兩幅圖像。為了反映圖像灰度的變化,考慮用差分代替均值,這就是方差投影函數(shù)。
假設(shè)I(x,y)為圖像在點(diǎn)(x,y)的灰度或顏色分量值,那么在區(qū)間[x1,x2]上的水平方向的差分投影函數(shù)σh和在區(qū)間[y1,y2]上的垂直方向的差分投影函數(shù)σv分別定義為 其中的Mh(y)和Mv(x)就是式1和2定義的水平和垂直方向上的平均積分投影函數(shù)。當(dāng)圖像某一列(行)象素灰度的方差發(fā)生變化時(shí),這種變化會(huì)在方差投影值上反應(yīng)出來。VPF對(duì)隨機(jī)噪聲并不敏感,可以利用VPF作為圖像特征對(duì)圖像進(jìn)行分析。
2.視頻幀圖像的特征提取 圖像積分投影函數(shù)值和方差投影函數(shù)值作為圖像特征有各自的優(yōu)點(diǎn)和局限,積分投影函數(shù)無法區(qū)分兩幅在投影方向上積分和相同的圖像,差分投影特征無法區(qū)分兩幅在投影方向上的方差相同的圖像,但從各自的定義不難發(fā)現(xiàn)它們之間具有很強(qiáng)的互補(bǔ)性。本發(fā)明通過分別對(duì)積分投影函數(shù)和差分投影函數(shù)進(jìn)行適當(dāng)?shù)奶幚硪院?,用它們的組合來定義混合投影函數(shù),利用混合投影函數(shù)值作為圖像特征。在水平方向和垂直方向上的混合投影函數(shù)定義為 其中σ′v(x),σ′h(x),M′v(x),M′h(x)分別是σv(x),σh(x),Mv(x),Mh(x)規(guī)范化到區(qū)間
的結(jié)果 混合投影函數(shù)對(duì)隨機(jī)噪聲不敏感。設(shè)X為隨機(jī)變量,其期望與方差分別為E(X)和σ(x)。η為獨(dú)立的隨機(jī)噪聲,滿足正態(tài)分布N(0,σ(η)),則 一般情況下,σ(η)<<σ(X),所以,
因此,混合投影函數(shù)對(duì)隨機(jī)噪聲并不敏感,基于混合投影函數(shù)幀特征能有效低克服視頻中常見的隨機(jī)噪聲的影響。
3.視頻幀特征及幀間距離計(jì)算 視頻幀是組成視頻的基本單位,定義和獲得單幀圖像的特征是進(jìn)一步視頻分析的基礎(chǔ)。
本發(fā)明結(jié)合基于像素和直方圖方法的優(yōu)點(diǎn),提出了基于混合投影函數(shù)的幀特征表示方法。
除了視頻鏡頭的邊界附近,相鄰的視頻幀之間具有很大的相似性,考慮到同一鏡頭內(nèi)幀間變化的主要是由攝象機(jī)的移動(dòng)、鏡頭的推拉(Zoom in/out)和場(chǎng)景、目標(biāo)物體的移動(dòng)等引起的象素位置移動(dòng)。為了降低對(duì)這種移動(dòng)的敏感度,同時(shí)也降低特征維數(shù),本文以多個(gè)行/列為單位計(jì)算積分投影函數(shù)值和差分函數(shù)值,這樣離散的水平積分投影函數(shù)MH和垂直積分投影函數(shù)MV的表達(dá)式分別為 相似地,離散的水平差分投影函數(shù)和垂直差分投影函數(shù)表達(dá)式為 這里,w和h分別為視頻中幀的寬度和高度,λ和η分別為合并的行數(shù)和列數(shù),
由于在計(jì)算投影函數(shù)時(shí)把圖像分成了水平和豎直方向上的條帶,對(duì)于視頻中由于攝象機(jī)的移動(dòng)、鏡頭的推拉和場(chǎng)景、目標(biāo)物體的移動(dòng)等引起的象素位置移動(dòng)帶來的影響的敏感度也很低。因此,式14和15表示的圖像特征在數(shù)字視頻的分析中特別適合鏡頭的邊界檢測(cè)、關(guān)鍵幀分析等場(chǎng)合。
利用式12、13、14和15得到的函數(shù)值可以計(jì)算視頻幀在水平方向和垂直方向上的混合投影函數(shù)值。按X方向排列垂直方向投影函數(shù)值和按Y方向排列的水平方向的投影函數(shù)值可以構(gòu)成一個(gè)m+n維的向量,并由此組成視頻幀的特征向量v V=[DH0,DH1,...,DHm-1,DV0,DV1,...,DVn-1]T16 取第i和第i+1幀之間的幀間差為幀間距離向量 FFD(i)=V(i+1)-V(i) 17 其中,v(i)和v(i+1)為第i幀和第i+1的特征向量。
顯然,F(xiàn)FD(i)也是一個(gè)m+n維的向量,其向量長(zhǎng)度|FFD|代表了第i幀和i+1幀的特征向量在對(duì)應(yīng)的向量空間中的歐氏距離,可以粗略地反映出幀間差異。在漸變鏡頭檢測(cè)的初期,利用|FFD|的值可以首先排除大多數(shù)的鏡頭內(nèi)幀,從而提高檢測(cè)速度。
鏡頭的漸變是從一個(gè)鏡頭向另一個(gè)鏡頭過渡,在鏡頭漸變過程中,相鄰幀有相對(duì)較大的幀間距離,在大多數(shù)情況下,這個(gè)幀間距離要大于鏡頭內(nèi)的相鄰幀之間的幀間距離,但是由于攝象機(jī)的移動(dòng)、鏡頭的推拉和被攝物體的運(yùn)動(dòng)等等原因,鏡頭內(nèi)的相鄰幀之間也有可能具有較大的幀間差(稱這類鏡頭內(nèi)幀序列為鏡頭內(nèi)復(fù)雜運(yùn)動(dòng))。為了減小單個(gè)幀間差變化的偶然性,首先對(duì)幀間距離進(jìn)行平滑處理;再利用閾值法排除幀間差較小的鏡頭內(nèi)視頻序列和鏡頭切變引起的幀間差變化,篩選出幀間差較大的視頻序列作為候選序列,這些候選序列包含鏡頭漸變和鏡頭內(nèi)復(fù)雜運(yùn)動(dòng)。只要這個(gè)閾值足夠小,候選序列中總能保留所有的鏡頭漸變過程。鏡頭漸變的檢測(cè)就成了漸變過程和鏡頭內(nèi)復(fù)雜運(yùn)動(dòng)的二分類問題。
4.鏡頭切變邊界檢測(cè) 兩個(gè)鏡頭間的切變是將兩個(gè)鏡頭直接連接在一起得到的,中間沒有使用任何視頻編輯特效。兩個(gè)不同鏡頭中的幀圖像是存在視覺差異的,于是鏡頭切變就對(duì)應(yīng)為前一鏡頭的最后一幀圖像與相鄰鏡頭的第一幀圖像之間視覺內(nèi)容的突然變化。對(duì)鏡頭切變的檢測(cè)一般選用一種特征量來表征視頻中幀圖像的視覺內(nèi)容,再用這一特征量的變化來衡量視覺內(nèi)容的變化,從而將視覺上的鏡頭切變轉(zhuǎn)化為數(shù)學(xué)量上的變化?;静襟E就是提取特征,計(jì)算相鄰兩幀的特征值的差值,將該差值與某個(gè)特定的閾值(可能是自適應(yīng)的閾值也可能是全局閾值)進(jìn)行比較,若大于該閾值,則認(rèn)為此相鄰兩幀分別屬于不同的鏡頭,即檢測(cè)到了鏡頭邊界,否則認(rèn)為此相鄰兩幀屬于同一個(gè)鏡頭。
依照上述思路,本文提出了一種鏡頭切變邊界的檢測(cè)方法,該方法中選取基于投影函數(shù)的特征,用視頻幀間差向量的歐氏距離|FFD|作為幀間距離,利用幀間距離與一自適應(yīng)閾值的比較來判定鏡頭切變的存在。下面詳細(xì)介紹了該方法。
將幀間差向量的長(zhǎng)度作為幀間距離,可按下式計(jì)算 其中,DHi,j是視頻中第i個(gè)幀的第j個(gè)水平投影函數(shù),DVi,j是視頻的第i幀的第j個(gè)垂直投影函數(shù)值。
判斷第i與i+1幀之間是否為邊界的自適應(yīng)閾值T(i)按如下方式確定在視頻幀序列中取第i幀為中心的一個(gè)滑動(dòng)窗口,找出窗口范圍內(nèi)次大的相鄰幀的幀間距離Dsec-max,取自適應(yīng)閾值T(i)=a×Dsec-max,其中a為某一常數(shù),可根據(jù)視頻類型的實(shí)際情況確定。
鏡頭按下列條件判斷第i和第i+1幀是否為邊界
其中,N為滑動(dòng)窗口的寬度。如果|FFD(i)|是滑動(dòng)窗口中的最大值,并且大于滑動(dòng)窗口中第二大值的a倍,則認(rèn)為第i幀和第i+1幀之間存在鏡頭切變。該方法使用了鏡頭切變?cè)跁r(shí)間軸上形成的模式信息,a相當(dāng)于鏡頭切變形成的幀間差曲線的形狀參數(shù)。
5.鏡頭漸變邊界檢測(cè) 鏡頭漸變過程長(zhǎng)度一般在幾幀到幾十幀之間,一個(gè)長(zhǎng)度為l(l≥2)幀的視頻序列對(duì)應(yīng)一個(gè)長(zhǎng)度為l-1的幀間差向量序列。通過對(duì)侯選序列對(duì)應(yīng)的幀間差向量序列作線性插值或等間隔刪除,把對(duì)應(yīng)的幀間差向量序列寬展或壓縮到一個(gè)固定長(zhǎng)度。利用幀間差向量的序列定義侯選序列的特征向量,并把該向量作為SVM輸入空間的輸入向量 其中,l為侯選序列經(jīng)寬展或壓縮后的幀數(shù),即序列長(zhǎng)度,m,n分別為水平和垂直方向上投影分量的個(gè)數(shù),fi,j為侯選序列對(duì)應(yīng)的幀間差向量序列中第i個(gè)向量的第j個(gè)分量,特征向量的維數(shù)為(m+n)×l。因此,特征向量維數(shù)由下面三個(gè)因素確定 1.視頻圖像的大小。
2.在計(jì)算方差投影函數(shù)時(shí)被合并的行和列數(shù),即式3和式4中的λ和η; 3.寬展或壓縮后的候選序列長(zhǎng)度l。
確定了問題的特征向量以后,用已知類型的侯選序列的特征向量作為訓(xùn)練樣本就可以求取SVM的支持向量集,再根據(jù)支持向量集構(gòu)造支持向量機(jī),這是一個(gè)不等式約束下的凸二次優(yōu)化問題 滿足約束條件 0≤αi≤Ci=1,...,1 其中,αi是幀間差向量對(duì)應(yīng)的Lagrange乘子,K是輸入空間到特征空間的映射函數(shù),滿足Mercer條件,取RBF核函數(shù);l為候選序列數(shù),即訓(xùn)練樣本數(shù)目;xi為輸入向量;C為大于0的常數(shù);y∈{-1,1},由下式?jīng)Q定
求解上述優(yōu)化問題可以得到唯一解,其中,對(duì)應(yīng)αi>0的樣本為支持向量(SV,Support Machine),0<αi<C對(duì)應(yīng)的樣本為標(biāo)準(zhǔn)支持向量(NSV,Normal SupportVector)。這樣就可以構(gòu)建下述支持向量機(jī),用來對(duì)候選幀序列分類 其中,K為RBF核函數(shù),閾值b可通過任一標(biāo)準(zhǔn)支持向量求得 本發(fā)明的視頻邊界檢測(cè)方法,利用差分和積分投影函數(shù)在圖像特征提取上的互補(bǔ)性,采用視頻幀的差分和積分投影函數(shù)的組合特征代替?zhèn)鹘y(tǒng)的基于像素或輪廓的特征,提高特征提取速度并有效地克服了隨機(jī)噪聲帶來的影響;然后采用移動(dòng)窗口法確定可能的鏡頭邊界,并用自適應(yīng)閾值和支持向量機(jī)對(duì)候選幀序列進(jìn)行分類,分別檢測(cè)切變和漸變鏡頭邊界。該方法提高了邊界檢測(cè)的精度和速度,并有效地克服了視頻中隨機(jī)噪聲帶來的影響。
權(quán)利要求
1.一種基于混合投影函數(shù)和支持向量機(jī)的視頻鏡頭邊界檢測(cè)方法,其特征在于包括如下步驟
(1)視頻幀圖像數(shù)據(jù)在垂直方和水平方向上計(jì)算差分和積分投影函數(shù);
(2)視頻幀的投影函數(shù)值作為該視頻幀的特征向量,視頻幀間差為2個(gè)視頻幀的特征向量在其向量空間中的距離;
(3)利用滑動(dòng)窗口,計(jì)算在窗口內(nèi)的所有相鄰視頻幀的幀間差,利用自適應(yīng)的閾值判斷鏡頭切變邊界;
(4)在一個(gè)視頻幀序列中,相鄰視頻幀的幀間差組成的向量為視頻幀序列的特征向量,根據(jù)相鄰視頻幀的幀間差選取候選視頻幀序列,通過視頻幀序列等間隔刪除或插值,使所有的視頻幀序列的特征向量長(zhǎng)度相同,長(zhǎng)度值可預(yù)先指定,一般取30-50;
(5)利用支持向量機(jī)對(duì)視頻幀序列的幀間差向量進(jìn)行分類,識(shí)別屬于漸變過程的視頻幀序列。
2.根據(jù)權(quán)利要求1所述的一種基于混合投影函數(shù)和支持向量機(jī)的視頻鏡頭邊界檢測(cè)方法,其特征在于所述的視頻幀圖像數(shù)據(jù)在垂直方和水平方向上求取差分和積分投影函數(shù),步驟包括
以多個(gè)行(列)為單位計(jì)算積分投影函數(shù)值和差分函數(shù)值,離散的水平積分投影函數(shù)MH和垂直積分投影函數(shù)MV的表達(dá)式分別為
(i=1,2,......,m-1) 1
(i=1,2,......,n-1) 2
離散的水平差分投影函數(shù)和垂直差分投影函數(shù)表達(dá)式為
(i=1,2,......,m-1) 3
(i=1,2,......,n-1) 4
其中,w和h分別為視頻中幀的寬度和高度,λ和η分別為合并的行數(shù)和列數(shù),
3.根據(jù)權(quán)利要求1所述的一種基于混合投影函數(shù)和支持向量機(jī)的視頻鏡頭邊界檢測(cè)方法,其特征在于所述的視頻幀的投影函數(shù)值作為該視頻幀的特征向量,視頻幀間差為2個(gè)視頻幀的特征向量在其向量空間中的距離,步驟包括
(1)將幀間差向量FFD的長(zhǎng)度作為幀間距離,計(jì)算公式為
其中,DHi,j是視頻中第i個(gè)幀的第j個(gè)水平投影函數(shù),DVi,j是視頻的第i幀的第j個(gè)垂直投影函數(shù)值。
(2)視頻幀序列的特征向量的構(gòu)成為幀序列中相鄰幀間差作為特征向量的第i個(gè)分量,特征向量可以表示為
SV=[V2-V1,V3-V2,...Vn-Vn-1]T 6
Vi為序列中的第i視頻幀的特征向量。
4.根據(jù)權(quán)利要求1所述的一種基于混合投影函數(shù)和支持向量機(jī)的視頻鏡頭邊界檢測(cè)方法,其特征在于所述的利用滑動(dòng)窗口,計(jì)算在窗口內(nèi)的相鄰視頻幀的幀間差,利用自適應(yīng)的閾值判斷鏡頭切變邊界步驟包括
判斷第i與i+1幀之間是否為邊界的自適應(yīng)閾值T(i)確定方法為在視頻幀序列中取第i幀為中心的一個(gè)滑動(dòng)窗口,求取窗口范圍內(nèi)次大的相鄰幀的幀間距離Dsec-max,取自適應(yīng)閾值T(i)=a×Dsec-max,其中a為某一常數(shù),取值在0.1~1.0之間。
鏡頭按下列條件判斷第i和第i+1幀是否為邊界
其中,N為滑動(dòng)窗口的寬度。如果|FFD(i)|是滑動(dòng)窗口中的最大值,并且大于滑動(dòng)窗口中第二大值的a倍,則認(rèn)為第i幀和第i+1幀之間存在鏡頭切變。
5.根據(jù)權(quán)利要求1所述的一種基于混合投影函數(shù)和支持向量機(jī)的視頻鏡頭邊界檢測(cè)方法,,其特征在于所述的利用支持向量機(jī)對(duì)視頻幀序列的幀間差向量進(jìn)行分類,識(shí)別屬于漸變過程的視頻幀序列步驟包括
(1)確定特征向量
一個(gè)長(zhǎng)度為l(l≥2)幀的視頻序列對(duì)應(yīng)一個(gè)長(zhǎng)度為l-1的幀間差向量序列。通過對(duì)侯選序列對(duì)應(yīng)的幀間差向量序列作線性插值或等間隔刪除,把對(duì)應(yīng)的幀間差向量序列寬展或壓縮到一個(gè)固定長(zhǎng)度。用幀間差向量的序列定義侯選序列的特征向量,并把該向量作為SVM輸入空間的輸入向量
其中,l為侯選序列經(jīng)寬展或壓縮后的幀數(shù),即序列長(zhǎng)度,m,n分別為水平和垂直方向上投影分量的個(gè)數(shù),fi,j為侯選序列對(duì)應(yīng)的幀間差向量序列中第i個(gè)向量的第j個(gè)分量
(2)采用訓(xùn)練樣本確定支持向量集。
確定了問題的特征向量以后,用已知類型的侯選序列的特征向量作為訓(xùn)練樣本就可以求取SVM的支持向量集,再根據(jù)支持向量集構(gòu)造支持向量機(jī)。
(3)構(gòu)建下述支持向量機(jī),用來對(duì)候選幀序列分類
其中,K為RBF核函數(shù),閾值b可通過任一標(biāo)準(zhǔn)支持向量求得。
全文摘要
本發(fā)明公開了一種利用混合投影函數(shù)計(jì)算視頻特征、采用支持向量機(jī)的視頻鏡頭邊界檢測(cè)方法。視頻由多個(gè)鏡頭連接而成,是視頻數(shù)據(jù)結(jié)構(gòu)化的基本單位,本方法對(duì)視頻制作采用的鏡頭的邊界進(jìn)行定位。方法首先引入了圖像投影函數(shù)并通過投影函數(shù)的組合,定義視頻幀間距離度量,進(jìn)而計(jì)算視頻幀序列的特征向量;通過分析視頻幀間距離的變化選取檢測(cè)鏡頭邊界的候選序列;接著利用一個(gè)自適應(yīng)閾值和支持向量機(jī)分別對(duì)鏡頭的切變和漸變邊界進(jìn)行識(shí)別。本發(fā)明采用的方法有較小的時(shí)間復(fù)雜度和較高檢測(cè)精度,適合大量的數(shù)字視頻自動(dòng)分析。
文檔編號(hào)G06T7/00GK101719271SQ200910154120
公開日2010年6月2日 申請(qǐng)日期2009年11月5日 優(yōu)先權(quán)日2009年11月5日
發(fā)明者凌堅(jiān), 練益群 申請(qǐng)人:浙江傳媒學(xué)院