專利名稱:利用塊增大和變化檢測掩碼識別視頻中的運動對象的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及視頻處理,具體地說,涉及識別視頻中的運動對象。
背景技術(shù):
正如MPEG-4和MPEG-7標(biāo)準(zhǔn)化工作所示,許多視頻要求處理,以找到對象、確定事件、與量化應(yīng)用有關(guān)的視覺評價,以及分析視頻序列特性,參見例如R.Castagno、T.Ebrahimi和M.Kunt的文章“用于交互式多媒體應(yīng)用的基于多種特征的視頻分割”(IEEETrans.on Circuits and Systems for Video Technology,Vol.8,No.5,pp.562-571,September 1998)?;趦?nèi)容的視頻表示要求將圖像或視頻序列分解成特定的對象,例如,使運動對象與靜態(tài)背景分離。
許多電視廣播包含人在相對靜止的背景前講話的場面,即新聞節(jié)目、討論會、傳記、肥皂劇等等。而且,視頻會議應(yīng)用廣泛采用頭部、肩部畫面取得可視通信。將來,可用性越來越好的移動視頻攝像機將會超過對等的、帶寬受限的面部通信。因此,對頭肩類型視頻序列(亦稱為“發(fā)言者頭部特寫”)的精確對象分割是視頻處理的重要方面。
然而,對頭肩類型序列自動分割是困難的。因為發(fā)言者頭部通常位于幾乎不運動的桌子旁邊,基于參數(shù)的方法不能精確地估計這種類型序列中對象的運動。而且,基于運動的分割方法計算量大且不可靠?;趨^(qū)域的方法具有過度分割的缺點,故不能確定感興趣的區(qū)域?;趲町惖姆椒ǖ娜秉c是不精確的對象形狀確定。
另一種用于對象分割的方法利用塊增大以獲得最小的顏色一致的視頻分量,參見例如F.Porikli和Y.Wang的文章“采用視頻塊的無監(jiān)控多分辨率對象提取算法”(Proceedings of Int.Conf.ImageProcess,Thesselaniki,2001),亦參見Porikli于2001年4月4日提交的美國專利申請09/826333“用于多分辨率視頻對象分割的方法”。首先,對視頻利用快速中值濾波,以消除局部顏色不規(guī)則性,參見例如M.Kopp和W.Purgathofer的文章“有效的3×3中值濾波計算”(Technical University,Vienna,1994)。然后,通過對圖像幀及其特征加索引,從輸入視頻形成時空數(shù)據(jù)結(jié)構(gòu)。通過將連續(xù)的視頻幀作為3D(三維)數(shù)據(jù)結(jié)構(gòu)平面處理,可以將對象消息向前和向后傳播。在對視頻序列濾波之后,按顏色梯度選擇標(biāo)記點。利用色距使圍繞各標(biāo)記的塊增大。視頻塊存在的問題是運動對象不能與靜止對象區(qū)分。例如,利用塊增大,色彩鮮明的空白墻將會形成塊。
變化檢測掩碼(CDM)是在視頻序列中一對幀的前一幀和當(dāng)前幀之間變化的像素圖。CDM定義為有關(guān)一組給定規(guī)則的兩幀的顏色不相似度??紤]到攝像機穩(wěn)定、對象一致以及照明條件不變,故一對相鄰幀的像素顏色差異表示場景中的運動對象。然而,并非所有顏色變化因運動對象而出現(xiàn),攝像機移動、強度變化和因視頻幀上的不均勻照明造成的陰影以及圖像噪聲都會造成幀差異。計算簡單使CDM可實際用于實時應(yīng)用,參見C.S.Regazzoni、G.Fabri和G.Vernazza的文章“基于視頻的高級監(jiān)控系統(tǒng)”(Kluwer Academic Pub.,1999)。然而,單獨使用CDM來確定運動對象使分割性能變差。
因此,需要改進(jìn)的完全自動的方法,用于精確地識別視頻中任意數(shù)目的運動對象,尤其是在對象相對于背景幾乎不運動的情況下,例如發(fā)言者頭部特寫情況下。所述方法應(yīng)該結(jié)合視頻在時間上的運動和顏色特征。分割應(yīng)該在合理的時期內(nèi)發(fā)生,并且不依賴于初始用戶分割,也不依賴于同類運動約束。
發(fā)明公開本發(fā)明提供自動識別視頻中運動對象的方法。所述方法將塊增大與變化檢測相結(jié)合。在對輸入視頻濾波以消除噪聲之后,從視頻幀形成時空數(shù)據(jù)結(jié)構(gòu),并選擇標(biāo)記。根據(jù)這些標(biāo)記,基于形心鏈接方法利用顏色相似度使塊增大。然后利用局部顏色特征從視頻中相鄰幀中提取變化檢測掩碼。使變化檢測掩碼與每塊交叉,確定僅位于所述塊范圍內(nèi)的各掩碼部分中的變化像素的數(shù)目。如果交叉區(qū)的變化像素數(shù)目超過某個門限,那么就將該塊識別為運動對象。
附圖簡要說明
圖1是根據(jù)本發(fā)明的用于識別視頻中運動對象的方法的框圖;圖2是圖1所示方法的分塊步驟框圖;圖3是圖1所示提取變化檢測掩碼步驟的框圖;以及圖4是圖1所示視頻運動對象步驟的框圖。
實施本發(fā)明的最佳方式本發(fā)明利用空時塊增大和變化檢測掩碼識別視頻101中的運動對象。用于識別視頻中幾乎不運動的對象(如“發(fā)言者頭部特寫”),本發(fā)明特別有用。如圖1所示,第一步驟200通過由視頻幀101構(gòu)成時空數(shù)據(jù)結(jié)構(gòu)來分割來自視頻101的塊241。從數(shù)據(jù)結(jié)構(gòu)選擇標(biāo)記mi。所述標(biāo)記是使塊Vi 241增大的起始點。第二步驟300從輸入視頻101提取變化檢測掩碼341。通過確定相鄰的一對幀中相應(yīng)像素顏色特征的變化,提取標(biāo)記。在第三步驟400中,將所提取的掩碼341應(yīng)用于塊241,以識別視頻101中的運動對象421。
分塊構(gòu)造時空數(shù)據(jù)結(jié)構(gòu)S圖2顯示圖1的分塊步驟200的細(xì)節(jié)。首先,在任選的預(yù)處理步驟210中對視頻101應(yīng)用快速中值濾波以便消除局部不規(guī)則性。下一步驟220根據(jù)輸入視頻101的幀像素構(gòu)造時空數(shù)據(jù)結(jié)構(gòu)S 221。數(shù)據(jù)結(jié)構(gòu)S(x,y,t)中的每個元素都是向量w(x,y,t),它包括顏色值和位置(x,y,t)處像素的變化檢測得分,其中(x,y)是輸入視頻101的特定幀t中像素的坐標(biāo)。
標(biāo)記選擇把具有最小顏色梯度值的向量選為標(biāo)記231(步驟230)。標(biāo)記231是未提純(unrefined)塊241增大的起始點(步驟240)。在一個最佳實施例中,采用YUW彩色空間,這是因為該彩色空間符合人類視覺感,且可以按照振幅或歐幾里得規(guī)范計算顏色間距離。對顏色間距離公式作相應(yīng)修改,就可以采用任何彩色空間。
通過確定哪一個向量221具有最小的顏色梯度值,選擇標(biāo)記(步驟230),這是因為具有最小梯度值的向量最適合于表征紋理均勻的局部像素鄰域。顏色梯度值|S|由下式確定|S(x,y,t)|=|wy(x-,y,t)-wy(x+,y,t)|+|wu(x,y-,t)-wu(y+,t)|+|wv(x,y,t-)-wv(x,y,t+)|(1)其中,( )-和( )+表示局部鄰域中距離中心像素的等距離。為了計算簡單,僅使用亮度分量wy。然后,將具有最小梯度值的向量選為標(biāo)記231 mi(步驟230)。
塊增大圍繞標(biāo)記231使未提純塊241增大(步驟240)。形心鏈接方法用于使塊增大(步驟240)。形心ci是標(biāo)記的向量w(mi)。有效外殼包括當(dāng)前塊241的所有外部邊界p+。在6個鄰域中選擇相鄰向量p-,它包括向量(x+1,y,t),(x-1,y,t),(x,y+1,t),(x,y-1,t),(x,y,t+1),(x,y,t-1),以得到向量(x,y,t)。把與活動外殼相鄰的向量p-比作形心,并且確定形心和各相鄰向量p-之間的顏色距離d(ci,p-)。如果形心和相鄰向量之間的顏色距離小于門限ε,就將相鄰向量包括于未提純塊中,并更新形心ci。為了確定顏色距離門限ε,通過彩色空間中的向量群集并利用主顏色,將輸入視頻101的像素量化。量化通過簡化彩色光譜改進(jìn)形心鏈接方法的健壯性。
當(dāng)塊241增大了時,就根據(jù)下式從集合Ω中刪除它的向量 其中,Ω是所有向量221的集合。
接著,把剩余集合中具有最小梯度值的下一向量選為下一標(biāo)記,并重復(fù)塊增大過程(步驟235),直到不再剩余向量221。
塊合并合并(步驟250)減少未提純塊241中的不規(guī)則性。讓小于最小尺寸的塊與相鄰塊合并。例如,使小于塊V(即整個視頻)的0.001倍的塊合并,以加速此過程,合并(步驟250)以分層方式進(jìn)行,它從最小的塊開始,結(jié)束于不滿足最小尺寸要求的最大塊。不滿足最小尺寸要求的最小塊與最近的塊合并。按照尺寸增大的順序?qū)λ行K重復(fù)該過程。
提取變化檢測掩碼確定距離圖3顯示圖1所示提取步驟300的細(xì)節(jié)。該步驟從相鄰的成對幀中提取變化檢測掩碼。首先,確定(步驟310)當(dāng)前幀t局部窗口中像素p(x,y,t)和相鄰幀t-1中像素qn(xm,ym,t-1)的距離311
δ(p,qn)=Σi,jΣk|wk(x,y,t)-wk(xni,ynj,t-1)|,---(3)]]>其中,xni,ynj是窗口N1中中心像素qn(xn,yn,t)周圍的像素坐標(biāo),k是彩色分量y,u,v,得到距離δ(p,q)311。在另一窗口N2中選擇各點qn(xm,ym,t-1)。彩色分量可從任何彩色空間(即RGB,HIS等等)中選取。如果使用單通道輸入,則k表示輸入通道,即灰度等級。
選擇最小得分選擇最小得分(步驟320)防止運動估計中的一些較小的誤差。根據(jù)下式將另一窗口N2中的最小距離δ(p,qn)311指定為各像素p的得分Δ(p)Δ(p)=minn(p,qn),qn∈N2------(4)]]>對得分求平均在窗口N3中對得分求平均(步驟330),得到用于閾值處理340的平均得分331。
對得分作閾值處理對得分作閾值處理(步驟340)得到二進(jìn)制變化檢測掩碼cdm(p)341, 其中,μ是門限??梢詫⑺付椴噬至縿討B(tài)范圍的加權(quán)平均。選擇得分門限,使平均分331與一組變化點而不是與單個點對應(yīng)。以同樣的方式對小區(qū)域濾波。
備選的變化檢測掩碼可以采用其它變化檢測掩碼代替以上方法。這些掩碼包括但不限于幀差異算子、全局運動補償掩碼、非二級制變化檢測掩碼。因此本公開所述的方法包括所有變化檢測掩碼提取方法。一種簡單的變化檢測掩碼可以為cdm(p)=Σk|wk(x,y,t)-wk(x,y,t-1)|------(6)]]>其中,像素p是幀t中的像素,k表示彩色分量。
將變化檢測掩碼應(yīng)用于分割塊圖4顯示圖1識別步驟400的細(xì)節(jié)。在分割塊(步驟200)和提取掩碼(步驟300)之后,識別運動對象(步驟400)。針對每個塊對掩碼與該塊交叉區(qū)中的變化像素計數(shù)。可以對總計數(shù)歸一化,將計數(shù)超過預(yù)定門限的塊識別為運動對象421。
本發(fā)明可以精確地識別視頻中的運動對象,特別是在對象幾乎不運動的情況下,例如,首部肩部類型的視頻序列。該方法同時利用時間上的運動和顏色特征。識別在合理的時期內(nèi)進(jìn)行,且不依賴于初始的用戶分割,也不依賴于同類運動約束。識別了的運動對象就可以容易地加以分割。
本發(fā)明的另一優(yōu)點是,它不要求背景登記。此外,本發(fā)明可以精確地提取對象邊界,而不用基于蛇形的模型或邊界校正方法。所提出的方法還可以分割平滑的有紋理的對象。
盡管已通過最佳實施方式示例對本發(fā)明作了描述,但是顯然,在本發(fā)明的精神和范圍之內(nèi)可以作出各種其它變化和修改。因此,所附權(quán)利要求書的目的是要包括屬于本發(fā)明精神和范圍之內(nèi)的所有這種變化和修改。
權(quán)利要求
1.一種用于識別視頻中運動對象的方法,所述方法包括把所述視頻分成多個塊;從所述視頻中提取多個掩碼;以及將所述多個掩碼應(yīng)用于所述多個塊,以識別與運動對象對應(yīng)的塊。
2.如權(quán)利要求1所述的方法,其中,所述視頻包括多個幀并且每個幀包括多個像素,其特征在于所述方法還包括由所述幀的所述像素構(gòu)造時空數(shù)據(jù)結(jié)構(gòu),其中,所述數(shù)據(jù)結(jié)構(gòu)中的每個元素是包括像素(x,y,t)的顏色值的向量,這里(x,y)是所述視頻中特定幀t中像素的坐標(biāo);用最小顏色梯度值作為標(biāo)記選擇向量;增大每個標(biāo)記附近的未提純的塊;從所述數(shù)據(jù)結(jié)構(gòu)中刪除所述未提純的塊;以及重復(fù)所述選擇、增大以及刪除步驟直到所述數(shù)據(jù)結(jié)構(gòu)為空。
3.如權(quán)利要求2所述的方法,其特征在于還包括將不滿足最小尺寸要求的未提純的塊與最接近的較大的塊合并。
4.如權(quán)利要求3所述的方法,其特征在于所述顏色梯度值|S|由下式確定|S(x,y,t)|=|wy(x-,y,t)-wy(x+,y,t)|+|wu(x,y-,t)-wu(y+,t)|+|wv(x,y,t-)-wv(x,y,t+)|其中,()-和()+表示距離像素局部相鄰區(qū)中中心像素的相等距離。
5.如權(quán)利要求1所述的方法,其特征在于還包括確定當(dāng)前幀窗口中某個像素與相鄰幀窗口中多個像素之間的多個距離;選擇所述多個距離中的最小距離,作為相鄰幀窗口中各像素的得分;對所述多個得分求平均;以及對所述得分作閾值處理以產(chǎn)生所述掩碼。
6.如權(quán)利要求1所述的方法,其特征在于還包括利用幀差作為變化檢測掩碼。
7.如權(quán)利要求1所述的方法,其特征在于將所述多個掩碼應(yīng)用于所述多個塊以識別運動對象的步驟還包括對與每塊相交的所述掩碼的各部分中變化像素的數(shù)目計數(shù);以及選擇計數(shù)值超過預(yù)定門限的塊作為運動對象。
8.如權(quán)利要求6所述的方法,其特征在于還包括將所述總計數(shù)值歸一化。
全文摘要
一種將塊增大和變化檢測相結(jié)合的方法。在對輸入視頻濾波以消除噪聲之后,由視頻幀形成時空數(shù)據(jù)結(jié)構(gòu)并選擇標(biāo)記。根據(jù)所述標(biāo)記,利用基于顏色相似度的形心鏈接方法使塊增大。然后利用局部顏色特征從視頻中的相鄰幀中提取變化檢測掩碼。變化檢測掩碼與每塊交叉,以確定僅在位于該塊范圍內(nèi)的掩碼部分中的變化像素數(shù)目。如果交叉區(qū)中的變化像素數(shù)目超過某個門限,那么將塊識別為運動對象。
文檔編號G06T7/20GK1537299SQ0280519
公開日2004年10月13日 申請日期2002年12月18日 優(yōu)先權(quán)日2001年12月20日
發(fā)明者F·M·珀里克里, F M 珀里克里 申請人:三菱電機株式會社