專利名稱:一種近似重復視頻片段自動定位方法
技術領域:
本發(fā)明涉及多媒體圖像視頻檢索技術領域。尤其是一種近似重復視頻片段自動定位方法,可應用于視頻拷貝檢測、近似重復視頻檢索等子領域。
背景技術:
近似重復視頻片段自動定位是視頻檢索領域中,一個重要的子問題。與其緊密相關的技術領域包括近似重復圖像檢索、近似重復視頻檢索和拷貝視頻檢測等。近似重復的視頻檢索技術的一個顯著特征是,其檢索返回的視頻具有高度的相似性。盡管如此,由于視覺信息缺乏語義性,信息量巨大,并且易受編碼格式、視頻分辨率、視頻對比度等視頻參數(shù)變換的影響,快速準確的進行近似重復視頻內(nèi)容檢測,仍然是一項極具挑戰(zhàn)性的技術。目前,隨著廣播電視、互聯(lián)網(wǎng)、電信網(wǎng)等帶寬的不斷增加,視頻的生成、傳播、消費規(guī)模呈現(xiàn)幾何級增長,傳統(tǒng)的人工標注、查詢、管理的方式效率低下,急需基于內(nèi)容相似性的視頻檢測 技術進行智能化的處理。目前,針對近似重復視頻片段自動定位技術展開的各項研究,主要是集中在如何選取更好的視頻表達特征上,而由于定位問題對于時間精度的要求,查詢方法基本都是采用串匹配的方式進行。常用的特征表示有,統(tǒng)計顏色直方圖、運動估計向量、梯度直方圖,以及空間灰度序和時間灰度序等。其中,基于灰度序的各種特征,由于其計算簡單,并對顏色退化等問題不敏感,在定位查詢時往往能取得較好的效果。然而,傳統(tǒng)的灰度序特征的唯一性表示能力不夠,使得尤其在查詢視頻較短時,誤判率較高。綜上所述,傳統(tǒng)的近似重復視頻片段自動定位問題主要存在以下兩個問題一是定位查詢的效率不高,方法時間復雜度為O(MN) (M為查詢視頻抽取的關鍵幀序列幀數(shù),N為目標視頻抽取的關鍵幀序列幀數(shù)。不引起歧義的情況下,下文以視頻長度代替關鍵幀序列幀數(shù))不適合實時定位查詢;二是定位查詢的精度在召回率較高時下降較快,難以達到實際應用的要求。
發(fā)明內(nèi)容
針對上述兩個主要問題,本發(fā)明提出了一種近似重復視頻片段自動定位方法。本發(fā)明所提出的一種近似重復視頻片段自動定位方法,其特征在于,該方法包括以下步驟步驟I,對于查詢視頻片段和目標視頻,分別抽取該查詢視頻片段和目標視頻中的關鍵巾貞序列;步驟2,提取抽取出的關鍵幀序列的視頻二值時間灰度序特征;步驟3,提取所述關鍵巾貞序列的視頻時空統(tǒng)一灰度序特征;步驟4,基于提取出的所述視頻二值時間灰度序特征與所述時空統(tǒng)一灰度序特征對所述目標視頻進行自動定位,得到所述目標視頻中與查詢視頻片段近似重復的視頻片段;其中,所述步驟4進一步包括以下步驟
步驟4. 1,利用所述視頻二值時間灰度序特征,提取所述查詢視頻片段以及目標視頻中所有候選視頻片段的時空二值模式直方圖,并計算所述查詢視頻片段與每一所述候選視頻片段的時空二值模式直方圖相交度量下的相似度,所述相似度大于給定閾值T1的候選視頻片段通過第一層的定位過濾,所述候選視頻片段為所述目標視頻中可能與所述查詢視頻片段近似重復的視頻片段;步驟4. 2,利用所述視頻二值時間灰度序特征,計算所述查詢視頻片段與通過第一層定位過濾的候選視頻片段之間的串匹配相似度,所述串匹配相似度大于給定閾值T2的候選視頻片段通過第二層的定位過濾;步驟4. 3,利用所述視頻時空統(tǒng)一灰度序特征,計算所述查詢視頻片段與通過前兩層定位過濾的候選視頻片段之間的串匹配相似度,所述串匹配相似度大于給定閾值T3的候選視頻片段即為所述目標視頻中與所述查詢視頻片段近似重復的視頻片段。本發(fā)明所提出的一種近似重復視頻片段自動定位方法對于目標視頻中的候選視 頻片段首先進行基于時空二值模式直方圖的實時過濾,在線性時間復雜度O(N)內(nèi)過平均濾掉80%以上的候選視頻片段,然后進行基于二值時間灰度序特征的快速過濾,使平均過濾率達到99%,大幅提聞了定位過濾的執(zhí)行效率,能夠在召回率較聞的情況下,顯者提聞定位精度。本發(fā)明雖然主要針對基于內(nèi)容相似性的近似重復視頻片段自動定位領域,但對于其他相似領域亦具有借鑒意義。
圖I是本發(fā)明近似重復視頻片段自動定位方法的流程圖。圖2是本發(fā)明提出的二值時間灰度序和時空統(tǒng)一灰度序特征提取示意圖。圖3是本發(fā)明提出的對目標視頻中與查詢視頻片段近似重復視頻片段進行三層自動定位過濾的方法流程圖。圖4是本發(fā)明方法、基于空間灰度序的近似重復視頻片段自動定位方法和基于時間灰度序的近似重復片段自動定位方法在測試數(shù)據(jù)集上的召回率平均值-精度平均值曲線圖。
具體實施例方式為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。本發(fā)明提出了一種近似重復視頻片段自動定位方法,能夠快速、準確的定位出目標視頻中與查詢視頻片段近似重復的相關片段。本發(fā)明的基本特征主要有以下七個方面一是采用均勻抽取的方式,抽取視頻關鍵幀序列;二是提出并應用了一種視頻時空二值模式直方圖特征表示方法,該特征利用一個包含了視頻中灰度序時空分布信息的二值模式直方圖來表示一段視頻,特征表示非常緊湊,使得計算視頻相似度時不依賴串匹配,時間復雜度為O(N)(由于目標視頻中候選視頻片段的劃分隨查詢視頻片段長度變化而變化,因此時空二值模式直方圖的統(tǒng)計是在定位查詢過程中根據(jù)事先提取的視頻二值時間灰度序特征動態(tài)生成的);三是提出并應用了一種視頻二值時間灰度序特征表示方法,該特征較以往灰度序特征僅使用0,I兩個數(shù)字表示幀間平均灰度的相對關系,使得特征表示更加緊湊,在特征提取或計算視頻相似度時均不需要進行排序操作,且可以采用位運算,因此其計算速度較傳統(tǒng)灰度序特征更快;四是提出并應用了一種視頻時空統(tǒng)一灰度序特征表示方法,該特征較以往灰度序特征,具有更好的唯一性,能夠減少定位查詢的誤判率;五是利用視頻時空二值模式直方圖,計算查詢視頻片段與目標視頻中候選視頻片段之間在直方圖相交度量下的相似度,對候選視頻片段進行線性時間復雜度的實時過濾;六是應用視頻二值時間灰度序,采用串匹配的方式對通過時空二值模式直方圖的候選視頻片段進一步進行過濾,縮小精確定位時的查詢范圍;七是采用區(qū)分性更好的視頻時空統(tǒng)一灰度序特征,計算查詢視頻片段與目標視頻在該特征下的串匹配相似度,通過過濾的視頻片段認為與查詢視頻片段近似重復。實驗證明,與以往方法相比,本發(fā)明所提方法,大幅提高了定位查詢的效率,并進一步提高了定位查詢的準確度。本發(fā)明的目的在于,給定一個查詢視頻片段,從一個目標視頻中將與該查詢視頻片段近似重復的視頻片段檢索、定位出來。圖I是本發(fā)明近似重復視頻片段自動定位方法 流程圖,如圖I所示,本發(fā)明所提出的近似重復視頻片段快速定位方法包括以下幾個步驟步驟I,對于查詢視頻片段和目標視頻,分別抽取該查詢視頻片段和目標視頻中的關鍵巾貞序列;由于視頻片段定位一般對定位出的視頻片段的起始時間和結束時間有精度要求,因此本發(fā)明采用均勻抽取的方式,抽取查詢視頻片段和目標視頻中的關鍵幀序列,而不是采用基于鏡頭分割的關鍵幀序列抽取方式。比如,對于重復播放廣告的廣播視頻,由于廣告片段時長一般較短,因此,抽取間隔可以采用5幀,即每隔5幀抽取一幀。具體的關鍵幀序列抽取頻率可根據(jù)具體應用進行調(diào)整。步驟2,提取抽取出的關鍵幀序列的視頻二值時間灰度序特征;類似于其他灰度序特征的提取過程,該步驟依次對抽取出的關鍵幀序列中的每一幀進行處理,所述視頻二值時間灰度序特征的提取進一步包括以下步驟步驟2. 1,首先,將關鍵幀序列中的每一個幀圖像轉化成灰度圖像;灰度圖像的轉化為本領域的通用技術,在此不再贅述。本發(fā)明中,采用8位灰度圖。步驟2. 2,然后,將每一個灰度圖像劃分成k*k個均勻大小的矩形圖像塊,如圖2 (a)所示;在本發(fā)明的一個實施例中,為了避免廣播視頻的臺標、掛角廣告和滾動字幕等因素的干擾,在將灰度圖像劃分成矩形圖像塊之前,首先去除了灰度圖像的頂部和底部各20%的圖像(如圖2(a)所示)。所述k為一正整數(shù),比如2、3、4。步驟2. 3,計算各矩形圖像塊的灰度平均值,如圖2(b)所示;步驟2. 4,最后,按照下面的公式(I)提取相鄰兩個關鍵幀之間的二值時間灰度序特征,得到關鍵幀序列的視頻二值時間灰度序特征Sgn(/*,(M,r) — hM{u,v)):恤(隊◎〈<㈨"¢1)其中,F(xiàn)i (U,v)表示關鍵幀序列中第i個關鍵幀第(U,V)個矩形圖像塊的灰度平均值,U,V < k。提取的二值時間灰度序特征如圖2(c)所示。提取得到的視頻二值時間灰度序特征,可以以矩陣形式來描述,該矩陣的行數(shù)為幀圖像分成矩形圖像塊的個數(shù)(k*k),由于視頻二值時間灰度序特征描述的是幀間的特征,所以該矩陣的列數(shù)為幀圖像的個數(shù)減1,矩陣中的各個元素的值為相應矩形圖像塊之間的二值時間灰度序特征值,如圖2(e)所示其中,第一行的矩陣元素為圖2(c)所示的幀圖像中按照從左至右、從上至下的順序排列矩形圖像塊時,每幅圖像的第一個矩形圖像塊與下一幀圖像中相應位置的矩形圖像塊之間按照公式(I)計算得到的二值時間灰度序特征,其他的矩陣元素依次類推。步驟3,提取所述關鍵幀序列的視頻時空統(tǒng)一灰度序特征;所述視頻時空統(tǒng)一灰度序特征是對關鍵幀序列的視頻二值時間灰度序特征進行的一個整體上的描述,具體地,是對幀內(nèi)(空間)和幀間(時間)的所有矩形圖像塊的灰度平均值進行統(tǒng)一的排序,而不僅僅對幀內(nèi)矩形圖像塊的灰度平均值進行排序(此種方式為空間灰度序特征的灰度序生成方式),或是僅僅對幀間對應矩形圖像塊的灰度平均值進行排序(此種方式為時間灰度序特征的灰度序生成方式)。
所述關鍵巾貞序列的視頻時空統(tǒng)一灰度序特征的提取進一步包括以下步驟步驟3. 1,將所述關鍵幀序列中的所有幀圖像轉化成灰度圖像;該步驟中,仍然采用8位灰度圖。步驟3. 2,將轉化得到的每個灰度圖像均勻劃分成k*k個矩形圖像塊,如圖2(a)所示,其中k的取值與所述步驟2. 2中k的取值相同;步驟3. 3,計算得到的所有矩形圖像塊的灰度平均值,如圖2(b)所示;步驟3. 4,對所有矩形圖像塊的灰度平均值按照從小到大的順序進行統(tǒng)一排序并編號;對于圖2(b)所示的關鍵幀序列,其視頻時空統(tǒng)一灰度序特征如圖2(d)所描述。抽取的視頻時空統(tǒng)一灰度序特征,也可以以矩陣的形式表示,如圖2(f)所示。矩陣中的各個元素的值為相應矩形圖像塊的時間統(tǒng)一灰度序特征值,其中第一行為幀圖像中按照從左至右、從上至下的順序排列矩形圖像塊時,每幅圖像的第一個矩形圖像塊的排序編號,其他矩陣元素依次類推。由上可見,所述視頻時空統(tǒng)一灰度序特征提取過程的前三步與所述視頻二值時間灰度序特征提取過程的前三步相同,只是在最后一步進行特征描述時不同,所述視頻時空統(tǒng)一灰度序特征的提取是對關鍵幀序列中所有幀的所有矩形圖像塊的灰度平均值進行統(tǒng)一排序,而不僅僅是在每一幀空間內(nèi)部或僅僅在時間序列上對于空間位置相同的矩形圖像塊進行排序,本發(fā)明稱這種灰度序表示方式為時空統(tǒng)一灰度序特征。不難分析,這種表示方式較空間灰度序的幀內(nèi)排序和時間灰度序的幀間排序,特征表示的唯一性更強。類似于時間灰度序特征,時空統(tǒng)一灰度序特征在保存特征時有兩種方式,一是保存各個矩形圖像塊的灰度平均值,在后續(xù)對視頻片段進行查詢時根據(jù)查詢視頻片段的長度,動態(tài)計算所述關鍵幀序列的時空統(tǒng)一灰度序特征;二是保存該目標視頻整個視頻長度的時空統(tǒng)一灰度序特征,在后續(xù)對視頻片段進行查詢時根據(jù)具體查詢的查詢視頻片段的長度,將全局時空統(tǒng)一灰度序特征轉換成與查詢視頻片段長度相同的局部灰度序特征,具體轉換可采用經(jīng)典的快速排序方法,對候選視頻片段對應的全局灰度序的編號進行排序,并分配連續(xù)的局部排序編號,作為候選視頻片段的灰度序特征。本發(fā)明采用第二種特征保存方式。步驟4,基于提取出的所述視頻二值時間灰度序特征與所述時空統(tǒng)一灰度序特征對所述目標視頻進行自動定位,得到所述目標視頻中與查詢視頻片段近似重復的視頻片段;對于一長度為M的查詢視頻片段和一長度為N的目標視頻,目標視頻中任一連續(xù)的M幀組成的視頻片段均可能與所述查詢視頻片段近似重復,因此目標視頻中共有N-M+1個可能的候選視頻片段,但其中絕大多數(shù)候選視頻片段是與所述查詢視頻片段明顯不可能近似重復的,因此可以首先利用簡單的特征對所述候選視頻片段進行快速過濾,最后再利用復雜的特征對所述候選視頻片段進行準確定位?;谏鲜鏊枷?,本發(fā)明提出了一種對目標視頻中與查詢視頻片段近似重復的視頻片段三層自動定位過濾的方法,所述三層自動定位過濾的方法的流程圖如圖3所示。所述步驟4進一步包括以下步驟步驟4. 1,利用所述視頻二值時間灰度序特征,提取所述查詢視頻片段以及目標視頻中所有候選視頻片段的時空二值模式直方圖,并計算所述查詢視頻片段與每一所述候選 視頻片段的時空二值模式直方圖相交度量下的相似度,所述相似度大于給定閾值T1的候選視頻片段通過第一層的定位過濾;時空二值模式形式上與局部二值模式(Local Binary Pattern)類似,具體是指二值時間灰度序特征中滿足一定約束的二值取值組合,該約束可以是空間位置上或時間序列上的約束。例如,當k = 2時,滿足空間位置約束(比如按照從左至右、從上至下的矩形圖像塊排列順序)的4個二值時間灰度序特征的組合,可以認為是一個二值模式,如公式(2)所示
r 、
'I.' s(v!(. . e {O,I},/e (1,2}, / e (1,2})(2)
V2,'
V22 _其中,i,j為矩形圖像塊的位置坐標,Vi,」是對應位置矩形圖像塊的二值時間灰度序特征。由于二值時間灰度序特征取值的不同,上述二值模式的所有取值共2Wk種。定義好時空二值模式之后,對于一視頻片段可以從其二值時間灰度序特征中統(tǒng)計生成該視頻片段的時空二值模式直方圖。傳統(tǒng)的直方圖統(tǒng)計方法為本領域的通用技術,在此不再贅述;本發(fā)明中,根據(jù)視頻關鍵幀序列的連續(xù)性,采用如下步驟所描述的時空二值模式直方圖快速統(tǒng)計方法來提取所述查詢視頻片段和所述候選視頻片段的時空二值模式直方圖步驟4. I. 1,采用傳統(tǒng)直方圖統(tǒng)計方法,統(tǒng)計在時間序列上第一個候選視頻片段的時空二值模式直方圖;步驟4. I. 2,由第i個候選視頻片段的時空二值模式直方圖,減去所述目標視頻二值時間灰度序特征中第i個幀間特征對應的二值取值,加上第i+M個幀間特征對應的二值取值,生成所述目標視頻中第i+Ι個候選視頻片段的時空二值模式直方圖,其中,
N-M。所述步驟4. I中所述時空二值模式直方圖相交度量下的相似度根據(jù)下式來
計算
權利要求
1.一種近似重復視頻片段自動定位方法,其特征在于,該方法包括以下步驟 步驟I,對于查詢視頻片段和目標視頻,分別抽取該查詢視頻片段和目標視頻中的關鍵幀序列; 步驟2,提取抽取出的關鍵巾貞序列的視頻_■值時間灰度序特征; 步驟3,提取所述關鍵巾貞序列的視頻時空統(tǒng)一灰度序特征; 步驟4,基于提取出的所述視頻二值時間灰度序特征與所述時空統(tǒng)一灰度序特征對所述目標視頻進行自動定位,得到所述目標視頻中與查詢視頻片段近似重復的視頻片段; 其中,所述步驟4進一步包括以下步驟 步驟4. 1,利用所述視頻二值時間灰度序特征,提取所述查詢視頻片段以及目標視頻中所有候選視頻片段的時空二值模式直方圖,并計算所述查詢視頻片段與每一所述候選視頻片段的時空二值模式直方圖相交度量下的相似度,所述相似度大于給定閾值T1的候選視頻片段通過第一層的定位過濾,所述候選視頻片段為所述目標視頻中可能與所述查詢視頻片段近似重復的視頻片段; 步驟4. 2,利用所述視頻二值時間灰度序特征,計算所述查詢視頻片段與通過第一層定位過濾的候選視頻片段之間的串匹配相似度,所述串匹配相似度大于給定閾值T2的候選視頻片段通過第二層的定位過濾; 步驟4. 3,利用所述視頻時空統(tǒng)一灰度序特征,計算所述查詢視頻片段與通過前兩層定位過濾的候選視頻片段之間的串匹配相似度,所述串匹配相似度大于給定閾值T3的候選視頻片段即為所述目標視頻中與所述查詢視頻片段近似重復的視頻片段。
2.根據(jù)權利要求I所述的方法,其特征在于,所述步驟I中,采用均勻抽取的方式來抽取查詢視頻片段和目標視頻中的關鍵幀序列。
3.根據(jù)權利要求I所述的方法,其特征在于,所述視頻二值時間灰度序特征的提取進一步包括以下步驟 步驟2. 1,將關鍵幀序列中的每一個幀圖像轉化成灰度圖像; 步驟2. 2,將每一個灰度圖像劃分成k*k個均勻大小的矩形圖像塊; 步驟2. 3,計算各矩形圖像塊的灰度平均值; 步驟2. 4,提取相鄰兩個關鍵幀之間的二值時間灰度序特征,得到關鍵幀序列的視頻二值時間灰度序特征。
4.根據(jù)權利要求3所述的方法,其特征在于,所述步驟2.2之前還進一步包括去除所述灰度圖像頂部和底部各20%的圖像的步驟。
5.根據(jù)權利要求3所述的方法,其特征在于,所述步驟2.4中根據(jù)下面的公式提取相鄰兩個關鍵幀之間的二值時間灰度序特征g ( 5 1+1 ( 5 .)) _ [Oi F.(u,v)< Fm(ilv) 其中,F(xiàn)i(Uj)表示關鍵幀序列中第i個關鍵幀第(u,v)個矩形圖像塊的灰度平均值,u,V < k。
6.根據(jù)權利要求I所述的方法,其特征在于,所述關鍵幀序列的視頻時空統(tǒng)一灰度序特征的提取進一步包括以下步驟步驟3. 1,將所述關鍵幀序列中的所有幀圖像轉化成灰度圖像; 步驟3. 2,將轉化得到的每個灰度圖像均勻劃分成k*k個矩形圖像塊; 步驟3. 3,計算得到的所有矩形圖像塊的灰度平均值; 步驟3. 4,對所有矩形圖像塊的灰度平均值按照從小到大的順序進行統(tǒng)一排序并編號。
7.根據(jù)權利要求I所述的方法,其特征在于,所述時空二值模式為二值時間灰度序特征中滿足一定約束的二值取值組合,該約束是空間位置上或時間序列上的約束。
8.根據(jù)權利要求I所述的方法,其特征在于,所述步驟4.I中提取所述查詢視頻片段和所述候選視頻片段的時空二值模式直方圖的步驟進一步包括 步驟4. I. 1,統(tǒng)計在時間序列上第一個候選視頻片段的時空二值模式直方圖; 步驟4. I. 2,由第i個候選視頻片段的時空二值模式直方圖,減去所述目標視頻二值時間灰度序特征中第i個幀間特征對應的二值取值,加上第i+M個幀間特征對應的二值取值,得到所述目標視頻中第i+Ι個候選視頻片段的時空二值模式直方圖,其中,M為查詢視頻片段的長度,N-M, N為目標視頻的長度。
9.根據(jù)權利要求I所述的方法,其特征在于,所述步驟4.I中所述時空二值模式直方圖相交度量下的相似度根據(jù)下式來計算
10.根據(jù)權利要求I所述的方法,其特征在于,所述步驟4.2中,所述查詢視頻片段與通過第一層定位過濾的候選視頻片段之間的串匹配相似度根據(jù)下式來計算
11.根據(jù)權利要求I所述的方法,其特征在于,所述步驟4.3中,所述查詢視頻片段與通過前兩層定位過濾的候選視頻片段之間的串匹配相似度根據(jù)下式來計算
全文摘要
本發(fā)明公開了一種近似重復視頻片段自動定位方法,該方法包括以下步驟抽取查詢視頻片段和目標視頻的關鍵幀序列;提取關鍵幀序列的視頻二值時間灰度序特征;提取關鍵幀序列的視頻時空統(tǒng)一灰度序特征;對目標視頻進行三層自動定位過濾,得到目標視頻中與查詢視頻片段近似重復的視頻片段。本發(fā)明方法較基于空間灰度序的定位方法平均能夠節(jié)省約62%的響應時間,較基于時間灰度序的定位方法平均能夠節(jié)省約89%的響應時間,并能夠使定位查詢在召回率平均值為1.0時,精度平均值達到0.965,高于基于空間灰度序方法的0.934,以及基于時間灰度序方法的0.775。由上可知,本發(fā)明方法大幅提高了定位過濾的執(zhí)行效率,能夠在召回率較高的情況下,顯著提高定位精度。
文檔編號G06F17/30GK102779184SQ20121022609
公開日2012年11月14日 申請日期2012年6月29日 優(yōu)先權日2012年6月29日
發(fā)明者張樹武, 李和平, 王方圓 申請人:中國科學院自動化研究所