專利名稱:圖像表示和分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于表示圖像的方法和裝置,以及用于對(duì)圖像間的相似性進(jìn)行評(píng)估的 方法和裝置。
背景技術(shù):
在 Lienhart, R. , "Comparison of Automatic Shot Boundary Detection Algorithms,,,In Proceedings of Image and Video Processing VII 1999, Proc. SPIE 3656-29,pp. 290-301,Jan. 1999中,提出了一種用于檢測(cè)視頻序列中的拍攝轉(zhuǎn)場(chǎng)(shot transition)的方法。針對(duì)序列中的每個(gè)幀,創(chuàng)建RGB色空間中的3維直方圖。然后將序列 中的多個(gè)連續(xù)幀的差異計(jì)算為它們相應(yīng)的直方圖之間的差異、計(jì)算為絕對(duì)二元(bin-wise) 差異的總和。然后通過搜索預(yù)定固定閾值以上的距離來識(shí)別拍攝轉(zhuǎn)場(chǎng)。因此,該方法僅根 據(jù)空間非敏感的色彩內(nèi)容信息來檢測(cè)拍攝轉(zhuǎn)場(chǎng)。因此,該方法未利用存在于空間排列和色 彩互相關(guān)(interrelation)中的信息資源。Zabih, R. ,Miller, J. ,Mai, K. ,"A Feature-Based Algorithm for Detecting and Classifying Scene Breaks", In Proceedings of 1995 3rd ACM International Conference on Multimedia, San Francisco, CA USA, pp. 189-200,1995 中,提出了一種用 于檢測(cè)視頻序列中的拍攝轉(zhuǎn)場(chǎng)的不同方法。針對(duì)序列中的每個(gè)幀,計(jì)算出邊沿圖。然后根 據(jù)存在于第一幀中而不存在于第二幀中的邊沿的數(shù)量以及存在于第二幀中而不存在于第 一幀中的邊沿的數(shù)量,來計(jì)算序列中多個(gè)連續(xù)幀之間的差異。然后,該差異測(cè)度的時(shí)間序列 中的峰點(diǎn)(sharp peak)表示拍攝轉(zhuǎn)場(chǎng)的存在性。因此,該方法僅根據(jù)邊沿信息(其為一種 類型的空間互相關(guān)信息)檢測(cè)拍攝轉(zhuǎn)場(chǎng)。盡管其原理是正確的,但是該方法未利用存在于 幀的色彩內(nèi)容中的信息資源。此外,邊沿圖創(chuàng)建過程很耗計(jì)算機(jī)時(shí)并且意味著僅揭示幀內(nèi) 最強(qiáng)的色彩不連續(xù)性。此外,該方法對(duì)運(yùn)動(dòng)相當(dāng)敏感。因此,作者建議使用圖象配準(zhǔn)技術(shù)來 抵消該缺點(diǎn),但是這種處理很耗計(jì)算機(jī)時(shí)。在 Dailianas, A. , Allen, R. B. , England, P. , "Comparison of Automatic Video Segmentation Algorithms", SPIE Integration Issues in Large Commercial Media Delivery Systems, vol. 2615,pp. 2-16,Oct. 1995中,提出了用于檢測(cè)視頻序列中的拍攝轉(zhuǎn) 場(chǎng)的另一方法。將序列中的多個(gè)連續(xù)幀之間的差異計(jì)算為絕對(duì)像素方面(pixel-wise)差 異的總和。然后通過搜索預(yù)定固定閾值以上的距離來識(shí)別拍攝轉(zhuǎn)場(chǎng)。因此,該方法僅根據(jù) 空間敏感的色彩內(nèi)容信息來檢測(cè)拍攝轉(zhuǎn)場(chǎng)。盡管其原理是正確的,但是該方法未利用存在 于色彩的空間互相關(guān)中的信息資源。此外,對(duì)視頻結(jié)果的這種簡(jiǎn)單處理導(dǎo)致對(duì)噪聲和運(yùn)動(dòng) 高度敏感性。一種運(yùn)動(dòng)補(bǔ)償算法可以解決該運(yùn)動(dòng)敏感性問題,但是這種處理很耗計(jì)算機(jī)時(shí)。在Xiong,W./‘Shot Boundary Detection”,US 2003/0091235 Al,published 15May, 2003中,提出了一種基于不同類型信息的組合檢測(cè)拍攝轉(zhuǎn)場(chǎng)的方法。該方法包括計(jì)算 兩個(gè)幀之間的塊基(block-based)差異,如果該塊基差異超過固定閾值,則表明是候選拍 攝轉(zhuǎn)場(chǎng)。在此情況下,通過規(guī)定這兩個(gè)幀之間的色彩和/或邊沿差異也超過預(yù)定閾值,驗(yàn)證 拍攝轉(zhuǎn)場(chǎng)。為了對(duì)塊基差異進(jìn)行計(jì)算,將幀劃分成多個(gè)塊并計(jì)算塊平均。然后,對(duì)相應(yīng)塊之 間的差異進(jìn)行閾值比較以確定兩個(gè)塊是相似的還是不同的,并對(duì)兩個(gè)幀之間的不同塊的數(shù) 量進(jìn)行閾值比較以確定兩個(gè)幀是相似的還是不同的。色差是絕對(duì)雙向差異的總和,而邊沿 差異利用邊沿直方圖,以捕獲邊沿量級(jí)和方向信息。^fc Nakajima, Y. , Sugano, M. , Yanagihara, H. , for KDDI CORPORATION(JP), "Picture Searching Apparatus”,US 2004/0091044A1, published 13 May, 2004 中,提出 了一種用于檢測(cè)拍攝轉(zhuǎn)場(chǎng)的方法,其基于以下信息(a)圖像之間的相關(guān)性,(b)子采樣圖 像之間的相關(guān)性,(c)圖像之間的運(yùn)動(dòng),以及(d)子采樣圖像之間的運(yùn)動(dòng)。其中,將圖像之 間和子采樣圖像之間的相關(guān)性測(cè)量為像素向差異或直方圖差異,并且根據(jù)各種運(yùn)動(dòng)矢量差 測(cè)量圖像之間和子采樣圖像之間的運(yùn)動(dòng)。Jafarkhani,H. ,Shahraray,B. ,for AT&T CORP. (US),"Method for Analyzing Video”,US6,542,619B1,granted 1 April, 2003中,提出了一種拍攝轉(zhuǎn)場(chǎng)檢測(cè)方法,其包括 以下步驟創(chuàng)建視頻幀的兩個(gè)一維投影,即行和列投影;對(duì)每個(gè)投影執(zhí)行小波變換并只保 留高頻分量(即,小波系數(shù));以及對(duì)每次變換的高頻分量進(jìn)行自相關(guān)。對(duì)于一系列視頻幀, 當(dāng)所得自相關(guān)系數(shù)時(shí)間曲線顯示出預(yù)定最高值時(shí),表示拍攝轉(zhuǎn)場(chǎng)。因此,該方法使用了由小 波變換提供的空間敏感色彩內(nèi)容和互相關(guān)信息,但是該信息不是關(guān)于幀的而是關(guān)于幀投影 的,導(dǎo)致很大的信息損失。在 Jacobs, C. E. , Finkelstein, A. , Salesin, D. H. ,‘‘Fast Multiresolution Image Querying", In Proceedings of 1995 ACM SIGGRAPH Conference, Los Angeles CA, USA, Aug. 9-11, pp. 277-286,1995中,提出了一種用于檢索與給定圖像相似的圖像的方法。根據(jù) 該方法,最初通過圖像的Haar小波分解來表示圖像。然后,截取該分解,即,僅保留標(biāo)度函 數(shù)系數(shù)(平均強(qiáng)度)和很少數(shù)量的最大幅度小波系數(shù)。然后,對(duì)截取的分解進(jìn)行量化,即, 僅保留小波系數(shù)的符號(hào)。由此,形成了表征圖像的單個(gè)圖像描述符以用于圖像檢索。在 Zhuang,Z. —Y. ,Hsu,C. -Τ. ,Chen,H. -Y.,0uhyoung,M. ,ffu, J. -L.,“ Efficient Multiresolution Scene Change Detection by Wavelet Transformation " , In Proceedings of 1997 IEEE International Conference on Consumer Electronics ICCE '97,Taipei, Taiwan, Jun. 11-13,pp. 250-251,1997 中,提出 了一種用于檢測(cè)拍攝轉(zhuǎn)場(chǎng)的 方法,其按與在"Fast Multiresolution Image Querying(快速多分辨率圖像查詢)”中 所描述的相同方式對(duì)視頻幀進(jìn)行表征。"Fast Multiresolution Image Querying”方法與 "Efficient Multiresolution Scene Change detection by WaveletTransformation (利 用小波變換的高效多分辨率場(chǎng)景變化檢測(cè))”方法之間的差別在于,根據(jù)后一方法,舍棄幀 的周邊并將幀縮減到只剩它們的中央部分。這種方法會(huì)引起很大的信息損失,并且當(dāng)在視 頻中存在顯著運(yùn)動(dòng)時(shí)會(huì)導(dǎo)致假視頻分割和/或很大的過分割。上述兩種方法共有的缺陷是這樣的假設(shè),即,通過只保留很少數(shù)量的最大幅度系 數(shù)可以有效地截取小波分解。為了闡述這一點(diǎn),從128x128像素開始到2x2像素的圖像平 面的多尺度小波分解將產(chǎn)生16383個(gè)小波系數(shù)。如本領(lǐng)域技術(shù)人員所了解的,根據(jù)量級(jí)將
4該序列截取為很小數(shù)量的系數(shù)(例如,如作者所建議的40或60個(gè)最大量級(jí)系數(shù)),會(huì)得到 這樣的描述符,即,其極易受噪聲影響、易受圖像檢索和視頻分割的部分遮擋的影響、以及 易受視頻分割的高視頻運(yùn)動(dòng)和內(nèi)攝照明效應(yīng)的影響,存在一些問題。通過只保留符號(hào)對(duì)所 截取序列進(jìn)行量化會(huì)放大該問題。根據(jù)這些方法的另一顯著問題在于,未利用Haar小波分解的系數(shù)所附的語義信 息(semantic information)。這種語義信息包括系數(shù)所表示的特定色彩信息,例如RGB的 R或YC1A的Y ;其中存在系數(shù)的特定圖像尺度,例如,它是在捕獲精細(xì)細(xì)節(jié)的高圖像尺度下 的系數(shù)或是在捕獲粗圖像信息的低圖像尺度下的系數(shù)等。其中,對(duì)圖像之間的相似度進(jìn)行評(píng)估的方法例如以從與給定圖像相似的一組圖像 檢索圖像或者以檢測(cè)數(shù)字視頻中的幀不連續(xù)性(如拍攝轉(zhuǎn)場(chǎng)或照明和其他效應(yīng))開始。這 些方法依賴于以下操作提取這樣的圖像描述符,即,其捕獲了在一個(gè)或更多個(gè)圖像尺度下 的并且在一個(gè)或多個(gè)圖像通道上的空間敏感色彩內(nèi)容和互相關(guān)信息;接著,不按單個(gè)描述 符而按多個(gè)描述符(由語義內(nèi)容區(qū)分這些描述符)組合描述符;以及在有效利用所述語義 內(nèi)容的多重判定框架中使用這些描述符。因此,與先前的方法不同,可以建立圖像之間的 復(fù)雜關(guān)聯(lián),例如建立這樣的關(guān)系兩幅圖像表示同一場(chǎng)景,但是一幅圖像存在很明顯的遮 擋(如一個(gè)人走到相機(jī)跟前);或者兩幅圖像表示同一場(chǎng)景,卻是在不同的照明條件下拍攝 的;或者兩個(gè)幀屬于同一次拍攝,但是由于整體照明效果而看起來很不相同。
發(fā)明內(nèi)容
在所附權(quán)利要求中陳述了本發(fā)明的多個(gè)方面。根據(jù)本發(fā)明一個(gè)方面,根據(jù)對(duì)關(guān)于圖像的一個(gè)或更多個(gè)區(qū)域的色彩信息和/或色 彩互相關(guān)信息進(jìn)行捕獲的子描述符的特征(例如,區(qū)域、尺度、色彩、色彩互相關(guān)、色彩通道 等),把這些子描述符關(guān)聯(lián)起來以形成兩個(gè)或更多個(gè)描述符。子描述符可以具有也捕獲色彩和/或色彩互相關(guān)信息的元素。在此情況下,這些 子描述符元素也可以構(gòu)成子描述符。例如,圖像區(qū)域的Haar小波變換的四個(gè)測(cè)度LL、HL、 LH以及HH —起形成該圖像區(qū)域的子描述符。然而,也可以把LL本身或HH本身看成它們本 身的子描述符。所述“將子描述符關(guān)聯(lián)起來”的步驟可以包括以下步驟將它們拆分成它們的構(gòu)成 元素并根據(jù)對(duì)應(yīng)特征對(duì)所述元素進(jìn)行分組或關(guān)聯(lián)。
以下參照附圖對(duì)本發(fā)明實(shí)施例進(jìn)行描述,附圖中圖1示出了根據(jù)本發(fā)明一實(shí)施例的針對(duì)Y通道的塊平均再采樣過程;圖2A-2D示出了在本發(fā)明一個(gè)實(shí)施例中對(duì)尺度描述符進(jìn)行的計(jì)算;圖3A-3D示出了根據(jù)本發(fā)明另一實(shí)施例對(duì)尺度描述符進(jìn)行的計(jì)算;圖4是根據(jù)本發(fā)明一實(shí)施例的用于對(duì)多幅圖像進(jìn)行比較的流程圖;圖5是根據(jù)本發(fā)明另一實(shí)施例的用于對(duì)多幅圖像進(jìn)行比較的流程圖;圖6是根據(jù)本發(fā)明另一實(shí)施例的用于對(duì)多幅圖像進(jìn)行比較的流程圖;圖7是根據(jù)本發(fā)明另一實(shí)施例的用于對(duì)多幅圖像進(jìn)行比較的流程5
圖8是根據(jù)本發(fā)明另一實(shí)施例的用于對(duì)多幅圖像進(jìn)行比較的流程圖;圖9是根據(jù)本發(fā)明另一實(shí)施例的用于對(duì)多幅圖像進(jìn)行比較的流程圖;以及圖10是適于實(shí)現(xiàn)本發(fā)明實(shí)施例的處理設(shè)備的示意圖。
具體實(shí)施例方式考慮數(shù)字圖像Fi (x,y),其中(x,y)表示空間坐標(biāo),χ = 0…M_1并且y = 0…N_1。 在本發(fā)明一個(gè)實(shí)施例中,在色彩空間YCbC;中表示Fi,但是這并非限制性的,本發(fā)明實(shí)施例 可以適用任何數(shù)量個(gè)通道的任何色彩空間。在本發(fā)明一個(gè)實(shí)施例中,F(xiàn)i的空間分辨率是 720x576個(gè)像素,S卩,M = 720并且N = 576,但是這并非限制性的,本發(fā)明實(shí)施例可以適用任 何空間分辨率。在本發(fā)明一個(gè)實(shí)施例中,把要提取描述符所用最高分辨率選擇為64X64個(gè) 像素,但是這并非限制性的,本發(fā)明實(shí)施例可以適用其他分辨率。因此,對(duì)Fi進(jìn)行再采樣以 得到64 X 64像素圖像Fi (64 X 64)。在本發(fā)明一個(gè)實(shí)施例中,該再采樣過程是如圖1所示的 簡(jiǎn)單塊平均過程,但是對(duì)再采樣機(jī)制的選擇也并非限制性的。更具體來說,圖1示出了針對(duì) Y通道的塊平均再采樣過程,但是這并非限制性的,而是可以將該過程用于任何色彩空間的 任何通道。在本發(fā)明另一實(shí)施例中,要提取描述符所用的最高尺度與Fi的分辨率相一致并 且最初不必進(jìn)行再采樣。圖2示出了在本發(fā)明一個(gè)實(shí)施例中對(duì)該尺度的描述符進(jìn)行的計(jì)算。更具體來說, 圖2示出了對(duì)Y通道的描述符的計(jì)算,但是這并非限制性的,而是可以將類似方法應(yīng)用于所 有色彩通道。在圖2A中,將2X2窗口應(yīng)用于圖像的左上角。該窗口指定了局部鄰域。對(duì)
于該鄰域中的像素Fy i (64X64) ( ,0)、F i (64X64)(丄, )、F i (64X64) (0,1)以及
(64X64) (1,1),可以將
2維Haar變換系數(shù)LL、HL、LH以及HH計(jì)算成LL= (FYi(64X64) (0, 0)+FYi(64 X 64) (1, 0)+Fyife4x64) (0,1)+FYi(64X64) (1 , 1))/2 (1)HL = (FYi(64X64) (0, 0)-Fyi(64X64) (1,0)+FYi(64 X 64) (0,1) _FYi(64X64) (1,l))/2 (2)LH= (FYi(64X64) (0, 0)+FYi(64 X 64) (1, 0)-Fyife4x64) (0,1) "FYi(64X64) (1 , l))/2 (3)HH = (FYi(64X64) (0, 0)-Fyi(64 X 64) (1, 0)-Fyife4x64) (0,1)+FYi(64X64) (1,l))/2 (4)在上述公式中,LL捕獲色彩內(nèi)容信息,而HL、LH以及HH捕獲色彩互相關(guān)信息。本 領(lǐng)域的技術(shù)人員將理解,例如通過首先在水平方向上然后在垂直方向上執(zhí)行計(jì)算,可以對(duì) 公式(1)_(4)進(jìn)行修改以減少所需計(jì)算次數(shù)。根據(jù)公式(1)_(4)或它們的最優(yōu)化但是以值 4而非值2作為分母來計(jì)算Haar系數(shù),也是很常見的。以VYi(64X64)表示FYi(64X64)的描述符,可以如下將這些值寫入描述符中VYi(64X64) (1) = LL, VYi(64X64) (2) = HL, VYi(64X64) (3) = LH, VYi(64X64) (4) = HH (5)接下來,如圖2B所示,所述2X2窗口向右滑動(dòng)2個(gè)像素以形成包括像素FYi(64X64) (2,0)、FYi(64X64)(3,0)、FYi(64X64)(2,l)以及 FYi(64X64)(3,l)的新鄰域。針對(duì)新像素值再計(jì)算 Haar變換系數(shù)LL、HL、LH以及HH,然后把它們存儲(chǔ)在描述符位置VYi(64X64) (5)到VYi(64X64)⑶ 中。如圖2C和2D所示,一旦完成了對(duì)一組行的所有計(jì)算,則滑動(dòng)窗口向下移動(dòng)兩個(gè)像素并 再從左向右滑動(dòng),直到處理完整幅圖像為止。這完成了對(duì)描述符VYi(64X64)的計(jì)算,該描述符 VYi(64X64)在64X64像素的尺度下捕獲了針對(duì)Y平面的圖像空間敏感色彩內(nèi)容和互相關(guān)。本發(fā)明多個(gè)實(shí)施例涉及對(duì)捕獲空間敏感色彩內(nèi)容和互相關(guān)信息的描述符的計(jì)算。因此,在以上描述中,針對(duì)LL、HL、LH以及HH的公式⑴-⑷僅僅是在鄰域內(nèi)可以
6⑶
進(jìn)行的度量的一個(gè)示例,并且僅代表一個(gè)實(shí)施例。Haar變換是小波變換的一個(gè)簡(jiǎn)單示例, 其生成了信號(hào)的多分辨率時(shí)頻表示。本發(fā)明另一實(shí)施例使用另一類似的但是更復(fù)雜的小波 變換,即2維Daubechies小波變換,而非使用Haar變換。與前一變換不同,該變換按4X4 窗口以2個(gè)像素的滑動(dòng)步長(zhǎng)進(jìn)行操作,S卩,所得鄰域是相交疊的。圖3示出了該變換。在圖 3A中,將4X4窗口應(yīng)用于圖像的左上角。該窗口指定了局部鄰域。對(duì)于該鄰域中的像素, 計(jì)算以下描述符元素
權(quán)利要求
一種表示至少一幅圖像的方法,其包括以下步驟生成針對(duì)圖像的至少一個(gè)區(qū)域捕獲色彩信息和/或色彩互相關(guān)信息的多個(gè)子描述符;以及根據(jù)對(duì)應(yīng)特征將所述多個(gè)子描述符關(guān)聯(lián)起來以生成至少兩個(gè)描述符。
2.一種表示至少一幅圖像的方法,其包括以下步驟生成針對(duì)圖像的至少一個(gè)區(qū)域捕 獲色彩信息和色彩互相關(guān)信息的一個(gè)或更多個(gè)子描述符;以及根據(jù)對(duì)應(yīng)特征將子描述符或 子描述符元素關(guān)聯(lián)起來以生成至少兩個(gè)描述符。
3.如權(quán)利要求1或2所述的方法,其中,針對(duì)圖像的多個(gè)區(qū)域生成子描述符。
4.如權(quán)利要求3所述的方法,其中,每個(gè)所述區(qū)域都對(duì)應(yīng)于nXn像素大小的塊。
5.如前述任一權(quán)利要求所述的方法,其包括以下步驟針對(duì)圖像的多個(gè)非重疊區(qū)域中 的每一個(gè)導(dǎo)出子描述符。
6.如前述任一權(quán)利要求所述的方法,其包括以下步驟對(duì)圖像進(jìn)行處理以按多個(gè)尺度 生成圖像的多個(gè)表示,和導(dǎo)出針對(duì)所述多個(gè)尺度的子描述符。
7.如權(quán)利要求6所述的方法,其中,所述處理包括向下采樣(downsampling)。
8.如權(quán)利要求7所述的方法,其中,所述向下采樣包括對(duì)多個(gè)像素塊進(jìn)行平均。
9.如前述任一權(quán)利要求所述的方法,其包括以下步驟針對(duì)多個(gè)色彩通道中的每個(gè)通 道處理圖像,和導(dǎo)出針對(duì)所述多個(gè)通道中的每個(gè)通道的子描述符。
10.如根據(jù)權(quán)利要求6到8中的任何一項(xiàng)的權(quán)利要求9所述的方法,其中,對(duì)于不同色 彩通道使用相同尺度。
全文摘要
一種表示和分析圖像的方法,其包括以下步驟在一個(gè)或更多個(gè)尺度下并針對(duì)一個(gè)或更多個(gè)色彩通道生成多個(gè)描述符,該描述符捕獲多個(gè)區(qū)域內(nèi)的色彩內(nèi)容和互相關(guān)信息;根據(jù)這些描述符的特征,如尺度、色彩通道、特征語義以及區(qū)域,按多種方式將它們關(guān)聯(lián)起來;以及對(duì)這種圖像表示進(jìn)行比較以評(píng)估圖像的相似性。
文檔編號(hào)G06F17/30GK101982827SQ20101056524
公開日2011年3月2日 申請(qǐng)日期2005年9月23日 優(yōu)先權(quán)日2004年9月23日
發(fā)明者斯塔夫羅斯·帕斯卡勒基斯, 米羅斯瓦夫·博貝爾 申請(qǐng)人:三菱電機(jī)株式會(huì)社