專利名稱:視覺關(guān)注系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于定位包含在一靜態(tài)圖像或一視頻序列內(nèi)的突出對象的系統(tǒng),尤其是,但不是排它地,由圖像壓縮系統(tǒng)使用的系統(tǒng)。
背景技術(shù):
人的視覺眼-腦知覺系統(tǒng)擅長于識別所呈現(xiàn)的場景中的最重要特征,或是對在某些方面與背景或周圍的對象總體存在差別的對象的識別,而無需多數(shù)自動化系統(tǒng)所需的預(yù)先訓(xùn)練。然而,有某些應(yīng)用期望自動化,例如其中工作重復(fù)性強(qiáng)的以及數(shù)據(jù)量很大的這些應(yīng)用。一個具體的例子是為了識別癌細(xì)胞而進(jìn)行的對醫(yī)學(xué)涂片樣品的檢查。在這一情形中,大量的樣品需要被檢查并且異常的很少,人類觀察者會變得疏忽,而沒有注意到所尋找的特別的特征。
出于許多其它目的,例如在一視覺場景中的主要主題的位置的識別,信息標(biāo)記的設(shè)計與定位,和作為用于視覺顯示設(shè)備的冗長的和昂貴的人員因素試驗的替代物,還期望一種自動識別一圖像內(nèi)的區(qū)別性對象的系統(tǒng)。
用于測定視覺關(guān)注(visual attention)的現(xiàn)有系統(tǒng)從圖像中提取先前指定的特征(例如顏色,強(qiáng)度,方位),然后訓(xùn)練分類器(例如神經(jīng)網(wǎng)絡(luò))以識別高度關(guān)注的區(qū)域。這些可訓(xùn)練模型很大程度地依賴于對在圖像內(nèi)要搜尋的特征的選擇,并且不具有處理那些與用于設(shè)計和測試該系統(tǒng)的視覺資料具有很少相似性的新視覺資料的方法?;闹嚨?,一個特征也許僅僅是太異常了以至不能由一訓(xùn)練系統(tǒng)來如此識別。這樣的系統(tǒng)還需要相當(dāng)多的計算資源以便處理預(yù)選定的特征,此外當(dāng)程序的范圍被擴(kuò)展并且更多的特征被加入時,這無限制地增加了負(fù)擔(dān)。
多數(shù)公知圖像壓縮系統(tǒng)所存在的缺陷是,它們僅能以恒定的壓縮比壓縮圖像,因此壓縮質(zhì)量是不變的。公知的可變比率壓縮系統(tǒng)不能根據(jù)圖像中感興趣的區(qū)域來自動改變壓縮比。多數(shù)情況下,僅僅高質(zhì)量地壓縮感興趣的區(qū)域而對其余圖像部分(諸如背景)進(jìn)行低質(zhì)量地壓縮就已經(jīng)足夠了。由于壓縮質(zhì)量與圖像文件的大小彼此相互依存,因此這將減小用于被壓縮圖像文件的空間需求總量。專業(yè)Web設(shè)計者所使用的技術(shù)之一是在用JPEG壓縮圖像背景之前簡單地把它們弄模糊。這就迫使該背景由連續(xù)的色調(diào)組成從而降低了圖像中的高空間頻率的數(shù)量。根據(jù)與未弄模糊圖像相比的模糊量,按照那種方式預(yù)處理過的圖像能夠使其存儲需求減少30%。手工地把圖像弄模糊是一項勞動密集度很強(qiáng)的工作并且依賴于圖像,它可能并沒有節(jié)省下值得這樣做的足夠的空間。
聯(lián)合圖像專家組致力于一種新的圖像壓縮標(biāo)準(zhǔn),JPEG 2000,它也允許指定圖像中感興趣的區(qū)域以便用比該圖像的其余部分高的質(zhì)量來壓縮它們。然而,對感興趣的區(qū)域的自動識別仍然是個問題。
發(fā)明內(nèi)容
根據(jù)本發(fā)明,提供了處理視覺圖像的方法,用于識別視覺關(guān)注區(qū)域,包括步驟把一圖像存儲為一像素陣列,每個像素具有一個值;從該陣列中選擇測試像素;對于每個測試像素,選擇一個或多個鄰近該測試像素的鄰近像素序列;從該陣列中選擇對照像素;識別一個鄰近一選定對照像素的像素序列,該像素序列對該對照像素具有的相應(yīng)位置關(guān)系與一選定的鄰近像素序列對該測試像素具有的相應(yīng)位置關(guān)系相同;按照一預(yù)定的匹配標(biāo)準(zhǔn)比較選定的鄰近序列的值與被識別出的序列的值;
根據(jù)為每一個測試像素所做的比較中導(dǎo)致不匹配的比較數(shù)目,為該測試像素生成視覺關(guān)注的一個量度。
該方法也可應(yīng)用于一個圖像序列。
在一優(yōu)選的安排中,對于每個對照像素,如果鄰近該測試像素的一個或多個選定像素具有與鄰近該對照像素的相應(yīng)像素基本上不相似的強(qiáng)度值,那么一個異常值被加1,利用具有相同測試像素的更多的對照像素來重復(fù)該過程,直到選定一個對照像素,對于該對照像素,所有選定的像素具有基本上相似于鄰近該測試像素的對應(yīng)像素的強(qiáng)度值,在此情形中一個另外的鄰近序列被選定并重復(fù)該過程。
已經(jīng)發(fā)現(xiàn),如果具有先前生成的高異常值的鄰近像素序列被選定用于隨后的測試像素的分析,那么該過程能夠更為有效地操作。因此,最好是,該過程包括以下步驟存儲已為其生成一高異常值的鄰近序列圖案,以及為隨后的測試像素選擇一個鄰近序列,該鄰近序列具有與所存儲的鄰近序列相同的對隨后的測試像素的相應(yīng)位置關(guān)系。
根據(jù)本發(fā)明的另一個方面,提供了用于處理一視覺圖像或此類圖像的一個序列的裝置,用于定位視覺關(guān)注的區(qū)域,包括用于把一圖像存儲為一像素陣列的裝置,每個像素具有一個值;用于從該陣列中選擇測試像素的裝置;用于選擇鄰近該測試像素的鄰近像素序列的裝置;用于從該陣列中選擇對照像素的裝置;用于識別鄰近一選定對照像素的像素序列的裝置,該像素序列對該對照像素具有的相應(yīng)位置關(guān)系與一選定的鄰近像素序列對該測試像素的相應(yīng)位置關(guān)系相同;用于按照一預(yù)定的匹配標(biāo)準(zhǔn)比較選定的鄰近序列的值與被識別出的序列的值的裝置;用于根據(jù)識別一不匹配序列的比較的數(shù)目,為每個測試像素生成視覺關(guān)注的一個量度的裝置。
該裝置最好被實施成一通用計算機(jī),可適當(dāng)?shù)乇痪幊獭?br>
本發(fā)明還擴(kuò)展到一被編程以執(zhí)行本發(fā)明方法的計算機(jī),以及可直接裝載到一數(shù)字計算機(jī)的內(nèi)部存儲器上,含有用于執(zhí)行上述特定步驟的軟件代碼部分的計算機(jī)程序產(chǎn)品。
根據(jù)另一個方面,本發(fā)明提供了一種存儲在一計算機(jī)可用介質(zhì)上的計算機(jī)程序產(chǎn)品,包括計算機(jī)可讀程序裝置,用于使一計算機(jī)把一圖像存儲為一像素陣列,每個像素具有一個值;計算機(jī)可讀程序裝置,用于使該計算機(jī)從該陣列中選擇測試像素;計算機(jī)可讀程序裝置,用于使該計算機(jī)為每個測試像素選擇鄰近該測試像素的鄰近像素序列;計算機(jī)可讀程序裝置,用于使該計算機(jī)從該陣列中選擇對照像素;計算機(jī)可讀程序裝置,用于使該計算機(jī)識別鄰近一選定對照像素的像素序列,該像素序列對該對照像素具有的相應(yīng)位置關(guān)系與一選定的鄰近像素序列對該測試像素具有的相應(yīng)位置關(guān)系相同;計算機(jī)可讀程序裝置,用于使該計算機(jī)根據(jù)一預(yù)定的匹配標(biāo)準(zhǔn)比較所選定鄰近序列的值與被識別出的序列的值,計算機(jī)可讀程序裝置,用于使該計算機(jī)根據(jù)為測試像素所作的比較中導(dǎo)致一不匹配的比較的數(shù)目,為每個測試像素生成視覺關(guān)注的一個量度。
本發(fā)明還可用于通過對含有具有最大異常值的像素的區(qū)域的識別來識別視覺場景中的主要主題。本發(fā)明可用于通過比較為代表一個給定對象的像素所生成的異常值與為一個視覺場景的其它部分所生成的異常值來確定給予該視覺場景中的該給定對象的視覺關(guān)注的量度。
該過程的重復(fù)特征適用于并行處理,應(yīng)當(dāng)理解可以彼此并行地處理幾個測試像素,并且對于每個測試像素,幾個鄰近像素序列也可以并行處理。
為了顧及一個場景的元素之間的僅強(qiáng)度上的微小變化,數(shù)值的比較最好允許在兩個像素之間數(shù)值上的小的差異被認(rèn)為是一個匹配,并且以上所用術(shù)語“基本上相似”應(yīng)當(dāng)在該范圍中理解。這個閾值差的值可以為不同循環(huán)而改變,那些在元素之間產(chǎn)生一適當(dāng)差別的值被存儲并再次用在該過程的后續(xù)循環(huán)上。
對于彩色圖像,強(qiáng)度值可以是三元(紅,綠,蘭)矢量?;蛘咭部梢允褂闷渌伾臻g,如色度(hue),飽和度,亮度等等。
本發(fā)明通過度量在尋找場景中的鄰近閾之間的相似性時的困難來識別視覺場景中的突出特征。與場景的其余部分中的大部分相似的區(qū)域中的像素因此將獲得低的視覺關(guān)注的量度,所以被認(rèn)為是不值得注意。另一方面,擁有許多與該圖像的其它部分不相似處的區(qū)域?qū)⒁鸶叩囊曈X關(guān)注的量度,因為所獲得的異常值將很大。
本發(fā)明利用試錯過程來尋找圖像各部分之間的不相似之處,并且無需關(guān)于異常的特性的預(yù)先知識來確定突出特征。本發(fā)明避免了像素之間的處理相關(guān)性的使用,并能夠?qū)γ總€像素直接并行實現(xiàn)。
現(xiàn)在通過舉例,參照附圖來描述一較佳實施例,其中圖1示意地說明該過程;圖2a表示用本發(fā)明方法處理的圖像,說明了用于兩個像素集xj,yj的比較過程;圖3a表示用本發(fā)明方法處理的第二圖像;圖2b和3b是為這些圖像生成的異常值的映像;圖4示意地說明能夠執(zhí)行本發(fā)明的通用計算機(jī)的基本組成部分;圖5a和5b說明本發(fā)明的一圖像編碼器;圖6a,6b和6c說明本發(fā)明的一圖像解碼器;圖7說明4∶1∶1下抽樣技術(shù);
圖8說明把圖像分成塊的分割以及塊填充;圖9說明折線掃描(zig-zag scanning);圖10說明圖像從底部向上以及從左至右的處理;圖11示出一未被交織的數(shù)據(jù)流的例子;以及圖12示出選擇對照像素組以便加快處理速度的例子。
具體實施例方式
圖4所舉例說明的組成部分包括一輸入裝置41,諸如一掃描器;一中央處理單元(CPU)42;一輸出單元,如視覺顯示單元(VDU)或打印機(jī)43;一存儲器44;以及一計算處理器45。該存儲器包括存儲器440,444-446,寄存器441,447-449以及計數(shù)器442,443。數(shù)據(jù)及用于控制計算機(jī)的程序被存儲在存儲器44內(nèi)。CPU 42利用該信息控制計算機(jī)的機(jī)能。
現(xiàn)在考慮圖1和4,要被分析的圖像40由輸入裝置41訪問并以數(shù)字形式存儲在一圖像存儲器440內(nèi),作為一個像素x的陣列A,其中每個像素都具有被認(rèn)為是屬于它的顏色強(qiáng)度(rx,gx,bx),在灰度級圖像的情況下,為一單獨的灰度級強(qiáng)度值tx。
然后從陣列A中選出一像素x(步驟1),并把其強(qiáng)度值(rx,gx,bx)或tx存儲在一測試像素寄存器441內(nèi)??梢圆⑿刑幚韼讉€測試像素,但是出于說明目的這里只考慮一個。
存儲在一異常計數(shù)器442內(nèi)的一個異常計數(shù)值cx,以及像素比較的數(shù)目的計數(shù)值Ix(存儲在一比較計數(shù)器443內(nèi))均被置為0(步驟2)。
然后由CPU 42選擇一搜索策略(步驟3,4,5)并提供給一鄰近組定義存儲器444。每一個這樣的策略都包括一組色差閾值(Δrx,Δgx,Δbx),(或者在灰度級圖像的情況下為一單一的閾值Δti),(步驟3)以及一鄰近組定義(步驟4,5)。
在運(yùn)行于色度,飽和度,純度(value)(HSV)空間內(nèi)的彩色圖像上的本發(fā)明的另一實施例中,如稍后將詳細(xì)描述的,采用Δhx,Δsx,Δvx色差閾值。在用于彩色圖像的本發(fā)明一個實施例中使用的這些閾值取決于在其中執(zhí)行像素間的比較的顏色空間。
在本發(fā)明的其它實施例中,色差閾值被預(yù)先確定并且不隨每個新鄰近組定義策略的選擇而改變。
最初,搜索策略將由CPU 42隨機(jī)生成,——如果該策略不適合于識別差異,那么此循環(huán)將被拒絕(下面的步驟9)并且一新的策略被選定。成功的策略可以被存儲在一搜索策略存儲器445內(nèi)用于隨后的再次使用(步驟11)。
在步驟3選定的色差閾值確定兩個像素是否被看作是相似的。該色差閾值必須超過某個最小值否則將檢測不到相似性,但是如果這些色差閾值過大就將找到很多相似處。
為了定義一鄰近組,在確定范圍內(nèi)隨機(jī)選擇一半徑ux(步驟4)。該值確定x的鄰域范圍,在該范圍內(nèi)將由計算處理器45作出像素的相似比較。ux上的邊界由建立視覺關(guān)注的特征的比例來確定,其將依賴于對圖像進(jìn)行分析的目的。與色差閾值一樣,該選擇是在這些限制內(nèi)隨機(jī)的,未能提供差別的選擇被拒絕(步驟9)。
在測試像素x的鄰域內(nèi)的一個n個像素xj的序列被從圖像存儲器440中選出(步驟5)。同樣,該選擇是隨機(jī)的,該選擇是這樣的dist(xj,x(j-1))<ux其中j=1,---,n并且x0=x由于該選擇是隨機(jī)的,因此這一像素序列不必鄰近另外一個或在任何意義上是鄰接的。
這一序列的一個例子示于圖2,其中測試像素(用方框示出)具有與其相關(guān)的一個序列(用陰影示出)。典型地n=3,并且ux=1。在某些情形下ux可以隨j而變化這允許像素被從一寬的范圍內(nèi)選出同時保證某些選定的像素接近于該測試像素xj。dist(xj,x(j-1))的值可用各種適合的單位來定義,諸如像素大小。鄰近序列的定義被存儲在鄰近組定義存儲器444內(nèi)。
在本發(fā)明的另一實施例中,在測試像素x的鄰域內(nèi)的一個n個像素xj的序列被從圖像存儲器440中選出(步驟5),該選擇是這樣的dist(x0,x(j))<ux其中j=1,---n并且x0=x由于在先前測試像素上取得一高異常得分(將被論述的步驟11),先前生成的搜索策略,包括鄰近像素序列定義xj以及存儲在搜索策略存儲器445內(nèi)的相關(guān)的色差閾值(Δrx,Δgx,Δbx),可以優(yōu)先地由CPU 42選定,當(dāng)這種存儲的標(biāo)準(zhǔn)的供給被用盡時,才由處理器42把隨機(jī)生成的侯選者提供給當(dāng)前的鄰近組定義存儲器444。此機(jī)制減少了該過程的失敗迭代的數(shù)目,并通過重新使用使當(dāng)前圖像中的不匹配突出的特征而增強(qiáng)了在關(guān)注的對象附近的異常值。
類似地,當(dāng)處理許多相似圖像(例如在一移動圖像,或任何其它相似圖像(諸如醫(yī)學(xué)涂片測試)的大的集合中)時,已經(jīng)在先前測試上取得高的異常得分的測試序列可以被從搜索策略存儲器445中檢索出來。
像素y被隨機(jī)地選為(步驟6)當(dāng)前的對照像素(在圖2中也用方框示出)其特性(identity)被存儲到一對照像素寄存器447內(nèi)。
存儲在比較計數(shù)器443內(nèi)的Ix的值遞增1(步驟7)。然后鄰近組定義寄存器444的內(nèi)容由計算處理器45使用來定義構(gòu)成一測試組xj(寄存器448)的一組像素以及構(gòu)成一對照組yj(寄存器449)的一組像素,對照組的每一像素yj與對照像素y的位置關(guān)系都與測試組中的相應(yīng)像素xj與測試像素x的位置關(guān)系一樣(步驟9)。然后該計算處理器45利用從鄰近組定義存儲器444檢索出的閾值,把每個像素xj(圖2中的陰影部分)與對應(yīng)的像素yj(同樣用陰影示出)進(jìn)行比較。
像素y被識別為與測試像素x相似,條件是|ry-rx|<Δrx,|gy-gx|<Δgx,以及|by-bx|<Δbx。
對于灰度級圖像|ty-tx|<Δtx。
在其中該計算是在HSV色彩空間內(nèi)執(zhí)行的另一實施例中,像素y被識別為與測試像素x相似,條件是|vy-vx|<Δvx,|sy-sx|<Δsx,以及|hy-hx|<Δhx。
其中Δhx=Z*(2-vx)*(2-sx)。Z被存儲在取決于hx的閾值的一個經(jīng)驗表內(nèi)。這就導(dǎo)致對于vx和sx的低值的較大Δhx值。
為了加快用于二進(jìn)制圖像的本發(fā)明方法的操作,對照像素y可以被選定以匹配測試像素x(即,通過忽略背景像素,不管它們是“白”或“黑”)。
對于彩色或灰度級圖像,通過從可存儲在一對照像素存儲器446內(nèi)的一對照組中選出對照像素y,可以加快操作速度??梢匀鐖D12所示來選出該對照組。一旦已經(jīng)為該對照組內(nèi)的所有像素生成視覺關(guān)注的量度,一個新的對照組可從一些像素中選出,這些像素接近于已生成視覺關(guān)注的高量度的那些像素。
如果測試組內(nèi)的所有像素xj與其相應(yīng)的對照組內(nèi)的像素yj相似,那么通過選擇新的比較標(biāo)準(zhǔn)(步驟4,5)以及一新的對照像素y(步驟6)來重復(fù)該過程。如果(如圖2所說明的)測試組內(nèi)的一個或多個像素xj與對照組內(nèi)的相應(yīng)像素yj不相似,根據(jù)上述相似定義,那么存儲在異常計數(shù)寄存器442內(nèi)的計數(shù)值cx遞增1(步驟10)。另一個對照像素y被隨機(jī)地選定并存儲到對照像素寄存器447內(nèi)(返回步驟6),并且從鄰近組定義存儲器444內(nèi)檢索出的鄰近組定義被用來向?qū)φ战M寄存器449提供一新的比較鄰近組,用于與存儲在測試組寄存器448內(nèi)的測試組比較。像素集xj被保留在測試組寄存器448內(nèi),只要其繼續(xù)未能與該圖像的其它部分匹配。這一集合代表了x的位置的一個區(qū)別特征—未能匹配出現(xiàn)的越多,區(qū)別就越大。測試像素x未能提供匹配的對照像素y越多,存儲在異常計數(shù)器442內(nèi)的異常值cx就變得越高。反之,測試像素x生成的匹配越多,當(dāng)由比較計數(shù)器443達(dá)到閾值L時異常值的數(shù)值就越低。由于每次做1次對比,因此由該過程產(chǎn)生的異常值cx可被視為是那些將不能提供對測試像素x的匹配的隨機(jī)選定像素的比例的一個量度。
隨著該過程繼續(xù)進(jìn)行,成功的搜尋標(biāo)準(zhǔn)(即Δrx,Δgx,Δbx以及ux的值的組合,以及生成高數(shù)值cx的鄰近序列)將變?yōu)槊黠@。如果n個像素xj的一個序列以及相應(yīng)的色差閾值(Δrx,Δgx,Δbx)使存儲在異常計數(shù)器442內(nèi)的cx的異常值在找到匹配之前達(dá)到閾值M,那么存儲在鄰近組定義存儲器444內(nèi)的搜索策略被復(fù)制到搜索策略存儲器445內(nèi)(步驟11)用于將來使用,如果其還沒有被存儲的話。因此,具有所生成的高異常值的該標(biāo)準(zhǔn)對于搜索策略存儲器445在將來循環(huán)中選擇適合值(步驟4,5)是很有用的。一旦找到一個匹配,通過從搜索策略存儲器445內(nèi)檢索或是隨機(jī)生成,該過程從一個存儲在鄰近組定義存儲器444內(nèi)的新的搜索策略(色差閾值以及鄰近集)再次開始(步驟9)。
當(dāng)存儲在比較計數(shù)器443內(nèi)的迭代值Ix達(dá)到閾值L時,該迭代過程停止(步驟8),并且存儲在異常計數(shù)器442內(nèi)的當(dāng)前的異常值cx在輸出單元43上被輸出作為用于像素x的異常值。該最終的異常值cx是用于測試像素x的視覺關(guān)注的量度,并且是其中像素x的隨機(jī)選定鄰近值的固有特性(即顏色)未能與隨機(jī)選定像素y的相應(yīng)鄰近值匹配的嘗試數(shù)目(在總共L次嘗試中)。cx的高數(shù)值表明像素x與該圖像的其余部分的高度不匹配,并因此表明像素x是值得視覺關(guān)注的對象的一部分。
輸出單元43典型地是一種存儲了用于通過打印機(jī),視覺顯示單元等等顯示的,或是用于隨后處理的(例如如稍后將參照圖5-11所描述的圖像壓縮)各個像素的異常值的存儲介質(zhì)。
應(yīng)當(dāng)理解,盡管已參照具有三值(R,G,B/H,S,V)或單值點(灰度級圖像)的二維圖象對本發(fā)明進(jìn)行了描述,但是本發(fā)明可以擴(kuò)展到具有p個值點的n維圖象。
對于p個值點的使用來說,如上所述用于灰度級R,G,B及H,S,V圖像的,用于在步驟9評估兩個像素是否相似的功能被擴(kuò)展為比較該p個值。
對于n維圖象來說,利用一n維距離測量來進(jìn)行鄰近像素的選定以便在步驟5選擇鄰近組。這樣有可能把本發(fā)明方法應(yīng)用到在一視頻序列內(nèi)的一個連續(xù)幀序列上,其中所用的維數(shù)之一與時間有關(guān)。
現(xiàn)在將描述使用中的本發(fā)明的兩個簡化的例子。圖2a說明具有若干垂直特征和一個對角特征的單色圖像。從圖2a可看出,構(gòu)成與來自垂直特征之一的一個像素鄰近的像素集的一組像素將與來自其它垂直特征的那些鄰近像素匹配。不過,一個構(gòu)成對角特征的一部分的像素不太可能獲得與來自其它特征的像素匹配。如果測試像素或是對比像素的鄰近像素擴(kuò)展超過該特征的末端,那么即使在該對角特征上另外一處的像素也將不能產(chǎn)生匹配。因此,對于構(gòu)成對角特征的一部分的像素,獲得對于任何鄰近集的一個匹配的可能性遠(yuǎn)小于在對于構(gòu)成垂直特征之一的一部分的像素的情況下獲得匹配的可能性。
在此說明性的實施例中,由像素構(gòu)成了一個規(guī)則的直線棋盤形布置,但是該過程適合于其它的像素布置。如果該陣列是不規(guī)則的,那么各個像素yj與對照像素y的位置關(guān)系不完全與各個像素xj與測試像素x的位置關(guān)系相同,但是每一個都將是與完全對應(yīng)位置盡可能最接近的。
該過程具有若干優(yōu)于其它過程之處。首先該過程不做出關(guān)于圖像內(nèi)容的假設(shè),并能夠提取與作為度量過程一部分的內(nèi)容有關(guān)的有用特征,并因此能夠適合于任何圖像內(nèi)的資料。第二,該過程等同地適用于任何像素結(jié)構(gòu),不管像素被布置在矩形陣列,螺旋形陣列,還是不規(guī)則圖案內(nèi)。第三,該過程可以適用于各個像素xi,而不需依賴于任何與其它像素有關(guān)的計算,并因此而可以同時并行地應(yīng)用于許多像素。這就意味著利用并行實現(xiàn),可以實時地從視頻資料中獲得結(jié)果,或者甚至更快。第四,該算法是以漸進(jìn)程序為基礎(chǔ),具有的優(yōu)點是,試驗的準(zhǔn)備不必利用通常嚴(yán)格堅苦的軟件過程來進(jìn)行。某些循環(huán)可能不產(chǎn)生有用的結(jié)果,例如由于它們含有明顯的冗余(例如不止一次包含相同像素的鄰近像素xj的一個序列)。用和任何其它未能識別區(qū)別特征的循環(huán)相同的方式來拒絕這樣的循環(huán),無需對于識別這樣的序列所必需的專門拒絕過程。這有效地減除了精確構(gòu)造用于試驗的可行候選者所需的計算負(fù)擔(dān)。
在下面的簡化例子中,該過程已應(yīng)用于全部由1和0組成的黑白圖像。在此情形中Δti=1/2,n=3,L=100,以及ui=1。第一個例子(圖2a,圖2b)舉例說明了典型的“突出”(popout)問題,其中某些形狀類型如果被不同形狀包圍則表現(xiàn)得突出。
歸因于圖2a中的各個像素的視覺關(guān)注量度示于圖2b內(nèi)的圖表中。縱坐標(biāo)表示各個像素的異常值(用嘗試數(shù)目L的百分?jǐn)?shù)來表示)。能夠看出斜線的異常值ci遠(yuǎn)高于豎線的異常值ci。
圖3a說明在視覺關(guān)注上集結(jié)的效果,其中豎線的一個聚集組被放在被分隔很遠(yuǎn)的其它線之間。采用本發(fā)明過程的結(jié)果示于圖3b。再一次,該集結(jié)線產(chǎn)生了較高的異常分?jǐn)?shù)。
需注意,該過程不需要任何被搜尋的異常性質(zhì)的先前知識。該異常可以是在方位(如圖2a所示),間隔(如圖3a所示),形狀,長度,顏色或任何其它特性上的。
本發(fā)明在許多領(lǐng)域具有廣泛的應(yīng)用。首先,視覺場景中主要主題的識別是未被過濾的視覺內(nèi)容的分類中的首要階段—它也是最難的。一旦完成該步驟,其后可以進(jìn)行人工標(biāo)記,或一定范圍的模板匹配或其它用于對如此識別的特征進(jìn)行鑒別的自動技術(shù)。
現(xiàn)在將參照圖5-11描述使用本發(fā)明方法的一種圖像壓縮方法;首先,將參照圖5a和5b提供本發(fā)明圖像數(shù)據(jù)壓縮方法的概述。
利用離散余弦變換(DCT)的圖像壓縮是公知的。許多圖像壓縮算法,諸如JPEG,使用這種壓縮并且已被證實是工作良好的。使用DCT的原理是,一個圖像中的像素可以被視為一個2維信號,這些像素通過DCT被變換到頻域。圖像中顏色和亮度變化很小的區(qū)域是具有低空間頻率的區(qū)域,反之,在顏色和亮度上有較大變化的區(qū)域是具有高空間頻率的區(qū)域。研究表明,人眼對于高空間頻率不是很敏感,這一事實被用于壓縮。具有關(guān)于低空間頻率的信息要相對重要得多,這樣就不必為了恢復(fù)具有合理品質(zhì)的原始圖像而發(fā)送或存儲高空間頻率。對于高壓縮比,使用了人類敏感度對空間頻率的一個模型,該模型可以被視為用于一定頻率的一個濾波器。
標(biāo)準(zhǔn)壓縮算法不能使感興趣的區(qū)域在圖像中被自動指定,從而使感興趣的區(qū)域可以以比背景高的品質(zhì)被壓縮,所以這種壓縮不是最佳的。如果一個圖像需要有n字節(jié)的大小,那么整個圖像被用同一品質(zhì)壓縮以滿足所要求的文件大小,這在某些情形下可能意味著品質(zhì)很差并且不能令人滿意。圖像中總是存在很感興趣的部分以及不怎么感興趣的部分。設(shè)想該圖像為一幅肖像。通常該肖像中的人物是使人感興趣的,而背景則不。因此用很高的壓縮比(低品質(zhì))來壓縮背景而用很低的壓縮比(高品質(zhì))來壓縮圖像的其余部分是非常有利的。如果平均壓縮比與用恒定壓縮比壓縮的圖像相同,那么所得到的文件大小將是相同的。不過,用可變壓縮比壓縮的圖像將給觀看者帶來這樣的印象,即該圖像看起來比用恒定壓縮比來壓縮整個圖像而得到的圖像要好。
本發(fā)明方法允許用戶對圖像的不同部分使用不同品質(zhì)等級來壓縮。利用如早先所創(chuàng)建的視覺關(guān)注映像(VA-map)30來確定用于圖像中某一區(qū)域的品質(zhì)等級。壓縮后,該視覺關(guān)注映像30將構(gòu)成被壓縮圖像數(shù)據(jù)的一部分。
輸入圖像是一RGB圖像,即其像素是用紅,綠,蘭三基色的總和來表示。三基色中的每一個用0和255之間的一個整數(shù)數(shù)字來表示,盡管單色圖像也能夠同樣好地被使用。
輸入圖像被轉(zhuǎn)換為YCbCr顏色空間,并且同時被分解為亮度(Y)和色度(Cb及Cr)分量。由于人眼對亮度變化的敏感性大于對顏色變化的敏感性,因此用4∶1∶1的下抽樣方案來對Cb和Cr這兩個顏色分量下抽樣。
之后這些分量被分割成8×8的像素塊32,其中每一個塊被該壓縮算法單獨處理。對于全部分量(Y,Cb,Cr),每個方向上的抽樣數(shù)必須是8的倍數(shù)以向隨后的過程提供完整的像素塊。如果輸入圖像不符合這一要求,那么人工地創(chuàng)建附加的抽樣以填充塊內(nèi)的空像素空間。由于下抽樣,因此對于Y分量,x和y方向上的塊數(shù)必須是2的倍數(shù),如將在稍后解釋的。
利用FDCT(正向DCT)14來把一個塊變換到頻域。然后用量化器16來量化所得到的系數(shù)。該量化使得數(shù)據(jù)減少并且是圖像壓縮的關(guān)鍵。量化后,該圖像不再能夠被無差錯地重建。不過,通過利用體現(xiàn)了人對空間頻率的敏感度的量化表18,能夠使該差錯小到不易察覺。量化等級受量化系數(shù)20的影響,量化系數(shù)被用來根據(jù)用于圖像的視覺關(guān)注映像30創(chuàng)建變化的品質(zhì)等級。
量化后,利用折線掃描器22把各個塊轉(zhuǎn)換成一64維的矢量。這把用于低空間頻率的系數(shù)放到該矢量的開始(低指數(shù))并把用于高空間頻率的系數(shù)放到末尾(高指數(shù))。由于作為量化的結(jié)果,用于高空間頻率的系數(shù)一般變?yōu)?,因此通過折線掃描過程創(chuàng)建了0的長序列。然后用行程-長度編碼器24編碼該折線矢量并把結(jié)果存儲到兩個陣列中,行程長度陣列26和等級陣列28。最后,當(dāng)所有塊都已被處理時,用熵編碼器50對這兩個陣列進(jìn)行熵編碼并把所得字節(jié)陣列52與視覺關(guān)注映像30以及關(guān)于該圖像的總信息一起寫入一輸出文件。稍后將描述該文件格式。
現(xiàn)在參照圖6a和6b描述圖像的解碼(解壓縮),然后將參照圖7-11描述編碼器和解碼器的單獨部件的功能。
圖像數(shù)據(jù)的解碼以及圖像的重建與上述編碼過程相反。字節(jié)陣列52內(nèi)的圖像數(shù)據(jù)首先通過熵解碼器60進(jìn)行熵解碼,并且結(jié)果被分割成用于單個8×8塊的陣列。然后由行程-長度解碼器62對用于單個塊26,28的陣列進(jìn)行行程-長度解碼,利用反向折線掃描器64重新排序為一個8×8-抽樣矩陣,以及由解量化器66利用適當(dāng)?shù)牧炕?8以及從VA-Map 30獲取的信息一起來解量化。然后利用反向離散余弦變換器67把該數(shù)據(jù)從頻域變換回分量抽樣值,并把結(jié)果存儲在用于各個分量的不同陣列內(nèi)。最后,該三個分量陣列被用于合成最終的圖像。利用線性插值濾波器68,69對Cb和Cr分量上抽樣。所得到的圖像很可能比原始圖像要大,這是由于塊填充的緣故,并且該圖像必須被裁剪為其原來的大小。
現(xiàn)在將參照圖7和8詳細(xì)描述從原始R,G,B圖像形成8×8像素塊32(圖5和6)。
用下列等式把RGB值變換為Y,Cb,Cr值Y=rnd(0.299·R+0.587·G+0.114·B) R,G,B在
的范圍內(nèi),Y,Cb,Cr也在
的范圍內(nèi),R,G,B以及Y,Cb,Cr為整數(shù)。
利用4∶1∶1下抽樣方案對Cb和Cr分量下抽樣。在x和y方向上每隔一個像素,存儲全部三個分量。對于其余的像素,僅存儲Y分量。這意味著對于每四個Y抽樣存在一個Cb抽樣和一個Cr抽樣。在圖7中示意性地說明該下抽樣。因此,Cb和Cr陣列僅僅是Y陣列大小的四分之一。這是能夠做到的,因為人眼對于亮度(Y)的變化比對于顏色(Cb,Cr)的變化更為敏感。
所述的下抽樣減少了二分之一的數(shù)據(jù)量。
由于下抽樣以及所有的分量被分成8×8的像素塊這一事實,因此后繼過程所需的抽樣數(shù)對于所有分量在x和y方向上都必須是8的倍數(shù)。
如從圖7可看出的,為了形成一個8×8的抽樣塊,需要一個8×8的輸入抽樣(RGB-抽樣)陣列用于Y分量,而對于Cb和Cr分量則需要一個16×16的輸入抽樣(RGB-抽樣)陣列。16×16輸入抽樣陣列可以被稱作為宏塊。對于一顏色分量的興趣等級被定義為在形成宏塊的4個抽樣塊的VA映像中定義的最大興趣等級。
在x和y方向上的8×8像素塊的數(shù)目用下列等式給出 這些等式中,寬度是在輸入圖像的x方向上的輸入抽樣(像素)數(shù),高度是在y方向上的輸入抽樣(像素)數(shù)。抽樣被加到邊界上后圖像中所需的抽樣總數(shù)可以如下計算sxcb,cr=bxcb,cr·8sycb,cr=bycb,cr·8sxY=bxY·8syY=byY·8加到邊界上的抽樣數(shù)可以計算為 pxY=sxY-寬度pyY=syY-高度應(yīng)當(dāng)增加額外的抽樣以使得不生成高空間頻率。這是通過用邊界抽樣來擴(kuò)展它而作出的。這很容易實現(xiàn),并且自動地不產(chǎn)生水平頻率或是不產(chǎn)生垂直頻率。不過,根據(jù)圖像邊界上的圖像內(nèi)容,仍然會產(chǎn)生在一個方向上的高頻。首先,所有的行被用邊界上的最后抽樣值填充,之后列也被隨后填充。從圖像形成8×8像素塊的過程示意性地示于圖8中。
對于圖像的解壓縮,上述顏色變換的逆變換定義如下
R=rnd(Y+1.402·(Cr-128))G=rnd(Y-0.34414·(Cb-128)-0.71414·(Cr-128))N=rnd(Y+1.772·(Cb-128))對于顏色變換的逆變換,由于舍入,因此R,G,B的結(jié)果值可能超出
的有效范圍。因此,超出值被分別固定到最小值和最大值。
離散余弦變換被用來把抽樣變換到頻域。由變換器14使用的正向離散余弦變換(FDCT)由如下定義Su,v=14C(u)C(v)Σx=07Σy=07sx,ycos(2x+1)uπ16cos(2y+1)vπ16]]>u,v=
i=
在FDCT計算之前,通過從各個抽樣中減去128對分量抽樣sx,y進(jìn)行DC-電平-移位從而把它們集中在0周圍。
對于圖像的解壓縮,由反向離散余弦變換器67使用的反向離散余弦變換由如下定義Sx,y=14Σu=07Σv=07C(u)C(v)su,vcos(2x+1)uπ16cos(2y+1)vπ16]]>x,y=
i=
為了反向DC-電平-移位,在IDCT的計算后128被加到各個抽樣sx,y上。
量化器16的操作如下。來自變換器16的64個DCT系數(shù)中的每一個被量化器16用存儲在量化表18內(nèi)的值量化。通過把來自量化表的相應(yīng)元素Qu,v的值乘以一量化系數(shù)來計算出對于各個系數(shù)的量化步長Su,v,該量化系數(shù)代表由視覺關(guān)注映像30所定義的品質(zhì)等級。該量化表反映了人眼的空間頻率敏感度,并根據(jù)經(jīng)驗得出。采用了兩個不同的量化表,一個用于亮度分量(Y),另一個用于色度分量(Cb和Cr)。一般地,用于色度系數(shù)的量化的步長大于用于亮度系數(shù)的量化的步長,這是由于人眼對亮度上的誤差比對色度上的誤差更為敏感。
量化定義如下Su,vq=rnd(Su,vQu,v·cq,l)]]>cq,l=0.5+ql32]]>ql=
cq,l=
其中因子ql入是如視覺關(guān)注映像10所定義的品質(zhì)等級因子。在本發(fā)明的此實施例中,該視覺關(guān)注映像支持四種品質(zhì)等級,它們用兩位來存儲,這些等級被映射到定義該品質(zhì)等級因子的適當(dāng)?shù)臄?shù)字。用于品質(zhì)的各個等級的該品質(zhì)等級因子被存儲在壓縮圖像文件中。
對于圖像的解壓縮,用下列等式給出反量化函數(shù)Su,vd=Su,vq·cq,l·Qu,v]]>在本發(fā)明的此實施例中,用于亮度系數(shù)的量化表定義如下
用于色度系數(shù)的量化表定義如下
量化后,該64個系數(shù)將包含許多0,尤其對于高頻系數(shù)。為了建立0的長序列,把該64個系數(shù)從一8×8矩陣轉(zhuǎn)換為一個64維的矢量z,并由折線掃描器22重新排序為折線序列,如圖9所示意性示出的。
由于從折線掃描得到的該矢量包括0的長序列,因此使用行程-長度編碼來減少數(shù)據(jù)量。
該矢量中的每個值用兩個輸出值(稱作行程-等級組合)來表示,該兩個輸出值中的一個定義前面0的數(shù)目,另一個定義0序列之后的非0值的等級(值)。如果矢量內(nèi)最后一個行程-長度-編碼值之后的所有值都為0,那么使用一個(0,0)的特定的行程-長度組合。該特定的行程-長度組合被稱作塊結(jié)束(EOB)組合。
由于離散余弦變換的特性,該矢量的第一個元素是該被變換圖像數(shù)據(jù)的DC系數(shù)。對該DC系數(shù)的處理不同于對AC系數(shù)的處理。將被編碼的值是當(dāng)前DC項與先前DC項的差。這將產(chǎn)生較小的被編碼的數(shù),將有助于減少隨后的熵編碼中的數(shù)據(jù)量。用于行程及等級的這兩個值由行程長度編碼器42輸出為兩個陣列,行程-長度陣列26和等級陣列28,一旦所有8×8像素塊已被處理,就由熵編碼器50使用這兩個陣列來進(jìn)一步減少數(shù)據(jù)量。
如下計算等級1DC(k)=z0(k)-1DC(k-1)1AC,i(k)=zi(k)其中zi(k)=塊k的折線矢量的元素ii=[1,63]k=塊號=
1DC(-1)=0對于解壓縮,反等級編碼如下計算z0(k)=1DC(k)+1DC(k-1)zi(k)=1AC,i(k)其中zi(k)=塊k的折線矢量的元素ii=[1,63]k=塊號=
1DC(-1)=0行程-長度編碼的一個例子如下本例中的行程-等級-組合寫為(r,1),其中r是0的行程-長度,1是在0之后的等級。設(shè)用于行程-長度-編碼的輸入矢量為
{-126,26,43,2,2,1,1,0,0,0,1,0,0,-1,-1,0,0,0,0,0,---,0}(一共64個值)以及在前的DC項-119。則該行程-長度-編碼數(shù)據(jù)將是(0,-7),(0,26),(0,43),(0,2),(0,2),(0,1),(0,1),(3,1),(2,-1),(0,-1),(0,0)兩個輸出矢量將會看起來象這樣(灰度值是來自先前塊的值){---,2,4,0,23,0,0,0,0,0,0,0,0,3,2,0,0}(行程矢量)以及{---,-1,1,2,-1,0,-7,26,43,2,2,1,1,1,-1,-1,0}(等級矢量)在行程-長度-編碼后,由熵編碼器將該行程矢量與等級矢量組合并進(jìn)行熵編碼,如先前在圖5b示出的。這將減少每一像素的比特數(shù)。利用用于最頻繁出現(xiàn)的行程-等級-組合的修改的Huffman表來進(jìn)行熵編碼。行程-等級-組合出現(xiàn)的越頻繁,用于表示頻繁組合的碼的位數(shù)越低。為了把圖像文件的大小保持為最小,使用了一個固定的表。已經(jīng)從大量測試圖像的集合中根據(jù)經(jīng)驗得出該表。對于某些圖像,動態(tài)Huffman碼表將使得文件大小更小,但是在多數(shù)情形中,在本發(fā)明的此實施例中使用的Huffman碼表將使文件大小為最小。
利用下述方案對所有行程-等級組合進(jìn)行編碼·如果在Huffman碼表中存在用于要編碼的行程-等級組合的條目,那么來自該表的代碼將被使用。為了編碼正和負(fù)等級,把一符號位放在從該表取出的代碼之前。
·如果在Huffman碼表中不存在用于某一行程-等級組合的條目,那么必須使用下述標(biāo)準(zhǔn)編碼方案。
通過把符號位置為1,后跟兩個可能的Escape(ESC1,ESC2)標(biāo)記之一來實現(xiàn)標(biāo)準(zhǔn)編碼。其次的6位把行程-長度表示為無符號的二進(jìn)制碼,最后接著的是該等級。該等級將被編碼為帶符號的二進(jìn)制碼。
如果該等級在[-127,127]內(nèi),那么使用ESC1標(biāo)記并且用8位來編碼該等級。
如果該等級在[-255,255]內(nèi),那么使用ESC2標(biāo)記并且用9位來編碼該等級。
在此階段,該等級不能超過[-255,255],這就是為什么僅需最大9比特就足夠用來編碼該等級的原因。事實上,一個系數(shù)的最大絕對值將甚至小于200。
對于多數(shù)普通的行程-等級組合,將使用如下表定義的Huffman碼。該表用行程和等級來排序,并可以用于編碼。編碼器使用行程-等級-組合來查找對應(yīng)的Huffman碼。
同樣的信息被用于圖像數(shù)據(jù)的解碼。此處示出,用碼長來排序上述表格。該表由熵解碼器60(圖6b)使用,其使用收到的代碼及其碼長來查找行程-等級-組合。
Huffman碼的一些例子如下
被本發(fā)明該實施例中所用方法壓縮的所有圖像分量被以底部-上部-左-至-右的方式處理。這意味著一個分量的第一個塊在輸入圖像的左下角,下一個塊在其右邊,等等直到塊線的末尾。下一個塊線在先前塊線的上面,并且所有塊線都始于左端。該過程示于圖10。
由于每個塊都被單獨地處理,一直到進(jìn)行熵編碼,因此有許多建立塊數(shù)據(jù)流的不同方式。由于在實際接收全部圖像數(shù)據(jù)之前不需要對圖像解碼,因此一個非交織結(jié)構(gòu)被選用,因該結(jié)構(gòu)簡化了算法并且減少了處理時間。這意味著Y分量的所有塊首先被處理及存儲,其后是用于Cb分量的所有塊,最后是用于Cr分量的所有塊。漸進(jìn)解碼/編碼也是可能的,稍后將進(jìn)行描述。所得到的數(shù)據(jù)流示于圖11。
利用本發(fā)明方法壓縮的圖像在本實施例中以下述文件格式存儲(這里稱作VACIMG文件)。
本發(fā)明的此實施例利用視覺關(guān)注映像來壓縮圖像,該映像定義了圖像中的不同區(qū)域以用不同的興趣等級壓縮。此實施例中使用了4個等級,盡管如所期望的能夠使用更多的(或更少的)等級。對應(yīng)于各個興趣等級的區(qū)域中的每一個都用其自己的壓縮比來壓縮,從而允許用比該圖像的其它部分高的壓縮比(以及較低的品質(zhì))來壓縮背景。然后把被壓縮的圖像存儲到一文件中,其同樣包括該視覺關(guān)注映像。由于高壓縮比是本發(fā)明此實施例的目標(biāo)之一,因此僅有必須的很少的有關(guān)該圖像的信息被存儲在此文件中。有關(guān)該圖像的所有普通信息首先進(jìn)入到文件中,后面是視覺關(guān)注映像,然后是壓縮的圖像數(shù)據(jù)。有關(guān)該圖像的普通信息包括在x和y方向上的抽樣數(shù)以及用于所有四個可能等級的品質(zhì)等級。為了允許應(yīng)用程序檢測一個文件是否為VACIMG文件,把一個文件簽名插到該普通圖像信息的前面。
下表提供VACIMG圖像所用的文件格式的概述。
利用字節(jié)中的標(biāo)準(zhǔn)窗口位對準(zhǔn)來把全部字節(jié)寫入到文件內(nèi)。該文件從表示字符‘V’,‘A’,‘C’,‘I’,‘M’和‘G’的6個字節(jié)開始。之后是抽樣數(shù),寬度和高度,二者都被存儲為未加符號的16位整數(shù)。首先到的是最高有效字節(jié)。其后是4個品質(zhì)等級,它們被存儲為未加符號的8位整數(shù)。接下來是視覺關(guān)注映像,VA Map,它存儲了興趣等級(以及由此代表的壓縮等級)。該視覺關(guān)注映像用每8×8像素塊兩比特來表示。在x和y方向上的塊數(shù)用早先所示的等式給出,其被用于如下計算該視覺關(guān)注映像所使用的字節(jié)數(shù)k=bxY·byY4]]>最后,是所有被壓縮的圖像數(shù)據(jù)。用于該被壓縮圖象數(shù)據(jù)的字節(jié)數(shù)不為解碼器所知。解碼器必須使用被提供用來重建圖象的所有字節(jié),并且一旦已到達(dá)文件的末尾就自動終止解碼。
利用視覺關(guān)注映像可以允許圖像的漸進(jìn)解碼,其中最關(guān)注的圖像部分首先被解碼。取代使用非交織結(jié)構(gòu)來存儲圖像分量的DCT系數(shù),可以使用交織結(jié)構(gòu),因此用來重建一個塊的所有信息聚攏在數(shù)據(jù)流中。這就允許接收器在已收到完整的文件之前開始解壓縮和建造所接收的圖像。這對于諸如萬維網(wǎng),無線應(yīng)用協(xié)議(WAP)電話或者甚至視頻電話技術(shù)來說非常有用。JPEG已經(jīng)提供了漸進(jìn)編碼,但是還有能夠從使用基于視覺關(guān)注的圖像壓縮得出的優(yōu)點。被視為最重要的塊(3級塊)可以被首先發(fā)送,接著的是2級塊,1級塊,最后是背景塊(0級塊)。這意味著接收器能夠更早地得到圖像的“消息”,并且一旦已收到足夠的信息他甚至可以決定切斷數(shù)據(jù)流。在多數(shù)應(yīng)用中,按照固定的像素順序來發(fā)送圖像,例如在左下角開始并逐行地向上掃描圖像。因此為了得到圖像的“消息”,你將必須等待直到整個圖像被發(fā)送和重建。使用視覺關(guān)注映像將使你能夠先發(fā)送重要的像素,接著是下一個重要像素,等等,因此一旦有足夠的信息以得到該消息你就可以切斷數(shù)據(jù)流。該項技術(shù)使視頻流的傳輸,甚至在窄帶寬網(wǎng)絡(luò)中也能夠具有比較好的品質(zhì)。尤其是,對于視頻電話,該項技術(shù)將以損失一些背景信息為代價來在較低的帶寬上提供圖像。
如果帶寬過窄以至不能傳送整個圖像,那么解碼器和編碼器可以在任何時間停止塊的傳送,因此只傳送最重要的塊。為了在接收器上得到一改進(jìn)的圖像,整個圖像同樣應(yīng)當(dāng)被間或地傳送以更新背景。不過,多數(shù)時間僅僅替換最重要的塊就足夠了,并且當(dāng)它們不能被新的塊替換時就使用先前圖像的背景塊。
由于VA-map中的一個低視覺關(guān)注等級,同樣有可能自動地弄模糊已經(jīng)用低量化級解碼的塊。這就不用存儲或帶寬開銷而改進(jìn)了被解碼圖象的感知品質(zhì)。
本發(fā)明的其它應(yīng)用包括在告警標(biāo)記(例如道路標(biāo)記)的設(shè)計和定位上的人類工程學(xué)考慮,以便使它們變得明顯,這通常是一試錯過程,在此階段期間對于公眾是有危險的。視覺關(guān)注的一個目標(biāo)量度(換言之,識別該標(biāo)記,或其他的東西是否是在其建議環(huán)境中預(yù)定觀眾對該標(biāo)記的視野內(nèi)的主要主題)將改進(jìn)設(shè)計過程并降低由不足夠突出的試驗標(biāo)記所引起的事故風(fēng)險。其它標(biāo)記,例如廣告,以及顯示器屏幕如因特網(wǎng)“網(wǎng)站”的輸出的視覺效果也能夠利用該過程來優(yōu)化以最大化在特定位置上的視覺關(guān)注。
本發(fā)明還能夠識別在某些方面與背景或周圍總體不同的物體。例如,通過其所具有的不存在于周圍健康細(xì)胞中的特征來識別出癌細(xì)胞。由肉眼做出的這種異常識別目前是一項勞動密集強(qiáng)度很大的過程,這是由于大量的抽樣將被檢查以及癌細(xì)胞的比較稀少性。已經(jīng)知道由于眼睛的緊張和疲勞而使觀察者未能注意到異常細(xì)胞。
作為另一個例子,在被粒子物理學(xué)家使用的泡沫室像片中,粒子軌跡的新的以及異常的圖案可被該過程識別出來。由于所最關(guān)心的軌跡是這些由迄今未發(fā)現(xiàn)的具有未知屬性的粒子所生成的軌跡,因此不可能設(shè)計一個模板來尋找它們。
作為又一個例子,在紋理的視覺呈現(xiàn)內(nèi)的缺陷的目標(biāo)檢測將改進(jìn)織物的生產(chǎn)過程,微芯片的設(shè)計以及其它避免表面缺陷的過程的質(zhì)量保證。
在其它應(yīng)用中,對與其周圍環(huán)境不匹配的目標(biāo)的識別在安全監(jiān)視領(lǐng)域具有很多的應(yīng)用。如果這種目標(biāo)不引起警戒人員的提早注意,那么可能構(gòu)成嚴(yán)重的危害。類似地,出現(xiàn)在衛(wèi)星圖像中的異常目標(biāo)可能透露出有價值的情報信息或是生態(tài)學(xué)上的局部變化。
本發(fā)明還可以用作為一個應(yīng)用于很多任務(wù)的人類視覺感知模型,其中需要模仿人類性能來作為漫長的和昂貴的人員因素試驗的替代。
本發(fā)明可以獲得應(yīng)用的其它方面包括用于視頻資料的改進(jìn)再現(xiàn),其中具有感知重要性的區(qū)域用更為詳細(xì)的,增強(qiáng)的教材來再現(xiàn)以集中學(xué)生的注意力,在圖像編輯方面提供用于高度關(guān)注的目標(biāo)的輪廓,因此例如它們可以被剪切并用于組合,以及在通過對視覺關(guān)注等級的自動監(jiān)控而對鐵路或道路上的安全信號/標(biāo)記進(jìn)行自動檢查方面。
權(quán)利要求
1.一種處理視覺圖像的方法,用于識別視覺關(guān)注的區(qū)域,包括步驟把一圖像存儲為一像素陣列,每個像素具有一個值;從該陣列中選擇測試像素;對于每個測試像素,選擇一個或多個鄰近該測試像素的鄰近像素序列;從該陣列中選擇對照像素;識別一個鄰近一選定對照像素的像素序列,該像素序列對該對照像素具有的相應(yīng)位置關(guān)系與一選定的鄰近像素序列對該測試像素具有的相應(yīng)位置關(guān)系相同;按照一預(yù)定的匹配標(biāo)準(zhǔn)比較選定的鄰近序列的值與被識別出的序列的值;根據(jù)為每個測試像素所做的比較中導(dǎo)致不匹配的比較數(shù)目,為該測試像素生成視覺關(guān)注的一個量度。
2.根據(jù)權(quán)利要求1的方法,其中,對于每個對照像素,如果鄰近該測試像素的一個或多個選定像素具有與鄰近該對照像素的相應(yīng)像素的值基本上不相似的值,那么異常值被遞增1,并且利用具有相同測試像素的更多的對照像素來重復(fù)該過程直到選定一個對照像素,對于該對照像素,所有選定的像素具有基本上相似于鄰近該測試像素的對應(yīng)像素的值,在此情形中一個另外的鄰近序列被選定并重復(fù)該過程。
3.根據(jù)權(quán)利要求1或2的方法,其中多個測試像素被同時分析。
4.根據(jù)權(quán)利要求1,2或3的方法,其中同時把多個對照像素與一給定測試像素進(jìn)行比較。
5.根據(jù)權(quán)利要求1,2,3,或4的方法,其中該值為表示一彩色圖像的三元矢量。
6.根據(jù)權(quán)利要求1,2,3,4,或5的方法,其中除了鄰近序列外,還選定更多的可變搜尋標(biāo)準(zhǔn)。
7.根據(jù)權(quán)利要求6的方法,其中該更多的可變搜尋標(biāo)準(zhǔn)包括用于確定兩個像素值是否基本上相似的一個閾值。
8.根據(jù)權(quán)利要求1,2,3,4,5,6或7的方法,該方法包括以下步驟存儲用于搜尋標(biāo)準(zhǔn)的值,其中已為該標(biāo)準(zhǔn)生成一高的異常值,以及為隨后的測試像素選擇該相同的搜尋標(biāo)準(zhǔn)。
9.根據(jù)權(quán)利要求1,2,3,4,5,6,7或8的方法,其中通過對含有具有最大異常值的像素的區(qū)域的識別來識別視覺場景中的主要主題。
10.根據(jù)權(quán)利要求1,2,3,4,5,6,7或8的方法,其中給予一視覺場景中的給定對象的視覺關(guān)注的量度通過比較為代表該對象的像素所生成的異常值與為該場景的其它部分所生成的異常值來確定。
11.一種圖像壓縮方法,包括根據(jù)前述權(quán)利要求中的任何一個來處理一圖像以找到視覺關(guān)注區(qū)域的位置;根據(jù)被定位的視覺關(guān)注區(qū)域?qū)υ搱D像編碼,使得對高度視覺關(guān)注的區(qū)域比具有低視覺關(guān)注區(qū)域的圖像區(qū)域更為精確地編碼。
12.根據(jù)權(quán)利要求11的圖像壓縮方法,其中該被定位的視覺關(guān)注區(qū)域被用于選擇用來編碼該圖像的一個量化等級。
13.一種用于處理一視覺圖像或此類圖像的一個序列的裝置,用于定位視覺關(guān)注的區(qū)域,包括用于把一圖像存儲為一像素陣列的裝置,每個像素具有一個值;用于從該陣列中選擇測試像素的裝置;用于選擇鄰近該測試像素的鄰近像素序列的裝置;用于從該陣列中選擇對照像素的裝置;用于識別鄰近一選定對照像素的像素序列的裝置,該像素序列對該對照像素具有的相應(yīng)位置關(guān)系與一選定的鄰近像素序列對該測試像素具有的相應(yīng)位置關(guān)系相同;用于按照一預(yù)定的匹配標(biāo)準(zhǔn)比較選定的鄰近序列的值與被識別出的序列的值的裝置;用于根據(jù)識別一不匹配序列的比較的數(shù)目,為每個測試像素生成視覺關(guān)注的一個量度的裝置。
14.一種被編程以執(zhí)行權(quán)利要求1-13中任一方法的計算機(jī)。
15.一種可直接裝載到一數(shù)字計算機(jī)的內(nèi)部存儲器上的計算機(jī)程序產(chǎn)品,包括當(dāng)所述產(chǎn)品運(yùn)行在一計算機(jī)上時用于執(zhí)行權(quán)利要求1-13中任一權(quán)利要求的步驟的軟件代碼部分。
16.一種存儲在一計算機(jī)可用介質(zhì)上的計算機(jī)程序產(chǎn)品,包括計算機(jī)可讀程序裝置,用于使一計算機(jī)把一圖像存儲為一像素陣列,每個像素具有一個值;計算機(jī)可讀程序裝置,用于使該計算機(jī)從該陣列中選擇測試像素;計算機(jī)可讀程序裝置,用于使該計算機(jī)為每個測試像素選擇鄰近該測試像素的鄰近像素序列;計算機(jī)可讀程序裝置,用于使該計算機(jī)從該陣列中選擇對照像素;計算機(jī)可讀程序裝置,用于使該計算機(jī)識別鄰近一選定對照像素的像素序列,該像素序列對該對照像素具有的相應(yīng)位置關(guān)系與一選定的鄰近像素序列對該測試像素具有的相應(yīng)位置關(guān)系相同;計算機(jī)可讀程序裝置,用于使該計算機(jī)根據(jù)一預(yù)定的匹配標(biāo)準(zhǔn)比較所選定鄰近序列的值與被識別出的序列的值,計算機(jī)可讀程序裝置,用于使該計算機(jī)根據(jù)導(dǎo)致不匹配的比較的數(shù)目,為每個測試像素生成視覺關(guān)注的一個量度。
17.一種處理視覺圖像的序列的方法,用于識別視覺關(guān)注的區(qū)域,包括步驟把一個圖像系列存儲為一個多維像素陣列,每個像素具有一個值;從該陣列中選擇測試像素;對于每個測試像素,選擇一個或多個鄰近該測試像素的鄰近像素序列;從該陣列中選擇對照像素;識別鄰近一對照像素的像素序列,該像素序列對該對照像素具有的相應(yīng)位置關(guān)系與一選定鄰近像素系列對該測試像素具有的相應(yīng)位置關(guān)系相同;根據(jù)一預(yù)定的匹配標(biāo)準(zhǔn)比較所選定鄰近序列的值與被識別出的序列的值,根據(jù)為每個測試像素進(jìn)行的比較中導(dǎo)致不匹配的比較的數(shù)目,為該測試像素生成視覺關(guān)注的一個量度。
全文摘要
本發(fā)明通過測量在尋找該場景內(nèi)鄰域之間的相似性時的困難來識別視覺場景中的最重要特征,不需預(yù)先訓(xùn)練。與該場景中大多數(shù)其余部分相似的區(qū)域內(nèi)的像素獲得視覺關(guān)注的低的量度。另一方面,擁有許多與該圖像的其它部分不相似之處的區(qū)域?qū)⒁鹨曈X關(guān)注的高的量度。本發(fā)明利用試錯過程以找到圖像各部分之間的不相似之處并且不需要有關(guān)可能會出現(xiàn)的異常的特性的預(yù)先知識。本發(fā)明避免了使用像素之間的處理相關(guān)性并能夠?qū)γ總€像素直接并行實現(xiàn)。本發(fā)明可以廣泛應(yīng)用于尋找健康檢查中的異常圖案,品質(zhì)控制過程以及用于評定標(biāo)記和廣告的可視性的視覺人類工程學(xué)分析。本發(fā)明向圖像處理器提供了重要特征的量度以便提供可變比率圖像壓縮。
文檔編號H04N7/26GK1430767SQ0180516
公開日2003年7月16日 申請日期2001年2月8日 優(yōu)先權(quán)日2000年2月17日
發(fā)明者弗雷德里克·沃里克·邁克·斯騰蒂福特 申請人:英國電訊有限公司