專利名稱:用于視頻壓縮的增強(qiáng)的基于塊的運(yùn)動(dòng)估計(jì)算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及用于數(shù)字信號(hào)壓縮、編碼和表示的方法和系統(tǒng),并且更加確切地說,本發(fā)明涉及使用多幀運(yùn)動(dòng)估計(jì)(ME)的方法和系統(tǒng)。本發(fā)明進(jìn)一步涉及一種計(jì)算機(jī)程序產(chǎn)品,諸如記錄媒體,承載可以由計(jì)算設(shè)備讀取的程序指令,以使得所述計(jì)算設(shè)備執(zhí)行根據(jù)本發(fā)明的一種方法。
背景技術(shù):
由于由現(xiàn)代多媒體應(yīng)用使用的原始數(shù)字視頻數(shù)據(jù)(或者圖像序列)的巨大尺寸,必須對(duì)這種數(shù)據(jù)進(jìn)行壓縮以便可以傳輸和存儲(chǔ)這些數(shù)據(jù)。存在許多重要視頻壓縮標(biāo)準(zhǔn),包括ISO/IEC MPEG-1、MPEG-2、MPEG-4標(biāo)準(zhǔn)和ITU-T H.261、H.263、H.264標(biāo)準(zhǔn)。ISO/IEC MPEG-1/2/4標(biāo)準(zhǔn)廣泛地運(yùn)用于娛樂業(yè)以發(fā)行電影、包括視頻壓縮光盤或者VCD(MPEG-1)的數(shù)字視頻廣播、數(shù)字視頻光盤或者數(shù)字多用途光盤或者DVD(MPEG-2)、可記錄DVD(MPEG-2)、數(shù)字視頻廣播、數(shù)字視頻廣播或者DVB(MPEG-2)、視頻點(diǎn)播或者VOD(MPEG-2)、在US中的高清晰度電視或者HDTV(MPEG-2)等等。MPEG-4標(biāo)準(zhǔn)比MPEG-2更加先進(jìn),可以在較低的比特率下實(shí)現(xiàn)高質(zhì)量視頻,這使得其非常適合于因特網(wǎng)、數(shù)字無線網(wǎng)絡(luò)(例如3G網(wǎng)絡(luò))、多媒體信息服務(wù)(來自3GPP的MMS標(biāo)準(zhǔn))等等上的視頻信息流。MPEG-4被下一代高清晰度DVD(HD-DVD)標(biāo)準(zhǔn)和MMS標(biāo)準(zhǔn)所接受。ITU-TH.261/3/4標(biāo)準(zhǔn)設(shè)計(jì)用于低延遲電視電話和視頻會(huì)議系統(tǒng)。早期的H.261標(biāo)準(zhǔn)設(shè)計(jì)為在p*64kbit/s下工作,p=1,2,...,31。后期的H.263標(biāo)準(zhǔn)非常成功,被廣泛地用于現(xiàn)代電視會(huì)議系統(tǒng),并且用于寬帶網(wǎng)絡(luò)和無線網(wǎng)絡(luò)中的視頻信息流,其中無線網(wǎng)絡(luò)包括在2.5G和3G網(wǎng)絡(luò)以及其他網(wǎng)絡(luò)中的多媒體信息服務(wù)(MMS)。最新標(biāo)準(zhǔn),H.264(也稱作MPEG-4版本10,或者M(jìn)PEG-4 AVC)是當(dāng)前最新技術(shù)水平的視頻壓縮標(biāo)準(zhǔn)。它如此強(qiáng)大以至MPEG決定與Joint Video Team(JVT)的框架中的ITU-T聯(lián)合開發(fā)。新的標(biāo)準(zhǔn)在ITU-T中稱為的H.264,并且被稱作MPEG-4高級(jí)視頻編碼(MPEG-4AVC),或者M(jìn)PEG-4版本10。H.264用于HD-DVD標(biāo)準(zhǔn)、直接視頻廣播(DVB)標(biāo)準(zhǔn)并且可能用于MMS標(biāo)準(zhǔn)。基于H.264,當(dāng)前在中國正在開發(fā)稱作視聽標(biāo)準(zhǔn)(AVS)的相關(guān)標(biāo)準(zhǔn)。AVS 1.0設(shè)計(jì)用于高清晰度電視(HDTV)。AVS-M設(shè)計(jì)用于移動(dòng)應(yīng)用。H.264具有超過MPEG-1/2/4及H.261/3標(biāo)準(zhǔn)的目標(biāo)和主觀的視頻質(zhì)量。除使用整數(shù)4×4離散余弦變換(DCT)代替?zhèn)鹘y(tǒng)的8×8 DCT以外,H.264[1]的基本編碼算法類似于H.263或者M(jìn)PEG-4,并且還有額外的特點(diǎn),包括I幀的幀間預(yù)測(cè)模式、用于運(yùn)動(dòng)估計(jì)/補(bǔ)償?shù)亩喾N塊大小以及多種參考坐標(biāo)系、用于運(yùn)動(dòng)估計(jì)的四分之一像素精度、回路內(nèi)去塊效應(yīng)(in-loopdeblocking)濾波器,內(nèi)容自適應(yīng)二進(jìn)制算術(shù)編碼(context adaptivebinary arithmetic coding),等等。
運(yùn)動(dòng)估計(jì)是大多數(shù)視頻壓縮標(biāo)準(zhǔn)(諸如MPEG-1/2/4和H.261/3/4)的核心部分,其充分利用時(shí)間冗余度,因此其性能直接影響視頻編碼系統(tǒng)的壓縮效率、主觀視頻質(zhì)量以及編碼速度。
在塊匹配運(yùn)動(dòng)估計(jì)(BMME)中,在ME中,對(duì)當(dāng)前塊和參考?jí)K之間的失真的最通用的測(cè)量是絕對(duì)差值的和(SAD),對(duì)于一個(gè)N×N塊而言,定義為SAD(mvx,mvy)=Σm=0,n=0N-1|Ft(x+m,y+n)-Ft-1(x+m+mvx,y+n+mvy)|]]>其中Ft是當(dāng)前幀,F(xiàn)t-1是標(biāo)準(zhǔn)幀,(mvx,mvy)表示當(dāng)前運(yùn)動(dòng)矢量(MV)。對(duì)于寬度=X,高度=Y(jié),并且塊大小=N×N的幀而言,在搜索范圍±W中需要對(duì)SAD進(jìn)行評(píng)估以查找最優(yōu)運(yùn)動(dòng)矢量的搜索點(diǎn)總數(shù)等于(XN)(YN)(2W+1)2,]]>對(duì)于X=352,Y=288,N=16并且W=32的情況下,其等于1673100。這是在視頻編碼器中消耗巨大計(jì)算能力的巨大數(shù)值。已經(jīng)提出了許多快速算法[2]-[9]來減少在ME中搜索點(diǎn)的數(shù)目,例如三步搜索(TSS)[11],2D對(duì)數(shù)搜索[12],新三步搜索(NTSS)[3],MVFAST[7],以及PMVFAST[2]。MVFAST和PMVFAST顯著地優(yōu)于前三個(gè)算法,因?yàn)樗鼈兪褂弥兄颠\(yùn)動(dòng)矢量預(yù)測(cè)器作為搜索中心執(zhí)行中心偏離ME,由此通過平滑運(yùn)動(dòng)矢量場(chǎng)降低了MV編碼的位的數(shù)目。
PMVFAST算法(其是對(duì)MVFAST及其它快速算法的重要改進(jìn),并且因而被MPEG標(biāo)準(zhǔn)[10]所接受)最初考慮一組MV預(yù)測(cè)器,包括中值、零點(diǎn)、左邊、頂部、右上方的和先前的共位(co-located)MV預(yù)測(cè)器。圖1舉例說明了當(dāng)前塊、左塊、頂部塊、右上方塊、右右上方塊、以及右塊(其是″未來塊″,即,在當(dāng)前塊之后被處理的塊)的位置。它計(jì)算每個(gè)預(yù)測(cè)的SAD代價(jià)。在后來的發(fā)展中,對(duì)PMVFAST進(jìn)行修改以計(jì)算RD(速率失真)代價(jià)[13]來替代使用以下代價(jià)函數(shù)的SAD代價(jià)J(m,λmotion)=SAD(s,c(m))+λmotion(R(m-p))(1)其中s是原始視頻信號(hào),c是參考視頻信號(hào),m是當(dāng)前MV,p是當(dāng)前塊的中值MV預(yù)測(cè)器,λmotion是Lagrange乘法器,R(m-p)表示用于編碼運(yùn)動(dòng)信息的位。在PMVFAST中的下一步驟是選擇具有最小代價(jià)的MV預(yù)測(cè)器,并且根據(jù)從MV預(yù)測(cè)器獲得的最小代價(jià)的值來執(zhí)行數(shù)量大菱形搜索(diamond search)或者小菱形搜索。
在定義當(dāng)前視頻編碼標(biāo)準(zhǔn)中獨(dú)立但是重要問題是使用亞像素預(yù)定矢量,包括半像素、1/4像素或者可能甚至1/8像素運(yùn)動(dòng)矢量,其提供對(duì)運(yùn)動(dòng)的更加精確的描述,并且可以提供整像素運(yùn)動(dòng)估計(jì)的大約1dB的PSNR增益。采用半像素精度,運(yùn)動(dòng)矢量可以采用等間距位置值,諸如0.0,0.5,1.0,1.5,2.0等等。采用1/4像素精度,運(yùn)動(dòng)矢量可以采用諸如0.00,0.25,0.50,0.75,1.00,1.25,1.50,1.75,2.00等等之類的位置值。采用1/8像素精度,運(yùn)動(dòng)矢量可以采用諸如0.000,0.125,0.250,0.375,0.500,0.625,0.750,0.875,1.000,1.125,1.250,1.375,1.500,1.625,1.750,1.875,2.000等等之類的位置值。
眾所周知,運(yùn)動(dòng)矢量分布趨向于中心偏移,這意味著運(yùn)動(dòng)矢量趨向于非常地接近于(0,0)。在圖6(a)中示出了這種情況,其示出為(0,0)MV使用完全搜索(FS)算法的在Foreman序列中的運(yùn)動(dòng)矢量分布。此外,如圖6(b)所示,運(yùn)動(dòng)矢量分布還向中值預(yù)測(cè)器(中值MV)偏移,它是在圖1中示出的運(yùn)動(dòng)矢量左塊、頂部塊和右上方塊的中值。此外,如圖6(c)所示,運(yùn)動(dòng)矢量還向在當(dāng)前幀中的相鄰運(yùn)動(dòng)矢量(leftMV,topMV,topRightMV)和先前幀中所設(shè)置的運(yùn)動(dòng)矢量(preMV)偏移,如圖6(d)所示。這些可以都是用于當(dāng)前矢量的運(yùn)動(dòng)矢量的可考慮的預(yù)測(cè)器,并且它們可以被用于PMVFAST。
發(fā)明內(nèi)容
本發(fā)明目的是提供用于運(yùn)動(dòng)估計(jì)的新的并且有益的技術(shù),其適用于數(shù)字信號(hào)壓縮、編碼和表達(dá)的方法和系統(tǒng)。
特別是,本發(fā)明設(shè)法提供新的并且有益的有效運(yùn)動(dòng)估計(jì)技術(shù),其可以例如應(yīng)用在MPEG-1、MPEG-2、MPEG-4、H.261、H.263、H.264或AVS或者其它相關(guān)視頻編碼標(biāo)準(zhǔn)中。
本發(fā)明第一方面基于這樣的實(shí)現(xiàn)PMVFAST算法的運(yùn)動(dòng)估計(jì)盡管與在前技術(shù)相比確實(shí)具有優(yōu)點(diǎn),但是其并不是最佳的。在原理上,對(duì)于視頻中的每個(gè)幀,存在整體上使得整個(gè)幀的RD代價(jià)最小化的運(yùn)動(dòng)矢量場(chǎng){mij,i=0..M-1,j=0..N-1}total_RD_Cost=Σi=0M-1Σj=0N-1[SAD(si,j,c(mi,j))+λi,j(R(mi,j-pi,j))]---(2)]]>其中(i,j)表示在包含M×N個(gè)塊的幀中的第(i,j)個(gè)塊。對(duì)于固定Qp(其是量化參數(shù)),λi,j=λ=恒量,而且pi,j=median(mi,j-1,mi-1,j,mi-1,j+1)(3)
然而,考慮到整個(gè)幀的全部RD代價(jià)同時(shí)需要指數(shù)級(jí)的計(jì)算復(fù)雜性,這是不實(shí)際的。因而,PMVFAST和其它已知算法每次僅僅考慮僅一個(gè)塊的RD代價(jià),而不是一幀中全部塊。
特別是,MVFAST或PMVFAST都沒有考慮當(dāng)導(dǎo)出相對(duì)于當(dāng)前塊的運(yùn)動(dòng)矢量時(shí),這導(dǎo)致下一個(gè)塊的在中值MV預(yù)測(cè)器中的變化。這能夠影響整個(gè)運(yùn)動(dòng)矢量場(chǎng)的平滑。
一般地說,本發(fā)明的第一方面通過改善PMVFAST的代價(jià)定義和運(yùn)動(dòng)預(yù)測(cè)器候選的選擇而提出了一種新的ME算法。特別是,對(duì)于第一圖像的每個(gè)當(dāng)前塊(當(dāng)前塊可以是16×16,16×8,8×16,8×8,4×8,8×4,4×4或其它矩形長度,甚至非矩形),根據(jù)一個(gè)代價(jià)函數(shù)來選擇第二圖像(參考圖像)的類似塊,所述代價(jià)函數(shù)包括兩項(xiàng)(i)當(dāng)前塊與相似塊的不相似測(cè)量(例如SAD,SAE)的項(xiàng),以及(ii)作為至少是對(duì)第一圖像的未來塊的運(yùn)動(dòng)矢量的預(yù)測(cè)的函數(shù)的項(xiàng)。
特別是,所提出的算法通過包含當(dāng)前中值MV預(yù)測(cè)器并且還包含未來(即至今未處理)的編碼塊的估計(jì)中值MV預(yù)測(cè)器,使得改善運(yùn)動(dòng)場(chǎng)平滑性成為可能。
本發(fā)明的許多變化是可能的。特別是,所述塊可以具有任何大小和任何形狀。
可以有多個(gè)第二圖像(即多個(gè)參考值)并且所述搜索可以包括在所有第二圖像中的候選位置。
此外,可以為一起構(gòu)成所述第一圖像中的較大區(qū)域的、并且采用由編碼數(shù)字所定義的編碼順序進(jìn)行編碼的多個(gè)子塊執(zhí)行所述新的代價(jià)函數(shù)。這些子塊無須具有相同大小或形狀。
本發(fā)明具有另一方面,其可以與本發(fā)明第一方面組合或獨(dú)立使用。
一般地說,本發(fā)明第二方面提出當(dāng)對(duì)第一圖像(當(dāng)前塊可以是16×16,16×8,8×16,8×8,4×8,8×4,4×4,或其它矩形大小,甚至非矩形)的當(dāng)前塊進(jìn)行編碼時(shí),使用所選出的、具有從與已知技術(shù)中所使用的值不同的一組值中選出的位置值(即兩個(gè)軸線方向中的各自組件)的運(yùn)動(dòng)矢量進(jìn)行編碼。
考慮一個(gè)可能的運(yùn)動(dòng)矢量預(yù)測(cè)器(0,0)。而整像素的常規(guī)技術(shù)允許運(yùn)動(dòng)矢量采用諸如-2.0,-1.0,0,1.0,2.0等的位置值,本發(fā)明第二方面提出修改接近于所述預(yù)測(cè)器的一組可能位置值。對(duì)于最接近0的位置值1.0,我們可以使用另一位置值諸如0.85,從而使得可允許的位置值將會(huì)包括-2.0,-0.85,0,0.85,2.0等等。其優(yōu)點(diǎn)在于,在統(tǒng)計(jì)上,運(yùn)動(dòng)矢量趨向接近于0。并且,因而通過選擇更加接近于0的位置,我們將更加接近真實(shí)運(yùn)動(dòng)矢量,并且因而可以給出可以導(dǎo)致較高壓縮效率的更好的運(yùn)動(dòng)補(bǔ)償。
因而,在本發(fā)明一個(gè)特定表達(dá)中,可以選擇為至少一個(gè)軸方向選擇一組可能位置值,從而使得它們無法全部寫作Lm,其中m=-...,2,-1,0,1,2...,并且L是常量(例如1個(gè)像素間隔,1/2像素間隔,或1/4像素間隔);即,位置值是不均勻的。特別是,可以選擇為至少一個(gè)軸方向選擇一組可能位置值,從而使得它們無法全部寫作m/n,其中m=-...,2,-1,0,1,2,...并且n是1或2的冪。
注意,本發(fā)明的第二方面并不局限于從一組非均勻的空間位置值中選擇位置值;與傳統(tǒng)的位置值組相比,也不局限于僅僅選擇最接近于零的兩個(gè)位置值。作為示例,在本發(fā)明的第二方面的另一個(gè)示例里,位置值2.0可變成1.9,從而可允許的位置值將包括-1.9,-0.85,0,0.85,1.9等。
因而,在本發(fā)明第二方面的可替換的特定表達(dá)中,(為至少一個(gè)所述方向)選擇一組可能位置值,以包括可以寫作為LAmm/n的一個(gè)或多個(gè)位置值,其中m=-...,2,-1,0,1,2..,n是1或2的冪,L是常量(例如1像素間隔,1/2像素間隔,或1/4像素間隔),并且Am是小于1但是至少是0.75的值(對(duì)于不同的m值選擇性地不同),更加優(yōu)選地至少是0.80,并且最優(yōu)選地至少是0.85。
我們已經(jīng)發(fā)現(xiàn)Am的最佳值取決于視頻。
本發(fā)明第二方面的特定實(shí)施例的一個(gè)優(yōu)點(diǎn)在于,它們所產(chǎn)生的運(yùn)動(dòng)矢量可以采用與常規(guī)算法相同的格式碼進(jìn)行編碼,除了該位置值的常規(guī)碼應(yīng)當(dāng)分別解釋為該實(shí)施例所使用的可能位置值之外。例如,如果由特定實(shí)施例所使用的位置值是-1.9,-0.85,0,0.85,1.9等,則位置值1.0的常規(guī)碼應(yīng)該解釋為0.85,并且位置值2.0的常規(guī)碼應(yīng)該解釋為1.9,等。
根據(jù)本發(fā)明的第二方面的方法可以包括以下步驟定義搜索區(qū)域,在所述搜索區(qū)域內(nèi)定義多個(gè)候選位置,所述多個(gè)候選位置包括由本發(fā)明第二方面的新的位置值所定義的一組多個(gè)位置。這些位置值是來自關(guān)鍵位置(例如,(0,0)運(yùn)動(dòng)矢量位置,預(yù)測(cè)運(yùn)動(dòng)矢量,等)處的候選位置的相應(yīng)位移值。對(duì)于每個(gè)候選運(yùn)動(dòng)矢量而言,我們計(jì)算代價(jià)函數(shù),所述代價(jià)函數(shù)是第一圖像中的當(dāng)前塊與第二圖像中的所述候選運(yùn)動(dòng)矢量處的塊之間的相似度測(cè)量(例如SAD,SAE)的函數(shù)??蛇x地,其還可以是以下運(yùn)動(dòng)矢量的函數(shù)所述候選運(yùn)動(dòng)矢量、當(dāng)前預(yù)測(cè)運(yùn)動(dòng)矢量,以及可選地,如本發(fā)明第一方面,一個(gè)或多個(gè)未來預(yù)測(cè)運(yùn)動(dòng)矢量。例如,可選地,如本發(fā)明第一方面,可以給定該代價(jià)函數(shù)。
現(xiàn)在將僅僅參考以下附圖描述本發(fā)明實(shí)施例作為示例,其中圖1示出了當(dāng)前塊、左塊、頂部塊、右上方塊、右右上方塊、和右塊;圖2示出了Diff的典型分布,其是|mi,j+1-pi,j+1|與|mi,j-pi,j+1|之間的差異;圖3a示出了如本發(fā)明第一實(shí)施例所使用的巨大菱形搜索的搜索方式;圖3b示出了如本發(fā)明第一實(shí)施例中所使用的修改的巨大菱形搜索的搜索方式;圖4示出了如本發(fā)明第一實(shí)施例中所使用的小菱形搜索的搜索方式;圖5a和5b比較PMVFAST和本發(fā)明第一實(shí)施例的MV域的平滑性;圖6示出了對(duì)當(dāng)前幀中的(a)(0,0)MV、(b)中值MV、(c)相鄰MV和先前幀中所配置的MV、(d)在先前幀中的右下方的MV(PreBottomRightMV)使用完全搜索(FS)算法得到的在Foreman序列中的運(yùn)動(dòng)矢量分布;
圖7是本發(fā)明第一實(shí)施例的流程圖。
具體實(shí)施例方式
本發(fā)明第一實(shí)施例采用了PMVFAST算法的許多特征,但是是通過考慮幾個(gè)鄰近塊而不是僅僅一個(gè)塊來對(duì)PMVFAST(及其它現(xiàn)有算法)加以改進(jìn)的。等式(2)和(3)示出,當(dāng)前塊MV的選擇直接影響鄰近塊的RD代價(jià),所述鄰近塊包括右塊(或第(i,j+1)塊),左下方塊(或第(i+1,j-1)塊),以及下方塊(或第(i+1,j)塊)。這是因?yàn)?,?dāng)前MV將會(huì)影響這些鄰近塊的所預(yù)測(cè)MV,并且因此進(jìn)而影響那些塊的最佳運(yùn)動(dòng)矢量。這些是“未來”塊,因?yàn)楫?dāng)處理當(dāng)前塊時(shí),還沒有對(duì)它們執(zhí)行運(yùn)動(dòng)估計(jì)。我們無法與當(dāng)前塊同時(shí)地計(jì)算這些未來塊的最佳運(yùn)動(dòng)矢量,因?yàn)槲覀儗⑿枰凑盏仁?2)同時(shí)計(jì)算整個(gè)幀中所有塊的最佳運(yùn)動(dòng)矢量,這將會(huì)非常復(fù)雜。
作為替代,為了評(píng)定在右塊或第(i,j+1)塊上的當(dāng)前塊的當(dāng)前MV的選擇的蘊(yùn)含式,我們可以為等式(1)的當(dāng)前塊的RD代價(jià)函數(shù)增加一項(xiàng)R(|mi,j+1-pi,j+1|)(4)其中,mi,j+1是基于當(dāng)前塊的當(dāng)前MV的右塊的最佳運(yùn)動(dòng)矢量,并且pi,j+1是基于當(dāng)前塊的當(dāng)前MV的右塊的中值MV預(yù)測(cè)器,即pi,j+1=median(mi,j,mi-1,j+1,mi-1,j+2)(5)然而,等式(4)中的mi,j+1是未知的,因?yàn)橛覊K(未來塊)的運(yùn)動(dòng)估計(jì)還沒有執(zhí)行。然而,我們注意到,|mi,j+1-pi,j+1|可以通過|mi,j-pi,j+1|很好地近似。讓Diff為|mi,j+1-pi,j+1|-|mi,j-pi,j+1|。我們對(duì)許多視頻測(cè)試順序進(jìn)行實(shí)驗(yàn)并且研究Diff的分布。圖2顯示了Foreman序列的概率密度函數(shù)(概率分布函數(shù)),如圖2所示,典型的結(jié)果嚴(yán)重地偏向零。這意味著這兩個(gè)量在大部分情況中是基本相同的(在大約70%情況下相同,而在大約23%的情況下僅僅相差1)。這意味著,|mi,j-pi,j+1|是|mi,j+1-pi,j+1|的良好的近似。因此,R(|mi,j+1-pi,j+1|)可以由W*R(|mi,j-pi,j+1|)來近似,其中W>0。同樣,我們可以對(duì)左下方塊和下方塊添加附加項(xiàng)到代價(jià)中。
對(duì)于第(i,j)塊,讓medianMV表示由等式3給出中值MV預(yù)測(cè)器。讓FmedianMV表示由等式(5)給出的未來中值MV預(yù)測(cè)器(用于右塊的中值MV預(yù)測(cè)器)。從而,F(xiàn)medianMV是MV候選的函數(shù)。在此,第一實(shí)施例被稱為對(duì)于第(i,j)塊的“增強(qiáng)預(yù)測(cè)運(yùn)動(dòng)矢量場(chǎng)自適應(yīng)搜索技術(shù)”(E-PMVFAST)。該實(shí)施例的步驟如下。
實(shí)施例的各步驟如下,示于圖7中。
對(duì)任何候選MV,如下定義代價(jià)。cost(MV)=SAD+λ*[w*R(MV-medianMV)+(1-w)*R(MV-FmedianMV)](6)1.計(jì)算三個(gè)運(yùn)動(dòng)矢量預(yù)測(cè)器的代價(jià)(i)中值MV預(yù)測(cè)器(“medianMV”),(ii)右塊的估計(jì)運(yùn)動(dòng)矢量(“futureMV”),其定義為如下futureMV≡median(TopMV,TopRightMV,TopRightRightMV)和(iii)來自過去塊(“pastMV”)的MV預(yù)測(cè)器,其是先前的共位MV(“PreMV”)和遠(yuǎn)離于medianMV的先前右下方的MV(“PreBottomRightMV”)中的一個(gè),即pastMV≡arg maxMV∈{PreMv,PreBottomRightMV}{abs(MV-medianMV)}注意,項(xiàng)(ii)可以由用于另一鄰近未來塊(諸如左下方的、底部,和/或右下方的塊)的估計(jì)運(yùn)動(dòng)矢量來補(bǔ)充或代替。
還應(yīng)當(dāng)注意,在項(xiàng)(iii)中,先前右下方的MV可以由用于另一鄰近塊的先前MV預(yù)測(cè)器補(bǔ)充或替換。
注意,項(xiàng)(ii)和(iii)形代價(jià)發(fā)明的獨(dú)立方面。
如果以上任意一個(gè)MV預(yù)測(cè)器不可用(例如在幀的邊界),則跳過該預(yù)測(cè)器。
2.如果運(yùn)動(dòng)矢量預(yù)測(cè)器的最小代價(jià)小于閾值T1,則停止搜索并且轉(zhuǎn)到步驟7。否則,選擇具有最小代價(jià)的運(yùn)動(dòng)矢量作為currentMV(當(dāng)前MV)并且轉(zhuǎn)到下一步驟。注意,3個(gè)運(yùn)動(dòng)矢量預(yù)測(cè)器的代價(jià)可以采用預(yù)定順序來計(jì)算(例如medianMV,接著是futureMV,接著是pastMV),并且在任何時(shí)刻,如果任何運(yùn)動(dòng)矢量預(yù)測(cè)器的代價(jià)小于特定閾值,則搜索可能停止并且轉(zhuǎn)到步驟7。
3.圍繞currentMV執(zhí)行定向小菱形搜索的一次迭代。下面解釋定向小菱形搜索的概念。
4.如果最小代價(jià)小于閾值T2,則停止搜索并且轉(zhuǎn)到步驟7。否則,選擇具有最小代價(jià)的運(yùn)動(dòng)矢量作為currentMV并且轉(zhuǎn)到下一步驟。
5.如果(currentMV=medianMV)并且當(dāng)前最小代價(jià)小于閾值T3,則執(zhí)行小菱形搜索并且轉(zhuǎn)到步驟7。
6.如果視頻不是隔行掃描,則執(zhí)行大菱形搜索,如圖3(a)所示;否則,執(zhí)行如圖3(b)所示的修改的大菱形搜索。在這些步驟中的每個(gè)步驟中,對(duì)菱形的每一標(biāo)志點(diǎn)評(píng)估代價(jià)函數(shù)。
7.選擇具有最小代價(jià)的MV。
在我們的實(shí)驗(yàn)中,發(fā)現(xiàn)w的值大約0.8是有效。
現(xiàn)在解釋定向小菱形搜索的步驟。假定,centerMV是當(dāng)前搜索中心,并且MV1,MV2,MV3和MV4是四個(gè)圍繞搜索點(diǎn),如圖4所示。為每個(gè)MVi計(jì)算R(MVi-medianMV)。如果R(MVi-medianMV)<R(centerMV-medianMV),則計(jì)算MVi的SAD和代價(jià)。否則,忽略該MVi。選擇具有最低代價(jià)的MV作為currentMV。注意,定向方塊搜索的概念被認(rèn)為是新的,并且構(gòu)代價(jià)發(fā)明一個(gè)獨(dú)立方面,其無須與使用futureMV的概念相結(jié)合來執(zhí)行。
大菱形搜索和修改的大菱形搜索的步驟是相同的,但是所述搜索是對(duì)于圖3(a)和3(b)中分別示出的點(diǎn)的所有集合而完成的。
我們現(xiàn)在考慮在本發(fā)明范圍內(nèi)的實(shí)施例的多個(gè)可能的變體。
首先,注意,對(duì)于不同的塊,在代價(jià)函數(shù)中的加權(quán)系數(shù)w可以是不同的。此外,可選擇地,對(duì)于不同的MV候選所述w可以是不同的。特別地是,w的定義可以取決于諸如MV候選是否接近于medianMV和/或futureMV、或MV候選的X軸分量或Y軸分量是否與所述FmedianMV的X軸分量或Y軸分量相同之類的情況。
此外,代價(jià)函數(shù)可以不限制于等式(6)的形式。其可以是包括失真測(cè)量項(xiàng)(例如SAD、失真平方和(SSD)、平均偏差失真(MAD)、MSD等)和考慮了對(duì)當(dāng)前塊和某些鄰近塊(例如右塊、下方塊、左下塊等)的運(yùn)動(dòng)矢量進(jìn)行編碼所必需的位的項(xiàng)的任何函數(shù)。
此外,在步驟1中,futureMV的定義不局限于以上步驟1給出的形式。對(duì)于futureMV的兩個(gè)可能的替換定義是和futureMV≡median(leftMV,TopRightMV,TopRightRightMV)和futureMV≡median(medianMV,TopRightMV,TopRightRightMV)此外,在以上表達(dá)的步驟1中,pastMV被選為在先前幀中的可能MV(preMV和preBottomRlghtMV)的列表集合中距離medianMV最遠(yuǎn)的一個(gè)。然而,要考慮的MV列表可以包含兩個(gè)以上可能的MV(例如preMV,preLeftMV,preRightMV,preTopMV,preTopLeftMV,preTopRightMV,preBottomMB,preBottomLeftMV,preBottomRightMV,等)。此外,來自一個(gè)以上先前編碼幀的MV可以包括在所述列表中(例如如果當(dāng)前幀是幀N,則所述列表可以包含幀N-1,N-2,N-3,...)。如果當(dāng)前幀是B幀,則先前編碼幀的列表可以包括未來P幀。
此外,在步驟1中,選擇pastMV為距離參考MV(在步驟1中的medianMV)最遠(yuǎn)的可能的MV。其它參考MV也是可以的,包括leffMV、或TopMV、或TopRightMV、或某組合。從可能的MV的列表中進(jìn)行選擇的其它方法也是可能的。
在步驟2中,所述3個(gè)運(yùn)動(dòng)矢量預(yù)測(cè)器的代價(jià)是在按照某種預(yù)定義順序中得到的。可能的預(yù)定義順序包括a)medianMV,隨后是futureMV,隨后是pastMVb)medianMV,隨后是pastMV,隨后是futureMVc)futureMV,隨后是medianMV,隨后是pastMVd)futureMV,隨后是pastMV,隨后是medianMVe)pastMV,隨后是medianMV,隨后是futureMVf)pastMV,隨后是futureMV,隨后是medianMV此外,雖然如以上表達(dá),在步驟3中執(zhí)行了定向小菱形搜索的一次迭代,可以應(yīng)用一個(gè)以上的迭代。
模擬結(jié)果我們現(xiàn)在給出實(shí)施例E-PMVFAST的模擬結(jié)果。將所述實(shí)施例嵌入到H.264參考軟件JM9.3[13]中,并且使用各種QP、視頻序列、分辨率和搜索范圍對(duì)其進(jìn)行模擬。表1(a-c)和2(a-c)示出一些典型的模擬結(jié)果。PSNR(峰值信號(hào)與噪聲的比例)變化和BR(比特率)變化是相對(duì)于完全搜索(FS)的PSNR和比特率的變化。模擬結(jié)果示出,所提出的E-PMVFAST的比特率和PSNR趨向于與完全搜索和PMVFAST類似,但是在大范圍的視頻序列和比特率上,E-PMVFAST趨向于比PMVFAST快大約40%。E-PMVFAST的一個(gè)重要特征在于,其運(yùn)動(dòng)矢量場(chǎng)趨向于非常地平滑,從而使得運(yùn)動(dòng)矢量可以比其它快速移動(dòng)估計(jì)算法更加準(zhǔn)確地表示對(duì)象的移動(dòng)。
在圖5(a)以及5(b)中,左側(cè)的圖像示出(如短線)由PMVFAST算法獲得的運(yùn)動(dòng)矢量場(chǎng),而右側(cè)的成像示出通過所述實(shí)施例獲得的相同成像的運(yùn)動(dòng)矢量。E-PMVFAST的運(yùn)動(dòng)矢量場(chǎng)顯著地比PMVFAST的運(yùn)動(dòng)矢量場(chǎng)更加平滑,特別是在所圈出的區(qū)域中。對(duì)于將感知轉(zhuǎn)換編碼(perceptual trans-coding)、速率控制、多種塊大小運(yùn)動(dòng)估計(jì)、多種標(biāo)準(zhǔn)幀運(yùn)動(dòng)估計(jì)等中的視頻運(yùn)動(dòng)內(nèi)容進(jìn)行分類而言,平滑的運(yùn)動(dòng)場(chǎng)非常有用。
表格1a-foreman CIF序列的模擬結(jié)果
表格1b-Coastguard CIF序列的模擬結(jié)果
表格1c-Hall CIF序列的模擬結(jié)果
表格2a-foreman QCIF序列的模擬結(jié)果
表格2b-Akiyo QCIF序列的模擬結(jié)果
表格2c-Coastguard QCIF序列的模擬結(jié)果我們現(xiàn)在轉(zhuǎn)向本發(fā)明的第二實(shí)施例,其示出了本發(fā)明的第二方面。
如上所述,常規(guī)完全整數(shù)像素允許運(yùn)動(dòng)矢量在每個(gè)方向上采用-2.0,-1.0,0,1.0,2.0等等的位置值。在本發(fā)明第二實(shí)施例中,選擇接近于預(yù)測(cè)器的可能位置值。對(duì)于最接近0的位置值,我們可以使用(代替1.0)另一位置值,諸如0.85,從而使得允許的位置值可以包括-2.0,-0.85,0,0.85,2.0等等。此優(yōu)點(diǎn)在于,在統(tǒng)計(jì)上運(yùn)動(dòng)矢量趨向接近于0。因此,通過選擇更加接近0的位置,我們會(huì)更加接近于真實(shí)的運(yùn)動(dòng)矢量,并且因而可以給出可以導(dǎo)致較高壓縮效率的更好的運(yùn)動(dòng)補(bǔ)償。類似地,可以改變其它位置值。例如,可以將位置值2.0改變?yōu)?.9,從而使得允許的位置值會(huì)包括-1.9,-0.85,0,0.85,1.9等等。除了1.0的編碼運(yùn)動(dòng)矢量位置應(yīng)當(dāng)解釋為0.85,并且2.0的編碼運(yùn)動(dòng)矢量位置應(yīng)當(dāng)解釋為1.9以外,所提出的改變的優(yōu)點(diǎn)在于可以使用相同運(yùn)動(dòng)矢量代碼。
半像素精度允許運(yùn)動(dòng)矢量采用諸如0.0,0.5,1.0,1.5,2.0等等之類的位置值。我們建議修改這些位置值,特別是那些接近于預(yù)測(cè)器的位置值。對(duì)于非常接近于0的位置值0.5,我們建議使用一個(gè)不同的值。例如,一種可能性是使用0.4代替0.5。換句話說,位置值將包括0.0,0.4,1.0,1.5,2.0。類似地,其它位置值可以被修改。例如,位置值1.0可以改變?yōu)?.9,從而使得該組新位置值將包括0.0,0.4,0.95,1.5,2.0等等。同樣,這可以有助于提高壓縮效率。類似地,可以修改其它位置值以提高壓縮效率。然而,改變這種位置能夠顯著地導(dǎo)致編碼器和解碼器兩者處的較高的計(jì)算效率。通常,大部分壓縮效率增益來自于將位置值改變?yōu)榻咏陬A(yù)測(cè)器。
1/4像素精度允許運(yùn)動(dòng)矢量采用諸如0.00,0.25,0.50,0.75,1.00等等之類的位置值。我們可以修改位置值,特別那些接近于預(yù)測(cè)器的位置值。例如,我們可以將它們修改為0.00,0.20,0.47,0.73,0.99等。
注意,所提出的方法允許我們?cè)诿總€(gè)整數(shù)位置值之間選擇任意數(shù)量的位置值。例如,在位置值0和1之間,半像素精度使用1個(gè)位置值{0.5},1/4像素精度使用3個(gè)位置值{0.25,0.50,0.75},以及1/8像素精度使用7個(gè)位置值{0.125,0.250,0.375,0.500,0.625,0.750,0.875}。提出的方法允許我們?cè)?和1之間選擇任何N個(gè)位置值。例如,我們可以選擇N=2值諸如0.3和0.6。
所提出的不均勻的亞像素運(yùn)動(dòng)估計(jì)和補(bǔ)償不是必須要應(yīng)用于每個(gè)幀的每個(gè)區(qū)域。相反,可以將某些位引入到頭部中,以指示對(duì)于所述視頻幀的每個(gè)區(qū)域(例如片)其是否被開啟或關(guān)閉。除此之外,其可以在沒有任何語法改變的情況下直接應(yīng)用于現(xiàn)有標(biāo)準(zhǔn),因?yàn)榭梢詰?yīng)用相同的運(yùn)動(dòng)矢量代碼。
采用H.264 JM82軟件對(duì)所提出的不均勻的亞像素運(yùn)動(dòng)估計(jì)和補(bǔ)償進(jìn)行模擬,并且其結(jié)果在以上表格中示出,其中QP代表量化參數(shù)。該模擬在x和y方向中使用位置值(...-1,-0.75,-0.5,-0.15,0,0.15,0.5,0.75,1..)。即,與使用1/4像素空間位置值的標(biāo)準(zhǔn)方法相比較,僅僅修改了在-0.25和+0.25處的位置值。除了使用新的位置值之外,所述算法在其他方面與已知的H.264標(biāo)準(zhǔn)算法相同。如在表中所示出的,第二實(shí)施例在實(shí)現(xiàn)相似的PSNR的同時(shí),明顯地降低了比特率。不需要修改H.264的語法。
盡管以上描述的僅僅是本發(fā)明的幾個(gè)實(shí)施例,在本發(fā)明范圍內(nèi)許多變化都是可能的。
例如,以上給出的本發(fā)明的描述是用于具有一個(gè)參考幀的P幀中的固定大小的塊。然而,本發(fā)明可以應(yīng)用于具有多種子塊大小的塊,并且所述塊不是必須要非重疊的??梢杂幸粋€(gè)以上的參考幀,并且參考幀可以是視頻序列的相對(duì)于當(dāng)前幀的過去或?qū)淼娜魏螇K。
對(duì)于視頻,一個(gè)圖像元素(像素)可以具有一個(gè)或多個(gè)分量,諸如亮度分量、紅色,綠色,藍(lán)色(RGB)分量、YUV分量、YCrCb分量、紅外分量、X光或其它分量。圖像元素的每個(gè)分量是可以表示為數(shù)字的符號(hào),所述數(shù)字可以是自然數(shù)、整數(shù)、實(shí)數(shù)甚至是復(fù)數(shù)。在自然數(shù)的情況下,它們可以是12位,8位,或任何其它位分辨率。雖然在視頻中的像素是具有的矩形采樣網(wǎng)格和均勻采樣周期的2維樣本,但是所述采樣網(wǎng)格不是必須為矩形并且所述采樣周期不是必須為是均勻的。
工業(yè)實(shí)用性本發(fā)明的每個(gè)實(shí)施例適合于由MPEG-1、MPEG-2、MPEG-4、H.261、H.263、H.264、AVS或其他可以被修改以包括以上它的相關(guān)視頻編碼標(biāo)準(zhǔn)或方法的快速、低延遲和低代價(jià)軟件和硬件實(shí)現(xiàn)來實(shí)現(xiàn)。可能的應(yīng)用包括數(shù)字視頻廣播(地面、衛(wèi)星、有線)、數(shù)字照相機(jī)、數(shù)字可攜式攝像機(jī)(camcorder)、數(shù)字錄像機(jī)、機(jī)頂盒、個(gè)人數(shù)字助理(PDA)、可使用多媒體的蜂窩式電話(2.5G、3G及以上)、視頻會(huì)議系統(tǒng)、視頻點(diǎn)播系統(tǒng)、無線局域網(wǎng)設(shè)備、藍(lán)牙應(yīng)用、網(wǎng)絡(luò)服務(wù)器、低或高帶寬應(yīng)用中的視頻流服務(wù)器、視頻代碼轉(zhuǎn)換機(jī)(從一個(gè)格式轉(zhuǎn)換到另一格式)、及其它電視通信系統(tǒng)等。
參考文獻(xiàn)以下參考文獻(xiàn)的公開內(nèi)容于此全面引入[1]Joint Video Team of ITU-T and ISO/lEC JTC 1,“Draft ITU-TRecommendation and Final Draft international Standard of Joint VideoSpecification(ITU-T Rec.H.264|ISO/IEC 14496-10AVC)”,docunmentJVT-G050rl,may 2003[2]A.M.Tourapis,O.C.Au and M.L.Liou,“Predictive MotionVector Field Adaptive Search Technique (PMVFAST)”,ISO/IECJTCl/SC29/WG11 MPEG2000,Noordwijkerhout,ML,March’2000[3]R.LI,B.Zeng and M.L.Liou,“A new three-step searchalgorithm for block motion estimation”,On Circuits and Systems forVideo Technology,Vol4,no4,pp438-42,Aug’94[4]Z.L.He和M.L.Liou,“A high performance fast search algorithmfor block matching motion estimation”,IEEE Trans.on Circuits andSystems for Vld&o 2Technology,vol.7,no5,pp826-8,Oct’97[5]A.M.Tourapis,O.C.Au,and M.L. Liou,“Fast MotionEstimation using Circular Zonal Search”,Proc.of SPIE Sym.Of VisualComm.& Imagg Processin,vol2,pp.1496-1504,Jan.25-27,‘99[6]A,M.Tourapis,O.C.Au,M.L Liou,G.Shen,and I.Ahmad,“Optimizing the Mpeg-4 Encoder-Advanced Diamond Zonal Search”,inPros.of 2000 IEEE Inter.Sym.on Circuits and Systems,Geneva,Switzerland,May,2000[7]K.K.Ma and P.I.Hosur,“Performance Report of Motion VectorField Adaptive Search Technique(MVFAST)”,in ISO/IECJTC1/SC29/WG11 MPEG99/m81,Noordwijkerhout,NL Mar’00[8]A.M.Tourapis,O.C.Au,and M.L.Liou,“Fast Block-MatchingMotion Estimation using Predictive Motion Vector Field Adaptive SearchTechnique(PMVFAST)”,in ISO/IEC/JTC1/SC29/WG11 MPEG2000/M5866,Noordwijkerhout,NL,Mar’00[9]Implementation Study Group,“Experimental conditiohs forevaluating encoder motion estimation algorithms”,in ISO/IEC JTC1/SC29/WG11 MPEG99/n3141,Hawaii,USA,Dec’99[10]“MPEG-4 Optimization Model Version 1.0”,in ISO/IECJTC1/SC29/WG11 MPEG2000/n3324,Noordwijkerhout,NL,Mar’00[11]T,Koga,K.linuma,A.Hirano,Y.lijima,and T.Ishlguro,“Motion compensated interframe coding for video conferencing” Proc.Nat. Telecommun. Conf.,New Orleans,LA,pp. G.5.3.1-G.5.3.5,Dec’81。
J.R.Jain and A.K.Jain,“Displacement measurement and itsapplication in interframe image coding”,JEEE Trans.OnCommunications,vol.COM-29,pp.1799-808,Dec’81[13]JVT reference software JM9.2 for JVT/H.264 FRext
權(quán)利要求
1.一種為第一圖像中一系列像素塊中的每一個(gè)選擇第二圖像的各自的相似像素塊的方法,所述方法包括,根據(jù)對(duì)于每個(gè)候選位置的各自的代價(jià)函數(shù)的值,為所述第一圖像的所述塊的當(dāng)前塊,在所述第二圖像中的多個(gè)候選位置之間進(jìn)行選擇,所述代價(jià)函數(shù)包括(A)在所述第一圖像中的當(dāng)前像素塊與在所述第二圖像中的候選位置處的像素塊之間的相似度測(cè)量,以及(B)與所述候選位置相對(duì)應(yīng)的候選運(yùn)動(dòng)矢量、與所述當(dāng)前塊相關(guān)的預(yù)測(cè)運(yùn)動(dòng)矢量、以及在所述系列塊中在所述當(dāng)前塊之后的所述圖像的至少一個(gè)塊的未來預(yù)測(cè)運(yùn)動(dòng)矢量的函數(shù)。
2.如權(quán)利要求1所述的方法,其中,所述函數(shù)包括第一項(xiàng),其表示對(duì)所述候選運(yùn)動(dòng)矢量進(jìn)行編碼所必需的位數(shù),以及第二項(xiàng),其表示如果將在所述候選位置處的像素塊選擇作為所述第二圖像的相似塊,對(duì)所述未來預(yù)測(cè)運(yùn)動(dòng)矢量進(jìn)行編碼所必需的位數(shù)。
3.一種為按照光柵掃描順序的第一圖像中的一系列像素塊中的每一個(gè)選擇第二圖像的各自的相似像素塊的方法,所述方法包括,為所述第一圖像的所述塊的當(dāng)前塊(i)定義所述當(dāng)前塊的當(dāng)前預(yù)測(cè)運(yùn)動(dòng)矢量;(ii)在所述第二圖像中定義搜索區(qū)域作為所述第二圖像中的多個(gè)候選位置,每個(gè)候選位置與各自的候選運(yùn)動(dòng)矢量(MV)相關(guān)聯(lián),所述候選運(yùn)動(dòng)矢量是所述第二圖像中候選位置與所述第一圖像中當(dāng)前塊的位置之間的相對(duì)位移;(iii)對(duì)于每個(gè)候選運(yùn)動(dòng)矢量以及對(duì)于在所述系列塊中在所述當(dāng)前塊之后的所述第一圖像的至少一個(gè)未來塊(a)定義所述未來塊的未來預(yù)測(cè)運(yùn)動(dòng)矢量;以及(b)計(jì)算代價(jià)函數(shù),其包括(A)在所述第一圖像中的當(dāng)前塊與在所述第二圖像中的候選位置處的塊之間的相似度測(cè)量,以及(B)所述候選運(yùn)動(dòng)矢量、所述當(dāng)前預(yù)測(cè)運(yùn)動(dòng)矢量、以及所述未來預(yù)測(cè)運(yùn)動(dòng)矢量的函數(shù);以及(iv)選擇與具有最低的所計(jì)算代價(jià)函數(shù)的候選位置相對(duì)應(yīng)的相似塊。
4.如權(quán)利要求3所述的方法,其中,所述函數(shù)包括第一項(xiàng),其表示對(duì)所述候選運(yùn)動(dòng)矢量進(jìn)行編碼所必需的位數(shù),以及第二項(xiàng),其表示如果將在所述候選位置處的塊選擇作為所述相似像素塊,對(duì)所述未來預(yù)測(cè)運(yùn)動(dòng)矢量進(jìn)行編碼所必需的位數(shù)。
5.如權(quán)利要求4所述的方法,其中,所述第二項(xiàng)表示對(duì)所述候選運(yùn)動(dòng)矢量與每一個(gè)所述未來預(yù)測(cè)運(yùn)動(dòng)矢量之間差異進(jìn)行編碼所需要的位數(shù)。
6.如權(quán)利要求4所述的方法,其中,所述函數(shù)是根據(jù)加權(quán)參數(shù)的值的所述第一項(xiàng)和所述第二項(xiàng)的加權(quán)和。
7.如權(quán)利要求6所述的方法,其包括得到所述加權(quán)參數(shù)的步驟。
8.如權(quán)利要求3所述的方法,其中,所述當(dāng)前預(yù)測(cè)運(yùn)動(dòng)矢量是所述第一圖像的至少一個(gè)塊的運(yùn)動(dòng)矢量的函數(shù),其中,對(duì)于所述至少一個(gè)塊,已經(jīng)預(yù)先得到了所述第二圖像中的相似塊,并且所述至少一個(gè)塊在空間上鄰近所述當(dāng)前塊。
9.如權(quán)利要求3所述的方法,其中,所述當(dāng)前預(yù)測(cè)運(yùn)動(dòng)矢量是所述第一圖像之外的一個(gè)幀中的與所述當(dāng)前塊相搭配的至少一個(gè)塊的運(yùn)動(dòng)矢量的函數(shù)。
10.如權(quán)利要求3所述的方法,其中,所述當(dāng)前預(yù)測(cè)運(yùn)動(dòng)矢量是幀中除了與所述當(dāng)前塊空間上相鄰的第一幀塊之外的至少一個(gè)塊的運(yùn)動(dòng)矢量的函數(shù)。
11.如權(quán)利要求3所述的方法,其中,在(iii)中的所述未來塊是根據(jù)光柵掃描順序的下一個(gè)塊,并且在(iii)(a)中的所述未來預(yù)測(cè)運(yùn)動(dòng)矢量是所述候選運(yùn)動(dòng)矢量、右上方和右右上方的運(yùn)動(dòng)矢量的中值。
12.如權(quán)利要求11所述的方法,其中,當(dāng)在步驟(iii)中確定所述候選運(yùn)動(dòng)矢量中的第一個(gè)的代價(jià)小于第一閾值時(shí),不計(jì)算余下的所述候選運(yùn)動(dòng)矢量的代價(jià)函數(shù),并且生成與所述第一候選運(yùn)動(dòng)矢量具有預(yù)定義的空間關(guān)系的一組第二候選運(yùn)動(dòng)矢量,并且在步驟(iv)之前,為所述第二候選運(yùn)動(dòng)矢量中的每一個(gè)計(jì)算代價(jià)函數(shù)。
13.如權(quán)利要求12所述的方法,其中,將所述第二候選運(yùn)動(dòng)矢量組選擇為比所述第一候選運(yùn)動(dòng)矢量更接近所述當(dāng)前預(yù)測(cè)運(yùn)動(dòng)矢量,其中,在矢量對(duì)之間距離的測(cè)量是根據(jù)對(duì)所述矢量之間差異進(jìn)行編碼所需要的位數(shù)來定義的。
14.如權(quán)利要求3所述的方法,其中,在步驟(ii)中,所述候選矢量中的至少一個(gè)是根據(jù)所述光柵掃描順序的所述圖像的未來塊的運(yùn)動(dòng)矢量。
15.如權(quán)利要求3所述的方法,其中,在步驟(ii)中,所述候選矢量中的一個(gè)是使用基于使得所選擇的候選矢量與所述當(dāng)前預(yù)測(cè)運(yùn)動(dòng)矢量之間的距離最大化的準(zhǔn)則,而從一組可能的候選矢量中選擇出的。
16.如權(quán)利要求3所述的方法,其中,存在多個(gè)第二圖像,所述多個(gè)候選位置包括每一個(gè)所述第二圖像中的至少一個(gè)候選位置。
17.如權(quán)利要求3所述的方法,其中,所述塊是所述第一圖像的較大區(qū)域的子塊,所述子塊是根據(jù)由編碼數(shù)定義的編碼順序來編碼的。
18.一種用于為第一圖像中的一系列像素塊中的每一個(gè)選擇第二圖像的各自相似的像素塊的系統(tǒng),所述系統(tǒng)包括處理器,所述處理器配置成順序地處理所述第一圖像的塊,并且根據(jù)代價(jià)函數(shù),為所述第一圖像的所述系列塊中的每個(gè)當(dāng)前塊,在所述第二圖像中的多個(gè)候選位置之間進(jìn)行選擇,所述代價(jià)函數(shù)包括(A)在所述第一圖像中的當(dāng)前像素塊與在所述第二圖像中的候選位置處的像素塊之間的相似度測(cè)量,以及(B)與所述候選位置相對(duì)應(yīng)的候選運(yùn)動(dòng)矢量、與所述當(dāng)前塊相關(guān)的預(yù)測(cè)運(yùn)動(dòng)矢量、以及在所述系列塊中在所述當(dāng)前塊之后的所述圖像的至少一個(gè)塊的未來預(yù)測(cè)運(yùn)動(dòng)矢量的函數(shù)。
19.一種計(jì)算機(jī)系統(tǒng)可讀的軟件產(chǎn)品,其使得所述計(jì)算機(jī)系統(tǒng)為第一圖像中的一系列像素塊中的每一個(gè)選擇第二圖像的各自相似的像素塊,這是通過根據(jù)代價(jià)函數(shù),為所述第一圖像的所述系列塊中的當(dāng)前塊而在所述第二圖像中的多個(gè)候選位置之間進(jìn)行選擇來實(shí)現(xiàn)的,所述代價(jià)函數(shù)包括(A)在所述第一圖像中的當(dāng)前像素塊與在所述第二圖像中的候選位置處的像素塊之間的相似度測(cè)量,以及(B)與所述候選位置相對(duì)應(yīng)的候選運(yùn)動(dòng)矢量、與所述當(dāng)前塊相關(guān)的預(yù)測(cè)運(yùn)動(dòng)矢量、以及在所述系列塊中在所述當(dāng)前塊之后的所述圖像的至少一個(gè)塊的未來預(yù)測(cè)運(yùn)動(dòng)矢量的函數(shù)。
20.一種為按照光柵掃描順序的第一圖像中的一系列像素塊中的每一個(gè)選擇第二圖像的各自的相似像素塊的方法,所述方法包括為所述第一圖像的所述塊中的當(dāng)前塊,在所述第二圖像中的多個(gè)候選位置之間根據(jù)每個(gè)候選位置的各自的代價(jià)函數(shù)的值來進(jìn)行選擇,所述候選矢量中的至少一個(gè)是按照光柵掃描順序的所述圖像的未來塊的預(yù)測(cè)運(yùn)動(dòng)矢量。
21.一種為第一圖像中的一系列像素塊中的每一個(gè)選擇第二圖像的各自的相似像素塊的方法,所述方法包括為所述第一圖像的所述塊中的當(dāng)前塊,在所述第二圖像中的多個(gè)候選位置之間根據(jù)每個(gè)候選位置的各自的代價(jià)函數(shù)的值來進(jìn)行選擇,其中,所述候選矢量中的至少一個(gè)是使用基于使得所選擇的候選矢量與所述塊中的所述當(dāng)前塊的當(dāng)前預(yù)測(cè)運(yùn)動(dòng)矢量之間的距離最大化的準(zhǔn)則,而從一組可能的候選矢量中選擇出的。
22.一種為第一圖像中的一系列像素塊中的每一個(gè)選擇第二圖像的各自的相似像素塊的方法,所述方法包括為所述第一圖像的所述塊中的當(dāng)前塊,在所述第二圖像中的多個(gè)候選位置之間根據(jù)每個(gè)候選位置的各自的代價(jià)函數(shù)的值來進(jìn)行選擇,其中,所述第二候選運(yùn)動(dòng)矢量組是通過以下過程來選擇的,所述過程包括定義所述塊中的所述當(dāng)前塊的當(dāng)前預(yù)測(cè)運(yùn)動(dòng);定義第一候選運(yùn)動(dòng)矢量,以及定義一組第二候選運(yùn)動(dòng)矢量,其比所述第一候選運(yùn)動(dòng)矢量更接近所述當(dāng)前預(yù)測(cè)運(yùn)動(dòng)矢量,其中,在矢量對(duì)之間距離的測(cè)量是根據(jù)對(duì)所述矢量之間差異進(jìn)行編碼所需要的位數(shù)來定義的。
23.一種為第一圖像中的一系列像素塊中的每一個(gè)選擇第二圖像的各自的相似像素塊的方法,所述方法包括為所述第一圖像的所述系列塊中當(dāng)前塊,在所述第二圖像中的多個(gè)候選位置之間進(jìn)行選擇,所述多個(gè)候選位置包括由在各自橫向方向上的兩個(gè)位置值所定義的一組候選位置,所述方向中的至少一個(gè)的位置值為使得其無法全部由Lm表示,其中,m是整數(shù),L是常量。
24.如權(quán)利要求23所述的方法,其中,所述候選位置組中的每一個(gè)通過相應(yīng)位置值與各自的運(yùn)動(dòng)矢量相關(guān)聯(lián),所述運(yùn)動(dòng)矢量不同于預(yù)測(cè)運(yùn)動(dòng)矢量。
25.如權(quán)利要求23所述的方法,其中,所述候選位置組中的每一個(gè)通過相應(yīng)位置值與各自的運(yùn)動(dòng)矢量相關(guān)聯(lián),所述運(yùn)動(dòng)矢量不同于(0,0)運(yùn)動(dòng)矢量。
26.一種為第一圖像中的一系列像素塊中的每一個(gè)選擇第二圖像的各自的相似像素塊的方法,所述方法包括為所述第一圖像的所述系列塊中的當(dāng)前塊,在所述第二圖像中的多個(gè)候選位置之間進(jìn)行選擇,所述多個(gè)所述候選位置包括由兩個(gè)位置值所定義的一組候選位置,所述候選位置能夠?qū)懽鱀Amm/n,其中m=-...,2,-1,0,1,2...,n是1或2的冪,D是常量,而對(duì)于m的至少一個(gè)的值而言Am是小于1的值,并且對(duì)于m的所有值而言其是在0.75至1.0的范圍內(nèi)。
27.如權(quán)利要求26所述的方法,其中,所述候選位置組中的每一個(gè)通過相應(yīng)位置值與各自的運(yùn)動(dòng)矢量相關(guān)聯(lián),所述運(yùn)動(dòng)矢量不同于預(yù)測(cè)運(yùn)動(dòng)矢量。
28.如權(quán)利要求26所述的方法,其中,所述候選位置組中的每一個(gè)通過相應(yīng)位置值與各自的運(yùn)動(dòng)矢量相關(guān)聯(lián),所述運(yùn)動(dòng)矢量不同于(0,0)運(yùn)動(dòng)矢量。
29.如權(quán)利要求26所述的方法,其中,對(duì)于m的所有值而言,Am的值至少為0.85。
30.如權(quán)利要求26所述的方法,其中,對(duì)于m<-1以及m>1而言,Am等于1。
31.一種為第一圖像中的一系列像素塊中的每一個(gè)選擇第二圖像的各自的相似像素塊的系統(tǒng),所述系統(tǒng)包括處理器,所述處理器配置為,為所述第一圖像的所述系列塊中當(dāng)前塊,在所述第二圖像中的多個(gè)候選位置之間進(jìn)行選擇,所述多個(gè)候選位置包括由在各自橫向方向上的兩個(gè)位置值所定義的一組候選位置,所述方向中的至少一個(gè)的位置值為使得其無法全部由Lm表示,其中,m是整數(shù),L是常量。
32.一種計(jì)算機(jī)系統(tǒng)可讀的軟件產(chǎn)品,其使得所述計(jì)算機(jī)系統(tǒng)為第一圖像中的一系列像素塊中的每一個(gè)選擇第二圖像的各自的相似像素塊的系統(tǒng),這是通過在所述第二圖像中的多個(gè)候選位置之間進(jìn)行選擇來實(shí)現(xiàn)的,所述多個(gè)候選位置包括由在各自橫向方向上的兩個(gè)位置值所定義的一組候選位置,所述方向中的至少一個(gè)的位置值為使得其無法全部由Lm表示,其中,m是整數(shù),L是常量。
全文摘要
提出了一種方法、系統(tǒng)和軟件,用于獲得與第二圖像(“參考圖像”)的塊相類似的第一圖像的塊。對(duì)第一圖像的塊順序地進(jìn)行處理,為每個(gè)塊得到在第二圖像中的多個(gè)候選位置,并且為每個(gè)候選位置評(píng)估代價(jià)函數(shù)。在第二圖像中的每個(gè)候選位置是由來自第一圖像的塊的各自運(yùn)動(dòng)矢量來替換的。在本發(fā)明的第一方面中,所述代價(jià)函數(shù)是第一圖像的未來塊(即還沒有被處理的第一圖像的塊)的預(yù)測(cè)運(yùn)動(dòng)矢量的函數(shù)。在本發(fā)明第二方面中,所述運(yùn)動(dòng)矢量由位置值給出,所述位置值并非全部是全像素空間、半像素空間、或1/4像素空間的。
文檔編號(hào)H04N7/32GK101090491SQ20061006477
公開日2007年12月19日 申請(qǐng)日期2006年12月15日 優(yōu)先權(quán)日2006年6月16日
發(fā)明者區(qū)子廉, 黃海明 申請(qǐng)人:香港科技大學(xué)