亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

視頻編碼方法

文檔序號:7527879閱讀:310來源:國知局
專利名稱:視頻編碼方法
技術領域
本發(fā)明大體上涉及數(shù)據(jù)壓縮領域,更具體地說,涉及一種適用于劃分成連續(xù)幀組(GOF)的視頻序列的編碼方法,所述幀組本身又劃分成連續(xù)的幀對(COF),幀對(COF)包括參考幀和當前幀,所述方法包括如下步驟(A)應用于每個幀組(GOF)的每個幀對(COF)的運動估計步驟,用于定義所述COF的參考幀和當前幀之間的運動矢量場;(B)應用于每個GOF的運動補償三維(3D)子帶分解步驟,此步驟利用基于所述運動矢量場的運動補償時域分析和空間小波變換來定義至空時子帶的分解;(C)編碼步驟,用于量化和編碼所述空時子帶;(D)控制步驟,用于根據(jù)在所述編碼步驟的輸出上觀測到的緩沖區(qū)狀態(tài)確定比特率分配,以供在所述運動矢量場和所述空時子帶之間共享。
背景技術
盡管網(wǎng)絡帶寬和數(shù)字設備的存儲容量增加迅速,由于多媒體內(nèi)容大小指數(shù)級的增長,視頻壓縮仍然起著必不可少的作用。而且,許多應用不僅需要高壓縮率,而且需要增強的靈活性。例如,非常需要SNR(信噪比)可伸縮性,以便在異種網(wǎng)絡中傳輸視頻;而且,需要空間/時間可伸縮性,以便制作相同的可由不同類型的數(shù)字終端根據(jù)其計算、顯示和存儲能力予以解碼的壓縮視頻位流。
諸如MPEG-4的當前標準已通過額外的高代價層在預測性的基于DCT(離散余弦變換)的框架下實現(xiàn)了有限的可伸縮性?;诳諘r樹分層編碼所采用的3D(三維)小波分解的更有效的解決方案最近已作為靜止圖像編碼技術到視頻編碼技術的擴展提出。對視為3D容積的幀序列的3D或(2D+t)、小波分解提供了自然的空間分辨率和幀速率可伸縮性,而對分層樹中的生成系數(shù)(由于3D方向樹(orientation tree)明確顯示系數(shù)之間的父代-后代依賴關系,所以小波變換生成的系數(shù)構成了分層金字塔,其中定義了空時關系)的深入掃描和逐行位平面(bitplane)編碼技術導致期望的質量伸縮性。因此在編碼效率方面以合理的代價獲得了較高的靈活性。
一些現(xiàn)有實施方案基于該方法。在這種實施方案中,一般將輸入視頻序列分成幀組(GOF),并且本身又劃分成連續(xù)幀對(作為所謂運動補償時間濾波或MCTF模塊的許多輸入)的每個GOF首先進行運動補償(MC),然后進行時間濾波(TF),如圖1所示。對所得的第一時間分解級低頻(L)時間子帶進一步加以濾波(TF),在只剩下兩個時間低頻子帶(根時間子帶)(每個表示GOF的第一半和第二半的時間逼近)時處理停止。在圖1所示的實例中,所示組中的幀用F1至F8表示,并且點線箭頭對應于高通時間濾波,而且其他箭頭對應于低通時間濾波。圖中顯示了三級分解(L和H=第一級;LL和LH=第二級;LLL和LLH=第三級)。在所示8幀組的每個時間分解級上,生成一組運動矢量場(MV4在第一級上,MV3在第二級上,MV2在第三級上)。
當把哈爾(Haar)多分辨率分析用于時間分解時,由于一個運動矢量場是在每個時間分解層次上于所考慮的幀組中的每兩幀之間生成的,所以運動矢量場的數(shù)量等于時間子帶中的幀數(shù)量的一半,即在運動矢量場的第一層次上為四,在第二層次上為二,以及在第三層次上為一。運動估計(ME)和運動補償(MC)只對輸入序列的每兩個幀執(zhí)行,并且源于此MCTF運算的整個時間樹所需的ME/MC運算總次數(shù)基本上與預測方案中的相同。利用這些非常簡單的濾波器,低頻時間子帶表示對輸入幀對的時間平均,而高頻時間子帶包含MCTF步驟之后的殘余誤差。
在這種3D視頻編碼方案中,通常以前向方式執(zhí)行ME/MC運算,即,對幀對(i,i+1)執(zhí)行運動補償,i在朝i+1的運動方向上移位。如圖1的示例所示,如果考慮八幀的輸入GOF和三個連續(xù)時間濾波步驟,時間濾波運算以參考幀和當前幀為輸入(例如F1和F2),并得到低(L)頻子帶和高(H)頻子帶。如上所述,利用哈爾濾波器,低頻子帶提供對輸入幀對的時間平均,而高頻子帶提供運動補償級的殘余誤差。所述運算在兩個后續(xù)幀之間重復,并對每個連續(xù)幀對依此類推,由此得到四個時間低頻子帶。時間濾波運算以類似的方式在下一時間層次上在每個連續(xù)低頻子帶對之間重復,依此類推。因此在最低的時間分辨率層次上,存在兩個分別表示所述GOF和另一GOF的各一半的低頻子帶。但是,時間濾波運算實際執(zhí)行的方式導致幀平均對參考幀有一定偏差,即,低頻子帶包含比當前幀更多的有關參考幀的信息。既然ME/MC運算是向前進行的,相同的移位影響每個時間分解層次并在每半GOF內(nèi)觀察到。
此特性可以通過如下時間濾波等式(1)和(2)來解釋,等式(1)和(2)給出了低頻和高頻子帶的MCTF等式,其中,同時從參考和低頻子帶的坐標中減去運動矢量(A=參考幀;B=當前幀)L(i-mvx,j-mvy)=12[B(i,j)+A(i-mvx,j-mvy)]---(1)]]>H(i,j)=12[B(i,j)-A(i-mvx,j-mvy)]---(2)]]>假設預測誤差為零,令L=A·2.]]>因此,低頻子帶非常類似于參考幀。此外將顯示,由于重建不完美,這些MCTF等式重建的參考幀總是比其重建的當前幀好。
圖2說明與塊匹配ME相結合的MCTF處理。塊邊界(BBY)由水平線繪出。參考幀A中的匹配塊可與相鄰塊重疊。在此情況下,只有該參考幀的子集用于當前幀B中的MC運算,即一些像素被濾去不止一次,而其他像素根本不被濾去這些像素分別稱為雙關聯(lián)像素和無關聯(lián)像素。如果只將運動補償濾波輸出編碼和傳輸,則可以省去一些無關聯(lián)像素(一般約3-5%的像素),它們可能嚴重地影響總的編碼增益和主觀視頻質量。為了減少無關聯(lián)像素的問題,在S.J.Choi和J.W.Woods所著的有關圖像處理的題為“運動補償3D子帶視頻編碼”(“Motion-compensation 3D subband coding of video”,S.J.Choi and J.W.Woods,IEEE Transactions on Image Processing,vol.8,n02,F(xiàn)ebruary 1999,pp.155-167)IEEE論文中提出了一種方法,這種方法的基礎在于將低頻子帶定位到參考幀的位置,而將高頻子帶放到當前幀中的對應位置上(參見等式(1)和(2))。這樣,高頻子帶就具有盡可能小的能量且與無關聯(lián)像素的移位幀差(DFD)值兼容(參見對應于無關聯(lián)像素的MCTF的等式(3)和(4))L(i,j)=22[A(i,j)---(3)]]>H(i,j)=12[B(i,j)-A(i-mvx,j-mvy)]---(4)]]>但此處理并未完全解決無關聯(lián)像素的問題,因為可以證明,在只將視頻比特流部分解碼時,它們?nèi)匀豢赡茉诳諘r樹重建中引起一些擾動。
然后考慮一對低頻子帶和高頻子帶,假定無高頻子帶傳輸小波系數(shù)(H=0)。A(參考幀)和B(當前幀)的重建等式如下A′(i-mvx,j-mvy)=12[L(i-mvx,j-mvy)-H]---(5)]]>B′(i,j)=12[L(i-mvxj-mvy)+H],---(6)]]>變?yōu)锳′(i-mvx,j-mvy)=12[L(i-mvx,j-mvy)]=12[B(i,j)+A(i-mvx,j-mvy)]---(7)]]>B′(i,j)=12[L(i-mvxj-mvy)]=12[B(i,j)+A(i-mvx,j-mvy)]---(8)]]>它們分別對應于不具有解碼高頻子帶中的系數(shù)的重建的參考幀和當前幀。然后,對應的重建由如下等式(9)和(10)給出
|A′-A|(i-mvx,j-mvy)=|12[B(i,j)-A(i-mvxj-mvy)]|=|ϵ2|---(9)]]>|B′-B|(i,j)=|12[A(i-mvxj-mvy)-B(i,j)]|=|ϵ2|---(10)]]>其中,ε是預測誤差。這證明誤差均等地分布在A幀和B幀之間。
但是,對于無關聯(lián)像素,結論并不相同。如下重建等式(11)和(12)A′(i,j)=12L(i,j)---(11)]]>B′(i,j)=-12[L(i-mvx,j-mvy)+H]---(12)]]>在H=0時變?yōu)锳′(i,j)=A(i,j) (13)B′(i,j)=12[L(i-mvx,j-mvy)]---(14)]]>由這兩個等式,在有重建誤差的條件下,對于不具有解碼高頻子帶中的系數(shù)的參考幀和當前幀的無關聯(lián)像素,得到如下等式(15)和(16)|A′-A|(i,j)=0 (15)|B′-B|(i,j)=-ϵ2---(16)]]>在此情況下,誤差完全放在當前幀上。由于級聯(lián)的前向ME/MC,所述誤差在時間樹內(nèi)深度傳播,導致每一半GOF內(nèi)的質量下降并導致一些惱人的可見效果。
此種漂移在(2D+t)視頻編碼方案中成了一個實在的問題,因為均衡的時間分解是對小波系數(shù)進行高效編碼的先決條件(根子帶的系數(shù)在最高層次有后代,數(shù)據(jù)壓縮假設為相同線的系數(shù)具有類似的特征)。
而且,在3D子帶編碼方法中,所述參考幀和當前幀((ref,cur)對)之間的時間距離隨時間層次增加而增加。如果兩個連續(xù)幀之間的時間距離視為等于1,則如果該兩個連續(xù)幀之間有一幀該距離就等于2,如此類推。正如上述,既然低頻時間子帶非常接近輸入?yún)⒖紟?,可以認為低頻時間子帶與其參考幀位于相同時刻,因此,時間距離概念可以簡單地擴展到低頻時間子帶上。根據(jù)這一論述,可以估計每個時間分辨率層次上各幀(或子帶)之間的時間距離。如圖3所示,對于前向方案,在時間分辨率層次n≥1上,幀之間的距離等于2n。有許多因數(shù)影響運動補償質量,但其中最重要的一個因數(shù)正是幀之間的距離。如果所述距離很小,則可預計各幀類似并且ME/MC更有效,而當要進行運動補償?shù)膸嚯x其參考幀非常遠時,殘留圖像(高頻子帶)的誤差能量仍然很高。因而在此情況中,對所述殘留圖像系數(shù)的解碼代價很大。如果在獲得完美的重建之前停止編碼運算(在針對任意一種比特率的可伸縮方案中這時常會發(fā)生),則高頻子帶非常可能包含某些假像,使重建的視頻劣化。

發(fā)明內(nèi)容
因此,本發(fā)明的目的在于提出一種至少使導致這些假像的移位減少的視頻編碼方法。
為此,本發(fā)明涉及一種如本說明書中前言部分所定義的視頻編碼方法,所述方法的特征還在于運動估計步驟的方向可以根據(jù)所關注的GOF中考慮的幀對加以修改。
在所述編碼方法的有利的實施方案中,運動估計步驟的方向對任何所關注的GOF的連續(xù)幀對交替為后向和前向。
此方法為時間分解更深層次上的ME/MC提供更靠近的參考幀和當前幀對,并導致在每個時間分辨率層次上對GOF作更均衡的時間逼近。因此得以在時間子帶之間更好地重新分配比特預算,從而提高針對整個GOF的全局效率。尤其是在低比特率上提高了重建視頻序列的總質量。
在所述編碼方法的另一實施方案中,對任何關注的GOF的連續(xù)幀對的運動估計步驟的方向是根據(jù)一種可任意修改的方案來選擇的在這種可任意修改的方案中,所述運動估計和補償運算集中在根據(jù)能量準則選擇的有限數(shù)量的所述幀對上。
通過決定支持GOF內(nèi)的一些幀而損害其余幀,此方法允許在特定的時間范圍內(nèi)提高編碼效率。


現(xiàn)將參照附圖對本發(fā)明作更詳細的描述,附圖中圖1顯示了使用運動補償?shù)臅r間子帶分解;圖2說明無關聯(lián)和雙關聯(lián)像素的問題;圖3說明在GOF內(nèi)執(zhí)行運動補償?shù)某R?guī)方法;圖4說明本發(fā)明第一實施方案中執(zhí)行運動補償?shù)母倪M方法;圖5說明圖3和圖4的解決方案之間的比較;圖6說明本發(fā)明第二實施方案中執(zhí)行運動補償?shù)牧硪环N改進方法。
詳細說明雖然在上述3D視頻編碼方案(參照圖3)中,以前向方式執(zhí)行ME/MC運算,但現(xiàn)在根據(jù)本發(fā)明建議,根據(jù)所考慮的幀對修改運動估計的方向。例如,在第一種有利實施方案中,建議使GOF內(nèi)的連續(xù)幀對的運動估計方向交替,如圖4所示,以后向開始。此技術解決方案允許在更深的時間層次(n>1)上使用更靠近的幀對在時間層次n=1上,一對幀的兩個幀之間的距離隨后減為1而非標準情況中的2;在時間層次n=2上,此距離減為3而非4,依此對如下時間層次類推。更一般的方式為,為使運動估計方向交替導致如下等式 其中,n是時間分解層次,d幀內(nèi)表示GOF內(nèi)的幀內(nèi)時間距離或(ref,cur)對距離,而d幀間表示幀單位數(shù)量中兩個連續(xù)幀對之間的幀間時間距離。
利用這種解決方案,最低頻率時間子帶移向GOF中間,促成更均衡的時間分解。由無關聯(lián)像素引起的質量劣化仍然存在,但對連續(xù)時間層次不再具有累積性。在3D子帶視頻壓縮方案中使用這種改進的ME/MC可使編碼效率在低比特率條件下顯著提高,如圖5所示,其中顯示了在本發(fā)明情況(情況PA)下,在(眾所周知的Foreman序列上測得的)GOF內(nèi)PSNR(峰值信號/噪聲比)相對于幀索引FI的典型(平均)演變曲線與純前向MC情況(情況PB)的比較。平均質量增益大約為1dB(分貝),與純前向曲線相比,質量更好地在整個GOF內(nèi)均分??梢宰⒁獾?,質量最高的幀是其對應的低頻子帶在下一時間層次上作為參考幀重用的那些幀。這并不令人驚訝,因為當解碼過程在比特流終止之前停止時,對參考子帶/幀的重建總是優(yōu)于對高頻子帶的重建。此交替ME/MC方案確保在每個時間層次上使用可用的質量最佳的參考幀。
但是,在考慮這樣的幀序列抽取部分時,即其中第一部分(例如第一GOF)包含大量運動(例如由于攝像機搖攝),而所述抽取部分(例如顯示為一幢房屋)的第二部分(例如第二GOF)幾乎沒有什么運動,則可以得到如下評述。在低比特率條件下,因運動程度高而無法將抽取部分的第一部分(第一GOF)正確編碼視覺上,重建的視頻包含由塊匹配ME和粗劣的錯誤編碼引起的許多非常惱人的塊假像(只可以非常高的比特率來消除這些假像)。因此可以建議根據(jù)運動內(nèi)容改變運動估計方向。但是,如果所考慮的序列是用標準的前向方案或使用交替方案來編碼的,則第一GOF(此第一GOF包含大量運動,但所述運動在GOF結尾停止,因此所述結尾是靜止的)的結尾與第二GOF(完全靜止)中的類似幀相比具有較差的質量。第一GOF的結尾的這些“靜止”幀的問題在于,它們聚集在具有一些包含大量運動的在前幀的相同GOF中。
因此可以根據(jù)能量準則建議將ME和MC運算集中在這樣的連續(xù)幀上,即在第一GOF的所述結尾處其相似度相當高(因為它們是靜止的)的連續(xù)幀上,并“犧牲”無論如何都無法以好的質量編碼(因為最大比特率不夠用)的中間幀。此解決方案的實現(xiàn)如圖6所示。的確可以觀察到,在將此策略與前述策略比較(或比較這些不同的情形中重建幀的質量)時,的確提高了第一GOF的最后靜止幀的質量,而損害相同的第一GOF中在前的幀。既然此基于內(nèi)容的ME/MC方向策略證明在編碼效率和可視質量方面帶來改善,因此所關心的是能夠決定哪一種ME/MC方案最適合當前的GOF。為就此進行評估,例如可以選擇能量準則,即一種基于包含在從分解過程獲得的高頻時間濾波子帶中的能量數(shù)量的準則。
權利要求
1.一種適用于劃分成連續(xù)幀組(GOF)的視頻序列的編碼方法,所述幀組本身又劃分成連續(xù)的幀對(COF),所述幀對包括參考幀和當前幀,所述方法包括如下步驟(A)應用于每個幀組(GOF)的每個幀對(COF)的運動估計步驟,用于定義所述COF的參考幀和當前幀之間的運動矢量場;(B)應用于每個GOF的運動補償三維子帶分解步驟,此步驟利用基于所述運動矢量場的運動補償時域分析和空間小波變換來定義至空時子帶的分解;(C)編碼步驟,用于量化和編碼所述空時子帶;(D)控制步驟,用于根據(jù)在所述編碼步驟的輸出上觀測到的緩沖區(qū)狀態(tài)確定比特率分配,以供在所述運動矢量場和所述空時子帶之間共享;所述方法的特征還在于所述運動估計步驟的方向是根據(jù)所述關注的GOF中所考慮的幀對來修改的。
2.如權利要求1所述的編碼方法,其特征在于,所述運動估計步驟的方向對任何關注的GOF的連續(xù)幀對而言交替為后向和前向。
3.如權利要求1所述的編碼方法,其特征在于,對任何關注的GOF的連續(xù)幀對的所述運動估計步驟的方向是根據(jù)一種可任意修改的方案來選擇的在這種可任意修改的方案中,所述運動估計和補償運算集中在根據(jù)能量準則選擇的有限數(shù)量的所述幀對上。
全文摘要
本發(fā)明涉及適用于劃分成連續(xù)幀組(GOF)的視頻序列的編碼方法,所述幀組本身又劃分成連續(xù)的幀對(COF),所述方法包括應用于每個幀對(COF)的運動估計步驟;應用于每個GOF的運動補償三維(3D)子帶分解步驟,此步驟利用基于所述運動矢量場的運動補償時域分析和空間小波變換來定義至空時子帶的分解;用于量化和編碼所述空時子帶的編碼步驟及控制步驟。根據(jù)本發(fā)明,對任何關注的GOF的連續(xù)幀對的運動估計步驟的方向是根據(jù)如下方案選擇的該方案最好是一種針對連續(xù)幀對的交替方案,或者是一種任意修改的方案,在這種任意修改的方案中,運動估計和補償運算集中在根據(jù)能量準則選擇的有限數(shù)量的所述連續(xù)幀對上。
文檔編號H03M7/36GK1611079SQ02826357
公開日2005年4月27日 申請日期2002年12月20日 優(yōu)先權日2001年12月28日
發(fā)明者M·貝內(nèi)蒂埃雷, V·博特雷奧, N·普瓦松 申請人:皇家飛利浦電子股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1