專利名稱:視頻編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻編碼。
近年來,開發(fā)了一種用于視頻編碼的新的ITU-T技術(shù)規(guī)范——H.26L,它已經(jīng)被廣泛公認為提供了與現(xiàn)有的標準相比更高的編碼效率(“對多達50%的更少的比特有相同的信噪比”)。盡管H.26L的增益通常與圖像尺寸成比例地降低,但其在大范圍的應(yīng)用中的發(fā)展?jié)摿κ呛翢o疑問的。該潛力已經(jīng)通過所謂的聯(lián)合視頻組(“JVT”)的形成而被認知,它具有將H.26L最終定案為一個新的聯(lián)合ITU-T/MPEG工業(yè)標準的任務(wù)。該新的標準預(yù)期在2003年被正式認可為ITU-T H.264或ISO/IEC MPEG-4AVC(高級視頻編碼)。與此同時,基于H.264的解決方案在其他標準化主體中被考慮,比如DVB、DVD論壇和藍光(Blu-ray)盤協(xié)會,同時H.264編碼器/解碼器的SW/HW實現(xiàn)已經(jīng)可以獲得。H.264的發(fā)展反映在公共可訪問的JVT文獻中,像2002年8月10日產(chǎn)生的“Joint Final Committee Draft(JFCD)of Joint VideoSpecification(聯(lián)合視頻技術(shù)規(guī)范的聯(lián)合最終委員會草案)(ITU-TRec.H.264|ISO/IEC 14496-10AVC)”JVT-D157中。
H.264使用與從已經(jīng)確立的標準(比如MPEG-2)中得知的基于塊的運動補償?shù)幕旌献儞Q編碼相同的原理。因此,H.264語法被組織為常用的諸如圖像報頭、片報頭和宏塊報頭的報頭分層結(jié)構(gòu)以及諸如運動矢量、塊變換系數(shù)、量化器尺度等數(shù)據(jù)。然而,在報頭層和數(shù)據(jù)層都引入了新的語法和編碼方法。H.264的一些主要特性的簡要總結(jié)在下文中給出。用于理解本發(fā)明的最相關(guān)特性隨后在各單獨的部分中更詳細地解釋,其中采用JVT-D157作為參考。表示H.264編碼和解碼的典型的框圖在
圖1和2中給出,其中“ME”是運動估計單元,“MC”是運動補償單元,“Q”是量化單元,“Q-1”是逆量化單元,“T”是變換單元,“T-1”是逆變換單元,“Filter(濾波器)”是去分塊濾波器,“F1-i”是用于幀間預(yù)測的第i參考圖像,并且“NAL”是一個網(wǎng)絡(luò)提取層。
H.264分離視頻編碼層(“VCL”)和網(wǎng)絡(luò)提取層,該視頻編碼層(“VCL”)被限定為有效表示視頻數(shù)據(jù)的內(nèi)容,該網(wǎng)絡(luò)提取層格式化數(shù)據(jù)并以適合于由高等級系統(tǒng)傳送的方式提供報頭信息。H.264在視頻數(shù)據(jù)層的主要特性之一是使用對16×16宏塊的更精細的分割和操縱。在H.264中,使用一個采樣格柵的四分之一或八分之一的運動矢量精度,運動補償處理能夠形成尺寸像4×4那么小的宏塊分割。用于樣本塊的運動補償預(yù)測的參考選擇處理也能夠包含多個先前存儲的解碼后的圖像,而不僅僅是相鄰的圖像。即使使用幀內(nèi)編碼,仍有可能用先前解碼后的樣本來形成一個塊預(yù)測,在那種情況下是從相同的圖像形成。對于該基于空間的預(yù)測的規(guī)則由所謂的幀內(nèi)預(yù)測模式說明。在基于運動補償或基于空間的預(yù)測之后,所產(chǎn)生的預(yù)測誤差通常基于4×4的塊尺寸被變換和量化,而不是用傳統(tǒng)的8×8塊尺寸。已經(jīng)考慮了稱為自適應(yīng)塊變換的附加措施,其允許使用多個變換來匹配預(yù)測塊的可能尺寸。但是,還不清楚該工具是否將被包括在最終的H.264規(guī)范中。H.264也在其他編碼級中使用新概念。例如,H.264脫離對DCT(離散余弦變換)的使用,其用在諸如MPEG-2的先前的標準中。它也對諸如熵編碼或VLC(可變長編碼)、量化等規(guī)定了不同的規(guī)則和設(shè)計。但是,與前面解釋的概念相對照,這些概念中的大部分只允許固定的實現(xiàn)方式,并由不能在序列級、GOP級或圖像級以下建立的語法單元進行描述。
運動補償大多數(shù)已建立的視頻編碼標準(例如MPEG-2)使用基于塊的運動補償作為利用視頻中連續(xù)圖像之間的相關(guān)性的實用方法。該方法試圖通過相鄰參考圖像中的其“最佳匹配”來預(yù)測特定圖像中的每個宏塊。該預(yù)測通常只使用16×16亮度塊執(zhí)行,并且其結(jié)果接著也應(yīng)用到對應(yīng)的色度像素。如果宏塊和其預(yù)測之間的像素方面的差異足夠小,則對預(yù)測誤差(即宏塊和其預(yù)測之間的差)進行編碼,而不是對宏塊本身進行編碼。預(yù)測塊關(guān)于實際宏塊的坐標的相對位移由運動矢量表示,運動矢量被單獨編碼。圖3說明了雙向預(yù)測的情況,其中使用兩個參考圖像,一個圖像在過去,一個圖像在將來。以這種方式預(yù)測的圖像稱為B圖像。否則,只從過去圖像預(yù)測的圖像稱為P圖像。B圖像中的每個宏塊能夠從來自過去P圖像的一個塊或來自將來P圖像的一個塊預(yù)測,或通過對各來自不同的P圖像的兩個塊進行平均來預(yù)測。由H.264提供的大部分比特率節(jié)省能夠?qū)嶋H上歸結(jié)于改進的運動補償方法。這將在以下各子部分中更詳細地解釋。
-多預(yù)測塊尺寸在H.264中,可變塊尺寸能夠用于宏塊的幀間預(yù)測,即時間預(yù)測。因此,一個宏塊能夠分為多個較小的塊,并且每個這種子塊能夠被單獨預(yù)測(預(yù)測仍然只對亮度塊執(zhí)行)。因此,不同的子塊能夠具有不同的運動矢量,并且甚至能夠從不同的參考圖像獲取(見下文)。預(yù)測塊的數(shù)量、尺寸和指向由對幀間預(yù)測模式的限定而唯一地確定,幀間預(yù)測模式說明了把一個宏塊分為8×8子塊的可能劃分以及對其每個8×8子塊的進一步劃分。這也在圖4中示出。H.264語法包括諸如mb_type和sub_mb_type之類的單元以向解碼器指出哪種劃分已經(jīng)用于對特定宏塊的幀間預(yù)測。這在JVT-D157中的7.4.5節(jié)(表7-12,7-13,7-16,7-17)中更詳細地解釋。
-多參考圖像在H.264中,用于特定宏塊的幀間預(yù)測能夠也通過采用來自更遠的先前解碼的將來或過去圖像的塊,而不僅僅采用相鄰圖像的塊形成。這稱為多參考圖像,并在圖5中說明。對宏塊(見先前部分)中一個子塊的預(yù)測的特定參考圖像的選擇由語法單元ref_idx_10和ref_idx_11的值在比特流中表示,見JVT-D157的7.4.5.1節(jié)。
去分塊濾波器在H.264中,條件濾波被應(yīng)用到一幅圖像的所有宏塊。作為第一步,對于亮度,4×4光柵的4個垂直邊緣的16個樣本應(yīng)當由左邊緣開始被濾波,如圖6所示。對4個水平邊緣的濾波(垂直濾波)以相同的方式跟在后面,由頂部邊緣開始。除了8個樣本的2個邊緣各在每個方向上被濾波之外,相同的排序適用于色度濾波。對于相鄰的4×4亮度塊之間的每個邊界,分配一個“邊界強度”Bs。如果Bs=0,對該特定邊緣,濾波被跳過。在所有其他情況下,濾波取決于局部樣本屬性和用于該特定邊界段的Bs值,見JVT-D157的8.7節(jié)。幾個語法單元用于表示在比特流中是否應(yīng)當將去分塊濾波器應(yīng)用到由當前片內(nèi)的宏塊控制的邊緣以及表示使用哪些參數(shù)。這樣的單元例如是disable_deblocking_filter_flag和slice_alpha_c0_offset_div2,見JVT-D157的7.4.3節(jié)。
自適應(yīng)塊變換在H.264中,殘留編碼默認地使用一個4×4整數(shù)變換來執(zhí)行,這與用在MPEG-2中的DCT(離散余弦變換)類似,但與其不兼容。因此,預(yù)測誤差(即宏塊和其預(yù)測之間的像素方面的差異)被分成16個亮度4×4塊和8個色度4×4塊,如圖7所示。在該變換后,對于每個4×4塊獲得一個DC系數(shù),這給出了用于亮度的16個DC系數(shù)和用于每個色度分量的4個DC系數(shù)。色度DC系數(shù)接著被分組并使用另一個2×2變換被再次變換。在近來的H.264草案中,除了默認的4×4變換,已經(jīng)規(guī)定了尺寸為4×8、8×4和8×8的變換。該特征稱為自適應(yīng)塊變換(ABT)并適用于亮度殘留(因此色度殘留編碼處理與以上描述的相同)。ABT的使用在比特流中由一個參數(shù)表示,它稱為adaptive_block_size_transform_flag,見JVT-D157的12節(jié)。在幀間編碼的情況下,特定變換尺寸的大小將與用于預(yù)測的塊尺寸一致(見上文)。對于幀內(nèi)宏塊,用于幀內(nèi)預(yù)測的塊尺寸連接到變換的塊尺寸。圖8中示出了在使用ABT特征的情況下用于從將一個宏塊編碼到宏塊的各子塊而產(chǎn)生的亮度的語法單元的分配次序。一個8×8塊可以包含1、2或4個變換塊。關(guān)于8×8塊包含系數(shù)的指示意味著所述8×8變換塊或在8×8塊內(nèi)的2或4個變換塊中的一個或多個包含系數(shù)。更多關(guān)于ABT的語法和語義的細節(jié)能夠在JVT-D157的12節(jié)中找到。
開發(fā)H.264的主要目的之一是響應(yīng)于諸如視頻會議、因特網(wǎng)流送和通信等應(yīng)用對移動圖像的高得多的壓縮的增長需求。因此,H.264包括幾個適合于這種應(yīng)用的特性(即較小圖像格式和低比特率)的編碼工具,但是隨著圖像尺寸越大,效率越低。這也由高清晰度(HD)視頻的試驗所證實,其中一般觀察到,在所有特征H.264編碼工具都被啟用時,在一個特定點,比特率的增加不給出圖像質(zhì)量的成比例的增加。換句話說,盡管某些H.264編碼工具在非常低的比特率下實現(xiàn)良好的圖像質(zhì)量是可靠的,但是它們在較高比特率下看起來貢獻較小,甚至?xí)砀蓴_。如在去分塊濾波的情況下,H.264語法允許特定編碼工具的有條件操作。但是,在實際的自動編碼中,這些條件由局部低級別計算確定,這些計算通常試圖將比特率最小化,而不保持圖像質(zhì)量。這表示典型的H.264操作對于比特率限制不需要太嚴的應(yīng)用可能是不足夠的,但實際上透明的圖像質(zhì)量應(yīng)當能夠?qū)崿F(xiàn)。這樣的一種應(yīng)用是在諸如藍光盤(25GB,0.1mm覆蓋層)或藍DVD(15GB,0.6mm覆蓋層)的具有高存儲容量的盤上的分發(fā)HD電影。在該應(yīng)用范圍中,H.264的一個特別相關(guān)的問題在于它傾向于消除膠片顆粒(filmgrain),即使在使用典型的H.264編碼設(shè)置的情況下,在比特率顯著增加時該效果也幾乎不降低。膠片顆粒指的是(稍稍可視的)噪聲,該噪聲由于記錄設(shè)備和環(huán)境的缺陷而被引入膠片中,但是它已經(jīng)變得很普通,從而一般是可預(yù)期的并通常甚至由導(dǎo)演優(yōu)選地作為一個用于實現(xiàn)自然的“膠片質(zhì)感(film look)”的手段。
本發(fā)明的一個目的是為給定編碼標準的較高比特率提供更好的質(zhì)量。為此,本發(fā)明提供如在各獨立權(quán)利要求中所限定的一種編碼方法、一種編碼器、一種已編碼比特流、一種記錄載體和一種解碼器。各有利實施例在從屬權(quán)利要求中限定。
按照本發(fā)明的第一方面,在一個給定的操作模式中,所述編碼禁用由給定編碼標準提供的一些工具,其中所禁用的工具的標識被包括在比特流中,所禁用工具是下面一組中的一個或多個-圖像或圖像部分的雙向預(yù)測編碼,-對去分塊濾波器的使用,-對多于一個參考圖像的使用。
通過提供所禁用工具的標識,編碼器發(fā)信號通知解碼器禁用工具沒有被使用。在這種情況下,編碼標準提供能夠用于指示所禁用工具的參數(shù)或指示符,能夠?qū)崿F(xiàn)使編碼后的比特流保持與該標準兼容。
優(yōu)選地,給定的操作模式是一個簡檔。簡檔規(guī)定需要解碼該編碼后的數(shù)據(jù)的能力,即可以由編碼器使用或不可由其使用的工具以及從而是對比特流語法上的限制。簡檔一般在諸如一個電影的一段已編碼視頻內(nèi)容中是不變的。
在一個優(yōu)選實施例中,啟用自適應(yīng)塊變換。
本發(fā)明的各實施例是關(guān)于H.264標準進行描述的,但是本發(fā)明也可以應(yīng)用到其他編碼標準。
現(xiàn)在將進一步參照附圖解釋本發(fā)明的各實施例,其中圖1示出了一個現(xiàn)有技術(shù)H.264編碼器的框圖;圖2示出了一個現(xiàn)有技術(shù)H.264解碼器的框圖;圖3說明了雙向預(yù)測的情況,其中使用兩個參考圖像,一個在過去,一個在將來;圖4說明了在H.264中將宏塊劃分成8×8子塊的可能劃分以及對其每個8×8子塊的進一步的劃分;圖5示出了在雙向預(yù)測的情況下H.264中的多參考圖像預(yù)測的圖示;圖6說明了如何沿著一個宏塊的幾個邊界并在其子塊內(nèi)應(yīng)用去分塊濾波;圖7示出了H.264中的4×4殘留編碼次序的圖示;圖8示出了CBPY(已編碼的塊圖案)的塊排序和ABT塊的亮度殘留編碼;和圖9示出了一段原始的內(nèi)容,圖9B和9C示出了參考編碼器(9B)和本發(fā)明的一個優(yōu)選實施例(9C)的結(jié)果的比較。
按照本發(fā)明的一個實施例,提出了H.264的HQ-HD簡檔,它能夠用于高質(zhì)量(實質(zhì)上透明的)HD視頻壓縮,這意圖用于諸如在像“藍光盤”的高容量數(shù)字載體上出版HD電影的應(yīng)用。在很多可能的和由H.264標準允許的工具中,只有一個非常特定的組合使得有可能以相對較高的比特率實現(xiàn)實質(zhì)上透明的HDTV圖像質(zhì)量。該簡檔通過選擇性地排除幾個標準H.264編碼工具或模式來獲得,發(fā)明人已經(jīng)發(fā)現(xiàn)這些編碼工具或模式對于在更高比特率下保持實質(zhì)上透明的圖像質(zhì)量沒有貢獻甚至產(chǎn)生干擾。該排除能夠通過強迫或限制用于幾個H.264語法單元的特定值而容易地在H.264比特流中表示。H.264的這種限制的好處不僅在于它將在使用H.264的同時建立用于達到透明的圖像質(zhì)量的獨特條件,還在于它將使得能夠構(gòu)造用于此目的的較不復(fù)雜的H.264編碼器和解碼器。在該實施例中,標準編碼工具的以下強制排除/限制將唯一地定義一個簡檔-排除B圖像/B片(JVT-D157的10節(jié))-排除去分塊濾波器(JVT-D157的1.2.3節(jié))-排除小于8×8的用于幀間預(yù)測的至少一個塊尺寸(JVT-D157的1.2.2.1節(jié))-將要被用于預(yù)測的參考圖像的數(shù)量限制為1(JVT-D157的1.2.2.2節(jié))盡管在JVT-D157中描述了ABT(見12.4節(jié)),但是考慮將它從最終的H.264規(guī)范中排除。然而,在本發(fā)明的一個優(yōu)選實施例中,ABT被包括在H.264的該HQ-HD簡檔中。
除了禁用標準H.264編碼工具和模式外,發(fā)明人推薦不實施H.264中的任何種類的速率-失真優(yōu)化,比如在H.264編碼器的JVT測試軟件中實施的編碼器速率-失真優(yōu)化。
本發(fā)明的各實施例能夠直接在標準編碼器中實施,比如圖1所示的H.264編碼器。而且,因為對于編碼器來說不需要能夠使用所禁用的工具(例如,用于另一個操作模式),所以有可能向一個簡單的解碼器提供與一些裝置相組合的精簡的工具組,從而在比特流中包括正確的參數(shù)以標識所禁用的工具。就所禁用的工具涉及由標準提供一個指示該工具沒有被使用的指示符的工具而言,該簡單的編碼器提供一個兼容的比特流。
實際實施例以下對H.264工具的有選擇的使用能夠提供在~15Mbs的比特率下的幾乎透明的質(zhì)量
表I
自適應(yīng)塊變換的使用是優(yōu)選的。
圖9B和9C示出了參考(9B)和優(yōu)選實施例(9C)的比較,這表示優(yōu)選實施例導(dǎo)致質(zhì)量顯著提高。圖9A表示原始的內(nèi)容段。
應(yīng)當注意到,以上提到的實施例說明而不是限制本發(fā)明,并且本領(lǐng)域技術(shù)人員將能夠在不脫離本發(fā)明所附權(quán)利要求書的范圍的條件下設(shè)計很多替換的實施例。在權(quán)利要求書中,放在括號之間的任意附圖標記不應(yīng)當被理解為對權(quán)利要求的限制。詞語‘包括’不禁止與列在權(quán)利要求中的不同的那些元件或步驟的存在。本發(fā)明能夠借助于包括幾個不同元件的硬件實現(xiàn),以及借助于適當編程的計算機實現(xiàn)。在一個列舉幾個裝置的設(shè)備權(quán)利要求中,這些裝置中的幾個能夠由同一硬件項實現(xiàn)。特定措施在互相不同的幾個從屬權(quán)利要求中列出的事實不表示這些措施的組合不能被育利地使用。
權(quán)利要求
1.一種按照一個預(yù)定義的標準編碼視頻信號的方法,其中在一個給定的操作模式中,由該預(yù)定義的標準提供的工具中的一些工具被禁用,并且其中所禁用工具的標識被包括在比特流中,所述所禁用工具是下面一組中的一個或多個-圖像或圖像部分的雙向預(yù)測編碼,-對去分塊濾波器的使用,-對多于一個參考圖像的使用。
2.如權(quán)利要求1所要求保護的方法,其中所述給定的操作模式是一個簡檔。
3.如權(quán)利要求2所要求保護的方法,其中所述簡檔用于編碼諸如高清晰度電影的高清晰度視頻內(nèi)容。
4.如前述任一個權(quán)利要求所要求保護的方法,其中雙向預(yù)測編碼的圖像和/或片被禁用,去分塊濾波器被禁用,并且至少一個小于8×8像素的用于幀間預(yù)測的塊尺寸被排除,以及將用于預(yù)測的參考圖像的數(shù)量限制為1。
5.如權(quán)利要求4所要求保護的方法,其中所有小于8×8像素的用于幀間預(yù)測的塊尺寸都被排除。
6.如前述任一個權(quán)利要求所要求保護的方法,其中所述編碼不使用速率-失真優(yōu)化。
7.如前述任一個權(quán)利要求所要求保護的方法,其中使用自適應(yīng)塊尺寸變換。
8.如前述任一個權(quán)利要求所要求保護的方法,其中圖像組的長度固定為12。
9.如前述任一個權(quán)利要求所要求保護的方法,其中所述編碼按照H.264標準執(zhí)行。
10.一種編碼器,包括用于按照一個預(yù)定義的標準編碼視頻信號的裝置,其中在一個給定操作模式下,由該預(yù)定義標準提供的工具中的一些工具被禁用,用于在比特流中包括所禁用工具的標識的裝置,所述所禁用工具是下面一組中的一個或多個-圖像或圖像部分的雙向預(yù)測編碼,-對去分塊濾波器的使用,-對多于一個參考圖像的使用。
11.一種表示視頻信號的已編碼比特流,該比特流包括一個所禁用工具的標識,所述所禁用工具在對該已編碼比特流進行編碼時被禁用,所述所禁用工具是下面一組中的一個或多個-圖像或圖像部分的雙向預(yù)測編碼,-對去分塊濾波器的使用,-對多于一個參考圖像的使用。
12.一種其中存儲了如權(quán)利要求11所要求的已編碼比特流的記錄載體。
13.一種用于解碼如權(quán)利要求11所要求保護的已編碼比特流的解碼器,其中該解碼器符合一個預(yù)定義的標準,除了它被限制為不提供所述所禁用工具之外。
全文摘要
按照一個預(yù)定義標準提供對視頻信號的編碼,其中在一個給定的操作模式中,由該預(yù)定義標準提供的工具中的一些工具被禁用,并且其中所禁用工具的標識包括在比特流中,所述所禁用工具是下面一組中的一個或多個圖像或圖像部分的雙向預(yù)測編碼,對去分塊濾波器的使用,對多于一個參考圖像的使用。
文檔編號H04N7/36GK1739298SQ200480002435
公開日2006年2月22日 申請日期2004年1月19日 優(yōu)先權(quán)日2003年1月20日
發(fā)明者D·布拉澤羅維, W·H·A·布魯斯 申請人:皇家飛利浦電子股份有限公司