分層視頻編碼的等級信令的制作方法
【專利摘要】公開了確定分層比特流中的等級id以使相同等級id可用于可分級比特流的所有層的技術。還公開了信令可指示比用于分層比特流的等級id更低的計算要求的子比特流的等級id的技術。
【專利說明】分層視頻編碼的等級信令
[0001]說明
[0002]相關申請的交叉引用
[0003]本申請要求2012 年 4 月 6 日提交的題為 “Level signaling for layered videocoding (分層視頻編碼的等級信令)”的美國序列號N0.61/621,093的優(yōu)先權,該文獻的公開通過引用全部結合至此。
【技術領域】
[0004]所公開的主題涉及視頻編碼,更特定地,涉及與分層比特流中的等級或要求的解碼器容量的其它指示的信令關聯(lián)的信息表示。
【背景技術】
[0005]視頻編碼是指其中一系列未經壓縮的圖像被轉換成壓縮的視頻比特流的技術。視頻解碼是指相反過程。存在許多標準指定了圖像和視頻解碼操作的技術,例如ITU-T Rec.H.264 “用于通用視聽服務的先進視頻編碼”03/2010,可從瑞士 CH-1211日內瓦20,Placede Nat1n 的國際電信聯(lián)盟(ITU)或 http://www.1tu.1nt/rec/T-REC~H.264 獲得,并通過引用全部結合至此,或者高效率視頻編碼(HEVC) (B.B1ss等人(“高效率視頻編碼(HEVC)文本規(guī)范草案 9,,,可從 http://phenix.1nt-evry.fr/jct doc_end_user/documents/11_Shanghai/wgl l/JCTVC-Kl 003-v 13.zip 獲得),2012 年 12 月,它在下文中被稱為“WD9”,該文獻通過引用全部結合至此)。
[0006]分層視頻編碼,也被稱為可分級視頻編碼,是指其中視頻比特流可被分成兩個或更多個子比特流(被稱為層)的視頻編碼技術。各層可形成層階級,藉此基層可被獨立地編碼,而增強層可與基層和/或較低的增強層結合地被編碼。
[0007]一些視頻解碼標準,例如H.264或HEVC,利用概況等級系統(tǒng)(profile levelsystem)以在比特流中發(fā)信息通知解碼器必須具備以解碼比特流的能力。概況(profile)一般指視頻編碼標準中指定的編碼技術(也稱“工具”)的選擇,而等級一般指每秒解碼特定數量的像素、塊、宏塊、樹塊、編碼單元、或類似單元的要求。因此,等級可表達解碼器在特定幀速率下解碼高達給定的(未編碼)圖像尺寸的比特流的能力。在應用標準中,概況和等級可在諸如H.264或HEVC之類的視頻編碼標準中被指定,或者可由標準過程之外的賣方(vendor)同意。
[0008]H.264在其附錄G中包括對支持分層編碼的擴展,被稱為可分級視頻編碼或SVC。附錄H包括多視圖擴展,在下文中稱其為多視圖視頻編碼或MVC。沒有能用的附錄G或H的H.264被稱為AVC。
[0009]在SVC中,可對多個空間、質量、或時間層編碼,并可依賴于另一個層對一個層進行編碼?;鶎营毩⒂谌魏纹渌鼘?,并向后兼容AVC。SVC可對相互編碼的宏塊使用單環(huán)解碼,并對內編碼的宏塊使用多環(huán)解碼。
[0010]在MVC中,可對多個視圖進行編碼,并可依賴于另一視圖對一視圖進行編碼?;晥D獨立于任何其它視圖,并向后兼容AVC。MVC使用多環(huán)解碼,其中如果視圖A是對視圖B的引用,則必須對視圖A和視圖B兩者進行解碼以輸出視圖B。
[0011]H.264包括序列參數集,它包含與視頻序列中所有編碼圖像有關的信息。在序列參數集中的是概況和等級指示符的句法要素。類似地,在SVC和MVC中,子集序列參數集具有用于概況和等級指示符的句法要素。子集序列參數集被用于非基層或視圖,而序列參數集被用于基層或視圖。
[0012]SVC和MVC擴展提供對目標層表示或視圖表示的子比特流提取的機制,它們的輸出是包括與目標層表示本身相關聯(lián)的NAL單元的有效編碼的視頻比特流以及具有目標依存性_id、質量_id、時間_id和優(yōu)先級_id的更低值或相等值的所有層。
[0013]在H.264中,在每個編碼的片報頭部內存在圖像參數集id句法要素,它被稱為圖像參數集(PPS)。PPS包含對整個編碼圖像保持恒定、但在兩個圖像之間變化的參數。PPS中的一個句法要素是對序列參數集id的索引,這稱為序列參數集(SPS)。在SVC中相同層或MVC中相同視圖中的所有編碼的片,在編碼的視頻序列中,是指同一 SPS或子集序列參數集。
[0014]序列參數集可包含關于圖像分辨率、視頻可用信息等的信息以及概況和等級指示符。允許MVC中的一個以上的視圖引用同一序列參數集。類似地,允許一個以上SVC層引用同一序列參數集。
[0015]H.264通過其概況和等級指示符對順應(compliant)編碼的比特流施加多種限制。概況和等級指示符可指定一致點,并且在比特流中的概況和等級信息的存在可允許解碼器或媒體感知網絡元素(MANE)確定它是否有能力解碼或以其它方式處理特定比特流。概況一般指定這組支持的編碼工具,而等級一般指定影響計算要求的約束。
[0016]參照等級,H.264提供將每個可允許的等級id值映射至參數上的約束(諸如最大圖像尺寸、比特率、以及宏塊吞吐量)的表。特定地,宏塊吞吐量限制約束了每秒最大數量宏塊或MaxMBPS。在宏塊的尺寸為16 X 16個采樣時,MaxMBPS緊密地關聯(lián)于每秒像素率,此外MaxMBPS計算考慮每個編碼的圖像必須包含整數數量的宏塊,并因此垂直和水平分辨率必須被圓整至最近的宏塊尺寸。
[0017]對于包括那些用作SVC基層或MVC基視圖的(單層/視圖)AVC概況,假設最大MB吞吐量被限制以使等級極限MaxMBPS〉= PicSizelnMbs^FrameRate?注意,標準文檔中的等級極限的約束條件的描述不假設固定的幀速率,并被表達為對幀之間的最小輸出時間的限制。前述方程是H.264描述(它允許可變的幀速率)的簡化(假設固定的幀速率)。
[0018]對于與其中多個可分級層或視圖將被解碼的SVC和MVC相關聯(lián)的概況,基于層或視圖的數量,每秒最大MB吞吐量的解釋被修正,如下文所述。
[0019]在SVC擴展中,在非基層的子集序列參數集中,等級極限表達約束:最大MB吞吐量MaxMBPS> = svcPicSizelnMbs*FrameRate,其中 svcPicSizelnMbs 的值基于層的數量、和有效層及其參考層的圖像尺寸,同樣在固定幀速率的假設下。
[0020]參見圖1,示出一種層階級,其具有基層(101)、使用基層(101)作為它們的參考層的兩個空間或SNR增強層(102)和(103)、以及使用基層(101)和增強層(102)作為其參考層的第三空間或SNR增強層(104)。根據H.264,每個層(101)到(104)具有關聯(lián)的等級(分別為105-108),它被編碼為序列參數集中的等級id字段。與基層(101)關聯(lián)的等級(105)可指示通過引用H.264中指定的等級表所表達的孤立基層的計算要求。特定地,根據
H.264,可由編碼器如此選擇基層(101)的編碼的等級id,以使得與該等級關聯(lián)的所有編碼參數(例如:最大圖像尺寸、每秒宏塊吞吐量等等)大于或等于根據該等級解碼比特流的要求。
[0021]根據H.264,增強層(102-104)的等級(106-108)可被解碼以使與編碼等級關聯(lián)的計算要求大于結合地解碼所研究的增強層(102-104)以及其所有參考層的計算要求。例如,增強層(104)的等級指示符(108)被選擇為使得對于通過等級指示符(108)指示的所有計算要求而言,相應計算復雜性大于組合地解碼所有層(104)及其參考層(102)和(101)所需的計算復雜性。在圖1中,這由圍繞著層(101)、(102)和(104)的虛線(110)表示。類似地,在增強層(103)的序列參數集內編碼的等級指示器(107)可被選擇為使組合地解碼增強層(103)和基層(101)的計算要求低于等級指示符(107)中指示的計算要求。這是通過在層(101)、(103)周圍的間斷線(111)表示的。
[0022]在MVC擴展中,在對于非基視圖的子集序列參數集中,等級極限表示最大MB吞吐量的約束MaxMBPS〉= (Num Views/2) *PicSizelnMbs*FrameRate,其中 Num Views 是指解碼目標輸出視圖所需的視圖數,同樣在固定幀速率的假設下。
[0023]在MVC中,由于MB吞吐量基線基于視圖數,其SPS參數值相同(例如,具有相同的圖像分辨率和VUI數據)的多視圖層對于它們的等級指示符值可不同。如果它們不同,它們可指向不同的SPS id,因為在H.264中,每個SPS可僅包含單個等級指示符。替代物(alternative),是指(referring to)具有足夠高以指示足以解碼所有視圖(即便例如僅解碼基視圖)的計算資源的等級指示符的相同SPS,可能是成問題的。例如,如果正在編碼比基視圖必需還更高的等級指示符,由于等級指示符指示比單視圖解碼所需的更高等級(以容納多視圖),該基視圖(其巧合地可能與適于非多視圖解碼的AVC比特流完全一致)潛在地可能沒有在具有充分計算資源的設備上被解碼。
[0024]對于SVC和MVC兩者,出于一些原因,每個層或視圖的一個SPS可能是低效的。為了描述這些原因,對H.264的參數集引用機制簡單地予以描述。參見圖2,其示出片報頭部、PPS、和SPS之間的關系。片報頭部(201)可包含可變長度(擴展-Golomb)編碼的字段(202),該字段指示將使用的PPS (203)。對具有IDO的PPS (203),字段(202)長度為I比特。對于值I或2,字段長度為3比特。對于3和更大的值,其長度至少為5比特。在PPS中,可存在指示SPS(205)的指示(204)。^ SPS(205)內,可存在自引用(206)(在其轉換過程中可被用于標識SPS)。注意,視頻流可包含許多SPS和PPS,并且在每圖像或每視頻序列基礎上,編碼器可通過對片報頭部(201)中的適宜PPS ID(202)編碼而切換它們。
[0025]對于第一個原因,在H.264中,可能需要在比特流中包括多個SPS (207)(或發(fā)送它們至帶外),這些SPS僅由等級指示符(208)區(qū)別。然而,SPS的許多其它句法要素也可必需與標準一致。這可導致潛在地許多SPS句法要素的冗余發(fā)送(其結果對編碼效率有影響),以允許對不同層或視圖信令不同的等級。其次,SPS沒有被從片報頭部(或其它編碼的圖像高等級句法要素)被引用,而是通過間接的一個等級:片報頭部引用PPS,而PPS引用SPS。為了參照適宜的SPS,應當存在包括對相應SPS的參照的至少一個PPS。PPS進而可僅通過PPS ID與其它PPS(209)區(qū)別,PPS ID可以是不同的,因為如前所述需要不同的PPS信令不同的等級。作為結果,可能不僅需要如前所述包含潛在很多冗余值的多個SPS,而且還需要具有很多冗余參數的許多PPS。第三,為了信令片報頭部中的不同PPS,當需要信令更多不同PPS ID時,用于信令PPS ID (202)的(可變長度)碼字的平均長度可以更長。第四,PPS中涉及(refer to) SPS (204)的碼字也是可變長度編碼的并且當需要很多SPS時可以更長。且第五,這同樣分別適用于SPS(205) PPS(203)內的自引用(206) (210)。
[0026]SVC包括可分級性(scalability)信息SEI消息(SSEI消息)。根據H.264或HEVC,解碼器不要求解碼并基本作用于所有SEI消息(包括SSEI消息),盡管在SEI消息上不編碼和作用可能消極地影響用戶體驗。然而,對于諸如資源管理之類的機制,解碼器可使用比特流中發(fā)現的SSEI消息中可用的信息,并可依賴于包含在正確的SEI消息中的值。SSEI消息提供尤其是關于出現在編碼的視頻序列中的層數的信息。對于那些層中的每一個,SSEI消息可直接或間接地提供層id值對優(yōu)先級、依存性、質量、和時間id值的映射,這些值可組合地描述該層在層階級中的位置,以及描述每個層的很多其它參數。該附加參數中的一些即便在SEI消息中也是任選的,包括概況和等級信息以及平均比特率。SSEI消息中的概況和等級信息可指示與由層id值標識的目標層表示相關聯(lián)的子比特流的解碼能力。可以相同方式解釋等級極限,就像序列參數集中包含相同的等級指示符值那樣。同時,當被以此方式使用時,SSEI包括足夠的信息以允許解碼器獲得每個可分級層的概況和等級信息,PPS和SPS的前述潛在冗余副本在解碼器處可能是必要的(對編碼效率具有結果的消極影響)以與H.264 一致。
[0027]類似地,在MVC中,視圖可分級性信息SEI消息提供關于編碼的視頻序列中存在的視圖數的信息,并任選地提供與目標圖表示關聯(lián)的子比特流的概況和等級信息。
[0028]類似于H.264,HEVC在序列參數集中具有概況和等級指示符句法要素。等級極限直接地基于像素率(相比H.264的MB率),但在其它方面功能是相稱的。表1示出根據HEVC對于等級的最大像素率和圖像尺寸。同樣假設固定幀速率,對像素吞吐量具有限制,以使等級極限像素吞吐量MaxLumaPR〉= PicSizeLuma*FrameRate (幀速率),其中 PicSizeLuma 指像素中的圖像的亮度分量:表1
[0029]
【權利要求】
1.一種用于確定解碼視頻的能力的方法,所述視頻包括參考層和引用所述參考層的增強層,所述方法包括: 解碼所述參考層的至少一個等級指示符; 解碼所述增強層的至少一個等級指示符; 對于所述參考層的至少一個等級指示符,確定用于所述參考層的解碼的至少一個計算要求, 對所述增強層的至少一個等級指示符,確定用于所述增強層的解碼的至少一個計算要求,結合用于所述參考層的解碼的至少一個計算要求與用于所述增強層的解碼的至少一個計算要求來生成組合;以及 將所述組合與預定能力相比較; 其中如果所述組合小于所述預定能力,則所述視頻可被解碼。
2.如權利要求1所述的方法,其特征在于,所述結合包括求和,且所述組合包括和。
3.如權利要求1所述的方法,其特征在于,所述參考層包括基層。
4.如權利要求1所述的方法,其特征在于,所述計算要求包括每秒的像素數量。
5.如權利要求1所述的方法,其特征在于,所述計算要求包括每圖像的像素數量。
6.如權利要求1所述的方法,其特征在于,所述計算要求包括比特率。
7.如權利要求1所述的方法,其特征在于,所述結合包括使用媒體知曉網絡要素(MANE)。
8.如權利要求7所述的方法,其特征在于,還包括在確定所得和超出所述預定能力后丟棄所述增強層。
9.如權利要求8所述的方法,其特征在于,所述預定能力包括耦合至所述MANE的解碼器的能力。
10.如權利要求8所述的方法,其特征在于,所述預定能力包括所述MANE和解碼器之間的網絡鏈路的能力。
11.如權利要求1所述的方法,其特征在于,還包括在確定所得和超出所述預定能力之后丟棄所述增強層。
12.如權利要求1所述的方法,其特征在于,所述等級標識符被編碼在序列參數集中。
13.一種用于確定解碼視頻的能力的系統(tǒng),所述視頻包括參考層和引用所述參考層的增強層,所述系統(tǒng)包括: 解碼設備,其被配置成: 解碼所述參考層的至少一個等級指示符,解碼所述增強層的至少一個等級指示符,對于所述參考層中的至少一個等級指示符來確定解碼所述參考層的至少一個計算要求; 對于所述增強層的至少一個等級指示符,確定來解碼所述增強層的至少一個計算要求; 結合來解碼所述參考層的至少一個計算要求和來解碼所述增強層的至少一個計算要求以生成組合;以及 將所述組合與預定能力相比較; 其中如果所述組合小于所述預定能力,則所述視頻可被解碼。
14.一種用于確定解碼包括至少一個層和一個時間子層的視頻比特流的時間子層的能力的方法,所述方法包括: 解碼與所述層相關聯(lián)的概況id、等級id、和層級id中的至少一個; 解碼與所述時間子層相關聯(lián)的概況id、等級id、和層級id中的至少一個;以及如果與所述時間子層相關聯(lián)的所述概況id、等級id、和層級id中的至少一個指示所述時間子層的比特流復雜度比由所述層的概況id、等級id、或層級id指示的比特流復雜度更低,則將時間子層確定為可解碼的。
15.如權利要求14所述的方法,其特征在于,子層的概況id、等級id、和層級id中的至少一個被編碼在補充增強信息(SEI)消息。
16.一種用于確定解碼包括至少一個層和一個時間子層的視頻比特流中的時間子層的能力的系統(tǒng),所述系統(tǒng)包括: 解碼設備,其被配置成: 解碼與所述層相關聯(lián)的概況id、等級id、和層級id中的至少一個; 解碼與所述時間子層相關聯(lián)的概況id、等級id、和層級id中的至少一個;以及如果與所述時間子層相關聯(lián)的所述概況id、等級id、和層級id中的至少一個指示所述時間子層的比特流復雜度比由所述層的概況id、等級id、或層級id指示的比特流復雜度更低,則將時間子層確定為可解碼的。
17.一種非瞬態(tài)計算機可讀介質,其包括一組可執(zhí)行指令以引導處理器執(zhí)行如權利要求1-12或14-15中一項所述的方法。
【文檔編號】H04N5/93GK104205813SQ201380018332
【公開日】2014年12月10日 申請日期:2013年3月25日 優(yōu)先權日:2012年4月6日
【發(fā)明者】J·博伊斯, D·洪, J·翁坎普, S·溫格 申請人:維德約股份有限公司