用于多視圖、三維(3d)及可縮放視頻位流的子位流提取的制作方法
【專利說明】用于多視圖、三維(3D)及可縮放視頻位流的子位流提取
[0001] 本申請案主張2012年10月1日申請的第61/708, 522號美國臨時申請案的權(quán)益, 其全部內(nèi)容以引用的方式并入本文中。
技術(shù)領(lǐng)域
[0002] 本發(fā)明一般來說涉及處理視頻數(shù)據(jù)并且,更具體來說涉及用于基于一或多個視頻 譯碼標準來處理視頻數(shù)據(jù)。
【背景技術(shù)】
[0003] 數(shù)字視頻能力可并入到廣泛范圍的裝置中,所述裝置包含數(shù)字電視、數(shù)字直播系 統(tǒng)、無線廣播系統(tǒng)、個人數(shù)字助理(PDAs)、膝上型或桌上型計算機、平板計算機、電子書閱 讀器、數(shù)碼相機、數(shù)字記錄裝置、數(shù)字媒體播放器、視頻游戲裝置、視頻游戲控制臺、蜂窩式 或衛(wèi)星無線電電話、所謂的"智能電話"、視頻電話會議裝置、視頻流式傳輸裝置、轉(zhuǎn)碼器、路 由器或其它網(wǎng)絡(luò)裝置,及其類似者。數(shù)字視頻裝置實施視頻壓縮技術(shù),例如通過MPEG-2、 MPEG-4、ITU-T H. 263、ITU-T H. 264/MPEG-4第10部分高級視頻編碼(AVC)、目前正在開發(fā) 的高效率視頻譯碼(HEVC)標準、專用的標準、例如VP8等開放視頻壓縮格式及此類標準、技 術(shù)或格式的擴展界定的標準中描述的技術(shù)。視頻裝置可通過實施此類視頻壓縮技術(shù)來更有 效率地傳輸、接收、編碼、解碼及/或存儲數(shù)字視頻信息。
[0004] 視頻壓縮技術(shù)執(zhí)行空間(圖片內(nèi))預(yù)測及/或時間(圖片間)預(yù)測來減少或去除 視頻序列中固有的冗余。對于基于塊的視頻譯碼來說,視頻切片(即,視頻幀或視頻幀的一 部分)可分割成視頻塊,視頻塊也可稱作樹塊、譯碼單元(CU)及/或譯碼節(jié)點。使用相對 于同一圖片中的相鄰塊中的參考樣本的空間預(yù)測對圖片的經(jīng)幀內(nèi)譯碼(I)切片中的視頻 塊進行編碼。圖片的經(jīng)幀間譯碼(P或B)切片中的視頻塊可使用相對于同一圖片中的相鄰 塊中的參考樣本的空間預(yù)測或相對于其它參考圖片中的參考樣本的時間預(yù)測。圖片可稱為 幀,且參考圖片可稱為參考幀。
[0005] 空間或時間預(yù)測產(chǎn)生對待譯碼的塊的預(yù)測塊。殘差數(shù)據(jù)表示待譯碼的原始塊與預(yù) 測塊之間的像素差。根據(jù)指向形成預(yù)測塊的參考樣本塊的運動向量以及指示經(jīng)譯碼塊與所 述預(yù)測塊之間的差的殘差數(shù)據(jù)來編碼經(jīng)幀間譯碼塊。根據(jù)幀內(nèi)譯碼模式和殘差數(shù)據(jù)來編碼 經(jīng)幀內(nèi)譯碼塊。為了進一步壓縮,可將殘差數(shù)據(jù)從像素域變換為變換域,從而產(chǎn)生殘差變換 系數(shù),所述殘差變換系數(shù)隨后可被量化。起初布置在二維陣列中的經(jīng)量化變換系數(shù)可依序 掃描以產(chǎn)生變換系數(shù)的一維向量,且可應(yīng)用熵譯碼以實現(xiàn)更多的壓縮。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明描述與視頻譯碼相關(guān)的技術(shù),且更確切地說,本發(fā)明描述利用多個子位流 提取模式中的一者以允許視頻編碼器及視頻解碼器中間的裝置(例如,網(wǎng)絡(luò)實體)選擇適 當?shù)奶崛〔僮饕杂糜谧游涣魈崛?。舉例來說,每一子位流提取模式可界定其中裝置從位流 (例如,來自視圖或?qū)拥慕?jīng)譯碼圖片)提取數(shù)據(jù)的特定方式,使得視頻解碼器可重構(gòu)目標輸 出視圖或目標輸出層。來自位流的所提取的數(shù)據(jù)可形成子位流。以此方式,裝置可不需要 以固定死板的方式提取子位流,且可調(diào)適到特定條件以用于輸出目標輸出視圖或目標輸出 層的數(shù)據(jù)。
[0007] 在一個實例中,本發(fā)明描述一種處理視頻數(shù)據(jù)的方法,所述方法包括接收經(jīng)編碼 視頻數(shù)據(jù)的位流,且從多個子位流提取模式選擇一子位流提取模式。所述子位流提取模式 中的每一者界定其中從視圖提取經(jīng)譯碼圖片或從所述位流提取層的方式以允許解碼目標 輸出視圖或目標輸出層,且每一經(jīng)譯碼圖片包括存取單元內(nèi)的視圖或?qū)拥囊换蚨鄠€視頻譯 碼層網(wǎng)絡(luò)抽象層(VCL NAL)單元。所述方法還包含以由所述選定的子位流提取模式界定的 所述方式從所述位流提取子位流。
[0008] 在一個實例中,本發(fā)明描述一種用于處理視頻數(shù)據(jù)的裝置,所述裝置包括一或多 個處理器,所述一或多個處理器經(jīng)配置以接收經(jīng)編碼視頻數(shù)據(jù)的位流且從多個子位流提取 模式選擇一子位流提取模式。所述子位流提取模式中的每一者界定其中從視圖提取經(jīng)譯碼 圖片或從所述位流提取層的方式以允許解碼目標輸出視圖或目標輸出層,且每一經(jīng)譯碼圖 片包括存取單元內(nèi)的視圖或?qū)拥囊换蚨鄠€視頻譯碼層網(wǎng)絡(luò)抽象層(VCL NAL)單元。所述一 或多個處理器還經(jīng)配置而以由所述選定的子位流提取模式所界定的方式從所述位流提取 子位流。
[0009] 在一個實例中,本發(fā)明描述一種在其上存儲有指令的計算機可讀存儲媒體,所述 指令在由用于處理視頻數(shù)據(jù)的裝置的一或多個處理器執(zhí)行時致使所述一或多個處理器接 收經(jīng)編碼視頻數(shù)據(jù)的位流,且從多個子位流提取模式選擇一子位流提取模式。所述子位流 提取模式中的每一者界定其中從視圖提取經(jīng)譯碼圖片或從所述位流提取層的方式以允許 解碼目標輸出視圖或目標輸出層,且每一經(jīng)譯碼圖片包括存取單元內(nèi)的視圖或?qū)拥囊换蚨?個視頻譯碼層網(wǎng)絡(luò)抽象層(VCL NAL)單元。所述指令還致使所述一或多個處理器以由所述 選定的子位流提取模式界定的方式從所述位流提取子位流。
[0010] 在一個實例中,本發(fā)明描述一種用于處理視頻數(shù)據(jù)的裝置,所述裝置包括用于接 收經(jīng)編碼視頻數(shù)據(jù)的位流的裝置,及用于從多個子位流提取模式選擇一子位流提取模式的 裝置。所述子位流提取模式中的每一者界定其中從視圖提取經(jīng)譯碼圖片或從所述位流提取 層的方式以允許解碼目標輸出視圖或目標輸出層,且每一經(jīng)譯碼圖片包括存取單元內(nèi)的視 圖或?qū)拥囊曨l譯碼層網(wǎng)絡(luò)抽象層(VCL NAL)單元。所述裝置還包含用于以由所述選定的子 位流提取模式界定的方式從所述位流提取子位流的裝置。
[0011] 一或多個實例的細節(jié)陳述于附圖及以下描述中。其它特征、目標及優(yōu)勢將從描述 及附圖和從權(quán)利要求書中顯而易見。
【附圖說明】
[0012] 圖1是說明可利用本發(fā)明中描述的技術(shù)的實例視頻編碼和解碼系統(tǒng)的實例的框 圖。
[0013] 圖2是說明根據(jù)本發(fā)明中所描述的一或多個實例的實例編碼及解碼次序的符號 圖。
[0014] 圖3是說明實例預(yù)測模式的概念圖。
[0015] 圖4是說明形成網(wǎng)絡(luò)的部分的一組實例裝置的框圖。
[0016] 圖5是說明可實施本發(fā)明中描述的技術(shù)的實例視頻編碼器的框圖。
[0017] 圖6是說明可實施本發(fā)明中描述的技術(shù)的實例視頻解碼器的框圖。
[0018] 圖7是說明根據(jù)本發(fā)明所描述的一或多個實例的實例技術(shù)的流程圖。
【具體實施方式】
[0019] 在多視圖視頻譯碼中,存在各自包含多個圖片的多個視圖。術(shù)語多視圖視頻譯碼 一般用于指代其中多個視圖的視頻數(shù)據(jù)包含在經(jīng)譯碼位流中的視頻譯碼技術(shù)、根據(jù)各種多 視圖視頻譯碼的此視頻譯碼技術(shù),以及不必依賴于視頻譯碼標準的技術(shù)。術(shù)語多視圖視頻 譯碼還可以用于指其中在位流中譯碼多層視頻數(shù)據(jù)的視頻譯碼技術(shù),例如可縮放視頻譯碼 技術(shù)??赏ㄟ^各種視頻譯碼標準控制用于多視圖視頻譯碼的技術(shù),且本發(fā)明中描述的技術(shù) 可適用于各種視頻譯碼標準以及不依賴于視頻譯碼標準的技術(shù)。
[0020] 在一些情況下,雖然視頻編碼器編碼經(jīng)譯碼位流的許多視圖或?qū)樱曨l解碼器 可僅需要解碼經(jīng)譯碼位流中的視圖或?qū)拥淖蛹?。例如,對于某些環(huán)境,可需要比針對其它環(huán) 境更多的視圖。舉例來說,一些裝置可能夠顯示許多視圖,且一些裝置可能夠顯示更少的視 圖。因此,允許裝置檢索所述裝置能夠解碼及顯示的那么多視圖或?qū)涌蔀橛幸娴摹?br>[0021] 視圖包含屬于不同存取單元的視圖分量,所述視圖分量在本發(fā)明中還可稱為經(jīng)譯 碼圖片。層還包含屬于不同存取單元的經(jīng)譯碼圖片。屬于相同存取單元的所有視圖或所有 層的經(jīng)譯碼圖片具有相同的輸出時間。在3D視頻譯碼的情況下,每一視圖可含有紋理部分 及深度部分,主要是紋理視圖及深度視圖。紋理視圖包含還被命名為紋理視圖的經(jīng)譯碼圖 片,及還被命名為深度視圖的經(jīng)譯碼圖片的經(jīng)譯碼深度圖片。經(jīng)譯碼紋理圖片還被稱作紋 理視圖分量,且經(jīng)譯碼深度圖片還被稱作深度視圖分量。在本發(fā)明中描述的技術(shù)中,每一經(jīng) 譯碼圖片包含存取單元內(nèi)的視圖或?qū)拥囊换蚨鄠€視頻譯碼層(VCL)網(wǎng)絡(luò)抽象層(NAL)(即, VCL NAL)單元。
[0022] 對于一些情況,視頻解碼器可解碼視圖或?qū)拥淖蛹?,而不是來自?jīng)譯碼位流的全 部視圖及層。舉例來說,可通過從視頻解碼器解碼目標輸出視圖或?qū)铀璧囊晥D或?qū)樱ɡ?如,將顯示的視圖或?qū)樱┨崛〗?jīng)譯碼圖片且輸出所述經(jīng)譯碼圖片,而非輸出包含解碼目標 輸出視圖或?qū)硬恍枰囊晥D及層的所有視圖及層,而獲得帶寬效率。為了允許視頻解碼器 解碼僅視圖的子集,網(wǎng)絡(luò)裝置(例如,從包含視頻解碼器的裝置的上游的裝置)或包含視頻 解碼器的裝置可從經(jīng)譯碼位流提取視圖子集,且僅將所提取的視圖傳輸?shù)桨糜诮獯a的 視頻解碼器的裝置。從經(jīng)譯碼位流對視圖的子集的此提取被稱作子位流提取。
[0023] 在多視圖視頻譯碼中,從另一視圖的另一圖片對一個視圖的一個經(jīng)譯碼圖片進行 幀間預(yù)測可為可能的。此幀間預(yù)測被稱作視圖間預(yù)測。在一些情況下,可從將不顯示的視 圖的圖片幀間預(yù)測來自視圖中的一者的經(jīng)譯碼圖片。例如,假設(shè)顯示裝置(例如,移動裝置 或桌上型計算機)將顯示視圖0及視圖1 (例如,視圖0及視圖1的紋理視圖)。在此實例 中,視圖0及視圖1可被稱為目標輸出視圖(即,將為顯示器輸出的視圖)。然而,來自視圖 1的經(jīng)譯碼圖片(例如,紋理視圖分量及深度視圖分量)是從視圖2的經(jīng)譯碼圖片(例如, 紋理視圖分量及深度視圖分量)幀間預(yù)測可為可能的。在此實例中,盡管未顯示視圖2,但 視頻解碼器可仍需要接收與視圖2相關(guān)聯(lián)的視頻數(shù)據(jù)且解碼此視頻數(shù)據(jù)以使得視頻解碼 器可恰當?shù)亟獯a視圖1的視頻數(shù)據(jù)。
[0024] 對于多視圖視頻譯碼,在一些情況下,視圖的視圖分量可由兩個組件表示:紋理視 圖分量及深度視圖分量。所述紋理視圖分量包含實際視頻內(nèi)容。所述深度視圖分量包含指 示視頻內(nèi)容內(nèi)的像素或?qū)ο蟮南鄬ι疃鹊男畔ⅰ?br>[0025] 例如,如更詳細描述,在本發(fā)明中描述的子位流提取過程的一些實例中,在子位流 提取過程從經(jīng)譯碼位流提取經(jīng)譯碼圖片時,子位流提取過程可提