在視頻編碼中適應魯棒性的制作方法

文檔序號：9621410閱讀：714來源：國知局

在視頻編碼中適應魯棒性的制作方法
【專利說明】在視頻編碼中適應魯棒性
【背景技術】
[0001] 在現(xiàn)代通信系統(tǒng)中，視頻信號可以通過諸如有線和/或無線網(wǎng)絡(通常，諸如因特網(wǎng)之類的基于分組的網(wǎng)絡)之類的介質(zhì)從一個終端被發(fā)送到另一個。典型地，在發(fā)送終端處用編碼器對視頻的幀進行編碼以便對其壓縮以用于通過網(wǎng)絡進行傳輸。用于給定幀的編碼可以包括幀內(nèi)編碼，其中塊相對于在同一幀中的其他塊而被編碼。在這種情形下，目標塊通過在那個塊和相鄰塊之間的差異(殘差（residual))而被編碼。可替換地，用于某些幀的編碼可以包括幀間編碼，其中典型地基于運動預測，在目標幀中的塊是相對于在前的幀的相應部分而被編碼。在這個情況下，目標塊是通過標識在塊和該塊根據(jù)其要被預測的相應的部分之間的偏移的運動向量，以及在該塊和該塊根據(jù)其而被預測的對應的部分之間的差異而被編碼。在接收器處對應的解碼器基于合適的預測類型來對所接收到的視頻信號的幀進行解碼，以便將它們解壓縮（decompress)以用于向屏幕輸出。
[0002] 但是，幀或者幀的部分會在傳輸中丟失。例如，典型地，基于分組的網(wǎng)絡不保證所有分組的遞送，例如，分組中的一個或多個可能由于擁塞（congestion)而在中間路由器處被丟棄。作為另一個示例，數(shù)據(jù)可能由于網(wǎng)絡介質(zhì)的較差的情況(例如，噪聲或者干擾)而損壞（corrupt)。基于被包括在編碼的比特流中的冗余信息，前向糾錯（FEC)或者其他這樣的錯誤保護技術有時可以被用來恢復丟失的分組。但是，沒有一種錯誤保護技術是完美的，并且某些分組在嘗試糾正之后可能仍然不會被恢復?？商鎿Q地，系統(tǒng)設計者可能不想要引入 (incur)被用于錯誤保護的冗余信息的開銷，至少不是在所有的情況下。所以，丟失可能仍然發(fā)生。
[0003] 魯棒性指的是編碼方案對丟失不敏感的能力，依據(jù)在存在丟失的情況下失真如何被影響。幀間編碼幀（inter frame)相比于幀內(nèi)編碼幀（intra frame)，要求更少的比特來編碼，但是由于幀間編碼幀引入了對在前幀處的依賴性，所以它是更不魯棒的。即使幀間編碼幀被接收，但是如果在其歷史中的某些幀已經(jīng)被丟失(包括對其預測所依據(jù)的參考的幀或幀的一部分，或者對參考預測所依據(jù)的幀或者幀的一部分)，則其可能無法被合適地解碼。所以，由于丟失的失真可能在多個幀上擴散。幀內(nèi)編碼是更為魯棒的，這是因為其僅僅依賴在當前幀中的參考的接收，所以即使已經(jīng)存在之前的丟失，解碼狀態(tài)仍然可以被恢復。負面是幀內(nèi)編碼在編碼的比特流中引入更多的比特。改善魯棒性的另一個可能的訣竅是使得解碼器反饋被成功接收和解碼的幀或者幀的一部分的確認，并且使用確認的參考模式，其限制編碼器僅僅相對于確認的參考而對當前塊進行編碼。但是，這將用于預測的候選限制為在時間上進一步向后的參考，其傾向于更不相似，并且因此在預測方面實現(xiàn)了更少的增益（即，導致更大的殘差)。
[0004] 考慮各種可能的編碼模式（比如，幀內(nèi)編碼、幀間編碼以及相對于確認的參考的編碼)，因此在魯棒性(在防衛(wèi)潛在的失真方面）以及在編碼的信號中引入的比特率之間的折中要被做出。丟失適應的速率失真優(yōu)化（LARD0)是一種可以在解碼器側(cè)被應用來嘗試優(yōu)化這個折中的技術。對于每個考慮的宏塊，LARD0測量通過在多個可用的編碼模式中的每個中對宏塊進行編碼而經(jīng)歷失真D的估計和使用這些編碼模式中的每個時將要被引入在編碼的比特流中的比特率。失真D的估計可能考慮到源編碼失真(例如，由于量化）以及由于丟失的潛在的失真的估計(基于在所考慮的信道中出現(xiàn)丟失的可能性)兩者。在編碼器處的 LARDO過程然后選擇編碼模式，所述編碼模式使形如D+XR (其中，λ是表征折中的參數(shù)）的函數(shù)最小化。

【發(fā)明內(nèi)容】

[0005] 根據(jù)一個方面，本公開涉及一種裝置，所述裝置具有用于接收包括多個幀的視頻信號的輸入，每一個幀包括多個圖像部分，以及用于對圖像部分的每一個進行編碼以便生成編碼的信號的編碼器。例如，所考慮的圖像部分可能是任何合適的編解碼器的塊或者宏塊，或者幀的任何其他所期望的劃分（division)。編碼器能夠使用兩個或多個不同的編碼模式中的任何所選擇的一個對部分(例如，每個塊或者宏塊）中的每一個進行編碼，并具有不同的速率失真折中。例如，編碼模式可以包括幀內(nèi)編碼模式、幀間編碼模式和/或目標部分被相對于確認的參考(確認為已被接收端接收）而被編碼的模式。
[0006] 為了控制這一點，裝置包括被布置來選擇被用于對圖像部分中的每一個相應地進行編碼的編碼模式的適應模塊。適應使用速率失真優(yōu)化過程，由此其平衡失真和比特率的函數(shù)。該函數(shù)是編碼模式的函數(shù)，并且至少包括表示如果利用某個編碼模式對目標部分進行編碼而在解碼器處將要經(jīng)歷的潛在失真的估計的部分以及表示通過使用那個編碼模式對圖像部分進行編碼而在所編碼的信號中將要引入的比特率的部分。因此，適應模塊能夠考慮根據(jù)多個不同的編碼模式中的每一個對目標部分進行編碼的潛在的速率失真折中，并且它根據(jù)某種最優(yōu)化準則選擇被估計來提供最佳的折中的模式。
[0007] 進一步，適應模塊也可以被配置來在幀中確定具有不同感知顯著性的至少兩個不同的區(qū)域。例如，這可以包括確定至少一個感興趣區(qū)域，例如視頻通話中的面部，其具有比感興趣區(qū)域之外的背景區(qū)域更大的顯著性。在實施例中，適應模塊可以確定具有各種不同區(qū)域(至少多于兩個）的感知敏感性映射，并且針對每個區(qū)域確定感知顯著性水平。該水平可以從各種不同的可能水平中（同樣，至少多于兩個）確定。上文所提到的函數(shù)然后可以根據(jù)正在被編碼的圖像部分處在哪個區(qū)域中而被適應，例如，根據(jù)相應區(qū)域的感知顯著性，來適應被應用于函數(shù)的各部分之一上的加權。
[0008] 在實施例中，表示失真的函數(shù)的部分至少包括由于丟失的潛在失真的估計，例如考慮目標圖像被丟失或者在其歷史中的事物被丟失的可能性。在實施例中，失真的估計可以考慮源編碼失真以及丟失可能性兩者。因此，在實施例中，更高的魯棒性(對丟失更低的敏感性）可以以在編碼信號中更多的比特為代價而被應用于感興趣的區(qū)域或者更高感知顯著性的區(qū)域，而更低的魯棒性(對丟失更高的敏感性）可以被應用于一個或多個其他區(qū)域，從而因使用較少比特來對這些區(qū)域進行編碼而得到節(jié)省。
[0009] 本
【發(fā)明內(nèi)容】
被提供來以簡化的形式介紹概念的選擇，在下文【具體實施方式】中進一步對其描述。本
【發(fā)明內(nèi)容】
不是旨在標識要求保護的主題的關鍵特征或必要特征，也不旨在被用來限制要求保護的主題的范圍。所要求保護的主題不局限于解決在【背景技術】部分所指出的缺點中的任何一個或者全部的實現(xiàn)方式。
【附圖說明】
[0010] 圖1是視頻流的示意性表示，圖2是通信系統(tǒng)的示意性框圖，圖3是編碼的視頻流的示意性表示，圖4是編碼器的示意性框圖，圖5是解碼器的示意性框圖，以及圖6是要被編碼的視頻圖像的示意性表示以及對應的感知重要性映射的示例。
【具體實施方式】
[0011] 如果優(yōu)化函數(shù)被強加權成以高比特率為代價避免失真，則諸如LARD0之類的魯棒性工具在速率失真性能方面是昂貴的。在其他方面，如果對于比特率的節(jié)省被過多加權，則類似LARD0的魯棒性工具可以產(chǎn)生在良好網(wǎng)絡情況下無法保證的顯著的質(zhì)量下降。
[0012] 下面的實施例將魯棒性適應于幀內(nèi)的主觀重要性?？梢詫ARD0類型的工具(相對于確認的參考、幀內(nèi)塊等等而進行編碼）應用空間選擇性。例如，在幀內(nèi)的感興趣區(qū)域 (R0I)可以在編碼器側(cè)被確定，并且相比在感興趣區(qū)域外部的那些，可以將更大的魯棒性給予正在感興趣區(qū)域內(nèi)進行編碼的塊或者宏塊(例如，在LARD0優(yōu)化中，以更高的比特率為代價，將對抗失真的更大的加權給予在R0I中的宏塊，而在R0I之外，花費更少的比特)。將這個想法擴展，LARD0類型的工具可以以連續(xù)的方式(例如，與空間失真敏感性成比例地）應用空間選擇性。例如，感知敏感性映射可以被確定，其中不同的區(qū)域可以被給予來自一個范圍的各種不同水平的（多于兩個水平）不同的感興趣水平，例如，將不同的水平映射到在幀內(nèi)的每個塊或者宏塊。然后，魯棒性可以根據(jù)與每個區(qū)域相關聯(lián)的水平而被適應(例如，在 LARD0優(yōu)化函數(shù)中的加權可以根據(jù)感知顯著性水平而被適應，從而相比于具有更低水平的那些宏塊，將對抗失真的更大的加權給予具有更高顯著性水平的那些宏塊)。
[0013] 這些工具的使用也可以與R0I感知隱藏（concealment)質(zhì)量估計進行組合，以便在隱藏質(zhì)量被估計為是低的時候來確定是否幀可以被丟棄。
[0014] 因此，相比于當前可能的，實施例可以在丟失期間以在一個或多個感興趣區(qū)域中可接受的質(zhì)量以更小的比特率開銷產(chǎn)生更高的幀率。
[0015] 圖1給出輸入視頻信號的示意性圖示，所述視頻信號從攝像機被捕獲，并且被劃分成準備好由視頻編碼器進行編碼以生成編碼的比特流的各部分。該信號包括在時間上被劃分成多個幀（F)的移動視頻圖像，每個幀表示在時間上t+L···)不同的相應的時刻的圖像。在每個幀內(nèi)，該幀在空間上被劃分成多個部分，每個部分表示多個像素。例如，這些部分可以被稱為塊。在某些方案中，該幀被劃分和子劃分成不同水平的部分或者塊。例如，每個幀可以被劃分成宏塊(MB )，并且每個宏塊可以被劃分成塊（b )，例如，每個塊表示幀內(nèi)的8 X 8像素的區(qū)域，以及每個宏塊表示2 X 2塊（16 X 16像素)的區(qū)域。在某些方案中，每個幀也可以被劃分成片（slice)，每個片包括多個宏塊。
[0016] 在輸入信號中的塊可以初始地在空間域中被表示，其中每個通道被表示為在塊內(nèi) 的空間位置的函數(shù)，例如，亮度（Y)和色度（U，V)通道中的每一個是笛卡爾坐標X和y的函數(shù)，Y(x，y)，U(x，y)和V(x，y)。在這個表示中，每個塊或者部分可以由在不同的空間坐標 (例如，X和y坐標）處的一組像素值所表示，以便顏色空間的每個通道通過在塊內(nèi)的特定位置的特定值、在該塊內(nèi)的另一個位置的另一個值和其他等等而被表示。
[0017] 但是，作為編碼過程的一部分，該塊可以被變換到變換域(典型地，空頻域表示，某些時候僅被稱之為頻域)表示。在頻域，該塊通過表示在該塊內(nèi)的每個顏色空間通道中的變化(例如，在該塊內(nèi)的亮度Y和兩個色度U和V中的每一個中的變化）的頻率分量的系統(tǒng)而被表示。從數(shù)學上講，在頻域，通道中的每一個(亮度和兩個色度通道或者這樣類似的通道的每一個)被表示為空頻的函數(shù)，尺寸為1/給定方向的長度。例如，這可以相應地由在水平和垂直方向上的波數(shù)1和ky所表示，所以該通道可以被相應地表達為Y(kx，ky

完整全部詳細技術資料下載

當前第1頁1 2 3 4 5