視頻壓縮方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及視頻壓縮領(lǐng)域。
[0002] 相關(guān)申請的交叉引用
[0003] 本專利申請主張并設(shè)及在2012年10月7日提交的美國臨時專利申請序列號 61/710, 723的優(yōu)先權(quán),該美國臨時專利申請全部內(nèi)容結(jié)合于此作為參考。
【背景技術(shù)】
[0004] 原始視頻文件占用大量的空間。例如,每秒60帖師S)的、帖分辨率為1920X1080 個像素的、顏色深度為3且每顏色8比特的高清晰度(皿)電影,消耗;
[0005] 每秒 1,920X1,080X60X3 = 373, 248, 000 字節(jié)。
[0006] 兩個小時該樣的電影會占用:
[0007] 373, 248, 000*7, 200 = 2, 687, 385, 600, 000 字節(jié) > 3 萬億字節(jié)(Tbyte)。
[000引要在普通DVD盤即4. 7千兆字節(jié)佑的te)的盤上存儲該電影,需要;
[0009] > 2,687/4. 7>600張DVD盤。
[0010] 并且,要在互聯(lián)網(wǎng),比如說100Mbps的快速通道上,傳送該電影,需要:
[0011] > 2, 687, 386X8/100 > 2, 149, 908 秒> 60 小時。
[0012] 視頻壓縮是減小視頻大小而不影響感知質(zhì)量的技術(shù)。
[0013] 視頻內(nèi)容并不總是用最好的設(shè)備和最好的照片拍攝采集。在該種情況下,數(shù)字圖 像處理,也被稱為視頻增強,可W大幅度提高視頻的可視質(zhì)量,并有助于視頻壓縮過程。一 些用于視頻增強的已知方法使用如W下內(nèi)容的視頻預(yù)處理工具:
[0014] 去交錯值e-interlacing)在拍攝快速移動的對象時,交錯的影片可能會出現(xiàn)問 題。移動對象在"偶數(shù)"的畫面可能在一個地方,而在"奇數(shù)"的畫面可能在另一個地方產(chǎn) 生了非常令人煩擾的"剝離(stripped)"的畫面。
[0015] 去組塊值e-blocking)組塊狀構(gòu)件是當(dāng)前的MPEG的低質(zhì)量高壓縮的視頻的副作 用。去組塊大大提高了該樣的視頻的質(zhì)量。
[0016] 銳化(化a巧ening)強調(diào)質(zhì)感與細(xì)節(jié),當(dāng)后續(xù)處理大部分的數(shù)碼圖像時是非常關(guān) 鍵的。"虛邊蒙片(unsha巧mask)"被實際用于銳化圖像。
[0017] 去噪值e-noising),在發(fā)送或接收"信號"的任何電子設(shè)備中總是存在某種程度的 噪聲。對于電視,該信號是通過電纜發(fā)射或通過天線接收到的廣播數(shù)據(jù);對于數(shù)碼相機,該 信號是到達(dá)相機傳感器的光。視頻去噪是從視頻信號中除去噪聲的處理。
[0018] 穩(wěn)定化(St油ilization)用于減少與相機的運動有關(guān)的模糊。具體地,它可W補 償攝影機或其它成像設(shè)備的搖動和傾斜。對于視頻攝像機,相機抖動引起可見的在錄制的 視頻中的帖到帖抖動(jitter)。
[0019] 攝像機標(biāo)定(Camera化libration)對于為獲得穩(wěn)定可靠的圖像是很重要的。操 作不同步或者不準(zhǔn)確調(diào)整的攝像機可W創(chuàng)建模糊或混亂的圖像。
[0020] 該些工具可W大大提高視頻質(zhì)量,并有助于壓縮過程。該里,忽略該個問題,并假 定視頻已按要求進(jìn)行了預(yù)處理。參見參考文獻(xiàn)[1]w了解更多詳情。
[0021] 數(shù)字視頻包括一起存儲在同一個容器文件中的如視頻、音頻和控制的多個流。例 如,常見的容器格式有;AVI(音頻視頻交錯)、WMV(Windows媒體視頻)、FLV(閃存視頻)、 MOV(蘋果快速時間電影)。視頻流本身通常是獨立于其它流的,或獨立于容器的類型,并且 可W呈現(xiàn)為許多不同的格式。媒體播放器,如蘋果的iTunes和微軟Windows媒體播放器, 使用相應(yīng)的編解碼器(Codec)(編碼器/解碼器,化coder/Decoder)的軟件在屏幕上顯示 該視頻。
[0022] 所顯示的視頻通常W原始RGB顏色空間格式表示,因為人的視覺系統(tǒng)W類似的方 式工作,即,人眼的色覺是基于紅色、綠色和藍(lán)色傳感器。原始的RGB文件100被示意性地描 繪于圖1,其包括頭部部分120,緊隨的是帖130。頭部120包含視頻參數(shù),如;n-行數(shù),m-列 數(shù),化及N-帖數(shù)。帖130包含n*m個像素值,每個像素值均為R、G和B的S元組(triplet)。
[0023] 原始YUV色彩空間格式是用于視頻呈現(xiàn)的另一個非常有用的格式。該里,Y對應(yīng) 于視頻的黑色和白色呈現(xiàn),而U和V對應(yīng)于所添加的顏色差異。有許多類似的公式,用于將 RGB轉(zhuǎn)換到Y(jié)UV或反之。其中一個,見參考文獻(xiàn)巧],例示于圖2中,其中在單元210中給出 了RGB至YUV的變換公式,并且在單元220中給出了YUV至RGB的變換公式。原始YUV文 件300被示意性地描繪于圖3中,其包括如圖1的單元120中的頭部部分310、W及隨后的 Y帖320、U帖330和V帖340。示出了用于Y、U和V分量的典型帖。在下文中,僅考慮容器 文件中的視頻流部分,并且不失一般性地(W. 1.g.),假設(shè)一YUV色彩空間呈現(xiàn)。
[0024] 攝影機可能會在影片中多次改變其視角。場面的該些變化,也被稱為電影的剪輯 (cut),由它們的形狀和內(nèi)容進(jìn)行區(qū)分,參見參考文獻(xiàn)巧]。對壓縮而言,該意味著在剪輯之 間幾乎沒有冗余。
[0025] 剪輯文件400被示意性地描繪于圖4中,其包括頭部部分410、W及隨后的剪輯 420。頭部如下:
[0026] n是行數(shù),m為列數(shù),
[0027]N是帖數(shù),并且M是剪輯數(shù)。
[002引文件的每個剪輯具有與圖3的單元300中給出的YUV文件格式相同的結(jié)構(gòu)。為簡 單起見,從現(xiàn)在開始將著手考慮每個該樣的剪輯的僅一個該樣組成部分。一般化到所有組 成部分是簡單的。
[0029]小波(Wavelet)和多小波(multiwavelet),詳見參考文獻(xiàn)[4],是將在后面的應(yīng)用 中使用的重要的數(shù)學(xué)工具。經(jīng)典的離散小波變換值WT)濾波器示于圖5 ; -對低通和高通 分析濾波器示于單元510,并且一對低通和高通合成濾波器示于單元520。例如,一維哈爾 變換化aartransform)示于單元530。
[0030] 在一般情況下,需要m> 1個濾波器,如在圖6中所描繪的;分析濾波器示于單元 610并且合成濾波器示于單元620。例如2D哈爾變換示于單元630。更一般地,該些濾波器 可W指離散多小波變換值MWT)。
[0031] 整數(shù)?n的點陣(lattice)歐幾里德空間?n中的n元組整數(shù)的集合。帖可W被 表示為點陣? 2上的矩形網(wǎng)格,并且視頻可W被表示為? 3上的立方網(wǎng)格。點陣的一個子 集,其本身也是點陣,被稱為子點陣。圖7給出了子點陣? 2的例子。在單元710中描繪了 梅花形(Quincunx)的子點陣。白色圓圈點對應(yīng)于偶數(shù)子點陣,而黑色圓圈點對應(yīng)于奇數(shù)子 點陣。在單元720中在類似地描繪了雙值的值yadic)子點陣。梅花形子點陣是由單元715 的擴張矩陣(dilationmatrix)來確定的,并且雙值的子點陣是通過單元725的擴張矩陣 來確定的。子點陣的數(shù)量是由相應(yīng)的擴張矩陣的行列式確定的,在梅花形情況下為2,在雙 值的情況下為4。下采樣是指從給定點陣提取子點陣的過程。例如,在圖8中顯示了雙值下 采樣。在單元810中給出了輸入信號,在單元820中給出了時間下采樣,在單元830中給出 了空間下采樣,并在單元840中給出了組合的空間和時間下采樣。
【發(fā)明內(nèi)容】
[0032] 根據(jù)本發(fā)明的一個方面,提供了一種編碼視頻的方法,包括:接收視頻;對接收的 視頻執(zhí)行收縮操作,所述收縮操作包括:從所述視頻創(chuàng)建第一較低分辨率視頻;W及依次 地創(chuàng)建另外的N-1個較低分辨率視頻,另外的較低分辨率視頻中的每一個都是從前一個較 低分辨率視頻創(chuàng)建的;壓縮最低分辨率視頻;通過解壓縮最低分辨率壓縮視頻來創(chuàng)建最低 分辨率重構(gòu)視頻;對最低分辨率重構(gòu)視頻執(zhí)