一種基于視頻內(nèi)容及聚類分析的壓縮碼率預(yù)測(cè)方法
【專利摘要】本發(fā)明公開(kāi)一種基于視頻內(nèi)容及聚類分析的壓縮碼率預(yù)測(cè)方法,該方法首先對(duì)視頻的每一幀做sobel濾波,得到空間復(fù)雜度信息;然后對(duì)相鄰兩幀的亮度信息做差值,得到時(shí)間復(fù)雜度信息;接著對(duì)空間信息及時(shí)間信息,利用k?means方法做聚類分析;隨后在每一個(gè)類上,做系數(shù)回歸,得到預(yù)測(cè)模型,并利用該模型預(yù)測(cè)壓縮碼率。本發(fā)明提出的先進(jìn)行k?means聚類分析,再在每個(gè)類上做回歸預(yù)測(cè)的方法,明顯提升了模型的預(yù)測(cè)準(zhǔn)確率用。此種“先聚類再回歸”的方法來(lái)進(jìn)行預(yù)測(cè),能夠獲得更好的效果。
【專利說(shuō)明】
一種基于視頻內(nèi)容及聚類分析的壓縮碼率預(yù)測(cè)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種視頻質(zhì)量評(píng)測(cè)領(lǐng)域的方法,具體是一種基于視頻空間信息及時(shí)間 信息,通過(guò)對(duì)視頻源序列做聚類分析后,在具有相似特性的每一類中運(yùn)用無(wú)參考視頻質(zhì)量 評(píng)價(jià)模型的壓縮碼率預(yù)測(cè)方法。
【背景技術(shù)】
[0002] 多媒體的飛速發(fā)展也為視頻觀看提供了多種終端選擇,包括大屏幕的TV、小尺寸 的智能手機(jī),以及尺寸介于兩者之間的平板電腦等。觀看者對(duì)視頻數(shù)量及質(zhì)量的追求逐漸 提升,對(duì)于設(shè)備的更大存儲(chǔ)空間及更高壓縮碼率的要求也隨之增高。因此,在達(dá)到一定的視 頻質(zhì)量時(shí),如何找到盡可能小的壓縮碼率成為本專利的研究要點(diǎn)。為此,本專利提出了一種 基于視頻內(nèi)容及聚類分析的壓縮碼率預(yù)測(cè)方法。
[0003] 視頻質(zhì)量評(píng)測(cè)可以主要分為兩大種方法:主觀及客觀。客觀質(zhì)量評(píng)測(cè)與主觀方法 相比較,更為靈活、快捷、易于實(shí)踐。客觀質(zhì)量評(píng)測(cè)又分為全參考、部分參考及無(wú)參考評(píng)測(cè)方 法。其中,無(wú)參考視頻質(zhì)量評(píng)價(jià)方法直接對(duì)視頻進(jìn)行分析,隨后對(duì)視頻質(zhì)量好壞做出評(píng)估。 目前已有一大類基于視頻本身信息參數(shù)的無(wú)參考視頻質(zhì)量評(píng)測(cè)方法,由于其不需要對(duì)視頻 源序列進(jìn)行壓縮處理,方法的復(fù)雜度較低,也易于實(shí)踐,因此該方法可以應(yīng)用于實(shí)時(shí)系統(tǒng) 中,具有實(shí)際應(yīng)用意義。
[0004] 現(xiàn)有的研究結(jié)果表明,視頻主觀質(zhì)量主要受以下幾個(gè)因素影響:編碼方式、視頻內(nèi) 容、壓縮碼率、視頻幀率以及視頻分辨率。目前所提出的一些基于視頻參數(shù)模型的無(wú)參考視 頻質(zhì)量評(píng)測(cè)方法也基本基于以上五個(gè)元素中的一種或幾種。如Motohiro Takagi等人在 2014年IEEE International Conference on Visual Communications and Image Processing,pp. 33-36(2014年IEEE視覺(jué)通信與圖像處理國(guó)際會(huì)議,33至36頁(yè))上發(fā)表的 "Optimized spatial and temporal resolution based on subjective quality estimation without encoding"(基于非編碼主觀質(zhì)量估計(jì)的時(shí)域及空域分辨率優(yōu)化)文 章中,即利用壓縮碼率及視頻幀率對(duì)視頻質(zhì)量進(jìn)行預(yù)測(cè)。
[0005] 然而,已有的無(wú)參考視頻質(zhì)量評(píng)價(jià)的多為對(duì)視頻運(yùn)動(dòng)信息或編碼信息進(jìn)行提取 后,
[0006] 對(duì)視頻質(zhì)量直接進(jìn)行預(yù)測(cè),很少針對(duì)視頻內(nèi)容的類別做分析。已有的為數(shù)不多的 通過(guò)對(duì)視頻進(jìn)行分類后做預(yù)測(cè)的方法,也多為通過(guò)肉眼觀察視頻內(nèi)容進(jìn)行分類,如分為"新 聞?lì)?、"動(dòng)畫片類"等等。在準(zhǔn)確性上仍然差強(qiáng)人意。
[0007]為此,本發(fā)明提出基于視頻內(nèi)容本身信息并且利用聚類分析做壓縮碼率預(yù)測(cè)的方 法,以提高模型預(yù)測(cè)的準(zhǔn)確性與實(shí)用性。
【發(fā)明內(nèi)容】
[0008]本發(fā)明在現(xiàn)有無(wú)參考視頻客觀質(zhì)量評(píng)價(jià)方法的基礎(chǔ)上,提供一種基于視頻內(nèi)容及 聚類分析的壓縮碼率預(yù)測(cè)方法,對(duì)視頻本身信息進(jìn)行分類,以此提高預(yù)測(cè)準(zhǔn)確性。
[0009]為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0010] S1:對(duì)視頻的每一幀做sobel濾波,得到空間信息SI;對(duì)相鄰兩幀的亮度信息做差 值,得到時(shí)間彳目息TI;
[0011] S2:對(duì)S1得到的空間信息SI及時(shí)間信息TI,利用k-means方法做聚類分析,得到多 個(gè)類;
[0012] S3:在S2的每一個(gè)類上,做系數(shù)回歸,得到壓縮碼率預(yù)測(cè)模型,并利用該模型預(yù)測(cè) 壓縮碼率。通過(guò)在每個(gè)類上對(duì)其進(jìn)行回歸,提高預(yù)測(cè)準(zhǔn)確性。
[0013]較優(yōu)地,所述S1:對(duì)于原視頻序列的第n幀圖像,用下列兩個(gè)公式分別進(jìn)行處理,從 而得到空間信息SI(Spatial Information)及時(shí)間信息TI(Temporal Information):
[0014] SI =maxtime {stdspace[ Sobe 1 (Fn) ]}
[0015] TI=maxtime{stdspace[Fn(i , j)-Fn-l(i , j)]}
[0016] 其中Fn是當(dāng)前幀的亮度信息,Sobel表示經(jīng)典圖像處理中的Sobel算子,8七(1_"5表 示對(duì)該幀內(nèi)的經(jīng)過(guò)Sobel計(jì)算得到的結(jié)果求標(biāo)準(zhǔn)差,maxtime表示對(duì)所有幀經(jīng)過(guò)標(biāo)準(zhǔn)差計(jì)算 得到的結(jié)果取最大值。
[0017]較優(yōu)地,所述S2:取S1中的空間信息SI及時(shí)間信息TI結(jié)果,帶入K-means算法中做 聚類分析,采用歐式距離的平方(Squared Euclidean distance)作為計(jì)算聚類的距離指 標(biāo)。同時(shí),采用K-means聚類分析中的silhouette值作為聚類結(jié)果分析指標(biāo),通過(guò)分析該值, 確定最終的聚類個(gè)數(shù)。最后,將具有相似SI及TI信息的視頻聚攏為一類。
[0018]較優(yōu)地,所述S3,在S2完成聚類分析后,在每一個(gè)聚攏的類上,將S1中計(jì)算的空間 信息SI及時(shí)間信息TI帶入以下壓縮碼率預(yù)測(cè)模型中,對(duì)應(yīng)不同的視頻的序列,帶入不同的 視頻主觀質(zhì)量評(píng)測(cè)M0S分值,得到壓縮碼率的預(yù)測(cè)值,實(shí)現(xiàn)對(duì)特定質(zhì)量要求下視頻壓縮所需 碼率的預(yù)測(cè):
[0024] 其中,ci到C6為模型參數(shù)。a、0、y只是中間參數(shù)。M0S(Mean Opinion Score)表示視 頻主觀測(cè)試分值,根據(jù)不同的測(cè)試方法有不同的取值,本發(fā)明采取了 ITU-RBT-500文件中的 DSI Variant II方法,并且采用了5分制的原則,即:1分表示質(zhì)量非常差;2分表示質(zhì)量較 差;3分表不質(zhì)量一般;4分表不質(zhì)量較好;5分表不質(zhì)量非常好。另外,TI及SI分別代表時(shí)間 信息及空間信息。v c代表的是視頻內(nèi)容(video content),由TI及SI確定。BRP則表示的是預(yù) 測(cè)的壓縮碼率。
[0025] 進(jìn)一步的,所述模型參數(shù)(^,(^,(^,(^,(^,(^通過(guò)以下方法確定:在保證實(shí)際應(yīng)用中 的編碼器類型、視頻分辨率和幀率與主觀視頻質(zhì)量評(píng)價(jià)材料一致情況下,運(yùn)用主觀質(zhì)量評(píng) 價(jià)結(jié)果對(duì)提出的數(shù)學(xué)模型進(jìn)行最小二乘回歸計(jì)算,求出針對(duì)特定應(yīng)用的模型參數(shù)。
[0026] 本發(fā)明考慮了視頻內(nèi)容對(duì)視頻質(zhì)量的影響,利用空間信息與時(shí)間信息做為視頻內(nèi) 容特征,并且對(duì)視頻內(nèi)容特征做聚類分析,將具有相似特征的視頻聚攏為一類。對(duì)基于視頻 參數(shù)的模型進(jìn)行反變換后,即可結(jié)合視頻內(nèi)容與要求的視頻質(zhì)量,在每一個(gè)類中做壓縮碼 率預(yù)測(cè)。此方法通常可以用在編碼之前,用來(lái)確定達(dá)到要求的視頻質(zhì)量之時(shí)所需要的大致 壓縮碼率。
[0027] 與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:
[0028]本發(fā)明提出的先進(jìn)行k-means聚類分析,再在每個(gè)類上做回歸預(yù)測(cè)的方法,明顯提 升了模型的預(yù)測(cè)準(zhǔn)確率用。此種"先聚類再回歸"的方法來(lái)進(jìn)行預(yù)測(cè),能夠獲得更好的效果。
【附圖說(shuō)明】
[0029] 通過(guò)閱讀參照以下附圖,對(duì)于本發(fā)明的特征、目的和優(yōu)點(diǎn)以及整體方法將會(huì)變得 更明顯清晰:
[0030] 圖1是基于視頻內(nèi)容與聚類分析的壓縮碼率預(yù)測(cè)方法的流程框圖。
[0031] 圖2是本發(fā)明一實(shí)施例中用來(lái)回歸模型參數(shù)的視頻源序列的空間信息與時(shí)間信 息。
[0032] 圖3是使用本發(fā)明方法后的預(yù)測(cè)結(jié)果。
【具體實(shí)施方式】
[0033]下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù) 人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù) 人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明 的保護(hù)范圍。
[0034] 以下結(jié)合本發(fā)明方法在無(wú)參考客觀視頻質(zhì)量評(píng)價(jià)應(yīng)用描述具體實(shí)施例,即將本發(fā) 明提出的利用TI及SI進(jìn)行聚類分析,之后在每個(gè)類進(jìn)行回歸預(yù)測(cè)應(yīng)用于質(zhì)量評(píng)價(jià),具體流 程框圖如圖1所示。此處將本發(fā)明應(yīng)用到利用HEVC壓縮編碼的幀率為30f ps的4K超高清視頻 序列中。需要說(shuō)明的是,該結(jié)果(如皮爾森相關(guān)系數(shù)PCC)僅適用于HEVC編碼的幀率為30fps 的4K視頻,對(duì)于不同場(chǎng)景下的應(yīng)用,可能出現(xiàn)不同結(jié)果。但整體的方法是通用的,不影響本 發(fā)明的實(shí)質(zhì)。
[0035] 下面首先介紹視頻時(shí)間復(fù)雜度的提取步驟,然后介紹視頻空間復(fù)雜度的提取步 驟,接下來(lái)將在此基礎(chǔ)之上詳細(xì)介紹k-means聚類方法,及聚類個(gè)數(shù)分析方法,最后介紹所 建立的無(wú)參考視頻質(zhì)量評(píng)價(jià)模型。
[0036] 1)計(jì)算視頻的空間及時(shí)間信息。
[0037] SI =maxtime {stdspace[ Sobe 1 (Fn) ]}
[0038] TI=maxtime{stdspace[Fn(i , j)-Fn-l(i , j)]}
[0039]其中Fn是當(dāng)前幀的亮度信息,Sobel表示經(jīng)典圖像處理中的Sobel算子,Stdspace表 示對(duì)該幀內(nèi)的經(jīng)過(guò)Sobel計(jì)算得到的結(jié)果求標(biāo)準(zhǔn)差,maxtime表示對(duì)所有幀經(jīng)過(guò)標(biāo)準(zhǔn)差計(jì)算 得到的結(jié)果取最大值。
[0040 ] 2)對(duì)視頻的SI及TI進(jìn)行K-means聚類分析。
[0041 ] 本發(fā)明利用k-means方法進(jìn)行聚類分析,由于k-means為無(wú)監(jiān)督學(xué)習(xí)方法,只需要 確定所聚的類數(shù)。故并選擇silhouette值作為評(píng)測(cè)不同類數(shù)下聚類結(jié)果的指標(biāo)。該指標(biāo)取 值范圍[_1,1],通常該值越大,說(shuō)明該視頻序列離其他類越遠(yuǎn),在其所屬類中的聚合效果越 好。
[0042]在分析silhouette的結(jié)果時(shí),本發(fā)明選擇以下四個(gè)特征進(jìn)行結(jié)果分析:最小值 Silhmin,最大值SilhmaX,均值Silhm_以及標(biāo)準(zhǔn)差Silhdev。下面以表一為例進(jìn)行分析。其中, 1(。 3表示聚類個(gè)數(shù)。
[0043] 表一不同類數(shù)的聚類分析silhouette值結(jié)果
[0045]當(dāng)la = 2時(shí),盡管其均值最高,且標(biāo)準(zhǔn)差排在第二小,但是通過(guò)后續(xù)對(duì)每一類進(jìn)行 回歸預(yù)測(cè)時(shí),發(fā)現(xiàn)準(zhǔn)確率低,效果較差。其根本原因還在于只聚為2類,類數(shù)過(guò)少,此時(shí)的結(jié) 果與未聚類的差別很小。即,聚為2類時(shí),盡管在數(shù)據(jù)上符合要求,可沒(méi)有實(shí)際的意義。
[0046]當(dāng)Kca = 3時(shí),其最小值低至0.1383,這意味著聚類效果非常差,只有一個(gè)類的聚攏 結(jié)果不明顯。因此,需要更多的類數(shù)才能滿足要求。
[0047]當(dāng)Kca = 5時(shí),其最大值為1,從數(shù)據(jù)上看這說(shuō)明聚攏效果非常非常好。可是從結(jié)果上 看,該類中只有一個(gè)視頻序列,即,此時(shí)的類數(shù)過(guò)多,應(yīng)減少類數(shù)。
[0048]綜上分析,取值為4時(shí)有最佳的聚攏效果。
[0049]確定聚類分析的類數(shù)后,即可按照k-means算法進(jìn)行聚類分析。最后,將具有相似 空間信息SI及時(shí)間信息TI特征的視頻聚攏為一類。
[0050] 3)根據(jù)聚類分析結(jié)果,在每個(gè)類上,對(duì)該類中的視頻進(jìn)行做回歸,從而提高預(yù)測(cè)準(zhǔn) 確率。
[0051] 進(jìn)行聚類分析后,在每一個(gè)類中,利用最小二乘法回歸得到模型參數(shù)cjljC6,隨后 利用無(wú)參考視頻質(zhì)量評(píng)價(jià)模型進(jìn)行壓縮碼率的預(yù)測(cè)。
[0052]以上海交通大學(xué)圖像通信與網(wǎng)絡(luò)工程研究所公開(kāi)的4K分辨率視頻數(shù)據(jù)庫(kù)為例 (http: //medialab ? s jtu. edu ? cn/resources/resources .html),該數(shù)據(jù)庫(kù)以 10個(gè)參考視頻 為基礎(chǔ),分別以6個(gè)碼率點(diǎn)對(duì)其進(jìn)行壓縮,并給出相應(yīng)的主觀DM0S值。斯皮爾曼系數(shù)(SR0CC) 和皮爾森系數(shù)(LCC)被用來(lái)作為衡量預(yù)測(cè)準(zhǔn)確性的指標(biāo)。
[0053]表二通過(guò)聚類分析后,每一類的預(yù)測(cè)結(jié)果,以及未進(jìn)行聚類分析時(shí)的預(yù)測(cè)結(jié)果???以看出,事先進(jìn)行聚類分析后,PCC最高提升了28.76 %,RMSE最高降低了68.98%。通過(guò)本發(fā) 明,確實(shí)獲得了更好的效果。
[0054]表二預(yù)測(cè)結(jié)果
[0056]^以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,本發(fā)明的保護(hù)范圍不僅局限于上述實(shí)施 例,凡屬于本發(fā)明思路下的技術(shù)方案均屬于本發(fā)明的保護(hù)范疇。應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域 的技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理前提下的若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也都應(yīng) 視為本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種基于視頻內(nèi)容及聚類分析的壓縮碼率預(yù)測(cè)方法,其特征在于包括如下步驟: S1:對(duì)視頻的每一幀做sobel濾波,得到空間信息SI;對(duì)相鄰兩幀的亮度信息做差值,得 到時(shí)間信息TI; S2:對(duì)S1得到的空間信息SI及時(shí)間信息TI,利用k-means方法做聚類分析,得到多個(gè)類; S3:在S2的每一個(gè)類上,做系數(shù)回歸,得到壓縮碼率預(yù)測(cè)模型,并利用該模型預(yù)測(cè)壓縮 碼率。2. 根據(jù)權(quán)利要求1所述的基于視頻內(nèi)容及聚類分析的壓縮碼率預(yù)測(cè)方法,其特征在于: 所述S1:對(duì)于原視頻序列的第η幀圖像,用下列兩個(gè)公式分別進(jìn)行處理,從而得到空間信息 SI及時(shí)間信息ΤΙ: SI - mclXtime { Stdspace [ S〇b? 1 (Fn) ] } TI =maxtime{ stdspace[Fn( i,j) _Fn-l(i,j) ]} 其中Fn是當(dāng)前幀的亮度信息,Sobel表示經(jīng)典圖像處理中的Sobel算子,Stdspace表示對(duì) 該幀內(nèi)的經(jīng)過(guò)Sobel計(jì)算得到的結(jié)果求標(biāo)準(zhǔn)差,maxtime表示對(duì)所有幀經(jīng)過(guò)標(biāo)準(zhǔn)差計(jì)算得到 的結(jié)果取最大值。3. 根據(jù)權(quán)利要求1所述的基于視頻內(nèi)容及聚類分析的壓縮碼率預(yù)測(cè)方法,其特征在于: 所述S2:取S1中的空間信息SI及時(shí)間信息TI結(jié)果,帶入K-means算法中做聚類分析,采用歐 式距離的平方作為計(jì)算聚類的距離指標(biāo),同時(shí),采用K-means聚類分析中的silhouette值作 為聚類結(jié)果分析指標(biāo),通過(guò)分析該si lhouette值,確定最終的聚類個(gè)數(shù),最后,將具有相似 空間信息SI及時(shí)間信息TI特征的視頻聚攏為一類。4. 根據(jù)權(quán)利要求1-3任一項(xiàng)所述的基于視頻內(nèi)容及聚類分析的壓縮碼率預(yù)測(cè)方法,其 特征在于:所述S3:在S2完成聚類分析后,在每一個(gè)聚攏的類上,將S1中計(jì)算的空間信息SI 及時(shí)間信息TI帶入以下壓縮碼率預(yù)測(cè)模型中,對(duì)應(yīng)不同的視頻的序列,帶入不同的視頻主 觀質(zhì)量評(píng)測(cè)M0S分值,得到壓縮碼率的預(yù)測(cè)值,實(shí)現(xiàn)對(duì)特定質(zhì)量要求下視頻壓縮所需碼率的 預(yù)測(cè):γ (vc)=C4+C5 · log(vc) (5) 其中,CjljC6為模型參數(shù),α、β、γ只是中間參數(shù),M0S表示視頻主觀測(cè)試分值,采取ITU-RBT-500文件中的DSI Variant II方法,并且采用了5分制的原則,即:1分表示質(zhì)量非常差, 2分表不質(zhì)量較差,3分表不質(zhì)量一般,4分表不質(zhì)量較好,5分表不質(zhì)量非常好;TI及SI分別 代表時(shí)間信息及空間信息;代表的是視頻內(nèi)容,由SI及TI確定,BR^lj表示的是預(yù)測(cè)的壓縮 碼率。5. 根據(jù)權(quán)利要求4所述的基于視頻內(nèi)容及聚類分析的壓縮碼率預(yù)測(cè)方法,其特征在于: 所述模型參數(shù)ci,C 2,C3,C4,C5C6通過(guò)以下方法確定:在保證實(shí)際應(yīng)用中的編碼器類型、視頻 分辨率和幀率與主觀視頻質(zhì)量評(píng)價(jià)材料一致情況下,運(yùn)用主觀質(zhì)量評(píng)價(jià)結(jié)果對(duì)提出的數(shù)學(xué) 模型進(jìn)行最小二乘回歸計(jì)算,求出針對(duì)特定應(yīng)用的模型參數(shù)。
【文檔編號(hào)】H04N17/00GK105959685SQ201610378960
【公開(kāi)日】2016年9月21日
【申請(qǐng)日】2016年5月31日
【發(fā)明人】宋利, 朱雨桐, 解蓉, 張文軍
【申請(qǐng)人】上海交通大學(xué)