專利名稱:基于視頻幀運(yùn)動(dòng)的自動(dòng)關(guān)注區(qū)檢測(cè)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻幀內(nèi)的關(guān)注區(qū)(ROI)檢測(cè),且更明確地說,涉及用于自動(dòng)檢測(cè)多媒體應(yīng)用的視頻幀內(nèi)的ROI的技術(shù)。
背景技術(shù):
視頻序列的視頻幀內(nèi)的自動(dòng)關(guān)注區(qū)(ROI)檢測(cè)可在各種各樣的多媒體應(yīng)用(例如,視頻監(jiān)視、視頻廣播和視頻電話(VT)應(yīng)用)的ROI視頻處理系統(tǒng)中使用。在一些情況下,ROI視頻處理系統(tǒng)可以是ROI視頻編碼系統(tǒng)。在其它情況下,ROI視頻處理系統(tǒng)可包括ROI視頻增強(qiáng)系統(tǒng)或另一類型的視頻處理系統(tǒng)。ROI可被稱為視頻幀內(nèi)的“前景”區(qū),且非ROI區(qū)可被稱為視頻幀內(nèi)的“背景”區(qū)。ROI的典型實(shí)例是人臉。ROI視頻處理系統(tǒng)可相對(duì)于視頻序列的視頻幀內(nèi)的非ROI區(qū)而擇優(yōu)利用從所述視頻幀檢測(cè)到的ROI。
在ROI視頻編碼系統(tǒng)的情況下,已經(jīng)提出了視頻序列的視頻幀內(nèi)的選定部分的擇優(yōu)編碼。舉例來說,可用較高質(zhì)量對(duì)視頻幀內(nèi)的自動(dòng)檢測(cè)到的ROI進(jìn)行編碼,以傳輸?shù)揭曨l電話(VT)應(yīng)用中的接收者。在非常低位速率應(yīng)用(例如移動(dòng)VT)中,ROI擇優(yōu)編碼可改進(jìn)經(jīng)編碼的視頻序列的主觀質(zhì)量。利用ROI的擇優(yōu)編碼,與非ROI區(qū)域相比,接受者能夠更清楚地觀看ROI。可通過與視頻幀的非ROI(或背景)區(qū)域相比,將更大比例的編碼位分配給ROI,來對(duì)視頻幀的ROI進(jìn)行擇優(yōu)編碼。跳過視頻幀的非ROI區(qū)允許保存編碼位以分配給ROI。前一幀的經(jīng)編碼的非ROI區(qū)可代替當(dāng)前幀中跳過的非ROI區(qū)。
從視頻俘獲裝置接收到的視頻幀通常在被應(yīng)用到啟用ROI的視頻編碼器、啟用ROI的視頻增強(qiáng)器或類似的多媒體裝置之前被處理。舉例來說,視頻處理方案可自動(dòng)檢測(cè)視頻幀內(nèi)的ROI。按照慣例,阻止啟用ROI的視頻通信系統(tǒng)的快速進(jìn)步和廣泛部署的主要障礙是自動(dòng)ROI檢測(cè)的穩(wěn)健性。一些自動(dòng)ROI檢測(cè)方案提出一種簡(jiǎn)單的基于膚色的面部檢測(cè)方法,其基于從輸入視頻圖像的色度分量導(dǎo)出的膚色圖(skin-tone map)而檢測(cè)具有膚色外觀的像素。其它方案提出一種照明補(bǔ)償模型來校正面部檢測(cè)的色彩偏差。另外,自動(dòng)ROI檢測(cè)方案可構(gòu)造眼睛、嘴和邊界圖來檢驗(yàn)面部候選物,或在人臉的重要面部特征處使用具有較大量值的特征掩模(eigenmask)來改進(jìn)ROI檢測(cè)準(zhǔn)確性。
發(fā)明內(nèi)容
一般來說,本發(fā)明針對(duì)基于視頻序列的視頻幀內(nèi)的低復(fù)雜性自動(dòng)關(guān)注區(qū)(ROI)檢測(cè)而進(jìn)行ROI視頻處理的技術(shù)。所述低復(fù)雜性自動(dòng)ROI檢測(cè)可基于視頻通信裝置內(nèi)的視頻傳感器的特性。舉例來說,視頻傳感器可駐留在所謂的相機(jī)電話或視頻電話內(nèi)。在其它情況下,所述低復(fù)雜性自動(dòng)ROI檢測(cè)可基于視頻序列的一視頻幀和所述視頻序列的一不同視頻幀的運(yùn)動(dòng)信息。所述技術(shù)可能在視頻電話(VT)應(yīng)用(例如視頻串流和視頻會(huì)議)中有用,且尤其在低位速率無線通信應(yīng)用(例如移動(dòng)VT)中有用。
ROI視頻處理涉及ROI的擇優(yōu)處理。舉例來說,ROI視頻編碼算法可將額外的編碼位分配給視頻幀內(nèi)的ROI,且將減小數(shù)目的編碼位分配給視頻幀內(nèi)的非ROI區(qū)。ROI的典型實(shí)例是人臉。非ROI區(qū)可被稱為“背景”區(qū),但非ROI區(qū)更一般地包含視頻幀的不形成ROI的一部分的任何區(qū)。因此,在整個(gè)本發(fā)明中,術(shù)語“非ROI”和“背景”可以互換使用,來指代不在ROI內(nèi)的區(qū)。
所揭示的技術(shù)包含視頻處理技術(shù),其能夠基于特定視頻傳感器的特性來調(diào)諧并增強(qiáng)視頻通信裝置內(nèi)的視頻傳感器校準(zhǔn)、相機(jī)處理、ROI檢測(cè)和ROI視頻處理。視頻處理技術(shù)可普遍地應(yīng)用于不同類型的視頻傳感器。另外,所述技術(shù)允許視頻通信裝置內(nèi)的組件之間的靈活通信和協(xié)作。以此方式,所揭示的技術(shù)可基于與視頻傳感器相關(guān)聯(lián)的物理特性和統(tǒng)計(jì)資料而增強(qiáng)ROI視頻處理性能。
所揭示的技術(shù)還包含基于傳感器的ROI檢測(cè)技術(shù),其使用視頻傳感器統(tǒng)計(jì)資料和相機(jī)處理側(cè)信息來改進(jìn)ROI檢測(cè)準(zhǔn)確性,其直接增強(qiáng)了ROI視頻處理性能。舉例來說,皮膚區(qū)域檢測(cè)器使用視頻傳感器統(tǒng)計(jì)資料來準(zhǔn)確地檢測(cè)視頻幀內(nèi)的皮膚圖,且面部檢測(cè)器使用所述皮膚圖來檢測(cè)所述視頻幀內(nèi)的一個(gè)或一個(gè)以上面部。所揭示的技術(shù)還包含基于運(yùn)動(dòng)的ROI檢測(cè)技術(shù),其使用視頻處理中的運(yùn)動(dòng)估計(jì)期間獲得的運(yùn)動(dòng)信息。舉例來說,面部檢測(cè)器使用皮膚圖和運(yùn)動(dòng)信息(例如,運(yùn)動(dòng)向量)來執(zhí)行低復(fù)雜性面部檢測(cè),所述低復(fù)雜性面部檢測(cè)基于運(yùn)動(dòng)信息而有效地提取所述皮膚圖內(nèi)的一個(gè)或一個(gè)以上面部(即,ROI)。
自動(dòng)ROI檢測(cè)技術(shù)接著可針對(duì)視頻幀內(nèi)檢測(cè)到的面部中的每一者產(chǎn)生ROI。所揭示的技術(shù)將包含所產(chǎn)生的ROI的視頻幀應(yīng)用于ROI視頻處理。舉例來說,所述技術(shù)可將視頻幀應(yīng)用于ROI視頻編碼算法,所述ROI視頻編碼算法使用經(jīng)加權(quán)的位分配和自適應(yīng)背景跳過來提供優(yōu)越的編碼效率。
在一個(gè)實(shí)施例中,本發(fā)明提供一種方法,其包括接收視頻序列的視頻幀的皮膚圖;以及接收所述視頻序列的所述視頻幀和一不同視頻幀的運(yùn)動(dòng)信息。所述方法還包括基于所述視頻幀中的宏區(qū)塊相對(duì)于所述視頻幀的皮膚圖和所述不同視頻幀內(nèi)的ROI的位置而自動(dòng)檢測(cè)所述視頻幀內(nèi)的ROI。
在另一實(shí)施例中,本發(fā)明提供一種計(jì)算機(jī)可讀媒體,其包括致使可編程處理器接收視頻序列的視頻幀的皮膚圖并接收所述視頻序列的所述視頻幀和一不同視頻幀的運(yùn)動(dòng)信息的指令。所述指令還致使可編程處理器基于所述視頻幀中的宏區(qū)塊相對(duì)于所述視頻幀的皮膚圖和所述不同視頻幀內(nèi)的ROI的位置而自動(dòng)檢測(cè)所述視頻幀內(nèi)的ROI。
在另一實(shí)施例中,本發(fā)明提供一種視頻處理系統(tǒng),所述視頻處理系統(tǒng)包括皮膚區(qū)域檢測(cè)器,其產(chǎn)生視頻序列的視頻幀的皮膚圖;以及ROI視頻處理模塊,其產(chǎn)生所述視頻序列的所述視頻幀和一不同視頻幀的運(yùn)動(dòng)信息。所述系統(tǒng)還包含ROI檢測(cè)器,其接收所述視頻幀的皮膚圖和運(yùn)動(dòng)信息,并基于所述視頻幀中的宏區(qū)塊相對(duì)于所述視頻幀的皮膚圖和所述不同視頻幀內(nèi)的ROI的位置而自動(dòng)檢測(cè)所述視頻幀內(nèi)的ROI。
本文所描述的技術(shù)可在硬件、軟件、固件或其任一組合中實(shí)施。如果在軟件中實(shí)施,那么所述技術(shù)可部分地由包括程序代碼的計(jì)算機(jī)可讀媒體來實(shí)現(xiàn),所述程序代碼含有指令,所述指令在由可編程處理器執(zhí)行時(shí),執(zhí)行本文描述的方法中的一者或一者以上。
在下文的附圖和描述內(nèi)容中陳述一個(gè)或一個(gè)以上實(shí)施例的細(xì)節(jié)。從描述內(nèi)容和附圖且從權(quán)利要求書中將了解其它特征、目的和優(yōu)勢(shì)。
圖1是說明并入有關(guān)注區(qū)(ROI)視頻處理系統(tǒng)的示范性視頻通信裝置的框圖。
圖2A和圖2B是說明視頻序列的視頻幀內(nèi)的ROI和非ROI區(qū)的定義的圖。
圖3說明視頻序列的ROI內(nèi)所呈現(xiàn)的對(duì)象的對(duì)象移動(dòng)/旋轉(zhuǎn)和形狀變形的變化。
圖4說明視頻序列的ROI內(nèi)人的面部表情的變化。
圖5是說明視頻通信裝置內(nèi)基于視頻傳感器的特性對(duì)視頻幀的ROI擇優(yōu)編碼的ROI視頻處理系統(tǒng)的框圖。
圖6A說明視頻傳感器的示范性膚色反射譜。
圖6B說明麥克貝斯色彩測(cè)試標(biāo)板(Macbeth ColorChecker)測(cè)試目標(biāo)的示范性反射譜。
圖6C說明檢驗(yàn)原始與重構(gòu)的膚色反射譜的一致性的示范性反射譜。
圖7是說明視頻通信裝置中所包含的ROI視頻處理系統(tǒng)的基于視頻傳感器的特性的操作的流程圖。
圖8是說明來自ROI視頻處理系統(tǒng)的ROI檢測(cè)器的框圖。
圖9A到圖9G是說明在自動(dòng)檢測(cè)基于傳感器特定統(tǒng)計(jì)資料而產(chǎn)生的視頻幀的皮膚圖內(nèi)的ROI時(shí)由來自圖8的ROI檢測(cè)器實(shí)施的技術(shù)的示范性結(jié)果的屏幕截圖。
圖10A和圖10B是說明ROI視頻處理系統(tǒng)的ROI檢測(cè)模塊內(nèi)的ROI檢測(cè)器的操作的流程圖。
具體實(shí)施例方式 圖1是說明并入有關(guān)注區(qū)(ROI)視頻處理系統(tǒng)14的示范性視頻通信裝置10的框圖。ROI視頻處理系統(tǒng)14實(shí)施基于視頻傳感器12的特性的低復(fù)雜性ROI視頻處理的技術(shù)。在其它情況下,ROI視頻處理系統(tǒng)14還可實(shí)施基于視頻幀的運(yùn)動(dòng)信息的低復(fù)雜性ROI視頻處理的技術(shù)。如圖1中所示,視頻通信裝置10包含視頻俘獲裝置,其包含視頻傳感器12、ROI視頻處理系統(tǒng)14和視頻存儲(chǔ)器16。視頻傳感器12俘獲視頻幀,且可具備相機(jī)。低復(fù)雜性ROI視頻處理技術(shù)可能在視頻通信裝置10與另一視頻通信裝置之間的視頻電話(VT)應(yīng)用(例如視頻串流和視頻會(huì)議)中有用。所述技術(shù)可能在低位速率無線通信應(yīng)用(例如移動(dòng)VT)中尤其有用。
ROI視頻處理系統(tǒng)14可包含許多組件,例如視頻傳感器校準(zhǔn)模塊、相機(jī)處理模塊、ROI檢測(cè)模塊和ROI視頻處理模塊,可基于視頻傳感器12的傳感器特定特性來調(diào)諧上述模塊中的每一者,以增強(qiáng)ROI視頻處理性能。因此,ROI視頻處理系統(tǒng)14可基于各種視頻傳感器的物理特性和處理能力,來準(zhǔn)確地處理由不同視頻俘獲裝置產(chǎn)生的視頻幀。在一些情況下,ROI視頻處理系統(tǒng)14可以是ROI視頻編碼系統(tǒng)。在其它情況下,ROI視頻處理系統(tǒng)14可包括ROI視頻增強(qiáng)系統(tǒng)或另一類型的視頻處理系統(tǒng)。
ROI視頻處理系統(tǒng)14使用視頻傳感器12的特性來自動(dòng)檢測(cè)從視頻傳感器12接收的視頻幀內(nèi)的ROI,且相對(duì)于視頻幀內(nèi)的非ROI區(qū)而擇優(yōu)處理檢測(cè)到的ROI。檢測(cè)到的ROI可能是視頻通信裝置10的用戶所關(guān)注的。舉例來說,視頻幀的ROI可包括人臉。ROI可被稱為視頻幀內(nèi)的“前景”區(qū),且非ROI區(qū)可被稱為視頻幀內(nèi)的“背景”區(qū)。
ROI視頻處理系統(tǒng)14執(zhí)行視頻傳感器12的校準(zhǔn),其基于視頻傳感器12和測(cè)試目標(biāo)的膚色反射譜的相關(guān)性而產(chǎn)生傳感器特定統(tǒng)計(jì)資料,所述測(cè)試目標(biāo)例如是可從紐約,新溫莎的格靈達(dá)-麥克貝斯(GretagMacbeth)LLC購得的麥克貝斯色彩測(cè)試標(biāo)板表。視頻傳感器12通常指代相機(jī)中所使用的感測(cè)元件陣列。在一些情況下,視頻傳感器12可包含互補(bǔ)金屬氧化物半導(dǎo)體(CMOS)圖像感測(cè)元件陣列。
ROI視頻處理系統(tǒng)14還基于傳感器特定統(tǒng)計(jì)資料和從與視頻俘獲裝置11相關(guān)聯(lián)的傳感器12接收到的視頻序列的視頻幀而執(zhí)行相機(jī)處理,以估計(jì)所述視頻幀的照明條件。ROI視頻處理系統(tǒng)14接著可基于傳感器特定統(tǒng)計(jì)資料和相機(jī)處理信息自動(dòng)檢測(cè)視頻幀內(nèi)的ROI。在一些情況下,ROI視頻處理系統(tǒng)14可基于傳感器特定統(tǒng)計(jì)資料、相機(jī)處理信息和通過跟蹤視頻序列的當(dāng)前視頻幀與前一視頻幀之間的ROI而從視頻處理獲得的運(yùn)動(dòng)信息(例如,運(yùn)動(dòng)向量),來自動(dòng)檢測(cè)視頻序列的當(dāng)前視頻幀內(nèi)的ROI。
ROI視頻處理系統(tǒng)14接著擇優(yōu)處理包含檢測(cè)到的ROI的視頻幀,并將所述視頻幀存儲(chǔ)在視頻存儲(chǔ)器16中。舉例來說,ROI視頻處理系統(tǒng)14可相對(duì)于視頻幀內(nèi)的非ROI區(qū)而擇優(yōu)對(duì)視頻幀內(nèi)的檢測(cè)到的ROI進(jìn)行編碼。在對(duì)視頻序列的每個(gè)幀進(jìn)行編碼之后,視頻通信裝置10可將包含擇優(yōu)處理過的ROI的輸出圖像位流發(fā)送到另一視頻通信裝置。
作為一實(shí)例,VT應(yīng)用允許用戶共享視頻和音頻信息,以支持例如視頻會(huì)議的應(yīng)用。在VT系統(tǒng)中,用戶可發(fā)送和接收視頻信息,只接收視頻信息,或只發(fā)送視頻信息。視頻通信裝置10可進(jìn)一步包含適當(dāng)?shù)陌l(fā)射、接收、調(diào)制解調(diào)器和處理電子器件,以支持有線或無線通信。舉例來說,視頻通信裝置10可包括為與其它終端通信而配備的無線移動(dòng)終端或有線終端。
無線移動(dòng)終端的實(shí)例包含移動(dòng)無線電話、移動(dòng)個(gè)人數(shù)字助理(PDA)、移動(dòng)計(jì)算機(jī)或其它配備有無線通信能力和視頻編碼和/或解碼能力的移動(dòng)裝置。舉例來說,視頻通信裝置10可包括VT應(yīng)用中所使用的所謂的相機(jī)電話或視頻電話。有線終端的實(shí)例包含臺(tái)式計(jì)算機(jī)、視頻電話、網(wǎng)絡(luò)應(yīng)用、機(jī)頂盒、交互式電視或類似物。
在視頻編碼的實(shí)施例中,ROI視頻處理系統(tǒng)14可基于視頻傳感器12的特性而擇優(yōu)對(duì)自動(dòng)從自視頻傳感器12接收的視頻幀檢測(cè)到的ROI進(jìn)行編碼。舉例來說,ROI視頻處理系統(tǒng)14可將額外的編碼位分配給視頻幀的檢測(cè)到的ROI,且將減小數(shù)目的編碼位分配給視頻幀的非ROI區(qū)。
在移動(dòng)應(yīng)用中,具體地說,可用于對(duì)視頻幀進(jìn)行編碼的編碼位的數(shù)目可能較低,且根據(jù)無線信道條件而變化。因此,編碼位到ROI的擇優(yōu)分配可能有助于改進(jìn)ROI的視覺質(zhì)量,同時(shí)有效地符合可應(yīng)用的位速率要求。因此,有了檢測(cè)到的ROI的擇優(yōu)編碼,與視頻幀的非ROI區(qū)相比,接受者能夠更清楚地觀看到視頻幀的ROI。視頻通信裝置10接著可通過有線或無線通信信道將經(jīng)編碼的視頻幀傳輸?shù)搅硪煌ㄐ叛b置。
如上文所述,ROI視頻處理系統(tǒng)14可實(shí)施用于基于視頻序列的視頻幀內(nèi)的低復(fù)雜性自動(dòng)ROI檢測(cè)而執(zhí)行ROI視頻處理的技術(shù)。低復(fù)雜性自動(dòng)ROI檢測(cè)可基于視頻通信裝置10內(nèi)的視頻傳感器12的特性。所揭示的技術(shù)包含視頻處理技術(shù),其能夠調(diào)諧并增強(qiáng)視頻通信裝置10中所包含的ROI視頻處理系統(tǒng)14內(nèi)的組件。舉例來說,視頻處理技術(shù)可基于視頻傳感器12的特性而調(diào)諧并增強(qiáng)視頻傳感器校準(zhǔn)模塊、相機(jī)處理模塊、ROI檢測(cè)模塊和ROI視頻處理模塊。
視頻處理技術(shù)可普遍地應(yīng)用于不同類型的視頻傳感器。因此,可使用視頻處理技術(shù)來基于各種視頻傳感器的物理特性和處理能力處理由不同視頻俘獲裝置產(chǎn)生的視頻幀。另外,視頻處理技術(shù)允許ROI視頻處理系統(tǒng)14中所包含的組件之間的靈活通信和協(xié)作。以此方式,所揭示的技術(shù)可基于視頻傳感器12的物理特性和統(tǒng)計(jì)資料而增強(qiáng)ROI視頻處理系統(tǒng)14的性能。
所揭示的技術(shù)還包含自動(dòng)ROI檢測(cè)技術(shù),其使用視頻傳感器12的物理特性和來自視頻傳感器12的相機(jī)處理側(cè)信息。舉例來說,相機(jī)處理側(cè)信息可包含白平衡處理信息;色彩校正處理信息,其改進(jìn)色彩準(zhǔn)確性;非線性伽馬處理信息,其補(bǔ)償顯示非線性;以及色彩轉(zhuǎn)換處理信息??稍趶腞GB色彩空間轉(zhuǎn)換到Y(jié)CbCr色彩空間時(shí)產(chǎn)生色彩會(huì)話處理信息(color conversation processing information),其中Y是亮度信道,且CbCr是色度信道。自動(dòng)ROI檢測(cè)技術(shù)改進(jìn)了ROI檢測(cè)準(zhǔn)確性,其直接增強(qiáng)了ROI視頻處理系統(tǒng)14的性能。舉例來說,皮膚區(qū)域檢測(cè)器可使用視頻傳感器統(tǒng)計(jì)資料來準(zhǔn)確地檢測(cè)視頻幀內(nèi)的皮膚圖,且面部檢測(cè)器使用所述皮膚圖來檢測(cè)所述視頻幀內(nèi)的一個(gè)或一個(gè)以上面部。
所揭示的技術(shù)還包含基于運(yùn)動(dòng)的ROI檢測(cè)技術(shù),其使用在視頻處理中的運(yùn)動(dòng)估計(jì)期間獲得的運(yùn)動(dòng)信息。舉例來說,面部檢測(cè)器使用皮膚圖和運(yùn)動(dòng)信息(例如,運(yùn)動(dòng)向量)來執(zhí)行低復(fù)雜性面部檢測(cè),所述低復(fù)雜性面部檢測(cè)基于運(yùn)動(dòng)信息而有效地提取所述皮膚圖內(nèi)的一個(gè)或一個(gè)以上面部(即,ROI)。
自動(dòng)ROI檢測(cè)技術(shù)接著可針對(duì)視頻幀內(nèi)檢測(cè)到的面部中的每一者而產(chǎn)生ROI。所揭示的技術(shù)接著將視頻幀內(nèi)所產(chǎn)生的ROI應(yīng)用到ROI視頻處理系統(tǒng)14中所包含的視頻處理模塊。舉例來說,在視頻編碼的情況下,ROI處理模塊可使用經(jīng)加權(quán)的位分配和自適應(yīng)背景跳過來提供優(yōu)越的編碼效率。在對(duì)視頻序列的每個(gè)幀進(jìn)行處理之后,視頻通信裝置10可將包含ROI的經(jīng)擇優(yōu)編碼的視頻幀的輸出圖像位流發(fā)送到另一視頻通信裝置。
可在硬件、軟件、固件或其任一組合中實(shí)施ROI視頻處理系統(tǒng)14。舉例來說,可在一個(gè)或一個(gè)以上數(shù)字信號(hào)處理器(DSP)、微處理器、專用集成電路(ASIC)、現(xiàn)場(chǎng)可編程邏輯陣列(FPGA)或任何其它等效集成或離散邏輯電路以及此類組件的任何組合內(nèi)實(shí)施ROI視頻處理系統(tǒng)14的各個(gè)方面。術(shù)語“處理器”通??芍复笆鲞壿嬰娐返娜我徽?單獨(dú)或與其它邏輯電路組合)。當(dāng)在軟件中實(shí)施時(shí),歸因于ROI視頻處理系統(tǒng)14的功能性可實(shí)施為計(jì)算機(jī)可讀媒體上的指令,所述計(jì)算機(jī)可讀媒體例如是隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、非易失性隨機(jī)存取存儲(chǔ)器(NVRAM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、快閃存儲(chǔ)器、磁性媒體、光學(xué)媒體或類似物。執(zhí)行所述指令以支持本發(fā)明中所描述的功能性的一個(gè)或一個(gè)以上方面。
圖2A和圖2B是說明視頻序列的視頻幀20內(nèi)的ROI 24和非ROI區(qū)26的定義的圖。在圖2B的實(shí)例中,將ROI描繪為人臉ROI 24。在其它實(shí)施例中,ROI可包括矩形ROI或可能具有圓形或不規(guī)則形狀的另一非矩形ROI。ROI 24含有出現(xiàn)在視頻幀20中的人的臉部22。在圖2B中通過陰影法來突出顯示非ROI區(qū)26(即,背景)。
可通過來自圖1的ROI視頻處理系統(tǒng)14中所包含的ROI檢測(cè)模塊來從視頻幀20自動(dòng)檢測(cè)ROI 24。對(duì)于VT應(yīng)用,視頻通信裝置(例如來自圖1的視頻通信裝置10)可并入有ROI視頻處理系統(tǒng)14,以自動(dòng)檢測(cè)視頻幀20內(nèi)的ROI 24,且相對(duì)于視頻幀20內(nèi)的非ROI區(qū)而擇優(yōu)對(duì)ROI 24進(jìn)行編碼。在所述情況下,ROI 24可包含視頻幀20的含有視頻會(huì)議中的參與者的臉部22的一部分。其它實(shí)例包含在串流視頻(例如信息視頻,或新聞或娛樂廣播)中呈現(xiàn)信息的人的臉部的擇優(yōu)編碼。ROI 24的大小、形狀和位置可以是固定的或可調(diào)節(jié)的,且可以多種方式來定義、描述或調(diào)節(jié)。
ROI 24允許視頻發(fā)送者強(qiáng)調(diào)所傳輸?shù)囊曨l幀20內(nèi)的個(gè)別對(duì)象,例如人的臉部22。相反,ROI 24允許視頻接收者更清楚地觀看接收到的視頻幀20內(nèi)的所需對(duì)象。在任一情況下,相對(duì)于非ROI區(qū)26(例如視頻幀20的背景區(qū)域),以較高的圖像質(zhì)量來對(duì)ROI對(duì)象24內(nèi)的臉部22進(jìn)行編碼。以此方式,用戶能夠更清楚地觀看面部表情、嘴唇運(yùn)動(dòng)、眼睛運(yùn)動(dòng)等等。在一些實(shí)施例中,還可不僅以額外的編碼位,而且以增強(qiáng)的誤差檢測(cè)和彈性來對(duì)ROI 24進(jìn)行編碼。
圖3說明視頻序列的ROI內(nèi)所呈現(xiàn)的對(duì)象的對(duì)象移動(dòng)/旋轉(zhuǎn)和形狀變形的變化。具體地說,圖3的幀0和幀1中所展示的人的頭部顯著地改變其位置。在圖3的實(shí)例中,人的頭部在幀1中相對(duì)于幀0而傾斜。圖4說明視頻序列的ROI內(nèi)人的面部表情的變化。具體地說,幀0和幀1中所展示的人的嘴從大體上閉合的位置轉(zhuǎn)變到大開的位置。因此,圖3和圖4表示視頻序列的ROI中的較大量的移動(dòng)的情況。
圖5是說明基于低復(fù)雜性自動(dòng)ROI檢測(cè)而對(duì)視頻幀內(nèi)的ROI進(jìn)行擇優(yōu)處理的視頻通信裝置10內(nèi)的ROI視頻處理系統(tǒng)14的框圖。低復(fù)雜性自動(dòng)ROI檢測(cè)可以基于視頻傳感器12的特性。ROI視頻處理系統(tǒng)14可通過視頻傳感器12從視頻俘獲裝置11接收視頻幀。ROI視頻處理系統(tǒng)14可獨(dú)立于視頻序列的其它幀,且在無運(yùn)動(dòng)信息的情況下,處理視頻序列的模式內(nèi)視頻幀。ROI視頻處理系統(tǒng)14可基于當(dāng)前視頻幀與視頻存儲(chǔ)器16中所存儲(chǔ)的視頻序列的前一視頻幀之間的ROI的運(yùn)動(dòng)信息來處理模式間幀。
在所說明的實(shí)施例中,ROI視頻處理系統(tǒng)14包含傳感器校準(zhǔn)模塊30、傳感器統(tǒng)計(jì)資料32、相機(jī)處理模塊34、自動(dòng)ROI檢測(cè)模塊36和ROI視頻處理模塊42。在傳感器校準(zhǔn)過程期間,從傳感器校準(zhǔn)模塊30獲得傳感器統(tǒng)計(jì)資料32。相機(jī)處理模塊34和ROI檢測(cè)模塊36使用傳感器統(tǒng)計(jì)資料32來準(zhǔn)確地檢測(cè)通過視頻傳感器12從視頻俘獲裝置11接收到的模式內(nèi)視頻幀內(nèi)的ROI。ROI檢測(cè)模塊36還依靠在相機(jī)處理期間通過相機(jī)處理模塊34檢測(cè)到的信息,例如照明條件。另外,ROI檢測(cè)模塊36可接收當(dāng)前視頻幀與前一視頻幀之間的由ROI視頻處理模塊42產(chǎn)生的運(yùn)動(dòng)信息(例如,運(yùn)動(dòng)向量),以允許模式間幀內(nèi)的ROI檢測(cè)。
在ROI視頻處理系統(tǒng)14中,傳感器校準(zhǔn)模塊30計(jì)算特定視頻傳感器12的固有膚色統(tǒng)計(jì)資料。傳感器校準(zhǔn)模塊30可針對(duì)多種視頻傳感器產(chǎn)生傳感器統(tǒng)計(jì)資料32,使得ROI視頻處理系統(tǒng)14可基于視頻通信裝置10內(nèi)所包含的任一視頻傳感器而增強(qiáng)ROI視頻處理性能。傳感器校準(zhǔn)模塊30基于視頻傳感器32的膚色反射譜與測(cè)試目標(biāo)(例如,麥克貝斯色彩測(cè)試標(biāo)板表)的譜的相關(guān)性來獲得傳感器統(tǒng)計(jì)資料32。圖6A說明視頻傳感器32的示范性膚色反射譜。圖6B說明麥克貝斯色彩測(cè)試標(biāo)板測(cè)試目標(biāo)的示范性反射譜。
可假定膚色反射譜可由有限數(shù)目的麥克貝斯色彩測(cè)試標(biāo)板彩色小片的反射譜的線性組合近似表示,例如 其中K是麥克貝斯色彩測(cè)試標(biāo)板的反射譜的數(shù)目,λ是波長(zhǎng),Rskin(λ)和RiMacbeth(λ)是膚色和第i個(gè)麥克貝斯色彩測(cè)試標(biāo)板彩色小片的相應(yīng)反射率,且{bi}(i=1,2,...,K)是待計(jì)算的一組加權(quán)因數(shù)。在此情況下,膚色的相應(yīng)RGB(紅、綠、籃)信號(hào)可由相應(yīng)麥克貝斯彩色小片的RGB信號(hào)的相同線性組合來表示 其中RGBskin和RGBiMacbeth是膚色和第i個(gè)麥克貝斯色彩測(cè)試標(biāo)板彩色小片的相應(yīng)RGB信號(hào)強(qiáng)度值。
上文的假定是允許的,因?yàn)閷?duì)于給定的傳感器和某一反射譜,相應(yīng)的相機(jī)原始RGB信號(hào)理論上可由以下等式來計(jì)算 其中SS(λ)、L(λ)、R(λ)是傳感器光譜靈敏度函數(shù)、照明光譜功率分布和對(duì)象反射譜。因此,等式(2)可從等式(1)和等式(3)導(dǎo)出。對(duì)于特定傳感器(例如視頻傳感器12),在獲得所有的潛在加權(quán)因數(shù){bi}之后且在測(cè)量RGBiMacbeth值之后,傳感器校準(zhǔn)模塊30可通過使用等式(2)來計(jì)算RGBskin的所有組合。
以此方式,傳感器校準(zhǔn)模塊30可獲得視頻傳感器12的RGB色彩空間中的膚色圖,以供ROI檢測(cè)模塊36內(nèi)的皮膚區(qū)域檢測(cè)器38將來使用。傳感器校準(zhǔn)模塊30可使用膚色反射譜數(shù)據(jù)庫來獲得對(duì)等式(1)進(jìn)行求解的潛在加權(quán)因數(shù){bi}。通過所述數(shù)據(jù)庫,等式(1)中所使用的Rskin(λ)和RiMacbeth(λ)的值是可用的,且因此傳感器校準(zhǔn)模塊30可獲得所有種類的膚色的相應(yīng){bi}向量。
實(shí)驗(yàn)結(jié)果已經(jīng)指示上述假定是合理的,這意味著可將膚色反射譜分解成二十四個(gè)麥克貝斯色彩測(cè)試標(biāo)板彩色小片的線性組合。另外,所導(dǎo)出的加權(quán)因數(shù){bi}通過具有原始膚色譜的成分來使所構(gòu)造的膚色反射譜一致。圖6C說明示范性反射譜,其檢驗(yàn)原始與重構(gòu)的膚色反射譜的一致性并證實(shí)所述假定。
上文所描述的傳感器校準(zhǔn)方法顯著減小了原始問題的復(fù)雜性。一般來說,傳感器校準(zhǔn)可能較為耗時(shí),且可能需要昂貴的設(shè)備來測(cè)量特定傳感器的傳感器光譜靈敏度。因此,從等式(3)直接導(dǎo)出膚色的RGB值可能不可行,但照明和反射數(shù)據(jù)兩者是可實(shí)現(xiàn)的。傳感器校準(zhǔn)模塊30所觀察到的譜相關(guān)性可在檢測(cè)傳感器光譜靈敏度的同時(shí)減少ROI視頻處理系統(tǒng)14內(nèi)的資源消耗。
在一些情況下,照明條件可能影響加權(quán)因數(shù){bi}的范圍,且因此影響所得膚色圖。為了去除非均勻照明和傳感器非線性響應(yīng),傳感器校準(zhǔn)模塊30借助通過均勻灰色平面俘獲和減去恒定黑色電平(BlackLevel)進(jìn)行平場(chǎng)處理(flat fielding)來使每種施照體下針對(duì)麥克貝斯色彩測(cè)試標(biāo)板的每一彩色小片所內(nèi)插的原始RGB信號(hào)標(biāo)準(zhǔn)化,例如
其中GrayPlane是對(duì)應(yīng)于麥克貝斯色彩測(cè)試標(biāo)板的灰色平面上的原始信號(hào)。另外,傳感器校準(zhǔn)模塊30將照明分類成三類(例如,日光-CIE D65,鎢絲燈-CIEA,和熒光燈-TL84),且針對(duì)其中的每一者而計(jì)算相應(yīng)的傳感器統(tǒng)計(jì)資料。
因?yàn)榇蠖鄶?shù)視頻處理系統(tǒng)使用YCbCr(亮度、色度藍(lán)、色度紅)色彩空間而不是RGB,所以傳感器校準(zhǔn)模塊30通過白色平衡、色彩校正和伽馬校正處理來將RGB色彩圖變換成YCbCr空間。經(jīng)變換的色彩圖包括橢圓體,其在CbCr平面中聚集但在Y軸中散布。為了避免存儲(chǔ)大量用于3D色彩空間的數(shù)據(jù),傳感器校準(zhǔn)模塊30將Y分成多個(gè)范圍。對(duì)于每個(gè)Y,傳感器校準(zhǔn)模塊30接著通過高斯模型來模擬輸入色度X屬于膚色圖的可能性
其中x是如下定義的馬氏距離(Mahalanobis distance) x2=(X-μ)T∧-1(X-μ)(6) 且可從CbCr色彩圖中的點(diǎn)的坐標(biāo)計(jì)算出密度的均值向量μ和協(xié)方差矩陣∧。
換句話說,在給定閾值xT2的情況下,如果那么可將X分類為皮膚色度,且否則分類為非皮膚色度。不等式定義具有由μ給定的中心的橢圓區(qū)和由∧的本征向量給定的主軸。選擇閾值xT的平方根,使得其在亮度級(jí)在中間處時(shí)較大,且在遠(yuǎn)邊緣處變小。因此,傳感器校準(zhǔn)模塊30針對(duì)每個(gè)亮度范圍保存μ和∧對(duì),作為視頻傳感器12的傳感器統(tǒng)計(jì)資料32。
相機(jī)處理模塊34經(jīng)由視頻傳感器12從視頻俘獲裝置11接收視頻序列的視頻幀。相機(jī)處理模塊34還接收由傳感器校準(zhǔn)模塊30所產(chǎn)生的傳感器統(tǒng)計(jì)資料32,如上文所述。相機(jī)處理模塊34處理相機(jī)原始RGB數(shù)據(jù)產(chǎn)生、白色平衡、色彩校正、相機(jī)伽馬校正和RGB色彩空間到Y(jié)CbCr空間轉(zhuǎn)換。相機(jī)處理模塊34的輸出呈YCbCr 4:2:0原始數(shù)據(jù)格式。
如上文所述,為了考慮照明對(duì)膚色圖的影響,傳感器校準(zhǔn)模塊30在三種照明(例如,日光-CIE D65,鎢絲燈-CIE A,和熒光燈-TL84)下使用麥克貝斯色彩測(cè)試標(biāo)板,且以標(biāo)準(zhǔn)化標(biāo)度以
的亮度級(jí)范圍針對(duì)每種照明獲得一個(gè)膚色區(qū)域。相機(jī)處理模塊34接著估計(jì)接收到的視頻幀的照明,且將估計(jì)的照明分類成三種照明類型中的一種。以此方式,相機(jī)處理模塊34為視頻幀選擇照明。ROI檢測(cè)模塊36內(nèi)的皮膚區(qū)域檢測(cè)器38接著可在檢測(cè)視頻幀內(nèi)的膚色區(qū)域時(shí),使用對(duì)應(yīng)于選定照明的傳感器統(tǒng)計(jì)資料。
ROI檢測(cè)模塊36包含皮膚區(qū)域檢測(cè)器38、ROI檢測(cè)控制器39和ROI檢測(cè)器40。在一些情況下,ROI檢測(cè)器40可被視為面部檢測(cè)器,例如在VT應(yīng)用或視頻廣播應(yīng)用的情況下,其中人呈現(xiàn)信息視頻,例如現(xiàn)場(chǎng)直播或預(yù)先錄制的新聞或娛樂廣播。ROI檢測(cè)模塊36實(shí)施自動(dòng)ROI檢測(cè)技術(shù),其使用視頻傳感器12的物理特性和來自視頻俘獲裝置11的相機(jī)處理側(cè)信息。自動(dòng)ROI檢測(cè)技術(shù)改進(jìn)了ROI檢測(cè)準(zhǔn)確性,其直接增強(qiáng)了ROI視頻處理系統(tǒng)14的性能。舉例來說,皮膚區(qū)域檢測(cè)器38可使用傳感器統(tǒng)計(jì)資料32來準(zhǔn)確地檢測(cè)視頻幀內(nèi)的皮膚圖,且ROI檢測(cè)器40可使用所述皮膚圖來檢測(cè)視頻幀內(nèi)的一個(gè)或一個(gè)以上面部。
皮膚區(qū)域檢測(cè)器38在接收由傳感器校準(zhǔn)模塊30產(chǎn)生的傳感器統(tǒng)計(jì)資料32之后,可執(zhí)行相對(duì)較簡(jiǎn)單的檢測(cè)過程。在此情況下,皮膚區(qū)域檢測(cè)器32檢查色度(CbCr)值是否在由傳感器相關(guān)的統(tǒng)計(jì)資料32表征的橢圓內(nèi)。如上文所述,從傳感器校準(zhǔn)模塊30獲得視頻幀的橢圓的參數(shù)。另外,橢圓的參數(shù)是以照明度和亮度為定向的,且與傳感器相關(guān)的。因此,與在毫不知情的情況下由大量圖像訓(xùn)練的常規(guī)膚色訓(xùn)練途徑相比,本文所描述的皮膚區(qū)域檢測(cè)過程可能更準(zhǔn)確。皮膚區(qū)域檢測(cè)器38接著從視頻幀的所檢測(cè)的膚色區(qū)域產(chǎn)生皮膚圖。
ROI檢測(cè)控制器39接著從皮膚區(qū)域檢測(cè)器38接收皮膚圖,且接收與視頻幀有關(guān)的信息。在一些情況下,ROI檢測(cè)控制器39還可接收來自ROI視頻處理模塊42的視頻序列的所述視頻幀和前一視頻幀的運(yùn)動(dòng)信息。ROI檢測(cè)控制器39接著可確定皮膚圖的質(zhì)量。如果皮膚圖的質(zhì)量低于預(yù)定等級(jí),那么ROI檢測(cè)控制器39可將所述皮膚圖發(fā)送給ROI檢測(cè)器40。如果皮膚圖的質(zhì)量高于預(yù)定等級(jí),那么ROI檢測(cè)控制器39可決定斷開ROI檢測(cè)器40。在此情況下,皮膚區(qū)域檢測(cè)器38所產(chǎn)生的皮膚圖表現(xiàn)為足以能夠產(chǎn)生視頻幀內(nèi)的ROI。ROI檢測(cè)模塊36接著可直接從所述皮膚圖產(chǎn)生所述視頻幀內(nèi)的ROI。
在其它情況下,ROI檢測(cè)控制器39可基于接收到的當(dāng)前視頻幀信息和運(yùn)動(dòng)信息而確定視頻幀的計(jì)算復(fù)雜性。如果視頻幀的計(jì)算復(fù)雜性低于預(yù)定等級(jí),那么ROI檢測(cè)控制器30可決定斷開ROI檢測(cè)器40。ROI檢測(cè)模塊36接著可直接從皮膚圖產(chǎn)生所述視頻幀內(nèi)的ROI。如果視頻幀的計(jì)算復(fù)雜性高于預(yù)定等級(jí),那么ROI檢測(cè)控制器39可將皮膚圖發(fā)送給ROI檢測(cè)器40。在此情況下,視頻幀可包含新的ROI或大量先前未處理的ROI特征,或視頻幀可包含從視頻序列的前一視頻幀進(jìn)行的大量移動(dòng)。
根據(jù)一實(shí)施例,ROI檢測(cè)器40針對(duì)實(shí)時(shí)處理(相對(duì)于圖8更詳細(xì)地描述)實(shí)施低復(fù)雜性ROI檢測(cè)算法。如上文所述,ROI視頻處理系統(tǒng)14允許ROI檢測(cè)器40在某些情況下斷開,以節(jié)省功率。ROI視頻處理系統(tǒng)14利用高度準(zhǔn)確的傳感器優(yōu)化皮膚區(qū)域檢測(cè)器38,其不會(huì)錯(cuò)誤地選擇皮膚圖內(nèi)的潛在ROI特征,例如眼部特征候選物和嘴部特征候選物。ROI檢測(cè)器40接著可自動(dòng)檢測(cè)視頻幀的所產(chǎn)生的皮膚圖內(nèi)的一個(gè)或一個(gè)以上面部或ROI。以此方式,ROI檢測(cè)器40可實(shí)施低復(fù)雜性算法,其在移動(dòng)VT應(yīng)用中尤其有用。然而,一些其它皮膚區(qū)域檢測(cè)算法可將面部特征分類成皮膚圖的一部分,以便加速皮膚區(qū)域檢測(cè)器38的性能。
ROI檢測(cè)模塊36接著可針對(duì)視頻幀內(nèi)檢測(cè)到的面部中的每一者產(chǎn)生ROI。ROI視頻處理模塊42接著相對(duì)于視頻幀內(nèi)的非ROI區(qū)而擇優(yōu)處理所產(chǎn)生的ROI。在視頻編碼的實(shí)施例中,ROI視頻處理模塊42可通過使用經(jīng)加權(quán)的位分配和自適應(yīng)背景跳過來擇優(yōu)編碼視頻幀內(nèi)的ROI,以提供優(yōu)越的編碼效率。具體地說,與背景區(qū)相比,每個(gè)ROI被分配有更多的位,且對(duì)于一些幀,可完全跳過背景區(qū)。在背景跳過的情況下,來自前一個(gè)幀的背景可代替背景編碼被跳過的幀的背景。在處理視頻序列的每個(gè)幀之后,ROI視頻處理模塊42可將經(jīng)擇優(yōu)編碼的ROI的輸出圖像位流發(fā)送給另一視頻通信裝置。
圖7是說明視頻通信裝置10中所包含的ROI視頻處理系統(tǒng)14的基于視頻傳感器12的特性的操作的流程圖。傳感器校準(zhǔn)模塊30基于視頻傳感器12的膚色反射譜和測(cè)試目標(biāo)(例如麥克貝斯色彩測(cè)試標(biāo)板表)的反射譜而執(zhí)行傳感器校準(zhǔn)(46)。傳感器校準(zhǔn)模塊30接著基于校準(zhǔn)過程而產(chǎn)生視頻傳感器12的傳感器統(tǒng)計(jì)資料32(48)。如先前所述,在一些實(shí)施例中,傳感器統(tǒng)計(jì)資料可包含均值向量μ,和從為視頻傳感器12準(zhǔn)備的CbCr色彩圖中的點(diǎn)的坐標(biāo)計(jì)算出的協(xié)方差矩陣∧。針對(duì)每個(gè)亮度范圍,μ和∧的對(duì)由傳感器校準(zhǔn)模塊30存儲(chǔ),作為視頻傳感器12的傳感器統(tǒng)計(jì)資料32。
相機(jī)處理模塊34基于通過視頻傳感器12從視頻俘獲裝置11接收到的視頻幀以及傳感器統(tǒng)計(jì)資料32執(zhí)行相機(jī)處理(50)。相機(jī)處理模塊34可估計(jì)接收到的視頻幀的照明條件,并將估計(jì)出的施照體分類成三種照明類型(即日光-CIE D65,鎢絲燈-CIE A,和熒光燈-TL84)中的一種。接著將從相機(jī)處理模塊34選定的施照體和對(duì)應(yīng)于所述選定施照體的傳感器統(tǒng)計(jì)資料32饋送到ROI檢測(cè)模塊36中。ROI檢測(cè)模塊36包含皮膚區(qū)域檢測(cè)器38、ROI檢測(cè)控制器39和ROI檢測(cè)器40。皮膚區(qū)域檢測(cè)器38基于施照體和傳感器統(tǒng)計(jì)資料32檢測(cè)視頻幀內(nèi)的皮膚區(qū)域(52),以產(chǎn)生皮膚圖。
ROI檢測(cè)控制器39接著確定是否在視頻幀內(nèi)執(zhí)行ROI檢測(cè)(53)。舉例來說,如果檢測(cè)到的皮膚圖的質(zhì)量足以產(chǎn)生視頻幀的ROI,那么ROI檢測(cè)控制器39可決定斷開ROI檢測(cè)器40且不執(zhí)行ROI檢測(cè)。另外,如果視頻幀包含較小數(shù)目的潛在ROI特征或所述視頻序列的所述視頻幀與前一視頻幀之間的最小量的移動(dòng)或變化,那么ROI檢測(cè)控制器可決定斷開ROI檢測(cè)器40且不執(zhí)行ROI檢測(cè)。斷開ROI檢測(cè)器40可減小ROI視頻處理系統(tǒng)14內(nèi)的功率消耗。
當(dāng)ROI檢測(cè)控制器39接收到較低質(zhì)量的皮膚圖或較高復(fù)雜性的視頻幀時(shí),ROI檢測(cè)控制器39將皮膚圖發(fā)送給ROI檢測(cè)器40。ROI檢測(cè)器40基于ROI特征檢測(cè)和檢驗(yàn)而檢測(cè)來自皮膚區(qū)域檢測(cè)器38的皮膚圖內(nèi)的一個(gè)或一個(gè)以上ROI(54)。不管是否執(zhí)行ROI檢測(cè),ROI檢測(cè)模塊36都基于檢測(cè)到的皮膚圖或皮膚圖內(nèi)的檢測(cè)到的ROI產(chǎn)生一個(gè)或一個(gè)以上ROI(56)。ROI產(chǎn)生模塊36接著將視頻幀的所產(chǎn)生的ROI發(fā)送給ROI視頻處理模塊42。ROI視頻處理模塊42將視頻幀的ROI擇優(yōu)處理成用于多媒體應(yīng)用的位流(58)。
圖8是說明ROI視頻處理系統(tǒng)中所包含的ROI檢測(cè)器60的框圖。ROI檢測(cè)器60可實(shí)施低復(fù)雜性面部檢測(cè)算法,其有效地從視頻幀的皮膚圖中提取一個(gè)或一個(gè)以上面部,即ROI。在一些情況下,ROI檢測(cè)器40可被視為面部檢測(cè)器。舉例來說,在其中人呈現(xiàn)例如現(xiàn)場(chǎng)直播或預(yù)先錄制的新聞或娛樂廣播等VT應(yīng)用或視頻廣播應(yīng)用的情況下。
在一個(gè)實(shí)施例中,ROI檢測(cè)器60可大體上類似于來自圖5的ROI視頻處理系統(tǒng)14中所包含的ROI檢測(cè)器40。在此情況下,ROI檢測(cè)器60可接收由皮膚區(qū)域檢測(cè)器38基于視頻傳感器12的傳感器統(tǒng)計(jì)資料32而產(chǎn)生的皮膚圖,且基于傳感器統(tǒng)計(jì)資料32而執(zhí)行低復(fù)雜性ROI檢測(cè)。在另一實(shí)施例中,ROI檢測(cè)器60可不接收基于傳感器統(tǒng)計(jì)資料的來自皮膚區(qū)域檢測(cè)器的皮膚圖。在此情況下,ROI檢測(cè)器60可基于從類似于來自圖5的ROI視頻處理模塊42的ROI視頻處理模塊接收到的運(yùn)動(dòng)信息,而執(zhí)行低復(fù)雜性ROI檢測(cè)。
在一些情況下,ROI檢測(cè)器60可獨(dú)立于視頻序列的其它幀且在無運(yùn)動(dòng)信息的情況下,處理所述視頻序列的模式內(nèi)視頻幀。在其它情況下,ROI檢測(cè)器60可基于視頻序列的當(dāng)前視頻幀與前一視頻幀之間的ROI的運(yùn)動(dòng)信息而處理模式間幀。ROI檢測(cè)器60用來處理模式內(nèi)幀的運(yùn)動(dòng)信息可包括在ROI視頻處理模塊(例如ROI視頻處理模塊42)中的運(yùn)動(dòng)估計(jì)期間獲得的運(yùn)動(dòng)向量。
在所說明的實(shí)施例中,ROI檢測(cè)器60包含區(qū)域標(biāo)記模塊62、區(qū)域選擇模塊64、特征檢測(cè)和檢驗(yàn)?zāi)K66、ROI區(qū)域選擇模塊68、形態(tài)學(xué)運(yùn)算模塊70和ROI宏區(qū)塊(MB)選擇模塊72。圖9A到圖9G是說明在自動(dòng)檢測(cè)基于傳感器特定統(tǒng)計(jì)資料而產(chǎn)生的視頻幀的皮膚圖內(nèi)的ROI時(shí),由ROI檢測(cè)器60實(shí)施的技術(shù)的示范性結(jié)果的屏幕截圖。在其它情況下,ROI檢測(cè)器60可自動(dòng)檢測(cè)以另一方式且在不使用傳感器統(tǒng)計(jì)資料的情況下產(chǎn)生的視頻幀的皮膚圖內(nèi)的ROI。
如上文參看圖5所述,皮膚區(qū)域檢測(cè)器檢測(cè)視頻幀內(nèi)的皮膚區(qū)域,并從檢測(cè)到的皮膚區(qū)域產(chǎn)生皮膚圖。圖9A說明在ROI檢測(cè)模塊進(jìn)行任何處理之前的示范性視頻幀。圖9B說明由皮膚區(qū)域檢測(cè)器基于傳感器統(tǒng)計(jì)資料而產(chǎn)生的視頻幀的示范性皮膚圖。一旦皮膚區(qū)域檢測(cè)器產(chǎn)生視頻幀的皮膚圖,區(qū)域標(biāo)記模塊62就將皮膚圖分成許多不連貫的區(qū)域。在此情況下,皮膚區(qū)域檢測(cè)器可假定皮膚圖內(nèi)的每個(gè)面部或ROI包含在連貫的區(qū)域中。換句話說,皮膚圖內(nèi)的ROI特征(例如,面部特征)應(yīng)防止區(qū)域標(biāo)記模塊62將面部或ROI分成一個(gè)以上連貫區(qū)域。
另外,區(qū)域選擇模塊64可假定視頻幀中至多存在兩個(gè)ROI或面部,這對(duì)于大多數(shù)情況來說是合理的,且大大簡(jiǎn)化了ROI檢測(cè)過程。區(qū)域選擇模塊64從皮膚圖的包含視頻幀內(nèi)的最大區(qū)的不連貫區(qū)域選擇至多達(dá)三個(gè)候選區(qū)域。ROI區(qū)域選擇模塊68接著基于由特征檢測(cè)和檢驗(yàn)?zāi)K66在候選區(qū)域的每一者內(nèi)檢測(cè)到的面部特征而從所述候選區(qū)域中選擇一個(gè)或一個(gè)以上ROI區(qū)域。
特征檢測(cè)和檢驗(yàn)?zāi)K66使用一組預(yù)定規(guī)則來檢查所有候選區(qū)域的面部特征。通常,面部特征位于皮膚圖的由候選區(qū)域內(nèi)的高強(qiáng)度對(duì)比表征的凹部區(qū)域中。因此,特征檢測(cè)和檢驗(yàn)?zāi)K66可通過執(zhí)行灰度級(jí)關(guān)閉和擴(kuò)張形態(tài)學(xué)運(yùn)算來找出凹部區(qū)域。如果面部特征候選物與檢測(cè)到的凹部區(qū)域不具有重疊區(qū),那么從候選物列表中移除所述面部特征候選物。在此實(shí)施例中,特征檢測(cè)和檢驗(yàn)?zāi)K66主要執(zhí)行眼部檢測(cè),其可基于兩個(gè)觀察結(jié)果。
第一,眼部周圍的色度分量通常含有高Cb和低Cr值。因此,特征檢測(cè)和檢驗(yàn)?zāi)K66可通過以下等式來構(gòu)造色度眼部圖 一旦獲得了色度眼部圖,特征檢測(cè)和檢驗(yàn)?zāi)K66就可將閾值應(yīng)用于色度(C)眼部圖,以使最亮的區(qū)域位于眼部候選物的眼部圖內(nèi)。特征檢測(cè)和檢驗(yàn)?zāi)K66接著應(yīng)用形態(tài)學(xué)運(yùn)算來將大體上接近的最亮區(qū)域合并成單一眼部候選物。
第二,眼部通常在亮度分量中含有暗像素和亮像素兩者。因此,特征檢測(cè)和檢驗(yàn)?zāi)K66可使用灰度級(jí)形態(tài)學(xué)算子來強(qiáng)調(diào)眼部周圍的亮度分量中的較亮和較暗像素。特征檢測(cè)和檢驗(yàn)?zāi)K66可通過以下等式來構(gòu)造亮度眼部圖
一旦獲得亮度眼部圖,特征檢測(cè)和檢驗(yàn)?zāi)K66就可將閾值應(yīng)用于亮度(L)眼部圖,以使最亮的區(qū)域位于眼部候選物的眼部圖內(nèi)。特征檢測(cè)和檢驗(yàn)?zāi)K66接著應(yīng)用形態(tài)學(xué)運(yùn)算以將大體上接近的最亮區(qū)域合并成單一眼部候選物。
特征檢測(cè)和檢驗(yàn)?zāi)K66接著聯(lián)合所述兩個(gè)眼部圖,以找出最終眼部特征候選物。圖9C說明由特征檢測(cè)和檢驗(yàn)?zāi)K66檢測(cè)到的示范性面部特征候選物,例如眼部特征候選物。顯然,其它面部特征(例如嘴、眉毛、鼻孔和下巴)也可被檢測(cè)為對(duì)找出候選區(qū)域內(nèi)的面部的提示。在檢測(cè)視頻幀內(nèi)的ROI或面部時(shí),尤其在眼部在視頻幀中不可見或模糊時(shí),這些額外面部特征可能非常有用。
一旦特征檢測(cè)和檢驗(yàn)?zāi)K66在所述候選區(qū)域的一者或一者以上內(nèi)檢測(cè)到面部特征候選物,就基于一組規(guī)則來檢驗(yàn)所述面部特征以消除任何錯(cuò)誤檢測(cè)。首先,特征檢測(cè)和檢驗(yàn)?zāi)K66使檢測(cè)到的眼部圖與視頻幀的未由皮膚區(qū)域檢測(cè)器檢測(cè)到的非皮膚區(qū)域重疊。上文所述的皮膚區(qū)域檢測(cè)器(即,來自圖5的皮膚區(qū)域檢測(cè)器38)在產(chǎn)生皮膚圖時(shí)不會(huì)錯(cuò)誤地檢測(cè)面部特征。因此,正確的眼部特征不是皮膚圖的一部分。
其次,皮膚圖的候選區(qū)域內(nèi)的面部特征包括皮膚圖中的內(nèi)部孔,其意味著正確的面部特征應(yīng)由皮膚區(qū)域包圍。第三,含有眼部特征候選物的候選區(qū)域中的每一者的面積應(yīng)在[15,500]的范圍內(nèi)。第四,含有眼部特征候選物的候選區(qū)域中的每一者的邊界框包含在ROI區(qū)域候選物的邊界框的一者中。圖9D說明由特征檢測(cè)和檢驗(yàn)?zāi)K66檢驗(yàn)到的示范性面部特征(例如眼部特征)。
ROI區(qū)域選擇模塊68接著選擇包含最多面部特征的候選區(qū)域作為ROI區(qū)域。在一些情況下,ROI區(qū)域選擇模塊68可選擇至多達(dá)兩個(gè)ROI區(qū)域。ROI區(qū)域選擇模塊68基于ROI或面部區(qū)域與皮膚圖內(nèi)的其它區(qū)域相比通常含有最多面部特征候選物且覆蓋較大面積的觀察結(jié)果而選擇ROI區(qū)域。因此,ROI區(qū)域選擇模塊68可選擇對(duì)應(yīng)于針對(duì)所述區(qū)域內(nèi)的面部特征的數(shù)目與所述區(qū)域的面積的乘積具有最大值的最高兩個(gè)候選區(qū)域的ROI區(qū)域。如果所述候選區(qū)域中任一者均不含有面部特征,那么ROI區(qū)域選擇模塊68選擇最大的候選區(qū)域作為ROI區(qū)域。
圖9E說明ROI區(qū)域選擇模塊68基于檢測(cè)到的面部特征而選擇的示范性ROI區(qū)域。形態(tài)學(xué)運(yùn)算模塊70接著對(duì)選定的ROI區(qū)域執(zhí)行形態(tài)學(xué)運(yùn)算,以填充ROI區(qū)域內(nèi)對(duì)應(yīng)于檢測(cè)到的面部特征的孔。圖9F說明在形態(tài)學(xué)運(yùn)算模塊70執(zhí)行的形態(tài)學(xué)運(yùn)算之后的示范性ROI區(qū)域。
最后,ROI MB選擇模塊72選擇視頻幀的對(duì)應(yīng)于ROI的宏區(qū)塊作為ROI宏區(qū)塊。舉例來說,如果宏區(qū)塊的多于預(yù)定百分比的面積與選定ROI區(qū)域重疊,那么ROI MB選擇模塊72可選擇宏區(qū)塊作為視頻幀的ROI的一部分。在一些情況下,所述預(yù)定百分比可包括10%。宏區(qū)塊是形成視頻幀的一部分的視頻區(qū)塊。MB的大小可以是16×16個(gè)像素。然而,其它MB大小是可能的。本文將出于說明的目的而描述宏區(qū)塊,應(yīng)了解,宏區(qū)塊可具有多種不同大小。圖9G說明ROI MB選擇模塊72基于視頻幀的選定ROI區(qū)域而選擇的示范性ROI宏區(qū)塊。ROI檢測(cè)模塊36接著基于ROI MB選擇模塊72所選擇的ROI宏區(qū)塊而產(chǎn)生視頻幀的ROI。
上文所述的ROI檢測(cè)過程包括模式內(nèi)ROI檢測(cè)過程,其中ROI檢測(cè)器60獨(dú)立于視頻序列的其它幀且在無運(yùn)動(dòng)信息的情況下,處理所述視頻序列的視頻幀。在其它情況下,ROI檢測(cè)器60可基于視頻序列的當(dāng)前視頻幀與前一視頻幀之間的ROI的運(yùn)動(dòng)信息而執(zhí)行低復(fù)雜性模式間ROI檢測(cè)過程。ROI檢測(cè)器60用來處理模式內(nèi)幀的運(yùn)動(dòng)信息可包括在ROI視頻處理模塊中的運(yùn)動(dòng)估計(jì)期間獲得的運(yùn)動(dòng)向量。模式內(nèi)ROI檢測(cè)過程可被視為較高復(fù)雜性過程。由于運(yùn)動(dòng)信息的緣故,模式間ROI檢測(cè)過程可被視為低復(fù)雜性過程。在基于傳感器特定統(tǒng)計(jì)資料而產(chǎn)生由ROI檢測(cè)器60接收的皮膚圖的情況下,皮膚圖的經(jīng)改進(jìn)的質(zhì)量可進(jìn)一步減小模式內(nèi)和模式間ROI檢測(cè)過程兩者的復(fù)雜性。
在模式間ROI檢測(cè)過程中,ROI檢測(cè)器60基于對(duì)前一個(gè)幀中的ROI的跟蹤而檢測(cè)當(dāng)前視頻幀內(nèi)的ROI,且利用從ROI視頻處理模塊(例如來自圖5的ROI視頻處理模塊42)接收到的運(yùn)動(dòng)向量。在此情況下,ROI檢測(cè)器60將當(dāng)前視頻幀的每個(gè)宏區(qū)塊與前一視頻幀的相應(yīng)宏區(qū)塊進(jìn)行比較。ROI檢測(cè)器60確定前一視頻幀的相應(yīng)宏區(qū)塊是否與前一視頻幀內(nèi)的ROI具有足夠量的重疊。ROI檢測(cè)器60還確定當(dāng)前宏區(qū)塊是否與當(dāng)前幀的皮膚圖具有足夠量的重疊。舉例來說,足夠量的重疊可包括宏區(qū)塊的多于預(yù)定百分比的面積與前一視頻幀的ROI或當(dāng)前視頻幀的皮膚圖重疊。在一些情況下,所述預(yù)定百分比可包括10%。
如果兩個(gè)條件都滿足,那么ROI檢測(cè)器60選擇當(dāng)前宏區(qū)塊作為ROI區(qū)域的一部分。這種解決方案可與ROI視頻處理模塊所實(shí)施的視頻處理算法良好結(jié)合,且含有相對(duì)較簡(jiǎn)單的運(yùn)算。因此,本文所描述的低復(fù)雜性模式間ROI檢測(cè)過程比其它模式間途徑有效得多。
低復(fù)雜性模式間ROI檢測(cè)過程可能在跟蹤快速移動(dòng)的ROI方面具有困難。因此,連接到ROI檢測(cè)器60的ROI檢測(cè)控制器(大體上類似于來自圖5的ROI檢測(cè)控制器39)可實(shí)施自適應(yīng)算法,所述自適應(yīng)算法在某些情況下調(diào)用較高復(fù)雜性的模式內(nèi)ROI檢測(cè)過程。舉例來說,ROI檢測(cè)控制器可致使ROI檢測(cè)器60在使用模式間ROI檢測(cè)過程在其中自動(dòng)檢測(cè)到ROI的相繼視頻幀的數(shù)目高于預(yù)定等級(jí)(例如,每10個(gè)幀)時(shí),周期性地執(zhí)行模式內(nèi)ROI檢測(cè)。在另一實(shí)例中,ROI檢測(cè)控制器可致使ROI檢測(cè)器60在ROI檢測(cè)控制器在視頻序列的視頻幀之間檢測(cè)到高于預(yù)定等級(jí)的運(yùn)動(dòng)活動(dòng)的量時(shí)執(zhí)行模式內(nèi)ROI檢測(cè)。以此方式,自適應(yīng)算法顯著減小了包含ROI檢測(cè)器60的ROI視頻處理系統(tǒng)內(nèi)的復(fù)雜性,但自適應(yīng)算法可能不能夠快速檢測(cè)出現(xiàn)在視頻幀中的新面部。
圖10A和圖10B是說明ROI視頻處理系統(tǒng)的ROI檢測(cè)模塊內(nèi)的ROI檢測(cè)器60的操作的流程圖。ROI檢測(cè)器40接收皮膚圖(80)。在一個(gè)實(shí)施例中,ROI檢測(cè)器60可大體上類似于來自圖5的ROI視頻處理系統(tǒng)14中所包含的ROI檢測(cè)器40。在此情況下,ROI檢測(cè)器60可接收由皮膚區(qū)域檢測(cè)器38基于視頻傳感器12的傳感器統(tǒng)計(jì)資料32而產(chǎn)生的皮膚圖,且基于傳感器統(tǒng)計(jì)資料32而執(zhí)行低復(fù)雜性ROI檢測(cè)。在另一實(shí)施例中,ROI檢測(cè)器60可不基于傳感器統(tǒng)計(jì)資料而從皮膚區(qū)域檢測(cè)器接收皮膚圖。在此情況下,ROI檢測(cè)器60可基于從類似于來自圖5的ROI視頻處理模塊42的ROI視頻處理模塊接收到的運(yùn)動(dòng)信息而執(zhí)行低復(fù)雜性ROI檢測(cè)。
包含在ROI檢測(cè)模塊中的ROI檢測(cè)控制器接著確定ROI檢測(cè)器60執(zhí)行模式內(nèi)ROI檢測(cè)過程還是模式間ROI檢測(cè)過程(81)。ROI檢測(cè)器60可獨(dú)立于視頻序列的其它幀且在無運(yùn)動(dòng)信息的情況下,對(duì)所述視頻序列的視頻幀執(zhí)行模式內(nèi)ROI檢測(cè)過程。ROI檢測(cè)器60可基于視頻序列的當(dāng)前視頻幀與前一視頻幀之間的ROI的運(yùn)動(dòng)信息而執(zhí)行模式間ROI檢測(cè)過程。
在一些情況下,ROI檢測(cè)控制器可致使ROI檢測(cè)器60每N個(gè)幀(例如,10個(gè)幀)或當(dāng)在當(dāng)前視頻幀與前一視頻幀之間檢測(cè)到較大的移動(dòng)或變化時(shí),執(zhí)行高復(fù)雜性模式內(nèi)ROI檢測(cè)過程。在其它情況下,如果使用模式內(nèi)過程來處理最后一個(gè)視頻幀或當(dāng)在當(dāng)前視頻幀與前一視頻幀之間檢測(cè)到最小量的移動(dòng)或變化時(shí),ROI檢測(cè)控制器可致使ROI檢測(cè)器60執(zhí)行低復(fù)雜性模式間ROI檢測(cè)過程。
如圖10A中所示,如果ROI檢測(cè)控制器致使ROI檢測(cè)器60執(zhí)行模式內(nèi)ROI檢測(cè)過程(81的“是”分支),那么區(qū)域標(biāo)記模塊62將從皮膚區(qū)域檢測(cè)器38接收到的皮膚圖分成多個(gè)不連貫的區(qū)域(82)。區(qū)域選擇模塊64接著選擇在視頻幀內(nèi)包含最大面積的區(qū)域作為候選區(qū)域(84)。為了維持低復(fù)雜性,區(qū)域選擇模塊64只能選擇三個(gè)候選區(qū)域。
特征檢測(cè)和檢驗(yàn)?zāi)K66在所述候選區(qū)域的每一者內(nèi)執(zhí)行特征檢測(cè),且接著檢驗(yàn)面部特征候選物,以消除錯(cuò)誤檢測(cè)(86)。ROI區(qū)域選擇模塊68接著檢測(cè)具有最多ROI特征和最大面積的候選區(qū)域作為ROI區(qū)域(88)。舉例來說,ROI區(qū)域檢測(cè)模塊68可選擇具有最大量的ROI特征的兩個(gè)候選區(qū)域。在候選區(qū)域都不包含ROI特征的情況下,ROI區(qū)域選擇模塊68可選擇具有視頻幀的最大面積的候選區(qū)域作為ROI區(qū)域。
形態(tài)學(xué)運(yùn)算模塊70接著對(duì)一個(gè)或一個(gè)以上選定ROI區(qū)域執(zhí)行形態(tài)學(xué)運(yùn)算,以填充ROI區(qū)域內(nèi)對(duì)應(yīng)于檢測(cè)到的面部特征的孔(90)。最后,ROI MB選擇模塊72選擇視頻幀的與選定ROI區(qū)域重疊的宏區(qū)塊作為ROI宏區(qū)塊(92)。舉例來說,如果宏區(qū)塊的多于預(yù)定百分比(例如,10%)的面積與選定ROI區(qū)域重疊,那么ROI MB選擇模塊72可選擇所述宏區(qū)塊作為視頻幀的ROI的一部分。ROI檢測(cè)模塊36接著基于ROI MB選擇模塊72所選擇的ROI宏區(qū)塊而產(chǎn)生視頻幀的ROI。
如圖10B中所示,如果ROI檢測(cè)控制器致使ROI檢測(cè)器60執(zhí)行模式間ROI檢測(cè)過程(81的“否”分支),那么ROI檢測(cè)模塊60從ROI視頻處理模塊接收前一個(gè)視頻幀的運(yùn)動(dòng)向量和宏區(qū)塊(96)。ROI檢測(cè)器60接著將當(dāng)前視頻幀的每個(gè)宏區(qū)塊與前一視頻幀的相應(yīng)宏區(qū)塊進(jìn)行比較(98)。
ROI檢測(cè)器60確定前一視頻幀的相應(yīng)宏區(qū)塊是否與前一視頻幀的ROI充分地重疊(99),以及當(dāng)前視頻幀的宏區(qū)塊是否與從當(dāng)前視頻幀產(chǎn)生的皮膚圖充分地重疊(100)。如果所述條件中的任一者都不滿足,那么ROI檢測(cè)器60不會(huì)將所述宏區(qū)塊視為ROI的一部分(102)。如果兩個(gè)條件都滿足,那么ROI檢測(cè)器60選擇所述宏區(qū)塊作為當(dāng)前視頻幀內(nèi)的ROI的一部分(104)。包含ROI檢測(cè)器60的ROI檢測(cè)模塊接著基于ROI檢測(cè)器60所選擇的ROI宏區(qū)塊而產(chǎn)生視頻幀的ROI。
返回圖5,ROI視頻處理系統(tǒng)14包含ROI視頻處理模塊42,其擇優(yōu)處理所產(chǎn)生的ROI。作為一實(shí)例,下文將把ROI視頻處理模塊42描述為通過使用經(jīng)加權(quán)的位分配和自適應(yīng)背景跳過來對(duì)視頻幀內(nèi)的ROI進(jìn)行擇優(yōu)編碼的ROI視頻編碼模塊。在對(duì)視頻序列的每個(gè)幀進(jìn)行處理之后,ROI視頻處理模塊42可將經(jīng)擇優(yōu)編碼的ROI的輸出圖像位流發(fā)送給另一視頻通信裝置。
ROI視頻處理模塊42針對(duì)ROI視頻編碼實(shí)施經(jīng)優(yōu)化的ρ域位分配。在此情況下,ρ表示視頻編碼中宏區(qū)塊中的非零量化的AC系數(shù)的數(shù)目或百分比。ρ域與QP域速率控制模型之間的主要差異是ρ域模型更準(zhǔn)確,且因此有效地減少了速率波動(dòng)。
另外,ROI視頻處理模塊42針對(duì)ROI視頻編碼使用感知質(zhì)量測(cè)量。舉例來說,視頻幀的ROI和非ROI的標(biāo)準(zhǔn)化每像素失真可由DR和DNR表示,且ROI感知重要性因數(shù)可由α表示。可假定上文所提及的各方面之間的關(guān)系可簡(jiǎn)化成視頻質(zhì)量估算中的線性函數(shù),因而視頻幀的總體失真可表示為 其中f和
是原始幀和重構(gòu)的幀。根據(jù)等式(9),顯然,α應(yīng)被指配有介于0與1之間的實(shí)值,且α的選擇由視頻通信裝置10的最終用戶基于其要求和期望來決定。而且,此測(cè)量值并非理想的度量,但其可能有助于位分配過程支持主觀感知。
給定幀f的總位預(yù)算可由Rbudget表示,且對(duì)幀進(jìn)行編碼的位速率可由R表示,因而問題可由下式表示 求DFrame的最小值,使得R≤Rbudget。(10) 在ROI視頻編碼中,N可表示幀中的宏區(qū)塊的數(shù)目,且{ρi}、{σi}、{Ri}和{Di}分別表示第i個(gè)宏區(qū)塊的ρ、標(biāo)準(zhǔn)偏差、速率和失真(即,均方誤差的和)的集合。因此,每個(gè)宏區(qū)塊的一組權(quán)數(shù){wi}可定義為
其中K是ROI內(nèi)的宏區(qū)塊的數(shù)目。因此,幀的經(jīng)加權(quán)失真為 因此,等式(4)可改寫為 求D的最小值,使得R≤Rbudget。(13) ROI視頻處理模塊42可通過使用基于建模的位分配途徑來對(duì)等式(13)求解。自然圖像的AC系數(shù)的分布可由拉普拉斯分布(Laplacian distribution)最佳地近似,因此,第i個(gè)宏區(qū)塊的速率和失真在等式(14)和等式(15)中可建模為ρ的函數(shù), Ri=Aρi+B(14) 其中A和B是恒定建模參數(shù),且A可被視為對(duì)非零系數(shù)進(jìn)行編碼所需的位的平均數(shù)目,且B可被視為由于非紋理信息而導(dǎo)致的位。
其中θ是未知常數(shù)。
ROI視頻處理模塊42代替量化器來優(yōu)化ρi,因?yàn)镽OI視頻處理模塊42假定存在可用于從任何選定ρi產(chǎn)生相當(dāng)好的量化器的足夠準(zhǔn)確的ρ-QP表。一般來說,可通過使用拉氏松弛(Lagrangian relaxation)來對(duì)等式(13)求解,在拉氏松弛中,將限定問題轉(zhuǎn)換成非限定問題
其中λ*是允許的解。通過在等式(16)中將偏導(dǎo)數(shù)設(shè)置為零,通過以下等式來獲得經(jīng)優(yōu)化的ρi的以下表達(dá) 設(shè)定 其為 因此, 且 另一方面,由于 所以 根據(jù)等式(20)和等式(22),獲得位分配模型I 類似地,如果ROI視頻處理模塊42假定具有步長(zhǎng)q的均勻量化器具,那么產(chǎn)生位分配模型II 結(jié)果指示兩個(gè)模型都如最佳解那樣接近地執(zhí)行。給定幀的位預(yù)算,且使用等式(23)或等式(24),ROI視頻處理模塊42可在所述幀內(nèi)的宏區(qū)塊上最佳地分配位,以使等式(9)中所定義的感知失真減到最小。ROI視頻處理模塊42由于其簡(jiǎn)單性而可在ROI視頻處理系統(tǒng)14中使用位分配模型II。
在非常低的位速率的情況下,通常對(duì)視頻幀的非ROI區(qū)進(jìn)行粗略編碼,這導(dǎo)致低視覺質(zhì)量。另一方面,在背景被視為非ROI區(qū)的VT應(yīng)用的大多數(shù)情況下,背景中存在有限量的移動(dòng)。因此,背景跳過是用于重新分配位以改進(jìn)前景和經(jīng)編碼的背景區(qū)域的質(zhì)量的潛在解決方案,只要所述跳過不會(huì)嚴(yán)重?fù)p害視頻保真度即可。在此情況下,ROI視頻處理模塊42將每對(duì)幀分組成一個(gè)單元。在每個(gè)單元中,基于所預(yù)測(cè)的具有零運(yùn)動(dòng)向量的宏區(qū)塊,對(duì)第一背景進(jìn)行編碼,同時(shí)跳過第二背景。在幀等級(jí)位分配中,ROI視頻處理模塊42假定視頻序列中的視頻幀的內(nèi)容復(fù)雜性均勻分布,且因此位在單元之間均勻分配。在單元內(nèi),等式(24)可用于宏區(qū)塊之間的位分配。
在ROI視頻處理系統(tǒng)14中,ROI視頻處理模塊42基于由跳過而導(dǎo)致的失真(DNonROI_skip)而自適應(yīng)地控制單元中的背景跳過。對(duì)于具有含有大量運(yùn)動(dòng)的背景的視頻序列,重要背景信息的跳過可能會(huì)破壞ROI視頻編碼系統(tǒng)性能。ROI視頻處理模塊42使用失真閾值來確定背景跳過模式。所述閾值可與α和最近處理的單元的跳過失真的統(tǒng)計(jì)資料有關(guān)。通過將Dn表示為最近n個(gè)單元的平均失真,所述閾值可定義為 ROI視頻處理模塊42可如下實(shí)施自適應(yīng)背景跳過算法。首先,ROI視頻處理模塊42通過設(shè)置Dn=0且將跳過模式設(shè)置為接通來初始化背景跳過算法。接著,ROI視頻編碼模塊通過以下等式來為當(dāng)前(第i個(gè))單元分配ρ預(yù)算 其中M是速率控制片段中的幀的數(shù)目,ρsegment是分配給所述片段的ρ的數(shù)目,且ρused是所述片段內(nèi)直到當(dāng)前單元為止所使用的ρ的數(shù)目。接下來,在當(dāng)前單元內(nèi),ROI視頻處理模塊42通過等式(24)為每個(gè)宏區(qū)塊分配位。如果跳過模式接通,那么不針對(duì)第二幀的非ROI區(qū)指配位。
在獲得當(dāng)前單元的失真之后,ROI視頻處理模塊42通過Dn=(1-η)Dn-1+ηDn來更新Dn,其中η是學(xué)習(xí)因數(shù)(learning factor),且其在
的范圍內(nèi)。接著,ROI視頻處理模塊42更新ρ統(tǒng)計(jì)資料,且獲得用于下一個(gè)單元的數(shù)目。如果這是最后一個(gè)單元,那么ROI視頻處理模塊42可終止所述算法。如果其并非最后一個(gè)單元,那么ROI視頻處理模塊42計(jì)算新單元的DNonROI_skip。如果那么ROI視頻處理模塊42斷開跳過模式。否則,ROI視頻處理模塊42對(duì)所述新單元重復(fù)上文所述的算法。
本文所述的技術(shù)可在硬件、軟件、固件或其任一組合中實(shí)施。如果在軟件中實(shí)施,那么所述技術(shù)可部分地通過包括程序代碼的計(jì)算機(jī)可讀媒體來實(shí)現(xiàn),所述程序代碼含有指令,所述指令在被執(zhí)行時(shí),執(zhí)行上文所述的方法中的一者或一者以上。在此情況下,計(jì)算機(jī)可讀媒體可包括隨機(jī)存取存儲(chǔ)器(RAM)(例如同步動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(SDRAM))、只讀存儲(chǔ)器(ROM)、非易失性隨機(jī)存取存儲(chǔ)器(NVRAM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、快閃存儲(chǔ)器、磁性或光學(xué)數(shù)據(jù)存儲(chǔ)媒體等等。
所述程序代碼可由一個(gè)或一個(gè)以上處理器來執(zhí)行,所述處理器例如一個(gè)或一個(gè)以上數(shù)字信號(hào)處理器(DSP)、通用微處理器、專用集成電路(ASIC)、現(xiàn)場(chǎng)可編程邏輯陣列(FPGA)或其它等效集成或離散邏輯電路。在一些實(shí)施例中,本文所描述的功能性可提供在經(jīng)配置以用于自動(dòng)對(duì)象分段的專用軟件模塊或硬件單元內(nèi),或并入在自動(dòng)對(duì)象分段系統(tǒng)中。
在本發(fā)明中,已經(jīng)描述了用于視頻序列的視頻幀內(nèi)的低復(fù)雜性自動(dòng)ROI檢測(cè)的各種技術(shù)。在一些情況下,低復(fù)雜性自動(dòng)ROI檢測(cè)可基于傳感器特定特性。在其它情況下,低復(fù)雜性自動(dòng)ROI檢測(cè)可基于所述視頻序列的所述視頻幀和不同的視頻幀的運(yùn)動(dòng)信息。ROI視頻處理系統(tǒng)可個(gè)別地或組合地實(shí)施所揭示的技術(shù)中的一者或一者以上,以提供自動(dòng)檢測(cè)到且經(jīng)準(zhǔn)確處理的ROI,以用于例如視頻監(jiān)視應(yīng)用、VT應(yīng)用或視頻廣播應(yīng)用等多媒體應(yīng)用。
所揭示的技術(shù)包含能夠基于特定視頻傳感器的特性而調(diào)諧并增強(qiáng)視頻通信裝置內(nèi)的視頻傳感器校準(zhǔn)、相機(jī)處理、ROI檢測(cè)和ROI視頻處理的視頻處理技術(shù)。所述視頻處理技術(shù)可普遍應(yīng)用于不同類型的視頻傳感器。以此方式,所揭示的技術(shù)可基于視頻傳感器物理特性和統(tǒng)計(jì)資料而增強(qiáng)ROI視頻處理性能。
所揭示的技術(shù)還包含基于傳感器的ROI檢測(cè)技術(shù),其使用視頻傳感器物理特性和相機(jī)處理側(cè)信息來改進(jìn)ROI檢測(cè)準(zhǔn)確性,其直接增強(qiáng)ROI視頻處理性能。舉例來說,皮膚區(qū)域檢測(cè)器使用視頻傳感器統(tǒng)計(jì)資料來準(zhǔn)確地檢測(cè)視頻幀內(nèi)的皮膚圖,且面部檢測(cè)器使用所述皮膚圖來檢測(cè)所述視頻幀內(nèi)的一個(gè)或一個(gè)以上面部。所揭示的技術(shù)還包含基于運(yùn)動(dòng)的ROI檢測(cè)技術(shù),其使用在視頻處理中的運(yùn)動(dòng)估計(jì)期間獲得的運(yùn)動(dòng)信息。舉例來說,面部檢測(cè)器使用皮膚圖和運(yùn)動(dòng)信息(例如,運(yùn)動(dòng)向量)來執(zhí)行低復(fù)雜性面部檢測(cè),所述低復(fù)雜性面部檢測(cè)基于所述運(yùn)動(dòng)信息而有效地提取皮膚圖內(nèi)的一個(gè)或一個(gè)以上面部,即ROI。這些和其它實(shí)施例在所附權(quán)利要求書的范圍內(nèi)。
權(quán)利要求
1.一種方法,其包括
接收視頻序列的視頻幀的皮膚接收所述視頻序列的所述視頻幀和不同視頻幀的運(yùn)動(dòng)信息;以及
基于所述視頻幀中的宏區(qū)塊相對(duì)于所述視頻幀的所述皮膚圖和所述不同視頻幀內(nèi)的ROI的位置自動(dòng)檢測(cè)所述視頻幀內(nèi)的關(guān)注區(qū)(ROI)。
2.根據(jù)權(quán)利要求1所述的方法,其中自動(dòng)檢測(cè)所述視頻幀內(nèi)的所述ROI包括
將所述視頻幀的第一宏區(qū)塊與所述不同視頻幀的對(duì)應(yīng)于所述第一宏區(qū)塊的第二宏區(qū)塊進(jìn)行比較;以及
當(dāng)所述第二宏區(qū)塊與所述不同視頻幀內(nèi)的ROI充分重疊且所述第一宏區(qū)塊與所述視頻幀的所述皮膚圖充分重疊時(shí),選擇所述第一宏區(qū)塊作為所述視頻幀內(nèi)的所述ROI的一部分。
3.根據(jù)權(quán)利要求2所述的方法,其進(jìn)一步包括當(dāng)所述第二宏區(qū)塊不與所述不同視頻幀內(nèi)的ROI充分重疊或所述第一宏區(qū)塊不與所述視頻幀的所述皮膚圖充分重疊這兩種情況中的至少一者發(fā)生時(shí),放棄將所述第一宏區(qū)塊考慮作為所述視頻幀內(nèi)的所述ROI的一部分。
4.根據(jù)權(quán)利要求1所述的方法,其中接收運(yùn)動(dòng)信息包括接收通過跟蹤所述視頻序列的所述視頻幀與所述不同視頻幀之間的所述ROI的運(yùn)動(dòng)獲得的運(yùn)動(dòng)向量。
5.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括
接收所述視頻序列的另一視頻幀的皮膚圖;以及
基于所述視頻幀中的宏區(qū)塊相對(duì)于所述視頻幀的所述皮膚圖的位置且在不參考所述視頻序列的所述另一視頻幀和不同視頻幀的運(yùn)動(dòng)信息的情況下,自動(dòng)檢測(cè)所述另一視頻幀內(nèi)的ROI。
6.根據(jù)權(quán)利要求5所述的方法,其中自動(dòng)檢測(cè)所述另一視頻幀內(nèi)的所述ROI包括
將所述皮膚圖分成不連貫的區(qū)域;
從所述不連貫的區(qū)域中選擇包含所述另一視頻幀的最大面積的候選區(qū)域;
檢測(cè)所述候選區(qū)域內(nèi)的ROI特征;
從所述候選區(qū)域中選擇包含最大數(shù)目的ROI特征或所述另一視頻幀的所述最大面積中的至少一者的一個(gè)或一個(gè)以上ROI區(qū)域;
從所述另一視頻幀的宏區(qū)塊中選擇至少部分地與所述另一視頻幀內(nèi)的所述一個(gè)或一個(gè)以上ROI區(qū)域重疊的ROI宏區(qū)塊;以及
基于所述選定的ROI宏區(qū)塊產(chǎn)生所述另一視頻幀內(nèi)的所述ROI。
7.根據(jù)權(quán)利要求6所述的方法,其進(jìn)一步包括檢驗(yàn)所述視頻幀內(nèi)的所述檢測(cè)到的ROI特征,以為所述ROI選擇正確的特征,且將錯(cuò)誤的特征從所述組ROI特征候選物中去除。
8.根據(jù)權(quán)利要求6所述的方法,其進(jìn)一步包括對(duì)所述一個(gè)或一個(gè)以上ROI區(qū)域執(zhí)行形態(tài)學(xué)運(yùn)算,以關(guān)閉所述視頻幀的所述皮膚圖中的來自所述檢測(cè)到的ROT特征的內(nèi)部孔。
9.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括
從視頻傳感器接收所述視頻序列的所述視頻幀;
針對(duì)所述視頻傳感器產(chǎn)生傳感器統(tǒng)計(jì)資料;
基于所述傳感器統(tǒng)計(jì)資料檢測(cè)所述視頻幀內(nèi)的皮膚區(qū)域;以及
基于所述檢測(cè)到的皮膚區(qū)域產(chǎn)生所述視頻幀的所述皮膚圖。
10.根據(jù)權(quán)利要求1所述的方法,其中接收皮膚圖包括接收基于視頻傳感器的傳感器統(tǒng)計(jì)資料產(chǎn)生的所述視頻幀的皮膚圖。
11.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括處理包含所述自動(dòng)檢測(cè)到的ROI的所述視頻幀,其中處理所述視頻幀包括相對(duì)于所述視頻幀的非ROI區(qū)擇優(yōu)處理所述視頻幀內(nèi)的所述自動(dòng)檢測(cè)到的ROI。
12.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括對(duì)包含所述自動(dòng)檢測(cè)到的ROI的所述視頻幀進(jìn)行編碼,其中對(duì)所述視頻幀進(jìn)行編碼包括相對(duì)于所述視頻幀的非ROI區(qū)對(duì)所述視頻幀內(nèi)的所述自動(dòng)檢測(cè)到的ROI進(jìn)行擇優(yōu)編碼。
13.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括
從至少第一ROI檢測(cè)模式和第二ROI檢測(cè)模式中選擇自動(dòng)ROI檢測(cè)模式;
當(dāng)選擇所述第一ROI檢測(cè)模式時(shí),在不參考所述視頻序列的所述視頻幀和不同視頻幀的運(yùn)動(dòng)信息的情況下,從所述視頻幀自動(dòng)檢測(cè)ROI;以及
當(dāng)選擇第二分段模式時(shí),基于所述視頻序列的所述視頻幀和不同視頻幀的運(yùn)動(dòng)信息從所述視頻幀自動(dòng)檢測(cè)ROI。
14.根據(jù)權(quán)利要求13所述的方法,其中選擇自動(dòng)ROI檢測(cè)模式包括確定所述視頻序列的所述視頻幀與所述不同視頻幀之間的運(yùn)動(dòng)活動(dòng)的量,以及當(dāng)所述運(yùn)動(dòng)活動(dòng)的量高于預(yù)定等級(jí)時(shí),選擇所述第一ROI檢測(cè)模式。
15.根據(jù)權(quán)利要求13所述的方法,其中選擇自動(dòng)ROI檢測(cè)模式包括確定所述視頻序列的其中在所述第二ROI檢測(cè)模式中自動(dòng)檢測(cè)到ROI的相繼視頻幀的數(shù)目,以及當(dāng)相繼第二ROI檢測(cè)模式視頻幀的所述數(shù)目高于預(yù)定等級(jí)時(shí),選擇所述第一ROI檢測(cè)模式。
16.一種計(jì)算機(jī)可讀媒體,其包括致使可編程處理器進(jìn)行以下動(dòng)作的指令
接收視頻序列的視頻幀的皮膚接收所述視頻序列的所述視頻幀和不同視頻幀的運(yùn)動(dòng)信息;以及
基于所述視頻幀中的宏區(qū)塊相對(duì)于所述視頻幀的所述皮膚圖和所述不同視頻幀內(nèi)的ROI的位置自動(dòng)檢測(cè)所述視頻幀內(nèi)的關(guān)注區(qū)(ROI)。
17.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀媒體,其中所述指令致使所述可編程處理器
將所述視頻幀的第一宏區(qū)塊與所述不同視頻幀的對(duì)應(yīng)于所述第一宏區(qū)塊的第二宏區(qū)塊進(jìn)行比較;以及
當(dāng)所述第二宏區(qū)塊與所述不同視頻幀內(nèi)的ROI充分重疊且所述第一宏區(qū)塊與所述視頻幀的所述皮膚圖充分重疊時(shí),選擇所述第一宏區(qū)塊作為所述視頻幀內(nèi)的所述ROI的一部分。
18.根據(jù)權(quán)利要求17所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括致使所述可編程處理器在所述第二宏區(qū)塊不與所述不同視頻幀內(nèi)的ROI充分重疊或所述第一宏區(qū)塊不與所述視頻幀的所述皮膚圖充分重疊這兩種情況中的至少一者發(fā)生時(shí)放棄將所述第一宏區(qū)塊考慮作為所述視頻幀內(nèi)的所述ROI的一部分的指令。
19.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀媒體,其中所述指令致使所述可編程處理器接收通過跟蹤所述視頻序列的所述視頻幀與所述不同視頻幀之間的所述ROI的運(yùn)動(dòng)而獲得的運(yùn)動(dòng)向量。
20.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括致使所述可編程處理器進(jìn)行以下動(dòng)作的指令
接收所述視頻序列的另一視頻幀的皮膚圖;以及
基于所述視頻幀中的宏區(qū)塊相對(duì)于所述視頻幀的所述皮膚圖的位置且在不參考所述視頻序列的所述另一視頻幀和不同視頻幀的運(yùn)動(dòng)信息的情況下,自動(dòng)檢測(cè)所述另一視頻幀內(nèi)的ROI。
21.根據(jù)權(quán)利要求20所述的計(jì)算機(jī)可讀媒體,其中所述指令致使所述可編程處理器
將所述皮膚圖分成不連貫的區(qū)域;
從所述不連貫的區(qū)域中選擇包含所述另一視頻幀的最大面積的候選區(qū)域;
檢測(cè)所述候選區(qū)域內(nèi)的ROI特征;
從所述候選區(qū)域中選擇包含最大數(shù)目的ROI特征或所述另一視頻幀的所述最大面積中的至少一者的一個(gè)或一個(gè)以上ROI區(qū)域;
從所述另一視頻幀的宏區(qū)塊中選擇至少部分地與所述另一視頻幀內(nèi)的所述一個(gè)或一個(gè)以上ROI區(qū)域重疊的ROI宏區(qū)塊;以及
基于所述選定的ROI宏區(qū)塊產(chǎn)生所述另一視頻幀內(nèi)的所述ROI。
22.根據(jù)權(quán)利要求21所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括致使所述可編程處理器檢驗(yàn)所述視頻幀內(nèi)的所述檢測(cè)到的ROI特征以為所述ROI選擇正確的特征且將錯(cuò)誤的特征從所述組ROI特征候選物中去除的指令。
23.根據(jù)權(quán)利要求21所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括致使所述可編程處理器對(duì)所述一個(gè)或一個(gè)以上ROI區(qū)域執(zhí)行形態(tài)學(xué)運(yùn)算以關(guān)閉所述視頻幀的所述皮膚圖中的來自所述檢測(cè)到的ROT特征的內(nèi)部孔的指令。
24.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括致使所述可編程處理器進(jìn)行以下動(dòng)作的指令
從視頻傳感器接收所述視頻序列的所述視頻幀;
針對(duì)所述視頻傳感器產(chǎn)生傳感器統(tǒng)計(jì)資料;
基于所述傳感器統(tǒng)計(jì)資料檢測(cè)所述視頻幀內(nèi)的皮膚區(qū)域;以及
基于所述檢測(cè)到的皮膚區(qū)域產(chǎn)生所述視頻幀的所述皮膚圖。
25.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀媒體,其中所述指令致使所述可編程處理器接收基于視頻傳感器的傳感器統(tǒng)計(jì)資料產(chǎn)生的所述視頻幀的皮膚圖。
26.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括致使所述可編程處理器處理包含所述自動(dòng)檢測(cè)到的ROI的所述視頻幀的指令,其中所述指令致使所述可編程處理器相對(duì)于所述視頻幀的非ROI區(qū)擇優(yōu)處理所述視頻幀內(nèi)的所述自動(dòng)檢測(cè)到的ROI。
27.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括致使所述可編程處理器對(duì)包含所述自動(dòng)檢測(cè)到的ROI的所述視頻幀進(jìn)行編碼的指令,其中所述指令致使所述可編程處理器相對(duì)于所述視頻幀的非ROI區(qū)對(duì)所述視頻幀內(nèi)的所述自動(dòng)檢測(cè)到的ROI進(jìn)行擇優(yōu)編碼。
28.根據(jù)權(quán)利要求16所述的計(jì)算機(jī)可讀媒體,其進(jìn)一步包括致使所述可編程處理器進(jìn)行以下動(dòng)作的指令
從至少第一ROI檢測(cè)模式和第二ROI檢測(cè)模式中選擇自動(dòng)ROI檢測(cè)模式;
當(dāng)選擇所述第一ROI檢測(cè)模式時(shí),在不參考所述視頻序列的所述視頻幀和不同視頻幀的運(yùn)動(dòng)信息的情況下,從所述視頻幀自動(dòng)檢測(cè)ROI;以及
當(dāng)選擇第二分段模式時(shí),基于所述視頻序列的所述視頻幀和不同視頻幀的運(yùn)動(dòng)信息從所述視頻幀自動(dòng)檢測(cè)ROI。
29.根據(jù)權(quán)利要求28所述的計(jì)算機(jī)可讀媒體,其中所述指令致使所述可編程處理器確定所述視頻序列的所述視頻幀與所述不同視頻幀之間的運(yùn)動(dòng)活動(dòng)的量,且在所述運(yùn)動(dòng)活動(dòng)的量高于預(yù)定等級(jí)時(shí),選擇所述第一ROI檢測(cè)模式。
30.根據(jù)權(quán)利要求28所述的計(jì)算機(jī)可讀媒體,其中所述指令致使所述可編程處理器確定所述視頻序列的其中在所述第二ROI檢測(cè)模式中自動(dòng)檢測(cè)到ROI的相繼視頻幀的數(shù)目,且在相繼第二ROI檢測(cè)模式視頻幀的所述數(shù)目高于預(yù)定等級(jí)時(shí),選擇所述第一ROI檢測(cè)模式。
31.一種視頻處理系統(tǒng),其包括
皮膚區(qū)域檢測(cè)器,其產(chǎn)生視頻序列的視頻幀的皮膚關(guān)注區(qū)(ROI)視頻處理模塊,其產(chǎn)生所述視頻序列的所述視頻幀和不同視頻幀的運(yùn)動(dòng)信息;以及
ROI檢測(cè)器,其接收所述視頻幀的所述皮膚圖和所述運(yùn)動(dòng)信息,并基于所述視頻幀中的宏區(qū)塊相對(duì)于所述視頻幀的所述皮膚圖和所述不同視頻幀內(nèi)的ROI的位置而自動(dòng)檢測(cè)所述視頻幀內(nèi)的所述ROI。
32.根據(jù)權(quán)利要求31所述的系統(tǒng),其中所述ROI檢測(cè)器
將所述視頻幀的第一宏區(qū)塊與所述不同視頻幀的對(duì)應(yīng)于所述第一宏區(qū)塊的第二宏區(qū)塊進(jìn)行比較;以及
當(dāng)所述第二宏區(qū)塊與所述不同視頻幀內(nèi)的ROI充分重疊且所述第一宏區(qū)塊與所述視頻幀的所述皮膚圖充分重疊時(shí),選擇所述第一宏區(qū)塊作為所述視頻幀內(nèi)的所述ROI的一部分。
33.根據(jù)權(quán)利要求32所述的系統(tǒng),其中所述ROI檢測(cè)器在所述第二宏區(qū)塊不與所述不同視頻幀內(nèi)的ROI充分重疊或所述第一宏區(qū)塊不與所述視頻幀的所述皮膚圖充分重疊這兩種情況中的至少一者發(fā)生時(shí),放棄將所述第一宏區(qū)塊考慮作為所述視頻幀內(nèi)的所述ROI的一部分。
34.根據(jù)權(quán)利要求32所述的系統(tǒng),其中當(dāng)所述第二宏區(qū)塊的多于預(yù)定百分比的面積與前一視頻幀的所述ROI重疊時(shí),所述第二宏區(qū)塊與所述不同視頻幀內(nèi)的所述ROI充分重疊。
35.根據(jù)權(quán)利要求32所述的系統(tǒng),其中當(dāng)所述第一宏區(qū)塊的多于預(yù)定百分比的面積與所述視頻幀的所述皮膚圖重疊時(shí),所述第一宏區(qū)塊與所述視頻幀的所述皮膚圖充分重疊。
36.根據(jù)權(quán)利要求31所述的系統(tǒng),其中所述ROI視頻處理模塊跟蹤所述視頻序列的所述視頻幀與所述不同視頻幀之間的所述ROI的運(yùn)動(dòng),以產(chǎn)生運(yùn)動(dòng)向量。
37.根據(jù)權(quán)利要求31所述的系統(tǒng),
其中所述皮膚區(qū)域檢測(cè)器產(chǎn)生所述視頻序列的另一視頻幀的皮膚圖;且
其中所述ROI檢測(cè)器接收所述另一視頻幀的所述皮膚圖,并基于所述視頻幀中的宏區(qū)塊相對(duì)于所述視頻幀的所述皮膚圖的位置且在不參考所述視頻序列的所述另一視頻幀和不同視頻幀的運(yùn)動(dòng)信息的情況下自動(dòng)檢測(cè)所述另一視頻幀內(nèi)的ROI。
38.根據(jù)權(quán)利要求37所述的系統(tǒng),其中所述ROI檢測(cè)器包含
區(qū)域標(biāo)記模塊,其將所述皮膚圖分成不連貫的區(qū)域;
區(qū)域選擇模塊,其從所述不連貫的區(qū)域中選擇包含所述另一視頻幀的最大面積的候選區(qū)域;
特征檢測(cè)和檢驗(yàn)?zāi)K,其檢測(cè)所述候選區(qū)域內(nèi)的ROI特征;
ROI區(qū)域選擇模塊,其從所述候選區(qū)域中選擇包含最大數(shù)目的ROI特征或所述另一視頻幀的所述最大面積中的至少一者的一個(gè)或一個(gè)以上ROI區(qū)域;以及
ROI宏區(qū)塊選擇模塊,其從所述另一視頻幀的宏區(qū)塊中選擇至少部分地與所述另一視頻幀內(nèi)的所述一個(gè)或一個(gè)以上ROI區(qū)域重疊的ROI宏區(qū)塊,
其中所述ROI檢測(cè)器基于所述選定的ROI宏區(qū)塊產(chǎn)生所述另一視頻幀內(nèi)的所述ROI。
39.根據(jù)權(quán)利要求38所述的系統(tǒng),其中所述特征檢測(cè)和檢驗(yàn)?zāi)K檢驗(yàn)所述視頻幀內(nèi)的所述檢測(cè)到的ROI特征,以為所述ROI選擇正確的特征且將錯(cuò)誤的特征從所述組ROI特征候選物中去除。
40.根據(jù)權(quán)利要求38所述的系統(tǒng),其進(jìn)一步包括形態(tài)學(xué)運(yùn)算模塊,所述形態(tài)學(xué)運(yùn)算模塊對(duì)所述一個(gè)或一個(gè)以上ROI區(qū)域執(zhí)行形態(tài)學(xué)運(yùn)算,以關(guān)閉所述視頻幀的所述皮膚圖中的來自所述檢測(cè)到的ROT特征的內(nèi)部孔。
41.根據(jù)權(quán)利要求31所述的系統(tǒng),其進(jìn)一步包括
相機(jī)處理模塊,其從視頻傳感器接收所述視頻序列的所述視頻幀;以及
傳感器校準(zhǔn)模塊,其針對(duì)所述視頻傳感器產(chǎn)生傳感器統(tǒng)計(jì)資料,
其中所述皮膚區(qū)域檢測(cè)器基于所述傳感器統(tǒng)計(jì)資料檢測(cè)所述視頻幀內(nèi)的皮膚區(qū)域,且基于所述檢測(cè)到的皮膚區(qū)域產(chǎn)生所述視頻幀的所述皮膚圖。
42.根據(jù)權(quán)利要求31所述的系統(tǒng),其中所述ROI檢測(cè)器接收基于視頻傳感器的傳感器統(tǒng)計(jì)資料產(chǎn)生的皮膚圖。
43.根據(jù)權(quán)利要求31所述的系統(tǒng),其中所述ROI視頻處理模塊處理包含所述自動(dòng)檢測(cè)到的ROI的所述視頻幀,其中所述ROI視頻處理模塊相對(duì)于所述視頻幀的非ROI區(qū)而擇優(yōu)處理所述視頻幀內(nèi)的所述自動(dòng)檢測(cè)到的ROI。
44.根據(jù)權(quán)利要求31所述的系統(tǒng),其中所述ROI視頻處理模塊包括ROI視頻編碼模塊,所述ROI視頻編碼模塊對(duì)包含所述自動(dòng)檢測(cè)到的ROI的所述視頻幀進(jìn)行編碼,其中所述ROI視頻編碼模塊相對(duì)于所述視頻幀的非ROI區(qū)對(duì)所述視頻幀內(nèi)的所述自動(dòng)檢測(cè)到的ROI進(jìn)行擇優(yōu)編碼。
45.根據(jù)權(quán)利要求31所述的系統(tǒng),其進(jìn)一步包括ROI檢測(cè)控制器,所述ROI檢測(cè)控制器
從至少第一ROI檢測(cè)模式和第二ROI檢測(cè)模式中選擇自動(dòng)ROI檢測(cè)模式;
當(dāng)選擇所述第一ROI檢測(cè)模式時(shí),決定在不參考所述視頻序列的所述視頻幀和不同視頻幀的運(yùn)動(dòng)信息的情況下從所述視頻幀自動(dòng)檢測(cè)ROI;以及
當(dāng)選擇所述第二分段模式時(shí),決定基于所述視頻序列的所述視頻幀和不同視頻幀的運(yùn)動(dòng)信息從所述視頻幀自動(dòng)檢測(cè)ROI。
46.根據(jù)權(quán)利要求45所述的系統(tǒng),其中所述ROI檢測(cè)控制器確定所述視頻序列的所述視頻幀與所述不同視頻幀之間的運(yùn)動(dòng)活動(dòng)的量,且在所述運(yùn)動(dòng)活動(dòng)的量高于預(yù)定等級(jí)時(shí),選擇所述第一ROI檢測(cè)模式。
47.根據(jù)權(quán)利要求45所述的系統(tǒng),其中所述ROI檢測(cè)控制器確定所述視頻序列的其中在所述第二ROI檢測(cè)模式中自動(dòng)檢測(cè)到ROI的相繼視頻幀的數(shù)目,且在相繼第二ROI檢測(cè)模式視頻幀的所述數(shù)目高于預(yù)定等級(jí)時(shí),選擇所述第一ROI檢測(cè)模式。
全文摘要
本發(fā)明針對(duì)基于視頻序列的視頻幀內(nèi)的低復(fù)雜性自動(dòng)關(guān)注區(qū)(ROI)檢測(cè)的ROI視頻處理的技術(shù)。所述低復(fù)雜性自動(dòng)ROI檢測(cè)可基于視頻通信裝置內(nèi)的視頻傳感器的特性。在其它情況下,所述低復(fù)雜性自動(dòng)ROI檢測(cè)可基于所述視頻序列的一視頻幀和一不同視頻幀的運(yùn)動(dòng)信息。所述揭示的技術(shù)包含視頻處理技術(shù),其能夠基于特定視頻傳感器的特性調(diào)諧并增強(qiáng)視頻通信裝置內(nèi)的視頻傳感器校準(zhǔn)、相機(jī)處理、ROI檢測(cè)和ROI視頻處理。所述揭示的技術(shù)還包含基于傳感器的ROI檢測(cè)技術(shù),其使用視頻傳感器統(tǒng)計(jì)資料和相機(jī)處理側(cè)信息來改進(jìn)ROI檢測(cè)準(zhǔn)確性。所述揭示的技術(shù)還包含基于運(yùn)動(dòng)的ROI檢測(cè)技術(shù),其使用視頻處理中運(yùn)動(dòng)估計(jì)期間獲得的運(yùn)動(dòng)信息。
文檔編號(hào)H04N7/26GK101341494SQ200680044707
公開日2009年1月7日 申請(qǐng)日期2006年10月5日 優(yōu)先權(quán)日2005年10月5日
發(fā)明者王浩宏, 全舒學(xué), 哈立德·希勒米·厄勒-馬列, 錢川·安德魯·秋, 江曉云 申請(qǐng)人:高通股份有限公司