專利名稱:生成視頻摘要的方法及裝置的制作方法
技術領域:
本發(fā)明涉及視頻處理技術領域,特別涉及生成視頻摘要的方法及裝置。
背景技術:
作為一種團體對抗性運動,足球已經融入人們的日常生活。隨著足球賽事 的不斷增多,人們往往無法到比賽現場親身觀看,也難以通過視頻看到所有的 足球比賽,這樣,足球視頻摘要成為人們觀看足球比賽的首選。
足球視頻摘要是指對足球比賽視頻文檔的簡短內容總結,通常通過提取足
球比賽視頻文檔的特征建立足球視頻摘要。足球比賽視頻文檔的特征包括音 頻特征、視覺特征、文本特征和運動特征。
其中,音頻特征包括講解員的講解聲、觀眾的歡呼聲、鼓掌聲和背景噪聲 等;視覺特征包括球場輪廓、觀眾席區(qū)、球門區(qū)域和球門框等;文本特征包括 足球比賽視頻文檔下方的字幕欄、左上角的臺標欄和右上角的比分欄鏡頭回放 前的臺標等;運動特征包括攝像機的運動、球員的運動和球的運動等。
在特征提取時,提取的特征種類比較多,系統(tǒng)的運算量大;在提取運動特 征時,運動對象有效的分離和跟蹤復雜度高,計算困難,容易出錯。
發(fā)明內容
本發(fā)明實施例的目的在于提供生成視頻摘要的方法及裝置,提高視頻摘要 生成的效率和準確率。
本發(fā)明實施例提供了 一種生成視頻摘要的方法,該方法包括 接收視頻文件;
對所述視頻文件的視覺精彩度進行處理;
將滿足視覺精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
本發(fā)明實施例還提供了一種生成視頻摘要的方法,該方法包括
接收視頻文件;
對所述視頻文件的聲音精彩度進行處理;
將滿足聲音精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
本發(fā)明實施例還提供了 一種生成視頻摘要的方法,該方法包括
4妻收纟見頻文件;對所述視頻文件的視覺精彩度進行處理;
.對所述視頻文件的聲音精彩度進行處理;
將滿足視覺精彩度和聲音精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
本發(fā)明實施例還提供了一種生成視頻摘要的裝置,該裝置包括 接收單元,用于接收視頻文件;
視覺單元,用于對所述視頻文件的視覺精彩度進行處理; 聚合單元,用于將滿足視覺精彩度的關聯(lián)鏡頭組聚合成視頻片斷。 本發(fā)明實施例還提供了一種生成視頻摘要的裝置,該裝置包括 接收單元,用于接收視頻文件;
聲音單元,用于對所述視頻文件的聲音精彩度進行處理; 聚合單元,用于將滿足聲音精彩度的關聯(lián)鏡頭組聚合成視頻片斷。 本發(fā)明實施例還提供了一種生成視頻摘要的裝置,該裝置包括 接收單元,用于接收視頻文件;
視覺單元,用于對所述視頻文件的視覺精彩度進行處理; 聲音單元,用于對所述視頻文件的聲音精彩度進行處理; 聚合單元,用于將滿足視覺精彩度和聲音精彩度的關聯(lián)鏡頭組聚合成視頻 片斷。
背景技術:
中,對足球比賽視頻文檔根據音頻特征、視覺特征、文本特征和 運動特征等四種特征進行處理,得到足球視頻摘要,采用本發(fā)明實施例生成視 頻摘要的方法及裝置,對視頻文件的視覺精彩度和/或聲音精彩度進行處理, 減少特征種類,降低計算復雜度,提高視頻摘要生成的效率和準確率。
背景技術:
中,對運動特征進行提取時,運動對象有效的分離和跟蹤的復雜 度高,計算困難,且對運動特征提取的準確性對視頻摘要生成效果有很大影響, 采用本發(fā)明實施例一種生成視頻摘要的方法及裝置,通過視頻文件的視覺精彩 度和/或聲音精彩度進行處理,避免運動特征對視頻摘要的影響,提高了視頻 摘要的準確率。
圖1是本發(fā)明生成視頻摘要的方法實施例三的流程示意圖2是本發(fā)明生成視頻摘要的方法實施例三中聲音平均短時能量特征值入隊的流程示意圖3是本發(fā)明生成視頻摘要的方法實施例三中聲音平均短時能量高聲隊列 特征值重新入隊列的流程示意圖4是本發(fā)明生成視頻摘要的方法實施例三中聲音平均短時能量低聲隊列 特征值重新入隊列的流程示意圖5是本發(fā)明生成視頻摘要的方法實施例三中鏡頭提取結果示意圖6是本發(fā)明成視頻摘要的裝置實施例三的結構示意圖。
具體實施例方式
實施例一, 一種生成一見頻摘要的方法,該方法包括
步驟一、接收視頻文件;
步驟二、對視頻文件的視覺精彩度進行處理;
可以采用以下方式對視頻文件的視覺精彩度進行處理
將視頻文件進行鏡頭邊界檢測,得到鏡頭集;對鏡頭集進行鏡頭分類;對 已經分類的鏡頭集進行聚合,得到關聯(lián)鏡頭組;計算各關聯(lián)鏡頭組的權值之和。
可以采用以下方式對浮見頻文件進行鏡頭邊界4全測
計算^L頻文件兩幀之間的主色比率絕對差Gd和顏色直方差Hd;通過主色 比率絕對差Gd和顏色直方差Hd的多個閾值檢測鏡頭的切變和漸變邊界。
根據切變和漸變邊界,得到鏡頭集。
可以采用以下方式對#;頭集進行鏡頭分類
提取鏡頭集中代表鏡頭類型的關鍵幀;將關鍵幀分類。
可以采用以下方式提取鏡頭集中代表鏡頭類型的關鍵幀
取每個鏡頭的中間幀作為關鍵幀, 一個鏡頭內的視頻幀數目為N,當N為 奇數時,取第(N±l)/2幀作為該鏡頭的關鍵幀;當N為偶數時,取第N/2幀 作為該鏡頭的關鍵幀。對于每一個鏡頭而言,中心位置是視覺上最重要的位置, 因此,取每個鏡頭的中間幀作為關鍵幀。
可以采用以下方式進行關鍵幀分類
將關鍵幀由紅、藍、綠RGB三基色空間轉換到色調、飽和度、亮度HSV 空間;將每個視頻幀分成若干區(qū)域;根據各區(qū)域的主色覆蓋率將各區(qū)域劃分為 不同類別;為不同類別的區(qū)域分配不同的權值;根據權值將關鍵幀劃分為以下H=、
類別長鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和 其他鏡頭。
RGB轉化到HSV空間的計算公式如下所示 Max=max ( R,QB ) Min=min (R,G,B )
廣 (G-B) *60/(Max-Min), if Max=R,G>B
360+ (G畫B) *60/(Max-Min), if Max=R,G<B 180+ (B-R) *60/( Max- Min), ifMax= G 240+ (R-G) *60/(Max-Min), if Max=B S= (Max- Min) / Max V= Max
由于在視頻文件中, 一般都有一個主色,例如,在足球視頻中,綠色為主 色,在籃球視頻中,籃球場地板的木板色為主色;滑冰視頻中,冰的透明色為 主色、、、而主色在—見頻幀的分布具有區(qū)域特征。 一方面,浮見頻幀中一般存在標 志覆蓋,例如幀下面的字幕、左上角的臺標、右上角的分數欄,這些標志覆 蓋都存在于固定的區(qū)域,區(qū)分出這些覆蓋區(qū)域有利于減少標識覆蓋對視頻精彩 度結果的影響。另一方面,在視頻文件的圖片幀中,不少具有水平性和對稱性 的特點,因此,可以將每個視頻幀分為十六個區(qū)域,其中長寬各均分四等分, 每個區(qū)域之間沒有交集。
當視頻文件為足球比賽視頻時,主色為綠色,可以將各區(qū)域劃分為80% 以上綠色覆蓋區(qū)、50%至80%綠色覆蓋區(qū)、20%至50%綠色覆蓋區(qū)、20%以下 綠色覆蓋區(qū)。
為80%以上綠色覆蓋區(qū)分配權值為100, 50%至80%綠色覆蓋區(qū)分配權值 為10, 20%至50%綠色覆蓋區(qū)分配權值為1, 20%以下綠色覆蓋區(qū)分配權值為 0。
根據權值得到不同類型的鏡頭長鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、 特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
其中,長鏡頭,體現在區(qū)域特征上,是指中間兩行區(qū)域為全主色狀態(tài)的鏡 頭,在足球視頻中,長鏡頭是指中間兩行區(qū)域為全綠色狀態(tài)的鏡頭。
半鏡頭是中距離鏡頭的一種,用于描述比賽過程運動員運動中的中距離特寫,體現在區(qū)域特征上, 一般最上面兩行都被覆蓋,且最下面兩行之可能存在 列覆蓋。
3/4鏡頭也是中距離鏡頭的一種,體現在區(qū)域特征上, 一般是最上面三行
都被覆蓋,同時最下面一行區(qū)間的覆蓋率在50%以下,在足球視頻中,3/4鏡 頭通常是球員帶球動作的特寫。
球門鏡頭,在足球視頻中,球門鏡頭是球場外遠距離攝像機對球門區(qū)域的 跟蹤,體現在區(qū)域特征上,從左到右,在主色覆蓋率上具有遞減或者遞增的趨 勢, 一般最上一行被覆蓋,權值和最大值大于等于110。在足球視頻中,球門 鏡頭一般用于射門事件的識別。
特寫鏡頭,體現在區(qū)域特征上, 一般是由下至上遞減的范圍覆蓋,最下面 一行中有全覆蓋區(qū)域,至少存在一列的列覆蓋為零。在足球視頻中,特寫鏡頭 包括運動員特寫鏡頭和裁判特寫鏡頭。
中鏡頭,體現在區(qū)域特征上, 一般是列覆蓋,即只有幾列存在覆蓋的情況, 最下面一行不存在覆蓋。在足球視頻中,中鏡頭用于較遠距離描述運動員帶球 或是過人。
短鏡頭,體現在區(qū)域特征上, 一般都為全覆蓋。在足球視頻中,短鏡頭一 般是對觀眾席的拍攝記憶對特寫球員的跟蹤。
其他鏡頭,用于表示由于運動產生的模糊而無法區(qū)分的鏡頭。
根據區(qū)域的權值得到不同類型的鏡頭,各類型鏡頭的權值不同,權值越高, 與精彩鏡頭的關聯(lián)度越大,球門鏡頭的權值為1、短鏡頭的權值為1、特寫鏡 頭的權值為2、 3/4鏡頭的權值也為2、其他鏡頭的權值為0、
可以釆用以下方式得到關聯(lián)鏡頭組根據被標識為長鏡頭的關鍵幀,查找 對應的長鏡頭;生成以長鏡頭為開始鏡頭,下一個長鏡頭的前一個鏡頭為結束 鏡頭的關聯(lián)鏡頭組。
在比賽視頻中,大量運動員集中在一個區(qū)域,可能會影響該鏡頭的行列特 性,從而該鏡頭的視頻幀中出現孤點,孤點的周圍區(qū)域主色覆蓋率在相同范圍 內,孤點的主色覆蓋率不在周圍區(qū)域主色覆蓋率的范圍內,由于孤點的存在, 會破壞鏡頭主色覆蓋率的連續(xù)性,容易造成鏡頭的誤檢,因此將孤點的主色覆 蓋率設置為周圍區(qū)域主色覆蓋率的均值。計算各關聯(lián)鏡頭組所包含鏡頭的權值之和作為各關聯(lián)鏡頭組視覺精彩度, 將視覺精彩度與不同閾值比較,當視覺精彩度在相應的閾值范圍時,達到相應 的精彩度級別。閾值可以根據視頻文件的情況設定,也可以根據觀眾的需求設 定。
視覺精彩度的闊值可以根據觀眾的需求設定,從而可以滿足觀眾快速可調 的精彩鏡頭提取要求,識別出各種精彩鏡頭,例如球星的精彩運球或過人等, 提高了視頻摘要生成的靈活性和可靠性。
在足球視頻中,可以設定精彩度級別為一時,對應的閾值為四;精彩度級 別為二時,對應的閾值為五;精彩度級別為三時,對應的閾值為七;精彩度級 別為四時,對應的閾值為八。第一級別精彩度視頻幀,為典型犯規(guī)鏡頭,容易 誤檢;第二級別精彩視頻幀為典型射門鏡頭,漏檢犯規(guī);第三級別精彩視頻幀 為典型進球鏡頭,易漏檢;第四級別精彩視頻幀為精彩度高鏡頭,多漏檢。當 視覺精彩度大于相應的閾值,則認為滿足視覺精彩度要求。
也可以采用以下方式對視頻文件的視覺精彩度進行處理
將視頻幀劃分為若干區(qū)域,不同顏色代表不同的數值,根據顏色的數值及 所占比例計算各區(qū)域的權值。例如,將視頻文件分成十個區(qū)域,成兩行五列的 排列,紅色代表八,綠色代表十,黑色代表一,白色代表五、、、第一行第一列 的第一區(qū)域中,紅色所占的比例為三分之一,綠色所占的比例為十分之一,黑 色所占的比例為七分之一,白色所占的比例為十五分之一、、、將第一區(qū)域中所 有顏色代表的數值與對應的比例乘積之和作為第 一 區(qū)域的權值,第 一 區(qū)域的權 值作為第 一 區(qū)域的視覺精彩度。
步驟三、將滿足視覺精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
利用符合視覺精彩度鏡頭關聯(lián)組中的任意一個關鍵幀定位其所在的鏡頭 關聯(lián)組,找出符合視覺精彩度的鏡頭關聯(lián)組。
將滿足視覺精彩度的關聯(lián)鏡頭組聚合成一個視頻片斷。
得到的視頻片斷組成視頻摘要。
對于新聞報道、體育賽事、風景游覽等等視頻文件,為了在較短的時間內 傳遞更多的信息,可以采用本實施例的方法將視頻文件處理成視頻摘要;對于 對抗性體育賽事,例如馬拉松、賽車、自行車比賽、溜水、籃球、足球等,為了將賽事的精彩片段傳遞給觀眾,可以采用本實施例的方法將視頻文件生成視 頻摘要。
采用本實施例中生成視頻摘要的方法,僅對視頻文件的視覺精彩度進行處 理,減少特征種類,降低計算復雜度,提高視頻摘要生成的效率和準確率。還 可以避免運動特征對視頻摘要的影響,進一步提高了視頻摘要的準確率。
采用本實施例中生成視頻摘要的方法,從視頻文件的視覺信息入手,對鏡 頭進行精彩程度的量化,可以依據用戶的不同需求,得出包含不同精彩鏡頭的 視頻摘要,提高了視頻摘要的靈活性和可靠性。
實施例二, 一種生成^L頻摘要的方法,該方法包:fe:
步驟一、接收視頻文件;
步驟二、對視頻文件的聲音精彩度進行處理;
可以采用如下方式對視頻文件的聲音精彩度進行處理
提取視頻文件的音頻特征;
計算音頻特征的權值;
才艮據不同的特征值閾值將音頻特征的權值劃分為若干個區(qū)間,對應不同的 聲音精彩度。
可以采用如下方式提取視頻文件的音頻特征
對視頻文件進行采樣;計算每個釆樣點數據的聲音平均短時能量特征值和 聲音平均過零率特征值。
一般,采樣點選取在待檢測視頻的n等分點處,每次的采樣長度為t(單 位秒)。對于不同長度的視頻文件,選擇不同的采樣點個數,例如,對于一 個十五分鐘的視頻,可以選擇五至八個采樣點,每次采樣一分鐘的數據, 一分 鐘內包含若干個音頻幀。
其中,平均短時能量(Ste)是指在一個音頻幀內,樣本信號所積聚的平 均能量,反映了聲音信號振幅或能量隨著時間的變化規(guī)律。
平均過零率是指在一個音頻幀內,離散采樣信號值由正到負和由負到正變 化的次數與音頻幀長度的比值,即一幀語音中信號波形穿過橫軸相鄰兩個采樣 點改變符號的比率,是音頻信號在一幀內的平均頻率的反映。
可以根據聲音平均短時能量特征值或聲音平均過零率特征值的均值和特征值的個數,計算音頻特征的權值。
計算聲音平均短時能量特征值或聲音平均過零率特征值的均值;對于每一
種音頻特征,平均短時能量或平均過零率,在每一個采樣點處,采集到k個值, 而每個值相對于均值都有較高或較低的區(qū)別,將比均值大的聲音平均短時能量 特征值或聲音平均過零率特征值作為高聲特征值,將比均值小的聲音平均短時 能量特征值或聲音平均過零率特征值作為低聲特征值;選擇兩個隊列存放采樣 點的k個值,將高聲特征值入高聲隊列,低聲特征值入低聲隊列,由于每個釆 樣點有兩種特征值(聲音平均短時能量特征值或聲音平均過零率特征值),每
種特征值需要兩個隊列(高聲隊列和低聲隊列),對于n個采樣點,需要4n個 隊列,每個隊列有兩個參數均值和特征值個數。
將音頻特征入隊,包括將聲音平均短時能量特征值入短時能量高聲隊列和 短時能量低聲隊列,以及將聲音平均過零率特征值入過零率高聲隊列和歸零率 低聲隊列,每種特征值入隊的流程相同,下面僅以聲音平均短時能量特征值入 隊為例進行說明,入隊的流程包括
步驟(一)、初始化短時能量高聲隊列和短時能量低聲隊列。k個聲音平均 短時能量特征值的頭兩個中較高的值入隊短時能量高聲隊列,較低的值入隊短 時能量低聲隊列。同時,將短時能量高聲隊列的均值aveH初始化為入隊第一 個值,將短時能量低聲隊列的均值aveL初始化為入隊第一個值。特征值個數 均初始化為一。
步驟(二)、判斷是否越界,即判斷是否正在操作第k個特征值,如果是, 則退出入隊流程;如果不是,則轉入步驟(三)。 步驟(三)、讀取下一個特征值i。
步驟(四)、計算特征值i與短時能量高聲隊列均值的差n^aveH-i,計算 特征值i與短時能量低聲隊列均值的差n=i-aveL。
步驟(五)、判斷m是否小于n,如果是,則轉入步驟(六),如果不是, 則轉入步驟(七)。
步驟(六)、特征值i插入高聲隊列,并修改隊列參數,將原短時能量高 聲隊列均值與特征值i的平均值作為新短時能量高聲隊列均值,將原特征值個 數加一;轉入步驟步驟(八)。步驟(七)、特征值i插入低聲隊列,并修改隊列參數,將原短時能量低
聲隊列均值與特征值i的平均值作為新短時能量低聲隊列均值,將原特征值個 數加一;轉入步驟(八)。
步驟(八)、判斷特征值i是否小于原短時能量高聲隊列均值或原短時能 量低聲隊列均值,如果是,則轉入步驟(九);否則,轉入步驟(十)。
步驟(九)、短時能量低聲隊列特征值重新入隊列,轉入步驟(二)。 步驟(十)、短時能量高聲隊列特征值重新入隊列,轉入步驟(二 )。 其中,短時能量高聲隊列特征值重新入隊列的流程如下 步驟A、將短時能量高聲隊列中的特征值由d、到大排序。
步驟B、判斷隊列是否越界,即是否超過該隊列長度,如果是,則轉入步
驟F,如果否,則轉入步驟C。
步驟c、將隊列中的第 一個特征值分別與短時能量高聲隊列均值和短時能 量低聲隊列均值進行比較,如果更接近短時能量低聲隊列均值,則轉入步驟D, 否則,則轉入步驟F。
步驟D、將特征值插入短時能量低聲隊列,同時調整短時能量高聲隊列和 短時能量低聲隊列的參數,即調整均值和特征值個數。
步驟E、讀取下一個特征值,轉入步驟B。
步驟F、退出重新入隊列流程。
短時能量低聲隊列特征值重新入隊列的流程如下
步驟a、將短時能量低聲隊列中的特征值由大到小排序。
步驟b、判斷隊列是否越界,即是否超過該隊列長度,如果是,則轉入步 驟f,如果否,則轉入步驟c。
步驟c、將隊列中的第一個特征值分別與短時能量高聲隊列均值和短時能 量低聲隊列均值進行比較,如果更接近短時能量高聲隊列均值,則轉入步驟d, 否則,則轉入步驟f。
步驟d、將特征值插入短時能量高聲隊列,同時調整短時能量高聲隊列和 短時能量低聲隊列的參數,即調整均值和特征值個數。
步驟e、讀取下一個特征值,轉入步驟b。
步驟f、退出重新入隊列流程。
20計算每個高聲隊列或低聲隊列的特征值個數在整個高聲隊列或低聲隊列
特征值個數中所占的比率。
根據高聲隊列或低聲隊列特征值所占整個高聲隊列或低聲隊列特征值的
比率,計算整個高聲隊列權值和低聲隊列權值。將每個高聲隊列的特征值比率 與對應的隊列特征值均值乘積之和作為整個高聲隊列權值,將每個低聲隊列特 征值的比率與對應的隊列特征值均值乘積之和作為整個低聲隊列權值。
以整個高聲隊列和低聲隊列的隊列權值為基礎,設置聲音精彩度閾值,表 示不同的聲音精彩度。為了保證特征值閾值不超過特征值區(qū)間,將級別系數 作為特征值閾值參數,級別系數小于一。例如,可以將聲音精彩度劃分為四級, 第一級對應的級別系數為0.5,則第一級特征值閾值為整個高聲隊列權值與整
個低聲隊列權值之和乘以0.5;第二級對應的級別系數為0.6,則第二級特征值 閾值為整個高聲隊列權值與整個低聲隊列權值之和乘以0.6;第三級對應的級 別系數為0.7,則第三級特征值閾值為整個高聲隊列權值與整個低聲隊列權值 之和乘以0.7;第四級對應的級別系數為0.8,則第四級特征值閾值為整個高聲 隊列權值與整個低聲隊列權值之和乘以0.8。級別系數低于0.5定義為不精彩, 級別系數大于0.8時,視頻摘要長度過短,包含的精彩鏡頭過少。也可以根據 不同的視頻文件具體場景,選擇其他級別系數。
利用釆樣點處的音頻特征與聲音精彩度閾值進行比較,獲得滿足相應的聲 音精彩度的視頻段。利用采樣點處的特征值與聲音精彩度閾值進行比較,如果 特征值大于相應的閾值,則滿足相應的聲音精彩度級別。此處,采樣點的特征 值可以是采樣點處高聲隊列的特征值均值,也可以是高聲隊列特征值均值和低 聲隊列特征值均值之和的一半。
聲音精多度的閾值可以根據觀眾的需求設定,從而可以滿足觀眾快速可調 的精彩鏡頭提取要求,識別出各種精彩鏡頭,例如球星的精彩運球或過人等, 提高了視頻摘要生成的靈活性和可靠性。
步驟三、將滿足聲音精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
關聯(lián)鏡頭組可以為以長鏡頭為開始鏡頭,下一個長鏡頭的前一個鏡頭為結 束鏡頭的鏡頭組。
找出符合聲音精彩度的鏡頭關聯(lián)組。將滿足聲音精彩度的關聯(lián)鏡頭組聚合成一個視頻片斷。 得到的視頻片斷組成視頻摘要。
對于新聞報道、體育賽事、風景游覽等等視頻文件,為了在較短的時間內 傳遞更多的信息,可以采用本實施例的方法將視頻文件處理成視頻摘要;對于 對抗性體育賽事,例如馬拉松、賽車、自行車比賽、溜冰、籃球、足球等,為 了將賽事的精彩片段傳遞給觀眾,可以采用本實施例的方法將視頻文件生成視 頻摘要。
采用本實施例中生成視頻摘要的方法,僅對視頻文件的聲音精彩度進行處 理,減少特征種類,降低計算復雜度,提高視頻摘要生成的效率和準確率。還 可以避免運動特征對視頻摘要的影響,進一步提高了視頻摘要的準確率。
采用本實施例中生成視頻摘要的方法,從視頻文件的聲音信息入手,對鏡 頭進行精彩程度的量化,可以依據用戶的不同需求,得出包含不同精彩鏡頭的 視頻摘要,提高了視頻摘要的靈活性和可靠性。
實施例三, 一種生成視頻摘要的方法,參見圖1,該方法包括
101、 接收視頻文件;
102、 對視頻文件的視覺精彩度進行處理; 可以采用以下方式對視頻文件的視覺精彩度進行處理 將視頻文件進行鏡頭邊界檢測,得到鏡頭集;對鏡頭集進行鏡頭分類;對
已經分類的鏡頭集進行聚合,得到關聯(lián)鏡頭組;計算各關聯(lián)鏡頭組的權值之和。 可以采用以下方式對視頻文件進行鏡頭邊界檢測
計算^L頻文件兩幀之間的主色比率絕對差Gd和顏色直方差Hd;通過主色 比率絕對差Gd和顏色直方差Hd的多個閾值檢測鏡頭的切變和漸變邊界。 才艮據切變和漸變邊界,得到鏡頭集。 可以采用以下方式對鏡頭集進行鏡頭分類 提取鏡頭集中代表鏡頭類型的關鍵幀;將關鍵幀分類。 可以釆用以下方式提取鏡頭集中代表鏡頭類型的關鍵幀 取每個鏡頭的中間幀作為關鍵幀, 一個鏡頭內的視頻幀數目為N,當N為 奇數時,取第(N±l)/2幀作為該鏡頭的關鍵幀;當N為偶數時,取第N/2幀 作為該鏡頭的關鍵幀。對于每一個鏡頭而言,中心位置是視覺上最重要的位置,H=、
因此,取每個鏡頭的中間幀作為關鍵幀。 可以采用以下方式進行關鍵幀分類
將關鍵幀由紅、藍、綠RGB三基色空間轉換到色調、飽和度、亮度HSV 空間;將每個視頻幀分成若干區(qū)域;根據各區(qū)域的主色覆蓋率將各區(qū)域劃分為 不同類別;為不同類別的區(qū)域分配不同的權值;根據一又值將關^l建幀劃分為以下 類別長鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和 其他鏡頭。
RGB轉化到HSV空間的計算公式如下所示 Max=max (R,QB ) Min=min ( R,QB )
廣 (G-B) *60/(Max-Min), if Max=R,G>B
360+ ( G-B ) *60/( Max- Min), ifMax= R,G<B 180+ (B隱R) *60/( Max- Min), ifMax= G ^ 240+ (R-G) *60/(Max-Min), if Max=B S= (Max- Min) / Max V= Max
由于在視頻文件中, 一般都有一個主色,例如,在足球視頻中,綠色為主 色,在籃球視頻中,籃球場地板的木板色為主色;滑冰一見頻中,冰的透明色為 主色、、、而主色在視頻幀的分布具有區(qū)域特征。 一方面,視頻幀中一般存在標 志覆蓋,例如幀下面的字幕、左上角的臺標、右上角的分數欄,這些標志覆 蓋都存在于固定的區(qū)域,區(qū)分出這些覆蓋區(qū)域有利于減少標識覆蓋對視頻精彩 度結果的影響。另一方面,在視頻文件的圖片幀中,不少具有水平性和對稱性 的特點,因此,可以將每個視頻幀分為十六個區(qū)域,其中長寬各均分四等分, 每個區(qū)域之間沒有交集。
當視頻文件為足球比賽視頻時,主色為綠色,可以將各區(qū)域劃分為80% 以上綠色覆蓋區(qū)、50%至80%綠色覆蓋區(qū)、20%至50%綠色覆蓋區(qū)、20%以下 綠色覆蓋區(qū)。
為80%以上綠色覆蓋區(qū)分配權值為100, 50%至80%綠色覆蓋區(qū)分配權值 為10, 20%至50%綠色覆蓋區(qū)分配權值為1, 20%以下綠色覆蓋區(qū)分配權值為 0。根據權值得到不同類型的鏡頭長鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、
特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
其中,長鏡頭,體現在區(qū)域特征上,是指中間兩行區(qū)域為全主色狀態(tài)的鏡 頭,在足球視頻中,長鏡頭是指中間兩行區(qū)域為全綠色狀態(tài)的鏡頭。
半鏡頭是中距離鏡頭的一種,用于描述比賽過程運動員運動中的中距離特 寫,體現在區(qū)域特征上, 一般最上面兩行都被覆蓋,且最下面兩行之可能存在 列覆蓋。
3/4鏡頭也是中距離鏡頭的一種,體現在區(qū)域特征上, 一般是最上面三行 都被覆蓋,同時最下面一行區(qū)間的覆蓋率在50%以下,在足球^L頻中,3/4鏡 頭通常是球員帶球動作的特寫。
球門鏡頭,在足球視頻中,球門鏡頭是球場外遠距離攝像機對球門區(qū)域的 跟蹤,體現在區(qū)域特征上,從左到右,在主色覆蓋率上具有遞減或者遞增的趨 勢, 一般最上一行被覆蓋,權值和最大值大于等于110。在足球視頻中,球門 鏡頭一般用于射門事件的識別。
特寫鏡頭,體現在區(qū)域特征上, 一般是由下至上遞減的范圍覆蓋,最下面 一行中有全覆蓋區(qū)域,至少存在一列的列覆蓋為零。在足球視頻中,特寫鏡頭 包括運動員特寫鏡頭和裁判特寫鏡頭。
中鏡頭,體現在區(qū)域特征上, 一般是列覆蓋,即只有幾列存在覆蓋的情況, 最下面一行不存在覆蓋。在足球視頻中,中鏡頭用于較遠距離描述運動員帶球 或是過人。
短鏡頭,體現在區(qū)域特征上, 一般都為全覆蓋。在足球視頻中,短鏡頭一 般是對觀眾席的拍攝記憶對特寫球員的跟蹤。
其他鏡頭,用于表示由于運動產生的模糊而無法區(qū)分的鏡頭。
根據區(qū)域的權值得到不同類型的鏡頭,各類型鏡頭的權值不同,權值越高, 與精彩鏡頭的關聯(lián)度越大,球門鏡頭的權值為1、短鏡頭的權值為1、特寫鏡 頭的權值為2、 3/4鏡頭的權值也為2、其他鏡頭的權值為0、
可以采用以下方式得到關聯(lián)鏡頭組根據被標識為長鏡頭的關鍵幀,查找 對應的長鏡頭;生成以長鏡頭為開始鏡頭,下一個長鏡頭的前一個鏡頭為結束 鏡頭的關聯(lián)鏡頭組。在比賽視頻中,大量運動員集中在一個區(qū)域,可能會影響該鏡頭的行列特 性,從而該鏡頭的視頻幀中出現孤點,孤點的周圍區(qū)域主色覆蓋率在相同范圍 內,孤點的主色覆蓋率不在周圍區(qū)域主色覆蓋率的范圍內,由于孤點的存在, 會破壞鏡頭主色覆蓋率的連續(xù)性,容易造成鏡頭的誤檢,因此將孤點的主色覆 蓋率設置為周圍區(qū)域主色覆蓋率的均值。
計算各關聯(lián)鏡頭組所包含鏡頭的權值之和作為各關聯(lián)鏡頭組視覺精彩度, 將視覺精彩度與不同閾值比較,當視覺精彩度在相應的閾值范圍時,達到相應 的精彩度級別。閾值可以根據視頻文件的情況設定,也可以才艮據觀眾的需求設 定。
視覺精彩度的閾值可以根據觀眾的需求設定,從而可以滿足觀眾快速可調 的精彩鏡頭提取要求,識別出各種精彩鏡頭,例如球星的精彩運球或過人等, 提高了視頻摘要生成的靈活性和可靠性。
在足球視頻中,可以設定精彩度級別為一時,對應的閾值為四;精彩度級 別為二時,對應的閾值為五;精彩度級別為三時,對應的閾值為七;精彩度級 別為四時,對應的閾值為八。第一級別精彩度視頻幀,為典型犯規(guī)鏡頭,容易 誤檢;第二級別精彩視頻幀為典型射門鏡頭,漏檢犯規(guī);第三級別精彩視頻幀 為典型進球鏡頭,易漏檢;第四級別精彩視頻幀為精彩度高鏡頭,多漏檢。當 視覺精彩度大于相應的閾值,則認為滿足視覺精彩度要求。
也可以采用以下方式對視頻文件的視覺精彩度進行處理
將視頻幀劃分為若干區(qū)域,不同顏色代表不同的數值,根據顏色的數值及 所占比例計算各區(qū)域的權值。例如,將視頻文件分成十個區(qū)域,成兩行五列的 排列,紅色代表八,綠色代表十,黑色代表一,白色代表五、、、第一行第一列 的第一區(qū)域中,紅色所占的比例為三分之一,綠色所占的比例為十分之一,黑 色所占的比例為七分之一,白色所占的比例為十五分之一、、、將第一區(qū)域中所 有顏色代表的數值與對應的比例乘積之和作為第 一 區(qū)域的權值,第 一 區(qū)域的權 值作為第 一 區(qū)域的視覺精彩度。
103、對視頻文件的聲音精彩度進行處理;
可以釆用如下方式對視頻文件的聲音精彩度進行處理
提取視頻文件的音頻特征;計算音頻特征的權值;
根據不同的特征值閾值將音頻特征的權值劃分為若干個區(qū)間,對應不同的 聲音精彩度。
可以采用如下方式 一是耳又;現頻文件的音頻特征
對視頻文件進行采樣;計算每個采樣點數據的聲音平均短時能量特征值和 聲音平均過零率特征值。
一般,釆樣點選取在待檢測視頻的n等分點處,每次的采樣長度為t(單 位秒)。對于不同長度的視頻文件,選擇不同的采樣點個數,例如,對于一 個十五分鐘的視頻,可以選擇五至八個采樣點,每次采樣一分鐘的數據, 一分 鐘內包含若干個音頻幀。
其中,平均短時能量(Ste)是指在一個音頻幀內,樣本信號所積聚的平 均能量,反映了聲音信號振幅或能量隨著時間的變化規(guī)律。
平均過零率是指在一個音頻幀內,離散采樣信號值由正到負和由負到正變 化的次數與音頻幀長度的比值,即一幀語音中信號波形穿過橫軸相鄰兩個釆樣 點改變符號的比率,是音頻信號在一幀內的平均頻率的反映。
可以根據聲音平均短時能量特征值或聲音平均過零率特征值的均值和特 征值的個數,計算音頻特征的權值。
計算聲音平均短時能量特征值或聲音平均過零率特征值的均值;對于每一 種音頻特征,平均短時能量或平均過零率,在每一個采樣點處,采集到k個值, 而每個值相對于均值都有較高或較低的區(qū)別,將比均值大的聲音平均短時能量
特征值或聲音平均過零率特征值作為高聲特征值,將比均值小的聲音平均短時 能量特征值或聲音平均過零率特征值作為低聲特征值;選擇兩個隊列存放采樣 點的k個值,將高聲特征值入高聲隊列,低聲特征值入低聲隊列,由于每個采 樣點有兩種特征值(聲音平均短時能量特征值或聲音平均過零率特征值),每 種特征值需要兩個隊列(高聲隊列和低聲隊列),對于n個采樣點,需要4n個 隊列,每個隊列有兩個參數均值和特征值個數。
將音頻特征入隊,包括將聲音平均短時能量特征值入短時能量高聲隊列和 短時能量低聲隊列,以及將聲音平均過零率特征值入過零率高聲隊列和過零率 低聲隊列,每種特征值入隊的流程相同,下面僅以聲音平均短時能量特征值入隊為例進行說明,參見圖2,入隊的流程包括
201、 初始化短時能量高聲隊列和短時能量低聲隊列。k個聲音平均短時能 量特征值的頭兩個中較高的值入隊短時能量高聲隊列,較低的值入隊短時能量 低聲隊列。同時,將短時能量高聲隊列的均值aveH初始化為入隊第一個值, 將短時能量低聲隊列的均值aveL初始化為入隊第一個值。特征值個數均初始 化為一。
202、 判斷是否越界,即判斷是否正在操作第k個特征值,如果是,則退 出入隊流程;如果不是,則轉入步驟203。
203、 讀取下一個特征值i。
204、 計算特征值i與短時能量高聲隊列均值的差m=aveH-i,計算特征值 i與短時能量低聲隊列均值的差n=i-aveL。
205、 判斷m是否小于n,如果是,則轉入步驟206,如果不是,則轉入 步驟207。
206、 特征值i插入高聲隊列,并修改隊列參數,將原短時能量高聲隊列 均值與特征值i的平均值作為新短時能量高聲隊列均值,將原特征值個數加一; 轉入步驟208。
207、 特征值i插入低聲隊列,并修改隊列參數,將原短時能量低聲隊列 均值與特征值i的平均值作為新短時能量低聲隊列均值,將原特征值個數加一; 轉入步驟208。
208、 判斷特征值i是否小于原短時能量高聲隊列均值或原短時能量低聲 隊列均值,如果是,則轉入步驟209;否則,轉入步驟210。
209、 短時能量低聲隊列特征值重新入隊列,轉入步驟202。
210、 短時能量高聲隊列特征值重新入隊列,轉入步驟202。
其中,參見圖3,短時能量高聲隊列特征值重新入隊列的流程如下
301、 將短時能量高聲隊列中的特4正值由小到大排序。
302、 判斷隊列是否越界,即是否超過該隊列長度,如果是,則轉入步驟 306,如果否,則轉入步驟303。
303 、將隊列中的第 一個特征值分別與短時能量高聲隊列均值和短時能量 低聲隊列均值進行比較,如果更接近短時能量低聲隊列均值,則轉入步驟304,否則,則轉入步驟306。
304、 將特征值插入短時能量低聲隊列,同時調整短時維量高聲隊列和短 時能量低聲隊列的參數,即調整均值和特征值個數。
305、 讀取下一個特征值,轉入步驟302。
306、 退出重新入隊列流程。
參見圖4,短時能量低聲隊列特征值重新入隊列的流程如下
401 、將短時能量低聲隊列中的特征值由大到小排序。
402、判斷隊列是否越界,即是否超過該隊列長度,如果是,則轉入步驟 406,如果否,則轉入步驟403。
403 、將隊列中的第 一個特征值分別與短時能量高聲隊列均值和短時能量 低聲隊列均值進行比較,如果更接近短時能量高聲隊列均值,則轉入步驟404, 否則,則轉入步驟406。
404、 將特征值插入短時能量高聲隊列,同時調整短時能量高聲隊列和短 時能量低聲隊列的參數,即調整均值和特征值個數。
405、 讀取下一個特征值,轉入步驟402.
406、 退出重新入隊列流程。
計算每個高聲隊列或低聲隊列的特征值個數在整個高聲隊列或低聲隊列 特征值個數中所占的比率。
根據高聲隊列或低聲隊列特征值所占整個高聲隊列或低聲隊列特征值的 比率,計算整個高聲隊列權值和低聲隊列權值。將每個高聲隊列的特征1直比率 與對應的隊列特征值均值乘積之和作為整個高聲隊列權值,將每個低聲隊列特 征值的比率與對應的隊列特征值均值乘積之和作為整個低聲隊列權值。
以整個高聲隊列和低聲隊列的隊列權值為基礎,設置聲音精彩度閾值,表 示不同的聲音精彩度。為了保證特征值閾值不超過特征值區(qū)間,將級別系數 作為特征值閾值參數,級別系數小于一。例如,可以將聲音精彩度劃分為四級, 第一級對應的級別系數為0.5,則第一級特征值閾值為整個高聲隊列權^:與整 個低聲隊列權值之和乘以0.5;第二級對應的級別系tt為0.6,則第二級特征值 閾值為整個高聲隊列權值與整個低聲隊列權值之和乘以0.6;第三級對應的級 別系數為0.7,則第三級特征值閾值為整個高聲隊列權值與整個低聲隊列權值之和乘以0.7;第四級對應的級別系數為0.8,則第四級特征值閾值為整個高聲 隊列權值與整個低聲隊列權值之和乘以0.8。級別系數低于0.5定義為不精彩, 級別系數大于0.8時,視頻摘要長度過段,包含的精彩鏡頭過少。也可以根據 不同的視頻文件具體場景,選擇其他級別系數。
利用采樣點處的音頻特征與聲音精彩度閾值進行比較,獲得滿足相應的聲 音精彩度的視頻段。利用采樣點處的特征值與聲音精彩度閾值進行比較,如果 特征值大于相應的閾值,則滿足相應的聲音精彩度級別。此處,采樣點的特征 值可以是采樣點處高聲隊列的特征值均值,也可以是高聲隊列特征值均值和低 聲隊列特征值均值之和的一半。
聲音精彩度的閾值可以根據觀眾的需求設定,從而可以滿足觀眾快速可調 的精彩鏡頭提取要求,識別出各種精彩鏡頭,例如球星的精彩運球或過人等, 提高了視頻摘要生成的靈活性和可靠性。
104、將滿足視覺精彩度和聲音精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
利用符合視覺精彩度鏡頭關聯(lián)組中的任意一個關鍵幀定位其所在的鏡頭 關聯(lián)組,找出符合視覺精彩度的鏡頭關聯(lián)組。
將滿足視覺精彩度的關聯(lián)鏡頭組聚合成一個視頻片斷。
得到的視頻片斷組成視頻摘要。
在鏡頭關聯(lián)組中,找出符合聲音精彩度的鏡頭關聯(lián)組。 利用符合視覺精彩度鏡頭關聯(lián)組中的任意一個關鍵幀定位其所在的鏡頭 關聯(lián)組,找出符合視覺精彩度的鏡頭關聯(lián)組。
在符合視覺精彩度的鏡頭關聯(lián)組中,找出符合聲音精彩度的鏡頭關聯(lián)組。 將同時滿足視覺精彩度和聲音精彩度的關聯(lián)鏡頭組聚合成一個視頻片斷。 得到的視頻片斷組成視頻摘要。
對于新聞報道、體育賽事、風景游覽等等視頻文件,為了在較短的時間內 傳遞更多的信息,可以釆用本實施例的方法將視頻文件處理成視頻摘要;對于 對抗性體育賽事,例如馬拉松、賽車、自行車比賽、溜水、籃球、足球等,為
了將賽事的精彩片段傳遞給觀眾,可以采用本實施例的方法將視頻文件生成視 頻摘要。
采用本實施例中生成視頻摘要的方法,僅對視頻文件的視覺精彩度和聲音精彩度兩種特征進行處理,減少特征種類,降低計算復雜度,提高視頻摘要生 成的效率和準確率。還可以避免運動特征對視頻摘要的影響,進一步提高了視 頻摘要的準確率。
采用本實施例中生成視頻摘要的方法,從視頻文件的聲音信息和視覺信息 入手,對鏡頭進行精彩程度的量化,可以依據用戶的不同需求,得出包含不同 精彩鏡頭的視頻摘要,提高了視頻摘要的靈活性和可靠性。
實施例四,將實施例三中生成視頻摘要的方法應用到足球視頻中,實驗的
視頻數據來自2006年德國世界杯1/4決賽中意大利對陣烏克蘭的比賽。
觀眾可以選擇聲音精彩度級別為三,視覺精彩度級別為一,對應的視覺精 彩度閣值為四,提取到四組關聯(lián)鏡頭組,參見圖5,第一組501為射門事件, 第二組502為犯規(guī)事件,第三組503為進球事件,第四組504為進攻未遂事件。 其中,第一組的視覺精彩度為七,第二組的視覺精彩度為九,第三組的視覺精 彩度為七,第四組的視覺精彩度為五,各關聯(lián)鏡頭組的視覺精彩度均大于第一 級視覺精彩度閾值四。
如果選擇聲音精彩度級別為三,視覺精彩度級別為三,對應的視覺精彩度 閾值為七,則第四組管理鏡頭組不能提取出來,即只能提取射門鏡頭、犯規(guī)鏡 頭和進球鏡頭,不能提取出進攻未遂鏡頭。
實施例一、 一種生成視頻摘要的裝置,該裝置包括
接收單元,用于接收視頻文件;
視覺單元,用于對視頻文件的視覺精彩度進行處理;
聚合單元,用于將滿足視覺精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
其中,浮見覺單元可以包括
檢測子單元,用于將視頻文件進行鏡頭邊界檢測,得到鏡頭集; 分類子單元,用于對鏡頭集進行鏡頭分類;
關聯(lián)子單元,用于對已經分類的鏡頭集進行聚合,得到關聯(lián)鏡頭組; 計算子單元,用于計算各關聯(lián)鏡頭組的權值之和。
檢測子單元可以包括
第一才莫塊,用于計算視頻文件兩幀之間的主色比率絕對差和顏色直方差; 第二模塊,用于通過主色比率絕對差和顏色直方差的多個閾值檢測鏡頭的切變和漸變邊界。
檢測子單元還可以包括用于根據切變和漸變邊界得到所述鏡頭集的模塊。
分類子單元可以包括
第三模塊,用于提取鏡頭集中代表鏡頭類型的關鍵幀; 第四模塊,用于將關鍵幀分類。
關聯(lián)子單元可以包括
第五模塊,用于根據被標識為長鏡頭的關鍵幀,查找對應的長鏡頭; 第六模塊,用于生成以長鏡頭為開始鏡頭,下一個長鏡頭的前一個鏡頭為 結束鏡頭的關聯(lián)鏡頭組。
實施例二, 一種生成^L頻摘要的裝置,該裝置包括
接收單元,用于接收視頻文件;
聲音單元,用于對視頻文件的聲音精彩度進行處理;
聚合單元,用于將滿足聲音精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
其中聲音單元可以包括
特征子單元,用于^是取^L頻文件的音頻特征;
權值子單元,用于計算音頻特征的權值;
區(qū)間子單元,用于根據音頻特征的權值設置聲音精彩度閾值,并比較音頻 特征與聲音精彩度閾值,獲得相應聲音精彩度的視頻段。 特征子單元可以包括
第七模塊,用于對視頻文件進行采樣;
第八模塊,用于計算每個采樣點數據的聲音平均短時能量特征值和聲音平 均過零率特征值。
聚合單元可以包括
第一子單元,用于生成以長鏡頭為開始鏡頭,下一個長鏡頭的前一個鏡頭 為結束鏡頭的鏡頭組作為關聯(lián)鏡頭組;
第二子單元,用于選擇滿足聲音精彩度的關聯(lián)鏡頭組,得到選定關聯(lián)鏡頭
組;
第三子單元,用于將選定關聯(lián)鏡頭組聚合成視頻片斷。實施例三, 一種生成視頻摘要的裝置,參見圖6,該裝置包括 接收單元601,用于接收視頻文件; 視覺單元602,用于對視頻文件的視覺精彩度進行處理; 聲音單元603,用于對視頻文件的聲音精彩度進行處理; 聚合單元604,用于將滿足視覺精彩度和聲音精彩度的關聯(lián)鏡頭組聚合成 視頻片斷。
其中,視覺單元可以包括
才企測子單元,用于將視頻文件進行鏡頭邊界檢測,得到鏡頭集; 分類子單元,用于對鏡頭集進行鏡頭分類;
關聯(lián)子單元,用于對已經分類的鏡頭集進行聚合,得到關聯(lián)鏡頭組; 計算子單元,用于計算各關聯(lián)鏡頭組的權值之和。
才企測子單元可以包括
第一模塊,用于計算視頻文件兩幀之間的主色比率絕對差和顏色直方差; 第二模塊,用于通過主色比率絕對差和顏色直方差的多個闊值檢測鏡頭的 切變和漸變邊界。
檢測子單元還可以包括用于根據切變和漸變邊界得到鏡頭集的模塊。 分類子單元可以包括
第三模塊,用于提取鏡頭集中代表鏡頭類型的關鍵幀; 第四模塊,用于將關鍵幀分類。
其中,第三模塊可以包括第一子模塊,該第一子模塊用于取每個鏡頭的中 間幀作為關鍵幀, 一個鏡頭內的視頻幀數目為N,當N為奇數時,取第(N±l) /2幀作為該鏡頭的關鍵幀;當N為偶數時,取第N/2幀作為該鏡頭的關鍵幀。
第四模塊可以包括
第二子模塊,用于將關鍵幀由紅、藍、綠RGB三基色空間轉換到色調、 飽和度、亮度HSV空間;
第三子模塊,用于將每個視頻幀分成若干區(qū)域;
第四子模塊,用于根據各區(qū)域的主色覆蓋率將各區(qū)域劃分為不同類別;
第五子模塊,用于為不同類別的區(qū)域分配不同的權值;
第六子模塊,用于根據權值將關鍵幀劃分為以下類別長鏡頭、半鏡頭、3/4鏡頭、球門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
第三子模塊可以包括用于將每個視頻幀分為十六個區(qū)域,其中長寬各均分 四等分,每個區(qū)域之間沒有交集的模塊。
第四子模塊可以包括用于將各區(qū)域劃分為80%以上綠色覆蓋區(qū)、50%至 80%綠色覆蓋區(qū)、20%至50%綠色覆蓋區(qū)、20%以下綠色覆蓋區(qū)的模塊。
第五子模塊可以包括用于分配80%以上綠色覆蓋區(qū)權值為100, 50%至 80%綠色覆蓋區(qū)權值為10, 20%至50%綠色覆蓋區(qū)權值為1, 20%以下綠色覆 蓋區(qū)權值為0的模塊。
該生成視頻摘要的裝置還可以包括
孤點單元,用于當視頻幀出現孤點時,將孤點的主色覆蓋率設置為周圍區(qū) 域主色覆蓋率的均值,孤點的周圍區(qū)域主色覆蓋率在相同范圍內,孤點的主色 覆蓋率不在周圍區(qū)域主色覆蓋率的范圍內。
關聯(lián)子單元可以包括
第五模塊,用于根據被標識為長鏡頭的關鍵幀,查找對應的長鏡頭; 第六模塊,用于生成以長鏡頭為開始鏡頭,下一個長鏡頭的前一個鏡頭為 結束鏡頭的關聯(lián)鏡頭組。 聲音單元可以包括
特征子單元,用于提取視頻文件的音頻特征; 權值子單元,用于計算音頻特征的權值;
區(qū)間子單元,用于根據音頻特征的權值設置聲音精彩度閾值,并比較所述 音頻特征與所述聲音精彩度閾值,獲得相應聲音精彩度的視頻段。 特征子單元可以包括
第七模塊,用于對視頻文件進行采樣;
第八模塊,用于計算每個采樣點數據的聲音平均短時能量特征值和聲音平 均過零率特征值。
權值子單元可以包括
第九模塊,用于根據聲音平均短時能量特征值或聲音平均過零率特征值的 均值和特征值的個數,計算音頻特征的權值。 第九模塊可以包括第七子模塊,用于計算聲音平均短時能量特征值或聲音平均過零率特征值 的均值;
第八子模塊,用于將比均值大的所述聲音平均短時能量特征值或聲音平均 過零率特征值作為高聲特征值,將比均值小的所述聲音平均短時能量特征值或
聲音平均過零率特征值作為低聲特征值;
第九子模塊,用于計算高聲特征值或低聲特征值的比率;
第十子模塊,用于根據高聲特征值或低聲特征值的比率,計算高聲或低聲
的權值。
區(qū)間子單元可以包括第十一子才莫塊,用于計算高聲與低聲的權值之和;
第十二子模塊,用于將高聲與低聲的權值之和與特征值閾值參數相乘,得
到對應的聲音精彩度閾值,特征值閾值參數小于一。
區(qū)間子單元還可以包括
第十三子模塊,用于比較采樣點處的特征值與聲音精彩度閾值。 通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到本發(fā)明 可借助軟件加必需的硬件平臺的方式來實現,當然也可以全部通過硬件來實 施,但很多情況下前者是更佳的實施方式?;谶@樣的理解,本發(fā)明的技術方 案對背景技術做出貢獻的全部或者部分可以以軟件產品的形式體現出來,該計 算機軟件產品可以存儲在存儲介質中,如ROM/RAM、磁碟、光盤等,包括若 干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備
以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術領域的普通 技術人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進和潤飾, 這些改進和潤飾也應視為本發(fā)明的保護范圍。
權利要求
1、一種生成視頻摘要的方法,其特征在于,該方法包括接收視頻文件;對所述視頻文件的視覺精彩度進行處理;將滿足視覺精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
2、 根據權利要求1所述的方法,其特征在于,所述對所述視頻文件的視 覺精彩度進行處理具體包括將所述視頻文件進行鏡頭邊界檢測,得到鏡頭集; 對所述鏡頭集進行鏡頭分類; 對已經分類的鏡頭集進行聚合,得到關聯(lián)鏡頭組; 計算各關聯(lián)鏡頭組的權值之和。
3、 根據權利要求2所述的方法,其特征在于,所述將所述視頻文件進行 鏡頭邊界檢測具體包括計算視頻文件兩幀之間的主色比率絕對差和顏色直方差; 通過所述主色比率絕對差和顏色直方差的多個閾值檢測鏡頭的切變和漸 變邊界。
4、 根據權利要求3所述的方法,其特征在于,所述得到鏡頭集具體包括 根據所述切變和漸變邊界,得到所述鏡頭集。
5、 根據權利要求2所述的方法,其特征在于,所述對所述鏡頭集進行鏡 頭分類具體包括提取所述鏡頭集中代表鏡頭類型的關鍵幀; 將所述關鍵幀分類。
6、 根據權利要求5所述的方法,其特征在于,所述提取所述鏡頭集中代 表鏡頭類型的關鍵幀具體包括取每個鏡頭的中間幀作為關鍵幀, 一個鏡頭內的視頻幀數目為N,當N為 奇數時,取第(N±l)/2幀作為該鏡頭的關鍵幀;當N為偶數時,取第N/2幀 作為該鏡頭的關鍵幀。
7、 根據權利要求5所述的方法,其特征在于,所述視頻文件為足球視頻 文件。
8、 根據權利要求7所述的方法,其特征在于,所述將所述關鍵幀分類具體包括將所述關鍵幀由紅、藍、綠RGB三基色空間轉換到色調、飽和度、亮度 HSV空間;將每個視頻幀分成若干區(qū)域;根據所述各區(qū)域的主色覆蓋率將所述各區(qū)域劃分為不同類別; 為不同類別的區(qū)域分配不同的權值;根據所述權值將關鍵幀劃分為以下類別長鏡頭、半鏡頭、3/4鏡頭、球 門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
9、 根據權利要求8所述的方法,其特征在于,所述將每個^L頻幀分成若 干區(qū)域具體包括將每個視頻幀分為十六個區(qū)域,其中長寬各均分四等分,每個區(qū)域之間沒 有交集。
10、 根據權利要求9所述的方法,其特征在于,所述根據所述各區(qū)域的主 色覆蓋率將所述各區(qū)域劃分為不同類別具體包括將所述各區(qū)域劃分為80%以上綠色覆蓋區(qū)、50%至80%綠色覆蓋區(qū)、20% 至50%綠色覆蓋區(qū)、20%以下綠色覆蓋區(qū)。
11、 才艮據權利要求10所述的方法,其特征在于,所述為不同類別的區(qū)域 分配不同的4又值具體包括分配80%以上綠色覆蓋區(qū)權值為100, 50%至80%綠色覆蓋區(qū)權值為10, 20%至50%綠色覆蓋區(qū)權值為1, 20%以下綠色覆蓋區(qū)權值為0。
12、 根據權利要求8所述的方法,其特征在于,該方法還包括 當視頻幀出現孤點時,將所述孤點的主色覆蓋率設置為周圍區(qū)域主色覆蓋率的均值,所述孤點的周圍區(qū)域主色覆蓋率在相同范圍內,所述孤點的主色覆 蓋率不在周圍區(qū)域主色覆蓋率的范圍內。
13、 根據權利要求8所述的方法,其特征在于,所述對已經分類的鏡頭集 進行聚合,得到關聯(lián)鏡頭組具體包括根據被標識為長鏡頭的關鍵幀,查找對應的長鏡頭;生成以長鏡頭為開始鏡頭,下一個長鏡頭的前一個鏡頭為結束鏡頭的關聯(lián) 鏡頭組。
14、 一種生成纟見頻摘要的方法,其特征在于,該方法包括 接收視頻文件;對所述視頻文件的聲音精彩度進行處理; 將滿足聲音精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
15、 根據權利要求14所述的方法,其特征在于,所述對所述視頻文件的 聲音精彩度進行處理具體包括提取所述視頻文件的音頻特征; 計算所述音頻特征的權值; 根據所述音頻特征的權值設置聲音精彩度閾值;比較所述音頻特征與所述聲音精彩度闊值,獲得相應聲音精彩度的視頻段。
16、 根據權利要求15所述的方法,其特征在于,所述提取所述視頻文件 的音頻特征具體包括對所述視頻文件進行釆樣;計算每個采樣點數據的聲音平均短時能量特征值和聲音平均過零率特征值。
17、 根據權利要求16所述的方法,其特征在于,所述計算所述音頻特征 的權值具體包括根據所述聲音平均短時能量特征值或聲音平均過零率特征值的均值和特 征值的個數,計算所述音頻特征的權值。
18、 根據權利要求17所述的方法,其特征在于,所述根據所述聲音平均 短時能量特征值或聲音平均過零率特征值的均值和特征值的個數,計算所述音 頻特征的權值具體包括計算所述聲音平均短時能量特征值或聲音平均過零率特征值的均值; 將比所述均值大的所述聲音平均短時能量特征值或聲音平均過零率特征值作為高聲特征值,將比所述均值小的所述聲音平均短時能量特征值或聲音平均過零率特征值作為低聲特征值;計算所述高聲特征值或低聲特征值的比率;才艮據所述高聲特征值或低聲特征值的比率,計算高聲或低聲的權值。
19、 根據權利要求18所述的方法,其特征在于,所述根據所述音頻特征 的權值設置聲音精彩度閾值具體包括計算所述高聲與低聲的權值之和;將所述高聲與低聲的權值之和與特征值閾值參數相乘,得到對應的聲音精 彩度閾值,所述特征值閾值參數小于一。
20、 根據權利要求19所述的方法,其特征在于,所述比較所述音頻特征 與所述聲音精彩度閾值具體包括比較采樣點處的特征值與所述聲音精彩度閾值。
21、 根據權利要求14所述的方法,其特征在于,所述關聯(lián)鏡頭組以長鏡 頭為開始鏡頭,下一個長鏡頭的前一個鏡頭為結束鏡頭。
22、 根據權利要求14所述的方法,其特征在于,所述視頻文件為足3求視 頻文件。
23、 一種生成視頻摘要的方法,其特征在于,該方法包括 接收視頻文件;對所述視頻文件的視覺精彩度進行處理; 對所述視頻文件的聲音精彩度進行處理; 將滿足視覺精彩度和聲音精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
24、 根據權利要求23所述的方法,其特征在于,所述對所述視頻文件的 視覺精彩度進行處理具體包括將所述視頻文件進行鏡頭邊界;^測,得到鏡頭集; 對所述鏡頭集進行鏡頭分類; 對已經分類的鏡頭集進行聚合,得到關聯(lián)鏡頭組; 計算各關聯(lián)鏡頭組的權值之和。
25、 根據權利要求24所述的方法,其特征在于,所述將所述視頻文件進 行鏡頭邊界纟企測具體包括計算視頻文件兩幀之間的主色比率絕對差和顏色直方差; 通過所述主色比率絕對差和顏色直方差的多個閾值;險測鏡頭的切變和漸 變邊界。
26、 根據權利要求25所述的方法,其特征在于,所述得到鏡頭集具體包括才艮據所述切變和漸變邊界,得到所述鏡頭集。
27、 根據權利要求24所述的方法,其特征在于,所述對所述鏡頭集進行 鏡頭分類具體包括提取所述鏡頭集中代表鏡頭類型的關鍵幀; 將所述關鍵幀分類。
28、 根據權利要求27所述的方法,其特征在于,所述提取所述鏡頭集中 代表鏡頭類型的關鍵幀具體包括取每個鏡頭的中間幀作為關鍵幀, 一個鏡頭內的視頻幀數目為N,當N為 奇數時,取第(N±l)/2幀作為該鏡頭的關鍵幀;當N為偶數時,取第N/2幀 作為該鏡頭的關鍵幀。
29、 根據權利要求27所述的方法,其特征在于,所述視頻文件為足5求視 頻文件。
30、 根據權利要求29所述的方法,其特征在于,所述將所述關鍵幀分類 具體包括將所述關鍵幀由紅、藍、綠RGB三基色空間轉換到色調、飽和度、亮度 HSV空間;將每個視頻幀分成若干區(qū)域;根據所述各區(qū)域的主色覆蓋率將所述各區(qū)域劃分為不同類別; 為不同類別的區(qū)域分配不同的權值;根據所述權值將關鍵幀劃分為以下類別長鏡頭、半鏡頭、3/4鏡頭、球 門鏡頭、特寫鏡頭、中鏡頭、短鏡頭和其他鏡頭。
31、 根據權利要求30所述的方法,其特征在于,所述將每個視頻幀分成 若干區(qū)域具體包括將每個視頻幀分為十六個區(qū)域,其中長寬各均分四等分,每個區(qū)域之間沒 有交集。
32、 根據權利要求31所述的方法,其特征在于,所述根據所述各區(qū)域的 主色覆蓋率將所述各區(qū)域劃分為不同類別具體包括將所述各區(qū)域劃分為80%以上綠色覆蓋區(qū)、50%至80%綠色覆蓋區(qū)、20%至50%綠色覆蓋區(qū)、20%以下綠色覆蓋區(qū)。
33、 根據權利要求32所述的方法,其特征在于,所述為不同類別的區(qū)域 分配不同的權值具體包括分配80%以上綠色覆蓋區(qū)權值為100, 50%至80%綠色覆蓋區(qū)權值為10, 20%至50%綠色覆蓋區(qū)權值為1, 20%以下綠色覆蓋區(qū)^又值為0。
34、 根據權利要求30所述的方法,其特征在于,該方法還包括當視頻幀出現孤點時,將所述孤點的主色覆蓋率設置為周圍區(qū)域主色覆蓋 率的均值,所述孤點的周圍區(qū)域主色覆蓋率在相同范圍內,所述^s存、的主色覆 蓋率不在周圍區(qū)域主色覆蓋率的范圍內。
35、 根據權利要求30所述的方法,其特征在于,所述對已經分類的鏡頭 集進行聚合,得到關聯(lián)鏡頭組具體包括根據被標識為長鏡頭的關鍵幀,查找對應的長鏡頭;生成以長鏡頭為開始鏡頭,下一個長鏡頭的前一個鏡頭為結束鏡頭的關聯(lián) 鏡頭組。
36、 根據權利要求23所述的方法,其特征在于,所述對所述視頻文件的 聲音精彩度進行處理具體包括提取所述視頻文件的音頻特征; 計算所述音頻特征的權值;根據所述音頻特征的權值設置聲音精彩度閾值;比較所述音頻特征與所述聲音精彩度閾值,獲得相應聲音精彩度的視頻段。
37、 根據權利要求36所述的方法,其特征在于,所述提取所述視頻文件 的音頻特征具體包括對所述視頻文件進行采樣;計算每個采樣點數據的聲音平均短時能量特征值和聲音平均過零率特征值。
38、 根據權利要求37所述的方法,其特征在于,所述計算所述音頻特征 的權值具體包括根據所述聲音平均短時能量特征值或聲音平均過零率特征值的均值和特征值的個數,計算所述音頻特征的權值。
39、 根據權利要求38所述的方法,其特征在于,所述根據所述聲音平均 短時能量特征值或聲音平均過零率特征值的均值和特征值的個數,計算所述音 頻特征的權值具體包括計算所述聲音平均短時能量特征值或聲音平均過零率特征值的均值; 將比所述均值大的所述聲音平均短時能量特征值或聲音平均過零率特征值作為高聲特征值,將比所述均值小的所述聲音平均短時能量特征值或聲音平均過零率特征值作為低聲特征值;計算所述高聲特征值或低聲特征值的比率;根據所述高聲特征值或低聲特征值的比率,計算高聲或低聲的權值。
40、 根據權利要求39所述的方法,其特征在于,所述根據所述音頻特征 的權值設置聲音精彩度闊值具體包括計算所述高聲與低聲的權值之和;將所述高聲與低聲的權值之和與特征值閾值參數相乘,得到對應的聲音精 彩度閾值,所述特征值闊值參凄t小于一。
41、 根據權利要求40所述的方法,其特征在于,所述比較所述音頻特征 與所述聲音精彩度閾值具體包括比較釆樣點處的特征值與所述聲音精彩度閾值。
42、 一種生成視頻摘要的裝置,其特征在于,該裝置包括 接收單元,用于接收視頻文件;視覺單元,用于對所述視頻文件的視覺精彩度進行處理; 聚合單元,用于將滿足視覺精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
43、 根據權利要求42所述的裝置,其特征在于,所述視覺單元包括 檢測子單元,用于將所述視頻文件進行鏡頭邊界檢測,得到鏡頭集; 分類子單元,用于對所述鏡頭集進行鏡頭分類;關聯(lián)子單元,用于對已經分類的鏡頭集進行聚合,得到關聯(lián)鏡頭組; 計算子單元,用于計算各關聯(lián)鏡頭組的權值之和。
44、 根據權利要求43所述的裝置,其特征在于,所述檢測子單元包括 第一模塊,用于計算視頻文件兩幀之間的主色比率絕對差和顏色直方差;第二才莫塊,用于通過所述主色比率絕對差和顏色直方差的多個閾值4企測鎮(zhèn): 頭的切變和漸變邊界。
45、 根據權利要求44所述的裝置,其特征在于,所述檢測子單元還包括 用于根據所述切變和漸變邊界得到所述鏡頭集的模塊。
46、 根據權利要求43所述的裝置,其特征在于,所述分類子單元包括 第三模塊,用于提取所述鏡頭集中代表鏡頭類型的關鍵幀; 第四模塊,用于將所述關鍵幀分類。
47、 根據權利要求43所述的裝置,其特征在于,所述關聯(lián)子單元包括 第五模塊,用于根據被標識為長鏡頭的關鍵幀,查找對應的長鏡頭; 第六模塊,用于生成以長鏡頭為開始鏡頭,下一個長鏡頭的前一個鏡頭為結束鏡頭的關聯(lián)鏡頭組。
48、 一種生成視頻摘要的裝置,其特征在于,該裝置包括 接收單元,用于接收視頻文件;聲音單元,用于對所述視頻文件的聲音精彩度進行處理; 聚合單元,用于將滿足聲音精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
49、 根據權利要求48所述的裝置,其特征在于,所述聲音單元包括 特征子單元,用于提取所述視頻文件的音頻特征;權值子單元,用于計算所述音頻特征的權值;區(qū)間子單元,用于根據所述音頻特征的權值設置聲音精彩度閾值,并比較 所述音頻特征與所述聲音精彩度閾值,獲得相應聲音精彩度的視頻段。
50、 根據權利要求49所述的裝置,其特征在于,所述特征子單元包括 第七模塊,用于對所述視頻文件進行采樣;第八模塊,用于計算每個采樣點數據的聲音平均短時能量特征值和聲音平 均過零率特征值。
51、 根據權利要求48所述的裝置,其特征在于,所述聚合單元包括 第一子單元,用于生成以長鏡頭為開始鏡頭,下一個長鏡頭的前一個鏡頭為結束鏡頭的鏡頭組作為關聯(lián)鏡頭組;第二子單元,用于選擇滿足聲音精彩度的關聯(lián)鏡頭組,得到選定關聯(lián)鏡頭組;第三子單元,用于將所述選定關聯(lián)鏡頭組聚合成視頻片斷。
52、 一種生成視頻摘要的裝置,其特征在于,該裝置包括 接收單元,用于接收一見頻文件;視覺單元,用于對所述視頻文件的視覺精彩度進行處理; 聲音單元,用于對所述視頻文件的聲音精彩度進行處理; 聚合單元,用于將滿足視覺精彩度和聲音精彩度的關聯(lián)鏡頭組聚合成視頻 片斷。
53、 根據權利要求52所述的裝置,其特征在于,所述視覺單元包括 檢測子單元,用于將所述視頻文件進行鏡頭邊界檢測,得到鏡頭集; 分類子單元,用于對所述鏡頭集進行鏡頭分類;關聯(lián)子單元,用于對已經分類的鏡頭集進行聚合,得到關聯(lián)鏡頭組; 計算子單元,用于計算各關聯(lián)鏡頭組的權值之和。
54、 根據權利要求53所述的裝置,其特征在于,所述;^測子單元包括 第一才莫塊,用于計算^L頻文件兩幀之間的主色比率絕對差和顏色直方差; 第二模塊,用于通過所述主色比率絕對差和顏色直方差的多個閾值檢測鏡頭的切變和漸變邊界。
55、 根據權利要求54所述的裝置,其特征在于,所述檢測子單元還包括 用于根據所述切變和漸變邊界得到所述鏡頭集的模塊。
56、 根據權利要求53所述的裝置,其特征在于,所述分類子單元包括 第三模塊,用于提取所述鏡頭集中代表鏡頭類型的關鍵幀; 第四模塊,用于將所述關鍵幀分類。
57、 根據權利要求53所述的裝置,其特征在于,所述關聯(lián)子單元包括 第五模塊,用于根據被標識為長鏡頭的關鍵幀,查找對應的長鏡頭; 第六沖莫塊,用于生成以長鏡頭為開始鏡頭,下一個長鏡頭的前一個鏡頭為結束鏡頭的關聯(lián)鏡頭組。
58、 根據權利要求52所述的裝置,其特征在于,所述聲音單元包括 特征子單元,用于提取所述視頻文件的音頻特征;權值子單元,用于計算所述音頻特征的權值;區(qū)間子單元,用于根據所述音頻特征的權值設置聲音精彩度閾值,并比較所述音頻特征與所述聲音精彩度閾值,獲得相應聲音精彩度的視頻段。
59、根據權利要求58所述的裝置,其特征在于,所述特征子單元包括 第七模塊,用于對所述視頻文件進行采樣;第八模塊,用于計算每個采樣點數據的聲音平均短時能量特征值和聲音平 均過零率特征值。
全文摘要
本發(fā)明公開了生成視頻摘要的方法及裝置,一種方法包括接收視頻文件;對所述視頻文件的視覺精彩度進行處理;對所述視頻文件的聲音精彩度進行處理;將滿足視覺精彩度和聲音精彩度的關聯(lián)鏡頭組聚合成視頻片斷。
背景技術:
中,對足球比賽視頻文檔根據音頻特征、視覺特征、文本特征和運動特征等四種特征進行處理,得到足球視頻摘要,采用本發(fā)明實施例生成視頻摘要的方法及裝置,對視頻文件的視覺精彩度和/或聲音精彩度進行處理,減少特征種類,降低計算復雜度,提高視頻摘要生成的效率和準確率。
文檔編號G11B27/034GK101431689SQ20071016516
公開日2009年5月13日 申請日期2007年11月5日 優(yōu)先權日2007年11月5日
發(fā)明者于俊清, 何云峰, 牛彩卿 申請人:華為技術有限公司;華中科技大學