本發(fā)明涉及視頻摘要領域,尤其是涉及了一種適用于文本查詢的視頻摘要生成方法。
背景技術:
視頻摘要技術建立在基于內容的多媒體分析技術基礎上,多年以來一直是國內外多媒體研究的熱點之一。隨著對視頻數據處理要求的不斷提高和視頻數據量的不斷增多,人們需要為一長段視頻建立一段摘要來快速瀏覽,以便更好地利用它。人們可以通過對視頻內容的分析來減小視頻存儲,方便分類和索引,提高視頻的使用效率、可用性和可訪問性。視頻摘要技術目前已經廣泛地應用于大量使用視頻監(jiān)控的行業(yè),如關鍵道路視頻智能摘要、重點路段和收費閘口視頻智能摘要、重點監(jiān)舍或人員交接班視頻智能摘要以及場館、出入口視頻智能摘要。然而,傳統(tǒng)的視頻摘要技術只能實現重要視頻摘要的創(chuàng)建,不能實現文本查詢功能,給查找和調取相關視頻、跨視頻搜索等帶來了麻煩。
本發(fā)明提出了一種適用于文本查詢的視頻摘要生成方法,先給定訓練目標,將視頻幀和文本查詢投影到相同的嵌入空間中,接著評估幀相關性,計算質量分數、多樣性分數和代表性分數,再計算最終相關性,并對其進行建模,最后使用子模型優(yōu)化的幀創(chuàng)建視頻摘要。本發(fā)明運用子模型優(yōu)化幀,創(chuàng)建多個目標的摘要,使子模型目標函數的線性組合最大化,創(chuàng)建出的摘要能更加準確地傳達視頻的主要信息,大大節(jié)省了人力和時間;同時在創(chuàng)建視頻摘要的基礎上,實現了文本查詢功能,提高了實用性。
技術實現要素:
針對不能實現文本查詢功能的問題,本發(fā)明的目的在于提供一種適用于文本查詢的視頻摘要生成方法,先給定訓練目標,將視頻幀和文本查詢投影到相同的嵌入空間中,接著評估幀相關性,計算質量分數、多樣性分數和代表性分數,再計算最終相關性,并對其進行建模,最后使用子模型優(yōu)化的幀創(chuàng)建視頻摘要。
為解決上述問題,本發(fā)明提供一種適用于文本查詢的視頻摘要生成方法,其主要內容包括:
(一)給定訓練目標;
(二)評估幀相關性;
(三)使用子模型優(yōu)化的幀創(chuàng)建視頻摘要。
其中,所述的給定訓練目標,給定查詢t的排名約束,相關幀v+的相關性分數高于不相關幀v-的相關性分數:
r(t,v+)>r(t,v-)(1)
可以使相關幀的相似度分數和質量分數高于不相關幀,從而開始訓練模型;
在這種情況下,強加以上兩個限制條件。
進一步地,所述的約束,為了強加這些約束并訓練模型,將損失函數定義為:
其中,lp是成本函數,γ是間隔參數;使用huber損失函數lp。
其中,所述的評估幀相關性,將視頻幀v和文本查詢t投影到相同的嵌入空間中;將t和v的投影分別表示為t和v;一旦被訓練,給定查詢t的幀v的相關性可以通過一些相似性度量來估計;使用余弦相似性:
這可以評估關于查詢的幀的語義相關性,也可以基于幀質量、構圖等對先前的縮略圖做出預測;計算最終相關性,即嵌入相似度和與查詢無關的幀質量項的總和,并對其進行建模:
r(t,v)=s(t,v)+qv(5)
其中,qv是基于幀v的質量作為縮略圖的查詢分數。
進一步地,所述的文本和幀的表示,使用卷積神經網絡來預測v和qv,通過循環(huán)神經網絡獲得t;為了共同學習這些網絡的參數,用(t,v+,v-)三元組訓練。
進一步地,所述的文字表示,首先將查詢的每個單詞投影到一個300個維度的語義空間中,使用長短期記憶(lstm)模型將單個詞的表示編碼作為單個固定長度的嵌入,這樣能夠強調視覺上的信息詞和處理短語。
進一步地,所述的圖像表示,為了表示圖像,利用預先訓練的vgg-19網絡的特征表征;用301個維度的線性層m代替softmax層;前300個維度作為嵌入v,而最后一個維度代表質量分數qv。
其中,所述的使用子模型優(yōu)化的幀創(chuàng)建視頻摘要,使用子模型優(yōu)化的幀創(chuàng)建多個目標的摘要;在這個幀中,摘要作為選擇子集y*,其使子模型目標函數的線性組合最大化:
其中,
進一步地,所述的目標函數,選擇一小組目標函數,每一個函數獲取不同方面的摘要:
1)查詢相似度f(·,·)=∑v∈ys(t,v),其中,t是查詢嵌入,v是幀嵌入,s(·,·)表示公式(4)中定義的余弦相似度;
2)質量分數
3)根據不相似的度量d,
進一步地,所述的權重學習,學習公式(6)中的權重w,需要查詢視頻對中標記的真實數據摘要;如果相關性和多樣性標簽是已知的,可以通過子梯度下降來估計子模態(tài)函數的最優(yōu)混合權重。
附圖說明
圖1是本發(fā)明一種適用于文本查詢的視頻摘要生成方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種適用于文本查詢的視頻摘要生成方法的創(chuàng)建視頻摘要的示例圖。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結合,下面結合附圖和具體實施例對本發(fā)明作進一步詳細說明。
圖1是本發(fā)明一種適用于文本查詢的視頻摘要生成方法的系統(tǒng)流程圖。主要包括給定訓練目標,評估幀相關性,使用子模型優(yōu)化的幀創(chuàng)建視頻摘要。
給定訓練目標,給定查詢t的排名約束,相關幀v+的相關性分數高于不相關幀v-的相關性分數:
r(t,v+)>r(t,v-)(1)
可以使相關幀的相似度分數和質量分數高于不相關幀,從而開始訓練模型;
在這種情況下,強加以上兩個限制條件。
為了強加這些約束并訓練模型,將損失函數定義為:
其中,lp是成本函數,γ是間隔參數;使用huber損失函數lp。
評估幀相關性,將視頻幀v和文本查詢t投影到相同的嵌入空間中;將t和v的投影分別表示為t和v;一旦被訓練,給定查詢t的幀v的相關性可以通過一些相似性度量來估計;使用余弦相似性:
這可以評估關于查詢的幀的語義相關性,也可以基于幀質量、構圖等對先前的縮略圖做出預測;計算最終相關性,即嵌入相似度和與查詢無關的幀質量項的總和,并對其進行建模:
r(t,v)=s(t,v)+qv(5)
其中,qv是基于幀v的質量作為縮略圖的查詢分數。
文本和幀的表示,使用卷積神經網絡來預測v和qv,通過循環(huán)神經網絡獲得t;為了共同學習這些網絡的參數,用(t,v+,v-)三元組訓練。
文字表示,首先將查詢的每個單詞投影到一個300個維度的語義空間中,使用長短期記憶(lstm)模型將單個詞的表示編碼作為單個固定長度的嵌入,這樣能夠強調視覺上的信息詞和處理短語。
圖像表示,為了表示圖像,利用預先訓練的vgg-19網絡的特征表征;用301個維度的線性層m代替softmax層;前300個維度作為嵌入v,而最后一個維度代表質量分數qv。
圖2是本發(fā)明一種適用于文本查詢的視頻摘要生成方法的創(chuàng)建視頻摘要的示例圖。使用子模型優(yōu)化的幀創(chuàng)建多個目標的摘要;在這個幀中,摘要作為選擇子集y*,其使子模型目標函數的線性組合最大化:
其中,
選擇一小組目標函數,每一個函數獲取不同方面的摘要:
1)查詢相似度f(·,·)=∑v∈ys(t,v),其中,t是查詢嵌入,v是幀嵌入,s(·,·)表示公式(4)中定義的余弦相似度;
2)質量分數
3)根據不相似的度量d,
學習公式(6)中的權重w,需要查詢視頻對中標記的真實數據摘要;如果相關性和多樣性標簽是已知的,可以通過子梯度下降來估計子模態(tài)函數的最優(yōu)混合權重。
對于本領域技術人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現本發(fā)明。此外,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應視為本發(fā)明的保護范圍。因此,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。