一種適用于文本查詢的視頻摘要生成方法與流程

文檔序號：11691139閱讀：1542來源：國知局

本發(fā)明涉及視頻摘要領域，尤其是涉及了一種適用于文本查詢的視頻摘要生成方法。

背景技術：

視頻摘要技術建立在基于內容的多媒體分析技術基礎上，多年以來一直是國內外多媒體研究的熱點之一。隨著對視頻數據處理要求的不斷提高和視頻數據量的不斷增多，人們需要為一長段視頻建立一段摘要來快速瀏覽，以便更好地利用它。人們可以通過對視頻內容的分析來減小視頻存儲，方便分類和索引，提高視頻的使用效率、可用性和可訪問性。視頻摘要技術目前已經廣泛地應用于大量使用視頻監(jiān)控的行業(yè)，如關鍵道路視頻智能摘要、重點路段和收費閘口視頻智能摘要、重點監(jiān)舍或人員交接班視頻智能摘要以及場館、出入口視頻智能摘要。然而，傳統(tǒng)的視頻摘要技術只能實現重要視頻摘要的創(chuàng)建，不能實現文本查詢功能，給查找和調取相關視頻、跨視頻搜索等帶來了麻煩。

本發(fā)明提出了一種適用于文本查詢的視頻摘要生成方法，先給定訓練目標，將視頻幀和文本查詢投影到相同的嵌入空間中，接著評估幀相關性，計算質量分數、多樣性分數和代表性分數，再計算最終相關性，并對其進行建模，最后使用子模型優(yōu)化的幀創(chuàng)建視頻摘要。本發(fā)明運用子模型優(yōu)化幀，創(chuàng)建多個目標的摘要，使子模型目標函數的線性組合最大化，創(chuàng)建出的摘要能更加準確地傳達視頻的主要信息，大大節(jié)省了人力和時間；同時在創(chuàng)建視頻摘要的基礎上，實現了文本查詢功能，提高了實用性。

技術實現要素：

針對不能實現文本查詢功能的問題，本發(fā)明的目的在于提供一種適用于文本查詢的視頻摘要生成方法，先給定訓練目標，將視頻幀和文本查詢投影到相同的嵌入空間中，接著評估幀相關性，計算質量分數、多樣性分數和代表性分數，再計算最終相關性，并對其進行建模，最后使用子模型優(yōu)化的幀創(chuàng)建視頻摘要。

為解決上述問題，本發(fā)明提供一種適用于文本查詢的視頻摘要生成方法，其主要內容包括：

(一)給定訓練目標；

(二)評估幀相關性；

(三)使用子模型優(yōu)化的幀創(chuàng)建視頻摘要。

其中，所述的給定訓練目標，給定查詢t的排名約束，相關幀v⁺的相關性分數高于不相關幀v^-的相關性分數：

r(t,v⁺)>r(t,v^-)(1)

可以使相關幀的相似度分數和質量分數高于不相關幀，從而開始訓練模型；

在這種情況下，強加以上兩個限制條件。

進一步地，所述的約束，為了強加這些約束并訓練模型，將損失函數定義為：

其中，lp是成本函數，γ是間隔參數；使用huber損失函數lp。

其中，所述的評估幀相關性，將視頻幀v和文本查詢t投影到相同的嵌入空間中；將t和v的投影分別表示為t和v；一旦被訓練，給定查詢t的幀v的相關性可以通過一些相似性度量來估計；使用余弦相似性：

這可以評估關于查詢的幀的語義相關性，也可以基于幀質量、構圖等對先前的縮略圖做出預測；計算最終相關性，即嵌入相似度和與查詢無關的幀質量項的總和，并對其進行建模：

r(t,v)＝s(t,v)+qv(5)

其中，qv是基于幀v的質量作為縮略圖的查詢分數。

進一步地，所述的文本和幀的表示，使用卷積神經網絡來預測v和qv，通過循環(huán)神經網絡獲得t；為了共同學習這些網絡的參數，用(t,v⁺,v^-)三元組訓練。

進一步地，所述的文字表示，首先將查詢的每個單詞投影到一個300個維度的語義空間中，使用長短期記憶(lstm)模型將單個詞的表示編碼作為單個固定長度的嵌入，這樣能夠強調視覺上的信息詞和處理短語。

進一步地，所述的圖像表示，為了表示圖像，利用預先訓練的vgg-19網絡的特征表征；用301個維度的線性層m代替softmax層；前300個維度作為嵌入v，而最后一個維度代表質量分數qv。

其中，所述的使用子模型優(yōu)化的幀創(chuàng)建視頻摘要，使用子模型優(yōu)化的幀創(chuàng)建多個目標的摘要；在這個幀中，摘要作為選擇子集y^*，其使子模型目標函數的線性組合最大化：

其中，表示視頻的特征的所有可能解y和的集合；對于非負權重w，公式(6)是子模型，意味著可以使用貪婪算法進行貪婪評估和近似優(yōu)化。

進一步地，所述的目標函數，選擇一小組目標函數，每一個函數獲取不同方面的摘要：

1)查詢相似度f(·,·)＝∑v∈ys(t,v)，其中，t是查詢嵌入，v是幀嵌入，s(·,·)表示公式(4)中定義的余弦相似度；

2)質量分數其中，qv表示基于v的質量作為縮略圖的分數；

3)根據不相似的度量d，為摘要中的元素的多樣性。

進一步地，所述的權重學習，學習公式(6)中的權重w，需要查詢視頻對中標記的真實數據摘要；如果相關性和多樣性標簽是已知的，可以通過子梯度下降來估計子模態(tài)函數的最優(yōu)混合權重。

附圖說明

圖1是本發(fā)明一種適用于文本查詢的視頻摘要生成方法的系統(tǒng)流程圖。

圖2是本發(fā)明一種適用于文本查詢的視頻摘要生成方法的創(chuàng)建視頻摘要的示例圖。

具體實施方式

需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互結合，下面結合附圖和具體實施例對本發(fā)明作進一步詳細說明。

圖1是本發(fā)明一種適用于文本查詢的視頻摘要生成方法的系統(tǒng)流程圖。主要包括給定訓練目標，評估幀相關性，使用子模型優(yōu)化的幀創(chuàng)建視頻摘要。

給定訓練目標，給定查詢t的排名約束，相關幀v⁺的相關性分數高于不相關幀v^-的相關性分數：

r(t,v⁺)>r(t,v^-)(1)

可以使相關幀的相似度分數和質量分數高于不相關幀，從而開始訓練模型；

在這種情況下，強加以上兩個限制條件。

為了強加這些約束并訓練模型，將損失函數定義為：

其中，lp是成本函數，γ是間隔參數；使用huber損失函數lp。

評估幀相關性，將視頻幀v和文本查詢t投影到相同的嵌入空間中；將t和v的投影分別表示為t和v；一旦被訓練，給定查詢t的幀v的相關性可以通過一些相似性度量來估計；使用余弦相似性：

r(t,v)＝s(t,v)+qv(5)

其中，qv是基于幀v的質量作為縮略圖的查詢分數。

文本和幀的表示，使用卷積神經網絡來預測v和qv，通過循環(huán)神經網絡獲得t；為了共同學習這些網絡的參數，用(t,v⁺,v^-)三元組訓練。

文字表示，首先將查詢的每個單詞投影到一個300個維度的語義空間中，使用長短期記憶(lstm)模型將單個詞的表示編碼作為單個固定長度的嵌入，這樣能夠強調視覺上的信息詞和處理短語。

圖像表示，為了表示圖像，利用預先訓練的vgg-19網絡的特征表征；用301個維度的線性層m代替softmax層；前300個維度作為嵌入v，而最后一個維度代表質量分數qv。

圖2是本發(fā)明一種適用于文本查詢的視頻摘要生成方法的創(chuàng)建視頻摘要的示例圖。使用子模型優(yōu)化的幀創(chuàng)建多個目標的摘要；在這個幀中，摘要作為選擇子集y^*，其使子模型目標函數的線性組合最大化：

其中，表示視頻的特征的所有可能解y和的集合；對于非負權重w，公式(6)是子模型，意味著可以使用貪婪算法進行貪婪評估和近似優(yōu)化。

選擇一小組目標函數，每一個函數獲取不同方面的摘要：

1)查詢相似度f(·,·)＝∑v∈ys(t,v)，其中，t是查詢嵌入，v是幀嵌入，s(·,·)表示公式(4)中定義的余弦相似度；

2)質量分數其中，qv表示基于v的質量作為縮略圖的分數；

3)根據不相似的度量d，為摘要中的元素的多樣性。

學習公式(6)中的權重w，需要查詢視頻對中標記的真實數據摘要；如果相關性和多樣性標簽是已知的，可以通過子梯度下降來估計子模態(tài)函數的最優(yōu)混合權重。

對于本領域技術人員，本發(fā)明不限制于上述實施例的細節(jié)，在不背離本發(fā)明的精神和范圍的情況下，能夠以其他具體形式實現本發(fā)明。此外，本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍，這些改進和變型也應視為本發(fā)明的保護范圍。因此，所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：夏春秋
技術所有人：深圳市唯特視科技有限公司
我是此專利的發(fā)明人

上一篇：一種基于云平臺的大數據分析方法與流程
上一篇：語音數據庫生成方法及裝置、存儲介質、電子設備與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種適用于文本查詢的視頻摘要生成方法與流程