融合全局R特征的近似重復視頻檢索方法與流程

文檔序號：11155188閱讀：538來源：國知局

本發(fā)明屬于視頻分析及檢索方法技術領域，具體涉及一種融合全局R特征的近似重復視頻檢索方法。

背景技術：

隨著通信技術、視頻采集設備、視頻編輯軟件的快速發(fā)展，網(wǎng)絡視頻的數(shù)量呈指數(shù)級增長。同時，視頻相關的服務，如：廣告、視頻分享、推薦和監(jiān)控，激發(fā)了在線用戶的興趣并且參與到視頻相關的活動中，如：搜索、上傳、下載和評論等。

如今，每天都會有大量的視頻在互聯(lián)網(wǎng)被上傳和共享，網(wǎng)上存在著大量幾乎重復的視頻。大量近似重復視頻的出現(xiàn)催生了許多新的應用，如：視頻結(jié)果重新排序，版權保護，在線視頻使用監(jiān)測、視頻標注及視頻數(shù)據(jù)庫清理等等。例如：一個典型的情況可能是，一個網(wǎng)站的用戶想要尋找一些新的視頻，但最終在搜索引擎返回的排名結(jié)果很多重復的視頻；另一種情況可能是，一個視頻制作者希望他們的版權保護的視頻，以避免在互聯(lián)網(wǎng)上共享。以上這兩種場合都需要近似重復視頻檢索技術來實現(xiàn)各自的目標。

近年來，近似重復視頻檢索成為研究的熱點，很多的研究者都在研究這個技術。目前，大多數(shù)現(xiàn)有的方法通常是采用下面的近似重復視頻檢索框架(R.Fernandez-Beltran，and F.Pla，“Latent topics-based relevance feedback for video retrieval，”Pattern Recognition，vol.51，pp.72-84，Mar，2016.)：首先，通過鏡頭邊界檢測和采樣算法把視頻分解為一系列的關鍵幀；其次，對這些關鍵幀提取視覺特征，如：尺度不變特征(SIFT)，局部二進制模式(LBP)等，用關鍵幀的視覺特征序列來表示整個視頻；最后，系統(tǒng)需要根據(jù)視覺特征序列來計算每個數(shù)據(jù)集中的視頻和查詢視頻之間的相似性，并且返回數(shù)據(jù)集中與查詢視頻最相似視頻的名稱。通常情況下，無論是時間還是空間信息可被用來評估兩個視頻之間的相似性(M.Douze，H.Jegou，and C.Schmid，“An Image-Based Approach to Video Copy Detection With Spatio-Temporal Post-Filtering，”Ieee Transactions on Multimedia，vol.12，no.4，pp.257-266，Jun，2010.C.-L.Chou，H.-T.Chen，and S.-Y.Lee，“Pattern-Based Near-Duplicate Video Retrieval and Localization on Web-Scale Videos，”Ieee Transactions on Multimedia，vol.17，no.3，pp.382-395，Mar，2015.)。此外，也有一些現(xiàn)有的方法，對整個視頻提取一個全局特征來實現(xiàn)實時檢索，但這種方法一般不能用來對長時間視頻進行有效檢索(X.Zhou，and L.Chen，“Structure Tensor Series-Based Large Scale Near-Duplicate Video Retrieval，”Multimedia，IEEE Transactions on，vol.14，no.4，pp.1220-1233，2012.)。

在最近出現(xiàn)的一些文獻中，兩個視頻中成對的幀之間的相關性的也被用來衡量視頻的相似性(J.Liu，Z.Huang，H.T.Shen，and B.Cui，“Correlation-Based Retrieval for Heavily Changed Near-Duplicate Videos，”Acm Transactions on Information Systems，vol.29，no.4，Dec，2011.)。最近的近重復視頻檢索技術的文獻綜述可以參考文獻(J.Liu，Z.Huang，H.Cai，H.T.Shen,N.Chong Wah，and W.Wang，“Near-Duplicate Video Retrieval:Current Research and Future Trends，”Acm Computing Surveys，vol.45，no.4，Aug，2013.)。

目前，大部分的近重復視頻檢索方法都是基于局部特征和BOF檢索模型的，但是這些方法只利用了單一的局部紋理信息，忽略了特征點的全局信息，從而導致視頻檢索的精確度不高。

技術實現(xiàn)要素：

本發(fā)明的目的在于提供一種融合全局R特征的近似重復視頻檢索方法，能夠根據(jù)信息融合策略把全局幾何分布信息融合于BOF模型中，實現(xiàn)在大規(guī)模的數(shù)據(jù)中精確的檢索近似重復視頻。

本發(fā)明所采用的技術方案是，融合全局R特征的近似重復視頻檢索方法，具體按照以下步驟實施：

步驟1、對數(shù)據(jù)庫中視頻提取局部SIFT特征；

步驟2、經(jīng)步驟1后，根據(jù)獲取的局部SIFT特征中的坐標信息建立全局R特征；

步驟3、待步驟2完成后，利用局部SIFT特征中描述符信息建立BOF特征模型；

步驟4、根據(jù)步驟3得到的BOF特征模型，建立基于BOF的投票檢索模型；

步驟5、應用信息融合策略把全局幾何分布信息融合到經(jīng)步驟4建立的基于BOF的投票檢索模型中，在大規(guī)模的數(shù)據(jù)中精確的檢索近似重復視頻。

本發(fā)明的特點還在于：

步驟1具體按照以下方法實施：

先對參考視頻庫中的所有視頻進行關鍵幀提取，然后對每個關鍵幀都進行SIFT特征提取。

對關鍵幀提取采用的是均勻采樣的方法，且每隔6秒提取一幀圖像；

SIFT特征提取是采用D.G.Lowe，“Distinctive image features from scale-invariant keypoints，”International Journal of Computer Vision，vol.60，no.2，pp.91-110，Nov，2004.的方法，(采用文獻“獨特的尺度不變圖像特征”中的方法)對關鍵幀提取SIFT特征，其提取的信息包括有：特征點的位置、尺度、角度以及局部描述信息。

步驟2具體按照以下方法實施：

根據(jù)步驟1得到的局部SIFT特征中的坐標信息建立全局R特征是根據(jù)提取的SIFT特征中的位置信息，采用改進的Radon變換來提取全局R特征；

Radon變換是指一個平面內(nèi)沿不同方向的直線對函數(shù)f做線積分，得到的投影就是函數(shù)f的Radon變換；這樣能將一個離散的二值圖像上的每個非零的像素點投影到一個Radon矩陣中；

對于一幅圖像f(x,y)，x,y為圖像中像素的坐標，則該圖像f(x,y)經(jīng)Radon變換表示為如下形式：

在式(1)中：δ(·)是狄拉克δ函數(shù)又稱為單位脈沖函數(shù)，在除了零以外的點都等于零，而其在整個定義域上的積分等于1；θ為角度，且θ∈[0,π)；ρ為極徑，且ρ∈(-∞,∞)；

改進的Radon變換在本發(fā)明融合全局R特征的近似重復視頻檢索方法中又稱為R變換，用公式表示為如下形式：

在式(2)中，是f(x,y)的Radon變換；

改進的Radon變換解決了原變換不具備尺度、旋轉(zhuǎn)及平移不變性的問題；

應用(2D)²PCA主成份分析算法對從R變換得到的矩陣進行主成份分析變換得到相應的低維矩陣作為最終的特征，稱為R特征；(2D)²PCA采用的是文獻“雙向二維主成分分析在高效的人臉表示與識別中的應用”中的雙向二維主成分分析方法，同時在行和列兩個方向上進行主成份分析和計算，這樣能獲得更高的識別精度的特征。

步驟3具體按照以下步驟實施：

步驟3.1、用大規(guī)模數(shù)據(jù)分級聚類算法對圖像庫中的SIFT特征中的描述符進行訓練，生成類；

大規(guī)模數(shù)據(jù)分級聚類算法是一種聚類算法；

步驟3.2，經(jīng)步驟3.1后，進行量化，生成每幅圖像的BOF特征，具體方法如下：

量化生成每幅圖像的BOF特征是指判斷圖像的每個特征點與哪個類中心最近，最近的則放入該類中心，最后將生成一列頻數(shù)表，即初步的無權BOF；接下來通過tf-idf對頻數(shù)表加上權重，生成最終的加權BOF特征；

其中，對查詢視頻的特征進行量化方法如下：

在式(3)中q：表示量化，R^d表示實數(shù)空間中的d維數(shù)據(jù)，k表示類中心的數(shù)量，x_i,j,i＝1,...,m₂為參考視頻庫中第j幀中第i個特征；

計算每幀的tf-idf權值方法具體如下：

W_i＝tf_i·idf_i (6)；

在式(4)～式(6)中：k表示類中心的數(shù)量；f_ij是第i個特征所屬的視覺詞匯在第j個視頻幀上出現(xiàn)的頻率；n_i是包含第i個特征所屬的視覺詞匯的參考視頻幀的總數(shù)；N是總的參考視頻數(shù)；tf_i表示詞頻率因子；idf_i表示逆詞頻率因子；

步驟3.3，對生成的BOF特征建立倒排索引，具體方法為：

倒排索引通常是由量化表文件和倒排表文件兩部分組成；

量化表文件記錄了文檔集(圖像、視頻幀)中出現(xiàn)的所有詞匯；

倒排表文件是將每個詞匯在記錄文件(圖像、視頻幀)中的位置和頻率等信息都記錄下來，所有詞匯的這些信息就構(gòu)成了倒排表；對于量化表文件中的n個詞匯(特征)w₁…w_n中的一個w_i，在m個記錄文件(圖像、視頻幀)d₁…d_m中的倒排表能表示為如下形式：

n條這樣的記錄能構(gòu)成一個完整的倒排表；

式(7)中，f_i表示頻率、方向及尺度信息；

式(7)給出了一個完整的用于查詢文本詞匯的倒排索引結(jié)構(gòu)。

步驟4具體按照以下步驟實施：

給定一個查詢幀，用局部特征y表示，并且視頻數(shù)據(jù)庫中所有的關鍵幀用局部特征x_j,j＝1,...,n表示，基于BOF投票檢索的步驟具體如下：

步驟4.1、對于查詢幀的局部特征y_l,l＝1,...,m₁和視頻數(shù)據(jù)庫中所有的關鍵幀的局部特征x_i,j,i＝1,...,m₂，j＝1,...,n計算兩個視頻幀之間的相似性分數(shù)s_j，其算法具體如下：

在式(8)中：f是一個匹配函數(shù)，它反映了兩個特征x_i,j和y_l之間的相似性程度；

步驟4.2、經(jīng)步驟4.1后，把特征根據(jù)視覺詞匯進行量化，并把量化后數(shù)據(jù)庫中視頻的特征存儲在一個倒排文件中，這個量化過程q采用的是公式(3)；

量化后q(x_i,j)的結(jié)果是與特征x_i,j最近的類中心(視覺詞匯)的序號；因此，若兩個特征x_i,j和y_l量化后滿足q(x_i,j)＝q(y_l)，則這兩個特征在高維的特征空間中很接近的概率非常高；根據(jù)這個原理，考慮到前述的tf-idf加權方法，匹配函數(shù)f則定義為如下算法：

則能根據(jù)量化后的結(jié)果高效地比較兩個不同的特征；

步驟4.3、經(jīng)步驟4.2后，最終用來排序的圖像相似性分數(shù)s_f是對s_j進行后處理后得到的，具體按如下算法實施：

由步驟4.2中的式(9)和步驟4.3中的式(10)可以看出：同時考慮了查詢視頻幀和數(shù)據(jù)庫中關鍵幀的視覺單詞的tf-idf權重，并把兩者加入到了基于BOF投票檢索方法中，這種加權方法對視覺單詞直方圖進行了規(guī)一化。

步驟5具體按照以下方法實施：

若兩個特征x和y量化到同一個類中心上反映了這兩個特征描述符的歐氏距離d(x,y)是很小的，則R特征所描述的歐氏空間中的網(wǎng)絡之間的距離也是很小的；基于這一點，一個描述符由q(x)和b(x)，q是一個量化器，b是R特征；則把R特征嵌入到BOF檢索模型中，重新定義的匹配函數(shù)f的功能，具體算法如下：

在式(11)中：d表示歐式距離；h_t表示一個域值；

在量化時類中心數(shù)要取小一些的值，盡量讓相近的視頻能匹配上，而h_t也相應的要取小值，這里h_t＝0.005，以便于能根據(jù)R特征的距離去除誤匹配的視頻。

本發(fā)明的有益效果在于：

(1)本發(fā)明融合全局R特征的近似重復視頻檢索方法中提出了一種改進的Radon變換，解決了原變換不具備尺度、旋轉(zhuǎn)、平移不變性的問題，提高了全局特征的魯棒性。

(2)在本發(fā)明融合全局R特征的近似重復視頻檢索方法中，能根據(jù)信息融合策略把全局幾何分布信息融合于BOF模型中，增加了BOF模型的全局特性，從而提高了系統(tǒng)的穩(wěn)定性。

(3)本發(fā)明融合全局R特征的近似重復視頻檢索方法使用時，能大幅提高近重復視頻檢索的精度，并能廣泛應用于視頻檢索領域。

(4)本發(fā)明融合全局R特征的檢索方法也適合于圖像檢索領域，能大幅提高圖像檢索的精度。

附圖說明

圖1是本發(fā)明融合全局R特征的近似重復視頻檢索方法的框架圖。

具體實施方式

下面結(jié)合附圖和具體實施方式對本發(fā)明進行詳細說明。

融合全局R特征的近似重復視頻檢索方法的框架圖，如圖1所示的，可將其分為兩大部分，分別為：離線部分和在線部分。離線部分的處理對象是目標視頻庫，產(chǎn)生在線部分查詢時所需要的倒排索引表；在線部分主要是完成對查詢視頻在目標視頻庫中的查詢過程。

離線部分的處理對象是參考視頻庫，對參考視頻庫中的視頻進行關鍵幀提取、SIFT特征提取、R特征提取、特征聚類分析、特征矢量到視覺詞匯的量化并生成視覺詞匯表和關于特征的倒排索引表以供在線部分的查詢。

在線部分完成對查詢視頻在參考視頻庫中的查詢；在線部分對查詢視頻進行關鍵幀提取、SIFT特征提取、R特征提取、根據(jù)參考視頻庫生成的視覺詞匯表對在線視頻的所有關鍵幀中的特征量化成視覺詞匯，然后應用信息融合策略把全局幾何分布信息融合到BOF模型中，進行候選視頻的查找和搜索，得出最終檢索結(jié)果。

本發(fā)明融合全局R特征的近似重復視頻檢索方法，具體按照以下步驟實施：

步驟1、對數(shù)據(jù)庫中視頻提取局部SIFT特征，具體方法為：

先對參考視頻庫中的所有視頻進行關鍵幀提取，然后對提取的每個關鍵幀都進行SIFT特征提??；

其中，關鍵幀提取是采用均勻采樣的方法，每隔6秒提取一幀圖像；SIFT特征提取是采用(D.G.Lowe，“Distinctive image features from scale-invariant keypoints，”International Journal of Computer Vision，vol.60，no.2，pp.91-110，Nov，2004.)的方法(中文翻譯為：采用文獻“獨特的尺度不變圖像特征”中的方法)；

其中，對關鍵幀提取SIFT特征，且提取的信息包括有：特征點的位置、尺度、角度以及局部描述信息。

步驟2、經(jīng)步驟1后，根據(jù)獲取的局部SIFT特征中的坐標信息建立全局R特征，建立方法具體按照以下方法實施：

根據(jù)步驟1得到的局部SIFT特征中的坐標信息建立全局R特征是根據(jù)提取的SIFT特征中的位置信息，采用改進的Radon變換來提取全局R特征；

對于一幅圖像f(x,y)，x,y為圖像中像素的坐標，則該圖像f(x,y)經(jīng)Radon變換表示為如下形式：

改進的Radon變換在本發(fā)明融合全局R特征的近似重復視頻檢索方法中又稱為R變換，用公式表示為如下形式：

在式(2)中，是f(x,y)的Radon變換；

改進的Radon變換解決了原變換不具備尺度、旋轉(zhuǎn)及平移不變性的問題；

為了提高特征的魯棒性，并且降低特征的維數(shù)，應用(2D)²PCA主成份分析算法對從R變換得到的矩陣進行主成份分析變換，得到相應的低維矩陣作為最終的特征，稱為R特征；(2D)²PCA采用的是文獻(Z.D.,and Z.Z.,“Letters：(2D)2PCA：Two-directional two-dimensional PCA for efficient face representation and recognition，”Neurocomputing,vol.69，no.1，pp.224-231，2005.)中的方法(中文翻譯為：采用的是文獻“雙向二維主成分分析在高效的人臉表示與識別中的應用”中的雙向二維主成分分析方法)，同時在行和列兩個方向上進行主成份分析和計算，這樣能獲得更高的識別精度的特征。

步驟3、待步驟2完成后，利用局部SIFT特征中描述符信息建立BOF特征模型，具體按照以下步驟實施：

步驟3.1、用大規(guī)模數(shù)據(jù)分級聚類算法對圖像庫中的SIFT特征中的描述符進行訓練，生成類；

其中，大規(guī)模數(shù)據(jù)分級聚類算法是一種聚類算法，可參考文獻(K.Liao，G.Liu，L.Xiao，and C.Liu，“A sample-based hierarchical adaptive K-means clustering method for large-scale video retrieval，”Knowledge-Based Systems，2013.)。

步驟3.2，經(jīng)步驟3.1后，進行量化，生成每幅圖像的BOF特征，具體方法如下：

其中，對查詢視頻的特征進行量化方法如下：

在式(3)中q：表示量化，R^d表示實數(shù)空間中的d維數(shù)據(jù)，k表示類中心的數(shù)量，x_i,j,i＝1,...,m₂為參考視頻庫中第j幀中第i個特征；

計算每幀的tf-idf權值方法具體如下：

W_i＝tf_i·idf_i (6)；

步驟3.3，對生成的BOF特征建立倒排索引，具體方法為：

倒排索引通常是由量化表文件和倒排表文件兩部分組成；

量化表文件記錄了文檔集(圖像、視頻幀)中出現(xiàn)的所有詞匯；

n條這樣的記錄能構(gòu)成一個完整的倒排表；

在式(7)中，f_i表示頻率、方向及尺度信息；

式(7)給出了一個完整的用于查詢文本詞匯的倒排索引結(jié)構(gòu)。

步驟4、根據(jù)步驟3得到的BOF特征模型，建立基于BOF的投票檢索模型，具體按照以下步驟實施：

給定一個查詢幀，用局部特征y表示，并且視頻數(shù)據(jù)庫中所有的關鍵幀用局部特征x_j,j＝1,...,n表示，基于BOF投票檢索的步驟具體如下：

在式(8)中：f是一個匹配函數(shù)，它反映了兩個特征x_i,j和y_l之間的相似性程度；

步驟4.2、經(jīng)步驟4.1后，為了提高運算效率，一般把特征根據(jù)視覺詞匯進行量化，并把量化后數(shù)據(jù)庫中視頻的特征存儲在一個倒排文件中，這個量化過程q采用的是公式(3)；

則能根據(jù)量化后的結(jié)果高效地比較兩個不同的特征；

步驟4.3、經(jīng)步驟4.2后，最終用來排序的圖像相似性分數(shù)s_f是對s_j進行后處理后得到的，具體按如下算法實施：

由步驟4.2中的式(9)和步驟4.3中的式(10)可以看出：同時考慮了查詢視頻幀和數(shù)據(jù)庫中關鍵幀的視覺單詞的tf-idf權重，并把它們加入到了基于BOF投票檢索方法中，這種加權方法對視覺單詞直方圖進行了規(guī)一化。

步驟5、應用信息融合策略把全局幾何分布信息融合到經(jīng)步驟4建立的基于BOF的投票檢索模型中，在大規(guī)模的數(shù)據(jù)中精確的檢索近似重復視頻，具體方法如下：

應用信息融合策略把全局幾何分布信息融合到經(jīng)步驟4建立的基于BOF的投票檢索模型中，在大規(guī)模的數(shù)據(jù)中精確的檢索近似重復視頻具體是指在檢索中把步驟2中的全局R特征嵌入到步驟3中的BOF檢索模型中，來實現(xiàn)大規(guī)模數(shù)據(jù)的近似重復視頻檢索，其具體方法如下：

若兩個特征x和y量化到同一個類中心上反映了這兩個特征描述符的歐氏距離d(x,y)是很小的，則R特征所描述的歐氏空間中的網(wǎng)絡之間的距離也應該是很小的；基于這一點，一個描述符由q(x)和b(x)，q是一個量化器，b是R特征；則把R特征嵌入到BOF檢索模型中，重新定義的匹配函數(shù)f的功能，具體算法如下：

在式(11)中：d表示歐式距離；h_t表示一個域值；

一般在量化時類中心數(shù)可以取小一些的值，盡量讓相近的視頻能匹配上，而h_t也相應的要取小值，這里h_t＝0.005，以便于能根據(jù)R特征的距離去除誤匹配的視頻。

本發(fā)明融合全局R特征的近似重復視頻檢索方法，從功能執(zhí)行上講：首先執(zhí)行對數(shù)據(jù)庫中視頻提取局部SIFT特征；其次執(zhí)行根據(jù)局部SIFT特征中的坐標信息建立全局R特征；然后執(zhí)行利用局部SIFT特征中描述符信息建立BOF檢索模型；接下來根據(jù)BOF模型，建立投票檢索模型；最后執(zhí)行應用信息融合策略把全局幾何分布信息融合到BOF模型中，在大規(guī)模的數(shù)據(jù)中精確的檢索近似重復視頻。本發(fā)明融合全局R特征的近似重復視頻檢索方法，充分利用了局部紋理信息和全局幾何分布信息，并提出了一種特征融合的方法，能夠根據(jù)信息融合策略把全局幾何分布信息融合于BOF模型中，實現(xiàn)在大規(guī)模的數(shù)據(jù)中精確的檢索近似重復視頻。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：廖開陽;王瑋;鄭元林;曹從軍;趙凡;藺廣逢
技術所有人：西安理工大學
我是此專利的發(fā)明人

上一篇：圖數(shù)據(jù)的重劃分方法及系統(tǒng)與制造工藝
上一篇：一種資訊顯示方法及終端與制造工藝

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

全局特征和局部特征相關技術

全局特征相關技術

圖像的全局特征相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

融合全局R特征的近似重復視頻檢索方法與流程