本發(fā)明涉及視頻檢索技術(shù)領(lǐng)域,特別涉及一種基于多幅圖像融合的視頻檢索方法及系統(tǒng)。
背景技術(shù):
自動(dòng)視頻數(shù)據(jù)檢索屬于基于內(nèi)容的視頻檢索問(wèn)題,其目的就是通過(guò)對(duì)圖像/視頻內(nèi)容進(jìn)行計(jì)算機(jī)處理、分析和理解,建立結(jié)構(gòu)和索引,以實(shí)現(xiàn)方便有效的圖像/視頻信息獲取。近年來(lái),國(guó)內(nèi)外的研究人員均對(duì)視頻檢索系統(tǒng)進(jìn)行了大量的研究,目前開(kāi)發(fā)出的智能視頻監(jiān)控可以對(duì)目標(biāo)進(jìn)行檢測(cè)、跟蹤以及分類,并能實(shí)時(shí)監(jiān)測(cè)一些突發(fā)異常事件。
目前,通用的視頻檢索系統(tǒng)的工作流程如圖1所示,主要包括離線建索引和在線檢索兩部分。離線建索引部分:第一步,對(duì)數(shù)據(jù)庫(kù)中的視頻數(shù)據(jù)進(jìn)行關(guān)鍵幀提取,以將視頻數(shù)據(jù)轉(zhuǎn)換為圖像數(shù)據(jù);第二步,從關(guān)鍵幀中提取出關(guān)鍵幀特征;第三步,將所有的關(guān)鍵幀特征進(jìn)行量化編碼;第四步,根據(jù)關(guān)鍵幀特征的編碼,建立倒排文件索引以供快速檢索。在線檢索部分:第一步,對(duì)查詢圖像進(jìn)行特征提??;第二步,對(duì)所有查詢圖像的特征進(jìn)行量化編碼;第三步,通過(guò)倒排文件索引,將查詢圖像的特征與數(shù)據(jù)庫(kù)視頻關(guān)鍵幀的特征進(jìn)行相似度比較;第四步,按照查詢圖像的特征與視頻數(shù)據(jù)庫(kù)關(guān)鍵幀特征的相似度,對(duì)查詢出的視頻關(guān)鍵幀進(jìn)行排序;第五,通過(guò)對(duì)關(guān)鍵幀排序結(jié)果融合得到視頻文件排序結(jié)果。
但是上述的這種視頻檢索技術(shù)的缺陷在于:一是,查全率不高,因?yàn)楦鶕?jù)一幅查詢圖像一般不足以描述所要查詢的目標(biāo),特別是對(duì)于非剛性或者是空間拓?fù)鋸?fù)雜的物體,而且在實(shí)際應(yīng)用中,監(jiān)控目標(biāo)的任何蛛絲馬跡的遺漏都有可能導(dǎo)致監(jiān)控目標(biāo)的丟失,因此查全率在實(shí)際應(yīng)用中往往比查準(zhǔn)率更為重要。二是,查詢效率低,現(xiàn)有視頻檢索技術(shù)的工作過(guò)程中,需要對(duì)視頻中的每一關(guān)鍵幀進(jìn)行排序,再通過(guò)對(duì)關(guān)鍵幀的排序結(jié)果進(jìn)行融合得到視頻的排序結(jié)果,但是由于視頻幀的數(shù)目遠(yuǎn)遠(yuǎn)大于視頻的個(gè)數(shù),因此對(duì)關(guān)鍵幀進(jìn)行排序會(huì)導(dǎo)致目標(biāo)的查詢速度慢、對(duì)資源的利用率低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種基于多幅圖像融合的視頻檢索方法及系統(tǒng),以提高視頻檢索的查全率。
為實(shí)現(xiàn)以上目的,本發(fā)明采用的技術(shù)方案為:第一方面,本發(fā)明提供一種基于多幅圖像融合的視頻檢索方法,該方法包括:
對(duì)數(shù)據(jù)庫(kù)視頻進(jìn)行解碼與視頻鏡頭分割,得到多個(gè)視頻鏡頭;
對(duì)單個(gè)視頻鏡頭進(jìn)行關(guān)鍵幀提取,并對(duì)關(guān)鍵幀進(jìn)行局部特征提取;
對(duì)部分局部特征進(jìn)行聚類,將得到的聚類中心集合作為數(shù)據(jù)庫(kù)視頻局部特征的碼本;
按照數(shù)據(jù)庫(kù)視頻局部特征的碼本,對(duì)數(shù)據(jù)庫(kù)視頻的所有局部特征進(jìn)行量化編碼;
在量化編碼后,對(duì)單個(gè)視頻鏡頭所有關(guān)鍵幀的局部特征集合進(jìn)行池化處理,得到單個(gè)視頻鏡頭量化后的局部特征池化集合;
根據(jù)數(shù)據(jù)庫(kù)視頻局部特征的碼本和單個(gè)視頻鏡頭量化后的局部特征池化集合,建立反向文件索引;
根據(jù)待檢索目標(biāo)視頻的多幅查詢圖像和反向文件索引,進(jìn)行目標(biāo)視頻的在線檢索。
第二方面,本發(fā)明提供了一種基于多幅圖像融合的視頻檢索系統(tǒng),該系統(tǒng)包括:視頻處理模塊、分布式存儲(chǔ)模塊以及檢索模塊;
視頻處理模塊包括處理單元、第一提取單元、第一聚類單元、第一量化編碼單元以及第一池化單元;
處理單元與數(shù)據(jù)庫(kù)連接,對(duì)數(shù)據(jù)庫(kù)中的視頻進(jìn)行解碼與視頻鏡頭分割,得到多個(gè)視頻鏡頭;
第一提取單元與處理單元連接以對(duì)單個(gè)視頻鏡頭進(jìn)行關(guān)鍵幀提取,并對(duì)關(guān)鍵幀進(jìn)行局部特征提??;
第一聚類單元與提取單元連接以對(duì)部分局部特征進(jìn)行聚類,將得到的聚類中心集合作為數(shù)據(jù)庫(kù)視頻局部特征的碼本;
第一量化編碼單元與聚類單元連接以按照數(shù)據(jù)庫(kù)視頻局部特征的碼本,對(duì)數(shù)據(jù)庫(kù)視頻的所有局部特征進(jìn)行量化編碼;
第一池化單元與量化編碼單元連接以在量化編碼后,對(duì)單個(gè)視頻鏡頭所有關(guān)鍵幀的局部特征集合進(jìn)行池化處理,得到單個(gè)視頻鏡頭量化后的局部特征池化集合;
分布式存儲(chǔ)模塊與視頻處理模塊連接以根據(jù)數(shù)據(jù)庫(kù)視頻局部特征的碼本和單個(gè)視頻鏡頭量化后的局部特征池化集合,建立反向文件索引;
檢索模塊與分布式存儲(chǔ)模塊連接以根據(jù)待檢索目標(biāo)視頻的多幅查詢圖像和反向文件索引,進(jìn)行目標(biāo)視頻的在線檢索。
與現(xiàn)有技術(shù)相比,本發(fā)明存在以下技術(shù)效果:第一,本發(fā)明通過(guò)使用同一目標(biāo)視頻的多幅查詢圖像,來(lái)對(duì)目標(biāo)視頻進(jìn)行搜檢索,可以兼顧不同視角,對(duì)檢索目標(biāo)視頻的描述更加精確,提高了對(duì)目標(biāo)視頻的查全率。第二,通過(guò)在離線建立反向文件索引部分,以數(shù)據(jù)庫(kù)視頻的視頻鏡頭為單位,對(duì)單個(gè)視頻鏡頭所有關(guān)鍵幀的局部特征進(jìn)行池化,得到單個(gè)視頻鏡頭量化后的局部特征池化集合,極大的減少了內(nèi)存耗費(fèi)與數(shù)據(jù)庫(kù)中的記錄數(shù)目,不僅加快檢索速度而且節(jié)約內(nèi)存消耗至原有技術(shù)的幾十甚至數(shù)千分之一。
附圖說(shuō)明
圖1是本發(fā)明背景技術(shù)部分述及的現(xiàn)有視頻檢索過(guò)程的流程示意圖;
圖2是本發(fā)明一實(shí)施例中的一種基于多幅圖像融合的視頻檢索方法的流程示意圖;
圖3是本發(fā)明一實(shí)施例中步驟s7的細(xì)分步驟的流程示意圖;
圖4是本發(fā)明一實(shí)施例中的視頻檢索過(guò)程的流程示意圖;
圖5是本發(fā)明一實(shí)施例中一種基于多幅圖像融合的視頻檢索系統(tǒng)的結(jié)構(gòu)示意圖;
圖6是本發(fā)明一實(shí)施例中一種基于多幅圖像融合的視頻檢索系統(tǒng)的分布式結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合圖2至圖6,對(duì)本發(fā)明做進(jìn)一步詳細(xì)敘述。
如圖2所示,本實(shí)施例提供了一種基于多幅圖像融合的視頻檢索方法,該方法包括如下步驟s1至s7:
s1、對(duì)數(shù)據(jù)庫(kù)視頻進(jìn)行解碼與視頻鏡頭分割,得到多個(gè)視頻鏡頭;
具體地,該處的多個(gè)視頻鏡頭是指分割成至少一個(gè)視頻鏡頭。
s2、對(duì)單個(gè)視頻鏡頭進(jìn)行關(guān)鍵幀提取,并對(duì)關(guān)鍵幀進(jìn)行局部特征提?。?/p>
具體地,對(duì)單個(gè)視頻鏡頭提取至少一幅關(guān)鍵幀,并對(duì)關(guān)鍵幀進(jìn)行特征提取,這里的特征提取包括但不限于局部特征提取和全局特征提取,本實(shí)施例中將對(duì)關(guān)鍵幀進(jìn)行局部特征提取作為較為優(yōu)選的方案。
s3、對(duì)部分局部特征進(jìn)行聚類,將得到的聚類中心集合作為數(shù)據(jù)庫(kù)視頻局部特征的碼本;
s4、按照數(shù)據(jù)庫(kù)視頻局部特征的碼本,對(duì)數(shù)據(jù)庫(kù)視頻的所有局部特征進(jìn)行量化編碼;
s5、在量化編碼后,對(duì)單個(gè)視頻鏡頭所有關(guān)鍵幀的局部特征集合進(jìn)行池化處理,得到單個(gè)視頻鏡頭的量化后的局部特征池化集合;
需要說(shuō)明的是,本實(shí)施例中的池化(pooling)方式包括但不僅限于:平均池化(averagepooling)、最大池化(maxpooling)等。
需要說(shuō)明的是,該處的量化后的局部特征池化集合是對(duì)單個(gè)視頻鏡頭所有關(guān)鍵幀的局部特征進(jìn)行池化的結(jié)果,與關(guān)鍵幀局部特征的概念不同。
s6、根據(jù)數(shù)據(jù)庫(kù)視頻局部特征的碼本和單個(gè)視頻鏡頭量化后的局部特征池化集合,建立反向文件索引;
需要說(shuō)明的是,由于在檢索中,碼本的數(shù)目對(duì)應(yīng)于統(tǒng)計(jì)直方圖的維數(shù),碼本的數(shù)目比較大,例如幾萬(wàn)至上百萬(wàn)。如此,在量化后的局部特征池化集合中,大部分碼字被分配到的值都是零,這使得量化后的局部特征池化集合分布的非常稀疏,利用這種稀疏性,就可以利用文本檢索中的倒排序來(lái)建立反向文件索引。
s7、根據(jù)待檢索目標(biāo)視頻的多幅查詢圖像和反向文件索引,進(jìn)行目標(biāo)視頻的在線檢索。
其中,本實(shí)施例中的多幅查詢圖像是指至少兩幅查詢圖像。
具體地,如圖3所示,步驟s7包括如下步驟s71至s75:
s71、對(duì)待檢索目標(biāo)視頻的所有查詢圖像進(jìn)行局部特征提??;
s72、按照所述數(shù)據(jù)庫(kù)視頻局部特征的碼本,對(duì)所有查詢圖像的全部局部特征進(jìn)行量化編碼;
s73、將所有查詢圖像量化編碼后的全部局部特征做池化處理,得到所有查詢圖像量化后的局部特征池化集合;
s74、按照所述的反向文件索引,將待檢索目標(biāo)視頻的量化后的局部特征池化集合與數(shù)據(jù)庫(kù)視頻中單個(gè)視頻鏡頭量化后的局部特征池化集合進(jìn)行相似度比較;
s75、根據(jù)比較得到的相似度,對(duì)查詢出的視頻文件進(jìn)行排序,完成目標(biāo)視頻的在線檢索。
本實(shí)施例中,在使用多幅圖像進(jìn)行查詢的時(shí)候,對(duì)所有查詢圖像的局部特征進(jìn)行池化,可以將所有查詢圖像的局部特征轉(zhuǎn)化為一個(gè)精確的可以描述目標(biāo)視頻的量化后的局部特征池化集合,作為所有查詢圖像的新特征,使得對(duì)目標(biāo)視頻的搜索效率與現(xiàn)有搜索過(guò)程的搜索效率基本保持不變。
具體地,s3:“對(duì)部分的局部特征進(jìn)行聚類,將得到的聚類中心集合作為數(shù)據(jù)庫(kù)視頻局部特征的碼本”,具體包括如下細(xì)分步驟:
從全部視頻鏡頭關(guān)鍵幀中提取的全部局部特征中,間隔或隨機(jī)抽取部分局部特征;
基于預(yù)設(shè)的無(wú)監(jiān)督距離方法,對(duì)所述抽取的部分局部特征進(jìn)行聚類,將得到的k個(gè)代表性特征作為碼本;
需要說(shuō)明的是,本實(shí)施例中預(yù)設(shè)的無(wú)監(jiān)督距離方法包括但不限于k-means無(wú)監(jiān)督距離方法。
相應(yīng)地,s4:“按照數(shù)據(jù)庫(kù)視頻局部特征的碼本,對(duì)數(shù)據(jù)庫(kù)視頻的所有局部特征進(jìn)行量化編碼”,具體包括:
根據(jù)k個(gè)特征碼本,以單個(gè)關(guān)鍵幀為單位對(duì)視頻鏡頭的全部局部特征進(jìn)行局部特征矢量量化,得到每個(gè)關(guān)鍵幀的局部特征統(tǒng)計(jì)直方圖。
具體地,s6:“根據(jù)數(shù)據(jù)庫(kù)視頻局部特征的碼本和單個(gè)視頻鏡頭的量化后的局部特征池化集合,建立反向文件索引”,具體包括如下細(xì)分步驟:
依次以數(shù)據(jù)庫(kù)視頻局部特征的碼本中的每個(gè)碼字id為表頭,建立鏈表;
對(duì)數(shù)據(jù)庫(kù)中的視頻進(jìn)行掃描,將所有包含該碼字的視頻鏡頭id及相關(guān)信息壓入鏈表中,得到反向文件索引。
需要說(shuō)明的是,本實(shí)施例中的相關(guān)信息包括但不限于詞頻、漢明碼以及特征距離等信息。
具體地,步驟s6“按照所述的反向文件索引,將待檢索目標(biāo)視頻的量化后的局部特征池化集合與數(shù)據(jù)庫(kù)視頻中的單個(gè)視頻鏡頭的量化后的局部特征池化集合進(jìn)行相似度比較”的具體過(guò)程為:根據(jù)所有查詢圖像量化后的局部特征池化集合中某個(gè)碼字,掃描反向索引文件中該碼字對(duì)應(yīng)的鏈表,得到在該碼字上查詢圖像與數(shù)據(jù)庫(kù)包含該碼字的視頻的相似度。
具體地,本實(shí)施例公開(kāi)的方法在步驟s72:“按照數(shù)據(jù)庫(kù)視頻局部特征的碼本,對(duì)所有查詢圖像的所有局部特征進(jìn)行量化編碼”之后,還包括如下步驟:
將量化編碼后的所有查詢圖像的全部局部特征交叉比對(duì),確定所有查詢圖像的特征匹配重疊區(qū)域?yàn)榇阉髂繕?biāo)區(qū)域;
相應(yīng)地,步驟s73:“將所有查詢圖像量化編碼后的全部局部特征做池化處理,得到所有查詢圖像量化后的局部特征池化集合”,具體包括:
對(duì)落在待搜索目標(biāo)區(qū)域內(nèi)的所有查詢圖像的局部特征進(jìn)行池化,得到待檢索目標(biāo)視頻的量化后的局部特征池化集合。
需要說(shuō)明的是,通過(guò)根據(jù)圖像間特征的相關(guān)性來(lái)自動(dòng)發(fā)掘共同的特征子集,并以該集合確定待檢索目標(biāo)視頻在圖像中的空間位置,整個(gè)過(guò)程不依賴于任何人工標(biāo)注,便可得到待檢索目標(biāo)視頻的區(qū)域,以目標(biāo)區(qū)域進(jìn)行查詢得到的查詢結(jié)果比以整張圖片進(jìn)行查詢得到的查詢結(jié)果更加準(zhǔn)確。
具體地,利用本實(shí)施例中的基于多幅圖像融合的視頻檢索方法的過(guò)程示意圖如圖4所示。
如圖5、圖6所示,本實(shí)施例公開(kāi)了一種基于多幅圖像融合的視頻檢索系統(tǒng),包括:
視頻處理模塊10、分布式存儲(chǔ)模塊20以及檢索模塊30;
視頻處理模塊10包括處理單元11、第一提取單元12、第一聚類單元13、第一量化編碼單元14以及第一池化單元15;
處理單元11與數(shù)據(jù)庫(kù)連接,對(duì)數(shù)據(jù)庫(kù)中的視頻進(jìn)行解碼與視頻鏡頭分割,得到多個(gè)視頻鏡頭;
第一提取單元12與處理單元11連接以對(duì)單個(gè)視頻鏡頭進(jìn)行關(guān)鍵幀提取,并對(duì)關(guān)鍵幀進(jìn)行局部特征提取;
第一聚類單元13與提取單元12連接以對(duì)部分局部特征進(jìn)行聚類,將得到的聚類中心集合作為數(shù)據(jù)庫(kù)視頻局部特征的碼本;
第一量化編碼單元14與聚類單元13連接以按照數(shù)據(jù)庫(kù)視頻局部特征的碼本,對(duì)數(shù)據(jù)庫(kù)視頻的所有局部特征進(jìn)行量化編碼;
第一池化單元15與量化編碼單元14連接以在量化編碼后,對(duì)單個(gè)視頻鏡頭所有關(guān)鍵幀的局部特征集合進(jìn)行池化處理,得到單個(gè)視頻鏡頭量化后的局部特征池化集合;
分布式存儲(chǔ)模塊20與視頻處理模塊10連接以根據(jù)數(shù)據(jù)庫(kù)視頻局部特征的碼本和單個(gè)視頻鏡頭量化后的局部特征池化集合,建立反向文件索引;
檢索模塊30與分布式存儲(chǔ)模塊20連接以根據(jù)待檢索目標(biāo)視頻的多幅查詢圖像和反向文件索引,進(jìn)行目標(biāo)視頻的在線檢索。
需要說(shuō)明的是,本實(shí)施例中的視頻處理模塊10具體為視頻處理服務(wù)器組,分布式存儲(chǔ)模塊20具體為磁盤(pán)陣列,檢索模塊30具體為檢索服務(wù)器組。具體的硬件配置參數(shù)參見(jiàn)表1:
表1
需要說(shuō)明的是,該處的分布式存儲(chǔ)模塊20支持視頻特征向量的動(dòng)態(tài)插入/刪除,以及支持快速隨機(jī)查找。
具體地,檢索模塊30具體包括:第二提取單元31、第二量化編碼單元32、第二池化單元33、比較單元34以及檢索單元35;
第二提取單元31對(duì)待檢索目標(biāo)視頻的所有查詢圖像進(jìn)行局部特征提取;
第二量化編碼單元32與第二提取單元31連接以按照所述數(shù)據(jù)庫(kù)視頻局部特征的碼本,對(duì)所有查詢圖像的所有局部特征進(jìn)行量化編碼;
第二池化單元33與第二量化編碼單元32連接以將所有查詢圖像量化編碼后的全部局部特征做池化處理,得到待檢索目標(biāo)視頻的量化后的局部特征池化集合;
比較單元34與第二池化單元33、分布式存儲(chǔ)模塊20連接以按照所述的反向文件索引,將待檢索目標(biāo)視頻量化后的局部特征池化集合與數(shù)據(jù)庫(kù)視頻中單個(gè)視頻鏡頭的量化后的局部特征池化集合進(jìn)行相似度比較;
檢索單元35與比較單元34連接以根據(jù)比較得到的相似度,對(duì)查詢出的視頻文件進(jìn)行排序,完成目標(biāo)視頻的在線檢索。
具體地,第一聚類單元13具體用于:
從全部視頻鏡頭關(guān)鍵幀中提取的全部局部特征中,間隔或隨機(jī)抽取部分局部特征;
基于預(yù)設(shè)的無(wú)監(jiān)督距離方法,對(duì)所述抽取的部分局部特征進(jìn)行聚類,將得到的k個(gè)代表性特征作為碼本;
相應(yīng)地,所述的第一量化編碼單元14,具體用于:
根據(jù)k個(gè)特征碼本,以單個(gè)關(guān)鍵幀為單位對(duì)視頻鏡頭的全部局部特征進(jìn)行局部特征矢量量化,得到每個(gè)關(guān)鍵幀的局部特征統(tǒng)計(jì)直方圖。
具體地,分布式存儲(chǔ)模塊20具體包括:鏈表建立單元21和反向索引建立單元22;
鏈表建立單元21依次以數(shù)據(jù)庫(kù)視頻局部特征的碼本中的每個(gè)碼字id為表頭,建立鏈表;
反向索引建立單元22與鏈表建立單元21連接以對(duì)數(shù)據(jù)庫(kù)中的視頻進(jìn)行掃描,將所有包含該碼字的視頻鏡頭id及相關(guān)信息壓入鏈表中,得到反向文件索引,其中,所述的相關(guān)信息包括詞頻和漢明碼。
具體地,視頻處理模塊30還包括匹配單元36;
匹配單元36與第二量化編碼單元32連接以將量化編碼后的所有查詢圖像的全部局部特征交叉比對(duì),確定所有查詢圖像的特征匹配重疊區(qū)域?yàn)榇阉髂繕?biāo)區(qū)域;
相應(yīng)地,所述的第二池化單元33與匹配單元36連接,具體用于:
對(duì)落在待搜索目標(biāo)區(qū)域內(nèi)的所有查詢圖像的局部特征進(jìn)行池化,得到待檢索目標(biāo)視頻的量化后的局部特征池化集合。
應(yīng)當(dāng)說(shuō)明的是,基于多幅圖像融合的視頻檢索系統(tǒng)的具體工作過(guò)程及要點(diǎn)與上述基于多幅圖像融合的視頻檢索方法相同,此處不再贅述。
需要說(shuō)明的是,本發(fā)明公開(kāi)的基于多幅圖像融合的視頻檢索方法及系統(tǒng)具有如下的技術(shù)效果:
(1)使用多幅查詢目標(biāo)圖像,在表達(dá)目標(biāo)對(duì)象時(shí),可以兼顧不同視角,使描述更加精準(zhǔn),這對(duì)提高檢索系統(tǒng)的查全率有很大的幫助。同時(shí)多圖查詢時(shí)通過(guò)特征池化,可以像單幅圖像查詢一樣,仍只以一個(gè)特征向量來(lái)描述待查找目標(biāo),使得搜索效率基本保持不變。
(2)數(shù)據(jù)庫(kù)視頻部分的離線處理,通過(guò)特征池化,以視頻鏡頭而不是關(guān)鍵幀為單位,保留池化后的量化特征向量,極大地減少內(nèi)存耗費(fèi)與數(shù)據(jù)庫(kù)中的記錄數(shù)目,極大的提高了檢索效率,節(jié)約內(nèi)存消耗至原技術(shù)的幾十至數(shù)千分之一,同時(shí)保持相當(dāng)、甚至更高的搜索精度。
(3)在多幅查詢圖像輸入部分,通過(guò)所有查詢圖像間特征的相關(guān)性來(lái)自動(dòng)發(fā)掘共同的特征子集,以該集合確定待搜索目標(biāo)在圖像中的空間位置區(qū)域,不依賴于任何人工標(biāo)注,就可得到待搜索目標(biāo)的區(qū)域,以此為查詢,得到比整張圖片更加精準(zhǔn)的查詢結(jié)果。