一種跨文本模態(tài)和圖像模態(tài)的數(shù)據檢索方法
【技術領域】
[0001] 本發(fā)明涉及計算機視覺、模式識別、多媒體檢索等數(shù)據檢索技術領域,特別是涉及 一種跨文本模態(tài)和圖像模態(tài)的數(shù)據檢索方法。
【背景技術】
[0002] 目前處于移動互聯(lián)網時代,數(shù)據量與日倶增,尤其是絕大多數(shù)數(shù)據攜有多模態(tài)信 息。其中,以網頁為例,一個網頁文件既包括了文本信息又包括了圖像信息,如何合理的利 用多模態(tài)信息設計,實現(xiàn)更為人性化的搜索引擎?zhèn)涫苋藗冴P注。然而,值得注意的是,文本 模態(tài)、圖像模態(tài)這兩種模態(tài)在特征表達層面并不對稱,除此以外,這兩種模態(tài)特征的長度以 及區(qū)分能力更是相差很大,這為跨模態(tài)檢索帶來很大的挑戰(zhàn)。目前,與單一模態(tài)的圖像或文 本模態(tài)檢索相比較而言,跨模態(tài)檢索有著更大的應用前景,目前,熱門正在不斷推進跨模態(tài) 檢索領域的發(fā)展。
[0003] 通常,一個跨模態(tài)檢索系統(tǒng)采用共享子空間的方法,希望不同模態(tài)在子空間上的 表達滿足一定的特性,比如,同一對樣本的表達盡可能接近,不同對樣本的表達盡可能疏 遠。根據給定信息的豐富程度,可以將跨模態(tài)檢索任務分為兩種,即無監(jiān)督跨模態(tài)檢索和有 監(jiān)督跨模態(tài)檢索。這兩種檢索任務最大的差異在于是否存在額外的語義標注信息。仍以網 頁為例,圖像信息來源自一部電影的海報,文本信息來源電影內容的描述,無監(jiān)督跨模態(tài)只 需要知道哪些電影海報和哪些電影內容是對應的,而有監(jiān)督跨模態(tài)檢索還需要知道這些電 影海報以及電影內容對應屬于哪個類別,屬于恐怖類別、喜劇類別或者科幻類別等等。
[0004] 為了提高跨模態(tài)檢索的效果,目前,越來越多的研究側重于有監(jiān)督的任務。在這些 研究中,尤以基于子空間學習的方法最受研究者青睞。其基本思想是,希望學習到一個子空 間,使得文本、圖像兩種模態(tài)在這個空間上的投影滿足一些限制條件。這些限制條件包括同 一文本、圖像對之間的子空間表達盡可能接近,同類(語義標注信息一致)的圖像和文本對 相比于不同類(語義標注信息不一致)的圖像和文本對更加接近。利用這些約束條件,去 優(yōu)化求解滿足條件的子空間,最終在這個子空間上進行最后的檢索任務。
[0005] 然而,當前的子空間學習方法存在一個很大的弊端,即求解的時間和空間復雜度 比較大,嚴重影響了跨模態(tài)檢索的效率。這是因為現(xiàn)有技術人員在設計子空間學習時加入 了諸如稀疏表示還有低秩等模式識別中常見的約束。這些約束一方面增加了優(yōu)化求解的難 度,另一方面,放縮后的優(yōu)化求解也不能保證解的最優(yōu)性。其中,以低秩約束為例,處理低秩 約束通常使用多乘子交替方向法ADMM迭代優(yōu)化算法,這樣,在每一次迭代中會不可避免的 出現(xiàn)F范數(shù)與核范數(shù)共存的情況,在這種情況下,特征值分解用于優(yōu)化求解,然而,隨著樣 本的增加,矩陣特征值分解的時、空間復雜度太大,不方便投入到實際應用中。除此以外, 傳統(tǒng)的跨模態(tài)算法,諸如相關成分分析以及偏最小二乘等經典算法往往采用線性的投影函 數(shù),從原始特征空間計算其在共享子空間上的投影。
[0006] 因此,目前迫切需要開發(fā)出一種方法,其可以在保證高精度的同時,快速、有效地 對大規(guī)模的數(shù)據進行跨模態(tài)檢索,顯著減少跨模態(tài)檢索的時間,節(jié)約人們寶貴的時間,滿足 人們對跨模態(tài)數(shù)據的檢索需求。
【發(fā)明內容】
[0007] 有鑒于此,本發(fā)明的目的是提供一種跨文本模態(tài)和圖像模態(tài)的數(shù)據檢索方法,其 與現(xiàn)有模態(tài)檢索方法相比較,可以在保證高精度的同時,快速、有效地對大規(guī)模的數(shù)據進行 跨模態(tài)檢索,顯著減少跨模態(tài)檢索的時間,節(jié)約人們寶貴的時間,滿足人們對跨模態(tài)數(shù)據的 檢索需求,可以很好地適用于計算機視覺、模式識別、多媒體檢索等數(shù)據檢索技術領域,具 有重大的生產實踐意義。
[0008] 為此,本發(fā)明提供了一種跨文本模態(tài)和圖像模態(tài)的數(shù)據檢索方法,其特征在于,包 括以下步驟:
[0009] 第一步:將文本模態(tài)數(shù)據庫中的全部文本模態(tài)數(shù)據和圖像模態(tài)數(shù)據庫中的全部圖 像模態(tài)數(shù)據分成多個樣本對,每個樣本對包括一個文本模態(tài)數(shù)據和一個圖像模態(tài)數(shù)據;
[0010] 第二步:將每個樣本對的特征進行聯(lián)合聚類,獲得全部文本模態(tài)數(shù)據和圖像模態(tài) 數(shù)據的聯(lián)合聚類中心;
[0011] 第三步:根據所述聯(lián)合聚類中心,對全部的文本模態(tài)數(shù)據和圖像模態(tài)數(shù)據分別進 行主親和力的計算,分別獲得本模態(tài)數(shù)據和圖像模態(tài)數(shù)據的主親和力非線性表達;
[0012] 第四步:根據文本模態(tài)數(shù)據和圖像模態(tài)數(shù)據自身具有的語義標注信息,生成一組 長度等于類別數(shù)的語義向量,并將所述語義向量作為邏輯斯特回歸分類器的輸出表達,同 時將文本模態(tài)數(shù)據和圖像模態(tài)數(shù)據的主親和力非線性表達中心化后作為輸入表達來進行 邏輯斯特回歸分類器的訓練,最終訓練得到多個分類函數(shù);
[0013] 第五步:當用戶需要檢索至少一個文本模態(tài)數(shù)據樣本或者圖像模態(tài)數(shù)據樣本時, 分別計算該文本模態(tài)數(shù)據樣本或者圖像模態(tài)數(shù)據樣本的主親和力并將該主親和力輸入到 所述分類函數(shù)中,分別得到文本模態(tài)數(shù)據樣本或者圖像模態(tài)數(shù)據樣本的語義層表達;
[0014] 第六步:將所述文本模態(tài)數(shù)據樣本和圖像模態(tài)數(shù)據樣本的語義層表達進行歸一化 處理,分別生成最終的文本模態(tài)數(shù)據樣本和圖像模態(tài)數(shù)據樣本的語義層表達;
[0015] 第七步:根據所述最終的文本模態(tài)數(shù)據樣本和圖像模態(tài)數(shù)據樣本的語義層表達, 利用內積距離計算公式計算用戶需要檢索的文本模態(tài)數(shù)據樣本與作為待檢索對象的所述 圖像模態(tài)數(shù)據庫內所有圖像模態(tài)數(shù)據的距離,按照距離大小的升序輸出對所述圖像模態(tài)數(shù) 據庫內所有圖像模態(tài)數(shù)據的檢索結果,或者計算用戶需要檢索的圖像模態(tài)數(shù)據樣本與作為 待檢索對象的所述文本模態(tài)數(shù)據庫中所有文本模態(tài)數(shù)據的距離,按照距離大小的升序輸出 對所述文本模態(tài)數(shù)據庫內所有文本像模態(tài)數(shù)據的檢索結果。
[0016] 其中,所述第二步具體包括以下步驟:
[0017] 首先,將每個不同的樣本對,即文本模態(tài)數(shù)據和圖像模態(tài)數(shù)據對的特征串聯(lián)起來, 得到全部樣本對初始特征串聯(lián)的順序fi=[f ,匕(1)和fi(2)分別為文本模態(tài)數(shù)據和 圖像模態(tài)數(shù)據對應的原始特征表達;
[0018] 接著,利用聯(lián)合聚類算法得到全部樣本對的初始特征串聯(lián)的順序fi,iG[1,n]的 聚類中心Ul,iG[l,m],其中1!1和11分別為聚類中心的數(shù)目以及訓練樣本個數(shù);
[0019] 最后,將獲得的所述聚類中心Ul,iG[l,rn]按照全部樣本對初始特征串聯(lián)的順序 fi=[ffi,重新拆成崎?尸]兩個部分,這樣得到的<>和#>認定為文本模態(tài)和 圖像模態(tài)這兩種不同模態(tài)數(shù)據的聯(lián)合聚類中心。
[0020] 其中,在所述第三步中,采用徑向基函數(shù)作為主親和力的測度,所述第三步具體包 括以下步驟:
[0021] 利用徑向基函數(shù)核分別計算文本模態(tài)數(shù)據和圖像模態(tài)數(shù)據的 原始特征距離與其m個聚類中心〃e [1,2]的主親和力表達ee[1,2],展開
如下:
[0022]
[0023] 其中k等于1和2分別代表文本和圖像兩種模態(tài)的數(shù)據,m為大于0的整數(shù)。
[0024] 其中,在所述第四步中,對所述文本模態(tài)數(shù)據和圖像模態(tài)數(shù)據的主親和力非線性 表達進行中心化處理的操作如下:
[0025]
[0026] /=1
[0027] 其中,所述第四步具體包括以下步驟:
[0028] 將文本模態(tài)數(shù)據和圖像模態(tài)數(shù)據的主親和力非線性表達中心化后,作為帶有L2 約束的多類邏輯斯特回歸函數(shù)的輸入表達,作為回歸函數(shù)的輸出表達,