一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法
【專利摘要】本發(fā)明公開了一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法。它包括如下步驟:1)特征提??;2)模型建立和學(xué)習(xí);3)跨媒體數(shù)據(jù)檢索;4)結(jié)果評價。本發(fā)明可以直接在不同模態(tài)數(shù)據(jù)之間進(jìn)行相似度比較,對于跨模態(tài)檢索任務(wù),用戶可以提交任意模態(tài)的文本、圖像、聲音等,去檢索他們需求的對應(yīng)模態(tài)結(jié)果。本發(fā)明與傳統(tǒng)跨媒體檢索方法的區(qū)別在于可以直接進(jìn)行不同模態(tài)數(shù)據(jù)之間的相似性比較,滿足了跨媒體檢索的需求,更加直接地實現(xiàn)了用戶的檢索意圖,與其它可以直接度量不同模態(tài)相似性的跨媒體檢索算法相比,本方法具有較強(qiáng)抗噪音干擾能力和對松散關(guān)聯(lián)的跨模態(tài)數(shù)據(jù)的表達(dá)能力,使得檢索效果更好。
【專利說明】一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及跨模態(tài)檢索,尤其涉及一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法。
【背景技術(shù)】
[0002]如今,電子數(shù)據(jù)的類型越來越趨向于豐富多彩,各種類型的數(shù)據(jù),如文本、圖像、聲音、地圖等等在互聯(lián)網(wǎng)上廣泛存在。同一語義內(nèi)容往往既可以用一種模態(tài)的數(shù)據(jù)來描述,也可以用其他模態(tài)的數(shù)據(jù)來描述。有時,針對某個語義的一種類型數(shù)據(jù)的描述,我們希望找到其對應(yīng)的其他類型數(shù)據(jù)的描述。比如,根據(jù)文本去檢索和文本含義相近的圖片,或者根據(jù)圖片搜索和圖片有關(guān)的新聞報道等等。但是,現(xiàn)有的檢索方法一般都是針對單模態(tài)數(shù)據(jù)的,如文本檢索文本,圖像檢索圖像。也有一些多模態(tài)或多媒體檢索方法,但是這些多模態(tài)檢索方法大都是在同模態(tài)之間做相似性度量,然后通過函數(shù)映射計算跨媒體數(shù)據(jù)之間的相似度,很少有直接比較不同模態(tài)相似性的檢索方法。在同模態(tài)間進(jìn)行相似度度量的跨媒體檢索方法,其不足之處在于,并不能學(xué)習(xí)到跨模態(tài)數(shù)據(jù)間的關(guān)系,需要依賴數(shù)據(jù)庫中預(yù)先指定的匹配關(guān)系,而且對于多媒體數(shù)據(jù)之間松散的對應(yīng)關(guān)系,查詢效果不理想。因此,有必要提出可直接進(jìn)行不同模態(tài)相似性度量的跨媒體檢索方法。直接進(jìn)行不同模態(tài)數(shù)據(jù)相似性的比較,其難點(diǎn)在于,不同模態(tài)數(shù)據(jù)的特征之間差別較大,且一般來說維數(shù)較高,存在“語義鴻溝”的問題。
[0003]對于如何克服“語義鴻溝”問題,進(jìn)行不同模態(tài)數(shù)據(jù)間的相似性比較和檢索,有一些跟傳統(tǒng)方法不同的方法,這些方法一般分為兩類:一類是將不同模態(tài)的數(shù)據(jù)看作隨機(jī)變量,通過尋找使這些隨機(jī)變量關(guān)聯(lián)性最大的隱空間對應(yīng)的映射,對于檢索數(shù)據(jù),也將其投影到隱空間,從而完成跨模態(tài)檢索。另一類方法是假設(shè)這些數(shù)據(jù)中隱含一些主題,不同模態(tài)數(shù)據(jù)的關(guān)聯(lián)性由主題來模型。這兩類方法都是直接進(jìn)行不同模態(tài)間數(shù)據(jù)相似度比較的方法,然而,對不同模態(tài)間語義層面松散關(guān)聯(lián)的情況,“相關(guān)性最大”和“主題”這些語義層面的內(nèi)在理解的可靠程度就比不上不同模態(tài)數(shù)據(jù)的類別和關(guān)聯(lián)關(guān)系這些已知確定信息。本發(fā)明將字典學(xué)習(xí)引入到跨模態(tài)檢索中,直接就顯式的關(guān)聯(lián)關(guān)系進(jìn)行學(xué)習(xí),并利用標(biāo)簽信息,可以很好地對文本和圖像間在語義層面松散對應(yīng)的關(guān)系進(jìn)行建模,從而提高對噪聲的魯棒性,提高跨模態(tài)檢索的準(zhǔn)確率。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提供一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法,以便可以通過一種模態(tài)的數(shù)據(jù)直接檢索到另外一種或幾種模態(tài)的數(shù)據(jù)。
[0005]可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方包括如下步驟:
[0006]I)對數(shù)據(jù)庫中各個模態(tài)數(shù)據(jù)進(jìn)行特征提取和標(biāo)簽記錄;
[0007]2)根據(jù)數(shù)據(jù)庫中不同模態(tài)數(shù)據(jù)間的對應(yīng)信息和標(biāo)簽信息,從重建的角度對不同模態(tài)配對數(shù)據(jù)間的差異性和相似性進(jìn)行表達(dá),利用標(biāo)簽信息,構(gòu)建跨模態(tài)檢索整體模型并學(xué)習(xí)模型參數(shù);
[0008]3)對用戶提交的已知模態(tài)數(shù)據(jù),進(jìn)行特征提取后利用跨媒體檢索模型返回與之對應(yīng)的用戶需求的其他模態(tài)數(shù)據(jù);
[0009]4)利用跨模態(tài)數(shù)據(jù)的真實對應(yīng)信息和標(biāo)簽信息,對跨媒體檢索模型同時從對應(yīng)信息和區(qū)別性信息兩方面來進(jìn)行評價。
[0010]所述的步驟I)包括:
[0011]I)對數(shù)據(jù)庫內(nèi)所有的圖像模態(tài)數(shù)據(jù)提取SIFT特征,并采用k-means方法進(jìn)行聚類形成視覺單詞,然后對特征進(jìn)行歸一化,使代表每一個圖像的特征矢量為單位矢量;
[0012]2)對數(shù)據(jù)庫內(nèi)所有的文本模態(tài)數(shù)據(jù)進(jìn)行詞性標(biāo)注,去除非名詞單詞,保留文本中的名詞,用所有數(shù)據(jù)庫中出現(xiàn)過的單詞構(gòu)成一個詞庫,對每個文本單獨(dú)統(tǒng)計詞庫中的單詞出現(xiàn)的次數(shù),采用單文本詞匯頻率進(jìn)行矢量化,然后對特征矢量進(jìn)行歸一化,使代表每一個文本的特征矢量為單位矢量;
[0013]3)對數(shù)據(jù)庫中其他模態(tài)的數(shù)據(jù),提取常用的行業(yè)標(biāo)準(zhǔn)特征,并對特征進(jìn)行歸一化,使代表每一個數(shù)據(jù)的特征矢量為單位矢量。
[0014]4)對數(shù)據(jù)庫中對應(yīng)的不同模態(tài)數(shù)據(jù),統(tǒng)計它們的標(biāo)簽信息,即記錄它們來自那個類別。
[0015]所述的步驟2)包括:
[0016]I)在跨媒體檢索中引入字典學(xué)習(xí)的概念,形成基于字典學(xué)習(xí)的跨模態(tài)檢索算法,以字典和稀疏系數(shù)重建各個模態(tài)的數(shù)據(jù),不同的字典編碼不同模態(tài)間的差別性,不同模態(tài)數(shù)據(jù)間的相似性由稀疏系數(shù)間的關(guān)聯(lián)關(guān)系矩陣來建模,字典、稀疏系數(shù)和關(guān)聯(lián)關(guān)系矩陣均從各模態(tài)數(shù)據(jù)中學(xué)習(xí)得到;
[0017]2)利用標(biāo)簽信息參與跨模態(tài)檢索,在字典學(xué)習(xí)中,屬于同一標(biāo)簽的同一模態(tài)數(shù)據(jù)共享相同的字典基元,即不為零的字典列,從而使標(biāo)簽信息編碼在字典學(xué)習(xí)的過程中,學(xué)習(xí)到具有區(qū)別性信息的字典;
[0018]3)將字典、稀疏系數(shù)、關(guān)聯(lián)關(guān)系矩陣、標(biāo)簽信息統(tǒng)一在如表達(dá)式(I)的基于字典學(xué)習(xí)的多模態(tài)檢索算法框架中,不同模態(tài)的對應(yīng)數(shù)據(jù)作為整體被表達(dá)和學(xué)習(xí);
【權(quán)利要求】
1.一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法,其特征在于包括如下步驟: 1)對數(shù)據(jù)庫中各個模態(tài)數(shù)據(jù)進(jìn)行特征提取和標(biāo)簽記錄; 2)根據(jù)數(shù)據(jù)庫中不同模態(tài)數(shù)據(jù)間的對應(yīng)信息和標(biāo)簽信息,從重建的角度對不同模態(tài)配對數(shù)據(jù)間的差異性和相似性進(jìn)行表達(dá),利用標(biāo)簽信息,構(gòu)建跨模態(tài)檢索整體模型并學(xué)習(xí)模型參數(shù); 3)對用戶提交的已知模態(tài)數(shù)據(jù),進(jìn)行特征提取后利用跨媒體檢索模型返回與之對應(yīng)的用戶需求的其他模態(tài)數(shù)據(jù); 4)利用跨模態(tài)數(shù)據(jù)的真實對應(yīng)信息和標(biāo)簽信息,對跨媒體檢索模型同時從對應(yīng)信息和區(qū)別性信息兩方面來進(jìn)行評價。
2.根據(jù)權(quán)利要求1所述的一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法,其特征在于,所述的步驟I)包括: 1)對數(shù)據(jù)庫內(nèi)所有的圖像模態(tài)數(shù)據(jù)提取SIFT特征,并采用k-means方法進(jìn)行聚類形成視覺單詞,然后對特征進(jìn)行歸一化,使代表每一個圖像的特征矢量為單位矢量; 2)對數(shù)據(jù)庫內(nèi)所有的文本模態(tài)數(shù)據(jù)進(jìn)行詞性標(biāo)注,去除非名詞單詞,保留文本中的名詞,用所有數(shù)據(jù)庫中出現(xiàn)過的單詞構(gòu)成一個詞庫,對每個文本單獨(dú)統(tǒng)計詞庫中的單詞出現(xiàn)的次數(shù),采用單文本詞匯頻率進(jìn)行矢量化,然后對特征矢量進(jìn)行歸一化,使代表每一個文本的特征矢量為單位矢量; 3)對數(shù)據(jù)庫中其他模態(tài)的數(shù)據(jù),提取常用的行業(yè)標(biāo)準(zhǔn)特征,并對特征進(jìn)行歸一化,使代表每一個數(shù)據(jù)的特征矢量為單位矢量。` 4)對數(shù)據(jù)庫中對應(yīng)的不同模態(tài)數(shù)據(jù),統(tǒng)計它們的標(biāo)簽信息,即記錄它們來自那個類別。
3.根據(jù)權(quán)利要求1所述的一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法,其特征在于,所述的步驟2)包括: 1)在跨媒體檢索中引入字典學(xué)習(xí)的概念,形成基于字典學(xué)習(xí)的跨模態(tài)檢索算法,以字典和稀疏系數(shù)重建各個模態(tài)的數(shù)據(jù),不同的字典編碼不同模態(tài)間的差別性,不同模態(tài)數(shù)據(jù)間的相似性由稀疏系數(shù)間的關(guān)聯(lián)關(guān)系矩陣來建模,字典、稀疏系數(shù)和關(guān)聯(lián)關(guān)系矩陣均從各模態(tài)數(shù)據(jù)中學(xué)習(xí)得到; 2)利用標(biāo)簽信息參與跨模態(tài)檢索,在字典學(xué)習(xí)中,屬于同一標(biāo)簽的同一模態(tài)數(shù)據(jù)共享相同的字典基元,即不為零的字典列,從而使標(biāo)簽信息編碼在字典學(xué)習(xí)的過程中,學(xué)習(xí)到具有區(qū)別性信息的字典; 3)將字典、稀疏系數(shù)、關(guān)聯(lián)關(guān)系矩陣、標(biāo)簽信息統(tǒng)一在如表達(dá)式(I)的基于字典學(xué)習(xí)的多模態(tài)檢索算法框架中,不同模態(tài)的對應(yīng)數(shù)據(jù)作為整體被表達(dá)和學(xué)習(xí); MMJ min£|1 滬0 -伊),)+ΣΣ4 Il 4?丨Iu w=lm=l I=I +/?ΣΣΙΙA<,,> H") l& +rf}\曠0 ΙΙ?-(I) m=l n去mm=\ St IlIl<I, V夂 Vm, 其中,M表示模態(tài)的個數(shù),J表示類別即標(biāo)簽個數(shù),Xw表示第m模態(tài)的特征數(shù)據(jù),DW表示第m模態(tài)的字典,Aw表示第m模態(tài)的稀疏系數(shù),表示第m模態(tài)具有標(biāo)簽I的那些數(shù)據(jù)所對應(yīng)的稀疏系數(shù),對任意kXn的矩陣
4.根據(jù)權(quán)利要求1所述的一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法,其特征在于,所述的步驟3)包括: 1)根據(jù)用戶提交的已知m模態(tài)數(shù)#V 1印學(xué)習(xí)得到的已知模態(tài)字典Dw,初始化已知模態(tài)數(shù)據(jù)的稀疏系數(shù)如下:
5.根據(jù)權(quán)利要求1所述的一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索算法,其特征在于,所述的步驟4)包括: O以對應(yīng)信息評價跨模態(tài)檢索,著眼于已知模態(tài)數(shù)據(jù)和其直接對應(yīng)的其他模態(tài)數(shù)據(jù),以與已知模態(tài)數(shù)據(jù)對應(yīng)的需求模態(tài)數(shù)據(jù)在結(jié)果列表中的位置評價結(jié)果的好壞,對于給定的t%指標(biāo),如果與已知模態(tài)數(shù)據(jù)對應(yīng)的需求模態(tài)數(shù)據(jù)排在t%前,則認(rèn)為檢索正確,否則認(rèn)為檢索錯誤; 2)以區(qū)別性信息評價跨模態(tài)檢索,著眼于已知模態(tài)數(shù)據(jù)和與其屬于同一標(biāo)簽的需求模態(tài)數(shù)據(jù),以檢索列表來衡量跨模態(tài)檢索結(jié)果,與已知模態(tài)數(shù)據(jù)具有相同的標(biāo)簽作為相關(guān),否則為不相關(guān),具體采用信息檢索中的MAP作為這個指標(biāo)的衡量,對一個請求的跨模態(tài)檢索數(shù)據(jù),和搜索返回的列表,長度為R,MAP的定義基于AP,AP定義如下:
【文檔編號】G06F17/30GK103488713SQ201310410553
【公開日】2014年1月1日 申請日期:2013年9月10日 優(yōu)先權(quán)日:2013年9月10日
【發(fā)明者】莊越挺, 吳飛, 王彥斐, 湯斯亮, 邵健 申請人:浙江大學(xué)