一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法

文檔序號：6511047閱讀：1093來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法
【專利摘要】本發(fā)明公開了一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法。它包括如下步驟：1）特征提??；2）模型建立和學(xué)習(xí)；3）跨媒體數(shù)據(jù)檢索；4）結(jié)果評價。本發(fā)明可以直接在不同模態(tài)數(shù)據(jù)之間進(jìn)行相似度比較，對于跨模態(tài)檢索任務(wù)，用戶可以提交任意模態(tài)的文本、圖像、聲音等，去檢索他們需求的對應(yīng)模態(tài)結(jié)果。本發(fā)明與傳統(tǒng)跨媒體檢索方法的區(qū)別在于可以直接進(jìn)行不同模態(tài)數(shù)據(jù)之間的相似性比較，滿足了跨媒體檢索的需求，更加直接地實現(xiàn)了用戶的檢索意圖，與其它可以直接度量不同模態(tài)相似性的跨媒體檢索算法相比，本方法具有較強(qiáng)抗噪音干擾能力和對松散關(guān)聯(lián)的跨模態(tài)數(shù)據(jù)的表達(dá)能力，使得檢索效果更好。
【專利說明】一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及跨模態(tài)檢索，尤其涉及一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法。
【背景技術(shù)】
[0002]如今，電子數(shù)據(jù)的類型越來越趨向于豐富多彩，各種類型的數(shù)據(jù)，如文本、圖像、聲音、地圖等等在互聯(lián)網(wǎng)上廣泛存在。同一語義內(nèi)容往往既可以用一種模態(tài)的數(shù)據(jù)來描述，也可以用其他模態(tài)的數(shù)據(jù)來描述。有時，針對某個語義的一種類型數(shù)據(jù)的描述，我們希望找到其對應(yīng)的其他類型數(shù)據(jù)的描述。比如，根據(jù)文本去檢索和文本含義相近的圖片，或者根據(jù)圖片搜索和圖片有關(guān)的新聞報道等等。但是，現(xiàn)有的檢索方法一般都是針對單模態(tài)數(shù)據(jù)的，如文本檢索文本，圖像檢索圖像。也有一些多模態(tài)或多媒體檢索方法，但是這些多模態(tài)檢索方法大都是在同模態(tài)之間做相似性度量，然后通過函數(shù)映射計算跨媒體數(shù)據(jù)之間的相似度，很少有直接比較不同模態(tài)相似性的檢索方法。在同模態(tài)間進(jìn)行相似度度量的跨媒體檢索方法，其不足之處在于，并不能學(xué)習(xí)到跨模態(tài)數(shù)據(jù)間的關(guān)系，需要依賴數(shù)據(jù)庫中預(yù)先指定的匹配關(guān)系，而且對于多媒體數(shù)據(jù)之間松散的對應(yīng)關(guān)系，查詢效果不理想。因此，有必要提出可直接進(jìn)行不同模態(tài)相似性度量的跨媒體檢索方法。直接進(jìn)行不同模態(tài)數(shù)據(jù)相似性的比較，其難點(diǎn)在于，不同模態(tài)數(shù)據(jù)的特征之間差別較大，且一般來說維數(shù)較高，存在“語義鴻溝”的問題。
[0003]對于如何克服“語義鴻溝”問題，進(jìn)行不同模態(tài)數(shù)據(jù)間的相似性比較和檢索，有一些跟傳統(tǒng)方法不同的方法，這些方法一般分為兩類:一類是將不同模態(tài)的數(shù)據(jù)看作隨機(jī)變量，通過尋找使這些隨機(jī)變量關(guān)聯(lián)性最大的隱空間對應(yīng)的映射，對于檢索數(shù)據(jù)，也將其投影到隱空間，從而完成跨模態(tài)檢索。另一類方法是假設(shè)這些數(shù)據(jù)中隱含一些主題，不同模態(tài)數(shù)據(jù)的關(guān)聯(lián)性由主題來模型。這兩類方法都是直接進(jìn)行不同模態(tài)間數(shù)據(jù)相似度比較的方法，然而，對不同模態(tài)間語義層面松散關(guān)聯(lián)的情況，“相關(guān)性最大”和“主題”這些語義層面的內(nèi)在理解的可靠程度就比不上不同模態(tài)數(shù)據(jù)的類別和關(guān)聯(lián)關(guān)系這些已知確定信息。本發(fā)明將字典學(xué)習(xí)引入到跨模態(tài)檢索中，直接就顯式的關(guān)聯(lián)關(guān)系進(jìn)行學(xué)習(xí)，并利用標(biāo)簽信息，可以很好地對文本和圖像間在語義層面松散對應(yīng)的關(guān)系進(jìn)行建模，從而提高對噪聲的魯棒性，提高跨模態(tài)檢索的準(zhǔn)確率。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的在于提供一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法，以便可以通過一種模態(tài)的數(shù)據(jù)直接檢索到另外一種或幾種模態(tài)的數(shù)據(jù)。
[0005]可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方包括如下步驟:
[0006]I)對數(shù)據(jù)庫中各個模態(tài)數(shù)據(jù)進(jìn)行特征提取和標(biāo)簽記錄；
[0007]2)根據(jù)數(shù)據(jù)庫中不同模態(tài)數(shù)據(jù)間的對應(yīng)信息和標(biāo)簽信息，從重建的角度對不同模態(tài)配對數(shù)據(jù)間的差異性和相似性進(jìn)行表達(dá)，利用標(biāo)簽信息，構(gòu)建跨模態(tài)檢索整體模型并學(xué)習(xí)模型參數(shù)；
[0008]3)對用戶提交的已知模態(tài)數(shù)據(jù)，進(jìn)行特征提取后利用跨媒體檢索模型返回與之對應(yīng)的用戶需求的其他模態(tài)數(shù)據(jù)；
[0009]4)利用跨模態(tài)數(shù)據(jù)的真實對應(yīng)信息和標(biāo)簽信息，對跨媒體檢索模型同時從對應(yīng)信息和區(qū)別性信息兩方面來進(jìn)行評價。
[0010]所述的步驟I)包括:
[0011]I)對數(shù)據(jù)庫內(nèi)所有的圖像模態(tài)數(shù)據(jù)提取SIFT特征，并采用k-means方法進(jìn)行聚類形成視覺單詞，然后對特征進(jìn)行歸一化，使代表每一個圖像的特征矢量為單位矢量；
[0012]2)對數(shù)據(jù)庫內(nèi)所有的文本模態(tài)數(shù)據(jù)進(jìn)行詞性標(biāo)注，去除非名詞單詞，保留文本中的名詞，用所有數(shù)據(jù)庫中出現(xiàn)過的單詞構(gòu)成一個詞庫，對每個文本單獨(dú)統(tǒng)計詞庫中的單詞出現(xiàn)的次數(shù)，采用單文本詞匯頻率進(jìn)行矢量化，然后對特征矢量進(jìn)行歸一化，使代表每一個文本的特征矢量為單位矢量；
[0013]3)對數(shù)據(jù)庫中其他模態(tài)的數(shù)據(jù)，提取常用的行業(yè)標(biāo)準(zhǔn)特征，并對特征進(jìn)行歸一化，使代表每一個數(shù)據(jù)的特征矢量為單位矢量。
[0014]4)對數(shù)據(jù)庫中對應(yīng)的不同模態(tài)數(shù)據(jù)，統(tǒng)計它們的標(biāo)簽信息，即記錄它們來自那個類別。
[0015]所述的步驟2)包括:
[0016]I)在跨媒體檢索中引入字典學(xué)習(xí)的概念，形成基于字典學(xué)習(xí)的跨模態(tài)檢索算法，以字典和稀疏系數(shù)重建各個模態(tài)的數(shù)據(jù)，不同的字典編碼不同模態(tài)間的差別性，不同模態(tài)數(shù)據(jù)間的相似性由稀疏系數(shù)間的關(guān)聯(lián)關(guān)系矩陣來建模，字典、稀疏系數(shù)和關(guān)聯(lián)關(guān)系矩陣均從各模態(tài)數(shù)據(jù)中學(xué)習(xí)得到；
[0017]2)利用標(biāo)簽信息參與跨模態(tài)檢索,在字典學(xué)習(xí)中，屬于同一標(biāo)簽的同一模態(tài)數(shù)據(jù)共享相同的字典基元，即不為零的字典列，從而使標(biāo)簽信息編碼在字典學(xué)習(xí)的過程中，學(xué)習(xí)到具有區(qū)別性信息的字典；
[0018]3)將字典、稀疏系數(shù)、關(guān)聯(lián)關(guān)系矩陣、標(biāo)簽信息統(tǒng)一在如表達(dá)式(I)的基于字典學(xué)習(xí)的多模態(tài)檢索算法框架中，不同模態(tài)的對應(yīng)數(shù)據(jù)作為整體被表達(dá)和學(xué)習(xí)；
【權(quán)利要求】
1.一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法，其特征在于包括如下步驟: 1)對數(shù)據(jù)庫中各個模態(tài)數(shù)據(jù)進(jìn)行特征提取和標(biāo)簽記錄； 2)根據(jù)數(shù)據(jù)庫中不同模態(tài)數(shù)據(jù)間的對應(yīng)信息和標(biāo)簽信息，從重建的角度對不同模態(tài)配對數(shù)據(jù)間的差異性和相似性進(jìn)行表達(dá)，利用標(biāo)簽信息，構(gòu)建跨模態(tài)檢索整體模型并學(xué)習(xí)模型參數(shù)； 3)對用戶提交的已知模態(tài)數(shù)據(jù)，進(jìn)行特征提取后利用跨媒體檢索模型返回與之對應(yīng)的用戶需求的其他模態(tài)數(shù)據(jù)； 4)利用跨模態(tài)數(shù)據(jù)的真實對應(yīng)信息和標(biāo)簽信息，對跨媒體檢索模型同時從對應(yīng)信息和區(qū)別性信息兩方面來進(jìn)行評價。
2.根據(jù)權(quán)利要求1所述的一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法，其特征在于，所述的步驟I)包括: 1)對數(shù)據(jù)庫內(nèi)所有的圖像模態(tài)數(shù)據(jù)提取SIFT特征，并采用k-means方法進(jìn)行聚類形成視覺單詞，然后對特征進(jìn)行歸一化，使代表每一個圖像的特征矢量為單位矢量； 2)對數(shù)據(jù)庫內(nèi)所有的文本模態(tài)數(shù)據(jù)進(jìn)行詞性標(biāo)注，去除非名詞單詞，保留文本中的名詞，用所有數(shù)據(jù)庫中出現(xiàn)過的單詞構(gòu)成一個詞庫，對每個文本單獨(dú)統(tǒng)計詞庫中的單詞出現(xiàn)的次數(shù)，采用單文本詞匯頻率進(jìn)行矢量化，然后對特征矢量進(jìn)行歸一化，使代表每一個文本的特征矢量為單位矢量； 3)對數(shù)據(jù)庫中其他模態(tài)的數(shù)據(jù)，提取常用的行業(yè)標(biāo)準(zhǔn)特征，并對特征進(jìn)行歸一化，使代表每一個數(shù)據(jù)的特征矢量為單位矢量。` 4)對數(shù)據(jù)庫中對應(yīng)的不同模態(tài)數(shù)據(jù)，統(tǒng)計它們的標(biāo)簽信息，即記錄它們來自那個類別。
3.根據(jù)權(quán)利要求1所述的一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法，其特征在于，所述的步驟2)包括: 1)在跨媒體檢索中引入字典學(xué)習(xí)的概念，形成基于字典學(xué)習(xí)的跨模態(tài)檢索算法，以字典和稀疏系數(shù)重建各個模態(tài)的數(shù)據(jù)，不同的字典編碼不同模態(tài)間的差別性，不同模態(tài)數(shù)據(jù)間的相似性由稀疏系數(shù)間的關(guān)聯(lián)關(guān)系矩陣來建模，字典、稀疏系數(shù)和關(guān)聯(lián)關(guān)系矩陣均從各模態(tài)數(shù)據(jù)中學(xué)習(xí)得到； 2)利用標(biāo)簽信息參與跨模態(tài)檢索，在字典學(xué)習(xí)中，屬于同一標(biāo)簽的同一模態(tài)數(shù)據(jù)共享相同的字典基元，即不為零的字典列，從而使標(biāo)簽信息編碼在字典學(xué)習(xí)的過程中，學(xué)習(xí)到具有區(qū)別性信息的字典； 3)將字典、稀疏系數(shù)、關(guān)聯(lián)關(guān)系矩陣、標(biāo)簽信息統(tǒng)一在如表達(dá)式(I)的基于字典學(xué)習(xí)的多模態(tài)檢索算法框架中，不同模態(tài)的對應(yīng)數(shù)據(jù)作為整體被表達(dá)和學(xué)習(xí)； MMJ min￡|1 滬0 -伊),)+ΣΣ4 Il 4?丨Iu w=lm=l I=I +/?ΣΣΙΙA<,,> H") l& +rf}\曠0 ΙΙ?-(I) m=l n去mm=\ St IlIl<I, V夂 Vm, 其中，M表示模態(tài)的個數(shù)，J表示類別即標(biāo)簽個數(shù)，Xw表示第m模態(tài)的特征數(shù)據(jù)，DW表示第m模態(tài)的字典，Aw表示第m模態(tài)的稀疏系數(shù)，表示第m模態(tài)具有標(biāo)簽I的那些數(shù)據(jù)所對應(yīng)的稀疏系數(shù)，對任意kXn的矩陣
4.根據(jù)權(quán)利要求1所述的一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法，其特征在于，所述的步驟3)包括: 1)根據(jù)用戶提交的已知m模態(tài)數(shù)#V 1印學(xué)習(xí)得到的已知模態(tài)字典Dw，初始化已知模態(tài)數(shù)據(jù)的稀疏系數(shù)如下:
5.根據(jù)權(quán)利要求1所述的一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索算法，其特征在于，所述的步驟4)包括: O以對應(yīng)信息評價跨模態(tài)檢索，著眼于已知模態(tài)數(shù)據(jù)和其直接對應(yīng)的其他模態(tài)數(shù)據(jù)，以與已知模態(tài)數(shù)據(jù)對應(yīng)的需求模態(tài)數(shù)據(jù)在結(jié)果列表中的位置評價結(jié)果的好壞，對于給定的t%指標(biāo)，如果與已知模態(tài)數(shù)據(jù)對應(yīng)的需求模態(tài)數(shù)據(jù)排在t%前，則認(rèn)為檢索正確，否則認(rèn)為檢索錯誤； 2)以區(qū)別性信息評價跨模態(tài)檢索，著眼于已知模態(tài)數(shù)據(jù)和與其屬于同一標(biāo)簽的需求模態(tài)數(shù)據(jù)，以檢索列表來衡量跨模態(tài)檢索結(jié)果，與已知模態(tài)數(shù)據(jù)具有相同的標(biāo)簽作為相關(guān)，否則為不相關(guān)，具體采用信息檢索中的MAP作為這個指標(biāo)的衡量，對一個請求的跨模態(tài)檢索數(shù)據(jù)，和搜索返回的列表，長度為R，MAP的定義基于AP，AP定義如下:
【文檔編號】G06F17/30GK103488713SQ201310410553
【公開日】2014年1月1日申請日期:2013年9月10日優(yōu)先權(quán)日:2013年9月10日
【發(fā)明者】莊越挺, 吳飛, 王彥斐, 湯斯亮, 邵健申請人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：莊越挺;吳飛;王彥斐;湯斯亮;邵健
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

相似性度量相關(guān)技術(shù)

時間序列相似性度量相關(guān)技術(shù)

圖像相似性度量相關(guān)技術(shù)

圖像相似性度量方法相關(guān)技術(shù)

相似性度量方法相關(guān)技術(shù)

直方圖相似性度量相關(guān)技術(shù)

向量相似性度量相關(guān)技術(shù)

相似性度量函數(shù)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種可直接度量不同模態(tài)數(shù)據(jù)間相似性的跨模態(tài)檢索方法