專利名稱:一種多模態(tài)聯(lián)合的圖像重排序方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對(duì)圖像搜索引擎搜索結(jié)果的重新排序,具體地說(shuō)是一種聯(lián)合利用圖像 多模態(tài)特征的圖像重排序算法。
背景技術(shù):
現(xiàn)存的圖像檢索系統(tǒng)大多是基于文本關(guān)鍵字的。它們根據(jù)網(wǎng)頁(yè)上圖像周?chē)奈淖?與查詢關(guān)鍵字的相關(guān)程度來(lái)搜索圖像。但是由于網(wǎng)頁(yè)文本往往不能正確反映圖像的內(nèi)容, 或者稱,存在噪聲,基于文本的圖像檢索結(jié)果不能令人滿意。圖像重排序是指利用一些附加信息對(duì)圖像檢索結(jié)果的重新排序,這些附加信息包 括圖像內(nèi)在特征和一些外部假設(shè)等。圖像特征一般包括圖像可視特征和圖像相關(guān)聯(lián)文本的 特征,對(duì)每一種特征稱之為一個(gè)模態(tài)。圖像重排序算法可以分為三類,基于分類的,基于聚類的和基于圖模型的?;诜?類的算法假設(shè)搜索引擎返回的搜索結(jié)果中,排名靠前的圖像是與查詢相關(guān)的,而排名靠后 的圖像與查詢不相關(guān)。算法利用這些圖像作為訓(xùn)練樣本,訓(xùn)練一個(gè)二分類器來(lái)判定一幅圖 像是否與查詢相關(guān)。然后他們利用圖像分類概率作為圖像的排序分?jǐn)?shù)對(duì)圖像進(jìn)行重新排 序?;诰垲惖乃惴ㄍㄟ^(guò)聚類來(lái)發(fā)掘與查詢相關(guān)或不相關(guān)圖像的一些潛在的模式,然后利 用這些潛在模式進(jìn)行重新排序?;趫D模型的算法將圖像集合構(gòu)造成一個(gè)圖,圖的節(jié)點(diǎn)是 每幅圖像,節(jié)點(diǎn)之間的邊衡量圖像的相似性。然后利用一些鏈接分析技術(shù)來(lái)進(jìn)行圖像排序。上述圖像排序算法通常只考慮圖像單模態(tài),排序結(jié)果不盡人意。也有很多學(xué)者利 用多模態(tài)進(jìn)行圖像排序。他們通常是將多模態(tài)特征先融合成一個(gè)單一特征,然后利用這個(gè) 特征進(jìn)行排序,或者是將多模態(tài)特征先單獨(dú)用于排序,然后將排序結(jié)果融合,作為最后的排 序結(jié)果。然而他們都忽略了一個(gè)事實(shí)圖像多模態(tài)特征只是一幅圖像的在不同側(cè)面的表示, 它們的背后還是同一個(gè)對(duì)象。在對(duì)圖像進(jìn)行排序時(shí),圖像多模態(tài)特征之間會(huì)有相互作用,提 升排序結(jié)果,因此圖像多模態(tài)應(yīng)該聯(lián)合對(duì)待,不應(yīng)該分開(kāi)處理。
發(fā)明內(nèi)容
本發(fā)明為克服上述現(xiàn)有技術(shù)的不足,將圖像多模態(tài)看作是同一個(gè)對(duì)象的兩個(gè)特征 屬性,提供一種多模態(tài)聯(lián)合的圖像重排序方法。該方法不僅對(duì)排序結(jié)果有很大提高,并且收 斂速度快,適合實(shí)際檢索系統(tǒng)的應(yīng)用。本方法在圖像進(jìn)行特征提取的基礎(chǔ)上,構(gòu)造一個(gè)多重圖來(lái)表示圖像間的關(guān)系。在 多重圖中兩個(gè)節(jié)點(diǎn)之間允許有多條邊。其中每個(gè)節(jié)點(diǎn)是一副圖像,每?jī)蓚€(gè)節(jié)點(diǎn)之間有四條 加權(quán)的邊,衡量了圖像多模態(tài)之間的相似性。之后利用隨機(jī)游走算法計(jì)算每個(gè)節(jié)點(diǎn)的排序 得分用于圖像排序。為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案一種多模態(tài)聯(lián)合的圖像重排序方法,該方法的實(shí)現(xiàn)步驟如下Stepl 對(duì)需要重新排序的圖像,提取其可視特征及相關(guān)文本特征;St印2 計(jì)算圖像之間的模態(tài)內(nèi)和模態(tài)間的相似度,并構(gòu)建多重St印3 將多重圖退化為完全圖;St印4 在完全圖上隨機(jī)游走,計(jì)算圖像排序得分;St印5 根據(jù)隨機(jī)游走得分,對(duì)圖像重新排序。所述stepl中,提取圖像文本特征的方法為首先收集圖像關(guān)聯(lián)文本,利用線性判 別分析方法LDA將這些文本聚成多個(gè)潛在主題,然后利用詞袋Bag-of-Words的形式表示圖 像文本特征。所述step2中,計(jì)算模態(tài)內(nèi)相似度采用余弦cosine距離計(jì)算設(shè)s(Vi,Vj)表示圖像i和j在圖像可視特征上的相似度,s (ti; tj)表示圖像i和 j在圖像文本特征上的相似度,則與圖像關(guān)聯(lián)的可視特征的相似性計(jì)算公式為
權(quán)利要求
1.一種多模態(tài)聯(lián)合的圖像重排序方法,其特征是,該方法的實(shí)現(xiàn)步驟如下Stepl 對(duì)需要重新排序的圖像,提取其可視特征及相關(guān)文本特征;Step2 計(jì)算圖像之間的模態(tài)內(nèi)和模態(tài)間的相似度,并構(gòu)建多重圖;St印3 將多重圖退化為完全圖;St印4 在完全圖上隨機(jī)游走,計(jì)算圖像排序得分;St印5 根據(jù)隨機(jī)游走得分,對(duì)圖像重新排序。
2.如權(quán)利要求1所述的一種多模態(tài)聯(lián)合的圖像重排序方法,其特征是,所述stepl中, 提取圖像文本特征的方法為首先收集圖像關(guān)聯(lián)文本,利用線性判別分析方法LDA將這些 文本聚成多個(gè)潛在主題,然后利用詞袋Bag-of-Words的形式表示圖像文本特征。
3.如權(quán)利要求1所述的一種多模態(tài)聯(lián)合的圖像重排序方法,其特征是,所述step2中, 計(jì)算模態(tài)內(nèi)相似度采用余弦cosine距離計(jì)算設(shè)s(Vi,Vj)表示圖像i和j在圖像可視特征上的相似度,s (ti; tj)表示圖像i和j在 圖像文本特征上的相似度,則與圖像關(guān)聯(lián)的可視特征的相似性計(jì)算公式為Vi - V .S(H) =---]IvJ-Iv, I與圖像關(guān)聯(lián)的文本特征的相似性計(jì)算公式為 tt - t,Sit1J,) =1 I^l-Iol其中Vi和、分別是圖像i和圖像j的可視特征,ti和、分別是圖像i和圖像j的文 本特征。
4.如權(quán)利要求1所述的一種多模態(tài)聯(lián)合的圖像重排序方法,其特征是,所述step2中, 構(gòu)建多重圖的過(guò)程如下對(duì)于兩幅圖像,首先將每幅圖像的可視特征及其文本特征作為一 個(gè)點(diǎn),那么多重圖中兩個(gè)點(diǎn)之間存在4條邊,分別對(duì)兩個(gè)點(diǎn)內(nèi)的可視特征和文本特征兩兩 之間的相似度進(jìn)行度量,得到多重圖。
5.如權(quán)利要求1所述的一種多模態(tài)聯(lián)合的圖像重排序方法,其特征是,所述step2中, 計(jì)算模態(tài)間相似度的公式如下s(ti Vj) = α c(ti; v^s^i, Vj) + (l-a )c(tj, vJ)s(ti, tj)S(Vptj) = a c(tj, v^s^i, Vj) + (l-a )c(ti; vi)s(ti, tj)其中,8(、,、)表示圖像i的文本特征與圖像j的可視特征之間的匹配程度,s(Vi,tp 表示圖像i的可視特征與圖像j的文本特征之間的匹配程度,c(ti; Vi)表示圖像i的一致 性,c(ti,Vi)表示圖像j的一致性,α的范圍為(0,1),α的范圍可根據(jù)可視特征和文本特 征的重要度來(lái)調(diào)整其大小。
6.如權(quán)利要求1所述的一種多模態(tài)聯(lián)合的圖像重排序方法,其特征是,所述step3中, 將多重圖退化為完全圖的過(guò)程如下將每個(gè)點(diǎn)拆分為兩個(gè)點(diǎn),即可視特征點(diǎn)和文本特征點(diǎn), 在退化的完全圖中,每?jī)蓚€(gè)點(diǎn)之間的邊表示一個(gè)樣本的可視或者文本特征和另外一個(gè)樣本 的文本或者可視特征的相似性。
7.如權(quán)利要求1所述的一種多模態(tài)聯(lián)合的圖像重排序方法,其特征是,所述step4中, 在完全圖中隨機(jī)游走公式如下Pr(t+1) = ω · W · Pr(t)+ (I-ω) ·Ρ其中表示第t+1次迭代中圖中節(jié)點(diǎn)的排序得分,Pr(t)表示第t次迭代中圖 中節(jié)點(diǎn)的排序得分,P = [P_t,P_v]是圖節(jié)點(diǎn)的初始排序得分,P_t和P_v分別是所有、和 所有Vi的初始排序分?jǐn)?shù),ω是一個(gè)平衡參數(shù)來(lái)平衡從鄰居得到的信息和初始化信息之間的 權(quán)重,ω的范圍為(0,1)。
8.如權(quán)利要求1所述的一種多模態(tài)聯(lián)合的圖像重排序方法,其特征是,所述step5中, 計(jì)算圖像最后的排序得分,具體公式為Pr(Cli) = γ ‘ Pr_v(vi) + (l-y ) ‘ Pr_t (tj),其中,Pr(Cli)為圖像i的最后排序得分,Prj(Vi)和Pr_t (t,)分別表示圖像i的可視 特征和文本特征的隨機(jī)游走后的得分, 是對(duì)兩者進(jìn)行平衡的參數(shù), 的范圍為(0,1)。
全文摘要
本發(fā)明公開(kāi)了一種針對(duì)圖像檢索的結(jié)果重排序方法,該方法在對(duì)圖像進(jìn)行排序過(guò)程中可以充分利用多模態(tài)信息,使用該方法可以在現(xiàn)有檢索的結(jié)果基礎(chǔ)上,進(jìn)一步改善圖像的排序結(jié)果,提高其準(zhǔn)確率,非常適合在網(wǎng)絡(luò)環(huán)境下或者基于本地系統(tǒng)的圖像檢索系統(tǒng)使用。其方法步驟為(1)提出圖像的可視特征和文本特征。(2)檢索圖像之間的模態(tài)內(nèi)(單模態(tài)之間)和模態(tài)間(多模態(tài)之間)的相似度。并根據(jù)這些相似度來(lái)構(gòu)建多重圖。(3)將多重圖進(jìn)行處理,使其退化為一個(gè)完全圖。(4)在完全圖上進(jìn)行隨機(jī)游走,并計(jì)算圖像排序得分。(5)根據(jù)隨機(jī)游走的得分情況,對(duì)圖像進(jìn)行重新排序,得到最終結(jié)果。
文檔編號(hào)G06F17/30GK102129477SQ20111010241
公開(kāi)日2011年7月20日 申請(qǐng)日期2011年4月23日 優(yōu)先權(quán)日2011年4月23日
發(fā)明者彭亮, 王剛, 許信順, 陳竹敏 申請(qǐng)人:山東大學(xué)