一種基于哈希編碼加權(quán)排序的自適應(yīng)查詢方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機搜索技術(shù)領(lǐng)域,尤其涉及一種基于哈希編碼加權(quán)排序的自適應(yīng) 查詢方法。
【背景技術(shù)】
[0002] 圖片、視頻等數(shù)據(jù)的快速增長給數(shù)據(jù)索引和搜索帶來了極大的挑戰(zhàn)。大數(shù)據(jù)上的 近似最近鄰搜索由于其在查詢性能和效率的出色表現(xiàn),在過去數(shù)十年中引起越來越多的關(guān) 注。
[0003] 基于圖的重排序算法一般分為圖的構(gòu)建過程和圖傳播過程。首先是圖的構(gòu)建過 程。通常來說,把每個圖像作為圖的頂點,然后將這些相似的頂點連接起來,作為圖的邊, 相似性的大小看成是這些節(jié)點之間邊的權(quán)重。受啟發(fā)于page-rank的排序思想,在一幅圖 中,被越多的頂點連接指向的頂點應(yīng)該越重要,即一副圖像和越多的圖像相似越重要,而且 通常越重要的頂點在排序的時候越靠前。頂點的重要性要靠圖的傳播過程來實現(xiàn)。具體來 說,對于一個查詢,節(jié)點V和查詢相似,即是重要的節(jié)點,如果節(jié)點u和節(jié)點V相似,那么有 很大的可能節(jié)點u也和查詢相似。直觀地,如果一個節(jié)點和查詢非常相似,那么它的周圍應(yīng) 該有很多節(jié)點也和查詢相似。即采用隨機游走的思想進(jìn)行圖的傳播,隨機游走過程穩(wěn)定時 的概率被當(dāng)作圖像最后的相關(guān)分?jǐn)?shù),然后按照相關(guān)分?jǐn)?shù)的大小對圖像進(jìn)行重排序。
[0004] 由于基于圖的重排序方法,充分考慮了圖像之間的相似性和圖像數(shù)據(jù)的分布結(jié) 構(gòu),這些特點使得該方法非常容易和多特征融合的排序方法相結(jié)合。現(xiàn)有技術(shù)中,無監(jiān)督的 基于圖的多特征融合的方法,將多個特征查詢的結(jié)果分別構(gòu)造一張圖,然后將多個圖進(jìn)行 融合,融合之后,針對單個圖運用page-rank等方法進(jìn)行重排序。還有一種新的通過弱監(jiān)督 的方式多圖進(jìn)行融合的方法,通過引入了多圖學(xué)習(xí)的框架,該方法對圖的構(gòu)建不僅考慮單 個特征內(nèi)的結(jié)果的關(guān)系,同時考慮特征之間的關(guān)系。
[0005] 在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
[0006] 現(xiàn)有的基于哈希的最近鄰搜索技術(shù),在大多數(shù)的圖像查詢中,都是采用單一的圖 像特征進(jìn)行查詢和排序,由于單一的特征無法全面表示圖像信息,不能從多個方面查詢出 用戶所需圖像信息,而且即使慮特征之間的關(guān)系,但現(xiàn)有技術(shù)基于圖像的原始特征進(jìn)行多 特征的融合進(jìn)行重排序,或者需要存儲圖像的原始特征,或者需要存儲圖像的最近鄰關(guān)系, 需要消耗大量的硬盤空間,當(dāng)數(shù)據(jù)量很大時,又不能加載到內(nèi)存,導(dǎo)致內(nèi)存消耗大,嚴(yán)重影 響查詢效率。
【發(fā)明內(nèi)容】
[0007] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決或 者減緩上述問題的基于哈希編碼加權(quán)排序的自適應(yīng)查詢方法。
[0008] 根據(jù)本發(fā)明的一個方面,提供了 一種基于哈希編碼加權(quán)排序的自適應(yīng)查詢方法, 該方法包括:
[0009] 對查詢數(shù)據(jù)提取多種特征,分別為每種特征構(gòu)建一個哈希表,并利用每種特征對 應(yīng)的哈希表分別進(jìn)行查詢;
[0010] 獲取利用所述每種特征對應(yīng)的哈希表進(jìn)行查詢的多個查詢結(jié)果,并將所述多個查 詢結(jié)果中的每個查詢結(jié)果分別構(gòu)建一個對應(yīng)的圖;
[0011] 將每個查詢結(jié)果對應(yīng)的圖進(jìn)行融合,得到一個融合圖;
[0012] 利用圖的重排序算法對所述每個查詢結(jié)果在所述融合圖上進(jìn)行重新排序,得到最 終的查詢結(jié)果。
[0013] 可選的,所述對查詢數(shù)據(jù)提取多種特征,分別為每種特征構(gòu)建一個哈希表,并利用 每種特征對應(yīng)的哈希表分別進(jìn)行查詢,具體包括:
[0014] 訓(xùn)練數(shù)據(jù)提取多種數(shù)據(jù)特征,生成每種數(shù)據(jù)特征的至少一個錨點;
[0015] 選取標(biāo)記樣例,用所述每種數(shù)據(jù)特征的至少一個錨點分別表示所述標(biāo)記樣例;
[0016] 用所述每種數(shù)據(jù)特征的至少一個錨點分別表示查詢,并計算每種數(shù)據(jù)特征表示的 查詢和所述標(biāo)記樣例的相似度量;
[0017] 利用每種數(shù)據(jù)特征表示的查詢和所述標(biāo)記樣例的相似度量分別為每種特征構(gòu)建 一個哈希表,并利用每種特征對應(yīng)的哈希表分別進(jìn)行查詢。
[0018] 可選的,所述生成每種數(shù)據(jù)特征的至少一個錨點,具體為:
[0019] 采用聚類的方式生成每種數(shù)據(jù)特征的至少一個錨點。
[0020] 可選的,所述選取標(biāo)記樣例的方法具體為:采用聚類或隨機的方式選取標(biāo)記樣例。
[0021] 可選的,所述獲取利用所述每種特征對應(yīng)的哈希表進(jìn)行查詢的多個查詢結(jié)果,并 將所述多個查詢結(jié)果中的每個查詢結(jié)果分別構(gòu)建一個對應(yīng)的圖,具體包括:
[0022] 利用相似度量計算查詢適應(yīng)的比特級別的權(quán)重,并根據(jù)哈希函數(shù)之間的關(guān)系進(jìn)行 權(quán)重優(yōu)化;
[0023] 基于優(yōu)化后的權(quán)重,計算查詢和結(jié)果的海明距離,并根據(jù)所述海明距離進(jìn)行排序, 獲得排序結(jié)果;
[0024] 利用錨點,計算近似近鄰相似度;
[0025] 根據(jù)所述優(yōu)化后的權(quán)重、排序結(jié)果以及近似近鄰相似度將每個查詢結(jié)果構(gòu)建一個 對應(yīng)的圖。
[0026] 可選的,所述利用圖的重排序算法對所述每個查詢結(jié)果在所述融合圖上進(jìn)行重新 排序,得到最終的查詢結(jié)果,具體包括:
[0027] 分別計算每個查詢結(jié)果在所述融合圖上進(jìn)行重新排序的排序得分;
[0028] 根據(jù)所述排序得分,選擇得分最高的查詢結(jié)果作為最終的查詢結(jié)果。
[0029] 本發(fā)明的有益效果為:
[0030] 本發(fā)明提供的一種基于哈希編碼加權(quán)排序的自適應(yīng)查詢方法,將基于圖的重排序 方法和多特征融合的重排序方法相結(jié)合,根據(jù)多特征融合的哈希重排序結(jié)果,構(gòu)造多個圖, 然后采用特征融合進(jìn)行圖融合,最后對融合圖進(jìn)行重排序,從而有效地綜合多特征優(yōu)勢,實 現(xiàn)數(shù)據(jù)的快速查詢,降低內(nèi)存的消耗,有效地提高了查詢的效率和準(zhǔn)確率,對查詢性能有很 大提升。
[0031] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠 更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0032] 通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0033] 圖1示出了本發(fā)明實施例的一種基于哈希編碼加權(quán)排序的自適應(yīng)查詢方法的流 程圖;
[0034] 圖2示出了本發(fā)明實施例的一種基于哈希編碼加權(quán)排序的自適應(yīng)查詢方法中步 驟S12的細(xì)分流程圖。
【具體實施方式】
[0035] 下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0036] 本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式"一"、"一 個"、"所述"和"該"也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說明書中使用的措 辭"包括"是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加 一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。
[0037] 本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外