一種基于地理信息的層次化視覺特征提取方法
【專利摘要】本發(fā)明公開了一種基于地理信息的層次化視覺特征提取方法。包括如下步驟:1)編寫爬蟲程序下載照片分享網(wǎng)站中的圖像及其地理信息;2)利用圖像詞袋模型表達(dá)圖像特征;3) 結(jié)合地理信息,應(yīng)用半監(jiān)督主題建模方法將圖像視覺單詞按照視覺主題的形式組織起來;4) 挖掘視覺主題的層次化特性,獲取在不同尺度和側(cè)面對特定地理位置進(jìn)行描述的視覺特征;5)利用獲取的層次化視覺特征,對圖像進(jìn)行聚類、分類和檢索。本發(fā)明結(jié)合層次化主題建模和半監(jiān)督學(xué)習(xí),將圖像高維視覺單詞凝練成具有代表性的視覺主題,并將地理信息引入主題建模過程中,學(xué)習(xí)得到一個(gè)層次化視覺主題模型,將圖像表示成多個(gè)視覺主題上的分布,據(jù)此獲得了更具有語義表達(dá)能力的層次化視覺特征。
【專利說明】一種基于地理信息的層次化視覺特征提取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像特征提取和層次化主題建模,尤其涉及一種基于地理信息的層次 化視覺特征提取方法。
【背景技術(shù)】
[0002] 近年來,隨著互聯(lián)網(wǎng)、電信網(wǎng)和移動(dòng)智能終端的飛速發(fā)展,越來越多的圖像分享網(wǎng) 站涌現(xiàn)出來,從世界各地拍攝的照片正以每天上億的數(shù)量被上傳到互聯(lián)網(wǎng)上。飛速增長的 圖像數(shù)據(jù)除了給互聯(lián)網(wǎng)用戶足不出戶游覽環(huán)球的體驗(yàn)和為圖像分析應(yīng)用提供了更多的樣 本以外,也帶來了如何對大規(guī)模數(shù)據(jù)進(jìn)行自動(dòng)圖像聚類和分類的挑戰(zhàn)。為了應(yīng)對這一挑戰(zhàn), 許多研宄把重點(diǎn)放在了如何從圖像中提取最具有代表性和區(qū)分性,并且能夠體現(xiàn)圖像語義 信息的圖像特征上。早期的工作主要集中在對圖像淺層特征的應(yīng)用上,例如圖像的顏色和 紋理特征。這一類特征能夠較好地反映圖像在像素級(jí)別上的特性,但是難以表達(dá)圖像的高 層語義。隨著圖像詞袋模型的發(fā)展,逐漸有研宄人員開始將主題建模的方法應(yīng)用到圖像特 征提取中,以提高圖像特征的語義表達(dá)能力。
[0003] LDA(隱狄利克雷分配)是一種應(yīng)用廣泛的傳統(tǒng)主題模型,從2003年被提出直至今 日,LDA及其衍生模型已經(jīng)作為多種主題建模應(yīng)用的核心算法,被用于解決文檔摘要、跨數(shù) 據(jù)集建模和文檔主題演化追蹤等多種問題和挑戰(zhàn),并且在實(shí)際使用中發(fā)揮了良好的效果。 和傳統(tǒng)的基于統(tǒng)計(jì)的一些文本歸納方法相比,主題模型在可觀測的文檔層和單詞層間增加 了一個(gè)隱含的主題層,并認(rèn)為文檔是包含有一個(gè)或多個(gè)主題,而每個(gè)主題又是不同比例詞 的組合。新增加的主題這一隱含層能使用戶更好地理解一篇文檔所涵蓋的內(nèi)容,而且在應(yīng) 用處理海量數(shù)據(jù)時(shí)起到了降維的效果。主題模型最初被用于處理文本數(shù)據(jù),新聞報(bào)道和科 學(xué)論文等;由于圖像數(shù)據(jù)和文本數(shù)據(jù)具有某種程度上的同質(zhì)性,因此在將圖像中的特征點(diǎn) 處理為視覺單詞后,也可以使用主題建模方法對圖像數(shù)據(jù)進(jìn)行歸納整合,主題模型及以其 作為核心算法的各類應(yīng)用也因此具有處理多種模態(tài)數(shù)據(jù)的能力。
[0004] LDA等經(jīng)典主題模型的一個(gè)核心假設(shè)是對文檔的詞袋模型表達(dá)。詞袋模型假設(shè)每 篇文檔中詞與詞之間沒有關(guān)聯(lián),并且相互之間的位置可互換。該假設(shè)在數(shù)學(xué)上易于推導(dǎo),為 主題模型帶來了計(jì)算上的方便和處理數(shù)據(jù)時(shí)的快捷。通過將相似的視覺特征聚類成視覺單 詞,并將圖像表達(dá)成視覺單詞的集合,從而獲得了圖像的降維稀疏表達(dá),能夠很好地表達(dá)圖 像在視覺空間上的特性。然而,因?yàn)橐曈X單詞的尺度過小,難以表達(dá)圖像的高層語義,并且 因?yàn)闆]有引入監(jiān)督信息,得到的視覺主題往往比較隱晦,難以和現(xiàn)實(shí)中的語義形成對應(yīng)關(guān) 系。
[0005] 作為對傳統(tǒng)主題建模方法的改進(jìn),一些研宄人員提出了層次化的主題模型,如層 次化主題建模(hLDA)等。這一類方法雖然通過層次化的主題結(jié)構(gòu)得到了文檔和圖像在不 同粒度上的表達(dá),但由于依然是非監(jiān)督的方法,得到的主題難以和現(xiàn)實(shí)語義形成對應(yīng)。還有 一些研宄人員提出了有監(jiān)督的主題模型,如有監(jiān)督主題建模(SupervisedLDA)等,這一類 方法則未能解決多尺度多粒度表達(dá)的問題,同時(shí)這一類模型的訓(xùn)練需要大量人工標(biāo)注的數(shù) 據(jù),給模型訓(xùn)練帶來了困難。因此,根據(jù)少量的標(biāo)注數(shù)據(jù)和圖像本身的特征,對主題模型施 加內(nèi)容和結(jié)構(gòu)上的限制,從而使整體算法能夠更加適應(yīng)現(xiàn)實(shí)需求是圖像特征提取與主題建 模領(lǐng)域研宄的重要方向。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于地理信息的層次化視覺特征 提取方法。
[0007] 一種基于地理信息的層次化視覺特征提取方法包括如下步驟:
[0008] 1)編寫爬蟲程序下載照片分享網(wǎng)站中的圖像及其地理信息;
[0009] 2)利用圖像詞袋模型表達(dá)圖像特征;
[0010] 3)結(jié)合地理信息,結(jié)合層次化主題建模和半監(jiān)督學(xué)習(xí),將圖像高維視覺單詞凝練 成具有代表性的視覺主題,并挖掘視覺主題的層次化特性,獲取在不同尺度和側(cè)面對特定 地理位置進(jìn)行描述的視覺特征;
[0011] 4)利用獲取的層次化視覺特征,對圖像進(jìn)行聚類、分類和檢索。
[0012] 所述的步驟1)包括:
[0013] (1)編寫爬蟲程序,根據(jù)預(yù)定義的地點(diǎn)列表,從Flickr、Panoramio等照片分享網(wǎng) 站上自動(dòng)下栽在指宙地點(diǎn)柏?cái)z的照片,構(gòu)成圖像集合
[0014]
【權(quán)利要求】
1. 一種基于地理信息的層次化視覺特征提取方法,其特征在于包括如下步驟: 1) 編寫爬蟲程序下載照片分享網(wǎng)站中的圖像及其地理信息; 2) 利用圖像詞袋模型表達(dá)圖像特征; 3) 結(jié)合地理信息,結(jié)合層次化主題建模和半監(jiān)督學(xué)習(xí),將圖像高維視覺單詞凝練成具 有代表性的視覺主題,并挖掘視覺主題的層次化特性,獲取在不同尺度和側(cè)面對特定地理 位置進(jìn)行描述的視覺特征; 4) 利用獲取的層次化視覺特征,對圖像進(jìn)行聚類、分類和檢索。
2. 根據(jù)權(quán)利要求1所述的一種基于地理信息的層次化視覺特征提取方法,其特征在于 所述的步驟1)包括: (1) 編寫爬蟲程序,根據(jù)預(yù)定義的地點(diǎn)列表,從Flickr、Panoramio等照片分享網(wǎng)站上 自動(dòng)下載在指定地點(diǎn)拍攝的照片,構(gòu)成圖像集合
其中Nm是在第m個(gè)地點(diǎn)拍攝的照片總數(shù)。 (2) 下載圖像集合IMAGE中每個(gè)圖像所在的網(wǎng)頁,利用頁面解析程序?qū)γ總€(gè)網(wǎng)頁進(jìn)行 解析,去除HTML標(biāo)記和標(biāo)點(diǎn)符號(hào)后,保留頁面上的GPS信息和地理相關(guān)的標(biāo)簽作為圖像的 地理信息。
3. 根據(jù)權(quán)利要求1所述的一種基于地理信息的層次化視覺特征提取方法,其特征在于 所述的步驟2)包括: (1)對圖像集合IMAGE中的每個(gè)圖像i,提取尺度不變特征轉(zhuǎn)換特征,最終對每個(gè)圖像 計(jì)算得到128維的SIFT特征描述算子:
⑵對圖像集合IMAGE中的每個(gè)圖像i,選取8X8的滑動(dòng)窗口大小,提取梯度直方圖特 征,最終對每個(gè)圖像計(jì)算得到m維的HOG特征描述算子,其中m的大小根據(jù)圖像本身的大小 而變化:
(3) 將圖像集合IMAGE中的每個(gè)圖像i對應(yīng)的SIFT特征描述算子SIFTi放入如下公式 進(jìn)行優(yōu)化問題求解:
其中I|w|L表示w向量的1-范數(shù),C是一個(gè)預(yù)定義的常數(shù),A是稀疏懲罰項(xiàng)系數(shù),w 向量和x向量是優(yōu)化問題求解的目標(biāo),n是圖像特征的總個(gè)數(shù)。根據(jù)此優(yōu)化問題求解出的x 向量即是SIFT特征在詞袋模型上的表達(dá),記為:
其中BSi是圖像i的SIFT特征,N是圖像總數(shù)。 (4) 將圖像集合IMAGE中的每個(gè)圖像i對應(yīng)的HOG特征描述算子11(^放入如下公式進(jìn) 行優(yōu)化問題求解:
其中I|w|li表示w向量的1-范數(shù),C是一個(gè)預(yù)定義的常數(shù),A是稀疏懲罰項(xiàng)系數(shù),W向量和x向量是優(yōu)化問題求解的目標(biāo),n是圖像特征的總個(gè)數(shù)。根據(jù)此優(yōu)化問題求解出的x 向量即是HOG特征在詞袋模型上的表達(dá),記為:
其中BHi是圖像i的HOG特征,N是圖像總數(shù)。
4. 根據(jù)權(quán)利要求1所述的一種基于地理信息的層次化視覺特征提取方法,其特征在于 所述的步驟3)包括: (1)由系統(tǒng)自動(dòng)設(shè)定,或者由用戶指定Dirichlet分布的參數(shù)a和|3,以及Beta分布 的參數(shù)y,并且設(shè)定好迭代次數(shù)、收斂條件等參數(shù)。 (2) 初始化層次化主題樹T (3) 利用如下公式對圖像d中的第n個(gè)視覺單詞的主題zd,n?行采樣:
其中Zd,n,Zd_n,C,W,a,0都是LDA模型的變量,k表示第k個(gè)主題。 (4) 利用如下公式對圖像d所在主題樹T上的路徑Cd進(jìn)行采樣:
其中Cd,W,C_d,Z,0,〇,y,€%都是LDA模型的變量,k表示第k個(gè)主題。 (5) 完成上述更新過程后檢查算法是否滿足收斂條件,未滿足則返回步驟1。 (6) 算法滿足收斂條件后,輸出所有的視覺單詞主題、圖像中視覺單詞的主題分布以及 層次化主題樹。
5. 根據(jù)權(quán)利要求1所述的一種基于地理信息的層次化視覺特征提取方法,其特征在于 所述的步驟4)包括: (1) 在得到層次化視覺特征后,利用如下公式判斷每張圖像拍攝的地點(diǎn):
其中topicT代表某一特定的地點(diǎn)主題,P(topicT)代表該圖像屬于該地點(diǎn)主題topicT 的概率。根據(jù)該公式,P(topicT)正比于圖像中每個(gè)視覺單詞wordi屬于地點(diǎn)主題topicja 概率的乘積,即圖像所屬地點(diǎn)主題的概率由圖像內(nèi)部視覺單詞的所屬地點(diǎn)主題的概率所確 定。 (2) 利用每張圖像的P(topicT),得到每張圖像基于地理位置的表示,如下:
即每張圖像由它屬于各地點(diǎn)主題的概率所表示。 (3)利用圖像基于地理位置的表示Image作為圖像的一種基本特征,進(jìn)而對圖像進(jìn)行 聚類、分類和檢索。
【文檔編號(hào)】G06F17/30GK104484347SQ201410706281
【公開日】2015年4月1日 申請日期:2014年11月28日 優(yōu)先權(quán)日:2014年11月28日
【發(fā)明者】湯斯亮, 吳飛, 李子健, 邵健, 魯偉明, 莊越挺 申請人:浙江大學(xué)