一種基于地理信息的層次化視覺特征提取方法

文檔序號：6636349閱讀：334來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于地理信息的層次化視覺特征提取方法
【專利摘要】本發(fā)明公開了一種基于地理信息的層次化視覺特征提取方法。包括如下步驟：1)編寫爬蟲程序下載照片分享網(wǎng)站中的圖像及其地理信息；2)利用圖像詞袋模型表達(dá)圖像特征；3) 結(jié)合地理信息，應(yīng)用半監(jiān)督主題建模方法將圖像視覺單詞按照視覺主題的形式組織起來；4) 挖掘視覺主題的層次化特性，獲取在不同尺度和側(cè)面對特定地理位置進(jìn)行描述的視覺特征；5)利用獲取的層次化視覺特征，對圖像進(jìn)行聚類、分類和檢索。本發(fā)明結(jié)合層次化主題建模和半監(jiān)督學(xué)習(xí)，將圖像高維視覺單詞凝練成具有代表性的視覺主題，并將地理信息引入主題建模過程中，學(xué)習(xí)得到一個層次化視覺主題模型，將圖像表示成多個視覺主題上的分布，據(jù)此獲得了更具有語義表達(dá)能力的層次化視覺特征。
【專利說明】一種基于地理信息的層次化視覺特征提取方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像特征提取和層次化主題建模，尤其涉及一種基于地理信息的層次化視覺特征提取方法。

【背景技術(shù)】
[0002] 近年來，隨著互聯(lián)網(wǎng)、電信網(wǎng)和移動智能終端的飛速發(fā)展，越來越多的圖像分享網(wǎng) 站涌現(xiàn)出來，從世界各地拍攝的照片正以每天上億的數(shù)量被上傳到互聯(lián)網(wǎng)上。飛速增長的圖像數(shù)據(jù)除了給互聯(lián)網(wǎng)用戶足不出戶游覽環(huán)球的體驗和為圖像分析應(yīng)用提供了更多的樣本以外，也帶來了如何對大規(guī)模數(shù)據(jù)進(jìn)行自動圖像聚類和分類的挑戰(zhàn)。為了應(yīng)對這一挑戰(zhàn)，許多研宄把重點放在了如何從圖像中提取最具有代表性和區(qū)分性，并且能夠體現(xiàn)圖像語義信息的圖像特征上。早期的工作主要集中在對圖像淺層特征的應(yīng)用上，例如圖像的顏色和紋理特征。這一類特征能夠較好地反映圖像在像素級別上的特性，但是難以表達(dá)圖像的高層語義。隨著圖像詞袋模型的發(fā)展，逐漸有研宄人員開始將主題建模的方法應(yīng)用到圖像特征提取中，以提高圖像特征的語義表達(dá)能力。
[0003] LDA(隱狄利克雷分配）是一種應(yīng)用廣泛的傳統(tǒng)主題模型，從2003年被提出直至今日，LDA及其衍生模型已經(jīng)作為多種主題建模應(yīng)用的核心算法，被用于解決文檔摘要、跨數(shù) 據(jù)集建模和文檔主題演化追蹤等多種問題和挑戰(zhàn)，并且在實際使用中發(fā)揮了良好的效果。和傳統(tǒng)的基于統(tǒng)計的一些文本歸納方法相比，主題模型在可觀測的文檔層和單詞層間增加了一個隱含的主題層，并認(rèn)為文檔是包含有一個或多個主題，而每個主題又是不同比例詞的組合。新增加的主題這一隱含層能使用戶更好地理解一篇文檔所涵蓋的內(nèi)容，而且在應(yīng) 用處理海量數(shù)據(jù)時起到了降維的效果。主題模型最初被用于處理文本數(shù)據(jù)，新聞報道和科學(xué)論文等；由于圖像數(shù)據(jù)和文本數(shù)據(jù)具有某種程度上的同質(zhì)性，因此在將圖像中的特征點處理為視覺單詞后，也可以使用主題建模方法對圖像數(shù)據(jù)進(jìn)行歸納整合，主題模型及以其作為核心算法的各類應(yīng)用也因此具有處理多種模態(tài)數(shù)據(jù)的能力。
[0004] LDA等經(jīng)典主題模型的一個核心假設(shè)是對文檔的詞袋模型表達(dá)。詞袋模型假設(shè)每篇文檔中詞與詞之間沒有關(guān)聯(lián)，并且相互之間的位置可互換。該假設(shè)在數(shù)學(xué)上易于推導(dǎo)，為主題模型帶來了計算上的方便和處理數(shù)據(jù)時的快捷。通過將相似的視覺特征聚類成視覺單詞，并將圖像表達(dá)成視覺單詞的集合，從而獲得了圖像的降維稀疏表達(dá)，能夠很好地表達(dá)圖像在視覺空間上的特性。然而，因為視覺單詞的尺度過小，難以表達(dá)圖像的高層語義，并且因為沒有引入監(jiān)督信息，得到的視覺主題往往比較隱晦，難以和現(xiàn)實中的語義形成對應(yīng)關(guān) 系。
[0005] 作為對傳統(tǒng)主題建模方法的改進(jìn)，一些研宄人員提出了層次化的主題模型，如層次化主題建模（hLDA)等。這一類方法雖然通過層次化的主題結(jié)構(gòu)得到了文檔和圖像在不同粒度上的表達(dá)，但由于依然是非監(jiān)督的方法，得到的主題難以和現(xiàn)實語義形成對應(yīng)。還有一些研宄人員提出了有監(jiān)督的主題模型，如有監(jiān)督主題建模（SupervisedLDA)等，這一類方法則未能解決多尺度多粒度表達(dá)的問題，同時這一類模型的訓(xùn)練需要大量人工標(biāo)注的數(shù) 據(jù)，給模型訓(xùn)練帶來了困難。因此，根據(jù)少量的標(biāo)注數(shù)據(jù)和圖像本身的特征，對主題模型施加內(nèi)容和結(jié)構(gòu)上的限制，從而使整體算法能夠更加適應(yīng)現(xiàn)實需求是圖像特征提取與主題建模領(lǐng)域研宄的重要方向。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足，提供一種基于地理信息的層次化視覺特征提取方法。
[0007] 一種基于地理信息的層次化視覺特征提取方法包括如下步驟：
[0008] 1)編寫爬蟲程序下載照片分享網(wǎng)站中的圖像及其地理信息；
[0009] 2)利用圖像詞袋模型表達(dá)圖像特征；
[0010] 3)結(jié)合地理信息，結(jié)合層次化主題建模和半監(jiān)督學(xué)習(xí)，將圖像高維視覺單詞凝練成具有代表性的視覺主題，并挖掘視覺主題的層次化特性，獲取在不同尺度和側(cè)面對特定地理位置進(jìn)行描述的視覺特征；
[0011] 4)利用獲取的層次化視覺特征，對圖像進(jìn)行聚類、分類和檢索。
[0012] 所述的步驟1)包括：
[0013] (1)編寫爬蟲程序，根據(jù)預(yù)定義的地點列表，從Flickr、Panoramio等照片分享網(wǎng) 站上自動下栽在指宙地點柏攝的照片，構(gòu)成圖像集合
[0014]

【權(quán)利要求】
1. 一種基于地理信息的層次化視覺特征提取方法，其特征在于包括如下步驟： 1) 編寫爬蟲程序下載照片分享網(wǎng)站中的圖像及其地理信息； 2) 利用圖像詞袋模型表達(dá)圖像特征； 3) 結(jié)合地理信息，結(jié)合層次化主題建模和半監(jiān)督學(xué)習(xí)，將圖像高維視覺單詞凝練成具有代表性的視覺主題，并挖掘視覺主題的層次化特性，獲取在不同尺度和側(cè)面對特定地理位置進(jìn)行描述的視覺特征； 4) 利用獲取的層次化視覺特征，對圖像進(jìn)行聚類、分類和檢索。
2. 根據(jù)權(quán)利要求1所述的一種基于地理信息的層次化視覺特征提取方法，其特征在于所述的步驟1)包括： (1) 編寫爬蟲程序，根據(jù)預(yù)定義的地點列表，從Flickr、Panoramio等照片分享網(wǎng)站上自動下載在指定地點拍攝的照片，構(gòu)成圖像集合
其中Nm是在第m個地點拍攝的照片總數(shù)。 (2) 下載圖像集合IMAGE中每個圖像所在的網(wǎng)頁，利用頁面解析程序?qū)γ總€網(wǎng)頁進(jìn)行解析，去除HTML標(biāo)記和標(biāo)點符號后，保留頁面上的GPS信息和地理相關(guān)的標(biāo)簽作為圖像的地理信息。
3. 根據(jù)權(quán)利要求1所述的一種基于地理信息的層次化視覺特征提取方法，其特征在于所述的步驟2)包括： (1)對圖像集合IMAGE中的每個圖像i，提取尺度不變特征轉(zhuǎn)換特征，最終對每個圖像計算得到128維的SIFT特征描述算子：
⑵對圖像集合IMAGE中的每個圖像i，選取8X8的滑動窗口大小，提取梯度直方圖特征，最終對每個圖像計算得到m維的HOG特征描述算子，其中m的大小根據(jù)圖像本身的大小而變化：
(3) 將圖像集合IMAGE中的每個圖像i對應(yīng)的SIFT特征描述算子SIFTi放入如下公式進(jìn)行優(yōu)化問題求解：
其中I|w|L表示w向量的1-范數(shù)，C是一個預(yù)定義的常數(shù)，A是稀疏懲罰項系數(shù)，w 向量和x向量是優(yōu)化問題求解的目標(biāo)，n是圖像特征的總個數(shù)。根據(jù)此優(yōu)化問題求解出的x 向量即是SIFT特征在詞袋模型上的表達(dá)，記為：
其中BSi是圖像i的SIFT特征，N是圖像總數(shù)。 (4) 將圖像集合IMAGE中的每個圖像i對應(yīng)的HOG特征描述算子11(^放入如下公式進(jìn) 行優(yōu)化問題求解：
其中I|w|li表示w向量的1-范數(shù)，C是一個預(yù)定義的常數(shù)，A是稀疏懲罰項系數(shù)，W向量和x向量是優(yōu)化問題求解的目標(biāo)，n是圖像特征的總個數(shù)。根據(jù)此優(yōu)化問題求解出的x 向量即是HOG特征在詞袋模型上的表達(dá)，記為：
其中BHi是圖像i的HOG特征，N是圖像總數(shù)。
4. 根據(jù)權(quán)利要求1所述的一種基于地理信息的層次化視覺特征提取方法，其特征在于所述的步驟3)包括： (1)由系統(tǒng)自動設(shè)定，或者由用戶指定Dirichlet分布的參數(shù)a和|3,以及Beta分布的參數(shù)y，并且設(shè)定好迭代次數(shù)、收斂條件等參數(shù)。 (2) 初始化層次化主題樹T (3) 利用如下公式對圖像d中的第n個視覺單詞的主題zd,n?行采樣：
其中Zd,n，Zd_n，C，W，a，0都是LDA模型的變量，k表示第k個主題。 (4) 利用如下公式對圖像d所在主題樹T上的路徑Cd進(jìn)行采樣：
其中Cd，W，C_d，Z，0，〇,y，€%都是LDA模型的變量，k表示第k個主題。 (5) 完成上述更新過程后檢查算法是否滿足收斂條件，未滿足則返回步驟1。 (6) 算法滿足收斂條件后，輸出所有的視覺單詞主題、圖像中視覺單詞的主題分布以及層次化主題樹。
5. 根據(jù)權(quán)利要求1所述的一種基于地理信息的層次化視覺特征提取方法，其特征在于所述的步驟4)包括： (1) 在得到層次化視覺特征后，利用如下公式判斷每張圖像拍攝的地點：
其中topicT代表某一特定的地點主題，P(topicT)代表該圖像屬于該地點主題topicT 的概率。根據(jù)該公式，P(topicT)正比于圖像中每個視覺單詞wordi屬于地點主題topicja 概率的乘積，即圖像所屬地點主題的概率由圖像內(nèi)部視覺單詞的所屬地點主題的概率所確定。 (2) 利用每張圖像的P(topicT)，得到每張圖像基于地理位置的表示，如下：
即每張圖像由它屬于各地點主題的概率所表示。 (3)利用圖像基于地理位置的表示Image作為圖像的一種基本特征，進(jìn)而對圖像進(jìn)行聚類、分類和檢索。
【文檔編號】G06F17/30GK104484347SQ201410706281
【公開日】2015年4月1日申請日期:2014年11月28日優(yōu)先權(quán)日:2014年11月28日
【發(fā)明者】湯斯亮, 吳飛, 李子健, 邵健, 魯偉明, 莊越挺申請人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：湯斯亮;吳飛;李子健;邵健;魯偉明;莊越挺;
技術(shù)所有人：浙江大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

計算機(jī)視覺特征提取相關(guān)技術(shù)

視覺特征提取相關(guān)技術(shù)

視覺特征相關(guān)技術(shù)

動畫視頻的視覺特征相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于地理信息的層次化視覺特征提取方法