基于逐層標簽融合深度網絡的圖像標注方法

文檔序號：6550853閱讀：345來源：國知局

基于逐層標簽融合深度網絡的圖像標注方法
【專利摘要】本發(fā)明公開了一種基于逐層標簽融合深度網絡的圖像標注方法，該方法包括以下步驟：對于訓練集中的訓練圖像，提取其底層視覺特征；對于訓練圖像的標簽進行層級化，構建標簽的層級結構；對于訓練圖像，逐層融合其底層視覺特征信息和標簽信息，并通過深度網絡參數學習，得到訓練圖像的層級特征表示；對于測試集中的測試圖像，提取其底層視覺特征，然后通過深度網絡學習得到其層級特征表示，最后根據測試圖像的層級特征表示預測其標注信息本發(fā)明所述的圖像標注方法屬于一種層級的標注，比傳統(tǒng)的標注方法更加精確。
【專利說明】基于逐層標簽融合深度網絡的圖像標注方法
【技術領域】
[0001]本發(fā)明涉及社交網絡圖像標注【技術領域】，尤其涉及一種基于逐層標簽融合深度網絡的圖像標注方法。
【背景技術】
[0002]近年來，隨著社交媒體的不斷發(fā)展，社交平臺上的圖像數量呈爆炸式增長，如何對海量的社交圖像進行標注成為網絡多媒體領域重要的研究內容。
[0003]目前主流的圖像標注方法主要集中在基于視覺信息的方法，該類方法首先進行底層特征提取，然后利用機器學習模型來對基于特征表示的圖像進行分類。該類方法在一定程度上取得了較好的效果，然而由于僅利用視覺信息而忽視了其上下文的文本信息，其效果仍不夠理想。
[0004]圖像標注的核心在于利用圖像相關的信息(包括視覺，上下文文本標簽信息等)進行圖像內容的理解，融合圖像的標簽信息和視覺信息，得到更加有表達能力的圖像特征，對圖像標注，特別是社交圖像有重要的促進作用。然而，視覺特征和文本標簽信息的異構性，給兩類信息的融合帶來了挑戰(zhàn)，本發(fā)明提出的基于逐層標簽融合深度網絡的圖像標注方法逐層地融合兩類信息，解決了異構信息融合的難題，對于社交圖像標注有著重要的作用。

【發(fā)明內容】

[0005]為了解決現(xiàn)有技術中存在的上述問題，本發(fā)明提出了一種基于逐層標簽融合深度網絡的圖像標注方法。
[0006]本發(fā)明提出的一種基于逐層標簽融合深度網絡的圖像標注方法包括以下步驟:
[0007]步驟1、對于訓練集中的訓練圖像，提取其底層視覺特征X ；
[0008]步驟2、對于所述訓練圖像的標簽進行層級化，構建標簽的層級結構；
[0009]步驟3、對于所述訓練圖像，逐層融合其底層視覺特征信息和標簽信息，并通過深度網絡參數學習，得到所述訓練圖像的層級特征表示；
[0010]步驟4、對于測試集中的測試圖像，提取其底層視覺特征，然后通過所述深度網絡學習得到其層級特征表示，最后根據所述測試圖像的層級特征表示預測其標注信息。
[0011]互聯(lián)網圖像標注在很多重要的相關領域已經有了廣泛的應用。由于視覺頂層信息與高層語義之間的語義鴻溝的存在，基于視覺的圖像標注是一個具有挑戰(zhàn)性的難題。本發(fā)明提出的上述基于逐層標簽融合深度網絡的圖像標注的方法能夠自動對社交圖像進行標注，另外本發(fā)明層級的標注方法比傳統(tǒng)的標注方法更加精確。
【專利附圖】

【附圖說明】
[0012]圖1是根據本發(fā)明一實施例的基于逐層標簽融合深度網絡的圖像標注方法的流程圖；[0013]圖2是標簽層級示例圖；
[0014]圖3是根據本發(fā)明一實施例的逐層特征融合深度網絡的模型結構圖。
【具體實施方式】
[0015]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白，以下結合具體實施例，并參照附圖，對本發(fā)明進一步詳細說明。
[0016]本發(fā)明所提出的方法所涉及的相關數據集包括:1)訓練集，其中包括圖像以及該圖像所對應的社交標簽；2)測試集，僅包括待標注的測試圖像，而沒有標簽信息。
[0017]考慮到圖像底層視覺信息和社交標簽信息的異構性，本發(fā)明提出了一種基于逐層標簽融合深度網絡的圖像標注方法。該方法的核心思想是在深度網絡的框架下，逐層地進行標簽信息和視覺信息的融合，從而學習圖像的層級特征，為圖像的標注提供特征表示。
[0018]圖1示出了本發(fā)明提出的基于逐層標簽融合深度網絡的圖像標注方法流程圖，如圖1所示，所述方法包括:
[0019]步驟1、對于訓練集中的訓練圖像，提取其底層視覺特征；
[0020]步驟2、對于所述訓練圖像的標簽進行層級化，構建標簽的層級結構；
[0021]步驟3、對于所述訓練圖像，逐層融合其底層視覺特征信息和標簽信息，并通過深度網絡參數學習，得到所述訓練圖像的層級特征表示；
[0022]步驟4、對于測試集中的測試圖像，提取其底層視覺特征，然后通過所述深度網絡學習得到其層級特征表示，最后根據所述測試圖像的層級特征表示預測其標注信息。
[0023]下面詳細介紹上述四個步驟的具體執(zhí)行過程。
[0024]步驟I中，對象的底層視覺特征提取是得到對象的初始表示，對于圖像信息，本發(fā)明優(yōu)選采用尺度不變特征變換特征(SIFT)(比如1000維)作為圖像的底層視覺特征，圖像的底層視覺特征用X來表示。
[0025]步驟2中，利用一些可以用的工具,本發(fā)明優(yōu)選WordNet,對于圖像的社交標簽構建層數為K的標簽層級。比如:若某圖像帶有標簽animal, plant, cat, dog, flower,則對應的標簽層級如圖2所示(此處層數為2)。
[0026]所述步驟3為對于訓練圖像，逐層融合其底層視覺特征信息和標簽信息，并通過深度網絡參數學習，得到所述訓練圖像的層級特征。
[0027]步驟3中，構建層數為L(L>K)的深度網絡，并使標簽層級結構的K層對應深度網絡的最高層。設深度網絡各層的變量表示為h={h (°)，...，ha)}，其中，h(°)表示圖像的底層視覺特征X ;K層的標簽層級結構對應的各個層的變量表示為y={ya_K+1)，...，y(L)}。
[0028]該步驟是本發(fā)明的重要部分，圖3是根據本發(fā)明一實施例的逐層特征融合深度網絡的模型結構圖，參照圖3，所述步驟3可以分為以下幾個子步驟:
[0029]步驟3.1:通過構建自編碼器(auto-encoder),基于重構誤差對于深度網絡中從h?層到ha_K+1)層的參數進行初步調整；
[0030]所述步驟3.1進一步包括以下步驟:
[0031]步驟3.1.1:/Ah(0)層向上到ha_K+1)層，在每相鄰兩層之間構建一個自編碼器，通過所述自編碼器可由下一層的表示得到上一層表示的映射；
[0032]比如，基于hM和h(1)層之間的自編碼器，由層的表示可映射得到h(1)層的表不:
[0033]
【權利要求】
1.一種基于逐層標簽融合深度網絡的圖像標注方法，其特征在于，該方法包括以下步驟: 步驟1、對于訓練集中的訓練圖像，提取其底層視覺特征X ; 步驟2、對于所述訓練圖像的標簽進行層級化，構建標簽的層級結構；步驟3、對于所述訓練圖像，逐層融合其底層視覺特征信息和標簽信息，并通過深度網絡參數學習，得到所述訓練圖像的層級特征表示；步驟4、對于測試集中的測試圖像，提取其底層視覺特征，然后通過所述深度網絡學習得到其層級特征表示，最后根據所述測試圖像的層級特征表示預測其標注信息。
2.根據權利要求1所述的方法，其特征在于，所述訓練圖像的底層視覺特征為其尺度不變特征變換特征。
3.根據權利要求1所述的方法，其特征在于，所述深度網絡的層數為L，標簽層級結構的層數為K，其中，L>K，所述深度網絡各層的變量表示為h={h(°)，...，ha)}，其中，h(°)表示圖像的底層視覺特征X ;所述標簽層級結構對應各層的變量表示為y={ya_K+1)，...，y(L)}。
4.根據權利要求3所述的方法，其特征在于，所述步驟3包括以下步驟: 步驟3.1:通過構建自編碼器，基于重構誤差對于深度網絡中從h(°)層到ha_K+1)層的參數進行初步調整；步驟3.2:對于所述深度網絡中的ha_K+1)層到最高11(1)層，結合深度網絡中的某一層，比如ha)層和標簽層級結構中的相應層，比如y(1)層，進行特征融合以及所述深度網絡中相應參數的調整。
5.根據權利要求4所述的方法，其特征在于，所述步驟3.1進一步包括以下步驟: 步驟3.1.1:從h(°)層向上到ha_K+1)層，在每相鄰兩層之間構建一個自編碼器，通過所述自編碼器可由下一層的表示得到上一層表示的映射；步驟3.1.2:由上一層表示映射回來得到下一層的重構表示；步驟3.1.3:根據正確表示與重構表示之間的差錯，對于所述深度網絡的參數進行調整，直到h(L-K+1)層。
6.根據權利要求5所述的方法，其特征在于，所述步驟3.1.3中，使用最小化重構交叉熵來對所述深度網絡的參數進行調整。
7.根據權利要求4所述的方法，其特征在于，所述步驟3.2進一步包括以下步驟: 步驟3.2.1:利用所述標簽層級結構中的某一層y(1)標簽調整所述深度網絡中從h(tl)到h(1)層的參數；步驟3.2.2:通過h(1)層和ya)層表示合并學習得到ha+1)層的特征表示，并對所述深度網絡的相應參數進行調整，直至ha)層。
8.根據權利要求7所述的方法，其特征在于，所述步驟3.2.1和步驟3.2.2中，基于交叉熵損失，利用后向傳播算法對于所述深度網絡進行參數調整。
9.根據權利要求7所述的方法，其特征在于，所述步驟3.2.2中，將h(1)層和ya)層的表不合并起來，與ha+1)層的表不構成一個自編碼器。
10.根據權利要求1所述的方法，其特征在于，所述步驟4進一步包括以下步驟: 步驟4.1:對于測試圖像提取其底層視覺特征；步驟4.2:利用所述深度網絡，得到所述測試圖像底層視覺特征的層級特征表示；步驟4.3: 利用所述測試圖像的層級特征表示預測所述測試圖像的標簽信息。
【文檔編號】G06F17/30GK104021224SQ201410290316
【公開日】2014年9月3日申請日期:2014年6月25日優(yōu)先權日:2014年6月25日
【發(fā)明者】徐常勝, 袁召全, 桑基韜申請人:中國科學院自動化研究所

完整全部詳細技術資料下載