圖像內容語義標注方法

文檔序號：6556659閱讀：319來源：國知局

專利名稱：圖像內容語義標注方法
技術領域：
本發(fā)明涉及一種圖像標注的圖像內容語義標注方法，特別涉及使用圖像處理技術、自然語言處理技術和機器學習技術，利用圖像內容的視覺特征和相關文本等屬性信息對圖像內容進行語義標注。
背景技術：
近年來隨著日益改進的數字圖象技術以及因特網的簡易可用性，數字圖像的普及性正在迅速增長，每天有越來越多的數字圖象變?yōu)榭捎谩ＴO計一個能夠快速準確地檢索用戶需要的圖像的方法有著巨大的現實意義。目前主要有兩種圖像檢索方式。一種是基于圖像關鍵字的檢索，另一種是基于內容的圖像檢索CBIR，它們之間的差別在于圖像內容的標注方式不同。
被應用于圖像關鍵字檢索的圖像關鍵字標注目前主要有兩種方法生成一個或多個人手工選擇的關鍵字標注、圖像關鍵字標注自動生成裝置自動生成。
1)人工生成圖像關鍵字標注是早期圖像檢索方法中的主要方法，與圖像關鍵字標注自動生成方法相比有精確度高的特點。但是人工生成圖像關鍵字標注方法主要有兩個缺點一是需要手工檢查并且仔細標注每一圖像，這些步驟需要大量的勞動且成本非常高，尤其是隨著因特網的普及和數字圖像規(guī)模越來越大的情況下；二是不同的用戶由于各自的世界觀和專業(yè)領域知識，對于相同的圖像的內容有著各自的理解因而對圖像做出不同的語義標注，這導致了圖像內容語義標注的不一致性。
2)圖像關鍵字標注自動生成裝置主要是利用除圖像內容之外的其它屬性信息來生成圖像關鍵字標注。目前圖像關鍵字自動標注方法主要針對因特網等一些附帶豐富文本等相關信息的圖像。這個方法和手工方法相比最大的優(yōu)勢是不需要人工干涉，缺點是圖像的精確度相對于手工方式來說比較低。
近年來一些使用基于圖像內容的圖像檢索的圖像管理系統(tǒng)開始形成。通常，基于圖像內容的圖像檢索系統(tǒng)抽取圖像的顏色、紋理和形狀等視覺特征作為圖像內容的標注，圖像檢索的時候查找出和被檢索圖像視覺特征近似的一個或多個圖像當作檢索結果返回。為抽取圖像的視覺特征并且通過計算圖像之間視覺特征相似度需要進行大規(guī)模的計算，而且基于圖像內容的圖像檢索系統(tǒng)抽取出的視覺特征對于人來說是不可辨別的，不具備視覺上和語義上的可辨性，因此很難對圖像檢索條件進行描述。
由此，需要發(fā)明一種使用范圍廣泛、易于計算和精確度高的圖像內容的語義標注的方法。

發(fā)明內容
本發(fā)明的目的在于提供一種使用范圍廣泛、易于計算和精確度高的圖像內容的語義標注方法。本發(fā)明中的圖像內容語義標注方法應用自然語言語義處理技術把圖像視覺特征語義標注方法和圖像文本特征語義標注方法結合在一起對圖像內容進行語義標注。不同的用戶對于完全相同的圖像內容的理解存在差異性，與此對應的圖像內容語義標注也隨著用戶的不同而存在差異性，但是通過圖像內容語義標注學習接口，本發(fā)明中的圖像內容語義標注方法利用機器學習和自然語言處理相關技術，可以為特定用戶建立起圖像內容語義標注偏好模型，使圖像內容語義標注結果更加接近具體用戶的標注偏好。
本發(fā)明解決其技術問題采用的技術方案如下1.本發(fā)明中圖像內容語義標注方法的步驟是，1)首先，通過圖像語義標注接口將圖像原始數據輸入圖像數據處理層，抽取出圖像視覺特征數據和圖像文本特征數據；2)其次，將步驟1)抽取出的圖像視覺特征數據輸入圖像視覺特征標注層，這個模塊能夠完成以下的功能首先訪問預先建立的圖像視覺特征標注映射規(guī)則庫，抽取出和圖像視覺特征相符的映射規(guī)則，然后訪問圖像內容語義標注映射存儲層，從中取出和映射規(guī)則對應的標注作為圖像視覺特征的語義標注；3)再次，將步驟1)抽取出的圖像文本特征數據輸入圖像文本特征標注層，這個模塊利用自然語言語義處理層中的自然語言語義處理技術抽取出圖像文本特征數據的語義標注；4)最后，在圖像內容語義標注層，使用自然語言語義處理技術，把圖像視覺特征的語義標注和圖像文本特征的語義標注融合起來作為圖像內容語義標注輸出，經過一個是否為學習模式的條件判斷如果處于學習模式下，將語義標注結果反饋給標注映射規(guī)則學習層；如果不是處于學習模式下，將語義標注結果輸出給用戶。
2.本發(fā)明中的用戶圖像內容語義標注偏好模型學習步驟是1)首先，由權利要求1的步驟4)計算得到的圖像內容的語義標注經過一個是否為學習模式的條件判斷，在學習模式下被輸入到標注映射規(guī)則學習層中；2)其次，用戶通過映射規(guī)則學習接口輸入用戶自定義的圖像內容語義標注數據；3)再次，在標注映射規(guī)則學習層中，計算步驟1)中得到的標注結果和步驟2)中用戶輸入的自定義標注結果之間的差異性，如果差異性較大，使用相關機器學習技術創(chuàng)建相應的標注映射規(guī)則或者是校正標注映射規(guī)則庫中相應的標注映射規(guī)則；4)重復執(zhí)行步驟1)至步驟3)，直到步驟3)中的差異性很小，或者是達到預定的迭代上限，最后將具有用戶偏好的語義標注映射存儲在圖像內容語義標注映射存儲層當中。
本發(fā)明和傳統(tǒng)的圖像內容標注方法相比，具有的有益效果是本發(fā)明在保持直接使用圖像視覺特征作為標注時具備的準確度高的優(yōu)點的同時，通過直接將視覺特征映射到關鍵字有效地解決了其計算復雜度高的缺陷和圖像視覺特征作為標注時的視覺上和語義上的不可辨別性。
本發(fā)明對圖像數據進行粗加工得到了圖像視覺特征數據和圖像文本特征數據，然后利用機器學習技術和圖像處理技術從圖像視覺特征中得到圖像視覺特征語義標注，利用自然語言處理技術從圖像文本特征數據和圖像視覺特征語義標注中得到圖像內容語義標注。由于充分利用了圖像數據信息，提高了現存的圖像內容標注的精確度。
本發(fā)明方法具備有效的學習功能，能夠建立起與具體用戶對于圖像進行語義標注時的偏好相一致的標注映射規(guī)則以滿足不同用戶的標注需求，這使得本發(fā)明中的圖像內容語義標注方法具有更好的健壯性和更加廣泛的適用性。

附圖是圖像內容語義標注方法的整體框架的圖形表示。
具體實施例方式
本發(fā)明的圖像內容語義標注方法提供用戶兩個功能圖像內容語義標注功能和用戶圖像內容語義標注偏好學習功能。用戶圖像內容語義標注偏好學習功能是對圖像內容語義標注功能的補充和完善。
1.圖像內容語義的實施步驟如附圖所示本發(fā)明的圖像內容語義標注方法當執(zhí)行圖像標注時有四個步驟圖像原始數據處理、圖像視覺特征數據語義標注、圖像文本特征數據語義標注和圖像內容語義標注。
1)首先，利用本發(fā)明的圖像內容語義標注方法的圖像標注接口將相關圖像原始數據輸入圖像數據處理層以抽取出圖像視覺特征數據和圖像文本特征數據a)抽取圖像原始數據的顏色特征、紋理特征和形狀特征作為圖像視覺特征數據。圖像的顏色特征有多種表示方式，例如采用顏色直方圖、顏色矩陣或者顏色相關圖表示。類似的圖像的紋理可以采用Tamura紋理、自回歸紋理或者共生矩陣紋理特征表示，而形狀特征可以采用傅立葉描述符方法或者是形狀無關矩陣方法描述。但是在本發(fā)明的方法中不關注于具體采用哪種方式生成這些特征值或者采用哪種形式表現這些特征值，只要這些特征值能夠準確的描述圖像相應的內容和被有效地應用于本發(fā)明中的圖像標注方法即可；b)使用各種語義詞典可以將具備有語義性質的語義文本特征抽取出來形成圖像文本特征數據，這個步驟可以將許多干擾文本過濾掉，提高后續(xù)標注工作的精確度和效率。針對英語語義詞典可以采用WordNet，而針對中文語義詞典可以采用HowNet；2)其次，將步驟1)抽取的圖像視覺特征數據輸入圖像視覺特征標注層。這個模塊能夠訪問一個預先建立的圖像視覺特征的標注映射規(guī)則庫，取出和當前圖像視覺特征一致的標注映射規(guī)則，這時圖像視覺特征數據被轉化成了若干對應的標注映射規(guī)則，之后根據這些標注映射規(guī)則，訪問圖像內容語義標注映射存儲層，得到和映射規(guī)則對應的標注作為圖像視覺特征語義標注。前面提到的圖像視覺特征語義標注映射規(guī)則庫可以使用決策樹、神經網絡、支持向量機和統(tǒng)計語言概率模型等機器學習和自然語言語義處理相關技術建立，除此之外現在還存在多種其它建立這個規(guī)則庫的方法，但本發(fā)明不關注于采用哪種具體方法實現這個規(guī)則庫的建立，只需要被創(chuàng)建的映射規(guī)則能夠滿足準確地將圖像視覺特征映射到語義標注上這個功能需求即可；3)再次，將步驟1)抽取的圖像文本特征數據輸入圖像文本特征標注層。這個模塊根據圖像文本特征數據的各種屬性來抽取文本特征的語義標注。例如對于來自也網頁的圖像文本特征數據，這些文本特征數據屬性信息包括的文本數據的來源、格式、與圖像的相對位置、是否為網頁標題、是否采用斜體字和粗體字等。這些文本特征數據的屬性信息可以被應用于計算相應圖像文本特征數據的權值，權值越大的文本特征數據對圖像內容的語義描述越好，從中取出權值最大的一些文本特征數據作為圖像文本特征的語義標注；4)最后，圖像內容語義標注模塊使用自然語言語義處理技術，使用語義詞典計算圖像視覺特征的語義標注和圖像文本特征的語義標注之間的相似性，然后把相似高的語義標注融合起來作為圖像內容語義標注結果，在經過一個是否在學習模式下運行的條件判斷之后，如果條件判斷為假，將標注結果輸出給用戶，否則的話將標注結果輸入到標注映射規(guī)則學習層。圖像視覺特征的語義標注和圖像文本特征的語義標注的具體融合步驟是從圖像文本特征的語義標注中抽取出和圖像視覺特征的語義標注相似度高的標注形成標注集X，然后從圖像視覺特征的語義標注中抽取出和標注集X相似度高的標注形成標注集Y，最后X+Y就是輸出給用戶的圖像內容標注。
2.圖像內容語義標注映射規(guī)則學習功能用戶通過圖像語義標注接口輸入圖像的原始數據，并通過映射規(guī)則學習接口輸入圖像的標注，能夠建立起圖像視覺特征數據到圖像視覺特征語義標注之間的映射規(guī)則。用戶通過輸入和帶有自己標注偏好的圖像內容語義標注數據，可以利用本發(fā)明方法的這個映射規(guī)則學習功能建立具有用戶標注偏好的標注映射規(guī)則。如附圖所示在圖像內容語義標注實施步驟的基礎之上，圖像內容語義標注映射規(guī)則學習分為三個步驟圖像內容語義標注、圖像標注結果輸入、圖像內容語義標注映射規(guī)則學習。
1)首先，將圖像原始數據輸入到圖像語義標注接口，通過計算得到圖像的內容語義標注結果，在通過一個是否為學習模式的條件判斷為真之后，圖像內容語義標注結果被輸入到標注映射規(guī)則學習層中；2)其次，將用戶輸入的圖像內容語義標注結果輸入到標注映射規(guī)則學習層中；3)最后，如果步驟1)中計算出的圖像內容語義標注結果和用戶提供的具有用戶標注偏好的語義標注之間的差異性比較大，則使用神經網絡或者是決策樹等機器學習相關技術，反復進行學習和產生新的映射規(guī)這一過程，直到根據新的映射規(guī)則得到的圖像內容語義標注結果和用戶提供的語義標注之間的差異性較小。完成學習過程之后，新的映射規(guī)則與之前的映射規(guī)則相比，標注結果更加接近具體用戶的標注偏好。最后將新的標注映射規(guī)則存儲在視覺特征標注映射規(guī)則庫當中，完成視覺特征標注映射規(guī)則庫的校正。除了上面提到的神經網絡等技術之外還存在多種方法可以實現映射規(guī)則的學習功能，本發(fā)明方法不關注于具體的映射規(guī)則學習方法，只需要它能夠有效地滿足用戶標注偏好映射規(guī)則學習的功能即可。
權利要求
1.一種圖像內容語義標注方法，其特征在于1)首先，通過圖像語義標注接口將圖像原始數據輸入圖像數據處理層，抽取出圖像視覺特征數據和圖像文本特征數據；2)其次，將步驟1)抽取出的圖像視覺特征數據輸入圖像視覺特征標注層，這個模塊能夠完成以下的功能首先訪問預先建立的視覺特征標注映射規(guī)則庫，抽取出和圖像視覺特征相符的映射規(guī)則，然后訪問圖像內容語義標注映射存儲層，從中取出和映射規(guī)則對應的標注作為圖像視覺特征的語義標注；3)再次，將步驟1)抽取出的圖像文本特征數據輸入圖像文本特征標注層，這個模塊利用自然語言語義處理層中的自然語言語義處理技術抽取出圖像文本特征數據的語義標注；4)最后，在圖像內容語義標注層，使用自然語言語義處理技術，把圖像視覺特征的語義標注和圖像文本特征的語義標注融合起來作為圖像內容語義標注輸出，經過一個是否為學習模式的條件判斷如果處于學習模式下，將語義標注結果反饋給標注映射規(guī)則學習層；如果不是處于學習模式下，將語義標注結果輸出給用戶。
2.一種根據權利要求1所述的圖像內容語義標注方法，其特征在于1)首先，由權利要求1的步驟4)計算得到的圖像內容的語義標注經過一個是否為學習模式的條件判斷，在學習模式下被輸入到標注映射規(guī)則學習層中；2)其次，用戶通過映射規(guī)則學習接口輸入用戶自定義的圖像內容語義標注數據；3)再次，在標注映射規(guī)則學習層中，計算步驟1)中得到的標注結果和步驟2)中用戶輸入的自定義標注數據之間的差異性，如果差異性較大，使用相關機器學習技術創(chuàng)建相應的標注映射規(guī)則或者是校正標注映射規(guī)則庫中相應的標注映射規(guī)則；4)重復執(zhí)行步驟1)至步驟3)，直到步驟3)中的差異性很小，或者是達到預定的迭代上限，最后將具有用戶偏好的語義標注映射存儲在圖像內容語義標注映射存儲層當中。
全文摘要
本發(fā)明公開了一種圖像內容語義標注方法。它將圖像處理技術和機器學習技術以及自然語言處理等相關技術結合起來實現對圖像內容的語義標注利用圖像處理、機器學習和自然語言語義處理等技術，將圖像視覺特征的語義標注術和圖像文本特征語義標注結合起來對圖像內容進行語義標注；同時還支持根據具體用戶的標注特點校正底層的標注映射規(guī)則庫，使得標注結果更加符合具體用戶的標注需求。本發(fā)明的圖像內容語義標注方法能夠廣泛應用于需要進行圖像檢索的各個應用當中，它提高了現存圖像內容標注方法的標注精確度并且拓展了它的適用范圍，直接為圖像檢索方法的改進提供了有力的推動。
文檔編號G06F17/28GK1936892SQ20061005386
公開日2007年3月28日申請日期2006年10月17日優(yōu)先權日2006年10月17日
發(fā)明者陳純, 卜佳俊, 黃鵬, 劉康苗, 康志明申請人:浙江大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：陳純;卜佳俊;黃鵬;劉康苗;康志明
技術所有人：浙江大學
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

圖像內容語義標注方法