用于自動注釋圖像的方法和裝置的制作方法

文檔序號：6455188閱讀：187來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：用于自動注釋圖像的方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及用于自動注釋圖像的技術(shù)。更具體地，本發(fā)明涉及通過搜索相似圖像以及關(guān)聯(lián)這些相似圖像周圍的文本來自動注釋圖像的技術(shù)。
背景技術(shù)：
最近激增的高帶寬互聯(lián)網(wǎng)連接使得數(shù)百萬用戶高效率地在互聯(lián)網(wǎng)上瀏覽圖像成為可能。這些發(fā)展已經(jīng)使網(wǎng)頁、門戶網(wǎng)站和其它基于網(wǎng)絡(luò)應(yīng)用中所包含的圖像在數(shù)量上急劇增多。不幸地，許多圖像并未附有描述圖像內(nèi)容的文本信息，比如標簽、標題或名稱。由于大部分現(xiàn)有的搜索技術(shù)都是基于文本的(舉例，關(guān)鍵字搜索)，這就造成搜索特定的圖像極其困難。因此，非常期望能夠利用相關(guān)文本注釋這些圖像，舉例，通過增加標題或關(guān)鍵字的集合來描述圖像的語義內(nèi)容。
注釋圖像的傳統(tǒng)技術(shù)基本上是手動的，可能需要索引者為數(shù)以千計、或者在一些情形中數(shù)以百萬計的圖像選擇關(guān)鍵字。因此，手動圖像注釋可能是極其費力和昂貴的過程。
已經(jīng)開發(fā)出用于自動注釋圖像的其它技術(shù)(參見"FormulatingSemantic Image Annotation as a Supervised Learning Problem," G.Carneiro and N. Vasconcelos, iVoceeAwg^ o/ZS^E Co"/erewce o"Com/ wb )^s7'ow i ecogm'"'ow, San Diego, 2005 )。這些自
動圖像注釋技術(shù)能夠顯著減少或消除注釋非常大量圖像集所需要的人工工作。
然而，這些現(xiàn)有的"自動注釋"技術(shù)通常仍然包括需要一定程度的人工輔助的步驟，比如需要人工標注一組地面實況數(shù)據(jù)，或需要其它類型的人工交互或反饋。不幸地，這種人工輔助無法有效地成比例匹配在數(shù)量上成指數(shù)增長的需要被注釋的圖像。
因此，需要一種用于自動注釋圖像而不存在上述問題的方法和裝置。

發(fā)明內(nèi)容
本發(fā)明的一個實施方式提供了一種自動注釋圖像的系統(tǒng)。在操作中，該系統(tǒng)接收圖像。接著，該系統(tǒng)從圖像中提取圖像特征。該系統(tǒng)繼而標識具有相似圖像特征的其它圖像。該系統(tǒng)接著獲取與所述其它圖像相關(guān)聯(lián)的文本，并在所獲取文本中標識相交關(guān)鍵字。最后，該系統(tǒng)利用相交關(guān)鍵字來注釋圖像。
在該實施方式的一種變形中，該系統(tǒng)如下來從圖像中提取圖像
特征(l)將圖像分割成片；以及(2)從所述片中提取圖像特征。
在該實施方式的其他變形中，對于不同片大小的組中的每一給定的片大小，該系統(tǒng)將圖像分割成給定片大小的片。
在該實施方式的變形中，在標識其它圖像之前，該系統(tǒng)將提取的圖像特征與圖像特征庫中的已知圖像特征進行匹配。
在該實施方式的其他變形中，該系統(tǒng)結(jié)合匹配的圖像特征以形成圖像的一個或多個圖像特征結(jié)合。
在另一變形中，該系統(tǒng)通過在其它圖像中標識相似的圖像特征結(jié)合來標識具有相似圖像特征的其它圖像。
在該實施方式的變化中，該系統(tǒng)可以如下來從圖像中提取圖象特征(l)生成顏色直方圖；(2)生成方向直方圖；(3 )使用離散余弦變換(DCT)技術(shù)；(4)使用主成份分析(PCA)技術(shù)；或(5)使用伽柏(Gabor)小波技術(shù)。
在該實施方式的變形中，可以通過(l)形狀；(2)顏色；以及(3)紋理來定義圖像特征。
在該實施方式的變形中，該系統(tǒng)通過在互聯(lián)網(wǎng)上搜索圖像來標識其它圖像。在該實施方式的變形中，該系統(tǒng)通過使用概率才莫型來標識具有相似圖像特征的其它圖像。
在該實施方式的變形中，在標識相交關(guān)4建字之前，該系統(tǒng)通過增加關(guān)鍵字的同義詞來對獲取文本中的關(guān)鍵字進行擴展。
在該實施方式的變形中，該系統(tǒng)從視頻接收圖像。

圖1給出了描述根據(jù)本發(fā)明一個實施方式的用于自動注釋圖像的過程的流程圖。
圖2描述了根據(jù)本發(fā)明一個實施方式的用于自動注釋圖像的基于計算機的系統(tǒng)。
具體實施例方式
給出下面的描述是為了使本領(lǐng)域的任何技術(shù)人員能夠使用和理解本發(fā)明，并且該描述是在特定應(yīng)用及其需求的上下文中提供的。對于本領(lǐng)域技術(shù)人員而言，所公開實施方式的各種變形是顯然的，此處限定的普遍原則可以不脫離本發(fā)明的精神和范圍而適用于其它實施方式和應(yīng)用。因此，本發(fā)明并不局限于示出的實施方式，而是與符合權(quán)利要求的最廣泛范圍相一致。
本詳細描述中所描述的數(shù)據(jù)結(jié)構(gòu)和代碼通常存儲在計算機可讀存儲介質(zhì)上，其可以是能夠存儲由計算機系統(tǒng)使用的代碼和/或數(shù)據(jù)的任意設(shè)備或介質(zhì)。這包括但是不限于易失性存儲器，非易失性存儲器，諸如磁盤驅(qū)動器、磁帶、CD(壓縮盤)、DVD(數(shù)字通用盤或數(shù)字視頻盤)的磁和光學(xué)存儲設(shè)備，或現(xiàn)在已知或以后開發(fā)出的能夠存儲計算機可讀介質(zhì)的其它介質(zhì)。
概述
大部分圖像搜索和檢索系統(tǒng)都是文本驅(qū)動的，其中用戶輸入關(guān)鍵字作為查詢，而計算機系統(tǒng)(或者更具體地，搜索引擎)通過在圖像數(shù)據(jù)庫中搜索與圖像相關(guān)的文本來處理該查詢。搜索引擎返回
與關(guān)鍵字相匹配的文本信息所關(guān)聯(lián)的"相關(guān)"圖像。在這種類型的
方案中，無法檢索到未被注釋的圖像，即使該圖像內(nèi)容與關(guān)鍵字高
度關(guān)聯(lián)。因此，為未注釋圖像提供相關(guān)文本信息能夠促進圖像的搜索和檢索操作。
本發(fā)明的一個實施方式提供了一種技術(shù)，其通過利用web上可用的龐大圖像庫來產(chǎn)生與圖像關(guān)聯(lián)的文本，以此來自動注釋圖像。更具體地，本發(fā)明的一個實施方式從給定圖像中提取圖像特征，繼而在互聯(lián)網(wǎng)上搜索圖像以標識包含相似圖像特征的圖像集。接著，獲取這些圖像周圍的文本。該技術(shù)隨后標識用以注釋該給定圖像的獲取的文本中的共同關(guān)鍵字。注意，該技術(shù)不需要人工干預(yù)，并且利用許多現(xiàn)有的圖像處理技術(shù)來執(zhí)行諸如圖像特征提取和在web上標識相似圖像的步驟。
自動注釋過程
圖1給出了描述根據(jù)本發(fā)明一個實施方式的用于自動注釋圖像的過程的流程圖。
該過程開始于接收圖像以及提供關(guān)于該圖像的相關(guān)文本信息的請求(步驟100)。注意，可以通過任意的數(shù)字格式來格式化和存儲圖l象，包4舌4旦是不卩艮于JPEG、 GIF、 BMP、 TIFF、 PDF、 PS、 EMF、 MNG、 PNG、 PSD、 SWF和WMF。另外，也可以從數(shù)字一見頻的l爭止幀中獲取圖像。舉例，我們可以從MPEG視頻中的單一幀中提取圖像，并且隨后注釋這個圖像。
接著，該過程將圖像分割成特定大小的片(步驟102),并且隨后從各片中提取圖像特征(步驟104)。注意，能夠從這些片中被提取出的典型圖像特征可以包括但不限于形狀、顏色和紋理。舉例，可以提取圖像中給定片的各種顏色特征，包括但不限于顏色直方圖；顏色直方圖布局和顏色矩。另外，可以使用多種圖像處理技術(shù) 來提取特定圖像特征，這些圖像處理技術(shù)可以包括但不限于離散余弦變換(DCT)技術(shù)、主成份分析(PCA)技術(shù)和伽柏小波技術(shù)。在本發(fā)明的一個實施方式中，圖像特征還可以包括方向直方圖。
還應(yīng)注意，本發(fā)明并不局限于與片相關(guān)聯(lián)的特征。本發(fā)明還可以廣泛適用于任意類型的圖像特征，而并不局限于與片相關(guān)聯(lián)的特征。舉例，本發(fā)明可以同不與片邊界相關(guān)聯(lián)的圖像特征一起使用，比如整個圖像的顏色直方圖的屬性。
該過程接著將所提取的圖像特征與圖像特征庫中的已知圖像特征進行匹配(步驟106)。在本發(fā)明的一個實施方式中，4吏用相似圖像提取技術(shù)預(yù)先獲取了圖像特征庫中的已知圖像特征。舉例，如果在步驟104中使用DCT技術(shù)來提取圖像特征，則可以利用DCT系數(shù)來表示已知圖像特征。在本發(fā)明的一個實施方式中，將所提取的圖像特征與已知圖像特征進行匹配包括將每一提取的圖像特征與庫中的最近已知圖像特征進行匹配。
接著，該過程結(jié)合匹配的已知圖像特征，以形成圖像的圖像特征結(jié)合(步驟108)。更具體地，該過程為分割成特定片大小的圖像產(chǎn)生圖像特征結(jié)合的集合。
在本發(fā)明的一個實施方式中，對于不同的片大小，迭代地重復(fù) 步驟102到108，其中片大小范圍可以從每片僅包含一些像素變化到包含整個圖像的單個片。特別地，對于每個片大小，該處理將圖像分割成該片大小的片，并繼而從相應(yīng)片中提取圖像特征。該過程接
著將所提取的圖像特征與已知圖像特征進行匹配，并接著利用已知圖像特征來產(chǎn)生圖像的圖像特征結(jié)合的集合。因此，步驟108產(chǎn)生
的圖像特征結(jié)合包含針對不同圖像片大小獲得的圖像特征結(jié)合。注意，使用不同的片大小有利于在多尺度上捕獲圖像特征。替代與已知圖像特征進行匹配，該系統(tǒng)可選地可以限定圖像特征的值落入離散值有限集合。
該過程接著標識具有相似圖像特征和/或圖像特征結(jié)合的多個其它圖像(步驟IIO)。特別地，該過程從各種來源中搜索大量圖像。這些圖像來源可以包括但不限于存儲在已組織的圖像數(shù)據(jù)庫中的圖像；嵌入到互聯(lián)網(wǎng)上的網(wǎng)頁中的圖像；與互聯(lián)網(wǎng)上的視頻相關(guān)的圖像，或者鏈接到互聯(lián)網(wǎng)上的網(wǎng)址的任意圖像。注意，互聯(lián)網(wǎng)上的圖像和已組織圖像數(shù)據(jù)庫中的圖像之間的區(qū)別在于互聯(lián)網(wǎng)上的圖像通常沒有被分類并且通常相互無關(guān)。
確定特定圖像是否包含原始圖像的相似圖像特征包括按照與原始圖像相同的方式處理特定圖像，以產(chǎn)生特定圖像的圖像特征。
在將原始圖像中的圖像特征和/或圖像特征結(jié)合與其它圖像進行比較時，可以使用各種概率模型。舉例，這些概率模型可以包括從計算相似或相同特征的數(shù)目的任意簡單計算技術(shù)到在比較兩個圖像時假定特征為多元常態(tài)分布的復(fù)雜"多元分布技術(shù)"的任何技術(shù)。 (關(guān)于多元常態(tài)分布的討論，請參閱 http:〃en.wikipedia.org/wiki/Multivariate—gaussian. distribution )
在標識多個相似圖像之后，該過程獲取這些圖像周圍的文本(步驟112)。在本發(fā)明的一個實施方式中，從包括到該圖像鏈接的HTML 文件中的圖像標簽周圍獲取文本。在另一實施方式中，獲取直接包圍網(wǎng)頁中實際圖像的文本?？梢栽O(shè)想到，在網(wǎng)頁中給定圖像周圍獲取的文本，很有可能與該圖像的內(nèi)容相關(guān)。結(jié)果，步驟112使用來自每一所標識圖像周圍的文本的關(guān)鍵字作為注釋原始圖像的候選關(guān) 鍵字。注意，這些候選關(guān)鍵字中的一些可能與原始圖像的內(nèi)容并不相關(guān)。
該過程接著通過增加該組關(guān)鍵字的同義詞對每個所標識圖像所關(guān)聯(lián)的關(guān)鍵字集合進行擴展(步驟114)。在本發(fā)明的一個實施方式中，使用智能詞典工具為集合中的每個關(guān)鍵字增加同義詞。舉例，關(guān)鍵字"sea"和"ocean"可能分別出現(xiàn)在兩個已標識圖像的兩個關(guān) 鍵字集合中。在按照這種方式擴展關(guān)鍵字后，兩個圖像都將與這兩個關(guān)鍵字相關(guān)聯(lián)。
接著，該過程在這些已標識圖像的關(guān)鍵字集合之間執(zhí)行比較，以標識相交關(guān)鍵字(步驟116)。注意，增加關(guān)鍵字的同義詞提高了標識這些相交的可能性。最后，該過程獲得多個已標識圖像之間的相交關(guān)鍵字，并利用這些相交關(guān)鍵字注釋原始圖像(步驟118)。注意，可以通過在步驟
110標識更多圖像來提高相交關(guān)鍵字與原始圖像的相關(guān)性。因為互聯(lián)
網(wǎng)是極其巨大的圖像數(shù)據(jù)庫，隨著越來越多的圖像被搜索和檢查，
找到更匹酉己圖像的可能性隨之增力口。另夕卜，乂人更多圖像中獲耳又的相
交關(guān)鍵字同樣變得更加精確。系統(tǒng)
圖2描述了根據(jù)本發(fā)明一個實施方式的用于自動注釋圖像的基于計算機的系統(tǒng)。該基于計算機的系統(tǒng)在計算機系統(tǒng)200內(nèi)操作，計算機系統(tǒng)200通常包括任意類型的計算機系統(tǒng)，包括但不限于基于微處理器的計算機系統(tǒng)、大型機計算機、數(shù)字信號處理器、便攜計算設(shè)備、個人組織器、設(shè)備控制器和裝置內(nèi)的計算引擎。
在操作中，計算機系統(tǒng)200接收圖像202以及利用相關(guān)文本信息來注釋圖像202的請求。
計算機系統(tǒng)200包括處理器201和存儲器204。存儲器204可以包括能夠存儲實施圖l所描述功能的、用于注釋圖像202的軟件模塊的任意類型存儲器。如圖2所示，這些軟件模塊可以包括接收圖像的圖像接收裝置205，從圖像提取圖像特征的圖像特征提取裝置 206;標識包含與輸入圖像202相似的圖像特征的圖像的相似圖像標識裝置208;獲取用于注釋圖像的文本的文本獲取裝置；將圖像與相似圖像進行匹配的匹配裝置210;注釋圖像的注釋裝置211;以及擴展關(guān)鍵字列表以包括關(guān)鍵字的同義詞的詞典和w e b擴展裝置212 。這些裝置共同地操作,以產(chǎn)生相交關(guān)鍵字集合212，其繼而被用來注釋圖像202。
注意，計算才幾系統(tǒng)200和互聯(lián)網(wǎng)214相交互，以訪問互聯(lián)網(wǎng)214
中的圖像。
對—見頻的應(yīng)用注意，還可以利用本發(fā)明來注釋沒有主題或說明的視頻，從而促進這些視頻的搜索和檢索操作。具體地，可以將視頻分割成代表幀的集合，可以將每個幀作為圖像來處理。使用上述過程，可以利用相關(guān)關(guān)鍵字來注釋每一代表幀?？梢赃x擇使用其它現(xiàn)有技術(shù)來分析針對這些幀的注釋，以產(chǎn)生針對整個視頻的一組共同注釋。
上面對本發(fā)明實施方式的描述僅用于說明和描述目的。它們不是窮舉性的，也不將本發(fā)明局限到已公開的形式中。因此，對于本領(lǐng)域技術(shù)人員，許多修改和變形都是易見的。另外，上述公開并不意圖限制本發(fā)明。本發(fā)明的范圍由所附權(quán)利要求來限定。
權(quán)利要求
1、一種用于自動注釋圖像的方法，包括接收所述圖像；從所述圖像提取圖像特征；標識具有相似圖像特征的其它圖像；獲取與所述其它圖像相關(guān)的文本；在與所述其它圖像相關(guān)聯(lián)的所獲取文本中標識相交關(guān)鍵字；以及利用所述相交關(guān)鍵字來注釋所述圖像。
2、根據(jù)權(quán)利要求1所述的方法，其中從所述圖像提取圖像特征包括將所述圖像分割成片；以及從所述片中提取所述圖像特征。
3、根據(jù)權(quán)利要求2所述的方法，其中對于不同片大小的集合中的每個給定片大小，將所述圖像分割成片包括將所述圖像分割成所述給定片大小的片。
4、根據(jù)權(quán)利要求1所述的方法，其中在標識所述其它圖像之前，該方法還包括將所述提取出的圖像特征與圖像特征庫中的已知圖像特征進行匹配。
5、根據(jù)權(quán)利要求4所述的方法，其中該方法還包括結(jié)合所述匹配的圖像特征，以形成圖像的一個或多個圖像特征結(jié)合。
6.根據(jù)權(quán)利要求5所述的方法，其中標識具有相似圖像特征的所述其它圖像包括在所述其它圖像中標識相似的圖像特征結(jié)合。
7、根據(jù)權(quán)利要求1所述的方法，其中從所述圖像中提取所述圖像特征可以包括生成顏色直方圖；生成方向直方圖；使用離散余弦變換(DCT)技術(shù)；使用主成份分析(PCA)技術(shù)；或使用伽柏小波技術(shù)。
8、根據(jù)權(quán)利要求1所述的方法，其中可以按照以下項來定義所述圖像特征形狀顏色；以及紋理。
9、根據(jù)權(quán)利要求1所述的方法，其中標識所述其它圖像包括在互聯(lián)網(wǎng)上的圖像中進行搜索。
10、根據(jù)權(quán)利要求1所述的方法，其中標識具有相似圖像特征的所述其它圖像包括使用概率模型。
11、根據(jù)權(quán)利要求1所述的方法，其中在標識所述相交關(guān)鍵字之前，該方法還包括通過增加關(guān)鍵字的同義詞對所述所獲取文本中的關(guān)鍵字進行擴展。
12、根據(jù)權(quán)利要求1所述的方法，其中接收所述圖像包括從視頻接收所述圖像。
13、一種存儲指令的計算機可讀存儲介質(zhì)，當所述指令被計算機執(zhí)行時，其使計算機執(zhí)行用于自動注釋圖像的方法，該方法包括接收所述圖像；從所述圖像提取圖像特征；標識具有相似圖像特征的其它圖像；獲取與所述其它圖像相關(guān)聯(lián)的文本；在與所述其它圖像相關(guān)聯(lián)的所獲取文本中標識相交關(guān)鍵字；以及利用所述相交關(guān)鍵字來注釋所述圖像。
14、根據(jù)權(quán)利要求13所述的計算機可讀存儲介質(zhì)，其中從所述圖像提取圖像特征包括將所述圖像分割成片；以及從所述片中提取所述圖像特征。
15、根據(jù)權(quán)利要求14所述的計算機可讀存儲介質(zhì)，其中對于不同片大小的集合中的每個給定片大小，將所述圖像分割成片包括將所述圖像分割成所述給定片大小的片。
16、根據(jù)權(quán)利要求13所述的計算機可讀存儲介質(zhì)，其中在標識所述其它圖像之前，該方法還包括將所述提取出的圖像特征與圖像特征庫中的已知圖像特征進行匹配。
17、根據(jù)權(quán)利要求16所述的計算機可讀存儲介質(zhì)，其中該方法進一步包括結(jié)合所述匹配的圖像特征，以形成圖像的一個或多個圖像特征結(jié)合。
18、根據(jù)權(quán)利要求17所述的計算機可讀存儲介質(zhì)，其中標識具有相似圖像特征的所述其它圖像包括在所述其它圖像中標識相似的圖像特征結(jié)合。
19、根據(jù)權(quán)利要求13所述的計算機可讀存儲介質(zhì)，其中從所述圖像中提取所述圖像特征可以包括生成顏色直方圖；生成方向直方圖；使用離散余弦變換(DCT)技術(shù)；使用主成份分析(PCA)技術(shù)；或使用伽柏小波技術(shù)。
20、根據(jù)權(quán)利要求13所述的計算機可讀存儲介質(zhì)，其中可以按照如下項來定義所述圖像特征形狀顏色；以及紋理。
21、根據(jù)權(quán)利要求13所述的計算機可讀存儲介質(zhì)，其中標識所述其它圖像包括在互聯(lián)網(wǎng)上的圖像中進行搜索。
22、根據(jù)權(quán)利要求13所述的計算機可讀存儲介質(zhì)，其中標識具有相似圖像特征的所述其它圖像包括使用概率模型。
23、根據(jù)權(quán)利要求13所述的計算機可讀存儲介質(zhì)，其中在標識所述相交關(guān)鍵字之前，該方法還包括通過增加關(guān)鍵字的同義詞對所述所獲取文本中的關(guān)鍵字進行擴展。
24、根據(jù)權(quán)利要求13所述的計算機可讀存儲介質(zhì)，其中接收所述圖像包括從視頻接收所述圖像。
25、一種自動注釋圖像的計算機系統(tǒng)，包括處理器；存儲器；接收裝置，其被配置用于接收所述圖像；提取裝置，其被配置用于從所述圖像提取圖像特征；標識裝置，其被配置用于標識具有相似圖像特征的其它圖像；獲取裝置，其被配置用于獲取與所述其它圖像相關(guān)的文本；其中所述標識裝置進一步被配置用于在與所述其它圖像相關(guān)聯(lián)的所獲取文本中標識相交關(guān)鍵字；以及注釋裝置，其被配置用于利用所述相交關(guān)鍵字來注釋所述圖像。
26、根據(jù)權(quán)利要求25所述的計算機系統(tǒng)，其中所述提取裝置被配置用于將所述圖像分割成片；以及從所述片中提取所述圖像特征。
27、根據(jù)權(quán)利要求25所述的計算機系統(tǒng)，還包括匹配裝置，其被配置用于將所述提取出的圖像特征與圖像特征庫中的已知圖像對爭4正進4亍匹配。
28、根據(jù)權(quán)利要求27所述的計算機系統(tǒng)，其中所述匹配裝置被配置用于結(jié)合所述匹配的圖像特征，以形成圖像的一個或多個圖像特征結(jié)合。
29、根據(jù)權(quán)利要求28所述的計算機系統(tǒng)，其中所述標識裝置被配置用于在所述其它圖像中標識相似的圖像特征結(jié)合。
30、根據(jù)權(quán)利要求25所述的計算機系統(tǒng)，其中所述標識裝置進一步被配置用于在互聯(lián)網(wǎng)上的圖像之中進行搜索；以及用于通過增加關(guān)鍵字的同義詞對在所述獲取文本中的關(guān)鍵字進行擴展。
31、根據(jù)權(quán)利要求25所述的計算機系統(tǒng)，其中所述接收裝置配置用于從視頻中接收所述圖像。
32、一種用于自動注釋可視媒體內(nèi)容的方法，包括接收所述可視媒體內(nèi)容；從所述可視媒體內(nèi)容提取特征；標識具有相似特征的其它可視媒體內(nèi)容；獲取與所述其它可視媒體內(nèi)容相關(guān)聯(lián)的文本；鍵字；以及利用所述相交關(guān)鍵字來注釋所述可視媒體內(nèi)容。
33、根據(jù)權(quán)利要求32所述的方法，其中從所述可視媒體內(nèi)容提耳又特征包括將所述可視媒體內(nèi)容內(nèi)的圖像分割成片；以及從所述片中提取圖像特征。
34、根據(jù)權(quán)利要求33所述的方法，其中對于不同片大小的集合中的每個給定片大小，將所述圖像分割成片包括將所述圖像分割成所述給定片大小的片。
35、根據(jù)權(quán)利要求32所述的方法，其中在標識所述其它可視媒體內(nèi)容之前，該方法還包括將所述提取出的特征與特征庫中的已 4口對爭4i進4亍匹配。
36、根據(jù)權(quán)利要求35所述的方法，其中該方法還包括結(jié)合所述已匹配特征，以形成可視媒體內(nèi)容的一個或多個特征結(jié)合。
37、根據(jù)權(quán)利要求36所述的方法，其中標識具有相似特征的其它可視媒體內(nèi)容包括在所述其它可視J 某體內(nèi)容中標識相似的特征結(jié)合。
38、根據(jù)權(quán)利要求32所述的方法，其中從所述可視媒體內(nèi)容中提取所述特征可以包括生成顏色直方圖；生成方向直方圖；使用離散余弦變換(DCT)技術(shù)；使用主成份分析(PCA)技術(shù)；或使用伽柏小波技術(shù)。
39、根據(jù)權(quán)利要求32所述的方法，其中可以按照以下項來定義所述特征形狀顏色；以及紋理。
40、一種存儲指令的計算機可讀存儲介質(zhì)，當所述指令被計算機執(zhí)行時，其使計算機執(zhí)行用于自動注釋可視媒體內(nèi)容的方法，該方法包括接收所述可^L媒體內(nèi)容；從所述可視々某體內(nèi)容提取特征；標識具有相似特征的其它可視媒體內(nèi)容；獲取與所述其它可視媒體內(nèi)容相關(guān)聯(lián)的文本；鍵字；以及利用所述相交關(guān)鍵字來注釋所述可視媒體內(nèi)容。
41、一種用于自動注釋一見頻的方法，包括接收所述一見頻；從所述視頻中才是取浮見頻特征；標識具有相似一見頻特征的其它一見頻；獲取與所述其它視頻相關(guān)聯(lián)的文本；在與所述其它視頻相關(guān)聯(lián)的所獲取文本中標識相交關(guān)鍵字；以及利用所述相交關(guān)鍵字來注釋所述—見頻。
42、根據(jù)權(quán)利要求41所述的方法，其中從所述視頻提取所述視頻特征包括將所述視頻內(nèi)的圖像分割成片；以及從所述片中提取圖像特征。
43、根據(jù)權(quán)利要求42所述的方法，其中對于不同片大小的集合中的每個給定片大小,將所述圖像分割成片包括將所述圖像分割成所述給定片大小的片。
44、根據(jù)權(quán)利要求41所述的方法，其中在標識所述其它視頻之前，該方法還包括將所述提取出的視頻特征與視頻特征庫中的已知一見頻特征進行匹配。
45、根據(jù)權(quán)利要求44所述的方法，其中該方法還包括結(jié)合所述匹配的視頻特征，以形成所述一見頻的一個或多個一見頻特征結(jié)合。
46、根據(jù)權(quán)利要求45所述的方法，其中標識具有相似視頻特征的其它視頻包括在所述其它視頻中標識相似的視頻特征結(jié)合。
47、根據(jù)權(quán)利要求41所述的方法，其中從所述視頻中提取所述視頻特征可以包括生成顏色直方圖；生成方向直方圖；使用離散余弦變換(DCT)技術(shù)；使用主成份分析(PCA)技術(shù)；或使用伽柏小波技術(shù)。
48、根據(jù)權(quán)利要求41所述的方法，其中可以按照以下項來定義所述一見頻特征形狀顏色；以及紋理。
49、一種存儲指令的計算機可讀存儲介質(zhì)，當所述指令被計算機執(zhí)行時，其使計算機執(zhí)行用于自動注釋視頻的方法，該方法包括接收所述纟見頻；從所述視頻提取視頻特征；標識具有相似^L頻特征的其它視頻；獲取與所述其它視頻相關(guān)聯(lián)的文本；利用所述相交關(guān)鍵字來注釋所述視頻。
全文摘要
本發(fā)明的一個實施方式提供一種自動注釋圖像的系統(tǒng)。在操作中，該系統(tǒng)接收圖像。接著，該系統(tǒng)從圖像中提取圖像特征。該系統(tǒng)繼而標識具有相似圖像特征的其它圖像。該系統(tǒng)接著獲取與所述其它圖像相關(guān)聯(lián)的文本，并在所獲取的文本中標識相交關(guān)鍵字。最后，該系統(tǒng)利用相交關(guān)鍵字來注釋圖像。
文檔編號G06F17/24GK101467145SQ200780021864
公開日2009年6月24日申請日期2007年7月11日優(yōu)先權(quán)日2006年7月24日
發(fā)明者J·N·雅格尼克申請人:谷歌公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：J.N.雅格尼克
技術(shù)所有人：谷歌公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

idea自動生成方法注釋相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于自動注釋圖像的方法和裝置的制作方法