基于內(nèi)容的圖像檢索的制作方法

文檔序號(hào)：9756905閱讀：940來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于內(nèi)容的圖像檢索的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上涉及計(jì)算機(jī)視覺(jué)、對(duì)象和圖像識(shí)別技術(shù)。特別地，本發(fā)明涉及一種用于使用唯一高層圖像特征通用描述符的基于內(nèi)容的圖像檢索的方法和非暫態(tài)計(jì)算機(jī)可讀介質(zhì)。本發(fā)明還涉及使用基于客觀和可選地主觀加權(quán)相似性的實(shí)施方式，以及查詢圖像與潛在地類似圖像之間的距離的優(yōu)化的計(jì)算。
【背景技術(shù)】
[0002] 我們的社會(huì)中的圖像識(shí)別的重要性隨著計(jì)算機(jī)和虛擬球體深入人心而逐日增長(zhǎng)。
[0003] 視覺(jué)搜索引擎和計(jì)算機(jī)視覺(jué)、對(duì)象和模式識(shí)別技術(shù)的應(yīng)用領(lǐng)域是很寬的，并且已經(jīng)蔓延到各種各樣不同的使用和部門，諸如:工業(yè)和機(jī)器視覺(jué)、導(dǎo)航、過(guò)程控制、國(guó)土安全、電子商務(wù)、醫(yī)學(xué)診斷、生物研究、人員識(shí)別和生物統(tǒng)計(jì)學(xué)、市場(chǎng)、社交網(wǎng)絡(luò)等等。
[0004] 特別地，針對(duì)標(biāo)識(shí)和相似性的視覺(jué)搜索的使用是具有多個(gè)興趣的領(lǐng)域，其中，由于數(shù)字圖像和視頻的增加以及具有智能電話、平板電腦等(包括越來(lái)越高級(jí)的內(nèi)置照相機(jī)）中的最新技術(shù)的因特網(wǎng)的使用，其商業(yè)應(yīng)用已經(jīng)在過(guò)去幾十年中得以發(fā)展。
[0005] 解決視覺(jué)搜索問(wèn)題的第一種方法是"基于文本的檢索"，其中，使用關(guān)鍵字、標(biāo)簽和分類代碼或者主標(biāo)題來(lái)索引圖像。與相關(guān)領(lǐng)域技術(shù)的限制是雙重的：第一，圖像需要被索引和被標(biāo)記，這需要大量的時(shí)間和資源，以及第二，其不是標(biāo)準(zhǔn)方法，因?yàn)槊總€(gè)用戶可以以不同的方式主觀地解釋、定義和描述圖像。
[0006] 基于文本的檢索的備選方案是基于內(nèi)容的圖像檢索(CBIR)技術(shù)，其基于自動(dòng)得出的圖像特征來(lái)從圖像數(shù)據(jù)庫(kù)檢索語(yǔ)義相關(guān)圖像。
[0007] 圖像處理是相當(dāng)復(fù)雜的：除其占用的體積外，在將高層感知高效地轉(zhuǎn)換為低層圖像特征方面和解決眾所周知的語(yǔ)義鴻溝方面存在真實(shí)的挑戰(zhàn)。這些技術(shù)可以試圖解決以下各項(xiàng)：
[0008] ?減少響應(yīng)時(shí)間
[0009] #增加準(zhǔn)確度
[0010] ?簡(jiǎn)化針對(duì)圖像檢索的查詢
[0011] ?增加對(duì)不同環(huán)境、圖像捕獲條件和視點(diǎn)改變的魯棒性和不變性
[0012] ?體積、時(shí)間和圖像性質(zhì)的可擴(kuò)展性;實(shí)時(shí)改變和增加的大型數(shù)據(jù)庫(kù)，以及其他類型的對(duì)象、圖像和/或模式的靈活性和可擴(kuò)充性。
[0013] CBIR系統(tǒng)適當(dāng)工作的關(guān)鍵點(diǎn)之一是圖像特征的定義和提取，即最佳和適當(dāng)向量的選擇，還被稱為特征描述符(feature descriptor)，其利用最小數(shù)量的必要數(shù)據(jù)來(lái)盡可能完整并且準(zhǔn)確地描述感興趣的視覺(jué)信息的圖像或者區(qū)域。此目的是為了通過(guò)對(duì)大型圖像數(shù) 據(jù)庫(kù)應(yīng)用的高效搜索和比較方法，利用與其相同和類似的那些來(lái)識(shí)別、標(biāo)識(shí)、排序和分類感興趣的查詢圖像或者對(duì)象。
[0014] 迄今為止，所發(fā)展的領(lǐng)域的技術(shù)通?；谥苯討?yīng)用到整個(gè)圖像/對(duì)象或者部分圖像窗口/感興趣區(qū)域(R0I)的1:1比較、模式匹配或者相關(guān)方法。這樣的方法是準(zhǔn)確的，并且適于識(shí)別先前已知的特定對(duì)象的全局結(jié)構(gòu)，并且針對(duì)有限且經(jīng)訓(xùn)練的數(shù)據(jù)庫(kù)，但是不能良好地處理部分遮擋、視點(diǎn)的顯著改變或者可變形變換（從M〇rgan&Clayp〇〇l(2011年）的 K.Grauman和B.Leibe的Synthesis Lectures on Artificial Intelligence and Machine Learning 的第3 章 Local Features: Detection and Description,Visual Object Recognition)。此外，其對(duì)于來(lái)自相鄰元件的照明改變或者噪聲存在通常不是魯棒的，這使這些系統(tǒng)的可擴(kuò)展性和靈活性非常昂貴并且因此使其CBIR適用性相當(dāng)可疑。
[0015] 用于定義正確CBIR描述符的另一關(guān)鍵因素在于，其應(yīng)當(dāng)是不變的，這意指其不應(yīng) 當(dāng)受對(duì)不同的圖像或者對(duì)象捕獲條件和環(huán)境靈敏的參數(shù)影響，諸如照明、旋轉(zhuǎn)、縮放、反轉(zhuǎn)、平移、仿射變換和其他影響。
[0016] 備選地，存在形成開(kāi)發(fā)基于不變的低層特征的描述符的CBIR系統(tǒng)的努力，以一方面魯棒地描述不同捕獲上下文和條件中的圖像或者對(duì)象，并且另一方面，避免高層特征的使用和分析，其在實(shí)現(xiàn)和必要的能耗和處理二者方面是更復(fù)雜并且昂貴的。
[0017] 這些低層特征向量的使用包括索引視覺(jué)屬性、使用數(shù)值描述這些特征、將圖像或者對(duì)象表示為N維空間中的點(diǎn)。該過(guò)程包括提取查詢圖像或者對(duì)象向量特征，并且應(yīng)用度量和分類方法以分析數(shù)據(jù)庫(kù)方面的相似性。
[0018] 目前，存在用于從圖像提取該類型的不變特征的算法方法，諸如尺度不變特征變換(或者SIFT)、G-RIF:廣義魯棒不變特征、SURF:加速魯棒特征、PCA-SIFT、GL0H等等。然而，這些方法描述對(duì)象或者圖像特定區(qū)域的具體局部外觀，選擇通常利用對(duì)先前已知的有限數(shù) 據(jù)庫(kù)應(yīng)用的機(jī)器學(xué)習(xí)和訓(xùn)練方法獲得的一組感興趣點(diǎn)，這意指其在沒(méi)有對(duì)應(yīng)的先驗(yàn)訓(xùn)練的情況下不可擴(kuò)展到其他對(duì)象和分類。
[0019] 在該上下文中，挑戰(zhàn)包括指定通過(guò)靈活和可擴(kuò)展的方法加速圖像檢索的索引結(jié) 構(gòu)。
[0020] 因此，低層特征的另一備選方案是使用諸如顏色、形狀、紋理等的特征的描述符，以用于形成可適用于各種圖像和對(duì)象的通用向量。在用于所提到的向量/描述符的優(yōu)化方法之間，目的是獲得最大信息，同時(shí)包括其內(nèi)的最小數(shù)目的參數(shù)或者變量。為此，選擇方法被用于確定最重要的特征和其組合，以便描述和查詢大型數(shù)據(jù)庫(kù)中的項(xiàng)，這減少了搜索和檢索的復(fù)雜性(在時(shí)間和計(jì)算機(jī)處理二者方面），同時(shí)試圖維持高性能準(zhǔn)確度。而且，這通過(guò) 自動(dòng)地將正確特征與給定數(shù)據(jù)庫(kù)的測(cè)量結(jié)果相關(guān)聯(lián)來(lái)幫助終端用戶（I.Guyon和 A.Elisseff的2003年的An Introduction to Variable and Feature Selection，Journal of Machine Learning Research3(第1157-1182頁(yè)））。這些方法可以分為兩組：
[0021] ?特征變換方法，諸如主成分分析(PCA)統(tǒng)計(jì)過(guò)程和獨(dú)立成分分析（ICA)計(jì)算方法，其將原始特征空間映射到最低維空間并且構(gòu)建新特征向量。關(guān)于特征變換算法的問(wèn)題是其對(duì)噪聲的靈敏度，并且所得特征對(duì)用戶無(wú)意義。
[0022] ?特征選擇方案，對(duì)噪聲魯棒，并且具有所得的高度可解釋的特征。特征選擇的目標(biāo)是選擇特征的子集以減少特征向量長(zhǎng)度，同時(shí)損失最少數(shù)量的信息。根據(jù)其子集評(píng)價(jià)方法，特征選擇方案進(jìn)而分類為兩組：
[0023 ] 〇過(guò)濾方法，其中基于其內(nèi)在影響和自然分離為類或簇來(lái)評(píng)價(jià)特征。
[0024] 〇包裝方法，其利用學(xué)習(xí)方法準(zhǔn)確度來(lái)評(píng)價(jià)特征子集。
[0025]迄今為止，已經(jīng)利用基于機(jī)器學(xué)習(xí)和訓(xùn)練方法的不同的方法來(lái)實(shí)現(xiàn)了 CBIR系統(tǒng)的特征選擇，包括優(yōu)化準(zhǔn)確度和定制訓(xùn)練特定情況和數(shù)據(jù)庫(kù)樣本的結(jié)果，其因此一般不可擴(kuò) 展到其他或者新情況和初始未考慮和未訓(xùn)練的數(shù)據(jù)庫(kù)樣本或者不同種類的圖像和對(duì)象類別。
[0026]在所有這些通用特征向量之中，顏色和紋理是最通常使用在圖像和視頻檢索中的兩個(gè)最相關(guān)的描述符。因此，公司和研究人員已經(jīng)花大力氣改進(jìn)其和使其CBIR系統(tǒng)基于其。 [0027]顏色描述符或者顏色特征是描述其圖像、區(qū)域或者對(duì)象方面的場(chǎng)景的表面的表面屬性的全局特征。在Lulu Fan、Zhonghu Yuan，Xiaowei Han、Wenwu Hua"0verview of Content-Based Image Feature Extraction Methods"（International Conference on Computer,Networks and Communication Engineering(2013年））中解釋提取顏色特征的不同的方式。
[0028]不同的顏色空間在其CBIR中的應(yīng)用和其標(biāo)識(shí)感知顏色中的優(yōu)點(diǎn)是廣泛已知的。沒(méi) 有顏色空間可以被認(rèn)為是通用的，這是因?yàn)榭梢砸圆煌姆绞浇忉尯退茉祛伾＠酶鞣N 各樣的可用顏色空間（例如RGB、CMY、Y IQ、YUV、XY Z、rg、CIE Lab、Luv、HSV等等）和用于定義圖像和對(duì)象的顏色的各種各樣的描述符，非顯而易見(jiàn)的是，應(yīng)當(dāng)測(cè)量哪個(gè)顏色空間和哪些特征以便描述圖像并且能夠標(biāo)識(shí)與其相同并且最類似的那些圖像。在該上下文中，出現(xiàn) 的問(wèn)題是如何選擇針對(duì)特定計(jì)算機(jī)視覺(jué)任務(wù)提供最佳結(jié)果的顏色模型。在(H. Stokman和 T.Gevers的"Selection and Fusion of Color Models for Image Feature Detection" (IEEE transactions on pattern analysis and machine intelligence，第29卷，第3期， 2007年三月））中詳細(xì)解釋這些困難，其中其提出（一個(gè)或多個(gè))通用選擇模型(不變的）。 [00 29] 迄今為止，大部分該種類的描述符具有多個(gè)限制，如Lulu Fan、Zhonghu Yuan、 Xiaowei Han、Wenwu Hua的"Overview of Content-Based Image Feature Extraction Methods，''（ International Conference on Computer,Networks and Communication Engineering(2013年））的近期出版物中所反映的。現(xiàn)有顏色描述符通常不能夠描述圖像中的局部分布、空間定位和區(qū)域改變，并且總之，不足以明確地解釋、識(shí)別、分類和標(biāo)識(shí)特定復(fù) 雜對(duì)象或者圖像、特定高層模式、圖像區(qū)域和細(xì)節(jié)，也找不到接近或者語(yǔ)義類似的其他。形狀和紋理描述符需要復(fù)雜的計(jì)算過(guò)程或者具有先驗(yàn)訓(xùn)練的特定模型。
[0030] 總之，存在涉及針對(duì)CBIR系統(tǒng)的描述符選擇和提取中所追求的目標(biāo)時(shí)的關(guān)鍵困境。當(dāng)尋求魯棒性、不變性、靈活性和可擴(kuò)展性時(shí)，失去準(zhǔn)確度。當(dāng)實(shí)現(xiàn)準(zhǔn)確度時(shí)，失去的是其他類型的圖像、產(chǎn)品或者類別的魯棒性、靈活性和可擴(kuò)充性。
[0031] 作為這些特征描述符的方案和演變，所謂的高層語(yǔ)義描述符已經(jīng)出現(xiàn)，其試圖以與我們的主觀人類感知最接近的方式解釋視覺(jué)信息以便實(shí)現(xiàn)在準(zhǔn)確度、不變性、魯棒性、靈活性和可擴(kuò)展性方面同時(shí)最佳的描述符，這是因?yàn)槲覀兊拇竽X當(dāng)解釋我們周圍的視覺(jué)世界時(shí)這樣做。然而，旨在變得更接近人類智能的這些描述符面對(duì)歸因于其算法、計(jì)算和存儲(chǔ)復(fù) 雜性的障礙。
[0032] 相似性分析
[0033] 所檢索的圖像與數(shù)據(jù)庫(kù)之間的相似性分析階段特別地在可擴(kuò)展性和處理速度方面是針對(duì)CBIR的

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4 5

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：S·佩雷茲德拉科巴;
技術(shù)所有人：沙祖拉公司;
我是此專利的發(fā)明人

上一篇：數(shù)據(jù)模型改變管理的制作方法
上一篇：理解供搜索的表格的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

基于內(nèi)容的視頻檢索相關(guān)技術(shù)

基于語(yǔ)義的圖像檢索相關(guān)技術(shù)

基于文本的圖像檢索相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于內(nèi)容的圖像檢索的制作方法