亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于內(nèi)容的圖像檢索的制作方法

文檔序號:9756905閱讀:868來源:國知局
基于內(nèi)容的圖像檢索的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上涉及計算機(jī)視覺、對象和圖像識別技術(shù)。特別地,本發(fā)明涉及一種用 于使用唯一高層圖像特征通用描述符的基于內(nèi)容的圖像檢索的方法和非暫態(tài)計算機(jī)可讀 介質(zhì)。本發(fā)明還涉及使用基于客觀和可選地主觀加權(quán)相似性的實施方式,以及查詢圖像與 潛在地類似圖像之間的距離的優(yōu)化的計算。
【背景技術(shù)】
[0002] 我們的社會中的圖像識別的重要性隨著計算機(jī)和虛擬球體深入人心而逐日增長。
[0003] 視覺搜索引擎和計算機(jī)視覺、對象和模式識別技術(shù)的應(yīng)用領(lǐng)域是很寬的,并且已 經(jīng)蔓延到各種各樣不同的使用和部門,諸如:工業(yè)和機(jī)器視覺、導(dǎo)航、過程控制、國土安全、 電子商務(wù)、醫(yī)學(xué)診斷、生物研究、人員識別和生物統(tǒng)計學(xué)、市場、社交網(wǎng)絡(luò)等等。
[0004] 特別地,針對標(biāo)識和相似性的視覺搜索的使用是具有多個興趣的領(lǐng)域,其中,由于 數(shù)字圖像和視頻的增加以及具有智能電話、平板電腦等(包括越來越高級的內(nèi)置照相機(jī))中 的最新技術(shù)的因特網(wǎng)的使用,其商業(yè)應(yīng)用已經(jīng)在過去幾十年中得以發(fā)展。
[0005] 解決視覺搜索問題的第一種方法是"基于文本的檢索",其中,使用關(guān)鍵字、標(biāo)簽和 分類代碼或者主標(biāo)題來索引圖像。與相關(guān)領(lǐng)域技術(shù)的限制是雙重的:第一,圖像需要被索引 和被標(biāo)記,這需要大量的時間和資源,以及第二,其不是標(biāo)準(zhǔn)方法,因為每個用戶可以以不 同的方式主觀地解釋、定義和描述圖像。
[0006] 基于文本的檢索的備選方案是基于內(nèi)容的圖像檢索(CBIR)技術(shù),其基于自動得出 的圖像特征來從圖像數(shù)據(jù)庫檢索語義相關(guān)圖像。
[0007] 圖像處理是相當(dāng)復(fù)雜的:除其占用的體積外,在將高層感知高效地轉(zhuǎn)換為低層圖 像特征方面和解決眾所周知的語義鴻溝方面存在真實的挑戰(zhàn)。這些技術(shù)可以試圖解決以下 各項:
[0008] ?減少響應(yīng)時間
[0009] #增加準(zhǔn)確度
[0010] ?簡化針對圖像檢索的查詢
[0011] ?增加對不同環(huán)境、圖像捕獲條件和視點改變的魯棒性和不變性
[0012] ?體積、時間和圖像性質(zhì)的可擴(kuò)展性;實時改變和增加的大型數(shù)據(jù)庫,以及其他類 型的對象、圖像和/或模式的靈活性和可擴(kuò)充性。
[0013] CBIR系統(tǒng)適當(dāng)工作的關(guān)鍵點之一是圖像特征的定義和提取,即最佳和適當(dāng)向量的 選擇,還被稱為特征描述符(feature descriptor),其利用最小數(shù)量的必要數(shù)據(jù)來盡可能 完整并且準(zhǔn)確地描述感興趣的視覺信息的圖像或者區(qū)域。此目的是為了通過對大型圖像數(shù) 據(jù)庫應(yīng)用的高效搜索和比較方法,利用與其相同和類似的那些來識別、標(biāo)識、排序和分類感 興趣的查詢圖像或者對象。
[0014] 迄今為止,所發(fā)展的領(lǐng)域的技術(shù)通常基于直接應(yīng)用到整個圖像/對象或者部分圖 像窗口/感興趣區(qū)域(R0I)的1:1比較、模式匹配或者相關(guān)方法。這樣的方法是準(zhǔn)確的,并且 適于識別先前已知的特定對象的全局結(jié)構(gòu),并且針對有限且經(jīng)訓(xùn)練的數(shù)據(jù)庫,但是不能良 好地處理部分遮擋、視點的顯著改變或者可變形變換(從M〇rgan&Clayp〇〇l(2011年)的 K.Grauman和B.Leibe的Synthesis Lectures on Artificial Intelligence and Machine Learning 的第3 章 Local Features: Detection and Description,Visual Object Recognition)。此外,其對于來自相鄰元件的照明改變或者噪聲存在通常不是魯棒的,這使 這些系統(tǒng)的可擴(kuò)展性和靈活性非常昂貴并且因此使其CBIR適用性相當(dāng)可疑。
[0015] 用于定義正確CBIR描述符的另一關(guān)鍵因素在于,其應(yīng)當(dāng)是不變的,這意指其不應(yīng) 當(dāng)受對不同的圖像或者對象捕獲條件和環(huán)境靈敏的參數(shù)影響,諸如照明、旋轉(zhuǎn)、縮放、反轉(zhuǎn)、 平移、仿射變換和其他影響。
[0016] 備選地,存在形成開發(fā)基于不變的低層特征的描述符的CBIR系統(tǒng)的努力,以一方 面魯棒地描述不同捕獲上下文和條件中的圖像或者對象,并且另一方面,避免高層特征的 使用和分析,其在實現(xiàn)和必要的能耗和處理二者方面是更復(fù)雜并且昂貴的。
[0017] 這些低層特征向量的使用包括索引視覺屬性、使用數(shù)值描述這些特征、將圖像或 者對象表示為N維空間中的點。該過程包括提取查詢圖像或者對象向量特征,并且應(yīng)用度量 和分類方法以分析數(shù)據(jù)庫方面的相似性。
[0018] 目前,存在用于從圖像提取該類型的不變特征的算法方法,諸如尺度不變特征變 換(或者SIFT)、G-RIF:廣義魯棒不變特征、SURF:加速魯棒特征、PCA-SIFT、GL0H等等。然而, 這些方法描述對象或者圖像特定區(qū)域的具體局部外觀,選擇通常利用對先前已知的有限數(shù) 據(jù)庫應(yīng)用的機(jī)器學(xué)習(xí)和訓(xùn)練方法獲得的一組感興趣點,這意指其在沒有對應(yīng)的先驗訓(xùn)練的 情況下不可擴(kuò)展到其他對象和分類。
[0019] 在該上下文中,挑戰(zhàn)包括指定通過靈活和可擴(kuò)展的方法加速圖像檢索的索引結(jié) 構(gòu)。
[0020] 因此,低層特征的另一備選方案是使用諸如顏色、形狀、紋理等的特征的描述符, 以用于形成可適用于各種圖像和對象的通用向量。在用于所提到的向量/描述符的優(yōu)化方 法之間,目的是獲得最大信息,同時包括其內(nèi)的最小數(shù)目的參數(shù)或者變量。為此,選擇方法 被用于確定最重要的特征和其組合,以便描述和查詢大型數(shù)據(jù)庫中的項,這減少了搜索和 檢索的復(fù)雜性(在時間和計算機(jī)處理二者方面),同時試圖維持高性能準(zhǔn)確度。而且,這通過 自動地將正確特征與給定數(shù)據(jù)庫的測量結(jié)果相關(guān)聯(lián)來幫助終端用戶(I.Guyon和 A.Elisseff的2003年的An Introduction to Variable and Feature Selection,Journal of Machine Learning Research3(第1157-1182頁))。這些方法可以分為兩組:
[0021] ?特征變換方法,諸如主成分分析(PCA)統(tǒng)計過程和獨立成分分析(ICA)計算方 法,其將原始特征空間映射到最低維空間并且構(gòu)建新特征向量。關(guān)于特征變換算法的問題 是其對噪聲的靈敏度,并且所得特征對用戶無意義。
[0022] ?特征選擇方案,對噪聲魯棒,并且具有所得的高度可解釋的特征。特征選擇的目 標(biāo)是選擇特征的子集以減少特征向量長度,同時損失最少數(shù)量的信息。根據(jù)其子集評價方 法,特征選擇方案進(jìn)而分類為兩組:
[0023 ] 〇過濾方法,其中基于其內(nèi)在影響和自然分離為類或簇來評價特征。
[0024] 〇包裝方法,其利用學(xué)習(xí)方法準(zhǔn)確度來評價特征子集。
[0025]迄今為止,已經(jīng)利用基于機(jī)器學(xué)習(xí)和訓(xùn)練方法的不同的方法來實現(xiàn)了 CBIR系統(tǒng)的 特征選擇,包括優(yōu)化準(zhǔn)確度和定制訓(xùn)練特定情況和數(shù)據(jù)庫樣本的結(jié)果,其因此一般不可擴(kuò) 展到其他或者新情況和初始未考慮和未訓(xùn)練的數(shù)據(jù)庫樣本或者不同種類的圖像和對象類 別。
[0026]在所有這些通用特征向量之中,顏色和紋理是最通常使用在圖像和視頻檢索中的 兩個最相關(guān)的描述符。因此,公司和研究人員已經(jīng)花大力氣改進(jìn)其和使其CBIR系統(tǒng)基于其。 [0027]顏色描述符或者顏色特征是描述其圖像、區(qū)域或者對象方面的場景的表面的表面 屬性的全局特征。在Lulu Fan、Zhonghu Yuan,Xiaowei Han、Wenwu Hua"0verview of Content-Based Image Feature Extraction Methods"(International Conference on Computer,Networks and Communication Engineering(2013年))中解釋提取顏色特征的 不同的方式。
[0028]不同的顏色空間在其CBIR中的應(yīng)用和其標(biāo)識感知顏色中的優(yōu)點是廣泛已知的。沒 有顏色空間可以被認(rèn)為是通用的,這是因為可以以不同的方式解釋和塑造顏色。利用各種 各樣的可用顏色空間(例如RGB、CMY、Y IQ、YUV、XY Z、rg、CIE Lab、Luv、HSV等等)和用于定 義圖像和對象的顏色的各種各樣的描述符,非顯而易見的是,應(yīng)當(dāng)測量哪個顏色空間和哪 些特征以便描述圖像并且能夠標(biāo)識與其相同并且最類似的那些圖像。在該上下文中,出現(xiàn) 的問題是如何選擇針對特定計算機(jī)視覺任務(wù)提供最佳結(jié)果的顏色模型。在(H. Stokman和 T.Gevers的"Selection and Fusion of Color Models for Image Feature Detection" (IEEE transactions on pattern analysis and machine intelligence,第29卷,第3期, 2007年三月))中詳細(xì)解釋這些困難,其中其提出(一個或多個)通用選擇模型(不變的)。 [00 29] 迄今為止,大部分該種類的描述符具有多個限制,如Lulu Fan、Zhonghu Yuan、 Xiaowei Han、Wenwu Hua的"Overview of Content-Based Image Feature Extraction Methods,''( International Conference on Computer,Networks and Communication Engineering(2013年))的近期出版物中所反映的?,F(xiàn)有顏色描述符通常不能夠描述圖像中 的局部分布、空間定位和區(qū)域改變,并且總之,不足以明確地解釋、識別、分類和標(biāo)識特定復(fù) 雜對象或者圖像、特定高層模式、圖像區(qū)域和細(xì)節(jié),也找不到接近或者語義類似的其他。形 狀和紋理描述符需要復(fù)雜的計算過程或者具有先驗訓(xùn)練的特定模型。
[0030] 總之,存在涉及針對CBIR系統(tǒng)的描述符選擇和提取中所追求的目標(biāo)時的關(guān)鍵困 境。當(dāng)尋求魯棒性、不變性、靈活性和可擴(kuò)展性時,失去準(zhǔn)確度。當(dāng)實現(xiàn)準(zhǔn)確度時,失去的是 其他類型的圖像、產(chǎn)品或者類別的魯棒性、靈活性和可擴(kuò)充性。
[0031] 作為這些特征描述符的方案和演變,所謂的高層語義描述符已經(jīng)出現(xiàn),其試圖以 與我們的主觀人類感知最接近的方式解釋視覺信息以便實現(xiàn)在準(zhǔn)確度、不變性、魯棒性、靈 活性和可擴(kuò)展性方面同時最佳的描述符,這是因為我們的大腦當(dāng)解釋我們周圍的視覺世界 時這樣做。然而,旨在變得更接近人類智能的這些描述符面對歸因于其算法、計算和存儲復(fù) 雜性的障礙。
[0032] 相似性分析
[0033] 所檢索的圖像與數(shù)據(jù)庫之間的相似性分析階段特別地在可擴(kuò)展性和處理速度方 面是針對CBIR的
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1