一種基于物體檢測的圖像檢索方法與流程

文檔序號：11514995閱讀：606來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于計算機圖像處理
技術(shù)領(lǐng)域：
：，主要涉及圖像檢索，具體是一種基于物體檢測的圖像檢索方法，可以用于互聯(lián)網(wǎng)圖像數(shù)據(jù)檢索。
背景技術(shù)：
：：隨著信息化社會的到來和計算機應(yīng)用的普及，人們越來越多地接觸到大量的信息，其中多媒體信息是人們接觸最廣泛的一種信息資源，它以文字、圖像、聲音和視頻等各種形式存在，并且隨著科技的進步以爆炸的速度增長。特別是近年來互聯(lián)網(wǎng)的應(yīng)用和發(fā)展，更加促進了多媒體信息的數(shù)據(jù)量急劇增長。面對海量數(shù)據(jù)，人們往往無所適從，信息量的快速增長使得人們對多媒體信息的檢索需求與目俱增，因此圖像檢索技術(shù)就成為研究的熱點之一。從20世紀(jì)70年代起開始對圖像檢索領(lǐng)域研究到現(xiàn)在，圖像檢索技術(shù)經(jīng)歷了三個發(fā)展階段：基于文本、基于內(nèi)容、基于語義的圖像檢索?；谖谋镜膱D像檢索使用關(guān)鍵字來標(biāo)注圖像，當(dāng)用戶進行圖像檢索時，主要是搜索匹配圖像中的標(biāo)簽進行檢索，但是它有很多缺點：描述圖像的文本關(guān)鍵字是人工添加的，主觀意識太大；文字描述完全不能表達出圖像豐富的含義，僅僅采用關(guān)鍵字的形式很難對數(shù)據(jù)庫中的圖像進行精確的檢索；隨著科技的不斷進步和發(fā)展，圖像數(shù)據(jù)庫的規(guī)模越來越大，沒有那么多的精力對每幅圖像進行文本標(biāo)注，成本太大。二十世紀(jì)九十年代初期,，基于內(nèi)容的圖像檢索(contentbasedimageretrieval，cbir)開始興起，它提取圖像中的紋理、形狀等底層特征，然后對圖像特征進行相似性度量，進而檢索出相似圖像。cbir采用的是圖像本身的內(nèi)容進行檢索，沒有人為主觀性的干擾，克服了基于文本的圖像檢索的缺點，也可將圖像文本信息加入作為檢索的補充。在基于內(nèi)容的圖像檢索中，提取的是圖像的底層特征。然而，人對圖像的理解并不是單純的依靠圖像的底層特征，另一方面，圖像底層特征的維數(shù)高，運算比較復(fù)雜。從提高檢索速度和準(zhǔn)確率來說，不可能把所有提取出來的特征都用于圖像檢索。計算機是利用底層特征來理解圖像的，而人類卻是利用抽象信息來理解圖像，并使用高層語義來描述圖像，這種高層語義特征和圖像底層特征并沒有直接關(guān)系，這就存在著“語義鴻溝”，為了解決“語義鴻溝”，又提出了基于語義的圖像檢索(semantic-basedimageretrieval，sbir)。sbir的主要任務(wù)就是把在底層特征和高層語義之間建立溝通的橋梁，解決語義鴻溝的問題。2012年以來，深度學(xué)習(xí)得到了飛速發(fā)展，在圖像分類和物體檢測領(lǐng)域取得了重大突破，解決“語義鴻溝”看到了希望。本發(fā)明采用深度學(xué)習(xí)中的物體檢測算法，建立起底層特征和高層語義的聯(lián)系，提高了檢索的精度和效率，并且對圖像中物體進行檢索，比一般的圖像檢索方法更加靈活。沙祖拉公司在其申請的專利“基于內(nèi)容的圖像檢索”(申請?zhí)枺?01480048753.8，公開號：cn105518668a)公開了一種基于分割和多特征提取的圖像檢索技術(shù)。該方法包括選擇查詢圖像；通過應(yīng)用分割技術(shù)將所選擇的查詢圖像進行分割；通過確定至少兩個特征描述符來從所分割的查詢圖像提取特征，至少兩個特征描述符包括顏色特征描述符和紋理特征描述符；以及使用所分割的查詢圖像的所確定的至少兩個特征描述符來確定查詢圖像與被包括在數(shù)據(jù)庫中的多個圖像的相似性，通過確定至少兩個特征描述符從被包括在數(shù)據(jù)庫中的多個圖像中的每個圖像來提取特征，顏色特征描述符和紋理特征描述符包括不同的顏色空間的同時組合，并且對不同的顏色空間的同時組合執(zhí)行全局和局部統(tǒng)計測量。該方法的不足之處在于圖像分割不夠準(zhǔn)確，提取的特征是顏色特征和紋理特征等低層特征，對整幅圖像提取特征并檢索，沒有對圖像中單個物體檢索。鎮(zhèn)江華洋信息科技有限公司在其申請的專利“基于內(nèi)容語義的圖像檢索”(申請?zhí)枺?01410591510.0，公開號：cn105630794a)公開了一種基于內(nèi)容語義的圖像檢索方法。該方法采用綜合特征，并結(jié)合人類視覺特點，給出了一種基于顏色空間信息的檢索方法，取得了比一般的單一特征檢索方法更好的效果。以及采用基于色彩聚類的彩色圖像分割方法，使得基于區(qū)域的彩色圖像檢索取得較好的效果。該方法的不足之處是只考慮了物體的顏色和空間信息進行檢索，在圖像數(shù)量較多時，提取的特征太多，沒有考慮對圖像中單個物體進行檢索。夏炎在其論文“大規(guī)模圖像數(shù)據(jù)中相似圖像的快速搜索”(中國科學(xué)技術(shù)大學(xué)，博士論文，2015年)中提出了一種稀疏投影編碼算法，該算法采用稀疏矩陣進行投影以減少計算代價，加快哈希編碼的速度，在一定程度上緩解優(yōu)化模型中的過擬合問題。然而該算法固定了目標(biāo)函數(shù)中的懲罰項系數(shù)，沒有找到最優(yōu)的系數(shù)使得編碼結(jié)果更加準(zhǔn)確，影響了檢索準(zhǔn)確率，是對整幅圖像進行的檢索，沒有考慮圖像中的單個物體。許鵬飛在其論文“圖像結(jié)構(gòu)化特征表達方法研究”(哈爾濱工業(yè)大學(xué)，博士論文，2013年)中提出了一種多層次結(jié)構(gòu)特征表達方法，該方法使用樹形結(jié)構(gòu)來組織和刻畫圖像區(qū)域內(nèi)的多尺度特征，提高特征表達的辨別能力。該方法是通過考慮空間相關(guān)性和尺度相關(guān)性來進行圖像特征提取，并沒有考慮時間相關(guān)性，而且不同類別圖像的空間和尺度相關(guān)性差別很大，當(dāng)圖像數(shù)據(jù)集較大時，效果不是很好，該方法采用了多尺度特征，然而這種特征并不是很準(zhǔn)確，沒有把圖像中的物體作為對象進行檢索。熊昌鎮(zhèn)在其論文“結(jié)合主體檢測的圖像檢索方法”(北京工業(yè)大學(xué)，光學(xué)精密工程期刊，2017年)中提出了一種結(jié)合主體檢測的圖像檢索方法，該方法使用深度卷積神經(jīng)網(wǎng)絡(luò)檢測物體，然后根據(jù)物體的類別概率和其所在區(qū)域的坐標(biāo)判斷圖像主體，然后進行圖像檢索。該方法可有效排除圖像背景的干擾，得到更加準(zhǔn)確的檢索結(jié)果和定位精度，然而該方法只考慮了圖像中的主體部分，沒有考慮圖像中其他物體。如果圖像中存在多個大小相似的物體，那么會影響主體檢測的效果，進一步會影響到圖像的檢索準(zhǔn)確度。綜上，現(xiàn)有的技術(shù)提取圖像中的顏色、紋理、形狀和sift等底層特征，對兩種或多種特征融合，以及對圖像進行分割，檢測圖像中的主體部分，然后進行圖像檢索。當(dāng)輸入查詢圖像時，對整幅圖像或圖像主體部分進行特征提取并檢索，并沒有考慮把圖像中的多個物體檢測出來并分別提取特征和檢索，方法不夠靈活和準(zhǔn)確。技術(shù)實現(xiàn)要素：本發(fā)明針對上述現(xiàn)有技術(shù)存在的不足，提出一種減小語義鴻溝，提高檢索靈活性和準(zhǔn)確度的基于物體檢測的圖像檢索方法。本發(fā)明是一種基于物體檢測的圖像檢索方法，其特征在于，包括有如下步驟：步驟1，檢測圖像中的多個物體：采用yolo方法對圖像進行物體檢測，檢測出該圖像中的1個或多個物體；步驟2，根據(jù)該圖像的物體檢測結(jié)果，提取包括每一個物體的檢測矩形框內(nèi)的sift特征和mser特征；步驟3，把該圖像中檢測出的每個物體的sift特征和mser特征組合，生成特征束；步驟4，采用kmeans和k-dtree方法，依次對特征束進行聚類和量化，生成該圖像中每個物體的視覺單詞；以上為物體檢測方法；步驟5，重復(fù)步驟1-4，遍歷整個圖像數(shù)據(jù)庫，將圖像數(shù)據(jù)庫中的所有圖像中的被檢測物體都生成視覺單詞，利用倒排索引方法，對所有的視覺單詞處理，建立圖像數(shù)據(jù)庫視覺詞典的索引目錄，作為圖像特征庫；步驟6，用物體檢測方法，得到查詢圖像中每個物體的視覺單詞，按照步驟1-4，將查詢圖像中的物體生成視覺單詞；步驟7，根據(jù)圖像特征庫中的索引目錄，把查詢圖像中物體的視覺單詞和圖像特征庫中物體的視覺單詞進行相似度匹配，然后按照相似度得分高低進行排序，把得分最高的前n幅圖像數(shù)據(jù)庫中的物體作為檢索出的物體，輸出物體所在的圖像，得到檢索結(jié)果。本發(fā)明能夠?qū)D像中的每個物體進行檢索，減小語義鴻溝，提高檢索靈活性和準(zhǔn)確度。與現(xiàn)有技術(shù)相比，本發(fā)明具有如下優(yōu)點：1.本發(fā)明利用物體檢測的方法，從圖像中的關(guān)鍵信息即物體入手進行檢測，得到了物體的位置信息，很好的區(qū)分了圖像中的前景和背景，減少了噪聲對檢索的干擾，提高了檢索的準(zhǔn)確度；2.現(xiàn)有的技術(shù)都是對整幅圖像進行特征提取并檢索，所提取的特征并不能準(zhǔn)確的反映圖像中的物體，準(zhǔn)確率不高，在底層特征和圖像的高層語義之間存在著語義鴻溝，本發(fā)明只提取圖像中物體檢測矩形框所在位置的特征，減少了圖像的語義鴻溝，使得所提取的特征能夠相對準(zhǔn)確的表示圖像中的物體，提高了檢索速度和效率；3.現(xiàn)有的技術(shù)是對整幅圖像進行檢索，不能針對圖像中具體某一個物體檢索，不夠靈活，而在現(xiàn)實生活中圖像大多含有多個物體，本發(fā)明根據(jù)物體檢測提取的圖像中被檢測物體的特征，能夠分別對圖像中的各個物體進行檢索，找到其他圖像中的相似物體，而不是整幅圖像，檢索方法更加靈活。附圖說明圖1是生成圖像特征庫的流程圖圖2為本發(fā)明的實現(xiàn)流程圖；圖3是物體檢測的結(jié)果；圖4是使用本發(fā)明對person1的檢索結(jié)果；圖5是使用本發(fā)明person2的檢索結(jié)果；圖6是使用本發(fā)明對car的檢索結(jié)果；圖7是未采用物體檢測的圖像檢索方法對person1的檢索結(jié)果；圖8是未采用物體檢測的圖像檢索方法對person2的檢索結(jié)果；圖9是未采用物體檢測的圖像檢索方法對car的檢索結(jié)果。具體實施方式下面結(jié)合附圖對本發(fā)明的實施例進行詳細描述。實施例1現(xiàn)有的圖像檢索中，提取圖像中的顏色、紋理、形狀和sift等底層特征，然后進行圖像檢索，并沒有考慮把圖像中的多個物體檢測出來并分別提取特征和檢索，方法不夠靈活和準(zhǔn)確。隨著科學(xué)技術(shù)的發(fā)展，人們從手機、相機和互聯(lián)網(wǎng)等途徑獲得了大量的圖像，通過大數(shù)據(jù)和ai等技術(shù)對圖像進行處理和檢索，可以從圖像中挖掘出許多有用信息。本發(fā)明經(jīng)過研究，提出一種基于物體檢測的圖像檢索方法，本發(fā)明能夠針對圖像中某一個具體的物體進行檢索，找到其他圖像中的類似物體。例如在安全領(lǐng)域，根據(jù)犯罪嫌疑人的照片，在大量圖像中快速找到犯罪嫌疑人，獲得及時的線索信息；在軍事領(lǐng)域，通過檢索衛(wèi)星拍攝的大量圖片，可以獲得武力調(diào)動情報，做到知己知彼。參見圖2，包括有如下步驟：步驟1，檢測圖像中的物體：采用yolo方法對圖像進行物體檢測，檢測出該圖像中的1個或多個物體。采用yolo方法檢測出來的物體，得到的物體檢測信息包括物體的中心位置坐標(biāo)，矩形框的寬度和高度，物體的類別，參見圖3。步驟2，根據(jù)該圖像的物體檢測結(jié)果，提取包括每一個物體的檢測矩形框內(nèi)的sift特征和mser特征。sift特征是圖像的局部特征，其對旋轉(zhuǎn)、尺度縮放、亮度變化保持不變性，對視角變化、仿射變換、噪聲也保持一定程度的穩(wěn)定性；mser特征是也是圖像的局部特征，它具有仿射變化不變性和穩(wěn)定性，無需任何平滑處理就可以實現(xiàn)多尺度檢測，即小的和大的結(jié)構(gòu)都可以被檢測到。步驟3，把該圖像中檢測出的物體的sift特征和mser特征組合，生成特征束。步驟4，采用kmeans方法即k均值方法，對特征束進行聚類，生成聚類中心；再采用k-dtree方法即k-d樹方法，對聚類中心進行量化，生成該物體的視覺單詞。以上為物體檢測方法。步驟5，重復(fù)步驟1-4，遍歷整個圖像數(shù)據(jù)庫，將圖像數(shù)據(jù)庫中的所有圖像中的物體都生成視覺單詞，利用倒排索引方法，對所有的視覺單詞處理，建立圖像數(shù)據(jù)庫視覺詞典的索引目錄，作為圖像特征庫，參見圖1。步驟6，用基于物體檢測的方法，得到查詢圖像中物體的視覺單詞，按照步驟1-4，將查詢圖像中的物體生成視覺單詞。步驟7，根據(jù)圖像特征庫中的索引目錄，把查詢圖像中物體的視覺單詞和圖像特征庫中物體的視覺單詞進行相似度匹配，然后按照相似度得分高低進行排序，把得分最高的前n個物體作為檢索出的物體，輸出物體所在的圖像，得到檢索結(jié)果。本發(fā)明中n可以根據(jù)圖像檢索的需要進行設(shè)定，一般可以設(shè)置為前16幅圖像。本發(fā)明的技術(shù)思路是，通過深度學(xué)習(xí)中yolo(youonlylookonce：unified，real-timeobjectdetection；只看一遍就夠了，統(tǒng)一的，實時的物體檢測)方法對圖像進行物體檢測，獲得物體位置和類別信息，然后提取圖像中物體的底層特征，量化處理后，使用該特征進行圖像檢索。本發(fā)明提出的基于物體檢測的圖像檢索方法，利用yolo方法檢測出圖像中的一個或多個物體，對1個或多個物體分別進行特征提取和檢索，檢索出其他圖像中的相似物體，提高了檢索的靈活性和準(zhǔn)確度。實施例2基于物體檢測的圖像檢索方法同實施例1，本發(fā)明中用基于物體檢測的方法，得到查詢圖像中物體的視覺單詞，其中步驟1中采用yolo方法對查詢圖像進行物體檢測，檢測出查詢圖像中的1個或多個物體的過程，包括：1.1，使用voc2007數(shù)據(jù)集對yolo網(wǎng)絡(luò)進行訓(xùn)練，得到權(quán)重參數(shù)；yolo是一種物體檢測的方法，也是一種深度學(xué)習(xí)的網(wǎng)絡(luò)。1.2，將查詢圖像輸入到訓(xùn)練好的yolo網(wǎng)絡(luò)中，對查詢圖像進行物體檢測，如果查詢圖像中有一個或多個物體存在，則把物體的位置用矩形框標(biāo)記出來，位置信息包括物體的中心點的坐標(biāo)，矩形框的寬度和高度，物體類別。1.3，輸出結(jié)果，得到查詢圖像中被檢測物體的位置信息并保存。本發(fā)明也是用同樣的辦法對圖像數(shù)據(jù)庫的圖像進行處理，檢測圖像數(shù)據(jù)庫中圖像的物體。實施例3基于物體檢測的圖像檢索方法同實施例1-2，步驟2所述的，提取sift特征和mser特征，具體包括：2.1，讀取查詢圖像中物體的位置信息；2.2，提取圖像中物體所在位置的sift(scale-invariantfeaturetransform，尺度不變特征變換)特征；2.3，提取圖像中物體所在位置的mser(maximallystableextremalregions，最大極值穩(wěn)定區(qū)域)特征。本發(fā)明根據(jù)物體檢測提取的圖像中被檢測物體的特征，能夠分別對圖像中的各個物體進行檢索，找到其他圖像中的相似物體，而不是整幅圖像，檢索方法更加靈活。實施例4基于物體檢測的圖像檢索方法同實施例1-3，步驟3所述的，把該圖像中檢測出的物體的sift特征和mser特征組合，生成特征束，具體包括：定義s＝{sj}，表示sift特征點；r＝{ri}，表示mser特征區(qū)域；定義b＝{bi}，表示特征束，其中bi＝{sj|sj∈ri,sj∈s},sj∈ri表示sift特征sj在mser特征區(qū)域ri內(nèi)，由此，得到sift和mser捆綁的特征束；bi如果是空的，即一個mser特征區(qū)域內(nèi)不存在sift特征點，則舍棄。本發(fā)明把sift特征和mser特征組合，生成特征束。sift特征對旋轉(zhuǎn)、尺度縮放、亮度變化具有不變性，以及對視角變化、仿射變換、噪聲等也具有一定程度的穩(wěn)定性；mser具有仿射不變性(尤其對存在大尺度變化影像效果更明顯)，更夠檢測出包含大量影像結(jié)構(gòu)信息的區(qū)域。將這兩種特征組合生成特征束，可以提高圖像特征的分辨能力，從而增強匹配的能力，進一步提高檢索精度。實施例5基于物體檢測的圖像檢索方法同實施例1-4，所述倒排索引，得到圖像檢索結(jié)果，包括：5.1，利用倒排索引方法，對圖像數(shù)據(jù)庫中所有物體的視覺單詞進行處理，建立視覺詞典的索引目錄；5.2，根據(jù)索引目錄，采用夾角余弦的方法，對查詢圖像中物體的視覺單詞和圖像數(shù)據(jù)庫中物體的視覺單詞進行相似度匹配；5.3，按照相似度得分的高低進行排序，把得分最高的前n個物體作為檢索出的物體，輸出物體所在的圖像，得到檢索結(jié)果。本發(fā)明采用倒排索引方法，在索引過程中，計算時間僅包含提取查詢圖像中物體特征的視覺和量化到視覺單詞的時間，相比于提取圖像特征后分別計算其與所有數(shù)據(jù)庫中的特征的距離，使用倒排索引的方法減少了計算代價，提高了檢索的效率。實施例6基于物體檢測的圖像檢索方法同實施例1-5，為實現(xiàn)上述目的，本發(fā)明主要步驟包括如下：1.采用yolo方法檢測圖像中的物體，包括如下步驟：(1)將圖像輸入到y(tǒng)olo網(wǎng)絡(luò)，對圖像進行物體檢測；(2)輸出結(jié)果，得到圖像中被檢測物體的位置信息并保存；2.根據(jù)得到的物體檢測的結(jié)果進行特征提取和檢索，包括如下步驟：(1)讀取圖像中物體的位置信息；(2)提取圖像中物體所在位置的sift(scale-invariantfeaturetransform，尺度不變特征變換)特征；(3)提取圖像中物體所在位置的mser(maximallystableextremalregions，最大極值穩(wěn)定區(qū)域)特征；(4)將位置的sift尺度不變特征變換特征和物體所在位置的mser最大極值穩(wěn)定區(qū)域特征進行處理，得到優(yōu)化后的sift特征；(5)利用kmeans(k均值)方法對優(yōu)化后的sift特征進行聚類，得到聚類中心；(6)利用k-dtree(k-dimensionatree，k維樹)方法對聚類中心進行量化，得到視覺單詞；(7)利用倒排索引，對視覺單詞建立索引目錄，獲得圖像特征庫；(8)將圖像中物體的視覺單詞跟圖像特征庫進行比較，找到相似的物體，并根據(jù)得分的高低進行排序，得到檢索結(jié)果。本例中n設(shè)置為前8幅圖像.本發(fā)明包括兩個主要模塊，第一模塊是采用yolo算法通過voc2007數(shù)據(jù)集進行訓(xùn)練學(xué)習(xí)，通過學(xué)習(xí)獲得數(shù)據(jù)集中的所有種類對象的圖像特征，得到相應(yīng)的權(quán)重參數(shù)，然后對查詢圖像進行物體檢測，檢測出圖像中的多個物體，得到圖像中物體的位置信息；第二模塊是提取圖像中物體的特征、生成特征束，并把特征束量化成視覺單詞，建立倒排索引，得到圖像檢索的結(jié)果。下面的實施例以本發(fā)明技術(shù)方案為前提進行實施，給出了詳細的實施方式和具體操作過程。實施例7基于物體檢測的圖像檢索方法同實施例1-6，參見圖2，本發(fā)明的具體實現(xiàn)步驟如下：1、將整幅圖像作為輸入，輸入到y(tǒng)olo網(wǎng)絡(luò)中；2、對圖像進行網(wǎng)格劃分，將圖像劃分成7*7的網(wǎng)格；3、預(yù)測網(wǎng)格中圖像的boundingbox(邊界框)；(3.1)如果物體中心沒有落在該網(wǎng)格內(nèi)，不對該網(wǎng)格進行預(yù)測；(3.2)物體中心落在網(wǎng)格內(nèi)，則在這個網(wǎng)格預(yù)測物體的boundingbox；(3.3)預(yù)測的信息包含boundingbox的中心點坐標(biāo)(x，y)，寬和高(w，h)還有某個物體的概率；(3.4)采用均方和誤差作為損失函數(shù)(loss函數(shù))來優(yōu)化模型參數(shù)，即網(wǎng)絡(luò)輸出的多維向量和真實圖像對應(yīng)的多維向量的均方和誤差；(3.5)損失函數(shù)loss如下：其中coorderror表示預(yù)測數(shù)據(jù)與標(biāo)定數(shù)據(jù)之間的坐標(biāo)誤差，iouerror為系統(tǒng)預(yù)測出來的框與原來圖片中標(biāo)記的框的重合程度誤差(iou)，classerror表示分類誤差；(3.6)位置相關(guān)誤差(坐標(biāo)、iou)與分類誤差對網(wǎng)絡(luò)loss的貢獻值是不同的，因此在yolo計算loss時候，使用λcoord＝0.5來修正coorderror；(3.7)在計算iou誤差時，包含物體的格子與不包含物體的格子，兩者的iou誤差對網(wǎng)絡(luò)loss的貢獻值是不同的。若采用相同的權(quán)值，會導(dǎo)致不包含物體的格子的confidence值近似為0，變相放大了包含物體的格子的confidence誤差在計算網(wǎng)絡(luò)參數(shù)梯度時的影響。本發(fā)明為了解決這個問題，設(shè)定yolo網(wǎng)絡(luò)中使用λnobj＝0.5來修正iouerror。此處的“包含”是指存在一個物體，它的中心坐標(biāo)落入到格子內(nèi)；(3.8)對于相同的誤差值，大物體誤差對檢測的影響小于小物體誤差對檢測的影響。這是因為，相同的位置偏差占大物體的比例遠遠小于同等偏差占小物體的比例。yolo將物體大小的信息項(w和h)進行求平方根運算來改進這個問題；4、將網(wǎng)格預(yù)測的boundingbox通過一個全連接層，對結(jié)果進行處理，選擇iou最高的boundingbox作為物體檢測的結(jié)果輸出，結(jié)果主要包括圖像中物體的位置信息：物體中心點的坐標(biāo)、矩形框的寬度和高度；5、重復(fù)步驟3和4，檢測出圖像中的所有物體；6、讀取圖像中物體的位置信息，進行特征提??；7、提取圖像中物體所在位置的sift特征，(7.1)構(gòu)建尺度空間，獲得圖像在不同尺度空間上的表示；(7.2)興趣點檢測，利用高斯差分算子(differenceofgaussians，dog)找到圖像中具有尺度不變性的興趣點；(7.3)局部區(qū)域描述，確定興趣點周圍像素的梯度方向，統(tǒng)計興趣點周圍像素在不同方向上的梯度直方圖，并將該直方圖作為sift特征描述子。8、提取圖像中物體的mser特征，(8.1)初始化棧和堆，棧用于存儲組件，堆用于存儲組件的邊界像素；(8.2)隨機選取一個像素作為源像素并標(biāo)注為已訪問，這個像素的灰度值作為當(dāng)前值；(8.3)搜索當(dāng)前值的邊緣部分，檢查它的鄰域是否被訪問，如果沒有，則標(biāo)注為已訪問過并檢索其灰度值，如果灰度值不小于當(dāng)前值，則放入堆中；(8.4)計算區(qū)域面積；(8.5)處理棧中所有的組塊，直到棧中的組塊的灰度值大于當(dāng)前邊界像素灰度值為止。9、把sift特征和mser特征結(jié)合到一起，得到特征束。定義s＝{sj}，表示sift特征點；r＝{ri}，表示mser特征區(qū)域；定義b＝{bi}，表示特征束，其中bi＝{sj|sj∈ri,sj∈s},sj∈ri表示sift特征sj在mser特征區(qū)域ri內(nèi)。一個特征束是由mser把幾個sift特征“束縛到一起”；10、根據(jù)步驟9中得到的特征束，采用kmeans方法對特征進行聚類，生成視覺單詞，(10.1)初始化聚類中心，隨機選取k個點作為聚類中心(c1，c2，…，ck)，也可以按某種特定方式指定聚類中心；(10.2)樣本歸類，對每一個樣本xi，找到距離其最近的聚類中心cv，并將其分配到標(biāo)明的類簇中；(10.3)修正cv，將每一個cv移動到其標(biāo)明的類的中心，同時更新聚類中心的值，計算出新舊聚類中心的偏差，(10.4)判斷收斂性，如果d值收斂，則算法終止；否則，返回步驟(10.2)；11、根據(jù)步驟10得到的視覺單詞，采用k-dtree進行特征量化，步驟如下：(11.1)確定split域(分割域)，對于所有的特征向量，統(tǒng)計它們在每個維上的數(shù)據(jù)方差；(11.2)挑選出最大的方差，對應(yīng)的維就是split域，數(shù)據(jù)方差大表明沿該坐標(biāo)軸方向上的數(shù)據(jù)分散的比較開，在這個方向上進行數(shù)據(jù)分割有較好的分辨率；(11.3)確定node-data域(中間節(jié)點域)，將特征向量按照split域的值進行排序，選擇中間的那個數(shù)據(jù)點作為node-data；(11.4)劃分左子空間和右子空間，把所有在split域上的某一維小于等于node-data點的數(shù)據(jù)都劃分為左子空間，其他的劃分到右子空間；(11.5)重復(fù)以上步驟，k-dtree的構(gòu)建是一個遞歸的過程，對左子空間和右子空間的數(shù)據(jù)重復(fù)根節(jié)點的過程，就可以得到下一級子節(jié)點(也就是左子空間和右子空間的根節(jié)點)；(11.6)將空間和數(shù)據(jù)集進一步細分，如此反復(fù)到空間中只包含一個數(shù)據(jù)點，最后生成k-dtree；12、建立倒排索引，一個視覺單詞所對應(yīng)的倒排列表包含分配到該單詞的所有物體的編號(或指針等)；13、將物體的索引與圖像數(shù)據(jù)庫中索引目錄的進行比較，計算相似度，按照得分的高低進行排序，取前n幅得分最高的物體所在的圖像輸出，得到檢索結(jié)果。本發(fā)明采用物體檢測的圖像檢索方法，對圖像中的多個物體進行檢測，然后對它們分別進行檢索。該方法可以準(zhǔn)確的對圖像中的每一個物體進行檢索，找到所在的其他圖像，提高檢索靈活性和準(zhǔn)確度。下面通過仿真，對本發(fā)明的技術(shù)效果再做說明實施例8基于物體檢測的圖像檢索方法同實施例1-7本發(fā)明的效果可以通過以下實驗進一步說明：本發(fā)明的實驗環(huán)境和條件如下：cpu：amdathlon(tm)iix2250processor3.00ghzgpu：gtx750ti2.00ghz內(nèi)存：8g軟件環(huán)境操作系統(tǒng)：64位windows7開發(fā)平臺：matlab2014圖像數(shù)據(jù)庫使用手機進行拍攝(像素1300萬)，共2個類，分別是person(人)，car(汽車)，每類圖像分別有3個不同的物體，每個物體有五幅圖像，共3*5＝15幅，圖像數(shù)據(jù)庫中共有2*15＝30幅，然后再加入隨機選取的干擾圖像20幅，共50幅圖像。實驗內(nèi)容目前，在基于內(nèi)容的圖像檢索系統(tǒng)性能評價中，效率準(zhǔn)則和有效性準(zhǔn)則比較常用，它們分別代表圖像檢索的速度和查找相似圖像的成功率，假設(shè)a表示一次檢索過程中檢索到相關(guān)的圖像數(shù)目，b表示一次檢索過程中所檢索到的不相關(guān)圖像的數(shù)目，c為圖像數(shù)據(jù)庫中漏檢的相關(guān)圖像數(shù)目，這樣，系統(tǒng)的查全率和召回率可以由以下公式表示：召回率體現(xiàn)了圖像檢索技術(shù)的全面性，查準(zhǔn)率則反映了準(zhǔn)確性，所以，可以用查準(zhǔn)率和召回率來評價圖像檢索算法的性能。此外，采用map(平均準(zhǔn)確率)來衡量算法的整體性能，計算公式如下：其中，n表示檢索圖像中共有n幅正確圖像，在本發(fā)明中，n＝5，pi表示第i幅圖像的查準(zhǔn)率，附圖中共列出了前8幅檢索結(jié)果，但是在計算map時，本發(fā)明會計算檢索到第5幅正確的圖像時的查準(zhǔn)率，然后進行平均；計算查準(zhǔn)率和召回率時，只考慮前8幅圖像。參見圖3，根據(jù)圖3中的物體檢測結(jié)果，有car(車)和person1(人物1)，person2(人物2)，對上述物體進行檢索，圖中從左到右依次為person1，car，person2。利用本發(fā)明，對圖3中的物體person1，car，person2進行檢索，實驗過程中，采用本發(fā)明在圖像數(shù)據(jù)庫中檢索到包含相似物體的圖像，取前8幅相似度得分最高的圖像作為結(jié)構(gòu)輸出，參見圖4是針對person1得到的前8幅圖像、圖5針對person2得到的前8幅圖像，圖6針對car得到的前8幅圖像。物體person1出現(xiàn)在圖4a,圖4b，圖4e，圖4g和圖4h，物體person2出現(xiàn)在圖5a，圖5b圖5c，圖5f和圖5g，物體car出現(xiàn)在圖6a，圖6b，圖6c和圖6h中。參見圖4、5、6可見，在使用本發(fā)明時，對person1、person2和car檢索的結(jié)果，本發(fā)明對person和car的查準(zhǔn)率、召回率和平均準(zhǔn)確率都比較高?？偟膶嶒灲Y(jié)果如表1所示：表1采用本發(fā)明的實驗結(jié)果類別查準(zhǔn)率召回率平均準(zhǔn)確率(map)person162.50％100％75.92％person262.50％100％87.62％car50％80％81.11％表中更是用數(shù)據(jù)說明了本發(fā)明的查準(zhǔn)率、召回率和平均準(zhǔn)確率。從表1中的數(shù)據(jù)可以看出，person1和person2的查準(zhǔn)率和召回率一樣，都是62.50％和100％，說明在對圖像中的person進行檢索時，可以檢索到不同圖像中相同的person，在設(shè)定列出8個檢索結(jié)果的情況下，person的召回率都為100％，但是查準(zhǔn)率不是很高，可能是因為本發(fā)明采用的特征匹配的精度，在person的角度上看不高；而car的查準(zhǔn)率是50％，召回率是80％，說明找到了大部分其他圖像中的car；三個物體的平均準(zhǔn)確率分別為75.92％、87.62％和81.11％，準(zhǔn)確率還是很高的。實施例9基于物體檢測的圖像檢索方法同實施例1-7，仿真的條件和內(nèi)容同實施例8，圖7、8、9是未采用本發(fā)明物體檢測的圖像檢索方法，對person1、person2和car進行檢索的結(jié)果，紅色框表示錯誤的檢索結(jié)果，總的實驗結(jié)果如表2所示：表2未采用物體檢測的圖像檢索算法的實驗結(jié)果表2是沒有采用本發(fā)明物體檢測的情況下，采用的圖像檢索算法得到的結(jié)果。從表1和2的結(jié)果對比可得：表2的查準(zhǔn)率、召回率、map都比表1中的低，說明在沒有采用本發(fā)明物體檢測的情況下，由于是對整幅圖像進行的檢索，person和car只占了圖像中很少的一部分，其他的大部分都是干擾，所以檢索的準(zhǔn)確率不高，而且從圖8可以看出，返回的檢索結(jié)果都含有car，說明在圖像中，car所占據(jù)的面積比較大，所提取的特征也多，更容易被檢索出來，但是在對人進行檢索時，這些都是干擾，對檢索結(jié)果有很大影響?，F(xiàn)有的圖像檢索方法都是對整幅圖像進行檢索，沒有人為選取部分圖像進行檢索。本發(fā)明采用了物體檢測的方法，區(qū)分圖像中的前景和背景，只對圖像中的關(guān)鍵物體進行檢索，由于只提取了圖像中的部分信息，數(shù)據(jù)的運算量比較低，檢索的準(zhǔn)確率得到了很大的提升。簡而言之，本發(fā)明公開的一種基于物體檢測的圖像檢索方法，屬于計算機圖像處理
技術(shù)領(lǐng)域：
：，主要解決現(xiàn)有圖像檢索時未對圖像中多個物體分別進行檢索的問題。其檢索步驟為：(1)采用yolo算法對圖像數(shù)據(jù)庫中的圖像進行檢測，檢測出圖像中一個或多個物體(2)對圖像中被檢測出的1個或多個物體所在的位置范圍，提取sift和mser特征(3)把sift和mser特征結(jié)合，生成特征束(4)采用kmeans和k-dtree方法，把特征束生成視覺單詞(5)采用倒排索引方法，建立圖像數(shù)據(jù)庫中物體的視覺單詞索引，生成圖像特征庫(6)按照步驟(1)-(4)，生成查詢圖像中物體的視覺單詞(7)將查詢圖像中物體的視覺單詞與圖像特征庫中物體的視覺單詞進行相似性對比，按照相似性得分的高低，得到圖像數(shù)據(jù)庫中得分最高的前n個物體，輸出前n個物體所在的圖像，作為圖像檢索的結(jié)果。本發(fā)明能對圖像的單個物體檢索，還能對多個物體分別檢索，減少了背景干擾和圖像語義鴻溝，提高了準(zhǔn)確度，檢索速度和效率；用于圖像中某個具體物體，包括人物的圖像檢索，也可以用于互聯(lián)網(wǎng)圖像數(shù)據(jù)檢索。當(dāng)前第1頁12當(dāng)前第1頁12

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳煒;張宇;沙麗娜
技術(shù)所有人：西安電子科技大學(xué)
我是此專利的發(fā)明人

上一篇：可全方位傾斜的運動測試臺及控制方法與流程
上一篇：一種托輥靜平衡檢測工裝的制造方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

物體檢測方法相關(guān)技術(shù)

物體檢測的方法相關(guān)技術(shù)

物體檢測和分類的方法相關(guān)技術(shù)

物體檢測相關(guān)技術(shù)

運動物體檢測相關(guān)技術(shù)

物體檢測算法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于物體檢測的圖像檢索方法與流程