一種對圖像中目標進行分類的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種對圖像中目標進行分類的方法及系統(tǒng)。所述方法包括步驟:A.對圖像中的目標進行粗定位,大致確定目標的區(qū)域位置;B.在粗定位目標的基礎上確定目標大概可能位置區(qū)域;對包含目標的可能位置區(qū)域進行打分評估;類目標映射圖并進行顯著性目標最優(yōu)化獲得目標映射圖;搜索二值化分割圖像目標輪廓確定目標的精確位置,確定目標精確區(qū)域;C.根據圖像中目標精確區(qū)域計算特征參數(shù)或輸入訓練的識別模型,對目標進行分類或識別。本發(fā)明提出先粗定位后精確定位的框架,在圖像上根據圖像邊緣特征計算出很多個目標可能存在的區(qū)域并結合計算目標顯著性映射圖的方式確定目標的精確位置。
【專利說明】
一種對圖像中目標進行分類的方法及系統(tǒng)
技術領域
[0001] 本發(fā)明涉及一種對圖像中目標進行分類的方法及系統(tǒng)。
【背景技術】
[0002] 圖片和視頻作為一種非結構化的數(shù)據,給人們的快速瀏覽和檢索帶來了很大的挑 戰(zhàn)。尤其是在互聯(lián)網視頻行業(yè)和專用視頻監(jiān)控行業(yè)都有海量的視頻數(shù)據,人們要在視頻或 互聯(lián)網中的海量圖片中瀏覽和查找特定的目標將是非常耗費時間的事情。迫切需要人工智 能技術應用在視頻和圖片的結構化處理上。因此現(xiàn)有技術中存在如下需求:對圖像中目標 進行精確定位和識別,并以此分類。
【發(fā)明內容】
[0003] 為解決上述問題,本發(fā)明通過先粗定位后精確定位的技術,獲得目標在圖像上的 精確位置區(qū)域,為目標的識別和分類以及高級語義分析提供基礎。進一步的,如果通過訓練 樣本訓練獲得分類器,那么對目標進行分類時更準確。
[0004] 本專利所提出的目標精確定位技術與現(xiàn)有的目標檢測模式有顯著不同:1)本專利 是通過邊緣特征計算確定很多個目標大概可能的位置。2)對目標大概可能的位置進行分析 評估給出包含目標的可能性概率。3)根據區(qū)域包含目標的可能性概率計算獲取類目標映射 圖,通過自動閾值分割的方法獲取目標區(qū)域的分割圖像,搜索圖像中的輪廓確定目標的精 確位置。
[0005] 本發(fā)明提供的一種對圖像中目標進行分類的方法及系統(tǒng)是這樣實現(xiàn)的:
[0006] -種對圖像中目標進行分類的方法,該方法包括步驟:
[0007] a.對圖像中的目標進行粗定位,大致確定目標的區(qū)域位置;
[0008] b.在粗定位的基礎上進行精確定位,確定目標精確區(qū)域;
[0009] c.根據所述目標精確區(qū)域計算特征參數(shù)或訓練識別模型,從而根據特征參數(shù)或識 別模型對目標進行分類。
[0010] -種對圖像中目標進行分類的系統(tǒng),包括:
[0011]原始視頻或圖片獲取模塊,用于:從其他內部或外部系統(tǒng)獲取待處理分析的原始 視頻或圖片數(shù)據,將不同格式的視頻或圖像轉換成統(tǒng)一格式的視頻或圖片數(shù)據,并從該原 始視頻和圖片數(shù)據中獲取所需要進行目標定位和識別的圖像;
[0012] 粗略定位目標區(qū)域模塊,用于從圖像中大致定位出目標大概位置區(qū)域;
[0013] 目標大概位置區(qū)域打分評估模塊,用于計算目標大概位置區(qū)域包含目標的概率 值;
[0014] 目標候選框建立類目標映射圖模塊,用于根據目標候選框和超級像素的目標概率 值計算類目標映射圖;
[0015] 前景目標和背景優(yōu)化模塊,用于根據超級像素顯著性分析計算顯著目標的映射 圖;
[0016] 目標映射圖閾值分割模塊,用于自動化閾值分割目標映射圖精確定位目標位置;
[0017] 目標識別模塊,完成目標的分類和識別。
[0018] 通過上述技術方案可知,本發(fā)明具有以下特點與優(yōu)點:
[0019] 1、本方法由于是類似人類直觀感知目標的位置方式,直接計算發(fā)現(xiàn)目標的大概位 置,這與目標檢測的傳統(tǒng)方法存在本質的不同。目標檢測的傳統(tǒng)方法是計算底層特征,從圖 像左上角開始掃描通過分類器發(fā)現(xiàn)與模板底層特征距離最近的區(qū)域作為目標檢測候選區(qū) 域。
[0020] 2、由于本方法無需從圖像上到下左到右窗口滑動掃描圖像,可以大大降低搜索計 算時間。通過分析評估目標可能存在的位置,確定目標的精確位置速度會很快。對海量視頻 或圖片而言,計算時間直接影響算法的性能和使用效率。
【附圖說明】
[0021] 圖1為本發(fā)明實施例1的流程圖;
[0022] 圖2為本發(fā)明實施例2的模塊工作流程圖;
[0023]圖3為本發(fā)明實施例2中計算目標大概位置區(qū)域打分評估模塊流程圖;
[0024]圖4為本發(fā)明實施例2中目標大概位置區(qū)域候選框映射圖計算模塊流程圖;
[0025]圖5為本發(fā)明實施例2中前景和背景目標優(yōu)化模塊流程圖;
[0026] 圖6為本發(fā)明實施例2中目標識別模塊流程圖;
[0027] 圖7為本發(fā)明實施例3-種對圖像中目標進行分類的系統(tǒng)的結構框圖。
【具體實施方式】
[0028] 本發(fā)明的中心思想是:通過邊緣特征計算確定大量目標可能大概的位置區(qū)域,然 后對區(qū)域內的目標特征和利用相關性檢測算法對這些區(qū)域進行評估打分。建立這些區(qū)域的 類目標映射圖并進行自適應閾值的二值化圖像分割確定目標的精確位置。這樣可以大大較 少掃描窗口帶來的計算量,并且目標的定位更準確。
[0029] 為了使本技術領域的人員更好地理解本發(fā)明方案,下面結合附圖和實施方式對本 發(fā)明作進一步的詳細說明。
[0030] 對于本發(fā)明,待要進行處理的圖像來源于視頻或圖片,這些視頻或圖片可以是,但 不限于,常規(guī)的多媒體視頻文件,電視節(jié)目,電影和帶有聲音和視頻的網絡多媒體文件等, 也可以是從專用的視頻監(jiān)控系統(tǒng)中采集的視頻文件或圖像文件和網絡視頻監(jiān)控系統(tǒng)采集 的視頻文件或圖像文件。
[0031] 附圖1是本發(fā)明實施例1的流程圖,從附圖1可見,該方法主要包括步驟:
[0032]步驟S101:從原始視頻或圖片中確定所需要處理的圖像,并在圖像中粗略定位出 目標區(qū)域;
[0033] 粗略定位出目標區(qū)域的方法可以采用顏色分割算法或目標邊緣檢測算法以及兩 者的融合算法大致確定出目標的區(qū)域;
[0034] 步驟S102:在粗略定位出的目標區(qū)域上計算目標大概可能的位置區(qū)域并進行打分 評估;
[0035] 在粗略定位的區(qū)域上進行邊緣特征計算,利用相似邊緣特征搜索策略算法獲得N 個目標可能大概的位置區(qū)域。首先對區(qū)域內的輪廓邊緣進行分組,把近乎在一條直線上的 邊緣點集合成邊緣組,對N多個邊緣組進行相似性分組,將相似性高的邊緣組分到一個集合 中。計算每個邊緣組與目標大概位置區(qū)域的重疊權重,根據重疊權重計算目標大概位置區(qū) 域的分數(shù)值。設定分數(shù)值的閾值,將小于該閾值的目標大概可能的位置區(qū)域去掉;
[0036]步驟S103:根據包含目標大概可能的位置區(qū)域分數(shù)值建立類目標映射圖;
[0037]對圖像進行超像素分割后,計算每個像素屬于目標的可能性大小并用數(shù)值表示。 對每個超像素區(qū)域內統(tǒng)計每個像素的類目標可能性數(shù)值的和,通過自適應閾值后生成類目 標映射圖;
[0038]步驟S104:對類目標映射圖進行前景和背景的判別分析和優(yōu)化;
[0039]類模板映射圖的前景目標往往會丟失部分前景超級像素或包含部分背景超級像 素。計算前景超級像素的聯(lián)通性表征該像素是前景目超級像素之間的關聯(lián)性。通過設定代 價函數(shù)對類目標映射圖進行全局最優(yōu)化,代價函數(shù)包含三部分:前景計算部分,背景計算部 分和超級像素之間的光滑計算部分;
[0040] 步驟S105:對上述步驟獲取的圖像進行自適應二值化分割;
[0041] 對二值化分割后的圖像進行輪廓搜索,確定輪廓的精確位置作為圖像目標的精確 位置;
[0042] 步驟S106:對上述步驟獲取的目標進行識別。主要是完成目標的分類或識別。可以 采用深度學習的算法對目標進行訓練后識別輸入樣本的分類。
[0043]此外,在另一實施例中,本發(fā)明還提供了一種對圖像中目標進行分類的系統(tǒng),即, 本發(fā)明實施例2,附圖2為本發(fā)明實施例2中系統(tǒng)的工作流程圖,該系統(tǒng)包括粗略定位目標區(qū) 域模塊S201;該模塊從原始視頻或圖片中確定需要處理的圖像,并采用顏色分割算法或目 標邊緣檢測算法以及兩者的融合算法大致確定出目標在圖像上的位置區(qū)域。
[0044] 此外,在該實施例2中,還包括計算目標大概可能的位置區(qū)域并進行打分評估模塊 S202;該模塊在粗略定位的區(qū)域上進行邊緣特征計算,利用相似邊緣特征搜索策略算法獲 得N個目標可能大概的位置區(qū)域。首先對區(qū)域內的輪廓邊緣進行分組,把近乎在一條直線上 的邊緣點集合成邊緣組,對N多個邊緣組進行相似性分組,將相似性高的邊緣組分到一個集 合中。計算每個邊緣組與目標大概位置區(qū)域的重疊權重,根據重疊權重計算目標大概位置 區(qū)域的分數(shù)值。設定分數(shù)值的閾值,將小于該閾值的目標大概可能的位置區(qū)域去掉。具體該 模塊的詳細描述請見附圖3。
[0045] 此外,在該實施例2中,還包括根據包含目標大概可能的位置區(qū)域分數(shù)值建立類目 標映射圖模塊S203。該模塊對圖像進行超像素分割后,計算每個像素屬于目標的可能性大 小并用數(shù)值表示。對每個超像素區(qū)域內統(tǒng)計每個像素的類目標可能性數(shù)值的和,通過自適 應閾值后生成類目標映射圖。具體該模塊的詳細描述請見附圖4。
[0046] 進一步的,該實施例2中,還包括對類目標映射圖進行前景和背景的判別分析和優(yōu) 化模塊s204。該模塊對類模板映射圖的前景目標往往會丟失部分前景超級像素或包含部分 背景超級像素。計算前景超級像素的聯(lián)通性表征該像素是前景目超級像素之間的關聯(lián)性。 通過設定代價函數(shù)對類目標映射圖進行全局最優(yōu)化,代價函數(shù)包含三部分:前景計算部分, 背景計算部分和超級像素之間的光滑計算部分。具體該模塊的詳細描述請見附圖5。
[0047]更進一步的,本實施例2的系統(tǒng)中還包括對前述模塊處理后的圖像進行自適應二 值化分割模塊S205,該模塊主要是對二值化分割后的圖像進行輪廓搜索,確定輪廓的精確 位置作為圖像目標的精確位置。
[0048] 下面利用一個具體的目標定位、識別、分類的過程對本發(fā)明的方法及系統(tǒng)進行演 示,輸入的原始圖像一輛小車,粗略定位目標區(qū)域模塊S201首先粗略確定車輛的大致位置 區(qū)域,在該檢測區(qū)域上模塊S202計算目標大概可能的位置區(qū)域并進行打分評估,然后模塊 S203根據包含目標大概可能的位置區(qū)域分數(shù)值建立類目標映射圖,模塊S204對類目標映射 圖進行前景和背景的判別分析和優(yōu)化,最后模塊S205對圖像進行自適應二值化分割,搜索 圖像中的輪廓確定目標的精確位置。
[0049] 本發(fā)明的商業(yè)模式可以通過多種方式來實現(xiàn),包括但不限于,一種模式是圖像目 標精確定位和識別系統(tǒng)作為獨立的設備或服務提供給用戶,該設備或服務可以完成輸入視 頻或圖像。另一種模式是目標精確定位和識別系統(tǒng)可以作為程序駐留在用戶的計算處理設 備中,執(zhí)行目標精確定位和識別的任務。
[0050] 下面對實施例2所對應系統(tǒng)中各個模塊的工作流程進行了更為詳細具體的說明, 具體參見附圖3-6,這些附圖為實施例2中上述各模塊的工作流程圖。
[0051]附圖3是實施例2中計算目標大概可能的位置區(qū)域并進行打分評估模塊的工作流 程圖,在本發(fā)明一個更具體的實施實例中,該模塊在粗略定位的區(qū)域上進行邊緣特征計算, 首先對區(qū)域內的輪廓邊緣進行分組,把近乎在一條直線上的邊緣點集合成邊緣組,可以獲 得N多個邊緣組。進一步計算兩兩邊緣組之間的相似度,計算公式如下:
[0052] a(Si,Sj)= | cos(9i-0ij)cos(9j-0ij) | Y
[0053] 對每一對邊緣組Si和Sj,根據每個邊緣組內邊緣點的平均位置Xi和Xj和平均角度0i 和h計算兩個邊緣組的相似度,9^是兩個邊緣組平均位置^和幻之間的夾角,y是調整因 子,實施中設置為2,可以根據角度的變化調整相似度的靈敏性。如果兩個邊緣組間隔是2個 像素,設定它們的相似度為0。在實施中為了提高計算效率,相似度大于0.05的可以保存下 來,小于0.05的設定相似度為0。根據上述公式可以對N多個邊緣組進行相似性分組,將相似 性高的邊緣組分到一個集合中。
[0054]在本發(fā)明的不同實施實例中,計算每個邊緣組與目標大概位置區(qū)域的重疊權重, 根據重疊權重計算目標大概位置區(qū)域的分數(shù)值。設定分數(shù)值的閾值,將小于該閾值的目標 大概可能的位置區(qū)域去掉。
[0055]邊緣組集合用S表示,目標大概區(qū)域候選框用b表示,為了計算每個目標大概區(qū)域 候選框的分數(shù),首先計算邊緣組Si內所有邊緣的梯度mP之和nu,選取邊緣組Si內像素 p的位 置為5,對像素 P的選取可以是任意的。對每個邊緣組31,用一個0到1之間的數(shù)值表征該邊 緣組是否完全包含在目標候選區(qū)域內。如果邊緣組SdP包含在目標大概位置區(qū)域的矩形框 b中,Wb(Sl) = 1,否則Wb(Sl)=〇。目標大概位置區(qū)域的矩形框b邊界部分重疊的所有目標邊 緣記為Sb,對于所有si G Sb,wb (si) = 0,對于;^.茫的Si,它所有的像素不屬于b,因此,wb (si)=0。對于那些巧el?并且5^運&,計算wb(si)如下:
[0057] T是指從目標大概位置區(qū)域的矩形框b邊界開始到達Si的邊緣組序列集合,當然會 有很多個T,它的目標就是從這么多的路徑T中,尋找相似度最高的路徑,值得注意的是,在 某路徑T上,一旦出現(xiàn)相似度為0(這很容易出現(xiàn))的情況,這條路徑T就廢棄,所以能很快找 到合適的T。利用上述計算的w b(Sl),可以計算目標大概位置區(qū)域的分數(shù)值hb:
[0059] 公式中,bjPbh是目標大概位置區(qū)域候選框的寬度和高度。對大的候選框來講,會 包含更多的邊緣。K作為偏差補償調節(jié)因子,K取值為1.5。
[0060] 附圖4是本發(fā)明實施例2中目標大概位置區(qū)域候選框映射圖計算模塊的工作流程 圖,在本發(fā)明的一個更具體的實施實例中,該模塊主要計算候選框內某個像素是目標一部 分的可能性大小,目標大概位置區(qū)域候選框的分數(shù)表示該區(qū)域包含目標的可能性大小。像 素屬于目標可能性大小計算:
[0061 ] Pixobj(p)= Y.KG^y) i~\
[0062] K是包含該像素的所有候選框個數(shù),hb是候選框的分數(shù)值,Gi是候選框區(qū)域的高斯 濾波窗口。
[0063] 利用像素屬于目標可能性大小計算超級像素的目標分數(shù)值,也就是超級像素內的 所有像素分數(shù)值之和。計算如下:
[0065] Pi屬于超級像素區(qū)域R的像素值。超級像素可用通過SLIC方式計算獲取,該方法不 包含在本專利中。通過超級像素內像素值的計算可以構建目標映射圖,也就是將圖像中前 景和背景區(qū)分開。
[0066] 通過閾值分割上述目標映射圖,可以將前景目標的超級像素分出來。缺點是會包 含一些背景的小區(qū)域作為前景目標。為此定義前景連通性如下:
[0068] 上述公式中,d(R,Rk)表示超級像素 R和Rk之間的歐式最短距離,可以通過計算超級 像素區(qū)域的LAB顏色空間的平均值來獲得。N是超級像素個數(shù)。
[0069]附圖5是實施例2的系統(tǒng)中前景和背景目標優(yōu)化模塊的工作流程圖,解決把前景目 標檢測問題轉化為超級像素的顯著性數(shù)值優(yōu)化的問題。目標代價函數(shù)的優(yōu)化結果是把目標 區(qū)域標注為1,背景區(qū)域標注為0。在目標代價函數(shù)達到最小值時獲得超級像素的最優(yōu)顯著 映射圖(也就是目標)。假定N個超級像素的顯著性數(shù)值為^目標代價函數(shù)定義如 下:
[0071]目標代價函數(shù)包含三部分:前景項,背景項和光滑項。
[0072]前景項權重讓有較大前景概率的超級像素 Pi取值盡可能大(接近1)。前景項 定義如下:
[0074]背景項權重讓有較大背景概率ivf"的超級像素 Pi取值盡可能小(接近〇)。背景項 定義如下:
[0076]光滑項鼓勵超級像素顯著性數(shù)值盡可能連續(xù)。對每個相鄰的超級像素對(ij)權重 定義如下:
[0078]該項數(shù)值在光滑區(qū)域時取值大,在區(qū)域的邊界時取值小。a取值一般在[5,15]之 間,實驗中取10取得較好效果。y是優(yōu)化調整因子,可以控制忽略一些小區(qū)域。這三項權重因 子都是均方誤差,可以采用最小二乘法進行優(yōu)化獲得最優(yōu)顯著映射圖。
[0079]附圖6是本發(fā)明實施例2的系統(tǒng)中目標識別模塊的工作流程圖,該模塊主要是完成 目標的分類或識別。可以采用深度學習的算法對目標進行訓練后識別輸入樣本的分類。也 可以采用計算樣本的底層特征的方式對樣本進行分類識別。訓練識別模型是該模塊主要任 務。在精確確定目標的位置后,可以大大提高目標的識別準確率。
[0080]附圖7是本發(fā)明實施例3-種對圖像中目標進行分類的系統(tǒng)的結構框圖,其包括視 頻采集裝置101和原始視頻或圖片導入模塊102,計算處理裝置200。示例的,計算處理裝置 200進一步包括粗略定位目標區(qū)域模塊S201,目標大概位置區(qū)域打分評估模塊S202,目標大 概位置區(qū)域分數(shù)值建立類目標映射圖模塊S203,類目標映射圖進行前景和背景的判別分析 和優(yōu)化模塊s204,顯著映射圖像自適應二值化分割模塊S205,還包括,中央處理單元(CPU), 處理設備支撐電路板和存儲設備等。存儲設備包括動態(tài)或靜態(tài)隨機存儲器,電磁或半導體 的存儲器等。各個模塊在計算處理裝置中有具體的運行程序,通過運行這些程序,計算處理 裝置200對圖像中目標進行精確定位和識別。
[0081]以上公開的僅為本發(fā)明的優(yōu)選實施方式,但本發(fā)明并非局限于此,任何本領域的 技術人員能思之的沒有創(chuàng)造性的變化,以及在不脫離本發(fā)明原理前提下所作的若干改進和 潤飾,都應落在本發(fā)明的保護范圍內。
【主權項】
1. 一種對圖像中目標進行分類的方法,其特征在于,該方法包括步驟: a. 對圖像中的目標進行粗定位,大致確定目標的區(qū)域位置; b. 在粗定位的基礎上進行精確定位,確定目標精確區(qū)域; c. 根據所述目標精確區(qū)域計算特征參數(shù)或訓練識別模型,從而根據特征參數(shù)或識別模 型對目標進行分類。2. 如權利要求1所述的方法,其特征在于,優(yōu)選的,步驟a中所述圖像包括監(jiān)控系統(tǒng)采集 的視頻文件中采集幀數(shù)據保存的圖像,或其他視頻文件,或靜態(tài)圖片。3. 如權利要求1所述的方法,其特征在于,所述步驟b包括如下步驟: bl.計算大量的包含目標的可能位置區(qū)域,并對這些可能位置區(qū)域進行打分評估; b2.計算類目標映射圖和計算前景目標連通性; b3.計算優(yōu)化前景目標和背景后獲得前景目標的映射圖,確定目標的精確位置。4. 如權利要求3所述的方法,其特征在于,所述步驟bl包括如下步驟: bll.計算圖像的邊緣圖; b 12.在邊緣圖上搜索邊緣組集合; bl3.計算邊緣組集合的相似度; bl4.計算候選框邊緣重疊集合; bl5.計算邊緣組集合權重; bl6.計算目標候選框評估分數(shù)。5. 如權利要求3所述的方法,其特征在于,所述步驟b2包括如下步驟: b21.計算目標候選框內像素屬于目標概率; b22.計算超級像素屬于目標的分數(shù)值; b23.計算前景目標的連通性數(shù)值。6. 如權利要求3所述的方法,其特征在于,所述步驟b3包括如下步驟: b31.計算前景目標權重; b32.計算背景權重; b33.計算光滑項權重; b34.優(yōu)化目標代價函數(shù)在最小值時獲得目標映射圖。7. 如權利要求6所述的方法,其特征在于,所述步驟b34中采用最小二乘法優(yōu)化目標代 價函數(shù),在目標代價函數(shù)取得最小值時,計算超級像素值并生成目標映射圖。8. -種對圖像中目標進行分類的系統(tǒng),其特征在于,包括: 原始視頻或圖片獲取模塊,用于:從其他內部或外部系統(tǒng)獲取待處理分析的原始視頻 或圖片數(shù)據,將不同格式的視頻或圖像轉換成統(tǒng)一格式的視頻或圖片數(shù)據,并從該原始視 頻或圖片數(shù)據中確定所需要進行目標定位和識別的圖像; 粗略定位目標區(qū)域模塊,用于在圖像中大致定位出目標的大概位置區(qū)域; 目標大概位置區(qū)域打分評估模塊,用于計算目標大概位置區(qū)域包含目標的概率值; 目標候選框建立類目標映射圖模塊,用于根據目標候選框和超級像素的目標概率值計 算類目標映射圖; 前景目標和背景優(yōu)化模塊,用于根據超級像素顯著性分析以計算顯著目標的映射圖; 目標映射圖閾值分割模塊,用于自動化閾值分割目標映射圖以精確定位目標位置; 目標識別模塊,完成目標的分類和識別。9. 如權利要求8所述的系統(tǒng),其特征在于,該系統(tǒng)用于執(zhí)行權利要求5所述的對圖像中 目標進行精確定位和識別的方法,具體的,所述粗略定位目標模塊執(zhí)行步驟a,所述目標大 概位置區(qū)域打分評估模塊執(zhí)行步驟bl,所述目標候選框建立類目標映射圖模塊執(zhí)行步驟 b2,所述前景目標和背景優(yōu)化模塊以及所述目標映射圖閾值分割模塊配合執(zhí)行步驟b4,所 述目標識別模塊執(zhí)行步驟c。10. 如權利要求8所述的系統(tǒng),其特征在于,該系統(tǒng)還包括:視頻或圖片采集模塊。
【文檔編號】G06K9/62GK105913082SQ201610217716
【公開日】2016年8月31日
【申請日】2016年4月8日
【發(fā)明人】張洪慶
【申請人】北京邦焜威訊網絡技術有限公司