基于Centering Trick卷積限制玻爾茲曼機的物體識別方法
【專利摘要】本發(fā)明涉及基于centering?trick卷積限制玻爾茲曼機的物體識別方法,包括構造訓練數據庫,對圖像進行重構,進行白化預處理,采用融合centering?trick的CRBM模型對訓練集進行特征提取,將三維特征矩陣變換為一維特征向量,采用Softmax分類器對特征進行分類,獲取測試集并對其進行重組和白化,計算池化層輸出所對應的假設值Si,根據Si是否等于測試集標簽判斷分類是否正確。本發(fā)明在特征提取過程中充分利用圖像自身的二維性及像素間的聯系,使用CRBM模型實現權重共享,減少了運算所需內存,提高了運算速度。利用centering?trick減少了每一層輸入時的噪聲,提高了運算的準確性和模型的穩(wěn)定性。
【專利說明】基于Center ing Tr ick卷積限制玻爾茲曼機的物體識別方法
【技術領域】
[0001]本發(fā)明屬于圖像識別【技術領域】,介紹一種融合centering trick(—種利用參數中心因子的數據預處理方法)的卷積限制玻爾茲曼機(Convolutional RestrictedBoltzmann Machine, CRBM)模型的物體識別方法。在利用CRBM提取圖像全局特征時融合centering trick,通過重構原始CRBM能量函數,以減小每次輸入時的噪聲,從而減小整個生成模型計算過程中的噪聲,并利用貪婪算法這一學習機制,使得模型更加穩(wěn)定并具有更好的生成特性。
技術背景
[0002]機器人技術作為20世紀人類最偉大的發(fā)明之一,自60年代初問世以來,歷經50多年的不斷發(fā)展,已成為高【技術領域】內具有代表性的戰(zhàn)略技術之一。人類有80%以上的信息是通過視覺獲得的,而機器人對自身所處環(huán)境的感知是機器人智能化的關鍵,因此,基于視覺的機器人環(huán)境感知的研究吸引了大量研究人員的參與,同時也取得了大量的研究成果。物體識別是移動機器人環(huán)境感知技術的基礎和核心,也是提高移動機器人智能化的關鍵技術。移動機器人需要在未知環(huán)境中通過視覺傳感器獲取周圍環(huán)境的圖像,然后對圖像中的物體進行識別和理解,進而執(zhí)行相應的任務。
[0003]特征提取是物體識別過程中的一個極為重要的環(huán)節(jié),其目的是完成圖像信息從數據空間到特征空間的轉換。在某種意義上,就物體識別任務而言,特征提取結果的好壞對識別結果起到至關重要的作用。通常,圖像的特征可以分為全局特征和局部特征。尺度不變特征轉換(Scale-1nvariant feature transform, SIFT)是視覺研究領域最為常用的特征提取方法之一,其對尺度、旋轉以及一定視角和光照變化等圖像變化都具有不變性,但是其實質仍然是人工定義的特征,所提取的特征具有一定的局限性。相較于局部特征的局限性,全局特征則可以較為全面地表達圖像整體信息。
[0004]早期常用的基于人工神經網絡(Artificial Neural Network, ANN)的全局特征提取方法是誤差反向傳播算法(Error Back Propagation, BP算法),它是一種前饋型神經計算模型,通過網絡調節(jié)其神經元權值,具有較強的計算能力,可以實現各種復雜映射。但是,由于它存在著如下問題:殘差經過層層傳遞,越來越??;容易收斂到局部最小值,且很容易過擬合;需要用有標簽的數據來訓練等。上述問題使得該類全局特征漸漸淡出了人們的視線。直至 2006 年,Hinton 和 Salakhutdinov 在論文“Reducing the dimensionality ofdata with neural networks” (Science, 2006, 313 (5786): 504-507)中提出 了深度學習的概念以及貪婪算法(Greedy Layerwise)訓練機制(即一層一層訓練,訓練前一層后,固定其參數,并將前一層的輸出作為下一層的輸入對下一層的網絡進行訓練,以此類推,直至訓練完整個網絡),全局特征才再次被學術界所重視。2009年,Salakhutdinov R.和HintonG.E.的會議論文 “Deep boltzmann machines” (International Conference on ArtificialIntelligence and Statistics.2009:448-455)提出深度玻爾茲曼機(Deep BoltzmannMachine, DBM),DBM模型的實質是RBM的累加實現了模型中每一層與其相鄰層之間的相互生成,訓練機制仍使用貪婪算法。但是RBM模型應用于真實圖像時,忽略了圖像的二維性,以及像素之間的聯系。
【發(fā)明內容】
[0005]針對現有技術中存在的輸入圖像噪聲過大以及忽略圖像自身二維性及其之間聯系的問題,本發(fā)明提出一種基于c e n t e r i n g t r i c k卷積限制玻爾茲曼機的物體識別方法,采用CRBM作為特征提取的基礎模型。與傳統(tǒng)的RBM模型將可視層輸入圖像、可視層、隱含層均視為行向量或列向量不同,見附圖1,CRBM模型仿照圖像的二維特性,將輸入層和隱含層的結構均定義為二維矩陣,見附圖2,這樣有效地保留了圖像內部局部區(qū)域之間的結構關系,并且可以利用較少的隱含層節(jié)點來實現對大尺寸圖像的表達;在輸入層利用centeringtrick減小每次輸入的噪聲,有效地提高模型的準確性,見附圖3 ;而隱含層則分為探測層和池化層,探測層對輸入圖像進行局部卷積,池化層利用最大概率池化(probabilisticmax-pooling),利用概率之間的相互表達,可以實現每一層與其相鄰層之間的彼此表達。
[0006]基于Centering Trick卷積限制玻爾茲曼機的物體識別方法,其特征在于在計算機中依次按以下步驟實現:
[0007]訓練階段,按以下步驟進行訓練:
[0008]步驟1,構造訓練數據庫,計算機采集并輸入NvXNv像素大小的物體圖像,并按物體類別劃分為N種類別、類別編號為I~N,每類物體圖像中包含T幅訓練圖像,構造訓練圖像集合,用Ptrain表 不,總數為:NX T = Q幅圖像;
[0009]步驟2,依次對Ptrain中的每幅圖像進行重構。將原有表示2維圖像的2維矩陣重構為4維矩陣。第1、2維分別表示高和寬,且圖像高與寬相等,因此均記作Nv ;第3維表示圖像的顏色,記為color,若圖像為RGB圖像color = 3,否則color = I ;第4維表示圖像的數量,即Q。重構好的圖像集表示記為data = {dataj, i = I, 2, 3,..., Q}, data %NvXNvX color X Q矩陣,其對應的標簽集合為L = {Li; i = 1,2,…,Q},集合L中的值可分為N類,對應訓練數據庫中的圖像的N個類別。
[0010]步驟3,對集合data中的圖像(Iatai進行白化預處理,即(Iatai的協(xié)方差矩陣除以其對角元素的值λ i的算術平方根。集合data白化后的結果記為datawhiteni= {data— i=1,2,3,...Q}。
[0011]步驟4,采用融合centering trick的CRBM模型對訓練集Ptrain進行特征提取,如附圖4所示,方法如下:
[0012]步驟4.1,將(Iatawhiteu隨機劃分為numbatches組,每一組含有numcases個圖像,新產生的小數據集記為batchdatan, η = I, 2, 3,…,numcases。numcases根據訓練集的大小可取10~100范圍內任意整十數,numbatches的取值為Q/Numcases,Q為訓練集中的樣本個數。
[0013]步驟4.2,可視層V、探測層h與池化層P形成CRBM網絡,如附圖3所示。在CRBM模型中,隱含層被分成K組,每組由NhXNh個二進制單元組成,因此隱含層的節(jié)點數為KN^每組又與NwXNw濾波器相連,且Nw 4 Nv-Nh + I。將探測層的每一組分成C*C塊,每一塊對應著池化層的節(jié)點Pk池化層每組的大小為Np,且Np = Nh/C。模型層數為Maxlayer,考慮到模型的復雜度,Maxlayer —般取3~7范圍內的任意整數。將batchdata作為可視層的輸入V,在輸入層引入centering trick算法,改進其能量函數的定義,并結合最大池化概率方法,計算隱含層和池化層。
[0014]步驟4.3,計算已知可視層V,探測層h的概率:
【權利要求】
1.基于Centering Trick卷積限制玻爾茲曼機的物體識別方法,其特征在于在計算機中依次按以下步驟執(zhí)行: 訓練階段,按以下步驟進行訓練: 步驟1,構造訓練數據庫;計算機采集并輸入NvXNv像素大小的物體圖像,并按物體類另O劃分為N種類別、類別編號為I~N,每類物體圖像中包含T幅訓練圖像,構造訓練圖像集合,用Ptrain表示,總數為:NXT = Q幅圖像; 步驟2,依次對Ptrain中的每幅圖像進行重構;將原有表示2維圖像的2維矩陣重構為4維矩陣;第1、2維分別表示高和寬,且圖像高與寬相等,均記作Nv ;第3維表示圖像的顏色,記為color,若圖像為RGB圖像color = 3,否則color = I ;第4維表示圖像的數量,即Q ;重構好的圖像集表示記為 data = Watai, i = I, 2, 3,..., Q}, data 為 NvXNvXcolorXQ 矩陣,其對應的標簽集合為L = ILi, i = 1,2,…,Q},集合L中的值可分為N類,對應訓練數據庫中的圖像的N個類別; 步驟3,對集合data中的圖像(Iatai進行白化預處理,即(Iatai的協(xié)方差矩陣除以其對角元素的值入i的算術平方根;集合data白化后的結果記為datawhiteni = {datawhitenji, i =1,2,3,…,Q}; 步驟4,采用融合centering trick的CRBM模型對訓練集Ptadn進行特征提取,方法如下: 步驟4.1,將(Iatawhiteu隨機劃分為numbatches組,每一組含有numcases個圖像,新產生的小數據集記為batchdatan,n = I, 2,3,…,numcases ;numcases根據訓練集的大小可取10~100范圍內任意整十數,numbatches的取值為Q ? Numcases, Q為訓練集中的樣本個數; 步驟4.2,可視層V、探測層h與池化層P形成CRBM網絡;在CRBM模型中,隱含層被分成K組,每組由NhXNh個二進制單元組成,因此隱含層的節(jié)點數為KN^,每組又與NwXNw濾波器相連,且Nw SNv-Nh + I;將探測層的每一組分成C*C塊,每一塊對應著池化層的節(jié)點池化層每組的大小為Np,且Np = Nh/C ;模型層數為Maxlayer,考慮到模型的復雜度,Maxlayer 一般取3~7范圍內的任意整數;將batchdata作為可視層的輸入V,在輸入層引入centering trick算法,改進其能量函數的定義,并結合最大池化概率方法,計算隱含層和池化層; 步驟4.3,計算已知可視層V,探測層h的概率,公式如下:
【文檔編號】G06K9/66GK104036242SQ201410241967
【公開日】2014年9月10日 申請日期:2014年6月3日 優(yōu)先權日:2014年6月3日
【發(fā)明者】楊金福, 高晶鈺, 張珊珊, 李明愛, 張濟昭 申請人:北京工業(yè)大學