基于samme.rcw算法的人臉識別優(yōu)化方法
【專利摘要】基于SAMME.RCW算法的人臉識別優(yōu)化方法,首先對人臉圖像進(jìn)行特征提取,用圖像特征向量,使用SAMME.RCW算法進(jìn)行識別分類。針對SAMME.R算法的權(quán)值調(diào)整過程進(jìn)行修改,在重采樣發(fā)生時,保證每一類樣本的權(quán)值不能過小,其也使重采樣后的權(quán)值調(diào)整更加偏向于少數(shù)類樣本,保證了這些樣本的分類效果。SAMME.R算法對弱分類器性能的要求,在各類中分類正確的樣本權(quán)值大于任一其他類樣本的權(quán)值,其針對各個類別單獨(dú)進(jìn)行正確率的要求。通過對于在重采樣時權(quán)值分配的修改,保證了每一類樣本被選中的概率基本相同,同時保證了少數(shù)類和多數(shù)類樣本在弱分類器中的分類效果。得到最終的強(qiáng)分類器有效提高了人臉識別的準(zhǔn)確率。
【專利說明】
基于SAMME. RCW算法的人臉識別優(yōu)化方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于機(jī)器學(xué)習(xí)和模式識別技術(shù)領(lǐng)域,是利用訓(xùn)練數(shù)據(jù)集成構(gòu)建一個具有較 強(qiáng)泛化能力的預(yù)測方法,以期對新的未知對象給出精確估計。
【背景技術(shù)】
[0002] 人臉識別技術(shù)是圖像處理方面的重要技術(shù),是生物特征識別中較活躍的研究領(lǐng) 域。采用計算機(jī)視覺和圖像處理技術(shù),利用人臉的輪廓特征和局部細(xì)節(jié)特征,進(jìn)行人臉識 另|J。目前已經(jīng)在身份鑒別和權(quán)限控制等方面得到了應(yīng)用。然而識別率不高是一直妨礙人臉 識別技術(shù)廣泛應(yīng)用的重要原因。研究發(fā)現(xiàn)可以通過集成學(xué)習(xí)的方法來提高準(zhǔn)確率。集成學(xué) 習(xí)是一種新的機(jī)器學(xué)習(xí)范式,它使用多個基分類器來解決同一個問題。由于它能顯著提高 一個學(xué)習(xí)系統(tǒng)的泛化能力,從20世紀(jì)90年代開始,對集成學(xué)習(xí)理論和算法的研究一直是機(jī) 器學(xué)習(xí)領(lǐng)域中的熱點(diǎn)問題之一。
[0003] 人臉識別是一個經(jīng)典的多分類問題,采用傳統(tǒng)的分類方法,比如KNN算法,難以得 到滿意的分類效果。為此,提出了一個優(yōu)化的SAMME. R算法SAMME. RCW。該算法是一個集成學(xué) 習(xí)算法,以KNN算法為基分類器,通過不斷地學(xué)習(xí)以提升分類的準(zhǔn)確率。仿真實驗表明,該方 法比傳統(tǒng)的KNN算法準(zhǔn)確率有所提升。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于針對傳統(tǒng)的人臉識別技術(shù)(KNN算法)存在的識別率低的問題, 提出一種改進(jìn)的SAMME. R算法SAMME. RCW應(yīng)用于人臉識別中。
[0005] 為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是基于SAMME.R算法的人臉識別優(yōu)化方 法,具體而目,
[0006] 首先對人臉圖像進(jìn)行直方圖均衡化、特征提取和降維,即利用PCA算法對圖像進(jìn)行 特征提取和降維,同時在行與列上對圖像矩陣進(jìn)行降維,進(jìn)一步降低特征向量的維數(shù),有效 降低問題的時間復(fù)雜度。
[0007] 用降維后的矩陣數(shù)據(jù),使用SAMME. RCW算法進(jìn)行識別分類。針對SAMME. R算法的權(quán) 值調(diào)整過程進(jìn)行修改,在重采樣發(fā)生時,保證每一類樣本的權(quán)值不能過小,同時,也使重采 樣后的權(quán)值調(diào)整更加偏向于少數(shù)類樣本,保證了這些樣本的分類效果。SAMME.R算法對弱分 類器性能的要求,在各類中分類正確的樣本權(quán)值大于任一其他類樣本的權(quán)值,其針對各個 類別單獨(dú)進(jìn)行正確率的要求。因此,考慮在重采樣的權(quán)值分配時,應(yīng)給予每一類別相同的權(quán) 值,從而保證各類樣本都有相同的概率被選中,多數(shù)類樣本與少數(shù)類樣本擁有相同被選中 的概率,因此保證了少數(shù)類樣本的分類結(jié)果。同時,還解決了由于權(quán)值調(diào)整幅度過大導(dǎo)致的 重采樣問題,不至于某一類樣本無法被當(dāng)前弱分類器選中。通過對于在重采樣時權(quán)值分配 的修改,保證了每一類樣本被選中的概率基本相同,同時保證了少數(shù)類和多數(shù)類樣本在弱 分類器中的分類效果。由于其本身依舊以SAMME. R算法作為基礎(chǔ),也對本次弱分類器分類錯 誤樣本加大權(quán)值,使下次分類更加關(guān)注于本次錯分的樣本,從而滿足SAMME. R算法的基本原 理。
[0008] 流程圖見圖1,其具體步驟如下:
[0009] 步驟一:數(shù)據(jù)初始化
[0010] 1.1)對人臉庫中的所有圖像進(jìn)行歸一化處理,歸一化的操作是指先把圖像統(tǒng)一大 小為32 X 32灰度值矩陣,得到大小為1024 X 1的灰度值矩陣,用PCA算法降維得到大小為256 X 1的矩陣。初始化權(quán)值
_中!!!是圖像個數(shù),i是樣本標(biāo)號。
[0011] 步驟二:算法流程
[0012] 1、初始化權(quán)僧
[0013] 2、for t = l,...,T執(zhí)行以下(1)-(6)步。
[0014] (1)根據(jù)當(dāng)前權(quán)重訓(xùn)練弱分類器,并進(jìn)行分類,ht:x-y
[0015] (2)循環(huán)計算各類中,分到各類樣本的權(quán)值和:
[0016] (a)for k = 1, . . . ,Κ
[0017] (b)for j = 1, . . . ,Κ
[0018]
[0019] 其中γ tkj表示第t次迭代中,k類樣本被分到j(luò)類的比率。
[0020] 判斷各類中分類正確的樣本權(quán)值和是否大于分到其他各類的樣本的權(quán)值和
。若滿足,繼續(xù)循環(huán)。若不滿足,則對權(quán)值進(jìn)行類間歸一 化
j并返回步驟(1)重新開始計算。
[0021] (3)計算偽錯誤率:
[0025] (5)計算權(quán)值向量:[0026]
[0022]
[0023]
[0024] 12345 (6)歸一化nf1 2 步驟三:最終強(qiáng)分類器 3 3、 4
[0030]
5 其中C(x)為最終生成的強(qiáng)分類器,用于人臉識別分類,輸出分類結(jié)果。X為輸入的 人臉頭像數(shù)據(jù),T為迭代次數(shù),ht(x)為弱分類器,參數(shù)。
[0032]本發(fā)明的有益效果在于:(1)解決了SAMME.R算法重采樣的問題;(2)提高了弱分類 器的質(zhì)量;(3)利用本發(fā)明算法進(jìn)行分類識別可以提高分類準(zhǔn)確率即人臉識別率。
【附圖說明】
[0033]圖1是算法流程。
[0034] 圖2是SAMME圖示分析。
[0035] 圖3是SAMME.R圖示分析。
[0036] 圖4是SAMME.RCW圖示分析。
【具體實施方式】
[0037] 下面詳細(xì)給出該發(fā)明技術(shù)方案中所涉及的各個細(xì)節(jié)問題的說明:
[0038] SAMME算法要求弱分類器的正確率要大于1/LSAMME.R算法,在SAMME算法的基礎(chǔ) 上,還要求各類中正確分類的樣本權(quán)值要大于任意分到其他類的樣本的權(quán)值。從而保證每 一個弱分類器中,分類正確的樣本占多數(shù),縱向來看,根據(jù)大數(shù)定理可知,其保證了多次迭 代后,最終集成的強(qiáng)分類器正確率的提升。
[0039] SAMME.R算法對每次得到的弱分類器進(jìn)行限制,保證各類中正確分類的樣本權(quán)值 要大于任意分到其他類的樣本的權(quán)值,如果滿足該條件則繼續(xù)進(jìn)行權(quán)值調(diào)整和下一次迭 代。如果不滿足,則可能是由于訓(xùn)練出的弱分類器不夠好,可以在權(quán)值不變的情況下重新訓(xùn) 練弱分類器,然后再次判斷新的弱分類器是否滿足上邊所說的條件,如果滿足進(jìn)入下一次 調(diào)整,不滿足則重新訓(xùn)練弱分類器。
[0040] 在SAMME.R算法中重新訓(xùn)練弱分類器的方法,主要是利用重采樣來進(jìn)行。影響重采 樣所選樣本的因素,主要有樣本的權(quán)值和生成的隨機(jī)數(shù)。SAMME.R算法,通過多次重采樣調(diào) 整每次迭代的弱分類器,依靠的是每次隨機(jī)數(shù)的不同,從而生成不同的弱分類器。若某一次 恰好滿足條件,則可以進(jìn)入下一次迭代中。SAMME.R方法中,這種通過生成不同的隨機(jī)數(shù)的 方法有很大的偶然性,在權(quán)值分配比較極端的情況下,并不能夠保證一定能夠在有限次的 重采樣過程中找到滿足條件的弱分類器。因此,在SAMME.R算法中設(shè)置了重采樣次數(shù)限制, 若SAMME.R算法在有限次重采樣過程中,還無法找到滿足條件的弱分類器,則跳過當(dāng)次迭代 的重采樣過程,進(jìn)入下一次的迭代中。在某種極限的條件下,若SAMME.R算法多次迭代都無 法找到滿足條件的弱分類器,則無法保證最終強(qiáng)分類器效果的提升。
[0041 ]要解決重采樣無法成功的情況,首先,分析一下采樣的流程,算法會給予每個樣本 一定的權(quán)值,并進(jìn)行歸一化。歸一化后,使每個樣本在0-1的區(qū)間中,按其歸一化后的權(quán)值占 一定的區(qū)間范圍。算法隨機(jī)生成n(n為樣本數(shù))個0-1的隨機(jī)數(shù),若隨機(jī)數(shù)處于某樣本所屬范 圍內(nèi)時,則選中該樣本。由此,完成了有放回的采樣過程。其流程如下表:
[0042]
[0043] 基于有放回的采樣過程,通過不同的權(quán)值以及生成的隨機(jī)數(shù)完成重采樣過程。其 采樣后得到的新的樣本集合就是本次迭代中弱分類器的訓(xùn)練樣本集合。從上邊的例子中, 米樣后的結(jié)果中可以發(fā)現(xiàn),有些例子被重復(fù)選中,也有些例子沒有被選中。若存在一種可 能,當(dāng)某一類的樣本極少或沒有被選中,則該類樣本在進(jìn)行分類時,有很大的可能被分錯。 因此其生成的弱分類器將不滿足SAMME.R算法的限制,隨后發(fā)生重采樣過程。通過重采樣過 程,隨機(jī)生成不同的隨機(jī)數(shù),有一定的可能消除某類樣本被少量或未被選中的情況。但當(dāng)此 類樣本權(quán)值過小時,此類樣本被選中的概率仍然很小,很可能無法通過重采樣過程滿足 SAMME.R算法的限制。
[0044] SAMME.R算法為什么會出現(xiàn)無法通過重采樣的情況,其根本原因就在于權(quán)值的分 配不均勻,導(dǎo)致某些類樣本的權(quán)值過小,無法在采樣時被選中,從而發(fā)生分類錯誤。
[0045] 由于SAMME.R算法權(quán)值調(diào)整的基礎(chǔ)與SAMME算法相同,首先對比一下Adaboost.Ml 算法與SAMME算法在權(quán)值調(diào)整時的差異。Adaboost.Ml算法要求每次迭代弱分類器的正確率 必須大于1/2,但尋找這類弱分類器十分困難,SAMME算法為了使每次迭代對弱分類器的正 確率的限制從大于1/2,降低到大于Ι/k,其對權(quán)值調(diào)整策略進(jìn)行了修改。SAMME算法通過改 變權(quán)值調(diào)整策略£it的計算方法,令^ =ln ,從而有別于Adaboost.Ml算法中的權(quán) 值分配策略^ = °SAMME算法與Adaboost .Ml算法看上去比較相似,其不同點(diǎn)在于&的 計算公式中多加了 ln(k-l)項。當(dāng)k為2時(也就是兩類問題),其權(quán)重分配策略與Adaboost算 法相同。在k(k>2)類別分類問題中,由于加上ln(k-l)項,SAMME算法中的弱分類器正確率 不再要求大于1/2,而是大于Ι/k即可,這使得SAMME算法在解決多分類問題時的適用范圍更 廣泛。但也正是由于其加大了權(quán)值調(diào)整因子&,使得在每次迭代中,分類錯誤的樣本權(quán)值提 升比Adaboost. Ml算法更大,同時分類正確樣本的權(quán)值降低的速度也更快。從而造成各次迭 代間,弱分類器的波動性較大。若在某次迭代時的弱分類器的結(jié)果中,某類樣本分類正確率 較高,則在下一次迭代中勢必會降低其樣本的權(quán)值,由于SAMME算法對權(quán)值調(diào)整的幅度較 大,該類樣本的權(quán)值下降的幅度也就更大,因此更容易出現(xiàn)由于權(quán)值過小導(dǎo)致的樣本無法 被選中的情況,以至于當(dāng)前弱分類器無法對某些類樣本正確分類,從而在本次迭代中所生 成的弱分類器無論如何采樣也不能夠滿足SAMME.R算法的限制。
[0046] 通過對于Vowel及Segmentation等數(shù)據(jù)庫的實驗和觀察也證實了的猜測。在這兩 個數(shù)據(jù)集上,統(tǒng)計了每一次迭代中,每一類樣本被分類正確及分類錯誤的樣本數(shù),同時統(tǒng)計 了每類樣本在當(dāng)次迭代采樣中被選到的樣本數(shù)。
[0047]從實驗結(jié)果中發(fā)現(xiàn),在出現(xiàn)重米樣情況時,多是某一類樣本只有很少的一部分被 采樣選中,導(dǎo)致在該次迭代中,弱分類器在對該類樣本進(jìn)行分類時無法得到正確的結(jié)果。以 至于達(dá)不到SAMME.R算法對于弱分類器性能的要求。
[0048]因此,考慮在重采樣的權(quán)值分配時,應(yīng)給予每一類別相同的權(quán)值,從而保證各類樣 本都有相同的概率被選中,多數(shù)類樣本與少數(shù)類樣本擁有相同被選中的概率,因此保證了 少數(shù)類樣本的分類結(jié)果。同時,還解決了由于權(quán)值調(diào)整幅度過大導(dǎo)致的重采樣問題,不至于 某一類樣本無法被當(dāng)前弱分類器選中。通過對于在重采樣時權(quán)值分配的修改,保證了每一 類樣本被選中的概率基本相同,同時保證了少數(shù)類和多數(shù)類樣本在弱分類器中的分類效 果。由于其本身依舊以SAMME. R算法作為基礎(chǔ),也對本次弱分類器分類錯誤樣本加大權(quán)值, 使下次分類更加關(guān)注于本次錯分的樣本,從而滿足SAMME. R算法的基本原理。
[0049] 在Yale人臉庫上,使用改進(jìn)的SAMME.R算法,同傳統(tǒng)的KNN算法作對比,實驗結(jié)果如 下表:
[0050]
[〇〇511在人臉庫等數(shù)據(jù)集上的對比實驗表明,提出的SAMME. RCW算法的結(jié)果要好于KNN算 法,并且有效的提高了人臉識別準(zhǔn)確率。
【主權(quán)項】
1.基于SAMME. RCW算法的人臉識別優(yōu)化方法,其特征在于:具體而言, 首先對人臉圖像進(jìn)行直方圖均衡化、特征提取和降維,即利用PCA算法對圖像進(jìn)行特征 提取和降維,同時在行與列上對圖像矩陣進(jìn)行降維,進(jìn)一步降低特征向量的維數(shù),有效降低 問題的時間復(fù)雜度; 用降維后的矩陣數(shù)據(jù),使用SAMME. RCW算法進(jìn)行識別分類;針對SAMME. R算法的權(quán)值調(diào) 整過程進(jìn)行修改,在重采樣發(fā)生時,保證每一類樣本的權(quán)值不能過小,同時,也使重采樣后 的權(quán)值調(diào)整更加偏向于少數(shù)類樣本,保證了運(yùn)些樣本的分類效果;SAMME.R算法對弱分類器 性能的要求,在各類中分類正確的樣本權(quán)值大于任一其他類樣本的權(quán)值,其針對各個類別 單獨(dú)進(jìn)行正確率的要求;因此,考慮在重采樣的權(quán)值分配時,應(yīng)給予每一類別相同的權(quán)值, 從而保證各類樣本都有相同的概率被選中,多數(shù)類樣本與少數(shù)類樣本擁有相同被選中的概 率,因此保證了少數(shù)類樣本的分類結(jié)果;同時,還解決了由于權(quán)值調(diào)整幅度過大導(dǎo)致的重采 樣問題,不至于某一類樣本無法被當(dāng)前弱分類器選中;通過對于在重采樣時權(quán)值分配的修 改,保證了每一類樣本被選中的概率基本相同,同時保證了少數(shù)類和多數(shù)類樣本在弱分類 器中的分類效果;由于其本身依舊WSAMME. R算法作為基礎(chǔ),也對本次弱分類器分類錯誤樣 本加大權(quán)值,使下次分類更加關(guān)注于本次錯分的樣本,從而滿足SAMME. R算法的基本原理; 流程圖見圖1,其具體步驟如下: 步驟一:數(shù)據(jù)初始化 1.1)對人臉庫中的所有圖像進(jìn)行歸一化處理,歸一化的操作是指先把圖像統(tǒng)一大小為 32 X 32灰度值矩陣,得到大小為1024 X 1的灰度值矩陣,用PCA算法降維得到大小為256 X 1 的矩陣;初始化權(quán)值/ = 1,2,…,其中m是圖像個數(shù),i是樣本標(biāo)號; 步驟二:算法流程 1、 初始化權(quán)值i = l,2,...,m ; 2、 fo;r t = l,...,T執(zhí)行W下(1)-(6)步; (1) 根據(jù)當(dāng)前權(quán)重訓(xùn)練弱分類器,并進(jìn)行分類,ht: (2) 循環(huán)計算各類中,分到各類樣本的權(quán)值和: (a) for k= 1,. . . ,Κ (b) for j = 1,. . . ,Κ其中γ tw表示第t次迭代中,k類樣本被分到j(luò)類的比率; 判斷各類中分類正確的樣本權(quán)值和是否大于分到其他各類的樣本的權(quán)值和 丫4,化(Λ')二A'] > VYa,化〇') * y ;若滿足,繼續(xù)循環(huán);若不滿足,則對權(quán)值進(jìn)行類間歸一化并返回步驟(1)重新開始計算; (3) 計算偽錯誤率: ((5) 計算權(quán)值向量: wi戶wi · exp(a(t) · [[ht(xi)聲yi]] (6) 歸一化"wfi 步驟Ξ:最終強(qiáng)分類器 3、其中C(x)為最終生成的強(qiáng)分類器,用于人臉識別分類,輸出分類結(jié)果;X為輸入的人臉 頭像數(shù)據(jù),T為迭代次數(shù),ht(x)為弱分類器,aW為參數(shù)。
【文檔編號】G06K9/62GK105975902SQ201610219331
【公開日】2016年9月28日
【申請日】2016年4月9日
【發(fā)明人】楊新武, 袁順, 馬壯, 王聿銘
【申請人】北京工業(yè)大學(xué)