一種基于廣義均值的魯棒典型相關(guān)分析算法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于廣義均值的魯棒典型相關(guān)分析算法,主要解決基于歐氏距離的傳統(tǒng)典型相關(guān)分析算法對(duì)野值點(diǎn)非魯棒的問(wèn)題,以及高維小樣本引起樣本協(xié)方差奇異問(wèn)題。實(shí)現(xiàn)過(guò)程為:(1)輸入必要的參數(shù),并且對(duì)訓(xùn)練樣本進(jìn)行中心化處理;(2)求解傳統(tǒng)典型相關(guān)分析的兩組投影集;(3)基于廣義均值重構(gòu)模型的目標(biāo)優(yōu)化函數(shù),以抑制野值點(diǎn)對(duì)目標(biāo)函數(shù)的影響;(4)用線(xiàn)性迭代方法求解目標(biāo)函數(shù),其中使用傳統(tǒng)典型相關(guān)分析的兩組投影集進(jìn)行初始化;(5)將求得基于廣義均值的典型相關(guān)分析的兩組投影集用于樣本的特征抽取和降維。在多特征手寫(xiě)體數(shù)據(jù)庫(kù)(MFD)、人臉數(shù)據(jù)庫(kù)(ORL)和對(duì)象圖像數(shù)據(jù)庫(kù)(COIL?20)上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性。
【專(zhuān)利說(shuō)明】
-種基于廣義均值的魯棒典型相關(guān)分析算法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于特征抽取和數(shù)據(jù)降維技術(shù)領(lǐng)域,主要為典型相關(guān)分析算法的改進(jìn)優(yōu) 化。具體為一種基于廣義均值的魯棒典型相關(guān)分析算法,可應(yīng)用于機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù) 據(jù)挖掘及圖像處理等領(lǐng)域。
【背景技術(shù)】
[0002] 在模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域,維數(shù)約簡(jiǎn)(Dimensionality reduction,DR)-直是 研究的熱口之一。人們提出了大量的方法用于數(shù)據(jù)的降維,其中主成分分析(Principal component analysis,PCA)是最經(jīng)典的方法之一。但PCA關(guān)注的是單模態(tài)數(shù)據(jù)(Single-view data)的特征抽取與降維。隨著科技的發(fā)展,人們采集數(shù)據(jù)的手段更加的多樣化,同一事物 具有多元的表示形態(tài),例如某人的信息可W由面部、字跡、指紋等屬性構(gòu)成。對(duì)于多模態(tài)數(shù) 據(jù)(Multi-view da1:a),典型相關(guān)分析(Canonical correlation analysis,CCA)更加適合 特征的抽取與融合。CCA是一種研究同一對(duì)象兩組變量之間相關(guān)性的多元統(tǒng)計(jì)方法,可用于 實(shí)現(xiàn)數(shù)據(jù)的特征抽取、降維和可視化。CCA通過(guò)最大化不同模態(tài)間的相關(guān)性,消除數(shù)據(jù)間的 冗余信息,提取重要特征,強(qiáng)化后續(xù)學(xué)習(xí)(如分類(lèi))任務(wù)的性能。近年來(lái),CCA及其衍生模型成 功應(yīng)用于人臉識(shí)別、氣象分析、生物信息融合和社會(huì)科學(xué)等領(lǐng)域。但CCA本質(zhì)上是一種線(xiàn)性 子空間的學(xué)習(xí)方法,其學(xué)習(xí)到的是一種全局線(xiàn)性情況下的線(xiàn)性特征。對(duì)于非線(xiàn)性的場(chǎng)景, CCA學(xué)習(xí)往往導(dǎo)致欠學(xué)習(xí)的結(jié)果。為此,S. Akaho結(jié)合核技術(shù)提出了核CCA化ernel CCA, KCCA),克服了CCA在非線(xiàn)性情況下的不足。2000年,San等人提出了局部線(xiàn)性嵌入化ocal linear embedding,IXE)的非線(xiàn)性降維方法,流形學(xué)習(xí)(Manifold learning,ML)從此得到 深入的研究。Sun等人引入流形學(xué)習(xí)中局部保持投影(;Locality preserving projection, LPP)的思想,保留數(shù)據(jù)中的流形結(jié)構(gòu)信息,提出一種局部保持的CCA化ocality preserving CCA,LPCCA),大大拓展了CCA在非線(xiàn)性情況下的應(yīng)用。盡管如此,CCA、KCCA和LPCCA都是基于 歐氏距離的方法,從多元線(xiàn)性回歸分析的角度看,它們的目標(biāo)優(yōu)化函數(shù)都是基于L2范數(shù)的 最小均方誤差(Mean square error,MSE)。然而,在現(xiàn)實(shí)場(chǎng)景中,野值點(diǎn)普遍存在于觀測(cè)的 數(shù)據(jù)集中。研究表明,采用L2范數(shù)的MSE的歐式距離方法對(duì)于野值點(diǎn)都存在著非魯棒性。而 且,CCA、KCCA和LPCCA最終轉(zhuǎn)化為廣義特征值求解,在高維小樣本情況下,其樣本協(xié)方差矩 陣極可能奇異,運(yùn)對(duì)算法的魯棒性帶來(lái)影響。
[0003] 廣義均值(Generalized mean,GM)是算術(shù)平均值的推廣形式。通過(guò)調(diào)節(jié)GM的P值可 W表現(xiàn)出多種數(shù)據(jù)的中屯、。J.Oh等人2013年在文獻(xiàn)(Generalized mean for feature extraction in one-class classification problems.Pattern Recognition,2013,46 ( 12) :3328-3340)中結(jié)合基于廣義均值提出了一種新穎的有偏鑒別分析(Biased discriminant analysis using generalized mean,抓AGM),增強(qiáng)正向樣本的作用,抑制野 值點(diǎn)的干擾。人臉實(shí)驗(yàn)證明,GM增強(qiáng)了算法的魯棒性,算法的性能得到了提升。
【發(fā)明內(nèi)容】
[0004] 為了解決傳統(tǒng)CCA、KCCA和LPCCA等典型相關(guān)算法普遍存在的對(duì)野值點(diǎn)非魯棒和高 維小樣本問(wèn)題,本發(fā)明提出一種基于廣義均值的魯棒典型相關(guān)分析算法(CCA based on general ized mean,GMCCA)。首先,提出投影空間中樣本之間的相關(guān)誤差概念,W更好地描 述投影后的樣本之間的相似程度;其次,基于廣義均值,由相關(guān)誤差重新構(gòu)建目標(biāo)函數(shù),替 換原始的基于L2范數(shù)的最小均方誤差的目標(biāo)函數(shù),得到新模型;最后,通過(guò)線(xiàn)性迭代的方法 求解新模型。在多特征手寫(xiě)體數(shù)據(jù)庫(kù)(Multiple feature database,MFD),人臉數(shù)據(jù)集 (0化)和對(duì)象特征數(shù)據(jù)庫(kù)(C0IL-20)=個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,新算法不僅具有更好的 魯棒性,而且避免了高維小樣本導(dǎo)致樣本協(xié)方差矩陣奇異的問(wèn)題。GMCCA算法具體可描述如 下:
[0005] (1)輸入一組大小為N的樣本集
,廣義均值的參數(shù)P,內(nèi) 部迭代總次數(shù)Tl和T2,外部迭代總次數(shù)T,降維后特征的維數(shù)d;
[00(?] (2)首先,計(jì)算樣本集X=(xi,x2,...,抑)與Y=(yi,y2,. . .,yN)的中屯、值:
[0007]
[000引并用杰和灰中屯、化X和Y:
[0009]
[0010] 為了統(tǒng)一性,將中屯、化后的X和F仍記為X=(xi,X2, . . .,XN)與Y=(yi,y2,..., Yn);
[0011 ] (3)傳統(tǒng)的典型相關(guān)分析(Canonical correlation analysis,CCA)是尋找兩組樣 本集X和Y的投影向量E W"和Wy e%",使得在投影空間中著兩組樣本集的特征具有最大 的相關(guān)性,其準(zhǔn)則函數(shù)如下所示:
[0012]
[0013]
[0014] 封正值問(wèn)題:
[0015]
[0016]
[0017] :系;
[001 引
[0019] 最后選取最大的前d個(gè)特征值所對(duì)應(yīng)的特征向量組合成兩組投影集Fr和巧r":
[0020]
[002。 可W看出,CCA的求解需要對(duì)Sxx和Syy求逆。但高維小樣本極易導(dǎo)致Sxx和Syy奇異,影 響CCA的性能;
[0022] (4)假設(shè)P聲0,對(duì)于一個(gè)標(biāo)量數(shù)據(jù)集{ai>0,i = l,2,...,N}的廣義均值Mg定義為如 下:
[0023]
[0024] 進(jìn)一步分析,廣義均值Mg中的;f>,P可W由數(shù)據(jù)集{ai}的一組非負(fù)的線(xiàn)性組合表 Z=I 示,如下所示:
[0025]
[0026]
[0027] bi可W看成ai的權(quán)重,即ai對(duì)Mg的貢獻(xiàn)值。當(dāng)p< 1時(shí),隨著ai越大,bi越小,意味著當(dāng) P<1時(shí),廣義均值Mg受{ai}中較小值的影響較大,并且P越小,影響越大。廣義均值的運(yùn)種性 質(zhì)在GMCCA抑制野值點(diǎn)的影響中起到主要作用。
[00%]定義如下所示的投影空間中樣本之間的相關(guān)誤差e(Wx,Wy):
[0029]
[0030] 結(jié)合上述的廣義均值和相關(guān)誤差,構(gòu)建如下基于廣義均值的魯棒典型相關(guān)分析 (CCA based on eeneralized mean.GMCCA)的目*術(shù)化化函數(shù);
[0031]
[0032]
[0033]
[0034]
[0035] 求解上述的目標(biāo)函數(shù),得出Wx和Wy。取Wx和Wy得前d列組成GMCCA的兩組投影集 巧r'wM和。從上式可W看出GMCCA魯棒性的本質(zhì):當(dāng)p<l時(shí),Qi的值隨相對(duì)誤差增大而 減小,因此,對(duì)于投影空間中相關(guān)誤差較大的樣本點(diǎn),即野值點(diǎn),賦予了較小的權(quán)重,抑制野 值點(diǎn)對(duì)準(zhǔn)則函數(shù)的不良影響,增強(qiáng)算法的魯棒性;
[0036] (5)利用步驟(4)求得的和w,s'"K"對(duì)原始樣本進(jìn)行特征抽取并降維:
[0037]
[00;3 引
[0039] 將X和f用于接下來(lái)的模式識(shí)別任務(wù)。
[0040] 上述的目標(biāo)函數(shù)通過(guò)一種線(xiàn)性迭代方法求解,該方法具體如下:
[OOW 假設(shè)當(dāng)前迭代的次數(shù)ti = t2 = t = 0;第t次迭代得到的Wx和Wy分別為陳-W和的'>,并 初始
;
[0043]
[0042] 首先固定W, = W、W通過(guò)如下的極小值問(wèn)題求得:
[0044] ")
[0045]
[0046] 即是記最大的d個(gè)特征值對(duì)應(yīng)的正交特征向量集;
[0047] 此時(shí),用去更新Wx。固定W,,二同理,Wf**通過(guò)如下的極小值問(wèn)題求得: [004引
[0049] (2)
[(K)加 ]
[0051 ]至此可得,求解Wx和Wy的線(xiàn)性迭代算法如下:
巧(1)求得&最最大的^個(gè)特征值對(duì)應(yīng)的正交特征向量集
[0 化 2] 巧(2)求得&最最大的個(gè)特征值對(duì)應(yīng)的正交特征向量集
[0053] 從上述的線(xiàn)性迭代方法中可W看出,GMCCA不同于傳統(tǒng)的CCA,GMCCA的兩組特征投 影集是分開(kāi)求解獲得的,Wx和Wy并無(wú)CCA中的等式關(guān)系。Wx和Wy分別是樣本集X和Y的加權(quán)協(xié) 方差最大的d個(gè)特征值對(duì)應(yīng)的正交特征向量集。而且,整個(gè)求解過(guò)程并不設(shè)及對(duì)樣本集X和Y 的協(xié)方差矩陣的求逆。因此,GMCCA避免了在傳統(tǒng)CCA中高維小樣本引起樣本協(xié)方差矩陣奇 異的問(wèn)題
[0054] 本發(fā)明具有W下優(yōu)點(diǎn):
[0055] (1)通過(guò)廣義均值抑制野值點(diǎn)對(duì)目標(biāo)優(yōu)化函數(shù)的影響。
[0056] (2)保留了歐氏距離的樣本旋轉(zhuǎn)不變性。
[0057] (3)GMCCA避免了高維小樣本問(wèn)題導(dǎo)致樣本協(xié)方差矩陣奇異的問(wèn)題。
【附圖說(shuō)明】
[0058] 圖1是本發(fā)明的實(shí)現(xiàn)流程圖;
[0059] 圖2是ORL人臉數(shù)據(jù)庫(kù)中一個(gè)人的6幅圖像;
[0060] 圖3是選取0化每類(lèi)前4幅圖像訓(xùn)練,GMCCA與其他4種算法在O-L特征組合下隨維數(shù) 變化的識(shí)別結(jié)果;
[0061] 圖4是選取0化每類(lèi)前4幅圖像訓(xùn)練,GMCCA與其他4種算法在O-H特征組合下隨維數(shù) 變化的識(shí)別結(jié)果;
[0062] 圖5是選取0化每類(lèi)前4幅圖像訓(xùn)練,GMCCA與其他4種算法在レH特征組合下隨維數(shù) 變化的識(shí)別結(jié)果;
[0063] 圖6是C0IL-20中20個(gè)對(duì)象圖像;
[0064] 圖7是選取C0IL-20每類(lèi)前25幅圖像訓(xùn)練,GMCCA與其他4種算法在O-L特征組合下 隨維數(shù)變化的識(shí)別結(jié)果;
[0065] 圖8是選取C0IL-20每類(lèi)前25幅圖像訓(xùn)練,GMCCA與其他4種算法在O-H特征組合下 隨維數(shù)變化的識(shí)別結(jié)果;
[0066] 圖9是選取CO化-20每類(lèi)前25幅圖像訓(xùn)練,GMCCA與其他4種算法在レH特征組合下 隨維數(shù)變化的識(shí)別結(jié)果;
【具體實(shí)施方式】
[0067] 為了闡明本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn),W下結(jié)合具體實(shí)施例及附圖,對(duì)本發(fā)明 做進(jìn)一步詳細(xì)說(shuō)明。
[0068] 參照?qǐng)D1,本發(fā)明的具體實(shí)施過(guò)程包括W下步驟:
[0069] (l)輸入一組大小為N的樣本集{知y,.)借,.Y,eW"o,,EW',廣義均值的參數(shù)p,內(nèi) 部迭代總次數(shù)Tl和T2,外部迭代總次數(shù)T,降維后特征的維數(shù)d;
[0070] (2)首先,中屯、化樣本集X=(xi,x2,...,抑)與Y=(yi,y2, . . .,yN):
[007U 計(jì)算樣本集X=(Xl,X2,...,XN)與Y=(yl,y2,...,yN)的中屯、值:
[0072]
[0073] 并巧X巧y中如化X巧Y,
[0074]
[0075] 為了統(tǒng)一'性,將中屯、化后的克和f仍記為X=(xi,X2, . . .,XN)與Y=(yi,y2,..., Yn);
[0076] (3)傳統(tǒng)CCA的目標(biāo)函數(shù)如下所示:
[0077]
[007引
[0079] 上式轉(zhuǎn)化為如下的兩個(gè)廣義特征值問(wèn)題:
[0080]
[0081]
[0082] 最后選取最大的前d個(gè)本征特征值所對(duì)應(yīng)的特征向量組合成兩組投影集WT'和 欺;畑;
[0083]
[0084] (4)假設(shè)P聲0,對(duì)于一個(gè)標(biāo)量數(shù)據(jù)集{ai>0,i = l,2,...,N}的廣義均值Mg定義為如 下:
[0085]
[0086] 且定義如下所示的投影空間中樣本之間的相關(guān)誤差e(Wx,Wy):
[0087]
[0088] 結(jié)合上述的廣義均值和相關(guān)誤差,構(gòu)建如下基于廣義均值的魯棒典型相關(guān)分析 (CCA based on generalized mean,GMCCA)的目標(biāo)優(yōu)化函數(shù):
[0089]
[0090]
[0091]
[0092]
[0093] 上述的目標(biāo)優(yōu)化函數(shù)通過(guò)一種線(xiàn)性迭代方法求解,該方法具體如下:
[0094] 假設(shè)當(dāng)前迭代的次數(shù)ti = t2 = t = 0;第t次迭代得到的Wx和Wy分別為抹乎'和味;!'>,并 初始化
[00對(duì)首先固定=Wfi, JT,哺過(guò)如下的極小值問(wèn)題求得:
[0096]
[0097] , 口)
[009引
[0099] 即Fffij是媒最大的d個(gè)特征值對(duì)應(yīng)的正交特征向量集;
[0100] 此時(shí),用時(shí)去更新Wx。固定巧二同理,嘯過(guò)如下的極小值問(wèn)題求得:
[0101]
[0102] (4)
[0103]
[0104] 至此可得,求解Wx和Wy的線(xiàn)性迭代算法如下:
式(3)求得義最最太的d個(gè)特征值對(duì)應(yīng)的正交特征向量集
[0…引 式(4)求得5^最最大的J個(gè)特征值對(duì)應(yīng)的正交特征向量集
[0106] 取Wx和Wy得前d列組成GMCCA的兩組投影集W;s"""和巧胃;
[0107] (5)利用步驟(4)求得的FFfiaa和WT""對(duì)原始樣本進(jìn)行特征抽取并降維:
[010 引
[0109]
[0110] 將1和F用于接下來(lái)的模式識(shí)別任務(wù)。
[0111] 本發(fā)明的效果可通過(guò)W下在真實(shí)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)進(jìn)一步說(shuō)明。
[0112] 1.實(shí)驗(yàn)說(shuō)明
[0113] 為驗(yàn)證GMCCA的有效性,本節(jié)在多特征手寫(xiě)體數(shù)據(jù)庫(kù)(Multiple feature database, M抑),人臉數(shù)據(jù)集(0化)和對(duì)象特征數(shù)據(jù)庫(kù)(CO化-20)S個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行實(shí) 驗(yàn),并與PCA、CCA、魯棒CCA(Robust CCA,R0CCA)、完備CCA(Complete CCA,C3A)和核誘導(dǎo)CCA (CCA based on kernel-induced measure,KI-CCA)進(jìn)行對(duì)比。ROCCA通過(guò)構(gòu)建近似矩陣代 替樣本協(xié)方差矩陣,消除高維小樣本問(wèn)題,身份識(shí)別的實(shí)驗(yàn)驗(yàn)證了 ROCCA的有效性。C3A克服 了 CCA可能丟失信息的問(wèn)題,提取出更加完備的典型相關(guān)信息。ROCCA用核誘導(dǎo)距離度量代 替?zhèn)鹘y(tǒng)CCA的歐氏距離度量,提高了算法魯棒性的同時(shí),又解決非線(xiàn)性問(wèn)題。
[0114] 在本文所有實(shí)驗(yàn)中,GMCCA的P設(shè)置為0.1,ti、t2和T分別設(shè)置為10、10和20。PCA需要 將2組特征首尾相連W形成新的高維特征向量,然后用PCA進(jìn)行特征提取,CCA、ROCCA、C3A、 KICCA和GMCCA提取特征后通過(guò)串聯(lián)的方式,即將兩組降維后的特征首尾相連地串接在一起 進(jìn)行識(shí)別分析。分類(lèi)器采用最近鄰分類(lèi)器。
[011引2.實(shí)驗(yàn)結(jié)果
[0116] 實(shí)驗(yàn)1多特征手寫(xiě)體實(shí)驗(yàn)
[0117] 本實(shí)驗(yàn)用多特征手寫(xiě)體數(shù)據(jù)集(MFD)測(cè)試GMCCA的性能。該數(shù)據(jù)集是UCI機(jī)器學(xué)習(xí) 知識(shí)庫(kù)的一個(gè)組成部分化ttp : //archive . ics . Uci . edu/ml/datasets/Multipie + 化atures),在手寫(xiě)體數(shù)字識(shí)別中具有重要價(jià)值。該數(shù)據(jù)庫(kù)包含0~9共10個(gè)數(shù)字的6個(gè)特征 數(shù)據(jù)集,每類(lèi)200個(gè)樣本,共2000個(gè)樣本,被廣泛應(yīng)用于模式識(shí)別和機(jī)器學(xué)習(xí)的研究。從二值 化手寫(xiě)體數(shù)字圖像中抽取6個(gè)特征,包括傅里葉系數(shù)、輪廓相關(guān)特征、Karhunen-Logve展開(kāi) 特征、像素平均、Zernike矩和形態(tài)學(xué)特征,其對(duì)應(yīng)的特征名稱(chēng)和維數(shù)分別為:(fou,76), (fac,216),化a;r,64),(pix,240),(ze;r,47) W及(mo;r,6)。在此數(shù)據(jù)集上,任選2組特征作為 輸入,共有15種組合方式。對(duì)于每個(gè)特征組合,從每類(lèi)中隨機(jī)選取100個(gè)樣本作為訓(xùn)練,剩下 的100個(gè)樣本作為測(cè)試。
[0118] 表1所示為6種算法在不同特征組合上的10次隨機(jī)實(shí)驗(yàn)的平均識(shí)別結(jié)果,每種算法 中的最佳識(shí)別率用黑體表示,下同。從表中所示的結(jié)果可W看出,在絕大多數(shù)的組合中 GMCCA算法的平均識(shí)別率優(yōu)于其他算法,尤其明顯高于CCA的識(shí)別效果,此外,15種組合的平 均識(shí)別率也高于其他算法。運(yùn)些結(jié)果驗(yàn)證了 GMCCA的有效性。在fou-pix、ka;r-pix、mo;r-pix 和mor-zer組合中,GMCCA的識(shí)別率低于其他算法,雖然GMCCA的識(shí)別率仍高于CCA,但也表示 GMCCA在一些特征組合中仍有不足之處。
[0119] 表1 6種算法在MFD實(shí)驗(yàn)中不同特征組合上的識(shí)別結(jié)果 「nion1
[0121] 實(shí)驗(yàn)20化人臉數(shù)據(jù)庫(kù)實(shí)驗(yàn)
[0122] 為了進(jìn)一步驗(yàn)證GMCCA的有效性,本實(shí)驗(yàn)選取人臉姿態(tài)變化較大的0化數(shù)據(jù)庫(kù) (http://www. cl. cam.ac .uk/research/dtg/attarchive/facedatabase .html)。該數(shù)據(jù)庫(kù) 是由英國(guó)劍橋Olivetti實(shí)驗(yàn)室從1992年4月到1994年4月期間拍攝的一系列人臉圖像組成, 共有40個(gè)不同年齡、不同性別和不同種族的對(duì)象。每個(gè)對(duì)象10幅圖像共計(jì)400幅灰度圖像組 成,圖像尺寸是92X112,圖像背景為黑色。其中人臉部分表情和細(xì)節(jié)均有變化,例如笑與不 笑、眼睛睜著或閉著,戴或不戴眼鏡等,人臉姿態(tài)也有變化,其深度旋轉(zhuǎn)和平面旋轉(zhuǎn)可達(dá)20 度,人臉尺寸也有最多10%的變化。該庫(kù)是目前使用最廣泛的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),它含有大量的比 較結(jié)果。圖2顯示了 WL數(shù)據(jù)庫(kù)中一個(gè)人的6幅圖像。
[0123] 實(shí)驗(yàn)中從每個(gè)人的10幅圖像中隨機(jī)選取4、5、6、7或8幅圖像作為訓(xùn)練,其余用作測(cè) 試;對(duì)每幅圖像抽取3組特征。其中,將原始圖像特征記為0;將原始圖像用局部二值模式 化ocal binary pattern,LBP)提取后的特征記為レ將原始圖像用方向梯度直方圖 巧istogram of Oriented Gradient,冊(cè)G)提取后的特征記為HeLBP和冊(cè)G特征及其組合特 征在人臉識(shí)別問(wèn)題上已被證明是有效的。為了避免奇異性問(wèn)題,用PCA將上述3種特征約減 至100維。
[0124] 表2所示為6種算法在巧巾特征組合上的10次隨機(jī)實(shí)驗(yàn)的平均識(shí)別結(jié)果,V'表示每 類(lèi)的訓(xùn)練樣本數(shù),下同。從表2可W看出,絕大數(shù)的情況下,GMCCA的識(shí)別效果在巧中不同組合 均優(yōu)于其他5種算法,并且比較所有組合的平均識(shí)別率,GMCCA也優(yōu)于其他5種算法。從表2中 還可W看出,GMCCA的識(shí)別效果比傳統(tǒng)的CCA有較大提高,尤其當(dāng)訓(xùn)練樣本數(shù)較少時(shí),如每類(lèi) 4個(gè)訓(xùn)練樣本。運(yùn)些結(jié)果表明GMCCA提取的特征更具有魯棒性,驗(yàn)證了方法的有效性。表2中 的結(jié)果也顯示了,有四種情況下,GMCCA的識(shí)別率略低于其他算法,但與最優(yōu)值十分接近。
[0125]表2 6種算法在WL人臉數(shù)據(jù)庫(kù)上的識(shí)別結(jié)果
[01261
[0127]再次選取ORL數(shù)據(jù)庫(kù)中每人的前4幅圖像進(jìn)行訓(xùn)練,剩余圖像用于測(cè)試,實(shí)驗(yàn)結(jié)果 如圖3、圖4、圖5所示。因?yàn)樵诒韼浧渌?種算法明顯優(yōu)于PCA,所W圖2、圖3和圖4只顯示了5 種典型相關(guān)算法在巧巾特征組合下隨維度變化的識(shí)別結(jié)果。從圖2、圖3和圖4可W看出GMCCA 優(yōu)于其他4種算法,尤其在維數(shù)較少的情況下,GMCCA的識(shí)別率明顯高于其他算法。從算法的 穩(wěn)定性角度,GMCCA也比其他4種算法較好。實(shí)驗(yàn)結(jié)果再次有效地驗(yàn)證了 GMCCA的魯棒性。
[01巧]實(shí)驗(yàn)3C0IL-20對(duì)象數(shù)據(jù)庫(kù)實(shí)驗(yàn)
[0129] 本節(jié)實(shí)驗(yàn)采用國(guó)際上被廣泛使用的C0IL-20對(duì)象數(shù)據(jù)庫(kù),CO比-20是哥倫比亞大學(xué) 的一個(gè)包含20個(gè)對(duì)象的圖像數(shù)據(jù)庫(kù)化ttp : //www. CS . Columbia . edu/CAVE/software/ sof 11ib/coi 1-20. php),該數(shù)據(jù)庫(kù)分別對(duì)每個(gè)對(duì)象從0°~360°進(jìn)行水平方向的旋轉(zhuǎn),每5° 采樣一幅圖像,每個(gè)對(duì)象共計(jì)采取72幅圖像,共計(jì)1440幅圖像。該數(shù)據(jù)庫(kù)已被成功地應(yīng)用于 模式識(shí)別和機(jī)器學(xué)習(xí)等領(lǐng)域,如數(shù)據(jù)的可視化、姿態(tài)的估計(jì)等。〇)化-20數(shù)據(jù)庫(kù)中的20個(gè)對(duì) 象如圖6所示。
[0130] 實(shí)驗(yàn)中,從每個(gè)對(duì)象的72幅圖像中隨機(jī)選取10、20、30、40和50幅圖像,剩下的圖像 用作測(cè)試。獨(dú)立進(jìn)行10次隨機(jī)實(shí)驗(yàn),然后計(jì)算其平均識(shí)別率。實(shí)驗(yàn)中對(duì)每幅圖像提取3組特 征。本次實(shí)驗(yàn)仍將原始圖像特征記為0;原始圖像用LBP提取后的特征記為L(zhǎng)將原始圖像用 HOG提取后的特征記為H。并執(zhí)行PCA將上述巧巾特征約減至50維。
[0131] 表3顯示了 6種算法在巧巾特征組合上的10次隨機(jī)實(shí)驗(yàn)的平均識(shí)別結(jié)果。從表3的實(shí) 驗(yàn)結(jié)果可W看出,GMCCA明顯優(yōu)于傳統(tǒng)的CCA。在絕大部分情況下,GMCCA比ROCCA效果略好。 表3中,CCA和C3A的識(shí)別率相當(dāng),說(shuō)明此數(shù)據(jù)集在PCA提取特征降維后,CCA能夠提取出完備 的特征信息,而GMCCA的識(shí)別率優(yōu)于CCA和C3A,也說(shuō)明GMCCA不僅提取出完備的特征信息,而 且提取出的特征更加具有魯棒性。在表3中仍有兩種情況下,GMCCA的識(shí)別率比其他算法略 低,但差異很小。并且,從整體平均識(shí)別率來(lái)看,GMCCA優(yōu)于其他5種算法。運(yùn)些實(shí)驗(yàn)結(jié)果驗(yàn)證 了GMCCA有效性和魯棒性。
[0132] 表3 6種算法在C0IL-20對(duì)象數(shù)據(jù)庫(kù)上的識(shí)別結(jié)果
[0133]
[0
[0135]再次選取C0IL-20數(shù)據(jù)庫(kù)中每個(gè)對(duì)象的前25幅圖像進(jìn)行訓(xùn)練,剩余圖像用于測(cè)試, 圖7、圖8和圖9顯示了 5中算法在3種特征組合下隨維度變化的識(shí)別結(jié)果。從3張圖的結(jié)果可 W看出GMCCA明顯優(yōu)于其他4種算法,相比傳統(tǒng)的CCA,識(shí)別率有了較大的提高,并且進(jìn)一步 驗(yàn)證了 GMCCA在維數(shù)較少時(shí)識(shí)別率比其他算法更高的結(jié)論。而且,GMCCA隨維數(shù)的增加,識(shí)別 率比其他4種算法更加趨于穩(wěn)定,運(yùn)些結(jié)果說(shuō)明GMCCA提取的特征更加具有魯棒性。注意到, CCA和C3A的Dimension-Reco即ition Rate折線(xiàn)是重合的,驗(yàn)證了表3中CCA和C3A的識(shí)別率 相當(dāng)?shù)慕Y(jié)論,說(shuō)明CCA可W從數(shù)據(jù)集中提取出完備的特征信息。運(yùn)也側(cè)面反映在CCA能夠提 取完備信息的同時(shí),GMCCA能抑制野值點(diǎn)的影響,提取出更加魯棒的特征。上述的實(shí)驗(yàn)結(jié)果 進(jìn)一步驗(yàn)證了GMCCA的有效性和魯棒性。
【主權(quán)項(xiàng)】
1. 一種基于廣義均值的魯棒典型相關(guān)分析算法,包括以下步驟: ⑴輸入一組大小為N的樣本集丨(X,,JaLyiTj ef,廣義均值的參數(shù)P,內(nèi)部迭 代總次數(shù)^和!^,外部迭代總次數(shù)T,降維后特征的維數(shù)d; ⑵首先,計(jì)算樣本集Χ=(χι,Χ2, · · ·,XN)與Y=(yi,y2, · · ·,yN)的中心值:為了統(tǒng)一1性,將中心化后的i和.F仍記為Χ=(χι,χ2, · · ·,xn)與Y=(yi,y2, · · ·,yN); (3) 獲取傳統(tǒng)的典型相關(guān)分析(Canonical correlation analysis,CCA)的兩組投影集 Mea和SCCA是尋找兩組樣本集X和Y的投影向量熊eJT和% efi',:使得在投影空間中 著兩組樣本集的特征具有最大的相關(guān)性,其準(zhǔn)則函數(shù)如下所示:并且Wx和Wy具有如下的等式關(guān)系: SxyWy-入 SxxWx,SyxWx-入 SyyWy 最后選取最大的前d個(gè)本征特征值所對(duì)應(yīng)的特征向量組合成兩組投影集(4) 假設(shè)p#0,對(duì)于一個(gè)標(biāo)量數(shù)據(jù)集{ai>0,i = l,2,. . .,N}的廣義均值Mg定義為如下:且定義如下所示的投影空間中樣本之間的相關(guān)誤差e(Wx,Wy):結(jié)合上述的廣義均值和相關(guān)誤差,構(gòu)建如下基于廣義均值的魯棒典型相關(guān)分析(CCA based on generalized mean,GMCCA)的目標(biāo)優(yōu)化函數(shù):求解上述的目標(biāo)優(yōu)化函數(shù),得出Wx和Wy。取Wx和Wy得前d列組成GMCCA的兩組投影集(5)利用步驟(4)求得的JFTifa和iff#2對(duì)原始樣本進(jìn)行特征抽取并降維:將i和f用于接下來(lái)的模式識(shí)別任務(wù)。2.如權(quán)利要求1所述的GMCCA算法,步驟(4)中GMCCA的目標(biāo)優(yōu)化函數(shù)按如下轉(zhuǎn)換:其中,I · I是絕對(duì)值函數(shù),保證<^的非負(fù)性。采用線(xiàn)性迭代的方法對(duì)上式求解,按如下的 步驟進(jìn)行:上式中兄是樣本集Y的加權(quán)協(xié)方差矩陣,if,〃^是尤最大的d個(gè)特征值對(duì)應(yīng)的正交特征向 (1)假設(shè)當(dāng)前迭代的次數(shù)乜=乜1 = 0;第t次迭代得到的Wx和Wy分別為時(shí)I和好f,并初 始化 量集。 此時(shí),用<+1)去更新wx。固定ITy = <+li,同理,通過(guò)如下的極小值問(wèn)題求得:(2) 至此可得,求解Wx和Wy的線(xiàn)性迭代算法如下:(3)根據(jù)步驟(2)的結(jié)果,GMCCA的兩組投影集 2 3 丨式⑴求得尤最最大的d個(gè)特征值對(duì)應(yīng)的正交特征向量集 4 5 6 7 ;式(2)求得$最最大的個(gè)特征值對(duì)應(yīng)的正交特征向量集8 9 1 1 1
【文檔編號(hào)】G06K9/62GK106022373SQ201610331173
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年5月18日
【發(fā)明人】葛洪偉, 顧高升, 李莉, 朱嘉鋼
【申請(qǐng)人】江南大學(xué)