亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于Universum結(jié)合矩陣Ho?Kashyap算法的圖像數(shù)據(jù)分類系統(tǒng)的制作方法

文檔序號:11691321閱讀:470來源:國知局
基于Universum結(jié)合矩陣Ho?Kashyap算法的圖像數(shù)據(jù)分類系統(tǒng)的制造方法與工藝

本發(fā)明涉及模式分類技術(shù)領(lǐng)域,尤其涉及一種對圖像數(shù)據(jù)集進(jìn)行識別處理的universum結(jié)合矩陣ho-kashyap算法與系統(tǒng)。



背景技術(shù):

模式識別是研究利用計算機來模仿或?qū)崿F(xiàn)人類或其它動物的識別能力,以便對研究對象完成自動識別的任務(wù)。近年來,模式識別技術(shù)已被廣泛應(yīng)用在人工智能、機器學(xué)習(xí)、計算機工程、機器人學(xué)、神經(jīng)生物學(xué)、醫(yī)學(xué)、偵探學(xué)以及考古學(xué)、地質(zhì)勘探、宇航科學(xué)和武器技術(shù)等許多重要領(lǐng)域。模式識別需要處理經(jīng)典問題之一是對二維數(shù)據(jù),即使用矩陣表示的數(shù)據(jù),進(jìn)行處理。在實際應(yīng)用中,矩陣表示的數(shù)據(jù)常見于圖像識別問題,例如人臉識別,指紋識別,或光譜識別。

傳統(tǒng)的模式分類方法在處理圖像問題時,需要首先將一個圖像樣本轉(zhuǎn)換為向量表示,再對向量化的樣本進(jìn)行處理。經(jīng)典的方法包括支持向量機(supportvectormachine,svm),主成分分析(principalcomponentanalysis),fisher線性判別(fisherlineardiscriminant)等。處理向量化后的圖像存在兩個主要問題:首先,將一個圖像轉(zhuǎn)換成向量后,向量的維度相對較高,對于特征提取領(lǐng)域的許多經(jīng)典方法來說,會出現(xiàn)小樣本問題,即數(shù)據(jù)集的規(guī)模遠(yuǎn)小于數(shù)據(jù)集的維度。例如,局保投影算法(locallypreservingprojection,lpp),fld,和pca等。這類算法需要涉及到特征值分解,而維度與樣本數(shù)的差異導(dǎo)致多元一次不定方程組求近似解問題。高維樣本也使得運算復(fù)雜度增加,且消耗更多的內(nèi)存來放置權(quán)重向量等參數(shù)。其次,將一個圖像轉(zhuǎn)換成向量后,圖像本身元素之間的空間結(jié)構(gòu)被破壞。由于圖像樣本的元素不同于向量樣本元素,不是對應(yīng)獨立定義的屬性,而是表示整個樣本在特定位置的像素信息。因此,破壞圖像原本的二維結(jié)構(gòu)在理論上會對分類精確度造成一定影響。

為了解決傳統(tǒng)模式識別方法在二維數(shù)據(jù)集上存在的問題,一些特定的方法被設(shè)計出來。在這些方法中,直接處理二維樣本的方法取得了較顯著成功。代表性方法有將傳統(tǒng)特征處理方法二維化的二維主成分分析(2dpca)及二維fisher線性判別(2dfld)等。同時,也有將經(jīng)典分類方法二維化的方法,例如支持張量機(supporttensormachine,stm)等。

目前,兩個方向的方法各有不足。第一類方法只在特征處理階段對數(shù)據(jù)集直接處理,主要目的是降維以避免或緩解小樣本問題,但在后續(xù)的分類階段仍然使用傳統(tǒng)方法進(jìn)行處理,這樣雖然部分解決了上文所述二維樣本向量化后出現(xiàn)的問題一,但無法解決問題二。第二類方法由于大多為非線性方法,往往結(jié)構(gòu)復(fù)雜,需要調(diào)整大量參數(shù)以獲取最優(yōu)值。而矩陣計算量是階數(shù)的三次方,這類方法在處理許多非線性步驟時涉及大量矩陣計算,因此時間復(fù)雜度極高。若能設(shè)計出結(jié)構(gòu)簡潔,參數(shù)較少,且能直接對二維數(shù)據(jù)進(jìn)行分類的方法,將會進(jìn)一步提高模式分類技術(shù)在圖像問題上的處理能力。



技術(shù)實現(xiàn)要素:

針對現(xiàn)有技術(shù)結(jié)構(gòu)復(fù)雜、效率低下且精度不高,無法滿足精準(zhǔn)、實時、或缺少先驗知識的圖像問題,本發(fā)明提供了一種基于universum結(jié)合矩陣ho-kashyap算法的分類方法,對二分類問題,首先通過經(jīng)典的in-between技術(shù)生成類間的universum樣本,然后設(shè)計了一個二維化ho-kashyap(hk)算法的模型,之后設(shè)計一個表征universum樣本與原始樣本關(guān)聯(lián)的正則化項并將其代入第二步設(shè)計的模塊中,最后對整個模型用梯度下降方法求解最優(yōu)參數(shù),得到的決策邊界在保證圖像數(shù)據(jù)集分類正確率的同時,在模型設(shè)計和模型運算兩方面提高效率。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案:首先后臺根據(jù)具體的圖像問題描述,將采集到的樣本使用經(jīng)典的lpp、fld或pca方法進(jìn)行降維去噪處理。其次,將以矩陣表示的數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集兩部分。在訓(xùn)練步驟中,首先使用基于in-between生成策略生成一定數(shù)量位于兩類樣本之間的第三類樣本點,即universum樣本。之后,將universum樣本點代入正則化項runi中。接著將正則化項引入矩陣化之后的hk分類模型,構(gòu)成完整的結(jié)合universum的矩陣化hk模型。最后,對該模型進(jìn)行訓(xùn)練,得到模型針對當(dāng)前訓(xùn)練數(shù)據(jù)集的最優(yōu)參數(shù),生成最優(yōu)分類決策面。第三,在測試階段,將當(dāng)前測試樣本點代入訓(xùn)練好的決策面函數(shù)進(jìn)行判斷。最后,輸出決定的類標(biāo)號。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案還可以進(jìn)一步完善。所述訓(xùn)練模塊的第一個步驟,生成universum的方法不限于使用in-between,只要使用的方法能迅速生成介于兩類之間的第三類樣本即可。進(jìn)一步,由于向量也是一種特殊的矩陣,該模型也能夠處理向量數(shù)據(jù)集。在處理時,若不考慮引入的universum樣本,且令模型一側(cè)的權(quán)重向量不參與迭代優(yōu)化,則模型退化到傳統(tǒng)的修正hk算法(modifiedho-kashyapalgorithm,mhks)??梢钥闯觯痉椒ㄅcmhks等方法一樣,屬于線性分類方法,因此能夠比非線性方法更快確定分類決策面,從而提高效率。

本發(fā)明有益的效果是:直接處理圖像數(shù)據(jù)的分類方法,不僅克服了小樣本問題,提高效率,而且保留了圖像數(shù)據(jù)集結(jié)構(gòu)的完整性,因此有更高的精確度;通過引入universum樣本,讓原本的兩類樣本的對比更明顯,進(jìn)一步提高了精確度;由于該方法屬于線性方法,縮短了訓(xùn)練時間;該方法可以證明在rademacher條件下的推廣風(fēng)險上界不超過原始的mhks方法。

附圖說明

圖1是本發(fā)明應(yīng)用于圖像模式分類問題的系統(tǒng)框架;

圖2是本發(fā)明算法與其他算法的實驗對比圖;

具體實施方式

下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步介紹:本發(fā)明的方法共分三個模塊。

第一部分:數(shù)據(jù)采集

本模塊包括兩個步驟,首先將數(shù)據(jù)數(shù)值化;其次,生成universum樣本。

1)將現(xiàn)實中的圖像問題數(shù)據(jù)化:生成矩陣表示的數(shù)據(jù)集便于后續(xù)模塊進(jìn)行處理。采集后生成的矩陣數(shù)據(jù)可以進(jìn)一步使用經(jīng)典方法進(jìn)行降維處理。一個矩陣樣本表示為a,矩陣的每一元素對應(yīng)樣本的一個像素轉(zhuǎn)換值,即樣本的維度d=m×n。

2)利用in-between方法生成universum樣本:universum樣本被定義為和問題數(shù)據(jù)集在同一個域值范圍內(nèi),卻不屬于任何一類的樣本。例如在字母圖分類問題中,使用二分類模型對數(shù)字“5”與“8”兩類樣本分類,剩下的數(shù)字“0”、“1”、“2”、“3”、“4”、“6”、“7”、“9”就可以被認(rèn)為是universum樣本。在其他問題中,如果不存在現(xiàn)成的universum樣本,就需要使用一定的方法生成。這里我們使用了一個典型的生成算法,即in-between方法。該方法的思想是,首先確定兩類靠近決策邊界的樣本,在不同類的邊界樣本間連線,再在連線上隨機距離處生成新的樣本。生成的樣本就是universum樣本。在我們的方法中,為簡化計算,統(tǒng)一在兩個樣本連線的中點生成universum樣本。

第二部分:訓(xùn)練分類模型

在這個模塊中,采集到的數(shù)據(jù)集將代入發(fā)明的核心算法中進(jìn)行訓(xùn)練。主要步驟如下:

1)設(shè)計正則化項runi:將universum樣本作為第三類樣本代入最初的決策面函數(shù)進(jìn)行處理,生成正則化項的公式如下:

2)對傳統(tǒng)的mhks矩陣化生成新的模型matmhks:首先,傳統(tǒng)的mhks模型基于最小均方誤差法提出,而mhks是修正的hk算法。hk算法的目標(biāo)方程如下;

js(w,b)=||yw-b||2

其中,y是向量樣本構(gòu)成的矩陣,w是權(quán)重向量,b是人為設(shè)定的不為負(fù)的偏差糾正向量。hk的目標(biāo)就是使得yw-b的誤差盡可能接近0。mhks通過增加邊界寬度,將該目標(biāo)化為下列不等式:

yw≥1n×1

從而得到新的目標(biāo)方程為:

矩陣化在mhks的基礎(chǔ)上,直接對矩陣進(jìn)行處理,首先,matmhks通過將原本的權(quán)重向量w分為控制矩陣行的向量u與控制矩陣列的向量v,得到基礎(chǔ)的決策面方程變?yōu)椋?/p>

進(jìn)而,matmhks的目標(biāo)方程變?yōu)椋?/p>

其中,v=[vt,v0]t,y=[y1,y2,...,yn]t,yi=ψi[utai,1]t。為簡便,s1與s2為兩個單位矩陣。

3)將正則化項runi引入matmhks,構(gòu)成結(jié)合universum方法的矩陣化hk分類模型umatmhks:可以看出,hk,mhks和matmhks都遵循同一個框架設(shè)計,即結(jié)構(gòu)風(fēng)險最小化框架:

minj=remp+crreg

其中remp是傳統(tǒng)的經(jīng)驗風(fēng)險項,即實驗值與理論值的誤差平方和。rreg是推廣風(fēng)險,即對經(jīng)驗風(fēng)險的泛化,使得模型能夠在不同數(shù)據(jù)集上適用。c是一個懲罰因子。在這個傳統(tǒng)框架中,引入上一步驟設(shè)計好的universum正則化項runi,從而得到新方法的完整框架:

4)生成新框架下的目標(biāo)函數(shù):新模型由于將universum樣本引入了矩陣化hk方法中,

代入具體參數(shù)就得到最終的目標(biāo)方程:

5)利用梯度下降法求解最優(yōu)參數(shù):針對umatmhks的目標(biāo)方程,使用梯度下降方法,先對目標(biāo)參數(shù)求導(dǎo):

當(dāng)參數(shù)的微分公式結(jié)果為0時,參數(shù)取得極值,此時得到每個參數(shù)獲取極值的計算公式如下:

而作為停步條件的標(biāo)準(zhǔn),參數(shù)b的求解與u與v不同,是根據(jù)前一步經(jīng)驗風(fēng)險

項得到的誤差方程表示的:

第三部分:測試未知數(shù)據(jù)

該模塊中,需要檢測其類標(biāo)號的未知數(shù)據(jù)代入已經(jīng)訓(xùn)練好的模型,并由模型做出決定。設(shè)未知樣本為ai。決策函數(shù)為:

由決策函數(shù)可知,若決策方程結(jié)果不為0,可進(jìn)行判斷,為0則表示測試樣本分到兩類的概率相等,分類模型無法判斷。

實驗設(shè)計

1)實驗數(shù)據(jù)集選?。涸搶嶒炦x擇了四個經(jīng)典圖像數(shù)據(jù)集。選取數(shù)據(jù)集的類數(shù)目、樣本維度、規(guī)模(樣本總數(shù))列在下表中。

所有使用的數(shù)據(jù)集均采用蒙特卡洛十輪交叉迭代方式處理,即將數(shù)據(jù)集各類分為兩份并使樣本順序打亂,一份作為測試數(shù)據(jù),另一份為訓(xùn)練數(shù)據(jù),重復(fù)十次。抽取方式為有放回抽取。在實驗中,通過對比兩份的不同比例,觀察各分類模型在實際應(yīng)用中的效果。例如用于訓(xùn)練的樣本數(shù)遠(yuǎn)小于用于測試的樣本數(shù)時,不同分類模型的分類精確度是多少。

2)對比算法:發(fā)明所使用的核心算法umatmhks。另外,我們選擇matmhks、mhks、svm(linear)、svm(non-linear)為基準(zhǔn)算法。其中svm(non-linear)算法使用徑向基函數(shù)(radialbasisfunction)。參數(shù)具體設(shè)置如下:

對于umatmhks,matmhks及mhks,向量b初始值設(shè)為10-6,停步參數(shù)ξ設(shè)置為10-4。學(xué)習(xí)率p設(shè)置為0.99。為防止不收斂情況出現(xiàn)而規(guī)定的最大迭代次數(shù)設(shè)置為1000次。控制rreg項與runi項的懲罰參數(shù)c都從集合{10-2,10-1,100,101,102}中選取。特別地,umatmhks的權(quán)重向量u初始值設(shè)為隨機大于0小于1的數(shù)。

對于svm,松弛因子c的選取范圍在{10-2,10-1,100,101,102}中。對于非線性svm,核參數(shù)計算公式如下,即兩兩樣本的平均距離:

k(xi,xj)=exp(-||xi-xj||2/σ)

3)性能度量方法:實驗統(tǒng)一使用分類精確度(classificationaccuracy,acc)來記錄不同方法對各數(shù)據(jù)集的分類結(jié)果。結(jié)果均為對應(yīng)算法在該數(shù)據(jù)集上使用最優(yōu)參數(shù)配置時獲得的結(jié)果,即最優(yōu)結(jié)果。acc值在0到100之間,數(shù)值越高,表明該算法在當(dāng)前數(shù)據(jù)集上分類效果越好。

所有模型在各圖像數(shù)據(jù)集上處理的結(jié)果如圖2所示。四幅圖分別描繪了對比算法在四個數(shù)據(jù)集上以不同規(guī)模設(shè)置訓(xùn)練樣本時的分類精確度。從圖中可以看出,在所有數(shù)據(jù)集上,大部分模型隨著訓(xùn)練樣本數(shù)目的增加提升了精確度。特別地,umatmhks在四個圖像數(shù)據(jù)集上都取得了模型組中最好的效果。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1