亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種特征選擇方法

文檔序號(hào):6424293閱讀:296來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種特征選擇方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種特征選擇方法。
背景技術(shù)
特征選擇是模式識(shí)別的三大核心之一。在人工智能,模式識(shí)別以及由此發(fā)展而來(lái)的圖像處理,目標(biāo)識(shí)別領(lǐng)域中都有普遍的應(yīng)用。隨著各種應(yīng)用的使用目的從單一到多元,使用環(huán)境從簡(jiǎn)單到復(fù)雜,不同的使用要求加之應(yīng)用所使用的特征數(shù)量的不斷增加,特征選擇日益重要并且應(yīng)該更加靈活。Ron Kohavi and George H. John. Wrappers For Feature Subset Selection (Artificial Intelligence 97. 1997,273-275,283-286)中提出了一種特征提取模型,被稱(chēng)為封裝式的特征提取方法。封裝式特征選擇較其他的特征選擇方法加入了利用后續(xù)學(xué)習(xí)算法對(duì)特征子集進(jìn)行鑒定的部分。理論上,它能選擇出較好的且適合后續(xù)學(xué)習(xí)算法學(xué)習(xí)分類(lèi)的一組特征子集,但是,由于學(xué)習(xí)算法的引入,封裝式特征選擇算法較其他算法慢。算法使用BFS(Best First Search)算法來(lái)搜索整個(gè)特征空間,搜索的目的是用評(píng)估準(zhǔn)則找到有最大估計(jì)值的狀態(tài)空間,由于學(xué)習(xí)算法作為一個(gè)黑盒,所以不知道它的實(shí)際分類(lèi)的準(zhǔn)確度,需要使用精確性估計(jì)算法作為評(píng)估準(zhǔn)則。為了使特征空間的搜索停止,需要設(shè)置閾值ε,只有當(dāng)下一次的特征空間組合的性能比上一次的性能好ε時(shí),空間搜索才會(huì)繼續(xù)下去,否則,搜索停止,并且得出最佳的特征空間組合。但是一方面,在實(shí)際的應(yīng)用中ε較難確定,無(wú)論ε值過(guò)大還是過(guò)小都會(huì)對(duì)算法性能產(chǎn)生較大的影響;另一方面,由于特征空間大小不確定導(dǎo)致了所選出特征數(shù)量的不確定,而在實(shí)際應(yīng)用中,封裝式特征選擇的耗時(shí)隨著所選特征數(shù)量的增加而增加,若是選出的最佳特征空間過(guò)大,選擇過(guò)程的時(shí)間開(kāi)銷(xiāo)也會(huì)很大,方不便實(shí)際的應(yīng)用。文獻(xiàn)Stuart Russell and Peter Norvig. A Modern Intelligence A Modern Approach(Second Edition) (Pearson Education, Inc.2003, 94-100)中給出了空間搜索原理和不同的幾種形式。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能方便控制整個(gè)選擇過(guò)程的時(shí)間,并且能選擇出較好的特征子集的特征選擇方法。本發(fā)明的目的是這樣實(shí)現(xiàn)的(a)整個(gè)特征集作為完整的特征空間輸入特征選擇算法中;(b)把輸入的特征空間中的特征按照一定的順序取出,并放入新的特征空間中;(c)采用特征評(píng)價(jià)標(biāo)準(zhǔn)來(lái)比較不同空間中的特征;(d)重復(fù)(b) (C)兩步,直到新空間中的特征數(shù)量達(dá)到既定值;(e)新特征空間中的特征即是被選擇出的最佳特征子集。本發(fā)明是一種新的特征提取方法,這種方法省略了閾值的設(shè)置,并且可以選擇結(jié)果中的特征數(shù)量,方便控制整個(gè)選擇過(guò)程的時(shí)間,并且能選擇出較好的特征子集。把從目標(biāo)中提取出的特征組成特征空間,把特征空間中的特征放入特征選擇方法中,使用于后續(xù)學(xué)習(xí)算法相結(jié)合的判定準(zhǔn)則計(jì)算每個(gè)特征的權(quán)重,并用空間搜索方法搜索出最有的特征,當(dāng)特征子集中的特征數(shù)量達(dá)到給定數(shù)量時(shí),搜索停止,并給出最優(yōu)特征空間集。


圖1為特征選擇方法流程圖。圖2為改進(jìn)的BFS空間搜索方法。圖3為5次交叉驗(yàn)證流程圖。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明做更詳細(xì)的描述。本發(fā)明并不僅限于實(shí)施以下描述的實(shí)例,而是將符合最一般的原理描述。圖1說(shuō)明了實(shí)施一個(gè)封裝式特征選擇的流程圖。其中塊100代表了圖2的BFS空間搜索算法,塊101代表了圖3的交叉鑒定算法,在本實(shí)例中,采用了五次交叉驗(yàn)證(5-cr0SS validation),塊102代表了學(xué)習(xí)算法,本發(fā)明并不限制學(xué)習(xí)算法的使用,包括貝葉斯估計(jì), 支持向量機(jī)(SVM),遺傳算法(GA)和反向傳遞神經(jīng)網(wǎng)絡(luò)等。在實(shí)例中,采用了 BP神經(jīng)網(wǎng)絡(luò)作為學(xué)習(xí)算法。參照特征選擇的流程圖1,整個(gè)特征集作為完整的特征空間輸入特征選擇算法中。 塊100將會(huì)選擇出最佳的特征子集,選擇的過(guò)程如圖2所示。在圖2的流程中,特征全集首先被導(dǎo)入塊200,并把全狀態(tài)空間賦給OPEN,另建立空集BEST。接著在塊201中CLOSED被賦值為與BEST相同。這三個(gè)特征空間一并傳入塊202,在塊202中首先使用評(píng)價(jià)標(biāo)準(zhǔn)J計(jì)算OPEN中的每個(gè)特征的權(quán)值并按權(quán)值的大小給所有的特征排序,選出擁有最大權(quán)值且沒(méi)有放入BEST中的特征v,把ν放入空間CLOSED。圖2塊202中的評(píng)價(jià)標(biāo)準(zhǔn)即是圖1中的塊 101,在本實(shí)例中采用五次交叉驗(yàn)證,驗(yàn)證過(guò)程如圖3所示。在圖3的流程中,含有特征的樣本集D被大致的分成5份,這5份子集D1;D2,..., D5相互獨(dú)立且大致上含有數(shù)量相同的數(shù)據(jù)。學(xué)習(xí)算法(塊300)在驗(yàn)證中反復(fù)的訓(xùn)練和測(cè)試多次;設(shè)t e {1,2,...,5},交叉驗(yàn)證在不含Dt的原始數(shù)據(jù)集D\Dt中訓(xùn)練并且用Dt來(lái)測(cè)試。測(cè)試的結(jié)果輸入到塊301求每個(gè)訓(xùn)練結(jié)果的估計(jì)精度并求總的期望。交叉驗(yàn)證的估計(jì)精度就是正確分類(lèi)的的次數(shù)除去樣本數(shù)的結(jié)果。用公式表達(dá)的話,設(shè)D(i)是包含樣本Xi = (vi; Yi)的測(cè)試集合,那么交叉驗(yàn)證的精度
權(quán)利要求
1.一種特征選擇方法,其特征是(a)整個(gè)特征集作為完整的特征空間輸入特征選擇算法中;(b)把輸入的特征空間中的特征按照一定的順序取出,并放入新的特征空間中;(c)采用特征評(píng)價(jià)標(biāo)準(zhǔn)來(lái)比較不同空間中的特征;(d)重復(fù)(b)(c)兩步,直到新空間中的特征數(shù)量達(dá)到既定值;(e)新特征空間中的特征即是被選擇出的最佳特征子集。
2.根據(jù)權(quán)利要求1所述的一種特征選擇方法,其特征是所述把輸入的特征空間中的特征按照一定的順序取出,并放入新的特征空間中的方法為步驟200,把全狀態(tài)空間賦給 OPEN,另建立空集BEST ;步驟201,CLOSED被賦值為與BEST相同;步驟202,首先使用評(píng)價(jià)標(biāo)準(zhǔn)J計(jì)算OPEN中的每個(gè)特征的權(quán)值并按權(quán)值的大小給所有的特征排序,選出擁有最大權(quán)值且沒(méi)有放入BEST中的特征v,把ν放入空間CLOSED。
3.根據(jù)權(quán)利要求2所述的一種特征選擇方法,其特征是所述采用特征評(píng)價(jià)標(biāo)準(zhǔn)來(lái)比較不同空間中的特征的方法是步驟203,把增加了 ν的空間CLOSED和特征空間BEST分別使用評(píng)價(jià)標(biāo)準(zhǔn)計(jì)算權(quán)值,并比較兩個(gè)權(quán)值的大小,若比較結(jié)果特征空間CLOSED有較大的權(quán)值,就執(zhí)行步驟204,反之回到步驟202 ;步驟204,把特征ν放入空間BEST中;步驟205, 把從步驟204輸出的特征空間與之前事前決定的特征數(shù)量相比較,若未達(dá)到要求的特征數(shù)量,就返回步驟201,若達(dá)到要求的特征數(shù)量則執(zhí)行步驟206 ;步驟206,就輸出特征空間 BEST。
全文摘要
本發(fā)明提供的是一種特征選擇方法。(a)整個(gè)特征集作為完整的特征空間輸入特征選擇算法中;(b)把輸入的特征空間中的特征按照一定的順序取出,并放入新的特征空間中;(c)采用特征評(píng)價(jià)標(biāo)準(zhǔn)來(lái)比較不同空間中的特征;(d)重復(fù)(b)(c)兩步,直到新空間中的特征數(shù)量達(dá)到既定值;(e)新特征空間中的特征即是被選擇出的最佳特征子集。本發(fā)明的方法省略了閾值的設(shè)置,并且可以選擇結(jié)果中的特征數(shù)量,方便控制整個(gè)選擇過(guò)程的時(shí)間,并且能選擇出較好的特征子集。
文檔編號(hào)G06K9/46GK102184402SQ20111012717
公開(kāi)日2011年9月14日 申請(qǐng)日期2011年5月17日 優(yōu)先權(quán)日2011年5月17日
發(fā)明者凌冰, 卞紅雨, 張志剛, 楊濱, 沈鄭燕, 羅明愿 申請(qǐng)人:哈爾濱工程大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1