一種特征選擇方法

文檔序號(hào)：6424293閱讀：296來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：一種特征選擇方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種特征選擇方法。
背景技術(shù)：
特征選擇是模式識(shí)別的三大核心之一。在人工智能，模式識(shí)別以及由此發(fā)展而來(lái)的圖像處理，目標(biāo)識(shí)別領(lǐng)域中都有普遍的應(yīng)用。隨著各種應(yīng)用的使用目的從單一到多元，使用環(huán)境從簡(jiǎn)單到復(fù)雜，不同的使用要求加之應(yīng)用所使用的特征數(shù)量的不斷增加，特征選擇日益重要并且應(yīng)該更加靈活。Ron Kohavi and George H. John. Wrappers For Feature Subset Selection (Artificial Intelligence 97. 1997，273-275，283-286)中提出了一種特征提取模型，被稱(chēng)為封裝式的特征提取方法。封裝式特征選擇較其他的特征選擇方法加入了利用后續(xù)學(xué)習(xí)算法對(duì)特征子集進(jìn)行鑒定的部分。理論上，它能選擇出較好的且適合后續(xù)學(xué)習(xí)算法學(xué)習(xí)分類(lèi)的一組特征子集，但是，由于學(xué)習(xí)算法的引入，封裝式特征選擇算法較其他算法慢。算法使用BFS(Best First Search)算法來(lái)搜索整個(gè)特征空間，搜索的目的是用評(píng)估準(zhǔn)則找到有最大估計(jì)值的狀態(tài)空間，由于學(xué)習(xí)算法作為一個(gè)黑盒，所以不知道它的實(shí)際分類(lèi)的準(zhǔn)確度，需要使用精確性估計(jì)算法作為評(píng)估準(zhǔn)則。為了使特征空間的搜索停止，需要設(shè)置閾值ε，只有當(dāng)下一次的特征空間組合的性能比上一次的性能好ε時(shí)，空間搜索才會(huì)繼續(xù)下去，否則，搜索停止，并且得出最佳的特征空間組合。但是一方面，在實(shí)際的應(yīng)用中ε較難確定，無(wú)論ε值過(guò)大還是過(guò)小都會(huì)對(duì)算法性能產(chǎn)生較大的影響；另一方面，由于特征空間大小不確定導(dǎo)致了所選出特征數(shù)量的不確定，而在實(shí)際應(yīng)用中，封裝式特征選擇的耗時(shí)隨著所選特征數(shù)量的增加而增加，若是選出的最佳特征空間過(guò)大，選擇過(guò)程的時(shí)間開(kāi)銷(xiāo)也會(huì)很大，方不便實(shí)際的應(yīng)用。文獻(xiàn)Stuart Russell and Peter Norvig. A Modern Intelligence A Modern Approach(Second Edition) (Pearson Education, Inc.2003, 94-100)中給出了空間搜索原理和不同的幾種形式。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能方便控制整個(gè)選擇過(guò)程的時(shí)間，并且能選擇出較好的特征子集的特征選擇方法。本發(fā)明的目的是這樣實(shí)現(xiàn)的(a)整個(gè)特征集作為完整的特征空間輸入特征選擇算法中；(b)把輸入的特征空間中的特征按照一定的順序取出，并放入新的特征空間中；(c)采用特征評(píng)價(jià)標(biāo)準(zhǔn)來(lái)比較不同空間中的特征；(d)重復(fù)(b) (C)兩步，直到新空間中的特征數(shù)量達(dá)到既定值；(e)新特征空間中的特征即是被選擇出的最佳特征子集。本發(fā)明是一種新的特征提取方法，這種方法省略了閾值的設(shè)置，并且可以選擇結(jié)果中的特征數(shù)量，方便控制整個(gè)選擇過(guò)程的時(shí)間，并且能選擇出較好的特征子集。把從目標(biāo)中提取出的特征組成特征空間，把特征空間中的特征放入特征選擇方法中，使用于后續(xù)學(xué)習(xí)算法相結(jié)合的判定準(zhǔn)則計(jì)算每個(gè)特征的權(quán)重，并用空間搜索方法搜索出最有的特征，當(dāng)特征子集中的特征數(shù)量達(dá)到給定數(shù)量時(shí)，搜索停止，并給出最優(yōu)特征空間集。

圖1為特征選擇方法流程圖。圖2為改進(jìn)的BFS空間搜索方法。圖3為5次交叉驗(yàn)證流程圖。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明做更詳細(xì)的描述。本發(fā)明并不僅限于實(shí)施以下描述的實(shí)例，而是將符合最一般的原理描述。圖1說(shuō)明了實(shí)施一個(gè)封裝式特征選擇的流程圖。其中塊100代表了圖2的BFS空間搜索算法，塊101代表了圖3的交叉鑒定算法，在本實(shí)例中，采用了五次交叉驗(yàn)證(5-cr0SS validation)，塊102代表了學(xué)習(xí)算法，本發(fā)明并不限制學(xué)習(xí)算法的使用，包括貝葉斯估計(jì)，支持向量機(jī)(SVM)，遺傳算法(GA)和反向傳遞神經(jīng)網(wǎng)絡(luò)等。在實(shí)例中，采用了 BP神經(jīng)網(wǎng)絡(luò)作為學(xué)習(xí)算法。參照特征選擇的流程圖1，整個(gè)特征集作為完整的特征空間輸入特征選擇算法中。塊100將會(huì)選擇出最佳的特征子集，選擇的過(guò)程如圖2所示。在圖2的流程中，特征全集首先被導(dǎo)入塊200，并把全狀態(tài)空間賦給OPEN，另建立空集BEST。接著在塊201中CLOSED被賦值為與BEST相同。這三個(gè)特征空間一并傳入塊202，在塊202中首先使用評(píng)價(jià)標(biāo)準(zhǔn)J計(jì)算OPEN中的每個(gè)特征的權(quán)值并按權(quán)值的大小給所有的特征排序，選出擁有最大權(quán)值且沒(méi)有放入BEST中的特征v，把ν放入空間CLOSED。圖2塊202中的評(píng)價(jià)標(biāo)準(zhǔn)即是圖1中的塊 101，在本實(shí)例中采用五次交叉驗(yàn)證，驗(yàn)證過(guò)程如圖3所示。在圖3的流程中，含有特征的樣本集D被大致的分成5份，這5份子集D1;D2，...， D5相互獨(dú)立且大致上含有數(shù)量相同的數(shù)據(jù)。學(xué)習(xí)算法(塊300)在驗(yàn)證中反復(fù)的訓(xùn)練和測(cè)試多次；設(shè)t e {1，2，...，5}，交叉驗(yàn)證在不含Dt的原始數(shù)據(jù)集D\Dt中訓(xùn)練并且用Dt來(lái)測(cè)試。測(cè)試的結(jié)果輸入到塊301求每個(gè)訓(xùn)練結(jié)果的估計(jì)精度并求總的期望。交叉驗(yàn)證的估計(jì)精度就是正確分類(lèi)的的次數(shù)除去樣本數(shù)的結(jié)果。用公式表達(dá)的話，設(shè)D(i)是包含樣本Xi = (vi; Yi)的測(cè)試集合，那么交叉驗(yàn)證的精度
權(quán)利要求
1.一種特征選擇方法，其特征是(a)整個(gè)特征集作為完整的特征空間輸入特征選擇算法中；(b)把輸入的特征空間中的特征按照一定的順序取出，并放入新的特征空間中；(c)采用特征評(píng)價(jià)標(biāo)準(zhǔn)來(lái)比較不同空間中的特征；(d)重復(fù)(b)(c)兩步，直到新空間中的特征數(shù)量達(dá)到既定值；(e)新特征空間中的特征即是被選擇出的最佳特征子集。
2.根據(jù)權(quán)利要求1所述的一種特征選擇方法，其特征是所述把輸入的特征空間中的特征按照一定的順序取出，并放入新的特征空間中的方法為步驟200，把全狀態(tài)空間賦給 OPEN,另建立空集BEST ；步驟201，CLOSED被賦值為與BEST相同；步驟202，首先使用評(píng)價(jià)標(biāo)準(zhǔn)J計(jì)算OPEN中的每個(gè)特征的權(quán)值并按權(quán)值的大小給所有的特征排序，選出擁有最大權(quán)值且沒(méi)有放入BEST中的特征v，把ν放入空間CLOSED。
3.根據(jù)權(quán)利要求2所述的一種特征選擇方法，其特征是所述采用特征評(píng)價(jià)標(biāo)準(zhǔn)來(lái)比較不同空間中的特征的方法是步驟203，把增加了 ν的空間CLOSED和特征空間BEST分別使用評(píng)價(jià)標(biāo)準(zhǔn)計(jì)算權(quán)值，并比較兩個(gè)權(quán)值的大小，若比較結(jié)果特征空間CLOSED有較大的權(quán)值，就執(zhí)行步驟204，反之回到步驟202 ；步驟204，把特征ν放入空間BEST中；步驟205，把從步驟204輸出的特征空間與之前事前決定的特征數(shù)量相比較，若未達(dá)到要求的特征數(shù)量，就返回步驟201，若達(dá)到要求的特征數(shù)量則執(zhí)行步驟206 ；步驟206，就輸出特征空間 BEST。
全文摘要
本發(fā)明提供的是一種特征選擇方法。(a)整個(gè)特征集作為完整的特征空間輸入特征選擇算法中；(b)把輸入的特征空間中的特征按照一定的順序取出，并放入新的特征空間中；(c)采用特征評(píng)價(jià)標(biāo)準(zhǔn)來(lái)比較不同空間中的特征；(d)重復(fù)(b)(c)兩步，直到新空間中的特征數(shù)量達(dá)到既定值；(e)新特征空間中的特征即是被選擇出的最佳特征子集。本發(fā)明的方法省略了閾值的設(shè)置，并且可以選擇結(jié)果中的特征數(shù)量，方便控制整個(gè)選擇過(guò)程的時(shí)間，并且能選擇出較好的特征子集。
文檔編號(hào)G06K9/46GK102184402SQ20111012717
公開(kāi)日2011年9月14日申請(qǐng)日期2011年5月17日優(yōu)先權(quán)日2011年5月17日
發(fā)明者凌冰, 卞紅雨, 張志剛, 楊濱, 沈鄭燕, 羅明愿申請(qǐng)人:哈爾濱工程大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：卞紅雨;楊濱;沈鄭燕;凌冰;張志剛;羅明愿
技術(shù)所有人：哈爾濱工程大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：組織行為監(jiān)視分析和影響的制作方法
上一篇：油耗計(jì)算方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

特征選擇方法相關(guān)技術(shù)

特征選擇的方法相關(guān)技術(shù)

文本特征選擇方法相關(guān)技術(shù)

特征選擇的標(biāo)準(zhǔn)方法相關(guān)技術(shù)

特征選擇方法綜述相關(guān)技術(shù)

特征選擇方法有哪些相關(guān)技術(shù)

特征選擇的方法有哪些相關(guān)技術(shù)

文本分類(lèi)特征選擇方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種特征選擇方法