一種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法

文檔序號：6616023閱讀：363來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法
技術(shù)領(lǐng)域：
本發(fā)明所涉及數(shù)據(jù)挖掘的技術(shù)領(lǐng)域，特別是涉及一種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法。
背景技術(shù)：
近年來，隨著數(shù)據(jù)挖掘研究的日益深入與應(yīng)用的不斷擴(kuò)展，越來越多的研究者愈發(fā)感受到在一些復(fù)雜數(shù)據(jù)環(huán)境下，傳統(tǒng)數(shù)據(jù)挖掘技術(shù)已難以適應(yīng)新形勢的不斷變化。其中，針對非平衡數(shù)據(jù)分布環(huán)境的數(shù)據(jù)挖掘方法，逐漸成為該領(lǐng)域中的熱點(diǎn)問題。自NathalieJapkowicz全面提出面向非平衡數(shù)據(jù)集的學(xué)習(xí)后，基于非平衡數(shù)據(jù)分布環(huán)境的數(shù)據(jù)分類問題首次成了一個專門的研究主題和未來的研究重點(diǎn)之一。傳統(tǒng)的分類方法著眼于提高數(shù)據(jù)集整體分類精度，傾向偏置多數(shù)類樣本，忽略了少數(shù)類樣本的精度，故已不適合非平衡數(shù)據(jù)的分類問題?！?br> 多分類器融合方法從系統(tǒng)論角度出發(fā)，不但融合多種重采樣技術(shù)，而且能充分利用各基分類器的結(jié)果，故而能達(dá)到較好的精度，具有較穩(wěn)定的魯棒性。融合分類器不易出現(xiàn)過學(xué)習(xí)，同時具有較強(qiáng)的泛化能力。融合分類器本身具有的這種獨(dú)特優(yōu)勢使其成為近年來數(shù)據(jù)挖掘領(lǐng)域中的研究熱點(diǎn)。如在人臉識別及表情識別領(lǐng)域，不同分類器可以利用不同特征，采用某種組合策略，從而將多個分類器融合，使其優(yōu)勢互補(bǔ)，從而提高整體分類的準(zhǔn)確率和魯棒性。2000年Thomas G. Dietterich從統(tǒng)計因素、計算因素和表示因素等三個方面深入分析了融合學(xué)習(xí)的有效性。1996年和1995年Breiman,Freund分別介紹和討論了 Bagging和Boosting這兩種最典型的基分類器融合方法。Freund進(jìn)而提出了 AdaBoost算法,該算法可以非常容易地應(yīng)用到實(shí)際問題中。但這些方法僅適用于正常態(tài)數(shù)據(jù)集中，并不適應(yīng)于非平衡數(shù)據(jù)集，就當(dāng)前的研究進(jìn)展來看，適用于非平衡數(shù)據(jù)分布環(huán)境的基分類器融合方法仍為鮮見，尤其是在算法的多樣性與分類準(zhǔn)確度尤其是在提高少數(shù)類樣本精度方面仍面臨著難以突破的瓶頸問題。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提出了一種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法。為了實(shí)現(xiàn)上述發(fā)明目的，采用的技術(shù)方案如下—種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法，包括決策者利用基于差異采樣率的重采樣算法對樣本進(jìn)行預(yù)處理，包括過采樣和欠采樣兩個過程；在基于差異采樣率重采樣算法中，在過采樣和欠采樣過程中均可為不同基分類器賦予不同的采樣率，從而確保各基分類器擁有不同的樣本數(shù)量；利用基于差異采樣率重采樣算法對Undersample專家和Oversample專家的N個基分類器分別賦予訓(xùn)練樣本，然后使其分別獨(dú)立生成新樣本；
計算各基分類器的分類錯誤率，進(jìn)而計算出對應(yīng)的權(quán)重；由Undersample專家和Oversample專家統(tǒng)計各自結(jié)果；融和最后預(yù)測結(jié)果。所述基于差異采樣率重采樣算法對樣本進(jìn)行預(yù)處理的過程(以過采樣過程為例)，具體為A、計算正類樣本數(shù)量minsize和負(fù)類樣本數(shù)量maxsize ；B、計算 maxsize 與 minsize 的差值 subsize ；C、計算采樣因子samfactor=subsize/n,其中η為基分類器數(shù)量；D、計算各基分類器的樣本數(shù)量minsamplesizei=minsize+samfasctor oversamratei,其中，oversamratei為第i個基分類器的過采樣率；所述各基分類器分類錯誤率和對應(yīng)權(quán)重的計算方法為計算基分類器ht:X
—{-I, 1}，該基分類器在分布Dt上的誤差為
權(quán)利要求
1.一種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法，其特征在于，包括以下步驟決策者利用基于差異采樣率的重采樣算法對樣本進(jìn)行預(yù)處理，包括過采樣和欠采樣兩個過程；在基于差異采樣率重采樣算法中，在過采樣和欠采樣過程中均可為不同基分類器賦予不同的采樣率，從而確保各基分類器擁有不同的樣本數(shù)量；利用基于差異采樣率重采樣算法對欠采樣專家和過采樣專家的N個基分類器分別賦予訓(xùn)練樣本，然后使其分別獨(dú)立生成新樣本；計算各基分類器的分類錯誤率，進(jìn)而計算出對應(yīng)的權(quán)重；過采樣專家和欠采樣專家統(tǒng)計各自結(jié)果；根據(jù)分類決策函數(shù)融和最后預(yù)測結(jié)果，判斷樣本所屬類別。
2.根據(jù)權(quán)利I所述的基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法，其特征在于，各基分類器分類錯誤率和對應(yīng)權(quán)重的計算方法為計算基分類器ht:X— {-I, 1}，該基分類器在分布Dt上的誤差為=gf = Pa (h, (Xi)* Vi) = K* ·￥ )。那么該基分類器的權(quán)重:
3.根據(jù)權(quán)利I所述的基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法，其特征在于，所述Undersample專家和Oversample專家統(tǒng)計結(jié)果的過程具體為對于10個樣本子集，僅分別獨(dú)立保留最后一次迭代時生成的基分類器ht (X),在Undersample生成的10個樣本子集9i(OversampIe生成的10個樣本子集gf)上皆生成相應(yīng)的基分類器Iii (x), i =1，2...10;對在《 (9T)上的10個基分類器進(jìn)行10交叉驗(yàn)證，分別計算各自錯誤率Si，令該基分類器的權(quán)重為，
4.根據(jù)權(quán)利I所述的基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法，其特征在于，Undersample專家和Oversample專家最后預(yù)測結(jié)果計算方法分別為
5.根據(jù)權(quán)利I所述的基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法，其特征在于，融和最后預(yù)測結(jié)果計算方法為經(jīng)過分類決策函數(shù)，輸出分類結(jié)果Result
全文摘要
本發(fā)明公開了一種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法，它涉及數(shù)據(jù)挖掘領(lǐng)域中的非平衡數(shù)據(jù)分類技術(shù)；首先利用基于差異采樣率的重采樣算法對樣本進(jìn)行預(yù)處理，包括過采樣和欠采樣兩個過程，從而為不同的基分類器分配不同的待分類樣本；計算各基分類器的分類錯誤率，進(jìn)而計算出對應(yīng)的權(quán)重；由過采樣專家和欠采樣專家統(tǒng)計各自結(jié)果；根據(jù)分類決策函數(shù)融和最后預(yù)測結(jié)果得到樣本所述類別；本發(fā)明利用基于多異質(zhì)基分類器融合分類方法從海量數(shù)據(jù)中發(fā)現(xiàn)少數(shù)類樣本重要的特性，可以有效提高少數(shù)類樣本精度，進(jìn)而達(dá)到提高數(shù)據(jù)集整體分類精度的目的。
文檔編號G06F17/30GK102945280SQ20121046036
公開日2013年2月27日申請日期2012年11月15日優(yōu)先權(quán)日2012年11月15日
發(fā)明者不公告發(fā)明人申請人:翟云, 江澎

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：不公告發(fā)明人
技術(shù)所有人：翟云;江澎
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

非平衡面板數(shù)據(jù)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法