亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法

文檔序號:6616023閱讀:363來源:國知局
專利名稱:一種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法
技術(shù)領(lǐng)域
本發(fā)明所涉及數(shù)據(jù)挖掘的技術(shù)領(lǐng)域,特別是涉及一種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法。
背景技術(shù)
近年來,隨著數(shù)據(jù)挖掘研究的日益深入與應(yīng)用的不斷擴(kuò)展,越來越多的研究者愈發(fā)感受到在一些復(fù)雜數(shù)據(jù)環(huán)境下,傳統(tǒng)數(shù)據(jù)挖掘技術(shù)已難以適應(yīng)新形勢的不斷變化。其中,針對非平衡數(shù)據(jù)分布環(huán)境的數(shù)據(jù)挖掘方法,逐漸成為該領(lǐng)域中的熱點(diǎn)問題。自NathalieJapkowicz全面提出面向非平衡數(shù)據(jù)集的學(xué)習(xí)后,基于非平衡數(shù)據(jù)分布環(huán)境的數(shù)據(jù)分類問題首次成了一個專門的研究主題和未來的研究重點(diǎn)之一。傳統(tǒng)的分類方法著眼于提高數(shù)據(jù)集整體分類精度,傾向偏置多數(shù)類樣本,忽略了少數(shù)類樣本的精度,故已不適合非平衡數(shù)據(jù)的分類問題?!?br> 多分類器融合方法從系統(tǒng)論角度出發(fā),不但融合多種重采樣技術(shù),而且能充分利用各基分類器的結(jié)果,故而能達(dá)到較好的精度,具有較穩(wěn)定的魯棒性。融合分類器不易出現(xiàn)過學(xué)習(xí),同時具有較強(qiáng)的泛化能力。融合分類器本身具有的這種獨(dú)特優(yōu)勢使其成為近年來數(shù)據(jù)挖掘領(lǐng)域中的研究熱點(diǎn)。如在人臉識別及表情識別領(lǐng)域,不同分類器可以利用不同特征,采用某種組合策略,從而將多個分類器融合,使其優(yōu)勢互補(bǔ),從而提高整體分類的準(zhǔn)確率和魯棒性。2000年Thomas G. Dietterich從統(tǒng)計因素、計算因素和表示因素等三個方面深入分析了融合學(xué)習(xí)的有效性。1996年和1995年Breiman,Freund分別介紹和討論了 Bagging和Boosting這兩種最典型的基分類器融合方法。Freund進(jìn)而提出了 AdaBoost算法,該算法可以非常容易地應(yīng)用到實(shí)際問題中。但這些方法僅適用于正常態(tài)數(shù)據(jù)集中,并不適應(yīng)于非平衡數(shù)據(jù)集,就當(dāng)前的研究進(jìn)展來看,適用于非平衡數(shù)據(jù)分布環(huán)境的基分類器融合方法仍為鮮見,尤其是在算法的多樣性與分類準(zhǔn)確度尤其是在提高少數(shù)類樣本精度方面仍面臨著難以突破的瓶頸問題。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提出了一種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法。為了實(shí)現(xiàn)上述發(fā)明目的,采用的技術(shù)方案如下—種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法,包括決策者利用基于差異采樣率的重采樣算法對樣本進(jìn)行預(yù)處理,包括過采樣和欠采樣兩個過程;在基于差異采樣率重采樣算法中,在過采樣和欠采樣過程中均可為不同基分類器賦予不同的采樣率,從而確保各基分類器擁有不同的樣本數(shù)量;利用基于差異采樣率重采樣算法對Undersample專家和Oversample專家的N個基分類器分別賦予訓(xùn)練樣本,然后使其分別獨(dú)立生成新樣本;
計算各基分類器的分類錯誤率,進(jìn)而計算出對應(yīng)的權(quán)重;由Undersample專家和Oversample專家統(tǒng)計各自結(jié)果;融和最后預(yù)測結(jié)果。所述基于差異采樣率重采樣算法對樣本進(jìn)行預(yù)處理的過程(以過采樣過程為例),具體為A、計算正類樣本數(shù)量minsize和負(fù)類樣本數(shù)量maxsize ;B、計算 maxsize 與 minsize 的差值 subsize ;C、計算采樣因子samfactor=subsize/n,其中η為基分類器數(shù)量;D、計算各基分類器的樣本數(shù)量minsamplesizei=minsize+samfasctor oversamratei,其中,oversamratei為第i個基分類器的過采樣率;所述各基分類器分類錯誤率和對應(yīng)權(quán)重的計算方法為計算基分類器ht:X
—{-I, 1},該基分類器在分布Dt上的誤差為
權(quán)利要求
1.一種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法,其特征在于,包括以下步驟 決策者利用基于差異采樣率的重采樣算法對樣本進(jìn)行預(yù)處理,包括過采樣和欠采樣兩個過程;在基于差異采樣率重采樣算法中,在過采樣和欠采樣過程中均可為不同基分類器賦予不同的采樣率,從而確保各基分類器擁有不同的樣本數(shù)量; 利用基于差異采樣率重采樣算法對欠采樣專家和過采樣專家的N個基分類器分別賦予訓(xùn)練樣本,然后使其分別獨(dú)立生成新樣本; 計算各基分類器的分類錯誤率,進(jìn)而計算出對應(yīng)的權(quán)重; 過采樣專家和欠采樣專家統(tǒng)計各自結(jié)果; 根據(jù)分類決策函數(shù)融和最后預(yù)測結(jié)果,判斷樣本所屬類別。
2.根據(jù)權(quán)利I所述的基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法,其特征在于,各基分類器分類錯誤率和對應(yīng)權(quán)重的計算方法為計算基分類器ht:X— {-I, 1},該基分類器在分布Dt上的誤差為=gf = Pa (h, (Xi)* Vi) = K* ·¥ )。那么該基分類器的權(quán)重:
3.根據(jù)權(quán)利I所述的基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法,其特征在于,所述Undersample專家和Oversample專家統(tǒng)計結(jié)果的過程具體為對于10個樣本子集,僅分別獨(dú)立保留最后一次迭代時生成的基分類器ht (X),在Undersample生成的10個樣本子集9i(OversampIe生成的10個樣本子集gf)上皆生成相應(yīng)的基分類器Iii (x), i =1,2...10;對在《 (9T)上的10個基分類器進(jìn)行10交叉驗(yàn)證,分別計算各自錯誤率Si,令該基分類器的權(quán)重為,
4.根據(jù)權(quán)利I所述的基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法,其特征在于,Undersample專家和Oversample專家最后預(yù)測結(jié)果計算方法分別 為
5.根據(jù)權(quán)利I所述的基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法,其特征在于,融和最后預(yù)測結(jié)果計算方法為經(jīng)過分類決策函數(shù),輸出分類結(jié)果Result
全文摘要
本發(fā)明公開了一種基于非平衡數(shù)據(jù)分布的多異質(zhì)基分類器融合分類方法,它涉及數(shù)據(jù)挖掘領(lǐng)域中的非平衡數(shù)據(jù)分類技術(shù);首先利用基于差異采樣率的重采樣算法對樣本進(jìn)行預(yù)處理,包括過采樣和欠采樣兩個過程,從而為不同的基分類器分配不同的待分類樣本;計算各基分類器的分類錯誤率,進(jìn)而計算出對應(yīng)的權(quán)重;由過采樣專家和欠采樣專家統(tǒng)計各自結(jié)果;根據(jù)分類決策函數(shù)融和最后預(yù)測結(jié)果得到樣本所述類別;本發(fā)明利用基于多異質(zhì)基分類器融合分類方法從海量數(shù)據(jù)中發(fā)現(xiàn)少數(shù)類樣本重要的特性,可以有效提高少數(shù)類樣本精度,進(jìn)而達(dá)到提高數(shù)據(jù)集整體分類精度的目的。
文檔編號G06F17/30GK102945280SQ20121046036
公開日2013年2月27日 申請日期2012年11月15日 優(yōu)先權(quán)日2012年11月15日
發(fā)明者不公告發(fā)明人 申請人:翟云, 江澎
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1