自適應(yīng)組合降采樣增強(qiáng)學(xué)習(xí)機(jī)的制作方法
【專利摘要】本發(fā)明涉及一種自適應(yīng)組合降采樣增強(qiáng)學(xué)習(xí)機(jī),包括:根據(jù)和計算不平衡數(shù)據(jù)集的不平衡率;將全部的負(fù)樣本通過不放回抽樣均分為IR個獨立不相交的子集,使各負(fù)樣本子集中的樣本數(shù)量與正樣本數(shù)量接近;不平衡數(shù)據(jù)集中的全部正樣本分別與各負(fù)樣本子集進(jìn)行組合,得到IR個平衡的子訓(xùn)練集;設(shè)迭代次數(shù)為T,用Real Adaboost算法分別對各平衡子集進(jìn)行訓(xùn)練,得到T個不同的分類模型;使用一個平衡且與不平衡數(shù)據(jù)集數(shù)據(jù)分布相同的驗證集進(jìn)行分類實驗,對輸出的加權(quán)投票結(jié)果利用OTSU法尋找最優(yōu)閾值。本發(fā)明可以在不平衡數(shù)據(jù)集上獲得更好的分類效果。
【專利說明】
自適應(yīng)組合降采樣増強(qiáng)學(xué)習(xí)機(jī)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘技術(shù),具體涉及一種針對不平衡數(shù)據(jù)集的集成分 類器。
【背景技術(shù)】
[0002] 分類是機(jī)器學(xué)習(xí)技術(shù)最為重要的任務(wù)之一。當(dāng)前,已經(jīng)得到深入研究并廣泛投入 應(yīng)用的支持向量機(jī)、線性判別分析及決策樹等經(jīng)典分類器在對樣本進(jìn)行訓(xùn)練時均以獲得最 高整體準(zhǔn)確率為目標(biāo)。對于二分類問題,若兩類樣本分別包含的樣本數(shù)基本相等,則經(jīng)典分 類器可以通過訓(xùn)練獲得良好的分類效果。然而,若正樣本(少數(shù)類中的樣本)和負(fù)樣本(多數(shù) 類中的樣本)數(shù)量相差過大,經(jīng)典分類器將無法給出良好的分類結(jié)果。例如,若某數(shù)據(jù)集中 包含1個正樣本和99個負(fù)樣本,則將全部數(shù)據(jù)均分入負(fù)樣本將獲得99 %的整體準(zhǔn)確率,但由 于其無法將正負(fù)樣本分開,故這一數(shù)據(jù)毫無意義。為解決數(shù)據(jù)不平衡問題對正樣本分類準(zhǔn) 確率帶來的影響,迄今為止科研人員已提出多種方法。根據(jù)其操作對象的不同,這些方法主 要可以分為數(shù)據(jù)級操作方法和算法級操作方法。
[0003] 數(shù)據(jù)級操作方法主要通過改變訓(xùn)練集的正負(fù)樣本數(shù)據(jù)分布來達(dá)到數(shù)據(jù)平衡,增加 正樣本的數(shù)量或減少負(fù)樣本的數(shù)量均為可行方法。專利"一種分類器的構(gòu)建方法" (CN104766098A)同時使用上述兩種方法,既保證了采樣后訓(xùn)練樣本的代表性,也避免了過 高的運算復(fù)雜度。然而,數(shù)據(jù)級方法也存在一定缺陷,即重采樣過程對噪聲較為敏感,個別 遠(yuǎn)離同類大部分樣本點的離群點可能會對最終的分類性能產(chǎn)生明顯影響。
[0004] 算法級操作方法主要通過對分類規(guī)則及數(shù)學(xué)模型進(jìn)行優(yōu)化來解決數(shù)據(jù)不平衡問 題,常用的方法是對不同類的樣本給出不同的錯分代價或進(jìn)行增強(qiáng)學(xué)習(xí)(boosting),通過 多個弱分類器的疊加與投票獲得性能較好的整體分類器。專利"一種基于代價敏感支持向 量機(jī)的遙感圖像自動解譯方法"(CN103218625A)通過引入代價敏感算法來優(yōu)化支持向量 機(jī),增大將正樣本分錯的懲罰系數(shù),以此提高正樣本的分類準(zhǔn)確率;專利"基于不平衡分類 指標(biāo)與集成學(xué)習(xí)的不平衡數(shù)據(jù)分類方法"(CN104951809A)使用boosting算法不斷增加錯分 樣本的權(quán)重,使其在下一輪學(xué)習(xí)中被再次錯分所需付出的代價變大,"迫使"錯分的樣本在 下一輪迭代中給出同之前相反的分類結(jié)果,由此提高分類準(zhǔn)確率。但算法級操作方法同樣 存在一定的局限性:若引入代價敏感參數(shù),則代價損失函數(shù)的確定需要依靠先驗知識確定, 而這樣的先驗知識不僅難以獲得,且不能保證準(zhǔn)確;而增強(qiáng)學(xué)習(xí)方法仍然知識一種通用分 類器的優(yōu)化方法,并未刻意關(guān)注正樣本,因此增強(qiáng)學(xué)習(xí)后數(shù)據(jù)不平衡問題雖得到緩解,但仍 然存在。
[0005] 為克服上述技術(shù)的缺陷并將其優(yōu)勢相結(jié)合,近年來,將數(shù)據(jù)級操作和算法級操作 相結(jié)合的集成學(xué)習(xí)方法已經(jīng)成為熱門研究方向。集成學(xué)習(xí)框架可以將包括重采樣、代價敏 感、閾值投票等方法在內(nèi)的多種機(jī)器學(xué)習(xí)方法進(jìn)行融合并按照一定的順序執(zhí)行,以此達(dá)到 揚(yáng)長避短的目的。專利"組合降采樣極限學(xué)習(xí)機(jī)"(CN104573708A)將投票算法與降采樣技術(shù) 相結(jié)合,在降低了錯誤分類方差的同時也減小了運算復(fù)雜度。同時,由于投票算法的作用, 離群點對最終分類結(jié)果的影響也可減小。然而,該發(fā)明中得到的分類結(jié)果受各子分類器分 類性能影響較大,分類性能不夠穩(wěn)定。
[0006] 從上述分析可以看出,當(dāng)前,集成學(xué)習(xí)方法雖已開始得到應(yīng)用并展現(xiàn)出良好的發(fā) 展前景,但其性能仍存在一定的提升空間。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明提供一種集成分類器,在不平衡數(shù)據(jù)集上獲得更好的分類性能。技術(shù)方案 如下:
[0008] 一種自適應(yīng)組合降采樣增強(qiáng)學(xué)習(xí)機(jī),設(shè)不平衡數(shù)據(jù)集的正負(fù)樣本總數(shù)為n,其中正 樣本的數(shù)目為n P,負(fù)樣本的數(shù)目為nn,nP〈nn,該方法的技術(shù)方案如下:
[0009] (1)根據(jù)辦和加計算不平衡數(shù)據(jù)集的不平衡率IR;
[0010] (2)將全部的負(fù)樣本通過不放回抽樣均分為IR個獨立不相交的子集,使各負(fù)樣本 子集中的樣本數(shù)量與正樣本數(shù)量接近;
[0011] (3)不平衡數(shù)據(jù)集中的全部正樣本分別與各負(fù)樣本子集進(jìn)行組合,得到IR個平衡 的子訓(xùn)練集;
[0012] (4)設(shè)迭代次數(shù)為Τ,用Real Adaboost算法分別對各平衡子集進(jìn)行訓(xùn)練,得到Τ個 不同的分類模型;
[0013] (5)使用一個平衡且與不平衡數(shù)據(jù)集數(shù)據(jù)分布相同的驗證集進(jìn)行分類實驗,對輸 出的加權(quán)投票結(jié)果利用0TSU法尋找最優(yōu)閾值。
[0014] (6)對待分類的樣本進(jìn)行分類時,將其輸入分類模型中,經(jīng)各分類模型加權(quán)投票后 將投票結(jié)果同步驟(5)中給出的最優(yōu)閾值進(jìn)行比較,若不小于最優(yōu)閾值則判定為正樣本,反 之判定為負(fù)樣本。
[0015] 本發(fā)明受集成分類器設(shè)計思想啟發(fā),設(shè)計一種基于組合降采樣的集成分類器。通 過將子分類器用Real Adaboost算法進(jìn)行優(yōu)化,提高其單獨分類性能;子分類器的結(jié)果融合 采用加權(quán)投票方法,根據(jù)子分類器的分類錯誤率賦予不同權(quán)重,且最終的分類閾值根據(jù)投 票結(jié)果自適應(yīng),有效提高了分類精度。經(jīng)實驗比較,本發(fā)明在多個分類器評價指標(biāo)上具有明 顯優(yōu)勢。
【附圖說明】
[0016] 圖1為Real Adaboost算法流程圖。
[0017] 圖2為本發(fā)明系統(tǒng)流程圖。
【具體實施方式】
[0018] 下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)的說明:
[0019] (1)取得測試和訓(xùn)練數(shù)據(jù):示例中使用KEEL機(jī)器學(xué)習(xí)開源數(shù)據(jù)庫中的紅酒品質(zhì)分 類數(shù)據(jù)庫,共有1599個紅葡萄酒樣本。其中,正樣本為數(shù)據(jù)庫中評分為4的紅葡萄酒(評分取 值為從0到10的整數(shù)),包含樣本53個,即nP = 53;負(fù)樣本為數(shù)據(jù)庫中的其他全部1536個樣 本,SPnn=1536。按(1)式計算不平衡率,
[0020] IR = round(ηη/ηΡ) (1)
[0021 ]不平衡比例約為1:29。對各樣本提取糖度、PH值、液體密度、硫含量等共11維樣本, 進(jìn)行歸一化處理。
[0022] (2)正負(fù)樣本中,分別取一半樣本為訓(xùn)練集,四分之一樣本為驗證集,另外四分之 一樣本為測試集。
[0023] (3)對負(fù)樣本進(jìn)行29次不放回均勻降采樣,使降采樣得到的各負(fù)樣本子集中的樣 本個數(shù)同訓(xùn)練集中正樣本的個數(shù)基本相同。將訓(xùn)練集中全部正樣本分別與29個負(fù)樣本相結(jié) 合,得到29個平衡的子訓(xùn)練集。
[0024] (4)用上述得到的29個平衡訓(xùn)練集訓(xùn)練子分類器,分類算法為Real Adaboost,具 體流程如圖1所示。設(shè)訓(xùn)練迭代次數(shù)T = 10,各樣本的權(quán)值為D,則訓(xùn)練步驟可描述為:
[0025] 1.將各訓(xùn)練樣本的權(quán)值均初始化為DKihlAnp+nsUzl,. . .,(nP+ns)。隨后在 迭代結(jié)束之前循環(huán)執(zhí)行步驟2至步驟6:
[0026] 2.將訓(xùn)練集中的特征按取值不同劃分為若干個不相交的子空間,記為X1; ...,Xn。
[0027] 3.如(1)式所示,計算該輪迭代中每個子空間中樣本的總權(quán)值
[0028]
[0029]其中,1可取+1或-1,分別為正負(fù)樣本的標(biāo)簽。通過上式計算可以得到每個子空間 中正負(fù)類的累積樣本權(quán)。若權(quán)值越高,則證明訓(xùn)練樣本之前被分錯的次數(shù)越多,即分類錯誤 越多。
[0030] 4.計算樣本輸出,對于任意xieXj,定義
[0031]
[0032]其中,ε為一個很小的正常量,用于保證輸出的平滑性。由此可見,不同的子空間中 分類器h將給出不同的輸出,而同一子空間內(nèi)的取值將有相同的輸出。
[0033] 5.定義歸一化因子Z為各子空間中正負(fù)樣本的累積樣本權(quán)之積的和乘以2,即
[0034]
[0035]由于W值表示樣本權(quán)重,且在Real Adaboost算法中分類錯誤的樣本將獲得更高的 權(quán)重,故Z可以表征分類誤差。通過機(jī)器學(xué)習(xí)尋優(yōu)訓(xùn)練選取在該輪迭代中使Z值最?。捶诸?誤差最?。┑姆诸悈?shù),將該子空間的分類器ht作為該輪迭代的輸出函數(shù),即為該輪迭代訓(xùn) 練得到的分類器。
[0036] 6.按(4)式更新樣本權(quán)值
[0037] Dt+l(& = (4)
[0038] 對各樣本的權(quán)值進(jìn)行歸一化處理后即可開始下一輪迭代。本發(fā)明中,步驟2至步驟 6循環(huán)執(zhí)行共10次;
[0039] 7.最終得到的強(qiáng)分類器可表示為
[0040] H(x) = sign (Σ[= ι ht (χ) - b) C 5 )
[0041] 其中,b為一判別閾值,通常默認(rèn)為0。同時,可定義強(qiáng)分類器給出的分類結(jié)果置信 度
[0042]
[0043]本發(fā)明中,Real Adaboost結(jié)構(gòu)中的基分類器采用C4.5決策樹。其中,設(shè)置每個屬 性中至少包含兩個樣本,置信度為0.25,決策樹訓(xùn)練完成后進(jìn)行后剪枝處理。正樣本數(shù)據(jù)標(biāo) 簽為+1,負(fù)樣本數(shù)據(jù)標(biāo)簽為-1。
[0044] (5)根據(jù)訓(xùn)練算法迭代完成后各子分類器最終的分類錯誤率決定其在最終的投票 中得到的權(quán)重。
[0045]
(7)
[0046] (6)將驗證集樣本輸入已經(jīng)完成訓(xùn)練及權(quán)值分配的分類系統(tǒng),用OTSU法尋找閾值, 即在集合[-1,1]內(nèi)尋找最佳閾值分界點th,使分類結(jié)果以該點為界生成兩類,則兩類各有 一中心點。計算兩中心點方差,取值范圍內(nèi)使兩類方差最大的閾值即為分類器最終的閾值。
[0047] 完成加權(quán)投票后為全體驗證集樣本尋找合適的閾值th,使被th分出的兩類獲得最 大的類間方差,此時的th即為分類系統(tǒng)的自適應(yīng)閾值。
[0048] (7)測試:將待分類樣本輸入分類系統(tǒng),輸出加權(quán)投票結(jié)果后與閾值進(jìn)行比較,若 大于閾值則分入正類(+1),反之分入負(fù)類(-1)。
[0049] 表1給出了直接運用C4.5決策樹分類器對不平衡數(shù)據(jù)集進(jìn)行分類、用組合降采樣 極限學(xué)習(xí)機(jī)進(jìn)行分類及本發(fā)明所使用的自適應(yīng)組合降采樣增強(qiáng)學(xué)習(xí)機(jī)方法進(jìn)行分類分別 得到的測試結(jié)果。本發(fā)明采用以下幾個指標(biāo)對分類器性能進(jìn)行評價:
[0054] 表1分類算法結(jié)果與比較(同一指標(biāo)下最好的結(jié)果用黑體標(biāo)出)
[0050]
[0051]
[0052]
[0053]
[0055]
[0056] 由表1可以看出,在數(shù)據(jù)高度不平衡的情況下,直接用簡單分類器進(jìn)行分類完全無 法正確識別正樣本,而本發(fā)明所使用的方法同時獲得了理想的靈敏度和特異性結(jié)果,取得 了對正負(fù)樣本的分類準(zhǔn)確率的最佳折中,展現(xiàn)出了良好的分類性能。
【主權(quán)項】
1. 一種自適應(yīng)組合降采樣增強(qiáng)學(xué)習(xí)機(jī),設(shè)不平衡數(shù)據(jù)集的正負(fù)樣本總數(shù)為n,其中正樣 本的數(shù)目為nP,負(fù)樣本的數(shù)目為nn,nP〈nn,該方法的技術(shù)方案如下: (1) 根據(jù)辦和加計算不平衡數(shù)據(jù)集的不平衡率IR; (2) 將全部的負(fù)樣本通過不放回抽樣均分為IR個獨立不相交的子集,使各負(fù)樣本子集 中的樣本數(shù)量與正樣本數(shù)量接近; (3) 不平衡數(shù)據(jù)集中的全部正樣本分別與各負(fù)樣本子集進(jìn)行組合,得到IR個平衡的子 訓(xùn)練集; (4) 設(shè)迭代次數(shù)為Τ,用Real Adaboost算法分別對各平衡子集進(jìn)行訓(xùn)練,得到Τ個不同 的分類模型; (5) 使用一個平衡且與不平衡數(shù)據(jù)集數(shù)據(jù)分布相同的驗證集進(jìn)行分類實驗,對輸出的 加權(quán)投票結(jié)果利用0TSU法尋找最優(yōu)閾值。 (6) 對待分類的樣本進(jìn)行分類時,將其輸入分類模型中,經(jīng)各分類模型加權(quán)投票后將投 票結(jié)果同步驟(5)中給出的最優(yōu)閾值進(jìn)行比較,若不小于最優(yōu)閾值則判定為正樣本,反之判 定為負(fù)樣本。
【文檔編號】G06F17/30GK105975611SQ201610330862
【公開日】2016年9月28日
【申請日】2016年5月18日
【發(fā)明人】李喆, 呂衛(wèi), 褚晶輝
【申請人】天津大學(xué)