可收縮步長的多類別集成學習分類方法
【技術領域】
[0001] 本發(fā)明涉及一種可收縮步長的多類別集成學習分類方法。
【背景技術】
[0002] 集成學習已經(jīng)成為機器學習中的一個重要研究方向。因為集成學習有一定的理論 基礎,并且實現(xiàn)簡單,同時較其他分類方法有更高預測準確度和抵御"過學習"的能力,所以 得到廣泛的認可和應用。隨著技術的進步使得數(shù)據(jù)收集變得越來越容易,使用集成學習去 分類多類別的數(shù)據(jù)也變得越來越常見。
[0003] 使用集成學習分類是使用一系列基分類器進行學習,并使用某種規(guī)則把這些基分 類器的結果進行整合,從而獲得比這些基分類器擁有更好學習效果和泛化能力的集成分類 器。當類別數(shù)已知,但數(shù)據(jù)集中的數(shù)據(jù)類別未知時,我們常常借助訓練數(shù)據(jù)集來構造集成學 習模型。
[0004] 在多類別情況下,特別是訓練步長固定時,由于基分類器在每次模型訓練時的"過 學習"程度不同等因素的影響,固定的步長往往不能得到優(yōu)化的分類界面,最終無法獲得理 想預測精度,提供理想的分類預測參考。為了解決這個問題,有學者把集成學習轉化成最優(yōu) 化問題,在每次迭代中對訓練步長做線搜索,即每次迭代計算并估計最優(yōu)步長。但是,即使 是使用線搜索,也只是獲得步長的估計最優(yōu)值,而不是精確最優(yōu)值。另外,在每次迭代使用 線搜索計算而產(chǎn)生的時間代價較大。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于解決現(xiàn)有技術存在的問題,提供一種可收縮步長的多類別集成 學習分類方法。
[0006] 為達到上述目的,本發(fā)明采用的如下技術方案: 一種可收縮步長的多類別集成學習分類方法,其特征在于該方法具體步驟如下: A. 將原始數(shù)據(jù)進行預處理,轉換成分類方法可以處理的數(shù)據(jù)格式,同時獲得訓練數(shù)據(jù) 集和待分類數(shù)據(jù)集; B. 初始化訓練數(shù)據(jù)集樣本權重; C. 從m=l到M迭代,依據(jù)訓練數(shù)據(jù)集樣本權重以及訓練步長,訓練M個基分類器; D. 集成步驟C中的所有基分類器,得到最終判別分類器,對待分類數(shù)據(jù)集進行分類; E. 將分類結果保存到文件中,提供分類預測的參考。
[0007] 上述步驟A的操作步驟如下: A1.訓練數(shù)據(jù)集的預處理:每條數(shù)據(jù)必須有固定的f?個屬性值,在最后還要添加一個 類別屬性,表示這條數(shù)據(jù)的類別已知,總共為f+1個屬性值; A2.待分類數(shù)據(jù)集的預處理:待分類數(shù)據(jù)集的每條數(shù)據(jù)形式必須與訓練數(shù)據(jù)集的前f 個屬性形式一致,并且無類別屬性值字段,總共為f個屬性值。
[0008] 上述步驟B中初始化訓練數(shù)據(jù)集樣本權重的操作步驟是:令每個樣本的權重 Ci'=1/n,i=l, 2,3…n,其中n為樣本個數(shù)。
[0009] 上述步驟C的操作步驟如下: C1.依據(jù)訓練數(shù)據(jù)集,以權重Wjll練得到基分類器(x:); C2).計算基分類器(Xi )錯誤率:
【主權項】
1. 一種可收縮步長的多類別集成學習分類方法,其特征在于該方法具體步驟如下: A. 將原始數(shù)據(jù)進行預處理,轉換成分類方法可以處理的數(shù)據(jù)格式,同時獲得訓練數(shù)據(jù) 集和待分類數(shù)據(jù)集; B. 初始化訓練數(shù)據(jù)集樣本權重; C. 從m=l到M迭代,依據(jù)訓練數(shù)據(jù)集樣本權重以及訓練步長,訓練M個基分類器; D. 集成步驟C中的所有基分類器,得到最終判別分類器,對待分類數(shù)據(jù)集進行分類; E. 將分類結果保存到文件中,提供分類預測的參考。
2. 根據(jù)權利要求1所述的可收縮步長的多類別集成學習分類方法,其特征在于所述步 驟A的操作步驟如下: A1.訓練數(shù)據(jù)集的預處理:每條數(shù)據(jù)必須有固定的f?個屬性值,在最后還要添加一個 類別屬性,表示這條數(shù)據(jù)的類別已知,總共為f+1個屬性值; A2.待分類數(shù)據(jù)集的預處理:待分類數(shù)據(jù)集的每條數(shù)據(jù)形式必須與訓練數(shù)據(jù)集的前f個屬性形式一致,并且無類別屬性值字段,總共為f個屬性值。
3. 根據(jù)權利要求1所述的可收縮步長的多類別集成學習分類方法,其特征在 于,上述步驟B中初始化訓練數(shù)據(jù)集樣本權重的操作步驟是:令每個樣本的權重 1/n,i=l, 2,3…n,其中n為樣本個數(shù)。
4. 根據(jù)權利要求1所述的可收縮步長的多類別集成學習分類方法,其特征在于所述步 驟C的操作步驟如下: C-1.依據(jù)訓練數(shù)據(jù)集,以權重訓練得到基分類器T(m:f(Xf); C-2.計算基分類器(& )錯誤率:
C-3.計算基分類器(X,)可信度:
其中變量r為基分類器當前訓練步長 C-4.從i=l到n,更新訓練數(shù)據(jù)集樣本權重:
C-5.重新規(guī)范化%,使其總和為1 ; C-6.計算本次迭代后的判別分類器:
C-7.判斷是否需要收縮訓練步長,如需,則收縮步長并重新計算步驟C3),C4),C5),C6),保存本次迭代后的最終判別分類器£:?〇{〕, C-8若M次迭代結束,則退出迭代,否則跳轉到C1)繼續(xù)迭代。
5. 根據(jù)權利要求4所述的可收縮步長的多類別集成學習分類方法,其特征在于所述步 驟C7中判斷是否需要收縮訓練步長的依據(jù)是:如果Margin(C+m-Hx〕)>Margin(rn(x〕) 并且Accuracy(COT_1(s) )〈Accuracy(CTO(x〕),則收縮步長使得r=Pr(0<jSS])并重 新計算步驟C3),C4),C5),C6);否則,不做更改,最后,保存本次迭代后的最終判別分類器 Cra(x),其中Margin計算訓練模型的空白邊界,Accuracy計算訓練模型的訓練準確率,迭代 次數(shù)m 算法趨于收斂。
6. 根據(jù)權利要求1所述的可收縮步長的多類別集成學習分類方法,其特征在于所述步 驟D的操作步驟如下: D1.集成并計算判別分類器,輸出M個基分類器集成后的判別分類器,采用的計算公 式為:
其中即為集成學習所輸出的判別分類器, 累加所有基分類器的判別概率,取K類中最大的即為判別結果, 其中包含的權重含有基分類器權重是經(jīng)過步長調(diào)整后的權重; D2.使用步驟D1中計算的判別分類器,為待分類數(shù)據(jù)集中的所有樣本進行分類。
【專利摘要】本發(fā)明涉及可收縮步長的多類別集成學習分類方法,該方法首先將原始數(shù)據(jù)進行預處理,轉換成分類方法可以處理的數(shù)據(jù)格式,獲得訓練數(shù)據(jù)集和待分類數(shù)據(jù)集;然后初始化訓練數(shù)據(jù)集樣本權重;然后依據(jù)訓練數(shù)據(jù)集樣本權重以及訓練步長,訓練M個基分類器,其中根據(jù)需要收縮步長;然后集成所有基分類器,得到最終判別分類器,對待分類數(shù)據(jù)集進行分類;最后將分類結果保存到文件中,提供分類預測的參考。本發(fā)明解決了因使用固定步長導致的最終分類界面沒有最優(yōu)化,分類預測精度欠佳的問題,同時省去了使用線搜索估計帶來的時間開銷。
【IPC分類】G06K9-62, G06K9-66, G06F17-30
【公開號】CN104573012
【申請?zhí)枴緾N201510010781
【發(fā)明人】吳悅, 嚴超
【申請人】上海大學
【公開日】2015年4月29日
【申請日】2015年1月9日