可收縮步長的多類別集成學習分類方法

文檔序號：8258883閱讀：285來源：國知局

可收縮步長的多類別集成學習分類方法
【技術領域】
[0001] 本發(fā)明涉及一種可收縮步長的多類別集成學習分類方法。
【背景技術】
[0002] 集成學習已經(jīng)成為機器學習中的一個重要研究方向。因為集成學習有一定的理論基礎，并且實現(xiàn)簡單，同時較其他分類方法有更高預測準確度和抵御"過學習"的能力，所以得到廣泛的認可和應用。隨著技術的進步使得數(shù)據(jù)收集變得越來越容易，使用集成學習去分類多類別的數(shù)據(jù)也變得越來越常見。
[0003] 使用集成學習分類是使用一系列基分類器進行學習，并使用某種規(guī)則把這些基分類器的結果進行整合，從而獲得比這些基分類器擁有更好學習效果和泛化能力的集成分類器。當類別數(shù)已知，但數(shù)據(jù)集中的數(shù)據(jù)類別未知時，我們常常借助訓練數(shù)據(jù)集來構造集成學習模型。
[0004] 在多類別情況下，特別是訓練步長固定時，由于基分類器在每次模型訓練時的"過學習"程度不同等因素的影響，固定的步長往往不能得到優(yōu)化的分類界面，最終無法獲得理想預測精度，提供理想的分類預測參考。為了解決這個問題，有學者把集成學習轉化成最優(yōu) 化問題，在每次迭代中對訓練步長做線搜索，即每次迭代計算并估計最優(yōu)步長。但是，即使是使用線搜索，也只是獲得步長的估計最優(yōu)值，而不是精確最優(yōu)值。另外，在每次迭代使用線搜索計算而產(chǎn)生的時間代價較大。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于解決現(xiàn)有技術存在的問題，提供一種可收縮步長的多類別集成學習分類方法。
[0006] 為達到上述目的，本發(fā)明采用的如下技術方案：一種可收縮步長的多類別集成學習分類方法，其特征在于該方法具體步驟如下： A. 將原始數(shù)據(jù)進行預處理，轉換成分類方法可以處理的數(shù)據(jù)格式，同時獲得訓練數(shù)據(jù) 集和待分類數(shù)據(jù)集； B. 初始化訓練數(shù)據(jù)集樣本權重； C. 從m=l到M迭代，依據(jù)訓練數(shù)據(jù)集樣本權重以及訓練步長，訓練M個基分類器； D. 集成步驟C中的所有基分類器，得到最終判別分類器，對待分類數(shù)據(jù)集進行分類； E. 將分類結果保存到文件中，提供分類預測的參考。
[0007] 上述步驟A的操作步驟如下： A1.訓練數(shù)據(jù)集的預處理：每條數(shù)據(jù)必須有固定的f?個屬性值，在最后還要添加一個類別屬性，表示這條數(shù)據(jù)的類別已知，總共為f+1個屬性值； A2.待分類數(shù)據(jù)集的預處理：待分類數(shù)據(jù)集的每條數(shù)據(jù)形式必須與訓練數(shù)據(jù)集的前f 個屬性形式一致，并且無類別屬性值字段，總共為f個屬性值。
[0008] 上述步驟B中初始化訓練數(shù)據(jù)集樣本權重的操作步驟是：令每個樣本的權重 Ci'=1/n，i=l, 2，3…n，其中n為樣本個數(shù)。
[0009] 上述步驟C的操作步驟如下： C1.依據(jù)訓練數(shù)據(jù)集，以權重Wjll練得到基分類器(x:); C2).計算基分類器(Xi )錯誤率：
【主權項】
1. 一種可收縮步長的多類別集成學習分類方法，其特征在于該方法具體步驟如下： A. 將原始數(shù)據(jù)進行預處理，轉換成分類方法可以處理的數(shù)據(jù)格式，同時獲得訓練數(shù)據(jù) 集和待分類數(shù)據(jù)集； B. 初始化訓練數(shù)據(jù)集樣本權重； C. 從m=l到M迭代，依據(jù)訓練數(shù)據(jù)集樣本權重以及訓練步長，訓練M個基分類器； D. 集成步驟C中的所有基分類器，得到最終判別分類器，對待分類數(shù)據(jù)集進行分類； E. 將分類結果保存到文件中，提供分類預測的參考。
2. 根據(jù)權利要求1所述的可收縮步長的多類別集成學習分類方法，其特征在于所述步驟A的操作步驟如下： A1.訓練數(shù)據(jù)集的預處理：每條數(shù)據(jù)必須有固定的f?個屬性值，在最后還要添加一個類別屬性，表示這條數(shù)據(jù)的類別已知，總共為f+1個屬性值； A2.待分類數(shù)據(jù)集的預處理：待分類數(shù)據(jù)集的每條數(shù)據(jù)形式必須與訓練數(shù)據(jù)集的前f個屬性形式一致，并且無類別屬性值字段，總共為f個屬性值。
3. 根據(jù)權利要求1所述的可收縮步長的多類別集成學習分類方法，其特征在于，上述步驟B中初始化訓練數(shù)據(jù)集樣本權重的操作步驟是：令每個樣本的權重 1/n，i=l, 2，3…n，其中n為樣本個數(shù)。
4. 根據(jù)權利要求1所述的可收縮步長的多類別集成學習分類方法，其特征在于所述步驟C的操作步驟如下： C-1.依據(jù)訓練數(shù)據(jù)集，以權重訓練得到基分類器T(m:f(Xf); C-2.計算基分類器(& )錯誤率：
C-3.計算基分類器(X,)可信度：
其中變量r為基分類器當前訓練步長 C-4.從i=l到n，更新訓練數(shù)據(jù)集樣本權重：
C-5.重新規(guī)范化％，使其總和為1 ; C-6.計算本次迭代后的判別分類器：
C-7.判斷是否需要收縮訓練步長，如需，則收縮步長并重新計算步驟C3)，C4)，C5)，C6)，保存本次迭代后的最終判別分類器￡：?〇{〕， C-8若M次迭代結束，則退出迭代，否則跳轉到C1)繼續(xù)迭代。
5. 根據(jù)權利要求4所述的可收縮步長的多類別集成學習分類方法，其特征在于所述步驟C7中判斷是否需要收縮訓練步長的依據(jù)是：如果Margin(C+m-Hx〕）>Margin(rn(x〕）并且Accuracy(COT_1(s) )〈Accuracy(CTO(x〕），則收縮步長使得r=Pr(0<jSS])并重新計算步驟C3)，C4)，C5)，C6);否則，不做更改，最后，保存本次迭代后的最終判別分類器 Cra(x),其中Margin計算訓練模型的空白邊界，Accuracy計算訓練模型的訓練準確率，迭代次數(shù)m 算法趨于收斂。
6. 根據(jù)權利要求1所述的可收縮步長的多類別集成學習分類方法，其特征在于所述步驟D的操作步驟如下： D1.集成并計算判別分類器，輸出M個基分類器集成后的判別分類器，采用的計算公式為：
其中即為集成學習所輸出的判別分類器，累加所有基分類器的判別概率，取K類中最大的即為判別結果，其中包含的權重含有基分類器權重是經(jīng)過步長調(diào)整后的權重； D2.使用步驟D1中計算的判別分類器，為待分類數(shù)據(jù)集中的所有樣本進行分類。
【專利摘要】本發(fā)明涉及可收縮步長的多類別集成學習分類方法，該方法首先將原始數(shù)據(jù)進行預處理，轉換成分類方法可以處理的數(shù)據(jù)格式，獲得訓練數(shù)據(jù)集和待分類數(shù)據(jù)集；然后初始化訓練數(shù)據(jù)集樣本權重；然后依據(jù)訓練數(shù)據(jù)集樣本權重以及訓練步長，訓練M個基分類器，其中根據(jù)需要收縮步長；然后集成所有基分類器，得到最終判別分類器，對待分類數(shù)據(jù)集進行分類；最后將分類結果保存到文件中，提供分類預測的參考。本發(fā)明解決了因使用固定步長導致的最終分類界面沒有最優(yōu)化，分類預測精度欠佳的問題，同時省去了使用線搜索估計帶來的時間開銷。
【IPC分類】G06K9-62, G06K9-66, G06F17-30
【公開號】CN104573012
【申請?zhí)枴緾N201510010781
【發(fā)明人】吳悅, 嚴超
【申請人】上海大學
【公開日】2015年4月29日
【申請日】2015年1月9日

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：吳悅;嚴超;
技術所有人：上海大學;
我是此專利的發(fā)明人

上一篇：結合類別權重的集成學習分類方法
上一篇：網(wǎng)盤文件的展現(xiàn)方法及裝置的制造方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

可收縮步長的多類別集成學習分類方法