一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)模式識(shí)別及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及一種基于隨機(jī)森林加 權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法。
【背景技術(shù)】
[0002] 分類問(wèn)題是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識(shí)別中一個(gè)重要的研宄內(nèi)容。分類算法通 過(guò)對(duì)已知類別訓(xùn)練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預(yù)測(cè)新數(shù)據(jù)的類別。
[0003] 隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類器,并且其輸出的類別是由個(gè)別樹(shù)輸出的 類別的眾數(shù)而定。隨機(jī)森林算法可以在決定類別時(shí),評(píng)估維度的重要性。k近鄰算法是一種 基于實(shí)例的惰性分類學(xué)習(xí)算法,將局部近似和將所有計(jì)算推遲到分類時(shí)。k近鄰算法中被分 配的對(duì)象被列為了其k個(gè)鄰域?qū)ο笾凶疃嗟囊粋€(gè)類別。該分類方法適用于各種大規(guī)模高維 數(shù)據(jù)的分類及回歸問(wèn)題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明要解決的技術(shù)問(wèn)題是:本發(fā)明提供了一種基于隨機(jī)森林加權(quán)距離的大規(guī)模 高維數(shù)據(jù)分類方法,對(duì)訓(xùn)練樣本利用隨機(jī)森林算法計(jì)算各維度重要性,以維度重要性數(shù)值 加權(quán)標(biāo)準(zhǔn)化距離,利用k近鄰算法進(jìn)行分類。
[0005] 本發(fā)明所采用的技術(shù)方案為:
[0006] -種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法,所述方法對(duì)訓(xùn)練樣本利 用隨機(jī)森林算法計(jì)算各維度重要性,以維度重要性數(shù)值加權(quán)標(biāo)準(zhǔn)化距離,利用k近鄰算法 進(jìn)行分類。
[0007] 所述方法包括步驟如下:
[0008] 1)訓(xùn)練樣本數(shù)據(jù)預(yù)處理及維度標(biāo)準(zhǔn)化;
[0009] 其中:
[0010] 數(shù)據(jù)預(yù)處理:目是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,消除數(shù)據(jù)間的不一致性;
[0011] 維度標(biāo)準(zhǔn)化:目的是消除不同維度的差異;
[0012] 2)維度重要性計(jì)算;
[0013] 采用隨機(jī)森林算法得到各維度重要性;
[0014] 3) K近鄰分類;
[0015] 對(duì)于一個(gè)待分類樣本,首先計(jì)算它和所有模板樣本間的加權(quán)距離,選擇其中距離 最小的k個(gè)模板樣本;選擇的樣本中數(shù)量最多的分類類別標(biāo)記為待分類樣本的類別。
[0016] 所述維度標(biāo)準(zhǔn)化,是以訓(xùn)練樣本為基礎(chǔ),計(jì)算各維度的均值及標(biāo)準(zhǔn)差,然后再后續(xù) 訓(xùn)練及分類階段,對(duì)應(yīng)維度利用均值及標(biāo)注差進(jìn)行標(biāo)準(zhǔn)化;標(biāo)準(zhǔn)化之后,所有維度的均值變 為0,標(biāo)準(zhǔn)差變?yōu)?。
[0017] 所述維度重要性的計(jì)算為誤分率的變化:隨機(jī)森林的每棵樹(shù)的子樣本集由所有訓(xùn) 練樣本集有放回采樣得到,平均會(huì)有大約1/3的樣本不會(huì)被選取,這部分樣本可用來(lái)驗(yàn)證 每一棵的分類誤分率,計(jì)算某維度重要性時(shí),在訓(xùn)練決策樹(shù)不采用該維度時(shí)得到誤分率和 采用該維度時(shí)的誤分率的比值定義為該維度的維度重要性。
[0018] 所述維度重要性的計(jì)算為分裂時(shí)信息熵變化率下降量:決策樹(shù)在節(jié)點(diǎn)分裂時(shí)會(huì)選 擇一個(gè)最優(yōu)的分裂維度,選擇的依據(jù)即是選擇該維度導(dǎo)致信息熵的變化率,在決策樹(shù)訓(xùn)練 的過(guò)程中,可計(jì)算每個(gè)維度所有信息熵變化率的平均值,以此作為維度的重要性。
[0019] 假設(shè)各維度通過(guò)前面計(jì)算得到的加權(quán)值分別為Wl,W2,…,W n,待測(cè)樣本各維度分別 為D1, D2, D3,…,Dn,匹配模板各維度分別為T(mén)1, T2, T3,…,Tn,所述加權(quán)距離如下:
[0020]
[0021] 其中δ 訓(xùn)練數(shù)據(jù)中第i個(gè)維度的標(biāo)準(zhǔn)差。
[0022] 本發(fā)明的有益效果為:
[0023] 本發(fā)明分類方法可解決所有分類問(wèn)題,尤其適合于解決大規(guī)模高維數(shù)據(jù)的分類問(wèn) 題,該方法同樣適用于大規(guī)模高維數(shù)據(jù)的回歸問(wèn)題。
[0024] 說(shuō)明書(shū)附圖
[0025] 圖1為本發(fā)明方法流程圖;
[0026] 圖2為隨即森林算法示意圖;
[0027] 圖3為維度重要性誤分率計(jì)算方法示意圖。
【具體實(shí)施方式】
[0028] 下面根據(jù)說(shuō)明書(shū)附圖,結(jié)合【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)一步說(shuō)明:
[0029] -種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法,所述方法對(duì)訓(xùn)練樣本利 用隨機(jī)森林算法計(jì)算各維度重要性,以維度重要性數(shù)值加權(quán)標(biāo)準(zhǔn)化距離,利用k近鄰算法 進(jìn)行分類。
[0030] 如圖1所示,所述方法包括步驟如下:
[0031] 1)訓(xùn)練樣本數(shù)據(jù)預(yù)處理及維度標(biāo)準(zhǔn)化;
[0032] 其中:
[0033] 數(shù)據(jù)預(yù)處理:目是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,消除數(shù)據(jù)間的不一致性;數(shù)據(jù)預(yù)處理是幾 乎所有數(shù)據(jù)挖掘方法中重要的一個(gè)步驟,有效及可靠的數(shù)據(jù)的預(yù)處理,是后續(xù)分類的基 礎(chǔ);
[0034] 維度標(biāo)準(zhǔn)化:目的是消除不同維度的差異;
[0035] 2)維度重要性計(jì)算;
[0036] 采用隨機(jī)森林算法得到各維度重要性;隨機(jī)森林算法用隨機(jī)建立有多棵不相關(guān)決 策樹(shù)構(gòu)成的森林,如附圖2所示,待分類樣本由每棵決策樹(shù)給出一個(gè)分類結(jié)果,給出最多的 分類即為森林的輸出分類結(jié)果;
[0037] 3) K近鄰分類;
[0038] 對(duì)于一個(gè)待分類樣本,首先計(jì)算它和所有模板樣本間的加權(quán)距離,選擇其中距離 最小的k個(gè)模板樣本;選擇的樣本中數(shù)量最多的分類類別標(biāo)記為待分類樣本的類別。
[0039] 所述維度標(biāo)準(zhǔn)化,是以訓(xùn)練樣本為基礎(chǔ),計(jì)算各維度的均值及標(biāo)準(zhǔn)差,然后再后續(xù) 訓(xùn)練及分類階段,對(duì)應(yīng)維度利用均值及標(biāo)注差進(jìn)行標(biāo)準(zhǔn)化;標(biāo)準(zhǔn)化之后,所有維度的均值變 為0,標(biāo)準(zhǔn)差變?yōu)?。
[0040] 如圖3所示,所述維度重要性的計(jì)算為誤分率的變化:隨機(jī)森林的每棵樹(shù)的子樣 本集由所有訓(xùn)練樣本集有放回采樣得到,平均會(huì)有大約1/3的樣本不會(huì)被選取,這部分樣 本可用來(lái)驗(yàn)證每一棵的分類誤分率,計(jì)算某維度重要性時(shí),在訓(xùn)練決策樹(shù)不采用該維度時(shí) 得到誤分率和采用該維度時(shí)的誤分率的比值定義為該維度的維度重要性。
[0041] 所述維度重要性的計(jì)算為分裂時(shí)信息熵變化率下降量:決策樹(shù)在節(jié)點(diǎn)分裂時(shí)會(huì)選 擇一個(gè)最優(yōu)的分裂維度,選擇的依據(jù)即是選擇該維度導(dǎo)致信息熵的變化率,在決策樹(shù)訓(xùn)練 的過(guò)程中,可計(jì)算每個(gè)維度所有信息熵變化率的平均值,以此作為維度的重要性。
[0042] 假設(shè)各維度通過(guò)前面計(jì)算得到的加權(quán)值分別為W1, W2,…,Wn,待測(cè)樣本各維度分別 為D1, D2, D3,…,Dn,匹配模板各維度分別為T(mén)1, T2, T3,…,Tn,所述加權(quán)距離如下:
[0043]
[0044] 其中δ 訓(xùn)練數(shù)據(jù)中第i個(gè)維度的標(biāo)準(zhǔn)差。
[0045] 實(shí)施時(shí)注意事項(xiàng):
[0046] 1)本發(fā)明中使用的基本算法可以重新編寫(xiě),也可以采用現(xiàn)有程序包;
[0047] 2)考慮到高維數(shù)據(jù)的特點(diǎn),實(shí)施時(shí)可先對(duì)原始樣本數(shù)據(jù)進(jìn)行特征的變換或篩選;
[0048] 3)本
【發(fā)明內(nèi)容】
中給出了兩種給出了兩種不同的維度重要性的計(jì)算方式,在實(shí)際實(shí) 施應(yīng)用時(shí),可根據(jù)實(shí)際情況選擇其中一種或兩種計(jì)算方法組合使用;
[0049] 4)本發(fā)明給出的距離定義,在實(shí)施時(shí)需要根據(jù)實(shí)際,選擇合理的p值,當(dāng)P = 1,該 距離為加權(quán)的曼哈頓距離;當(dāng)P = 2,該距離為加權(quán)的歐式距離;
[0050] 5)將k近鄰分類方法改為k近鄰回歸方法,可將本發(fā)明方法應(yīng)用大規(guī)模高維數(shù)據(jù) 的回歸問(wèn)題。
[0051] 以上實(shí)施方式僅用于說(shuō)明本發(fā)明,而并非對(duì)本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的普通 技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有 等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
【主權(quán)項(xiàng)】
1. 一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法,其特征在于:所述方法對(duì) 訓(xùn)練樣本利用隨機(jī)森林算法計(jì)算各維度重要性,以維度重要性數(shù)值加權(quán)標(biāo)準(zhǔn)化距離,利用k 近鄰算法進(jìn)行分類。2. 根據(jù)權(quán)利要求1所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法,其 特征在于,所述方法包括步驟如下: 1) 訓(xùn)練樣本數(shù)據(jù)預(yù)處理及維度標(biāo)準(zhǔn)化; 其中: 數(shù)據(jù)預(yù)處理:目是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,消除數(shù)據(jù)間的不一致性; 維度標(biāo)準(zhǔn)化:目的是消除不同維度的差異; 2) 維度重要性計(jì)算; 采用隨機(jī)森林算法得到各維度重要性; 3. K近鄰分類; 對(duì)于一個(gè)待分類樣本,首先計(jì)算它和所有模板樣本間的加權(quán)距離,選擇其中距離最小 的k個(gè)模板樣本;選擇的樣本中數(shù)量最多的分類類別標(biāo)記為待分類樣本的類別。3. 根據(jù)權(quán)利要求2所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法,其 特征在于:所述維度標(biāo)準(zhǔn)化,是以訓(xùn)練樣本為基礎(chǔ),計(jì)算各維度的均值及標(biāo)準(zhǔn)差,然后再后 續(xù)訓(xùn)練及分類階段,對(duì)應(yīng)維度利用均值及標(biāo)注差進(jìn)行標(biāo)準(zhǔn)化;標(biāo)準(zhǔn)化之后,所有維度的均值 變?yōu)椹?標(biāo)準(zhǔn)差變?yōu)?。4. 根據(jù)權(quán)利要求2或3所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方 法,其特征在于,所述維度重要性的計(jì)算為誤分率的變化:隨機(jī)森林的每棵樹(shù)的子樣本集由 所有訓(xùn)練樣本集有放回采樣得到,平均會(huì)有1/3的樣本不會(huì)被選取,這部分樣本可用來(lái)驗(yàn) 證每一棵的分類誤分率,計(jì)算某維度重要性時(shí),在訓(xùn)練決策樹(shù)不采用該維度時(shí)得到誤分率 和采用該維度時(shí)的誤分率的比值定義為該維度的維度重要性。5. 根據(jù)權(quán)利要求2或3所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方 法,其特征在于,所述維度重要性的計(jì)算為分裂時(shí)信息熵變化率下降量:決策樹(shù)在節(jié)點(diǎn)分裂 時(shí)會(huì)選擇一個(gè)最優(yōu)的分裂維度,選擇的依據(jù)即是選擇該維度導(dǎo)致信息熵的變化率,在決策 樹(shù)訓(xùn)練的過(guò)程中,可計(jì)算每個(gè)維度所有信息熵變化率的平均值,以此作為維度的重要性。6. 根據(jù)權(quán)利要求2或3所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方 法,其特征在于:假設(shè)各維度通過(guò)前面計(jì)算得到的加權(quán)值分別為Wl,w2,…,wn,待測(cè)樣本各 維度分別為DpD2,D3,…,Dn,匹配模板各維度分別為1\,T2,T3,…,Tn,所述加權(quán)距離如下:其中\(zhòng)為訓(xùn)練數(shù)據(jù)中第i個(gè)維度的標(biāo)準(zhǔn)差。
【專利摘要】本發(fā)明公開(kāi)了一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法,所述方法對(duì)訓(xùn)練樣本利用隨機(jī)森林算法計(jì)算各維度重要性,以維度重要性數(shù)值加權(quán)標(biāo)準(zhǔn)化距離,利用k近鄰算法進(jìn)行分類。本發(fā)明分類方法可解決所有分類問(wèn)題,尤其適合于解決大規(guī)模高維數(shù)據(jù)的分類問(wèn)題,該方法同樣適用于大規(guī)模高維數(shù)據(jù)的回歸問(wèn)題。
【IPC分類】G06K9/62, G06F17/30
【公開(kāi)號(hào)】CN104915679
【申請(qǐng)?zhí)枴緾N201510272419
【發(fā)明人】韋鵬, 付興旺, 吳楠, 朱英澍
【申請(qǐng)人】浪潮電子信息產(chǎn)業(yè)股份有限公司
【公開(kāi)日】2015年9月16日
【申請(qǐng)日】2015年5月26日