一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法

文檔序號(hào)：9200693閱讀：1332來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)模式識(shí)別及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域，具體涉及一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法。
【背景技術(shù)】
[0002] 分類問(wèn)題是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識(shí)別中一個(gè)重要的研宄內(nèi)容。分類算法通過(guò)對(duì)已知類別訓(xùn)練集的分析，從中發(fā)現(xiàn)分類規(guī)則，以此預(yù)測(cè)新數(shù)據(jù)的類別。
[0003] 隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類器，并且其輸出的類別是由個(gè)別樹(shù)輸出的類別的眾數(shù)而定。隨機(jī)森林算法可以在決定類別時(shí)，評(píng)估維度的重要性。k近鄰算法是一種基于實(shí)例的惰性分類學(xué)習(xí)算法，將局部近似和將所有計(jì)算推遲到分類時(shí)。k近鄰算法中被分配的對(duì)象被列為了其k個(gè)鄰域?qū)ο笾凶疃嗟囊粋€(gè)類別。該分類方法適用于各種大規(guī)模高維數(shù)據(jù)的分類及回歸問(wèn)題。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明要解決的技術(shù)問(wèn)題是：本發(fā)明提供了一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法，對(duì)訓(xùn)練樣本利用隨機(jī)森林算法計(jì)算各維度重要性，以維度重要性數(shù)值加權(quán)標(biāo)準(zhǔn)化距離，利用k近鄰算法進(jìn)行分類。
[0005] 本發(fā)明所采用的技術(shù)方案為：
[0006] -種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法，所述方法對(duì)訓(xùn)練樣本利用隨機(jī)森林算法計(jì)算各維度重要性，以維度重要性數(shù)值加權(quán)標(biāo)準(zhǔn)化距離，利用k近鄰算法進(jìn)行分類。
[0007] 所述方法包括步驟如下：
[0008] 1)訓(xùn)練樣本數(shù)據(jù)預(yù)處理及維度標(biāo)準(zhǔn)化；
[0009] 其中：
[0010] 數(shù)據(jù)預(yù)處理：目是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，消除數(shù)據(jù)間的不一致性；
[0011] 維度標(biāo)準(zhǔn)化：目的是消除不同維度的差異；
[0012] 2)維度重要性計(jì)算；
[0013] 采用隨機(jī)森林算法得到各維度重要性；
[0014] 3) K近鄰分類；
[0015] 對(duì)于一個(gè)待分類樣本，首先計(jì)算它和所有模板樣本間的加權(quán)距離，選擇其中距離最小的k個(gè)模板樣本；選擇的樣本中數(shù)量最多的分類類別標(biāo)記為待分類樣本的類別。
[0016] 所述維度標(biāo)準(zhǔn)化，是以訓(xùn)練樣本為基礎(chǔ)，計(jì)算各維度的均值及標(biāo)準(zhǔn)差，然后再后續(xù) 訓(xùn)練及分類階段，對(duì)應(yīng)維度利用均值及標(biāo)注差進(jìn)行標(biāo)準(zhǔn)化；標(biāo)準(zhǔn)化之后，所有維度的均值變為0,標(biāo)準(zhǔn)差變?yōu)?。
[0017] 所述維度重要性的計(jì)算為誤分率的變化：隨機(jī)森林的每棵樹(shù)的子樣本集由所有訓(xùn) 練樣本集有放回采樣得到，平均會(huì)有大約1/3的樣本不會(huì)被選取，這部分樣本可用來(lái)驗(yàn)證每一棵的分類誤分率，計(jì)算某維度重要性時(shí)，在訓(xùn)練決策樹(shù)不采用該維度時(shí)得到誤分率和采用該維度時(shí)的誤分率的比值定義為該維度的維度重要性。
[0018] 所述維度重要性的計(jì)算為分裂時(shí)信息熵變化率下降量：決策樹(shù)在節(jié)點(diǎn)分裂時(shí)會(huì)選擇一個(gè)最優(yōu)的分裂維度，選擇的依據(jù)即是選擇該維度導(dǎo)致信息熵的變化率，在決策樹(shù)訓(xùn)練的過(guò)程中，可計(jì)算每個(gè)維度所有信息熵變化率的平均值，以此作為維度的重要性。
[0019] 假設(shè)各維度通過(guò)前面計(jì)算得到的加權(quán)值分別為Wl，W2，…，W n，待測(cè)樣本各維度分別為D1, D2, D3，…，Dn，匹配模板各維度分別為T(mén)1, T2, T3,…，Tn，所述加權(quán)距離如下：
[0020]
[0021] 其中δ 訓(xùn)練數(shù)據(jù)中第i個(gè)維度的標(biāo)準(zhǔn)差。
[0022] 本發(fā)明的有益效果為：
[0023] 本發(fā)明分類方法可解決所有分類問(wèn)題，尤其適合于解決大規(guī)模高維數(shù)據(jù)的分類問(wèn) 題，該方法同樣適用于大規(guī)模高維數(shù)據(jù)的回歸問(wèn)題。
[0024] 說(shuō)明書(shū)附圖
[0025] 圖1為本發(fā)明方法流程圖；
[0026] 圖2為隨即森林算法示意圖；
[0027] 圖3為維度重要性誤分率計(jì)算方法示意圖。
【具體實(shí)施方式】
[0028] 下面根據(jù)說(shuō)明書(shū)附圖，結(jié)合【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)一步說(shuō)明：
[0029] -種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法，所述方法對(duì)訓(xùn)練樣本利用隨機(jī)森林算法計(jì)算各維度重要性，以維度重要性數(shù)值加權(quán)標(biāo)準(zhǔn)化距離，利用k近鄰算法進(jìn)行分類。
[0030] 如圖1所示，所述方法包括步驟如下：
[0031] 1)訓(xùn)練樣本數(shù)據(jù)預(yù)處理及維度標(biāo)準(zhǔn)化；
[0032] 其中：
[0033] 數(shù)據(jù)預(yù)處理：目是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，消除數(shù)據(jù)間的不一致性；數(shù)據(jù)預(yù)處理是幾乎所有數(shù)據(jù)挖掘方法中重要的一個(gè)步驟，有效及可靠的數(shù)據(jù)的預(yù)處理，是后續(xù)分類的基礎(chǔ)；
[0034] 維度標(biāo)準(zhǔn)化：目的是消除不同維度的差異；
[0035] 2)維度重要性計(jì)算；
[0036] 采用隨機(jī)森林算法得到各維度重要性；隨機(jī)森林算法用隨機(jī)建立有多棵不相關(guān)決策樹(shù)構(gòu)成的森林，如附圖2所示，待分類樣本由每棵決策樹(shù)給出一個(gè)分類結(jié)果，給出最多的分類即為森林的輸出分類結(jié)果；
[0037] 3) K近鄰分類；
[0038] 對(duì)于一個(gè)待分類樣本，首先計(jì)算它和所有模板樣本間的加權(quán)距離，選擇其中距離最小的k個(gè)模板樣本；選擇的樣本中數(shù)量最多的分類類別標(biāo)記為待分類樣本的類別。
[0039] 所述維度標(biāo)準(zhǔn)化，是以訓(xùn)練樣本為基礎(chǔ)，計(jì)算各維度的均值及標(biāo)準(zhǔn)差，然后再后續(xù) 訓(xùn)練及分類階段，對(duì)應(yīng)維度利用均值及標(biāo)注差進(jìn)行標(biāo)準(zhǔn)化；標(biāo)準(zhǔn)化之后，所有維度的均值變為0,標(biāo)準(zhǔn)差變?yōu)?。
[0040] 如圖3所示，所述維度重要性的計(jì)算為誤分率的變化：隨機(jī)森林的每棵樹(shù)的子樣本集由所有訓(xùn)練樣本集有放回采樣得到，平均會(huì)有大約1/3的樣本不會(huì)被選取，這部分樣本可用來(lái)驗(yàn)證每一棵的分類誤分率，計(jì)算某維度重要性時(shí)，在訓(xùn)練決策樹(shù)不采用該維度時(shí) 得到誤分率和采用該維度時(shí)的誤分率的比值定義為該維度的維度重要性。
[0041] 所述維度重要性的計(jì)算為分裂時(shí)信息熵變化率下降量：決策樹(shù)在節(jié)點(diǎn)分裂時(shí)會(huì)選擇一個(gè)最優(yōu)的分裂維度，選擇的依據(jù)即是選擇該維度導(dǎo)致信息熵的變化率，在決策樹(shù)訓(xùn)練的過(guò)程中，可計(jì)算每個(gè)維度所有信息熵變化率的平均值，以此作為維度的重要性。
[0042] 假設(shè)各維度通過(guò)前面計(jì)算得到的加權(quán)值分別為W1, W2，…，Wn，待測(cè)樣本各維度分別為D1, D2, D3，…，Dn，匹配模板各維度分別為T(mén)1, T2, T3,…，Tn，所述加權(quán)距離如下：
[0043]
[0044] 其中δ 訓(xùn)練數(shù)據(jù)中第i個(gè)維度的標(biāo)準(zhǔn)差。
[0045] 實(shí)施時(shí)注意事項(xiàng)：
[0046] 1)本發(fā)明中使用的基本算法可以重新編寫(xiě)，也可以采用現(xiàn)有程序包；
[0047] 2)考慮到高維數(shù)據(jù)的特點(diǎn)，實(shí)施時(shí)可先對(duì)原始樣本數(shù)據(jù)進(jìn)行特征的變換或篩選；
[0048] 3)本
【發(fā)明內(nèi)容】
中給出了兩種給出了兩種不同的維度重要性的計(jì)算方式，在實(shí)際實(shí) 施應(yīng)用時(shí)，可根據(jù)實(shí)際情況選擇其中一種或兩種計(jì)算方法組合使用；
[0049] 4)本發(fā)明給出的距離定義，在實(shí)施時(shí)需要根據(jù)實(shí)際，選擇合理的p值，當(dāng)P = 1，該距離為加權(quán)的曼哈頓距離；當(dāng)P = 2,該距離為加權(quán)的歐式距離；
[0050] 5)將k近鄰分類方法改為k近鄰回歸方法，可將本發(fā)明方法應(yīng)用大規(guī)模高維數(shù)據(jù) 的回歸問(wèn)題。
[0051] 以上實(shí)施方式僅用于說(shuō)明本發(fā)明，而并非對(duì)本發(fā)明的限制，有關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員，在不脫離本發(fā)明的精神和范圍的情況下，還可以做出各種變化和變型，因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇，本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
【主權(quán)項(xiàng)】
1. 一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法，其特征在于：所述方法對(duì) 訓(xùn)練樣本利用隨機(jī)森林算法計(jì)算各維度重要性，以維度重要性數(shù)值加權(quán)標(biāo)準(zhǔn)化距離，利用k 近鄰算法進(jìn)行分類。2. 根據(jù)權(quán)利要求1所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法，其特征在于，所述方法包括步驟如下： 1) 訓(xùn)練樣本數(shù)據(jù)預(yù)處理及維度標(biāo)準(zhǔn)化；其中：數(shù)據(jù)預(yù)處理：目是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，消除數(shù)據(jù)間的不一致性；維度標(biāo)準(zhǔn)化：目的是消除不同維度的差異； 2) 維度重要性計(jì)算；采用隨機(jī)森林算法得到各維度重要性； 3. K近鄰分類；對(duì)于一個(gè)待分類樣本，首先計(jì)算它和所有模板樣本間的加權(quán)距離，選擇其中距離最小的k個(gè)模板樣本；選擇的樣本中數(shù)量最多的分類類別標(biāo)記為待分類樣本的類別。3. 根據(jù)權(quán)利要求2所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法，其特征在于：所述維度標(biāo)準(zhǔn)化，是以訓(xùn)練樣本為基礎(chǔ)，計(jì)算各維度的均值及標(biāo)準(zhǔn)差，然后再后續(xù)訓(xùn)練及分類階段，對(duì)應(yīng)維度利用均值及標(biāo)注差進(jìn)行標(biāo)準(zhǔn)化；標(biāo)準(zhǔn)化之后，所有維度的均值變?yōu)椹?標(biāo)準(zhǔn)差變?yōu)?。4. 根據(jù)權(quán)利要求2或3所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法，其特征在于，所述維度重要性的計(jì)算為誤分率的變化：隨機(jī)森林的每棵樹(shù)的子樣本集由所有訓(xùn)練樣本集有放回采樣得到，平均會(huì)有1/3的樣本不會(huì)被選取，這部分樣本可用來(lái)驗(yàn) 證每一棵的分類誤分率，計(jì)算某維度重要性時(shí)，在訓(xùn)練決策樹(shù)不采用該維度時(shí)得到誤分率和采用該維度時(shí)的誤分率的比值定義為該維度的維度重要性。5. 根據(jù)權(quán)利要求2或3所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法，其特征在于，所述維度重要性的計(jì)算為分裂時(shí)信息熵變化率下降量：決策樹(shù)在節(jié)點(diǎn)分裂時(shí)會(huì)選擇一個(gè)最優(yōu)的分裂維度，選擇的依據(jù)即是選擇該維度導(dǎo)致信息熵的變化率，在決策樹(shù)訓(xùn)練的過(guò)程中，可計(jì)算每個(gè)維度所有信息熵變化率的平均值，以此作為維度的重要性。6. 根據(jù)權(quán)利要求2或3所述的一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法，其特征在于：假設(shè)各維度通過(guò)前面計(jì)算得到的加權(quán)值分別為Wl，w2，…，wn，待測(cè)樣本各維度分別為DpD2,D3，…，Dn，匹配模板各維度分別為1\，T2,T3，…，Tn，所述加權(quán)距離如下：其中\(zhòng)為訓(xùn)練數(shù)據(jù)中第i個(gè)維度的標(biāo)準(zhǔn)差。
【專利摘要】本發(fā)明公開(kāi)了一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法，所述方法對(duì)訓(xùn)練樣本利用隨機(jī)森林算法計(jì)算各維度重要性，以維度重要性數(shù)值加權(quán)標(biāo)準(zhǔn)化距離，利用k近鄰算法進(jìn)行分類。本發(fā)明分類方法可解決所有分類問(wèn)題，尤其適合于解決大規(guī)模高維數(shù)據(jù)的分類問(wèn)題，該方法同樣適用于大規(guī)模高維數(shù)據(jù)的回歸問(wèn)題。
【IPC分類】G06K9/62, G06F17/30
【公開(kāi)號(hào)】CN104915679
【申請(qǐng)?zhí)枴緾N201510272419
【發(fā)明人】韋鵬, 付興旺, 吳楠, 朱英澍
【申請(qǐng)人】浪潮電子信息產(chǎn)業(yè)股份有限公司
【公開(kāi)日】2015年9月16日
【申請(qǐng)日】2015年5月26日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：韋鵬;付興旺;吳楠;朱英澍;
技術(shù)所有人：浪潮電子信息產(chǎn)業(yè)股份有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于隨機(jī)森林加權(quán)距離的大規(guī)模高維數(shù)據(jù)分類方法