一種不平衡數(shù)據(jù)的分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)分類技術(shù)領(lǐng)域,特別涉及一種不平衡數(shù)據(jù)的分類方法。
【背景技術(shù)】
[0002] 今天的社會(huì)處在信息爆炸的時(shí)代,面對(duì)浩如煙海的數(shù)據(jù),如何從海量的數(shù)據(jù)中提 取有用的信息和知識(shí)成為巨大的挑戰(zhàn)。正因?yàn)榇?,基于?shù)據(jù)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)技術(shù)出現(xiàn)了,成 為知識(shí)獲取的最主要的方法,它主要根據(jù)具體的歷史數(shù)據(jù),設(shè)計(jì)一種適當(dāng)?shù)膶W(xué)習(xí)算法,進(jìn)而 獲得能夠反映數(shù)據(jù)本身規(guī)律的數(shù)學(xué)或統(tǒng)計(jì)模型,用于對(duì)未來(lái)數(shù)據(jù)的頂測(cè)。正是由于基于統(tǒng) 計(jì)的機(jī)器學(xué)習(xí)方法的在知識(shí)獲取方面的重要性,已經(jīng)成為智能分析和智能決策研宄領(lǐng)域的 核心問(wèn)題,而且也在工業(yè)和商業(yè)中得到了廣泛的應(yīng)用。
[0003] 其中,最常見的機(jī)器學(xué)習(xí)問(wèn)題是監(jiān)督式的分類學(xué)習(xí),比如,生物特征識(shí)別、文本分 類、網(wǎng)頁(yè)數(shù)據(jù)挖掘、語(yǔ)音識(shí)別、網(wǎng)絡(luò)入侵檢測(cè)等等。在過(guò)去的幾十年里,機(jī)器學(xué)習(xí)領(lǐng)域的研 宄者們對(duì)分類學(xué)習(xí)方法作了充分的研宄,相繼提出了不少十分有效的算法,至今,仍廣泛 應(yīng)用在各種各樣的場(chǎng)合,包括K-近鄰、決策樹、神經(jīng)網(wǎng)絡(luò)、集成學(xué)習(xí)以及支持向量機(jī)方法 (SupportVectorMachine,SVM)。其中,受到關(guān)注最多的是支持向量機(jī)方法,此方法是一種 建立在統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)化風(fēng)險(xiǎn)最小化原則上的學(xué)習(xí)機(jī)器,同神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)學(xué)習(xí)算法 相比,SVM具有堅(jiān)實(shí)的理論基礎(chǔ),最后的實(shí)現(xiàn)可以歸結(jié)為一個(gè)二次凸優(yōu)化問(wèn)題,因而可以得 到全局最優(yōu)解,避免了神經(jīng)網(wǎng)絡(luò)容易陷入局部最優(yōu)的缺點(diǎn),而且在樣本量較少的情況下,依 然能夠獲得良好的泛化能力。正由于這些優(yōu)勢(shì),當(dāng)前在理論界和工業(yè)界,SVM是研宄和運(yùn)用 得最為廣泛的學(xué)習(xí)算法之一。
[0004] 然而,隨著應(yīng)用范圍的不斷擴(kuò)大以及實(shí)踐的不斷深入,新的挑戰(zhàn)和問(wèn)題也層出不 窮,不平衡數(shù)據(jù)的分類學(xué)習(xí)問(wèn)題就是目前機(jī)器學(xué)習(xí)領(lǐng)域亟需解決的障礙之。具體地說(shuō),不 平衡數(shù)據(jù)分類問(wèn)題就是指某類樣本數(shù)量明顯少于其他類樣本的情況,如:異常數(shù)據(jù)分析、入 侵檢測(cè)、欺詐檢測(cè)、視頻監(jiān)控、故障診斷、醫(yī)療診斷等等。然而,傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法在 處理不平衡數(shù)據(jù)分類問(wèn)題時(shí),分類器的判別結(jié)果總會(huì)傾向于多數(shù)類樣本,導(dǎo)致分類器對(duì)少 類樣本的識(shí)別效果嚴(yán)重退化,而在大量應(yīng)用中,通常我們更關(guān)注少類樣本的分類正確率,因 此,如何避免分類器給多數(shù)類樣本留下來(lái)更大的決策空間成了不平衡數(shù)據(jù)分類算法研宄領(lǐng) 域的核心問(wèn)題之一。
[0005] 機(jī)器學(xué)習(xí)領(lǐng)域的研宄者們對(duì)不平衡數(shù)據(jù)分類問(wèn)題做了大量的研宄工作,至今已提 出了很多不同的解決方案,總體上這些方法可以概括為兩種類型類:一類從數(shù)據(jù)層入手,通 過(guò)改變訓(xùn)練集的樣本分布,減弱數(shù)據(jù)不平衡的程度;另一類是通過(guò)算法層的改進(jìn),針對(duì)算法 本身在解決不平衡數(shù)據(jù)問(wèn)題時(shí)的局限,適當(dāng)?shù)貙?duì)算法做出相應(yīng)的改進(jìn)以使之適應(yīng)不平衡數(shù) 據(jù)的分類問(wèn)題。
[0006]同樣,即使對(duì)于SVM這樣學(xué)習(xí)能力很強(qiáng)的分類器,不平衡數(shù)據(jù)問(wèn)題的出現(xiàn)也會(huì)導(dǎo) 致學(xué)習(xí)效果急劇地下降,鑒于SVM方法的有效性和使用的廣泛性,很多研宄人員專門針對(duì) 不平衡數(shù)據(jù)學(xué)習(xí)問(wèn)題,對(duì)SVM方法做了相應(yīng)的研宄,并提出了一些改進(jìn)的算法,取得了一定 的成果,但總的來(lái)說(shuō),現(xiàn)有的方法對(duì)不平衡數(shù)據(jù)的分類精度不高。
【發(fā)明內(nèi)容】
[0007] 為克服現(xiàn)有的缺陷,本發(fā)明提供了一種不平衡數(shù)據(jù)的分類方法。
[0008] 根據(jù)本發(fā)明的一個(gè)方面,提出了一種不平衡數(shù)據(jù)的分類方法,所述方法包括以下 步驟:
[0009] 對(duì)不平衡數(shù)據(jù)的訓(xùn)練樣本集進(jìn)行學(xué)習(xí),得到第一分類決策函數(shù)和第二分類決策函 數(shù);
[0010] 通過(guò)所述第一分類決策函數(shù)和第二分類決策函數(shù)分別得到第一隸屬度和第二隸 屬度;
[0011] 根據(jù)所述第一隸屬度和第二隸屬度得到分類決策函數(shù);
[0012] 確定所述不平衡數(shù)據(jù)的測(cè)試樣本集中的第二重疊區(qū)樣本集的樣本;
[0013] 根據(jù)所述分類決策函數(shù)對(duì)所述第二重疊區(qū)樣本集的樣本進(jìn)行分類。
[0014] 上述方案中,所述通過(guò)所述第一分類決策函數(shù)和第二分類決策函數(shù)分別得到第一 隸屬度和第二隸屬度包括:
[0015] 分別通過(guò)所述第一分類決策函數(shù)和第二分類決策函數(shù)對(duì)所述第一類訓(xùn)練樣本集 和第二類訓(xùn)練樣本集中的樣本進(jìn)行判定,將同屬于所述第一類訓(xùn)練樣本集和第二類訓(xùn)練樣 本集的樣本組成第一重疊區(qū)樣本集,并分別計(jì)算所述第一重疊區(qū)樣本集中的樣本屬于所述 第一類訓(xùn)練樣本集的第一隸屬度和屬于所述第二類訓(xùn)練樣本集的第二隸屬度。
[0016] 上述方案中,所述通過(guò)所述第一分類決策函數(shù)和第二分類決策函數(shù)對(duì)所述第一類 訓(xùn)練樣本集和第二類訓(xùn)練樣本集中的樣本進(jìn)行判定,將同屬于所述第一類訓(xùn)練樣本集和第 二類訓(xùn)練樣本集的樣本組成第一重疊區(qū)樣本集包括:
[0017] 通過(guò)所述第一分類決策函數(shù)和第二分類決策函數(shù)之間的邏輯關(guān)系將所述第一類 訓(xùn)練樣本集和第二類訓(xùn)練樣本集中的樣本判定為噪音點(diǎn)、屬于第一類訓(xùn)練樣本集中的樣 本、屬于第二類訓(xùn)練樣本集中的樣本、同屬于所述第一類訓(xùn)練樣本集和第二類訓(xùn)練樣本集 的樣本,將同屬于所述第一類訓(xùn)練樣本集和第二類訓(xùn)練樣本集的樣本組成第一重疊區(qū)樣本 集。
[0018] 上述方案中,所述第一隸屬度的計(jì)算過(guò)程為:
【主權(quán)項(xiàng)】
1. 一種不平衡數(shù)據(jù)的分類方法,其特征在于,所述方法包括以下步驟: 對(duì)不平衡數(shù)據(jù)的訓(xùn)練樣本集進(jìn)行學(xué)習(xí),得到第一分類決策函數(shù)和第二分類決策函數(shù); 通過(guò)所述第一分類決策函數(shù)和第二分類決策函數(shù)分別得到第一隸屬度和第二隸屬 度; 根據(jù)所述第一隸屬度和第二隸屬度得到分類決策函數(shù); 確定所述不平衡數(shù)據(jù)的測(cè)試樣本集中的第二重疊區(qū)樣本集的樣本; 根據(jù)所述分類決策函數(shù)對(duì)所述第二重疊區(qū)樣本集的樣本進(jìn)行分類。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過(guò)所述第一分類決策函數(shù)和第二 分類決策函數(shù)分別得到第一隸屬度和第二隸屬度包括: 分別通過(guò)所述第一分類決策函數(shù)和第二分類決策函數(shù)對(duì)所述第一類訓(xùn)練樣本集和第 二類訓(xùn)練樣本集中的樣本進(jìn)行判定,將同屬于所述第一類訓(xùn)練樣本集和第二類訓(xùn)練樣本集 的樣本組成第一重疊區(qū)樣本集,并分別計(jì)算所述第一重疊區(qū)樣本集中的樣本屬于所述第一 類訓(xùn)練樣本集的第一隸屬度和屬于所述第二類訓(xùn)練樣本集的第二隸屬度。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過(guò)所述第一分類決策函數(shù)和第二 分類決策函數(shù)對(duì)所述第一類訓(xùn)練樣本集和第二類訓(xùn)練樣本集中的樣本進(jìn)行判定,將同屬于 所述第一類訓(xùn)練樣本集和第二類訓(xùn)練樣本集的樣本組成第一重疊區(qū)樣本集包括: 通過(guò)所述第一分類決策函數(shù)和第二分類決策函數(shù)之間的邏輯關(guān)系將所述第一類訓(xùn)練 樣本集和第二類訓(xùn)練樣本集中的樣本判定為噪音點(diǎn)、屬于第一類訓(xùn)練樣本集中的樣本、屬 于第二類訓(xùn)練樣本集中的樣本、同屬于所述第一類訓(xùn)練樣本集和第二類訓(xùn)練樣本集的樣 本,將同屬于所述第一類訓(xùn)練樣本集和第二類訓(xùn)練樣本集的樣本組成第一重疊區(qū)樣本集。
4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一隸屬度的計(jì)算過(guò)程為:
其中: ///為第一隸屬度,表示第一重疊區(qū)樣本集中的樣本xjl于所述第一類訓(xùn)練樣本集的 概率;A代表所述第一類訓(xùn)練樣本集;為第一重疊區(qū)樣本集中的樣本^到第一類訓(xùn)練樣 本集對(duì)應(yīng)的最小超球體的球心距離與半徑的比值;i/f為第一重疊區(qū)樣本集中的樣本\到 第二類訓(xùn)練樣本集對(duì)應(yīng)的最小超球體的球心距離與半徑的比值。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述第二隸屬度的計(jì)算過(guò)程為:
其中: //f為第二隸屬度,表示第一重疊區(qū)樣本\屬于所述第二類訓(xùn)練樣本集的概率;B代表 所述第二類訓(xùn)練樣本集。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一隸屬度和第二隸屬度 得到分類決策函數(shù)包括: 構(gòu)建雙隸屬支持向量機(jī)的樣本集; 根據(jù)所述雙隸屬支持向量機(jī)的樣本集確定雙隸屬模糊支持向量機(jī); 通過(guò)所述雙隸屬模糊支持向量機(jī)得到分類決策函數(shù)。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述雙隸屬模糊支持向量機(jī)的計(jì)算過(guò)程 為:
w為分類超平面的權(quán)值向量;C為噪音懲罰參數(shù);為第一隸屬度;ξ i為第一非負(fù)的 松弛變量;//,β為第二隸屬度;n i為第二非負(fù)的松弛變量;b為分類超平面的閾值;#X,) 為非線性映射函數(shù)。
8. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述分類決策函數(shù)的計(jì)算過(guò)程為:
其中: f (X)為分類決策函數(shù);sign ()為符號(hào)函數(shù);a i為樣本的第一拉格朗日乘子;β i為樣 本的第二拉格朗日乘子;K (X,Xi)為滿足Mercer條件的核函數(shù)。
【專利摘要】本發(fā)明公開了一種不平衡數(shù)據(jù)的分類方法,包括:對(duì)不平衡數(shù)據(jù)的訓(xùn)練樣本集進(jìn)行學(xué)習(xí),得到第一分類決策函數(shù)和第二分類決策函數(shù);通過(guò)所述第一分類決策函數(shù)和第二分類決策函數(shù)分別得到第一隸屬度和第二隸屬度;根據(jù)所述第一隸屬度和第二隸屬度得到分類決策函數(shù);確定所述不平衡數(shù)據(jù)的測(cè)試樣本集中的第二重疊區(qū)樣本集的樣本;根據(jù)所述分類決策函數(shù)對(duì)所述第二重疊區(qū)樣本集的樣本進(jìn)行分類。
【IPC分類】G06F17-30, G06K9-66
【公開號(hào)】CN104679860
【申請(qǐng)?zhí)枴緾N201510089729
【發(fā)明人】王理, 鄧衛(wèi)國(guó), 錢中, 王祎旸, 許波, 雷超, 游越
【申請(qǐng)人】北京航空航天大學(xué)
【公開日】2015年6月3日
【申請(qǐng)日】2015年2月27日