一種基于層次引力模型的不平衡數(shù)據(jù)分類方法及其系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)分析與挖掘領(lǐng)域,特別是涉及一種基于層次引力模型的不 平衡數(shù)據(jù)分類方法及其系統(tǒng)。
【背景技術(shù)】
[0002] 不平衡數(shù)據(jù)集,即各個(gè)類擁有的樣本數(shù)量之間有較大差異的數(shù)據(jù)集。在不平衡數(shù) 據(jù)集的二分類中,通常把樣本數(shù)量少的類稱為正類,對(duì)應(yīng)的,樣本數(shù)量多的類稱為負(fù)類。 數(shù)據(jù)不平衡性在當(dāng)前的應(yīng)用中十分常見,如醫(yī)療診斷、入侵檢測(cè)、預(yù)防詐騙、從衛(wèi)星圖像分 辨事物等分類時(shí),正類的分類正確率是我們主要在意的問題.例如在疾病診斷中,健康者 被誤診的情況會(huì)在復(fù)查時(shí)得到解決,然而癌癥患者被誤判為正常則可能會(huì)引起無法挽回 的結(jié)果。
[0003] 由于失衡數(shù)據(jù)集中數(shù)據(jù)樣本類別分布的特殊性,原本能夠很好解決常態(tài)數(shù)據(jù)分類 問題的策略在失衡數(shù)據(jù)分類問題上卻顯得力不從心,甚至有些方法給出的分類結(jié)果不能被 人們接受。因此,要解決失衡數(shù)據(jù)分類問題,必須對(duì)現(xiàn)有的分類策略進(jìn)行改進(jìn),這種改進(jìn)主 要可以從數(shù)據(jù)端和算法端兩方面來著手。
[0004] 從數(shù)據(jù)端處理失衡數(shù)據(jù)集就是在盡量不改變?cè)瓟?shù)據(jù)集分布規(guī)律和信息表達(dá)的基 礎(chǔ)上,通過增加或刪除某類元素,平衡兩類數(shù)據(jù)元素?cái)?shù)量,使失衡數(shù)據(jù)集變成相對(duì)較平衡的 數(shù)據(jù)集,并使用現(xiàn)有的分類算法完成分類任務(wù);從算法端解決失衡數(shù)據(jù)集分類問題就是用 較小的代價(jià)和較小的改動(dòng)對(duì)現(xiàn)有的分類算法進(jìn)行改良,通過某些合理的方法使得原本不適 合分類失衡數(shù)據(jù)的分類算法能夠較好的分類失衡數(shù)據(jù)。
[0005] 1.從數(shù)據(jù)端解決失衡數(shù)據(jù)集問題:
[0006] 從數(shù)據(jù)端解決失衡數(shù)據(jù)集分類問題的常用方法是數(shù)據(jù)重采樣技術(shù)。數(shù)據(jù)重采樣技 術(shù)是在不改變現(xiàn)有分類算法的基礎(chǔ)上,從數(shù)據(jù)集在數(shù)據(jù)空間的分布出發(fā),針對(duì)某一類的數(shù) 據(jù)對(duì)象進(jìn)行重采樣,從而達(dá)到平衡數(shù)據(jù)失衡比,降低由于樣本分布失衡而對(duì)分類器造成不 良影響的目的。從采樣策略上看,采樣可以分為簡(jiǎn)單隨機(jī)采樣和啟發(fā)式采樣兩種。簡(jiǎn)單隨 機(jī)采樣并不利用數(shù)據(jù)集中元素的特點(diǎn)和相關(guān)信息,只是隨機(jī)的增加或刪除某些樣本。而啟 發(fā)式采樣則在采樣時(shí)充分利用數(shù)據(jù)元素所蘊(yùn)含的信息,有指導(dǎo)的對(duì)數(shù)據(jù)集進(jìn)行重采樣。從 采樣技術(shù)上看,采樣可以分為上采樣和下采樣,在失衡數(shù)據(jù)集中,上采樣是通過增加正例數(shù) 據(jù)元素的數(shù)量來平衡數(shù)據(jù)分布的,而下采樣則是通過刪除反例中的某些數(shù)據(jù)元素來平衡數(shù) 據(jù)分布的。
[0007] 2.從算法端解決失衡數(shù)據(jù)集問題:
[0008] 從算法端解決失衡數(shù)據(jù)集分類問題的常用方法是代價(jià)敏感學(xué)習(xí)和集成學(xué)習(xí)算法。 在平衡數(shù)據(jù)分類問題中,人們常常使用分類準(zhǔn)確率來評(píng)價(jià)分類器的分類性能,這種評(píng)價(jià)方 法是建立在分類器將各類別數(shù)據(jù)元素錯(cuò)分的代價(jià)是相同的。由于失衡數(shù)據(jù)集類別分布的特 性,使得反例和正例元素的錯(cuò)分意義不同,而代價(jià)敏感學(xué)習(xí)就是對(duì)不同類別數(shù)據(jù)元素建立 不同的錯(cuò)分代價(jià)的一種機(jī)器學(xué)習(xí)策略。集成學(xué)習(xí)方法是通過組建多個(gè)分類器,來克服傳統(tǒng) 單一分類器分類失衡數(shù)據(jù)的瓶頸,通過不同的子分類器訓(xùn)練分類數(shù)據(jù),并通過內(nèi)部的整合 機(jī)制,綜合地得出最終的分類結(jié)果,從而解決失衡數(shù)據(jù)集分類問題。
[0009] 另外,基于數(shù)據(jù)引力和數(shù)據(jù)引力場(chǎng),有人提出了一種新的分類方案(DGC)。這個(gè)分 類方案的主要思想是:
[0010] 1)根據(jù)訓(xùn)練數(shù)據(jù)集生成數(shù)據(jù)粒子訓(xùn)練集。數(shù)據(jù)粒子的計(jì)算遵循一定的原則。
[0011] 2)測(cè)試集的所有測(cè)試數(shù)據(jù)被視為原子數(shù)據(jù)粒子。數(shù)據(jù)粒子訓(xùn)練集中的任何粒子對(duì) 測(cè)試樣本中的數(shù)據(jù)粒子都具有引力。
[0012] 3)訓(xùn)練數(shù)據(jù)粒子和測(cè)試數(shù)據(jù)粒子之間的引力服從數(shù)據(jù)引力定律。
[0013] 4) -旦訓(xùn)練數(shù)據(jù)粒子集合被建立,數(shù)據(jù)空間的數(shù)據(jù)的引力場(chǎng)也被建立,并且數(shù)據(jù) 空間任何位置的引力場(chǎng)強(qiáng)度可以計(jì)算。
[0014] 5) -個(gè)測(cè)試數(shù)據(jù)對(duì)某個(gè)類的歸屬程度是由該數(shù)據(jù)類在該數(shù)據(jù)所在位置的引力場(chǎng) 大小所決定的。
[0015] 現(xiàn)有的不均衡數(shù)據(jù)分類技術(shù),存在諸多不足,現(xiàn)就傳統(tǒng)DGC (英文全稱)算法的不 足進(jìn)行分析:
[0016] DGC的一個(gè)重要過程就是創(chuàng)建數(shù)據(jù)質(zhì)點(diǎn)。創(chuàng)建數(shù)據(jù)質(zhì)點(diǎn)的最簡(jiǎn)單方法是將數(shù)據(jù)空 間中每個(gè)單獨(dú)的數(shù)據(jù)作為一個(gè)數(shù)據(jù)質(zhì)點(diǎn)。用這種方法,訓(xùn)練數(shù)據(jù)集中的每個(gè)樣本都形成一 個(gè)數(shù)據(jù)質(zhì)點(diǎn),所以,原始訓(xùn)練集中有多少個(gè)樣本,就形成多少個(gè)訓(xùn)練數(shù)據(jù)質(zhì)點(diǎn)。顯然,這種 方法非常簡(jiǎn)單而且易于實(shí)現(xiàn),另外,用這種方法建立的訓(xùn)練數(shù)據(jù)質(zhì)點(diǎn)集來計(jì)算數(shù)據(jù)引力場(chǎng), 可以取得比較高的精度。但是這種方法的缺點(diǎn)也是顯而易見的:隨著訓(xùn)練數(shù)據(jù)集規(guī)模的增 大,數(shù)據(jù)質(zhì)點(diǎn)集的規(guī)模也就隨之增大,分類的計(jì)算量也就要增大,這就不可避免地影響分類 效率。
[0017] 另一種創(chuàng)建數(shù)據(jù)質(zhì)點(diǎn)的方法是最大距離原理(MDP,英文全稱)。MDP方法能將訓(xùn)練 集中對(duì)數(shù)據(jù)引力場(chǎng)影響相近的元素歸并到一起,顯然這樣做大大減少了分類計(jì)算量,提高 了分類效率。但這種方法影響了數(shù)據(jù)引力場(chǎng)的計(jì)算精度,特別是在數(shù)據(jù)質(zhì)點(diǎn)的質(zhì)心附近,因 為在數(shù)據(jù)質(zhì)點(diǎn)質(zhì)心的鄰域內(nèi),由于原始數(shù)據(jù)比較密集,該區(qū)域的數(shù)據(jù)引力場(chǎng)梯度變化比較 快,場(chǎng)比較復(fù)雜,而數(shù)據(jù)質(zhì)點(diǎn)創(chuàng)建后,根據(jù)數(shù)據(jù)質(zhì)點(diǎn)計(jì)算的數(shù)據(jù)引力場(chǎng)則丟失了原引力場(chǎng)的 一些信息,因此這就必然會(huì)影響分類精度。
[0018] 另外,DGC算法對(duì)特征的加權(quán)相當(dāng)敏感,選擇有效的特征權(quán)重不僅能大大提高DGC 算法分類效率,甚至能提高其分類精度。
【發(fā)明內(nèi)容】
[0019] 本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題,特別創(chuàng)新地提出了一種基于層 次引力模型的不平衡數(shù)據(jù)分類方法及其系統(tǒng)。
[0020] 為了實(shí)現(xiàn)本發(fā)明的上述目的,本發(fā)明提供了一種基于層次引力模型的不平衡數(shù)據(jù) 分類方法,包括以下步驟:
[0021 ] Sl,獲取待分類樣本集Z,所述待分類樣本集Z中的樣本都包含D個(gè)屬性,所述D為 正整數(shù);
[0022] S2,對(duì)樣本的屬性值進(jìn)行區(qū)間劃分,每個(gè)屬性劃分為L(zhǎng)個(gè)區(qū)間,所述L為正整數(shù),樣 本劃分為L(zhǎng)Df D維立方體,并計(jì)算在不同分辨率下屬性的權(quán)重;
[0023] S3,劃分特征空間,將所述待分類樣本集Z放入對(duì)應(yīng)的D維立方體里,利用空間自 然領(lǐng)域,結(jié)合引力模型對(duì)樣本進(jìn)行標(biāo)記分類。在使用引力模型時(shí)只計(jì)算周圍相鄰D維立方 體內(nèi)樣本的引力,可以提高局部的分類精度,同時(shí)提高分類速度。
[0024] 本發(fā)明旨在根據(jù)樣本的分布情況,在不同分辨率下對(duì)樣本進(jìn)行分類,以提高分類 速度。同時(shí),在分辨率較高時(shí)使用引力模型,可以解決在正負(fù)樣本空間重疊時(shí)樣本難以劃分 的問題,提高分類的準(zhǔn)確率。
[0025] 在本發(fā)明的一種優(yōu)選實(shí)施方式中,步驟S2包括以下步驟:
[0026] S21,設(shè)置初始分辨率s和終止分辨率e,并設(shè)置當(dāng)前分辨率1 ;
[0027] S22,統(tǒng)計(jì)每個(gè)樣本第j個(gè)屬性值,并選出第j個(gè)屬性值中的最大值Max jP最小值 Min,,其中I < j < D且j為正整數(shù),所述D為屬性個(gè)數(shù)且D為正整數(shù);
[0028] S23,將每個(gè)屬性值劃分為L(zhǎng)個(gè)區(qū)間,每個(gè)區(qū)間長(zhǎng)度為(Maxj-MinjVL,則樣本空間 劃分為L(zhǎng) °個(gè)D維立方體,所述L為正整數(shù),且L = 1 ;
[0029] S24,計(jì)算正類樣本和負(fù)類樣本分布在每個(gè)區(qū)間上的樣本的個(gè)數(shù)乂+1和X i,所述X+1 表示在第i個(gè)區(qū)間上的正類樣本的個(gè)數(shù),所述X 1表示在第i個(gè)區(qū)間上的負(fù)類樣本的個(gè)數(shù);
[0030] S25,計(jì)算正類樣本和負(fù)類樣本在每個(gè)屬性上的距離;
[0031] S26,計(jì)算屬性權(quán)重。
[0032] 在本發(fā)明的一種優(yōu)選實(shí)施方式中,在步驟S25中,距離的計(jì)算方法為:
[0034] 其中X+1、X pX+和X分別依次表示為分辨率1下第i個(gè)區(qū)間上的正類樣本的個(gè)數(shù)、 第i個(gè)區(qū)間上負(fù)類樣本的個(gè)數(shù)、所有正類樣本的個(gè)數(shù)和所有負(fù)類樣本的個(gè)數(shù),L為屬性劃分 的區(qū)間個(gè)數(shù)。
[0035] 由于該距離對(duì)數(shù)據(jù)的不平衡不敏感,所以,該計(jì)算方法可以很好的適應(yīng)數(shù)據(jù)不平 衡的情況。
[0036] 在本發(fā)明的一種優(yōu)選實(shí)施方式中,在步驟S26中,屬性權(quán)重的計(jì)算方法為:
[0038] Clj表示正類樣本和負(fù)類樣本在分辨率1下第j個(gè)屬性上的距離,D為屬性個(gè)數(shù)。
[0039] 在本發(fā)明的一種優(yōu)選實(shí)施方式中,步驟S3包括如下步驟:
[0040] S31,若I = s,將樣本集Z中的樣本放入對(duì)應(yīng)的D維立方體里;否則將分辨率為1/2 時(shí),未劃分的樣本集合Z' 1/2里的樣本放入對(duì)應(yīng)的D維立方體里,根據(jù)當(dāng)前分辨率1和D維 立方體的位置生成D維立方體的標(biāo)識(shí):
[0042] 其中,%,表示D維立方體在分辨率1,下第i個(gè)屬性上的位置,1為當(dāng)前分辨率,D 為屬性個(gè)數(shù)