一種基于層次引力模型的不平衡數(shù)據(jù)分類方法及其系統(tǒng)的制作方法

文檔序號(hào)：9564677閱讀：512來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于層次引力模型的不平衡數(shù)據(jù)分類方法及其系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)分析與挖掘領(lǐng)域，特別是涉及一種基于層次引力模型的不平衡數(shù)據(jù)分類方法及其系統(tǒng)。
【背景技術(shù)】
[0002] 不平衡數(shù)據(jù)集，即各個(gè)類擁有的樣本數(shù)量之間有較大差異的數(shù)據(jù)集。在不平衡數(shù) 據(jù)集的二分類中，通常把樣本數(shù)量少的類稱為正類，對(duì)應(yīng)的，樣本數(shù)量多的類稱為負(fù)類。數(shù)據(jù)不平衡性在當(dāng)前的應(yīng)用中十分常見，如醫(yī)療診斷、入侵檢測(cè)、預(yù)防詐騙、從衛(wèi)星圖像分辨事物等分類時(shí)，正類的分類正確率是我們主要在意的問題.例如在疾病診斷中，健康者被誤診的情況會(huì)在復(fù)查時(shí)得到解決，然而癌癥患者被誤判為正常則可能會(huì)引起無法挽回的結(jié)果。
[0003] 由于失衡數(shù)據(jù)集中數(shù)據(jù)樣本類別分布的特殊性，原本能夠很好解決常態(tài)數(shù)據(jù)分類問題的策略在失衡數(shù)據(jù)分類問題上卻顯得力不從心，甚至有些方法給出的分類結(jié)果不能被人們接受。因此，要解決失衡數(shù)據(jù)分類問題，必須對(duì)現(xiàn)有的分類策略進(jìn)行改進(jìn)，這種改進(jìn)主要可以從數(shù)據(jù)端和算法端兩方面來著手。
[0004] 從數(shù)據(jù)端處理失衡數(shù)據(jù)集就是在盡量不改變?cè)瓟?shù)據(jù)集分布規(guī)律和信息表達(dá)的基礎(chǔ)上，通過增加或刪除某類元素，平衡兩類數(shù)據(jù)元素?cái)?shù)量，使失衡數(shù)據(jù)集變成相對(duì)較平衡的數(shù)據(jù)集，并使用現(xiàn)有的分類算法完成分類任務(wù)；從算法端解決失衡數(shù)據(jù)集分類問題就是用較小的代價(jià)和較小的改動(dòng)對(duì)現(xiàn)有的分類算法進(jìn)行改良，通過某些合理的方法使得原本不適合分類失衡數(shù)據(jù)的分類算法能夠較好的分類失衡數(shù)據(jù)。
[0005] 1.從數(shù)據(jù)端解決失衡數(shù)據(jù)集問題：
[0006] 從數(shù)據(jù)端解決失衡數(shù)據(jù)集分類問題的常用方法是數(shù)據(jù)重采樣技術(shù)。數(shù)據(jù)重采樣技術(shù)是在不改變現(xiàn)有分類算法的基礎(chǔ)上，從數(shù)據(jù)集在數(shù)據(jù)空間的分布出發(fā)，針對(duì)某一類的數(shù) 據(jù)對(duì)象進(jìn)行重采樣，從而達(dá)到平衡數(shù)據(jù)失衡比，降低由于樣本分布失衡而對(duì)分類器造成不良影響的目的。從采樣策略上看，采樣可以分為簡(jiǎn)單隨機(jī)采樣和啟發(fā)式采樣兩種。簡(jiǎn)單隨機(jī)采樣并不利用數(shù)據(jù)集中元素的特點(diǎn)和相關(guān)信息，只是隨機(jī)的增加或刪除某些樣本。而啟發(fā)式采樣則在采樣時(shí)充分利用數(shù)據(jù)元素所蘊(yùn)含的信息，有指導(dǎo)的對(duì)數(shù)據(jù)集進(jìn)行重采樣。從采樣技術(shù)上看，采樣可以分為上采樣和下采樣，在失衡數(shù)據(jù)集中，上采樣是通過增加正例數(shù) 據(jù)元素的數(shù)量來平衡數(shù)據(jù)分布的，而下采樣則是通過刪除反例中的某些數(shù)據(jù)元素來平衡數(shù) 據(jù)分布的。
[0007] 2.從算法端解決失衡數(shù)據(jù)集問題：
[0008] 從算法端解決失衡數(shù)據(jù)集分類問題的常用方法是代價(jià)敏感學(xué)習(xí)和集成學(xué)習(xí)算法。在平衡數(shù)據(jù)分類問題中，人們常常使用分類準(zhǔn)確率來評(píng)價(jià)分類器的分類性能，這種評(píng)價(jià)方法是建立在分類器將各類別數(shù)據(jù)元素錯(cuò)分的代價(jià)是相同的。由于失衡數(shù)據(jù)集類別分布的特性，使得反例和正例元素的錯(cuò)分意義不同，而代價(jià)敏感學(xué)習(xí)就是對(duì)不同類別數(shù)據(jù)元素建立不同的錯(cuò)分代價(jià)的一種機(jī)器學(xué)習(xí)策略。集成學(xué)習(xí)方法是通過組建多個(gè)分類器，來克服傳統(tǒng) 單一分類器分類失衡數(shù)據(jù)的瓶頸，通過不同的子分類器訓(xùn)練分類數(shù)據(jù)，并通過內(nèi)部的整合機(jī)制，綜合地得出最終的分類結(jié)果，從而解決失衡數(shù)據(jù)集分類問題。
[0009] 另外，基于數(shù)據(jù)引力和數(shù)據(jù)引力場(chǎng)，有人提出了一種新的分類方案（DGC)。這個(gè)分類方案的主要思想是：
[0010] 1)根據(jù)訓(xùn)練數(shù)據(jù)集生成數(shù)據(jù)粒子訓(xùn)練集。數(shù)據(jù)粒子的計(jì)算遵循一定的原則。
[0011] 2)測(cè)試集的所有測(cè)試數(shù)據(jù)被視為原子數(shù)據(jù)粒子。數(shù)據(jù)粒子訓(xùn)練集中的任何粒子對(duì) 測(cè)試樣本中的數(shù)據(jù)粒子都具有引力。
[0012] 3)訓(xùn)練數(shù)據(jù)粒子和測(cè)試數(shù)據(jù)粒子之間的引力服從數(shù)據(jù)引力定律。
[0013] 4) -旦訓(xùn)練數(shù)據(jù)粒子集合被建立，數(shù)據(jù)空間的數(shù)據(jù)的引力場(chǎng)也被建立，并且數(shù)據(jù) 空間任何位置的引力場(chǎng)強(qiáng)度可以計(jì)算。
[0014] 5) -個(gè)測(cè)試數(shù)據(jù)對(duì)某個(gè)類的歸屬程度是由該數(shù)據(jù)類在該數(shù)據(jù)所在位置的引力場(chǎng) 大小所決定的。
[0015] 現(xiàn)有的不均衡數(shù)據(jù)分類技術(shù)，存在諸多不足，現(xiàn)就傳統(tǒng)DGC (英文全稱）算法的不足進(jìn)行分析：
[0016] DGC的一個(gè)重要過程就是創(chuàng)建數(shù)據(jù)質(zhì)點(diǎn)。創(chuàng)建數(shù)據(jù)質(zhì)點(diǎn)的最簡(jiǎn)單方法是將數(shù)據(jù)空間中每個(gè)單獨(dú)的數(shù)據(jù)作為一個(gè)數(shù)據(jù)質(zhì)點(diǎn)。用這種方法，訓(xùn)練數(shù)據(jù)集中的每個(gè)樣本都形成一個(gè)數(shù)據(jù)質(zhì)點(diǎn)，所以，原始訓(xùn)練集中有多少個(gè)樣本，就形成多少個(gè)訓(xùn)練數(shù)據(jù)質(zhì)點(diǎn)。顯然，這種方法非常簡(jiǎn)單而且易于實(shí)現(xiàn)，另外，用這種方法建立的訓(xùn)練數(shù)據(jù)質(zhì)點(diǎn)集來計(jì)算數(shù)據(jù)引力場(chǎng)，可以取得比較高的精度。但是這種方法的缺點(diǎn)也是顯而易見的：隨著訓(xùn)練數(shù)據(jù)集規(guī)模的增大，數(shù)據(jù)質(zhì)點(diǎn)集的規(guī)模也就隨之增大，分類的計(jì)算量也就要增大，這就不可避免地影響分類效率。
[0017] 另一種創(chuàng)建數(shù)據(jù)質(zhì)點(diǎn)的方法是最大距離原理（MDP，英文全稱）。MDP方法能將訓(xùn)練集中對(duì)數(shù)據(jù)引力場(chǎng)影響相近的元素歸并到一起，顯然這樣做大大減少了分類計(jì)算量，提高了分類效率。但這種方法影響了數(shù)據(jù)引力場(chǎng)的計(jì)算精度，特別是在數(shù)據(jù)質(zhì)點(diǎn)的質(zhì)心附近，因為在數(shù)據(jù)質(zhì)點(diǎn)質(zhì)心的鄰域內(nèi)，由于原始數(shù)據(jù)比較密集，該區(qū)域的數(shù)據(jù)引力場(chǎng)梯度變化比較快，場(chǎng)比較復(fù)雜，而數(shù)據(jù)質(zhì)點(diǎn)創(chuàng)建后，根據(jù)數(shù)據(jù)質(zhì)點(diǎn)計(jì)算的數(shù)據(jù)引力場(chǎng)則丟失了原引力場(chǎng)的一些信息，因此這就必然會(huì)影響分類精度。
[0018] 另外，DGC算法對(duì)特征的加權(quán)相當(dāng)敏感，選擇有效的特征權(quán)重不僅能大大提高DGC 算法分類效率，甚至能提高其分類精度。

【發(fā)明內(nèi)容】

[0019] 本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題，特別創(chuàng)新地提出了一種基于層次引力模型的不平衡數(shù)據(jù)分類方法及其系統(tǒng)。
[0020] 為了實(shí)現(xiàn)本發(fā)明的上述目的，本發(fā)明提供了一種基于層次引力模型的不平衡數(shù)據(jù) 分類方法，包括以下步驟：
[0021 ] Sl，獲取待分類樣本集Z，所述待分類樣本集Z中的樣本都包含D個(gè)屬性，所述D為正整數(shù)；
[0022] S2,對(duì)樣本的屬性值進(jìn)行區(qū)間劃分，每個(gè)屬性劃分為L(zhǎng)個(gè)區(qū)間，所述L為正整數(shù)，樣本劃分為L(zhǎng)Df D維立方體，并計(jì)算在不同分辨率下屬性的權(quán)重；
[0023] S3,劃分特征空間，將所述待分類樣本集Z放入對(duì)應(yīng)的D維立方體里，利用空間自然領(lǐng)域，結(jié)合引力模型對(duì)樣本進(jìn)行標(biāo)記分類。在使用引力模型時(shí)只計(jì)算周圍相鄰D維立方體內(nèi)樣本的引力，可以提高局部的分類精度，同時(shí)提高分類速度。
[0024] 本發(fā)明旨在根據(jù)樣本的分布情況，在不同分辨率下對(duì)樣本進(jìn)行分類，以提高分類速度。同時(shí)，在分辨率較高時(shí)使用引力模型，可以解決在正負(fù)樣本空間重疊時(shí)樣本難以劃分的問題，提高分類的準(zhǔn)確率。
[0025] 在本發(fā)明的一種優(yōu)選實(shí)施方式中，步驟S2包括以下步驟：
[0026] S21，設(shè)置初始分辨率s和終止分辨率e，并設(shè)置當(dāng)前分辨率1 ;
[0027] S22,統(tǒng)計(jì)每個(gè)樣本第j個(gè)屬性值，并選出第j個(gè)屬性值中的最大值Max jP最小值 Min,，其中I < j < D且j為正整數(shù)，所述D為屬性個(gè)數(shù)且D為正整數(shù)；
[0028] S23,將每個(gè)屬性值劃分為L(zhǎng)個(gè)區(qū)間，每個(gè)區(qū)間長(zhǎng)度為（Maxj-MinjVL,則樣本空間劃分為L(zhǎng) °個(gè)D維立方體，所述L為正整數(shù)，且L = 1 ;
[0029] S24,計(jì)算正類樣本和負(fù)類樣本分布在每個(gè)區(qū)間上的樣本的個(gè)數(shù)乂+1和X i，所述X+1 表示在第i個(gè)區(qū)間上的正類樣本的個(gè)數(shù)，所述X 1表示在第i個(gè)區(qū)間上的負(fù)類樣本的個(gè)數(shù)；
[0030] S25,計(jì)算正類樣本和負(fù)類樣本在每個(gè)屬性上的距離；
[0031] S26,計(jì)算屬性權(quán)重。
[0032] 在本發(fā)明的一種優(yōu)選實(shí)施方式中，在步驟S25中，距離的計(jì)算方法為：
[0034] 其中X+1、X pX+和X分別依次表示為分辨率1下第i個(gè)區(qū)間上的正類樣本的個(gè)數(shù)、第i個(gè)區(qū)間上負(fù)類樣本的個(gè)數(shù)、所有正類樣本的個(gè)數(shù)和所有負(fù)類樣本的個(gè)數(shù)，L為屬性劃分的區(qū)間個(gè)數(shù)。
[0035] 由于該距離對(duì)數(shù)據(jù)的不平衡不敏感，所以，該計(jì)算方法可以很好的適應(yīng)數(shù)據(jù)不平衡的情況。
[0036] 在本發(fā)明的一種優(yōu)選實(shí)施方式中，在步驟S26中，屬性權(quán)重的計(jì)算方法為：
[0038] Clj表示正類樣本和負(fù)類樣本在分辨率1下第j個(gè)屬性上的距離，D為屬性個(gè)數(shù)。
[0039] 在本發(fā)明的一種優(yōu)選實(shí)施方式中，步驟S3包括如下步驟：
[0040] S31，若I = s，將樣本集Z中的樣本放入對(duì)應(yīng)的D維立方體里；否則將分辨率為1/2 時(shí)，未劃分的樣本集合Z' 1/2里的樣本放入對(duì)應(yīng)的D維立方體里，根據(jù)當(dāng)前分辨率1和D維立方體的位置生成D維立方體的標(biāo)識(shí)：
[0042] 其中，％,表示D維立方體在分辨率1,下第i個(gè)屬性上的位置，1為當(dāng)前分辨率，D 為屬性個(gè)數(shù)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：古平;董振波;王春元;田洪澤;楊煬;張程;李佳;
技術(shù)所有人：重慶大學(xué);
我是此專利的發(fā)明人

上一篇：一種數(shù)據(jù)搜索系統(tǒng)及方法
上一篇：一種興趣點(diǎn)數(shù)據(jù)的挖掘方法和裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

層次模型的數(shù)據(jù)結(jié)構(gòu)是相關(guān)技術(shù)

引力模型相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于層次引力模型的不平衡數(shù)據(jù)分類方法及其系統(tǒng)的制作方法