不平衡數(shù)據(jù)的半監(jiān)督分類方法

文檔序號(hào)：6335151閱讀：1528來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：不平衡數(shù)據(jù)的半監(jiān)督分類方法
技術(shù)領(lǐng)域：
本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域，涉及不平衡數(shù)據(jù)分類，是模式識(shí)別和機(jī)器學(xué)習(xí)在數(shù)據(jù) 挖掘領(lǐng)域的應(yīng)用，具體的說是一種基于模糊聚類和半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類方法，可用于訓(xùn)練樣本極少的不平衡數(shù)據(jù)的分類與識(shí)別。
背景技術(shù)：
伴隨著全球信息技術(shù)的飛速發(fā)展，功能強(qiáng)大的計(jì)算機(jī)、數(shù)據(jù)收集設(shè)備和存儲(chǔ)設(shè)備為人們進(jìn)行事務(wù)管理、信息檢索和數(shù)據(jù)分析提供了大量的數(shù)據(jù)信息。盡管獲得的數(shù)據(jù)量非常大，但是對(duì)人們有用的數(shù)據(jù)往往只占全部數(shù)據(jù)的一小部分。這種某類樣本數(shù)量明顯少于其它類樣本的數(shù)據(jù)集被稱作不平衡數(shù)據(jù)集，不平衡數(shù)據(jù)集的分類問題大量存在于現(xiàn)實(shí)生活之中，例如，檢測(cè)公民的信用申請(qǐng)是否存在欺詐，一般情況下欺詐申請(qǐng)要遠(yuǎn)少于合法申請(qǐng)；利用診療數(shù)據(jù)診斷病人的疾病，如心臟病患者要遠(yuǎn)少于健康的人。在這些實(shí)際應(yīng)用中，人們更關(guān)心的是數(shù)據(jù)集中的少數(shù)類，即樣本數(shù)目遠(yuǎn)少于其它類樣本的一類樣本，而且這些少數(shù) 類的錯(cuò)分代價(jià)往往非常大，因此需要有效提高少數(shù)類的分類精度。同時(shí)隨著數(shù)據(jù)采集技術(shù)的發(fā)展，獲取大量未標(biāo)記樣本變得非常容易，而有標(biāo)記樣本的獲取因需要大量的人力物力仍相對(duì)困難，從而需要研究如何有效的利用大量存在的未標(biāo)記樣本協(xié)助少量有標(biāo)記樣本提高分類器的學(xué)習(xí)性能。引入半監(jiān)督學(xué)習(xí)的思想可同時(shí)利用有標(biāo)記樣本和未標(biāo)記樣本對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練和預(yù)測(cè)，其中基于SVM分類器的直推式支持向量機(jī)TSVM方法就是一種具有代表性的半監(jiān)督分類方法，該方法需要預(yù)先設(shè)定未標(biāo)記樣本中各類樣本數(shù)目比例，這通常要依據(jù)有標(biāo)記樣本集的數(shù)據(jù)分布對(duì)其進(jìn)行估計(jì)，在實(shí)際應(yīng)用中，如果未標(biāo)記樣本與有標(biāo)記樣本的數(shù)據(jù)分布偏差較大，將嚴(yán)重影響TSVM分類方法對(duì)數(shù)據(jù) 集的分類和預(yù)測(cè)結(jié)果。近幾年來(lái)，不平衡數(shù)據(jù)集的分類問題越來(lái)越受到數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)研究領(lǐng)域的關(guān)注，國(guó)內(nèi)外學(xué)者對(duì)不平衡數(shù)據(jù)的研究主要有兩個(gè)方面一是基于數(shù)據(jù)采樣的方法，其主要目的是通過對(duì)數(shù)據(jù)進(jìn)行預(yù)處理降低數(shù)據(jù)的不平衡度，如模擬增加少數(shù)類樣本的少數(shù)類樣本合成過采樣技術(shù)SMOTE; 二是基于分類算法的方法，Veropoulos等人提出的不同懲罰參數(shù) 的支持向量機(jī)Biased-SVM，為各類樣本指派不同的懲罰參數(shù)，從一定程度上抵消了數(shù)據(jù)不平衡度對(duì)分類器SVM的影響。面對(duì)不平衡數(shù)據(jù)集的學(xué)習(xí)問題，研究的困難主要來(lái)自于不平衡數(shù)據(jù)集本身的特點(diǎn)不平衡數(shù)據(jù)集中的少數(shù)類樣本不足，樣本的分布并不能很好的反映整個(gè)類的實(shí)際分布；多數(shù)類通常會(huì)夾雜噪聲數(shù)據(jù)，使得兩類樣本往往會(huì)出現(xiàn)不同程度的重疊。此外，傳統(tǒng)的機(jī)器學(xué)習(xí)領(lǐng)域的分類方法，在直接應(yīng)用于不平衡數(shù)據(jù)集時(shí)，如果沒有考慮數(shù)據(jù)的不平衡性，容易將少數(shù)類樣本錯(cuò)分為多數(shù)類，盡管整體的分類精度比較高，但對(duì)少數(shù)類的分類精度非常低；相反的，如果過分考慮不平衡性對(duì)分類方法的影響，又容易出現(xiàn)過學(xué)習(xí)現(xiàn)象，雖然對(duì)訓(xùn)練集可以達(dá)到很高的分類精度，但面對(duì)數(shù)據(jù)集的更新和變化時(shí)，分類效果又不夠理想了。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述已有技術(shù)的不足，針對(duì)有標(biāo)記樣本較少的不平衡數(shù) 據(jù)，提出一種基于模糊聚類和半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類方法，以在考慮到數(shù)據(jù)不平衡性的同時(shí)，引入半監(jiān)督學(xué)習(xí)的思想，避免過學(xué)習(xí)現(xiàn)象的出現(xiàn)，提高分類器對(duì)數(shù)據(jù)集中少數(shù)類的分類精度。實(shí)現(xiàn)本發(fā)明目的的技術(shù)思路是通過實(shí)施模糊聚類，并結(jié)合基于SVM分類器的自訓(xùn)練學(xué)習(xí)過程，對(duì)未標(biāo)記樣本不斷進(jìn)行標(biāo)記和利用，擴(kuò)充有標(biāo)記樣本集中的少數(shù)類，在均衡各類樣本數(shù)目的同時(shí)，為分類器提供更多有效的樣本分布信息，從而提高分類器對(duì)不平衡數(shù)據(jù)的分類性能。其技術(shù)方案包括以下步驟(1)讀取一個(gè)包含兩種類型的不平衡數(shù)據(jù)集，將這兩種類型按照樣本數(shù)目的多少分別記作少數(shù)類和多數(shù)類，從該兩類不平衡數(shù)據(jù)樣本中隨機(jī)選取一部分作為初始有標(biāo)記樣本集IxJ，將剩余的數(shù)據(jù)樣本作為初始未標(biāo)記樣本集{Xj}；(2)對(duì)所述不平衡數(shù)據(jù)集的聚類中心進(jìn)行初始化(2a)對(duì)當(dāng)前有標(biāo)記樣本集IxJ中的少數(shù)類樣本和多數(shù)類樣本分別取均值，得到均值中心集合M = {m+，m_}，其中m+是少數(shù)類樣本的均值中心，m_是多數(shù)類樣本的均值中心；(2b)對(duì)均值中心集合M中的各中心分別實(shí)施均值漂移算法，找到初始聚類中心 M* = {mlm_)，其中<是少數(shù)類樣本的初始聚類中心，屹是多數(shù)類樣本的初始聚類中心；(3)基于初始聚類中心M*，對(duì)當(dāng)前有標(biāo)記和未標(biāo)記樣本實(shí)施模糊C均值聚類，得到聚類中心AT ={<>!*}，其中<是少數(shù)類樣本的聚類中心，<是多數(shù)類樣本的聚類中心，并將當(dāng)前所有未標(biāo)記樣本到各聚類中心的隸屬度集合記作U= IucJj e (1，2，...，u)， c e (+，-)}，其中Uc;j是第j個(gè)未標(biāo)記樣本到標(biāo)記為c的聚類中心的隸屬度，u是當(dāng)前未標(biāo) 記樣本集的樣本數(shù)目；(4)通過上述模糊聚類步驟，依據(jù)隸屬度集合U,從當(dāng)前未標(biāo)記樣本集{Xj}中選取聚類標(biāo)記為正且對(duì)應(yīng)隸屬度最大的H個(gè)樣本進(jìn)行標(biāo)記，即H = pXN+，從而將當(dāng)前有標(biāo)記樣本集和未標(biāo)記樣本集分別更新為和{<}，式中N+是當(dāng)前有標(biāo)記樣本集中少數(shù)類的樣本數(shù) 目，P是從未標(biāo)記樣本中選取出并進(jìn)行標(biāo)記的比例；(5)對(duì)上述聚類更新后的數(shù)據(jù)集{<}和{<}，進(jìn)行基于SVM分類器的自訓(xùn)練；(6)通過上述自訓(xùn)練步驟，從聚類更新后的未標(biāo)記樣本集{X;}中選取判別函數(shù)值最大的H*個(gè)樣本進(jìn)行標(biāo)記，即礦=pxN:，從而將當(dāng)前有標(biāo)記樣本集和未標(biāo)記樣本集分別再次更新為{χΓ}和{<}，式中<聚類更新后的有標(biāo)記樣本集{<}中少數(shù)類的樣本數(shù)目，P是從未標(biāo)記樣本中選取出并進(jìn)行標(biāo)記的比例；(7)對(duì)上述自訓(xùn)練更新后的數(shù)據(jù)集和{<}，進(jìn)行基于不同懲罰參數(shù)的支撐矢量機(jī)Biased-SVM的分類；(8)對(duì)上述基于不同懲罰參數(shù)的支撐矢量機(jī)Biased-SVM的不平衡數(shù)據(jù)分類結(jié)果利用幾何均值Gm進(jìn)行評(píng)估；(9)根據(jù)獲得的幾何均值是否達(dá)到最優(yōu)作為終止條件，若滿足則停止迭代，返回步驟(8)輸出分類結(jié)果，否則返回步驟(2)，直到滿足終止條件為止。本發(fā)明與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn)
(1)本發(fā)明由于引入了無(wú)監(jiān)督的模糊聚類算法，挖掘未標(biāo)記樣本中隱含的數(shù)據(jù)分布信息，因而無(wú)需人工預(yù)先確定訓(xùn)練樣本的標(biāo)記，避免了實(shí)際操作中枯燥又費(fèi)時(shí)的標(biāo)記工作；同時(shí)由于本發(fā)明使用有標(biāo)記樣本引導(dǎo)聚類過程，且不依賴于有標(biāo)記樣本的初始分布，因此不會(huì)受到數(shù)據(jù)集的更新和變化所帶來(lái)的影響，從而提高了分類器對(duì)不平衡數(shù)據(jù)分類的泛化能力。 (2)本發(fā)明由于綜合考慮了在實(shí)際應(yīng)用中，經(jīng)常會(huì)遇到有標(biāo)記樣本較少或很難獲取，同時(shí)數(shù)據(jù)的不平衡度又很高的數(shù)據(jù)集問題，通過實(shí)施模糊聚類，并結(jié)合基于SVM分類器的自訓(xùn)練學(xué)習(xí)過程，對(duì)未標(biāo)記樣本不斷進(jìn)行標(biāo)記和利用，擴(kuò)充有標(biāo)記樣本集中的少數(shù)類，因而可在均衡各類樣本數(shù)目的同時(shí)，為分類器提供更多有效的樣本分布信息，避免過學(xué)習(xí)現(xiàn) 象的出現(xiàn)，提高了分類器對(duì)不平衡數(shù)據(jù)的分類性能。

圖1是本發(fā)明的流程圖；圖2是本發(fā)明使用均值漂移算法對(duì)聚類中心進(jìn)行初始化示意3是本發(fā)明中參數(shù)ρ的設(shè)置對(duì)分類器的性能影響分析圖；圖4是本發(fā)明與現(xiàn)有技術(shù)在不平衡數(shù)據(jù)集上得到的幾何均值Gm對(duì)比圖。
具體實(shí)施例方式參照?qǐng)D1，本發(fā)明的具體實(shí)現(xiàn)步驟如下步驟1，選定初始有標(biāo)記樣本集和初始未標(biāo)記樣本集。給定一個(gè)不平衡數(shù)據(jù)集，該數(shù)據(jù)集的樣本按照其特征和屬性的不同劃分為兩種類型，將這兩種類型按照樣本數(shù)目的多少分別記作少數(shù)類和多數(shù)類，從該兩類不平衡數(shù)據(jù)集中隨機(jī)選取一部分作為初始有標(biāo)記樣本集IxJ，將剩余的數(shù)據(jù)樣本作為初始未標(biāo)記樣本集W。步驟2，對(duì)所述不平衡數(shù)據(jù)集的聚類中心進(jìn)行初始化。(2a)對(duì)當(dāng)前有標(biāo)記樣本集IxJ中的少數(shù)類樣本和多數(shù)類樣本分別取均值，得到均值中心集合M = {m+，m_}，其中m+是少數(shù)類樣本的均值中心，m_是多數(shù)類樣本的均值中心；(2b)用有標(biāo)記和未標(biāo)記樣本{xk|k = 1，...，η}分別對(duì)均值中心集合M = {m+， mj中的各中心點(diǎn)實(shí)施均值漂移算法，找到初始聚類中心M* = ^^,m:}，其中是少數(shù)類樣本的初始聚類中心，是多數(shù)類樣本的初始聚類中心。在對(duì)均值中心集合M = {m+，m_}中的各中心點(diǎn)實(shí)施均值漂移算法時(shí)，首先將均值漂移向量用如下公式定義
ZG(〒) Mh(X)=k^ “―X，1)
Σ (〒) k=i n其中χ對(duì)應(yīng)中心點(diǎn)，GO采用高斯核函數(shù)，核帶寬取Z7 = 1.06^7—* A是數(shù)據(jù)集的標(biāo) 準(zhǔn)差，η是樣本數(shù)目；接著將1)式右邊的第一項(xiàng)記為mh(x)，給定容許誤差ε，并執(zhí)行下面三步，直至結(jié)束條件滿足，(a)計(jì)算 mh(x);
(b)把 mh(x)賦給 χ ；(c)如果I |mh(x)-x | < ε，結(jié)束循環(huán)，否則返回執(zhí)行(a)。在上述均值漂移算法中，因?yàn)閙h(x) = x+Mh(x)，且Mh(X)指向概率密度梯度的方向，即概率密度增加最大的方向，所以均值漂移算法通過執(zhí)行以上步驟，使得待求的中心點(diǎn) 不斷的沿著概率密度的梯度方向移動(dòng)，最終找到樣本分布最密集的區(qū)域的中心點(diǎn)。圖2展示了采用均值漂移算法初始聚類中心的有效性。首先從經(jīng)典的四類square 數(shù)據(jù)集中任取兩類，各類樣本數(shù)目之比為1 5，接著從各類樣本中隨機(jī)選取6%的樣本作為有標(biāo)記樣本，其余作為未標(biāo)記樣本，其數(shù)據(jù)分布如圖2(a)所示，“ + ”和“X”分別代表各類的有標(biāo)記樣本，圖2(b)中菱形“ ”代表均值中心集合M= {m+，m_}的各中心點(diǎn)，“ ☆”代表通過均值漂移算法得到的初始聚類中心= {<，《}的各中心點(diǎn)，從圖2可以看到，本發(fā) 明使用的均值漂移算法得到的初始聚類中心點(diǎn)更接近數(shù)據(jù)集中各類的分布中心。步驟3，基于步驟2中取得的初始聚類中心M*，對(duì)當(dāng)前有標(biāo)記和未標(biāo)記樣本實(shí)施模糊C均值聚類，得到聚類中心AT ={<，<}，其中<是少數(shù)類樣本的聚類中心，<是多數(shù)類樣本的聚類中心，并將當(dāng)前所有未標(biāo)記樣本到各聚類中心的隸屬度集合記作U = IucJje (l，2，...，u)，ce (+，-)}，其中u?！故堑趈個(gè)未標(biāo)記樣本到標(biāo)記為c的聚類中心的隸屬度，u是當(dāng)前未標(biāo)記樣本集的樣本數(shù)目。所述模糊C均值的算法步驟如下(a)給定初始聚類中心；
(b)重復(fù)下面的運(yùn)算，直到有標(biāo)記和未標(biāo)記樣本的隸屬度值穩(wěn)定 (bl)計(jì)算隸屬度
權(quán)利要求
一種不平衡數(shù)據(jù)的半監(jiān)督分類方法，包括如下步驟(1)讀取一個(gè)包含兩種類型的不平衡數(shù)據(jù)集，將這兩種類型按照樣本數(shù)目的多少分別記作少數(shù)類和多數(shù)類，從該兩類不平衡數(shù)據(jù)樣本中隨機(jī)選取一部分作為初始有標(biāo)記樣本集{xi}，將剩余的數(shù)據(jù)樣本作為初始未標(biāo)記樣本集{xj}；(2)對(duì)所述不平衡數(shù)據(jù)集的聚類中心進(jìn)行初始化(2a)對(duì)當(dāng)前有標(biāo)記樣本集{xi}中的少數(shù)類樣本和多數(shù)類樣本分別取均值，得到均值中心集合M＝{m+，m }，其中m+是少數(shù)類樣本的均值中心，m 是多數(shù)類樣本的均值中心；(2b)對(duì)均值中心集合M中的各中心分別實(shí)施均值漂移算法，找到初始聚類中心其中是少數(shù)類樣本的初始聚類中心，是多數(shù)類樣本的初始聚類中心；(3)基于初始聚類中心M*，對(duì)當(dāng)前有標(biāo)記和未標(biāo)記樣本實(shí)施模糊C均值聚類，得到聚類中心其中是少數(shù)類樣本的聚類中心，是多數(shù)類樣本的聚類中心，并將當(dāng)前所有未標(biāo)記樣本到各聚類中心的隸屬度集合記作U＝{ucj|j∈(1，2，...，u)，c∈(+， )}，其中ucj是第j個(gè)未標(biāo)記樣本到標(biāo)記為c的聚類中心的隸屬度，u是當(dāng)前未標(biāo)記樣本集的樣本數(shù)目；(4)通過上述模糊聚類步驟，依據(jù)隸屬度集合U，從當(dāng)前未標(biāo)記樣本集{xj}中選取聚類標(biāo)記為正且對(duì)應(yīng)隸屬度最大的H個(gè)樣本進(jìn)行標(biāo)記，即H＝p×N+，從而將當(dāng)前有標(biāo)記樣本集和未標(biāo)記樣本集分別更新為和式中N+是當(dāng)前有標(biāo)記樣本集中少數(shù)類的樣本數(shù)目，p是從未標(biāo)記樣本中選取出并進(jìn)行標(biāo)記的比例；(5)對(duì)上述聚類更新后的數(shù)據(jù)集和進(jìn)行基于SVM分類器的自訓(xùn)練；(6)通過上述自訓(xùn)練步驟，從聚類更新后的未標(biāo)記樣本集中選取判別函數(shù)值最大的H*個(gè)樣本進(jìn)行標(biāo)記，即從而將當(dāng)前有標(biāo)記樣本集和未標(biāo)記樣本集分別再次更新為和式中聚類更新后的有標(biāo)記樣本集中少數(shù)類的樣本數(shù)目，p是從未標(biāo)記樣本中選取出并進(jìn)行標(biāo)記的比例；(7)對(duì)上述自訓(xùn)練更新后的數(shù)據(jù)集和進(jìn)行基于不同懲罰參數(shù)的支撐矢量機(jī)Biased SVM的分類；(8)對(duì)上述基于不同懲罰參數(shù)的支撐矢量機(jī)Biased SVM的不平衡數(shù)據(jù)分類結(jié)果利用幾何均值Gm進(jìn)行評(píng)估；(9)根據(jù)獲得的幾何均值是否達(dá)到最優(yōu)作為終止條件，若滿足則停止迭代，返回步驟(8)輸出分類結(jié)果，否則返回步驟(2)，直到滿足終止條件為止。FDA0000030757070000011.tif,FDA0000030757070000012.tif,FDA0000030757070000013.tif,FDA0000030757070000014.tif,FDA0000030757070000015.tif,FDA0000030757070000016.tif,FDA0000030757070000017.tif,FDA0000030757070000018.tif,FDA0000030757070000019.tif,FDA00000307570700000110.tif,FDA00000307570700000111.tif,FDA00000307570700000112.tif,FDA00000307570700000113.tif,FDA00000307570700000114.tif,FDA00000307570700000115.tif,FDA00000307570700000116.tif,FDA00000307570700000117.tif,FDA00000307570700000118.tif
2.根據(jù)權(quán)利要求1的不平衡數(shù)據(jù)的半監(jiān)督分類方法，其中步驟(5)所述的對(duì)聚類更新后的數(shù)據(jù)集和{々，進(jìn)行基于SVM分類器的自訓(xùn)練，按如下步驟進(jìn)行(5a)利用聚類更新后的有標(biāo)記樣本集{<}訓(xùn)練SVM分類器；(5b)利用SVM分類器的判別函數(shù)= +M導(dǎo)到聚類更新后的未標(biāo)記樣本集{々中各樣本的測(cè)試標(biāo)記·叫=sgn(wx]+b)，其中w是通過訓(xùn)練SVM分類器得到的最優(yōu)分類平面的權(quán)值向量，b是其偏置向量，sgn()是符號(hào)函數(shù)，<是用于測(cè)試的未標(biāo)記樣本。
3.根據(jù)權(quán)利要求1的不平衡數(shù)據(jù)的半監(jiān)督分類方法，其中步驟(7)所述的對(duì)自訓(xùn)練更新后的數(shù)據(jù)集和，進(jìn)行基于不同懲罰參數(shù)的支撐矢量機(jī)Biased-SVM的分類，按如下步驟進(jìn)行(7a)利用自訓(xùn)練更新后的有標(biāo)記樣本集{<}訓(xùn)練不同懲罰參數(shù)的支撐矢量機(jī) Biased-SVM ；(7b)利用不同懲罰參數(shù)的支撐矢量機(jī)Biased-SVM的判別函數(shù)f (Xj) = wXj+b，得到初始未標(biāo)記樣本集{x」}中各樣本的測(cè)試標(biāo)記label (Xj) = sgn (w · Xj+b)，其中w是訓(xùn)練不同懲罰參數(shù)的支撐矢量機(jī)Biased-SVM得到的最優(yōu)分類平面的權(quán)值向量，b是其偏置向量， sgn()是符號(hào)函數(shù)，\是用于測(cè)試的未標(biāo)記樣本。
4.根據(jù)權(quán)利要求1的不平衡數(shù)據(jù)的半監(jiān)督分類方法，其中步驟(8)所述的對(duì)基于不同懲罰參數(shù)的支撐矢量機(jī)Biased-SVM的不平衡數(shù)據(jù)分類結(jié)果利用幾何均值Gm進(jìn)行評(píng)估，按如下步驟進(jìn)行TPTN(8a)分別計(jì)算出少數(shù)類的分類精度& =和多數(shù)類的分類精度沴=·TP + FN 乂、η"…,口…FP+ TN其中，對(duì)應(yīng)于數(shù)據(jù)的預(yù)測(cè)結(jié)果，TP是預(yù)測(cè)為少數(shù)類且實(shí)際為少數(shù)類樣本數(shù)目，F(xiàn)P是預(yù)測(cè)為少數(shù)類但實(shí)際為多數(shù)類的樣本數(shù)目，F(xiàn)N是預(yù)測(cè)為多數(shù)類但實(shí)際為少數(shù)類的樣本數(shù)目，TN是預(yù)測(cè)為多數(shù)類且實(shí)際為多數(shù)類的樣本數(shù)目；(8b)依據(jù)上述計(jì)算得到的Se和Sp值，計(jì)算幾何均值Gm = ,JSe χ Sp。
全文摘要
本發(fā)明公開了一種基于模糊聚類和半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類方法，主要用于解決現(xiàn)有技術(shù)在有標(biāo)記樣本較少且不平衡度較高的數(shù)據(jù)上，對(duì)少數(shù)類的分類精度低的問題。其實(shí)現(xiàn)步驟為(1)初始有標(biāo)記樣本集和未標(biāo)記樣本集；(2)初始聚類中心；(3)實(shí)施模糊聚類；(4)依據(jù)聚類結(jié)果更新有標(biāo)記樣本集和未標(biāo)記樣本集；(5)實(shí)施基于SVM分類器的自訓(xùn)練；(6)依據(jù)自訓(xùn)練結(jié)果更新有標(biāo)記樣本集和未標(biāo)記樣本集；(7)實(shí)施基于不同懲罰參數(shù)的支撐矢量機(jī)Biased-SVM的分類；(8)評(píng)估分類結(jié)果并輸出。在有標(biāo)記樣本較少的不平衡數(shù)據(jù)上，本發(fā)明提高了少數(shù)類的分類精度，可用于訓(xùn)練樣本極少的不平衡數(shù)據(jù)的分類與識(shí)別。
文檔編號(hào)G06F17/30GK101980202SQ20101053091
公開日2011年2月23日申請(qǐng)日期2010年11月4日優(yōu)先權(quán)日2010年11月4日
發(fā)明者侯彪, 馮吭雨, 張青, 焦李成, 王爽, 緱水平, 鐘樺, 馬文萍申請(qǐng)人:西安電子科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王爽;焦李成;馮吭雨;鐘樺;侯彪;緱水平;馬文萍;張青
技術(shù)所有人：西安電子科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

不平衡數(shù)據(jù)集分類算法相關(guān)技術(shù)

不平衡數(shù)據(jù)處理方法相關(guān)技術(shù)

不平衡數(shù)據(jù)相關(guān)技術(shù)

不平衡數(shù)據(jù)集相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

不平衡數(shù)據(jù)的半監(jiān)督分類方法