亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

不平衡數(shù)據(jù)的半監(jiān)督分類方法

文檔序號(hào):6335151閱讀:1528來(lái)源:國(guó)知局
專利名稱:不平衡數(shù)據(jù)的半監(jiān)督分類方法
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,涉及不平衡數(shù)據(jù)分類,是模式識(shí)別和機(jī)器學(xué)習(xí)在數(shù)據(jù) 挖掘領(lǐng)域的應(yīng)用,具體的說是一種基于模糊聚類和半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類方法,可 用于訓(xùn)練樣本極少的不平衡數(shù)據(jù)的分類與識(shí)別。
背景技術(shù)
伴隨著全球信息技術(shù)的飛速發(fā)展,功能強(qiáng)大的計(jì)算機(jī)、數(shù)據(jù)收集設(shè)備和存儲(chǔ)設(shè)備 為人們進(jìn)行事務(wù)管理、信息檢索和數(shù)據(jù)分析提供了大量的數(shù)據(jù)信息。盡管獲得的數(shù)據(jù)量非 常大,但是對(duì)人們有用的數(shù)據(jù)往往只占全部數(shù)據(jù)的一小部分。這種某類樣本數(shù)量明顯少于 其它類樣本的數(shù)據(jù)集被稱作不平衡數(shù)據(jù)集,不平衡數(shù)據(jù)集的分類問題大量存在于現(xiàn)實(shí)生活 之中,例如,檢測(cè)公民的信用申請(qǐng)是否存在欺詐,一般情況下欺詐申請(qǐng)要遠(yuǎn)少于合法申請(qǐng); 利用診療數(shù)據(jù)診斷病人的疾病,如心臟病患者要遠(yuǎn)少于健康的人。在這些實(shí)際應(yīng)用中,人們 更關(guān)心的是數(shù)據(jù)集中的少數(shù)類,即樣本數(shù)目遠(yuǎn)少于其它類樣本的一類樣本,而且這些少數(shù) 類的錯(cuò)分代價(jià)往往非常大,因此需要有效提高少數(shù)類的分類精度。同時(shí)隨著數(shù)據(jù)采集技術(shù)的發(fā)展,獲取大量未標(biāo)記樣本變得非常容易,而有標(biāo)記樣 本的獲取因需要大量的人力物力仍相對(duì)困難,從而需要研究如何有效的利用大量存在的未 標(biāo)記樣本協(xié)助少量有標(biāo)記樣本提高分類器的學(xué)習(xí)性能。引入半監(jiān)督學(xué)習(xí)的思想可同時(shí)利用 有標(biāo)記樣本和未標(biāo)記樣本對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練和預(yù)測(cè),其中基于SVM分類器的直推式支持向 量機(jī)TSVM方法就是一種具有代表性的半監(jiān)督分類方法,該方法需要預(yù)先設(shè)定未標(biāo)記樣本 中各類樣本數(shù)目比例,這通常要依據(jù)有標(biāo)記樣本集的數(shù)據(jù)分布對(duì)其進(jìn)行估計(jì),在實(shí)際應(yīng)用 中,如果未標(biāo)記樣本與有標(biāo)記樣本的數(shù)據(jù)分布偏差較大,將嚴(yán)重影響TSVM分類方法對(duì)數(shù)據(jù) 集的分類和預(yù)測(cè)結(jié)果。近幾年來(lái),不平衡數(shù)據(jù)集的分類問題越來(lái)越受到數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)研究領(lǐng)域的 關(guān)注,國(guó)內(nèi)外學(xué)者對(duì)不平衡數(shù)據(jù)的研究主要有兩個(gè)方面一是基于數(shù)據(jù)采樣的方法,其主要 目的是通過對(duì)數(shù)據(jù)進(jìn)行預(yù)處理降低數(shù)據(jù)的不平衡度,如模擬增加少數(shù)類樣本的少數(shù)類樣本 合成過采樣技術(shù)SMOTE; 二是基于分類算法的方法,Veropoulos等人提出的不同懲罰參數(shù) 的支持向量機(jī)Biased-SVM,為各類樣本指派不同的懲罰參數(shù),從一定程度上抵消了數(shù)據(jù)不 平衡度對(duì)分類器SVM的影響。面對(duì)不平衡數(shù)據(jù)集的學(xué)習(xí)問題,研究的困難主要來(lái)自于不平衡數(shù)據(jù)集本身的特 點(diǎn)不平衡數(shù)據(jù)集中的少數(shù)類樣本不足,樣本的分布并不能很好的反映整個(gè)類的實(shí)際分布; 多數(shù)類通常會(huì)夾雜噪聲數(shù)據(jù),使得兩類樣本往往會(huì)出現(xiàn)不同程度的重疊。此外,傳統(tǒng)的機(jī)器 學(xué)習(xí)領(lǐng)域的分類方法,在直接應(yīng)用于不平衡數(shù)據(jù)集時(shí),如果沒有考慮數(shù)據(jù)的不平衡性,容易 將少數(shù)類樣本錯(cuò)分為多數(shù)類,盡管整體的分類精度比較高,但對(duì)少數(shù)類的分類精度非常低; 相反的,如果過分考慮不平衡性對(duì)分類方法的影響,又容易出現(xiàn)過學(xué)習(xí)現(xiàn)象,雖然對(duì)訓(xùn)練集 可以達(dá)到很高的分類精度,但面對(duì)數(shù)據(jù)集的更新和變化時(shí),分類效果又不夠理想了。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述已有技術(shù)的不足,針對(duì)有標(biāo)記樣本較少的不平衡數(shù) 據(jù),提出一種基于模糊聚類和半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類方法,以在考慮到數(shù)據(jù)不平衡 性的同時(shí),引入半監(jiān)督學(xué)習(xí)的思想,避免過學(xué)習(xí)現(xiàn)象的出現(xiàn),提高分類器對(duì)數(shù)據(jù)集中少數(shù)類 的分類精度。實(shí)現(xiàn)本發(fā)明目的的技術(shù)思路是通過實(shí)施模糊聚類,并結(jié)合基于SVM分類器的自 訓(xùn)練學(xué)習(xí)過程,對(duì)未標(biāo)記樣本不斷進(jìn)行標(biāo)記和利用,擴(kuò)充有標(biāo)記樣本集中的少數(shù)類,在均衡 各類樣本數(shù)目的同時(shí),為分類器提供更多有效的樣本分布信息,從而提高分類器對(duì)不平衡 數(shù)據(jù)的分類性能。其技術(shù)方案包括以下步驟(1)讀取一個(gè)包含兩種類型的不平衡數(shù)據(jù)集,將這兩種類型按照樣本數(shù)目的多少 分別記作少數(shù)類和多數(shù)類,從該兩類不平衡數(shù)據(jù)樣本中隨機(jī)選取一部分作為初始有標(biāo)記樣 本集IxJ,將剩余的數(shù)據(jù)樣本作為初始未標(biāo)記樣本集{Xj};(2)對(duì)所述不平衡數(shù)據(jù)集的聚類中心進(jìn)行初始化(2a)對(duì)當(dāng)前有標(biāo)記樣本集IxJ中的少數(shù)類樣本和多數(shù)類樣本分別取均值,得到均 值中心集合M = {m+,m_},其中m+是少數(shù)類樣本的均值中心,m_是多數(shù)類樣本的均值中心;(2b)對(duì)均值中心集合M中的各中心分別實(shí)施均值漂移算法,找到初始聚類中心 M* = {mlm_),其中<是少數(shù)類樣本的初始聚類中心,屹是多數(shù)類樣本的初始聚類中心;(3)基于初始聚類中心M*,對(duì)當(dāng)前有標(biāo)記和未標(biāo)記樣本實(shí)施模糊C均值聚類,得到 聚類中心AT ={<>!*},其中<是少數(shù)類樣本的聚類中心,<是多數(shù)類樣本的聚類中心, 并將當(dāng)前所有未標(biāo)記樣本到各聚類中心的隸屬度集合記作U= IucJj e (1,2,...,u), c e (+,-)},其中Uc;j是第j個(gè)未標(biāo)記樣本到標(biāo)記為c的聚類中心的隸屬度,u是當(dāng)前未標(biāo) 記樣本集的樣本數(shù)目;(4)通過上述模糊聚類步驟,依據(jù)隸屬度集合U,從當(dāng)前未標(biāo)記樣本集{Xj}中選取 聚類標(biāo)記為正且對(duì)應(yīng)隸屬度最大的H個(gè)樣本進(jìn)行標(biāo)記,即H = pXN+,從而將當(dāng)前有標(biāo)記樣 本集和未標(biāo)記樣本集分別更新為和{<},式中N+是當(dāng)前有標(biāo)記樣本集中少數(shù)類的樣本數(shù) 目,P是從未標(biāo)記樣本中選取出并進(jìn)行標(biāo)記的比例;(5)對(duì)上述聚類更新后的數(shù)據(jù)集{<}和{<},進(jìn)行基于SVM分類器的自訓(xùn)練;(6)通過上述自訓(xùn)練步驟,從聚類更新后的未標(biāo)記樣本集{X;}中選取判別函數(shù)值最 大的H*個(gè)樣本進(jìn)行標(biāo)記,即礦=pxN:,從而將當(dāng)前有標(biāo)記樣本集和未標(biāo)記樣本集分別再 次更新為{χΓ}和{<},式中<聚類更新后的有標(biāo)記樣本集{<}中少數(shù)類的樣本數(shù)目,P是從 未標(biāo)記樣本中選取出并進(jìn)行標(biāo)記的比例;(7)對(duì)上述自訓(xùn)練更新后的數(shù)據(jù)集和{<},進(jìn)行基于不同懲罰參數(shù)的支撐矢 量機(jī)Biased-SVM的分類;(8)對(duì)上述基于不同懲罰參數(shù)的支撐矢量機(jī)Biased-SVM的不平衡數(shù)據(jù)分類結(jié)果 利用幾何均值Gm進(jìn)行評(píng)估;(9)根據(jù)獲得的幾何均值是否達(dá)到最優(yōu)作為終止條件,若滿足則停止迭代,返回步 驟(8)輸出分類結(jié)果,否則返回步驟(2),直到滿足終止條件為止。本發(fā)明與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn)
(1)本發(fā)明由于引入了無(wú)監(jiān)督的模糊聚類算法,挖掘未標(biāo)記樣本中隱含的數(shù)據(jù)分 布信息,因而無(wú)需人工預(yù)先確定訓(xùn)練樣本的標(biāo)記,避免了實(shí)際操作中枯燥又費(fèi)時(shí)的標(biāo)記工 作;同時(shí)由于本發(fā)明使用有標(biāo)記樣本引導(dǎo)聚類過程,且不依賴于有標(biāo)記樣本的初始分布,因 此不會(huì)受到數(shù)據(jù)集的更新和變化所帶來(lái)的影響,從而提高了分類器對(duì)不平衡數(shù)據(jù)分類的泛 化能力。 (2)本發(fā)明由于綜合考慮了在實(shí)際應(yīng)用中,經(jīng)常會(huì)遇到有標(biāo)記樣本較少或很難獲 取,同時(shí)數(shù)據(jù)的不平衡度又很高的數(shù)據(jù)集問題,通過實(shí)施模糊聚類,并結(jié)合基于SVM分類器 的自訓(xùn)練學(xué)習(xí)過程,對(duì)未標(biāo)記樣本不斷進(jìn)行標(biāo)記和利用,擴(kuò)充有標(biāo)記樣本集中的少數(shù)類,因 而可在均衡各類樣本數(shù)目的同時(shí),為分類器提供更多有效的樣本分布信息,避免過學(xué)習(xí)現(xiàn) 象的出現(xiàn),提高了分類器對(duì)不平衡數(shù)據(jù)的分類性能。


圖1是本發(fā)明的流程圖;圖2是本發(fā)明使用均值漂移算法對(duì)聚類中心進(jìn)行初始化示意3是本發(fā)明中參數(shù)ρ的設(shè)置對(duì)分類器的性能影響分析圖;圖4是本發(fā)明與現(xiàn)有技術(shù)在不平衡數(shù)據(jù)集上得到的幾何均值Gm對(duì)比圖。
具體實(shí)施例方式參照?qǐng)D1,本發(fā)明的具體實(shí)現(xiàn)步驟如下步驟1,選定初始有標(biāo)記樣本集和初始未標(biāo)記樣本集。給定一個(gè)不平衡數(shù)據(jù)集,該數(shù)據(jù)集的樣本按照其特征和屬性的不同劃分為兩種類 型,將這兩種類型按照樣本數(shù)目的多少分別記作少數(shù)類和多數(shù)類,從該兩類不平衡數(shù)據(jù)集 中隨機(jī)選取一部分作為初始有標(biāo)記樣本集IxJ,將剩余的數(shù)據(jù)樣本作為初始未標(biāo)記樣本集W。步驟2,對(duì)所述不平衡數(shù)據(jù)集的聚類中心進(jìn)行初始化。(2a)對(duì)當(dāng)前有標(biāo)記樣本集IxJ中的少數(shù)類樣本和多數(shù)類樣本分別取均值,得到均 值中心集合M = {m+,m_},其中m+是少數(shù)類樣本的均值中心,m_是多數(shù)類樣本的均值中心;(2b)用有標(biāo)記和未標(biāo)記樣本{xk|k = 1,...,η}分別對(duì)均值中心集合M = {m+, mj中的各中心點(diǎn)實(shí)施均值漂移算法,找到初始聚類中心M* = ^^,m:},其中是少數(shù)類樣 本的初始聚類中心,是多數(shù)類樣本的初始聚類中心。在對(duì)均值中心集合M = {m+,m_}中的各中心點(diǎn)實(shí)施均值漂移算法時(shí),首先將均值漂 移向量用如下公式定義
ZG(〒) Mh(X)=k^ “―X,1)
Σ (〒) k=i n其中χ對(duì)應(yīng)中心點(diǎn),GO采用高斯核函數(shù),核帶寬取Z7 = 1.06^7—* A是數(shù)據(jù)集的標(biāo) 準(zhǔn)差,η是樣本數(shù)目;接著將1)式右邊的第一項(xiàng)記為mh(x),給定容許誤差ε,并執(zhí)行下面 三步,直至結(jié)束條件滿足,(a)計(jì)算 mh(x);
(b)把 mh(x)賦給 χ ;(c)如果I |mh(x)-x | < ε,結(jié)束循環(huán),否則返回執(zhí)行(a)。在上述均值漂移算法中,因?yàn)閙h(x) = x+Mh(x),且Mh(X)指向概率密度梯度的方 向,即概率密度增加最大的方向,所以均值漂移算法通過執(zhí)行以上步驟,使得待求的中心點(diǎn) 不斷的沿著概率密度的梯度方向移動(dòng),最終找到樣本分布最密集的區(qū)域的中心點(diǎn)。圖2展示了采用均值漂移算法初始聚類中心的有效性。首先從經(jīng)典的四類square 數(shù)據(jù)集中任取兩類,各類樣本數(shù)目之比為1 5,接著從各類樣本中隨機(jī)選取6%的樣本作 為有標(biāo)記樣本,其余作為未標(biāo)記樣本,其數(shù)據(jù)分布如圖2(a)所示,“ + ”和“X”分別代表各 類的有標(biāo)記樣本,圖2(b)中菱形“ ”代表均值中心集合M= {m+,m_}的各中心點(diǎn),“ ☆”代 表通過均值漂移算法得到的初始聚類中心= {<,《}的各中心點(diǎn),從圖2可以看到,本發(fā) 明使用的均值漂移算法得到的初始聚類中心點(diǎn)更接近數(shù)據(jù)集中各類的分布中心。步驟3,基于步驟2中取得的初始聚類中心M*,對(duì)當(dāng)前有標(biāo)記和未標(biāo)記樣本實(shí)施 模糊C均值聚類,得到聚類中心AT ={<,<},其中<是少數(shù)類樣本的聚類中心,<是 多數(shù)類樣本的聚類中心,并將當(dāng)前所有未標(biāo)記樣本到各聚類中心的隸屬度集合記作U = IucJje (l,2,...,u),ce (+,-)},其中u?!故堑趈個(gè)未標(biāo)記樣本到標(biāo)記為c的聚類中心 的隸屬度,u是當(dāng)前未標(biāo)記樣本集的樣本數(shù)目。所述模糊C均值的算法步驟如下(a)給定初始聚類中心;
(b)重復(fù)下面的運(yùn)算,直到有標(biāo)記和未標(biāo)記樣本的隸屬度值穩(wěn)定 (bl)計(jì)算隸屬度
權(quán)利要求
一種不平衡數(shù)據(jù)的半監(jiān)督分類方法,包括如下步驟(1)讀取一個(gè)包含兩種類型的不平衡數(shù)據(jù)集,將這兩種類型按照樣本數(shù)目的多少分別記作少數(shù)類和多數(shù)類,從該兩類不平衡數(shù)據(jù)樣本中隨機(jī)選取一部分作為初始有標(biāo)記樣本集{xi},將剩余的數(shù)據(jù)樣本作為初始未標(biāo)記樣本集{xj};(2)對(duì)所述不平衡數(shù)據(jù)集的聚類中心進(jìn)行初始化(2a)對(duì)當(dāng)前有標(biāo)記樣本集{xi}中的少數(shù)類樣本和多數(shù)類樣本分別取均值,得到均值中心集合M={m+,m },其中m+是少數(shù)類樣本的均值中心,m 是多數(shù)類樣本的均值中心;(2b)對(duì)均值中心集合M中的各中心分別實(shí)施均值漂移算法,找到初始聚類中心其中是少數(shù)類樣本的初始聚類中心,是多數(shù)類樣本的初始聚類中心;(3)基于初始聚類中心M*,對(duì)當(dāng)前有標(biāo)記和未標(biāo)記樣本實(shí)施模糊C均值聚類,得到聚類中心其中是少數(shù)類樣本的聚類中心,是多數(shù)類樣本的聚類中心,并將當(dāng)前所有未標(biāo)記樣本到各聚類中心的隸屬度集合記作U={ucj|j∈(1,2,...,u),c∈(+, )},其中ucj是第j個(gè)未標(biāo)記樣本到標(biāo)記為c的聚類中心的隸屬度,u是當(dāng)前未標(biāo)記樣本集的樣本數(shù)目;(4)通過上述模糊聚類步驟,依據(jù)隸屬度集合U,從當(dāng)前未標(biāo)記樣本集{xj}中選取聚類標(biāo)記為正且對(duì)應(yīng)隸屬度最大的H個(gè)樣本進(jìn)行標(biāo)記,即H=p×N+,從而將當(dāng)前有標(biāo)記樣本集和未標(biāo)記樣本集分別更新為和式中N+是當(dāng)前有標(biāo)記樣本集中少數(shù)類的樣本數(shù)目,p是從未標(biāo)記樣本中選取出并進(jìn)行標(biāo)記的比例;(5)對(duì)上述聚類更新后的數(shù)據(jù)集和進(jìn)行基于SVM分類器的自訓(xùn)練;(6)通過上述自訓(xùn)練步驟,從聚類更新后的未標(biāo)記樣本集中選取判別函數(shù)值最大的H*個(gè)樣本進(jìn)行標(biāo)記,即從而將當(dāng)前有標(biāo)記樣本集和未標(biāo)記樣本集分別再次更新為和式中聚類更新后的有標(biāo)記樣本集中少數(shù)類的樣本數(shù)目,p是從未標(biāo)記樣本中選取出并進(jìn)行標(biāo)記的比例;(7)對(duì)上述自訓(xùn)練更新后的數(shù)據(jù)集和進(jìn)行基于不同懲罰參數(shù)的支撐矢量機(jī)Biased SVM的分類;(8)對(duì)上述基于不同懲罰參數(shù)的支撐矢量機(jī)Biased SVM的不平衡數(shù)據(jù)分類結(jié)果利用幾何均值Gm進(jìn)行評(píng)估;(9)根據(jù)獲得的幾何均值是否達(dá)到最優(yōu)作為終止條件,若滿足則停止迭代,返回步驟(8)輸出分類結(jié)果,否則返回步驟(2),直到滿足終止條件為止。FDA0000030757070000011.tif,FDA0000030757070000012.tif,FDA0000030757070000013.tif,FDA0000030757070000014.tif,FDA0000030757070000015.tif,FDA0000030757070000016.tif,FDA0000030757070000017.tif,FDA0000030757070000018.tif,FDA0000030757070000019.tif,FDA00000307570700000110.tif,FDA00000307570700000111.tif,FDA00000307570700000112.tif,FDA00000307570700000113.tif,FDA00000307570700000114.tif,FDA00000307570700000115.tif,FDA00000307570700000116.tif,FDA00000307570700000117.tif,FDA00000307570700000118.tif
2.根據(jù)權(quán)利要求1的不平衡數(shù)據(jù)的半監(jiān)督分類方法,其中步驟(5)所述的對(duì)聚類更新 后的數(shù)據(jù)集和{々,進(jìn)行基于SVM分類器的自訓(xùn)練,按如下步驟進(jìn)行(5a)利用聚類更新后的有標(biāo)記樣本集{<}訓(xùn)練SVM分類器;(5b)利用SVM分類器的判別函數(shù)= +M導(dǎo)到聚類更新后的未標(biāo)記樣本集{々 中各樣本的測(cè)試標(biāo)記·叫=sgn(wx]+b),其中w是通過訓(xùn)練SVM分類器得到的最優(yōu)分 類平面的權(quán)值向量,b是其偏置向量,sgn()是符號(hào)函數(shù),<是用于測(cè)試的未標(biāo)記樣本。
3.根據(jù)權(quán)利要求1的不平衡數(shù)據(jù)的半監(jiān)督分類方法,其中步驟(7)所述的對(duì)自訓(xùn)練更 新后的數(shù)據(jù)集和,進(jìn)行基于不同懲罰參數(shù)的支撐矢量機(jī)Biased-SVM的分類,按如下步驟進(jìn)行(7a)利用自訓(xùn)練更新后的有標(biāo)記樣本集{<}訓(xùn)練不同懲罰參數(shù)的支撐矢量機(jī) Biased-SVM ;(7b)利用不同懲罰參數(shù)的支撐矢量機(jī)Biased-SVM的判別函數(shù)f (Xj) = wXj+b,得到 初始未標(biāo)記樣本集{x」}中各樣本的測(cè)試標(biāo)記label (Xj) = sgn (w · Xj+b),其中w是訓(xùn)練不 同懲罰參數(shù)的支撐矢量機(jī)Biased-SVM得到的最優(yōu)分類平面的權(quán)值向量,b是其偏置向量, sgn()是符號(hào)函數(shù),\是用于測(cè)試的未標(biāo)記樣本。
4.根據(jù)權(quán)利要求1的不平衡數(shù)據(jù)的半監(jiān)督分類方法,其中步驟(8)所述的對(duì)基于不同 懲罰參數(shù)的支撐矢量機(jī)Biased-SVM的不平衡數(shù)據(jù)分類結(jié)果利用幾何均值Gm進(jìn)行評(píng)估,按 如下步驟進(jìn)行TPTN(8a)分別計(jì)算出少數(shù)類的分類精度& =和多數(shù)類的分類精度沴=·TP + FN 乂 、η"…,口…FP+ TN其中,對(duì)應(yīng)于數(shù)據(jù)的預(yù)測(cè)結(jié)果,TP是預(yù)測(cè)為少數(shù)類且實(shí)際為少數(shù)類樣本數(shù)目,F(xiàn)P是預(yù)測(cè)為 少數(shù)類但實(shí)際為多數(shù)類的樣本數(shù)目,F(xiàn)N是預(yù)測(cè)為多數(shù)類但實(shí)際為少數(shù)類的樣本數(shù)目,TN是 預(yù)測(cè)為多數(shù)類且實(shí)際為多數(shù)類的樣本數(shù)目;(8b)依據(jù)上述計(jì)算得到的Se和Sp值,計(jì)算幾何均值Gm = ,JSe χ Sp。
全文摘要
本發(fā)明公開了一種基于模糊聚類和半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類方法,主要用于解決現(xiàn)有技術(shù)在有標(biāo)記樣本較少且不平衡度較高的數(shù)據(jù)上,對(duì)少數(shù)類的分類精度低的問題。其實(shí)現(xiàn)步驟為(1)初始有標(biāo)記樣本集和未標(biāo)記樣本集;(2)初始聚類中心;(3)實(shí)施模糊聚類;(4)依據(jù)聚類結(jié)果更新有標(biāo)記樣本集和未標(biāo)記樣本集;(5)實(shí)施基于SVM分類器的自訓(xùn)練;(6)依據(jù)自訓(xùn)練結(jié)果更新有標(biāo)記樣本集和未標(biāo)記樣本集;(7)實(shí)施基于不同懲罰參數(shù)的支撐矢量機(jī)Biased-SVM的分類;(8)評(píng)估分類結(jié)果并輸出。在有標(biāo)記樣本較少的不平衡數(shù)據(jù)上,本發(fā)明提高了少數(shù)類的分類精度,可用于訓(xùn)練樣本極少的不平衡數(shù)據(jù)的分類與識(shí)別。
文檔編號(hào)G06F17/30GK101980202SQ20101053091
公開日2011年2月23日 申請(qǐng)日期2010年11月4日 優(yōu)先權(quán)日2010年11月4日
發(fā)明者侯彪, 馮吭雨, 張青, 焦李成, 王爽, 緱水平, 鐘樺, 馬文萍 申請(qǐng)人:西安電子科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1