基于模糊大間隔最小球分類的恒星光譜離群數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種基于模糊大間隔最小球分類的恒星光譜離群數(shù)據(jù)挖掘方法,屬于 天體光譜分類領(lǐng)域。
【背景技術(shù)】
[0002] 大型天文望遠(yuǎn)鏡采集到的海量天體數(shù)據(jù)使天文學(xué)家擺脫了 "數(shù)據(jù)貧乏"的窘境,但 隨之而來的問題是如何對運(yùn)些數(shù)據(jù)進(jìn)行有效分析和處理。由于人類對宇宙的認(rèn)識還較為有 限,因此,大型天文望遠(yuǎn)鏡巡天的任務(wù)之一就是發(fā)現(xiàn)一些新的、特殊的天體。特殊天體的發(fā) 現(xiàn)對于人類了解宇宙演變規(guī)律具有重要意義。目前,常見特殊天體發(fā)現(xiàn)方法的基本思想是 利用智能分類算法對離群數(shù)據(jù)進(jìn)行處理和分析。離群數(shù)據(jù)是指不滿足其他數(shù)據(jù)的一般規(guī)律 或分布性狀,與已有數(shù)據(jù)不一致的數(shù)據(jù)。與一般數(shù)據(jù)相比,離群數(shù)據(jù)包含更重要的信息,深 入挖掘運(yùn)部分?jǐn)?shù)據(jù)對于特征天體發(fā)現(xiàn)至關(guān)重要。
[0003] 近年來天體光譜數(shù)據(jù)分類方法不斷涌現(xiàn),主要包括:Autoclass基于貝葉斯理論并 采用非監(jiān)督學(xué)習(xí)算法;Starck將小波變換引入光譜分析;Gulati等采用兩層BP網(wǎng)絡(luò)實(shí)現(xiàn)恒 星光譜分類;Bailer-化nes利用多層感知神經(jīng)網(wǎng)絡(luò)和主元分析進(jìn)行恒星光譜自動分類;覃 冬梅等利用主元分析和最近鄰分類器實(shí)現(xiàn)恒星光譜自動分類;劉蓉等利用小波特征對光譜 星系進(jìn)行分類;楊金福等提出基于核技巧與覆蓋算法的光譜自動分類方法;許馨等利用核 技巧將非線性問題轉(zhuǎn)化為高維線性問題并利用線性判別分析算法進(jìn)行光譜分類;趙梅芳等 提出基于自適應(yīng)增強(qiáng)的光譜分類方法;孫±衛(wèi)等提出基于數(shù)據(jù)倉庫的星系光譜分類方法; 張懷福等利用小波包和支持向量機(jī)技術(shù)對活動天體和非天體光譜分類問題展開研究;張繼 福等提出基于約束概念格的恒星光譜數(shù)據(jù)自動分類方法;劉蓉等提出基于貝葉斯和主元分 析的光譜分類方法;李鄉(xiāng)儒等提出基于最近鄰算法的光譜分類方法;Mahdi利用自組織映射 算法進(jìn)行光譜分類;化varro等利用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行光譜分類;劉忠寶等提出基于流形判 別分析和支持向量機(jī)的恒星光譜分類方法。
[0004] 上述分類方法均能較好地完成天體光譜分類任務(wù),但它們均對離群數(shù)據(jù)不敏感, 分類性能甚至受離群點(diǎn)影響較大,因而無法完成特殊天體發(fā)現(xiàn)任務(wù)。
【發(fā)明內(nèi)容】
[0005] 為了解決現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于模糊大間隔最小球分類的恒星 光譜離群數(shù)據(jù)挖掘方法,該方法基于模糊最大間隔最小球模型(Fuzzy Large Margin and Minimum Ball Classification Model ,FLM-MBC),該模型對離群點(diǎn)較為敏感,在一定程度 上克服了已有分類方法在特殊天體發(fā)現(xiàn)方面的不足,為特殊天體發(fā)現(xiàn)研究提供了新的思 路。在該模型中,模糊技術(shù)的引入保證將樣本區(qū)別對待,運(yùn)樣便減少噪聲點(diǎn)和奇異點(diǎn)對分類 結(jié)果的影響。
[0006] 本發(fā)明為解決其技術(shù)問題所采用的技術(shù)方案是:提供了一種基于模糊大間隔最小 球分類的恒星光譜離群數(shù)據(jù)挖掘方法,包括W下步驟:
[0007] (I)對于斯隆望遠(yuǎn)鏡采集回的天體光譜數(shù)據(jù),根據(jù)每一個光譜數(shù)據(jù)的流量、峰寬和 形狀將其離散化,得到待處理的數(shù)據(jù)集;假設(shè)所述樣本集由心個一般類樣本和1112/個離群類 樣本構(gòu)成,樣本總數(shù)=mi / +m2/ ,m2 / < <mi/ ;由組/個一般類樣本組成的集合 '兩=!知_}'1),…,Cy。,,',-中X康示一般類樣本,1 y如1',y康示類別標(biāo)簽,Yi = I表示該樣 本屬于一般類;1112/個離群類樣本組成的集合石={片。,1'+.,,3^^),".,快,',乂,')!中義^表示離群 類樣本,m/+l幻'如/,yj表示類別標(biāo)簽,yj = -l,表示該樣本屬于離群類;從樣本集中隨機(jī) 選取n個樣本構(gòu)成訓(xùn)練樣本集,使訓(xùn)練樣本集中的一般類樣本和離群類樣本的數(shù)量分別為 m謝m2,比例保持為mi/m2=mi Vms/,樣本集中除其訓(xùn)練樣本集W外的樣本組成測試樣本集;
[0008] (2)利用訓(xùn)練樣本集構(gòu)建基于模糊大間隔最小球分類模型,所述基于模糊大間隔 最小球分類模型的最優(yōu)化問題為:
[0009]
[0010]
[0011]
[0012]
[0013]
[0014] 其中,C和R分別為待求的最小球的中屯、和半徑;P2為待求的最小球邊界與離群類 樣本之間的間隔;C=Ki,C2, . . .,Cn]T為待求的松弛因子;S=[S1,S2, . . .,Sn]T為模糊因子, 通過模糊隸屬度函數(shù)3(又)計算得到,31<=3(?),1<1^<]1;¥、¥1和¥2為正常數(shù),通過網(wǎng)格捜索 策略獲得;4 (Xi)為樣本X的核化形式;
[001引(3)利用Lagrangian乘子法將最優(yōu)化問題轉(zhuǎn)化為QP對偶形式,求得最小球的球屯、 C,根據(jù)球屯、C定義決策函數(shù);
[0016] (4)利用決策函數(shù)對測試樣本集中的樣本進(jìn)行類別判定,W判別測試樣本集中的 樣本屬于一般類或離群類。
[0017] 步驟(2)中,所述模糊隸屬度函數(shù)采用基于距離的隸屬度函數(shù):
[001 引
[0019] 其中,f為訓(xùn)練樣本集的類中屯、,即訓(xùn)練樣本集中所有樣本的均值,r為訓(xùn)練樣本 集的類半徑且r = max||x,.-.Y||,s為正數(shù),其取值范圍為(lo-3,lo-2),它保證s(Xl)>0。
[0020] 將基于模糊大間隔最小球分類模型的最優(yōu)化問題表示為Lagrangian函數(shù)為:
[0021]
[0022] 其中,Qi和&為拉格朗日乘子且日1>〇,&>〇;
[0023] 對1^1?,(3,0,|,〇,0)分別對1?、(3、0、|、〇和0進(jìn)行求導(dǎo)并令導(dǎo)數(shù)為〇,得到:
[0024]
[0025]
[0026]
[0027]
[002引
[0035] 其中核函數(shù)K(x,y)= 4 (X)T(J) (y)。[0036] 步驟(3)所述的決策函數(shù)為:
[0029] 將上述求導(dǎo)后得到的式子代入Lagrangian函數(shù)得到最優(yōu)化問題的QP對偶形式為:
[0030]
[0031]
[0032]
[0033]
[0034]
[0037]
[00;3 引 則樣本X是一般類,否則樣本X是離群類。
[0039] 本發(fā)明基于其技術(shù)方案所具有的有益效果在于:
[0040] (1)本發(fā)明的一種基于模糊大間隔最小球分類的恒星光譜離群數(shù)據(jù)挖掘方法,基 于模糊最大間隔最小球模型(Fuzz;y Large Margin and Minimum Ball Classification Model ,FLM-MBC),該模型對離群點(diǎn)較為敏感,在一定程度上克服了已有分類方法在特殊天 體發(fā)現(xiàn)方面的不足,為特殊天體發(fā)現(xiàn)研究提供了新的思路;
[0041] (2)本發(fā)明的一種基于模糊大間隔最小球分類的恒星光譜離群數(shù)據(jù)挖掘方法,在 FLM-MBC模型中引入了模糊技術(shù),保證將樣本區(qū)別對待,運(yùn)樣便減少噪聲點(diǎn)和奇異點(diǎn)對分類 結(jié)果的影響;
[0042] (3)本發(fā)明的一種基于模糊大間隔最小球分類的恒星光譜離群數(shù)據(jù)挖掘方法,其 模型容易利用Lagrangian乘子法將最優(yōu)化問題轉(zhuǎn)化為QP對偶形式,計算效率高;
[0043] (4)實(shí)驗對比證實(shí)本發(fā)明的一種基于模糊大間隔最小球分類的恒星光譜離群數(shù)據(jù) 挖掘方法,具有更優(yōu)的分類能力,能夠較好地完成離群數(shù)據(jù)發(fā)現(xiàn)任務(wù),并且如果兩類天體光 譜數(shù)據(jù)差異較大,本發(fā)明所提供的基于模糊大間隔最小球分類的恒星光譜離群數(shù)據(jù)挖掘方 法的識別率結(jié)果更優(yōu),說明本發(fā)明所提供的方法在特殊天體方面的優(yōu)越性。
【具體實(shí)施方式】
[0044] 下面結(jié)合實(shí)施例對本發(fā)明作進(jìn)一步說明。
[0045] 本發(fā)明的基于模糊大間隔最小球分類的恒星光譜離群數(shù)據(jù)挖掘方法原理為:
[0046] 本發(fā)明采用了支持向量數(shù)據(jù)描述(Suppo;rt Vector Data Description,SVDD), SVDD是一種常見的新穎檢測方法,其目標(biāo)是找到一個Wc為球屯、,R為半徑的球狀模型。建立 該球狀模型的關(guān)鍵是確定其球屯、和半徑,它們可由如下最優(yōu)化問題求得:
[0047] 線性形式:
[004引 minR2 (1)
[0049] s.t. Mc-Xil |2<r2 i = l,...,N (2)
[0050 ]其中C和R分別為最小包含球的球屯、和半徑。
[0化1]非線性形式:
[0052] minR2
[005;3]:從' Il 亡-堿本I[2各化2 = ?,斯 (3)
[0054] 其中財日抑如分別表示樣本數(shù)和原始空間到高維空間的映射函數(shù)。
[0055] 上述優(yōu)化問題的對偶形式如下:
[0056] max a' diag{K)-a' Ka (4) a
[0057] s.t. 〇了1 = 1,〇>0 (5)
[0化引其中a=[ai,. . .,aN]T,l = [l,. . .,^T,核函數(shù)欠'=[成、-.,、-,)] =[切y.)'特,Q二
[0,...,0]T。
[0059] 本發(fā)明采用了模糊技術(shù),模糊技術(shù)用于處理不精確或不確定性信息,模糊技術(shù)將 某特征屬于某集合的程度由0和1之間的隸屬度來表示,常用的隸屬度函數(shù)有:
[0060] (1)基于距離的隸屬度函數(shù):
[0061 ]占知) = 1-Il 龍廣Il.+省 r
[0062] 其中,I為類中屯、,r為類半徑且r =助P ik -引i,S為很小的正數(shù),其取值范圍為 (1〇-3,1〇-2),它保證 s(Xi)>0。
[0063] (2)基于緊密度的隸屬度函數(shù):
[0064]
[0065] 其中,S+ =助fx [I A -杰+ y和貨-=mpc Il疋-把Il分別表示兩類半徑,棄+和更分別 表示兩類中屯、,r =Ii杰+-把Il表示兩類中屯、間距,巧HU:-是Il和。r =Ik -毛I(xiàn)l分別表示 各樣本到其類中屯、的距離,e為半徑控制因子,e>0,S為很小的正數(shù),其取值范圍為(l(r3, 10-2),它保證皆>0且也>0。
[0066] 為了解決傳統(tǒng)分類方法無法解決的離群樣本發(fā)現(xiàn)問題,本發(fā)明提出了模糊大間隔 最小球分類模型FLM-MBC,該模型的基本思想是首先利用部分一般類樣本和離群類樣本構(gòu) 建最小球模型;然后,為了減小錯分離群類樣本的可能性,特將最小球邊界與離群類樣本之 間的間隔最大化;最后,通過引入模糊技術(shù),使得FLM-MBC將樣本區(qū)別對待,從而少噪聲對分 類結(jié)果的影響。
[0067] 基于上述原理,本發(fā)明提供的一種基于模糊大間隔最小球分類的恒星光譜離群數(shù) 據(jù)挖掘方法,包括W下步驟:
[0068] (1)對于斯隆望遠(yuǎn)鏡采集回的天體光譜數(shù)據(jù),根據(jù)每一個光譜數(shù)據(jù)的流量、峰寬和 形狀將其離散化,得到待處理的數(shù)據(jù)集;假設(shè)所述樣本集由心個一般類樣本和1112/個離群類 樣本構(gòu)成,樣本總數(shù)=m/+1112/,一般情況下,離群類樣本數(shù)遠(yuǎn)小于一般類樣本數(shù),則< <m/,由m/個一般類樣本組成的集合=化Yi