亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法

文檔序號(hào):6636248閱讀:366來(lái)源:國(guó)知局
一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法
【專利摘要】本發(fā)明公開(kāi)了一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法,屬于數(shù)據(jù)挖掘技術(shù),包括如下步驟:(1)、離群數(shù)據(jù)挖掘;(2)、離群數(shù)據(jù)聚類:將離群數(shù)據(jù)分配到不同的簇中;(3)、成簇極稀少離群數(shù)據(jù)的篩選:篩選的依據(jù)為簇中樣本個(gè)數(shù)小于閾值T1;所有簇中的極稀少離群數(shù)據(jù)組成的數(shù)據(jù)集記為C1;(4)、離群數(shù)據(jù)成團(tuán)性特征分析及簇中極稀少數(shù)據(jù)的篩選:利用可視化手段輔助分析聚到同簇中的離群數(shù)據(jù),得到其共性特征即成團(tuán)性特征,進(jìn)而分析其異常特征產(chǎn)生的原因;(5)、極稀少離群數(shù)據(jù)的分析。本發(fā)明針對(duì)大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)分析的目的和存在的問(wèn)題,結(jié)合可視化、模式識(shí)別及數(shù)據(jù)挖掘相關(guān)方法,對(duì)大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)進(jìn)行有效的分析。
【專利說(shuō)明】一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種數(shù)據(jù)挖掘技術(shù),具體地說(shuō)是一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方 法。

【背景技術(shù)】
[0002] 離群數(shù)據(jù)是指在大量數(shù)據(jù)存在的一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)。離 群數(shù)據(jù)的產(chǎn)生一般認(rèn)為有兩種原因: (1)、度量或執(zhí)行錯(cuò)誤所導(dǎo)致:對(duì)這類型離群數(shù)據(jù)的篩選,可以從大量數(shù)據(jù)中篩選出雜 質(zhì)或存在問(wèn)題的數(shù)據(jù),進(jìn)而提高數(shù)據(jù)的總體質(zhì)量。
[0003] (2)、固有的數(shù)據(jù)變異性的結(jié)果:這類型數(shù)據(jù)的客觀存在決定了對(duì)該類型離群數(shù)據(jù) 篩選的重要性。例如在科研數(shù)據(jù)發(fā)現(xiàn)客觀存在的一些未知的離群數(shù)據(jù),可以很好的提高相 關(guān)理論的研究。
[0004] 利用離群數(shù)據(jù)檢測(cè),不僅可以用來(lái)在分類、聚類及回歸等其它應(yīng)用中排除樣本中 的雜質(zhì)數(shù)據(jù),而且可以發(fā)現(xiàn)在大樣本數(shù)據(jù)中存在的一些分布比較少的特殊樣本數(shù)據(jù)。對(duì)大 規(guī)模數(shù)據(jù)集篩選出的離群數(shù)據(jù)進(jìn)行有效的分析,一方面要得到相對(duì)普遍的異常數(shù)據(jù)特征并 進(jìn)行分析,另外一方面要在其中篩選出相對(duì)非常稀少的離群數(shù)據(jù)。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法的技術(shù)任務(wù)是提供一種針對(duì)大規(guī) 模數(shù)據(jù)中離群數(shù)據(jù)分析的目的和存在的問(wèn)題,結(jié)合可視化、模式識(shí)別及數(shù)據(jù)挖掘相關(guān)方法, 對(duì)大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)進(jìn)行有效的分析。
[0006] 本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的: 一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法,包括如下步驟: (1) 、離群數(shù)據(jù)挖掘:從大規(guī)模數(shù)據(jù)中篩選出其中的離群數(shù)據(jù); 本發(fā)明提出的方法是在此步驟基礎(chǔ)上對(duì)篩選出來(lái)的離群數(shù)據(jù)進(jìn)行分析,進(jìn)而發(fā)現(xiàn)離群 數(shù)據(jù)中的成團(tuán)性及其中的極稀少離群數(shù)據(jù);需要注意的是,數(shù)據(jù)特征的選取及挖掘方法的 不同會(huì)導(dǎo)致挖掘出來(lái)離群數(shù)據(jù)有所不同; (2) 、離群數(shù)據(jù)聚類:該步驟的目的是對(duì)步驟(1)篩選出來(lái)的離群數(shù)據(jù)進(jìn)行聚類,將離 群數(shù)據(jù)分配到不同的簇中,簇中的離群數(shù)據(jù)更為相似且不同簇中的離群數(shù)據(jù)的差別比較 大; (3) 、成簇極稀少離群數(shù)據(jù)的篩選:成簇極稀少離群數(shù)據(jù)為聚類過(guò)程中聚集到規(guī)模極 小的簇中的離群數(shù)據(jù);這些數(shù)據(jù)為位于特征空間外圍,明顯偏離所有數(shù)據(jù)的全局離群數(shù)據(jù); 篩選的依據(jù)為簇中樣本個(gè)數(shù)小于閾值Tl ;所有簇中的極稀少離群數(shù)據(jù)組成的數(shù)據(jù)集記為 Cl ; (4) 、離群數(shù)據(jù)成團(tuán)性特征分析及簇中極稀少數(shù)據(jù)的篩選:在數(shù)據(jù)規(guī)模比較大的情況 下,離群數(shù)據(jù)也會(huì)出現(xiàn)一定的成團(tuán)性,對(duì)成團(tuán)性質(zhì)的分析將有助于理解離群數(shù)據(jù)的特征特 性以及產(chǎn)生的可能原因;成團(tuán)性特征分析的目的是利用可視化手段輔助分析聚到同簇中的 離群數(shù)據(jù),得到其共性特征即成團(tuán)性特征,進(jìn)而分析其異常特征產(chǎn)生的原因;該步驟同時(shí)會(huì) 篩選出隱藏簇中的極稀少離群數(shù)據(jù); (5)、極稀少離群數(shù)據(jù)的分析:極稀少離群數(shù)據(jù)定義為在篩選出的離群數(shù)據(jù)中仍然數(shù)量 相對(duì)較少的一類數(shù)據(jù)。隨著數(shù)據(jù)規(guī)模的增加,越有希望發(fā)現(xiàn)這類數(shù)據(jù);由于數(shù)據(jù)量的稀少, 對(duì)于此類數(shù)據(jù)的搜尋就變的尤為重要;極端情況下,一個(gè)極稀少離群數(shù)據(jù)的發(fā)現(xiàn)對(duì)于某些 科學(xué)研究及工程都具有及其重要的意義。
[0007] 設(shè)計(jì)結(jié)構(gòu)包括:離群成團(tuán)分析、極稀少數(shù)據(jù)的搜尋、離群數(shù)據(jù)的可視化分析;對(duì)大 規(guī)模數(shù)據(jù)中離群數(shù)據(jù)進(jìn)行樣本分組、樣本約減、模板生成、模板篩選類別標(biāo)記五個(gè)階段的分 析;篩選完離群數(shù)據(jù)之后,首先將所有離群數(shù)據(jù)進(jìn)行無(wú)監(jiān)督分類;選取樣本數(shù)量小于一定 數(shù)量的簇中對(duì)應(yīng)的樣本作為候選樣本集一;對(duì)每個(gè)簇的簇心數(shù)據(jù)及其中的樣本數(shù)據(jù)進(jìn)行分 析,進(jìn)而分析得到該簇中離群數(shù)據(jù)普遍存在的異常特征;對(duì)簇中的所有樣本數(shù)據(jù)計(jì)算局部 孤立性因子,然后選取簇中因子較大的樣本作為候選樣本集二;候選樣本集一和候選樣本 集二都是所有樣本中分布非常稀少的樣本,繼續(xù)采用可視化分析方法對(duì)著兩個(gè)樣本集進(jìn)行 進(jìn)一步分析。
[0008] 步驟(2)中,按照以下步驟對(duì)離群數(shù)據(jù)進(jìn)行聚類: ① 、假設(shè)篩選出來(lái)的離群數(shù)據(jù)集為,其中η為離群數(shù)據(jù)的個(gè)數(shù),m為數(shù)據(jù)的特征 數(shù)即維度; ② 、計(jì)算數(shù)據(jù)中每一維度的均值及標(biāo)準(zhǔn)差,分別記為和; ③ 、對(duì)于維度i,排除其中及Jef < 的數(shù)據(jù),重新計(jì) 算_8111^和#?4,迭代此過(guò)程,直到和SM11數(shù)值收斂; ④ 、對(duì)D中每一維度進(jìn)行歸一化得到_〇·,公式如下Ws = Pi ; ⑤ 、采用k均值算法對(duì)所有離群數(shù)據(jù)按照進(jìn)行,其中簇的個(gè)數(shù)k選取為2石; 通過(guò)以上迭代過(guò)程,所有的離群數(shù)據(jù)都會(huì)被分配至唯一的簇中。
[0009] 步驟(4)針對(duì)步驟(3)篩選完剩余的簇,其方法及策略描述如下: ① 、假設(shè)簇中篩選出來(lái)的離群數(shù)據(jù)集為,其中nl為簇中離群數(shù)據(jù)的個(gè)數(shù); ② 、計(jì)算數(shù)據(jù)集Ifc的局部孤立性因子LOF (Local outlier factor),記為; ③ 、計(jì)算L的均值及標(biāo)準(zhǔn)差,分別記為m和s ; ④ 、篩選簇中局部孤立性因子iSrm.+2s對(duì)應(yīng)的樣本,將這些樣本加入數(shù)據(jù)集C2 ; ⑤ 、計(jì)算Dc中剩余數(shù)據(jù)每個(gè)維度的均值與標(biāo)準(zhǔn)差,分別記為和
[0010] 步驟(5)中,極稀少離群數(shù)據(jù)的分析通過(guò)雷達(dá)圖的形式來(lái)可視化分析。
[0011] 本發(fā)明的一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法具有以下優(yōu)點(diǎn):針對(duì)大規(guī)模數(shù)據(jù) 中離群數(shù)據(jù)分析的目的和存在的問(wèn)題,結(jié)合可視化、模式識(shí)別及數(shù)據(jù)挖掘相關(guān)方法,對(duì)大規(guī) 模數(shù)據(jù)中離群數(shù)據(jù)進(jìn)行有效的分析。

【專利附圖】

【附圖說(shuō)明】
[0012] 下面結(jié)合附圖對(duì)本發(fā)明進(jìn)一步說(shuō)明。
[0013] 附圖1為一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法的流程圖; 附圖2為一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法的離群數(shù)據(jù)成團(tuán)性特征分析示意圖; 附圖3為一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法的極稀少離群數(shù)據(jù)特征分析示意圖。

【具體實(shí)施方式】
[0014] 參照說(shuō)明書(shū)附圖和具體實(shí)施例對(duì)本發(fā)明的一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方 法作以下詳細(xì)地說(shuō)明。
[0015] 實(shí)施例1 : 本發(fā)明的一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法,包括如下步驟: (1) 、離群數(shù)據(jù)挖掘:從大規(guī)模數(shù)據(jù)中篩選出其中的離群數(shù)據(jù); 本發(fā)明提出的方法是在此步驟基礎(chǔ)上對(duì)篩選出來(lái)的離群數(shù)據(jù)進(jìn)行分析,進(jìn)而發(fā)現(xiàn)離群 數(shù)據(jù)中的成團(tuán)性及其中的極稀少離群數(shù)據(jù);需要注意的是,數(shù)據(jù)特征的選取及挖掘方法的 不同會(huì)導(dǎo)致挖掘出來(lái)離群數(shù)據(jù)有所不同; (2) 、離群數(shù)據(jù)聚類:該步驟的目的是對(duì)步驟(1)篩選出來(lái)的離群數(shù)據(jù)進(jìn)行聚類,將離 群數(shù)據(jù)分配到不同的簇中,簇中的離群數(shù)據(jù)更為相似且不同簇中的離群數(shù)據(jù)的差別比較 大; (3) 、成簇極稀少離群數(shù)據(jù)的篩選:成簇極稀少離群數(shù)據(jù)為聚類過(guò)程中聚集到規(guī)模極 小的簇中的離群數(shù)據(jù);這些數(shù)據(jù)為位于特征空間外圍,明顯偏離所有數(shù)據(jù)的全局離群數(shù)據(jù); 篩選的依據(jù)為簇中樣本個(gè)數(shù)小于閾值Tl ;所有簇中的極稀少離群數(shù)據(jù)組成的數(shù)據(jù)集記為 Cl ; (4) 、離群數(shù)據(jù)成團(tuán)性特征分析及簇中極稀少數(shù)據(jù)的篩選:在數(shù)據(jù)規(guī)模比較大的情況 下,離群數(shù)據(jù)也會(huì)出現(xiàn)一定的成團(tuán)性,對(duì)成團(tuán)性質(zhì)的分析將有助于理解離群數(shù)據(jù)的特征特 性以及產(chǎn)生的可能原因;成團(tuán)性特征分析的目的是利用可視化手段輔助分析聚到同簇中的 離群數(shù)據(jù),得到其共性特征即成團(tuán)性特征,進(jìn)而分析其異常特征產(chǎn)生的原因;該步驟同時(shí)會(huì) 篩選出隱藏簇中的極稀少離群數(shù)據(jù); (5) 、極稀少離群數(shù)據(jù)的分析:極稀少離群數(shù)據(jù)定義為在篩選出的離群數(shù)據(jù)中仍然數(shù)量 相對(duì)較少的一類數(shù)據(jù)。隨著數(shù)據(jù)規(guī)模的增加,越有希望發(fā)現(xiàn)這類數(shù)據(jù);由于數(shù)據(jù)量的稀少, 對(duì)于此類數(shù)據(jù)的搜尋就變的尤為重要;極端情況下,一個(gè)極稀少離群數(shù)據(jù)的發(fā)現(xiàn)對(duì)于某些 科學(xué)研究及工程都具有及其重要的意義。
[0016] 實(shí)施例2: 本發(fā)明的一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法,包括如下步驟: (1) 、離群數(shù)據(jù)挖掘:從大規(guī)模數(shù)據(jù)中篩選出其中的離群數(shù)據(jù); 本發(fā)明提出的方法是在此步驟基礎(chǔ)上對(duì)篩選出來(lái)的離群數(shù)據(jù)進(jìn)行分析,進(jìn)而發(fā)現(xiàn)離群 數(shù)據(jù)中的成團(tuán)性及其中的極稀少離群數(shù)據(jù);需要注意的是,數(shù)據(jù)特征的選取及挖掘方法的 不同會(huì)導(dǎo)致挖掘出來(lái)離群數(shù)據(jù)有所不同; (2) 、離群數(shù)據(jù)聚類:該步驟的目的是對(duì)步驟(1)篩選出來(lái)的離群數(shù)據(jù)進(jìn)行聚類,將離 群數(shù)據(jù)分配到不同的簇中,簇中的離群數(shù)據(jù)更為相似且不同簇中的離群數(shù)據(jù)的差別比較 大; (3) 、成簇極稀少離群數(shù)據(jù)的篩選:成簇極稀少離群數(shù)據(jù)為聚類過(guò)程中聚集到規(guī)模極 小的簇中的離群數(shù)據(jù);這些數(shù)據(jù)為位于特征空間外圍,明顯偏離所有數(shù)據(jù)的全局離群數(shù)據(jù); 篩選的依據(jù)為簇中樣本個(gè)數(shù)小于閾值Tl ;所有簇中的極稀少離群數(shù)據(jù)組成的數(shù)據(jù)集記為 Cl ; (4) 、離群數(shù)據(jù)成團(tuán)性特征分析及簇中極稀少數(shù)據(jù)的篩選:在數(shù)據(jù)規(guī)模比較大的情況 下,離群數(shù)據(jù)也會(huì)出現(xiàn)一定的成團(tuán)性,對(duì)成團(tuán)性質(zhì)的分析將有助于理解離群數(shù)據(jù)的特征特 性以及產(chǎn)生的可能原因;成團(tuán)性特征分析的目的是利用可視化手段輔助分析聚到同簇中的 離群數(shù)據(jù),得到其共性特征即成團(tuán)性特征,進(jìn)而分析其異常特征產(chǎn)生的原因;該步驟同時(shí)會(huì) 篩選出隱藏簇中的極稀少離群數(shù)據(jù); (5) 、極稀少離群數(shù)據(jù)的分析:極稀少離群數(shù)據(jù)定義為在篩選出的離群數(shù)據(jù)中仍然數(shù)量 相對(duì)較少的一類數(shù)據(jù)。隨著數(shù)據(jù)規(guī)模的增加,越有希望發(fā)現(xiàn)這類數(shù)據(jù);由于數(shù)據(jù)量的稀少, 對(duì)于此類數(shù)據(jù)的搜尋就變的尤為重要;極端情況下,一個(gè)極稀少離群數(shù)據(jù)的發(fā)現(xiàn)對(duì)于某些 科學(xué)研究及工程都具有及其重要的意義。
[0017] 設(shè)計(jì)結(jié)構(gòu)包括:離群成團(tuán)分析、極稀少數(shù)據(jù)的搜尋、離群數(shù)據(jù)的可視化分析;對(duì)大 規(guī)模數(shù)據(jù)中離群數(shù)據(jù)進(jìn)行樣本分組、樣本約減、模板生成、模板篩選類別標(biāo)記五個(gè)階段的分 析;篩選完離群數(shù)據(jù)之后,首先將所有離群數(shù)據(jù)進(jìn)行無(wú)監(jiān)督分類;選取樣本數(shù)量小于一定 數(shù)量的簇中對(duì)應(yīng)的樣本作為候選樣本集一;對(duì)每個(gè)簇的簇心數(shù)據(jù)及其中的樣本數(shù)據(jù)進(jìn)行分 析,進(jìn)而分析得到該簇中離群數(shù)據(jù)普遍存在的異常特征;對(duì)簇中的所有樣本數(shù)據(jù)計(jì)算局部 孤立性因子,然后選取簇中因子較大的樣本作為候選樣本集二;候選樣本集一和候選樣本 集二都是所有樣本中分布非常稀少的樣本,繼續(xù)采用可視化分析方法對(duì)著兩個(gè)樣本集進(jìn)行 進(jìn)一步分析。
[0018] 步驟(2)中,按照以下步驟對(duì)離群數(shù)據(jù)進(jìn)行聚類: ① 、假設(shè)篩選出來(lái)的離群數(shù)據(jù)集為,其中η為離群數(shù)據(jù)的個(gè)數(shù),m為數(shù)據(jù)的特征 數(shù)即維度; ② 、計(jì)算數(shù)據(jù)中每一維度的均值及標(biāo)準(zhǔn)差,分別記為和; ③ 、對(duì)于維度i,排除其中+ Jsior1-及Jef < 的數(shù)據(jù),重新計(jì) 算和Jrfefe,迭代此過(guò)程,直到和Slrf e數(shù)值收斂; ④ 、對(duì)D中每一維度進(jìn)行歸一化得到_〇·,公式如下:-"?anp/jrfrfj-; ⑤ 、采用k均值算法對(duì)所有離群數(shù)據(jù)按照ir進(jìn)行,其中簇的個(gè)數(shù)k選取為2·^ ; 通過(guò)以上迭代過(guò)程,所有的離群數(shù)據(jù)都會(huì)被分配至唯一的簇中。
[0019] 步驟(4)針對(duì)步驟(3)篩選完剩余的簇,其方法及策略描述如下: ① 、假設(shè)簇中篩選出來(lái)的離群數(shù)據(jù)集為Ahpm,其中nl為簇中離群數(shù)據(jù)的個(gè)數(shù); ② 、計(jì)算數(shù)據(jù)集Ufc的局部孤立性因子LOF (Local outlier factor),記為; ③ 、計(jì)算L的均值及標(biāo)準(zhǔn)差,分別記為m和s ; ④ 、篩選簇中局部孤立性因子£>m + 2s對(duì)應(yīng)的樣本,將這些樣本加入數(shù)據(jù)集C2 ; ⑤ 、計(jì)算Dc中剩余數(shù)據(jù)每個(gè)維度的均值與標(biāo)準(zhǔn)差,分別記為IfKal和4。
[0020] 如附圖2所示,利用雷達(dá)圖進(jìn)行成團(tuán)性特征分析。圖中虛線表示原始所有樣本和 本簇中所有樣本對(duì)應(yīng)屬性的平均值,陰影區(qū)域分別表示原始所有樣本和本簇中所有樣本一 標(biāo)準(zhǔn)差取值范圍。其中,原始所有樣本在步驟(2)中進(jìn)行了歸一化,所以所有特征平均值均 為0,標(biāo)準(zhǔn)差均為1。如圖2中例子所示,雷達(dá)圖可以很好地表示出離群數(shù)據(jù)成團(tuán)性特征,利 用雷達(dá)圖可以很好的輔助分析。
[0021] 步驟(5)中,極稀少離群數(shù)據(jù)的分析通過(guò)雷達(dá)圖的形式來(lái)可視化分析,如附圖3所 /Jn 〇
[0022] 為保證流程的一致性及中間結(jié)果的可復(fù)用性,采用統(tǒng)一的開(kāi)發(fā)編程語(yǔ)言來(lái)完成。 本發(fā)明中使用的基本算法可以重新編寫(xiě),也可以采用現(xiàn)有程序包。本發(fā)明中多次使用距離 度量。距離的定義是靈活的,可以采用歐氏距離、曼哈頓距離、余弦距離等,建議實(shí)施該方法 時(shí)不同步驟間采用統(tǒng)一的距離度量方法。考慮到余弦距離計(jì)算時(shí)更簡(jiǎn)單且快速,建議使用 余弦距離。步驟(1)在實(shí)際操作時(shí),要在充分問(wèn)題需求的基礎(chǔ)上進(jìn)行特征選取和變換及挖 掘算法的選擇。步驟(2)在具體實(shí)施,也可以采取其它聚類算法。利用雷達(dá)圖可視化輔助 分析時(shí),可采用交互進(jìn)一步具體分析維度特征。實(shí)際實(shí)施時(shí),用于雷達(dá)圖分析的屬性可采用 各種方法進(jìn)行約減,可采用的方式包括交互式以及數(shù)據(jù)統(tǒng)計(jì)分析排除等。雷達(dá)圖輔助分析, 開(kāi)發(fā)程序來(lái)進(jìn)行,利用各種開(kāi)源組件chart, js等。
[0023] 通過(guò)上面【具體實(shí)施方式】,所述【技術(shù)領(lǐng)域】的技術(shù)人員可容易的實(shí)現(xiàn)本發(fā)明。但是應(yīng) 當(dāng)理解,本發(fā)明并不限于上述的2種【具體實(shí)施方式】。在公開(kāi)的實(shí)施方式的基礎(chǔ)上,所述技術(shù) 領(lǐng)域的技術(shù)人員可任意組合不同的技術(shù)特征,從而實(shí)現(xiàn)不同的技術(shù)方案。
【權(quán)利要求】
1. 一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法,其特征在于包括如下步驟: (1) 、離群數(shù)據(jù)挖掘:從大規(guī)模數(shù)據(jù)中篩選出其中的離群數(shù)據(jù); (2) 、離群數(shù)據(jù)聚類:該步驟的目的是對(duì)步驟(1)篩選出來(lái)的離群數(shù)據(jù)進(jìn)行聚類,將離 群數(shù)據(jù)分配到不同的簇中,簇中的離群數(shù)據(jù)更為相似且不同簇中的離群數(shù)據(jù)的差別比較 大; (3) 、成簇極稀少離群數(shù)據(jù)的篩選:成簇極稀少離群數(shù)據(jù)為聚類過(guò)程中聚集到規(guī)模極 小的簇中的離群數(shù)據(jù);這些數(shù)據(jù)為位于特征空間外圍,明顯偏離所有數(shù)據(jù)的全局離群數(shù)據(jù); 篩選的依據(jù)為簇中樣本個(gè)數(shù)小于閾值Tl;所有簇中的極稀少離群數(shù)據(jù)組成的數(shù)據(jù)集記為 Cl; (4) 、離群數(shù)據(jù)成團(tuán)性特征分析及簇中極稀少數(shù)據(jù)的篩選:成團(tuán)性特征分析的目的是利 用可視化手段輔助分析聚到同簇中的離群數(shù)據(jù),得到其共性特征即成團(tuán)性特征,進(jìn)而分析 其異常特征產(chǎn)生的原因;該步驟同時(shí)會(huì)篩選出隱藏簇中的極稀少離群數(shù)據(jù); (5) 、極稀少離群數(shù)據(jù)的分析:極稀少離群數(shù)據(jù)定義為在篩選出的離群數(shù)據(jù)中仍然數(shù)量 相對(duì)較少的一類數(shù)據(jù)。
2. 根據(jù)權(quán)利要求1所述的一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法,其特征在于設(shè)計(jì)結(jié) 構(gòu)包括:離群成團(tuán)分析、極稀少數(shù)據(jù)的搜尋、離群數(shù)據(jù)的可視化分析;對(duì)大規(guī)模數(shù)據(jù)中離群 數(shù)據(jù)進(jìn)行樣本分組、樣本約減、模板生成、模板篩選類別標(biāo)記五個(gè)階段的分析;篩選完離群 數(shù)據(jù)之后,首先將所有離群數(shù)據(jù)進(jìn)行無(wú)監(jiān)督分類;選取樣本數(shù)量小于一定數(shù)量的簇中對(duì)應(yīng) 的樣本作為候選樣本集一;對(duì)每個(gè)簇的簇心數(shù)據(jù)及其中的樣本數(shù)據(jù)進(jìn)行分析,進(jìn)而分析得 到該簇中離群數(shù)據(jù)普遍存在的異常特征;對(duì)簇中的所有樣本數(shù)據(jù)計(jì)算局部孤立性因子,然 后選取簇中因子較大的樣本作為候選樣本集二;候選樣本集一和候選樣本集二都是所有樣 本中分布非常稀少的樣本,繼續(xù)采用可視化分析方法對(duì)著兩個(gè)樣本集進(jìn)行進(jìn)一步分析。
3. 根據(jù)權(quán)利要求1所述的一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法,其特征在于步驟 (2)中,按照以下步驟對(duì)離群數(shù)據(jù)進(jìn)行聚類: ① 、假設(shè)篩選出來(lái)的離群數(shù)據(jù)集為,其中η為離群數(shù)據(jù)的個(gè)數(shù),m為數(shù)據(jù)的特征 vttVS. 數(shù)即維度; ② 、計(jì)算數(shù)據(jù)中每一維度的均值及標(biāo)準(zhǔn)差,分別記為和Jflrfe ; ③ 、對(duì)于維度i,排除其中Plli >JseafT1- +Jsidi及Jmi- < 的數(shù)據(jù),重新計(jì) 算_0\和JTfif11,迭代此過(guò)程,直到和Sltfll數(shù)值收斂; ④ 、對(duì)D中每一維度進(jìn)行歸一化得到,公式如下:(JV-; ⑤ 、采用k均值算法對(duì)所有離群數(shù)據(jù)按照IT進(jìn)行,其中簇的個(gè)數(shù)k選取為2^ ; 通過(guò)以上迭代過(guò)程,所有的離群數(shù)據(jù)都會(huì)被分配至唯一的簇中。
4. 根據(jù)權(quán)利要求1所述的一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法,其特征在于步驟 (4 )針對(duì)步驟(3 )篩選完剩余的簇,其方法及策略描述如下: ①、假設(shè)簇中篩選出來(lái)的離群數(shù)據(jù)集為,其中nl為簇中離群數(shù)據(jù)的個(gè)數(shù); ② 、計(jì)算數(shù)據(jù)集Uc的局部孤立性因子LOF,記為Z111 ; ③ 、計(jì)算L的均值及標(biāo)準(zhǔn)差,分別記為m和s; ④ 、篩選簇中局部孤立性因子2s對(duì)應(yīng)的樣本,將這些樣本加入數(shù)據(jù)集C2 ; ⑤ 、計(jì)算Dc中剩余數(shù)據(jù)每個(gè)維度的均值與標(biāo)準(zhǔn)差,分別記為IKk1和#。
5.根據(jù)權(quán)利要求1所述的一種大規(guī)模數(shù)據(jù)中離群數(shù)據(jù)的分析方法,其特征在于步驟 (5)中,極稀少離群數(shù)據(jù)的分析通過(guò)雷達(dá)圖的形式來(lái)可視化分析。
【文檔編號(hào)】G06F19/00GK104462802SQ201410703339
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2014年11月26日 優(yōu)先權(quán)日:2014年11月26日
【發(fā)明者】韋鵬, 吳楠, 付興旺 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1