亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于不確定數(shù)據(jù)集的離群檢測(cè)方法

文檔序號(hào):9616499閱讀:265來源:國(guó)知局
一種基于不確定數(shù)據(jù)集的離群檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及離群數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別涉及一種基于不確定數(shù)據(jù)集的離群檢測(cè) 方法。
【背景技術(shù)】
[0002] 離群數(shù)據(jù)挖掘技術(shù)是目前數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)之一,目前已有的離群數(shù)據(jù)挖 掘主要基于距離或最近鄰概念進(jìn)行的確定離群挖掘,隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的廣泛普 及,大量的不確定數(shù)據(jù)在金融和經(jīng)濟(jì)分析、電子通信、現(xiàn)代物流等不同領(lǐng)域廣泛應(yīng)用,數(shù)據(jù) 本身的不確定性,難以準(zhǔn)確判斷數(shù)據(jù)是否異常,導(dǎo)致難以給出確切的離群數(shù)據(jù)。在不確定的 數(shù)據(jù)集,即使一個(gè)數(shù)據(jù)對(duì)象本身并不像是一個(gè)離群點(diǎn),但如果它的不確定程度非常高,這個(gè) 數(shù)據(jù)也很可能會(huì)被懷疑是異常的。因此基于不確定數(shù)據(jù)集的離群檢測(cè),需要確定每個(gè)數(shù)據(jù) 的不確定程度即離群度。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明為了解決現(xiàn)有技術(shù)中存在的上述缺陷和不足,提供了一種基于不確定數(shù)據(jù) 集的離群檢測(cè)方法,該方法可以有效地從不確定數(shù)據(jù)集中發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù),確 定每個(gè)數(shù)據(jù)的離群度,可以廣泛應(yīng)用于金融和經(jīng)濟(jì)分析、電子通信、現(xiàn)代物流等領(lǐng)域。
[0004] 為解決上述技術(shù)問題,本發(fā)明提供一種基于不確定數(shù)據(jù)集的離群檢測(cè)方法,包括 以下步驟:。
[0005] 步驟一,)計(jì)算不確定數(shù)據(jù)集D中每個(gè)數(shù)據(jù)點(diǎn)〇的k距離和k距離鄰域;
[0006] 步驟二,計(jì)算k距離鄰域中數(shù)據(jù)點(diǎn)q成為數(shù)據(jù)點(diǎn)〇的近鄰的概率;
[0007] 步驟三,計(jì)算k距離鄰域中每個(gè)數(shù)據(jù)點(diǎn)q到數(shù)據(jù)點(diǎn)〇的可達(dá)距離和概率密度函數(shù);
[0008] 步驟四,計(jì)算每個(gè)數(shù)據(jù)點(diǎn)〇的可達(dá)密度;
[0009] 步驟五,計(jì)算每個(gè)數(shù)據(jù)點(diǎn)〇的離群因子,確定離群點(diǎn)。
[0010] 其中,所述步驟一包括以下步驟:
[0011] 1-1)形式化數(shù)據(jù)集;
[0012] 不確定數(shù)據(jù)集D表示為D={od〇2, . . .Oi. . .,οη},η表示不確定數(shù)據(jù)集D大小,其 中%表示數(shù)據(jù)集中的一個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)有d個(gè)維度,即d個(gè)屬性值每個(gè)屬性〇/都 關(guān)聯(lián)一個(gè)概率密度函數(shù)fV( ·)和累加分布函數(shù)F? ( ·),則數(shù)據(jù)點(diǎn)〇1表示為:
[0013]
[0014] 1-2)確定數(shù)據(jù)點(diǎn)〇的k距離k_dist_ε(〇);
[0015] k距離表示不確定數(shù)據(jù)集D中,對(duì)應(yīng)每個(gè)數(shù)據(jù)點(diǎn)〇的最小距離值,在k距離范 圍內(nèi)存在至少k個(gè)最近鄰居的概率不小于ε,記為k_dist_e (〇),其中k為正整數(shù), εe(〇, 1];
[0016] 1-3)定義數(shù)據(jù)點(diǎn)〇的k距離鄰域Nkdlst_E (ο);
[0017] k距離鄰域表示在不確定數(shù)據(jù)集D中,與數(shù)據(jù)點(diǎn)〇的最小距離小于k_dist_ε(ο) 的點(diǎn)的集合,表不為Nk_dist_E(o):
[0018] Nk-dist-E (〇) = {q|min_dist(q,〇) <k_dist_ε(〇)},
[0019] 其中min_dist(q,o)表示k距離鄰域中數(shù)據(jù)點(diǎn)q的分布范圍與數(shù)據(jù)點(diǎn)o的分布范 圍的最小間隔;
[0020] 1-4)采用迭代算法計(jì)算k距離k_dist_ε(〇):
[0021] 令Pc](k_d)表示數(shù)據(jù)點(diǎn)〇在距離k_de(〇,R_]范圍內(nèi)至少有k個(gè)鄰域的概率,當(dāng) k_d=k_dist_e時(shí),pJLd) =ε;Rmax表示不確定數(shù)據(jù)集中兩個(gè)數(shù)據(jù)點(diǎn)之間的最大距離;
[0022]a)初始化:
[0023] 不確定數(shù)據(jù)集中兩個(gè)數(shù)據(jù)點(diǎn)〇之間的最小距離為0,用low表示,不確定數(shù)據(jù)集中 兩個(gè)數(shù)據(jù)點(diǎn)〇之間的最大距離為R_,用up表示,因此,確定不確定數(shù)據(jù)集中兩個(gè)數(shù)據(jù)點(diǎn)之 間的距離k_d取值范圍為(low,up],取中間值作為k_d的初始值,即k_d= (low+up) /2,并 設(shè)定k距離鄰域Nk_dlst_E (ο)初始值為空集Φ,具體表示如下:
[0024] Nkdist_E (ο) =Φ;low= 0;up=Rmax;k_d= (low+up)/2
[0025] b)計(jì)算k距離k_dist_ε(〇):
[0026] 當(dāng) |p〇(k_d) -ε| 彡δ時(shí),若pJLd) <ε,則low=k_d,否則up=k_d;令k_d =(low+up)/2,直到 |口。〇^_(1)-£ | <δ成立,可以得出k_dist_e(〇) =k_d;
[0027] c)計(jì)算k距離鄰域Nkdlst_E (ο):
[0028]令DS4
[0029] 對(duì)于不確定數(shù)據(jù)集中除數(shù)據(jù)點(diǎn)o外任意數(shù)據(jù)點(diǎn)p,若滿足條件max_dist(p,o) <k_dist_e(〇),則Nk_dist_E(o) =Nk_dist_E(o)U{p},即表示把p插入到k距離鄰域隊(duì)_-_ E (ο),其中,max_dist(p,o)表示k距離鄰域中數(shù)據(jù)點(diǎn)p的分布范圍與數(shù)據(jù)點(diǎn)o的分布范圍 的最大間隔。
[0030] 所述步驟二中,計(jì)算k距離鄰域中數(shù)據(jù)點(diǎn)q成為數(shù)據(jù)點(diǎn)〇的近鄰的概率Pjq),具 體計(jì)算過程如下:
[0031] 若q和〇之間的最小距離min_dist(q, 〇)大于k距離k_dist_ε(〇),則Ρ? = 〇 ;
[0032] 若q和〇之間的最大距離max_dist(q, 〇)小于k距離k_dist_ε(〇),則P。(q)= 1 ;
[0033] 若口和ο之間的最大距離max_dist(q,ο)大于k距離k_dist_ε(〇),且口和〇之間 的最小距離min_dist(q,o)小于k距離k_dis_te(〇),則Pjq) =FC],q(k_dis_te),F(xiàn)C],q(k_ dist_ε)為〇,q的累加分布函數(shù);
[0034] 具體表不為:
[00351
[0036] 所述步驟三包括以下步驟:
[0037] 3-1)計(jì)算概率密度函數(shù)fcU
[0038] 任意兩個(gè)不同的數(shù)據(jù)點(diǎn)〇,qeD,之間有m*m個(gè)不同的距離值,把m*m個(gè)距離值按 照從小到大的順序排列,并劃分等寬區(qū)間,統(tǒng)計(jì)每個(gè)區(qū)間包含的距離值個(gè)數(shù),用最小二乘法 擬合多項(xiàng)式P〇lF(.)表示距離值的分布函數(shù)FD(rcJ,具體表示為:
[0039]
[0040] 通過FD(rcJ在距離r上求導(dǎo),得到距離的概率密度函數(shù)fd^
[0041 ] 3-2)計(jì)算各數(shù)據(jù)點(diǎn)的可達(dá)距離RDk_dlst_E (〇,q),具體過程如下:
[0042]
[0043]其中,r為數(shù)據(jù)點(diǎn)〇,q之間的距離。
[0044] 所述步驟四中,計(jì)算數(shù)據(jù)點(diǎn)的可達(dá)密度lrdk(〇),計(jì)算公式如下:
[0045]
[0046] 其中RDkdlst_E (〇,q)為數(shù)據(jù)點(diǎn)的可達(dá)距離,Pjq)為k距離鄰域中數(shù)據(jù)點(diǎn)q成為數(shù) 據(jù)點(diǎn)〇的近鄰的概率P。(q)。
[0047] 所述步驟五中,計(jì)算各數(shù)據(jù)點(diǎn)〇的離群因子;
[0048] 不確定數(shù)據(jù)集D中的每個(gè)數(shù)據(jù)點(diǎn)〇通過概率的方式表示離群程度,具體計(jì)算公式 如下:
[0049]
[0050] 其中,L0Fk(o)表示每個(gè)數(shù)據(jù)點(diǎn)〇的離群程度,給定默認(rèn)離群度σ,σ由用戶確定, 如果L0Fk(o) >σ,則數(shù)據(jù)點(diǎn)〇為離群點(diǎn)。
[0051] 本發(fā)明所達(dá)到的有益技術(shù)效果:本發(fā)明提供的基于不確定數(shù)據(jù)集的離群數(shù)據(jù)的檢 測(cè)方法,可以有效地從不確定數(shù)據(jù)集中發(fā)現(xiàn)隱藏在其中的離群數(shù)據(jù),確定每個(gè)數(shù)據(jù)的離群 度,可以廣泛應(yīng)用于金融和經(jīng)濟(jì)分析、電子通信、現(xiàn)代物流等領(lǐng)域。
【附圖說明】
[0052] 圖1本發(fā)明的流程示意圖。
【具體實(shí)施方式】
[0053] 為了能更好的了解本發(fā)明的技術(shù)特征、技術(shù)內(nèi)容及其達(dá)到的技術(shù)效果,現(xiàn)將本發(fā) 明的附圖結(jié)合實(shí)施例進(jìn)行更詳細(xì)的說明。
[0054] 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明專利進(jìn)一步說明。
[0055] 如圖1所示,本發(fā)明提供一種基于不確定數(shù)據(jù)集的離群檢測(cè)方法,包括以下步 驟:。
[0056] 步驟一,)計(jì)算不確定數(shù)據(jù)集D中每個(gè)數(shù)據(jù)點(diǎn)〇的k距離和k距離鄰域,具體計(jì)算 過程如下:
[0057] 1-1)形式化數(shù)據(jù)集;
[0058] 不確定數(shù)據(jù)集D表示為D= {c^,〇2, · · · 〇;· · ·,οη},η表示不確定數(shù)據(jù)集D大小,其 中%表示數(shù)據(jù)集中的一個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)有d個(gè)維度,即d個(gè)屬性值《/,每個(gè)屬性〇/都 關(guān)聯(lián)一個(gè)概率密度函數(shù)fV( ·)和累加分布函數(shù)F? ( ·),則數(shù)據(jù)點(diǎn)〇1表示為:
[0059]
[0060] 1-2)確定數(shù)據(jù)點(diǎn)〇的k距離k_dist_ε(〇);
[0061] k距離表示不確定數(shù)據(jù)集D中,對(duì)應(yīng)每個(gè)數(shù)據(jù)點(diǎn)〇的最小距離值,在k距離范 圍內(nèi)存在至少k個(gè)最近鄰居的概率不小于ε,記為k_dist_e(〇),其中k為正整數(shù), εe(〇, 1];
[0062]1-3)定義數(shù)據(jù)點(diǎn)〇的k距離鄰域Nkdlst_E(ο);
[0063] k距離鄰域表示在不確定數(shù)據(jù)集D中,與數(shù)據(jù)點(diǎn)〇的最小距離小于k_dist_ε(ο) 的點(diǎn)的集合,表不為Nk_dist_E(o):
[0064] Nk-dist-E (〇) = {q|min_dist(q,〇) <k_dist_ε(〇)},
[0065] 其中min_dist(q,o)表示k距離鄰域中數(shù)據(jù)點(diǎn)q的分布范圍與數(shù)據(jù)點(diǎn)o的分布范 圍的最小間隔;
[0066]1-4)采用迭代算法計(jì)算k距離k_dist_ε(〇):
[0067] 令p。(k_d)表示數(shù)據(jù)點(diǎn)〇在距離k_de(〇,R_]范圍內(nèi)至少有k個(gè)鄰域的概率,當(dāng) k_d=k_dist_e時(shí),pJLd)=ε;Rmax表示不確定數(shù)據(jù)集中兩個(gè)數(shù)據(jù)點(diǎn)之間的最大距離;
[0068] a)初始化:
[0069] 不確定數(shù)據(jù)集中兩個(gè)數(shù)據(jù)點(diǎn)〇之間的最小距離為0,用low表示,不確定數(shù)據(jù)集中 兩個(gè)數(shù)據(jù)點(diǎn)〇之間的最大
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1