專利名稱:對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法
對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)流的數(shù)據(jù)處理技術(shù)領(lǐng)域。具體涉及一種對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法。
背景技術(shù):
對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法能夠提高聚類的精度和數(shù)據(jù)分類的精度,能快速發(fā)現(xiàn)實時數(shù)據(jù)流中的聚類和聚類邊界,也可對工業(yè)生產(chǎn)中的實時生產(chǎn)工藝數(shù)據(jù)進(jìn)行監(jiān)測,有助于生產(chǎn)設(shè)備和產(chǎn)品質(zhì)量監(jiān)控。目前,有關(guān)數(shù)據(jù)聚類邊界點的界定和檢測技術(shù)存在以下缺陷(1)現(xiàn)有算法僅針對靜態(tài)數(shù)據(jù)集,提取界定聚類的邊界點, 沒有針對實時數(shù)據(jù)流的聚類邊界的界定方法;( 把聚類和邊界檢測兩者分開,分別進(jìn)行處理;(3)在大型數(shù)據(jù)處理中算法的復(fù)雜度高。
BORDER是一個有代表性的基于靜態(tài)數(shù)據(jù)集的聚類邊界點檢測算法,它利用數(shù)據(jù)的反向k-近鄰性質(zhì)來檢測邊界點。該算法首先計算數(shù)據(jù)集中每一個數(shù)據(jù)點的反向k-近鄰個數(shù),然后根據(jù)每個對象的反向k-近鄰個數(shù)按從小到大的順序排列整個數(shù)據(jù)集中的數(shù)據(jù)點, 把前η個數(shù)據(jù)點作為聚類的邊界點。BORDER算法在不含噪聲點的數(shù)據(jù)集中能夠檢測出聚類的邊界點,但其缺點是(1)在含有噪聲的數(shù)據(jù)集中不能正確地識別出邊界點,因為噪聲點的反向k-近鄰個數(shù)比聚類邊界點的反向k-近鄰個數(shù)更少;(2)該算法要找出每個對象的k 個最近鄰,進(jìn)而計算出每個對象的反向k-近鄰個數(shù),算法的執(zhí)行效率不高;C3)需要用戶有先驗知識,給出數(shù)據(jù)集的邊界點個數(shù)η。發(fā)明內(nèi)容
本發(fā)明能克服現(xiàn)有技術(shù)缺陷,目的是提供一種能對含噪聲點的實時數(shù)據(jù)流進(jìn)行任意形狀、任意大小、不同密度的聚類和聚類邊界界定的方法,該方法聚類效率高,邊界界定效果好。
為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是先將本方法中所涉及到的標(biāo)記統(tǒng)一說明如下
D是含噪聲點的實時數(shù)據(jù)流;λ是衰減因子;β是閾值調(diào)節(jié)系數(shù);k是數(shù)據(jù)空間每一維的區(qū)間個數(shù);δ是相似閾值;X是含噪聲點的實時數(shù)據(jù)流D中的數(shù)據(jù)點;G是數(shù)據(jù)空間中的所有網(wǎng)格;g表示數(shù)據(jù)點X能夠映射到的網(wǎng)格是高密度網(wǎng)格;gl是低密度網(wǎng)格;gmax 是還沒有聚類的具有最大密度值的高密度網(wǎng)格,Smx e ’是大于或等于相似閾值δ的低密度網(wǎng)格,gl,e gl ;gl”是小于相似閾值δ的低密度網(wǎng)格,gl-gl,= gl”,gl,U g,= gl ;speed是數(shù)據(jù)流的流速;N是數(shù)據(jù)空間中網(wǎng)格的總數(shù);ggHd是聚類網(wǎng)格,知U gl’ = ggrid ; gbo^dary是聚類邊界網(wǎng)格,gboundary ^ ggrid Anext是下一次聚類請求時刻。
對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的步驟是
步驟1、先把含噪聲點的實時數(shù)據(jù)流D中的數(shù)據(jù)點X能夠映射到的網(wǎng)格g中,更新數(shù)據(jù)點X能夠映射到的網(wǎng)格g的密度,更新后的密度為
權(quán)利要求
1. 一種對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法,其特征在于先將本方法中所涉及到的標(biāo)記統(tǒng)一說明如下D是含噪聲點的實時數(shù)據(jù)流;λ是衰減因子;β是閾值調(diào)節(jié)系數(shù);k是數(shù)據(jù)空間每一維的區(qū)間個數(shù);δ是相似閾值;X是含噪聲點的實時數(shù)據(jù)流D中的數(shù)據(jù)點;G是數(shù)據(jù)空間中的所有網(wǎng)格;g表示數(shù)據(jù)點X能夠映射到的網(wǎng)格是高密度網(wǎng)格;gl是低密度網(wǎng)格;gmax是還沒有聚類的具有最大密度值的高密度網(wǎng)格^max e ’是大于或等于相似閾值δ的低密度網(wǎng)格,g/ e gx ”是小于相似閾值δ的低密度網(wǎng)格,gl_gl’ =而”,gl’ U gl”= gl ;speed 是數(shù)據(jù)流的流速;N是數(shù)據(jù)空間中網(wǎng)格的總數(shù);ggrid是聚類網(wǎng)格,知U gl’ = ggrid ;gb_toy是聚類邊界網(wǎng)格,gboundary e ggrid ;tnext是下一次聚類請求時刻;對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的步驟是 步驟1、先把含噪聲點的實時數(shù)據(jù)流D中的數(shù)據(jù)點X能夠映射到的網(wǎng)格g中,更新數(shù)據(jù)點X能夠映射到的網(wǎng)格g的密度,更新后的密度為Density(g,tn)=於―tlDmsUy、g, t) + \( 1 )式(1)中:tn-當(dāng)前時刻, tftn的上一次時刻;步驟2、在有聚類請求時,再更新數(shù)據(jù)點X能夠映射到的網(wǎng)格g的密度,再更新后的密度為Densiiy(g, t) = ^^'Densityig, f)( 2 )此時刻的密度閾值為β{\ - 2 +l)speed. ΛdensityThreshold(t) =-—--{3 )#(1-/1)步驟3、將密度大于或等于密度閾值densityThreshold(t)的網(wǎng)格g標(biāo)記為高密度網(wǎng)格知,將密度小于密度閾值densityThreshold(t)的網(wǎng)格g標(biāo)記為低密度網(wǎng)格而;步驟4、在所有網(wǎng)格G中反復(fù)尋找一個還沒有聚類的具有最大密度值的高密度網(wǎng)格 gmax,以所述最大密度值的高密度網(wǎng)格Smx為始點進(jìn)行深度優(yōu)先搜索,遍歷所有網(wǎng)格G,將最大密度值的高密度網(wǎng)格gmax或者與最大密度值的高密度網(wǎng)格gmax相鄰的高密度網(wǎng)格&標(biāo)記為聚類網(wǎng)格如果此時聚類網(wǎng)格ggHd和相似值大于給定相似閾值δ的低密度網(wǎng)格gl’ 相鄰,則把這些低密度網(wǎng)格gl’也標(biāo)記為聚類網(wǎng)格gmd,所有的聚類網(wǎng)格gmd結(jié)合為一個聚類;步驟5、掃描聚類網(wǎng)格ggHd,如果聚類網(wǎng)格有相鄰的未被聚類的網(wǎng)格或者聚類網(wǎng)格g^d是位于網(wǎng)格空間的邊緣,則把所述聚類網(wǎng)格g^d有相鄰的未被聚類的網(wǎng)格和位于網(wǎng)格空間的邊緣聚類網(wǎng)格ggHd標(biāo)記為聚類邊界網(wǎng)格gb_toy,所有的聚類邊界網(wǎng)格 gbomdary構(gòu)成了聚類的邊界;步驟6、輸出數(shù)據(jù)空間的所有聚類和聚類邊界;步驟7、在某一聚類時刻的聚類過程結(jié)束和下一次聚類請求還沒有到達(dá)時,對于數(shù)據(jù)流中后續(xù)輸入的數(shù)據(jù)點X,如果這些數(shù)據(jù)點X能夠映射到聚類網(wǎng)格g#id,這些數(shù)據(jù)點X就被提取出來,同時被標(biāo)記屬于哪個聚類;步驟8、預(yù)測數(shù)據(jù)流中有聚類消失或者有新聚類出現(xiàn)時,計算出下一次聚類請求時刻tnext ;當(dāng)數(shù)據(jù)流到達(dá)時刻tMxt時,轉(zhuǎn)到步驟2繼續(xù)進(jìn)行聚類和聚類邊界界定; 步驟9、反復(fù)循環(huán)步驟2到步驟8,直到含噪聲點的數(shù)據(jù)流D結(jié)束。
2.根據(jù)權(quán)利1所述的對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法,其特征在于所述的“能夠映射到的網(wǎng)格g”的映射的過程是首先把數(shù)據(jù)點X的所有屬性值全部規(guī)格化到
區(qū)間內(nèi),如下式所示
3.根據(jù)權(quán)利1所述的對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法,其特征在于所述的相似值為相似函數(shù)的值,相似函數(shù)的定義如下
4.根據(jù)權(quán)利1所述的對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法,其特征在于所述的計算出下一次聚類請求時刻tnrart的計算過程是假設(shè)數(shù)據(jù)空間里面有η個聚類模式,最新聚類的時間為、,則下一次聚類時刻tMxt如下tnext = t0+min ( P \ P 2, . . . , Pn)(5)式(5)中
全文摘要
本發(fā)明具體涉及一種對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法。其方案是更新數(shù)據(jù)點X能映射到的網(wǎng)格g的密度;將密度大于或等于密度閾值densityThreshold(t)的網(wǎng)格g標(biāo)記為高密度網(wǎng)格gh;將相鄰的高密度網(wǎng)格gh或與高密度網(wǎng)格gh相鄰的大于相似閾值的低密度網(wǎng)格gl’標(biāo)記為聚類網(wǎng)格ggrid;所有聚類網(wǎng)格ggrid形成聚類;若聚類網(wǎng)格ggrid有相鄰的未被聚類的網(wǎng)格gl”或聚類網(wǎng)格ggrid是位于網(wǎng)格空間邊緣,則標(biāo)記為聚類邊界網(wǎng)格gboundary,所有聚類邊界網(wǎng)格gboundary構(gòu)成了聚類的邊界;輸出所有聚類和聚類邊界;計算下一次聚類請求時刻tnext;當(dāng)數(shù)據(jù)流到達(dá)時刻tnext時循環(huán)上述步驟,直到數(shù)據(jù)流D結(jié)束。本發(fā)明具有聚類效率高和邊界界定效果好的優(yōu)點。
文檔編號G06F19/00GK102495938SQ20111031835
公開日2012年6月13日 申請日期2011年10月19日 優(yōu)先權(quán)日2011年10月19日
發(fā)明者張曉龍, 曾偉, 梁小波 申請人:武漢科技大學(xué)