對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法

文檔序號：6568327閱讀：751來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法
對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)流的數(shù)據(jù)處理技術(shù)領(lǐng)域。具體涉及一種對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法。
背景技術(shù)：
對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法能夠提高聚類的精度和數(shù)據(jù)分類的精度，能快速發(fā)現(xiàn)實時數(shù)據(jù)流中的聚類和聚類邊界，也可對工業(yè)生產(chǎn)中的實時生產(chǎn)工藝數(shù)據(jù)進(jìn)行監(jiān)測，有助于生產(chǎn)設(shè)備和產(chǎn)品質(zhì)量監(jiān)控。目前，有關(guān)數(shù)據(jù)聚類邊界點的界定和檢測技術(shù)存在以下缺陷(1)現(xiàn)有算法僅針對靜態(tài)數(shù)據(jù)集，提取界定聚類的邊界點，沒有針對實時數(shù)據(jù)流的聚類邊界的界定方法；( 把聚類和邊界檢測兩者分開，分別進(jìn)行處理；(3)在大型數(shù)據(jù)處理中算法的復(fù)雜度高。
BORDER是一個有代表性的基于靜態(tài)數(shù)據(jù)集的聚類邊界點檢測算法，它利用數(shù)據(jù)的反向k-近鄰性質(zhì)來檢測邊界點。該算法首先計算數(shù)據(jù)集中每一個數(shù)據(jù)點的反向k-近鄰個數(shù)，然后根據(jù)每個對象的反向k-近鄰個數(shù)按從小到大的順序排列整個數(shù)據(jù)集中的數(shù)據(jù)點，把前η個數(shù)據(jù)點作為聚類的邊界點。BORDER算法在不含噪聲點的數(shù)據(jù)集中能夠檢測出聚類的邊界點，但其缺點是(1)在含有噪聲的數(shù)據(jù)集中不能正確地識別出邊界點，因為噪聲點的反向k-近鄰個數(shù)比聚類邊界點的反向k-近鄰個數(shù)更少；(2)該算法要找出每個對象的k 個最近鄰，進(jìn)而計算出每個對象的反向k-近鄰個數(shù)，算法的執(zhí)行效率不高；C3)需要用戶有先驗知識，給出數(shù)據(jù)集的邊界點個數(shù)η。發(fā)明內(nèi)容
本發(fā)明能克服現(xiàn)有技術(shù)缺陷，目的是提供一種能對含噪聲點的實時數(shù)據(jù)流進(jìn)行任意形狀、任意大小、不同密度的聚類和聚類邊界界定的方法，該方法聚類效率高，邊界界定效果好。
為實現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案是先將本方法中所涉及到的標(biāo)記統(tǒng)一說明如下
D是含噪聲點的實時數(shù)據(jù)流；λ是衰減因子；β是閾值調(diào)節(jié)系數(shù)；k是數(shù)據(jù)空間每一維的區(qū)間個數(shù)；δ是相似閾值；X是含噪聲點的實時數(shù)據(jù)流D中的數(shù)據(jù)點；G是數(shù)據(jù)空間中的所有網(wǎng)格；g表示數(shù)據(jù)點X能夠映射到的網(wǎng)格是高密度網(wǎng)格；gl是低密度網(wǎng)格；gmax 是還沒有聚類的具有最大密度值的高密度網(wǎng)格，Smx e ’是大于或等于相似閾值δ的低密度網(wǎng)格，gl，e gl ;gl”是小于相似閾值δ的低密度網(wǎng)格，gl-gl，= gl”，gl，U g,= gl ；speed是數(shù)據(jù)流的流速；N是數(shù)據(jù)空間中網(wǎng)格的總數(shù)；ggHd是聚類網(wǎng)格，知U gl’ = ggrid ； gbo^dary是聚類邊界網(wǎng)格，gboundary ^ ggrid Anext是下一次聚類請求時刻。
對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的步驟是
步驟1、先把含噪聲點的實時數(shù)據(jù)流D中的數(shù)據(jù)點X能夠映射到的網(wǎng)格g中，更新數(shù)據(jù)點X能夠映射到的網(wǎng)格g的密度，更新后的密度為
權(quán)利要求
1. 一種對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法，其特征在于先將本方法中所涉及到的標(biāo)記統(tǒng)一說明如下D是含噪聲點的實時數(shù)據(jù)流；λ是衰減因子；β是閾值調(diào)節(jié)系數(shù)；k是數(shù)據(jù)空間每一維的區(qū)間個數(shù)；δ是相似閾值；X是含噪聲點的實時數(shù)據(jù)流D中的數(shù)據(jù)點；G是數(shù)據(jù)空間中的所有網(wǎng)格；g表示數(shù)據(jù)點X能夠映射到的網(wǎng)格是高密度網(wǎng)格；gl是低密度網(wǎng)格；gmax是還沒有聚類的具有最大密度值的高密度網(wǎng)格^max e ’是大于或等于相似閾值δ的低密度網(wǎng)格，g/ e gx ”是小于相似閾值δ的低密度網(wǎng)格，gl_gl’ =而”，gl’ U gl”= gl ；speed 是數(shù)據(jù)流的流速；N是數(shù)據(jù)空間中網(wǎng)格的總數(shù)；ggrid是聚類網(wǎng)格，知U gl’ = ggrid ；gb_toy是聚類邊界網(wǎng)格，gboundary e ggrid ;tnext是下一次聚類請求時刻；對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的步驟是步驟1、先把含噪聲點的實時數(shù)據(jù)流D中的數(shù)據(jù)點X能夠映射到的網(wǎng)格g中，更新數(shù)據(jù)點X能夠映射到的網(wǎng)格g的密度，更新后的密度為Density(g,tn)=於―tlDmsUy、g, t) + \( 1 )式(1)中:tn-當(dāng)前時刻， tftn的上一次時刻；步驟2、在有聚類請求時，再更新數(shù)據(jù)點X能夠映射到的網(wǎng)格g的密度，再更新后的密度為Densiiy(g, t) = ^^'Densityig, f)( 2 )此時刻的密度閾值為β{\ - 2 +l)speed. ΛdensityThreshold(t) =-—--{3 )#(1-/1)步驟3、將密度大于或等于密度閾值densityThreshold(t)的網(wǎng)格g標(biāo)記為高密度網(wǎng)格知，將密度小于密度閾值densityThreshold(t)的網(wǎng)格g標(biāo)記為低密度網(wǎng)格而；步驟4、在所有網(wǎng)格G中反復(fù)尋找一個還沒有聚類的具有最大密度值的高密度網(wǎng)格 gmax，以所述最大密度值的高密度網(wǎng)格Smx為始點進(jìn)行深度優(yōu)先搜索，遍歷所有網(wǎng)格G，將最大密度值的高密度網(wǎng)格gmax或者與最大密度值的高密度網(wǎng)格gmax相鄰的高密度網(wǎng)格&標(biāo)記為聚類網(wǎng)格如果此時聚類網(wǎng)格ggHd和相似值大于給定相似閾值δ的低密度網(wǎng)格gl’ 相鄰，則把這些低密度網(wǎng)格gl’也標(biāo)記為聚類網(wǎng)格gmd，所有的聚類網(wǎng)格gmd結(jié)合為一個聚類；步驟5、掃描聚類網(wǎng)格ggHd，如果聚類網(wǎng)格有相鄰的未被聚類的網(wǎng)格或者聚類網(wǎng)格g^d是位于網(wǎng)格空間的邊緣，則把所述聚類網(wǎng)格g^d有相鄰的未被聚類的網(wǎng)格和位于網(wǎng)格空間的邊緣聚類網(wǎng)格ggHd標(biāo)記為聚類邊界網(wǎng)格gb_toy，所有的聚類邊界網(wǎng)格 gbomdary構(gòu)成了聚類的邊界；步驟6、輸出數(shù)據(jù)空間的所有聚類和聚類邊界；步驟7、在某一聚類時刻的聚類過程結(jié)束和下一次聚類請求還沒有到達(dá)時，對于數(shù)據(jù)流中后續(xù)輸入的數(shù)據(jù)點X，如果這些數(shù)據(jù)點X能夠映射到聚類網(wǎng)格g#id，這些數(shù)據(jù)點X就被提取出來，同時被標(biāo)記屬于哪個聚類；步驟8、預(yù)測數(shù)據(jù)流中有聚類消失或者有新聚類出現(xiàn)時，計算出下一次聚類請求時刻tnext ；當(dāng)數(shù)據(jù)流到達(dá)時刻tMxt時，轉(zhuǎn)到步驟2繼續(xù)進(jìn)行聚類和聚類邊界界定；步驟9、反復(fù)循環(huán)步驟2到步驟8，直到含噪聲點的數(shù)據(jù)流D結(jié)束。
2.根據(jù)權(quán)利1所述的對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法，其特征在于所述的“能夠映射到的網(wǎng)格g”的映射的過程是首先把數(shù)據(jù)點X的所有屬性值全部規(guī)格化到
區(qū)間內(nèi)，如下式所示
3.根據(jù)權(quán)利1所述的對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法，其特征在于所述的相似值為相似函數(shù)的值，相似函數(shù)的定義如下
4.根據(jù)權(quán)利1所述的對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法，其特征在于所述的計算出下一次聚類請求時刻tnrart的計算過程是假設(shè)數(shù)據(jù)空間里面有η個聚類模式，最新聚類的時間為、，則下一次聚類時刻tMxt如下tnext = t0+min ( P \ P 2, . . . , Pn)(5)式(5)中
全文摘要
本發(fā)明具體涉及一種對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法。其方案是更新數(shù)據(jù)點X能映射到的網(wǎng)格g的密度；將密度大于或等于密度閾值densityThreshold(t)的網(wǎng)格g標(biāo)記為高密度網(wǎng)格gh；將相鄰的高密度網(wǎng)格gh或與高密度網(wǎng)格gh相鄰的大于相似閾值的低密度網(wǎng)格gl’標(biāo)記為聚類網(wǎng)格ggrid；所有聚類網(wǎng)格ggrid形成聚類；若聚類網(wǎng)格ggrid有相鄰的未被聚類的網(wǎng)格gl”或聚類網(wǎng)格ggrid是位于網(wǎng)格空間邊緣，則標(biāo)記為聚類邊界網(wǎng)格gboundary，所有聚類邊界網(wǎng)格gboundary構(gòu)成了聚類的邊界；輸出所有聚類和聚類邊界；計算下一次聚類請求時刻tnext；當(dāng)數(shù)據(jù)流到達(dá)時刻tnext時循環(huán)上述步驟，直到數(shù)據(jù)流D結(jié)束。本發(fā)明具有聚類效率高和邊界界定效果好的優(yōu)點。
文檔編號G06F19/00GK102495938SQ20111031835
公開日2012年6月13日申請日期2011年10月19日優(yōu)先權(quán)日2011年10月19日
發(fā)明者張曉龍, 曾偉, 梁小波申請人:武漢科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張曉龍;梁小波;曾偉
技術(shù)所有人：武漢科技大學(xué)
我是此專利的發(fā)明人

上一篇：一種基于交點排序的多邊形裁剪的方法
上一篇：最大斜率射線算法判定點與多邊形空間位置關(guān)系的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)流聚類相關(guān)技術(shù)

實時數(shù)據(jù)流處理相關(guān)技術(shù)

實時數(shù)據(jù)流相關(guān)技術(shù)

spss進(jìn)行聚類分析相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

對含噪聲點的實時數(shù)據(jù)流進(jìn)行聚類和聚類邊界界定的方法