基于kmdb的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明--基于KMDB(K-means與DBSCAN聚類(lèi)算法相結(jié)合的算法)的軟測(cè)量建模 數(shù)據(jù)異常點(diǎn)檢測(cè)方法,是針對(duì)復(fù)雜工業(yè)過(guò)程中建模數(shù)據(jù)異常點(diǎn)檢測(cè)的特殊性提出的,本發(fā) 明屬于軟測(cè)量建模領(lǐng)域。
【背景技術(shù)】
[0002] 隨著人工智能的發(fā)展,軟測(cè)量技術(shù)在復(fù)雜工業(yè)過(guò)程中已經(jīng)得到了廣泛的應(yīng)用。軟 測(cè)量技術(shù)的核心是建立工業(yè)對(duì)象的精確可靠的模型。無(wú)論采用何種方法建立軟測(cè)量模型, 都需要一定的建模數(shù)據(jù),并且軟測(cè)量模型的性能在很大程度上依賴(lài)于所獲建模數(shù)據(jù)的準(zhǔn)確 性和有效性。然而,由于各種原因在現(xiàn)場(chǎng)采集的數(shù)據(jù)中不可避免地有異常點(diǎn)的存在。為了 保障軟測(cè)量模型的測(cè)量精度,必須在建立軟測(cè)量模型之前將真實(shí)信號(hào)從含異常點(diǎn)的混合信 號(hào)中分離出來(lái),才能用于軟測(cè)量建模。這個(gè)過(guò)程被稱(chēng)為復(fù)雜工業(yè)過(guò)程中異常點(diǎn)檢測(cè)。長(zhǎng)期 以來(lái),人們十分關(guān)注復(fù)雜工業(yè)過(guò)程中的異常數(shù)據(jù),發(fā)現(xiàn)異常點(diǎn)并減少異常點(diǎn)對(duì)數(shù)據(jù)分析的 影響是一項(xiàng)很有意義的研宄。
[0003] 聚類(lèi)是數(shù)據(jù)挖掘中的一種重要技術(shù),是分析數(shù)據(jù)并從中發(fā)現(xiàn)有用信息的一種有 效手段。聚類(lèi)是把一組個(gè)體按照相似性歸成若干類(lèi)別,即"物以類(lèi)聚"。其中基于密度的 算法由于可以發(fā)現(xiàn)任意形狀的簇且能夠較好地處理噪聲數(shù)據(jù),受到越來(lái)越廣泛的關(guān)注。 DBSCAN(Density-basedspatialclusteringofapplicationswithnoise)算法是應(yīng)用 最為廣泛的密度聚類(lèi)算法之一。該算法利用基于密度的聚類(lèi)概念,即要求聚類(lèi)空間中的一 定區(qū)域內(nèi)所包含對(duì)象(點(diǎn)或其它空間對(duì)象)的數(shù)目不小于某一給定閾值。DBSCAN算法的 顯著優(yōu)點(diǎn)是聚類(lèi)速度快,且能夠有效處理異常點(diǎn)和發(fā)現(xiàn)任意形狀的空間聚類(lèi)。但是,由于它 直接對(duì)整個(gè)數(shù)據(jù)庫(kù)進(jìn)行操作,且進(jìn)行聚類(lèi)時(shí)使用了一個(gè)全局性的表征密度的參數(shù),因此也 具有一個(gè)比較明顯的弱點(diǎn):當(dāng)空間聚類(lèi)的密度不均勻,聚類(lèi)間距離相差很大時(shí),聚類(lèi)質(zhì)量較 差。雖然已經(jīng)有一些改進(jìn)的DBSCAN算法被提出,但是對(duì)于復(fù)雜工業(yè)過(guò)程建模數(shù)據(jù)異常點(diǎn)檢 測(cè)的特殊性,這些算法都具有一定的不足。
[0004] 針對(duì)上述問(wèn)題和復(fù)雜工業(yè)過(guò)程中建模數(shù)據(jù)異常點(diǎn)檢測(cè)的特殊性,同時(shí)考慮到單 純使用聚類(lèi)思想的不足,本文提出了一種改進(jìn)的基于K-means算法的DBSCAN聚類(lèi)分析方 法,即KMDB算法。K-means算法是很典型的基于距離的聚類(lèi)算法,采用距離作為相似性的 評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。首先,該方法用K-means算法對(duì) DBSCAN算法改進(jìn),彌補(bǔ)了傳統(tǒng)DBSCAN算法的不足。再次,該方法將異常點(diǎn)檢測(cè)與軟測(cè)量建 模相結(jié)合,用建模誤差對(duì)異常點(diǎn)檢測(cè)過(guò)程進(jìn)行指導(dǎo),這樣既保證了異常點(diǎn)檢測(cè)的質(zhì)量,同時(shí) 完成了軟測(cè)量模型的建立。用該方法進(jìn)行異常點(diǎn)檢測(cè)時(shí)能更有效的檢測(cè)出異常點(diǎn)。
【發(fā)明內(nèi)容】
[0005] 針對(duì)上述問(wèn)題和復(fù)雜工業(yè)過(guò)程中建模數(shù)據(jù)異常點(diǎn)檢測(cè)的特殊性,同時(shí)考慮到單純 使用聚類(lèi)思想的不足,本文提出了一種改進(jìn)的基于K-means算法的DBSCAN聚類(lèi)分析方法, 即KMDB算法。首先,該方法用K-means算法對(duì)DBSCAN算法改進(jìn),彌補(bǔ)了傳統(tǒng)DBSCAN算法 的不足。再次,該方法將異常點(diǎn)檢測(cè)與軟測(cè)量建模相結(jié)合,用建模誤差對(duì)異常點(diǎn)檢測(cè)過(guò)程進(jìn) 行指導(dǎo),這樣既保證了異常點(diǎn)檢測(cè)的質(zhì)量,同時(shí)完成了軟測(cè)量模型的建立。用該方法進(jìn)行異 常點(diǎn)檢測(cè)時(shí)能更有效的檢測(cè)出異常點(diǎn)。
[0006] 本發(fā)明的基于KMDB的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)的方法具體步驟如下:
[0007] (1)設(shè)定異常點(diǎn)比例pQ與誤差比較系數(shù)t。
[0008] (2)確定樣本數(shù)據(jù)集,計(jì)算用該數(shù)據(jù)集進(jìn)行軟測(cè)量建模的建模測(cè)試誤差%。
【主權(quán)項(xiàng)】
1. 一種基于KMDB的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法,其特征在于包含有以下步驟: (1) 設(shè)定異常點(diǎn)比例Ptl與誤差比較系數(shù)t。 (2) 確定樣本數(shù)據(jù)集,計(jì)算用該數(shù)據(jù)集進(jìn)行軟測(cè)量建模的建模測(cè)試誤差e(1。 (3) 根據(jù)誤差使用公式(1)計(jì)算K值并對(duì)數(shù)據(jù)集聚類(lèi),將數(shù)據(jù)集劃分為K類(lèi)。 尤,++| =「尺,+ (1-e+|_l〇e」/10)1 (1) 式中:Ktl= 1,「1為向上取整符號(hào),LI為向下取整符號(hào),e為相對(duì)誤差。 (4) 調(diào)節(jié)Eps和MinPts,用DBSCAN算法進(jìn)行局部聚類(lèi),不屬于任何簇的點(diǎn)即為異常點(diǎn)。 這里MinPts和Eps的初值根據(jù)不同的數(shù)據(jù)集依賴(lài)經(jīng)驗(yàn)設(shè)定。 (5) 合并各局部聚類(lèi)結(jié)果,判斷異常樣本占總樣本的比例p是否小于設(shè)定值P(l。 若P<Ptl,進(jìn)行下一步; 若P彡P(guān)。,依據(jù)異常樣本占總樣本的比例值P,調(diào)整MinPts和Eps的大?。?br>返回步驟(4)。 (6) 將刪除異常點(diǎn)以后的數(shù)據(jù)劃為正確數(shù)據(jù),將正確數(shù)據(jù)作為建模數(shù)據(jù)進(jìn)行軟測(cè)量建 模,得到建模測(cè)試誤差e。比較e與〖^的大小。 若e<te(l,則認(rèn)為此次異常點(diǎn)檢測(cè)是有效的,將去除異常點(diǎn)后的數(shù)據(jù)作為樣本數(shù)據(jù); 若e>te(l,則此次檢測(cè)為無(wú)效,返回步驟(3)。 (7) 設(shè)定算法迭代次數(shù)為5000次,若在迭代次數(shù)范圍內(nèi)設(shè)定條件未達(dá)到,需重新選擇 Ptl與t。若在迭代次數(shù)范圍內(nèi)能達(dá)到設(shè)定條件,異常點(diǎn)檢測(cè)結(jié)束。
2. 權(quán)利要求1所述的基于KMDB的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法,其特征還在于:算 法在對(duì)數(shù)據(jù)集運(yùn)用DBSCAN算法檢測(cè)異常點(diǎn)之前,首先用K-means算法對(duì)數(shù)據(jù)進(jìn)行初步劃 分,再使用密度聚類(lèi)實(shí)現(xiàn)數(shù)據(jù)的異常點(diǎn)檢測(cè)。
3. 權(quán)利要求1所述的基于KMDB的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法,其特征還在于:使 用K-means算法時(shí),為了減少隨機(jī)性的初始中心選擇K對(duì)聚類(lèi)產(chǎn)生的影響,提出用軟測(cè)量建 模誤差來(lái)指導(dǎo)K值的選擇,如公式(1)所示。
4. 權(quán)利要求1所述的基于KMDB的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法,其特征還在于:使 用DBSCAN算法時(shí),用異常數(shù)據(jù)樣本占總樣本的比例p調(diào)整參數(shù)Eps和MinPts的選擇,見(jiàn)公 式⑵和(3),彌補(bǔ)了傳統(tǒng)DBSCAN算法的不足。
5. 權(quán)利要求1所述的基于KMDB的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法,其特征還在于:將 異常點(diǎn)檢測(cè)與軟測(cè)量建模相結(jié)合,這樣既保證了異常點(diǎn)檢測(cè)的質(zhì)量,同時(shí)完成了軟測(cè)量模 型的建立。
【專(zhuān)利摘要】本發(fā)明是一種基于KMDB(K-means與DBSCAN相結(jié)合的算法)的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法,其特征在于包括下列步驟:(1)設(shè)定異常點(diǎn)比例p0與誤差比較系數(shù)t。(2)對(duì)確定的樣本數(shù)據(jù)集進(jìn)行軟測(cè)量建模,計(jì)算建模測(cè)試誤差e0(選取相對(duì)誤差)。(3)用建模誤差指導(dǎo)K值的選擇,將數(shù)據(jù)集劃分為K類(lèi)。(4)對(duì)每一類(lèi)用DBSCAN算法進(jìn)行異常點(diǎn)檢測(cè)。(5)用異常數(shù)據(jù)樣本占總樣本的比例p調(diào)整DBSCAN算法中Eps和MinPts的選擇。(6)將刪除異常點(diǎn)的數(shù)據(jù)進(jìn)行軟測(cè)量建模,得到誤差e。比較e與te0判斷算法是否有效。(7)判斷在迭代次數(shù)范圍內(nèi)算法是否達(dá)到設(shè)定條件,若未達(dá)到需返回(1)重新選擇p0與t;否則,算法結(jié)束。KMDB算法有效地提高了聚類(lèi)算法的精度及軟測(cè)量模型的穩(wěn)定性。
【IPC分類(lèi)】G06F19-00
【公開(kāi)號(hào)】CN104715160
【申請(qǐng)?zhí)枴緾N201510157690
【發(fā)明人】田慧欣, 韓梅
【申請(qǐng)人】天津工業(yè)大學(xué)
【公開(kāi)日】2015年6月17日
【申請(qǐng)日】2015年4月3日