基于kmdb的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法

文檔序號(hào)：8396080閱讀：398來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于kmdb的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明--基于KMDB(K-means與DBSCAN聚類(lèi)算法相結(jié)合的算法）的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法，是針對(duì)復(fù)雜工業(yè)過(guò)程中建模數(shù)據(jù)異常點(diǎn)檢測(cè)的特殊性提出的，本發(fā) 明屬于軟測(cè)量建模領(lǐng)域。
【背景技術(shù)】
[0002] 隨著人工智能的發(fā)展，軟測(cè)量技術(shù)在復(fù)雜工業(yè)過(guò)程中已經(jīng)得到了廣泛的應(yīng)用。軟測(cè)量技術(shù)的核心是建立工業(yè)對(duì)象的精確可靠的模型。無(wú)論采用何種方法建立軟測(cè)量模型，都需要一定的建模數(shù)據(jù)，并且軟測(cè)量模型的性能在很大程度上依賴(lài)于所獲建模數(shù)據(jù)的準(zhǔn)確性和有效性。然而，由于各種原因在現(xiàn)場(chǎng)采集的數(shù)據(jù)中不可避免地有異常點(diǎn)的存在。為了保障軟測(cè)量模型的測(cè)量精度，必須在建立軟測(cè)量模型之前將真實(shí)信號(hào)從含異常點(diǎn)的混合信號(hào)中分離出來(lái)，才能用于軟測(cè)量建模。這個(gè)過(guò)程被稱(chēng)為復(fù)雜工業(yè)過(guò)程中異常點(diǎn)檢測(cè)。長(zhǎng)期以來(lái)，人們十分關(guān)注復(fù)雜工業(yè)過(guò)程中的異常數(shù)據(jù)，發(fā)現(xiàn)異常點(diǎn)并減少異常點(diǎn)對(duì)數(shù)據(jù)分析的影響是一項(xiàng)很有意義的研宄。
[0003] 聚類(lèi)是數(shù)據(jù)挖掘中的一種重要技術(shù)，是分析數(shù)據(jù)并從中發(fā)現(xiàn)有用信息的一種有效手段。聚類(lèi)是把一組個(gè)體按照相似性歸成若干類(lèi)別，即"物以類(lèi)聚"。其中基于密度的算法由于可以發(fā)現(xiàn)任意形狀的簇且能夠較好地處理噪聲數(shù)據(jù)，受到越來(lái)越廣泛的關(guān)注。 DBSCAN(Density-basedspatialclusteringofapplicationswithnoise)算法是應(yīng)用最為廣泛的密度聚類(lèi)算法之一。該算法利用基于密度的聚類(lèi)概念，即要求聚類(lèi)空間中的一定區(qū)域內(nèi)所包含對(duì)象（點(diǎn)或其它空間對(duì)象）的數(shù)目不小于某一給定閾值。DBSCAN算法的顯著優(yōu)點(diǎn)是聚類(lèi)速度快，且能夠有效處理異常點(diǎn)和發(fā)現(xiàn)任意形狀的空間聚類(lèi)。但是，由于它直接對(duì)整個(gè)數(shù)據(jù)庫(kù)進(jìn)行操作，且進(jìn)行聚類(lèi)時(shí)使用了一個(gè)全局性的表征密度的參數(shù)，因此也具有一個(gè)比較明顯的弱點(diǎn)：當(dāng)空間聚類(lèi)的密度不均勻，聚類(lèi)間距離相差很大時(shí)，聚類(lèi)質(zhì)量較差。雖然已經(jīng)有一些改進(jìn)的DBSCAN算法被提出，但是對(duì)于復(fù)雜工業(yè)過(guò)程建模數(shù)據(jù)異常點(diǎn)檢測(cè)的特殊性，這些算法都具有一定的不足。
[0004] 針對(duì)上述問(wèn)題和復(fù)雜工業(yè)過(guò)程中建模數(shù)據(jù)異常點(diǎn)檢測(cè)的特殊性，同時(shí)考慮到單純使用聚類(lèi)思想的不足，本文提出了一種改進(jìn)的基于K-means算法的DBSCAN聚類(lèi)分析方法，即KMDB算法。K-means算法是很典型的基于距離的聚類(lèi)算法，采用距離作為相似性的評(píng)價(jià)指標(biāo)，即認(rèn)為兩個(gè)對(duì)象的距離越近，其相似度就越大。首先，該方法用K-means算法對(duì) DBSCAN算法改進(jìn)，彌補(bǔ)了傳統(tǒng)DBSCAN算法的不足。再次，該方法將異常點(diǎn)檢測(cè)與軟測(cè)量建模相結(jié)合，用建模誤差對(duì)異常點(diǎn)檢測(cè)過(guò)程進(jìn)行指導(dǎo)，這樣既保證了異常點(diǎn)檢測(cè)的質(zhì)量，同時(shí) 完成了軟測(cè)量模型的建立。用該方法進(jìn)行異常點(diǎn)檢測(cè)時(shí)能更有效的檢測(cè)出異常點(diǎn)。

【發(fā)明內(nèi)容】

[0005] 針對(duì)上述問(wèn)題和復(fù)雜工業(yè)過(guò)程中建模數(shù)據(jù)異常點(diǎn)檢測(cè)的特殊性，同時(shí)考慮到單純使用聚類(lèi)思想的不足，本文提出了一種改進(jìn)的基于K-means算法的DBSCAN聚類(lèi)分析方法，即KMDB算法。首先，該方法用K-means算法對(duì)DBSCAN算法改進(jìn)，彌補(bǔ)了傳統(tǒng)DBSCAN算法的不足。再次，該方法將異常點(diǎn)檢測(cè)與軟測(cè)量建模相結(jié)合，用建模誤差對(duì)異常點(diǎn)檢測(cè)過(guò)程進(jìn) 行指導(dǎo)，這樣既保證了異常點(diǎn)檢測(cè)的質(zhì)量，同時(shí)完成了軟測(cè)量模型的建立。用該方法進(jìn)行異常點(diǎn)檢測(cè)時(shí)能更有效的檢測(cè)出異常點(diǎn)。
[0006] 本發(fā)明的基于KMDB的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)的方法具體步驟如下：
[0007] (1)設(shè)定異常點(diǎn)比例pQ與誤差比較系數(shù)t。
[0008] (2)確定樣本數(shù)據(jù)集，計(jì)算用該數(shù)據(jù)集進(jìn)行軟測(cè)量建模的建模測(cè)試誤差％。
【主權(quán)項(xiàng)】
1. 一種基于KMDB的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法，其特征在于包含有以下步驟： (1) 設(shè)定異常點(diǎn)比例Ptl與誤差比較系數(shù)t。 (2) 確定樣本數(shù)據(jù)集，計(jì)算用該數(shù)據(jù)集進(jìn)行軟測(cè)量建模的建模測(cè)試誤差e(1。 (3) 根據(jù)誤差使用公式（1)計(jì)算K值并對(duì)數(shù)據(jù)集聚類(lèi)，將數(shù)據(jù)集劃分為K類(lèi)。尤,++| =「尺,+ (1-e+|_l〇e」/10)1 (1) 式中：Ktl= 1，「1為向上取整符號(hào)，LI為向下取整符號(hào)，e為相對(duì)誤差。 (4) 調(diào)節(jié)Eps和MinPts，用DBSCAN算法進(jìn)行局部聚類(lèi)，不屬于任何簇的點(diǎn)即為異常點(diǎn)。這里MinPts和Eps的初值根據(jù)不同的數(shù)據(jù)集依賴(lài)經(jīng)驗(yàn)設(shè)定。 (5) 合并各局部聚類(lèi)結(jié)果，判斷異常樣本占總樣本的比例p是否小于設(shè)定值P(l。若P<Ptl，進(jìn)行下一步；若P彡P(guān)。，依據(jù)異常樣本占總樣本的比例值P，調(diào)整MinPts和Eps的大?。?br>返回步驟（4)。 (6) 將刪除異常點(diǎn)以后的數(shù)據(jù)劃為正確數(shù)據(jù)，將正確數(shù)據(jù)作為建模數(shù)據(jù)進(jìn)行軟測(cè)量建模，得到建模測(cè)試誤差e。比較e與〖^的大小。若e<te(l，則認(rèn)為此次異常點(diǎn)檢測(cè)是有效的，將去除異常點(diǎn)后的數(shù)據(jù)作為樣本數(shù)據(jù)；若e>te(l，則此次檢測(cè)為無(wú)效，返回步驟（3)。 (7) 設(shè)定算法迭代次數(shù)為5000次，若在迭代次數(shù)范圍內(nèi)設(shè)定條件未達(dá)到，需重新選擇 Ptl與t。若在迭代次數(shù)范圍內(nèi)能達(dá)到設(shè)定條件，異常點(diǎn)檢測(cè)結(jié)束。
2. 權(quán)利要求1所述的基于KMDB的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法，其特征還在于：算法在對(duì)數(shù)據(jù)集運(yùn)用DBSCAN算法檢測(cè)異常點(diǎn)之前，首先用K-means算法對(duì)數(shù)據(jù)進(jìn)行初步劃分，再使用密度聚類(lèi)實(shí)現(xiàn)數(shù)據(jù)的異常點(diǎn)檢測(cè)。
3. 權(quán)利要求1所述的基于KMDB的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法，其特征還在于：使用K-means算法時(shí)，為了減少隨機(jī)性的初始中心選擇K對(duì)聚類(lèi)產(chǎn)生的影響，提出用軟測(cè)量建模誤差來(lái)指導(dǎo)K值的選擇，如公式（1)所示。
4. 權(quán)利要求1所述的基于KMDB的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法，其特征還在于：使用DBSCAN算法時(shí)，用異常數(shù)據(jù)樣本占總樣本的比例p調(diào)整參數(shù)Eps和MinPts的選擇，見(jiàn)公式⑵和（3)，彌補(bǔ)了傳統(tǒng)DBSCAN算法的不足。
5. 權(quán)利要求1所述的基于KMDB的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法，其特征還在于：將異常點(diǎn)檢測(cè)與軟測(cè)量建模相結(jié)合，這樣既保證了異常點(diǎn)檢測(cè)的質(zhì)量，同時(shí)完成了軟測(cè)量模型的建立。
【專(zhuān)利摘要】本發(fā)明是一種基于KMDB(K-means與DBSCAN相結(jié)合的算法)的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法，其特征在于包括下列步驟：(1)設(shè)定異常點(diǎn)比例p0與誤差比較系數(shù)t。(2)對(duì)確定的樣本數(shù)據(jù)集進(jìn)行軟測(cè)量建模，計(jì)算建模測(cè)試誤差e0(選取相對(duì)誤差)。(3)用建模誤差指導(dǎo)K值的選擇，將數(shù)據(jù)集劃分為K類(lèi)。(4)對(duì)每一類(lèi)用DBSCAN算法進(jìn)行異常點(diǎn)檢測(cè)。(5)用異常數(shù)據(jù)樣本占總樣本的比例p調(diào)整DBSCAN算法中Eps和MinPts的選擇。(6)將刪除異常點(diǎn)的數(shù)據(jù)進(jìn)行軟測(cè)量建模，得到誤差e。比較e與te0判斷算法是否有效。(7)判斷在迭代次數(shù)范圍內(nèi)算法是否達(dá)到設(shè)定條件，若未達(dá)到需返回(1)重新選擇p0與t；否則，算法結(jié)束。KMDB算法有效地提高了聚類(lèi)算法的精度及軟測(cè)量模型的穩(wěn)定性。
【IPC分類(lèi)】G06F19-00
【公開(kāi)號(hào)】CN104715160
【申請(qǐng)?zhí)枴緾N201510157690
【發(fā)明人】田慧欣, 韓梅
【申請(qǐng)人】天津工業(yè)大學(xué)
【公開(kāi)日】2015年6月17日
【申請(qǐng)日】2015年4月3日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：田慧欣;韓梅;
技術(shù)所有人：天津工業(yè)大學(xué);
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

軟測(cè)量建模方法相關(guān)技術(shù)

軟測(cè)量建模相關(guān)技術(shù)

傾斜攝影測(cè)量三維建模相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于kmdb的軟測(cè)量建模數(shù)據(jù)異常點(diǎn)檢測(cè)方法