一種基于k?means的不平衡數(shù)據(jù)工業(yè)故障分類方法與流程

文檔序號：11216947閱讀：1456來源：國知局

本發(fā)明屬于工業(yè)過程控制領域，尤其涉及不平衡類數(shù)據(jù)的工業(yè)過程故障分類方法。
背景技術：
：在工業(yè)故障分類的工作中，一些常用的分類方法都會有一個使用前提，即在訓練集中各類數(shù)據(jù)的數(shù)據(jù)量相當。但是現(xiàn)實的情況往往不是這樣，當某一類數(shù)據(jù)很多，或者某一類數(shù)據(jù)很少，即不平衡類數(shù)據(jù)出現(xiàn)時，直接使用傳統(tǒng)的分類方法則會產生很大的分類誤差。近年來，不平衡類數(shù)據(jù)的研究一直是一個熱點，現(xiàn)存的方法主要是從兩個方向去解決，一個是從算法層面，一個是從采樣層面，本發(fā)明主要針對采樣層面對傳統(tǒng)分類方法進行改進。針對采樣的改進方法主要分為兩類，一類是過采樣，即對少數(shù)類重采樣以達到數(shù)據(jù)的平衡，此種方法的一大弊端就是會產生增加系統(tǒng)方法，產生過擬合現(xiàn)象，實際應用效果不是很理想；另一類是欠采樣，即根據(jù)一定的規(guī)則選取多數(shù)類中的一部分作為訓練數(shù)據(jù)，其他的數(shù)據(jù)則舍棄不用，以此來達到數(shù)據(jù)的平衡，此種方法由于忽略了一部分多數(shù)類數(shù)據(jù)信息，則會導致訓練出來的分類器精度不夠。本發(fā)明的優(yōu)勢在于，在既沒有沒有改變原數(shù)據(jù)樣本的結構，也沒有舍棄或者人為增加樣本數(shù)據(jù)的前提下，訓練出效果較好的分類器。技術實現(xiàn)要素：本發(fā)明的目的在于針對現(xiàn)有技術的不足，提供一種基于k-means的不平衡數(shù)據(jù)工業(yè)故障分類方法。本發(fā)明的目的是通過以下技術方案來實現(xiàn)的：一種基于k-means的不平衡數(shù)據(jù)工業(yè)故障分類方法，包括以下步驟：(1)利用系統(tǒng)收集過程正常工況的數(shù)據(jù)以及各種故障數(shù)據(jù)組成建模用的有標簽訓練樣本集：假設故障類別為c,在加上一個正常類，每個樣本建模數(shù)據(jù)的總類別為c+1,即其中ni為訓練樣本數(shù)，m為過程變量數(shù)，r為實數(shù)集。所以完整的有標簽訓練樣本集為,xl＝[x1；x2；...；xc+1],記錄所有數(shù)據(jù)的標簽信息，正常工況下標記標簽為1，故障1標簽為2，以此類推，即yi＝[i,i,...i],i＝1,2,...,c+1，完整的標簽集為y＝[y1；y2；...；yc+1]。其中正常類數(shù)據(jù)x1為多數(shù)類，其余數(shù)據(jù)均為少數(shù)類，不平衡度為n＝100，并假設故障類數(shù)據(jù)的數(shù)據(jù)量差別不大,即(2)使用k-means聚類方法，將x1分為數(shù)量相差不大的n個子集，即x1＝[x11；x12；...；x1n],并分別賦予新的標簽y1＝[y11；y12；...；y1n]；(3)將(2)中的n個子類與c個故障類數(shù)據(jù)結合起來，當做一個(n+c)類的多分類問題的訓練集，使用樸素貝葉斯方法建立分類器。(4)使用測試集對(3)中的分類器進行測試，并將標簽屬于y1的全部歸為正常類。本發(fā)明的有益效果是：本發(fā)明通過對多數(shù)類聚類的方法，即在對數(shù)據(jù)樣本處理之后，能夠較好的解決不平衡數(shù)據(jù)分類的問題，同時不改變數(shù)據(jù)的內部結構，也沒有增添或者減少數(shù)據(jù)，最大程度的保證了原數(shù)據(jù)樣本的特征信息，相較于其他的方法，增加了分類精度，并減少了過擬合現(xiàn)象的發(fā)生。附圖說明圖1為bayes直接處理的結果示意圖；圖2為基于k-means的bayes處理結果示意圖。具體實施方式本發(fā)明針對工業(yè)過程的故障分類問題，該方法首先使用k-means，并根據(jù)不平衡度對數(shù)據(jù)較多的類進行聚類，將多數(shù)類分為n個子類，然后與m個少數(shù)類合起來，當做一個(m+n)類的多分類問題，最后根據(jù)樸素貝葉斯分類器進行學習。本發(fā)明采用的技術方案的主要步驟分別如下：第一步：利用系統(tǒng)收集過程正常工況的數(shù)據(jù)以及各種故障數(shù)據(jù)組成建模用的有標簽訓練樣本集：假設故障類別為c,在加上一個正常類，每個樣本建模數(shù)據(jù)的總類別為c+1,即i＝1,2...c+1其中ni為訓練樣本數(shù)，m為過程變量數(shù)，r為實數(shù)集。所以完整的有標簽訓練樣本集為,xl＝[x1；x2；...；xc+1],記錄所有數(shù)據(jù)的標簽信息，正常工況下標記標簽為1，故障1標簽為2，以此類推，即yi＝[i,i,...i],i＝1,2,...,c+1，完整的標簽集為y＝[y1；y2；...；yc+1]。其中正常類數(shù)據(jù)x1為多數(shù)類，其余數(shù)據(jù)均為少數(shù)類，不平衡度為n＝100，并假設故障類數(shù)據(jù)的數(shù)據(jù)量差別不大,即第二步：使用k-means聚類方法，將x1分為數(shù)量相差不大的n個子集，即x1＝[x11；x12；...；x1n],并分別賦予新的標簽y1＝[y11；y12；...；y1n]。(a)為了將x1分為n個類，選取n個合適的初始均值向量作為每個類別的初始均值向量，即令其中a＝1,2,...,n。(b)分別按下式計算計算每個樣本與這些均值向量之間的距離，其中j＝1,2,...,n1，第j個樣本與第a個均值向量之間的歐氏距離為：其中j＝1,2,...,n1，a＝1,2,...,n。對于樣本xj，若dja最小，則將xj劃入a類。(c)為了避免出現(xiàn)聚類的結果數(shù)據(jù)差別較大，無法達到聚類的目的情況出現(xiàn)，我們在(b)中加入一個閾值k，當a類的數(shù)據(jù)個數(shù)已經達到k之后，在此輪之后的距離比較中將dja除去，不予考慮，則此輪不會再向a類增加數(shù)據(jù)，直到下一輪的計算。(d)經過g次迭代之后，得到n個子類，即x1＝[x11；x12；...；x1n]，并依次將每個子類的樣本標簽更換為1,2，..，n，得到y(tǒng)1＝[1,2,...,n]。并同時依次更換故障類數(shù)據(jù)的標簽，令yi＝[b,b,...,b],其中b＝n+1,n+2...,n+c。則此時的訓練集為x＝[x1；x2；...；xn+c]，并設i＝1,2...c+n，其中ni為第i類樣本的樣本個數(shù)。同樣令每個樣本數(shù)據(jù)i＝1,2,...,c+n。第三步：將第二部中的n個子類與c個故障類數(shù)據(jù)結合起來，當做一個(n+c)類的多分類問題的訓練集，使用樸素貝葉斯方法建立分類器。(a)分別計算各個類別中每個維度數(shù)據(jù)的均值meanic以及方差varic各類的先驗概率pi，計算式如下：其中i＝1,2,...,c+n,c＝1,2,...,m。(b)根據(jù)樸素貝葉斯分類原理，對于一個含有u個樣本的測試集其中的每個樣本zk＝[zk1,zk2,...,zkm]，計算其屬于每個類別的后驗概率pki，計算式如下：其中k＝1,2,...,u；i＝1,2,...,c+n。根據(jù)計算出的后驗概率，并給樣本賦予其中最大的概率的類別標簽。第四步：對于第三步中已經分好標簽的類別訓練集，將標簽為1到n的數(shù)據(jù)樣本的標簽重新更改為1，即正常類類別，將標簽為n+1到n+c的數(shù)據(jù)樣本標簽分別更改為2到c+1，即完成了分類器的測試。以下結合一個具體的工業(yè)過程的例子來說明本發(fā)明的有效性。該過程的數(shù)據(jù)來自美國te(tennesseeeastman——田納西-伊斯曼)化工過程實驗，原型是eastman化學公司的一個實際工藝流程。目前,te過程己經作為典型的化工過程故障檢測與診斷對象被廣泛研究。整個te過程包括41個測量變量和12個操作變量(控制變量),其中41個測量變量包括22個連續(xù)測量變量和19個成分測量值，它們每3分鐘被采樣一次。其中包括21批故障數(shù)據(jù)。這些故障中,16個是己知的,5個是未知的。故障1-7與過程變量的階躍變化有關,如冷卻水的入口溫度或者進料成分的變化。故障8-12與一些過程變量的可變性增大有關系。故障13是反應動力學中的緩慢漂移,故障14、15和21是與粘滯閥有關的。故障16-20是未知的。為了對該過程進行監(jiān)測，一共選取了44個過程變量，如表1所示。接下來結合該具體過程對本發(fā)明的實施步驟進行詳細地闡述：1、采集正常數(shù)據(jù)以及4種故障數(shù)據(jù)作為訓練樣本數(shù)據(jù)，進行數(shù)據(jù)預處理和歸一化。本實驗中分別選擇了正常工況以及故障1、2、6、14作為訓練樣本，故障1和故障2都是流4中的成分變化。故障6是由流1中的a進料損失所引起的，但是最終會對流4中的a成分產生影響。故障14位產品分離器塔底流量。采樣時間為3min，其中正常工況含有標簽樣本1000個樣本，其余故障分類分別選擇有標簽樣本10個。2、將正常工況數(shù)據(jù)樣本按照k-means分為100類，并保證類與類之間的數(shù)量差別不大。然后用樸素貝葉斯方法，對加上4類故障數(shù)據(jù)一共104類的訓練集進行學習。3、在線分類測試，并將屬于前100類的樣本數(shù)據(jù)規(guī)整為正常類，并重設4個故障類數(shù)據(jù)標簽。表1：監(jiān)控變量說明變量編號測量變量變量編號測量變量1a進料流量22分離器冷卻水出口溫度2d進料流量23物流6中a摩爾含量3e進料流量24物流6中b摩爾含量4a+c進料流量25物流6中c摩爾含量5再循環(huán)流量26物流6中d摩爾含量6反應器進料流速27物流6中e摩爾含量7反應器壓力28物流6中f摩爾含量8反應器等級29物流9中a摩爾含量9反應器溫度30物流9中b摩爾含量10排放速度31物流9中c摩爾含量11產品分離器溫度32物流9中d摩爾含量12產品分離器等級33物流9中e摩爾含量13產品分離器溫度34物流9中f摩爾含量14產品分離器塔底流量35物流9中g摩爾含量15汽提塔等級36物流9中h摩爾含量16汽提塔壓力37物流11中d摩爾含量17汽提塔塔底流量38物流11中e摩爾含量18汽提塔溫度39物流11中f摩爾含量19汽提塔流量40物流11中g摩爾含量20壓縮機功率41物流11中h摩爾含量21反應器冷卻水出口溫度上述實施例用來解釋說明本發(fā)明，而不是對本發(fā)明進行限制，在本發(fā)明的精神和權利要求的保護范圍內，對本發(fā)明做出的任何修改和改變，都落入本發(fā)明的保護范圍。當前第1頁12

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：葛志強;陳革成
技術所有人：浙江大學
我是此專利的發(fā)明人

上一篇：一種可灑水轉輪式播種器的制造方法與工藝
上一篇：基于密度自適應的特征向量組最優(yōu)選取譜聚類方法與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

kmeans聚類算法數(shù)據(jù)集相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于k?means的不平衡數(shù)據(jù)工業(yè)故障分類方法與流程