亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于k?means的不平衡數(shù)據(jù)工業(yè)故障分類方法與流程

文檔序號:11216947閱讀:1456來源:國知局
一種基于k?means的不平衡數(shù)據(jù)工業(yè)故障分類方法與流程
本發(fā)明屬于工業(yè)過程控制領域,尤其涉及不平衡類數(shù)據(jù)的工業(yè)過程故障分類方法。
背景技術
:在工業(yè)故障分類的工作中,一些常用的分類方法都會有一個使用前提,即在訓練集中各類數(shù)據(jù)的數(shù)據(jù)量相當。但是現(xiàn)實的情況往往不是這樣,當某一類數(shù)據(jù)很多,或者某一類數(shù)據(jù)很少,即不平衡類數(shù)據(jù)出現(xiàn)時,直接使用傳統(tǒng)的分類方法則會產生很大的分類誤差。近年來,不平衡類數(shù)據(jù)的研究一直是一個熱點,現(xiàn)存的方法主要是從兩個方向去解決,一個是從算法層面,一個是從采樣層面,本發(fā)明主要針對采樣層面對傳統(tǒng)分類方法進行改進。針對采樣的改進方法主要分為兩類,一類是過采樣,即對少數(shù)類重采樣以達到數(shù)據(jù)的平衡,此種方法的一大弊端就是會產生增加系統(tǒng)方法,產生過擬合現(xiàn)象,實際應用效果不是很理想;另一類是欠采樣,即根據(jù)一定的規(guī)則選取多數(shù)類中的一部分作為訓練數(shù)據(jù),其他的數(shù)據(jù)則舍棄不用,以此來達到數(shù)據(jù)的平衡,此種方法由于忽略了一部分多數(shù)類數(shù)據(jù)信息,則會導致訓練出來的分類器精度不夠。本發(fā)明的優(yōu)勢在于,在既沒有沒有改變原數(shù)據(jù)樣本的結構,也沒有舍棄或者人為增加樣本數(shù)據(jù)的前提下,訓練出效果較好的分類器。技術實現(xiàn)要素:本發(fā)明的目的在于針對現(xiàn)有技術的不足,提供一種基于k-means的不平衡數(shù)據(jù)工業(yè)故障分類方法。本發(fā)明的目的是通過以下技術方案來實現(xiàn)的:一種基于k-means的不平衡數(shù)據(jù)工業(yè)故障分類方法,包括以下步驟:(1)利用系統(tǒng)收集過程正常工況的數(shù)據(jù)以及各種故障數(shù)據(jù)組成建模用的有標簽訓練樣本集:假設故障類別為c,在加上一個正常類,每個樣本建模數(shù)據(jù)的總類別為c+1,即其中ni為訓練樣本數(shù),m為過程變量數(shù),r為實數(shù)集。所以完整的有標簽訓練樣本集為,xl=[x1;x2;...;xc+1],記錄所有數(shù)據(jù)的標簽信息,正常工況下標記標簽為1,故障1標簽為2,以此類推,即yi=[i,i,...i],i=1,2,...,c+1,完整的標簽集為y=[y1;y2;...;yc+1]。其中正常類數(shù)據(jù)x1為多數(shù)類,其余數(shù)據(jù)均為少數(shù)類,不平衡度為n=100,并假設故障類數(shù)據(jù)的數(shù)據(jù)量差別不大,即(2)使用k-means聚類方法,將x1分為數(shù)量相差不大的n個子集,即x1=[x11;x12;...;x1n],并分別賦予新的標簽y1=[y11;y12;...;y1n];(3)將(2)中的n個子類與c個故障類數(shù)據(jù)結合起來,當做一個(n+c)類的多分類問題的訓練集,使用樸素貝葉斯方法建立分類器。(4)使用測試集對(3)中的分類器進行測試,并將標簽屬于y1的全部歸為正常類。本發(fā)明的有益效果是:本發(fā)明通過對多數(shù)類聚類的方法,即在對數(shù)據(jù)樣本處理之后,能夠較好的解決不平衡數(shù)據(jù)分類的問題,同時不改變數(shù)據(jù)的內部結構,也沒有增添或者減少數(shù)據(jù),最大程度的保證了原數(shù)據(jù)樣本的特征信息,相較于其他的方法,增加了分類精度,并減少了過擬合現(xiàn)象的發(fā)生。附圖說明圖1為bayes直接處理的結果示意圖;圖2為基于k-means的bayes處理結果示意圖。具體實施方式本發(fā)明針對工業(yè)過程的故障分類問題,該方法首先使用k-means,并根據(jù)不平衡度對數(shù)據(jù)較多的類進行聚類,將多數(shù)類分為n個子類,然后與m個少數(shù)類合起來,當做一個(m+n)類的多分類問題,最后根據(jù)樸素貝葉斯分類器進行學習。本發(fā)明采用的技術方案的主要步驟分別如下:第一步:利用系統(tǒng)收集過程正常工況的數(shù)據(jù)以及各種故障數(shù)據(jù)組成建模用的有標簽訓練樣本集:假設故障類別為c,在加上一個正常類,每個樣本建模數(shù)據(jù)的總類別為c+1,即i=1,2...c+1其中ni為訓練樣本數(shù),m為過程變量數(shù),r為實數(shù)集。所以完整的有標簽訓練樣本集為,xl=[x1;x2;...;xc+1],記錄所有數(shù)據(jù)的標簽信息,正常工況下標記標簽為1,故障1標簽為2,以此類推,即yi=[i,i,...i],i=1,2,...,c+1,完整的標簽集為y=[y1;y2;...;yc+1]。其中正常類數(shù)據(jù)x1為多數(shù)類,其余數(shù)據(jù)均為少數(shù)類,不平衡度為n=100,并假設故障類數(shù)據(jù)的數(shù)據(jù)量差別不大,即第二步:使用k-means聚類方法,將x1分為數(shù)量相差不大的n個子集,即x1=[x11;x12;...;x1n],并分別賦予新的標簽y1=[y11;y12;...;y1n]。(a)為了將x1分為n個類,選取n個合適的初始均值向量作為每個類別的初始均值向量,即令其中a=1,2,...,n。(b)分別按下式計算計算每個樣本與這些均值向量之間的距離,其中j=1,2,...,n1,第j個樣本與第a個均值向量之間的歐氏距離為:其中j=1,2,...,n1,a=1,2,...,n。對于樣本xj,若dja最小,則將xj劃入a類。(c)為了避免出現(xiàn)聚類的結果數(shù)據(jù)差別較大,無法達到聚類的目的情況出現(xiàn),我們在(b)中加入一個閾值k,當a類的數(shù)據(jù)個數(shù)已經達到k之后,在此輪之后的距離比較中將dja除去,不予考慮,則此輪不會再向a類增加數(shù)據(jù),直到下一輪的計算。(d)經過g次迭代之后,得到n個子類,即x1=[x11;x12;...;x1n],并依次將每個子類的樣本標簽更換為1,2,..,n,得到y(tǒng)1=[1,2,...,n]。并同時依次更換故障類數(shù)據(jù)的標簽,令yi=[b,b,...,b],其中b=n+1,n+2...,n+c。則此時的訓練集為x=[x1;x2;...;xn+c],并設i=1,2...c+n,其中ni為第i類樣本的樣本個數(shù)。同樣令每個樣本數(shù)據(jù)i=1,2,...,c+n。第三步:將第二部中的n個子類與c個故障類數(shù)據(jù)結合起來,當做一個(n+c)類的多分類問題的訓練集,使用樸素貝葉斯方法建立分類器。(a)分別計算各個類別中每個維度數(shù)據(jù)的均值meanic以及方差varic各類的先驗概率pi,計算式如下:其中i=1,2,...,c+n,c=1,2,...,m。(b)根據(jù)樸素貝葉斯分類原理,對于一個含有u個樣本的測試集其中的每個樣本zk=[zk1,zk2,...,zkm],計算其屬于每個類別的后驗概率pki,計算式如下:其中k=1,2,...,u;i=1,2,...,c+n。根據(jù)計算出的后驗概率,并給樣本賦予其中最大的概率的類別標簽。第四步:對于第三步中已經分好標簽的類別訓練集,將標簽為1到n的數(shù)據(jù)樣本的標簽重新更改為1,即正常類類別,將標簽為n+1到n+c的數(shù)據(jù)樣本標簽分別更改為2到c+1,即完成了分類器的測試。以下結合一個具體的工業(yè)過程的例子來說明本發(fā)明的有效性。該過程的數(shù)據(jù)來自美國te(tennesseeeastman——田納西-伊斯曼)化工過程實驗,原型是eastman化學公司的一個實際工藝流程。目前,te過程己經作為典型的化工過程故障檢測與診斷對象被廣泛研究。整個te過程包括41個測量變量和12個操作變量(控制變量),其中41個測量變量包括22個連續(xù)測量變量和19個成分測量值,它們每3分鐘被采樣一次。其中包括21批故障數(shù)據(jù)。這些故障中,16個是己知的,5個是未知的。故障1-7與過程變量的階躍變化有關,如冷卻水的入口溫度或者進料成分的變化。故障8-12與一些過程變量的可變性增大有關系。故障13是反應動力學中的緩慢漂移,故障14、15和21是與粘滯閥有關的。故障16-20是未知的。為了對該過程進行監(jiān)測,一共選取了44個過程變量,如表1所示。接下來結合該具體過程對本發(fā)明的實施步驟進行詳細地闡述:1、采集正常數(shù)據(jù)以及4種故障數(shù)據(jù)作為訓練樣本數(shù)據(jù),進行數(shù)據(jù)預處理和歸一化。本實驗中分別選擇了正常工況以及故障1、2、6、14作為訓練樣本,故障1和故障2都是流4中的成分變化。故障6是由流1中的a進料損失所引起的,但是最終會對流4中的a成分產生影響。故障14位產品分離器塔底流量。采樣時間為3min,其中正常工況含有標簽樣本1000個樣本,其余故障分類分別選擇有標簽樣本10個。2、將正常工況數(shù)據(jù)樣本按照k-means分為100類,并保證類與類之間的數(shù)量差別不大。然后用樸素貝葉斯方法,對加上4類故障數(shù)據(jù)一共104類的訓練集進行學習。3、在線分類測試,并將屬于前100類的樣本數(shù)據(jù)規(guī)整為正常類,并重設4個故障類數(shù)據(jù)標簽。表1:監(jiān)控變量說明變量編號測量變量變量編號測量變量1a進料流量22分離器冷卻水出口溫度2d進料流量23物流6中a摩爾含量3e進料流量24物流6中b摩爾含量4a+c進料流量25物流6中c摩爾含量5再循環(huán)流量26物流6中d摩爾含量6反應器進料流速27物流6中e摩爾含量7反應器壓力28物流6中f摩爾含量8反應器等級29物流9中a摩爾含量9反應器溫度30物流9中b摩爾含量10排放速度31物流9中c摩爾含量11產品分離器溫度32物流9中d摩爾含量12產品分離器等級33物流9中e摩爾含量13產品分離器溫度34物流9中f摩爾含量14產品分離器塔底流量35物流9中g摩爾含量15汽提塔等級36物流9中h摩爾含量16汽提塔壓力37物流11中d摩爾含量17汽提塔塔底流量38物流11中e摩爾含量18汽提塔溫度39物流11中f摩爾含量19汽提塔流量40物流11中g摩爾含量20壓縮機功率41物流11中h摩爾含量21反應器冷卻水出口溫度上述實施例用來解釋說明本發(fā)明,而不是對本發(fā)明進行限制,在本發(fā)明的精神和權利要求的保護范圍內,對本發(fā)明做出的任何修改和改變,都落入本發(fā)明的保護范圍。當前第1頁12
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1