本發(fā)明涉及污水處理領(lǐng)域,特別涉及一種FastRVM污水處理在線故障診斷方法。
背景技術(shù):
:目前,環(huán)境保護(hù)已經(jīng)成為我國經(jīng)濟(jì)可持續(xù)發(fā)展的重要基礎(chǔ),隨著我國工業(yè)經(jīng)濟(jì)發(fā)展迅速,城市進(jìn)程不斷加快,工業(yè)廢水的排放量隨著工業(yè)用水量的增加而快速增長,大部分廢水的直接排放又嚴(yán)重污染了江河水體,破壞了生態(tài)平衡,間接的影響了人們的生活。污水處理廠作為自然水體的關(guān)鍵保護(hù)屏障,其運(yùn)行好壞將直接影響水環(huán)境的安全程度。污水生化處理工藝復(fù)雜,影響因素非常多,污水處理廠在實(shí)際運(yùn)行過程中難以保持長期穩(wěn)定的運(yùn)行,一旦發(fā)生運(yùn)行故障常常會(huì)引起出水水質(zhì)不達(dá)標(biāo)、運(yùn)行費(fèi)用增高和環(huán)境二次污染等嚴(yán)重問題。因此,必須對(duì)污水處理廠運(yùn)行狀態(tài)進(jìn)行監(jiān)控,及時(shí)診斷出污水處理過程故障并予以處理。污水處理過程運(yùn)行狀態(tài)的故障診斷本質(zhì)上是一個(gè)模式分類問題,而在實(shí)際狀態(tài)運(yùn)行分類中,常常會(huì)遇到污水?dāng)?shù)據(jù)集的分布不均衡問題,現(xiàn)有技術(shù)存在一定的局限性,在用于不平衡數(shù)據(jù)分類時(shí),模型分類正確率無法滿足要求,給污水生化處理的故障診斷帶來了極大的困難;同時(shí)在實(shí)際過程當(dāng)中,故障診斷實(shí)際上是一個(gè)連續(xù)的學(xué)習(xí)過程,其突出的一個(gè)特點(diǎn)就是學(xué)習(xí)不是一次離線進(jìn)行的,而是數(shù)據(jù)逐一加入的,不斷進(jìn)行優(yōu)化的過程。在線學(xué)習(xí)方法要求在獲得下一個(gè)數(shù)據(jù)之前必須完成訓(xùn)練,否則會(huì)影響下一步?jīng)Q策的完成,而且污水處理廠的運(yùn)行出現(xiàn)的故障信息尤為重要,所以在線故障診斷系統(tǒng)更加注重的是快速性和準(zhǔn)確性。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于不平衡數(shù)據(jù)聚類的FastRVM污水處理在線故障診斷方法,通過基于聚類的快速相關(guān)向量機(jī)方法對(duì)多數(shù)類數(shù)據(jù)壓縮和虛擬少數(shù)類向上采樣的方法對(duì)少數(shù)類數(shù)據(jù)擴(kuò)充,降低了污水?dāng)?shù)據(jù)的不平衡性,提高分類準(zhǔn)確率,同時(shí)采用FastRVM對(duì)污水生化處理過程建立多分類模型,加快在線更新速度,從而保證了污水處理過程的在線故障診斷的準(zhǔn)率性和實(shí)時(shí)性。為實(shí)現(xiàn)上述目的,本發(fā)明所提供的技術(shù)方案為:一種FastRVM污水處理在線故障診斷方法,包括以下步驟:S1.剔除掉污水?dāng)?shù)據(jù)中屬性不完整的樣本,由于各輸入變量量綱的不同,對(duì)其進(jìn)行歸一化處理,歸一化到[0,1]區(qū)間中,并確定歷史數(shù)據(jù)集xold和更新測試集xnew;S2.將歷史數(shù)據(jù)中的多數(shù)類樣本采用基于聚類的快速相關(guān)向量機(jī)方法進(jìn)行壓縮;S3.根據(jù)虛擬少數(shù)類向上采樣的方法對(duì)歷史數(shù)據(jù)中的少數(shù)類樣本進(jìn)行擴(kuò)充;S4.將處理后的歷史數(shù)據(jù)中所有類的樣本數(shù)據(jù)重新組合構(gòu)成新的歷史訓(xùn)練集,并建立“一對(duì)一”的快速相關(guān)向量機(jī)多分類訓(xùn)練模型;S5.從更新測試集xnew中添加k個(gè)新樣本到模型中進(jìn)行測試,并保存分類測試結(jié)果,將其添加到歷史數(shù)據(jù)集中,去掉歷史數(shù)據(jù)集中前k個(gè)樣本;S6.回到步驟S2,重新處理不平衡的歷史數(shù)據(jù),訓(xùn)練模型,不斷重復(fù)上述過程,直到在線更新數(shù)據(jù)測試完畢,得到最終在線測試結(jié)果,從而實(shí)現(xiàn)對(duì)污水處理過程的在線運(yùn)行狀態(tài)的識(shí)別。所述的步驟S2,具體為:S201、假設(shè)多數(shù)類樣本集X={x1,x2,…,xi,…,xn}為n個(gè)Rd空間的數(shù)據(jù),其中d為樣本屬性的維數(shù),從n個(gè)數(shù)據(jù)對(duì)象中隨機(jī)選擇k個(gè)對(duì)象作為初始的聚類中心;S202、然后對(duì)剩余的樣本對(duì)象則根據(jù)與各個(gè)聚類中心的距離分別分配到距離最相近的聚類中心中;計(jì)算距離的公式如下,假設(shè)cj為第j個(gè)類的中心,則xi與cj的距離為:S203、根據(jù)集合中的點(diǎn)更新每個(gè)類的聚類中心,假設(shè)第j個(gè)類中的樣本為即包含了nj個(gè)樣本,則該類的聚類中心為其中為類中心cj的第m個(gè)屬性,計(jì)算公式如下:S204、不斷重復(fù)S202、S203步驟,直到標(biāo)準(zhǔn)測度函數(shù)收斂為止,采用均方差作為計(jì)算標(biāo)準(zhǔn)測度函數(shù),其形式為:S205、將聚類后的多數(shù)類樣本進(jìn)行快速相關(guān)向量機(jī)分類建模,從而可以獲取一定數(shù)量的相關(guān)向量,這些相關(guān)向量的個(gè)數(shù)要比原始多數(shù)類數(shù)據(jù)少得多,并且具有一定的代表性,接著用選取的相關(guān)向量代替原來的多數(shù)類樣本從而對(duì)多數(shù)類樣本的壓縮。所述的步驟S3,具體為:S301、對(duì)少數(shù)類中的每一個(gè)樣本x,以歐式距離為標(biāo)準(zhǔn)計(jì)算它到少數(shù)類樣本集中每個(gè)樣本的距離,獲得其中k個(gè)最近鄰,并記錄近鄰樣本的下標(biāo);S302、根據(jù)向上采樣的倍率N,對(duì)每一個(gè)少數(shù)類樣本x,從其k個(gè)最近鄰中隨機(jī)選取N個(gè)樣本,記為y1,y2,…,yN;S303、在原樣本x與yj(j=1,2,…,N)之間進(jìn)行隨機(jī)線性插值,構(gòu)造新的少數(shù)類樣本pj,即新樣本:pj=x+rand(0,1)*(yj-x),j=1,2,…,N(4)其中rand(0,1)表示區(qū)間(0,1)內(nèi)的一個(gè)隨機(jī)數(shù)。步驟S4中,“一對(duì)一”的快速相關(guān)向量機(jī)多分類訓(xùn)練模型,其建立過程如下:處理后的歷史數(shù)據(jù)及可以定義為其中N是數(shù)據(jù)集的樣本個(gè)數(shù),n是樣本序號(hào),d是樣本屬性的維數(shù),zn為樣本的輸入,tn為樣本的目標(biāo)值,預(yù)測函數(shù)如公式一所示:tn=y(tǒng)(zn;w)+εn(5)其中y(z)的定義如公式(2所示)其中K(z,zi)是核函數(shù),wi為基函數(shù)對(duì)應(yīng)的權(quán)重,w=[w0,w1,…,wN]T,εn為噪聲,服從εn~N(0,σ2),因此tn~N(y(zn,w),σ2)。假設(shè)預(yù)測目標(biāo)tn之間相互獨(dú)立,那么就有:式中Φ是一個(gè)N×(N+1)的構(gòu)造矩陣,為了避免過擬合,需要約束模型中的權(quán)值ω,假設(shè)其服從高斯分布,α為超參數(shù)。當(dāng)輸入一組新的變量的時(shí)候,對(duì)應(yīng)的目標(biāo)值t*為p(t*|t)~p(w,α,σ2|t),根據(jù)先驗(yàn)概率分布和似然估計(jì)分布,可得權(quán)重的后驗(yàn)概率分布:p(ω,α,σ2|t)=p(ω|t,α,σ2)p(α,σ2|t)(8)對(duì)上式進(jìn)行近似處理,最終成了最大化p(α,σ2|t)∝p(t|α,σ2)p(α)p(σ2)的過程,也就是找到參數(shù)α和σ2最可能的值αMP、快速相關(guān)向量機(jī)在訓(xùn)練過程中從空集開始動(dòng)態(tài)地?cái)U(kuò)充基矩陣Φ,從而增大邊際似然函數(shù),或者去掉基矩陣Φ冗余的列來增大目標(biāo)函數(shù)。通過將邊界似然函數(shù)p(t|α,σ2)取對(duì)數(shù),記L(α)=log[p(t|α,σ2)],整理有:其中L(α-i)表示為當(dāng)αi=∞時(shí),相應(yīng)的基本向量φi被移除后所對(duì)應(yīng)的邊界似然函數(shù)的對(duì)數(shù),而l(αi)表示邊界似然的對(duì)數(shù)函數(shù)中只與αi有關(guān)的獨(dú)立部分。Si被定義為稀疏因子,Qi為質(zhì)量因子。L(α)有唯一最大值點(diǎn)為:為了最大化L(α),根據(jù)公式(10),不斷地迭代來尋找到合適的權(quán)重,這時(shí)超參數(shù)α也會(huì)對(duì)著權(quán)重w不斷更新,通過不斷地更新,可以得到最終的訓(xùn)練模型一些樣本點(diǎn)對(duì)應(yīng)的權(quán)重為零,那些不為零的點(diǎn)就是相關(guān)向量。綜上所述,快速相關(guān)向量機(jī)分類基本算法步驟如下:(1)初始化σ2=0;(2)用單個(gè)基向量φi初始化αi,由公式(10)分析整理可得并設(shè)置其他的αm(m≠i)為無窮大;(3)計(jì)算協(xié)方差矩陣Σ、權(quán)重矩陣μ并對(duì)所有M個(gè)基函數(shù)φm初始化Sm和Qm;(4)從所有M個(gè)基函數(shù)φm集合中選擇候選的基向量φi;(5)計(jì)算(6)若θi>0且αi<∞,重新估計(jì)αi;(7)若θi>0且αi=∞,添加φi到模型中并重新估計(jì)αi;(8)若θi≤0且αi<∞,刪除φi并設(shè)置αi=∞;(9)用Laplace逼近方法重新計(jì)算協(xié)方差矩陣Σ,權(quán)重矩陣μ以及相應(yīng)迭代過程中的Sm和Qm;(10)若收斂或者達(dá)到最大迭代次數(shù),則終止程序;否則轉(zhuǎn)步驟(4);終止條件為:任意在模型中的基函數(shù)對(duì)應(yīng)的αi,有αi<le12且建立完快速相關(guān)向量機(jī)的而分類模型后,再將多個(gè)二分類器采用“一對(duì)一”方法相結(jié)合,建立一個(gè)多分類器,設(shè)待分類樣本為k個(gè)類別,這k類中的任意兩類都可以組成一個(gè)基本的快速相關(guān)向量機(jī)二分類器,對(duì)所有的訓(xùn)練樣本進(jìn)行兩兩分類,這樣k個(gè)類別兩兩之間共計(jì)可以構(gòu)成個(gè)快速相關(guān)向量機(jī)二分類器,每一個(gè)快速相關(guān)向量機(jī)分類器只在各自對(duì)應(yīng)的樣本子集上進(jìn)行訓(xùn)練。對(duì)未知樣本進(jìn)行分類測試時(shí),采用投票的方法,把每一個(gè)待測樣本都經(jīng)過全部個(gè)分類器進(jìn)行判別。例如,樣本在i、j兩類之間分類時(shí),機(jī)器判別結(jié)果其屬于第i類,就在第i類上增加1票,否則對(duì)第j類投票加1,直到所有的分類器分類完成,最后統(tǒng)計(jì)得票最多的類即為測試樣本所屬類別。設(shè)分類函數(shù)fij(x)用來判別i、j兩類樣本,若fij(x)<0,則判別x屬于第i類,記i類得1票,否則判x屬于第j類,記j類得1票,最后決策時(shí),比較哪一類得到的票最多,則將測試樣本規(guī)劃為該類。本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)與有益效果:1、本發(fā)明建立了一種基于不平衡數(shù)據(jù)聚類的FastRVM污水處理的在線故障診斷模型,通過基于聚類的快速相關(guān)向量機(jī)方法對(duì)多數(shù)類數(shù)據(jù)壓縮和虛擬少數(shù)類向上采樣方法對(duì)少數(shù)類數(shù)據(jù)擴(kuò)充,降低了污水?dāng)?shù)據(jù)的不平衡性,同時(shí)采用FastRVM對(duì)污水生化處理過程建立多分類模型,加快在線更新速度,然后根據(jù)工況添加數(shù)據(jù)進(jìn)行實(shí)時(shí)診斷并更新模型,等待下一次故障診斷,從而建立了在線故障診斷模型。該在線模型提高了對(duì)污水生化處理系統(tǒng)的故障診斷精度,在線性能好,效果顯著。2、本發(fā)明的模型是基于聚類的快速相關(guān)向量機(jī)對(duì)多數(shù)類數(shù)據(jù)壓縮和虛擬少數(shù)類向上采樣方法對(duì)少數(shù)類數(shù)據(jù)擴(kuò)充,降低了污水?dāng)?shù)據(jù)的不平衡性,不僅能夠在平衡數(shù)據(jù)獲得良好效果,而且還能夠在不平衡數(shù)據(jù)取得比較好的分類效果,在此基礎(chǔ)上采用了FastRVM建立的多分類器,其關(guān)鍵點(diǎn)在于它對(duì)訓(xùn)練樣本的超參數(shù)進(jìn)行快速估計(jì),去除訓(xùn)練樣本的非相關(guān)向量,保證模型的稀疏性,從而減少訓(xùn)練時(shí)間。因此,本發(fā)明采用的一種基于不平衡數(shù)據(jù)聚類的FastRVM污水處理的在線故障診斷方法對(duì)污水處理過程進(jìn)行在線故障診斷建模,能夠保證污水處理過程的在線故障診斷的準(zhǔn)率性和實(shí)時(shí)性。3、本發(fā)明在線仿真實(shí)驗(yàn)時(shí),需要對(duì)每一組新的數(shù)據(jù)進(jìn)行測試并加入模型進(jìn)行更新。歷史數(shù)據(jù)集通過采取限定記憶的方式來保持其容量,使訓(xùn)練數(shù)據(jù)始終是有限組,每增加一組最新的觀測數(shù)據(jù),就隨即丟棄一組最早的觀測數(shù)據(jù),從而保證模型中都包含新數(shù)據(jù)的信息,避免歷史所含數(shù)據(jù)信息淹沒新數(shù)據(jù)所包含的信息。附圖說明圖1為本發(fā)明模型基于不平衡數(shù)據(jù)聚類的FastRVM污水處理在線故障診斷方法流程圖。圖2為本發(fā)明模型快速相關(guān)向量機(jī)分類算法流程圖。圖3為本發(fā)明模型“一對(duì)一”的快速相關(guān)向量機(jī)多分類模型示意圖。具體實(shí)施方式下面結(jié)合具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述。如圖1所示,本發(fā)明提供的FastRVM污水處理在線故障診斷方法,基于不平衡數(shù)據(jù)聚類,具體情況如下:S1.剔除掉污水?dāng)?shù)據(jù)中屬性不完整的樣本,由于各輸入變量量綱的不同,對(duì)其進(jìn)行歸一化處理,歸一化到[0,1]區(qū)間中,并確定歷史數(shù)據(jù)集xold和更新測試集xnew;S2.將歷史數(shù)據(jù)中的多數(shù)類樣本采用基于聚類的快速相關(guān)向量機(jī)方法進(jìn)行壓縮;S3.根據(jù)虛擬少數(shù)類向上采樣的方法對(duì)歷史數(shù)據(jù)中的少數(shù)類樣本進(jìn)行擴(kuò)充;S4.將處理后的歷史數(shù)據(jù)中所有類的樣本數(shù)據(jù)重新組合構(gòu)成新的歷史訓(xùn)練集,并建立“一對(duì)一”的快速相關(guān)向量機(jī)多分類訓(xùn)練模型;S5.從更新測試集xnew中添加k個(gè)新樣本到模型中進(jìn)行測試,并保存分類測試結(jié)果,將其添加到歷史數(shù)據(jù)集中,去掉歷史數(shù)據(jù)集中前k個(gè)樣本;S6.回到步驟S2,重新處理不平衡的歷史數(shù)據(jù),訓(xùn)練模型,不斷重復(fù)上述過程,直到在線更新數(shù)據(jù)測試完畢,得到最終在線測試結(jié)果,從而實(shí)現(xiàn)對(duì)污水處理過程的在線運(yùn)行狀態(tài)的識(shí)別。所述的步驟S2,具體為:S201、假設(shè)多數(shù)類樣本集X={x1,x2,…,xi,…,xn}為n個(gè)Rd空間的數(shù)據(jù),其中d為樣本屬性的維數(shù),從n個(gè)數(shù)據(jù)對(duì)象中隨機(jī)選擇k個(gè)對(duì)象作為初始的聚類中心;S202、然后對(duì)剩余的樣本對(duì)象則根據(jù)與各個(gè)聚類中心的距離分別分配到距離最相近的聚類中心中;計(jì)算距離的公式如下,假設(shè)cj為第j個(gè)類的中心,則xi與cj的距離為:S203、根據(jù)集合中的點(diǎn)更新每個(gè)類的聚類中心,假設(shè)第j個(gè)類中的樣本為即包含了nj個(gè)樣本,則該類的聚類中心為其中為類中心cj的第m個(gè)屬性,計(jì)算公式如下:S204、不斷重復(fù)S202、S203步驟,直到標(biāo)準(zhǔn)測度函數(shù)收斂為止,采用均方差作為計(jì)算標(biāo)準(zhǔn)測度函數(shù),其形式為:S205、將聚類后的多數(shù)類樣本進(jìn)行快速相關(guān)向量機(jī)分類建模,從而可以獲取一定數(shù)量的相關(guān)向量,這些相關(guān)向量的個(gè)數(shù)要比原始多數(shù)類數(shù)據(jù)少得多,并且具有一定的代表性,接著用選取的相關(guān)向量代替原來的多數(shù)類樣本從而對(duì)多數(shù)類樣本的壓縮。所述的步驟S3,具體為:S301、對(duì)少數(shù)類中的每一個(gè)樣本x,以歐式距離為標(biāo)準(zhǔn)計(jì)算它到少數(shù)類樣本集中每個(gè)樣本的距離,獲得其中k個(gè)最近鄰,并記錄近鄰樣本的下標(biāo),這里k取5;S302、根據(jù)向上采樣的倍率N,對(duì)每一個(gè)少數(shù)類樣本x,從其k個(gè)最近鄰中隨機(jī)選取N個(gè)樣本,記為y1,y2,…,yN;S303、在原樣本x與yj(j=1,2,…,N)之間進(jìn)行隨機(jī)線性插值,構(gòu)造新的少數(shù)類樣本pj,即新樣本:pj=x+rand(0,1)*(yj-x),j=1,2,…,N(14)其中rand(0,1)表示區(qū)間(0,1)內(nèi)的一個(gè)隨機(jī)數(shù)。步驟S4中,“一對(duì)一”的快速相關(guān)向量機(jī)多分類訓(xùn)練模型,如圖3所示,其建立過程如下:處理后的歷史數(shù)據(jù)及可以定義為其中N是數(shù)據(jù)集的樣本個(gè)數(shù),n是樣本序號(hào),d是樣本屬性的維數(shù),zn為樣本的輸入,tn為樣本的目標(biāo)值,預(yù)測函數(shù)如公式一所示:tn=y(tǒng)(zn;w)+εn(15)其中y(z)的定義如公式(2所示)其中K(z,zi)是核函數(shù),wi為基函數(shù)對(duì)應(yīng)的權(quán)重,w=[w0,w1,…,wN]T,εn為噪聲,服從εn~N(0,σ2),因此tn~N(y(zn,w),σ2)。假設(shè)預(yù)測函數(shù)tn之間相互獨(dú)立,那么就有:式中Φ是一個(gè)N×(N+1)的構(gòu)造矩陣,為了避免過擬合,需要約束模型中的權(quán)值ω,假設(shè)其服從高斯分布,α為超參數(shù)。當(dāng)輸入一組新的變量的時(shí)候,對(duì)應(yīng)的目標(biāo)值t*為p(t*|t)~p(w,α,σ2|t),根據(jù)先驗(yàn)概率分布和似然估計(jì)分布,可得權(quán)重的后驗(yàn)概率分布:p(ω,α,σ2|t)=p(ω|t,α,σ2)p(α,σ2|t)(18)對(duì)上式進(jìn)行近似處理,最終成了最大化p(α,σ2|t)∝p(t|α,σ2)p(α)p(σ2)的過程,也就是找到參數(shù)α和σ2最可能的值αMP、快速相關(guān)向量機(jī)在訓(xùn)練過程中從空集開始動(dòng)態(tài)地?cái)U(kuò)充基矩陣Φ,從而增大邊際似然函數(shù),或者去掉基矩陣Φ冗余的列來增大目標(biāo)函數(shù)。通過將邊界似然函數(shù)p(t|α,σ2)取對(duì)數(shù),記L(α)=log[p(t|α,σ2)],整理有:其中L(α-i)表示為當(dāng)αi=∞時(shí),相應(yīng)的基本向量φi被移除后所對(duì)應(yīng)的邊界似然函數(shù)的對(duì)數(shù),而l(αi)表示邊界似然的對(duì)數(shù)函數(shù)中只與αi有關(guān)的獨(dú)立部分。Si被定義為稀疏因子,Qi為質(zhì)量因子。L(α)有唯一最大值點(diǎn)為:為了最大化L(α),根據(jù)公式(20),不斷地迭代來尋找到合適的權(quán)重,這時(shí)超參數(shù)α也會(huì)對(duì)著權(quán)重w不斷更新,通過不斷地更新,可以得到最終的訓(xùn)練模型一些樣本點(diǎn)對(duì)應(yīng)的權(quán)重為零,那些不為零的點(diǎn)就是相關(guān)向量。如圖2所示,快速相關(guān)向量機(jī)分類基本算法步驟如下:(1)初始化σ2=0;(2)用單個(gè)基向量φi初始化αi,由公式(20)分析整理可得并設(shè)置其他的αm(m≠i)為無窮大;(3)計(jì)算協(xié)方差矩陣Σ、權(quán)重矩陣μ并對(duì)所有M個(gè)基函數(shù)φm初始化Sm和Qm;(4)從所有M個(gè)基函數(shù)φm集合中選擇候選的基向量φi;(5)計(jì)算(6)若θi>0且αi<∞,重新估計(jì)αi;(7)若θi>0且αi=∞,添加φi到模型中并重新估計(jì)αi;(8)若θi≤0且αi<∞,刪除φi并設(shè)置αi=∞;(9)用Laplace逼近方法重新計(jì)算協(xié)方差矩陣Σ,權(quán)重矩陣μ以及相應(yīng)迭代過程中的Sm和Qm;(10)若收斂或者達(dá)到最大迭代次數(shù),則終止程序;否則轉(zhuǎn)步驟(4);終止條件為:任意在模型中的基函數(shù)對(duì)應(yīng)的αi,有αi<le12且建立完快速相關(guān)向量機(jī)的而分類模型后,再將多個(gè)二分類器采用“一對(duì)一”方法相結(jié)合,建立一個(gè)多分類器,設(shè)待分類樣本為k個(gè)類別,這k類中的任意兩類都可以組成一個(gè)基本的快速相關(guān)向量機(jī)二分類器,對(duì)所有的訓(xùn)練樣本進(jìn)行兩兩分類,這樣k個(gè)類別兩兩之間共計(jì)可以構(gòu)成個(gè)快速相關(guān)向量機(jī)二分類器,每一個(gè)快速相關(guān)向量機(jī)分類器只在各自對(duì)應(yīng)的樣本子集上進(jìn)行訓(xùn)練。對(duì)未知樣本進(jìn)行分類測試時(shí),采用投票的方法,把每一個(gè)待測樣本都經(jīng)過全部個(gè)分類器進(jìn)行判別。例如,樣本在i、j兩類之間分類時(shí),機(jī)器判別結(jié)果其屬于第i類,就在第i類上增加1票,否則對(duì)第j類投票加1,直到所有的分類器分類完成,最后統(tǒng)計(jì)得票最多的類即為測試樣本所屬類別。設(shè)分類函數(shù)fij(x)用來判別i、j兩類樣本,若fij(x)<0,則判別x屬于第i類,記i類得1票,否則判x屬于第j類,記j類得1票,最后決策時(shí),比較哪一類得到的票最多,則將測試樣本規(guī)劃為該類。下面我們結(jié)合具體數(shù)據(jù)對(duì)本發(fā)明上述的加權(quán)極限學(xué)習(xí)機(jī)污水處理在線故障診斷方法進(jìn)行具體說明,如下:實(shí)驗(yàn)仿真的數(shù)據(jù)來自UCI數(shù)據(jù)庫,是一個(gè)污水處理廠的兩年內(nèi)的日常監(jiān)控?cái)?shù)據(jù),整個(gè)數(shù)據(jù)集包括不完整記錄在內(nèi)一共有527個(gè)記錄,每個(gè)樣本維數(shù)為38(即38個(gè)測量變量,對(duì)應(yīng)各個(gè)指標(biāo)的值),全部屬性值都完整的記錄有380個(gè),被監(jiān)測的水體一共有13種狀態(tài),各個(gè)狀態(tài)用數(shù)字代替(為方便起見省去狀態(tài)稱)。527個(gè)記錄在13種狀態(tài)下的分布情況見下表1。表1-527個(gè)記錄在13種狀態(tài)下的分布情況類別12345678910111213個(gè)數(shù)2791141163116515311為了簡化分類的復(fù)雜度,我們根據(jù)樣本類別的性質(zhì),將樣本分為4大類,如下表2。表2-527個(gè)記錄在4種狀態(tài)下的分布情況類別1234個(gè)數(shù)3321166514類別1為正常情況,類別2為性能超過平均值的正常情況,類別3為進(jìn)水流量低的正常情況,類別4為二沉池故障、暴雨引起的非正常狀態(tài)和固體溶度過負(fù)荷等原因引起的故障情況。本實(shí)施例上述的基于不平衡數(shù)據(jù)聚類的FastRVM污水處理的在線故障診斷方法,包含以下順序的步驟:S1.首先剔除掉527個(gè)污水?dāng)?shù)據(jù)中147個(gè)屬性不完整的數(shù)據(jù),得到380個(gè)屬性完整數(shù)據(jù),然后將數(shù)據(jù)按式歸一化處理,將處理后的數(shù)據(jù)集按2:1的比例進(jìn)行隨機(jī)分層抽樣,得到歷史數(shù)據(jù)集xold和在線更新測試集xnew。S2.將歷史數(shù)據(jù)集中的多數(shù)類樣本(第一類)提取出來,采用K-means方法將其聚成兩類,然后將聚類后的第一類數(shù)據(jù)采用快速相關(guān)向量機(jī)方法進(jìn)行建模,得到合適數(shù)量的相關(guān)向量,用所選取的相關(guān)向量代替多數(shù)類樣本;S3.根據(jù)向上采樣的倍率,采用虛擬少數(shù)類向上采樣的方法將歷史樣本中的少數(shù)類樣本(第三類和第四類)進(jìn)行擴(kuò);S4.將處理后的所有類的歷史樣本數(shù)據(jù)重新組合構(gòu)成新的歷史訓(xùn)練集,如表3所示,建立“一對(duì)一”的快速相關(guān)向量機(jī)多分類訓(xùn)練模型。多分類訓(xùn)練模型選用RBF核函數(shù),核寬度參數(shù)通過對(duì)新的訓(xùn)練集采用5折交叉驗(yàn)證的網(wǎng)格搜索方法來確定,然后根據(jù)總共有四個(gè)類別,一共建立6個(gè)二分類器;S5.從在線更新測試集xnew中取k個(gè)新樣本到多分類器模型中進(jìn)行測試,對(duì)6個(gè)分類器分別輸入測試集xnew,進(jìn)行投票,保存分類測試結(jié)果,將其添加到歷史數(shù)據(jù)集中,去掉歷史數(shù)據(jù)集中前k個(gè)樣本;S6.回到步驟S2,重新訓(xùn)練模型,不斷重復(fù)上述過程,直到在線更新數(shù)據(jù)測試完畢,得到最終在線測試結(jié)果,從而實(shí)現(xiàn)對(duì)污水處理過程的在線運(yùn)行狀態(tài)的識(shí)別。本發(fā)明所采用的基于聚類的FastRVM污水處理在線故障診斷模型能夠很好的滿足要求,從而實(shí)現(xiàn)對(duì)污水處理過程運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)測與控制,值得推廣。表2-527個(gè)記錄在4種狀態(tài)下的分布情況以上所述之實(shí)施例子只為本發(fā)明之較佳實(shí)施例,并非以此限制本發(fā)明的實(shí)施范圍,故凡依本發(fā)明之形狀、原理所作的變化,均應(yīng)涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。當(dāng)前第1頁1 2 3