一種Fast RVM污水處理故障診斷方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及污水處理領(lǐng)域,特別涉及一種Fast RVM污水處理故障診斷方法。
【背景技術(shù)】
[0002] 隨著我國(guó)工農(nóng)業(yè)經(jīng)濟(jì)的迅猛發(fā)展,城市進(jìn)程不斷加快,工業(yè)、農(nóng)業(yè)廢水及生活污水 排放量與日倶增,不僅加劇了市政污水處理負(fù)荷,還使得人類賴以生存的水資源遭到了極 大的破壞,各大湖泊出現(xiàn)了不同程度的富營(yíng)養(yǎng)化,城市水環(huán)境安全已經(jīng)成為了大眾關(guān)注的 焦點(diǎn)。污水處理廠作為自然水體的關(guān)鍵保護(hù)屏障,其運(yùn)行好壞將直接影響水環(huán)境的安全程 度。污水生化處理工藝復(fù)雜,影響因素非常多,污水處理廠在實(shí)際運(yùn)行過程中難以保持長(zhǎng)期 穩(wěn)定的運(yùn)行,一旦發(fā)生運(yùn)行故障常常會(huì)引起出水水質(zhì)不達(dá)標(biāo)、運(yùn)行費(fèi)用增高和環(huán)境二次污 染等嚴(yán)重問題。因此,必須對(duì)污水處理廠運(yùn)行狀態(tài)進(jìn)行監(jiān)控,及時(shí)診斷出污水處理過程故障 并予以處理。污水處理運(yùn)行狀態(tài)的故障診斷本質(zhì)上是一個(gè)模式分類問題,而在實(shí)際狀態(tài)運(yùn) 行分類中,常常會(huì)遇到污水?dāng)?shù)據(jù)集的分布不均衡問題,傳統(tǒng)的機(jī)器學(xué)習(xí)方法在用于不平衡 數(shù)據(jù)分類時(shí),模型分類正確率無法滿足要求,給污水生化處理的故障診斷帶來了極大的困 難。
[0003] 故障診斷技術(shù)是一種通過可見、可測(cè)量的關(guān)鍵指標(biāo)所反映的異常狀態(tài),找出具體 故障和原因,并提出相應(yīng)的解決措施的技術(shù)。故障診斷技術(shù)產(chǎn)生之初,是基于傳感器和動(dòng)態(tài) 測(cè)試技術(shù),通過信號(hào)處理技術(shù)進(jìn)行設(shè)備的故障分析與診斷。隨著科技的不斷進(jìn)步,生產(chǎn)設(shè)備 或工藝系統(tǒng)朝著復(fù)雜化、多元化、大型化發(fā)展,傳統(tǒng)的故障診斷技術(shù)已不能滿足現(xiàn)代設(shè)備的 診斷需求。而人工智能發(fā)展為故障診斷注入了新的活力,通過組織相關(guān)領(lǐng)域的專業(yè)知識(shí)、模 擬人類思維的推理方式、建立故障診斷模型,將故障診斷技術(shù)引向智能化、系統(tǒng)化、網(wǎng)絡(luò)化, 它在故障診斷領(lǐng)域中的進(jìn)一步應(yīng)用,推動(dòng)了智能故障診斷技術(shù)的迅速發(fā)展。目前,在污水生 化處理系統(tǒng)故障診斷方面,國(guó)內(nèi)外專家學(xué)者所采用的技術(shù)主要有,基于知識(shí)的專家系統(tǒng)技 術(shù)、支持向量機(jī)方法、粗糙集理論、基于神經(jīng)網(wǎng)絡(luò)的方法等。但是這些技術(shù)也存在一定的局 限性,專家系統(tǒng)存在知識(shí)獲取瓶頸問題,若建立的專家知識(shí)庫不完備,則有可能導(dǎo)致推理混 亂;支持向量機(jī)受到核函數(shù)必須滿足Mercer條件和懲罰參數(shù)C及不敏感參數(shù)計(jì)算量過大等 限制;粗糙集理論在處理異?;蛟肼晹?shù)據(jù)方面常常會(huì)顯得無能為力,并且在建立模型時(shí)需 要大量的數(shù)據(jù)樣本;神經(jīng)網(wǎng)絡(luò)容易陷入局部最優(yōu),且有過擬合及收斂速度慢的缺點(diǎn);而且關(guān) 于如何處理污水?dāng)?shù)據(jù)類型之間的平衡性,并且不影響故障診斷的性能,在目前的污水故障 診斷研究中較少提及。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種Fast RVM污水處理故障 診斷方法,通過基于聚類的快速相關(guān)向量機(jī)對(duì)多數(shù)類數(shù)據(jù)壓縮和虛擬少數(shù)類向上采樣的對(duì) 少數(shù)類數(shù)據(jù)擴(kuò)充,降低了污水?dāng)?shù)據(jù)的不平衡性,同時(shí)采用FastRVM對(duì)污水生化處理過程建立 分類模型,有效地提高了對(duì)污水生化處理系統(tǒng)的故障診斷精度。
[0005] 本發(fā)明的目的通過以下的技術(shù)方案實(shí)現(xiàn):
[0006] -種Fast RVM污水處理故障診斷方法,包含以下順序的步驟:
[0007] si.剔除污水輸入和輸出的數(shù)據(jù)中的異常點(diǎn),由于各輸入變量量綱的不同,對(duì)其進(jìn) 行歸一化處理,歸一化到[0,1 ]區(qū)間中;
[0008] S2.基于聚類的快速相關(guān)向量機(jī)多數(shù)類數(shù)據(jù)壓縮模塊,將訓(xùn)練樣本中的多數(shù)類樣 本數(shù)據(jù)采用K-means方法進(jìn)行聚類;
[0009] S3.虛擬少數(shù)類向上采樣的少數(shù)類數(shù)據(jù)擴(kuò)充模塊將訓(xùn)練樣本中的少數(shù)類樣本數(shù)據(jù) 采用SMOTE(虛擬少數(shù)類向上采樣方法)進(jìn)行數(shù)據(jù)擴(kuò)充;
[0010] S4.將處理后的所有類的樣本數(shù)據(jù)重新組合構(gòu)成新的訓(xùn)練集,建立"一對(duì)一"的快 速相關(guān)向量機(jī)多分類模型,對(duì)建好的分類模型輸入測(cè)試集進(jìn)行投票,得到測(cè)試結(jié)果,從而實(shí) 現(xiàn)對(duì)污水處理的整體運(yùn)行狀態(tài)的識(shí)別。
[0011] 所述的步驟S2,具體為:
[0012] S201、假設(shè)多數(shù)類樣本集X={X1,X2,…,Xl,…,Xn}為r^R d空間的數(shù)據(jù),從η個(gè)數(shù)據(jù) 對(duì)象中隨機(jī)選擇k個(gè)對(duì)象作為初始的聚類中心;
[0013] S202、然后對(duì)剩余的樣本對(duì)象則根據(jù)與各個(gè)聚類中心的距離分別分配到距離最相 近的聚類中心中;計(jì)算距離的公式如下,假設(shè)c偽第j個(gè)類的中心,則^與^的距離為:
[0015] S203、根據(jù)集合中的點(diǎn)更新每個(gè)類的聚類中心,假設(shè)第j個(gè)類中的樣本為
Φ包含了如個(gè)樣本,則該類的聚類中心戈
其中< 為類中心Cj的第m個(gè)屬性,計(jì)算公式如下: j
[0017] S204、不斷重復(fù)S202、S203步驟,直到標(biāo)準(zhǔn)測(cè)度函數(shù)收斂為止(從表現(xiàn)形式上看即 更新后的類中心與更新前一致,具體就是預(yù)先給標(biāo)準(zhǔn)測(cè)度函數(shù)設(shè)定精度,將更新后的數(shù)據(jù) 與更新前數(shù)據(jù)帶入標(biāo)準(zhǔn)測(cè)度函數(shù)能夠達(dá)到精度則停止更新),采用均方差作為計(jì)算標(biāo)準(zhǔn)測(cè) 度函數(shù),其形式為:
[0019] 將多數(shù)類樣本聚類后,對(duì)聚類后的樣本類別進(jìn)行快速相關(guān)向量機(jī)分類建模,從而 通過建模獲取相關(guān)向量。因?yàn)橄嚓P(guān)向量代表的是該類樣本數(shù)據(jù)的核心數(shù)據(jù),所以用得到相 關(guān)向量作為該多數(shù)類新的訓(xùn)練集,從而在壓縮多數(shù)類數(shù)據(jù)的同時(shí)也能最大程度上的保留數(shù) 據(jù)的有效信息。
[0020] 所述的步驟S3,具體為:
[0021] S301、對(duì)少數(shù)類中的每一個(gè)樣本X,以歐幾里得距離為標(biāo)準(zhǔn)計(jì)算它到少數(shù)類樣本集 中每個(gè)樣本的距離,獲得其中k個(gè)最近鄰,并記錄近鄰樣本的下標(biāo),這里k取5;
[0022] S302、根據(jù)向上采樣的倍率N,對(duì)每一個(gè)少數(shù)類樣本X,從其k個(gè)最近鄰中隨機(jī)選取N 個(gè)樣本,記為yi,y2,…,yN;
[0023] S303、在原樣本x與yj( j = l,2,···,N)之間進(jìn)行隨機(jī)線性插值,構(gòu)造新的少數(shù)類樣 本Pj,即新樣本:
[0025] 其中rand(0,l)表示區(qū)間(0,1)內(nèi)的一個(gè)隨機(jī)數(shù)。
[0026] 步驟S4中,"一對(duì)一"的快速相關(guān)向量機(jī)多分類模型,其建立過程如下:
[0027] 相關(guān)向量機(jī)是通過最大化邊際似然函數(shù)p(t |α,σ2)的方法確定超參數(shù)α和方差σ2 的,等價(jià)于最大化為其對(duì)數(shù);記以幻=1噸[?(〖|0,02)],整理有 :
[0030]為了便于最大化L(c〇,對(duì)矩陣C進(jìn)行等價(jià)變換,如下:
[0032] 其中< ' _ ^ ~此矩陣表示當(dāng)ai =⑴時(shí),相應(yīng)的基向量Φ?被移除后樣
τηΦ? 本對(duì)應(yīng)的協(xié)方差矩陣,根據(jù)矩陣相關(guān)性質(zhì)整理可得
(7)
[0035]因此公式(5)可以改寫為
[0037]其中L(cui)表示為當(dāng)ai = TO時(shí),相應(yīng)的基本向量(^被移除后所對(duì)應(yīng)的邊界似然函 數(shù)的對(duì)數(shù),而1(h)表示邊界似然的對(duì)數(shù)函數(shù)中只與αι有關(guān)的獨(dú)立部分;
[0038] 式子(8)對(duì)ai求偏導(dǎo)有
[0041]所以公式(9)可改寫為
[0043]令公式(11)等于零,考慮到"是方差值必須為正,所以當(dāng)g>S;時(shí)有
[0045]對(duì)L(a)關(guān)于ai求二階偏導(dǎo)有
[0047]綜合公式(11)和(12)進(jìn)行分析可知
[0049]所以當(dāng)這>$時(shí),公式(14)左邊的表達(dá)式是恒小于零的,并對(duì)以上推導(dǎo)公式分析 可得,L(a)有唯一最大值點(diǎn)為
[0051] 根據(jù)上面的分析,通過以下方法最大化貝葉