亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種用于管網(wǎng)建模的時(shí)序數(shù)據(jù)清洗方法與流程

文檔序號(hào):11155327閱讀:601來(lái)源:國(guó)知局
一種用于管網(wǎng)建模的時(shí)序數(shù)據(jù)清洗方法與制造工藝

本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,具體而言,涉及一種用于管網(wǎng)建模的時(shí)序數(shù)據(jù)清洗方法。



背景技術(shù):

管網(wǎng)建模過(guò)程中涉及到大量監(jiān)測(cè)數(shù)據(jù)處理,例如涉及到的以時(shí)間序列的數(shù)據(jù)主要有水廠出水壓力和出水流量的監(jiān)測(cè)數(shù)據(jù),居民生活用水量、用水模式數(shù)據(jù),用于模型校驗(yàn)的管網(wǎng)監(jiān)測(cè)點(diǎn)的壓力、流量數(shù)據(jù)等。但是,這些數(shù)據(jù)中有些是正確的,而有些則由于機(jī)械儀器誤差等某些不特定因素,會(huì)不可避免的存在某些時(shí)間點(diǎn)異常值、數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)等問(wèn)題。如果不加以篩選,勢(shì)必會(huì)對(duì)模型計(jì)算結(jié)果產(chǎn)生一定的影響甚至有可能直接導(dǎo)致模型計(jì)算不收斂,模型崩潰等現(xiàn)象的發(fā)生,因此我們?cè)趯⑦@些數(shù)據(jù)導(dǎo)入到模型計(jì)算之前需進(jìn)行數(shù)據(jù)的預(yù)處理使之達(dá)到清洗的效果,為模型的計(jì)算提供保證。

例如,在收集到的時(shí)序監(jiān)測(cè)數(shù)據(jù)中,有時(shí)候會(huì)出現(xiàn)個(gè)別的異常數(shù)值,從直觀上看,這個(gè)數(shù)據(jù)要比其它數(shù)據(jù)小許多或者大很多。在處理試驗(yàn)數(shù)據(jù)時(shí),對(duì)于這樣的個(gè)別異常值,是否要剔除,剔除后如何補(bǔ)齊,如果單純憑直覺(jué)判斷,缺乏理論上的依據(jù)。對(duì)于建模監(jiān)測(cè)數(shù)據(jù)中上述異常值、數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)問(wèn)題,目前還沒(méi)有一套完整的標(biāo)準(zhǔn)化處理流程。通常在建模時(shí)對(duì)于異常值僅為人工判斷合理區(qū)間,對(duì)于缺失值和異常值的處理是忽略缺失值使用簡(jiǎn)單的線(xiàn)性差值來(lái)補(bǔ)充異常值。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種用于管網(wǎng)建模的時(shí)序數(shù)據(jù)清洗方法,該方法針對(duì)管網(wǎng)建模中的時(shí)序數(shù)據(jù),能夠采取較為合理科學(xué)的數(shù)據(jù)預(yù)處理方式為模型計(jì)算的精度提供保證。

為實(shí)現(xiàn)上述技術(shù)目的,達(dá)到上述技術(shù)效果,本發(fā)明通過(guò)以下技術(shù)方案實(shí)現(xiàn):

一種用于管網(wǎng)建模的時(shí)序數(shù)據(jù)清洗方法,包括以下步驟:

步驟1)重復(fù)值篩出;

利用結(jié)構(gòu)化查詢(xún)語(yǔ)言(SQL)選取所需時(shí)間段的數(shù)據(jù),同一監(jiān)測(cè)點(diǎn)位的數(shù)據(jù)作為一組,進(jìn)行重復(fù)值查找,并刪除相同時(shí)間點(diǎn)的重復(fù)值;

步驟2)離散程度分析;

批量分別計(jì)算不同組數(shù)據(jù)最大值Xmax、最小值Xmin、平均值μ、標(biāo)準(zhǔn)差σ和變異系數(shù)CV,其中CV=σ/μ,通過(guò)標(biāo)準(zhǔn)差σ和變異系數(shù)CV來(lái)分析數(shù)據(jù)的離散程度,通過(guò)變異系數(shù)CV的處理可將不同量綱的流量和壓力數(shù)據(jù)同一批次處理;并對(duì)變異系數(shù)CV設(shè)定閾值,當(dāng)變異系數(shù)大于所設(shè)定的閾值時(shí),則判定該監(jiān)測(cè)點(diǎn)位的數(shù)據(jù)為無(wú)效數(shù)據(jù),并進(jìn)行刪除,不參與模型計(jì)算;

步驟3)異常值判定;

通過(guò)三倍標(biāo)準(zhǔn)差法確定上下限值,即正常值X為,確定上限值為,確定下限值為,對(duì)于不符合此范圍的值均為異常值進(jìn)行剔除;

步驟4)平滑曲線(xiàn)去噪點(diǎn);

對(duì)于已去除異常值的各組監(jiān)測(cè)點(diǎn)(離散點(diǎn))數(shù)據(jù)采用最小二乘法擬合平滑曲線(xiàn),首先確定一個(gè)函數(shù)逼近原函數(shù);設(shè)近似函數(shù)為,函數(shù)值與觀測(cè)值之差稱(chēng)為殘差,可以用殘差來(lái)衡量近似函數(shù)的好壞,具體方法為:

根據(jù)已知數(shù)據(jù)點(diǎn),先利用MATLAB解方程組,得到待定系數(shù)和擬合函數(shù);再利用擬合函數(shù)值代替曲線(xiàn)噪點(diǎn)值,達(dá)到曲線(xiàn)平滑的效果;進(jìn)一步的,可將替換噪點(diǎn)值后擬合函數(shù)值再次進(jìn)行擬合,重復(fù)上述步驟直至殘差滿(mǎn)足精度要求;

步驟5)對(duì)缺失值進(jìn)行插值處理;

采用三次樣條函數(shù)對(duì)缺失值進(jìn)行插值,通過(guò)上述步驟描述處理監(jiān)測(cè)的時(shí)序數(shù)據(jù)重復(fù)值、缺失值、異常值以及離散度較大的序列數(shù)據(jù);

在實(shí)際建模過(guò)程中進(jìn)行數(shù)據(jù)處理時(shí),先通過(guò)最小二乘法擬合出最逼近觀測(cè)值的函數(shù),總體把握數(shù)據(jù)的趨勢(shì)走向,同時(shí)甄別步驟3)中未能通過(guò)三倍標(biāo)準(zhǔn)差發(fā)去除的異常值并剔除,減小誤差的存在;

在實(shí)際導(dǎo)入模型數(shù)據(jù)時(shí),再利用局部分段的數(shù)據(jù),采用三次樣條曲線(xiàn)插值法將缺失值及異常值剔除的部分進(jìn)行補(bǔ)齊,以防止擬合曲線(xiàn)數(shù)據(jù)的失真,同時(shí)保留了原合理的觀測(cè)值。

進(jìn)一步的,步驟1)中,所述的時(shí)間段數(shù)據(jù)包括水廠出水壓力和出水流量的監(jiān)測(cè)數(shù)據(jù),居民生活用水量、用水模式數(shù)據(jù),以及用于模型校驗(yàn)的不同管網(wǎng)監(jiān)測(cè)點(diǎn)位的壓力、流量時(shí)序數(shù)據(jù)。

進(jìn)一步的,步驟2)中,所述變異系數(shù)的閾值可設(shè)定為1,即標(biāo)準(zhǔn)差σ小于平均值μ,實(shí)踐中當(dāng)變異系數(shù)<1時(shí),所監(jiān)測(cè)的壓力和流量時(shí)序列數(shù)據(jù)離散程度較好。

進(jìn)一步的,在步驟4)中,所述的函數(shù)的曲線(xiàn)在曲線(xiàn)圖上不要求過(guò)所有的數(shù)據(jù)點(diǎn)(可以消除誤差影響),但需要盡可能表現(xiàn)出數(shù)據(jù)的趨勢(shì),靠近這些數(shù)據(jù)點(diǎn)即可。

本發(fā)明的有益效果是:

本發(fā)明提供了異常值的判定,不同量綱的壓力數(shù)據(jù)流量數(shù)據(jù)的標(biāo)準(zhǔn)化處理,采用差異顯著性分析對(duì)異常值快速查找及替換的方法,同時(shí)對(duì)缺失數(shù)據(jù)進(jìn)行比較后選擇最合理的插值方式等一整套的數(shù)據(jù)處理流程。通過(guò)引入變異系數(shù)(標(biāo)準(zhǔn)差/平均數(shù))以實(shí)現(xiàn)不同量綱的壓力數(shù)據(jù)和流量數(shù)據(jù)標(biāo)準(zhǔn)化處理,可以同時(shí)進(jìn)行判定數(shù)組的離散程度并篩選。本發(fā)明在方法上先用三倍標(biāo)準(zhǔn)差法對(duì)于異常值數(shù)據(jù)查找處理再用最小二乘法擬合,極大減小了異常值對(duì)擬合結(jié)果的影響;同時(shí)用擬合函數(shù)對(duì)噪點(diǎn)數(shù)據(jù)平滑處理進(jìn)一步的減少異常數(shù)據(jù)的存在,最小二乘法擬合能夠滿(mǎn)足不符合正態(tài)分布的數(shù)據(jù)處理;最后采用三次樣條插值較線(xiàn)性插值能夠使插入的數(shù)值更加平滑。因此本發(fā)明的方法能夠在將數(shù)據(jù)導(dǎo)入到模型計(jì)算之前對(duì)其進(jìn)行預(yù)處理,以達(dá)到數(shù)據(jù)清洗的效果,為模型的計(jì)算提供保證。

上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,并可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,以下以本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說(shuō)明如后。本發(fā)明的具體實(shí)施方式由以下實(shí)施例及其附圖詳細(xì)給出。

附圖說(shuō)明

此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:

圖1為本發(fā)明的時(shí)序數(shù)據(jù)清洗方法的流程圖。

具體實(shí)施方式

下面將參考附圖并結(jié)合實(shí)施例,來(lái)詳細(xì)說(shuō)明本發(fā)明。

參照?qǐng)D1所示,一種用于管網(wǎng)建模的時(shí)序數(shù)據(jù)清洗方法,包括以下步驟:

步驟1)重復(fù)值篩出

利用結(jié)構(gòu)化查詢(xún)語(yǔ)言(SQL)選取所需時(shí)間段的數(shù)據(jù),所述的時(shí)間段數(shù)據(jù)包括水廠出水壓力和出水流量的監(jiān)測(cè)數(shù)據(jù),居民生活用水量、用水模式數(shù)據(jù),以及用于模型校驗(yàn)的不同管網(wǎng)監(jiān)測(cè)點(diǎn)位的壓力、流量時(shí)序數(shù)據(jù);同一監(jiān)測(cè)點(diǎn)位的數(shù)據(jù)作為一組,進(jìn)行重復(fù)值查找,并刪除相同時(shí)間點(diǎn)的重復(fù)值。

步驟2)離散程度分析

批量分別計(jì)算不同組數(shù)據(jù)最大值Xmax、最小值Xmin、平均值μ、標(biāo)準(zhǔn)差σ和變異系數(shù)CV。

設(shè)這組數(shù)值X1,X2,X3,......Xn其平均值(算術(shù)平均值)為μ;則標(biāo)準(zhǔn)差σ為:

變異系數(shù)為:CV=σ/μ。

通過(guò)標(biāo)準(zhǔn)差σ和變異系數(shù)CV來(lái)分析數(shù)據(jù)的離散程度,通過(guò)變異系數(shù)CV的處理可將不同量綱的流量和壓力數(shù)據(jù)同一批次處理;并對(duì)變異系數(shù)CV設(shè)定閾值,當(dāng)變異系數(shù)大于所設(shè)定的閾值時(shí),則判定該監(jiān)測(cè)點(diǎn)位的數(shù)據(jù)為無(wú)效數(shù)據(jù),并進(jìn)行刪除,不參與模型計(jì)算。

實(shí)際建模中通常會(huì)有某監(jiān)測(cè)點(diǎn)位部分時(shí)間段采集到的數(shù)據(jù)均為0,其余時(shí)間點(diǎn)數(shù)據(jù)正常,與實(shí)際情況并不符合,此組數(shù)據(jù)為無(wú)效數(shù)據(jù),這樣的數(shù)據(jù)的標(biāo)準(zhǔn)差及變異系數(shù)較大,因此可以通過(guò)離散度來(lái)分析去除。

實(shí)際經(jīng)驗(yàn)中當(dāng)變異系數(shù)<1時(shí),所監(jiān)測(cè)的數(shù)據(jù)離散程度較好,對(duì)于建模中所監(jiān)測(cè)的流量和壓力時(shí)序數(shù)據(jù)的變異系數(shù)的閾值可選擇為1,即標(biāo)準(zhǔn)差σ小于平均值μ。

步驟3)異常值判定

通過(guò)三倍標(biāo)準(zhǔn)差法確定上下限值,即正常值X為,確定上限值為,確定下限值為,對(duì)于不符合此范圍的值均為異常值進(jìn)行剔除。對(duì)于符合正態(tài)分布的數(shù)據(jù)數(shù)值分布在(μ-3σ,μ+3σ)中的概率為0.9974,因此在該區(qū)間之外的數(shù)據(jù)均被認(rèn)為是異常值。

步驟4)平滑曲線(xiàn)去噪點(diǎn);

對(duì)于已去除異常值的各組監(jiān)測(cè)點(diǎn)(離散點(diǎn))數(shù)據(jù)采用最小二乘法擬合平滑曲線(xiàn),首先確定一個(gè)函數(shù)逼近原函數(shù),該函數(shù)的曲線(xiàn)在曲線(xiàn)圖上不要求過(guò)所有的數(shù)據(jù)點(diǎn)(可以消除誤差影響),但該函數(shù)需要盡可能表現(xiàn)出數(shù)據(jù)的趨勢(shì),靠近這些數(shù)據(jù)點(diǎn)。

設(shè)近似函數(shù)為,函數(shù)值與觀測(cè)值之差稱(chēng)為殘差,可以用殘差來(lái)衡量近似函數(shù)的好壞,具體實(shí)現(xiàn)方法如下:

設(shè)已知數(shù)據(jù)點(diǎn),求m次多項(xiàng)式來(lái)擬合函數(shù)。需要求出m+1項(xiàng)多項(xiàng)式的待定系數(shù)即可,且使得以下函數(shù)值達(dá)到最?。?/p>

;

要使上述函數(shù)達(dá)到最小值,由高等數(shù)學(xué)知識(shí)有:

;

;

于是得到法方程:

;

轉(zhuǎn)換成矩陣如下

;

利用MATLAB解方程組,得到待定系數(shù)和擬合函數(shù)。

利用擬合函數(shù)值代替曲線(xiàn)噪點(diǎn)值,達(dá)到曲線(xiàn)平滑的效果。進(jìn)一步可將噪點(diǎn)值替換后再次進(jìn)行擬合,重復(fù)上述步驟直至殘差滿(mǎn)足精度要求。

步驟5)對(duì)缺失值進(jìn)行插值處理

采用三次樣條函數(shù)對(duì)缺失值進(jìn)行插值,通過(guò)上述步驟描述處理監(jiān)測(cè)的時(shí)序數(shù)據(jù)重復(fù)值、缺失值、異常值以及離散度較大的序列數(shù)據(jù);

在實(shí)際建模過(guò)程中進(jìn)行數(shù)據(jù)處理時(shí),先通過(guò)最小二乘法擬合出最逼近觀測(cè)值的函數(shù),總體把握數(shù)據(jù)的趨勢(shì)走向,同時(shí)甄別步驟3)中未能通過(guò)三倍標(biāo)準(zhǔn)差發(fā)去除的異常值并剔除,減小誤差的存在;

在實(shí)際導(dǎo)入模型數(shù)據(jù)時(shí),再利用局部分段的數(shù)據(jù),采用三次樣條曲線(xiàn)插值法將缺失值及異常值剔除的部分進(jìn)行補(bǔ)齊,具體實(shí)現(xiàn)方法如下:

在[a,b]上函數(shù)的三次樣條插值函數(shù)S(x)滿(mǎn)足:

(1)在[a,b]上0,1,2介導(dǎo)數(shù)連續(xù),即

;

(2);

(3)在區(qū)間上是三次多項(xiàng)式。

通過(guò)上述插值處理對(duì)剔除的異常值及缺失值進(jìn)行補(bǔ)齊,以防止擬合曲線(xiàn)數(shù)據(jù)的失真,同時(shí)保留了原合理的觀測(cè)值。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1