亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

改進(jìn)k?means算法的噪聲數(shù)據(jù)去除方法及實(shí)施系統(tǒng)與流程

文檔序號(hào):11155976閱讀:1630來(lái)源:國(guó)知局
改進(jìn)k?means算法的噪聲數(shù)據(jù)去除方法及實(shí)施系統(tǒng)與制造工藝

本發(fā)明涉及一種噪聲去除領(lǐng)域,尤其是涉及一種改進(jìn)k-means算法的噪聲數(shù)據(jù)去除方法及實(shí)施系統(tǒng)。



背景技術(shù):

噪聲數(shù)據(jù)可能是數(shù)據(jù)集中的錯(cuò)誤數(shù)據(jù),可能是測(cè)量變量時(shí)產(chǎn)生的隨機(jī)誤差或偏差,也可能是不相關(guān)的數(shù)據(jù)或者無(wú)意義的數(shù)據(jù)。噪聲數(shù)據(jù)的出現(xiàn)通常是由收集數(shù)據(jù)的儀器出錯(cuò)、數(shù)據(jù)傳輸中的錯(cuò)誤、技術(shù)上的限制或者數(shù)據(jù)輸入錯(cuò)誤等原因造成的。比如在傳感器網(wǎng)絡(luò)采集的過(guò)程中由于傳感器故障或者人為原因會(huì)導(dǎo)致采集到的數(shù)據(jù)在某一段時(shí)間出現(xiàn)較大波動(dòng),而這種波動(dòng)對(duì)后續(xù)的挖掘任務(wù)來(lái)說(shuō)是無(wú)意義的,且使得數(shù)據(jù)不在規(guī)定的數(shù)據(jù)域內(nèi),從而會(huì)影響后面的挖掘效果和結(jié)果,因此需要被消除。常用的消除噪聲數(shù)據(jù)的方法有:分箱法、回歸法、聚類法。

分箱法指通過(guò)參考周圍實(shí)例的值來(lái)平滑需要處理的數(shù)據(jù)值,分箱的主要目的是去噪,將連續(xù)數(shù)據(jù)離散化,增加粒度?,F(xiàn)有的分箱方法有等深分箱法和等寬分箱法,“箱的深度”表示不同的箱里有相同個(gè)數(shù)的數(shù)據(jù),“箱的寬度”表示每個(gè)箱值的取值區(qū)間。具體方法有按箱平均值平滑法(即把箱中的所有值平均,然后使用箱的平均值替代箱中所有數(shù)據(jù))、按箱中值平滑法(即對(duì)箱中的值求中值,然后使用箱的中值替代箱中所有數(shù)據(jù))以及按箱邊界平滑法(即把箱中的最大和最小值被視為箱邊界,箱中的每一個(gè)值用最近的箱邊界值替換)。由于分箱方法考慮相鄰的值,因此是一種局部平滑方法,該算法簡(jiǎn)單容易實(shí)現(xiàn),但使用該方法時(shí),原數(shù)據(jù)損失很大,不能有效保留原數(shù)據(jù)的特征。

回歸法是指可以用一個(gè)函數(shù)如回歸函數(shù)擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù)。線性回歸涉及找出擬合兩個(gè)屬性或變量的“最佳”線,使得一個(gè)屬性可以用來(lái)預(yù)測(cè)另一個(gè)。多元線性回歸是線性回歸的擴(kuò)展,其中涉及的屬性多于兩個(gè),并且數(shù)據(jù)擬合到一個(gè)多維曲面,該方法清除噪聲數(shù)據(jù)精確有效,但推廣能力不足,且由于需要擬合出最佳的曲線或曲面,故耗時(shí)也較大。

聚類法是通過(guò)發(fā)現(xiàn)數(shù)據(jù)中的族找出數(shù)據(jù)中的離群點(diǎn),然后將它們刪除,以此達(dá)到去除噪聲數(shù)據(jù)的目的,數(shù)據(jù)集中落在簇集之外的空氣溫度數(shù)據(jù)即為噪聲數(shù)據(jù)。

k-means算法是比較經(jīng)典的基于距離的聚類算法,它把k作為參數(shù)輸入,隨機(jī)選取k個(gè)中心點(diǎn),最終將n個(gè)對(duì)象劃分為k個(gè)簇,在這k個(gè)簇中同一簇中的成員具有較高的相似度,不同簇中的成員具有較高的相異度。k-means聚類算法中的聚類中心是通過(guò)計(jì)算一個(gè)簇中所有數(shù)據(jù)對(duì)象屬性的均值來(lái)確定的,因此,k-means算法通常用來(lái)處理數(shù)值型的屬性。

k-means算法在很多實(shí)際應(yīng)用中都是一種很有效的聚類方法。但是普通的k-means算法有一個(gè)很大的缺點(diǎn),即它的聚類結(jié)果隨著隨機(jī)選擇的初始聚類中心的變化會(huì)有很大的變化,因此不能保證總能得到比較好的聚類結(jié)果,且最終的聚類結(jié)果的精確度依賴于初始聚類中心的選擇。因此,初始中心點(diǎn)的選擇對(duì)最終的聚類結(jié)果有很大的影響,選擇適當(dāng)?shù)某跏贾行狞c(diǎn)可以加快聚類算法的收斂速度,而且還會(huì)改善聚類結(jié)果的質(zhì)量。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提供了一種改進(jìn)k-means算法的噪聲數(shù)據(jù)去除方法及實(shí)施系統(tǒng),該方法與該系統(tǒng)的結(jié)合在去除金針菇栽培過(guò)程空氣溫度數(shù)據(jù)中的噪聲數(shù)據(jù)時(shí),具有精確度高、穩(wěn)定性好、可靠性高、實(shí)時(shí)性強(qiáng)等優(yōu)點(diǎn)。

一種改進(jìn)k-means算法的噪聲數(shù)據(jù)去除方法,具體包括:

(1)采集空氣溫度數(shù)據(jù),利用最遠(yuǎn)優(yōu)先策略選出k個(gè)聚類中心作為當(dāng)前聚類中心,k為自然數(shù);

(2)根據(jù)當(dāng)前聚類中心對(duì)所有的空氣溫度數(shù)據(jù)進(jìn)行聚類,將每個(gè)空氣溫度數(shù)據(jù)聚到離它最近的聚類中心表示的聚類簇中;

(3)計(jì)算當(dāng)前每個(gè)聚類簇的均值作為新的聚類中心;

(4)判斷新的聚類中心與上一次的聚類中心是否相同,若是,執(zhí)行步驟(5),若否,將新的聚類中心作為當(dāng)前聚類中心,循環(huán)步驟(2)~步驟(4);

(5)計(jì)算所有新的聚類中心中任意兩個(gè)聚類中心之間的距離;

(6)判斷任意兩個(gè)聚類中心之間的距離是否大于設(shè)定的環(huán)境閾值,若是,執(zhí)行步驟(7),若否,執(zhí)行步驟(8);

(7)將任意兩個(gè)聚類中心之間的距離大于設(shè)定的環(huán)境閾值的那部分簇篩選出來(lái),然后將空氣溫度數(shù)據(jù)的數(shù)量較少且空氣溫度數(shù)據(jù)的均值偏離正常值較遠(yuǎn)的那一簇刪除;

(8)輸出不存在噪聲數(shù)據(jù)。

在步驟(1)中,最遠(yuǎn)優(yōu)先策略的基本思想:

首先從整個(gè)數(shù)據(jù)集合中隨機(jī)的選出一個(gè)空氣溫度數(shù)據(jù)作為第一個(gè)聚類中心,然后從剩下的數(shù)據(jù)中選離第一個(gè)中心最遠(yuǎn)的空氣溫度數(shù)據(jù)作為第二個(gè)中心,然后再?gòu)氖O碌臄?shù)據(jù)中選擇離前兩個(gè)中心點(diǎn)所組成的集合最遠(yuǎn)的空氣溫度數(shù)據(jù)作為第三個(gè)中心點(diǎn),以此類推,直到選擇的中心數(shù)達(dá)到所要求的簇?cái)?shù)為止。最遠(yuǎn)優(yōu)先策略就是使簇間的距離盡可能的遠(yuǎn),這正符合聚類定義的要求。

利用最遠(yuǎn)優(yōu)先策略選出k個(gè)聚類中心的步驟為:

(1-1)對(duì)于所有的空氣溫度數(shù)據(jù),隨機(jī)選擇一個(gè)空氣溫度數(shù)據(jù)作為第一個(gè)聚類中心;

(1-2)計(jì)算所有不是聚類中心的空氣溫度數(shù)據(jù)到聚類中心集合的最小距離;

(1-3)將當(dāng)前最小距離數(shù)組中最大的值所對(duì)應(yīng)的空氣溫度數(shù)據(jù)標(biāo)記為聚類中心;

(1-4)判斷聚類中心的個(gè)數(shù)是否小于k,若是,執(zhí)行步驟(1-2)~步驟(1-4),若否,輸出k個(gè)聚類中心。

在步驟(1-2)中,計(jì)算所有不是聚類中心的空氣溫度數(shù)據(jù)到聚類中心集合的最小距離的公式為:

D(x,Y)=min{d(x,y)|y∈Y}

其中,Y為聚類中心的集合,d(x,y)為標(biāo)準(zhǔn)化的歐式距離公式;

在步驟(4)中,新的聚類中心與上一次的聚類中心相同,則認(rèn)為得到的新的聚類結(jié)果與上一次的聚類結(jié)果一樣,聚類過(guò)程結(jié)束;新的聚類中心與上一次的聚類中心不相同,則認(rèn)為得到的新的聚類結(jié)果與上一次的聚類結(jié)果不同,需要繼續(xù)進(jìn)行尋優(yōu)聚類,直到聚類結(jié)果不變?yōu)橹埂?/p>

在步驟(6)中,所述的環(huán)境閾值根據(jù)實(shí)際需要自行設(shè)置,是對(duì)實(shí)際的空氣溫度數(shù)據(jù)的波動(dòng)程度的評(píng)估,所述的正常值指的是空氣溫度的理論值。

在步驟(6)中,若任意兩個(gè)聚類中心之間的距離小于設(shè)定的環(huán)境閾值,則認(rèn)為不存在噪聲數(shù)據(jù),環(huán)境閾值是根據(jù)空氣溫度數(shù)據(jù)的特征決定的。

改進(jìn)k-means算法的噪聲數(shù)據(jù)去除方法在初始聚類中心的選擇上引入了最遠(yuǎn)優(yōu)先策略,同時(shí)又引入了環(huán)境閾值來(lái)判斷數(shù)據(jù)中是否含有噪聲,使得去噪數(shù)據(jù)精確度高,穩(wěn)定性好。

改進(jìn)k-means算法的噪聲數(shù)據(jù)去除方法的實(shí)施系統(tǒng),包括置于底層的多組無(wú)線傳感器、置于中間層的嵌入式網(wǎng)關(guān)以及置于頂層的B/S結(jié)構(gòu);無(wú)線傳感器將采集的信號(hào)發(fā)送到嵌入式網(wǎng)關(guān),嵌入式網(wǎng)關(guān)響應(yīng)服務(wù)器的請(qǐng)求并將接收到的信號(hào)發(fā)送給B/S結(jié)構(gòu),B/S結(jié)構(gòu)對(duì)接受的信號(hào)進(jìn)行處理,完成噪聲數(shù)據(jù)的去除。

所述的無(wú)線傳感器內(nèi)置了ZigBee無(wú)線發(fā)射模塊,將采集到的信號(hào)通過(guò)相應(yīng)的協(xié)議發(fā)送到中間層的嵌入式網(wǎng)關(guān)。

所述的嵌入式網(wǎng)關(guān)負(fù)責(zé)接收無(wú)線傳感器上傳的數(shù)據(jù),同時(shí)響應(yīng)服務(wù)器的請(qǐng)求,并將數(shù)據(jù)發(fā)送給服務(wù)器。

所述的B/S結(jié)構(gòu)包括Web服務(wù)器與客戶端,Web服務(wù)器接收嵌入式網(wǎng)關(guān)上傳的數(shù)據(jù),并對(duì)數(shù)據(jù)解析和存儲(chǔ),同時(shí)響應(yīng)客戶端的請(qǐng)求,對(duì)用戶的請(qǐng)求做出反饋,是一個(gè)智慧農(nóng)業(yè)生產(chǎn)平臺(tái)部分。

在B/S結(jié)構(gòu)中,傳感器上傳的數(shù)據(jù)按其類型分類,分別存入不同的數(shù)據(jù)表,當(dāng)進(jìn)行去噪操作時(shí),用戶通過(guò)選擇日期來(lái)對(duì)相應(yīng)日期的數(shù)據(jù)進(jìn)行去噪操作,并以折線圖的形式展示去噪前后的環(huán)境數(shù)據(jù)變化情況,當(dāng)用于綜合應(yīng)用時(shí),可將分類模塊隱藏,設(shè)置為定時(shí)操作,如在每天的零點(diǎn),對(duì)前一天的所有數(shù)據(jù)進(jìn)行一次去噪操作,以方便后續(xù)的數(shù)據(jù)挖掘等操作。

所述的Web服務(wù)器采用Nginx+uWSGI組合服務(wù)器,部署在服務(wù)器上的Web應(yīng)用采用Django框架,該框架是python語(yǔ)言編寫(xiě)的一個(gè)Web應(yīng)用框架,采用了MVC的設(shè)計(jì)模式,非常適合快速開(kāi)發(fā)。

本發(fā)明改進(jìn)k-means算法的噪聲數(shù)據(jù)去除方法及實(shí)施系統(tǒng),將去除方法與實(shí)施系統(tǒng)相結(jié)合,具有以下優(yōu)點(diǎn):

(1)本發(fā)明在傳統(tǒng)聚類方法的基礎(chǔ)上,引入了環(huán)境閾值,同時(shí)加入了最遠(yuǎn)優(yōu)先策略,可以更快速、更準(zhǔn)確地識(shí)別出環(huán)境數(shù)據(jù)中的噪聲數(shù)據(jù)。

(2)本發(fā)明提供一種精確度高、穩(wěn)定性好、可靠性高、能夠遠(yuǎn)程實(shí)時(shí)性的去噪系統(tǒng),實(shí)現(xiàn)對(duì)采集到的環(huán)境參數(shù)進(jìn)行在線去噪,為后續(xù)的數(shù)據(jù)挖掘等操作提供有效的數(shù)據(jù)。

附圖說(shuō)明

圖1為實(shí)施改進(jìn)k-means算法的噪聲數(shù)據(jù)去除方法的系統(tǒng)結(jié)構(gòu)示意圖圖;

圖2為改進(jìn)k-means算法的噪聲數(shù)據(jù)去除方法的流程圖;

圖3為最遠(yuǎn)優(yōu)先策略選出k個(gè)聚類中心的方法流程圖;

圖4為實(shí)施例1中含有噪聲數(shù)據(jù)的空氣溫度數(shù)據(jù)圖;

圖5為實(shí)施例1中噪聲數(shù)據(jù)去除后的空氣溫度數(shù)據(jù)圖。

具體實(shí)施方式

為了更為具體地描述本發(fā)明,下面結(jié)合附圖及具體實(shí)施方式對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說(shuō)明。

如圖1所示,一種改進(jìn)k-means算法的噪聲數(shù)據(jù)去除方法的實(shí)施系統(tǒng),包括置于底層的30組無(wú)線傳感器、置于中間層的嵌入式網(wǎng)關(guān)以及置于頂層的Web服務(wù)器與客戶端;無(wú)線傳感器定時(shí)采集數(shù)據(jù)并將數(shù)據(jù)按相應(yīng)的協(xié)議打包好,通過(guò)內(nèi)置的zigbee無(wú)線發(fā)射模塊將數(shù)據(jù)發(fā)送到中間層的嵌入式網(wǎng)關(guān),該網(wǎng)關(guān)中同樣集成了zigbee無(wú)線模塊,主要用來(lái)接收傳感器上傳的數(shù)據(jù),同時(shí)響應(yīng)服務(wù)器的請(qǐng)求將數(shù)據(jù)發(fā)送給頂層的Web服務(wù)器,Web服務(wù)器定時(shí)向嵌入式網(wǎng)關(guān)請(qǐng)求數(shù)據(jù),并將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,客戶端通過(guò)可視化的界面,對(duì)服務(wù)器中的數(shù)據(jù)進(jìn)行查看、編輯等各項(xiàng)操作。

如圖2所示,一種基于k-means算法的噪聲數(shù)據(jù)處理算法具體包括:

步驟1,采集空氣溫度數(shù)據(jù),利用最遠(yuǎn)優(yōu)先策略選出k個(gè)聚類中心作為當(dāng)前聚類中心。

最遠(yuǎn)優(yōu)先策略的基本思想:

首先從整個(gè)數(shù)據(jù)集合中隨機(jī)的選出一個(gè)空氣溫度數(shù)據(jù)作為第一個(gè)聚類中心,然后從剩下的數(shù)據(jù)中選離第一個(gè)中心最遠(yuǎn)的空氣溫度數(shù)據(jù)作為第二個(gè)中心,然后再?gòu)氖O碌臄?shù)據(jù)中選擇離前兩個(gè)中心點(diǎn)所組成的集合最遠(yuǎn)的空氣溫度數(shù)據(jù)作為第三個(gè)中心點(diǎn),以此類推,直到選擇的中心數(shù)達(dá)到所要求的簇?cái)?shù)為止。最遠(yuǎn)優(yōu)先策略就是使簇間的距離盡可能的遠(yuǎn),這正符合聚類定義的要求。

如圖3所示,利用最遠(yuǎn)優(yōu)先策略選出k個(gè)聚類中心的步驟為:

步驟1-1,對(duì)于所有的空氣溫度數(shù)據(jù),隨機(jī)選擇一個(gè)空氣溫度數(shù)據(jù)作為第一個(gè)聚類中心;

步驟1-2,根據(jù)以下公式,計(jì)算所有不是聚類中心的空氣溫度數(shù)據(jù)到聚類中心集合的最小距離:

D(x,Y)=min{d(x,y)|y∈Y}

其中,Y為聚類中心的集合,d(x,y)為標(biāo)準(zhǔn)化的歐式距離公式;

步驟1-3,將當(dāng)前最小距離數(shù)組中最大的值所對(duì)應(yīng)的空氣溫度數(shù)據(jù)標(biāo)記為聚類中心;

步驟1-4,判斷聚類中心的個(gè)數(shù)是否小于k,若是,執(zhí)行步驟1-2~步驟1-4,若否,輸出k個(gè)聚類中心。

步驟2,根據(jù)當(dāng)前聚類中心對(duì)所有的空氣溫度數(shù)據(jù)進(jìn)行聚類,將每個(gè)空氣溫度數(shù)據(jù)聚到離它最近的聚類中心表示的聚類簇中。

步驟3,計(jì)算當(dāng)前每個(gè)聚類簇的均值作為新的聚類中心。

步驟4,判斷新的聚類中心與上一次的聚類中心是否相同,若是,執(zhí)行步驟5,若否,將新的聚類中心作為當(dāng)前聚類中心,循環(huán)步驟2~步驟4。

步驟5,計(jì)算所有新的聚類中心中任意兩個(gè)聚類中心之間的距離。

步驟6,判斷任意兩個(gè)聚類中心之間的距離是否大于設(shè)定的環(huán)境閾值,若是,執(zhí)行步驟7,若否,執(zhí)行步驟8;

步驟7,將任意兩個(gè)聚類中心之間的距離大于設(shè)定的環(huán)境閾值的那部分簇篩選出來(lái),然后將空氣溫度數(shù)據(jù)的數(shù)量較少且空氣溫度數(shù)據(jù)的均值偏離正常值較遠(yuǎn)的那一簇刪除;

步驟8,輸出不存在噪聲數(shù)據(jù)。

實(shí)施例1

從東北某金針菇工廠中采集回來(lái)的金針菇栽培過(guò)程中的某日某庫(kù)房1號(hào)節(jié)點(diǎn)的空氣溫度數(shù)據(jù)總數(shù)為1443個(gè),將這1443個(gè)空氣溫度數(shù)據(jù)畫(huà)成折線圖,分析折線圖可得,空氣溫度值的上下波動(dòng)不超過(guò)1℃,因此將環(huán)境閾值設(shè)置為1,選取的聚類中心的個(gè)數(shù)為2個(gè)。

從東北某金針菇工廠中采集回來(lái)的金針菇栽培過(guò)程中的某日某庫(kù)房2號(hào)節(jié)點(diǎn)的空氣溫度數(shù)據(jù)總數(shù)為1444個(gè),圖4是采集到的1444個(gè)數(shù)據(jù)的分布圖,可以看出當(dāng)日數(shù)據(jù)在某一點(diǎn)處有一個(gè)極大值,且持續(xù)時(shí)間很短,初步判斷是由傳感器故障引起,需要被去除。

采用傳統(tǒng)的k-means算法和本發(fā)明改進(jìn)的算法分別處理1444個(gè)空氣溫度數(shù)據(jù),結(jié)果發(fā)現(xiàn),當(dāng)傳統(tǒng)的k-means算法作用于該空氣溫度數(shù)據(jù)時(shí),算法迭代了兩次便停止了,且簇內(nèi)誤差平方和達(dá)到了77.91,通過(guò)聚類分成的兩簇所占的數(shù)量可以看出,該算法此次并沒(méi)有把噪聲數(shù)據(jù)正確分離出來(lái)。而本發(fā)明改進(jìn)的k-means算法作用于該空氣溫度數(shù)據(jù)時(shí),該算法同樣是迭代了兩次,但簇內(nèi)誤差平方和僅為1.64,較傳統(tǒng)的k-means算法來(lái)說(shuō)非常的小,且從聚成的兩類所占數(shù)量來(lái)看,本發(fā)明的方法成功地把噪聲數(shù)據(jù)分離了出來(lái),達(dá)到了噪聲點(diǎn)去除的效果,從圖5可以明顯地看出,噪聲數(shù)據(jù)已經(jīng)被成功去除。

以上所述的具體實(shí)施方式對(duì)本發(fā)明的技術(shù)方案和有益效果進(jìn)行了詳細(xì)說(shuō)明,應(yīng)理解的是以上所述僅為本發(fā)明的最優(yōu)選實(shí)施例,并不用于限制本發(fā)明,凡在本發(fā)明的原則范圍內(nèi)所做的任何修改、補(bǔ)充和等同替換等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1