數(shù)據(jù)預(yù)處理方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)預(yù)處理方法。該數(shù)據(jù)預(yù)處理方法包括以下步驟:將數(shù)據(jù)點(diǎn)根據(jù)第一坐標(biāo)值分為子點(diǎn)組;在各個(gè)子點(diǎn)組內(nèi),計(jì)算得到其中的各個(gè)數(shù)據(jù)點(diǎn)的第二坐標(biāo)值之差,并通過計(jì)算得到各個(gè)數(shù)據(jù)點(diǎn)的局部離群點(diǎn)因子,利用離群點(diǎn)去噪將各個(gè)子點(diǎn)組內(nèi)的異常的數(shù)據(jù)點(diǎn)移除;對(duì)離群點(diǎn)去噪后的所有數(shù)據(jù)點(diǎn)進(jìn)行擬合并移除偏差較大的數(shù)據(jù)點(diǎn),并輸出去噪后數(shù)據(jù)組。本發(fā)明的數(shù)據(jù)預(yù)處理方法,通過對(duì)所有數(shù)據(jù)點(diǎn)的坐標(biāo)值進(jìn)行計(jì)算和分析,提高了數(shù)據(jù)預(yù)處理的準(zhǔn)確性和效率,能夠可靠地去除異常的數(shù)據(jù)點(diǎn)。
【專利說明】數(shù)據(jù)預(yù)處理方法【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)預(yù)處理方法。
【背景技術(shù)】
[0002]在利用采集到的或是測(cè)量得到的數(shù)據(jù)作進(jìn)一步研究時(shí),需要根據(jù)數(shù)據(jù)進(jìn)行一些計(jì)算,以從數(shù)據(jù)中找出一些規(guī)律或原理。然而在數(shù)據(jù)的測(cè)量或采集中都會(huì)遇到異常的數(shù)據(jù)點(diǎn),即因?yàn)榭陀^的測(cè)量條件或采集樣本的缺陷、或者主觀的采集數(shù)據(jù)的人員的操作失誤而導(dǎo)致的某些數(shù)據(jù)點(diǎn)是誤差很大從而不具備研究價(jià)值的。異常的數(shù)據(jù)點(diǎn)如果不加分辨的納入到后續(xù)的計(jì)算分析中,會(huì)對(duì)最終的計(jì)算分析的結(jié)果產(chǎn)生很大的影響。如何區(qū)分并排除掉異常的數(shù)據(jù)點(diǎn)是數(shù)據(jù)預(yù)處理中的重要課題。
[0003]尤其對(duì)于一些社會(huì)活動(dòng)、經(jīng)濟(jì)活動(dòng)的數(shù)據(jù),單個(gè)數(shù)據(jù)點(diǎn)是否可信常常無法藉由自然科學(xué)的規(guī)律來進(jìn)行判斷,并且對(duì)大量數(shù)據(jù)的逐個(gè)判斷效率也非常低下。這就迫切需要一種準(zhǔn)確高效的數(shù)據(jù)預(yù)處理方法來對(duì)原始數(shù)據(jù)進(jìn)行篩選以剔除異常的數(shù)據(jù)點(diǎn)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明要解決的技術(shù)問題是為了克服現(xiàn)有技術(shù)中缺少一種準(zhǔn)確高效的數(shù)據(jù)預(yù)處理方法來對(duì)原始數(shù)據(jù)進(jìn)行篩選以剔除異常的數(shù)據(jù)點(diǎn)的缺陷,提出一種數(shù)據(jù)預(yù)處理方法,通過對(duì)所有數(shù)據(jù)點(diǎn)的坐標(biāo)值進(jìn)行計(jì)算和分析,提高了數(shù)據(jù)預(yù)處理的準(zhǔn)確性和效率,能夠可靠地去除異常的數(shù)據(jù)點(diǎn),便于進(jìn)一步的分析研究。
[0005]本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題的:
[0006]本發(fā)明提供了一種數(shù)據(jù)預(yù)處理方法,其特點(diǎn)在于,包括以下步驟:
[0007]Sltll、選取多個(gè)數(shù)據(jù)點(diǎn)作為第一數(shù)據(jù)組,該第一數(shù)據(jù)組中的每個(gè)數(shù)據(jù)點(diǎn)包括一第一坐標(biāo)值和一第二坐標(biāo)值;
[0008]Sltl2、將該第一數(shù)據(jù)組中第一坐標(biāo)值與其他所有數(shù)據(jù)點(diǎn)的第一坐標(biāo)值都不同的數(shù)據(jù)點(diǎn)去除,作為一第二數(shù)據(jù)組;
[0009]Sltl3、將該第二數(shù)據(jù)組中第一坐標(biāo)值相同的數(shù)據(jù)點(diǎn)作為子點(diǎn)組,將所有子點(diǎn)組設(shè)置為未計(jì)算狀態(tài),并設(shè)置一同組點(diǎn)數(shù)量閾值k ;
[0010]Sltl4、判斷是否還有未計(jì)算狀態(tài)的子點(diǎn)組,在判斷結(jié)果為是時(shí)執(zhí)行步驟Sltl5,在判斷結(jié)果為否時(shí)執(zhí)行步驟S112;
[0011 ] S105、選定一未計(jì)算狀態(tài)的子點(diǎn)組作為當(dāng)前點(diǎn)組,判斷該當(dāng)前點(diǎn)組中的數(shù)據(jù)點(diǎn)數(shù)量是否大于等于該同組點(diǎn)數(shù)量閾值k,在判斷結(jié)果為是時(shí)執(zhí)行步驟Sltl6,在判斷結(jié)果為否時(shí)在判斷結(jié)果為否時(shí)執(zhí)行步驟S111;
[0012]Sltl6、該當(dāng)前點(diǎn)組中的數(shù)據(jù)點(diǎn)的數(shù)量為η,該當(dāng)前點(diǎn)組中的數(shù)據(jù)點(diǎn)m的第二坐標(biāo)值Sym、其中m為滿足I SmSn的整數(shù),分別計(jì)算出數(shù)據(jù)點(diǎn)m與所有子點(diǎn)組中的其他所有數(shù)據(jù)點(diǎn)的第二坐標(biāo)值之差、然后對(duì)第二坐標(biāo)值之差從小到大排序后依次選取前k個(gè)第二坐標(biāo)值之差對(duì)應(yīng)的數(shù)據(jù)點(diǎn)作為數(shù)據(jù)點(diǎn)m的子數(shù)據(jù)點(diǎn)yml、其中I為滿足KKk的整數(shù)、然后選取第k個(gè)第二坐標(biāo)值之差作為數(shù)據(jù)點(diǎn)m的第二坐標(biāo)值之差閾值Cm、其中m遍歷滿足1 ≤ m ≤n的所有整數(shù);
[0013]Sltl7、計(jì)算子數(shù)據(jù)點(diǎn)yml與數(shù)據(jù)點(diǎn)m的第二坐標(biāo)值之差sml,子數(shù)據(jù)點(diǎn)yml的可達(dá)距離aml為aml=rnax(sml,cm),其中m遍歷滿足1≤m≤η的所有整數(shù)、1遍歷滿足1 ≤ m ≤n的所有整數(shù);
[0014]S108、根據(jù)第一公式
【權(quán)利要求】
1.一種數(shù)據(jù)預(yù)處理方法,其特征在于,包括以下步驟: Sltll、選取多個(gè)數(shù)據(jù)點(diǎn)作為第一數(shù)據(jù)組,該第一數(shù)據(jù)組中的每個(gè)數(shù)據(jù)點(diǎn)包括一第一坐標(biāo)值和一第二坐標(biāo)值; Sltl2、將該第一數(shù)據(jù)組中第一坐標(biāo)值與其他所有數(shù)據(jù)點(diǎn)的第一坐標(biāo)值都不同的數(shù)據(jù)點(diǎn)去除,作為一第二數(shù)據(jù)組; Slc?、將該第二數(shù)據(jù)組中第一坐標(biāo)值相同的數(shù)據(jù)點(diǎn)作為子點(diǎn)組,將所有子點(diǎn)組設(shè)置為未計(jì)算狀態(tài),并設(shè)置一同組點(diǎn)數(shù)量閾值k; Sltl4、判斷是否還有未計(jì)算狀態(tài)的子點(diǎn)組,在判斷結(jié)果為是時(shí)執(zhí)行步驟Sltl5,在判斷結(jié)果為否時(shí)執(zhí)行步驟S112 ; Sltl5、選定一未計(jì)算狀態(tài)的子點(diǎn)組作為當(dāng)前點(diǎn)組,判斷該當(dāng)前點(diǎn)組中的數(shù)據(jù)點(diǎn)數(shù)量是否大于等于該同組點(diǎn)數(shù)量閾值k,在判斷結(jié)果為是時(shí)執(zhí)行步驟Sltl6,在判斷結(jié)果為否時(shí)執(zhí)行步驟 S111 ; Sltl6、該當(dāng)前點(diǎn)組中的數(shù)據(jù)點(diǎn)的數(shù)量為η,該當(dāng)前點(diǎn)組中的數(shù)據(jù)點(diǎn)m的第二坐標(biāo)值為ym、其中m為滿足KmSn的整數(shù),分別計(jì)算出數(shù)據(jù)點(diǎn)m與所有子點(diǎn)組中的其他所有數(shù)據(jù)點(diǎn)的第二坐標(biāo)值之差、然后對(duì)第二坐標(biāo)值之差從小到大排序后依次選取前k個(gè)第二坐標(biāo)值之差對(duì)應(yīng)的數(shù)據(jù)點(diǎn)作為數(shù)據(jù)點(diǎn)m的子數(shù)據(jù)點(diǎn)yml、其中I為滿足ISlSk的整數(shù)、然后選取第k個(gè)第二坐標(biāo)值之差作為數(shù)據(jù)點(diǎn)m的第二坐標(biāo)值之差閾值Cm、其中m遍歷滿足1≤ m≤η的所有整數(shù); Sltl7、計(jì)算子數(shù)據(jù)點(diǎn)yml與數(shù)據(jù)點(diǎn)m的第二坐標(biāo)值之差sml,子數(shù)據(jù)點(diǎn)yml的可達(dá)距離ami為aml=max (sml, cm),其中m遍歷滿足1≤m≤η的所有整數(shù)、I遍歷滿足ISlSk的所有整數(shù); S108>根據(jù)第一公式
2.如權(quán)利要求1所述的數(shù)據(jù)預(yù)處理方法,其特征在于,在該步驟S113和該步驟S114之間還包括一步驟S1131: S1131、利用該去噪后數(shù)據(jù)組的所有數(shù)據(jù)點(diǎn)作曲線擬合得到一第二擬合曲線和一第二標(biāo)準(zhǔn)差,將與該第二擬合曲線的距離大于等于該第二標(biāo)準(zhǔn)差的三倍的所有數(shù)據(jù)點(diǎn)從該去噪后數(shù)據(jù)組中移除。
3.如權(quán)利要求1所述的數(shù)據(jù)預(yù)處理方法,其特征在于,在該步驟Sltl2和該步驟Sltl3之間還包括一步驟Sltl21: Sltl21、將該第二坐標(biāo)值最大 的和最小的數(shù)據(jù)點(diǎn)從該第二數(shù)據(jù)組中移除。
4.如權(quán)利要求1所述的數(shù)據(jù)預(yù)處理方法,其特征在于,該同組點(diǎn)數(shù)量閾值k大于等于8。
5.如權(quán)利要求1所述的數(shù)據(jù)預(yù)處理方法,其特征在于,該離群點(diǎn)因子閾值Rtl的取值滿足1 < R0≤2。
6.如權(quán)利要求1-5中任意一項(xiàng)所述的數(shù)據(jù)預(yù)處理方法,其特征在于,該第一坐標(biāo)值為價(jià)格值,該第二坐標(biāo)值為銷量值。
7.如權(quán)利要求6所述的數(shù)據(jù)預(yù)處理方法,其特征在于,該多個(gè)數(shù)據(jù)點(diǎn)為最近50周內(nèi)的數(shù)據(jù)點(diǎn)。
8.如權(quán)利要求6所述的數(shù)據(jù)預(yù)處理方法,其特征在于,該步驟S112中的曲線擬合采用指數(shù)曲線擬合。
【文檔編號(hào)】G06F19/00GK103902798SQ201210581138
【公開日】2014年7月2日 申請(qǐng)日期:2012年12月27日 優(yōu)先權(quán)日:2012年12月27日
【發(fā)明者】蔡飛, 向旗 申請(qǐng)人:紐海信息技術(shù)(上海)有限公司