基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)方法及其系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù)處理技術(shù),更具體地涉及基于離群點(diǎn)檢測(cè)的數(shù)據(jù)處理方法及其數(shù)據(jù)處理系統(tǒng)。
[0002]
【背景技術(shù)】
[0003]數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),應(yīng)用于金融、電信等領(lǐng)域,主要特點(diǎn)是對(duì)大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和模型化處理,從中提取有助于商業(yè)決策的關(guān)鍵性數(shù)據(jù)。
[0004]隨著銀行信息化的迅速發(fā)展,從而產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),從海量數(shù)據(jù)中提取有價(jià)值的信息,從而為銀行的商業(yè)決策提供服務(wù)是數(shù)據(jù)挖掘的重要應(yīng)用領(lǐng)域。
[0005]作為大數(shù)據(jù)處理技術(shù)在銀行業(yè)的應(yīng)用,例如有風(fēng)險(xiǎn)評(píng)估、故障預(yù)警、行業(yè)趨勢(shì)預(yù)測(cè)等。例如,關(guān)于風(fēng)險(xiǎn)評(píng)估,能夠?qū)Τ挚ㄈ嘶蛸J款人的信用進(jìn)行評(píng)估,通過(guò)構(gòu)建信用評(píng)級(jí)模型,評(píng)估貸款人或者信用卡申請(qǐng)人的風(fēng)險(xiǎn)。關(guān)于故障預(yù)警,例如,根據(jù)經(jīng)驗(yàn),在故障發(fā)生之前往往系統(tǒng)會(huì)產(chǎn)生一些異常的狀態(tài),通過(guò)監(jiān)測(cè)這些異常的狀態(tài)并且實(shí)時(shí)對(duì)監(jiān)測(cè)到的參數(shù)進(jìn)行分析,能夠預(yù)測(cè)故障將會(huì)何時(shí)發(fā)生。關(guān)于行業(yè)趨勢(shì)預(yù)測(cè),行業(yè)交易數(shù)據(jù)在時(shí)間分別上具有一定的規(guī)律性,為了預(yù)測(cè)行業(yè)交易趨勢(shì)能夠根據(jù)已有的行業(yè)交易數(shù)據(jù)進(jìn)行分析,得到預(yù)測(cè)的行業(yè)趨勢(shì)。
[0006]但是,在上述行業(yè)趨勢(shì)預(yù)測(cè)中,行業(yè)交易數(shù)據(jù)中可能會(huì)包含一部分離群點(diǎn),導(dǎo)致行業(yè)趨勢(shì)預(yù)測(cè)精度誤差、準(zhǔn)確性低。
[0007]
【發(fā)明內(nèi)容】
[0008]鑒于上述問(wèn)題,本發(fā)明旨在提供一種精度誤差小、準(zhǔn)確性高的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)方法及其預(yù)測(cè)系統(tǒng)。
[0009]本發(fā)明的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)方法,其特征在于,包括下述步驟:
平穩(wěn)化處理步驟,對(duì)行業(yè)數(shù)據(jù)執(zhí)行平穩(wěn)化處理;
離群點(diǎn)檢測(cè)步驟,從經(jīng)過(guò)平穩(wěn)化處理后的行業(yè)數(shù)據(jù)中檢測(cè)出離群點(diǎn);
離群點(diǎn)修正步驟,修正檢測(cè)出的離群點(diǎn)數(shù)據(jù);以及
行業(yè)趨勢(shì)預(yù)測(cè)步驟,利用規(guī)定模型對(duì)經(jīng)過(guò)離群點(diǎn)修正的行業(yè)數(shù)據(jù)進(jìn)行行業(yè)趨勢(shì)預(yù)測(cè)。
[0010]優(yōu)選地,在所述平穩(wěn)化處理步驟中,按照規(guī)定時(shí)間間隔對(duì)行業(yè)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)并且對(duì)統(tǒng)計(jì)后的行業(yè)數(shù)據(jù)取對(duì)數(shù)以實(shí)現(xiàn)行業(yè)數(shù)據(jù)平穩(wěn)化。
[0011]優(yōu)選地,所述離群點(diǎn)檢測(cè)步驟包括下述子步驟:
對(duì)平穩(wěn)化后的行業(yè)數(shù)據(jù)取平均值和標(biāo)準(zhǔn)差;
利用平均值和標(biāo)準(zhǔn)差計(jì)算出最高數(shù)據(jù)序列和最低數(shù)據(jù)序列;
將平穩(wěn)化后的行業(yè)數(shù)據(jù)與計(jì)算出的最高數(shù)據(jù)序列和最低數(shù)據(jù)序列進(jìn)行比較,如果行業(yè)數(shù)據(jù)大于所述最高數(shù)據(jù)序列或者小于最低數(shù)據(jù)序列的話,判斷該行業(yè)數(shù)據(jù)為離群點(diǎn)。
[0012]優(yōu)選地,在所述離群點(diǎn)修正步驟中,將判斷為離群點(diǎn)的數(shù)據(jù)根據(jù)等差數(shù)列進(jìn)行修正。
[0013]優(yōu)選地,在所述行業(yè)趨勢(shì)預(yù)測(cè)步驟中,利用ARMA模型對(duì)經(jīng)過(guò)離群點(diǎn)修正的行業(yè)數(shù)據(jù)進(jìn)行行業(yè)趨勢(shì)預(yù)測(cè)。
[0014]本發(fā)明的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)系統(tǒng),其特征在于,包括:
平穩(wěn)化處理模塊,用于輸入行業(yè)數(shù)據(jù)并且對(duì)輸入的行業(yè)數(shù)據(jù)執(zhí)行平穩(wěn)化處理;
離群點(diǎn)檢測(cè)模塊,用于從所述平穩(wěn)化處理模塊輸出的經(jīng)過(guò)平穩(wěn)化處理后的行業(yè)數(shù)據(jù)中檢測(cè)出離群點(diǎn);
離群點(diǎn)修正模塊,用于修正由所述離群點(diǎn)檢測(cè)模塊檢測(cè)出的離群點(diǎn)數(shù)據(jù);以及行業(yè)趨勢(shì)預(yù)測(cè)模塊,用于利用規(guī)定模型對(duì)經(jīng)過(guò)離群點(diǎn)修正的行業(yè)數(shù)據(jù)進(jìn)行行業(yè)趨勢(shì)預(yù)測(cè)。
[0015]優(yōu)選地,所述平穩(wěn)化處理模塊按照規(guī)定時(shí)間間隔對(duì)行業(yè)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)并且對(duì)統(tǒng)計(jì)后的行業(yè)數(shù)據(jù)取對(duì)數(shù)以實(shí)現(xiàn)行業(yè)數(shù)據(jù)平穩(wěn)化。
[0016]優(yōu)選地,所述離群點(diǎn)檢測(cè)模塊對(duì)平穩(wěn)化后的行業(yè)數(shù)據(jù)取平均值和標(biāo)準(zhǔn)差,利用平均值和標(biāo)準(zhǔn)差計(jì)算出最高數(shù)據(jù)序列和最低數(shù)據(jù)序列,將平穩(wěn)化后的行業(yè)數(shù)據(jù)與計(jì)算出的最高數(shù)據(jù)序列和最低數(shù)據(jù)序列進(jìn)行比較,如果行業(yè)數(shù)據(jù)大于所述最高數(shù)據(jù)序列或者小于最低數(shù)據(jù)序列的話,判斷該行業(yè)數(shù)據(jù)為離群點(diǎn)。
[0017]優(yōu)選地,所述離群點(diǎn)修正模塊用于將判斷為離群點(diǎn)的數(shù)據(jù)根據(jù)等差數(shù)列進(jìn)行修正。
[0018]優(yōu)選地,所述行業(yè)趨勢(shì)預(yù)測(cè)模塊利用ARMA模型對(duì)經(jīng)過(guò)離群點(diǎn)修正的行業(yè)數(shù)據(jù)進(jìn)行行業(yè)趨勢(shì)預(yù)測(cè)。
[0019]通過(guò)本發(fā)明的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)方法及其預(yù)測(cè)系統(tǒng)有效解決了行業(yè)趨勢(shì)預(yù)測(cè)精度誤差大的問(wèn)題,通過(guò)對(duì)行業(yè)歷史交易數(shù)據(jù)進(jìn)行數(shù)據(jù)平穩(wěn)化,有效減少行業(yè)數(shù)據(jù)波動(dòng),然后對(duì)平穩(wěn)化后的數(shù)據(jù)進(jìn)行離群點(diǎn)檢測(cè),并根據(jù)行業(yè)歷史數(shù)據(jù)波動(dòng)規(guī)律對(duì)離群點(diǎn)數(shù)據(jù)進(jìn)行修正,經(jīng)過(guò)上述預(yù)處理的行業(yè)數(shù)據(jù)使用ARMA模型進(jìn)行預(yù)測(cè),預(yù)測(cè)出行業(yè)交易趨勢(shì)。
[0020]如上所述,根據(jù)本發(fā)明的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)方法及其預(yù)測(cè)系統(tǒng)能夠得到以下的技術(shù)效果:提供了行業(yè)交易趨勢(shì)預(yù)測(cè),可以很直觀的看出該行業(yè)是朝陽(yáng)行業(yè)還是夕陽(yáng)行業(yè);能夠形成一套數(shù)據(jù)預(yù)處理的理論方法,本發(fā)明同樣適用于其他類型的時(shí)間序列數(shù)據(jù),方便其他類型的時(shí)間序列數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;能夠提高行業(yè)趨勢(shì)預(yù)測(cè)精度,通過(guò)本發(fā)明,能夠準(zhǔn)確地預(yù)測(cè)未來(lái)一段時(shí)間行業(yè)交易情況,隨著行業(yè)歷史交易數(shù)據(jù)的不斷積累,行業(yè)趨勢(shì)預(yù)測(cè)精度越來(lái)越高。
[0021]
【附圖說(shuō)明】
[0022]圖1是表示本發(fā)明的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)方法的流程圖。
[0023]圖2是表示本發(fā)明的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)方法一個(gè)實(shí)施例的流程圖。
[0024]圖3是表示本發(fā)明的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0025]下面介紹的是本發(fā)明的多個(gè)實(shí)施例中的一些,旨在提供對(duì)本發(fā)明的基本了解。并不旨在確認(rèn)本發(fā)明的關(guān)鍵或決定性的要素或限定所要保護(hù)的范圍。
[0026]隨著大數(shù)據(jù)技術(shù)的發(fā)展,對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析已經(jīng)不能滿足需求,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。行業(yè)交易數(shù)據(jù)在時(shí)間分布上具有規(guī)律性,為了預(yù)測(cè)行業(yè)交易趨勢(shì),可以使用規(guī)定模型進(jìn)行預(yù)測(cè),但是行業(yè)交易數(shù)據(jù)中包含一部分離群點(diǎn)數(shù)據(jù),導(dǎo)致行業(yè)趨勢(shì)預(yù)測(cè)精度誤差大。
[0027]所謂離群點(diǎn)是指一個(gè)時(shí)間序列中,遠(yuǎn)離序列的一般水平的極端大值和極端小值。因此,也稱之為歧異值,有時(shí)也稱其為野值。
[0028]離群點(diǎn)對(duì)以后的時(shí)間序列分析都會(huì)造成一定的影響。從造成分析的困難來(lái)看,統(tǒng)計(jì)分析人員說(shuō)不希望序列中出現(xiàn)離群點(diǎn),離群點(diǎn)會(huì)直接影響模型的擬合精度,甚至?xí)玫揭恍┨搨蔚男畔?。例如,兩個(gè)相距很近的離群點(diǎn)將在譜分析中產(chǎn)生許多虛假的頻率。因此,離群點(diǎn)往往被分析人員看作是一個(gè)“壞值”。
[0029]為了消除行業(yè)數(shù)據(jù)中出現(xiàn)的離群點(diǎn)對(duì)預(yù)測(cè)精度的影響,提出了本發(fā)明。本發(fā)明的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)方法的要求點(diǎn)一:對(duì)行業(yè)歷史數(shù)據(jù)進(jìn)行平穩(wěn)化處理,減少行業(yè)歷史數(shù)據(jù)波動(dòng);要點(diǎn)二:針對(duì)平穩(wěn)化后的行業(yè)歷史數(shù)據(jù)進(jìn)行離群點(diǎn)檢測(cè),根據(jù)行業(yè)歷史數(shù)據(jù)波動(dòng)規(guī)律對(duì)離群點(diǎn)數(shù)據(jù)進(jìn)行修正;要點(diǎn)三:根據(jù)離群點(diǎn)修正后的行業(yè)歷史數(shù)據(jù)使用ARMA模型進(jìn)行行業(yè)趨勢(shì)預(yù)測(cè),預(yù)測(cè)行業(yè)未來(lái)交易情況。
[0030]接著,對(duì)于本發(fā)明的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)方法進(jìn)行說(shuō)明。
[0031]圖1是表示本發(fā)明的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)方法的流程圖。
[0032]如圖1所示,本發(fā)明的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)方法包括下述步驟:
平穩(wěn)化處理步驟SlOO:對(duì)行業(yè)數(shù)據(jù)執(zhí)行平穩(wěn)化處理,減少行業(yè)歷史數(shù)據(jù)波動(dòng);
離群點(diǎn)檢測(cè)步驟S200:從經(jīng)過(guò)平穩(wěn)化處理后的行業(yè)數(shù)據(jù)中檢測(cè)出離群點(diǎn);
離群點(diǎn)修正步驟S300:修正檢測(cè)出的離群點(diǎn)數(shù)據(jù);以及
行業(yè)趨勢(shì)預(yù)測(cè)步驟S400:利用規(guī)定模型對(duì)經(jīng)過(guò)離群點(diǎn)修正的行業(yè)數(shù)據(jù)進(jìn)行行業(yè)趨勢(shì)預(yù)測(cè)。
[0033]通過(guò)利用離群點(diǎn)檢測(cè)步驟S200和離群點(diǎn)修正步驟S300,能夠檢測(cè)到離群點(diǎn)并且修正離群點(diǎn),這樣能夠減少由于離群點(diǎn)造成的預(yù)測(cè)精度下降。
[0034]接著,對(duì)于本發(fā)明的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)方法一個(gè)實(shí)施例進(jìn)行說(shuō)明。
[0035]圖2是表示本發(fā)明的基于離群點(diǎn)檢測(cè)的行業(yè)趨勢(shì)預(yù)測(cè)方法一個(gè)實(shí)施例的流程圖。
[0036]如圖2所示,在步驟Sll中,輸入行業(yè)歷史交易數(shù)據(jù),這里行業(yè)歷史交易數(shù)據(jù)可以按照規(guī)定時(shí)間進(jìn)行統(tǒng)計(jì),例如,按周進(jìn)行統(tǒng)計(jì)。然后,對(duì)行業(yè)交易數(shù)據(jù)進(jìn)行平穩(wěn)化處理,最簡(jiǎn)單的方式之一是采用取對(duì)數(shù)的方法進(jìn)行平穩(wěn)化處理,例如,進(jìn)行取以2為底的對(duì)數(shù),實(shí)現(xiàn)行業(yè)交易數(shù)據(jù)平穩(wěn)化。
[0037]在步驟S12中,對(duì)