專利名稱:一種基于計算智能的時間序列多步預(yù)報方法
技術(shù)領(lǐng)域:
本發(fā)明屬于時間序列分析的主要組成部分,涉及使用計算智能方法預(yù)報時間序列的未來變化情況。該方法根據(jù)時間序列的變化規(guī)律尋求未來發(fā)展趨勢,可廣泛應(yīng)用于科研、工業(yè)、農(nóng)業(yè)、商業(yè)等各個領(lǐng)域,例如金融預(yù)報、大氣污染預(yù)報、電力預(yù)報、產(chǎn)量預(yù)報、水位預(yù)報、災(zāi)難預(yù)報、等等。以大氣污染預(yù)報為例,給出一個典型的應(yīng)用場景已知某大氣污染觀測站連續(xù)3年(36個月)的歷史記錄X= (X1, x2, x3,…x36}, X中的每一個元素表示當(dāng)月平均大氣污染指數(shù),需要對第4年中每個月的平均大氣污染指數(shù)進行預(yù)報。本發(fā)明所公開的方法十分適合解決此類問題,且具有領(lǐng)域無關(guān)性,因此具有推廣意義。
背景技術(shù):
時間序列預(yù)報是時間序列分析的主要組成部分,它根據(jù)事物的變化規(guī)律尋求未來發(fā)展趨勢,在科研,工業(yè),商業(yè)等各個領(lǐng)域中發(fā)揮著重要作用。隨著社會生產(chǎn)和人們生活的不斷發(fā)展,傳統(tǒng)的時間序列預(yù)報技術(shù)已經(jīng)無法滿足實際預(yù)報問題的需要,新的預(yù)報求解算法必須同時滿足以下條件I)更低的預(yù)報誤差;2)更快的預(yù)報速度;3) “支持未來單步預(yù)報”升級為“支持未來多步預(yù)報”;4)算法能夠自動化的進行智能調(diào)整以適應(yīng)數(shù)據(jù)的變化規(guī)律。針對時間序列預(yù)報的問題,國內(nèi)外提出了一些解決方案(I)線性時間序列方法將時間序列變化過程看成是線性回歸過程。最具代表性的是Box-Jenkins線性時間序列算法,又稱AR族算法,包括AR (purely autoregressive), MA (purelymoving average), ARMA(autoregressive moving average), ARIMA(autoregressiveintegrated moving average), and ARFIMA(autoregressive fractionally integratedmoving average)。后來又有學(xué)者將算法的殘差進行二次建模,為AR族增添了ARCH(autoregressive conditional heteroskedasticity)以及 GARCH(generalizedautoregressive conditional heterosjedasticity)等。AR 方矣算法涵蓋的范圍較廣,其它線性算法如Markov過程,Mean/Median過程等都可以部分或全部用AR族算法來表達。線性時間序列方法的優(yōu)點是效率較高,主要不足之處在于所有算法的建立都以線性作為前提條件,而實際問題往往是非線性的,因而用線性算法概括其變化規(guī)律,難以獲得準(zhǔn)確結(jié)果。(2)小波分析方法將時間序列變化過程看成是多重波形的迭加過程。根據(jù)事件發(fā)生的周期性來預(yù)報將來要發(fā)生的事件。優(yōu)點是對周期性的行為預(yù)報較好,自適應(yīng)性強。缺點是不適合隨機性應(yīng)用,所以這種方法通常無法單獨完成預(yù)報任務(wù),需要與其他技術(shù)相結(jié)合使用。(3)隨機信息方法
將時間序列變化過程看成是隨機過程。這種方法認(rèn)為時間序列信息是正態(tài)分布的。然而在實際應(yīng)用中,數(shù)據(jù)信息不可能完全服從正態(tài)分布,如果把它改成區(qū)間分布,即時間序列預(yù)報值是這個區(qū)間的一個隨機值,這種方法的可靠性將會有所提高。優(yōu)點是簡單,直觀,快速。局限性是區(qū)間算法的前提是區(qū)間上值的分布必須是統(tǒng)一的,這在實際應(yīng)用中完全無法滿足。(4)人工神經(jīng)網(wǎng)絡(luò)方法人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network)具有強大的自學(xué)習(xí)功能,通過適當(dāng)?shù)挠?xùn)練就能準(zhǔn)確獲得時間序列特征并產(chǎn)生預(yù)報。這種預(yù)報本質(zhì)上具有并行分布式處理結(jié)構(gòu),適用于多信息融合,可同時綜合定量,定性信息,具有魯棒性。人工神經(jīng)網(wǎng)絡(luò)已經(jīng)被很多研究用于時間序列預(yù)報。眾多研究表明人工神經(jīng)網(wǎng)絡(luò)預(yù)報要比傳統(tǒng)的線性時間序列預(yù)報方法更加精確。然而,人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程比較復(fù)雜,算法參數(shù)的確定過程難以規(guī)范化,算法擬合速度慢,而且容易陷入局部極小。(5)支持向量機方法 支持向量機(Support Vector Machine, SVM)以其良好的泛化性,凸集上最優(yōu)值的唯一性,以及解的稀疏性等優(yōu)點,成為多種非線性問題的首選解決方法。傳統(tǒng)的回歸技術(shù),包括神經(jīng)網(wǎng)絡(luò)方法在內(nèi),都是基于經(jīng)驗風(fēng)險最小化(Empirical Risk Minimization,ERM)原則,這就不可避免會出現(xiàn)算法過擬合和欠擬合風(fēng)險;而SVM則是基于結(jié)構(gòu)風(fēng)險最小化(Structural Risk Minimization, SRM)原則,它同時控制算法復(fù)雜度與泛化風(fēng)險,而非僅僅控制訓(xùn)練誤差。因而與傳統(tǒng)方法相比,SVM有望獲得更好的性能。眾多研究驗證了 SVM用于時間序列預(yù)報的可行性。不過SVM算法中存在多個參數(shù),參數(shù)的選擇過程難以規(guī)范化,不支持樣本特征的選擇,而且其向量化操作的要求也提高了其應(yīng)用門檻??傊?,現(xiàn)有的時間序列預(yù)報方法無法滿足實際預(yù)報問題的需要,亟待低誤差、高效率、自動化、自適應(yīng)的時間序列多步預(yù)報解決方案。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有時間序列預(yù)報技術(shù)的不足,提供完整的低誤差、高效率、自動化、自適應(yīng)的時間序列多步預(yù)報解決方案。本發(fā)明克服了現(xiàn)有技術(shù)中的不足,提供了一種基于計算智能的時間序列多步預(yù)報方法,所述方法其要點包括I、基于全局最值的時間序列數(shù)據(jù)縮放策略時間序列數(shù)據(jù)會隨實際應(yīng)用問題的不同而帶有不同的量綱,因此時序數(shù)據(jù)的數(shù)值范圍可能會很大,較大的數(shù)值計算會給算法和計算機帶來負(fù)擔(dān),導(dǎo)致較大誤差。預(yù)報算法通常只對有限數(shù)據(jù)區(qū)間反應(yīng)靈敏,因此本發(fā)明在應(yīng)用預(yù)報算法以前,基于全局最值對時間序列數(shù)據(jù)按比例映射到目標(biāo)縮放數(shù)據(jù)區(qū)間,預(yù)報結(jié)束后再將預(yù)報結(jié)果按照相同比例映射回原始的數(shù)據(jù)區(qū)間。2、基于滑動時間窗口的向量化樣本生成策略時間序列數(shù)據(jù)是一個散點集,而預(yù)報過程中需要向量化的樣本集才能完成預(yù)報過程,因此本發(fā)明在預(yù)報過程以前,基于滑動時間窗口規(guī)則將時序散點集轉(zhuǎn)化為向量化的樣本集。同時,該樣本生成策略還將未來單步預(yù)報擴展為未來多步預(yù)報。3、基于計算智能的預(yù)報策略
計算智能算法能夠滿足非線性、數(shù)據(jù)適應(yīng)性、預(yù)報過程自動化等要求,因此本發(fā)明采用計算智能算法作為時間序列預(yù)報問題的基礎(chǔ)算法。人工神經(jīng)網(wǎng)絡(luò)和支持向量機,是計算智能算法的典型代表,都可以用來實現(xiàn)預(yù)報過程,當(dāng)然其他相似的計算智能算法也可以適用于此預(yù)報策略。4、基于精度與效率并重的算法評價策略精度與效率是評價預(yù)報算法性能的兩項主要指標(biāo),本發(fā)明的目的是要建立同時滿足高精度和高效率的預(yù)報算法,因此提出了精度與效率并重的算法評價策略。進一步說,隨著實際應(yīng)用領(lǐng)域的不同,預(yù)報算法對精度或效率可能會有所偏重,本發(fā)明提出的算法評價策略也支持精度優(yōu)先與效率優(yōu)先的情況。
5、預(yù)報算法的參數(shù)選擇策略與樣本特征選擇策略基于計算智能算法的時間序列預(yù)報,其算法通常有多個可以調(diào)節(jié)的參數(shù),如何調(diào)節(jié)這些參數(shù)找到最佳的參數(shù)組合是一個重要的性能提升策略;其次,向量化的樣本集中存在的不相關(guān)特征也會影響算法的精度與效率,如何發(fā)現(xiàn)并去掉這些特征是另一個重要的性能提升策略;另外,兩種策略還是相關(guān)關(guān)聯(lián)的,可作為組合策略來處理。本發(fā)明采用進化計算方法來實現(xiàn)此組合策略。粒子群算法和遺傳算法,是進化計算方法的典型代表,都可以用來實現(xiàn)組合策略,當(dāng)然其他相似的進化計算方法也可以適用于此策略。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點是I、使用預(yù)報算法的靈敏區(qū)間對數(shù)據(jù)進行處理,有效降低了算法的誤差。2、彌補了散點數(shù)據(jù)集與向量樣本集之間的鴻溝,將未來單步預(yù)報擴展到未來多步預(yù)報。3、采用了基于計算智能算法的預(yù)報策略,算法能夠根據(jù)數(shù)據(jù)集的特征動態(tài)建立,具有通用性、自適應(yīng)性和自動化的特點,且不局限于某一種算法。4、提出了精度與效率并重的性能評價策略,并且支持實際問題中精度優(yōu)先或效率優(yōu)先的情況。5、提出了預(yù)報算法的參數(shù)選擇策略與樣本特征選擇策略,能夠根據(jù)數(shù)據(jù)集的特征動態(tài)選擇算法參數(shù)和樣本特征,具有通用性、自適應(yīng)性和自動化的特點,且不局限于某一種算法。
圖I.時間序列多步預(yù)報流程圖。圖2 預(yù)報算法原理圖。圖3.支持向量機的輸出函數(shù)結(jié)構(gòu)圖。圖4.參數(shù)選擇與樣本特征選擇的組合求解過程。
具體實施例方式有關(guān)本發(fā)明的技術(shù)內(nèi)容及詳細(xì)說明,現(xiàn)配合
如下本發(fā)明公開的一種基于計算智能的時間序列多步預(yù)報方法,涵蓋了數(shù)據(jù)縮放、樣本生成、自動化預(yù)報算法生成、算法評價、自動化參數(shù)選擇、自動化樣本特征選擇等方面,是一套完整的系統(tǒng)化解決方案,該方法能夠全程自動化實現(xiàn),具有數(shù)據(jù)自適應(yīng)性,是時間序列多步預(yù)報的通用方法,圖I給出了時間序列多步預(yù)報的流程圖。下面給出具體的實現(xiàn)方式I、基于全局最值的時間序列數(shù)據(jù)縮放策略本策略建立原始區(qū)間到目標(biāo)縮放區(qū)間的數(shù)據(jù)映射關(guān)系。令集合Z = IzJu= f表示原始區(qū)間上的時間序列數(shù)據(jù)集,z為原始值,Zmax與Zmin分別表示集合Z的全局最大值與全局最小值;令集合Z’ = |z’ } =廣表示目標(biāo)區(qū)間上的時間序列數(shù)據(jù)集,z’為目標(biāo)區(qū)間[lb,up]內(nèi)的縮放值,Ib與Ub分別表示目標(biāo)區(qū)間的下界與上界;則數(shù)據(jù)縮放策略的正向映射函數(shù)與反向映射函數(shù)分別由公式I和2給出
權(quán)利要求
1.一種基于計算智能的時間序列多步預(yù)報方法,其特征在于,包含以下步驟 (a)基于全局最值對時間序列進行數(shù)據(jù)縮放,包括建立原始區(qū)間到目標(biāo)縮放區(qū)間的數(shù)據(jù)映射關(guān)系;在輸入數(shù)據(jù)進入預(yù)報算法前,將數(shù)據(jù)從原始區(qū)間映射到目標(biāo)縮放區(qū)間;在預(yù)報數(shù)據(jù)輸出預(yù)報算法后,將數(shù)據(jù)從目標(biāo)縮放區(qū)間映射回原始區(qū)間; (b)基于滑動時間窗口生成向量化樣本,包括將時間序列散點集轉(zhuǎn)化成向量化的樣本集,在轉(zhuǎn)化過程中引入滑動時間窗口規(guī)則,預(yù)報步長作為控制轉(zhuǎn)化過程的參數(shù); (c)基于計算智能的預(yù)報策略,包括時間序列多步預(yù)報算法是一個具有多維輸入一維輸出的數(shù)學(xué)算法,算法的建立過程通過樣本訓(xùn)練的方法實現(xiàn),訓(xùn)練結(jié)束后形成預(yù)報算法;預(yù)報算法將歷史時間點的數(shù)據(jù)作為輸入,未來時間點的數(shù)據(jù)作為輸出; (d)基于精度與效率進行算法評價,包括定義適應(yīng)度函數(shù)作為預(yù)報算法的評價標(biāo)準(zhǔn);適應(yīng)度的設(shè)計同時包含了精度與效率兩個因素,適應(yīng)度與精度、效率之間存在著對稱的反比例關(guān)系;使用In函數(shù)表示精度優(yōu)先或效率優(yōu)先的情況; (e)預(yù)報算法的參數(shù)選擇策略與樣本特征選擇策略,包括將預(yù)報算法的參數(shù)與樣本的組合選擇問題編碼為實數(shù)與二進制的混合向量,向量的實數(shù)部分表示預(yù)報算法的參數(shù)選擇情況,二進制部分表示預(yù)報算法的特征選擇情況;求解過程同時考慮預(yù)報算法的參數(shù)選擇與樣本的特征選擇,用適應(yīng)度函數(shù)作為組合求解過程的目標(biāo)函數(shù);使用實數(shù)版本的優(yōu)化算法優(yōu)化參數(shù)的選取,使用二進制版本的優(yōu)化算法優(yōu)化樣本特征的選取,兩項優(yōu)化過程聯(lián)合工作。
2.根據(jù)權(quán)利要求I所述的一種基于計算智能的時間序列多步預(yù)報方法,其特征在于,所述原始區(qū)間到目標(biāo)縮放區(qū)間的數(shù)據(jù)映射關(guān)系通過以下方式建立 令集合Z= IzJu= ^表示原始區(qū)間上的時間序列數(shù)據(jù)集,z為原始值,Zmax與Zmin分別表示集合Z的全局最大值與全局最小值; 令集合Z’=仏^丨彳^表示目標(biāo)區(qū)間上的時間序列數(shù)據(jù)集^’為目標(biāo)區(qū)間[lb,up]內(nèi)的縮放值,Ib與ub分別表示目標(biāo)區(qū)間的下界與上界; 則數(shù)據(jù)縮放策略的正向映射函數(shù)與反向映射函數(shù)分別由公式I和2給出
3.根據(jù)權(quán)利要求I或2所述的一種基于計算智能的時間序列多步預(yù)報方法,其特征在于,所述將時間序列散點集轉(zhuǎn)化成向量化的樣本集采用以下步驟 首先,給出向量化的樣本格式令y,X1, χ2,...,Xm-!, xm表示向量化的樣本,則y為預(yù)報算法的輸出指導(dǎo)數(shù)據(jù),X1, χ2,...,xm-i xm為預(yù)報算法的輸入特征向量,其中y,X1, χ2,...,Xm-!, Xnl均為時間序列Z = {Zu}u=ln中的數(shù)據(jù)點; 所述在轉(zhuǎn)化過程中引入滑動時間窗口規(guī)則,對應(yīng)預(yù)報函數(shù)按以下公式表示
4.根據(jù)權(quán)利要求I所述的一種基于計算智能的時間序列多步預(yù)報方法,其特征在于,所述適應(yīng)度與精度、效率之間存在著對稱的反比例關(guān)系,用以下公式4表示,其中MSEt表示訓(xùn)練均方誤差,使用k-均分交叉驗證k = 5計算,Tt表示訓(xùn)練時間,h為常量,用于控制適應(yīng)度的取值范圍,
5.根據(jù)權(quán)利要求I所述的一種基于計算智能的時間序列多步預(yù)報方法,其特征在于,將預(yù)報算法的參數(shù)選擇與樣本特征選擇問題編碼為實數(shù)與二進制的混合向量PR,用適應(yīng)度Fitness ( ·)作為目標(biāo)函數(shù),令pi, p2, . . . , pk表示實數(shù)域的預(yù)報算法參數(shù),令bfs為I或O表示對應(yīng)的輸入特征是否被選中,單獨考慮特征選擇的策略表示為公式7,max Fitness(PR)
6.根據(jù)權(quán)利要求I所述的一種基于計算智能的時間序列多步預(yù)報方法,其特征在于,所述的組合選擇策略求解包括以下主要步驟 (a)系統(tǒng)初始化系統(tǒng)參數(shù),包括粒子總數(shù)P,迭代次數(shù)IT;解空間參數(shù),包括搜索范圍[Amin, Amax]與速度限制Vmax,維度均為D ;粒子參數(shù),包括慣性權(quán)值W,個體學(xué)習(xí)因子C1,群體學(xué)習(xí)因子C2 ;根據(jù)混合向量PR的表示方式,隨機生成每個粒子的位置與初速度; (b)預(yù)處理解析粒子表示,根據(jù)對應(yīng)的樣本特征準(zhǔn)備樣本集,根據(jù)對應(yīng)的參數(shù)建立預(yù)報算法; (c)適應(yīng)度計算用驗證集訓(xùn)練預(yù)報算法,并根據(jù)公式5計算粒子的適應(yīng)度; (d)更新局部最優(yōu)與全局最優(yōu)當(dāng)粒子的適應(yīng)度大于局部最優(yōu)時,更新局部最優(yōu);當(dāng)其大于全局最優(yōu)時,更新全局最優(yōu); (e)終止條件判定如果滿足迭代次數(shù)上限,則轉(zhuǎn)步驟(g),否則轉(zhuǎn)步驟(f); (f)粒子更新為粒子更新速度與位移,轉(zhuǎn)步驟(2)進入下一輪迭代; (g)算法終止解析全局最優(yōu)解,根據(jù)它來選擇樣本特征和算法參數(shù),進行時間序列多步預(yù)報。
全文摘要
本發(fā)明公開了一種基于計算智能的時間序列多步預(yù)報方法。使用基于全局最值縮放策略和散點向量化策略對時間序列進行預(yù)處理;使用基于計算智能的建模策略,建模過程通過樣本訓(xùn)練來實現(xiàn);使用適應(yīng)度函數(shù)作為算法的評價標(biāo)準(zhǔn);適應(yīng)度與精度、效率之間存在反比例關(guān)系,且支持精度優(yōu)先與效率優(yōu)先;提出了預(yù)報算法的參數(shù)選擇策略與樣本特征選擇策略,將組合選擇策略編碼為實數(shù)與二進制的混合向量,同時進行預(yù)報算法的參數(shù)選擇與樣本特征選擇。本發(fā)明根據(jù)時間序列的變化規(guī)律尋求未來發(fā)展趨勢,可廣泛應(yīng)用于科研、工業(yè)、農(nóng)業(yè)、商業(yè)等各個領(lǐng)域,優(yōu)點如下高精度,高效率,支持未來多步預(yù)報,方法具有通用性,對數(shù)據(jù)有自適應(yīng)性,能夠全程自動化實現(xiàn)。
文檔編號G06F19/00GK102629299SQ201210067480
公開日2012年8月8日 申請日期2012年3月14日 優(yōu)先權(quán)日2011年12月2日
發(fā)明者初劍鋒, 張猛, 胡亮, 趙闊, 車喜龍 申請人:吉林大學(xué)