一種股票價(jià)格優(yōu)化預(yù)測(cè)方法
【專(zhuān)利摘要】本發(fā)明涉及一種股票價(jià)格優(yōu)化預(yù)測(cè)方法。其特征在于,采用泛化能力較強(qiáng),且不容易陷入局部最優(yōu)和過(guò)擬合現(xiàn)象的支持向量回歸機(jī)模型作為股票價(jià)格預(yù)測(cè)的核心部分,克服人工神經(jīng)網(wǎng)絡(luò)算法的缺點(diǎn);引入流形學(xué)習(xí)中的線(xiàn)性局部切空間排列算法,將股票原始數(shù)據(jù)看作嵌入在高維歐式空間中的低維流形,提取股票數(shù)據(jù)中的非線(xiàn)性子流形結(jié)構(gòu),使得提取的特征更加具有區(qū)分度和代表性,并同時(shí)降低股票數(shù)據(jù)噪聲;最后再利用遺傳算法優(yōu)化支持向量回歸機(jī)的訓(xùn)練參數(shù),解決了單一支持向量回歸機(jī)模型參數(shù)選擇困難的問(wèn)題,最終提高股價(jià)的預(yù)測(cè)精度。
【專(zhuān)利說(shuō)明】
一種股票價(jià)格優(yōu)化預(yù)測(cè)方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于金融數(shù)據(jù)分析處理領(lǐng)域,尤其涉及一種采用流形學(xué)習(xí)和支持向量回歸機(jī)的股票價(jià)格優(yōu)化預(yù)測(cè)方法。
【背景技術(shù)】
[0002]股票市場(chǎng)受到多方面因素的影響,導(dǎo)致股票價(jià)格變化多端,也正是因?yàn)檫@種變化,使得投資者能夠通過(guò)買(mǎi)賣(mài)股票賺得差價(jià)收益。然而,若沒(méi)有敏銳的市場(chǎng)直覺(jué)和豐富的金融知識(shí)是不能立足于股票交易市場(chǎng)并從中獲利的。因此為了更加準(zhǔn)確地識(shí)別股市動(dòng)蕩的規(guī)律,預(yù)測(cè)股價(jià)走勢(shì)從而盡可能降低虧損的風(fēng)險(xiǎn),前人總結(jié)了很多股票價(jià)格預(yù)測(cè)的經(jīng)驗(yàn)和方法,大致可以分為三大類(lèi):人工經(jīng)驗(yàn)預(yù)測(cè)法、時(shí)間序列預(yù)測(cè)法和機(jī)器學(xué)習(xí)預(yù)測(cè)法。
[0003]I)人工經(jīng)驗(yàn)預(yù)測(cè)法
[0004]也稱(chēng)證券投資分析法,是一種依靠人力分析各種影響因素,從而對(duì)股票未來(lái)價(jià)格或趨勢(shì)做出判斷的方法。包括基本面分析和技術(shù)分析兩個(gè)大的類(lèi)型。基本面分析從影響股票價(jià)格的外部因素入手,如分析國(guó)家經(jīng)濟(jì)形勢(shì)、金融政策的變化、上市公司的經(jīng)營(yíng)情況、內(nèi)部穩(wěn)定性等,通過(guò)分析這些外部影響因素,定性地判斷未來(lái)股票價(jià)格的漲幅趨勢(shì)或價(jià)格高低定位等,該方法一般為大型基金和機(jī)構(gòu)所采用。技術(shù)分析則是利用各種圖表、指標(biāo)和分析工具來(lái)歸納分析市場(chǎng)的變化,依靠統(tǒng)計(jì)和歸納發(fā)現(xiàn)股價(jià)的波動(dòng)規(guī)律,將發(fā)現(xiàn)的周期性規(guī)律用來(lái)指導(dǎo)股票交易的一種方法,也是廣大股民最常用的一種方法。人工經(jīng)驗(yàn)預(yù)測(cè)法主要依靠人力手工進(jìn)行各種分析預(yù)測(cè),在這個(gè)數(shù)據(jù)量暴增的時(shí)代,人工的方法顯然耗時(shí)耗力,且人的情緒容易波動(dòng),從而直接影響到對(duì)趨勢(shì)的判斷造成虧損。
[0005]2)時(shí)間序列預(yù)測(cè)法
[0006]時(shí)間序列分析方法的應(yīng)用對(duì)象包括所有隨著時(shí)間推移變化的變量,其基本思想是依據(jù)時(shí)間序列變量與時(shí)間之間的相關(guān)性,利用統(tǒng)計(jì)模型對(duì)歷史的時(shí)間序列對(duì)象建立數(shù)學(xué)模型,以此預(yù)測(cè)未來(lái)值。然而時(shí)間序列分析法雖然在對(duì)線(xiàn)性系統(tǒng)的處理上具有較好效果,但股票價(jià)格具有非線(xiàn)性的特征,不適合用時(shí)間序列分析法進(jìn)行建模預(yù)測(cè)。
[0007]3)機(jī)器學(xué)習(xí)預(yù)測(cè)法
[0008]機(jī)器學(xué)習(xí)預(yù)測(cè)法是利用機(jī)器學(xué)習(xí)的算法對(duì)影響股票價(jià)格波動(dòng)的各種因素和指標(biāo),與股票價(jià)格之間的非線(xiàn)性關(guān)系建模,將學(xué)習(xí)到的關(guān)鍵模式用于指導(dǎo)對(duì)未來(lái)股票價(jià)格的預(yù)測(cè)。機(jī)器學(xué)習(xí)預(yù)測(cè)法對(duì)人工操作的要求不高,只需要機(jī)器自動(dòng)地進(jìn)行學(xué)習(xí)即可預(yù)測(cè),提高了效率且避免了人的情緒和失誤所造成的損失。
【發(fā)明內(nèi)容】
[0009]我們采用泛化能力較強(qiáng),且不容易陷入局部最優(yōu)和過(guò)擬合現(xiàn)象的支持向量回歸機(jī)(SVR)模型作為股票價(jià)格預(yù)測(cè)的核心部分,克服人工神經(jīng)網(wǎng)絡(luò)算法的缺點(diǎn);引入流形學(xué)習(xí)中的線(xiàn)性局部切空間排列算法(LLTSA),將股票原始數(shù)據(jù)看作嵌入在高維歐式空間中的低維流形,提取股票數(shù)據(jù)中的非線(xiàn)性子流形結(jié)構(gòu),使得提取的特征更加具有區(qū)分度和代表性,并同時(shí)降低股票數(shù)據(jù)噪聲;最后再利用遺傳算法(GA)優(yōu)化SVR的訓(xùn)練參數(shù),解決了單一 SVR模型參數(shù)選擇困難的問(wèn)題,最終提高股價(jià)的預(yù)測(cè)精度。
[0010]選取基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的支持向量回歸機(jī)作為預(yù)測(cè)模型,具有很好的泛化能力且不容易陷入局部極小,并利用遺傳算法對(duì)其核參數(shù)、懲罰因子和不敏感系數(shù)進(jìn)行尋優(yōu)操作,解決了人工查找參數(shù)困難的問(wèn)題。將線(xiàn)性局部切空間排列算法與經(jīng)過(guò)遺傳算法優(yōu)化的支持向量回歸機(jī)模型組合,提出了一個(gè)新的股票價(jià)格優(yōu)化預(yù)測(cè)模型,即LLTSA-GA-SVR模型。
【附圖說(shuō)明】
[0011]圖1.LLTSA-GA-SVR模型預(yù)測(cè)流程
[0012]圖2.LLTSA特征提取過(guò)程
【具體實(shí)施方式】
[0013]我們提出的LLTSA-GA-SVR模型如圖1所示,預(yù)測(cè)股價(jià)的流程如下:
[0014]I)數(shù)據(jù)預(yù)處理
[0015]收集股票數(shù)據(jù)后,首先需對(duì)股票數(shù)據(jù)進(jìn)行預(yù)處理,將其轉(zhuǎn)換為適合模型處理的形式。比如根據(jù)模型的預(yù)測(cè)形式,將原始股票數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)樣本集,并劃分訓(xùn)練集和測(cè)試集;以及對(duì)股票數(shù)據(jù)進(jìn)行歸一化處理,消除量綱差異。
[0016]2) LLTSA 特征提取
[0017]對(duì)原始股票數(shù)據(jù)進(jìn)行預(yù)處理后,利用LLTSA算法提取數(shù)據(jù)樣本集的特征,進(jìn)行降維和降噪的操作,其處理過(guò)程如圖2所示。LLTSA算法首先對(duì)輸入的數(shù)據(jù)樣本集進(jìn)行PCA投影操作,即將原始數(shù)據(jù)樣本集映射到PCA的主子空間,預(yù)先降低數(shù)據(jù)噪聲和維度,使得后續(xù)的處理更加高效和方便。然后對(duì)樣本集中所有的數(shù)據(jù)點(diǎn)求其鄰域,通過(guò)線(xiàn)性逼近數(shù)據(jù)點(diǎn)及其鄰域?qū)?yīng)的切空間,將數(shù)據(jù)樣本點(diǎn)投影到切空間上,得到局部坐標(biāo)。通過(guò)將所有局部坐標(biāo)進(jìn)行全局排列,整合局部信息,構(gòu)造全局排列矩陣。最后將目標(biāo)函數(shù)轉(zhuǎn)換為特征值的求解,求得能夠?qū)⒏呔S原始數(shù)據(jù)樣本集映射到低維樣本集的轉(zhuǎn)換矩陣,根據(jù)該轉(zhuǎn)換矩陣得到降維去噪后的低維特征集。
[0018]3)生成初始種群
[0019]本文選定二進(jìn)制編碼方案對(duì)三個(gè)參數(shù)進(jìn)行編碼,具體做法為將每個(gè)參數(shù)轉(zhuǎn)化為20位二進(jìn)制數(shù)然后再拼接起來(lái),形成一個(gè)候選解。該候選解由三個(gè)參數(shù)的編碼組合即60位二進(jìn)制數(shù)組成。經(jīng)過(guò)編碼的個(gè)體稱(chēng)為一條染色體。
[0020]4)訓(xùn)練SVR評(píng)估個(gè)體適應(yīng)度
[0021]將種群中的每個(gè)個(gè)體重新拆分為三個(gè)參數(shù)的二進(jìn)制序列并分別轉(zhuǎn)化為十進(jìn)制數(shù),則總共得到20組、和的值。將SVR模型的參數(shù)設(shè)為其中一組參數(shù)值,并對(duì)劃分的訓(xùn)練樣本集進(jìn)行建模訓(xùn)練,得到預(yù)測(cè)值與真實(shí)值計(jì)算MSE,以此評(píng)估這組參數(shù)對(duì)應(yīng)個(gè)體的適應(yīng)度大小。對(duì)種群中20組參數(shù)候選值都進(jìn)行同樣的適應(yīng)度評(píng)估,最后將個(gè)體按適應(yīng)度大小排序。
[0022]5)選擇、交叉和突變遺傳形成新的種群
[0023]對(duì)上一步形成的種群按設(shè)定的選擇概率、交叉概率和突變概率進(jìn)行選擇、交叉和突變?nèi)N遺傳操作。進(jìn)行選擇操作時(shí)按一定的選擇概率淘汰種群中不滿(mǎn)足適應(yīng)度要求的個(gè)體。進(jìn)行交叉操作時(shí)根據(jù)一定的模式和概率對(duì)選中的個(gè)體進(jìn)行其部分基因序列交換從而產(chǎn)生新的個(gè)體延續(xù)至下一代,兩個(gè)被選擇進(jìn)行交叉遺傳操作的個(gè)體Cl和C2,C1的高位第12位開(kāi)始的序列“111”與C2的低三位“000”發(fā)生交換,產(chǎn)生如圖所示的下一代個(gè)體Cl’和C2’。
[0024]進(jìn)行突變操作時(shí)按突變概率選擇種群中的個(gè)體改變其某個(gè)位置的基因符號(hào),得到下一代的個(gè)體,其中個(gè)體Cl的高位第12位的“I”發(fā)生變異,變?yōu)椤癘”,形成新的下一代個(gè)體Cl,。
[0025]6)判斷迭代條件
[0026]對(duì)新生成的種群用步驟4)判斷其中包含個(gè)體的適應(yīng)度大小,若有個(gè)體的適應(yīng)度滿(mǎn)足設(shè)定最優(yōu)值或總體迭代次數(shù)達(dá)到上限,則停止迭代,適應(yīng)度最優(yōu)個(gè)體即為所求;若不滿(mǎn)足以上兩個(gè)條件,則轉(zhuǎn)至步驟4)循環(huán)執(zhí)行直到滿(mǎn)足停止條件為止。當(dāng)?shù)V购?,就可以得到最?yōu)的個(gè)體,至此遺傳算法對(duì)三個(gè)參數(shù)的優(yōu)化完成。
[0027]7)組成最優(yōu)SVR模型
[0028]將遺傳算法處理得到的最優(yōu)個(gè)體分解為三個(gè)參數(shù)對(duì)應(yīng)的二進(jìn)制序列再進(jìn)行十進(jìn)制轉(zhuǎn)換,即可得到的最優(yōu)的參數(shù)(:、0和£的值,將SVR模型的參數(shù)設(shè)置為這三個(gè)最優(yōu)值,即可得到經(jīng)過(guò)遺傳算法優(yōu)化的SVR模型。
[0029]8)預(yù)測(cè)股票價(jià)格
[0030]將步驟2)得到的經(jīng)過(guò)LLTSA算法提取特征之后的特征樣本集輸入到遺傳算法優(yōu)化的SVR模型中,利用其中訓(xùn)練集訓(xùn)練模型,再將訓(xùn)練好的模型在測(cè)試集上進(jìn)行檢驗(yàn),得出股票收盤(pán)價(jià)的預(yù)測(cè)值。
【主權(quán)項(xiàng)】
1.一種股票價(jià)格優(yōu)化預(yù)測(cè)方法,其特征在于,包括以下關(guān)鍵步驟: 1)線(xiàn)性局部切空間排列算法特征提取 對(duì)原始股票數(shù)據(jù)進(jìn)行預(yù)處理后,利用線(xiàn)性局部切空間排列提取數(shù)據(jù)樣本集的特征,進(jìn)行降維和降噪的操作;求得能夠?qū)⒏呔S原始數(shù)據(jù)樣本集映射到低維樣本集的轉(zhuǎn)換矩陣,根據(jù)該轉(zhuǎn)換矩陣得到降維去噪后的低維特征集; 2)支持向量回歸機(jī)參數(shù)優(yōu)化 具體又包括: a.生成初始種群 將每個(gè)參數(shù)轉(zhuǎn)化為20位二進(jìn)制數(shù)然后再拼接起來(lái),形成一個(gè)候選解; b.訓(xùn)練支持向量回歸機(jī)評(píng)估個(gè)體適應(yīng)度 對(duì)劃分的訓(xùn)練樣本集進(jìn)行建模訓(xùn)練,得到預(yù)測(cè)值與真實(shí)值計(jì)算MSE,以此評(píng)估這組參數(shù)對(duì)應(yīng)個(gè)體的適應(yīng)度大小。對(duì)種群中20組參數(shù)候選值都進(jìn)行同樣的適應(yīng)度評(píng)估,最后將個(gè)體按適應(yīng)度大小排序; c.選擇、交叉和突變遺傳形成新的種群 按設(shè)定的選擇概率、交叉概率和突變概率進(jìn)行選擇、交叉和突變?nèi)N遺傳操作; d.判斷迭代條件 對(duì)新生成的種群判斷其中包含個(gè)體的適應(yīng)度大小,若有個(gè)體的適應(yīng)度滿(mǎn)足設(shè)定最優(yōu)值或總體迭代次數(shù)達(dá)到上限,則停止迭代,適應(yīng)度最優(yōu)個(gè)體即為所求;若不滿(mǎn)足以上兩個(gè)條件,則循環(huán)執(zhí)行直到滿(mǎn)足停止條件為止;當(dāng)?shù)V购?,就可以得到最?yōu)的個(gè)體; 3)組成最優(yōu)支持向量回歸機(jī)模型 將遺傳算法處理得到的最優(yōu)個(gè)體分解為三個(gè)參數(shù)對(duì)應(yīng)的二進(jìn)制序列再進(jìn)行十進(jìn)制轉(zhuǎn)換,即可得到的最優(yōu)的參數(shù)(:、0和£的值,將支持向量回歸機(jī)的參數(shù)設(shè)置為這三個(gè)最優(yōu)值,gp可得到經(jīng)過(guò)遺傳算法優(yōu)化的支持向量回歸機(jī)模型; 4)預(yù)測(cè)股票價(jià)格 將前述步驟得到的經(jīng)過(guò)線(xiàn)性局部切空間排列算法提取特征之后的特征樣本集輸入到遺傳算法優(yōu)化的支持向量回歸機(jī)模型中,利用其中訓(xùn)練集訓(xùn)練模型,再將訓(xùn)練好的模型在測(cè)試集上進(jìn)行檢驗(yàn),得出股票收盤(pán)價(jià)的預(yù)測(cè)值。
【文檔編號(hào)】G06Q10/04GK106056244SQ201610368834
【公開(kāi)日】2016年10月26日
【申請(qǐng)日】2016年5月30日
【發(fā)明人】陳遠(yuǎn), 羅必輝, 蔣維琛, 陳文欣
【申請(qǐng)人】重慶大學(xué)