亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

金融產(chǎn)品交易策略的生成系統(tǒng)和生成方法

文檔序號(hào):10535720閱讀:288來源:國知局
金融產(chǎn)品交易策略的生成系統(tǒng)和生成方法
【專利摘要】本發(fā)明實(shí)施例公開一種金融產(chǎn)品交易策略的生成系統(tǒng)和方法,包括:交易數(shù)據(jù)獲取模塊,用于獲取金融產(chǎn)品在第t個(gè)交易單位的歷史交易數(shù)據(jù)St;交易策略生成模塊,用于構(gòu)造深度神經(jīng)網(wǎng)絡(luò)函數(shù)Qt(St,an),將所述歷史交易數(shù)據(jù)St和預(yù)設(shè)的交易行為an作為所述深度神經(jīng)網(wǎng)絡(luò)函數(shù)的輸入,計(jì)算預(yù)設(shè)的交易行為an所得到的Qt的值;比較預(yù)設(shè)交易行為集合中各個(gè)預(yù)設(shè)交易行為所得到的Qt值;選擇所述Qt值為最大時(shí)所對(duì)應(yīng)的預(yù)設(shè)交易行為作為第t+1個(gè)交易單位的交易策略。本發(fā)明能夠降低現(xiàn)有技術(shù)中交易策略人為制定所帶來的風(fēng)險(xiǎn),提高金融產(chǎn)品交易的可靠性;進(jìn)一步地,本發(fā)明所提供的金融產(chǎn)品交易策略的生成系統(tǒng)和方法對(duì)大多數(shù)金融產(chǎn)品都是通用的,增加算法交易的泛化能力。
【專利說明】
金融產(chǎn)品交易策略的生成系統(tǒng)和生成方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及金融領(lǐng)域,特別是涉及一種金融產(chǎn)品交易策略的生成系統(tǒng)和生成方 法。
【背景技術(shù)】
[0002] 量化投資是最近幾十年來在國際金融投資界興起的一個(gè)新方法,其結(jié)合了現(xiàn)代數(shù) 學(xué)概率統(tǒng)計(jì)理論和金融數(shù)據(jù)分析工程,利用高速的計(jì)算機(jī)數(shù)據(jù)處理能力來實(shí)現(xiàn)的一種全新 的分析方式,是現(xiàn)代化的分析方法。量化投資在投資品種選擇、投資時(shí)間選擇、股指期貨套 利、商品期貨套利、統(tǒng)計(jì)套利和算法交易等領(lǐng)域得到廣泛應(yīng)用。其中,算法交易又稱自動(dòng)交 易、黑盒交易或機(jī)器交易,是指通過計(jì)算機(jī)程序發(fā)出交易指令,以執(zhí)行預(yù)先設(shè)定好的交易策 略的方法。在算法交易中,程序可以決定的范圍包括交易時(shí)間、交易的價(jià)格,甚至包括最后 需要成交的資產(chǎn)數(shù)量。然而在算法交易中,目前的交易策略大都是基于統(tǒng)計(jì)的交易策略,即 策略制定者對(duì)歷史的交易數(shù)據(jù)進(jìn)行統(tǒng)計(jì),從而提取出一些對(duì)交易有影響的因素或者特征, 據(jù)此制定交易策略。由于金融產(chǎn)品的復(fù)雜性和某些風(fēng)險(xiǎn)因素的不確定性,以及策略制定者 本身經(jīng)驗(yàn)的局限性,使得策略制定者很難對(duì)交易策略做出準(zhǔn)確的評(píng)估;此外,策略制定者通 常是依據(jù)某特定的金融產(chǎn)品的歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì)從而制定交易策略,該交易策略對(duì)其他金 融產(chǎn)品來說通常是不適用的,所以,策略制定者需要針對(duì)不同的金融產(chǎn)品制定不同的交易 策略,上述這些問題在一定程度上影響了算法交易的可靠性泛化能力。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明主要解決的技術(shù)問題是提供一種金融產(chǎn)品交易策略的生成系統(tǒng)和生成方 法,能夠降低現(xiàn)有技術(shù)中交易策略人為制定所帶來的風(fēng)險(xiǎn),提高金融產(chǎn)品交易的可靠性;進(jìn) 一步地,本發(fā)明所提供的金融產(chǎn)品交易策略的生成系統(tǒng)和方法對(duì)大多數(shù)金融產(chǎn)品都是通用 的,增加了算法交易的泛化能力。
[0004] 為解決上述技術(shù)問題,本發(fā)明實(shí)施例采用的一個(gè)技術(shù)方案是:提供一種金融產(chǎn)品 交易策略的生成系統(tǒng),包括:交易數(shù)據(jù)獲取模塊,用于獲取金融產(chǎn)品在第t個(gè)交易單位的歷 史交易數(shù)據(jù)S t;交易策略生成模塊,用于構(gòu)造深度神經(jīng)網(wǎng)絡(luò)函數(shù)Qt(St,an),將所述歷史交易 數(shù)據(jù)S t和預(yù)設(shè)的交易行為an作為所述深度神經(jīng)網(wǎng)絡(luò)函數(shù)的輸入,計(jì)算預(yù)設(shè)的交易行為&"所 得到的Qt的值;比較預(yù)設(shè)交易行為集合中各個(gè)預(yù)設(shè)交易行為所得到的Qt值;選擇所述Qt值為 最大時(shí)所對(duì)應(yīng)的預(yù)設(shè)交易行為作為第t+1個(gè)交易單位的交易策略;其中,所述預(yù)設(shè)交易行為 集合為:A={ ai,a2,…,am},n取值為小于等于m的整數(shù),所述神經(jīng)網(wǎng)絡(luò)函數(shù)中的各個(gè)參數(shù)在 第t個(gè)交易單位的值是預(yù)先設(shè)置的。
[0005] 可選地,所述系統(tǒng)還包括:
[0006] 交易收益計(jì)算模塊,用于計(jì)算第t+1個(gè)交易單位的交易收益Rt+1;
[0007] 所述交易策略生成模塊,還用于當(dāng)所述Rt+1大于0時(shí),所述各個(gè)參數(shù)在第t+1個(gè)交易 單位的基礎(chǔ)上沿著梯度的方向增加向量;當(dāng)所述Rt +1小于0時(shí),所述各個(gè)參數(shù)在第t+1個(gè)交易 單位的基礎(chǔ)上沿著梯度的方向減少向量。
[0008] 可選地,所述交易收益Rt+i=(Yt+i-Yt)/Yt+i;其中,Yt+1是第t+1個(gè)交易單位的收盤 價(jià)總市值,Y t是第t個(gè)交易單位的收盤價(jià)總市值。
[0009] 可選地,所述系統(tǒng)還包括:
[0010] 累積回報(bào)CR計(jì)算模塊,用于計(jì)算在第t個(gè)交易單位至第n個(gè)交易單位的周期內(nèi)的總 的交易收益;CR = Rt+gammat+i*Rt+i+.....gamman*Rn;其中,gamma是0-1之間的數(shù),是一個(gè)衰 減系數(shù);t為自然數(shù),n為大于t的自然數(shù)。
[0011] 可選地,所述交易單位為天數(shù)。
[0012] 本發(fā)明實(shí)施例采用的另一個(gè)技術(shù)方案是:提供一種金融產(chǎn)品交易策略的生成方 法,包括:獲取金融產(chǎn)品的在第t個(gè)交易單位的歷史交易數(shù)據(jù)S t;構(gòu)造深度神經(jīng)網(wǎng)絡(luò)函數(shù)Qt (St,an),將所述歷史交易數(shù)據(jù)St和預(yù)設(shè)的交易行為&"作為所述深度神經(jīng)網(wǎng)絡(luò)函數(shù)的輸入, 計(jì)算預(yù)設(shè)的交易行為3"所得到的Qt的值;比較預(yù)設(shè)交易行為集合中各個(gè)預(yù)設(shè)交易行為所得 到的Qt值;選擇所述Qt值為最大時(shí),所對(duì)應(yīng)的預(yù)設(shè)交易行為作為第t+1個(gè)交易單位的交易策 略;其中,所述預(yù)設(shè)交易行為集合為:A={ ai,a2,…,am},n取值為小于等于m的整數(shù),所述神 經(jīng)網(wǎng)絡(luò)函數(shù)中的各個(gè)參數(shù)在第t個(gè)交易單位的值是預(yù)先設(shè)置的。
[0013] 可選地,所述方法還包括:
[0014] 計(jì)算t+1個(gè)交易單位的交易收益Rt+1;當(dāng)所述Rt+1大于0時(shí),所述各個(gè)參數(shù)在第t+1個(gè) 交易單位的基礎(chǔ)上沿著梯度的方向增加向量;當(dāng)所述Rt +1小于0時(shí),所述各個(gè)參數(shù)在第第的 基礎(chǔ)上沿著梯度的方向減少向量。
[0015] 可選地,所述交易收益Rt+1=(Yt+i-Yt)/Yt +i;其中,Yt+i是第t+1個(gè)交易單位的收盤 價(jià)總市值,Yt是第t個(gè)交易單位的收盤價(jià)總市值。
[0016] 可選地,所述方法還包括:
[0017] 計(jì)算在第t個(gè)交易單位至第n個(gè)交易單位的周期內(nèi)的總的交易收益;CR = Rt+ gammat+i*Rt+i+.....gamman*Rn;其中,gamma是0_1之間的數(shù),是一個(gè)衰減系數(shù);t為自然數(shù),n 為大于t的自然數(shù)。
[0018]可選地,所述交易單位為天數(shù)。
[0019] 本發(fā)明實(shí)施例提供的一種金融產(chǎn)品交易策略的生成系統(tǒng)和生成方法,能夠降低現(xiàn) 有技術(shù)中交易策略人為制定所帶來的風(fēng)險(xiǎn),提高金融產(chǎn)品交易的可靠性;進(jìn)一步地,本發(fā)明 所提供的金融產(chǎn)品交易策略的生成系統(tǒng)和方法對(duì)大多數(shù)金融產(chǎn)品都是通用的,增加了算法 交易的泛化能力。
【附圖說明】
[0020] 圖1是本發(fā)明一種金融產(chǎn)品交易策略的生成系統(tǒng)的一較佳實(shí)施例的示意圖;
[0021] 圖2是本發(fā)明一種金融產(chǎn)品交易策略的生成系統(tǒng)的另一較佳實(shí)施例的示意圖;
[0022] 圖3是本發(fā)明一種金融產(chǎn)品交易策略的生成方法的一較佳實(shí)施例的示意圖。
【具體實(shí)施方式】
[0023]下面結(jié)合附圖對(duì)本發(fā)明的較佳實(shí)施例進(jìn)行詳細(xì)闡述,以使本發(fā)明的優(yōu)點(diǎn)和特征能 更易于被本領(lǐng)域技術(shù)人員理解,從而對(duì)本發(fā)明的保護(hù)范圍做出更為清楚明確的界定。
[0024] 在金融產(chǎn)品交易領(lǐng)域,金融產(chǎn)品交易策略的制定是非常重要的。為了降低現(xiàn)有技 術(shù)中交易策略人為制定所帶來的風(fēng)險(xiǎn),提高金融產(chǎn)品交易的可靠性;進(jìn)一步地,為了避免策 略制定者對(duì)不同的金融產(chǎn)品制定不同的交易策略,增加算法交易的泛化能力,本申請(qǐng)的發(fā) 明人經(jīng)過對(duì)現(xiàn)有的交易策略的研究,以及對(duì)人工智能領(lǐng)域的深入研究發(fā)現(xiàn),通過將深度強(qiáng) 化學(xué)習(xí)理論引入金融產(chǎn)品的交易策略的生成,可以很好地解決上述提到的現(xiàn)有技術(shù)的問 題。
[0025] 本發(fā)明實(shí)施例提供的一種金融產(chǎn)品交易策略的生成系統(tǒng),是基于深度強(qiáng)化學(xué)習(xí) (Deep Reinforcement Learning,DRL)理論的。強(qiáng)化學(xué)習(xí)是一個(gè)理論框架,用來對(duì)跟未知環(huán) 境交互的自發(fā)主體Agent進(jìn)行建模。它是人工智能領(lǐng)域的一種學(xué)習(xí)方法。對(duì)于未知的問題, 其基本原理是:如果主體Agent的某個(gè)行為策略導(dǎo)致環(huán)境正的回報(bào),那么Agent以后產(chǎn)生這 個(gè)行為策略的趨勢(shì)會(huì)加強(qiáng)。對(duì)于未知的問題,并不會(huì)人為地告知正確的答案,主體必須通過 不斷地試錯(cuò),在與環(huán)境持續(xù)的交互中學(xué)習(xí)。這個(gè)通用的理論框架已經(jīng)被應(yīng)用于優(yōu)化直升機(jī) 的飛行控制,電梯調(diào)度,以及各類游戲的解法等。強(qiáng)化學(xué)習(xí)的思想也被應(yīng)用于解釋動(dòng)物的學(xué) 習(xí)過程,人腦的活動(dòng)等領(lǐng)域。
[0026] 深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的結(jié) 合。深度強(qiáng)化學(xué)習(xí)DRL包括兩個(gè)主要部分:深度學(xué)習(xí)(Deep Learning,DL)和增強(qiáng)學(xué)習(xí) (Reinforcement Learning,RL)。這是兩個(gè)相對(duì)獨(dú)立的學(xué)科。其中DL是一個(gè)深層的神經(jīng)網(wǎng) 絡(luò),主要用來解決分類識(shí)別問題,包括可以用它來進(jìn)行圖像識(shí)別,圖像分割,語音識(shí)別,翻譯 等,是最近幾年計(jì)算機(jī)領(lǐng)域最火的技術(shù)。RL是傳統(tǒng)人工智能領(lǐng)域的技術(shù),它主要是如何控制 和決策的問題,比如無人機(jī)的飛行控制,自動(dòng)駕駛,各種游戲的求解等。2015年,Deep Mind 研究組把RL與DL成功組合在一個(gè)DRL框架中,用來對(duì)Atari游戲進(jìn)行控制,取得了驚人的效 果,被認(rèn)為是學(xué)術(shù)界下一個(gè)重要突破領(lǐng)域。DL可以解決如何識(shí)別的問題,比如識(shí)別語言,識(shí) 別圖像,識(shí)別欺詐等;RL可以解決如何控制的問題。二者的結(jié)合成為一個(gè)完整的框架,可以 解決非常多的工業(yè)上的實(shí)際問題。這部分需要各領(lǐng)域的技術(shù)專家結(jié)合各自領(lǐng)域的實(shí)際問題 進(jìn)行深入研究。本申請(qǐng)就是將基于深度強(qiáng)化學(xué)習(xí)理論在金融產(chǎn)品交易策略的生成方面的創(chuàng) 造性應(yīng)用。
[0027] 為了更清楚的描述本發(fā)明實(shí)施例,首先對(duì)幾個(gè)涉及到的術(shù)語進(jìn)行說明。深度強(qiáng)化 學(xué)習(xí)理論要處理的問題是如何從與環(huán)境的交互過程中學(xué)習(xí)的方法。它包括環(huán)境 Environment和主體Agent兩個(gè)部分。主體觀察環(huán)境的狀態(tài),然后采用一定的行動(dòng);環(huán)境會(huì)對(duì) 主體的行動(dòng)作出反應(yīng),產(chǎn)生新的狀態(tài),并給予主體一定的反饋。如此反復(fù),在主體與環(huán)境不 斷的交互過程中,主體會(huì)逐漸學(xué)習(xí)到環(huán)境是如何運(yùn)作的,并找到一個(gè)最佳策略應(yīng)對(duì)環(huán)境。
[0028] 以上過程具體的數(shù)學(xué)描述為一個(gè)馬爾科夫決策過程(Markov Decision Process, MDP)。它的特點(diǎn)是當(dāng)前狀態(tài)只與前一時(shí)刻(或前n時(shí)刻)的狀態(tài)有關(guān),而與更早的狀態(tài)無關(guān)。 這是對(duì)復(fù)雜的隨時(shí)間變化的序列過程的一個(gè)近似,否則問題很難求解。MDP由四個(gè)元素構(gòu) 成:狀態(tài)3丨3丨6,行動(dòng)4〇1:;[011,轉(zhuǎn)移概率?1'(^313;[1;[丨7和回報(bào)1^¥31(1。3丨3丨6:簡(jiǎn)寫為8,表示目 前所處的狀態(tài);Action:簡(jiǎn)寫為a,表示當(dāng)前可以選擇的操作;Probability:簡(jiǎn)寫為p,表示當(dāng) 前狀態(tài)s下,采用操作a后,會(huì)有一定的概率p轉(zhuǎn)變?yōu)闋顟B(tài)s',記作p(s' |s,a)。它描述的是環(huán) 境的內(nèi)在規(guī)律。Reward:簡(jiǎn)寫為r,表示回報(bào)函數(shù),每次執(zhí)行一個(gè)Action后,環(huán)境都會(huì)反饋一 個(gè)Reward。
[0029] 需要說明的是,Reward是即時(shí)的,即每次執(zhí)行一個(gè)Action后會(huì)馬上得到一個(gè)該 Ac t i on對(duì)應(yīng)的Reward,它是環(huán)境對(duì)當(dāng)前Ac t i on的反饋,它是一種短期行為,往往與長(zhǎng)期效應(yīng) 不符。在金融產(chǎn)品的交易領(lǐng)域,我們的目標(biāo)是使得長(zhǎng)期的累積回報(bào)(Cumulative Reward, CR)最大化,而非某一個(gè)時(shí)刻的Reward最大化。
[0030] 為了實(shí)現(xiàn)金融產(chǎn)品的累積回報(bào)最大化,我們可以通過DRL的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)并實(shí) 現(xiàn)一個(gè)自動(dòng)化的金融產(chǎn)品交易策略,該交易策略可用于各種金融衍生品的交易。具體來說, 本發(fā)明實(shí)施例提供的金融產(chǎn)品交易策略的生成系統(tǒng)能利用歷史的交易數(shù)據(jù),自動(dòng)模擬交易 員不斷的進(jìn)行買進(jìn),賣出,持有等操作,從中學(xué)習(xí)到一個(gè)優(yōu)化的交易策略,這個(gè)策略可以應(yīng) 用于真實(shí)的交易系統(tǒng)中。
[0031] 請(qǐng)參閱圖1和/或圖2,本發(fā)明第一實(shí)施例提供一種金融產(chǎn)品交易策略的生成系統(tǒng), 包括:
[0032] 交易數(shù)據(jù)獲取模塊(100,200),用于獲取金融產(chǎn)品在第t個(gè)交易單位的歷史交易數(shù) 據(jù)St;
[0033] 在本發(fā)明第一實(shí)施例的具體實(shí)現(xiàn)時(shí),我們可以將一個(gè)股票的某一天的基本參數(shù)可 以表示為一個(gè)行向量(si,s2,…,sn);我們把第t個(gè)交易單位之前一段連續(xù)時(shí)間(如m天)的 股票向量組合起來作為第t個(gè)交易單位的state,即St,表示如下:
[0035] 其中,所述基本參數(shù)可以包括:開盤價(jià),收盤價(jià),交易量等。優(yōu)選地,交易單位為天 數(shù),例如第t個(gè)交易單位優(yōu)選為第t天。
[0036] 交易策略生成模塊(102,202),用于構(gòu)造深度神經(jīng)網(wǎng)絡(luò)函數(shù)仏(&,&11),將所述歷史 交易數(shù)據(jù)St和預(yù)設(shè)的交易行為a n作為所述深度神經(jīng)網(wǎng)絡(luò)函數(shù)的輸入,計(jì)算預(yù)設(shè)的交易行為 3"所得到的Qt的值;比較預(yù)設(shè)交易行為集合中各個(gè)預(yù)設(shè)交易行為所得到的Qt值;選擇所述Qt 值為最大時(shí),所對(duì)應(yīng)的預(yù)設(shè)交易行為作為第t+1個(gè)交易單位的交易策略;其中,所述預(yù)設(shè)交 易行為集合為:A={ ai,a2,…,am},n取值為小于等于m的整數(shù),所述神經(jīng)網(wǎng)絡(luò)函數(shù)中的各個(gè) 參數(shù)在t個(gè)交易單位的值是預(yù)先設(shè)置的。
[0037] 此處的Q可以看作是一個(gè)非常復(fù)雜的函數(shù),用來表示給定狀態(tài),和給定行為下的價(jià) 值函數(shù)。Q值越大表示在給定狀態(tài)的條件下,采用給定行為的結(jié)果越有利;Q值越小表示在給 定狀態(tài)的條件下,采用給定行為的結(jié)果越不利。Q包括大量的可調(diào)節(jié)參數(shù),學(xué)習(xí)Q函數(shù)的過 程,就是通過在給定狀態(tài)和給定行為作為輸入不斷調(diào)試使得Q值最大,從而得到最優(yōu)的參數(shù) 的過程。
[0038] Q函數(shù)可以是任意的形式,在本發(fā)明實(shí)施例提供的系統(tǒng)中采用一個(gè)深度神經(jīng)網(wǎng)絡(luò) 來表示Q函數(shù)。深度神經(jīng)網(wǎng)絡(luò)是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),它有很多節(jié)點(diǎn)(稱為神經(jīng)元)構(gòu)成,每 一個(gè)神經(jīng)元都會(huì)接受數(shù)據(jù)(稱為輸入),并通過一定的數(shù)學(xué)變換后輸出結(jié)果。這些神經(jīng)元是 分層組織的,每一層的神經(jīng)元從上一層接受數(shù)據(jù),并輸出給下一層的神經(jīng)元,同一層的神經(jīng) 元之間沒有連接。本發(fā)明實(shí)施例在具體實(shí)現(xiàn)時(shí),本領(lǐng)域普通技術(shù)人員可以依據(jù)3篇公開文檔 的任一篇來構(gòu)造深度神經(jīng)網(wǎng)絡(luò),所述3篇公開文檔的內(nèi)容在此通過引用并入本申請(qǐng)中。具體 來說,本發(fā)明實(shí)施例中的所述歷史交易數(shù)據(jù)St和預(yù)設(shè)的交易行為 &"作為所述深度神經(jīng)網(wǎng)絡(luò) 函數(shù)的第一層的輸入,所述深度神經(jīng)網(wǎng)絡(luò)函數(shù)中的神經(jīng)元的數(shù)量和神經(jīng)網(wǎng)絡(luò)的層數(shù),本發(fā) 明實(shí)施例不做限定。通常來說,神經(jīng)元的數(shù)量越多,以及神經(jīng)網(wǎng)絡(luò)的層數(shù)越多,所得到的輸 出結(jié)果會(huì)越精確。具體實(shí)現(xiàn)時(shí),可以根據(jù)對(duì)精確程度的要求來選擇神經(jīng)元的數(shù)量和神經(jīng)網(wǎng) 絡(luò)的層數(shù)。所述3篇公開文檔為:
[0039] l、Schmidhuber,J. (2015) ."Deep Learning in Neural Networks:An Overview^.Neura/Networks 61:85-117.
[0040] 2、Deng,L?;Yu,D?(2014)?"Deep Learning:Methods and Applications"〇 Foundations and Trends in Signal Processing 7:3-4.
[00411 3、《人工神經(jīng)網(wǎng)絡(luò)教程》,韓力群編著,北京郵電大學(xué)出版社,2006( 2007 ? 7重印) ISBN978-7-5635-1367-3.
[0042] 進(jìn)一步地,本系統(tǒng)還包括:
[0043]交易收益計(jì)算模塊204,用于計(jì)算第t+1個(gè)交易單位的交易收益Rt+1;
[0044] 在本發(fā)明第一實(shí)施例的具體實(shí)現(xiàn)時(shí),我們假定第t+1個(gè)交易單位的收盤價(jià)總市值 為Yt+1,第t個(gè)交易單位的收盤價(jià)總市值為Y t,則,第t+1個(gè)交易單位的交易收益心+尸以糾-Yt)/Yt+i〇
[0045] 進(jìn)一步地,本系統(tǒng)還包括:
[0046]進(jìn)一步地,所述交易策略生成模塊模塊(102,202),還用于當(dāng)所述心+1大于0時(shí),所 述各個(gè)參數(shù)在第t+1個(gè)交易單位的基礎(chǔ)上沿著梯度的方向增加向量;當(dāng)所述Rt+1小于0時(shí),所 述各個(gè)參數(shù)在第t+1個(gè)交易單位的基礎(chǔ)上沿著梯度的方向減少向量。
[0047] 此外,我們還可以引入累積回報(bào)(Cumulative Reward,CR),可以把CR作為一個(gè)最 終的目標(biāo)函數(shù),我們的目標(biāo)是使CR最大化,其中CR的計(jì)算公式為:
[0048] CR = Rt+gammat+i*Rt+i+.....gamman*Rn
[0049] 其中,88_3是0-1之間的數(shù),是一個(gè)衰減系數(shù)。t為自然數(shù),n為大于t的自然數(shù)。 [0050]需要說明的是,所述各個(gè)參數(shù)需增加多大的向量或減少多大的向量,本發(fā)明實(shí)施 例不做具體的限定,例如可以通過現(xiàn)有的梯度下降(gradient descent)算法來解決。這樣, 在特定的周期內(nèi),我們可以優(yōu)化CR的值。后續(xù)每個(gè)特定的周期,我們都采用類似的方法來計(jì) 算各個(gè)周期的CR。當(dāng)CR值逐漸穩(wěn)定后,我們可以以穩(wěn)定后的CR值所對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)的參數(shù) 作為神經(jīng)網(wǎng)絡(luò)函數(shù)的固定參數(shù),來生成交易策略。
[0051] 在本發(fā)明第一實(shí)施例的具體實(shí)現(xiàn)時(shí),所述系統(tǒng)還可以包括:累積回報(bào)CR計(jì)算模塊 206,用于計(jì)算在第t個(gè)交易單位至第n個(gè)交易單位的周期內(nèi)的總的交易收益;CR = Rt+ gammat+i*Rt+i+.....gamman*Rn 〇
[0052] 在本發(fā)明實(shí)施例中,金融產(chǎn)品交易策略的生成系統(tǒng)可以是服務(wù)器(Server),也可 以是個(gè)人電腦(PC機(jī))或智能設(shè)備等,本發(fā)明不做限定。
[0053]請(qǐng)參閱圖3,本發(fā)明另一個(gè)實(shí)施例提供一種金融產(chǎn)品交易策略的生成方法,包括: [0054] 300、獲取金融產(chǎn)品在第t個(gè)交易單位的歷史交易數(shù)據(jù)St;
[0055]在本發(fā)明第二實(shí)施例的具體實(shí)現(xiàn)時(shí),我們可以將一個(gè)股票的某一天的基本參數(shù)可 以表示為一個(gè)行向量(si,s2,…,sn);我們把第t交易單位之前一段連續(xù)時(shí)間(如m天)的股 票向量組合起來作為第t個(gè)交易單位的state,即St,表示如下:
[0056] 'w,v
[0057] 其中,所述基本參數(shù)可以包括:開盤價(jià),收盤價(jià),交易量等。優(yōu)選地,交易單位為天 數(shù),例如第t個(gè)交易單位優(yōu)選為第t天。
[0058] 302、構(gòu)造深度神經(jīng)網(wǎng)絡(luò)函數(shù)Qt(St,an),將所述歷史交易數(shù)據(jù)St和預(yù)設(shè)的交易行為 an作為所述深度神經(jīng)網(wǎng)絡(luò)函數(shù)的輸入,計(jì)算預(yù)設(shè)的交易行為&"所得到的Qt的值;比較預(yù)設(shè)交 易行為集合中各個(gè)預(yù)設(shè)交易行為所得到的Qt值;選擇所述Qt值為最大時(shí),所對(duì)應(yīng)的預(yù)設(shè)交易 行為作為第t+1個(gè)交易單位的交易策略;其中,所述預(yù)設(shè)交易行為集合為:A={ ai,a2,…, am};n取值為小于等于m的整數(shù),所述神經(jīng)網(wǎng)絡(luò)函數(shù)中的各個(gè)參數(shù)在t時(shí)刻的值是預(yù)先設(shè)置 的;
[0059] 此處的Q可以看作是一個(gè)非常復(fù)雜的函數(shù),用來表示給定狀態(tài),和給定行為下的價(jià) 值函數(shù)。Q值越大表示在給定狀態(tài)的條件下,采用給定行為的結(jié)果越有利;Q值越小表示在給 定狀態(tài)的條件下,采用給定行為的結(jié)果越不利。Q包括大量的可調(diào)劑參數(shù),學(xué)習(xí)Q函數(shù)的過 程,就是通過在給定狀態(tài)和給定行為作為輸入不斷調(diào)試使得Q值最大,從而得到最優(yōu)的參數(shù) 的過程。
[0060] Q函數(shù)可以是任意的形式,在本發(fā)明實(shí)施例提供的方法中采用一個(gè)深度神經(jīng)網(wǎng)絡(luò) 來表示Q函數(shù)。深度神經(jīng)網(wǎng)絡(luò)是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),它有很多節(jié)點(diǎn)(稱為神經(jīng)元)構(gòu)成,每 一個(gè)神經(jīng)元都會(huì)接受數(shù)據(jù)(稱為輸入),并通過一定的數(shù)學(xué)變換后輸出結(jié)果。這些神經(jīng)元是 分層組織的,每一層的神經(jīng)元從上一層接受數(shù)據(jù),并輸出給下一層的神經(jīng)元,同一層的神經(jīng) 元之間沒有連接。本發(fā)明實(shí)施例在具體實(shí)現(xiàn)時(shí),本領(lǐng)域普通技術(shù)人員可以依據(jù)3篇公開文檔 中任一篇來構(gòu)造深度神經(jīng)網(wǎng)絡(luò),所述3篇公開文檔的內(nèi)容在此通過引用并入本申請(qǐng)中。具體 來說,本發(fā)明實(shí)施例中的所述歷史交易數(shù)據(jù)St和預(yù)設(shè)的交易行為 &"作為所述深度神經(jīng)網(wǎng)絡(luò) 函數(shù)的第一層的輸入,所述深度神經(jīng)網(wǎng)絡(luò)函數(shù)中的神經(jīng)元的數(shù)量和神經(jīng)網(wǎng)絡(luò)的層數(shù),本發(fā) 明實(shí)施例不做限定。通常來說,神經(jīng)元的數(shù)量越多,以及神經(jīng)網(wǎng)絡(luò)的層數(shù)越多,所得到的輸 出結(jié)果會(huì)越精確。具體實(shí)現(xiàn)時(shí),可以根據(jù)對(duì)精確程度的要求來選擇神經(jīng)元的數(shù)量和神經(jīng)網(wǎng) 絡(luò)的層數(shù)。所述3篇公開文檔為:
[0061] 1、Schmi dhuber,J ? ( 2015 ) ? "Deep Learn ing in Neural Networks:An Overview".Neural Networks 61:85-117.
[0062] 2、Deng,L.;Yu,D.(2014)."Deep Learning:Methods and Applications"。 Foundations and Trends in Signal Processing 7:3-4.
[0063] 3、《人工神經(jīng)網(wǎng)絡(luò)教程》,韓力群編著,北京郵電大學(xué)出版社,2006(2007.7重印) ISBN978-7-5635-1367-3.
[0064]可選地,本發(fā)明實(shí)施例提供的金融產(chǎn)品交易策略的生成方法還可以進(jìn)一步包括: [0065] 304、計(jì)算第t+1個(gè)交易單位的交易收益Rt+1;
[0066]在本發(fā)明第二實(shí)施例的具體實(shí)現(xiàn)時(shí),我們假定第t+1個(gè)交易單位的收盤價(jià)總市值 為Yt+1,第t個(gè)交易單位的收盤價(jià)總市值為Yt,則,第t+1個(gè)交易單位的交易收益心+尸以糾-Yt)/Y t+i〇
[0067] 306、當(dāng)所述Rt+1大于0時(shí),所述各個(gè)參數(shù)在第t+1個(gè)交易單位的基礎(chǔ)上沿著梯度的 方向增加向量;當(dāng)所述Rt+1小于0時(shí),所述各個(gè)參數(shù)在第t+1個(gè)交易單位的基礎(chǔ)上沿著梯度的 方向減少向量。
[0068] 具體來說,我們可以引入累積回報(bào)(Cumulative Reward,CR),可以把CR作為一個(gè) 最終的目標(biāo)函數(shù),我們的目標(biāo)是使CR最大化。
[0069] CR = Rt+gammat+i*Rt+i+.....gamman*Rn
[0070] 其中,gamma是0-1之間的數(shù),是一個(gè)衰減系數(shù)。
[0071]需要說明的是,所述各個(gè)參數(shù)需增加多大的向量或減少多大的向量,本發(fā)明實(shí)施 例不做具體的限定,例如可以通過梯度下降(gradient descent)算法來解決。這樣,在一定 的周期內(nèi),我們可以優(yōu)化CR的值,后續(xù)每個(gè)特定的周期,我們都采用類似的方法來計(jì)算各個(gè) 周期的CR。當(dāng)CR值逐漸穩(wěn)定后,我們可以以穩(wěn)定后的CR值所對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)的參數(shù)作為神 經(jīng)網(wǎng)絡(luò)函數(shù)的固定參數(shù),來生成交易策略。
[0072] 應(yīng)該理解,本發(fā)明的各種實(shí)施例中,上述各過程中序號(hào)的大小并不意味著執(zhí)行順 序的先后,各過程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對(duì)本發(fā)明實(shí)施例的實(shí)施 過程構(gòu)成任何限定。
[0073] 本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單 元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn),為了清楚地說明硬件 和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這 些功能究竟是以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。 專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn) 不應(yīng)認(rèn)為超出本發(fā)明的范圍。
[0074] 所屬領(lǐng)域的技術(shù)人員可以清楚了解到,為了描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng)、 裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。
[0075] 在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng)、裝置和方法,可以 通過其他的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃 分,僅僅是一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或者組件 可以結(jié)合或者可以繼承到一個(gè)系統(tǒng),或者一些特征可以忽略,或不執(zhí)行。另外,所顯示或討 論的相互之間的耦合或者直接耦合或者通信連接可以是通過一些接口、裝置或單元的間接 耦合或通信連接,也可以是電的,機(jī)械的或其他的形式連接。
[0076]所述作為分離部件說明的單元可以是或者可以不是物理上分開的,作為單元顯示 的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng) 絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本發(fā)明實(shí)施例方案的 目的。
[0077] 另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以 是各個(gè)單元單獨(dú)物理存在,也可以是兩個(gè)或兩個(gè)以上單元集成在個(gè)單元中。上述集成的單 元即可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
[0078] 通過以上的實(shí)施方式的描述,所屬領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可以 用硬件實(shí)現(xiàn),或者軟件實(shí)現(xiàn),或它們的組合方式來實(shí)現(xiàn)。當(dāng)使用軟件實(shí)現(xiàn)時(shí),可以見上述功 能存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中或作為計(jì)算機(jī)可讀介質(zhì)上的一個(gè)或多個(gè)指令或代碼進(jìn)行傳輸。 計(jì)算機(jī)可讀介質(zhì)包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì),其中通信介質(zhì)包括便于從一個(gè)地方向另 一個(gè)地方傳送計(jì)算機(jī)程序的任何介質(zhì)。存儲(chǔ)介質(zhì)可以是計(jì)算機(jī)能夠存取的任何介質(zhì)。以此 為例但不限于:計(jì)算機(jī)可讀介質(zhì)可以包括1?崖、1?(通、££?1?011丄0-1?(通或其他光盤存儲(chǔ)、磁盤介 質(zhì)或者其他磁存儲(chǔ)設(shè)備、或者能夠用于攜帶或存儲(chǔ)具有指令或數(shù)據(jù)結(jié)構(gòu)形式的期望的程序 代碼并能夠由計(jì)算機(jī)存取的任何其他介質(zhì)。此外,任何連接可以適當(dāng)?shù)某蔀橛?jì)算機(jī)可讀介 質(zhì),例如,如果軟件是使用同軸電纜、光纖光纜、雙絞線、數(shù)字用戶線(SDL)或者諸如紅外線、 無線電和微波之類的無線技術(shù)包括在所屬介質(zhì)的定影中。如本發(fā)明所使用的盤(Disk)和碟 (Disc)包括壓縮光碟(CD)、激光碟、光碟、數(shù)字通用光碟(DVD)、軟盤和藍(lán)光光碟,其中盤通 常磁性的復(fù)制數(shù)據(jù),而碟則用激光來光學(xué)的復(fù)制數(shù)據(jù)。上面的組合也應(yīng)當(dāng)包括在計(jì)算機(jī)可 讀介質(zhì)的保護(hù)范圍之內(nèi)。
[0079]以上所述僅為本發(fā)明的實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā) 明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技 術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種金融產(chǎn)品交易策略的生成系統(tǒng),其特征在于,包括: 交易數(shù)據(jù)獲取模塊,用于獲取金融產(chǎn)品在第t個(gè)交易單位的歷史交易數(shù)據(jù)St; 交易策略生成模塊,用于構(gòu)造深度神經(jīng)網(wǎng)絡(luò)函數(shù)Qt(st,an),將所述歷史交易數(shù)據(jù)S t和預(yù) 設(shè)的交易行為an作為所述深度神經(jīng)網(wǎng)絡(luò)函數(shù)的輸入,計(jì)算預(yù)設(shè)的交易行為&"所得到的Q t的 值;比較預(yù)設(shè)交易行為集合中各個(gè)預(yù)設(shè)交易行為所得到的Qt值;選擇所述Qt值為最大時(shí)所對(duì) 應(yīng)的預(yù)設(shè)交易行為作為第t+Ι個(gè)交易單位的交易策略; 其中,所述預(yù)設(shè)交易行為集合為"二卜:^^…^"^取值為小于等于一勺整數(shù)^斤述神 經(jīng)網(wǎng)絡(luò)函數(shù)中的各個(gè)參數(shù)在第t個(gè)交易單位的值是預(yù)先設(shè)置的。2. 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 交易收益計(jì)算模塊,用于計(jì)算第t+Ι個(gè)交易單位的交易收益Rt+1; 所述交易策略生成模塊,還用于當(dāng)所述Rt+1大于〇時(shí),所述各個(gè)參數(shù)在第t+1個(gè)交易單位 的基礎(chǔ)上沿著梯度的方向增加向量;當(dāng)所述Rt+1小于O時(shí),所述各個(gè)參數(shù)在第t+Ι個(gè)交易單位 的基礎(chǔ)上沿著梯度的方向減少向量。3. 根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述交易收益Rt+1=(Yt+1-Yt)/Y t+1;其中, Yt+1是第t+1個(gè)交易單位的收盤價(jià)總市值,Yt是第t個(gè)交易單位的收盤價(jià)總市值。4. 根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 累積回報(bào)CR計(jì)算模塊,用于計(jì)算在第t個(gè)交易單位至第η個(gè)交易單位的周期內(nèi)的總的交 易收益;CR = Rt+gammat+i*Rt+i+··· · ·gamman*Rn;其中,gamma是0-1 之間的數(shù),是一個(gè)衰減系 數(shù);t為自然數(shù),η為大于t的自然數(shù)。5. 根據(jù)權(quán)利要求1-4任一所述的系統(tǒng),其特征在于,所述交易單位為天數(shù)。6. -種金融產(chǎn)品交易策略的生成方法,其特征在于,包括: 獲取金融產(chǎn)品在第t個(gè)交易單位的歷史交易數(shù)據(jù)St; 構(gòu)造深度神經(jīng)網(wǎng)絡(luò)函數(shù)Qt(St,an),將所述歷史交易數(shù)據(jù)St和預(yù)設(shè)的交易行為a n作為所 述深度神經(jīng)網(wǎng)絡(luò)函數(shù)的輸入,計(jì)算預(yù)設(shè)的交易行為&"所得到的Qt的值;比較預(yù)設(shè)交易行為集 合中各個(gè)預(yù)設(shè)交易行為所得到的Qt值;選擇所述Qt值為最大時(shí)所對(duì)應(yīng)的預(yù)設(shè)交易行為作為 第t+Ι個(gè)交易單位的交易策略; 其中,所述預(yù)設(shè)交易行為集合為"二卜:^^…^"^取值為小于等于一勺整數(shù)^斤述神 經(jīng)網(wǎng)絡(luò)函數(shù)中的各個(gè)參數(shù)在第t個(gè)交易單位的值是預(yù)先設(shè)置的。7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括: 計(jì)算第t+Ι個(gè)交易單位的交易收益Rt+1; 當(dāng)所述Rt+1大于0時(shí),所述各個(gè)參數(shù)在第t+1個(gè)交易單位的基礎(chǔ)上沿著梯度的方向增加 向量;當(dāng)所述心+1小于〇時(shí),所述各個(gè)參數(shù)在第t+Ι個(gè)交易單位的基礎(chǔ)上沿著梯度的方向減少 向量。8. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述交易收益Rt+1=(Yt+1-Yt)/Y t+1;其中, Yt+1是第t+1個(gè)交易單位的收盤價(jià)總市值,Yt是第t交易單位的收盤價(jià)總市值。9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述方法還包括: 計(jì)算在第t個(gè)交易單位至第η個(gè)交易單位的周期內(nèi)的總的交易收益;CR = Rt+gammat+i* Rt+i+···. .gamman*Rn;其中,gamma是0-1之間的數(shù),是一個(gè)衰減系數(shù);t為自然數(shù),η為大于t的 自然數(shù)。10.根據(jù)權(quán)利要求6-9任一所述的方法,其特征在于,所述交易單位為天數(shù)。
【文檔編號(hào)】G06Q40/04GK105894379SQ201610194254
【公開日】2016年8月24日
【申請(qǐng)日】2016年3月30日
【發(fā)明人】程明強(qiáng), 耿志賢, 曹國梁
【申請(qǐng)人】上海坤士合生信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1