基于云計(jì)算的金融數(shù)據(jù)挖掘方法

文檔序號(hào)：6517694閱讀：261來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于云計(jì)算的金融數(shù)據(jù)挖掘方法
【專利摘要】本發(fā)明公開(kāi)一種基于云計(jì)算的金融數(shù)據(jù)挖掘方法，包括步驟：對(duì)獲取的金融財(cái)務(wù)數(shù)據(jù)進(jìn)行修正錯(cuò)誤、格式轉(zhuǎn)換等預(yù)處理操作；建立所需的神經(jīng)元網(wǎng)格，網(wǎng)格為矩形分布，其個(gè)數(shù)為擁有的樣本數(shù)量的1%；利用已經(jīng)建立的網(wǎng)格和處理好的數(shù)據(jù)進(jìn)行適應(yīng)性訓(xùn)練；利用已經(jīng)建立的網(wǎng)格和處理好的數(shù)據(jù)進(jìn)行收斂性訓(xùn)練；利用訓(xùn)練好的神經(jīng)元的權(quán)重來(lái)對(duì)數(shù)據(jù)進(jìn)行離散化處理，使每個(gè)樣本對(duì)應(yīng)一個(gè)神經(jīng)元；對(duì)每個(gè)離散點(diǎn)進(jìn)行標(biāo)號(hào)處理及可視化處理。本發(fā)明的優(yōu)點(diǎn)是利用了分布式存儲(chǔ)和計(jì)算的特點(diǎn)；利用了自組織神經(jīng)網(wǎng)絡(luò)特性，對(duì)數(shù)據(jù)降維并聚類處理；采用了可視化技術(shù)，更生動(dòng)形象。
【專利說(shuō)明】基于云計(jì)算的金融數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種分布式的金融數(shù)據(jù)挖掘方法，尤其是處理大數(shù)據(jù)下快速聚類的基于云計(jì)算的金融數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002]隨著Internet迅速發(fā)展,WWW(World Wide Web簡(jiǎn)稱WWW)已成為一個(gè)巨大的信息空間，為用戶提供了極具價(jià)值的信息資源。而面對(duì)大量的金融財(cái)務(wù)數(shù)據(jù)資源，如何分析處理成為至關(guān)重要的問(wèn)題。一種常用的方法是將高維數(shù)據(jù)降維至二維并進(jìn)行可視化處理，并以此幫助決策者進(jìn)行決策分析。
[0003]自組織神經(jīng)網(wǎng)絡(luò)SOM (self-organization mapping net)是基于無(wú)監(jiān)督學(xué)習(xí)方法的神經(jīng)網(wǎng)絡(luò)的一種重要類型。自組織映射網(wǎng)絡(luò)理論最早是由芬蘭赫爾辛基理工大學(xué)Kohen于1981年提出的。此后，伴隨著神經(jīng)網(wǎng)絡(luò)在20世紀(jì)80年代中后期的迅速發(fā)展，自組織映射理論及其應(yīng)用也有了長(zhǎng)足的進(jìn)步。
[0004]它是一種無(wú)指導(dǎo)的聚類方法。它模擬人腦中處于不同區(qū)域的神經(jīng)細(xì)胞分工不同的特點(diǎn)，即不同區(qū)域具有不同的響應(yīng)特征，而且這一過(guò)程是自動(dòng)完成的。自組織映射網(wǎng)絡(luò)通過(guò)尋找最優(yōu)參考矢量集合來(lái)對(duì)輸入模式集合進(jìn)行分類。每個(gè)參考矢量為一輸出單元對(duì)應(yīng)的連接權(quán)向量。與傳統(tǒng)的模式聚類方法相比，它所形成的聚類中心能映射到一個(gè)曲面或平面上，而保持拓?fù)浣Y(jié)構(gòu)不變。對(duì)于未知聚類中心的判別問(wèn)題可以用自組織映射來(lái)實(shí)現(xiàn)。
[0005]自組織神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)最富有魅力的研究領(lǐng)域之一，它能夠通過(guò)其輸入樣本學(xué)會(huì)檢測(cè)其規(guī)律性和輸入樣本相互之間的關(guān)系，并且根據(jù)這些輸入樣本的信息自適應(yīng)調(diào)整網(wǎng)絡(luò)，使網(wǎng)絡(luò)以后的響應(yīng)與輸入樣本相適應(yīng)。競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)的神經(jīng)元通過(guò)輸入信息能夠識(shí)別成組的相似輸入向量；自組織映射神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)同樣能夠識(shí)別成組的相似輸入向量，使那些網(wǎng)絡(luò)層中彼此靠得很近的神經(jīng)元對(duì)相似的輸入向量產(chǎn)生響應(yīng)。與競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)不同的是，自組織映射神經(jīng)網(wǎng)絡(luò)不但能學(xué)習(xí)輸入向量的分布情況，還可以學(xué)習(xí)輸入向量的拓?fù)浣Y(jié)構(gòu)，其單個(gè)神經(jīng)元對(duì)模式分類不起決定性作用，而要靠多個(gè)神經(jīng)元的協(xié)同作用才能完成模式分類。
[0006]學(xué)習(xí)向量量化LVQ( learning vector quantization)是一種用于訓(xùn)練競(jìng)爭(zhēng)層的有監(jiān)督學(xué)習(xí)(supervised learning)方法。競(jìng)爭(zhēng)層神經(jīng)網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)對(duì)輸入向量模式的分類，但是競(jìng)爭(zhēng)層進(jìn)行的分類只取決于輸入向量之間的距離，當(dāng)兩個(gè)輸入向量非常接近時(shí)，競(jìng)爭(zhēng)層就可能把它們歸為一類。在競(jìng)爭(zhēng)層的設(shè)計(jì)中沒(méi)有這樣的機(jī)制，即嚴(yán)格按地區(qū)判斷任意兩個(gè)輸入向量是屬于同一類還是屬于不同類。而對(duì)于LVQ網(wǎng)絡(luò)用戶指定目標(biāo)分類結(jié)果，網(wǎng)絡(luò)可以通過(guò)監(jiān)督學(xué)習(xí)，完成對(duì)輸入向量模式的準(zhǔn)確分類。

【發(fā)明內(nèi)容】

[0007]本發(fā)明所要解決的技術(shù)問(wèn)題是要提供一種利用自組織神經(jīng)網(wǎng)絡(luò)特性，對(duì)數(shù)據(jù)降維并聚類處理，可視化的基于云計(jì)算的金融數(shù)據(jù)挖掘方法。[0008]為了解決以上的技術(shù)問(wèn)題，本發(fā)明提供了一種基于云計(jì)算的金融數(shù)據(jù)挖掘方法，該方法包括以下步驟:
1)對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)遷移、清理等預(yù)處理操作；
2)根據(jù)原始數(shù)據(jù)的數(shù)據(jù)量和維度確定神經(jīng)元的分布網(wǎng)格的結(jié)構(gòu)；
3)利用處理好的數(shù)據(jù)和神經(jīng)元網(wǎng)格結(jié)構(gòu)進(jìn)行適應(yīng)性訓(xùn)練；
4)利用上述數(shù)據(jù)及適應(yīng)性訓(xùn)練的結(jié)果進(jìn)行收斂性訓(xùn)練；
5)利用上述訓(xùn)練結(jié)果對(duì)數(shù)據(jù)進(jìn)行離散化處理及可視化處理。
[0009]所述的步驟I)的數(shù)據(jù)預(yù)處理操作包括以下步驟:
11)將原始數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為CSV格式文檔；
12)對(duì)上述文檔中的缺失數(shù)據(jù)進(jìn)行填補(bǔ)，空缺值用該屬性平均值替代；
所述的步驟2)中的神經(jīng)元網(wǎng)格結(jié)構(gòu)為二維矩形格，其數(shù)量為樣本數(shù)的1% ;二維矩形格中神經(jīng)元的距離為歐式距離。
[0010]所述步驟3)包含以下步驟:
31)設(shè)置初始鄰域范圍為2)中網(wǎng)格的半徑；
32)設(shè)置鄰域收縮系數(shù)與初始鄰域常數(shù)的關(guān)系為:T1 = 1000fa0，其中O0為初始鄰域范圍，T1為收縮系數(shù)；
33)設(shè)置學(xué)習(xí)步長(zhǎng)初始值％及步長(zhǎng)收縮常數(shù)&;
34)計(jì)算每步循環(huán)時(shí)學(xué)習(xí)步長(zhǎng)”及鄰域函數(shù),它們的計(jì)算公式為:
【權(quán)利要求】
1.一種基于云計(jì)算的金融數(shù)據(jù)挖掘方法，該方法包括以下步驟: 1)對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)遷移、清理等預(yù)處理操作； 2)根據(jù)原始數(shù)據(jù)的數(shù)據(jù)量和維度確定神經(jīng)元的分布網(wǎng)格的結(jié)構(gòu)； 3)利用處理好的數(shù)據(jù)和神經(jīng)元網(wǎng)格結(jié)構(gòu)進(jìn)行適應(yīng)性訓(xùn)練； 4)利用上述數(shù)據(jù)及適應(yīng)性訓(xùn)練的結(jié)果進(jìn)行收斂性訓(xùn)練； 5)利用上述訓(xùn)練結(jié)果對(duì)數(shù)據(jù)進(jìn)行離散化處理及可視化處理。
2.根據(jù)權(quán)利要求1所述的基于云計(jì)算的金融數(shù)據(jù)挖掘方法，其特征在于，所述的步驟O的數(shù)據(jù)預(yù)處理操作包括以下步驟: 11)將原始數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為CSV格式文檔； 12)對(duì)上述文檔中的缺失數(shù)據(jù)進(jìn)行填補(bǔ)，空缺值用該屬性平均值替代。
3.根據(jù)權(quán)利要求1所述的基于云計(jì)算的金融數(shù)據(jù)挖掘方法，其特征在于，所述的步驟2)中的神經(jīng)元網(wǎng)格結(jié)構(gòu)為二維矩形格，其數(shù)量為樣本數(shù)的1%。
4.根據(jù)權(quán)利要求3所述的基于云計(jì)算的金融數(shù)據(jù)挖掘方法，其特征在于，所述二維矩形格中神經(jīng)元的距離為歐式距離。
5.根據(jù)權(quán)利要求1所述的基于云計(jì)算的金融數(shù)據(jù)挖掘方法，其特征在于，所述步驟3)包含以下步驟: 31)設(shè)置初始鄰域范圍為2)中網(wǎng)格的半徑； 32)設(shè)置鄰域收縮系數(shù)與初始鄰域常數(shù)的關(guān)系為:T1 = 1000/σ0，其中A為初始鄰域范圍，T1為收縮系數(shù)； 33)設(shè)置學(xué)習(xí)步長(zhǎng)初始值:?及步長(zhǎng)收縮常數(shù)1; 34)計(jì)算每步循環(huán)時(shí)學(xué)習(xí)步長(zhǎng)”及鄰域函數(shù),計(jì)算公式為:
6.根據(jù)權(quán)利要求1所述的基于云計(jì)算的金融數(shù)據(jù)挖掘方法，其特征在于，所述步驟4)包含以下步驟: 41)設(shè)置初始鄰域范圍為2)中網(wǎng)格的半徑；42)設(shè)置鄰域收縮系數(shù)與初始鄰域常數(shù)的關(guān)系為:T1= 1000/%，其中τ為初始鄰域范圍，S為收縮系數(shù)； 43)設(shè)置學(xué)習(xí)步長(zhǎng)初始值:?及步長(zhǎng)收縮常數(shù)巧； 44)計(jì)算每步循環(huán)時(shí)學(xué)習(xí)步長(zhǎng)”及鄰域函數(shù)&,計(jì)算公式為:
7.根據(jù)權(quán)利要求1所述的基于云計(jì)算的金融數(shù)據(jù)挖掘方法，其特征在于，步驟5)為用每個(gè)神經(jīng)元的權(quán)重與每個(gè)樣本做內(nèi)積最大的值對(duì)應(yīng)的神經(jīng)元在網(wǎng)格上的坐標(biāo)為離散化的結(jié)果。
【文檔編號(hào)】G06Q40/00GK103559642SQ201310536760
【公開(kāi)日】2014年2月5日申請(qǐng)日期:2013年11月4日優(yōu)先權(quán)日:2013年11月4日
【發(fā)明者】向陽(yáng), 羅成, 張依楊, 張波, 袁書寒申請(qǐng)人:同濟(jì)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：向陽(yáng);羅成;張依楊;張波;袁書寒
技術(shù)所有人：同濟(jì)大學(xué)
我是此專利的發(fā)明人

上一篇：一種基于骨架提取的測(cè)量棒編碼標(biāo)記點(diǎn)解碼方法
上一篇：一種基于云計(jì)算的分布式搜索方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

金融數(shù)據(jù)挖掘相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于云計(jì)算的金融數(shù)據(jù)挖掘方法