亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于云計(jì)算的金融數(shù)據(jù)挖掘方法

文檔序號(hào):6517694閱讀:261來(lái)源:國(guó)知局
基于云計(jì)算的金融數(shù)據(jù)挖掘方法
【專利摘要】本發(fā)明公開(kāi)一種基于云計(jì)算的金融數(shù)據(jù)挖掘方法,包括步驟:對(duì)獲取的金融財(cái)務(wù)數(shù)據(jù)進(jìn)行修正錯(cuò)誤、格式轉(zhuǎn)換等預(yù)處理操作;建立所需的神經(jīng)元網(wǎng)格,網(wǎng)格為矩形分布,其個(gè)數(shù)為擁有的樣本數(shù)量的1%;利用已經(jīng)建立的網(wǎng)格和處理好的數(shù)據(jù)進(jìn)行適應(yīng)性訓(xùn)練;利用已經(jīng)建立的網(wǎng)格和處理好的數(shù)據(jù)進(jìn)行收斂性訓(xùn)練;利用訓(xùn)練好的神經(jīng)元的權(quán)重來(lái)對(duì)數(shù)據(jù)進(jìn)行離散化處理,使每個(gè)樣本對(duì)應(yīng)一個(gè)神經(jīng)元;對(duì)每個(gè)離散點(diǎn)進(jìn)行標(biāo)號(hào)處理及可視化處理。本發(fā)明的優(yōu)點(diǎn)是利用了分布式存儲(chǔ)和計(jì)算的特點(diǎn);利用了自組織神經(jīng)網(wǎng)絡(luò)特性,對(duì)數(shù)據(jù)降維并聚類處理;采用了可視化技術(shù),更生動(dòng)形象。
【專利說(shuō)明】基于云計(jì)算的金融數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種分布式的金融數(shù)據(jù)挖掘方法,尤其是處理大數(shù)據(jù)下快速聚類的基于云計(jì)算的金融數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002]隨著Internet迅速發(fā)展,WWW(World Wide Web簡(jiǎn)稱WWW)已成為一個(gè)巨大的信息空間,為用戶提供了極具價(jià)值的信息資源。而面對(duì)大量的金融財(cái)務(wù)數(shù)據(jù)資源,如何分析處理成為至關(guān)重要的問(wèn)題。一種常用的方法是將高維數(shù)據(jù)降維至二維并進(jìn)行可視化處理,并以此幫助決策者進(jìn)行決策分析。
[0003]自組織神經(jīng)網(wǎng)絡(luò)SOM (self-organization mapping net)是基于無(wú)監(jiān)督學(xué)習(xí)方法的神經(jīng)網(wǎng)絡(luò)的一種重要類型。自組織映射網(wǎng)絡(luò)理論最早是由芬蘭赫爾辛基理工大學(xué)Kohen于1981年提出的。此后,伴隨著神經(jīng)網(wǎng)絡(luò)在20世紀(jì)80年代中后期的迅速發(fā)展,自組織映射理論及其應(yīng)用也有了長(zhǎng)足的進(jìn)步。
[0004]它是一種無(wú)指導(dǎo)的聚類方法。它模擬人腦中處于不同區(qū)域的神經(jīng)細(xì)胞分工不同的特點(diǎn),即不同區(qū)域具有不同的響應(yīng)特征,而且這一過(guò)程是自動(dòng)完成的。自組織映射網(wǎng)絡(luò)通過(guò)尋找最優(yōu)參考矢量集合來(lái)對(duì)輸入模式集合進(jìn)行分類。每個(gè)參考矢量為一輸出單元對(duì)應(yīng)的連接權(quán)向量。與傳統(tǒng)的模式聚類方法相比,它所形成的聚類中心能映射到一個(gè)曲面或平面上,而保持拓?fù)浣Y(jié)構(gòu)不變。對(duì)于未知聚類中心的判別問(wèn)題可以用自組織映射來(lái)實(shí)現(xiàn)。
[0005]自組織神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)最富有魅力的研究領(lǐng)域之一,它能夠通過(guò)其輸入樣本學(xué)會(huì)檢測(cè)其規(guī)律性和輸入樣本相互之間的關(guān)系,并且根據(jù)這些輸入樣本的信息自適應(yīng)調(diào)整網(wǎng)絡(luò),使網(wǎng)絡(luò)以后的響應(yīng)與輸入樣本相適應(yīng)。競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)的神經(jīng)元通過(guò)輸入信息能夠識(shí)別成組的相似輸入向量;自組織映射神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)同樣能夠識(shí)別成組的相似輸入向量,使那些網(wǎng)絡(luò)層中彼此靠得很近的神經(jīng)元對(duì)相似的輸入向量產(chǎn)生響應(yīng)。與競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)不同的是,自組織映射神經(jīng)網(wǎng)絡(luò)不但能學(xué)習(xí)輸入向量的分布情況,還可以學(xué)習(xí)輸入向量的拓?fù)浣Y(jié)構(gòu),其單個(gè)神經(jīng)元對(duì)模式分類不起決定性作用,而要靠多個(gè)神經(jīng)元的協(xié)同作用才能完成模式分類。
[0006]學(xué)習(xí)向量量化LVQ( learning vector quantization)是一種用于訓(xùn)練競(jìng)爭(zhēng)層的有監(jiān)督學(xué)習(xí)(supervised learning)方法。競(jìng)爭(zhēng)層神經(jīng)網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)對(duì)輸入向量模式的分類,但是競(jìng)爭(zhēng)層進(jìn)行的分類只取決于輸入向量之間的距離,當(dāng)兩個(gè)輸入向量非常接近時(shí),競(jìng)爭(zhēng)層就可能把它們歸為一類。在競(jìng)爭(zhēng)層的設(shè)計(jì)中沒(méi)有這樣的機(jī)制,即嚴(yán)格按地區(qū)判斷任意兩個(gè)輸入向量是屬于同一類還是屬于不同類。而對(duì)于LVQ網(wǎng)絡(luò)用戶指定目標(biāo)分類結(jié)果,網(wǎng)絡(luò)可以通過(guò)監(jiān)督學(xué)習(xí),完成對(duì)輸入向量模式的準(zhǔn)確分類。

【發(fā)明內(nèi)容】

[0007]本發(fā)明所要解決的技術(shù)問(wèn)題是要提供一種利用自組織神經(jīng)網(wǎng)絡(luò)特性,對(duì)數(shù)據(jù)降維并聚類處理,可視化的基于云計(jì)算的金融數(shù)據(jù)挖掘方法。[0008]為了解決以上的技術(shù)問(wèn)題,本發(fā)明提供了一種基于云計(jì)算的金融數(shù)據(jù)挖掘方法,該方法包括以下步驟:
1)對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)遷移、清理等預(yù)處理操作;
2)根據(jù)原始數(shù)據(jù)的數(shù)據(jù)量和維度確定神經(jīng)元的分布網(wǎng)格的結(jié)構(gòu);
3)利用處理好的數(shù)據(jù)和神經(jīng)元網(wǎng)格結(jié)構(gòu)進(jìn)行適應(yīng)性訓(xùn)練;
4)利用上述數(shù)據(jù)及適應(yīng)性訓(xùn)練的結(jié)果進(jìn)行收斂性訓(xùn)練;
5)利用上述訓(xùn)練結(jié)果對(duì)數(shù)據(jù)進(jìn)行離散化處理及可視化處理。
[0009]所述的步驟I)的數(shù)據(jù)預(yù)處理操作包括以下步驟:
11)將原始數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為CSV格式文檔;
12)對(duì)上述文檔中的缺失數(shù)據(jù)進(jìn)行填補(bǔ),空缺值用該屬性平均值替代;
所述的步驟2)中的神經(jīng)元網(wǎng)格結(jié)構(gòu)為二維矩形格,其數(shù)量為樣本數(shù)的1% ;二維矩形格中神經(jīng)元的距離為歐式距離。
[0010]所述步驟3)包含以下步驟:
31)設(shè)置初始鄰域范圍為2)中網(wǎng)格的半徑;
32)設(shè)置鄰域收縮系數(shù)與初始鄰域常數(shù)的關(guān)系為:T1 = 1000fa0,其中O0為初始鄰域范圍,T1為收縮系數(shù);
33)設(shè)置學(xué)習(xí)步長(zhǎng)初始值%及步長(zhǎng)收縮常數(shù)&;
34)計(jì)算每步循環(huán)時(shí)學(xué)習(xí)步長(zhǎng)”及鄰域函數(shù),它們的計(jì)算公式為:
【權(quán)利要求】
1.一種基于云計(jì)算的金融數(shù)據(jù)挖掘方法,該方法包括以下步驟: 1)對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)遷移、清理等預(yù)處理操作; 2)根據(jù)原始數(shù)據(jù)的數(shù)據(jù)量和維度確定神經(jīng)元的分布網(wǎng)格的結(jié)構(gòu); 3)利用處理好的數(shù)據(jù)和神經(jīng)元網(wǎng)格結(jié)構(gòu)進(jìn)行適應(yīng)性訓(xùn)練; 4)利用上述數(shù)據(jù)及適應(yīng)性訓(xùn)練的結(jié)果進(jìn)行收斂性訓(xùn)練; 5)利用上述訓(xùn)練結(jié)果對(duì)數(shù)據(jù)進(jìn)行離散化處理及可視化處理。
2.根據(jù)權(quán)利要求1所述的基于云計(jì)算的金融數(shù)據(jù)挖掘方法,其特征在于,所述的步驟O的數(shù)據(jù)預(yù)處理操作包括以下步驟: 11)將原始數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為CSV格式文檔; 12)對(duì)上述文檔中的缺失數(shù)據(jù)進(jìn)行填補(bǔ),空缺值用該屬性平均值替代。
3.根據(jù)權(quán)利要求1所述的基于云計(jì)算的金融數(shù)據(jù)挖掘方法,其特征在于,所述的步驟2)中的神經(jīng)元網(wǎng)格結(jié)構(gòu)為二維矩形格,其數(shù)量為樣本數(shù)的1%。
4.根據(jù)權(quán)利要求3所述的基于云計(jì)算的金融數(shù)據(jù)挖掘方法,其特征在于,所述二維矩形格中神經(jīng)元的距離為歐式距離。
5.根據(jù)權(quán)利要求1所述的基于云計(jì)算的金融數(shù)據(jù)挖掘方法,其特征在于,所述步驟3)包含以下步驟: 31)設(shè)置初始鄰域范圍為2)中網(wǎng)格的半徑; 32)設(shè)置鄰域收縮系數(shù)與初始鄰域常數(shù)的關(guān)系為:T1 = 1000/σ0,其中A為初始鄰域范圍,T1為收縮系數(shù); 33)設(shè)置學(xué)習(xí)步長(zhǎng)初始值:?及步長(zhǎng)收縮常數(shù)1; 34)計(jì)算每步循環(huán)時(shí)學(xué)習(xí)步長(zhǎng)”及鄰域函數(shù),計(jì)算公式為:
6.根據(jù)權(quán)利要求1所述的基于云計(jì)算的金融數(shù)據(jù)挖掘方法,其特征在于,所述步驟4)包含以下步驟: 41)設(shè)置初始鄰域范圍為2)中網(wǎng)格的半徑;42)設(shè)置鄰域收縮系數(shù)與初始鄰域常數(shù)的關(guān)系為:T1= 1000/%,其中τ為初始鄰域范圍,S為收縮系數(shù); 43)設(shè)置學(xué)習(xí)步長(zhǎng)初始值:?及步長(zhǎng)收縮常數(shù)巧; 44)計(jì)算每步循環(huán)時(shí)學(xué)習(xí)步長(zhǎng)”及鄰域函數(shù)&,計(jì)算公式為:
7.根據(jù)權(quán)利要求1所述的基于云計(jì)算的金融數(shù)據(jù)挖掘方法,其特征在于,步驟5)為用每個(gè)神經(jīng)元的權(quán)重與每個(gè)樣本做內(nèi)積最大的值對(duì)應(yīng)的神經(jīng)元在網(wǎng)格上的坐標(biāo)為離散化的結(jié)果。
【文檔編號(hào)】G06Q40/00GK103559642SQ201310536760
【公開(kāi)日】2014年2月5日 申請(qǐng)日期:2013年11月4日 優(yōu)先權(quán)日:2013年11月4日
【發(fā)明者】向陽(yáng), 羅成, 張依楊, 張波, 袁書寒 申請(qǐng)人:同濟(jì)大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1