一種數(shù)據(jù)處理方法和計算機系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實施例涉及計算機技術(shù),特別涉及一種數(shù)據(jù)處理方法和計算機系統(tǒng)。
【背景技術(shù)】
[0002] 數(shù)據(jù)挖掘(DataMining,DM)是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知 的并有潛在價值的信息的過程,是人工智能和數(shù)據(jù)庫領(lǐng)域研宄的熱點問題。數(shù)據(jù)挖掘能夠 通過分析大量數(shù)據(jù)中的每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律,能夠高度自動化地分析企業(yè) 的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風(fēng)險, 做出正確的決策。
[0003] 近年來,隨著計算能力、存儲、網(wǎng)絡(luò)的高速發(fā)展,人類積累的數(shù)據(jù)量正以指數(shù)速度 增長,基于海量數(shù)據(jù)進行數(shù)據(jù)挖掘變得越來越重要。然而,在現(xiàn)有技術(shù)中,從對數(shù)據(jù)樣本進 行建模分析到將模型結(jié)果應(yīng)用到數(shù)據(jù)決策,通常不是由機器自動化完成的,而是需要基于 多人工角色結(jié)合機器分析來實現(xiàn)。例如,以金融領(lǐng)域?qū)A繑?shù)據(jù)處理為例,通常需要由金 融模型專家基于商業(yè)挖掘分析軟件對數(shù)據(jù)樣本進行建模,得到模型文件;然后由規(guī)則開發(fā) 團隊將模型文件轉(zhuǎn)換成規(guī)則集配置文件;由數(shù)據(jù)模型團隊將規(guī)則集配置文件和數(shù)據(jù)進行映 射;最后再由云計算團隊將規(guī)則集配置文件進行封裝后打包到數(shù)據(jù)平臺進行數(shù)據(jù)決策。
[0004] 由于現(xiàn)有技術(shù)中從數(shù)據(jù)建模到數(shù)據(jù)決策需要基于多人工角色結(jié)合機器分析實現(xiàn), 一旦模型條件或者數(shù)據(jù)樣本發(fā)生變化,將導(dǎo)致模型結(jié)果變化,需要經(jīng)過較長時間才能將變 化的模型結(jié)果生效為規(guī)則文件應(yīng)用到數(shù)據(jù)平臺上,影響數(shù)據(jù)決策。
【發(fā)明內(nèi)容】
[0005] 為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實施例提出了一種數(shù)據(jù)處理方法和計算機系 統(tǒng)。
[0006] 第一方面,本發(fā)明實施例提供了一種數(shù)據(jù)處理方法,該方法包括:
[0007]計算機系統(tǒng)對數(shù)據(jù)樣本進行離散化處理,得到矩陣形式的數(shù)據(jù)樣本;
[0008] 所述計算機系統(tǒng)根據(jù)預(yù)設(shè)的分類方法,對所述矩陣形式的數(shù)據(jù)樣本進行訓(xùn)練,得 到分類規(guī)則集;
[0009] 所述計算機系統(tǒng)利用數(shù)據(jù)決策平臺識別的表達形式,將所述分類規(guī)則集轉(zhuǎn)換為所 述數(shù)據(jù)決策平臺識別的分類規(guī)則集;
[0010] 所述計算機系統(tǒng)將所述轉(zhuǎn)換得到的所述數(shù)據(jù)決策平臺識別的分類規(guī)則集提供給 所述數(shù)據(jù)決策平臺。
[0011] 結(jié)合第一方法,在第一種可能的實現(xiàn)方式中,所述預(yù)設(shè)的分類方法為決策樹算法; 則所述計算機系統(tǒng)根據(jù)預(yù)設(shè)的分類方法,對所述矩陣形式的數(shù)據(jù)樣本進行訓(xùn)練,得到分類 規(guī)則集;所述計算機系統(tǒng)利用數(shù)據(jù)決策平臺識別的表達形式,將所述分類規(guī)則集轉(zhuǎn)換為所 述數(shù)據(jù)決策平臺識別的分類規(guī)則集包括:
[0012] 所述計算機系統(tǒng)根據(jù)所述決策樹算法,對所述矩陣形式的數(shù)據(jù)樣本進行訓(xùn)練,得 到?jīng)Q策樹形式的分類規(guī)則集;所述計算機系統(tǒng)利用所述數(shù)據(jù)決策平臺識別的表達形式,將 所述決策樹形式的分類規(guī)則集轉(zhuǎn)換為所述數(shù)據(jù)決策平臺識別的分類規(guī)則集。
[0013] 結(jié)合第一方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述計算 機系統(tǒng)包括主計算節(jié)點和多個決策樹計算節(jié)點;則所述計算機系統(tǒng)根據(jù)所述決策樹算法, 對所述矩陣形式的數(shù)據(jù)樣本進行訓(xùn)練,得到?jīng)Q策樹形式的分類規(guī)則集包括:所述主計算節(jié) 點發(fā)送決策樹計算命令給每個所述決策樹計算節(jié)點;每個所述決策樹計算節(jié)點根據(jù)所述決 策樹計算命令,利用所述決策樹算法對部分所述矩陣形式的數(shù)據(jù)樣本進行訓(xùn)練,得到?jīng)Q策 樹形式的分類規(guī)則;所述決策樹形式的分類規(guī)則集為每個所述決策樹計算節(jié)點得到的決策 樹形式的分類規(guī)則的集合。
[0014] 結(jié)合第一方面的第二種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,所述主計 算節(jié)點發(fā)送決策樹計算命令給每個所述決策樹計算節(jié)點;每個所述決策樹計算節(jié)點根據(jù)所 述決策樹計算命令,利用所述決策樹算法對部分所述矩陣形式的數(shù)據(jù)樣本進行訓(xùn)練,得到 決策樹形式的分類規(guī)則包括:
[0015] 所述主計算節(jié)點獲取算法配置參數(shù),所述算法配置參數(shù)包括所述矩陣形式的數(shù)據(jù) 樣本中訓(xùn)練樣本的信息以及參與決策樹生成的屬性的信息;所述主計算節(jié)點發(fā)送所述決策 樹計算命令給每個所述決策樹計算節(jié)點,所述決策樹計算命令攜帶所述算法配置參數(shù);每 個所述決策樹計算節(jié)點根據(jù)所述決策樹計算命令攜帶的所述算法配置參數(shù),從所述矩陣形 式的數(shù)據(jù)樣本中確定訓(xùn)練樣本和參與決策樹生成的屬性,并根據(jù)所述確定的參與決策樹生 成的屬性對所述確定的訓(xùn)練樣本進行訓(xùn)練,得到?jīng)Q策樹形式的分類規(guī)則。
[0016] 結(jié)合第一方面的第三種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述方法 還包括:所述主計算節(jié)點在確定每個所述決策樹計算節(jié)點都得到?jīng)Q策樹形式的分類規(guī)則之 后,發(fā)送測試命令給每個所述決策樹計算節(jié)點;每個所述決策樹計算節(jié)點根據(jù)所述測試命 令,從所述矩陣形式的數(shù)據(jù)樣本中獲得測試樣本集,并利用自身得到的決策樹形式的分類 規(guī)則對所述測試樣本集進行測試,得到測試結(jié)果集;所述主計算節(jié)點獲取每個所述決策樹 計算節(jié)點得到的測試結(jié)果集;所述主計算節(jié)點根據(jù)預(yù)設(shè)的投票規(guī)則和每個所述決策樹計算 節(jié)點得到的測試結(jié)果集,確定測試的準(zhǔn)確率;當(dāng)測試的準(zhǔn)確率在預(yù)設(shè)合理范圍內(nèi)時,所述主 計算節(jié)點執(zhí)行將所述分類規(guī)則集轉(zhuǎn)換為所述數(shù)據(jù)決策平臺識別的分類規(guī)則集的步驟。
[0017] 結(jié)合第一方面的第三種或第四種可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中, 所述矩陣形式的數(shù)據(jù)樣本中訓(xùn)練樣本的信息包括所述矩陣形式的數(shù)據(jù)樣本的存儲地址、所 述矩陣形式的數(shù)據(jù)樣本中的訓(xùn)練樣本與測試樣本的比例、以及隨機獲取樣本的比例。
[0018] 結(jié)合第一方面的第二種至第五種任一可能的實現(xiàn)方式,在第六種可能的實現(xiàn)方式 中,所述計算機系統(tǒng)利用所述數(shù)據(jù)決策平臺識別的表達形式,將所述決策樹形式的分類規(guī) 則集轉(zhuǎn)換為所述數(shù)據(jù)決策平臺識別的分類規(guī)則集包括:每個所述決策樹計算節(jié)點根據(jù)所述 主計算節(jié)點的指示或者預(yù)設(shè)的轉(zhuǎn)換策略,利用所述數(shù)據(jù)決策平臺識別的表達形式,將自身 得到的決策樹形式的分類規(guī)則轉(zhuǎn)換為所述數(shù)據(jù)決策平臺識別的分類規(guī)則;所述數(shù)據(jù)決策平 臺識別的分類規(guī)則集為每個所述決策樹計算節(jié)點得到的所述數(shù)據(jù)決策平臺識別的分類規(guī) 則的集合。
[0019] 結(jié)合第一方面的第六種可能的實現(xiàn)方式,在第七種可能的實現(xiàn)方式中,所述計算 機系統(tǒng)將所述數(shù)據(jù)決策平臺識別的分類規(guī)則集提供給所述數(shù)據(jù)決策平臺包括:所述主計算 節(jié)點獲取每個所述決策樹計算節(jié)點得到的所述數(shù)據(jù)決策平臺識別的分類規(guī)則,得到所述數(shù) 據(jù)決策平臺識別的分類規(guī)則集;所述主計算節(jié)點將所述數(shù)據(jù)決策平臺識別的分類規(guī)則集提 供給所述數(shù)據(jù)決策平臺。
[0020] 結(jié)合第一方面的第二種至第五種任一可能的實現(xiàn)方式,在第八種可能的實現(xiàn)方式 中,所述計算機系統(tǒng)利用所述數(shù)據(jù)決策平臺識別的表達形式,將所述決策樹形式的分類規(guī) 則集轉(zhuǎn)換為所述數(shù)據(jù)決策平臺識別的分類規(guī)則集包括:每個所述決策樹計算節(jié)點根據(jù)所 述主計算節(jié)點的指示或者預(yù)設(shè)的轉(zhuǎn)換策略,將自身得到的決策樹形式的分類規(guī)則轉(zhuǎn)換為鍵 /值形式的分類規(guī)則;所述主計算節(jié)點獲取每個所述決策樹計算節(jié)點得到的鍵/值形式的 分類規(guī)則,得到鍵/值形式的分類規(guī)則集,其中,所述鍵/值形式的分類規(guī)則集為每個所述 決策樹計算節(jié)點得到的鍵/值形式的分類規(guī)則的集合;所述主計算節(jié)點利用所述數(shù)據(jù)決策 平臺識別的表達形式,將所述鍵/值形式的分類規(guī)則集轉(zhuǎn)換為所述數(shù)據(jù)決策平臺識別的分 類規(guī)則集;則所述計算機系統(tǒng)將所述數(shù)據(jù)決策平臺識別的分類規(guī)則集提供給所述數(shù)據(jù)決策 平臺包括:所述主計算節(jié)點將所述數(shù)據(jù)決策平臺識別的分類規(guī)則集提供給所述數(shù)據(jù)決策平 臺。
[0021] 結(jié)合第一方面或第一方面的第一種至第八種任一可能的實現(xiàn)方式,在第九種可能 的實現(xiàn)方式中,所述數(shù)據(jù)決策平臺識別的表達形式為以下至少之一:正則表達式,和二進制 表達式。
[0022] 第二方面,本發(fā)明實施例提供了一種計算機系統(tǒng),包括:
[0023] 離散化模塊,用于對數(shù)據(jù)樣本進行離散化處理,得到矩陣形式的數(shù)據(jù)樣本;
[0024] 處理模塊,