基于遺傳規(guī)劃決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于遺傳規(guī)劃的決策樹分類方法,主要用于解決信息物理融合系 統(tǒng)中大規(guī)模數(shù)據(jù)考慮代價損失時,分類過程繁瑣、耗時過多、效率低下的問題,屬于信息物 理融合系統(tǒng)和數(shù)據(jù)挖掘的交叉技術(shù)應(yīng)用領(lǐng)域。
【背景技術(shù)】
[0002] 信息物理融合系統(tǒng)被認(rèn)為是繼計算機、互聯(lián)網(wǎng)之后世界信息技術(shù)的第三次浪 潮。信息物理融合系統(tǒng)可以理解為基于嵌入式設(shè)備的高效網(wǎng)絡(luò)化智能信息系統(tǒng),是具有 高度自主感知、自主判斷、自主調(diào)節(jié)和自治能力,能夠?qū)崿F(xiàn)虛擬世界和現(xiàn)實物理世界互聯(lián) 與協(xié)同的下一代智能系統(tǒng)。信息物理融合系統(tǒng)在功能上主要考慮性能優(yōu)化,是集計算 (Computation)、通信(Communication)與控制(Control) 3C于一體的智能技術(shù)?,F(xiàn)在,信 息物理融合系統(tǒng)技術(shù)已經(jīng)得到了國際工商業(yè)界和許多大型國際公司的高度關(guān)注,發(fā)展速度 極為迅速,已被應(yīng)用于交通、醫(yī)療、能源等多個重要發(fā)展領(lǐng)域,具有廣闊的應(yīng)用前景。
[0003] 數(shù)據(jù)挖掘是一個迭代過程,它從大量的數(shù)據(jù)中搜尋有價值的、非同尋常的新信息, 是人和計算機合作的結(jié)果;它在人類專家描述問題和目標(biāo)的知識與計算機的搜索能力之間 尋求平衡,以求獲得最好的結(jié)果。數(shù)據(jù)挖掘是計算機行業(yè)中發(fā)展最快的領(lǐng)域之一,以前它只 是計算機科學(xué)和統(tǒng)計學(xué)中的一個主題,現(xiàn)如今,它已經(jīng)迅速發(fā)展成為一個獨立的領(lǐng)域。數(shù)據(jù) 挖掘最強大的一個優(yōu)勢在于它可以把許多方法和技術(shù)應(yīng)用與大量的問題集。數(shù)據(jù)挖掘是一 個在大數(shù)據(jù)集上進行的自然行為,所以其最大的目標(biāo)市場是整個數(shù)據(jù)倉庫、數(shù)據(jù)集市和決 策支持業(yè)界,包括諸如零售、制造、電信、醫(yī)療、保險、運輸?shù)刃袠I(yè)。
[0004] 分類是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要數(shù)據(jù)類的模型。這種模型稱為 決策樹,預(yù)測分類的類標(biāo)號。分類一般分為兩個步驟:第一步,我們基于給出的數(shù)據(jù)建立一 個分類模型;第二步,確定該模型的準(zhǔn)確率是否可以接受,如果可以,則使用該模型對新的 數(shù)據(jù)進行分類。大部分的分類算法是內(nèi)存駐留的算法,通常假定數(shù)據(jù)量很小。隨著現(xiàn)代技 術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘研宄建立在這些工作基礎(chǔ)上,開發(fā)了可伸縮的分類和預(yù)測技術(shù),能 夠處理大的、駐留磁盤的數(shù)據(jù)。分類有大量應(yīng)用,包括欺詐檢測、目標(biāo)營銷、性能預(yù)測、制造 和醫(yī)療診斷等。
[0005] 決策樹是一種類似流程圖的樹結(jié)構(gòu),它是一種典型的分類方法。它首先對數(shù)據(jù) 進行處理,利用歸納算法生成可讀的規(guī)則并建立決策樹,然后使用決策對新數(shù)據(jù)進行分 析。本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。在20世紀(jì)70年代后期和 20世紀(jì)80年代初期,機器學(xué)習(xí)研宄院J. Ross Quinlan開發(fā)了決策樹算法,稱為迭代的二 分器(Iterative Dichotomiser,ID3)。Quinlan 后來又提出了 ID3 的后繼 C4. 5 成為了 新的監(jiān)督學(xué)習(xí)算法的性能比較基準(zhǔn)。1984年,多位統(tǒng)計學(xué)家出版了《Classification and Regression Trees》(CART),介紹了二叉決策樹的產(chǎn)生。傳統(tǒng)的決策樹算大多采用了貪心方 法,并且使用了自頂向下遞歸的分治方法構(gòu)造樹結(jié)構(gòu)。
[0006] 遺傳規(guī)劃是進化計算領(lǐng)域的重要技術(shù)之一,也稱遺傳編程,是由美國的Koza教授 于1992年提出的一種新的進化計算方法。利用這種技術(shù)可以在不知道解的任何信息的情 況下,自動化的解決問題。在Nichael L. Cramer發(fā)明了基于樹狀結(jié)構(gòu)的遺傳規(guī)劃后,其作 為進化算法的重要方向之一被廣泛應(yīng)用。之后在學(xué)者的大力推進發(fā)展下,遺傳規(guī)劃開始被 應(yīng)用于自動編程以及數(shù)值組合優(yōu)化問題中。
[0007] 遺傳規(guī)劃是一個基于隨機搜索技術(shù)的優(yōu)化方法,由一群個體組成,每一個個體代 表一個染色體,且都有一個適應(yīng)度。依據(jù)達爾文進化論中的適者生存的原則,通過處理具有 高適應(yīng)度的個體來產(chǎn)生下一代的種群,如此反復(fù)。最終,所需求解的問題的最優(yōu)解或者近似 最優(yōu)解,會出現(xiàn)在某一代中。遺傳規(guī)劃相較于遺傳算法而言,其最為顯著的特點為,在遺傳 規(guī)則中是以樹型結(jié)構(gòu)為個體,進而有這些個體組成種群。其中樹型結(jié)構(gòu)的節(jié)點分別由終結(jié) 點、原始函數(shù)和運算符號組成。
[0008] 遺傳規(guī)劃運用進化計算的思想,采用樹型結(jié)構(gòu)來進行個體的編碼??朔藗鹘y(tǒng)遺 傳算法在定長基因編碼上的局限。遺傳規(guī)劃是一種通用的,不依賴于待解問題所處領(lǐng)域的 方法,提供了一種找到待解問題最優(yōu)解或者近似最優(yōu)解的統(tǒng)一方法。
[0009] 遺傳規(guī)劃可以動態(tài)生成預(yù)測分析的最優(yōu)非線性結(jié)果,也能應(yīng)用在信息物理融合系 統(tǒng)的分類問題中,包括氣象預(yù)報、金融、醫(yī)療等領(lǐng)域。原因在于他不需要數(shù)據(jù)統(tǒng)計分布的與 處理知識,就能進行類別判別的處理。
【發(fā)明內(nèi)容】
[0010] 技術(shù)問題:本發(fā)明的目的是提供一種基于遺傳規(guī)劃決策樹的信息物理融合系統(tǒng)數(shù) 據(jù)分類方法,該方法在決策樹建立的過程中增加了遺傳規(guī)劃的步驟,以解決信息物理融合 系統(tǒng)中大規(guī)模數(shù)據(jù)考慮代價損失時,分類過程繁瑣、耗時過多、效率低下的問題。
[0011] 技術(shù)方案:本發(fā)明所述的基于遺傳規(guī)劃決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方 法,用戶先在信息物理融合系統(tǒng)中構(gòu)建多棵決策樹,再使用遺傳規(guī)劃的方法對這些決策樹 進行優(yōu)化處理,最終留下合適的幾個決策樹。利用留下的決策樹,在減少代價損失的基礎(chǔ)上 對訓(xùn)練數(shù)據(jù)類別進行修改,用修改后的訓(xùn)練數(shù)據(jù)重新生成一棵決策樹,使用最終生成的決 策樹對數(shù)據(jù)進行分類。
[0012] 本發(fā)明所述的信息物理融合系統(tǒng)由若干物理單元和一個信息單元組成,其中所述 的物理單元用于收集數(shù)據(jù);所述信息單元用于接收并存儲物理單元發(fā)送的數(shù)據(jù),以及對這 些進行分析和處理。
[0013] 基于遺傳規(guī)劃決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法包括以下步驟:
[0014] 步驟1)用戶將信息物理融合系統(tǒng)的組成單元劃分為多個物理單元和一個信息單 元;所述物理單元用于收集數(shù)據(jù),所述信息單元用于分析和處理數(shù)據(jù);
[0015] 步驟2)用戶啟動物理單元開始收集信息物理融合系統(tǒng)的數(shù)據(jù)。每個數(shù)據(jù)包括數(shù) 據(jù)樣本號、屬性值、類別、錯誤分類的代價損失值;
[0016] 步驟3)信息單元將由物理單元傳送來的數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),并記 錄下數(shù)據(jù)類別的個數(shù);
[0017] 步驟4)信息單元采用有放回的方式,使用訓(xùn)練數(shù)據(jù)建立多個決策樹。所述決策樹 為機器學(xué)習(xí)分類算法中一種樹型結(jié)構(gòu)的分類器,分類器是一種計算機程序,作用是可自動 將數(shù)據(jù)分到已知類別;
[0018] 步驟5)使用測試樣本對建立好的決策樹進行測試,記錄每個決策樹的分類準(zhǔn)確 率和代價損失。所述分類準(zhǔn)確率是指該決策樹在對測試數(shù)據(jù)進行分類時,正確分類的數(shù)據(jù) 數(shù)和總的測試數(shù)據(jù)數(shù)的比值;代價損失指的是該決策樹對所有測試數(shù)據(jù)進行分類后,所得 到的錯誤分類的代價總和;
[0019] 步驟6)在信息單元中計算并記錄所有決策樹的適應(yīng)度值。所述適應(yīng)度值是用戶 分別賦予該決策樹的分類準(zhǔn)確率和代價損失一個權(quán)值,該決策樹的分類準(zhǔn)確率以及代價損 失的加權(quán)和便是該決策樹的適應(yīng)度值;
[0020] 步驟7)在信息單元中對決策樹進行運算處理,具體步驟如下:
[0021] 步驟7. 1)在所有決策樹中,除去適應(yīng)度值最尚的決策樹,任意選取兩個決策樹;
[0022] 步驟7. 2)在被選取的兩個決策樹上,分別隨機選擇一個節(jié)點,交換以這兩個節(jié)點 為根節(jié)點的子樹,并計算記錄此時的決策樹的適應(yīng)度值;
[0023] 步驟7. 3)使用之前未參與運算的決策樹替換運算后的適應(yīng)度值最低的決策樹;
[0024] 步驟7. 4)判斷此時信息單元中的決策樹個數(shù)是否和數(shù)據(jù)類別數(shù)相等,若相等則 終止運算;否則繼續(xù)重復(fù)步驟7 ;
[0025] 步驟8)在信息單元中,使用最終留下的決策樹對訓(xùn)練數(shù)據(jù)進行分類處理。如果所 有決策樹對某個訓(xùn)練數(shù)據(jù)的類別判定一致,則將該數(shù)據(jù)的類別標(biāo)記為此判定類別;否則根 據(jù)最小條件風(fēng)險修改類標(biāo)記。所述最小條件風(fēng)險具體如下:首先計算該訓(xùn)練數(shù)據(jù)分類為每 一個類別的概率;其次分別計算不同概率和每個決策樹的分類準(zhǔn)確率、此時所需要付出的 錯誤分類代價,三者的乘積;最后選取乘積最小時,決策樹對該訓(xùn)練數(shù)據(jù)進行分類判定的類 別作為訓(xùn)練數(shù)據(jù)的類別;
[0026] 步驟9)信息單元使用上述修改過的訓(xùn)練數(shù)據(jù)重新生成新的決策樹。
[0027] 有益效果:本發(fā)明在對信息物理融合系統(tǒng)數(shù)據(jù)進行分類的時候,使用了數(shù)據(jù)挖掘 中分類算法的決策樹算法,并引入了遺傳規(guī)劃相關(guān)步驟,以解決信息物理融合系統(tǒng)中大規(guī) 模數(shù)據(jù)考慮代價損失時,分類耗時過多、效率低下的問題。具體來說,本發(fā)明所述的基于遺 傳規(guī)劃決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法具有如下的有益效果:
[0028] (1)決策樹易于理解和實現(xiàn),使用者在學(xué)習(xí)過程中不需要了解很多的背景知識,只 需要通過解釋后,可以理解決策樹所表達的意義即刻。
[0029] (2)決策樹能夠直接體現(xiàn)數(shù)據(jù)的特點,樹型結(jié)構(gòu)易于使用者觀察和理解。
[0030] (3)引入遺傳