基于遺傳規(guī)劃決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法

文檔序號：8457349閱讀：413來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于遺傳規(guī)劃決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于遺傳規(guī)劃的決策樹分類方法，主要用于解決信息物理融合系統(tǒng)中大規(guī)模數(shù)據(jù)考慮代價損失時，分類過程繁瑣、耗時過多、效率低下的問題，屬于信息物理融合系統(tǒng)和數(shù)據(jù)挖掘的交叉技術(shù)應(yīng)用領(lǐng)域。
【背景技術(shù)】
[0002] 信息物理融合系統(tǒng)被認(rèn)為是繼計算機、互聯(lián)網(wǎng)之后世界信息技術(shù)的第三次浪潮。信息物理融合系統(tǒng)可以理解為基于嵌入式設(shè)備的高效網(wǎng)絡(luò)化智能信息系統(tǒng)，是具有高度自主感知、自主判斷、自主調(diào)節(jié)和自治能力，能夠?qū)崿F(xiàn)虛擬世界和現(xiàn)實物理世界互聯(lián) 與協(xié)同的下一代智能系統(tǒng)。信息物理融合系統(tǒng)在功能上主要考慮性能優(yōu)化，是集計算 (Computation)、通信（Communication)與控制（Control) 3C于一體的智能技術(shù)?，F(xiàn)在，信息物理融合系統(tǒng)技術(shù)已經(jīng)得到了國際工商業(yè)界和許多大型國際公司的高度關(guān)注，發(fā)展速度極為迅速，已被應(yīng)用于交通、醫(yī)療、能源等多個重要發(fā)展領(lǐng)域，具有廣闊的應(yīng)用前景。
[0003] 數(shù)據(jù)挖掘是一個迭代過程，它從大量的數(shù)據(jù)中搜尋有價值的、非同尋常的新信息，是人和計算機合作的結(jié)果；它在人類專家描述問題和目標(biāo)的知識與計算機的搜索能力之間尋求平衡，以求獲得最好的結(jié)果。數(shù)據(jù)挖掘是計算機行業(yè)中發(fā)展最快的領(lǐng)域之一，以前它只是計算機科學(xué)和統(tǒng)計學(xué)中的一個主題，現(xiàn)如今，它已經(jīng)迅速發(fā)展成為一個獨立的領(lǐng)域。數(shù)據(jù) 挖掘最強大的一個優(yōu)勢在于它可以把許多方法和技術(shù)應(yīng)用與大量的問題集。數(shù)據(jù)挖掘是一個在大數(shù)據(jù)集上進行的自然行為，所以其最大的目標(biāo)市場是整個數(shù)據(jù)倉庫、數(shù)據(jù)集市和決策支持業(yè)界，包括諸如零售、制造、電信、醫(yī)療、保險、運輸?shù)刃袠I(yè)。
[0004] 分類是一種重要的數(shù)據(jù)分析形式，它提取刻畫重要數(shù)據(jù)類的模型。這種模型稱為決策樹，預(yù)測分類的類標(biāo)號。分類一般分為兩個步驟：第一步，我們基于給出的數(shù)據(jù)建立一個分類模型；第二步，確定該模型的準(zhǔn)確率是否可以接受，如果可以，則使用該模型對新的數(shù)據(jù)進行分類。大部分的分類算法是內(nèi)存駐留的算法，通常假定數(shù)據(jù)量很小。隨著現(xiàn)代技術(shù)的不斷發(fā)展，數(shù)據(jù)挖掘研宄建立在這些工作基礎(chǔ)上，開發(fā)了可伸縮的分類和預(yù)測技術(shù)，能夠處理大的、駐留磁盤的數(shù)據(jù)。分類有大量應(yīng)用，包括欺詐檢測、目標(biāo)營銷、性能預(yù)測、制造和醫(yī)療診斷等。
[0005] 決策樹是一種類似流程圖的樹結(jié)構(gòu)，它是一種典型的分類方法。它首先對數(shù)據(jù) 進行處理，利用歸納算法生成可讀的規(guī)則并建立決策樹，然后使用決策對新數(shù)據(jù)進行分析。本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。在20世紀(jì)70年代后期和 20世紀(jì)80年代初期，機器學(xué)習(xí)研宄院J. Ross Quinlan開發(fā)了決策樹算法，稱為迭代的二分器（Iterative Dichotomiser，ID3)。Quinlan 后來又提出了 ID3 的后繼 C4. 5 成為了新的監(jiān)督學(xué)習(xí)算法的性能比較基準(zhǔn)。1984年，多位統(tǒng)計學(xué)家出版了《Classification and Regression Trees》(CART)，介紹了二叉決策樹的產(chǎn)生。傳統(tǒng)的決策樹算大多采用了貪心方法，并且使用了自頂向下遞歸的分治方法構(gòu)造樹結(jié)構(gòu)。
[0006] 遺傳規(guī)劃是進化計算領(lǐng)域的重要技術(shù)之一，也稱遺傳編程，是由美國的Koza教授于1992年提出的一種新的進化計算方法。利用這種技術(shù)可以在不知道解的任何信息的情況下，自動化的解決問題。在Nichael L. Cramer發(fā)明了基于樹狀結(jié)構(gòu)的遺傳規(guī)劃后，其作為進化算法的重要方向之一被廣泛應(yīng)用。之后在學(xué)者的大力推進發(fā)展下，遺傳規(guī)劃開始被應(yīng)用于自動編程以及數(shù)值組合優(yōu)化問題中。
[0007] 遺傳規(guī)劃是一個基于隨機搜索技術(shù)的優(yōu)化方法，由一群個體組成，每一個個體代表一個染色體，且都有一個適應(yīng)度。依據(jù)達爾文進化論中的適者生存的原則，通過處理具有高適應(yīng)度的個體來產(chǎn)生下一代的種群，如此反復(fù)。最終，所需求解的問題的最優(yōu)解或者近似最優(yōu)解，會出現(xiàn)在某一代中。遺傳規(guī)劃相較于遺傳算法而言，其最為顯著的特點為，在遺傳規(guī)則中是以樹型結(jié)構(gòu)為個體，進而有這些個體組成種群。其中樹型結(jié)構(gòu)的節(jié)點分別由終結(jié) 點、原始函數(shù)和運算符號組成。
[0008] 遺傳規(guī)劃運用進化計算的思想，采用樹型結(jié)構(gòu)來進行個體的編碼?？朔藗鹘y(tǒng)遺傳算法在定長基因編碼上的局限。遺傳規(guī)劃是一種通用的，不依賴于待解問題所處領(lǐng)域的方法，提供了一種找到待解問題最優(yōu)解或者近似最優(yōu)解的統(tǒng)一方法。
[0009] 遺傳規(guī)劃可以動態(tài)生成預(yù)測分析的最優(yōu)非線性結(jié)果，也能應(yīng)用在信息物理融合系統(tǒng)的分類問題中，包括氣象預(yù)報、金融、醫(yī)療等領(lǐng)域。原因在于他不需要數(shù)據(jù)統(tǒng)計分布的與處理知識，就能進行類別判別的處理。

【發(fā)明內(nèi)容】

[0010] 技術(shù)問題：本發(fā)明的目的是提供一種基于遺傳規(guī)劃決策樹的信息物理融合系統(tǒng)數(shù) 據(jù)分類方法，該方法在決策樹建立的過程中增加了遺傳規(guī)劃的步驟，以解決信息物理融合系統(tǒng)中大規(guī)模數(shù)據(jù)考慮代價損失時，分類過程繁瑣、耗時過多、效率低下的問題。
[0011] 技術(shù)方案：本發(fā)明所述的基于遺傳規(guī)劃決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法，用戶先在信息物理融合系統(tǒng)中構(gòu)建多棵決策樹，再使用遺傳規(guī)劃的方法對這些決策樹進行優(yōu)化處理，最終留下合適的幾個決策樹。利用留下的決策樹，在減少代價損失的基礎(chǔ)上對訓(xùn)練數(shù)據(jù)類別進行修改，用修改后的訓(xùn)練數(shù)據(jù)重新生成一棵決策樹，使用最終生成的決策樹對數(shù)據(jù)進行分類。
[0012] 本發(fā)明所述的信息物理融合系統(tǒng)由若干物理單元和一個信息單元組成，其中所述的物理單元用于收集數(shù)據(jù)；所述信息單元用于接收并存儲物理單元發(fā)送的數(shù)據(jù)，以及對這些進行分析和處理。
[0013] 基于遺傳規(guī)劃決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法包括以下步驟：
[0014] 步驟1)用戶將信息物理融合系統(tǒng)的組成單元劃分為多個物理單元和一個信息單元；所述物理單元用于收集數(shù)據(jù)，所述信息單元用于分析和處理數(shù)據(jù)；
[0015] 步驟2)用戶啟動物理單元開始收集信息物理融合系統(tǒng)的數(shù)據(jù)。每個數(shù)據(jù)包括數(shù) 據(jù)樣本號、屬性值、類別、錯誤分類的代價損失值；
[0016] 步驟3)信息單元將由物理單元傳送來的數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)，并記錄下數(shù)據(jù)類別的個數(shù)；
[0017] 步驟4)信息單元采用有放回的方式，使用訓(xùn)練數(shù)據(jù)建立多個決策樹。所述決策樹為機器學(xué)習(xí)分類算法中一種樹型結(jié)構(gòu)的分類器，分類器是一種計算機程序，作用是可自動將數(shù)據(jù)分到已知類別；
[0018] 步驟5)使用測試樣本對建立好的決策樹進行測試，記錄每個決策樹的分類準(zhǔn)確率和代價損失。所述分類準(zhǔn)確率是指該決策樹在對測試數(shù)據(jù)進行分類時，正確分類的數(shù)據(jù) 數(shù)和總的測試數(shù)據(jù)數(shù)的比值；代價損失指的是該決策樹對所有測試數(shù)據(jù)進行分類后，所得到的錯誤分類的代價總和；
[0019] 步驟6)在信息單元中計算并記錄所有決策樹的適應(yīng)度值。所述適應(yīng)度值是用戶分別賦予該決策樹的分類準(zhǔn)確率和代價損失一個權(quán)值，該決策樹的分類準(zhǔn)確率以及代價損失的加權(quán)和便是該決策樹的適應(yīng)度值；
[0020] 步驟7)在信息單元中對決策樹進行運算處理，具體步驟如下：
[0021] 步驟7. 1)在所有決策樹中，除去適應(yīng)度值最尚的決策樹，任意選取兩個決策樹；
[0022] 步驟7. 2)在被選取的兩個決策樹上，分別隨機選擇一個節(jié)點，交換以這兩個節(jié)點為根節(jié)點的子樹，并計算記錄此時的決策樹的適應(yīng)度值；
[0023] 步驟7. 3)使用之前未參與運算的決策樹替換運算后的適應(yīng)度值最低的決策樹；
[0024] 步驟7. 4)判斷此時信息單元中的決策樹個數(shù)是否和數(shù)據(jù)類別數(shù)相等，若相等則終止運算；否則繼續(xù)重復(fù)步驟7 ;
[0025] 步驟8)在信息單元中，使用最終留下的決策樹對訓(xùn)練數(shù)據(jù)進行分類處理。如果所有決策樹對某個訓(xùn)練數(shù)據(jù)的類別判定一致，則將該數(shù)據(jù)的類別標(biāo)記為此判定類別；否則根據(jù)最小條件風(fēng)險修改類標(biāo)記。所述最小條件風(fēng)險具體如下：首先計算該訓(xùn)練數(shù)據(jù)分類為每一個類別的概率；其次分別計算不同概率和每個決策樹的分類準(zhǔn)確率、此時所需要付出的錯誤分類代價，三者的乘積；最后選取乘積最小時，決策樹對該訓(xùn)練數(shù)據(jù)進行分類判定的類別作為訓(xùn)練數(shù)據(jù)的類別；
[0026] 步驟9)信息單元使用上述修改過的訓(xùn)練數(shù)據(jù)重新生成新的決策樹。
[0027] 有益效果：本發(fā)明在對信息物理融合系統(tǒng)數(shù)據(jù)進行分類的時候，使用了數(shù)據(jù)挖掘中分類算法的決策樹算法，并引入了遺傳規(guī)劃相關(guān)步驟，以解決信息物理融合系統(tǒng)中大規(guī) 模數(shù)據(jù)考慮代價損失時，分類耗時過多、效率低下的問題。具體來說，本發(fā)明所述的基于遺傳規(guī)劃決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法具有如下的有益效果：
[0028] (1)決策樹易于理解和實現(xiàn)，使用者在學(xué)習(xí)過程中不需要了解很多的背景知識，只需要通過解釋后，可以理解決策樹所表達的意義即刻。
[0029] (2)決策樹能夠直接體現(xiàn)數(shù)據(jù)的特點，樹型結(jié)構(gòu)易于使用者觀察和理解。
[0030] (3)引入遺傳

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳志;朱超;岳文靜;
技術(shù)所有人：南京郵電大學(xué);
我是此專利的發(fā)明人

上一篇：一種文獻熱度的獲取方法及裝置的制造方法
上一篇：一種基于ad理論的信息架構(gòu)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

信息物理融合系統(tǒng)相關(guān)技術(shù)

信息物理融合相關(guān)技術(shù)

信息物理融合系統(tǒng)導(dǎo)論相關(guān)技術(shù)

信息物理融合系統(tǒng)cps相關(guān)技術(shù)

電網(wǎng)信息物理融合系統(tǒng)相關(guān)技術(shù)

電力信息物理融合系統(tǒng)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于遺傳規(guī)劃決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法