亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于代價敏感決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法

文檔序號:6539504閱讀:985來源:國知局
基于代價敏感決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法
【專利摘要】基于代價敏感決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法首先使用物理單元進行數(shù)據(jù)收集;然后再將收集到的數(shù)據(jù)傳輸至信息單元;最后在信息單元進行進一步的分析和處理。在本發(fā)明中,信息單元的操作包括以下幾個步驟:一是信息單元根據(jù)分別存儲的樣本數(shù)據(jù)分別為這些物理單元建立相應的決策樹;二是對建立的決策樹進行測試,記錄每棵決策樹中錯誤分類數(shù)和總的測試數(shù)的比值,刪除比值過大的決策樹;三是基于余下的決策樹結合此前記錄的錯誤分類數(shù)和總的測試數(shù)的比值對數(shù)據(jù)進行分類。本發(fā)明所采用的方法利用決策樹可以方便、快捷的建立樹型結構對數(shù)據(jù)進行高效的分類,也易于使用者對于數(shù)據(jù)的了解,同時也無需使用者擁有很多的背景知識。
【專利說明】基于代價敏感決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法
【技術領域】
[0001]本發(fā)明涉及一種基于代價敏感的決策樹分類方法,主要用于解決信息物理融合系統(tǒng)中數(shù)據(jù)高效分類和在分類時產(chǎn)生的損失或代價總和為最小的問題,屬于信息物理融合系統(tǒng)和數(shù)據(jù)挖掘的交叉技術應用領域。
【背景技術】
[0002]信息物理融合系統(tǒng)被認為是繼計算機、互聯(lián)網(wǎng)之后世界信息技術的第三次浪潮。信息物理融合系統(tǒng)可以理解為基于嵌入式設備的高效網(wǎng)絡化智能信息系統(tǒng),是具有高度自主感知、自主判斷、自主調(diào)節(jié)和自治能力,能夠?qū)崿F(xiàn)虛擬世界和現(xiàn)實物理世界互聯(lián)與協(xié)同的下一代智能系統(tǒng)。信息物理融合系統(tǒng)在功能上主要考慮性能優(yōu)化,是集計算(Computat ion)、通信(Communi cat ion)與控制(Control) 3C于一體的智能技術?,F(xiàn)在,信息物理融合系統(tǒng)技術已經(jīng)得到了國際工商業(yè)界和許多大型國際公司的高度關注,發(fā)展速度極為迅速,已被應用于交通、醫(yī)療、能源等多個重要發(fā)展領域,具有廣闊的應用前景。
[0003]數(shù)據(jù)挖掘是一個迭代過程,它從大量的數(shù)據(jù)中搜尋有價值的、非同尋常的新信息,是人和計算機合作的結果;它在人類專家描述問題和目標的知識與計算機的搜索能力之間尋求平衡,以求獲得最好的結果。數(shù)據(jù)挖掘是計算機行業(yè)中發(fā)展最快的領域之一,以前它只是計算機科學和統(tǒng)計學中的一個主題,現(xiàn)如今,它已經(jīng)迅速發(fā)展成為一個獨立的領域。數(shù)據(jù)挖掘最強大的一個優(yōu)勢在于它可以把許多方法和技術應用與大量的問題集。數(shù)據(jù)挖掘是一個在大數(shù)據(jù)集上進行的自然行為,所以其最大的目標市場是整個數(shù)據(jù)倉庫、數(shù)據(jù)集市和決策支持業(yè)界,包括諸如零售、制造、電信、醫(yī)療、保險、運輸?shù)刃袠I(yè)。
[0004]分類是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要數(shù)據(jù)類的模型。這種模型稱為分類器,預測分類的類標號。分類一般分為兩個步驟:第一步,我們基于給出的數(shù)據(jù)建立一個分類模型;第二步,確定該模型的準確率是否可以接受,如果可以,則使用該模型對新的數(shù)據(jù)進行分類。大部分的分類算法是內(nèi)存駐留的算法,通常假定數(shù)據(jù)量很小。隨著現(xiàn)代技術的不斷發(fā)展,數(shù)據(jù)挖掘研究建立在這些工作基礎上,開發(fā)了可伸縮的分類和預測技術,能夠處理大的、駐留磁盤的數(shù)據(jù)。分類有大量應用,包括欺詐檢測、目標營銷、性能預測、制造和醫(yī)療診斷等。
[0005]決策樹是一種類似流程圖的樹結構,它是一種典型的分類方法。它首先對數(shù)據(jù)進行處理,利用歸納算法生成可讀的規(guī)則并建立決策樹,然后使用決策對新數(shù)據(jù)進行分析。本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。在20世紀70年代后期和20世紀80年代初期,機器學習研究院J.RossQuinlan開發(fā)了決策樹算法,稱為迭代的二分器(IterativeDichotomiser, ID3)。Quinlan 后來又提出了 ID3 的后繼 C4.5 成為了新的監(jiān)督學習算法的性能比較基準。1984年,多位統(tǒng)計學家出版了《ClassificationandRegressionTreesMCART),介紹了二叉決策樹的產(chǎn)生。傳統(tǒng)的決策樹算大多采用了貪心方法,并且使用了自頂向下遞歸的分治方法構造樹結構。
[0006]代價敏感(Cost-SensitiveLearning, CSL)分類問題的原型是醫(yī)療診斷問題。在該問題中,醫(yī)生得為病人種種醫(yī)療測試的可能性、測試代價以及期望得到的測試效果進行權衡。代價敏感的學習方法主要考慮在分類中,當不同的分類錯誤會導致不同的懲罰力度時如何訓練分類器。例如在醫(yī)療中,“將病人誤診為健康人的代價”與“將健康人誤診為病人的代價”不同;在金融信用卡盜用檢測中,“將盜用誤認為正常使用的代價”與將“正常使用誤認為盜用的代價”也不同。不難看出,出現(xiàn)誤判的可能性是很小的,但如果不能正確地判斷一個潛在的誤判,將會導致一系列的損失,因而以最終的損失作為衡量目標更有現(xiàn)實意義。
[0007]自從基于代價敏感的代價學習被提出以來,引起了很多專家的關注,提出了很多新穎的方法。總的來看,有兩類基本思路:一種方法就是不改變經(jīng)典的分類方法,而只是對原有的數(shù)據(jù)集作一定的處理,或者說是在經(jīng)典的分類算法之外包裹一層算法,使之達到預定的對代價敏感的目的;另一種思路則是在經(jīng)典分類算法基礎之上,加入一些其它因素,達到代價敏感學習的目的。

【發(fā)明內(nèi)容】

[0008]技術問題:本發(fā)明的目的是提供一種基于代價敏感決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法,該方法在決策樹建立的過程中增加了代價敏感的考慮,以解決信息物理融合系統(tǒng)中數(shù)據(jù)高效分類,以及在分類時將產(chǎn)生的損失或代價總和降至最小的問題。
[0009]技術方案:本發(fā)明所述的基于代價敏感決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法,用戶先在信息物理融合系統(tǒng)中構建多棵決策樹,再將這些決策樹組成一個組合決策樹。在基于代價敏感的考慮下,通過對組合決策樹錯誤率的計算,對數(shù)據(jù)進行分類。
[0010]本發(fā)明所述的信息物理融合系統(tǒng)由若干物理單元和一個信息單元組成,其中所述的物理單元用于收集數(shù)據(jù);所述信息單元用于接收并存儲物理單元發(fā)送的數(shù)據(jù),以及對這些進行分析和處理。
[0011]基于代價敏感決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法包括以下步驟:
[0012]步驟I)用戶將信息物理融合系統(tǒng)的組成單元劃分為多個物理單元和一個信息單元;所述物理單元用于收集數(shù)據(jù),所述信息單元用于分析和處理數(shù)據(jù);
[0013]步驟2)用戶預先將訓練樣本和測試樣本放置在系統(tǒng)中,所述訓練樣本和測試樣本中的每個樣本包括樣本號、屬性名稱、對應的屬性值和類別;
[0014]步驟3)用戶啟動每個物理單元收集訓練樣本數(shù)據(jù);
[0015]步驟4)每個物理單元將收集到的訓練樣本數(shù)據(jù)發(fā)送至信息單元,信息單元對不同物理單元發(fā)送來的訓練樣本數(shù)據(jù)進行分別存儲;
[0016]步驟5)信息單元根據(jù)分別存儲的樣本數(shù)據(jù)分別為這些物理單元建立相應的決策樹,所述決策樹為機器學習分類算法中的一種樹型結構的分類器,分類器是一種計算機程序,作用是可自動將數(shù)據(jù)分到已知類別;
[0017]步驟6)信息單元將得到的決策樹放置到一個列表中,組成一個決策樹列表,所述列表為數(shù)據(jù)結構中按照線性順序,排列而成的數(shù)據(jù)項的集合,可以在這種數(shù)據(jù)結構上進行基本操作包括對元素的的查找、插入和刪除;
[0018]步驟7)信息單元對每個決策樹進行測試。具體步驟如下:
[0019]步驟7.1)將一組準備好的測試樣本輸入到每個建立好的決策樹中;[0020]步驟7.2)測試樣本經(jīng)過決策樹的決策會得到相應的分類結果;
[0021]步驟7.3)將得到的分類結果和測試樣本本身的類別進行比對,相同則分類正確,不同則分類錯誤;記錄錯誤分類的樣本數(shù);
[0022]步驟7.4)如果錯誤分類的測試樣本數(shù)和總的測試樣本數(shù)的比值大于10%,則在決策樹列表中刪除此決策樹,若否則將其保留在決策樹列表中;其中將錯誤分類的測試樣本數(shù)和總的測試樣本數(shù)的比值記為wi,記錄在信息單元中,i表示決策樹列表里第i個決策樹;
[0023]步驟8)經(jīng)過上述步驟后,若決策樹列表為空,則選取Wi最小的那棵決策樹作為最終的決策樹;
[0024]步驟9)如果決策樹列表只含有一棵決策樹,則這課決策樹為最終的決策樹;
[0025]步驟10)如果決策樹列表含有兩棵或兩棵以上的決策樹,則將決策樹列表中的決策樹作為組合決策樹,所述組合決策樹為多個決策樹組成的分類器,每個決策樹有相應的權值,該權值為錯誤分類的測試樣本數(shù)和總的測試樣本數(shù)的比值;
[0026]步驟11)計算組合決策樹的錯誤分類率H,返回H值最小時所對應的類別作為數(shù)
據(jù)的分類結果;其中H通過
【權利要求】
1.一種基于代價敏感決策樹的信息物理融合系統(tǒng)數(shù)據(jù)分類方法,其特征在于該方法包括以下步驟: 步驟I)用戶將信息物理融合系統(tǒng)的組成單元劃分為多個物理單元和一個信息單元;所述物理單元用于收集數(shù)據(jù),所述信息單元用于分析和處理數(shù)據(jù); 步驟2)用戶預先將訓練樣本和測試樣本放置在系統(tǒng)中,所述訓練樣本和測試樣本中的每個樣本包括樣本號、屬性名稱、對應的屬性值和類別; 步驟3)用戶啟動每個物理單元收集訓練樣本數(shù)據(jù); 步驟4)每個物理單元將收集到的訓練樣本數(shù)據(jù)發(fā)送至信息單元,信息單元對不同物理單元發(fā)送來的訓練樣本數(shù)據(jù)進行分別存儲; 步驟5)信息單元根據(jù)分別存儲的樣本數(shù)據(jù)分別為這些物理單元建立相應的決策樹,所述決策樹為機器學習分類算法中的一種樹型結構的分類器,分類器是一種計算機程序,作用是可自動將數(shù)據(jù)分到已知類別; 步驟6)信息單元將得到的決策樹放置到一個列表中,組成一個決策樹列表,所述列表為數(shù)據(jù)結構中按照線性順序,排列而成的數(shù)據(jù)項的集合,可以在這種數(shù)據(jù)結構上進行基本操作包括對元素的的查找、插入和刪除; 步驟7)信息單元對每個決策樹進行測試。具體步驟如下: 步驟7.1)將一組準備好 的測試樣本輸入到每個建立好的決策樹中; 步驟7.2)測試樣本經(jīng)過決策樹的決策會得到相應的分類結果; 步驟7.3)將得到的分類結果和測試樣本本身的類別進行比對,相同則分類正確,不同則分類錯誤;記錄錯誤分類的樣本數(shù); 步驟7.4)如果錯誤分類的測試樣本數(shù)和總的測試樣本數(shù)的比值大于10%,則在決策樹列表中刪除此決策樹,若否則將其保留在決策樹列表中;其中將錯誤分類的測試樣本數(shù)和總的測試樣本數(shù)的比值記為記錄在信息單元中,i表示決策樹列表里第i個決策樹;步驟8)經(jīng)過上述步驟后,若決策樹列表為空,則選取Wi最小的那棵決策樹作為最終的決策樹; 步驟9)如果決策樹列表只含有一棵決策樹,則這課決策樹為最終的決策樹; 步驟10)如果決策樹列表含有兩棵或兩棵以上的決策樹,則將決策樹列表中的決策樹作為組合決策樹,所述組合決策樹為多個決策樹組成的分類器,每個決策樹有相應的權值,該權值為錯誤分類的測試樣本數(shù)和總的測試樣本數(shù)的比值; 步驟11)計算組合決策樹的錯誤分類率H,返回H值最小時所對應的類別作為數(shù)據(jù)的分類結果;其中H通過
【文檔編號】G06F17/30GK103886030SQ201410077291
【公開日】2014年6月25日 申請日期:2014年3月5日 優(yōu)先權日:2014年3月5日
【發(fā)明者】陳志 , 朱超, 岳文靜 申請人:南京郵電大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1