一種基于模糊粗糙模型的分類規(guī)則提取方法

文檔序號：6583495閱讀：1152來源：國知局

專利名稱：一種基于模糊粗糙模型的分類規(guī)則提取方法
技術領域：
本發(fā)明屬智能決策支持系統(tǒng)中的數據挖掘技術，涉及一種模型的分類規(guī)則提取方法，具體是指一種基于模糊粗糙模型的分類規(guī)則提取方法。
背景技術：
粗糙集理論是一種分析數據的數學工具，其特點是不需要預先給定某些特征或屬性的數量描述，而是直接從給定問題的描述集合出發(fā)，找出該問題中的內在規(guī)律。它具有知識提取完全由數據驅動而不需要人為假設、簡化輸入信息的表達空間、算法簡單且易于操作等優(yōu)點。但是，粗糙集的數學基礎是集合論，對信息表中連續(xù)屬性的處理能力非常有限。目前針對具有連續(xù)屬性的信息表的數據挖掘問題，最普遍的方法是對連續(xù)數據進行離散化，由于對連續(xù)屬性的值進行離散化劃分具有不同種方法，現有實驗已經證明所有可能劃分狀態(tài)的最優(yōu)離散化方法是一種NP-hard問題。目前對連續(xù)屬性離散化的方法目前有三種分類其一，有監(jiān)督的離散化和無監(jiān)督的離散化；其二，全局離散化與局部離散化；其三，靜態(tài)離散化與動態(tài)離散化。$ US i 白勺 1 禾呈(Unsupervised discretization procedures) ^iJ 分一個連續(xù)變量時僅考慮這個屬性數據的分布特性，而有監(jiān)督的離散化過程 (Superviseddiscretization procedures)除此之外還需考慮每一個對象的分類信息。常用的無監(jiān)督的離散化過程包括1、等寬區(qū)間法(equal-width-intervals) ；2、等頻區(qū)間法 (equal-freguency-intervals) ；3、串分析方法。有監(jiān)督的離散化是為了使被離散化屬性與分類屬性之間的某種關系測度最大化，例如可利用熵測度或信息增益測度(for example Quinlan 1993 ；Catlett 1991 ；Fayyad & Irani 1993)。無監(jiān)督的離散化算法運行速度快，而有監(jiān)督的離散化算法由于考慮了分類標識因而可產生精度較高的離散樹。全局離散化(GlcAal Discretization Method)是指在同一時刻對決策表中全部連續(xù)條件屬性的屬性值進行劃分的方法，而局部離散化(Local DiscretizationMethod)則是指在同一時刻僅對一個連續(xù)屬性的屬性值進行劃分的方法。則全局離散化在全部連續(xù)屬性的離散化過程中只能產生一組離散劃分值，而局部離散化針對同一個連續(xù)屬性都可產生不同種劃分。對于全局離散方法主要有以下幾種策略歸并方法和劃分方法，劃分法又分為動態(tài)型和靜態(tài)型；動態(tài)劃分主要與決策樹有關，它是一邊生成決策樹，一邊進行連續(xù)值區(qū)間的劃分；靜態(tài)劃分方法又稱為預處理型，即在訓練例子集合之前就把連續(xù)屬性預先都離散化了，從而在機器學習時可大大提高學習效率。使用有監(jiān)督離散化方法的系統(tǒng)大部分使用全局離散化。靜態(tài)離散化方法如捆綁法(Binning)和基于熵的方法都是針對不同的屬性％可產生不同個數的離散化間隔數ki;而動態(tài)離散化方法則是在所有屬性上僅可產生同一個離散間隔數k。目前文獻記載的離散化方法均屬于靜態(tài)離散化方法，動態(tài)離散化是學者正在研究的目標。然而無論哪一種類型的連續(xù)屬性離散化方法，對于離散歸一化的結果都應滿足下列三點1、連續(xù)屬性離散化后的空間維數盡量小，也就是每一個離散歸一化后的屬性值的種類盡量少；2、屬性值被離散歸一化后的信息丟失盡量少；3、對于小樣本，離散化后應保持決策系統(tǒng)的相容性；對于大樣本，可給出離散化后的決策系統(tǒng)不相容性水平。因此，綜上所述，目前連續(xù)屬性離散化方法的不足之處是由于將連續(xù)屬性值的模糊邊界沒有考慮到，因而在離散化過程中，若離散區(qū)間太多則后續(xù)的數據挖掘過程太復雜導致挖掘規(guī)則不精煉準確；若離散區(qū)間太少則會丟失重要數據信息。

發(fā)明內容
本發(fā)明要解決的技術問題是提供一種基于模糊粗糙模型的分類規(guī)則提取方法，該方法在模糊集合論的連續(xù)屬性模糊化過程，從新的角度將精確和模糊聯系在一起，為處理不確定的信息提供了一種新的方法，通過隸屬函數來刻劃模糊概念，能有效地解決粗糙集中模糊邊界問題，從而使得數據挖掘規(guī)則精煉準確，避免丟失重要數據信息。為解決上述技術問題，本發(fā)明采用的技術方案為一種基于模糊粗糙模型的分類規(guī)則提取方法，包括以下步驟首先利用模糊集中的隸屬函數對信息表中的連續(xù)屬性進行屬性模糊化，這樣既可防止數據的損失，又能表示出各屬性值的差別，從而構造具有模糊屬性值的決策系統(tǒng)；再應用模糊相似關系中的粗糙集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分類質量測度、逼近精度相對分類測度等參數，從而建立基于逼近精度的模糊-粗糙集的約減算法來求取分類規(guī)則。上述基于模糊-粗糙約減算法包括1、參數說明及定義設決策系統(tǒng)中條件屬性集合C中有m個屬性=C1, C2, A，Cffl,決策屬性集合為D，由 D決定的劃分為{Υ1;Υ2，Λ，Yk}，對每個條件屬性Ci計算以下k+4個參數 (。)'CCci (L^， yCi(L) cpCi{L) PCi{L) ^ φ i = IAffljj = IAk0令、和分別為這k+4個參數的算數均值
和幾何均值；在每個條件屬性Ci的k+4個參數中同時考慮了條件屬性與決策屬性的絕對分類和相對分類，使條件屬性對決策的分類重要性更有具全面性和合理性；2、屬性Ci的重要性定義為=QT1Tci +QT2ATciα工和α 2分別為用戶指定的算數均值和幾何均值的重要性參數，當所有k+4個參數都非0時，表明該屬性對劃分的各子集都有影響，因而增加幾何均值&,是為了將這種重要性影響體現出現。上述算法包括以下步驟(1)計算條件屬性集合的Yc(L)；(2)對于任意條件屬性計算Z = {ZCf}；(3)初始化 C° = Φ ；(4) C0=C0+ {C, I V/,取 Ci 使石,最大}；
(5)判斷/c/ <&(幻,若滿足則繼續(xù)下一步，否則返回上一步；(6) C°即為一個最小約減。本發(fā)明相對于現有技術，通過利用基于逼近精度參數的算法將各連續(xù)屬性按重要性由大到小依次加入到屬性約減集中，直到滿足約減條件為止，算法具有簡單易實現的特點，尤其在條件屬性較多時，能較快地求出屬性約減。

圖1是輸入數據模式。的隸屬度函數π函數分布圖。
具體實施例方式一種基于模糊粗糙模型的分類規(guī)則提取方法，包括以下步驟首先利用模糊集中的隸屬函數對信息表中的連續(xù)屬性進行屬性模糊化，這樣既可防止數據的損失，又能表示出各屬性值的差別，從而構造具有模糊屬性值的決策系統(tǒng)；再應用模糊相似關系中的粗糙集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分類質量測度、逼近精度相對分類測度等參數，從而建立基于逼近精度的模糊-粗糙約減算法來求取分類規(guī)則。上述基于模糊-粗糙約減算法包括1、參數說明及定義設決策系統(tǒng)中條件屬性集合C中有m個屬性=C1, C2, A，Cffl,決策屬性集合為D，由 D決定的劃分為{Υ1; Υ2，Λ，YJ，對每個條件屬性Ci計算以下k+4個參數凡,(Fj) (Z)， A CQ，，凡00，其中i = IAm, j = IAk;令、和\分別為這k+4個參數的算數均值和幾何均值；在每個條件屬性Ci的k+4個參數中同時考慮了條件屬性與決策屬性的絕對分類和相對分類，使條件屬性對決策的分類重要性更有具全面性和合理性。2、屬性Ci的重要性定義為^c, =CClTci +a2KCiα工和α 2分別為用戶指定的算數均值和幾何均值的重要性參數，當所有k+4個參數都非0時，表明該屬性對劃分的各子集都有影響，因而增加幾何均值\是為了將這種重要性影響體現出現。上述算法包括如下步驟(1)計算條件屬性集合的Yc(L)；(2)對于任意條件屬性計算Z = {Zc, }；(3)初始化 C0 = Φ ；(4) C0=C0+ {C, I V/，取 Ci 使&最大}；(5)判斷R/ <斤(幻,若滿足則繼續(xù)下一步，否則返回上一步；(6) C°即為一個最小約減。實施例一種基于模糊粗糙模型的分類規(guī)則提取方法，包括1、連續(xù)屬性模糊化(1)連續(xù)屬性值的決策系統(tǒng)
設有一個決策系統(tǒng)(U，Q，V，f)，其中U = Ix1, x2, A，xj為非空的有限論域，表示對象；Q為非空的屬性集，Q = CY6qys7n5sxhx7，C = {Ql, q2, A，qj是一個非空、有限的條件屬性集， 6qys7n5sxhx7為決策屬性集，d:U- {1,2, A,g} ；V為屬性值，V = VcYVd, Vc = {Vq :q e C}是條件屬性值集，Vd是決策屬性值集，并且第i個對象在第j個條件屬性下的屬性值 (1 = IA η, j = IAm)為連續(xù)屬性值；f :UXQ —V是一個信息映射函數，顯然這是一個屬性值連續(xù)的決策系統(tǒng)。(2)屬性模糊化在實際應用中，對連續(xù)屬性進行模糊化的關鍵是確定隸屬度函數，利用π函數對屬性進行模糊劃分。在模糊集合中模糊成員值用三個參數表示即Iow(L)，Hiedium(M), high (H)，則任意一個η維的數據模式Fj = [Fjl, Fj2，Λ，Fjn]可以用一個3η維的向量表示Fj = [m1ow(Fji) (Fj )，Λ，MhigKFjn) (Fj)]其中μ值表示對應于模糊JI集三個參數Iow(L) ,medium (M)，high (H)的隸屬函
數值。當輸入數據模式h是連續(xù)值時，其隸屬度μ在一維空間中表示為
權利要求
1.一種基于模糊粗糙模型的分類規(guī)則提取方法，包括以下步驟首先利用模糊集中的隸屬函數對信息表中的連續(xù)屬性進行屬性模糊化，構造具有模糊屬性值的決策系統(tǒng)；再應用模糊相似關系中的粗糙集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分類質量測度、逼近精度相對分類測度等參數，從而建立基于逼近精度的模糊-粗糙集約減算法來求取分類規(guī)則。
2.根據權利要求1所述的一種基于模糊粗糙模型的分類規(guī)則提取方法，其特征在于所述模糊-粗糙約減算法包括(1)參數說明及定義設決策系統(tǒng)中條件屬性集合C中有m個屬性C1，C2，Λ，Cm，決策屬性集合為D，由D決定的劃分為{Y1; Y2, Λ，Yk}，對每個條件屬性(；計算以下k+4個參數 ^c1
3.根據權利要求1或2所述的一種基于模糊粗糙模型的分類規(guī)則提取方法，其特征在于所述模糊-粗糙約減算法上述算法包括以下步驟(1)計算條件屬性集合的Yc(L)；(2)對于任意條件屬性計算Z=(3)初始化C°= Φ ；(4)C0 = C0 +[Ci I ViMCi^ZcMM ；(5)判斷;^/</cCQ，若滿足則繼續(xù)下一步，否則返回上一步；(6)C0即為一個最小約減。
全文摘要
本發(fā)明涉及一種基于模糊粗糙模型的分類規(guī)則提取方法。目前連續(xù)屬性離散化方法由于將連續(xù)屬性值的模糊邊界沒有考慮到，因而在離散化過程中，使得數據挖掘規(guī)則不夠精煉準確，容易丟失重要數據信息。本發(fā)明的分類規(guī)則提取方法，首先利用模糊集中的隸屬函數對信息表中的連續(xù)屬性進行屬性模糊化，再應用模糊相似關系中的粗糙集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分類質量測度、逼近精度相對分類測度等參數，從而建立基于逼近精度的模糊-粗糙集約減算法來求取分類規(guī)則。本發(fā)明利用將各連續(xù)屬性按重要性由大到小依次加入到屬性約減集中，直到滿足約減條件為止，尤其在條件屬性較多時，能較快地求出屬性約減。
文檔編號G06F17/30GK102096672SQ20091021937
公開日2011年6月15日申請日期2009年12月9日優(yōu)先權日2009年12月9日
發(fā)明者張文宇申請人:西安郵電學院

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：張文宇
技術所有人：西安郵電學院
我是此專利的發(fā)明人

上一篇：一種精確設計制作ArcGIS符號庫的方法
上一篇：并行CRC算法Verilog HDL代碼自動生成器及其方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

模糊粗糙集相關技術

模糊粗糙集理論與方法相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于模糊粗糙模型的分類規(guī)則提取方法