專利名稱:一種基于模糊粗糙模型的分類規(guī)則提取方法
技術領域:
本發(fā)明屬智能決策支持系統(tǒng)中的數據挖掘技術,涉及一種模型的分類規(guī)則提取方 法,具體是指一種基于模糊粗糙模型的分類規(guī)則提取方法。
背景技術:
粗糙集理論是一種分析數據的數學工具,其特點是不需要預先給定某些特征或屬 性的數量描述,而是直接從給定問題的描述集合出發(fā),找出該問題中的內在規(guī)律。它具有 知識提取完全由數據驅動而不需要人為假設、簡化輸入信息的表達空間、算法簡單且易于 操作等優(yōu)點。但是,粗糙集的數學基礎是集合論,對信息表中連續(xù)屬性的處理能力非常有 限。目前針對具有連續(xù)屬性的信息表的數據挖掘問題,最普遍的方法是對連續(xù)數據進行離 散化,由于對連續(xù)屬性的值進行離散化劃分具有不同種方法,現有實驗已經證明所有可能 劃分狀態(tài)的最優(yōu)離散化方法是一種NP-hard問題。目前對連續(xù)屬性離散化的方法目前有三種分類其一,有監(jiān)督的離散化和無監(jiān)督 的離散化;其二,全局離散化與局部離散化;其三,靜態(tài)離散化與動態(tài)離散化。$ US i 白勺 1 禾呈(Unsupervised discretization procedures) ^iJ 分一個連續(xù)變量時僅考慮這個屬性數據的分布特性,而有監(jiān)督的離散化過程 (Superviseddiscretization procedures)除此之外還需考慮每一個對象的分類信息。常 用的無監(jiān)督的離散化過程包括1、等寬區(qū)間法(equal-width-intervals) ;2、等頻區(qū)間法 (equal-freguency-intervals) ;3、串分析方法。有監(jiān)督的離散化是為了使被離散化屬性與 分類屬性之間的某種關系測度最大化,例如可利用熵測度或信息增益測度(for example Quinlan 1993 ;Catlett 1991 ;Fayyad & Irani 1993)。無監(jiān)督的離散化算法運行速度快, 而有監(jiān)督的離散化算法由于考慮了分類標識因而可產生精度較高的離散樹。全局離散化(GlcAal Discretization Method)是指在同一時刻對決策表中全部 連續(xù)條件屬性的屬性值進行劃分的方法,而局部離散化(Local DiscretizationMethod)則 是指在同一時刻僅對一個連續(xù)屬性的屬性值進行劃分的方法。則全局離散化在全部連續(xù)屬 性的離散化過程中只能產生一組離散劃分值,而局部離散化針對同一個連續(xù)屬性都可產生 不同種劃分。對于全局離散方法主要有以下幾種策略歸并方法和劃分方法,劃分法又分為 動態(tài)型和靜態(tài)型;動態(tài)劃分主要與決策樹有關,它是一邊生成決策樹,一邊進行連續(xù)值區(qū)間 的劃分;靜態(tài)劃分方法又稱為預處理型,即在訓練例子集合之前就把連續(xù)屬性預先都離散 化了,從而在機器學習時可大大提高學習效率。使用有監(jiān)督離散化方法的系統(tǒng)大部分使用 全局離散化。靜態(tài)離散化方法如捆綁法(Binning)和基于熵的方法都是針對不同的屬性%可 產生不同個數的離散化間隔數ki;而動態(tài)離散化方法則是在所有屬性上僅可產生同一個離 散間隔數k。目前文獻記載的離散化方法均屬于靜態(tài)離散化方法,動態(tài)離散化是學者正在研 究的目標。然而無論哪一種類型的連續(xù)屬性離散化方法,對于離散歸一化的結果都應滿足下列三點1、連續(xù)屬性離散化后的空間維數盡量小,也就是每一個離散歸一化后的屬性值的 種類盡量少;2、屬性值被離散歸一化后的信息丟失盡量少;3、對于小樣本,離散化后應保持決策系統(tǒng)的相容性;對于大樣本,可給出離散化后 的決策系統(tǒng)不相容性水平。因此,綜上所述,目前連續(xù)屬性離散化方法的不足之處是由于將連續(xù)屬性值的模 糊邊界沒有考慮到,因而在離散化過程中,若離散區(qū)間太多則后續(xù)的數據挖掘過程太復雜 導致挖掘規(guī)則不精煉準確;若離散區(qū)間太少則會丟失重要數據信息。
發(fā)明內容
本發(fā)明要解決的技術問題是提供一種基于模糊粗糙模型的分類規(guī)則提取方法,該 方法在模糊集合論的連續(xù)屬性模糊化過程,從新的角度將精確和模糊聯系在一起,為處理 不確定的信息提供了一種新的方法,通過隸屬函數來刻劃模糊概念,能有效地解決粗糙集 中模糊邊界問題,從而使得數據挖掘規(guī)則精煉準確,避免丟失重要數據信息。為解決上述技術問題,本發(fā)明采用的技術方案為一種基于模糊粗糙模型的分類 規(guī)則提取方法,包括以下步驟首先利用模糊集中的隸屬函數對信息表中的連續(xù)屬性進行 屬性模糊化,這樣既可防止數據的損失,又能表示出各屬性值的差別,從而構造具有模糊屬 性值的決策系統(tǒng);再應用模糊相似關系中的粗糙集提出逼近精度近似度量、粗糙逼近精度 近似度量、逼近精度分類質量測度、逼近精度相對分類測度等參數,從而建立基于逼近精度 的模糊-粗糙集的約減算法來求取分類規(guī)則。上述基于模糊-粗糙約減算法包括1、參數說明及定義設決策系統(tǒng)中條件屬性集合C中有m個屬性=C1, C2, A,Cffl,決策屬性集合為D,由 D決定的劃分為{Υ1;Υ2,Λ,Yk},對每個條件屬性Ci計算以下k+4個參數 (。)'CCci (L^, yCi(L) cpCi{L) PCi{L) ^ φ i = IAffljj = IAk0令、和 分別為這k+4個參數的算數均值
和幾何均值;在每個條件屬性Ci的k+4個參數中同時考慮了條件屬性與決策屬性的絕對分 類和相對分類,使條件屬性對決策的分類重要性更有具全面性和合理性;2、屬性Ci的重要性定義為=QT1Tci +QT2ATciα工和α 2分別為用戶指定的算數均值和幾何均值的重要性參數,當所有k+4個參 數都非0時,表明該屬性對劃分的各子集都有影響,因而增加幾何均值&,是為了將這種重 要性影響體現出現。上述算法包括以下步驟(1)計算條件屬性集合的Yc(L);(2)對于任意條件屬性計算Z = {ZCf};(3)初始化 C° = Φ ;(4) C0=C0+ {C, I V/,取 Ci 使石,最大};
(5)判斷/c/ <&(幻,若滿足則繼續(xù)下一步,否則返回上一步;(6) C°即為一個最小約減。本發(fā)明相對于現有技術,通過利用基于逼近精度參數的算法將各連續(xù)屬性按重要 性由大到小依次加入到屬性約減集中,直到滿足約減條件為止,算法具有簡單易實現的特 點,尤其在條件屬性較多時,能較快地求出屬性約減。
圖1是輸入數據模式。的隸屬度函數π函數分布圖。
具體實施例方式一種基于模糊粗糙模型的分類規(guī)則提取方法,包括以下步驟首先利用模糊集中 的隸屬函數對信息表中的連續(xù)屬性進行屬性模糊化,這樣既可防止數據的損失,又能表示 出各屬性值的差別,從而構造具有模糊屬性值的決策系統(tǒng);再應用模糊相似關系中的粗糙 集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分類質量測度、逼近精度相對 分類測度等參數,從而建立基于逼近精度的模糊-粗糙約減算法來求取分類規(guī)則。上述基于模糊-粗糙約減算法包括1、參數說明及定義設決策系統(tǒng)中條件屬性集合C中有m個屬性=C1, C2, A,Cffl,決策屬性集合為D,由 D決定的劃分為{Υ1; Υ2,Λ,YJ,對每個條件屬性Ci計算以下k+4個參數 凡,(Fj) (Z), A CQ,,凡00,其中i = IAm, j = IAk;令、和\分別為這k+4個參數的算數均值 和幾何均值;在每個條件屬性Ci的k+4個參數中同時考慮了條件屬性與決策屬性的絕對分 類和相對分類,使條件屬性對決策的分類重要性更有具全面性和合理性。2、屬性Ci的重要性定義為^c, =CClTci +a2KCiα工和α 2分別為用戶指定的算數均值和幾何均值的重要性參數,當所有k+4個參 數都非0時,表明該屬性對劃分的各子集都有影響,因而增加幾何均值\是為了將這種重要 性影響體現出現。上述算法包括如下步驟(1)計算條件屬性集合的Yc(L);(2)對于任意條件屬性計算Z = {Zc, };(3)初始化 C0 = Φ ;(4) C0=C0+ {C, I V/,取 Ci 使&最大};(5)判斷R/ <斤(幻,若滿足則繼續(xù)下一步,否則返回上一步;(6) C°即為一個最小約減。實施例一種基于模糊粗糙模型的分類規(guī)則提取方法,包括1、連續(xù)屬性模糊化(1)連續(xù)屬性值的決策系統(tǒng)
設有一個決策系統(tǒng)(U,Q,V,f),其中U = Ix1, x2, A,xj為非空的有限論域,表示 對象;Q為非空的屬性集,Q = CY6qys7n5sxhx7,C = {Ql, q2, A,qj是一個非空、有限的條件屬性集, 6qys7n5sxhx7為決策屬性集,d:U- {1,2, A,g} ;V為屬性值,V = VcYVd, Vc = {Vq :q e C}是條件屬 性值集,Vd是決策屬性值集,并且第i個對象在第j個條件屬性下的屬性值 (1 = IA η, j = IAm)為連續(xù)屬性值;f :UXQ —V是一個信息映射函數,顯然這是一個屬性值連續(xù)的決 策系統(tǒng)。(2)屬性模糊化在實際應用中,對連續(xù)屬性進行模糊化的關鍵是確定隸屬度函數,利用π函數 對屬性進行模糊劃分。在模糊集合中模糊成員值用三個參數表示即Iow(L),Hiedium(M), high (H),則任意一個η維的數據模式Fj = [Fjl, Fj2,Λ,Fjn]可以用一個3η維的向量表示Fj = [m1ow(Fji) (Fj ),Λ,MhigKFjn) (Fj)]其中μ值表示對應于模糊JI集三個參數Iow(L) ,medium (M),high (H)的隸屬函
數值。當輸入數據模式h是連續(xù)值時,其隸屬度μ在一維空間中表示為
權利要求
1.一種基于模糊粗糙模型的分類規(guī)則提取方法,包括以下步驟首先利用模糊集中的 隸屬函數對信息表中的連續(xù)屬性進行屬性模糊化,構造具有模糊屬性值的決策系統(tǒng);再應 用模糊相似關系中的粗糙集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分 類質量測度、逼近精度相對分類測度等參數,從而建立基于逼近精度的模糊-粗糙集約減 算法來求取分類規(guī)則。
2.根據權利要求1所述的一種基于模糊粗糙模型的分類規(guī)則提取方法,其特征在于 所述模糊-粗糙約減算法包括(1)參數說明及定義設決策系統(tǒng)中條件屬性集合C中有m個屬性C1,C2,Λ,Cm,決策屬性集合 為D,由D決定的劃分為{Y1; Y2, Λ,Yk},對每個條件屬性(;計算以下k+4個參數 ^c1
3.根據權利要求1或2所述的一種基于模糊粗糙模型的分類規(guī)則提取方法,其特征在 于所述模糊-粗糙約減算法上述算法包括以下步驟(1)計算條件屬性集合的Yc(L);(2)對于任意條件屬性計算Z=(3)初始化C°= Φ ;(4)C0 = C0 +[Ci I ViMCi^ZcMM ;(5)判斷;^/</cCQ,若滿足則繼續(xù)下一步,否則返回上一步;(6)C0即為一個最小約減。
全文摘要
本發(fā)明涉及一種基于模糊粗糙模型的分類規(guī)則提取方法。目前連續(xù)屬性離散化方法由于將連續(xù)屬性值的模糊邊界沒有考慮到,因而在離散化過程中,使得數據挖掘規(guī)則不夠精煉準確,容易丟失重要數據信息。本發(fā)明的分類規(guī)則提取方法,首先利用模糊集中的隸屬函數對信息表中的連續(xù)屬性進行屬性模糊化,再應用模糊相似關系中的粗糙集提出逼近精度近似度量、粗糙逼近精度近似度量、逼近精度分類質量測度、逼近精度相對分類測度等參數,從而建立基于逼近精度的模糊-粗糙集約減算法來求取分類規(guī)則。本發(fā)明利用將各連續(xù)屬性按重要性由大到小依次加入到屬性約減集中,直到滿足約減條件為止,尤其在條件屬性較多時,能較快地求出屬性約減。
文檔編號G06F17/30GK102096672SQ20091021937
公開日2011年6月15日 申請日期2009年12月9日 優(yōu)先權日2009年12月9日
發(fā)明者張文宇 申請人:西安郵電學院