專利名稱::一種基于羅切斯特模型-樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng)的制作方法
技術領域:
:本發(fā)明涉及一種數(shù)據(jù)分類系統(tǒng),特別是關于一種基于羅切斯特模型-樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng)。
背景技術:
:數(shù)據(jù)挖掘在金融業(yè)、零售業(yè)和電信業(yè)的應用越來越廣泛,在金融領域,管理者可以通過數(shù)據(jù)挖掘?qū)蛻魞斶€能力以及信用的分析,進行分類,評出等級,從而可減少發(fā)放貸款的盲目性,改善銀行資產(chǎn)以及負債在各種投資產(chǎn)品類型中的配比結構,提高資金的使用效率,優(yōu)化資產(chǎn)結構。同時還可發(fā)現(xiàn)在各種資金運作業(yè)務中起決定性作用的主導因素和關鍵環(huán)節(jié),從而制定相應的金融政策。在零售業(yè),數(shù)據(jù)挖掘可有助于識別顧客購買行為,發(fā)現(xiàn)顧客購買模式和趨勢,改進服務質(zhì)量,取得更好的顧客保持力和滿意程度,提高貨品銷量比率,設計更好的貨品運輸與分銷策略,減少商業(yè)成本。分類系統(tǒng)是數(shù)據(jù)挖掘的主要系統(tǒng)之一,用于提取描述重要數(shù)據(jù)類別歸屬的模型或預測未來的數(shù)據(jù)趨勢。一般來說,分類是把數(shù)據(jù)項映射到其中一個事先定義的類中的學習函數(shù)的過程,用基于歸納學習算法得出分類。學習的目標是構建一個分類模型,通常也叫分類器,它可以根據(jù)有效的變量輸入值預測一些所給樣本的類。導出的模型是基于對訓練數(shù)據(jù)集的分析,并用IF-THEN規(guī)則、決策樹、數(shù)學公式或神經(jīng)網(wǎng)絡等形式表示。目前數(shù)據(jù)分類的技術系統(tǒng)主要有決策樹、貝葉斯系統(tǒng)、神經(jīng)網(wǎng)絡、K-最近鄰系統(tǒng)、Logistic(羅切斯特)回歸、多元線性回歸、支持向量機、聚類分析系統(tǒng)等。通常情況下,評價模型的好壞主要看其系統(tǒng)的無偏性和穩(wěn)健性。具體的說,無偏性主要表現(xiàn)在預測或者分類結果的均值和樣本均值保持一致,而穩(wěn)健性則主要考察模型的訓練樣本評分向量和測試樣本的評分向量是否是高度相關的,相關度高就表示好,相關度低則表示差。羅切斯特回歸模型作為大樣本數(shù)據(jù)情況下最穩(wěn)定的二元分類系統(tǒng)已被廣泛用于評分建模中。對羅切斯特回歸模型而言,其優(yōu)點主要是穩(wěn)健性較好、模型的可解釋性較強、可以產(chǎn)生一個線性評分卡,缺點則是預測精度與其他某些系統(tǒng)相比較差,如神經(jīng)網(wǎng)絡、NaiveBayes(樸素貝葉斯)模型等。樸素貝葉斯模型是一種簡單而高效的分類器,但是其變量獨立性假設限制了對實際數(shù)據(jù)的應用,通過建模測試發(fā)現(xiàn),單獨使用樸素貝葉斯模型建立的模型精確度很高,但模型穩(wěn)健性較差,僅對其中部分數(shù)據(jù)的分類精確。
發(fā)明內(nèi)容針對上述問題,本發(fā)明的目的是提供一種穩(wěn)健性好,可解釋性強,而且簡單、高效、精確度高的基于羅切斯特模型_樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng)。為實現(xiàn)上述目的,本發(fā)明采取以下技術方案一種基于羅切斯特模型-樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng),其特征在于它包括數(shù)據(jù)處理模塊、樣本抽樣模塊、模型建立模塊、數(shù)據(jù)測試模塊;所述數(shù)據(jù)處理模塊中,根據(jù)輸入的原始樣本集中各類樣本變量的缺失值比率,以及各類樣本變量之間的相關性和樣本屬性,將所述原始樣本集分為飽和層和缺失層;4所述樣本抽樣模塊中,根據(jù)目標變量,從所述飽和層和缺失層中隨機抽取訓練樣本變量和測試樣本變量,分別形成具有飽和層和缺失層的訓練樣本集和測試樣本集,將所述訓練樣本集輸入所述模型建立模塊,將所述測試樣本集輸入所述數(shù)據(jù)測試模塊;所述模型建立模塊中,對所述飽和層中的訓練樣本采用羅切斯特回歸模型建模,對所述缺失層中的訓練樣本采用樸素貝葉斯模型建模,并將得到一混合動態(tài)模型輸入到所述數(shù)據(jù)測試模塊中,所述混合動態(tài)模型包括有羅切斯特回歸模型和樸素貝葉斯模型;所述數(shù)據(jù)測試模塊中,將所述飽和層的測試樣本輸入所述混合動態(tài)模型中的羅切斯特回歸模型中,將所述缺失層的測試樣本輸入所述混合動態(tài)模型中的樸素貝葉斯模型中,之后進行測試,得到并輸出評分結果。所述飽和層包括可利用信息較多的樣本,所述缺失層包括可利用信息較少的樣本。從所述飽和層隨機抽取的訓練樣本所占比例與所述缺失層中隨機抽取的訓練樣本所占比例相同。從所述飽和層隨機抽取的訓練樣本中目標變量的分布與原飽和層總樣本目標變量的分布一致;從所述缺失層隨機抽取的訓練樣本中目標變量的分布與原缺失層總樣本目標變量的分布一致。所述模型建立模塊中,所述羅切斯特回歸模型的關鍵變量使用向前向后的逐步回歸法進行選取。所述模型建立模塊中,所述樸素貝葉斯模型通過判斷訓練樣本的最大后驗概率,對所述訓練樣本進行分類。本發(fā)明由于采取以上技術方案,其具有以下優(yōu)點1、本發(fā)明由于采用了數(shù)據(jù)處理模塊將原始樣本集中各類樣本變量分為飽和層和缺失層,通過樣本抽樣模塊根據(jù)目標變量按照分層抽樣原則,從飽和層和缺失層中隨機抽取輸入模型建立模塊的訓練樣本變量和輸入數(shù)據(jù)測試模塊的測試樣本變量,模型建立模塊根據(jù)輸入的訓練樣本建立了一羅切斯特-樸素貝葉斯混合動態(tài)模型,且混合動態(tài)模型包括羅切斯特模型和樸素貝葉斯模型,利用羅切斯特_樸素貝葉斯混合動態(tài)模型可以將飽和層和缺失層的測試樣本變量分別輸入混合動態(tài)模型中的羅切斯特模型、樸素貝葉斯模型中,得到并輸出一評分結果,因此羅切斯特-樸素貝葉斯混合動態(tài)模型兼具羅切斯特模型和樸素貝葉斯模型的優(yōu)點,形成優(yōu)勢互補,將得到的數(shù)據(jù)分類系統(tǒng)穩(wěn)健性好,可解釋性強,易于產(chǎn)生一個評分卡,而且簡單、高效、精確度高。2、由于本發(fā)明首次采用通過樣本分割的方式獨立建模,針對不同樣本的數(shù)據(jù)質(zhì)量有效地利用了兩類模型處理樣本的相對優(yōu)勢,避免了由于數(shù)據(jù)預處理時原始樣本集的噪聲,及數(shù)據(jù)規(guī)模使模型變量約簡效果不理想,導致影響分類效果的問題。本發(fā)明的系統(tǒng)可廣泛應用于金融業(yè)、零售業(yè)和電信業(yè)中,可滿足評價客戶償還能力和信用度,并且優(yōu)化金融機構本身的資金運作能力,發(fā)現(xiàn)顧客購買模式和趨勢,理解商業(yè)行為和捕捉盜用行為,設計更好的貨品運輸與分銷策略等實際需求。圖1是本發(fā)明的結構示意圖具體實施例方式下面結合附圖和實施例對本發(fā)明進行詳細的描述。如圖1所示,本發(fā)明的數(shù)據(jù)分類系統(tǒng)包括數(shù)據(jù)處理模塊1、樣本抽樣模塊2、模型建立模塊3、數(shù)據(jù)測試模塊4。其中,數(shù)據(jù)處理模塊1的主要功能是根據(jù)輸入的原始樣本集中各類樣本變量的缺失程度,來確定混合動態(tài)模型適用的樣本分層規(guī)則。即在數(shù)據(jù)處理模塊l中統(tǒng)計出原始樣本集中各類樣本變量的缺失值比率,以及各類樣本變量之間的相關性和各樣本變量的類型、分布等屬性;當某一類樣本變量的缺失值比率超過固定的閾值,且超過閾值的變量之間相關性超過規(guī)定值,并且這些樣本變量的個數(shù)超過樣本變量總和的1/3時,則將這些樣本變量標記出來形成標記變量集;根據(jù)標記出來的變量集是否全部缺失的分層規(guī)則將原始樣本集分成互不交叉的兩層,即飽和層11和缺失層12,飽和層1是指可利用信息較多的樣本變量,缺失層12是指可利用信息較少的樣本變量。在樣本抽樣模塊2中,根據(jù)目標變量的取值,從數(shù)據(jù)處理模塊1分出的飽和層11隨機抽取訓練樣本變量,形成飽和層11的訓練樣本集;從數(shù)據(jù)處理模塊1分出的缺失層12中隨機抽取訓練樣本變量,形成缺失層12的訓練樣本集。飽和層11和缺失層12中抽取的訓練樣本變量所占比例相同,飽和層11剩下的樣本變量作為測試樣本變量形成測試樣本集,相應地,缺失層12剩下的樣本變量作為測試樣本變量形成測試樣本集,因此測試樣本變量所占比例也相同。且從飽和層11隨機抽取的訓練樣本中目標變量的分布與原飽和層11總樣本中目標變量的分布一致;從缺失層12隨機抽取的訓練樣本中目標變量的分布與原缺失層11總樣本中目標變量的分布一致。將飽和層11和缺失層12中抽取的訓練樣本集輸入模型建立模塊3,將飽和層11和缺失層12中剩下的測試樣本集輸入數(shù)據(jù)測試模塊4中。例如,在汽車金融中,對輸入的原始樣本集根據(jù)目標變量的買車或不買車取值分層,飽和層11對應客戶信息較多的客戶信息,缺失層12對應客戶信息較少的客戶,隨機抽取飽和層11中2/3的客戶樣本作為訓練樣本,隨機抽取缺失層12中2/3的客戶樣本作為訓練樣本,但無論是飽和層11還是缺失層12,抽取的訓練樣本中買車客戶所占的比例均分別與原樣本層中買車客戶比例相同,將兩層中抽取出來的訓練樣本均輸送給模型建立模塊3。剩下飽和層11與缺失層12中的1/3樣本作為測試樣本輸送給數(shù)據(jù)測試模塊4中。訓練樣本集、測試樣本集的結構如表1所示表1訓練樣本集、測試樣本集的結構<table>tableseeoriginaldocumentpage6</column></row><table>在模型建立模塊3中,對分別屬于飽和層11的訓練樣本和缺失層12的訓練樣本分別考慮不同的混合動態(tài)模型。由于屬于缺失層12的訓練樣本集的變量缺失值較多,可利用的信息較少,本發(fā)明采用樸素貝葉斯模型對這部分訓練樣本進行建模;而飽和層11的訓練樣本集的輸入變量可利用的信息較多,如果同樣使用樸素貝葉斯模型則會導致模型預測效果非常不穩(wěn)定,對抽樣的訓練樣本依賴性較大導致模型泛化性降低,因此采用傳統(tǒng)、穩(wěn)定的羅切斯特回歸模型對這部分樣本進行建模。1、對于飽和層11的訓練樣本集,運用羅切斯特回歸模型進行建模,需要選取關鍵變量并確定回歸系數(shù)。在實際的問題分析中能夠獲取的變量非常多,為了在擬合優(yōu)度和變量個數(shù)之間達到最優(yōu)平衡,本發(fā)明使用向前向后的逐步回歸法來確定關鍵變量的選取。在模型選擇方面,采用的判斷標準包括F-test(方差齊性檢驗)、t-test(顯著性檢驗)、adjustedR-square(風險系數(shù)調(diào)整)、最小MSE(均方誤差)準則、AIC(AkaikeInformationCriterion,赤池信息準則)準則和BIC(BayesInformationCriterion,貝葉斯信息準則)準則等統(tǒng)計量。設從訓練樣本集中提取的關鍵變量ZpZ2、…、Zm為自變量,其中m為關鍵變量的個數(shù);Q為二值目標變量,Q={0,1};P(Q=1)表示Q=1時的概率,P(Q=0)表示Q=0的概率,并且P(Q=1)+P(Q=0)=1。則模型方程如下log~^-^="o+iZi+a2Z2+...+amZ",(1)其中,a。、Ql、a2、…、am為回歸模型的系數(shù),可通過現(xiàn)有的標準軟件計算,如數(shù)據(jù)挖掘與統(tǒng)計分析軟件SAS和仿真軟件MATLAB。2、對于缺失層12的訓練樣本集,樸素貝葉斯模型的分類步驟如下1)將訓練樣本集中的每個訓練樣本X用一個n維特征向量(Xl、x2、…、x》表示,分別描述對n個變量^、A2、…、An的度量值。2)假定訓練樣本有t類目標變量,分別為類q、C2、…、Ct,給定一個未知類標號的訓練樣本X,分類模型將預測訓練樣本X屬于具有最大后驗概率的類,即后驗概率P(CiIX)>P(Cj|X),i、j=1,…,t,且i^j。所以,對訓練樣本X的分類問題就轉(zhuǎn)化為求取最大的后驗概率P(CilX)的問題,由貝葉斯定理得后驗概率P(CilX):其中,P(Xlci)為類Ci的樣本中屬于訓練樣本X的概率,P(Ci)為類Ci的先驗概率,P(X)為訓練樣本X的先驗概率。如果類Ci的先驗概率P(Ci)未知,則通常假定所有的類都是等概率的,即P(c》=P(c2)二…二P(Ci),并據(jù)此只對訓練樣本X為類Ci的概率P(Xlci)進行最大化,否則,就對P(Xlci)P(Ci)進行最大化。但由于訓練樣本X具有許多變量,因此計算P(Xl(O的開銷可能非常大。為降低計算開銷,可以做類條件獨立的樸素假定,給定樣本的類Ci,假定變量A、A2、…、An相互條件獨立,即在變量間不存在依賴關系,由此腦c,)^尸".i。)(3)其中,P(Ci)、P(Xklc》,k二1,2,…,n,都可以采用極大似然估計來計算,則有P(0,,i^l0LH^(4)I"ir(c,)i7其中,|T|表示訓練樣本的總數(shù),|T(Ci)I表示類Ci中的訓練樣本數(shù),而|T(xk,Cj)表示在變量Ak,k=1,…,n上具有特征值xk的類Ci的訓練樣本數(shù)。3)對未知訓練樣本X分類,對每個類Ci,計算P(CilX),當且僅當P(Xlci)P(Ci)>P(X|Cj)P(Cj),i、j=1,…,t,且i-j時,訓練樣本X被劃分到類Ci中。從理論上講,與其它所有的分類算法相比,樸素貝葉斯模型具有最小的錯誤概率,在實踐中,樸素貝葉斯模型可以與判定樹和神經(jīng)網(wǎng)絡分類算法相媲美。甚至在類條件獨立假定不滿足的情形下,樸素貝葉斯分類依然有良好的表現(xiàn),而且它的學習效率很高,給定具有n個變量的|T|個訓練樣本,學習時間復雜度為O(nlTl)。3、選取模型評價指標本發(fā)明結合羅切斯特回歸模型和樸素貝葉斯模型的測試結果,將樣本按從羅切斯特回歸模型和樸素貝葉斯模型輸出的估計概率的從高到低進行排序,為了方便比較結果,計算估計概率在10%、20%、30%、...、90%、100%分位數(shù)處的SuccessRate(區(qū)間轉(zhuǎn)化率)、CumulativeRate(累積轉(zhuǎn)化率)、Cumulative%ofTotalSuccess(轉(zhuǎn)化樣本占總轉(zhuǎn)化樣本的累積比率)以及LifeIndex(上升指數(shù))的值,如表2所示。本發(fā)明中,定義SuccessRate=P(CiIX),即訓練樣本X被劃為類Ci的概率。表2模型評價指標Cumulative%ofTotalSuccessRateCumulativeRateCumulative%ofTotalSuccessLiftlndex30.0%7.00%10.32%50.19%0.0445本發(fā)明的實施例中,模型訓練結果Cumulative%ofTotal(總轉(zhuǎn)化樣本的累積比率)排名前30%的訓練樣本的CumulativeRate為10.32X。其中該樣本中的轉(zhuǎn)化樣本占總樣本中轉(zhuǎn)化樣本的50.19%,即挑選出來的30%樣本中包含了50.19%的轉(zhuǎn)化樣本,其中排名20%30%的樣本中區(qū)間轉(zhuǎn)化率為7.00%。對于商家來說,最為關注的是從海量的人中挑出潛在的客戶群,這里本發(fā)明的動態(tài)分類模型提出兩個概念Threshold(門檻)和MP(轉(zhuǎn)化率)值;Threshold表示希望挑出來的潛在客戶樣本占總客戶樣本的比例,threshold取值需要根據(jù)總客戶樣本數(shù)量和商家希望鎖定的目標客戶群樣本數(shù)量而定。而MP值則表示Threshold為固定值下的所選樣本轉(zhuǎn)化率。本發(fā)明的實施例中選定Threshold=25%時的MP值作為模型穩(wěn)定性的評價指標之一,即在挑選模型時,MP值是作為訓練模型選擇指標之一。羅切斯特-樸素貝葉斯混合動態(tài)模型參數(shù)確定后,將測試數(shù)據(jù)輸入至數(shù)據(jù)測試模塊4中,數(shù)據(jù)測試模塊4將根據(jù)數(shù)據(jù)處理模塊1中確定的飽和層11和缺失層12分層規(guī)則,判斷每條測試樣本適用羅切斯特回歸模型或樸素貝葉斯模型中的哪一類,并根據(jù)模型的種類將各參數(shù)代入相應模型中,計算出所有測試樣本的區(qū)間轉(zhuǎn)化率,除了自動排序后的模型評分結果,數(shù)據(jù)測試模塊4也同樣可以計算出給定Threshold值的MP值,或者計算出給定MP值的Threshold值。下面通過一個具體的實施例,對本發(fā)明系統(tǒng)的應用進行進一步說明。8對于某大型汽車金融公司提供的汽車消費者海量信息數(shù)據(jù)庫,數(shù)據(jù)庫包括九十多萬條樣本量,每條信息包括用戶信息量的多少、請求購買車型、計劃付款方式、打算購買時間以及其他人口統(tǒng)計信息等多維變量A、4、…、An。用戶的購買狀態(tài)作為分類的目標變量,共有兩類用戶購買目標函數(shù)為Cl=l,用戶放棄目標函數(shù)為c2=0。本實施例建模的目的是采用數(shù)據(jù)挖掘方法,獲得潛在汽車消費者分類模型,精確定位高購買傾向的潛在汽車購買客戶群,進而根據(jù)每個客戶的廣告策略響應模型打分,確定針對每個客戶最有效的宣傳方式,選擇最優(yōu)廣告策略,為決策的制定提供指導性的數(shù)據(jù)準備。在羅切斯特_樸素貝葉斯混合動態(tài)模型的建模分析過程中,首先在數(shù)據(jù)處理模塊1中,通過相關性分析和變量屬性分析,將原始樣本集分為飽和層11和缺失層12。在樣本抽樣模塊2中,將原始樣本集按2:1的比例分為訓練樣本集和測試樣本集,用2/3的樣本來訓練模型,用剩余1/3的樣本對模型進行測試。在模型建立模塊3的模型選擇方面,本實施例中為了比較、分析羅切斯特-樸素貝葉斯混合動態(tài)模型的優(yōu)越性,除了使用羅切斯特_樸素貝葉斯混合動態(tài)模型并得出其實施效果,還分別使用了羅切斯特回歸模型、樸素貝葉斯模型、神經(jīng)網(wǎng)絡和支持向量機四種常用的分類方法,用做本發(fā)明羅切斯特_樸素貝葉斯混合動態(tài)模型的對比試驗。I)羅切斯特回歸模型使用羅切斯特回歸模型對本發(fā)明的實施例的汽車消費者海量信息數(shù)據(jù)庫進行建模,模型參數(shù)如表3所示,相對于表2所示的模型評價指標,羅切斯特回歸模型對訓練樣本集的評價指標如表4所示,測試樣本集的評價指標如表5所示表3:羅切斯特回歸模型建立的模型參數(shù)<table>tableseeoriginaldocumentpage9</column></row><table>表4:訓練樣本集的評價指標<table>tableseeoriginaldocumentpage10</column></row><table><table>tableseeoriginaldocumentpage11</column></row><table>從結果可以看出,對于羅切斯特回歸模型來說,開發(fā)樣本的LiftIndex為0.6371,測試樣本的LiftIndex為0.6386,兩者非常接近,均高于0.62,說明Logistic回歸模型的預測精度不錯。經(jīng)過計算的開發(fā)樣本和測試樣本的相關系數(shù)為0.9993,可見兩者關聯(lián)度非常高,即認為模型的穩(wěn)健性非常好。II)樸素貝葉斯模型使用樸素貝葉斯模型對本發(fā)明的實施例的汽車消費者海量信息數(shù)據(jù)庫進行建模,相對于表2所示的模型評價指標,樸素貝葉斯模型對訓練樣本集的評價指標如表6所示,測試樣本集的評價指標如表7所示表6:訓練樣本集的評價指標<table>tableseeoriginaldocumentpage11</column></row><table><table>tableseeoriginaldocumentpage12</column></row><table>觀察結果可知,樸素貝葉斯模型的訓練樣本集的LiftIndex為0.6527,要高于羅切斯特回歸模型的0.6371;同時其分類后的前10%樣本購買率達到16.3%,這也高于羅切斯特回歸模型的14.68%。這說明在擬合準確度方面,樸素貝葉斯模型要高于羅切斯特回歸模型。但繼續(xù)觀察測試樣本集,發(fā)現(xiàn)其LiftIndex只有O.6103,再計算開發(fā)樣本和測試樣本的相關系數(shù),也遠不如羅切斯特回歸模型,因此說明樸素貝葉斯模型盡管擬合準確度更高,但在預測穩(wěn)健性方面較差。III)神經(jīng)網(wǎng)絡采用神經(jīng)網(wǎng)絡模型中最常見的三層BP網(wǎng)絡結構,包括一個輸入層、一個隱含層和一個輸出層,對本發(fā)明的實施例的汽車消費者海量信息數(shù)據(jù)庫進行建模,為提高分類效率,隱含層節(jié)點設為3個。相對于表2所示的模型評價指標,神經(jīng)網(wǎng)絡模型對訓練樣本集的評價指標如表8所示,測試樣本集的評價指標如表9所示表8:訓練樣本集的評價指標<table>tableseeoriginaldocumentpage13</column></row><table>表9:測試樣本集的評價指標<table>tableseeoriginaldocumentpage13</column></row><table><table>tableseeoriginaldocumentpage14</column></row><table>從結果可以看出,神經(jīng)網(wǎng)絡建模的評價指標結果無論是準確性還是穩(wěn)健性都很不錯。IV)支持向量機使用支持向量機模型對本發(fā)明的實施例的汽車消費者海量信息數(shù)據(jù)庫進行建模,模型參數(shù)如表3所示,相對于表2所示的模型評價指標,支持向量機模型對訓練樣本集的評價指標如表10所示,測試樣本集的評價指標如表11所示表10:訓練樣本集的評價指標<table>tableseeoriginaldocumentpage14</column></row><table><table>tableseeoriginaldocumentpage15</column></row><table>表11:測試樣本集的評價指標<table>tableseeoriginaldocumentpage15</column></row><table>從結果可以看出,支持向量機方法得出的分類模型的開發(fā)樣本和測試樣本的LiftIndex都在0.59左右,低于之前的幾種分類方法。這可能是由于支持向量機方法在處理大樣本數(shù)據(jù)方面的不足造成的。V)羅切斯特_樸素貝葉斯混合動態(tài)模型在對前面羅切斯特回歸模型、樸素貝葉斯模型、神經(jīng)網(wǎng)絡和支持向量機四種常用的分類方法建模后,可以發(fā)現(xiàn)幾種方法中,樸素貝葉斯模型的分類精度最高,但穩(wěn)健性較差;羅切斯特回歸模型盡管分類精度稍差,但穩(wěn)健性很好。經(jīng)過具體的實驗,本發(fā)明的羅切斯特-樸素貝葉斯混合動態(tài)模型的基本思路是首先針對開發(fā)樣本,按照變量之間的相關性和變量屬性將原始樣本集分成兩部分;可以發(fā)現(xiàn)其中一部分購買率達到7.5%,按另一部分購買率僅為4%,因此考慮對這兩部分分別采用樸素貝葉斯模型和羅切斯特回歸模型來建模,對模型的預測值混合排序、分組、評分,得到開發(fā)樣本的評分模型,再將這一模型應用到測試樣本中。相對于表2所示的模型評價指標,羅切斯特_樸素貝葉斯混合動態(tài)模型對訓練樣本集的評價指標如表12所示,測試樣本集的評價指標如表13所示。表12:訓練樣本集的評價指標<table>tableseeoriginaldocumentpage16</column></row><table>表13:測試樣本集的評價指標<table>tableseeoriginaldocumentpage17</column></row><table>從結果可以看出,羅切斯特-樸素貝葉斯混合動態(tài)模型的訓練樣本集的Liftlndex為0.6722,測試樣本集的LiftIndex為0.6716,兩者的前10%評分都高于16%,說明羅切斯特-樸素貝葉斯混合動態(tài)模型分類精度很好。計算開發(fā)樣本和測試樣本的LiftIndex相關系數(shù),為0.9998,因此穩(wěn)健性也非常好。綜上所述,本發(fā)明的羅切斯特_樸素貝葉斯混合動態(tài)模型不僅可以提高預測的精度,又能保持很好的穩(wěn)定性。權利要求一種基于羅切斯特模型-樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng),其特征在于它包括數(shù)據(jù)處理模塊、樣本抽樣模塊、模型建立模塊、數(shù)據(jù)測試模塊;所述數(shù)據(jù)處理模塊中,根據(jù)輸入的原始樣本集中各類樣本變量的缺失值比率,以及各類樣本變量之間的相關性和樣本屬性,將所述原始樣本集分為飽和層和缺失層;所述樣本抽樣模塊中,根據(jù)目標變量,從所述飽和層和缺失層中隨機抽取訓練樣本變量和測試樣本變量,分別形成具有飽和層和缺失層的訓練樣本集和測試樣本集,將所述訓練樣本集輸入所述模型建立模塊,將所述測試樣本集輸入所述數(shù)據(jù)測試模塊;所述模型建立模塊中,對所述飽和層中的訓練樣本采用羅切斯特回歸模型建模,對所述缺失層中的訓練樣本采用樸素貝葉斯模型建模,并將得到一混合動態(tài)模型輸入到所述數(shù)據(jù)測試模塊中,所述混合動態(tài)模型包括有羅切斯特回歸模型和樸素貝葉斯模型;所述數(shù)據(jù)測試模塊中,將所述飽和層的測試樣本輸入所述混合動態(tài)模型中的羅切斯特回歸模型中,將所述缺失層的測試樣本輸入所述混合動態(tài)模型中的樸素貝葉斯模型中,之后進行測試,得到并輸出評分結果。2.如權利要求1所述的一種基于羅切斯特模型_樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng),其特征在于所述飽和層包括可利用信息較多的樣本,所述缺失層包括可利用信息較少的樣本。3.如權利要求1所述的一種基于羅切斯特模型_樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng),其特征在于從所述飽和層隨機抽取的訓練樣本所占比例與所述缺失層中隨機抽取的訓練樣本所占比例相同。4.如權利要求2所述的一種基于羅切斯特模型_樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng),其特征在于從所述飽和層隨機抽取的訓練樣本所占比例與所述缺失層中隨機抽取的訓練樣本所占比例相同。5.如權利要求1或2或3或4所述的一種基于羅切斯特模型_樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng),其特征在于從所述飽和層隨機抽取的訓練樣本中目標變量的分布與原飽和層總樣本目標變量的分布一致;從所述缺失層隨機抽取的訓練樣本中目標變量的分布與原缺失層總樣本目標變量的分布一致。6.如權利要求1或2或3或4所述的一種基于羅切斯特模型_樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng),其特征在于所述模型建立模塊中,所述羅切斯特回歸模型的關鍵變量使用向前向后的逐步回歸法進行選取。7.如權利要求5所述的一種基于羅切斯特模型_樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng),其特征在于所述模型建立模塊中,所述羅切斯特回歸模型的關鍵變量使用向前向后的逐步回歸法進行選取。8.如權利要求1或2或3或4或7所述的一種基于羅切斯特模型_樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng),其特征在于所述模型建立模塊中,所述樸素貝葉斯模型通過判斷訓練樣本的最大后驗概率,對所述訓練樣本進行分類。9.如權利要求5所述的一種基于羅切斯特模型_樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng),其特征在于所述模型建立模塊中,所述樸素貝葉斯模型通過判斷訓練樣本的最大后驗概率,對所述訓練樣本進行分類。10.如權利要求6所述的一種基于羅切斯特模型-樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng),其特征在于所述模型建立模塊中,所述樸素貝葉斯模型通過判斷訓練桿本的最大后驗概率,對所述訓練樣本進行分類。全文摘要本發(fā)明涉及一種基于羅切斯特模型-樸素貝葉斯模型的數(shù)據(jù)分類系統(tǒng),它包括一數(shù)據(jù)處理模塊根據(jù)輸入的原始樣本集中各類樣本變量的缺失值比率,以及各類樣本變量之間的相關性和樣本屬性,將原始樣本集分為飽和層和缺失層;一樣本抽樣模塊根據(jù)目標變量,從飽和層和缺失層中隨機抽取訓練樣本變量和測試樣本變量,分別形成具有飽和層和缺失層的訓練樣本集和測試樣本集;一模型建立模塊對飽和層中的訓練樣本采用羅切斯特回歸模型建模,對缺失層中的訓練樣本采用樸素貝葉斯模型建模,得到一具有羅切斯特回歸模型和樸素貝葉斯模型的混合動態(tài)模型;一數(shù)據(jù)測試模塊將飽和層的測試樣本輸入混合動態(tài)模型中的羅切斯特回歸模型中,將缺失層的測試樣本輸入混合動態(tài)模型中的樸素貝葉斯模型中,之后進行測試,得到并輸出評分結果。本發(fā)明兼具羅切斯特回歸模型和樸素貝葉斯模型的優(yōu)點,形成優(yōu)勢互補,可以廣泛應用在金融業(yè)、零售業(yè)和電信業(yè)中。文檔編號G06F17/30GK101719147SQ20091023821公開日2010年6月2日申請日期2009年11月23日優(yōu)先權日2009年11月23日發(fā)明者尹留志申請人:合肥兆尹信息科技有限責任公司