專利名稱:一種分類預(yù)測(cè)混合模型的建立方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明主要涉及數(shù)據(jù)處理領(lǐng)域,特別是指一種分類預(yù)測(cè)混合模型的建立方法及裝置。
背景技術(shù):
數(shù)據(jù)庫(kù)內(nèi)容豐富,蘊(yùn)藏大量的信息,可以用來(lái)作為智能的商務(wù)決策、分類和預(yù)測(cè)時(shí)的基礎(chǔ),可以用于提取描述重要數(shù)據(jù)類的模型或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì),分類預(yù)測(cè)就是利用分類模型來(lái)進(jìn)行分類預(yù)測(cè),分類預(yù)測(cè)大多數(shù)情況為二元分類,例如目標(biāo)模型可以把一個(gè)客戶對(duì)市場(chǎng)影響活動(dòng)的影響分類為可能相應(yīng)或者不可能相應(yīng);客戶流失模型可能把用戶分類為流失者或者非流失者等等。如圖1所示,分類預(yù)測(cè)模型包括三個(gè)典型的步驟訓(xùn)練階段、驗(yàn)證階段和應(yīng)用階段。步驟1 訓(xùn)練階段,就是要建立模型,使用歷史數(shù)據(jù)集來(lái)建立預(yù)測(cè)模型,模型建立過(guò)程的目標(biāo)是用解釋變量來(lái)解釋因變量或者評(píng)分變量的變化,建模的工作就是建立一個(gè)能夠準(zhǔn)確預(yù)測(cè)因變量或者評(píng)分變量值的模型。步驟2 驗(yàn)證階段,要驗(yàn)證根據(jù)歷史數(shù)據(jù)集建立的模型,可以采用統(tǒng)計(jì)方法,成為交叉驗(yàn)證。由于根據(jù)歷史數(shù)據(jù)進(jìn)行驗(yàn)證,因此簡(jiǎn)單又快捷。它把現(xiàn)有的歷史數(shù)據(jù)分為兩個(gè)組,一個(gè)組用于建立模型,另一個(gè)組用于驗(yàn)證模型。無(wú)論歷史數(shù)據(jù)是否存在,該方法都適用, 如果不存在歷史模型,則驗(yàn)證數(shù)據(jù)集用來(lái)驗(yàn)證最近建立的模型。步驟3 應(yīng)用階段,就是根據(jù)建立的分類模型來(lái)預(yù)測(cè)位置類別的數(shù)據(jù)?,F(xiàn)有的分類預(yù)測(cè)方法包括決策樹(shù)分類、貝葉斯分類,神經(jīng)網(wǎng)絡(luò)分類以及邏輯回歸分類等單一的分類預(yù)測(cè)方法。發(fā)明人在實(shí)現(xiàn)本發(fā)明的過(guò)程中發(fā)現(xiàn),現(xiàn)有技術(shù)中至少存在以下缺點(diǎn)現(xiàn)有技術(shù)中的分類預(yù)測(cè)都采用單一的分類預(yù)測(cè)方法,在具體應(yīng)用到實(shí)際業(yè)務(wù)數(shù)據(jù)時(shí),根據(jù)分類預(yù)測(cè)算法建立模型,由于算法本身的局限性,單一的分類預(yù)測(cè)算法不能到達(dá)一個(gè)較好的預(yù)測(cè)精度, 同時(shí)現(xiàn)有的算法與預(yù)測(cè)模型都是內(nèi)存駐留式順序執(zhí)行,都為單機(jī)運(yùn)行,算法應(yīng)用受到數(shù)據(jù)量的限制,當(dāng)數(shù)據(jù)量很大時(shí),現(xiàn)有的算法與分類預(yù)測(cè)模型往往很耗時(shí)。
發(fā)明內(nèi)容
本發(fā)明提出一種基于云計(jì)算的分類預(yù)測(cè)混合模型的建立方法及裝置,通過(guò)對(duì)數(shù)據(jù)進(jìn)行細(xì)分后分別建立分類預(yù)測(cè)混合模型,提高了分類預(yù)測(cè)的精度。本發(fā)明實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的一種分類預(yù)測(cè)混合模型的建立方法,包括將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集;對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,并在完成數(shù)據(jù)清洗后進(jìn)行變量選擇,生成不同類型的變量集;
5
對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型。優(yōu)選的,將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集具體為基于映射Map/規(guī)約Reduce并行聚類算法將所述樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集;對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗具體為基于并行數(shù)據(jù)提取ETL對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗。優(yōu)選的,對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型具體為對(duì)每一個(gè)變量集基于映射Map/規(guī)約Reduce并行聚類算法采用至少一個(gè)分類預(yù)測(cè)單一模型進(jìn)行訓(xùn)練;對(duì)每一個(gè)分類預(yù)測(cè)單一模型的輸出進(jìn)行歸一化處理,并在歸一化處理后執(zhí)行映射 Map處理;對(duì)每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行加權(quán)統(tǒng)計(jì)后規(guī)約Reduce輸出所述分類預(yù)測(cè)混合模型。優(yōu)選的,建立分類預(yù)測(cè)混合模型后還包括將測(cè)試樣本集輸入所述分類預(yù)測(cè)混合模型;判斷所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)一第一預(yù)測(cè)閾值,如果超過(guò)所述第一預(yù)設(shè)閾值則輸出最終分類預(yù)測(cè)混合模型;否則根據(jù)反饋處理機(jī)制對(duì)所述分類預(yù)測(cè)混合模型進(jìn)行調(diào)整,調(diào)整后判斷所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)所述第一預(yù)測(cè)閾值。優(yōu)選的,根據(jù)反饋處理機(jī)制對(duì)所述分類預(yù)測(cè)混合模型進(jìn)行調(diào)整具體為判斷所述分類預(yù)測(cè)混合模型中每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率是否大于一第二預(yù)設(shè)閾值;如果大于所述第二預(yù)設(shè)閾值,則調(diào)整所述分類預(yù)測(cè)單一模型的加權(quán)值;否則重新訓(xùn)練所述分類預(yù)測(cè)單一模型,使所述分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率大于所述第二預(yù)設(shè)閾值。優(yōu)選的,采用命中率、提升率、覆蓋率中的任意一個(gè)或多個(gè)指標(biāo)計(jì)算所述分類預(yù)測(cè)混合模型的評(píng)分。優(yōu)選的,所述分類預(yù)測(cè)單一模型為決策樹(shù)分類預(yù)測(cè)模型、貝葉斯分類預(yù)測(cè)模型、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)模型或邏輯回歸分類預(yù)測(cè)模型。優(yōu)選的,輸出最終分類預(yù)測(cè)混合模型后還包括將新數(shù)據(jù)輸入所述最終分類預(yù)測(cè)混合模型,對(duì)所述新數(shù)據(jù)進(jìn)行分類預(yù)測(cè)。一種分類預(yù)測(cè)混合模型的建立裝置,包括第一生成單元,用于將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集;第二生成單元,用于對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,并在完成數(shù)據(jù)清洗后進(jìn)行變量選擇,生成不同類型的變量集;處理單元,用于對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型。優(yōu)選的,所述第一生成單元基于映射Map/規(guī)約Reduce并行聚類算法將所述樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集;所述第二生成單元基于并行數(shù)據(jù)提取ETL對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗。優(yōu)選的,所述處理單元包括第一處理單元,用于對(duì)每一個(gè)變量集基于映射Map/規(guī)約Reduce并行聚類算法采用至少一個(gè)分類預(yù)測(cè)單一模型進(jìn)行訓(xùn)練;第二處理單元,用于對(duì)每一個(gè)分類預(yù)測(cè)單一模型的輸出進(jìn)行歸一化處理,并在歸一化處理后執(zhí)行映射Map處理;第三處理單元,用于對(duì)每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行加權(quán)統(tǒng)計(jì)后規(guī)約Reduce輸出所述分類預(yù)測(cè)混合模型。優(yōu)選的,還包括第一輸入單元,用于將測(cè)試樣本集輸入所述分類預(yù)測(cè)混合模型;第一判斷單元,用于判斷所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)一第一預(yù)測(cè)閾值;輸出單元,用于在所述分類預(yù)測(cè)混合模型的評(píng)分超過(guò)所述第一預(yù)設(shè)閾值時(shí),輸出最終分類預(yù)測(cè)混合模型;第四處理單元,用于在所述分類預(yù)測(cè)混合模型的評(píng)分不超過(guò)所述第一預(yù)設(shè)閾值時(shí),根據(jù)反饋處理機(jī)制對(duì)所述分類預(yù)測(cè)混合模型進(jìn)行調(diào)整;第二判斷單元,用于判斷調(diào)整后的所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)所述第一預(yù)測(cè)閾值。優(yōu)選的,所述第四處理單元包括第三判斷單元,用于判斷所述分類預(yù)測(cè)混合模型中每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率是否大于一第二預(yù)設(shè)閾值;第五處理單元,用于當(dāng)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率大于所述第二預(yù)設(shè)閾值大時(shí),調(diào)整所述分類預(yù)測(cè)單一模型的加權(quán)值;第六處理單元,用于當(dāng)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率不大于所述第二預(yù)設(shè)閾值大時(shí),重新訓(xùn)練所述分類預(yù)測(cè)單一模型,使所述分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率大于所述第二預(yù)設(shè)閾值。優(yōu)選的,所述分類預(yù)測(cè)單一模型為決策樹(shù)分類預(yù)測(cè)模型、貝葉斯分類預(yù)測(cè)模型、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)模型或邏輯回歸分類預(yù)測(cè)模型。優(yōu)選的,還包括第二輸入單元,用于將新數(shù)據(jù)輸入所述最終分類預(yù)測(cè)混合模型,對(duì)所述新數(shù)據(jù)進(jìn)行分類預(yù)測(cè)。本發(fā)明技術(shù)方案通過(guò)對(duì)數(shù)據(jù)進(jìn)行細(xì)分后分別建立分類預(yù)測(cè)混合模型,考慮了不同特征的數(shù)據(jù)之間的差異,從而使得分類預(yù)測(cè)更加準(zhǔn)確,同時(shí)所述分類預(yù)測(cè)混合模型充分利用了各個(gè)分類預(yù)測(cè)單一模型的優(yōu)點(diǎn),提高了分類預(yù)測(cè)的精度;進(jìn)一步,本發(fā)明基于Map/ Reduce實(shí)現(xiàn),在具體實(shí)現(xiàn)過(guò)程中只需要普通的PC (person computer,個(gè)人電腦)機(jī)組成集群就可以對(duì)海量的數(shù)據(jù)進(jìn)行分類預(yù)測(cè),使本發(fā)明技術(shù)方案可以直接部署在云計(jì)算應(yīng)用層實(shí)現(xiàn)。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為分類預(yù)測(cè)模型的原理示意圖;圖2為Map/Reduce計(jì)算模型一個(gè)具體實(shí)例的原理示意圖;圖3為本發(fā)明一種分類預(yù)測(cè)混合模型的建立方法第一實(shí)施例的流程示意圖;圖4為圖3中數(shù)據(jù)細(xì)分的流程示意圖;圖5為圖3中步驟S330的具體實(shí)現(xiàn)過(guò)程示意圖;圖6為圖3中步驟S340-步驟S360的具體實(shí)現(xiàn)原理示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。首先對(duì)本發(fā)明所涉及的映射Map/規(guī)約Reduce并行聚類計(jì)算模型和分類預(yù)測(cè)單一模型進(jìn)行描述。映射Map/規(guī)約Reduce并行聚類計(jì)算模型Map/Redue是一種分布式并行計(jì)算模型,是云計(jì)算的關(guān)鍵技術(shù),主要思想就是 "Map (映射)”和“Reduce (規(guī)約)”,軟件實(shí)現(xiàn)只需指定一個(gè)Map函數(shù),用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì),然后指定并發(fā)的Reduce函數(shù),用來(lái)保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的健值對(duì),計(jì)算模型的一個(gè)具體實(shí)例如圖2所示。Map/Reduce的工作過(guò)程分map階段和reduce階段,每個(gè)階段都有鍵值對(duì)作為輸入輸出。從圖2看出,執(zhí)行一個(gè)Map/Reduce需要5個(gè)步驟輸入文件、將文件分配給多個(gè)執(zhí)行者(worker)并行執(zhí)行、寫(xiě)中間文件(到本地)、多個(gè)Reduce執(zhí)行者(worker)也并行運(yùn)行、 輸出最終結(jié)果,總的處理過(guò)程可以概括如下兩步Map (in_key,in_value) 一 {(keyj, value j) | j = 1…k}Reduce (key, [valuel, ...valuem]) 一 (key, f—value)相比于傳統(tǒng)的計(jì)算模式,Map/Redue是一種簡(jiǎn)單的并行編程模型,并且基于Map/ Redue模型的應(yīng)用程序能夠運(yùn)行在由上千個(gè)普通機(jī)器組成的大型集群上(云中),并以一種可靠容錯(cuò)的方式并行處理上T級(jí)別的數(shù)據(jù)集。分類預(yù)測(cè)單一模型包括1、決策樹(shù)分類預(yù)測(cè)模型是一種流行的分類算法,具有學(xué)習(xí)速度快、分類準(zhǔn)確率高、分類結(jié)果表現(xiàn)直觀等特點(diǎn),但是在實(shí)踐中要?dú)w納決策規(guī)則,以達(dá)到高水平的決策樹(shù)相類似的性能還是相當(dāng)困難的。2、貝葉斯分類預(yù)測(cè)模型貝葉斯分類是一種典型的統(tǒng)計(jì)學(xué)分類方法,用于預(yù)測(cè)樣本屬于特定類的概率,主要分為樸素貝葉斯分類和貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)分類用于預(yù)測(cè)樣本屬于特定類的概率, 是用Bayes概率理論來(lái)處理的,有些問(wèn)題就不適合這種方法,例如,在多數(shù)情況下,相關(guān)條件的概率是非常復(fù)雜的,要估計(jì)出這些函數(shù)并不是一件容易的事。3、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)模型神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,其中每個(gè)連接都有一個(gè)加權(quán)值。典型的神經(jīng)網(wǎng)絡(luò)有Hopfield網(wǎng)絡(luò)、BP網(wǎng)絡(luò)、SOM和ART網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)算法對(duì)噪聲數(shù)據(jù)有很好的適應(yīng)能力,精確度也高,但是學(xué)習(xí)時(shí)間較長(zhǎng),特別是在傳統(tǒng)的系統(tǒng)上更是耗時(shí),同時(shí)網(wǎng)絡(luò)的輸出結(jié)果也較難理解。4、邏輯回歸分類預(yù)測(cè)模型回歸分析是一種廣泛應(yīng)用的預(yù)測(cè)技術(shù),邏輯回歸是一種非常適合二分類預(yù)測(cè)問(wèn)題,建模結(jié)果可以方便地從業(yè)務(wù)角度進(jìn)行解讀,但是當(dāng)數(shù)據(jù)集中的變量非常多時(shí),如何選擇合適的變量不是一件容易的事。參照?qǐng)D3,示出了本發(fā)明一種分類預(yù)測(cè)混合模型的建立方法第一實(shí)施例的流程示意圖,包括步驟S310、將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集。步驟S320、對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,并在完成數(shù)據(jù)清洗后進(jìn)行變量選擇,生成不同類型的變量集。數(shù)據(jù)細(xì)分就是針對(duì)數(shù)據(jù)內(nèi)在的特征將樣本數(shù)據(jù)集劃分為不同的類型,來(lái)分別建模,因?yàn)榫唧w應(yīng)用的數(shù)據(jù)往往具有很強(qiáng)的領(lǐng)域特征,例如電信領(lǐng)域的用戶話單數(shù)據(jù),移動(dòng)用戶的類型并不單一,每種用戶都有獨(dú)特的用戶行為,如果只建立一個(gè)模型來(lái)預(yù)測(cè)全部用戶的情況,會(huì)掩蓋不同用戶群特征之間的差異,從而導(dǎo)致效果不佳,所以本發(fā)明采用對(duì)數(shù)據(jù)根據(jù)特征進(jìn)行細(xì)分,然后分別建立模型。所述數(shù)據(jù)特征是指一種數(shù)據(jù)區(qū)別于其它數(shù)據(jù)的特征, 具體可以根據(jù)實(shí)際情況和實(shí)際需求界定,如數(shù)據(jù)特征可以包括但不限定于領(lǐng)域特征、時(shí)間特征、數(shù)據(jù)量特征等。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,為了提高運(yùn)算速度,以及能夠應(yīng)用于云計(jì)算環(huán)境中,采用基于映射Map/規(guī)約Reduce并行聚類算法將所述樣本數(shù)據(jù)根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集,并基于并行數(shù)據(jù)提取ETL對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗。從圖4所示數(shù)據(jù)細(xì)分的流程示意圖中可以看出數(shù)據(jù)細(xì)分從數(shù)據(jù)倉(cāng)庫(kù)中取出原始數(shù)據(jù),然后將這些原始海量數(shù)據(jù)輸入到HDFS或 GFS等云計(jì)算架構(gòu)下的分布式文件系統(tǒng)中,進(jìn)行冗余存儲(chǔ)以保證高可靠性,并根據(jù)基于 Map/Reduce的并行聚類算法將原始數(shù)據(jù)聚為具有不同特征的數(shù)據(jù)集{數(shù)據(jù)集1,數(shù)據(jù)集 2,....數(shù)據(jù)集 η},然后根據(jù)并行 ETL (Extraction-Transformation-Loading,數(shù)據(jù)提取)對(duì)數(shù)據(jù)進(jìn)行清洗,并進(jìn)行變量選擇,最終形成不同類別的變量集{變量集1,變量集2,....變量集η}。圖中Map的數(shù)量和數(shù)據(jù)存儲(chǔ)塊的大小與原始數(shù)據(jù)有關(guān),本發(fā)明的一個(gè)實(shí)例給出一個(gè)較為合理的map數(shù)量,計(jì)算方法如下Number (Map)=數(shù)據(jù)量(以MB為單位)/HDFS塊的大小。例如總的數(shù)據(jù)量為1024M,而HDFS每個(gè)塊配置為U8M,則最佳的Map數(shù)量為8 個(gè),通過(guò)對(duì)云平臺(tái)Hadoop的研究以及實(shí)踐經(jīng)驗(yàn)得出reduCe數(shù)量約等于Hadoop集群中 datanode的總CPU核心的一半較為合適。
步驟S330、對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型。在本發(fā)明的一個(gè)具體實(shí)施例中,所述步驟S330包括步驟S331、對(duì)每一個(gè)變量集基于映射Map/規(guī)約Reduce并行聚類算法采用至少一個(gè)分類預(yù)測(cè)單一模型進(jìn)行訓(xùn)練。步驟S332、對(duì)每一個(gè)分類預(yù)測(cè)單一模型的輸出進(jìn)行歸一化處理,并在歸一化處理后執(zhí)行映射Map處理;步驟S333、對(duì)每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行加權(quán)統(tǒng)計(jì)后規(guī)約Reduce輸出所述分類預(yù)測(cè)混合模型。圖5示出了步驟S330的具體實(shí)現(xiàn)過(guò)程。圖5中的變量{X1、X2、X3.......Xm}為變量集{變量集i}的輸入,對(duì)這些變量集
分別進(jìn)行并行神經(jīng)網(wǎng)絡(luò)等并行分類算法來(lái)訓(xùn)練模型,這些并行算法是基于Map/Reduce實(shí)現(xiàn)的,然后對(duì)每個(gè)單一的模型的輸出進(jìn)行歸一化處理,每個(gè)模型歸一化出來(lái)后進(jìn)行map處
理,進(jìn)行并行加權(quán)統(tǒng)計(jì),最后Reduce輸出分類預(yù)測(cè)混合模型,其中a、b、c、d.......ζ為每
個(gè)模型的權(quán)值,代表每個(gè)單一模型對(duì)分類預(yù)測(cè)混合模型的貢獻(xiàn)比例因子,最后的輸出形式為
權(quán)利要求
1.一種分類預(yù)測(cè)混合模型的建立方法,其特征在于,包括 將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集;對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,并在完成數(shù)據(jù)清洗后進(jìn)行變量選擇,生成不同類型的變JEELyffe里集;對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型。
2.根據(jù)權(quán)利要求1所述的分類預(yù)測(cè)混合模型的建立方法,其特征在于,將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集具體為基于映射Map/規(guī)約Reduce并行聚類算法將所述樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集;對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗具體為基于并行數(shù)據(jù)提取ETL對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗。
3.根據(jù)權(quán)利要求2所述的分類預(yù)測(cè)混合模型的建立方法,其特征在于,對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型具體為對(duì)每一個(gè)變量集基于映射Map/規(guī)約Reduce并行聚類算法采用至少一個(gè)分類預(yù)測(cè)單一模型進(jìn)行訓(xùn)練;對(duì)每一個(gè)分類預(yù)測(cè)單一模型的輸出進(jìn)行歸一化處理,并在歸一化處理后執(zhí)行映射Map 處理;對(duì)每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行加權(quán)統(tǒng)計(jì)后規(guī)約Reduce輸出所述分類預(yù)測(cè)混合模型。
4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的分類預(yù)測(cè)混合模型的建立方法,其特征在于,建立分類預(yù)測(cè)混合模型后還包括將測(cè)試樣本集輸入所述分類預(yù)測(cè)混合模型;判斷所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)一第一預(yù)測(cè)閾值,如果超過(guò)所述第一預(yù)設(shè)閾值則輸出最終分類預(yù)測(cè)混合模型;否則根據(jù)反饋處理機(jī)制對(duì)所述分類預(yù)測(cè)混合模型進(jìn)行調(diào)整,調(diào)整后判斷所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)所述第一預(yù)測(cè)閾值。
5.根據(jù)權(quán)利要求4所述的分類預(yù)測(cè)混合模型的建立方法,其特征在于,根據(jù)反饋處理機(jī)制對(duì)所述分類預(yù)測(cè)混合模型進(jìn)行調(diào)整具體為判斷所述分類預(yù)測(cè)混合模型中每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率是否大于一第二預(yù)設(shè)閾值;如果大于所述第二預(yù)設(shè)閾值,則調(diào)整所述分類預(yù)測(cè)單一模型的加權(quán)值; 否則重新訓(xùn)練所述分類預(yù)測(cè)單一模型,使所述分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率大于所述第二預(yù)設(shè)閾值。
6.根據(jù)權(quán)利要求5所述的分類預(yù)測(cè)混合模型的建立方法,其特征在于,采用命中率、提升率、覆蓋率中的任意一個(gè)或多個(gè)指標(biāo)計(jì)算所述分類預(yù)測(cè)混合模型的評(píng)分。
7.根據(jù)權(quán)利要求6所述的分類預(yù)測(cè)混合模型的建立方法,其特征在于,所述分類預(yù)測(cè)單一模型為決策樹(shù)分類預(yù)測(cè)模型、貝葉斯分類預(yù)測(cè)模型、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)模型或邏輯回歸分類預(yù)測(cè)模型。
8.根據(jù)權(quán)利要求7所述的分類預(yù)測(cè)混合模型的建立方法,其特征在于,輸出最終分類預(yù)測(cè)混合模型后還包括將新數(shù)據(jù)輸入所述最終分類預(yù)測(cè)混合模型,對(duì)所述新數(shù)據(jù)進(jìn)行分類預(yù)測(cè)。
9.一種分類預(yù)測(cè)混合模型的建立裝置,其特征在于,包括第一生成單元,用于將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集; 第二生成單元,用于對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,并在完成數(shù)據(jù)清洗后進(jìn)行變量選擇, 生成不同類型的變量集;處理單元,用于對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型。
10.根據(jù)權(quán)利要求9所述的分類預(yù)測(cè)混合模型的建立裝置,其特征在于,所述第一生成單元基于映射Map/規(guī)約Reduce并行聚類算法將所述樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集;所述第二生成單元基于并行數(shù)據(jù)提取ETL對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗。
11.根據(jù)權(quán)利要求10所述的分類預(yù)測(cè)混合模型的建立裝置,其特征在于,所述處理單元包括第一處理單元,用于對(duì)每一個(gè)變量集基于映射Map/規(guī)約Reduce并行聚類算法采用至少一個(gè)分類預(yù)測(cè)單一模型進(jìn)行訓(xùn)練;第二處理單元,用于對(duì)每一個(gè)分類預(yù)測(cè)單一模型的輸出進(jìn)行歸一化處理,并在歸一化處理后執(zhí)行映射Map處理;第三處理單元,用于對(duì)每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行加權(quán)統(tǒng)計(jì)后規(guī)約Reduce輸出所述分類預(yù)測(cè)混合模型。
12.根據(jù)權(quán)利要求9至11任一項(xiàng)所述的分類預(yù)測(cè)混合模型的建立裝置,其特征在于,還包括第一輸入單元,用于將測(cè)試樣本集輸入所述分類預(yù)測(cè)混合模型; 第一判斷單元,用于判斷所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)一第一預(yù)測(cè)閾值; 輸出單元,用于在所述分類預(yù)測(cè)混合模型的評(píng)分超過(guò)所述第一預(yù)設(shè)閾值時(shí),輸出最終分類預(yù)測(cè)混合模型;第四處理單元,用于在所述分類預(yù)測(cè)混合模型的評(píng)分不超過(guò)所述第一預(yù)設(shè)閾值時(shí),根據(jù)反饋處理機(jī)制對(duì)所述分類預(yù)測(cè)混合模型進(jìn)行調(diào)整;第二判斷單元,用于判斷調(diào)整后的所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)所述第一預(yù)測(cè)閾值。
13.根據(jù)權(quán)利要求12所述的分類預(yù)測(cè)混合模型的建立裝置,其特征在于,所述第四處理單元包括第三判斷單元,用于判斷所述分類預(yù)測(cè)混合模型中每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率是否大于一第二預(yù)設(shè)閾值;第五處理單元,用于當(dāng)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率大于所述第二預(yù)設(shè)閾值大時(shí),調(diào)整所述分類預(yù)測(cè)單一模型的加權(quán)值;第六處理單元,用于當(dāng)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率不大于所述第二預(yù)設(shè)閾值大時(shí),重新訓(xùn)練所述分類預(yù)測(cè)單一模型,使所述分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率大于所述第二預(yù)設(shè)閾值。
14.根據(jù)權(quán)利要求13所述的分類預(yù)測(cè)混合模型的建立裝置,其特征在于,所述分類預(yù)測(cè)單一模型為決策樹(shù)分類預(yù)測(cè)模型、貝葉斯分類預(yù)測(cè)模型、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)模型或邏輯回歸分類預(yù)測(cè)模型。
15.根據(jù)權(quán)利要求14所述的分類預(yù)測(cè)混合模型的建立裝置,其特征在于,還包括第二輸入單元,用于將新數(shù)據(jù)輸入所述最終分類預(yù)測(cè)混合模型,對(duì)所述新數(shù)據(jù)進(jìn)行分類預(yù)測(cè)。
全文摘要
本發(fā)明公開(kāi)了一種分類預(yù)測(cè)混合模型的建立方法及裝置。所述方法包括將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集;對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,并在完成數(shù)據(jù)清洗后進(jìn)行變量選擇,生成不同類型的變量集;對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型。本發(fā)明通過(guò)對(duì)數(shù)據(jù)進(jìn)行細(xì)分后分別建立分類預(yù)測(cè)混合模型,提高了分類預(yù)測(cè)的精度。
文檔編號(hào)G06F17/30GK102567391SQ20101061344
公開(kāi)日2012年7月11日 申請(qǐng)日期2010年12月20日 優(yōu)先權(quán)日2010年12月20日
發(fā)明者萬(wàn)煒, 和正理, 曾國(guó)文, 林佳燁, 武永誼, 譚永勝, 陳沛球 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)廣東有限公司