一種分類預(yù)測(cè)混合模型的建立方法及裝置的制作方法

文檔序號(hào)：6340521閱讀：232來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種分類預(yù)測(cè)混合模型的建立方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明主要涉及數(shù)據(jù)處理領(lǐng)域，特別是指一種分類預(yù)測(cè)混合模型的建立方法及裝置。
背景技術(shù)：
數(shù)據(jù)庫(kù)內(nèi)容豐富，蘊(yùn)藏大量的信息，可以用來(lái)作為智能的商務(wù)決策、分類和預(yù)測(cè)時(shí)的基礎(chǔ)，可以用于提取描述重要數(shù)據(jù)類的模型或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)，分類預(yù)測(cè)就是利用分類模型來(lái)進(jìn)行分類預(yù)測(cè)，分類預(yù)測(cè)大多數(shù)情況為二元分類，例如目標(biāo)模型可以把一個(gè)客戶對(duì)市場(chǎng)影響活動(dòng)的影響分類為可能相應(yīng)或者不可能相應(yīng)；客戶流失模型可能把用戶分類為流失者或者非流失者等等。如圖1所示，分類預(yù)測(cè)模型包括三個(gè)典型的步驟訓(xùn)練階段、驗(yàn)證階段和應(yīng)用階段。步驟1 訓(xùn)練階段，就是要建立模型，使用歷史數(shù)據(jù)集來(lái)建立預(yù)測(cè)模型，模型建立過(guò)程的目標(biāo)是用解釋變量來(lái)解釋因變量或者評(píng)分變量的變化，建模的工作就是建立一個(gè)能夠準(zhǔn)確預(yù)測(cè)因變量或者評(píng)分變量值的模型。步驟2 驗(yàn)證階段，要驗(yàn)證根據(jù)歷史數(shù)據(jù)集建立的模型，可以采用統(tǒng)計(jì)方法，成為交叉驗(yàn)證。由于根據(jù)歷史數(shù)據(jù)進(jìn)行驗(yàn)證，因此簡(jiǎn)單又快捷。它把現(xiàn)有的歷史數(shù)據(jù)分為兩個(gè)組，一個(gè)組用于建立模型，另一個(gè)組用于驗(yàn)證模型。無(wú)論歷史數(shù)據(jù)是否存在，該方法都適用，如果不存在歷史模型，則驗(yàn)證數(shù)據(jù)集用來(lái)驗(yàn)證最近建立的模型。步驟3 應(yīng)用階段，就是根據(jù)建立的分類模型來(lái)預(yù)測(cè)位置類別的數(shù)據(jù)?，F(xiàn)有的分類預(yù)測(cè)方法包括決策樹(shù)分類、貝葉斯分類，神經(jīng)網(wǎng)絡(luò)分類以及邏輯回歸分類等單一的分類預(yù)測(cè)方法。發(fā)明人在實(shí)現(xiàn)本發(fā)明的過(guò)程中發(fā)現(xiàn)，現(xiàn)有技術(shù)中至少存在以下缺點(diǎn)現(xiàn)有技術(shù)中的分類預(yù)測(cè)都采用單一的分類預(yù)測(cè)方法，在具體應(yīng)用到實(shí)際業(yè)務(wù)數(shù)據(jù)時(shí)，根據(jù)分類預(yù)測(cè)算法建立模型，由于算法本身的局限性，單一的分類預(yù)測(cè)算法不能到達(dá)一個(gè)較好的預(yù)測(cè)精度，同時(shí)現(xiàn)有的算法與預(yù)測(cè)模型都是內(nèi)存駐留式順序執(zhí)行，都為單機(jī)運(yùn)行，算法應(yīng)用受到數(shù)據(jù)量的限制，當(dāng)數(shù)據(jù)量很大時(shí)，現(xiàn)有的算法與分類預(yù)測(cè)模型往往很耗時(shí)。

發(fā)明內(nèi)容
本發(fā)明提出一種基于云計(jì)算的分類預(yù)測(cè)混合模型的建立方法及裝置，通過(guò)對(duì)數(shù)據(jù)進(jìn)行細(xì)分后分別建立分類預(yù)測(cè)混合模型，提高了分類預(yù)測(cè)的精度。本發(fā)明實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的一種分類預(yù)測(cè)混合模型的建立方法，包括將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集；對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗，并在完成數(shù)據(jù)清洗后進(jìn)行變量選擇，生成不同類型的變量集；
5
對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型。優(yōu)選的，將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集具體為基于映射Map/規(guī)約Reduce并行聚類算法將所述樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集；對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗具體為基于并行數(shù)據(jù)提取ETL對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗。優(yōu)選的，對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型具體為對(duì)每一個(gè)變量集基于映射Map/規(guī)約Reduce并行聚類算法采用至少一個(gè)分類預(yù)測(cè)單一模型進(jìn)行訓(xùn)練；對(duì)每一個(gè)分類預(yù)測(cè)單一模型的輸出進(jìn)行歸一化處理，并在歸一化處理后執(zhí)行映射 Map處理；對(duì)每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行加權(quán)統(tǒng)計(jì)后規(guī)約Reduce輸出所述分類預(yù)測(cè)混合模型。優(yōu)選的，建立分類預(yù)測(cè)混合模型后還包括將測(cè)試樣本集輸入所述分類預(yù)測(cè)混合模型；判斷所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)一第一預(yù)測(cè)閾值，如果超過(guò)所述第一預(yù)設(shè)閾值則輸出最終分類預(yù)測(cè)混合模型；否則根據(jù)反饋處理機(jī)制對(duì)所述分類預(yù)測(cè)混合模型進(jìn)行調(diào)整，調(diào)整后判斷所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)所述第一預(yù)測(cè)閾值。優(yōu)選的，根據(jù)反饋處理機(jī)制對(duì)所述分類預(yù)測(cè)混合模型進(jìn)行調(diào)整具體為判斷所述分類預(yù)測(cè)混合模型中每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率是否大于一第二預(yù)設(shè)閾值；如果大于所述第二預(yù)設(shè)閾值，則調(diào)整所述分類預(yù)測(cè)單一模型的加權(quán)值；否則重新訓(xùn)練所述分類預(yù)測(cè)單一模型，使所述分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率大于所述第二預(yù)設(shè)閾值。優(yōu)選的，采用命中率、提升率、覆蓋率中的任意一個(gè)或多個(gè)指標(biāo)計(jì)算所述分類預(yù)測(cè)混合模型的評(píng)分。優(yōu)選的，所述分類預(yù)測(cè)單一模型為決策樹(shù)分類預(yù)測(cè)模型、貝葉斯分類預(yù)測(cè)模型、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)模型或邏輯回歸分類預(yù)測(cè)模型。優(yōu)選的，輸出最終分類預(yù)測(cè)混合模型后還包括將新數(shù)據(jù)輸入所述最終分類預(yù)測(cè)混合模型，對(duì)所述新數(shù)據(jù)進(jìn)行分類預(yù)測(cè)。一種分類預(yù)測(cè)混合模型的建立裝置，包括第一生成單元，用于將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集；第二生成單元，用于對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗，并在完成數(shù)據(jù)清洗后進(jìn)行變量選擇，生成不同類型的變量集；處理單元，用于對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型。優(yōu)選的，所述第一生成單元基于映射Map/規(guī)約Reduce并行聚類算法將所述樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集；所述第二生成單元基于并行數(shù)據(jù)提取ETL對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗。優(yōu)選的，所述處理單元包括第一處理單元，用于對(duì)每一個(gè)變量集基于映射Map/規(guī)約Reduce并行聚類算法采用至少一個(gè)分類預(yù)測(cè)單一模型進(jìn)行訓(xùn)練；第二處理單元，用于對(duì)每一個(gè)分類預(yù)測(cè)單一模型的輸出進(jìn)行歸一化處理，并在歸一化處理后執(zhí)行映射Map處理；第三處理單元，用于對(duì)每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行加權(quán)統(tǒng)計(jì)后規(guī)約Reduce輸出所述分類預(yù)測(cè)混合模型。優(yōu)選的，還包括第一輸入單元，用于將測(cè)試樣本集輸入所述分類預(yù)測(cè)混合模型；第一判斷單元，用于判斷所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)一第一預(yù)測(cè)閾值；輸出單元，用于在所述分類預(yù)測(cè)混合模型的評(píng)分超過(guò)所述第一預(yù)設(shè)閾值時(shí)，輸出最終分類預(yù)測(cè)混合模型；第四處理單元，用于在所述分類預(yù)測(cè)混合模型的評(píng)分不超過(guò)所述第一預(yù)設(shè)閾值時(shí)，根據(jù)反饋處理機(jī)制對(duì)所述分類預(yù)測(cè)混合模型進(jìn)行調(diào)整；第二判斷單元，用于判斷調(diào)整后的所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)所述第一預(yù)測(cè)閾值。優(yōu)選的，所述第四處理單元包括第三判斷單元，用于判斷所述分類預(yù)測(cè)混合模型中每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率是否大于一第二預(yù)設(shè)閾值；第五處理單元，用于當(dāng)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率大于所述第二預(yù)設(shè)閾值大時(shí)，調(diào)整所述分類預(yù)測(cè)單一模型的加權(quán)值；第六處理單元，用于當(dāng)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率不大于所述第二預(yù)設(shè)閾值大時(shí)，重新訓(xùn)練所述分類預(yù)測(cè)單一模型，使所述分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率大于所述第二預(yù)設(shè)閾值。優(yōu)選的，所述分類預(yù)測(cè)單一模型為決策樹(shù)分類預(yù)測(cè)模型、貝葉斯分類預(yù)測(cè)模型、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)模型或邏輯回歸分類預(yù)測(cè)模型。優(yōu)選的，還包括第二輸入單元，用于將新數(shù)據(jù)輸入所述最終分類預(yù)測(cè)混合模型，對(duì)所述新數(shù)據(jù)進(jìn)行分類預(yù)測(cè)。本發(fā)明技術(shù)方案通過(guò)對(duì)數(shù)據(jù)進(jìn)行細(xì)分后分別建立分類預(yù)測(cè)混合模型，考慮了不同特征的數(shù)據(jù)之間的差異，從而使得分類預(yù)測(cè)更加準(zhǔn)確，同時(shí)所述分類預(yù)測(cè)混合模型充分利用了各個(gè)分類預(yù)測(cè)單一模型的優(yōu)點(diǎn)，提高了分類預(yù)測(cè)的精度；進(jìn)一步，本發(fā)明基于Map/ Reduce實(shí)現(xiàn)，在具體實(shí)現(xiàn)過(guò)程中只需要普通的PC (person computer，個(gè)人電腦)機(jī)組成集群就可以對(duì)海量的數(shù)據(jù)進(jìn)行分類預(yù)測(cè)，使本發(fā)明技術(shù)方案可以直接部署在云計(jì)算應(yīng)用層實(shí)現(xiàn)。

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1為分類預(yù)測(cè)模型的原理示意圖；圖2為Map/Reduce計(jì)算模型一個(gè)具體實(shí)例的原理示意圖；圖3為本發(fā)明一種分類預(yù)測(cè)混合模型的建立方法第一實(shí)施例的流程示意圖；圖4為圖3中數(shù)據(jù)細(xì)分的流程示意圖；圖5為圖3中步驟S330的具體實(shí)現(xiàn)過(guò)程示意圖；圖6為圖3中步驟S340-步驟S360的具體實(shí)現(xiàn)原理示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。首先對(duì)本發(fā)明所涉及的映射Map/規(guī)約Reduce并行聚類計(jì)算模型和分類預(yù)測(cè)單一模型進(jìn)行描述。映射Map/規(guī)約Reduce并行聚類計(jì)算模型Map/Redue是一種分布式并行計(jì)算模型，是云計(jì)算的關(guān)鍵技術(shù)，主要思想就是 "Map (映射)”和“Reduce (規(guī)約)”，軟件實(shí)現(xiàn)只需指定一個(gè)Map函數(shù)，用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì)，然后指定并發(fā)的Reduce函數(shù)，用來(lái)保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的健值對(duì)，計(jì)算模型的一個(gè)具體實(shí)例如圖2所示。Map/Reduce的工作過(guò)程分map階段和reduce階段，每個(gè)階段都有鍵值對(duì)作為輸入輸出。從圖2看出，執(zhí)行一個(gè)Map/Reduce需要5個(gè)步驟輸入文件、將文件分配給多個(gè)執(zhí)行者(worker)并行執(zhí)行、寫(xiě)中間文件(到本地)、多個(gè)Reduce執(zhí)行者(worker)也并行運(yùn)行、輸出最終結(jié)果，總的處理過(guò)程可以概括如下兩步Map (in_key，in_value) 一 {(keyj, value j) | j = 1…k}Reduce (key, [valuel, ...valuem]) 一 (key, f—value)相比于傳統(tǒng)的計(jì)算模式，Map/Redue是一種簡(jiǎn)單的并行編程模型，并且基于Map/ Redue模型的應(yīng)用程序能夠運(yùn)行在由上千個(gè)普通機(jī)器組成的大型集群上(云中)，并以一種可靠容錯(cuò)的方式并行處理上T級(jí)別的數(shù)據(jù)集。分類預(yù)測(cè)單一模型包括1、決策樹(shù)分類預(yù)測(cè)模型是一種流行的分類算法，具有學(xué)習(xí)速度快、分類準(zhǔn)確率高、分類結(jié)果表現(xiàn)直觀等特點(diǎn)，但是在實(shí)踐中要?dú)w納決策規(guī)則，以達(dá)到高水平的決策樹(shù)相類似的性能還是相當(dāng)困難的。2、貝葉斯分類預(yù)測(cè)模型貝葉斯分類是一種典型的統(tǒng)計(jì)學(xué)分類方法，用于預(yù)測(cè)樣本屬于特定類的概率，主要分為樸素貝葉斯分類和貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)分類用于預(yù)測(cè)樣本屬于特定類的概率，是用Bayes概率理論來(lái)處理的，有些問(wèn)題就不適合這種方法，例如，在多數(shù)情況下，相關(guān)條件的概率是非常復(fù)雜的，要估計(jì)出這些函數(shù)并不是一件容易的事。3、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)模型神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元，其中每個(gè)連接都有一個(gè)加權(quán)值。典型的神經(jīng)網(wǎng)絡(luò)有Hopfield網(wǎng)絡(luò)、BP網(wǎng)絡(luò)、SOM和ART網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)算法對(duì)噪聲數(shù)據(jù)有很好的適應(yīng)能力，精確度也高，但是學(xué)習(xí)時(shí)間較長(zhǎng)，特別是在傳統(tǒng)的系統(tǒng)上更是耗時(shí)，同時(shí)網(wǎng)絡(luò)的輸出結(jié)果也較難理解。4、邏輯回歸分類預(yù)測(cè)模型回歸分析是一種廣泛應(yīng)用的預(yù)測(cè)技術(shù)，邏輯回歸是一種非常適合二分類預(yù)測(cè)問(wèn)題，建模結(jié)果可以方便地從業(yè)務(wù)角度進(jìn)行解讀，但是當(dāng)數(shù)據(jù)集中的變量非常多時(shí)，如何選擇合適的變量不是一件容易的事。參照?qǐng)D3，示出了本發(fā)明一種分類預(yù)測(cè)混合模型的建立方法第一實(shí)施例的流程示意圖，包括步驟S310、將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集。步驟S320、對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗，并在完成數(shù)據(jù)清洗后進(jìn)行變量選擇，生成不同類型的變量集。數(shù)據(jù)細(xì)分就是針對(duì)數(shù)據(jù)內(nèi)在的特征將樣本數(shù)據(jù)集劃分為不同的類型，來(lái)分別建模，因?yàn)榫唧w應(yīng)用的數(shù)據(jù)往往具有很強(qiáng)的領(lǐng)域特征，例如電信領(lǐng)域的用戶話單數(shù)據(jù)，移動(dòng)用戶的類型并不單一，每種用戶都有獨(dú)特的用戶行為，如果只建立一個(gè)模型來(lái)預(yù)測(cè)全部用戶的情況，會(huì)掩蓋不同用戶群特征之間的差異，從而導(dǎo)致效果不佳，所以本發(fā)明采用對(duì)數(shù)據(jù)根據(jù)特征進(jìn)行細(xì)分，然后分別建立模型。所述數(shù)據(jù)特征是指一種數(shù)據(jù)區(qū)別于其它數(shù)據(jù)的特征，具體可以根據(jù)實(shí)際情況和實(shí)際需求界定，如數(shù)據(jù)特征可以包括但不限定于領(lǐng)域特征、時(shí)間特征、數(shù)據(jù)量特征等。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中，為了提高運(yùn)算速度，以及能夠應(yīng)用于云計(jì)算環(huán)境中，采用基于映射Map/規(guī)約Reduce并行聚類算法將所述樣本數(shù)據(jù)根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集，并基于并行數(shù)據(jù)提取ETL對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗。從圖4所示數(shù)據(jù)細(xì)分的流程示意圖中可以看出數(shù)據(jù)細(xì)分從數(shù)據(jù)倉(cāng)庫(kù)中取出原始數(shù)據(jù)，然后將這些原始海量數(shù)據(jù)輸入到HDFS或 GFS等云計(jì)算架構(gòu)下的分布式文件系統(tǒng)中，進(jìn)行冗余存儲(chǔ)以保證高可靠性，并根據(jù)基于 Map/Reduce的并行聚類算法將原始數(shù)據(jù)聚為具有不同特征的數(shù)據(jù)集{數(shù)據(jù)集1，數(shù)據(jù)集 2，....數(shù)據(jù)集 η}，然后根據(jù)并行 ETL (Extraction-Transformation-Loading，數(shù)據(jù)提取)對(duì)數(shù)據(jù)進(jìn)行清洗，并進(jìn)行變量選擇，最終形成不同類別的變量集{變量集1，變量集2，....變量集η}。圖中Map的數(shù)量和數(shù)據(jù)存儲(chǔ)塊的大小與原始數(shù)據(jù)有關(guān)，本發(fā)明的一個(gè)實(shí)例給出一個(gè)較為合理的map數(shù)量，計(jì)算方法如下Number (Map)=數(shù)據(jù)量(以MB為單位)/HDFS塊的大小。例如總的數(shù)據(jù)量為1024M，而HDFS每個(gè)塊配置為U8M，則最佳的Map數(shù)量為8 個(gè)，通過(guò)對(duì)云平臺(tái)Hadoop的研究以及實(shí)踐經(jīng)驗(yàn)得出reduCe數(shù)量約等于Hadoop集群中 datanode的總CPU核心的一半較為合適。
步驟S330、對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型。在本發(fā)明的一個(gè)具體實(shí)施例中，所述步驟S330包括步驟S331、對(duì)每一個(gè)變量集基于映射Map/規(guī)約Reduce并行聚類算法采用至少一個(gè)分類預(yù)測(cè)單一模型進(jìn)行訓(xùn)練。步驟S332、對(duì)每一個(gè)分類預(yù)測(cè)單一模型的輸出進(jìn)行歸一化處理，并在歸一化處理后執(zhí)行映射Map處理；步驟S333、對(duì)每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行加權(quán)統(tǒng)計(jì)后規(guī)約Reduce輸出所述分類預(yù)測(cè)混合模型。圖5示出了步驟S330的具體實(shí)現(xiàn)過(guò)程。圖5中的變量{X1、X2、X3.......Xm}為變量集{變量集i}的輸入，對(duì)這些變量集
分別進(jìn)行并行神經(jīng)網(wǎng)絡(luò)等并行分類算法來(lái)訓(xùn)練模型，這些并行算法是基于Map/Reduce實(shí)現(xiàn)的，然后對(duì)每個(gè)單一的模型的輸出進(jìn)行歸一化處理，每個(gè)模型歸一化出來(lái)后進(jìn)行map處
理，進(jìn)行并行加權(quán)統(tǒng)計(jì)，最后Reduce輸出分類預(yù)測(cè)混合模型，其中a、b、c、d.......ζ為每
個(gè)模型的權(quán)值，代表每個(gè)單一模型對(duì)分類預(yù)測(cè)混合模型的貢獻(xiàn)比例因子，最后的輸出形式為
權(quán)利要求
1.一種分類預(yù)測(cè)混合模型的建立方法，其特征在于，包括將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集；對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗，并在完成數(shù)據(jù)清洗后進(jìn)行變量選擇，生成不同類型的變JEELyffe里集；對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型。
2.根據(jù)權(quán)利要求1所述的分類預(yù)測(cè)混合模型的建立方法，其特征在于，將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集具體為基于映射Map/規(guī)約Reduce并行聚類算法將所述樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集；對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗具體為基于并行數(shù)據(jù)提取ETL對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗。
3.根據(jù)權(quán)利要求2所述的分類預(yù)測(cè)混合模型的建立方法，其特征在于，對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型具體為對(duì)每一個(gè)變量集基于映射Map/規(guī)約Reduce并行聚類算法采用至少一個(gè)分類預(yù)測(cè)單一模型進(jìn)行訓(xùn)練；對(duì)每一個(gè)分類預(yù)測(cè)單一模型的輸出進(jìn)行歸一化處理，并在歸一化處理后執(zhí)行映射Map 處理；對(duì)每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行加權(quán)統(tǒng)計(jì)后規(guī)約Reduce輸出所述分類預(yù)測(cè)混合模型。
4.根據(jù)權(quán)利要求1至3任一項(xiàng)所述的分類預(yù)測(cè)混合模型的建立方法，其特征在于，建立分類預(yù)測(cè)混合模型后還包括將測(cè)試樣本集輸入所述分類預(yù)測(cè)混合模型；判斷所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)一第一預(yù)測(cè)閾值，如果超過(guò)所述第一預(yù)設(shè)閾值則輸出最終分類預(yù)測(cè)混合模型；否則根據(jù)反饋處理機(jī)制對(duì)所述分類預(yù)測(cè)混合模型進(jìn)行調(diào)整，調(diào)整后判斷所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)所述第一預(yù)測(cè)閾值。
5.根據(jù)權(quán)利要求4所述的分類預(yù)測(cè)混合模型的建立方法，其特征在于，根據(jù)反饋處理機(jī)制對(duì)所述分類預(yù)測(cè)混合模型進(jìn)行調(diào)整具體為判斷所述分類預(yù)測(cè)混合模型中每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率是否大于一第二預(yù)設(shè)閾值；如果大于所述第二預(yù)設(shè)閾值，則調(diào)整所述分類預(yù)測(cè)單一模型的加權(quán)值；否則重新訓(xùn)練所述分類預(yù)測(cè)單一模型，使所述分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率大于所述第二預(yù)設(shè)閾值。
6.根據(jù)權(quán)利要求5所述的分類預(yù)測(cè)混合模型的建立方法，其特征在于，采用命中率、提升率、覆蓋率中的任意一個(gè)或多個(gè)指標(biāo)計(jì)算所述分類預(yù)測(cè)混合模型的評(píng)分。
7.根據(jù)權(quán)利要求6所述的分類預(yù)測(cè)混合模型的建立方法，其特征在于，所述分類預(yù)測(cè)單一模型為決策樹(shù)分類預(yù)測(cè)模型、貝葉斯分類預(yù)測(cè)模型、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)模型或邏輯回歸分類預(yù)測(cè)模型。
8.根據(jù)權(quán)利要求7所述的分類預(yù)測(cè)混合模型的建立方法，其特征在于，輸出最終分類預(yù)測(cè)混合模型后還包括將新數(shù)據(jù)輸入所述最終分類預(yù)測(cè)混合模型，對(duì)所述新數(shù)據(jù)進(jìn)行分類預(yù)測(cè)。
9.一種分類預(yù)測(cè)混合模型的建立裝置，其特征在于，包括第一生成單元，用于將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集；第二生成單元，用于對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗，并在完成數(shù)據(jù)清洗后進(jìn)行變量選擇，生成不同類型的變量集；處理單元，用于對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型。
10.根據(jù)權(quán)利要求9所述的分類預(yù)測(cè)混合模型的建立裝置，其特征在于，所述第一生成單元基于映射Map/規(guī)約Reduce并行聚類算法將所述樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集；所述第二生成單元基于并行數(shù)據(jù)提取ETL對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗。
11.根據(jù)權(quán)利要求10所述的分類預(yù)測(cè)混合模型的建立裝置，其特征在于，所述處理單元包括第一處理單元，用于對(duì)每一個(gè)變量集基于映射Map/規(guī)約Reduce并行聚類算法采用至少一個(gè)分類預(yù)測(cè)單一模型進(jìn)行訓(xùn)練；第二處理單元，用于對(duì)每一個(gè)分類預(yù)測(cè)單一模型的輸出進(jìn)行歸一化處理，并在歸一化處理后執(zhí)行映射Map處理；第三處理單元，用于對(duì)每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行加權(quán)統(tǒng)計(jì)后規(guī)約Reduce輸出所述分類預(yù)測(cè)混合模型。
12.根據(jù)權(quán)利要求9至11任一項(xiàng)所述的分類預(yù)測(cè)混合模型的建立裝置，其特征在于，還包括第一輸入單元，用于將測(cè)試樣本集輸入所述分類預(yù)測(cè)混合模型；第一判斷單元，用于判斷所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)一第一預(yù)測(cè)閾值；輸出單元，用于在所述分類預(yù)測(cè)混合模型的評(píng)分超過(guò)所述第一預(yù)設(shè)閾值時(shí)，輸出最終分類預(yù)測(cè)混合模型；第四處理單元，用于在所述分類預(yù)測(cè)混合模型的評(píng)分不超過(guò)所述第一預(yù)設(shè)閾值時(shí)，根據(jù)反饋處理機(jī)制對(duì)所述分類預(yù)測(cè)混合模型進(jìn)行調(diào)整；第二判斷單元，用于判斷調(diào)整后的所述分類預(yù)測(cè)混合模型的評(píng)分是否超過(guò)所述第一預(yù)測(cè)閾值。
13.根據(jù)權(quán)利要求12所述的分類預(yù)測(cè)混合模型的建立裝置，其特征在于，所述第四處理單元包括第三判斷單元，用于判斷所述分類預(yù)測(cè)混合模型中每一個(gè)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率是否大于一第二預(yù)設(shè)閾值；第五處理單元，用于當(dāng)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率大于所述第二預(yù)設(shè)閾值大時(shí)，調(diào)整所述分類預(yù)測(cè)單一模型的加權(quán)值；第六處理單元，用于當(dāng)分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率不大于所述第二預(yù)設(shè)閾值大時(shí)，重新訓(xùn)練所述分類預(yù)測(cè)單一模型，使所述分類預(yù)測(cè)單一模型進(jìn)行分類預(yù)測(cè)的準(zhǔn)確率大于所述第二預(yù)設(shè)閾值。
14.根據(jù)權(quán)利要求13所述的分類預(yù)測(cè)混合模型的建立裝置，其特征在于，所述分類預(yù)測(cè)單一模型為決策樹(shù)分類預(yù)測(cè)模型、貝葉斯分類預(yù)測(cè)模型、神經(jīng)網(wǎng)絡(luò)分類預(yù)測(cè)模型或邏輯回歸分類預(yù)測(cè)模型。
15.根據(jù)權(quán)利要求14所述的分類預(yù)測(cè)混合模型的建立裝置，其特征在于，還包括第二輸入單元，用于將新數(shù)據(jù)輸入所述最終分類預(yù)測(cè)混合模型，對(duì)所述新數(shù)據(jù)進(jìn)行分類預(yù)測(cè)。
全文摘要
本發(fā)明公開(kāi)了一種分類預(yù)測(cè)混合模型的建立方法及裝置。所述方法包括將樣本數(shù)據(jù)集根據(jù)數(shù)據(jù)特征劃分為不同類型的數(shù)據(jù)集；對(duì)所述數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗，并在完成數(shù)據(jù)清洗后進(jìn)行變量選擇，生成不同類型的變量集；對(duì)每一個(gè)變量集采用至少一個(gè)分類預(yù)測(cè)單一模型建立分類預(yù)測(cè)混合模型。本發(fā)明通過(guò)對(duì)數(shù)據(jù)進(jìn)行細(xì)分后分別建立分類預(yù)測(cè)混合模型，提高了分類預(yù)測(cè)的精度。
文檔編號(hào)G06F17/30GK102567391SQ20101061344
公開(kāi)日2012年7月11日申請(qǐng)日期2010年12月20日優(yōu)先權(quán)日2010年12月20日
發(fā)明者萬(wàn)煒, 和正理, 曾國(guó)文, 林佳燁, 武永誼, 譚永勝, 陳沛球申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)廣東有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林佳燁;譚永勝;和正理;萬(wàn)煒;陳沛球;曾國(guó)文;武永誼
技術(shù)所有人：中國(guó)移動(dòng)通信集團(tuán)廣東有限公司
我是此專利的發(fā)明人

上一篇：一種用軟件實(shí)現(xiàn)的鐵路信號(hào)聯(lián)鎖方法
上一篇：數(shù)據(jù)導(dǎo)入方法和裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

如何建立預(yù)測(cè)模型相關(guān)技術(shù)

建立預(yù)測(cè)模型相關(guān)技術(shù)

建立預(yù)測(cè)動(dòng)態(tài)數(shù)學(xué)模型相關(guān)技術(shù)

高斯混合模型分類器相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種分類預(yù)測(cè)混合模型的建立方法及裝置的制作方法