本發(fā)明涉及電子商務(wù)領(lǐng)域,尤其涉及一種基于決策樹模型的年齡特征的預(yù)測(cè)方法、系統(tǒng)及終端。
背景技術(shù):
在電商或者社交等以用戶為基礎(chǔ)的相關(guān)行業(yè)中,往往需要了解用戶的真實(shí)年齡,以對(duì)其進(jìn)行分類,方便研究其行為特征及偏好。但網(wǎng)絡(luò)作為一個(gè)虛擬世界,用戶在暢游時(shí),本身都有一種警惕性,從而隱藏自己部分真實(shí)身份。
但是不同年齡的群體,本身的行為特征具有區(qū)分性,其真實(shí)年齡可以通過自身行為特征展示出來,有針對(duì)性的對(duì)行為特征數(shù)據(jù)進(jìn)行處理及特征抽取,能夠大幅度的提高年齡預(yù)測(cè)的準(zhǔn)確性。
現(xiàn)有技術(shù)中,利用回歸模型進(jìn)行年齡預(yù)測(cè)。發(fā)明人在研究的過程中發(fā)現(xiàn),利用回歸模型進(jìn)行年齡預(yù)測(cè)時(shí),由于年齡本身是個(gè)連續(xù)變量,預(yù)測(cè)出的結(jié)果并不是很準(zhǔn)確,原因如下:
1、同一年齡值的用戶,往往由于所處的生活環(huán)境影響,致使其外在行為特征差別較大;
2、不同年齡值的用戶,尤其是年齡相仿的用戶,行為特征往往不具有明顯的區(qū)分性;
最終導(dǎo)致,回歸模型預(yù)測(cè)真實(shí)年齡的誤差較大。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的在于提供一種基于決策樹模型的年齡特征的預(yù)測(cè)方法、系統(tǒng)及終端,以克服現(xiàn)有的電子商務(wù)領(lǐng)域的年齡特征預(yù)測(cè)難的技術(shù)問題。
本發(fā)明一方面提供了一種基于決策樹模型的年齡特征的預(yù)測(cè)方法,包括:
采集基礎(chǔ)數(shù)據(jù)信息;
抽取所述基礎(chǔ)數(shù)據(jù)信息屬性中的特征輸入變量和目標(biāo)變量,得到樣本數(shù)據(jù);
將樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練,將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,測(cè)試滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果;
將滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果輸出;將輸出的模型參數(shù)訓(xùn)練結(jié)果的規(guī)則定期更新為未知用戶的年齡預(yù)測(cè)結(jié)果。
進(jìn)一步的,所述采集基礎(chǔ)數(shù)據(jù)信息,包括但不限于:采集注冊(cè)信息、訪問行為數(shù)據(jù)、下單行為數(shù)據(jù)和/或藝人的基礎(chǔ)數(shù)據(jù)。
進(jìn)一步的,所述抽取所述基礎(chǔ)數(shù)據(jù)信息屬性中的特征輸入變量和目標(biāo)變量,得到樣本數(shù)據(jù),包括:
獲取基礎(chǔ)數(shù)據(jù)信息中的所有屬性信息;
抽取所述屬性信息中與年齡預(yù)測(cè)相關(guān)的至少一個(gè)輸入變量和至少一個(gè)目標(biāo)變量,并將所述至少一個(gè)輸入變量和所述至少一個(gè)目標(biāo)變量整理得到樣本數(shù)據(jù)。
進(jìn)一步的,所述將樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練,將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,測(cè)試滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果,包括:
將樣本數(shù)據(jù)分為用于建模的訓(xùn)練集和用于驗(yàn)證模型效果的測(cè)試集;
將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練;
將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,測(cè)試滿足測(cè)試集準(zhǔn)確率在訓(xùn)練集準(zhǔn)確率的自定義中百分比以內(nèi)的穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果。
進(jìn)一步的,將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練,包括:
將訓(xùn)練集的特征輸入變量輸入到?jīng)Q策樹模型中,決策樹模型基于信息增益率進(jìn)行變量選擇和分割點(diǎn)選擇,進(jìn)行模型參數(shù)訓(xùn)練。
進(jìn)一步的,將滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果輸出;將輸出的模型參數(shù)訓(xùn)練結(jié)果的規(guī)則定期更新為未知用戶的年齡預(yù)測(cè)結(jié)果,包括:
將滿足測(cè)試集準(zhǔn)確率在訓(xùn)練集準(zhǔn)確率的自定義中百分比以內(nèi)的穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果輸出;將輸出的模型參數(shù)訓(xùn)練結(jié)果的規(guī)則整理成SQL的where條件,部署到系統(tǒng)中定期更新為未知用戶的年齡預(yù)測(cè)結(jié)果。
本發(fā)明另一方面還提供了一種基于決策樹模型的年齡特征的預(yù)測(cè)系統(tǒng),包括:
采集模塊,用于采集基礎(chǔ)數(shù)據(jù)信息;
抽取模塊,用于抽取所述基礎(chǔ)數(shù)據(jù)信息屬性中的特征輸入變量和目標(biāo)變量,得到樣本數(shù)據(jù);
建模模塊,用于將樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練,將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,測(cè)試滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果;
輸出模塊,用于將滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果輸出;將輸出的模型參數(shù)訓(xùn)練結(jié)果的規(guī)則定期更新為未知用戶的年齡預(yù)測(cè)結(jié)果。
進(jìn)一步的,所述采集模塊,包括但不限于:
采集單元,用于采集注冊(cè)信息、訪問行為數(shù)據(jù)、下單行為數(shù)據(jù)和/或藝人的基礎(chǔ)數(shù)據(jù)。
進(jìn)一步的,所述抽取模塊,包括:
獲取單元,用于獲取基礎(chǔ)數(shù)據(jù)信息中的所有屬性信息;
抽取單元,用于抽取所述屬性信息中與年齡預(yù)測(cè)相關(guān)的至少一個(gè)輸入變量和至少一個(gè)目標(biāo)變量,并將所述至少一個(gè)輸入變量和所述至少一個(gè)目標(biāo)變量整理得到樣本數(shù)據(jù)。
進(jìn)一步的,所述建模模塊,包括:
訓(xùn)練單元,用于將樣本數(shù)據(jù)分為用于建模的訓(xùn)練集和用于驗(yàn)證模型效果的測(cè)試集;將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練;
建模單元,用于將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,測(cè)試滿足測(cè)試集準(zhǔn)確率在訓(xùn)練集準(zhǔn)確率的自定義中百分比以內(nèi)的穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果。
進(jìn)一步的,訓(xùn)練單元,包括:
訓(xùn)練子單元,用于將訓(xùn)練集的特征輸入變量輸入到?jīng)Q策樹模型中,決策樹模型基于信息增益率進(jìn)行變量選擇和分割點(diǎn)選擇,進(jìn)行模型參數(shù)訓(xùn)練。
進(jìn)一步的,輸出模塊,包括:
輸出單元,用于將滿足測(cè)試集準(zhǔn)確率在訓(xùn)練集準(zhǔn)確率的自定義中百分比以內(nèi)的穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果輸出;
更新單元,用于將輸出的模型參數(shù)訓(xùn)練結(jié)果的規(guī)則整理成SQL的where條件,部署到系統(tǒng)中定期更新為未知用戶的年齡預(yù)測(cè)結(jié)果。
本發(fā)明另一方面還提供了一種基于決策樹模型的年齡特征的預(yù)測(cè)終端,包括前述任一項(xiàng)所述的系統(tǒng)。
本發(fā)明通過采集基礎(chǔ)數(shù)據(jù)信息;抽取所述基礎(chǔ)數(shù)據(jù)信息屬性中的特征輸入變量和目標(biāo)變量,得到樣本數(shù)據(jù);將樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練,將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,測(cè)試滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果;將滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果輸出;將輸出的模型參數(shù)訓(xùn)練結(jié)果的規(guī)則定期更新為未知用戶的年齡預(yù)測(cè)結(jié)果,利用采集的基礎(chǔ)數(shù)據(jù)信息,構(gòu)建預(yù)測(cè)模型,預(yù)測(cè)用戶的年齡,精準(zhǔn)的構(gòu)建用戶畫像,為營(yíng)銷等場(chǎng)景打下堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),提高了年齡識(shí)別的準(zhǔn)確性。
附圖說明
圖1為根據(jù)本發(fā)明涉及的一種基于決策樹模型的年齡特征的預(yù)測(cè)方法的實(shí)施例一的流程圖;
圖2為根據(jù)本發(fā)明涉及的一種基于決策樹模型的年齡特征的預(yù)測(cè)系統(tǒng)的實(shí)施例二的結(jié)構(gòu)框圖;
圖3為根據(jù)本發(fā)明涉及的一種基于決策樹模型的年齡特征的預(yù)測(cè)系統(tǒng)的采集模塊實(shí)施例二的結(jié)構(gòu)框圖;
圖4為根據(jù)本發(fā)明涉及的一種基于決策樹模型的年齡特征的預(yù)測(cè)系統(tǒng)的抽取模塊實(shí)施例二的結(jié)構(gòu)框圖;
圖5為根據(jù)本發(fā)明涉及的一種基于決策樹模型的年齡特征的預(yù)測(cè)系統(tǒng)的建模模塊實(shí)施例二的結(jié)構(gòu)框圖;
圖6為根據(jù)本發(fā)明涉及的一種基于決策樹模型的年齡特征的預(yù)測(cè)系統(tǒng)的訓(xùn)練單元實(shí)施例二的結(jié)構(gòu)框圖;
圖7為根據(jù)本發(fā)明涉及的一種基于決策樹模型的年齡特征的預(yù)測(cè)系統(tǒng)的輸出模塊實(shí)施例二的結(jié)構(gòu)框圖;
圖8為根據(jù)本發(fā)明涉及的一種基于決策樹模型的年齡特征的預(yù)測(cè)終端的實(shí)施例三的結(jié)構(gòu)框圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測(cè)模型,他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。Entropy=系統(tǒng)的凌亂程度,使用算法ID3,C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。
決策樹是一種樹形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)代表一種類別。
本發(fā)明通過決策樹模型,結(jié)合行業(yè)本身的業(yè)務(wù)特點(diǎn),巧妙的將用戶年齡進(jìn)行分層,將連續(xù)變量轉(zhuǎn)換為離散變量,將回歸問題轉(zhuǎn)化為分類問題,有針對(duì)性的對(duì)數(shù)據(jù)進(jìn)行處理及特征抽取、建模,最終既保證了業(yè)務(wù)上的可用性,又提升了預(yù)測(cè)的準(zhǔn)確率。
實(shí)施例一
如圖1所示,本發(fā)明一方面提供了一種基于決策樹模型的年齡特征的預(yù)測(cè)方法,包括:步驟S110、步驟S120、步驟S130和步驟S140。
在步驟S110中,采集基礎(chǔ)數(shù)據(jù)信息。
所述采集基礎(chǔ)數(shù)據(jù)信息,包括但不限于:采集注冊(cè)信息、訪問行為數(shù)據(jù)、下單行為數(shù)據(jù)和/或藝人的基礎(chǔ)數(shù)據(jù)。
在步驟S120中,抽取所述基礎(chǔ)數(shù)據(jù)信息屬性中的特征輸入變量和目標(biāo)變量,得到樣本數(shù)據(jù)。
包括:
獲取基礎(chǔ)數(shù)據(jù)信息中的所有屬性信息;抽取所述屬性信息中與年齡預(yù)測(cè)相關(guān)的至少一個(gè)輸入變量和至少一個(gè)目標(biāo)變量,并將所述至少一個(gè)輸入變量和所述至少一個(gè)目標(biāo)變量整理得到樣本數(shù)據(jù)。
優(yōu)選的,抽取用戶的訂單信息、藝人的基礎(chǔ)信息屬性信息中與年齡預(yù)測(cè)相關(guān)八個(gè)輸入變量:
√用戶是否購買過親子類項(xiàng)目;
√用戶歷史最高消費(fèi)水平;
√用戶偏好藝人數(shù);
√用戶是否偏好組合;
√用戶偏好藝人性別;
√用戶偏好藝人發(fā)展國(如鹿晗,中國人,發(fā)展國為韓國);
√用戶偏好藝人年齡;
√用戶偏好藝人發(fā)展地;
一個(gè)目標(biāo)變量:用戶年齡分層(三值變量[學(xué)生期、上升期、穩(wěn)定期]):
學(xué)生期:年齡<=22;
上升期:22<年齡<=30;
穩(wěn)定期:年齡>30;
在步驟S130中,將樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練,將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,測(cè)試滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果。
包括:
將樣本數(shù)據(jù)分為用于建模的訓(xùn)練集和用于驗(yàn)證模型效果的測(cè)試集;其中,樣本數(shù)據(jù)是用來建模時(shí)的樣本數(shù)據(jù),假如有100萬條樣本數(shù)據(jù),需要將其分為2部分,一部分是用來建模的,一部分是用來驗(yàn)證模型效果的,如,訓(xùn)練集:測(cè)試集=6:4而6:4的比例是可以調(diào)整的,但一般來講,訓(xùn)練集占比會(huì)相對(duì)高一些,常用的劃分比例為5:5,6:4,7:3,75:25等。
將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練;將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,測(cè)試滿足測(cè)試集準(zhǔn)確率在訓(xùn)練集準(zhǔn)確率的自定義中百分比以內(nèi)的穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果。
將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,檢驗(yàn)訓(xùn)練結(jié)果的穩(wěn)定性。即,整體準(zhǔn)確率和訓(xùn)練結(jié)果保持一致,具體一致的標(biāo)準(zhǔn)可以依據(jù)具體場(chǎng)景的可接受程度來衡量,參考為:測(cè)試集準(zhǔn)確率在訓(xùn)練集準(zhǔn)確率的±10%以內(nèi)。
其中,將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練,包括:將訓(xùn)練集的特征輸入變量輸入到?jīng)Q策樹模型中,決策樹模型基于信息增益率進(jìn)行變量選擇和分割點(diǎn)選擇,進(jìn)行模型參數(shù)訓(xùn)練。
在步驟S140中,將滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果輸出;將輸出的模型參數(shù)訓(xùn)練結(jié)果的規(guī)則定期更新為未知用戶的年齡預(yù)測(cè)結(jié)果。
包括:
將滿足測(cè)試集準(zhǔn)確率在訓(xùn)練集準(zhǔn)確率的自定義中百分比以內(nèi)的穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果輸出;將輸出的模型參數(shù)訓(xùn)練結(jié)果的規(guī)則整理成SQL的where條件,部署到系統(tǒng)中定期更新為未知用戶的年齡預(yù)測(cè)結(jié)果。
一具體應(yīng)用例子,對(duì)于未知年齡的用戶A,假設(shè)滿足下述條件:用戶偏好藝人出生年齡>1995年and用戶偏好藝人出生年齡<1998年,則判定用戶A為學(xué)生期。
一實(shí)際應(yīng)用例子,決策樹模型有多種算法,但在系統(tǒng)固化中可以直接調(diào)用相關(guān)的算法包進(jìn)行訓(xùn)練,只要調(diào)整好相關(guān)參數(shù),滿足實(shí)際要求即可。
本發(fā)明實(shí)施例一通過采集基礎(chǔ)數(shù)據(jù)信息;抽取所述基礎(chǔ)數(shù)據(jù)信息屬性中的特征輸入變量和目標(biāo)變量,得到樣本數(shù)據(jù);將樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練,將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,測(cè)試滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果;將滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果輸出;將輸出的模型參數(shù)訓(xùn)練結(jié)果的規(guī)則定期更新為未知用戶的年齡預(yù)測(cè)結(jié)果,利用采集的基礎(chǔ)數(shù)據(jù)信息,構(gòu)建預(yù)測(cè)模型,預(yù)測(cè)用戶的年齡,精準(zhǔn)的構(gòu)建用戶畫像,為營(yíng)銷等場(chǎng)景打下堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),提高了年齡識(shí)別的準(zhǔn)確性。
實(shí)施例二
如圖2所示,本發(fā)明另一方面還提供了一種基于決策樹模型的年齡特征的預(yù)測(cè)系統(tǒng)200,包括:
采集模塊21,用于采集基礎(chǔ)數(shù)據(jù)信息。
抽取模塊22,用于抽取所述基礎(chǔ)數(shù)據(jù)信息屬性中的特征輸入變量和目標(biāo)變量,得到樣本數(shù)據(jù)。
建模模塊23,用于將樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練,將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,測(cè)試滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果。
輸出模塊24,用于將滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果輸出;將輸出的模型參數(shù)訓(xùn)練結(jié)果的規(guī)則定期更新為未知用戶的年齡預(yù)測(cè)結(jié)果。
進(jìn)一步的,如圖3所示,所述采集模塊21,包括但不限于:
采集單元211,用于采集注冊(cè)信息、訪問行為數(shù)據(jù)、下單行為數(shù)據(jù)和/或藝人的基礎(chǔ)數(shù)據(jù)。
進(jìn)一步的,如圖4所示,所述抽取模塊22,包括:
獲取單元221,用于獲取基礎(chǔ)數(shù)據(jù)信息中的所有屬性信息;
抽取單元222,用于抽取所述屬性信息中與年齡預(yù)測(cè)相關(guān)的至少一個(gè)輸入變量和至少一個(gè)目標(biāo)變量,并將所述至少一個(gè)輸入變量和所述至少一個(gè)目標(biāo)變量整理得到樣本數(shù)據(jù)。
進(jìn)一步的,如圖5所示,所述建模模塊23,包括:
訓(xùn)練單元231,用于將樣本數(shù)據(jù)分為用于建模的訓(xùn)練集和用于驗(yàn)證模型效果的測(cè)試集;將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練;
建模單元232,用于將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,測(cè)試滿足測(cè)試集準(zhǔn)確率在訓(xùn)練集準(zhǔn)確率的自定義中百分比以內(nèi)的穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果。
進(jìn)一步的,如圖6所示,訓(xùn)練單元231,包括:
訓(xùn)練子單元2311,用于將訓(xùn)練集的特征輸入變量輸入到?jīng)Q策樹模型中,決策樹模型基于信息增益率進(jìn)行變量選擇和分割點(diǎn)選擇,進(jìn)行模型參數(shù)訓(xùn)練。
進(jìn)一步的,如圖7所示,輸出模塊24,包括:
輸出單元241,用于將滿足測(cè)試集準(zhǔn)確率在訓(xùn)練集準(zhǔn)確率的自定義中百分比以內(nèi)的穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果輸出;
更新單元242,用于將輸出的模型參數(shù)訓(xùn)練結(jié)果的規(guī)則整理成SQL的where條件,部署到系統(tǒng)中定期更新為未知用戶的年齡預(yù)測(cè)結(jié)果。
本發(fā)明實(shí)施例二通過采集模塊采集基礎(chǔ)數(shù)據(jù)信息;通過抽取模塊抽取所述基礎(chǔ)數(shù)據(jù)信息屬性中的特征輸入變量和目標(biāo)變量,得到樣本數(shù)據(jù);通過建模模塊將樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練,將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,測(cè)試滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果;輸出模塊將滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果輸出;將輸出的模型參數(shù)訓(xùn)練結(jié)果的規(guī)則定期更新為未知用戶的年齡預(yù)測(cè)結(jié)果,利用采集的基礎(chǔ)數(shù)據(jù)信息,構(gòu)建預(yù)測(cè)模型,預(yù)測(cè)用戶的年齡,精準(zhǔn)的構(gòu)建用戶畫像,為營(yíng)銷等場(chǎng)景打下堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),提高了年齡識(shí)別的準(zhǔn)確性。
實(shí)施例三
如圖8所示,本發(fā)明另一方面還提供了一種基于決策樹模型的年齡特征的預(yù)測(cè)終端300,包括實(shí)施例二任一項(xiàng)所述的系統(tǒng)200。
本發(fā)明實(shí)施例三通過采集基礎(chǔ)數(shù)據(jù)信息;抽取所述基礎(chǔ)數(shù)據(jù)信息屬性中的特征輸入變量和目標(biāo)變量,得到樣本數(shù)據(jù);將樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集輸入到?jīng)Q策樹模型中進(jìn)行模型參數(shù)訓(xùn)練,將模型參數(shù)訓(xùn)練結(jié)果,應(yīng)用到測(cè)試集,測(cè)試滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果;將滿足自定義穩(wěn)定性條件的模型參數(shù)訓(xùn)練結(jié)果輸出;將輸出的模型參數(shù)訓(xùn)練結(jié)果的規(guī)則定期更新為未知用戶的年齡預(yù)測(cè)結(jié)果,利用采集的基礎(chǔ)數(shù)據(jù)信息,構(gòu)建預(yù)測(cè)模型,預(yù)測(cè)用戶的年齡,精準(zhǔn)的構(gòu)建用戶畫像,為營(yíng)銷等場(chǎng)景打下堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),提高了年齡識(shí)別的準(zhǔn)確性。
上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
需要說明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。
在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置,可通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
需要指出,根據(jù)實(shí)施的需要,可將本申請(qǐng)中描述的各個(gè)步驟/部件拆分為更多步驟/部件,也可將兩個(gè)或多個(gè)步驟/部件或者步驟/部件的部分操作組合成新的步驟/部件,以實(shí)現(xiàn)本發(fā)明的目的。
上述根據(jù)本發(fā)明的方法可在硬件、固件中實(shí)現(xiàn),或者被實(shí)現(xiàn)為可存儲(chǔ)在記錄介質(zhì)(諸如CD ROM、RAM、軟盤、硬盤或磁光盤)中的軟件或計(jì)算機(jī)代碼,或者被實(shí)現(xiàn)通過網(wǎng)絡(luò)下載的原始存儲(chǔ)在遠(yuǎn)程記錄介質(zhì)或非暫時(shí)機(jī)器可讀介質(zhì)中并將被存儲(chǔ)在本地記錄介質(zhì)中的計(jì)算機(jī)代碼,從而在此描述的方法可被存儲(chǔ)在使用通用計(jì)算機(jī)、專用處理器或者可編程或?qū)S糜布?諸如ASIC或FPGA)的記錄介質(zhì)上的這樣的軟件處理。可以理解,計(jì)算機(jī)、處理器、微處理器控制器或可編程硬件包括可存儲(chǔ)或接收軟件或計(jì)算機(jī)代碼的存儲(chǔ)組件(例如,RAM、ROM、閃存等),當(dāng)所述軟件或計(jì)算機(jī)代碼被計(jì)算機(jī)、處理器或硬件訪問且執(zhí)行時(shí),實(shí)現(xiàn)在此描述的處理方法。此外,當(dāng)通用計(jì)算機(jī)訪問用于實(shí)現(xiàn)在此示出的處理的代碼時(shí),代碼的執(zhí)行將通用計(jì)算機(jī)轉(zhuǎn)換為用于執(zhí)行在此示出的處理的專用計(jì)算機(jī)。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。