展示預(yù)測模型的方法、裝置及調(diào)整預(yù)測模型的方法、裝置的制造方法
【專利摘要】本發(fā)明公開了一種對預(yù)測模型進(jìn)行展示的方法、裝置及調(diào)整預(yù)測模型的方法、裝置。其中,獲取預(yù)測模型針對至少一個預(yù)測樣本得到的至少一個預(yù)測結(jié)果;基于至少一個預(yù)測樣本和至少一個預(yù)測結(jié)果來獲取用于訓(xùn)練決策樹模型的至少一個決策樹訓(xùn)練樣本,其中,決策樹模型用于擬合預(yù)測模型;使用至少一個決策樹訓(xùn)練樣本來訓(xùn)練決策樹模型;以及可視化地展示訓(xùn)練出的決策樹模型。本發(fā)明可以將難以理解的預(yù)測模型近似為決策樹模型,并對近似出的決策樹模型進(jìn)行展示,以使得用戶基于所展示的決策樹模型可以較好地理解預(yù)測模型。
【專利說明】
展示預(yù)測模型的方法、裝置及調(diào)整預(yù)測模型的方法、裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)科學(xué)領(lǐng)域,特別是涉及一種對預(yù)測模型進(jìn)行展示的方法、裝置及 調(diào)整預(yù)測模型的方法、裝置。
【背景技術(shù)】
[0002] 在傳統(tǒng)的數(shù)據(jù)挖掘方式中,往往利用統(tǒng)計的方法對歷史數(shù)據(jù)進(jìn)行回歸分析或因子 分析,進(jìn)而剖析歷史數(shù)據(jù)的成因,并利用得到的規(guī)律組建決策引擎。統(tǒng)計學(xué)習(xí)理論中,結(jié)構(gòu) 化風(fēng)險等于經(jīng)驗風(fēng)險與置信風(fēng)險的總和。其中,經(jīng)驗風(fēng)險是學(xué)習(xí)獲取的知識在給定的樣本 集上的誤差,而置信風(fēng)險是知識在未知樣本上的誤差。因此,傳統(tǒng)的統(tǒng)計方法僅僅做到了在 已知樣本上的風(fēng)險最小化,無法保證在未知樣本上置信風(fēng)險的抑制。也就是說,從統(tǒng)計學(xué)習(xí) 的角度來看,這種方式僅僅做到了統(tǒng)計,并未真正有效地從歷史數(shù)據(jù)中學(xué)習(xí)出知識。
[0003] 近年來,隨著大數(shù)據(jù)、云計算和人工智能等技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)被廣泛地用來從 海量數(shù)據(jù)挖掘出其中隱藏的有用信息。
[0004] 關(guān)于統(tǒng)計學(xué)習(xí)與機(jī)器學(xué)習(xí)的區(qū)別已經(jīng)有不少討論,很大程度上認(rèn)為機(jī)器學(xué)習(xí)側(cè)重 于目標(biāo)預(yù)測,而統(tǒng)計學(xué)習(xí)側(cè)重于模型的可解釋性。更加直觀的理解是,統(tǒng)計學(xué)習(xí)側(cè)重于從概 率分布來描述數(shù)據(jù)生成機(jī)制,除了預(yù)測之外,還關(guān)心結(jié)果(參數(shù)假設(shè)、誤差分布假設(shè))的檢 驗,而機(jī)器學(xué)習(xí)側(cè)重于從函數(shù)擬合角度來描述數(shù)據(jù)生成機(jī)制,基本目的就是為了擬合和預(yù) 測,缺乏嚴(yán)謹(jǐn)?shù)膮?shù)、誤差的檢驗機(jī)制。
[0005] -般說來,機(jī)器學(xué)習(xí)主要分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí) 是日常使用最多的建模范式,基于有監(jiān)督學(xué)習(xí)可得到很多具體的模型,比如回歸模型、分類 模型等。有監(jiān)督學(xué)習(xí)從給定的訓(xùn)練樣本集中學(xué)習(xí)出一個由函數(shù)和參數(shù)組成的模型,當(dāng)新的 數(shù)據(jù)樣本到來時,可以根據(jù)這個模型來給出相應(yīng)的預(yù)測結(jié)果。有監(jiān)督學(xué)習(xí)的訓(xùn)練樣本集要 求是包括輸入和輸出的,也可以說是特征變量和目標(biāo)輸出。其中,目標(biāo)是標(biāo)注好的樣本標(biāo) 記。無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)相比,訓(xùn)練集沒有標(biāo)注的目標(biāo)結(jié)果。常見的無監(jiān)督學(xué)習(xí)算法有 聚類。此外,有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)還可結(jié)合為半監(jiān)督學(xué)習(xí),即,訓(xùn)練樣本集之中的一部 分訓(xùn)練樣本帶有標(biāo)記,而其他訓(xùn)練樣本不含有標(biāo)記。
[0006] 如上所述,機(jī)器學(xué)習(xí)本身側(cè)重于預(yù)測而缺少對數(shù)據(jù)生成機(jī)制的可解釋性,相應(yīng)地, 訓(xùn)練出的機(jī)器學(xué)習(xí)模型可表示為不同參數(shù)和形式的函數(shù)集,而且,隨著不同行業(yè)數(shù)據(jù)規(guī)模 的持續(xù)上升,用于進(jìn)行訓(xùn)練的樣本特征維度(特別是在經(jīng)過離散化處理之后)正在高速增 長,這些都導(dǎo)致普通用戶難以理解機(jī)器學(xué)習(xí)模型的構(gòu)成,例如,無法了解各個特征在其中如 何交互、共同起到了什么樣的作用。
[0007] 舉例來說,深度學(xué)習(xí) (deep learning)作為機(jī)器學(xué)習(xí)的分支,其系統(tǒng)包括由輸入 層、隱層(多層)、輸出層組成的多層網(wǎng)絡(luò),只有相鄰層節(jié)點(或稱"神經(jīng)元",或"單元")之間 有連接,同一層以及跨層節(jié)點之間相互無連接,每一層的每一個神經(jīng)元節(jié)點可以看作是一 個邏輯回歸(logistic regression)模型,各分層結(jié)構(gòu)接近人類大腦的結(jié)構(gòu),但作為模型卻 難以理解。
[0008] 圖1示出深度學(xué)習(xí)模型及其神經(jīng)元的示例??梢钥闯觯瑘D1中的(a)所表示的深度學(xué) 習(xí)模型由大量的節(jié)點相互聯(lián)接構(gòu)成。每個節(jié)點代表一種特定的輸出函數(shù),稱為激活函數(shù) (activation function)。每兩個節(jié)點間的連接都代表一個對于通過該連接信號的加權(quán)值, 稱之為權(quán)重(weight),這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式,權(quán) 重值和激活函數(shù)的不同而不同。而網(wǎng)絡(luò)自身通常都是對自然界某種算法或者函數(shù)的逼近, 也可能是對一種邏輯策略的表達(dá)。
[0009] 圖1中的(b)示出單個神經(jīng)元的示例,其中:
[0010] ? al~an為輸入向量的各個分量;
[0011] ? wl~wn為神經(jīng)元各個突觸的權(quán)值;
[0012] .b為偏置;
[0013] ? f為傳遞函數(shù),通常為非線性函數(shù)。一般有sigmoid()、traingd()、tansig()、 hardlim();
[0014] ? t為神經(jīng)元輸出,數(shù)學(xué)表示f :
[0015] ? |眷為權(quán)向量;
[0016] ? j為輸入向量,|為^|的轉(zhuǎn)置;
[0017] .b為偏置;
[0018] .f為傳遞函數(shù)。
[0019] 可見,一個神經(jīng)元的功能是求得輸入向量與權(quán)向量的內(nèi)積后,經(jīng)一個非線性傳遞 函數(shù)得到一個標(biāo)量結(jié)果。也就是說,單個神經(jīng)元的作用在于把一個n(n為正整數(shù))維向量空 間用一個超平面分割成兩部分(稱之為判斷邊界),給定一個輸入向量,神經(jīng)元可以判斷出 這個向量位于超平面的哪一邊。所述超平面的方程為_+5 =1其中,#為超平面上的 向量。
[0020] 以上僅僅是深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法的示例,實際上,即便是機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域 的技術(shù)人員也難以從機(jī)器學(xué)習(xí)模型的數(shù)學(xué)表達(dá)直觀地理解到機(jī)器學(xué)習(xí)模型如何解答問題。 也就是說,較之傳統(tǒng)數(shù)據(jù)挖掘模型可以利用統(tǒng)計的方法進(jìn)行模型釋義與分解,目前難以對 機(jī)器學(xué)習(xí)模型進(jìn)行有效的解釋與分析,從而導(dǎo)致其無法更好地被用戶(例如,業(yè)務(wù)專家、業(yè) 務(wù)執(zhí)行人員等)所解讀和理解。比如,由于關(guān)于疾病診斷的機(jī)器學(xué)習(xí)模型本身難以理解,會 導(dǎo)致人們質(zhì)疑診斷的可靠性而難以推廣。
[0021] 現(xiàn)實中,不僅僅是單純的機(jī)器學(xué)習(xí)模型存在上述缺陷,隨著機(jī)器學(xué)習(xí)與統(tǒng)計學(xué)習(xí) 之間的融合,很多其他類型的模型(如專家系統(tǒng)等基于諸多規(guī)則或因素以得到問題解答的 模型)也存在難以解釋的問題。人們對模型欠缺理解會阻礙模型的實際應(yīng)用,例如,用戶難 以很好地理解模型,導(dǎo)致很難有效地利用模型來解決業(yè)務(wù)問題。
【發(fā)明內(nèi)容】
[0022] 本發(fā)明的目的主要在于,提供一種對預(yù)測模型進(jìn)行展示的方法、裝置及調(diào)整預(yù)測 模型的方法、裝置,其可以將難以理解的模型近似為決策樹模型,并對近似出的決策樹模型 進(jìn)行展示,以使得用戶基于所展示的決策樹模型可以較好地理解模型。
[0023] 為了實現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案如下。
[0024] 第一方面,本發(fā)明實施例提供了一種對預(yù)測模型進(jìn)行展示的方法,包括:獲取預(yù)測 模型針對至少一個預(yù)測樣本得到的至少一個預(yù)測結(jié)果;基于至少一個預(yù)測樣本和至少一個 預(yù)測結(jié)果來獲取用于訓(xùn)練決策樹模型的至少一個決策樹訓(xùn)練樣本,其中,決策樹模型用于 擬合預(yù)測模型;使用至少一個決策樹訓(xùn)練樣本來訓(xùn)練決策樹模型;以及可視化地展示訓(xùn)練 出的決策樹模型。
[0025]結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第一種可能的實施方式,其中,在 基于至少一個預(yù)測樣本和至少一個預(yù)測結(jié)果來獲取用于訓(xùn)練決策樹模型的至少一個決策 樹訓(xùn)練樣本的步驟中,可以將預(yù)測樣本的至少一部分特征作為決策樹訓(xùn)練樣本的特征,并 基于相應(yīng)得到的預(yù)測結(jié)果來獲取決策樹訓(xùn)練樣本的標(biāo)記;或者在基于至少一個預(yù)測樣本和 至少一個預(yù)測結(jié)果來獲取用于訓(xùn)練決策樹模型的至少一個決策樹訓(xùn)練樣本的步驟中,可以 對預(yù)測樣本的至少一部分特征進(jìn)行變換,將變換后的至少一部分特征作為決策樹訓(xùn)練樣本 的特征,并基于相應(yīng)得到的預(yù)測結(jié)果來獲取決策樹訓(xùn)練樣本的標(biāo)記。
[0026] 結(jié)合第一方面的第一種可能的實施方式,本發(fā)明實施例還提供了第一方面的第二 種可能的實施方式,其中,預(yù)測樣本的至少一部分特征可以包括預(yù)測樣本的特征之中起主 要預(yù)測作用的特征和/或易于用戶理解的特征。
[0027] 結(jié)合第一方面的第一種可能的實施方式,本發(fā)明實施例還提供了第一方面的第三 種可能的實施方式,其中,可以鑒于決策樹模型的預(yù)計規(guī)模和/或決策樹模型的節(jié)點解釋 性,對預(yù)測樣本的至少一部分特征進(jìn)行變換。
[0028] 結(jié)合第一方面的第三種可能的實施方式,本發(fā)明實施例還提供了第一方面的第四 種可能的實施方式,其中,對預(yù)測樣本的至少一部分特征進(jìn)行變換的步驟可以包括:將預(yù)測 樣本的至少一部分特征之中的至少一個特征子集分別變換為相應(yīng)的至少一個變換特征子 集。
[0029] 結(jié)合第一方面的第四種可能的實施方式,本發(fā)明實施例還提供了第一方面的第五 種可能的實施方式,其中,變換特征子集的特征數(shù)量可以少于或等于變換前的相應(yīng)特征子 集的特征數(shù)量。
[0030] 結(jié)合第一方面的第四種可能的實施方式,本發(fā)明實施例還提供了第一方面的第六 種可能的實施方式,其中,變換前的特征子集指示預(yù)測樣本的屬性信息,相應(yīng)的變換特征子 集指示屬性信息的統(tǒng)計信息或權(quán)重信息。
[0031] 結(jié)合第一方面的第一種可能的實施方式,本發(fā)明實施例還提供了第一方面的第七 種可能的實施方式,其中,對預(yù)測樣本的至少一部分特征進(jìn)行變換的步驟可以包括:將預(yù)測 樣本的至少一部分特征之中的至少一個離散化特征子集變換為相應(yīng)的至少一個連續(xù)特征。
[0032] 結(jié)合第一方面的第七種可能的實施方式,本發(fā)明實施例還提供了第一方面的第八 種可能的實施方式,其中,離散化特征子集可以指示預(yù)測樣本的屬性信息,相應(yīng)的連續(xù)特征 可以指示屬性信息關(guān)于預(yù)測模型的預(yù)測目標(biāo)的統(tǒng)計信息;或者,相應(yīng)的連續(xù)特征可以指示 屬性信息關(guān)于預(yù)測模型的預(yù)測目標(biāo)的預(yù)測權(quán)重。
[0033] 結(jié)合第一方面,本發(fā)明實施例還提供了第一方面的第九種可能的實施方式,其中, 在獲取預(yù)測模型針對至少一個預(yù)測樣本得到的至少一個預(yù)測結(jié)果的步驟之前,方法還可以 包括:基于訓(xùn)練出預(yù)測模型的至少一個預(yù)測模型訓(xùn)練樣本來得到至少一個預(yù)測樣本,并將 至少一個預(yù)測樣本輸入預(yù)測模型。
[0034] 結(jié)合第一方面,本發(fā)明實施例還提供了第一方面的第十種可能的實施方式,其中, 在使用至少一個決策樹訓(xùn)練樣本來訓(xùn)練決策樹模型的步驟中,可以在預(yù)設(shè)的關(guān)于決策樹模 型的預(yù)計規(guī)模的正則化項下進(jìn)行決策樹模型的訓(xùn)練。
[0035] 結(jié)合第一方面的第十種可能的實施方式,本發(fā)明實施例還提供了第一方面的第十 一種可能的實施方式,其中,正則化項用于限制決策樹模型的節(jié)點數(shù)量、層數(shù)和/或節(jié)點樣 本最小閾值。
[0036] 結(jié)合第一方面,本發(fā)明實施例還提供了第一方面的第十二種可能的實施方式,其 中,可視化地展示訓(xùn)練出的決策樹模型的步驟可以包括:通過剪枝處理來可視化地展示訓(xùn) 練出的決策樹模型,其中,在剪枝處理中剪掉的節(jié)點不被展示或被隱藏展示。
[0037] 第二方面,本發(fā)明實施例提供了一種調(diào)整預(yù)測模型的方法,該方法包括:使用上文 第一方面或者結(jié)合上文第一方面的各個可能的實施方式所述及的方法對預(yù)測模型進(jìn)行展 示;響應(yīng)于用戶針對所展示的決策樹模型執(zhí)行的輸入操作,調(diào)整訓(xùn)練出預(yù)測模型的至少一 個預(yù)測模型訓(xùn)練樣本;以及使用調(diào)整后的至少一個預(yù)測模型訓(xùn)練樣本來重新訓(xùn)練預(yù)測模 型。
[0038] 第三方面,本發(fā)明實施例提供了一種對預(yù)測模型進(jìn)行展示的裝置,包括:預(yù)測結(jié)果 獲取模塊,用于獲取預(yù)測模型針對至少一個預(yù)測樣本得到的至少一個預(yù)測結(jié)果;決策樹訓(xùn) 練樣本獲取模塊,用于基于至少一個預(yù)測樣本和至少一個預(yù)測結(jié)果來獲取用于訓(xùn)練決策樹 模型的至少一個決策樹訓(xùn)練樣本,其中,決策樹模型用于擬合預(yù)測模型;決策樹模型訓(xùn)練模 塊,用于使用至少一個決策樹訓(xùn)練樣本來訓(xùn)練決策樹模型;以及展示模塊,用于可視化地展 示訓(xùn)練出的決策樹模型。
[0039]結(jié)合第三方面,本發(fā)明實施例還提供了第三方面的第一種可能的實施方式,其中 決策樹訓(xùn)練樣本獲取模塊可以將預(yù)測樣本的至少一部分特征作為決策樹訓(xùn)練樣本的特征, 并基于相應(yīng)得到的預(yù)測結(jié)果來獲取決策樹訓(xùn)練樣本的標(biāo)記;或者決策樹訓(xùn)練樣本獲取模塊 可以對預(yù)測樣本的至少一部分特征進(jìn)行變換,將變換后的至少一部分特征作為決策樹訓(xùn)練 樣本的特征,并基于相應(yīng)得到的預(yù)測結(jié)果來獲取決策樹訓(xùn)練樣本的標(biāo)記。
[0040] 結(jié)合第三方面的第一種可能的實施方式,本發(fā)明實施例還提供了第三方面的第二 種可能的實施方式,其中,預(yù)測樣本的至少一部分特征可以包括預(yù)測樣本的特征之中起主 要預(yù)測作用的特征和/或易于用戶理解的特征。
[0041] 結(jié)合第三方面的第一種可能的實施方式,本發(fā)明實施例還提供了第三方面的第三 種可能的實施方式,其中,決策樹訓(xùn)練樣本獲取模塊可以鑒于決策樹模型的預(yù)計規(guī)模和/或 決策樹模型的節(jié)點解釋性,對預(yù)測樣本的至少一部分特征進(jìn)行變換。
[0042] 結(jié)合第三方面的第三種可能的實施方式,本發(fā)明實施例還提供了第三方面的第四 種可能的實施方式,其中,決策樹訓(xùn)練樣本獲取模塊將預(yù)測樣本的至少一部分特征之中的 至少一個特征子集分別變換為相應(yīng)的至少一個變換特征子集。
[0043] 結(jié)合第三方面的第四種可能的實施方式,本發(fā)明實施例還提供了第三方面的第五 種可能的實施方式,其中,變換特征子集的特征數(shù)量可以少于或等于變換前的相應(yīng)特征子 集的特征數(shù)量。
[0044]結(jié)合第三方面的第四種可能的實施方式,本發(fā)明實施例還提供了第三方面的第六 種可能的實施方式,其中,變換前的特征子集可以指示預(yù)測樣本的屬性信息,相應(yīng)的變換特 征子集可以指示屬性信息的統(tǒng)計信息或權(quán)重信息。
[0045]結(jié)合第三方面的第一種可能的實施方式,本發(fā)明實施例還提供了第三方面的第七 種可能的實施方式,其中,決策樹訓(xùn)練樣本獲取模塊可以將預(yù)測樣本的至少一部分特征之 中的至少一個離散化特征子集變換為相應(yīng)的至少一個連續(xù)特征。
[0046]結(jié)合第三方面的第七種可能的實施方式,本發(fā)明實施例還提供了第三方面的第八 種可能的實施方式,其中,離散化特征子集可以指示預(yù)測樣本的屬性信息,相應(yīng)的連續(xù)特征 可以指示屬性信息關(guān)于預(yù)測模型的預(yù)測目標(biāo)的統(tǒng)計信息;或者,相應(yīng)的連續(xù)特征可以指示 屬性信息關(guān)于預(yù)測模型的預(yù)測目標(biāo)的預(yù)測權(quán)重。
[0047]結(jié)合第三方面,本發(fā)明實施例還提供了第三方面的第九種可能的實施方式,其中, 預(yù)測結(jié)果獲取模塊還可以基于訓(xùn)練出預(yù)測模型的至少一個預(yù)測模型訓(xùn)練樣本來得到至少 一個預(yù)測樣本,并將至少一個預(yù)測樣本輸入預(yù)測模型,以得到至少一個預(yù)測結(jié)果。
[0048]結(jié)合第三方面,本發(fā)明實施例還提供了第三方面的第十種可能的實施方式,其中, 決策樹模型訓(xùn)練模塊可以在預(yù)設(shè)的關(guān)于決策樹模型的預(yù)計規(guī)模的正則化項下進(jìn)行決策樹 模型的訓(xùn)練。
[0049]結(jié)合第三方面,本發(fā)明實施例還提供了第三方面的第十一種可能的實施方式,其 中,正則化項用于限制決策樹模型的節(jié)點數(shù)量、層數(shù)和/或節(jié)點樣本最小閾值。
[0050] 結(jié)合第三方面,本發(fā)明實施例還提供了第三方面的第十二種可能的實施方式,其 中,展示模塊通過剪枝處理來可視化地展示訓(xùn)練出的決策樹模型,在剪枝處理中剪掉的節(jié) 點不被展示或被隱藏展示。
[0051] 第四方面,本發(fā)明實施例還提供了一種調(diào)整預(yù)測模型的裝置,該裝置包括:上文第 三方面或者結(jié)合上文第三方面的各個可能的實施方式及的裝置,用于對預(yù)測模型進(jìn)行展 示;預(yù)測模型訓(xùn)練樣本調(diào)整模塊,用于響應(yīng)于用戶針對所展示的決策樹模型執(zhí)行的輸入操 作,調(diào)整訓(xùn)練出預(yù)測模型的至少一個預(yù)測模型訓(xùn)練樣本;以及預(yù)測模型訓(xùn)練模塊,用于使用 調(diào)整后的至少一個預(yù)測模型訓(xùn)練樣本來重新訓(xùn)練預(yù)測模型。
[0052]第五方面,本發(fā)明實施例還提供了一種對預(yù)測模型進(jìn)行展示的計算裝置,包括存 儲部件和處理器,存儲部件中存儲有計算機(jī)可執(zhí)行指令集合,當(dāng)所述計算機(jī)可執(zhí)行指令集 合被所述處理器執(zhí)行時,執(zhí)行下述步驟:獲取預(yù)測模型針對至少一個預(yù)測樣本得到的至少 一個預(yù)測結(jié)果;基于所述至少一個預(yù)測樣本和所述至少一個預(yù)測結(jié)果來獲取用于訓(xùn)練決策 樹模型的至少一個決策樹訓(xùn)練樣本,其中,所述決策樹模型用于擬合所述預(yù)測模型;使用所 述至少一個決策樹訓(xùn)練樣本來訓(xùn)練決策樹模型;以及可視化地展示訓(xùn)練出的決策樹模型。 [0053]第六方面,本發(fā)明實施例還提供了一種調(diào)整預(yù)測模型的計算裝置,包括存儲部件 和處理器,存儲部件中存儲有計算機(jī)可執(zhí)行指令集合,當(dāng)所述計算機(jī)可執(zhí)行指令集合被所 述處理器執(zhí)行時,執(zhí)行下述步驟:獲取預(yù)測模型針對至少一個預(yù)測樣本得到的至少一個預(yù) 測結(jié)果;基于所述至少一個預(yù)測樣本和所述至少一個預(yù)測結(jié)果來獲取用于訓(xùn)練決策樹模型 的至少一個決策樹訓(xùn)練樣本,其中,所述決策樹模型用于擬合所述預(yù)測模型;使用所述至少 一個決策樹訓(xùn)練樣本來訓(xùn)練決策樹模型;可視化地展示訓(xùn)練出的決策樹模型;響應(yīng)于用戶 針對所展示的決策樹模型執(zhí)行的輸入操作,調(diào)整訓(xùn)練出所述預(yù)測模型的至少一個預(yù)測模型 訓(xùn)練樣本;以及使用調(diào)整后的至少一個預(yù)測模型訓(xùn)練樣本來重新訓(xùn)練所述預(yù)測模型。
[0054] 綜上,本發(fā)明可以通過使用決策樹模型來擬合原本難以理解的預(yù)測模型,并對決 策樹模型進(jìn)行展示,使得用戶可以通過展示的決策樹模型來較好地理解原預(yù)測模型的預(yù)測 機(jī)制,從而在實際業(yè)務(wù)中更好地應(yīng)用所述預(yù)測模型。
【附圖說明】
[0055] 通過結(jié)合附圖對本公開示例性實施方式進(jìn)行更詳細(xì)的描述,本公開的上述以及其 他目的、特征和優(yōu)勢將變得更加明顯,其中,在本公開示例性實施方式中,相同的參考標(biāo)號 通常代表相同部件。
[0056] 圖1示出了深度學(xué)習(xí)模型及其神經(jīng)元的示例。
[0057] 圖2示出了本發(fā)明一實施例的對預(yù)測模型進(jìn)行展示的方法的示意性流程圖。
[0058] 圖3示出了本發(fā)明一實施例的對預(yù)測模型進(jìn)行展示的裝置的結(jié)構(gòu)的示意性方框 圖。
[0059] 圖4示出了本發(fā)明一實施例的展示的決策樹模型的示例。
[0060] 圖5示出了本發(fā)明一實施例的調(diào)整預(yù)測模型的方法的示意性流程圖。
[0061 ]圖6示出了本發(fā)明一實施例的調(diào)整預(yù)測模型的裝置的結(jié)構(gòu)的示意性方框圖。
【具體實施方式】
[0062]如前所述,針對【背景技術(shù)】中提到的現(xiàn)有通過多種方式(如機(jī)器學(xué)習(xí)、專家系統(tǒng)、機(jī) 器學(xué)習(xí)與統(tǒng)計學(xué)習(xí)的結(jié)合等)得到的模型難以解釋或理解的缺陷,本發(fā)明提供一種可以對 這些難以解釋或理解的模型進(jìn)行可視化展示的方案。
[0063]具體地說,本發(fā)明可以將難以理解的模型(例如,經(jīng)由機(jī)器學(xué)習(xí)訓(xùn)練出的模型,諸 如線性回歸(LR)模型、深度神經(jīng)網(wǎng)絡(luò)(DNN)模型、因子分解機(jī)(FM)模型、虛擬向量機(jī)(SVM)模 型)近似為決策樹模型,并對近似出的決策樹模型進(jìn)行展示,以使得用戶基于所展示的決策 樹模型可以更好地理解模型。以機(jī)器學(xué)習(xí)領(lǐng)域作為示例,在諸如建模平臺、業(yè)務(wù)決策軟件或 其他需要向用戶解釋模型預(yù)測機(jī)制的系統(tǒng)下,本發(fā)明可以將機(jī)器學(xué)習(xí)得到的模型近似為決 策樹模型,并將近似出的決策樹模型展示給用戶(例如,通過圖形化或圖表化的形式來進(jìn)行 展示),從而幫助用戶很好地理解原來難以理解的機(jī)器學(xué)習(xí)模型。
[0064] 下面將參照附圖更詳細(xì)地描述本公開的優(yōu)選實施方式。雖然附圖中顯示了本公開 的優(yōu)選實施方式,然而應(yīng)該理解,可以以各種形式實現(xiàn)本公開,而不應(yīng)被這里闡述的實施方 式所限制。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的 范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0065] 圖2示出了本發(fā)明一實施例提供的對預(yù)測模型進(jìn)行展示的方法的示意性流程圖。 其中,圖2中示出的各個流程步驟可以在客戶端或服務(wù)器上單獨(dú)執(zhí)行,也可由客戶端和服務(wù) 器兩者來協(xié)同執(zhí)行。此外,圖2所示的方法可由硬件裝置(例如,處理器或計算機(jī))來執(zhí)行,也 可完全依靠計算機(jī)程序來以軟件方式執(zhí)行,還可以通過軟硬件結(jié)合的方式來執(zhí)行。
[0066] 作為示例,圖3示出了一種實現(xiàn)圖2所示方法中各個流程步驟的裝置的示意性方框 圖。相應(yīng)地,該裝置中的各個模塊可被配置為通用或?qū)S玫挠布骷ɡ?,專用處理器?通用計算裝置)、計算機(jī)程序代碼、固件或它們的任意結(jié)合。
[0067] 下面結(jié)合圖2、圖3對本發(fā)明的方案做以詳細(xì)說明。
[0068] 參見圖2、圖3,在步驟S110,例如可以由預(yù)測結(jié)果獲取模塊210,獲取預(yù)測模型針對 至少一個預(yù)測樣本得到的至少一個預(yù)測結(jié)果。
[0069] 如前文所述,本發(fā)明在于對難以理解的模型進(jìn)行解釋,因此,這里所說的預(yù)測模型 可指用戶難以理解的待解釋模型,并且其可以是通過多種方式得到的模型。例如,可以是經(jīng) 機(jī)器學(xué)習(xí)訓(xùn)練得到的模型,也可以是經(jīng)統(tǒng)計學(xué)習(xí)得到的模型,也可以是專家系統(tǒng)等基于諸 多規(guī)則或因素以得到問題解答的模型,還可以是通過將上述各種手段進(jìn)行融合而得到的模 型。
[0070] 對于難以理解的預(yù)測模型,本發(fā)明可以將其擬合為便于展示的決策樹模型,以方 便用戶理解預(yù)測模型。為此,需要獲取用于訓(xùn)練出決策樹模型的決策樹訓(xùn)練樣本。
[0071] 具體說來,為了訓(xùn)練出決策樹模型,需要獲取由至少一個決策樹訓(xùn)練樣本構(gòu)成的 決策樹訓(xùn)練集。如本領(lǐng)域技術(shù)人員所知,訓(xùn)練樣本可表征為一個或多個反映事件或?qū)ο笤?某方面的表現(xiàn)或性質(zhì)的事項(即,特征),相應(yīng)地,每條訓(xùn)練樣本可對應(yīng)于N(其中,N為正整 數(shù))維特征空間中的一個特征向量,此外,在監(jiān)督學(xué)習(xí)的情況下,每條訓(xùn)練樣本還具有相應(yīng) 的標(biāo)記(label ),該標(biāo)記對應(yīng)于針對預(yù)測目標(biāo)的已知結(jié)果。
[0072] 對本發(fā)明而言,可以基于待解釋的預(yù)測模型的輸入特征和輸出結(jié)果來得到?jīng)Q策樹 模型訓(xùn)練用的訓(xùn)練樣本。
[0073] 具體來說,例如可以由預(yù)測結(jié)果獲取模塊210將預(yù)測樣本輸入預(yù)測模型以得到與 該預(yù)測樣本對應(yīng)的預(yù)測結(jié)果。這里,預(yù)測模型作為待解釋的模型,能夠針對預(yù)測樣本給出相 應(yīng)的預(yù)測結(jié)果。其中,每個預(yù)測樣本可對應(yīng)于其所在的特征空間中的某個特征向量,預(yù)測模 型針對該特征向量,可預(yù)測出關(guān)于預(yù)測目標(biāo)的預(yù)測結(jié)果,這里,預(yù)測結(jié)果可以是分類結(jié)果 (預(yù)測結(jié)果為離散值)、回歸結(jié)果(預(yù)測結(jié)果為連續(xù)值)等各種針對預(yù)測目標(biāo)的預(yù)測值。
[0074] 應(yīng)注意,在步驟S110,可獲取預(yù)測模型針對任意輸入該預(yù)測模型的預(yù)測樣本所得 到的對應(yīng)預(yù)測結(jié)果。作為示例,這些預(yù)測樣本可來自于預(yù)先存儲或在線獲取的數(shù)據(jù)記錄,例 如,針對數(shù)據(jù)記錄進(jìn)行數(shù)據(jù)拼接、特征工程等處理之后即可得到相應(yīng)的預(yù)測樣本。
[0075] 此外,作為可選方式,在步驟S110之前,預(yù)測結(jié)果獲取模塊210還可基于訓(xùn)練出預(yù) 測模型的至少一個訓(xùn)練樣本來得到所述至少一個預(yù)測樣本,并將所述至少一個預(yù)測樣本輸 入所述預(yù)測模型。
[0076] 具體說來,用于訓(xùn)練出預(yù)測模型的訓(xùn)練樣本可存儲在數(shù)據(jù)庫或數(shù)據(jù)倉庫中,相應(yīng) 地,預(yù)測結(jié)果獲取模塊210可從存儲的訓(xùn)練樣本中提取特征部分,即,從訓(xùn)練樣本中去除標(biāo) 記部分,從而得到將輸入預(yù)測模型的預(yù)測樣本。相應(yīng)地,預(yù)測模型針對這樣的預(yù)測樣本得出 相應(yīng)的預(yù)測結(jié)果以用于產(chǎn)生決策樹訓(xùn)練樣本的標(biāo)記,也就是說,針對原訓(xùn)練樣本中的特征 部分進(jìn)行重新標(biāo)記。
[0077] 通過這種方式,可以將訓(xùn)練預(yù)測模型時用到的訓(xùn)練樣本直接轉(zhuǎn)化為輸入預(yù)測模型 的預(yù)測樣本,以得到?jīng)Q策樹訓(xùn)練樣本,而不需要再使用額外的預(yù)測樣本。此外,在獲取能夠 擬合預(yù)測模型的決策樹模型的同時,還可進(jìn)一步提高決策樹模型的泛化性能。
[0078] 在步驟S110中獲取了與至少一個預(yù)測樣本分別對應(yīng)的至少一個預(yù)測結(jié)果之后,就 可以執(zhí)行步驟S120,例如可以由決策樹訓(xùn)練樣本獲取模塊220,基于所述至少一個預(yù)測樣本 和所述至少一個預(yù)測結(jié)果來獲取用于訓(xùn)練決策樹模型的至少一個決策樹訓(xùn)練樣本,其中, 所述決策樹模型用于擬合所述預(yù)測模型。
[0079] 這里,決策樹訓(xùn)練樣本獲取模塊220可基于輸入預(yù)測模型的預(yù)測樣本的特征來得 到?jīng)Q策樹訓(xùn)練樣本的特征,并基于預(yù)測模型輸出的相應(yīng)預(yù)測結(jié)果來得到所述決策樹訓(xùn)練樣 本的標(biāo)記。
[0080] 具體說來,決策樹訓(xùn)練樣本獲取模塊220可基于預(yù)測樣本的部分或全部特征來得 到?jīng)Q策樹訓(xùn)練樣本的特征。也就是說,決策樹訓(xùn)練樣本獲取模塊220可通過對預(yù)測樣本的特 征進(jìn)行篩選和/或進(jìn)一步處理而得到?jīng)Q策樹訓(xùn)練樣本的特征。
[0081] 此外,決策樹訓(xùn)練樣本獲取模塊220可將預(yù)測模型輸出的預(yù)測結(jié)果直接作為相應(yīng) 決策樹訓(xùn)練樣本的標(biāo)記,或者,對所述預(yù)測結(jié)果進(jìn)行處理(例如,二值化、離散化等處理)并 將處理后的結(jié)果作為相應(yīng)決策樹訓(xùn)練樣本的標(biāo)記。
[0082] 作為示例,在步驟S120,決策樹訓(xùn)練樣本獲取模塊220可所述預(yù)測樣本的至少一部 分特征作為所述決策樹訓(xùn)練樣本的特征,并基于相應(yīng)得到的預(yù)測結(jié)果來獲取所述決策樹訓(xùn) 練樣本的標(biāo)記。
[0083] 這里,所述至少一部分特征可包括所述預(yù)測樣本的特征之中起主要預(yù)測作用的特 征和/或易于用戶理解的特征。具體說來,可利用各種方式從預(yù)測樣本的特征中篩選出起主 要預(yù)測作用的特征和/或易于用戶理解的特征。例如,可通過預(yù)測模型的數(shù)學(xué)表達(dá)式來確定 起主要預(yù)測作用的特征,比如,在線性預(yù)測模型中權(quán)重較大的特征。舉例來說,假設(shè)預(yù)測模 型是關(guān)于用戶是否會購買某保健商品,該預(yù)測模型的特征包括用戶年齡、性別、收入、地區(qū)、 受教育情況、職業(yè)、身高、婚姻狀況、健康狀況等。其中,從預(yù)測模型的特征權(quán)重可以看出,用 戶年齡、性別、收入、地區(qū)、受教育情況、職業(yè)、健康狀況可被認(rèn)為是起主要預(yù)測作用的特征。 而"身高"和"婚姻狀況"這兩個特征對"用戶是否購買商品"不起主要預(yù)測作用。因此,在選 取決策樹訓(xùn)練樣本的特征時就可以將"身高"和"婚姻狀況"這兩個特征忽略。又例如,可選 取含義上與預(yù)測目標(biāo)關(guān)聯(lián)性較強(qiáng)的特征作為易于用戶理解的特征。上述針對預(yù)測作用和可 理解性的這兩種篩選方式可結(jié)合使用,可以看出,由于篩選后的特征數(shù)量變少,使得決策樹 模型的規(guī)模得以控制,此外,由于篩選出的特征可以是用戶容易理解的特征,因此,會增強(qiáng) 決策樹模型的可理解性。
[0084]或者,作為另一示例,在步驟S120,決策樹訓(xùn)練樣本獲取模塊220還可針對所述預(yù) 測樣本的至少一部分特征所在的特征空間進(jìn)行變換,以在變換后的特征空間中獲得適合的 決策樹訓(xùn)練樣本。通過這種方式,可使得獲得的決策樹訓(xùn)練樣本能夠生長出易于進(jìn)行可視 化展示的決策樹模型,即,適應(yīng)于在顯示裝置上輸出的決策樹模型,從而進(jìn)一步改進(jìn)了決策 樹模型的顯示效果。具體說來,決策樹訓(xùn)練樣本獲取模塊220可對所述預(yù)測樣本的至少一部 分特征進(jìn)行變換,將變換后的所述至少一部分特征作為所述決策樹訓(xùn)練樣本的特征,并基 于相應(yīng)得到的預(yù)測結(jié)果來獲取所述決策樹訓(xùn)練樣本的標(biāo)記。同樣地,所述至少一部分特征 可包括所述預(yù)測樣本的特征之中起主要預(yù)測作用的特征和/或易于用戶理解的特征。
[0085] 這里,決策樹訓(xùn)練樣本獲取模塊220可鑒于所述決策樹模型的預(yù)計規(guī)模和/或所述 決策樹模型的節(jié)點解釋性,對所述預(yù)測樣本的所述至少一部分特征進(jìn)行變換。
[0086] 具體說來,決策樹訓(xùn)練樣本獲取模塊220可針對待解釋的預(yù)測模型的至少一部分 輸入特征(也就是預(yù)測樣本的至少一部分特征)所在的特征空間進(jìn)行變換,這里的特征空間 變換可指示特征數(shù)量的變換,也可以指示特征內(nèi)容的變換,還可以同時包括上述兩個方面 的變換。此外,可對特征空間整體進(jìn)行變換,也可對特征空間中的任意一個或多個特征子空 間進(jìn)行變換。
[0087] 通過特征空間變換,可以有助于控制決策樹模型的節(jié)點數(shù)量(即,決策樹模型的顯 示規(guī)模),或者,也可以有助于理解決策樹模型的節(jié)點含義。
[0088] 本領(lǐng)域技術(shù)人員應(yīng)清楚,樣本源于相應(yīng)的已知數(shù)據(jù)記錄或待預(yù)測數(shù)據(jù)記錄,其中, 每條記錄是關(guān)于一個事件或?qū)ο蟮拿枋觯从呈录驅(qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項則 可稱為特征,由此可見,特征空間可包括N(其中,N為正整數(shù))個維度,相應(yīng)地,所述N個維度 中的一部分特征維度可構(gòu)成特征子空間,這里的所述一部分特征維度可對應(yīng)于事件或?qū)ο?在某些相似或相關(guān)方面的表現(xiàn)或性質(zhì),也可以對應(yīng)于某連續(xù)值特征在離散化后得到的多個 維度,還可以是任意抽取的一部分特征維度。
[0089] 相應(yīng)地,在進(jìn)行特征變換時,決策樹訓(xùn)練樣本獲取模塊220可以將所述預(yù)測樣本的 至少一部分特征之中的至少一個特征子集分別變換為相應(yīng)的至少一個變換特征子集。這 里,每個特征子集可對應(yīng)于所述預(yù)測樣本的至少一部分特征所在的特征空間之中的一個特 征子空間,而變換特征子集可對應(yīng)于變換后的特征子空間中的特征向量。
[0090] 作為示例,變換特征子集的特征數(shù)量可以少于變換前的相應(yīng)特征子集的特征數(shù) 量,也就是說,通過進(jìn)行降維處理,可以控制決策樹模型的規(guī)模,從而便于對決策樹模型進(jìn) 行可視化地展示。除此之外,變換特征子集的特征數(shù)量也可以等于變換前的相應(yīng)特征子集 的特征數(shù)量。
[0091] 作為降維處理的一種示例,決策樹訓(xùn)練樣本獲取模塊220可將所述預(yù)測樣本的所 述至少一部分特征之中的至少一個離散化特征子集變換為相應(yīng)的至少一個連續(xù)特征。
[0092] 這里的離散化特征子集可指的是對某連續(xù)取值的特征(或其采樣值特征)進(jìn)行離 散化,從而產(chǎn)生的高維度離散特征空間。例如,假設(shè)待解釋的預(yù)測模型用于預(yù)測顧客是否會 購物,這里,所述預(yù)測模型的輸入特征可包括關(guān)于顧客、賣家和商品等的各種屬性信息。關(guān) 于顧客年齡,可將連續(xù)取值的年齡表示為由4個特征組成的特征子集以142 43 44],其中, 當(dāng)顧客年齡在〇到19歲之間時,Al = 1,而其他特征(A2、A3、A4)取值為0;當(dāng)顧客年齡在20到 39歲之間時,A2=l,而其他特征(A1、A3、A4)取值為0;當(dāng)顧客年齡在40到59歲之間時,A3 = 1,而其他特征(Al、A2、A4)取值為0;當(dāng)顧客年齡在60歲以上時,A4 = 1,而其他特征(Al、A2、 A3)取值為0。
[0093] 此外,這里的離散化特征子集也可以指示本身取值即為離散值(而非連續(xù)值的采 樣結(jié)果)的屬性特征,例如,在上述預(yù)測示例中,例如,賣家商戶編號可作為用于描述預(yù)測樣 本的一種屬性,可以看出,關(guān)于賣家商戶編號的特征具有高維離散特征空間,其維數(shù)對應(yīng)于 賣家的總數(shù)量。這里,在賣家商戶編號特征所在的N維特征空間中(N表示賣家商戶的總數(shù), 其為正整數(shù)),第m個賣家商戶編號的特征向量可表示為【S^S^Ss,…,Si,…,S N】,其中,當(dāng)i 等于m時,Si = 1;當(dāng)i不等于m時,Si = 0,其中,Ki<N,Km<N。
[0094] 針對如上所述的離散化特征子集,決策樹訓(xùn)練樣本獲取模塊220可將其變換為相 應(yīng)的連續(xù)特征。這樣,在訓(xùn)練出的決策樹模型中,可減少節(jié)點的數(shù)目。
[0095] 如上所述,所述離散化特征子集可指示預(yù)測樣本的屬性信息,作為優(yōu)選方式,相應(yīng) 的連續(xù)特征可指示所述屬性信息關(guān)于預(yù)測模型的預(yù)測目標(biāo)的統(tǒng)計信息。
[0096] 舉例說來,在上述預(yù)測示例中,決策樹訓(xùn)練樣本獲取模塊220可將關(guān)于賣家商戶編 號的高維度離散特征變換為關(guān)于相應(yīng)賣家商戶編號的歷史購買行為的概率統(tǒng)計特征。這 里,如上所述,在訓(xùn)練出預(yù)測模型的訓(xùn)練樣本集合中,每一條訓(xùn)練樣本對應(yīng)于某個特定顧客 在特定賣家購買/未購買特定商品的歷史購物記錄?;诖罅窟@樣的歷史記錄,通過諸如機(jī) 器學(xué)習(xí)等技術(shù)手段,得到了能夠預(yù)測顧客是否會購物的預(yù)測模型。相應(yīng)地,決策樹訓(xùn)練樣本 獲取模塊220可在訓(xùn)練出預(yù)測模型的訓(xùn)練樣本集合或該集合的適合子集上,得到各個賣家 商戶編號關(guān)于購物的求和、均值、方差、購買概率等統(tǒng)計信息,并將這種統(tǒng)計信息作為對應(yīng) 于賣家商戶編號的變換特征。例如,與第4賣家商戶編號對應(yīng)的特征向量[0,0,0,1,…,0]可 被轉(zhuǎn)換為第4賣家商戶編號關(guān)于購物情況的統(tǒng)計信息,例如,在第4賣家商戶編號對應(yīng)的賣 家發(fā)生實際購物的統(tǒng)計概率值,例如,4%。
[0097] 通過上述變換,一方面由于一維特征空間更易于劃分成較少的節(jié)點,使得決策樹 模型的規(guī)模更適于顯示,另一方面由于新的一維特征空間中的點表示的是相對于預(yù)測目標(biāo) 的統(tǒng)計信息,可確保用戶可容易地理解決策樹模型中每個節(jié)點的含義。相應(yīng)地,用戶可直觀 地理解整個原始預(yù)測模型的工作機(jī)制。
[0098] 應(yīng)注意,本發(fā)明的示例性實施例并非受限于上述方式,任何有助于決策樹模型的 展示和/或理解的特征變換方式均可應(yīng)用于本發(fā)明。例如,在變換后的一維特征空間中,上 述高維離散特征空間中的向量可被變換為其在訓(xùn)練出的預(yù)測模型(例如,邏輯回歸模型)中 的權(quán)重。由此可見,相應(yīng)的連續(xù)特征可指示所述屬性信息關(guān)于預(yù)測模型的預(yù)測目標(biāo)的預(yù)測 權(quán)重。
[0099] 可以看出,在本發(fā)明的示例性實施例中,預(yù)測模型可基于高維度的離散特征空間 來進(jìn)行訓(xùn)練和應(yīng)用,從而保證了預(yù)測模型的性能。此外,通過對預(yù)測模型的特征空間進(jìn)行變 換,使得能夠訓(xùn)練出更易于理解和/或展示的決策樹模型,從而幫助用戶更直觀地了解原模 型核心的預(yù)測機(jī)制。
[0100] 以上描述了關(guān)于通過特征降維處理來進(jìn)行特征變換的一些優(yōu)選示例,此外,可在 不考慮特征數(shù)量的情況下針對特征內(nèi)容進(jìn)行變換,具體說來,變換前的特征子集可指示預(yù) 測樣本的屬性信息,相應(yīng)的變換特征子集可指示所述屬性信息的統(tǒng)計信息或權(quán)重信息。
[0101] 舉例說來,可以將預(yù)測模型的預(yù)測樣本的特征之中關(guān)于自然屬性本身的特征(例 如,年齡大小)變換為關(guān)于該自然屬性與預(yù)測目標(biāo)(例如,是否購買某商品)之間的關(guān)系的特 征(例如,各年齡購買某商品的統(tǒng)計概率)。通過這種變換得到的特征子集相對于預(yù)測目標(biāo) 具有更好的線性關(guān)系,從而能夠有效地減少決策樹模型的節(jié)點數(shù)量。除此之外,還可將屬性 信息特征轉(zhuǎn)換為預(yù)測模型中的相應(yīng)權(quán)重或其他權(quán)重。
[0102] 更具體來說,顧客的某項自然屬性,例如年齡可作為用于描述樣本屬性的特征之 一,預(yù)測模型可基于連續(xù)取值的顧客年齡(或按照劃分區(qū)間而離散化取值的顧客年齡)連同 其他輸入特征而給出關(guān)于顧客是否會購物的預(yù)測結(jié)果。相應(yīng)地,可將顧客的年齡大小變換 為相應(yīng)的年齡大小針對購物的統(tǒng)計概率。這里,在訓(xùn)練出預(yù)測模型的訓(xùn)練樣本集合中,每一 條訓(xùn)練樣本對應(yīng)于某個特定顧客在特定賣家購買/未購買特定商品的歷史購物記錄?;?大量這樣的歷史記錄,通過諸如機(jī)器學(xué)習(xí)等技術(shù)手段,得到了能夠預(yù)測顧客是否會購物的 預(yù)測模型。相應(yīng)地,可在訓(xùn)練出預(yù)測模型的訓(xùn)練樣本集合或該集合的適合子集上,得到各個 顧客年齡關(guān)于購物的求和、均值、方差、購買概率等統(tǒng)計信息,并將這種統(tǒng)計信息作為對應(yīng) 于顧客年齡的變換特征。例如,原始顧客年齡在〇到19歲的,可變換為20 %的購物概率;原始 顧客年齡在20到39歲的,可變換為40 %的購物概率;原始顧客年齡在40到59歲的,可變換為 30%的購物概率;原始顧客年齡在60歲以上的,可變換為10%的購物概率。
[0103] 可以看出,通過上述特征空間變換,得到的新特征相對于預(yù)測目標(biāo)具有更好的線 性關(guān)系,從而便于決策樹模型的分支生成,進(jìn)而有效地減少決策樹模型的節(jié)點數(shù)量。
[0104] 這里,由于決策樹模型僅僅是用來幫助用戶理解預(yù)測模型的展示內(nèi)容,而真正進(jìn) 行預(yù)測的仍舊是原始的預(yù)測模型,因此,可忽略由于特征空間變換而帶來的模型性能指標(biāo) 方面的差異。
[0105] 再次參照圖2和圖3,基于步驟S120中所獲取的決策樹訓(xùn)練樣本,就可以執(zhí)行步驟 S130,例如可以由決策樹模型訓(xùn)練模塊230,使用至少一個決策樹訓(xùn)練樣本來訓(xùn)練決策樹模 型。這里,決策樹模型訓(xùn)練模塊230可接收由決策樹訓(xùn)練樣本獲取模塊220所獲取的決策樹 訓(xùn)練樣本,并基于獲取的決策樹訓(xùn)練樣本,利用決策樹算法來擬合出與預(yù)測模型近似的決 策樹模型。
[0106] 決策樹是一種樹形結(jié)構(gòu),其中每個內(nèi)部節(jié)點表示一個屬性上的測試,每個分支代 表一個測試輸出,每個葉節(jié)點代表一種類別。這里,可按照各種方式來建立決策樹模型。
[0107] 具體說來,在決策樹模型的建立過程中,會應(yīng)用一定的準(zhǔn)則選擇最佳屬性進(jìn)行分 裂,使得根據(jù)判斷節(jié)點得到的子樹的類別盡可能得純,也即最具區(qū)分力的屬性。常見的屬性 信息度量準(zhǔn)則包括信息增益、增益比率、基尼指數(shù)等,具體如下所述:
[0108] 1、信息增益是針對一個一個的屬性特征而言的,就是看一個特征X,系統(tǒng)有它和沒 它的時候信息量各是多少,兩者的差值就是這個特征給系統(tǒng)帶來的信息增益。每次選取特 征的過程都是通過計算每個特征值劃分?jǐn)?shù)據(jù)集后的信息增益,然后選取信息增益最高的特 征。
[0109] 2、以信息增益進(jìn)行分類決策時,存在偏向于取值較多的特征的問題。于是為了解 決這個問題,有了信息增益比準(zhǔn)則。即信息增益消除分裂信息量的影響。
[0110] 3、基尼不純度表示一個隨機(jī)選中的樣本在子集中被分錯的可能性。基尼不純度為 這個樣本被選中的概率乘以它被分錯的概率。當(dāng)一個節(jié)點中所有樣本都是一個類時,基尼 不純度為零。 另外,由于展示需要,在訓(xùn)練決策樹模型時,還可以預(yù)先設(shè)置關(guān)于決策樹模型的預(yù) 計規(guī)模的正則化項,相應(yīng)地,在所預(yù)設(shè)的正則化項下進(jìn)行決策樹模型的訓(xùn)練。
[0112] 由此可見,不論是否為了控制決策樹模型的顯示規(guī)模而對用于訓(xùn)練決策樹模型的 特征進(jìn)行過篩選或變換,決策樹模型訓(xùn)練模塊230可通過預(yù)設(shè)的正則化項來控制決策樹模 型的規(guī)模。
[0113] 作為示例,正則化項可以用來限制決策樹模型的節(jié)點數(shù)量、層數(shù)和/或節(jié)點樣本最 小閾值。這樣在預(yù)設(shè)的正則化項下進(jìn)行決策樹模型的訓(xùn)練,可以使得決策樹模型易于理解 和/或展示。
[0114] 具體來說,在訓(xùn)練決策樹模型的過程中,可以引入最小描述長度等度量模型復(fù)雜 度的信息量,以降低所訓(xùn)練的決策樹模型的復(fù)雜度。此外,還可通過直接限制決策樹節(jié)點數(shù) 量和/或?qū)訑?shù)等來限制決策樹模型的復(fù)雜程度。
[0115] 進(jìn)一步地,為了防止由于限制決策樹復(fù)雜度所導(dǎo)致的信息丟失,可以設(shè)置決策樹 模型中每個節(jié)點關(guān)聯(lián)的樣本個數(shù)的最小閾值(g卩,節(jié)點樣本最小閾值),使得在保留相同節(jié) 點數(shù)的情況下,可以留下更多的信息。上述方法能夠在限制決策樹模型復(fù)雜度、保證決策樹 模型可解釋的同時盡可能提升決策樹模型的擬合效果和泛化能力。
[0116] 在采用上述方式訓(xùn)練出決策樹模型后,就可以執(zhí)行步驟S140,例如可以由展示模 塊240,可視化地展示訓(xùn)練出的決策樹模型。這里,展示模塊240可對決策樹模型進(jìn)行各種視 覺化處理,并且,可通過圖3所示的裝置自身中配置的顯示器或外部顯示器來顯示經(jīng)過視覺 化處理的決策樹模型,這里,所述外部顯示器可通過接口、網(wǎng)絡(luò)或其他方式連接到展示模塊 240,從而在展示模塊240的驅(qū)動下顯示決策樹模型。
[0117] 具體說來,展示模塊240可以按照圖形化或圖表化(例如,樹狀圖表)的形式向用戶 展示決策樹模型。
[0118] 圖4示出了本發(fā)明一實施例的展示的決策樹模型的示例。在圖4中的(a)所展示的 決策樹模型涉及對于營銷是否成功的預(yù)測問題,可以理解到,對于正負(fù)例分類(即營銷成功 與否),影響最大的是學(xué)歷特征。其次,在學(xué)歷本科以上的樣本中,性別對于樣本分類的作用 最為顯著,而在學(xué)歷本科以下的樣本中,年齡對于樣本分類的作用最為顯著。以此類推,直 到葉子節(jié)點判決出樣本標(biāo)記,即營銷結(jié)果。
[0119] 應(yīng)注意,可采用任何適當(dāng)?shù)男问絹盹@示用于解釋預(yù)測機(jī)制的決策樹模型,圖4中的 (b)使出了利用決策樹模型來解釋關(guān)于是否建議交易分期的預(yù)測模型的示例,其中,SEND表 示預(yù)測正例,NO SEND表示預(yù)測負(fù)例,這里,通過將符合父節(jié)點條件的路徑與不符合父節(jié)點 條件的路徑區(qū)分顯示,能夠有效地展示決策樹模型的內(nèi)容。例如,可將符合父節(jié)點條件的路 徑顯示為一種顏色或深度,而將不符合父節(jié)點條件的路徑顯示為另外一種顏色或深度,從 而明顯區(qū)分出不同的分類路徑。
[0120] 具體說來,在圖4中的(b)所示的決策樹模型中,除了作為預(yù)測結(jié)果的端點"SEND" 和"NO SEND"之外,每個中間節(jié)點表示針對某一條件的判斷,其中,對于符合條件的"是"分 支,采用某種統(tǒng)一的顯示樣式(例如,顏色、圖案、深度等)進(jìn)行顯示,而對于不符合條件的 "否"分支,采用另一種統(tǒng)一的顯示樣式(例如,顏色、圖案、深度等)進(jìn)行顯示。通過這種方 式,能夠很簡潔地展示出決策樹模型的判斷路徑。
[0121]此外,在圖4中的(b)所示的決策樹模型的示例中,相關(guān)特征可均為連續(xù)取值的特 征,這也確保了決策樹模型具有適宜的顯示規(guī)模。其中,MCC(商戶類別碼)分期概率是從原 始的高維商戶類別碼特征空間中變換而來的,賬戶號碼分期概率是從原始的高維賬戶號碼 特征空間中變換而來的。
[0122] 可以看出,通過展示出的與原始模型相近似的決策樹模型,用戶能夠更好地理解 原始模型的預(yù)測機(jī)制,從而更好地使用模型進(jìn)行數(shù)據(jù)挖掘。
[0123] 優(yōu)選地,展示模塊240可通過剪枝處理來可視化地展示訓(xùn)練出的決策樹模型,在剪 枝處理中剪掉的節(jié)點不被展示或被隱藏展示。具體說來,在向用戶展示決策樹模型時,展示 模塊240還可以對決策樹模型中的節(jié)點進(jìn)行剪枝處理。其中,對于被剪掉的節(jié)點,展示模塊 240可以選擇不展示,也可以被隱藏展示(即在用戶對其執(zhí)行點擊操作時才進(jìn)行展示)。
[0124] 至此,結(jié)合圖2到圖4對本發(fā)明的對預(yù)測模型進(jìn)行展示的過程做了詳細(xì)說明。基于 上述描述可知,對于待解釋的預(yù)測模型,只需要對給定的樣本能夠利用該模型重構(gòu)出樣本 標(biāo)記,進(jìn)而就可以利用決策樹擬合的方法對該模型中的決策變量進(jìn)行權(quán)重分析。因此,本發(fā) 明的對預(yù)測模型進(jìn)行展示的方案不僅適用于機(jī)器學(xué)習(xí)模型,對于其他傳統(tǒng)帶標(biāo)記數(shù)據(jù)挖掘 模型均可以適配。
[0125] 應(yīng)注意,上述預(yù)測模型展示裝置可完全依賴計算機(jī)程序的運(yùn)行來實現(xiàn)相應(yīng)的功 能,即,各個模塊與計算機(jī)程序的功能架構(gòu)中與各步驟相應(yīng),使得整個系統(tǒng)通過專門的軟件 包(例如,lib庫)而被調(diào)用,以實現(xiàn)相應(yīng)的模型展示功能。
[0126] 另一方面,圖3所示的各個模塊也可以通過硬件、軟件、固件、中間件、微代碼或其 任意組合來實現(xiàn)。當(dāng)以軟件、固件、中間件或微代碼實現(xiàn)時,用于執(zhí)行相應(yīng)操作的程序代碼 或者代碼段可以存儲在諸如存儲介質(zhì)的計算機(jī)可讀介質(zhì)中,使得處理器可通過讀取并運(yùn)行 相應(yīng)的程序代碼或者代碼段來執(zhí)行相應(yīng)的操作。
[0127] 這里,根據(jù)本發(fā)明示例性實施例的模型展示裝置還可以實現(xiàn)為計算裝置,該計算 裝置包括存儲部件和處理器,存儲部件中存儲有計算機(jī)可執(zhí)行指令集合,當(dāng)所述計算機(jī)可 執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行上述預(yù)測模型展示方法。
[0128] 具體說來,所述計算裝置可以部署在服務(wù)器或客戶端中,也可以部署在分布式網(wǎng) 絡(luò)環(huán)境中的節(jié)點裝置上。此外,所述計算裝置可以是PC計算機(jī)、平板裝置、個人數(shù)字助理、智 能手機(jī)、web應(yīng)用或其他能夠執(zhí)行上述指令集合的裝置。
[0129] 這里,所述計算裝置并非必須是單個的計算裝置,還可以是任何能夠單獨(dú)或聯(lián)合 執(zhí)行上述指令(或指令集)的裝置或電路的集合體。計算裝置還可以是集成控制系統(tǒng)或系統(tǒng) 管理器的一部分,或者可被配置為與本地或遠(yuǎn)程(例如,經(jīng)由無線傳輸)以接口互聯(lián)的便攜 式電子裝置。
[0130] 在所述計算裝置中,處理器可包括中央處理器(CPU)、圖形處理器(GPU)、可編程邏 輯裝置、專用處理器系統(tǒng)、微控制器或微處理器。作為示例而非限制,處理器還可包括模擬 處理器、數(shù)字處理器、微處理器、多核處理器、處理器陣列、網(wǎng)絡(luò)處理器等。
[0131] 上述模型展示方法中所描述的某些操作可通過軟件方式來實現(xiàn),某些操作可通過 硬件方式來實現(xiàn),此外,還可通過軟硬件結(jié)合的方式來實現(xiàn)這些操作。
[0132] 處理器可運(yùn)行存儲在存儲部件之一中的指令或代碼,其中,所述存儲部件還可以 存儲數(shù)據(jù)。指令和數(shù)據(jù)還可經(jīng)由網(wǎng)絡(luò)接口裝置而通過網(wǎng)絡(luò)被發(fā)送和接收,其中,所述網(wǎng)絡(luò)接 口裝置可采用任何已知的傳輸協(xié)議。
[0133] 存儲部件可與處理器集成為一體,例如,將RAM或閃存布置在集成電路微處理器等 之內(nèi)。此外,存儲部件可包括獨(dú)立的裝置,諸如,外部盤驅(qū)動、存儲陣列或任何數(shù)據(jù)庫系統(tǒng)可 使用的其他存儲裝置。存儲部件和處理器可在操作上進(jìn)行耦合,或者可例如通過I/O端口、 網(wǎng)絡(luò)連接等互相通信,使得處理器能夠讀取存儲在存儲部件中的文件。
[0134] 此外,所述計算裝置還可包括視頻顯示器(諸如,液晶顯示器)和用戶交互接口(諸 如,鍵盤、鼠標(biāo)、觸摸輸入裝置等)。計算裝置的所有組件可經(jīng)由總線和/或網(wǎng)絡(luò)而彼此連接。
[0135] 上述模型展示方法所涉及的操作可被描述為各種互聯(lián)或耦合的功能塊或功能示 圖。然而,這些功能塊或功能示圖可被均等地集成為單個的邏輯裝置或按照非確切的邊界 進(jìn)行操作。
[0136] 具體說來,如上所述,根據(jù)本發(fā)明示例性實施例的用于對預(yù)測模型進(jìn)行展示的計 算裝置可包括存儲部件和處理器,存儲部件中存儲有計算機(jī)可執(zhí)行指令集合,當(dāng)所述計算 機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟:獲取預(yù)測模型針對至少一個預(yù)測 樣本得到的至少一個預(yù)測結(jié)果;基于所述至少一個預(yù)測樣本和所述至少一個預(yù)測結(jié)果來獲 取用于訓(xùn)練決策樹模型的至少一個決策樹訓(xùn)練樣本,其中,所述決策樹模型用于擬合所述 預(yù)測模型;使用所述至少一個決策樹訓(xùn)練樣本來訓(xùn)練決策樹模型;以及可視化地展示訓(xùn)練 出的決策樹模型。
[0137] 應(yīng)注意,以上已經(jīng)結(jié)合圖2描述了根據(jù)本發(fā)明示例性實施例的模型展示方法的各 處理細(xì)節(jié),這里將不再贅述計算裝置執(zhí)行各步驟時的處理細(xì)節(jié)。
[0138] 此外,基于本發(fā)明所獲取的用于擬合預(yù)測模型的決策樹模型,還可以用來調(diào)整預(yù) 測模型。
[0139] 具體說來,圖5示出了本發(fā)明一實施例的調(diào)整預(yù)測模型的方法的示意性流程圖,圖 6示出了實現(xiàn)圖5所示方法中各個流程步驟的裝置的示意性方框圖。下面結(jié)合圖5、圖6對本 發(fā)明的調(diào)整預(yù)測模型的方案做以詳細(xì)說明。
[0140] 參見圖5、圖6,在使用上文結(jié)合圖2、圖3所述的方案對預(yù)測模型進(jìn)行展示后,即在 步驟S140后,還可以執(zhí)行步驟S310,例如可以由調(diào)整模塊410,響應(yīng)于用戶針對所展示的決 策樹模型執(zhí)行的輸入操作,調(diào)整訓(xùn)練出預(yù)測模型的至少一個預(yù)測模型訓(xùn)練樣本。
[0141] 在步驟S320,例如可以由預(yù)測模型訓(xùn)練模塊420,使用調(diào)整后的預(yù)測模型訓(xùn)練樣本 來重新訓(xùn)練預(yù)測模型。
[0142] 具體來說,在使用上文結(jié)合圖2、圖3所述的方案訓(xùn)練用來解釋預(yù)測模型的決策樹 模型的過程中,可以將展示的決策樹模型中的各個節(jié)點設(shè)計為交互控件,使得用戶能夠通 過在決策樹模型上執(zhí)行操作而了解到更多的數(shù)據(jù)信息或完成更多的相關(guān)設(shè)置。例如,可在 用戶點擊某個節(jié)點時顯示出該節(jié)點相關(guān)特征的統(tǒng)計分布或其他信息,這些顯示內(nèi)容可顯示 在彈出框或其他位于所述節(jié)點附近的區(qū)域中。此外,用戶還可以對對所展示的決策樹模型 中各節(jié)點進(jìn)行輸入操作,如增加、刪除、變換某些特征,響應(yīng)于用戶的輸入操作,就可以對預(yù) 測模型的訓(xùn)練樣本的特征重新調(diào)整,然后使用調(diào)整后的訓(xùn)練樣本的特征,重新訓(xùn)練預(yù)測模 型。
[0143] 綜上,借助近似的決策樹模型對預(yù)測模型進(jìn)行解釋可幫助用戶理解到預(yù)測模型的 決策機(jī)制,相應(yīng)地,可在諸如建模平臺等訓(xùn)練模型的系統(tǒng)中增加模型解釋功能,一方面能夠 幫助系統(tǒng)的用戶及時了解所訓(xùn)練出的模型,另一方面還可利用決策樹模型反映出的信息來 針對性地調(diào)整模型訓(xùn)練的細(xì)節(jié)。
[0144] 類似地,根據(jù)本發(fā)明示例性實施例的模型調(diào)整裝置也可以實現(xiàn)為計算裝置,具體 說來,該計算裝置可包括存儲部件和處理器,存儲部件中存儲有計算機(jī)可執(zhí)行指令集合,當(dāng) 所述計算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟:獲取預(yù)測模型針對至少 一個預(yù)測樣本得到的至少一個預(yù)測結(jié)果;基于所述至少一個預(yù)測樣本和所述至少一個預(yù)測 結(jié)果來獲取用于訓(xùn)練決策樹模型的至少一個決策樹訓(xùn)練樣本,其中,所述決策樹模型用于 擬合所述預(yù)測模型;使用所述至少一個決策樹訓(xùn)練樣本來訓(xùn)練決策樹模型;可視化地展示 訓(xùn)練出的決策樹模型;響應(yīng)于用戶針對所展示的決策樹模型執(zhí)行的輸入操作,調(diào)整訓(xùn)練出 所述預(yù)測模型的至少一個預(yù)測模型訓(xùn)練樣本;以及使用調(diào)整后的至少一個預(yù)測模型訓(xùn)練樣 本來重新訓(xùn)練所述預(yù)測模型。
[0145] 應(yīng)注意,以上已經(jīng)結(jié)合圖5描述了根據(jù)本發(fā)明示例性實施例的模型調(diào)整方法的各 處理細(xì)節(jié),這里將不再贅述計算裝置執(zhí)行各步驟時的處理細(xì)節(jié)。
[0146] 上文中已經(jīng)參考附圖詳細(xì)描述了根據(jù)本發(fā)明的對預(yù)測模型進(jìn)行展示的方法、裝置 及調(diào)整預(yù)測模型的方法、裝置。
[0147] 此外,根據(jù)本發(fā)明的方法還可以實現(xiàn)為一種計算機(jī)程序產(chǎn)品,該計算機(jī)程序產(chǎn)品 包括計算機(jī)可讀介質(zhì),在該計算機(jī)可讀介質(zhì)上存儲有用于執(zhí)行本發(fā)明的上述方法中限定的 上述功能的計算機(jī)程序。本領(lǐng)域技術(shù)人員還將明白的是,結(jié)合這里的公開所描述的各種示 例性邏輯塊、模塊、電路和算法步驟可以被實現(xiàn)為電子硬件、計算機(jī)軟件或兩者的組合。
[0148] 附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實施例的系統(tǒng)和方法的可能實 現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程 序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的 邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)記的功能也可 以以不同于附圖中所標(biāo)記的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行, 它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流 程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作 的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機(jī)指令的組合來實現(xiàn)。
[0149] 以上已經(jīng)描述了本發(fā)明的各實施例,上述說明是示例性的,并非窮盡性的,并且也 不限于所披露的各實施例。在不偏離所說明的各實施例的范圍和精神的情況下,對于本技 術(shù)領(lǐng)域的普通技術(shù)人員來說許多修改和變更都是顯而易見的。本文中所用術(shù)語的選擇,旨 在最好地解釋各實施例的原理、實際應(yīng)用或?qū)κ袌鲋械募夹g(shù)的改進(jìn),或者使本技術(shù)領(lǐng)域的 其他普通技術(shù)人員能理解本文披露的各實施例。
【主權(quán)項】
1. 一種對預(yù)測模型進(jìn)行展示的方法,包括: 獲取預(yù)測模型針對至少一個預(yù)測樣本得到的至少一個預(yù)測結(jié)果; 基于所述至少一個預(yù)測樣本和所述至少一個預(yù)測結(jié)果來獲取用于訓(xùn)練決策樹模型的 至少一個決策樹訓(xùn)練樣本,其中,所述決策樹模型用于擬合所述預(yù)測模型; 使用所述至少一個決策樹訓(xùn)練樣本來訓(xùn)練決策樹模型;以及 可視化地展示訓(xùn)練出的決策樹模型。2. 根據(jù)權(quán)利要求1所述的方法,其中,在基于所述至少一個預(yù)測樣本和所述至少一個預(yù) 測結(jié)果來獲取用于訓(xùn)練決策樹模型的至少一個決策樹訓(xùn)練樣本的步驟中,將所述預(yù)測樣本 的至少一部分特征作為所述決策樹訓(xùn)練樣本的特征,并基于相應(yīng)得到的預(yù)測結(jié)果來獲取所 述決策樹訓(xùn)練樣本的標(biāo)記;或者 在基于所述至少一個預(yù)測樣本和所述至少一個預(yù)測結(jié)果來獲取用于訓(xùn)練決策樹模型 的至少一個決策樹訓(xùn)練樣本的步驟中,對所述預(yù)測樣本的至少一部分特征進(jìn)行變換,將變 換后的所述至少一部分特征作為所述決策樹訓(xùn)練樣本的特征,并基于相應(yīng)得到的預(yù)測結(jié)果 來獲取所述決策樹訓(xùn)練樣本的標(biāo)記。3. 根據(jù)權(quán)利要求2所述的方法,其中,對所述預(yù)測樣本的所述至少一部分特征進(jìn)行變換 的步驟包括:將所述預(yù)測樣本的所述至少一部分特征之中的至少一個特征子集分別變換為 相應(yīng)的至少一個變換特征子集。4. 根據(jù)權(quán)利要求3所述的方法,其中,變換前的特征子集指示預(yù)測樣本的屬性信息,相 應(yīng)的變換特征子集指示所述屬性信息的統(tǒng)計信息或權(quán)重信息。5. 根據(jù)權(quán)利要求2所述的方法,其中,對所述預(yù)測樣本的至少一部分特征進(jìn)行變換的步 驟包括:將所述預(yù)測樣本的所述至少一部分特征之中的至少一個離散化特征子集變換為相 應(yīng)的至少一個連續(xù)特征。6. 根據(jù)權(quán)利要求5所述的方法,其中,所述離散化特征子集指示預(yù)測樣本的屬性信息, 其中,相應(yīng)的連續(xù)特征指示所述屬性信息關(guān)于預(yù)測模型的預(yù)測目標(biāo)的統(tǒng)計信息;或者, 相應(yīng)的連續(xù)特征指示所述屬性信息關(guān)于預(yù)測模型的預(yù)測目標(biāo)的預(yù)測權(quán)重。7. -種調(diào)整預(yù)測模型的方法,包括: 使用權(quán)利要求1至6中任何一項所述的方法對所述預(yù)測模型進(jìn)行展示; 響應(yīng)于用戶針對所展示的決策樹模型執(zhí)行的輸入操作,調(diào)整訓(xùn)練出所述預(yù)測模型的至 少一個預(yù)測模型訓(xùn)練樣本;以及 使用調(diào)整后的至少一個預(yù)測模型訓(xùn)練樣本來重新訓(xùn)練所述預(yù)測模型。8. -種對預(yù)測模型進(jìn)行展示的裝置,包括: 預(yù)測結(jié)果獲取模塊,用于獲取預(yù)測模型針對至少一個預(yù)測樣本得到的至少一個預(yù)測結(jié) 果; 決策樹訓(xùn)練樣本獲取模塊,用于基于所述至少一個預(yù)測樣本和所述至少一個預(yù)測結(jié)果 來獲取用于訓(xùn)練決策樹模型的至少一個決策樹訓(xùn)練樣本,其中,所述決策樹模型用于擬合 所述預(yù)測模型; 決策樹模型訓(xùn)練模塊,用于使用所述至少一個決策樹訓(xùn)練樣本來訓(xùn)練決策樹模型;以 及 展示模塊,用于可視化地展示訓(xùn)練出的決策樹模型。9. 一種對預(yù)測模型進(jìn)行展示的計算裝置,包括存儲部件和處理器,存儲部件中存儲有 計算機(jī)可執(zhí)行指令集合,當(dāng)所述計算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步 驟: 獲取預(yù)測模型針對至少一個預(yù)測樣本得到的至少一個預(yù)測結(jié)果; 基于所述至少一個預(yù)測樣本和所述至少一個預(yù)測結(jié)果來獲取用于訓(xùn)練決策樹模型的 至少一個決策樹訓(xùn)練樣本,其中,所述決策樹模型用于擬合所述預(yù)測模型; 使用所述至少一個決策樹訓(xùn)練樣本來訓(xùn)練決策樹模型;以及 可視化地展示訓(xùn)練出的決策樹模型。10. -種調(diào)整預(yù)測模型的計算裝置,包括存儲部件和處理器,存儲部件中存儲有計算機(jī) 可執(zhí)行指令集合,當(dāng)所述計算機(jī)可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟: 獲取預(yù)測模型針對至少一個預(yù)測樣本得到的至少一個預(yù)測結(jié)果; 基于所述至少一個預(yù)測樣本和所述至少一個預(yù)測結(jié)果來獲取用于訓(xùn)練決策樹模型的 至少一個決策樹訓(xùn)練樣本,其中,所述決策樹模型用于擬合所述預(yù)測模型; 使用所述至少一個決策樹訓(xùn)練樣本來訓(xùn)練決策樹模型; 可視化地展示訓(xùn)練出的決策樹模型; 響應(yīng)于用戶針對所展示的決策樹模型執(zhí)行的輸入操作,調(diào)整訓(xùn)練出所述預(yù)測模型的至 少一個預(yù)測模型訓(xùn)練樣本;以及 使用調(diào)整后的至少一個預(yù)測模型訓(xùn)練樣本來重新訓(xùn)練所述預(yù)測模型。
【文檔編號】G06Q10/04GK105930934SQ201610269127
【公開日】2016年9月7日
【申請日】2016年4月27日
【發(fā)明人】白楊, 陳雨強(qiáng), 戴文淵
【申請人】北京物思創(chuàng)想科技有限公司