一種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練方法及裝置,無需特征降維即可解決數(shù)據(jù)稀疏問題,提高用戶行為預(yù)測(cè)的準(zhǔn)確性。該方法包括:收集用戶的歷史訪問數(shù)據(jù);將用戶的歷史訪問數(shù)據(jù)按照包含有一個(gè)或多個(gè)維度的特征集進(jìn)行分類聚合,形成多個(gè)樣本;計(jì)算每一樣本對(duì)應(yīng)的用戶行為統(tǒng)計(jì)信息,用戶行為統(tǒng)計(jì)信息包括用戶流量數(shù);當(dāng)當(dāng)前樣本對(duì)應(yīng)的用戶流量數(shù)小于流量數(shù)第一閾值時(shí),計(jì)算當(dāng)前樣本與其他樣本的距離;選擇距離小于距離閾值的其他樣本作為當(dāng)前樣本的鄰近樣本;將當(dāng)前樣本的用戶行為統(tǒng)計(jì)信息與鄰近樣本的用戶行為統(tǒng)計(jì)信息合并生成新樣本;使用新樣本訓(xùn)練預(yù)先建立的機(jī)器學(xué)習(xí)模型,機(jī)器學(xué)習(xí)模型用于根據(jù)特征集在各維度下的特征值預(yù)測(cè)用戶行為。
【專利說明】-種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,具體涉及一種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練方法 及裝置。
【背景技術(shù)】
[0002] 非搜索廣告是區(qū)別于搜索引擎中所投放的關(guān)鍵詞廣告而言的。
[0003] 在信息推薦方案中,包括基于關(guān)鍵詞的信息推薦方式及基于用戶訪問歷史的信息 推薦方式?;陉P(guān)鍵詞的信息推薦方式是根據(jù)用戶在搜索引擎中輸入的關(guān)鍵詞來確定向用 戶推送的信息?;谟脩粼L問歷史的信息推薦方式則根據(jù)用戶的歷史訪問日志向用戶推送 用戶可能感興趣的信息。
[0004] 信息投放平臺(tái)是為網(wǎng)站主和信息投放者提供信息投放服務(wù)的中介平臺(tái)。信息投放 平臺(tái)可以使信息投放者更簡(jiǎn)單便捷地選擇信息投放方式及信息投放對(duì)象。在信息投放平臺(tái) 中,信息投放者提供需要投放的信息內(nèi)容或數(shù)據(jù)。
[0005] 基于用戶訪問歷史的信息推薦方式中,當(dāng)用戶訪問某個(gè)網(wǎng)站時(shí),信息投放平臺(tái)收 集用戶的cookie信息、網(wǎng)站類型、IP地址等多維度信息。信息投放平臺(tái)根據(jù)這些信息為進(jìn) 行頁面訪問的當(dāng)前用戶確定推送的信息內(nèi)容。此場(chǎng)景的核心在于用戶的歷史行為的統(tǒng)計(jì)分 析,根據(jù)用戶的歷史行為的統(tǒng)計(jì)分析挖掘用戶的偏好或可能感興趣的內(nèi)容。
[0006] 目前,業(yè)界可以基于用戶的歷史數(shù)據(jù)建立統(tǒng)計(jì)模型,并使用模型預(yù)測(cè)用戶行為偏 好。用戶的歷史數(shù)據(jù)是包含了在各個(gè)維度上的特征集的樣本集合,每一個(gè)樣本(或樣本點(diǎn)) 記錄了特征集,每個(gè)樣本與用戶行為的統(tǒng)計(jì)信息(比如頁面訪問量、點(diǎn)擊率等統(tǒng)計(jì)信息對(duì) 應(yīng),以鍵(key)-值對(duì)形式表示,如表1所示。特征集和統(tǒng)計(jì)值是由需求方平臺(tái)根據(jù)競(jìng)價(jià)日 志記錄得到。
[0007] 表1、特征集與統(tǒng)計(jì)值的關(guān)系示例
【權(quán)利要求】
1. 一種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練方法,其特征在于,包括: 收集用戶的歷史訪問數(shù)據(jù); 將用戶的歷史訪問數(shù)據(jù)按照包含有一個(gè)或多個(gè)維度的特征集進(jìn)行分類聚合,形成多個(gè) 樣本; 計(jì)算每一樣本對(duì)應(yīng)的用戶行為統(tǒng)計(jì)信息,所述用戶行為統(tǒng)計(jì)信息包括用戶流量數(shù); 當(dāng)當(dāng)前樣本對(duì)應(yīng)的用戶流量數(shù)小于流量數(shù)第一閾值時(shí),計(jì)算當(dāng)前樣本與其他樣本的距 離,所述距離由當(dāng)前樣本對(duì)應(yīng)特征集在各維度下的特征值與其他樣本對(duì)應(yīng)特征集在各維度 下的特征值確定; 選擇距離小于距離閾值的其他樣本作為當(dāng)前樣本的鄰近樣本; 將當(dāng)前樣本的用戶行為統(tǒng)計(jì)信息與鄰近樣本的用戶行為統(tǒng)計(jì)信息合并生成新樣本; 使用新樣本訓(xùn)練預(yù)先建立的機(jī)器學(xué)習(xí)模型,所述機(jī)器學(xué)習(xí)模型用于根據(jù)所述特征集在 各維度下的特征值預(yù)測(cè)用戶行為。
2. 如權(quán)利要求1所述的方法,其特征在于, 所述將用戶的歷史訪問數(shù)據(jù)按照包含有一個(gè)或多個(gè)維度的特征集進(jìn)行分類聚合,形成 多個(gè)樣本,包括: 選擇一個(gè)或多個(gè)維度作為基準(zhǔn)維度; 將所述基準(zhǔn)維度對(duì)應(yīng)的特征的特征值相同的歷史訪問數(shù)據(jù)集合為一個(gè)樣本。
3. 如權(quán)利要求1所述的方法,其特征在于, 所述特征集包括用戶的特征及用戶訪問的對(duì)象的特征。
4. 如權(quán)利要求3所述的方法,其特征在于, 所述用戶的特征包括:用戶的IP地址信息、用戶行為的時(shí)間信息及用戶的類型中的一 種或多種維度。
5. 如權(quán)利要求3所述的方法,其特征在于, 所述用戶訪問的對(duì)象的特征包括:該對(duì)象的類型、該對(duì)象來源網(wǎng)站的類型、該對(duì)象在頁 面的位置信息及該對(duì)象的尺寸信息中的一種或多種維度。
6. 如權(quán)利要求1所述的方法,其特征在于, 所述計(jì)算當(dāng)前樣本與其他樣本的距離,包括: 采用下式計(jì)算當(dāng)前樣本與其他樣本的距離:
,,i〇,//(x;=χ;) 苴中 /(X1-X2) = ^ 八11 ' 其中,Distance (keyl,key2)表示當(dāng)前樣本與其他樣本的距離%為特征集中第i個(gè)維 度的權(quán)重,η為特征集的總維度數(shù),4、$分別為當(dāng)前樣本和其他樣本在第i個(gè)維度對(duì)應(yīng)的 特征的特征值。
7. 如權(quán)利要求1所述的方法,其特征在于: 所述選擇距離小于距離閾值的其他樣本作為當(dāng)前樣本的鄰近樣本后,所述方法還包 括:過濾鄰近樣本,一旦當(dāng)前樣本與所有鄰近樣本的用戶流量數(shù)之和大于流量數(shù)第二閾值 下限時(shí),停止過濾。
8. -種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練裝置,其特征在于,包括數(shù)據(jù)收集單元、樣本形 成單元、統(tǒng)計(jì)信息計(jì)算單元、距離計(jì)算單元、鄰近樣本選擇單元和訓(xùn)練單元,其中 : 所述數(shù)據(jù)收集單元,用于收集用戶的歷史訪問數(shù)據(jù); 所述樣本形成單元,用于將用戶的歷史訪問數(shù)據(jù)按照包含有一個(gè)或多個(gè)維度的特征集 進(jìn)行分類聚合,形成多個(gè)樣本; 所述統(tǒng)計(jì)信息計(jì)算單元,用于計(jì)算每一樣本對(duì)應(yīng)的用戶行為統(tǒng)計(jì)信息,所述用戶行為 統(tǒng)計(jì)信息包括用戶流量數(shù); 所述距離計(jì)算單元,用于當(dāng)當(dāng)前樣本對(duì)應(yīng)的用戶流量數(shù)小于流量數(shù)第一閾值時(shí),計(jì)算 當(dāng)前樣本與其他樣本的距離,所述距離由當(dāng)前樣本對(duì)應(yīng)特征集在各維度下的特征值與其他 樣本對(duì)應(yīng)特征集在各維度下的特征值確定; 所述鄰近樣本選擇單元,用于選擇距離小于距離閾值的其他樣本作為當(dāng)前樣本的鄰近 樣本; 所述訓(xùn)練單元,用于將當(dāng)前樣本的用戶行為統(tǒng)計(jì)信息與鄰近樣本的用戶行為統(tǒng)計(jì)信息 合并生成新樣本,使用新樣本訓(xùn)練預(yù)先建立的機(jī)器學(xué)習(xí)模型,所述機(jī)器學(xué)習(xí)模型用于根據(jù) 所述特征集在各維度下的特征值預(yù)測(cè)用戶行為。
9. 如權(quán)利要求8所述的訓(xùn)練裝置,其特征在于, 所述樣本形成單元將用戶的歷史訪問數(shù)據(jù)按照包含有一個(gè)后多個(gè)維度的特征集進(jìn)行 分類聚合,形成多個(gè)樣本,包括: 所述樣本形成單元選擇一個(gè)或多個(gè)維度作為基準(zhǔn)維度,將所述基準(zhǔn)維度對(duì)應(yīng)的特征的 特征值相同的歷史訪問數(shù)據(jù)集合為一個(gè)樣本。
10. 如權(quán)利要求8所述的訓(xùn)練裝置,其特征在于, 所述特征集包括用戶的特征及用戶訪問的對(duì)象的特征。
11. 如權(quán)利要求10所述的訓(xùn)練裝置,其特征在于, 所述用戶的特征包括:用戶的IP地址信息、用戶行為的時(shí)間信息及用戶的類型中的一 種或多種維度。
12. 如權(quán)利要求10所述的訓(xùn)練裝置,其特征在于, 所述用戶訪問的對(duì)象的特征包括:該對(duì)象的類型、該對(duì)象來源網(wǎng)站的類型、該對(duì)象在頁 面的位置信息及該對(duì)象的尺寸信息中的一種或多種維度。
13. 如權(quán)利要求8所述的訓(xùn)練裝置,其特征在于, 所述距離計(jì)算單元計(jì)算當(dāng)前樣本與其他樣本的距離,包括: 所述距離計(jì)算單元采用下式計(jì)算當(dāng)前樣本與其他樣本的距離:
,.! \Q,if{x)=x;) a中,/(χ; _χ,') = 4 ΧυΜφχ:) ? 其中,Distance(keyl,key2)表示當(dāng)前樣本與其他樣本的距離%為特征集中第i個(gè)維 度的權(quán)重,η為特征集的總維度數(shù),< <分別為當(dāng)前樣本和其他樣本在第i個(gè)維度對(duì)應(yīng)的 特征的特征值。
14.如權(quán)利要求8所述的訓(xùn)練裝置,其特征在于: 所述鄰近樣本選擇單元還用于在選擇距離小于距離閾值的其他樣本作為當(dāng)前樣本的 鄰近樣本后,過濾鄰近樣本,一旦當(dāng)前樣本與所有鄰近樣本的用戶流量數(shù)之和大于流量數(shù) 第二閾值下限時(shí),停止過濾。
【文檔編號(hào)】G06F17/30GK104239351SQ201310247161
【公開日】2014年12月24日 申請(qǐng)日期:2013年6月20日 優(yōu)先權(quán)日:2013年6月20日
【發(fā)明者】何憲, 殷維棟, 孟曉楠 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司