一種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練方法及裝置制造方法

文檔序號(hào)：6504505閱讀：340來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練方法及裝置，無需特征降維即可解決數(shù)據(jù)稀疏問題，提高用戶行為預(yù)測(cè)的準(zhǔn)確性。該方法包括：收集用戶的歷史訪問數(shù)據(jù)；將用戶的歷史訪問數(shù)據(jù)按照包含有一個(gè)或多個(gè)維度的特征集進(jìn)行分類聚合，形成多個(gè)樣本；計(jì)算每一樣本對(duì)應(yīng)的用戶行為統(tǒng)計(jì)信息，用戶行為統(tǒng)計(jì)信息包括用戶流量數(shù)；當(dāng)當(dāng)前樣本對(duì)應(yīng)的用戶流量數(shù)小于流量數(shù)第一閾值時(shí)，計(jì)算當(dāng)前樣本與其他樣本的距離；選擇距離小于距離閾值的其他樣本作為當(dāng)前樣本的鄰近樣本；將當(dāng)前樣本的用戶行為統(tǒng)計(jì)信息與鄰近樣本的用戶行為統(tǒng)計(jì)信息合并生成新樣本；使用新樣本訓(xùn)練預(yù)先建立的機(jī)器學(xué)習(xí)模型，機(jī)器學(xué)習(xí)模型用于根據(jù)特征集在各維度下的特征值預(yù)測(cè)用戶行為。
【專利說明】-種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練方法及裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】，具體涉及一種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練方法及裝置。

【背景技術(shù)】
[0002] 非搜索廣告是區(qū)別于搜索引擎中所投放的關(guān)鍵詞廣告而言的。
[0003] 在信息推薦方案中，包括基于關(guān)鍵詞的信息推薦方式及基于用戶訪問歷史的信息推薦方式?；陉P(guān)鍵詞的信息推薦方式是根據(jù)用戶在搜索引擎中輸入的關(guān)鍵詞來確定向用戶推送的信息?；谟脩粼L問歷史的信息推薦方式則根據(jù)用戶的歷史訪問日志向用戶推送用戶可能感興趣的信息。
[0004] 信息投放平臺(tái)是為網(wǎng)站主和信息投放者提供信息投放服務(wù)的中介平臺(tái)。信息投放平臺(tái)可以使信息投放者更簡(jiǎn)單便捷地選擇信息投放方式及信息投放對(duì)象。在信息投放平臺(tái) 中，信息投放者提供需要投放的信息內(nèi)容或數(shù)據(jù)。
[0005] 基于用戶訪問歷史的信息推薦方式中，當(dāng)用戶訪問某個(gè)網(wǎng)站時(shí)，信息投放平臺(tái)收集用戶的cookie信息、網(wǎng)站類型、IP地址等多維度信息。信息投放平臺(tái)根據(jù)這些信息為進(jìn) 行頁面訪問的當(dāng)前用戶確定推送的信息內(nèi)容。此場(chǎng)景的核心在于用戶的歷史行為的統(tǒng)計(jì)分析，根據(jù)用戶的歷史行為的統(tǒng)計(jì)分析挖掘用戶的偏好或可能感興趣的內(nèi)容。
[0006] 目前，業(yè)界可以基于用戶的歷史數(shù)據(jù)建立統(tǒng)計(jì)模型，并使用模型預(yù)測(cè)用戶行為偏好。用戶的歷史數(shù)據(jù)是包含了在各個(gè)維度上的特征集的樣本集合，每一個(gè)樣本(或樣本點(diǎn)）記錄了特征集，每個(gè)樣本與用戶行為的統(tǒng)計(jì)信息（比如頁面訪問量、點(diǎn)擊率等統(tǒng)計(jì)信息對(duì) 應(yīng)，以鍵（key)-值對(duì)形式表示，如表1所示。特征集和統(tǒng)計(jì)值是由需求方平臺(tái)根據(jù)競(jìng)價(jià)日志記錄得到。
[0007] 表1、特征集與統(tǒng)計(jì)值的關(guān)系示例

【權(quán)利要求】
1. 一種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練方法，其特征在于，包括：收集用戶的歷史訪問數(shù)據(jù)；將用戶的歷史訪問數(shù)據(jù)按照包含有一個(gè)或多個(gè)維度的特征集進(jìn)行分類聚合，形成多個(gè) 樣本；計(jì)算每一樣本對(duì)應(yīng)的用戶行為統(tǒng)計(jì)信息，所述用戶行為統(tǒng)計(jì)信息包括用戶流量數(shù)；當(dāng)當(dāng)前樣本對(duì)應(yīng)的用戶流量數(shù)小于流量數(shù)第一閾值時(shí)，計(jì)算當(dāng)前樣本與其他樣本的距離，所述距離由當(dāng)前樣本對(duì)應(yīng)特征集在各維度下的特征值與其他樣本對(duì)應(yīng)特征集在各維度下的特征值確定；選擇距離小于距離閾值的其他樣本作為當(dāng)前樣本的鄰近樣本；將當(dāng)前樣本的用戶行為統(tǒng)計(jì)信息與鄰近樣本的用戶行為統(tǒng)計(jì)信息合并生成新樣本；使用新樣本訓(xùn)練預(yù)先建立的機(jī)器學(xué)習(xí)模型，所述機(jī)器學(xué)習(xí)模型用于根據(jù)所述特征集在各維度下的特征值預(yù)測(cè)用戶行為。
2. 如權(quán)利要求1所述的方法，其特征在于，所述將用戶的歷史訪問數(shù)據(jù)按照包含有一個(gè)或多個(gè)維度的特征集進(jìn)行分類聚合，形成多個(gè)樣本，包括：選擇一個(gè)或多個(gè)維度作為基準(zhǔn)維度；將所述基準(zhǔn)維度對(duì)應(yīng)的特征的特征值相同的歷史訪問數(shù)據(jù)集合為一個(gè)樣本。
3. 如權(quán)利要求1所述的方法，其特征在于，所述特征集包括用戶的特征及用戶訪問的對(duì)象的特征。
4. 如權(quán)利要求3所述的方法，其特征在于，所述用戶的特征包括：用戶的IP地址信息、用戶行為的時(shí)間信息及用戶的類型中的一種或多種維度。
5. 如權(quán)利要求3所述的方法，其特征在于，所述用戶訪問的對(duì)象的特征包括：該對(duì)象的類型、該對(duì)象來源網(wǎng)站的類型、該對(duì)象在頁面的位置信息及該對(duì)象的尺寸信息中的一種或多種維度。
6. 如權(quán)利要求1所述的方法，其特征在于，所述計(jì)算當(dāng)前樣本與其他樣本的距離，包括：采用下式計(jì)算當(dāng)前樣本與其他樣本的距離：
,,i〇,//(x；=χ；) 苴中 /(X1-X2) = ^ 八11 ' 其中，Distance (keyl,key2)表示當(dāng)前樣本與其他樣本的距離％為特征集中第i個(gè)維度的權(quán)重，η為特征集的總維度數(shù)，4、$分別為當(dāng)前樣本和其他樣本在第i個(gè)維度對(duì)應(yīng)的特征的特征值。
7. 如權(quán)利要求1所述的方法，其特征在于：所述選擇距離小于距離閾值的其他樣本作為當(dāng)前樣本的鄰近樣本后，所述方法還包括：過濾鄰近樣本，一旦當(dāng)前樣本與所有鄰近樣本的用戶流量數(shù)之和大于流量數(shù)第二閾值下限時(shí)，停止過濾。
8. -種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練裝置，其特征在于，包括數(shù)據(jù)收集單元、樣本形成單元、統(tǒng)計(jì)信息計(jì)算單元、距離計(jì)算單元、鄰近樣本選擇單元和訓(xùn)練單元，其中：所述數(shù)據(jù)收集單元，用于收集用戶的歷史訪問數(shù)據(jù)；所述樣本形成單元，用于將用戶的歷史訪問數(shù)據(jù)按照包含有一個(gè)或多個(gè)維度的特征集進(jìn)行分類聚合，形成多個(gè)樣本；所述統(tǒng)計(jì)信息計(jì)算單元，用于計(jì)算每一樣本對(duì)應(yīng)的用戶行為統(tǒng)計(jì)信息，所述用戶行為統(tǒng)計(jì)信息包括用戶流量數(shù)；所述距離計(jì)算單元，用于當(dāng)當(dāng)前樣本對(duì)應(yīng)的用戶流量數(shù)小于流量數(shù)第一閾值時(shí)，計(jì)算當(dāng)前樣本與其他樣本的距離，所述距離由當(dāng)前樣本對(duì)應(yīng)特征集在各維度下的特征值與其他樣本對(duì)應(yīng)特征集在各維度下的特征值確定；所述鄰近樣本選擇單元，用于選擇距離小于距離閾值的其他樣本作為當(dāng)前樣本的鄰近樣本；所述訓(xùn)練單元，用于將當(dāng)前樣本的用戶行為統(tǒng)計(jì)信息與鄰近樣本的用戶行為統(tǒng)計(jì)信息合并生成新樣本，使用新樣本訓(xùn)練預(yù)先建立的機(jī)器學(xué)習(xí)模型，所述機(jī)器學(xué)習(xí)模型用于根據(jù) 所述特征集在各維度下的特征值預(yù)測(cè)用戶行為。
9. 如權(quán)利要求8所述的訓(xùn)練裝置，其特征在于，所述樣本形成單元將用戶的歷史訪問數(shù)據(jù)按照包含有一個(gè)后多個(gè)維度的特征集進(jìn)行分類聚合，形成多個(gè)樣本，包括：所述樣本形成單元選擇一個(gè)或多個(gè)維度作為基準(zhǔn)維度，將所述基準(zhǔn)維度對(duì)應(yīng)的特征的特征值相同的歷史訪問數(shù)據(jù)集合為一個(gè)樣本。
10. 如權(quán)利要求8所述的訓(xùn)練裝置，其特征在于，所述特征集包括用戶的特征及用戶訪問的對(duì)象的特征。
11. 如權(quán)利要求10所述的訓(xùn)練裝置，其特征在于，所述用戶的特征包括：用戶的IP地址信息、用戶行為的時(shí)間信息及用戶的類型中的一種或多種維度。
12. 如權(quán)利要求10所述的訓(xùn)練裝置，其特征在于，所述用戶訪問的對(duì)象的特征包括：該對(duì)象的類型、該對(duì)象來源網(wǎng)站的類型、該對(duì)象在頁面的位置信息及該對(duì)象的尺寸信息中的一種或多種維度。
13. 如權(quán)利要求8所述的訓(xùn)練裝置，其特征在于，所述距離計(jì)算單元計(jì)算當(dāng)前樣本與其他樣本的距離，包括：所述距離計(jì)算單元采用下式計(jì)算當(dāng)前樣本與其他樣本的距離：
,.! \Q,if{x)=x;) a中，/(χ; _χ,') = 4 ΧυΜφχ：) ? 其中，Distance(keyl，key2)表示當(dāng)前樣本與其他樣本的距離％為特征集中第i個(gè)維度的權(quán)重，η為特征集的總維度數(shù)，< <分別為當(dāng)前樣本和其他樣本在第i個(gè)維度對(duì)應(yīng)的特征的特征值。
14.如權(quán)利要求8所述的訓(xùn)練裝置，其特征在于：所述鄰近樣本選擇單元還用于在選擇距離小于距離閾值的其他樣本作為當(dāng)前樣本的鄰近樣本后，過濾鄰近樣本，一旦當(dāng)前樣本與所有鄰近樣本的用戶流量數(shù)之和大于流量數(shù) 第二閾值下限時(shí)，停止過濾。
【文檔編號(hào)】G06F17/30GK104239351SQ201310247161
【公開日】2014年12月24日申請(qǐng)日期:2013年6月20日優(yōu)先權(quán)日:2013年6月20日
【發(fā)明者】何憲, 殷維棟, 孟曉楠申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：何憲;殷維棟;孟曉楠
技術(shù)所有人：阿里巴巴集團(tuán)控股有限公司
我是此專利的發(fā)明人

上一篇：數(shù)據(jù)卡、數(shù)據(jù)卡切換方法及裝置制造方法
上一篇：一種基于遙控器的加密解密方法及裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種用戶行為的機(jī)器學(xué)習(xí)模型的訓(xùn)練方法及裝置制造方法