訓(xùn)練推薦模型的方法、裝置及推薦系統(tǒng)的制作方法

文檔序號：9818333閱讀：610來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

訓(xùn)練推薦模型的方法、裝置及推薦系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域，尤其涉及對訓(xùn)練推薦模型的方法、裝置及推薦系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展，網(wǎng)站平臺（例如汽車之家)可以提供大量的例如資訊、新聞、廣告等內(nèi)容，以滿足用戶對信息的需求。然而，用戶在面對大量信息時，很難從中獲取到自己真正感興趣的那部分。
[0003] 通常而言，在用戶通過搜索引擎或者直接在網(wǎng)站中瀏覽網(wǎng)頁時，網(wǎng)頁中可以顯示推薦給用戶的信息。網(wǎng)站平臺可以通過推薦系統(tǒng)選定待推薦的信息。例如，推薦系統(tǒng)可以通過點擊率預(yù)估的方式，確定被推薦信息被用戶點擊的概率。在擁有海量用戶和硬件資源有限的前提下，目前大部分點擊率預(yù)估系統(tǒng)仍舊采用線性模型(LR)進(jìn)行模型訓(xùn)練，帶來的缺點是不能發(fā)掘不同特征間的相互作用，且通過人為添加交互項時對交互項的選擇費時費力。此外，現(xiàn)有的技術(shù)方案，通過龐大的樣本特征來訓(xùn)練推薦模型，會占用大量的資源，且技術(shù)效率較低。

【發(fā)明內(nèi)容】

[0004] 為此，本發(fā)明提供一種新的推薦方案，有效的解決了上面至少一個問題。
[0005] 根據(jù)本發(fā)明的一個方面，提供一種訓(xùn)練推薦模型的方法。該方法包括以下步驟。獲取多條訪問日志。其中每條訪問日志是對用戶訪問頁面操作的數(shù)據(jù)記錄。每次用戶所訪問的頁面適于呈現(xiàn)推薦信息。每條訪問日志包括用于標(biāo)識用戶對所訪問頁面中推薦信息的點擊次數(shù)。從每條訪問日志中提取用于標(biāo)識其對應(yīng)的頁面所呈現(xiàn)的推薦信息的第一特征，并且提取用于標(biāo)識該頁面上下文信息的第二特征。獲取每條訪問日志所關(guān)聯(lián)的用戶對各種推薦信息的興趣度排序值，并查詢與這條訪問日志對應(yīng)頁面所呈現(xiàn)的推薦信息對應(yīng)的興趣度排序值作為第三特征。將每條訪問日志對應(yīng)的點擊次數(shù)、第一特征、第二特征和第三特征合并為一條第一樣本數(shù)據(jù)。將第一特征、第二特征和第三特征相同的第一樣本數(shù)據(jù)歸類為一組樣本，并將每組樣本聚合為一條第二樣本數(shù)據(jù)。其中，每條第二樣本數(shù)據(jù)包括其所對應(yīng)一組樣本的樣本總數(shù)和點擊總次數(shù)。利用第二樣本數(shù)據(jù)對推薦模型進(jìn)行參數(shù)訓(xùn)練操作，以獲取第一特征、第二特征和第三特征中每一個特征項的參數(shù)值。
[0006] 可選地，根據(jù)本發(fā)明的訓(xùn)練推薦模型的方法，在將每組樣本聚合為一條第二樣本數(shù)據(jù)后，并且在對推薦模型進(jìn)行參數(shù)訓(xùn)練操作之前，還包括以下步驟。根據(jù)采樣率選定預(yù)定數(shù)量的點擊總次數(shù)為〇的第二樣本數(shù)據(jù)。從所選定數(shù)據(jù)中隨機選擇一條第二樣本數(shù)據(jù)進(jìn)行保留，并刪除所選定數(shù)據(jù)中其余的第二樣本數(shù)據(jù)。將所保留這條第二樣本數(shù)據(jù)中樣本總數(shù) 更新為對所選定數(shù)據(jù)中每個第二樣本數(shù)據(jù)的樣本總數(shù)進(jìn)行累計之和。
[0007] 可選地，在根據(jù)本發(fā)明的訓(xùn)練推薦模型的方法中，第一特征包括所呈現(xiàn)的推薦信息的標(biāo)識ID、主題關(guān)鍵詞和該推薦信息在頁面中的呈現(xiàn)位置中至少一個特征項。第二特征包括頁面標(biāo)識ID、頁面主題、頁面等級和頁面上下文鏈接中至少一個特征項。
[0008] 可選地，在根據(jù)本發(fā)明的訓(xùn)練推薦模型的方法中，推薦信息為汽車信息。第三特征包括用戶對車型、車系、品牌中至少一個特征項的興趣度排序值。
[0009] 可選地，在根據(jù)本發(fā)明的訓(xùn)練推薦模型的方法中，從每條訪問日志中提取用于標(biāo) 識所對應(yīng)的頁面所呈現(xiàn)的推薦信息的第一特征，并且提取用于標(biāo)識該頁面上下文信息的第二特征的步驟包括:基于分布式計算方式，并通過map-reduce方式對所述多條訪問日志進(jìn) 行特征提取，以獲取每條訪問日志對應(yīng)的第一特征和第二特征。
[0010] 可選地，根據(jù)本發(fā)明的訓(xùn)練推薦模型的方法還包括:獲取最新預(yù)定時長內(nèi)新增的訪問日志，并生成該訪問日志對應(yīng)的樣本數(shù)據(jù);根據(jù)該樣本數(shù)據(jù)對所述推薦模型進(jìn)行參數(shù) 訓(xùn)練操作。
[0011 ]可選地，在根據(jù)本發(fā)明的訓(xùn)練推薦模型的方法中，推薦模型為Factorization Machines(FM)模型：
[0013]其中，Xi為第i個特征項，WQ為全局偏移參數(shù)，^為特征項^的參數(shù)，^為^特征項的分解向量參數(shù)，n為第一特征、第二特征和第三特征中特征項總數(shù)，j)(X)為預(yù)測值。
[0014]推薦模型對應(yīng)的損失函數(shù)為：
[0016] 其中，loss為損失值，elk為每條第二樣本數(shù)據(jù)中點擊總次數(shù)，pv為每條第二樣本數(shù)據(jù)中樣本總數(shù)；
[0017] 所述推薦模型對應(yīng)的梯度函數(shù)為：
[0018] grad= (pred-1 · 0)*clk+pred*(pv_clk)
[0019] 其中，grad為梯度值，pred為根據(jù)梯度函數(shù)和損失函數(shù)對推薦模型進(jìn)行訓(xùn)練過程中，每次迭代得到的預(yù)測值iHx) 〇
[0020] 根據(jù)本發(fā)明的又一個方面，提供一種訓(xùn)練推薦模型的裝置，包括日志獲取單元、第一特征提取單元、第二特征提取單元、樣本生成單元、樣本聚合單元和模型訓(xùn)練單元。
[0021] 日志獲取單元適于獲取多條訪問日志。其中每條訪問日志是對用戶訪問頁面(PV) 操作的數(shù)據(jù)記錄。每次用戶所訪問的頁面適于呈現(xiàn)推薦信息。每條訪問日志包括用于標(biāo)識用戶對所訪問頁面中推薦信息的點擊次數(shù)(click)。
[0022] 第一特征提取單元適于從每條訪問日志中提取用于標(biāo)識其對應(yīng)的頁面所呈現(xiàn)的推薦信息的第一特征，并且提取用于標(biāo)識該頁面上下文信息的第二特征。
[0023] 第二特征提取單元適于獲取每條訪問日志所關(guān)聯(lián)的用戶對各種推薦信息的興趣度排序值，并查詢與這條訪問日志對應(yīng)頁面所呈現(xiàn)的推薦信息對應(yīng)的興趣度排序值作為第三特征。
[0024] 樣本生成單元適于將每條訪問日志對應(yīng)的點擊次數(shù)、第一特征、第二特征和第三特征合并為一條第一樣本數(shù)據(jù)。
[0025] 樣本聚合單元適于將第一特征、第二特征和第三特征相同的第一樣本數(shù)據(jù)歸類為一組樣本，并將每組樣本聚合為一條第二樣本數(shù)據(jù)。其中，每條第二樣本數(shù)據(jù)包括其所對應(yīng) 一組樣本的樣本總數(shù)和點擊總次數(shù)。
[0026] 模型訓(xùn)練單元適于利用所述第二樣本數(shù)據(jù)對推薦模型進(jìn)行參數(shù)訓(xùn)練操作，以獲取所述第一特征、第二特征和第三特征中每一個特征項的參數(shù)值。
[0027] 根據(jù)本發(fā)明的又一個方面，提供一種推薦系統(tǒng)包括訪問日志存儲裝置、頁面存儲裝置、推薦信息存儲裝置、用戶信息存儲裝置、根據(jù)本發(fā)明的訓(xùn)練推薦模型的裝置和推薦裝置。訪問日志存儲裝置適于存儲用戶對頁面進(jìn)行訪問的記錄數(shù)據(jù)。頁面存儲裝置適于存儲多個頁面數(shù)據(jù)。推薦信息存儲裝置適于存放多個推薦信息。用戶信息存儲裝，適于存放用戶特征信息。推薦裝置適于利用推薦模型預(yù)測用戶對所要訪問的頁面上所要呈現(xiàn)的推薦信息的點擊率。
[0028] 根據(jù)本發(fā)明的訓(xùn)練推薦模型的技術(shù)方案，通過采用非線性的推薦模型，可以充分挖掘不同特征之間的關(guān)系，從而提高了推薦模型實例的準(zhǔn)確率。另外，在訓(xùn)練樣本生成階段，本發(fā)明的技術(shù)方案可以對用戶興趣度特征進(jìn)行排序并進(jìn)行二次處理，可以提取到用戶的主要特征，并且減小特征冗余和提高了模型訓(xùn)練的效率。再者，本發(fā)明的技術(shù)方案通過對樣本進(jìn)行聚合操作和降采樣操作，進(jìn)一步降低了樣本數(shù)據(jù)量，節(jié)省了存儲空間，并且提高了模型訓(xùn)練的效率。以及，本發(fā)明的技術(shù)方案通過對最新增加的數(shù)據(jù)進(jìn)行及時訓(xùn)練，可以提高新的推薦信息的預(yù)測準(zhǔn)確率，從而有效解決了數(shù)據(jù)冷啟動的問題。
【附圖說明】
[0029] 為了實現(xiàn)上述以及相關(guān)目的，本文結(jié)合下面的描述和附圖來描述某些說明性方面，這些方面指示了可以實踐本文所公開的原理的各種方式，并且所有方面及其等效方面旨在落入所要求保護(hù)的主題的范圍內(nèi)。通過結(jié)合附圖閱讀下面的詳細(xì)描述，本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯。遍及本公開，相同的附圖標(biāo)記通常指代相同的部件或元素。
[0030] 圖1示出了根據(jù)本發(fā)明的示例性推薦系統(tǒng)100的示意圖；
[0031] 圖2示出了根據(jù)本發(fā)明一些實施例的訓(xùn)練推薦模型的裝置200的框圖；以及
[0032] 圖3示出了根據(jù)本發(fā)明一些實施例的訓(xùn)練推薦模型的方法300的流程圖。
【具體實施方式】
[0033] 下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例，然而應(yīng)當(dāng)理解，可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反，提供這些實施例是為了能夠更透徹地理解本公開，并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0034] 圖1示出了根據(jù)本發(fā)明的示例性推薦系統(tǒng)100的示意圖。在用戶瀏覽網(wǎng)站(例如汽車之家等）的各級頁面或者用戶通過搜索引擎查詢與其輸入關(guān)鍵詞相關(guān)的頁面時，推薦系統(tǒng)100適于向用戶所瀏覽的各級頁面或者所查詢到的頁面中添加推薦信息，以便用戶查看或者點擊。這里，推薦信息例如可以是新聞資訊、廣告信息或者用戶所要查詢信息等內(nèi)容本身或者網(wǎng)址鏈接（即推薦信息的具體內(nèi)容的URL)。另外，頁面是指網(wǎng)站的基本元素，例如是包含HTML標(biāo)簽的文本文件，但不限于此。用戶可以通過向頁面服務(wù)器請求頁面訪問，進(jìn)而在用戶終端（即各種可以瀏覽網(wǎng)頁的計算設(shè)備，例如手機、iPad、筆記本電腦等）中顯示所請求的頁面。需要說明的是，所請求的頁面包

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王亞龍;
技術(shù)所有人：車智互聯(lián)（北京）科技有限公司;
我是此專利的發(fā)明人

上一篇：訓(xùn)練分類模型的方法及裝置、對搜索詞分類的方法及裝置的制造方法
上一篇：音樂搜索方法和裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

系統(tǒng)動力學(xué)模型相關(guān)技術(shù)

灰色系統(tǒng)模型相關(guān)技術(shù)

淋巴系統(tǒng)模型相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

訓(xùn)練推薦模型的方法、裝置及推薦系統(tǒng)的制作方法

訓(xùn)練推薦模型的方法、裝置及推薦系統(tǒng)的制作方法