訓(xùn)練推薦模型的方法、裝置及推薦系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及對訓(xùn)練推薦模型的方法、裝置及推薦系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)站平臺(例如汽車之家)可以提供大量的例如資訊、新 聞、廣告等內(nèi)容,以滿足用戶對信息的需求。然而,用戶在面對大量信息時,很難從中獲取到 自己真正感興趣的那部分。
[0003] 通常而言,在用戶通過搜索引擎或者直接在網(wǎng)站中瀏覽網(wǎng)頁時,網(wǎng)頁中可以顯示 推薦給用戶的信息。網(wǎng)站平臺可以通過推薦系統(tǒng)選定待推薦的信息。例如,推薦系統(tǒng)可以通 過點擊率預(yù)估的方式,確定被推薦信息被用戶點擊的概率。在擁有海量用戶和硬件資源有 限的前提下,目前大部分點擊率預(yù)估系統(tǒng)仍舊采用線性模型(LR)進(jìn)行模型訓(xùn)練,帶來的缺 點是不能發(fā)掘不同特征間的相互作用,且通過人為添加交互項時對交互項的選擇費時費 力。此外,現(xiàn)有的技術(shù)方案,通過龐大的樣本特征來訓(xùn)練推薦模型,會占用大量的資源,且技 術(shù)效率較低。
【發(fā)明內(nèi)容】
[0004] 為此,本發(fā)明提供一種新的推薦方案,有效的解決了上面至少一個問題。
[0005] 根據(jù)本發(fā)明的一個方面,提供一種訓(xùn)練推薦模型的方法。該方法包括以下步驟。獲 取多條訪問日志。其中每條訪問日志是對用戶訪問頁面操作的數(shù)據(jù)記錄。每次用戶所訪問 的頁面適于呈現(xiàn)推薦信息。每條訪問日志包括用于標(biāo)識用戶對所訪問頁面中推薦信息的點 擊次數(shù)。從每條訪問日志中提取用于標(biāo)識其對應(yīng)的頁面所呈現(xiàn)的推薦信息的第一特征,并 且提取用于標(biāo)識該頁面上下文信息的第二特征。獲取每條訪問日志所關(guān)聯(lián)的用戶對各種推 薦信息的興趣度排序值,并查詢與這條訪問日志對應(yīng)頁面所呈現(xiàn)的推薦信息對應(yīng)的興趣度 排序值作為第三特征。將每條訪問日志對應(yīng)的點擊次數(shù)、第一特征、第二特征和第三特征合 并為一條第一樣本數(shù)據(jù)。將第一特征、第二特征和第三特征相同的第一樣本數(shù)據(jù)歸類為一 組樣本,并將每組樣本聚合為一條第二樣本數(shù)據(jù)。其中,每條第二樣本數(shù)據(jù)包括其所對應(yīng)一 組樣本的樣本總數(shù)和點擊總次數(shù)。利用第二樣本數(shù)據(jù)對推薦模型進(jìn)行參數(shù)訓(xùn)練操作,以獲 取第一特征、第二特征和第三特征中每一個特征項的參數(shù)值。
[0006] 可選地,根據(jù)本發(fā)明的訓(xùn)練推薦模型的方法,在將每組樣本聚合為一條第二樣本 數(shù)據(jù)后,并且在對推薦模型進(jìn)行參數(shù)訓(xùn)練操作之前,還包括以下步驟。根據(jù)采樣率選定預(yù)定 數(shù)量的點擊總次數(shù)為〇的第二樣本數(shù)據(jù)。從所選定數(shù)據(jù)中隨機選擇一條第二樣本數(shù)據(jù)進(jìn)行 保留,并刪除所選定數(shù)據(jù)中其余的第二樣本數(shù)據(jù)。將所保留這條第二樣本數(shù)據(jù)中樣本總數(shù) 更新為對所選定數(shù)據(jù)中每個第二樣本數(shù)據(jù)的樣本總數(shù)進(jìn)行累計之和。
[0007] 可選地,在根據(jù)本發(fā)明的訓(xùn)練推薦模型的方法中,第一特征包括所呈現(xiàn)的推薦信 息的標(biāo)識ID、主題關(guān)鍵詞和該推薦信息在頁面中的呈現(xiàn)位置中至少一個特征項。第二特征 包括頁面標(biāo)識ID、頁面主題、頁面等級和頁面上下文鏈接中至少一個特征項。
[0008] 可選地,在根據(jù)本發(fā)明的訓(xùn)練推薦模型的方法中,推薦信息為汽車信息。第三特征 包括用戶對車型、車系、品牌中至少一個特征項的興趣度排序值。
[0009] 可選地,在根據(jù)本發(fā)明的訓(xùn)練推薦模型的方法中,從每條訪問日志中提取用于標(biāo) 識所對應(yīng)的頁面所呈現(xiàn)的推薦信息的第一特征,并且提取用于標(biāo)識該頁面上下文信息的第 二特征的步驟包括:基于分布式計算方式,并通過map-reduce方式對所述多條訪問日志進(jìn) 行特征提取,以獲取每條訪問日志對應(yīng)的第一特征和第二特征。
[0010] 可選地,根據(jù)本發(fā)明的訓(xùn)練推薦模型的方法還包括:獲取最新預(yù)定時長內(nèi)新增的 訪問日志,并生成該訪問日志對應(yīng)的樣本數(shù)據(jù);根據(jù)該樣本數(shù)據(jù)對所述推薦模型進(jìn)行參數(shù) 訓(xùn)練操作。
[0011 ]可選地,在根據(jù)本發(fā)明的訓(xùn)練推薦模型的方法中,推薦模型為Factorization Machines(FM)模型:
[0013]其中,Xi為第i個特征項,WQ為全局偏移參數(shù),^為特征項^的參數(shù),^為^特征項的 分解向量參數(shù),n為第一特征、第二特征和第三特征中特征項總數(shù),j)(X)為預(yù)測值。
[0014]推薦模型對應(yīng)的損失函數(shù)為:
[0016] 其中,loss為損失值,elk為每條第二樣本數(shù)據(jù)中點擊總次數(shù),pv為每條第二樣本 數(shù)據(jù)中樣本總數(shù);
[0017] 所述推薦模型對應(yīng)的梯度函數(shù)為:
[0018] grad= (pred-1 · 0)*clk+pred*(pv_clk)
[0019] 其中,grad為梯度值,pred為根據(jù)梯度函數(shù)和損失函數(shù)對推薦模型進(jìn)行訓(xùn)練過程 中,每次迭代得到的預(yù)測值iHx) 〇
[0020] 根據(jù)本發(fā)明的又一個方面,提供一種訓(xùn)練推薦模型的裝置,包括日志獲取單元、第 一特征提取單元、第二特征提取單元、樣本生成單元、樣本聚合單元和模型訓(xùn)練單元。
[0021] 日志獲取單元適于獲取多條訪問日志。其中每條訪問日志是對用戶訪問頁面(PV) 操作的數(shù)據(jù)記錄。每次用戶所訪問的頁面適于呈現(xiàn)推薦信息。每條訪問日志包括用于標(biāo)識 用戶對所訪問頁面中推薦信息的點擊次數(shù)(click)。
[0022] 第一特征提取單元適于從每條訪問日志中提取用于標(biāo)識其對應(yīng)的頁面所呈現(xiàn)的 推薦信息的第一特征,并且提取用于標(biāo)識該頁面上下文信息的第二特征。
[0023] 第二特征提取單元適于獲取每條訪問日志所關(guān)聯(lián)的用戶對各種推薦信息的興趣 度排序值,并查詢與這條訪問日志對應(yīng)頁面所呈現(xiàn)的推薦信息對應(yīng)的興趣度排序值作為第 三特征。
[0024] 樣本生成單元適于將每條訪問日志對應(yīng)的點擊次數(shù)、第一特征、第二特征和第三 特征合并為一條第一樣本數(shù)據(jù)。
[0025] 樣本聚合單元適于將第一特征、第二特征和第三特征相同的第一樣本數(shù)據(jù)歸類為 一組樣本,并將每組樣本聚合為一條第二樣本數(shù)據(jù)。其中,每條第二樣本數(shù)據(jù)包括其所對應(yīng) 一組樣本的樣本總數(shù)和點擊總次數(shù)。
[0026] 模型訓(xùn)練單元適于利用所述第二樣本數(shù)據(jù)對推薦模型進(jìn)行參數(shù)訓(xùn)練操作,以獲取 所述第一特征、第二特征和第三特征中每一個特征項的參數(shù)值。
[0027] 根據(jù)本發(fā)明的又一個方面,提供一種推薦系統(tǒng)包括訪問日志存儲裝置、頁面存儲 裝置、推薦信息存儲裝置、用戶信息存儲裝置、根據(jù)本發(fā)明的訓(xùn)練推薦模型的裝置和推薦裝 置。訪問日志存儲裝置適于存儲用戶對頁面進(jìn)行訪問的記錄數(shù)據(jù)。頁面存儲裝置適于存儲 多個頁面數(shù)據(jù)。推薦信息存儲裝置適于存放多個推薦信息。用戶信息存儲裝,適于存放用戶 特征信息。推薦裝置適于利用推薦模型預(yù)測用戶對所要訪問的頁面上所要呈現(xiàn)的推薦信息 的點擊率。
[0028] 根據(jù)本發(fā)明的訓(xùn)練推薦模型的技術(shù)方案,通過采用非線性的推薦模型,可以充分 挖掘不同特征之間的關(guān)系,從而提高了推薦模型實例的準(zhǔn)確率。另外,在訓(xùn)練樣本生成階 段,本發(fā)明的技術(shù)方案可以對用戶興趣度特征進(jìn)行排序并進(jìn)行二次處理,可以提取到用戶 的主要特征,并且減小特征冗余和提高了模型訓(xùn)練的效率。再者,本發(fā)明的技術(shù)方案通過對 樣本進(jìn)行聚合操作和降采樣操作,進(jìn)一步降低了樣本數(shù)據(jù)量,節(jié)省了存儲空間,并且提高了 模型訓(xùn)練的效率。以及,本發(fā)明的技術(shù)方案通過對最新增加的數(shù)據(jù)進(jìn)行及時訓(xùn)練,可以提高 新的推薦信息的預(yù)測準(zhǔn)確率,從而有效解決了數(shù)據(jù)冷啟動的問題。
【附圖說明】
[0029] 為了實現(xiàn)上述以及相關(guān)目的,本文結(jié)合下面的描述和附圖來描述某些說明性方 面,這些方面指示了可以實踐本文所公開的原理的各種方式,并且所有方面及其等效方面 旨在落入所要求保護(hù)的主題的范圍內(nèi)。通過結(jié)合附圖閱讀下面的詳細(xì)描述,本公開的上述 以及其它目的、特征和優(yōu)勢將變得更加明顯。遍及本公開,相同的附圖標(biāo)記通常指代相同的 部件或元素。
[0030] 圖1示出了根據(jù)本發(fā)明的示例性推薦系統(tǒng)100的示意圖;
[0031] 圖2示出了根據(jù)本發(fā)明一些實施例的訓(xùn)練推薦模型的裝置200的框圖;以及
[0032] 圖3示出了根據(jù)本發(fā)明一些實施例的訓(xùn)練推薦模型的方法300的流程圖。
【具體實施方式】
[0033] 下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開 的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例 所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0034] 圖1示出了根據(jù)本發(fā)明的示例性推薦系統(tǒng)100的示意圖。在用戶瀏覽網(wǎng)站(例如汽 車之家等)的各級頁面或者用戶通過搜索引擎查詢與其輸入關(guān)鍵詞相關(guān)的頁面時,推薦系 統(tǒng)100適于向用戶所瀏覽的各級頁面或者所查詢到的頁面中添加推薦信息,以便用戶查看 或者點擊。這里,推薦信息例如可以是新聞資訊、廣告信息或者用戶所要查詢信息等內(nèi)容本 身或者網(wǎng)址鏈接(即推薦信息的具體內(nèi)容的URL)。另外,頁面是指網(wǎng)站的基本元素,例如是 包含HTML標(biāo)簽的文本文件,但不限于此。用戶可以通過向頁面服務(wù)器請求頁面訪問,進(jìn)而在 用戶終端(即各種可以瀏覽網(wǎng)頁的計算設(shè)備,例如手機、iPad、筆記本電腦等)中顯示所請求 的頁面。需要說明的是,所請求的頁面包