亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種數(shù)據(jù)處理方法、裝置及設(shè)備與流程

文檔序號(hào):11155429閱讀:617來(lái)源:國(guó)知局
一種數(shù)據(jù)處理方法、裝置及設(shè)備與制造工藝

本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及一種數(shù)據(jù)處理方法、裝置及設(shè)備。



背景技術(shù):

隨著網(wǎng)絡(luò)中內(nèi)容的爆炸式增長(zhǎng),如何基于用戶的興趣向用戶推薦感興趣的內(nèi)容是一個(gè)亟待解決的問(wèn)題。為了解決該問(wèn)題,可以根據(jù)用戶的反饋、點(diǎn)擊閱讀等用戶行為,結(jié)合內(nèi)容本身的標(biāo)簽屬性,統(tǒng)計(jì)用戶行為在各個(gè)標(biāo)簽上的分布,作為內(nèi)容推薦的依據(jù)。然而在實(shí)踐中發(fā)現(xiàn),熱門內(nèi)容的大量展示和點(diǎn)擊往往導(dǎo)致用戶行為集中在一些熱門標(biāo)簽上,無(wú)法突出用戶的個(gè)性化興趣,從而導(dǎo)致內(nèi)容推薦的效率較低。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例提供一種數(shù)據(jù)處理方法、裝置及設(shè)備,能夠突出用戶的個(gè)性化興趣,提高內(nèi)容推薦的效率。

本發(fā)明實(shí)施例第一方面提供一種數(shù)據(jù)處理方法,包括:

根據(jù)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條信息的各標(biāo)簽的權(quán)重獲取所述用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重;

計(jì)算所述用戶在所述每個(gè)標(biāo)簽上的累計(jì)權(quán)重與所述用戶在所有標(biāo)簽上的總累計(jì)權(quán)重之間的比值,作為所述用戶在所述每個(gè)標(biāo)簽的累計(jì)權(quán)重分布;

根據(jù)所述用戶在所述每個(gè)標(biāo)簽上的累計(jì)權(quán)重分布以及所述場(chǎng)景下所有用戶在所述每個(gè)標(biāo)簽上對(duì)應(yīng)的總累計(jì)權(quán)重分布,確定所述用戶在所述每個(gè)標(biāo)簽上的興趣權(quán)重;

利用所述每個(gè)標(biāo)簽以及所述每個(gè)標(biāo)簽上所述用戶的興趣權(quán)重生成所述場(chǎng)景下所述用戶的興趣分布向量。

可選的,針對(duì)場(chǎng)景集合中的每個(gè)場(chǎng)景,利用所述用戶在所述場(chǎng)景下所述每個(gè)標(biāo)簽上的興趣權(quán)重、所述用戶在所述場(chǎng)景下在所有標(biāo)簽上的總累計(jì)權(quán)重以及所述用戶在所述場(chǎng)景集合中所有場(chǎng)景下的總累計(jì)權(quán)重,確定所述用戶在所述場(chǎng)景下在所述每個(gè)標(biāo)簽上的興趣權(quán)重比例;

針對(duì)每個(gè)標(biāo)簽,計(jì)算所述用戶在所述所有場(chǎng)景下在所述標(biāo)簽上的所述興趣權(quán)重比例之和,作為所述用戶在所述所有場(chǎng)景下在所述標(biāo)簽上的總興趣權(quán)重;

利用所述每個(gè)標(biāo)簽以及所述用戶在所述每個(gè)標(biāo)簽對(duì)應(yīng)的所述總興趣權(quán)重,生成所述用戶在所述所有場(chǎng)景下的最終的興趣分布向量。

可選的,根據(jù)用戶在場(chǎng)景下歷史行為數(shù)據(jù)中每條信息的特征,將所述每條信息量化為標(biāo)簽向量,所述標(biāo)簽向量包括所述每條信息具有的標(biāo)簽以及所述每個(gè)標(biāo)簽的權(quán)重。

可選的,所述根據(jù)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條行為信息的各標(biāo)簽的權(quán)重獲取所述用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重,包括:針對(duì)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)中的每條信息,計(jì)算所述每條信息的每個(gè)標(biāo)簽的權(quán)重與所述每條信息對(duì)應(yīng)的歷史行為產(chǎn)生時(shí)刻距離當(dāng)前時(shí)刻的衰減因子之間的乘積,作為所述每條信息的整體權(quán)重;計(jì)算所述用戶的歷史行為對(duì)應(yīng)的所有信息的整體權(quán)重之和,作為所述用戶在所述每個(gè)標(biāo)簽上的累計(jì)權(quán)重。

可選的,以預(yù)設(shè)周期獲取用戶在各場(chǎng)景下的歷史行為數(shù)據(jù)。

相應(yīng)的,本發(fā)明實(shí)施例第二方面還提供一種數(shù)據(jù)處理裝置,,包括:

第一獲取模塊,用于根據(jù)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條信息的各標(biāo)簽的權(quán)重獲取所述用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重;

計(jì)算模塊,用于計(jì)算所述用戶在所述每個(gè)標(biāo)簽上的累計(jì)權(quán)重與所述用戶在所有標(biāo)簽上的總累計(jì)權(quán)重之間的比值,作為所述用戶在所述每個(gè)標(biāo)簽的累計(jì)權(quán)重分布;

確定模塊,用于根據(jù)所述用戶在所述每個(gè)標(biāo)簽上的累計(jì)權(quán)重分布以及所述場(chǎng)景下所有用戶在所述每個(gè)標(biāo)簽上對(duì)應(yīng)的總累計(jì)權(quán)重分布,確定所述用戶在所述每個(gè)標(biāo)簽上的興趣權(quán)重;

生成模塊,用于利用所述每個(gè)標(biāo)簽以及所述每個(gè)標(biāo)簽上所述用戶的興趣權(quán)重生成所述場(chǎng)景下所述用戶的興趣分布向量。

可選的,所述確定模塊還用于:

針對(duì)場(chǎng)景集合中的每個(gè)場(chǎng)景,利用所述用戶在所述場(chǎng)景下所述每個(gè)標(biāo)簽上的興趣權(quán)重、所述用戶在所述場(chǎng)景下在所有標(biāo)簽上的總累計(jì)權(quán)重以及所述用戶在所述場(chǎng)景集合中所有場(chǎng)景下的總累計(jì)權(quán)重,確定所述用戶在所述場(chǎng)景下在所述每個(gè)標(biāo)簽上的興趣權(quán)重比例;

所述計(jì)算模塊,還用于針對(duì)每個(gè)標(biāo)簽,計(jì)算所述用戶在所述所有場(chǎng)景下在所述標(biāo)簽上的所述興趣權(quán)重比例之和,作為所述用戶在所述所有場(chǎng)景下在所述標(biāo)簽上的總興趣權(quán)重;

所述生成模塊,還用于利用所述每個(gè)標(biāo)簽以及所述用戶在所述每個(gè)標(biāo)簽對(duì)應(yīng)的所述總興趣權(quán)重,生成所述用戶在所述所有場(chǎng)景下的最終的興趣分布向量。

可選的,量化模塊,用于根據(jù)用戶在場(chǎng)景下歷史行為數(shù)據(jù)中每條信息的特征,將所述每條信息量化為標(biāo)簽向量,所述標(biāo)簽向量包括所述每條信息具有的標(biāo)簽以及所述每個(gè)標(biāo)簽的權(quán)重。

可選的,所述第一獲取模塊,具體用于:

針對(duì)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)中的每條信息,計(jì)算所述每條信息的每個(gè)標(biāo)簽的權(quán)重與所述每條信息對(duì)應(yīng)的歷史行為產(chǎn)生時(shí)刻距離當(dāng)前時(shí)刻的衰減因子之間的乘積,作為所述每條信息的整體權(quán)重;

計(jì)算所述用戶的歷史行為對(duì)應(yīng)的所有信息的整體權(quán)重之和,作為所述用戶在所述每個(gè)標(biāo)簽上的累計(jì)權(quán)重。

可選的,第二獲取模塊,用于以預(yù)設(shè)周期獲取用戶在各場(chǎng)景下的歷史行為數(shù)據(jù)。

本發(fā)明實(shí)施例第三方面還提供了一種數(shù)據(jù)處理設(shè)備,包括:處理器、存儲(chǔ)器、通信接口和通信總線;

所述處理器、所述存儲(chǔ)器和所述通信接口通過(guò)所述總線連接并完成相互間的通信;所述存儲(chǔ)器存儲(chǔ)可執(zhí)行程序代碼;所述處理器通過(guò)讀取所述存儲(chǔ)器中存儲(chǔ)的可執(zhí)行程序代碼來(lái)運(yùn)行與所述可執(zhí)行程序代碼對(duì)應(yīng)的程序,以用于執(zhí)行一種數(shù)據(jù)處理方法;其中,所述方法包括:

根據(jù)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條信息的各標(biāo)簽的權(quán)重獲取所述用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重;

計(jì)算所述用戶在所述每個(gè)標(biāo)簽上的累計(jì)權(quán)重與所述用戶在所有標(biāo)簽上的總累計(jì)權(quán)重之間的比值,作為所述用戶在所述每個(gè)標(biāo)簽的累計(jì)權(quán)重分布;

根據(jù)所述用戶在所述每個(gè)標(biāo)簽上的累計(jì)權(quán)重分布以及所述場(chǎng)景下所有用戶在所述每個(gè)標(biāo)簽上對(duì)應(yīng)的總累計(jì)權(quán)重分布,確定所述用戶在所述每個(gè)標(biāo)簽上的興趣權(quán)重;

利用所述每個(gè)標(biāo)簽以及所述每個(gè)標(biāo)簽上所述用戶的興趣權(quán)重生成所述場(chǎng)景下所述用戶的興趣分布向量。

本發(fā)明實(shí)施例中,數(shù)據(jù)處理系統(tǒng)根據(jù)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)以及該歷史行為數(shù)據(jù)中每條信息的各標(biāo)簽的權(quán)重獲取該用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重,可以確定該用戶在每個(gè)標(biāo)簽上的興趣權(quán)重,從而可以生成在該場(chǎng)景下該用戶的興趣分布向量,以突出用戶的個(gè)性化興趣,提高內(nèi)容推薦的效率。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理方法的流程示意圖;

圖2是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理方法的流程示意圖;

圖3是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理方法的流程示意圖;

圖4是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;

圖5是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;

圖6是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理設(shè)備的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

在當(dāng)前信息全球化的趨勢(shì)下,一個(gè)全球化的產(chǎn)品要同時(shí)面對(duì)不同的用戶群體,因此,需要一套統(tǒng)一的建模機(jī)制或者服務(wù)來(lái)對(duì)用戶的歷史行為數(shù)據(jù)進(jìn)行處理獲取用戶的興趣模型。然而,在實(shí)踐中發(fā)現(xiàn),不同場(chǎng)景下,例如,來(lái)自不同國(guó)家、地區(qū)、語(yǔ)種的用戶,屬于不同的用戶群體,由于其文化背景、經(jīng)濟(jì)水平等社會(huì)因素的影響,其對(duì)所需新聞的需求有較大的差異,其接收的信息集合以及用戶興趣的分布也會(huì)有較大的差異。例如,一些發(fā)達(dá)國(guó)家可能更關(guān)注于金融、時(shí)尚,一些發(fā)展中國(guó)家可能更關(guān)注于緊急發(fā)展、社會(huì)、生活類的新聞,相應(yīng)地,不同地區(qū)的群體也會(huì)偏好不同的體育項(xiàng)目;再例如,不同國(guó)家、地區(qū)、語(yǔ)種的用戶看到的新聞集合也大有不同,對(duì)應(yīng)的用戶行為產(chǎn)生的標(biāo)簽分布也會(huì)有較大的差異;再例如,有些地區(qū)的用戶屬于多語(yǔ)種用戶,其在不同語(yǔ)種下的興趣標(biāo)簽集合需要進(jìn)行整合,才能得到完整和統(tǒng)一的用戶興趣集合,為后續(xù)的新聞推薦或者產(chǎn)品推送提供完整、準(zhǔn)確、全面的用戶興趣模型。又例如,用戶在PC、手機(jī)等移動(dòng)終端上多種應(yīng)用上的操作均能反映用戶的喜好,通過(guò)收集、匯總用戶在不同應(yīng)用上的行為,可以為用戶興趣建模提供更多的數(shù)據(jù)支持,有助于提升用戶興趣建模的完整和準(zhǔn)確度。然而,不同應(yīng)用產(chǎn)品上的人群,其看到內(nèi)容以及對(duì)應(yīng)得到反饋的標(biāo)簽整體分布也相應(yīng)地會(huì)有明顯的差異。例如,在瀏覽器、體育、游戲應(yīng)用上投放的新聞或其他內(nèi)容,得到反饋的內(nèi)容的特征分布具有明顯的差異,這兩種應(yīng)用上用戶得出的不同標(biāo)簽的整體流行度。

綜上所述,在對(duì)用戶的歷史行為數(shù)據(jù)進(jìn)行處理的過(guò)程中,需要使用整體的內(nèi)容及標(biāo)簽流行度作為偏差來(lái)輔助用戶個(gè)性化興趣建模。因此,本發(fā)明實(shí)施例中的數(shù)據(jù)處理方法可以考慮不同場(chǎng)景(包括但不限于國(guó)家、地區(qū)、語(yǔ)言、產(chǎn)品)下用戶群體和新聞?wù)w的區(qū)別。針對(duì)不同場(chǎng)景下的用戶的歷史行為數(shù)據(jù),計(jì)算所有場(chǎng)景下的總累計(jì)權(quán)重分布作為計(jì)算相應(yīng)用戶的興趣模型的偏差。即,本發(fā)明實(shí)施例可以將各個(gè)場(chǎng)景下推導(dǎo)出的用戶興趣進(jìn)行整合,建立統(tǒng)一的用戶興趣特征模型,為后續(xù)的推薦任務(wù)、產(chǎn)品、新聞等信息提供完整統(tǒng)一的用戶興趣模型。本發(fā)明實(shí)施例中,通過(guò)考慮用戶在不同場(chǎng)景下的參與度作為當(dāng)前用戶興趣的置信度,通過(guò)線性加權(quán)融合用戶在不同場(chǎng)景下的興趣,得到當(dāng)前用戶的最終興趣模型。

進(jìn)一步的,本發(fā)明實(shí)施例可以對(duì)用戶的興趣模型采用周期性更新計(jì)算流程,每隔一個(gè)固定時(shí)間片對(duì)用戶當(dāng)前興趣模型進(jìn)行更新。由于新聞內(nèi)容和對(duì)應(yīng)的標(biāo)簽集合,以及用戶興趣隨著時(shí)間會(huì)發(fā)生變化,該實(shí)施方式可以更加突出用戶的近期行為,并及時(shí)反映用戶短期興趣的變化。對(duì)用戶閱讀過(guò)的新聞、信息或者使用的應(yīng)用,根據(jù)其閱讀或使用時(shí)間距離當(dāng)前時(shí)間的時(shí)長(zhǎng),使用時(shí)間衰減法,設(shè)置用戶的歷史行為數(shù)據(jù)中每次閱讀或使用行為對(duì)用戶當(dāng)前興趣分布的重要程度。

以下對(duì)本發(fā)明實(shí)施例提供的數(shù)據(jù)處理方法、系統(tǒng)和設(shè)備進(jìn)行詳細(xì)介紹。

請(qǐng)參閱圖1,圖1為本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理方法的流程示意圖,該數(shù)據(jù)處理方法可以由數(shù)據(jù)處理系統(tǒng)來(lái)執(zhí)行,該數(shù)據(jù)處理系統(tǒng)可以設(shè)置在終端或者服務(wù)器中,本發(fā)明實(shí)施例不做限定。如圖1所示,該數(shù)據(jù)處理方法可以包括以下步驟:

101、數(shù)據(jù)處理系統(tǒng)根據(jù)場(chǎng)景集合中每條信息的特征,將每條信息量化為標(biāo)簽向量。

本發(fā)明實(shí)施例中,標(biāo)簽向量包括每條信息具有的標(biāo)簽以及每個(gè)標(biāo)簽在該條信息中的權(quán)重。用戶的興趣通常使用標(biāo)簽化的特征集合來(lái)刻畫(huà)描述,如用戶對(duì)“娛樂(lè)”、“籃球”等標(biāo)簽偏好程度,即興趣度。用tk表示一個(gè)標(biāo)簽,用戶μ歷史上閱讀過(guò)的新聞集合記作C(μ)。對(duì)每個(gè)新聞Ci,其特征的標(biāo)簽表示為<(t1,wi1),(t2,wi2),…,(tn,win)>,其中wik表示標(biāo)簽tk在Ci中的重要程度。例如,針對(duì)新聞推薦,對(duì)用戶閱讀過(guò)的新聞上的標(biāo)簽進(jìn)行本發(fā)明實(shí)施例所述的數(shù)據(jù)處理,就可以得到用戶的歷史行為數(shù)據(jù)在各個(gè)標(biāo)簽上的興趣向量分布。

本發(fā)明實(shí)施例中,將用戶所使用的各個(gè)應(yīng)用,如游戲應(yīng)用、購(gòu)物應(yīng)用、新聞?lì)悜?yīng)用、瀏覽器應(yīng)用等產(chǎn)品,以及國(guó)家、地區(qū)、語(yǔ)言等統(tǒng)稱為不同的場(chǎng)景,相應(yīng)地,該場(chǎng)景不限于上述內(nèi)容;本發(fā)明實(shí)施例中,將用戶閱讀過(guò)的新聞、使用的應(yīng)用等統(tǒng)稱為信息,相應(yīng)地,該信息可以包括但不限于上述內(nèi)容。本發(fā)明實(shí)施例根據(jù)每條信息的特征可以將每條信息歸納出包括多個(gè)標(biāo)簽,例如,該信息為用戶閱讀過(guò)的新聞集合,則可以設(shè)置信息的標(biāo)簽為娛樂(lè)、社會(huì)、明星、犯罪、影視、政治、國(guó)際、科技、健康等,即每條信息可以對(duì)應(yīng)多個(gè)標(biāo)簽。本發(fā)明實(shí)施例中,將標(biāo)簽在該條信息中的重要程度設(shè)置為標(biāo)簽的權(quán)重。

舉例來(lái)說(shuō),用S表示包括各種場(chǎng)景的場(chǎng)景集合,s表示S中的一個(gè)特定場(chǎng)景,用戶μ在場(chǎng)景s中的歷史行為數(shù)據(jù)所對(duì)應(yīng)的信息集合記作C(μ),每條信息記作Ci,每條信息包括的標(biāo)簽可以為n個(gè),分別為t1,t2,…,tk,…,tn,wik表示標(biāo)簽tk在該條信息Ci中的重要程度,即標(biāo)簽tk的權(quán)重。因此,每條信息Ci所量化的標(biāo)簽向量為<(t1,wi1),(t2,wi2),…,(tk,wik),…,(tn,win)>。

102、數(shù)據(jù)處理系統(tǒng)根據(jù)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)以及該歷史行為數(shù)據(jù)中每條信息的各標(biāo)簽的權(quán)重獲取該用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重。

本發(fā)明實(shí)施例中,數(shù)據(jù)處理系統(tǒng)可以根據(jù)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)以及該歷史行為數(shù)據(jù)中每條信息的標(biāo)簽向量獲取用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重。

可選地,數(shù)據(jù)處理系統(tǒng)可以執(zhí)行以下步驟來(lái)確定用戶在標(biāo)簽上的累計(jì)權(quán)重:

針對(duì)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)中的每條信息,計(jì)算所述每條信息的每個(gè)標(biāo)簽的權(quán)重與所述每條信息對(duì)應(yīng)的歷史行為產(chǎn)生時(shí)刻距離當(dāng)前時(shí)刻的衰減因子之間的乘積,作為所述每條信息的整體權(quán)重;計(jì)算所述用戶的歷史行為對(duì)應(yīng)的所有信息的整體權(quán)重之和,作為所述用戶在所述每個(gè)標(biāo)簽上的累計(jì)權(quán)重。

該實(shí)施方式可以根據(jù)用戶對(duì)每條信息的閱讀或使用時(shí)間距離當(dāng)前時(shí)間的時(shí)長(zhǎng),使用時(shí)間衰減法來(lái)設(shè)置標(biāo)簽的權(quán)重,將標(biāo)簽的權(quán)重乘以衰減因子后的權(quán)重也可以稱為標(biāo)簽在該條信息的整體權(quán)重,從而,使得數(shù)據(jù)處理系統(tǒng)獲得的用戶興趣模型可以反映用戶的歷史行為數(shù)據(jù)中每次閱讀或使用行為對(duì)用戶當(dāng)前興趣模型的重要程度。

舉例來(lái)說(shuō),計(jì)算信息Ci的標(biāo)簽tk的權(quán)重wik與該條信息Ci對(duì)應(yīng)的歷史行為產(chǎn)生時(shí)刻距離當(dāng)前時(shí)刻的衰減因子之間的乘積,作為該條信息的整體權(quán)重,具體為:計(jì)算用戶μ的歷史行為對(duì)應(yīng)的所有信息(即信息集合C(μ))的整體權(quán)重之和,作為用戶μ在標(biāo)簽tk上的累計(jì)權(quán)重具體為:

其中,衰減因子中,α為預(yù)設(shè)時(shí)間衰減參數(shù)(通常,0<α≤1),Ti為信息對(duì)應(yīng)的歷史行為產(chǎn)生時(shí)刻距離當(dāng)前時(shí)刻的時(shí)長(zhǎng),也就是用戶對(duì)每條信息的閱讀或使用時(shí)間距離當(dāng)前時(shí)間的時(shí)長(zhǎng)。

103、數(shù)據(jù)處理系統(tǒng)計(jì)算該用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重與該用戶在所有標(biāo)簽上的總累計(jì)權(quán)重之間的比值,作為該用戶在每個(gè)標(biāo)簽的累計(jì)權(quán)重分布。

本發(fā)明實(shí)施例中,數(shù)據(jù)處理系統(tǒng)通過(guò)步驟103可以統(tǒng)計(jì)出用戶在某個(gè)場(chǎng)景的標(biāo)簽分布,即用戶的歷史行為數(shù)據(jù)在每個(gè)標(biāo)簽的比例情況。

具體的,用戶μ在標(biāo)簽tk上的累計(jì)權(quán)重為相應(yīng)地,用戶μ在場(chǎng)景s的所有標(biāo)簽t1,t2,…,tk,…,tn上的總累計(jì)權(quán)重為:相應(yīng)地,用戶μ在標(biāo)簽tk上的累計(jì)權(quán)重分布即為兩者的比值:

104、數(shù)據(jù)處理系統(tǒng)根據(jù)該用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重分布以及該場(chǎng)景下所有用戶在每個(gè)標(biāo)簽上對(duì)應(yīng)的總累計(jì)權(quán)重分布,確定該用戶在每個(gè)標(biāo)簽上的興趣權(quán)重。

本發(fā)明實(shí)施例中,單個(gè)用戶在單個(gè)標(biāo)簽上的累計(jì)權(quán)重分布如步驟103所示,例如,用戶μ在標(biāo)簽tk上的累計(jì)權(quán)重分布為相應(yīng)地,場(chǎng)景下所有用戶在每個(gè)標(biāo)簽上對(duì)應(yīng)的總累計(jì)權(quán)重分布即為:所有用戶在該標(biāo)簽上對(duì)應(yīng)的累計(jì)權(quán)重與所有用戶在所有標(biāo)簽上對(duì)應(yīng)的總累計(jì)權(quán)重之和之間的比值。

例如,場(chǎng)景s下所有用戶在標(biāo)簽tk上對(duì)應(yīng)的累計(jì)權(quán)重為:

場(chǎng)景s下所有用戶在所有標(biāo)簽上對(duì)應(yīng)的總累計(jì)權(quán)重為:

相應(yīng)的,場(chǎng)景s下所有用戶在標(biāo)簽tk上對(duì)應(yīng)的總累計(jì)權(quán)重分布即為:

反映了場(chǎng)景s下用戶群體在各標(biāo)簽上的總累計(jì)權(quán)重分布,從而,可以利用該總累計(jì)權(quán)重分布向量來(lái)衡量場(chǎng)景s下各標(biāo)簽的熱門程度,即總累計(jì)權(quán)重分布越大的標(biāo)簽,越熱門,其所對(duì)應(yīng)的信息、新聞、應(yīng)用等中該標(biāo)簽的權(quán)重越大,該信息、新聞、應(yīng)用被用戶群體受歡迎的程度越高。

相應(yīng)地,步驟104中,用戶在每個(gè)標(biāo)簽上的興趣權(quán)重就可以根據(jù)上述的用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重分布以及所有用戶在每個(gè)標(biāo)簽上的總累計(jì)權(quán)重分布來(lái)確定該用戶在該標(biāo)簽上分布的差異,利用該差異即可表示用戶在該標(biāo)簽上的興趣度。具體的,用戶μ在標(biāo)簽tk的累計(jì)權(quán)重分布與所有用戶即用戶群體在此標(biāo)簽tk上的總累計(jì)權(quán)重分布的差異為:

其中,平滑系數(shù)∈的大小,可根據(jù)過(guò)去的預(yù)測(cè)數(shù)與實(shí)際數(shù)比較而定。差額大,則平滑系數(shù)應(yīng)取大一些;反之,則取小一些。平滑系數(shù)愈大,則近期傾向性變動(dòng)影響愈大;反之,則近期的傾向性變動(dòng)影響愈小,愈平滑。

該差異反映了用戶在標(biāo)簽tk上的興趣度與用戶群體在該標(biāo)簽tk上的興趣度的差異,因此可以利用該差異作為用戶的興趣權(quán)重,從而可以更加清楚的反映用戶的在該標(biāo)簽上的個(gè)性化興趣,相應(yīng)的,多個(gè)標(biāo)簽的興趣權(quán)重即可構(gòu)成該用戶在該場(chǎng)景的個(gè)性化的興趣分布向量。

可選的,當(dāng)用戶在標(biāo)簽上的累計(jì)權(quán)重分布小于用戶群體在標(biāo)簽上的總累計(jì)權(quán)重分布時(shí),該差異為小于0的數(shù)值,也就是說(shuō)該標(biāo)簽并不是用戶感興趣的標(biāo)簽,因此,為了更加直觀的反映用戶的興趣分布向量,可去除小于0的興趣權(quán)重,即用戶μ在標(biāo)簽tk上的興趣權(quán)重為:

用戶在標(biāo)簽上的累計(jì)權(quán)重分布小于用戶群體在標(biāo)簽上的總累計(jì)權(quán)重分布時(shí),該差異為小于0的數(shù)值,從某種程度上說(shuō),該類標(biāo)簽是用戶不感興趣的標(biāo)簽,因此,可以利用小于0的興趣權(quán)重對(duì)應(yīng)的標(biāo)簽來(lái)去除掉向用戶推送的內(nèi)容中對(duì)應(yīng)的部分內(nèi)容,降低內(nèi)容推送的錯(cuò)誤率,即用戶μ在標(biāo)簽tk上的不感興趣權(quán)重為:

105、數(shù)據(jù)處理系統(tǒng)利用每個(gè)標(biāo)簽以及每個(gè)標(biāo)簽上用戶的興趣權(quán)重生成該場(chǎng)景下該用戶的興趣分布向量。

例如,場(chǎng)景s下用戶μ的興趣分布向量為:

可見(jiàn),本發(fā)明實(shí)施例可以利用信息的標(biāo)簽向量與用戶的興趣分布向量之間的匹配度來(lái)確定是否將該信息推送給該用戶,與傳統(tǒng)的單純利用用戶的累計(jì)權(quán)重分布作為用戶興趣分布向量進(jìn)行內(nèi)容推薦的方法相比,該實(shí)施方式所構(gòu)建的用戶的興趣分布向量可以更加突出用戶興趣中的“個(gè)性化”興趣,即步驟104所示利用單個(gè)用戶的累計(jì)權(quán)重分布與所有用戶的累計(jì)權(quán)重分布之間的差異來(lái)確定用戶在某個(gè)標(biāo)簽上的興趣權(quán)重,可以提取用戶的獨(dú)特興趣。例如,用戶點(diǎn)擊閱讀熱門事件的新聞,比如“奧運(yùn)會(huì)”,與用戶點(diǎn)擊閱讀冷門事件的新聞相比,其反映出用戶對(duì)該類新聞對(duì)應(yīng)的標(biāo)簽的興趣程度是不同的,故本發(fā)明實(shí)施例所述的數(shù)據(jù)處理方法可以構(gòu)建更加貼合用戶真實(shí)興趣的興趣分布向量,從而,可以在某個(gè)場(chǎng)景下向用戶推送更加感興趣的內(nèi)容,提高內(nèi)容推送的準(zhǔn)確率。

請(qǐng)參閱圖2,圖2為本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理方法的流程示意圖,該數(shù)據(jù)處理方法可以由數(shù)據(jù)處理系統(tǒng)來(lái)執(zhí)行,該數(shù)據(jù)處理系統(tǒng)可以設(shè)置在終端或者服務(wù)器中,本發(fā)明實(shí)施例不做限定。圖2所示的數(shù)據(jù)處理方法與圖1所示的數(shù)據(jù)處理方法相比,圖2所示的數(shù)據(jù)處理方法可以整合多場(chǎng)景下用戶的興趣分布向量,獲得用戶在不同場(chǎng)景下整體的興趣分布向量。具體的,具體的,圖2所示的該數(shù)據(jù)處理方法還可以包括以下步驟:

106、數(shù)據(jù)處理系統(tǒng)針對(duì)場(chǎng)景集合中的每個(gè)場(chǎng)景,利用該用戶在該場(chǎng)景下每個(gè)標(biāo)簽上的興趣權(quán)重、該用戶在該場(chǎng)景下在所有標(biāo)簽上的總累計(jì)權(quán)重以及該用戶在所有場(chǎng)景下的總累計(jì)權(quán)重,確定該用戶在該場(chǎng)景下在每個(gè)標(biāo)簽上的興趣權(quán)重比例。

本發(fā)明實(shí)施例中,數(shù)據(jù)處理系統(tǒng)可以通過(guò)步驟105得到該用戶μ在場(chǎng)景下該每個(gè)標(biāo)簽上的興趣權(quán)重?cái)?shù)據(jù)處理系統(tǒng)可以通過(guò)步驟103得到用戶μ在場(chǎng)景s的所有標(biāo)簽t1,t2,…,tk,…,tn上的總累計(jì)權(quán)重相應(yīng)的,數(shù)據(jù)處理系統(tǒng)可以根據(jù)得到用戶μ在所有場(chǎng)景下的總累計(jì)權(quán)重Nμ,即其中,s∈S;相應(yīng)的,該用戶μ在場(chǎng)景s下在標(biāo)簽tk上的興趣權(quán)重比例為:

舉例來(lái)說(shuō),用戶μ在場(chǎng)景s下在標(biāo)簽t1上的興趣權(quán)重比例可以是在標(biāo)簽t2上的興趣權(quán)重比例可以是

107、數(shù)據(jù)處理系統(tǒng)針對(duì)每個(gè)標(biāo)簽,計(jì)算該用戶在所有場(chǎng)景下在該標(biāo)簽上的興趣權(quán)重比例之和,作為該用戶在所有場(chǎng)景下在該標(biāo)簽上的總興趣權(quán)重。

本發(fā)明實(shí)施例中,該用戶在該場(chǎng)景下在每個(gè)標(biāo)簽上的興趣權(quán)重比例可以通過(guò)步驟106來(lái)獲得,相應(yīng)的,用戶在所有場(chǎng)景下在每個(gè)標(biāo)簽上的總興趣權(quán)重即為:該用戶在所有場(chǎng)景下每個(gè)標(biāo)簽上的興趣權(quán)重比例之和來(lái)作為該用戶在在該標(biāo)簽上的總興趣權(quán)重wμk,也就是針對(duì)所有場(chǎng)景的最終的興趣權(quán)重。

例如,用戶μ在場(chǎng)景s下在標(biāo)簽tk上的興趣權(quán)重比例為那么就可以得到該用戶在所有場(chǎng)景下在該標(biāo)簽tk上的總興趣權(quán)重wμk

108、數(shù)據(jù)處理系統(tǒng)利用每個(gè)標(biāo)簽以及用戶在每個(gè)標(biāo)簽對(duì)應(yīng)的總興趣權(quán)重,生成該用戶在所有場(chǎng)景下的最終的興趣分布向量。

例如,用戶μ在所有場(chǎng)景下的最終的興趣分布向量可以為:

Preference(μ)=<wμ1,wμ2,…,wμn>

其中,系統(tǒng)可以將其用稀疏向量表示,用其更新用戶當(dāng)前興趣模型。例如,wμ1為用戶μ針對(duì)標(biāo)簽t1的總興趣權(quán)重,即為用戶μ對(duì)標(biāo)簽t1的興趣度;wμ2為用戶μ針對(duì)標(biāo)簽t2的總興趣權(quán)重,即為用戶μ對(duì)標(biāo)簽t2的興趣度。

可見(jiàn),圖3所示的實(shí)施例中,數(shù)據(jù)處理系統(tǒng)不僅可以通過(guò)步驟101-105得到單個(gè)場(chǎng)景中用戶的興趣權(quán)重以及單場(chǎng)景下用戶的興趣分布向量,還可以由步驟106-108整合場(chǎng)景集合中各個(gè)場(chǎng)景下的興趣權(quán)重,對(duì)各個(gè)場(chǎng)景下的興趣分布向量中的興趣權(quán)重進(jìn)行線性加權(quán),得到用戶在所有場(chǎng)景下對(duì)各個(gè)標(biāo)簽的總興趣權(quán)重,以得到所有場(chǎng)景中用戶的最終的興趣分布向量,可見(jiàn),本發(fā)明實(shí)施例可以針對(duì)不同場(chǎng)景更加全面地計(jì)算出用戶完整的興趣分布,彌補(bǔ)了用戶在跨場(chǎng)景時(shí)用戶興趣特征的缺失,也為后續(xù)的內(nèi)容推薦提供完整、準(zhǔn)確、全面的用戶興趣模型。

請(qǐng)參閱圖3,圖3為本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理方法的流程示意圖,該數(shù)據(jù)處理方法可以由數(shù)據(jù)處理系統(tǒng)來(lái)執(zhí)行,該數(shù)據(jù)處理系統(tǒng)可以設(shè)置在終端或者服務(wù)器中,本發(fā)明實(shí)施例不做限定。圖3所示的數(shù)據(jù)處理方法與圖2所示的數(shù)據(jù)處理方法相比,圖3所示的數(shù)據(jù)處理方法可以通過(guò)周期性的獲得用戶在所有場(chǎng)景下的歷史行為數(shù)據(jù),并通過(guò)圖2所示的各步驟確定用戶在所有場(chǎng)景下的興趣分布向量。具體的,圖3所示的該數(shù)據(jù)處理方法可以包括圖2所示的所有步驟,并且步驟102可以包括:步驟102a、步驟102b以及步驟102c,具體地:

102a、數(shù)據(jù)處理系統(tǒng)以預(yù)設(shè)周期獲取用戶在各場(chǎng)景下的歷史行為數(shù)據(jù)。

本發(fā)明實(shí)施例中,數(shù)據(jù)處理系統(tǒng)可以預(yù)設(shè)在場(chǎng)景下對(duì)用戶的興趣分布向量的更新周期,以更新用戶的興趣模型。因此,數(shù)據(jù)處理系統(tǒng)可以以預(yù)設(shè)周期獲取用戶在各場(chǎng)景下的歷史行為數(shù)據(jù)。其中,該預(yù)設(shè)周期可以是預(yù)設(shè)的更新周期。

需要說(shuō)明的是,此處數(shù)據(jù)處理系統(tǒng)以預(yù)設(shè)周期獲取的用戶在各場(chǎng)景下的歷史行為數(shù)據(jù),可以是數(shù)據(jù)處理系統(tǒng)在每次更新了用戶的興趣模型后,清空之前的歷史行為數(shù)據(jù)后記錄新的關(guān)于該用戶的歷史行為數(shù)據(jù),還可以是在場(chǎng)景下關(guān)于用戶所有的歷史行為數(shù)據(jù),未進(jìn)行相關(guān)清空操作,本發(fā)明實(shí)施例對(duì)其不做限制。

需要說(shuō)明的是,數(shù)據(jù)處理系統(tǒng)可以根據(jù)用戶針對(duì)場(chǎng)景集合中每個(gè)場(chǎng)景下的歷史行為數(shù)據(jù)以及該歷史行為數(shù)據(jù)中每條信息的各標(biāo)簽的權(quán)重獲取該用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重。上述歷史行為數(shù)據(jù)可以記錄在用戶在一個(gè)或多個(gè)場(chǎng)景下所執(zhí)行的消息閱讀操作的日志信息中。其中,該消息閱讀操作的日志信息可以包括用戶所閱讀的消息內(nèi)容、閱讀時(shí)間、消息備注等,本發(fā)明實(shí)施例對(duì)此不做限制。通俗的來(lái)說(shuō),該日志信息可以是用戶的歷史閱讀記錄、歷史閱讀足跡或歷史閱讀足跡等。當(dāng)然,用戶可以通過(guò)點(diǎn)擊、滑動(dòng)等觸控操作,在當(dāng)前頁(yè)面或者跳轉(zhuǎn)頁(yè)面來(lái)閱讀相應(yīng)消息。

本發(fā)明實(shí)施例中,在執(zhí)行完步驟102a后,可以執(zhí)行步驟102b。

102b、數(shù)據(jù)處理系統(tǒng)針對(duì)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)中的每條信息,計(jì)算每條信息的每個(gè)標(biāo)簽的權(quán)重與每條信息對(duì)應(yīng)的歷史行為產(chǎn)生時(shí)刻距離當(dāng)前時(shí)刻的衰減因子之間的乘積,作為每條信息的整體權(quán)重。

102c、數(shù)據(jù)處理系統(tǒng)計(jì)算所述用戶的歷史行為對(duì)應(yīng)的所有信息的整體權(quán)重之和,作為所述用戶在所述每個(gè)標(biāo)簽上的累計(jì)權(quán)重。

本發(fā)明實(shí)施例中,對(duì)步驟102b以及步驟102c的具體描述可以參考實(shí)施例1中對(duì)步驟102的相關(guān)描述部分,此處將不再進(jìn)行進(jìn)一步的闡釋。

可見(jiàn),本發(fā)明實(shí)施例中,數(shù)據(jù)處理系統(tǒng)可以通過(guò)周期性的獲取用戶在各場(chǎng)景下的歷史行為數(shù)據(jù),以更新用戶在該場(chǎng)景下的興趣分布向量,若結(jié)合實(shí)施例2來(lái)看的話,數(shù)據(jù)處理系統(tǒng)還可以更新用戶在多場(chǎng)景下的最終的興趣分布向量,以便更新數(shù)據(jù)處理系統(tǒng)中關(guān)于該用戶的興趣模型,從而方便后續(xù)內(nèi)容推薦相關(guān)的工作。

請(qǐng)參閱圖4,圖4為本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖,該數(shù)據(jù)處理裝置可以應(yīng)用于數(shù)據(jù)處理系統(tǒng)中,該數(shù)據(jù)處理系統(tǒng)可以設(shè)置在終端或者服務(wù)器中,本發(fā)明實(shí)施例不做限定。如圖4所示,該數(shù)據(jù)處理裝置可以包括:

第一獲取模塊401,用于根據(jù)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)以及該歷史行為數(shù)據(jù)中每條信息的各標(biāo)簽的權(quán)重獲取該用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重。

本發(fā)明實(shí)施例中,第一獲取模塊401可以針對(duì)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)中的每條信息,計(jì)算每條信息的每個(gè)標(biāo)簽的權(quán)重與每條信息對(duì)應(yīng)的歷史行為產(chǎn)生時(shí)刻距離當(dāng)前時(shí)刻的衰減因子之間的乘積,作為每條信息的整體權(quán)重;計(jì)算該用戶的歷史行為對(duì)應(yīng)的所有信息的整體權(quán)重之和,作為該用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重。

計(jì)算模塊402,用于計(jì)算該用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重與該用戶在所有標(biāo)簽上的總累計(jì)權(quán)重之間的比值,作為該用戶在每個(gè)標(biāo)簽的累計(jì)權(quán)重分布。

確定模塊403,用于根據(jù)該用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重分布以及該場(chǎng)景下所有用戶在每個(gè)標(biāo)簽上對(duì)應(yīng)的總累計(jì)權(quán)重分布,確定該用戶在每個(gè)標(biāo)簽上的興趣權(quán)重。

生成模塊404,用于利用每個(gè)標(biāo)簽以及每個(gè)標(biāo)簽上該用戶的興趣權(quán)重生成該場(chǎng)景下該用戶的興趣分布向量。

可見(jiàn),圖4所示的實(shí)施例中,數(shù)據(jù)處理系統(tǒng)可以利用信息的標(biāo)簽向量與用戶的興趣分布向量之間的匹配度來(lái)確定是否將該信息推送給該用戶,與傳統(tǒng)的單純利用用戶的累計(jì)權(quán)重分布作為用戶興趣分布向量進(jìn)行內(nèi)容推薦的方法相比,該實(shí)施方式所構(gòu)建的用戶的興趣分布向量可以更加突出用戶興趣中的“個(gè)性化”興趣,其中,數(shù)據(jù)處理系統(tǒng)利用單個(gè)用戶的累計(jì)權(quán)重分布與所有用戶的累計(jì)權(quán)重分布之間的差異來(lái)確定用戶在某個(gè)標(biāo)簽上的興趣權(quán)重,可以提取用戶的獨(dú)特興趣。例如,用戶點(diǎn)擊閱讀熱門事件的新聞,比如“奧運(yùn)會(huì)”,與用戶點(diǎn)擊閱讀冷門事件的新聞相比,其反映出用戶對(duì)該類新聞對(duì)應(yīng)的標(biāo)簽的興趣程度是不同的,故本發(fā)明實(shí)施例所述的數(shù)據(jù)處理方法可以構(gòu)建更加貼合用戶真實(shí)興趣的興趣分布向量,從而,可以在某個(gè)場(chǎng)景下向用戶推送更加感興趣的內(nèi)容,提高內(nèi)容推送的準(zhǔn)確率。

請(qǐng)一并參閱圖5,圖5為本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖,該數(shù)據(jù)處理裝置可以應(yīng)用于數(shù)據(jù)處理系統(tǒng)中,該數(shù)據(jù)處理系統(tǒng)可以設(shè)置在終端或者服務(wù)器中,本發(fā)明實(shí)施例不做限定。圖5是在圖4的基礎(chǔ)上優(yōu)化得到的。其中,該數(shù)據(jù)處理裝置包括第一獲取模塊401、計(jì)算模塊402、確定模塊403、生成模塊404,還包括量化模塊405、第二獲取模塊406,其中,該裝置包括:

可選的,確定模塊403,還用于針對(duì)場(chǎng)景集合中的每個(gè)場(chǎng)景,利用該用戶在該場(chǎng)景下每個(gè)標(biāo)簽上的興趣權(quán)重、該用戶在該場(chǎng)景下在所有標(biāo)簽上的總累計(jì)權(quán)重以及該用戶在該場(chǎng)景集合中所有場(chǎng)景下的總累計(jì)權(quán)重,確定該用戶在該場(chǎng)景下在每個(gè)標(biāo)簽上的興趣權(quán)重比例。

可選的,計(jì)算模塊402,還用于針對(duì)每個(gè)標(biāo)簽,計(jì)算該用戶在所有場(chǎng)景下在該標(biāo)簽上的興趣權(quán)重比例之和,作為該用戶在所有場(chǎng)景下在該標(biāo)簽上的總興趣權(quán)重。

可選的,生成模塊404,還用于利用每個(gè)標(biāo)簽以及該用戶在每個(gè)標(biāo)簽對(duì)應(yīng)的總興趣權(quán)重,生成該用戶在所有場(chǎng)景下的最終的興趣分布向量。

本發(fā)明實(shí)施例中,確定模塊403可以針對(duì)場(chǎng)景集合中的每個(gè)場(chǎng)景,確定該用戶在該場(chǎng)景下在每個(gè)標(biāo)簽上的興趣權(quán)重比例,并且可以由計(jì)算模塊402得到該用戶在所有場(chǎng)景下在該標(biāo)簽上的總興趣權(quán)重,然后交由生成模塊404生成該用戶在所有場(chǎng)景下的最終的興趣分布向量,以更加全面地計(jì)算出用戶完整的興趣分布,彌補(bǔ)了用戶在跨場(chǎng)景時(shí)用戶興趣特征的缺失,也為后續(xù)的內(nèi)容推薦提供完整、準(zhǔn)確、全面的用戶興趣模型。

可選的,量化模塊405,用于根據(jù)用戶在場(chǎng)景下歷史行為數(shù)據(jù)中每條信息的特征,將該每條信息量化為標(biāo)簽向量,該標(biāo)簽向量包括每條信息具有的標(biāo)簽以及每個(gè)標(biāo)簽的權(quán)重。

可選的,第二獲取模塊406,用于以預(yù)設(shè)周期獲取用戶在各場(chǎng)景下的歷史行為數(shù)據(jù)。

可見(jiàn),圖5所示的實(shí)施例中,數(shù)據(jù)處理系統(tǒng)可以數(shù)據(jù)處理系統(tǒng)不僅可以得到單個(gè)場(chǎng)景中用戶的興趣權(quán)重以及單場(chǎng)景下用戶的興趣分布向量,還可以整合場(chǎng)景集合中各個(gè)場(chǎng)景下的興趣權(quán)重,對(duì)各個(gè)場(chǎng)景下的興趣分布向量中的興趣權(quán)重進(jìn)行線性加權(quán),得到用戶在所有場(chǎng)景下對(duì)各個(gè)標(biāo)簽的總興趣權(quán)重,以得到所有場(chǎng)景中用戶的最終的興趣分布向量,可見(jiàn),本發(fā)明實(shí)施例可以針對(duì)不同場(chǎng)景更加全面地計(jì)算出用戶完整的興趣分布,彌補(bǔ)了用戶在跨場(chǎng)景時(shí)用戶興趣特征的缺失,也為后續(xù)的內(nèi)容推薦提供完整、準(zhǔn)確、全面的用戶興趣模型。并且,數(shù)據(jù)處理系統(tǒng)還可以通過(guò)周期性的獲取用戶在各場(chǎng)景下的歷史行為數(shù)據(jù),以更新用戶在該場(chǎng)景下的興趣分布向量,并且還可以更新用戶在多場(chǎng)景下的最終的興趣分布向量,以便更新數(shù)據(jù)處理系統(tǒng)中關(guān)于該用戶的興趣模型,從而方便后續(xù)內(nèi)容推薦相關(guān)的工作。

請(qǐng)參閱圖6,圖6是本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理設(shè)備的結(jié)構(gòu)示意圖,如圖所示,該數(shù)據(jù)處理設(shè)備可以包括:至少一個(gè)處理器601,例如CPU(Central Processing Unit,中央處理器),至少一個(gè)通信接口603,存儲(chǔ)器604,至少一個(gè)通信總線602。其中,通信總線602用于實(shí)現(xiàn)這些組件之間的連接通信。其中,通信接口603可以包括顯示屏(Display)、鍵盤(Keyboard),可選通信接口603還可以包括標(biāo)準(zhǔn)的有線接口、無(wú)線接口。存儲(chǔ)器604可以是高速RAM存儲(chǔ)器(Ramdom Access Memory,易揮發(fā)性隨機(jī)存取存儲(chǔ)器),也可以是非不穩(wěn)定的存儲(chǔ)器(non-volatile memory),例如至少一個(gè)磁盤存儲(chǔ)器。存儲(chǔ)器604可選的還可以是至少一個(gè)位于遠(yuǎn)離前述處理器601的存儲(chǔ)裝置。其中處理器601可以結(jié)合圖4和5所描述的裝置,存儲(chǔ)器604中存儲(chǔ)一組程序代碼,且處理器601調(diào)用存儲(chǔ)器604中存儲(chǔ)的程序代碼,以用于執(zhí)行一種數(shù)據(jù)處理方法,即用于執(zhí)行以下操作:

根據(jù)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條信息的各標(biāo)簽的權(quán)重獲取所述用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重;

計(jì)算所述用戶在所述每個(gè)標(biāo)簽上的累計(jì)權(quán)重與所述用戶在所有標(biāo)簽上的總累計(jì)權(quán)重之間的比值,作為所述用戶在所述每個(gè)標(biāo)簽的累計(jì)權(quán)重分布;

根據(jù)所述用戶在所述每個(gè)標(biāo)簽上的累計(jì)權(quán)重分布以及所述場(chǎng)景下所有用戶在所述每個(gè)標(biāo)簽上對(duì)應(yīng)的總累計(jì)權(quán)重分布,確定所述用戶在所述每個(gè)標(biāo)簽上的興趣權(quán)重;

利用所述每個(gè)標(biāo)簽以及所述每個(gè)標(biāo)簽上所述用戶的興趣權(quán)重生成所述場(chǎng)景下所述用戶的興趣分布向量。

本發(fā)明實(shí)施例中,處理器601調(diào)用存儲(chǔ)器604中的程序代碼,還用于執(zhí)行以下操作:

針對(duì)場(chǎng)景集合中的每個(gè)場(chǎng)景,利用所述用戶在所述場(chǎng)景下所述每個(gè)標(biāo)簽上的興趣權(quán)重、所述用戶在所述場(chǎng)景下在所有標(biāo)簽上的總累計(jì)權(quán)重以及所述用戶在所述場(chǎng)景集合中所有場(chǎng)景下的總累計(jì)權(quán)重,確定所述用戶在所述場(chǎng)景下在所述每個(gè)標(biāo)簽上的興趣權(quán)重比例;

針對(duì)每個(gè)標(biāo)簽,計(jì)算所述用戶在所述所有場(chǎng)景下在所述標(biāo)簽上的所述興趣權(quán)重比例之和,作為所述用戶在所述所有場(chǎng)景下在所述標(biāo)簽上的總興趣權(quán)重;

利用所述每個(gè)標(biāo)簽以及所述用戶在所述每個(gè)標(biāo)簽對(duì)應(yīng)的所述總興趣權(quán)重,生成所述用戶在所述所有場(chǎng)景下的最終的興趣分布向量。

本發(fā)明實(shí)施例中,處理器601調(diào)用存儲(chǔ)器604中的程序代碼,根據(jù)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條信息的各標(biāo)簽的權(quán)重獲取所述用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重之前,還用于執(zhí)行以下操作:

根據(jù)用戶在場(chǎng)景下歷史行為數(shù)據(jù)中每條信息的特征,將所述每條信息量化為標(biāo)簽向量,所述標(biāo)簽向量包括所述每條信息具有的標(biāo)簽以及所述每個(gè)標(biāo)簽的權(quán)重。

本發(fā)明實(shí)施例中,處理器601調(diào)用存儲(chǔ)器604中的程序代碼,根據(jù)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)以及所述歷史行為數(shù)據(jù)中每條行為信息的各標(biāo)簽的權(quán)重獲取所述用戶在每個(gè)標(biāo)簽上的累計(jì)權(quán)重,可以執(zhí)行以下操作:

針對(duì)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)中的每條信息,計(jì)算所述每條信息的每個(gè)標(biāo)簽的權(quán)重與所述每條信息對(duì)應(yīng)的歷史行為產(chǎn)生時(shí)刻距離當(dāng)前時(shí)刻的衰減因子之間的乘積,作為所述每條信息的整體權(quán)重;

計(jì)算所述用戶的歷史行為對(duì)應(yīng)的所有信息的整體權(quán)重之和,作為所述用戶在所述每個(gè)標(biāo)簽上的累計(jì)權(quán)重。

本發(fā)明實(shí)施例中,處理器601調(diào)用存儲(chǔ)器604中的程序代碼,針對(duì)用戶在場(chǎng)景下的歷史行為數(shù)據(jù)中的每條信息,計(jì)算所述每條信息的每個(gè)標(biāo)簽的權(quán)重與所述每條信息對(duì)應(yīng)的歷史行為產(chǎn)生時(shí)刻距離當(dāng)前時(shí)刻的衰減因子之間的乘積,作為所述每條信息的整體權(quán)重之前,還用于執(zhí)行以下操作:

以預(yù)設(shè)周期獲取用戶在各場(chǎng)景下的歷史行為數(shù)據(jù)。

其中,通信總線602可以是外設(shè)部件互連標(biāo)準(zhǔn)(peripheral component interconnect,簡(jiǎn)稱PCI)總線或擴(kuò)展工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(extended industry standard architecture,簡(jiǎn)稱EISA)總線等。所述通信總線602可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖6中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。

其中,存儲(chǔ)器604可以包括易失性存儲(chǔ)器(英文:volatile memory),例如隨機(jī)存取存儲(chǔ)器(英文:random-access memory,縮寫(xiě):RAM);存儲(chǔ)器也可以包括非易失性存儲(chǔ)器(英文:non-volatile memory),例如快閃存儲(chǔ)器(英文:flash memory),硬盤(英文:hard disk drive,縮寫(xiě):HDD)或固態(tài)硬盤(英文:solid-state drive,縮寫(xiě):SSD);存儲(chǔ)器604還可以包括上述種類的存儲(chǔ)器的組合。

其中,處理器601可以是中央處理器(英文:central processing unit,縮寫(xiě):CPU),網(wǎng)絡(luò)處理器(英文:network processor,縮寫(xiě):NP)或者CPU和NP的組合。

其中,處理器601還可以進(jìn)一步包括硬件芯片。上述硬件芯片可以是專用集成電路(英文:application-specific integrated circuit,縮寫(xiě):ASIC),可編程邏輯器件(英文:programmable logic device,縮寫(xiě):PLD)或其組合。上述PLD可以是復(fù)雜可編程邏輯器件(英文:complex programmable logic device,縮寫(xiě):CPLD),現(xiàn)場(chǎng)可編程邏輯門陣列(英文:field-programmable gate array,縮寫(xiě):FPGA),通用陣列邏輯(英文:generic array logic,縮寫(xiě):GAL)或其任意組合。

可選地,所述存儲(chǔ)器604還用于存儲(chǔ)程序指令。所述處理器601可以調(diào)用所述程序指令,實(shí)現(xiàn)如本申請(qǐng)圖1,2和3實(shí)施例中所示的數(shù)據(jù)處理方法。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory,ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory,RAM)等。

以上所揭露的僅為本發(fā)明一種較佳實(shí)施例而已,當(dāng)然不能以此來(lái)限定本發(fā)明之權(quán)利范圍,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分流程,并依本發(fā)明權(quán)利要求所作的等同變化,仍屬于發(fā)明所涵蓋的范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1