用戶屬性預(yù)測平臺和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種用戶屬性預(yù)測平臺和方法。
【背景技術(shù)】
[0002]在現(xiàn)有的互聯(lián)網(wǎng)領(lǐng)域,用戶屬性很大程度上決定了用戶的意圖和習(xí)慣,知曉它們對于滿足用戶的潛在需求具有重大意義?,F(xiàn)有技術(shù)中,簡單通過注冊用戶的資料填寫獲取得到的用戶屬性信息往往覆蓋率和準(zhǔn)確率都無法得到保證,難以達(dá)到應(yīng)用需求。特別是對于用戶粘性不夠高的產(chǎn)品來說,普遍存在注冊比例低、登錄用戶少、亂填個人資料、使用默認(rèn)選項、多人共用電腦等諸多問題。因此,通過機(jī)器學(xué)習(xí)的方式根據(jù)用戶歷史行為數(shù)據(jù)來預(yù)測其屬性信息顯得尤為重要。盡管在機(jī)器學(xué)習(xí)中可選的算法有很多,但是這些算法都需要面對一些共同的問題:1)如何獲取高置信度訓(xùn)練語料;2)選取哪些類型的用戶行為來訓(xùn)練和預(yù)測;3)從不同類型的用戶行為中怎樣抽取出特征;4)如何優(yōu)選出區(qū)分度高且有足夠覆蓋率的特征;5)模型效果如何來評價。更具體地,就算法中傳統(tǒng)的用戶屬性提取模型來看,由于其大多將用戶的多條行為看作一條獨立的個體,分別進(jìn)行屬性分析,然后將每一條分析出的結(jié)果匯總到一起,得到整個用戶的屬性信息,由此忽略了用戶相鄰行為之間的上下文關(guān)系,難以達(dá)到較好的預(yù)測效果。
[0003]因此,希望可以提出一種用于解決上述問題的用戶屬性預(yù)測平臺和方法。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供一種用戶屬性預(yù)測平臺和方法,可以有效地對互聯(lián)網(wǎng)領(lǐng)域用戶的屬性進(jìn)行預(yù)測。
[0005]根據(jù)本發(fā)明的一個方面,提供了一種用戶屬性預(yù)測平臺,包括以下模塊:
[0006]信息獲取模塊,用于獲取包括用戶屬性信息和歷史行為信息在內(nèi)的原始訓(xùn)練語料;
[0007]訓(xùn)練特征生成模塊,用于根據(jù)所述原始訓(xùn)練語料,生成相應(yīng)的備選特征,計算與備選特征對應(yīng)的各項指標(biāo),并根據(jù)各項指標(biāo)篩選出訓(xùn)練所用特征;
[0008]訓(xùn)練模型形成模塊,用于根據(jù)所述原始訓(xùn)練語料和所述訓(xùn)練所用特征,生成訓(xùn)練模型;
[0009]屬性預(yù)測模塊,基于所述訓(xùn)練模型,對待預(yù)測的用戶對象進(jìn)行屬性預(yù)測。
[0010]根據(jù)本發(fā)明的另一個方面,還提供了一種用戶屬性預(yù)測方法,該方法包括:
[0011]獲取包括用戶屬性信息和歷史行為信息在內(nèi)的原始訓(xùn)練語料;
[0012]根據(jù)所述原始訓(xùn)練語料,生成相應(yīng)的備選特征,計算與備選特征對應(yīng)的各項指標(biāo),并根據(jù)各項指標(biāo)篩選出訓(xùn)練所用特征;
[0013]根據(jù)所述原始訓(xùn)練語料和所述訓(xùn)練所用特征,生成訓(xùn)練模型;
[0014]基于所述訓(xùn)練模型,對待預(yù)測的用戶對象進(jìn)行屬性預(yù)測。
[0015]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:本發(fā)明提供的用戶屬性預(yù)測平臺,基于對各種用戶屬性提供從訓(xùn)練到預(yù)測整個流程的處理,產(chǎn)生多套屬性模型,并支持行為、特征和屬性等各種用戶相關(guān)信息的可視化和人工標(biāo)注機(jī)制,較大地簡化了各種用戶屬性的獲取過程和用戶屬性模型的調(diào)優(yōu)過程。
【附圖說明】
[0016]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
[0017]圖1為根據(jù)本發(fā)明一個優(yōu)選實施例的用戶屬性預(yù)測平臺的示意性框圖;
[0018]圖2為根據(jù)本發(fā)明另一個優(yōu)選實施例的用戶屬性預(yù)測方法流程圖。
【具體實施方式】
[0019]下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。
[0020]根據(jù)本發(fā)明的一個方面,提供了一種用戶屬性預(yù)測平臺。
[0021]請參考圖1,圖1為根據(jù)本發(fā)明一個優(yōu)選實施例的用戶屬性預(yù)測平臺的示意性框圖。
[0022]如圖1所示,本發(fā)明提供的用戶屬性預(yù)測平臺包括以下模塊:
[0023]信息獲取模塊101,用于獲取包括用戶屬性信息和歷史行為信息在內(nèi)的原始訓(xùn)練語料;
[0024]訓(xùn)練特征生成模塊102,用于根據(jù)所述原始訓(xùn)練語料,生成相應(yīng)的備選特征,計算與備選特征對應(yīng)的各項指標(biāo),并根據(jù)各項指標(biāo)篩選出訓(xùn)練所用特征;
[0025]訓(xùn)練模型形成模塊103,用于根據(jù)所述原始訓(xùn)練語料和所述訓(xùn)練所用特征,生成訓(xùn)練豐吳型;
[0026]屬性預(yù)測模塊104,基于所述訓(xùn)練模型,對待預(yù)測的用戶對象進(jìn)行屬性預(yù)測。
[0027]下文將對上述各模塊的主要功能進(jìn)行詳述。
[0028]具體地,所述信息獲取模塊101所獲取的用戶屬性信息主要指以用戶為粒度的各種標(biāo)簽信息,包括自然屬性、社會屬性和興趣屬性等在內(nèi)的各種信息。其中,自然屬性信息包括性別、年齡等信息,社會屬性信息包括職業(yè)、婚姻狀況等信息,興趣屬性信息包括汽車購買需求、運動喜好等信息。而用戶的歷史行為信息主要包括用戶在互聯(lián)網(wǎng)上的各種搜索、瀏覽和點擊行為信息。
[0029]進(jìn)一步地,上述用戶屬性信息和歷史行為信息一起構(gòu)成用戶屬性預(yù)測平臺的原始訓(xùn)練語料,這些原始訓(xùn)練語料可以基于自身特點,通過從用戶自身產(chǎn)品日志提取、第三方數(shù)據(jù)關(guān)聯(lián)以及基于行為的人工標(biāo)注中至少一種方式獲取。例如,從百度即時通信軟件的注冊信息中提取某個用戶的性別、年齡信息等;又如,從瀏覽日志中發(fā)現(xiàn)某個用戶對應(yīng)的社區(qū)賬號(典型地,如新浪微博賬號),再通過該社區(qū)賬號去對應(yīng)的社區(qū)中自動查詢該用戶的性別信息;還如,通過查看某個用戶的歷史行為信息,通過人工判斷確定該用戶的性別信息。優(yōu)選地,還可以定制數(shù)據(jù)清洗規(guī)則,設(shè)定或/和調(diào)整樣本分布,對所述原始訓(xùn)練語料進(jìn)一步加工成置信度更高的訓(xùn)練集。通過清洗,可以過濾其中的異常數(shù)據(jù),比如,過于密集的行為數(shù)據(jù)和屬性資料都填的默認(rèn)選項信息等。
[0030]獲取各種原始訓(xùn)練語料后,由所述訓(xùn)練特征生成模塊102生成與其中的用戶屬性信息和歷史行為信息相對應(yīng)的備選特征。其中,所述備選特征包括所述歷史行為信息本身和從所述行為信息中所抽取的關(guān)鍵詞、分類項等信息。例如,針對某個男性用戶而言,其對應(yīng)的原始訓(xùn)練語料包括的歷史行為信息本身有:搜索過魔獸世界怎么玩、男士手表推薦和近期上海天氣;瀏覽過網(wǎng)站“京東商城”的首頁和“新浪軍事”新聞頁。針對這些行為信息,從中抽取如下關(guān)鍵詞:魔獸世界、男士手表、上海天氣、京東瀏覽和軍事瀏覽,作為備選特征。就其中的分類項而言,典型地如,某個用戶的一條行為數(shù)據(jù)為:點擊了某條廣告,從而可以提取該條廣告的分類特征作為本實施例的分類項數(shù)據(jù),例如,提取的分類特征為體育用品或食品等,則將其作為所述備選特征中的分類項。其中,所述指標(biāo)主要指反映特征區(qū)分度和覆蓋程度的指標(biāo)。
[0031]進(jìn)一步地,針對不同備選特征,由所述訓(xùn)練特征生成模塊102設(shè)定相應(yīng)的指標(biāo)類型,并計算各個備選特征在對應(yīng)指標(biāo)類型上的指標(biāo)值。例如,針對上述男性用戶的備選特征,設(shè)定的指標(biāo)類型包括用戶覆蓋率、覆蓋男女用戶比等類型,則計算上述各個備選特征“魔獸世界、男士手表、上海天氣、京東瀏覽和軍事瀏覽”等在所述指標(biāo)類型上“用戶覆蓋率、覆蓋男女用戶比”等類型的指標(biāo)值。更進(jìn)一步地,根據(jù)所計算的指標(biāo)值篩選出區(qū)分度較高的備選特征作為訓(xùn)練所用特征。例如,篩選出“性別”區(qū)分度較高的“魔獸世界、男士手表和軍事瀏覽”等備選特征作為訓(xùn)練所用特征。
[0032]進(jìn)一步地,基于上述原始訓(xùn)練語料和已篩選得到的訓(xùn)練所用特征,由訓(xùn)練模型形成模塊103生成訓(xùn)練模型。具體地,通過諸如SVM(支持向量機(jī))、決策樹、LR(邏輯回歸)、最大熵等訓(xùn)練算法產(chǎn)生供用戶屬性預(yù)測時加載的模型(model)文件。所述模型文件主要包括各個特征及對應(yīng)的權(quán)重信息。此處的權(quán)重信息主要指具有某個特征的用戶屬于某個分類類別的可能性值或可能性區(qū)間,例如,某個用戶具有的特征為“dota(—種游戲名)”,則對應(yīng)的年齡類別的可能性為15歲-25歲之間,則可以將計算所得的可能性值作為特征“dota”對應(yīng)的權(quán)重信息。在本實施例中,用戶基于所述訓(xùn)練模型形成模塊103既可通過配置指定已有算法,也可以通過預(yù)設(shè)的接口實現(xiàn)自定義算法。
[0033]優(yōu)選地,本實施例所提供的用戶屬性預(yù)測平臺還可以包括訓(xùn)練模型評估模塊,用于評估所述已生成訓(xùn)練模型的預(yù)測效果。所述訓(xùn)練模型評估模塊具體評估的步驟包括:
[0034]I)建立用戶屬性標(biāo)準(zhǔn)驗證集;
[0035]其中,所述標(biāo)準(zhǔn)驗證集的結(jié)構(gòu)和上述訓(xùn)練語料的結(jié)構(gòu)一致,包括用戶的真實屬性信息和對應(yīng)的歷史行為數(shù)據(jù),用于驗證所生成的訓(xùn)練模型預(yù)測的屬性信息是否與真實屬性信息相一致。
[0036]2)加載各用戶屬性對應(yīng)的訓(xùn)練模型,基于所述標(biāo)準(zhǔn)驗證集中用戶的歷史行為信息進(jìn)行用戶屬性預(yù)測,并將所述預(yù)測結(jié)果與所述標(biāo)準(zhǔn)驗證集中用戶的真實屬性信息進(jìn)行對t匕,驗證所述訓(xùn)練模型的預(yù)測效果。
[0037]優(yōu)選地,本實施例所提供的用戶屬性預(yù)測平臺還包括:訓(xùn)練模型篩選模塊,用于篩選出預(yù)測效果達(dá)到預(yù)設(shè)閾值的訓(xùn)練模型。具體地,通過上述訓(xùn)練模型評估模塊的驗證,設(shè)定預(yù)測效果的一定閾值,從而篩選出其中預(yù)測效果達(dá)到所述閾值的訓(xùn)練模型,作為本實施例最終用于預(yù)測用戶屬性的訓(xùn)練模型。
[0038]獲取訓(xùn)練模型后,由所述屬性預(yù)測模塊型104基于用戶的行為數(shù)據(jù)和相應(yīng)特征對用戶的屬性進(jìn)行預(yù)測。
[0039]更具體地,例如,由信息獲取模塊和訓(xùn)練特征生成模塊獲取一定期限內(nèi)(如前N天,N可以取任意值)所有用戶行為數(shù)據(jù)和訓(xùn)練所用特征后,以所述數(shù)據(jù)和特征為輸入,由訓(xùn)練特征生成模塊或/和訓(xùn)練模型形成模塊抽取出每一天的用戶特征;
[0040]將所述一定期限內(nèi)的特征信息合并,生成一份用戶歷史特征集;
[0041]加載各屬性訓(xùn)練好的預(yù)測模型,基于所述歷史特征集,調(diào)用相應(yīng)的預(yù)測算法預(yù)測用戶屬性信息。
[0042]其中,上文所述的歷史特征集是指對原始訓(xùn)練語料中的歷史行為信息經(jīng)過去噪和降維處理所提取的具有用戶屬性區(qū)分度的特征信息集合。
[0043]優(yōu)選地,本實施例將經(jīng)過訓(xùn)練模型評估模塊所驗證過的預(yù)測效果達(dá)到一定閾值的訓(xùn)練模型推到線上,對任意未知用戶的屬性進(jìn)行預(yù)測,將預(yù)測出的用戶屬性信息應(yīng)用于信息投放、信息推薦等各個領(lǐng)域。
[0044]實際上,所述用戶屬性預(yù)測平臺可以每天定時啟動用戶屬性預(yù)測。
[0045]和現(xiàn)有技術(shù)相比,本實施例提供的用戶屬性預(yù)測平臺具有以下優(yōu)點:
[0046]I)由于本發(fā)明所提供的用戶屬性預(yù)測方法并不是針對特定一種用戶屬性的預(yù)測而設(shè)計,而是試圖解決各種用戶屬性預(yù)測所存在的通用問題,因此,基于該平臺,新增或新建任何一種屬性的預(yù)測模型將變得異常簡單;