本發(fā)明涉及音樂(lè)聚合處理領(lǐng)域,特別是涉及基于多層潛在特征的用戶興趣分群方法。
背景技術(shù):
隨著近年來(lái)互聯(lián)網(wǎng)行業(yè)的高速發(fā)展,海量音樂(lè)資源的迅速擴(kuò)充使用戶對(duì)于音樂(lè)的選擇變得尤為困難。因此,如何快速并有效地向用戶推薦合適的音樂(lè)成為了音樂(lè)軟件迅速占據(jù)市場(chǎng)的關(guān)鍵課題。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,在向用戶推薦音樂(lè)之前,會(huì)對(duì)不同的用戶進(jìn)行分群,以便向不同類的用戶推薦相應(yīng)的音樂(lè)信息。一般的用戶興趣分群是把物品的特性抽取出來(lái),然后根據(jù)用戶瀏覽,收藏與購(gòu)買物品等行為軌跡把物品的特征映射至用戶上,并通過(guò)模型把此特征量化,通過(guò)分類算法對(duì)用戶進(jìn)行分群。
然而使用此流程有一個(gè)很重要的前提:物品的特征要明確;如:電影,電器,日用商品,食品類;但如果涉及情感類的物品,如:音樂(lè),此類的特征會(huì)由人為主觀判斷,各人對(duì)音樂(lè)的情感判讀差別化較大,容易造成分類不準(zhǔn)確;且物品數(shù)據(jù)量需要控制在一定范圍;如果物品數(shù)據(jù)量太多,由于人力成本以及重要性等問(wèn)題,結(jié)果準(zhǔn)確度下降嚴(yán)重。
技術(shù)實(shí)現(xiàn)要素:
基于此,本發(fā)明實(shí)施例的目的在于提供一種基于多層潛在特征的用戶興趣分群方法及系統(tǒng),可以準(zhǔn)確對(duì)用戶進(jìn)行分群,以準(zhǔn)確推薦符合各類用戶興趣的音樂(lè)。
為達(dá)到上述目的,本發(fā)明實(shí)施例采用以下技術(shù)方案:
一種基于多層潛在特征的用戶興趣分群方法,包括步驟:
從日志系統(tǒng)讀取用戶播放日志;
依據(jù)所述用戶播放日志進(jìn)行欄目特征分析、軌跡特征分析以及歌詞特征分析;
依據(jù)欄目特征分析結(jié)果、軌跡特征分析結(jié)果以及歌詞特征分析結(jié)果確定特征模型;
對(duì)所述特征模型進(jìn)行聚類分析,得到聚類中心值;
依據(jù)所述聚類中心值進(jìn)行用戶分群。
以及一種基于多層潛在特征的用戶興趣分群系統(tǒng),包括:
讀取單元,用于從日志系統(tǒng)讀取用戶播放日志;
第一分析單元,用于依據(jù)所述用戶播放日志進(jìn)行欄目特征分析、軌跡特征分析以及歌詞特征分析;
確定單元,用于依據(jù)欄目特征分析結(jié)果、軌跡特征分析結(jié)果以及歌詞特征分析結(jié)果確定特征模型;
第二分析單元,用于對(duì)所述特征模型進(jìn)行聚類分析,得到聚類中心值;
群分單元,用于依據(jù)所述聚類中心值進(jìn)行用戶分群。
利用本發(fā)明方案,通過(guò)對(duì)用戶播放日志進(jìn)行欄目特征分析、用戶播放軌跡特征分析以及歌詞分析,采用欄目(歌單,電臺(tái),榜單)作為主題特征值,由于欄目的可變化性,能及時(shí)反饋用戶的興趣特征,融合“軌跡特征+歌詞特征+ 欄目特征”構(gòu)建多層次混合模型,減少稀疏的影響,豐富了特征維度,更準(zhǔn)確反映用戶特征,然后進(jìn)行聚類分析,得到聚類中心值,按照聚類中心值進(jìn)行用戶分群,可以準(zhǔn)確對(duì)用戶進(jìn)行分群,以準(zhǔn)確推薦符合各類用戶興趣的音樂(lè)。
附圖說(shuō)明
附圖是用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,并構(gòu)成說(shuō)明書(shū)的一部分,與下面的具體實(shí)施方式一起用于解釋本發(fā)明,但不應(yīng)構(gòu)成對(duì)本發(fā)明的限制。在附圖中,
圖1是本發(fā)明提出的基于多層潛在特征的用戶興趣分群方法的流程示意圖;
圖2是本發(fā)明提出的軌跡特征分析的實(shí)施例示意圖;
圖3是本發(fā)明提出的歌詞特征分析的實(shí)施例示意圖;
圖4是本發(fā)明提出的基于多層潛在特征的用戶興趣分群系統(tǒng)的結(jié)構(gòu)示意圖;
圖5是混淆矩陣示意圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施方式僅僅用以解釋本發(fā)明,并不限定本發(fā)明的保護(hù)范圍。
圖1示出了一種基于多層潛在特征的用戶興趣分群方法的流程圖,包括步驟:
S100、從日志系統(tǒng)讀取用戶播放日志;
具體的,從音樂(lè)服務(wù)器中的音樂(lè)播放日志系統(tǒng)讀取用戶播放日志。該播放日志中記錄了各個(gè)用戶對(duì)客戶端的歌曲進(jìn)行點(diǎn)擊播放的各種信息,包括播放歌曲名稱、播放單首歌曲時(shí)長(zhǎng)、搜索歌曲的信息、搜索歌手信息、歌曲欄目、用戶在各欄目的操作類型以及用戶在各欄目的停留時(shí)間等等。其中操作類型包括:瀏覽、試聽(tīng)、下載等。
S200、依據(jù)所述用戶播放日志進(jìn)行欄目特征分析、軌跡特征分析以及歌詞特征分析;
其中,進(jìn)行欄目特征分析時(shí),根據(jù)用戶在各欄目的操作類型以及用戶在各欄目的停留時(shí)間,獲得用戶對(duì)各個(gè)欄目的興趣度;具體的,根據(jù)用戶在欄目(如歌單,電臺(tái),榜單)的操作,對(duì)欄目的興趣度進(jìn)行打分,并結(jié)合時(shí)間衰減函數(shù)表示興趣的變化;其中,
時(shí)間衰減函數(shù)T(t):設(shè)t為當(dāng)前時(shí)間,T為有效時(shí)間幀長(zhǎng)度,R為停留在欄目最后時(shí)間點(diǎn):
欄目興趣函數(shù)F(t):欄目的打分為(W(1),W(2),...,W(n)),各個(gè)欄目的權(quán)重為k,則各個(gè)欄目的興趣度為:F(t)=T(t)*k(i)*W(i)
依據(jù)欄目興趣函數(shù)可獲得用戶對(duì)各個(gè)欄目的興趣度。
其中,進(jìn)行軌跡特征分析時(shí),獲得用戶在歌曲欄目中的點(diǎn)擊軌跡,以二八原則并結(jié)合矩陣獲得用戶操作軌跡量化值;具體的,軌跡特征分析的構(gòu)思是分析用戶行為,設(shè)計(jì)“用戶位置軌跡順序”,發(fā)現(xiàn)用戶潛在特征,歸類用戶習(xí)慣。分析客戶端各個(gè)位置點(diǎn)的數(shù)據(jù),結(jié)合用戶在歌曲播放客戶端的點(diǎn)擊軌跡,以二八原則,把80%用戶集中在20%的行為路徑找出來(lái),并結(jié)合矩陣量化。矩陣如圖2所示,設(shè)(p1,p2,...,pn)為用戶,(t1,t2,...,tn)為路徑,得分為0,1;通過(guò)圖2所示矩陣可獲得用戶操作軌跡量化值。
其中,進(jìn)行歌詞特征分析時(shí),通過(guò)分詞算法,把各歌曲的歌詞拆分為一個(gè)個(gè)單詞,并進(jìn)行去噪降維處理得到潛在的歌曲核心詞;獲取各個(gè)潛在的歌曲核心詞在各歌曲中的出現(xiàn)次數(shù)、出現(xiàn)該單詞的歌曲數(shù)、各歌曲的總詞數(shù);依據(jù)各個(gè)潛在的歌曲核心詞在各歌曲中的出現(xiàn)次數(shù)、出現(xiàn)該單詞的歌曲數(shù)、各歌曲的總詞數(shù)提煉歌曲核心詞;依據(jù)歌曲核心詞確定各用戶播放歌曲的標(biāo)簽以及各用戶播放歌曲的標(biāo)簽得分值。具體的,通過(guò)分詞算法,把一段歌詞拆分為一個(gè)個(gè)單詞,并通過(guò)分析提煉歌曲核心詞(能反映歌曲特征的單詞),并通過(guò)曲庫(kù)標(biāo)簽體系,以及人工編輯的方式對(duì)核心詞構(gòu)建模型進(jìn)行映射,以達(dá)到歸類特征的效果。其思想核心是通過(guò)歌詞降維,減少尋找潛在特征的難度,并通過(guò)模型為核心詞附上標(biāo)簽。
具體實(shí)現(xiàn)方式如下:
1、采用MMSEG分詞算法把歌詞拆分成單詞組;
2、建立詞庫(kù)黑名單把虛詞(連詞、介詞、助詞、語(yǔ)氣詞)與特殊詞類(嘆詞和象聲詞),并對(duì)實(shí)詞做過(guò)濾分析,抽取核心詞作為歌詞的隱性特征詞組;
3、剔除異常數(shù)據(jù)檢驗(yàn)統(tǒng)計(jì)上的提法:采用假設(shè)服從正態(tài)分布的假設(shè)檢驗(yàn),抽取其懷疑為異常數(shù)據(jù)的單詞;剔除異常數(shù)據(jù)的方法:
1.若考察X1,X2,…,Xn
設(shè)X1,X2…,Xn相互獨(dú)立,分別服從方差相同的正態(tài)分布N(μi,σ2),i=1,2,…,n。針對(duì)基本假設(shè)H0:μ1=μ2=…=μn,考慮如下三種對(duì)立假設(shè):
H1+:μ1=μ2=…=μk-1=μk+1=…=μn=μ
μk=μ+d |d>0
H1-μ1=μ2=…=μk-1=μk+1=…=μn=μ
μk=μ+d d<0
H1:μ1=μ2=…=μk-1=μk+1=…=μn=μ
μk=μ+d d≠0
其中d表示異常誤差,μk=μ+d表示異常均值,而d和k都是未知的。
因此,剔除異常數(shù)據(jù)的檢驗(yàn),就是當(dāng)對(duì)立假設(shè)為H1+,H1-或H1時(shí),對(duì)基本假設(shè)H0的檢驗(yàn)。如果H0被否定,則Xk即判為異常數(shù)據(jù)。
4、采用剔除異常數(shù)據(jù)的統(tǒng)計(jì)檢驗(yàn)方法:通過(guò)Grubbs檢驗(yàn)測(cè)試“可疑異常數(shù)據(jù)的單詞”是否為異常。在第1步至第4步,是為對(duì)了歌詞進(jìn)行降維,去噪的工作,目的是把歌詞的潛在核心詞顯現(xiàn)出來(lái),為對(duì)“歌曲”貼上合理標(biāo)簽作準(zhǔn)備。
5、依據(jù)以下方式對(duì)潛在的歌曲核心詞進(jìn)行打分,確定打分為前若干位的潛在的核心詞為歌曲核心詞。
對(duì)潛在的歌曲核心詞進(jìn)行打分步驟包括:
潛在核心詞得分等于詞頻與逆文檔頻率得乘積;其中,詞頻等于潛在的歌曲核心詞在各歌曲中的出現(xiàn)次數(shù)與該歌曲總詞數(shù)的比值;逆文檔頻率等于以e為底的總歌曲數(shù)與出現(xiàn)該單詞的歌曲數(shù)加1后的比值的對(duì)數(shù);
即:詞頻(IF)=潛在的歌曲核心詞在各歌曲中的出現(xiàn)次數(shù)/該歌曲總詞數(shù);
其中,K為出現(xiàn)該單詞的歌曲數(shù)。
潛在核心詞得分(IF_IDF)=詞頻×逆文檔頻率。
圖3是以陳奕迅的“十年”為例的詞頻分析,從圖4可知,出現(xiàn)次數(shù)越多的詞,字體越大。從圖3的歌曲核心詞可以初步反映是關(guān)于“愛(ài)情”,“分手”,“悲傷”,“難受”等標(biāo)簽信息,但需要把潛在因子(核心詞)從“單詞(分詞算法后的各個(gè)單詞)”中提煉出來(lái)。這里需要使用到統(tǒng)計(jì)學(xué)中的Logistic回歸模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。其中,潛在因子的特點(diǎn)是詞組名字不相同,而且數(shù)據(jù)很多,或者需要多個(gè)核心詞來(lái)表達(dá)一個(gè)“標(biāo)簽”;例如:“傷心”與“悲傷”,“難受”都可以用來(lái)表達(dá)標(biāo)簽“悲傷”;另一種情況:淪為”+“朋友”與“淪為”+“陌生人”代表標(biāo)簽“分手”;“情人”,“牽手”,“女友”,“擁抱”,“溫柔”代表標(biāo)簽“愛(ài)情”。
6、利用統(tǒng)計(jì)學(xué)中的Logistic回歸模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),提煉歌曲核心詞對(duì)應(yīng)的標(biāo)簽;
1)采用二八原則從曲庫(kù)提取具有代表性的覆蓋歌曲80%核心標(biāo)簽的歌曲,并對(duì)歌曲的歌詞做第1步至第5步的操作。
2)對(duì)音樂(lè)庫(kù)中歌曲的“單詞”進(jìn)行標(biāo)簽映射,建立對(duì)應(yīng)庫(kù),例如:淪為”+“朋友”與“淪為”+“陌生人”對(duì)應(yīng)“分手”;“情人”,“牽手”,“女友”,“擁抱”,“溫柔”對(duì)應(yīng)“愛(ài)情”;“淚流”,“顫抖”+“難受”,“眼淚”對(duì)應(yīng)“悲傷”;以上規(guī)則需要應(yīng)用到第5步的“詞頻權(quán)重”進(jìn)行調(diào)優(yōu),具體需要實(shí)驗(yàn)確定;
3)把音樂(lè)庫(kù)的歌曲信息按2:1的比例建立訓(xùn)練集與測(cè)試集,并以Logistic回歸模型對(duì)歌曲進(jìn)行預(yù)測(cè)與調(diào)優(yōu);
4)把回歸模型使用至所有歌曲樣本,把潛在因子預(yù)測(cè)出來(lái);
5)對(duì)預(yù)測(cè)結(jié)果進(jìn)行抽樣分析,確定其準(zhǔn)確性。對(duì)預(yù)測(cè)結(jié)果不理想或沒(méi)有預(yù)測(cè)結(jié)果的歌曲進(jìn)行總體分析,并返回第1步重新設(shè)立模型重新預(yù)測(cè)。
7、在歌曲核心詞提煉標(biāo)簽完成后,使用上述潛在核心詞得分(IF_IDF)=詞頻×逆文檔頻率的算法重新對(duì)標(biāo)簽進(jìn)行打分。
其中,在此過(guò)程進(jìn)行了2次打分,第一次是對(duì)“潛在因子”打分,用于生成“標(biāo)簽”使用;而第二次打分是確定標(biāo)簽的得分,用于聚類算法使用。
S300、依據(jù)欄目特征分析結(jié)果、軌跡特征分析結(jié)果以及歌詞特征分析結(jié)果確定特征模型;
其中,該步驟包括:使用z-score標(biāo)準(zhǔn)化將用戶對(duì)各個(gè)欄目的興趣度、用戶操作軌跡量化值、各用戶播放歌曲的標(biāo)簽得分值得分統(tǒng)一至同一水平;
獲取以下三個(gè)特征的質(zhì)量以最高質(zhì)量的特征為核心,其他兩個(gè)特征為補(bǔ)充,并整合三個(gè)特征共有信息,構(gòu)建多層次混合特征模型;其中,所述三個(gè)特征為標(biāo)準(zhǔn)化處理后的用戶對(duì)各個(gè)欄目的興趣度、用戶操作軌跡量化值、各用戶播放歌曲的標(biāo)簽得分值。
具體的,以“欄目特征”,“軌跡特征”與“歌詞特征”的結(jié)果分析,再?zèng)Q定適應(yīng)性模型。初次可使用權(quán)重模型進(jìn)行測(cè)試。此三個(gè)特征分別代表了三種不同的特性:主題,習(xí)慣,標(biāo)簽,從不同角度組合成用戶模型,更能反映用戶特性。
1、先把“欄目特征”,“軌跡特征”與“歌詞特征”使用z-score標(biāo)準(zhǔn)化把不同層次的得分統(tǒng)一至同一水平。具體的,統(tǒng)一后的新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標(biāo)準(zhǔn)差。
2、分析三個(gè)“特征”的質(zhì)量,以最高質(zhì)量的特征為核心,其他兩個(gè)特征為補(bǔ)充,并整合三個(gè)特征共有信息,構(gòu)建模型,設(shè)計(jì)“軌跡特征”為W(n),“歌詞特征”為X(n),“欄目特征”為Y(n),K(i)為權(quán)重,則得分函數(shù)F(n)為:
F(n)=K(1)W(n)+K(2)X(n)+K(3)Y(n)
以上方式是采用經(jīng)典的線性加權(quán)融合方法,具體是采用多元線性回歸模型,其權(quán)重確認(rèn)方法如下:
1)結(jié)合“欄目特征”,“軌跡特征”與“歌詞特征”的信息由數(shù)據(jù)分析師設(shè)計(jì)調(diào)查問(wèn)卷,并收集足夠的樣本素材;
2)對(duì)“欄目特征”,“軌跡特征”與“歌詞特征”歸一化,以達(dá)到同一水平層次;
3)把樣本設(shè)置訓(xùn)練集,通過(guò)多元線性回歸模型進(jìn)行多次訓(xùn)練,若其預(yù)測(cè)結(jié)果是與結(jié)果集相符合,則可認(rèn)為此權(quán)重參數(shù)為所求;
4)進(jìn)行多元線性回歸模型的檢驗(yàn),以決定其權(quán)重參數(shù)是否可以應(yīng)用。
其中,多元線性回歸模型:設(shè)y為因變量,x1,x2,…xk為自變量,并且自變量與因變量之間為線性關(guān)系時(shí),則多元線性回歸模型為:
y=b0+b1x1+b2x2+…+bkxk+e
其中,b0為常數(shù)項(xiàng),b1,b2,…bk為回歸系數(shù),b1為x2,x3…xk固定時(shí),x1每增加一個(gè)單位對(duì)y的效應(yīng),即x1對(duì)y的偏回歸系數(shù);同理b2為x1,xk固定時(shí),x2每增加一個(gè)單位對(duì)y的效應(yīng),即,x2對(duì)y的偏回歸系數(shù),等等。如果兩個(gè)自變量x1,x2同一個(gè)因變量y呈線相關(guān)時(shí),可用二元線性回歸模型描述為:
y=b0+b1x1+b2x2+e
多元性回歸模型的參數(shù)估計(jì)是在要求誤差平方和(∑e2)為最小的前提下,用最小二乘法求解參數(shù)。以二線性回歸模型為例,求解回歸參數(shù)的標(biāo)準(zhǔn)方程組為:
解此方程可求得b0,b1,b2的數(shù)值。亦可用下列矩陣法求得:
b==(x′x)-1·(x′y)
即:
其中,多元線性回歸模型的檢驗(yàn)的步驟如下:
1、擬合程度的測(cè)定。
與一元線性回歸中可決系數(shù)r2相對(duì)應(yīng),多元線性回歸中也有多重可決系數(shù)r2,它是在因變量的總變化中,由回歸方程解釋的變動(dòng)(回歸平方和)所占的比重,R2越大,回歸方各對(duì)樣本數(shù)據(jù)點(diǎn)擬合的程度越強(qiáng),所有自變量與因變量的關(guān)系越密切。計(jì)算公式為:
其中,
2.估計(jì)標(biāo)準(zhǔn)誤差
估計(jì)標(biāo)準(zhǔn)誤差,即因變量y的實(shí)際值與回歸方程求出的估計(jì)值之間的標(biāo)準(zhǔn)誤差,估計(jì)標(biāo)準(zhǔn)誤差越小,回歸方程擬合程度越程。
其中,k為多元線性回歸方程中的自變量的個(gè)數(shù)。
3.回歸方程的顯著性檢驗(yàn)
回歸方程的顯著性檢驗(yàn),即檢驗(yàn)整個(gè)回歸方程的顯著性,或者說(shuō)評(píng)價(jià)所有自變量與因變量的線性關(guān)系是否密切。能常采用F檢驗(yàn),F(xiàn)統(tǒng)計(jì)量的計(jì)算公式為:
根據(jù)給定的顯著水平a,自由度(k,n-k-1)查F分布表,得到相應(yīng)的臨界值Fa,若F>Fa,則回歸方程具有顯著意義,回歸效果顯著;F<Fa,則回歸方程無(wú)顯著意義,回歸效果不顯著。
4.回歸系數(shù)的顯著性檢驗(yàn)
在一元線性回歸中,回歸系數(shù)顯著性檢驗(yàn)(t檢驗(yàn))與回歸方程的顯著性檢驗(yàn)(F檢驗(yàn))是等價(jià)的,但在多元線性回歸中,這個(gè)等價(jià)不成立。t檢驗(yàn)是分別檢驗(yàn)回歸模型中各個(gè)回歸系數(shù)是否具有顯著性,以便使模型中只保留那些對(duì)因變量有顯著影響的因素。檢驗(yàn)時(shí)先計(jì)算統(tǒng)計(jì)量ti;然后根據(jù)給定的顯著水平a,自由度n-k-1查t分布表,得臨界值ta或ta/2,t>t-a或ta/2,則回歸系數(shù)bi與0有顯著關(guān)異,反之,則與0無(wú)顯著差異。統(tǒng)計(jì)量t的計(jì)算公式為:
其中,Cij是多元線性回歸方程中求解回歸系數(shù)矩陣的逆矩陣(x'x)-1的主對(duì)角線上的第j個(gè)元素。對(duì)二元線性回歸而言,可用下列公式計(jì)算:
其中,
5.多重共線性判別
若某個(gè)回歸系數(shù)的t檢驗(yàn)通不過(guò),可能是這個(gè)系數(shù)相對(duì)應(yīng)的自變量對(duì)因變量的影平不顯著所致,此時(shí),應(yīng)從回歸模型中剔除這個(gè)自變量,重新建立更為簡(jiǎn)單的回歸模型或更換自變量。也可能是自變量之間有共線性所致,此時(shí)應(yīng)設(shè)法降低共線性的影響。
多重共線性是指在多元線性回歸方程中,自變量之彰有較強(qiáng)的線性關(guān)系,這種關(guān)系若超過(guò)了因變量與自變量的線性關(guān)系,則回歸模型的穩(wěn)定性受到破壞,回歸系數(shù)估計(jì)不準(zhǔn)確。需要指出的是,在多元回歸模型中,多重共線性的難以避免的,只要多重共線性不太嚴(yán)重就行了。判別多元線性回歸方程是否存在嚴(yán)懲的多重共線性,可分別計(jì)算每?jī)蓚€(gè)自變量之間的可決系數(shù)r2,若r2>R2或接近于R2,則應(yīng)設(shè)法降低多重線性的影響。亦可計(jì)算自變量間的相關(guān)系數(shù)矩陣的特征值的條件數(shù)k=λ1/λp(λ1為最大特征值,λp為最小特征值),k<100,則不存在多重點(diǎn)共線性;若100≤k≤1000,則自變量間存在較強(qiáng)的多重共線性,若k>1000,則自變量間存在嚴(yán)重的多重共線性。降低多重共線性的辦法主要是轉(zhuǎn)換自變量的取值,如變絕對(duì)數(shù)為相對(duì)數(shù)或平均數(shù),或者更換其他的自變量。
6.D.W檢驗(yàn)
當(dāng)回歸模型是根據(jù)動(dòng)態(tài)數(shù)據(jù)建立的,則誤差項(xiàng)e也是一個(gè)時(shí)間序列,若誤差序列諸項(xiàng)之間相互獨(dú)立,則誤差序列各項(xiàng)之間沒(méi)有相關(guān)關(guān)系,若誤差序列之間存在密切的相關(guān)關(guān)系,則建立的回歸模型就不能表述自變量與因變量之間的真實(shí)變動(dòng)關(guān)系。D.W檢驗(yàn)就是誤差序列的自相關(guān)檢驗(yàn)。檢驗(yàn)的方法與一元線性回歸相同。
S400、對(duì)所述特征模型進(jìn)行聚類分析,得到聚類中心值;
其中,在確定特征模型之后選擇聚類算法,可以考慮k-means聚類算法;以欄目特征、軌跡特征、歌詞特征3個(gè)維度采用多元線性回歸模型確定三個(gè)特征的權(quán)重,建議以用戶、特征向量組成的矩陣,并使用K-means進(jìn)行聚類。設(shè)(p1,p2,...,pn)為用戶,軌跡特征得分為(W1,W2,...,Wn),歌詞特征得分為(X1,X2,...,Xn),,欄目特征得分為(Y1,Y2,...,Yn),則得分矩陣為:
K-means聚類算法是基于距離的聚類算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。
k個(gè)初始類聚類中心點(diǎn)的選取對(duì)聚類結(jié)果具有較大的影響,因?yàn)樵谠撍惴ǖ谝徊街惺请S機(jī)的選取任意k個(gè)對(duì)象作為初始聚類的中心,初始地代表一個(gè)簇。該算法在每次迭代中對(duì)數(shù)據(jù)集中剩余的每個(gè)對(duì)象,根據(jù)其與各個(gè)簇中心的距離將每個(gè)對(duì)象重新賦給最近的簇。當(dāng)考察完所有數(shù)據(jù)對(duì)象后,一次迭代運(yùn)算完成,新的聚類中心被計(jì)算出來(lái)。如果在一次迭代前后,評(píng)價(jià)指標(biāo)J的值沒(méi)有發(fā)生變化,說(shuō)明算法已經(jīng)收斂。
迭代運(yùn)算的流程:
1、根據(jù)事先給定的k值建立初始劃分,得到k個(gè)Cluster(簇、群),比如,可以隨機(jī)選擇k個(gè)點(diǎn)作為k個(gè)Cluster的重心,又或者用Canopy Clustering得到的Cluster作為初始重心(當(dāng)然這個(gè)時(shí)候k的值由Canopy Clustering得結(jié)果決定);
2、計(jì)算每個(gè)點(diǎn)到各個(gè)Cluster重心的距離,將它加入到最近的那個(gè)Cluster;
3、重新計(jì)算每個(gè)Cluster的重心;
4、重復(fù)過(guò)程2~3步驟,直到各個(gè)Cluster重心在某個(gè)精度范圍內(nèi)不變化或者達(dá)到最大迭代次數(shù),即可得到聚類中心值。
S500、依據(jù)所述聚類中心值進(jìn)行用戶分群。
其中,在經(jīng)過(guò)上述聚類分析之后再進(jìn)行評(píng)估指標(biāo),步驟包括:
一、建立混淆矩陣,它主要用于比較分類結(jié)果和實(shí)例的真實(shí)信息。矩陣中的每一行代表實(shí)例的預(yù)測(cè)類別,每一列代表實(shí)例的真實(shí)類別。假設(shè)我們的分類目標(biāo)只有兩類,計(jì)為正例(positive)和負(fù)例(negtive)分別是:
1)True positives(TP):被正確地劃分為正例的個(gè)數(shù),即實(shí)際為正例且被分類器劃分為正例的實(shí)例數(shù)(樣本數(shù));
2)False positives(FP):被錯(cuò)誤地劃分為正例的個(gè)數(shù),即實(shí)際為負(fù)例但被分類器劃分為正例的實(shí)例數(shù);
3)False negatives(FN):被錯(cuò)誤地劃分為負(fù)例的個(gè)數(shù),即實(shí)際為正例但被分類器劃分為負(fù)例的實(shí)例數(shù);
4)True negatives(TN):被正確地劃分為負(fù)例的個(gè)數(shù),即實(shí)際為負(fù)例且被分類器劃分為負(fù)例的實(shí)例數(shù)。
具體的混淆矩陣示意圖參考圖5。
二、由混淆矩陣計(jì)算評(píng)價(jià)指標(biāo),具體指標(biāo)如下:
1)正確率(accuracy)
正確率是我們最常見(jiàn)的評(píng)價(jià)指標(biāo),accuracy=(TP+TN)/(P+N),這個(gè)很容易理解,就是被分對(duì)的樣本數(shù)除以所有的樣本數(shù),通常來(lái)說(shuō),正確率越高,分類器越好;
2)錯(cuò)誤率(error rate)
錯(cuò)誤率則與正確率相反,描述被分類器錯(cuò)分的比例,error rate=(FP+FN)/(P+N),對(duì)某一個(gè)實(shí)例來(lái)說(shuō),分對(duì)與分錯(cuò)是互斥事件,所以accuracy=1-error rate;
3)靈敏度(sensitive)
sensitive=TP/P,表示的是所有正例中被分對(duì)的比例,衡量了分類器對(duì)正例的識(shí)別能力;
4)特效度(specificity)
specificity=TN/N,表示的是所有負(fù)例中被分對(duì)的比例,衡量了分類器對(duì)負(fù)例的識(shí)別能力;
5)精度(precision)
精度是精確性的度量,表示被分為正例的示例中實(shí)際為正例的比例,precision=TP/(TP+FP);
6)召回率(recall)
召回率是覆蓋面的度量,度量有多個(gè)正例被分為正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率與靈敏度是一樣的。
利用本發(fā)明方案,通過(guò)對(duì)用戶播放日志進(jìn)行欄目特征分析、用戶播放軌跡特征分析以及歌詞分析,采用欄目(歌單,電臺(tái),榜單)作為主題特征值,由于欄目的可變化性,能及時(shí)反饋用戶的興趣特征,融合“軌跡特征+歌詞特征+欄目特征”構(gòu)建多層次混合模型,減少稀疏的影響,豐富了特征維度,更準(zhǔn)確反映用戶特征,然后進(jìn)行聚類分析,得到聚類中心值,按照聚類中心值進(jìn)行用戶分群,可以準(zhǔn)確對(duì)用戶進(jìn)行分群,以準(zhǔn)確推薦符合各類用戶興趣的音樂(lè)。
與上述方法對(duì)應(yīng)的,本發(fā)明公開(kāi)了一種基于多層潛在特征的用戶興趣分群系統(tǒng),如圖4所示,包括:
讀取單元,用于從日志系統(tǒng)讀取用戶播放日志;
第一分析單元,用于依據(jù)所述用戶播放日志進(jìn)行欄目特征分析、軌跡特征分析以及歌詞特征分析;
確定單元,用于依據(jù)欄目特征分析結(jié)果、軌跡特征分析結(jié)果以及歌詞特征分析結(jié)果確定特征模型;
第二分析單元,用于對(duì)所述特征模型進(jìn)行聚類分析,得到聚類中心值;
群分單元,用于依據(jù)所述聚類中心值進(jìn)行用戶分群。
其中,所述用戶播放日志包括歌曲欄目、用戶在各欄目的操作類型以及用戶在各欄目的停留時(shí)間;
其中,如圖4所示,第一分析單元包括:興趣度獲取單元、用戶軌跡獲取單元、歌曲標(biāo)簽獲取單元;
所述興趣度獲取單元,用于根據(jù)用戶在各欄目的操作類型以及用戶在各欄目的停留時(shí)間,獲得用戶對(duì)各個(gè)欄目的興趣度;
所述用戶軌跡獲取單元,用于獲得用戶在歌曲欄目中的點(diǎn)擊軌跡,以二八原則并結(jié)合矩陣獲得用戶操作軌跡量化值;
所述歌曲標(biāo)簽獲取單元,用于通過(guò)分詞算法,把各歌曲的歌詞拆分為一個(gè)個(gè)單詞,并進(jìn)行去噪降維處理得到潛在的歌曲核心詞;獲取各個(gè)潛在的歌曲核心詞在各歌曲中的出現(xiàn)次數(shù)、出現(xiàn)該單詞的歌曲數(shù)、各歌曲的總詞數(shù);依據(jù)各個(gè)潛在的歌曲核心詞在各歌曲中的出現(xiàn)次數(shù)、出現(xiàn)該單詞的歌曲數(shù)、各歌曲的總詞數(shù)提煉歌曲核心詞;依據(jù)歌曲核心詞確定各用戶播放歌曲的標(biāo)簽以及各用戶播放歌曲的標(biāo)簽得分值。
其中,所述確定單元使用z-score標(biāo)準(zhǔn)化將用戶對(duì)各個(gè)欄目的興趣度、用戶操作軌跡量化值、各用戶播放歌曲的標(biāo)簽得分值得分統(tǒng)一至同一水平;獲取以下三個(gè)特征的質(zhì)量以最高質(zhì)量的特征為核心,其他兩個(gè)特征為補(bǔ)充,并整合三個(gè)特征共有信息,構(gòu)建多層次混合特征模型;其中,所述三個(gè)特征為標(biāo)準(zhǔn)化處理后的用戶對(duì)各個(gè)欄目的興趣度、用戶操作軌跡量化值、各用戶播放歌曲的標(biāo)簽得分值。
其中,所述歌曲標(biāo)簽獲取單元,依據(jù)以下方式對(duì)潛在的歌曲核心詞進(jìn)行打分:
潛在核心詞得分等于詞頻與逆文檔頻率得乘積;其中,詞頻等于潛在的歌曲核心詞在各歌曲中的出現(xiàn)次數(shù)與該歌曲總詞數(shù)的比值;逆文檔頻率等于以e為底的總歌曲數(shù)與出現(xiàn)該單詞的歌曲數(shù)加1后的比值的對(duì)數(shù);
確定打分為前若干位的潛在的核心詞為歌曲核心詞。
其中,對(duì)所述三個(gè)特征采用線性加權(quán)融合方法構(gòu)建所述多層次混合特征模型。
只要不違背本發(fā)明創(chuàng)造的思想,對(duì)本發(fā)明的各種不同實(shí)施例進(jìn)行任意組合,均應(yīng)當(dāng)視為本發(fā)明公開(kāi)的內(nèi)容;在本發(fā)明的技術(shù)構(gòu)思范圍內(nèi),對(duì)技術(shù)方案進(jìn)行多種簡(jiǎn)單的變型及不同實(shí)施例進(jìn)行的不違背本發(fā)明創(chuàng)造的思想的任意組合,均應(yīng)在本發(fā)明的保護(hù)范圍之內(nèi)。