一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法
【專利摘要】本發(fā)明提供一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法,包括步驟:獲取網(wǎng)站用戶標(biāo)注數(shù)據(jù),建立標(biāo)注資源信息數(shù)據(jù)庫;建立資源向量空間模型;對(duì)資源向量空間模型進(jìn)行資源聚類;根據(jù)聚類資源結(jié)果進(jìn)行用戶子興趣劃分;構(gòu)建用戶模型;將用戶模型嵌入標(biāo)簽網(wǎng)站后臺(tái),根據(jù)用戶模型與資源模型的余弦相似度進(jìn)行資源推送。本發(fā)明更多地考慮到用戶存在興趣的多樣性,突破用戶模型單一化的表現(xiàn)形式,細(xì)化了用戶模型的描述粒度,減少了單一模型中多個(gè)標(biāo)簽混合造成的語義混亂問題,從而幫助標(biāo)簽網(wǎng)站推出更為有效的用戶個(gè)性化信息服務(wù),將依據(jù)本發(fā)明的方法所建立的標(biāo)注用戶模型應(yīng)用到標(biāo)簽網(wǎng)站的推薦系統(tǒng)中,能夠極大提高推薦系統(tǒng)的推薦準(zhǔn)確性和推薦效率。
【專利說明】
—種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及社會(huì)化標(biāo)注技術(shù),具體涉及一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法。
【背景技術(shù)】
[0002]電子商務(wù)作為一種新興的商務(wù)模式已經(jīng)越來越受到人們的普遍認(rèn)可并蓬勃發(fā)展。個(gè)性化推薦技術(shù)作為用戶在海量商務(wù)信息中獲取偏好商品信息的重要手段,近年來受到了廣泛的關(guān)注。幾乎所有的大型電子商務(wù)系統(tǒng)如Amazon、淘寶等均不同程度的使用了各種推薦系統(tǒng)。隨著各種Web2.0應(yīng)用的深入發(fā)展,普通用戶越來越成為信息內(nèi)容的重要生產(chǎn)者,Delic1us、Flickr、YouTube 等 Web2.0 網(wǎng)站不斷涌現(xiàn),社會(huì)化標(biāo)注(Social Tagging)也成為了電子商務(wù)個(gè)性化推薦研究一個(gè)新的著手點(diǎn)。
[0003]社會(huì)化標(biāo)注系統(tǒng)中的用戶模型是各類推薦系統(tǒng)進(jìn)行個(gè)性化推薦的重要依據(jù)之一,因此用戶模型的建立對(duì)于推薦系統(tǒng)能否進(jìn)行準(zhǔn)確及時(shí)有效的推薦至關(guān)重要。當(dāng)前,基于社會(huì)化標(biāo)注的用戶建模的研究仍處在一個(gè)興起階段。在已有的研究中,多數(shù)的研究是將用戶興趣作為同一維度加以處理,而事實(shí)上,用戶往往有著多個(gè)不同的興趣點(diǎn)。如某一用戶不僅對(duì)計(jì)算機(jī)編程充滿興趣,同時(shí)也關(guān)注旅游攝影方面的信息,如果將該用戶的興趣標(biāo)簽置于同一維度模型中,將很有可能導(dǎo)致標(biāo)簽間的語義混亂,從而降低個(gè)性化推薦的效果?,F(xiàn)有的方法有:一是基于矩陣的處理建立用戶模型。矩陣的表示方法在社會(huì)網(wǎng)絡(luò)的文獻(xiàn)中非常流行,具體的方法包括:通過標(biāo)簽-資源矩陣和LSA方法來進(jìn)行的,利用HOSVD算法將用戶、標(biāo)簽、資源吸收到同一框架中進(jìn)行分析的,以及通過矩陣擴(kuò)展的方法等。二是基于聚類分析建立用戶模型。具體的方法包括通過緊密度(affinity)計(jì)算標(biāo)簽之間的相關(guān)性并將相關(guān)標(biāo)簽進(jìn)行聚類,也有研究通過計(jì)算目標(biāo)用戶和其他用戶的余弦相似性并結(jié)合樸素貝葉斯法,得出資源對(duì)用戶的推薦度。還有研究則是通過資源聚類展開,通過對(duì)用戶所標(biāo)注資源進(jìn)行內(nèi)容聚類,實(shí)現(xiàn)個(gè)性化推薦。三是基于網(wǎng)絡(luò)來建立用戶模型,包括借助網(wǎng)絡(luò)二分圖、無向權(quán)圖實(shí)等方法,但是這些方法都沒有考慮用戶興趣的多面性,尤其是在向量空間模型中,由于沒有對(duì)用戶興趣進(jìn)行區(qū)分而將標(biāo)簽在同一向量中混合處理,造成了標(biāo)簽間的語義混亂問題,在實(shí)際應(yīng)用中,往往導(dǎo)致標(biāo)注網(wǎng)站將不甚相關(guān)的資源推薦給用戶,影響了用戶滿意度。
【發(fā)明內(nèi)容】
[0004]本發(fā)明所要解決的技術(shù)問題是提供一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法,能夠?yàn)楝F(xiàn)有的推薦系統(tǒng)提供更為細(xì)粒度的用戶模型,提高推薦系統(tǒng)的準(zhǔn)確性和推薦效率。
[0005]本發(fā)明為了解決上述技術(shù)問題所采用的技術(shù)方案為:
[0006]一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法,包括以下步驟:
[0007]I)從標(biāo)簽網(wǎng)站提供的API端口爬取網(wǎng)站用戶標(biāo)注數(shù)據(jù),對(duì)用戶添加過標(biāo)簽的資源信息(URLs)進(jìn)行統(tǒng)計(jì),建立標(biāo)注資源信息數(shù)據(jù)庫;
[0008]其中,標(biāo)簽網(wǎng)站是指允許普通用戶為資源添加標(biāo)簽的網(wǎng)站;
[0009]2)對(duì)用戶所標(biāo)注的每個(gè)資源建立向量空間模型;
[0010]3)對(duì)步驟2)中所建立的向量空間模型進(jìn)行資源聚類;
[0011]4)根據(jù)步驟3)得到的聚類資源結(jié)果進(jìn)行用戶子興趣劃分;
[0012]5)基于步驟4)劃分的用戶子興趣構(gòu)建用戶模型;
[0013]6)將用戶模型嵌入標(biāo)簽網(wǎng)站后臺(tái),根據(jù)用戶模型與資源模型的余弦相似度進(jìn)行資源推送。
[0014]在采用上述技術(shù)方案的同時(shí),本發(fā)明還可以采用或者組合采用以下進(jìn)一步的技術(shù)方案:
[0015]所述步驟2)具體包括以下步驟:
[0016]2.1):選取標(biāo)簽網(wǎng)站中的一個(gè)目標(biāo)用戶,從步驟I)建立的標(biāo)注資源信息數(shù)據(jù)庫中獲取其標(biāo)注的所有資源信息,建立資源集合SetK ;
[0017]2.2):統(tǒng)計(jì)資源集合SetK中每一資源r中所有標(biāo)簽的出現(xiàn)頻率;
[0018]2.3):應(yīng)用TF-1DF算法,計(jì)算資源r中所有標(biāo)簽的權(quán)值w并確定主流標(biāo)簽Ρορτ ;
[0019]TF-1DF是一種權(quán)值計(jì)算方法,根據(jù)目標(biāo)的標(biāo)簽頻率與反向頻率來確定其權(quán)值,這是一種全局方法,需要具備標(biāo)注系統(tǒng)內(nèi)所有資源及其標(biāo)簽的信息。主流標(biāo)簽Popt是指每個(gè)資源中權(quán)值最高的若干個(gè)標(biāo)簽,是作為有限計(jì)算量下代表資源特征的一種處理方法。
[0020]2.4):構(gòu)建資源r的向量空間模型r(tm,wm),其中,tm表示該模型中所包含的第m個(gè)標(biāo)簽,Wm為對(duì)應(yīng)的權(quán)重。
[0021]資源模型以向量空間模型的方式表示,r(tm, wm) = (W1, w2,…,wm)。
[0022]所述步驟3)包括以下具體步驟:
[0023]3.1):選取一個(gè)資源集合SetK,計(jì)算其中任意兩個(gè)不同向量!Ti與r」的余弦相似度Simij ;
[0024]3.2):根據(jù)SetK內(nèi)資源所對(duì)應(yīng)的向量間的余弦相似度Simij,建立對(duì)稱矩陣Data_Sim ;
[0025]3.3):應(yīng)用派系過濾算法的社團(tuán)發(fā)現(xiàn)算法對(duì)Data_Sim進(jìn)行聚類,得到類別數(shù)C ;
[0026]3.4):根據(jù)每一資源集合所屬的不同類別,統(tǒng)計(jì)每一類別C中所包含的資源集合,構(gòu)成聚類資源集Sub_SetK。
[0027]所述步驟4)具體包括以下步驟:
[0028]4.1):依據(jù)步驟2.3),獲取聚類資源集Sub_SetK中每一資源的向量空間模型主流標(biāo)簽Ρορτ及權(quán)值w ;
[0029]4.2):根據(jù)聚類資源集Sub_SetK中所有資源的主流標(biāo)簽及其權(quán)值,得到主流標(biāo)簽和權(quán)值匯總表;
[0030]4.3):從主流標(biāo)簽和權(quán)值匯總表中提取權(quán)值最大的P個(gè)標(biāo)簽Tagp及相應(yīng)的權(quán)值
Wp ;
[0031]4.4):對(duì)步驟4.3)中的P個(gè)標(biāo)簽所對(duì)應(yīng)的權(quán)值Wp進(jìn)行歸一化處理得到Wn,得到用戶子興趣模型Sub(u) = (Tagp1Wn);
[0032]4.5):重復(fù)步驟4.1)-4.4),直至執(zhí)行結(jié)束C中所有的類別,得到C個(gè)用戶子興趣模型。
[0033]所述步驟5)具體包括以下步驟:
[0034]5、如權(quán)利要求1所述的一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法,其特征在于:所述步驟5)具體包括以下步驟:
[0035]5.1):確定每一 Sub (U)在整個(gè)用戶模型中的興趣度Int_Sub(u);
[0036]其中
【權(quán)利要求】
1.一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法,其特征在于:包括以下步驟: 1)從標(biāo)簽網(wǎng)站提供的API端口爬取網(wǎng)站用戶標(biāo)注數(shù)據(jù),對(duì)用戶添加過標(biāo)簽的資源信息(URLs)進(jìn)行統(tǒng)計(jì),建立標(biāo)注資源信息數(shù)據(jù)庫; 2)對(duì)用戶所標(biāo)注的每個(gè)資源建立向量空間模型; 3)對(duì)步驟2)中所建立的向量空間模型進(jìn)行資源聚類; 4)根據(jù)步驟3)得到的資源聚類結(jié)果進(jìn)行用戶子興趣劃分; 5)基于步驟4)劃分的用戶子興趣構(gòu)建用戶模型; 6)將用戶模型嵌入標(biāo)簽網(wǎng)站后臺(tái),根據(jù)用戶模型與資源模型的余弦相似度進(jìn)行資源推送。
2.如權(quán)利要求1所述的一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法,其特征在于:所述步驟2)具體包括以下步驟: 2.1):選取標(biāo)簽網(wǎng)站中的一個(gè)目標(biāo)用戶,從步驟I)建立的標(biāo)注資源信息數(shù)據(jù)庫中獲取其標(biāo)注的所有資源信息,建立資源集合SetK ; 2.2):統(tǒng)計(jì)資源集合SetK中每一資源r中所有標(biāo)簽的出現(xiàn)頻率;2.3):應(yīng)用TF-1DF算法,計(jì)算資源r中所有標(biāo)簽的權(quán)值w并確定主流標(biāo)簽Ρορτ ; 2.4):構(gòu)建資源r的向量空間模型r(tm,wm),其中,tm表示該模型中所包含的第m個(gè)標(biāo)簽,Wm為對(duì)應(yīng)的權(quán)重。
3.如權(quán)利要求1所述的一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法,其特征在于:所述步驟3)包括以下具體步驟: 3.1):選取一個(gè)資源集合SetK,計(jì)算其中任意兩個(gè)不同向量1^與1_的余弦相似度Simij ; 3.2):根據(jù)SetK內(nèi)資源所對(duì)應(yīng)的向量間的余弦相似度Simij,建立對(duì)稱矩陣Data_Sim ; 3.3):應(yīng)用派系過濾算法的社團(tuán)發(fā)現(xiàn)算法對(duì)Data_Sim進(jìn)行聚類,得到類別數(shù)C ; 3.4):根據(jù)每一資源集合所屬的不同類別,統(tǒng)計(jì)每一類別C中所包含的資源集合,構(gòu)成聚類資源集Sub_SetK。
4.如權(quán)利要求1所述的一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法,其特征在于:所述步驟4)具體包括以下步驟: 4.1):依據(jù)步驟2.3),獲取聚類資源集Sub_SetK中每一資源的向量空間模型主流標(biāo)簽Ρορτ的權(quán)值w ; 4.2):根據(jù)聚類資源集Sub_SetK中所有資源的主流標(biāo)簽及其權(quán)值,得到主流標(biāo)簽和權(quán)值匯總表;4.3):從主流標(biāo)簽和權(quán)值匯總表中提取權(quán)值最大的P個(gè)標(biāo)簽Tagp及相應(yīng)的權(quán)值Wp ; 4.4):對(duì)步驟4.3)中的P個(gè)標(biāo)簽所對(duì)應(yīng)的權(quán)值Wp進(jìn)行歸一化處理得到Wn,得到用戶子興趣模型 Sub (u) = (Tagp, wn);4.5):重復(fù)步驟4.1)-4.4),直至執(zhí)行結(jié)束C中所有的類別,得到C個(gè)用戶子興趣模型。
5.如權(quán)利要求1所述的一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法,其特征在于:所述步驟5)具體包括以下步驟: 5.1):確定每一 Sub (U)在整個(gè)用戶模型中的興趣度Int_Sub(u);其中,
為目標(biāo)類中資源的個(gè)數(shù),用戶總的資源收藏?cái)?shù)為N,r,為第i個(gè)資源中用戶所標(biāo)注的標(biāo)簽個(gè)數(shù),C為聚類的類別數(shù)。 . 5.2):生成用戶模型 u =< Sub (u), Int_Sub (u) > ; 用戶模型由多個(gè)用戶子興趣模型組成,用向量空間模型的形式表示。
6.如權(quán)利要求1所述的一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法,其特征在于:所述步驟6)具體包括以下步驟:.6.1):將用戶模型嵌入標(biāo)簽網(wǎng)站后臺(tái),根據(jù)步驟2.3)-2.4)生成待推薦資源的資源模型;.6.2):計(jì)算用戶模型與資源模型間的余弦相似度,推送相似度最高的k個(gè)資源給用戶。
【文檔編號(hào)】G06F17/30GK104199836SQ201410379778
【公開日】2014年12月10日 申請(qǐng)日期:2014年8月4日 優(yōu)先權(quán)日:2014年8月4日
【發(fā)明者】魏建良, 琚春華, 肖亮, 劉東升 申請(qǐng)人:浙江工商大學(xué)