一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法

文檔序號(hào)：6622412閱讀：324來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法
【專利摘要】本發(fā)明提供一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法，包括步驟：獲取網(wǎng)站用戶標(biāo)注數(shù)據(jù)，建立標(biāo)注資源信息數(shù)據(jù)庫；建立資源向量空間模型；對(duì)資源向量空間模型進(jìn)行資源聚類；根據(jù)聚類資源結(jié)果進(jìn)行用戶子興趣劃分；構(gòu)建用戶模型；將用戶模型嵌入標(biāo)簽網(wǎng)站后臺(tái)，根據(jù)用戶模型與資源模型的余弦相似度進(jìn)行資源推送。本發(fā)明更多地考慮到用戶存在興趣的多樣性，突破用戶模型單一化的表現(xiàn)形式，細(xì)化了用戶模型的描述粒度，減少了單一模型中多個(gè)標(biāo)簽混合造成的語義混亂問題，從而幫助標(biāo)簽網(wǎng)站推出更為有效的用戶個(gè)性化信息服務(wù)，將依據(jù)本發(fā)明的方法所建立的標(biāo)注用戶模型應(yīng)用到標(biāo)簽網(wǎng)站的推薦系統(tǒng)中，能夠極大提高推薦系統(tǒng)的推薦準(zhǔn)確性和推薦效率。
【專利說明】
—種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及社會(huì)化標(biāo)注技術(shù)，具體涉及一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法。

【背景技術(shù)】
[0002]電子商務(wù)作為一種新興的商務(wù)模式已經(jīng)越來越受到人們的普遍認(rèn)可并蓬勃發(fā)展。個(gè)性化推薦技術(shù)作為用戶在海量商務(wù)信息中獲取偏好商品信息的重要手段，近年來受到了廣泛的關(guān)注。幾乎所有的大型電子商務(wù)系統(tǒng)如Amazon、淘寶等均不同程度的使用了各種推薦系統(tǒng)。隨著各種Web2.0應(yīng)用的深入發(fā)展，普通用戶越來越成為信息內(nèi)容的重要生產(chǎn)者，Delic1us、Flickr、YouTube 等 Web2.0 網(wǎng)站不斷涌現(xiàn),社會(huì)化標(biāo)注(Social Tagging)也成為了電子商務(wù)個(gè)性化推薦研究一個(gè)新的著手點(diǎn)。
[0003]社會(huì)化標(biāo)注系統(tǒng)中的用戶模型是各類推薦系統(tǒng)進(jìn)行個(gè)性化推薦的重要依據(jù)之一，因此用戶模型的建立對(duì)于推薦系統(tǒng)能否進(jìn)行準(zhǔn)確及時(shí)有效的推薦至關(guān)重要。當(dāng)前，基于社會(huì)化標(biāo)注的用戶建模的研究仍處在一個(gè)興起階段。在已有的研究中，多數(shù)的研究是將用戶興趣作為同一維度加以處理，而事實(shí)上，用戶往往有著多個(gè)不同的興趣點(diǎn)。如某一用戶不僅對(duì)計(jì)算機(jī)編程充滿興趣，同時(shí)也關(guān)注旅游攝影方面的信息，如果將該用戶的興趣標(biāo)簽置于同一維度模型中，將很有可能導(dǎo)致標(biāo)簽間的語義混亂，從而降低個(gè)性化推薦的效果?，F(xiàn)有的方法有:一是基于矩陣的處理建立用戶模型。矩陣的表示方法在社會(huì)網(wǎng)絡(luò)的文獻(xiàn)中非常流行，具體的方法包括:通過標(biāo)簽-資源矩陣和LSA方法來進(jìn)行的，利用HOSVD算法將用戶、標(biāo)簽、資源吸收到同一框架中進(jìn)行分析的，以及通過矩陣擴(kuò)展的方法等。二是基于聚類分析建立用戶模型。具體的方法包括通過緊密度(affinity)計(jì)算標(biāo)簽之間的相關(guān)性并將相關(guān)標(biāo)簽進(jìn)行聚類，也有研究通過計(jì)算目標(biāo)用戶和其他用戶的余弦相似性并結(jié)合樸素貝葉斯法，得出資源對(duì)用戶的推薦度。還有研究則是通過資源聚類展開，通過對(duì)用戶所標(biāo)注資源進(jìn)行內(nèi)容聚類，實(shí)現(xiàn)個(gè)性化推薦。三是基于網(wǎng)絡(luò)來建立用戶模型，包括借助網(wǎng)絡(luò)二分圖、無向權(quán)圖實(shí)等方法，但是這些方法都沒有考慮用戶興趣的多面性，尤其是在向量空間模型中，由于沒有對(duì)用戶興趣進(jìn)行區(qū)分而將標(biāo)簽在同一向量中混合處理，造成了標(biāo)簽間的語義混亂問題，在實(shí)際應(yīng)用中，往往導(dǎo)致標(biāo)注網(wǎng)站將不甚相關(guān)的資源推薦給用戶，影響了用戶滿意度。

【發(fā)明內(nèi)容】

[0004]本發(fā)明所要解決的技術(shù)問題是提供一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法，能夠?yàn)楝F(xiàn)有的推薦系統(tǒng)提供更為細(xì)粒度的用戶模型，提高推薦系統(tǒng)的準(zhǔn)確性和推薦效率。
[0005]本發(fā)明為了解決上述技術(shù)問題所采用的技術(shù)方案為:
[0006]一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法，包括以下步驟:
[0007]I)從標(biāo)簽網(wǎng)站提供的API端口爬取網(wǎng)站用戶標(biāo)注數(shù)據(jù)，對(duì)用戶添加過標(biāo)簽的資源信息(URLs)進(jìn)行統(tǒng)計(jì)，建立標(biāo)注資源信息數(shù)據(jù)庫；
[0008]其中，標(biāo)簽網(wǎng)站是指允許普通用戶為資源添加標(biāo)簽的網(wǎng)站；
[0009]2)對(duì)用戶所標(biāo)注的每個(gè)資源建立向量空間模型；
[0010]3)對(duì)步驟2)中所建立的向量空間模型進(jìn)行資源聚類；
[0011]4)根據(jù)步驟3)得到的聚類資源結(jié)果進(jìn)行用戶子興趣劃分；
[0012]5)基于步驟4)劃分的用戶子興趣構(gòu)建用戶模型；
[0013]6)將用戶模型嵌入標(biāo)簽網(wǎng)站后臺(tái)，根據(jù)用戶模型與資源模型的余弦相似度進(jìn)行資源推送。
[0014]在采用上述技術(shù)方案的同時(shí)，本發(fā)明還可以采用或者組合采用以下進(jìn)一步的技術(shù)方案:
[0015]所述步驟2)具體包括以下步驟:
[0016]2.1):選取標(biāo)簽網(wǎng)站中的一個(gè)目標(biāo)用戶，從步驟I)建立的標(biāo)注資源信息數(shù)據(jù)庫中獲取其標(biāo)注的所有資源信息，建立資源集合SetK ；
[0017]2.2):統(tǒng)計(jì)資源集合SetK中每一資源r中所有標(biāo)簽的出現(xiàn)頻率；
[0018]2.3):應(yīng)用TF-1DF算法，計(jì)算資源r中所有標(biāo)簽的權(quán)值w并確定主流標(biāo)簽Ρορτ ；
[0019]TF-1DF是一種權(quán)值計(jì)算方法，根據(jù)目標(biāo)的標(biāo)簽頻率與反向頻率來確定其權(quán)值，這是一種全局方法，需要具備標(biāo)注系統(tǒng)內(nèi)所有資源及其標(biāo)簽的信息。主流標(biāo)簽Popt是指每個(gè)資源中權(quán)值最高的若干個(gè)標(biāo)簽，是作為有限計(jì)算量下代表資源特征的一種處理方法。
[0020]2.4):構(gòu)建資源r的向量空間模型r(tm，wm)，其中，tm表示該模型中所包含的第m個(gè)標(biāo)簽，Wm為對(duì)應(yīng)的權(quán)重。
[0021]資源模型以向量空間模型的方式表示，r(tm, wm) = (W1, w2,…，wm)。
[0022]所述步驟3)包括以下具體步驟:
[0023]3.1):選取一個(gè)資源集合SetK,計(jì)算其中任意兩個(gè)不同向量!Ti與r」的余弦相似度Simij ；
[0024]3.2):根據(jù)SetK內(nèi)資源所對(duì)應(yīng)的向量間的余弦相似度Simij，建立對(duì)稱矩陣Data_Sim ；
[0025]3.3):應(yīng)用派系過濾算法的社團(tuán)發(fā)現(xiàn)算法對(duì)Data_Sim進(jìn)行聚類，得到類別數(shù)C ；
[0026]3.4):根據(jù)每一資源集合所屬的不同類別，統(tǒng)計(jì)每一類別C中所包含的資源集合，構(gòu)成聚類資源集Sub_SetK。
[0027]所述步驟4)具體包括以下步驟:
[0028]4.1):依據(jù)步驟2.3)，獲取聚類資源集Sub_SetK中每一資源的向量空間模型主流標(biāo)簽Ρορτ及權(quán)值w ；
[0029]4.2):根據(jù)聚類資源集Sub_SetK中所有資源的主流標(biāo)簽及其權(quán)值，得到主流標(biāo)簽和權(quán)值匯總表；
[0030]4.3):從主流標(biāo)簽和權(quán)值匯總表中提取權(quán)值最大的P個(gè)標(biāo)簽Tagp及相應(yīng)的權(quán)值
Wp ；
[0031]4.4):對(duì)步驟4.3)中的P個(gè)標(biāo)簽所對(duì)應(yīng)的權(quán)值Wp進(jìn)行歸一化處理得到Wn，得到用戶子興趣模型Sub(u) = (Tagp1Wn)；
[0032]4.5):重復(fù)步驟4.1)-4.4)，直至執(zhí)行結(jié)束C中所有的類別，得到C個(gè)用戶子興趣模型。
[0033]所述步驟5)具體包括以下步驟:
[0034]5、如權(quán)利要求1所述的一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法，其特征在于:所述步驟5)具體包括以下步驟:
[0035]5.1):確定每一 Sub (U)在整個(gè)用戶模型中的興趣度Int_Sub(u)；
[0036]其中

【權(quán)利要求】
1.一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法，其特征在于:包括以下步驟: 1)從標(biāo)簽網(wǎng)站提供的API端口爬取網(wǎng)站用戶標(biāo)注數(shù)據(jù)，對(duì)用戶添加過標(biāo)簽的資源信息(URLs)進(jìn)行統(tǒng)計(jì)，建立標(biāo)注資源信息數(shù)據(jù)庫； 2)對(duì)用戶所標(biāo)注的每個(gè)資源建立向量空間模型； 3)對(duì)步驟2)中所建立的向量空間模型進(jìn)行資源聚類； 4)根據(jù)步驟3)得到的資源聚類結(jié)果進(jìn)行用戶子興趣劃分； 5)基于步驟4)劃分的用戶子興趣構(gòu)建用戶模型； 6)將用戶模型嵌入標(biāo)簽網(wǎng)站后臺(tái)，根據(jù)用戶模型與資源模型的余弦相似度進(jìn)行資源推送。
2.如權(quán)利要求1所述的一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法，其特征在于:所述步驟2)具體包括以下步驟: 2.1):選取標(biāo)簽網(wǎng)站中的一個(gè)目標(biāo)用戶，從步驟I)建立的標(biāo)注資源信息數(shù)據(jù)庫中獲取其標(biāo)注的所有資源信息，建立資源集合SetK ； 2.2):統(tǒng)計(jì)資源集合SetK中每一資源r中所有標(biāo)簽的出現(xiàn)頻率；2.3):應(yīng)用TF-1DF算法，計(jì)算資源r中所有標(biāo)簽的權(quán)值w并確定主流標(biāo)簽Ρορτ ； 2.4):構(gòu)建資源r的向量空間模型r(tm，wm)，其中，tm表示該模型中所包含的第m個(gè)標(biāo)簽，Wm為對(duì)應(yīng)的權(quán)重。
3.如權(quán)利要求1所述的一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法，其特征在于:所述步驟3)包括以下具體步驟: 3.1):選取一個(gè)資源集合SetK，計(jì)算其中任意兩個(gè)不同向量1^與1_的余弦相似度Simij ； 3.2):根據(jù)SetK內(nèi)資源所對(duì)應(yīng)的向量間的余弦相似度Simij,建立對(duì)稱矩陣Data_Sim ； 3.3):應(yīng)用派系過濾算法的社團(tuán)發(fā)現(xiàn)算法對(duì)Data_Sim進(jìn)行聚類，得到類別數(shù)C ; 3.4):根據(jù)每一資源集合所屬的不同類別，統(tǒng)計(jì)每一類別C中所包含的資源集合，構(gòu)成聚類資源集Sub_SetK。
4.如權(quán)利要求1所述的一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法，其特征在于:所述步驟4)具體包括以下步驟: 4.1):依據(jù)步驟2.3)，獲取聚類資源集Sub_SetK中每一資源的向量空間模型主流標(biāo)簽Ρορτ的權(quán)值w ； 4.2):根據(jù)聚類資源集Sub_SetK中所有資源的主流標(biāo)簽及其權(quán)值，得到主流標(biāo)簽和權(quán)值匯總表；4.3):從主流標(biāo)簽和權(quán)值匯總表中提取權(quán)值最大的P個(gè)標(biāo)簽Tagp及相應(yīng)的權(quán)值Wp ； 4.4):對(duì)步驟4.3)中的P個(gè)標(biāo)簽所對(duì)應(yīng)的權(quán)值Wp進(jìn)行歸一化處理得到Wn，得到用戶子興趣模型 Sub (u) = (Tagp, wn)；4.5):重復(fù)步驟4.1)-4.4)，直至執(zhí)行結(jié)束C中所有的類別，得到C個(gè)用戶子興趣模型。
5.如權(quán)利要求1所述的一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法，其特征在于:所述步驟5)具體包括以下步驟: 5.1):確定每一 Sub (U)在整個(gè)用戶模型中的興趣度Int_Sub(u)；其中，
為目標(biāo)類中資源的個(gè)數(shù)，用戶總的資源收藏?cái)?shù)為N，r,為第i個(gè)資源中用戶所標(biāo)注的標(biāo)簽個(gè)數(shù)，C為聚類的類別數(shù)。 . 5.2):生成用戶模型 u =< Sub (u), Int_Sub (u) > ；用戶模型由多個(gè)用戶子興趣模型組成，用向量空間模型的形式表示。
6.如權(quán)利要求1所述的一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法，其特征在于:所述步驟6)具體包括以下步驟:.6.1):將用戶模型嵌入標(biāo)簽網(wǎng)站后臺(tái)，根據(jù)步驟2.3)-2.4)生成待推薦資源的資源模型；.6.2):計(jì)算用戶模型與資源模型間的余弦相似度，推送相似度最高的k個(gè)資源給用戶。
【文檔編號(hào)】G06F17/30GK104199836SQ201410379778
【公開日】2014年12月10日申請(qǐng)日期:2014年8月4日優(yōu)先權(quán)日:2014年8月4日
【發(fā)明者】魏建良, 琚春華, 肖亮, 劉東升申請(qǐng)人:浙江工商大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：魏建良;琚春華;肖亮;劉東升
技術(shù)所有人：浙江工商大學(xué)
我是此專利的發(fā)明人

上一篇：一種信息處理方法及電子設(shè)備的制作方法
上一篇：語音互動(dòng)的方法及終端的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

用戶興趣模型相關(guān)技術(shù)

用戶興趣衰減模型相關(guān)技術(shù)

序列標(biāo)注模型相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于子興趣劃分的標(biāo)注用戶模型建構(gòu)方法