亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法

文檔序號(hào):10687212閱讀:715來源:國知局
一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法
【專利摘要】本發(fā)明公開了一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法(IFA),該方法包括如下步驟:1)用二維表表示產(chǎn)品的評(píng)分?jǐn)?shù)據(jù);2)基于樸素貝葉斯分類器的貧信息用戶項(xiàng)目相似度計(jì)算;3)富信息用戶項(xiàng)目相似度計(jì)算;4)基于貧信息用戶的項(xiàng)目相似度與富信息用戶的項(xiàng)目相似度融合;5)結(jié)合基于項(xiàng)目的協(xié)同過濾算法給出未評(píng)分產(chǎn)品的評(píng)分預(yù)測(cè)值集合,并取前N項(xiàng)作為最終推薦結(jié)果。本發(fā)明能有效反映用戶評(píng)價(jià)的真實(shí)情況,提高個(gè)性化推薦精度。
【專利說明】
一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于電子商務(wù)領(lǐng)域,具體地說是一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同 過濾方法(Item FeatureAugmentation,IFA) 〇
【背景技術(shù)】
[0002] 電子商務(wù)的迅速發(fā)展,使得如何有效提高用戶購買率成為各大電商企業(yè)主要思考 的問題,協(xié)同過濾技術(shù)作為個(gè)性化推薦應(yīng)用最早和最為成功的技術(shù)之一,能夠很好地基于 項(xiàng)目或用戶之間的相似性對(duì)企業(yè)的購買決策提供技術(shù)支撐,基于項(xiàng)目最近鄰的協(xié)同過濾推 薦技術(shù)因?yàn)槠淇蓴U(kuò)展性強(qiáng)和可解釋性好成為了基于最近鄰協(xié)同過濾算法中最流行的算法, 在亞馬遜購物網(wǎng)站和Netflix電影租賃網(wǎng)站中都得到了實(shí)際應(yīng)用。
[0003] 項(xiàng)目相似度計(jì)算是基于項(xiàng)目最近鄰協(xié)同過濾算法中最重要的步驟,它決定了協(xié)同 過濾算法中項(xiàng)目最近鄰選擇和鄰居的評(píng)分加權(quán),進(jìn)而影響算法最終的推薦精度。傳統(tǒng)計(jì)算 兩個(gè)產(chǎn)品的項(xiàng)目相似度的方法是首先分離出對(duì)兩個(gè)項(xiàng)目都有評(píng)分行為的用戶評(píng)分項(xiàng),然后 對(duì)這些用戶的評(píng)分項(xiàng)利用皮爾遜相似度或者余弦距離等計(jì)算方法計(jì)算項(xiàng)目相似度,現(xiàn)有研 究方法雖然為個(gè)性化推薦的構(gòu)建提供基礎(chǔ)理論支撐和實(shí)踐指導(dǎo),但是仍然存在諸多問題: [0004] (1)數(shù)據(jù)稀疏性問題加劇。在實(shí)際生活中,消費(fèi)者購買的產(chǎn)品在整個(gè)產(chǎn)品目錄中占 比很少。因此在對(duì)實(shí)際的電子商務(wù)數(shù)據(jù)集計(jì)算兩個(gè)產(chǎn)品的項(xiàng)目相似度時(shí)會(huì)有大量只對(duì)一個(gè) 產(chǎn)品有過評(píng)分行為的用戶。如表1所示,在計(jì)算產(chǎn)品I#PI2的項(xiàng)目相似度時(shí),傳統(tǒng)的項(xiàng)目相似 度計(jì)算方法只利用了 U3和U7對(duì)這兩個(gè)產(chǎn)品的評(píng)分,而山,U2,U4,U 5,U6的評(píng)分信息將被直接忽 視,導(dǎo)致大量的評(píng)分信息沒有得到有效利用,這就會(huì)更一步加劇數(shù)據(jù)稀疏性問題。
[0005]表 1
[0007] (2)相似性計(jì)算的不準(zhǔn)確?;谄栠d相似度公式計(jì)算得到的項(xiàng)目相似度會(huì)存在 下面的情況:那些被較少用戶共同評(píng)價(jià)過的項(xiàng)目對(duì)可能有著相對(duì)更高的相似度,但是如果 兩個(gè)項(xiàng)目被大量用戶評(píng)價(jià)過,但僅僅有兩個(gè)用戶對(duì)他們同時(shí)評(píng)價(jià),這并不能表明它們之間 有著非常高的相似度。這也就導(dǎo)致現(xiàn)有協(xié)同過濾算法中對(duì)項(xiàng)目之間相似性的計(jì)算相似性度 量出現(xiàn)誤差,降低了推薦系統(tǒng)的精度。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明為克服現(xiàn)有技術(shù)存在的不足之處,提出一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近 鄰協(xié)同過濾方法,以期能充分利用評(píng)分信息來反映用戶評(píng)價(jià)的真實(shí)情況,使得計(jì)算得到的 項(xiàng)目鄰居可靠性更高,從而提高個(gè)性化推薦的精度。
[0009] 為了達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案為:
[0010] 本發(fā)明一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法的特點(diǎn)是按如下步驟 進(jìn)行:
[0011] 步驟一、用二維表T= {U,I,S}表示產(chǎn)品的評(píng)分?jǐn)?shù)據(jù);
[0012] 所述二維表T中,U={Ur-,Uu,…,U|U|}表示用戶集合,I = {Ir-,Ii,…,I|i|}表示 產(chǎn)品集合,S={S(1)…,S(s),…,S (|s)}表示用戶對(duì)產(chǎn)品的評(píng)分集合;
[0013] 所述用戶集合U中,| u |為用戶的總數(shù)目,Uu表示第u個(gè)用戶;| u | ;所述產(chǎn)品 集合I中,I i I為產(chǎn)品的總數(shù)目,^表示第i個(gè)產(chǎn)品;I i I ;所述評(píng)分集合S中,S(s)表示所 述評(píng)分集合中第s個(gè)評(píng)分,且Sa)< . . . <SW< . . . <SW ;
[0014] 令第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的評(píng)分為Su,i,且Su,iGS;
[0015] 對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品1」;若第u個(gè)用戶1^對(duì)所述第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn) 品Ij均有評(píng)分Su,i和S u,j,則表示第u個(gè)用戶Uu為富信息用戶;第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的 評(píng)分S u>1和第u個(gè)用戶Uu對(duì)第j個(gè)產(chǎn)品込的評(píng)分Sy均稱為富信息用戶評(píng)分項(xiàng);1彡涔|i|;i辛 j;
[0016] 對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij;若第u個(gè)用戶Uu僅對(duì)所述第i個(gè)產(chǎn)品Ii有評(píng)分 SU>1S僅對(duì)第j個(gè)產(chǎn)品L有評(píng)分Su+則表示第u個(gè)用戶Uu為貧信息用戶;第u個(gè)用戶U u對(duì)第i個(gè) 產(chǎn)品h的評(píng)分Su>1和第u個(gè)用戶Uu對(duì)第j個(gè)產(chǎn)品I」的評(píng)分Sy均稱為貧信息用戶評(píng)分項(xiàng);并有: [00 17]當(dāng)?shù)趗個(gè)用戶uu僅對(duì)所述第j個(gè)產(chǎn)品Ij有評(píng)分Su,j時(shí),第u個(gè)用戶U u對(duì)第i個(gè)產(chǎn)品Ii的 評(píng)分Su,d#為貧信息用戶評(píng)分項(xiàng)中的缺失值;
[0018] 令所有產(chǎn)品具有的項(xiàng)目特征集合為G = {gl…,gn,…,g | n|},gn表示所有產(chǎn)品的第n 個(gè)項(xiàng)目特征;令貧信息用戶評(píng)分項(xiàng)中的缺失值Su>1所代表的第i個(gè)產(chǎn)品h的項(xiàng)目特征集合為 Gi= {gi,r",gi,n,…,gi, |n|} ;gi,n表示第i個(gè)產(chǎn)品Ii在第n個(gè)項(xiàng)目特征gn上的特征值;若第i個(gè) 產(chǎn)品Ii具有第n個(gè)項(xiàng)目特征g n,則gi,n=l;否則,gi,n = 0;Kn彡|n| ;
[0019] 步驟二、假設(shè)第u個(gè)用戶Uu為貧信息用戶;第u個(gè)用戶仏對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分 Su>1為貧信息用戶評(píng)分項(xiàng)中的缺失值;計(jì)算貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品1忐所述第j個(gè)產(chǎn) 品Ij的項(xiàng)目相似度 Simu(Ii,Ij);
[0020] 步驟2.1、利用式(1)計(jì)算獲得貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分項(xiàng)中的缺失 值Su,i為S (s)時(shí)的先驗(yàn)概率P(S(S)):
[0022]式(1)中,I(u)表示貧信息用戶Uu對(duì)所述產(chǎn)品集合I中所有已評(píng)分的產(chǎn)品集合;item 表示所述已評(píng)分產(chǎn)品集合I(u)中的任一產(chǎn)品;|I(U)|表示所述已評(píng)分產(chǎn)品集合I(u)中的產(chǎn)品 數(shù)目;S u,ltem表示貧信息用戶Uu對(duì)所述已評(píng)分產(chǎn)品集合I(u)中產(chǎn)品item的評(píng)分;
[0023] | {itemGl(u)|Su,ltem=S(s)} |表示貧信息用戶Uu在所述已評(píng)分產(chǎn)品集合I(u)中評(píng)分 Su,item為s(s)的產(chǎn)品數(shù)目;
[0024]步驟2.2、利用式(2)計(jì)算獲得貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分項(xiàng)中的缺失 值Su,i為S(s)時(shí)的似然函數(shù)P(gn| S(s)):
[0026] 式(2 )中,gitem, ^^表示貧信息用戶Uu對(duì)所述已評(píng)分產(chǎn)品集合I(u)中的產(chǎn)品item在第n 個(gè)項(xiàng)目特征gn上的特征值;I UtemGl(U),gi,n=l |Su,item=S(S)ngitem,n = gi,n} | 表示貧信息 用戶Uu對(duì)所述已評(píng)分的產(chǎn)品集合I(u)中的產(chǎn)品item中評(píng)分S u,ltem為S(s),且貧信息用戶Uu對(duì)產(chǎn) 品item在第n個(gè)項(xiàng)目特征g n上的特征值gitem,n與第i個(gè)產(chǎn)品Ii在第n個(gè)項(xiàng)目特征gn上的特征值 g 1>n取值均為T的項(xiàng)目個(gè)數(shù);
[0027] 步驟2.3、利用式(3)計(jì)算獲得貧信息用戶1]11對(duì)所述第1個(gè)產(chǎn)品11的評(píng)分511, 1為5(3)時(shí) 的概率 P(S(s)|li):
[0029] 步驟2.4、重復(fù)步驟2.1-步驟2.3,從而獲得貧信息用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的缺失值 Su,i分別為S (1)…,S(s),…,S(s)時(shí)的概率,并將最大概率所對(duì)應(yīng)的評(píng)分作為貧信息用戶仏對(duì) 第i個(gè)產(chǎn)品^的缺失值S u>1的預(yù)測(cè)評(píng)分;
[0030] 步驟2.5、重復(fù)步驟2.4,預(yù)測(cè)所有貧信息用戶評(píng)分項(xiàng)中的缺失值,從而補(bǔ)全所述二 維表T中所有貧信息用戶的缺失值;
[0031] 步驟2.6、基于傳統(tǒng)皮爾森相關(guān)系數(shù),利用式(4)得到貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn) 品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sin/ u(Ii,Ij):
[0033] 式(4)中,R 表示在補(bǔ)全所有貧信息用戶的缺失值二維表T中,既對(duì)所述 第i個(gè)產(chǎn)品Ii有評(píng)分Su, i,又對(duì)所述第j個(gè)產(chǎn)品Ij有評(píng)分Su, j的貧信息用戶Uu;瓦表示在補(bǔ)全所 有貧信息用戶的缺失值二維表T中,所有貧信息用戶對(duì)第i個(gè)產(chǎn)品h的平均評(píng)分;g表示在 補(bǔ)全所有貧信息用戶的缺失值二維表T中,所有貧信息用戶對(duì)第j個(gè)產(chǎn)品I』的平均評(píng)分;
[0034] 步驟2.7、基于加權(quán)皮爾森相關(guān)系數(shù),利用式(5)計(jì)算得到貧信息用戶Uu對(duì)所述第i 個(gè)產(chǎn)品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sim u(Ii,Ij):
[0036]式(5)中,V,. HR.表示既對(duì)所述第i個(gè)產(chǎn)品Ii的有評(píng)分Su,i,又對(duì)所述第j個(gè)產(chǎn)品Ij I .} 有評(píng)分Sy的貧信息用戶數(shù)目,A是待調(diào)節(jié)參數(shù);
[0037]步驟三、假設(shè)第v個(gè)用戶Uv即為富信息用戶;計(jì)算富信息用戶Uv對(duì)所述第i個(gè)產(chǎn)品h 與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度simv(Ii,Ij) 彡|u| ;v乒u;
[0038]步驟3.1,基于傳統(tǒng)皮爾森相關(guān)系數(shù),利用式(6)得到富信息用戶Uv對(duì)所述第i個(gè)產(chǎn) 品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sin/ v(Ii,Ij):
[0040] 式(6)中,表示既對(duì)所述第i個(gè)產(chǎn)品1冊(cè)有評(píng)分Sv>1,又對(duì)所述第j個(gè)產(chǎn) 品込有評(píng)分Sq的富信息用戶U、;完表示所有富信息用戶對(duì)第i個(gè)產(chǎn)品h的平均評(píng)分;男表示 所有富信息用戶對(duì)第j個(gè)產(chǎn)品込的平均評(píng)分;
[0041] 步驟3.2、基于加權(quán)皮爾森相關(guān)系數(shù),利用式(7)計(jì)算得到富信息用戶Uv對(duì)所述第i 個(gè)產(chǎn)品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sim v(Ii,Ij):
[0043] 式(7)中,表示既對(duì)所述第i個(gè)產(chǎn)品1:的有評(píng)分Su>1,又對(duì)所述第j個(gè)產(chǎn)品 込有評(píng)分Sy的富信息用戶數(shù)目,Y是另一個(gè)待調(diào)節(jié)參數(shù);
[0044] 步驟四、利用式(8)進(jìn)行基于貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品1:與所述第j個(gè)產(chǎn)品込 的項(xiàng)目相似度simudi,込),與富信息用戶U v對(duì)所述第i個(gè)產(chǎn)品1:與所述第j個(gè)產(chǎn)品込的項(xiàng)目 相似度simv(Ii,Ij)的項(xiàng)目相似度融合;得到融合相似度sim(Ii,I j):
[0045] sim(Ii,Ij) = (l-y ) X simu(Ii, Ij)+y Xsimv(Ii,Ij) (8)
[0046] 式(8)中,y是待調(diào)節(jié)參數(shù);
[0047] 步驟五、根據(jù)所述融合相似度simahlj,利用基于項(xiàng)目的協(xié)同過濾算法,獲得未 評(píng)分產(chǎn)品的所有最終預(yù)測(cè)評(píng)分的降序排序集合;選取所述預(yù)測(cè)評(píng)分的降序排序集合的 前N項(xiàng)作為推薦結(jié)果,并推薦給所述貧信息用戶Uu。
[0048]與已有技術(shù)相比,本發(fā)明的有益效果體現(xiàn)在:
[0049] 1、本發(fā)明對(duì)協(xié)同過濾方法中項(xiàng)目最近鄰的計(jì)算,在已有傳統(tǒng)協(xié)同過方法中僅對(duì)兩 個(gè)項(xiàng)目均有評(píng)分項(xiàng)的富信息用戶評(píng)分項(xiàng)近似性計(jì)算上,新加入對(duì)兩個(gè)項(xiàng)目中只有一個(gè)評(píng)分 的貧信息用戶項(xiàng)的相似性計(jì)算,所提方法考慮到所有用戶的已有評(píng)分,因此該方法計(jì)算得 到的項(xiàng)目最近鄰可靠性更高,有效克服了數(shù)據(jù)稀疏性這一問題,為已有信息的充分利用提 供了解決思路,其推薦精度明顯優(yōu)于基于Pearson,Weighted Pearson,Cosine Norm,概率 矩陣分解(PMF)相似度的項(xiàng)目最近鄰協(xié)同過濾方法。
[0050] 2、本發(fā)明中使用基于多元伯努利模型的樸素貝葉斯分類器,對(duì)兩個(gè)產(chǎn)品中僅有一 個(gè)項(xiàng)目評(píng)分的貧信息用戶評(píng)分缺失值進(jìn)行評(píng)分概率預(yù)測(cè),已有評(píng)論信息對(duì)貝葉斯分類器相 關(guān)參數(shù)的學(xué)習(xí)以及對(duì)信息用戶評(píng)分項(xiàng)的缺失值的預(yù)測(cè)提供了可靠真實(shí)的支持,且選取概率 最高評(píng)分為缺失值的預(yù)測(cè)值,能夠真實(shí)有效反映消費(fèi)者整體對(duì)產(chǎn)品評(píng)分現(xiàn)實(shí)情況,提高了 個(gè)性化推薦的精度。
[0051 ] 3、本發(fā)明中對(duì)貧信息用戶與富信息用戶均使用McLanugh 1 in提出的加權(quán)皮爾森相 關(guān)系數(shù)來計(jì)算項(xiàng)目相似度,貧信息用戶評(píng)分項(xiàng)與富信息用戶項(xiàng)的相似度具有統(tǒng)一的測(cè)量尺 度,保證了后續(xù)步驟中兩類用戶項(xiàng)相似度融合的可操作性,確保了項(xiàng)目最近鄰計(jì)算的穩(wěn)定 性與可靠性。
[0052] 4、本發(fā)明中在進(jìn)行基于富信息用戶評(píng)分項(xiàng)的相似度和基于貧信息用戶的項(xiàng)目相 似度進(jìn)行融合時(shí),引入調(diào)節(jié)參數(shù)對(duì)二者進(jìn)行線性融合,其中通過交叉驗(yàn)證方法對(duì)調(diào)節(jié)參數(shù) 進(jìn)行尋優(yōu),使得推薦精度效果得以顯著提高,克服了現(xiàn)有技術(shù)中僅基于對(duì)二者均有評(píng)分的 富用戶信息推薦技術(shù)的缺點(diǎn)。
[0053] 5、本發(fā)明可用于手機(jī)和書籍等實(shí)體產(chǎn)品,音樂和電影等數(shù)字產(chǎn)品,旅游計(jì)劃和度 假行程等服務(wù)產(chǎn)品的個(gè)性化推薦系統(tǒng),可以在網(wǎng)頁和APP等平臺(tái)同時(shí)使用,以期提高商家和 消費(fèi)者的雙向經(jīng)濟(jì)效益及整體滿意度。
【附圖說明】
[0054]圖1為本發(fā)明的流程示意圖;
[0055] 圖2為本發(fā)明富信息用戶評(píng)分項(xiàng)與貧信息用戶說明圖;
[0056] 圖3為本發(fā)明訓(xùn)練集和測(cè)試集比例0.3,參數(shù)A對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果;
[0057]圖4為本發(fā)明訓(xùn)練集和測(cè)試集比例0.5,參數(shù)A對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果;
[0058]圖5為本發(fā)明訓(xùn)練集和測(cè)試集比例0.7,參數(shù)A對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果;
[0059] 圖6為本發(fā)明訓(xùn)練集和測(cè)試集比例0.9,參數(shù)A對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果;
[0060] 圖7為本發(fā)明訓(xùn)練集和測(cè)試集比例0.3,參數(shù)Y對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果;
[0061 ]圖8為本發(fā)明訓(xùn)練集和測(cè)試集比例0.5,參數(shù)y對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果;
[0062] 圖9為本發(fā)明訓(xùn)練集和測(cè)試集比例0.7,參數(shù)Y對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果;
[0063] 圖10為本發(fā)明訓(xùn)練集和測(cè)試集比例0.9,參數(shù)Y對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果。
【具體實(shí)施方式】
[0064]如圖1所示,一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法(Item Feature Augmentation, IFA),是按如下步驟進(jìn)行:
[0065] 步驟一、用二維表T={U,I,S}表示產(chǎn)品的評(píng)分?jǐn)?shù)據(jù);
[0066] 所述二維表T中,U={Ur-,Uu,…,Uu}表示用戶集合,I = {Ir-,Ii,…,I|i|}表示產(chǎn) 品集合,S= {S(1)…,S(s),…,S(s)}表示用戶對(duì)產(chǎn)品的評(píng)分集合;
[0067] 所述用戶集合U中,| u |為用戶的總數(shù)目,Uu表示第u個(gè)用戶;1彡u彡| u | ;所述產(chǎn)品 集合I中,I i I為產(chǎn)品的總數(shù)目,^表示第i個(gè)產(chǎn)品;I i I ;所述評(píng)分集合S中,S(s)表示所 述評(píng)分集合中第s個(gè)評(píng)分,且Sa)< . . . <SW< . . . <SW ;
[0068]令第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的評(píng)分為Su,i,且Su,iGS;
[0069] 如圖2所示,對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij;若第u個(gè)用戶Uu對(duì)所述第i個(gè)產(chǎn)品 Ii和第j個(gè)產(chǎn)品Ij均有評(píng)分S u,i和Su,j,則表示第u個(gè)用戶Uu為富信息用戶;第u個(gè)用戶Uu對(duì)第i 個(gè)產(chǎn)品h的評(píng)分S u>1和第u個(gè)用戶Uu對(duì)第j個(gè)產(chǎn)品I」的評(píng)分Sy均稱為富信息用戶評(píng)分項(xiàng); | i | ;i^j;
[0070] 如圖2所示,對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij;若第u個(gè)用戶Uu僅對(duì)所述第i個(gè)產(chǎn) 品h有評(píng)分S U>1S僅對(duì)第j個(gè)產(chǎn)品I」有評(píng)分Su+則表示第u個(gè)用戶Uu為貧信息用戶;第u個(gè)用 戶U u對(duì)第i個(gè)產(chǎn)品h的評(píng)分Su>1和第u個(gè)用戶Uu對(duì)第j個(gè)產(chǎn)品込的評(píng)分Sy均稱為貧信息用戶 評(píng)分項(xiàng);并有:
[0071]當(dāng)?shù)趗個(gè)用戶Uu僅對(duì)所述第j個(gè)產(chǎn)品Ij有評(píng)分Su,j時(shí),第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的 評(píng)分Su,d#為貧信息用戶評(píng)分項(xiàng)中的缺失值;
[0072]令所有產(chǎn)品具有的項(xiàng)目特征集合為G = { gl…,gn,…,g | n | },對(duì)于本文后續(xù)實(shí)驗(yàn)中使 用的電影產(chǎn)品中數(shù)據(jù),其項(xiàng)目特征集合即為電影的流派集合,gn表示所有產(chǎn)品的第n個(gè)項(xiàng)目 特征;令貧信息用戶評(píng)分項(xiàng)中的缺失值S u>1所代表的第i個(gè)產(chǎn)品Ii的項(xiàng)目特征集合為G1 = {gi,r",gi,n,…,gi, |n| } ;gi,n表示第i個(gè)產(chǎn)品Ii在第n個(gè)項(xiàng)目特征gn上的特征值;若第i個(gè)產(chǎn)品 Ii具有第n個(gè)項(xiàng)目特征gn,貝ljgi,n = 1 ;否則,gi,n = 0 ; I n I ;如表2所示:
[0073]表 2
[0075] 步驟二、對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij;當(dāng)?shù)趗個(gè)用戶Uu僅對(duì)所述第j個(gè)產(chǎn)品Ij 有評(píng)分S UJ寸,第u個(gè)用戶Uu即為貧信息用戶;第u個(gè)用戶仏對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分SU,A 貧信息用戶評(píng)分項(xiàng)中的缺失值;計(jì)算貧信息用戶U u對(duì)所述第i個(gè)產(chǎn)品^與所述第j個(gè)產(chǎn)品Ij 的項(xiàng)目相似度simu(Ii,Ij);
[0076] 在進(jìn)行相似度simi(Ii,Ij)計(jì)算之前,要對(duì)缺失值Su,i進(jìn)行預(yù)測(cè),本發(fā)明中首先基于 貧信息用戶的歷史評(píng)分記錄和產(chǎn)品的項(xiàng)目特征信息進(jìn)行樸素貝葉斯分類器的訓(xùn)練;然后基 于該分類器對(duì)貧信息用戶評(píng)分項(xiàng)中的缺失值3 11,1進(jìn)行預(yù)測(cè)。由于后續(xù)實(shí)驗(yàn)中所使用的電影 產(chǎn)品的項(xiàng)目特征數(shù)據(jù)均為電影的流派數(shù)據(jù),不存在出現(xiàn)次數(shù)問題,故而使用基于多元伯努 利模型的樸素貝葉斯分類器。
[0077] 步驟2.1、利用式(1)計(jì)算獲得貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分項(xiàng)中的缺失 值Su,i為S (s)時(shí)的先驗(yàn)概率P(S(S)):
[0079]式(1)中,I(u)表示貧信息用戶Uu對(duì)所述產(chǎn)品集合I中所有已評(píng)分的產(chǎn)品集合;item 表示所述已評(píng)分產(chǎn)品集合I(u)中的任一產(chǎn)品;|I(U)|表示所述已評(píng)分產(chǎn)品集合I(u)中的產(chǎn)品 數(shù)目;S u,lte,示貧信息用戶仏對(duì)所述已評(píng)分產(chǎn)品集合I(u)中產(chǎn)品item的評(píng)分;| {itemei(u) Su,ltem=S(s)}|表示貧信息用戶Uu在所述已評(píng)分產(chǎn)品集合I (u)中評(píng)分Su,lte^S(s)的產(chǎn)品數(shù) 目;
[0080]步驟2.2、利用式(2)計(jì)算獲得貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分項(xiàng)中的缺失 值Su,i為S(s)時(shí)的似然函數(shù)P(gn| s(s)):
[0082]式(2 )中,gitem, ^^表示貧信息用戶Uu對(duì)所述已評(píng)分產(chǎn)品集合I(u)中的產(chǎn)品item在第n 個(gè)項(xiàng)目特征gn上的特征值;I UtemGl(U),gi,n=l |Su,item=S(S)ngitem,n = gi,n} | 表示貧信息 用戶Uu對(duì)所述已評(píng)分的產(chǎn)品集合I(u)中的產(chǎn)品item中評(píng)分S u,ltem為S(s),且貧信息用戶Uu對(duì)產(chǎn) 品item在第n個(gè)項(xiàng)目特征gn上的特征值gitem,n與第i個(gè)產(chǎn)品Ii在第n個(gè)項(xiàng)目特征g n上的特征值 g1>n取值均為T的項(xiàng)目個(gè)數(shù);
[0083]步驟2.3、利用式(3)計(jì)算獲得貧信息用戶1]11對(duì)所述第1個(gè)產(chǎn)品11的評(píng)分5 11,1為5(3)時(shí) 的概率 P(S(s)|li):
[0085]為防止參數(shù)概率為0的情況,本發(fā)明對(duì)上述參數(shù)均使用拉普拉斯平滑方法。
[0087] 步驟2.4、重復(fù)步驟2.1-步驟2.3,從而獲得貧信息用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的缺失值 Su,i分別為S (1)…,S(s),…,S(s)時(shí)的概率,并將最大概率所對(duì)應(yīng)的評(píng)分作為貧信息用戶仏對(duì) 第i個(gè)產(chǎn)品^的缺失值S u>1的預(yù)測(cè)評(píng)分;
[0088] 步驟2.5、重復(fù)步驟2.4,預(yù)測(cè)所有貧信息用戶評(píng)分項(xiàng)中的缺失值,從而補(bǔ)全所述二 維表T中所有貧信息用戶的缺失值;
[0089] 步驟2.6、基于傳統(tǒng)皮爾森相關(guān)系數(shù),利用式(4)得到貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn) 品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sin/ u(Ii,Ij):
[0091] 式(4)中,% 表示在補(bǔ)全所有貧信息用戶的缺失值二維表T中,既對(duì)所述 第i個(gè)產(chǎn)品Ii有評(píng)分Su,i,又對(duì)所述第j個(gè)產(chǎn)品Ij有評(píng)分Su, j的貧信息用戶uu; $表示在補(bǔ)全所 有貧信息用戶的缺失值二維表T中,所有貧信息用戶對(duì)第i個(gè)產(chǎn)品h的平均評(píng)分;忍表示在 補(bǔ)全所有貧信息用戶的缺失值二維表T中,所有貧信息用戶對(duì)第j個(gè)產(chǎn)品I』的平均評(píng)分;
[0092] 步驟2.7、基于加權(quán)皮爾森相關(guān)系數(shù),利用式(5)計(jì)算得到貧信息用戶Uu對(duì)所述第i 個(gè)產(chǎn)品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sim u(Ii,Ij):
[0094]式(5)中,表示既對(duì)所述第i個(gè)產(chǎn)品1:的有評(píng)分Su>1,又對(duì)所述第j個(gè)產(chǎn)品Ij 有評(píng)分Su, j的貧信息用戶數(shù)目,A是待調(diào)節(jié)參數(shù),A的具體取值由交叉驗(yàn)證實(shí)驗(yàn)確定;
[0095]步驟三、對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品I」;當(dāng)?shù)趘個(gè)用戶Uv對(duì)第i個(gè)產(chǎn)品Ii和第j 個(gè)產(chǎn)品I調(diào)有評(píng)分SvjPSq,則第V個(gè)用戶Uv即為富信息用戶;計(jì)算富信息用戶Uv對(duì)第i個(gè)產(chǎn) 品Ii與第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sim v(Ii,Ij); Kv彡|u| ;v乒u;
[0096]步驟3.1,基于傳統(tǒng)皮爾森相關(guān)系數(shù),利用式(6)得到富信息用戶Uv對(duì)第i個(gè)產(chǎn)品h 與第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sin/vdijj):
[0098] 式(6)中,矣表示所有富信息用戶對(duì)第i個(gè)產(chǎn)品h的平均評(píng)分;$表示所有富信息 用戶對(duì)第j個(gè)產(chǎn)品L的平均評(píng)分表示既對(duì)第i個(gè)產(chǎn)品1:的有評(píng)分Sv>1,又對(duì)第j 個(gè)產(chǎn)品I j有評(píng)分Sv, j的富信息用戶Uv;
[0099] 步驟3.2、基于加權(quán)皮爾森相關(guān)系數(shù),利用式(7)計(jì)算得到富信息用戶Uv對(duì)第i個(gè)產(chǎn) 品Ii與第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sim v(Ii,Ij):
[0101] 式(7)中,表示既對(duì)第i個(gè)產(chǎn)品I i的有評(píng)分Su, i,又對(duì)第j個(gè)產(chǎn)品I j有評(píng)分 SU>J的富信息用戶數(shù)目,A'是另一個(gè)待調(diào)節(jié)參數(shù),A'的具體取值由交叉驗(yàn)證實(shí)驗(yàn)確定;
[0102] 步驟四、利用式(8)進(jìn)行基于貧信息用戶Uu對(duì)第i個(gè)產(chǎn)品h與第j個(gè)產(chǎn)品I」的項(xiàng)目相 似度simu(Ii,Ij),與富信息用戶U v對(duì)第i個(gè)產(chǎn)品Ii與第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度Simv(Ii,Ij) 的項(xiàng)目相似度融合;得到融合相似度sinKh,Ij):
[0103] sim(Ii,Ij) = (l-y ) Xsimu(Ii,Ij)+y Xsimv(Ii,Ij) (8)
[0104] 式(8)中,y是待調(diào)節(jié)參數(shù),y的具體取值由交叉驗(yàn)證實(shí)驗(yàn)確定;
[0105] 步驟五、根據(jù)所述融合相似度simahlj,利用基于項(xiàng)目的協(xié)同過濾算法一一式 (9),獲得未評(píng)分產(chǎn)品的所有最終預(yù)測(cè)評(píng)分的降序排序集合;選取所述預(yù)測(cè)評(píng)分的降序排 序集合的前N項(xiàng)作為推薦結(jié)果,并推薦給所述貧信息用戶Uu。
[0106] 步驟5.1、當(dāng)用戶Uu對(duì)所述第i個(gè)產(chǎn)品^未真實(shí)產(chǎn)生評(píng)分Su,dt,利用式(9)計(jì)算得到 用戶U u對(duì)所述第i個(gè)產(chǎn)品^的最終預(yù)測(cè)評(píng)分值|,;
[0108] 式(9)中,f表示除第i個(gè)產(chǎn)品h外產(chǎn)品集合I內(nèi)的其他所有產(chǎn)品;$表示用戶對(duì)第 i個(gè)產(chǎn)品^真實(shí)產(chǎn)生評(píng)分的所有評(píng)分的平均評(píng)分,即第i個(gè)產(chǎn)品h的平均評(píng)分f的計(jì)算不包 括步驟二中通過樸素貝葉斯分類器獲得的預(yù)測(cè)評(píng)分。
[0109] 步驟5.2、重復(fù)步驟5.1,計(jì)算獲得用戶Uu對(duì)所有未真實(shí)產(chǎn)生評(píng)分的最終預(yù)測(cè)評(píng)分 t:并進(jìn)行降序排列,獲得未評(píng)分產(chǎn)品預(yù)測(cè)評(píng)分值的排序集合;
[0110] 步驟5.3、選取所述未評(píng)分項(xiàng)排序集合的前N項(xiàng)作為推薦結(jié)果推薦給所述用戶Uu。
[0111] 針對(duì)本發(fā)明方法進(jìn)行實(shí)驗(yàn)論證,具體包括:
[0112] 1)準(zhǔn)備標(biāo)準(zhǔn)數(shù)據(jù)集
[0113] 本發(fā)明使用GroupLens的MovieLenslOOk數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包括943個(gè)用戶對(duì) 1682部電影的100000條評(píng)分記錄。每個(gè)用戶評(píng)價(jià)過至少20部電影。此外,這個(gè)數(shù)據(jù)集包含每 個(gè)電影的流派信息,電影庫中的所有電影共涉及到18種流派,每種流派下的電影個(gè)數(shù)如表3 所示,每個(gè)電影至少涉及到一種流派信息。
[0114] 表3
[0115]
[0116] 2)評(píng)價(jià)指標(biāo)
[0117] 采用均方根誤差(RMSE)作為本實(shí)施例的評(píng)價(jià)指標(biāo),式(10)。將具有最優(yōu)效果的IFA 算法與其它基準(zhǔn)算法進(jìn)行比較,均方根誤差RMSE通過計(jì)算測(cè)試集中實(shí)際的用戶評(píng)分與對(duì)應(yīng) 項(xiàng)的最終預(yù)測(cè)值之間的偏差度量預(yù)測(cè)的準(zhǔn)確性,RMSE越小,推薦質(zhì)量越高:
[0119] 式(10)中,Su,^測(cè)試集ITest中用戶Uu對(duì)第i個(gè)產(chǎn)品h的實(shí)際評(píng)分,之,為算法計(jì)算 得到的用戶Uu對(duì)第i個(gè)產(chǎn)品h的預(yù)測(cè)評(píng)分,|lTest|為測(cè)試集中評(píng)分記錄個(gè)數(shù)。
[0120] 3)IFA算法的參數(shù)選擇
[0121] IFA算法有兩個(gè)參數(shù)控制著算法的結(jié)果,分別是利用加權(quán)皮爾遜相關(guān)系數(shù)計(jì)算富 信息用戶與貧信息用戶的項(xiàng)目相似度時(shí)的加權(quán)因子A,基于富信息用戶與貧信息用戶的項(xiàng) 目相似度貢獻(xiàn)權(quán)重y。本發(fā)明中先確定使得Weighted Pearson算法取得最優(yōu)預(yù)測(cè)精度的入, 然后用確定的X來調(diào)節(jié)最優(yōu)的Y。
[0122] 3.1)加權(quán)因子入:
[0123] 參數(shù)A對(duì)Weighted Pearson的影響如圖3~圖6所示,由于篇幅限制這里本發(fā)明中 只列出了訓(xùn)練集和測(cè)試集比例為〇.3,0.5,0.7和0.9,不同的測(cè)試集1^的產(chǎn)品項(xiàng)目集規(guī)格 Neighbor Size下,即測(cè)試集中的評(píng)分記錄數(shù)目不同時(shí),參數(shù)A對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果。 發(fā)現(xiàn)對(duì)于所有稀疏度等級(jí)的數(shù)據(jù)集,使得Weighted Pearson算法獲得最優(yōu)評(píng)分預(yù)測(cè)精度的 入維持在140-200之間。這證實(shí)了較少的富信息用戶數(shù)目不一定意味著項(xiàng)目對(duì)有著較高的相 似度。在后續(xù)確定最優(yōu)y的試驗(yàn)中,本發(fā)明將各個(gè)稀疏度數(shù)據(jù)集的A分別設(shè)為180,180,190, 140〇
[0124] 3.2)相似度貢獻(xiàn)權(quán)重y :
[0125] 在確定使得Weighted Pearson算法取得最優(yōu)預(yù)測(cè)精度的A后,本發(fā)明分別展示了 y從0到1變化時(shí)算法的預(yù)測(cè)精度的變化,如圖7~圖10所示。由公式(8)知,當(dāng)y取1時(shí),IFA 算法轉(zhuǎn)變?yōu)閃eighted Pearson算法:當(dāng)訓(xùn)練集和測(cè)試集比例為0.3時(shí),我們發(fā)現(xiàn)IFA算法在 Y取0-0.9之間的任意數(shù),算法效果都優(yōu)于Y取1時(shí)的效果,這充分說明了利用樸素貝葉斯 分類器預(yù)測(cè)貧信息用戶評(píng)分項(xiàng)的貧信息用戶評(píng)分項(xiàng)中的缺失值的有效性;當(dāng)訓(xùn)練集和測(cè)試 集比例為0.5,0.7和0.9時(shí)算法Y取0.8-0.9之間的任意數(shù)算法IFA算法效果都要優(yōu)于 Weighted Pearson算法,這表明了融合貧信息用戶評(píng)分項(xiàng)可以提升評(píng)分預(yù)測(cè)精度。此外對(duì) 所有稀疏度等級(jí)的數(shù)據(jù)集,T在0.9-0.95時(shí)算法取得最優(yōu),這也說明雖然貧信息用戶評(píng)分 項(xiàng)有助于提升推薦準(zhǔn)確性,但是用戶的實(shí)際評(píng)分項(xiàng)還是為用戶鄰居選擇貢獻(xiàn)最大。
[0126] 4)在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)
[0127] 表4為各個(gè)算法在不同訓(xùn)練/測(cè)試集比例的數(shù)據(jù)集上的RMSE值。每種數(shù)據(jù)集中最好 的算法用粗體表示。本發(fā)明表4列出了所提的IFA算法在各種比例下相對(duì)于其它算法的提 升,并對(duì)提升求取均值。我們發(fā)現(xiàn)在7種不同稀疏度條件的數(shù)據(jù)集下,所提IFA算法在5種較 為稀疏的數(shù)據(jù)集下均優(yōu)于其它所有算法,只在在1個(gè)較為密集的數(shù)據(jù)集下IFA算法略遜于 Cosine Norm算法,在ratio為0.8時(shí)IFA算法和Cosine Norm算法表現(xiàn)相當(dāng)。
[0128]與Pearson算法相比,IFA算法在所有稀疏條件下的效果都優(yōu)于Pearson算法,平均 提升精度為3.0%。此外,我們發(fā)現(xiàn)Pearson算法在所有稀疏度條件的數(shù)據(jù)集下的推薦精度 都遜于所有其它算法。這表明考慮貧信息用戶的評(píng)分項(xiàng)有助于提升推薦的預(yù)測(cè)精度。
[0129] 表4
[0130]
[0131] 與基于Weighted Pearson的算法相比,IFA算法在所有稀疏度條件下都優(yōu)于 Weighted Pearson算法,精度平均提升為0.8%。特別是當(dāng)訓(xùn)練集和測(cè)試集比例為30%和 40%時(shí),此時(shí)訓(xùn)練集中的評(píng)分?jǐn)?shù)據(jù)極度稀疏,IFA算法相對(duì)于Weighted Pearson算法的提升 分別為1.5%和1.2%,這說明利用項(xiàng)目項(xiàng)目特征對(duì)貧信息用戶評(píng)分項(xiàng)的貧信息用戶評(píng)分項(xiàng) 中的缺失值進(jìn)行預(yù)測(cè)有助于緩解數(shù)據(jù)集的稀疏性問題。另外我們發(fā)現(xiàn)Weighted Pearson在 所有稀疏度條件下的效果都優(yōu)于Pearson算法,這說明懲罰貧信息用戶過多的項(xiàng)目對(duì)的相 似度有助于提升基于項(xiàng)目最近鄰協(xié)同過濾算法的評(píng)分預(yù)測(cè)精度。
[0132] 與基于Cosine Norm相似度的項(xiàng)目最近鄰協(xié)同過濾算法相比,所提算法在訓(xùn)練集 和測(cè)試集比例為30%-70%時(shí)均優(yōu)于Cosine Norm算法,當(dāng)訓(xùn)練集和測(cè)試集比例為90%時(shí), Cosine Norm算法略遜于所提IFA算法??傮w來說,Cosine Norm是對(duì)數(shù)據(jù)集稀疏度依賴非常 高的算法,當(dāng)數(shù)據(jù)集較為密集時(shí),算法效果非常好,但是當(dāng)數(shù)據(jù)集極度稀疏時(shí),該算法幾乎 是最差的算法。
[0133]與基于概率矩陣分解(PMF)的算法相比,所提算法在所有數(shù)據(jù)集上均優(yōu)于PMF算 法,不過值得一提的是,PMF算法在最為稀疏的一個(gè)數(shù)據(jù)集中的表現(xiàn)僅次于所提IFA算法。
【主權(quán)項(xiàng)】
1. 一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法,其特征是按如下步驟進(jìn)行: 步驟一、用二維表T = {U,I,S}表示產(chǎn)品的評(píng)分?jǐn)?shù)據(jù); 所述二維表T中,U={Ur-,Uu,…,U|U|}表示用戶集合,I = {Ir-,Ii,…,I|i|}表示產(chǎn)品集 合,S={S(1)…,S(s),…,S(s)}表示用戶對(duì)產(chǎn)品的評(píng)分集合; 所述用戶集合U中,| u |為用戶的總數(shù)目,Uu表示第u個(gè)用戶;1彡u彡| u | ;所述產(chǎn)品集合I 中,I i I為產(chǎn)品的總數(shù)目,h表示第i個(gè)產(chǎn)品;I i I ;所述評(píng)分集合S中,S(s)表示所述評(píng) 分集合中第s個(gè)評(píng)分,且S(1)<~<S (s)<~<S(s); 令第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的評(píng)分為Su, i,且Su, i G S; 對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij;若第u個(gè)用戶Uu對(duì)所述第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij 均有評(píng)分Su,dPSu」,則表示第u個(gè)用戶Uu為富信息用戶;第u個(gè)用戶U u對(duì)第i個(gè)產(chǎn)品h的評(píng)分 Su,i和第u個(gè)用戶Uu對(duì)第j個(gè)產(chǎn)品1」的評(píng)分Su,」均稱為富信息用戶評(píng)分項(xiàng);| i | ; i乒j ; 對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij;若第u個(gè)用戶Uu僅對(duì)所述第i個(gè)產(chǎn)品Ii有評(píng)分Su,i或 僅對(duì)第j個(gè)產(chǎn)品L有評(píng)分Su+則表示第u個(gè)用戶Uu為貧信息用戶;第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品 h的評(píng)分Su>1和第u個(gè)用戶Uu對(duì)第j個(gè)產(chǎn)品I」的評(píng)分Sy均稱為貧信息用戶評(píng)分項(xiàng);并有: 當(dāng)?shù)趗個(gè)用戶Uu僅對(duì)所述第j個(gè)產(chǎn)品I」有評(píng)分Sy時(shí),第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品h的評(píng)分 Su,d#為貧信息用戶評(píng)分項(xiàng)中的缺失值; 令所有產(chǎn)品具有的項(xiàng)目特征集合為G = {gl…,gn,…,g|n|},gn表示所有產(chǎn)品的第n個(gè)項(xiàng) 目特征;令貧信息用戶評(píng)分項(xiàng)中的缺失值Su>1所代表的第i個(gè)產(chǎn)品h的項(xiàng)目特征集合為 Gi= {gi,r",gi,v,gi, |n|} ;gi,n表示第i個(gè)產(chǎn)品Ii在第n個(gè)項(xiàng)目特征gn上的特征值;若第 i個(gè)產(chǎn)品Ii具有第n個(gè)項(xiàng)目特征gn,則gi,n=l;否則,gi,n = 0;Kn彡|n| ; 步驟二、假設(shè)第u個(gè)用戶Uu為貧信息用戶;第u個(gè)用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分SU>1S 貧信息用戶評(píng)分項(xiàng)中的缺失值;計(jì)算貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品^與所述第j個(gè)產(chǎn)品込 的項(xiàng)目相似度simu(Ii, Ij); 步驟2.1、利用式(1)計(jì)算獲得貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分項(xiàng)中的缺失值 Su,i為S(s)時(shí)的先驗(yàn)概率P(S(S)):式(1)中,I(u)表示貧信息用戶Uu對(duì)所述產(chǎn)品集合I中所有已評(píng)分的產(chǎn)品集合;item表示 所述已評(píng)分產(chǎn)品集合I(u)中的任一產(chǎn)品;|I(U)|表示所述已評(píng)分產(chǎn)品集合I(u)中的產(chǎn)品數(shù)目; Su,ltem表示貧信息用戶Uu對(duì)所述已評(píng)分產(chǎn)品集合I(u)中產(chǎn)品item的評(píng)分; {itemGl(u)|Su,ltem=S(s)}|表示貧信息用戶U u在所述已評(píng)分產(chǎn)品集合I(u)中評(píng)分Su,ltem 為S(s)的產(chǎn)品數(shù)目; 步驟2.2、利用式(2)計(jì)算獲得貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分項(xiàng)中的缺失值 Su,i為S(s)時(shí)的似然函數(shù)P(gn| S(s)):式⑵中,gltem,n表示貧信息用戶仏對(duì)所述已評(píng)分產(chǎn)品集合I(u)中的產(chǎn)品item在第n個(gè)項(xiàng) 目特征gn上的特征值;| {itemG I(u),gi,n=l I Su,item=S(S) ngitem,n = gi,n} I 表示貧信息用戶Uu 對(duì)所述已評(píng)分的產(chǎn)品集合I(u)中的產(chǎn)品item中評(píng)分Su,ltemSS (s),且貧信息用戶Uu對(duì)產(chǎn)品 item在第n個(gè)項(xiàng)目特征gn上的特征值gitem,n與第i個(gè)產(chǎn)品Ii在第n個(gè)項(xiàng)目特征g n上的特征值 g1>n取值均為T的項(xiàng)目個(gè)數(shù); 步驟2.3、利用式(3)計(jì)算獲得貧信息用戶1]11對(duì)所述第1個(gè)產(chǎn)品11的評(píng)分511, 1為5(3)時(shí)的概 率 P(S(s)|li):步驟2.4、重復(fù)步驟2.1-步驟2.3,從而獲得貧信息用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的缺失值Su, i分 別為S(1)…,S(s),…,S(s)時(shí)的概率,并將最大概率所對(duì)應(yīng)的評(píng)分作為貧信息用戶U u對(duì)第i個(gè) 產(chǎn)品^的缺失值Su,:的預(yù)測(cè)評(píng)分; 步驟2.5、重復(fù)步驟2.4,預(yù)測(cè)所有貧信息用戶評(píng)分項(xiàng)中的缺失值,從而補(bǔ)全所述二維表 T中所有貧信息用戶的缺失值; 步驟2.6、基于傳統(tǒng)皮爾森相關(guān)系數(shù),利用式(4)得到貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h 與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sin/udijj):式⑷中,表示在補(bǔ)全所有貧信息用戶的缺失值二維表T中,既對(duì)所述第i 個(gè)產(chǎn)品Ii有評(píng)分Su, i,又對(duì)所述第j個(gè)產(chǎn)品I j有評(píng)分Su, j的貧信息用戶Uu;瓦表示在補(bǔ)全所有 貧信息用戶的缺失值二維表T中,所有貧信息用戶對(duì)第i個(gè)產(chǎn)品h的平均評(píng)分;$表示在補(bǔ) 全所有貧信息用戶的缺失值二維表T中,所有貧信息用戶對(duì)第j個(gè)產(chǎn)品I』的平均評(píng)分; 步驟2.7、基于加權(quán)皮爾森相關(guān)系數(shù),利用式(5)計(jì)算得到貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn) 品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度simu(Ii,Ij):式(5)中,& n% |表示既對(duì)所述第i個(gè)產(chǎn)品Ii的有評(píng)分Su, i,又對(duì)所述第j個(gè)產(chǎn)品Ij有評(píng) 分Sy的貧信息用戶數(shù)目,A是待調(diào)節(jié)參數(shù); 步驟三、假設(shè)第v個(gè)用戶Uv即為富信息用戶;計(jì)算富信息用戶Uv對(duì)所述第i個(gè)產(chǎn)品1:與所 述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度simv(Ii,Ij);Kv彡|u| ;v乒u; 步驟3.1,基于傳統(tǒng)皮爾森相關(guān)系數(shù),利用式(6)得到富信息用戶Uv對(duì)所述第i個(gè)產(chǎn)品h 與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sin/vdijj):式(6)中,% n%表示既對(duì)所述第i個(gè)產(chǎn)品^的有評(píng)分Sv>1,又對(duì)所述第j個(gè)產(chǎn)品込 有評(píng)分Sq的富信息用戶U、;完表示所有富信息用戶對(duì)第i個(gè)產(chǎn)品h的平均評(píng)分;$表示所有 富信息用戶對(duì)第j個(gè)產(chǎn)品込的平均評(píng)分; 步驟3.2、基于加權(quán)皮爾森相關(guān)系數(shù),利用式(7)計(jì)算得到富信息用戶Uv對(duì)所述第i個(gè)產(chǎn) 品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度simv(Ii,Ij):式⑴中,表示既對(duì)所述第i個(gè)產(chǎn)品1:的有評(píng)分Su>1,又對(duì)所述第j個(gè)產(chǎn)品I洧評(píng) 分Sy的富信息用戶數(shù)目,A'是另一個(gè)待調(diào)節(jié)參數(shù); 步驟四、利用式(8)進(jìn)行基于貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品1:與所述第j個(gè)產(chǎn)品I」的項(xiàng) 目相似度simuaulj),與富信息用戶Uv對(duì)所述第i個(gè)產(chǎn)品1:與所述第j個(gè)產(chǎn)品込的項(xiàng)目相似 度sim v(Ii,Ij)的項(xiàng)目相似度融合;得到融合相似度sim(Ii,I j): sim(Ii,Ij) = (l-y ) Xsimu(Ii,Ij)+y Xsimv(Ii,Ij) (8) 式(8)中,y是待調(diào)節(jié)參數(shù); 步驟五、根據(jù)所述融合相似度simahlj,利用基于項(xiàng)目的協(xié)同過濾算法,獲得未評(píng)分 產(chǎn)品的所有最終預(yù)測(cè)評(píng)分的降序排序集合;選取所述預(yù)測(cè)評(píng)分的降序排序集合的前N項(xiàng) 作為推薦結(jié)果,并推薦給所述貧信息用戶U u。
【文檔編號(hào)】G06Q30/06GK106055715SQ201610547148
【公開日】2016年10月26日
【申請(qǐng)日】2016年7月12日
【發(fā)明人】劉業(yè)政, 宋穎欣, 王錦坤, 姜元春, 孫見山, 孫春華
【申請(qǐng)人】合肥工業(yè)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1