一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法

文檔序號(hào)：10687212閱讀：715來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法
【專利摘要】本發(fā)明公開了一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法(IFA)，該方法包括如下步驟：1)用二維表表示產(chǎn)品的評(píng)分?jǐn)?shù)據(jù)；2)基于樸素貝葉斯分類器的貧信息用戶項(xiàng)目相似度計(jì)算；3)富信息用戶項(xiàng)目相似度計(jì)算；4)基于貧信息用戶的項(xiàng)目相似度與富信息用戶的項(xiàng)目相似度融合；5)結(jié)合基于項(xiàng)目的協(xié)同過濾算法給出未評(píng)分產(chǎn)品的評(píng)分預(yù)測(cè)值集合，并取前N項(xiàng)作為最終推薦結(jié)果。本發(fā)明能有效反映用戶評(píng)價(jià)的真實(shí)情況，提高個(gè)性化推薦精度。
【專利說明】
一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于電子商務(wù)領(lǐng)域，具體地說是一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法（Item FeatureAugmentation，IFA) 〇
【背景技術(shù)】
[0002] 電子商務(wù)的迅速發(fā)展，使得如何有效提高用戶購買率成為各大電商企業(yè)主要思考的問題，協(xié)同過濾技術(shù)作為個(gè)性化推薦應(yīng)用最早和最為成功的技術(shù)之一，能夠很好地基于項(xiàng)目或用戶之間的相似性對(duì)企業(yè)的購買決策提供技術(shù)支撐，基于項(xiàng)目最近鄰的協(xié)同過濾推薦技術(shù)因?yàn)槠淇蓴U(kuò)展性強(qiáng)和可解釋性好成為了基于最近鄰協(xié)同過濾算法中最流行的算法，在亞馬遜購物網(wǎng)站和Netflix電影租賃網(wǎng)站中都得到了實(shí)際應(yīng)用。
[0003] 項(xiàng)目相似度計(jì)算是基于項(xiàng)目最近鄰協(xié)同過濾算法中最重要的步驟，它決定了協(xié)同過濾算法中項(xiàng)目最近鄰選擇和鄰居的評(píng)分加權(quán)，進(jìn)而影響算法最終的推薦精度。傳統(tǒng)計(jì)算兩個(gè)產(chǎn)品的項(xiàng)目相似度的方法是首先分離出對(duì)兩個(gè)項(xiàng)目都有評(píng)分行為的用戶評(píng)分項(xiàng)，然后對(duì)這些用戶的評(píng)分項(xiàng)利用皮爾遜相似度或者余弦距離等計(jì)算方法計(jì)算項(xiàng)目相似度，現(xiàn)有研究方法雖然為個(gè)性化推薦的構(gòu)建提供基礎(chǔ)理論支撐和實(shí)踐指導(dǎo)，但是仍然存在諸多問題： [0004] (1)數(shù)據(jù)稀疏性問題加劇。在實(shí)際生活中，消費(fèi)者購買的產(chǎn)品在整個(gè)產(chǎn)品目錄中占比很少。因此在對(duì)實(shí)際的電子商務(wù)數(shù)據(jù)集計(jì)算兩個(gè)產(chǎn)品的項(xiàng)目相似度時(shí)會(huì)有大量只對(duì)一個(gè) 產(chǎn)品有過評(píng)分行為的用戶。如表1所示，在計(jì)算產(chǎn)品I#PI2的項(xiàng)目相似度時(shí)，傳統(tǒng)的項(xiàng)目相似度計(jì)算方法只利用了 U3和U7對(duì)這兩個(gè)產(chǎn)品的評(píng)分，而山，U2，U4，U 5，U6的評(píng)分信息將被直接忽視，導(dǎo)致大量的評(píng)分信息沒有得到有效利用，這就會(huì)更一步加劇數(shù)據(jù)稀疏性問題。
[0005]表 1
[0007] (2)相似性計(jì)算的不準(zhǔn)確?；谄栠d相似度公式計(jì)算得到的項(xiàng)目相似度會(huì)存在下面的情況:那些被較少用戶共同評(píng)價(jià)過的項(xiàng)目對(duì)可能有著相對(duì)更高的相似度，但是如果兩個(gè)項(xiàng)目被大量用戶評(píng)價(jià)過，但僅僅有兩個(gè)用戶對(duì)他們同時(shí)評(píng)價(jià)，這并不能表明它們之間有著非常高的相似度。這也就導(dǎo)致現(xiàn)有協(xié)同過濾算法中對(duì)項(xiàng)目之間相似性的計(jì)算相似性度量出現(xiàn)誤差，降低了推薦系統(tǒng)的精度。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明為克服現(xiàn)有技術(shù)存在的不足之處，提出一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法，以期能充分利用評(píng)分信息來反映用戶評(píng)價(jià)的真實(shí)情況，使得計(jì)算得到的項(xiàng)目鄰居可靠性更高，從而提高個(gè)性化推薦的精度。
[0009] 為了達(dá)到上述目的，本發(fā)明所采用的技術(shù)方案為：
[0010] 本發(fā)明一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法的特點(diǎn)是按如下步驟進(jìn)行：
[0011] 步驟一、用二維表T= {U，I，S}表示產(chǎn)品的評(píng)分?jǐn)?shù)據(jù)；
[0012] 所述二維表T中，U={Ur-，Uu，…，U|U|}表示用戶集合，I = {Ir-，Ii，…，I|i|}表示產(chǎn)品集合，S={S(1)…，S(s)，…，S (|s)}表示用戶對(duì)產(chǎn)品的評(píng)分集合；
[0013] 所述用戶集合U中，| u |為用戶的總數(shù)目，Uu表示第u個(gè)用戶；| u | ;所述產(chǎn)品集合I中，I i I為產(chǎn)品的總數(shù)目，^表示第i個(gè)產(chǎn)品；I i I ;所述評(píng)分集合S中，S(s)表示所述評(píng)分集合中第s個(gè)評(píng)分，且Sa)< . . . <SW< . . . <SW ;
[0014] 令第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的評(píng)分為Su,i，且Su,iGS;
[0015] 對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品1」;若第u個(gè)用戶1^對(duì)所述第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn) 品Ij均有評(píng)分Su,i和S u,j，則表示第u個(gè)用戶Uu為富信息用戶；第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的評(píng)分S u>1和第u個(gè)用戶Uu對(duì)第j個(gè)產(chǎn)品込的評(píng)分Sy均稱為富信息用戶評(píng)分項(xiàng)；1彡涔|i|;i辛 j;
[0016] 對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij;若第u個(gè)用戶Uu僅對(duì)所述第i個(gè)產(chǎn)品Ii有評(píng)分 SU>1S僅對(duì)第j個(gè)產(chǎn)品L有評(píng)分Su+則表示第u個(gè)用戶Uu為貧信息用戶;第u個(gè)用戶U u對(duì)第i個(gè) 產(chǎn)品h的評(píng)分Su>1和第u個(gè)用戶Uu對(duì)第j個(gè)產(chǎn)品I」的評(píng)分Sy均稱為貧信息用戶評(píng)分項(xiàng);并有： [00 17]當(dāng)?shù)趗個(gè)用戶uu僅對(duì)所述第j個(gè)產(chǎn)品Ij有評(píng)分Su,j時(shí)，第u個(gè)用戶U u對(duì)第i個(gè)產(chǎn)品Ii的評(píng)分Su,d#為貧信息用戶評(píng)分項(xiàng)中的缺失值；
[0018] 令所有產(chǎn)品具有的項(xiàng)目特征集合為G = {gl…，gn，…，g | n|}，gn表示所有產(chǎn)品的第n 個(gè)項(xiàng)目特征;令貧信息用戶評(píng)分項(xiàng)中的缺失值Su>1所代表的第i個(gè)產(chǎn)品h的項(xiàng)目特征集合為 Gi= {gi,r"，gi,n，…，gi, |n|} ;gi,n表示第i個(gè)產(chǎn)品Ii在第n個(gè)項(xiàng)目特征gn上的特征值;若第i個(gè) 產(chǎn)品Ii具有第n個(gè)項(xiàng)目特征g n，則gi,n=l;否則，gi,n = 0;Kn彡|n| ;
[0019] 步驟二、假設(shè)第u個(gè)用戶Uu為貧信息用戶；第u個(gè)用戶仏對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分 Su>1為貧信息用戶評(píng)分項(xiàng)中的缺失值;計(jì)算貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品1忐所述第j個(gè)產(chǎn) 品Ij的項(xiàng)目相似度 Simu(Ii，Ij);
[0020] 步驟2.1、利用式（1)計(jì)算獲得貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分項(xiàng)中的缺失值Su,i為S (s)時(shí)的先驗(yàn)概率P(S(S)):
[0022]式（1)中，I(u)表示貧信息用戶Uu對(duì)所述產(chǎn)品集合I中所有已評(píng)分的產(chǎn)品集合;item 表示所述已評(píng)分產(chǎn)品集合I(u)中的任一產(chǎn)品；|I(U)|表示所述已評(píng)分產(chǎn)品集合I(u)中的產(chǎn)品數(shù)目；S u,ltem表示貧信息用戶Uu對(duì)所述已評(píng)分產(chǎn)品集合I(u)中產(chǎn)品item的評(píng)分；
[0023] | {itemGl(u)|Su,ltem=S(s)} |表示貧信息用戶Uu在所述已評(píng)分產(chǎn)品集合I(u)中評(píng)分 Su,item為s(s)的產(chǎn)品數(shù)目；
[0024]步驟2.2、利用式(2)計(jì)算獲得貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分項(xiàng)中的缺失值Su,i為S(s)時(shí)的似然函數(shù)P(gn| S(s)):
[0026] 式（2 )中，gitem， ^^表示貧信息用戶Uu對(duì)所述已評(píng)分產(chǎn)品集合I(u)中的產(chǎn)品item在第n 個(gè)項(xiàng)目特征gn上的特征值；I UtemGl(U)，gi,n=l |Su,item=S(S)ngitem,n = gi,n} | 表示貧信息用戶Uu對(duì)所述已評(píng)分的產(chǎn)品集合I(u)中的產(chǎn)品item中評(píng)分S u,ltem為S(s)，且貧信息用戶Uu對(duì)產(chǎn) 品item在第n個(gè)項(xiàng)目特征g n上的特征值gitem,n與第i個(gè)產(chǎn)品Ii在第n個(gè)項(xiàng)目特征gn上的特征值 g 1>n取值均為T的項(xiàng)目個(gè)數(shù)；
[0027] 步驟2.3、利用式(3)計(jì)算獲得貧信息用戶1]11對(duì)所述第1個(gè)產(chǎn)品11的評(píng)分511, 1為5(3)時(shí) 的概率 P(S(s)|li):
[0029] 步驟2.4、重復(fù)步驟2.1-步驟2.3，從而獲得貧信息用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的缺失值 Su,i分別為S (1)…，S(s)，…，S(s)時(shí)的概率，并將最大概率所對(duì)應(yīng)的評(píng)分作為貧信息用戶仏對(duì) 第i個(gè)產(chǎn)品^的缺失值S u>1的預(yù)測(cè)評(píng)分；
[0030] 步驟2.5、重復(fù)步驟2.4,預(yù)測(cè)所有貧信息用戶評(píng)分項(xiàng)中的缺失值，從而補(bǔ)全所述二維表T中所有貧信息用戶的缺失值；
[0031] 步驟2.6、基于傳統(tǒng)皮爾森相關(guān)系數(shù)，利用式(4)得到貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn) 品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sin/ u(Ii，Ij):
[0033] 式(4)中，R 表示在補(bǔ)全所有貧信息用戶的缺失值二維表T中，既對(duì)所述第i個(gè)產(chǎn)品Ii有評(píng)分Su, i，又對(duì)所述第j個(gè)產(chǎn)品Ij有評(píng)分Su, j的貧信息用戶Uu;瓦表示在補(bǔ)全所有貧信息用戶的缺失值二維表T中，所有貧信息用戶對(duì)第i個(gè)產(chǎn)品h的平均評(píng)分;g表示在補(bǔ)全所有貧信息用戶的缺失值二維表T中，所有貧信息用戶對(duì)第j個(gè)產(chǎn)品I』的平均評(píng)分；
[0034] 步驟2.7、基于加權(quán)皮爾森相關(guān)系數(shù)，利用式(5)計(jì)算得到貧信息用戶Uu對(duì)所述第i 個(gè)產(chǎn)品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sim u(Ii，Ij):
[0036]式(5)中，V,. HR.表示既對(duì)所述第i個(gè)產(chǎn)品Ii的有評(píng)分Su,i，又對(duì)所述第j個(gè)產(chǎn)品Ij I .} 有評(píng)分Sy的貧信息用戶數(shù)目，A是待調(diào)節(jié)參數(shù)；
[0037]步驟三、假設(shè)第v個(gè)用戶Uv即為富信息用戶;計(jì)算富信息用戶Uv對(duì)所述第i個(gè)產(chǎn)品h 與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度simv(Ii，Ij) 彡|u| ;v乒u;
[0038]步驟3.1，基于傳統(tǒng)皮爾森相關(guān)系數(shù)，利用式(6)得到富信息用戶Uv對(duì)所述第i個(gè)產(chǎn) 品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sin/ v(Ii，Ij):
[0040] 式(6)中，表示既對(duì)所述第i個(gè)產(chǎn)品1冊(cè)有評(píng)分Sv>1，又對(duì)所述第j個(gè)產(chǎn) 品込有評(píng)分Sq的富信息用戶U、；完表示所有富信息用戶對(duì)第i個(gè)產(chǎn)品h的平均評(píng)分；男表示所有富信息用戶對(duì)第j個(gè)產(chǎn)品込的平均評(píng)分；
[0041] 步驟3.2、基于加權(quán)皮爾森相關(guān)系數(shù)，利用式(7)計(jì)算得到富信息用戶Uv對(duì)所述第i 個(gè)產(chǎn)品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sim v(Ii，Ij):
[0043] 式(7)中，表示既對(duì)所述第i個(gè)產(chǎn)品1:的有評(píng)分Su>1，又對(duì)所述第j個(gè)產(chǎn)品込有評(píng)分Sy的富信息用戶數(shù)目，Y是另一個(gè)待調(diào)節(jié)參數(shù)；
[0044] 步驟四、利用式(8)進(jìn)行基于貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品1:與所述第j個(gè)產(chǎn)品込的項(xiàng)目相似度simudi，込），與富信息用戶U v對(duì)所述第i個(gè)產(chǎn)品1:與所述第j個(gè)產(chǎn)品込的項(xiàng)目相似度simv(Ii，Ij)的項(xiàng)目相似度融合;得到融合相似度sim(Ii，I j):
[0045] sim(Ii,Ij) = (l-y ) X simu(Ii, Ij)+y Xsimv(Ii,Ij) (8)
[0046] 式(8)中，y是待調(diào)節(jié)參數(shù)；
[0047] 步驟五、根據(jù)所述融合相似度simahlj，利用基于項(xiàng)目的協(xié)同過濾算法，獲得未評(píng)分產(chǎn)品的所有最終預(yù)測(cè)評(píng)分的降序排序集合;選取所述預(yù)測(cè)評(píng)分的降序排序集合的前N項(xiàng)作為推薦結(jié)果，并推薦給所述貧信息用戶Uu。
[0048]與已有技術(shù)相比，本發(fā)明的有益效果體現(xiàn)在：
[0049] 1、本發(fā)明對(duì)協(xié)同過濾方法中項(xiàng)目最近鄰的計(jì)算，在已有傳統(tǒng)協(xié)同過方法中僅對(duì)兩個(gè)項(xiàng)目均有評(píng)分項(xiàng)的富信息用戶評(píng)分項(xiàng)近似性計(jì)算上，新加入對(duì)兩個(gè)項(xiàng)目中只有一個(gè)評(píng)分的貧信息用戶項(xiàng)的相似性計(jì)算，所提方法考慮到所有用戶的已有評(píng)分，因此該方法計(jì)算得到的項(xiàng)目最近鄰可靠性更高，有效克服了數(shù)據(jù)稀疏性這一問題，為已有信息的充分利用提供了解決思路，其推薦精度明顯優(yōu)于基于Pearson,Weighted Pearson,Cosine Norm，概率矩陣分解(PMF)相似度的項(xiàng)目最近鄰協(xié)同過濾方法。
[0050] 2、本發(fā)明中使用基于多元伯努利模型的樸素貝葉斯分類器，對(duì)兩個(gè)產(chǎn)品中僅有一個(gè)項(xiàng)目評(píng)分的貧信息用戶評(píng)分缺失值進(jìn)行評(píng)分概率預(yù)測(cè)，已有評(píng)論信息對(duì)貝葉斯分類器相關(guān)參數(shù)的學(xué)習(xí)以及對(duì)信息用戶評(píng)分項(xiàng)的缺失值的預(yù)測(cè)提供了可靠真實(shí)的支持，且選取概率最高評(píng)分為缺失值的預(yù)測(cè)值，能夠真實(shí)有效反映消費(fèi)者整體對(duì)產(chǎn)品評(píng)分現(xiàn)實(shí)情況，提高了個(gè)性化推薦的精度。
[0051 ] 3、本發(fā)明中對(duì)貧信息用戶與富信息用戶均使用McLanugh 1 in提出的加權(quán)皮爾森相關(guān)系數(shù)來計(jì)算項(xiàng)目相似度，貧信息用戶評(píng)分項(xiàng)與富信息用戶項(xiàng)的相似度具有統(tǒng)一的測(cè)量尺度，保證了后續(xù)步驟中兩類用戶項(xiàng)相似度融合的可操作性，確保了項(xiàng)目最近鄰計(jì)算的穩(wěn)定性與可靠性。
[0052] 4、本發(fā)明中在進(jìn)行基于富信息用戶評(píng)分項(xiàng)的相似度和基于貧信息用戶的項(xiàng)目相似度進(jìn)行融合時(shí)，引入調(diào)節(jié)參數(shù)對(duì)二者進(jìn)行線性融合，其中通過交叉驗(yàn)證方法對(duì)調(diào)節(jié)參數(shù) 進(jìn)行尋優(yōu)，使得推薦精度效果得以顯著提高，克服了現(xiàn)有技術(shù)中僅基于對(duì)二者均有評(píng)分的富用戶信息推薦技術(shù)的缺點(diǎn)。
[0053] 5、本發(fā)明可用于手機(jī)和書籍等實(shí)體產(chǎn)品，音樂和電影等數(shù)字產(chǎn)品，旅游計(jì)劃和度假行程等服務(wù)產(chǎn)品的個(gè)性化推薦系統(tǒng)，可以在網(wǎng)頁和APP等平臺(tái)同時(shí)使用，以期提高商家和消費(fèi)者的雙向經(jīng)濟(jì)效益及整體滿意度。
【附圖說明】
[0054]圖1為本發(fā)明的流程示意圖；
[0055] 圖2為本發(fā)明富信息用戶評(píng)分項(xiàng)與貧信息用戶說明圖；
[0056] 圖3為本發(fā)明訓(xùn)練集和測(cè)試集比例0.3，參數(shù)A對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果；
[0057]圖4為本發(fā)明訓(xùn)練集和測(cè)試集比例0.5，參數(shù)A對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果；
[0058]圖5為本發(fā)明訓(xùn)練集和測(cè)試集比例0.7，參數(shù)A對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果；
[0059] 圖6為本發(fā)明訓(xùn)練集和測(cè)試集比例0.9，參數(shù)A對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果；
[0060] 圖7為本發(fā)明訓(xùn)練集和測(cè)試集比例0.3，參數(shù)Y對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果；
[0061 ]圖8為本發(fā)明訓(xùn)練集和測(cè)試集比例0.5，參數(shù)y對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果；
[0062] 圖9為本發(fā)明訓(xùn)練集和測(cè)試集比例0.7，參數(shù)Y對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果；
[0063] 圖10為本發(fā)明訓(xùn)練集和測(cè)試集比例0.9，參數(shù)Y對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果。
【具體實(shí)施方式】
[0064]如圖1所示，一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法（Item Feature Augmentation, IFA)，是按如下步驟進(jìn)行：
[0065] 步驟一、用二維表T={U，I，S}表示產(chǎn)品的評(píng)分?jǐn)?shù)據(jù)；
[0066] 所述二維表T中，U={Ur-，Uu，…，Uu}表示用戶集合，I = {Ir-，Ii，…，I|i|}表示產(chǎn) 品集合，S= {S(1)…，S(s)，…，S(s)}表示用戶對(duì)產(chǎn)品的評(píng)分集合；
[0067] 所述用戶集合U中，| u |為用戶的總數(shù)目，Uu表示第u個(gè)用戶；1彡u彡| u | ;所述產(chǎn)品集合I中，I i I為產(chǎn)品的總數(shù)目，^表示第i個(gè)產(chǎn)品；I i I ;所述評(píng)分集合S中，S(s)表示所述評(píng)分集合中第s個(gè)評(píng)分，且Sa)< . . . <SW< . . . <SW ;
[0068]令第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的評(píng)分為Su,i，且Su,iGS;
[0069] 如圖2所示，對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij;若第u個(gè)用戶Uu對(duì)所述第i個(gè)產(chǎn)品 Ii和第j個(gè)產(chǎn)品Ij均有評(píng)分S u,i和Su,j，則表示第u個(gè)用戶Uu為富信息用戶;第u個(gè)用戶Uu對(duì)第i 個(gè)產(chǎn)品h的評(píng)分S u>1和第u個(gè)用戶Uu對(duì)第j個(gè)產(chǎn)品I」的評(píng)分Sy均稱為富信息用戶評(píng)分項(xiàng)； | i | ；i^j；
[0070] 如圖2所示，對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij;若第u個(gè)用戶Uu僅對(duì)所述第i個(gè)產(chǎn) 品h有評(píng)分S U>1S僅對(duì)第j個(gè)產(chǎn)品I」有評(píng)分Su+則表示第u個(gè)用戶Uu為貧信息用戶；第u個(gè)用戶U u對(duì)第i個(gè)產(chǎn)品h的評(píng)分Su>1和第u個(gè)用戶Uu對(duì)第j個(gè)產(chǎn)品込的評(píng)分Sy均稱為貧信息用戶評(píng)分項(xiàng);并有：
[0071]當(dāng)?shù)趗個(gè)用戶Uu僅對(duì)所述第j個(gè)產(chǎn)品Ij有評(píng)分Su,j時(shí)，第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的評(píng)分Su,d#為貧信息用戶評(píng)分項(xiàng)中的缺失值；
[0072]令所有產(chǎn)品具有的項(xiàng)目特征集合為G = { gl…，gn，…，g | n | }，對(duì)于本文后續(xù)實(shí)驗(yàn)中使用的電影產(chǎn)品中數(shù)據(jù)，其項(xiàng)目特征集合即為電影的流派集合，gn表示所有產(chǎn)品的第n個(gè)項(xiàng)目特征；令貧信息用戶評(píng)分項(xiàng)中的缺失值S u>1所代表的第i個(gè)產(chǎn)品Ii的項(xiàng)目特征集合為G1 = {gi,r"，gi,n，…，gi, |n| } ;gi,n表示第i個(gè)產(chǎn)品Ii在第n個(gè)項(xiàng)目特征gn上的特征值;若第i個(gè)產(chǎn)品 Ii具有第n個(gè)項(xiàng)目特征gn，貝ljgi,n = 1 ;否則，gi,n = 0 ; I n I ;如表2所示：
[0073]表 2
[0075] 步驟二、對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij;當(dāng)?shù)趗個(gè)用戶Uu僅對(duì)所述第j個(gè)產(chǎn)品Ij 有評(píng)分S UJ寸，第u個(gè)用戶Uu即為貧信息用戶；第u個(gè)用戶仏對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分SU,A 貧信息用戶評(píng)分項(xiàng)中的缺失值;計(jì)算貧信息用戶U u對(duì)所述第i個(gè)產(chǎn)品^與所述第j個(gè)產(chǎn)品Ij 的項(xiàng)目相似度simu(Ii，Ij);
[0076] 在進(jìn)行相似度simi(Ii，Ij)計(jì)算之前，要對(duì)缺失值Su,i進(jìn)行預(yù)測(cè)，本發(fā)明中首先基于貧信息用戶的歷史評(píng)分記錄和產(chǎn)品的項(xiàng)目特征信息進(jìn)行樸素貝葉斯分類器的訓(xùn)練;然后基于該分類器對(duì)貧信息用戶評(píng)分項(xiàng)中的缺失值3 11,1進(jìn)行預(yù)測(cè)。由于后續(xù)實(shí)驗(yàn)中所使用的電影產(chǎn)品的項(xiàng)目特征數(shù)據(jù)均為電影的流派數(shù)據(jù)，不存在出現(xiàn)次數(shù)問題，故而使用基于多元伯努利模型的樸素貝葉斯分類器。
[0077] 步驟2.1、利用式（1)計(jì)算獲得貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分項(xiàng)中的缺失值Su,i為S (s)時(shí)的先驗(yàn)概率P(S(S)):
[0079]式（1)中，I(u)表示貧信息用戶Uu對(duì)所述產(chǎn)品集合I中所有已評(píng)分的產(chǎn)品集合;item 表示所述已評(píng)分產(chǎn)品集合I(u)中的任一產(chǎn)品；|I(U)|表示所述已評(píng)分產(chǎn)品集合I(u)中的產(chǎn)品數(shù)目；S u,lte，示貧信息用戶仏對(duì)所述已評(píng)分產(chǎn)品集合I(u)中產(chǎn)品item的評(píng)分；| {itemei(u) Su,ltem=S(s)}|表示貧信息用戶Uu在所述已評(píng)分產(chǎn)品集合I (u)中評(píng)分Su,lte^S(s)的產(chǎn)品數(shù) 目；
[0080]步驟2.2、利用式(2)計(jì)算獲得貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分項(xiàng)中的缺失值Su,i為S(s)時(shí)的似然函數(shù)P(gn| s(s)):
[0082]式（2 )中，gitem, ^^表示貧信息用戶Uu對(duì)所述已評(píng)分產(chǎn)品集合I(u)中的產(chǎn)品item在第n 個(gè)項(xiàng)目特征gn上的特征值；I UtemGl(U)，gi,n=l |Su,item=S(S)ngitem,n = gi,n} | 表示貧信息用戶Uu對(duì)所述已評(píng)分的產(chǎn)品集合I(u)中的產(chǎn)品item中評(píng)分S u,ltem為S(s)，且貧信息用戶Uu對(duì)產(chǎn) 品item在第n個(gè)項(xiàng)目特征gn上的特征值gitem,n與第i個(gè)產(chǎn)品Ii在第n個(gè)項(xiàng)目特征g n上的特征值 g1>n取值均為T的項(xiàng)目個(gè)數(shù)；
[0083]步驟2.3、利用式(3)計(jì)算獲得貧信息用戶1]11對(duì)所述第1個(gè)產(chǎn)品11的評(píng)分5 11,1為5(3)時(shí) 的概率 P(S(s)|li):
[0085]為防止參數(shù)概率為0的情況，本發(fā)明對(duì)上述參數(shù)均使用拉普拉斯平滑方法。
[0087] 步驟2.4、重復(fù)步驟2.1-步驟2.3，從而獲得貧信息用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的缺失值 Su,i分別為S (1)…，S(s)，…，S(s)時(shí)的概率，并將最大概率所對(duì)應(yīng)的評(píng)分作為貧信息用戶仏對(duì) 第i個(gè)產(chǎn)品^的缺失值S u>1的預(yù)測(cè)評(píng)分；
[0088] 步驟2.5、重復(fù)步驟2.4,預(yù)測(cè)所有貧信息用戶評(píng)分項(xiàng)中的缺失值，從而補(bǔ)全所述二維表T中所有貧信息用戶的缺失值；
[0089] 步驟2.6、基于傳統(tǒng)皮爾森相關(guān)系數(shù)，利用式(4)得到貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn) 品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sin/ u(Ii，Ij):
[0091] 式(4)中，％表示在補(bǔ)全所有貧信息用戶的缺失值二維表T中，既對(duì)所述第i個(gè)產(chǎn)品Ii有評(píng)分Su,i，又對(duì)所述第j個(gè)產(chǎn)品Ij有評(píng)分Su, j的貧信息用戶uu; $表示在補(bǔ)全所有貧信息用戶的缺失值二維表T中，所有貧信息用戶對(duì)第i個(gè)產(chǎn)品h的平均評(píng)分;忍表示在補(bǔ)全所有貧信息用戶的缺失值二維表T中，所有貧信息用戶對(duì)第j個(gè)產(chǎn)品I』的平均評(píng)分；
[0092] 步驟2.7、基于加權(quán)皮爾森相關(guān)系數(shù)，利用式(5)計(jì)算得到貧信息用戶Uu對(duì)所述第i 個(gè)產(chǎn)品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sim u(Ii，Ij):
[0094]式(5)中，表示既對(duì)所述第i個(gè)產(chǎn)品1:的有評(píng)分Su>1，又對(duì)所述第j個(gè)產(chǎn)品Ij 有評(píng)分Su, j的貧信息用戶數(shù)目，A是待調(diào)節(jié)參數(shù)，A的具體取值由交叉驗(yàn)證實(shí)驗(yàn)確定；
[0095]步驟三、對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品I」；當(dāng)?shù)趘個(gè)用戶Uv對(duì)第i個(gè)產(chǎn)品Ii和第j 個(gè)產(chǎn)品I調(diào)有評(píng)分SvjPSq，則第V個(gè)用戶Uv即為富信息用戶;計(jì)算富信息用戶Uv對(duì)第i個(gè)產(chǎn) 品Ii與第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sim v(Ii，Ij); Kv彡|u| ;v乒u;
[0096]步驟3.1，基于傳統(tǒng)皮爾森相關(guān)系數(shù)，利用式(6)得到富信息用戶Uv對(duì)第i個(gè)產(chǎn)品h 與第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sin/vdijj):
[0098] 式(6)中，矣表示所有富信息用戶對(duì)第i個(gè)產(chǎn)品h的平均評(píng)分；$表示所有富信息用戶對(duì)第j個(gè)產(chǎn)品L的平均評(píng)分表示既對(duì)第i個(gè)產(chǎn)品1:的有評(píng)分Sv>1，又對(duì)第j 個(gè)產(chǎn)品I j有評(píng)分Sv, j的富信息用戶Uv;
[0099] 步驟3.2、基于加權(quán)皮爾森相關(guān)系數(shù)，利用式(7)計(jì)算得到富信息用戶Uv對(duì)第i個(gè)產(chǎn) 品Ii與第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sim v(Ii，Ij):
[0101] 式(7)中，表示既對(duì)第i個(gè)產(chǎn)品I i的有評(píng)分Su, i，又對(duì)第j個(gè)產(chǎn)品I j有評(píng)分 SU>J的富信息用戶數(shù)目，A'是另一個(gè)待調(diào)節(jié)參數(shù)，A'的具體取值由交叉驗(yàn)證實(shí)驗(yàn)確定；
[0102] 步驟四、利用式(8)進(jìn)行基于貧信息用戶Uu對(duì)第i個(gè)產(chǎn)品h與第j個(gè)產(chǎn)品I」的項(xiàng)目相似度simu(Ii，Ij)，與富信息用戶U v對(duì)第i個(gè)產(chǎn)品Ii與第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度Simv(Ii，Ij) 的項(xiàng)目相似度融合;得到融合相似度sinKh，Ij):
[0103] sim(Ii,Ij) = (l-y ) Xsimu(Ii,Ij)+y Xsimv(Ii,Ij) (8)
[0104] 式(8)中，y是待調(diào)節(jié)參數(shù)，y的具體取值由交叉驗(yàn)證實(shí)驗(yàn)確定；
[0105] 步驟五、根據(jù)所述融合相似度simahlj，利用基于項(xiàng)目的協(xié)同過濾算法一一式 (9)，獲得未評(píng)分產(chǎn)品的所有最終預(yù)測(cè)評(píng)分的降序排序集合;選取所述預(yù)測(cè)評(píng)分的降序排序集合的前N項(xiàng)作為推薦結(jié)果，并推薦給所述貧信息用戶Uu。
[0106] 步驟5.1、當(dāng)用戶Uu對(duì)所述第i個(gè)產(chǎn)品^未真實(shí)產(chǎn)生評(píng)分Su,dt，利用式(9)計(jì)算得到用戶U u對(duì)所述第i個(gè)產(chǎn)品^的最終預(yù)測(cè)評(píng)分值|,;
[0108] 式(9)中，f表示除第i個(gè)產(chǎn)品h外產(chǎn)品集合I內(nèi)的其他所有產(chǎn)品；$表示用戶對(duì)第 i個(gè)產(chǎn)品^真實(shí)產(chǎn)生評(píng)分的所有評(píng)分的平均評(píng)分，即第i個(gè)產(chǎn)品h的平均評(píng)分f的計(jì)算不包括步驟二中通過樸素貝葉斯分類器獲得的預(yù)測(cè)評(píng)分。
[0109] 步驟5.2、重復(fù)步驟5.1，計(jì)算獲得用戶Uu對(duì)所有未真實(shí)產(chǎn)生評(píng)分的最終預(yù)測(cè)評(píng)分 t:并進(jìn)行降序排列，獲得未評(píng)分產(chǎn)品預(yù)測(cè)評(píng)分值的排序集合；
[0110] 步驟5.3、選取所述未評(píng)分項(xiàng)排序集合的前N項(xiàng)作為推薦結(jié)果推薦給所述用戶Uu。
[0111] 針對(duì)本發(fā)明方法進(jìn)行實(shí)驗(yàn)論證，具體包括：
[0112] 1)準(zhǔn)備標(biāo)準(zhǔn)數(shù)據(jù)集
[0113] 本發(fā)明使用GroupLens的MovieLenslOOk數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包括943個(gè)用戶對(duì) 1682部電影的100000條評(píng)分記錄。每個(gè)用戶評(píng)價(jià)過至少20部電影。此外，這個(gè)數(shù)據(jù)集包含每個(gè)電影的流派信息，電影庫中的所有電影共涉及到18種流派，每種流派下的電影個(gè)數(shù)如表3 所示，每個(gè)電影至少涉及到一種流派信息。
[0114] 表3
[0115]
[0116] 2)評(píng)價(jià)指標(biāo)
[0117] 采用均方根誤差(RMSE)作為本實(shí)施例的評(píng)價(jià)指標(biāo)，式（10)。將具有最優(yōu)效果的IFA 算法與其它基準(zhǔn)算法進(jìn)行比較，均方根誤差RMSE通過計(jì)算測(cè)試集中實(shí)際的用戶評(píng)分與對(duì)應(yīng) 項(xiàng)的最終預(yù)測(cè)值之間的偏差度量預(yù)測(cè)的準(zhǔn)確性，RMSE越小，推薦質(zhì)量越高：
[0119] 式（10)中，Su,^測(cè)試集ITest中用戶Uu對(duì)第i個(gè)產(chǎn)品h的實(shí)際評(píng)分，之,為算法計(jì)算得到的用戶Uu對(duì)第i個(gè)產(chǎn)品h的預(yù)測(cè)評(píng)分，|lTest|為測(cè)試集中評(píng)分記錄個(gè)數(shù)。
[0120] 3)IFA算法的參數(shù)選擇
[0121] IFA算法有兩個(gè)參數(shù)控制著算法的結(jié)果，分別是利用加權(quán)皮爾遜相關(guān)系數(shù)計(jì)算富信息用戶與貧信息用戶的項(xiàng)目相似度時(shí)的加權(quán)因子A，基于富信息用戶與貧信息用戶的項(xiàng) 目相似度貢獻(xiàn)權(quán)重y。本發(fā)明中先確定使得Weighted Pearson算法取得最優(yōu)預(yù)測(cè)精度的入，然后用確定的X來調(diào)節(jié)最優(yōu)的Y。
[0122] 3.1)加權(quán)因子入：
[0123] 參數(shù)A對(duì)Weighted Pearson的影響如圖3~圖6所示，由于篇幅限制這里本發(fā)明中只列出了訓(xùn)練集和測(cè)試集比例為〇.3,0.5,0.7和0.9，不同的測(cè)試集1^的產(chǎn)品項(xiàng)目集規(guī)格 Neighbor Size下，即測(cè)試集中的評(píng)分記錄數(shù)目不同時(shí)，參數(shù)A對(duì)算法的影響分析實(shí)驗(yàn)結(jié)果。發(fā)現(xiàn)對(duì)于所有稀疏度等級(jí)的數(shù)據(jù)集，使得Weighted Pearson算法獲得最優(yōu)評(píng)分預(yù)測(cè)精度的入維持在140-200之間。這證實(shí)了較少的富信息用戶數(shù)目不一定意味著項(xiàng)目對(duì)有著較高的相似度。在后續(xù)確定最優(yōu)y的試驗(yàn)中，本發(fā)明將各個(gè)稀疏度數(shù)據(jù)集的A分別設(shè)為180，180，190， 140〇
[0124] 3.2)相似度貢獻(xiàn)權(quán)重y :
[0125] 在確定使得Weighted Pearson算法取得最優(yōu)預(yù)測(cè)精度的A后，本發(fā)明分別展示了 y從0到1變化時(shí)算法的預(yù)測(cè)精度的變化，如圖7~圖10所示。由公式(8)知，當(dāng)y取1時(shí)，IFA 算法轉(zhuǎn)變?yōu)閃eighted Pearson算法：當(dāng)訓(xùn)練集和測(cè)試集比例為0.3時(shí)，我們發(fā)現(xiàn)IFA算法在 Y取0-0.9之間的任意數(shù)，算法效果都優(yōu)于Y取1時(shí)的效果，這充分說明了利用樸素貝葉斯分類器預(yù)測(cè)貧信息用戶評(píng)分項(xiàng)的貧信息用戶評(píng)分項(xiàng)中的缺失值的有效性；當(dāng)訓(xùn)練集和測(cè)試集比例為0.5，0.7和0.9時(shí)算法Y取0.8-0.9之間的任意數(shù)算法IFA算法效果都要優(yōu)于 Weighted Pearson算法，這表明了融合貧信息用戶評(píng)分項(xiàng)可以提升評(píng)分預(yù)測(cè)精度。此外對(duì) 所有稀疏度等級(jí)的數(shù)據(jù)集，T在0.9-0.95時(shí)算法取得最優(yōu)，這也說明雖然貧信息用戶評(píng)分項(xiàng)有助于提升推薦準(zhǔn)確性，但是用戶的實(shí)際評(píng)分項(xiàng)還是為用戶鄰居選擇貢獻(xiàn)最大。
[0126] 4)在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)
[0127] 表4為各個(gè)算法在不同訓(xùn)練/測(cè)試集比例的數(shù)據(jù)集上的RMSE值。每種數(shù)據(jù)集中最好的算法用粗體表示。本發(fā)明表4列出了所提的IFA算法在各種比例下相對(duì)于其它算法的提升，并對(duì)提升求取均值。我們發(fā)現(xiàn)在7種不同稀疏度條件的數(shù)據(jù)集下，所提IFA算法在5種較為稀疏的數(shù)據(jù)集下均優(yōu)于其它所有算法，只在在1個(gè)較為密集的數(shù)據(jù)集下IFA算法略遜于 Cosine Norm算法，在ratio為0.8時(shí)IFA算法和Cosine Norm算法表現(xiàn)相當(dāng)。
[0128]與Pearson算法相比，IFA算法在所有稀疏條件下的效果都優(yōu)于Pearson算法，平均提升精度為3.0%。此外，我們發(fā)現(xiàn)Pearson算法在所有稀疏度條件的數(shù)據(jù)集下的推薦精度都遜于所有其它算法。這表明考慮貧信息用戶的評(píng)分項(xiàng)有助于提升推薦的預(yù)測(cè)精度。
[0129] 表4
[0130]
[0131] 與基于Weighted Pearson的算法相比，IFA算法在所有稀疏度條件下都優(yōu)于 Weighted Pearson算法，精度平均提升為0.8%。特別是當(dāng)訓(xùn)練集和測(cè)試集比例為30%和 40%時(shí)，此時(shí)訓(xùn)練集中的評(píng)分?jǐn)?shù)據(jù)極度稀疏，IFA算法相對(duì)于Weighted Pearson算法的提升分別為1.5%和1.2%，這說明利用項(xiàng)目項(xiàng)目特征對(duì)貧信息用戶評(píng)分項(xiàng)的貧信息用戶評(píng)分項(xiàng) 中的缺失值進(jìn)行預(yù)測(cè)有助于緩解數(shù)據(jù)集的稀疏性問題。另外我們發(fā)現(xiàn)Weighted Pearson在所有稀疏度條件下的效果都優(yōu)于Pearson算法，這說明懲罰貧信息用戶過多的項(xiàng)目對(duì)的相似度有助于提升基于項(xiàng)目最近鄰協(xié)同過濾算法的評(píng)分預(yù)測(cè)精度。
[0132] 與基于Cosine Norm相似度的項(xiàng)目最近鄰協(xié)同過濾算法相比，所提算法在訓(xùn)練集和測(cè)試集比例為30%-70%時(shí)均優(yōu)于Cosine Norm算法，當(dāng)訓(xùn)練集和測(cè)試集比例為90%時(shí)， Cosine Norm算法略遜于所提IFA算法?？傮w來說，Cosine Norm是對(duì)數(shù)據(jù)集稀疏度依賴非常高的算法，當(dāng)數(shù)據(jù)集較為密集時(shí)，算法效果非常好，但是當(dāng)數(shù)據(jù)集極度稀疏時(shí)，該算法幾乎是最差的算法。
[0133]與基于概率矩陣分解(PMF)的算法相比，所提算法在所有數(shù)據(jù)集上均優(yōu)于PMF算法，不過值得一提的是，PMF算法在最為稀疏的一個(gè)數(shù)據(jù)集中的表現(xiàn)僅次于所提IFA算法。
【主權(quán)項(xiàng)】
1. 一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法，其特征是按如下步驟進(jìn)行：步驟一、用二維表T = {U，I，S}表示產(chǎn)品的評(píng)分?jǐn)?shù)據(jù)；所述二維表T中，U={Ur-，Uu，…，U|U|}表示用戶集合，I = {Ir-，Ii，…，I|i|}表示產(chǎn)品集合，S={S(1)…，S(s)，…，S(s)}表示用戶對(duì)產(chǎn)品的評(píng)分集合；所述用戶集合U中，| u |為用戶的總數(shù)目，Uu表示第u個(gè)用戶；1彡u彡| u | ;所述產(chǎn)品集合I 中，I i I為產(chǎn)品的總數(shù)目，h表示第i個(gè)產(chǎn)品；I i I ;所述評(píng)分集合S中，S(s)表示所述評(píng) 分集合中第s個(gè)評(píng)分，且S(1)<~<S (s)<~<S(s); 令第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的評(píng)分為Su, i，且Su, i G S; 對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij;若第u個(gè)用戶Uu對(duì)所述第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij 均有評(píng)分Su,dPSu」，則表示第u個(gè)用戶Uu為富信息用戶；第u個(gè)用戶U u對(duì)第i個(gè)產(chǎn)品h的評(píng)分 Su,i和第u個(gè)用戶Uu對(duì)第j個(gè)產(chǎn)品1」的評(píng)分Su,」均稱為富信息用戶評(píng)分項(xiàng)；| i | ; i乒j ; 對(duì)任意第i個(gè)產(chǎn)品Ii和第j個(gè)產(chǎn)品Ij;若第u個(gè)用戶Uu僅對(duì)所述第i個(gè)產(chǎn)品Ii有評(píng)分Su,i或僅對(duì)第j個(gè)產(chǎn)品L有評(píng)分Su+則表示第u個(gè)用戶Uu為貧信息用戶；第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品 h的評(píng)分Su>1和第u個(gè)用戶Uu對(duì)第j個(gè)產(chǎn)品I」的評(píng)分Sy均稱為貧信息用戶評(píng)分項(xiàng);并有：當(dāng)?shù)趗個(gè)用戶Uu僅對(duì)所述第j個(gè)產(chǎn)品I」有評(píng)分Sy時(shí)，第u個(gè)用戶Uu對(duì)第i個(gè)產(chǎn)品h的評(píng)分 Su,d#為貧信息用戶評(píng)分項(xiàng)中的缺失值；令所有產(chǎn)品具有的項(xiàng)目特征集合為G = {gl…，gn，…，g|n|}，gn表示所有產(chǎn)品的第n個(gè)項(xiàng) 目特征;令貧信息用戶評(píng)分項(xiàng)中的缺失值Su>1所代表的第i個(gè)產(chǎn)品h的項(xiàng)目特征集合為 Gi= {gi,r"，gi,v，gi, |n|} ;gi,n表示第i個(gè)產(chǎn)品Ii在第n個(gè)項(xiàng)目特征gn上的特征值;若第 i個(gè)產(chǎn)品Ii具有第n個(gè)項(xiàng)目特征gn，則gi,n=l;否則，gi,n = 0;Kn彡|n| ; 步驟二、假設(shè)第u個(gè)用戶Uu為貧信息用戶；第u個(gè)用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分SU>1S 貧信息用戶評(píng)分項(xiàng)中的缺失值;計(jì)算貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品^與所述第j個(gè)產(chǎn)品込的項(xiàng)目相似度simu(Ii, Ij); 步驟2.1、利用式（1)計(jì)算獲得貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分項(xiàng)中的缺失值 Su,i為S(s)時(shí)的先驗(yàn)概率P(S(S)):式（1)中，I(u)表示貧信息用戶Uu對(duì)所述產(chǎn)品集合I中所有已評(píng)分的產(chǎn)品集合；item表示所述已評(píng)分產(chǎn)品集合I(u)中的任一產(chǎn)品；|I(U)|表示所述已評(píng)分產(chǎn)品集合I(u)中的產(chǎn)品數(shù)目； Su,ltem表示貧信息用戶Uu對(duì)所述已評(píng)分產(chǎn)品集合I(u)中產(chǎn)品item的評(píng)分； {itemGl(u)|Su,ltem=S(s)}|表示貧信息用戶U u在所述已評(píng)分產(chǎn)品集合I(u)中評(píng)分Su,ltem 為S(s)的產(chǎn)品數(shù)目；步驟2.2、利用式（2)計(jì)算獲得貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h的評(píng)分項(xiàng)中的缺失值 Su,i為S(s)時(shí)的似然函數(shù)P(gn| S(s)):式⑵中，gltem,n表示貧信息用戶仏對(duì)所述已評(píng)分產(chǎn)品集合I(u)中的產(chǎn)品item在第n個(gè)項(xiàng) 目特征gn上的特征值；| {itemG I(u)，gi,n=l I Su,item=S(S) ngitem,n = gi,n} I 表示貧信息用戶Uu 對(duì)所述已評(píng)分的產(chǎn)品集合I(u)中的產(chǎn)品item中評(píng)分Su,ltemSS (s)，且貧信息用戶Uu對(duì)產(chǎn)品 item在第n個(gè)項(xiàng)目特征gn上的特征值gitem,n與第i個(gè)產(chǎn)品Ii在第n個(gè)項(xiàng)目特征g n上的特征值 g1>n取值均為T的項(xiàng)目個(gè)數(shù)；步驟2.3、利用式(3)計(jì)算獲得貧信息用戶1]11對(duì)所述第1個(gè)產(chǎn)品11的評(píng)分511, 1為5(3)時(shí)的概率 P(S(s)|li):步驟2.4、重復(fù)步驟2.1-步驟2.3，從而獲得貧信息用戶Uu對(duì)第i個(gè)產(chǎn)品Ii的缺失值Su, i分別為S(1)…，S(s)，…，S(s)時(shí)的概率，并將最大概率所對(duì)應(yīng)的評(píng)分作為貧信息用戶U u對(duì)第i個(gè) 產(chǎn)品^的缺失值Su,:的預(yù)測(cè)評(píng)分；步驟2.5、重復(fù)步驟2.4,預(yù)測(cè)所有貧信息用戶評(píng)分項(xiàng)中的缺失值，從而補(bǔ)全所述二維表 T中所有貧信息用戶的缺失值；步驟2.6、基于傳統(tǒng)皮爾森相關(guān)系數(shù)，利用式(4)得到貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品h 與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sin/udijj):式⑷中，表示在補(bǔ)全所有貧信息用戶的缺失值二維表T中，既對(duì)所述第i 個(gè)產(chǎn)品Ii有評(píng)分Su, i，又對(duì)所述第j個(gè)產(chǎn)品I j有評(píng)分Su, j的貧信息用戶Uu;瓦表示在補(bǔ)全所有貧信息用戶的缺失值二維表T中，所有貧信息用戶對(duì)第i個(gè)產(chǎn)品h的平均評(píng)分;$表示在補(bǔ) 全所有貧信息用戶的缺失值二維表T中，所有貧信息用戶對(duì)第j個(gè)產(chǎn)品I』的平均評(píng)分；步驟2.7、基于加權(quán)皮爾森相關(guān)系數(shù)，利用式(5)計(jì)算得到貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn) 品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度simu(Ii，Ij):式(5)中，& n% |表示既對(duì)所述第i個(gè)產(chǎn)品Ii的有評(píng)分Su, i，又對(duì)所述第j個(gè)產(chǎn)品Ij有評(píng) 分Sy的貧信息用戶數(shù)目，A是待調(diào)節(jié)參數(shù)；步驟三、假設(shè)第v個(gè)用戶Uv即為富信息用戶;計(jì)算富信息用戶Uv對(duì)所述第i個(gè)產(chǎn)品1:與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度simv(Ii，Ij);Kv彡|u| ;v乒u; 步驟3.1，基于傳統(tǒng)皮爾森相關(guān)系數(shù)，利用式(6)得到富信息用戶Uv對(duì)所述第i個(gè)產(chǎn)品h 與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度sin/vdijj):式(6)中，％ n%表示既對(duì)所述第i個(gè)產(chǎn)品^的有評(píng)分Sv>1，又對(duì)所述第j個(gè)產(chǎn)品込有評(píng)分Sq的富信息用戶U、；完表示所有富信息用戶對(duì)第i個(gè)產(chǎn)品h的平均評(píng)分；$表示所有富信息用戶對(duì)第j個(gè)產(chǎn)品込的平均評(píng)分；步驟3.2、基于加權(quán)皮爾森相關(guān)系數(shù)，利用式(7)計(jì)算得到富信息用戶Uv對(duì)所述第i個(gè)產(chǎn) 品Ii與所述第j個(gè)產(chǎn)品Ij的項(xiàng)目相似度simv(Ii，Ij):式⑴中，表示既對(duì)所述第i個(gè)產(chǎn)品1:的有評(píng)分Su>1，又對(duì)所述第j個(gè)產(chǎn)品I洧評(píng) 分Sy的富信息用戶數(shù)目，A'是另一個(gè)待調(diào)節(jié)參數(shù)；步驟四、利用式(8)進(jìn)行基于貧信息用戶Uu對(duì)所述第i個(gè)產(chǎn)品1:與所述第j個(gè)產(chǎn)品I」的項(xiàng) 目相似度simuaulj)，與富信息用戶Uv對(duì)所述第i個(gè)產(chǎn)品1:與所述第j個(gè)產(chǎn)品込的項(xiàng)目相似度sim v(Ii，Ij)的項(xiàng)目相似度融合;得到融合相似度sim(Ii，I j): sim(Ii,Ij) = (l-y ) Xsimu(Ii,Ij)+y Xsimv(Ii,Ij) (8) 式(8)中，y是待調(diào)節(jié)參數(shù)；步驟五、根據(jù)所述融合相似度simahlj，利用基于項(xiàng)目的協(xié)同過濾算法，獲得未評(píng)分產(chǎn)品的所有最終預(yù)測(cè)評(píng)分的降序排序集合;選取所述預(yù)測(cè)評(píng)分的降序排序集合的前N項(xiàng) 作為推薦結(jié)果，并推薦給所述貧信息用戶U u。
【文檔編號(hào)】G06Q30/06GK106055715SQ201610547148
【公開日】2016年10月26日
【申請(qǐng)日】2016年7月12日
【發(fā)明人】劉業(yè)政, 宋穎欣, 王錦坤, 姜元春, 孫見山, 孫春華
【申請(qǐng)人】合肥工業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉業(yè)政;宋穎欣;王錦坤;姜元春;孫見山;孫春華;
技術(shù)所有人：合肥工業(yè)大學(xué);
我是此專利的發(fā)明人

上一篇：網(wǎng)站自動(dòng)生成方法和設(shè)備的制造方法
上一篇：一種從ria頁面中抓取云計(jì)算數(shù)據(jù)的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

項(xiàng)目特征相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于產(chǎn)品項(xiàng)目特征擴(kuò)充的最近鄰協(xié)同過濾方法