一種預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法
【專利摘要】本發(fā)明公開(kāi)了一種預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法,包括步驟:根據(jù)社交網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)確定社區(qū)個(gè)數(shù);對(duì)每條邊進(jìn)行Gibbs抽樣,確定每條邊所屬的社區(qū);根據(jù)抽樣結(jié)果,確定每個(gè)節(jié)點(diǎn)所屬的社區(qū);確定可能影響用戶行為的各種屬性;根據(jù)用戶各種屬性的分布情況,劃分用戶的角色數(shù)目;根據(jù)用戶屬性,利用EM迭代的方式,為每個(gè)用戶分配一個(gè)最可能的角色;根據(jù)用戶所屬的社區(qū)、用戶所屬的角色和所述用戶所處社區(qū)和不同角色的用戶發(fā)生某種行為的可能性計(jì)算所述用戶做出某個(gè)行為的可能性。本發(fā)明具有如下優(yōu)點(diǎn):充分挖掘社交網(wǎng)絡(luò)的潛在信息,對(duì)用戶行為預(yù)測(cè)的精度高。
【專利說(shuō)明】
一種預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及在線社交網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的 方法。
【背景技術(shù)】
[0002] 在線社交網(wǎng)絡(luò)已經(jīng)深入人們生活的方方面面,在很大程度上改變了人們的生產(chǎn)和 生活方式。許多在線社交網(wǎng)絡(luò)(比如Facebook、Twitter等)涉及面廣、影響范圍大、并且在近 年中發(fā)展迅速。世界各國(guó)的人們利用社交網(wǎng)絡(luò)進(jìn)行通信、購(gòu)物、娛樂(lè)等。有效預(yù)測(cè)在線社交 網(wǎng)絡(luò)用戶行為可以為在線廣告和推薦系統(tǒng)提供技術(shù)支撐,具有廣泛的應(yīng)用領(lǐng)域。比如某些 購(gòu)物網(wǎng)站,如果可以預(yù)測(cè)出用戶下一步將要購(gòu)買什么類型的商品,就可以針對(duì)這個(gè)用戶做 定向廣告投放,向他/她推薦這個(gè)類型的商品。另外,對(duì)于在線課程網(wǎng)站(比如M00C),如果能 夠預(yù)測(cè)出某個(gè)用戶在下個(gè)學(xué)期將會(huì)選擇哪個(gè)方面的課程,就可以針對(duì)這個(gè)用戶推薦相關(guān)主 題的課程,以方便用戶選擇。
[0003] 當(dāng)前,預(yù)測(cè)用戶行為的方法主要集中在以下幾個(gè)方面。第一種是利用用戶屬性來(lái) 對(duì)用戶行為進(jìn)行預(yù)測(cè)。利用用戶結(jié)構(gòu)屬性信息,來(lái)預(yù)測(cè)用戶行為的。其首先利用領(lǐng)域知識(shí)定 義可能對(duì)用戶行為有影響的各種結(jié)構(gòu)屬性(比如用戶節(jié)點(diǎn)的度),然后根據(jù)這些屬性來(lái)賦予 用戶一個(gè)角色。該方法假定不同角色的用戶行為習(xí)慣不同,因此可以根據(jù)用戶分配的角色 來(lái)計(jì)算用戶行為的可能性,繼而預(yù)測(cè)用戶行為。第二種是利用用戶間影響力來(lái)對(duì)用戶行為 進(jìn)行預(yù)測(cè)。比將用戶的"鄰居"以及用戶所在的社區(qū)對(duì)用戶的影響力進(jìn)行量化,然后建立一 個(gè)因子圖模型,根據(jù)已有數(shù)據(jù)算出各種影響力因子的權(quán)重,并利用權(quán)重值去預(yù)測(cè)用戶未來(lái) 的行為。這些方法的一個(gè)共同的不足之處在于只利用了部分信息來(lái)對(duì)用戶行為進(jìn)行建模和 預(yù)測(cè),沒(méi)有充分挖掘社交網(wǎng)絡(luò)的潛在信息。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明旨在至少解決上述技術(shù)問(wèn)題之一。
[0005] 為此,本發(fā)明的一個(gè)目的在于提出一種預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法。
[0006] 為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例公開(kāi)了一種預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方 法,所述方法的輸入為社交網(wǎng)絡(luò)6=以4 4),所述方法的輸出為用戶行為概率矩陣?= [PU]mx|A|,其中,V是社交網(wǎng)絡(luò)的節(jié)點(diǎn),E是節(jié)點(diǎn)之間的邊,A是用戶的歷史行為記錄,| V|是用 戶節(jié)點(diǎn)數(shù),|a|是行為空間的大小,pu是每個(gè)用戶做出每個(gè)行為的概率,滿足二:U 所述方法包括以下步驟:S1:根據(jù)社交網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)確定社區(qū)個(gè)數(shù);S2:對(duì)每條邊進(jìn)行 G i bb s抽樣,確定每條邊所屬的社區(qū);S3:根據(jù)抽樣結(jié)果,確定每個(gè)節(jié)點(diǎn)所屬的社區(qū);S4:確定 可能影響用戶行為的各種屬性;S5:根據(jù)用戶各種屬性的分布情況,劃分用戶的角色數(shù)目; S6:根據(jù)用戶屬性,利用EM迭代的方式,為每個(gè)用戶分配一個(gè)最可能的角色;S7:計(jì)算某個(gè)用 戶所處社區(qū)和不同角色的用戶發(fā)生某種行為的可能性;以及S8:根據(jù)節(jié)點(diǎn)所屬的社區(qū)、用戶 所屬的角色和所述用戶所處社區(qū)和不同角色的用戶發(fā)生某種行為的可能性計(jì)算所述用戶 做出某個(gè)行為的可能性Pi,J。
[0007] 根據(jù)本發(fā)明實(shí)施例的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法,充分挖掘社交網(wǎng)絡(luò)的潛 在信息,對(duì)用戶行為預(yù)測(cè)的精度高。
[0008] 另外,根據(jù)本發(fā)明上述實(shí)施例的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法,還可以具有 如下附加的技術(shù)特征:
[0009] 進(jìn)一步地,在步驟S1中,根據(jù)以下公式確定社區(qū)個(gè)數(shù):
[0011] 其中,E表示全體邊的集合,&表示某一條邊,p(ei)表示每條邊的生成概率,L(E)表 示所述社交網(wǎng)絡(luò)中所有邊的聯(lián)合概率的對(duì)數(shù)。
[0012] 進(jìn)一步地,步驟S2進(jìn)一步包括:
[0013] S201:隨機(jī)為每條邊分配一個(gè)社區(qū);
[0014] S202:對(duì)每條邊進(jìn)行Gibbs抽樣,按照以下公式抽樣所屬社區(qū):
[0016] 其中,v和i分別表示節(jié)點(diǎn)和邊的序數(shù),Zv>1表示第v個(gè)用戶和第i條邊的所屬社區(qū),C 表示社區(qū)集合,c表示某個(gè)社區(qū),n表示邊的個(gè)數(shù),|_ |表示基數(shù),0和a分別為節(jié)點(diǎn)對(duì)社區(qū)的多 項(xiàng)分布和社區(qū)對(duì)邊的多項(xiàng)分布的狄利克雷先驗(yàn)。
[0017] 進(jìn)一步地,在步驟S3中,根據(jù)以下公式確定每個(gè)節(jié)點(diǎn)所屬的社區(qū):
[0019] 其中,¥表示節(jié)點(diǎn)v屬于社區(qū)c的可能性。
[0020] 進(jìn)一步地,在步驟S4中,選取節(jié)點(diǎn)的度、鄰接三角形、用戶發(fā)文年份和用戶發(fā)文數(shù) 量作為用戶屬性。
[0021 ] 進(jìn)一步地,步驟S5進(jìn)一步包括:
[0022] S501:設(shè)定所述用戶屬性符合正態(tài)分布,每個(gè)分布都有其均值(i〇和標(biāo)準(zhǔn)差(〇);
[0023] S502:通過(guò)以下公式計(jì)算用戶所有屬性的后驗(yàn)概率:
[0025]其中,0表示用戶對(duì)角色的多項(xiàng)分布,h表示屬性的序數(shù),r表示角色的序數(shù),Xv,h表 示第V個(gè)用戶的第h個(gè)屬性的值,, h和Or, h分別表示第r個(gè)角色的第h個(gè)屬性的均值和標(biāo)準(zhǔn) 差,L(X)表示所有用戶屬性的后驗(yàn)概率。
[0026] 進(jìn)一步地,在步驟S6中,所述EM迭代進(jìn)一步包括:在E步,用以下公式計(jì)算每個(gè)用戶 屬于某個(gè)角色的可能性:
[0028]在M步,用以下公式來(lái)更新屬性的每個(gè)正態(tài)分布的均值和方差:
[0031] 其中,0^表示節(jié)點(diǎn)v屬于角色r的可能性。
[0032] 進(jìn)一步地,在步驟S7中,利用下式計(jì)算出所處某個(gè)社區(qū)和某個(gè)角色的用戶發(fā)生某 種行為的可能性:
[0034] 其中,y表示這個(gè)分布的狄利克雷先驗(yàn),pT,r,m表示所屬某個(gè)社區(qū)和某個(gè)角色的用 戶做出某個(gè)行為的可能性。
[0035] 進(jìn)一步地,在步驟S8中,采用下式算出第i個(gè)用戶做出第j個(gè)行為的可能性Pl,J: Pu = nA,rPc;r,j。
[0036] 本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0037] 本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得 明顯和容易理解,其中:
[0038] 圖1是本發(fā)明一個(gè)實(shí)施例的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法的流程圖。
【具體實(shí)施方式】
[0039] 下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附 圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
[0040] 參照下面的描述和附圖,將清楚本發(fā)明的實(shí)施例的這些和其他方面。在這些描述 和附圖中,具體公開(kāi)了本發(fā)明的實(shí)施例中的一些特定實(shí)施方式,來(lái)表示實(shí)施本發(fā)明的實(shí)施 例的原理的一些方式,但是應(yīng)當(dāng)理解,本發(fā)明的實(shí)施例的范圍不受此限制。相反,本發(fā)明的 實(shí)施例包括落入所附加權(quán)利要求書(shū)的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0041 ]本專利擬解決的問(wèn)題可以形式化地定義如下:
[0042]輸入:社交網(wǎng)絡(luò)G=(V,E,A)。其中,V是社交網(wǎng)絡(luò)的節(jié)點(diǎn)。節(jié)點(diǎn)可以是異構(gòu)的,包括 用戶節(jié)點(diǎn)、圖片節(jié)點(diǎn)、商品節(jié)點(diǎn)等。E是節(jié)點(diǎn)之間的邊。因?yàn)楣?jié)點(diǎn)的異構(gòu)性,所以邊也可以是 異構(gòu)的,比如用戶與用戶之間的邊、用戶與商品之間的邊,等等。A是用戶的歷史行為記錄。
[0043]輸出:用戶行為概率矩陣P=[pi,j]|v|x|A| .其中|v|是用戶節(jié)點(diǎn)數(shù),|A|是行為空間 的大小,PU是每個(gè)用戶做出每個(gè)行為的概率,滿足EgiPU = 1。
[0044] 本專利綜合考慮社交網(wǎng)絡(luò)潛在結(jié)構(gòu)和用戶屬性對(duì)用戶行為的影響來(lái)求解行為概 率矩陣P。
[0045] 以下結(jié)合附圖描述根據(jù)本發(fā)明實(shí)施例的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法。
[0046] 請(qǐng)參考圖1,一種預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法,包括以下步驟:
[0047] S1:根據(jù)社交網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)確定社區(qū)個(gè)數(shù)。
[0048] 在本發(fā)明的一個(gè)實(shí)施例中,對(duì)于這個(gè)學(xué)術(shù)網(wǎng)絡(luò),如何確定社區(qū)的個(gè)數(shù)是一個(gè)重要 的問(wèn)題。本專利采用以下公式來(lái)確定社區(qū)個(gè)數(shù)是否合理。
[0050]其中E表示全體邊的集合,&表示某一條邊,p(ei)表示在本專利所描述的模型中, 每條邊的生成概率。L(E)表示社交網(wǎng)絡(luò)中所有邊的聯(lián)合概率的對(duì)數(shù)。先設(shè)定一個(gè)候選社區(qū) 數(shù),然后根據(jù)本發(fā)明所述方法確定每個(gè)節(jié)點(diǎn)所屬的社區(qū),計(jì)算出各條邊的概率。L(E)值越 大,說(shuō)明社區(qū)數(shù)越合理。
[0051 ] S2:對(duì)每條邊進(jìn)行Gibbs抽樣,確定每條邊所屬的社區(qū)。
[0052]在本發(fā)明的一個(gè)實(shí)施例中,首先隨機(jī)為每條邊分配一個(gè)社區(qū),然后使用吉布斯抽 樣的方法循環(huán)確定每條邊所屬的社區(qū)。每次按照以下公式來(lái)抽樣所屬社區(qū)。
[0054]其中,v和i分別表示節(jié)點(diǎn)和邊的序數(shù),zv>1表示第v個(gè)用戶和第i條邊的所屬社區(qū),C 表示社區(qū)集合,c表示某個(gè)社區(qū),n表示邊的個(gè)數(shù),|_ |表示基數(shù),假設(shè)每個(gè)節(jié)點(diǎn)對(duì)所有社區(qū)有 一個(gè)多項(xiàng)分布,每個(gè)社區(qū)對(duì)所有邊有一個(gè)多項(xiàng)分布,0和a分別是這兩個(gè)分布的狄利克雷先 驗(yàn),其值由人工指定。在本發(fā)明的一個(gè)示例中,0設(shè)為0.1,a設(shè)為0.Old和i分別表示用戶和 邊的序數(shù),每次根據(jù)其他邊的抽樣結(jié)果對(duì)該邊進(jìn)行抽樣。n表示邊的個(gè)數(shù),|_|表示基數(shù)。
[0055] S3:根據(jù)抽樣結(jié)果,確定每個(gè)節(jié)點(diǎn)所屬的社區(qū)。
[0056] 在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)步驟S2的抽樣結(jié)果,利用以下公式計(jì)算出每個(gè)節(jié) 點(diǎn)針對(duì)所有社區(qū)的多項(xiàng)分布。
[0058] 其中少v,c是節(jié)點(diǎn)
v屬于社區(qū)c的可能性。
[0059] S4:確定可能影響用戶行為的各種屬性。
[0060] 在本發(fā)明的一個(gè)實(shí)施例中,用戶具有各種屬性,有的屬性會(huì)在很大程度上影響用 戶的行為,另外用戶的行為習(xí)慣也會(huì)通過(guò)屬性表現(xiàn)出來(lái)。因此要準(zhǔn)確預(yù)測(cè)用戶行為,必須篩 選出與用戶行為關(guān)系比較大的屬性。本例中采用的屬性包含用戶的結(jié)構(gòu)屬性和用戶的各種 自然屬性。本發(fā)明的實(shí)施例選取節(jié)點(diǎn)的度、鄰接三角形、用戶發(fā)文年份和用戶發(fā)文數(shù)量作為 用戶屬性。
[0061] S5:根據(jù)用戶各種屬性的分布情況,劃分用戶的角色數(shù)目。
[0062] 在本發(fā)明的一個(gè)實(shí)施例中,由于用戶屬性值既有可能是離散的,也有可能是連續(xù) 的,其分布通常也不是平均分布,而是局部密集的,所以可以根據(jù)用戶屬性值將其歸為若干 類。本專利假設(shè)其服從正態(tài)分布,每個(gè)分布都有其均值(y)和標(biāo)準(zhǔn)差(〇)。本專利采用下式來(lái) 計(jì)算用戶所有屬性的后驗(yàn)概率。
[0064]本發(fā)明的實(shí)施例假設(shè)每個(gè)用戶對(duì)角色有一個(gè)多項(xiàng)分布,用0表示。其中,h表示屬性 的序數(shù),r表示角色的序數(shù),Xv,h表示第v個(gè)用戶的第h個(gè)屬性的值,1^和(^分別表示第^^ 角色的第h個(gè)屬性的均值和標(biāo)準(zhǔn)差,L(X)表示所有用戶屬性的后驗(yàn)概率,其值越大,說(shuō)明所 選的角色個(gè)數(shù)越合理。
[0065] S6:根據(jù)用戶屬性,利用EM迭代的方式,為每個(gè)用戶分配一個(gè)最可能的角色。
[0066]在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)用戶屬性,利用EM迭代的方式,確定每個(gè)用戶對(duì)于 承擔(dān)每種角色的可能性。在E步,用以下公式計(jì)算每個(gè)用戶屬于某個(gè)角色的可能性:
[0068]在M步,用以下公式來(lái)更新屬性的每個(gè)正態(tài)分布的均值和方差:
[0071 ]其中,0v,r表示節(jié)點(diǎn)v屬于角色r的可能性。
[0072] S7:計(jì)算某個(gè)用戶所處某個(gè)社區(qū)和某個(gè)角色的用戶發(fā)生某種行為的可能性。
[0073] 在本發(fā)明的一個(gè)實(shí)施例中,用戶所處社區(qū)和所屬角色都會(huì)對(duì)用戶行為有一定影響 力,利用下式計(jì)算出所處社區(qū)和不同角色的用戶發(fā)生某種行為的可能性。
[0075] 本發(fā)明的實(shí)施例假設(shè)用戶的角色和社區(qū)對(duì)于用戶的行為有一個(gè)多項(xiàng)分布,y表示 這個(gè)分布的狄利克雷先驗(yàn),口^^表示所屬某個(gè)社區(qū)和某個(gè)角色的用戶做出某個(gè)行為的可能 性。
[0076] S8:根據(jù)節(jié)點(diǎn)所屬的社區(qū)、用戶所屬的角色和所述用戶所處社區(qū)和不同角色的用 戶發(fā)生某種行為的可能性計(jì)算所述用戶做出某個(gè)行為的可能性p 1;J。
[0077] 在本發(fā)明的一個(gè)實(shí)施例中,利用步驟S3、S6和S7得出的結(jié)果,采用下式算出需要求 解的最終結(jié)果Pi, j。
[0078] pij = (pi,c〇i,rPc.r.j^
[0079] 本發(fā)明實(shí)施例的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法的優(yōu)越性在兩組真實(shí)數(shù)據(jù)中 得到了驗(yàn)證。第一組是學(xué)術(shù)網(wǎng)絡(luò),數(shù)據(jù)來(lái)源于http://aminer.org,包含1765個(gè)用戶節(jié)點(diǎn), 13415條邊和7233個(gè)行為。第二組數(shù)據(jù)是新浪微博網(wǎng)絡(luò),包含1776950個(gè)用戶,308489739條 邊和24055810個(gè)行為(包括發(fā)帖和轉(zhuǎn)發(fā))。實(shí)驗(yàn)結(jié)果表明,本專利所述方法比傳統(tǒng)方法準(zhǔn)確 度高出大約7 %至將近40 % (隨數(shù)據(jù)集不同而有所不同)。
[0080] 另外,本發(fā)明實(shí)施例的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法的其它構(gòu)成以及作用對(duì) 于本領(lǐng)域的技術(shù)人員而言都是已知的,為了減少冗余,不做贅述。
[0081] 在本說(shuō)明書(shū)的描述中,參考術(shù)語(yǔ)"一個(gè)實(shí)施例"、"一些實(shí)施例"、"示例"、"具體示 例"、或"一些示例"等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特 點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書(shū)中,對(duì)上述術(shù)語(yǔ)的示意性表述不 一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何 的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
[0082]盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,本領(lǐng)域的普通技術(shù)人員可以理解:在不 脫離本發(fā)明的原理和宗旨的情況下可以對(duì)這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本 發(fā)明的范圍由權(quán)利要求及其等同限定。
【主權(quán)項(xiàng)】
1. 一種預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法,其特征在于,所述方法的輸入為社交網(wǎng)絡(luò)G = (V,E,A),所述方法的輸出為用戶行為概率矩陣P=[pi,j] |v|x|a|,其中,V是社交網(wǎng)絡(luò)的節(jié) 點(diǎn),E是節(jié)點(diǎn)之間的邊,A是用戶的歷史行為記錄,|V|是用戶節(jié)點(diǎn)數(shù),|Α|是行為空間的大小, Pl,j是每個(gè)用戶做出每個(gè)行為的概率,滿足Eg1Pu = 1;所述方法包括以下步驟: SI:根據(jù)社交網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)確定社區(qū)個(gè)數(shù); S2:對(duì)每條邊進(jìn)行Gibbs抽樣,確定每條邊所屬的社區(qū); S3:根據(jù)抽樣結(jié)果,確定每個(gè)節(jié)點(diǎn)所屬的社區(qū); S4:確定可能影響用戶行為的各種屬性; S5:根據(jù)用戶各種屬性的分布情況,劃分用戶的角色數(shù)目; S6:根據(jù)用戶屬性,利用EM迭代的方式,為每個(gè)用戶分配一個(gè)最可能的角色; S7:計(jì)算某個(gè)用戶所處社區(qū)和不同角色的用戶發(fā)生某種行為的可能性;以及 S8:根據(jù)節(jié)點(diǎn)所屬的社區(qū)、用戶所屬的角色和所述用戶所處社區(qū)和不同角色的用戶發(fā) 生某種行為的可能性計(jì)算所述用戶做出某個(gè)行為的可能性P 1,j。2. 根據(jù)權(quán)利要求1所述的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法,其特征在于,在步驟Sl 中,根據(jù)以下公式確定社區(qū)彳1其中,E表不全體邊的集合,ei表不某一條邊,p (ei)表不每條邊的生成概率,L(E)表不所 述社交網(wǎng)絡(luò)中所有邊的聯(lián)合概率的對(duì)數(shù)。3. 根據(jù)權(quán)利要求2所述的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法,其特征在于,步驟S2進(jìn)一 步包括: S201:隨機(jī)為每條邊分配一個(gè)社區(qū); S202:對(duì)每條邊進(jìn)行Gibbs抽樣,按照以下公式抽樣所屬社區(qū):其中,V和i分別表示節(jié)點(diǎn)和邊的序數(shù),Zv,i表示第V個(gè)用戶和第i條邊的所屬社區(qū),C表示 社區(qū)集合,c表示某個(gè)社區(qū),η表示邊的個(gè)數(shù),Γ I表示基數(shù),β和α分別為節(jié)點(diǎn)對(duì)社區(qū)的多項(xiàng)分 布和社區(qū)對(duì)邊的多項(xiàng)分布的狄利克雷先驗(yàn)。4. 根據(jù)權(quán)利要求3所述的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法,其特征在于,在步驟S3 中,根據(jù)以下公式確定每個(gè)節(jié)點(diǎn)所屬的社區(qū): 其中,識(shí)^(:表示節(jié)點(diǎn)V屬于社區(qū)c的可能性。5. 根據(jù)權(quán)利要求4所述的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法,其特征在于,在步驟S4 中,選取節(jié)點(diǎn)的度、鄰接三角形、用戶發(fā)文年份和用戶發(fā)文數(shù)量作為用戶屬性。6. 根據(jù)權(quán)利要求5所述的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法,其特征在于,步驟S5進(jìn)一 步包括: S501:設(shè)定所述用戶屬性符合正態(tài)分布,每個(gè)分布都有其均值(μ)和標(biāo)準(zhǔn)差(〇); S502:通過(guò)以下公式計(jì)算用戶所有屬性的后驗(yàn)概率:其中,Θ表示用戶對(duì)角色的多項(xiàng)分布,h表示屬性的序數(shù),r表示角色的序數(shù),Xv,h表示第V 個(gè)用戶的第h個(gè)屬性的值,,郝〇r, h分別表示第r個(gè)角色的第h個(gè)屬性的均值和標(biāo)準(zhǔn)差,L (X) 表示所有用戶屬性的后驗(yàn)概率。7. 根據(jù)權(quán)利要求6所述的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法,其特征在于,在步驟S6 中,所述EM迭代進(jìn)一步包括: 在E步,用以下公式計(jì)算每個(gè)用戶屬于某個(gè)角色的可能性:在M步,用以下公式來(lái)更新屬性的每個(gè)正態(tài)分布的均值和方差: 其中,0^表示節(jié)點(diǎn)V屬于角色r的可能性。8. 根據(jù)權(quán)利要求7所述的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法,其特征在于,在步驟S7 中,利用下式計(jì)算出所處某個(gè)社岡和某個(gè)角色的用戶發(fā)牛某種行為的可能性:其中,γ表示這個(gè)分布的狄利克雷先驗(yàn),Py,m表示所屬某個(gè)社區(qū)和某個(gè)角色的用戶做 出某個(gè)行為的可能性。9. 根據(jù)權(quán)利要求8所述的預(yù)測(cè)在線社交網(wǎng)絡(luò)用戶行為的方法,其特征在于,在步驟S8 中,采用下式算出第i個(gè)用戶做出第j個(gè)行為的可能性P 1,j:
【文檔編號(hào)】G06Q50/00GK105894387SQ201610203132
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2016年4月1日
【發(fā)明人】韓矞, 唐杰, 劉德兵
【申請(qǐng)人】清華大學(xué)