本發(fā)明涉及數(shù)據(jù)挖掘、社交網(wǎng)絡(luò)分析領(lǐng)域,涉及用戶關(guān)系分析,尤其是一種面向社交網(wǎng)絡(luò)的鏈接預(yù)測(cè)方法。
背景技術(shù):
隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展和互聯(lián)網(wǎng)的迅速普及,社交網(wǎng)絡(luò)得到了越來(lái)越多人的參與和關(guān)注。近幾年來(lái),社交網(wǎng)站已逐漸成為信息傳播與分享的重要途徑,用戶留下的相關(guān)信息讓社交網(wǎng)絡(luò)成為一個(gè)巨大的信息平臺(tái),對(duì)這些海量數(shù)據(jù)的挖掘成為了研究熱點(diǎn)。其中,對(duì)于社交網(wǎng)絡(luò)中的用戶關(guān)系分析的研究,可以幫助人們更好地解釋網(wǎng)絡(luò)結(jié)構(gòu)的演化與發(fā)現(xiàn)。
現(xiàn)階段,對(duì)于社交網(wǎng)絡(luò)中的用戶關(guān)系分析有著不同方面的研究,主要包括用戶關(guān)系預(yù)測(cè)以及用戶關(guān)系強(qiáng)度等方面的研究,所使用的方法包括基于節(jié)點(diǎn)相似度的分析,基于概率模型的分析以及基于最大似然估計(jì)的分析。其中,基于節(jié)點(diǎn)相似度的分析,它存在一個(gè)假設(shè)前提,即任意兩個(gè)不相連的節(jié)點(diǎn)越相似,越可能產(chǎn)生鏈接。例如:共同鄰居指標(biāo)(CN)、節(jié)點(diǎn)鄰居類(lèi)型的優(yōu)先鏈接指標(biāo)(PA)、Adamic/Adar指標(biāo)(AA)、Jaccard系數(shù)、Katz等;基于概率模型的分析,主要是通過(guò)構(gòu)建一個(gè)含一組可調(diào)參數(shù)的模型,然后采用優(yōu)化策略找到最優(yōu)的參數(shù)值,從而使得所得到的模型能夠很好地重現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)和關(guān)系特征。例如:Sarukkai等人在《基于馬爾可夫鏈的鏈接預(yù)測(cè)和路徑分析》(Link Prediction and Path analysis using Markov chains)中應(yīng)用馬爾科夫鏈對(duì)網(wǎng)絡(luò)進(jìn)行路徑分析和鏈路預(yù)測(cè);基于最大似然估計(jì)的分析,它比較適用于有層次結(jié)構(gòu)的網(wǎng)絡(luò)中進(jìn)行計(jì)算,例如:Clauset等人在《網(wǎng)絡(luò)的層次結(jié)構(gòu)和缺失鏈接預(yù)測(cè)》(Hierarchical Structure and the Prediction of Missing Links in Networks)中通過(guò)建立一個(gè)網(wǎng)絡(luò)層次結(jié)構(gòu)模型,針對(duì)具有明顯層次特征的網(wǎng)絡(luò)進(jìn)行鏈接預(yù)測(cè)。
以上的研究著重于通過(guò)分析網(wǎng)絡(luò)結(jié)構(gòu)特征,即外部因素來(lái)預(yù)測(cè)鏈接,但這些方法都沒(méi)有考慮到用戶內(nèi)部因素對(duì)鏈接產(chǎn)生的影響,如用戶屬性和用戶行為,忽略了網(wǎng)絡(luò)中用戶行為信息之間的潛在興趣關(guān)系。LDA主題模型可以對(duì)用戶屬性信息進(jìn)行主題提取,并且它適合處理“一詞多義”、“多詞一義”的問(wèn)題。Yoon-Sik Cho等人在《綜合社會(huì)數(shù)據(jù)的潛在空間模型》(Latent Space Model for Multi-Modal Social Data)中分析全網(wǎng)絡(luò)中的用戶屬性和行為,構(gòu)建一種基于LDA的潛在空間模型,對(duì)用戶行為進(jìn)行建模分析,得到關(guān)于用戶行為的主題分布,從而預(yù)測(cè)用戶關(guān)系。但用戶對(duì)不同用戶的關(guān)注符合冪律分布,會(huì)使得LDA模型的主題分布向高頻用戶傾斜,應(yīng)當(dāng)在LDA模型中采用合適的加權(quán)策略,提高主題表達(dá)能力。另外,LDA模型沒(méi)有完全體現(xiàn)出網(wǎng)絡(luò)結(jié)構(gòu)對(duì)鏈接預(yù)測(cè)的貢獻(xiàn),實(shí)際上共同鄰居間存在一定的依賴(lài)關(guān)系,因此,需要更充分地考慮這種依賴(lài)關(guān)系,提高鏈接預(yù)測(cè)的精準(zhǔn)度。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明需要解決的技術(shù)問(wèn)題是:現(xiàn)有技術(shù)忽略了網(wǎng)絡(luò)中用戶行為信息之間的潛在興趣關(guān)系,對(duì)因共同鄰居相互鏈接而產(chǎn)生的依賴(lài)關(guān)系考慮不足,鏈接預(yù)測(cè)的精準(zhǔn)度有提高空間??紤]到用戶之間的鏈接建立受到用戶內(nèi)部因素和外部因素的共同作用,內(nèi)部因素具體在用戶行為中體現(xiàn)出來(lái),可表現(xiàn)為用戶的興趣關(guān)注和信息交互,而外部因素又表現(xiàn)為用戶間共鄰用戶對(duì)鏈接產(chǎn)生的影響。提出了一種提高鏈接預(yù)測(cè)的精準(zhǔn)度的面向社交網(wǎng)絡(luò)的鏈接預(yù)測(cè)系統(tǒng)及方法。本發(fā)明的技術(shù)方案如下:
一種面向社交網(wǎng)絡(luò)的鏈接預(yù)測(cè)系統(tǒng),其包括數(shù)據(jù)源獲取模塊、屬性解析模塊、模型構(gòu)建模塊以及預(yù)測(cè)分析模塊;其中
數(shù)據(jù)源獲取模塊,用于獲取社交網(wǎng)絡(luò)中用戶行為以及用戶關(guān)系數(shù)據(jù);屬性解析模塊,用于分別從用戶的興趣關(guān)注屬性、信息交互屬性以及共鄰用戶屬性中解析出上述三部分的相關(guān)屬性向量;模型構(gòu)建模塊,用于構(gòu)建改進(jìn)的LDA鏈接預(yù)測(cè)模型,通過(guò)獲取用戶興趣關(guān)注特征、信息交互特征和網(wǎng)絡(luò)結(jié)構(gòu)特征,并訓(xùn)練前述三種特征的權(quán)值參數(shù);預(yù)測(cè)分析模塊,用訓(xùn)練好的改進(jìn)的LDA鏈接預(yù)測(cè)模型來(lái)預(yù)測(cè)社交網(wǎng)絡(luò)中用戶鏈接關(guān)系并發(fā)現(xiàn)鏈接建立的關(guān)鍵因素。
進(jìn)一步的,所述數(shù)據(jù)源獲取模塊獲取的數(shù)據(jù)內(nèi)容主要包括用戶基本信息、用戶關(guān)注者基本信息、用戶粉絲基本信息、用戶間好友關(guān)系以及用戶過(guò)往行為數(shù)據(jù)。
進(jìn)一步的,所述興趣關(guān)注屬性包括:用戶對(duì)感興趣的用戶關(guān)注,即用戶的關(guān)注列表,定義用戶ux的興趣關(guān)注向量為其中,wx,n表示用戶ux關(guān)注列表中的有效用戶,Nx表示用戶ux關(guān)注列表的有效用戶的個(gè)數(shù);
信息交互屬性包括:用戶對(duì)感興趣的微博轉(zhuǎn)發(fā),即用戶與微博博主間發(fā)生了一次信息交互,定義用戶ux的信息交互向量為其中,w'x,n表示與用戶ux發(fā)生交互關(guān)系的用戶,N'x表示與用戶ux發(fā)生交互關(guān)系的用戶個(gè)數(shù);
共鄰用戶屬性包括:用戶間的共同好友,這里的好友指的是相互關(guān)注關(guān)系,定義用戶ux與用戶uy的共鄰用戶向量為其中,cq表示用戶ux與用戶uy的共同好友,也稱(chēng)為共鄰用戶,Qxy表示用戶ux與用戶uy的共鄰用戶個(gè)數(shù)。
進(jìn)一步的,所述模型構(gòu)建模塊:用于針對(duì)網(wǎng)絡(luò)中所有用戶的興趣關(guān)注向量,采用高斯加權(quán)對(duì)用戶關(guān)注的每個(gè)用戶加權(quán),利用改進(jìn)的LDA主題模型訓(xùn)練所有用戶,得到用戶興趣關(guān)注的主題分布;采用余弦相似度計(jì)算得到用戶興趣關(guān)注的相似度矩陣,并作為用戶興趣關(guān)注特征;利用LDA主題模型訓(xùn)練所有用戶,得到用戶信息交互的主題分布,采用余弦相似度計(jì)算得到用戶信息交互的相似度矩陣,并作為用戶信息交互特征;針對(duì)網(wǎng)絡(luò)中所有用戶的共鄰用戶向量,利用隱樸素貝葉斯定義的共鄰用戶貢獻(xiàn)算法,量化共鄰用戶間的依賴(lài)關(guān)系,計(jì)算得到網(wǎng)絡(luò)結(jié)構(gòu)的相似度矩陣,并作為網(wǎng)絡(luò)結(jié)構(gòu)特征;將上述三種特征一起流入分類(lèi)器,通過(guò)訓(xùn)練分類(lèi)器以及三種特征的權(quán)值參數(shù)來(lái)預(yù)測(cè)是否形成鏈接以及鏈接建立的關(guān)鍵因素。
進(jìn)一步的,所述獲取用戶興趣關(guān)注特征包括:統(tǒng)計(jì)社交網(wǎng)絡(luò)中注冊(cè)用戶所關(guān)注的所有用戶,并統(tǒng)計(jì)關(guān)注的用戶的出現(xiàn)頻率;針對(duì)每個(gè)用戶,采用高斯加權(quán)公式對(duì)用戶關(guān)注的每個(gè)用戶wx,n加權(quán)其中表示關(guān)注的用戶wx,n的出現(xiàn)頻率,fi表示關(guān)注的用戶的平均出現(xiàn)頻率;給定參數(shù)K作為用戶興趣關(guān)注的主題數(shù),采用改進(jìn)的LDA主題模型訓(xùn)練所有注冊(cè)用戶,得到用戶興趣關(guān)注的主題分布Θ。采用余弦相似度計(jì)算兩兩用戶間基于興趣關(guān)注的相似度,得到用戶興趣關(guān)注的相似度矩陣R1,將基于興趣關(guān)注的相似度作為用戶興趣關(guān)注特征。
進(jìn)一步的,所述獲取用戶信息交互特征包括:獲取用戶興趣關(guān)注特征,給定參數(shù)K'作為用戶信息交互的主題數(shù),采用LDA主題模型訓(xùn)練所有注冊(cè)用戶,得到用戶信息交互的主題分布Θ';采用余弦相似度計(jì)算兩兩用戶間基于信息交互的相似度,得到用戶信息交互的相似度矩陣R2,并將基于信息交互的相似度作為用戶信息交互特征。
進(jìn)一步的,所述獲取網(wǎng)絡(luò)結(jié)構(gòu)特征包括:假設(shè)共鄰用戶間的依賴(lài)關(guān)系分為兩種,獨(dú)立依賴(lài)關(guān)系和聯(lián)合依賴(lài)關(guān)系,獨(dú)立依賴(lài)關(guān)系指的是共鄰用戶受其他共鄰用戶中任一用戶的單獨(dú)影響,聯(lián)合依賴(lài)關(guān)系指的是共鄰用戶受其他多個(gè)共鄰用戶的共同影響,采用隱樸素貝葉斯定義的共鄰用戶貢獻(xiàn)算法計(jì)算兩兩用戶間基于網(wǎng)絡(luò)結(jié)構(gòu)的相似度,得到網(wǎng)絡(luò)結(jié)構(gòu)的相似度矩陣R3,將網(wǎng)絡(luò)結(jié)構(gòu)的相似度作為網(wǎng)絡(luò)結(jié)構(gòu)特征。
一種面向社交網(wǎng)絡(luò)的鏈接預(yù)測(cè)方法,其包括以下步驟:
首先,針對(duì)社交網(wǎng)絡(luò)中用戶的多個(gè)興趣標(biāo)簽特點(diǎn),利用LDA主題模型對(duì)用戶行為進(jìn)行建模,得到關(guān)于用戶行為的主題分布;
其次,考慮到用戶對(duì)不同用戶的關(guān)注符合冪律分布,利用高斯加權(quán)對(duì)標(biāo)準(zhǔn)LDA進(jìn)行改進(jìn),提高主題表達(dá)能力;
最后,通過(guò)引入隱樸素貝葉斯定義的共鄰用戶貢獻(xiàn)算法,綜合用戶行為特征和網(wǎng)絡(luò)結(jié)構(gòu)特征進(jìn)行鏈接預(yù)測(cè)。
進(jìn)一步的,分別從用戶的興趣關(guān)注、信息交互以及共鄰用戶三個(gè)方面出發(fā),利用LDA主題模型解決“一詞多義”、“多詞一義”的基礎(chǔ)思想和隱樸素貝葉斯定義的共鄰用戶貢獻(xiàn)算法,構(gòu)建一種基于改進(jìn)的LDA社交網(wǎng)絡(luò)鏈接預(yù)測(cè)模型。
本發(fā)明的優(yōu)點(diǎn)及有益效果如下:
本發(fā)明針對(duì)網(wǎng)絡(luò)中用戶行為信息之間的潛在興趣關(guān)系以及共同鄰居相互鏈接而產(chǎn)生的依賴(lài)關(guān)系等問(wèn)題,能夠?qū)](méi)有顯性鏈接的用戶對(duì)是否會(huì)產(chǎn)生鏈接作出準(zhǔn)確預(yù)測(cè),并發(fā)現(xiàn)鏈接建立的關(guān)鍵因素。根據(jù)上述方法,采用高斯加權(quán)后的LDA可以讓代表主題的多數(shù)用戶不被少量高頻用戶所淹沒(méi),能有效降低對(duì)用戶行為處理的復(fù)雜度,提高主題表達(dá)能力;結(jié)合隱樸素貝葉斯定義的共鄰用戶貢獻(xiàn)算法,能更充分地考慮共鄰用戶間的相互依賴(lài)關(guān)系,提高鏈接預(yù)測(cè)的精準(zhǔn)度。
附圖說(shuō)明
圖1是本發(fā)明提供優(yōu)選實(shí)施例面向社交網(wǎng)絡(luò)的鏈接預(yù)測(cè)方法總體流程圖;
圖2是本發(fā)明的預(yù)測(cè)模型框圖;
圖3是本發(fā)明的預(yù)測(cè)模型流程圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、詳細(xì)地描述。所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例。
本發(fā)明解決上述技術(shù)問(wèn)題的技術(shù)方案是:
由于用戶之間的鏈接建立受到用戶內(nèi)部因素和外部因素的共同作用。內(nèi)部因素具體在用戶行為中體現(xiàn)出來(lái),可表現(xiàn)為用戶的興趣關(guān)注和信息交互;而外部因素又表現(xiàn)為用戶間共鄰用戶對(duì)鏈接產(chǎn)生的影響。因此本發(fā)明分別從用戶的興趣關(guān)注、信息交互以及共鄰用戶三個(gè)方面出發(fā),針對(duì)網(wǎng)絡(luò)中用戶行為信息之間的潛在興趣關(guān)系以及共同鄰居相互鏈接而產(chǎn)生的依賴(lài)關(guān)系等問(wèn)題,構(gòu)建一種基于改進(jìn)的LDA社交網(wǎng)絡(luò)鏈接預(yù)測(cè)模型,使其能夠預(yù)測(cè)沒(méi)有顯性鏈接的用戶對(duì)是否會(huì)產(chǎn)生鏈接,并發(fā)現(xiàn)鏈接建立的關(guān)鍵因素。
具體表述為,給定一個(gè)社交網(wǎng)絡(luò)圖Gus=(Us,Eus,Aus),Gus是一個(gè)無(wú)向圖,其中,Us表示社交網(wǎng)絡(luò)中的注冊(cè)用戶,表示所有用戶之間的關(guān)系,表示用戶間的行為互動(dòng);從現(xiàn)有網(wǎng)絡(luò)Gus中抽取部分網(wǎng)絡(luò)作為目標(biāo)網(wǎng)絡(luò)Gut=(Ut,Eut,Aut),其中Ut表示隨機(jī)抽取的目標(biāo)用戶;預(yù)測(cè)目標(biāo)用戶Ut中沒(méi)有顯性鏈接的用戶對(duì)是否會(huì)產(chǎn)生鏈接,即預(yù)測(cè)目標(biāo)網(wǎng)絡(luò)Gut中新的用戶關(guān)系Eu'。上述也可表示為:
如圖1所示為本發(fā)明的總體流程圖,包括:獲取數(shù)據(jù)模塊,解析屬性模塊,構(gòu)建模型模塊以及預(yù)測(cè)分析模塊共四大模塊。
以下具體說(shuō)明本發(fā)明的詳細(xì)實(shí)施過(guò)程。
S1:獲取數(shù)據(jù)源。獲取的數(shù)據(jù)為微博數(shù)據(jù),主要通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取。獲取的數(shù)據(jù)內(nèi)容主要包括用戶基本信息、用戶關(guān)注者基本信息、用戶粉絲基本信息、用戶間好友關(guān)系以及用戶過(guò)往行為數(shù)據(jù)(轉(zhuǎn)發(fā)和原創(chuàng)微博情況)。數(shù)據(jù)的獲取主要采用如下方法(也可采用現(xiàn)有技術(shù)的常規(guī)方法獲取):
S11:獲取原始數(shù)據(jù)。利用網(wǎng)絡(luò)爬蟲(chóng)或者通過(guò)各社交網(wǎng)站開(kāi)放API平臺(tái)獲取數(shù)據(jù)。獲取的數(shù)據(jù)內(nèi)容主要包括用戶基本信息、用戶關(guān)注者基本信息、用戶粉絲基本信息、用戶間好友關(guān)系以及用戶過(guò)往行為數(shù)據(jù)。
S12:簡(jiǎn)單的數(shù)據(jù)清洗。通過(guò)簡(jiǎn)單的數(shù)據(jù)清洗可以使大部分?jǐn)?shù)據(jù)利于分析。例如,刪除重復(fù)數(shù)據(jù)、清理無(wú)效節(jié)點(diǎn)等。
S2:提取相關(guān)屬性??紤]用戶間的鏈接建立主要受用戶的興趣關(guān)注、信息交互以及共鄰用戶三方面影響,本發(fā)明分別從興趣關(guān)注、信息交互以及共鄰用戶三方面提取相關(guān)屬性。具體舉例作如下說(shuō)明。
S21:提取興趣關(guān)注屬性。興趣關(guān)注屬性是指用戶對(duì)感興趣的用戶的關(guān)注,即用戶的關(guān)注列表。定義用戶ux的興趣關(guān)注向量為:
其中,wx,n表示用戶ux關(guān)注列表中的有效用戶,Nx表示用戶ux關(guān)注列表的有效用戶的個(gè)數(shù)。例如:用戶a的關(guān)注列表中的有效用戶有b,c,d,e......,則用戶a的興趣關(guān)注向量為F(a)=[b,c,d,e......]。
S22:提取信息交互屬性。信息交互屬性是指用戶對(duì)感興趣的微博轉(zhuǎn)發(fā),即用戶與微博博主間發(fā)生了一次信息交互。定義用戶ux的信息交互向量為:
其中,w'x,n表示與用戶ux發(fā)生交互關(guān)系的用戶,N'x表示與用戶ux發(fā)生交互關(guān)系的用戶個(gè)數(shù)。例如:用戶h轉(zhuǎn)發(fā)了用戶j的微博2次,轉(zhuǎn)發(fā)了用戶k的微博3次......,則用戶h的信息交互向量為I(h)=[j,j,k,k,k......]。
S23:提取共鄰用戶屬性。共鄰用戶屬性是指用戶間的共同好友,這里的好友指的是相互關(guān)注關(guān)系。定義用戶ux與用戶uy的共鄰用戶向量為:
其中,cq表示用戶ux與用戶uy的共同好友,也稱(chēng)為共鄰用戶。Qxy表示用戶ux與用戶uy的共鄰用戶個(gè)數(shù)。例如:用戶s與用戶t的共鄰用戶有g(shù),i,o,r......,則用戶s與用戶t的共鄰用戶向量為C(s,t)=[g,i,o,r.....]。
S3:建立模型。如圖2所示為本發(fā)明的預(yù)測(cè)模型框圖。針對(duì)網(wǎng)絡(luò)中所有用戶的興趣關(guān)注向量,采用高斯加權(quán)對(duì)用戶關(guān)注的每個(gè)用戶加權(quán),利用改進(jìn)的LDA主題模型訓(xùn)練所有用戶,得到用戶興趣關(guān)注的主題分布;采用余弦相似度計(jì)算得到用戶興趣關(guān)注的相似度矩陣,并作為用戶興趣關(guān)注特征。同理,利用LDA主題模型訓(xùn)練所有用戶,得到用戶信息交互的主題分布,采用余弦相似度計(jì)算得到用戶信息交互的相似度矩陣,并作為用戶信息交互特征。針對(duì)網(wǎng)絡(luò)中所有用戶的共鄰用戶向量,利用隱樸素貝葉斯定義的共鄰用戶貢獻(xiàn)算法,量化共鄰用戶間的依賴(lài)關(guān)系,計(jì)算得到網(wǎng)絡(luò)結(jié)構(gòu)的相似度矩陣,并作為網(wǎng)絡(luò)結(jié)構(gòu)特征。將上述三種特征一起流入分類(lèi)器,通過(guò)訓(xùn)練分類(lèi)器以及三種特征的權(quán)值參數(shù)來(lái)預(yù)測(cè)是否形成鏈接以及鏈接建立的關(guān)鍵因素。模型的訓(xùn)練及求解將在接下來(lái)的部分詳細(xì)敘述。
如圖3所示為本發(fā)明的預(yù)測(cè)模型流程圖。
S31:用戶的興趣關(guān)注影響分析。
在社交網(wǎng)絡(luò)中,假設(shè)有M個(gè)注冊(cè)用戶,U={u1,u2......uM}。每個(gè)注冊(cè)用戶ux可以由Nx個(gè)該用戶關(guān)注的用戶構(gòu)成,即可以表示為該用戶的興趣關(guān)注向量注冊(cè)用戶ux的每個(gè)關(guān)注用戶wx,n服從興趣主題zx,n的多項(xiàng)式分布,每個(gè)興趣主題zx,n服從注冊(cè)用戶ux的多項(xiàng)式分布。
統(tǒng)計(jì)注冊(cè)用戶所關(guān)注的所有用戶,其總數(shù)為N,并統(tǒng)計(jì)關(guān)注的用戶的出現(xiàn)頻率。針對(duì)每個(gè)用戶ux,采用高斯加權(quán)公式對(duì)用戶關(guān)注的每個(gè)用戶wx,n加權(quán):
其中表示關(guān)注的用戶wx,n的出現(xiàn)頻率,fi表示關(guān)注的用戶的平均出現(xiàn)頻率。給定參數(shù)K作為用戶興趣關(guān)注的主題數(shù),采用高斯加權(quán)改進(jìn)的LDA生成過(guò)程如下:
1、是Dirichlet分布的參數(shù),以先驗(yàn)參數(shù)選擇服從分布,代表興趣主題k下的每個(gè)關(guān)注用戶出現(xiàn)的概率。
2、是Dirichlet分布的參數(shù),以先驗(yàn)參數(shù)選擇服從分布,代表用戶ux的興趣主題發(fā)生的概率。然后對(duì)其N(xiāo)x個(gè)關(guān)注用戶的每一個(gè),選擇興趣主題zx,n,zx,n服從多項(xiàng)式分布。
3、k=zx,n。根據(jù)選擇關(guān)注用戶wx,n,表示采用高斯加權(quán)后在興趣主題k條件下出現(xiàn)關(guān)注用戶wx,n的概率。wx,n服從在zx,n條件下的多項(xiàng)式分布。
所有變量的概率聯(lián)合分布如下:
其中,表示用戶ux的興趣主題標(biāo)簽向量,表示用戶ux的高斯加權(quán)向量,Φ表示關(guān)注用戶分布,
在該生成模型中,對(duì)用戶行為建模實(shí)際是要計(jì)算用戶的興趣關(guān)注主題分布以及關(guān)注用戶分布由于Θ和Φ的耦合,無(wú)法直接計(jì)算,這里采用Gibbs抽樣間接求得Θ和Φ。Gibbs抽樣每次迭代估算Θ和Φ的公式如下:
其中,表示主題k分配到用戶ux的次數(shù),表示關(guān)注用戶t被觀察到分配給主題k的加權(quán)后的次數(shù)。
采用余弦相似度計(jì)算兩兩用戶ux與uy間基于興趣關(guān)注的相似度。余弦相似度計(jì)算公式如下:
其中,和分別表示用戶ux與uy的興趣主題向量。得到的r1-xy的值越大,表明兩個(gè)用戶的興趣主題越相似,也就是說(shuō)他們之間產(chǎn)生鏈接的可能性越大。
遍歷用戶的興趣關(guān)注主題分布Θ,通過(guò)式(8)計(jì)算出社交網(wǎng)絡(luò)中所有用戶對(duì)間的基于交互行為條件下的相似度,得到用戶興趣關(guān)注的相似度矩陣R1,并將基于興趣關(guān)注的相似度作為用戶興趣關(guān)注特征。
S32:用戶的信息交互影響分析。
在S31步驟基礎(chǔ)上,每個(gè)注冊(cè)用戶ux也可以由N'x個(gè)與其發(fā)生信息交互的用戶構(gòu)成,即可以表示為該用戶的信息交互向量,注冊(cè)用戶ux的每個(gè)交互用戶w'x,n服從興趣主題z'x,n的多項(xiàng)式分布,每個(gè)興趣主題z'x,n服從注冊(cè)用戶ux的多項(xiàng)式分布。
統(tǒng)計(jì)注冊(cè)用戶信息交互的所有用戶,其總數(shù)為N',給定參數(shù)K'作為用戶信息交互的主題數(shù),用戶的信息交互的生成過(guò)程類(lèi)似于S31中用戶的興趣關(guān)注的生成過(guò)程。同理,求解出用戶的信息交互主題分布Θ',遍歷Θ',計(jì)算出社交網(wǎng)絡(luò)中所有用戶對(duì)間的基于關(guān)注行為條件下的相似度,得到用戶信息交互的相似度矩陣R2,并將基于信息交互的相似度作為用戶信息交互特征。
S33:用戶的共鄰用戶影響分析。
經(jīng)過(guò)S23步驟,我們可以得到兩個(gè)注冊(cè)用戶ux和uy的共鄰用戶向量其中每個(gè)共鄰用戶與其他共鄰用戶之間會(huì)存在一定的依賴(lài)關(guān)系。假設(shè)這種依賴(lài)關(guān)系分兩種,獨(dú)立依賴(lài)關(guān)系和聯(lián)合依賴(lài)關(guān)系。獨(dú)立依賴(lài)關(guān)系指的是共鄰用戶cq受其他共鄰用戶中任一用戶的單獨(dú)影響,聯(lián)合依賴(lài)關(guān)系指的是共鄰用戶cq受其他多個(gè)共鄰用戶的共同影響。這里用隱含因子η表示獨(dú)立依賴(lài)關(guān)系的總和,隱含因子π表示聯(lián)合依賴(lài)關(guān)系的總和。
我們令Lxy表示兩個(gè)注冊(cè)用戶ux和uy間的鏈接狀態(tài),其中,lxy表示兩個(gè)用戶間存在鏈接,表示兩個(gè)注冊(cè)用戶間無(wú)鏈接。所有變量的概率聯(lián)合分布如下:
其中,P(lxy)、表示用戶ux與uy間存在鏈接的概率;P(cq|ηq,lxy)、表示共鄰用戶cq與其他共鄰用戶的獨(dú)立依賴(lài)關(guān)系在存在鏈接和不存在鏈接條件下的加權(quán)和;P(cq|πq,lxy)、表示共鄰用戶cq與其他共鄰用戶對(duì)的聯(lián)合依賴(lài)關(guān)系在存在鏈接和不存在鏈接條件下的加權(quán)和。共鄰用戶間的依賴(lài)關(guān)系的計(jì)算公式如下:
其中,權(quán)重Wij、Wijk表示共鄰用戶間的獨(dú)立依賴(lài)關(guān)系和聯(lián)合依賴(lài)關(guān)系的重要程度,這里采用共鄰用戶間的條件互信息加權(quán)和來(lái)表示,計(jì)算公式如下:
為了減小條件互信息計(jì)算時(shí)的時(shí)間復(fù)雜度,這里設(shè)置判決條件如下:
Ip(ci,[cj,ck]|lxy)>max{Ip(ci,cj|lxy),Ip(ci,ck|lxy)} (15)
若隱含因子π對(duì)共鄰用戶的影響比隱含因子η要大,則考慮隱含因子η、π共同作用,否則只考慮隱含因子η的影響。在不存在鏈接條件下的相關(guān)計(jì)算與上述相類(lèi)似。
由共鄰用戶向量作為先驗(yàn)條件預(yù)測(cè)用戶ux與uy存在鏈接的概率為:
同理,可以求解由共鄰用戶向量作為先驗(yàn)條件預(yù)測(cè)用戶ux與uy不存在鏈接的概率采用隱樸素貝葉斯定義的共鄰用戶貢獻(xiàn)算法計(jì)算兩兩用戶ux與uy間基于網(wǎng)絡(luò)結(jié)構(gòu)的相似度,計(jì)算公式如下:
通過(guò)式(17)計(jì)算出社交網(wǎng)絡(luò)中所有用戶對(duì)間的基于共鄰用戶條件下的相似度,即基于網(wǎng)絡(luò)結(jié)構(gòu)的相似度,得到網(wǎng)絡(luò)結(jié)構(gòu)的相似度矩陣R3,并將基于網(wǎng)絡(luò)結(jié)構(gòu)的相似度作為網(wǎng)絡(luò)結(jié)構(gòu)特征。
S34:分類(lèi)器構(gòu)造。
經(jīng)步驟S31~S33,可以得到用戶的興趣關(guān)注特征、用戶的信息交互特征以及網(wǎng)絡(luò)結(jié)構(gòu)特征。給定這三種特征一個(gè)權(quán)值參數(shù)集合λ={λ1,λ2,λ3},其中λ1、λ2、λ3分別表示這三種特征對(duì)用戶間產(chǎn)生鏈接的影響程度。將這三種特征一起流入分類(lèi)器,采用有監(jiān)督框架來(lái)組合這三種特征,得到鏈接預(yù)測(cè)模型。這里的分類(lèi)器采用的是SVM分類(lèi)器,通過(guò)訓(xùn)練分類(lèi)器以及這三種特征的權(quán)值參數(shù)來(lái)判別形成鏈接和未形成鏈接來(lái)輸出鏈接預(yù)測(cè)結(jié)果,同時(shí)發(fā)現(xiàn)鏈接建立的關(guān)鍵因素。
S4:預(yù)測(cè)和分析過(guò)程。將抽取的目標(biāo)網(wǎng)絡(luò)Gut=(Ut,Eut,Aut)輸入到經(jīng)S3步驟得到的鏈接預(yù)測(cè)模型中,對(duì)其中沒(méi)有顯性鏈接的用戶對(duì)是否會(huì)產(chǎn)生鏈接進(jìn)行預(yù)測(cè),得到目標(biāo)網(wǎng)絡(luò)Gut中新的用戶關(guān)系Eu',同時(shí)根據(jù)訓(xùn)練得到的權(quán)值參數(shù)集合λ={λ1,λ2,λ3}來(lái)發(fā)現(xiàn)鏈接建立的關(guān)鍵因素。
本發(fā)明利用社交網(wǎng)絡(luò)中用戶行為以及用戶關(guān)系數(shù)據(jù)分析用戶的相關(guān)屬性,將沒(méi)有顯性鏈接的用戶對(duì)作為輸入,預(yù)測(cè)這些用戶對(duì)是否會(huì)產(chǎn)生鏈接。首先,針對(duì)社交網(wǎng)絡(luò)中用戶的多個(gè)興趣標(biāo)簽特點(diǎn),利用LDA主題模型處理“一詞多義”、“多詞一義”的基礎(chǔ)思想和方法,對(duì)用戶行為進(jìn)行建模,得到關(guān)于用戶行為的主題分布。其次,考慮到用戶對(duì)不同用戶的關(guān)注符合冪律分布,利用高斯加權(quán)對(duì)標(biāo)準(zhǔn)LDA進(jìn)行改進(jìn),提高主題表達(dá)能力。最后,針對(duì)LDA模型沒(méi)有完全體現(xiàn)出網(wǎng)絡(luò)結(jié)構(gòu)對(duì)鏈接預(yù)測(cè)的貢獻(xiàn)的問(wèn)題,通過(guò)引入隱樸素貝葉斯定義的共鄰用戶貢獻(xiàn)算法,更充分地考慮共鄰用戶間的相互依賴(lài)關(guān)系,綜合用戶行為特征和網(wǎng)絡(luò)結(jié)構(gòu)特征進(jìn)行鏈接預(yù)測(cè),并發(fā)現(xiàn)鏈接建立的關(guān)鍵因素。
以上這些實(shí)施例應(yīng)理解為僅用于說(shuō)明本發(fā)明而不用于限制本發(fā)明的保護(hù)范圍。在閱讀了本發(fā)明的記載的內(nèi)容之后,技術(shù)人員可以對(duì)本發(fā)明作各種改動(dòng)或修改,這些等效變化和修飾同樣落入本發(fā)明權(quán)利要求所限定的范圍。