一種在線社交網(wǎng)絡中朋友關系預測的方法
【專利摘要】本發(fā)明涉及一種在線社交網(wǎng)絡中朋友關系預測的方法,該具體過程為:基于社交網(wǎng)站提供的API接口采集用戶在社交網(wǎng)絡上的簽到數(shù)據(jù)及朋友關系;根據(jù)采集的數(shù)據(jù)提取特征來表征用戶之間的關系,選取信息增益最大的三個特征來表征用戶之間的朋友關系;按城市選取社交網(wǎng)絡中在的所有在該城市有簽到數(shù)據(jù)及有簽到數(shù)據(jù)的用戶的朋友關系作為訓練數(shù)據(jù),將朋友關系數(shù)據(jù)和非朋友關系數(shù)據(jù)比例定為1∶3,按選取的三個特征采用分類算法建立朋友關系模型;選取要預測用戶的簽到和朋友關系數(shù)據(jù)作為測試數(shù)據(jù),對選取的每個用戶,預測其與測試數(shù)據(jù)中其他所有用戶之間的關系。本發(fā)明使得預測效果更接近用戶的客觀實際情況,有效的提高朋友關系預測的正確率。
【專利說明】一種在線社交網(wǎng)絡中朋友關系預測的方法
【技術領域】
[0001]本發(fā)明涉及社會計算【技術領域】,尤其涉及一種在線社交網(wǎng)絡中朋友關系預測的方法。
【背景技術】
[0002]近年來社交網(wǎng)絡得到了迅猛的發(fā)展,人們對信息的獲取和消息的傳遞開始變得越來越依賴于網(wǎng)絡,用戶可以通過分享新聞、日志、視頻、音樂及相片等方法,維持和開拓人際關系。在線社交網(wǎng)絡是虛擬和現(xiàn)實的結(jié)合,人們在現(xiàn)實生活中的行為和他們在社交網(wǎng)絡中的行為有很大程度的相似性,這些行為相似的并且在地理上相距比較近的人更有可能成為朋友。
[0003]在線社交網(wǎng)絡基于六度分割理論運作,即你和任何一個陌生人之間所間隔的人不會超過六個,也就是說,最多通過六個人你就能夠認識任何一個陌生人。這就是六度分割理論,也叫小世界理論。每個個體的社交圈不斷放大,最后形成一個大型的社交拓撲網(wǎng)絡。
[0004]專利200610157496.9提出了一種社交網(wǎng)絡社區(qū)的推薦朋友的方法,但其沒有考慮用戶的社交圈子以及用戶之間的距離。專利200910213921.5只公開了社交網(wǎng)絡中社區(qū)推薦異性朋友的方法,其只考慮了用戶的特征信息,沒有用戶的行為信息。專利200810009403.7提出了社會網(wǎng)絡的競爭性朋友排名的方法,強調(diào)朋友之間的互動,忽略了用戶本身的行為和地域等信息。
[0005]鑒于上述缺陷,本發(fā)明創(chuàng)作者經(jīng)過長時間的研究和實踐終于獲得了本創(chuàng)作。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于提供一種在線社交網(wǎng)絡中朋友關系預測的方法,用以克服上述技術缺陷。
[0007]為實現(xiàn)上述目的,本發(fā)明提供一種在線社交網(wǎng)絡中朋友關系預測的方法,該具體過程為:
[0008]步驟101,基于社交網(wǎng)站提供的API接口采集用戶在社交網(wǎng)絡上的簽到數(shù)據(jù)及朋友關系;
[0009]步驟102,根據(jù)采集的數(shù)據(jù)提取特征來表征用戶之間的關系,以信息增益為標準,衡量選取特征的信息含量,選取信息增益最大的三個特征來表征用戶之間的朋友關系;
[0010]步驟103,按城市選取社交網(wǎng)絡中在的所有在該城市有簽到數(shù)據(jù)及有簽到數(shù)據(jù)的用戶的朋友關系作為訓練數(shù)據(jù),將朋友關系數(shù)據(jù)和非朋友關系數(shù)據(jù)比例定為1: 3,按選取的三個特征采用分類算法建立朋友關系模型;
[0011]步驟104,選取要預測用戶的簽到和朋友關系數(shù)據(jù)作為測試數(shù)據(jù),對選取的每個用戶,預測其與測試數(shù)據(jù)中其他所有用戶之間的關系。
[0012]進一步,上述步驟102中選取用戶社交拓撲、用戶簽到地點類型和用戶簽到地點三個特征;上述特征的具體計算方法如下:[0013]定義社交網(wǎng)絡Gs (Us,Es),節(jié)點Us表示用戶,假定Gs為完全圖,若兩用戶Ui,Uj是朋友,則用一條朋友邊連接;若他們?yōu)榉桥笥?,則用一條非朋友邊連接,當去掉用戶Ui,+.之間的朋友邊后,他們之間即為非朋友邊,非朋友邊不能被刪除。
[0014]進一步,所述用戶社交網(wǎng)絡的計算方法如下:
[0015]在社交網(wǎng)Gs中,去掉社交網(wǎng)Gs中用戶i和用戶j之間的朋友邊,用戶i和用戶j拓撲網(wǎng)絡中的最短距離即為他們在用戶拓撲網(wǎng)絡中的社交距離;若用戶之間為朋友邊,則其距離為1,否則為無窮大;在計算用戶i和用戶j社交距離之前,若用戶i和用戶j之間為朋友邊則先在社交網(wǎng)Gs中刪除該邊,若為非朋友邊則直接計算;
[0016]設用戶i和用戶j之間的用戶邊在社交網(wǎng)絡結(jié)構(gòu)中的社交距離為屬性as,其計算方法如公式I所示;
[0017]as(i, j) =shortest_dis tan ce (Ui, Uj) inG' s (Us, Es-Gij) (I)
[0018]最短距離的計算方法可采用Dijkstra算法或Floyd算法。
[0019]進一步,所述用戶簽到地點類型的計算方法如下:
[0020]定義用戶Ui簽到地點類型為i,每個地點簽到的次數(shù)分別為(cn,ci2,......,ciN),
總的簽到次數(shù)為Ci,設共有L個用戶,每個用戶在地點i簽到的次數(shù)為(Tn,Ti2......,TiL),
定義用戶k在地點tik,簽到的概率為p(k);引入地點信息熵的概念,定義如公式2所示,
【權利要求】
1.一種在線社交網(wǎng)絡中朋友關系預測的方法,其特征在于,該具體過程為: 步驟101,基于社交網(wǎng)站提供的API接口采集用戶在社交網(wǎng)絡上的簽到數(shù)據(jù)及朋友關系; 步驟102,根據(jù)采集的數(shù)據(jù)提取特征來表征用戶之間的關系,以信息增益為標準,衡量選取特征的信息含量,選取信息增益最大的三個特征來表征用戶之間的朋友關系; 步驟103,按城市選取社交網(wǎng)絡中在的所有在該城市有簽到數(shù)據(jù)及有簽到數(shù)據(jù)的用戶的朋友關系作為訓練數(shù)據(jù),將朋友關系數(shù)據(jù)和非朋友關系數(shù)據(jù)比例定為1: 3,按選取的三個特征采用分類算法建立朋友關系模型; 步驟104,選取要預測用戶的簽到和朋友關系數(shù)據(jù)作為測試數(shù)據(jù),對選取的每個用戶,預測其與測試數(shù)據(jù)中其他所有用戶之間的關系。
2.根據(jù)權利要求1所述的在線社交網(wǎng)絡中朋友關系預測的方法,其特征在于,上述步驟102中選取用戶社交拓撲、用戶簽到地點類型和用戶簽到地點三個特征;上述特征的具體計算方法如下: 定義社交網(wǎng)絡Gs(Us,Es),節(jié)點us表示用戶,假定Gs為完全圖,若兩用戶Ui, +是朋友,則用一條朋友邊連接;若他們?yōu)榉桥笥?,則用一條非朋友邊連接,當去掉用戶Ui, +之間的朋友邊后,他們之間即為非朋友邊,非朋友邊不能被刪除。
3.根據(jù)權利要求 2所述的在線社交網(wǎng)絡中朋友關系預測的方法,其特征在于,所述用戶社交網(wǎng)絡的計算方法如 下: 在社交網(wǎng)Gs中,去掉社交網(wǎng)Gs中用戶i和用戶j之間的朋友邊,用戶i和用戶j拓撲網(wǎng)絡中的最短距離即為他們在用戶拓撲網(wǎng)絡中的社交距離;若用戶之間為朋友邊,則其距離為1,否則為無窮大;在計算用戶i和用戶j社交距離之前,若用戶i和用戶j之間為朋友邊則先在社交網(wǎng)Gs中刪除該邊,若為非朋友邊則直接計算; 設用戶i和用戶j之間的用戶邊在社交網(wǎng)絡結(jié)構(gòu)中的社交距離為屬性as,其計算方法如公式I所示;
4.根據(jù)權利要求2或3所述的在線社交網(wǎng)絡中朋友關系預測的方法,其特征在于,所述用戶簽到地點類型的計算方法如下: 定義用戶Ui簽到地點類型為i,每個地點簽到的次數(shù)分別為(cn,ci2......,ciN),總的簽到次數(shù)為Ci,設共有L個用戶,每個用戶在地點i簽到的次數(shù)為(Tn,Ti2......,TiJ,定義用戶k在地點tik,簽到的概率為p(k);引入地點信息熵的概念,定義如公式2所示, Eiti) = Yj-Pi(Ji)Xogp'^( 2 )
/=1 定義用戶簽到地點類型屬性為at,用戶在地點信息熵小的地方有共同簽到的人更有可能成為朋友,如用戶a的住宅,用戶a簽到的次數(shù)較多,其他用戶簽到次數(shù)較少,這個地點的地點信息熵小,為私密地點,若用戶b也在該地點簽到,則用戶b很可能是用戶a的朋友或者用戶b成為用戶a的朋友的概率更大; 則對每個用戶i和用戶j,其對應的用戶關系有:
5.根據(jù)權利要求2或3所述的在線社交網(wǎng)絡中朋友關系預測的方法,其特征在于,用戶簽到地點, 定義用戶Ui簽到的地點序列i,每個地點簽到的次數(shù)分別為(cn,Ci2......,CiN),總的簽到次數(shù)為CyDistaim, Ijn)表示用戶i的第m個簽到地點和用戶j的第η個簽到地點之間的距離;在距離相同時簽到的次數(shù)越多成為朋友的可能性越大;如果兩個用戶經(jīng)常簽到地點相近則表明他們是鄰居或在相同的地方工作,否則表明他們只是偶然碰見。
6.根據(jù)權利要求2所述的在線社交網(wǎng)絡中朋友關系預測的方法,其特征在于,上述步驟101中,采集的數(shù)據(jù)有用戶簽到時間、簽到地點及其類型、用戶的朋友關系。
7.根據(jù)權利要求2所述的在線社交網(wǎng)絡中朋友關系預測的方法,其特征在于,在上述步驟104中,對于要預測朋友關系的用戶,選取其在社交網(wǎng)絡上的簽到時間、簽到地點及其類型、用戶的朋友關系;按選取的特征描述該用戶與其他用戶的關系,根據(jù)建立的朋友關系模型將這些特征描述的用戶關系分成朋友關系與非朋友關系。
8.根據(jù)權利要求7所述的在線社交網(wǎng)絡中朋友關系預測的方法,其特征在于,通過挖掘潛在的朋友關系建立朋友預測模型并進行測試驗證,該具體過程為: 在已有的社交拓撲網(wǎng)絡中先隨機刪除部分朋友邊,然后根據(jù)刪除朋友邊后的社交拓撲網(wǎng)絡計算邊的特征屬性值,將刪除的朋友邊數(shù)據(jù)以及隨機選取的部分數(shù)據(jù)作為測試數(shù)據(jù),隨機選取一定的朋友邊和非朋友邊數(shù)據(jù)采用分類算法建立模型,根據(jù)模型對測試數(shù)據(jù)分類的結(jié)果檢測模型挖掘社交拓撲網(wǎng)絡中潛在朋友關系的性能。
9.根據(jù)權利要求7或8所述的在線社交網(wǎng)絡中朋友關系預測的方法,其特征在于,通過交叉驗證建立朋友預測模型并進行測試驗證,該具體過程為: 以一個社交拓撲網(wǎng)絡中的數(shù)據(jù)建立模型,以另一個社交拓撲網(wǎng)絡中的數(shù)據(jù)做測試,然后反過來以作測試的社交拓撲網(wǎng)絡為訓練數(shù)據(jù),以訓練的社交拓撲網(wǎng)絡為測試數(shù)據(jù)。
【文檔編號】G06F17/30GK103795613SQ201410025336
【公開日】2014年5月14日 申請日期:2014年1月16日 優(yōu)先權日:2014年1月16日
【發(fā)明者】郭斌, 於志文, 羅惠, 周興社, 倪紅波, 王柱 申請人:西北工業(yè)大學