一種基于節(jié)點(diǎn)親密度的社交網(wǎng)站好友推薦方法
【專利摘要】本發(fā)明涉及一種基于節(jié)點(diǎn)親密度的社交網(wǎng)站好友推薦方法,與現(xiàn)有技術(shù)相比解決了社交網(wǎng)站好友推薦方法中標(biāo)簽推薦帶來的關(guān)注關(guān)系易聚集化、難以擴(kuò)張的缺陷。本發(fā)明包括數(shù)據(jù)提取,提取社交網(wǎng)站中用戶的信息和好友關(guān)系;數(shù)據(jù)預(yù)處理,剔除無關(guān)數(shù)據(jù),建立微博數(shù)據(jù)類型,微博數(shù)據(jù)類型包括用戶的微博信息列表和粉絲關(guān)系列表;根據(jù)用戶親密度推薦好友。本發(fā)明可以在社交網(wǎng)絡(luò)中實(shí)時(shí)地根據(jù)親密度向用戶推薦關(guān)注對象,高效快捷的幫助用戶管理自己的好友關(guān)系。
【專利說明】—種基于節(jié)點(diǎn)親密度的社交網(wǎng)站好友推薦方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及關(guān)注對象推薦方法【技術(shù)領(lǐng)域】,具體來說是一種基于節(jié)點(diǎn)親密度的社交網(wǎng)站好友推薦方法。
【背景技術(shù)】
[0002]近幾年來,隨著社交網(wǎng)絡(luò)的快速發(fā)展,國內(nèi)也出現(xiàn)了大量的被廣泛使用的社交網(wǎng)站,如新浪微博、人人網(wǎng)等。2012年I月16日,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在北京發(fā)布《第29次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》(以下簡稱《報(bào)告》),《報(bào)告》顯示,截至2011年12月底,中國網(wǎng)民規(guī)模突破5億,其中社交網(wǎng)絡(luò)用戶數(shù)量為2.44億,相比2010年略有增長。在使用率方面,社交網(wǎng)站用戶占網(wǎng)民比例為47.6% ;微博用戶數(shù)達(dá)到2.5億,增長近300%,網(wǎng)民使用率為48.7%。這些數(shù)據(jù)表明,社交網(wǎng)絡(luò)已經(jīng)成為互聯(lián)網(wǎng)用戶生活中不可缺少的一部分,而微博在一年時(shí)間內(nèi)就發(fā)展成為近一半中國網(wǎng)民使用的重要互聯(lián)網(wǎng)應(yīng)用。社交網(wǎng)站的快速興起以及2011年上半年用戶數(shù)的爆炸性增長,使得許多基于社交網(wǎng)站的應(yīng)用需求量大增,各大網(wǎng)站為了提高用戶體驗(yàn),不斷完善社交網(wǎng)絡(luò)的功能以滿足用戶全方位的需求。
[0003]在社交網(wǎng)絡(luò)的發(fā)展過程中,最主要的問題是用戶關(guān)系的擴(kuò)展,使得網(wǎng)絡(luò)中的節(jié)點(diǎn)有序地增加,這對整個(gè)服務(wù)網(wǎng)絡(luò)的健康發(fā)展可以起到積極地促進(jìn)作用。目前,新浪微博用于推薦好友的算法大致包括以下5種情況:1、根據(jù)教育信息進(jìn)行基本信息相似推薦。用戶信息中有填寫教育背景的,系統(tǒng)會根據(jù)入學(xué)時(shí)間、學(xué)校、所學(xué)專業(yè)等信息進(jìn)行同類匹配,選擇匹配度較高的進(jìn)行推薦。2、根據(jù)標(biāo)簽、關(guān)鍵詞進(jìn)行興趣相似推薦。大多數(shù)用戶都會填寫具有自我個(gè)性化特色的標(biāo)簽,此類標(biāo)簽可以代表用戶的興趣愛好方向,系統(tǒng)會根據(jù)這些信息進(jìn)行興趣相似度查找,選擇興趣相似度高的進(jìn)行推薦。3、根據(jù)共同關(guān)注的人進(jìn)行推薦。根據(jù)2個(gè)人之間所關(guān)注的共同好友的數(shù)量可以判斷2人的共同興趣。如果2人之間共同關(guān)注的人很多,那么此2人擁有相同興趣的可能性就很大,那么可以將2人互相推薦為好友。4、根據(jù)地理位置進(jìn)行就近推薦。此處的地理位置包含兩點(diǎn):一是用戶信息中的所在地;二是用戶當(dāng)前登錄的IP地址。系統(tǒng)會根據(jù)這兩者信息選擇地理位置附近的用戶進(jìn)行推薦。5、微博會員優(yōu)先推薦。新浪微博系統(tǒng)推出了微博會員,用戶一旦成為會員,將會得到系統(tǒng)優(yōu)先將其推薦為好友的特權(quán)。
[0004]用戶關(guān)系是任何社交網(wǎng)絡(luò)服務(wù)的關(guān)鍵,用戶在整個(gè)服務(wù)中的影響力可以促進(jìn)更多用戶加入到服務(wù)中。因此,為用戶提供推薦服務(wù),并且合理地評估用戶活躍程度是提高社交網(wǎng)絡(luò)服務(wù)影響力的重要一環(huán)。對于微博服務(wù)而言,通過挖掘關(guān)注關(guān)系,為用戶提供新的關(guān)注對象,并將推薦結(jié)果有區(qū)分地表現(xiàn)出來,可以提高用戶使用微博服務(wù)的熱情,增強(qiáng)微博對新用戶的吸引力。由于推薦對象與眾多因素相關(guān),例如節(jié)點(diǎn)的身份屬性、是否需要為所有節(jié)點(diǎn)建立新的關(guān)系等等。而目前眾多的推薦方法無法針對諸多屬性進(jìn)行多方位地衡量,如何開發(fā)出一種可以對用戶的諸多屬性進(jìn)行多方位地衡量和判斷的社交網(wǎng)站好友推薦方法已經(jīng)成為急需解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中社交網(wǎng)站好友推薦方法中標(biāo)簽推薦帶來的關(guān)注關(guān)系易聚集化、難以擴(kuò)張的缺陷,提供一種基于節(jié)點(diǎn)親密度的社交網(wǎng)站好友推薦方法來解決上述問題。
[0006]為了實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下:
[0007]—種基于節(jié)點(diǎn)親密度的社交網(wǎng)站好友推薦方法,包括以下步驟:
[0008]數(shù)據(jù)提取,提取社交網(wǎng)站中用戶的信息和好友關(guān)系;
[0009]數(shù)據(jù)預(yù)處理,剔除無關(guān)數(shù)據(jù),建立微博數(shù)據(jù)類型,微博數(shù)據(jù)類型包括用戶的微博信息列表和粉絲關(guān)系列表;
[0010]根據(jù)用戶親密度推薦好友。
[0011]所述的根據(jù)用戶親密度推薦好友包括以下步驟:
[0012]提取預(yù)處理后的微博數(shù)據(jù),提取的數(shù)據(jù)格式為mid、st、fo、fe、tw、fol,其中,mid為用戶標(biāo)識符,st為用戶身份標(biāo)識符,fo、fe、tw分別為關(guān)注數(shù)、粉絲數(shù)、微博數(shù),fol為關(guān)注列表;
[0013]通過關(guān)注數(shù)fl和微博數(shù)tw篩選微博用戶,按照fl〈p和tw>q篩選出需要進(jìn)行推薦的用戶,其中P為關(guān)注數(shù)fl的閾值,Q為微博數(shù)tw的的閾值;
[0014]生成m*n的關(guān)注矩陣,其中s為第二層的用戶節(jié)點(diǎn)數(shù)和當(dāng)前用戶的關(guān)注數(shù),t為第三層的用戶節(jié)點(diǎn)數(shù),對s個(gè)二層用戶的關(guān)注數(shù)求和,獲得三層用戶節(jié)點(diǎn)數(shù)t ;
[0015]設(shè)m=l+s, n=l+s+t,則一個(gè)m*n的關(guān)注矩陣F定義如下:
[0016]
【權(quán)利要求】
1.一種基于節(jié)點(diǎn)親密度的社交網(wǎng)站好友推薦方法,其特征在于,包括以下步驟: 11)數(shù)據(jù)提取,提取社交網(wǎng)站中用戶的信息和好友關(guān)系; 12)數(shù)據(jù)預(yù)處理,剔除無關(guān)數(shù)據(jù),建立微博數(shù)據(jù)類型,微博數(shù)據(jù)類型包括用戶的微博信息列表和粉絲關(guān)系列表; 13)根據(jù)用戶親密度推薦好友。
2.根據(jù)權(quán)利要求1所述的一種基于節(jié)點(diǎn)親密度的社交網(wǎng)站好友推薦方法,其特征在于,所述的根據(jù)用戶親密度推薦好友包括以下步驟: 21)提取預(yù)處理后的微博數(shù)據(jù),提取的數(shù)據(jù)格式為mid、st、fo、fe、tw、fol,其中,mid為用戶標(biāo)識符,st為用戶身份標(biāo)識符,fo、fe、tw分別為關(guān)注數(shù)、粉絲數(shù)、微博數(shù),fol為關(guān)注列表; 22)通過關(guān)注數(shù)fI和微博數(shù)tw篩選微博用戶,按照f l〈p和tw>q篩選出需要進(jìn)行推薦的用戶,其中P為關(guān)注數(shù)fl的閾值,Q為微博數(shù)tw的的閾值; 23)生成m*n的關(guān)注矩陣,其中s為第二層的用戶節(jié)點(diǎn)數(shù)和當(dāng)前用戶的關(guān)注數(shù),t為第三層的用戶節(jié)點(diǎn)數(shù),對s個(gè)二層用戶的關(guān)注數(shù)求和,獲得三層用戶節(jié)點(diǎn)數(shù)t ; 設(shè)m=l+s, n=l+s+t,則一個(gè)m*n的關(guān)注矩陣F定義如下:
3.根據(jù)權(quán)利要求2所述的一種基于節(jié)點(diǎn)親密度的社交網(wǎng)站好友推薦方法,其特征在于,所述的通過關(guān)注數(shù)fl和微博數(shù)tw篩選微博用戶包括以下步驟: 31)通過對數(shù)正態(tài)分布進(jìn)行數(shù)據(jù)擬合,公式如下:
4.根據(jù)權(quán)利要求2所述的一種基于節(jié)點(diǎn)親密度的社交網(wǎng)站好友推薦方法,其特征在于,所述的建立AT-UR的關(guān)注推薦模型結(jié)構(gòu)包括以下步驟: 41)建立子模型UR和子模型TC ;42)子模型UR的公式為=nFu(0:£+i Uxy =0),子模型TC的公式為TCj = Fy {s + I < I <; S + t}; 43)通過子模型UR和子模型TC,從關(guān)注矩陣中獲取數(shù)據(jù),生成親密度矩陣; 44)子模型UR 親密度計(jì)算公式 10, i+ = (F0jj^Fijj)* ! (Fij0); 45)子模型TC親密度計(jì)算公式Ichj+= Fijjo
5.根據(jù)權(quán)利要求2所述的一種基于節(jié)點(diǎn)親密度的社交網(wǎng)站好友推薦方法,其特征在于,所述的分析親密度矩陣包括以下步驟: 51)對通過子模型UR和TC計(jì)算的用戶親密度進(jìn)行從大到小的排序輪換; 52)從Icm到Ichs中尋找親密度最大值UR_Max,依次將親密度從大到小排序,value_UR為親密度的取值,取值范圍從UR_Max到O ; 53)對于s個(gè)二層用戶的第i個(gè)用戶,若IcM==ValueJR,則關(guān)注推薦矩陣UR的第i行第i列填充User_ID ; 54)從Itl^1到Itl,s+t中找到親密度最大值TC_Max,依次將親密度從大到小排序,Value_TC為親密度的取值,取值范圍從TC_Max到O ; 55)對于t個(gè)三層用戶的第j個(gè)用戶,若Ic^==ValuejC,則關(guān)注推薦矩陣TC的第I行第j列填充User_ID ; 56)得到關(guān)注推薦矩陣UR和TC,其中第一行元素為用戶ID,第二行元素為與之對應(yīng)的親密度,按照親密度從大到小向用戶推薦關(guān)注對象。
6.根據(jù)權(quán)利要求1所述的一種基于節(jié)點(diǎn)親密度的社交網(wǎng)站好友推薦方法,其特征在于,還包括以下步驟: 61)對社交網(wǎng)站好友推薦方法進(jìn)行準(zhǔn)確率評估; 62)將親密度矩陣推薦關(guān)注的用戶作為結(jié)果集合P; 63)從用戶關(guān)注列表中獲得實(shí)際關(guān)注的集合U; 64)比較結(jié)果集合P和實(shí)際關(guān)注的集合U,P和U的交集為正確的預(yù)測,準(zhǔn)確率計(jì)算公式為 Precision= |P Π U|/|U|。
【文檔編號】G06F17/30GK103823888SQ201410084411
【公開日】2014年5月28日 申請日期:2014年3月7日 優(yōu)先權(quán)日:2014年3月7日
【發(fā)明者】譚昶, 陳恩紅, 王浩, 昌瑋 申請人:安徽融數(shù)信息科技有限責(zé)任公司