用于確定社交網(wǎng)絡(luò)用戶關(guān)系強(qiáng)度的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及社交網(wǎng)絡(luò)與數(shù)據(jù)挖掘,尤其涉及用于測(cè)量社交網(wǎng)絡(luò)用戶關(guān)系強(qiáng)度的方 法。
【背景技術(shù)】
[0002] 諸如維基百科,F(xiàn)acebook和Twitter之類的社交網(wǎng)絡(luò)應(yīng)用,在最近幾年取得了 巨大成功,并已經(jīng)逐漸改變了人們的工作和生活方式。與此同時(shí),諸如智能手機(jī),平板電 腦等智能終端日趨普遍。越來(lái)越多的人開(kāi)始使用基于位置的服務(wù)(LBS, Location-Based Service),例如定位、位置共享等等,大量GPS信息被上傳和共享。這些位置信息在記錄用 戶移動(dòng)歷史的同時(shí),也能夠在一定程度上反應(yīng)用戶的興趣、偏好以及相互關(guān)系。為此,基于 位置的用戶關(guān)系強(qiáng)度計(jì)算作為計(jì)算機(jī)應(yīng)用的一大研究熱點(diǎn),在普適計(jì)算、數(shù)據(jù)挖掘和社會(huì) 網(wǎng)絡(luò)等領(lǐng)域受到了廣泛關(guān)注。
[0003] 用戶關(guān)系強(qiáng)度實(shí)際上是用于表示社交網(wǎng)絡(luò)中用戶之間關(guān)系的密切程度。目前,通 常采用二元指標(biāo)來(lái)評(píng)價(jià)在社交網(wǎng)絡(luò)中的用戶關(guān)系強(qiáng)度,例如,用〇表示關(guān)系強(qiáng)度較弱的陌 生人,1表示關(guān)系強(qiáng)度較強(qiáng)的好友。這類指標(biāo)的二元性使得它們只能提供粗粒度的信息,而 無(wú)法對(duì)用戶之間關(guān)系的強(qiáng)弱進(jìn)行更好的區(qū)分。
【發(fā)明內(nèi)容】
[0004] 因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種用于確定社交網(wǎng)絡(luò) 用戶關(guān)系強(qiáng)度的方法,用連續(xù)值來(lái)更細(xì)致有效地刻畫(huà)用戶關(guān)系強(qiáng)度。
[0005] 本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
[0006] -方面,本發(fā)明提供了一種用于確定社交網(wǎng)絡(luò)用戶關(guān)系強(qiáng)度的方法,包括:
[0007] (a)從社交網(wǎng)絡(luò)中獲取與第一用戶和第二用戶的地理信息相關(guān)的數(shù)據(jù)以及與第一 用戶和第二用戶之間的交互相關(guān)的數(shù)據(jù);
[0008] (b)基于所獲取的數(shù)據(jù),確定用于表征第一用戶和第二用戶的用戶地理偏好相似 性、用戶移動(dòng)相似性、用戶交互強(qiáng)度的多個(gè)特征;
[0009] (C)將所確定的多個(gè)特征作為可觀測(cè)變量,將用戶地理偏好相似性、用戶移動(dòng)相似 性和用戶交互強(qiáng)度作為不可觀測(cè)變量,建立結(jié)構(gòu)方程模型的路徑分析圖,其中各個(gè)變量作 為該路徑分析圖的節(jié)點(diǎn),節(jié)點(diǎn)之間以帶箭頭的線連接,箭頭的指向表示變量之間的影響關(guān) 系;
[0010] (d)基于所述路徑分析圖,構(gòu)建結(jié)構(gòu)方程模型并求解出用戶交互強(qiáng)度,以所得到的 用戶交互強(qiáng)度作為第一用戶和第二用戶之間的用戶關(guān)系強(qiáng)度。
[0011] 在上述方法中,所述路徑分析圖中所述變量之間的影響關(guān)系可包括:
[0012] 與反映用戶地理偏好相似性的特征對(duì)應(yīng)的可觀測(cè)變量受用戶地理偏好相似性的 影響;
[0013] 與反映用戶移動(dòng)相似性的特征對(duì)應(yīng)的可觀測(cè)變量受用戶移動(dòng)相似性的影響;
[0014] 與反映用戶交互強(qiáng)度的特征對(duì)應(yīng)的可觀測(cè)變量受用戶交互強(qiáng)度的影響;
[0015] 用戶交互強(qiáng)度受用戶地理偏好相似性和用戶移動(dòng)相似性的影響;以及
[0016] 用戶移動(dòng)相似性受用戶地理偏好相似性的影響。
[0017] 上述方法中,所述表征用戶地理偏好相似性的特征可包括下列中的一個(gè)或多個(gè):
[0018] 第一用戶與第二用戶共同感興趣的區(qū)域的個(gè)數(shù);
[0019] 第一用戶與第二用戶訪問(wèn)二者共同感興趣的區(qū)域的頻率比;
[0020] 第一用戶與第二用戶訪問(wèn)二者共同感興趣的區(qū)域的停留時(shí)間比。
[0021] 上述方法中,所述表征用戶移動(dòng)相似性的特征可包括下列中的一個(gè)或多個(gè):
[0022] 第一用戶與第二用戶共同的起-終點(diǎn)對(duì)的個(gè)數(shù),所述起-終點(diǎn)對(duì)指由用戶的移動(dòng) 軌跡的起始點(diǎn)和終止點(diǎn)構(gòu)成的點(diǎn)對(duì);
[0023] 第一用戶與第二用戶訪問(wèn)二者共同的起-終點(diǎn)對(duì)的頻率比;
[0024] 第一用戶與第二用戶的活躍程度比;其中對(duì)于一個(gè)用戶而言,其活躍程度定義如 下:
[0025] 對(duì)給定社交網(wǎng)絡(luò)中的某個(gè)用戶,記為u,其感興趣的區(qū)域的集合為{iv Iyri… rN},N為該集合中元素的個(gè)數(shù),N和i為整數(shù),N彡1,1彡i彡N,巧表示用戶u的第i個(gè)感 興趣區(qū)域,假設(shè)A被用戶u訪問(wèn)的次數(shù)為c i,則用戶u的活躍程度ALu為:
[0027] 上述方法中,所述表征用戶交互強(qiáng)度的特征可包括下列中的一個(gè)或多個(gè):第一用 戶與第二用戶之間的歷史通話次數(shù)、歷史平均通話時(shí)間、月通話頻率、歷史短信次數(shù)。
[0028] 上述方法中,還可包括對(duì)所構(gòu)建的結(jié)構(gòu)化模型進(jìn)行評(píng)估,以及根據(jù)評(píng)估的結(jié)果對(duì) 該結(jié)構(gòu)化模型進(jìn)行調(diào)整直到滿足需求為止,其中所述對(duì)結(jié)構(gòu)化模型的調(diào)整包括下列中的一 個(gè)或多個(gè)或其組合:
[0029] 刪除某些可觀測(cè)變量;
[0030] 改變部分變量之間的影響關(guān)系;
[0031] 調(diào)整或改變用于表征第一用戶和第二用戶的用戶地理偏好相似性、用戶移動(dòng)相似 性、用戶交互強(qiáng)度的部分特征;以及
[0032] 增加用于表征第一用戶和第二用戶之間的關(guān)系密切程度的新特征,并將該增加的 特征作為新的可觀測(cè)變量。
[0033] 又一方面,本發(fā)明提供了一種用于確定社交網(wǎng)絡(luò)用戶關(guān)系強(qiáng)度的系統(tǒng),包括:
[0034] 用于從社交網(wǎng)絡(luò)中獲取與第一用戶和第二用戶的地理信息相關(guān)的數(shù)據(jù)以及與第 一用戶和第二用戶之間的交互相關(guān)的數(shù)據(jù)的裝置;
[0035] 用于基于所獲取的數(shù)據(jù),確定用于表征第一用戶和第二用戶的用戶地理偏好相似 性、用戶移動(dòng)相似性、用戶交互強(qiáng)度的多個(gè)特征的裝置;
[0036] 用于將所確定的多個(gè)特征作為可觀測(cè)變量,將用戶地理偏好相似性、用戶移動(dòng)相 似性和用戶交互強(qiáng)度作為不可觀測(cè)變量,建立結(jié)構(gòu)方程模型的路徑分析圖的裝置,其中各 個(gè)變量作為該路徑分析圖的節(jié)點(diǎn),節(jié)點(diǎn)之間以帶箭頭的線連接,箭頭的指向表示變量之間 的影響關(guān)系;
[0037] 用于基于所述路徑分析圖,構(gòu)建結(jié)構(gòu)方程模型并求解出用戶交互強(qiáng)度,以所得到 的用戶交互強(qiáng)度作為第一用戶和第二用戶之間的用戶關(guān)系強(qiáng)度的裝置。
[0038] 在上述系統(tǒng)中,所述路徑分析圖中所述變量之間的影響關(guān)系可包括:
[0039] 與反映用戶地理偏好相似性的特征對(duì)應(yīng)的可觀測(cè)變量受用戶地理偏好相似性的 影響;
[0040] 與反映用戶移動(dòng)相似性的特征對(duì)應(yīng)的可觀測(cè)變量受用戶移動(dòng)相似性的影響;
[0041] 與反映用戶交互強(qiáng)度的特征對(duì)應(yīng)的可觀測(cè)變量受用戶交互強(qiáng)度的影響;
[0042] 用戶交互強(qiáng)度受用戶地理偏好相似性和用戶移動(dòng)相似性的影響;以及
[0043] 用戶移動(dòng)相似性受用戶地理偏好相似性的影響。
[0044] 在上述系統(tǒng)中,還包括模型評(píng)估和調(diào)整裝置,用于對(duì)所構(gòu)建的結(jié)構(gòu)化模型進(jìn)行評(píng) 估,以及根據(jù)評(píng)估的結(jié)果對(duì)該結(jié)構(gòu)化模型進(jìn)行調(diào)整直到滿足需求為止,其中所述對(duì)結(jié)構(gòu)化 模型的調(diào)整包括下列中的一個(gè)或多個(gè)或其組合:
[0045] 刪除某些可觀測(cè)變量;
[0046] 改變部分變量之間的影響關(guān)系;
[0047] 調(diào)整或改變用于表征第一用戶和第二用戶的用戶地理偏好相似性、用戶移動(dòng)相似 性、用戶交互強(qiáng)度的部分特征;以及
[0048] 增加用于表征第一用戶和第二用戶之間的關(guān)系密切程度的新特征,并將該增加的 特征作為新的可觀測(cè)變量。
[0049] 與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:
[0050] 結(jié)合用戶交互記錄、用戶地理偏好、用戶移動(dòng)軌跡等信息,采用結(jié)構(gòu)方程模型來(lái)更 好地?cái)M合影響用戶關(guān)系強(qiáng)度的各個(gè)因素之間的關(guān)系,得到以連續(xù)的值衡量的關(guān)系強(qiáng)度,關(guān) 系強(qiáng)度由強(qiáng)到弱都可以由具體數(shù)據(jù)表示,從而便于更精細(xì)的比較和篩選。
【附圖說(shuō)明】
[0051] 以下參照附圖對(duì)本發(fā)明實(shí)施例作進(jìn)一步說(shuō)明,其中:
[0052] 圖1為根據(jù)本發(fā)明一個(gè)實(shí)施例的用于確定社交網(wǎng)絡(luò)用戶關(guān)系強(qiáng)度的方法的流程 示意圖;
[0053] 圖2為根據(jù)本發(fā)明一個(gè)實(shí)施例的結(jié)構(gòu)方程模型的路徑分析圖;
[0054] 圖3為根據(jù)本發(fā)明實(shí)施例的方法與現(xiàn)有的計(jì)算用戶關(guān)系強(qiáng)度方法的ROC曲線對(duì)比 示意圖;
[0055] 圖4為根據(jù)本發(fā)明實(shí)施例的方法與現(xiàn)有的計(jì)算用戶關(guān)系強(qiáng)度方法的性能對(duì)比示 意圖。
【具體實(shí)施方式】
[0056] 為了使本發(fā)明的目的,技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖通過(guò)具體實(shí) 施例對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0057] 在傳統(tǒng)社交網(wǎng)絡(luò)中,用戶好友關(guān)系,用戶交互記錄等特征可用于衡量用戶之間關(guān) 系的密切程度,而在移動(dòng)社交網(wǎng)絡(luò)又