查表法 對(duì)無用信息進(jìn)行過濾降低微博信息的噪。
[0053] 在本實(shí)施例中,進(jìn)行去重是考慮到不同類別可能包含相同的關(guān)鍵字,重復(fù)數(shù)據(jù)刪 除功能是必要的,W減少冗余的手動(dòng)操作的過程。
[0054] 在本實(shí)施例中,所述步驟S3中的高斯混合模型的定義表示為一個(gè)線性疊加的高 斯模型,如公式(1)所示: W對(duì)
《1) 陽056] 其中,高斯密度N(x|iik,Sk)為一混合組件,其均值為iik,其協(xié)方差為Sk,Kk為 混合系數(shù);對(duì)公式(1)的兩邊關(guān)于X求積分,并標(biāo)準(zhǔn)化p(x)和單個(gè)高斯組件,可得公式(2) 如下: 陽057]
(落) 陽化引由于要求P(X) >0,N(xIyk,Zk) >0,則n0 ;
[0059] 結(jié)合公式似,可到得到公式做:
[0060] 0《31 1 做
[0061] 因此,混合系數(shù)滿足成為概率的條件,根據(jù)加乘原理,可得到邊際密度如公式(4) 所示: 柳創(chuàng)
(4)
[006引所述公式(4)相當(dāng)于公式(1),其中,3ik=p(k),是第k個(gè)元素的先驗(yàn)概率,密度N(x|iik,Sk) =p(x|k)是k條件下X的概率;因此,根據(jù)貝葉斯定理,生成下列公式巧):
[0064] (5) W65] 假定需要進(jìn)行預(yù)測(cè)的特征向量數(shù)據(jù)集為{xi,……,xj,將所述數(shù)據(jù)集表示為一個(gè) NXD矩陣X,其中,x"T表示第N行湘應(yīng)的隱形隨機(jī)變量采用一個(gè)用Z"T表示行的NXK矩陣Z表不;
[0066] 則高斯混合分布的形可由參數(shù)31,y和S控制的,其中31S{>1,…,Jij, yS{>1,…,iikKSS{Si,…,2k};執(zhí)行最大似然估計(jì)后,所述公式(1)轉(zhuǎn)化為如下公 式做:
[0067] (65 W側(cè)其中X={xi,……,刮}。 W例在本實(shí)施例中,所述步驟S4具體包括W下步驟:
[0070] 步驟S41 :采用EM算法,初始化均值yk,協(xié)方差Sknk和混合系數(shù)nk,并評(píng)估初 始對(duì)數(shù)似然估計(jì)函數(shù)值;
[0071] 步驟S42 :采用W下公式(7)估計(jì)隱含類別變量:
[0072] 巧)
[007引步驟S43 :采用W下公式做、公式巧)、公式(10)W及公式(12)進(jìn)行參數(shù)更新:
[0079] 步驟S44 :采用W下公式(12)評(píng)估對(duì)數(shù)似然估計(jì)函數(shù)值
[0080] (12)
[0081] 若所述公式(12)不滿足收斂準(zhǔn)則,則返回所述步驟S42。
[0082]W上所述僅為本發(fā)明的較佳實(shí)施例,凡依本發(fā)明申請(qǐng)專利范圍所做的均等變化與 修飾,皆應(yīng)屬本發(fā)明的涵蓋范圍。
【主權(quán)項(xiàng)】
1. 一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法,其特征在于:包括以下步 驟: 步驟Sl :從社交網(wǎng)絡(luò)中獲取用戶數(shù)據(jù); 步驟S2 :對(duì)獲取的用戶數(shù)據(jù)進(jìn)行特征向量提取,生成一系列的特征向量; 步驟S3 :采用高斯混合模型構(gòu)建預(yù)測(cè)模型; 步驟S4 :采用EM算法優(yōu)化參數(shù)并計(jì)算預(yù)測(cè)結(jié)果。2. 根據(jù)權(quán)利要求1所述的一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法,其特 征在于:所述步驟Sl具體為:獲取p個(gè)微博用戶發(fā)表或轉(zhuǎn)發(fā)的微博信息作為訓(xùn)練數(shù)據(jù),獲 取q個(gè)微博用戶發(fā)表或者轉(zhuǎn)發(fā)的微博信息作為測(cè)試數(shù)據(jù),獲取r個(gè)熱門微博類別以及每個(gè) 熱門微博類別中的s條熱門微博。3. 根據(jù)權(quán)利要求1所述的一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法,其特 征在于:所述步驟S2具體為:對(duì)熱門微博進(jìn)行預(yù)處理,所述預(yù)處理包括分詞、詞頻統(tǒng)計(jì)和去 重,可得出t個(gè)熱門關(guān)鍵詞作為熱門微博類的興趣特征值,從而生成r個(gè)t維的熱門微博特 征向量;同時(shí)以微博用戶為單位,對(duì)所述訓(xùn)練數(shù)據(jù),測(cè)試數(shù)據(jù)進(jìn)行預(yù)處理,包括中文分詞、停 用詞處理以及詞頻統(tǒng)計(jì);再根據(jù)所述r個(gè)t維的熱門微博特征向量,從微博用戶發(fā)表或轉(zhuǎn)發(fā) 的微博信息中提取該用戶對(duì)應(yīng)的t個(gè)興趣特征值,轉(zhuǎn)換為該微博用戶的特征向量。4. 根據(jù)權(quán)利要求3所述的一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法,其特 征在于:所述中文分詞的方法為:采用中文分詞系統(tǒng),結(jié)合自定義用戶詞典對(duì)微博星系進(jìn) 行分詞;所述停用詞處理的方法為:采用HashMap快速索引查表法對(duì)無用信息進(jìn)行過濾降 低微博信息的噪音。5. 根據(jù)權(quán)利要求1所述的一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法,其 特征在于:所述步驟S3中的高斯混合模型的定義表示為一個(gè)線性疊加的高斯模型,如公式 (1)所示:其中,高斯密度N(x I μ k, Σ1〇為一混合組件,其均值為μ k,其協(xié)方差為Xk,Jik為混合 系數(shù);對(duì)公式(1)的兩邊關(guān)于X求積分,并標(biāo)準(zhǔn)化P(X)和單個(gè)高斯組件,可得公式(2)如 下:由于要求 P(X)彡 〇, N(x| yk, Σ10 彡 0,則 JT 〇 ; 結(jié)合公式(2),可到得到公式(3): 1 (3) 因此,混合系數(shù)滿足成為概率的條件,根據(jù)加乘原理,可得到邊際密度如公式(4)所 示:所述公式⑷相當(dāng)于公式(I),其中,JTk= P(k),是第k個(gè)元素的先驗(yàn)概率,密度 N(x| yk, Σ1〇 = p(x|k)是k條件下X的概率;因此,根據(jù)貝葉斯定理,生成下列公式(5):假定需要進(jìn)行預(yù)測(cè)的特征向量數(shù)據(jù)集為Ix1,……,xN},將所述數(shù)據(jù)集表示為一個(gè)NXD 矩陣X,其中,χητ表示第N行;相應(yīng)的隱形隨機(jī)變量采用一個(gè)用z ητ表示行的NXK矩陣Z表 示; 則高斯混合分布的形可由參數(shù):π,μ和Σ控制的,其中π = {> …,π k}, μ = {μι,…,yk},Σ = (X1,…,;執(zhí)行最大似然估計(jì)后,所述公式⑴轉(zhuǎn)化為如下公 式(6):其中 X = U1,......,xN}。6.根據(jù)權(quán)利要求1所述的一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法,其特 征在于:所述步驟S4具體包括以下步驟: 步驟S41 :采用EM算法,初始化均值μ k,協(xié)方差Xk Jik和混合系數(shù)π k,并評(píng)估初始對(duì) 數(shù)似然估計(jì)函數(shù)值; 步驟S42 :采用以下公式(7)估計(jì)隱含類別變量:步驟S43 :采用以下公式(8)、公式(9)、公式(10)以及公式(12)進(jìn)行參數(shù)更新:步驟S44 :采用以下公式(12)評(píng)估對(duì)數(shù)似然估計(jì)函數(shù)值若所述公式(12)不滿足收斂準(zhǔn)則,則返回所述步驟S42。
【專利摘要】本發(fā)明涉及一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法,包括以下步驟:步驟S1:從社交網(wǎng)絡(luò)中獲取用戶數(shù)據(jù);步驟S2:對(duì)獲取的用戶數(shù)據(jù)進(jìn)行特征向量提取,生成一系列的特征向量;步驟S3:采用高斯混合模型構(gòu)建預(yù)測(cè)模型;步驟S4:采用EM算法優(yōu)化參數(shù)并計(jì)算預(yù)測(cè)結(jié)果。本發(fā)明采用高斯混合模型,以實(shí)現(xiàn)更高的預(yù)測(cè)精度,縮短使用時(shí)間,有效預(yù)測(cè)用戶的短期興趣。
【IPC分類】G06F17/30, G06Q50/00
【公開號(hào)】CN105183909
【申請(qǐng)?zhí)枴緾N201510646248
【發(fā)明人】鄭相涵, 賴太平, 郭文忠
【申請(qǐng)人】福州大學(xué)
【公開日】2015年12月23日
【申請(qǐng)日】2015年10月9日