基于高斯混合模型的社交網(wǎng)絡用戶興趣預測方法

文檔序號：9432730閱讀：508來源：國知局

基于高斯混合模型的社交網(wǎng)絡用戶興趣預測方法
【技術(shù)領域】
[0001] 本發(fā)明設及社交網(wǎng)絡信息分析技術(shù)領域，特別是一種基于高斯混合模型的社交網(wǎng) 絡用戶興趣預測方法。
【背景技術(shù)】
[0002] 信息的快速擴散和社交網(wǎng)絡的便利方便大量用戶分享他們的日?；顒樱粨Q意見，或與他人建立友誼。一份報告顯示，在2017年底，全球社交網(wǎng)絡用戶的數(shù)量估計有23. 3 億。因此，有效的特征學習和興趣預測不僅對用戶（如尋找有相似興趣的用戶），還同樣對服務提供者（如在一組應用場景中分析用戶行為從而進行個性化推薦）具有重要的意義。
[0003] 然而，鑒于社交數(shù)據(jù)的特征（如數(shù)量巨大、多樣性、數(shù)據(jù)價值高低不一等），高精度地預測用戶興趣，同時保證計算復雜性和延遲在可接受的范圍內(nèi)是很困難的。此外，用戶興趣特征中，短期興趣可能會動態(tài)改變（如受朋友影響）。因此，提出基于高斯混合模型的社交網(wǎng)絡用戶興趣預測方法，它能夠有效預測用戶的短期興趣。

【發(fā)明內(nèi)容】

[0004] 有鑒于此，本發(fā)明的目的是提供一種基于高斯混合模型的社交網(wǎng)絡用戶興趣預測方法，W實現(xiàn)更高的預測精度，縮短使用時間，有效預測用戶的短期興趣。陽〇化]本發(fā)明采用W下方案實現(xiàn)：一種基于高斯混合模型的社交網(wǎng)絡用戶興趣預測方法，包括W下步驟：
[0006] 步驟S1 :從社交網(wǎng)絡中獲取用戶數(shù)據(jù)；
[0007] 步驟S2 :對獲取的用戶數(shù)據(jù)進行特征向量提取，生成一系列的特征向量；
[0008] 步驟S3 :采用高斯混合模型構(gòu)建預測模型；
[0009] 步驟S4 :采用EM算法優(yōu)化參數(shù)并計算預測結(jié)果。
[0010] 進一步地，所述步驟S1具體為：獲取P個微博用戶發(fā)表或轉(zhuǎn)發(fā)的微博信息作為訓練數(shù)據(jù)，獲取q個微博用戶發(fā)表或者轉(zhuǎn)發(fā)的微博信息作為測試數(shù)據(jù)，獲取r個熱口微博類別 W及每個熱口微博類別中的S條熱口微博。
[0011] 進一步地，所述步驟S2具體為：對熱口微博進行預處理，所述預處理包括分詞、詞頻統(tǒng)計和去重，可得出t個熱口關(guān)鍵詞作為熱口微博類的興趣特征值，從而生成r個t維的熱口微博特征向量；同時W微博用戶為單位，對所述訓練數(shù)據(jù)，測試數(shù)據(jù)進行預處理，包括中文分詞、停用詞處理W及詞頻統(tǒng)計；再根據(jù)所述r個t維的熱口微博特征向量，從微博用戶發(fā)表或轉(zhuǎn)發(fā)的微博信息中提取該用戶對應的t個興趣特征值，轉(zhuǎn)換為該微博用戶的特征向量。
[0012] 較佳的，所述中文分詞的方法為：采用中文分詞系統(tǒng)，結(jié)合自定義用戶詞典對微博星系進行分詞；所述停用詞處理的方法為：采用化shMap快速索引查表法對無用信息進行過濾降低微博信息的噪音。
[0013] 進一步地，所述步驟S3中的高斯混合模型的定義表示為一個線性疊加的高斯模型，如公式（1)所示：
[0014]
(1) 陽015] 其中，高斯密度N(x|iik，Sk)為一混合組件，其均值為iik，其協(xié)方差為Sk，Kk為混合系數(shù)；對公式（1)的兩邊關(guān)于X求積分，并標準化p(x)和單個高斯組件，可得公式（2) 如下：
[0016]
(2)
[0017]由于要求p(x) >0,N(x|jik，Xk)>0,則0;
[0018] 結(jié)合公式（2)，可到得到公式（3):
[0019] 0《3ik《l做
[0020] 因此，混合系數(shù)滿足成為概率的條件，根據(jù)加乘原理，可得到邊際密度如公式（4) 所示：
（如
[00巧所述公式（4)相當于公式（1)，其中，3ik=p(k)，是第k個元素的先驗概率，密度N(x|iik，Sk) =p(x|k)是k條件下X的概率；因此，根據(jù)貝葉斯定理，生成下列公式巧）：
[0023] (5)
[0024] 假定需要進行預測的特征向量數(shù)據(jù)集為1x1，……，xj，將所述數(shù)據(jù)集表示為一個 NXD矩陣X，其中，x"T表示第N行湘應的隱形隨機變量采用一個用z"T表示行的NXK矩陣 Z表不；
[0025] 則高斯混合分布的形可由參數(shù)31，y和S控制的，其中31S{>1，…，31J， y= {>1，…，yj，S= (Si,…，2,};執(zhí)行最大似然估計后，所述公式（1)轉(zhuǎn)化為如下公式化）：
[0026] ^6) 陽027]其中X= {xi,......，XfJ。
[0028] 進一步地，所述步驟S4具體包括W下步驟：
[0029] 步驟S41 :采用EM算法，初始化均值yk，協(xié)方差Sknk和混合系數(shù)nk，并評估初始對數(shù)似然估計函數(shù)值；
[0030] 步驟S42 :采用W下公式（7)估計隱含類別變量：
[0031]
巧)
[0032] 步驟S43:采用W下公式（8)、公式巧）、公式（10)W及公式（12)進行參數(shù)更新：
[0038] 步驟S44 :采用W下公式（12)評估對數(shù)似然估計函數(shù)值
[0039] (12) W40] 若所述公式不滿足收斂準則，則返回所述步驟S42。
[0041] 與現(xiàn)有技術(shù)相比，本發(fā)明采用高斯混合模型，對社交網(wǎng)絡用戶興趣可實現(xiàn)更高的預測精度，縮短使用時間，有效預測用戶的短期興趣。
【附圖說明】
[0042] 圖1為本發(fā)明的方法流程圖。
[0043] 圖2為本發(fā)明中的興趣預測的系統(tǒng)框架圖。
【具體實施方式】
[0044] 下面結(jié)合附圖及實施例對本發(fā)明做進一步說明。
[0045] 本實施例提供一種基于高斯混合模型的社交網(wǎng)絡用戶興趣預測方法，如圖1和圖 2所示，包括W下步驟：
[0046] 步驟S1 :從社交網(wǎng)絡中獲取用戶數(shù)據(jù)；
[0047] 步驟S2:對獲取的用戶數(shù)據(jù)進行特征向量提取，生成一系列的特征向量；
[0048] 步驟S3 :采用高斯混合模型構(gòu)建預測模型；
[0049] 步驟S4 :采用EM算法優(yōu)化參數(shù)并計算預測結(jié)果。
[0050] 在本實施例中，所述步驟S1具體為：獲取P個微博用戶發(fā)表或轉(zhuǎn)發(fā)的微博信息作為訓練數(shù)據(jù)，獲取q個微博用戶發(fā)表或者轉(zhuǎn)發(fā)的微博信息作為測試數(shù)據(jù)，獲取r個熱口微博類別W及每個熱口微博類別中的S條熱口微博。
[0051] 在本實施例中，所述步驟S2具體為：對熱口微博進行預處理，所述預處理包括分詞、詞頻統(tǒng)計和去重，可得出t個熱口關(guān)鍵詞作為熱口微博類的興趣特征值，從而生成r個t 維的熱口微博特征向量；同時W微博用戶為單位，對所述訓練數(shù)據(jù)，測試數(shù)據(jù)進行預處理，包括中文分詞、停用詞處理W及詞頻統(tǒng)計；再根據(jù)所述r個t維的熱口微博特征向量，從微博用戶發(fā)表或轉(zhuǎn)發(fā)的微博信息中提取該用戶對應的t個興趣特征值，轉(zhuǎn)換為該微博用戶的特征向量。
[0052] 在本實施例中，較佳的，所述中文分詞的方法為：采用中文分詞系統(tǒng)，結(jié)合自定義用戶詞典對微博星系進行分詞；所述停用詞處理的方法為：采用化shMap快速索引

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭相涵;賴太平;郭文忠;
技術(shù)所有人：福州大學;
我是此專利的發(fā)明人

該領域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

用戶興趣模型相關(guān)技術(shù)

用戶興趣衰減模型相關(guān)技術(shù)

高斯混合模型相關(guān)技術(shù)

高斯模型相關(guān)技術(shù)

單高斯模型相關(guān)技術(shù)

高斯擴散模型相關(guān)技術(shù)

高斯煙羽模型相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于高斯混合模型的社交網(wǎng)絡用戶興趣預測方法