基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法_2

文檔序號(hào)：9432730閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法

查表法對(duì)無用信息進(jìn)行過濾降低微博信息的噪。
[0053] 在本實(shí)施例中，進(jìn)行去重是考慮到不同類別可能包含相同的關(guān)鍵字，重復(fù)數(shù)據(jù)刪除功能是必要的，W減少冗余的手動(dòng)操作的過程。
[0054] 在本實(shí)施例中，所述步驟S3中的高斯混合模型的定義表示為一個(gè)線性疊加的高斯模型，如公式（1)所示： W對(duì)
《1) 陽056] 其中，高斯密度N(x|iik，Sk)為一混合組件，其均值為iik，其協(xié)方差為Sk，Kk為混合系數(shù)；對(duì)公式（1)的兩邊關(guān)于X求積分，并標(biāo)準(zhǔn)化p(x)和單個(gè)高斯組件，可得公式（2) 如下：陽057]
(落）陽化引由于要求P(X) >0,N(xIyk，Zk) >0,則n0 ;
[0059] 結(jié)合公式似，可到得到公式做：
[0060] 0《31 1 做
[0061] 因此，混合系數(shù)滿足成為概率的條件，根據(jù)加乘原理，可得到邊際密度如公式（4) 所示：柳創(chuàng)
(4)
[006引所述公式（4)相當(dāng)于公式（1)，其中，3ik=p(k)，是第k個(gè)元素的先驗(yàn)概率，密度N(x|iik，Sk) =p(x|k)是k條件下X的概率；因此，根據(jù)貝葉斯定理，生成下列公式巧）：
[0064] (5) W65] 假定需要進(jìn)行預(yù)測(cè)的特征向量數(shù)據(jù)集為{xi，……，xj，將所述數(shù)據(jù)集表示為一個(gè) NXD矩陣X，其中，x"T表示第N行湘應(yīng)的隱形隨機(jī)變量采用一個(gè)用Z"T表示行的NXK矩陣Z表不；
[0066] 則高斯混合分布的形可由參數(shù)31，y和S控制的，其中31S{>1，…，Jij， yS{>1，…，iikKSS{Si，…，2k};執(zhí)行最大似然估計(jì)后，所述公式（1)轉(zhuǎn)化為如下公式做：
[0067] (65 W側(cè)其中X={xi，……，刮}。 W例在本實(shí)施例中，所述步驟S4具體包括W下步驟：
[0070] 步驟S41 :采用EM算法，初始化均值yk，協(xié)方差Sknk和混合系數(shù)nk，并評(píng)估初始對(duì)數(shù)似然估計(jì)函數(shù)值；
[0071] 步驟S42 :采用W下公式（7)估計(jì)隱含類別變量：
[0072] 巧）
[007引步驟S43 :采用W下公式做、公式巧）、公式（10)W及公式（12)進(jìn)行參數(shù)更新：
[0079] 步驟S44 :采用W下公式（12)評(píng)估對(duì)數(shù)似然估計(jì)函數(shù)值
[0080] (12)
[0081] 若所述公式（12)不滿足收斂準(zhǔn)則，則返回所述步驟S42。
[0082]W上所述僅為本發(fā)明的較佳實(shí)施例，凡依本發(fā)明申請(qǐng)專利范圍所做的均等變化與修飾，皆應(yīng)屬本發(fā)明的涵蓋范圍。
【主權(quán)項(xiàng)】
1. 一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法，其特征在于：包括以下步驟：步驟Sl :從社交網(wǎng)絡(luò)中獲取用戶數(shù)據(jù)；步驟S2 :對(duì)獲取的用戶數(shù)據(jù)進(jìn)行特征向量提取，生成一系列的特征向量；步驟S3 :采用高斯混合模型構(gòu)建預(yù)測(cè)模型；步驟S4 :采用EM算法優(yōu)化參數(shù)并計(jì)算預(yù)測(cè)結(jié)果。2. 根據(jù)權(quán)利要求1所述的一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法，其特征在于：所述步驟Sl具體為：獲取p個(gè)微博用戶發(fā)表或轉(zhuǎn)發(fā)的微博信息作為訓(xùn)練數(shù)據(jù)，獲取q個(gè)微博用戶發(fā)表或者轉(zhuǎn)發(fā)的微博信息作為測(cè)試數(shù)據(jù)，獲取r個(gè)熱門微博類別以及每個(gè) 熱門微博類別中的s條熱門微博。3. 根據(jù)權(quán)利要求1所述的一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法，其特征在于：所述步驟S2具體為：對(duì)熱門微博進(jìn)行預(yù)處理，所述預(yù)處理包括分詞、詞頻統(tǒng)計(jì)和去重，可得出t個(gè)熱門關(guān)鍵詞作為熱門微博類的興趣特征值，從而生成r個(gè)t維的熱門微博特征向量；同時(shí)以微博用戶為單位，對(duì)所述訓(xùn)練數(shù)據(jù)，測(cè)試數(shù)據(jù)進(jìn)行預(yù)處理，包括中文分詞、停用詞處理以及詞頻統(tǒng)計(jì)；再根據(jù)所述r個(gè)t維的熱門微博特征向量，從微博用戶發(fā)表或轉(zhuǎn)發(fā) 的微博信息中提取該用戶對(duì)應(yīng)的t個(gè)興趣特征值，轉(zhuǎn)換為該微博用戶的特征向量。4. 根據(jù)權(quán)利要求3所述的一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法，其特征在于：所述中文分詞的方法為：采用中文分詞系統(tǒng)，結(jié)合自定義用戶詞典對(duì)微博星系進(jìn) 行分詞；所述停用詞處理的方法為：采用HashMap快速索引查表法對(duì)無用信息進(jìn)行過濾降低微博信息的噪音。5. 根據(jù)權(quán)利要求1所述的一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法，其特征在于：所述步驟S3中的高斯混合模型的定義表示為一個(gè)線性疊加的高斯模型，如公式 (1)所示：其中，高斯密度N(x I μ k, Σ1〇為一混合組件，其均值為μ k，其協(xié)方差為Xk，Jik為混合系數(shù)；對(duì)公式（1)的兩邊關(guān)于X求積分，并標(biāo)準(zhǔn)化P(X)和單個(gè)高斯組件，可得公式（2)如下：由于要求 P(X)彡〇, N(x| yk, Σ10 彡 0,則 JT 〇 ; 結(jié)合公式（2)，可到得到公式（3): 1 (3) 因此，混合系數(shù)滿足成為概率的條件，根據(jù)加乘原理，可得到邊際密度如公式（4)所示：所述公式⑷相當(dāng)于公式（I)，其中，JTk= P(k)，是第k個(gè)元素的先驗(yàn)概率，密度 N(x| yk, Σ1〇 = p(x|k)是k條件下X的概率；因此，根據(jù)貝葉斯定理，生成下列公式（5):假定需要進(jìn)行預(yù)測(cè)的特征向量數(shù)據(jù)集為Ix1,……，xN}，將所述數(shù)據(jù)集表示為一個(gè)NXD 矩陣X，其中，χητ表示第N行；相應(yīng)的隱形隨機(jī)變量采用一個(gè)用z ητ表示行的NXK矩陣Z表示；則高斯混合分布的形可由參數(shù)：π，μ和Σ控制的，其中π = {> …，π k}， μ = {μι，…，yk}，Σ = (X1，…，;執(zhí)行最大似然估計(jì)后，所述公式⑴轉(zhuǎn)化為如下公式（6):其中 X = U1,......，xN}。6.根據(jù)權(quán)利要求1所述的一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法，其特征在于：所述步驟S4具體包括以下步驟：步驟S41 :采用EM算法，初始化均值μ k，協(xié)方差Xk Jik和混合系數(shù)π k，并評(píng)估初始對(duì) 數(shù)似然估計(jì)函數(shù)值；步驟S42 :采用以下公式（7)估計(jì)隱含類別變量：步驟S43 :采用以下公式（8)、公式（9)、公式（10)以及公式（12)進(jìn)行參數(shù)更新：步驟S44 :采用以下公式（12)評(píng)估對(duì)數(shù)似然估計(jì)函數(shù)值若所述公式（12)不滿足收斂準(zhǔn)則，則返回所述步驟S42。
【專利摘要】本發(fā)明涉及一種基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法，包括以下步驟：步驟S1：從社交網(wǎng)絡(luò)中獲取用戶數(shù)據(jù)；步驟S2：對(duì)獲取的用戶數(shù)據(jù)進(jìn)行特征向量提取，生成一系列的特征向量；步驟S3：采用高斯混合模型構(gòu)建預(yù)測(cè)模型；步驟S4：采用EM算法優(yōu)化參數(shù)并計(jì)算預(yù)測(cè)結(jié)果。本發(fā)明采用高斯混合模型，以實(shí)現(xiàn)更高的預(yù)測(cè)精度，縮短使用時(shí)間，有效預(yù)測(cè)用戶的短期興趣。
【IPC分類】G06F17/30, G06Q50/00
【公開號(hào)】CN105183909
【申請(qǐng)?zhí)枴緾N201510646248
【發(fā)明人】鄭相涵, 賴太平, 郭文忠
【申請(qǐng)人】福州大學(xué)
【公開日】2015年12月23日
【申請(qǐng)日】2015年10月9日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

用戶興趣模型相關(guān)技術(shù)

用戶興趣衰減模型相關(guān)技術(shù)

高斯混合模型相關(guān)技術(shù)

高斯模型相關(guān)技術(shù)

單高斯模型相關(guān)技術(shù)

高斯擴(kuò)散模型相關(guān)技術(shù)

高斯煙羽模型相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于高斯混合模型的社交網(wǎng)絡(luò)用戶興趣預(yù)測(cè)方法_2