一種基于用戶模型的微博文本推薦方法及其推薦裝置的制造方法

文檔序號：9432654閱讀：255來源：國知局

一種基于用戶模型的微博文本推薦方法及其推薦裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)挖掘、自然語言處理和信息檢索領(lǐng)域，尤其設(shè)及一種基于用戶模型的微博文本推薦方法（MicrobloggingContentRecommendationAlgorithnbMCRA)及其推薦裝置。
【背景技術(shù)】
[0002] 目前對微博用戶建模進行個性化推薦的方法有多種，從側(cè)重點出發(fā)考慮大致可W 歸納為兩種：微博用戶關(guān)系或微博用戶發(fā)布文本內(nèi)容。分析微博用戶關(guān)系，進行個性化推薦：通過分析微博用戶在社交網(wǎng)絡(luò)中的關(guān)系，分析其在社區(qū)中的位置，分析其在社區(qū)內(nèi)的用戶影響力，通過對影響力進行排名，對微博用戶進行用戶推薦。分析微博用戶發(fā)布的文本內(nèi) 容：針對微博用戶發(fā)布的微博內(nèi)容，對其進行處理和分析，從而對微博用戶進行建模和個性化推薦。通過判斷其他用戶與此模型的相似度，向用戶推薦與其相似度最高的用戶或者內(nèi) 容。運種解決方案的核屯、就是進行用戶內(nèi)容建模。
[0003] 對用戶內(nèi)容建模方法常用的有傳統(tǒng)的統(tǒng)計方法詞項頻率一逆向文本頻率模型 (TermRrequen巧-InverseDo州mentRrequen巧,TF-IDFO和主題建模。但傳統(tǒng)的內(nèi)容建模方法TF-IDF，無法體現(xiàn)用戶對于潛在主題的興趣。
[0004] 主題建模技術(shù)主要有潛在語義模型化atentSemanticAnalysis,LSA)、概率潛在語義模型（Prob油ilisiticLatentSemanticAnalysis,PLSA)、隱式狄利克雷分布模型化atentDirichletAllocation,LDA)等。LSA模型將文檔從稀疏的高維詞空間映射到一個低維的向量空間，使用低維空間刻畫同義詞，同義詞會對應(yīng)著相同或相似的主題。然而LSA 模型沒有刻畫詞項出現(xiàn)次數(shù)的概率模型；PLSA模型類似LSA模型的思想，引入了類（主題）和詞之間的概率表示，使用最大期望算法巧xpectationMaximizationAlgorithm,EM)與最大似然估計可W獲得此模型的參數(shù)。此模型在文檔層面上沒有提供合適的概率模型，使得化SA模型并不是完備的生成式模型，而必須在確定文檔的情況下才能對模型進行隨機抽樣。陽0化]針對化SA的不足，研究者們提出了隱狄里克雷分布LDA模型。LDA模型引入了兩個概率分布，即文檔主題概率分布和主題詞項概率分布，認為文檔是由多主題W某種概率形式組成，主題是由詞項W某種概率形式組成，運符合文檔的生成過程。LDA主題模型能夠較好地反應(yīng)出用戶關(guān)注的主題，但運種方法無法避免微博文字數(shù)目限制帶來的建模不準確。在推薦中單純使用運種用戶主題模型無法達到最好的推薦效果。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明提供了一種基于用戶模型的微博文本推薦方法及其推薦裝置，本發(fā)明能夠在其他微博用戶發(fā)布的海量微博信息中發(fā)現(xiàn)實驗?zāi)繕擞脩艨赡芨信d趣的微博信息，并推薦給目標用戶，從而加強用戶之間的聯(lián)系W便于提升微博的生命力，詳見下文描述：
[0007] 一種基于用戶模型的微博文本推薦方法，所述方法包括W下步驟：
[0008] 獲取微博數(shù)據(jù)，形成微博文檔，對微博文檔進行預處理；
[0009] 根據(jù)LDA主題模型，建立目標用戶主題模型，并計算候選微博與目標用戶主題模型的匹配度；
[0010] 基于TF-IDF算法，建立目標用戶關(guān)鍵詞向量模型，并計算候選微博與目標用戶關(guān) 鍵詞向量模型的匹配度；
[0011] 使用加權(quán)平均的方法結(jié)合兩個匹配度，計算候選微博與目標用戶模型的匹配度作為候選微博的評分，并對評分進行排序。
[0012] 其中，所述計算候選微博與目標用戶模型的匹配度作為候選微博的評分，并對評分進行排序的步驟具體為：
[0013] 獲取候選微博的評分Score(W，U)后，根據(jù)評分對候選微博進行排序，構(gòu)建目標用戶的初始微博推薦列表L。，對初始微博推薦列表L。進行冗余處理；
[0014] 輸出冗余處理后的推薦列表。
[0015] 一種基于用戶模型的微博文本推薦裝置，所述裝置包括：
[0016] 獲取與預處理模塊，用于獲取微博數(shù)據(jù)，形成微博文檔，對微博文檔進行預處理；
[0017] 第一計算模塊，用于根據(jù)LDA主題模型，建立目標用戶主題模型，并計算候選微博與目標用戶主題模型的匹配度；
[0018] 第二計算模塊，用于基于TF-IDF算法，建立目標用戶關(guān)鍵詞向量模型，并計算候選微博與目標用戶關(guān)鍵詞向量模型的匹配度；
[0019] 排序模塊，用于使用加權(quán)平均的方法結(jié)合兩個匹配度，計算候選微博與目標用戶模型的匹配度作為候選微博的評分，并對評分進行排序。
[0020] 其中，所述排序模塊還包括：
[0021] 冗余處理子模塊，用于獲取候選微博的評分Score(W，U)后，根據(jù)評分對候選微博進行排序，構(gòu)建目標用戶的初始微博推薦列表L。，對初始微博推薦列表L。進行冗余處理；陽0巧輸出子模塊，用于輸出冗余處理后的推薦列表。
[0023] 本發(fā)明提供的技術(shù)方案的有益效果是：
[0024](1)在短文本推薦中，結(jié)合LDA主題模型方法和TF-IDF的建模方法為目標用戶建立目標用戶模型，有效發(fā)揮兩種方法的優(yōu)勢，取得更準確的用戶建模效果，同時提出計算候選微博與用戶模型匹配度的計算方法。
[00對似根據(jù)微博文本特點，提出基于加權(quán)的候選微博評分標準，通過對權(quán)值的調(diào)整，可W有效地控制建模方法在評分中占有的比重。為候選微博評分并進行T0P-N推薦，進而獲得更精確的微博文本推薦算法。
【附圖說明】
[00%]圖1為一種基于用戶模型的微博文本推薦方法的流程圖；
[0027] 圖2為MCRA算法的流程圖；
[0028] 圖3為a=0. 0001時，P取不同值時AP的變化示意圖；
[0029] 圖4為MCRA，LDA和TF-IDF的F值比較的示意圖；
[0030] 圖5為MCRA和TF-IDF算法的AP值對比的示意圖；
[0031] 圖6為一種基于用戶模型的微博文本推薦裝置的示意圖；
[0032] 圖7為排序模塊的示意圖。
[0033] 附圖中，各標號所代表的部件列表如下：
[0034] 1 :獲取與預處理模塊； 2 :第一計算模塊； W35] 3 :第二計算模塊； 4 :排序模塊；
[0036] 41 :冗余處理子模塊； 42 ;輸出子模塊。
【具體實施方式】
[0037] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚，下面對本發(fā)明實施方式作進一步地詳細描述。陽0測實施例1
[0039] 一種基于用戶模型的微博文本推薦方法，參見圖1，該微博文本推薦方法包括W下步驟：
[0040] 101 :獲取微博數(shù)據(jù)，形成微博文檔，對微博文檔進行預處理；
[0041] 例如：W新浪微博為研究對象，選定某個新浪微博用戶作為本發(fā)明實施例的目標用戶，對其進行內(nèi)容推薦。使用目標用戶及其關(guān)注者的發(fā)布微博內(nèi)容和轉(zhuǎn)發(fā)微博內(nèi)容作為本發(fā)明實施例的研究范圍，假設(shè)目標用戶及其關(guān)注者發(fā)布和轉(zhuǎn)發(fā)的微博內(nèi)容是目標用戶喜歡的內(nèi)容，可作為研究內(nèi)容分析目標用戶的興趣愛好。抓取目標用戶及其關(guān)注者發(fā)布和轉(zhuǎn) 發(fā)的微博數(shù)據(jù)，并形成本發(fā)明實施例進行模型構(gòu)建的微博文檔。
[0042] 在對每個微博文檔進行預處理，包括：分詞、向量化、降維等步驟，選定實驗用的訓練集和測試集（由候選微博組成的集合）。該步驟的具體操作為本領(lǐng)域技術(shù)人員所公知，本發(fā)明實施例對此不做寶述。
[00創(chuàng) 102 :根據(jù)LDA主題模型，建立目標用戶主題模型，并計算候選微博與目標用戶主題模型的匹配度； W44] 103 :基于TF-IDF算法，建立目標用戶關(guān)鍵詞向量模型，并計算候選微博與目標用戶關(guān)鍵詞向量模型的匹配度；
[0045]目標用戶模型包括：目標用戶主題模型和目標用戶關(guān)鍵詞向量模型。計算候選微博與目標用戶模型的匹配度時，即分別計算候選微博與目標用戶主題模型、W及目標用戶關(guān)鍵詞向量模型的匹配度。
[0046] 104 :使用加權(quán)平均的方法結(jié)合兩個匹配度，計算候選微博與目標用戶模型的匹配度作為候選微博的評分，并對評分進行排序。
[0047] 具體實現(xiàn)時，本發(fā)明實施例根據(jù)目標用戶發(fā)布的消息內(nèi)容對目標用戶進行主題建模。獲取待推薦微博列表，然后根據(jù)候選微博與目標用戶的主題匹配度對候選微博進行評分，根據(jù)評分對候選微博進行排序從而進行推薦。
[0048] 綜上所述，本發(fā)明實施例通過上述步驟101至步驟104提高了微博文本推薦的準確率，使得目標用戶真正感興趣的微博排列在推薦列表中更靠前的位置。 W49] 實施例2
[0050]

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：喻梅;徐天一;王建榮;于健;緱小路;郭佳;
技術(shù)所有人：天津大學;
我是此專利的發(fā)明人

上一篇：一種基于本體庫的交通大數(shù)據(jù)語義應(yīng)用服務(wù)方法
上一篇：一種數(shù)據(jù)相似度分析方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本表示模型相關(guān)技術(shù)

文本主題模型相關(guān)技術(shù)

短文本主題模型相關(guān)技術(shù)

文本向量空間模型相關(guān)技術(shù)

文本分類模型相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于用戶模型的微博文本推薦方法及其推薦裝置的制造方法