亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于用戶模型的微博文本推薦方法及其推薦裝置的制造方法

文檔序號:9432654閱讀:255來源:國知局
一種基于用戶模型的微博文本推薦方法及其推薦裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)挖掘、自然語言處理和信息檢索領(lǐng)域,尤其設(shè)及一種基于用戶模 型的微博文本推薦方法(MicrobloggingContentRecommendationAlgorithnbMCRA)及其 推薦裝置。
【背景技術(shù)】
[0002] 目前對微博用戶建模進行個性化推薦的方法有多種,從側(cè)重點出發(fā)考慮大致可W 歸納為兩種:微博用戶關(guān)系或微博用戶發(fā)布文本內(nèi)容。分析微博用戶關(guān)系,進行個性化推 薦:通過分析微博用戶在社交網(wǎng)絡(luò)中的關(guān)系,分析其在社區(qū)中的位置,分析其在社區(qū)內(nèi)的用 戶影響力,通過對影響力進行排名,對微博用戶進行用戶推薦。分析微博用戶發(fā)布的文本內(nèi) 容:針對微博用戶發(fā)布的微博內(nèi)容,對其進行處理和分析,從而對微博用戶進行建模和個性 化推薦。通過判斷其他用戶與此模型的相似度,向用戶推薦與其相似度最高的用戶或者內(nèi) 容。運種解決方案的核屯、就是進行用戶內(nèi)容建模。
[0003] 對用戶內(nèi)容建模方法常用的有傳統(tǒng)的統(tǒng)計方法詞項頻率一逆向文本頻率模型 (TermRrequen巧-InverseDo州mentRrequen巧,TF-IDFO和主題建模。但傳統(tǒng)的內(nèi)容建模 方法TF-IDF,無法體現(xiàn)用戶對于潛在主題的興趣。
[0004] 主題建模技術(shù)主要有潛在語義模型化atentSemanticAnalysis,LSA)、概率潛在 語義模型(Prob油ilisiticLatentSemanticAnalysis,PLSA)、隱式狄利克雷分布模型 化atentDirichletAllocation,LDA)等。LSA模型將文檔從稀疏的高維詞空間映射到一個 低維的向量空間,使用低維空間刻畫同義詞,同義詞會對應(yīng)著相同或相似的主題。然而LSA 模型沒有刻畫詞項出現(xiàn)次數(shù)的概率模型;PLSA模型類似LSA模型的思想,引入了類(主題) 和詞之間的概率表示,使用最大期望算法巧xpectationMaximizationAlgorithm,EM)與 最大似然估計可W獲得此模型的參數(shù)。此模型在文檔層面上沒有提供合適的概率模型,使 得化SA模型并不是完備的生成式模型,而必須在確定文檔的情況下才能對模型進行隨機 抽樣。 陽0化]針對化SA的不足,研究者們提出了隱狄里克雷分布LDA模型。LDA模型引入了兩 個概率分布,即文檔主題概率分布和主題詞項概率分布,認為文檔是由多主題W某種概率 形式組成,主題是由詞項W某種概率形式組成,運符合文檔的生成過程。LDA主題模型能 夠較好地反應(yīng)出用戶關(guān)注的主題,但運種方法無法避免微博文字數(shù)目限制帶來的建模不準 確。在推薦中單純使用運種用戶主題模型無法達到最好的推薦效果。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明提供了一種基于用戶模型的微博文本推薦方法及其推薦裝置,本發(fā)明能夠 在其他微博用戶發(fā)布的海量微博信息中發(fā)現(xiàn)實驗?zāi)繕擞脩艨赡芨信d趣的微博信息,并推薦 給目標用戶,從而加強用戶之間的聯(lián)系W便于提升微博的生命力,詳見下文描述:
[0007] 一種基于用戶模型的微博文本推薦方法,所述方法包括W下步驟:
[0008] 獲取微博數(shù)據(jù),形成微博文檔,對微博文檔進行預處理;
[0009] 根據(jù)LDA主題模型,建立目標用戶主題模型,并計算候選微博與目標用戶主題模 型的匹配度;
[0010] 基于TF-IDF算法,建立目標用戶關(guān)鍵詞向量模型,并計算候選微博與目標用戶關(guān) 鍵詞向量模型的匹配度;
[0011] 使用加權(quán)平均的方法結(jié)合兩個匹配度,計算候選微博與目標用戶模型的匹配度作 為候選微博的評分,并對評分進行排序。
[0012] 其中,所述計算候選微博與目標用戶模型的匹配度作為候選微博的評分,并對評 分進行排序的步驟具體為:
[0013] 獲取候選微博的評分Score(W,U)后,根據(jù)評分對候選微博進行排序,構(gòu)建目標用 戶的初始微博推薦列表L。,對初始微博推薦列表L。進行冗余處理;
[0014] 輸出冗余處理后的推薦列表。
[0015] 一種基于用戶模型的微博文本推薦裝置,所述裝置包括:
[0016] 獲取與預處理模塊,用于獲取微博數(shù)據(jù),形成微博文檔,對微博文檔進行預處理;
[0017] 第一計算模塊,用于根據(jù)LDA主題模型,建立目標用戶主題模型,并計算候選微博 與目標用戶主題模型的匹配度;
[0018] 第二計算模塊,用于基于TF-IDF算法,建立目標用戶關(guān)鍵詞向量模型,并計算候 選微博與目標用戶關(guān)鍵詞向量模型的匹配度;
[0019] 排序模塊,用于使用加權(quán)平均的方法結(jié)合兩個匹配度,計算候選微博與目標用戶 模型的匹配度作為候選微博的評分,并對評分進行排序。
[0020] 其中,所述排序模塊還包括:
[0021] 冗余處理子模塊,用于獲取候選微博的評分Score(W,U)后,根據(jù)評分對候選微博 進行排序,構(gòu)建目標用戶的初始微博推薦列表L。,對初始微博推薦列表L。進行冗余處理; 陽0巧輸出子模塊,用于輸出冗余處理后的推薦列表。
[0023] 本發(fā)明提供的技術(shù)方案的有益效果是:
[0024](1)在短文本推薦中,結(jié)合LDA主題模型方法和TF-IDF的建模方法為目標用戶建 立目標用戶模型,有效發(fā)揮兩種方法的優(yōu)勢,取得更準確的用戶建模效果,同時提出計算候 選微博與用戶模型匹配度的計算方法。
[00對 似根據(jù)微博文本特點,提出基于加權(quán)的候選微博評分標準,通過對權(quán)值的調(diào)整, 可W有效地控制建模方法在評分中占有的比重。為候選微博評分并進行T0P-N推薦,進而 獲得更精確的微博文本推薦算法。
【附圖說明】
[00%]圖1為一種基于用戶模型的微博文本推薦方法的流程圖;
[0027] 圖2為MCRA算法的流程圖;
[0028] 圖3為a=0. 0001時,P取不同值時AP的變化示意圖;
[0029] 圖4為MCRA,LDA和TF-IDF的F值比較的示意圖;
[0030] 圖5為MCRA和TF-IDF算法的AP值對比的示意圖;
[0031] 圖6為一種基于用戶模型的微博文本推薦裝置的示意圖;
[0032] 圖7為排序模塊的示意圖。
[0033] 附圖中,各標號所代表的部件列表如下:
[0034] 1 :獲取與預處理模塊; 2 :第一計算模塊; W35] 3 :第二計算模塊; 4 :排序模塊;
[0036] 41 :冗余處理子模塊; 42 ;輸出子模塊。
【具體實施方式】
[0037] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面對本發(fā)明實施方式作進一步 地詳細描述。 陽0測 實施例1
[0039] 一種基于用戶模型的微博文本推薦方法,參見圖1,該微博文本推薦方法包括W下 步驟:
[0040] 101 :獲取微博數(shù)據(jù),形成微博文檔,對微博文檔進行預處理;
[0041] 例如:W新浪微博為研究對象,選定某個新浪微博用戶作為本發(fā)明實施例的目標 用戶,對其進行內(nèi)容推薦。使用目標用戶及其關(guān)注者的發(fā)布微博內(nèi)容和轉(zhuǎn)發(fā)微博內(nèi)容作為 本發(fā)明實施例的研究范圍,假設(shè)目標用戶及其關(guān)注者發(fā)布和轉(zhuǎn)發(fā)的微博內(nèi)容是目標用戶喜 歡的內(nèi)容,可作為研究內(nèi)容分析目標用戶的興趣愛好。抓取目標用戶及其關(guān)注者發(fā)布和轉(zhuǎn) 發(fā)的微博數(shù)據(jù),并形成本發(fā)明實施例進行模型構(gòu)建的微博文檔。
[0042] 在對每個微博文檔進行預處理,包括:分詞、向量化、降維等步驟,選定實驗用的訓 練集和測試集(由候選微博組成的集合)。該步驟的具體操作為本領(lǐng)域技術(shù)人員所公知,本 發(fā)明實施例對此不做寶述。
[00創(chuàng) 102 :根據(jù)LDA主題模型,建立目標用戶主題模型,并計算候選微博與目標用戶主 題模型的匹配度; W44] 103 :基于TF-IDF算法,建立目標用戶關(guān)鍵詞向量模型,并計算候選微博與目標用 戶關(guān)鍵詞向量模型的匹配度;
[0045]目標用戶模型包括:目標用戶主題模型和目標用戶關(guān)鍵詞向量模型。計算候選微 博與目標用戶模型的匹配度時,即分別計算候選微博與目標用戶主題模型、W及目標用戶 關(guān)鍵詞向量模型的匹配度。
[0046] 104 :使用加權(quán)平均的方法結(jié)合兩個匹配度,計算候選微博與目標用戶模型的匹配 度作為候選微博的評分,并對評分進行排序。
[0047] 具體實現(xiàn)時,本發(fā)明實施例根據(jù)目標用戶發(fā)布的消息內(nèi)容對目標用戶進行主題建 模。獲取待推薦微博列表,然后根據(jù)候選微博與目標用戶的主題匹配度對候選微博進行評 分,根據(jù)評分對候選微博進行排序從而進行推薦。
[0048] 綜上所述,本發(fā)明實施例通過上述步驟101至步驟104提高了微博文本推薦的準 確率,使得目標用戶真正感興趣的微博排列在推薦列表中更靠前的位置。 W49] 實施例2
[0050]
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1