基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法及其系統(tǒng)的制作方法

文檔序號(hào)：9687640閱讀：581來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法及其系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)與社交網(wǎng)絡(luò)領(lǐng)域，具體涉及一種基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法及其系統(tǒng)。
【背景技術(shù)】
[0002]近年來，微博平臺(tái)的興起極大激發(fā)了人們發(fā)布與分享信息的興趣，越來越多的網(wǎng)民加入到這些社交網(wǎng)站成為其內(nèi)容貢獻(xiàn)者。用戶除了分享信息外，更注重人與人之間的交流，因此其內(nèi)容都比較隨意和口語(yǔ)化，而且簡(jiǎn)短。比如新浪微博限制其每條消息長(zhǎng)度不能超過140個(gè)字。
[0003]在當(dāng)今互聯(lián)網(wǎng)，短文本的流行有著必然性，即它能很好的適應(yīng)信息產(chǎn)生與傳播速度不斷增長(zhǎng)的要求。從用戶角度考慮，發(fā)布一篇長(zhǎng)文本文檔需要耗費(fèi)較長(zhǎng)的時(shí)間和精力編寫。而短文本信息則風(fēng)格隨意，編寫簡(jiǎn)單，發(fā)布起來沒有任何門檻。其次，從信息接受者角度考慮，短文本對(duì)信息的表達(dá)更加簡(jiǎn)約緊湊、來源更豐富，使得用戶可以利用碎片化時(shí)間更快更多的獲取信息。
[0004]互聯(lián)網(wǎng)特別是基于微博的社交網(wǎng)絡(luò)平臺(tái)上的海量文本數(shù)據(jù)是一座有待開采的金礦，其中蘊(yùn)含著豐富的有價(jià)值信息。這些信息對(duì)很多應(yīng)用多有重要意義。然而如何從這些短文本中挖掘有價(jià)值的信息卻并不簡(jiǎn)單。這些短文本內(nèi)容很稀疏，導(dǎo)致上下文相關(guān)信息嚴(yán)重不足，并且通常包含很多新生詞匯、無(wú)關(guān)信息，給文本語(yǔ)義分析帶來了很大困難。
[0005]在Web2.0時(shí)代前，短文本在互聯(lián)網(wǎng)上并非主流，與其相關(guān)的語(yǔ)義處理分析研究并不多見。一個(gè)相關(guān)的研究方向是信息檢索領(lǐng)域的對(duì)查血理解和處理。通常查詢長(zhǎng)度在5個(gè)詞以內(nèi)，查詢也是一種典型的短文本。早期的信息檢索主要基于向量空間模型或者統(tǒng)計(jì)語(yǔ)言模型來計(jì)算查詢文本和文檔直接的相似度。這種簡(jiǎn)單的處理方式只能搜索到那些至少包含一個(gè)查詢?cè)~的文檔，無(wú)法檢索那些從語(yǔ)義上更加相關(guān)而詞匯不匹配的文檔。
[0006]近年來，伴隨著短文本在互聯(lián)網(wǎng)應(yīng)用中的增多，短文本挖掘相關(guān)研究也逐漸受到重視，研究者們嘗試了多種方法來改進(jìn)短文本語(yǔ)義分析與處理。而其中針對(duì)短文本主題模型的研究更是受到廣泛關(guān)注。在這些工作中，為了克服短文本內(nèi)容稀疏問題作出了很多嘗試。例如，很多人將多條微博聚合，形成一篇長(zhǎng)文檔，再利用經(jīng)典的話題模型對(duì)其進(jìn)行語(yǔ)義分析。這種聚合方式，實(shí)際上可以看成是利用內(nèi)部數(shù)據(jù)來擴(kuò)充原來的短文本文檔。但是很多應(yīng)用場(chǎng)合需要對(duì)單條微博內(nèi)容進(jìn)行語(yǔ)義分析，這就使得我們不能采用聚合方式的語(yǔ)義分析主題模型，因此，針對(duì)短文本的主題模型研究一直是一個(gè)重要課題。

【發(fā)明內(nèi)容】

[0007]本發(fā)明旨在至少解決上述技術(shù)問題之一。
[0008]為此，本發(fā)明的第一個(gè)目的在于提出一種基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法。
[0009]本發(fā)明的第二個(gè)目的在于提出一種基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦系統(tǒng)。
[0010]為了實(shí)現(xiàn)上述目的，本發(fā)明的實(shí)施例公開了一種基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法，包括以下步驟:S1:對(duì)用戶的每條微博內(nèi)容進(jìn)行預(yù)處理，預(yù)處理后文字內(nèi)容至少包括兩個(gè)詞；S2:使用增量雙詞主題模型對(duì)所述預(yù)處理后的文字內(nèi)容進(jìn)行主題預(yù)測(cè)，得到每條微博對(duì)應(yīng)的主題;S3:根據(jù)用戶的歷史微博數(shù)據(jù)對(duì)應(yīng)的主題建立相應(yīng)的隱含狄利克雷分布模型；S4:根據(jù)所述隱含狄利克雷分布模型挖掘所述用戶的興趣分布;S5:從所述用戶新發(fā)布的微博內(nèi)容中抽取預(yù)設(shè)數(shù)量的微博內(nèi)容重新挖掘所述用戶的興趣分布，并刪除發(fā)布時(shí)間最早的微博內(nèi)容；以及S6:根據(jù)所述用戶的興趣分布向所述用戶推薦相應(yīng)內(nèi)容。。
[0011]根據(jù)本發(fā)明實(shí)施例的基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法，對(duì)微博社交網(wǎng)絡(luò)平臺(tái)用戶發(fā)送的新微博自動(dòng)推薦合適的話題。話題不僅可以幫助用戶和微博平臺(tái)對(duì)海量微博內(nèi)容進(jìn)行管理，也能在自然語(yǔ)言處理很多應(yīng)用場(chǎng)景下提高現(xiàn)有系統(tǒng)的準(zhǔn)確性。
[0012]另外，根據(jù)本發(fā)明上述實(shí)施例的基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法，還可以具有如下附加的技術(shù)特征:
[0013]進(jìn)一步地，所述關(guān)鍵詞包括文字內(nèi)容、微博序列和微博發(fā)布時(shí)間。
[0014]進(jìn)一步地，所述步驟S2進(jìn)一步包括:S201:從進(jìn)行預(yù)數(shù)理后的文字內(nèi)容中選取多個(gè)雙詞，并根據(jù)所述增量雙詞主題模型對(duì)多個(gè)所述雙詞采用對(duì)應(yīng)的主題；S202:對(duì)于每個(gè)雙詞，從所述雙詞中抽取部分信息構(gòu)成再生雙詞序列，其中，所述再生雙詞序列包括多個(gè)雙詞，所述再生雙詞序列中的每個(gè)雙詞，根據(jù)條件概率重新采用所述雙詞的主題以修正由于數(shù)據(jù)不足導(dǎo)致的采樣偏差。
[0015]為了實(shí)現(xiàn)上述目的，本發(fā)明的實(shí)施例公開了一種基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦系統(tǒng)，包括:數(shù)據(jù)預(yù)處理模塊，用于對(duì)用戶的每條微博內(nèi)容進(jìn)行預(yù)處理，預(yù)處理后的文字內(nèi)容至少包括兩個(gè)關(guān)鍵詞；主題預(yù)測(cè)模塊，用于根據(jù)增量雙詞主題模型對(duì)所述預(yù)處理后的文字內(nèi)容進(jìn)行主題預(yù)測(cè)，得到每條微博對(duì)應(yīng)的主題;主題建模模塊，用于據(jù)用戶的歷史微博數(shù)據(jù)對(duì)應(yīng)的主題建立相應(yīng)的隱含狄利克雷分布模型；興趣分布挖掘模塊，用于根據(jù)所述隱含狄利克雷分布模型挖掘所述用戶的興趣分布，還用于從所述用戶新發(fā)布的微博內(nèi)容中抽取預(yù)設(shè)數(shù)量的微博內(nèi)容重新挖掘所述用戶的興趣分布，并刪除發(fā)布時(shí)間最早的微博內(nèi)容；以及話題推薦展示模塊，用于根據(jù)所述用戶的興趣分布推薦預(yù)設(shè)數(shù)量的話題。
[0016]根據(jù)本發(fā)明實(shí)施例的基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦系統(tǒng)，對(duì)微博社交網(wǎng)絡(luò)平臺(tái)用戶發(fā)送的新微博自動(dòng)推薦合適的話題。話題不僅可以幫助用戶和微博平臺(tái)對(duì)海量微博內(nèi)容進(jìn)行管理，也能在自然語(yǔ)言處理很多應(yīng)用場(chǎng)景下提高現(xiàn)有系統(tǒng)的準(zhǔn)確性。
[0017]另外，根據(jù)本發(fā)明上述實(shí)施例的基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦系統(tǒng)，還可以具有如下附加的技術(shù)特征:
[0018]進(jìn)一步地，所述數(shù)據(jù)預(yù)處理模塊包括:數(shù)據(jù)清洗模塊，用于對(duì)所述用戶微博中獲取的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗，并將清洗后的關(guān)鍵詞放入詞袋模型;時(shí)間獲取模塊，用于獲取用戶發(fā)布微博的時(shí)間信息；關(guān)聯(lián)微博文檔建立模塊，用于取每個(gè)用戶固定數(shù)量的最新發(fā)布的微博構(gòu)成；以及雙詞抽取模塊，用于將微博按照發(fā)布時(shí)間整理成序列化數(shù)據(jù)，從中抽取最近發(fā)布的預(yù)設(shè)數(shù)量個(gè)雙詞。
[0019]進(jìn)一步地，所述主題建模模塊包括:雙詞選取模塊，用于從進(jìn)行預(yù)數(shù)理后的文字內(nèi)容中選取多個(gè)雙詞;增量雙詞主題模型，用于對(duì)多個(gè)所述雙詞采用對(duì)應(yīng)的主題;信息抽取模塊，用于從所述雙詞中抽取部分信息構(gòu)成再生雙詞序列，其中，所述再生雙詞序列包括多個(gè)雙詞，所述再生雙詞序列中的每個(gè)雙詞，根據(jù)條件概率重新采用所述雙詞的主題以修正由于數(shù)據(jù)不足導(dǎo)致的采樣偏差。
[0020]本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0021]本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解，其中:
[0022]圖1是本發(fā)明一個(gè)實(shí)施例的基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法的流程圖；
[0023]圖2是本發(fā)明一個(gè)實(shí)施例的基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0024]下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的，僅用于解釋本發(fā)明，而不能理解為對(duì)本發(fā)明的限制。<

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐華;李佳;
技術(shù)所有人：清華大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

社交網(wǎng)絡(luò)分析方法相關(guān)技術(shù)

社交網(wǎng)絡(luò)分析的方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法及其系統(tǒng)的制作方法