亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法及其系統(tǒng)的制作方法

文檔序號(hào):9687640閱讀:581來源:國(guó)知局
基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法及其系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)與社交網(wǎng)絡(luò)領(lǐng)域,具體涉及一種基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法及其系統(tǒng)。
【背景技術(shù)】
[0002]近年來,微博平臺(tái)的興起極大激發(fā)了人們發(fā)布與分享信息的興趣,越來越多的網(wǎng)民加入到這些社交網(wǎng)站成為其內(nèi)容貢獻(xiàn)者。用戶除了分享信息外,更注重人與人之間的交流,因此其內(nèi)容都比較隨意和口語(yǔ)化,而且簡(jiǎn)短。比如新浪微博限制其每條消息長(zhǎng)度不能超過140個(gè)字。
[0003]在當(dāng)今互聯(lián)網(wǎng),短文本的流行有著必然性,即它能很好的適應(yīng)信息產(chǎn)生與傳播速度不斷增長(zhǎng)的要求。從用戶角度考慮,發(fā)布一篇長(zhǎng)文本文檔需要耗費(fèi)較長(zhǎng)的時(shí)間和精力編寫。而短文本信息則風(fēng)格隨意,編寫簡(jiǎn)單,發(fā)布起來沒有任何門檻。其次,從信息接受者角度考慮,短文本對(duì)信息的表達(dá)更加簡(jiǎn)約緊湊、來源更豐富,使得用戶可以利用碎片化時(shí)間更快更多的獲取信息。
[0004]互聯(lián)網(wǎng)特別是基于微博的社交網(wǎng)絡(luò)平臺(tái)上的海量文本數(shù)據(jù)是一座有待開采的金礦,其中蘊(yùn)含著豐富的有價(jià)值信息。這些信息對(duì)很多應(yīng)用多有重要意義。然而如何從這些短文本中挖掘有價(jià)值的信息卻并不簡(jiǎn)單。這些短文本內(nèi)容很稀疏,導(dǎo)致上下文相關(guān)信息嚴(yán)重不足,并且通常包含很多新生詞匯、無(wú)關(guān)信息,給文本語(yǔ)義分析帶來了很大困難。
[0005]在Web2.0時(shí)代前,短文本在互聯(lián)網(wǎng)上并非主流,與其相關(guān)的語(yǔ)義處理分析研究并不多見。一個(gè)相關(guān)的研究方向是信息檢索領(lǐng)域的對(duì)查血理解和處理。通常查詢長(zhǎng)度在5個(gè)詞以內(nèi),查詢也是一種典型的短文本。早期的信息檢索主要基于向量空間模型或者統(tǒng)計(jì)語(yǔ)言模型來計(jì)算查詢文本和文檔直接的相似度。這種簡(jiǎn)單的處理方式只能搜索到那些至少包含一個(gè)查詢?cè)~的文檔,無(wú)法檢索那些從語(yǔ)義上更加相關(guān)而詞匯不匹配的文檔。
[0006]近年來,伴隨著短文本在互聯(lián)網(wǎng)應(yīng)用中的增多,短文本挖掘相關(guān)研究也逐漸受到重視,研究者們嘗試了多種方法來改進(jìn)短文本語(yǔ)義分析與處理。而其中針對(duì)短文本主題模型的研究更是受到廣泛關(guān)注。在這些工作中,為了克服短文本內(nèi)容稀疏問題作出了很多嘗試。例如,很多人將多條微博聚合,形成一篇長(zhǎng)文檔,再利用經(jīng)典的話題模型對(duì)其進(jìn)行語(yǔ)義分析。這種聚合方式,實(shí)際上可以看成是利用內(nèi)部數(shù)據(jù)來擴(kuò)充原來的短文本文檔。但是很多應(yīng)用場(chǎng)合需要對(duì)單條微博內(nèi)容進(jìn)行語(yǔ)義分析,這就使得我們不能采用聚合方式的語(yǔ)義分析主題模型,因此,針對(duì)短文本的主題模型研究一直是一個(gè)重要課題。

【發(fā)明內(nèi)容】

[0007]本發(fā)明旨在至少解決上述技術(shù)問題之一。
[0008]為此,本發(fā)明的第一個(gè)目的在于提出一種基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法。
[0009]本發(fā)明的第二個(gè)目的在于提出一種基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦系統(tǒng)。
[0010]為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例公開了一種基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法,包括以下步驟:S1:對(duì)用戶的每條微博內(nèi)容進(jìn)行預(yù)處理,預(yù)處理后文字內(nèi)容至少包括兩個(gè)詞;S2:使用增量雙詞主題模型對(duì)所述預(yù)處理后的文字內(nèi)容進(jìn)行主題預(yù)測(cè),得到每條微博對(duì)應(yīng)的主題;S3:根據(jù)用戶的歷史微博數(shù)據(jù)對(duì)應(yīng)的主題建立相應(yīng)的隱含狄利克雷分布模型;S4:根據(jù)所述隱含狄利克雷分布模型挖掘所述用戶的興趣分布;S5:從所述用戶新發(fā)布的微博內(nèi)容中抽取預(yù)設(shè)數(shù)量的微博內(nèi)容重新挖掘所述用戶的興趣分布,并刪除發(fā)布時(shí)間最早的微博內(nèi)容;以及S6:根據(jù)所述用戶的興趣分布向所述用戶推薦相應(yīng)內(nèi)容。。
[0011]根據(jù)本發(fā)明實(shí)施例的基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法,對(duì)微博社交網(wǎng)絡(luò)平臺(tái)用戶發(fā)送的新微博自動(dòng)推薦合適的話題。話題不僅可以幫助用戶和微博平臺(tái)對(duì)海量微博內(nèi)容進(jìn)行管理,也能在自然語(yǔ)言處理很多應(yīng)用場(chǎng)景下提高現(xiàn)有系統(tǒng)的準(zhǔn)確性。
[0012]另外,根據(jù)本發(fā)明上述實(shí)施例的基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法,還可以具有如下附加的技術(shù)特征:
[0013]進(jìn)一步地,所述關(guān)鍵詞包括文字內(nèi)容、微博序列和微博發(fā)布時(shí)間。
[0014]進(jìn)一步地,所述步驟S2進(jìn)一步包括:S201:從進(jìn)行預(yù)數(shù)理后的文字內(nèi)容中選取多個(gè)雙詞,并根據(jù)所述增量雙詞主題模型對(duì)多個(gè)所述雙詞采用對(duì)應(yīng)的主題;S202:對(duì)于每個(gè)雙詞,從所述雙詞中抽取部分信息構(gòu)成再生雙詞序列,其中,所述再生雙詞序列包括多個(gè)雙詞,所述再生雙詞序列中的每個(gè)雙詞,根據(jù)條件概率重新采用所述雙詞的主題以修正由于數(shù)據(jù)不足導(dǎo)致的采樣偏差。
[0015]為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例公開了一種基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦系統(tǒng),包括:數(shù)據(jù)預(yù)處理模塊,用于對(duì)用戶的每條微博內(nèi)容進(jìn)行預(yù)處理,預(yù)處理后的文字內(nèi)容至少包括兩個(gè)關(guān)鍵詞;主題預(yù)測(cè)模塊,用于根據(jù)增量雙詞主題模型對(duì)所述預(yù)處理后的文字內(nèi)容進(jìn)行主題預(yù)測(cè),得到每條微博對(duì)應(yīng)的主題;主題建模模塊,用于據(jù)用戶的歷史微博數(shù)據(jù)對(duì)應(yīng)的主題建立相應(yīng)的隱含狄利克雷分布模型;興趣分布挖掘模塊,用于根據(jù)所述隱含狄利克雷分布模型挖掘所述用戶的興趣分布,還用于從所述用戶新發(fā)布的微博內(nèi)容中抽取預(yù)設(shè)數(shù)量的微博內(nèi)容重新挖掘所述用戶的興趣分布,并刪除發(fā)布時(shí)間最早的微博內(nèi)容;以及話題推薦展示模塊,用于根據(jù)所述用戶的興趣分布推薦預(yù)設(shè)數(shù)量的話題。
[0016]根據(jù)本發(fā)明實(shí)施例的基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦系統(tǒng),對(duì)微博社交網(wǎng)絡(luò)平臺(tái)用戶發(fā)送的新微博自動(dòng)推薦合適的話題。話題不僅可以幫助用戶和微博平臺(tái)對(duì)海量微博內(nèi)容進(jìn)行管理,也能在自然語(yǔ)言處理很多應(yīng)用場(chǎng)景下提高現(xiàn)有系統(tǒng)的準(zhǔn)確性。
[0017]另外,根據(jù)本發(fā)明上述實(shí)施例的基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦系統(tǒng),還可以具有如下附加的技術(shù)特征:
[0018]進(jìn)一步地,所述數(shù)據(jù)預(yù)處理模塊包括:數(shù)據(jù)清洗模塊,用于對(duì)所述用戶微博中獲取的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,并將清洗后的關(guān)鍵詞放入詞袋模型;時(shí)間獲取模塊,用于獲取用戶發(fā)布微博的時(shí)間信息;關(guān)聯(lián)微博文檔建立模塊,用于取每個(gè)用戶固定數(shù)量的最新發(fā)布的微博構(gòu)成;以及雙詞抽取模塊,用于將微博按照發(fā)布時(shí)間整理成序列化數(shù)據(jù),從中抽取最近發(fā)布的預(yù)設(shè)數(shù)量個(gè)雙詞。
[0019]進(jìn)一步地,所述主題建模模塊包括:雙詞選取模塊,用于從進(jìn)行預(yù)數(shù)理后的文字內(nèi)容中選取多個(gè)雙詞;增量雙詞主題模型,用于對(duì)多個(gè)所述雙詞采用對(duì)應(yīng)的主題;信息抽取模塊,用于從所述雙詞中抽取部分信息構(gòu)成再生雙詞序列,其中,所述再生雙詞序列包括多個(gè)雙詞,所述再生雙詞序列中的每個(gè)雙詞,根據(jù)條件概率重新采用所述雙詞的主題以修正由于數(shù)據(jù)不足導(dǎo)致的采樣偏差。
[0020]本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0021]本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0022]圖1是本發(fā)明一個(gè)實(shí)施例的基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦方法的流程圖;
[0023]圖2是本發(fā)明一個(gè)實(shí)施例的基于微博社交網(wǎng)絡(luò)的話題自動(dòng)推薦系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0024]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。<
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1