社交媒體分析與輸出的制作方法_2

文檔序號：9620909閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>社交媒體分析與輸出的制作方法

該系統(tǒng)包括識別模塊2,該識別模塊接收社交媒體對象的數(shù)據(jù)流1，并識別來自數(shù)據(jù)流1的相關(guān)社交媒體對象的子組3。該系統(tǒng)包括輸出模塊4,該輸出模塊可操作為將相關(guān)社交媒體對象3集成為能夠作為新聞門戶網(wǎng)站呈現(xiàn)給用戶的輸出格式。
[0037] 社交媒體對象的數(shù)據(jù)流1包括多數(shù)個社交媒體對象，例如微博，臉書狀態(tài)、鏈接或用戶在社交媒體平臺上生成的任何其他內(nèi)容。
[0038] 現(xiàn)在參考附圖的圖2,識別模塊2可操作為通過最初從至少一個新聞網(wǎng)站5中提取信息，來識別數(shù)據(jù)流1中的相關(guān)社交媒體對象。識別模塊2通過從每個新聞網(wǎng)站5中提取一篇或多篇文章6,來存儲至少一篇內(nèi)容文章。識別模塊2將文章6分組為至少一個不同類另IJ，例如政治7、體育8或科技9。
[0039] 識別模塊2包括關(guān)鍵短語提取模塊10,該模塊可操作為分析每個類別中的新聞文章，并提取至少一個關(guān)鍵詞或關(guān)鍵短語（KW)。在一個實(shí)施方式中，該關(guān)鍵短語提取模塊10 可操作為從每篇文章中提取命名的條目。在本發(fā)明的實(shí)施方式中，關(guān)鍵短語提取模塊10 可操作為篩選出某些預(yù)定義關(guān)鍵詞，例如文章作者的姓名或與新聞文章內(nèi)容無關(guān)的其他信息。
[0040] 識別模塊2包括關(guān)鍵詞排名模塊12,該模塊接收由關(guān)鍵詞提取模塊10提取的關(guān)鍵詞11。該關(guān)鍵詞排名模塊12使用指示提取的關(guān)鍵詞11與新聞文章類別的相關(guān)性的重要性值，來對提取的關(guān)鍵詞11排序。該排序采用本領(lǐng)域的技術(shù)人員熟悉的適合的排序方法（例如詞頻-逆向文件頻率（TFIDF))進(jìn)行實(shí)施。關(guān)鍵詞排名模塊12輸出排序的關(guān)鍵詞13。識別模塊12包含查詢公式模塊14,該模塊可接收排序的關(guān)鍵詞13,并生成搜索查詢。該搜索查詢針對所提取的重要性值高于預(yù)定水平的關(guān)鍵詞搜索社交媒體對象。該搜索查詢因此識別數(shù)據(jù)流1中與排名的關(guān)鍵詞13對應(yīng)或者匹配的社交媒體對象。
[0041] 識別模塊2將識別的社交媒體對象添加到相關(guān)社交媒體對象的子組中，并將匹配的社交媒體對象輸出到輸出模塊4。該輸出模塊4以將社交媒體對象分組為多個新聞類別的新聞門戶網(wǎng)站的形式輸出相關(guān)社交媒體對象的子組。
[0042] 參見附圖的圖3,本發(fā)明的另一個實(shí)施方式包括更為保守的方法，來識別上文描述的實(shí)施方式中的相關(guān)社交媒體對象。圖3的實(shí)施方式所應(yīng)用的保守方法通過將可擴(kuò)展過濾方法（scalablefilteringapproach)應(yīng)用于社會媒體對象數(shù)據(jù)流，來得到更精確的結(jié)果。本實(shí)施方式更詳細(xì)的描述如下。
[0043] 1.檢索相關(guān)微博的初始組
[0044] 任何地理區(qū)域都有一組預(yù)定值，在此稱為關(guān)鍵人物，這些關(guān)鍵人物預(yù)計(jì)將經(jīng)常出現(xiàn)在新聞標(biāo)題中。例如，"奧巴馬"是美國政治中的關(guān)鍵人物。一組關(guān)鍵人物幾乎是靜態(tài)的，因?yàn)樵摻M不隨時(shí)間的推移而經(jīng)常變化。因此，準(zhǔn)備代表某一區(qū)域關(guān)鍵人物的準(zhǔn)確的預(yù)定義查詢列表以檢索相關(guān)微博的初始組。查詢可包括政客、政黨、機(jī)構(gòu)或其他人員或?qū)嶓w及其相對應(yīng)的推特賬戶。
[0045] 根據(jù)該地區(qū)的變化，該組關(guān)鍵人物需要每幾個月或每幾年更新一次。需對查詢進(jìn) 行精心設(shè)置以實(shí)現(xiàn)高度精準(zhǔn)，避免檢索到不相關(guān)的微博。例如，將查詢項(xiàng)"奧巴馬"設(shè)置為指代美國總統(tǒng)是可以接受的，因?yàn)榇蟛糠终務(wù)?奧巴馬"的微博指代的是總統(tǒng)本人。而將"克林頓"作為"比爾·克林頓"的查詢項(xiàng)進(jìn)行搜索，會引起對大量不相關(guān)的微博進(jìn)行檢索，因?yàn)?這些微博有關(guān)"希拉里?克林頓"。因此，在后一種情況下，最好是將"比爾·克林頓"作為查詢來提高結(jié)果的精確度。
[0046] 與任何預(yù)定義關(guān)鍵詞或查詢項(xiàng)匹配的微博數(shù)據(jù)流被認(rèn)為是相關(guān)的。匹配的微博稱為一組關(guān)鍵人物微博集合（MicroblogsKP)。
[0047]2.檢索一組潛在相關(guān)的微博
[0048] 有關(guān)突發(fā)的區(qū)域新聞的微博可能無法使用一組預(yù)定義查詢來獲取。為克服這個問題，新聞在一個或多個新聞網(wǎng)站上被發(fā)掘，并將關(guān)鍵詞提取出來，如圖2所示。
[0049] 所述方法包括識別一個或多個新聞網(wǎng)站，并將不同網(wǎng)站上的文章分成不同類別，例如政治、體育和科技。
[0050] 關(guān)鍵短語（KW)是從已分類的文章中提取的。該關(guān)鍵短語采用本領(lǐng)域的技術(shù)人員熟知的、用于識別和提取文章中最重要的關(guān)鍵短語的方法進(jìn)行提取。在一個實(shí)施方式中，命名的實(shí)體是從文章中提取的。優(yōu)選地，所述方法過濾出某些關(guān)鍵詞，例如文章作者的姓名，以便該作者的姓名不會與相關(guān)的關(guān)鍵短語混淆。
[0051] 隨后，使用基于重要性和與文章新聞類別的相關(guān)性的重要性值對被提取的關(guān)鍵短語排序。這可利用本領(lǐng)域技術(shù)人員所熟知的排序方法來實(shí)現(xiàn)，例如詞頻-逆向文件頻率 (TF-IDF)。
[0052] 所述被提取的關(guān)鍵短語隨后被用來制定應(yīng)用于社交帖子數(shù)據(jù)流（諸如，微波）的搜索查詢。包括關(guān)鍵短語的社交帖子被匹配，并被認(rèn)為是相關(guān)帖子。關(guān)鍵詞在新聞文章中通常作為元數(shù)據(jù)存在。收集的關(guān)鍵詞被用來檢索另外的微博。微博匹配關(guān)鍵詞將被分配到關(guān)聯(lián)分類器，因?yàn)樵撽P(guān)鍵詞可能包括常用詞匯或不正確的詞匯，這些詞匯會導(dǎo)致檢索出大量不相關(guān)的微博。被提取的關(guān)鍵詞分別由分類器利用重要性值進(jìn)行排序，且重要性值高于預(yù)定值的關(guān)鍵詞將用于分類器中以搜索和識別相關(guān)微博的子組。該微博的子組被稱為關(guān)鍵詞微博（MicroblogsKW) 〇
[0053]3.分類微博
[0054] 在一個實(shí)施方式中，使用MicroblogsKP作為正面樣本和一組隨機(jī)選定的微博作為負(fù)面樣本（MicroblogsN)來訓(xùn)練支持向量機(jī)（SVM)分類器。MicroblogsN不應(yīng)與預(yù)定義查詢或從新聞中提取的關(guān)鍵詞匹配。
[0055]這保證：MicroblogsN(MicroblogsKW U MicroblogsKP)=Φ〇
[0056]負(fù)面樣本的數(shù)量選定為正面樣本的N倍，因?yàn)轭A(yù)計(jì)不相關(guān)微博的范圍將更大。在一個實(shí)施方式中，N是10。正面樣本和負(fù)面樣本都是從最近一段時(shí)間，優(yōu)選是24小時(shí)，中選定來代表最近的數(shù)據(jù)。
[0057] 用于訓(xùn)練SVM分類器的一組特征包括出現(xiàn)在MicroblogsKP中的詞匯。此外，還用一個特征來表示微博中不與任何詞匯匹配的詞匯的百分比。生成的模型隨后被用于對 MicroblogsKW進(jìn)行分類。分類的相關(guān)微博被添加到MicroblogsKP中，以形成相關(guān)微博的完整組。最后，生成包含這些微博的綜合報(bào)告。
[0058]訓(xùn)練分類器的過程將周期性應(yīng)用，以保持用戶被更新有與實(shí)時(shí)新聞相關(guān)的微博。通常情況下，被分類為相關(guān)的微博顯著地豐富了相關(guān)微博的總數(shù)量；尤其是當(dāng)突發(fā)新聞以新實(shí)體的形式出現(xiàn)時(shí)。主觀上，根據(jù)當(dāng)時(shí)的新聞類型，相關(guān)微博的增長介于50%和300%之間，而且準(zhǔn)確度超過90%。
[0059] 參見附圖的圖4,本發(fā)明的另一個實(shí)施方式包括可擴(kuò)展的過濾步驟，該步驟將可擴(kuò) 展過濾應(yīng)用到微博數(shù)據(jù)流或其他社交帖子。這一實(shí)施方式采用更加保守的方法來識別相關(guān) 微博，并可產(chǎn)生更精確的結(jié)果，且更具普遍性以應(yīng)用到新聞或不同的話題，例如追蹤與醫(yī)療保健、電視節(jié)目、災(zāi)害等相關(guān)的微博。
[0060] 相關(guān)微博的過濾在下文更詳細(xì)地討論。布爾過濾（booleanfiltering)、具備查詢擴(kuò)展的布爾過濾和基于分類的過濾技術(shù)是本領(lǐng)域的技術(shù)人員所熟知的。這些過濾技術(shù)可用作相關(guān)推文的收集組件，但作用有限。下文將描述這些技術(shù)以提供過濾技術(shù)的背景信息，然后再描述本發(fā)明的一個實(shí)施方式所述的過濾技術(shù)。所述的第四種過濾技術(shù)是新穎的并且從檢索率和精確度角度來說，在追蹤政治和體育新聞等動態(tài)和廣泛的話題上還能實(shí)現(xiàn)更好的效果。
[0061] 布爾過濾
[0062] 最簡單的過濾技術(shù)是將Q?？醋鞑紶柌樵兗?，因而將用^表示的布爾過濾器用于追蹤即將到來的數(shù)據(jù)流中符合布爾查詢集合％中的任一項(xiàng)的微博。由此產(chǎn)生的匹配微博用 TB表示。該技術(shù)的有效性取決于在布爾查詢集合Q。中選定的查詢的質(zhì)量；如果這些查詢是精確選定的，預(yù)計(jì)將檢索出高精度的結(jié)果；但是，如果話題高度動態(tài)，預(yù)計(jì)檢索率會較低。
[0063] 具備查詢擴(kuò)展的布爾過濾
[0064] 擴(kuò)展布爾過濾器fB以實(shí)現(xiàn)更好檢索率的經(jīng)典理論是，應(yīng)用使用初始查詢集合Q。的查詢擴(kuò)展，以匹配更多的微博。在這種方法中，一組擴(kuò)展詞匯集合E被添加到采用偽相關(guān)反饋的查詢集合％中。該新詞匯

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3 4

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

2017社交媒體分析報(bào)告相關(guān)技術(shù)

社交媒體數(shù)據(jù)分析相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

社交媒體分析與輸出的制作方法_2