社交媒體分析與輸出的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及社交媒體內(nèi)容分析與輸出,更具體地,涉及相關(guān)微博條目的識別和輸 出。
【背景技術(shù)】
[0002]微博網(wǎng)站,例如推特(Twitter),是當前實時交換即時信息和討論的主要平臺之 一。需要過濾由微博網(wǎng)站生成的大量信息,以便只有相關(guān)信息到達用戶。
[0003] -種簡單的微博過濾技術(shù)是推特平臺上的"跟蹤(Follow) "功能。此功能允許用 戶跟進其他實體、人員或事件的帖子,因此該用戶被饋送他們的推文。該方法根據(jù)用戶的興 趣進行個性化定制。另一種用來跟蹤推特上具體的微博的方法涉及搜索給定的井號標簽(# 標簽),該標簽是用戶基于提及推文文本內(nèi)部井號標簽獲取一些話題更新的常見方式。這種 方法在過濾信息時不太嚴格,而且通常會使更多推文呈現(xiàn)給用戶。但是,由于一些用戶濫用 標簽,許多不相關(guān)的微博經(jīng)常被呈現(xiàn)。此外,許多和井號標簽話題相關(guān)的推文可能不包括該 井號標簽本身,這導(dǎo)致它們在檢索結(jié)果中的缺失。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明旨在提供一種改進的用于社交媒體內(nèi)容分析和輸出的系統(tǒng)和方法。
[0005] 根據(jù)本發(fā)明的一個方面,提供一種計算機實施的方法,包括:存儲一組社交媒體 對象,每個社交媒體對象包括至少一個詞語,通過以下步驟從該組社交媒體對象中識別相 關(guān)社交媒體對象的子組:存儲至少一篇內(nèi)容文章,從至少一篇內(nèi)容文章中提取至少一個關(guān) 鍵詞,用重要性值對每個被提取的關(guān)鍵詞排序,并且針對重要性值高于預(yù)定值的每個被提 取關(guān)鍵詞搜索每個社交媒體對象,并將包括重要性值高于所述預(yù)定值的被提取關(guān)鍵詞的每 個社交媒體對象添加到相關(guān)社交媒體對象的子組中,并向用戶輸出相關(guān)社交媒體對象的子 組。
[0006] 優(yōu)選地,該方法包括存儲多數(shù)篇內(nèi)容文章,每篇內(nèi)容文章包括和同一地理區(qū)域相 關(guān)的內(nèi)容。
[0007] 方便地,該方法進一步包括:提供至少一個預(yù)定義關(guān)鍵詞,并且針對每個預(yù)定義關(guān) 鍵詞搜索一組社交媒體對象中的每個社交媒體對象,并將包括預(yù)定義關(guān)鍵詞的每個社交媒 體對象添加到相關(guān)社交媒體對象的子組中。
[0008] 有利地,該方法進一步包括:使用包括預(yù)定義關(guān)鍵詞的社交媒體的內(nèi)容訓(xùn)練分類 器,并使用該分類器分析一組社交媒體對象中的社交媒體對象,并將由分類器分類為相關(guān) 社交媒體對象的社交媒體對象添加到相關(guān)社交媒體對象的子組中。
[0009] 優(yōu)選地,社交媒體對象包括微博條目、評論或狀態(tài)更新。
[0010] 方便地,輸出相關(guān)社交媒體對象的子組的步驟包括向用戶輸出相關(guān)社交媒體對象 的子組,除了包含在相關(guān)社交媒體對象中的詞語之外,而不輸出來自每篇內(nèi)容文章的詞語。
[0011] 有利地,該方法包括將相關(guān)社交媒體對象的子組作為新聞門戶網(wǎng)站輸出給用戶, 該新聞門戶網(wǎng)站包括被分組為多個不同新聞類別的相關(guān)社交媒體對象。
[0012] 根據(jù)本發(fā)明的另一方面,提供了一種存儲指令的有形計算機機器可讀介質(zhì),該指 令在被計算機執(zhí)行時,使計算機執(zhí)行之后的權(quán)利要求1到7中任一項所述的方法。
[0013] 根據(jù)本發(fā)明的另一方面,提供了一種新聞門戶網(wǎng)站,其包括使用權(quán)利要求1到7中 任一項所述的方法輸出的相關(guān)社交媒體對象的子組,其中,社交媒體對象的子組在新聞門 戶網(wǎng)站中被分組為多個不同的類別。
[0014] 方便地,多個不同類別是新聞類別。
[0015] 有利地,新聞門戶網(wǎng)站通過持續(xù)地或周期性重復(fù)上述步驟進行更新。
[0016] 優(yōu)選地,新聞門戶網(wǎng)站包括根據(jù)社交媒體對象的受歡迎程度進行分類的社交媒體 對象。
[0017] 方便地,新聞門戶網(wǎng)站包括評論區(qū)域以允許用戶添加評論到新聞門戶網(wǎng)站。
[0018] 根據(jù)本發(fā)明的另一方面,提供了一種用于分析和輸出社交媒體內(nèi)容的系統(tǒng),該系 統(tǒng)包括:存儲器,可操作為存儲一組社交媒體對象,每個社交媒體對象包括至少一個詞語; 識別模塊,可操作為通過以下步驟從存儲在存儲器中的一組社交媒體對象中識別相關(guān)社交 媒體對象的子組:在存儲器中存儲至少一篇內(nèi)容文章,從至少一篇內(nèi)容文章中提取至少一 個關(guān)鍵詞,使用重要性值對每個被提取的關(guān)鍵詞排序,并針對重要性值高于預(yù)定值的每個 被提取關(guān)鍵詞搜索每個社交媒體對象,并將包括重要性值高于預(yù)定值的被提取關(guān)鍵詞的每 個社交媒體對象添加到存儲在存儲器中的相關(guān)社交媒體的子組中,其中,所述系統(tǒng)進一步 包括:輸出模塊,可操作為向用戶輸出相關(guān)社交媒體對象的子組。
[0019] 優(yōu)選地,所述系統(tǒng)可操作為在存儲器中存儲多篇內(nèi)容文章,多篇內(nèi)容文章包括和 同一地理區(qū)域相關(guān)的內(nèi)容。
[0020] 方便地,存儲器存儲至少一個預(yù)定義關(guān)鍵詞,且識別模塊可操作為針對每個預(yù)定 義關(guān)鍵詞搜索存儲在存儲器中的一組社交媒體對象中的每個社交媒體對象,并將包含預(yù)定 義關(guān)鍵詞的每個社交媒體對象添加到存儲在存儲器中的相關(guān)社交媒體的子組中。
[0021] 有利地,所述系統(tǒng)進一步包括:分類器模塊,可操作為使用包括預(yù)定義關(guān)鍵詞的社 交媒體對象的內(nèi)容進行訓(xùn)練,分類器模塊可操作為分析存儲在存儲器中的一組社交媒體對 象中的社交媒體對象,并將由分類器模塊分類為相關(guān)社交媒體對象的社交媒體對象添加到 存儲在存儲器中的相關(guān)社交媒體對象的子組中。
[0022] 優(yōu)選地,社交媒體對象包括微博條目、評論或者狀態(tài)更新。
[0023] 方便地,輸出模塊可操作為向用戶輸出相關(guān)社交媒體對象的子組,除了包含在相 關(guān)社交媒體對象中的詞語之外,而不輸出來自每篇內(nèi)容文章的詞語。
[0024] 有利地,輸出模塊可操作為將相關(guān)社交媒體對象的子組作為新聞門戶網(wǎng)站輸出給 用戶,該新聞門戶網(wǎng)站包括被分組為多個不同新聞類別的相關(guān)社交媒體對象。
【附圖說明】
[0025] 現(xiàn)將通過實例并參見附圖對本發(fā)明的實施方式進行描述,因此本發(fā)明可以更容易 地理解,其中:
[0026] 圖1是本發(fā)明的實施方式的方法的流程圖,
[0027] 圖2是本發(fā)明的實施方式的用于識別與新聞類別相關(guān)的微博的方法的一部分的 流程圖,
[0028] 圖3是本發(fā)明的實施方式的方法的另一部分流程圖,
[0029]圖4是用于本發(fā)明的實施方式的微博過濾技術(shù)的流程圖,以及
[0030] 圖5是以社會新聞門戶網(wǎng)站的形式的本發(fā)明的實施方式的輸出實的例示意圖。
【具體實施方式】
[0031] 本發(fā)明的一個實施方式可操作為輸出新聞門戶網(wǎng)站,其包括至少部分或全部由微 博條目、或其他諸如推文的社交媒體帖子生成的內(nèi)容。本發(fā)明的一個實施方式呈現(xiàn)分享在 推特上的有關(guān)不同地區(qū)正在發(fā)生的新聞中最受歡迎的內(nèi)容。網(wǎng)站的訪問者可以看到人們分 享在推特上的與當今最熱門的新聞消息相關(guān)的最流行的推文、笑話、視頻、圖片,以及新聞 文章的全面報告。
[0032] 標準新聞網(wǎng)站告知訪問者在特定地區(qū)正在發(fā)生什么事件。相比之下,本發(fā)明的實 施方式提供的內(nèi)容告訴用戶人們感興趣的新聞話題,以及他們?nèi)绾螌@些話題做出反應(yīng)。 此外,該實施方式還捕捉分享在社交媒體上的,傳統(tǒng)新聞網(wǎng)站上可能不存在的其他新聞消 息或新聞消息的其他方面。
[0033] 本發(fā)明的實施方式的方法應(yīng)用微博過濾技術(shù)以檢索社交媒體對象(例如微博條 目或推文)。社交媒體對象包括評論、博客條目、微博條目、狀態(tài)更新、情感和表達。在一個 實施方式中,社交媒體對象是多達140個字符的文本字符串。另一個實施方式配置用于通 常表現(xiàn)為臉書網(wǎng)(Facebook)、博客或論壇等社交帖子形式的社交媒體對象。
[0034] 優(yōu)選地,本發(fā)明的實施方式的方法是計算機實施的方法。計算機可操作為使用包 括本領(lǐng)域的技術(shù)人員所熟知的存儲器和處理器的計算機硬件來執(zhí)行所述方法的步驟。所述 方法可在可連接到計算機網(wǎng)絡(luò)(例如互聯(lián)網(wǎng))的至少一個計算機上執(zhí)行。本發(fā)明的這些實 施方式還擴展到包括可操作為實施所述方法的硬件的系統(tǒng)。
[0035] 在一個實施方式中,所述方法的步驟存儲于有形計算機可讀介質(zhì)中。該計算機可 讀介質(zhì)被配置為由可操作為執(zhí)行所述方法的步驟的計算機讀取。
[0036] 首先,參見附圖的圖1,本發(fā)明的實施方式的系統(tǒng)和方法包括最初接收一組社交媒 體對象作為社會媒體對象的數(shù)據(jù)流1。每個社交媒體對象包括至少一個詞語。