該系統(tǒng)包括 識別模塊2,該識別模塊接收社交媒體對象的數(shù)據(jù)流1,并識別來自數(shù)據(jù)流1的相關(guān)社交媒 體對象的子組3。該系統(tǒng)包括輸出模塊4,該輸出模塊可操作為將相關(guān)社交媒體對象3集成 為能夠作為新聞門戶網(wǎng)站呈現(xiàn)給用戶的輸出格式。
[0037] 社交媒體對象的數(shù)據(jù)流1包括多數(shù)個社交媒體對象,例如微博,臉書狀態(tài)、鏈接或 用戶在社交媒體平臺上生成的任何其他內(nèi)容。
[0038] 現(xiàn)在參考附圖的圖2,識別模塊2可操作為通過最初從至少一個新聞網(wǎng)站5中提取 信息,來識別數(shù)據(jù)流1中的相關(guān)社交媒體對象。識別模塊2通過從每個新聞網(wǎng)站5中提取 一篇或多篇文章6,來存儲至少一篇內(nèi)容文章。識別模塊2將文章6分組為至少一個不同類 另IJ,例如政治7、體育8或科技9。
[0039] 識別模塊2包括關(guān)鍵短語提取模塊10,該模塊可操作為分析每個類別中的新聞文 章,并提取至少一個關(guān)鍵詞或關(guān)鍵短語(KW)。在一個實(shí)施方式中,該關(guān)鍵短語提取模塊10 可操作為從每篇文章中提取命名的條目。在本發(fā)明的實(shí)施方式中,關(guān)鍵短語提取模塊10 可操作為篩選出某些預(yù)定義關(guān)鍵詞,例如文章作者的姓名或與新聞文章內(nèi)容無關(guān)的其他信 息。
[0040] 識別模塊2包括關(guān)鍵詞排名模塊12,該模塊接收由關(guān)鍵詞提取模塊10提取的關(guān)鍵 詞11。該關(guān)鍵詞排名模塊12使用指示提取的關(guān)鍵詞11與新聞文章類別的相關(guān)性的重要性 值,來對提取的關(guān)鍵詞11排序。該排序采用本領(lǐng)域的技術(shù)人員熟悉的適合的排序方法(例 如詞頻-逆向文件頻率(TFIDF))進(jìn)行實(shí)施。關(guān)鍵詞排名模塊12輸出排序的關(guān)鍵詞13。識 別模塊12包含查詢公式模塊14,該模塊可接收排序的關(guān)鍵詞13,并生成搜索查詢。該搜索 查詢針對所提取的重要性值高于預(yù)定水平的關(guān)鍵詞搜索社交媒體對象。該搜索查詢因此識 別數(shù)據(jù)流1中與排名的關(guān)鍵詞13對應(yīng)或者匹配的社交媒體對象。
[0041] 識別模塊2將識別的社交媒體對象添加到相關(guān)社交媒體對象的子組中,并將匹配 的社交媒體對象輸出到輸出模塊4。該輸出模塊4以將社交媒體對象分組為多個新聞類別 的新聞門戶網(wǎng)站的形式輸出相關(guān)社交媒體對象的子組。
[0042] 參見附圖的圖3,本發(fā)明的另一個實(shí)施方式包括更為保守的方法,來識別上文描述 的實(shí)施方式中的相關(guān)社交媒體對象。圖3的實(shí)施方式所應(yīng)用的保守方法通過將可擴(kuò)展過濾 方法(scalablefilteringapproach)應(yīng)用于社會媒體對象數(shù)據(jù)流,來得到更精確的結(jié)果。 本實(shí)施方式更詳細(xì)的描述如下。
[0043] 1.檢索相關(guān)微博的初始組
[0044] 任何地理區(qū)域都有一組預(yù)定值,在此稱為關(guān)鍵人物,這些關(guān)鍵人物預(yù)計(jì)將經(jīng)常出 現(xiàn)在新聞標(biāo)題中。例如,"奧巴馬"是美國政治中的關(guān)鍵人物。一組關(guān)鍵人物幾乎是靜態(tài)的, 因?yàn)樵摻M不隨時(shí)間的推移而經(jīng)常變化。因此,準(zhǔn)備代表某一區(qū)域關(guān)鍵人物的準(zhǔn)確的預(yù)定義 查詢列表以檢索相關(guān)微博的初始組。查詢可包括政客、政黨、機(jī)構(gòu)或其他人員或?qū)嶓w及其相 對應(yīng)的推特賬戶。
[0045] 根據(jù)該地區(qū)的變化,該組關(guān)鍵人物需要每幾個月或每幾年更新一次。需對查詢進(jìn) 行精心設(shè)置以實(shí)現(xiàn)高度精準(zhǔn),避免檢索到不相關(guān)的微博。例如,將查詢項(xiàng)"奧巴馬"設(shè)置為指 代美國總統(tǒng)是可以接受的,因?yàn)榇蟛糠终務(wù)?奧巴馬"的微博指代的是總統(tǒng)本人。而將"克 林頓"作為"比爾·克林頓"的查詢項(xiàng)進(jìn)行搜索,會引起對大量不相關(guān)的微博進(jìn)行檢索,因?yàn)?這些微博有關(guān)"希拉里?克林頓"。因此,在后一種情況下,最好是將"比爾·克林頓"作為 查詢來提高結(jié)果的精確度。
[0046] 與任何預(yù)定義關(guān)鍵詞或查詢項(xiàng)匹配的微博數(shù)據(jù)流被認(rèn)為是相關(guān)的。匹配的微博稱 為一組關(guān)鍵人物微博集合(MicroblogsKP)。
[0047]2.檢索一組潛在相關(guān)的微博
[0048] 有關(guān)突發(fā)的區(qū)域新聞的微博可能無法使用一組預(yù)定義查詢來獲取。為克服這個問 題,新聞在一個或多個新聞網(wǎng)站上被發(fā)掘,并將關(guān)鍵詞提取出來,如圖2所示。
[0049] 所述方法包括識別一個或多個新聞網(wǎng)站,并將不同網(wǎng)站上的文章分成不同類別, 例如政治、體育和科技。
[0050] 關(guān)鍵短語(KW)是從已分類的文章中提取的。該關(guān)鍵短語采用本領(lǐng)域的技術(shù)人員 熟知的、用于識別和提取文章中最重要的關(guān)鍵短語的方法進(jìn)行提取。在一個實(shí)施方式中,命 名的實(shí)體是從文章中提取的。優(yōu)選地,所述方法過濾出某些關(guān)鍵詞,例如文章作者的姓名, 以便該作者的姓名不會與相關(guān)的關(guān)鍵短語混淆。
[0051] 隨后,使用基于重要性和與文章新聞類別的相關(guān)性的重要性值對被提取的關(guān)鍵短 語排序。這可利用本領(lǐng)域技術(shù)人員所熟知的排序方法來實(shí)現(xiàn),例如詞頻-逆向文件頻率 (TF-IDF)。
[0052] 所述被提取的關(guān)鍵短語隨后被用來制定應(yīng)用于社交帖子數(shù)據(jù)流(諸如,微波)的 搜索查詢。包括關(guān)鍵短語的社交帖子被匹配,并被認(rèn)為是相關(guān)帖子。關(guān)鍵詞在新聞文章中 通常作為元數(shù)據(jù)存在。收集的關(guān)鍵詞被用來檢索另外的微博。微博匹配關(guān)鍵詞將被分配到 關(guān)聯(lián)分類器,因?yàn)樵撽P(guān)鍵詞可能包括常用詞匯或不正確的詞匯,這些詞匯會導(dǎo)致檢索出大 量不相關(guān)的微博。被提取的關(guān)鍵詞分別由分類器利用重要性值進(jìn)行排序,且重要性值高于 預(yù)定值的關(guān)鍵詞將用于分類器中以搜索和識別相關(guān)微博的子組。該微博的子組被稱為關(guān)鍵 詞微博(MicroblogsKW) 〇
[0053]3.分類微博
[0054] 在一個實(shí)施方式中,使用MicroblogsKP作為正面樣本和一組隨機(jī)選定的微博作 為負(fù)面樣本(MicroblogsN)來訓(xùn)練支持向量機(jī)(SVM)分類器。MicroblogsN不應(yīng)與預(yù)定義 查詢或從新聞中提取的關(guān)鍵詞匹配。
[0055]這保證:MicroblogsN(MicroblogsKW U MicroblogsKP)=Φ〇
[0056]負(fù)面樣本的數(shù)量選定為正面樣本的N倍,因?yàn)轭A(yù)計(jì)不相關(guān)微博的范圍將更大。在 一個實(shí)施方式中,N是10。正面樣本和負(fù)面樣本都是從最近一段時(shí)間,優(yōu)選是24小時(shí),中選 定來代表最近的數(shù)據(jù)。
[0057] 用于訓(xùn)練SVM分類器的一組特征包括出現(xiàn)在MicroblogsKP中的詞匯。此外,還 用一個特征來表示微博中不與任何詞匯匹配的詞匯的百分比。生成的模型隨后被用于對 MicroblogsKW進(jìn)行分類。分類的相關(guān)微博被添加到MicroblogsKP中,以形成相關(guān)微博的完 整組。最后,生成包含這些微博的綜合報(bào)告。
[0058]訓(xùn)練分類器的過程將周期性應(yīng)用,以保持用戶被更新有與實(shí)時(shí)新聞相關(guān)的微博。 通常情況下,被分類為相關(guān)的微博顯著地豐富了相關(guān)微博的總數(shù)量;尤其是當(dāng)突發(fā)新聞以 新實(shí)體的形式出現(xiàn)時(shí)。主觀上,根據(jù)當(dāng)時(shí)的新聞類型,相關(guān)微博的增長介于50%和300%之 間,而且準(zhǔn)確度超過90%。
[0059] 參見附圖的圖4,本發(fā)明的另一個實(shí)施方式包括可擴(kuò)展的過濾步驟,該步驟將可擴(kuò) 展過濾應(yīng)用到微博數(shù)據(jù)流或其他社交帖子。這一實(shí)施方式采用更加保守的方法來識別相關(guān) 微博,并可產(chǎn)生更精確的結(jié)果,且更具普遍性以應(yīng)用到新聞或不同的話題,例如追蹤與醫(yī)療 保健、電視節(jié)目、災(zāi)害等相關(guān)的微博。
[0060] 相關(guān)微博的過濾在下文更詳細(xì)地討論。布爾過濾(booleanfiltering)、具備查詢 擴(kuò)展的布爾過濾和基于分類的過濾技術(shù)是本領(lǐng)域的技術(shù)人員所熟知的。這些過濾技術(shù)可用 作相關(guān)推文的收集組件,但作用有限。下文將描述這些技術(shù)以提供過濾技術(shù)的背景信息,然 后再描述本發(fā)明的一個實(shí)施方式所述的過濾技術(shù)。所述的第四種過濾技術(shù)是新穎的并且從 檢索率和精確度角度來說,在追蹤政治和體育新聞等動態(tài)和廣泛的話題上還能實(shí)現(xiàn)更好的 效果。
[0061] 布爾過濾
[0062] 最簡單的過濾技術(shù)是將Q??醋鞑紶柌樵兗?,因而將用^表示的布爾過濾器用于 追蹤即將到來的數(shù)據(jù)流中符合布爾查詢集合%中的任一項(xiàng)的微博。由此產(chǎn)生的匹配微博用 TB表示。該技術(shù)的有效性取決于在布爾查詢集合Q。中選定的查詢的質(zhì)量;如果這些查詢是 精確選定的,預(yù)計(jì)將檢索出高精度的結(jié)果;但是,如果話題高度動態(tài),預(yù)計(jì)檢索率會較低。
[0063] 具備查詢擴(kuò)展的布爾過濾
[0064] 擴(kuò)展布爾過濾器fB以實(shí)現(xiàn)更好檢索率的經(jīng)典理論是,應(yīng)用使用初始查詢集合Q。的 查詢擴(kuò)展,以匹配更多的微博。在這種方法中,一組擴(kuò)展詞匯集合E被添加到采用偽相關(guān)反 饋的查詢集合%中。該新詞匯