監(jiān)控輿情的方法和設備的制作方法
【專利摘要】本申請的實施例公開了一種監(jiān)控輿情的方法,包括:確定待評估文本;根據(jù)一用戶情感隨時間演變的模型,至少確定第一文本集在第一時間段令用戶產生每一種情感傾向的概率分布,以及第二文本集在第二時間段令用戶產生每一種情感傾向的概率分布;至少根據(jù)前述概率分布,確定至少一異常情感傾向;確定所述至少一異常情感傾向中的每一種異常情感傾向產生于任一時間的概率。本申請還公開了一種監(jiān)控輿情的設備。采用本申請所述的監(jiān)控輿情的方法和設備,可以對海量輿情進行深度的挖掘和分析,確定用戶的情感傾向隨時間的演變,彌補了現(xiàn)有技術的缺陷。
【專利說明】監(jiān)控輿情的方法和設備
【技術領域】
[0001] 本申請設及數(shù)據(jù)挖掘【技術領域】,尤其設及一種監(jiān)控輿情的方法和設備。
【背景技術】
[0002] 近年來,隨著互聯(lián)網(wǎng)相關技術的不斷發(fā)展,各種在線社交應用平臺逐漸成為當前 網(wǎng)絡活動的主流?;谠撔┢脚_,用戶可W通過發(fā)布博客、照片、信息甚至狀態(tài)更新來增強 他們在現(xiàn)實世界中的存在感,且有機會和世界另一邊的陌生人交流,該樣就形成了相對于 現(xiàn)實社交圈而言的虛擬社交圈。如今越來越多的網(wǎng)站開始提供功能W幫助用戶分享他們的 屯、情感想。例如,不少口戶網(wǎng)站開始允許用戶分享他們關于某個新聞的屯、情。通過分析用 戶對某個新聞的情感傾向,可W知道用戶看什么新聞會高興,看什么新聞會憤怒,看什么新 聞會沮喪等等。
[0003] 目前要了解用戶在閱讀過文本后產生什么樣的情感傾向,多采用統(tǒng)計的方式來實 現(xiàn)。然而,現(xiàn)有的統(tǒng)計方式有一定的局限性,針對某個具體的新聞,用戶的情感傾向隨時間 的演變,現(xiàn)有技術無法進行統(tǒng)計。
【發(fā)明內容】
[0004] 本申請的目的是;提供一種監(jiān)控輿情的方法和設備。
[0005] 根據(jù)本申請至少一個實施例的一個方面,提供了一種監(jiān)控輿情的方法,包括:
[0006] 確定待評估文本,其中,所述待評估文本至少包括在第一時間段內發(fā)布的第一文 本集和在第二時間段內發(fā)布的第二文本集;
[0007] 根據(jù)一用戶情感隨時間演變的模型,至少確定所述第一文本集在所述第一時間段 令用戶產生每一種情感傾向的概率分布,W及所述第二文本集在所述第二時間段令用戶產 生每一種情感傾向的概率分布;
[000引至少根據(jù)所述第一文本集在所述第一時間段令用戶產生每一種情感傾向的概率 分布,W及所述第二文本集在所述第二時間段令用戶產生每一種情感傾向的概率分布,確 定至少一異常情感傾向.
[0009] 確定所述至少一異常情感傾向中的每一種異常情感傾向產生于任一時間的概率。
[0010] 根據(jù)本申請至少一個實施例的另一個方面,提供一種監(jiān)控輿情的設備,包括:
[0011] 一評估文本確定裝置,用于確定至少一待評估文本,其中,所述待評估文本至少包 括在第一時間段內發(fā)布的第一文本集和在第二時間段內發(fā)布的第二文本集;
[0012] 一情感概率分布確定裝置,用于根據(jù)一用戶情感隨時間演變的模型,至少確定所 述第一文本集在所述第一時間段令用戶產生每一種情感傾向的概率分布,W及所述第二文 本集在所述第二時間段令用戶產生每一種情感傾向的概率分布;
[0013] 一異常情感確定裝置,用于至少根據(jù)所述第一文本集在所述第一時間段令用戶產 生每一種情感傾向的概率分布,W及所述第二文本集在所述第二時間段令用戶產生每一種 情感傾向的概率分布,確定至少一異常情感傾向;
[0014] 一時間概率分布確定裝置,用于確定所述至少一異常情感傾向中的每一種異常情 感傾向產生于任一時間的概率。
[0015] 采用本申請所述的監(jiān)控輿情的方法和設備,可W對海量輿情進行深度的挖掘和分 析,確定用戶的情感傾向隨時間的演變,彌補了現(xiàn)有技術的缺陷。
【專利附圖】
【附圖說明】
[0016] 圖1是本申請的一個實施例提供的建立情感模型的方法流程示意圖;
[0017] 圖2是本申請的一個實施例中用戶反饋情感傾向的交互界面示意圖;
[0018] 圖3a是本申請的另一個實施例提供的建立情感模型的方法流程示意圖;
[0019] 圖3b是本申請的另一個實施例提供的建立情感模型的方法流程示意圖;
[0020] 圖4是本申請一個實施例提供的預測用戶情感傾向的方法流程示意圖;
[0021] 圖5是本申請一個實施例提供的監(jiān)控輿情的方法流程示意圖;
[0022] 圖6是本申請一個實施例提供的基于用戶情感傾向提供服務的方法流程示意圖;
[0023] 圖7是本申請一個實施例提供的建立情感模型的裝置結構示意圖;
[0024] 圖8是本申請另一個實施例提供的建立情感模型的裝置結構示意圖;
[0025] 圖9是本申請另一個實施例提供的建立情感模型的裝置結構示意圖;
[0026] 圖10是本申請另一個實施例提供的建立情感模型的裝置結構示意圖;
[0027] 圖11是本申請一個實施例提供的第一輸出子模塊744或第二輸出子模塊748結 構示意圖;
[002引圖12是本申請一個實施例提供的預測用戶情感傾向的設備結構示意圖;
[0029] 圖13是本申請另一個實施例提供的預測用戶情感傾向的設備結構示意圖;
[0030] 圖14是本申請另一個實施例提供的預測用戶情感傾向的設備結構示意圖;
[0031] 圖15是本申請另一個實施例提供的預測用戶情感傾向的設備結構示意圖;
[0032] 圖16是本申請一個實施例提供的監(jiān)控輿情的設備結構示意圖;
[0033] 圖17是本申請另一個實施例提供的監(jiān)控輿情的設備結構示意圖;
[0034] 圖18是本申請另一個實施例提供的監(jiān)控輿情的設備結構示意圖;
[00巧]圖19是本申請另一個實施例提供的監(jiān)控輿情的設備結構示意圖;
[0036] 圖20是本申請另一個實施例提供的監(jiān)控輿情的設備結構示意圖;
[0037] 圖21是本申請一個實施例提供的基于用戶情感傾向提供服務的設備結構示意 圖;
[003引圖22是本申請另一個實施例提供的基于用戶情感傾向提供服務的設備結構示意 圖;
[0039] 圖23是本申請另一個實施例提供的基于用戶情感傾向提供服務的設備結構示意 圖;
[0040] 圖24是本申請另一個實施例提供的基于用戶情感傾向提供服務的設備結構示意 圖;
[0041] 圖25是本申請另一個實施例提供的基于用戶情感傾向提供服務的設備結構示意 圖。
【具體實施方式】
[0042] 下面結合附圖和實施例,對本申請的【具體實施方式】作進一步詳細說明。W下實施 例用于說明本申請,但不用來限制本申請的范圍。
[0043] 本領域技術人員理解,在本申請的實施例中,下述各步驟的序號的大小并不意味 著執(zhí)行順序的先后,各步驟的執(zhí)行順序應W其功能和內在邏輯確定,而不應對本申請實施 例的實施過程構成任何限定。
[0044] 另外,本申請中的"第一"、"第二"等術語僅用于區(qū)別不同步驟、設備或模塊等,既 不代表任何特定技術含義,也不表示它們之間的必然邏輯順序。
[0045] 圖1是本申請一個實施例所述的建立情感模型的方法,參見圖1,所述方法包括:
[0046] S100 ;確定至少一訓練文本;
[0047] S120 ;對所述至少一訓練文本進行預處理,確定每一個訓練文本的文字向量和每 一個訓練文本的情感向量;
[0048] S140;根據(jù)每一個訓練文本的所述文字向量、每一個訓練文本的所述情感向量W 及每一個訓練文本的發(fā)布時間,確定用戶情感隨時間演變的模型。
[0049] 可選的,在本申請的一個可選實施例中,上述S100中確定至少一訓練文本,可W 包括;從互聯(lián)網(wǎng)上獲取一段時間內發(fā)布的內容,作為訓練文本。當然,也可W是用其他的方 式獲取訓練文本,例如,用戶手動導入至少一文本作為訓練文本,本申請的實施例對此不作 限定。上述內容可W包括;新聞、社交網(wǎng)絡發(fā)言(博客或者微博等等)或者網(wǎng)絡論壇的帖子 等等。
[0050] 獲得訓練文本后,就可W進行預處理,確定每一個訓練文本的文字向量和每一個 訓練文本的情感向量(S120)。
[0051] 可選的,上述文字向量可W為每一個訓練文本的有效單詞。例如,每一個訓練文本 的文字向量可W表示為:
[0052] d = {wl, w2, w3, wl, w4, w5, w5, w2...}。
[0化3] 可選的,上述情感向量可W為用戶預先閱讀了每一個訓練文本后產生的至少一種 情感傾向。例如,每一個訓練文本的情感向量可W表示為:
[0054] e={el:n 1 ,e2:n2,e3:n3,e4:n4...}
[005引其中,nl、n2、n3、n4…可W表示產生該情感傾向的數(shù)量,示例性的,上述某一種情 感傾向的數(shù)量,可W是產生該情感傾向的統(tǒng)計數(shù)量,或者,還可W是該情感傾向產生的歸一 化數(shù)量,例如,該歸一化數(shù)量可W是該情感傾向產生的統(tǒng)計數(shù)量占所有情感傾向統(tǒng)計數(shù)量 的比例。
[0化6] 對于文本向量來說,通常情況下,一個文本中,去除掉一些無意義的單詞(例如, "的""了"之類的單詞)之后,剩下的就是有效單詞了。
[0化7] 而對于情感向量來說,用戶在閱讀訓練文本之后,可W通過如圖2所示的交互界 面選擇最能代表自己情感傾向的選項,因此就可W根據(jù)用戶反饋的數(shù)據(jù)進行統(tǒng)計,得到每 一個訓練文本的情感向量。又或者,用戶閱讀訓練文本后,可W通過文字等形式發(fā)表自己的 評論,對用戶的評論進行分類,就可W得到每一個訓練文本的情感向量。
[0化引在本申請一個可選實施例中,在確定了每一個訓練文本的文字向量和每一個訓練 文本的情感向量后,將每一個訓練文本的文字向量中的每一個有效單詞和每一個訓練文本 的訓練文本的情感向量W及發(fā)布時間綁定,得到訓練文本的一個元組;(是t,w)。如果訓練 文本d有Nd個單詞,那么訓練文本d的元組(g,t,w)也有Nd個。在一個訓練文本的所有元 組中,情感向量京和發(fā)布時間t都是相同的。上述發(fā)布時間可W具體到"小時"或者"日", 當然也可W粒度大一些,例如,具體到"月"或者具體到"年"等等,本申請的實施例對此不 作具體限定。
[0化9] 在本申請的另一個可選實施例中,可W按照發(fā)布時間對訓練文本進行劃分,歸屬 于同一個時間段內的訓練文本,發(fā)布時間可W認為是相同的。針對歸屬于同一個時間段內 的訓練文本單獨建立子模型,則本申請所述的用戶情感對時間演變的模型就可W包括多個 不同時間段的子模型。在每一個子模型中,由于訓練文本的發(fā)布時間是相同的,因此,得到 的元組可W只包括有效單詞和情感向量,即;館,W)。
[0060] 在本申請的實施例中,假設文本是由各類主題組成的,此處的"主題"表示一個概 念、一個方面,形象來說,主題可W認為是一個桶,里面裝了出現(xiàn)概率較高的元組,該些元組 與該個主題有很強的相關性。通過"主題"該個中介,就可W將文本與元組聯(lián)系起來。
[0061] 因此,在本申請的實施例中,某一個文本產生某一元組的概率都可化圍過"文本W(wǎng) 一定的概率選擇了某個主題,該個主題W-定的概率產生了某一元組"該樣一個過程得到 的。即:
[006引 P(元組I文本)=2主題P(元組I主題)XP(主題I文本)
[0063] 對每一個訓練文本進行統(tǒng)計,確定某個訓練文本中某一個元組出現(xiàn)的次數(shù),就可 W得到基于訓練文本的P (元組I訓練文本)。然后通過一算法,得到P (元組I主題)和 P (主題I訓練文本)。根據(jù)訓練得到的P (元組I主題)和P (主題I訓練文本),就可W確 定任一文本產生任一元組的近似后驗分布P (元組I文本)。
[0064] 在一個可選實施例中,如圖3a所示,上述S140中根據(jù)每一個訓練文本的所述文字 向量、每一個訓練文本的所述情感向量W及每一個訓練文本的發(fā)布時間,確定用戶情感隨 時間演變的模型,可W包括:
[00化]S141 ;將第i個訓練文本的文字向量中的每一個有效單詞和第i個訓練文本的情 感向量W及第i個訓練文本的發(fā)布時間綁定,得到第i個訓練文本的多個元組;
[0066] S142 ;對第i個訓練文本進行統(tǒng)計,確定所述第i個訓練文本中出現(xiàn)元組r的概率 P (元組r I訓練文本i);
[0067] S143 ;根據(jù)所述P (元組r I訓練文本i),通過一算法,確定所述第i個訓練文本選 擇主題k的概率P (主題k I訓練文本i) W及所述主題k產生元組r的概率P (元組r I主 題k);
[00側 S144;用于根據(jù)所述P (主題k|訓練文本^和所述P (元組r|主題k),確定任一 文本產生任一元組的近似后驗分布P (元組I文本)。
[0069] 在另一個可選實施例中,如圖3b所示,上述S140中根據(jù)每一個訓練文本的所述文 字向量、每一個訓練文本的所述情感向量W及每一個訓練文本的發(fā)布時間,確定用戶情感 隨時間演變的模型,可W包括:
[0070] S145;將每一個訓練文本的文字向量中的每一個有效單詞和每一個訓練文本的情 感向量綁定,得到每一個訓練文本的多個元組;
[0071] S146;對至少一時間段發(fā)布的訓練文本進行統(tǒng)計,確定所述至少一時間段內發(fā)布 的第i個訓練文本中出現(xiàn)元組r的概率P (元組r I訓練文本i);
[0072] S147 ;根據(jù)所述P (元組r I訓練文本i),通過一算法,確定所述第i個訓練文本選 擇主題k的概率P (主題k I訓練文本i) W及所述主題k產生元組r的概率P (元組r I主 題k);
[007引 S148 ;根據(jù)所述P (主題k I訓練文本i)和所述P (元組r I主題k),確定至少一時 間段內任一文本產生任一元組的近似后驗分布P (元組I文本)。
[0074] 可選的,上述算法,可W是基于采樣的算法,或者也可W是變分 EM巧xpectation-maximization,期望最大化)算法?;诓蓸拥乃惴ㄍㄟ^收集后驗分布 的樣本,W樣本的分布求得后驗分布的近似,常見的基于采樣的算法例如基于吉布斯采樣 (Gibbs Sampling)的算法。而變分EM算法則是先假定一族在隱藏結構之上的參數(shù)化的分 布,再通過變分思想迭代更新尋找與后驗分布最接近的分布。下面W基于吉布斯采樣的算 法為例,介紹本申請實施例中確定模型的兩種過程。
[0075] (1)假設一訓練文本集D,有m個訓練文本dl,d2,d3……血,發(fā)布時間分別為;tl, t2, 1:3......tm,n 個主題 Zl,Z2, Z3......化。
[0076] 將訓練文本集中的每一個訓練文本都轉化成元組的形式;(吝,t,W)
[0077] 初始時;W均等的概率或者隨機為每一個訓練文本的每一個元組賦予一個主 題,示例性的,如表1所示:
[007引 表1
[0079]
【權利要求】
1. 一種監(jiān)控輿情的方法,其特征在于,包括: 確定待評估文本,其中,所述待評估文本至少包括在第一時間段內發(fā)布的第一文本集 和在第二時間段內發(fā)布的第二文本集; 根據(jù)一用戶情感隨時間演變的模型,至少確定所述第一文本集在所述第一時間段令用 戶產生每一種情感傾向的概率分布,以及所述第二文本集在所述第二時間段令用戶產生每 一種情感傾向的概率分布; 至少根據(jù)所述第一文本集在所述第一時間段令用戶產生每一種情感傾向的概率分布, 以及所述第二文本集在所述第二時間段令用戶產生每一種情感傾向的概率分布,確定至少 一異常情感傾向; 確定所述至少一異常情感傾向中的每一種異常情感傾向產生于任一時間的概率。
2. 如權利要求1所述的方法,其特征在于,根據(jù)一用戶情感隨時間演變的模型,至少確 定所述第一文本集在所述第一時間段令用戶產生每一種情感傾向的概率分布,以及所述第 二文本集在所述第二時間段令用戶產生每一種情感傾向的概率分布,包括: 對所述待評估文本進行預處理,確定每一個待評估文本的文字向量和每一個待評估文 本的情感向量; 將每一個待評估文本的文字向量中的每一個有效單詞和每一個待評估文本的情感向 量綁定,得到每一個待評估文本的元組; 將每一個待評估文本的元組輸入所述用戶情感隨時間演變的模型中與所述每一個待 評估文本的發(fā)布時間對應的子模型,根據(jù)所述用戶情感隨時間演變的模型的輸出結果,至 少確定所述第一文本集中在所述第一時間段令用戶產生每一種情感傾向的概率分布,以及 所述第二文本集在所述第二時間段令用戶產生每一種情感傾向的概率分布。
3. 如權利要求2所述的方法,其特征在于,至少根據(jù)所述第一文本集在所述第一時間 段令用戶產生每一種情感傾向的概率分布,以及所述第二文本集在所述第二時間段令用戶 產生每一種情感傾向的概率分布,確定至少一異常情感傾向,包括: 至少確定第一時間段內發(fā)布的文本令用戶產生每一種情感傾向的概率分布與第二時 間段內發(fā)布的文本令用戶產生每一種情感傾向的概率分布的距離; 根據(jù)所述第一時間段內發(fā)布的文本令用戶產生每一種情感傾向的概率分布與第二時 間段內發(fā)布的文本令用戶產生每一種情感傾向的概率分布的距離,確定至少一異常情感傾 向。
4. 如權利要求1至3中任一所述的方法,其特征在于,所述方法還包括: 建立所述用戶情感隨時間演變的模型。
5. 如權利要求4所述的方法,其特征在于,所述建立所述用戶情感隨時間演變的模型, 包括: 確定至少一訓練文本; 對所述至少一訓練文本進行預處理,確定每一個訓練文本的文字向量和每一個訓練文 本的情感向量; 根據(jù)每一個訓練文本的所述文字向量、每一個訓練文本的所述情感向量以及每一個訓 練文本的發(fā)布時間,確定用戶情感隨時間演變的模型。
6. 如權利要求5所述的方法,其特征在于,所述根據(jù)每一個訓練文本的所述文字向量、 每一個訓練文本的所述情感向量以及每一個訓練文本的發(fā)布時間,確定用戶情感隨時間演 變的模型,包括: 將每一個訓練文本的文字向量中的每一個有效單詞和每一個訓練文本的情感向量綁 定,得到每一個訓練文本的多個元組; 對至少一時間段發(fā)布的訓練文本進行統(tǒng)計,確定所述至少一時間段內發(fā)布的第i個訓 練文本中出現(xiàn)元組r的概率P (元組r |訓練文本i); 根據(jù)所述P (元組r |訓練文本i),通過一算法,確定所述第i個訓練文本選擇主題k的 概率P (主題k |訓練文本i)以及所述主題k產生元組r的概率P (元組r |主題k); 根據(jù)所述P (主題k|訓練文本i)和所述P (元組r|主題k),確定至少一時間段內任一 文本產生任一元組的近似后驗分布P (元組I文本)。
7. -種輿情監(jiān)控的設備,其特征在于,所述輿情監(jiān)控的設備包括: 一評估文本確定裝置,用于確定至少一待評估文本,其中,所述待評估文本至少包括在 第一時間段內發(fā)布的第一文本集和在第二時間段內發(fā)布的第二文本集; 一情感概率分布確定裝置,用于根據(jù)一用戶情感隨時間演變的模型,至少確定所述第 一文本集在所述第一時間段令用戶產生每一種情感傾向的概率分布,以及所述第二文本集 在所述第二時間段令用戶產生每一種情感傾向的概率分布; 一異常情感確定裝置,用于至少根據(jù)所述第一文本集在所述第一時間段令用戶產生每 一種情感傾向的概率分布,以及所述第二文本集在所述第二時間段令用戶產生每一種情感 傾向的概率分布,確定至少一異常情感傾向; 一時間概率分布確定裝置,用于確定所述至少一異常情感傾向中的每一種異常情感傾 向產生于任一時間的概率。
8. 如權利要求7所述的設備,其特征在于,所述情感概率分布確定裝置包括: 處理模塊,用于對所述待評估文本進行預處理,確定每一個待評估文本的文字向量和 每一個待評估文本的情感向量; 元組確定模塊,用于將每一個待評估文本的文字向量中的每一個有效單詞和每一個待 評估文本的情感向量綁定,得到每一個待評估文本的元組; 輸入模塊,用于將每一個待評估文本的元組輸入所述用戶情感隨時間演變的模型中與 所述每一個待評估文本的發(fā)布時間對應的子模型,根據(jù)所述用戶情感隨時間演變的模型的 輸出結果,至少確定所述第一文本集中在所述第一時間段令用戶產生每一種情感傾向的概 率分布,以及所述第二文本集在所述第二時間段令用戶產生每一種情感傾向的概率分布。
9. 如權利要求8所述的設備,其特征在于,所述異常情感確定裝置包括: 情感傾向波動確定模塊,用于至少確定第一時間段內發(fā)布的文本令用戶產生每一種情 感傾向的概率分布與第二時間段內發(fā)布的文本令用戶產生每一種情感傾向的概率分布的 距離; 異常情感確定模塊,用于根據(jù)所述第一時間段內發(fā)布的文本令用戶產生每一種情感傾 向的概率分布與第二時間段內發(fā)布的文本令用戶產生每一種情感傾向的概率分布的距離, 確定至少一異常情感傾向。
10. 如權利要求7至9中任一所述的設備,其特征在于,所述監(jiān)控輿情的設備還包括: 一建立情感模型的裝置,用于建立所述用戶情感隨時間演變的模型。
【文檔編號】G06F11/30GK104504031SQ201410773605
【公開日】2015年4月8日 申請日期:2014年12月12日 優(yōu)先權日:2014年12月12日
【發(fā)明者】于魁飛 申請人:北京智谷睿拓技術服務有限公司