亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種多標簽在線新聞讀者情緒預測方法

文檔序號:10687094閱讀:181來源:國知局
一種多標簽在線新聞讀者情緒預測方法
【專利摘要】本發(fā)明提出了一種多標簽在線新聞讀者情緒預測方法。包括:提出將在線新聞文本的讀者情緒預測問題作為多標簽分類任務,即一篇新聞對應一種或者多種讀者情緒;提出一種多標簽監(jiān)督的情緒?主題模型(ML?sETM),利用該模型對新聞文本進行讀者情緒分類。本發(fā)明提出的方法能夠有效預測讀者在閱讀在線新聞文本內(nèi)容后可能產(chǎn)生的情緒類別集合。本發(fā)明可用于讀者情緒分析和輿情監(jiān)控等領(lǐng)域。
【專利說明】
一種多標簽在線新聞讀者情緒預測方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于情緒分析領(lǐng)域,具體涉及一種新型的面向新聞文本的讀者情緒預測方 法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展和Web 2.0時代的到來,以在線新聞、微博、論壇、微信為代 表的新一代網(wǎng)絡(luò)媒體逐漸成為人們獲取信息的主要渠道。這些新興的網(wǎng)絡(luò)媒體逐漸改變了 人們參與互聯(lián)網(wǎng)的方式,由用戶產(chǎn)生的內(nèi)容(User Generate Content,UGC)開始在互聯(lián)網(wǎng) 中占據(jù)越來越重要的地位。在線新聞服務作為主要的網(wǎng)絡(luò)信息載體,其內(nèi)容和形式也不斷 創(chuàng)新,開始允許用戶通過情緒投票服務直接抒發(fā)自己對新聞事件的情緒,如感動、同情、憤 怒和難過等。這些用戶情緒信息不但可以輔助在線新聞提供商更好地了解用戶偏好,為用 戶提供更好的個性化服務。同時,有助于分析大眾對新聞事件的態(tài)度和情緒變化,有效實現(xiàn) 網(wǎng)絡(luò)輿情監(jiān)控,維護健康的網(wǎng)絡(luò)環(huán)境和社會的穩(wěn)定發(fā)展。因此,如何對用戶的情緒進行預測 具有重要的理論意義和應用價值。
[0003] 傳統(tǒng)的情緒預測研究工作往往集中在對文本作者的情緒進行預測,而針對文本讀 者的情緒預測研究工作還比較少。讀者情緒預測研究的目標是預測讀者在閱讀文本后所產(chǎn) 生的情緒,已有研究證明讀者的情緒與作者的情緒并不總是一致的。且已有的讀者情緒預 測研究往往將其作為一個單標簽分類任務,即認為一篇新聞只會使讀者產(chǎn)生一種情緒。這 明顯與人類直覺和大規(guī)模讀者情緒統(tǒng)計結(jié)果不符,不同讀者對同一篇新聞產(chǎn)生的情緒往往 是不同的。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是解決如何準確預測讀者在閱讀新聞后可能產(chǎn)生情緒的問題,針對 現(xiàn)有情緒預測方法直接應用到面向新聞文本的讀者情緒預測問題上時凸顯的不足,以知名 在線新聞網(wǎng)站新浪新聞為代表性研究對象,提供一種專門面向在線新聞的,對讀者在閱讀 新聞文本后可能產(chǎn)生的情緒進行預測的方法。
[0005] 本發(fā)明針對現(xiàn)有技術(shù)的問題,創(chuàng)新性地在傳統(tǒng)LDA主題模型的基礎(chǔ)上,提出了一種 多標簽監(jiān)督的情緒-主題模型(ML-sETM),增加一層表示讀者情緒的情緒層,并利用讀者情 緒反饋信息對模型進行監(jiān)督。最終本發(fā)明能夠有效利用文本語義信息,更加準確地預測讀 者情緒。
[0006] 本發(fā)明提出的面向新聞文本的多標簽在線新聞讀者情緒預測方法,包括如下步 驟:
[0007] 第1、對在線新聞文本的讀者情緒預測問題進行形式化描述
[0008] 定義1:在線新聞文本集合,用符號D表示:
[0009] D={d(1),d(2),H.,d(N)} (H)
[0010] 其中,d(1)表示新聞文本,N為在線新聞文本數(shù);
[0011 ]定義2:讀者情緒標簽集合,用符號E表示:
[0012] E={ei,e2,...,eM} (1~2)
[0013] 其中,&表示讀者的某一種情緒標簽,M為語料庫中情緒標簽數(shù);
[0014] 定義3:讀者在閱讀新聞文本d(1)后會產(chǎn)生某一種或者某幾種情緒,且不同的讀者 對同一新聞文本d (i)可能會產(chǎn)生不同的情緒,這些情緒標簽組合在一起構(gòu)成了一個情緒標 簽子集合^,其中teF;
[0015] 定義4:向量g IT為在線新聞文本d(i) GD的特征構(gòu)成的特征向量:
[0017]其中.療)表示新聞文本d(1)的第j個特征;
[0018]定義5:向量y(1)為對應的新聞文本d(1)GD的情緒標簽標注,用來表示讀者在閱讀 新聞后可能產(chǎn)生的所有情緒:
[0020]如果新聞文本d(i)標注的情緒標簽子集合為足G五,則y⑴中的項g'kG 1,2,…,M 可表示為
[0022] 定義6:由新聞文本的特征向量和相應的情緒標注的N個向量組成的標注數(shù)據(jù)集T, 用于讀者情緒預測模型訓練,可表示為:
[0023] T={(x ⑴,y⑴),(x ⑵,y(2)),...,(x(N),y(N))} (1-6)
[0024] 其中,x(1)表示新聞文本d(1)的特征向量,y(1)表示新聞文本d (1)的情緒標簽標注;
[0025] 定義7:語料庫中的所有新聞文本,關(guān)于預定義的情緒標簽集合中各情緒的概率分 布,用符號5表不;
[0026] 定義8:對于情緒標簽集合中的所有情緒標簽,關(guān)于語料庫中隱含主題集合中的各 個主題,構(gòu)成情緒-主題分布,用符號9表示;
[0027] 定義9 :對于主題集合中的所有主題,關(guān)于語料庫中的所有詞,構(gòu)成主題-詞分布, 用符號f表不;
[0028] 第2、構(gòu)建多標簽監(jiān)督的情緒-主題模型ML-sETM
[0029] 定義10:多標簽監(jiān)督的情緒-主題模型ML-sETM:對LDA主題模型(Latent Dirichlet Allocation Topic Model)進行擴展:從"文檔-主題-詞"三層貝葉斯結(jié)構(gòu)擴展 為"文檔-情緒-主題-詞"四層貝葉斯結(jié)構(gòu),同時將其擴展為監(jiān)督的主題模型。
[0030]第2.1、對于情緒標簽集合中的每個情緒標簽心££,其中mG{l,2,…,M},從先驗 參數(shù)為a的狄利克雷分布中得到相應的情緒-主題分布0m={0m>1,0m, 2,…,0m,dT,其中K為語 料庫中隱含主題的數(shù)目;
[0031]第2.2、對于隱含主題集合中的每個主題t(tGl,2,…,K),從先驗參數(shù)為0的狄利 克雷分布中得到相應的主題-詞分布%={1,42,-,%>1,;} 1,:其中¥為語料庫中特征詞的數(shù) 目;
[0032]第2.3、對于語料庫中的每一篇新聞文本(1(1),根據(jù)其標注向量11(1)和先驗參數(shù)丫, 得到新聞文本d(1)屬于各個情緒標簽的概率分布S'd = SdXy(1),其中…,Sd,M }TS從先驗參數(shù)為Y的狄利克雷分布中得到的文檔-情緒分布;
[0033]第2.4、利用Gibbs采樣方法,計算情緒-主題模型對訓練數(shù)據(jù)的情緒-主題分布0和 主題-詞分布識;
[0034] 第2.4.1、對于語料庫中的每一個單詞Wi,隨機初始化情緒標簽e G {ei,e2,…,eM} 和主題t G { tl,t2,…,tl(};
[0035] 第2.4.2、根據(jù)計算得到情緒標簽e、主題t的后驗概率分布,為語料庫中的每個詞 重新分配情緒標簽和主題。其中詞^屬于各情緒標簽、主題的概率的計算方法如下公式:
[0036]
[0037] 其中,表示整個語料庫中除去當前詞^后主題z被分配給情緒標簽e的次數(shù); 表示整個語料庫中除去當前詞^后詞Wl被分配給主題t的次數(shù);%表示文檔d中被分配 給情緒標簽e的詞的數(shù)目。|W|為語料庫中詞的數(shù)目,K為語料庫中隱含主題的數(shù)目,M為語料 庫中情緒標簽數(shù)。
[0038] 第2.4.3、將第2.4.2步重復I次直至收斂,可認為接近真實的分布。對迭代后的結(jié) 果進行頻次統(tǒng)計,計算得到整個語料庫的情緒-主題分布和主題-詞分布#,計算方法如下 公式:
[0040] 其中,ne,z,.表示整個語料庫中主題z被分配給情緒標簽e的次數(shù);n.,z, w表示整個語 料庫中詞^被分配給主題t的次數(shù)。
[0041] 第3、對于未知讀者情緒標簽的新聞文本d(N+1),利用第2.4步得到的情緒-主題分布 S和主題-詞分布#,采用Gibbs采樣方法得到文檔屬于各個情緒標簽的概率S;
[0042] 第3.1、對于新聞文本d(N+1)中的每一個單詞^,隨機初始化情緒標簽eG{ei, e2,…, eM}和主題t E {ti,t2,…,ti(};
[0043]第3.2、利用Gibbs采樣方法為新聞文本d(N+1)中每個詞重新分配情緒標簽和主題。 詞^屬于各情緒標簽、主題的概率的計算方法如下公式:
[0045] 其中,Nd,e為文檔d中詞被分配給情緒標簽e的次數(shù),或,為第2步訓練后的情緒-主 題模型得到的主題z屬于情緒標簽e的概率,氣 >.為已訓練模型得到的詞w屬于主題z的概率;
[0046] 第3.3、將第3.2步重復I次直至收斂,可認為接近真實的分布。對迭代后的結(jié)果進 行頻次統(tǒng)計,得到文檔關(guān)于各情緒標簽的概率分布8,計算方法如下公式:
[0048]第3.4、根據(jù)第3.3步計算得到的未知文檔關(guān)于情緒標簽的概率分布5,采用基于閾 值的方法得到新聞文本所屬的情緒標簽集合。其計算方法如下:
[0050]其中,p為預先定義的閾值,為未知新聞文本屬于情緒標簽e的概率。
[00511本發(fā)明的優(yōu)點和積極效果:
[0052]本發(fā)明提出的面向在線新聞文本的讀者情緒預測方法,能夠有效解決傳統(tǒng)情緒預 測方法僅能預測單一情緒的不足;同時本發(fā)明提出的多標簽監(jiān)督的情緒-主題模型,能夠有 效利用文本語義信息,挖掘讀者情緒與新聞"主題"之間的聯(lián)系,與傳統(tǒng)模型相比,能夠更加 準確地預測讀者在閱讀新聞文本后可能產(chǎn)生的情緒。
【附圖說明】
[0053] 圖1為本發(fā)明提出的多標簽在線新聞讀者情緒預測方法的過程示意圖
[0054] 圖2為本發(fā)明提出的多標簽在線新聞讀者情緒預測方法的整體流程。
[0055] 圖3為多標簽監(jiān)督的情緒-主題模型(ML-sETM)。
[0056] 圖4為現(xiàn)有單標簽分類算法與本發(fā)明方法在讀者情緒預測問題上的性能比較結(jié) 果。
[0057] 圖5為現(xiàn)有多標簽分類算法與本發(fā)明方法在讀者情緒預測問題上的性能比較結(jié) 果。
[0058]圖6為一篇新的未知讀者情緒的新聞文本。
[0059] 圖7為新聞數(shù)據(jù)集中排名前10的情感標簽。
【具體實施方式】
[0060] 本發(fā)明提出了一種多標簽在線新聞讀者情緒預測方法
[0061] 方法整體流程如圖2所示,首先根據(jù)訓練數(shù)據(jù)集中的情感知識訓練模型,實驗的數(shù) 據(jù)集來自新浪新聞社會頻道抓取的從2011年1月到2011年6月4654篇熱點新聞,讀者情緒投 票總數(shù)為1221458,平均每篇新聞的用戶情緒投票數(shù)目為262,為實驗提供了充足的情感數(shù) 據(jù)。
[0062]圖7為新聞數(shù)據(jù)集中排名前10的情感標簽集合,證明了多標簽情感分析的必要性。 [0063]首先采用Gibbs采樣訓練整個數(shù)據(jù)集T,估計參數(shù),最后得到三個參數(shù),文檔-情緒 分布S、情緒-主題分布0、主題-詞分布P,由于三個參數(shù)都是矩陣,這里就不再具體展開,具 體算法如下:
[0064]算法lGibbs采樣參數(shù)估計算法
[0065] 1)初始化后驗概率0 = 0、辦=〇、5 = 0;
[0066] 2)將隨機變量0、切、_5對應的先驗參數(shù)a、0、y初始化為常數(shù),g卩a = a、0 = b、y =r;
[0067] 3)為文檔中每個詞隨機分配情緒標簽和主題,得到初始的分布變量,y和z;
[0068] 4)計算情緒標簽和主題的后驗概率,計算公式如下:
[0071] 其中,K表示語料庫中隱含主題的數(shù)目,M表示語料庫中情緒標簽數(shù)目,W表示語料 庫中詞的總數(shù);表示不包含當前詞下語料庫中主題t分配給情緒標簽£的數(shù)目;表 示不包含當前詞下文檔中的詞被分配給情緒標簽£的數(shù)目;表示當前文檔的情緒標注結(jié) 果,表示為M維的向量,每一維為0或者1,分別表示文檔不屬于或者屬于該維對應的情緒標 簽;〃 乂表示不包含當前詞下語料庫中詞w分配給主題t的數(shù)目;
[0072] 5)根據(jù)步驟4)計算得到的后驗概率值,為語料庫中所有詞重新分配情緒標簽和主 題;
[0073] 6)將步驟5)迭代I次,可認為文檔中所有詞的情緒標簽、主題分配結(jié)果已接近真實 分布。對迭代后的結(jié)果進行頻次統(tǒng)計,得到得到整個語料庫的情緒-主題分布#和主題-詞 分布#,計算方法如下公式:
[0076]其中,ne,z,.表示整個語料庫中主題z被分配給情緒標簽e的次數(shù);n., z,w表示整個語 料庫中詞^被分配給主題t的次數(shù);
[0077] 7)結(jié)束。
[0078]圖6為新的未知讀者情緒的新聞文本(IT小伙半夜疑猝死專家稱猝死年輕化趨勢 明顯),我們需要利用訓練得到的多標簽監(jiān)督的情緒-主題模型,將其分類到相應的情緒類 別集合中。這里的文本類別是指對應的讀者情緒,如高興、震驚、難過、感動等。圖3為本發(fā)明 提出的多標簽監(jiān)督的情緒-主題模型(ML-sETM)的模型圖。其主要包括的核心思想:在LDA主 題模型的基礎(chǔ)上增加一層讀者情緒層,認為文檔是若干情緒的混合分布,而每種情緒又是 一個關(guān)于主題的混合分布,每個主題又是一個關(guān)于單詞的概率分布。該多標簽監(jiān)督的情緒-主題模型可以看作是文檔的一種生成模型:文檔的生成就是基于主題模型的一個簡單概率 過程。當生成一個新的文檔時,首先得到一個關(guān)于情緒的分布,對于該文檔中的每一個單 詞,先通過情緒的分布隨機得到某個情緒,接著通過該情緒對應的主題分布隨機得到一個 主題,最后通過該主題對應的單詞分布隨機得到一個具體的詞。最終,每個單詞都被分配一 個情緒和主題,通過這種方式將新聞文本主題與讀者情緒聯(lián)系起來,利用情緒-主題模型能 夠有效挖掘文本語義的特點,提高模型的讀者情緒預測能力。
[0079] 算法2情緒預測算法
[0080] 1)對于未知文本中的每一個單詞Wi,隨機初始化情緒標簽e G {ei,e2,…,eM}和主 題te {tl,t2,…,tl(};
[0081] 2)利用Gibbs采樣方法為d(N+1)中每個詞重新分配情緒標簽和主題。詞^屬于各情 緒標簽、主題的概率的計算方法如下公式:
[0084] Nd,e為文檔d中詞被分配給情緒標簽e的次數(shù),么_為已訓練模型得到的主題z屬于 情緒標簽e的概率,灸#為已訓練模型得到的詞w屬于主題z的概率;
[0085] 3)將步驟(2)重復I次直至收斂,可認為接近真實的分布。對迭代后的結(jié)果進行頻 次統(tǒng)計,得到文檔關(guān)于各情緒標簽的概率分布8,計算方法如下公式:
[0087] 4)根據(jù)步驟(3)計算得到的未知文檔關(guān)于情緒標簽的概率分布8,采用基于閾值的 方法得到新聞所屬的情緒標簽集合。其計算方法如下:
[0089] 其中,p為預先定義的閾值,為未知新聞文本屬于情緒標簽e的概率。
[0090] 5)結(jié)束。
[0091] 對于圖6的新聞文本(IT小伙半夜疑猝死專家稱猝死年輕化趨勢明顯),經(jīng)過上述 的算法2進行預測,最后得到一系列的情緒標簽的概率。
[0092] {5.0% ,33.7% ,13.1% ,9.9% ,0.6% ,27.9% ,10.7% ,4.1%};
[0093] 根據(jù)經(jīng)驗我們選擇閾值p的值為0.8,根據(jù)步驟(4)的計算,我們發(fā)現(xiàn)只有同情和難 過這兩個情緒在閾值范圍內(nèi)。
[0094] 另一方面,我們查看讀者的情感投票,八種情感的讀者投票分別為:
[0095] {0,212,32,11,0,191,10,20};
[0096] 根據(jù)步驟(4)的計算,我們發(fā)現(xiàn)同樣只有兩種情感在閾值范圍中,同情和難過,和 預測的結(jié)果不謀而合。
[0097] 然而,一條新聞的預測準確不能證明我們模型的準確性和高效性,我們需要通過 大量的數(shù)據(jù)來證明,同時還需要對比最新的情感分析的多標簽算法。
[0098] 實驗從多標簽分類領(lǐng)域常用的 Hamming-Loss、subsetAcc、0ne_error 和 F-Measure 四個指標來評測,其中Hamming-Loss通過計算模型預測出的標簽集合與真實標注的標簽集 合之間的差距來度量多標簽分類器的性能,One-error衡量的是排名第一的標簽不包含在 標簽集合中的概率,這兩個指標越小表示結(jié)果越好;subsetAcc可以反應預測的標簽集合與 實際的標簽集合完全相同所占的比例,F(xiàn)-Measure是對查全率和查準率的一種權(quán)衡,這兩個 指標越大表示結(jié)果越好。
[0099] 試驗中用來對比的方法是修改后的多元邏輯回歸算法MLR、多標簽分類領(lǐng)域經(jīng)典 的BR算法、MLkNN算法、RAkEL算法、CLR算法,對于BR、CLR和RAkEL三種算法的基礎(chǔ)二分類器 均選擇在文本分類問題中表現(xiàn)效果比較好的SVM算法,RAkEL中和MLkNN中的參數(shù)k都設(shè)置為 3(實驗證明k = 3時效果最好)。
[0100] 圖4為本發(fā)明提出的多標簽監(jiān)督的情緒-主題模型與多元邏輯斯諫回歸模型MLR的 性能比較結(jié)果??梢钥闯?,本發(fā)明提出的ML-sETM模型在所有的評測指標上,均明顯優(yōu)于多 元邏輯斯諫回歸模型。
[0101] 圖5為本發(fā)明提出的方法與傳統(tǒng)多標簽分類方法性能比較結(jié)果。可以看出,本文提 出的多標簽監(jiān)督的情緒主題模型ML-sETM在全部評價指標上表現(xiàn)效果均最優(yōu),從而驗證了 本文提出的ML-sETM模型能夠更加準確地將新聞文本分類到讀者可能產(chǎn)生的情緒類別集合 中。
【主權(quán)項】
1. 一種多標簽在線新聞讀者情緒預測方法,該方法包括如下步驟: 第1、對在線新聞文本的讀者情緒預測問題進行形式化描述 定義1:在線新聞文本集合,用符號D表示: D= {d⑴,d⑵,…,d(N)} (1-1) 其中,d(i)表示新聞文本,N為在線新聞文本數(shù); 定義2:讀者情緒標簽集合,用符號E表示: E= {ei,e2, ??? ,eM} (1-2) 其中,ei表示讀者的某一種情緒標簽,M為語料庫中情緒標簽數(shù); 定義3:讀者在閱讀新聞文本d(1)后會產(chǎn)生某一種或者某幾種情緒,且不同的讀者對同 一新聞文本d(1)會產(chǎn)生不同的情緒,這些情緒標簽組合在一起構(gòu)成了一個情緒標簽子集合 Yl,其中}^ 定義4:向量x(/> g 在線新聞文本d(1)GD的特征構(gòu)成的特征向量:其中.#表示新聞文本d(1)的第j個特征; 定義5:向量y(1)為對應的新聞文本d(1)GD的情緒標簽標注,用來表示讀者在閱讀新聞 后可能廣生的所有情緒: //(,t(!-4> 如果新聞文本d(i)標注的情緒標簽子集合為f ,則y(i)中的項…,il#可表 示為定義6:由新聞文本的特征向量和相應的情緒標注的N個向量組成的標注數(shù)據(jù)集T,用于 讀者情緒預測模型訓練,可表示為: T={(xw,iiw),(xm,ym),~,( xw,iiw)} (1-6) 其中,X(1)表示新聞文本d(1)的特征向量,ii(1)表示新聞文本d (1)的情緒標簽標注; 定義7:語料庫中的所有新聞文本,關(guān)于預定義的情緒標簽集合中各情緒的概率分布, 用符號S表示; 定義8:對于情緒標簽集合中的所有情緒標簽,關(guān)于語料庫中隱含主題集合中的各個主 題,構(gòu)成情緒-主題分布,用符號9表示; 定義9:對于主題集合中的所有主題,關(guān)于語料庫中的所有詞,構(gòu)成主題-詞分布,用符 號於表;^;; 第2、構(gòu)建多標簽監(jiān)督的情緒-主題模型ML-sETM 定義10:多標簽監(jiān)督的情緒-主題模型ML-sETM:對LDA主題模型(Latent Dirichlet Allocation Topic Model)進行擴展:從"文檔-主題-詞"三層貝葉斯結(jié)構(gòu)擴展為"文檔-情 緒-主題-詞"四層貝葉斯結(jié)構(gòu),同時將其擴展為監(jiān)督的主題模型; 第2.1、對于情緒標簽集合中的每個情緒標簽&££,其中mG{l,2,…,M},從先驗參數(shù)為 a的狄利克雷分布中得到相應的情緒-主題分布0m= {0m>1,0m,2,…,0m,d T,其中K為語料庫中 隱含主題的數(shù)目; 第2.2、對于隱含主題集合中的每個主題t,其中tG{l,2,…,K},從先驗參數(shù)為0的狄利 克雷分布中得到相應的主題-詞分布% ,其中V為語料庫中特征詞的數(shù) 目; 第2.3、對于語料庫中的每一篇新聞文本d(1),根據(jù)其標注向量y(1)和先驗參數(shù)y,得到 新聞文本d(1)屬于各個情緒標簽的概率分布S'd = SdXy(1),其中~二㈨山~』,…,Sd,M} T為 從先驗參數(shù)為Y的狄利克雷分布中得到的文檔-情緒分布; 第2.4、利用Gibbs采樣方法,計算情緒-主題模型對訓練數(shù)據(jù)的情緒-主題分布0和主 題-詞分布伊 第2.4.1、對于語料庫中的每一個單詞Wl,隨機初始化情緒標簽e G {ei,e2,…,eM}和主題 tG {tl,t2,…,tl(}; 第2.4.2、根據(jù)計算得到的情緒標簽、主題的后驗概率分布,為語料庫中的每個詞重新 分配情緒標簽和主題,其中詞^屬于各情緒標簽、主題的概率的計算方法如下公式:其中,表示整個語料庫中除去當前詞^后主題z被分配給情緒標簽e的次數(shù);表 示整個語料庫中除去當前詞Wl后詞Wl被分配給主題t的次數(shù);表示文檔d中被分配給情 緒標簽e的詞的數(shù)目;|W|為語料庫中詞的數(shù)目,K為語料庫中隱含主題的數(shù)目,M為語料庫中 情緒標簽數(shù); 第2.4.3、將第2.4.2步重復I次直至收斂,認為接近真實的分布;對迭代后的結(jié)果進行 頻次統(tǒng)計,計算得到整個語料庫的情緒-主題分布#和主題-詞分布參4十算方法如下公式:其中,ne,z,.表示整個語料庫中主題z被分配給情緒標簽e的次數(shù);n.,z, w表示整個語料庫 中詞Wl被分配給主題t的次數(shù); 第3、對于未知讀者情緒標簽的新聞文本d(N+1),利用第2.4步得到的情緒-主題分布#和 主題-詞分布#,采用Gibbs采樣方法得到文檔屬于各個情緒標簽的概率S; 第3.1、對于新聞文本d(N+1)中的每一個單詞^,隨機初始化情緒標簽e G {ei,e2,…,eM} 和主題tE {tl,t2,"_,tl(}; 第3.2、利用Gibbs采樣方法為新聞文本d(N+1)中每個詞重新分配情緒標簽和主題;詞^ 屬于各情緒標簽、主題的概率的計算方法如下公式:其中,Nd,e為文檔d中詞被分配給情緒標簽e的次數(shù),4為第2步訓練后的情緒-主題模型 得到的主題z屬于情緒標簽e的概率,氣,#為已訓練模型得到的詞w屬于主題z的概率; 第3.3、將第3.2步重復I次直至收斂,認為接近真實的分布;對迭代后的結(jié)果進行頻次 統(tǒng)計,得到文檔關(guān)于各情緒標簽的概率分布L計算方法如下公式:第3.4、根據(jù)第3.3步計算得到的未知文檔關(guān)于情緒的概率分布8,采用基于閾值的方法 得到新聞文本所屬的情緒標簽集合,其計算方法如下:其中,P為預先定義的閾值,8&為未知新聞文本屬于情緒標簽e的概率。
【文檔編號】G06F17/30GK106055596SQ201610347226
【公開日】2016年10月26日
【申請日】2016年5月23日
【發(fā)明人】張瑩, 楊志帆, 俞力, 趙雪, 袁曉潔
【申請人】南開大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1