一種網(wǎng)絡(luò)事件的綜合情感度量方法
【專利摘要】本發(fā)明涉及一種網(wǎng)絡(luò)事件的綜合情感度量方法,屬于社交網(wǎng)絡(luò)數(shù)據(jù)挖掘的技術(shù)應(yīng)用領(lǐng)域。本發(fā)明的優(yōu)點是:本發(fā)明基于民眾對現(xiàn)實事件在網(wǎng)絡(luò)的情感表述的內(nèi)在特性,提出了基于情感時間段的賬戶情感相似評定的方法,處理中基于用戶信息建立了分段時間標準的二次特征,并進行了綜合分段的規(guī)則評判。計算時都采用線性復(fù)雜度的算法進行分析,計算資源需求小,具有較低的時間和空間代價。此信息在現(xiàn)實提取中更具實用價值。本發(fā)明有效實現(xiàn)了對網(wǎng)絡(luò)事件的情感信息的綜合情感的分析,能夠?qū)⒅付ǖ那楦行畔A向的自動識別,在指定影響級別情況下,可供后續(xù)人工分析及影響干預(yù)。
【專利說明】
一種網(wǎng)絡(luò)事件的綜合情感度量方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種網(wǎng)絡(luò)事件的綜合情感度量方法,屬于社交網(wǎng)絡(luò)數(shù)據(jù)挖掘的技術(shù)應(yīng) 用領(lǐng)域。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)在現(xiàn)代生活的普及和影響程度的擴大,各種現(xiàn)實中的事件必然在網(wǎng)絡(luò)空 間報導(dǎo)并被討論,而民眾在網(wǎng)絡(luò)環(huán)境下對于各事件的態(tài)度評判,是相當重要的輿情信息.
[0003] 中國人傳統(tǒng)上較為含蓄,而比較于傳統(tǒng)面對面的交流表達,網(wǎng)絡(luò)中由于ID(網(wǎng)絡(luò) 標識)的保密作用,人們甚至不必擔(dān)心任何來自現(xiàn)實秩序、社會道德等因素對自己的言說 帶來的束縛,也不用擔(dān)心年齡、職業(yè)與地域方面的差異,網(wǎng)絡(luò)空間的許多話語往往具有"私 密性"的特征,而這種"私密性",剛好是個體心靈自由敞開的表征。由此,在網(wǎng)上的信息討 論由于雙方被隔離在網(wǎng)絡(luò)兩端,可以不受現(xiàn)實身份人格等多方面因素的干擾影響,所以在 一定程度上,網(wǎng)絡(luò)事件能表達出民眾對現(xiàn)實事件的真實情感.
[0004] 同時網(wǎng)絡(luò)交流主體身體的缺場和身份的隱匿,使得網(wǎng)上的情感交流相對于現(xiàn)實或 傳統(tǒng)的交流顯得更為直接,語言更加淺俗化,情感極性也表達得更為強烈.
[0005] 由此,通過收集民眾與網(wǎng)絡(luò)的接觸中必然在網(wǎng)上留下的行為和語言記錄,并基于 分析這些記錄,可以更真實有效的反映出民眾對事件的綜合情感,為進一步的輿情監(jiān)控和 引導(dǎo)提供服務(wù).
【發(fā)明內(nèi)容】
[0006] 本發(fā)明是為了解決自動快速發(fā)現(xiàn)挖掘信息網(wǎng)絡(luò)上的事件的態(tài)度分析難題,提供了 一種快速的網(wǎng)絡(luò)事件的綜合情感度量方法。
[0007] 本發(fā)明所述綜合情感的度量方法,它包括以下步驟:
[0008] 步驟一:針對要分析的情感傾向,人工給定一個情感詞典,詞典中對應(yīng)此情感傾向 的情感詞數(shù)量和表情符號的總數(shù)量需多于400個;人工給定一個否定詞詞典;根據(jù)要分析 的不同的情感傾向,人工給定一個閾值θ (Θ >〇)
[0009] 步驟二:人為指定欲分析的網(wǎng)絡(luò)事件在網(wǎng)絡(luò)社區(qū)中相關(guān)的所有主題帖,記主題帖 的數(shù)目為G,則各主題帖可記為:1\(1彡i彡G).獲取所有主題帖的帖子的完整文字內(nèi)容 C 1Q < i < G)、帖子的發(fā)布時間H1Q < i < G);獲取各個對應(yīng)的要分析的主題帖的所有回 復(fù)評論的完整文字內(nèi)容RCljO)彡j彡L(i))、所有回復(fù)評論的時間RH ljO)彡j彡L(i)),其 中L(i)為第i個主題帖對應(yīng)的回復(fù)評論總數(shù)。
[0010] 步驟三:根據(jù)步驟二得到的對每個主題帖的信息的完整記錄,將各信息進行標準 化,得到標準化后的結(jié)果NT,其中包括以下10個度量量:
[0011] n? d? Γπ^ ? ΠΙ2 ? ITi^? Q2 ? Q3 ? Q4
[0012] 其中各標準化量的計算方法為:
[0013] η = 0· 667sin(0. 2618*t)+0. 333, t為此主題帖的發(fā)布時間,24小時制
[0014] d = 0. 6304* (-1) s(Pn) \ P為此主題帖的文字中包含的情感詞總數(shù),S為對應(yīng)的否 定詞數(shù)
[0015] Hi1= M lCl \ M1為評論時間在5點起至11點止的帖子總數(shù)目
[0016] m2= M 2d \ M2為評論時間在11點起至14點止的帖子總數(shù)目
[0017] m3= M 3d \ M3為評論時間在14點起至20點止的帖子總數(shù)目
[0018] m4= M 4d \ M4為評論時間在0點起至5點止和20點起至24點止的帖子總數(shù)目
[0019]
[0020] Q1為評論時間在5點至11點止的帖子中包含的情感詞總數(shù),S i為對應(yīng)的否定詞數(shù)
[0021]
[0022] Q2為評論時間在11點至14點止的帖子中包含的情感詞總數(shù),S 2為對應(yīng)的否定詞 數(shù)
[0023]
[0024] Q3為評論時間在14點起至20點止的帖子中包含的情感詞總數(shù),S 3為對應(yīng)的否定 詞數(shù)
[0025]
[0026] Q4為評論時間在0點至5點止和20點至24點的帖子中包含的情感詞總數(shù),S 4為 對應(yīng)的否定詞數(shù)
[0027] 其中抑郁情感詞總數(shù)為發(fā)布或回復(fù)評論的帖子中,出現(xiàn)抑郁情感詞列表中的詞的 頻次。
[0028] 由此,而第i個主題帖所有的特征結(jié)果NT⑴為:
[0029] NT ⑴=(η;,山,ι?η,m2i,m3i,m4i,q H,q2i,q3i,q4i)
[0030] 步驟四:對各個主題帖的相關(guān)信息,根據(jù)標準化后的信息NT,計算對應(yīng)的特征系 數(shù),可表示為ZT,包括以下8個系數(shù):
[0031] PNF,RNY,RNG,RNL,RNF,RYY,RYG,RYL,RYF
[0032] 各系數(shù)算的具體方法為:
[0033] RNY, RNG, RNL, RNF 的計筧方法為:
[0034]
[0035]
[0036]
[0037]
[0038] 其中In1,m2, m3, m4為步驟三所得到的結(jié)果
[0039] RYY,RYG,RYL,RYF 的計算方式為:
[0040] RYY = 0. 6366*arctan Cq1)
[0041 ] RYG = 0· 6366*arctan (q2)
[0042] RYL = 0· 6366*arctan (q3)
[0043] RYF = 0· 6366*arctan (q4)
[0044] 其中qp q2, q3, q4為步驟三所得到的結(jié)果
[0045] 由此,而第i個主題帖對應(yīng)的特征系數(shù)結(jié)果ZT (i)為
[0046] ZT (i) = (RNY1, RNG1, RNL1, RNF1, RYY1, RYG1, RYL1, RYF1)
[0047] 步驟五:根據(jù)每個主題帖的特征結(jié)果ZT,計算各對應(yīng)主題帖的情感信息值F1
[0048] F1= RNY ,+RNG.+RNL.+RNF.+RYY.+RYG.+RYL.+RYF,
[0049] 步驟六:根據(jù)各主題帖的情感信息值F1,計算對應(yīng)網(wǎng)絡(luò)事件在此情感傾向上的綜 合度量值:
[0050]
[0051] 步驟七:根據(jù)步驟六得到的的情感綜合度量值GF,將之與設(shè)定的情感閾值Θ比 較,GF大于Θ時,判定此事件在此情感維度上有明顯的情感傾向。
[0052] 本發(fā)明的優(yōu)點是:本發(fā)明基于民眾對現(xiàn)實事件在網(wǎng)絡(luò)的情感表述的內(nèi)在特性,提 出了基于情感時間段的賬戶情感相似評定的方法,處理中基于用戶信息建立了分段時間標 準的二次特征,并進行了綜合分段的規(guī)則評判。計算時都采用線性復(fù)雜度的算法進行分析, 計算資源需求小,具有較低的時間和空間代價。此信息在現(xiàn)實提取中更具實用價值。
[0053] 本發(fā)明有效實現(xiàn)了對網(wǎng)絡(luò)事件的情感信息的綜合情感的分析,能夠?qū)⒅付ǖ那楦?信息傾向的自動識別,在指定影響級別情況下,可供后續(xù)人工分析及影響干預(yù)。
【附圖說明】
[0054] 圖1為本發(fā)明檢測方法的流程圖。
【具體實施方式】
【具體實施方式】 [0055] 一:下面結(jié)合圖1說明本實施方式,本實施方式所述一種網(wǎng)絡(luò)事件 的綜合情感度量方法,它包括以下步驟:
[0056] 步驟一:針對要分析的情感傾向,人工給定一個情感詞典,詞典中對應(yīng)此情感傾向 的情感詞數(shù)量和表情符號的總數(shù)量需多于400個;人工給定一個否定詞詞典;根據(jù)要分析 的不同的情感傾向,人工給定一個閾值θ (Θ >〇)
[0057] 步驟二:人為指定欲分析的網(wǎng)絡(luò)事件在網(wǎng)絡(luò)社區(qū)中相關(guān)的所有主題帖,記主題帖 的數(shù)目為G,則各主題帖可記為:1\(1彡i彡G).獲取所有主題帖的帖子的完整文字內(nèi)容 C 1Q < i < G)、帖子的發(fā)布時間H1Q < i < G);獲取各個對應(yīng)的要分析的主題帖的所有回 復(fù)評論的完整文字內(nèi)容RCljO)彡j彡L(i))、所有回復(fù)評論的時間RH ljO)彡j彡L(i)),其 中L(i)為第i個主題帖對應(yīng)的回復(fù)評論總數(shù)。
[0058] 步驟三:根據(jù)步驟二得到的對每個主題帖的信息的完整記錄,將各信息進行標準 化,得到標準化后的結(jié)果NT,其中包括以下10個度量量:
[0059] n,d,nv m2, m3, m4, q!,q2, q3, q4
[0060] 其中各標準化量的計算方法為:
[0061] η = 0· 667sin(0. 2618*t)+0. 333, t為此主題帖的發(fā)布時間,24小時制
[0062] d = 0. 6304* (-Ds(Pn) \ P為此主題帖的文字中包含的情感詞總數(shù),S為對應(yīng)的否 定詞數(shù)
[0063] Hi1= M lCl \ M1為評論時間在5點起至11點止的帖子總數(shù)目
[0064] m2= M 2d \ M2為評論時間在11點起至14點止的帖子總數(shù)目
[0065] m3= m 3d \ M3為評論時間在14點起至20點止的帖子總數(shù)目
[0066] m4= M 4d \ M4為評論時間在0點起至5點止和20點起至24點止的帖子總數(shù)目
[0067]
[0068] Q1為評論時間在5點至11點止的帖子中包含的情感詞總數(shù),S i為對應(yīng)的否定詞數(shù)
[0069] ^r2= (-If2Q2iT1,
[0070] Q2為評論時間在11點至14點止的帖子中包含的情感詞總數(shù),S 2為對應(yīng)的否定詞 數(shù)
[0071] (-If3Q3A
[0072] Q3為評論時間在14點起至20點止的帖子中包含的情感詞總數(shù),S 3為對應(yīng)的否定 詞數(shù)
[0073] q4 = (-l)s,Q4d~\
[0074] Q4為評論時間在0點至5點止和20點至24點的帖子中包含的情感詞總數(shù),S 4為 對應(yīng)的否定詞數(shù)
[0075] 其中抑郁情感詞總數(shù)為發(fā)布或回復(fù)評論的帖子中,出現(xiàn)抑郁情感詞列表中的詞的 頻次。
[0076] 由此,而第i個主題帖所有的特征結(jié)果NT⑴為:
[0077] NT ⑴=(η;,山,ι?η,m2i,m3i,m4i,q H,q2i,q3i,q4i)
[0078] 步驟四:對各個主題帖的相關(guān)信息,根據(jù)標準化后的信息NT,計算對應(yīng)的特征系 數(shù),可表示為ZT,包括以下8個系數(shù):
[0079] PNF,RNY,RNG,RNL,RNF,RYY,RYG,RYL,RYF
[0080] 各系數(shù)算的具體方法為:
[0081] RNY,RNG,RNL,RNF 的計算方法為:
[0082]
[0083]
[0084]
[0085]
[0086] 其中In1,m2,m3,m 4為步驟三所得到的結(jié)果
[0087] RYY,RYG,RYL,RYF 的計算方式為:
[0088] RYY = 0. 6366*arctan Cq1)
[0089] RYG = 0. 6366*arctan (q2)
[0090] RYL = 0· 6366*arctan (q3)
[0091] RYF = 0· 6366*arctan (q4)
[0092] 其中qi,q2, q3, q4S步驟三所得到的結(jié)果
[0093] 由此,而第i個主題帖對應(yīng)的特征系數(shù)結(jié)果ZT (i)為
[0094] ZT (i) = (RNY1, RNG1, RNL1, RNF1, RYY1, RYG1, RYL1, RYF1)
[0095] 步驟五:根據(jù)每個主題帖的特征結(jié)果ZT,計算各對應(yīng)主題帖的情感信息值F1
[0096] F1= RNY ,+RNG.+RNL.+RNF.+RYY.+RYG.+RYL.+RYF,
[0097] 步驟六:根據(jù)各主題帖的情感信息值F1,計算對應(yīng)網(wǎng)絡(luò)事件在此情感傾向上的綜 合度量值,
[0098]
[0099] 步驟七:根據(jù)步驟六得到的的情感綜合度量值GF,將之與設(shè)定的情感閾值Θ比 較,GF大于Θ時,判定此事件在此情感維度上有明顯的情感傾向。
【主權(quán)項】
1. 一種網(wǎng)絡(luò)事件的綜合情感度量方法,其特征在于:它包括W下步驟: 步驟一:針對要分析的情感傾向,人工給定一個情感詞典,詞典中對應(yīng)此情感傾向的情 感詞數(shù)量和表情符號的總數(shù)量需多于400個;人工給定一個否定詞詞典;根據(jù)要分析的不 同的情感傾向,人工給定一個闊值Θ (Θ >0) 步驟二:人為指定欲分析的網(wǎng)絡(luò)事件在網(wǎng)絡(luò)社區(qū)中相關(guān)的所有主題帖,記主題帖的 數(shù)目為G,則各主題帖可記為:Τι(1《i《G).獲取所有主題帖的帖子的完整文字內(nèi)容 。(1《i《G)、帖子的發(fā)布時間Hi (1《i《G);獲取各個對應(yīng)的要分析的主題帖的所有回 復(fù)評論的完整文字內(nèi)容RCii(0《j《L(i))、所有回復(fù)評論的時間RHii(0《j《L(i)),其 中L(i)為第i個主題帖對應(yīng)的回復(fù)評論總數(shù)。 步驟Ξ :根據(jù)步驟二得到的對每個主題帖的信息的完整記錄,將各信息進行標準化,得 到標準化后的結(jié)果NT,其中包括W下10個度量量: η,d,nil,m2, m;3, nv Qi,屯,屯,Q4 其中各標準化量的計算方法為: η = 0. 667sin(0. 2618*t)+0. 333, t為此主題帖的發(fā)布時間,24小時制 d = 0. 6304* (-1) S (Pn) 1,P為此主題帖的文字中包含的情感詞總數(shù),S為對應(yīng)的否定詞 數(shù) mi= Μ id 1,Ml為評論時間在5點起至11點止的帖子總數(shù)目 π?2= Μ 2d 1,M2為評論時間在11點起至14點止的帖子總數(shù)目 η?3= Μ 3d 1,Ms為評論時間在14點起至20點止的帖子總數(shù)目 π?4= Μ 4d 1,M4為評論時間在0點起至5點止和20點起至24點止的帖子總數(shù)目Qi為評論時間在5點至11點止的帖子中包含的情感詞總數(shù),S 1為對應(yīng)的否定詞數(shù)〇2為評論時間在11點至14點止的帖子中包含的情感詞總數(shù),S 2為對應(yīng)的否定詞數(shù)為評論時間在14點起至20點止的帖子中包含的情感詞總數(shù),S 3為對應(yīng)的否定詞數(shù)〇4為評論時間在0點至5點止和20點至24點的帖子中包含的情感詞總數(shù),S巧對應(yīng) 的否定詞數(shù) 其中抑郁情感詞總數(shù)為發(fā)布或回復(fù)評論的帖子中,出現(xiàn)抑郁情感詞列表中的詞的頻 次。 由此,而第i個主題帖所有的特征結(jié)果NT (i)為: NT(i) = (n;,山,niii,1%,1%,1%,Qii,化;,Q3i,Q4i) 步驟四:對各個主題帖的相關(guān)信息,根據(jù)標準化后的信息NT,計算對應(yīng)的特征系數(shù),可 表示為ZT,包括W下8個系數(shù): PNF,RNY,RNG,腳L,RNF,RYY,RYG,R化,RYF 各系數(shù)算的具體方法為: RNY,RNG,RNL,RNF的計算方法為:其中叫,m2, m3,1?為步驟Ξ所得到的結(jié)果 RYY,RYG,RYL RYF的計算方式為: RYY = 0. 6366*arctan (qj) RYG = 0. 6366*a;rctan (屯) RYL = 0. 6366*a;rctan (屯) RYF = 0. 6366*a;rctan (Q4) 其中Ql,Q2, Q4為步驟Ξ所得到的結(jié)果 由此,而第i個主題帖對應(yīng)的特征系數(shù)結(jié)果ΖΤ (i)為 ΖΤα) = (RNYi,RNGi,RNLi,RNFi,RYYi,RYGi,RYLi,RYFi) 步驟五:根據(jù)每個主題帖的特征結(jié)果ZT,計算各對應(yīng)主題帖的情感信息值Fi Fi= RNY i+RNGi+R化i+RNFi+R化+RYG1+R化 1+R化 步驟六:根據(jù)各主題帖的情感信息值Fi,計算對應(yīng)網(wǎng)絡(luò)事件在此情感傾向上的綜合度 量值:步驟屯:根據(jù)步驟六得到的的情感綜合度量值GF,將之與設(shè)定的情感闊值Θ比較,GF 大于Θ時,判定此事件在此情感維度上有明顯的情感傾向。
【文檔編號】G06F17/27GK105843792SQ201510695073
【公開日】2016年8月10日
【申請日】2015年10月26日
【發(fā)明人】于霄
【申請人】北京宏博知微科技有限公司, 于霄