專利名稱:一種面向微博短文本的情感分析方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,具體地,涉及一種面向微博短文本的情感分析方法。
背景技術(shù):
情感分析亦稱意見挖掘,指的是從文本中自動(dòng)識(shí)別和提取具有傾向性的態(tài)度、意見和情感。其近年來,主觀性文本(意見)挖掘研究十分活躍,主要特點(diǎn)是分析文本中包含的主觀觀點(diǎn)并計(jì)算其語義極性。由于情感分類可以在一定程度上解決網(wǎng)上各種評(píng)論信息雜亂的現(xiàn)象,方便用戶準(zhǔn)確地定位所需信息,因此,情感分類已成為一項(xiàng)具有較大實(shí)用價(jià)值的 關(guān)鍵技術(shù),是組織和管理數(shù)據(jù)的有力手段。而微博由于其巨大影響力,已經(jīng)成為越來越多的用戶發(fā)表觀點(diǎn)及情感的第一選擇,比如對(duì)某些名人的喜歡或憎惡、對(duì)某些電影的評(píng)論、對(duì)某些品牌的評(píng)價(jià)及建議、對(duì)某些時(shí)事的看法等。對(duì)微博進(jìn)行有效的情感分析研究可廣泛應(yīng)用于輿情監(jiān)測(cè)、品牌建設(shè)、廣告營(yíng)銷、信息過濾、意見反饋、民意調(diào)查等。目前公認(rèn)的情感分析比較系統(tǒng)的研究工作開始于(Panget al.,2002)基于監(jiān)督學(xué)習(xí)方法對(duì)電影評(píng)論文本進(jìn)行情感傾向性分類和(Turney,2002)基于無監(jiān)督學(xué)習(xí)對(duì)文本情感傾向性分類的研究。(Pang et al. , 2002)基于文本的N元語法(ngram)和詞類(POS)等特征分別使用樸素貝葉斯,最大熵和支持向量機(jī)將文本情感傾向性分為正向和負(fù)向兩類,將文本的情感進(jìn)行二元?jiǎng)澐值淖龇ㄒ惨恢毖赜弥两?。同時(shí)他們?cè)趯?shí)驗(yàn)中使用電影評(píng)論數(shù)據(jù)集目前已成為廣泛使用的情感分析的測(cè)試集。(Turney,2002)基于點(diǎn)互信息計(jì)算文本中抽取的關(guān)鍵詞和種子詞(excellent, poor)的相似度來對(duì)文本的情感傾向性進(jìn)行判別(S0-PMI 算法)。在此之后的大部分都是基于(Pang et al. , 2002)的研究。而相對(duì)來說,(Turneyet al. ,2002)提出的無監(jiān)督學(xué)習(xí)的方法雖然在實(shí)現(xiàn)上更加簡(jiǎn)單,但是由于單詞之間的情感相似度難以準(zhǔn)確的計(jì)算和種子詞的難以確定,繼續(xù)在無監(jiān)督學(xué)習(xí)方向的研究并不是很多的,但是利用SO-PMI算法計(jì)算文本情感傾向性的思想?yún)s被很多研究者所繼承了。目前,基于監(jiān)督學(xué)習(xí)的情感分析仍然是主流,除了(Liet al.,2009)基于非負(fù)矩陣三分解,(Abbasi et al. , 2008)基于遺傳算法的情感分析之外,使用的最多的監(jiān)督學(xué)習(xí)算法是樸素貝葉斯,k最近鄰,最大熵和支持向量機(jī)的。而對(duì)于算法的改進(jìn)主要在對(duì)文本的預(yù)處理階段。一個(gè)和文本分類不同的地方就是情感分析有時(shí)需要提取文本的真正表達(dá)情感的句子。(Pang et al. , 2004)基于文本中的主觀句的選擇和(Wilson el al. , 2009)基于文本中的中性實(shí)例的分析,都是為了能夠盡量獲得文本中真正表達(dá)情感的句子。(Abbasi etal. ,2008)提出通過信息增益的方法來選擇大量特征集中對(duì)于情感分析有益的特征。而對(duì)于特征選擇,除了 N元語法和詞類特征之外,(Wilson el al.,2009)提出混合單詞特征,否定詞特征,情感修飾特征,情感轉(zhuǎn)移特征等各類句法特征的情感分析,(Abbasiet al. ,2008)提出混合句子的句法(N元語法,詞類,標(biāo)點(diǎn))和結(jié)構(gòu)特征(單詞的長(zhǎng)度,詞類中單詞的個(gè)數(shù),文本的結(jié)構(gòu)特征等)的情感分析。除了對(duì)于文本的預(yù)處理,對(duì)于監(jiān)督學(xué)習(xí)中情感分析還進(jìn)行了以下方面的研究的(Melville et al.,2009)和(Li et al.,2009)提出結(jié)合情感詞的先驗(yàn)的基于詞典的情感傾向性和訓(xùn)練文本中后驗(yàn)的基于上下文的情感傾向性共同判斷文本的情感傾向性。(Taboada et al.,2009)提出結(jié)合文本的題材(描述,評(píng)論,背景,解釋等)和文本本身的特征共同判斷文本的情感傾向性。(Tsutsumi et al. ,2007)提出利用多分類器融合技術(shù)來對(duì)文本情感分類。(Wan,2008)和(Wan,2009)提出結(jié)合英文中豐富的情感分析資源來提高中文情感分析的效果。和基于監(jiān)督學(xué)習(xí)的情感分析相比,基于規(guī)則和無監(jiān)督學(xué)習(xí)方面的研究不是很多。除了(Turney, 2002)之外,(朱嫣M et al. , 2002)利用HowNet對(duì)中文詞語語義進(jìn)行了情感傾向計(jì)算。(婁德成et al. ,2006)利用句法結(jié)構(gòu)和依存關(guān)系對(duì)中文句子語義進(jìn)行了情感 分析,(Hiroshi et al.,2004)通過改造一個(gè)基于規(guī)則的機(jī)器翻譯器實(shí)現(xiàn)日文短語級(jí)情感分析,(Zagibalov et al. , 2008)在(Turney, 2002)的SO-PMI算法的基礎(chǔ)上通過對(duì)于中文文本特征的深入分析以及引入迭代機(jī)制從而在很大程度上提高了無監(jiān)督學(xué)習(xí)情感分析的準(zhǔn)確率。跨領(lǐng)域情感分析在情感分析中是一個(gè)新興的領(lǐng)域,目前在這方面的研究不是很多,主要原因是目前的研究還沒有很好的解決如何尋找兩個(gè)領(lǐng)域之間的一種映射關(guān)系,或者說如何尋找兩個(gè)領(lǐng)域之間特征權(quán)值之間的平衡關(guān)系。對(duì)于跨領(lǐng)域情感分析的研究開始于(Blitzer et al.,2007)將結(jié)構(gòu)對(duì)應(yīng)學(xué)習(xí)引入跨領(lǐng)域情感分析,SCL是一種應(yīng)用范圍很廣的跨領(lǐng)域文本分析算法,SCL的目的是將訓(xùn)練集上的特征盡量對(duì)應(yīng)到測(cè)試集中。(Tan et al.,2009)將SCL引入了中文跨領(lǐng)域情感分析中。(Tan2 et al.,2009)提出將樸素貝葉斯和EM算法的一種半監(jiān)督學(xué)習(xí)方法應(yīng)用到了跨領(lǐng)域的情感分析中。(Wu et al.,2009)將基于EM的思想將圖排序(Graph Ranking)算法應(yīng)用到跨領(lǐng)域的情感分析中,圖排序算法可以認(rèn)為是一種迭代的k-NN算法。從目前的研究可以看出,跨領(lǐng)域的情感分析主要問題在于尋找兩個(gè)領(lǐng)域之間的一種映射關(guān)系,但是這樣的映射關(guān)系或者很難尋找,或者需要相當(dāng)強(qiáng)的數(shù)學(xué)證明。所以很多研究借用半監(jiān)督學(xué)習(xí)的方法,通過逐次迭代逐漸減少訓(xùn)練集和測(cè)試集之間的差異。在針對(duì)主題相關(guān)的中文情感分析研究中,當(dāng)前更多是針對(duì)某一特定領(lǐng)域,如汽車、賓館酒店、新聞事件等,對(duì)于這類研究的主要方法多是針對(duì)特定的領(lǐng)域,建立相關(guān)的領(lǐng)域本體及其常用評(píng)價(jià)字典,通過句式分析、預(yù)定義句子模版、抽取核心句、基于監(jiān)督的機(jī)器學(xué)習(xí)等方法來判定評(píng)論的正負(fù)性。但這些方法不能直接用到針對(duì)微博的情感分析中,因?yàn)槲⒉﹥?nèi)容包羅萬象,從微博用戶發(fā)表的對(duì)產(chǎn)品等特定實(shí)體的評(píng)論,還有針對(duì)人物、事件等各方面的意見,所以要對(duì)不同的實(shí)體進(jìn)行區(qū)分對(duì)待,采用不同的方法才能更好的進(jìn)行情感分析;此夕卜,對(duì)于現(xiàn)有的依賴句法分析的方法在針對(duì)中文主題相關(guān)的情感分析方面除了句法分析工具本身帶來的不準(zhǔn)確外,其主題和修飾詞的抽取算法有待改進(jìn),同時(shí)因其沒有更好地結(jié)合語義句式信息,加之微博體不規(guī)范性很大,分析前對(duì)微博內(nèi)容進(jìn)行有效地規(guī)范化預(yù)處理都是提高情感分析準(zhǔn)確度的重要方面。在面向中文微博短文本進(jìn)行情感分析研究中有學(xué)者對(duì)于主題無關(guān)的微博情感分析采用基于字典的情感詞統(tǒng)計(jì)方法,基本過程如下首先,將一條微博按標(biāo)點(diǎn)進(jìn)行分句。其次,在一條微博分句中查找包含在權(quán)值字典中的詞,將它們的權(quán)值疊加。再次,在該條微博客分句中查找包含在否定詞典中的詞,并統(tǒng)計(jì)數(shù)目,以確定肯定或否定語氣。最后,將每一分句的計(jì)算值疊加,得出一條完整微博的心情值。使用C#語言編寫的微博心情權(quán)值計(jì)算器情感識(shí)別測(cè)試的結(jié)果經(jīng)交叉判定正確率達(dá)到80. 6%。方法的優(yōu)點(diǎn)是算法簡(jiǎn)單,效率較高,在對(duì)微博進(jìn)行正負(fù)判別達(dá)到了一定的正確率,但依然存在以下幾個(gè)問題1)結(jié)果太多依賴其所定義的情感字典,導(dǎo)致覆蓋面不夠廣,對(duì)于沒有出現(xiàn)在情感字典里的情感詞所在的句子無法判定或只認(rèn)為為中性;2)對(duì)于出現(xiàn)多個(gè)主題和多個(gè)情感詞的微博,單純靠情感詞極性加和無法明確博主究竟對(duì)特定主題表達(dá)什么情感;3)僅僅對(duì)否定詞進(jìn)行偶數(shù)個(gè)為正向,奇數(shù)個(gè)為負(fù)向的統(tǒng)計(jì)很容易誤判,因?yàn)闊o法確定否定詞是對(duì)情感詞的否定,加之很多時(shí)候博主是對(duì)多個(gè)實(shí)體表示否定情緒;4)沒有考慮程度副詞和句式信息,對(duì)于一些反問句、包含轉(zhuǎn)折等微博判斷失誤;5)除對(duì)于基本統(tǒng)計(jì)博主心情外的應(yīng)用價(jià)值不大,往往用戶更為關(guān)心的是微博中針對(duì)具體某一實(shí)體的情緒態(tài)度,而非整條微博籠統(tǒng)的正負(fù)判定。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)中文微博短文本情感分析的不足,提出了一種面向微博短文 本的情感分析方法與系統(tǒng)。該方法和系統(tǒng)針對(duì)特定主題及其相關(guān)屬性或部分的整體和細(xì)粒度的微博情感傾向性分析,使用基于依存句法分析,結(jié)合語義信息、領(lǐng)域本體等內(nèi)容的方法提高了分析結(jié)果的準(zhǔn)確度,有效地幫助用戶了解主流微博中關(guān)于特定實(shí)體所持有的情感態(tài)度。通過分析博主微博的情感狀況從而得出博主在某一時(shí)段的心情指數(shù)。針對(duì)某一微博的評(píng)論內(nèi)容進(jìn)行正負(fù)情感傾向性分析,使用戶可以了解對(duì)于特定博文評(píng)論者的支持或反對(duì)觀點(diǎn)態(tài)度的評(píng)論及其比例。一種面向微博短文本的情感分析方法,其中情感分析的對(duì)象是實(shí)體的主題,該方法包括步驟步驟1,采集包含指定關(guān)鍵字詞的微博數(shù)據(jù)存入數(shù)據(jù)庫(kù);步驟2,從數(shù)據(jù)庫(kù)讀取特定關(guān)鍵字的微博,過濾掉本身不包含對(duì)配置關(guān)鍵字發(fā)表意見或消息的微博,并且對(duì)經(jīng)過過濾處理的微博數(shù)據(jù)進(jìn)行去噪,去除微博中的不規(guī)范數(shù)據(jù);步驟3,加載相關(guān)字典,根據(jù)用戶配置的關(guān)鍵字類別,加載通用正負(fù)情感字典外、對(duì)應(yīng)的領(lǐng)域常用正負(fù)評(píng)價(jià)字典、否定字典、程度字典、句式字典;步驟4,進(jìn)行分句,過濾掉不包含用戶配置關(guān)鍵字的句子;步驟5,對(duì)包含關(guān)鍵字的句子進(jìn)行分詞,詞性標(biāo)注,提取句中的形容詞、名詞、動(dòng)詞、副詞,并使用對(duì)應(yīng)的領(lǐng)域詞典進(jìn)行搜索,如出現(xiàn)在字典中則進(jìn)行標(biāo)記;對(duì)于剩下的詞在通用情感詞庫(kù)中進(jìn)行匹配,同樣對(duì)于出現(xiàn)在情感詞表中的詞標(biāo)記并加入情感詞集合,如果情感詞集合為空,則認(rèn)為此句沒有明顯情感傾向,默認(rèn)為中性,進(jìn)行下一句處理,否則進(jìn)行下一步;步驟6,利用句法分析工具對(duì)包含主題的句子進(jìn)行依存句法分析;步驟7,對(duì)包含主題詞的每個(gè)句子的極性進(jìn)行判斷;步驟8,判斷完所有包含主題詞的句子的極性后,計(jì)算結(jié)果集合中正面句子極性之和記為PositiveSum和負(fù)面句子極性之和為NegativeSum,根據(jù)句子結(jié)果集中的否向句子數(shù)NegSenNum與正向句子數(shù)PosSenNum值計(jì)算整條微博的情感傾向性
'NegativeSumif (NegSenNum >= PosSenNum)
<
MicroblogOrientation= PosSenNumif (PosSenNum > NegSenNum)。
本發(fā)明還提供了一種面向微博短文本的情感分析方法,其中情感分析的對(duì)象是博主心情指數(shù),則該方法包括步驟步驟1,對(duì)博主微博進(jìn)行預(yù)處理;步驟2,相關(guān)字典加載,包括通用正負(fù)情感字典、否定字典、程度字典、通用正負(fù)表情符號(hào)字典;步驟3,根據(jù)此條微博是否為純分享、純轉(zhuǎn)發(fā)、微博中的表情符號(hào)、情感詞、否定詞、程度詞來確定微博的情感傾向性;步驟4,對(duì)所有微博根據(jù)日期歸檔,根據(jù)同一天發(fā)布的所有微博的情感傾向性,得出博主這一天的微博心情指數(shù)。本發(fā)明還提供了一種面向微博短文本的情感分析方法,其中情感分析的對(duì)象是微博評(píng)論傾向性,該方法包括步驟步驟1,對(duì)微博評(píng)論進(jìn)行預(yù)處理;步驟2,相關(guān)字典加載,包括通用正負(fù)情感字典、否定字典、程度字典、通用正負(fù)表情符號(hào)字典;步驟3,統(tǒng)計(jì)評(píng)論中的表情符號(hào),依據(jù)通用正負(fù)表情符號(hào)字典分別保存到GoodEmotions和BadEmotions中;步驟4,對(duì)整條微博評(píng)論進(jìn)行分詞,詞性標(biāo)注,對(duì)形容詞、名詞、副詞、動(dòng)詞進(jìn)行情感字典匹配,出現(xiàn)的正負(fù)情感詞分別保存到PositiveWords和NegativeWords中;步驟5,如果 GoodEmotions、BadEmotions> Positiveffords 和 NegativeWords 均為空,則認(rèn)為此條評(píng)論為中性評(píng)論,設(shè)其情感傾向性CommentOrientation = O ;步驟6,搜索否定詞,如包含否定詞,則查看其是否修飾某一情感詞,如是則對(duì)情感詞極性取負(fù);步驟7,搜索程度詞,如包含程度詞,則查看其是否修飾某一情感詞,如是則對(duì)調(diào)整情感詞極性為情感詞當(dāng)前極性乘以程度詞強(qiáng)度參數(shù);步驟8,計(jì)算評(píng)論的正負(fù)向結(jié)果,計(jì)算公式如下正向結(jié)果PositiveSum =GoodEmotions中的表情個(gè)數(shù)+PositiveWords中所有詞的極性;負(fù)向結(jié)果NegativeSum =BadEmotions中的表情個(gè)數(shù)+NegativeWords中所有詞的極性;步驟9,評(píng)論情感傾向性
權(quán)利要求
1.一種面向微博短文本的情感分析方法,其中情感分析的對(duì)象是實(shí)體的主題,該方法包括步驟 步驟I,采集包含指定關(guān)鍵字詞的微博數(shù)據(jù)存入數(shù)據(jù)庫(kù); 步驟2,從數(shù)據(jù)庫(kù)讀取特定關(guān)鍵字的微博,過濾掉本身不包含對(duì)配置關(guān)鍵字發(fā)表意見或消息的微博,并且對(duì)經(jīng)過過濾處理的微博數(shù)據(jù)進(jìn)行去噪,去除微博中的不規(guī)范數(shù)據(jù); 步驟3,加載相關(guān)字典,加載通用正負(fù)情感字典、否定字典、程度字典、句式字典,并根據(jù)用戶配置的關(guān)鍵字所屬領(lǐng)域,加載對(duì)應(yīng)的領(lǐng)域常用正負(fù)評(píng)價(jià)字典; 步驟4,進(jìn)行分句,過濾掉不包含用戶配置關(guān)鍵字的句子; 步驟5,對(duì)包含關(guān)鍵字的句子進(jìn)行分詞,詞性標(biāo)注,提取句中的形容詞、名詞、動(dòng)詞、副詞,并使用對(duì)應(yīng)的領(lǐng)域詞典進(jìn)行搜索,如出現(xiàn)在字典中則進(jìn)行標(biāo)記;對(duì)于剩下的詞在通用情感詞庫(kù)中進(jìn)行匹配,同樣對(duì)于出現(xiàn)在情感詞表中的詞標(biāo)記并加入情感詞集合,如果情感詞集合為空,則認(rèn)為此句沒有明顯情感傾向,默認(rèn)為中性,進(jìn)行下一句處理,否則進(jìn)行下一步; 步驟6,利用句法分析工具對(duì)包含主題的句子進(jìn)行依存句法分析; 步驟7,對(duì)包含主題詞的每個(gè)句子的極性進(jìn)行判斷; 步驟8,判斷完所有包含主題詞的句子的極性后,計(jì)算結(jié)果集合中正面句子極性之和記為PositiveSum和負(fù)面句子極性之和為NegativeSum,根據(jù)句子結(jié)果集中的否向句子數(shù)NegSenNum與正向句子數(shù)PosSenNum值計(jì)算整條微博的情感傾向性
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,在步驟6之后,還包括步驟 步驟a,搜索句中否定詞、程度詞、句式詞和VOB結(jié)構(gòu)并記錄相應(yīng)位置和句法信息; 步驟b,標(biāo)記主題關(guān)鍵字所在位置及其句法信息加入待處理主題信息列表; 步驟C,從主題信息集合中取出一個(gè)主題詞; 步驟d,從情感詞集中取出待判定情感詞,從該情感詞開始依次遍歷其語法關(guān)系對(duì),如果在遍歷中找到該主題詞,則認(rèn)為此情感詞修飾該主題詞,標(biāo)記該情感詞為已使用,匹配標(biāo)記為真;如無則進(jìn)行下一步; 步驟e,判斷該主題詞的依存關(guān)系是否為“SBV”,如是判斷謂語的詞性,如否則判斷該主題詞的句法是否為“DE”結(jié)構(gòu),如是則標(biāo)記“的”后的詞作為臨時(shí)主題詞,進(jìn)行下一步;步驟f,進(jìn)行謂語詞性判斷,如果謂語為動(dòng)詞,進(jìn)行下一步;如否則返回步驟c ; 步驟g,如果該動(dòng)詞為情感詞,則返回步驟C,否則進(jìn)行下一步; 步驟h,在VOB結(jié)構(gòu)中查找匹配主題詞SBV結(jié)構(gòu)的V0B,如果賓語為情感詞則匹配標(biāo)記為真,該情感詞和VOB標(biāo)記為已使用;如賓語不是情感詞,則查詢臨近ADV結(jié)構(gòu)看賓語前是否有情感詞修飾,如有同樣標(biāo)記該情感詞和VOB為已使用;如無,則返回步驟c ; 步驟i,如果匹配標(biāo)記為真,則進(jìn)行否定匹配,確定有否定詞修飾該情感詞,則該情感詞動(dòng)態(tài)極性取負(fù);程度詞匹配,確定有程度詞修飾該情感詞,則該情感詞動(dòng)態(tài)極性等于現(xiàn)有極性乘以程度詞的強(qiáng)度參數(shù);步驟j,把該主題詞和上下文極性存入臨時(shí)結(jié)果集中,進(jìn)行下一主題詞處理,返回到步驟b; 步驟k,本句處理完畢,計(jì)算本句的極性,依據(jù)臨時(shí)結(jié)果集中的否面極性對(duì)數(shù)NegativeNum和正面極性對(duì)數(shù)PositiveNum通過下面公式計(jì)算本句極性
3.根據(jù)權(quán)利要求I或2所述的方法,其特征在于,數(shù)據(jù)預(yù)處理步驟進(jìn)一步包括過濾掉非原創(chuàng)微博;過濾掉單純分享圖片或視頻內(nèi)容且無評(píng)論的微博;過濾掉句首句尾為“#”及其中間的內(nèi)容;過濾掉句首為“”及其括號(hào)內(nèi)的內(nèi)容;過濾掉句首句尾為符號(hào)以及其后面的博主名;將“ ”換成句號(hào);把句中的“ + ” “ = ”替換為漢字“加” “減” “等于”;去掉多余的標(biāo)點(diǎn)符號(hào);去除微博中所有的鏈接;去除句尾出現(xiàn)“詳見”、“詳細(xì)報(bào)道”、“微訪談”所在的句子。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,通用正負(fù)情感字典是基于Hownet提供的中文情感分析用詞語集,其提供了正面情感詞語、負(fù)面情感詞語、正面評(píng)價(jià)詞語、負(fù)面評(píng)價(jià)詞語。
5.一種面向微博短文本的情感分析方法,其中情感分析的對(duì)象是博主心情指數(shù),則該方法包括步驟 步驟I,對(duì)博主微博進(jìn)行預(yù)處理; 步驟2,相關(guān)字典加載,包括通用正負(fù)情感字典、否定字典、程度字典、通用正負(fù)表情符號(hào)字典; 步驟3,根據(jù)此條微博是否為純分享、純轉(zhuǎn)發(fā)、微博中的表情符號(hào)、情感詞、否定詞、程度詞來確定微博的情感傾向性; 步驟4,對(duì)所有微博根據(jù)日期歸檔,根據(jù)同一天發(fā)布的所有微博的情感傾向性,得出博主這一天的微博心情指數(shù)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,步驟3進(jìn)一步包括 步驟301,判斷此條微博是否為純分享,若是,則認(rèn)為此條微博感情為正面,設(shè)其情感傾向性SentimentOrientation = 1,進(jìn)行下一條微博分析; 步驟302,判斷此條微博是否為純轉(zhuǎn)發(fā),如果是轉(zhuǎn)發(fā)微博,對(duì)其轉(zhuǎn)發(fā)的微博內(nèi)容進(jìn)行返回步驟I進(jìn)行情感分析,根據(jù)轉(zhuǎn)發(fā)內(nèi)容情感傾向性來設(shè)定此條轉(zhuǎn)發(fā)的傾向性; 步驟303,統(tǒng)計(jì)微博中的表情符號(hào),依據(jù)通用正負(fù)表情符號(hào)字典分別保存到正向表情集GoodEmotions 和負(fù)向表情集 BadEmotions 中; 步驟304,對(duì)整條微博進(jìn)行分詞,詞性標(biāo)注,對(duì)形容詞、名詞、副詞、動(dòng)詞進(jìn)行情感字典匹配,出現(xiàn)的正負(fù)情感詞分別保存到PositiveWords和NegativeWords中; 步驟 305,如果 GoodEmotions、BadEmotions、PositiveWords 和 NegativeWords 均為空,則認(rèn)為此條評(píng)論微博為中性,設(shè)其情感傾向性SentimentOrientation = 0 ; 步驟306,搜索否定詞NegWord,如包含否定詞,則判斷其是否修飾某一情感詞,如是則對(duì)該情感詞極性取反; 步驟307,搜索程度詞IntensifyWord,如包含程度詞,則判斷其是否修飾某一情感詞,如是則對(duì)調(diào)整情感詞極性為情感詞當(dāng)前極性值乘以程度詞強(qiáng)度參數(shù)Degree (Intensifyfford); 步驟308,計(jì)算此條微博的正負(fù)向結(jié)果,計(jì)算公式如下 正向結(jié)果PositiveSum = GoodEmotions中的表情個(gè)數(shù)+PositiveWords中所有詞的極性; 負(fù)向結(jié)果NegativeSum = BadEmotions中的表情個(gè)數(shù)+NegativeWords中所有詞的極 性; 步驟 309,微博情感傾向性 SentimentOrientation = PositiveSum+Negative。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,步驟4進(jìn)一步包括 步驟401,根據(jù)標(biāo)記的感嘆詞,如果微博中有感嘆詞,則 SentimentOrientation = I. 5*Sentiment0rientation ; 步驟402,對(duì)所有微博根據(jù)日期歸檔,對(duì)同一天發(fā)布的微博進(jìn)行結(jié)果相加得出博主這一天的微博心情指數(shù)BloggerMoodIndex (day),即BloggerMoodIndex(day) = Sum(SentimentOrientation)0
8.根據(jù)權(quán)利要求5所述的方法,其特征在于,對(duì)博主微博進(jìn)行預(yù)處理進(jìn)一步包括 步驟101,過濾掉句首句尾“#”及其中間的內(nèi)容,對(duì)于句中的“#”對(duì),只去除符號(hào),保留內(nèi)容; 步驟102,過濾掉句首“”及其括號(hào)內(nèi)的內(nèi)容; 步驟103,過濾掉句首句尾符號(hào)以及其后面的博主名,過濾掉句中符號(hào); 步驟104,“ ”換成句號(hào); 步驟105,去掉多余的標(biāo)點(diǎn)符號(hào); 步驟106,去除微博中所有的鏈接; 步驟107,去除句尾“詳見”、“詳細(xì)報(bào)道”、“微訪談”所在的句子。
9.一種面向微博短文本的情感分析方法,其中情感分析的對(duì)象是微博評(píng)論傾向性,該方法包括步驟 步驟I,對(duì)微博評(píng)論進(jìn)行預(yù)處理; 步驟2,相關(guān)字典加載,包括通用正負(fù)情感字典、否定字典、程度字典、通用正負(fù)表情符號(hào)字典; 步驟3,統(tǒng)計(jì)評(píng)論中的表情符號(hào),依據(jù)通用正負(fù)表情符號(hào)字典分別保存到GoodEmotions 和 BadEmotions 中; 步驟4,對(duì)整條微博評(píng)論進(jìn)行分詞,詞性標(biāo)注,對(duì)形容詞、名詞、副詞、動(dòng)詞進(jìn)行情感字典匹配,出現(xiàn)的正負(fù)情感詞分別保存到PositiveWords和NegativeWords中; 步驟 5,如果 GoodEmotions、BadEmotions、PositiveWords 和 NegativeWords 均為空,則認(rèn)為此條評(píng)論為中性評(píng)論,設(shè)其情感傾向性CommentOrientation = 0 ; 步驟6,搜索否定詞,如包含否定詞,則查看其是否修飾某一情感詞,如是則對(duì)情感詞極性取負(fù); 步驟7,搜索程度詞,如包含程度詞,則查看其是否修飾某一情感詞,如是則對(duì)調(diào)整情感詞極性為情感詞當(dāng)前極性乘以程度詞強(qiáng)度參數(shù); 步驟8,計(jì)算評(píng)論的正負(fù)向結(jié)果,計(jì)算公式如下 正向結(jié)果PositiveSum = GoodEmotions中的表情個(gè)數(shù)+PositiveWords中所有詞的極性; 負(fù)向結(jié)果NegativeSum = BadEmotions中的表情個(gè)數(shù)+NegativeWords中所有詞的極性; 步驟9,評(píng)論情感傾向性
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,步驟I進(jìn)一步包括 步驟101,去除“轉(zhuǎn)發(fā)此微博”; 步驟101,過濾掉博主對(duì)評(píng)論者的回復(fù); 步驟101,過濾掉評(píng)論者針對(duì)他人評(píng)論的回復(fù); 步驟101,過濾掉鏈接; 步驟101,去掉多余的標(biāo)點(diǎn)符號(hào); 步驟101,如果有多個(gè)句子,句子間無標(biāo)點(diǎn)則加逗號(hào),句間的非感嘆號(hào)之外的斷句符號(hào)統(tǒng)一換成“,”,嘆號(hào)進(jìn)行標(biāo)記后同樣換成“,”。
全文摘要
本發(fā)明公開了一種面向微博短文本的情感分析方法,該方法包括步驟1,采集包含指定關(guān)鍵字詞的微博數(shù)據(jù)存入數(shù)據(jù)庫(kù);步驟2,對(duì)微博數(shù)據(jù)進(jìn)行預(yù)處理;步驟3,加載相關(guān)字典;步驟4,進(jìn)行分句,過濾掉不包含用戶配置關(guān)鍵字的句子;步驟5,對(duì)包含關(guān)鍵字的句子進(jìn)行分詞,詞性標(biāo)注;步驟6,利用句法分析工具對(duì)包含主題的句子進(jìn)行依存句法分析;步驟7,對(duì)包含主題詞的每個(gè)句子的極性進(jìn)行判斷;步驟8,判斷完所有包含主題詞的句子的極性后,判斷整條微博的極性。利用本發(fā)明的方法,使情感分析更具有針對(duì)性,使用戶可以了解微博中對(duì)其所關(guān)心的方面所持有的情感態(tài)度。
文檔編號(hào)G06F17/30GK102663046SQ20121008836
公開日2012年9月12日 申請(qǐng)日期2012年3月29日 優(yōu)先權(quán)日2012年3月29日
發(fā)明者孫星愷, 王飛躍, 趙紅霞, 陸浩 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所