一種面向微博短文本的情感分析方法

文檔序號(hào)：6362843閱讀：1261來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種面向微博短文本的情感分析方法
技術(shù)領(lǐng)域：
本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域，具體地，涉及一種面向微博短文本的情感分析方法。
背景技術(shù)：
情感分析亦稱意見挖掘，指的是從文本中自動(dòng)識(shí)別和提取具有傾向性的態(tài)度、意見和情感。其近年來，主觀性文本(意見)挖掘研究十分活躍，主要特點(diǎn)是分析文本中包含的主觀觀點(diǎn)并計(jì)算其語義極性。由于情感分類可以在一定程度上解決網(wǎng)上各種評(píng)論信息雜亂的現(xiàn)象，方便用戶準(zhǔn)確地定位所需信息，因此，情感分類已成為一項(xiàng)具有較大實(shí)用價(jià)值的關(guān)鍵技術(shù)，是組織和管理數(shù)據(jù)的有力手段。而微博由于其巨大影響力，已經(jīng)成為越來越多的用戶發(fā)表觀點(diǎn)及情感的第一選擇，比如對(duì)某些名人的喜歡或憎惡、對(duì)某些電影的評(píng)論、對(duì)某些品牌的評(píng)價(jià)及建議、對(duì)某些時(shí)事的看法等。對(duì)微博進(jìn)行有效的情感分析研究可廣泛應(yīng)用于輿情監(jiān)測(cè)、品牌建設(shè)、廣告營(yíng)銷、信息過濾、意見反饋、民意調(diào)查等。目前公認(rèn)的情感分析比較系統(tǒng)的研究工作開始于(Panget al.，2002)基于監(jiān)督學(xué)習(xí)方法對(duì)電影評(píng)論文本進(jìn)行情感傾向性分類和(Turney，2002)基于無監(jiān)督學(xué)習(xí)對(duì)文本情感傾向性分類的研究。(Pang et al. , 2002)基于文本的N元語法(ngram)和詞類(POS)等特征分別使用樸素貝葉斯，最大熵和支持向量機(jī)將文本情感傾向性分為正向和負(fù)向兩類，將文本的情感進(jìn)行二元?jiǎng)澐值淖龇ㄒ惨恢毖赜弥两?。同時(shí)他們?cè)趯?shí)驗(yàn)中使用電影評(píng)論數(shù)據(jù)集目前已成為廣泛使用的情感分析的測(cè)試集。(Turney，2002)基于點(diǎn)互信息計(jì)算文本中抽取的關(guān)鍵詞和種子詞(excellent, poor)的相似度來對(duì)文本的情感傾向性進(jìn)行判別(S0-PMI 算法)。在此之后的大部分都是基于(Pang et al. , 2002)的研究。而相對(duì)來說，(Turneyet al. ,2002)提出的無監(jiān)督學(xué)習(xí)的方法雖然在實(shí)現(xiàn)上更加簡(jiǎn)單，但是由于單詞之間的情感相似度難以準(zhǔn)確的計(jì)算和種子詞的難以確定，繼續(xù)在無監(jiān)督學(xué)習(xí)方向的研究并不是很多的，但是利用SO-PMI算法計(jì)算文本情感傾向性的思想?yún)s被很多研究者所繼承了。目前，基于監(jiān)督學(xué)習(xí)的情感分析仍然是主流，除了(Liet al.，2009)基于非負(fù)矩陣三分解，(Abbasi et al. , 2008)基于遺傳算法的情感分析之外,使用的最多的監(jiān)督學(xué)習(xí)算法是樸素貝葉斯，k最近鄰，最大熵和支持向量機(jī)的。而對(duì)于算法的改進(jìn)主要在對(duì)文本的預(yù)處理階段。一個(gè)和文本分類不同的地方就是情感分析有時(shí)需要提取文本的真正表達(dá)情感的句子。(Pang et al. , 2004)基于文本中的主觀句的選擇和(Wilson el al. , 2009)基于文本中的中性實(shí)例的分析，都是為了能夠盡量獲得文本中真正表達(dá)情感的句子。(Abbasi etal. ,2008)提出通過信息增益的方法來選擇大量特征集中對(duì)于情感分析有益的特征。而對(duì)于特征選擇，除了 N元語法和詞類特征之外，(Wilson el al.，2009)提出混合單詞特征，否定詞特征，情感修飾特征，情感轉(zhuǎn)移特征等各類句法特征的情感分析，(Abbasiet al. ,2008)提出混合句子的句法(N元語法，詞類，標(biāo)點(diǎn))和結(jié)構(gòu)特征(單詞的長(zhǎng)度，詞類中單詞的個(gè)數(shù)，文本的結(jié)構(gòu)特征等)的情感分析。除了對(duì)于文本的預(yù)處理，對(duì)于監(jiān)督學(xué)習(xí)中情感分析還進(jìn)行了以下方面的研究的(Melville et al.，2009)和(Li et al.，2009)提出結(jié)合情感詞的先驗(yàn)的基于詞典的情感傾向性和訓(xùn)練文本中后驗(yàn)的基于上下文的情感傾向性共同判斷文本的情感傾向性。(Taboada et al.，2009)提出結(jié)合文本的題材(描述，評(píng)論，背景，解釋等)和文本本身的特征共同判斷文本的情感傾向性。(Tsutsumi et al. ,2007)提出利用多分類器融合技術(shù)來對(duì)文本情感分類。(Wan，2008)和(Wan，2009)提出結(jié)合英文中豐富的情感分析資源來提高中文情感分析的效果。和基于監(jiān)督學(xué)習(xí)的情感分析相比，基于規(guī)則和無監(jiān)督學(xué)習(xí)方面的研究不是很多。除了(Turney, 2002)之外，(朱嫣M et al. , 2002)利用HowNet對(duì)中文詞語語義進(jìn)行了情感傾向計(jì)算。(婁德成et al. ,2006)利用句法結(jié)構(gòu)和依存關(guān)系對(duì)中文句子語義進(jìn)行了情感分析，(Hiroshi et al.，2004)通過改造一個(gè)基于規(guī)則的機(jī)器翻譯器實(shí)現(xiàn)日文短語級(jí)情感分析，(Zagibalov et al. , 2008)在(Turney, 2002)的SO-PMI算法的基礎(chǔ)上通過對(duì)于中文文本特征的深入分析以及引入迭代機(jī)制從而在很大程度上提高了無監(jiān)督學(xué)習(xí)情感分析的準(zhǔn)確率。跨領(lǐng)域情感分析在情感分析中是一個(gè)新興的領(lǐng)域，目前在這方面的研究不是很多，主要原因是目前的研究還沒有很好的解決如何尋找兩個(gè)領(lǐng)域之間的一種映射關(guān)系，或者說如何尋找兩個(gè)領(lǐng)域之間特征權(quán)值之間的平衡關(guān)系。對(duì)于跨領(lǐng)域情感分析的研究開始于(Blitzer et al.，2007)將結(jié)構(gòu)對(duì)應(yīng)學(xué)習(xí)引入跨領(lǐng)域情感分析，SCL是一種應(yīng)用范圍很廣的跨領(lǐng)域文本分析算法，SCL的目的是將訓(xùn)練集上的特征盡量對(duì)應(yīng)到測(cè)試集中。(Tan et al.，2009)將SCL引入了中文跨領(lǐng)域情感分析中。(Tan2 et al.，2009)提出將樸素貝葉斯和EM算法的一種半監(jiān)督學(xué)習(xí)方法應(yīng)用到了跨領(lǐng)域的情感分析中。(Wu et al.，2009)將基于EM的思想將圖排序(Graph Ranking)算法應(yīng)用到跨領(lǐng)域的情感分析中，圖排序算法可以認(rèn)為是一種迭代的k-NN算法。從目前的研究可以看出，跨領(lǐng)域的情感分析主要問題在于尋找兩個(gè)領(lǐng)域之間的一種映射關(guān)系，但是這樣的映射關(guān)系或者很難尋找，或者需要相當(dāng)強(qiáng)的數(shù)學(xué)證明。所以很多研究借用半監(jiān)督學(xué)習(xí)的方法，通過逐次迭代逐漸減少訓(xùn)練集和測(cè)試集之間的差異。在針對(duì)主題相關(guān)的中文情感分析研究中，當(dāng)前更多是針對(duì)某一特定領(lǐng)域，如汽車、賓館酒店、新聞事件等，對(duì)于這類研究的主要方法多是針對(duì)特定的領(lǐng)域，建立相關(guān)的領(lǐng)域本體及其常用評(píng)價(jià)字典，通過句式分析、預(yù)定義句子模版、抽取核心句、基于監(jiān)督的機(jī)器學(xué)習(xí)等方法來判定評(píng)論的正負(fù)性。但這些方法不能直接用到針對(duì)微博的情感分析中，因?yàn)槲⒉﹥?nèi)容包羅萬象，從微博用戶發(fā)表的對(duì)產(chǎn)品等特定實(shí)體的評(píng)論，還有針對(duì)人物、事件等各方面的意見，所以要對(duì)不同的實(shí)體進(jìn)行區(qū)分對(duì)待，采用不同的方法才能更好的進(jìn)行情感分析；此夕卜，對(duì)于現(xiàn)有的依賴句法分析的方法在針對(duì)中文主題相關(guān)的情感分析方面除了句法分析工具本身帶來的不準(zhǔn)確外，其主題和修飾詞的抽取算法有待改進(jìn)，同時(shí)因其沒有更好地結(jié)合語義句式信息，加之微博體不規(guī)范性很大，分析前對(duì)微博內(nèi)容進(jìn)行有效地規(guī)范化預(yù)處理都是提高情感分析準(zhǔn)確度的重要方面。在面向中文微博短文本進(jìn)行情感分析研究中有學(xué)者對(duì)于主題無關(guān)的微博情感分析采用基于字典的情感詞統(tǒng)計(jì)方法，基本過程如下首先，將一條微博按標(biāo)點(diǎn)進(jìn)行分句。其次，在一條微博分句中查找包含在權(quán)值字典中的詞，將它們的權(quán)值疊加。再次，在該條微博客分句中查找包含在否定詞典中的詞，并統(tǒng)計(jì)數(shù)目，以確定肯定或否定語氣。最后，將每一分句的計(jì)算值疊加，得出一條完整微博的心情值。使用C#語言編寫的微博心情權(quán)值計(jì)算器情感識(shí)別測(cè)試的結(jié)果經(jīng)交叉判定正確率達(dá)到80. 6%。方法的優(yōu)點(diǎn)是算法簡(jiǎn)單，效率較高，在對(duì)微博進(jìn)行正負(fù)判別達(dá)到了一定的正確率，但依然存在以下幾個(gè)問題1)結(jié)果太多依賴其所定義的情感字典，導(dǎo)致覆蓋面不夠廣，對(duì)于沒有出現(xiàn)在情感字典里的情感詞所在的句子無法判定或只認(rèn)為為中性；2)對(duì)于出現(xiàn)多個(gè)主題和多個(gè)情感詞的微博，單純靠情感詞極性加和無法明確博主究竟對(duì)特定主題表達(dá)什么情感；3)僅僅對(duì)否定詞進(jìn)行偶數(shù)個(gè)為正向，奇數(shù)個(gè)為負(fù)向的統(tǒng)計(jì)很容易誤判，因?yàn)闊o法確定否定詞是對(duì)情感詞的否定，加之很多時(shí)候博主是對(duì)多個(gè)實(shí)體表示否定情緒；4)沒有考慮程度副詞和句式信息，對(duì)于一些反問句、包含轉(zhuǎn)折等微博判斷失誤；5)除對(duì)于基本統(tǒng)計(jì)博主心情外的應(yīng)用價(jià)值不大，往往用戶更為關(guān)心的是微博中針對(duì)具體某一實(shí)體的情緒態(tài)度，而非整條微博籠統(tǒng)的正負(fù)判定。

發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)中文微博短文本情感分析的不足，提出了一種面向微博短文本的情感分析方法與系統(tǒng)。該方法和系統(tǒng)針對(duì)特定主題及其相關(guān)屬性或部分的整體和細(xì)粒度的微博情感傾向性分析，使用基于依存句法分析，結(jié)合語義信息、領(lǐng)域本體等內(nèi)容的方法提高了分析結(jié)果的準(zhǔn)確度，有效地幫助用戶了解主流微博中關(guān)于特定實(shí)體所持有的情感態(tài)度。通過分析博主微博的情感狀況從而得出博主在某一時(shí)段的心情指數(shù)。針對(duì)某一微博的評(píng)論內(nèi)容進(jìn)行正負(fù)情感傾向性分析，使用戶可以了解對(duì)于特定博文評(píng)論者的支持或反對(duì)觀點(diǎn)態(tài)度的評(píng)論及其比例。一種面向微博短文本的情感分析方法，其中情感分析的對(duì)象是實(shí)體的主題，該方法包括步驟步驟1，采集包含指定關(guān)鍵字詞的微博數(shù)據(jù)存入數(shù)據(jù)庫(kù)；步驟2，從數(shù)據(jù)庫(kù)讀取特定關(guān)鍵字的微博，過濾掉本身不包含對(duì)配置關(guān)鍵字發(fā)表意見或消息的微博，并且對(duì)經(jīng)過過濾處理的微博數(shù)據(jù)進(jìn)行去噪，去除微博中的不規(guī)范數(shù)據(jù)；步驟3，加載相關(guān)字典，根據(jù)用戶配置的關(guān)鍵字類別，加載通用正負(fù)情感字典外、對(duì)應(yīng)的領(lǐng)域常用正負(fù)評(píng)價(jià)字典、否定字典、程度字典、句式字典；步驟4，進(jìn)行分句，過濾掉不包含用戶配置關(guān)鍵字的句子；步驟5，對(duì)包含關(guān)鍵字的句子進(jìn)行分詞，詞性標(biāo)注，提取句中的形容詞、名詞、動(dòng)詞、副詞，并使用對(duì)應(yīng)的領(lǐng)域詞典進(jìn)行搜索，如出現(xiàn)在字典中則進(jìn)行標(biāo)記；對(duì)于剩下的詞在通用情感詞庫(kù)中進(jìn)行匹配，同樣對(duì)于出現(xiàn)在情感詞表中的詞標(biāo)記并加入情感詞集合，如果情感詞集合為空，則認(rèn)為此句沒有明顯情感傾向，默認(rèn)為中性，進(jìn)行下一句處理，否則進(jìn)行下一步；步驟6，利用句法分析工具對(duì)包含主題的句子進(jìn)行依存句法分析；步驟7，對(duì)包含主題詞的每個(gè)句子的極性進(jìn)行判斷；步驟8，判斷完所有包含主題詞的句子的極性后，計(jì)算結(jié)果集合中正面句子極性之和記為PositiveSum和負(fù)面句子極性之和為NegativeSum,根據(jù)句子結(jié)果集中的否向句子數(shù)NegSenNum與正向句子數(shù)PosSenNum值計(jì)算整條微博的情感傾向性
'NegativeSumif (NegSenNum >= PosSenNum)
<
MicroblogOrientation= PosSenNumif (PosSenNum > NegSenNum)。
本發(fā)明還提供了一種面向微博短文本的情感分析方法，其中情感分析的對(duì)象是博主心情指數(shù)，則該方法包括步驟步驟1，對(duì)博主微博進(jìn)行預(yù)處理；步驟2，相關(guān)字典加載，包括通用正負(fù)情感字典、否定字典、程度字典、通用正負(fù)表情符號(hào)字典；步驟3，根據(jù)此條微博是否為純分享、純轉(zhuǎn)發(fā)、微博中的表情符號(hào)、情感詞、否定詞、程度詞來確定微博的情感傾向性；步驟4，對(duì)所有微博根據(jù)日期歸檔，根據(jù)同一天發(fā)布的所有微博的情感傾向性，得出博主這一天的微博心情指數(shù)。本發(fā)明還提供了一種面向微博短文本的情感分析方法，其中情感分析的對(duì)象是微博評(píng)論傾向性，該方法包括步驟步驟1，對(duì)微博評(píng)論進(jìn)行預(yù)處理；步驟2，相關(guān)字典加載，包括通用正負(fù)情感字典、否定字典、程度字典、通用正負(fù)表情符號(hào)字典；步驟3，統(tǒng)計(jì)評(píng)論中的表情符號(hào)，依據(jù)通用正負(fù)表情符號(hào)字典分別保存到GoodEmotions和BadEmotions中；步驟4，對(duì)整條微博評(píng)論進(jìn)行分詞，詞性標(biāo)注，對(duì)形容詞、名詞、副詞、動(dòng)詞進(jìn)行情感字典匹配，出現(xiàn)的正負(fù)情感詞分別保存到PositiveWords和NegativeWords中；步驟5,如果 GoodEmotions、BadEmotions> Positiveffords 和 NegativeWords 均為空，則認(rèn)為此條評(píng)論為中性評(píng)論，設(shè)其情感傾向性CommentOrientation = O ;步驟6,搜索否定詞，如包含否定詞，則查看其是否修飾某一情感詞，如是則對(duì)情感詞極性取負(fù)；步驟7，搜索程度詞，如包含程度詞，則查看其是否修飾某一情感詞，如是則對(duì)調(diào)整情感詞極性為情感詞當(dāng)前極性乘以程度詞強(qiáng)度參數(shù)；步驟8,計(jì)算評(píng)論的正負(fù)向結(jié)果,計(jì)算公式如下正向結(jié)果PositiveSum =GoodEmotions中的表情個(gè)數(shù)+PositiveWords中所有詞的極性；負(fù)向結(jié)果NegativeSum =BadEmotions中的表情個(gè)數(shù)+NegativeWords中所有詞的極性；步驟9,評(píng)論情感傾向性
權(quán)利要求
1.一種面向微博短文本的情感分析方法，其中情感分析的對(duì)象是實(shí)體的主題，該方法包括步驟步驟I，采集包含指定關(guān)鍵字詞的微博數(shù)據(jù)存入數(shù)據(jù)庫(kù)；步驟2，從數(shù)據(jù)庫(kù)讀取特定關(guān)鍵字的微博，過濾掉本身不包含對(duì)配置關(guān)鍵字發(fā)表意見或消息的微博，并且對(duì)經(jīng)過過濾處理的微博數(shù)據(jù)進(jìn)行去噪,去除微博中的不規(guī)范數(shù)據(jù)；步驟3，加載相關(guān)字典，加載通用正負(fù)情感字典、否定字典、程度字典、句式字典，并根據(jù)用戶配置的關(guān)鍵字所屬領(lǐng)域，加載對(duì)應(yīng)的領(lǐng)域常用正負(fù)評(píng)價(jià)字典；步驟4，進(jìn)行分句，過濾掉不包含用戶配置關(guān)鍵字的句子；步驟5，對(duì)包含關(guān)鍵字的句子進(jìn)行分詞，詞性標(biāo)注，提取句中的形容詞、名詞、動(dòng)詞、副詞，并使用對(duì)應(yīng)的領(lǐng)域詞典進(jìn)行搜索，如出現(xiàn)在字典中則進(jìn)行標(biāo)記；對(duì)于剩下的詞在通用情感詞庫(kù)中進(jìn)行匹配，同樣對(duì)于出現(xiàn)在情感詞表中的詞標(biāo)記并加入情感詞集合，如果情感詞集合為空，則認(rèn)為此句沒有明顯情感傾向，默認(rèn)為中性，進(jìn)行下一句處理，否則進(jìn)行下一步；步驟6，利用句法分析工具對(duì)包含主題的句子進(jìn)行依存句法分析；步驟7，對(duì)包含主題詞的每個(gè)句子的極性進(jìn)行判斷；步驟8，判斷完所有包含主題詞的句子的極性后，計(jì)算結(jié)果集合中正面句子極性之和記為PositiveSum和負(fù)面句子極性之和為NegativeSum,根據(jù)句子結(jié)果集中的否向句子數(shù)NegSenNum與正向句子數(shù)PosSenNum值計(jì)算整條微博的情感傾向性
2.根據(jù)權(quán)利要求I所述的方法，其特征在于，在步驟6之后，還包括步驟步驟a，搜索句中否定詞、程度詞、句式詞和VOB結(jié)構(gòu)并記錄相應(yīng)位置和句法信息；步驟b，標(biāo)記主題關(guān)鍵字所在位置及其句法信息加入待處理主題信息列表；步驟C，從主題信息集合中取出一個(gè)主題詞；步驟d,從情感詞集中取出待判定情感詞,從該情感詞開始依次遍歷其語法關(guān)系對(duì),如果在遍歷中找到該主題詞，則認(rèn)為此情感詞修飾該主題詞，標(biāo)記該情感詞為已使用，匹配標(biāo)記為真；如無則進(jìn)行下一步；步驟e，判斷該主題詞的依存關(guān)系是否為“SBV”，如是判斷謂語的詞性，如否則判斷該主題詞的句法是否為“DE”結(jié)構(gòu)，如是則標(biāo)記“的”后的詞作為臨時(shí)主題詞，進(jìn)行下一步；步驟f，進(jìn)行謂語詞性判斷，如果謂語為動(dòng)詞，進(jìn)行下一步；如否則返回步驟c ; 步驟g，如果該動(dòng)詞為情感詞，則返回步驟C，否則進(jìn)行下一步；步驟h，在VOB結(jié)構(gòu)中查找匹配主題詞SBV結(jié)構(gòu)的V0B，如果賓語為情感詞則匹配標(biāo)記為真，該情感詞和VOB標(biāo)記為已使用；如賓語不是情感詞，則查詢臨近ADV結(jié)構(gòu)看賓語前是否有情感詞修飾，如有同樣標(biāo)記該情感詞和VOB為已使用；如無，則返回步驟c ；步驟i，如果匹配標(biāo)記為真，則進(jìn)行否定匹配，確定有否定詞修飾該情感詞，則該情感詞動(dòng)態(tài)極性取負(fù)；程度詞匹配，確定有程度詞修飾該情感詞，則該情感詞動(dòng)態(tài)極性等于現(xiàn)有極性乘以程度詞的強(qiáng)度參數(shù)；步驟j，把該主題詞和上下文極性存入臨時(shí)結(jié)果集中，進(jìn)行下一主題詞處理，返回到步驟b; 步驟k，本句處理完畢，計(jì)算本句的極性，依據(jù)臨時(shí)結(jié)果集中的否面極性對(duì)數(shù)NegativeNum和正面極性對(duì)數(shù)PositiveNum通過下面公式計(jì)算本句極性
3.根據(jù)權(quán)利要求I或2所述的方法，其特征在于，數(shù)據(jù)預(yù)處理步驟進(jìn)一步包括過濾掉非原創(chuàng)微博；過濾掉單純分享圖片或視頻內(nèi)容且無評(píng)論的微博；過濾掉句首句尾為“#”及其中間的內(nèi)容；過濾掉句首為“”及其括號(hào)內(nèi)的內(nèi)容；過濾掉句首句尾為符號(hào)以及其后面的博主名；將“ ”換成句號(hào)；把句中的“ + ” “ = ”替換為漢字“加” “減” “等于”；去掉多余的標(biāo)點(diǎn)符號(hào)；去除微博中所有的鏈接；去除句尾出現(xiàn)“詳見”、“詳細(xì)報(bào)道”、“微訪談”所在的句子。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，通用正負(fù)情感字典是基于Hownet提供的中文情感分析用詞語集，其提供了正面情感詞語、負(fù)面情感詞語、正面評(píng)價(jià)詞語、負(fù)面評(píng)價(jià)詞語。
5.一種面向微博短文本的情感分析方法，其中情感分析的對(duì)象是博主心情指數(shù)，則該方法包括步驟步驟I，對(duì)博主微博進(jìn)行預(yù)處理；步驟2，相關(guān)字典加載，包括通用正負(fù)情感字典、否定字典、程度字典、通用正負(fù)表情符號(hào)字典；步驟3，根據(jù)此條微博是否為純分享、純轉(zhuǎn)發(fā)、微博中的表情符號(hào)、情感詞、否定詞、程度詞來確定微博的情感傾向性；步驟4，對(duì)所有微博根據(jù)日期歸檔，根據(jù)同一天發(fā)布的所有微博的情感傾向性，得出博主這一天的微博心情指數(shù)。
6.根據(jù)權(quán)利要求5所述的方法，其特征在于，步驟3進(jìn)一步包括步驟301，判斷此條微博是否為純分享，若是，則認(rèn)為此條微博感情為正面，設(shè)其情感傾向性SentimentOrientation = 1，進(jìn)行下一條微博分析；步驟302，判斷此條微博是否為純轉(zhuǎn)發(fā)，如果是轉(zhuǎn)發(fā)微博，對(duì)其轉(zhuǎn)發(fā)的微博內(nèi)容進(jìn)行返回步驟I進(jìn)行情感分析，根據(jù)轉(zhuǎn)發(fā)內(nèi)容情感傾向性來設(shè)定此條轉(zhuǎn)發(fā)的傾向性；步驟303，統(tǒng)計(jì)微博中的表情符號(hào)，依據(jù)通用正負(fù)表情符號(hào)字典分別保存到正向表情集GoodEmotions 和負(fù)向表情集 BadEmotions 中；步驟304，對(duì)整條微博進(jìn)行分詞，詞性標(biāo)注，對(duì)形容詞、名詞、副詞、動(dòng)詞進(jìn)行情感字典匹配，出現(xiàn)的正負(fù)情感詞分別保存到PositiveWords和NegativeWords中；步驟 305,如果 GoodEmotions、BadEmotions、PositiveWords 和 NegativeWords 均為空，則認(rèn)為此條評(píng)論微博為中性，設(shè)其情感傾向性SentimentOrientation = 0 ；步驟306，搜索否定詞NegWord，如包含否定詞，則判斷其是否修飾某一情感詞，如是則對(duì)該情感詞極性取反；步驟307,搜索程度詞IntensifyWord,如包含程度詞，則判斷其是否修飾某一情感詞，如是則對(duì)調(diào)整情感詞極性為情感詞當(dāng)前極性值乘以程度詞強(qiáng)度參數(shù)Degree (Intensifyfford)；步驟308，計(jì)算此條微博的正負(fù)向結(jié)果，計(jì)算公式如下正向結(jié)果PositiveSum = GoodEmotions中的表情個(gè)數(shù)+PositiveWords中所有詞的極性；負(fù)向結(jié)果NegativeSum = BadEmotions中的表情個(gè)數(shù)+NegativeWords中所有詞的極性；步驟 309,微博情感傾向性 SentimentOrientation = PositiveSum+Negative。
7.根據(jù)權(quán)利要求6所述的方法，其特征在于，步驟4進(jìn)一步包括步驟401，根據(jù)標(biāo)記的感嘆詞，如果微博中有感嘆詞，則 SentimentOrientation = I. 5*Sentiment0rientation ；步驟402，對(duì)所有微博根據(jù)日期歸檔，對(duì)同一天發(fā)布的微博進(jìn)行結(jié)果相加得出博主這一天的微博心情指數(shù)BloggerMoodIndex (day),即BloggerMoodIndex(day) = Sum(SentimentOrientation)0
8.根據(jù)權(quán)利要求5所述的方法，其特征在于，對(duì)博主微博進(jìn)行預(yù)處理進(jìn)一步包括步驟101，過濾掉句首句尾“#”及其中間的內(nèi)容，對(duì)于句中的“#”對(duì)，只去除符號(hào)，保留內(nèi)容；步驟102，過濾掉句首“”及其括號(hào)內(nèi)的內(nèi)容；步驟103，過濾掉句首句尾符號(hào)以及其后面的博主名，過濾掉句中符號(hào)；步驟104，“ ”換成句號(hào)；步驟105，去掉多余的標(biāo)點(diǎn)符號(hào)；步驟106，去除微博中所有的鏈接；步驟107，去除句尾“詳見”、“詳細(xì)報(bào)道”、“微訪談”所在的句子。
9.一種面向微博短文本的情感分析方法，其中情感分析的對(duì)象是微博評(píng)論傾向性，該方法包括步驟步驟I，對(duì)微博評(píng)論進(jìn)行預(yù)處理；步驟2，相關(guān)字典加載，包括通用正負(fù)情感字典、否定字典、程度字典、通用正負(fù)表情符號(hào)字典；步驟3，統(tǒng)計(jì)評(píng)論中的表情符號(hào)，依據(jù)通用正負(fù)表情符號(hào)字典分別保存到GoodEmotions 和 BadEmotions 中；步驟4，對(duì)整條微博評(píng)論進(jìn)行分詞，詞性標(biāo)注，對(duì)形容詞、名詞、副詞、動(dòng)詞進(jìn)行情感字典匹配，出現(xiàn)的正負(fù)情感詞分別保存到PositiveWords和NegativeWords中；步驟 5,如果 GoodEmotions、BadEmotions、PositiveWords 和 NegativeWords 均為空，則認(rèn)為此條評(píng)論為中性評(píng)論，設(shè)其情感傾向性CommentOrientation = 0 ；步驟6，搜索否定詞，如包含否定詞，則查看其是否修飾某一情感詞，如是則對(duì)情感詞極性取負(fù)；步驟7，搜索程度詞，如包含程度詞，則查看其是否修飾某一情感詞，如是則對(duì)調(diào)整情感詞極性為情感詞當(dāng)前極性乘以程度詞強(qiáng)度參數(shù)；步驟8，計(jì)算評(píng)論的正負(fù)向結(jié)果，計(jì)算公式如下正向結(jié)果PositiveSum = GoodEmotions中的表情個(gè)數(shù)+PositiveWords中所有詞的極性；負(fù)向結(jié)果NegativeSum = BadEmotions中的表情個(gè)數(shù)+NegativeWords中所有詞的極性；步驟9，評(píng)論情感傾向性
10.根據(jù)權(quán)利要求9所述的方法，其特征在于，步驟I進(jìn)一步包括步驟101，去除“轉(zhuǎn)發(fā)此微博”；步驟101，過濾掉博主對(duì)評(píng)論者的回復(fù)；步驟101,過濾掉評(píng)論者針對(duì)他人評(píng)論的回復(fù)；步驟101,過濾掉鏈接；步驟101，去掉多余的標(biāo)點(diǎn)符號(hào)；步驟101，如果有多個(gè)句子，句子間無標(biāo)點(diǎn)則加逗號(hào)，句間的非感嘆號(hào)之外的斷句符號(hào)統(tǒng)一換成“，”，嘆號(hào)進(jìn)行標(biāo)記后同樣換成“，”。
全文摘要
本發(fā)明公開了一種面向微博短文本的情感分析方法，該方法包括步驟1，采集包含指定關(guān)鍵字詞的微博數(shù)據(jù)存入數(shù)據(jù)庫(kù)；步驟2，對(duì)微博數(shù)據(jù)進(jìn)行預(yù)處理；步驟3，加載相關(guān)字典；步驟4，進(jìn)行分句，過濾掉不包含用戶配置關(guān)鍵字的句子；步驟5，對(duì)包含關(guān)鍵字的句子進(jìn)行分詞，詞性標(biāo)注；步驟6，利用句法分析工具對(duì)包含主題的句子進(jìn)行依存句法分析；步驟7，對(duì)包含主題詞的每個(gè)句子的極性進(jìn)行判斷；步驟8，判斷完所有包含主題詞的句子的極性后，判斷整條微博的極性。利用本發(fā)明的方法，使情感分析更具有針對(duì)性，使用戶可以了解微博中對(duì)其所關(guān)心的方面所持有的情感態(tài)度。
文檔編號(hào)G06F17/30GK102663046SQ20121008836
公開日2012年9月12日申請(qǐng)日期2012年3月29日優(yōu)先權(quán)日2012年3月29日
發(fā)明者孫星愷, 王飛躍, 趙紅霞, 陸浩申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陸浩;王飛躍;孫星愷;趙紅霞
技術(shù)所有人：中國(guó)科學(xué)院自動(dòng)化研究所
我是此專利的發(fā)明人

上一篇：神經(jīng)網(wǎng)絡(luò)模式識(shí)別系統(tǒng)和模式識(shí)別方法
上一篇：一種新圖像分割算法的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本內(nèi)容安全分析方法相關(guān)技術(shù)

面向?qū)ο蠓治龇椒ㄏ嚓P(guān)技術(shù)

面向問題域的分析方法相關(guān)技術(shù)

面向過程分析方法相關(guān)技術(shù)

面向數(shù)據(jù)流的分析方法相關(guān)技術(shù)

面向過程的分析方法相關(guān)技術(shù)

面向?qū)ο髨D像分析方法相關(guān)技術(shù)

結(jié)構(gòu)分析方法就是面向相關(guān)技術(shù)

短文本情感分析相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種面向微博短文本的情感分析方法