亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于公眾漢語網(wǎng)絡(luò)文本的現(xiàn)實(shí)情感分析方法

文檔序號:6614865閱讀:535來源:國知局
專利名稱:一種基于公眾漢語網(wǎng)絡(luò)文本的現(xiàn)實(shí)情感分析方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種以公眾漢語為主的網(wǎng)絡(luò)文本的現(xiàn)實(shí)情感分析方法,涉及語言學(xué)、自然語言處理和數(shù)據(jù)挖掘領(lǐng)域。
背景技術(shù)
Web2. O技術(shù)在過去幾年的快速發(fā)展使得以公眾漢語形式出現(xiàn)的網(wǎng)絡(luò)文本越來越多,是我們最容易獲取的最豐富的一種交互資源。這些網(wǎng)絡(luò)文本的結(jié)構(gòu)靈活松散,語言風(fēng)格多樣和質(zhì)量良莠不齊,在此背景下興起的基于網(wǎng)絡(luò)文本的情感分析對信息檢索、電子商務(wù)、輿情監(jiān)控等領(lǐng)域有著重要的研究意義。國內(nèi)針對漢語網(wǎng)絡(luò)文本的情感分析主要集中在情感傾向性分析,一般分為褒義、貶義和中性三種,還包括傾向性的強(qiáng)烈程度。例如,“譴責(zé)”的強(qiáng)度遠(yuǎn)遠(yuǎn)超過“批評”和“指責(zé)”,而這種強(qiáng)度很難界定?;诰W(wǎng)絡(luò)文本的情感分析應(yīng)當(dāng)全面而豐富,不僅包括傾向性分析,還應(yīng)分析當(dāng)事人的主觀情緒狀態(tài),以及情感程度。James Robert Martin從認(rèn)識論的角度,將情感成分分為現(xiàn)實(shí)類情感和非現(xiàn)實(shí)類情感。非現(xiàn)實(shí)類情感關(guān)涉的是說話人的情感傾向,而現(xiàn)實(shí)情感則是某種狀態(tài)。現(xiàn)實(shí)類情感分為12個(gè)典型狀態(tài),每個(gè)狀態(tài)從情感指向又分為“對己”和“對人”兩個(gè)次類,較多的層次表現(xiàn)力更強(qiáng),更能體現(xiàn)語言的細(xì)微差別。本專利所指的情感分析屬于現(xiàn)實(shí)類情感,指人的主觀情緒,分析結(jié)果是一種情感狀態(tài)和情感程度。例如,是否愉快,如是幸福還是痛苦,是反感還是好感,是開心還是郁悶;其情感程度是多少。鑒于上述背景,針對以公眾漢語為主的網(wǎng)絡(luò)文本,提出一種現(xiàn)實(shí)情感模型的情感分析方法,對于細(xì)致的情感計(jì)算,甚至賦予計(jì)算機(jī)類似于人一樣的觀察、理解和生成各種情感特征能力有著很強(qiáng)的現(xiàn)實(shí)意義。

發(fā)明內(nèi)容
本發(fā)明“一種基于公眾漢語網(wǎng)絡(luò)文本的現(xiàn)實(shí)情感分析方法”旨在提供一種針對以公眾漢語為主的網(wǎng)絡(luò)文本的現(xiàn)實(shí)情感分析方法,能準(zhǔn)確的分析得到文本的情感狀態(tài)信息,包括三個(gè)部分對己/對人,情感狀態(tài),情感程度。本發(fā)明提出的基于公眾漢語網(wǎng)絡(luò)文本的現(xiàn)實(shí)情感分析方法包含以下步驟(I)利用漢語分詞軟件對文本進(jìn)行預(yù)處理,得到基本語法結(jié)構(gòu)。(2)檢測文本中的歧義詞、標(biāo)點(diǎn)符號、感嘆詞、程度副詞、否定詞和情感符號等。(3)根據(jù)歧義詞表將關(guān)于情感的有用的特定詞匯更正。(4)根據(jù)現(xiàn)實(shí)情感特征詞庫對情感詞進(jìn)行基于規(guī)則的賦值處理。(5)根據(jù)是否含有標(biāo)點(diǎn)符號或者情感符等計(jì)算最終情感程度,得到最終情感分析結(jié)果。對于上述步驟的方法、現(xiàn)實(shí)情感特征詞庫和計(jì)算方法解釋如下
1.漢語分詞軟件能進(jìn)行詞性標(biāo)注、命名實(shí)體識別和新詞識別,得到句子的基本語法息。I1.檢測文本中的歧義詞、標(biāo)點(diǎn)符號、感嘆詞、程度副詞、否定詞和情感符,解釋及其使用規(guī)則依次如下a.歧義詞是指常見錯(cuò)別字、網(wǎng)絡(luò)新詞、省略詞等,我們根據(jù)錯(cuò)別字表進(jìn)行替換更正,同時(shí)加入新鮮的網(wǎng)絡(luò)詞匯。我們只關(guān)心與情感相關(guān)的有用的特定詞匯,包括與特征詞庫相關(guān)的錯(cuò)別字、有關(guān)情感的網(wǎng)絡(luò)新詞等,而不會(huì)關(guān)心比如“醬紫/這樣子”、“886/拜拜了”這樣不影響情感判斷的詞。這樣能減輕數(shù)據(jù)統(tǒng)計(jì)量,更加準(zhǔn)確分析句子情感狀態(tài)和情感程度。例如,下面是我們關(guān)心的詞匯表
權(quán)利要求
1.本發(fā)明提出一種基于公眾漢語網(wǎng)絡(luò)文本的現(xiàn)實(shí)情感分析方法,包含以下步驟(1)利用漢語分詞軟件對文本進(jìn)行預(yù)處理,得到基本語法結(jié)構(gòu)。(2)檢測文本中的歧義詞、標(biāo)點(diǎn)符號、感嘆詞、程度副詞、否定詞和情感符號等。(3)根據(jù)歧義詞表將關(guān)于情感的有用的特定詞匯更正。(4)根據(jù)現(xiàn)實(shí)情感特征詞庫對情感詞進(jìn)行基于規(guī)則的賦值處理。(5)根據(jù)是否含有標(biāo)點(diǎn)符號或者情感符等計(jì)算最終情感程度,得到最終情感分析結(jié)果。
2.根據(jù)權(quán)利要求1所述方法,其特征在于,所述步驟(2)包括對標(biāo)點(diǎn)符號、感嘆詞、程度副詞和情感符的賦值處理,用于表征對最終情感程度的影響。
3.根據(jù)權(quán)利要求1所述方法,其特征在于,所述步驟(2)對于標(biāo)點(diǎn)符號、感嘆詞、程度副詞和情感符的處理規(guī)則如下規(guī)則1:如果檢測到具有強(qiáng)烈感情色彩的標(biāo)點(diǎn)符號或感嘆詞,在最終的情感程度上乘標(biāo)點(diǎn)符號或者感嘆詞的程度系數(shù)。伴隨感嘆詞出現(xiàn)具有很強(qiáng)感情色彩的標(biāo)點(diǎn)符號,在判斷程度系數(shù)時(shí),我們?nèi)烧咧械淖畲笾?。?guī)則2 :如果檢測到程度副詞,程度副詞在修飾情感詞時(shí),情感詞的情感值為乘程度副詞的程度系數(shù)的結(jié)果;程度副詞不修飾情感詞時(shí),將程度副詞的情感程度系數(shù)置為O。程度副詞只影響其修飾的情感詞。規(guī)則3 :如果檢測到多個(gè)情感符時(shí),各個(gè)情感符的情感狀態(tài)一致則取程度系數(shù)最大的一個(gè)作為表征該句子的情感符,情感狀態(tài)不一致時(shí),將所有的情感符的程度系數(shù)置O。規(guī)則4 :如果同一個(gè)情感符重復(fù)出現(xiàn)時(shí),適當(dāng)調(diào)高其程度系數(shù),表明其情感程度加深。 規(guī)則5 :如果表征句子的情感符反映的情感狀態(tài)和情感詞反映的情感狀態(tài)不一致時(shí), 將表征該句的情感符的程度系數(shù)置O。
4.根據(jù)權(quán)利要求1所述方法,其特征在于,所述步驟(3)對于歧義詞的處理規(guī)則如下 規(guī)則6 :如果檢測到歧義詞,將只與情感相關(guān)的有用的特定詞匯替換,而不關(guān)心和情感判斷無關(guān)的詞匯。
5.根據(jù)權(quán)利要求1所述方法,其特征在于,所述步驟(4)對于情感特征詞的賦值處理規(guī)則如下規(guī)則7 :如果無任何情感特征詞庫里的情感詞出現(xiàn)時(shí),將這樣的句子認(rèn)定為非現(xiàn)實(shí)情感句。規(guī)則8 :根據(jù)情感特征詞判斷情感狀態(tài),有程度副詞修飾時(shí),根據(jù)程度副詞的處理規(guī)則得到當(dāng)前情感特征詞的程度值;當(dāng)有否定詞修飾時(shí),將當(dāng)前情感特征詞的程度值置O。規(guī)則9 :如果多個(gè)情感詞表征多個(gè)情感狀態(tài),或者表征同一情感狀態(tài),分別計(jì)算各個(gè)情感詞對應(yīng)的情感值,取情感值最高的一個(gè)作為當(dāng)前的情感狀態(tài)和情感值,當(dāng)出現(xiàn)情感值相同的情況,均保留參與下一步驟。規(guī)則10 :如果判斷出情感狀態(tài),則相應(yīng)判斷出情感指向?yàn)椤皩θ?對己”。
6.根據(jù)權(quán)利要求1所述方法,其特征在于,所述步驟(5)對于最終情感分析的規(guī)則如下規(guī)則11 :如果句子有情感符、感嘆詞等,將判斷出的最終情感狀態(tài)對應(yīng)的情感值乘上情感符等的程度系數(shù),得到最終的情感值。情感分析結(jié)果表征為“對人/對己,情感狀態(tài),情感程度”。
全文摘要
本發(fā)明提出一種基于公眾漢語網(wǎng)絡(luò)文本的現(xiàn)實(shí)情感分析方法。方法主要包括幾個(gè)步驟第一,對網(wǎng)絡(luò)文本進(jìn)行預(yù)處理,檢測特殊字符,獲得基本語法結(jié)構(gòu)。第二,概念排歧,根據(jù)錯(cuò)別字表,替換與情感有關(guān)的特定的有用詞匯。第三,根據(jù)現(xiàn)實(shí)情感特征詞庫對情感詞進(jìn)行基于規(guī)則的情感值賦值。第四,根據(jù)制定的規(guī)則分析得到情感指向、情感狀態(tài)、情感程度。該分析方法能準(zhǔn)確的分析出公眾漢語網(wǎng)絡(luò)文本的現(xiàn)實(shí)情感信息。
文檔編號G06F17/27GK102999485SQ20121043143
公開日2013年3月27日 申請日期2012年11月2日 優(yōu)先權(quán)日2012年11月2日
發(fā)明者張鈁煒, 陳賢, 陸月明 申請人:北京郵電大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1