一種中文文本情感識別方法
【專利摘要】本發(fā)明公開了一種中文文本情感識別方法。本方法為:1)分別構(gòu)建褒貶義詞典、程度詞典、否定詞典;2)對待處理語料文本的句子進(jìn)行分詞處理,得到詞語的依存關(guān)系和詞頻;3)根據(jù)詞頻選取主題詞,將包含主題詞的語句標(biāo)為主題句;4)對句子中的每一詞語,判斷其是否出現(xiàn)在該褒貶義詞典中確定該詞語的情感初值,并根據(jù)詞語的依存關(guān)系確定出該詞語的修飾程度詞語和否定詞語,然后根據(jù)修飾程度詞語在程度詞典的取值確定該詞語的權(quán)重、根據(jù)否定詞語數(shù)目確定極性,得到該詞語的情感值;然后對該句子所有詞語的情感值求和得到該句子的情感值;5)將該文本中的所有句子的情感值進(jìn)行求和,得到該文本的情感狀態(tài)。本發(fā)明大大提高文章情感識別的準(zhǔn)確率。
【專利說明】一種中文文本情感識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于信息【技術(shù)領(lǐng)域】,涉及一種文本情感分析的方法,主要應(yīng)用于自然語言處理、數(shù)據(jù)挖掘、信息檢索等領(lǐng)域。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的迅猛發(fā)展,用戶數(shù)目的急劇增加,越來越多的用戶樂于在網(wǎng)上分享自己對某事件或產(chǎn)品等的觀點(diǎn)或者評價,因此網(wǎng)絡(luò)之中涌現(xiàn)了大量帶有主觀情感的信息,獲取信息中的觀點(diǎn)并加以分析利用以及及時監(jiān)控網(wǎng)絡(luò)輿情成為最近的研究重點(diǎn)。對于互聯(lián)網(wǎng)中海量的中文文本信息,單純依靠人工處理的方法已經(jīng)無法達(dá)到要求也難以做到及時響應(yīng),迫切需要計(jì)算機(jī)來實(shí)現(xiàn)快速獲取和分析處理信息,情感分析技術(shù)應(yīng)運(yùn)而生。
[0003]當(dāng)前情感分析也取得了很大的發(fā)展,按照處理文本的粒度的不同分為詞語級、語句級和篇章級,按照處理文本的類別不同可分為基于新聞評論的情感分析和基于產(chǎn)品評論的情感分析。Wiebe和Bruce將某些詞類(如代詞、形容詞等)、標(biāo)點(diǎn)和句子的位置關(guān)系作為特征值,設(shè)計(jì)了針對句子級別的Na+ive Bayes分類器。Wiebe在上述基礎(chǔ)之上又將某些詞性和基于詞典語義項(xiàng)作為特征項(xiàng),顯著提高了分類器的分類效果。A.Hassan和D.Radev提出了基于馬爾科夫隨機(jī)游走模型的情感詞分析方法,首先構(gòu)建種子集合,通過語義相似構(gòu)建候選詞和種子詞網(wǎng)絡(luò),然后通過模型判斷候選詞的情感極性。該方法融合了詞匯之間的語義關(guān)系,但是需要構(gòu)建種子詞的集合,并且依賴語義資源。董喜雙等人使用HowNet擴(kuò)展同義詞作為特征,借助最大熵模型來預(yù)測候選詞情感極性,然后采用最小割模型來優(yōu)化極性判定結(jié)果,由于最小割解的不唯一性,難以確定最優(yōu)解。盡管當(dāng)前研究取得了較大的成果,由于中文詞語詞義的多樣性以及起步較晚的特點(diǎn),中文情感分析還存在很大的不足。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提出了一種文本情感識別方法,用于解決當(dāng)前中文文本情感分析準(zhǔn)確率不高的問題。通過計(jì)算文章的情感權(quán)值來判斷情感極性,若情感值>0,則文章反映的是正向的情感;若情感值〈O,則為負(fù)向的情感;若情感值=0,則為中立客觀的情感。
[0005]本發(fā)明的技術(shù)方案為:
[0006]一種中文文本情感識別方法,其步驟為:
[0007]I)分別構(gòu)建包含正向詞語和負(fù)向詞語的褒貶義詞典,構(gòu)建修飾程度詞語的程度詞典,構(gòu)建用于確定否定詞語的否定詞典;
[0008]2)利用語法分析工具對待處理語料文本的句子進(jìn)行分詞處理,得到詞語的依存關(guān)系并統(tǒng)計(jì)每個詞語的詞頻;
[0009]3)根據(jù)詞頻對分詞所得詞語排序,選取指定數(shù)目的詞語作為主題詞,將包含主題詞的語句標(biāo)為主題句;
[0010]4)對句子中的每一詞語,判斷其是否出現(xiàn)在該褒貶義詞典中確定該詞語的情感初值,并根據(jù)詞語的依存關(guān)系確定出該詞語的修飾程度詞語和否定詞語,然后根據(jù)確定出的修飾程度詞語在所述程度詞典的取值確定該詞語的權(quán)重系數(shù)、根據(jù)確定出的否定詞語數(shù)目確定該詞語的極性,從而得到該詞語的情感值;然后對該句子所有詞語的情感值求和得到該句子的情感值;
[0011]5)將該待處理語料文本中的所有句子的情感值進(jìn)行求和,得到該待處理語料文本的情感狀態(tài)。
[0012]進(jìn)一步的,對該待處理語料文本中的每一句子,根據(jù)其在文中的位置賦予一權(quán)值系數(shù),將每一句子的情感權(quán)值與對應(yīng)的權(quán)值系數(shù)相乘,然后求和得到該待處理語料文本的情感狀態(tài)。
[0013]進(jìn)一步的,句子中的每個詞語根據(jù)其在句子中的位置設(shè)置該詞語的位置系數(shù),如果該句子中詞語的數(shù)目為L,則該句子中第一個詞語和最后一個詞語的位置系數(shù)為2/L,中間的詞語為1/L ;將詞語的位置系數(shù)與該詞語的當(dāng)前權(quán)重系數(shù)之和作為該詞語新的權(quán)重系數(shù)。
[0014]進(jìn)一步的,標(biāo)題句的權(quán)值系數(shù) > 尾段中句子的權(quán)值系數(shù) > 首段中句子的權(quán)值系數(shù)>中間段中句子的權(quán)值系數(shù)。
[0015]進(jìn)一步的,計(jì)算每個主題句與標(biāo)題句的相似度,如果相似度大于設(shè)定閾值,則增加該句子的權(quán)值系數(shù)。
[0016]進(jìn)一步的,計(jì)算所述相似度的公式為:
【權(quán)利要求】
1.一種中文文本情感識別方法,其步驟為: 1)分別構(gòu)建包含正向詞語和負(fù)向詞語的褒貶義詞典,構(gòu)建修飾程度詞語的程度詞典,構(gòu)建用于確定否定詞語的否定詞典; 2)利用語法分析工具對待處理語料文本的句子進(jìn)行分詞處理,得到詞語的依存關(guān)系并統(tǒng)計(jì)每個詞語的詞頻; 3)根據(jù)詞頻對分詞所得詞語排序,選取指定數(shù)目的詞語作為主題詞,將包含主題詞的語句標(biāo)為主題句; 4)對句子中的每一詞語,判斷其是否出現(xiàn)在該褒貶義詞典中確定該詞語的情感初值,并根據(jù)詞語的依存關(guān)系確定出該詞語的修飾程度詞語和否定詞語,然后根據(jù)確定出的修飾程度詞語在所述程度詞典的取值確定該詞語的權(quán)重系數(shù)、根據(jù)確定出的否定詞語數(shù)目確定該詞語的極性,從而得到該詞語的情感值;然后對該句子所有詞語的情感值求和得到該句子的情感值; 5)將該待處理語料文本中的所有句子的情感值進(jìn)行求和,得到該待處理語料文本的情感狀態(tài)。
2.如權(quán)利要求1所述的方法,其特征在于對該待處理語料文本中的每一句子,根據(jù)其在文中的位置賦予一權(quán)值系數(shù),將每一句子的情感權(quán)值與對應(yīng)的權(quán)值系數(shù)相乘,然后求和得到該待處理語料文本的情感狀態(tài)。
3.如權(quán)利要求2所述的方法,其特征在于句子中的每個詞語根據(jù)其在句子中的位置設(shè)置該詞語的位置系數(shù),如果該句子中詞語的數(shù)目為L,則該句子中第一個詞語和最后一個詞語的位置系數(shù)為2/L,中間的詞語為1/L ;將詞語的位置系數(shù)與該詞語的當(dāng)前權(quán)重系數(shù)之和作為該詞語新的權(quán)重系數(shù)。
4.如權(quán)利要求2所述的方法,其特征在于標(biāo)題句的權(quán)值系數(shù)> 尾段中句子的權(quán)值系數(shù)>首段中句子的權(quán)值系數(shù) > 中間段中句子的權(quán)值系數(shù)。
5.如權(quán)利要求1或2或3或4所述的方法,其特征在于計(jì)算每個主題句與標(biāo)題句的相似度,如果相似度大于設(shè)定閾值,則增加該句子的權(quán)值系數(shù)。
6.如權(quán)利要求5所述的方法,其特征在于計(jì)算所述相似度的公式為:
7.如權(quán)利要求1所述的方法,其特征在于利用語法分析工具識別每一句是否為感嘆句,如果句子為感嘆句,則增加該句子的權(quán)值系數(shù)。
8.如權(quán)利要求1所述的方法,其特征在于所述程度詞典包括修飾程度為極度、高度、中度和低度的修飾程度詞語,每一級的修飾程度詞語對應(yīng)一權(quán)重系數(shù)。
【文檔編號】G06F17/27GK103678278SQ201310690318
【公開日】2014年3月26日 申請日期:2013年12月16日 優(yōu)先權(quán)日:2013年12月16日
【發(fā)明者】崔現(xiàn)鵬, 汪海燕, 黎建輝, 崔建業(yè) 申請人:中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心