亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于情感值的網(wǎng)絡(luò)文本情感分析方法

文檔序號:6547597閱讀:1567來源:國知局
一種基于情感值的網(wǎng)絡(luò)文本情感分析方法
【專利摘要】本發(fā)明涉及一種基于情感值的網(wǎng)絡(luò)文本情感分析方法。本方法的操作步驟如下:第一,對文本進行預處理,段落拆分,標點替換等。第二,句式分析,判斷分段文本中疑問句式和感嘆句式,對情感值進行加權(quán)處理。第三,情感值匹配,根據(jù)預定義好情感值的情感詞典對文本的每一個分段進行情感詞匹配,將情感值帶入。第四,對匹配到的情感詞進行情感賦值,得到分段情感值。第五,情感值計算,將各個分段情感值相結(jié)合計算,得到整句情感值。第六,情感值修正,對每一分段進行情感值處理完畢后,將所有情感值按照一定規(guī)則進行修正。第七,情感傾向分析,得出情感值后根據(jù)情感值進行情感極性分析。該分析方法能比較準確的分析出中文文本的情感信息。
【專利說明】一種基于情感值的網(wǎng)絡(luò)文本情感分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理、數(shù)據(jù)挖掘領(lǐng)域和語言學,尤其涉及一種基于情感值的網(wǎng)絡(luò)文本情感分析方法。
【背景技術(shù)】
[0002]目前,文本傾向性分析技術(shù)正逐漸被應用到許多的領(lǐng)域中。例如,微軟公司開發(fā)的商業(yè)智能系統(tǒng)Pulse,它能夠從大量的評論文本數(shù)據(jù)中,利用文本聚類技術(shù)提取出用戶對產(chǎn)品細節(jié)的看法;產(chǎn)品評論挖掘系統(tǒng)Opinion Observer,利用網(wǎng)絡(luò)上豐富的顧客評論資源,對評論的主觀內(nèi)容進行分析處理,提取產(chǎn)品各個特征及消費者對其的評價并給出一個可視化結(jié)果。
[0003]國內(nèi)針對漢語網(wǎng)絡(luò)文本的情感分析主要集中在情感傾向性分析,一般分為褒義、貶義和中性三種,還包括傾向性的強烈程度,包括:主觀性分類(subjectivityclassification),情感極性(polarity 或者 valence),語義傾向(semantic orientation),觀點挖掘(opinion mining),觀點抽取(opinion extractive),情感分析(sentimentanalysis),情感摘要(sentiment summarization)等。
[0004]情感分析,也被稱為觀點挖掘、觀點分析、主客觀分析等。情感分析的目的是從文本中挖掘用戶表達的觀點以及情感極性。挖掘用戶觀點意義重大,既能吸引潛在用戶,幫助用戶做決策,又能得到產(chǎn)品反饋,還能對政治選舉等重大事件進行預測。除此以外,情感分析的技術(shù)還有助于自然語言處理領(lǐng)域其他研究方面的發(fā)展,例如,自動文本摘要以及問答系統(tǒng)等。在情感分析方面,主要使用的技術(shù)分兩大類:一類是采用情感詞典與規(guī)則相結(jié)合的方法,根據(jù)文本中所包含的正向情感詞和負向情感詞的個數(shù)來進行情感分類;另一類是采用機器學習的方法,選擇文本中的一些特征,標注訓練集和測試集,使用樸素貝葉斯(NaiveBayes)、最大熵(Max Entropy)、支持向量機(Support Vector Machine)等分類器來進行情感分類。
[0005]所謂詞匯的情感傾向,即對于詞匯的褒貶程度計算出一個度量值。為了便于統(tǒng)計和比較,目前比較常用的做法是將度量值規(guī)定為位于±1之間的實數(shù)。當度量值高于某閾值時,判別為褒義傾向;反之,則判為貶義傾向。研究顯示:大多數(shù)的形容詞和副詞,以及一部分的名詞和副詞都具有語義傾向性。而詞匯作為語言學的一個基本語義單位,其情感傾向的判別對更大語言粒度的情感傾向性分析有著非常重要的作用。國內(nèi)關(guān)于漢語詞匯、短語的情感傾向研究主要分兩類方法:基于統(tǒng)計方法和基于語義詞典的方法。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的是針對已有技術(shù)存在的不足,提供一種基于情感值的網(wǎng)絡(luò)文本情感分析方法對中文文本進行情感分析,能準確的分析得到文本的情感傾向性以及情感程度(情感值)。根據(jù)上述發(fā)明的目的,本發(fā)明的構(gòu)思是:
本發(fā)明的基于情感值的網(wǎng)絡(luò)文本情感分析方法采用的是情感詞典與規(guī)則相結(jié)合的方法,這種方法的優(yōu)勢是對語法句法敏感,更容易表現(xiàn)出語言的細微之處。另外采用權(quán)威的情感值詞典和權(quán)值詞典,情感分析的結(jié)果更加準確。情感分析結(jié)果是一種情感傾向和情感程度,一篇文本或者一段話是正面、中性或者負面情感,情感值(情感程度)是多少。
[0007]根據(jù)上述發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案:
一種基于情感值的網(wǎng)絡(luò)文本情感分析方法,其特征在于分析步驟如下:
(I)文本預處理:主要是對標點符號進行處理以及句子分段。
[0008](2)句式分析:判斷分段文本中疑問句式和感嘆句式,對情感值進行加權(quán)處理。
[0009](3)情感詞匹配:對各個分段逐個進行分析,匹配情感值詞典,將未匹配到的單詞當作中性詞語處理。
[0010](4)情感詞賦值:對匹配到的情感詞進行情感賦值,并進行連接,得到分段情感值。
[0011](5)情感值計算:將各個分段情感值相結(jié)合計算,得到整句情感值。
[0012](6)情感值修正:對整個文本根據(jù)文本長度進行情感值修正。
[0013](7)情感傾向判斷:根據(jù)情感值區(qū)間對情感傾向進行判斷,包括正面、中性和負面。
[0014]本發(fā)明與已有技術(shù)相比較,具有如下顯而易見的突出實質(zhì)性特點和顯著的技術(shù)進步:針對中文文本,提出一種基于情感值詞典的文本情感分析方法,對于細致的情感計算以及情感傾向性分析,在文本分析準確率和分析結(jié)果的參考價值上都有顯著的提升,對于信息挖掘也有相當大的現(xiàn)實意義。
【專利附圖】

【附圖說明】
[0015]附圖1為本發(fā)明基于情感值的文本情感分析方法流程圖。
[0016]附圖2為本發(fā)明情感值匹配流程圖 附圖3為本發(fā)明句式分析流程圖。
【具體實施方式】
[0017]本發(fā)明的優(yōu)選實施例結(jié)合附圖詳述如下:
實施例一:
參見圖1,本基于情感值的網(wǎng)絡(luò)文本情感分析方法,其特征在于分析步驟如下:
(1)文本預處理:主要是對標點符號進行處理以及句子分段;
(2)句式分析:判斷分段文本中疑問句式和感嘆句式,對情感值進行加權(quán)處理;
(3)情感詞匹配:對各個分段逐個進行分析,匹配情感值詞典,將未匹配到的單詞當作中性詞語處理;
(4)情感詞賦值:對匹配到的情感詞進行情感賦值,并進行連接,得到分段情感值;
(5)情感值計算:將各個分段情感值相結(jié)合計算,得到整句情感值;
(6)情感值修正:對整個文本根據(jù)文本長度進行情感值修正;
(7)情感傾向判斷:根據(jù)情感值區(qū)間對情感傾向進行判斷,包括正面、中性和負面。
[0018]實施例二:本實施例與實施例一基本相同,特別之處如下:
參見圖2和圖3,所述: 步驟(I)文本預處理規(guī)則要求:對文本進行基本處理,包括句子按標點符號分段,特征分段提取,標點符號識別分類。
[0019]步驟(2)句式分析規(guī)則要求:分析步驟(I)中對句子的標點符號識別,根據(jù)句式列表,對整個分段情感值進行加權(quán)處理;其中,加權(quán)的權(quán)值從句式權(quán)值表中取出。
[0020]步驟(3)情感詞匹配規(guī)則要求:匹配情感值詞典規(guī)則如下:
匹配規(guī)則1:定義不同的情感值詞典,其中包括以下四種類型情感詞典:權(quán)值詞典weight,負面詞詞典negative,程度詞詞典degree,姓氏詞典family name ;
匹配規(guī)則2:以weight詞典為主,negative、degree和family name作為輔助詞典對詞語進行情感值匹配;對weight的匹配擁有最高優(yōu)先級,其次為negative和degree詞典;family name詞典為特殊用途,在匹配weight詞典之后進行姓名排除;
匹配規(guī)則3:將所有匹配到的結(jié)果存儲,并按順序存儲下來,作為中間結(jié)果;
匹配規(guī)則4:對上述中間結(jié)果進行處理,分析所有可能的句式結(jié)果,選取最優(yōu)結(jié)果;選取最優(yōu)結(jié)果的方法為挑選最佳句式匹配的方法,對于句式相近的多結(jié)果匹配則根據(jù)程度詞和情感詞之間的距離判斷,距離小的一種句式作為結(jié)果;
匹配規(guī)則5:利用weight、negative和degree中的情感值和權(quán)重,進行情感值計算。
[0021]步驟(4)情感詞賦值規(guī)則要求如下:
a)根據(jù)步驟(3)得出的情感值匹配結(jié)果,對分段的情感詞賦值;其中賦值包括情感值賦值和權(quán)重值賦值;
b)按照特定的句法進行整合:根據(jù)中文句法構(gòu)成,分析句子的組成結(jié)構(gòu),將負面詞語、權(quán)重詞語以及情感詞語進行排列以便進行情感值計算。
[0022]步驟(5)情感值計算規(guī)則要求:不同分段之間的情感值按照加法進行統(tǒng)一計算。
[0023]步驟(6)情感值修正規(guī)則要求:計算方法:按照字數(shù)進行加權(quán)平均,以使整個情感值處于一個相對平穩(wěn)的區(qū)間內(nèi),避免過高或者過低這種不適宜的值出現(xiàn)。
[0024]步驟(7)情感傾向判斷規(guī)則要求:于結(jié)果傾向性分析,以情感值區(qū)間劃分:低于-2為負面文本,高于2為正面文本,-2和2之間為中性文本;情感值區(qū)間根據(jù)目標文本領(lǐng)域進行適當調(diào)整。
[0025]實施例三:
參見圖f圖3,本基于情感值的網(wǎng)絡(luò)文本情感分析方法的具體操作步驟如下:
步驟(I)文本預處理:對標點符號進行處理以及句子分段?,F(xiàn)今的大多數(shù)中文文本,尤其是微博、論壇的文本,都含有大量的標點符號和表情符號。這些符號大多伴隨在一段話之后,用來表不情感,由于符號表情復雜多樣且不規(guī)則,同時一個表情又可以表達多種情感,不適宜作為參考。一部分文本中存在多個符號重疊的現(xiàn)象,這些文本和發(fā)表文本的用戶使用習慣有關(guān),也是千差萬別,都需要進行統(tǒng)一的規(guī)格化。規(guī)則如下:
1)對整句進行預處理,根據(jù)定義好的終結(jié)詞表stoplist(終結(jié)詞表就是部分情感詞的非情感詞集合),將所有終結(jié)詞識別出來并替換為統(tǒng)一字符“O” ;
2)對整句進行分段,一般為按標點符號(括號和書名號除外)隔開,同時保留每個分段結(jié)尾的標點符號,供步驟(4)使用;
3)將每個分段連同其結(jié)尾標點符號保存起來,以此作為文本預處理最終結(jié)果。
[0026]步驟(2)句式分析:判斷分段文本中疑問句式和感嘆句式,對情感值進行加權(quán)處理。。在進行情感值計算之前的文本預處理結(jié)果對計算結(jié)果影響較大,所以對分段和標點處理方法的選擇比較重要。本發(fā)明所采用的方法是:
根據(jù)漢語特征,通常一句話都會有特定的語法特定的句法,定義一個規(guī)則來為特殊情感句式加權(quán)。得到分段結(jié)果之后,就要對每個分段進行處理,針對每一段,進行如下步驟的處理操作:
a)判斷是否含有疑問句式,如“難道……嗎”;
b)判斷是否含有感嘆句式,如“……啊”;
c)判斷分段結(jié)尾標點符號,是否為“?”和“ ! ”,并斷定句式;
d)為整段情感值附加權(quán)值,暫不參與運算,待句式分析計算完畢后再進行加權(quán)計算。
[0027]本發(fā)明對于疑問句式采用以枚舉為主的方法,同時以關(guān)鍵字“不,是否,?”作為最關(guān)鍵的處理對象。首先判斷句子中是否有“不”字,如果有則獲得“不”字所在的位置,然后依次向后尋找是否有“不……不……”的句式,對于這樣的句式不會對情感的傾向性產(chǎn)生影響因此對情感值不加權(quán),否則判斷為反向情感,情感值取反,如果有“不……嗎”這樣的疑問句式,則加權(quán)提升情感值的絕對值大小。其次判斷句子中是否含有“是否”,同樣地,這個關(guān)鍵字不會影響情感傾向,只做輕微加權(quán)提升情感值。之后處理疑問句最重要的一步是對各種特殊疑問句式的處理,因為疑問句一般以“? ”結(jié)尾,因此首先判斷是否含有“?”,然后判斷是否還有以下樣式的疑問句式,然后加權(quán)處理,見下表:
【權(quán)利要求】
1.一種基于情感值的網(wǎng)絡(luò)文本情感分析方法,其特征在于分析步驟如下: (1)文本預處理:主要是對標點符號進行處理以及句子分段; (2)句式分析:判斷分段文本中疑問句式和感嘆句式,對情感值進行加權(quán)處理; (3)情感詞匹配:對各個分段逐個進行分析,匹配情感值詞典,將未匹配到的單詞當作中性詞語處理; (4)情感詞賦值:對匹配到的情感詞進行情感賦值,并進行連接,得到分段情感值; (5)情感值計算:將各個分段情感值相結(jié)合計算,得到整句情感值; (6)情感值修正:對整個文本根據(jù)文本長度進行情感值修正; (7)情感傾向判斷:根據(jù)情感值區(qū)間對情感傾向進行判斷,包括正面、中性和負面。
2.根據(jù)權(quán)利要求1所述基于情感值的網(wǎng)絡(luò)文本情感分析方法,其特征在于:所述步驟(I)文本預處理規(guī)則要求:對文本進行基本處理,包括句子按標點符號分段,特征分段提取,標點符號識別分類。
3.根據(jù)權(quán)利要求1所述基于情感值的網(wǎng)絡(luò)文本情感分析方法,其特征在于:所述步驟(2)句式分析規(guī)則要求:分析步驟(1)中對句子的標點符號識別,根據(jù)句式列表,對整個分段情感值進行加權(quán)處理;其中,加權(quán)的權(quán)值從句式權(quán)值表中取出。
4.根據(jù)權(quán)利要求1所述基于情感值的網(wǎng)絡(luò)文本情感分析方法,其特征在于:所述步驟(3)情感詞匹配規(guī)則要求:匹配情感值詞典規(guī)則如下: 匹配規(guī)則1:定義不同的情感值詞典,其中包括以下四種類型情感詞典:權(quán)值詞典weight,負面詞詞典negative,程度詞詞典degree,姓氏詞典family name ; 匹配規(guī)則2:以weight詞典為主,negative、degree和family name作為輔助詞典對詞語進行情感值匹配;對weight的匹配擁有最高優(yōu)先級,其次為negative和degree詞典;family name詞典為特殊用途,在匹配weight詞典之后進行姓名排除; 匹配規(guī)則3:將所有匹配到的結(jié)果存儲,并按順序存儲下來,作為中間結(jié)果; 匹配規(guī)則4:對上述中間結(jié)果進行處理,分析所有可能的句式結(jié)果,選取最優(yōu)結(jié)果;選取最優(yōu)結(jié)果的方法為挑選最佳句式匹配的方法,對于句式相近的多結(jié)果匹配則根據(jù)程度詞和情感詞之間的距離判斷,距離小的一種句式作為結(jié)果; 匹配規(guī)則5:利用weight、negative和degree中的情感值和權(quán)重,進行情感值計算。
5.根據(jù)權(quán)利要求1所述基于情感值的網(wǎng)絡(luò)文本情感分析方法,其特征在于:所述步驟(4)情感詞賦值規(guī)則要求如下: a)根據(jù)步驟(3)得出的情感值匹配結(jié)果,對分段的情感詞賦值;其中賦值包括情感值賦值和權(quán)重值賦值; b)按照特定的句法進行整合:根據(jù)中文句法構(gòu)成,分析句子的組成結(jié)構(gòu),將負面詞語、權(quán)重詞語以及情感詞語進行排列以便進行情感值計算。
6.根據(jù)權(quán)利要求1所述方法,其特征在于:所述步驟(5)情感值計算規(guī)則要求:不同分段之間的情感值按照加法進行統(tǒng)一計算。
7.根據(jù)權(quán)利要求1所述基于情感值的網(wǎng)絡(luò)文本情感分析方法,其特征在于:所述步驟(6)情感值修正規(guī)則要求:計算方法:按照字數(shù)進行加權(quán)平均,以使整個情感值處于一個相對平穩(wěn)的區(qū)間內(nèi),避免過高或者過低這種不適宜的值出現(xiàn)。
8.根據(jù)權(quán)利要求1所述基于情感值的網(wǎng)絡(luò)文本情感分析方法,其特征在于:所述步驟(7)情感傾向判斷規(guī)則要求:于結(jié)果傾向性分析,以情感值區(qū)間劃分:低于-2為負面文本,高于2為正面 文本,-2和2之間為中性文本;情感值區(qū)間根據(jù)目標文本領(lǐng)域進行適當調(diào)整。
【文檔編號】G06F17/27GK104008091SQ201410224628
【公開日】2014年8月27日 申請日期:2014年5月26日 優(yōu)先權(quán)日:2014年5月26日
【發(fā)明者】武星, 卓少劍 申請人:上海大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1