亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種細(xì)粒度文本情感分析方法

文檔序號(hào):6545266閱讀:369來源:國知局
一種細(xì)粒度文本情感分析方法
【專利摘要】本發(fā)明公開了一種細(xì)粒度文本情感分析方法,步驟一:構(gòu)建細(xì)粒度情感詞典;步驟二:語句結(jié)構(gòu)關(guān)系判斷;步驟三:簡(jiǎn)單句的情感值評(píng)定。本發(fā)明可以提取出文本所包含的更多的用戶情感相關(guān)信息,能更好的刻畫用戶內(nèi)心的感受,用于支撐相關(guān)的應(yīng)用研究,例如基于健康的用戶情緒狀態(tài)及變化情況分析。
【專利說明】一種細(xì)粒度文本情感分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于英文文本情感分析【技術(shù)領(lǐng)域】,涉及一種細(xì)粒度文本情感分析方法,具體地說,涉及一種針對(duì)評(píng)論文本的細(xì)粒度情感分析方法。
【背景技術(shù)】
[0002]人類的情感是復(fù)雜而又多方面的。由于情感的復(fù)雜性和與其他外部事物的關(guān)系,它屬于心理學(xué)中最具挑戰(zhàn)性的現(xiàn)象。了解一個(gè)人的當(dāng)前的情緒的傳統(tǒng)方式有多種:如可以咨詢其主觀感受,觀察其臉部表情或行為上的變化,以及其生理變化。事實(shí)上,一個(gè)人的情緒是復(fù)雜的,并不能被直接測(cè)量,僅能通過它們的外在表現(xiàn)形式來識(shí)別,如此就催生出各種用于識(shí)別人類情感的方法。在一般情況下,最常見的識(shí)別一個(gè)人的情緒反應(yīng)的方法大致可以分為三類:(I)自我報(bào)告,(2)生理學(xué)方法,(3)行為觀察。
[0003]基于傳統(tǒng)方法監(jiān)測(cè)個(gè)人的情緒狀態(tài)需要大量的人力和物力,難以獲得大量用戶長時(shí)間的情緒相關(guān)數(shù)據(jù)。隨著在線社交網(wǎng)絡(luò)的不斷發(fā)展,其擁有的用戶數(shù)量不斷增大,人們開始習(xí)慣經(jīng)常將自己的所見所感分享給線上好友,由此研究者可以通過社交網(wǎng)站的API獲取大量用戶情緒相關(guān)數(shù)據(jù),基于文本情感分析技術(shù)抽取出用戶的情緒狀態(tài)。
[0004]文本情感分析是一個(gè)新興的研究課題,具有很大的研究價(jià)值和應(yīng)用價(jià)值。專利200910219161.9根據(jù)不同主題文本的語言表達(dá)方式估計(jì)主題語言模型,計(jì)算待處理文本的語言模型與正負(fù)情感模型的距離,選取距離最近的情感模型的情感傾向賦予該文本。專利200910083522.1根據(jù)訓(xùn)練文本的標(biāo)簽確定測(cè)試文本的初始情感分,基于圖排序算法利用所述測(cè)試文本的初始情感分迭代計(jì)算所述測(cè)試文本的情感分并進(jìn)行歸一化,以解決跨領(lǐng)域的文本情感傾向性分析問題。專利201210088366.X基于正負(fù)情感詞典判斷所有包含主題詞的句子的極性,計(jì)算結(jié)果集合中正面句子極性之和及負(fù)面句子極性之和,從而得出整條微博的情感傾向性。專利201310000734.5通過構(gòu)造一種具有Two-Level (雙層)結(jié)構(gòu)的DCRF模型實(shí)現(xiàn)了實(shí)體級(jí)別的情感傾向性判斷,專利201310036034.1利用對(duì)象屬性與情感詞之間的關(guān)聯(lián)信息以及情感詞與修飾詞之間的關(guān)系實(shí)現(xiàn)細(xì)粒度情感強(qiáng)度量化的統(tǒng)計(jì)和計(jì)算。
[0005]目前已有的情感分析技術(shù)主要將文本包含的用戶情感分為兩類:正向和負(fù)向,在情感類別的劃分方面屬于粗粒度的文本情感分析,丟失了大量用戶情感相關(guān)信息。為了充分獲得用戶評(píng)論所含信息,更好的刻畫用戶的感受,本發(fā)明對(duì)評(píng)論文本做進(jìn)一步的細(xì)粒度情感分析,即將正負(fù)面傾向分別進(jìn)一步劃分,例如負(fù)面情緒可以是生氣,也可以是悲傷等。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的在于克服上述技術(shù)存在的缺陷,提供一種細(xì)粒度文本情感分析方法,該方法可以更加充分獲得用戶評(píng)論所含情感信息,可更好的支撐相關(guān)的應(yīng)用研究,例如基于健康的用戶情緒狀態(tài)及變化情況分析。
[0007]其具體技術(shù)方案為:
[0008]步驟一:構(gòu)建細(xì)粒度情感詞典[0009]選取國際級(jí)公認(rèn)的基準(zhǔn)情感分類作為細(xì)粒度情感分類,并將基準(zhǔn)情感詞作為各類別的種子情感詞,通過wordNet (由Princeton大學(xué)的心理學(xué)家,語言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一種基于認(rèn)知語言學(xué)的英語詞典)查找其同義詞集合,并放入對(duì)應(yīng)的類別,完成細(xì)粒度情感詞典的第一步擴(kuò)建;
[0010]wordNet將單詞分為四類:名詞、動(dòng)詞、副詞和形容詞;由基準(zhǔn)情感詞擴(kuò)展得到的名詞性情感集合,并按照相同的方式根據(jù)基準(zhǔn)情感詞的形容詞、動(dòng)詞和副詞形式,分別構(gòu)建成其形容詞、動(dòng)詞和副詞形式的情感集合;同類別的情感集合,除了詞性的差異之外,并不影響情感值的計(jì)算,則將一個(gè)類別下的情感集合視為一個(gè)大類,從而完成細(xì)粒度情感詞典的第二步擴(kuò)建;
[0011]至此,構(gòu)建的細(xì)粒度情感詞典還無法覆蓋大部分的情感詞匯;將其余情感詞如何歸類到細(xì)粒度情感類別的問題,轉(zhuǎn)換為分析其與基準(zhǔn)情感詞在概念層次上基于常識(shí)的相似性,并將其分配到相似性最高的基準(zhǔn)情感詞所代表的情感類別中;最后分析歸類結(jié)果,并完善可能存在的缺陷;至此完成細(xì)粒度情感詞典的擴(kuò)建;
[0012]步驟二:語句結(jié)構(gòu)關(guān)系判斷
[0013]判斷語句中是否有連詞,如果有,則表示該句為復(fù)合句,根據(jù)句間關(guān)系規(guī)則獲得該連詞表示的語句結(jié)構(gòu)關(guān)系及語句情感值的計(jì)算規(guī)則;如果沒有,則該語句是簡(jiǎn)單句;
[0014]步驟三:簡(jiǎn)單句的情感值評(píng)定
[0015]如果是復(fù)合句,則拆分為兩個(gè)分句進(jìn)行處理;如果為簡(jiǎn)單句,則直接計(jì)算其情感值;現(xiàn)在,考慮簡(jiǎn)單句的情感值評(píng)定方法,評(píng)論情感計(jì)算要考慮主題詞相關(guān)性,與主題詞無關(guān)的情感詞會(huì)給情感計(jì)算帶來干擾;而主題主要通過語句的主題(主語和賓語)體現(xiàn),則只需考慮與主題相關(guān)的名詞性和形容詞性情感特征詞;根據(jù)句子結(jié)構(gòu)、依賴關(guān)系、情感詞褒貶度及相關(guān)副詞修飾強(qiáng)度,計(jì)算出簡(jiǎn)單句的情感值;
[0016]對(duì)于評(píng)論文本經(jīng)常出現(xiàn)的不完整短句,利用單詞詞性,提高依賴關(guān)系判斷的準(zhǔn)確性;當(dāng)情感詞前的修飾短語過長時(shí),將句子結(jié)構(gòu)、單詞詞性及依賴關(guān)系結(jié)合起來,具體算法如下:先探測(cè)依賴關(guān)系,找出主題詞,進(jìn)而找出依附于主題詞的修飾關(guān)系,根據(jù)句子結(jié)構(gòu)分析的結(jié)果得到主題詞與其修飾短語構(gòu)成的名詞性短語,然后分析此名詞性短語的結(jié)構(gòu)和修飾短語所包含的詞的詞性,得出正確的修飾關(guān)系;
[0017]步驟四:評(píng)論文本細(xì)粒度情感計(jì)算
[0018]結(jié)合句型和句間關(guān)系獲得語句情感值;所有語句的情感之和為評(píng)論文本的整體情感值。
[0019]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:可以提取出文本所包含的更多的用戶情感相關(guān)信息,能更好的刻畫用戶內(nèi)心的感受,用于支撐相關(guān)的應(yīng)用研究,例如基于健康的用戶情緒狀態(tài)及變化情況分析。
【專利附圖】

【附圖說明】
[0020]圖1為本發(fā)明的細(xì)粒度情感詞典構(gòu)建方法流程圖;
[0021]圖2為本發(fā)明的文本細(xì)粒度情感分析方法流程圖;
[0022]圖3為本發(fā)明實(shí)例中的例句句子結(jié)構(gòu)圖?!揪唧w實(shí)施方式】
[0023]下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步詳細(xì)地說明。
[0024]本發(fā)明的細(xì)粒度情感詞典構(gòu)建方法實(shí)現(xiàn)流程如圖1所示,詳細(xì)步驟如下:
[0025]步驟101:設(shè)定基準(zhǔn)情感類別及種子情感詞。
[0026]迄今為止,心理學(xué)界對(duì)情感的劃分還沒有一個(gè)公認(rèn)的標(biāo)準(zhǔn),本發(fā)明以學(xué)者Ekman的著名6基準(zhǔn)情感為例,具體包括:happiness (高興),sadness (悲傷),anger (生氣),fear (恐懼),surprise (驚喜)and disgust (厭惡)。首先根據(jù)將6基準(zhǔn)情感詞作為各類別的種子情感詞,通過wordNet查找其同義詞集合,并放入對(duì)應(yīng)的類別,完成細(xì)粒度情感詞典的第一步擴(kuò)建。
[0027]步驟102:根據(jù)同義詞擴(kuò)展情感詞典。
[0028]wordNet將單詞分為四類:名詞、動(dòng)詞、副詞和形容詞。我們已經(jīng)得到由6基準(zhǔn)情感詞擴(kuò)展得到的名詞性情感集合,將按照相同的方式根據(jù)6基準(zhǔn)情感詞的形容詞、動(dòng)詞和副詞形式,分別構(gòu)建成其形容詞、動(dòng)詞和副詞形式的情感集合。例如,“joy(歡樂)”和“joyful (快樂)”都屬于“happiness (高興)”情感類別,但分屬于兩個(gè)情感集合,joy屬于名詞性集合,ioyful屬于形容詞性集合。同類別的情感集合,除了詞性的差異之外,并不影響情感值的計(jì)算,則本發(fā)明將一個(gè)類別下的情感集合視為一個(gè)大類,從而完成細(xì)粒度情感詞典的第二步擴(kuò)建。
[0029]步驟103:基于通用常識(shí)庫擴(kuò)展情感詞典。
[0030]至此細(xì)粒度情感詞典總共包含1000多個(gè)單詞,這對(duì)于分析文本情感傾向來說明顯不足,還有大量的表達(dá)人們情感的詞未被覆蓋。例如表達(dá)出明顯情感的動(dòng)詞cry (哭),它無法通過前面的情感集合種子詞語同義詞擴(kuò)展的方式,加入到情感詞典?;诔WR(shí)我們通常會(huì)認(rèn)為cry (哭)與sad(悲傷)和angry (生氣)的關(guān)聯(lián)較大,它經(jīng)常表達(dá)出主體悲傷或憤怒的情緒。在對(duì)于cry進(jìn)行細(xì)粒度情感詞分類時(shí),我們將其轉(zhuǎn)換為分析cry(哭)與六個(gè)情感分類所代表的情感在概念層次上基于常識(shí)的相似性,相似性越高,我們認(rèn)為主體想要表達(dá)出該類情感的概率越大,則將cry(哭)加入到該類情感的情感詞典中。計(jì)算情感詞與情感分類在概念層次上基于常識(shí)推理的相似性,通用常識(shí)庫是最佳的選擇,反映情感的常識(shí)性知識(shí)是這些常識(shí)庫中常識(shí)知識(shí)的一個(gè)子集。本發(fā)明利用通用常識(shí)庫計(jì)算情感詞與情感分類基準(zhǔn)詞的相似性,并將其分到相似性最高的情感類別中。
[0031]步驟104:設(shè)定基準(zhǔn)情感類別及種子情感詞。
[0032]至此,構(gòu)建的情感詞典可以覆蓋絕大多數(shù)的情感詞,但是根據(jù)對(duì)結(jié)果矩陣的分析,還存在明顯的缺陷,我們發(fā)現(xiàn)對(duì)于一定數(shù)量的形容詞,雖然對(duì)于其原型與基準(zhǔn)情感詞在概念層次上的相似性結(jié)果基本符合常識(shí),但是其比較級(jí)和最高級(jí)得到的相似度結(jié)果卻都為O。為解決此類問題,我們?yōu)槌S眯稳菰~建立比較級(jí)和最高級(jí)詞表,其比較級(jí)和最高級(jí)繼承與原型相同的類別和相似度。至此完成細(xì)粒度情感詞典的擴(kuò)建。
[0033]本發(fā)明的文本細(xì)粒度情感分析方法實(shí)現(xiàn)流程如圖2所示,詳細(xì)步驟如下:
[0034]步驟201:細(xì)粒度情感詞典的構(gòu)建。
[0035]通過設(shè)定基準(zhǔn)情感類別及種子情感詞、根據(jù)同義詞擴(kuò)展情感詞典、基于通用常識(shí)庫擴(kuò)展情感詞典、基于已建立的情感詞典的缺陷修正等四部分完成情感詞典的構(gòu)建,詳細(xì)步驟參見步驟101?104。[0036]步驟202:語句結(jié)構(gòu)關(guān)系判斷。
[0037]判斷語句中是否有連詞,如果有,則表示該句為復(fù)合句,根據(jù)句間關(guān)系規(guī)則獲得該連詞表示的語句結(jié)構(gòu)關(guān)系及語句情感值的計(jì)算規(guī)則。如果沒有,則該語句是簡(jiǎn)單句。
[0038]一個(gè)英語句子中,經(jīng)常有表達(dá)不同關(guān)系的連詞,例如but (轉(zhuǎn)折)、if (假設(shè))、so (因果)、and(并列)、moreover (遞進(jìn))。不同的連詞會(huì)對(duì)句子的情感產(chǎn)生不同的影響,本發(fā)明應(yīng)用下列規(guī)則進(jìn)行計(jì)算:
[0039](I)句內(nèi)連詞規(guī)則:
[0040]I)基于人們常用的語法習(xí)慣,如果沒有but的話,一般一個(gè)句子表達(dá)一個(gè)傾向。對(duì)于包含表并列、遞進(jìn)關(guān)系的連詞的句子,則應(yīng)用文獻(xiàn)中的規(guī)則賦予不同的權(quán)重。
[0041]例如:The camera takes great pictures and has a long battery life.本句意為:這部相機(jī)照相效果好,電池壽命長。通常,如果我們知道great是正向的,那么long一般也是正向的
[0042](2)句子間連詞規(guī)則:
[0043]I)基于假設(shè),人們?cè)诰渥娱g也經(jīng)常表達(dá)相同的傾向。除非有but(但是),however (然而)等。
[0044]2)對(duì)于包含不同關(guān)系的連詞,我們賦予其引導(dǎo)子句不同的權(quán)重,一般說來遞進(jìn)關(guān)系連詞引導(dǎo)的從句有增強(qiáng)情感傾向的傾向,因果和并列關(guān)系連詞引導(dǎo)的從句情感上的變化不是很大,而假設(shè)關(guān)系連詞引導(dǎo)的從句往往是對(duì)現(xiàn)實(shí)狀況的設(shè)想,其前提條件在語言表達(dá)中起到了更重要的作用,則一般需要弱化假設(shè)句的后半分。對(duì)于其它連詞對(duì)其引導(dǎo)的從句的情感傾向的影響權(quán)重的設(shè)定,本發(fā)明應(yīng)用通用規(guī)則。
[0045]3)對(duì)于其他一般關(guān)系連詞,如表示先后次序連詞first (首先)基本不會(huì)影響其引
導(dǎo)的從句的情感傾向和強(qiáng)度;對(duì)于表時(shí)間的連詞,如when(當(dāng)......時(shí))則不考慮其的情
感傾向。
[0046]表轉(zhuǎn)折關(guān)系的連詞,以but (但是)為例,不管作為句內(nèi)連詞還是句間連詞,其引導(dǎo)的從句對(duì)比前面內(nèi)容有轉(zhuǎn)折語義,但是其情感正負(fù)傾向卻不一定相反,即分析文本情感傾向時(shí),but(但是)引導(dǎo)的從句的情感傾向,不一定與其前面的句子情感傾向相反,經(jīng)分析存在三種情況:與其前面的句子傾向一致、從句沒有明顯情感傾向、與其前面的句子傾向相反。分別舉例如下:
[0047]1、第一種情況:I' m sure the wines are amazing too but I didn/ t regretgetting a pint of the IPA.[0048]句義:我確定那些酒也非常好,但是我不后悔選擇了一品脫的這種飲料。
[0049]2、第二種情況:Cool to see but don/ t get too close.[0050]句義:這看起來很酷但是不要靠得太近。
[0051]3、第三種情況:It' s not that cheap as they say, But good for who arecrazy with brands !
[0052]句義:并沒有他們說的那么便宜。但是對(duì)于酷愛品牌的人來說卻很好。
[0053]對(duì)于以上三種情況的處理規(guī)則:
[0054] 若but(但是)引導(dǎo)的從句,與其前面的短句傾向一致,則其從句有遞進(jìn)的含義,則加重其從句的權(quán)重;若131^(但是)引導(dǎo)的從句沒有明顯情感傾向,可能僅作為說明或提示等,則只考慮其前面句子的情感傾向;Sbut(但是)引導(dǎo)的從句與其前面的從句傾向相反,則發(fā)生情感反轉(zhuǎn),but (但是)前面的分句意思會(huì)弱化,而突出轉(zhuǎn)折后的分句。
[0055]步驟203:簡(jiǎn)單句的情感值評(píng)定。
[0056]在一個(gè)句子中,情感短語的情感傾向和強(qiáng)度由包含的情感詞及依附于其上的修飾成分決定。本發(fā)明利用Stanford Parser (斯坦福的句法分析器),提取句子內(nèi)部各分詞單元間的依賴關(guān)系對(duì)。本發(fā)明所應(yīng)用到的主要關(guān)系對(duì),如表1所示。
[0057]表1主要依賴關(guān)系對(duì)
[0058]
【權(quán)利要求】
1.一種細(xì)粒度文本情感分析方法,其特征在于,包括以下步驟: 步驟一:構(gòu)建細(xì)粒度情感詞典 選取國際級(jí)公認(rèn)的基準(zhǔn)情感分類作為細(xì)粒度情感分類,并將基準(zhǔn)情感詞作為各類別的種子情感詞,通過WordNet查找其同義詞集合,并放入對(duì)應(yīng)的類別,完成細(xì)粒度情感詞典的第一步擴(kuò)建; wordNet將單詞分為四類:名詞、動(dòng)詞、副詞和形容詞;由基準(zhǔn)情感詞擴(kuò)展得到的名詞性情感集合,并按照相同的方式根據(jù)基準(zhǔn)情感詞的形容詞、動(dòng)詞和副詞形式,分別構(gòu)建成其形容詞、動(dòng)詞和副詞形式的情感集合;同類別的情感集合,除了詞性的差異之外,并不影響情感值的計(jì)算,則將一個(gè)類別下的情感集合視為一個(gè)大類,從而完成細(xì)粒度情感詞典的第二步擴(kuò)建; 至此,構(gòu)建的細(xì)粒度情感詞典還無法覆蓋大部分的情感詞匯;將其余情感詞如何歸類到細(xì)粒度情感類別的問題,轉(zhuǎn)換為分析其與基準(zhǔn)情感詞在概念層次上基于常識(shí)的相似性,并將其分配到相似性最高的基準(zhǔn)情感詞所代表的情感類別中;最后分析歸類結(jié)果,并完善可能存在的缺陷;至此完成細(xì)粒度情感詞典的擴(kuò)建; 步驟二:語句結(jié)構(gòu)關(guān)系判斷 判斷語句中是否有連詞,如果有,則表示該句為復(fù)合句,根據(jù)句間關(guān)系規(guī)則獲得該連詞表示的語句結(jié)構(gòu)關(guān)系及語句情感值的計(jì)算規(guī)則;如果沒有,則該語句是簡(jiǎn)單句; 步驟三:簡(jiǎn)單句的情感值評(píng)定 如果是復(fù)合句,則拆分為兩個(gè)分句進(jìn)行處理;如果為簡(jiǎn)單句,則直接計(jì)算其情感值;現(xiàn)在,考慮簡(jiǎn)單句的情感值評(píng)定方法,評(píng)論情感計(jì)算要考慮主題詞相關(guān)性,與主題詞無關(guān)的情感詞會(huì)給情感計(jì)算帶來干擾;而主題主要通過語句的主語和賓語體現(xiàn),則只需考慮與主語和賓語相關(guān)的名詞性和形容詞性情感特征詞;根據(jù)句子結(jié)構(gòu)、依賴關(guān)系、情感詞褒貶度及相關(guān)副詞修飾強(qiáng)度,計(jì)算出簡(jiǎn)單句的情感值; 對(duì)于評(píng)論文本經(jīng)常出現(xiàn)的不完整短句,利用單詞詞性,提高依賴關(guān)系判斷的準(zhǔn)確性;當(dāng)情感詞前的修飾短語過長時(shí),將句子結(jié)構(gòu)、單詞詞性及依賴關(guān)系結(jié)合起來,具體算法如下:先探測(cè)依賴關(guān)系,找出主題詞,進(jìn)而找出依附于主題詞的修飾關(guān)系,根據(jù)句子結(jié)構(gòu)分析的結(jié)果得到主題詞與其修飾短語構(gòu)成的名詞性短語,然后分析此名詞性短語的結(jié)構(gòu)和修飾短語所包含的詞的詞性,得出正確的修飾關(guān)系; 步驟四:評(píng)論文本細(xì)粒度情感計(jì)算 結(jié)合句型和句間關(guān)系獲得語句情感值;所有語句的情感之和為評(píng)論文本的整體情感值。
【文檔編號(hào)】G06F17/27GK103995803SQ201410178056
【公開日】2014年8月20日 申請(qǐng)日期:2014年4月25日 優(yōu)先權(quán)日:2014年4月25日
【發(fā)明者】於志文, 夏云云, 郭斌, 周興社, 王柱 申請(qǐng)人:西北工業(yè)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1