情感分類方法及系統(tǒng)的制作方法【專利摘要】本發(fā)明涉及一種情感分類方法及系統(tǒng)。該分類方法包括:對待測樣本進行數(shù)據(jù)預處理操作,獲得待測樣本的特征詞集合;運用樸素貝葉斯算法對待測樣本的特征詞集合進行運算,生成待測樣本的特征集合所屬類別的概率;運用支持向量機對待測樣本的特征集合所屬類別的概率進行修正,確定待測樣本的分類。本發(fā)明通過構(gòu)建跨文化傳播領(lǐng)域的情感詞典和情感特征詞,更細粒度地分析跨文化傳播視角下的互聯(lián)網(wǎng)用戶情感,提高情感分類的準確率?!緦@f明】情感分類方法及系統(tǒng)
技術(shù)領(lǐng)域:
[0001]本發(fā)明涉及跨文化傳播、用戶情感分析領(lǐng)域,特別涉及一種情感分類方法及系統(tǒng)?!?br>背景技術(shù):
】[0002]跨文化指的是來自不同文化背景的個體、群體或組織之間進行的交流活動。我國跨文化傳播研究始于20世紀80年代,早期的研究主要側(cè)重于外語教學與文化的關(guān)系,之后逐漸擴展到不同文化背景的人群之間的溝通以及促進跨文化交流的方法。早期缺乏對跨文化傳播數(shù)據(jù)的采集工具,因此使跨文化傳播的實證研究有很大限制。如今,互聯(lián)網(wǎng)作為新興的輿論載體和傳播途徑,在跨文化傳播信息發(fā)起和傳播中起著越來越重要的作用,并且有著電視、收音機、報紙等傳統(tǒng)的文化傳播路徑所不可比擬的優(yōu)勢。[0003]基于互聯(lián)網(wǎng)的跨文化傳播有著分眾化、個人化的特點,使得普通民眾能夠參與到跨文化傳播過程中。這些民眾在Web上發(fā)表的信息與評論表達著個人對經(jīng)濟、政治等社會事件的觀點態(tài)度和情感傾向,并且推動著文化的對外傳播。如何針對互聯(lián)網(wǎng)傳播渠道的新特性,分析跨文化傳播的受眾一一互聯(lián)網(wǎng)用戶的情感傾向是一個亟待解決的問題。本專利提出一種研究跨文化傳播過程中互聯(lián)網(wǎng)用戶發(fā)布內(nèi)容的情感傾向性方法,探索互聯(lián)網(wǎng)用戶在對外文化傳播、交流過程的情感。[0004]互聯(lián)網(wǎng)用戶的情感傾向性研究是指根據(jù)用戶發(fā)表的文本及回復判斷用戶的情感傾向。文本情感分類即根據(jù)用戶發(fā)布的內(nèi)容分析其情感傾向,可追溯到1997年Rosalind教授提出的"情感計算",其主要任務是讓計算機通過處理文本和機器學習實現(xiàn)自動識別文本的情感傾向。目前普遍采用二分類或三分類方法進行文本情感分類:前者將文本的情感分成積極和消極,后者將情感分為積極、中性和消極。[0005]雖然基于機器學習方法和向量空間模型的情感分析研究領(lǐng)域已取得許多成果,但國內(nèi)外有關(guān)情感分析的研究大多集中于產(chǎn)品評論方面。例如:PangBo等人研究機器學習算法對電影評情感分析的效果;Pa1pin等人提出的基于特征的觀點挖掘和Mei等人提出來的多方面觀點挖掘?qū)儆趯Ξa(chǎn)品屬性的情感傾向研究。目前針對跨文化傳播中對互聯(lián)網(wǎng)用戶發(fā)表內(nèi)容進行情感分析的研究還很少。在情感分析過程中,情感特征詞的情感極性依賴于領(lǐng)域信息并且對情感傾向分析有著舉足輕重的作用,因此使得基于產(chǎn)品評論的情感分析算法不適用于跨文化傳播領(lǐng)域。例如:對于形容詞"unpredictab1e",在電影評論中"unpredictableplot"的表述具有正面情感極性;而在政治評論中"unpredictablesteering"則具有負的情感極性??梢姴煌I(lǐng)域的情感特征詞的情感極性不盡相同。[0006]Mullen等人分析了非正式的在線政治評論的特點并進行了初步的統(tǒng)計測試。Malouf等人利用話語中的協(xié)同引用關(guān)系,研究Web上的非正式政治文本的傾向分類問題。陶富民等人提出一種用于篇章級新聞評論情感分析的特征提取方法。這些工作對在線政治評論和新聞評論的情感傾向進行了一定研究,但都沒有涉及跨文化傳播領(lǐng)域。我們前期對我國現(xiàn)有的8家中央重點對外傳播網(wǎng)站(如中國日報英文版)采集數(shù)據(jù)以及分析發(fā)現(xiàn):跨文化傳播領(lǐng)域涉及的話題除了政治、經(jīng)濟,還涉及學校、信用、世界。[0007]現(xiàn)有的情感分類方法普遍采用的二分類(積極和消極)和三分類(積極、消極和中性)方法不適用于跨文化傳播領(lǐng)域的文本情感分類。原因在于跨文化傳播領(lǐng)域涉及的話題包括政治、經(jīng)濟、學校、信用、世界,經(jīng)過數(shù)據(jù)抓取研究發(fā)現(xiàn),互聯(lián)網(wǎng)用戶對這些話題涉及的情感表達比較隱晦,情感傾向并不如產(chǎn)品或電影評論領(lǐng)域中的強烈,因此采用二分類或三分類的方法,很難對本文進行人工標注從而得到訓練集?!?br/>發(fā)明內(nèi)容】[0008]本發(fā)明的目的是為了現(xiàn)有技術(shù)的問題,提出了一種情感分類的方法及系統(tǒng)。[0009]為實現(xiàn)上述目的,一方面,本發(fā)明提供了一種情感分類方法,該情感分類方法包括:。[0010]對待測樣本進行數(shù)據(jù)預處理操作,獲得待測樣本的特征詞集合;[0011]運用樸素貝葉斯算法對待測樣本的特征詞集合進行運算,生成待測樣本的特征集合所屬類別的概率;[0012]運用支持向量機對待測樣本的特征集合所屬類別的概率進行修正,確定待測樣本的分類。[0013]優(yōu)選地,數(shù)據(jù)預處理的具體步驟包括:[0014]對待測樣本進行數(shù)據(jù)爬取操作,確定待測樣本的情感傾向;[0015]對待測樣本運用進行數(shù)據(jù)清洗去噪操作,剔除待測樣本中不需要的部分,不需要的部分包括待測樣本的格式和標題;[0016]對待測樣本進行分詞,英文語法和拼寫錯誤糾正,并使用正則表達式去除標點符號和長度小于3的單詞,并將單詞轉(zhuǎn)換為小寫;[0017]對待測樣本進行特征提取,過濾掉文本中對于表達情感和話題貢獻不大的詞語,壓縮文本處理后生成向量空間的維數(shù)。[0018]優(yōu)選地,特征提取的具體步驟包括:[0019]對待測樣本進行分詞后運用停用詞表去除停用詞;[0020]通過詞形還原和詞干提取獲得詞的原型,并進行同義詞的合并,完成待測樣本的特征提取。[0021]優(yōu)選地,方法還包括:[0022]對待測樣本的特征集合構(gòu)建情感詞典,并根據(jù)情感詞典生成待測樣本的特征集合所屬類別的概率。[0023]優(yōu)選地,對待測樣本的特征集合構(gòu)建情感詞典,并根據(jù)情感詞典生成待測樣本的特征集合所屬類別的概率的步驟包括:[0024]對待測樣本的特征集合進行高頻詞移除,優(yōu)化特征詞集合;[0025]選取優(yōu)化后的特征詞集合的所屬類別最大的特征詞,定義為所屬類別最大特征詞集合,并將所屬類別最大特征詞集合的并集,定義為情感詞典;[0026]基于情感詞典,生成待測樣本的所屬類別的概率。[0027]優(yōu)選地,運用支持向量機對待測樣本的特征集合所屬類別的概率進行修正,確定待測樣本的分類的步驟具體包括:[0028]運用支持向量機算法在m維空間中,確定分割超平面,并將處在分割超平面一側(cè)的定義為一個類別,完成分類。[0029]另一方面,本發(fā)明提供了一種情感分類系統(tǒng),該系統(tǒng)包括:處理模塊、計算模塊和分類模塊;[0030]處理模塊用于對待測樣本進行數(shù)據(jù)預處理操作,獲得待測樣本的特征詞集合;[0031]計算模塊用于運用樸素貝葉斯算法對待測樣本的特征詞集合進行運算,生成待測樣本的特征集合所屬類別的概率;[0032]分類模塊用于運用支持向量機對待測樣本的特征集合所屬類別的概率進行修正,確定待測樣本的分類。[0033]優(yōu)選地,處理模塊包括數(shù)據(jù)爬取單元、清洗去噪單元、文本分詞單元和特征提取單元;其中,[0034]數(shù)據(jù)爬取單元用于對待測樣本進行數(shù)據(jù)爬取操作,確定待測樣本的情感傾向;[0035]清洗去噪單元用于對待測樣本運用進行數(shù)據(jù)清洗去噪操作,剔除待測樣本中不需要的部分,不需要的部分包括待測樣本的格式和標題;[0036]文本分詞單元用于進行分詞,英文語法和拼寫錯誤糾正,并使用正則表達式去除標點符號和長度小于3的單詞,并將單詞轉(zhuǎn)換為小寫;[0037]特征提取單元進行特征提取,過濾掉文本中對于表達情感和話題貢獻不大的詞語,壓縮文本處理后生成向量空間的維數(shù)。[0038]優(yōu)選地,系統(tǒng)還包括構(gòu)建情感詞典模塊;[0039]構(gòu)建情感詞典模塊用于對待測樣本的特征集合構(gòu)建情感詞典,并根據(jù)情感詞典生成待測樣本的特征集合所屬類別的概率。[0040]優(yōu)選地,構(gòu)建情感詞典單元具體用于:[0041]對待測樣本的特征集合進行高頻詞移除,優(yōu)化特征詞集合;[0042]選取優(yōu)化后的特征詞集合的所屬類別最大的特征詞,定義為所屬類別最大特征詞集合,并將所屬類別最大特征詞集合的并集,定義為情感詞典;[0043]基于情感詞典,生成待測樣本的所屬類別的概率。[0044]本發(fā)明通過構(gòu)建跨文化傳播領(lǐng)域的情感詞典和情感特征詞,更細粒度地分析跨文化傳播視角下的互聯(lián)網(wǎng)用戶情感,提高情感分類的準確率?!靖綀D說明】[0045]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0046]圖1為本發(fā)明實施例提供的一種情感分類方法的結(jié)構(gòu)流程圖;[0047]圖2為本發(fā)明實施例提供的另一種情感分類方法的結(jié)構(gòu)流程圖;[0048]圖3為圖1和圖2中數(shù)據(jù)預處理的結(jié)構(gòu)流程圖;[0049]圖4為圖2中構(gòu)建情感詞典的結(jié)構(gòu)流程圖;[0050]圖5為本發(fā)明實施例提供的一種情感分類系統(tǒng)的結(jié)構(gòu)示意圖;[0051]圖6為本發(fā)明實施例提供的另一種情感分類系統(tǒng)的結(jié)構(gòu)示意圖;[0052]圖7為本發(fā)明實施例對比圖?!揪唧w實施方式】[0053]下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。[0054]本發(fā)明的情感分類主要有基于規(guī)則和基于統(tǒng)計兩種方法。由于新詞的不斷出現(xiàn)、表達方式的變化以及復雜的語言處理使得基于規(guī)則的情感分類方法難以適用?;诮y(tǒng)計的情感分類方法則是采用機器學習方法和文本表示模型。其中,情感分析主要采用的機器學習方法包括:樸素貝葉斯(NaiveBayesian)、K近鄰(K-NearestNeighbor,KNN)、支持向量機(SupportVectorMachine,SVM)。文本表示模型主要采用向量空間模型(vectorspacemodel,VSM),VSM認為文檔都是在詞典空間中進行表示的,即一個文檔是一個一對多的映射,表現(xiàn)為文檔_>詞。[0055]圖1為本發(fā)明實施例提供的一種情感分類方法的結(jié)構(gòu)流程圖。如圖1所示,情感分類方法包括的步驟如下:[0056]步驟s100:對待測樣本進行數(shù)據(jù)預處理操作,獲得待測樣本的特征詞集合;[0057]步驟S110:運用樸素貝葉斯算法對待測樣本的特征詞集合進行運算,生成待測樣本的特征集合所屬類別的概率;[0058]步驟S120:運用支持向量機對待測樣本的特征集合所屬類別的概率進行修正,確定待測樣本的分類。[0059]本發(fā)明通過數(shù)據(jù)預處理操作對待測樣本進行處理,得到待測樣本的特征詞集合;再通過樸素貝葉斯算法對特征詞集合進行運算得到特征集合所屬類別的概率;接著運用支持向量機對樸素貝葉斯算法計算出概率進行修正,提高分類的準確性。[0060]圖2為本發(fā)明實施例提供的另一種情感分類方法的結(jié)構(gòu)流程圖。如圖2所示,情感分類方法的步驟包括以下步驟:[0061]步驟S200:運用樸素貝葉斯算法對待測樣本的特征詞集合進行運算,生成待測樣本的特征集合所屬類別的概率;[0062]步驟S210:對所述待測樣本的特征集合構(gòu)建情感詞典,并根據(jù)所述情感詞典生成所述待測樣本的特征集合所屬類別的概率;[0063]步驟S220:運用支持向量機對待測樣本的特征集合所屬類別的概率進行修正,確定待測樣本的分類。[0064]本發(fā)明通過在數(shù)據(jù)樣本集合足夠大的時候,構(gòu)建情感詞典,再根據(jù)情感詞典得到特征詞集合的所屬類別的概率。一方面降低了所屬類別的概率計算的復雜度,另一方面提高了計算概率的準確性。[0065]圖3為圖1和圖2中數(shù)據(jù)預處理的結(jié)構(gòu)流程圖。如圖3所示,數(shù)據(jù)預處理的步驟包括數(shù)據(jù)爬取、數(shù)據(jù)清洗去噪、文本分詞和特征提取;其中;[0066]步驟S300:是數(shù)據(jù)爬取。為了研究用戶發(fā)布內(nèi)容的情感傾向,本發(fā)明實施例則是通過爬取了用戶所發(fā)表帖子的標題及內(nèi)容。[0067]步驟S310:數(shù)據(jù)清洗去噪,采用正則表達式剔除數(shù)據(jù)中不需要的部分,比如htmltag。由于英文存在Unicode和utf-8的轉(zhuǎn)換問題,因此將編碼統(tǒng)一為Unicode。[0068]步驟S320:文本分詞。對文本進行分詞(tokenize)、英文語法和拼寫錯誤糾正,并使用正則表達式去除標點符號和長度小于3的單詞,并將所有單詞轉(zhuǎn)換成小寫。[0069]步驟S330:特征提取,這一步最為重要。進行正確的特征提取將有助于提高分類錯誤率。文本進行分詞后形成的特征空間具有高煒度和過于稀疏的問題,會增加運算處理的時間復雜度以及空間復雜度。通過特征選取,過濾掉文本中對于表達情感和話題貢獻不大的詞語,壓縮文本處理后生成的向量空間的維數(shù),提到分類的準確性。為達到這一目的,要對分詞后的文本進行以下處理:[0070](1)去除停用詞來過濾掉類似于"the"、"this"這些被大量使用但是沒有實際意義的詞??梢酝ㄟ^停用詞表來去除停用詞,也可以采用其他的操作來去除停用詞。[0071](2)通過詞形還原(lemmatization)和詞干提取(stemming)獲得詞的原型并進行同義詞的合并。[0072]樸素貝葉斯算法生成樣本所屬類別的概率的步驟包括:[0073]跨文化傳播領(lǐng)域情感詞典的構(gòu)建以從我國6家中央重點對外傳播網(wǎng)站(如人民網(wǎng)(http://english.peopledaily?com.cn/)、新聞網(wǎng)(http://www.news?cn/english/)、中國網(wǎng)(http://www.china?org?cn/index.htm)、"國際在線''(http://www.cri?com.cn)、中國日報網(wǎng)站(http://www.chinadaily?com.cn)、央視國際(http://english?cntv?cn/))抓取的數(shù)據(jù)為來源,采取人工標注情感,根據(jù)樸素貝葉斯分類器計算每個單詞的極性強度,再根據(jù)文本頻率選取特征、優(yōu)化文本向量空間、構(gòu)建跨文化傳播領(lǐng)域的情感詞典以及統(tǒng)計每個文本的情感傾向概率值。[0074]令(11,1£[1,幻表示抓取的一個數(shù)據(jù)文本(新聞報道、事件評論等)4為數(shù)據(jù)集合樣本的個數(shù)。[0075]經(jīng)過數(shù)據(jù)預處理以后,得到特征詞集合A^As,...,An,則每個文本可用一個n維特征向量表示如下:[0076]di=(wil,Wi2,...,Win)[0077]其中,wik表示文本di對特征詞Ak的度量,例如特征詞Ak在文本di出現(xiàn)的次數(shù)。根據(jù)樸素貝葉斯原理,給定一個未知的數(shù)據(jù)文本cU(即沒有類標號),計算CU屬于類別Cj的概率P(Cj|di)計算如下:I12345p(cU)對所有類別為常數(shù),取,,因此只需要計算pMdCjpKj)。p(C〇計2算如下:3[0081]其中,Nj表示在樣本集合中類別Cj的文本個數(shù)。根據(jù)特征項之間條件獨立的樸素假定,即特征之間不存在依賴關(guān)系,可得P(cU|CJ如下:4p(di|Cj)=p(wn|Cj)p(wi21Cj)...p(win|Cj)5其中,p(wik|Cj)=WikXp(Ak|Cj),kG[1,n],即p(wik|Cj)等于特征詞Ak在文本di中的度量值wlk乘以p(Ak|C山而p(Ak|CJ表示在類別C沖出現(xiàn)特征詞Ak的概率,等于特征詞Ak在類別Q中出現(xiàn)的次數(shù)除以特征詞Ak在數(shù)據(jù)集合中出現(xiàn)的總次數(shù)。[0084]綜合公式[0085]p(di|Cj)=p(wn|Cj)p(Wi21Cj)???p(Win|Cj)可得到P(Cj|di)的計算:[0086]^14)=^flk=\ewik^0'[0087]對每個文檔6,;[£[1少],計算1]1個?((:」|(^),」=1,2...,111,將其表示為1]1維的概率向量Xi:[0088]Xi=(P(Ci|di),P(C2|di)...,P(Cm|di))[0089]需要說明的是,本發(fā)明實施例采用樸素貝葉斯算法來計算所屬類別的概率,并不是固定的方法,只是很符合本發(fā)明實施例中概率的計算,具體的方法可以根據(jù)對樣本不同的分類來做調(diào)整。[0090]本發(fā)明實施例采用多分類方法,令m表示情感分類的類別。例如取m=5,定義文本的情感分為積極、一般積極、中性、一般消極和消極,用類別&,&,(:3,(:4,(:5表示。在實際應用過程中,分類的類別個數(shù)越多,有助于細化情感傾向程度,但可能導致分類算法的時間復雜度過高。因此,分類的類別個數(shù)通過均衡數(shù)據(jù)集合的情感傾向程度以及分類的時間復雜度要求后決定。[0091]圖4為圖2中構(gòu)建情感詞典的結(jié)構(gòu)流程圖,如圖4所示,利用樸素貝葉斯算法生成情感詞典所屬類別的概率的步驟包括:[0092]從樸素貝葉斯算法生成樣本所屬類別的概率的步驟中計算G[1,m,]則要求p(Ak|Cj),kG[1,n],jG[1,m],即求在每一個類別下出現(xiàn)每一個特征詞的概率值。如果令數(shù)據(jù)集合的樣本足夠大,根據(jù)1)以1{|(^)少£[1,11],_]_£[1,111]可以構(gòu)建跨文化傳播領(lǐng)域的情感詞典,并根據(jù)構(gòu)建的情感詞典優(yōu)化樸素貝葉斯算法生成樣本所屬類別的概率的步驟中對文本的多分類情感概率計算。具體步驟如下:[0093]移除高頻詞。對進行數(shù)據(jù)預處理后得到特征詞集合A^As,...,"進一步移除高頻詞。在ChinaDaily英文論壇抓取了32000篇英文本文進行數(shù)據(jù)預處理得到特征詞集合后發(fā)現(xiàn),出現(xiàn)次數(shù)最多的30個詞涵蓋了所有用詞的30%,產(chǎn)生這個現(xiàn)象的原因是語言中大部分都是冗余的和結(jié)構(gòu)輔助性內(nèi)容。在...,An基礎(chǔ)上移除出現(xiàn)頻次最高的Top-N個高頻詞,進一步精簡特征詞集合。N的選取根據(jù)實際數(shù)據(jù)集合用統(tǒng)計方法得到。[0094]構(gòu)建情感詞典。在移除高頻詞的特征詞集合基礎(chǔ)上,針對每一個類別Cj,jG[1,m],選取p(Ak|Cj)值最大的Top-M特征詞,用集合AMj表示。p(Ak|Cj)值越大意味著在類別Cj出現(xiàn)Ak的概率越大,則Ak越能代表類別Q的特征。將每一個類別選取的Top-M特征詞的并集,即AM1UAM2...UAMm,定義為構(gòu)建的情感詞典,用Ai,A2,...,An,表示。情感詞典中的每一個特征詞41{屬于每一個情感類別的概率用口仏|(:1)4仏|〇2),...4仏|(^)表示,其中口(八1{Cj)等于特征詞Ak在類別Q中出現(xiàn)的次數(shù)除以特征詞Ak在數(shù)據(jù)集合中出現(xiàn)的總次數(shù)。[0095]基于構(gòu)建的情感詞典,根據(jù)樸素貝葉斯算法生成樣本所屬類別的概率的步驟中計算所屬類別的概率中的公式重新計算每個文本的多分類情感概率。將情感詞典中的特征詞集合用^,如,...,An,表示,該情感詞典中的特征詞數(shù)量遠遠小于經(jīng)過圖3中數(shù)據(jù)預處理后的特征詞集合,并且更能代表跨文化傳播領(lǐng)域的特征;一方面降低多分情感概率計算的復雜度,另一方面提高情感計算的準確性。[0096]運用支持向量機對樸素貝葉斯算法預測的分類效果進行修正,提高情感分類的準確性的步驟包括:[0097]利用樸素貝葉斯算法得到每個文檔cU在情感類別分布概率向量Xi。樸素貝葉斯算法取父沖最大的?(<^|(1丄」_=1,2...,1]1值,即將類別(:」*=11^{(:」:?((:」|(^),」_=1,2...,111}定義為文檔cU的類別。然而這種方法可能會導致錯誤的情感分類,如某一個文檔在5分類情感分析中計算得到的情感分布概率向量分別為〇.255,0.245,0.265,0.26,0.24。由于5個概率值非常接近,取最大值將文檔類別定義為類別3并不合適,合理的文檔分類應該考慮訓練集中所有文檔的5維概率向量情況決定,即考慮當前文檔與其他文檔之間的關(guān)系,將數(shù)據(jù)集合聚類后決定文檔的所屬類別。因此,本提案提出利用支持向量機算法進一步優(yōu)化基于樸素貝葉斯算法得到的多分類情感概率結(jié)果,通過計算每個文檔之間的距離,對數(shù)據(jù)集合中的文檔聚類后決定每個文檔的所屬類別。[0098]將每個文檔cU看作m維空間的一個點,具體在m維空間的位置由其情感類別分布概率向量Xi決定。數(shù)據(jù)集合中的N個文檔表現(xiàn)為m維空間中的N個點。利用支持向量機算法在m維空間找到將數(shù)據(jù)集分隔開的分割超平面,將分布在分割超平面一側(cè)的所有點定義為一個類別。[0099]分割超平面可表示為WTX+b,其中W和b可通過支持向量機的具體實現(xiàn)方法如序列最小優(yōu)化算法得到,并不在本提案設(shè)計的范疇。在m類別情感分類中,通過支持向量機找到m-1個分割超平面,用<1+1>1^/1+1>2,...,^尤+1>,"_1表示。于是對于每個文檔(11,其所屬類別的判定如下:[0100]⑴如果<式偉00,則文檔cU屬于類別1,結(jié)束判斷;反之跳到(2)[0101]⑵如果K/iC+by<0,則文檔cU屬于類別m,結(jié)束判斷;反之跳到(3)[0102](3)對于je[2,m-2],如果r/不+by<0且%/A+bi+1>0,定義文檔屬于類別j,結(jié)束判斷。[0103]圖5本發(fā)明實施例提供的一種情感分類系統(tǒng)的結(jié)構(gòu)示意圖。如圖5所示,該情感分類系統(tǒng)包括:處理模塊、計算模塊和分類模塊;[0104]處理模塊用于對待測樣本進行數(shù)據(jù)預處理操作,獲得待測樣本的特征詞集合;[0105]計算模塊用于運用樸素貝葉斯算法對待測樣本的特征詞集合進行運算,生成待測樣本的特征集合所屬類別的概率;[0106]分類模塊用于運用支持向量機對待測樣本的特征集合所屬類別的概率進行修正,確定待測樣本的分類。[0107]圖6為本發(fā)明實施例提供的另一種情感分類系統(tǒng)的結(jié)構(gòu)示意圖。如圖6所示,該情感系統(tǒng)包括:處理模塊、構(gòu)建情感模塊和分類模塊;[0108]處理模塊用于對待測樣本進行數(shù)據(jù)預處理操作,獲得待測樣本的特征詞集合;[0109]所述構(gòu)建情感詞典模塊用于對所述待測樣本的特征集合構(gòu)建情感詞典,并根據(jù)所述情感詞典生成所述待測樣本的特征集合所屬類別的概率;[0110]分類模塊用于運用支持向量機對待測樣本的特征集合所屬類別的概率進行修正,確定待測樣本的分類。[0111]圖5和圖6都是情感分類的系統(tǒng),圖6在圖5的基礎(chǔ)上進行了改進,降低了情感分類概率計算的復雜度,同時提高了情感分類的準確度。[0112]圖7為本發(fā)明實施例的對比圖。如圖7所示,為驗證本方案的具體效果,我們選取了ChinaDaily英文論壇的文本進行情感研究,共爬取了32000篇文本,通過去掉客觀性描述的文本,最后選擇了具有代表性(內(nèi)容豐富、回帖多于一頁)的主觀性描述的6000篇文本進行4分類的情感分析,即(積極,一般積極,一般消極,消極)。經(jīng)過數(shù)據(jù)預處理、去掉高頻詞以及T0P-M特征詞選取后得到構(gòu)建的情感詞典和情感詞典中每個特征詞所屬情感類別的概率。該情感詞典包括14303個特征詞,表中列舉了一部分具有代表性的特征詞。[0114]從表中可以看出不同領(lǐng)域的情感詞匯有區(qū)別,在跨文化傳播領(lǐng)域credit(信用)、country(國家)、school(學校)、world(世界)、government(政府)是最常討論的話題,因此情感詞典里有credit、festival、upgrade、wedding這些一般情感詞典不具備的特征詞??梢娊⒖缥幕瘋鞑ヮI(lǐng)域的情感詞典很有必要。此外,由于ChinaDaily論壇中帖子的話題大多集中在對某一社會話題的探討,情感傾向并非極端,表現(xiàn)在情感詞典中每個情感特征詞都可能在每個類別中出現(xiàn),因此表中的概率值沒有出現(xiàn)〇值。最后,本發(fā)明實施例采用的6000個樣本集僅僅作為一個實施例,為了保證生成情感詞典的完備性和準確性,需要大量的訓練集進行統(tǒng)計。[0115]在生成情感詞典后,并根據(jù)樸素貝葉斯算法生成樣本所屬類別的概率的步驟中計算所屬類別概率的公式計算每個文本的多分類情感概率后,我們進一步驗證在多分類情感概率計算基礎(chǔ)上利用支持向量機進行情感分類的效果。本發(fā)明實施例通過隨機選取5000篇文檔作為訓練集,1000篇文檔作為測試集。本發(fā)明實施例的評價方法采用留存交叉驗證求出錯誤率,并通過多次迭代來更精確地估計平均錯誤率。[0116]圖7為本發(fā)明實施例的方法與傳統(tǒng)的取PKildihPKjdi)...,P(Cm|di)中最大概率值分類方法的錯誤率性能比較??梢钥闯?,在進行的10次留存交叉驗證實驗過程中,本發(fā)明實施例的情感分類錯誤率遠遠小于取最大概率值分類方法,表明通過構(gòu)建情感詞典、計算文本的多分類情感概率、再利用支持向量機進行分類能夠提高文本的情感分類概率。[0117]情感分類錯誤率比較示例中支持向量機參數(shù)為RBF,kl=20,C=1。[0119]本發(fā)明實施例在得到每個文本的多分類情感概率向量后,采用的是支持向量機構(gòu)建分割超平面進行分類,因此最終分類的性能受到支持向量機采用的內(nèi)核函數(shù)、kl和C參數(shù)的影響。上表為列舉了不同的支持向量機參數(shù)對情感分類錯誤率的影響。其中,內(nèi)核函數(shù)表示是否采用徑向基核函數(shù)進行低維空間到高維空間的映射。內(nèi)核函數(shù)為Linear,表示不進行映射,將問題等價于線性問題;而內(nèi)核函數(shù)為RBF時,則表示進行核函數(shù)轉(zhuǎn)換。大量對照實驗(核函數(shù)不同,其他參數(shù)相同)證明,本發(fā)明實施例設(shè)計的問題適用于RBF核函數(shù)轉(zhuǎn)換。K1和C是兩個用戶自定義的參數(shù),針對不同的數(shù)據(jù)集,需要不同的值以得到問題最優(yōu)解。[0120]本發(fā)明通過構(gòu)建跨文化傳播領(lǐng)域的情感詞典和情感特征詞,更細粒度地分析跨文化傳播視角下的互聯(lián)網(wǎng)用戶情感,提高情感分類的準確率。[0121]專業(yè)人員應該還可以進一步意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。[0122]結(jié)合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實施。軟件模塊可以置于隨機存儲器(RAM)、內(nèi)存、只讀存儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或
技術(shù)領(lǐng)域:
內(nèi)所公知的任意其它形式的存儲介質(zhì)中。[0123]以上所述的【具體實施方式】,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的【具體實施方式】而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)?!局鳈?quán)項】1.一種情感分類方法,其特征在于,包括:對待測樣本進行數(shù)據(jù)預處理操作,獲得所述待測樣本的特征詞集合;運用樸素貝葉斯算法對所述待測樣本的特征詞集合進行運算,生成所述待測樣本的特征集合所屬類別的概率;運用支持向量機對所述待測樣本的特征集合所屬類別的概率進行修正,確定所述待測樣本的分類。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)預處理的具體步驟包括:對所述待測樣本進行數(shù)據(jù)爬取操作,確定所述待測樣本的情感傾向;對所述待測樣本運用進行數(shù)據(jù)清洗去噪操作,剔除所述待測樣本中不需要的部分,所述不需要的部分包括所述待測樣本的格式和標題;對所述待測樣本進行分詞,英文語法和拼寫錯誤糾正,并使用正則表達式去除標點符號和長度小于3的單詞,并將單詞轉(zhuǎn)換為小寫;對所述待測樣本進行特征提取,過濾掉文本中對于表達情感和話題貢獻不大的詞語,壓縮文本處理后生成向量空間的維數(shù)。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述特征提取的具體步驟包括:對所述待測樣本進行分詞后運用停用詞表去除停用詞;通過詞形還原和詞干提取獲得詞的原型,并進行同義詞的合并,完成所述待測樣本的特征提取。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:對所述待測樣本的特征集合構(gòu)建情感詞典,并根據(jù)所述情感詞典生成所述待測樣本的特征集合所屬類別的概率。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述對所述待測樣本的特征集合構(gòu)建情感詞典,并根據(jù)所述情感詞典生成所述待測樣本的特征集合所屬類別的概率的步驟包括:對所述待測樣本的特征集合進行高頻詞移除,優(yōu)化所述特征詞集合;選取所述優(yōu)化后的特征詞集合的所屬類別最大的特征詞,定義為所屬類別最大特征詞集合,并將所述所屬類別最大特征詞集合的并集,定義為所述情感詞典;基于所述情感詞典,生成所述待測樣本的所屬類別的概率。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述運用支持向量機對所述待測樣本的特征集合所屬類別的概率進行修正,確定所述待測樣本的分類的步驟具體包括:運用支持向量機算法在m維空間中,確定分割超平面,并將處在所述分割超平面一側(cè)的定義為一個類別,完成分類。7.-種情感分析系統(tǒng),其特征在于,包括:處理模塊、計算模塊和分類模塊;所述處理模塊用于對待測樣本進行數(shù)據(jù)預處理操作,獲得所述待測樣本的特征詞集合;所述計算模塊用于運用樸素貝葉斯算法對所述待測樣本的特征詞集合進行運算,生成所述待測樣本的特征集合所屬類別的概率;所述分類模塊用于運用支持向量機對所述待測樣本的特征集合所屬類別的概率進行修正,確定所述待測樣本的分類。8.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述處理模塊包括數(shù)據(jù)爬取單元、清洗去噪單元、文本分詞單元和特征提取單元;其中,所述數(shù)據(jù)爬取單元用于對所述待測樣本進行數(shù)據(jù)爬取操作,確定所述待測樣本的情感傾向;所述清洗去噪單元用于對所述待測樣本運用進行數(shù)據(jù)清洗去噪操作,剔除所述待測樣本中不需要的部分,所述不需要的部分包括所述待測樣本的格式和標題;所述文本分詞單元用于進行分詞,英文語法和拼寫糾正,并使用正則表達式去除標點符號和長度小于3的單詞,并將單詞轉(zhuǎn)換為小寫;所述特征提取單元進行特征提取,過濾掉文本中對于表達情感和話題貢獻不大的詞語,壓縮文本處理后生成向量空間的維數(shù)。9.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括構(gòu)建情感詞典模塊;所述構(gòu)建情感詞典模塊用于對所述待測樣本的特征集合構(gòu)建情感詞典,并根據(jù)所述情感詞典生成所述待測樣本的特征集合所屬類別的概率。10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述構(gòu)建情感詞典單元具體用于:對所述待測樣本的特征集合進行高頻詞移除,優(yōu)化所述特征詞集合;選取所述優(yōu)化后的特征詞集合的所屬類別最大的特征詞,定義為所屬類別最大特征詞集合,并將所述所屬類別最大特征詞集合的并集,定義為所述情感詞典;基于所述情感詞典,生成所述待測樣本的所屬類別的概率?!疚臋n編號】G06F17/30GK105912576SQ201610197160【公開日】2016年8月31日【申請日】2016年3月31日【發(fā)明人】徐月梅,王子厚,馮驛,曾穎菲,劉苗苗【申請人】北京外國語大學