一種融合深層特征和淺層特征的情感分類方法
【專利摘要】本發(fā)明請求保護一種融合深層特征和淺層特征的情感分類方法,選用融合Doc2vec的深層特征和TF?IDF的淺層特征來表示文本的特征,該融合方法不僅解決了Doc2vec中固定詞特征表述不清楚的問題,而且也解決了TF?IDF方法沒有考慮到詞語之間語義的問題,使得文本向量對于文本的表示更加清楚。選用SVM分類方法,分類器的分類性能較好。結合上述方法處理情感分類問題可顯著提高情感分類的準確率。
【專利說明】
-種融合深層特征和巧層特征的情感分類方法
技術領域
[0001] 本發(fā)明屬于一種情感分類方法,尤其設及一種融合深層特征和淺層特征的情感分 類方法。
【背景技術】
[0002] 情感分析是一種常見的自然語言處理(NLP)方法的應用,特別是在W提取文本的 情感內容為目標的分類方法中。情感分類已經有很多有用的實踐,比如企業(yè)分析消費者對 產品的反饋信息,或者檢測在線評論中的差評信息。
[0003] 情感文本的向量表示一般有兩種表達方式,One-hot Representation和 Distributed RepresentatioruOne-hot Representation最大的問題是無法分析詞與詞之 間的語義關系,此外運種方法還容易發(fā)生維數災難。Dis化化uted R邱resentation方法則 很好地克服了運些缺點,其中word2vec就是Distributed Representation的典型代表。 word2vec是深度學習模型,雖然word2vec很好的分析了詞與詞之間的語義關系并且解決了 維數災難問題,但是沒有考慮到詞與詞之間的順序問題,因此不同的句子可能會有相同的 表示,從而導致誤判率較高。Doc2vec跟word2vec很相似,Doc2vec在word2vec的模型的基礎 上增加了一個段落向量(Paragra曲Id)eDoc2vec不但考慮到了詞與詞之間的語義關系,并 且解決了維數災難,還考慮到了詞與詞之間的順序問題。雖然Doc2vec解決了詞與詞之間的 語義關系,但是詞語本身的特征描述卻被淡化,因此,可W把Doc2vec訓練出來的特征稱為 深層特征。
[0004] TF-IDF(te;rm frequen巧-inverse do州ment 打equency)是一種用于資訊檢索與 資訊探勘的常用加權技術。TF-IDF是一種統(tǒng)計方法,用W評估一字詞對于一個文件集或一 個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數成正比 增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。用TF-IDF方法來表示文本特征 時,文本特征的每一維都表示文本中的一個固定的詞,雖然單個詞語的特征表示很清楚,卻 忽略了詞與詞之間的語義關系。因此,與深層特征相對應,把TF-IDF訓練出來的特征稱為淺 層特征。
[0005] 融合Doc2vec的深層特征和TF-IDF的淺層特征向量,可彌補兩種算法各自的不足 之處,使得文本的特征向量表示更準確,顯著提高情感分類的準確率。
【發(fā)明內容】
[0006] 針對W上技術的不足,提出了一種可顯著提高情感分類的準確率的融合深層特征 和淺層特征的情感分類方法。本發(fā)明的技術方案如下:一種融合深層特征和淺層特征的情 感分類方法,其包括W下步驟:
[0007] 步驟1:根據已經準備好的情感文本語料集,人工標記類別,積極情緒的文本語料 標簽為1,消極情緒的文本語料標簽為2,并將情感文本語料集分為訓練語料集和測試語料 集;
[0008] 步驟2:采用基于詞典逆向最大匹配算法和統(tǒng)計分詞策略相結合的中文分詞算法 對步驟1中經過人工標記類別的語料進行分詞,然后去除語料中的停用詞;
[0009] 步驟3:對語料的分詞、去停用詞工作完成后提取語料中的標簽、名詞、副詞、形容 詞和介詞組成新的語料,采用TF-IDF對得到的新語料進行訓練并得到情感文本的淺層特征 向量;得到情感文本的淺層特征向量后采用Doc2vec對經過步驟2分詞、去停用詞后的語料 進行訓練,得到詞向量模型和情感文本的深層特征向量;
[0010] 步驟4:將步驟3中得到的淺層特征向量和深層特征向量進行融合,得到新的情感 文本特征向量,所述新的情感文本特征向量包括訓練語料集的情感文本特征向量和測試語 料集的文本特征向量;
[0011 ]步驟5:將步驟4中得到的訓練語料集的情感文本特征向量輸入SVM訓練出情感分 類模型;
[0012] 步驟6:將步驟4中得到的測試語料集的文本特征向量輸入SVM,根據步驟5中已經 訓練好的情感分類模型進行情感類別分類并計算出情感分類的準確率。
[0013] 進一步的,所述步驟2采用基于詞典逆向最大匹配算法具體為:分級構造分詞詞 典,由核屯、詞典和臨時詞典兩部分構成分詞詞典集合,統(tǒng)計出權威性的詞條語料,采用二級 哈希結構存儲構造核屯、詞典,選取情感詞典作為臨時詞典加載的語料;分詞詞典初步構成 后,分詞系統(tǒng)進入自主學習階段,對情感文本進行分詞時,如果臨時詞典中有新統(tǒng)計的詞, 該詞的詞頻加一,否則將該新詞重新加入臨時詞典;累計詞頻后判斷詞頻是否滿足設定闊 值,若滿足則移到核屯、詞典中,并在臨時詞典中清空該詞條,統(tǒng)計記錄學習情感文本的數 量,若大于預定值,則清空臨時詞典;采用更新后的核屯、詞典中的詞條作為分詞依據。
[0014] 進一步的,步驟2中分完詞后,每個文本是由W空格隔開的單詞組成的文本語料; 然后捜集停用詞表,人工刪除停用詞表中對實驗有用的詞匯,并根據停用詞表去除分完詞 后的語料中的停用詞。
[0015] 進一步的,所述步驟3利用正則表達式,提取步驟2中的得到的語料中的標簽、名 詞、副詞、形容詞和介詞組成新的語料。
[0016] 進一步的,所述步驟3采用Doc2vec對經過步驟2分詞、去停用詞后的語料進行訓 練,具體為:使用0〇。2¥6(3中基于化6拘1^11;[。日150打1]1日義算法的口¥-01模型,將步驟2中處理 好的的語料輸入模型中,把每個長度可變段落和對應段落中的每個詞分別映射成唯一的段 落向量和唯一的詞向量,將所有文本向量和所有對應的詞向量累加或者連接起來,作為輸 出層Softmax的輸入;構建目標函數,在訓練過程中保持文本向量不變,使用隨機梯度上升 法進行詞向量更新,在預測階段保持已經更新好的詞向量和輸出層Softmax的參數不變,重 新利用隨機梯度上升法訓練待預測的文本,得到最終的情感文本深層特征向量并將運些深 層特征向量處理成可W使用SVM的數據格式。
[0017] 進一步的,所述步驟3采用TF-IDF對得到的新語料進行訓練并得到情感文本的淺 層特征向量的步驟具體為:首先計算一個文本中的其中一個詞的詞頻,然后再計算運個詞 的反文檔頻率,把運個詞的詞頻和反文檔頻率相乘就得到了運個的TF-IDF值;然后將一個 情感文本中的所有詞語都計算一遍,將得到的TF-IDF值放入到一個新的文本中就得到了運 個文本的淺層特征向量,最后計算出所有文本的淺層特征向量。
[0018] 進一步的,所述步驟4:將步驟3中得到的淺層特征向量和深層特征向量進行融合, 得到新的情感文本特征向量具體為:將所有文本淺層特征向量放入到一個文本中,每一行 代表一個文本向量,同樣將得到的所有深層文本向量也放入到一個文本中,每一行也代表 一個文本向量,設定兩種特征的權重比為1:1,將兩個文本的每一行直接進行首尾相連,得 到新的情感文本特征向量。
[0019] 進一步的,所述步驟5具體為:將步驟4中得到的情感文本特征向量輸入SVM,最優(yōu) 超平面中的核函數設計為非線性核函數,把輸入空間r映射到m維的特征空間,在高維空間 中構造分界超平面
'將積極情緒文本和消極情緒文本分開,式中w/是連 接特征空間至輸出空間的權值,偏置值,Φ (X)為向量X在高維特征空間的非線性映射, 訓練完成后,保存情感分類板型。
[0020] 進一步的,所述步驟6具體為將步驟4中的語料中的測試集的文本特征向量輸入 SVM,根據步驟5中已經訓練好的模型進行情感類別分類,如果實際輸出文本的標簽等于1, 判定該文本表現(xiàn)的是積極情緒,如果實際輸出文本的標簽不等于1即標簽等于2,判定該文 本表現(xiàn)的是消極情緒,統(tǒng)計實際輸出文本的標簽與期望輸出文本的標簽之間不同的個數, 計算情感分類的準確率。
[0021 ]進一步的,所述Doc2vec中基于Hierarchical Softmax算法的PV-DM模型,PV-DM模 型的輸入是一個長度可變的段落化ragraph Id和該段落中的所有單詞Words paragraph Id代表的是情感文本,輸出是根據化ragraphid和Words預測出的單詞,PV-DM模型的訓練過 程:將每個化ragraph Id和Words分別映射成唯一的段落向量和唯一的詞向量,并且將所有 化ragraph Vector按列放入矩陣D和所有Word Vector按列放入矩陣W中;將化ragraph Vector和WordVector累加或者連接起來,作為輸出層Softmax的輸入,輸出層Softmax是W Paragra地Id中的詞條作為葉子結點,詞條在文本語料中出現(xiàn)的次數當作權值,構造的哈 弗曼樹。
[0022] 本發(fā)明的優(yōu)點及有益效果如下:
[0023] 本發(fā)明選用融合Doc2vec的深層特征和TF-IDF的淺層特征來表示文本的特征,該 方法不僅解決了 TF-IDF方法沒有考慮到詞語之間語義的問題,而且也解決了 Doc2vec中固 定詞特征表述不清楚的問題。選用SVM分類方法,使得分類器的分類性能得到較好的改善。 結合上述方法處理情感分類問題可顯著提高情感分類的準確率。
【附圖說明】
[0024] 圖1是本發(fā)明提供優(yōu)選實施例一種融合深層特征和淺層特征的情感分類方法的流 程圖。
【具體實施方式】
[0025] W下結合附圖,對本發(fā)明作進一步說明:
[0026] 如圖1所示,本發(fā)明融合深層和淺層特征的情感分類方法的具體步驟是:
[0027] 步驟1:從網上捜集情感文本語料集,人工標記類別,如情感表現(xiàn)為積極情緒的文 本標簽為1,情感表現(xiàn)為消極情緒的文本標簽為2。并且去除文本的首尾空格,將文本里的數 據表示成一個句子,運樣方便后續(xù)的處理工作。并將語料集分為訓練集和測試集。訓練集用 來訓練情感分類的模型,測試集用來測試模型分類的效果。
[0028] 步驟2:首先從網上捜集情感詞典,情感詞典是文本情感分析的基礎資源,實際就 是情感詞的集合。從廣義上講,指包含感情傾向性的短語或者句子;從狹義上講,指包含有 感情傾向性的詞語集合。情感詞典一般包含兩個部分,正面情感詞詞典和負面情感詞詞典。
[0029] 然后對步驟1中的語料集進行中文分詞,本文使用的分詞方法是基于詞典逆向最 大匹配算法和統(tǒng)計分詞策略相結合的中文分詞算法。分級構造分詞詞典,由核屯、詞典和臨 時詞典兩部分構成分詞詞典集合。統(tǒng)計出權威性的詞條語料,采用二級哈希結構存儲構造 核屯、詞典。選取情感詞典作為臨時詞典加載的語料。分詞詞典初步構成后,分詞系統(tǒng)進入自 主學習的階段,對情感文本進行分詞時,如果臨時詞典中有新統(tǒng)計的詞,該詞的詞頻加一, 否則將該新詞重新加入臨時詞典。累計詞頻后判斷詞頻是否滿足設定闊值,若滿足則移到 核屯、詞典中,并在臨時詞典中清空該詞條。統(tǒng)計記錄學習情感文本的數量,若大于預定值, 則清空臨時詞典。采用更新后的核屯、詞典中的詞條作為分詞依據,采用逆向最大匹配算法 進行情感文本的分詞。
[0030] 分完詞后,每個文本是由W空格隔開的單詞組成的文本語料。然后捜集停用詞表, 人工刪除停用詞表中對實驗有用的詞匯,并根據停用詞表去除分完詞后的語料中的停用 詞。去除停用詞是為了節(jié)省存儲空間和提高效率。
[0031] 步驟3:利用正則表達式,提取步驟2中的得到的語料中的標簽、名詞、副詞、形容詞 和介詞組成新的語料。如果文本過大,表示成特征向量時很容易造成維數災難,提取文本中 一部分重要的詞語可W更好的表示文本,并且可W解決維數災難問題。
[0032] 步驟4:采用Doc2vec對步驟2中的語料訓練出詞向量模型并得到情感文本深層特 征向量。Doc2vec是用來得到詞和文本深層特征的淺層模型,它不但考慮到了各詞之間的語 義關系,而且也考慮到了詞與詞之間的順序,能夠很好的表示出詞與文本的特征。Doc2vec 用到兩個重要的模型--PV-DB0W和PV-DM模型,針對PV-DB0W和PV-DM兩種模型又給出了兩 套算'法--Hierarchical Softmax和Negative Samp 1 in邑。本文使用基于Hierarchical Softmax算法的PV-DM模型。PV-DM模型的輸入是一個長度可變的段落(Paragra地Id)和該 段落中的所有單詞(Words ),本文中的Paragraph Id代表的是情感文本。輸出是根據 Paragra地Id和Words預測出的單詞。
[0033] PV-DM模型的訓練過程:
[0034] 將每個化ragra地Id和Words分別映射成唯一的段落向量(Paragra地Vector)和 唯一的詞向量(Word Vector),并且將所有化ragraph Vector按列放入矩陣D和所有Word Vector按列放入矩陣W中。將化ragraph Vector和WordVector累加或者連接起來,作為輸出 層Softmax的輸入。輸出層Softmax是W化ragra地Id中的詞條作為葉子結點,詞條在文本 語料中出現(xiàn)的次數當作權值,構造的哈弗曼化uffman)樹。建立目標函數:
[0035]
[0036] 其中T代表詞向量的個數,wt,wt-k等代表每個詞向量。
[0037]
[0038] 每個yi是每個詞向量i的未規(guī)范化對數概率,yi的計算公式為:
[0039] y = b+Uh(wt-k, . . .,wt+k;W,D)(3)
[0040] 其中U,b是Softmax的參數,h是由從D和W矩陣中提取的化ragra地Vector和Word Vector累加或者連接構成的。
[0041] 在訓練過程中,Paragraph Id保持不變,文本中的所有單詞共享著同一個 化ragraph Vector,相當于每次在預測單詞的概率時,都利用了整個文本的語義。對運個目 標函數進行優(yōu)化,從而求得最優(yōu)的詞的向量表示。利用隨機梯度上升法對上式的目標函數 進行優(yōu)化,得到迭代過程中詞U的向量0U的更新公式為:
[0044] 9U e RD表示詞U對應的一個輔助向量,1/(U)表示詞U的標簽,VI'閑表示詞《對應的向 量,0是一個邏輯回歸函數,心''梓)表示詞完的標簽,η表示學習率。在迭代過程中詞U的向量0U 和詞去的向量W腳都在原來的基礎上進行了更新,使得向量對詞的表達能力更強,向量隨著 更新而不斷進化,向量的表示質量也隨著提升。
[0045] 在預測階段,給待預測的文本重新分配一個Paragraph Id,詞向量和輸出層 Softmax的參數保持訓練階段得到的參數不變,重新利用隨機梯度上升法訓練待預測的文 本。待收斂后,最終得到了文本的化ragraph Vector,也就是文本的深層特征向量,并將運 些深層特征向量處理成可W使用SVM的數據格式。
[0046] 步驟5:采用TF-IDF對步驟3中得到的語料進行訓練并得到情感文本的淺層特征向 量。
[0047] 在一個給定的情感文本中,詞頻(term frequency,TF)指的是某一個給定的詞語 在該文本中出現(xiàn)的頻率。運個數字是對詞數(term count)的歸一化,W防止它偏向長的文 本。(同一個詞語在長文本里可能會比短文本有更高的詞數,而不管該詞語重要與否。)對于 在某一特定文件里的詞語ti來說,它的重要性可表示為:
[004引
[0049]其中表示該詞在文本山中出現(xiàn)的次數,而分詞則是在文件山中所有字詞的出現(xiàn) 次數之和。
[00加]逆向文件頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度 量。某一特定詞語的IDF,可W由總文本數目除W包含該詞語之文本的數目,再將得到的商 取對數得到:
[0化1 ]
[0052]其中|D|表示情感語料庫中的文本總數,|{j:tiedj|表示包含詞語ti的文件總 數,如果該詞語不在語料庫中,就會導致被除數為零,因此一般情況下使用1+I I, 最后得到一個詞語的TF-IDF值為:
[0053] tf i壯i, j = tfi, j X idfi (8)
[0054] 將一個情感文本中的所有詞語都計算一遍,將得到的TF-IDF值放入到一個新的文 本中就得到了運個文本的淺層特征向量。然后計算出所有文本的淺層特征向量。
[0055] 步驟6:將步驟4中得到的所有文本的深層特征向量放入到一個文本中,每一行代 表一個文本向量,同樣將步驟5中得到的所有文本的淺層特征向量也放入到一個文本中,每 一行也代表一個文本向量,由于步驟4中得到的深層特征和步驟5中得到的淺層特征在情感 分類中同等重要,因此設定兩種特征的權重比為1:1,將兩個文本的每一行直接進行首尾相 連,得到新的情感文本特征向量。
[0056] 步驟7:將步驟6中的語料中的訓練集的文本特征向量輸入SVM訓練出情感分類模 型。
[0057] 引入非線性函數Φ(χ),把輸入空間r映射到m維的特征空間,然后在高維空間中 構造一個分界超平面,該超平面可W定義如下:
[0化引
[0059] 其中w/是連接特征空間至輸出空間的權值,護為偏置值。
[0060] 為了獲得最優(yōu)超平面,權向量和偏置值應最小化,而且滿足約束條件:yi(wxi+b)> 1-Ci,i = l,2, . . .,m,式中,Ci是正松弛變量,增加松弛變量的可容錯性。根據結構風險最小 化原理,運時最小化目標函數為:
[0061]
[0062]其中C是懲罰參數,依據拉格朗日定理,引入拉格朗日乘子日1,核函數Κ(χι,χ)=φ (Xi) Φ (X),可轉化成求解下述目標函數最小值:
[0069] 訓練完成后,保存情感分類模型。
[0070] 步驟8:將步驟6中的語料中的測試集的文本特征向量輸入SVM,根據步驟7中已經 訓練好的模型進行情感類別分類,如果實際輸出文本的標簽等于1,判定該文本表現(xiàn)的是積 極情緒,如果實際輸出文本的標簽不等于1(即標簽等于2),判定該文本表現(xiàn)的是消極情緒, 統(tǒng)計實際輸出文本的標簽與期望輸出文本的標簽之間不同的個數,計算情感分類的準確 率。
[0071] W上運些實施例應理解為僅用于說明本發(fā)明而不用于限制本發(fā)明的保護范圍。在 閱讀了本發(fā)明的記載的內容之后,技術人員可W對本發(fā)明作各種改動或修改,運些等效變 化和修飾同樣落入本發(fā)明權利要求所限定的范圍。
【主權項】
1. 一種融合深層特征和淺層特征的情感分類方法,其特征在于,包括以下步驟: 步驟1:根據準備好的情感文本語料集,人工標記類別,積極情緒的文本語料標簽為1, 消極情緒的文本語料標簽為2,并將情感文本語料集分為訓練語料集和測試語料集,并采用 基于詞典逆向最大匹配算法和統(tǒng)計分詞策略相結合的中文分詞算法對情感文本語料集進 行分詞,然后去除語料中的停用詞; 步驟2:對語料的分詞、去停用詞工作完成后提取語料中的標簽、名詞、副詞、形容詞和 介詞組成新的語料,采用TF-IDF算法對得到的新語料進行訓練并得到情感文本的淺層特征 向量;得到情感文本的淺層特征向量后采用Doc2 vec算法對經過分詞、去停用詞后的語料進 行訓練,得到詞向量模型和情感文本的深層特征向量; 步驟3:將步驟2中得到的淺層特征向量和深層特征向量進行融合,得到新的情感文本 特征向量,所述新的情感文本特征向量包括訓練語料集的情感文本特征向量和測試語料集 的文本特征向量; 步驟4:將步驟3中得到的訓練語料集的情感文本特征向量輸入SVM訓練出情感分類模 型;然后將步驟3中得到的測試語料集的文本特征向量輸入SVM,根據已經訓練好的情感分 類模型進行情感類別分類并計算出情感分類的準確率。2. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法,其特征在于,所述 步驟1采用基于詞典逆向最大匹配算法具體為:分級構造分詞詞典,由核心詞典和臨時詞典 兩部分構成分詞詞典集合,統(tǒng)計出權威性的詞條語料,采用二級哈希結構存儲構造核心詞 典,選取情感詞典作為臨時詞典加載的語料;分詞詞典初步構成后,分詞系統(tǒng)進入自主學習 階段,對情感文本進行分詞時,如果臨時詞典中有新統(tǒng)計的詞,該詞的詞頻加一,否則將該 新詞重新加入臨時詞典;累計詞頻后判斷詞頻是否滿足設定閾值,若滿足則移到核心詞典 中,并在臨時詞典中清空該詞條,統(tǒng)計記錄學習情感文本的數量,若大于預定值,則清空臨 時詞典;采用更新后的核心詞典中的詞條作為分詞依據。3. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法,其特征在于,步驟 1中分完詞后,每個文本是由以空格隔開的單詞組成的文本語料;然后搜集停用詞表,人工 刪除停用詞表中對實驗有用的詞匯,并根據停用詞表去除分完詞后的語料中的停用詞。4. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法,其特征在于,所述 步驟2利用正則表達式,提取經過步驟1分詞、去停用詞后的語料中的標簽、名詞、副詞、形容 詞和介詞組成新的語料,采用TF-IDF算法對得到的新語料進行訓練并得到情感文本的淺層 特征向量,步驟具體為:首先計算一個文本中的其中一個詞的詞頻,然后再計算這個詞的反 文檔頻率,把這個詞的詞頻和反文檔頻率相乘就得到了這個的TF-IDF值;然后將一個情感 文本中的所有詞語都計算一遍,將得到的TF-IDF值放入到一個新的文本中就得到了這個文 本的淺層特征向量,最后計算出所有文本的淺層特征向量。5. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法,其特征在于,所述 步驟2采用Doc2vec對經過步驟1分詞、去停用詞后的語料進行訓練,具體為:使用Doc2 vec中 基于Hierarchical Softmax算法的PV-DM模型,將步驟2中處理好的的語料輸入模型中,把 每個長度可變段落和對應段落中的每個詞分別映射成唯一的段落向量和唯一的詞向量,將 所有文本向量和所有對應的詞向量累加或者連接起來,作為輸出層Softmax的輸入;構建目 標函數,在訓練過程中保持文本向量不變,使用隨機梯度上升法進行詞向量更新,在預測階 段保持已經更新好的詞向量和輸出層Softmax的參數不變,重新利用隨機梯度上升法訓練 待預測的文本,得到最終的情感文本深層特征向量。6. 根據權利要求5所述的融合深層特征和淺層特征的情感分類方法,其特征在于,所述 Doc2vec中基于Hierarchical Softmax算法的PV-DM模型,PV-DM模型的輸入是一個長度可 變的段落Paragraph Id和該段落中的所有單詞Words,Paragraph Id代表的是情感文本,輸 出是根據Paragraph Id和Words預測出的單詞,PV-DM模型的訓練過程:將每個Paragraph I d 和Words分別映射成唯一的段落向量和唯一的詞向量,并且將所有Paragraph Vector按列 放入矩陣D和所有Word Vector按列放入矩陣W中;將Paragraph Vector和WordVector累加 或者連接起來,作為輸出層Softmax的輸入,輸出層Softmax是以Paragraph Id中的詞條作 為葉子結點,詞條在文本語料中出現(xiàn)的次數當作權值,構造的哈弗曼樹。7. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法,其特征在于,所述 步驟3:將步驟2中得到的淺層特征向量和深層特征向量進行融合,得到新的情感文本特征 向量具體為:將所有文本淺層特征向量放入到一個文本中,每一行代表一個文本向量,同樣 將得到的所有深層文本向量也放入到一個文本中,每一行也代表一個文本向量,設定兩種 特征的權重比為1:1,將兩個文本的每一行直接進行首尾相連,得到新的情感文本特征向 量。8. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法,其特征在于,所述 步驟4訓練SVM情感分類模型的具體步驟為:將步驟3中得到的訓練語料集的情感文本特征 向量輸入SVM,最優(yōu)超平面中的核函數設計為非線性核函數,把輸入空間R n映射到m維的特 征空間,在高維空間中構造分界超平面:,將積極情緒文本和消極情緒文 本分開,式中w/是連接特征空間至輸出空間的權值,P為偏置值,Φ (X)為向量X在高維特征 空間的非線性映射,訓練完成后,保存情感分類模型。9. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法,其特征在于,所述 步驟4得到情感分類模型后,將步驟3中得到的測試語料集的情感文本特征向量輸入SVM,根 據已經訓練好的情感分類模型進行情感類別分類,如果實際輸出文本的標簽等于1,判定該 文本表現(xiàn)的是積極情緒,如果實際輸出文本的標簽不等于1即標簽等于2,判定該文本表現(xiàn) 的是消極情緒,統(tǒng)計實際輸出文本的標簽與期望輸出文本的標簽之間不同的個數,計算情 感分類的準確率。
【文檔編號】G06F17/30GK105824922SQ201610151146
【公開日】2016年8月3日
【申請日】2016年3月16日
【發(fā)明人】唐賢倫, 周沖, 周家林, 白銀, 劉想德, 張毅, 馬藝瑋
【申請人】重慶郵電大學