一種融合深層特征和淺層特征的情感分類方法

文檔序號：10471214閱讀：3142來源：國知局

一種融合深層特征和淺層特征的情感分類方法
【專利摘要】本發(fā)明請求保護一種融合深層特征和淺層特征的情感分類方法，選用融合Doc2vec的深層特征和TF?IDF的淺層特征來表示文本的特征，該融合方法不僅解決了Doc2vec中固定詞特征表述不清楚的問題，而且也解決了TF?IDF方法沒有考慮到詞語之間語義的問題，使得文本向量對于文本的表示更加清楚。選用SVM分類方法，分類器的分類性能較好。結合上述方法處理情感分類問題可顯著提高情感分類的準確率。
【專利說明】
-種融合深層特征和巧層特征的情感分類方法
技術領域
[0001] 本發(fā)明屬于一種情感分類方法，尤其設及一種融合深層特征和淺層特征的情感分類方法。
【背景技術】
[0002] 情感分析是一種常見的自然語言處理(NLP)方法的應用，特別是在W提取文本的情感內容為目標的分類方法中。情感分類已經有很多有用的實踐，比如企業(yè)分析消費者對產品的反饋信息，或者檢測在線評論中的差評信息。
[0003] 情感文本的向量表示一般有兩種表達方式，One-hot Representation和 Distributed RepresentatioruOne-hot Representation最大的問題是無法分析詞與詞之間的語義關系，此外運種方法還容易發(fā)生維數災難。Dis化化uted R邱resentation方法則很好地克服了運些缺點，其中word2vec就是Distributed Representation的典型代表。 word2vec是深度學習模型，雖然word2vec很好的分析了詞與詞之間的語義關系并且解決了維數災難問題，但是沒有考慮到詞與詞之間的順序問題，因此不同的句子可能會有相同的表示，從而導致誤判率較高。Doc2vec跟word2vec很相似，Doc2vec在word2vec的模型的基礎上增加了一個段落向量(Paragra曲Id)eDoc2vec不但考慮到了詞與詞之間的語義關系，并且解決了維數災難，還考慮到了詞與詞之間的順序問題。雖然Doc2vec解決了詞與詞之間的語義關系，但是詞語本身的特征描述卻被淡化，因此，可W把Doc2vec訓練出來的特征稱為深層特征。
[0004] TF-IDF(te;rm frequen巧-inverse do州ment 打equency)是一種用于資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統(tǒng)計方法，用W評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數成正比增加，但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。用TF-IDF方法來表示文本特征時，文本特征的每一維都表示文本中的一個固定的詞，雖然單個詞語的特征表示很清楚，卻忽略了詞與詞之間的語義關系。因此，與深層特征相對應，把TF-IDF訓練出來的特征稱為淺層特征。
[0005] 融合Doc2vec的深層特征和TF-IDF的淺層特征向量，可彌補兩種算法各自的不足之處，使得文本的特征向量表示更準確，顯著提高情感分類的準確率。

【發(fā)明內容】

[0006] 針對W上技術的不足，提出了一種可顯著提高情感分類的準確率的融合深層特征和淺層特征的情感分類方法。本發(fā)明的技術方案如下：一種融合深層特征和淺層特征的情感分類方法，其包括W下步驟：
[0007] 步驟1:根據已經準備好的情感文本語料集，人工標記類別，積極情緒的文本語料標簽為1，消極情緒的文本語料標簽為2,并將情感文本語料集分為訓練語料集和測試語料集；
[0008] 步驟2:采用基于詞典逆向最大匹配算法和統(tǒng)計分詞策略相結合的中文分詞算法對步驟1中經過人工標記類別的語料進行分詞，然后去除語料中的停用詞；
[0009] 步驟3:對語料的分詞、去停用詞工作完成后提取語料中的標簽、名詞、副詞、形容詞和介詞組成新的語料，采用TF-IDF對得到的新語料進行訓練并得到情感文本的淺層特征向量;得到情感文本的淺層特征向量后采用Doc2vec對經過步驟2分詞、去停用詞后的語料進行訓練，得到詞向量模型和情感文本的深層特征向量；
[0010] 步驟4:將步驟3中得到的淺層特征向量和深層特征向量進行融合，得到新的情感文本特征向量，所述新的情感文本特征向量包括訓練語料集的情感文本特征向量和測試語料集的文本特征向量；
[0011 ]步驟5:將步驟4中得到的訓練語料集的情感文本特征向量輸入SVM訓練出情感分類模型；
[0012] 步驟6:將步驟4中得到的測試語料集的文本特征向量輸入SVM，根據步驟5中已經訓練好的情感分類模型進行情感類別分類并計算出情感分類的準確率。
[0013] 進一步的，所述步驟2采用基于詞典逆向最大匹配算法具體為：分級構造分詞詞典，由核屯、詞典和臨時詞典兩部分構成分詞詞典集合，統(tǒng)計出權威性的詞條語料，采用二級哈希結構存儲構造核屯、詞典，選取情感詞典作為臨時詞典加載的語料;分詞詞典初步構成后，分詞系統(tǒng)進入自主學習階段，對情感文本進行分詞時，如果臨時詞典中有新統(tǒng)計的詞，該詞的詞頻加一，否則將該新詞重新加入臨時詞典；累計詞頻后判斷詞頻是否滿足設定闊值，若滿足則移到核屯、詞典中，并在臨時詞典中清空該詞條，統(tǒng)計記錄學習情感文本的數量，若大于預定值，則清空臨時詞典;采用更新后的核屯、詞典中的詞條作為分詞依據。
[0014] 進一步的，步驟2中分完詞后，每個文本是由W空格隔開的單詞組成的文本語料；然后捜集停用詞表，人工刪除停用詞表中對實驗有用的詞匯，并根據停用詞表去除分完詞后的語料中的停用詞。
[0015] 進一步的，所述步驟3利用正則表達式，提取步驟2中的得到的語料中的標簽、名詞、副詞、形容詞和介詞組成新的語料。
[0016] 進一步的，所述步驟3采用Doc2vec對經過步驟2分詞、去停用詞后的語料進行訓練，具體為：使用0〇。2￥6(3中基于化6拘1^11；[。日150打1]1日義算法的口￥-01模型，將步驟2中處理好的的語料輸入模型中，把每個長度可變段落和對應段落中的每個詞分別映射成唯一的段落向量和唯一的詞向量，將所有文本向量和所有對應的詞向量累加或者連接起來，作為輸出層Softmax的輸入;構建目標函數，在訓練過程中保持文本向量不變，使用隨機梯度上升法進行詞向量更新，在預測階段保持已經更新好的詞向量和輸出層Softmax的參數不變，重新利用隨機梯度上升法訓練待預測的文本，得到最終的情感文本深層特征向量并將運些深層特征向量處理成可W使用SVM的數據格式。
[0017] 進一步的，所述步驟3采用TF-IDF對得到的新語料進行訓練并得到情感文本的淺層特征向量的步驟具體為:首先計算一個文本中的其中一個詞的詞頻，然后再計算運個詞的反文檔頻率，把運個詞的詞頻和反文檔頻率相乘就得到了運個的TF-IDF值;然后將一個情感文本中的所有詞語都計算一遍，將得到的TF-IDF值放入到一個新的文本中就得到了運個文本的淺層特征向量，最后計算出所有文本的淺層特征向量。
[0018] 進一步的，所述步驟4:將步驟3中得到的淺層特征向量和深層特征向量進行融合，得到新的情感文本特征向量具體為:將所有文本淺層特征向量放入到一個文本中，每一行代表一個文本向量，同樣將得到的所有深層文本向量也放入到一個文本中，每一行也代表一個文本向量，設定兩種特征的權重比為1:1，將兩個文本的每一行直接進行首尾相連，得到新的情感文本特征向量。
[0019] 進一步的，所述步驟5具體為:將步驟4中得到的情感文本特征向量輸入SVM，最優(yōu) 超平面中的核函數設計為非線性核函數，把輸入空間r映射到m維的特征空間，在高維空間中構造分界超平面
'將積極情緒文本和消極情緒文本分開，式中w/是連接特征空間至輸出空間的權值，偏置值，Φ (X)為向量X在高維特征空間的非線性映射，訓練完成后，保存情感分類板型。
[0020] 進一步的，所述步驟6具體為將步驟4中的語料中的測試集的文本特征向量輸入 SVM，根據步驟5中已經訓練好的模型進行情感類別分類，如果實際輸出文本的標簽等于1，判定該文本表現(xiàn)的是積極情緒，如果實際輸出文本的標簽不等于1即標簽等于2,判定該文本表現(xiàn)的是消極情緒，統(tǒng)計實際輸出文本的標簽與期望輸出文本的標簽之間不同的個數，計算情感分類的準確率。
[0021 ]進一步的，所述Doc2vec中基于Hierarchical Softmax算法的PV-DM模型，PV-DM模型的輸入是一個長度可變的段落化ragraph Id和該段落中的所有單詞Words paragraph Id代表的是情感文本，輸出是根據化ragraphid和Words預測出的單詞，PV-DM模型的訓練過程:將每個化ragraph Id和Words分別映射成唯一的段落向量和唯一的詞向量，并且將所有化ragraph Vector按列放入矩陣D和所有Word Vector按列放入矩陣W中；將化ragraph Vector和WordVector累加或者連接起來，作為輸出層Softmax的輸入，輸出層Softmax是W Paragra地Id中的詞條作為葉子結點，詞條在文本語料中出現(xiàn)的次數當作權值，構造的哈弗曼樹。
[0022] 本發(fā)明的優(yōu)點及有益效果如下：
[0023] 本發(fā)明選用融合Doc2vec的深層特征和TF-IDF的淺層特征來表示文本的特征，該方法不僅解決了 TF-IDF方法沒有考慮到詞語之間語義的問題，而且也解決了 Doc2vec中固定詞特征表述不清楚的問題。選用SVM分類方法，使得分類器的分類性能得到較好的改善。結合上述方法處理情感分類問題可顯著提高情感分類的準確率。
【附圖說明】
[0024] 圖1是本發(fā)明提供優(yōu)選實施例一種融合深層特征和淺層特征的情感分類方法的流程圖。
【具體實施方式】
[0025] W下結合附圖，對本發(fā)明作進一步說明：
[0026] 如圖1所示，本發(fā)明融合深層和淺層特征的情感分類方法的具體步驟是：
[0027] 步驟1:從網上捜集情感文本語料集，人工標記類別，如情感表現(xiàn)為積極情緒的文本標簽為1，情感表現(xiàn)為消極情緒的文本標簽為2。并且去除文本的首尾空格，將文本里的數據表示成一個句子，運樣方便后續(xù)的處理工作。并將語料集分為訓練集和測試集。訓練集用來訓練情感分類的模型，測試集用來測試模型分類的效果。
[0028] 步驟2:首先從網上捜集情感詞典，情感詞典是文本情感分析的基礎資源，實際就是情感詞的集合。從廣義上講，指包含感情傾向性的短語或者句子;從狹義上講，指包含有感情傾向性的詞語集合。情感詞典一般包含兩個部分，正面情感詞詞典和負面情感詞詞典。
[0029] 然后對步驟1中的語料集進行中文分詞，本文使用的分詞方法是基于詞典逆向最大匹配算法和統(tǒng)計分詞策略相結合的中文分詞算法。分級構造分詞詞典，由核屯、詞典和臨時詞典兩部分構成分詞詞典集合。統(tǒng)計出權威性的詞條語料，采用二級哈希結構存儲構造核屯、詞典。選取情感詞典作為臨時詞典加載的語料。分詞詞典初步構成后，分詞系統(tǒng)進入自主學習的階段，對情感文本進行分詞時，如果臨時詞典中有新統(tǒng)計的詞，該詞的詞頻加一，否則將該新詞重新加入臨時詞典。累計詞頻后判斷詞頻是否滿足設定闊值，若滿足則移到核屯、詞典中，并在臨時詞典中清空該詞條。統(tǒng)計記錄學習情感文本的數量，若大于預定值，則清空臨時詞典。采用更新后的核屯、詞典中的詞條作為分詞依據，采用逆向最大匹配算法進行情感文本的分詞。
[0030] 分完詞后，每個文本是由W空格隔開的單詞組成的文本語料。然后捜集停用詞表，人工刪除停用詞表中對實驗有用的詞匯，并根據停用詞表去除分完詞后的語料中的停用詞。去除停用詞是為了節(jié)省存儲空間和提高效率。
[0031] 步驟3:利用正則表達式，提取步驟2中的得到的語料中的標簽、名詞、副詞、形容詞和介詞組成新的語料。如果文本過大，表示成特征向量時很容易造成維數災難，提取文本中一部分重要的詞語可W更好的表示文本，并且可W解決維數災難問題。
[0032] 步驟4:采用Doc2vec對步驟2中的語料訓練出詞向量模型并得到情感文本深層特征向量。Doc2vec是用來得到詞和文本深層特征的淺層模型，它不但考慮到了各詞之間的語義關系，而且也考慮到了詞與詞之間的順序，能夠很好的表示出詞與文本的特征。Doc2vec 用到兩個重要的模型--PV-DB0W和PV-DM模型，針對PV-DB0W和PV-DM兩種模型又給出了兩套算'法--Hierarchical Softmax和Negative Samp 1 in邑。本文使用基于Hierarchical Softmax算法的PV-DM模型。PV-DM模型的輸入是一個長度可變的段落(Paragra地Id)和該段落中的所有單詞（Words )，本文中的Paragraph Id代表的是情感文本。輸出是根據 Paragra地Id和Words預測出的單詞。
[0033] PV-DM模型的訓練過程：
[0034] 將每個化ragra地Id和Words分別映射成唯一的段落向量(Paragra地Vector)和唯一的詞向量(Word Vector),并且將所有化ragraph Vector按列放入矩陣D和所有Word Vector按列放入矩陣W中。將化ragraph Vector和WordVector累加或者連接起來，作為輸出層Softmax的輸入。輸出層Softmax是W化ragra地Id中的詞條作為葉子結點，詞條在文本語料中出現(xiàn)的次數當作權值，構造的哈弗曼化uffman)樹。建立目標函數：
[0035]
[0036] 其中T代表詞向量的個數，wt，wt-k等代表每個詞向量。
[0037]
[0038] 每個yi是每個詞向量i的未規(guī)范化對數概率，yi的計算公式為：
[0039] y = b+Uh(wt-k, . . .，wt+k;W,D)(3)
[0040] 其中U，b是Softmax的參數，h是由從D和W矩陣中提取的化ragra地Vector和Word Vector累加或者連接構成的。
[0041] 在訓練過程中，Paragraph Id保持不變，文本中的所有單詞共享著同一個化ragraph Vector,相當于每次在預測單詞的概率時，都利用了整個文本的語義。對運個目標函數進行優(yōu)化，從而求得最優(yōu)的詞的向量表示。利用隨機梯度上升法對上式的目標函數進行優(yōu)化，得到迭代過程中詞U的向量0U的更新公式為：
[0044] 9U e RD表示詞U對應的一個輔助向量，1/(U)表示詞U的標簽，VI'閑表示詞《對應的向量，0是一個邏輯回歸函數，心''梓)表示詞完的標簽，η表示學習率。在迭代過程中詞U的向量0U 和詞去的向量W腳都在原來的基礎上進行了更新，使得向量對詞的表達能力更強，向量隨著更新而不斷進化，向量的表示質量也隨著提升。
[0045] 在預測階段，給待預測的文本重新分配一個Paragraph Id,詞向量和輸出層 Softmax的參數保持訓練階段得到的參數不變，重新利用隨機梯度上升法訓練待預測的文本。待收斂后，最終得到了文本的化ragraph Vector,也就是文本的深層特征向量，并將運些深層特征向量處理成可W使用SVM的數據格式。
[0046] 步驟5:采用TF-IDF對步驟3中得到的語料進行訓練并得到情感文本的淺層特征向量。
[0047] 在一個給定的情感文本中，詞頻(term frequency，TF)指的是某一個給定的詞語在該文本中出現(xiàn)的頻率。運個數字是對詞數(term count)的歸一化，W防止它偏向長的文本。（同一個詞語在長文本里可能會比短文本有更高的詞數，而不管該詞語重要與否。）對于在某一特定文件里的詞語ti來說，它的重要性可表示為：
[004引
[0049]其中表示該詞在文本山中出現(xiàn)的次數，而分詞則是在文件山中所有字詞的出現(xiàn) 次數之和。
[00加]逆向文件頻率（inverse document frequency，IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF，可W由總文本數目除W包含該詞語之文本的數目，再將得到的商取對數得到：
[0化1 ]
[0052]其中|D|表示情感語料庫中的文本總數，|{j:tiedj|表示包含詞語ti的文件總數，如果該詞語不在語料庫中，就會導致被除數為零，因此一般情況下使用1+I I，最后得到一個詞語的TF-IDF值為：
[0053] tf i壯i, j = tfi, j X idfi (8)
[0054] 將一個情感文本中的所有詞語都計算一遍，將得到的TF-IDF值放入到一個新的文本中就得到了運個文本的淺層特征向量。然后計算出所有文本的淺層特征向量。
[0055] 步驟6:將步驟4中得到的所有文本的深層特征向量放入到一個文本中，每一行代表一個文本向量，同樣將步驟5中得到的所有文本的淺層特征向量也放入到一個文本中，每一行也代表一個文本向量，由于步驟4中得到的深層特征和步驟5中得到的淺層特征在情感分類中同等重要，因此設定兩種特征的權重比為1:1，將兩個文本的每一行直接進行首尾相連，得到新的情感文本特征向量。
[0056] 步驟7:將步驟6中的語料中的訓練集的文本特征向量輸入SVM訓練出情感分類模型。
[0057] 引入非線性函數Φ(χ)，把輸入空間r映射到m維的特征空間，然后在高維空間中構造一個分界超平面，該超平面可W定義如下：
[0化引
[0059] 其中w/是連接特征空間至輸出空間的權值，護為偏置值。
[0060] 為了獲得最優(yōu)超平面，權向量和偏置值應最小化，而且滿足約束條件:yi(wxi+b)> 1-Ci，i = l，2, . . .，m，式中，Ci是正松弛變量，增加松弛變量的可容錯性。根據結構風險最小化原理，運時最小化目標函數為：
[0061]
[0062]其中C是懲罰參數，依據拉格朗日定理，引入拉格朗日乘子日1，核函數Κ(χι，χ)=φ (Xi) Φ (X)，可轉化成求解下述目標函數最小值：
[0069] 訓練完成后，保存情感分類模型。
[0070] 步驟8:將步驟6中的語料中的測試集的文本特征向量輸入SVM，根據步驟7中已經訓練好的模型進行情感類別分類，如果實際輸出文本的標簽等于1，判定該文本表現(xiàn)的是積極情緒，如果實際輸出文本的標簽不等于1(即標簽等于2)，判定該文本表現(xiàn)的是消極情緒，統(tǒng)計實際輸出文本的標簽與期望輸出文本的標簽之間不同的個數，計算情感分類的準確率。
[0071] W上運些實施例應理解為僅用于說明本發(fā)明而不用于限制本發(fā)明的保護范圍。在閱讀了本發(fā)明的記載的內容之后，技術人員可W對本發(fā)明作各種改動或修改，運些等效變化和修飾同樣落入本發(fā)明權利要求所限定的范圍。
【主權項】
1. 一種融合深層特征和淺層特征的情感分類方法，其特征在于，包括以下步驟：步驟1:根據準備好的情感文本語料集，人工標記類別，積極情緒的文本語料標簽為1，消極情緒的文本語料標簽為2,并將情感文本語料集分為訓練語料集和測試語料集，并采用基于詞典逆向最大匹配算法和統(tǒng)計分詞策略相結合的中文分詞算法對情感文本語料集進行分詞，然后去除語料中的停用詞；步驟2:對語料的分詞、去停用詞工作完成后提取語料中的標簽、名詞、副詞、形容詞和介詞組成新的語料，采用TF-IDF算法對得到的新語料進行訓練并得到情感文本的淺層特征向量;得到情感文本的淺層特征向量后采用Doc2 vec算法對經過分詞、去停用詞后的語料進行訓練，得到詞向量模型和情感文本的深層特征向量；步驟3:將步驟2中得到的淺層特征向量和深層特征向量進行融合，得到新的情感文本特征向量，所述新的情感文本特征向量包括訓練語料集的情感文本特征向量和測試語料集的文本特征向量；步驟4:將步驟3中得到的訓練語料集的情感文本特征向量輸入SVM訓練出情感分類模型;然后將步驟3中得到的測試語料集的文本特征向量輸入SVM，根據已經訓練好的情感分類模型進行情感類別分類并計算出情感分類的準確率。2. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法，其特征在于，所述步驟1采用基于詞典逆向最大匹配算法具體為:分級構造分詞詞典，由核心詞典和臨時詞典兩部分構成分詞詞典集合，統(tǒng)計出權威性的詞條語料，采用二級哈希結構存儲構造核心詞典，選取情感詞典作為臨時詞典加載的語料;分詞詞典初步構成后，分詞系統(tǒng)進入自主學習階段，對情感文本進行分詞時，如果臨時詞典中有新統(tǒng)計的詞，該詞的詞頻加一，否則將該新詞重新加入臨時詞典；累計詞頻后判斷詞頻是否滿足設定閾值，若滿足則移到核心詞典中，并在臨時詞典中清空該詞條，統(tǒng)計記錄學習情感文本的數量，若大于預定值，則清空臨時詞典;采用更新后的核心詞典中的詞條作為分詞依據。3. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法，其特征在于，步驟 1中分完詞后，每個文本是由以空格隔開的單詞組成的文本語料;然后搜集停用詞表，人工刪除停用詞表中對實驗有用的詞匯，并根據停用詞表去除分完詞后的語料中的停用詞。4. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法，其特征在于，所述步驟2利用正則表達式，提取經過步驟1分詞、去停用詞后的語料中的標簽、名詞、副詞、形容詞和介詞組成新的語料，采用TF-IDF算法對得到的新語料進行訓練并得到情感文本的淺層特征向量，步驟具體為:首先計算一個文本中的其中一個詞的詞頻，然后再計算這個詞的反文檔頻率，把這個詞的詞頻和反文檔頻率相乘就得到了這個的TF-IDF值;然后將一個情感文本中的所有詞語都計算一遍，將得到的TF-IDF值放入到一個新的文本中就得到了這個文本的淺層特征向量，最后計算出所有文本的淺層特征向量。5. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法，其特征在于，所述步驟2采用Doc2vec對經過步驟1分詞、去停用詞后的語料進行訓練，具體為:使用Doc2 vec中基于Hierarchical Softmax算法的PV-DM模型，將步驟2中處理好的的語料輸入模型中，把每個長度可變段落和對應段落中的每個詞分別映射成唯一的段落向量和唯一的詞向量，將所有文本向量和所有對應的詞向量累加或者連接起來，作為輸出層Softmax的輸入;構建目標函數，在訓練過程中保持文本向量不變，使用隨機梯度上升法進行詞向量更新，在預測階段保持已經更新好的詞向量和輸出層Softmax的參數不變，重新利用隨機梯度上升法訓練待預測的文本，得到最終的情感文本深層特征向量。6. 根據權利要求5所述的融合深層特征和淺層特征的情感分類方法，其特征在于，所述 Doc2vec中基于Hierarchical Softmax算法的PV-DM模型，PV-DM模型的輸入是一個長度可變的段落Paragraph Id和該段落中的所有單詞Words，Paragraph Id代表的是情感文本，輸出是根據Paragraph Id和Words預測出的單詞，PV-DM模型的訓練過程:將每個Paragraph I d 和Words分別映射成唯一的段落向量和唯一的詞向量，并且將所有Paragraph Vector按列放入矩陣D和所有Word Vector按列放入矩陣W中；將Paragraph Vector和WordVector累加或者連接起來，作為輸出層Softmax的輸入，輸出層Softmax是以Paragraph Id中的詞條作為葉子結點，詞條在文本語料中出現(xiàn)的次數當作權值，構造的哈弗曼樹。7. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法，其特征在于，所述步驟3:將步驟2中得到的淺層特征向量和深層特征向量進行融合，得到新的情感文本特征向量具體為:將所有文本淺層特征向量放入到一個文本中，每一行代表一個文本向量，同樣將得到的所有深層文本向量也放入到一個文本中，每一行也代表一個文本向量，設定兩種特征的權重比為1:1，將兩個文本的每一行直接進行首尾相連，得到新的情感文本特征向量。8. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法，其特征在于，所述步驟4訓練SVM情感分類模型的具體步驟為:將步驟3中得到的訓練語料集的情感文本特征向量輸入SVM，最優(yōu)超平面中的核函數設計為非線性核函數，把輸入空間R n映射到m維的特征空間，在高維空間中構造分界超平面：，將積極情緒文本和消極情緒文本分開，式中w/是連接特征空間至輸出空間的權值，P為偏置值，Φ (X)為向量X在高維特征空間的非線性映射，訓練完成后，保存情感分類模型。9. 根據權利要求1所述的融合深層特征和淺層特征的情感分類方法，其特征在于，所述步驟4得到情感分類模型后，將步驟3中得到的測試語料集的情感文本特征向量輸入SVM，根據已經訓練好的情感分類模型進行情感類別分類，如果實際輸出文本的標簽等于1，判定該文本表現(xiàn)的是積極情緒，如果實際輸出文本的標簽不等于1即標簽等于2,判定該文本表現(xiàn) 的是消極情緒，統(tǒng)計實際輸出文本的標簽與期望輸出文本的標簽之間不同的個數，計算情感分類的準確率。
【文檔編號】G06F17/30GK105824922SQ201610151146
【公開日】2016年8月3日
【申請日】2016年3月16日
【發(fā)明人】唐賢倫, 周沖, 周家林, 白銀, 劉想德, 張毅, 馬藝瑋
【申請人】重慶郵電大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：唐賢倫;周沖;周家林;白銀;劉想德;張毅;馬藝瑋;
技術所有人：重慶郵電大學;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

情感特征相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種融合深層特征和淺層特征的情感分類方法