亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于支持向量機(jī)的文本情感分析方法及設(shè)備的制造方法_2

文檔序號(hào):9865534閱讀:來源:國(guó)知局
情感分類的效率的效果。
[0029] 下面分別對(duì)本發(fā)明實(shí)施例提供的基于SVM的文本情感分析方法的各步驟進(jìn)行詳 細(xì)的說明。
[0030] 對(duì)于步驟101,提取待分析文本中的各特征項(xiàng),具體可實(shí)施為W下步驟,包括:
[0031] S11 ;提取所述待分析文本中的各情感詞。
[0032] 可選地,可根據(jù)預(yù)設(shè)的情感詞詞典(如動(dòng)態(tài)情感詞詞典、靜態(tài)情感詞詞典等)提取 待分析文本中的各情感詞,如可通過將待分析文本中的各詞語或詞匯與預(yù)設(shè)的情感詞詞典 進(jìn)行比對(duì)的方式,提取待分析文本中的各情感詞。
[0033] 另外需要說明的是,在本發(fā)明所述實(shí)施例中,在提取待分析文本中的各特征項(xiàng)之 前,可通過離線挖掘的方式來預(yù)先獲取或建立相應(yīng)的情感詞詞典(即情感詞數(shù)據(jù)庫(kù)),并 且,所述情感詞詞典還可根據(jù)實(shí)際情況進(jìn)行實(shí)時(shí)變更,W達(dá)到實(shí)時(shí)更新相應(yīng)的情感詞資源 的目的,本發(fā)明實(shí)施例對(duì)此不作賞述。
[0034] 進(jìn)一步地,在提取待分析文本中的各情感詞之前或在提取待分析文本中的各特征 項(xiàng)之前,可先對(duì)所述待分析文本進(jìn)行預(yù)處理,如對(duì)所述待分析文本進(jìn)行分詞、詞性標(biāo)注W及 去掉停止詞等,W便提高提取各情感詞的效率。
[0035] S12;針對(duì)提取到的每一情感詞,若確定所述情感詞為動(dòng)態(tài)情感詞,則根據(jù)句法依 存關(guān)系提取所述情感詞所修飾的目標(biāo)詞,并將所述情感詞與所述目標(biāo)詞一并作為動(dòng)態(tài)情感 詞特征項(xiàng);W及,若確定所述情感詞為靜態(tài)情感詞,則根據(jù)句法依存關(guān)系提取所述情感詞的 修飾詞,并將所述修飾詞與所述情感詞一并作為靜態(tài)情感詞特征項(xiàng);其中,所述靜態(tài)情感詞 為具有固定褒貶含義的情感詞(即其所具備的情感傾向不會(huì)隨著所修飾目標(biāo)詞的不同而 變更);所述動(dòng)態(tài)情感詞為修飾不同目標(biāo)詞時(shí)具有不同褒貶含義的情感詞。
[0036] 具體地,針對(duì)任一情感詞,當(dāng)確定該情感詞可與預(yù)設(shè)的動(dòng)態(tài)情感詞詞典中的某一 情感詞相匹配時(shí),可確定該情感詞為動(dòng)態(tài)情感詞。類似地,針對(duì)任一情感詞,當(dāng)確定該情感 詞可與預(yù)設(shè)的靜態(tài)情感詞詞典中的某一情感詞相匹配時(shí),可確定該情感詞為靜態(tài)情感詞。
[0037] 進(jìn)一步地,由于對(duì)于動(dòng)態(tài)情感詞,例如;"高"等,當(dāng)其修飾"油耗"(即"高油耗") 時(shí),為貶義,當(dāng)其修飾"質(zhì)量"(即"高質(zhì)量")時(shí),為褒義,所W在提取待分析文本中的特征 項(xiàng)時(shí),需將動(dòng)態(tài)情感詞與其修飾的目標(biāo)詞一起作為特征項(xiàng)進(jìn)行提取,才能準(zhǔn)確地分析出句 子含義的傾向。具體地,可根據(jù)預(yù)設(shè)的動(dòng)態(tài)情感詞詞典提取待分析文本中的動(dòng)態(tài)情感詞,然 后根據(jù)句法依存關(guān)系提取該動(dòng)態(tài)情感詞所修飾的目標(biāo)詞,W及修飾該動(dòng)態(tài)情感詞的程度 副詞、否定副詞等。舉例說明幾種模式的動(dòng)態(tài)情感詞與其修飾的目標(biāo)詞的句法依存關(guān)系結(jié) 構(gòu),可W如下表1所示:
[0038] 表1動(dòng)態(tài)情感詞與目標(biāo)詞的依存關(guān)系結(jié)構(gòu)
[0039]
[0040] 其中,SBV表示主謂關(guān)系(即subject-verb),V0B表示動(dòng)賓關(guān)系(即 verb-object), ADV表示程度副詞(或狀中結(jié)構(gòu),即adverbial), ATT表示定中關(guān)系(即 attribute)。
[0041] 再有,由于對(duì)于靜態(tài)情感詞,例如;漂亮等,當(dāng)其前面的修飾副詞為否定時(shí),即"不 漂亮"為貶義,當(dāng)其前面的修飾副詞為程度副詞時(shí),如"非常漂亮"為褒義,所W句子含義 的傾向不僅與靜態(tài)情感詞有關(guān),還會(huì)受到一些修飾副詞(比如:很、一點(diǎn)點(diǎn)、非常等)、否定 詞和轉(zhuǎn)折詞的影響,因此在提取待分析文本中的特征項(xiàng)時(shí),需將靜態(tài)情感詞W及修飾該靜 態(tài)情感詞的修飾詞一起作為特征項(xiàng)進(jìn)行提取。具體地,可根據(jù)預(yù)設(shè)的靜態(tài)情感詞詞典提取 待分析文本中的靜態(tài)情感詞,然后根據(jù)句法依存關(guān)系提取該靜態(tài)情感詞的修飾詞,如否定 詞、程度副詞等。舉例說明幾種模式的修飾詞與靜態(tài)情感詞的句法依存關(guān)系結(jié)構(gòu),可W是如 下表2所示:
[0042] 表2修飾詞與情感詞的依存關(guān)系結(jié)構(gòu)
[0043]
[0044] 其中,DEN表示否定副詞,ADV表示程度副詞,W表示情感詞。
[0045] 進(jìn)一步地,在提取靜態(tài)情感詞特征項(xiàng)和動(dòng)態(tài)情感詞特征項(xiàng)之后,為了便于查找提 取到的各特征項(xiàng),可W對(duì)提取靜態(tài)情感詞特征項(xiàng)和動(dòng)態(tài)情感詞特征項(xiàng)進(jìn)行特征表示,W靜 態(tài)情感詞特征項(xiàng)為例,靜態(tài)情感詞特征項(xiàng)的特征表示對(duì)應(yīng)關(guān)系可W如下表3所示:
[0046] 表3靜態(tài)情感詞特征項(xiàng)的特征表示
[0047]
[0048] 也就是說,在本發(fā)明所述實(shí)施例中,提取待分析分本中的特征項(xiàng)時(shí),在傳統(tǒng)的單純 提取情感詞特征的基礎(chǔ)上考慮了漢語句子的句法依存關(guān)系,從而提高了文本情感分類的準(zhǔn) 確性。
[0049] 進(jìn)一步地,對(duì)于步驟102,計(jì)算提取到的各特征項(xiàng)的特征權(quán)值,具體可實(shí)施為W下 步驟,包括:
[0050] 根據(jù)詞頻-反文檔頻率TFIDF公式計(jì)算提取到的各特征項(xiàng)的特征權(quán)值。
[0051] 其中,TFIDF公式可W是如下公式:
[0052]
[0053] 其中,W(t,d)表示文檔d中的特征項(xiàng)t的特征權(quán)值,tf (t,d)為特征項(xiàng)t在文檔d 中出現(xiàn)的頻次,N為文檔總數(shù),rit為含有特征項(xiàng)t的文本的數(shù)量,a是一個(gè)常量,一般,可取 0. 01。
[0054] 進(jìn)一步地,對(duì)于步驟103,各文本類的類間距離可W通過W下方式計(jì)算得到:
[00巧]S21 ;確定各文本類的類中必;其中,每一文本類的類中必(具體表現(xiàn)為類中必向 量)是通過對(duì)所述文本類的各訓(xùn)練樣本(具體表現(xiàn)為訓(xùn)練樣本向量,其中,每一訓(xùn)練樣本向 量包括至少一個(gè)與相應(yīng)特征項(xiàng)相對(duì)應(yīng)的分向量)的每一分向量維度上取平均值來得到的。 [005引具體地,假設(shè)文本類1與文本類2的訓(xùn)練樣本分別為{xi,而,…,xJ,ix'i, X 2,…,X J,則兩個(gè)文本類的類中必可分別表示為:
[0057]
[005引其中,m與m'分別為文本類1和文本類2的類中必;叫與Π 2分別為文本類1和文 本類2所對(duì)應(yīng)的樣本個(gè)數(shù),其取值分別為大于等于1的任意正整數(shù);與X' 1分別為文本類 1和文本類2中的第i個(gè)訓(xùn)練樣本。
[0059] S22 ;針對(duì)任意兩個(gè)文本類,計(jì)算所述任意兩個(gè)文本類的類中必之間的歐式距離, 并將計(jì)算得到的所述任意兩個(gè)文本類的類中必之間的歐式距離作為所述任意兩個(gè)文本類 之間的距離。
[0060] 具體地,仍W上述文本類1與文本類2為例,計(jì)算該兩個(gè)文本類的類中必之間的歐 式距離的公式可W如下式所示:
[0061]
[006引其中,d(m,m')為文本類1與文本類2的類中必之間的歐式距離,K(Xi,Xj)為文本 類1中的兩個(gè)訓(xùn)練樣本之間的歐式距離,Κ(Χι,X ,)為文本類1中的訓(xùn)練樣本與文 本類2中的訓(xùn)練樣本X' j之間的歐式距離,Κ(Χι',X j)為文本類2中的兩個(gè)訓(xùn)練樣本Xi'、 X' j之間的歐式距離,Πι為文本類1的訓(xùn)練樣本的個(gè)數(shù),ri2為文本類2的訓(xùn)練樣本的個(gè)數(shù)。
[0063] S23 ;針對(duì)任一文本類,將所述任一文本類與其他各文本類之間的距離中的最小距 離作為所述任一文本類的類間距離。
當(dāng)前第2頁(yè)1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1