亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于支持向量機(jī)的文本情感分析方法及設(shè)備的制造方法

文檔序號(hào):9865534閱讀:470來(lái)源:國(guó)知局
一種基于支持向量機(jī)的文本情感分析方法及設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種基于SVM (Suppod Vector Machine,支持向量機(jī))的文本情感分析方法及設(shè)備。
【背景技術(shù)】
[0002] 隨著用戶創(chuàng)造內(nèi)容、分享內(nèi)容的網(wǎng)絡(luò)信息模式的出現(xiàn)與普及,W及網(wǎng)絡(luò)媒體的內(nèi) 容、形式等的日益豐富,網(wǎng)絡(luò)中帶有個(gè)人情感色彩的文本也越來(lái)越多,尤其W各類論壇、微 博等形式的網(wǎng)絡(luò)媒體為典型。送些文本中的內(nèi)容通常是用戶對(duì)一些新聞時(shí)事、法規(guī)政策、公 眾人物、消費(fèi)產(chǎn)品、影視娛樂等話題的個(gè)人評(píng)論,反映的是用戶個(gè)體的觀點(diǎn)和意見,因而,對(duì) 送些反映用戶個(gè)體觀點(diǎn)和意見的文本的內(nèi)容進(jìn)行分析,可W幫助用戶及時(shí)發(fā)現(xiàn)產(chǎn)品缺點(diǎn), W便為改良產(chǎn)品、提升用戶產(chǎn)品體驗(yàn)提供便利。除此之外,也可W使得用戶能夠?qū)π侣剷r(shí) 事、公眾人物、影視娛樂等輿情進(jìn)行相應(yīng)地監(jiān)督。
[000引但是,由于隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)中的信息資源(如能夠反映用戶個(gè)體觀 點(diǎn)和意見的文本資源)的數(shù)量日益龐大,因而,對(duì)網(wǎng)絡(luò)中的上述能夠反映用戶個(gè)體觀點(diǎn)和 意見的文本資源進(jìn)行整理與分析的復(fù)雜度也變得越來(lái)較高,因此,如何采用機(jī)器自動(dòng)處理 的手段對(duì)送些文本的內(nèi)容進(jìn)行相應(yīng)地情感分析與判別,已成為當(dāng)前互聯(lián)網(wǎng)智能信息處理的 一個(gè)研究熱點(diǎn)。
[0004] 目前,業(yè)界常采用W下基于機(jī)器學(xué)習(xí)的方法對(duì)文本進(jìn)行相應(yīng)地情感分析;采用 MI (詞條與類別的互信息)、IG(信息增益)、CHI (統(tǒng)計(jì)方法)或DF(文檔頻率)等四種方 法對(duì)待分析文本進(jìn)行特征選取,之后,再使用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)方法,如SVM等分類算法對(duì)提 取到的特征項(xiàng)進(jìn)行情感分類。
[000引但是,由于目前,在使用SVM分類器對(duì)文本進(jìn)行褒義、貶義、中立等情感類別的分 類時(shí),沒有對(duì)分類的順序進(jìn)行優(yōu)化,且由于SVM分類器通常為二分類,即為了將文本分成褒 義、貶義、中立Η類,需用二級(jí)SVM來(lái)實(shí)現(xiàn),從而導(dǎo)致會(huì)存在分類錯(cuò)誤在越靠近前面的SVM中 發(fā)生,則對(duì)SVM分類器整體性能的影響就越大的問題,使得分類的準(zhǔn)確性較低。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明實(shí)施例提供了一種基于SVM的文本情感分析方法及設(shè)備,用W解決現(xiàn)有技 術(shù)中存在的文本情感分類不準(zhǔn)確的問題。
[0007] 本發(fā)明實(shí)施例提供了一種基于SVM的文本情感分析方法,包括:
[000引提取待分析文本中的各特征項(xiàng);
[0009] 計(jì)算提取到的各特征項(xiàng)的特征權(quán)值,并根據(jù)提取到的各特征項(xiàng)W及各特征項(xiàng)的特 征權(quán)值構(gòu)造與所述待分析文本相對(duì)應(yīng)的文本向量;
[0010] 計(jì)算各設(shè)定文本類的類間距離,并根據(jù)計(jì)算得到的各設(shè)定文本類的類間距離,選 取對(duì)應(yīng)的類間距離最大的一文本類作為第一級(jí)分類,將剩余的其他各文本類作為第二級(jí)分 類,并按照所述第一級(jí)分類的分類順序優(yōu)先于所述第二級(jí)分類的分類方式,采用SVM對(duì)所 述文本向量中的各特征項(xiàng)進(jìn)行分類。
[0011] 進(jìn)一步地,本發(fā)明實(shí)施例還提供了一種基于SVM的文本情感分析設(shè)備,包括:
[0012] 提取模塊,用于提取待分析文本中的各特征項(xiàng);
[0013] 構(gòu)造模塊,用于計(jì)算提取到的各特征項(xiàng)的特征權(quán)值,并根據(jù)提取到的各特征項(xiàng)W 及各特征項(xiàng)的特征權(quán)值構(gòu)造與所述待分析文本相對(duì)應(yīng)的文本向量;
[0014] 分類模塊,用于計(jì)算各設(shè)定文本類的類間距離,并根據(jù)計(jì)算得到的各設(shè)定文本類 的類間距離,選取對(duì)應(yīng)的類間距離最大的一文本類作為第一級(jí)分類,將剩余的其他各文本 類作為第二級(jí)分類,并按照所述第一級(jí)分類的分類順序優(yōu)先于所述第二級(jí)分類的分類方 式,采用SVM對(duì)所述文本向量中的各特征項(xiàng)進(jìn)行分類。
[0015] 本發(fā)明有益效果如下:
[0016] 本發(fā)明實(shí)施例提供了一種基于SVM的文本情感分析方法及設(shè)備,在本發(fā)明所述技 術(shù)方案中,通過計(jì)算提取到的待分析文本中的各特征項(xiàng)的特征權(quán)值,并根據(jù)提取到的各特 征項(xiàng)W及各特征項(xiàng)的特征權(quán)值構(gòu)造與所述待分析文本相對(duì)應(yīng)的文本向量,W及在采用SVM 對(duì)所述文本向量中的各特征項(xiàng)進(jìn)行分類時(shí),根據(jù)各設(shè)定文本類的類間距離對(duì)各文本類的分 類順序進(jìn)行優(yōu)化,如將所對(duì)應(yīng)的類間距離最大的一類文本,即最容易區(qū)分的文本類作為第 一級(jí)分類,將剩余的其他各文本類,即相對(duì)不容易區(qū)分的文本類作為第二級(jí)分類,從而提高 了基于SVM的文本情感分類的準(zhǔn)確性。
【附圖說(shuō)明】
[0017] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本 領(lǐng)域的普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W根據(jù)送些附圖獲得其他 的附圖。
[0018] 圖1所示為本發(fā)明實(shí)施例一提供的一種基于SVM的文本情感分析方法的流程圖;
[0019] 圖2所示為本發(fā)明實(shí)施例二提供的一種基于SVM的文本情感分析設(shè)備的結(jié)構(gòu)示意 圖。
【具體實(shí)施方式】
[0020] 為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn) 一步地詳細(xì)描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施 例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的 所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0021] 實(shí)施例一:
[0022] 本發(fā)明實(shí)施例一提供了一種基于SVM的文本情感分析方法,如圖1所示,其為本發(fā) 明實(shí)施例一所述文本情感分析方法的流程示意圖,所述方法可包括W下步驟:
[0023] 步驟101 ;提取待分析文本中的各特征項(xiàng)。
[0024] 其中,所述特征項(xiàng)通常是指文本中的具備相應(yīng)情感傾向的詞語(yǔ)或詞匯,如"漂亮"、 "優(yōu)雅"等。
[0025] 步驟102 ;計(jì)算提取到的各特征項(xiàng)的特征權(quán)值,并根據(jù)提取到的各特征項(xiàng)W及各 特征項(xiàng)的特征權(quán)值構(gòu)造與所述待分析文本相對(duì)應(yīng)的文本向量。
[0026] 步驟103 ;計(jì)算各設(shè)定文本類的類間距離,并根據(jù)計(jì)算得到的各設(shè)定文本類的類 間距離,選取對(duì)應(yīng)的類間距離最大的一文本類作為第一級(jí)分類,將剩余的其他各文本類作 為第二級(jí)分類,并按照所述第一級(jí)分類的分類順序優(yōu)先于所述第二級(jí)分類的分類方式,采 用SVM對(duì)所述文本向量中的各特征項(xiàng)進(jìn)行分類。
[0027] 具體地,所述設(shè)定文本類至少包括褒義、貶義、中立Η類文本類。
[0028] 也就是說(shuō),在本發(fā)明所述技術(shù)方案中,通過計(jì)算提取到的待分析文本中的各特征 項(xiàng)的特征權(quán)值,并根據(jù)提取到的各特征項(xiàng)W及各特征項(xiàng)的特征權(quán)值構(gòu)造與所述待分析文本 相對(duì)應(yīng)的文本向量,W及在采用SVM分類器對(duì)所述文本向量中的各特征項(xiàng)進(jìn)行分類時(shí),根 據(jù)各設(shè)定文本類的類間距離對(duì)各文本類的分類順序進(jìn)行優(yōu)化,如將所對(duì)應(yīng)的類間距離最大 的一類文本,即最容易區(qū)分的文本類作為第一級(jí)分類,將剩余的其他各文本類,即相對(duì)不容 易區(qū)分的文本類作為第二級(jí)分類,從而提高了 SVM分類器的準(zhǔn)確性,進(jìn)而提高了文本情感 分類的準(zhǔn)確性,并且,還可達(dá)到提高文本
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1