一種文本情感分析特征驗(yàn)證的前置處理方法

文檔序號：9708429閱讀：601來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本情感分析特征驗(yàn)證的前置處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于文本情感分析領(lǐng)域，具體涉及一種文本情感分析特征驗(yàn)證的前置處理方法。
【背景技術(shù)】
[0002]現(xiàn)有的文本分類特征選擇和驗(yàn)證方案在內(nèi)容領(lǐng)域分類上已經(jīng)有很好的效果，但應(yīng)用在情感分析領(lǐng)域時(shí)具有以下的問題:
[0003]1、針對通用的適用場景，對情感分析這一業(yè)務(wù)領(lǐng)域不夠深入，尤其是在互聯(lián)網(wǎng)上情感信息存在明顯的非平衡語料分布，人工構(gòu)造情感分析語料集時(shí)容易錯誤分類等問題，現(xiàn)有算法對這兩個問題的考慮普遍不足；
[0004]2、針對不同特征提取算法的通用驗(yàn)證比較基礎(chǔ)，缺乏實(shí)際應(yīng)用上的最佳實(shí)踐設(shè)計(jì)。比如常用的驗(yàn)證方法中TFIDF關(guān)注詞頻，但對出現(xiàn)頻度不高的關(guān)鍵詞容易忽視;而相對的信息增益考慮了特征出現(xiàn)與否，但由于不考慮詞頻，對低頻詞的作用又容易夸大。
[0005]同時(shí)，現(xiàn)有的情感分析技術(shù)方案具有以下問題:
[0006]1、大部分現(xiàn)有中文情感分析算法的準(zhǔn)確率偏低，缺少能夠指導(dǎo)算法改進(jìn)的特征驗(yàn)證或者特征選擇方案，比如根據(jù)第五屆中文傾向性分析評測研討會C0AE2013的結(jié)果，正確率普遍在60%左右；
[0007]2、文本信息由特征向量構(gòu)成表示，但由于缺乏公認(rèn)的領(lǐng)域最佳實(shí)踐，情感分析的建模和算法也是五花八門，因此對情感分析特征向量的識別驗(yàn)證方案也需要考慮這些算法和模型各自的特點(diǎn)，比如常用的詞袋，n-gram，word2vec等多種模型等。
[0008]綜上，本發(fā)明旨在解決文本情感分析領(lǐng)域的特征驗(yàn)證問題中的特征向量集輸入處理步驟，即得出特征是否適用于情感分析這一結(jié)論的初步判斷，并生成有用信息用于后續(xù)處理。

【發(fā)明內(nèi)容】

[0009]為了克服現(xiàn)有技術(shù)的上述缺點(diǎn)，本發(fā)明提供了一種文本情感分析特征驗(yàn)證的前置處理方法。
[0010]本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種文本情感分析特征驗(yàn)證的前置處理方法，包括如下步驟:
[0011 ]步驟一、對原始訓(xùn)練集的預(yù)處理得到預(yù)處理信息:
[0012]S1、確定原始訓(xùn)練集的概要，并輸出結(jié)果sample_struct，包括:樣本總體數(shù)量參數(shù)sample_size、情感分類的分布參數(shù)sample_dist和文本信息分布內(nèi)容參數(shù)sample_text_info；
[0013]S2、輸入待驗(yàn)證的特征向量集，確定原特征向量集的概要，并輸出結(jié)果vector—struct，包括:多標(biāo)號參數(shù)vector—mult1、硬性柔性參數(shù)vector—prop和特征向量的維度參數(shù)vector_dimen；[ΟΟ? 4] S3、對原始數(shù)據(jù)進(jìn)行擴(kuò)充，并輸出結(jié)果addt 1n_sets:包括:
[0015](1)若特征向量的維度參數(shù)vector_dimen是低維的且不包含詞頻信息，則構(gòu)建基于詞袋模型的特征向量，對低維度的特征向量進(jìn)行補(bǔ)充，得到詞頻信息補(bǔ)充結(jié)果tf_addit1n_set；
[0016](2)若情感分類的分布參數(shù)sample_dist分布不均衡，則對訓(xùn)練集進(jìn)行均衡化處理，得到均衡化處理結(jié)果even_addit1n_set ；
[ΟΟ?7] S4、構(gòu)造出整合后的預(yù)處理信息，包括:原始特征向量集origin_set、追加特征向量集addt1n_sets、特征向量集屬性vector_struct、訓(xùn)練集屬性sample_struct;
[0018]步驟二、對預(yù)處理信息進(jìn)行特征驗(yàn)證和特征選擇:
[0019]S1、對于原始特征向量集:根據(jù)sample_size值和vector_dimen值，在同時(shí)進(jìn)行基于交叉驗(yàn)證做判斷標(biāo)準(zhǔn)的特征選擇和基于bootstrap來驗(yàn)證分類準(zhǔn)確率兩種處理之后，對處理結(jié)果乘以不同的權(quán)重；
[0020]S2、對于參考向量集:逐個特征向量集采用通用的InfoGain選擇出代表性的特征項(xiàng);采用類bagging算法構(gòu)建向量集，對向量集中的每個向量通過多數(shù)投票的方式確定理論推算的分類值，再通過向量集的推算分類值與訓(xùn)練集的實(shí)際分類值的差距獲得訓(xùn)練集信息。
[0021]與現(xiàn)有技術(shù)相比，本發(fā)明的積極效果是:本發(fā)明從訓(xùn)練集和特征向量兩個方面著手生成分析信息，既保障了評估結(jié)論的信息豐富程度，同時(shí)又有助于提高整個情感分析流程的準(zhǔn)確度。本發(fā)明還具備良好的通用性和可擴(kuò)展性，對各種不同建模和實(shí)現(xiàn)的情感分析算法都能發(fā)揮良好效果，具體表現(xiàn)如下:
[0022]1、將訓(xùn)練集和原始特征向量集的數(shù)據(jù)屬性單獨(dú)提取出；
[0023]2、整合多種算法生成作為參照對比的特征向量集，并保留擴(kuò)展能力；
[0024]3、將情感詞頻信息和TFIDF詞頻信息整合后追加到原始特征中；
[0025]4、修正非均衡訓(xùn)練集的情感分類分布；
[0026]5、對原始情感特征向量集結(jié)合特征選擇和假設(shè)檢驗(yàn)算法進(jìn)行深度分析；
[0027]6、對原始情感分析算法進(jìn)行逐特征刪除然后進(jìn)行卡方檢驗(yàn)作對比驗(yàn)證；
[0028]7、對多參考特征向量集抽取模型作為廣度分析的基礎(chǔ)。
【附圖說明】
[0029]本發(fā)明將通過例子并參照附圖的方式說明，其中:
[0030]圖1是對原始訓(xùn)練集的預(yù)處理流程圖；
[0031]圖2是特征驗(yàn)證和特征選擇流程圖。
【具體實(shí)施方式】
[0032]一種文本情感分析特征驗(yàn)證的前置處理方法，包括如下步驟:
[0033]1.對原始訓(xùn)練集的預(yù)處理得到預(yù)處理信息:
[0034]如圖1所示，本步驟包括如下具體內(nèi)容:
[0035]1.1.對原始訓(xùn)練集進(jìn)行概要分析，輸出結(jié)果記為sample_struct:
[0036](1)判斷樣本總體數(shù)量是否夠大:將判斷結(jié)果用參數(shù)sample_size表示，對于情感分析樣本，樣本夠大表示各有效分類的不重復(fù)樣本數(shù)在1000以上。
[0037](2)判斷情感分類的分布是否均衡:將判斷結(jié)果用參數(shù)sample_dist表示，其中包括不同分類的樣本數(shù)量，如果不同分類的樣本個數(shù)相差不大，則均衡;否則不均衡。
[0038](3)獲得文本信息分布內(nèi)容，用參數(shù)sample_teXt_info表示，包括:字?jǐn)?shù)、句數(shù)和段數(shù)；
[0039]概要分析的結(jié)果會體現(xiàn)在整個流程的輸出中，在后續(xù)處理中發(fā)揮輸入?yún)?shù)的作用。
[0040]1.2.輸入待驗(yàn)證的特征向量集并判斷，輸出結(jié)果記為vector_struct:
[0041](1)是多標(biāo)號還是單標(biāo)號，即除了情感特征外，是否包含其他分類信息，記為參數(shù)vector—multi；
[0042](2)分析結(jié)果是硬性還是柔性，即分析結(jié)果是否由多項(xiàng)情感值的取值概率構(gòu)成，記為參數(shù) vector_prop ；
[0043](3)特征向量的維度(向量個數(shù))是否夠高(向量個數(shù)大于500或者大于樣本個數(shù)的20%則維度高)，是否包含詞頻信息，記為參數(shù)vector_dimen。
[0044]1.3.數(shù)據(jù)擴(kuò)充，輸出結(jié)果記為addt1n_sets
[0045]本步驟從多個方面對原始數(shù)據(jù)進(jìn)行擴(kuò)充，互為參照，從而提供算法調(diào)整方向的綜合考量依據(jù)。
[0046]1.3.1.詞頻信息補(bǔ)充，處理結(jié)果記為tf_addit1n_set。根據(jù)特征向量的維度vector_dimen，若特征向量集是低維的且不包含詞頻信息，則需要構(gòu)建基于詞袋模型的特征向量，從而允許對低維度的特征向量進(jìn)行補(bǔ)充，主要包括以下訓(xùn)練集處理方式:
[0047 ] 1)基于情感詞典生成詞袋特征向量，每項(xiàng)特征值是詞頻與情感值之積:
[0048]2)基于TFIDF提取出的詞典生成詞袋特征向量:
[0049]添加的新特征需要使用加權(quán)平均KL散度進(jìn)行降維處理。
[0050]本步驟通過進(jìn)行向量集補(bǔ)充，確保詞信息在情感分析中被考慮到，并能結(jié)合經(jīng)驗(yàn)性的情感詞典和通用的詞頻詞典兩方面的信息優(yōu)勢，同時(shí)保持兩種信息的獨(dú)立性。
[°°51 ] 1.3.2.訓(xùn)練集均衡化，處理結(jié)果記為even_addit1n_set。根據(jù)情感分類的分布sample_dist，對于訓(xùn)練集中情感分類分布不均的情況，需要通過重復(fù)選取偏少類型或者減少偏多類型的方式進(jìn)行均衡化處理，之后重新按照給定的情感分析算法生成參考向量集。
[0052]本步驟通過對比均衡與非均衡測試集的處理結(jié)果，提供后續(xù)調(diào)整的依據(jù)。
[0053 ] 1.3.3.模型中保留擴(kuò)展空間，允許自行添加生成附加向量集的方案，輸出

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅鷹;張鑫陽;林康;
技術(shù)所有人：成都科來軟件有限公司;
我是此專利的發(fā)明人

上一篇：一種圖像關(guān)鍵詞檢查方法及裝置的制造方法
上一篇：一種網(wǎng)頁信息提取方法及其設(shè)備的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本處理方法相關(guān)技術(shù)

特征處理方法相關(guān)技術(shù)

文本情感分析相關(guān)技術(shù)

情感電臺文本相關(guān)技術(shù)

文本情感分析算法相關(guān)技術(shù)

文本情感分類相關(guān)技術(shù)

文本情感分析軟件相關(guān)技術(shù)

文本情感分析工具相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種文本情感分析特征驗(yàn)證的前置處理方法