亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種文本情感分析特征驗(yàn)證的前置處理方法

文檔序號:9708429閱讀:601來源:國知局
一種文本情感分析特征驗(yàn)證的前置處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于文本情感分析領(lǐng)域,具體涉及一種文本情感分析特征驗(yàn)證的前置處理方法。
【背景技術(shù)】
[0002]現(xiàn)有的文本分類特征選擇和驗(yàn)證方案在內(nèi)容領(lǐng)域分類上已經(jīng)有很好的效果,但應(yīng)用在情感分析領(lǐng)域時(shí)具有以下的問題:
[0003]1、針對通用的適用場景,對情感分析這一業(yè)務(wù)領(lǐng)域不夠深入,尤其是在互聯(lián)網(wǎng)上情感信息存在明顯的非平衡語料分布,人工構(gòu)造情感分析語料集時(shí)容易錯誤分類等問題,現(xiàn)有算法對這兩個問題的考慮普遍不足;
[0004]2、針對不同特征提取算法的通用驗(yàn)證比較基礎(chǔ),缺乏實(shí)際應(yīng)用上的最佳實(shí)踐設(shè)計(jì)。比如常用的驗(yàn)證方法中TFIDF關(guān)注詞頻,但對出現(xiàn)頻度不高的關(guān)鍵詞容易忽視;而相對的信息增益考慮了特征出現(xiàn)與否,但由于不考慮詞頻,對低頻詞的作用又容易夸大。
[0005]同時(shí),現(xiàn)有的情感分析技術(shù)方案具有以下問題:
[0006]1、大部分現(xiàn)有中文情感分析算法的準(zhǔn)確率偏低,缺少能夠指導(dǎo)算法改進(jìn)的特征驗(yàn)證或者特征選擇方案,比如根據(jù)第五屆中文傾向性分析評測研討會C0AE2013的結(jié)果,正確率普遍在60%左右;
[0007]2、文本信息由特征向量構(gòu)成表示,但由于缺乏公認(rèn)的領(lǐng)域最佳實(shí)踐,情感分析的建模和算法也是五花八門,因此對情感分析特征向量的識別驗(yàn)證方案也需要考慮這些算法和模型各自的特點(diǎn),比如常用的詞袋,n-gram,word2vec等多種模型等。
[0008]綜上,本發(fā)明旨在解決文本情感分析領(lǐng)域的特征驗(yàn)證問題中的特征向量集輸入處理步驟,即得出特征是否適用于情感分析這一結(jié)論的初步判斷,并生成有用信息用于后續(xù)處理。

【發(fā)明內(nèi)容】

[0009]為了克服現(xiàn)有技術(shù)的上述缺點(diǎn),本發(fā)明提供了一種文本情感分析特征驗(yàn)證的前置處理方法。
[0010]本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種文本情感分析特征驗(yàn)證的前置處理方法,包括如下步驟:
[0011 ]步驟一、對原始訓(xùn)練集的預(yù)處理得到預(yù)處理信息:
[0012]S1、確定原始訓(xùn)練集的概要,并輸出結(jié)果sample_struct,包括:樣本總體數(shù)量參數(shù)sample_size、情感分類的分布參數(shù)sample_dist和文本信息分布內(nèi)容參數(shù)sample_text_info;
[0013]S2、輸入待驗(yàn)證的特征向量集,確定原特征向量集的概要,并輸出結(jié)果vector—struct,包括:多標(biāo)號參數(shù)vector—mult1、硬性柔性參數(shù)vector—prop和特征向量的維度參數(shù)vector_dimen;[ΟΟ? 4] S3、對原始數(shù)據(jù)進(jìn)行擴(kuò)充,并輸出結(jié)果addt 1n_sets:包括:
[0015](1)若特征向量的維度參數(shù)vector_dimen是低維的且不包含詞頻信息,則構(gòu)建基于詞袋模型的特征向量,對低維度的特征向量進(jìn)行補(bǔ)充,得到詞頻信息補(bǔ)充結(jié)果tf_addit1n_set;
[0016](2)若情感分類的分布參數(shù)sample_dist分布不均衡,則對訓(xùn)練集進(jìn)行均衡化處理,得到均衡化處理結(jié)果even_addit1n_set ;
[ΟΟ?7] S4、構(gòu)造出整合后的預(yù)處理信息,包括:原始特征向量集origin_set、追加特征向量集addt1n_sets、特征向量集屬性vector_struct、訓(xùn)練集屬性sample_struct;
[0018]步驟二、對預(yù)處理信息進(jìn)行特征驗(yàn)證和特征選擇:
[0019]S1、對于原始特征向量集:根據(jù)sample_size值和vector_dimen值,在同時(shí)進(jìn)行基于交叉驗(yàn)證做判斷標(biāo)準(zhǔn)的特征選擇和基于bootstrap來驗(yàn)證分類準(zhǔn)確率兩種處理之后,對處理結(jié)果乘以不同的權(quán)重;
[0020]S2、對于參考向量集:逐個特征向量集采用通用的InfoGain選擇出代表性的特征項(xiàng);采用類bagging算法構(gòu)建向量集,對向量集中的每個向量通過多數(shù)投票的方式確定理論推算的分類值,再通過向量集的推算分類值與訓(xùn)練集的實(shí)際分類值的差距獲得訓(xùn)練集信息。
[0021]與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果是:本發(fā)明從訓(xùn)練集和特征向量兩個方面著手生成分析信息,既保障了評估結(jié)論的信息豐富程度,同時(shí)又有助于提高整個情感分析流程的準(zhǔn)確度。本發(fā)明還具備良好的通用性和可擴(kuò)展性,對各種不同建模和實(shí)現(xiàn)的情感分析算法都能發(fā)揮良好效果,具體表現(xiàn)如下:
[0022]1、將訓(xùn)練集和原始特征向量集的數(shù)據(jù)屬性單獨(dú)提取出;
[0023]2、整合多種算法生成作為參照對比的特征向量集,并保留擴(kuò)展能力;
[0024]3、將情感詞頻信息和TFIDF詞頻信息整合后追加到原始特征中;
[0025]4、修正非均衡訓(xùn)練集的情感分類分布;
[0026]5、對原始情感特征向量集結(jié)合特征選擇和假設(shè)檢驗(yàn)算法進(jìn)行深度分析;
[0027]6、對原始情感分析算法進(jìn)行逐特征刪除然后進(jìn)行卡方檢驗(yàn)作對比驗(yàn)證;
[0028]7、對多參考特征向量集抽取模型作為廣度分析的基礎(chǔ)。
【附圖說明】
[0029]本發(fā)明將通過例子并參照附圖的方式說明,其中:
[0030]圖1是對原始訓(xùn)練集的預(yù)處理流程圖;
[0031]圖2是特征驗(yàn)證和特征選擇流程圖。
【具體實(shí)施方式】
[0032]一種文本情感分析特征驗(yàn)證的前置處理方法,包括如下步驟:
[0033]1.對原始訓(xùn)練集的預(yù)處理得到預(yù)處理信息:
[0034]如圖1所示,本步驟包括如下具體內(nèi)容:
[0035]1.1.對原始訓(xùn)練集進(jìn)行概要分析,輸出結(jié)果記為sample_struct:
[0036](1)判斷樣本總體數(shù)量是否夠大:將判斷結(jié)果用參數(shù)sample_size表示,對于情感分析樣本,樣本夠大表示各有效分類的不重復(fù)樣本數(shù)在1000以上。
[0037](2)判斷情感分類的分布是否均衡:將判斷結(jié)果用參數(shù)sample_dist表示,其中包括不同分類的樣本數(shù)量,如果不同分類的樣本個數(shù)相差不大,則均衡;否則不均衡。
[0038](3)獲得文本信息分布內(nèi)容,用參數(shù)sample_teXt_info表示,包括:字?jǐn)?shù)、句數(shù)和段數(shù);
[0039]概要分析的結(jié)果會體現(xiàn)在整個流程的輸出中,在后續(xù)處理中發(fā)揮輸入?yún)?shù)的作用。
[0040]1.2.輸入待驗(yàn)證的特征向量集并判斷,輸出結(jié)果記為vector_struct:
[0041](1)是多標(biāo)號還是單標(biāo)號,即除了情感特征外,是否包含其他分類信息,記為參數(shù)vector—multi;
[0042](2)分析結(jié)果是硬性還是柔性,即分析結(jié)果是否由多項(xiàng)情感值的取值概率構(gòu)成,記為參數(shù) vector_prop ;
[0043](3)特征向量的維度(向量個數(shù))是否夠高(向量個數(shù)大于500或者大于樣本個數(shù)的20%則維度高),是否包含詞頻信息,記為參數(shù)vector_dimen。
[0044]1.3.數(shù)據(jù)擴(kuò)充,輸出結(jié)果記為addt1n_sets
[0045]本步驟從多個方面對原始數(shù)據(jù)進(jìn)行擴(kuò)充,互為參照,從而提供算法調(diào)整方向的綜合考量依據(jù)。
[0046]1.3.1.詞頻信息補(bǔ)充,處理結(jié)果記為tf_addit1n_set。根據(jù)特征向量的維度vector_dimen,若特征向量集是低維的且不包含詞頻信息,則需要構(gòu)建基于詞袋模型的特征向量,從而允許對低維度的特征向量進(jìn)行補(bǔ)充,主要包括以下訓(xùn)練集處理方式:
[0047 ] 1)基于情感詞典生成詞袋特征向量,每項(xiàng)特征值是詞頻與情感值之積:
[0048]2)基于TFIDF提取出的詞典生成詞袋特征向量:
[0049]添加的新特征需要使用加權(quán)平均KL散度進(jìn)行降維處理。
[0050]本步驟通過進(jìn)行向量集補(bǔ)充,確保詞信息在情感分析中被考慮到,并能結(jié)合經(jīng)驗(yàn)性的情感詞典和通用的詞頻詞典兩方面的信息優(yōu)勢,同時(shí)保持兩種信息的獨(dú)立性。
[°°51 ] 1.3.2.訓(xùn)練集均衡化,處理結(jié)果記為even_addit1n_set。根據(jù)情感分類的分布sample_dist,對于訓(xùn)練集中情感分類分布不均的情況,需要通過重復(fù)選取偏少類型或者減少偏多類型的方式進(jìn)行均衡化處理,之后重新按照給定的情感分析算法生成參考向量集。
[0052]本步驟通過對比均衡與非均衡測試集的處理結(jié)果,提供后續(xù)調(diào)整的依據(jù)。
[0053 ] 1.3.3.模型中保留擴(kuò)展空間,允許自行添加生成附加向量集的方案,輸出
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1