一種改良的文本分類特征選擇方法

文檔序號：10534837閱讀：365來源：國知局

一種改良的文本分類特征選擇方法
【專利摘要】本發(fā)明公開了一種改良的文本分類特征選擇方法，其中，所述一種改良的文本分類特征選擇方法包括：獲取訓練集文本；對獲取的訓練集文本分詞、去除停用詞；改良特征選擇方法，使用特征詞的文本頻率對全體詞集進行劃分，使用信息增益值對低頻詞集進行特征選擇，再通過改進的χ2統(tǒng)計法對高頻詞集進行特征選擇；合并兩部分特征詞形成最終分類特征詞集。采用本發(fā)明，可以通過兩次特征選擇過程，選擇出更具類別代表性的特征詞，提高分類效率和準確度。
【專利說明】
一種改良的文本分類特征選擇方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于文本挖掘技術(shù)領(lǐng)域，特別涉及一種改良的文本分類特征選擇方法。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的發(fā)展，當今世界的信息量也在以驚人的速度不斷增加。如何在較短的時間內(nèi)迅速、有效地處理數(shù)量龐大的文本文檔，已經(jīng)成為當前研究的熱點。傳統(tǒng)的信息檢索技術(shù)已經(jīng)不能夠滿足人們?nèi)找嬖黾拥男枨?，此時，文本分類技術(shù)應(yīng)運而生，文本分類技術(shù)能夠很大程度上解決文本文檔信息量大并且雜亂的問題，幫助人們檢索、查詢、過濾文檔信息，提高信息的可用效率，同時，文本分類也是文本挖掘的重要手段。
[0003] 文本分類即在給定分類體系的前提下，根據(jù)分類體系中相應(yīng)的分類規(guī)則，將待分類文本分配到預定義的某個類別中。文本分類的過程實際上是對輸入文本內(nèi)容模式特征的識別與歸類的過程。文本分類的整個過程可以分為文本預處理、特征選擇、特征值計算、構(gòu) 造分類器、待分類文本的處理及歸類這五個主要部分，其具體流程圖見圖1。
[0004] 經(jīng)過文本預處理之后，用于表示文本的特征向量的維數(shù)往往非常龐大，里面可能含有很多對文本分類無貢獻的噪音詞，導致分類效率降低，影響分類效果。特征選擇能夠通過一定的方法保留對文本分類有一定貢獻的詞匯，降低文本向量空間的維數(shù)，提高分類器的分類效率和分類精度。在中文文本分類中，常用的特征選擇方法主要有以下幾種：
[0005] (1)文檔頻率法（Document Frequency，DF)，是指在訓練預料中出現(xiàn)該特征的文檔數(shù)，其基本思想為文檔頻率較高的詞在文本集中出現(xiàn)的次數(shù)較多，有可能攜帶較多的類別信息。但是采用DF的方法進行特征的選擇會漏掉低頻高信息量的詞。
[0006] (2)信息增益法（Information Gain，IG)，定義為某一特征在文檔中出現(xiàn)前后的信息熵之差，基本思想為通過計算某個詞能為整個分類提供多少信息量來衡量它對于分類的重要程度，其中信息量的多少用熵來衡量。IG算法能夠解決DF算法中出現(xiàn)的漏掉低頻高信息量的詞的問題，但是此算法可能導致特征詞集稀疏。
[0007] (3) x 2統(tǒng)計法（Chi-square，CHI)，基本思想為某個詞關(guān)于類j的x 2統(tǒng)計值越大，說明該詞在類j中的分布情況與該詞在總文檔中的分布情況越不一致，該詞攜帶的類別信息也就越多。CHI算法考慮了特征詞對某一個分類的影響。但是如果出現(xiàn)特征詞均勻的影響全部分類時，則無法取得很好的分類效果。
[0008] (4)互信息法（Mutual Information，MI)，其基本思想與CHI算法類似，互信息值的大小表征的是文檔與類的相關(guān)程度。此法在試驗環(huán)境下性能表現(xiàn)不穩(wěn)定。
[0009] 由上可見，有必要設(shè)計一種更有效的特征選擇方法，以克服各特征選擇算法的不足，選出更具類別代表性的特征詞，進而提高文本分類的準確率和召回率。

【發(fā)明內(nèi)容】

[0010] 為解決現(xiàn)有文本分類特征選擇方法準確度差，特征性不強等不足，本發(fā)明提出了一種基于改良特征選擇的文本分類方法。所述方案包括以下步驟：
[0011] 步驟1:獲取不同類別的一定數(shù)量文本，將其賦予類別標簽，作為文本分類的訓練樣本集；
[0012] 步驟2 :對訓練集的文本進行預處理，包括中文分詞，去停用詞處理；
[0013] 步驟3 :使用改良的特征選擇方法對文本進行特征選擇。其特征在于，所述方法包括：
[0014] 結(jié)合特征詞的文檔頻率（DF)對全體詞集進行劃分，具體為：將預處理后各詞按照文檔頻率進行排序，將詞集T劃分成兩個集合：一個是文檔頻率小于某閾值的詞集TA，一個是文檔頻率大于或等于某閾值的詞集T b。
[0015] 使用信息增益法（IG)對低文檔頻率詞集1\進行特征詞選擇，具體為：設(shè)定一個信息增益值閾值M，計算詞集T A中各詞的信息增益值，將信息增益值小于M的詞刪掉，信息增益值大于等于M的詞作為特征詞保留。
[0016] 使用改進的x 2統(tǒng)計法對高文檔頻率詞集T 8進行特征詞選擇，具體為：計算T 8中每個詞對于各類別CHI統(tǒng)計值的方差;，其中
，n為類別個數(shù)。計算得出的方差可以表征該詞在全部類中分布的不平衡性，方差值越大，分布不平衡性越強，則該詞的分類表征能力越強，攜帶的分類信息越大。
[0017] 按照計算得出的各個詞的CHI統(tǒng)計值方差從高到低的順序?qū)υ~進行排序，得到詞方差降序隊列。
[0018] 整合兩部分特征詞，形成文本分類特征詞集，具體為：指定特征詞總個數(shù)，優(yōu)先選取低文檔頻率詞集T A中的特征詞，根據(jù)選取T A后仍需要選取的特征詞個數(shù)，對應(yīng)在T B的詞方差降序隊列中選取相應(yīng)個數(shù)的詞，與TA中的特征詞共同構(gòu)成分類特征詞集合。
[0019] 本發(fā)明所提供的技術(shù)方案的有益效果是：
[0020] 通過DF對全詞集進行劃分，在低文檔頻率詞集中，利用IG選擇出出現(xiàn)頻率雖低，但是帶有大量信息量的詞，從而同時克服單純使用IG導致特征詞集稀疏以及DF容易丟失低頻關(guān)鍵詞的缺點；選擇對每個詞的各類的CHI統(tǒng)計值求方差的方式，來反映詞對于不同類之間分布情況的"波動程度"，即反映詞與類關(guān)聯(lián)度的特異性，并在高文檔頻率詞集中按此方差值進行篩選，以進一步在高文檔頻率詞集中選出更具代表性的特征詞，最后合并兩部分特征詞，得到更具表征性的特征詞集，在避免維度災難的同時，也可以有效的提升分類的準確性。
【附圖說明】
[0021] 圖1是中文文本分類的一般流程。
[0022] 圖2是本發(fā)明改良后的特征選擇過程的示意圖。
【具體實施方式】
[0023] 為使本發(fā)明之目的、技術(shù)方案和優(yōu)點闡述更加清晰，下面將結(jié)合附圖與實際用例，對本發(fā)明做進一步的詳細描述。
[0024] 利用網(wǎng)絡(luò)爬蟲或人工收集從互聯(lián)網(wǎng)上獲取一定數(shù)量的多個領(lǐng)域中有代表性的文章，對這些文章進行分析整理，按照類別歸入語料訓練集，作為文本分類系統(tǒng)的訓練樣本集。
[0025] 為了從文本中抽取出能夠代表該文本特征的詞語，對其進行分詞、去除停用詞等處理。
[0026] 假設(shè)訓練集E中含有n個類別：心C2, C3,. . . Cn，每個類別里含有若干個文本，訓練集可表示為：
[0027] {E | | dn，d12，d13，…}，{C21 d21，d22，d23，…}，…，{Cn | dnl，dn2，dn3，…}}
[0028] 那么進行了文本預處理之后，訓練集變成了：
[0029] {E | | tn，t12，t13，…}，{C211 21，t22，t23，…}，…，{Cn | tnl，tn2，tn3，…}
[0030] 其中的 bQ = 1，2，…，n ;j = 1，2，…）表示文本 Ui = 1，2，…，n ;j = 1， 2,…）經(jīng)過分詞和去停用詞之后留下的詞的集合。
[0031] 圖2為本發(fā)明所述的改良后特征選擇過程的示意圖，本發(fā)明所述的一種改良的特征選擇方法具體如下：
[0032] 步驟1 :根據(jù)詞的文檔頻率對詞集進行劃分。
[0033] 令詞集T = U b (i = 1，2,. . . n，j = 1，2,...），則T中某個詞t的文檔頻率計算公式如下：
[0034] 乃尸(，)=文2池4);(4 e ￡) J=\
[0035] 其中E為訓練集中的所有文本，&為訓練集中第i類第j個文本，p (t，d d為詞 t和第i類中第j個文本共同出現(xiàn)的概率。
[0036] 設(shè)定文檔頻率閾值為K，則可將詞集T劃分成兩個集合：一個是文檔頻率小于K的詞集T a，一個是文檔頻率大于或等于K的詞集Tb。
[0037] 步驟2 :依據(jù)信息增益值，對低文檔頻率詞集TA進行特征詞選擇。
[0038] 詞集1\中某個詞t的信息增益值的計算公式如下：
[0039] IG{t) = ) log2 p(C,)+pit^piC, 11) log2 p(C, 10+p(〇2p(Q I 〇 l〇g2 P(Q 10 1=1 i=l /=1
[0040] 其中P (Ci)表示文本屬于類別Ci (j = 1，2, ? ? ?，n)的概率，P (t)表示包含詞t的文本出現(xiàn)的概率，表示不包含詞t的文本出現(xiàn)的概率，p (Ci 11)表示文本中包含詞t時屬于類別(^的概率，p(C,. P)表示文本中不包含詞t時屬于類別(^的概率，n表示文本類別總數(shù)。
[0041] 計算詞集TA中各詞的信息增益值，將信息增益值小于預設(shè)閾值M的詞過濾掉，信息增益值大于等于預設(shè)閾值M的詞予以保留。
[0042] 步驟3 :基于改進的x 2統(tǒng)計法對詞集T B進行進一步的選擇。
[0043] 具體包括如下三個步驟：
[0044] 步驟（1)，假設(shè)：詞fat TB)與不同類別的文本之間符合一階自由度的x 2分布，計算該詞的CHI統(tǒng)計值，計算方法為：
[0046] 其中N為訓練集中E的文本數(shù)量。
[0047] 步驟（2)，計算該詞各類別CHI統(tǒng)計值的方差-f)2，將計算得出的方差作 (=1 為該詞在類中的分布情況與該詞在其他類中的分布情況不一致的劇烈程度的一種衡量，其中
，方差越大，說明該詞在各類的分布情況差異性越強，越有可能攜帶大量的分類信息。
[0048] 步驟（3)，按照計算得出的各個詞的CHI統(tǒng)計值方差從高到低的順序?qū)υ~進行排序，得到詞方差降序隊列。
[0049] 步驟4 :整合兩部分特征詞，形成文本分類特征詞集。
[0050] 指定特征詞總個數(shù)，優(yōu)先選取低文檔頻率詞集TA中的特征詞，根據(jù)選取T A后仍需要選取的特征詞個數(shù)，對應(yīng)在高文檔頻率詞集TB的詞方差降序隊列中選取相應(yīng)個數(shù)的特征詞，與1\中選取的特征詞共同構(gòu)成分類特征詞集合。
[0051] 以下以上述過程確定參數(shù)為標準，對應(yīng)用實例進行說明。
[0052] 實施例1
[0053] 步驟1 :利用網(wǎng)絡(luò)爬蟲或人工收集從互聯(lián)網(wǎng)上獲取一定數(shù)量的多個領(lǐng)域中有代表性的文章，對這些文章進行分析整理，按照類別歸入語料訓練集，作為文本分類系統(tǒng)的訓練樣本集。
[0054] 將獲取的文本進行分詞，并去除停用詞。
[0055] 假設(shè)訓練集E中含有3個類別：(；，C2, C3，訓練集可表示為：
[0056] {E | | dn，d12，d13，…}，{C21 d21，d22，d23，…}，{C31 d31，d32，d33，…}
[0057] 那么進行了文本預處理之后，訓練集變成了：
[0058] {E | | tn，t12，t13，…}，{C211 21，t22，t23，…}，{C31131，t 32，t33，…}
[0059] 其中的表示文本Ui = l，2,3;j = 1，2，...）經(jīng)過分詞和去停用詞之后留下的詞的集合。
[0060] 步驟2 :假設(shè)預處理后每個類別中只有三個詞，類Q中有詞w n，w12, w13，類(：2中有詞w21，w22, w23，類C3中有詞w 31，w32, w33。下表以閾值為參考值顯示各詞DF和IG的大小，其中各詞的DF值與閾值K的大小關(guān)系如表一所不，各詞的IG值與閾值M的大小關(guān)系如表二所示：
[0061] 表 1
[0062]
[0063] 表 2
[0064]
[0065] 將預處理后的各詞按照文檔頻率進行排序，將詞集劃分成兩個集合：一個是文檔頻率小于某閾值K的詞集T A (w13, w21，w22, w33)，一個是文檔頻率大于或等于K的詞集TB (wn， W12, W23, W31，W32);
[0066] 步驟3,計算詞集1\中各詞的信息增益值，將信息增益值小于閾值M的詞刪除，信息增益值大于等于M的詞保留，得到詞集T' A(w21，w22);
[0067] 步驟4 :基于改進的x 2統(tǒng)計法對詞集T B進行進一步的特征詞選擇：
[0068] 步驟⑴，計算詞集TB (wn，w12, w23, w31，w32)中每個詞的CHI統(tǒng)計值，以詞w12為例，計算后它的各類的CHI值分別為：
[0072] 其中N為訓練集中E的文本數(shù)量。
[0073] 步驟（2)，計算每個詞各類別CHI統(tǒng)計值的方差。仍以詞w12為例，其CHI統(tǒng)計值
的方差=土(4，、-丫2)2 ，其中。將計算得出的方差作為該 j=i 詞在類中的分布情況與該詞在其他類中的分布情況不一致的劇烈程度的一種衡量，得到五個詞的(^1統(tǒng)計值方差分別為<7?1,，<7~2, 〇^23,〇!'?31，<：^ 32。
[0074] 步驟（3)，按照計算得出的各個詞的CHI統(tǒng)計值方差從高到低的順序?qū)υ~進行排序，得到詞方差降序隊列。
[0075] 設(shè)方差從高到低排列順序為>~12 >心 3, >心32，則基于改進的x2統(tǒng) 計法進一步選擇后，詞集^排列順序為（w n，w12, w23, w31，w32)。
[0076] 步驟5 :整合步驟3和步驟4得到的兩部分特征詞T' JP T B，形成文本分類特征詞集。
[0077] 設(shè)指定的特征詞總個數(shù)為4,優(yōu)先選取低頻詞集T' A中的特征詞w21，w22，由于詞集T',中特征詞個數(shù)為2,少于總個數(shù)4,所以對應(yīng)在詞集T B中還需選取2個特征詞，由于方差從高到低排列順序為心,，>心,2 >心23 >心>心32，所以只需選取特征詞wn，w12，最終選取的分類特征詞集合為T"（w n，w12, w21，w22)。
[0078] 本發(fā)明實施例所提供的技術(shù)方案，能夠選擇出更具類別代表性的特征詞，在平衡召回率和準確率的同時，提高文本分類的速度與精度。
[0079] 通過以上實施方式的描述，本領(lǐng)域的技術(shù)人員可以清楚本發(fā)明的實現(xiàn)方式，本發(fā) 明可以通過軟件編程實現(xiàn)，相應(yīng)的軟件程序可存儲于可讀取的存儲介質(zhì)中，如光盤、硬盤、移動存儲介質(zhì)等。
[0080] 以上為本發(fā)明的具體實施例，但并不用以限制本發(fā)明，對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，凡在不脫離本發(fā)明原理的前提下，所做的任何修改、等同替換、改進等，均應(yīng)包含在本發(fā)明的保護發(fā)明范圍之內(nèi)。
【主權(quán)項】
1. 一種改良的分類文本特征選擇方法，其特征在于，具體包括以下步驟：步驟1 :獲取不同類別的一定數(shù)量文本，將其賦予類別標簽，作為文本分類的訓練樣本集；步驟2 :對訓練集的文本進行預處理，包括中文分詞，去停用詞處理；步驟3 :使用改良的特征選擇方法對文本進行特征選擇。2. 如權(quán)利要求1所述的一種基于改良特征選擇的文本分類方法，其特征在于，步驟3所述的使用改良的特征選擇方法對文本進行特征選擇的方法，具體包括以下步驟：：步驟1 :結(jié)合特征詞的文本頻率（Document Frequency，DF)對全體詞集進行劃分；步驟2 :使用信息增益值（Information Gain，IG)對低頻特征詞集進行特征選擇；步驟3 :使用基于改進的X 2統(tǒng)計法對高頻特征詞集進行特征選擇。步驟4 :整合兩部分特征詞，形成文本分類特征詞集。3. 如權(quán)利要求2所述的一種改良的特征選擇方法，其特征在于，結(jié)合特征詞的文本頻率對全體詞集進行劃分，具體為：將預處理后各詞按照文檔頻率進行排序，將詞集T劃分成兩個集合：一個是文檔頻率小于某閾值的詞集Ta，一個是文檔頻率大于或等于某閾值的詞集TB。4. 如權(quán)利要求2所述的一種改良的特征選擇方法，其特征在于，使用信息增益值對低頻特征詞集進行特征選擇，具體為；設(shè)定一個信息增益值閾值M，計算詞集Ta中各詞的信息增益值，將信息增益值小于M的詞刪掉，信息增益值大于等于M的詞作為特征詞保留。5. 如權(quán)利要求2所述的一種改良的特征選擇方法，其特征在于，使用基于改進的X 2統(tǒng) 計法對高頻特征詞集進行特征選擇，具體為：計算Tb中每個詞對于各類別CHI統(tǒng)計值的方差其中η為分類個數(shù)。計算得出的方差可以表征該詞在全部類中分布的不平衡性，方差值越大，分布不平衡性越強，則該詞的表征能力越強，攜帶的分類信息越大。將計算得出的各個詞的分布方差值從高到低的順序?qū)μ卣髟~進行排序，得到詞分布方差值降序隊列。6. 如權(quán)利要求2所述的一種改良的特征選擇方法，其特征在于，整合兩部分特征詞，形成文本分類特征詞集，具體為：指定特征詞總個數(shù)，優(yōu)先選取低頻詞集Ta中的特征詞，根據(jù)選取T Α后仍需要選取的特征詞個數(shù)，對應(yīng)在1的詞分布方差值降序隊列中選取相應(yīng)個數(shù)的特征詞，與T Α中選取的特征詞共同構(gòu)成分類特征詞集合。
【文檔編號】G06F17/30GK105893380SQ201410795989
【公開日】2016年8月24日
【申請日】2014年12月11日
【發(fā)明人】朱永強, 黃筱聰
【申請人】成都網(wǎng)安科技發(fā)展有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱永強;黃筱聰;
技術(shù)所有人：成都網(wǎng)安科技發(fā)展有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本分類的特征選擇相關(guān)技術(shù)

文本分類特征選擇算法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種改良的文本分類特征選擇方法