本發(fā)明涉及文本挖掘與機器學習技術領域,尤其涉及一種重要性加權的文本分類特征選擇方法。
背景技術:
文本分類問題是一類特殊的機器學習問題。通常的做法是,采用向量空間模型,將文本表示成多維特征空間上的點,然后再借助各種機器學習算法進行學習以及判別。在一個文本分類問題中,通??梢杂谐汕先f的特征可用來確定這樣一個語義空間。但不同特征對類別的區(qū)分能力卻有很大不同,為了獲得理想的分類準確率以及較高的處理效率,通常需要使用特征選擇技術來從可能的候選特征集合中確定一個相對精簡、更有效的一個特征子集。
在過去幾十年中,機器學習領域的專家學者提出了各種不同的特征選擇方法?,F(xiàn)有的特征選擇方法大致可以分為兩大類:選擇法和重構法。選擇法從候選特征集中確定一個子集,而重構法從候選集合轉換生成一個小規(guī)模的特征集合,其中的特征通常與候選集合中的特征完全不一樣。選擇法因為實現(xiàn)簡單、易于理解和解釋而得到較廣泛應用。在選擇法中,通常采用過濾的策略,即為每個候選特征計算一個類別區(qū)分能力的統(tǒng)計量,然后選擇取值較高的若干特征構造語義空間。常用的統(tǒng)計量有:信息增益、開方檢驗、互信息、差異率等等。
作為一類特殊的機器學習問題,文本分類有其獨特性,如特征在文本中的重要性差別很大。有些特征或詞匯對確定文本的語義很重要,而另外一些卻無足輕重,完全可以忽略。在計算特征類別區(qū)分能力的統(tǒng)計量時,現(xiàn)有的方法對每個特征對所在樣本的代表能力(即重要性)不做區(qū)分。這在解決其他類型數(shù)據(jù)的分類問題中通常是可行的,但對于文本數(shù)據(jù)來說,卻存在很大缺陷。
因此,本發(fā)明致力于開發(fā)一種特別針對文本數(shù)據(jù)的、能夠更準確地確定每個特征的類別區(qū)分能力的特征選擇方法。
技術實現(xiàn)要素:
有鑒于現(xiàn)有技術的上述缺陷,本發(fā)明所要解決的技術問題是提供一種重要性加權的文本分類特征選擇方法,改進了多種統(tǒng)計量的計算,可以更準確地確定每個特征的類別區(qū)分能力。
為實現(xiàn)上述目的,本發(fā)明提供了一種重要性加權的文本分類特征選擇方法,包括:
第一步驟:統(tǒng)計各候選特征在各類別中出現(xiàn)的數(shù)據(jù)信息,統(tǒng)計時特別考慮了候選特征對文本的語義代表程度,即重要性;
第二步驟:使用在第一步驟得到的所述數(shù)據(jù)信息,利用相關性統(tǒng)計量計算公式,計算各個候選特征對各個類別的區(qū)分能力;
第三步驟:匯總計算各個候選特征對所有類別的總體區(qū)分能力,并且依據(jù)各個候選特征對所有類別的總體區(qū)分能力對所有候選特征進行排序,并且輸出經(jīng)由排序得到的特征列表。
優(yōu)選地,第二步驟利用如下開方檢驗統(tǒng)計量計算公式
其中,Ai表示有多少包含預定特征t的樣本屬于預定類別CLSi;
Bi表示有多少包含預定特征t的樣本不屬于預定類別CLSi;
Ci表示有多少屬于預定類別CLSi的樣本但不包含預定特征t;
Di表示有多少樣本既不屬于預定類別CLSi也不包含預定特征t。
優(yōu)選地,第二步驟也可以利用如下信息增益統(tǒng)計量計算公式
其中
其中,Ai表示有多少包含特征t的樣本屬于預定類別CLSi;
Bi表示有多少包含特征t的樣本不屬于預定類別CLSi;
Ci表示有多少屬于預定類別CLSi的樣本但不包含特征t;
Di表示有多少樣本既不屬于預定類別CLSi也不包含特征t。
優(yōu)選地,第一步驟包括:
首先,對文本進行預處理以得到包含詞語、字符串、數(shù)字、符號中的一個或多個的混合序列,混合序列中的每一項記作為一個標記,而且每個標記作為一個候選特征。
然后,構建一個標記與標識符的映射表,其中為每個標記賦予以一個唯一的標識符;
此后,記錄每個候選特征在各個類別樣本中出現(xiàn)的統(tǒng)計數(shù)據(jù),建立并初始化一個計數(shù)器矩陣,矩陣中的每一項對應于相應候選特征在每個類別上的統(tǒng)計數(shù)據(jù);
接著,依次處理標注了類別信息的文本集合中的每個樣本,統(tǒng)計在樣本中出現(xiàn)的每個候選特征在該樣本中的出現(xiàn)頻次,并按照出現(xiàn)頻次的大小進行排列。
優(yōu)選地,每出現(xiàn)一個屬于預定類別CLSi并且含有預定特征t的樣本dj,就使得Ai遞增α,其中α∈[0,1],α的值表示預定特征t對預定樣本dj的語義代表程度。
優(yōu)選地,利用如下公式計算α:
其中|dj|表示樣本dj中可能的候選特征總數(shù),TF表示特征頻數(shù)。
優(yōu)選地,在第三步驟,依據(jù)各個候選特征對所有類別的總體區(qū)分能力對所有候選特征進行降序排列。
以下將結合附圖對本發(fā)明的構思、具體結構及產(chǎn)生的技術效果作進一步說明,以充分地解釋說明本發(fā)明的目的、特征和效果。
附圖說明
結合附圖,并通過參考下面的詳細描述,將會更容易地對本發(fā)明有更完整的理解并且更容易地理解其伴隨的優(yōu)點和特征,其中:
圖1是根據(jù)本發(fā)明優(yōu)選實施例的基于統(tǒng)計量的特征選擇基本流程示意圖。
圖2A示出了在20Newsgroup數(shù)據(jù)集上使用信息增益(IG)做特征選擇的系統(tǒng)性能。
圖2B示出了在20Newsgroup數(shù)據(jù)集上使用開方檢驗(CHI)做特征選擇的系統(tǒng)性能。
圖3A示出了在Sector數(shù)據(jù)集上使用信息增益(IG)做特征選擇的系統(tǒng)性能。
圖3B示出了在Sector數(shù)據(jù)集上使用開方檢驗(CHI)做特征選擇的系統(tǒng)性能。
圖4A示出了在Nlpcc2014數(shù)據(jù)集上使用信息增益(IG)做特征選擇的系統(tǒng)性能。
圖4B示出了在Nlpcc2014數(shù)據(jù)集上使用開方檢驗(CHI)做特征選擇的系統(tǒng)性能。
需要說明的是,附圖用于說明本發(fā)明,而非限制本發(fā)明。注意,表示結構的附圖可能并非按比例繪制。并且,附圖中,相同或者類似的元件標有相同或者類似的標號。
具體實施方式
在計算用于特征選擇的統(tǒng)計量時,現(xiàn)有的方法通常忽略了各個候選特征在文本中的重要程度的差異,而把它們一視同仁,這樣就不可避免地引入一些噪音,影響到準確測定每個候選特征的類別區(qū)分能力。本發(fā)明針對這一問題,提出了一種重要性加權的文本分類特征選擇策略,在多個文本分類問題上的實驗表明:與以往不考慮特征重要性的方法相比,本發(fā)明的策略能有效提高各種統(tǒng)計量對特征類別區(qū)分能力的測定,進而進一步提高特征選擇的有效性。
下面將具體描述本發(fā)明的原理以及優(yōu)選實施例。
為計算一個特征t對某個類別CLSi的區(qū)分能力,通常需要統(tǒng)計以下四個量:
Ai:有多少包含特征t的樣本屬于類別CLSi;
Bi:有多少包含特征t的樣本不屬于類別CLSi;
Ci:有多少屬于類別CLSi的樣本但不包含特征t;
Di:有多少樣本既不屬于類別CLSi也不包含特征t。
有了以上四個量,開方檢驗(Chi-Square)統(tǒng)計量可以采用下面公式(1)計算得到:
其中,M表示需要考慮的類別總數(shù)。
類似地,信息增益(information gain)統(tǒng)計量可以由公式(2)、(3)、(4)計算得到:
其中
用現(xiàn)有方法計算特征選擇統(tǒng)計量(如信息增益和開方檢驗)時,通常采用二元策略來統(tǒng)計Ai、Bi、Ci及Di的值。例如,依次讀取各個樣本,每出現(xiàn)一個屬于類別CLSi并且含有特征t的樣本dj,就使得Ai遞增1。而在本發(fā)明提出的重要性加權的特征選擇策略中,不是為Ai加1,而是為Ai遞增α∈[0,1],這個α的值表示特征t在樣本dj中的重要程度,即對樣本dj的語義代表程度。α值的計算可以有不同的公式,一種簡單的計算方式如下:
其中|dj|表示樣本dj中可能的候選特征總數(shù),TF表示特征頻數(shù)。公式(5)中分母部分計算候選特征的最大特征頻數(shù),即出現(xiàn)次數(shù)最多的特征的出現(xiàn)個數(shù)。公式(5)實際計算了特征t在樣本dj中的相對頻數(shù)。一般來說,可以認為出現(xiàn)頻繁的特征相對更重要。
當特征t在樣本dj中出現(xiàn)時,可以用公式(5)計算Ai和Bi,但當特征t不在樣本dj中出現(xiàn)時,對于如何計算Ci與Di,可以采用以下三種策略:
最小重要性MIN:用樣本dj中所有特征的最小重要性值做α;
平均重要性AVG:用樣本dj中所有特征的平均重要性值做α;
最大重要性MAX:用樣本dj中所有特征的最大重要性值做α(=1)。
參照圖1,下面給出使用重要性加權的文本分類特征選擇策略的具體實施步驟。
圖1是根據(jù)本發(fā)明優(yōu)選實施例的基于統(tǒng)計量的特征選擇基本流程示意圖。
如圖1所示,根據(jù)本發(fā)明優(yōu)選實施例的重要性加權的文本分類特征選擇方法包括:
第一步驟101:統(tǒng)計各候選特征在各類別中出現(xiàn)的數(shù)據(jù)信息,統(tǒng)計時特別考慮了候選特征對文本的語義代表程度,即重要性;也就是說,統(tǒng)計采用了候選特征對文本的語義代表程度,即重要性;
具體地,對于第一步驟,可以執(zhí)行下述步驟:
首先,對文本進行預處理,例如分詞、標記化(tokenization)等,得到詞語、字符串、數(shù)字、符號等的混合序列,混合序列中的每一項記作為一個標記(token),而且每個標記作為一個候選特征。
然后,構建一個標記與標識符的映射表,其中為每個標記賦予以一個唯一的標識符。
此后,記錄每個候選特征在各個類別樣本中出現(xiàn)的統(tǒng)計數(shù)據(jù),建立并初始化一個計數(shù)器矩陣,矩陣中的每一項對應于相應候選特征在每個類別上的統(tǒng)計數(shù)據(jù)(矩陣中的所有項的初值設置為0)。
接著,依次處理標注了類別信息的文本集合中的每個樣本,統(tǒng)計在樣本中出現(xiàn)的每個候選特征在該樣本中的出現(xiàn)頻次,并按照出現(xiàn)頻次的大小進行排列。具體地,樣本的類別信息是知道的,這樣就可以調(diào)整在樣本中出現(xiàn)的每個候選特征在各類別中出現(xiàn)的統(tǒng)計數(shù)據(jù);例如,遞增的增加量由下面公式計算得到:
上面的公式實際計算了某個候選特征t在樣本dj中的相對頻數(shù)。在此認為出現(xiàn)頻繁的特征相對更重要。
為了后期計算的方便性,通常還保留有某個樣本中所有候選特征的平均重要性、最小重要性、最大重要性的取值以及求和的結果。
第二步驟102:使用在第一步驟得到的所述數(shù)據(jù)信息,利用相關性統(tǒng)計量計算公式,計算各個候選特征對各個類別的區(qū)分能力;
特征與類別的相關性可以有多種方式進行計算,比較常見的兩種是:開方檢驗和信息增益。
開方檢驗(Chi-Square)統(tǒng)計量可以采用下面公式計算得到:
其中,M表示需要考慮的類別總數(shù)。
類似地,信息增益(information gain)統(tǒng)計量可以由下面的公式計算得到:
而函數(shù)e(x,y)的計算方法如下:
由此,在本步驟中,利用第一步驟101得到的統(tǒng)計數(shù)據(jù)再套入上面相關性統(tǒng)計量計算公式得到各個候選特征對各個類別的區(qū)分能力。
第三步驟103:匯總計算各個候選特征對所有類別的總體區(qū)分能力,并且依據(jù)各個候選特征對所有類別的總體區(qū)分能力對所有候選特征進行排序(例如,降序排列),并且輸出經(jīng)由排序得到的特征列表。
其中,對于匯總計算各個候選特征對所有類別的總體區(qū)分能力,一個文本分類問題通常是一個多類別的問題,即需要考慮的類別數(shù)量是多于一個的。與此同時,一個候選特征對不同類別的區(qū)分能力是不同的。因此,需要匯總計算各個候選特征對所有類別的總體區(qū)分能力。常用的有最大法和求和法(亦即平均法),這里使用性能較好的求和法。
本發(fā)明在以下3個數(shù)據(jù)集合上實驗比較了本發(fā)明提出的策略與已有方法的性能差異:
·20Newsgroups:20個類別,11293個訓練樣本,7528個測試樣本,共有73712個候選特征;
·Sector:105個類別,6412個訓練樣本,3207個測試樣本,共有48988個候選特征;
·Nlpcc2014:247個類別,11385個訓練樣本,11577個測試樣本,共有425488個候選特征。
這3個數(shù)據(jù)集合在類別分布均衡性上差別很大:20Newsgroups數(shù)據(jù)集合是均衡的,Sector數(shù)據(jù)集有一定的不均衡性,而Nlpcc2014數(shù)據(jù)集有相當高的類別分布不均衡性。
實驗時,使用Liblinear算法做分類,使用Stanford切分程序做分詞。使用Micro-Averaging F1和Macro-Averaging F1做評價指標,分別選取值最高的前100、200、300、…、10000特征做訓練與分類。分別比較了原始信息增益(IG)以及重要性加權的信息增益(IWIG)特征選擇方法和原始開方檢驗(CHI)以及重要性加權的開方檢驗(IWCHI)特征選擇方法在3個數(shù)據(jù)集合上的分類性能。
嘗試了MIN、AVG以及MAX三種不同的策略計算Ci與Di的值,得到了基本一致的實驗結果。為節(jié)省篇幅,在下面的敘述中只給出使用MAX這種最簡單的計算策略得到的實驗結果。
圖2A和圖2B、圖3A和圖3B、圖4A和圖4B分別給出了在3個數(shù)據(jù)集合上的實驗結果??傮w而言,從圖2A和圖2B、圖3A和圖3B、圖4A和圖4B中可以看出,本發(fā)明提出的重要性加權的文本分類特征選擇策略能有效提高傳統(tǒng)的開方檢驗以及信息增益特征選擇方法的有效性。在類別不均衡數(shù)據(jù)集合上,使用較少特征時本發(fā)明提出的策略的優(yōu)越性更明顯。
上述說明示出并描述了本發(fā)明的優(yōu)選實施例,如前所述,應當理解本發(fā)明并非局限于本文所披露的形式,不應看作是對其他實施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述發(fā)明構想范圍內(nèi),通過上述教導或相關領域的技術或知識進行改動,如用于改進除開方檢驗和信息增益的其他基于統(tǒng)計量Ai、Bi、Ci及Di計算的特征選擇方法。而本領域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍,則都應在本發(fā)明所附權利要求的保護范圍內(nèi)。