專利名稱:一種基于特征項(xiàng)選擇與權(quán)重計(jì)算的文本分類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息資源管理中的文本分類技術(shù)領(lǐng)域,具體來講,涉及一種基于特征項(xiàng)選擇及權(quán)重計(jì)算的文本分類方法。
背景技術(shù):
在爆炸式增長的互聯(lián)網(wǎng)信息資源中,文本信息是應(yīng)用最為廣泛的一種形式,這是因?yàn)槲谋臼切畔⒌妮d體,而多數(shù)其他的形式的信息(圖像、聲音)均可以用文本進(jìn)行標(biāo)注。為了迅速有效的發(fā)現(xiàn)信息和資源,文本分類技術(shù)作為有效地組織和管理文本信息的重要手段應(yīng)運(yùn)而生。文本分類是在給定分類類別的情況下,根據(jù)文本的內(nèi)容或?qū)傩詫⑵浞值揭粋€或多個預(yù)定義類別。目前,文本分類領(lǐng)域中主要采用的文本表示方式是VSM(向量空間模型),即在對語料集的文本進(jìn)行分詞、去除停用詞后,經(jīng)過特征項(xiàng)選擇和權(quán)重計(jì)算,最終將語料集文本表示成N維的向量空間。在實(shí)際應(yīng)用中,特征項(xiàng)的維數(shù)常常高達(dá)萬維,而如此高維的特征項(xiàng)對于文本分類未必是有益和必要的。因此,為了提高文本分類的效率和精度,如何降低特征項(xiàng)的維數(shù)以及特征項(xiàng)的權(quán)重如何計(jì)算成為文本分類中首要解決的問題。現(xiàn)有技術(shù)的文本分類方法在進(jìn)行特征項(xiàng)的選擇和權(quán)重計(jì)算時采用TF-IDF(TermFrequency - Inverse Document Frequency,詞頻-逆文本)函數(shù)。由于該函數(shù)綜合考慮了特征項(xiàng)在文本中出現(xiàn)的次數(shù)和在整個訓(xùn)練文本集的分布情況,加之其計(jì)算簡單并有較高的準(zhǔn)確率,在文本分類技術(shù)領(lǐng)域得到了應(yīng)用廣泛。但在實(shí)際應(yīng)用中,傳統(tǒng)的TF-IDF函數(shù)仍存在明顯的不足DTF-IDF認(rèn)為在特征項(xiàng)詞頻數(shù)相同情況下,若語料集中包含某個特征項(xiàng)的文本數(shù)越大,則IDF值越小,即權(quán)重也越小。但事實(shí)上,若特征項(xiàng)不是均勻的出現(xiàn)在語料集各個類的文本中而是集中地出現(xiàn)在某一類別的文本中,則說明該特征項(xiàng)能很好的表征該類的特征,權(quán)重應(yīng)該越大而不是越小;2) TF-IDF認(rèn)為若特征項(xiàng)詞頻數(shù)越大,包含特征項(xiàng)的文本數(shù)越小,則特征項(xiàng)權(quán)重越大。但若特征項(xiàng)集中地出現(xiàn)在某一個類別的某個文本中,它就不能表征該類別的特征,特征項(xiàng)權(quán)重就應(yīng)該越小??梢?,傳統(tǒng)TF-IDF僅考慮了特征項(xiàng)在文本集中的分布情況,而忽略特征項(xiàng)在不同文本類別之間的分布比例以及特征項(xiàng)在某一類別內(nèi)部的分布情況,因此在采用傳統(tǒng)TF-IDF根據(jù)特征項(xiàng)及權(quán)重進(jìn)行文本分類時可能會出現(xiàn)誤判。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)不足,提供一種基于特征項(xiàng)選擇及權(quán)重計(jì)算的文本分類方法,以提高特征項(xiàng)選擇的準(zhǔn)確度,有效降低特征項(xiàng)維數(shù),從而提高文本分類的效率和精度。
4
為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明基于特征項(xiàng)選擇及權(quán)重計(jì)算的文本分類方法,包括以下步驟(I)、收集不同類別文本,分析整理后按類別歸入語料訓(xùn)練集;(2)、對語料訓(xùn)練集的文本進(jìn)行預(yù)處理,包括分詞、去除停用詞、統(tǒng)計(jì)特征項(xiàng)詞頻數(shù);(3)、利用改進(jìn)TF-IDF函數(shù)計(jì)算語料訓(xùn)練集各文本特征項(xiàng)權(quán)重,改進(jìn)TF-IDF函數(shù)公式為w (tk, Tj) = tf (tk, Tj) X idf (tk) X x 2 (tk, Ci) X H (tk, Ci)其中w(tk, Tj)表示文本Tj中特征項(xiàng)tk的權(quán)重值;tf (tk, Tj)表示特征項(xiàng)tk在文本Tj中的詞頻數(shù);
權(quán)利要求
1.一種基于特征項(xiàng)選擇及權(quán)重計(jì)算的文本分類方法,包括以下步驟 (1)、收集不同類別文本,分析整理后按類別歸入語料訓(xùn)練集; (2)、對語料訓(xùn)練集的文本進(jìn)行預(yù)處理,包括分詞、去除停用詞、統(tǒng)計(jì)特征項(xiàng)詞頻數(shù)等; (3)、利用改進(jìn)TF-IDF函數(shù)計(jì)算各文本特征項(xiàng)權(quán)重,改進(jìn)TF-IDF函數(shù)公式為 w (tk, Tj) =tf (tk, Tj) X idf (tk) X X 2 (tk, Ci) X H (tk, Ci) 其中 w(tk, Tj)表示文本L中特征項(xiàng)tk的權(quán)重值; tf (tk, Tj)表示特征項(xiàng)tk在文本Tj中的詞頻數(shù)MfW) = loy(— + 00i),表示特征項(xiàng)tk的逆文本頻率,其中N表示語料訓(xùn)練集中文本總數(shù),Nk表示訓(xùn)練集中包含特征項(xiàng)tk的文本數(shù); A.,(::) =,表示特征項(xiàng)^與類別咖的相關(guān)度,其巾A為包含特征項(xiàng)tk且屬于類別Ci的文本數(shù),B為包含特征項(xiàng)tk但不屬于類別Ci的文本數(shù),C為不包含特征項(xiàng)tk但屬于類別Ci的文本數(shù),D為不包含特征項(xiàng)tk也不屬于類別Ci的文本η數(shù),N表示語料訓(xùn)練集中文本總數(shù);例~工',)=乙/仏/,(: )//:>(廣(/0(',.)),表示特征項(xiàng)4在 J=I類別C1內(nèi)的分布信息熵,其中/%·,()) =表示類別C1內(nèi)特征項(xiàng)tk在文本Tj中的分 η布概率,tf (tk,Tj)表示特征項(xiàng)tk在文本Tj中的詞頻數(shù),認(rèn),= Σ扒々,G)表示類別Ci內(nèi)J=I特征項(xiàng)tk的總詞頻,η表示類別Ci的文本總數(shù); (4)、計(jì)算特征項(xiàng)類間差,評估特征項(xiàng),特征項(xiàng)評估函數(shù)公式為 Q (tk) =Max (w (tk, Ci)) -IessMax (w (tk, Ci)) (i = I. . . S) 其中,Q(tk)表示特征項(xiàng)類間權(quán)重最大值與次大值之差,S表示語料訓(xùn)練集中文本 η分為S個類別,塒仏,是類別Ci中所有η篇文本中特征項(xiàng)tk的權(quán)重之和, J=IMax (w(tk, Ci))與IessMax(WUbCi))分別求出S個W(ICi)中的最大值和次大值; 根據(jù)實(shí)際需要設(shè)置特征項(xiàng)評估差值的閾值P,若Q(tk) ^ P,則將特征項(xiàng)tk加入特征子空間;若Q(tk) < P,將此特征項(xiàng)tk舍棄,完成對文本特征空間的降維操作,形成特征子空間; (5)、構(gòu)建分類器,將語料訓(xùn)練集文本表示為向量形式Tj(G)jl,qJ2, Qjk..., ω>),其中ω Jk為文本L中特征子空間包含的特征項(xiàng)tk的權(quán)重,m表示特征子空間包含的特征項(xiàng)個數(shù);對待分類文本Ti進(jìn)行分詞、去除停用詞處理,統(tǒng)計(jì)特征子空間中所有特征項(xiàng)在文本Ti中的詞頻,采用改進(jìn)TF-IDF函數(shù)計(jì)算各特征項(xiàng)權(quán)重,將Ti也表示成向量的形式Ti (ωη,ω i2, ω ik...,ω im); 計(jì)算 Τ (ωη,ω 2, coik···,ω ω)與所有 Tj (COjl, ω J2, Qjk-, Qjm)的夾角余弦值,當(dāng)夾角余弦值最大,說明文本Ti與文本L的相似度最大,則將文本Ti歸入該文本L所屬的類別中。
2.根據(jù)權(quán)利要求I所述的文本分類方法,其特征在于,步驟(5)中,分類器采用KNN最近鄰居算法構(gòu)建分類器,計(jì)算待分類文本Ti與測試集所有文本的相似度,按相似度從高到低將訓(xùn)練集文本排序,選取前K篇訓(xùn)練集文本,按照這K篇文本的類別對待分類文本進(jìn)行歸類;其中K值根據(jù)實(shí)際情況設(shè)定。
全文摘要
本發(fā)明公開了一種基于特征項(xiàng)選擇及權(quán)重計(jì)算的文本分類方法,對分析整理得到的語料訓(xùn)練集,在傳統(tǒng)的TF-IDF特征項(xiàng)權(quán)重計(jì)算基礎(chǔ)上,根據(jù)CHI卡方統(tǒng)計(jì)考慮特征項(xiàng)與不同類別之間的相關(guān)度、特征項(xiàng)的信息熵考慮特征項(xiàng)類內(nèi)的平均分布情況對特征項(xiàng)的權(quán)重進(jìn)行調(diào)整。再根據(jù)特征項(xiàng)類間權(quán)重差對特征項(xiàng)進(jìn)行評估、選擇。將訓(xùn)練集文本與待分類文本分別以特征子空間中的特征項(xiàng)表示成向量的形式。計(jì)算待分類文本和訓(xùn)練集文本之間的相似度,來確定待分類文本的類別。由于在特征項(xiàng)選擇及權(quán)重計(jì)算過程中,在TF-IDF基礎(chǔ)上綜合考慮了特征項(xiàng)在類間類內(nèi)的分布情況,提高了特征項(xiàng)選擇的準(zhǔn)確度,有效降低特征項(xiàng)維數(shù),從而提高文本分類的效率和精度。
文檔編號G06F17/30GK102930063SQ20121051605
公開日2013年2月13日 申請日期2012年12月5日 優(yōu)先權(quán)日2012年12月5日
發(fā)明者孫健, 梁雪芬, 艾麗麗, 隆克平, 徐杰, 王曉麗, 張毅, 姚洪哲, 李乾坤, 陳小英, 陳旭 申請人:電子科技大學(xué)