一種基于特征項(xiàng)選擇與權(quán)重計(jì)算的文本分類方法

文檔序號：6575036閱讀：947來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于特征項(xiàng)選擇與權(quán)重計(jì)算的文本分類方法
技術(shù)領(lǐng)域：
本發(fā)明屬于信息資源管理中的文本分類技術(shù)領(lǐng)域，具體來講，涉及一種基于特征項(xiàng)選擇及權(quán)重計(jì)算的文本分類方法。
背景技術(shù)：
在爆炸式增長的互聯(lián)網(wǎng)信息資源中，文本信息是應(yīng)用最為廣泛的一種形式，這是因?yàn)槲谋臼切畔⒌妮d體，而多數(shù)其他的形式的信息(圖像、聲音)均可以用文本進(jìn)行標(biāo)注。為了迅速有效的發(fā)現(xiàn)信息和資源，文本分類技術(shù)作為有效地組織和管理文本信息的重要手段應(yīng)運(yùn)而生。文本分類是在給定分類類別的情況下，根據(jù)文本的內(nèi)容或?qū)傩詫⑵浞值揭粋€或多個預(yù)定義類別。目前，文本分類領(lǐng)域中主要采用的文本表示方式是VSM(向量空間模型)，即在對語料集的文本進(jìn)行分詞、去除停用詞后，經(jīng)過特征項(xiàng)選擇和權(quán)重計(jì)算，最終將語料集文本表示成N維的向量空間。在實(shí)際應(yīng)用中，特征項(xiàng)的維數(shù)常常高達(dá)萬維，而如此高維的特征項(xiàng)對于文本分類未必是有益和必要的。因此，為了提高文本分類的效率和精度，如何降低特征項(xiàng)的維數(shù)以及特征項(xiàng)的權(quán)重如何計(jì)算成為文本分類中首要解決的問題。現(xiàn)有技術(shù)的文本分類方法在進(jìn)行特征項(xiàng)的選擇和權(quán)重計(jì)算時采用TF-IDF(TermFrequency - Inverse Document Frequency,詞頻-逆文本)函數(shù)。由于該函數(shù)綜合考慮了特征項(xiàng)在文本中出現(xiàn)的次數(shù)和在整個訓(xùn)練文本集的分布情況，加之其計(jì)算簡單并有較高的準(zhǔn)確率，在文本分類技術(shù)領(lǐng)域得到了應(yīng)用廣泛。但在實(shí)際應(yīng)用中，傳統(tǒng)的TF-IDF函數(shù)仍存在明顯的不足DTF-IDF認(rèn)為在特征項(xiàng)詞頻數(shù)相同情況下，若語料集中包含某個特征項(xiàng)的文本數(shù)越大，則IDF值越小，即權(quán)重也越小。但事實(shí)上，若特征項(xiàng)不是均勻的出現(xiàn)在語料集各個類的文本中而是集中地出現(xiàn)在某一類別的文本中，則說明該特征項(xiàng)能很好的表征該類的特征，權(quán)重應(yīng)該越大而不是越小；2) TF-IDF認(rèn)為若特征項(xiàng)詞頻數(shù)越大，包含特征項(xiàng)的文本數(shù)越小，則特征項(xiàng)權(quán)重越大。但若特征項(xiàng)集中地出現(xiàn)在某一個類別的某個文本中，它就不能表征該類別的特征，特征項(xiàng)權(quán)重就應(yīng)該越小?？梢?，傳統(tǒng)TF-IDF僅考慮了特征項(xiàng)在文本集中的分布情況，而忽略特征項(xiàng)在不同文本類別之間的分布比例以及特征項(xiàng)在某一類別內(nèi)部的分布情況，因此在采用傳統(tǒng)TF-IDF根據(jù)特征項(xiàng)及權(quán)重進(jìn)行文本分類時可能會出現(xiàn)誤判。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)不足，提供一種基于特征項(xiàng)選擇及權(quán)重計(jì)算的文本分類方法，以提高特征項(xiàng)選擇的準(zhǔn)確度，有效降低特征項(xiàng)維數(shù)，從而提高文本分類的效率和精度。
4
為實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明基于特征項(xiàng)選擇及權(quán)重計(jì)算的文本分類方法，包括以下步驟(I)、收集不同類別文本，分析整理后按類別歸入語料訓(xùn)練集；(2)、對語料訓(xùn)練集的文本進(jìn)行預(yù)處理，包括分詞、去除停用詞、統(tǒng)計(jì)特征項(xiàng)詞頻數(shù)；(3)、利用改進(jìn)TF-IDF函數(shù)計(jì)算語料訓(xùn)練集各文本特征項(xiàng)權(quán)重，改進(jìn)TF-IDF函數(shù)公式為w (tk, Tj) = tf (tk, Tj) X idf (tk) X x 2 (tk, Ci) X H (tk, Ci)其中w(tk, Tj)表示文本Tj中特征項(xiàng)tk的權(quán)重值；tf (tk, Tj)表示特征項(xiàng)tk在文本Tj中的詞頻數(shù)；
權(quán)利要求
1.一種基于特征項(xiàng)選擇及權(quán)重計(jì)算的文本分類方法，包括以下步驟 (1)、收集不同類別文本，分析整理后按類別歸入語料訓(xùn)練集； (2)、對語料訓(xùn)練集的文本進(jìn)行預(yù)處理，包括分詞、去除停用詞、統(tǒng)計(jì)特征項(xiàng)詞頻數(shù)等； (3)、利用改進(jìn)TF-IDF函數(shù)計(jì)算各文本特征項(xiàng)權(quán)重，改進(jìn)TF-IDF函數(shù)公式為 w (tk, Tj) =tf (tk, Tj) X idf (tk) X X 2 (tk, Ci) X H (tk, Ci) 其中 w(tk, Tj)表示文本L中特征項(xiàng)tk的權(quán)重值； tf (tk, Tj)表示特征項(xiàng)tk在文本Tj中的詞頻數(shù)MfW) = loy(— + 00i)，表示特征項(xiàng)tk的逆文本頻率，其中N表示語料訓(xùn)練集中文本總數(shù)，Nk表示訓(xùn)練集中包含特征項(xiàng)tk的文本數(shù)； A.，(::) =，表示特征項(xiàng)^與類別咖的相關(guān)度，其巾A為包含特征項(xiàng)tk且屬于類別Ci的文本數(shù)，B為包含特征項(xiàng)tk但不屬于類別Ci的文本數(shù)，C為不包含特征項(xiàng)tk但屬于類別Ci的文本數(shù)，D為不包含特征項(xiàng)tk也不屬于類別Ci的文本η數(shù)，N表示語料訓(xùn)練集中文本總數(shù)；例~工',)=乙/仏/，(: )//:>(廣(/0(',.))，表示特征項(xiàng)4在 J=I類別C1內(nèi)的分布信息熵,其中/%·，()) =表示類別C1內(nèi)特征項(xiàng)tk在文本Tj中的分 η布概率，tf (tk，Tj)表示特征項(xiàng)tk在文本Tj中的詞頻數(shù)，認(rèn)，= Σ扒々，G)表示類別Ci內(nèi)J=I特征項(xiàng)tk的總詞頻，η表示類別Ci的文本總數(shù)； (4)、計(jì)算特征項(xiàng)類間差，評估特征項(xiàng)，特征項(xiàng)評估函數(shù)公式為 Q (tk) =Max (w (tk, Ci)) -IessMax (w (tk, Ci)) (i = I. . . S) 其中，Q(tk)表示特征項(xiàng)類間權(quán)重最大值與次大值之差，S表示語料訓(xùn)練集中文本 η分為S個類別，塒仏，是類別Ci中所有η篇文本中特征項(xiàng)tk的權(quán)重之和， J=IMax (w(tk, Ci))與IessMax(WUbCi))分別求出S個W(ICi)中的最大值和次大值；根據(jù)實(shí)際需要設(shè)置特征項(xiàng)評估差值的閾值P，若Q(tk) ^ P，則將特征項(xiàng)tk加入特征子空間；若Q(tk) < P，將此特征項(xiàng)tk舍棄，完成對文本特征空間的降維操作，形成特征子空間； (5)、構(gòu)建分類器，將語料訓(xùn)練集文本表示為向量形式Tj(G)jl,qJ2, Qjk..., ω>)，其中ω Jk為文本L中特征子空間包含的特征項(xiàng)tk的權(quán)重，m表示特征子空間包含的特征項(xiàng)個數(shù)；對待分類文本Ti進(jìn)行分詞、去除停用詞處理，統(tǒng)計(jì)特征子空間中所有特征項(xiàng)在文本Ti中的詞頻，采用改進(jìn)TF-IDF函數(shù)計(jì)算各特征項(xiàng)權(quán)重，將Ti也表示成向量的形式Ti (ωη，ω i2, ω ik...，ω im)；計(jì)算 Τ (ωη，ω 2, coik···，ω ω)與所有 Tj (COjl, ω J2, Qjk-, Qjm)的夾角余弦值，當(dāng)夾角余弦值最大，說明文本Ti與文本L的相似度最大，則將文本Ti歸入該文本L所屬的類別中。
2.根據(jù)權(quán)利要求I所述的文本分類方法，其特征在于，步驟(5)中，分類器采用KNN最近鄰居算法構(gòu)建分類器，計(jì)算待分類文本Ti與測試集所有文本的相似度，按相似度從高到低將訓(xùn)練集文本排序，選取前K篇訓(xùn)練集文本，按照這K篇文本的類別對待分類文本進(jìn)行歸類；其中K值根據(jù)實(shí)際情況設(shè)定。
全文摘要
本發(fā)明公開了一種基于特征項(xiàng)選擇及權(quán)重計(jì)算的文本分類方法，對分析整理得到的語料訓(xùn)練集，在傳統(tǒng)的TF-IDF特征項(xiàng)權(quán)重計(jì)算基礎(chǔ)上，根據(jù)CHI卡方統(tǒng)計(jì)考慮特征項(xiàng)與不同類別之間的相關(guān)度、特征項(xiàng)的信息熵考慮特征項(xiàng)類內(nèi)的平均分布情況對特征項(xiàng)的權(quán)重進(jìn)行調(diào)整。再根據(jù)特征項(xiàng)類間權(quán)重差對特征項(xiàng)進(jìn)行評估、選擇。將訓(xùn)練集文本與待分類文本分別以特征子空間中的特征項(xiàng)表示成向量的形式。計(jì)算待分類文本和訓(xùn)練集文本之間的相似度，來確定待分類文本的類別。由于在特征項(xiàng)選擇及權(quán)重計(jì)算過程中，在TF-IDF基礎(chǔ)上綜合考慮了特征項(xiàng)在類間類內(nèi)的分布情況，提高了特征項(xiàng)選擇的準(zhǔn)確度，有效降低特征項(xiàng)維數(shù)，從而提高文本分類的效率和精度。
文檔編號G06F17/30GK102930063SQ20121051605
公開日2013年2月13日申請日期2012年12月5日優(yōu)先權(quán)日2012年12月5日
發(fā)明者孫健, 梁雪芬, 艾麗麗, 隆克平, 徐杰, 王曉麗, 張毅, 姚洪哲, 李乾坤, 陳小英, 陳旭申請人:電子科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫健;梁雪芬;艾麗麗;隆克平;徐杰;王曉麗;張毅;姚洪哲;李乾坤;陳小英;陳旭
技術(shù)所有人：電子科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

特征權(quán)重計(jì)算方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于特征項(xiàng)選擇與權(quán)重計(jì)算的文本分類方法