專利名稱:一種計算機中文文本分類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計算機文本處理領(lǐng)域,特別是一種計算機中文文本分類方法。
背景技術(shù):
隨著當(dāng)今世界信息量的急劇增加,以及計算機網(wǎng)絡(luò)技術(shù)迅速普及和發(fā)展,大量的文檔以電子的形式出現(xiàn)。為了更好的管理越來越多的文檔,人們對計算機進行自動文本分類的需求越來越大。文本分類就是根據(jù)文本的內(nèi)容,利用計算機把ー個文本分成事先給定的某個類別。對于ー個文本分類任務(wù),首先把每ー個文本都映射到一個高維歐幾里得空間,然后使用特征選擇方法或特征抽取方法選出一部分對分類有用的特征。利用機器學(xué)習(xí)里的分類器,從大量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出分類器模型,最后用這個分類器模型對未知類標(biāo)的文本進行分類。近年來,隨著機器學(xué)習(xí)技術(shù)的發(fā)展,文本分類方法取得了一系列重要的進展。而在中文文本分類中,中文分詞是ー個重要的預(yù)處理步驟,因為中文文本的字與字之間不像英文單詞那樣有空格隔開。想要從文本中提取出特征,就必須首先對中文文本進行分詞。 分詞質(zhì)量的優(yōu)劣,直接影響到分類結(jié)果的好壞。首先,分詞中產(chǎn)生的錯誤會影響分類器的性能,尤其是在網(wǎng)絡(luò)越來越發(fā)達的今天,新鮮的詞語層出不窮,這對分詞的精度是ー個很大的挑戰(zhàn)。其次,即使分詞結(jié)果全部正確,分詞也會帶來ー些關(guān)鍵信息的丟失。表I表示了兩個文本的分詞表示,其中ー個文本來自經(jīng)濟類,另ー個來自計算機類。表I文本預(yù)處理的分詞示例
權(quán)利要求
1.一種計算機中文文本分類方法,其特征在于,包括以下步驟 步驟一,使用N-gram方法處理中文文本使用N-gram的方法把中文文本的表示為一個由一組特征組成的特征向量; 步驟二,使用詞頻逆向文件頻率法為特征向量中每一個特征賦予一個權(quán)重; 步驟三,利用L1-正則化邏輯回歸分類器模型為中文文本分類。
2.根據(jù)權(quán)利要求1中所述的方法,其特征在于,步驟一包括以下步驟 對于中文文本d = c1;c2,…cf,ck,其中Cj為中文文本d中的第j個字,j = I, 2,…k,k表示中文文本d的總字?jǐn)?shù),用N-gram的方法把中文文本d的表示為一個由一組特征組成的特征向量,表示為
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,步驟二包括以下步驟 根據(jù)詞頻逆向文件頻率的計算公式計算特征向量中特征的權(quán)重
4.根據(jù)權(quán)利要求3中所述方法,其特征在于,步驟三包括以下步驟 根據(jù)L1-正則化邏輯回歸分類器的目標(biāo)函數(shù)minpHpHi + C ΣΓ=1 log(l + β^Τχ'), 其中β是學(xué)習(xí)的參數(shù),K是訓(xùn)練數(shù)據(jù)集中作為訓(xùn)練樣例的中文文本的總數(shù),C是調(diào)節(jié)懲罰項和損失函數(shù)之間關(guān)系的常數(shù),Yi是中文文本的類標(biāo),Xi是中文文本的向量形式; 根據(jù)中文文本訓(xùn)練樣例得到一組分類器模型I = βτχ ;χ為中文文本的向量形式。
5.根據(jù)權(quán)利要求4中所述的方法,其特征在于,步驟三后包括以下步驟 對于一個輸入中文文本d,根據(jù)步驟一和步驟二轉(zhuǎn)化為向量形式X后,根據(jù)分類器模型y = β τχ判斷中文文本d的類別; 如果y > O,則為正類; 如果y〈 O,則為負類。
全文摘要
本發(fā)明提出了一種計算機中文文本分類方法,包括以下步驟使用N-gram方法處理中文文本使用N-gram的方法把中文文本的表示為一個由一組特征組成的特征向量;使用詞頻逆向文件頻率法為特征向量中每一個特征賦予一個權(quán)重;利用L1-正則化邏輯回歸分類器模型為中文文本分類。本發(fā)明對現(xiàn)有的基于分詞的中文文本分類方法進行改善和提高,能夠避免分詞對分類精度產(chǎn)生的不良影響。通過使用N-gram的形式來表達文本,可以很好地避免上述的兩方面問題。同時L1-正則化邏輯回歸分類器可以很好地解決N-gram帶來的數(shù)據(jù)稀疏性問題,從而提高文本分類的精度。
文檔編號G06F17/30GK103020167SQ20121048913
公開日2013年4月3日 申請日期2012年11月26日 優(yōu)先權(quán)日2012年11月26日
發(fā)明者戴新宇, 付強, 陳家駿, 黃書劍, 張建兵 申請人:南京大學(xué)