技術(shù)總結(jié)
本發(fā)明公開了一種文本處理方法和系統(tǒng),所述文本處理方法包括:S1、建立分類超平面函數(shù);以及S2:通過分類超平面函數(shù),對新輸入的文本進行預(yù)測;其中,所述步驟S1具體為:S10:對文本進行分詞處理,建立詞條文檔矩陣;S20:通過決策樹算法從詞條文檔矩陣中提取特征;S30:構(gòu)造分類超平面函數(shù)。本發(fā)明的文本處理方法和系統(tǒng),將存儲的文本進行分詞處理后,提取該文本的句子特征,根據(jù)決策樹算法進行特征的提取,以此降低支持向量機中模型訓(xùn)練點維數(shù),縮短訓(xùn)練時間。根據(jù)決策樹訓(xùn)練提取了文本的特征向量,根據(jù)該特征向量采用多核的支持向量機算法進行文本分類,具有計算準確,模型訓(xùn)練樣本少,訓(xùn)練時間短,文本分類準確率高的特點。
技術(shù)研發(fā)人員:張斌德;夏珺崢;李彩虹
受保護的技術(shù)使用者:國信優(yōu)易數(shù)據(jù)有限公司
文檔號碼:201610841440
技術(shù)研發(fā)日:2016.09.22
技術(shù)公布日:2017.02.15