亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于TF<sup>*</sup>IDF算法的統(tǒng)計學(xué)文本分類系統(tǒng)及方法

文檔序號:6651755閱讀:1031來源:國知局
專利名稱:一種基于TF<sup>*</sup>IDF算法的統(tǒng)計學(xué)文本分類系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算機科學(xué)與技術(shù)領(lǐng)域,特別是一種新的面向文本分類的特征向量權(quán)重的計算方法及裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)和計算機技術(shù)的迅速發(fā)展和普及,大量的文字信息開始以計算機可讀的形式存在,由計算機自動文本分類技術(shù)應(yīng)運而生。當前,文本分類技術(shù)被廣泛利用在文檔索引建立、不良信息檢測、主題識別、自動文摘、智能信息檢索等各個研究領(lǐng)域。自動分類研究始于50年代末,H. P. Luhn在這一領(lǐng)域進行了開創(chuàng)性的研究。1961年,Maron發(fā)表了有關(guān)自動分類的第一篇論文,隨后許多著名的情報學(xué)家如Sparck、Salton等都在這一領(lǐng)域進行了卓有成效的研究。在20世紀80年代,文本分類系統(tǒng)以知識工程的方法為主,根據(jù)領(lǐng)域?qū)<覍o定文本集合的分類經(jīng)驗,人工提取出一組邏輯規(guī)則,作為計算機文本分類的依據(jù),然后分析這些系統(tǒng)的技術(shù)特點和性能,即利用專家規(guī)則來進行分類;到了 90年代以后,統(tǒng)計方法和機器學(xué)習的方法被引入到文本自動分類中,取得了豐碩的成果并逐漸取代了知識工程方法,并迅速成為了主流趨勢;機器學(xué)習方法較少考慮文本的語義信息,將語義分析和概念網(wǎng)絡(luò)等方法與機器學(xué)習方法相結(jié)合取得了更好的分類效果,在準確率和穩(wěn)定性方面具有明顯的優(yōu)勢。這一文本分類過程主要描述如下系統(tǒng)使用訓(xùn)練樣本進行特征選擇和分類器參數(shù)訓(xùn)練,根據(jù)選擇的特征對待分類的輸入樣本進行形式化,然后輸入到分類器進行類別判定,最終得到輸入樣本的類別。當前,基于統(tǒng)計的文本分類方法有樸素的貝葉斯分類法(na+i+veBayesianclassifier)、基于支持向量機方法(support vector machines, SVM)、k_ 最近鄰法(k-nearest neighbor, kNN)、神經(jīng)網(wǎng)絡(luò)法(neural network, NNet)、決策樹(decisiontree)分類法、模糊分類法(fuzzy classifier)、Rocchio 分類方法和 Boosting算法等。根據(jù)卡耐基梅隆大學(xué)Yiming Yang報道的結(jié)果,基于向量空間模型的支持向量機方法效果最好,其他幾種方法的基礎(chǔ)多數(shù)也要求先建立文本的特征向量。特征向量的建立最常用的方法就是TF*IDF (TF Term Frequency, IDF Inverse Document Frequency)方法,還有在其基礎(chǔ)進行的各種改進計算方法。文檔向量空間模型采用上下文信息定量描述詞語的語義特性,通過計算向量之間的距離來衡量詞語之間的語義相似度,有效避免了傳統(tǒng)統(tǒng)計方法中不可避免的數(shù)據(jù)稀疏問題,但向量空間模型把向量中的各個詞語分量視為獨立的特征項,忽略了特征項之間的關(guān)聯(lián)性,這使得用TF*IDF方法的分類器的準確率還不能令人滿意
發(fā)明內(nèi)容
本發(fā)明的目的在于,為克服目前的TF*IDF算法計算特征項權(quán)重時沒有考慮詞語之間的語義相似度從而導(dǎo)致的基于TF*IDF算法的文本分類器的準確率低的問題,提供一種基于TF*IDF算法的統(tǒng)計學(xué)文本分類系統(tǒng)及方法。
為實現(xiàn)上述目的,本發(fā)明提供的一種基于TF*IDF算法的統(tǒng)計學(xué)文本分類方法,所述的方法包含如下步驟I)收集語料,將收集的語料分為訓(xùn)練語料和測試語料;2)對訓(xùn)練語料進行分類和預(yù)處理;3)從訓(xùn)練語料中提取出每個領(lǐng)域的詞表,同時提取出總詞表;4)對訓(xùn)練語料的類別所屬概念進行歸納,利用概念詞典提取各類別的所屬概念集合,形成類別概念集合庫,用于計算概念信息量CIV ;5)對測試語料進行特征選取,得到不同數(shù)目的特征向量 表;6)使用特征向量權(quán)重算法(TF*IDF*CIV)計算 特征向量表包含的特征向量詞的權(quán)重,具體計算公式如下
權(quán)利要求
1.一種基于TF*IDF算法的統(tǒng)計學(xué)文本分類方法,所述的方法包含如下步驟 1)收集語料,將收集的語料分為訓(xùn)練語料和測試語料; 2)對訓(xùn)練語料進行分類和預(yù)處理; 3)從訓(xùn)練語料中提取出每個領(lǐng)域的詞表,同時提取出總詞表; 4)對訓(xùn)練語料的類別所屬概念進行歸納,利用概念詞典提取各類別的所屬概念集合,形成類別概念集合庫C,該概念集合庫C用于計算概念信息量CIV ; 5)對測試語料進行特征選取,得到不同數(shù)目的特征向量表; 6)使用特征向量權(quán)重算法(TF*IDF*CIV)計算特征向量表包含的特征向量詞的權(quán)重,具體計算公式如下
2.根據(jù)權(quán)利要求I所述基于TF*IDF算法的統(tǒng)計學(xué)文本分類方法方法,其特征在于,所述步驟2)的預(yù)處理為去除網(wǎng)頁文本中不需要的超鏈、廣告信息,并對文本進行分詞處理。
3.根據(jù)權(quán)利要求I或2所述基于TF*IDF算法的統(tǒng)計學(xué)文本分類方法,其特征在于,所述的步驟5)的特征選取采用信息增益方法,該信息增益方法還包含如下子步驟 5-1)提取詞表,在預(yù)處理后,計算每一個分詞作為特征的信息增益值,信息增益值為不考慮任何特征時文檔的熵和考慮該特征后文檔的熵的差值,計算公式如下
4.根據(jù)權(quán)利要求I所述基于TF*IDF算法的統(tǒng)計學(xué)文本分類方法方法,其特征在于,所述的分類器采用采用k-最近鄰法。
5.根據(jù)權(quán)利要求I所述基于TF*IDF算法的統(tǒng)計學(xué)文本分類方法,其特征在于,所述的評價函數(shù)采用micro-FI測度函數(shù)。
6.一種基于TF*IDF算法的統(tǒng)計學(xué)文本分類系統(tǒng),該系統(tǒng)包含語料收集及預(yù)處理模塊、特征選擇模塊、特征權(quán)重計算模塊、分類模塊和分類選優(yōu)模塊; 所述的語料收集及預(yù)處理模塊,用于從互連網(wǎng)上收集訓(xùn)練語料和測試語料,并對語料進行超鏈、廣告信息處理以及分詞預(yù)處理; 所述的特征選擇模塊,用于提取語料中的詞表,根據(jù)特征選擇算法從中挑選不同數(shù)目的特征詞,組成特征詞表;所述的特征權(quán)重計算模塊,用于計算特征權(quán)重; 所述的分類模塊,用于對語料文本進行分類;和 所述的分類選優(yōu)模塊,用于對比不同分類結(jié)果,找到最佳分類效果時的特征詞數(shù)目,其特征在于, 所述的系統(tǒng)還包含概念詞典模塊和類別概念庫模塊; 所述的概念詞典,用于存儲概念的所屬類別信息; 所述的類別概念庫模塊,用于存儲不同所屬類別下總的概念集合信息C ; 所述的特征權(quán)重計算模塊,利用所述類別概念庫模塊得到的概念集合信息C并采用TF*IDF*CIV算法進行不同數(shù)目的特征詞的權(quán)重計算;其中,所述
全文摘要
本發(fā)明涉及一種基于TF*IDF算法的統(tǒng)計學(xué)文本分類方法,該方法提出了一種新的特征向量權(quán)重方法(TF*IDF*CIV),在TF*IDF方法中引入了概念信息量(CIV)這一變量,把特征向量的概念信息量作為一個變量考慮在特征向量權(quán)重的計算過程中,該算法的公式為其中的共享概念數(shù)sim(ci,C)為特征項ti所對應(yīng)的概念集合ci在類別概念集合C中匹配相等的概念數(shù)目;彌補了TF*IDF方法的不足現(xiàn)階段TF*IDF方法被廣泛的用來計算特征向量的權(quán)重。但是這種方法無法表示出特征項之間的關(guān)聯(lián)性,忽略了特征項語義之間的關(guān)聯(lián)性對權(quán)重的影響。由此,實驗證明新方法的采用可以有效提高整個文本分類系統(tǒng)的準確率。
文檔編號G06F17/30GK102622373SQ201110033808
公開日2012年8月1日 申請日期2011年1月31日 優(yōu)先權(quán)日2011年1月31日
發(fā)明者丁澤亞, 張全, 繆建明 申請人:中國科學(xué)院聲學(xué)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1