一種提取文本模型特征進(jìn)行分類算法
【專利摘要】本發(fā)明提供一種提取文本模型特征進(jìn)行分類算法,該算法對文本模型的訓(xùn)練數(shù)據(jù)通過計算第一階段權(quán)值后,將第一階段權(quán)值進(jìn)行計算在文本模型訓(xùn)練數(shù)據(jù)中獲得特征在新、舊數(shù)據(jù)分布,再次計算獲得第二階段權(quán)值,最后將第二階段權(quán)值以小到大的順序獲得對文本模型分類,獲得目標(biāo)特征;該算法對文本模型提取到的特征既不過于傾向于訓(xùn)練數(shù)據(jù)中的舊數(shù)據(jù),也不單純從訓(xùn)練數(shù)據(jù)中的少量新數(shù)據(jù)中獲得,能夠取得較好的分類效果。
【專利說明】一種提取文本模型特征進(jìn)行分類算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及對文本模型特征進(jìn)行二分類算法,尤其涉及一種提取文本模型特征進(jìn) 行分類算法。
【背景技術(shù)】
[0002] 1)文本挖掘
[0003] 隨著計算機技術(shù)、網(wǎng)絡(luò)技術(shù)的發(fā)展,洶涌而來的信息有時使人無所適從,從浩如煙 海的信息海洋中迅速而準(zhǔn)確地獲取自己最需要的信息,變得非常困難。海量信息中,許多是 文本信息。于是產(chǎn)生了一種新的信息處理技術(shù)--文本挖掘。文本挖掘是從大量文本信息 中,抽取出隱含的、有用的知識,這一過程也稱為文本數(shù)據(jù)庫中的知識發(fā)現(xiàn)。它涉及到數(shù)據(jù) 庫、機器學(xué)習(xí)、自然語言處理、統(tǒng)計數(shù)據(jù)分析等多個學(xué)科領(lǐng)域。研宄內(nèi)容包括文本聚類、文本 分類、文本摘要的生成、信息抽取等問題。
[0004] 2)文本分類
[0005] 文本分類是文本挖掘研宄中一個重要的問題,它是指在給定的分類體系下,將大 量文本劃分為兩個或多個類別。利用計算機進(jìn)行文本分類,不僅速度快,而且準(zhǔn)確率相對較 高。在現(xiàn)實生活中已經(jīng)有了很多應(yīng)用,例如,對Web網(wǎng)頁進(jìn)行分類,將包含相同內(nèi)容的頁面 歸為一類。文本分類的步驟主要包括獲取訓(xùn)練文檔集、信息的預(yù)處理、特征提取、文本表示、 選擇分類方法和性能評估六個步驟。
[0006] 3)迀移學(xué)習(xí)
[0007] 在許多實際應(yīng)用中,文本信息不僅數(shù)量巨大,所包含的內(nèi)容也在快速的更新變化 之中,例如,Web網(wǎng)頁的內(nèi)容經(jīng)常變化主題。在傳統(tǒng)的分類學(xué)習(xí)中,一個基本的假設(shè)就是認(rèn) 為用于訓(xùn)練分類模型的數(shù)據(jù)與目標(biāo)任務(wù)的數(shù)據(jù)服從統(tǒng)一的分布。由于目標(biāo)任務(wù)的數(shù)據(jù)會經(jīng) 常變化,這樣就導(dǎo)致了當(dāng)把訓(xùn)練好的模型應(yīng)用于目標(biāo)任務(wù)時,模型可能已經(jīng)過時。若頻繁地 對目標(biāo)任務(wù)的數(shù)據(jù)重新進(jìn)行標(biāo)記,代價昂貴,也做不到及時。我們可稱目標(biāo)任務(wù)的數(shù)據(jù)為新 數(shù)據(jù),可稱以往積累的、大量的、已分類的數(shù)據(jù)為舊數(shù)據(jù)。如何最大限度地利用舊數(shù)據(jù)的分 類知識,對新數(shù)據(jù)進(jìn)行分類,成為一個急需解決的問題。迀移學(xué)習(xí)近年來成為數(shù)據(jù)挖掘領(lǐng)域 的熱門話題,它與傳統(tǒng)機器學(xué)習(xí)方法的主要區(qū)別是不需要數(shù)據(jù)獨立同分布的假設(shè)。在迀移 學(xué)習(xí)方法中,需要取出少量新數(shù)據(jù),進(jìn)行人工標(biāo)注,作為訓(xùn)練數(shù)據(jù)的一部分。僅以這些數(shù)據(jù) 用于訓(xùn)練模型,數(shù)量嚴(yán)重不足。所以以大量已分類的舊數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)的補充。舊數(shù)據(jù) 與新數(shù)據(jù)可能來自不同領(lǐng)域,有不同分布。
[0008] 傳統(tǒng)的特征提取算法,沒有考慮新、舊數(shù)據(jù)不同分布的情況,沒有考慮訓(xùn)練數(shù)據(jù)數(shù) 據(jù)偏斜的問題。由于新、舊數(shù)據(jù)有不同分布,當(dāng)差異較大時,若用從舊數(shù)據(jù)提取的特征表示 新數(shù)據(jù)時,新數(shù)據(jù)會出現(xiàn)很多特征權(quán)重為0的現(xiàn)象。由于訓(xùn)練數(shù)據(jù)中新數(shù)據(jù)很少,若單獨從 中提取特征,提取到的特征不能很好地代表所有新數(shù)據(jù)。如果在這些特征的基礎(chǔ)上,對訓(xùn)練 數(shù)據(jù)和目標(biāo)任務(wù)的數(shù)據(jù)進(jìn)行表示,并進(jìn)行文本分類,必然不會取得很好的效果。
【發(fā)明內(nèi)容】
[0009] 針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種提取文本模型特征進(jìn)行分類算法, 該算法對文本模型提取到的特征既不過于傾向于訓(xùn)練數(shù)據(jù)中的舊數(shù)據(jù),也不單純從訓(xùn)練數(shù) 據(jù)中的少量新數(shù)據(jù)中獲得,能夠取得較好的分類效果。
[0010] 為解決現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明采用如下技術(shù)方案:
[0011] 1、一種提取文本模型特征進(jìn)行分類算法,包括如下步驟:
[0012] 第一,對文本模型的訓(xùn)練數(shù)據(jù)采用信息增益算法(IG,Information Gain)獲得特 征的權(quán)值其算法為:
【權(quán)利要求】
1. 一種提取文本模型特征進(jìn)行分類算法,包括如下步驟: 第一,對文本模型的訓(xùn)練數(shù)據(jù)采用信息增益算 法(IG,InformationGain)獲得特征的權(quán)值其算法為:
公式(1)中,P(Ci)為類別Ci包含文本數(shù)與文本總數(shù)的比值,P(t)為包含特征t的文 本數(shù)與文本總數(shù)的比值,P(CiIt)為出現(xiàn)特征t時文本屬于(^的概率,P(F)為不含特征t的 文本數(shù)與文本總數(shù)的比值,^((UO為不出現(xiàn)特征t時文本屬于(^的概率; 第二,將步驟一獲得的權(quán)值IG進(jìn)行排序,提取第一階段α*K個特征; 第三,將第一階段α*Κ個特征采用公式(2)和(3)計算特征t在文本模型的訓(xùn)練數(shù)據(jù) 中新數(shù)據(jù)、舊數(shù)據(jù)的分布情況,獲得: Wsame (t,Csame) =f(t,Csame)*n(t,Csame)/N(Csame) (2)wdif (t,Cdif) =f(t,Cdif)*n(t,Cdif)/N(Cdif) (3) 其中,C_和Cdif分別表示訓(xùn)練數(shù)據(jù)中的新、舊數(shù)據(jù),f(t,CsaJ和f(t,Cdif)分別表示 特征t在新、舊數(shù)據(jù)中出現(xiàn)的次數(shù),n(t,CsaJ和n(t,Cdif)分別表示新、舊數(shù)據(jù)中出現(xiàn)特征 t的文本數(shù),N(Csame)和N(Cdif)分別為新、舊數(shù)據(jù)中的文本總數(shù),ws_ (t,CsaiJ和wdif(t,Cdif) 分別表示特征t在新、舊數(shù)據(jù)中的分布; 第四,將步驟三中特征t在新、舊數(shù)據(jù)中的分布,采用公式(4)計算特征t的最終的權(quán) 值,提取第二階段α*Κ個特征: max{wsaae (t,Csame),wdif (t,Cdif)}/min{wsame (t,CsaJ,wdif (t,Cdif)} (4) 第五,依次循環(huán)步驟二到步驟四,不斷提取第二階段α*K個特征; 第六,對步驟五獲得第二階段第二階段α*Κ個特征按權(quán)重從小到達(dá)進(jìn)行排序,選取權(quán) 重最小K個特征完成文本模型分類。
【文檔編號】G06F17/30GK104462406SQ201410765214
【公開日】2015年3月25日 申請日期:2014年12月10日 優(yōu)先權(quán)日:2014年12月10日
【發(fā)明者】劉江, 李健銓, 李煒 申請人:天津大學(xué)