一種提取文本模型特征進(jìn)行分類算法

文檔序號：6638430閱讀：1452來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種提取文本模型特征進(jìn)行分類算法
【專利摘要】本發(fā)明提供一種提取文本模型特征進(jìn)行分類算法，該算法對文本模型的訓(xùn)練數(shù)據(jù)通過計算第一階段權(quán)值后，將第一階段權(quán)值進(jìn)行計算在文本模型訓(xùn)練數(shù)據(jù)中獲得特征在新、舊數(shù)據(jù)分布，再次計算獲得第二階段權(quán)值，最后將第二階段權(quán)值以小到大的順序獲得對文本模型分類，獲得目標(biāo)特征；該算法對文本模型提取到的特征既不過于傾向于訓(xùn)練數(shù)據(jù)中的舊數(shù)據(jù)，也不單純從訓(xùn)練數(shù)據(jù)中的少量新數(shù)據(jù)中獲得，能夠取得較好的分類效果。
【專利說明】一種提取文本模型特征進(jìn)行分類算法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及對文本模型特征進(jìn)行二分類算法，尤其涉及一種提取文本模型特征進(jìn) 行分類算法。

【背景技術(shù)】
[0002] 1)文本挖掘
[0003] 隨著計算機技術(shù)、網(wǎng)絡(luò)技術(shù)的發(fā)展，洶涌而來的信息有時使人無所適從，從浩如煙海的信息海洋中迅速而準(zhǔn)確地獲取自己最需要的信息，變得非常困難。海量信息中，許多是文本信息。于是產(chǎn)生了一種新的信息處理技術(shù)--文本挖掘。文本挖掘是從大量文本信息中，抽取出隱含的、有用的知識，這一過程也稱為文本數(shù)據(jù)庫中的知識發(fā)現(xiàn)。它涉及到數(shù)據(jù) 庫、機器學(xué)習(xí)、自然語言處理、統(tǒng)計數(shù)據(jù)分析等多個學(xué)科領(lǐng)域。研宄內(nèi)容包括文本聚類、文本分類、文本摘要的生成、信息抽取等問題。
[0004] 2)文本分類
[0005] 文本分類是文本挖掘研宄中一個重要的問題，它是指在給定的分類體系下，將大量文本劃分為兩個或多個類別。利用計算機進(jìn)行文本分類，不僅速度快，而且準(zhǔn)確率相對較高。在現(xiàn)實生活中已經(jīng)有了很多應(yīng)用，例如，對Web網(wǎng)頁進(jìn)行分類，將包含相同內(nèi)容的頁面歸為一類。文本分類的步驟主要包括獲取訓(xùn)練文檔集、信息的預(yù)處理、特征提取、文本表示、選擇分類方法和性能評估六個步驟。
[0006] 3)迀移學(xué)習(xí)
[0007] 在許多實際應(yīng)用中，文本信息不僅數(shù)量巨大，所包含的內(nèi)容也在快速的更新變化之中，例如，Web網(wǎng)頁的內(nèi)容經(jīng)常變化主題。在傳統(tǒng)的分類學(xué)習(xí)中，一個基本的假設(shè)就是認(rèn) 為用于訓(xùn)練分類模型的數(shù)據(jù)與目標(biāo)任務(wù)的數(shù)據(jù)服從統(tǒng)一的分布。由于目標(biāo)任務(wù)的數(shù)據(jù)會經(jīng) 常變化，這樣就導(dǎo)致了當(dāng)把訓(xùn)練好的模型應(yīng)用于目標(biāo)任務(wù)時，模型可能已經(jīng)過時。若頻繁地對目標(biāo)任務(wù)的數(shù)據(jù)重新進(jìn)行標(biāo)記，代價昂貴，也做不到及時。我們可稱目標(biāo)任務(wù)的數(shù)據(jù)為新數(shù)據(jù)，可稱以往積累的、大量的、已分類的數(shù)據(jù)為舊數(shù)據(jù)。如何最大限度地利用舊數(shù)據(jù)的分類知識，對新數(shù)據(jù)進(jìn)行分類，成為一個急需解決的問題。迀移學(xué)習(xí)近年來成為數(shù)據(jù)挖掘領(lǐng)域的熱門話題，它與傳統(tǒng)機器學(xué)習(xí)方法的主要區(qū)別是不需要數(shù)據(jù)獨立同分布的假設(shè)。在迀移學(xué)習(xí)方法中，需要取出少量新數(shù)據(jù)，進(jìn)行人工標(biāo)注，作為訓(xùn)練數(shù)據(jù)的一部分。僅以這些數(shù)據(jù) 用于訓(xùn)練模型，數(shù)量嚴(yán)重不足。所以以大量已分類的舊數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)的補充。舊數(shù)據(jù) 與新數(shù)據(jù)可能來自不同領(lǐng)域，有不同分布。
[0008] 傳統(tǒng)的特征提取算法，沒有考慮新、舊數(shù)據(jù)不同分布的情況，沒有考慮訓(xùn)練數(shù)據(jù)數(shù) 據(jù)偏斜的問題。由于新、舊數(shù)據(jù)有不同分布，當(dāng)差異較大時，若用從舊數(shù)據(jù)提取的特征表示新數(shù)據(jù)時，新數(shù)據(jù)會出現(xiàn)很多特征權(quán)重為0的現(xiàn)象。由于訓(xùn)練數(shù)據(jù)中新數(shù)據(jù)很少，若單獨從中提取特征，提取到的特征不能很好地代表所有新數(shù)據(jù)。如果在這些特征的基礎(chǔ)上，對訓(xùn)練數(shù)據(jù)和目標(biāo)任務(wù)的數(shù)據(jù)進(jìn)行表示，并進(jìn)行文本分類，必然不會取得很好的效果。

【發(fā)明內(nèi)容】

[0009] 針對現(xiàn)有技術(shù)中存在的問題，本發(fā)明提供一種提取文本模型特征進(jìn)行分類算法，該算法對文本模型提取到的特征既不過于傾向于訓(xùn)練數(shù)據(jù)中的舊數(shù)據(jù)，也不單純從訓(xùn)練數(shù) 據(jù)中的少量新數(shù)據(jù)中獲得，能夠取得較好的分類效果。
[0010] 為解決現(xiàn)有技術(shù)中存在的技術(shù)問題，本發(fā)明采用如下技術(shù)方案：
[0011] 1、一種提取文本模型特征進(jìn)行分類算法，包括如下步驟：
[0012] 第一，對文本模型的訓(xùn)練數(shù)據(jù)采用信息增益算法（IG，Information Gain)獲得特征的權(quán)值其算法為：

【權(quán)利要求】
1. 一種提取文本模型特征進(jìn)行分類算法，包括如下步驟：第一，對文本模型的訓(xùn)練數(shù)據(jù)采用信息增益算法（IG，InformationGain)獲得特征的權(quán)值其算法為：
公式（1)中，P(Ci)為類別Ci包含文本數(shù)與文本總數(shù)的比值，P(t)為包含特征t的文本數(shù)與文本總數(shù)的比值，P(CiIt)為出現(xiàn)特征t時文本屬于(^的概率，P(F)為不含特征t的文本數(shù)與文本總數(shù)的比值，^((UO為不出現(xiàn)特征t時文本屬于(^的概率；第二，將步驟一獲得的權(quán)值IG進(jìn)行排序，提取第一階段α*K個特征；第三，將第一階段α*Κ個特征采用公式（2)和（3)計算特征t在文本模型的訓(xùn)練數(shù)據(jù) 中新數(shù)據(jù)、舊數(shù)據(jù)的分布情況，獲得： Wsame (t,Csame) =f(t,Csame)*n(t,Csame)/N(Csame) (2)wdif (t，Cdif) =f(t，Cdif)*n(t，Cdif)/N(Cdif) (3) 其中，C_和Cdif分別表示訓(xùn)練數(shù)據(jù)中的新、舊數(shù)據(jù)，f(t，CsaJ和f(t，Cdif)分別表示特征t在新、舊數(shù)據(jù)中出現(xiàn)的次數(shù)，n(t，CsaJ和n(t，Cdif)分別表示新、舊數(shù)據(jù)中出現(xiàn)特征 t的文本數(shù)，N(Csame)和N(Cdif)分別為新、舊數(shù)據(jù)中的文本總數(shù)，ws_ (t，CsaiJ和wdif(t，Cdif) 分別表示特征t在新、舊數(shù)據(jù)中的分布；第四，將步驟三中特征t在新、舊數(shù)據(jù)中的分布，采用公式（4)計算特征t的最終的權(quán) 值，提取第二階段α*Κ個特征： max{wsaae (t,Csame),wdif (t,Cdif)}/min{wsame (t,CsaJ,wdif (t,Cdif)} (4) 第五，依次循環(huán)步驟二到步驟四，不斷提取第二階段α*K個特征；第六，對步驟五獲得第二階段第二階段α*Κ個特征按權(quán)重從小到達(dá)進(jìn)行排序，選取權(quán) 重最小K個特征完成文本模型分類。
【文檔編號】G06F17/30GK104462406SQ201410765214
【公開日】2015年3月25日申請日期:2014年12月10日優(yōu)先權(quán)日:2014年12月10日
【發(fā)明者】劉江, 李健銓, 李煒申請人:天津大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉江;李健銓;李煒;
技術(shù)所有人：天津大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本特征提取算法相關(guān)技術(shù)

數(shù)據(jù)特征提取算法相關(guān)技術(shù)

人臉識別特征提取算法相關(guān)技術(shù)

特征提取算法相關(guān)技術(shù)

圖像特征提取算法相關(guān)技術(shù)

圖像特征提取算法代碼相關(guān)技術(shù)

人臉特征提取算法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種提取文本模型特征進(jìn)行分類算法