一種基于詞條分布的特征選擇方法

文檔序號(hào)：8473020閱讀：265來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于詞條分布的特征選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域，涉及一種基于詞條分布的特征選擇方法。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)信息的迅速增長(zhǎng)，電子文本的數(shù)量急劇增加，如何有效地組織這些資源已經(jīng)引起了越來越多的研宄者的關(guān)注。文本分類就是解決這一問題的關(guān)鍵技術(shù)。文本分類是利用一些已標(biāo)記的文本構(gòu)造分類器，然后根據(jù)構(gòu)造出的分類器將未標(biāo)記的文本自動(dòng)分類到預(yù)定義的類別中，該技術(shù)廣泛應(yīng)用于Web文本分類、信息檢索、郵件過濾及垃圾短信過濾等領(lǐng)域。
[0003] 目前，已存在大量的分類算法，例如決策樹、k-近鄰（kNN，k_NearestNeighbors)、支持向量機(jī)（SVM，SupportVectorMachine)等。而文本自動(dòng)分類的主要困難之一是特征空間的維數(shù)很高，特征數(shù)高達(dá)上萬(wàn)，甚至幾十萬(wàn)。如何降低特征空間的維數(shù)、提高分類的效率和精度，成為文本自動(dòng)分類中需要首先解決的問題。因此，特征選擇是文本分類過程中一個(gè)非常重要的步驟。特征選擇是從原始特征向量空間中選擇出一些最具有區(qū)分類別能力的特征項(xiàng)以降低數(shù)據(jù)集維數(shù)的過程，從而提高分類系統(tǒng)的效率。
[0004] 目前，常用的特征選擇方法有文檔頻率（DocumentFrequency，簡(jiǎn)稱DF)、信息增益 (InformationGain，簡(jiǎn)稱IG)、互信息（MutualInformation，簡(jiǎn)稱MI)等。這些方法在理論上是合理的，但應(yīng)用于實(shí)際情況時(shí)，效果卻有所不同。已有研宄比較了上述幾種經(jīng)典的特征選擇方法，實(shí)驗(yàn)結(jié)果表明，IG方法的效果最佳；DF方法的性能同IG的性能大體相當(dāng)，而且 DF方法還具有實(shí)現(xiàn)簡(jiǎn)單、算法復(fù)雜度低等優(yōu)點(diǎn)；MI方法的性能最差。容易發(fā)現(xiàn)，以上特征選擇方法都是在文檔層面上進(jìn)行后續(xù)工作的。然而，在分類過程中，詞頻對(duì)特征選擇也有很大的影響。于是，有人提出了t-test方法，這種方法雖然也是基于詞頻的，但由于沒有很好的考慮數(shù)據(jù)集中類別之間的相互影響，因此，分類精度不高。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的是提供一種基于詞條分布的特征選擇方法，以詞頻為基礎(chǔ)，能夠提高分類精度。
[0006] 本發(fā)明所采用的技術(shù)方案是，一種基于詞條分布的特征選擇方法，包括以下步驟：
[0007] 步驟1，采集若干個(gè)不同類別的文本組成數(shù)據(jù)集；
[0008] 步驟2,對(duì)數(shù)據(jù)集中的所有文本進(jìn)行預(yù)處理，得到若干個(gè)詞條，記為ti，i為詞條的編號(hào)；
[0009] 步驟3,計(jì)算每一個(gè)詞條&在所屬類別中的類平均詞頻
[0010] 并計(jì)算每一個(gè)詞條&在整個(gè)數(shù)據(jù)集中的總體平均詞頻#;
[0011] 步驟4,根據(jù)每一個(gè)詞條ti的類平均詞頻&和總體平均詞頻g計(jì)算其權(quán)重值；
[0012] 步驟5,將所有詞條按照權(quán)重值進(jìn)行降序排列；
[0013] 步驟6,選擇數(shù)據(jù)集中前5%~30%的詞條作為特征詞，用來對(duì)文本進(jìn)行分類。
[0014] 步驟2中對(duì)文本進(jìn)行預(yù)處理指對(duì)各個(gè)文本進(jìn)行分詞，即將每個(gè)文本內(nèi)的內(nèi)容切分成單個(gè)的詞語(yǔ)，并去除文本中去除文本中的停用詞和對(duì)分類無關(guān)的噪音信息。
[0015] 步驟3中計(jì)算每一個(gè)詞條在其所屬的類別中的平均詞頻，具體按照以下方法計(jì) 算：
【主權(quán)項(xiàng)】
1. 一種基于詞條分布的特征選擇方法，其特征在于，包括w下步驟：步驟1，采集若干個(gè)不同類別的文本組成數(shù)據(jù)集；步驟2,對(duì)數(shù)據(jù)集中的所有文本進(jìn)行預(yù)處理，得到若干個(gè)詞條，記為ti，i為詞條的編號(hào)；步驟3,計(jì)算每一個(gè)詞條ti在所屬類別中的類平均詞頻^ ; 并計(jì)算每一個(gè)詞條ti在整個(gè)數(shù)據(jù)集中的總體平均詞頻^ ；步驟4,根據(jù)每一個(gè)詞條ti的類平均詞頻^和總體平均詞頻計(jì)算其權(quán)重值；步驟5,將所有詞條按照權(quán)重值進(jìn)行降序排列；步驟6,選擇數(shù)據(jù)集中前5%~30%的詞條作為特征詞，用來對(duì)文本進(jìn)行分類。
2. 根據(jù)權(quán)利要求1所述的一種基于詞條分布的特征選擇方法，其特征在于，所述步驟 2中對(duì)文本進(jìn)行預(yù)處理指對(duì)各個(gè)文本進(jìn)行分詞，即將每個(gè)文本內(nèi)的內(nèi)容切分成單個(gè)的詞語(yǔ)，并去除文本中的停用詞和對(duì)分類無關(guān)的噪音信息。
3. 根據(jù)權(quán)利要求1中所述的一種基于詞條分布的特征選擇方法，其特征在于，所述步驟3中按照W下方法計(jì)算每一個(gè)詞條在其所屬的類別中的平均詞頻：
其中，N為數(shù)據(jù)集中的文檔數(shù)，tfy表示詞條ti在文檔dJ中的詞頻，Nk為類別Ck中的文檔數(shù)，I(dj.，Ck)的定義為
步驟3中按照W下方法計(jì)算整個(gè)數(shù)據(jù)集中每一個(gè)詞條的總體平均詞頻：
4. 根據(jù)權(quán)利要求2或3中所述的一種基于詞條分布的特征選擇方法，其特征在于，所述步驟4中按照W下方法計(jì)算每一個(gè)詞條的權(quán)重值：
【專利摘要】本發(fā)明公開了一種基于詞條分布的特征選擇方法，包括以下步驟：采集若干個(gè)不同類別的文本組成數(shù)據(jù)集；對(duì)數(shù)據(jù)集中的所有文本進(jìn)行預(yù)處理，得到若干個(gè)詞條；計(jì)算每一個(gè)詞條在所屬類別中的類平均詞頻；并計(jì)算每一個(gè)詞條在整個(gè)數(shù)據(jù)集中的總體平均詞頻；根據(jù)每一個(gè)詞條的類平均詞頻和總體平均詞頻計(jì)算其權(quán)重值；將所有詞條按照權(quán)重值進(jìn)行降序排列；選擇數(shù)據(jù)集中前5％～30％的詞條作為特征詞，用來對(duì)文本進(jìn)行分類。本發(fā)明的一種基于詞條分布的特征選擇方法，以詞頻為基礎(chǔ)，能夠提高分類精度。
【IPC分類】G06F17-30
【公開號(hào)】CN104794187
【申請(qǐng)?zhí)枴緾N201510172211
【發(fā)明人】周紅芳, 郭杰, 段文聰, 王心怡, 何馨依, 劉杰, 李錦
【申請(qǐng)人】西安理工大學(xué)
【公開日】2015年7月22日
【申請(qǐng)日】2015年4月13日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周紅芳;郭杰;段文聰;王心怡;何馨依;劉杰;李錦;
技術(shù)所有人：西安理工大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

空間分布特征分析方法相關(guān)技術(shù)

特征選擇方法相關(guān)技術(shù)

特征選擇的方法相關(guān)技術(shù)

文本特征選擇方法相關(guān)技術(shù)

特征選擇的標(biāo)準(zhǔn)方法相關(guān)技術(shù)

特征選擇方法有哪些相關(guān)技術(shù)

特征選擇方法綜述相關(guān)技術(shù)

特征選擇的方法有哪些相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于詞條分布的特征選擇方法