亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于詞條分布的特征選擇方法

文檔序號(hào):8473020閱讀:265來源:國(guó)知局
一種基于詞條分布的特征選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,涉及一種基于詞條分布的特征選擇方法。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)信息的迅速增長(zhǎng),電子文本的數(shù)量急劇增加,如何有效地組織這些資源 已經(jīng)引起了越來越多的研宄者的關(guān)注。文本分類就是解決這一問題的關(guān)鍵技術(shù)。文本分類 是利用一些已標(biāo)記的文本構(gòu)造分類器,然后根據(jù)構(gòu)造出的分類器將未標(biāo)記的文本自動(dòng)分類 到預(yù)定義的類別中,該技術(shù)廣泛應(yīng)用于Web文本分類、信息檢索、郵件過濾及垃圾短信過濾 等領(lǐng)域。
[0003] 目前,已存在大量的分類算法,例如決策樹、k-近鄰(kNN,k_NearestNeighbors)、 支持向量機(jī)(SVM,SupportVectorMachine)等。而文本自動(dòng)分類的主要困難之一是特征 空間的維數(shù)很高,特征數(shù)高達(dá)上萬(wàn),甚至幾十萬(wàn)。如何降低特征空間的維數(shù)、提高分類的效 率和精度,成為文本自動(dòng)分類中需要首先解決的問題。因此,特征選擇是文本分類過程中一 個(gè)非常重要的步驟。特征選擇是從原始特征向量空間中選擇出一些最具有區(qū)分類別能力的 特征項(xiàng)以降低數(shù)據(jù)集維數(shù)的過程,從而提高分類系統(tǒng)的效率。
[0004] 目前,常用的特征選擇方法有文檔頻率(DocumentFrequency,簡(jiǎn)稱DF)、信息增益 (InformationGain,簡(jiǎn)稱IG)、互信息(MutualInformation,簡(jiǎn)稱MI)等。這些方法在理 論上是合理的,但應(yīng)用于實(shí)際情況時(shí),效果卻有所不同。已有研宄比較了上述幾種經(jīng)典的特 征選擇方法,實(shí)驗(yàn)結(jié)果表明,IG方法的效果最佳;DF方法的性能同IG的性能大體相當(dāng),而且 DF方法還具有實(shí)現(xiàn)簡(jiǎn)單、算法復(fù)雜度低等優(yōu)點(diǎn);MI方法的性能最差。容易發(fā)現(xiàn),以上特征選 擇方法都是在文檔層面上進(jìn)行后續(xù)工作的。然而,在分類過程中,詞頻對(duì)特征選擇也有很大 的影響。于是,有人提出了t-test方法,這種方法雖然也是基于詞頻的,但由于沒有很好的 考慮數(shù)據(jù)集中類別之間的相互影響,因此,分類精度不高。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的是提供一種基于詞條分布的特征選擇方法,以詞頻為基礎(chǔ),能夠提 高分類精度。
[0006] 本發(fā)明所采用的技術(shù)方案是,一種基于詞條分布的特征選擇方法,包括以下步 驟:
[0007] 步驟1,采集若干個(gè)不同類別的文本組成數(shù)據(jù)集;
[0008] 步驟2,對(duì)數(shù)據(jù)集中的所有文本進(jìn)行預(yù)處理,得到若干個(gè)詞條,記為ti,i為詞條的 編號(hào);
[0009] 步驟3,計(jì)算每一個(gè)詞條&在所屬類別中的類平均詞頻
[0010] 并計(jì)算每一個(gè)詞條&在整個(gè)數(shù)據(jù)集中的總體平均詞頻#;
[0011] 步驟4,根據(jù)每一個(gè)詞條ti的類平均詞頻&和總體平均詞頻g計(jì)算其權(quán)重值;
[0012] 步驟5,將所有詞條按照權(quán)重值進(jìn)行降序排列;
[0013] 步驟6,選擇數(shù)據(jù)集中前5%~30%的詞條作為特征詞,用來對(duì)文本進(jìn)行分類。
[0014] 步驟2中對(duì)文本進(jìn)行預(yù)處理指對(duì)各個(gè)文本進(jìn)行分詞,即將每個(gè)文本內(nèi)的內(nèi)容切分 成單個(gè)的詞語(yǔ),并去除文本中去除文本中的停用詞和對(duì)分類無關(guān)的噪音信息。
[0015] 步驟3中計(jì)算每一個(gè)詞條在其所屬的類別中的平均詞頻,具體按照以下方法計(jì) 算:
【主權(quán)項(xiàng)】
1. 一種基于詞條分布的特征選擇方法,其特征在于,包括w下步驟: 步驟1,采集若干個(gè)不同類別的文本組成數(shù)據(jù)集; 步驟2,對(duì)數(shù)據(jù)集中的所有文本進(jìn)行預(yù)處理,得到若干個(gè)詞條,記為ti,i為詞條的編 號(hào); 步驟3,計(jì)算每一個(gè)詞條ti在所屬類別中的類平均詞頻^ ; 并計(jì)算每一個(gè)詞條ti在整個(gè)數(shù)據(jù)集中的總體平均詞頻^ ; 步驟4,根據(jù)每一個(gè)詞條ti的類平均詞頻^和總體平均詞頻計(jì)算其權(quán)重值; 步驟5,將所有詞條按照權(quán)重值進(jìn)行降序排列; 步驟6,選擇數(shù)據(jù)集中前5%~30%的詞條作為特征詞,用來對(duì)文本進(jìn)行分類。
2. 根據(jù)權(quán)利要求1所述的一種基于詞條分布的特征選擇方法,其特征在于,所述步驟 2中對(duì)文本進(jìn)行預(yù)處理指對(duì)各個(gè)文本進(jìn)行分詞,即將每個(gè)文本內(nèi)的內(nèi)容切分成單個(gè)的詞語(yǔ), 并去除文本中的停用詞和對(duì)分類無關(guān)的噪音信息。
3. 根據(jù)權(quán)利要求1中所述的一種基于詞條分布的特征選擇方法,其特征在于,所述步 驟3中按照W下方法計(jì)算每一個(gè)詞條在其所屬的類別中的平均詞頻:
其中,N為數(shù)據(jù)集中的文檔數(shù),tfy表示詞條ti在文檔dJ中的詞頻,Nk為類別Ck中的 文檔數(shù),I(dj.,Ck)的定義為
步驟3中按照W下方法計(jì)算整個(gè)數(shù)據(jù)集中每一個(gè)詞條的總體平均詞頻:
4. 根據(jù)權(quán)利要求2或3中所述的一種基于詞條分布的特征選擇方法,其特征在于,所述 步驟4中按照W下方法計(jì)算每一個(gè)詞條的權(quán)重值:
【專利摘要】本發(fā)明公開了一種基于詞條分布的特征選擇方法,包括以下步驟:采集若干個(gè)不同類別的文本組成數(shù)據(jù)集;對(duì)數(shù)據(jù)集中的所有文本進(jìn)行預(yù)處理,得到若干個(gè)詞條;計(jì)算每一個(gè)詞條在所屬類別中的類平均詞頻;并計(jì)算每一個(gè)詞條在整個(gè)數(shù)據(jù)集中的總體平均詞頻;根據(jù)每一個(gè)詞條的類平均詞頻和總體平均詞頻計(jì)算其權(quán)重值;將所有詞條按照權(quán)重值進(jìn)行降序排列;選擇數(shù)據(jù)集中前5%~30%的詞條作為特征詞,用來對(duì)文本進(jìn)行分類。本發(fā)明的一種基于詞條分布的特征選擇方法,以詞頻為基礎(chǔ),能夠提高分類精度。
【IPC分類】G06F17-30
【公開號(hào)】CN104794187
【申請(qǐng)?zhí)枴緾N201510172211
【發(fā)明人】周紅芳, 郭杰, 段文聰, 王心怡, 何馨依, 劉杰, 李錦
【申請(qǐng)人】西安理工大學(xué)
【公開日】2015年7月22日
【申請(qǐng)日】2015年4月13日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1