一種基于數(shù)據(jù)特征的智能信息分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,設(shè)及一種基于數(shù)據(jù)特征的智能信息分類方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)信息呈爆炸式增長(zhǎng)。面對(duì)如此海量的Web信息,如何 快速、準(zhǔn)確地獲取有用信息,是當(dāng)今互聯(lián)網(wǎng)技術(shù)面臨的挑戰(zhàn)之一。網(wǎng)頁(yè)自動(dòng)分類是高效處理 海量Web信息的一種重要技術(shù)。它是指對(duì)于待分類網(wǎng)頁(yè),根據(jù)其內(nèi)容由計(jì)算機(jī)根據(jù)某種自動(dòng) 分類算法,把網(wǎng)頁(yè)分為預(yù)先定義好的類別。
[0003] 目前,已經(jīng)出現(xiàn)了多種基于統(tǒng)計(jì)理論和機(jī)器學(xué)習(xí)方法的文本自動(dòng)分類算法。但是 與普通文本文檔相比,網(wǎng)頁(yè)具有W下特點(diǎn):(1)網(wǎng)頁(yè)采用超文本設(shè)計(jì),網(wǎng)頁(yè)內(nèi)包含HTML標(biāo)簽, 運(yùn)使得它比普通文本表現(xiàn)能力更強(qiáng),可W利用的結(jié)構(gòu)化信息和編輯信息更多;(2)Web上的 網(wǎng)頁(yè)之間通過超鏈接互相關(guān)聯(lián),超鏈接所蘊(yùn)含的內(nèi)容推薦與內(nèi)容相關(guān)關(guān)系給網(wǎng)頁(yè)分類帶來 很多啟發(fā)信息;(3)網(wǎng)頁(yè)通常包含大量噪音,如廣告、導(dǎo)航條、推薦欄、作者信息等與主題內(nèi) 容無關(guān)的信息;(4)中文網(wǎng)頁(yè)使用中文表達(dá),不像英語(yǔ)那樣使用空白符間隔每個(gè)單詞,中文 網(wǎng)頁(yè)需要分詞處理。正是上面運(yùn)些原因使得網(wǎng)頁(yè)分類比普通文本分類要復(fù)雜得多。
【發(fā)明內(nèi)容】
[0004] 針對(duì)上述問題,本發(fā)明在深入研究中文網(wǎng)頁(yè)的特點(diǎn)之后,根據(jù)網(wǎng)頁(yè)標(biāo)題、關(guān)鍵字等 部分對(duì)分類結(jié)果有較高權(quán)重的特點(diǎn),提出了根據(jù)數(shù)據(jù)特征W預(yù)置關(guān)鍵詞表和標(biāo)題內(nèi)容為知 識(shí)庫(kù)來進(jìn)行預(yù)先分類,再將網(wǎng)頁(yè)轉(zhuǎn)化成特征向量結(jié)合SVM算法作為補(bǔ)充的分類方法。該方法 極大地提高了分類器的綜合性能。
[0005] 具體技術(shù)方案如下:一種基于數(shù)據(jù)特征的智能信息分類方法,包括訓(xùn)練和分類兩 個(gè)階段:
[0006] 訓(xùn)練階段具體按照如下步驟進(jìn)行:步驟一、對(duì)待訓(xùn)練網(wǎng)頁(yè)進(jìn)行預(yù)處理,去除與網(wǎng)頁(yè) 分類無關(guān)的html標(biāo)記,從中抽取出正文文本。步驟二、對(duì)抽取的文本進(jìn)行中文分詞處理,并 去掉分詞后對(duì)網(wǎng)頁(yè)分類沒有多大意義的停止詞。例如'的'、'了'等在漢語(yǔ)中沒有實(shí)際意義 的字或詞,此外還有一些生僻字和特殊符號(hào),都必須作為停止詞去掉。步驟Ξ、對(duì)分詞和去 停止詞后的結(jié)果進(jìn)行詞頻統(tǒng)計(jì)。步驟四、對(duì)詞頻統(tǒng)計(jì)后的結(jié)果進(jìn)行特征選擇。具體做法是設(shè) 置詞頻闊值,過濾掉詞頻低于闊值的詞。步驟五、對(duì)余下的高頻詞進(jìn)行權(quán)重值計(jì)算,生成特 征向量。步驟六、創(chuàng)建行業(yè)知識(shí)庫(kù),為每個(gè)待訓(xùn)練類別預(yù)置該領(lǐng)域的關(guān)鍵詞表。步驟屯、創(chuàng)建 SVM分類器。
[0007] 分類階段具體按照如下步驟進(jìn)行:步驟一、對(duì)待分類練網(wǎng)頁(yè)進(jìn)行預(yù)處理,去除與網(wǎng) 頁(yè)分類無關(guān)的html標(biāo)記,從中抽取出正文文本。步驟二、對(duì)抽取后的文本進(jìn)行中文分詞和去 停止詞處理,具體實(shí)施方法和訓(xùn)練時(shí)一樣。步驟Ξ、預(yù)分類。提取待分類網(wǎng)頁(yè)的標(biāo)題類容,與 預(yù)置行業(yè)知識(shí)庫(kù)中的關(guān)鍵詞表進(jìn)行對(duì)比,確定網(wǎng)頁(yè)的所屬類別。若預(yù)分類成功,則直接返回 分類結(jié)果;若預(yù)分類失敗,則繼續(xù)W下步驟。步驟四、將網(wǎng)頁(yè)文本分詞和去停止詞后的文本 轉(zhuǎn)成特征向量。步驟五、使用SVM分類器對(duì)該特征向量進(jìn)行分類,并返回分類結(jié)果。
[0008] 基于W上技術(shù)方案的公開,本發(fā)明具備如下有益效果:
[0009] 1、本發(fā)明中根據(jù)網(wǎng)頁(yè)標(biāo)題、關(guān)鍵字等部分對(duì)分類結(jié)果有較高權(quán)重的特點(diǎn),提出W 預(yù)置關(guān)鍵詞表和標(biāo)題內(nèi)容作為知識(shí)庫(kù)來進(jìn)行預(yù)先分類,大大提高了對(duì)中文網(wǎng)頁(yè)的分類速 度。
[0010] 2、本發(fā)明中提出W數(shù)據(jù)特征建立知識(shí)庫(kù)進(jìn)行預(yù)分類,再結(jié)合SVM算法作為補(bǔ)充的 分類方法,極大地提高了分類器的綜合性能。
【附圖說明】
[0011] 圖1是本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法的系統(tǒng)流程圖。
[0012] 圖2是本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法的訓(xùn)練階段流程圖。
[0013] 圖3是本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法的分類階段流程圖。
【具體實(shí)施方式】
[0014] 如圖1所示,為本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法的系統(tǒng)流程 圖。參照?qǐng)D1,本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法包括:步驟S1,對(duì)已經(jīng)標(biāo) 記好的網(wǎng)頁(yè)進(jìn)行訓(xùn)練;步驟S2,對(duì)待分類的網(wǎng)頁(yè)進(jìn)行分類。
[0015] 參照?qǐng)D2,步驟S1中所述對(duì)已經(jīng)標(biāo)記好的網(wǎng)頁(yè)進(jìn)行訓(xùn)練包括:
[0016] 步驟S11,對(duì)待訓(xùn)練網(wǎng)頁(yè)進(jìn)行預(yù)處理,去除與網(wǎng)頁(yè)分類無關(guān)的html標(biāo)記,從中抽取 出正文文本。首先,除去〈style〉、〈script〉、〈applet〉等標(biāo)記所嵌的html源碼;其次,將< title〉、<meta>標(biāo)簽中內(nèi)容提取出來,單獨(dú)保存;最后,過濾掉上述html標(biāo)簽后,提取出網(wǎng)頁(yè) 正文文本。
[0017] 步驟S12,對(duì)抽取的網(wǎng)頁(yè)正文文本進(jìn)行中文分詞處理,并去掉分詞后對(duì)網(wǎng)頁(yè)分類沒 有多大意義的停止詞。例如'的'、'了'等在漢語(yǔ)中沒有實(shí)際意義的字或詞,此外還有一些生 僻字和特殊符號(hào),都必須作為停止詞去掉。
[0018] 步驟S13,對(duì)分詞和去停止詞后的結(jié)果進(jìn)行詞頻統(tǒng)計(jì)。
[0019] 步驟S14,對(duì)詞頻統(tǒng)計(jì)后的結(jié)果進(jìn)行特征選擇。具體做法是設(shè)置詞頻闊值,過濾掉 詞頻低于闊值的詞。
[0020] 步驟S15,使用空間向量模型(Vector Space Model)將待訓(xùn)練網(wǎng)頁(yè)正文文本轉(zhuǎn)換 成特征向量。在該模型中,每個(gè)文本文檔被表示成如下的特征向量:
[0021] V(d) = (ti,ω 1(d); t2, ω 2(d);···; tn,Wn(d);)
[0022] 其中ti為特征項(xiàng),〇i(d)為ti在文檔中的權(quán)重。
[0023] 根據(jù)步驟S15所述,為了便于后續(xù)計(jì)算,需要減小特征向量的維度。步驟S12、S13、 S14減少了特征項(xiàng)的個(gè)數(shù),即減少了特征向量的維度。
[0024] 根據(jù)步驟S15所述,特征項(xiàng)在文檔中的權(quán)重〇i(d)可W使用基于TF-IDF的傳統(tǒng)權(quán) 重算法進(jìn)行計(jì)算,計(jì)算公式如下:
[0025]
[0026] 其中,tfi (d)為ti在文檔d中出現(xiàn)的頻率,N為文檔集中的總文檔數(shù),ηκ為出現(xiàn)特征 項(xiàng)tK的文檔數(shù)。
[0027] 根據(jù)步驟S15所述,在網(wǎng)頁(yè)表示中,有兩個(gè)因素影響特征項(xiàng)的權(quán)重值:一是特征項(xiàng) 在文檔中出現(xiàn)的頻率,一是特征項(xiàng)在文檔中出現(xiàn)的位置。采用對(duì)不同位置特征詞賦予不同 權(quán)重因子的方法,權(quán)重因子計(jì)算公式如下:
[002引
[0029] 其中,而表示核屯、詞平均詞頻,而表示非核屯、詞平均詞頻,dK和Νκ分別為核屯、詞詞 頻和核屯、詞數(shù),do和No分別為非核屯、詞詞頻和非核屯、詞詞數(shù)。核屯、詞包括<*^16〉內(nèi)的詞和< meta〉標(biāo)記中keywords,desc;ription位置出現(xiàn)的詞,其余為非核屯、詞。
[0030] 可選的,一般來說,核屯、詞的詞數(shù)少而出現(xiàn)次數(shù)多,且較為集中,所Κλ含1,當(dāng)遇到 小于1的情況時(shí)就取λ= 1。對(duì)于核屯、詞,特征向量公式就變?yōu)椋?br>[0031 ] ω ' i(d) =λΧ ω i(d)
[0032] 步驟S16,創(chuàng)建知識(shí)庫(kù),為每個(gè)待訓(xùn)練類別預(yù)置該領(lǐng)域的關(guān)鍵詞表。
[0033] 根據(jù)步驟S16所述,知識(shí)庫(kù)的具體創(chuàng)建方法為:首先按各個(gè)類別提取訓(xùn)練集中所有 網(wǎng)頁(yè)的〈title〉標(biāo)記包含的內(nèi)容,并對(duì)其進(jìn)行分詞處理,然后分別統(tǒng)計(jì)詞頻,并按