一種基于數(shù)據(jù)特征的智能信息分類方法

文檔序號(hào)：9687622閱讀：820來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于數(shù)據(jù)特征的智能信息分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域，設(shè)及一種基于數(shù)據(jù)特征的智能信息分類方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的飛速發(fā)展，網(wǎng)絡(luò)信息呈爆炸式增長(zhǎng)。面對(duì)如此海量的Web信息，如何快速、準(zhǔn)確地獲取有用信息，是當(dāng)今互聯(lián)網(wǎng)技術(shù)面臨的挑戰(zhàn)之一。網(wǎng)頁(yè)自動(dòng)分類是高效處理海量Web信息的一種重要技術(shù)。它是指對(duì)于待分類網(wǎng)頁(yè)，根據(jù)其內(nèi)容由計(jì)算機(jī)根據(jù)某種自動(dòng) 分類算法，把網(wǎng)頁(yè)分為預(yù)先定義好的類別。
[0003] 目前，已經(jīng)出現(xiàn)了多種基于統(tǒng)計(jì)理論和機(jī)器學(xué)習(xí)方法的文本自動(dòng)分類算法。但是與普通文本文檔相比，網(wǎng)頁(yè)具有W下特點(diǎn)：（1)網(wǎng)頁(yè)采用超文本設(shè)計(jì)，網(wǎng)頁(yè)內(nèi)包含HTML標(biāo)簽，運(yùn)使得它比普通文本表現(xiàn)能力更強(qiáng)，可W利用的結(jié)構(gòu)化信息和編輯信息更多；（2)Web上的網(wǎng)頁(yè)之間通過超鏈接互相關(guān)聯(lián)，超鏈接所蘊(yùn)含的內(nèi)容推薦與內(nèi)容相關(guān)關(guān)系給網(wǎng)頁(yè)分類帶來很多啟發(fā)信息；（3)網(wǎng)頁(yè)通常包含大量噪音，如廣告、導(dǎo)航條、推薦欄、作者信息等與主題內(nèi) 容無關(guān)的信息；（4)中文網(wǎng)頁(yè)使用中文表達(dá)，不像英語(yǔ)那樣使用空白符間隔每個(gè)單詞，中文網(wǎng)頁(yè)需要分詞處理。正是上面運(yùn)些原因使得網(wǎng)頁(yè)分類比普通文本分類要復(fù)雜得多。

【發(fā)明內(nèi)容】

[0004] 針對(duì)上述問題，本發(fā)明在深入研究中文網(wǎng)頁(yè)的特點(diǎn)之后，根據(jù)網(wǎng)頁(yè)標(biāo)題、關(guān)鍵字等部分對(duì)分類結(jié)果有較高權(quán)重的特點(diǎn)，提出了根據(jù)數(shù)據(jù)特征W預(yù)置關(guān)鍵詞表和標(biāo)題內(nèi)容為知識(shí)庫(kù)來進(jìn)行預(yù)先分類，再將網(wǎng)頁(yè)轉(zhuǎn)化成特征向量結(jié)合SVM算法作為補(bǔ)充的分類方法。該方法極大地提高了分類器的綜合性能。
[0005] 具體技術(shù)方案如下：一種基于數(shù)據(jù)特征的智能信息分類方法，包括訓(xùn)練和分類兩個(gè)階段：
[0006] 訓(xùn)練階段具體按照如下步驟進(jìn)行:步驟一、對(duì)待訓(xùn)練網(wǎng)頁(yè)進(jìn)行預(yù)處理，去除與網(wǎng)頁(yè) 分類無關(guān)的html標(biāo)記，從中抽取出正文文本。步驟二、對(duì)抽取的文本進(jìn)行中文分詞處理，并去掉分詞后對(duì)網(wǎng)頁(yè)分類沒有多大意義的停止詞。例如'的'、'了'等在漢語(yǔ)中沒有實(shí)際意義的字或詞，此外還有一些生僻字和特殊符號(hào)，都必須作為停止詞去掉。步驟Ξ、對(duì)分詞和去停止詞后的結(jié)果進(jìn)行詞頻統(tǒng)計(jì)。步驟四、對(duì)詞頻統(tǒng)計(jì)后的結(jié)果進(jìn)行特征選擇。具體做法是設(shè) 置詞頻闊值，過濾掉詞頻低于闊值的詞。步驟五、對(duì)余下的高頻詞進(jìn)行權(quán)重值計(jì)算，生成特征向量。步驟六、創(chuàng)建行業(yè)知識(shí)庫(kù)，為每個(gè)待訓(xùn)練類別預(yù)置該領(lǐng)域的關(guān)鍵詞表。步驟屯、創(chuàng)建 SVM分類器。
[0007] 分類階段具體按照如下步驟進(jìn)行:步驟一、對(duì)待分類練網(wǎng)頁(yè)進(jìn)行預(yù)處理，去除與網(wǎng) 頁(yè)分類無關(guān)的html標(biāo)記，從中抽取出正文文本。步驟二、對(duì)抽取后的文本進(jìn)行中文分詞和去停止詞處理，具體實(shí)施方法和訓(xùn)練時(shí)一樣。步驟Ξ、預(yù)分類。提取待分類網(wǎng)頁(yè)的標(biāo)題類容，與預(yù)置行業(yè)知識(shí)庫(kù)中的關(guān)鍵詞表進(jìn)行對(duì)比，確定網(wǎng)頁(yè)的所屬類別。若預(yù)分類成功，則直接返回分類結(jié)果;若預(yù)分類失敗，則繼續(xù)W下步驟。步驟四、將網(wǎng)頁(yè)文本分詞和去停止詞后的文本轉(zhuǎn)成特征向量。步驟五、使用SVM分類器對(duì)該特征向量進(jìn)行分類，并返回分類結(jié)果。
[0008] 基于W上技術(shù)方案的公開，本發(fā)明具備如下有益效果：
[0009] 1、本發(fā)明中根據(jù)網(wǎng)頁(yè)標(biāo)題、關(guān)鍵字等部分對(duì)分類結(jié)果有較高權(quán)重的特點(diǎn)，提出W 預(yù)置關(guān)鍵詞表和標(biāo)題內(nèi)容作為知識(shí)庫(kù)來進(jìn)行預(yù)先分類，大大提高了對(duì)中文網(wǎng)頁(yè)的分類速度。
[0010] 2、本發(fā)明中提出W數(shù)據(jù)特征建立知識(shí)庫(kù)進(jìn)行預(yù)分類，再結(jié)合SVM算法作為補(bǔ)充的分類方法，極大地提高了分類器的綜合性能。
【附圖說明】
[0011] 圖1是本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法的系統(tǒng)流程圖。
[0012] 圖2是本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法的訓(xùn)練階段流程圖。
[0013] 圖3是本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法的分類階段流程圖。
【具體實(shí)施方式】
[0014] 如圖1所示，為本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法的系統(tǒng)流程圖。參照?qǐng)D1，本發(fā)明提出的一種基于數(shù)據(jù)特征的智能信息分類方法包括:步驟S1，對(duì)已經(jīng)標(biāo) 記好的網(wǎng)頁(yè)進(jìn)行訓(xùn)練;步驟S2,對(duì)待分類的網(wǎng)頁(yè)進(jìn)行分類。
[0015] 參照?qǐng)D2，步驟S1中所述對(duì)已經(jīng)標(biāo)記好的網(wǎng)頁(yè)進(jìn)行訓(xùn)練包括：
[0016] 步驟S11，對(duì)待訓(xùn)練網(wǎng)頁(yè)進(jìn)行預(yù)處理，去除與網(wǎng)頁(yè)分類無關(guān)的html標(biāo)記，從中抽取出正文文本。首先，除去〈style〉、〈script〉、〈applet〉等標(biāo)記所嵌的html源碼；其次，將< title〉、<meta>標(biāo)簽中內(nèi)容提取出來，單獨(dú)保存;最后，過濾掉上述html標(biāo)簽后，提取出網(wǎng)頁(yè) 正文文本。
[0017] 步驟S12,對(duì)抽取的網(wǎng)頁(yè)正文文本進(jìn)行中文分詞處理，并去掉分詞后對(duì)網(wǎng)頁(yè)分類沒有多大意義的停止詞。例如'的'、'了'等在漢語(yǔ)中沒有實(shí)際意義的字或詞，此外還有一些生僻字和特殊符號(hào)，都必須作為停止詞去掉。
[0018] 步驟S13,對(duì)分詞和去停止詞后的結(jié)果進(jìn)行詞頻統(tǒng)計(jì)。
[0019] 步驟S14,對(duì)詞頻統(tǒng)計(jì)后的結(jié)果進(jìn)行特征選擇。具體做法是設(shè)置詞頻闊值，過濾掉詞頻低于闊值的詞。
[0020] 步驟S15,使用空間向量模型(Vector Space Model)將待訓(xùn)練網(wǎng)頁(yè)正文文本轉(zhuǎn)換成特征向量。在該模型中，每個(gè)文本文檔被表示成如下的特征向量：
[0021] V(d) = (ti，ω 1(d); t2, ω 2(d);···; tn，Wn(d);)
[0022] 其中ti為特征項(xiàng)，〇i(d)為ti在文檔中的權(quán)重。
[0023] 根據(jù)步驟S15所述，為了便于后續(xù)計(jì)算，需要減小特征向量的維度。步驟S12、S13、 S14減少了特征項(xiàng)的個(gè)數(shù)，即減少了特征向量的維度。
[0024] 根據(jù)步驟S15所述，特征項(xiàng)在文檔中的權(quán)重〇i(d)可W使用基于TF-IDF的傳統(tǒng)權(quán) 重算法進(jìn)行計(jì)算，計(jì)算公式如下：
[0025]
[0026] 其中，tfi (d)為ti在文檔d中出現(xiàn)的頻率，N為文檔集中的總文檔數(shù)，ηκ為出現(xiàn)特征項(xiàng)tK的文檔數(shù)。
[0027] 根據(jù)步驟S15所述，在網(wǎng)頁(yè)表示中，有兩個(gè)因素影響特征項(xiàng)的權(quán)重值:一是特征項(xiàng) 在文檔中出現(xiàn)的頻率，一是特征項(xiàng)在文檔中出現(xiàn)的位置。采用對(duì)不同位置特征詞賦予不同權(quán)重因子的方法，權(quán)重因子計(jì)算公式如下：
[002引
[0029] 其中，而表示核屯、詞平均詞頻，而表示非核屯、詞平均詞頻，dK和Νκ分別為核屯、詞詞頻和核屯、詞數(shù)，do和No分別為非核屯、詞詞頻和非核屯、詞詞數(shù)。核屯、詞包括<*^16〉內(nèi)的詞和< meta〉標(biāo)記中keywords，desc;ription位置出現(xiàn)的詞，其余為非核屯、詞。
[0030] 可選的，一般來說，核屯、詞的詞數(shù)少而出現(xiàn)次數(shù)多，且較為集中，所Κλ含1，當(dāng)遇到小于1的情況時(shí)就取λ= 1。對(duì)于核屯、詞，特征向量公式就變?yōu)椋?br>[0031 ] ω ' i(d) =λΧ ω i(d)
[0032] 步驟S16,創(chuàng)建知識(shí)庫(kù)，為每個(gè)待訓(xùn)練類別預(yù)置該領(lǐng)域的關(guān)鍵詞表。
[0033] 根據(jù)步驟S16所述，知識(shí)庫(kù)的具體創(chuàng)建方法為:首先按各個(gè)類別提取訓(xùn)練集中所有網(wǎng)頁(yè)的〈title〉標(biāo)記包含的內(nèi)容，并對(duì)其進(jìn)行分詞處理，然后分別統(tǒng)計(jì)詞頻，并按

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉治;張勝;章云;
技術(shù)所有人：廣東工業(yè)大學(xué);
我是此專利的發(fā)明人

上一篇：群組文件搜索方法和裝置的制造方法
上一篇：便攜式設(shè)備的中文姓名排序方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

數(shù)據(jù)特征提取方法相關(guān)技術(shù)

大數(shù)據(jù)特征提取方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于數(shù)據(jù)特征的智能信息分類方法