一種集成學(xué)習(xí)的網(wǎng)頁分類方法及裝置與流程

文檔序號：11864668閱讀：251來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及網(wǎng)絡(luò)信息技術(shù)領(lǐng)域，尤其涉及一種集成學(xué)習(xí)的網(wǎng)頁分類方法及裝置。

背景技術(shù)：

隨著網(wǎng)絡(luò)信息產(chǎn)業(yè)發(fā)展而產(chǎn)生的Internet(國際互聯(lián)網(wǎng))和網(wǎng)絡(luò)信息的安全問題，已成為熱點問題。各種網(wǎng)絡(luò)系統(tǒng)以及有關(guān)軟硬件系統(tǒng)的缺陷、各種系統(tǒng)管理方面的漏洞，帶來了許多安全上的隱患，出現(xiàn)了許多嚴(yán)重的網(wǎng)絡(luò)安全問題。Internet本身所具有的開放性和共享性對信息的安全問題也提出了嚴(yán)峻挑戰(zhàn)。

為防止重要信息外泄，需對外部訪問的內(nèi)容進(jìn)行行為控制，按照一定策略需求，對某些類別網(wǎng)站進(jìn)行屏蔽。因此，對于網(wǎng)站或網(wǎng)頁內(nèi)容的識別及相關(guān)技術(shù)成為該領(lǐng)域核心技術(shù)。

目前，對于網(wǎng)頁分類多采用線下分類的方式。網(wǎng)頁線下分類方式先通過網(wǎng)絡(luò)爬蟲得到大量網(wǎng)頁源文件，對網(wǎng)頁源文件進(jìn)行信息抽取和信息去噪，再進(jìn)行中文分詞處理，根據(jù)分詞結(jié)果采用機(jī)器學(xué)習(xí)相關(guān)技術(shù)，如SVM(Support Vector Machine，支持向量機(jī))、Bayes(貝葉斯)等，對網(wǎng)頁進(jìn)行分類，將網(wǎng)頁及網(wǎng)頁分類存儲到數(shù)據(jù)庫中。實際使用時，將網(wǎng)頁與存儲網(wǎng)頁及其相應(yīng)類別的數(shù)據(jù)庫中的記錄進(jìn)行匹配，得到網(wǎng)頁相應(yīng)類別。

常用的網(wǎng)頁信息抽取方法，例如基于文檔向量模型樹的方法；分詞方法有字符串匹配分詞、理解分詞、統(tǒng)計分詞等；網(wǎng)頁類型識別方法主要有兩種：第一種是基于人工規(guī)則和策略的方法，主要利用領(lǐng)域?qū)＜抑R進(jìn)行整理分類；第二種是文本分類方法，如樸素貝葉斯、SVM等。

上述現(xiàn)有網(wǎng)頁信息提取方法存在信息提取準(zhǔn)確率較低的缺陷；分詞相關(guān)方法也存在分詞不準(zhǔn)確等問題，網(wǎng)頁分類準(zhǔn)確率較低；基于人工規(guī)則和策略的分類方法可擴(kuò)展性較差，而且耗費大量人力、時間；基于文本分類方法的網(wǎng)頁分類雖然需要較少人工干預(yù)，也能保證一定覆蓋率和準(zhǔn)確率，但是計算量大，也比較耗時，難以滿足實時性要求很高的系統(tǒng)。此外，兩種分類方法在覆蓋度和計算量上也均存在一定的限制。

技術(shù)實現(xiàn)要素：

本發(fā)明要解決的技術(shù)問題是，提供一種集成學(xué)習(xí)的網(wǎng)頁分類方法及裝置，克服現(xiàn)有技術(shù)中網(wǎng)頁URL分類準(zhǔn)確率低和計算效率低下。

本發(fā)明采用的技術(shù)方案是，所述一種集成學(xué)習(xí)的網(wǎng)頁分類方法，包括：

步驟一，輸入網(wǎng)頁統(tǒng)一資源定位符URL，對輸入的所述網(wǎng)頁URL進(jìn)行去重和確保有效性處理后，得到網(wǎng)頁URL集合；

步驟二，通過分布式爬蟲對所述網(wǎng)頁URL集合對應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行爬取，并對爬取到的所述網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理，生成原始語料；

步驟三，對所述原始語料進(jìn)行分詞處理得到待分類語料；

步驟四，通過至少兩種分類算法模型并行的對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測，將網(wǎng)頁URL分類預(yù)測結(jié)果均一致的網(wǎng)頁URL歸為一類并按類存入URL分類庫。

進(jìn)一步的，步驟一中，所述輸入網(wǎng)頁URL，具體包括：

通過外部輸入或內(nèi)部抽取輸入所述網(wǎng)頁URL；

其中，所述外部輸入是通過用戶手動輸入或以文本形式導(dǎo)入所述網(wǎng)頁URL；

所述內(nèi)部抽取是從數(shù)據(jù)庫中抽取設(shè)定條件的網(wǎng)頁URL。

進(jìn)一步的，步驟一中，所述確保有效性處理，具體包括：

根據(jù)去重后的網(wǎng)頁URL的最后修改時間字段和有效期限字段進(jìn)行判斷，若距離最后修改時間超過有效期限，則對超過有效期限的網(wǎng)頁URL通過爬蟲進(jìn)行重新爬取。

進(jìn)一步的，步驟二中，所述對爬取的網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理，生成原始語料，具體包括：

對爬取到的網(wǎng)頁去除網(wǎng)頁標(biāo)簽和亂碼，并過濾掉包含外語的網(wǎng)頁內(nèi)容，生成預(yù)設(shè)格式的原始語料。

進(jìn)一步的，步驟二中，所述通過分布式爬蟲對網(wǎng)頁URL集合對應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行爬取，具體包括：

基于海杜普分布式集群的網(wǎng)絡(luò)爬蟲架構(gòu)，通過寬度優(yōu)先搜索算法按批次從國際互聯(lián)網(wǎng)爬取所述網(wǎng)頁URL集合對應(yīng)的網(wǎng)頁內(nèi)容；

其中，所述網(wǎng)頁內(nèi)容為網(wǎng)頁URL集合中網(wǎng)頁URL域名級別為五級及五級以下對應(yīng)的網(wǎng)頁內(nèi)容。

進(jìn)一步的，步驟三，具體包括：

對所述原始語料通過開源的并可擴(kuò)充分詞詞典的分詞系統(tǒng)進(jìn)行分詞處理，得到所述待分類語料。

進(jìn)一步的，步驟四，具體包括：

初始化所述待分類語料，加載由所述待分類語料組成的待分類語料集合和所述特征文件到內(nèi)存；

根據(jù)所述特征文件中的特征詞，將待分類語料集合中每個待分類語料生成一個N維列向量，并將N維列向量存入待分類語料向量化文檔；

選取至少兩個分類算法模型并行對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測；

對選取的各分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果進(jìn)行對比匹配；

若選取的各分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果均一致，則將分類結(jié)果一致的網(wǎng)頁URL歸為一類并按類存入網(wǎng)頁URL分類庫。

進(jìn)一步的，步驟四中，所述至少兩種分類算法模型從以下分類算法模型中任意選?。贺惾~斯Bayes分類算法模型、支持向量機(jī)SVM分類算法模型、最大熵分類算法模型、鄰近算法KNN分類算法模型和神經(jīng)網(wǎng)絡(luò)分類算法模型。

進(jìn)一步的，所述Bayes分類算法模型、所述SVM分類算法模型、所述最大熵分類算法模型、所述KNN分類算法模型或者所述神經(jīng)網(wǎng)絡(luò)分類算法模型的獲取過程，包括：

初始化訓(xùn)練語料，加載由所述訓(xùn)練語料組成的訓(xùn)練語料集合到內(nèi)存；

通過期望交叉熵算法對所述訓(xùn)練語料進(jìn)行特征詞抽取，并通過期望交叉熵算法為抽取的訓(xùn)練語料特征詞分配特征詞權(quán)值；根據(jù)預(yù)設(shè)的參數(shù)N指定訓(xùn)練語料特征詞維數(shù)，對所述訓(xùn)練語料特征詞按特征詞權(quán)值降序排列，選取前N個訓(xùn)練語料特征詞保存到特征文件中；

其中，N為不小于預(yù)設(shè)的網(wǎng)頁URL分類類別數(shù)量的整數(shù)；

根據(jù)所述特征文件中的特征詞，將所述訓(xùn)練語料集合中每個訓(xùn)練語料生成一個N維列向量，并將N維列向量存入訓(xùn)練語料向量化文檔；

以所述訓(xùn)練語料向量化文檔作為輸入，通過Bayes分類算法、SVM分類算法、最大熵分類算法、KNN分類算法或者神經(jīng)網(wǎng)絡(luò)分類算法分別進(jìn)行訓(xùn)練和參數(shù)選擇，分別生成對應(yīng)的Bayes分類算法模型、SVM分類算法模型、最大熵分類算法模型、KNN分類算法模型或者神經(jīng)網(wǎng)絡(luò)分類算法模型。

進(jìn)一步的，步驟四中，通過所述Bayes分類算法模型、所述SVM分類算法模型和所述最大熵分類算法模型分別并行對所述待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測，具體包括：

對所述Bayes分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果、所述SVM分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果和所述最大熵分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果進(jìn)行對比匹配；

若所述Bayes分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果、所述SVM分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果和所述最大熵分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果一致，則將分類結(jié)果一致的網(wǎng)頁URL歸為一類并按類存入網(wǎng)頁URL分類庫。

進(jìn)一步的，所述方法，在步驟四之后，還包括：

發(fā)布所述網(wǎng)頁URL分類庫，并生成網(wǎng)頁URL分類報表；

所述網(wǎng)頁URL分類報表包括：網(wǎng)頁URL類別和各網(wǎng)頁URL類別中網(wǎng)頁URL數(shù)量和占比。

本發(fā)明還提供一種集成學(xué)習(xí)的網(wǎng)頁分類裝置，包括：

輸入模塊，用于輸入網(wǎng)頁URL，對輸入的所述網(wǎng)頁URL進(jìn)行去重和確保有效性處理后，得到網(wǎng)頁URL集合；

爬蟲爬取模塊，用于通過分布式爬蟲對所述網(wǎng)頁URL集合對應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行爬取，并對爬取到的所述網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理，生成原始語料；

分詞模塊，用于對所述原始語料進(jìn)行分詞處理得到待分類語料；

分類模塊，用于通過至少兩種分類算法模型并行的對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測，將網(wǎng)頁URL分類預(yù)測結(jié)果均一致的網(wǎng)頁URL歸為一類并按類存入URL分類庫。

進(jìn)一步的，所述輸入模塊，具體用于：

通過外部輸入或內(nèi)部抽取輸入所述網(wǎng)頁URL；

其中，所述外部輸入是通過用戶手動輸入或以文本形式導(dǎo)入所述網(wǎng)頁URL；

所述內(nèi)部抽取是從數(shù)據(jù)庫中抽取設(shè)定條件的網(wǎng)頁URL。

進(jìn)一步的，所述輸入模塊，具體用于：

進(jìn)一步的，所述爬蟲爬取模塊，具體用于：

對爬取到的網(wǎng)頁去除網(wǎng)頁標(biāo)簽和亂碼，并過濾掉包含外語的網(wǎng)頁內(nèi)容，生成預(yù)設(shè)格式的原始語料。

進(jìn)一步的，所述爬蟲爬取模塊，具體用于：

其中，所述網(wǎng)頁內(nèi)容為網(wǎng)頁URL集合中網(wǎng)頁URL域名級別為五級及五級以下對應(yīng)的網(wǎng)頁內(nèi)容。

進(jìn)一步的，所述分詞模塊，具體用于：

對所述原始語料通過開源的并可擴(kuò)充分詞詞典的分詞系統(tǒng)進(jìn)行分詞處理，得到所述待分類語料。

進(jìn)一步的，所述分類模塊，具體用于：

初始化所述待分類語料，加載由所述待分類語料組成的待分類語料集合和所述特征文件到內(nèi)存；

根據(jù)所述特征文件中的特征詞，將待分類語料集合中每個待分類語料生成一個N維列向量，并將N維列向量存入待分類語料向量化文檔；

選取至少兩個分類算法模型并行對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測；

對選取的各分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果進(jìn)行對比匹配；

若選取的各分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果均一致，則將分類結(jié)果一致的網(wǎng)頁URL歸為一類并按類存入網(wǎng)頁URL分類庫。

進(jìn)一步的，所述分類模塊，還用于：

從以下分類算法模型中選取所述至少兩種分類算法模型：Bayes分類算法模型、SVM分類算法模型、最大熵分類算法模型、KNN分類算法模型和神經(jīng)網(wǎng)絡(luò)分類算法模型。

進(jìn)一步的，所述分類模塊，還用于：

按照如下方式獲取所述Bayes分類算法模型、所述SVM分類算法模型、所述最大熵分類算法模型、所述KNN分類算法模型或者所述神經(jīng)網(wǎng)絡(luò)分類算法模型：

初始化訓(xùn)練語料，加載由所述訓(xùn)練語料組成的訓(xùn)練語料集合到內(nèi)存；

其中，N為不小于預(yù)設(shè)的網(wǎng)頁URL分類類別數(shù)量的整數(shù)；

根據(jù)所述特征文件中的特征詞，將所述訓(xùn)練語料集合中每個訓(xùn)練語料生成一個N維列向量，并將N維列向量存入訓(xùn)練語料向量化文檔；

以所述訓(xùn)練語料向量化文檔作為輸入，通過貝葉斯Bayes分類算法、支持向量機(jī)SVM分類算法、最大熵分類算法、鄰近算法KNN分類算法或者神經(jīng)網(wǎng)絡(luò)分類算法分別進(jìn)行訓(xùn)練和參數(shù)選擇，對應(yīng)的生成Bayes分類算法模型、SVM分類算法模型、最大熵分類算法模型、KNN分類算法模型或者神經(jīng)網(wǎng)絡(luò)分類算法模型。

進(jìn)一步的，所述分類模塊，具體用于：

通過所述Bayes分類算法模型、所述SVM分類算法模型和所述最大熵分類算法模型分別并行對所述待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測；

進(jìn)一步的，所述裝置，還包括：

發(fā)布模塊，用于發(fā)布所述網(wǎng)頁URL分類庫，并生成網(wǎng)頁URL分類報表；

所述網(wǎng)頁URL分類報表包括：網(wǎng)頁URL類別和各網(wǎng)頁URL類別中網(wǎng)頁URL數(shù)量和占比。

采用上述技術(shù)方案，本發(fā)明至少具有下列優(yōu)點：

本發(fā)明所述集成學(xué)習(xí)的網(wǎng)頁分類方法及裝置，基于分布式的爬蟲架構(gòu)，有效的提高了全網(wǎng)爬行效率，無需人工參與，自動輪詢執(zhí)行用戶提交的任務(wù)，實現(xiàn)自動化網(wǎng)頁爬行過程；通過兩種及兩種以上分類算法模型對網(wǎng)頁URL進(jìn)行分類預(yù)測，以分類結(jié)果全部一致為入庫準(zhǔn)則，提高了網(wǎng)頁URL分類準(zhǔn)確率和網(wǎng)頁URL分類庫的質(zhì)量；實現(xiàn)了完全自動化網(wǎng)頁URL分類集成系統(tǒng)，減少了大量人力和時間，極大提高了網(wǎng)頁URL分類效率。

附圖說明

圖1為本發(fā)明第一實施例的一種集成學(xué)習(xí)的網(wǎng)頁分類方法流程圖；

圖2為本發(fā)明第三實施例的一種集成學(xué)習(xí)的網(wǎng)頁分類裝置組成結(jié)構(gòu)示意圖；

圖3為本發(fā)明第五實施例的一種集成學(xué)習(xí)的網(wǎng)頁分類方法流程圖；

圖4為本發(fā)明第五實施例的所述集成學(xué)習(xí)的網(wǎng)頁分類算法流程圖。

具體實施方式

為更進(jìn)一步闡述本發(fā)明為達(dá)成預(yù)定目的所采取的技術(shù)手段及功效，以下結(jié)合附圖及較佳實施例，對本發(fā)明進(jìn)行詳細(xì)說明如后。

本發(fā)明第一實施例，一種集成學(xué)習(xí)的網(wǎng)頁分類方法，如圖1所示，包括以下具體步驟：

步驟S101，輸入網(wǎng)頁URL(Uniform Resource Locator，統(tǒng)一資源定位符)，對輸入的網(wǎng)頁URL進(jìn)行去重和確保有效性處理后，得到網(wǎng)頁URL集合。

具體的，步驟S101，包括：

步驟A1，通過外部輸入或內(nèi)部抽取輸入網(wǎng)頁URL。

其中，外部輸入是通過用戶手動輸入或以文本形式導(dǎo)入網(wǎng)頁URL。

內(nèi)部抽取是通過從數(shù)據(jù)庫中抽取設(shè)定條件的網(wǎng)頁URL。

其中，數(shù)據(jù)庫為存儲網(wǎng)頁URL相關(guān)信息的MySQL數(shù)據(jù)庫。

步驟A2，對輸入的網(wǎng)頁URL進(jìn)行去重，根據(jù)去重后的網(wǎng)頁URL的最后修改時間字段和有效期限字段進(jìn)行判斷，是否重新爬取網(wǎng)頁URL，將需要重新爬取的網(wǎng)頁URL進(jìn)行更新，得到網(wǎng)頁URL集合。

具體的，步驟A2，包括：

步驟B1，對輸入的重復(fù)網(wǎng)頁URL進(jìn)行刪除。

步驟B2，根據(jù)去重后的網(wǎng)頁URL的最后修改時間字段和有效期限字段進(jìn)行判斷，是否需要重新爬取網(wǎng)頁URL，將需要重新爬取的網(wǎng)頁URL進(jìn)行更新，得到網(wǎng)頁URL集合。

具體的，根據(jù)去重后的網(wǎng)頁URL的最后修改時間字段和有效期限字段進(jìn)行判斷，若距離最后修改時間超過有效期限，則對超過有效期限網(wǎng)頁URL通過分布式爬蟲進(jìn)行重新爬取，并用重新爬取的網(wǎng)頁URL代替判斷為需要重新爬取的原網(wǎng)頁URL，得到網(wǎng)頁URL集合。

步驟S102，通過分布式爬蟲對網(wǎng)頁URL集合對應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行爬取，并對爬取到的網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理，得到原始語料。

具體的，步驟S102，包括：

步驟C1，通過爬蟲對網(wǎng)頁URL集合對應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行爬取。

基于Hadoop(海杜普)分布式集群的網(wǎng)絡(luò)爬蟲架構(gòu)，通過BFS(Breadth First Search，寬度優(yōu)先搜索算法)算法多節(jié)點并發(fā)從Internet爬取網(wǎng)頁URL集合對應(yīng)的網(wǎng)頁內(nèi)容。受限于Hadoop集群綜合能力，集群一次能有效處理的數(shù)據(jù)量有限，因此按批次從Internet爬取網(wǎng)頁URL集合對應(yīng)的網(wǎng)頁內(nèi)容，以使網(wǎng)頁內(nèi)容數(shù)量規(guī)模達(dá)到千萬級別。

其中，爬取網(wǎng)頁內(nèi)容為網(wǎng)頁URL集合中的網(wǎng)頁URL域名級別為五級及五級以下對應(yīng)的網(wǎng)頁內(nèi)容。

步驟C2，對爬取的網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理。

對爬取到的網(wǎng)頁內(nèi)容去除網(wǎng)頁標(biāo)簽和亂碼等格式化處理，并過濾掉包含外語的網(wǎng)頁，生成預(yù)設(shè)格式的原始語料，將原始語料存入原始語料集合。

步驟S103，對原始語料進(jìn)行分詞處理，得到待分類語料。

對原始語料通過開源并可擴(kuò)充分詞詞典的分詞系統(tǒng)進(jìn)行分詞處理，得到待分類語料。通過開源并可擴(kuò)充分詞詞典的自主擴(kuò)充大大增強了對原始語料分詞的需求，通過增加詞性標(biāo)注和詞頻統(tǒng)計功能，更有效地保證待分類語料質(zhì)量。該技術(shù)為現(xiàn)有技術(shù)，在此不贅述。

步驟S104，通過至少兩種分類算法模型并行的對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測，將網(wǎng)頁URL分類預(yù)測結(jié)果均一致的網(wǎng)頁URL歸為一類并按類存入URL分類庫。

具體的，步驟S104，包括：

步驟D1，創(chuàng)建Bayes分類算法模型，SVM分類算法模型、最大熵分類算法模型、KNN(K-NearestNeighbor，鄰近算法)分類算法模型或者神經(jīng)網(wǎng)絡(luò)分類算法模型。

初始化訓(xùn)練語料，加載由訓(xùn)練語料組成的訓(xùn)練語料集合到內(nèi)存等。

通過期望交叉熵算法對練語料進(jìn)行特征詞抽取，并通過期望交叉熵算法為抽取的訓(xùn)練語料特征詞分配權(quán)值。根據(jù)抽取的特征詞和特征詞權(quán)值生成維數(shù)特征文件。

通過預(yù)設(shè)的參數(shù)N指定訓(xùn)練語料特征詞維數(shù)，根據(jù)訓(xùn)練語料特征詞權(quán)值，對所有訓(xùn)練語料特征詞按特征詞權(quán)值排序，根據(jù)參數(shù)N選取前N個特征詞保存到特征文件中。

其中，N為不小于預(yù)設(shè)的網(wǎng)頁URL類別數(shù)量的整數(shù)。

對訓(xùn)練語料進(jìn)行向量化處理，生成向量化文檔。

對訓(xùn)練語料進(jìn)行向量化處理，包括：根據(jù)特征文件中的特征詞，將訓(xùn)練語料集合中每個訓(xùn)練語料生成一個N維列向量，并將N維列向量存入訓(xùn)練語料向量化文檔。該技術(shù)為現(xiàn)有技術(shù)，在此不贅述。

以訓(xùn)練語料向量化文檔作為輸入，通過Bayes分類算法、SVM分類算法、最大熵分類算法、KNN分類算法和神經(jīng)網(wǎng)絡(luò)分類算法分別進(jìn)行訓(xùn)練和參數(shù)選擇，分別生成對應(yīng)的Bayes分類算法模型、SVM分類算法模型、最大熵分類算法模型、KNN分類算法模型或者神經(jīng)網(wǎng)絡(luò)分類算法模型。

步驟D2，選取Bayes分類算法模型、SVM分類算法模型、最大熵分類算法模型、KNN分類算法模型和神經(jīng)網(wǎng)絡(luò)分類算法模型中的至少兩種分類算法模型進(jìn)行組合，對待分類語料向量化文檔分別并行進(jìn)行網(wǎng)頁URL分類預(yù)測。

初始化待分類語料，加載由待分類語料組成的待分類語料集合和特征文件到內(nèi)存等。

對待分類語料進(jìn)行向量化處理，生成待分類語料向量化文檔。

對待分類語料進(jìn)行向量化處理，包括：根據(jù)特征文件中的特征詞，將待分類語料集合中每個待分類語料生成一個N維列向量，并將N維列向量存入待分類語料向量化文檔。該技術(shù)為現(xiàn)有技術(shù)，在此不贅述。

選取Bayes分類算法模型、SVM分類算法模型、最大熵分類算法模型、KNN分類算法模型和神經(jīng)網(wǎng)絡(luò)分類算法模型中的至少兩個分類算法模型進(jìn)行組合，分別并行對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測。

對選取的至少兩個分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果進(jìn)行對比匹配。

若選取的至少兩個分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果一致，則將分類結(jié)果一致的網(wǎng)頁URL歸為一類并按類存入網(wǎng)頁URL分類庫。

步驟S105，對網(wǎng)頁URL分類庫進(jìn)行發(fā)布。

發(fā)布網(wǎng)頁URL分類庫，并生成網(wǎng)頁URL分類報表。

網(wǎng)頁URL分類報表包括：網(wǎng)頁URL類別和各網(wǎng)頁URL類別中網(wǎng)頁URL數(shù)量和占比。

本發(fā)明第二實施例，一種集成學(xué)習(xí)的網(wǎng)頁分類方法，本實施例所述方法與第一實施例大致相同，區(qū)別在于通過三種分類算法模型對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測，本實施例的所述方法，還包括以下具體步驟：

步驟S104，通過Bayes分類算法模型，SVM分類算法模型和最大熵分類算法模型并行對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測，將網(wǎng)頁URL分類預(yù)測結(jié)果一致的網(wǎng)頁URL歸為一類并按類存入URL分類庫。

具體的，步驟S104，包括：

步驟Z1，創(chuàng)建Bayes分類算法模型，SVM分類算法模型和最大熵分類算法模型

初始化訓(xùn)練語料，加載由訓(xùn)練語料組成的訓(xùn)練語料集合到內(nèi)存等。

通過預(yù)設(shè)的參數(shù)N指定訓(xùn)練語料特征詞維數(shù)，根據(jù)訓(xùn)練語料特征詞權(quán)值，對所有訓(xùn)練語料特征詞按特征詞權(quán)值降序排列，根據(jù)參數(shù)N選取前N個特征詞保存到特征文件中。

其中，N為不小于預(yù)設(shè)的網(wǎng)頁URL類別數(shù)量的整數(shù)。

對訓(xùn)練語料進(jìn)行向量化處理，生成向量化文檔。

以訓(xùn)練語料向量化文檔作為輸入，通過Bayes分類算法、SVM分類算法和最大熵分類算法分別進(jìn)行訓(xùn)練和參數(shù)選擇，分別生成Bayes分類算法模型、SVM分類算法模型和最大熵分類算法模型。

步驟Z2，通過Bayes分類算法模型、SVM分類算法模型和最大熵分類算法模型對待分類語料向量化文檔分別并行進(jìn)行網(wǎng)頁URL分類預(yù)測。

初始化待分類語料，加載由待分類語料組成的待分類語料集合和和特征文件到內(nèi)存等。

對待分類語料進(jìn)行向量化處理，生成待分類語料向量化文檔。

通過Bayes分類算法模型、SVM分類算法模型和最大熵分類算法模型分別并行對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測。

對Bayes分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果、SVM分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果和最大熵分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果進(jìn)行對比匹配。

若Bayes分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果、SVM分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果和最大熵分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果一致，則將分類結(jié)果一致的網(wǎng)頁URL歸為一類并按類存入網(wǎng)頁URL分類庫。

本發(fā)明第三實施例，與第一實施例對應(yīng)，本實施例介紹一種集成學(xué)習(xí)的網(wǎng)頁分類裝置，如圖2所示，包括以下組成部分：

輸入模塊100，用于輸入網(wǎng)頁統(tǒng)一資源定位符URL，對輸入的網(wǎng)頁URL進(jìn)行去重和確保有效性處理后，得到網(wǎng)頁URL集合。

具體的，輸入模塊100，用于：

通過外部輸入或內(nèi)部抽取輸入網(wǎng)頁URL；

其中，外部輸入是通過用戶手動輸入或以文本形式導(dǎo)入網(wǎng)頁URL。

內(nèi)部抽取是從數(shù)據(jù)庫中抽取設(shè)定條件的網(wǎng)頁URL。

爬蟲爬取模塊200，用于通過分布式爬蟲對網(wǎng)頁URL集合對應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行爬取，并對爬取到的網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理，生成原始語料。

用于基于海杜普分布式集群的網(wǎng)絡(luò)爬蟲架構(gòu)，通過寬度優(yōu)先搜索算法多節(jié)點并發(fā)按批次從國際互聯(lián)網(wǎng)爬取網(wǎng)頁URL集合對應(yīng)的網(wǎng)頁內(nèi)容。

其中，網(wǎng)頁內(nèi)容為網(wǎng)頁URL集合中網(wǎng)頁URL域名級別為五級及五級以下對應(yīng)的網(wǎng)頁內(nèi)容。

對爬取到的網(wǎng)頁去除網(wǎng)頁標(biāo)簽和亂碼，并過濾掉包含外語的網(wǎng)頁內(nèi)容，生成預(yù)設(shè)格式的原始語料。

分詞模塊300，用于對原始語料進(jìn)行分詞處理得到待分類語料。

用于對原始語料通過開源的并可擴(kuò)充分詞詞典的分詞系統(tǒng)進(jìn)行分詞處理，得到待分類語料。

分類模塊400，用于通過至少兩種分類算法模型并行的對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測，將網(wǎng)頁URL分類預(yù)測結(jié)果均一致的網(wǎng)頁URL歸為一類并按類存入URL分類庫。

具體的，分類模塊400，用于：

初始化訓(xùn)練語料，加載由訓(xùn)練語料組成的訓(xùn)練語料集合到內(nèi)存等。

其中，N為不小于預(yù)設(shè)的網(wǎng)頁URL類別數(shù)量的整數(shù)。

對訓(xùn)練語料進(jìn)行向量化處理，生成向量化文檔。

以訓(xùn)練語料向量化文檔作為輸入，通過Bayes分類算法、SVM分類算法、最大熵分類算法、KNN分類算法或者神經(jīng)網(wǎng)絡(luò)分類算法分別進(jìn)行訓(xùn)練和參數(shù)選擇，分別生成對應(yīng)的Bayes分類算法模型、SVM分類算法模型、最大熵分類算法模型、KNN分類算法模型或者神經(jīng)網(wǎng)絡(luò)分類算法模型。

初始化待分類語料，加載由待分類語料組成的待分類語料集合和特征文件到內(nèi)存等。

對待分類語料進(jìn)行向量化處理，生成待分類語料向量化文檔。

選取Bayes分類算法模型、SVM分類算法模型、最大熵分類算法模型、KNN分類算法模型和神經(jīng)網(wǎng)絡(luò)分類算法模型中的至少兩種分類算法模型進(jìn)行組合，通過選取的至少兩種分類算法模型分別并行對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測。

對選取的至少兩種分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果進(jìn)行對比匹配。

若選取的至少兩種分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果一致，則將分類結(jié)果一致的網(wǎng)頁URL歸為一類并按類存入網(wǎng)頁URL分類庫。

發(fā)布模塊500，用于發(fā)布網(wǎng)頁URL分類庫，并生成網(wǎng)頁URL分類報表；

網(wǎng)頁URL分類報表包括：網(wǎng)頁URL類別和各網(wǎng)頁URL類別中網(wǎng)頁URL數(shù)量和占比。

本發(fā)明第三實施例，一種集成學(xué)習(xí)的網(wǎng)頁分類裝置，本實施例所述裝置與第三實施例大致相同，區(qū)別在于分類模塊400用于通過Bayes分類算法模型，SVM分類算法模型和最大熵分類算法模型并行對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測，本實施例的所述裝置，分類模塊400具體用于：

分類模塊400，用于創(chuàng)建Bayes分類算法模型，SVM分類算法模型和最大熵分類算法模型，并通過Bayes分類算法模型，SVM分類算法模型和最大熵分類算法模型并行對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測，將網(wǎng)頁URL分類預(yù)測結(jié)果一致的網(wǎng)頁URL歸為一類并按類存入URL分類庫。

具體的，分類模塊400，具體用于：

創(chuàng)建Bayes分類算法模型，SVM分類算法模型和最大熵分類算法模型

初始化訓(xùn)練語料，加載由訓(xùn)練語料組成的訓(xùn)練語料集合到內(nèi)存等。

其中，N為不小于預(yù)設(shè)的網(wǎng)頁URL類別數(shù)量的整數(shù)。

對訓(xùn)練語料進(jìn)行向量化處理，生成向量化文檔。

初始化待分類語料，加載由待分類語料組成的待分類語料集合和和特征文件到內(nèi)存等。

對待分類語料進(jìn)行向量化處理，生成待分類語料向量化文檔。

通過Bayes分類算法模型、SVM分類算法模型和最大熵分類算法模型分別并行對待分類語料向量化文檔進(jìn)行網(wǎng)頁URL分類預(yù)測。

若Bayes分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果、SVM分類算法模型的網(wǎng) 頁URL分類預(yù)測結(jié)果和最大熵分類算法模型的網(wǎng)頁URL分類預(yù)測結(jié)果一致，則將分類結(jié)果一致的網(wǎng)頁URL歸為一類并按類存入網(wǎng)頁URL分類庫。

本發(fā)明第四實施例，一種集成學(xué)習(xí)的網(wǎng)頁分類方法，如圖3～4所示，包括以下具體步驟：

步驟S301，輸入網(wǎng)頁URL(Uniform Resource Locator，統(tǒng)一資源定位符)。

具體的，步驟S301，包括：

(1)外部輸入：通過用戶手動輸入或以文本形式導(dǎo)入URL；

(2)內(nèi)部抽?。簭腗ySQL數(shù)據(jù)庫中抽取滿足數(shù)據(jù)庫查詢條件的網(wǎng)頁URL作為網(wǎng)頁URL輸入源。

例如：從MySQL數(shù)據(jù)庫中按指定新聞類別進(jìn)行抽取或按指定時間段進(jìn)行抽取等方式抽取網(wǎng)頁URL作為網(wǎng)頁URL輸入源。

步驟S302，對輸入的網(wǎng)頁URL進(jìn)行去重處理，根據(jù)去重后的網(wǎng)頁URL的最后修改時間字段和有效期限字段進(jìn)行判斷，是否重新爬取網(wǎng)頁URL，將需要重新爬取的網(wǎng)頁URL進(jìn)行更新，生成網(wǎng)頁URL集合。

具體的，步驟S302，包括：

步驟E1，對輸入的重復(fù)網(wǎng)頁URL進(jìn)行刪除。

步驟E2，根據(jù)去重后的網(wǎng)頁URL的最后修改時間字段和有效期限字段進(jìn)行判斷，是否需要重新爬取網(wǎng)頁URL，將需要重新爬取的網(wǎng)頁URL進(jìn)行更新，生成網(wǎng)頁URL集合。

具體的，根據(jù)去重后的網(wǎng)頁URL的最后修改時間字段和有效期限字段進(jìn)行判斷，若距離最后修改時間超過有效期限，則對網(wǎng)頁URL通過分布式爬蟲進(jìn)行重新爬取，并用重新爬取的網(wǎng)頁URL代替判斷為需要重新爬取的原網(wǎng)頁URL。

例如：去重后的網(wǎng)頁URL的最后修改時間字段lastmodify為2013-12-0910:12:33，有效期限字段usefullife為80天，距離最后修改時間2013-12-0910:12:33超過有效期限80天，則對網(wǎng)頁URL通過分布式爬蟲進(jìn)行重新爬取，并用重新爬取的網(wǎng)頁URL代替判斷為需要重新爬取的原網(wǎng)頁URL，生成網(wǎng)頁URL 集合。

步驟S303，根據(jù)網(wǎng)頁URL集合，創(chuàng)建網(wǎng)頁URL分類任務(wù)。

網(wǎng)頁URL分類任務(wù)在MySQL數(shù)據(jù)庫中以一條記錄的形式存在。

網(wǎng)頁URL分類任務(wù)包括：任務(wù)ID、任務(wù)名稱、任務(wù)狀態(tài)和任務(wù)所包含的網(wǎng)頁URL集合等。

步驟S304，初始化網(wǎng)頁URL分類任務(wù)準(zhǔn)備工作。

具體的，步驟S304，包括：

步驟F1，創(chuàng)建網(wǎng)頁URL分類任務(wù)的目錄結(jié)構(gòu)。

目錄結(jié)構(gòu)包括：任務(wù)目錄。

任務(wù)目錄：包括待爬取目錄、爬蟲結(jié)果目錄、分詞結(jié)果目錄和分類結(jié)果目錄等。

其中，任務(wù)目錄以任務(wù)名稱命名。

步驟F2，從MySQL數(shù)據(jù)庫中讀取待爬取的網(wǎng)頁URL放入待爬取目錄。

步驟F3，將網(wǎng)頁URL分類任務(wù)中的任務(wù)狀態(tài)設(shè)置為執(zhí)行中。

步驟S305，通過分布式爬蟲對任務(wù)目錄中的待爬取目錄對應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行爬取。

具體的，步驟S305，包括：

基于Hadoop(海杜普)分布式集群的網(wǎng)絡(luò)爬蟲架構(gòu)，通過BFS(Breadth First Search，寬度優(yōu)先搜索算法)算法多節(jié)點并發(fā)從Internet爬取任務(wù)目錄中的待爬取網(wǎng)頁內(nèi)容目錄對應(yīng)的網(wǎng)頁內(nèi)容。受限于Hadoop集群綜合能力，集群一次能有效處理的數(shù)據(jù)量有限，因此按批次從Internet爬取步驟二得到的網(wǎng)頁URL對應(yīng)的網(wǎng)頁內(nèi)容，以使網(wǎng)頁內(nèi)容數(shù)量規(guī)模達(dá)到千萬級別。

其中，爬取網(wǎng)頁內(nèi)容為任務(wù)目錄中的待爬取目錄中的網(wǎng)頁URL域名級別為五級及五級以下對應(yīng)的網(wǎng)頁內(nèi)容。

步驟S306，對爬取的網(wǎng)頁內(nèi)容進(jìn)行預(yù)處理。

具體的，步驟S306，包括：

對爬取的網(wǎng)頁內(nèi)容進(jìn)行去除網(wǎng)頁標(biāo)簽和去除亂碼等格式化處理，并過濾掉包含外語的網(wǎng)頁內(nèi)容，生成預(yù)設(shè)格式的原始語料，將原始語料存入任務(wù)目錄中的爬蟲結(jié)果目錄。

步驟S307，對爬蟲結(jié)果目錄中的原始語料進(jìn)行分詞處理。

具體的，步驟S307，包括：

對爬蟲結(jié)果目錄中的原始語料通過開源并可擴(kuò)充分詞詞典的分詞系統(tǒng)進(jìn)行分詞處理，得到待測語料，將待測語料存入分詞結(jié)果目錄。該技術(shù)為現(xiàn)有技術(shù)，在此不贅述。

例如：對爬蟲爬取網(wǎng)頁內(nèi)容結(jié)果目錄中的原始語料通過中科院分詞系統(tǒng)進(jìn)行分詞，得到待測語料。

通過開源并可擴(kuò)充分詞詞典的自主擴(kuò)充大大增強了對原始語料分詞的需求，通過增加詞性標(biāo)注和詞頻統(tǒng)計功能，更有效地保證語料質(zhì)量。

步驟S308，創(chuàng)建Bayes分類算法模型，SVM分類算法模型和最大熵分類算法模型，并根據(jù)Bayes分類算法模型，SVM分類算法模型和最大熵分類算法模型對原始語料進(jìn)行網(wǎng)頁URL分類。

如圖4，具體的，步驟S308，包括：

步驟H1，初始化訓(xùn)練語料和待測語料。

具體的，步驟D1，包括：

初始化訓(xùn)練語料和待測語料，為網(wǎng)頁URL分類算法模型創(chuàng)建準(zhǔn)備工作，例如：加載訓(xùn)練語料集和待測語料到內(nèi)存等。

步驟H2，通過期望交叉熵算法對訓(xùn)練語料進(jìn)行特征詞抽取。

步驟H3，通過期望交叉熵算法為抽取的訓(xùn)練語料特征詞計算權(quán)值和分配權(quán)值。

步驟H4，根據(jù)抽取的特征詞和特征詞權(quán)值生成維數(shù)特征文件。

通過預(yù)設(shè)的參數(shù)N指定訓(xùn)練語料特征詞維數(shù)，根據(jù)訓(xùn)練語料特征詞權(quán)值，對所有訓(xùn)練語料特征詞按特征詞權(quán)值排序，根據(jù)參數(shù)N取前N個特征詞保存到維數(shù)特征文件中。

步驟H5，訓(xùn)練語料向量化處理和待測語料向量化處理。

具體的，步驟D5，包括：

訓(xùn)練語料向量化處理是根據(jù)特征維數(shù)文件中的特征詞，將訓(xùn)練語料集中每個網(wǎng)頁內(nèi)容樣本生成一個1×N維向量，并將1×N維向量放入訓(xùn)練語料向量化文檔，其中N為訓(xùn)練語料特征詞個數(shù)。

待測語料向量化處理是根據(jù)特征維數(shù)文件中的特征詞，將原始語料每個網(wǎng)頁內(nèi)容樣本生成一個1×N維向量，并將1×N維向量放入原始語料向量化文檔。

該技術(shù)為現(xiàn)有技術(shù)，在此不贅述。

步驟H6，以訓(xùn)練語料向量化文檔作為輸入，對Bayes分類算法模型、SVM分類算法模型和最大熵分類算法模型分別進(jìn)行訓(xùn)練和參數(shù)選擇。

步驟H7，根據(jù)步驟H6的訓(xùn)練和參數(shù)選擇結(jié)果，生成Bayes分類算法模型文件、SVM分類算法模型文件和最大熵分類算法模型文件。

步驟H8，通過Bayes分類算法模型文件、SVM分類算法模型文件和最大熵分類算法模型文件對待測語料向量化文檔分別進(jìn)行并行網(wǎng)頁URL分類預(yù)測。

步驟H9，分別并行生成Bayes分類算法模型網(wǎng)頁URL分類結(jié)果、SVM分類算法模型網(wǎng)頁URL分類結(jié)果和最大熵分類算法模型網(wǎng)頁URL分類結(jié)果。

步驟H10，對Bayes分類算法模型網(wǎng)頁URL分類結(jié)果、SVM分類算法模型網(wǎng)頁URL分類結(jié)果和最大熵分類算法模型網(wǎng)頁URL分類結(jié)果進(jìn)行投票篩選。

具體的，步驟D10，包括：

對Bayes分類算法模型網(wǎng)頁URL分類結(jié)果、SVM分類算法模型網(wǎng)頁URL分類結(jié)果和最大熵分類算法模型網(wǎng)頁URL分類結(jié)果一致的網(wǎng)頁URL存入網(wǎng)頁URL分類結(jié)果目錄中。

步驟S309，網(wǎng)頁URL分類后處理，根據(jù)網(wǎng)頁URL分類結(jié)果目錄更新MySQL數(shù)據(jù)庫。

步驟S310，根據(jù)網(wǎng)頁URL集合中的網(wǎng)頁URL是否失效或類別變更等進(jìn)行判斷，是否重啟網(wǎng)頁URL分類任務(wù)。

具體的，步驟S110，包括：

若網(wǎng)頁URL集合中的網(wǎng)頁URL判斷為失效或類別變更，則重啟網(wǎng)頁URL分類任務(wù)。

其中，網(wǎng)頁URL是否失效通過網(wǎng)頁URL的最后修改時間字段和有效期限字段進(jìn)行判斷，若距離最后修改時間超過有效期限，則網(wǎng)頁URL判斷為失效。

例如：網(wǎng)頁URL的最后修改時間字段lastmodify為2013-12-09 10:12:33，有效期限字段usefullife為80天，距離最后修改時間2013-12-09 10:12:33超過有效期限80天，則網(wǎng)頁URL判斷為失效。

步驟S311，對網(wǎng)頁URL分類庫進(jìn)行發(fā)布。

自動化一鍵式打包發(fā)布網(wǎng)頁URL分類庫，并生成網(wǎng)頁URL分類報表。

網(wǎng)頁URL分類報表包括：網(wǎng)頁URL類別和各網(wǎng)頁URL類別中網(wǎng)頁URL數(shù)量和占比。

通過具體實施方式的說明，應(yīng)當(dāng)可對本發(fā)明為達(dá)成預(yù)定目的所采取的技術(shù)手段及功效得以更加深入且具體的了解，然而所附圖示僅是提供參考與說明之用，并非用來對本發(fā)明加以限制。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：任艷萍;潘季明;崔雨雷;孟慶飛;
技術(shù)所有人：北京天融信網(wǎng)絡(luò)安全技術(shù)有限公司;北京天融信科技股份有限公司;北京天融信軟件有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種集成學(xué)習(xí)的網(wǎng)頁分類方法及裝置與流程