基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法與流程

文檔序號(hào)：12305561閱讀：3488來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法與流程

本發(fā)明涉及自然語言處理和深度學(xué)習(xí)
技術(shù)領(lǐng)域：
，特別涉及一種基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法。
背景技術(shù)：
：隨著移動(dòng)互聯(lián)網(wǎng)、社交和新媒體等網(wǎng)絡(luò)平臺(tái)爆發(fā)式的增長，網(wǎng)絡(luò)中充斥了大量缺乏有效信息組織但具有研究價(jià)值的文本，而文本分類作為自然語言處理的關(guān)鍵技術(shù)之一，能夠有效解決信息雜亂等問題，并廣泛應(yīng)用于搜索引擎、垃圾郵件過濾、個(gè)性化新聞和資料分揀等任務(wù)中。因此，文本分類在自然語言處理、數(shù)據(jù)的智能化組織與管理等領(lǐng)域發(fā)揮著重要的作用。傳統(tǒng)的文本分類主要依靠知識(shí)工程分類法，首先需要對文本進(jìn)行復(fù)雜預(yù)處理之后手動(dòng)抽取文本特征，比如“詞袋”(bag-of-words)、n-grams以及tf-idf等，然后再利用特征訓(xùn)練分類器。卷積神經(jīng)網(wǎng)絡(luò)(cnn)最初被應(yīng)用于圖像處理和語音識(shí)別領(lǐng)域，目前也有越來越多的人將神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到自然語言處理領(lǐng)域中。余本功等(余本功,張連彬.基于cp-cnn的中文短文本分類研究.計(jì)算機(jī)應(yīng)用研究)提出了一種結(jié)合詞和字符的雙輸入卷積神經(jīng)網(wǎng)絡(luò)模型cp-cnn，有效提高了短文本分類的效果。yangz等(yangz,yangd,dyerc,etal.hierarchicalattentionnetworksfordocumentclassification[c]proceedingsofnaacl-hlt.2016:1480-1489.)將注意力機(jī)制引入到網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行文本分類，提高了分類的準(zhǔn)確率。夏從零等(夏從零,錢濤,&姬東鴻.(2017).基于事件卷積特征的新聞文本分類.計(jì)算機(jī)應(yīng)用研究,34(4),991-994.)提出了一種基于事件卷積特征的文本分類方法。但由于自然語言本身結(jié)構(gòu)的特殊性，自然語言中有著上下文依賴的非連續(xù)關(guān)系，上述所研究的卷積神經(jīng)網(wǎng)絡(luò)模型均存在著卷積核大小難以確定、文本的向量維度過高等問題，并且這些模型與目前應(yīng)用于圖像處理和語言識(shí)別領(lǐng)域優(yōu)秀的網(wǎng)絡(luò)相比結(jié)構(gòu)仍然較淺，卷積神經(jīng)網(wǎng)絡(luò)(cnn)是多個(gè)網(wǎng)絡(luò)層疊加組成的，較淺是指用于文本分類的cnn層數(shù)與圖像處理和語音識(shí)別領(lǐng)域的cnn層數(shù)相比，文本分類的cnn層數(shù)少，分類的效果和準(zhǔn)確率也低于圖像處理和語音識(shí)別領(lǐng)域。hek等人(hek,zhangx,rens,etal.deepresiduallearningforimagerecognition[c]//proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.2016:770-778.)研究表明，對現(xiàn)有的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型(cnn)單純增加網(wǎng)絡(luò)層都會(huì)導(dǎo)致梯度消失和準(zhǔn)確率下降，并不能提高文本分類的效果。在自然語言處理中一般將每一個(gè)詞作為基本單元進(jìn)行向量表示。目前，詞的表示主要分為獨(dú)熱表示(one-hot)和分布式表示(distributedrepresentation)。獨(dú)熱表示是自然語言處理中最直觀和最常用的詞表示法，該方法把每個(gè)詞表示為只有一個(gè)維度的值為1其余值為0的長向量。其中，維度表示詞匯表的大小，值為1的維度表示當(dāng)前詞。但是利用獨(dú)熱表示詞導(dǎo)致任意詞之間都是無聯(lián)系的，這對于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類是致命的。同時(shí)，海量文本使用獨(dú)熱表示也會(huì)導(dǎo)致向量維度災(zāi)難。技術(shù)實(shí)現(xiàn)要素：針對現(xiàn)有技術(shù)的不足，本發(fā)明擬解決的技術(shù)問題是，提供一種基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(簡稱vdcnn)模型的中文文本分類方法，該方法解決了在中文文本分類中向量維度過高以及傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)存在的卷積核大小難以確定和梯度消失，準(zhǔn)確率不足等問題。本發(fā)明解決所述技術(shù)問題采用的技術(shù)方案是，提供一種基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法，該方法包括以下步驟：步驟1：從網(wǎng)上搜集詞向量的訓(xùn)練語料，并結(jié)合中文分詞算法對訓(xùn)練語料進(jìn)行分詞處理，同時(shí)去除停用詞，建立詞典d，然后利用word2vec工具訓(xùn)練詞典d中的詞，得出詞向量模型，同時(shí)獲得詞向量；步驟2：從網(wǎng)上搜集多個(gè)中文新聞?wù)军c(diǎn)的新聞，標(biāo)記新聞的類別，作為文本分類的語料集，并將文本分類的語料集中的文本分類語料分為訓(xùn)練集語料和測試集語料；步驟3：將步驟2中的訓(xùn)練集語料和測試集語料分別進(jìn)行分詞處理，然后利用步驟1得到的詞向量模型得出訓(xùn)練集語料和測試集語料分別對應(yīng)的詞向量；步驟4：建立超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型，第一層為詞嵌入層，在詞嵌入層之后連接五個(gè)卷積塊，每個(gè)卷積塊內(nèi)部由卷積層連接而成，卷積塊內(nèi)部每進(jìn)行一次卷積之后進(jìn)行一次批規(guī)范化操作，每個(gè)卷積層中卷積核的數(shù)量均為3；設(shè)置每個(gè)卷積塊之間進(jìn)行池化操作，同時(shí)在每個(gè)卷積塊之間設(shè)置一個(gè)捷徑連接，在最后一個(gè)卷積塊之后進(jìn)行最大值池化，之后連接三個(gè)全連接層，設(shè)置卷積層和全連接層的激活函數(shù)均為relu，再通過softmax進(jìn)行分類，得到超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型，所述超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的深度為詞嵌入層的個(gè)數(shù)、全連接層的個(gè)數(shù)和卷積層的個(gè)數(shù)三者之和；步驟5：將步驟3中得到的訓(xùn)練集語料所對應(yīng)的詞向量輸入到步驟4中建立的超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型中，訓(xùn)練得出文本分類模型；將步驟3中測試集語料所對應(yīng)的詞向量輸入到文本分類模型中，輸出測試集語料所對應(yīng)的分類結(jié)果，計(jì)算文本分類模型的準(zhǔn)確率為90％以上即可用于中文文本分類；步驟6：將需要分類的中文文本輸入到步驟1的詞向量模型中，得到該需要分類的中文文本的詞向量，然后將該詞向量輸入到步驟5的文本分類模型中，即完成中文文本分類。與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果如下：本發(fā)明將自行設(shè)計(jì)的超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn)模型用于中文文本分類，并且把詞向量與之相結(jié)合，在設(shè)計(jì)超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn)模型時(shí)，將網(wǎng)絡(luò)結(jié)構(gòu)模型的深度增加，同時(shí)在超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn)中加入batchnormalization和深度殘差網(wǎng)絡(luò)(resnets)的shortcut，用以解決深度增加所帶來的梯度消失和精確度下降等問題。在以往的卷積神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行文本分類時(shí)，卷積核的數(shù)目大小可能是3、5或者7，但是對于本發(fā)明所設(shè)計(jì)的vdcnn模型而言，只需要將所有卷積層的卷積核大小設(shè)置為3，因?yàn)閮蓚€(gè)連續(xù)3×3的卷積核與一個(gè)5×5大小的卷積核具有相同的感受野，而3個(gè)連續(xù)的3×3的卷積核與一個(gè)7×7的卷積核具有相同的感受野。由于設(shè)置所有的卷積層激活函數(shù)為relu，所以每一個(gè)卷積層增加了決策函數(shù)的非線性。于是，相比使用一個(gè)7×7大小的卷積核，3個(gè)連續(xù)3×3大小的卷積核進(jìn)行了3次非線性處理，這樣就增加了網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)能力，輸入文本經(jīng)過深層網(wǎng)絡(luò)的卷積之后就能得到具有更加優(yōu)秀表征效果的特征向量。另外，使用3×3的卷積核降低了參數(shù)的個(gè)數(shù)，假設(shè)三個(gè)卷積層使用3×3大小的卷積核處理c通道的特征圖時(shí)，一共有3×(32×c2)＝27c2個(gè)參數(shù)，而一個(gè)7×7卷積核的卷積層則有1×(72×c2)＝49c2個(gè)參數(shù)，減少了約50％。在文本進(jìn)入到詞向量模型后，能夠?qū)⑽谋締卧~轉(zhuǎn)換為低維度向量，且把相似詞和近義詞的向量放置在距離較近的向量空間中，當(dāng)文本向量經(jīng)過超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn)模型之后能夠優(yōu)秀地將文本的特征提取出來，顯著提升了文本分類的效果。最后在sogou語料庫和復(fù)旦大學(xué)中文語料庫上進(jìn)行了實(shí)驗(yàn)，其文本分類的精確度(accuracy)能夠達(dá)到99.12％，相較于其他文本分類方法，提高約3％，并且實(shí)驗(yàn)2的結(jié)果表明，隨著文本分類模型深度的增加其分類效果也不斷增強(qiáng)。本發(fā)明方法將詞向量和vdcnn相結(jié)合進(jìn)行中文文本分類，可應(yīng)用于文本的低維度向量化表示以及海量文本的分類任務(wù)等，并最終應(yīng)用于用戶個(gè)性化推薦系統(tǒng)、信息檢索和意圖理解等多個(gè)子領(lǐng)域。附圖說明圖1是skip-gram模型的結(jié)構(gòu)示意圖；圖2是vdcnn模型結(jié)構(gòu)示意圖；圖3是卷積塊的結(jié)構(gòu)示意圖，圖中卷積塊由兩個(gè)卷積層構(gòu)成。具體實(shí)施方式為使本發(fā)明的技術(shù)方案和優(yōu)點(diǎn)更加清晰,以下結(jié)合實(shí)施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)說明。本發(fā)明基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法，該方法包括以下步驟：步驟1：從網(wǎng)上搜集詞向量的訓(xùn)練語料，并結(jié)合中文分詞算法對訓(xùn)練語料進(jìn)行分詞處理，同時(shí)去除停用詞，建立詞典d，然后利用word2vec工具訓(xùn)練詞典d中的詞，得出詞向量模型，同時(shí)獲得詞向量；步驟2：從網(wǎng)上搜集新浪、網(wǎng)易、騰訊等多個(gè)中文新聞?wù)军c(diǎn)的新聞，標(biāo)記新聞的類別，作為文本分類的語料集，并將文本分類的語料集中的文本分類語料分為訓(xùn)練集語料和測試集語料；步驟3：將步驟2中的訓(xùn)練集語料和測試集語料分別進(jìn)行分詞處理，然后利用步驟1得到的詞向量模型得出訓(xùn)練集語料和測試集語料分別對應(yīng)的詞向量；步驟4：建立超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型，第一層為詞嵌入層，在詞嵌入層之后連接五個(gè)卷積塊，每個(gè)卷積塊內(nèi)部由卷積層連接而成，卷積塊內(nèi)部每進(jìn)行一次卷積之后進(jìn)行一次批規(guī)范化操作(batchnormalization)，每個(gè)卷積層中卷積核的數(shù)量均為3；設(shè)置每個(gè)卷積塊之間進(jìn)行池化操作，同時(shí)在每個(gè)卷積塊之間設(shè)置一個(gè)捷徑連接(shortcut)，在最后一個(gè)卷積塊之后進(jìn)行最大值池化，之后連接三個(gè)全連接層，設(shè)置卷積層和全連接層的激活函數(shù)均為relu(rectifiedlinearunits)，再通過softmax進(jìn)行分類，得到超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型，所述超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的深度為詞嵌入層的個(gè)數(shù)、全連接層的個(gè)數(shù)和卷積層的個(gè)數(shù)三者之和；步驟5：將步驟3中得到的訓(xùn)練集語料所對應(yīng)的詞向量輸入到步驟4中建立的超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型中，訓(xùn)練得出文本分類模型；將步驟3中測試集語料所對應(yīng)的詞向量輸入到文本分類模型中，輸出測試集語料所對應(yīng)的分類結(jié)果，計(jì)算文本分類模型的準(zhǔn)確率為90％以上即可用于中文文本分類；步驟6：將需要分類的中文文本輸入到步驟1的詞向量模型中，得到該需要分類的中文文本的詞向量，然后將該詞向量輸入到步驟5的文本分類模型中，即完成中文文本分類。本發(fā)明方法的進(jìn)一步特征在于所述超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的深度為12-29，當(dāng)深度為12時(shí)，前兩個(gè)卷積塊中卷積層的數(shù)量均為1，后三個(gè)卷積塊中卷積層的數(shù)量均為2；當(dāng)深度為14時(shí)，每個(gè)卷積塊中卷積層的數(shù)量均為2；當(dāng)深度為17時(shí)，前兩個(gè)卷積塊中卷積層的數(shù)量均為2，后三個(gè)卷積塊中卷積層的數(shù)量均為3；當(dāng)深度為20時(shí)，前兩個(gè)卷積塊中卷積層的數(shù)量均為2，后三個(gè)卷積塊中卷積層的數(shù)量均為4；當(dāng)深度為29時(shí)，前兩個(gè)卷積塊中卷積層的數(shù)量均為6，第三個(gè)卷積塊中卷積層的數(shù)量為5，后兩個(gè)卷積塊中卷積層的數(shù)量均為4。實(shí)施例1本實(shí)施例基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法，該方法包括以下步驟：步驟1：從網(wǎng)上搜集詞向量的訓(xùn)練語料，使用jieba分詞工具對訓(xùn)練語料進(jìn)行分詞處理，同時(shí)去除停用詞，建立詞典d，然后利用word2vec工具中的skip-gram模型訓(xùn)練得到詞典中每個(gè)詞對應(yīng)的詞向量；所述skip-gram模型(參見圖1)是在已知當(dāng)前詞w(t)的前提下，對當(dāng)前詞w(t)的上下文定義context(w)中的詞進(jìn)行預(yù)測，skip-gram模型包含三層：輸入層、投影層和輸出層；輸入層(input)輸入為當(dāng)前詞w(t)，投影層(projection)是輸入層的恒等投影以應(yīng)對cbow模型中的投影層，輸出層(output)是以當(dāng)前詞在文本中的詞頻作為權(quán)值構(gòu)造的一棵二叉樹，其中葉子節(jié)點(diǎn)的向量即為一個(gè)詞向量，當(dāng)前詞w(t)對應(yīng)的葉子節(jié)點(diǎn)為w’(t-1)、w’(t-2)、w’(t+1)和w’(t+2)，假設(shè)該葉子節(jié)點(diǎn)對應(yīng)詞典d中的詞為w，記：1,pw:從根節(jié)點(diǎn)出發(fā)到達(dá)w對應(yīng)葉子節(jié)點(diǎn)的路徑。2.lw:路徑pw中包含節(jié)點(diǎn)的個(gè)數(shù)，這里的節(jié)點(diǎn)包括葉子節(jié)點(diǎn)和非葉子節(jié)點(diǎn)，3.表示路徑pw中第j個(gè)節(jié)點(diǎn)對應(yīng)的編碼，這里的節(jié)點(diǎn)包括葉子節(jié)點(diǎn)和非葉子節(jié)點(diǎn)，4.表示路徑pw中第j個(gè)非葉子節(jié)點(diǎn)對應(yīng)的向量；該skip-gram模型的目標(biāo)函數(shù)為公式(1):其中，t為skip-gram模型中訓(xùn)練文本的大小；采用隨機(jī)梯度上升法優(yōu)化skip-gram模型的目標(biāo)函數(shù)。即掃描全部文檔，使用skip-gram模型構(gòu)造多個(gè)context和w詞對，定義條件概率函數(shù)p(context(w)|w)為公式(2):其中，p(u|w)定義為公式(3)：式中，u是context(w)集合中的一個(gè)元素，即：u∈context(w)。以樣本(w，context(w))為例，skip-gram模型中采用隨機(jī)梯度上升法更新所有參數(shù)，每當(dāng)context(w)中處理一次分詞之后會(huì)更新當(dāng)前詞w的向量，優(yōu)化結(jié)束后，得到每個(gè)詞的詞向量；步驟2：sogouca是搜狗實(shí)驗(yàn)室(sogoulab)提供的全網(wǎng)新聞數(shù)據(jù)，該數(shù)據(jù)來自2012年6月-7月期間新浪、網(wǎng)易、騰訊以及鳳凰資訊等若干個(gè)新聞?wù)军c(diǎn)，由國內(nèi)、國際、體育、社會(huì)、娛樂等18個(gè)頻道的全網(wǎng)新聞數(shù)據(jù)，提供url和正文信息。sogoucs是搜狗實(shí)驗(yàn)室(sogoulab)提供的搜狐新聞數(shù)據(jù)，該數(shù)據(jù)集來自搜狐新聞2012年6月-7月期間國內(nèi)、國際、體育、社會(huì)、娛樂等18個(gè)頻道的新聞數(shù)據(jù)，將上述全網(wǎng)新聞數(shù)據(jù)和搜狐新聞數(shù)據(jù)根據(jù)類別放在不同的文件夾下，作為文本分類的語料集，并且從文本分類的語料集中隨機(jī)選取10％作為測試集語料，剩余的90％作為訓(xùn)練集語料；步驟3：利用jieba分詞工具，設(shè)置分詞模式為精確模式，將步驟2中的訓(xùn)練集語料和測試集語料進(jìn)行分詞處理，將被分詞后的訓(xùn)練集語料和測試集語料輸入到步驟1中的詞向量模型，得出訓(xùn)練集語料和測試集語料分別對應(yīng)的詞向量；步驟4：定義vdcnn超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型，其具體結(jié)構(gòu)如圖2所示。其中，embeddinglayer(256dim)表示維度為256維的詞嵌入層，conv3-64表示卷積核大小為3數(shù)量為64個(gè)，pool/2表示池化操作，下采樣因子為2，fc(i，o)表示輸入長度為i，輸出長度為o的全連接層。由于網(wǎng)絡(luò)結(jié)構(gòu)模型層數(shù)較深，為了優(yōu)化對內(nèi)存的占用，結(jié)合vgg以及resnets，在定義vdcnn模型結(jié)構(gòu)時(shí)設(shè)置如下兩條規(guī)則：(1)如果卷積之后輸出的向量不變，則卷積核數(shù)目和特征圖像的大小保持不變。(2)如果卷積之后輸出的向量減半，則卷積核數(shù)目和特征圖像的大小增加一倍。以圖2a列為例，a列是一個(gè)深度為12層的超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn)，該模型的第一層為詞嵌入層，將輸入的文本分類語料展開成詞向量的序列作為卷積層的輸入，在本文實(shí)驗(yàn)中詞向量是由word2vec在skip-gram模型中訓(xùn)練得出，它生成一個(gè)二維張量(tensor)，記做(fdim,s)，fdim表示詞向量在訓(xùn)練時(shí)設(shè)置的維度，s為輸入文本中詞的數(shù)量。詞嵌入層之后的第一個(gè)卷積層設(shè)置為64個(gè)大小為3的卷積核，然后對卷積結(jié)果進(jìn)行池化操作，之后連接一個(gè)卷積層，設(shè)置其卷積核大小為3數(shù)量為128個(gè)，然后進(jìn)行了3次池化，每次池化操作連接兩個(gè)卷積層，最后再進(jìn)行池化操作，連接3個(gè)全連接層得出分類結(jié)果，共計(jì)12層。由圖2可知，整個(gè)網(wǎng)絡(luò)模型包括5次池化操作，前三次對輸出進(jìn)行平均值池化，后兩次采用最大值池化操作。這里把模型中每兩次池化操作之間的卷積層稱作為一個(gè)卷積塊(convolutionalblock)。每個(gè)卷積塊內(nèi)的卷積層數(shù)可以增加，例如模型a中共有五個(gè)卷積塊，第二個(gè)卷積塊有一個(gè)卷積層，為128個(gè)大小為3×3的卷積核，而在模型b中的第二個(gè)卷積塊有兩個(gè)卷積層，所以，根據(jù)卷積塊內(nèi)卷積層數(shù)的不同，vdcnn模型的深度如a-e所示，可以從12層逐漸增加到29層。該模型為了防止過擬合現(xiàn)象以及降低特征的維數(shù)，優(yōu)化內(nèi)存占用，在每次平均值池化操作時(shí)將下采樣因子(strides)設(shè)置為2，輸出向量減半，根據(jù)上述的兩條規(guī)則，每個(gè)卷積塊的卷積核數(shù)目也由64變?yōu)?28,256或512，卷積核數(shù)目與特征圖像的大小相同，而在第四、五個(gè)卷積塊之后進(jìn)行k-max下采樣策略，每次對采樣區(qū)選取k個(gè)局部最優(yōu)特征值，舍棄冗余特征，同時(shí)能夠保證生成固定維度的特征向量。在圖2中，fc(i，o)表示輸入長度為i，輸出長度為o的全連接層。如圖2中所示，在進(jìn)行最后一次最大值池化操作后，設(shè)置三個(gè)全連接層。當(dāng)輸入文本進(jìn)入上述12至29層任意一個(gè)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征提取之后，能夠有效表示輸入文本的特征。最后，再通過softmax得到分類結(jié)果。在以往的卷積神經(jīng)網(wǎng)絡(luò)模型中對自然語言處理時(shí)，卷積核的數(shù)目大小可能是3、5或者7，但是對于vdcnn模型而言，只需要將所有卷積層的卷積核大小設(shè)置為3，因?yàn)閮蓚€(gè)連續(xù)3×3的卷積核與一個(gè)5×5大小的卷積核具有相同的感受野，而3個(gè)連續(xù)的3×3的卷積核與一個(gè)7×7的卷積核具有相同的感受野。由于設(shè)置所有的卷積層激活函數(shù)為relu，所以每一個(gè)卷積層增加了決策函數(shù)的非線性。于是，相比使用一個(gè)7×7大小的卷積核，3個(gè)連續(xù)3×3大小的卷積核進(jìn)行了3次非線性處理，這樣就增加了網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)能力，輸入文本經(jīng)過深層網(wǎng)絡(luò)的卷積之后就能得到具有更加優(yōu)秀表征效果的特征向量。另外，使用3×3的卷積核降低了參數(shù)的個(gè)數(shù)，假設(shè)三個(gè)卷積層使用3×3大小的卷積核處理c通道的特征圖時(shí)，一共有3×(32×c2)＝27c2個(gè)參數(shù)，而一個(gè)7×7卷積核的卷積層則有1×(72×c2)＝49c2個(gè)參數(shù)，減少了約50％。在卷積塊中，對數(shù)據(jù)進(jìn)行卷積之后又進(jìn)行了批規(guī)范化操作(batchnormalization簡稱bn)。在超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn)中，每一個(gè)卷積塊(convolutionalblock)的詳細(xì)結(jié)構(gòu)如圖3所示。其中，conv3-128表示卷積核大小為3數(shù)量為128個(gè)，relu表示激活函數(shù)為relu。當(dāng)較深傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)模型進(jìn)行訓(xùn)練時(shí)，隨著層數(shù)的增加出現(xiàn)梯度消失問題(vanishinggradients)導(dǎo)致訓(xùn)練難以收斂。由于每一層網(wǎng)絡(luò)的輸入都會(huì)因?yàn)樯弦粚訁?shù)的變化導(dǎo)致其分布發(fā)生改變，而訓(xùn)練過程要求每一層適應(yīng)輸入的分布，這就帶來降低學(xué)習(xí)率、友好小心地初始化的問題，為了解決這個(gè)問題，本發(fā)明在每個(gè)卷積塊中引入了bn，其基本思想是：在每次隨機(jī)梯度下降(sgd)時(shí)，對于每個(gè)隱層的神經(jīng)元，通過mini-batch(mini-batch指的就是分批處理，它的結(jié)果以錯(cuò)誤率的方式表示為：每一次epoch(迭代)中，所有的小batch的平均損失函數(shù)值)來對相應(yīng)的activation做規(guī)范化操作，把逐漸向非線性函數(shù)映射后取值區(qū)間極限飽和區(qū)靠攏的輸入分布強(qiáng)制拉回到均值為0方差為1的標(biāo)準(zhǔn)正態(tài)分布中，而最后的“scaleandshift”(bn算法的最后一步被稱為：“scaleandshift”)操作則是為了讓因訓(xùn)練所需而“刻意”加入的bn能夠有可能還原最初的輸入，即通過式(4)還原最初的輸入：其中，var表示隨機(jī)變量的方差，x表示在做非線性變換前的激活輸入值，也就是神經(jīng)元的輸出；γ，β表示需要訓(xùn)練的參數(shù)，e表示數(shù)學(xué)期望，k表示第k維的數(shù)據(jù)。這樣使非線性變換函數(shù)的輸出落入到對輸入更加敏感的區(qū)域以避免梯度消失問題。當(dāng)梯度一直能保證較大狀態(tài)時(shí)，神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)整效率會(huì)大大增高，其損失函數(shù)邁向最優(yōu)值的步進(jìn)也會(huì)相應(yīng)增大，能夠加快收斂速度。在vdcnn模型層數(shù)較多的情況下，為了加快收斂速度降低學(xué)習(xí)周期，在vdcnn模型的卷積層和全連接層設(shè)置激活函數(shù)為relu，具體公式為式(5)：y(x)＝max(0,x)(5)其中，x表示神經(jīng)元的輸出，max表示取x和0中的較大的那個(gè)值。如果只是單純的增加網(wǎng)絡(luò)結(jié)構(gòu)的層數(shù)和深度，文本分類模型的精度得到飽和之后會(huì)迅速下滑，并且這個(gè)性能下降不是過擬合導(dǎo)致的。為了解決一個(gè)合適深度的模型因加入額外的層數(shù)導(dǎo)致訓(xùn)練誤差變大的問題，本發(fā)明在vdcnn中的每個(gè)卷積塊之間引入resnets中的捷徑連接(shortcut)，即每個(gè)卷積塊之間的輸出不是傳統(tǒng)神經(jīng)中的輸入映射，而是輸入的映射和輸入的疊加，該過程用式(6)表示，其中，x0為上一層的輸出，h(x0)為期望的網(wǎng)絡(luò)層關(guān)系映射，f(x0)為需要學(xué)習(xí)的殘差函數(shù)(residualfunction)使得：h(x0)＝f(x0)+x0(6)，最后，通過softmax進(jìn)行分類，得到超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型；步驟5：將步驟3中得到的訓(xùn)練集語料所對應(yīng)的詞向量輸入到步驟4中建立的超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型中，一共迭代30次，訓(xùn)練得出文本分類模型；然后將步驟3中測試集語料所對應(yīng)的詞向量輸入到文本分類模型中，即可輸出測試集語料所對應(yīng)的分類結(jié)果，計(jì)算出文本分類模型的準(zhǔn)確率為90％以上即可用于中文文本分類；步驟6：將需要分類的中文文本輸入到步驟1的詞向量模型中，得到該需要分類的中文文本的詞向量，然后將該詞向量輸入到步驟5的文本分類模型中，即完成中文文本分類。本實(shí)施例所采用的的硬件環(huán)境為但不限于此：win8.1/64位操作系統(tǒng)，xeone5-1620cpu，ddr48g內(nèi)存，nvidiaquadrok22004g顯卡。為了全面且準(zhǔn)確地評估本發(fā)明所提方法的性能，實(shí)驗(yàn)將在sogouca、sogoucs以及復(fù)旦大學(xué)文本分類語料庫3個(gè)數(shù)據(jù)集上測試。實(shí)驗(yàn)1：實(shí)驗(yàn)1是具有12層的vdcnn與其他分類方法的結(jié)果對比，為了評估本文提出的超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn)模型實(shí)驗(yàn)從錯(cuò)誤率的角度與其他模型方法進(jìn)行實(shí)驗(yàn)結(jié)果的對比。本實(shí)驗(yàn)中對于現(xiàn)有的其他分類方法均以sogouca全網(wǎng)新聞數(shù)據(jù)為檢驗(yàn)基礎(chǔ)，對于本發(fā)明vdcnn模型分別以sogouca全網(wǎng)新聞數(shù)據(jù)和sogoucs搜狐新聞數(shù)據(jù)為檢驗(yàn)基礎(chǔ)，詳細(xì)實(shí)驗(yàn)結(jié)果如表1所示。實(shí)驗(yàn)結(jié)果中可以看出，本實(shí)施例提出的vdcnn網(wǎng)絡(luò)結(jié)構(gòu)模型在使用了batchnormalization以及引入了resnets的shortcut之后，并沒有因?yàn)榫W(wǎng)絡(luò)結(jié)構(gòu)模型深度的大幅度增加而導(dǎo)致梯度消失或者準(zhǔn)確性下降等問題，并且通過wordembedding與vdcnn模型二者相結(jié)合，其文本分類的精確率(accuracy)相較于其他文本分類的方法也得到明顯提升。實(shí)驗(yàn)在迭代30次后錯(cuò)誤率穩(wěn)定在2.37％左右。表1vdcnn模型與其他分類方法錯(cuò)誤率比較模型錯(cuò)誤率模型錯(cuò)誤率bow7.15convnet(event)7lstm4.82convnet(event+bigram+trigram)4.9lg.w2vconv.4.39attentionbasedlstm7.82sm.lk.conv4.95bi-lstm7.11lg.conv4.88正逆序組合attentionbasedlstm5.19mi-svm10.3vdcnn(sogouca)2.37lsi-svm9.3vdcnn(sogoucs)2.19實(shí)驗(yàn)2：實(shí)驗(yàn)2分別使用12、14、17、20及29層的vdcnn模型對sogoucs語料庫進(jìn)行試驗(yàn)，以檢驗(yàn)本發(fā)明提出的vdcnn模型在深度增加方面對分類效果提升的有效性。從實(shí)驗(yàn)2的結(jié)果可以得出，文本的分類效果會(huì)隨著vdcnn模型深度的增加而提升。實(shí)驗(yàn)結(jié)果如表2所示。表2不同深度的vdcnn模型的分類效果深度(depth)準(zhǔn)確率(precision)精確率(accuracy)1297.9297.811497.8697.931798.2198.022098.3898.352999.2599.12實(shí)驗(yàn)3：為了解決由于網(wǎng)絡(luò)深度增加導(dǎo)致準(zhǔn)確率退化的問題，在本實(shí)施例提出的vdcnn模型中增加shortcut進(jìn)行殘差學(xué)習(xí)。實(shí)驗(yàn)3將帶有shortcut的網(wǎng)絡(luò)結(jié)構(gòu)與沒有添加shortcut的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了對比，使用的數(shù)據(jù)集為sogoucs語料庫，實(shí)驗(yàn)結(jié)果如表3所示，其中，實(shí)驗(yàn)結(jié)果為文本分類的錯(cuò)誤率。實(shí)驗(yàn)結(jié)果表明，使用帶有shortcut的網(wǎng)絡(luò)結(jié)構(gòu)能夠有效提高文本分類的準(zhǔn)確率。表3帶有shortcut與不帶shortcut的vdcnn模型的分類效果深度(depth)帶(withshortcut)不帶(withoutshortcut)122.195.23142.074.62171.983.98201.652.37290.881.61實(shí)驗(yàn)4：為了解決深度神經(jīng)網(wǎng)絡(luò)梯度消失的問題，以及提高模型的精度，本實(shí)施例方法在卷積塊內(nèi)中引入了批規(guī)范化操作(batchnormalization)，對卷積結(jié)果進(jìn)行規(guī)范化操作后，可能會(huì)改變下一層原來的輸入，也可能沒有改變，這樣，既可能改變也可能保持了原來的輸入，大大提高了模型的容納能力(capacity)，從而提高了文本分類的準(zhǔn)確率。實(shí)驗(yàn)4將沒有進(jìn)行批規(guī)范化操作的模型與本實(shí)施例提出的模型進(jìn)行了對比，實(shí)驗(yàn)結(jié)果如表4所示，其中，實(shí)驗(yàn)結(jié)果為文本分類的精確率。表4增加bn操作與沒有bn操作的分類效果深度(depth)不帶bn(withoutbn)帶有bn(withbn)1294.1797.811494.8997.931795.3498.022094.9298.352996.7699.12綜上所述，本發(fā)明基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法將詞向量與vdcnn模型相結(jié)合，能夠有效解決中文文本分類中現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)模型卷積核大小難以確定、文本的向量維度過高等問題，本發(fā)明提出的方法通過在原有網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)之上融入batchnormalization和shortcut，有效解決了隨著網(wǎng)絡(luò)深度增加帶來的梯度消失和分類精確度下降問題。基于真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)測試，證明本發(fā)明相較以往方法，能夠大幅增強(qiáng)分類任務(wù)的性能以及提高文本分類的準(zhǔn)確度。本發(fā)明中所述的skip-gram模型、cbow模型均為現(xiàn)有模型，隨機(jī)梯度上升法、bn算法均為現(xiàn)有方法。vgg是牛津大學(xué)計(jì)算機(jī)視覺組(visualgeometrygroup)和googledeepmind公司的研究員一起研發(fā)的的深度卷積神經(jīng)網(wǎng)絡(luò)。resnets全稱是residualnetworks，中文名為殘差網(wǎng)絡(luò)。以上所述的具體實(shí)施例，對本發(fā)明的技術(shù)方案和測試效果進(jìn)行了詳細(xì)說明，所應(yīng)理解的是，以上所述僅為本發(fā)明的具體實(shí)施例而已，并不用于限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。本發(fā)明未述及之處適用于現(xiàn)有技術(shù)。當(dāng)前第1頁12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：彭玉青;宋初柏;閆倩;趙曉松;魏銘
技術(shù)所有人：河北工業(yè)大學(xué)
我是此專利的發(fā)明人

上一篇：一種手提式采棉機(jī)的制作方法與工藝
上一篇：一種實(shí)驗(yàn)室水庫分層加溫裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

卷積神經(jīng)網(wǎng)絡(luò)模型相關(guān)技術(shù)

深度卷積神經(jīng)網(wǎng)絡(luò)模型相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)經(jīng)典模型相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)文本分類相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法與流程