亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法與流程

文檔序號(hào):12305561閱讀:3488來源:國知局
基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法與流程
本發(fā)明涉及自然語言處理和深度學(xué)習(xí)
技術(shù)領(lǐng)域
,特別涉及一種基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法。
背景技術(shù)
:隨著移動(dòng)互聯(lián)網(wǎng)、社交和新媒體等網(wǎng)絡(luò)平臺(tái)爆發(fā)式的增長,網(wǎng)絡(luò)中充斥了大量缺乏有效信息組織但具有研究價(jià)值的文本,而文本分類作為自然語言處理的關(guān)鍵技術(shù)之一,能夠有效解決信息雜亂等問題,并廣泛應(yīng)用于搜索引擎、垃圾郵件過濾、個(gè)性化新聞和資料分揀等任務(wù)中。因此,文本分類在自然語言處理、數(shù)據(jù)的智能化組織與管理等領(lǐng)域發(fā)揮著重要的作用。傳統(tǒng)的文本分類主要依靠知識(shí)工程分類法,首先需要對文本進(jìn)行復(fù)雜預(yù)處理之后手動(dòng)抽取文本特征,比如“詞袋”(bag-of-words)、n-grams以及tf-idf等,然后再利用特征訓(xùn)練分類器。卷積神經(jīng)網(wǎng)絡(luò)(cnn)最初被應(yīng)用于圖像處理和語音識(shí)別領(lǐng)域,目前也有越來越多的人將神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到自然語言處理領(lǐng)域中。余本功等(余本功,張連彬.基于cp-cnn的中文短文本分類研究.計(jì)算機(jī)應(yīng)用研究)提出了一種結(jié)合詞和字符的雙輸入卷積神經(jīng)網(wǎng)絡(luò)模型cp-cnn,有效提高了短文本分類的效果。yangz等(yangz,yangd,dyerc,etal.hierarchicalattentionnetworksfordocumentclassification[c]proceedingsofnaacl-hlt.2016:1480-1489.)將注意力機(jī)制引入到網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行文本分類,提高了分類的準(zhǔn)確率。夏從零等(夏從零,錢濤,&姬東鴻.(2017).基于事件卷積特征的新聞文本分類.計(jì)算機(jī)應(yīng)用研究,34(4),991-994.)提出了一種基于事件卷積特征的文本分類方法。但由于自然語言本身結(jié)構(gòu)的特殊性,自然語言中有著上下文依賴的非連續(xù)關(guān)系,上述所研究的卷積神經(jīng)網(wǎng)絡(luò)模型均存在著卷積核大小難以確定、文本的向量維度過高等問題,并且這些模型與目前應(yīng)用于圖像處理和語言識(shí)別領(lǐng)域優(yōu)秀的網(wǎng)絡(luò)相比結(jié)構(gòu)仍然較淺,卷積神經(jīng)網(wǎng)絡(luò)(cnn)是多個(gè)網(wǎng)絡(luò)層疊加組成的,較淺是指用于文本分類的cnn層數(shù)與圖像處理和語音識(shí)別領(lǐng)域的cnn層數(shù)相比,文本分類的cnn層數(shù)少,分類的效果和準(zhǔn)確率也低于圖像處理和語音識(shí)別領(lǐng)域。hek等人(hek,zhangx,rens,etal.deepresiduallearningforimagerecognition[c]//proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.2016:770-778.)研究表明,對現(xiàn)有的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型(cnn)單純增加網(wǎng)絡(luò)層都會(huì)導(dǎo)致梯度消失和準(zhǔn)確率下降,并不能提高文本分類的效果。在自然語言處理中一般將每一個(gè)詞作為基本單元進(jìn)行向量表示。目前,詞的表示主要分為獨(dú)熱表示(one-hot)和分布式表示(distributedrepresentation)。獨(dú)熱表示是自然語言處理中最直觀和最常用的詞表示法,該方法把每個(gè)詞表示為只有一個(gè)維度的值為1其余值為0的長向量。其中,維度表示詞匯表的大小,值為1的維度表示當(dāng)前詞。但是利用獨(dú)熱表示詞導(dǎo)致任意詞之間都是無聯(lián)系的,這對于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類是致命的。同時(shí),海量文本使用獨(dú)熱表示也會(huì)導(dǎo)致向量維度災(zāi)難。技術(shù)實(shí)現(xiàn)要素:針對現(xiàn)有技術(shù)的不足,本發(fā)明擬解決的技術(shù)問題是,提供一種基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(簡稱vdcnn)模型的中文文本分類方法,該方法解決了在中文文本分類中向量維度過高以及傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)存在的卷積核大小難以確定和梯度消失,準(zhǔn)確率不足等問題。本發(fā)明解決所述技術(shù)問題采用的技術(shù)方案是,提供一種基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法,該方法包括以下步驟:步驟1:從網(wǎng)上搜集詞向量的訓(xùn)練語料,并結(jié)合中文分詞算法對訓(xùn)練語料進(jìn)行分詞處理,同時(shí)去除停用詞,建立詞典d,然后利用word2vec工具訓(xùn)練詞典d中的詞,得出詞向量模型,同時(shí)獲得詞向量;步驟2:從網(wǎng)上搜集多個(gè)中文新聞?wù)军c(diǎn)的新聞,標(biāo)記新聞的類別,作為文本分類的語料集,并將文本分類的語料集中的文本分類語料分為訓(xùn)練集語料和測試集語料;步驟3:將步驟2中的訓(xùn)練集語料和測試集語料分別進(jìn)行分詞處理,然后利用步驟1得到的詞向量模型得出訓(xùn)練集語料和測試集語料分別對應(yīng)的詞向量;步驟4:建立超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型,第一層為詞嵌入層,在詞嵌入層之后連接五個(gè)卷積塊,每個(gè)卷積塊內(nèi)部由卷積層連接而成,卷積塊內(nèi)部每進(jìn)行一次卷積之后進(jìn)行一次批規(guī)范化操作,每個(gè)卷積層中卷積核的數(shù)量均為3;設(shè)置每個(gè)卷積塊之間進(jìn)行池化操作,同時(shí)在每個(gè)卷積塊之間設(shè)置一個(gè)捷徑連接,在最后一個(gè)卷積塊之后進(jìn)行最大值池化,之后連接三個(gè)全連接層,設(shè)置卷積層和全連接層的激活函數(shù)均為relu,再通過softmax進(jìn)行分類,得到超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型,所述超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的深度為詞嵌入層的個(gè)數(shù)、全連接層的個(gè)數(shù)和卷積層的個(gè)數(shù)三者之和;步驟5:將步驟3中得到的訓(xùn)練集語料所對應(yīng)的詞向量輸入到步驟4中建立的超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型中,訓(xùn)練得出文本分類模型;將步驟3中測試集語料所對應(yīng)的詞向量輸入到文本分類模型中,輸出測試集語料所對應(yīng)的分類結(jié)果,計(jì)算文本分類模型的準(zhǔn)確率為90%以上即可用于中文文本分類;步驟6:將需要分類的中文文本輸入到步驟1的詞向量模型中,得到該需要分類的中文文本的詞向量,然后將該詞向量輸入到步驟5的文本分類模型中,即完成中文文本分類。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果如下:本發(fā)明將自行設(shè)計(jì)的超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn)模型用于中文文本分類,并且把詞向量與之相結(jié)合,在設(shè)計(jì)超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn)模型時(shí),將網(wǎng)絡(luò)結(jié)構(gòu)模型的深度增加,同時(shí)在超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn)中加入batchnormalization和深度殘差網(wǎng)絡(luò)(resnets)的shortcut,用以解決深度增加所帶來的梯度消失和精確度下降等問題。在以往的卷積神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行文本分類時(shí),卷積核的數(shù)目大小可能是3、5或者7,但是對于本發(fā)明所設(shè)計(jì)的vdcnn模型而言,只需要將所有卷積層的卷積核大小設(shè)置為3,因?yàn)閮蓚€(gè)連續(xù)3×3的卷積核與一個(gè)5×5大小的卷積核具有相同的感受野,而3個(gè)連續(xù)的3×3的卷積核與一個(gè)7×7的卷積核具有相同的感受野。由于設(shè)置所有的卷積層激活函數(shù)為relu,所以每一個(gè)卷積層增加了決策函數(shù)的非線性。于是,相比使用一個(gè)7×7大小的卷積核,3個(gè)連續(xù)3×3大小的卷積核進(jìn)行了3次非線性處理,這樣就增加了網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)能力,輸入文本經(jīng)過深層網(wǎng)絡(luò)的卷積之后就能得到具有更加優(yōu)秀表征效果的特征向量。另外,使用3×3的卷積核降低了參數(shù)的個(gè)數(shù),假設(shè)三個(gè)卷積層使用3×3大小的卷積核處理c通道的特征圖時(shí),一共有3×(32×c2)=27c2個(gè)參數(shù),而一個(gè)7×7卷積核的卷積層則有1×(72×c2)=49c2個(gè)參數(shù),減少了約50%。在文本進(jìn)入到詞向量模型后,能夠?qū)⑽谋締卧~轉(zhuǎn)換為低維度向量,且把相似詞和近義詞的向量放置在距離較近的向量空間中,當(dāng)文本向量經(jīng)過超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn)模型之后能夠優(yōu)秀地將文本的特征提取出來,顯著提升了文本分類的效果。最后在sogou語料庫和復(fù)旦大學(xué)中文語料庫上進(jìn)行了實(shí)驗(yàn),其文本分類的精確度(accuracy)能夠達(dá)到99.12%,相較于其他文本分類方法,提高約3%,并且實(shí)驗(yàn)2的結(jié)果表明,隨著文本分類模型深度的增加其分類效果也不斷增強(qiáng)。本發(fā)明方法將詞向量和vdcnn相結(jié)合進(jìn)行中文文本分類,可應(yīng)用于文本的低維度向量化表示以及海量文本的分類任務(wù)等,并最終應(yīng)用于用戶個(gè)性化推薦系統(tǒng)、信息檢索和意圖理解等多個(gè)子領(lǐng)域。附圖說明圖1是skip-gram模型的結(jié)構(gòu)示意圖;圖2是vdcnn模型結(jié)構(gòu)示意圖;圖3是卷積塊的結(jié)構(gòu)示意圖,圖中卷積塊由兩個(gè)卷積層構(gòu)成。具體實(shí)施方式為使本發(fā)明的技術(shù)方案和優(yōu)點(diǎn)更加清晰,以下結(jié)合實(shí)施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)說明。本發(fā)明基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法,該方法包括以下步驟:步驟1:從網(wǎng)上搜集詞向量的訓(xùn)練語料,并結(jié)合中文分詞算法對訓(xùn)練語料進(jìn)行分詞處理,同時(shí)去除停用詞,建立詞典d,然后利用word2vec工具訓(xùn)練詞典d中的詞,得出詞向量模型,同時(shí)獲得詞向量;步驟2:從網(wǎng)上搜集新浪、網(wǎng)易、騰訊等多個(gè)中文新聞?wù)军c(diǎn)的新聞,標(biāo)記新聞的類別,作為文本分類的語料集,并將文本分類的語料集中的文本分類語料分為訓(xùn)練集語料和測試集語料;步驟3:將步驟2中的訓(xùn)練集語料和測試集語料分別進(jìn)行分詞處理,然后利用步驟1得到的詞向量模型得出訓(xùn)練集語料和測試集語料分別對應(yīng)的詞向量;步驟4:建立超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型,第一層為詞嵌入層,在詞嵌入層之后連接五個(gè)卷積塊,每個(gè)卷積塊內(nèi)部由卷積層連接而成,卷積塊內(nèi)部每進(jìn)行一次卷積之后進(jìn)行一次批規(guī)范化操作(batchnormalization),每個(gè)卷積層中卷積核的數(shù)量均為3;設(shè)置每個(gè)卷積塊之間進(jìn)行池化操作,同時(shí)在每個(gè)卷積塊之間設(shè)置一個(gè)捷徑連接(shortcut),在最后一個(gè)卷積塊之后進(jìn)行最大值池化,之后連接三個(gè)全連接層,設(shè)置卷積層和全連接層的激活函數(shù)均為relu(rectifiedlinearunits),再通過softmax進(jìn)行分類,得到超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型,所述超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的深度為詞嵌入層的個(gè)數(shù)、全連接層的個(gè)數(shù)和卷積層的個(gè)數(shù)三者之和;步驟5:將步驟3中得到的訓(xùn)練集語料所對應(yīng)的詞向量輸入到步驟4中建立的超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型中,訓(xùn)練得出文本分類模型;將步驟3中測試集語料所對應(yīng)的詞向量輸入到文本分類模型中,輸出測試集語料所對應(yīng)的分類結(jié)果,計(jì)算文本分類模型的準(zhǔn)確率為90%以上即可用于中文文本分類;步驟6:將需要分類的中文文本輸入到步驟1的詞向量模型中,得到該需要分類的中文文本的詞向量,然后將該詞向量輸入到步驟5的文本分類模型中,即完成中文文本分類。本發(fā)明方法的進(jìn)一步特征在于所述超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的深度為12-29,當(dāng)深度為12時(shí),前兩個(gè)卷積塊中卷積層的數(shù)量均為1,后三個(gè)卷積塊中卷積層的數(shù)量均為2;當(dāng)深度為14時(shí),每個(gè)卷積塊中卷積層的數(shù)量均為2;當(dāng)深度為17時(shí),前兩個(gè)卷積塊中卷積層的數(shù)量均為2,后三個(gè)卷積塊中卷積層的數(shù)量均為3;當(dāng)深度為20時(shí),前兩個(gè)卷積塊中卷積層的數(shù)量均為2,后三個(gè)卷積塊中卷積層的數(shù)量均為4;當(dāng)深度為29時(shí),前兩個(gè)卷積塊中卷積層的數(shù)量均為6,第三個(gè)卷積塊中卷積層的數(shù)量為5,后兩個(gè)卷積塊中卷積層的數(shù)量均為4。實(shí)施例1本實(shí)施例基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法,該方法包括以下步驟:步驟1:從網(wǎng)上搜集詞向量的訓(xùn)練語料,使用jieba分詞工具對訓(xùn)練語料進(jìn)行分詞處理,同時(shí)去除停用詞,建立詞典d,然后利用word2vec工具中的skip-gram模型訓(xùn)練得到詞典中每個(gè)詞對應(yīng)的詞向量;所述skip-gram模型(參見圖1)是在已知當(dāng)前詞w(t)的前提下,對當(dāng)前詞w(t)的上下文定義context(w)中的詞進(jìn)行預(yù)測,skip-gram模型包含三層:輸入層、投影層和輸出層;輸入層(input)輸入為當(dāng)前詞w(t),投影層(projection)是輸入層的恒等投影以應(yīng)對cbow模型中的投影層,輸出層(output)是以當(dāng)前詞在文本中的詞頻作為權(quán)值構(gòu)造的一棵二叉樹,其中葉子節(jié)點(diǎn)的向量即為一個(gè)詞向量,當(dāng)前詞w(t)對應(yīng)的葉子節(jié)點(diǎn)為w’(t-1)、w’(t-2)、w’(t+1)和w’(t+2),假設(shè)該葉子節(jié)點(diǎn)對應(yīng)詞典d中的詞為w,記:1,pw:從根節(jié)點(diǎn)出發(fā)到達(dá)w對應(yīng)葉子節(jié)點(diǎn)的路徑。2.lw:路徑pw中包含節(jié)點(diǎn)的個(gè)數(shù),這里的節(jié)點(diǎn)包括葉子節(jié)點(diǎn)和非葉子節(jié)點(diǎn),3.表示路徑pw中第j個(gè)節(jié)點(diǎn)對應(yīng)的編碼,這里的節(jié)點(diǎn)包括葉子節(jié)點(diǎn)和非葉子節(jié)點(diǎn),4.表示路徑pw中第j個(gè)非葉子節(jié)點(diǎn)對應(yīng)的向量;該skip-gram模型的目標(biāo)函數(shù)為公式(1):其中,t為skip-gram模型中訓(xùn)練文本的大小;采用隨機(jī)梯度上升法優(yōu)化skip-gram模型的目標(biāo)函數(shù)。即掃描全部文檔,使用skip-gram模型構(gòu)造多個(gè)context和w詞對,定義條件概率函數(shù)p(context(w)|w)為公式(2):其中,p(u|w)定義為公式(3):式中,u是context(w)集合中的一個(gè)元素,即:u∈context(w)。以樣本(w,context(w))為例,skip-gram模型中采用隨機(jī)梯度上升法更新所有參數(shù),每當(dāng)context(w)中處理一次分詞之后會(huì)更新當(dāng)前詞w的向量,優(yōu)化結(jié)束后,得到每個(gè)詞的詞向量;步驟2:sogouca是搜狗實(shí)驗(yàn)室(sogoulab)提供的全網(wǎng)新聞數(shù)據(jù),該數(shù)據(jù)來自2012年6月-7月期間新浪、網(wǎng)易、騰訊以及鳳凰資訊等若干個(gè)新聞?wù)军c(diǎn),由國內(nèi)、國際、體育、社會(huì)、娛樂等18個(gè)頻道的全網(wǎng)新聞數(shù)據(jù),提供url和正文信息。sogoucs是搜狗實(shí)驗(yàn)室(sogoulab)提供的搜狐新聞數(shù)據(jù),該數(shù)據(jù)集來自搜狐新聞2012年6月-7月期間國內(nèi)、國際、體育、社會(huì)、娛樂等18個(gè)頻道的新聞數(shù)據(jù),將上述全網(wǎng)新聞數(shù)據(jù)和搜狐新聞數(shù)據(jù)根據(jù)類別放在不同的文件夾下,作為文本分類的語料集,并且從文本分類的語料集中隨機(jī)選取10%作為測試集語料,剩余的90%作為訓(xùn)練集語料;步驟3:利用jieba分詞工具,設(shè)置分詞模式為精確模式,將步驟2中的訓(xùn)練集語料和測試集語料進(jìn)行分詞處理,將被分詞后的訓(xùn)練集語料和測試集語料輸入到步驟1中的詞向量模型,得出訓(xùn)練集語料和測試集語料分別對應(yīng)的詞向量;步驟4:定義vdcnn超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型,其具體結(jié)構(gòu)如圖2所示。其中,embeddinglayer(256dim)表示維度為256維的詞嵌入層,conv3-64表示卷積核大小為3數(shù)量為64個(gè),pool/2表示池化操作,下采樣因子為2,fc(i,o)表示輸入長度為i,輸出長度為o的全連接層。由于網(wǎng)絡(luò)結(jié)構(gòu)模型層數(shù)較深,為了優(yōu)化對內(nèi)存的占用,結(jié)合vgg以及resnets,在定義vdcnn模型結(jié)構(gòu)時(shí)設(shè)置如下兩條規(guī)則:(1)如果卷積之后輸出的向量不變,則卷積核數(shù)目和特征圖像的大小保持不變。(2)如果卷積之后輸出的向量減半,則卷積核數(shù)目和特征圖像的大小增加一倍。以圖2a列為例,a列是一個(gè)深度為12層的超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn),該模型的第一層為詞嵌入層,將輸入的文本分類語料展開成詞向量的序列作為卷積層的輸入,在本文實(shí)驗(yàn)中詞向量是由word2vec在skip-gram模型中訓(xùn)練得出,它生成一個(gè)二維張量(tensor),記做(fdim,s),fdim表示詞向量在訓(xùn)練時(shí)設(shè)置的維度,s為輸入文本中詞的數(shù)量。詞嵌入層之后的第一個(gè)卷積層設(shè)置為64個(gè)大小為3的卷積核,然后對卷積結(jié)果進(jìn)行池化操作,之后連接一個(gè)卷積層,設(shè)置其卷積核大小為3數(shù)量為128個(gè),然后進(jìn)行了3次池化,每次池化操作連接兩個(gè)卷積層,最后再進(jìn)行池化操作,連接3個(gè)全連接層得出分類結(jié)果,共計(jì)12層。由圖2可知,整個(gè)網(wǎng)絡(luò)模型包括5次池化操作,前三次對輸出進(jìn)行平均值池化,后兩次采用最大值池化操作。這里把模型中每兩次池化操作之間的卷積層稱作為一個(gè)卷積塊(convolutionalblock)。每個(gè)卷積塊內(nèi)的卷積層數(shù)可以增加,例如模型a中共有五個(gè)卷積塊,第二個(gè)卷積塊有一個(gè)卷積層,為128個(gè)大小為3×3的卷積核,而在模型b中的第二個(gè)卷積塊有兩個(gè)卷積層,所以,根據(jù)卷積塊內(nèi)卷積層數(shù)的不同,vdcnn模型的深度如a-e所示,可以從12層逐漸增加到29層。該模型為了防止過擬合現(xiàn)象以及降低特征的維數(shù),優(yōu)化內(nèi)存占用,在每次平均值池化操作時(shí)將下采樣因子(strides)設(shè)置為2,輸出向量減半,根據(jù)上述的兩條規(guī)則,每個(gè)卷積塊的卷積核數(shù)目也由64變?yōu)?28,256或512,卷積核數(shù)目與特征圖像的大小相同,而在第四、五個(gè)卷積塊之后進(jìn)行k-max下采樣策略,每次對采樣區(qū)選取k個(gè)局部最優(yōu)特征值,舍棄冗余特征,同時(shí)能夠保證生成固定維度的特征向量。在圖2中,fc(i,o)表示輸入長度為i,輸出長度為o的全連接層。如圖2中所示,在進(jìn)行最后一次最大值池化操作后,設(shè)置三個(gè)全連接層。當(dāng)輸入文本進(jìn)入上述12至29層任意一個(gè)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征提取之后,能夠有效表示輸入文本的特征。最后,再通過softmax得到分類結(jié)果。在以往的卷積神經(jīng)網(wǎng)絡(luò)模型中對自然語言處理時(shí),卷積核的數(shù)目大小可能是3、5或者7,但是對于vdcnn模型而言,只需要將所有卷積層的卷積核大小設(shè)置為3,因?yàn)閮蓚€(gè)連續(xù)3×3的卷積核與一個(gè)5×5大小的卷積核具有相同的感受野,而3個(gè)連續(xù)的3×3的卷積核與一個(gè)7×7的卷積核具有相同的感受野。由于設(shè)置所有的卷積層激活函數(shù)為relu,所以每一個(gè)卷積層增加了決策函數(shù)的非線性。于是,相比使用一個(gè)7×7大小的卷積核,3個(gè)連續(xù)3×3大小的卷積核進(jìn)行了3次非線性處理,這樣就增加了網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)能力,輸入文本經(jīng)過深層網(wǎng)絡(luò)的卷積之后就能得到具有更加優(yōu)秀表征效果的特征向量。另外,使用3×3的卷積核降低了參數(shù)的個(gè)數(shù),假設(shè)三個(gè)卷積層使用3×3大小的卷積核處理c通道的特征圖時(shí),一共有3×(32×c2)=27c2個(gè)參數(shù),而一個(gè)7×7卷積核的卷積層則有1×(72×c2)=49c2個(gè)參數(shù),減少了約50%。在卷積塊中,對數(shù)據(jù)進(jìn)行卷積之后又進(jìn)行了批規(guī)范化操作(batchnormalization簡稱bn)。在超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn)中,每一個(gè)卷積塊(convolutionalblock)的詳細(xì)結(jié)構(gòu)如圖3所示。其中,conv3-128表示卷積核大小為3數(shù)量為128個(gè),relu表示激活函數(shù)為relu。當(dāng)較深傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)模型進(jìn)行訓(xùn)練時(shí),隨著層數(shù)的增加出現(xiàn)梯度消失問題(vanishinggradients)導(dǎo)致訓(xùn)練難以收斂。由于每一層網(wǎng)絡(luò)的輸入都會(huì)因?yàn)樯弦粚訁?shù)的變化導(dǎo)致其分布發(fā)生改變,而訓(xùn)練過程要求每一層適應(yīng)輸入的分布,這就帶來降低學(xué)習(xí)率、友好小心地初始化的問題,為了解決這個(gè)問題,本發(fā)明在每個(gè)卷積塊中引入了bn,其基本思想是:在每次隨機(jī)梯度下降(sgd)時(shí),對于每個(gè)隱層的神經(jīng)元,通過mini-batch(mini-batch指的就是分批處理,它的結(jié)果以錯(cuò)誤率的方式表示為:每一次epoch(迭代)中,所有的小batch的平均損失函數(shù)值)來對相應(yīng)的activation做規(guī)范化操作,把逐漸向非線性函數(shù)映射后取值區(qū)間極限飽和區(qū)靠攏的輸入分布強(qiáng)制拉回到均值為0方差為1的標(biāo)準(zhǔn)正態(tài)分布中,而最后的“scaleandshift”(bn算法的最后一步被稱為:“scaleandshift”)操作則是為了讓因訓(xùn)練所需而“刻意”加入的bn能夠有可能還原最初的輸入,即通過式(4)還原最初的輸入:其中,var表示隨機(jī)變量的方差,x表示在做非線性變換前的激活輸入值,也就是神經(jīng)元的輸出;γ,β表示需要訓(xùn)練的參數(shù),e表示數(shù)學(xué)期望,k表示第k維的數(shù)據(jù)。這樣使非線性變換函數(shù)的輸出落入到對輸入更加敏感的區(qū)域以避免梯度消失問題。當(dāng)梯度一直能保證較大狀態(tài)時(shí),神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)整效率會(huì)大大增高,其損失函數(shù)邁向最優(yōu)值的步進(jìn)也會(huì)相應(yīng)增大,能夠加快收斂速度。在vdcnn模型層數(shù)較多的情況下,為了加快收斂速度降低學(xué)習(xí)周期,在vdcnn模型的卷積層和全連接層設(shè)置激活函數(shù)為relu,具體公式為式(5):y(x)=max(0,x)(5)其中,x表示神經(jīng)元的輸出,max表示取x和0中的較大的那個(gè)值。如果只是單純的增加網(wǎng)絡(luò)結(jié)構(gòu)的層數(shù)和深度,文本分類模型的精度得到飽和之后會(huì)迅速下滑,并且這個(gè)性能下降不是過擬合導(dǎo)致的。為了解決一個(gè)合適深度的模型因加入額外的層數(shù)導(dǎo)致訓(xùn)練誤差變大的問題,本發(fā)明在vdcnn中的每個(gè)卷積塊之間引入resnets中的捷徑連接(shortcut),即每個(gè)卷積塊之間的輸出不是傳統(tǒng)神經(jīng)中的輸入映射,而是輸入的映射和輸入的疊加,該過程用式(6)表示,其中,x0為上一層的輸出,h(x0)為期望的網(wǎng)絡(luò)層關(guān)系映射,f(x0)為需要學(xué)習(xí)的殘差函數(shù)(residualfunction)使得:h(x0)=f(x0)+x0(6),最后,通過softmax進(jìn)行分類,得到超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型;步驟5:將步驟3中得到的訓(xùn)練集語料所對應(yīng)的詞向量輸入到步驟4中建立的超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型中,一共迭代30次,訓(xùn)練得出文本分類模型;然后將步驟3中測試集語料所對應(yīng)的詞向量輸入到文本分類模型中,即可輸出測試集語料所對應(yīng)的分類結(jié)果,計(jì)算出文本分類模型的準(zhǔn)確率為90%以上即可用于中文文本分類;步驟6:將需要分類的中文文本輸入到步驟1的詞向量模型中,得到該需要分類的中文文本的詞向量,然后將該詞向量輸入到步驟5的文本分類模型中,即完成中文文本分類。本實(shí)施例所采用的的硬件環(huán)境為但不限于此:win8.1/64位操作系統(tǒng),xeone5-1620cpu,ddr48g內(nèi)存,nvidiaquadrok22004g顯卡。為了全面且準(zhǔn)確地評估本發(fā)明所提方法的性能,實(shí)驗(yàn)將在sogouca、sogoucs以及復(fù)旦大學(xué)文本分類語料庫3個(gè)數(shù)據(jù)集上測試。實(shí)驗(yàn)1:實(shí)驗(yàn)1是具有12層的vdcnn與其他分類方法的結(jié)果對比,為了評估本文提出的超深卷積神經(jīng)網(wǎng)絡(luò)(vdcnn)模型實(shí)驗(yàn)從錯(cuò)誤率的角度與其他模型方法進(jìn)行實(shí)驗(yàn)結(jié)果的對比。本實(shí)驗(yàn)中對于現(xiàn)有的其他分類方法均以sogouca全網(wǎng)新聞數(shù)據(jù)為檢驗(yàn)基礎(chǔ),對于本發(fā)明vdcnn模型分別以sogouca全網(wǎng)新聞數(shù)據(jù)和sogoucs搜狐新聞數(shù)據(jù)為檢驗(yàn)基礎(chǔ),詳細(xì)實(shí)驗(yàn)結(jié)果如表1所示。實(shí)驗(yàn)結(jié)果中可以看出,本實(shí)施例提出的vdcnn網(wǎng)絡(luò)結(jié)構(gòu)模型在使用了batchnormalization以及引入了resnets的shortcut之后,并沒有因?yàn)榫W(wǎng)絡(luò)結(jié)構(gòu)模型深度的大幅度增加而導(dǎo)致梯度消失或者準(zhǔn)確性下降等問題,并且通過wordembedding與vdcnn模型二者相結(jié)合,其文本分類的精確率(accuracy)相較于其他文本分類的方法也得到明顯提升。實(shí)驗(yàn)在迭代30次后錯(cuò)誤率穩(wěn)定在2.37%左右。表1vdcnn模型與其他分類方法錯(cuò)誤率比較模型錯(cuò)誤率模型錯(cuò)誤率bow7.15convnet(event)7lstm4.82convnet(event+bigram+trigram)4.9lg.w2vconv.4.39attentionbasedlstm7.82sm.lk.conv4.95bi-lstm7.11lg.conv4.88正逆序組合attentionbasedlstm5.19mi-svm10.3vdcnn(sogouca)2.37lsi-svm9.3vdcnn(sogoucs)2.19實(shí)驗(yàn)2:實(shí)驗(yàn)2分別使用12、14、17、20及29層的vdcnn模型對sogoucs語料庫進(jìn)行試驗(yàn),以檢驗(yàn)本發(fā)明提出的vdcnn模型在深度增加方面對分類效果提升的有效性。從實(shí)驗(yàn)2的結(jié)果可以得出,文本的分類效果會(huì)隨著vdcnn模型深度的增加而提升。實(shí)驗(yàn)結(jié)果如表2所示。表2不同深度的vdcnn模型的分類效果深度(depth)準(zhǔn)確率(precision)精確率(accuracy)1297.9297.811497.8697.931798.2198.022098.3898.352999.2599.12實(shí)驗(yàn)3:為了解決由于網(wǎng)絡(luò)深度增加導(dǎo)致準(zhǔn)確率退化的問題,在本實(shí)施例提出的vdcnn模型中增加shortcut進(jìn)行殘差學(xué)習(xí)。實(shí)驗(yàn)3將帶有shortcut的網(wǎng)絡(luò)結(jié)構(gòu)與沒有添加shortcut的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了對比,使用的數(shù)據(jù)集為sogoucs語料庫,實(shí)驗(yàn)結(jié)果如表3所示,其中,實(shí)驗(yàn)結(jié)果為文本分類的錯(cuò)誤率。實(shí)驗(yàn)結(jié)果表明,使用帶有shortcut的網(wǎng)絡(luò)結(jié)構(gòu)能夠有效提高文本分類的準(zhǔn)確率。表3帶有shortcut與不帶shortcut的vdcnn模型的分類效果深度(depth)帶(withshortcut)不帶(withoutshortcut)122.195.23142.074.62171.983.98201.652.37290.881.61實(shí)驗(yàn)4:為了解決深度神經(jīng)網(wǎng)絡(luò)梯度消失的問題,以及提高模型的精度,本實(shí)施例方法在卷積塊內(nèi)中引入了批規(guī)范化操作(batchnormalization),對卷積結(jié)果進(jìn)行規(guī)范化操作后,可能會(huì)改變下一層原來的輸入,也可能沒有改變,這樣,既可能改變也可能保持了原來的輸入,大大提高了模型的容納能力(capacity),從而提高了文本分類的準(zhǔn)確率。實(shí)驗(yàn)4將沒有進(jìn)行批規(guī)范化操作的模型與本實(shí)施例提出的模型進(jìn)行了對比,實(shí)驗(yàn)結(jié)果如表4所示,其中,實(shí)驗(yàn)結(jié)果為文本分類的精確率。表4增加bn操作與沒有bn操作的分類效果深度(depth)不帶bn(withoutbn)帶有bn(withbn)1294.1797.811494.8997.931795.3498.022094.9298.352996.7699.12綜上所述,本發(fā)明基于超深卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的中文文本分類方法將詞向量與vdcnn模型相結(jié)合,能夠有效解決中文文本分類中現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)模型卷積核大小難以確定、文本的向量維度過高等問題,本發(fā)明提出的方法通過在原有網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)之上融入batchnormalization和shortcut,有效解決了隨著網(wǎng)絡(luò)深度增加帶來的梯度消失和分類精確度下降問題。基于真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)測試,證明本發(fā)明相較以往方法,能夠大幅增強(qiáng)分類任務(wù)的性能以及提高文本分類的準(zhǔn)確度。本發(fā)明中所述的skip-gram模型、cbow模型均為現(xiàn)有模型,隨機(jī)梯度上升法、bn算法均為現(xiàn)有方法。vgg是牛津大學(xué)計(jì)算機(jī)視覺組(visualgeometrygroup)和googledeepmind公司的研究員一起研發(fā)的的深度卷積神經(jīng)網(wǎng)絡(luò)。resnets全稱是residualnetworks,中文名為殘差網(wǎng)絡(luò)。以上所述的具體實(shí)施例,對本發(fā)明的技術(shù)方案和測試效果進(jìn)行了詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。本發(fā)明未述及之處適用于現(xiàn)有技術(shù)。當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1