一種基于多特征融合的網(wǎng)絡(luò)學(xué)術(shù)報告分類方法與流程

文檔序號：11134212閱讀：607來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于多特征融合的網(wǎng)絡(luò)學(xué)術(shù)報告分類方法與制造工藝

本發(fā)明屬于基于機(jī)器學(xué)習(xí)的文本分類技術(shù)領(lǐng)域，主要涉及一種基于多特征融合的學(xué)術(shù)報告預(yù)告分類方法。

背景技術(shù)：

學(xué)術(shù)報告有助于開拓視野和知識面并獲得前沿研究信息，學(xué)術(shù)報告的內(nèi)容通常是報告者的最新研究成果，有助于科技工作者了解學(xué)科的最新研究進(jìn)展情況，還可以藉此途徑獲得跨學(xué)科的知識，通過當(dāng)面聆聽這一形式，還可能獲取到專家的知識思維，有助于科技工作者開啟自己固有的直覺能力，也可以借助環(huán)境氣氛來開啟自己這種天賦固有的直覺能力。

另外，隨著科技工作者的不斷增多，他們對最新科技的渴望也是逐漸增加的，但是又沒有太多的時間去挑選需要關(guān)注的學(xué)術(shù)報告，這就需要我們事先進(jìn)行學(xué)術(shù)報告的分類，然后對這些科技工作者進(jìn)行推薦和推送，能極大的減少占用做科研的時間。然而網(wǎng)上學(xué)術(shù)報告信息量巨大，如果通過人工分類的方法，費(fèi)時費(fèi)力，無法進(jìn)行及時的推薦和推送。進(jìn)行簡單的機(jī)器學(xué)習(xí)的方法進(jìn)行推薦和推送又浪費(fèi)了學(xué)術(shù)報告能提供的眾多信息，分類準(zhǔn)確度也得不到很好的保障。

目前，進(jìn)行短文本分類的方法主要分為三大類：

1.人工分類

2.利用機(jī)器學(xué)習(xí)的方法進(jìn)行分類

3.融合機(jī)器學(xué)習(xí)的方法以及數(shù)據(jù)包含的其他信息進(jìn)行融合分類。

利用人工進(jìn)行分類的方法很簡單，但是只適合在數(shù)據(jù)量極其小的情況下，人工分類需要投入大量的人力和精力，而且需要專業(yè)的人士參與，否則準(zhǔn)確率不會很高，該方法實用性差。利用機(jī)器學(xué)習(xí)的方法進(jìn)行分類適合那些文本中不包含對分類有幫助的信息的情況下，目前使用機(jī)器學(xué)習(xí)進(jìn)行文本分類的方法很多，但是始終達(dá)不到較高的準(zhǔn)確率。融合機(jī)器學(xué)習(xí)的各種方法并且在其基礎(chǔ)上加入文本中包含的其他有用特征進(jìn)行融合分類，但是仍然無法滿足實際分類精度要求。

技術(shù)實現(xiàn)要素：

本發(fā)明是為了避免現(xiàn)有技術(shù)存在的不足之處，提出一種基于多特征融合的網(wǎng)絡(luò)學(xué)術(shù)報告分類方法，以期充分利用學(xué)術(shù)報告中包含的各種特征，并且結(jié)合多種機(jī)器學(xué)習(xí)的算法，以實現(xiàn)學(xué)術(shù)報告分類的最大準(zhǔn)確率，從而保證實際應(yīng)用的分類準(zhǔn)確率。

本發(fā)明為解決技術(shù)問題采用如下技術(shù)方案：

本發(fā)明一種基于多特征融合的網(wǎng)絡(luò)學(xué)術(shù)報告分類方法的特點(diǎn)是按如下步驟進(jìn)行：

步驟1、收集并建立學(xué)術(shù)報告數(shù)據(jù)庫；

步驟1.1、利用爬蟲工具收集網(wǎng)絡(luò)學(xué)術(shù)報告的信息并作為相應(yīng)條目，所述網(wǎng)絡(luò)學(xué)術(shù)報告的信息包括：報告標(biāo)題、報告時間、報告地點(diǎn)、報告人、報告人簡介、報告簡介和報告舉辦單位；

步驟1.2、添加學(xué)術(shù)報告所屬的學(xué)科分類信息的條目，從而建立學(xué)術(shù)報告數(shù)據(jù)庫；

步驟2、獲得第一匹配結(jié)果集合；

步驟2.1、收集并建立學(xué)院名稱集合及其包含的各個學(xué)科名稱集合；

步驟2.2、將所述報告舉辦單位與所述學(xué)院名稱集合中的各個學(xué)院進(jìn)行匹配，從而獲得第一匹配結(jié)果集合；所述第一匹配結(jié)果集合為所述報告舉辦單位所對應(yīng)的學(xué)院所包含的所有學(xué)科；

步驟3、獲得第二匹配結(jié)果集合；

步驟3.1、收集并建立研究人員集合及其對應(yīng)的研究領(lǐng)域集合；

步驟3.2、將所述報告人與所述研究人員集合中的各個研究人員姓名進(jìn)行匹配，從而獲得第二匹配結(jié)果集合；所述第二匹配結(jié)果集合為所述報告人所屬的研究領(lǐng)域；

步驟4、利用中文關(guān)鍵詞提取算法對所述報告標(biāo)題進(jìn)行提取，獲得所述報告標(biāo)題的關(guān)鍵詞；

步驟5、使用同義詞擴(kuò)展算法對所提取的關(guān)鍵詞進(jìn)行同義詞擴(kuò)展，得到所述關(guān)鍵詞的近義詞特征集合；

步驟6、使用SVM分類器對所述關(guān)鍵詞及其近義詞特征集合進(jìn)行文本分類，得到第一分類結(jié)果；所述第一分類結(jié)果為所述關(guān)鍵詞及其近義詞所對應(yīng)的第一學(xué)科集合；所述第一學(xué)科集合中包含各個學(xué)科名稱及其相應(yīng)的概率；

步驟7、使用樸素貝葉斯分類器NB對所述關(guān)鍵詞及其近義詞特征集合進(jìn)行文本分類，得到第二分類結(jié)果；所述第二分類結(jié)果為所述關(guān)鍵詞及其近義詞所對應(yīng)的第二學(xué)科集合；所述第二學(xué)科集合中包含各個學(xué)科名稱及其相應(yīng)的概率；

步驟8、得到初步分類結(jié)果集合；

步驟8.1、從所述第一分類結(jié)果和第二分類結(jié)果分別選出概率最高的前2個學(xué)科所對應(yīng)的概率，分別記為第一SVM概率和第二SVM概率、第一NB概率和第二NB概率；

步驟8.2、設(shè)置一個置信度值C；

步驟8.3、判斷第一SVM概率和第二SVM概率之差≥置信度值C是否成立，若成立，則表將所述第一SVM概率所對應(yīng)的學(xué)科作為第一初步分類結(jié)果；否則，則將所述第一SVM概率和第二SVM概率所對應(yīng)的學(xué)科作為第一初步分類結(jié)果；

步驟8.4、判斷第一NB概率和第二NB概率之差≥置信度值C是否成立，若成立，則表將所述第一NB概率所對應(yīng)的學(xué)科作為第二初步分類結(jié)果；否則，則將所述第一NB概率和第二NB概率所對應(yīng)的學(xué)科作為第二初步分類結(jié)果；

步驟8.5、將所述第一初步分類結(jié)果和第二初步分類結(jié)果取并集，得到初步分類結(jié)果集合；

步驟9、得到最終分類結(jié)果

步驟9.1、為所述第一匹配結(jié)果集合、第二匹配結(jié)果集合和初步分類結(jié)果集合設(shè)定相應(yīng)的權(quán)重，記為A、B、C；

步驟9.2、將所述第一匹配結(jié)果集合、第二匹配結(jié)果集合和初步分類結(jié)果集合取并集，得到綜合分類結(jié)果集合；

步驟9.3、統(tǒng)計所述綜合分類結(jié)果集合中的每個學(xué)科分別在所述第一匹配結(jié)果集合、第二匹配結(jié)果集合和初步分類結(jié)果集合中相應(yīng)權(quán)重的總和；

步驟9.4、以權(quán)重的總和最高的學(xué)科作為所述網(wǎng)絡(luò)學(xué)術(shù)報告的最終分類結(jié)果并用于預(yù)告和推薦。

與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果在于：

1.本發(fā)明充分使用了數(shù)據(jù)自身包含的信息，將學(xué)術(shù)報告中報告人和報告單位的匹配結(jié)果于用機(jī)器學(xué)習(xí)方法得到的結(jié)果進(jìn)行融合，提高了分類的準(zhǔn)確率，保證了實際應(yīng)用的需求。

2.本發(fā)明首先建立研究單位數(shù)據(jù)庫和研究人員數(shù)據(jù)庫，將學(xué)術(shù)報告中的舉辦單位以及報告人信息與數(shù)據(jù)庫中的信息進(jìn)行匹配，得到一系列學(xué)術(shù)報告人對應(yīng)的學(xué)科以及一系列報告單位對應(yīng)的學(xué)科，解決了數(shù)據(jù)利用不充分的問題，提高了學(xué)術(shù)報告數(shù)據(jù)利用效率。

3.本發(fā)明結(jié)合了多種傳統(tǒng)的機(jī)器學(xué)習(xí)方法，并加入置信度策略，使用支持向量機(jī)的分類方法得到分類結(jié)果，判斷第一概率與第二概率的差值大于置信度是否成立，成立則取第一概率對應(yīng)的學(xué)科，否則取第一概率和第二概率對應(yīng)的學(xué)科，得到支持向量機(jī)分類結(jié)果；再同樣的使用使用樸素貝葉斯的方法進(jìn)行分類，得到樸素貝葉斯分類結(jié)果，將兩種分類方法的結(jié)果取并集，得到機(jī)器學(xué)習(xí)方法的分類結(jié)果，本方法結(jié)合了多種機(jī)器學(xué)習(xí)方法的優(yōu)點(diǎn)，提高了融合分類結(jié)果的準(zhǔn)確率。

附圖說明

圖1為本發(fā)明的整體流程圖；

圖2為本發(fā)明多特征融合分類流程圖。

具體實施方式

在本實施例中，一種基于多特征融合的網(wǎng)絡(luò)學(xué)術(shù)報告分類方法，是通過多因素的方法對學(xué)術(shù)報告進(jìn)行分類，其整體流程圖如圖1所示，并按如下過程進(jìn)行：

步驟1、收集并建立學(xué)術(shù)報告數(shù)據(jù)庫；

步驟1.1、利用爬蟲工具收集網(wǎng)絡(luò)學(xué)術(shù)報告的信息并作為相應(yīng)條目，網(wǎng)絡(luò)學(xué)術(shù)報告的信息包括：報告標(biāo)題、報告時間、報告地點(diǎn)、報告人、報告人簡介、報告簡介和報告舉辦單位；

步驟1.2、添加學(xué)術(shù)報告所屬的學(xué)科分類信息的條目，從而建立學(xué)術(shù)報告數(shù)據(jù)庫；

步驟2、獲得第一匹配結(jié)果集合；

步驟2.1、收集并建立學(xué)院名稱集合及其包含的各個學(xué)科名稱集合；

步驟2.2、將報告舉辦單位與學(xué)院名稱集合中的各個學(xué)院進(jìn)行匹配，從而獲得第一匹配結(jié)果集合；第一匹配結(jié)果集合為報告舉辦單位所對應(yīng)的學(xué)院所包含的所有學(xué)科；

步驟3、獲得第二匹配結(jié)果集合；

步驟3.1、收集并建立研究人員集合及其對應(yīng)的研究領(lǐng)域集合；

步驟3.2、將報告人與研究人員集合中的各個研究人員姓名進(jìn)行匹配，從而獲得第二匹配結(jié)果集合；第二匹配結(jié)果集合為報告人所屬的研究領(lǐng)域；

步驟4、利用中文關(guān)鍵詞提取算法對報告標(biāo)題進(jìn)行提取，獲得報告標(biāo)題的關(guān)鍵詞；

步驟4.1、收集關(guān)鍵詞提取的訓(xùn)練集，訓(xùn)練集保存在同一個文件夾中，其中每個文件都是以文本文件的形式存儲，總的文件數(shù)為D。

步驟4.2、對訓(xùn)練集中所有的文本文件進(jìn)行分詞處理，并且使用一個字典記錄每個詞出現(xiàn)的次數(shù)。

步驟4.3、遍歷字典中的每個詞，計算每個詞在所有文本文件中出現(xiàn)的詞頻的總和，這樣得到每個詞的詞頻TF；同時也計算每個詞在文本文件中出現(xiàn)的次數(shù)，在每個文本文件中不管是只出現(xiàn)一次或出現(xiàn)多次，都只是把出現(xiàn)的次數(shù)加1，這樣得到某個詞在文件中出現(xiàn)的次數(shù)i，這樣可以得到每個詞的逆向文件頻率IDF的值；

步驟4.4、計算的每個詞的TFIDF值即為的TF*IDF，根據(jù)得到的TFIDF值的大小進(jìn)行排序，取出前N1個詞作為這一文檔的關(guān)鍵詞；

步驟4.5、對取出的學(xué)術(shù)報告的報告標(biāo)題進(jìn)行分詞處理；

步驟4.6、依次匹配每個詞在訓(xùn)練集中的所對應(yīng)的TFIDF值，取出前N2個詞作為當(dāng)前學(xué)術(shù)報告標(biāo)題的關(guān)鍵詞。

步驟5、使用同義詞擴(kuò)展算法對所提取的關(guān)鍵詞進(jìn)行同義詞擴(kuò)展，得到所述關(guān)鍵詞的近義詞特征集合；

步驟6、使用SVM分類器對關(guān)鍵詞及其近義詞特征集合進(jìn)行文本分類，得到第一分類結(jié)果；第一分類結(jié)果為關(guān)鍵詞及其近義詞所對應(yīng)的第一學(xué)科集合；第一學(xué)科集合中包含各個學(xué)科名稱及其相應(yīng)的概率；

步驟6.1、首先使用網(wǎng)上提供的論文的數(shù)據(jù)模型進(jìn)行訓(xùn)練，首先要進(jìn)行的是分詞，需要對分詞的詞庫進(jìn)行擴(kuò)充，添加專業(yè)詞，分詞的結(jié)果保存到文件model.seg中。

步驟6.2、加載model.seg文件，進(jìn)行特征選擇，選出比較能代表當(dāng)前學(xué)科的n個詞語，存入文件model.temp中，這些詞語作為代表當(dāng)前學(xué)科的特征詞。

步驟6.3、根據(jù)model.temp文件中的內(nèi)容，計算其中每個詞語的權(quán)重值，存入model.model文件中。

步驟6.4、從數(shù)據(jù)庫中取出所有未被分類的學(xué)術(shù)報告的標(biāo)題，將其存入文件中，存入的名稱為每個學(xué)術(shù)報告存儲在數(shù)據(jù)庫中的id，將這些文件統(tǒng)一放在默認(rèn)的分類名稱的文件夾中。

步驟6.5、使用步驟6.1中添加了專業(yè)詞匯的分詞工具對這些學(xué)術(shù)報告的標(biāo)題進(jìn)行分詞，存入test.seg文件夾中。

步驟6.6、使用步驟4中的方法進(jìn)行同義詞擴(kuò)展，得到當(dāng)前詞匯的一系列描述，將這些描述加入到特征中作為當(dāng)前特征的擴(kuò)展。

步驟6.7、計算得到的這些詞語的權(quán)重值，存入文件test.model文件中。

步驟6.8、加載model.model文件，使用SVM工具對當(dāng)前的test.model文件進(jìn)行測試，得到的測試結(jié)果即為當(dāng)前test文件的分類結(jié)果，將結(jié)果存入test.result文件中，存入文件每行為一個記錄，每個記錄的格式為當(dāng)前文件的路徑+制表符+所屬分類id。

步驟6.9、按行讀取test.result文件，分割出文件路徑和所屬分類id，從文件路徑中得到當(dāng)前的學(xué)術(shù)報告在數(shù)據(jù)庫中的id。

步驟7、使用樸素貝葉斯分類器NB對關(guān)鍵詞及其近義詞特征集合進(jìn)行文本分類，得到第二分類結(jié)果；第二分類結(jié)果為關(guān)鍵詞及其近義詞所對應(yīng)的第二學(xué)科集合；第二學(xué)科集合中包含各個學(xué)科名稱及其相應(yīng)的概率；

步驟8、得到初步分類結(jié)果集合；

步驟8.1、從第一分類結(jié)果和第二分類結(jié)果分別選出概率最高的前2個學(xué)科所對應(yīng)的概率，分別記為第一SVM概率和第二SVM概率、第一NB概率和第二NB概率；

步驟8.2、設(shè)置一個置信度值C；

步驟8.3、判斷第一SVM概率和第二SVM概率之差≥置信度值C是否成立，若成立，則表將第一SVM概率所對應(yīng)的學(xué)科作為第一初步分類結(jié)果；否則，則將所述第一SVM概率和第二SVM概率所對應(yīng)的學(xué)科作為第一初步分類結(jié)果；

步驟8.4、判斷第一NB概率和第二NB概率之差≥置信度值C是否成立，若成立，則表將第一NB概率所對應(yīng)的學(xué)科作為第二初步分類結(jié)果；否則，則將第一NB概率和第二NB概率所對應(yīng)的學(xué)科作為第二初步分類結(jié)果；

步驟8.5、將第一初步分類結(jié)果和第二初步分類結(jié)果取并集，得到初步分類結(jié)果集合；

步驟9、得到最終分類結(jié)果，如圖2所示；

步驟9.1、為第一匹配結(jié)果集合、第二匹配結(jié)果集合和初步分類結(jié)果集合設(shè)定相應(yīng)的權(quán)重，記為A、B、C；

步驟9.2、將第一匹配結(jié)果集合、第二匹配結(jié)果集合和初步分類結(jié)果集合取并集，得到綜合分類結(jié)果集合；

步驟9.3、統(tǒng)計綜合分類結(jié)果集合中的每個學(xué)科分別在第一匹配結(jié)果集合、第二匹配結(jié)果集合和初步分類結(jié)果集合中相應(yīng)權(quán)重的總和；

步驟9.4、以權(quán)重的總和最高的學(xué)科作為網(wǎng)絡(luò)學(xué)術(shù)報告的最終分類結(jié)果并用于預(yù)告和推薦。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：薛峰;夏帥;王健偉;許劍東;王東;
技術(shù)所有人：合肥工業(yè)大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

融合網(wǎng)絡(luò)的特征相關(guān)技術(shù)

多特征融合方法相關(guān)技術(shù)

多特征融合matlab代碼相關(guān)技術(shù)

特征融合相關(guān)技術(shù)

媒體融合特征相關(guān)技術(shù)

多特征融合相關(guān)技術(shù)

特征融合方法相關(guān)技術(shù)

特征級融合相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于多特征融合的網(wǎng)絡(luò)學(xué)術(shù)報告分類方法與流程