本發(fā)明屬于基于機(jī)器學(xué)習(xí)的文本分類技術(shù)領(lǐng)域,主要涉及一種基于多特征融合的學(xué)術(shù)報告預(yù)告分類方法。
背景技術(shù):
學(xué)術(shù)報告有助于開拓視野和知識面并獲得前沿研究信息,學(xué)術(shù)報告的內(nèi)容通常是報告者的最新研究成果,有助于科技工作者了解學(xué)科的最新研究進(jìn)展情況,還可以藉此途徑獲得跨學(xué)科的知識,通過當(dāng)面聆聽這一形式,還可能獲取到專家的知識思維,有助于科技工作者開啟自己固有的直覺能力,也可以借助環(huán)境氣氛來開啟自己這種天賦固有的直覺能力。
另外,隨著科技工作者的不斷增多,他們對最新科技的渴望也是逐漸增加的,但是又沒有太多的時間去挑選需要關(guān)注的學(xué)術(shù)報告,這就需要我們事先進(jìn)行學(xué)術(shù)報告的分類,然后對這些科技工作者進(jìn)行推薦和推送,能極大的減少占用做科研的時間。然而網(wǎng)上學(xué)術(shù)報告信息量巨大,如果通過人工分類的方法,費(fèi)時費(fèi)力,無法進(jìn)行及時的推薦和推送。進(jìn)行簡單的機(jī)器學(xué)習(xí)的方法進(jìn)行推薦和推送又浪費(fèi)了學(xué)術(shù)報告能提供的眾多信息,分類準(zhǔn)確度也得不到很好的保障。
目前,進(jìn)行短文本分類的方法主要分為三大類:
1.人工分類
2.利用機(jī)器學(xué)習(xí)的方法進(jìn)行分類
3.融合機(jī)器學(xué)習(xí)的方法以及數(shù)據(jù)包含的其他信息進(jìn)行融合分類。
利用人工進(jìn)行分類的方法很簡單,但是只適合在數(shù)據(jù)量極其小的情況下,人工分類需要投入大量的人力和精力,而且需要專業(yè)的人士參與,否則準(zhǔn)確率不會很高,該方法實用性差。利用機(jī)器學(xué)習(xí)的方法進(jìn)行分類適合那些文本中不包含對分類有幫助的信息的情況下,目前使用機(jī)器學(xué)習(xí)進(jìn)行文本分類的方法很多,但是始終達(dá)不到較高的準(zhǔn)確率。融合機(jī)器學(xué)習(xí)的各種方法并且在其基礎(chǔ)上加入文本中包含的其他有用特征進(jìn)行融合分類,但是仍然無法滿足實際分類精度要求。
技術(shù)實現(xiàn)要素:
本發(fā)明是為了避免現(xiàn)有技術(shù)存在的不足之處,提出一種基于多特征融合的網(wǎng)絡(luò)學(xué)術(shù)報告分類方法,以期充分利用學(xué)術(shù)報告中包含的各種特征,并且結(jié)合多種機(jī)器學(xué)習(xí)的算法,以實現(xiàn)學(xué)術(shù)報告分類的最大準(zhǔn)確率,從而保證實際應(yīng)用的分類準(zhǔn)確率。
本發(fā)明為解決技術(shù)問題采用如下技術(shù)方案:
本發(fā)明一種基于多特征融合的網(wǎng)絡(luò)學(xué)術(shù)報告分類方法的特點(diǎn)是按如下步驟進(jìn)行:
步驟1、收集并建立學(xué)術(shù)報告數(shù)據(jù)庫;
步驟1.1、利用爬蟲工具收集網(wǎng)絡(luò)學(xué)術(shù)報告的信息并作為相應(yīng)條目,所述網(wǎng)絡(luò)學(xué)術(shù)報告的信息包括:報告標(biāo)題、報告時間、報告地點(diǎn)、報告人、報告人簡介、報告簡介和報告舉辦單位;
步驟1.2、添加學(xué)術(shù)報告所屬的學(xué)科分類信息的條目,從而建立學(xué)術(shù)報告數(shù)據(jù)庫;
步驟2、獲得第一匹配結(jié)果集合;
步驟2.1、收集并建立學(xué)院名稱集合及其包含的各個學(xué)科名稱集合;
步驟2.2、將所述報告舉辦單位與所述學(xué)院名稱集合中的各個學(xué)院進(jìn)行匹配,從而獲得第一匹配結(jié)果集合;所述第一匹配結(jié)果集合為所述報告舉辦單位所對應(yīng)的學(xué)院所包含的所有學(xué)科;
步驟3、獲得第二匹配結(jié)果集合;
步驟3.1、收集并建立研究人員集合及其對應(yīng)的研究領(lǐng)域集合;
步驟3.2、將所述報告人與所述研究人員集合中的各個研究人員姓名進(jìn)行匹配,從而獲得第二匹配結(jié)果集合;所述第二匹配結(jié)果集合為所述報告人所屬的研究領(lǐng)域;
步驟4、利用中文關(guān)鍵詞提取算法對所述報告標(biāo)題進(jìn)行提取,獲得所述報告標(biāo)題的關(guān)鍵詞;
步驟5、使用同義詞擴(kuò)展算法對所提取的關(guān)鍵詞進(jìn)行同義詞擴(kuò)展,得到所述關(guān)鍵詞的近義詞特征集合;
步驟6、使用SVM分類器對所述關(guān)鍵詞及其近義詞特征集合進(jìn)行文本分類,得到第一分類結(jié)果;所述第一分類結(jié)果為所述關(guān)鍵詞及其近義詞所對應(yīng)的第一學(xué)科集合;所述第一學(xué)科集合中包含各個學(xué)科名稱及其相應(yīng)的概率;
步驟7、使用樸素貝葉斯分類器NB對所述關(guān)鍵詞及其近義詞特征集合進(jìn)行文本分類,得到第二分類結(jié)果;所述第二分類結(jié)果為所述關(guān)鍵詞及其近義詞所對應(yīng)的第二學(xué)科集合;所述第二學(xué)科集合中包含各個學(xué)科名稱及其相應(yīng)的概率;
步驟8、得到初步分類結(jié)果集合;
步驟8.1、從所述第一分類結(jié)果和第二分類結(jié)果分別選出概率最高的前2個學(xué)科所對應(yīng)的概率,分別記為第一SVM概率和第二SVM概率、第一NB概率和第二NB概率;
步驟8.2、設(shè)置一個置信度值C;
步驟8.3、判斷第一SVM概率和第二SVM概率之差≥置信度值C是否成立,若成立,則表將所述第一SVM概率所對應(yīng)的學(xué)科作為第一初步分類結(jié)果;否則,則將所述第一SVM概率和第二SVM概率所對應(yīng)的學(xué)科作為第一初步分類結(jié)果;
步驟8.4、判斷第一NB概率和第二NB概率之差≥置信度值C是否成立,若成立,則表將所述第一NB概率所對應(yīng)的學(xué)科作為第二初步分類結(jié)果;否則,則將所述第一NB概率和第二NB概率所對應(yīng)的學(xué)科作為第二初步分類結(jié)果;
步驟8.5、將所述第一初步分類結(jié)果和第二初步分類結(jié)果取并集,得到初步分類結(jié)果集合;
步驟9、得到最終分類結(jié)果
步驟9.1、為所述第一匹配結(jié)果集合、第二匹配結(jié)果集合和初步分類結(jié)果集合設(shè)定相應(yīng)的權(quán)重,記為A、B、C;
步驟9.2、將所述第一匹配結(jié)果集合、第二匹配結(jié)果集合和初步分類結(jié)果集合取并集,得到綜合分類結(jié)果集合;
步驟9.3、統(tǒng)計所述綜合分類結(jié)果集合中的每個學(xué)科分別在所述第一匹配結(jié)果集合、第二匹配結(jié)果集合和初步分類結(jié)果集合中相應(yīng)權(quán)重的總和;
步驟9.4、以權(quán)重的總和最高的學(xué)科作為所述網(wǎng)絡(luò)學(xué)術(shù)報告的最終分類結(jié)果并用于預(yù)告和推薦。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
1.本發(fā)明充分使用了數(shù)據(jù)自身包含的信息,將學(xué)術(shù)報告中報告人和報告單位的匹配結(jié)果于用機(jī)器學(xué)習(xí)方法得到的結(jié)果進(jìn)行融合,提高了分類的準(zhǔn)確率,保證了實際應(yīng)用的需求。
2.本發(fā)明首先建立研究單位數(shù)據(jù)庫和研究人員數(shù)據(jù)庫,將學(xué)術(shù)報告中的舉辦單位以及報告人信息與數(shù)據(jù)庫中的信息進(jìn)行匹配,得到一系列學(xué)術(shù)報告人對應(yīng)的學(xué)科以及一系列報告單位對應(yīng)的學(xué)科,解決了數(shù)據(jù)利用不充分的問題,提高了學(xué)術(shù)報告數(shù)據(jù)利用效率。
3.本發(fā)明結(jié)合了多種傳統(tǒng)的機(jī)器學(xué)習(xí)方法,并加入置信度策略,使用支持向量機(jī)的分類方法得到分類結(jié)果,判斷第一概率與第二概率的差值大于置信度是否成立,成立則取第一概率對應(yīng)的學(xué)科,否則取第一概率和第二概率對應(yīng)的學(xué)科,得到支持向量機(jī)分類結(jié)果;再同樣的使用使用樸素貝葉斯的方法進(jìn)行分類,得到樸素貝葉斯分類結(jié)果,將兩種分類方法的結(jié)果取并集,得到機(jī)器學(xué)習(xí)方法的分類結(jié)果,本方法結(jié)合了多種機(jī)器學(xué)習(xí)方法的優(yōu)點(diǎn),提高了融合分類結(jié)果的準(zhǔn)確率。
附圖說明
圖1為本發(fā)明的整體流程圖;
圖2為本發(fā)明多特征融合分類流程圖。
具體實施方式
在本實施例中,一種基于多特征融合的網(wǎng)絡(luò)學(xué)術(shù)報告分類方法,是通過多因素的方法對學(xué)術(shù)報告進(jìn)行分類,其整體流程圖如圖1所示,并按如下過程進(jìn)行:
步驟1、收集并建立學(xué)術(shù)報告數(shù)據(jù)庫;
步驟1.1、利用爬蟲工具收集網(wǎng)絡(luò)學(xué)術(shù)報告的信息并作為相應(yīng)條目,網(wǎng)絡(luò)學(xué)術(shù)報告的信息包括:報告標(biāo)題、報告時間、報告地點(diǎn)、報告人、報告人簡介、報告簡介和報告舉辦單位;
步驟1.2、添加學(xué)術(shù)報告所屬的學(xué)科分類信息的條目,從而建立學(xué)術(shù)報告數(shù)據(jù)庫;
步驟2、獲得第一匹配結(jié)果集合;
步驟2.1、收集并建立學(xué)院名稱集合及其包含的各個學(xué)科名稱集合;
步驟2.2、將報告舉辦單位與學(xué)院名稱集合中的各個學(xué)院進(jìn)行匹配,從而獲得第一匹配結(jié)果集合;第一匹配結(jié)果集合為報告舉辦單位所對應(yīng)的學(xué)院所包含的所有學(xué)科;
步驟3、獲得第二匹配結(jié)果集合;
步驟3.1、收集并建立研究人員集合及其對應(yīng)的研究領(lǐng)域集合;
步驟3.2、將報告人與研究人員集合中的各個研究人員姓名進(jìn)行匹配,從而獲得第二匹配結(jié)果集合;第二匹配結(jié)果集合為報告人所屬的研究領(lǐng)域;
步驟4、利用中文關(guān)鍵詞提取算法對報告標(biāo)題進(jìn)行提取,獲得報告標(biāo)題的關(guān)鍵詞;
步驟4.1、收集關(guān)鍵詞提取的訓(xùn)練集,訓(xùn)練集保存在同一個文件夾中,其中每個文件都是以文本文件的形式存儲,總的文件數(shù)為D。
步驟4.2、對訓(xùn)練集中所有的文本文件進(jìn)行分詞處理,并且使用一個字典記錄每個詞出現(xiàn)的次數(shù)。
步驟4.3、遍歷字典中的每個詞,計算每個詞在所有文本文件中出現(xiàn)的詞頻的總和,這樣得到每個詞的詞頻TF;同時也計算每個詞在文本文件中出現(xiàn)的次數(shù),在每個文本文件中不管是只出現(xiàn)一次或出現(xiàn)多次,都只是把出現(xiàn)的次數(shù)加1,這樣得到某個詞在文件中出現(xiàn)的次數(shù)i,這樣可以得到每個詞的逆向文件頻率IDF的值;
步驟4.4、計算的每個詞的TFIDF值即為的TF*IDF,根據(jù)得到的TFIDF值的大小進(jìn)行排序,取出前N1個詞作為這一文檔的關(guān)鍵詞;
步驟4.5、對取出的學(xué)術(shù)報告的報告標(biāo)題進(jìn)行分詞處理;
步驟4.6、依次匹配每個詞在訓(xùn)練集中的所對應(yīng)的TFIDF值,取出前N2個詞作為當(dāng)前學(xué)術(shù)報告標(biāo)題的關(guān)鍵詞。
步驟5、使用同義詞擴(kuò)展算法對所提取的關(guān)鍵詞進(jìn)行同義詞擴(kuò)展,得到所述關(guān)鍵詞的近義詞特征集合;
步驟6、使用SVM分類器對關(guān)鍵詞及其近義詞特征集合進(jìn)行文本分類,得到第一分類結(jié)果;第一分類結(jié)果為關(guān)鍵詞及其近義詞所對應(yīng)的第一學(xué)科集合;第一學(xué)科集合中包含各個學(xué)科名稱及其相應(yīng)的概率;
步驟6.1、首先使用網(wǎng)上提供的論文的數(shù)據(jù)模型進(jìn)行訓(xùn)練,首先要進(jìn)行的是分詞,需要對分詞的詞庫進(jìn)行擴(kuò)充,添加專業(yè)詞,分詞的結(jié)果保存到文件model.seg中。
步驟6.2、加載model.seg文件,進(jìn)行特征選擇,選出比較能代表當(dāng)前學(xué)科的n個詞語,存入文件model.temp中,這些詞語作為代表當(dāng)前學(xué)科的特征詞。
步驟6.3、根據(jù)model.temp文件中的內(nèi)容,計算其中每個詞語的權(quán)重值,存入model.model文件中。
步驟6.4、從數(shù)據(jù)庫中取出所有未被分類的學(xué)術(shù)報告的標(biāo)題,將其存入文件中,存入的名稱為每個學(xué)術(shù)報告存儲在數(shù)據(jù)庫中的id,將這些文件統(tǒng)一放在默認(rèn)的分類名稱的文件夾中。
步驟6.5、使用步驟6.1中添加了專業(yè)詞匯的分詞工具對這些學(xué)術(shù)報告的標(biāo)題進(jìn)行分詞,存入test.seg文件夾中。
步驟6.6、使用步驟4中的方法進(jìn)行同義詞擴(kuò)展,得到當(dāng)前詞匯的一系列描述,將這些描述加入到特征中作為當(dāng)前特征的擴(kuò)展。
步驟6.7、計算得到的這些詞語的權(quán)重值,存入文件test.model文件中。
步驟6.8、加載model.model文件,使用SVM工具對當(dāng)前的test.model文件進(jìn)行測試,得到的測試結(jié)果即為當(dāng)前test文件的分類結(jié)果,將結(jié)果存入test.result文件中,存入文件每行為一個記錄,每個記錄的格式為當(dāng)前文件的路徑+制表符+所屬分類id。
步驟6.9、按行讀取test.result文件,分割出文件路徑和所屬分類id,從文件路徑中得到當(dāng)前的學(xué)術(shù)報告在數(shù)據(jù)庫中的id。
步驟7、使用樸素貝葉斯分類器NB對關(guān)鍵詞及其近義詞特征集合進(jìn)行文本分類,得到第二分類結(jié)果;第二分類結(jié)果為關(guān)鍵詞及其近義詞所對應(yīng)的第二學(xué)科集合;第二學(xué)科集合中包含各個學(xué)科名稱及其相應(yīng)的概率;
步驟8、得到初步分類結(jié)果集合;
步驟8.1、從第一分類結(jié)果和第二分類結(jié)果分別選出概率最高的前2個學(xué)科所對應(yīng)的概率,分別記為第一SVM概率和第二SVM概率、第一NB概率和第二NB概率;
步驟8.2、設(shè)置一個置信度值C;
步驟8.3、判斷第一SVM概率和第二SVM概率之差≥置信度值C是否成立,若成立,則表將第一SVM概率所對應(yīng)的學(xué)科作為第一初步分類結(jié)果;否則,則將所述第一SVM概率和第二SVM概率所對應(yīng)的學(xué)科作為第一初步分類結(jié)果;
步驟8.4、判斷第一NB概率和第二NB概率之差≥置信度值C是否成立,若成立,則表將第一NB概率所對應(yīng)的學(xué)科作為第二初步分類結(jié)果;否則,則將第一NB概率和第二NB概率所對應(yīng)的學(xué)科作為第二初步分類結(jié)果;
步驟8.5、將第一初步分類結(jié)果和第二初步分類結(jié)果取并集,得到初步分類結(jié)果集合;
步驟9、得到最終分類結(jié)果,如圖2所示;
步驟9.1、為第一匹配結(jié)果集合、第二匹配結(jié)果集合和初步分類結(jié)果集合設(shè)定相應(yīng)的權(quán)重,記為A、B、C;
步驟9.2、將第一匹配結(jié)果集合、第二匹配結(jié)果集合和初步分類結(jié)果集合取并集,得到綜合分類結(jié)果集合;
步驟9.3、統(tǒng)計綜合分類結(jié)果集合中的每個學(xué)科分別在第一匹配結(jié)果集合、第二匹配結(jié)果集合和初步分類結(jié)果集合中相應(yīng)權(quán)重的總和;
步驟9.4、以權(quán)重的總和最高的學(xué)科作為網(wǎng)絡(luò)學(xué)術(shù)報告的最終分類結(jié)果并用于預(yù)告和推薦。