本發(fā)明涉及自然語言處理領(lǐng)域,更具體地,涉及基于篇章信息的中文水果品種信息抽取方法及裝置。
背景技術(shù):
隨著中國農(nóng)產(chǎn)品電商的發(fā)展,農(nóng)產(chǎn)品知識庫的構(gòu)建和完善對于農(nóng)產(chǎn)品的管理極為重要。我國水果產(chǎn)業(yè)經(jīng)過80年代中期至90年代中后期的快速發(fā)展,成為種植業(yè)中僅次于糧食和蔬菜的第三大產(chǎn)業(yè),在農(nóng)業(yè)及國民經(jīng)濟中占有非常重要的地位。相比糧食和蔬菜,水果物種更多,種植區(qū)域性更強,國家標(biāo)準(zhǔn)管理更松散,因此水果知識庫的構(gòu)建和完善更有難度。
我國農(nóng)作物種質(zhì)資源研究工作取得了顯著成績,建立了國家農(nóng)作物種質(zhì)資源數(shù)據(jù)庫、中國作物種質(zhì)信息網(wǎng)等種質(zhì)資源庫。雖然種質(zhì)資源數(shù)據(jù)庫含有水果品種名稱信息,但是這些水果品種名稱信息過于學(xué)術(shù)化,不符合面向銷售的水果農(nóng)產(chǎn)品管理的需要,因此需要構(gòu)建通俗性的水果知識庫。
要達到以上目的,要進行信息抽取,信息抽取又包括:專有名詞識別和關(guān)系識別。目前的英文專有名詞識別技術(shù)已經(jīng)達到了較高的水平,有些系統(tǒng)已經(jīng)實用化。其中,詞項提取主要是利用效果較好的英文詞法分析結(jié)果進行提??;詞項分類可以視為一種特殊的is-a關(guān)系識別,主要采用關(guān)系識別技術(shù)。而中文專有名詞識別比英文難度更大,其原因是詞項提取需要依賴中文分詞。由于領(lǐng)域(包括農(nóng)業(yè))詞匯大多是詞庫外詞(Out-Of-Vocabulary,OOV詞),而OOV詞的識別一直是中文分詞的研究難點,因此面向農(nóng)業(yè)領(lǐng)域的中文詞項提取效果不佳。因此,中文專有名詞的識別尚需進一步的研究。
當(dāng)前大多數(shù)關(guān)系識別研究只是關(guān)注句子內(nèi)的關(guān)系實例(即判斷句子內(nèi)出現(xiàn)的兩個實體是否存在特定關(guān)系),其特征提取往往是針對句子內(nèi)的文本進行。而在網(wǎng)絡(luò)百科的詞條描述中,水果品種關(guān)系實例經(jīng)常是跨句乃至跨段的。這種遠距離的關(guān)系識別意味著其特征提取往往針對更大范圍的文本進行,更容易產(chǎn)生帶噪音的特征信息。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是改進現(xiàn)有的信息抽取技術(shù),使其能夠更好的應(yīng)用于農(nóng)業(yè)領(lǐng)域,能夠從網(wǎng)絡(luò)中自動識別出水果品種的相關(guān)信息,構(gòu)建通俗性的水果知識庫,解決現(xiàn)有的種質(zhì)資源庫中的水果品種名稱信息過于學(xué)術(shù)化,不符合面向銷售的水果農(nóng)產(chǎn)品管理需要的問題。
一方面,本發(fā)明提出一種基于篇章信息的中文水果品種信息抽取方法,所述方法包括:
步驟S1,獲取語料;
步驟S2,標(biāo)注語料;
步驟S3,對與水果相關(guān)的頁面進行詞項對提取,將詞項對分為訓(xùn)練語料和測試語料;對所述語料進行基于篇章結(jié)構(gòu)的遠距離特征提??;
步驟S4,利用訓(xùn)練語料特征訓(xùn)練得到基于深度學(xué)習(xí)的組合分類器,利用組合分類器從測試語料中抽取水果品種信息;
步驟S5,將與水果相關(guān)的頁面隨機分為N組,重復(fù)執(zhí)行步驟S1至S4N次,獲得評估結(jié)果。
進一步地,所述步驟S1,具體包括:
獲取語料,在百度網(wǎng)站中查詢水果相關(guān)網(wǎng)頁,利用網(wǎng)絡(luò)爬蟲爬取下載與水果相關(guān)的百度百科頁面。
進一步地,所述步驟S2,具體包括:
對于所述與水果相關(guān)的頁面,人工標(biāo)注出每個水果品種名稱、所屬的水果大類名稱的關(guān)系,將每個標(biāo)注信息記錄為三元組:水果大類名稱、水果品種名稱、is-a關(guān)系;
進一步地,所述步驟S3中詞項對提取,具體包括:
對所述與水果相關(guān)的頁面進行基于語言結(jié)構(gòu)的詞項對<上位詞、下位詞>提??;
詞項對提取結(jié)果隨機被分為訓(xùn)練語料和測試語料;
對于所述訓(xùn)練語料,若其包含標(biāo)注的水果品種名稱,則語料為正樣本,否則,語料為負(fù)樣本。
進一步地,所述步驟S3中對所述語料進行基于篇章結(jié)構(gòu)的遠距離特征提取,具體包括:
對詞項對提取得到的語料,
若上位詞與下位詞在同一標(biāo)題下,且在同一段落中,則選擇其父節(jié)點所在句以及其子節(jié)點所在句作為特征信息;
若上位詞與下位詞在同一標(biāo)題下,但不在同一段落中,則選擇其父節(jié)點所在句、其子節(jié)點所在句、父子節(jié)點中間的所有段落的首句和尾句作為特征信息;
若上位詞與下位詞不在同一標(biāo)題下,則選擇其父節(jié)點所在句、其子節(jié)點所在句、父子節(jié)點中間的所有標(biāo)題作為特征信息。
進一步地,所述步驟S4中利用訓(xùn)練語料特征訓(xùn)練得到基于深度學(xué)習(xí)的組合分類器,具體包括:
負(fù)樣本語料數(shù)量為正樣本語料的N倍;
將所述負(fù)樣本語料分為N組,每組負(fù)樣本語料同正樣本語料為一個訓(xùn)練子集,得到N個訓(xùn)練子集;
對于每個訓(xùn)練子集通過支持向量機SVM深度分類算法進行學(xué)習(xí),得到N個基分類器;
將所述N個基分類器通過集成學(xué)習(xí)方法得到組合分類器。
進一步地,所述步驟S4中利用組合分類器從測試語料中抽取水果品種信息,具體包括:
對訓(xùn)練語料中的每個測試實例,一個基分類器分類得到一個標(biāo)簽,N個基分類器得到N個分類標(biāo)簽,按照多數(shù)投票制進行投票,投票結(jié)果作為該測試實例的最終分類標(biāo)簽,最終分類標(biāo)簽為1的測試實例為is-a關(guān)系,最終分類標(biāo)簽為0的測試實例為非is-a關(guān)系,若票數(shù)1:1則標(biāo)簽為0。
另一方面,本發(fā)明提出一種基于篇章信息的中文水果品種信息抽取裝置,所述裝置包括:
獲取單元,用于獲取語料,在搜索引擎網(wǎng)站爬取下載與水果相關(guān)的頁面;
標(biāo)注單元,用于對所述與水果相關(guān)的頁面進行語料標(biāo)注;
特征提取單元,用于對所述與水果相關(guān)的頁面進行詞項對提取,將詞項對分為訓(xùn)練語料和測試語料;對所述語料進行基于篇章結(jié)構(gòu)的遠距離特征提取;
訓(xùn)練單元,用于利用訓(xùn)練語料特征訓(xùn)練得到基于深度學(xué)習(xí)的組合分類器;
測試單元,用于利用組合分類器從測試語料中抽取水果品種信息;
評估單元,用于將與水果相關(guān)的頁面隨機分為N組,重復(fù)執(zhí)行如權(quán)利要求1所述的步驟S1至S4N次,獲得評估結(jié)果。
進一步地,所述特征提取單元包括:
特征提取子單元,用于:
對所述詞項對提取得到的語料,
若上位詞與下位詞在同一標(biāo)題下,且在同一段落中,則選擇其父節(jié)點所在句以及其子節(jié)點所在句作為特征信息;
若上位詞與下位詞在同一標(biāo)題下,但不在同一段落中,則選擇其父節(jié)點所在句、其子節(jié)點所在句、父子節(jié)點中間的所有段落的首句和尾句作為特征信息;
若上位詞與下位詞不在同一標(biāo)題下,則選擇其父節(jié)點所在句、其子節(jié)點所在句、父子節(jié)點中間的所有標(biāo)題作為特征信息。
進一步地,所述訓(xùn)練單元包括:
訓(xùn)練子單元,用于:
設(shè)置負(fù)樣本語料數(shù)量為正樣本語料的N倍;
將所述負(fù)樣本語料分為N組,每組負(fù)樣本語料同正樣本語料為一個訓(xùn)練子集,得到N個訓(xùn)練子集;
對于每個訓(xùn)練子集通過支持向量機SVM深度分類算法進行學(xué)習(xí),得到N個基分類器;
將所述N個基分類器通過集成學(xué)習(xí)方法得到組合分類器。
本發(fā)明與現(xiàn)有技術(shù)相比,具有的優(yōu)點為:能夠判斷詞項對之間的關(guān)系是否為is-a關(guān)系,并且改進目前的信息抽取技術(shù),使其更加適應(yīng)于農(nóng)業(yè)領(lǐng)域,提高了水果品種名稱識別與抽取的準(zhǔn)確率。
附圖說明
圖1為本發(fā)明基于篇章信息的中文水果品種信息抽取方法原理示意圖;
圖2為本發(fā)明基于篇章信息的中文水果品種信息抽取方法中訓(xùn)練測試階段示意圖。
具體實施方式
下面結(jié)合附圖和實施例,對本發(fā)明的具體實施方式作進一步詳細描述。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
圖1為本發(fā)明基于篇章信息的中文水果品種信息抽取方法原理示意圖。所述方法包括:
步驟1,獲取語料,在百度網(wǎng)站中爬取下載與水果相關(guān)的百度百科頁面,具體包括:
在百度網(wǎng)站中查詢水果相關(guān)網(wǎng)頁,利用網(wǎng)絡(luò)爬蟲爬取下載與水果相關(guān)的百度百科頁面;
步驟2,對所述與水果相關(guān)的百度百科頁面進行人工語料標(biāo)注,具體包括:
對于所述每個與水果相關(guān)的百度百科頁面,人工標(biāo)注出每個水果品種名稱與其所屬的水果大類名稱(給定的28種水果大類名稱)的關(guān)系,每個標(biāo)注信息記錄為三元組:(水果大類名稱,水果品種名稱,is-a關(guān)系),共標(biāo)注213篇水果相關(guān)百度百科詞條頁面,其中100篇詞條網(wǎng)頁有水果品種信息;
可選地,對所述與水果相關(guān)的百度百科頁面進行語料標(biāo)注采用工具標(biāo)注的方式。
步驟3,對所述百度百科頁面進行詞項對提取,將所述詞項對分為訓(xùn)練語料和測試語料,具體包括:
對所述每個與水果相關(guān)的百度百科頁面進行基于語言結(jié)構(gòu)的詞項對<上位詞、下位詞>提取;
所述詞項對提取結(jié)果隨機被分為訓(xùn)練語料和測試語料;
其中,對于所述訓(xùn)練語料,若其包含人工標(biāo)注的得到的水果品種名稱,則這個語料為正樣本,共520個,否則,這個語料為負(fù)樣本,共2357個;
步驟4,對所述語料進行基于篇章結(jié)構(gòu)的遠距離特征提取,具體包括:
對所述詞項對提取得到的語料,
若上位詞與下位詞在同一標(biāo)題下,且在同一段落中,則這組實例選擇其父節(jié)點所在句以及其子節(jié)點所在句作為特征信息;
若上位詞與下位詞在同一標(biāo)題下,但不在同一段落中,則這組實例選擇其父節(jié)點所在句、其子節(jié)點所在句、父子節(jié)點中間的所有段落的首句和尾句作為特征信息;
若上位詞與下位詞不在同一標(biāo)題下,則這組實例選擇其父節(jié)點所在句、其子節(jié)點所在句、父子節(jié)點中間的所有標(biāo)題作為特征信息。
對所述語料進行普適化特征提取,具體步驟為:
利用所述訓(xùn)練語料中的人工標(biāo)注語料,構(gòu)建一個水果品種庫;
將該組訓(xùn)練語料特征中已在庫內(nèi)的水果品種名稱替換為“品種”兩個字;
步驟5,利用所述訓(xùn)練語料特征訓(xùn)練一個基于深度學(xué)習(xí)的組合分類器,具體包括:
負(fù)樣本總數(shù)約是正樣本總數(shù)的N(比如等于6)倍,在訓(xùn)練階段,負(fù)樣本隨機被分成N組;
每組的負(fù)樣本和正樣本組合成一個訓(xùn)練語料子集,每個訓(xùn)練語料子集中的樣本分布均衡,得到N個訓(xùn)練子集;
利用所述的一個訓(xùn)練語料子集通過SVM模型利用深度學(xué)習(xí)方法生成一個基分類器,進行N次后N個訓(xùn)練子集得到N個基分類器,將所述N個基分類器進行組合即得到組合分類器;
步驟6,利用所述基于深度學(xué)習(xí)的組合分類器從所述測試語料中抽取水果品種信息,具體包括:
利用所述N個基分類器對測試語料進行分類得到N個分類結(jié)果;
按照多數(shù)投票制(若票數(shù)1:1則標(biāo)簽設(shè)為“0”)對所述N個分類結(jié)果進行投票,投票結(jié)果作為該測試文檔的最終分類結(jié)果:如果是“1”,所述測試文檔是一個“is-a”關(guān)系;如果是“0”,所述測試文檔是一個非“is-a”關(guān)系。
圖2為本發(fā)明基于篇章信息的中文水果品種信息抽取方法中訓(xùn)練測試階段示意圖。圖中,分為訓(xùn)練階段和測試階段兩個階段。這兩個階段的具體過程如上述步驟S5、S6所述。
步驟7,將所述與水果相關(guān)的百度百科頁面隨機分為N組,進行N次實驗,最終綜合評價,作為實驗最終評估結(jié)果,具體包括:
因為由于實驗語料規(guī)模較小,為消除測試集數(shù)據(jù)的特殊性,故將所述得到的與水果相關(guān)的百度百科頁面隨機分為N(比如等于6)組,重復(fù)以上所述過程,進行N次實驗,最終綜合評價,得到實驗最終評估結(jié)果。
為了檢測本發(fā)明公開的基于篇章信息的中文水果品種信息抽取方法的有效性,本專利對不同的三種特征提取方法:Basic features、Topic-structure-based features、Document-level features分別進行實驗,并進行實驗結(jié)果比較,如表1所示。Precision of positive label、Recall of positive label、F1of positive label分別代表正樣本的查準(zhǔn)率、查全率和F值,Precision of negative label、Recall of negative label、F1of negative label分別代表負(fù)樣本的查準(zhǔn)率、查全率和F值,Average F1綜合F中綜合考慮兩類字詞識別效果,由F1和F0取平均得到,Accuracy代表正確率。
表1
由表1中第二列和第三列比較可知,Topic-structure-based features特征提取方法在正樣本的各項評價指標(biāo)上都明顯提高,其中Recall of positive label提高86.5%,F(xiàn)1of positive label值提高53.0%,整體來看,Average F1提高23.8%。這表明采用Topic-structure-based features方法提取的特征更有效,同時降低了特征維度,能發(fā)現(xiàn)更有意義的潛在的變量,幫助對數(shù)據(jù)產(chǎn)生更深入的了解。由表1中第三列和第四列比較可得,Document-level features特征提取方法在正樣本的各項評價指標(biāo)上也均有提高,其中Precision of positive label提高1.9%,Recall of positive label提高1.1%,F(xiàn)1of positive label值提高1.2%。同時Document-level features特征提取方法在負(fù)樣本的各項評價指標(biāo)上也均有提高,其中Recall of negative label提高0.8%,Recall of negative label值提高0.6%,整體來看,F(xiàn)1of negative label提高0.9%,Accuracy提高了0.9%。這表明采用Document-level features方法提取的特征更有效。
同時對比了傳統(tǒng)的SVM分類模型和基于集成方法的SVM分類模型的分類效果,實驗結(jié)果分別如表2和表3所示。+、-分別代表正負(fù)實例樣本實驗結(jié)果,Precision、Recall、F1分別代表查準(zhǔn)率、查全率和F值,Average F1綜合F中綜合考慮兩類字詞識別效果,由F1和F0取平均得到,Accuracy代表正確率。
表2
表3
通過表2和表3比較得知,綜合來看,相比傳統(tǒng)的SVM分類模型,基于SVM集成學(xué)習(xí)的分類模型在各項評價指標(biāo)上都有所提高,其中Average F1提高4.2%,Accuracy提高2.5%。這表明集成學(xué)習(xí)方法可以有效解決數(shù)據(jù)分布中的不平衡問題問題。具體而言,對正樣本來說,相比傳統(tǒng)的SVM分類模型,基于SVM集成學(xué)習(xí)的分類模型Precision提高了7.3%,Recall提高了3%,F(xiàn)1提高了6.6%。對負(fù)樣本來說,相比基線狀態(tài),基于SVM集成學(xué)習(xí)的分類模型Precision提高了0.5%,Recall提高了2.5%,F(xiàn)1提高了1.6%。所以從比較結(jié)果可以看出,相比傳統(tǒng)的SVM分類模型,基于SVM集成學(xué)習(xí)的分類模型在各方面的效果都有明顯提高。
從以上兩種比較結(jié)果可以看出,本發(fā)明中基于SVM集成學(xué)習(xí)的分類模型在各方面都有很大的優(yōu)勢,可以自動地較準(zhǔn)確地實現(xiàn)對水果品種名稱的信息抽取。
最后,本申請的方法僅為較佳的實施方案,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。