一種基于篇章信息的中文水果品種信息抽取方法及裝置與流程

文檔序號：11155012閱讀：495來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及自然語言處理領(lǐng)域，更具體地，涉及基于篇章信息的中文水果品種信息抽取方法及裝置。

背景技術(shù)：

隨著中國農(nóng)產(chǎn)品電商的發(fā)展，農(nóng)產(chǎn)品知識庫的構(gòu)建和完善對于農(nóng)產(chǎn)品的管理極為重要。我國水果產(chǎn)業(yè)經(jīng)過80年代中期至90年代中后期的快速發(fā)展，成為種植業(yè)中僅次于糧食和蔬菜的第三大產(chǎn)業(yè)，在農(nóng)業(yè)及國民經(jīng)濟中占有非常重要的地位。相比糧食和蔬菜，水果物種更多，種植區(qū)域性更強，國家標(biāo)準(zhǔn)管理更松散，因此水果知識庫的構(gòu)建和完善更有難度。

我國農(nóng)作物種質(zhì)資源研究工作取得了顯著成績，建立了國家農(nóng)作物種質(zhì)資源數(shù)據(jù)庫、中國作物種質(zhì)信息網(wǎng)等種質(zhì)資源庫。雖然種質(zhì)資源數(shù)據(jù)庫含有水果品種名稱信息，但是這些水果品種名稱信息過于學(xué)術(shù)化，不符合面向銷售的水果農(nóng)產(chǎn)品管理的需要，因此需要構(gòu)建通俗性的水果知識庫。

要達到以上目的，要進行信息抽取，信息抽取又包括：專有名詞識別和關(guān)系識別。目前的英文專有名詞識別技術(shù)已經(jīng)達到了較高的水平，有些系統(tǒng)已經(jīng)實用化。其中，詞項提取主要是利用效果較好的英文詞法分析結(jié)果進行提??；詞項分類可以視為一種特殊的is-a關(guān)系識別，主要采用關(guān)系識別技術(shù)。而中文專有名詞識別比英文難度更大，其原因是詞項提取需要依賴中文分詞。由于領(lǐng)域(包括農(nóng)業(yè))詞匯大多是詞庫外詞(Out-Of-Vocabulary，OOV詞)，而OOV詞的識別一直是中文分詞的研究難點，因此面向農(nóng)業(yè)領(lǐng)域的中文詞項提取效果不佳。因此，中文專有名詞的識別尚需進一步的研究。

當(dāng)前大多數(shù)關(guān)系識別研究只是關(guān)注句子內(nèi)的關(guān)系實例(即判斷句子內(nèi)出現(xiàn)的兩個實體是否存在特定關(guān)系)，其特征提取往往是針對句子內(nèi)的文本進行。而在網(wǎng)絡(luò)百科的詞條描述中，水果品種關(guān)系實例經(jīng)常是跨句乃至跨段的。這種遠距離的關(guān)系識別意味著其特征提取往往針對更大范圍的文本進行，更容易產(chǎn)生帶噪音的特征信息。

技術(shù)實現(xiàn)要素：

本發(fā)明要解決的技術(shù)問題是改進現(xiàn)有的信息抽取技術(shù)，使其能夠更好的應(yīng)用于農(nóng)業(yè)領(lǐng)域，能夠從網(wǎng)絡(luò)中自動識別出水果品種的相關(guān)信息，構(gòu)建通俗性的水果知識庫，解決現(xiàn)有的種質(zhì)資源庫中的水果品種名稱信息過于學(xué)術(shù)化，不符合面向銷售的水果農(nóng)產(chǎn)品管理需要的問題。

一方面，本發(fā)明提出一種基于篇章信息的中文水果品種信息抽取方法，所述方法包括：

步驟S1，獲取語料；

步驟S2，標(biāo)注語料；

步驟S3，對與水果相關(guān)的頁面進行詞項對提取，將詞項對分為訓(xùn)練語料和測試語料；對所述語料進行基于篇章結(jié)構(gòu)的遠距離特征提??；

步驟S4，利用訓(xùn)練語料特征訓(xùn)練得到基于深度學(xué)習(xí)的組合分類器，利用組合分類器從測試語料中抽取水果品種信息；

步驟S5，將與水果相關(guān)的頁面隨機分為N組，重復(fù)執(zhí)行步驟S1至S4N次，獲得評估結(jié)果。

進一步地，所述步驟S1，具體包括：

獲取語料，在百度網(wǎng)站中查詢水果相關(guān)網(wǎng)頁，利用網(wǎng)絡(luò)爬蟲爬取下載與水果相關(guān)的百度百科頁面。

進一步地，所述步驟S2，具體包括：

對于所述與水果相關(guān)的頁面，人工標(biāo)注出每個水果品種名稱、所屬的水果大類名稱的關(guān)系，將每個標(biāo)注信息記錄為三元組：水果大類名稱、水果品種名稱、is-a關(guān)系；

進一步地，所述步驟S3中詞項對提取，具體包括：

對所述與水果相關(guān)的頁面進行基于語言結(jié)構(gòu)的詞項對<上位詞、下位詞>提??；

詞項對提取結(jié)果隨機被分為訓(xùn)練語料和測試語料；

對于所述訓(xùn)練語料，若其包含標(biāo)注的水果品種名稱，則語料為正樣本，否則，語料為負(fù)樣本。

進一步地，所述步驟S3中對所述語料進行基于篇章結(jié)構(gòu)的遠距離特征提取，具體包括：

對詞項對提取得到的語料，

若上位詞與下位詞在同一標(biāo)題下，且在同一段落中，則選擇其父節(jié)點所在句以及其子節(jié)點所在句作為特征信息；

若上位詞與下位詞在同一標(biāo)題下，但不在同一段落中，則選擇其父節(jié)點所在句、其子節(jié)點所在句、父子節(jié)點中間的所有段落的首句和尾句作為特征信息；

若上位詞與下位詞不在同一標(biāo)題下，則選擇其父節(jié)點所在句、其子節(jié)點所在句、父子節(jié)點中間的所有標(biāo)題作為特征信息。

進一步地，所述步驟S4中利用訓(xùn)練語料特征訓(xùn)練得到基于深度學(xué)習(xí)的組合分類器，具體包括：

負(fù)樣本語料數(shù)量為正樣本語料的N倍；

將所述負(fù)樣本語料分為N組，每組負(fù)樣本語料同正樣本語料為一個訓(xùn)練子集，得到N個訓(xùn)練子集；

對于每個訓(xùn)練子集通過支持向量機SVM深度分類算法進行學(xué)習(xí)，得到N個基分類器；

將所述N個基分類器通過集成學(xué)習(xí)方法得到組合分類器。

進一步地，所述步驟S4中利用組合分類器從測試語料中抽取水果品種信息，具體包括：

對訓(xùn)練語料中的每個測試實例，一個基分類器分類得到一個標(biāo)簽，N個基分類器得到N個分類標(biāo)簽，按照多數(shù)投票制進行投票，投票結(jié)果作為該測試實例的最終分類標(biāo)簽，最終分類標(biāo)簽為1的測試實例為is-a關(guān)系，最終分類標(biāo)簽為0的測試實例為非is-a關(guān)系，若票數(shù)1:1則標(biāo)簽為0。

另一方面，本發(fā)明提出一種基于篇章信息的中文水果品種信息抽取裝置，所述裝置包括：

獲取單元，用于獲取語料，在搜索引擎網(wǎng)站爬取下載與水果相關(guān)的頁面；

標(biāo)注單元，用于對所述與水果相關(guān)的頁面進行語料標(biāo)注；

特征提取單元，用于對所述與水果相關(guān)的頁面進行詞項對提取，將詞項對分為訓(xùn)練語料和測試語料；對所述語料進行基于篇章結(jié)構(gòu)的遠距離特征提取；

訓(xùn)練單元，用于利用訓(xùn)練語料特征訓(xùn)練得到基于深度學(xué)習(xí)的組合分類器；

測試單元，用于利用組合分類器從測試語料中抽取水果品種信息；

評估單元，用于將與水果相關(guān)的頁面隨機分為N組，重復(fù)執(zhí)行如權(quán)利要求1所述的步驟S1至S4N次，獲得評估結(jié)果。

進一步地，所述特征提取單元包括：

特征提取子單元，用于：

對所述詞項對提取得到的語料，

若上位詞與下位詞在同一標(biāo)題下，且在同一段落中，則選擇其父節(jié)點所在句以及其子節(jié)點所在句作為特征信息；

若上位詞與下位詞不在同一標(biāo)題下，則選擇其父節(jié)點所在句、其子節(jié)點所在句、父子節(jié)點中間的所有標(biāo)題作為特征信息。

進一步地，所述訓(xùn)練單元包括：

訓(xùn)練子單元，用于：

設(shè)置負(fù)樣本語料數(shù)量為正樣本語料的N倍；

將所述負(fù)樣本語料分為N組，每組負(fù)樣本語料同正樣本語料為一個訓(xùn)練子集，得到N個訓(xùn)練子集；

對于每個訓(xùn)練子集通過支持向量機SVM深度分類算法進行學(xué)習(xí)，得到N個基分類器；

將所述N個基分類器通過集成學(xué)習(xí)方法得到組合分類器。

本發(fā)明與現(xiàn)有技術(shù)相比，具有的優(yōu)點為：能夠判斷詞項對之間的關(guān)系是否為is-a關(guān)系，并且改進目前的信息抽取技術(shù)，使其更加適應(yīng)于農(nóng)業(yè)領(lǐng)域，提高了水果品種名稱識別與抽取的準(zhǔn)確率。

附圖說明

圖1為本發(fā)明基于篇章信息的中文水果品種信息抽取方法原理示意圖；

圖2為本發(fā)明基于篇章信息的中文水果品種信息抽取方法中訓(xùn)練測試階段示意圖。

具體實施方式

下面結(jié)合附圖和實施例，對本發(fā)明的具體實施方式作進一步詳細描述。以下實施例用于說明本發(fā)明，但不用來限制本發(fā)明的范圍。

圖1為本發(fā)明基于篇章信息的中文水果品種信息抽取方法原理示意圖。所述方法包括：

步驟1，獲取語料，在百度網(wǎng)站中爬取下載與水果相關(guān)的百度百科頁面，具體包括：

在百度網(wǎng)站中查詢水果相關(guān)網(wǎng)頁，利用網(wǎng)絡(luò)爬蟲爬取下載與水果相關(guān)的百度百科頁面；

步驟2，對所述與水果相關(guān)的百度百科頁面進行人工語料標(biāo)注，具體包括：

對于所述每個與水果相關(guān)的百度百科頁面，人工標(biāo)注出每個水果品種名稱與其所屬的水果大類名稱(給定的28種水果大類名稱)的關(guān)系，每個標(biāo)注信息記錄為三元組：(水果大類名稱，水果品種名稱，is-a關(guān)系)，共標(biāo)注213篇水果相關(guān)百度百科詞條頁面，其中100篇詞條網(wǎng)頁有水果品種信息；

可選地，對所述與水果相關(guān)的百度百科頁面進行語料標(biāo)注采用工具標(biāo)注的方式。

步驟3，對所述百度百科頁面進行詞項對提取，將所述詞項對分為訓(xùn)練語料和測試語料，具體包括：

對所述每個與水果相關(guān)的百度百科頁面進行基于語言結(jié)構(gòu)的詞項對<上位詞、下位詞>提取；

所述詞項對提取結(jié)果隨機被分為訓(xùn)練語料和測試語料；

其中，對于所述訓(xùn)練語料，若其包含人工標(biāo)注的得到的水果品種名稱，則這個語料為正樣本，共520個，否則，這個語料為負(fù)樣本，共2357個；

步驟4，對所述語料進行基于篇章結(jié)構(gòu)的遠距離特征提取，具體包括：

對所述詞項對提取得到的語料，

若上位詞與下位詞在同一標(biāo)題下，且在同一段落中，則這組實例選擇其父節(jié)點所在句以及其子節(jié)點所在句作為特征信息；

若上位詞與下位詞在同一標(biāo)題下，但不在同一段落中，則這組實例選擇其父節(jié)點所在句、其子節(jié)點所在句、父子節(jié)點中間的所有段落的首句和尾句作為特征信息；

若上位詞與下位詞不在同一標(biāo)題下，則這組實例選擇其父節(jié)點所在句、其子節(jié)點所在句、父子節(jié)點中間的所有標(biāo)題作為特征信息。

對所述語料進行普適化特征提取，具體步驟為：

利用所述訓(xùn)練語料中的人工標(biāo)注語料，構(gòu)建一個水果品種庫；

將該組訓(xùn)練語料特征中已在庫內(nèi)的水果品種名稱替換為“品種”兩個字；

步驟5，利用所述訓(xùn)練語料特征訓(xùn)練一個基于深度學(xué)習(xí)的組合分類器，具體包括：

負(fù)樣本總數(shù)約是正樣本總數(shù)的N(比如等于6)倍，在訓(xùn)練階段，負(fù)樣本隨機被分成N組；

每組的負(fù)樣本和正樣本組合成一個訓(xùn)練語料子集，每個訓(xùn)練語料子集中的樣本分布均衡，得到N個訓(xùn)練子集；

利用所述的一個訓(xùn)練語料子集通過SVM模型利用深度學(xué)習(xí)方法生成一個基分類器，進行N次后N個訓(xùn)練子集得到N個基分類器，將所述N個基分類器進行組合即得到組合分類器；

步驟6，利用所述基于深度學(xué)習(xí)的組合分類器從所述測試語料中抽取水果品種信息，具體包括：

利用所述N個基分類器對測試語料進行分類得到N個分類結(jié)果；

按照多數(shù)投票制(若票數(shù)1:1則標(biāo)簽設(shè)為“0”)對所述N個分類結(jié)果進行投票，投票結(jié)果作為該測試文檔的最終分類結(jié)果：如果是“1”，所述測試文檔是一個“is-a”關(guān)系；如果是“0”，所述測試文檔是一個非“is-a”關(guān)系。

圖2為本發(fā)明基于篇章信息的中文水果品種信息抽取方法中訓(xùn)練測試階段示意圖。圖中，分為訓(xùn)練階段和測試階段兩個階段。這兩個階段的具體過程如上述步驟S5、S6所述。

步驟7，將所述與水果相關(guān)的百度百科頁面隨機分為N組，進行N次實驗，最終綜合評價，作為實驗最終評估結(jié)果，具體包括：

因為由于實驗語料規(guī)模較小，為消除測試集數(shù)據(jù)的特殊性，故將所述得到的與水果相關(guān)的百度百科頁面隨機分為N(比如等于6)組，重復(fù)以上所述過程，進行N次實驗，最終綜合評價，得到實驗最終評估結(jié)果。

為了檢測本發(fā)明公開的基于篇章信息的中文水果品種信息抽取方法的有效性，本專利對不同的三種特征提取方法：Basic features、Topic-structure-based features、Document-level features分別進行實驗，并進行實驗結(jié)果比較，如表1所示。Precision of positive label、Recall of positive label、F1of positive label分別代表正樣本的查準(zhǔn)率、查全率和F值，Precision of negative label、Recall of negative label、F1of negative label分別代表負(fù)樣本的查準(zhǔn)率、查全率和F值，Average F1綜合F中綜合考慮兩類字詞識別效果，由F1和F0取平均得到，Accuracy代表正確率。

表1

由表1中第二列和第三列比較可知，Topic-structure-based features特征提取方法在正樣本的各項評價指標(biāo)上都明顯提高，其中Recall of positive label提高86.5％，F(xiàn)1of positive label值提高53.0％，整體來看，Average F1提高23.8％。這表明采用Topic-structure-based features方法提取的特征更有效，同時降低了特征維度，能發(fā)現(xiàn)更有意義的潛在的變量，幫助對數(shù)據(jù)產(chǎn)生更深入的了解。由表1中第三列和第四列比較可得，Document-level features特征提取方法在正樣本的各項評價指標(biāo)上也均有提高，其中Precision of positive label提高1.9％，Recall of positive label提高1.1％，F(xiàn)1of positive label值提高1.2％。同時Document-level features特征提取方法在負(fù)樣本的各項評價指標(biāo)上也均有提高，其中Recall of negative label提高0.8％，Recall of negative label值提高0.6％，整體來看，F(xiàn)1of negative label提高0.9％，Accuracy提高了0.9％。這表明采用Document-level features方法提取的特征更有效。

同時對比了傳統(tǒng)的SVM分類模型和基于集成方法的SVM分類模型的分類效果，實驗結(jié)果分別如表2和表3所示。+、-分別代表正負(fù)實例樣本實驗結(jié)果，Precision、Recall、F1分別代表查準(zhǔn)率、查全率和F值，Average F1綜合F中綜合考慮兩類字詞識別效果，由F1和F0取平均得到，Accuracy代表正確率。

表2

表3

通過表2和表3比較得知，綜合來看，相比傳統(tǒng)的SVM分類模型，基于SVM集成學(xué)習(xí)的分類模型在各項評價指標(biāo)上都有所提高，其中Average F1提高4.2％，Accuracy提高2.5％。這表明集成學(xué)習(xí)方法可以有效解決數(shù)據(jù)分布中的不平衡問題問題。具體而言，對正樣本來說，相比傳統(tǒng)的SVM分類模型，基于SVM集成學(xué)習(xí)的分類模型Precision提高了7.3％，Recall提高了3％，F(xiàn)1提高了6.6％。對負(fù)樣本來說，相比基線狀態(tài)，基于SVM集成學(xué)習(xí)的分類模型Precision提高了0.5％，Recall提高了2.5％，F(xiàn)1提高了1.6％。所以從比較結(jié)果可以看出，相比傳統(tǒng)的SVM分類模型，基于SVM集成學(xué)習(xí)的分類模型在各方面的效果都有明顯提高。

從以上兩種比較結(jié)果可以看出，本發(fā)明中基于SVM集成學(xué)習(xí)的分類模型在各方面都有很大的優(yōu)勢，可以自動地較準(zhǔn)確地實現(xiàn)對水果品種名稱的信息抽取。

最后，本申請的方法僅為較佳的實施方案，并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進等，均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳瑛;程碧霄;程曦瑤;
技術(shù)所有人：中國農(nóng)業(yè)大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

高檔水果種植新品種相關(guān)技術(shù)

水果品種種植相關(guān)技術(shù)

特種種植新品種水果相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于篇章信息的中文水果品種信息抽取方法及裝置與流程