亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種自動提取論文引用內(nèi)容及對應(yīng)文后參考文獻(xiàn)的方法和系統(tǒng)與流程

文檔序號:11234049閱讀:2380來源:國知局

本發(fā)明涉及自動提取論文引用內(nèi)容及對應(yīng)文后參考文獻(xiàn)的方法和系統(tǒng)技術(shù)領(lǐng)域,具體為一種自動提取論文引用內(nèi)容及對應(yīng)文后參考文獻(xiàn)的方法和系統(tǒng)。



背景技術(shù):

論文引用內(nèi)容抽取指從論文中抽取出引用了其他參考文獻(xiàn)的內(nèi)容,其屬于信息抽取技術(shù)范疇,隨著科學(xué)技術(shù)的發(fā)展,作為科學(xué)研究成果代表的論文數(shù)量也在不斷增長,對海量論文進(jìn)行碎片化,知識化處理,從中發(fā)掘出深層次內(nèi)容信息成為文獻(xiàn)計量學(xué)領(lǐng)域的迫切需求,碎片化處理指根據(jù)需求從論文中抽取出相應(yīng)內(nèi)容,如研究對象,研究背景,引用內(nèi)容等等,由于論文的引用關(guān)系反映了科學(xué)技術(shù)發(fā)展傳承的過程,同時為評價論文提供了真實可靠的客觀標(biāo)準(zhǔn),因此在碎片化的整體需求中,提取引用內(nèi)容顯得尤為重要,另一方面,傳統(tǒng)的文獻(xiàn)計量學(xué)對于引用關(guān)系的研究局限于被引頻次,題錄信息等淺層信息,也需要進(jìn)一步深入到引用內(nèi)容層次進(jìn)行分析,可見,對論文引用內(nèi)容的抽取具有重要意義,論文相對于其他語料,具有行文格式較為規(guī)范的特點,特別是對于參考文獻(xiàn)的引用,更是需要遵循一定規(guī)則,如gb/t7714-2005《文后參考文獻(xiàn)著錄規(guī)則》以國標(biāo)的形式規(guī)定了引用文后參考文獻(xiàn)的著錄方法,因此目前有關(guān)引用內(nèi)容抽取的研究一般使用基于規(guī)則的方法,中科院聲學(xué)所韋向峰等人提出根據(jù)標(biāo)志符”[]”,”()”以及其中連接符號”,”,”-”判斷論文中是否存在引用,并抽取出引用內(nèi)容的方法,在基于規(guī)則的抽取方法中,根據(jù)抽取對象特點,設(shè)計合理抽取規(guī)則是算法核心所在,韋向峰的方法利用了引用內(nèi)容最明顯的標(biāo)志,然而并沒有全面分析引用存在的不同形式,設(shè)計的抽取規(guī)則并不完善,也沒有通過大規(guī)模語料驗證算法,因此不能保證抽取的全面完整,在算法中,也沒有提到如何對引用內(nèi)容和其所引用的參考文獻(xiàn)進(jìn)行對應(yīng),除了自動抽取外,目前也有一些研究者采用手工方法進(jìn)行引用內(nèi)容抽取,手工方法通過人工閱讀論文,判斷文中的引用標(biāo)志,抽取出引用內(nèi)容,并將其與文后所引用的參考文獻(xiàn)對應(yīng),如何榮立等人對于引用內(nèi)容的研究采用人工方法,手工提取了300篇不同類型論文中包含的引用內(nèi)容,很明顯,這樣的方法雖然簡單明了,然而費時費力,不能實現(xiàn)大規(guī)模的抽取目前文獻(xiàn)計量學(xué)領(lǐng)域研究引用關(guān)系只利用論文的引用次數(shù),文獻(xiàn)題錄等信息,沒有從論文中提取出引用內(nèi)容信息以及進(jìn)行更深層的分析利用,也沒有一套完整全面從論文中提取出引用內(nèi)容的系統(tǒng)方法。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于提供一種自動提取論文引用內(nèi)容及對應(yīng)文后參考文獻(xiàn)的方法和系統(tǒng),以解決上述背景技術(shù)中提出的問題。

為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種自動提取論文引用內(nèi)容及對應(yīng)文后參考文獻(xiàn)的方法和系統(tǒng),包括以下步驟:

步驟一:從rec文本中提取論文正文內(nèi)容,提取部分為‘<正文>=’標(biāo)簽后至下一個標(biāo)簽‘<>=’之間內(nèi)容,提取正則表達(dá)式如,‘<全文>=(,*?)<\d*>’;

步驟二:正文分句,對步驟一中提取出的正文內(nèi)容進(jìn)行分句,分句符號為中文句號‘。’和英文句號‘,’,由于英文句號與數(shù)學(xué)小數(shù)點,e,g等特殊符號相同,故設(shè)計如下分步處理方法,依次通過三個正則表達(dá)式來判斷是否應(yīng)當(dāng)分句,‘(?!\d\,\))(?!\d\,\])(?!l\,,)(?!e\,g)(?![a-z]\,\d)(\d\,(?!@)\d)’,‘(?!e\,\d)(?!g\,\d)(\d\,(?!@)\d)’,‘?!?;

步驟三:抽取引用內(nèi)容,在步驟二分句的基礎(chǔ)上,從其中抽取出含有順序編碼制引用方式的句子,通過對大量數(shù)據(jù)分析,論文中順序編碼制可能包括如下幾種格式(1)純數(shù)字[1],(2)連接號分隔[1-3],(3)其他符號分隔[1~3][1~3],(4)逗號及混合方式[1,2][1,2-4],[1,2~4],對于以上格式,分別設(shè)計正則表達(dá)式規(guī)則抽取,(1)‘\[(\d+)\]',(2)‘\[(\d+-\d+)\]’,(3)‘\[(\d+~\d+)\]’‘\[(\d+~\d+)\]’,(4)‘\[(\d+,,*?\d+)\]’,符合以上正則表達(dá)式的句子被抽取出作為引用內(nèi)容;

步驟四:獲取引用內(nèi)容中參考文獻(xiàn)標(biāo)號,在步驟三中四種格式的基礎(chǔ)上,解析所對應(yīng)的參考文獻(xiàn)標(biāo)號,如[1]對應(yīng)1,[1,2-4]對應(yīng)1,2,3,4;

步驟五:對應(yīng)文后參考文獻(xiàn),通過步驟四中獲取的引用內(nèi)容中參考文獻(xiàn)標(biāo)號,與文后參考文獻(xiàn)序號對應(yīng),由于文后參考文獻(xiàn)可能存在如下三種形式,(1)方括號[1],(2)圓括號(1),(3)只有數(shù)字無括號1,故根據(jù)以上三種形式設(shè)計對應(yīng)正則表達(dá)式如,'\['+‘num’+'\]'‘num’'\('+‘num’+'\)',按上述正則表達(dá)式首先在引文字段搜索參考文獻(xiàn)序號,如果沒有,則在正文末尾部分搜索參考文獻(xiàn)序號,完成引文內(nèi)容與文后參考文獻(xiàn)的對應(yīng)。

優(yōu)選的,步驟一中,rec文本是本方法研究處理的論文格式,rec格式文本在每篇論文開頭標(biāo)志<rec>,此后論文中相關(guān)字段以‘<標(biāo)簽>=’形式標(biāo)出,如,<rec><標(biāo)題>=乒乓球教育的反思<全文>=乒乓球是我國全民普及率非常高的運動項目,在我國有著非常廣的群眾基礎(chǔ),就運動項目本身來說,乒乓球運動…,<引文>=。

優(yōu)選的,在步驟四中,引用內(nèi)容指論文正文中包含有順序編碼制參考文獻(xiàn)引用方式的句子,句子的分隔符號為中英文句號,參考文獻(xiàn)是論文正文后以順序編碼方式列出的被引用文獻(xiàn)及相關(guān)信息,不包括尾注,腳注等其他形式。

與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:該發(fā)明使用三組規(guī)則對論文句子進(jìn)行切分,有效解決了英文句號的歧義問題,為后續(xù)抽取工作打下良好基礎(chǔ),多規(guī)則引用內(nèi)容抽取方法,在研究大規(guī)模論文數(shù)據(jù)的基礎(chǔ)上,分析了四種不同的引用方式,并針對這些引用方式制定了抽取規(guī)則,處理論文數(shù)量達(dá)到百萬篇級別,準(zhǔn)確率和召回率分別達(dá)到83.5%,95.7%,無論是分析規(guī)模還是抽取性能,都優(yōu)于現(xiàn)有技術(shù),文后參考文獻(xiàn)對應(yīng)方法,本申請所使用參考文獻(xiàn)對應(yīng)方法不但能在引文字段上完成對應(yīng),如引文字段空缺,還可以在全文中進(jìn)行對應(yīng),三種對應(yīng)規(guī)則確保了較好的對應(yīng)效果。

附圖說明

圖1為本發(fā)明系統(tǒng)流程示意圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。

實施例:

請參閱圖1,本發(fā)明提供一種技術(shù)方案:一種自動提取論文引用內(nèi)容及對應(yīng)文后參考文獻(xiàn)的方法和系統(tǒng),包括以下步驟:

步驟一:從rec文本中提取論文正文內(nèi)容,提取部分為‘<正文>=’標(biāo)簽后至下一個標(biāo)簽‘<>=’之間內(nèi)容,提取正則表達(dá)式如,‘<全文>=(,*?)<\d*>’,rec文本是本方法研究處理的論文格式,rec格式文本在每篇論文開頭標(biāo)志<rec>,此后論文中相關(guān)字段以‘<標(biāo)簽>=’形式標(biāo)出,如,<rec><標(biāo)題>=乒乓球教育的反思<全文>=乒乓球是我國全民普及率非常高的運動項目,在我國有著非常廣的群眾基礎(chǔ),就運動項目本身來說,乒乓球運動…,<引文>=;

步驟二:正文分句,對步驟一中提取出的正文內(nèi)容進(jìn)行分句,分句符號為中文句號‘?!陀⑽木涮枴?,’,由于英文句號與數(shù)學(xué)小數(shù)點,e,g等特殊符號相同,故設(shè)計如下分步處理方法,依次通過三個正則表達(dá)式來判斷是否應(yīng)當(dāng)分句,‘(?!\d\,\))(?!\d\,\])(?!l\,,)(?!e\,g)(?![a-z]\,\d)(\d\,(?!@)\d)’,‘(?!e\,\d)(?!g\,\d)(\d\,(?!@)\d)’,‘?!?;

步驟三:抽取引用內(nèi)容,在步驟二分句的基礎(chǔ)上,從其中抽取出含有順序編碼制引用方式的句子,通過對大量數(shù)據(jù)分析,論文中順序編碼制可能包括如下幾種格式(1)純數(shù)字[1],(2)連接號分隔[1-3],(3)其他符號分隔[1~3][1~3],(4)逗號及混合方式[1,2][1,2-4],[1,2~4],對于以上格式,分別設(shè)計正則表達(dá)式規(guī)則抽取,(1)‘\[(\d+)\]',(2)‘\[(\d+-\d+)\]’,(3)‘\[(\d+~\d+)\]’‘\[(\d+~\d+)\]’,(4)‘\[(\d+,,*?\d+)\]’,符合以上正則表達(dá)式的句子被抽取出作為引用內(nèi)容;

步驟四:獲取引用內(nèi)容中參考文獻(xiàn)標(biāo)號,在步驟三中四種格式的基礎(chǔ)上,解析所對應(yīng)的參考文獻(xiàn)標(biāo)號,如[1]對應(yīng)1,[1,2-4]對應(yīng)1、2、3、4,引用內(nèi)容指論文正文中包含有順序編碼制參考文獻(xiàn)引用方式的句子,句子的分隔符號為中英文句號,參考文獻(xiàn)是論文正文后以順序編碼方式列出的被引用文獻(xiàn)及相關(guān)信息,不包括尾注,腳注等其他形式;

步驟五:對應(yīng)文后參考文獻(xiàn),通過步驟四中獲取的引用內(nèi)容中參考文獻(xiàn)標(biāo)號,與文后參考文獻(xiàn)序號對應(yīng),由于文后參考文獻(xiàn)可能存在如下三種形式,(1)方括號[1],(2)圓括號(1),(3)只有數(shù)字無括號1,故根據(jù)以上三種形式設(shè)計對應(yīng)正則表達(dá)式如,'\['+‘num’+'\]'‘num’'\('+‘num’+'\)',按上述正則表達(dá)式首先在引文字段搜索參考文獻(xiàn)序號,如果沒有,則在正文末尾部分搜索參考文獻(xiàn)序號,完成引文內(nèi)容與文后參考文獻(xiàn)的對應(yīng)。

盡管已經(jīng)示出和描述了本發(fā)明的實施例,對于本領(lǐng)域的普通技術(shù)人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對這些實施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同物限定。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1