中國(guó)作者所發(fā)英文文獻(xiàn)的作者機(jī)構(gòu)信息抽取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及從文本中進(jìn)行信息抽取的技術(shù)與方法,特別涉及一種根據(jù)作者機(jī)構(gòu)的中文名稱進(jìn)行準(zhǔn)確檢索和統(tǒng)計(jì)其英文文獻(xiàn)的方法。
【背景技術(shù)】
[0002]Web of Science (簡(jiǎn)稱 W0S)是美國(guó) Thomson Scientific 公司基于 WEB 開(kāi)發(fā)的一個(gè)數(shù)據(jù)庫(kù)產(chǎn)品,包括三大引文庫(kù)(SC1、SSCI和A&HCI)和兩個(gè)化學(xué)數(shù)據(jù)庫(kù)(CCR、1C)。世界各國(guó)科研人員發(fā)表的各領(lǐng)域的優(yōu)秀學(xué)術(shù)論文多被該數(shù)據(jù)庫(kù)收錄,許多學(xué)者也以該數(shù)據(jù)庫(kù)收錄論文的多少作為衡量自己水平的標(biāo)志之一。Engineering Index (簡(jiǎn)稱EI)是另一個(gè)著名的文獻(xiàn)數(shù)據(jù)庫(kù)檢索系統(tǒng),它主要收錄工程技術(shù)領(lǐng)域的文獻(xiàn)。
[0003]在WOS或EI等文獻(xiàn)數(shù)據(jù)庫(kù)中,機(jī)構(gòu)名稱包含在地址信息中,它們所收錄的中國(guó)學(xué)者的文章,在著錄上存在不規(guī)范的現(xiàn)象,地址信息著錄問(wèn)題尤為突出。這給國(guó)內(nèi)的學(xué)者檢索和利用數(shù)據(jù)庫(kù)中的文章帶來(lái)了很大的障礙,導(dǎo)致檢索結(jié)果不準(zhǔn)確,出現(xiàn)漏檢、重檢和誤檢等問(wèn)題。
[0004]英文文獻(xiàn)機(jī)構(gòu)規(guī)范在下列四種場(chǎng)合有重要價(jià)值:
[0005]1、文獻(xiàn)查閱者在查找英文文獻(xiàn)的過(guò)程中,會(huì)按照作者機(jī)構(gòu)字段進(jìn)行檢索,獲取某一機(jī)構(gòu)發(fā)表的所有文章。
[0006]2、以某機(jī)構(gòu)名為檢索關(guān)鍵詞進(jìn)行檢索是進(jìn)行文獻(xiàn)統(tǒng)計(jì)的最重要的檢索策略之一,國(guó)內(nèi)的很多單位,包括政府決策和教育主管部門也將WOS或EI等數(shù)據(jù)庫(kù)中所收錄的論文數(shù)作為評(píng)判各機(jī)構(gòu)的科研實(shí)力和科研人員績(jī)效的重要指標(biāo)。在對(duì)機(jī)構(gòu)進(jìn)行考核評(píng)價(jià)時(shí),需要查找該機(jī)構(gòu)的科研人員發(fā)表的所有文章。
[0007]3、不同的機(jī)構(gòu)之間進(jìn)行評(píng)比時(shí),需要統(tǒng)計(jì)不同機(jī)構(gòu)各自在WOS或EI等數(shù)據(jù)庫(kù)中的發(fā)文量,需要對(duì)機(jī)構(gòu)名稱進(jìn)行規(guī)范、區(qū)分。
[0008]4、文獻(xiàn)查閱者在下載下來(lái)所需的文獻(xiàn)題錄信息后,會(huì)查看文章的發(fā)文機(jī)構(gòu),并可能需要根據(jù)機(jī)構(gòu)信息進(jìn)行分類管理。
[0009]目前對(duì)英文文獻(xiàn)機(jī)構(gòu)名稱不規(guī)范的研究,都集中在如何通過(guò)構(gòu)造檢索式來(lái)避免機(jī)構(gòu)名稱不規(guī)范造成的影響,以及不規(guī)范現(xiàn)象的原因及其改善,沒(méi)有學(xué)者討論如何把不規(guī)范的機(jī)構(gòu)名稱通過(guò)技術(shù)處理轉(zhuǎn)變?yōu)橐?guī)范的機(jī)構(gòu)名稱。
【發(fā)明內(nèi)容】
[0010]本發(fā)明的目的是提供一種抽取和處理英文文獻(xiàn)中中國(guó)作者的機(jī)構(gòu)信息,并將其用于檢索的方法,以提高相關(guān)檢索的查全率和查準(zhǔn)率。
[0011]本發(fā)明解決上述技術(shù)問(wèn)題的技術(shù)方案是:
[0012]一種中國(guó)作者所發(fā)英文文獻(xiàn)的作者機(jī)構(gòu)信息抽取方法,用于從英文文獻(xiàn)庫(kù)中抽取中國(guó)作者所在機(jī)構(gòu)的中文名稱信息,其特征是,包括以下步驟:
[0013]步驟一:利用網(wǎng)絡(luò)爬蟲(chóng)從英文文獻(xiàn)庫(kù)中獲取中國(guó)作者發(fā)表的所有相關(guān)英文論文的題錄息;
[0014]步驟二:從獲取的題錄信息中抽取出論文題目、作者機(jī)構(gòu)信息和發(fā)表時(shí)間三項(xiàng)內(nèi)容;
[0015]步驟三:對(duì)作者機(jī)構(gòu)信息進(jìn)行處理,將其對(duì)應(yīng)到作者機(jī)構(gòu)的標(biāo)準(zhǔn)中文名稱,具體包括以下步驟:
[0016]3.1)將同一條題錄信息中的不同機(jī)構(gòu)分成多個(gè)機(jī)構(gòu)條目,分別進(jìn)行以下處理;
[0017]3.2)根據(jù)機(jī)構(gòu)條目中包含的地址信息進(jìn)行判斷,如果屬于中國(guó)的機(jī)構(gòu),繼續(xù)進(jìn)行后面的處理,否則舍棄該條記錄;
[0018]3.3)對(duì)機(jī)構(gòu)條目進(jìn)行數(shù)據(jù)處理,刪除掉機(jī)構(gòu)條目中包含的作者名稱等無(wú)關(guān)信息;根據(jù)保存同義詞映射關(guān)系的數(shù)據(jù)字典對(duì)數(shù)據(jù)進(jìn)行同義轉(zhuǎn)換;
[0019]3.4)按照“大學(xué)”〉“科學(xué)院”〉“其他”的優(yōu)先級(jí)順序,抽取機(jī)構(gòu)名稱;
[0020]3.5)通過(guò)搜索引擎獲取作者機(jī)構(gòu)的標(biāo)準(zhǔn)英文名稱;
[0021]3.6)通過(guò)搜索引擎或機(jī)器翻譯工具將標(biāo)準(zhǔn)英文名稱翻譯為對(duì)應(yīng)的中文名稱;
[0022]步驟四:將抽取出的論文題目、發(fā)表時(shí)間,以及機(jī)構(gòu)的標(biāo)準(zhǔn)中文名稱保存到自建的數(shù)據(jù)庫(kù)中,以供后續(xù)查詢和統(tǒng)計(jì)使用。
[0023]優(yōu)選的:
[0024]所述的信息抽取方法,其特征是,步驟一中,根據(jù)學(xué)科門類或主題領(lǐng)域,從外文文獻(xiàn)數(shù)據(jù)庫(kù)中檢索出中國(guó)作者發(fā)表的英文論文,再利用所述的文獻(xiàn)數(shù)據(jù)庫(kù)系統(tǒng)提供的下載功能將這些論文的題錄信息下載下來(lái)。
[0025]所述的信息抽取方法,其特征是,步驟3.4)中,對(duì)機(jī)構(gòu)條目進(jìn)行分類,針對(duì)不同類別使用不同的數(shù)據(jù)處理方法,通過(guò)匹配特定的關(guān)鍵詞,去除機(jī)構(gòu)條目中包含的機(jī)構(gòu)下屬部門信息,最后抽取出機(jī)構(gòu)名稱。
[0026]所述的信息抽取方法,其特征是,步驟3.5)中,將機(jī)構(gòu)條目處理結(jié)果中的縮寫補(bǔ)充為全稱;將補(bǔ)全后的結(jié)果輸入搜索引擎中進(jìn)行搜索,抓取搜索結(jié)果的標(biāo)題,獲得機(jī)構(gòu)標(biāo)準(zhǔn)英文名稱。
[0027]所述的信息抽取方法,其特征是,步驟3.6)中,將所得到的機(jī)構(gòu)標(biāo)準(zhǔn)英文名稱輸入搜索引擎中進(jìn)行檢索,抓取搜索結(jié)果中各條記錄的標(biāo)題,獲取機(jī)構(gòu)的標(biāo)準(zhǔn)中文名稱;若無(wú)法得到中文機(jī)構(gòu)名稱,則將所得到的機(jī)構(gòu)標(biāo)準(zhǔn)英文名稱進(jìn)行機(jī)器翻譯,將翻譯結(jié)果作為機(jī)構(gòu)的標(biāo)準(zhǔn)中文名稱。
[0028]所述的信息抽取方法,其特征是,定時(shí)執(zhí)行步驟一至步驟四,已保證自建的數(shù)據(jù)庫(kù)中所保存的抽取信息的及時(shí)性。
[0029]所述的信息抽取方法,其特征是,步驟3.5)和3.6)中,利用搜索引擎進(jìn)行信息獲取時(shí),使用機(jī)器學(xué)習(xí)中的加權(quán)投票方法,將通過(guò)多個(gè)不同的搜索引擎檢索得到的結(jié)果進(jìn)行加權(quán),選取權(quán)重最大的結(jié)果。
[0030]所述的信息抽取方法,其特征是,選取三個(gè)搜索引擎:G00gle、百度、搜搜;G00gle檢索出的前3條記錄的權(quán)重分別定義為5、3和1,百度檢索出前3條記錄的權(quán)重分別定義為3、2和1,搜搜檢索出的前3條記錄的權(quán)重分別定義為2、I和1,最后計(jì)算不同結(jié)果的權(quán)重,選取權(quán)重最大的結(jié)果。
[0031]本發(fā)明還提供一種中國(guó)科研機(jī)構(gòu)所發(fā)英文文獻(xiàn)的信息檢索方法,其特征是,在所述的信息抽取方法的基礎(chǔ)上,進(jìn)一步包括:
[0032]步驟五:用戶通過(guò)輸入機(jī)構(gòu)的中文名稱從自建的數(shù)據(jù)庫(kù)中檢索出所發(fā)表的論文信肩、O
[0033]本發(fā)明還提供一種中國(guó)科研機(jī)構(gòu)所發(fā)英文文獻(xiàn)的信息統(tǒng)計(jì)方法,其特征是,在所述的信息抽取方法的基礎(chǔ)上,進(jìn)一步包括:
[0034]步驟五:從自建的數(shù)據(jù)庫(kù)中,統(tǒng)計(jì)出指定時(shí)間段內(nèi)各機(jī)構(gòu)的發(fā)文數(shù)量。
[0035]所述的信息統(tǒng)計(jì)方法,其特征是,將統(tǒng)計(jì)結(jié)果按照發(fā)文數(shù)量進(jìn)行排序。
[0036]本發(fā)明從英文文獻(xiàn)題錄信息中獲取作者機(jī)構(gòu)信息,并通過(guò)一定的處理方法與技術(shù)將這些機(jī)構(gòu)信息進(jìn)行處理,最終利用多種網(wǎng)絡(luò)搜索引擎得到這些發(fā)文機(jī)構(gòu)的標(biāo)準(zhǔn)中英文名稱。利用本發(fā)明所述的方法,在很大程度上保證了檢索結(jié)果的準(zhǔn)確性,并免去了手動(dòng)查詢、核對(duì)機(jī)構(gòu)信息的過(guò)程。通過(guò)本發(fā)明,用戶可以對(duì)機(jī)構(gòu)所發(fā)表的英文文獻(xiàn)信息進(jìn)行查詢和統(tǒng)計(jì),具有很高的查全率和準(zhǔn)確率。
【附圖說(shuō)明】
[0037]圖1是本發(fā)明所述的信息抽取方法的流程圖。
[0038]圖2是本發(fā)明為獲得標(biāo)準(zhǔn)英文機(jī)構(gòu)名稱使用搜索引擎檢索示意圖。
[0039]圖3是本發(fā)明為獲得標(biāo)準(zhǔn)中文機(jī)構(gòu)名稱使用搜索引擎檢索示意圖。
【具體實(shí)施方式】
[0040]如圖1所示,本發(fā)明方法流程是:
[0041]步驟一:利用網(wǎng)絡(luò)爬蟲(chóng)從英文文獻(xiàn)庫(kù)中獲取中國(guó)作者發(fā)表的所有相關(guān)英文論文的題錄信息。所述的網(wǎng)絡(luò)爬蟲(chóng)是一種按照一定的規(guī)則,能自動(dòng)抓取萬(wàn)維網(wǎng)信息的程序或者腳本。
[0042](I)根據(jù)學(xué)科門類或主題領(lǐng)域,構(gòu)造檢索式檢索出中國(guó)作者發(fā)表的英文論文,現(xiàn)在文獻(xiàn)數(shù)據(jù)庫(kù)的高級(jí)檢索中都提供有國(guó)家檢索入口,按照國(guó)家為“Peoples R China”進(jìn)行檢索即可。再利用文獻(xiàn)數(shù)據(jù)庫(kù)系統(tǒng)提供的下載功能將這些論文的題錄信息下載下來(lái),下載的格式通常選擇“全記錄”,以方便后面的抽取。
[0043]步驟二:從獲取的題錄信息中抽取出論文題目、機(jī)構(gòu)信息和發(fā)表時(shí)間三個(gè)字段的內(nèi)容。不同的文獻(xiàn)數(shù)據(jù)庫(kù)下載得到的數(shù)據(jù)格式不同,但其中每一個(gè)字段都有相應(yīng)的字段標(biāo)識(shí),按照相應(yīng)的標(biāo)識(shí)抽取出論文題目、機(jī)構(gòu)信息和發(fā)表時(shí)間。例如在Web of Science數(shù)據(jù)庫(kù)(簡(jiǎn)稱W0S)中,“TI”標(biāo)識(shí)文獻(xiàn)標(biāo)題,即論文題目,“Cl”標(biāo)識(shí)作者地址,內(nèi)含作者機(jī)構(gòu)信息,“PD”標(biāo)識(shí)出版日期,等。
[0044]步驟三:對(duì)作者機(jī)構(gòu)信息進(jìn)行處理,對(duì)應(yīng)到機(jī)構(gòu)標(biāo)準(zhǔn)的中文名稱。
[0045](I)同一篇文獻(xiàn)可能有多個(gè)作者,對(duì)應(yīng)多個(gè)不同的機(jī)構(gòu),將同一條題錄信息中的不同機(jī)構(gòu)分成多個(gè)機(jī)構(gòu)條目,分別進(jìn)行以下處理。
[0046](2)根據(jù)機(jī)構(gòu)條目中包含的地址信息進(jìn)行判斷,如果屬于中國(guó)的機(jī)構(gòu),繼續(xù)進(jìn)行后續(xù)的處理,否則舍棄該機(jī)構(gòu)條目。
[0047](3)對(duì)機(jī)構(gòu)條目進(jìn)行數(shù)據(jù)處理。刪除其中的無(wú)用信息,如作者名稱和地址信息等。其中,所述的地址信息是指:國(guó)家、省份、城市和郵編等,例如:12th Gua