文獻(xiàn)元數(shù)據(jù)的并行下載方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文獻(xiàn)元數(shù)據(jù)下載技術(shù)領(lǐng)域,具體涉及一種面向WebScience數(shù)據(jù)庫(kù)的文獻(xiàn)元數(shù)據(jù)的并行下載方法及裝置。
【背景技術(shù)】
[0002]WebScience數(shù)據(jù)庫(kù)是目前國(guó)際上最權(quán)威的論文數(shù)據(jù)庫(kù)(即SCI數(shù)據(jù)庫(kù)),是國(guó)內(nèi)外用于學(xué)術(shù)交流、成果評(píng)價(jià)、科研現(xiàn)狀分析以及學(xué)科方向預(yù)測(cè)的最主要信息來(lái)源。目前國(guó)際WebScience論文以每天近6000篇的速度增長(zhǎng),如何從中及時(shí)獲取專業(yè)信息,掌握學(xué)科發(fā)展的熱點(diǎn)已經(jīng)成為科學(xué)研宄的前提條件。這種需求一方面來(lái)自于我國(guó)400多萬(wàn)科研工作者進(jìn)行文章寫(xiě)作、學(xué)術(shù)專著編寫(xiě)、科研項(xiàng)目申請(qǐng)以及科研獎(jiǎng)項(xiàng)的申報(bào);另一方面來(lái)源于1100多個(gè)大學(xué)圖書(shū)館和8000多個(gè)專業(yè)科技圖書(shū)館進(jìn)行科研實(shí)力競(jìng)爭(zhēng)評(píng)價(jià)、學(xué)科分析日常業(yè)務(wù)。然而,在對(duì)WebScience文獻(xiàn)分析的實(shí)踐中,所用到的基礎(chǔ)信息就是海量的文獻(xiàn)元數(shù)據(jù)信息,這些信包含了文獻(xiàn)的各類情報(bào)數(shù)據(jù)(如作者、關(guān)鍵詞、摘要、學(xué)科方向、發(fā)表雜志、研宄機(jī)構(gòu)等二十余項(xiàng)信息)。目前,操作者對(duì)從WebScience數(shù)據(jù)庫(kù)檢索出的文獻(xiàn)進(jìn)行手工下載時(shí),一次只能對(duì)一個(gè)用戶的檢索需求進(jìn)行下載,更為麻煩的是,由于web of science數(shù)據(jù)庫(kù)對(duì)每次下載的文獻(xiàn)數(shù)目進(jìn)行了限制(即一次最多只能下載并導(dǎo)出500條文獻(xiàn)相關(guān)信息),因此如果文獻(xiàn)超過(guò)500條,則只能進(jìn)行另一次操作。以一次熟練的操作需要60秒計(jì)算,10000篇文獻(xiàn)的下載就需要1200秒,即20分鐘。除了時(shí)間效率問(wèn)題之外,更加困擾用戶的問(wèn)題就是因引文下載程序的復(fù)雜而導(dǎo)致下載文獻(xiàn)存在一定程度錯(cuò)誤率。據(jù)有關(guān)統(tǒng)計(jì),對(duì)于無(wú)經(jīng)驗(yàn)的操作者,文獻(xiàn)下載的錯(cuò)誤率超過(guò)10%,而對(duì)于熟練的操作者也有1-3%的錯(cuò)誤率。若要對(duì)錯(cuò)誤進(jìn)行檢查則需要花費(fèi)比下載更多的時(shí)間成本。
[0003]下面以在web of science網(wǎng)站上檢索并下載圖1所示的期刊2010年-2014年所有的文獻(xiàn)元數(shù)據(jù)為例對(duì)從WebScience數(shù)據(jù)庫(kù)手工下載文獻(xiàn)的過(guò)程進(jìn)行詳細(xì)說(shuō)明。
[0004]整個(gè)過(guò)程分為下面6個(gè)步驟。
[0005]第一步,確定下載期刊或文獻(xiàn)檢索式(關(guān)鍵詞的組合、發(fā)表時(shí)間、作者等信息與期刊目錄結(jié)合共同成為文獻(xiàn)下載的檢索式)。
[0006]第二步,輸入檢索式。在本例中,以期刊Journal of geographical sciences為例輸入圖2所示的檢索界面中的檢索式,點(diǎn)擊檢索界面的“檢索”按鈕進(jìn)行文獻(xiàn)檢索,檢索結(jié)果如圖3所不。
[0007]第三步,在圖4所示的界面中選擇所要下載文獻(xiàn)記錄以及其元數(shù)據(jù)類型,將檢索結(jié)果下載至本地,下載的文獻(xiàn)檢索信息包含的內(nèi)容如圖5所示。
[0008]第四步:點(diǎn)擊發(fā)送鍵,將結(jié)果保存為文件。
[0009]第五步:當(dāng)一次檢索的文獻(xiàn)超出500篇而需要連續(xù)下載時(shí),則必須在上一次下載的基礎(chǔ)上修改參數(shù)(如圖4所示的界面中的“記錄”編輯框需要改為501-1000);與此同時(shí),由于系統(tǒng)給出的文件全部采用缺省文件名,因此,當(dāng)下載的文獻(xiàn)數(shù)目超過(guò)500個(gè)而需要多個(gè)文件進(jìn)行保存時(shí),則需要手動(dòng)修改文件名。最終下載完成結(jié)果如圖6所示。
[0010]第六步:當(dāng)需要另開(kāi)始一項(xiàng)下載任務(wù)時(shí),則需要重新打開(kāi)Web Science以更新下載的SID號(hào),并重復(fù)上述步驟。
[0011]正是由于WebScience數(shù)據(jù)的限制,使得對(duì)該數(shù)據(jù)的下載仍依賴人工操作,不僅操作流程復(fù)雜,極容易出錯(cuò),同時(shí)耗時(shí)耗力,在下載的文獻(xiàn)量較大時(shí)給分析的時(shí)效性和準(zhǔn)確性帶來(lái)很大的壓力。
【發(fā)明內(nèi)容】
[0012]本發(fā)明的目的在于,提供一種面向WebScience數(shù)據(jù)庫(kù)的文獻(xiàn)元數(shù)據(jù)的并行下載方法及裝置,能夠解決現(xiàn)有技術(shù)耗時(shí)耗力和容易出錯(cuò)的問(wèn)題。
[0013]為此目的,一方面,本發(fā)明提出一種面向WebScience數(shù)據(jù)庫(kù)的文獻(xiàn)元數(shù)據(jù)的并行下載方法,包括:
[0014]自動(dòng)建立用于文獻(xiàn)元數(shù)據(jù)下載的多個(gè)會(huì)話;
[0015]解析用戶輸入的檢索式,獲取所述檢索式對(duì)應(yīng)的檢索請(qǐng)求信息,通過(guò)將所述檢索式對(duì)應(yīng)的檢索請(qǐng)求信息發(fā)送給服務(wù)器,獲取所述服務(wù)器返回的檢索id和所述檢索id下的文獻(xiàn)的文獻(xiàn)編號(hào);
[0016]根據(jù)任務(wù)量,自動(dòng)為各個(gè)會(huì)話分配所述檢索id下的文獻(xiàn)的文獻(xiàn)編號(hào);
[0017]通過(guò)所述各個(gè)會(huì)話并行下載所述用戶輸入的檢索式所對(duì)應(yīng)的文獻(xiàn)元數(shù)據(jù)。
[0018]另一方面,本發(fā)明提出一種面向WebScience數(shù)據(jù)庫(kù)的文獻(xiàn)元數(shù)據(jù)的并行下載裝置,包括:
[0019]會(huì)話建立單元,用于自動(dòng)建立用于文獻(xiàn)元數(shù)據(jù)下載的多個(gè)會(huì)話;
[0020]獲取單元,用于解析用戶輸入的檢索式,獲取所述檢索式對(duì)應(yīng)的檢索請(qǐng)求信息,通過(guò)將所述檢索式對(duì)應(yīng)的檢索請(qǐng)求信息發(fā)送給服務(wù)器,獲取所述服務(wù)器返回的檢索id和所述檢索id下的文獻(xiàn)的文獻(xiàn)編號(hào);
[0021]分配單元,用于根據(jù)任務(wù)量,自動(dòng)為各個(gè)會(huì)話分配所述檢索id下的文獻(xiàn)的文獻(xiàn)編號(hào);
[0022]下載單元,用于通過(guò)所述各個(gè)會(huì)話并行下載所述用戶輸入的檢索式所對(duì)應(yīng)的文獻(xiàn)元數(shù)據(jù)。
[0023]本發(fā)明實(shí)施例所述的面向WebScience數(shù)據(jù)庫(kù)的文獻(xiàn)元數(shù)據(jù)的并行下載方法及裝置,將下載任務(wù)劃分給多個(gè)會(huì)話,通過(guò)所述多個(gè)會(huì)話并行下載用戶需要下載的文獻(xiàn)元數(shù)據(jù),因而能夠提高文獻(xiàn)元數(shù)據(jù)的下載速度,節(jié)省人力成本,同時(shí),當(dāng)用戶確定好檢索式后,整個(gè)過(guò)程都不需要在服務(wù)器頁(yè)面上進(jìn)行人工交互,從而達(dá)到文獻(xiàn)元數(shù)據(jù)的檢索、下載過(guò)程自動(dòng)化、并行化,極大地提高了文獻(xiàn)元數(shù)據(jù)下載的準(zhǔn)確率。
【附圖說(shuō)明】
[0024]圖1為一實(shí)施例中用戶要下載的期刊的示意圖;
[0025]圖2為一實(shí)施例中用戶輸入的檢索式的示意圖;
[0026]圖3為對(duì)圖2所示的檢索式進(jìn)行檢索的檢索結(jié)果的示意圖;
[0027]圖4為一實(shí)施例中選擇所要下載的文獻(xiàn)記錄以及其元數(shù)據(jù)類型的界面的示意圖;
[0028]圖5為一實(shí)施例中下載的文獻(xiàn)包含的內(nèi)容的示意圖;
[0029]圖6為一實(shí)施例中文獻(xiàn)下載結(jié)果的示意圖;
[0030]圖7為本發(fā)明面向WebScience數(shù)據(jù)庫(kù)的文獻(xiàn)元數(shù)據(jù)的并行下載方法一實(shí)施例的流程示意圖;
[0031]圖8為本發(fā)明面向WebScience數(shù)據(jù)庫(kù)的文獻(xiàn)元數(shù)據(jù)的并行下載裝置一實(shí)施例的方框結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0032]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0033]如圖7所示,本實(shí)施例公開(kāi)一種面向WebScience數(shù)據(jù)庫(kù)的文獻(xiàn)元數(shù)據(jù)的并行下載方法,包括:
[0034]S1、自動(dòng)建立用于文獻(xiàn)元數(shù)據(jù)下載的多個(gè)會(huì)話;
[0035]S2、解析用戶輸入的檢索式,獲取所述檢索式對(duì)應(yīng)的檢索請(qǐng)求信息,通過(guò)將所述檢索式對(duì)應(yīng)的檢索請(qǐng)求信息發(fā)送給服務(wù)器,獲取所述服務(wù)器返回的檢索id和所述檢索id下的文獻(xiàn)的文獻(xiàn)編號(hào);
[0036]S3、根據(jù)任務(wù)量,自動(dòng)為各個(gè)會(huì)話分配所述檢索id下的文獻(xiàn)的文獻(xiàn)編號(hào);
[0037]S4、通過(guò)所述各個(gè)會(huì)話并行下載所述用戶輸入的檢索式所對(duì)應(yīng)的文獻(xiàn)元數(shù)據(jù)。
[0038]本發(fā)明實(shí)施例所述的面向WebScience數(shù)據(jù)庫(kù)的文獻(xiàn)元數(shù)據(jù)的并行下載方法,將下載任務(wù)劃分給多個(gè)會(huì)話,通過(guò)所述多個(gè)會(huì)話并行下載用戶需要下載的文獻(xiàn)元數(shù)據(jù),因而能夠提高文獻(xiàn)元數(shù)據(jù)的下載速度,節(jié)省人力成本,同時(shí),當(dāng)用戶確定好檢索式后,整個(gè)過(guò)程都不需要在服務(wù)器頁(yè)面上進(jìn)行人工交互,從而達(dá)到文獻(xiàn)元數(shù)據(jù)的檢索、下載過(guò)程自動(dòng)化、并行化,極大地提高了文獻(xiàn)元數(shù)據(jù)下載的準(zhǔn)確率。
[0039]可選地,在本發(fā)明面向WebScience數(shù)據(jù)庫(kù)的文獻(xiàn)元數(shù)據(jù)的并行下載方法的另一實(shí)施例中,所述解析用戶輸入的檢索式,獲取所述檢索式對(duì)應(yīng)的檢索請(qǐng)求信息,通過(guò)將所述檢索式對(duì)應(yīng)的檢索請(qǐng)求信息發(fā)送給服務(wù)器,獲取所述服務(wù)器返回的檢索id和所述檢索id下的文獻(xiàn)的文獻(xiàn)編號(hào),包括:
[0040]獲取用戶輸入的檢索式,通過(guò)將所述檢索式加入預(yù)設(shè)的檢索請(qǐng)求信息模板的對(duì)應(yīng)