本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,具體而言,本發(fā)明涉及一種團(tuán)隊(duì)信息的確定方法和一種團(tuán)隊(duì)信息的確定裝置。
背景技術(shù):
隨著科學(xué)技術(shù)的飛速發(fā)展,科學(xué)技術(shù)的分支也越來越多,而科學(xué)技術(shù)的分支交叉發(fā)展致使傳統(tǒng)的學(xué)科間界限變得越來越模糊。由于各學(xué)科之間的交叉性和滲透性達(dá)到了前所未有的程度,科研人員不僅需要獨(dú)立思考和研究,而且還需要科研團(tuán)隊(duì)的支持。
科研團(tuán)隊(duì)是指以科技研究和開發(fā)為內(nèi)容,由能夠技能互補(bǔ)并愿意為共同的科研目的和方法相互承擔(dān)責(zé)任的科研人員組成的群體。其中,科研團(tuán)隊(duì)可分為顯性科研團(tuán)隊(duì)和隱性科研團(tuán)隊(duì)。顯性科研團(tuán)隊(duì)是以固定的機(jī)構(gòu),如,課題組、實(shí)驗(yàn)室為標(biāo)準(zhǔn)而建立的科研團(tuán)隊(duì),或者是由學(xué)術(shù)組織人組織科研人員來構(gòu)成的機(jī)構(gòu)團(tuán)隊(duì)或?qū)W術(shù)團(tuán)隊(duì)。隱性科研團(tuán)隊(duì)是具有明確的研究目標(biāo)或研究方向和研究平臺,并結(jié)合已有或者存在潛在的合作基礎(chǔ)而形成的團(tuán)隊(duì)。
在現(xiàn)有技術(shù)中,科研團(tuán)隊(duì)的確定方法一般基于人工調(diào)查、采集數(shù)據(jù)來實(shí)現(xiàn),或是通過大型文獻(xiàn)數(shù)據(jù)庫建立整體網(wǎng)絡(luò)和數(shù)據(jù)挖掘算法實(shí)現(xiàn)。但是這些科研團(tuán)隊(duì)的確定方法不僅耗費(fèi)了較高的人工成本、還耗費(fèi)了大量的時間、且最后確定到的科研團(tuán)隊(duì)的結(jié)果也不夠全面。
技術(shù)實(shí)現(xiàn)要素:
為克服上述技術(shù)問題或者至少部分地解決上述技術(shù)問題,特提出以下技術(shù)方案:
本發(fā)明的一個實(shí)施例提出了一種團(tuán)隊(duì)信息的確定方法,包括:
基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息,來創(chuàng)建機(jī)構(gòu)信息庫;
基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息,并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫;
基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,針對任一著者選擇對應(yīng)于該任一著者的主題信息,來創(chuàng)建主題信息庫;
基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫,確定針對各個主題的團(tuán)隊(duì)信息庫。
優(yōu)選地,基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息,來創(chuàng)建機(jī)構(gòu)信息庫,包括:
對文本數(shù)據(jù)對應(yīng)的至少一個原始機(jī)構(gòu)名稱信息進(jìn)行名稱抽取、合并及去重處理,以確定符合預(yù)置條件的機(jī)構(gòu)名稱信息;
基于預(yù)置的規(guī)范機(jī)構(gòu)名稱信息,對已確定的機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理,并基于規(guī)范化處理后的機(jī)構(gòu)名稱信息來創(chuàng)建機(jī)構(gòu)信息庫。
優(yōu)選地,基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息,并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫,包括:
對文本數(shù)據(jù)對應(yīng)的至少一個原始著者姓名信息進(jìn)行姓名抽取、消歧及合并處理,以確定符合預(yù)置條件的著者姓名信息;
基于機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息和已確定的各個著者姓名信息,建立機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系;
基于文本數(shù)據(jù)和機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系,建立已確定的各個著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,并基于關(guān)聯(lián)關(guān)系來創(chuàng)建人員信息庫。
優(yōu)選地,基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,針對任一著者選擇對應(yīng)于該任一著者的主題信息,來創(chuàng)建主題信息庫,包括:
對文本數(shù)據(jù)進(jìn)行分詞處理,并對分詞處理得到的分詞片段的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)處理;
將各個分詞片段、分詞片段的出現(xiàn)頻率和人員信息庫中的著者姓名信息輸入到預(yù)置主題模型中,以獲取到文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息;
基于已獲取的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,通過預(yù)置選擇規(guī)則選擇出針對任一著者姓名信息的多個主題信息,以創(chuàng)建主題信息庫。
優(yōu)選地,基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫,確定針對各個主題的團(tuán)隊(duì)信息庫,包括:
基于主題信息庫中著者姓名信息與文本數(shù)據(jù)包含的主題信息之間的關(guān)聯(lián)關(guān)系,以及人員信息庫中著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)的關(guān)聯(lián)關(guān)系,建立機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系;
基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系,建立主題信息庫中針對各個主題信息對應(yīng)的機(jī)構(gòu)名稱信息的合作關(guān)系網(wǎng)絡(luò),合作關(guān)系網(wǎng)絡(luò)包括一個主題信息對應(yīng)的一個機(jī)構(gòu)名稱下多個著者姓名信息之間的關(guān)系;
針對任一合作關(guān)系網(wǎng)絡(luò)中,判斷是否存在無關(guān)聯(lián)關(guān)系的著者姓名信息;
若存在,則將無關(guān)聯(lián)關(guān)系的著者姓名信息之間建立關(guān)聯(lián)關(guān)系;
基于預(yù)置分析方式,確定一個或多個合作關(guān)系網(wǎng)絡(luò)中具有關(guān)聯(lián)關(guān)系的多個著者姓名信息,并將具有關(guān)聯(lián)關(guān)系的多個著者姓名信息作為一個團(tuán)隊(duì),以確定團(tuán)隊(duì)信息庫。
該方法還包括:
對比各個團(tuán)隊(duì)中的著者姓名信息;
基于對比結(jié)果,將包含完全相同的著者姓名信息的團(tuán)隊(duì)進(jìn)行合并。
其中,團(tuán)隊(duì)包括以下任一項(xiàng):
同機(jī)構(gòu)團(tuán)隊(duì)和/或跨機(jī)構(gòu)團(tuán)隊(duì):
同機(jī)構(gòu)團(tuán)隊(duì)為任一團(tuán)隊(duì)下所有的著者姓名信息對應(yīng)于同一個機(jī)構(gòu)名稱信息;
跨機(jī)構(gòu)團(tuán)隊(duì)為任一團(tuán)隊(duì)下的所有的著者姓名信息對應(yīng)于至少兩個科研機(jī)構(gòu)。
本發(fā)明的另一個實(shí)施例提出了一種團(tuán)隊(duì)信息的確定裝置,包括:
第一創(chuàng)建模塊,用于基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息,來創(chuàng)建機(jī)構(gòu)信息庫;
第二創(chuàng)建模塊,用于基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息,并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫;
第三創(chuàng)建模塊,用于基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,針對任一著者選擇對應(yīng)于該任一著者的主題信息,來創(chuàng)建主題信息庫;
確定模塊,用于基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫,確定針對各個主題的團(tuán)隊(duì)信息庫。
優(yōu)選地,第一創(chuàng)建模塊包括:
第一處理單元,用于對文本數(shù)據(jù)對應(yīng)的至少一個原始機(jī)構(gòu)名稱信息進(jìn)行名稱抽取、合并及去重處理,以確定符合預(yù)置條件的機(jī)構(gòu)名稱信息;
規(guī)范單元,用于基于預(yù)置的規(guī)范機(jī)構(gòu)名稱信息,對已確定的機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理,并基于規(guī)范化處理后的機(jī)構(gòu)名稱信息來創(chuàng)建機(jī)構(gòu)信息庫。
優(yōu)選地,第二創(chuàng)建模塊包括:
第二處理單元,用于對文本數(shù)據(jù)對應(yīng)的至少一個原始著者姓名信息進(jìn)行姓名抽取、消歧及合并處理,以確定符合預(yù)置條件的著者姓名信息;
第一建立單元,用于基于機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息和已確定的各個著者姓名信息,建立機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系;
第二建立單元,用于基于文本數(shù)據(jù)和機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系,建立已確定的各個著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,并基于關(guān)聯(lián)關(guān)系來創(chuàng)建人員信息庫。
優(yōu)選地,第三創(chuàng)建模塊包括:
第三處理單元,用于對文本數(shù)據(jù)進(jìn)行分詞處理,并對分詞處理得到的分詞片段的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)處理;
獲取單元,用于將各個分詞片段、分詞片段的出現(xiàn)頻率和人員信息庫中的著者姓名信息輸入到預(yù)置主題模型中,以獲取到文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息;
選擇單元,用于基于已獲取的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,通過預(yù)置選擇規(guī)則選擇出針對任一著者姓名信息的多個主題信息,以創(chuàng)建主題信息庫。
優(yōu)選地,確定模塊包括:
第三建立單元,用于基于主題信息庫中著者姓名信息與文本數(shù)據(jù)包含的主題信息之間的關(guān)聯(lián)關(guān)系,以及人員信息庫中著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)的關(guān)聯(lián)關(guān)系,建立機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系;
第四建立單元,用于基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系,建立主題信息庫中針對各個主題信息對應(yīng)的機(jī)構(gòu)名稱信息的合作關(guān)系網(wǎng)絡(luò),合作關(guān)系網(wǎng)絡(luò)包括一個主題信息對應(yīng)的一個機(jī)構(gòu)名稱下多個著者姓名信息之間的關(guān)系;
判斷單元,用于針對任一合作關(guān)系網(wǎng)絡(luò)中,判斷是否存在無關(guān)聯(lián)關(guān)系的著者姓名信息;
執(zhí)行單元,用于若存在,則將無關(guān)聯(lián)關(guān)系的著者姓名信息之間建立關(guān)聯(lián)關(guān)系;
確定單元,用于基于預(yù)置分析方式,確定一個或多個合作關(guān)系網(wǎng)絡(luò)中具有關(guān)聯(lián)關(guān)系的多個著者姓名信息,并將具有關(guān)聯(lián)關(guān)系的多個著者姓名信息作為一個團(tuán)隊(duì),以確定團(tuán)隊(duì)信息庫。
優(yōu)選地,該裝置還包括:
對比模塊,用于對比各個團(tuán)隊(duì)中的著者姓名信息;
合并模塊,用于基于對比結(jié)果,將包含完全相同的著者姓名信息的團(tuán)隊(duì)進(jìn)行合并。
優(yōu)選地,團(tuán)隊(duì)包括以下任一項(xiàng):
同機(jī)構(gòu)團(tuán)隊(duì)和/或跨機(jī)構(gòu)團(tuán)隊(duì):
同機(jī)構(gòu)團(tuán)隊(duì)為任一團(tuán)隊(duì)下所有的著者姓名信息對應(yīng)于同一個機(jī)構(gòu)名稱信息;
跨機(jī)構(gòu)團(tuán)隊(duì)為任一團(tuán)隊(duì)下的所有的著者姓名信息對應(yīng)于至少兩個科研機(jī)構(gòu)。
本發(fā)明的技術(shù)方案中,基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息,來創(chuàng)建機(jī)構(gòu)信息庫;基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息,并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫;基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,針對任一著者選擇對應(yīng)于該任一著者的主題信息,來創(chuàng)建主題信息庫;基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫,確定針對各個主題的團(tuán)隊(duì)信息庫,能夠準(zhǔn)確地、全面地確定團(tuán)隊(duì)信息,且減少人工確定團(tuán)隊(duì)信息的較高成本,縮減人工確定團(tuán)隊(duì)信息的時間;同時當(dāng)文本數(shù)據(jù)被更新時,團(tuán)隊(duì)信息也可以及時被更新,避免造成已確定的團(tuán)隊(duì)信息不完整且團(tuán)隊(duì)中的著者姓名信息也不完整的情況發(fā)生。
本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
附圖說明
本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得明顯和容易理解,其中:
圖1為本發(fā)明一個實(shí)施例的團(tuán)隊(duì)信息的確定方法的流程示意圖;
圖2為本發(fā)明中的一個優(yōu)選實(shí)施例的創(chuàng)建機(jī)構(gòu)信息庫的流程示意圖;
圖3為本發(fā)明中的另一個優(yōu)選實(shí)施例的創(chuàng)建人員信息庫的流程示意圖;
圖4為本發(fā)明中的又一個優(yōu)選實(shí)施例的創(chuàng)建主題信息庫的流程示意圖;
圖5為本發(fā)明中的再一個優(yōu)選實(shí)施例的確定團(tuán)隊(duì)信息庫的流程示意圖;
圖6為本發(fā)明中的再一個優(yōu)選實(shí)施例的針對任一存在無關(guān)聯(lián)關(guān)系的著者姓名信息的合作關(guān)系網(wǎng)絡(luò)的示意圖;
圖7為本發(fā)明中的再一個優(yōu)選實(shí)施例的團(tuán)隊(duì)類型的示意圖;
圖8為本發(fā)明中的再一個優(yōu)選實(shí)施例的同機(jī)構(gòu)團(tuán)隊(duì)的示意圖;
圖9為本發(fā)明中的再一個優(yōu)選實(shí)施例的跨機(jī)構(gòu)團(tuán)隊(duì)的示意圖;
圖10為本發(fā)明中的另一個優(yōu)選實(shí)施例的團(tuán)隊(duì)信息的確定裝置的結(jié)構(gòu)框架示意圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個或更多個相關(guān)聯(lián)的列出項(xiàng)的全部或任一單元和全部組合。
本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語),具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語,應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會用理想化或過于正式的含義來解釋。
圖1為本發(fā)明一個實(shí)施例的團(tuán)隊(duì)信息的確定方法的流程示意圖。
需要說明的是,本實(shí)施例的執(zhí)行主體是應(yīng)用程序。
步驟s101:基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息,來創(chuàng)建機(jī)構(gòu)信息庫;步驟s102:基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息,并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫;步驟s103:基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,針對任一著者選擇對應(yīng)于該任一著者的主題信息,來創(chuàng)建主題信息庫;步驟s104:基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫,確定針對各個主題的團(tuán)隊(duì)信息庫。
本發(fā)明的技術(shù)方案中,基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息,來創(chuàng)建機(jī)構(gòu)信息庫;基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息,并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫;基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,針對任一著者選擇對應(yīng)于該任一著者的主題信息,來創(chuàng)建主題信息庫;基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫,確定針對各個主題的團(tuán)隊(duì)信息庫,能夠準(zhǔn)確地、全面地確定團(tuán)隊(duì)信息,且減少人工確定團(tuán)隊(duì)信息的較高成本,縮減人工確定團(tuán)隊(duì)信息的時間;同時當(dāng)文本數(shù)據(jù)被更新時,團(tuán)隊(duì)信息也可以及時被更新,避免造成已確定的團(tuán)隊(duì)信息不完整且團(tuán)隊(duì)中的著者姓名信息也不完整的情況發(fā)生。
以下針對各個步驟的具體實(shí)現(xiàn)做進(jìn)一步的說明:
步驟s101:基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息,來創(chuàng)建機(jī)構(gòu)信息庫。
其中,文本數(shù)據(jù)包括但不限于:論文數(shù)據(jù)、專利申請數(shù)據(jù)、專利數(shù)據(jù)。
具體地,基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息,來創(chuàng)建機(jī)構(gòu)信息庫的步驟,包括:對文本數(shù)據(jù)對應(yīng)的至少一個原始機(jī)構(gòu)名稱信息進(jìn)行名稱抽取、合并及去重處理,以確定符合預(yù)置條件的機(jī)構(gòu)名稱信息;基于預(yù)置的規(guī)范機(jī)構(gòu)名稱信息,對已確定的機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理,并基于規(guī)范化處理后的機(jī)構(gòu)名稱信息來創(chuàng)建機(jī)構(gòu)信息庫。
例如,如圖2所示,獲取預(yù)置時間內(nèi)的全部文本數(shù)據(jù),并去除重復(fù)的文本數(shù)據(jù),對去重后的每個文本數(shù)據(jù)設(shè)置標(biāo)識符,如,設(shè)置論文數(shù)據(jù)“生物制藥的現(xiàn)狀和未來的應(yīng)用”的標(biāo)識符為“001”、設(shè)置專利申請數(shù)據(jù)“2012xxxxxxxx.6,一種制藥方法”的標(biāo)識符為“002”、設(shè)置專利數(shù)據(jù)“2013xxxxxxxx.0,生物制藥的廢渣處理方法”的標(biāo)識符為“003”;抽取上述文本數(shù)據(jù)對應(yīng)的原始機(jī)構(gòu)名稱信息,如,抽取論文數(shù)據(jù)“生物制藥的現(xiàn)狀和未來”對應(yīng)的原始機(jī)構(gòu)名稱信息“xx大學(xué)xx學(xué)院”,抽取專利申請數(shù)據(jù)“2012xxxxxxxx.6,一種制藥方法”對應(yīng)的原始機(jī)構(gòu)名稱信息“xx生物科技有限公司、張x”,抽取專利數(shù)據(jù)“2013xxxxxxxx.0,生物制藥的廢渣處理方法”對應(yīng)的原始機(jī)構(gòu)名稱信息“xxxxx股份公司”;對上述論文數(shù)據(jù)、專利申請數(shù)據(jù)和專利數(shù)據(jù)對應(yīng)的至少一個原始機(jī)構(gòu)名稱信息進(jìn)行一級機(jī)構(gòu)名稱抽取,并剔除專利申請數(shù)據(jù)和專利數(shù)據(jù)對應(yīng)的所有為自然人的申請人,如,剔除“張x”;將提取到的一級機(jī)構(gòu)名稱信息進(jìn)行合并及去除重復(fù)的一級機(jī)構(gòu)名稱信息;最終確定的一級機(jī)構(gòu)名稱信息即為符合預(yù)置條件的一級機(jī)構(gòu)名稱信息,如,xx大學(xué)xx學(xué)院、xx生物科技有限公司和xxxxx股份公司;對已確定的一級機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理,若上述提取到的一級機(jī)構(gòu)名稱信息存在不規(guī)范的情況,則將該一級機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理,并基于規(guī)范化處理后的機(jī)構(gòu)名稱信息來創(chuàng)建機(jī)構(gòu)信息庫。即該機(jī)構(gòu)信息庫記錄了規(guī)范化后的一級機(jī)構(gòu)名稱信息和原始一級機(jī)構(gòu)名稱信息與規(guī)范化后的一級機(jī)構(gòu)名稱信息的映射關(guān)系。
需要說明的是,一般論文數(shù)據(jù)中對應(yīng)的機(jī)構(gòu)名稱信息可能包含二級機(jī)構(gòu)信息和一級機(jī)構(gòu)名稱信息,所以需要將一級機(jī)構(gòu)名稱信息抽取出來,以剔除二級機(jī)構(gòu)名稱信息。而專利申請數(shù)據(jù)和專利數(shù)據(jù)中對應(yīng)的申請人名稱信息或?qū)@麢?quán)人名稱信息,即對應(yīng)的機(jī)構(gòu)名稱信息,一般僅包含一級機(jī)構(gòu)名稱信息,若也包含二級機(jī)構(gòu)名稱信息則將一級機(jī)構(gòu)名稱信息抽取出來,但由于申請人名稱信息或?qū)@麢?quán)人名稱信息還可能有包含是自然人的情況,故需要將這些自然人進(jìn)行剔除。其中,一級機(jī)構(gòu)為包括但不限于,大學(xué),研究所,設(shè)計(jì)院,股份公司等;二級機(jī)構(gòu)包括但不限于,大學(xué)附屬學(xué)院,研究院附屬公司等。通過對論文數(shù)據(jù)、專利申請數(shù)據(jù)和專利數(shù)據(jù)的分析,保證了數(shù)據(jù)源的全面性和發(fā)現(xiàn)團(tuán)隊(duì)信息的全面性;且在對上述文本數(shù)據(jù)進(jìn)行預(yù)處理時不需要對單獨(dú)著者或單獨(dú)發(fā)明人的文本數(shù)據(jù)進(jìn)行剔除,從而提高了團(tuán)隊(duì)信息的完整性;同時避免了發(fā)現(xiàn)虛假的團(tuán)隊(duì)信息,確保了團(tuán)隊(duì)信息的準(zhǔn)確性。
步驟s102:基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息,并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫。
其中,著者包括:論文的作者、專利申請的發(fā)明人、專利的發(fā)明人。
具體地,基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息,并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫的步驟,包括:對文本數(shù)據(jù)對應(yīng)的至少一個原始著者姓名信息進(jìn)行姓名抽取、消歧及合并處理,以確定符合預(yù)置條件的著者姓名信息;基于機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息和已確定的各個著者姓名信息,建立機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系;基于文本數(shù)據(jù)和機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系,建立已確定的各個著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,并基于關(guān)聯(lián)關(guān)系來創(chuàng)建人員信息庫。
例如,如圖3所示,抽取上述論文數(shù)據(jù)“生物制藥的現(xiàn)狀和未來”對應(yīng)的原始著者姓名信息“謝xx,饒xx”,抽取專利申請數(shù)據(jù)“2012xxxxxxxx.6,一種制藥方法”對應(yīng)的原始著者姓名信息“張x,吳x,趙xx,王xx”,抽取專利數(shù)據(jù)“2013xxxxxxxx.0,生物制藥的廢渣處理方法”對應(yīng)的原始著者姓名信息“axx,nxx,jxx”;基于姓名消歧算法對上述抽取到的原始著者姓名信息進(jìn)行消歧,并將消歧后的著者姓名信息進(jìn)行合并;也可以先分別對抽取到的論文數(shù)據(jù)對應(yīng)的原始著者姓名信息進(jìn)行消歧和抽取到的專利申請數(shù)據(jù)和專利數(shù)據(jù)對應(yīng)的原始著者姓名信息進(jìn)行消歧,再將各自消歧后著者姓名信息進(jìn)行合并,并基于創(chuàng)建的機(jī)構(gòu)信息庫,將合并后的著者姓名信息進(jìn)行去重。最終基于得到的處理后的著者姓名信息;基于機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息和已確定的各個著者姓名信息的隸屬關(guān)系,建立機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系,如,“xx大學(xué)xx學(xué)院”對應(yīng)“謝xx,饒xx”、“xx生物科技有限公司”對應(yīng)“張x,吳x,趙xx,王xx”和“xxxxx股份公司”對應(yīng)“axx,nxx,jxx”;基于文本數(shù)據(jù)和機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系,建立已確定的各個著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,并基于關(guān)聯(lián)關(guān)系來創(chuàng)建人員信息庫,即該人員信息庫記錄了著者姓名信息、著者姓名信息對應(yīng)的發(fā)表的論文、專利申請和專利的情況,以及著者姓名信息與機(jī)構(gòu)名稱信息之間的對應(yīng)關(guān)系,如,下述表1所示:
表1
需要說明的是,著者姓名信息包括論文數(shù)據(jù)的作者姓名信息和專利申請數(shù)據(jù)和專利數(shù)據(jù)的發(fā)明人姓名信息。
步驟s103:基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,針對任一著者選擇對應(yīng)于該任一著者的主題信息,來創(chuàng)建主題信息庫。
具體地,基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,針對任一著者選擇對應(yīng)于該任一著者的主題信息,來創(chuàng)建主題信息庫的步驟,包括:對文本數(shù)據(jù)進(jìn)行分詞處理,并對分詞處理得到的分詞片段的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)處理;將各個分詞片段、分詞片段的出現(xiàn)頻率和人員信息庫中的著者姓名信息輸入到預(yù)置主題模型中,以獲取到文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息;基于已獲取的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,通過預(yù)置選擇規(guī)則選擇出針對任一著者姓名信息的多個主題信息,以創(chuàng)建主題信息庫。
例如,如圖4所示,對上述論文數(shù)據(jù)中的題目、摘要和關(guān)鍵詞與專利申請數(shù)據(jù)和專利數(shù)據(jù)中的專利申請或?qū)@拿Q、摘要和權(quán)利要求內(nèi)容進(jìn)行合并,并對合并后的文本數(shù)據(jù)進(jìn)行分詞、去除停用詞以及對得到的分詞片段的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)處理;將各個分詞片段、分詞片段的出現(xiàn)頻率和人員信息庫中的著者姓名信息輸入到at主題模型中,以獲取到at主題模型輸出的文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息;通過設(shè)定閾值條件選擇滿足閾值條件的主題信息,或選擇與著者相關(guān)聯(lián)度最高的5個主題作為一個著者的主題信息,從而創(chuàng)建主題信息庫,則該主題信息庫記錄了得到的主題信息和著者姓名信息的主題信息。
需要說明的是,本步驟能夠確定在任一主題信息下的團(tuán)隊(duì)信息,而不是只確定合作的團(tuán)隊(duì)信息,而不知道該合作的團(tuán)隊(duì)在什么方面進(jìn)行了合作,使得在任一主題信息下確定的團(tuán)隊(duì)信息相比于其它方法確定的團(tuán)隊(duì)信息更細(xì)致,對基于團(tuán)隊(duì)信息的科研管理決策更有效、更有價值。
步驟s104:基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫,確定針對各個主題的團(tuán)隊(duì)信息庫。
具體地,基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫,確定針對各個主題的團(tuán)隊(duì)信息庫的步驟,包括:基于主題信息庫中著者姓名信息與文本數(shù)據(jù)包含的主題信息之間的關(guān)聯(lián)關(guān)系,以及人員信息庫中著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)的關(guān)聯(lián)關(guān)系,建立機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系;基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系,建立主題信息庫中針對各個主題信息對應(yīng)的機(jī)構(gòu)名稱信息的合作關(guān)系網(wǎng)絡(luò),合作關(guān)系網(wǎng)絡(luò)包括一個主題信息對應(yīng)的一個機(jī)構(gòu)名稱下多個著者姓名信息之間的關(guān)系;針對任一合作關(guān)系網(wǎng)絡(luò)中,判斷是否存在無關(guān)聯(lián)關(guān)系的著者姓名信息;若存在,則將無關(guān)聯(lián)關(guān)系的著者姓名信息之間建立關(guān)聯(lián)關(guān)系;基于預(yù)置分析方式,確定一個或多個合作關(guān)系網(wǎng)絡(luò)中具有關(guān)聯(lián)關(guān)系的多個著者姓名信息,并將具有關(guān)聯(lián)關(guān)系的多個著者姓名信息作為一個團(tuán)隊(duì),以確定團(tuán)隊(duì)信息庫。
其中,團(tuán)隊(duì)包括以下任一項(xiàng):同機(jī)構(gòu)團(tuán)隊(duì)和/或跨機(jī)構(gòu)團(tuán)隊(duì):同機(jī)構(gòu)團(tuán)隊(duì)為任一團(tuán)隊(duì)下所有的著者姓名信息對應(yīng)于同一個機(jī)構(gòu)名稱信息;跨機(jī)構(gòu)團(tuán)隊(duì)為任一團(tuán)隊(duì)下的所有的著者姓名信息對應(yīng)于至少兩個科研機(jī)構(gòu)。圖7示出了為本發(fā)明中的再一個優(yōu)選實(shí)施例的團(tuán)隊(duì)類型的示意圖;圖8示出了為本發(fā)明中的再一個優(yōu)選實(shí)施例的同機(jī)構(gòu)團(tuán)隊(duì)的示意圖;圖9示出了為本發(fā)明中的再一個優(yōu)選實(shí)施例的跨機(jī)構(gòu)團(tuán)隊(duì)的示意圖。
例如,如圖5所示,基于主題信息庫中著者姓名信息與文本數(shù)據(jù)包含的主題信息之間的關(guān)聯(lián)關(guān)系,以及人員信息庫中著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)的關(guān)聯(lián)關(guān)系,建立機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系;即基于創(chuàng)建的機(jī)構(gòu)信息庫、人員信息庫和主題信息庫,確定人員信息庫與機(jī)構(gòu)信息庫的關(guān)聯(lián)關(guān)系和人員信息庫與主題信息庫的關(guān)聯(lián)關(guān)系;基于文本數(shù)據(jù)結(jié)合文本數(shù)據(jù)的標(biāo)識符或直接通過人員信息庫建立人員信息庫中著者之間的合作關(guān)系;從創(chuàng)建的主題信息庫中選擇一個主題信息,對該主題信息對應(yīng)的著者姓名信息創(chuàng)建合作關(guān)系網(wǎng)絡(luò),針對該主題信息對應(yīng)的每一個機(jī)構(gòu)名稱信息,判斷該機(jī)構(gòu)名稱信息的著者姓名信息的合作關(guān)系網(wǎng)絡(luò)判斷是否存在無關(guān)聯(lián)關(guān)系的著者姓名信息,如果存在無關(guān)聯(lián)關(guān)系的著者姓名信息,則通過增加關(guān)聯(lián)線的方式使無關(guān)聯(lián)關(guān)系的子網(wǎng)絡(luò)連通,圖6示出了本發(fā)明中的再一個優(yōu)選實(shí)施例的針對任一存在無關(guān)聯(lián)關(guān)系的著者姓名信息的合作關(guān)系網(wǎng)絡(luò)的示意圖,在增加關(guān)聯(lián)線時可分別選擇兩個無關(guān)聯(lián)的子網(wǎng)絡(luò)的任一節(jié)點(diǎn),如,圖6中的l1和l5,并將l1與l2相連,將l5與l4相連,使得該合作關(guān)系網(wǎng)絡(luò)中沒有無關(guān)系的著者姓名信息;然后利用社會網(wǎng)絡(luò)分析方法中的組元分析,獲取該下合作關(guān)系網(wǎng)絡(luò)的所有組元,每一個組元即為團(tuán)隊(duì)信息。圖8示出了為本發(fā)明中的再一個優(yōu)選實(shí)施例的同機(jī)構(gòu)團(tuán)隊(duì)的示意圖;圖9示出了為本發(fā)明中的再一個優(yōu)選實(shí)施例的跨機(jī)構(gòu)團(tuán)隊(duì)的示意圖。
需要說明的是,由于文本數(shù)據(jù)會被實(shí)時更新或者文本數(shù)據(jù)會被在預(yù)置周期內(nèi)進(jìn)行更新,則需要本方法在預(yù)置的時間內(nèi),獲取更新的文本數(shù)據(jù),即新增的文本數(shù)據(jù),并基于上述步驟s101-步驟s104的具體實(shí)施方式對更新的文本數(shù)據(jù)進(jìn)行處理,以獲取到更新的團(tuán)隊(duì)信息,使得當(dāng)文本數(shù)據(jù)被更新時,團(tuán)隊(duì)信息也可以及時被更新,避免造成已確定的團(tuán)隊(duì)信息不完整且團(tuán)隊(duì)中的著者姓名信息也不完整的情況發(fā)生。
具體地,該方法還包括:對比各個團(tuán)隊(duì)中的著者姓名信息;基于對比結(jié)果,將包含完全相同的著者姓名信息的團(tuán)隊(duì)進(jìn)行合并。
圖10為本發(fā)明中的另一個優(yōu)選實(shí)施例的團(tuán)隊(duì)信息的確定裝置的結(jié)構(gòu)框架示意圖。
第一創(chuàng)建模塊,基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息,來創(chuàng)建機(jī)構(gòu)信息庫;第二創(chuàng)建模塊,基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息,并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫;第三創(chuàng)建模塊,基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,針對任一著者選擇對應(yīng)于該任一著者的主題信息,來創(chuàng)建主題信息庫;確定模塊,基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫,確定針對各個主題的團(tuán)隊(duì)信息庫。
以下針對各個模塊的具體實(shí)現(xiàn)做進(jìn)一步的說明:
第一創(chuàng)建模塊,基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個機(jī)構(gòu)名稱信息,來創(chuàng)建機(jī)構(gòu)信息庫。
其中,文本數(shù)據(jù)包括但不限于:論文數(shù)據(jù)、專利申請數(shù)據(jù)、專利數(shù)據(jù)。
具體地,第一創(chuàng)建模塊包括:第一處理單元,對文本數(shù)據(jù)對應(yīng)的至少一個原始機(jī)構(gòu)名稱信息進(jìn)行名稱抽取、合并及去重處理,以確定符合預(yù)置條件的機(jī)構(gòu)名稱信息;規(guī)范單元,基于預(yù)置的規(guī)范機(jī)構(gòu)名稱信息,對已確定的機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理,并基于規(guī)范化處理后的機(jī)構(gòu)名稱信息來創(chuàng)建機(jī)構(gòu)信息庫。
例如,獲取預(yù)置時間內(nèi)的全部文本數(shù)據(jù),并去除重復(fù)的文本數(shù)據(jù),對去重后的每個文本數(shù)據(jù)設(shè)置標(biāo)識符,如,設(shè)置論文數(shù)據(jù)“生物制藥的現(xiàn)狀和未來”的標(biāo)識符為“001”、設(shè)置專利申請數(shù)據(jù)“2012xxxxxxxx.6,一種制藥方法”的標(biāo)識符為“002”、設(shè)置專利數(shù)據(jù)“2013xxxxxxxx.0,生物制藥的廢渣處理方法”的標(biāo)識符為“003”;第一處理單元抽取上述文本數(shù)據(jù)對應(yīng)的原始機(jī)構(gòu)名稱信息,如,抽取論文數(shù)據(jù)“生物制藥的現(xiàn)狀和未來”對應(yīng)的原始機(jī)構(gòu)名稱信息“xx大學(xué)xx學(xué)院”,抽取專利申請數(shù)據(jù)“2012xxxxxxxx.6,一種制藥方法”對應(yīng)的原始機(jī)構(gòu)名稱信息“xx生物科技有限公司、張x”,抽取專利數(shù)據(jù)“2013xxxxxxxx.0,生物制藥的廢渣處理方法”對應(yīng)的原始機(jī)構(gòu)名稱信息“xxxxx股份公司”;對上述論文數(shù)據(jù)、專利申請數(shù)據(jù)和專利數(shù)據(jù)對應(yīng)的至少一個原始機(jī)構(gòu)名稱信息進(jìn)行一級機(jī)構(gòu)名稱抽取,并剔除專利申請數(shù)據(jù)和專利數(shù)據(jù)對應(yīng)的所有為自然人的申請人,如,剔除“張x”;將抽取到的一級機(jī)構(gòu)名稱信息進(jìn)行合并及去除重復(fù)的一級機(jī)構(gòu)名稱信息;最終確定的一級機(jī)構(gòu)名稱信息即為符合預(yù)置條件的一級機(jī)構(gòu)名稱信息,如,xx大學(xué)xx學(xué)院、xx生物科技有限公司和xxxxx股份公司;規(guī)范單元對已確定的一級機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理,若上述提取到的一級機(jī)構(gòu)名稱信息存在不規(guī)范的情況,則將該一級機(jī)構(gòu)名稱信息進(jìn)行規(guī)范化處理,并基于規(guī)范化處理后的機(jī)構(gòu)名稱信息來創(chuàng)建機(jī)構(gòu)信息庫。即該機(jī)構(gòu)信息庫記錄了規(guī)范化后的一級機(jī)構(gòu)名稱信息和原始一級機(jī)構(gòu)名稱信息與規(guī)范化后的一級機(jī)構(gòu)名稱信息的映射關(guān)系。
需要說明的是,一般論文數(shù)據(jù)中對應(yīng)的機(jī)構(gòu)名稱信息可能包含二級機(jī)構(gòu)信息和一級機(jī)構(gòu)名稱信息,所以需要將一級機(jī)構(gòu)名稱信息提取出來,以剔除二級機(jī)構(gòu)名稱信息。而專利申請數(shù)據(jù)和專利數(shù)據(jù)中對應(yīng)的申請人名稱信息或?qū)@麢?quán)人名稱信息,即對應(yīng)的機(jī)構(gòu)名稱信息,一般僅包含一級機(jī)構(gòu)名稱信息,若也包含二級機(jī)構(gòu)名稱信息則將一級機(jī)構(gòu)名稱信息提取出來,但由于申請人名稱信息或?qū)@麢?quán)人名稱信息還可能有包含是自然人的情況,故需要將這些自然人進(jìn)行剔除。其中,一級機(jī)構(gòu)為包括但不限于,大學(xué),研究所,設(shè)計(jì)院,股份公司等;二級機(jī)構(gòu)包括但不限于,大學(xué)附屬學(xué)院,研究院附屬公司等。通過對論文數(shù)據(jù)、專利申請數(shù)據(jù)和專利數(shù)據(jù)的分析,保證了數(shù)據(jù)源的全面性和發(fā)現(xiàn)團(tuán)隊(duì)信息的全面性;且在對上述文本數(shù)據(jù)進(jìn)行預(yù)處理時不需要對單獨(dú)著者或單獨(dú)發(fā)明人的文本數(shù)據(jù)進(jìn)行剔除,從而提高了團(tuán)隊(duì)信息的完整性;同時避免了發(fā)現(xiàn)虛假的團(tuán)隊(duì)信息,確保了團(tuán)隊(duì)信息的準(zhǔn)確性。
第二創(chuàng)建模塊,基于獲取到的文本數(shù)據(jù)對應(yīng)的至少一個著者姓名信息,并結(jié)合文本數(shù)據(jù)和機(jī)構(gòu)信息庫來創(chuàng)建人員信息庫。
其中,著者包括:論文的作者、專利申請的發(fā)明人、專利的發(fā)明人。
具體地,第二創(chuàng)建模塊包括:第二處理單元,對文本數(shù)據(jù)對應(yīng)的至少一個原始著者姓名信息進(jìn)行姓名抽取、消歧及合并處理,以確定符合預(yù)置條件的著者姓名信息;第一建立單元,基于機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息和已確定的各個著者姓名信息,建立機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系;第二建立單元,基于文本數(shù)據(jù)和機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系,建立已確定的各個著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,并基于關(guān)聯(lián)關(guān)系來創(chuàng)建人員信息庫。
例如,第二處理單元抽取上述論文數(shù)據(jù)“生物制藥的現(xiàn)狀和未來”對應(yīng)的原始著者姓名信息“謝xx,饒xx”,抽取專利申請數(shù)據(jù)“2012xxxxxxxx.6,一種制藥方法”對應(yīng)的原始著者姓名信息“張x,吳x,趙xx,王xx”,抽取專利數(shù)據(jù)“2013xxxxxxxx.0,生物制藥的廢渣處理方法”對應(yīng)的原始著者姓名信息“axx,nxx,jxx”;基于姓名消歧算法對上述抽取到的原始著者姓名信息進(jìn)行消歧,并將消歧后的著者姓名信息進(jìn)行合并;也可以先分別對抽取到的論文數(shù)據(jù)對應(yīng)的原始著者姓名信息進(jìn)行消歧和抽取到的專利申請數(shù)據(jù)和專利數(shù)據(jù)對應(yīng)的原始著者姓名信息進(jìn)行消歧,再將各自消歧后著者姓名信息進(jìn)行合并,并基于創(chuàng)建的機(jī)構(gòu)信息庫,將合并后的著者姓名信息進(jìn)行去重。最終基于得到的處理后的著者姓名信息;第一建立單元基于機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息和已確定的各個著者姓名信息的隸屬關(guān)系,建立機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系,如,“xx大學(xué)xx學(xué)院”對應(yīng)“謝xx,饒xx”、“xx生物科技有限公司”對應(yīng)“張x,吳x,趙xx,王xx”和“xxxxx股份公司”對應(yīng)“axx,nxx,jxx”;第二建立單元基于文本數(shù)據(jù)和機(jī)構(gòu)信息庫中機(jī)構(gòu)名稱信息與已確定的各個著者姓名信息之間的關(guān)聯(lián)關(guān)系,建立已確定的各個著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,并基于關(guān)聯(lián)關(guān)系來創(chuàng)建人員信息庫,即該人員信息庫記錄了著者姓名信息、著者姓名信息對應(yīng)的發(fā)表的論文、專利申請和專利的情況,以及著者姓名信息與機(jī)構(gòu)名稱信息之間的對應(yīng)關(guān)系,如,下述表1所示:
表1
需要說明的是,著者姓名信息包括論文數(shù)據(jù)的作者姓名信息和專利申請數(shù)據(jù)和專利數(shù)據(jù)的發(fā)明人姓名信息。
第三創(chuàng)建模塊,基于獲取到的任一文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,針對任一著者選擇對應(yīng)于該任一著者的主題信息,來創(chuàng)建主題信息庫。
具體地,第三創(chuàng)建模塊包括:第三處理單元,對文本數(shù)據(jù)進(jìn)行分詞處理,并對分詞處理得到的分詞片段的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)處理;獲取單元,將各個分詞片段、分詞片段的出現(xiàn)頻率和人員信息庫中的著者姓名信息輸入到預(yù)置主題模型中,以獲取到文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息;選擇單元,基于已獲取的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息,通過預(yù)置選擇規(guī)則選擇出針對任一著者姓名信息的多個主題信息,以創(chuàng)建主題信息庫。
例如,對上述論文數(shù)據(jù)中的題目、摘要和關(guān)鍵詞與專利申請數(shù)據(jù)和專利數(shù)據(jù)中的專利申請或?qū)@拿Q、摘要和權(quán)利要求內(nèi)容進(jìn)行合并,并第三處理單元對合并后的文本數(shù)據(jù)進(jìn)行分詞、去除停用詞以及對得到的分詞片段的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)處理;獲取單元將各個分詞片段、分詞片段的出現(xiàn)頻率和人員信息庫中的著者姓名信息輸入到at主題模型中,以獲取到at主題模型輸出的文本數(shù)據(jù)所包含的主題信息和各個主題信息對應(yīng)著者姓名信息的分布信息;選擇單元通過設(shè)定閾值條件選擇滿足閾值條件的主題信息,或選擇與著者相關(guān)聯(lián)度最高的5個主題作為一個著者的主題信息,從而創(chuàng)建主題信息庫,則該主題信息庫記錄了得到的主題信息和著者姓名信息的主題信息。
需要說明的是,第三創(chuàng)建模塊能夠確定在任一主題信息下的團(tuán)隊(duì)信息,而不是只確定合作的團(tuán)隊(duì)信息,而不知道該合作的團(tuán)隊(duì)信息在什么方面進(jìn)行了合作,使得在任一主題信息下確定的團(tuán)隊(duì)信息提供的信息相比于其它方法確定的團(tuán)隊(duì)信息更細(xì)致,對基于團(tuán)隊(duì)信息的科研管理決策更有效、更有價值。
確定模塊,基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫,確定針對各個主題的團(tuán)隊(duì)信息庫。
具體地,確定模塊包括:第三建立單元,基于主題信息庫中著者姓名信息與文本數(shù)據(jù)包含的主題信息之間的關(guān)聯(lián)關(guān)系,以及人員信息庫中著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)的關(guān)聯(lián)關(guān)系,建立機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系;第四建立單元,基于機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系,建立主題信息庫中針對各個主題信息對應(yīng)的機(jī)構(gòu)名稱信息的合作關(guān)系網(wǎng)絡(luò),合作關(guān)系網(wǎng)絡(luò)包括一個主題信息對應(yīng)的一個機(jī)構(gòu)名稱下多個著者姓名信息之間的關(guān)系;判斷單元,針對任一合作關(guān)系網(wǎng)絡(luò)中,判斷是否存在無關(guān)聯(lián)關(guān)系的著者姓名信息;執(zhí)行單元,若存在,則將無關(guān)聯(lián)關(guān)系的著者姓名信息之間建立關(guān)聯(lián)關(guān)系;確定單元,基于預(yù)置分析方式,確定一個或多個合作關(guān)系網(wǎng)絡(luò)中具有關(guān)聯(lián)關(guān)系的多個著者姓名信息,并將具有關(guān)聯(lián)關(guān)系的多個著者姓名信息作為一個團(tuán)隊(duì),以確定團(tuán)隊(duì)信息庫。
其中,團(tuán)隊(duì)包括以下任一項(xiàng):同機(jī)構(gòu)團(tuán)隊(duì)和/或跨機(jī)構(gòu)團(tuán)隊(duì):同機(jī)構(gòu)團(tuán)隊(duì)為任一團(tuán)隊(duì)下所有的著者姓名信息對應(yīng)于同一個機(jī)構(gòu)名稱信息;跨機(jī)構(gòu)團(tuán)隊(duì)為任一團(tuán)隊(duì)下的所有的著者姓名信息對應(yīng)于至少兩個科研機(jī)構(gòu)。圖7示出了為本發(fā)明中的再一個優(yōu)選實(shí)施例的團(tuán)隊(duì)類型的示意圖;圖8示出了為本發(fā)明中的再一個優(yōu)選實(shí)施例的同機(jī)構(gòu)團(tuán)隊(duì)的示意圖;圖9示出了為本發(fā)明中的再一個優(yōu)選實(shí)施例的跨機(jī)構(gòu)團(tuán)隊(duì)的示意圖。
例如,第三建立單元基于主題信息庫中著者姓名信息與文本數(shù)據(jù)包含的主題信息之間的關(guān)聯(lián)關(guān)系,以及人員信息庫中著者姓名信息、機(jī)構(gòu)名稱信息與文本數(shù)據(jù)的關(guān)聯(lián)關(guān)系,建立機(jī)構(gòu)信息庫、人員信息庫和主題信息庫之間的關(guān)聯(lián)關(guān)系;即基于創(chuàng)建的機(jī)構(gòu)信息庫、人員信息庫和主題信息庫,確定人員信息庫與機(jī)構(gòu)信息庫的關(guān)聯(lián)關(guān)系和人員信息庫與主題信息庫的關(guān)聯(lián)關(guān)系;第四建立單元基于文本數(shù)據(jù)結(jié)合文本數(shù)據(jù)的標(biāo)識符或直接通過人員信息庫建立人員信息庫中著者之間的合作關(guān)系;從創(chuàng)建的主題信息庫中選擇一個主題信息,對該主題信息對應(yīng)的著者姓名信息創(chuàng)建合作關(guān)系網(wǎng)絡(luò),判斷單元針對該主題信息對應(yīng)的每一個機(jī)構(gòu)名稱信息,判斷該機(jī)構(gòu)名稱信息的著者姓名信息的合作關(guān)系網(wǎng)絡(luò)判斷是否存在無關(guān)聯(lián)關(guān)系的著者姓名信息,如果存在無關(guān)聯(lián)關(guān)系的著者姓名信息,則執(zhí)行單元通過增加關(guān)聯(lián)線的方式使無關(guān)聯(lián)關(guān)系的子網(wǎng)絡(luò)連通,圖6示出了本發(fā)明中的再一個優(yōu)選實(shí)施例的針對任一存在無關(guān)聯(lián)關(guān)系的著者姓名信息的合作關(guān)系網(wǎng)絡(luò)的示意圖,在增加關(guān)聯(lián)線時可分別選擇兩個無關(guān)聯(lián)的子網(wǎng)絡(luò)的任一節(jié)點(diǎn),如,圖6中的l1和l5,并將l1與l2相連,將l5與l4相連,使得該合作關(guān)系網(wǎng)絡(luò)中沒有無關(guān)系的著者姓名信息;然后確定單元利用社會網(wǎng)絡(luò)分析方法中的組元分析,獲取該下合作關(guān)系網(wǎng)絡(luò)的所有組元,每一個組元即為團(tuán)隊(duì)信息。圖8示出了為本發(fā)明中的再一個優(yōu)選實(shí)施例的同機(jī)構(gòu)團(tuán)隊(duì)的示意圖;圖9示出了為本發(fā)明中的再一個優(yōu)選實(shí)施例的跨機(jī)構(gòu)團(tuán)隊(duì)的示意圖。
需要說明的是,由于文本數(shù)據(jù)會被實(shí)時更新或者文本數(shù)據(jù)會被在預(yù)置周期內(nèi)進(jìn)行更新,則需要本裝置在預(yù)置的時間內(nèi),獲取更新的文本數(shù)據(jù),即新增的文本數(shù)據(jù),并基于上述第一創(chuàng)建模塊、第二創(chuàng)建模塊、第三創(chuàng)建模塊和確定模塊的具體實(shí)施方式對更新的文本數(shù)據(jù)進(jìn)行處理,以獲取到更新的團(tuán)隊(duì)信息,使得當(dāng)文本數(shù)據(jù)被更新時,團(tuán)隊(duì)信息也可以及時被更新,避免造成已確定的團(tuán)隊(duì)信息不完整且團(tuán)隊(duì)中的著者姓名信息也不完整的情況發(fā)生。
具體地,該裝置還包括:對比模塊,對比各個團(tuán)隊(duì)中的著者姓名信息;合并模塊,基于對比結(jié)果,將包含完全相同的著者姓名信息的團(tuán)隊(duì)進(jìn)行合并。
本技術(shù)領(lǐng)域技術(shù)人員可以理解,本發(fā)明包括涉及用于執(zhí)行本申請中所述操作中的一項(xiàng)或多項(xiàng)的設(shè)備。這些設(shè)備可以為所需的目的而專門設(shè)計(jì)和制造,或者也可以包括通用計(jì)算機(jī)中的已知設(shè)備。這些設(shè)備具有存儲在其內(nèi)的計(jì)算機(jī)程序,這些計(jì)算機(jī)程序選擇性地激活或重構(gòu)。這樣的計(jì)算機(jī)程序可以被存儲在設(shè)備(例如,計(jì)算機(jī))可讀介質(zhì)中或者存儲在適于存儲電子指令并分別耦聯(lián)到總線的任何類型的介質(zhì)中,所述計(jì)算機(jī)可讀介質(zhì)包括但不限于任何類型的盤(包括軟盤、硬盤、光盤、cd-rom、和磁光盤)、rom(read-onlymemory,只讀存儲器)、ram(randomaccessmemory,隨即存儲器)、eprom(erasableprogrammableread-onlymemory,可擦寫可編程只讀存儲器)、eeprom(electricallyerasableprogrammableread-onlymemory,電可擦可編程只讀存儲器)、閃存、磁性卡片或光線卡片。也就是,可讀介質(zhì)包括由設(shè)備(例如,計(jì)算機(jī))以能夠讀的形式存儲或傳輸信息的任何介質(zhì)。
本技術(shù)領(lǐng)域技術(shù)人員可以理解,可以用計(jì)算機(jī)程序指令來實(shí)現(xiàn)這些結(jié)構(gòu)圖和/或框圖和/或流圖中的每個框以及這些結(jié)構(gòu)圖和/或框圖和/或流圖中的框的組合。本技術(shù)領(lǐng)域技術(shù)人員可以理解,可以將這些計(jì)算機(jī)程序指令提供給通用計(jì)算機(jī)、專業(yè)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來實(shí)現(xiàn),從而通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來執(zhí)行本發(fā)明公開的結(jié)構(gòu)圖和/或框圖和/或流圖的框或多個框中指定的方案。
本技術(shù)領(lǐng)域技術(shù)人員可以理解,本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的步驟、措施、方案可以被交替、更改、組合或刪除。進(jìn)一步地,具有本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的其他步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。進(jìn)一步地,現(xiàn)有技術(shù)中的具有與本發(fā)明中公開的各種操作、方法、流程中的步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。
以上所述僅是本發(fā)明的部分實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。