亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

多信息融合的科研文獻主題發(fā)現(xiàn)和跟蹤方法及其系統(tǒng)的制作方法

文檔序號:10580180閱讀:263來源:國知局
多信息融合的科研文獻主題發(fā)現(xiàn)和跟蹤方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種多信息融合的科研主題發(fā)現(xiàn)和跟蹤方法及其系統(tǒng),其方法包括步驟:S1,指定學科的科研文獻下載,文獻元數(shù)據(jù)的整理;S2,文獻元數(shù)據(jù)的預處理形成文獻數(shù)據(jù)集;S3,建立綜合利用文本和引用信息的多源信息融合的科研文獻概率主題模型,發(fā)現(xiàn)主題詞的分布和主題核心文獻的分布;S4,以獲取的主題核心文獻分布和主題詞分布為基礎,結合文獻的時間信息,利用主題跟蹤計算公式,跟蹤科研主題的變化情況。本發(fā)明的實施例所提供的科研主題發(fā)現(xiàn)和跟蹤方法和系統(tǒng),可以實現(xiàn)揭示挖掘預設科研領域的科研主題,科研人員的研究興趣隨時間變化的規(guī)律,有助于把握科研主題的演化脈絡。
【專利說明】
多信息融合的科研文獻主題發(fā)現(xiàn)和跟蹤方法及其系統(tǒng)
技術領域
[0001] 本發(fā)明設及一種科研領域的數(shù)據(jù)挖掘技術,特別設及一種多信息融合的科研主題 發(fā)現(xiàn)和跟蹤方法及其系統(tǒng)。
【背景技術】
[0002] 科研文獻記錄學術研究的成果,是研究人員進行學術傳播和學術交流的重要手 段。任何科研成果都是在繼承前人的研究成果的基礎上進行改進和創(chuàng)新而得到的。隨著網(wǎng) 絡的發(fā)展和IEEE、ACM、抓LP等電子文獻資源數(shù)據(jù)庫的建立,積累的科研文獻的數(shù)量越來越 多??蒲腥藛T往往僅熟悉本專業(yè)領域的科研主題及其變化情況。當科研人員進入一個新的 研究領域,面對如此浩滿的科研文獻,他們迫切希望能夠迅速的發(fā)現(xiàn)該領域的科研主題及 跟蹤主題的發(fā)展變化情況。自動的科研主題發(fā)現(xiàn)和跟蹤技術能幫助科研人員快速的了解科 技主題和其發(fā)展變化情況,具有非常重要的現(xiàn)實意義。
[0003] 現(xiàn)有的科研主題發(fā)現(xiàn)和跟蹤技術,主要是在Blei等人提出的LDA主題模型的基礎 上發(fā)展而來。運些技術主要利用科研文獻中詞的共現(xiàn)關系即"詞袋模型"來發(fā)現(xiàn)主題,利用 文獻的時間信息來跟蹤主題的發(fā)展變化。然而科研文獻和新聞文本等不同,其包含豐富的 結構性的信息,例如文獻的作者、發(fā)表的時間、發(fā)表的刊物、參考文獻、被引用的情況等,運 些信息對科研主題的發(fā)現(xiàn)是有較大影響的。特別需要指出的是,和新聞信息等相比,科研文 獻具有較強的傳承性,新的研究總是在原有研究的基礎上發(fā)展而來的,運些傳承主要體現(xiàn) 在文獻的引用和被引用的信息上。由此可見,科研文獻的引用信息在其主題發(fā)現(xiàn)和跟蹤技 術上具有重要的作用。另外一個方面,由于科研文獻的內(nèi)容中包含大量的科研背景信息和 部分噪聲信息,基于"詞袋模型"的主題發(fā)現(xiàn)和跟蹤技術,例如LDA主題模型,在科研主題的 發(fā)現(xiàn)應用中存在諸多問題,包括主題的重復,大量背景詞占據(jù)主題的高頻詞,部分主題丟失 等問題。而科研文獻的引用往往是由專業(yè)的研究人員根據(jù)研究文獻之間的傳承情況而精屯、 選擇的,被一篇文獻引用的文獻往往是和該文獻的研究內(nèi)容密切相關的,即引用關系所包 含的噪聲信息會更少。利用引用關系來發(fā)現(xiàn)科研主題可W克服基于"詞袋模型"的主題發(fā)現(xiàn) 技術某些不足。
[0004] Zhou等人利用類似LDA的概率生成模型來對科研文獻的引用進行建模,實現(xiàn)了科 研主題的發(fā)現(xiàn),并結合文獻的時間信息來進行主題跟蹤研究(參見"Wang,X.,Zhai,C., Roth,D.,2013.Understanding evolution of research themes : a probabilistic generative model for citations. In Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining,p.1115- 1123.")。該方法可W實現(xiàn)不同科研主題發(fā)現(xiàn),包括主題的關鍵詞及分布,主題的最具影響 力的文獻,結合文獻的時間信息可W跟蹤主題的變化等。He等人公開一種利用科研文獻之 間的引用信息來進行主題發(fā)現(xiàn)和跟蹤的技術方法,該方法被稱作繼承主題模型實現(xiàn)了利用 文獻的引用關系網(wǎng)絡來發(fā)現(xiàn)科研文獻之間思想和技術的繼承情況(參見巧e,Q.,Chen,B., Pei,J.,Qiu,B.,Mitra,P.,Giles,L.,2009.Detecting topic evolution in scientific literature:how can citations help?. In Proceedings of the 18th ACM conference on Information and knowledge management,p.957-966.")。運兩個現(xiàn)有技術,僅利用引 用關系來發(fā)現(xiàn)主題,沒有考慮詞的共現(xiàn)關系,存在一定的不足之處。
[0005] Nal Iapati等人公開了一種Link-PLSA-LDA主題模型,該模型通過組合使用化SA對 被引用的文檔建模和使用Link-LDA對引用的文檔建模來聯(lián)合進行文本和引用的建模(參見 "Nallapati,R.M.,Ahmed,A.,Xing,E.P.,Cohen,W.W.,2008.Joint latent topic models for text and citations. In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining,p. 542-550.")。加〇等人公開了 一種BPT(BernC)UlIi process topic)模型,該主題模型從科研文獻的兩個作用(即文檔本 身和其它文檔的引用)對主題建模的區(qū)別和聯(lián)系來進行主題發(fā)現(xiàn)建模,該技術可W用于主 題發(fā)現(xiàn)、文獻的主題分布、引用推薦和主題演化等方面(參見"Guo,Z .,Zhang,Z .,Zhu,S., Chi,Y.,&Gong,Y.(2014).A two-level topic model towards knowledge discovery from citation networks.Knowledge&Data Engineering IEEE Transactions on,26(4), 780-794.")。該模型和Link-PLSA-LDA模型類似,是從文檔和引用兩個角度分別對文檔進行 建模,利用類似LDA的模型對文檔進行建模,利用Bernoulli過程對文檔的引用結構進行建 模,兩個建模過程通過參數(shù)進行禪合。運兩項已公開的技術雖然都同時利用了科研文獻的 文檔和引用信息來發(fā)現(xiàn)和跟蹤主題,但是它們不能得到主題的最具影響力的文獻信息。
[0006] Lu等人公開了一項采用CTMkollective topic model)技術來發(fā)現(xiàn)與主題相關的 具有里程碑意義論文的研究成果(參見"Z丄u,N.Mamoulis,and D.W.Qieung,A Collective Topic model for Milestone Paper Discovery,Proceedings of the 37th Annual ACM SIGIR Conference(SIGIR) ,pp. 1019-1022,Gold Coast,Australia,July2014.")。該項技 術綜合利用了科研文獻的作者、文獻發(fā)表的刊物和文獻之間的引用關系等信息來發(fā)現(xiàn)科研 主題的具有里程碑意義的論文。但是該項技術只能發(fā)現(xiàn)某一科研主題的核屯、論文、某一作 者所發(fā)表的核屯、論文和某一刊物的核屯、論文,不能發(fā)現(xiàn)相應的科研主題的詞的分布,也沒 有考慮文獻時間信息,因此也不能跟蹤主題的變化情況。
[0007] 科研文獻的內(nèi)容信息、引用信息和時間信息在其主題發(fā)現(xiàn)和跟蹤應用中都具有非 常重要的作用。現(xiàn)有的技術大多僅利用了科研文獻的部分信息來完成科研主題的發(fā)現(xiàn)和跟 蹤,或者是利用了科研文獻的多種信息但僅能實現(xiàn)科研主題發(fā)現(xiàn)和跟蹤的部分任務。綜合 利用科研文獻的多源信息例如內(nèi)容、作者、引用等來挖掘科研主題(包括主題詞的分布、主 題核屯、論文的分布等)和跟蹤主題的變化(主題隨時間分布的變化)在科研文獻數(shù)據(jù)挖掘領 域具有非常重要的意義,對幫助科研工作者開展科研工作和促進科研的發(fā)展也具有重要的 作用。
[000引發(fā)明的內(nèi)容
[0009] 本發(fā)明要解決的技術問題:克服現(xiàn)有的科研主題發(fā)現(xiàn)和跟蹤技術的不足,提供了 一種融合多種信息的科研主題發(fā)現(xiàn)和跟蹤的方法,該方法綜合利用了科研文獻的內(nèi)容信 息、引用信息、時間信息來發(fā)現(xiàn)和跟蹤科研主題,提高了發(fā)現(xiàn)主題的質量(發(fā)現(xiàn)的主題包括 主題詞分布和主題核屯、論文的分布)及更好的把握主題的變化趨勢。在該方法的基礎上提 出了一種可W實際應用的科研主題發(fā)現(xiàn)和跟蹤的系統(tǒng)。
[0010] 本發(fā)明的技術解決方案:多信息融合的科研主題發(fā)現(xiàn)和跟蹤方法,包括科研文獻 的獲取和文獻整理、文獻信息的預處理、多源信息融合的科研主題發(fā)現(xiàn)和跟蹤幾個步驟???研文獻的獲取和文獻整理負責獲取一定量的科研文獻數(shù)據(jù)并按照一定的元數(shù)據(jù)格式組成 文獻語料庫。文獻信息的預處理包括從元數(shù)據(jù)語料庫中獲取文獻的文檔詞頻矩陣、引用關 系矩陣、文檔詞匯表信息。多源信息融合的科研主題發(fā)現(xiàn)和跟蹤包括基于內(nèi)容和引用的主 題發(fā)現(xiàn)模型,主題隨時間變化的主題跟蹤方法。采用上述技術方案的能實際運行的多源信 息融合的科研主題發(fā)現(xiàn)和跟蹤系統(tǒng)。
[0011] 為解決上述技術問題,本發(fā)明提供了一種多信息融合的科研主題發(fā)現(xiàn)和跟蹤方 法,所述方法包括W下步驟:
[0012] SI.指定學科的科研文獻下載,文獻元數(shù)據(jù)的整理;
[0013] S2.文獻元數(shù)據(jù)的預處理形成文獻數(shù)據(jù)集;
[0014] S3.建立綜合利用文本和引用信息的多源信息融合的科研文獻概率主題模型,發(fā) 現(xiàn)主題詞的分布和主題核屯、文獻的分布;
[0015] S4. W獲取的主題核屯、文獻分布和主題詞分布為基礎,結合文獻的時間信息,利用 主題跟蹤計算公式,跟蹤科研主題的變化情況。
[0016] 上述步驟Sl中每篇文獻整理得到的元數(shù)據(jù)包括:文獻的ID(文獻ID是按照文獻的 發(fā)表時間順序直接指定的)、文獻的發(fā)表時間、文獻的作者、文獻的內(nèi)容(僅包括標題、關鍵 詞和摘要)、文獻的引用信息。
[0017] 上述步驟S2中的文獻元數(shù)據(jù)預處理包括:文獻內(nèi)容的預處理和文獻引用信息的預 處理。其中文獻內(nèi)容的預處理包括去除停止詞、數(shù)字、非英文字符,單詞的詞干化,去除在所 有文獻中出現(xiàn)次數(shù)少于4次的低頻詞,構建文獻的文檔詞頻矩陣,構建所有文檔的詞匯表, 構建數(shù)據(jù)集中文獻之間的引用關系矩陣。
[0018] 上述步驟S3具體包括:
[0019] S31.根據(jù)數(shù)據(jù)集的文獻引用關系建立文獻引用概率主題模型R1。該概率主題模型 將主題考慮為文獻目n日I田隹A -且具體的生成過程為:根據(jù)文獻主題分布Dd〇c_t〇pic(;d)~ 0d和主題文獻分布 利用吉布斯采樣來生成主題,得到每個主題的核屯、文 獻的分布,其中有9d~Dir(a)和碼~Dfr(風。
[0020] S32.對S31步驟中生成的主題按照屬于該主題的文獻的概率從高到低進行排序, 取每個主題中概率排在前五分之一的文獻組成新的主題^^,",。
[0021] S33.對S32步驟中生成的每個主題辯,W,利用組成該主題的文獻的內(nèi)容建立基于 "詞袋"模型的概率主題模型R2。該概率主題模型將主題考慮為詞的集合,其具體的生成過 程為:根據(jù)文獻主題分布Dd。。_t。pl。(;d)~0/d來生成主題z/d,n,再根據(jù)主題詞的分布
生成文獻的詞,利用吉布斯采樣來生成模型參數(shù)即主題詞的分 布^2>1>和文獻主題的分布9\,1<',其中有0/<1~〇山(〇)和~/)/^公)。所得主題模型的參 數(shù)知-',VI.和目'm,k'組成主題{Zk':扔',,、,,目'm,k' }。
[0022] 上述步驟S4中的主題Zk'跟蹤過程具體包括:
[002引 S41.將屬于主題{zk':捉的文獻按照文獻所屬的時間t,W年y為單位離 散到對應的時間窗口 td;
[0024] S42.按照W下公式計算主題Zk'在時間窗口td的主題強度p(zk' ltd):
,其中A和]i為加權系數(shù),Dt和Nt 分別為時間窗口 td內(nèi)所包含的總文獻數(shù)和總單詞數(shù);
[0025] S43. W年為單位的時間為橫坐標,每年時間上計算得到的主題強度p(zk' ltd)為縱 坐標,繪制出主題隨時間變化的曲線。
[0026] 本發(fā)明還提供了一種多信息融合的科研主題發(fā)現(xiàn)和跟蹤系統(tǒng),所述系統(tǒng)包括:
[0027] 數(shù)據(jù)下載和整理模塊:用于對指定學科的科研文獻進行下載,將原始文獻記錄整 理成文獻元數(shù)據(jù);
[0028] 元數(shù)據(jù)預處理模塊:用于對文獻元數(shù)據(jù)進行主題分析之前的預處理,包括去除停 止詞、數(shù)字、非字母字符,單詞詞干化,去除低頻詞,構建文獻的文檔詞頻矩陣,構建所有文 檔的詞匯表,構建數(shù)據(jù)集中文獻之間的引用關系矩陣
[0029] 科研主題發(fā)現(xiàn)模塊:用于發(fā)現(xiàn)科研文獻中所包含的主題,包括兩層主題模型,第 一層主題模型利用文獻之間的引用關系進行概率主題建模發(fā)現(xiàn)主題文獻的分布,第二層主 題模型在第一層主題模型發(fā)現(xiàn)的主題基礎上再進行基于"詞袋"模型的主題建模發(fā)現(xiàn)最終 的科研主題;
[0030] 科研主題跟蹤模塊:用于對主題發(fā)現(xiàn)模塊發(fā)現(xiàn)的主題進行跟蹤,繪制科研主題隨 著時間變化的曲線,包括主題的時間離散化、主題強度的計算、主題強度變化的曲線繪制。
[0031] 上述的科研主題發(fā)現(xiàn)模塊,其特征在于,用于發(fā)現(xiàn)科研文獻中所包含的主題具體 包括:
[0032] 根據(jù)數(shù)據(jù)集的文獻引用關系建立文獻引用概率主題模型R1-巧》燕±挪搖巧Rl的 特征在于,根據(jù)文獻主題分布〇<1。。_*。。1。(;(1)~0<1和主題文獻分布 :ij用吉 布斯采樣來生成主題,得到每個主題的核屯、文獻的分布妍J,其中有~Dir (a)和
庚中,吉布斯采樣算法公式如下所示:
[0033] 其中,^(/,〇表示除去下標為i的文檔和下標為t的引用W外的其它的文檔和引 用,乃[t"表示屬于主題Zk的文檔di的被引用的數(shù)量,灼K"',3表示屬于主題Zk的文檔di所引用 山k' - L 的文檔的被引用的數(shù)量,Qk是01,k的狄利克雷Dirichlet先驗參數(shù)向量,01,k表示文檔i的 第k個主題的概率分布,0堤辦7的狄利克雷先驗參數(shù)向量,賤J表示主題k的第j個核屯、文 獻的概率分布。其中第j個核屯、文獻的概率分布夢&,/的計算公式如下所示:
[0034] -
[0035] 對主題巧I-,_;按照屬于該主題的文獻的概率從高到低進行排序,取每個主題中概率 排在前五分之一的文獻組成新的主題0t,w。
[0036] 對每個主題轉,W,利用組成該主題的文獻的內(nèi)容建立基于"詞袋'模型的概率主題模型 R2。該概率主題模型R2的特征在于,根據(jù)文獻主題分布Dd。。_t。pl。(;d)~0/d來生成主題zVn,再根 據(jù)主題詞的分布.
來生成文獻的詞,利用吉布斯采樣算法公式來生成模 型參數(shù)即主題詞的分布挺和文獻主題的分布0\,k<,其中有0/d~Dir(a)和減.~。>(公)。 用所得主題模型的參數(shù)<^,.、1,和9^,^組成主題I。其中,吉布斯采樣算法公式如 下所示
[0037] 豐願標巧的參#目/" 1/巧掛L .計貸公式分別化下所示:
[00;3 引
[0039] 上述的科研主題跟蹤模塊,其特征在于,具體包括:
[0040] 將屬于主題{zk': 口[>,>,,0\,1<'}的文獻按照文獻所屬的時間*,^年7為單位離散到 對應的時間窗口 td;
[0041 ] 按照W下公式計算主題Zk^在時間窗口 td的主題強度P(ZkHtd):
,其中A和y為加權系數(shù),Dt和Nt 分別為時間窗口 td內(nèi)所包含的總文獻數(shù)和總單詞數(shù);
[0042] W年為單位的時間為橫坐標,每年時間上計算得到的主題強度p(zk叫td)為縱坐 標,繪制出主題隨時間變化的曲線。
[0043] 本發(fā)明提供的實施例的有益效果:
[0044] 本發(fā)明針對科研文獻具有豐富的結構化信息的特點,綜合利用科研文獻的文本 信息和引用信息并結合文獻的時間信息實現(xiàn)了對科研主題的發(fā)現(xiàn)和跟蹤。和傳統(tǒng)的單純的 基于文本的方法或單純的基于引用信息的方法相比,本發(fā)明綜合利用科研文獻的多源信 息,不僅可W獲得主題詞的分布還可W獲得主題核屯、論文的分布,獲得的科研主題更具代 表性,本發(fā)明的主題發(fā)現(xiàn)模型性能更優(yōu)異;此外,本發(fā)明還結合文獻的時間信息實現(xiàn)了對科 研主題隨時間變化過程的跟蹤。本發(fā)明的實施例所提供的科研主題發(fā)現(xiàn)和跟蹤方法和系 統(tǒng),可W實現(xiàn)掲示挖掘預設科研領域的科研主題,科研人員的研究興趣隨時間變化的規(guī)律, 有助于把握科研主題的演化脈絡。
【附圖說明】
[0045] 圖1為本發(fā)明多信息融合的科研主題發(fā)現(xiàn)和跟蹤方法的流程圖;
[0046] 圖2為本實施例中多信息融合的主題發(fā)現(xiàn)模型的概率圖;
[0047] 圖3為本實施例中主題14"人臉識別"隨時間變化的曲線圖;
[0048] 圖4為本實施例中主題5"圖像分割"隨時間變化的曲線圖;
[0049] 圖5為本實施例中主題9"字符識別"隨時間變化的曲線圖;
[0050] 圖6為本實施例中主題19"對象跟蹤"隨時間變化的曲線圖;
[0051] 圖7為本實施例中LDA、引用LDA和多源信息融合主題模型的困惑度比較示意圖;
[0052] 圖8為本發(fā)明實施例的多信息融合的科研主題發(fā)現(xiàn)和跟蹤系統(tǒng)的結構示意圖;
【具體實施方式】
[0053] 下面結合附圖和實施例,對本發(fā)明的【具體實施方式】做進一步的詳細描述。下面通 過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0054] 本技術領域技術人員可W理解,除非另外定義,運里使用的所有術語(包括技術術 語和科學術語)具有與本發(fā)明所屬領域中的普通技術人員的一般理解相同的意義。還應該 理解的是,諸如通用字典中定義的那些術語應該被理解為具有與現(xiàn)有技術的上下文中的意 義一致的意義,并且除非像運里一樣定義,不會用理想化或過于正式的含義來解釋。
[0055] 圖1為本發(fā)明多信息融合的科研主題發(fā)現(xiàn)和跟蹤方法具體實施例的流程圖。如圖1 所示,本實施例多信息融合的科研主題發(fā)現(xiàn)和跟蹤方法的工作流程包括如下步驟:
[0056] SI:根據(jù)要研究的科研領域選擇相關的文獻進行下載,對下載的文獻記錄進行整 理得到指定格式的文獻元數(shù)據(jù)。
[0057] 在本實施例中,可W通過計算機來執(zhí)行數(shù)據(jù)下載和整理模塊、元數(shù)據(jù)預處理模塊、 科研主題發(fā)現(xiàn)模塊和科研主題跟蹤模塊的功能。在本步驟中,通過計算機下載模式識別和 圖像處理領域的國際頂級期刊《IEEE模式分析與機器智能匯刊HIEEE TPAMI-IEEE Transactions on Pattern Analysis and Machine Intelligence)從 1995年I月到2012年 9月的所有論文(少量的主編寫的文章除外),共計得到2719篇研究文獻。對采集得到的每篇 文獻記錄進行整理得到文獻元數(shù)據(jù),包括每篇文獻的ID號pmid(根據(jù)文獻的發(fā)表時間順序 進行編號,同一期論文則按照出版時頁碼順序進行編號)、文獻的發(fā)表時間year(精確到年 份)、文獻的作者author、文獻的內(nèi)容text(運里僅包括標題、關鍵詞和摘要運S部分)、文獻 的引用文獻序列Cit(指該文獻的參考文獻并且屬于下載文獻集的范圍內(nèi)的文獻)。將所有 下載的2719篇文獻的原始記錄均整理成文獻元數(shù)據(jù)后,進入步驟S2。
[0058] S2:對Sl中所得文獻元數(shù)據(jù)進行數(shù)據(jù)預處理得到文獻元數(shù)據(jù)集。
[0059] 在本步驟中,對Sl中得到的文獻元數(shù)據(jù)集進行預處理,包括過濾停用詞、數(shù)字、非 英文字母字符,單詞的詞干化,去除在所有文獻中出現(xiàn)次數(shù)少于4次的低頻詞,預處理完成 后可W整理得到由881個詞項構成的詞典V、2719篇文獻和881個詞構成的文獻詞頻矩陣D = [dij]2719X881(其中du表示第i篇文獻中第j個詞的詞頻大?。琖及2719篇文獻之間的引用關 系矩陣C = [Cmn]2719X2719(其中Cmn表不束m篇文獻與束n篇文獻是否有引用關系,如果Cmn = 1表 示有引用關系,否則表示沒有引用關系)。對科研文獻進行預處理之后,進入步驟S3。
[0060] S3:構建采集的科研文獻元數(shù)據(jù)集的多源信息融合的科研概率主題模型,發(fā)現(xiàn)主 題詞的分布和主題核屯、文獻的分布。
[0061] 在本步驟中,構建采集的科研文獻的多信息融合的主題發(fā)現(xiàn)模型,該模型的概率 圖如圖2所示,具體包括=個子步驟:
[0062] S31.根據(jù)采集的科研文獻元數(shù)據(jù)集的文獻引用關系矩陣C建立基于引用的概率主 題模型Rl。該概率主題模型將主題考慮為文獻即引用的集合,其具體的生成過程為:根據(jù)文 獻主題分布〇<1。。_*。。1。(;(1)~0<1和主題文獻分4
,利用吉布斯采樣來生成主 題,得到每個主題的核屯、文獻的分布妍,其中有0d~Dir(Q)S
。其中,吉布斯 采樣算法公式如下所示:
[0063]
[0064] 其中,^(扣。表示除去下標為i的文檔和下標為t的引用W外的其它的文檔和引 用,/!W')表示屬于主題Zk的文檔di的被引用的數(shù)量,灼3表示屬于主題Zk的文檔di所引用 一屯. 的文檔^^.的被引用的數(shù)量,Qk是01,k的狄利克雷Dirichlet先驗參數(shù)向量,01,k表示文檔i的 第1^個主題的概率分布,|3堤從^的狄利克雷先驗參數(shù)向量,解/表示主題1^的第^'個核屯、文 獻的概率分布,運里k表示概率主題模型Rl的主題數(shù)的下標其總數(shù)取K=IO, i表示文檔數(shù)的 下標其總數(shù)是2719篇,j表示文獻之間引用關系的數(shù)量的下標其總數(shù)是2401,Qk和扣取值分 別為0.5和0.01。
[0065] 在本實施例中,運行上述S31步驟中的吉布斯采樣100次迭代后,整個采樣過程將 趨于收斂,此時為每篇文獻分配了相應的主題,采用狄利克雷分布的期望估計主題k的第j 個核屯、文獻的概率分布巧;-^的計算公式如下所示:
[0066]
[0067] S32.對S31步驟中生成的主題文獻分布皆A,/按照屬于該主題的文獻的概率從高到 低進行排序,運里排序算法采用選擇排序法,取每個主題k中概率排在前五分之一的文獻m 組成新的主題妍,。,。
[0068] S33.對S32步驟中生成的每個主題0U,,利用組成該主題的文獻的為新的文獻集 建立基于"詞袋"模型的概率主題模型R2。該概率主題模型將主題考慮為詞的集合,其具體 的生成過程為:根據(jù)文獻主題分布Dd。。_t。pl。(;d)~0/d來生成主題zVn,再根據(jù)主題詞的分 布
來生成文獻的詞,利用吉布斯采樣來生成模型參數(shù)即主題詞的 分布姑,1,和文獻主題的分布0'm,k',其中有0'd~Dir(a)和城~彷>(鳳。所得主題模型的參
[0069] 數(shù)姑,、,,和e'm,k,組成主題{zk,:括,,、,,0'm,k, }。其中,本子步驟中的吉布斯采樣算法公式如下 所示:
[0070] 其中,表示下標i從相應的主題中去除W后的屬于主題k/的單詞Wt的數(shù)量, 表示下標i從相應的文檔中去除W后的屬于文檔dm的主題k/的數(shù)量,Qk'是0\,k'的狄 利克雷Dirichlet先驗參數(shù)向量,0\,k'表示文檔m的第k/個主題的概率分布,氏是戶的狄 利克雷先驗參數(shù)向量表示主題k/的第t個詞項的概率分布,運里k/表示概率主題模型 R2的主題數(shù)的下標其總數(shù)取K' = 3,巧二{巧!々二1,2…,F(xiàn))表示單詞組成的向量, =挺維=1基,足'錠示主題組成的向量,齡取值分別為0.5和0.0 l。
[0071] 運行上述的S33步驟中的吉布斯采樣100次迭代后,整個采樣過程將趨于收斂,此 時為每個單詞和文檔分別分配了相應的主題,采用狄利克雷分布的期望估計模型的參數(shù)的 白\,1<,和^^?;,。,計算公式如下所示:
[0072]
[0073]
[0074] 在本步驟中,經(jīng)妊多信懇融合的主題發(fā)現(xiàn)模型計算得到2719篇科研文獻的30個主 題,每個主題的描述包括兩部分:(a)與主題最相關的前10個詞項及相應的概率;(b)與主題 最相關的前10篇核屯、文獻及相應的概率。計算得到2719篇科研文獻的其中具有代表性的4 個主題詞項的分布和主題核屯、論文的分布分別如表1和表2所示:
[00巧]表1:4個主題詞項的分布
[0076]
[0077] 表2:4個主題核屯、論文的分布
[007引
[0079]續(xù)表 2
[0080]
[0081 ]續(xù)表 2
[0082]
[0083] 經(jīng)過上述建立的多源信息融合的科研概率主題模型,發(fā)現(xiàn)TPAMI期刊的2719篇科 研文獻的30個主題詞的概率分布和主題核屯、文獻的概率分布W后,進入步驟S4。
[0084] S4: W上述S3步驟中獲取的TPAMI期刊的2719篇科研文獻的30個主題核屯、文獻的 概率分布和主題詞的概率分布為基礎,結合文獻的時間信息,利用主題跟蹤計算公式,跟蹤 科研主題的變化情況。
[0085] 本步驟中的主題{Zk':括-m,k' }的跟蹤過程具體包括如下S個步驟:
[0086] S41.將屬于主題{zk':挺目\,1^}的文獻集(4}(111=1,2^'',1)按照每個文獻所屬 的時間t,W年y為單位離散到對應的時間窗口 td;
[0087] S42.按照W下公式計算主題{zk':挺}在時間窗口 td的主題強度
,其中A和y為加權 系數(shù),d: td = y表示時間窗口 td為年y時所包含的文檔d,Dt和Nt分別為時間窗口 td內(nèi)所包含的 總文獻數(shù)和總單詞數(shù);
[008引S43. W年為單位的時間為橫坐標,在每年時間上計算得到的主題強度P(zk' ltd)為 縱坐標,繪制出主題隨時間變化的曲線。
[0089] 通過本步驟的具體實施,可W得到TPAMI期刊的2719篇文獻上發(fā)現(xiàn)的30個主題在 1995年至2012年間隨時間變化的規(guī)律。該實驗的結果有助于科研人員全面了解人工智能和 圖像處理領域重要研究主題隨時間的發(fā)展變化情況,為科研主題的跟蹤提供了依據(jù)。附圖 3-6給出了步驟S3的表1和表2中的四個重要主題隨時間變化的規(guī)律的曲線。主題"人臉識 另If是人工智能和圖像處理領域的重要主題之一,如圖3所示,該主題隨時間的變化呈現(xiàn)出 雙峰的特性,第一個研究峰值出現(xiàn)在1997年,第二個研究的峰值出現(xiàn)在2007年。主題"圖像 分割"是圖像處理領域的重要主題之一,如圖4所示該主題在2008年W前一直是較為熱口的 研究主題,從1995開始到2007年大致每隔=年一個周期的上下波動,呈現(xiàn)出一定的周期性。 如圖5所示,主題"字符識別"在1995年至2004年間呈現(xiàn)出雙峰,其第一、二個研究高峰分別 出現(xiàn)在1997年、2002年,2004年W后隨時間增加其研究熱度呈逐年下降趨勢。主題"對象跟 蹤"是計算機視覺領域的重要研究主題之一,其隨時間變化的規(guī)律如圖6所示,該主題的研 究熱度呈現(xiàn)出雙峰特性,分別在2002年和2006年到達研究熱度的峰值。
[0090] 在本實施例中,利用多源信息融合的科研主題發(fā)現(xiàn)模型的計算公式運算上述的科 研主題估算參數(shù),獲取科研主題概率分布的結果;W獲得的科研主題概率分布結合文獻的 時間信息,并利用科研主題跟蹤計算公式得到科研主題隨時間變化的曲線。通過上述步驟 獲取的科研主題發(fā)現(xiàn)和跟蹤的結果不僅掲示了科研文獻的主題,也能掲示挖掘預設科研領 域科研的主題隨時間演化的規(guī)律。
[0091] 在實際應用中,困惑度(Perplexity)是評價模型泛化能力的標準指標,困惑度值 越小,說明模型泛化能力越強。為了評價本發(fā)明的多信息融合的科研主題發(fā)現(xiàn)模型的泛化 能力,本實施例將2719篇科研文獻進一步分為兩部分,其中,1360篇文檔作為訓練集,1359 篇文檔作為測試集。在本發(fā)明的話題發(fā)現(xiàn)模型中,對于測試集Dtest中的科研文獻困惑度計 算公式如下:
[0092]
[009引上式中Nd表示文檔d中單詞的數(shù)量,Wd= (>1(1,*2(1'''機(1'''*。(1)表示組成文檔(1的單詞 的向量,M是測試集中文檔總數(shù)量,運里取值為1359。
[0094]附圖7給出了本實施例中的主題發(fā)現(xiàn)模型、基于文檔內(nèi)容的標準LDA主題模型和基 于引用關系的LDA 主題模型(參見"Wang,X. ,Zhai,C. ,Roth,D. ,2013.Understanding evolution of research themes : a probabilistic generative model for citations. In Proceedings of the 19th ACM SIGKDD international conference on Knowledge discoveiT and da1:a mining,p. 1115-1123." )S者困惑度值的比較實驗結果。 從圖7中,我們可W發(fā)現(xiàn)本實施例中的主題發(fā)現(xiàn)模型比其它兩個對比模型具有更低的困惑 度值,即具有更好的模型泛化能力;而當主題數(shù)量大于30時,=個模型的困惑度的值都保持 基本不變,運說明本實施例中主題數(shù)量取30是較合適的,能比較好的反映出TPAMI數(shù)據(jù)集 中包含的真實的主題數(shù)。
[00巧]另外一個能夠較好的反應主題模型性能優(yōu)劣的指標是sKL(symmetric KuUback- Le化ler)散度。濁L散度可W用來度量一對概率分布的相似性,是一種概率分布之間的距離 度量。對發(fā)現(xiàn)的主題用SKL散度來度量其散度值,可W評價發(fā)現(xiàn)主題的差異性,避免相似或 重復主題過多的缺點。在本實施例中,采用如下的計算公式來計算兩個主題之間的SKL散度 值:
[0096]
[0097] 上式中,0i,0j表示兩個主題的概率分布,N表示主題所包含的分量數(shù)量。利用上述 公式分別計算本實施例中的30個主題任意兩個主題之間的SKL散度值,再對所得結果求平 均得到30個主題的平均SKL散度值,其結果如下表3所示。從表3的結果中,可W說明本發(fā)明 的實施例的主題發(fā)現(xiàn)的結果要優(yōu)于基于文檔內(nèi)容的標準LDA主題模型和基于引用關系的 LDA主題模型,此外和采用困惑度的實驗結果類似,當主題數(shù)取30時所得的SKL散度值最高, 運說明本發(fā)明實施例中主題數(shù)取30是合適的。
[0098] 表3:=種主題發(fā)現(xiàn)模型的主題的SKL散度值對比結果
[0099]
LOIOOJ 巧本買施例中,h載TPAMI期刊的從1995平1月剖2012平9月的巧計2719篇論義,對 原始數(shù)據(jù)進行整理得到文獻元數(shù)據(jù),并對元數(shù)據(jù)文獻進行預處理得到元數(shù)據(jù)數(shù)據(jù)集;利用 多源信息融合的科研主題發(fā)現(xiàn)模型的計算公式運算上述的科研主題估算參數(shù),獲取科研主 題概率分布的結果;W獲得的科研主題概率分布結合文獻的時間信息,并利用科研主題跟 蹤計算公式得到科研主題隨時間變化的曲線。通過上述步驟獲取的科研主題發(fā)現(xiàn)和跟蹤 的結果不僅掲示了科研文獻的主題,也能掲示挖掘預設科研領域科研的主題隨時間演化的 規(guī)律,具有非常重要的現(xiàn)實意義。
[0101] 圖8示出了本發(fā)明實施例的一種多信息融合的科研主題發(fā)現(xiàn)和跟蹤系統(tǒng),其包括: 數(shù)據(jù)下載和整理模塊,用于對指定學科的科研文獻進行下載,將原始文獻記錄整理成文獻 元數(shù)據(jù);元數(shù)據(jù)預處理模塊,用于對文獻元數(shù)據(jù)進行去除停止詞、過濾低頻詞等預處理操 作;科研主題發(fā)現(xiàn)模塊,用于發(fā)現(xiàn)科研文獻中所包含的主題;科研主題跟蹤模塊:用于對主 題發(fā)現(xiàn)模塊發(fā)現(xiàn)的主題進行跟蹤,繪制科研主題隨著時間變化的曲線。
[0102] 本技術領域技術人員可W理解,本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的 步驟、措施、方案可W被交替、更改、組合或刪除。進一步地,具有本發(fā)明中已經(jīng)討論過的各 種操作、方法、流程中的其他步驟、措施、方案也可W被交替、更改、重排、分解、組合或刪除。 進一步地,現(xiàn)有技術中的具有與本發(fā)明中公開的各種操作、方法、流程中的步驟、措施、方案 也可W被交替、更改、重排、分解、組合或刪除。
[0103] W上所述僅是本發(fā)明的部分實施方式,應當指出,對于本技術領域的普通技術人 員來說,在不脫離本發(fā)明原理的前提下,還可W做出若干改進和潤飾,運些改進和潤飾也應 視為本發(fā)明的保護范圍。
【主權項】
1. 一種多信息融合的科研主題發(fā)現(xiàn)和跟蹤方法,其特征在于,包括以下步驟: S1,指定學科的科研文獻下載,文獻元數(shù)據(jù)的整理; S2,文獻元數(shù)據(jù)的預處理形成文獻數(shù)據(jù)集; 53, 建立綜合利用文本和引用信息的多源信息融合的科研文獻概率主題模型,發(fā)現(xiàn)主 題詞的分布和主題核心文獻的分布; 54, 以獲取的主題核心文獻分布和主題詞分布為基礎,結合文獻的時間信息,利用主題 跟蹤計算公式,跟蹤科研主題的變化情況。 上述步驟S3具體包括: S31,根據(jù)數(shù)據(jù)集的文獻引用關系建立文獻引用概率主題模型R1。該概率主題模型R1的特 征在于,根據(jù)文獻主題分布DdcKi+topicX ;d)~ 9d和主題文獻分布(;幻~巧利用吉布斯采 樣來生成主題,得到每個主題的核心文獻的分布,其中有9d~Dir(a)和爐__~。 532, 對S31步驟中生成的主題按照屬于該主題的文獻的概率從高到低進行排序,取每 個主題中概率排在前五分之一的文獻組成新的主題。 533, 對S32步驟中生成的每個主題約M,:,利用組成該主題的文獻的內(nèi)容建立基于"詞 袋"模型的概率主題模型R2。該概率主題模型R2的特征在于,根據(jù)文獻主題分布Ddc^tc^J; d)~0'd來生成主題z'd,n,再根據(jù)主題詞的分布_生成文獻的詞, 利用吉布斯采樣算法公式來生成模型參數(shù)即主題詞的分布和文獻主題的分布θ、,ν, 其中有e'd-DiHa)和成~?λΓ(/?)。用所得主題模型的參數(shù)成>和0'm,k'組成主題 {% · Ρο'υ.? 上述步驟S4具體包括: 541、 將屬于主題{Zf: }的文獻按照文獻所屬的時間t,以年y為單位離散 到對應的時間窗口 td; 542、 按照以下公式計算主題zk'在時間窗口td的主題強度p(zk' ltd):、其中λ和μ為加權系數(shù),Dt 和Nt分別為時間窗口 td內(nèi)所包含的總文獻數(shù)和總單詞數(shù); 543、 以年為單位的時間為橫坐標,每年時間上計算得到的主題強度p(Zk' |td)為縱坐 標,繪制出主題隨時間變化的曲線。2. 根據(jù)權利要求1所述的多信息融合的科研主題發(fā)現(xiàn)和跟蹤方法,其特征在于,步驟S1 中每篇文獻整理得到的元數(shù)據(jù)包括:按照文獻的發(fā)表時間順序直接指定的文獻ID,文獻的 發(fā)表時間,文獻的作者,僅包括標題、關鍵詞和摘要的文獻內(nèi)容,文獻的引用信息。3. 根據(jù)權利要求1所述的多信息融合的科研主題發(fā)現(xiàn)和跟蹤方法,其特征在于,步驟S2 中的文獻元數(shù)據(jù)的預處理過程,具體包括:去除停止詞、數(shù)字、非英文字符,單詞的詞干化, 去除在所有文獻中出現(xiàn)次數(shù)少于4次的低頻詞,構建文獻的文檔詞頻矩陣,構建所有文檔的 詞匯表,構建數(shù)據(jù)集中文獻之間的引用關系矩陣。4. 根據(jù)權利要求1所述的多信息融合的科研主題發(fā)現(xiàn)和跟蹤方法,其特征在于,步驟 S31中的吉布斯采樣筧法公式如下所示:其中,-</,?)表示除去下標為i的文檔和下標為t的引用以外的其它的文檔和引用, 表示屬于主題zk的文檔cU的被引用的數(shù)量,乂 表示屬于主題z k的文檔cU所引用的文 -k zk. 檔〇4.的被引用的數(shù)量,ak是0i>k的狄利克雷Dirichlet先驗參數(shù)向量,0i, k表示文檔i的第k個 主題的概率分布為是外V的狄利克雷先驗參數(shù)向量,外,/表示主題k的第j個核心文獻的概 率分布。5. 根據(jù)權利要求1所述的多信息融合的科研主題發(fā)現(xiàn)和跟蹤方法,其特征在于,步驟 S31中的主題的核心文獻的分布於^?計算公式如下所示:6. 根據(jù)權利要求1所述的多信息融合的科研主題發(fā)現(xiàn)和跟蹤方法,其特征在于,步驟 S33中的吉布斯采樣算法公式如下所示:其中,表示下標i從相應的主題中去除以后的屬于主題V的單詞wt的數(shù)量, 表示下標i從相應的文檔中去除以后的屬于文檔dm的主題V的數(shù)量,w是的狄利克雷 Dirichlet先驗參數(shù)向量,表示文檔m的第V個主題的概率分布,仏是的狄利克雷 先驗參數(shù)向量,供1^表示主題V的第t個詞項的概率分布,這里V表示概率主題模型R2的主 題數(shù)的下標,W = {%}〇 = 1,2.·.,Ρ)表示單詞組成的向量,F(xiàn) =仁丨(?· = 1,2,…,X7)表示主題 組成的向量。7. 根據(jù)權利要求1所述的多信息融合的科研主題發(fā)現(xiàn)和跟蹤方法,其特征在于,步驟 S33中的主題模型的參數(shù)θ'和^^7計算公式分別如下所示:8. 多信息融合的科研主題發(fā)現(xiàn)和跟蹤系統(tǒng),其特征在于,所述系統(tǒng)包括: 數(shù)據(jù)下載和整理模塊:用于對指定學科的科研文獻進行下載,將原始文獻記錄整理成 文獻元數(shù)據(jù); 元數(shù)據(jù)預處理模塊:用于對文獻元數(shù)據(jù)進行主題分析之前的預處理,包括去除停止詞、 數(shù)字、非字母字符,單詞詞干化,去除低頻詞,構建文獻的文檔詞頻矩陣,構建所有文檔的詞 匯表,構建數(shù)據(jù)集中文獻之間的引用關系矩陣; 科研主題發(fā)現(xiàn)模塊:用于發(fā)現(xiàn)科研文獻中所包含的主題,包括兩層主題模型,第一層主 題模型利用文獻之間的引用關系進行概率主題建模發(fā)現(xiàn)主題文獻的分布,第二層主題模型 在第一層主題模型發(fā)現(xiàn)的主題基礎上再進行基于"詞袋"模型的主題建模發(fā)現(xiàn)最終的科研 主題; 科研主題跟蹤模塊:用于對主題發(fā)現(xiàn)模塊發(fā)現(xiàn)的主題進行跟蹤,繪制科研主題隨著時 間變化的曲線,包括主題的時間離散化、主題強度的計算、主題強度變化的曲線繪制。9.根據(jù)權利要求8所述科研主題發(fā)現(xiàn)模塊,其特征在于,用于發(fā)現(xiàn)科研文獻中所包含的 主題具體包括: 根據(jù)數(shù)據(jù)集的文獻引用關系建立文獻引用概率主題模型R1。該概率主題模型R1的特征 在于,根據(jù)文獻主題分布〇(1。。__1。(;(1)~0(1和主題文獻分布/)__&(;4~仏利用吉布斯采 樣來生成主題,得到每個主題的核心文獻的分布只W,其中有9 d~Dir(aWP^ 。 其中,吉布斯采樣算法公式如下所示:其中,表示除去下標為i的文檔和下標為t的引用以外的其它的文檔和引用, 表示屬于主題zk的文檔cU的被引用的數(shù)量,表示屬于主題zk的文檔cU所引用的文 ~k 檔的被引用的數(shù)量,ak是0i>k的狄利克雷Dirichlet先驗參數(shù)向量,0i, k表示文檔i的第k個 主題的概率分布,的是%、;的狄利克雷先驗參數(shù)向量,表示主題k的第j個核心文獻的概 率分布。其中第j個核心文獻的概率分布的計算公式如下所示:對主題奶Μ按照屬于該主題的文獻的概率從高到低進行排序,取每個主題中概率排在 前五分之一的文獻組成新的主題奶υ?。 對每個主題,利用組成該主題的文獻的內(nèi)容建立基于"詞袋"模型的概率主題模型 R2。該概率主題模型R2的特征在于,根據(jù)文獻主題分布叫。^。[)1。(;(1)~0/(1來生成主題 2/(1,11, 再根據(jù)主題詞的分布 λνον? C ^d^n )~爐?來生成文獻的詞,利用吉布斯采樣算法公式 來生成模型參數(shù)即主題詞的分布和文獻主題的分布,其中有Θ、~Dir (a)和 #~D/r〇6〇Q用所得主題模型的參數(shù)'組成主題^,〔^^,..,^^。其中潔布 斯采樣算法公式如下所示:主題模型的參數(shù)θ'w和 計算公式分別如下所示:10.根據(jù)權利要求8所述的科研主題跟蹤模塊,其特征在于,具體包括: 將屬于主題彳的文獻按照文獻所屬的時間t,以年y為單位離散到對 應的時間窗口 td; 按照以下公式計算主題zk'在時間窗口td的主題強度p(zk' |td):,其中λ和μ為加權系數(shù),Dt 和Nt分別為時間窗口 td內(nèi)所包含的總文獻數(shù)和總單詞數(shù); 以年為單位的時間為橫坐標,每年時間上計算得到的主題強度P(w|td)為縱坐標,繪 制出主題隨時間變化的曲線。
【文檔編號】G06F17/30GK105956130SQ201610304040
【公開日】2016年9月21日
【申請日】2016年5月9日
【發(fā)明人】周厚奎, 王陳燕
【申請人】浙江農(nóng)林大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1