亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

使用文本分析從源文檔中識別相關(guān)文檔集合的系統(tǒng)和方法

文檔序號:6560660閱讀:177來源:國知局
專利名稱:使用文本分析從源文檔中識別相關(guān)文檔集合的系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明總體上涉及使用文本分析來從源文檔中識別文檔集合,更具體地說,涉及一種用于對諸如專利之類的技術(shù)參考文獻(xiàn)以及MeSH數(shù)據(jù)庫使用文本分析來識別相關(guān)參考文獻(xiàn)集合的系統(tǒng)和方法。
背景技術(shù)
最近幾年,已經(jīng)看到了生物技術(shù)領(lǐng)域的迅速成長,其中對于擁有發(fā)現(xiàn)權(quán)的機(jī)構(gòu)而言,那些發(fā)現(xiàn)價值數(shù)億美元。然而,所面臨的難題是,研究和開發(fā)通常所需的成本巨大。考慮到所涉及的美元數(shù)目,公司必須完全了解特殊生物技術(shù)領(lǐng)域的技術(shù)前景。
特殊領(lǐng)域的大部分技術(shù)前景可以從諸如專利參考文獻(xiàn)以及其它科學(xué)論文之類的技術(shù)參考文獻(xiàn)中收集獲得。從這種參考文獻(xiàn)中,人們可以確定該技術(shù)的當(dāng)前狀態(tài),什么技術(shù)是專有的,什么技術(shù)屬于公用領(lǐng)域等。然而,其中的一個難題涉及迅速地并且有效地定位與技術(shù)努力有關(guān)的相關(guān)參考文獻(xiàn)。
在很多情況下,研究人員可能具有初始文檔,例如專利、期刊文章、患者記錄等,并且往往想找到與初始文檔相關(guān)的技術(shù)參考文獻(xiàn)的擴(kuò)展集。已知各種用于搜索技術(shù)參考文獻(xiàn)的方法。普遍采用的方法包括單詞搜索,其中把關(guān)鍵字輸入到數(shù)據(jù)庫中以便識別包括所述關(guān)鍵字的參考文獻(xiàn)。其它方法包括利用分類數(shù)據(jù)。例如,在使用專利的情況下,可以基于指定給每項專利的分類和子分類代碼來識別相關(guān)專利。甚至在其它的方法中,研究者可以檢查初始文檔中引用的參考文獻(xiàn)列表。
雖然這些技術(shù)中的每一種技術(shù)都很有用,但是每一種技術(shù)都因明顯的原因而受到限制。由于不同的作者往往使用多個不同的術(shù)語涉及類似的概念,由此生成了許多無用的結(jié)果,所以單詞搜索是受限的。此外,在使用專利的情況下,共用相同的分類/子分類代碼的專利數(shù)目可能總計非常大,并且不是始終包括正被搜索的相關(guān)特征。相反,技術(shù)文檔上列出的所引用參考文獻(xiàn)的數(shù)目通常是僅僅指向預(yù)先存在的參考文獻(xiàn)的相對短的列表,這可以提供良好的起點,但是實際上它幾乎肯定是不全面的。
因此,當(dāng)試圖了解特殊學(xué)科領(lǐng)域的技術(shù)前景時,在搜索和分析技術(shù)參考文獻(xiàn)方面目前存在明顯的限制。
幸運的是,生物技術(shù)領(lǐng)域中的非專利文獻(xiàn)多少更加容易被用戶使用。近幾年來,美國國家醫(yī)學(xué)圖書館(National Library of Medicine,NLM)已經(jīng)開發(fā)了一種被稱為通用醫(yī)學(xué)語言系統(tǒng)(Universal MedicalLanguage System,UMLS)的科學(xué)系統(tǒng),其用于醫(yī)學(xué)信息的國際協(xié)調(diào),并且用于改善對醫(yī)學(xué)和科學(xué)文獻(xiàn)的訪問。所述UMLS(http//umls.nlm.nih.gov/)的目標(biāo)在于幫助研究人員智能地從各種各樣的不同電子生物醫(yī)學(xué)信息源中檢索并且整合信息。它可以用于按照用不同的源表示類似的概念的方法來克服差異。對用戶而言,這樣做更易于鏈接來自病人記錄系統(tǒng)、書目數(shù)據(jù)庫、事實數(shù)據(jù)庫、專家系統(tǒng)等的信息。
所述UMLS知識服務(wù)還可以幫助進(jìn)行數(shù)據(jù)創(chuàng)建和出版物索引。一部分UMLS包含醫(yī)學(xué)主題詞表(Medical Subject Heading,MeSH)代碼,其充當(dāng)用于構(gòu)造科學(xué)文獻(xiàn)分類的本體(ontology)要點的基礎(chǔ)。為此,NLM具有專職人員用于系統(tǒng)地在所有實際識別出的科學(xué)期刊中對數(shù)百萬科技出版物進(jìn)行索引。這樣做形成了諸如MedLine(以及其它數(shù)據(jù)庫)之類的這種國家資源的基礎(chǔ)。當(dāng)NLM索引編輯者分類并且索引這些期刊時,他們使用MeSH本體(ontology)來執(zhí)行此操作,并且在這樣做的過程中,創(chuàng)建用于描述正被索引的文章的非常重要的元數(shù)據(jù)集合。例如,所述索引編輯者通常閱讀文章,并且產(chǎn)生文章(即,化學(xué)文件)中提及的所有化學(xué)制品的列表。
在最高級別,索引編輯者使用各種MeSH限定詞代碼來確定正被索引的文章是否涉及化學(xué)制品、外科、遺傳學(xué)等。在更加細(xì)化的級別中,他們經(jīng)由數(shù)目大于750,000個的概念代碼的廣泛系統(tǒng)來對文章進(jìn)行分類。這充當(dāng)用于進(jìn)一步分類并且索引其它內(nèi)容的豐富的元數(shù)據(jù)源。
使人遺憾的是,沒有自動的機(jī)構(gòu)允許用戶為沒有被NLM或者其它類似元數(shù)據(jù)數(shù)據(jù)庫進(jìn)行索引的輸入文檔(例如,專利文獻(xiàn)、報紙文章、患者記錄等)查找相關(guān)的技術(shù)參考文獻(xiàn)。因此,存在對這樣一種系統(tǒng)的需要,所述系統(tǒng)可以為所輸入的參考文獻(xiàn)識別技術(shù)參考文獻(xiàn)的擴(kuò)展集。

發(fā)明內(nèi)容
本發(fā)明通過提供如下方面來致力于解決上述問題以及其它問題。
在第一方面中,本發(fā)明提供了一種文檔處理系統(tǒng),包括文本分析系統(tǒng),用于分析源文檔中包含的非結(jié)構(gòu)化數(shù)據(jù),并且提取關(guān)于所述源文檔的結(jié)構(gòu)化信息集合;以及比較系統(tǒng),用于通過把結(jié)構(gòu)化信息集合與根據(jù)出版物集合索引的元數(shù)據(jù)進(jìn)行比較來識別相關(guān)文檔集合。
在第二方面中,本發(fā)明提供了一種存儲在計算機(jī)可讀介質(zhì)上的、用于處理內(nèi)容源的計算機(jī)程序產(chǎn)品,包括被配置為用于分析內(nèi)容源中包含的非結(jié)構(gòu)化數(shù)據(jù)并且用于提取關(guān)于內(nèi)容源的結(jié)構(gòu)化信息集合的程序代碼;以及被配置為用于通過把結(jié)構(gòu)化信息集合與根據(jù)出版物集合索引的元數(shù)據(jù)進(jìn)行比較來識別相關(guān)文檔集合的程序代碼。
在第三方面中,本發(fā)明提供了一種用于處理源文檔的方法,包括分析所述源文檔中包含的非結(jié)構(gòu)化數(shù)據(jù);提取關(guān)于所述源文檔的結(jié)構(gòu)化信息集合;并且通過把結(jié)構(gòu)化信息集合與根據(jù)出版物集合索引的元數(shù)據(jù)進(jìn)行比較來識別相關(guān)文檔集合。
在第四方面中,本發(fā)明提供了一種用于采用用于處理文檔的應(yīng)用程序的方法,包括提供一種計算機(jī)基礎(chǔ)設(shè)施,所述計算機(jī)基礎(chǔ)設(shè)施可操作用于分析內(nèi)容源中包含的非結(jié)構(gòu)化數(shù)據(jù)并且提取關(guān)于所述內(nèi)容源的結(jié)構(gòu)化信息集合;并且通過把結(jié)構(gòu)化信息集合與根據(jù)出版物集合索引的元數(shù)據(jù)進(jìn)行比較來識別相關(guān)文檔集合。
在第五方面中,本發(fā)明提供了包含在傳播信號中的計算機(jī)軟件,其用于實現(xiàn)用于處理文檔的應(yīng)用程序,所述計算機(jī)軟件包括用于使計算機(jī)執(zhí)行如下功能的指令,所述功能為分析所述源文檔中包含的非結(jié)構(gòu)化數(shù)據(jù);提取關(guān)于所述源文檔的結(jié)構(gòu)化信息集合;并且通過把結(jié)構(gòu)化信息集合與根據(jù)出版物集合索引的元數(shù)據(jù)進(jìn)行比較來識別相關(guān)文檔集合。


根據(jù)如下結(jié)合附圖對本發(fā)明各個方面的詳細(xì)描述,將使本發(fā)明的這些以及其它特征更加易于理解,其中圖1描述了具有依照本發(fā)明實施例的文檔處理系統(tǒng)的計算機(jī)系統(tǒng)。
圖2描述了依照本發(fā)明實施例的用于搜索注釋文檔的搜索引擎。
具體實施例方式
現(xiàn)在參考附圖,圖1描述了具有文檔處理系統(tǒng)18的計算機(jī)系統(tǒng)10,所述文檔處理系統(tǒng)18用于分析所輸入的源文檔28并且生成相關(guān)文檔集合30。另外,文檔處理系統(tǒng)18還可以生成注釋文檔32,其包括用于識別相關(guān)文檔集合30的元數(shù)據(jù)34。所述注釋文檔32可以存儲在注釋文檔數(shù)據(jù)庫40中(即,與其它注釋文檔一起)。所述相關(guān)文檔集合30包括在某種程度上涉及或者與所輸入的源文檔28有關(guān)的出版物的列表。
應(yīng)該理解的是,源文檔28可以包括任何類型的文檔,但是通常包括“非結(jié)構(gòu)化信息”。所生成的相關(guān)文檔集合30可以包括可經(jīng)由元數(shù)據(jù)數(shù)據(jù)庫36識別的任何文檔。例如,在一個說明性的實施例中,源文檔28可以包括公開了特殊遺傳序列的涉及生物技術(shù)的專利文獻(xiàn),并且所述相關(guān)文檔集合30包括用于論述特殊遺傳序列的生物技術(shù)參考文獻(xiàn)(即,期刊文章等)的列表。在另一個實施例中,源文檔28可以包括用于公開特殊條件或者疾病的患者記錄,并且所述相關(guān)文檔集合30可以包括與所述條件或者疾病有關(guān)的科學(xué)文章。
在又一實施例中,文檔處理系統(tǒng)18可以輸入包含非結(jié)構(gòu)化信息的任何類型的內(nèi)容源,而不是輸入源文檔28。說明性的內(nèi)容源可以包括諸如音頻文件、視頻數(shù)據(jù)、圖像、流式數(shù)據(jù)、網(wǎng)頁等的多媒體數(shù)據(jù)。
為了生成相關(guān)文檔集合30,文檔處理系統(tǒng)18包括文本分析系統(tǒng)20,用于從源文檔28中提取包括關(guān)鍵字的“結(jié)構(gòu)化信息”,所述關(guān)鍵字諸如是化學(xué)制品名稱、疾病、基因等;比較系統(tǒng)22,用于把所述結(jié)構(gòu)化信息與存儲在元數(shù)據(jù)數(shù)據(jù)庫36中的元數(shù)據(jù)相匹配以便定位所述相關(guān)文檔集合30;聚集和排名系統(tǒng)24,用于對相關(guān)文檔集合30和/或相關(guān)聯(lián)的元數(shù)據(jù)/結(jié)構(gòu)化信息進(jìn)行聚集和排名;以及注釋系統(tǒng),用于生成包括元數(shù)據(jù)34的注釋文檔32。
文本分析系統(tǒng)20提供了一種用于分析非結(jié)構(gòu)化信息以便生成結(jié)構(gòu)化信息集合的系統(tǒng)。文本分析系統(tǒng)20例如可采用IBMTM的非結(jié)構(gòu)化信息管理體系結(jié)構(gòu)(Unstructured Information ManagementArchitecture,UIMA)來實現(xiàn)。結(jié)構(gòu)化信息可以被視為這樣一種信息,其預(yù)定含義在數(shù)據(jù)的結(jié)構(gòu)或格式中被清晰并且明確地表示出來。結(jié)構(gòu)化信息的典型示例是關(guān)系型數(shù)據(jù)庫表。非結(jié)構(gòu)化信息可以被視為這樣一種信息,其預(yù)定含義僅僅通過其形式大概地隱含,并因此需要翻譯以便近似表示并且提取其預(yù)定含義。其示例包括自然語言文檔、語音、音頻、靜止圖像、網(wǎng)頁和視頻。據(jù)估計,所有公司的信息的百分之八十都是非結(jié)構(gòu)化的。
在分析非結(jié)構(gòu)化內(nèi)容的過程中,非結(jié)構(gòu)化信息管理(UIM)應(yīng)用程序可利用包括統(tǒng)計和基于規(guī)則的自然語言處理(NLP)、信息檢索、機(jī)器學(xué)習(xí)、本體和自動推理在內(nèi)的各種技術(shù)。UIM應(yīng)用程序可以查閱結(jié)構(gòu)化源,以便幫助辨析非結(jié)構(gòu)化內(nèi)容的語義。例如,化學(xué)名稱數(shù)據(jù)庫可有助于集中對醫(yī)學(xué)文摘進(jìn)行分析。UIM應(yīng)用程序通常產(chǎn)生結(jié)構(gòu)化信息資源,其清楚地表示出從非結(jié)構(gòu)化信息輸入中推導(dǎo)出的內(nèi)容。這些結(jié)構(gòu)化資源因此能經(jīng)由應(yīng)用程序集合——適當(dāng)?shù)脑L問方法進(jìn)行訪問。一個簡單的示例是搜索索引和查詢處理器,其用于使文檔可按照主題進(jìn)行訪問,并且根據(jù)它們與由用戶指定的關(guān)鍵概念的相關(guān)性對它們進(jìn)行排名。一個更加復(fù)雜的示例是形式本體和推理系統(tǒng),其例如允許用戶探究所述概念、它們的關(guān)系以及包含在包括數(shù)百萬篇文檔的集合中的邏輯暗示。
文本分析系統(tǒng)20可以被實現(xiàn)用來從源文檔28中識別出有關(guān)特殊技術(shù)領(lǐng)域(例如,生命科學(xué))的結(jié)構(gòu)化信息,所述結(jié)構(gòu)化信息包括關(guān)鍵字,諸如化學(xué)名稱、疾病、基因、分子等。其它信息、諸如化學(xué)文摘(CAS)編號的列表和SMILES(“simplified molecular input lineentry specification,簡化分子輸入線性輸入規(guī)范”,它是一種用于使用短ASCII字母數(shù)字字符串來清晰描述化學(xué)分子結(jié)構(gòu)的規(guī)范)的列表也可以由文本分析系統(tǒng)20從源文檔28中推導(dǎo)出來。
比較系統(tǒng)22把文本分析系統(tǒng)20的結(jié)果與元數(shù)據(jù)數(shù)據(jù)庫36中的信息進(jìn)行比較,以便識別出相關(guān)文檔集合30。元數(shù)據(jù)數(shù)據(jù)庫36包括從技術(shù)參考文獻(xiàn)的綜合集合中索引的元數(shù)據(jù),所述技術(shù)參考文獻(xiàn)也就是諸如科學(xué)期刊文章的出版物。在一個說明性的實施例中,元數(shù)據(jù)數(shù)據(jù)庫36包括用于相關(guān)聯(lián)的出版物的MedLine文摘數(shù)據(jù)庫,其包括由MeSH代碼、多個代碼、化學(xué)列表、CAS數(shù)字、SMILES數(shù)據(jù)等組成的元數(shù)據(jù)。比較系統(tǒng)22由此識別出其相關(guān)聯(lián)的元數(shù)據(jù)與文本分析系統(tǒng)20所獲得的結(jié)構(gòu)化信息相匹配的出版物。每一個這種匹配都會識別出技術(shù)參考文獻(xiàn),所述技術(shù)參考文獻(xiàn)可以被添加到相關(guān)文檔集合30中。聚集和排名系統(tǒng)24可以被實現(xiàn)用來聚集結(jié)果并且對相關(guān)文檔集合30內(nèi)的文檔進(jìn)行排名。
注釋系統(tǒng)26可用于利用從元數(shù)據(jù)數(shù)據(jù)庫36以及從文本分析系統(tǒng)20中得到的元數(shù)據(jù)34來注釋所述源文檔28。注釋文檔32中的元數(shù)據(jù)34同樣可以由聚集和排名系統(tǒng)24來進(jìn)行處理/排名。在源文檔28包括專利的示例中,例如可以利用MedLine元數(shù)據(jù)來生成已注釋的專利,其中所述MedLine元數(shù)據(jù)包括與包含和源專利相同的化學(xué)制品的技術(shù)參考文獻(xiàn)相關(guān)聯(lián)的索引數(shù)據(jù)、MeSH數(shù)據(jù)等。
在說明性的實施例中,所述元數(shù)據(jù)數(shù)據(jù)庫36可以被加載作為獨立的明星方案(star schema),其是還包含注釋文檔數(shù)據(jù)庫40的較大數(shù)據(jù)倉庫的一部分。
所述聚集和排名系統(tǒng)24能依照任何方式來實現(xiàn)。例如,如果相關(guān)文檔集合30內(nèi)的多個參考文獻(xiàn)包括相同的元數(shù)據(jù),那么元數(shù)據(jù)的這些實例可以被聚集為單個重要性排名增加的清單。此外,聚集和排名系統(tǒng)24能識別出參考文獻(xiàn)和/或元數(shù)據(jù)的“類別”,該類別被認(rèn)為是比其它方面更加重要。此外,聚集和排名系統(tǒng)24能過濾參考文獻(xiàn)和/或元數(shù)據(jù),以便從結(jié)果中除去某些參考文獻(xiàn)或者元數(shù)據(jù)。
同樣地,注釋系統(tǒng)26也可以依照任何方式來實現(xiàn)。例如,所述元數(shù)據(jù)34可以存儲在文檔數(shù)據(jù)庫的附加字段中。
應(yīng)該理解的是,任何類型的元數(shù)據(jù)都可用于本發(fā)明的情形中,以便識別出相關(guān)文檔集合30并且注釋源文檔28。說明性的元數(shù)據(jù)類型包括MedLine限定詞代碼、化學(xué)制品、分子結(jié)構(gòu)、MeSH代碼、概念代碼、分類、本體等。諸如軟件、機(jī)械、電氣等的涉及非生物技術(shù)的專利同樣可以依照類似方式、基于例如現(xiàn)有的或已開發(fā)的元數(shù)據(jù)本體和分類、利用域?qū)S迷獢?shù)據(jù)來進(jìn)行注釋。
圖2描述了采用圖1的注釋文檔數(shù)據(jù)庫40的數(shù)據(jù)挖掘(datamining)系統(tǒng)42。數(shù)據(jù)挖掘系統(tǒng)42包括搜索系統(tǒng)44和元數(shù)據(jù)分類系統(tǒng)46,其允許用戶輸入元數(shù)據(jù)查詢48以便生成搜索結(jié)果集合50。
一般說來,圖1的計算機(jī)系統(tǒng)10(以及圖2的數(shù)據(jù)挖掘系統(tǒng)42)例如可以包括臺式電腦、膝上型電腦、工作站等。此外,計算機(jī)系統(tǒng)10可以作為客戶端和/或服務(wù)器的一部分來實現(xiàn)。計算機(jī)系統(tǒng)10通常包括處理器12、輸入/輸出(I/O)14、存儲器16和總線17。所述處理器12可以包括單個處理單元,或者可以跨越一個或多個處理單元而分布在一個或多個位置、例如在客戶機(jī)和服務(wù)器上。存儲器16可以包括任何已知類型的數(shù)據(jù)存儲和/或傳輸介質(zhì),其中包括磁介質(zhì)、光學(xué)介質(zhì)、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、數(shù)據(jù)高速緩存、數(shù)據(jù)對象等。此外,存儲器16可以駐留在單個物理位置上,并包括一種或多種類型的數(shù)據(jù)存儲設(shè)備,或者可以依照各種形式分布在多個物理系統(tǒng)上。
I/O 14可以包括用于與外部資源交換信息的任何系統(tǒng)。外部設(shè)備/資源可以包括任何已知類型的外部設(shè)備,其中包括監(jiān)視器/顯示器、揚聲器、存儲設(shè)備、其它計算機(jī)系統(tǒng)、手持設(shè)備、鍵盤、鼠標(biāo)、語音識別系統(tǒng)、語音輸出系統(tǒng)、打印機(jī)、傳真機(jī)、傳呼機(jī)等??偩€17提供了計算機(jī)系統(tǒng)10中的每個組件之間的通信鏈路,并且同樣可以包括任何已知類型的傳輸鏈路,其中包括電的、光學(xué)的、無線的傳輸鏈路等。雖然未示出,但是諸如高速緩沖存儲器、通信系統(tǒng)、系統(tǒng)軟件等的附加組件也可以并入在計算機(jī)系統(tǒng)10中。
對計算機(jī)系統(tǒng)10的訪問可以經(jīng)由網(wǎng)絡(luò)36來提供,所述網(wǎng)絡(luò)諸如是因特網(wǎng)、局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、虛擬專用網(wǎng)絡(luò)(VPN)等。通信可以經(jīng)由專用硬布線連接(例如,串行端口)、或者經(jīng)由可編址連接來進(jìn)行,所述可編址連接可以利用有線和/或無線傳輸方法的任意組合。此外,還可以使用諸如令牌環(huán)網(wǎng)、以太網(wǎng)、WiFi或者其它常規(guī)通信標(biāo)準(zhǔn)的常規(guī)網(wǎng)絡(luò)連接。另外,可以通過基于常規(guī)的TCP/IP套接字的協(xié)議來提供連接。在這種情況下,因特網(wǎng)服務(wù)供應(yīng)商可用于建立互連性。此外,如上所述,可以在客戶端-服務(wù)器或者服務(wù)器-服務(wù)器的環(huán)境下進(jìn)行通信。
應(yīng)該理解的是,本發(fā)明的教導(dǎo)是作為基于預(yù)訂或者付費的商業(yè)方法而提供的。例如,包括文檔處理系統(tǒng)的計算機(jī)系統(tǒng)10可以由服務(wù)供應(yīng)商來創(chuàng)建、維護(hù)和/或利用,所述服務(wù)供應(yīng)商為顧客提供此處所述的功能。也就是說,如上所述,服務(wù)供應(yīng)商可以提供對相關(guān)文檔集合的識別、提供對注釋文檔的處理和/或提供注釋文檔數(shù)據(jù)庫40。
應(yīng)該理解的是,此處所述的系統(tǒng)、功能、機(jī)構(gòu)、方法、引擎和模塊可以用硬件、軟件或者硬件和軟件的組合來實現(xiàn)。它們還可以通過任何類型的計算機(jī)系統(tǒng)或者適合于實施此處所述方法的其它設(shè)備來實現(xiàn)。硬件和軟件的典型組合可以是具有計算機(jī)程序的通用計算機(jī)系統(tǒng),當(dāng)載入并且執(zhí)行所述計算機(jī)程序時,該程序控制所述計算機(jī)系統(tǒng),使其執(zhí)行此處所述的方法。作為選擇,還可以利用包含用于實現(xiàn)本發(fā)明的一個或多個功能任務(wù)的專用硬件的專用計算機(jī)。在進(jìn)一步的實施例中,本發(fā)明的所有部分例如可以經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)、依照分布式方式來實現(xiàn)。
本發(fā)明還可以被嵌入到計算機(jī)程序產(chǎn)品中,該計算機(jī)程序產(chǎn)品包括能夠?qū)崿F(xiàn)此處所述的方法和功能的所有特征,并且當(dāng)將其載入計算機(jī)系統(tǒng)時,能夠?qū)崿F(xiàn)這些方法和功能。在本文中,諸如計算機(jī)程序、軟件程序、程序、程序產(chǎn)品、軟件等的術(shù)語意味著這樣一組指令的依照任何語言、代碼或符號的任何表示,所述指令用于使具有信息處理能力的系統(tǒng)直接、或者在進(jìn)行如下步驟之一或兩者后執(zhí)行特殊的功能,所述步驟包括(a)轉(zhuǎn)換為另一種語言、代碼或符號;和/或(b)依照不同材料形式再現(xiàn)。
已經(jīng)為了舉例說明和描述的目的給出了對本發(fā)明的先前描述。這不意味著窮舉或者把本發(fā)明限制為所公開的具體形式,并且顯然許多修改和變化都是可能的。對于本領(lǐng)域技術(shù)人員來說顯而易見的這種修改和變化應(yīng)該包括在本發(fā)明的范圍內(nèi),其中本發(fā)明的范圍由所附權(quán)利要求書來限定。
權(quán)利要求
1.一種文檔處理系統(tǒng),包括文本分析系統(tǒng),用于分析源文檔中包含的非結(jié)構(gòu)化數(shù)據(jù),并且提取關(guān)于所述源文檔的結(jié)構(gòu)化信息集合;以及比較系統(tǒng),用于通過把結(jié)構(gòu)化信息集合與根據(jù)出版物集合索引的元數(shù)據(jù)進(jìn)行比較,來識別相關(guān)文檔集合。
2.如權(quán)利要求1所述的文檔處理系統(tǒng),其中所述結(jié)構(gòu)化信息集合包括與技術(shù)領(lǐng)域相關(guān)聯(lián)的關(guān)鍵字。
3.如權(quán)利要求1所述的文檔處理系統(tǒng),其中所述結(jié)構(gòu)化信息集合包括化學(xué)文摘編號列表。
4.如權(quán)利要求1所述的文檔處理系統(tǒng),其中所述結(jié)構(gòu)化信息集合包括簡化分子輸入線性輸入規(guī)范字符串列表、即SMILES字符串列表。
5.如權(quán)利要求1所述的文檔處理系統(tǒng),其中所述源文檔包括專利文獻(xiàn),并且所述相關(guān)文檔集合包括技術(shù)參考文獻(xiàn)。
6.如權(quán)利要求1所述的文檔處理系統(tǒng),其中所述源文檔包括病歷,并且所述相關(guān)文檔集合包括技術(shù)參考文獻(xiàn)。
7.如權(quán)利要求1所述的文檔處理系統(tǒng),還包括注釋系統(tǒng),用于用與相關(guān)文檔集合相關(guān)聯(lián)的元數(shù)據(jù)來注釋源文檔。
8.如權(quán)利要求7所述的文檔處理系統(tǒng),還包括注釋文檔數(shù)據(jù)庫;以及用于挖掘注釋文檔數(shù)據(jù)庫的數(shù)據(jù)挖掘系統(tǒng)。
9.如權(quán)利要求1所述的文檔處理系統(tǒng),其中所述元數(shù)據(jù)被包含在MedLine文摘數(shù)據(jù)庫中。
10.如權(quán)利要求1所述的文檔處理系統(tǒng),還包括聚集和排名系統(tǒng),用于對相關(guān)文檔集合區(qū)分優(yōu)先次序。
11.一種用于處理源文檔的方法,包括分析所述源文檔中包含的非結(jié)構(gòu)化數(shù)據(jù);提取關(guān)于所述源文檔的結(jié)構(gòu)化信息集合;以及通過把結(jié)構(gòu)化信息集合與根據(jù)出版物集合索引的元數(shù)據(jù)進(jìn)行比較,來識別相關(guān)文檔集合。
12.如權(quán)利要求11所述的方法,其中所述結(jié)構(gòu)化信息集合包括從包括如下內(nèi)容的組中選出的信息,所述組包括與技術(shù)領(lǐng)域相關(guān)聯(lián)的關(guān)鍵字、化學(xué)文摘編號列表、以及簡化分子輸入線性輸入規(guī)范字符串列表、即SMILES字符串列表。
13.如權(quán)利要求11所述的方法,其中所述源文檔包括從包含如下內(nèi)容的組中選出的文檔,所述組包括專利文獻(xiàn)、網(wǎng)頁、病歷、技術(shù)參考文獻(xiàn)以及出版物。
14.如權(quán)利要求11所述的方法,還包括步驟用與相關(guān)文檔集合相關(guān)聯(lián)的元數(shù)據(jù)注釋源文檔。
15.如權(quán)利要求11所述的方法,其中所述元數(shù)據(jù)被包含在MedLine文摘數(shù)據(jù)庫中。
16.如權(quán)利要求11所述的方法,還包括步驟按優(yōu)先次序列出相關(guān)文檔集合。
17.一種利用用于處理文檔的應(yīng)用程序的方法,包括提供計算機(jī)基礎(chǔ)設(shè)施,所述計算機(jī)基礎(chǔ)設(shè)施可操作用于分析內(nèi)容源中包含的非結(jié)構(gòu)化數(shù)據(jù)并且提取關(guān)于所述內(nèi)容源的結(jié)構(gòu)化信息集合;以及通過把結(jié)構(gòu)化信息集合與根據(jù)出版物集合索引的元數(shù)據(jù)進(jìn)行比較來識別相關(guān)文檔集合。
全文摘要
一種用于處理文檔以便生成相關(guān)文檔集合的系統(tǒng)和方法。提供了這樣一種系統(tǒng),其包括文本分析系統(tǒng),用于分析包含在源文檔中的非結(jié)構(gòu)化數(shù)據(jù)并且提取關(guān)于源文檔的結(jié)構(gòu)化信息集合;以及比較系統(tǒng),用于通過比較結(jié)構(gòu)化信息集合與根據(jù)出版物集合索引的元數(shù)據(jù)來識別相關(guān)文檔集合。
文檔編號G06F17/30GK1967535SQ20061011012
公開日2007年5月23日 申請日期2006年7月31日 優(yōu)先權(quán)日2005年11月17日
發(fā)明者史蒂芬·凱恩·鮑伊爾, 杰弗里·托馬斯·克魯倫, 威廉·斯科特·斯班格勒, 塔帕斯·卡努恩格, 羅伯特·李·安格爾, 詹姆斯·J·羅德斯, 赫什爾·J·R·韋恩斯特勞布, 大衛(wèi)·C·馬丁, 里查德·亨尼西, 詹姆斯·威廉·庫伯 申請人:國際商業(yè)機(jī)器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1