自動(dòng)檢測和交互顯示來自多模態(tài)自然語言源的關(guān)于實(shí)體、活動(dòng)和事件的信息的系統(tǒng)和方法
【專利摘要】提供了一種用于由處理裝置從多個(gè)數(shù)據(jù)源自動(dòng)提取和組織信息的方法。把包括自動(dòng)實(shí)體檢測的自然語言處理信息提取流水線施加到數(shù)據(jù)源。通過分析自然語言處理流水線的產(chǎn)物來識(shí)別有關(guān)檢測的實(shí)體的信息。把識(shí)別的信息分組到包含等價(jià)信息的等價(jià)類。創(chuàng)建等價(jià)類的至少一個(gè)可顯示表示。計(jì)算至少一個(gè)可顯示表示被顯示的順序。生成考慮了可顯示表示被顯示的順序的等價(jià)類組合顯示。
【專利說明】自動(dòng)檢測和交互顯示來自多模態(tài)自然語言源的關(guān)于實(shí)體、活動(dòng)和事件的信息的系統(tǒng)和方法
[0001 ] 關(guān)于聯(lián)邦贊助研發(fā)的聲明
[0002]利用政府資助做出了本發(fā)明,其受到(由國防部高級(jí)研究計(jì)劃局(DARPA)授予的)第HR0011-08-C-0110號(hào)合同的約束。政府在此發(fā)明中有一定權(quán)利。
【技術(shù)領(lǐng)域】
[0003]本公開涉及信息技術(shù),尤其涉及自然語言處理(NLP)系統(tǒng)。
【背景技術(shù)】
[0004]新聞機(jī)構(gòu)、博客、twitter、科學(xué)期刊和會(huì)議全都產(chǎn)生文本、音頻和視頻形式的極大量的非結(jié)構(gòu)化數(shù)據(jù)??梢詮亩喾N語言的多種模態(tài)(例如互聯(lián)網(wǎng)文本、音頻和視頻源)收集大量的這種非結(jié)構(gòu)化數(shù)據(jù)和信息。需要分析信息并生成以下各項(xiàng)的簡潔表示:1)諸如特定實(shí)體(比如人,組織,國家)的行動(dòng)的信息;2)活動(dòng)(例如總統(tǒng)選舉運(yùn)動(dòng));以及3)事件(例如名人的去世)。目前,可以手動(dòng)生成這些表示,但是此解決方法不經(jīng)濟(jì),并且尤其是從多種語言收集信息時(shí)它需要有技能的工作人員。這些手動(dòng)生成的表示一般也不是可伸縮的。
【發(fā)明內(nèi)容】
[0005]本公開的示范性實(shí)施例提供了自動(dòng)提取和組織數(shù)據(jù)的方法,使用戶能夠交互查看有關(guān)實(shí)體、活動(dòng)和事件的信息。
[0006]根據(jù)示范性實(shí)施例,信息可以從多種模態(tài)和多種語言實(shí)時(shí)地自動(dòng)提取,并顯示為檢索到的信息的可導(dǎo)航且簡潔的表示形式。
[0007]示范性實(shí)施例可采用自然語言處理技術(shù)來自動(dòng)分析來自多種模態(tài)和多種語言的多個(gè)源的信息,這些源包括但不限于網(wǎng)頁、博客、新聞組、無線電饋送、視頻和電視。
[0008]示范性實(shí)施例可使用把外語源翻譯成用戶的語言的自動(dòng)機(jī)器翻譯系統(tǒng)的輸出,以及可使用來自把視頻和音頻饋送轉(zhuǎn)換成文本的自動(dòng)語音轉(zhuǎn)錄系統(tǒng)的輸出。
[0009]示范性實(shí)施例可采用包括信息提取工具、問答工具和提煉(distillation)工具的自然語言處理技術(shù)來自動(dòng)分析如上所述生成的文本,并提取可搜索且可概括的信息。系統(tǒng)可執(zhí)行名稱實(shí)體檢測、跨文檔共指消解(co-reference resolution)、關(guān)系檢測以及事件檢測和跟蹤。
[0010]示范性實(shí)施例可采用自動(dòng)相關(guān)性檢測技術(shù)和冗余減少方法來向用戶提供相關(guān)且非冗余的信息。
[0011]示范性實(shí)施例可通過為用戶提供用來指定感興趣的實(shí)體、活動(dòng)或事件(例如:通過鍵入自然語言查詢,通過從自動(dòng)生成的滿足用戶指定要求的實(shí)體(例如,用戶指定的時(shí)間段內(nèi)在數(shù)據(jù)源中突出記載的實(shí)體)的列表中選擇實(shí)體,通過瀏覽文章來選擇文本段,或者通過從在指定的時(shí)間段內(nèi)自動(dòng)檢測的事件/話題的表示來選擇事件或話題)的裝置來把期望的信息顯示為簡潔且可導(dǎo)航的表示形式。[0012]示范性實(shí)施例可通過適應(yīng)性地構(gòu)建與推斷的用戶意圖最佳匹配的模板來響應(yīng)于用戶查詢而自動(dòng)生成頁面(例如,如果用戶選擇作為政治家的人,則系統(tǒng)會(huì)檢測此事實(shí),搜索關(guān)于該人的選舉運(yùn)動(dòng)、公開露面、聲明和公共服務(wù)歷史的信息;如果用戶選擇公司,則系統(tǒng)會(huì)搜索有關(guān)該公司的近期新聞,有關(guān)該公司的高級(jí)官員的信息,新聞發(fā)布稿,等等)。
[0013]根據(jù)示范性實(shí)施例,如果用戶選擇事件,則系統(tǒng)可以搜索有關(guān)該事件的新聞項(xiàng)目、對事件的反應(yīng)、事件的結(jié)果以及相關(guān)事件。系統(tǒng)可自動(dòng)檢測事件中牽涉的實(shí)體,例如人、國家、地方政府、公司和組織,并檢索與這些實(shí)體有關(guān)的相關(guān)信息。
[0014]示范性實(shí)施例可允許用戶跟蹤在生成的頁面上出現(xiàn)的實(shí)體,包括根據(jù)可獲得的數(shù)據(jù)自動(dòng)生成人的簡歷,以及列出從可獲得的數(shù)據(jù)自動(dòng)提取的組織的近期行動(dòng)。
[0015]示范性實(shí)施例可允許使用戶查看出現(xiàn)在頁面上的事件或活動(dòng),包括自動(dòng)建立正在進(jìn)行的事件中的重要時(shí)刻的時(shí)間表。
[0016]示范性實(shí)施例可允許用戶查看實(shí)體和事件之間的聯(lián)系(例如,提供關(guān)于公司在事件中的角色的信息,列出個(gè)人關(guān)于話題的語錄,描述兩個(gè)公司間的關(guān)系,總結(jié)兩人之間的會(huì)面或接觸以及可選地檢索所需實(shí)體的圖像)。
[0017]根據(jù)示范性實(shí)施例,提供了一種用于由處理裝置從多個(gè)數(shù)據(jù)源自動(dòng)提取和組織信息的方法。包括實(shí)體的自動(dòng)檢測的自然語言處理信息提取流水線被施加到數(shù)據(jù)源。通過分析自然語言處理流水線的產(chǎn)物來識(shí)別關(guān)于所檢測的實(shí)體的信息。識(shí)別的信息分組成包含等價(jià)信息的等價(jià)類。創(chuàng)建等價(jià)類的至少一種可顯示表示。計(jì)算至少一種可顯示表示被顯示的順序。生成考慮了可顯示表示被顯示的順序的等價(jià)類組合表示。
[0018]每個(gè)等價(jià)類都可包括項(xiàng)的集合。每項(xiàng)都可包括從文檔提取的一段文本和有關(guān)從該段文本導(dǎo)出的所需實(shí)體的信息的規(guī)范(specification)。
[0019]計(jì)算可顯示表示被顯示的順序可以包括隨機(jī)計(jì)算順序。
[0020]把識(shí)別的信息分組成等價(jià)類可以包括把各識(shí)別的信息分配到單獨(dú)的等價(jià)類。
[0021]把識(shí)別的信息分組成等價(jià)類可以包括計(jì)算每個(gè)等價(jià)類的代表性實(shí)例,確保不同類的代表性實(shí)例相互不是冗余的,以及確保每個(gè)等價(jià)類的實(shí)例相對于該等價(jià)類的代表性實(shí)例是冗余的。
[0022]根據(jù)示范性實(shí)施例,提供了一種用于由處理裝置處理信息的方法。接收到用戶查詢。根據(jù)用戶查詢推斷出用戶查詢意圖,以形成推斷的用戶意圖。通過利用包括文本、音頻和視頻中的至少一個(gè)的多種模態(tài)的自然處理適應(yīng)性地構(gòu)建與推斷的用戶意圖對應(yīng)的模板,響應(yīng)于用戶查詢而自動(dòng)生成頁面。
[0023]當(dāng)用戶查詢選擇具有政治身份的人時(shí),可搜索該政治身份,可搜索關(guān)于選舉運(yùn)動(dòng)、公開露面、聲明和公共服務(wù)歷史中的至少一個(gè)的信息,以及可自動(dòng)生成響應(yīng)于用戶查詢的頁面。
[0024]當(dāng)用戶查詢選擇公司時(shí),可搜索有關(guān)該公司的近期新聞、該公司的高級(jí)官員的信息和公司的新聞發(fā)布稿中的至少一個(gè)的信息,以及可自動(dòng)生成響應(yīng)于用戶查詢的頁面。
[0025]當(dāng)用戶查詢選擇事件時(shí),可以搜索有關(guān)該事件的新聞項(xiàng)目和對事件的反應(yīng)中至少一個(gè)的信息,以及可自動(dòng)生成響應(yīng)于用戶查詢的頁面。
[0026]可識(shí)別和搜索事件中的實(shí)體和關(guān)于這些實(shí)體的檢索的相關(guān)信息。
[0027]根據(jù)示范性實(shí)施例,提供了一種由處理裝置從具有多個(gè)語言的多種信息模態(tài)的文檔語料庫自動(dòng)提取和組織信息以供顯示給用戶的方法。瀏覽文檔語料庫,以識(shí)別和增量地(incrementally)檢索包含音頻/視頻文件的文檔。來自音頻/視頻文件的文本被轉(zhuǎn)錄,以提供文本表示。外語的文本表示的文本被翻譯。關(guān)于實(shí)體、活動(dòng)和事件中的至少一個(gè)的所需信息被增量地提取。組織提取的信息。組織好的提取信息被轉(zhuǎn)換成可展示給用戶的可導(dǎo)航顯示。
[0028]增量地提取所需信息可包括:把自然語言處理流水線施加到各文檔,以遍歷語料庫中檢測的所有實(shí)體,以及識(shí)別牽涉到選擇的實(shí)體的關(guān)系表述(mention)和事件表述,其中實(shí)體是下面各項(xiàng)的至少一個(gè):物理生命體、物理無生命體、具有專有名稱的事物、具有可度量的物理屬性的事物、法人實(shí)體和抽象概念,表述是提到實(shí)體的一段文字,關(guān)系是兩個(gè)實(shí)體間的聯(lián)系,關(guān)系表述是描述關(guān)系的一段文字,以及事件是牽涉一個(gè)或多個(gè)行動(dòng)的兩個(gè)或更多個(gè)實(shí)體之間的關(guān)系集合。
[0029]組織提取的信息可包括:遍歷語料庫中識(shí)別的所有實(shí)體,把提取的關(guān)于實(shí)體的信息分成包含等價(jià)信息的所選等價(jià)類,遍歷所有等價(jià)類,選擇每個(gè)等價(jià)類中的一項(xiàng)來代表該等價(jià)類中的所有項(xiàng),以及記錄有關(guān)該等價(jià)類和有關(guān)選擇用來生成可導(dǎo)航顯示的代表的信息,其中每個(gè)等價(jià)類都可包括項(xiàng)的集合,每項(xiàng)都具有從文檔提取的一段文本和有關(guān)從該段文本導(dǎo)出的所需實(shí)體的信息的規(guī)范。
[0030]把組織好的提取信息轉(zhuǎn)換成可展示給用戶的可導(dǎo)航顯示可以包括:通過向等價(jià)類分配該類中各條信息的最高分?jǐn)?shù)、它的成員的平均分?jǐn)?shù)、它的成員的中值分?jǐn)?shù)和它的成員的分?jǐn)?shù)之和中的至少一個(gè)來給信息的各等價(jià)類評分,按分?jǐn)?shù)降序排序各等價(jià)類,以安排等價(jià)類顯示給用戶的順序的優(yōu)先次序,對每一等價(jià)類進(jìn)行遍歷,構(gòu)建選擇的實(shí)例的可顯示表示,以及把可顯示表示進(jìn)行組合來生成等價(jià)類的可顯示表示。
[0031]可顯示表示可以包括包含用可視化高亮標(biāo)記的提取信息的段落。
[0032]根據(jù)示范性實(shí)施例,提供了一種包含可由處理器執(zhí)行以便交互顯示來自多模態(tài)自然語言源的有關(guān)實(shí)體、活動(dòng)和事件的信息的指令的非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置。信息提取模塊包括用于從文本和音頻/視頻下載文檔內(nèi)容、用于對文檔內(nèi)容進(jìn)行分析、用于檢測表述、用于共指(co-reference )、用于跨文檔共指以及用于提取關(guān)系的指令代碼。信息收集模塊包括用于從信息提取模塊提取熟人、簡歷和事件介入的指令代碼。信息顯示模塊包括用于顯示來自信息收集模塊的信息的指令代碼。
[0033]信息提取模塊還可包括用于轉(zhuǎn)錄來自視頻源的音頻和用于把非英語的轉(zhuǎn)錄音頻翻譯成英語文本的指令代碼。
[0034]信息提取模塊可包括用于把同一實(shí)體下的表述聚類以及用于跨文檔鏈接實(shí)體聚類的指令代碼。
[0035]信息收集模塊可包括用于輸入句子和實(shí)體以及從該句子提取有關(guān)該實(shí)體的特定信息的指令代碼。
[0036]信息顯示模塊可包括用于把結(jié)果分組成非冗余的集合、排序各集合、生成每個(gè)集合的簡要說明、為每個(gè)集合選擇代表性片斷(snippet)、高亮顯示該片斷的包含有關(guān)特定選項(xiàng)卡(tab)的信息的部分、構(gòu)建到其他頁面的導(dǎo)航超級(jí)鏈接以及生成用來圖形化表現(xiàn)選項(xiàng)卡內(nèi)容的數(shù)據(jù)的指令代碼。
[0037]根據(jù)示范性實(shí)施例,提供了一種包含可由處理器執(zhí)行以便自動(dòng)提取和組織來自多個(gè)數(shù)據(jù)源的信息的指令的非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置。提供了用于向數(shù)據(jù)源施加包括實(shí)體的自動(dòng)檢測的自然語言處理信息提取流水線的指令代碼。提供了用于通過分析自然語言處理流水線的產(chǎn)物來識(shí)別有關(guān)檢測的實(shí)體的信息的指令代碼。提供了用于把識(shí)別的信息分組成包含等價(jià)信息的等價(jià)類的指令代碼。提供了用于建立等價(jià)類的至少一個(gè)可顯示表示的指令代碼。提供了計(jì)算至少一個(gè)可顯示表示被顯示的順序的指令代碼。提供了用于生成考慮了所述可顯示表示被顯示的順序的等價(jià)類組合顯示的指令代碼。
【專利附圖】
【附圖說明】
[0038]根據(jù)下面結(jié)合附圖進(jìn)行的詳細(xì)說明,將更清楚地理解示范性實(shí)施例,其中:
[0039]圖1示出了根據(jù)示范性實(shí)施例的操作步驟序列;
[0040]圖2示出了根據(jù)圖1的操作步驟的一部分的操作步驟序列;
[0041]圖3示出了根據(jù)圖2的操作步驟的一部分的操作步驟序列;
[0042]圖4示出了根據(jù)圖1的操作步驟的一部分的操作步驟序列;
[0043]圖5示出了根據(jù)圖1的操作步驟的一部分的操作步驟序列;
[0044]圖6示出了根據(jù)示范性實(shí)施例的示范性實(shí)體頁面;
[0045]圖7(a)和7(b)示出了用于新聞廣播應(yīng)用的示范性實(shí)體頁面;以及
[0046]圖8示出了根據(jù)示范性實(shí)施例的用于執(zhí)行操作步驟序列的程序存儲(chǔ)裝置和處理器。
【具體實(shí)施方式】
[0047]現(xiàn)在將更詳細(xì)地提到示范性實(shí)施例,在附圖中示出了示范性實(shí)施例的例子,其中類似的附圖標(biāo)記始終指代類似的元件。
[0048]示范性實(shí)施例中,術(shù)語“文檔”可指不考慮格式的文本文檔、包括流式音頻和視頻的媒體文件以及上面的混合(例如嵌有視頻和音頻流的網(wǎng)頁)。
[0049]示范性實(shí)施例中,術(shù)語“語料庫”指多媒體文檔的正式或非正式集合,多媒體文檔例如是科學(xué)期刊中發(fā)表的所有論文或者由講阿拉伯語的國家中的新聞機(jī)構(gòu)發(fā)表的所有英語網(wǎng)頁。
[0050]示范性實(shí)施例中,術(shù)語“實(shí)體”可指物理生命體(比如人)、物理無生命體(比如建筑物)、有專有名稱的事物(比如珠穆朗瑪峰)、具有可度量的物理屬性的事物(比如,時(shí)間點(diǎn)或時(shí)間段、公司、鎮(zhèn)、國土)、法人實(shí)體(比如國家)和抽象概念(比如度量單位和物理屬性的度量)。
[0051]示范性實(shí)施例中,術(shù)語“表述”表示提到實(shí)體的一段文字。給定大的結(jié)構(gòu)化文檔集,實(shí)體可與在該結(jié)構(gòu)化文檔集中出現(xiàn)的所有它的表述的集合相關(guān)聯(lián),因此術(shù)語實(shí)體也可用來表示此集合。
[0052]示范性實(shí)施例中,術(shù)語“關(guān)系”指兩個(gè)實(shí)體間的聯(lián)系(例如,巴拉克.奧巴馬是美國總統(tǒng);米歇爾.奧巴馬和巴拉克.奧巴馬結(jié)婚了)。關(guān)系表述是明確描述關(guān)系的一段文字。因此,關(guān)系表述涉及到兩個(gè)實(shí)體表述。
[0053]示范性實(shí)施例中,術(shù)語“事件”指牽涉一種或多種行動(dòng)的、兩個(gè)或更多個(gè)實(shí)體之間的關(guān)系集合。[0054]圖1示出了可應(yīng)用于由新聞機(jī)構(gòu)創(chuàng)建的網(wǎng)頁組成的并包含多個(gè)語言的多種信息模態(tài)的新聞文檔語料庫的一個(gè)示范性實(shí)施例的概觀。在步驟110中以有條理的自動(dòng)方式瀏覽(即爬行)多模態(tài)語料庫100,其中語料庫中的多模態(tài)文檔被識(shí)別和增量地檢索。這種爬行可以增量的方式進(jìn)行,這種情況下,它會(huì)僅檢索在此前的爬行操作期間不可獲得的文檔。接著在步驟120,通過轉(zhuǎn)錄分析包含音頻信息的文檔,例如音頻文件或帶音頻的視頻文件。步驟120后,可獲得所有多模態(tài)文檔的文本表示。在翻譯步驟130,外語的文本被翻譯。結(jié)果是包含所需語目的文檔以及其源語目中的其原始版本的多模態(tài)語料庫的文本表不140。 [0055]在步驟150中增量地分析語料庫的文本表示140,該步驟提取有關(guān)實(shí)體、活動(dòng)和事件的所需信息(信息提取(IE))。步驟160中組織所提取的信息,并且把組織好的信息轉(zhuǎn)換成呈現(xiàn)給用戶的可導(dǎo)航顯示形式。
[0056]圖2示出了根據(jù)示范性實(shí)施例、增量地提取有關(guān)實(shí)體、活動(dòng)和事件的信息的步驟150的IE過程。步驟210包括把自然語言處理流水線施加到集合的各文檔??呻S著新文檔添加到語料庫增量地施加流水線。步驟220遍歷語料庫中檢測的所有實(shí)體??赏ㄟ^隨著新文檔被添加到語料庫遍歷僅僅新文檔中檢測的實(shí)體來增量地應(yīng)用步驟220。步驟230識(shí)別牽涉由步驟220選擇的實(shí)體的由步驟210提取的關(guān)系表述。步驟240識(shí)別牽涉由步驟220選擇的實(shí)體的表述的事件表述。步驟250提取關(guān)于由步驟220選擇的實(shí)體的信息。
[0057]圖3示出了圖2中描繪的自然語言處理流水線步驟210的例子。文本清理步驟310從文本清除無關(guān)的字符,例如格式字符、超文本標(biāo)記語言(HTML)標(biāo)簽等。分詞(tokenization)步驟320分析清理過的文本并識(shí)別詞和句子的邊界。詞性標(biāo)記步驟330把每個(gè)詞與描述其語法功能的標(biāo)簽聯(lián)系起來。表述檢測步驟340識(shí)別分詞的文本中的實(shí)體表述和指示事件存在的詞語(稱為事件錨)。分析步驟350提取每個(gè)句子的層級(jí)語法結(jié)構(gòu),且通常把它表示成一顆樹。語義角色標(biāo)記步驟360識(shí)別由分析步驟350提取的樹中每個(gè)節(jié)點(diǎn)如何與該句中的每個(gè)動(dòng)詞語義上關(guān)聯(lián)。共指消解步驟370識(shí)別由表述檢測340生成的表述所屬的實(shí)體。關(guān)系提取步驟380檢測實(shí)體表述對之間以及實(shí)體表述與事件錨之間的關(guān)系。本領(lǐng)域普通技術(shù)人員會(huì)理解,這些步驟可采用公知的統(tǒng)計(jì)方法、規(guī)則或其組合來實(shí)施。
[0058]圖4示出了根據(jù)圖1的步驟160的組織有關(guān)實(shí)體的信息的示范性實(shí)施例。
[0059]步驟410遍歷語料庫中識(shí)別的所有實(shí)體。步驟410的增量實(shí)施例包括隨著新文檔添加到語料庫遍歷新文檔中識(shí)別的所有實(shí)體。
[0060]步驟420把提取的有關(guān)由遍歷步驟410選擇的實(shí)體的信息分成包含等價(jià)或冗余信息的等價(jià)類。在示范性實(shí)施例中,每個(gè)等價(jià)類將包括項(xiàng)的集合,其中每項(xiàng)包括從文檔提取的一段文本和有關(guān)從該段文本導(dǎo)出的所需實(shí)體的信息的規(guī)范。本領(lǐng)域普通技術(shù)人員會(huì)理解,這些等價(jià)類可以是互不相交的,或者可能是重疊的,其中同一項(xiàng)可屬于一個(gè)或多個(gè)等價(jià)類。
[0061]步驟430遍歷由步驟420生成的等價(jià)類。
[0062]步驟440將在類中選擇最能代表該類中所有項(xiàng)的一項(xiàng)。選擇步驟440采用的選擇標(biāo)準(zhǔn)可包括但不限于:選擇在等價(jià)類中出現(xiàn)的最常見的文本段(例如,段“美國總統(tǒng)巴拉克.歐巴馬”比“巴拉克.歐巴馬,美國總統(tǒng)”更常見,且根據(jù)此選擇標(biāo)準(zhǔn),會(huì)被選取為描述“巴拉克.歐巴馬”與“美國”的關(guān)系的代表段),選擇傳達(dá)了最大量的信息的文本段(例如,“巴拉克.歐巴馬是美國的第44屆且在任的總統(tǒng)”比“美國總統(tǒng)巴拉克.歐巴馬”傳達(dá)了更多有關(guān)“巴拉克?歐巴馬”與“美國”之間關(guān)系的信息,且根據(jù)此標(biāo)準(zhǔn)會(huì)被選取為代表),以及選擇具有由提取步驟150生成的最高分?jǐn)?shù)的文本段(如果該步驟把分?jǐn)?shù)與其結(jié)果聯(lián)系)。
[0063]步驟450記錄有關(guān)等價(jià)類和有關(guān)由步驟440選擇的代表的信息,使得該信息可被圖1的后續(xù)步驟170利用。圖4中示出的方法可適應(yīng)于這種情形:等價(jià)類可重疊,而仍然需要例如通過優(yōu)化過程來選擇用于不同類的不同代表,該優(yōu)化過程會(huì)組合上面列舉的選擇標(biāo)準(zhǔn)或者具有會(huì)有利于選擇重疊等價(jià)類的不同代表的差異性度量的等價(jià)選擇標(biāo)準(zhǔn)中的一個(gè)或多個(gè)。
[0064]在步驟420的一個(gè)示范性實(shí)施例中,提取的信息的各個(gè)實(shí)例可包括來自文檔的段(等效于段落)以及有關(guān)從該段提取的所需實(shí)體的信息的規(guī)范。此規(guī)范可包括屬性值對的集合、研究描述框架(RDF)三元組的集合、關(guān)系數(shù)據(jù)庫中的關(guān)系集合等。規(guī)范可采用諸如可擴(kuò)展標(biāo)記語言(XML)的描述語言、采用RDF表示語言、采用數(shù)據(jù)庫等來表示。
[0065]步驟420可包括識(shí)別滿足兩個(gè)條件的提取信息的實(shí)例組:第一個(gè)條件是每組都包含至少一個(gè)實(shí)例(主實(shí)例),在給定該實(shí)例的情況下該組中所有其他實(shí)例是冗余的;第二個(gè)條件是不同組的主實(shí)例彼此不是冗余的??刹捎脗鹘y(tǒng)的聚類算法或增量聚類算法來實(shí)現(xiàn)該結(jié)果。
[0066]圖5示出了用于構(gòu)建關(guān)于實(shí)體的且根據(jù)圖4中描繪的方法收集的信息的可顯示表示的圖1的步驟170的方法的一個(gè)示范性實(shí)施例。
[0067]步驟510中,例如,通過把等價(jià)類中各條信息的最高分?jǐn)?shù)分配給該等價(jià)類,給步驟420生成的信息的等價(jià)類評分。或者,其他量可用作等價(jià)類的分?jǐn)?shù),例如:其成員的平均分,其成員的中值分,其成員的分?jǐn)?shù)之和,等等。根據(jù)圖5中描繪的方法,分?jǐn)?shù)被用來安排等價(jià)類顯示給用戶的順序的優(yōu)先次序。
[0068]步驟520把等價(jià)類按分?jǐn)?shù)降序排序。
[0069]步驟530選擇每個(gè)等價(jià)類。針對選擇的等價(jià)類的所有實(shí)例(步驟540),步驟550構(gòu)建從等價(jià)類選擇的實(shí)例的可顯示表示。在一個(gè)示范性實(shí)施例中,這種可顯示表示包括含有用可視化高亮適當(dāng)標(biāo)記的提取的信息的段落。這種可視化高亮可包括用來區(qū)分提取的信息的顏色。此外,可顯示表示可能包括可視化提示,以容易地識(shí)別存在信息頁的其他實(shí)體。
[0070]步驟560把步驟550生成的表示組合起來,以生成等價(jià)類的可顯示表示。在一個(gè)示范性實(shí)施例中,此步驟包括顯示等價(jià)類的代表實(shí)例和提供用于顯示其他成員的手段(例如,通過提供至這些成員的表示的鏈接)。
[0071]現(xiàn)在參考圖6,示出了描繪個(gè)人Leon Panetta的實(shí)體的一個(gè)示范性頁面(即實(shí)體頁(EP))。頁面劃分成左右部分。左部分的兩個(gè)框包含從維基百科因特網(wǎng)百科全書或者其他可靠信息源分別自動(dòng)提取的圖片和簡歷信息。右部分包含按照其傳達(dá)的信息的種類組織文本的相關(guān)小段(片斷)的一組選項(xiàng)卡。各選項(xiàng)卡中的內(nèi)容是下面進(jìn)一步詳述的一系列信息提取模塊的輸出。各選項(xiàng)卡還示出了其內(nèi)容的內(nèi)容圖形概要。
[0072]下面示出的表I概括了由各選項(xiàng)卡中的文本片斷傳達(dá)的信息。
【權(quán)利要求】
1.一種用于由處理裝置從多個(gè)數(shù)據(jù)源自動(dòng)提取和組織信息的方法,包括: 把包括自動(dòng)實(shí)體檢測的自然語言處理信息提取流水線施加到數(shù)據(jù)源; 通過分析自然語言處理流水線的產(chǎn)物來識(shí)別有關(guān)所檢測的實(shí)體的信息; 把識(shí)別的信息分組到包含等價(jià)信息的等價(jià)類; 創(chuàng)建等價(jià)類的至少ー個(gè)可顯示表示; 計(jì)算至少ー個(gè)可顯示表示被顯示的順序;以及 生成考慮了可顯示表示被顯示的順序的等價(jià)類組合顯示。
2.權(quán)利要求1的方法,其中每個(gè)等價(jià)類包括項(xiàng)的集合,每項(xiàng)包括從文檔提取的一段文本和有關(guān)從該段文本導(dǎo)出的所需實(shí)體的信息的規(guī)范。
3.權(quán)利要求1的方法,其中計(jì)算可顯示表示被顯示的順序還包括隨機(jī)計(jì)算順序。
4.權(quán)利要求1的方法,其中把識(shí)別的信息分組到等價(jià)類還包括把每個(gè)識(shí)別的信息分配到単獨(dú)的等價(jià)類。
5.權(quán)利要求1的方法,其中把識(shí)別的信息分組到等價(jià)類還包括: 計(jì)算每個(gè)等價(jià)類的代表性實(shí)例; 確保不同類的代表性實(shí)例相互不是冗余的; 確保每個(gè)等價(jià)類的實(shí)例相對于該等價(jià)類的代表性實(shí)例是冗余的。
6.一種用于由處理裝置處 理信息的方法,包括: 接收用戶查詢; 從用戶查詢推斷用戶查詢意圖,以形成推+斷的用戶意圖;以及通過利用包括文本、音頻和視頻中至少ー個(gè)的多種模態(tài)的自然處理來適應(yīng)性地構(gòu)建與推斷的用戶意圖對應(yīng)的模板,響應(yīng)于用戶查詢而自動(dòng)生成頁面。
7.權(quán)利要求6的方法,還包括:當(dāng)用戶查詢選擇具有政治身份的人吋, 檢測該政治身份, 捜索關(guān)于選舉運(yùn)動(dòng)、公開露面、聲明和公共服務(wù)歷史中至少ー個(gè)的信息,以及 自動(dòng)生成響應(yīng)于用戶查詢的頁面。
8.權(quán)利要求6的方法,還包括:當(dāng)用戶查詢選擇公司吋, 捜索有關(guān)該公司的近期新聞、該公司的高級(jí)官員的信息和該公司的新聞發(fā)布稿中至少一個(gè)的信息;以及 自動(dòng)生成響應(yīng)于用戶查詢的頁面。
9.權(quán)利要求6的方法,還包括:當(dāng)用戶查詢選擇事件吋, 捜索有關(guān)該事件的新聞項(xiàng)目和對事件的反應(yīng)中至少ー個(gè)的信息;以及 自動(dòng)生成響應(yīng)于用戶查詢的頁面。
10.權(quán)利要求9的方法,其中識(shí)別事件中的實(shí)體和捜索有關(guān)這些實(shí)體的所檢索的相關(guān)信息。
11.一種用于由處理裝置從具有多種語言的的多種信息模態(tài)的文檔語料庫自動(dòng)提取和組織信息以便顯示給用戶的方法,該方法包括: 瀏覽文檔語料庫,以識(shí)別和増量地檢索包含音頻/視頻文件的文檔; 轉(zhuǎn)錄來自音頻/視頻文件的文本,以提供文本表示; 翻譯外語的文本表示的文本;增量地提取關(guān)于實(shí)體、活動(dòng)和事件中至少一個(gè)的所需信息; 組織提取的信息;以及 把組織好的所提取信息轉(zhuǎn)換成可展示給用戶的可導(dǎo)航顯示。
12.權(quán)利要求11的方法,其中增量地提取所需信息包括: 把自然語言處理流水線施加到各文檔,以遍歷所述語料庫中檢測的所有實(shí)體; 識(shí)別牽涉到選擇的實(shí)體的關(guān)系表述和事件表述, 其中實(shí)體是下面各項(xiàng)的至少一個(gè):物理生命體、物理無生命體、有專用名稱的事物、具有可度量的物理屬性的事物、法人實(shí)體和抽象概念, 其中表述是提到實(shí)體的一段文字, 其中關(guān)系是兩個(gè)實(shí)體間的聯(lián)系, 其中關(guān)系表述是描述關(guān)系的一段文字,以及 其中事件是牽涉一個(gè)或多個(gè)行動(dòng)的兩個(gè)或更多個(gè)實(shí)體之間的關(guān)系集合。
13.權(quán)利要求11的方法,其中組織提取的信息包括: 遍歷所述語料庫中識(shí)別的所有實(shí)體; 把提取的關(guān)于實(shí)體的信息分 成包含等價(jià)信息的被選等價(jià)類; 遍歷所有等價(jià)類; 選擇每個(gè)等價(jià)類中的一項(xiàng)來代表該等價(jià)類中的所有項(xiàng);以及 記錄有關(guān)該等價(jià)類和有關(guān)選擇用來生成可導(dǎo)航顯示的代表的信息, 其中每個(gè)等價(jià)類包括項(xiàng)的集合,每項(xiàng)具有從文檔提取的一段文本和有關(guān)從該段文本導(dǎo)出的所需實(shí)體的信息的規(guī)范。
14.權(quán)利要求11的方法,其中把組織好的所提取信息轉(zhuǎn)換成可展示給用戶的可導(dǎo)航顯示包括: 通過為等價(jià)類分配該類中各條信息的最高分?jǐn)?shù)、它的成員的平均分?jǐn)?shù)、它的成員的中值分?jǐn)?shù)和它的成員的分?jǐn)?shù)之和中的至少一個(gè)來給信息的等價(jià)類評分; 按分?jǐn)?shù)降序排序等價(jià)類,以安排等價(jià)類被顯示給用戶的順序的優(yōu)先次序; 對每一等價(jià)類進(jìn)行遍歷,構(gòu)建選擇的實(shí)例的可顯示表示;以及 把可顯示表示進(jìn)行組合,以生成等價(jià)類的可顯示表示。
15.權(quán)利要求14的方法,其中可顯示表示包括包含用可視化高亮標(biāo)記的提取信息的段落。
16.一種包含能夠由處理器執(zhí)行以便交互顯示來自多模態(tài)自然語言源的有關(guān)實(shí)體、活動(dòng)和事件的信息的指令的非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置,所述非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置包括配置成存儲(chǔ)以下各項(xiàng)的存儲(chǔ)器: 信息提取模塊,具有用于從文本和音頻/視頻下載文檔內(nèi)容、用于對文檔內(nèi)容進(jìn)行分析、用于檢測表述、用于共指、用于跨文檔共指以及用于提取關(guān)系的指令代碼; 信息收集模塊,具有用于從所述信息提取模塊提取熟人、簡歷和事件介入的指令代碼; 信息顯示模塊,具有用于顯示來自所述信息收集模塊的信息的指令代碼。
17.權(quán)利要求16的非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置,其中所述信息提取模塊還包括用于從視頻源轉(zhuǎn)錄音頻和用于把非英語的轉(zhuǎn)錄音頻翻譯成英語文本的指令代碼。
18.權(quán)利要求16的非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置,其中所述信息提取模塊還包括用于把同一實(shí)體下的表述聚類以及用于跨文檔鏈接實(shí)體聚類的指令代碼。
19.權(quán)利要求16的非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置,其中所述信息收集模塊還包括用于輸入句子和實(shí)體以及從該句子提取有關(guān)該實(shí)體的特定信息的指令代碼。
20.權(quán)利要求16的非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置,其中所述信息顯示模塊還包括用于把結(jié)果分組成非冗余的集合、排序所述非冗余的集合、生成每個(gè)集合的簡要說明、為每個(gè)集合選擇代表性片斷、高亮顯示該片斷的包含有關(guān)特定選項(xiàng)卡的信息的部分、構(gòu)建到其他頁面的導(dǎo)航超級(jí)鏈接以及生成用來圖形化表示選項(xiàng)卡內(nèi)容的數(shù)據(jù)的指令代碼。
21.一種包含能夠由處理器執(zhí)行以便自動(dòng)提取和組織來自多個(gè)數(shù)據(jù)源的信息的指令的非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置,所述非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置包括配置成存儲(chǔ)以下各項(xiàng)的存儲(chǔ)器: 用于向數(shù)據(jù)源施加包括實(shí)體自動(dòng)檢測的自然語言處理信息提取流水線的指令代碼; 用于通過分析所述自然語言處理流水線的產(chǎn)物來識(shí)別有關(guān)檢測的實(shí)體的信息的指令代碼; 用于把識(shí)別的信息分組到包含等價(jià)信息的等價(jià)類的指令代碼 用于創(chuàng)建等價(jià)類的至少一個(gè)可顯示表示的指令代碼; 用于計(jì)算至少一個(gè)可顯示表示被顯示的順序的指令代碼; 用于生成考慮了所述可顯示表示被顯示的順序的等價(jià)類組合顯示的指令代碼。
22.權(quán)利要求21的非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置,其中每個(gè)等價(jià)類包括項(xiàng)的集合,每項(xiàng)包括從文檔提取的一段文本和有關(guān)從該段文本導(dǎo)出的所需實(shí)體的信息的規(guī)范。
23.權(quán)利要求21的非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置,其中計(jì)算所述可顯示表示被顯示的順序還包括隨機(jī)計(jì)算順序。
24.權(quán)利要求21的非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置,其中把識(shí)別的信息分組到等價(jià)類還包括把各識(shí)別的信息分配到單獨(dú)的等價(jià)類。
25.權(quán)利要求21的非暫時(shí)性計(jì)算機(jī)程序存儲(chǔ)裝置,其中把識(shí)別的信息分組到等價(jià)類還包括: 計(jì)算每個(gè)等價(jià)類的代表性實(shí)例; 確保不同類的代表性實(shí)例相互不是冗余的;以及 確保每個(gè)等價(jià)類的實(shí)例相對于該等價(jià)類的代表性實(shí)例是冗余的。
【文檔編號(hào)】G06F17/30GK103488663SQ201310122395
【公開日】2014年1月1日 申請日期:2013年4月10日 優(yōu)先權(quán)日:2012年6月11日
【發(fā)明者】V·卡斯泰利, R·弗洛利安, 羅小強(qiáng), H·拉格哈萬 申請人:國際商業(yè)機(jī)器公司