用于選擇用以代表表格式信息的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上涉及用于處理文檔的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。更具體地,本發(fā) 明涉及用于選擇用以代表表格式信息的結(jié)構(gòu)的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。
【背景技術(shù)】
[0002] 文檔包括很多形式的信息。例如,被布置為語(yǔ)句和段落的文本信息傳達(dá)敘述形式 的信息。
[0003] 一些類型的信息用表格式組織來呈現(xiàn)。例如,文檔可以包括用于呈現(xiàn)財(cái)務(wù)信息、組 織信息以及總體上通過某種關(guān)系彼此相關(guān)的任何數(shù)據(jù)項(xiàng)的表格。
[0004] 自然語(yǔ)言處理(NLP)是一種有助于信息在人與數(shù)據(jù)處理系統(tǒng)之間的交換的技術(shù)。 例如,NLP的一個(gè)分支涉及將給定內(nèi)容變換成人類可用的語(yǔ)言或形式。例如,NLP可以接受 其內(nèi)容是計(jì)算機(jī)專用語(yǔ)言或形式的文檔,并且產(chǎn)生其對(duì)應(yīng)內(nèi)容是人類可讀形式的文檔。
[0005] 問答系統(tǒng)(Q&A系統(tǒng))是一種在數(shù)據(jù)處理硬件上執(zhí)行的人工智能應(yīng)用。Q&A系統(tǒng)回 答與用自然語(yǔ)言所呈現(xiàn)的給定主題領(lǐng)域有關(guān)的問題。
[0006] 通常,Q&A系統(tǒng)提供有對(duì)如下領(lǐng)域特定信息的集合的訪問:Q&A系統(tǒng)基于該領(lǐng)域特 定信息的集合回答與該領(lǐng)域有關(guān)的問題。例如,Q&A系統(tǒng)訪問關(guān)于該領(lǐng)域的知識(shí)體系,其中 知識(shí)體系(知識(shí)庫(kù))可以按照各種配置來組織。例如,某個(gè)領(lǐng)域的知識(shí)庫(kù)可以包括領(lǐng)域特 定信息的結(jié)構(gòu)化存儲(chǔ)庫(kù)、諸如與該領(lǐng)域有關(guān)的本體論或非結(jié)構(gòu)化數(shù)據(jù)、或者關(guān)于該領(lǐng)域的 自然語(yǔ)言文檔的集合。IBMWatson是Q&A系統(tǒng)的一個(gè)示例。(IBM和Watson是美國(guó)和其他 國(guó)家的國(guó)際商用機(jī)器公司的商標(biāo))。
[0007] Q&A系統(tǒng)可以被配置成接收來自各種源的輸入。例如,Q&A系統(tǒng)可以通過網(wǎng)絡(luò)接收 以下內(nèi)容作為輸入:電子文檔或其他數(shù)據(jù)的語(yǔ)料庫(kù)、來自內(nèi)容創(chuàng)建者的數(shù)據(jù)、來自一個(gè)或多 個(gè)內(nèi)容用戶的信息、以及來自其他可能的輸入源的其他這樣的輸入。至Q&A系統(tǒng)的輸入中 的一些或所有輸入可以通過網(wǎng)絡(luò)102來被路由。網(wǎng)絡(luò)上的各種計(jì)算設(shè)備可以包括用于內(nèi)容 創(chuàng)建者和內(nèi)容用戶的訪問點(diǎn)。這些計(jì)算設(shè)備中的一些計(jì)算設(shè)備可以包括用于存儲(chǔ)數(shù)據(jù)的語(yǔ) 料庫(kù)的設(shè)備。網(wǎng)絡(luò)可以包括本地網(wǎng)絡(luò)連接和遠(yuǎn)程連接,使得Q&A系統(tǒng)可以在任何尺寸的環(huán) 境、包括本地和全局環(huán)境、例如因特網(wǎng)中進(jìn)行操作。另外地,Q&A系統(tǒng)可以被配置成用作前 端系統(tǒng),該前端系統(tǒng)能夠使得從文檔、網(wǎng)絡(luò)可訪問的源和/或結(jié)構(gòu)化的數(shù)據(jù)源提取的或在 其中代表的各種知識(shí)可用。以這一方式,一些處理填充具有輸入接口的Q&A系統(tǒng)以接收知 識(shí)請(qǐng)求以及相應(yīng)地接收響應(yīng)。
[0008] 內(nèi)容創(chuàng)建者在文檔中創(chuàng)建內(nèi)容用于作為數(shù)據(jù)的語(yǔ)料庫(kù)的一部分、通過Q&A系統(tǒng) 來使用。文檔可以包括用于在Q&A系統(tǒng)中使用的任何文件、文本、文章或數(shù)據(jù)源。內(nèi)容用 戶向Q&A系統(tǒng)中輸入問題,這些問題由Q&A系統(tǒng)使用數(shù)據(jù)的語(yǔ)料庫(kù)中的內(nèi)容來回答。在處 理針對(duì)語(yǔ)義內(nèi)容評(píng)估文檔的給定部分時(shí),處理可以使用各種約定來向Q&A系統(tǒng)詢問這樣 的文檔。一個(gè)約定是將詢問作為格式良好的問題發(fā)送給Q&A系統(tǒng)。語(yǔ)義內(nèi)容是基于能指 (signifier)、諸如詞語(yǔ)、短語(yǔ)、標(biāo)記和符號(hào)之間的關(guān)系的內(nèi)容、以及它們代表什么、它們的 意義或者蘊(yùn)意。換言之,語(yǔ)義內(nèi)容是諸如通過使用自然語(yǔ)言處理來解釋表達(dá)的內(nèi)容。
[0009] 處理向Q&A系統(tǒng)發(fā)送形式合法的問題(例如自然語(yǔ)言問題)。Q&A系統(tǒng)解釋問題 并且向內(nèi)容用戶提供包含問題的一個(gè)或多個(gè)答案的響應(yīng)。Q&A系統(tǒng)還可以按答案的經(jīng)排序 的列表向用戶提供響應(yīng)。
[0010] 作為示例,IBMWatson?Q&A系統(tǒng)接收輸入問題,解析問題以提取問題的主要特 征,使用提取出的特征來制定詢問,以及將這些詢問應(yīng)用于數(shù)據(jù)的語(yǔ)料庫(kù)?;趯⒃儐枒?yīng)用 于數(shù)據(jù)的語(yǔ)料庫(kù),Q&A系統(tǒng)通過以下操作來生成輸入問題的假說或候選答案的集合:遍及 數(shù)據(jù)的語(yǔ)料庫(kù)查找數(shù)據(jù)的語(yǔ)料庫(kù)的有某一可能性包含針對(duì)輸入問題的有價(jià)值響應(yīng)的部分。
[0011] IBMWatson?Q&A系統(tǒng)然后通過使用各種推理算法對(duì)輸入問題的語(yǔ)言以及數(shù)據(jù)的 語(yǔ)料庫(kù)在應(yīng)用詢問期間被找出的部分中的每個(gè)部分中所使用的語(yǔ)言執(zhí)行分析。可以應(yīng)用數(shù) 百個(gè)甚至數(shù)千個(gè)推理算法,其中每個(gè)算法執(zhí)行不同的分析、例如比較并且生成得分。例如, 某些推理算法可以查看輸入問題的語(yǔ)言內(nèi)的用語(yǔ)及同義字與數(shù)據(jù)的語(yǔ)料庫(kù)的找出部分的 匹配。其他推理算法可以查找語(yǔ)言中的時(shí)間特征和空間特征,而再其他的推理算法可以評(píng) 估數(shù)據(jù)的語(yǔ)料庫(kù)的部分的來源并且評(píng)估其真實(shí)性。
[0012] 從各種推理算法獲得的得分指示基于該推理算法的特定關(guān)注區(qū)域的、潛在響應(yīng)通 過輸入問題而被推斷出的程度。每個(gè)所得得分然后相對(duì)于統(tǒng)計(jì)模型而被加權(quán)。統(tǒng)計(jì)模型捕 獲推理算法在IBMWatson?Q&A系統(tǒng)的訓(xùn)練期期間在建立特定領(lǐng)域的兩個(gè)相似的段落之間 的推斷時(shí)表現(xiàn)得怎樣。統(tǒng)計(jì)模型然后可以用于概述IBMWatson?Q&A系統(tǒng)對(duì)于如下證據(jù)所 具有的置信度水平:潛在響應(yīng)、即候選答案通過問題被推斷出。這個(gè)過程可以對(duì)于候選答案 中的每個(gè)候選答案而被重復(fù),直至IBMWatson?Q&A系統(tǒng)識(shí)別出浮現(xiàn)為比其他答案強(qiáng)得多 的候選答案并且因此生成輸入問題的最終答案或者經(jīng)排序的答案集合??梢岳鐝腎BM公 司網(wǎng)站、IBM紅皮書等獲得關(guān)于IBMWatson?Q&A系統(tǒng)的更多信息。例如,可以在2011年 IBMdeveloperWorks中Yuan等人的"WatsonandHealthcare"中以及在 2012 年IBM紅皮 書中RobHigh的"TheEraofCognitiveSystems:AnInsideLookatIBMWatsonand HowitWorks"中找到關(guān)于IBMWatson?Q&A系統(tǒng)的信息。
【發(fā)明內(nèi)容】
[0013] 說明性實(shí)施例提供用于表格式數(shù)據(jù)的主題分析的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。 一個(gè)實(shí)施例包括一種用于選擇用以代表表格式信息的結(jié)構(gòu)的方法。該實(shí)施例從表格結(jié)構(gòu)的 匯集中選擇與表格對(duì)應(yīng)的表格結(jié)構(gòu),表格結(jié)構(gòu)函數(shù)描述表格結(jié)構(gòu)中的單元格配對(duì)中的單元 格何時(shí)應(yīng)當(dāng)彼此相似。該實(shí)施例選擇單元格相似度函數(shù),其中單元格相似度函數(shù)根據(jù)準(zhǔn)則 來比較表格結(jié)構(gòu)中的單元格配對(duì)中的單元格并且輸出單元格配對(duì)包括包含有彼此相似的 值的單元格的概率。該實(shí)施例根據(jù)單元格相似度函數(shù)來確定表格結(jié)構(gòu)中的第一單元格配對(duì) 中的第一單元格和第二單元格彼此相似的單元格相似概率。該實(shí)施例使用單元格相似概率 來調(diào)整表格結(jié)構(gòu)代表表格的計(jì)算的概率。該實(shí)施例將所計(jì)算的概率指示為第一模型代表表 格的概率,其中第一模型是表格結(jié)構(gòu)和所選擇的單元格相似度函數(shù)的函數(shù)。
[0014] 另一實(shí)施例包括一種計(jì)算機(jī)可用程序產(chǎn)品,其包括計(jì)算機(jī)可用存儲(chǔ)設(shè)備,計(jì)算機(jī) 可用存儲(chǔ)設(shè)備包括用于選擇用以代表表格式信息的結(jié)構(gòu)的計(jì)算機(jī)可用代碼。該實(shí)施例還包 括用于從表格結(jié)構(gòu)的匯集中選擇與表格對(duì)應(yīng)的表格結(jié)構(gòu)的計(jì)算機(jī)可用代碼,表格結(jié)構(gòu)函數(shù) 描述表格結(jié)構(gòu)中的單元格配對(duì)中的單元格何時(shí)應(yīng)當(dāng)彼此相似。該實(shí)施例還包括用于選擇單 元格相似度函數(shù)的計(jì)算機(jī)可用代碼,其中單元格相似度函數(shù)根據(jù)