信息提取支持設(shè)備和方法
【專利說(shuō)明】
[0001] 相關(guān)申請(qǐng)的交叉引用
[0002] 本申請(qǐng)基于2014年11月19日遞交的日本專利申請(qǐng)2014-234963號(hào)并要求其優(yōu) 先權(quán)的權(quán)益,這里通過(guò)引用并入該日本專利申請(qǐng)的全部?jī)?nèi)容。
技術(shù)領(lǐng)域
[0003] 本文描述的實(shí)施例一般地涉及信息提取支持設(shè)備和方法。
【背景技術(shù)】
[0004] 從網(wǎng)頁(yè)或文檔提取諸如詞的屬性(例如,產(chǎn)品名稱和產(chǎn)品的價(jià)格)之類的信息的 技術(shù)是已知的。利用這種技術(shù),可以容易地組織文檔內(nèi)的特定信息(例如,從文檔提取產(chǎn)品 的規(guī)格的列表并且制作表格)。
[0005] 然而,如果要提取的信息對(duì)于每個(gè)文檔是不同的,則選擇屬性是麻煩的??梢允褂?傳統(tǒng)的技術(shù),即,將多個(gè)文檔分類到指定的類別中并且根據(jù)該分類來(lái)判定要提取哪種信息。
【附圖說(shuō)明】
[0006] 圖1是示出根據(jù)第一實(shí)施例的信息提取支持設(shè)備的框圖。
[0007] 圖2是示出信息提取設(shè)備的信息提取處理的流程圖。
[0008] 圖3A圖示了從目標(biāo)文檔提取的屬性表述的示例。
[0009] 圖3B圖示了示出目標(biāo)文檔的分析結(jié)構(gòu)的表格的示例。
[0010] 圖4圖示了存儲(chǔ)在特征存儲(chǔ)庫(kù)中的邏輯規(guī)則的示例。
[0011] 圖5圖示了在候選屬性呈現(xiàn)器和生成器處生成的分析結(jié)果的呈現(xiàn)的示例。
[0012] 圖6是示出根據(jù)第二實(shí)施例的信息提取支持設(shè)備的框圖。
[0013] 圖7圖示了用戶界面的示例。
[0014] 圖8圖示了邏輯規(guī)則的更新的示例。
【具體實(shí)施方式】
[0015] 如果提取信息的人(分析者)不是訓(xùn)練有素的或者不是專家,則可能有這樣的問(wèn) 題,即,該人不能認(rèn)識(shí)到根據(jù)目的應(yīng)當(dāng)提取哪種屬性。尤其,如果要提取的屬性取決于特征 的組合而變化,則不是專家的人難以考慮文檔與特征之間的關(guān)系。此外,如果文檔的數(shù)目增 加,則必須提取的信息的量增加,并且分析者核對(duì)的份額也增加。
[0016] -般地,根據(jù)一個(gè)實(shí)施例,信息提取支持設(shè)備包括第一獲取器、判定器、選擇器和 提取器。第一獲取器獲取從中提取指示某種類型的期望信息的至少一個(gè)屬性的文檔作為分 析目標(biāo)。判定器判定該至少一個(gè)屬性是否有效,并且獲得有效屬性中的至少一個(gè)作為一個(gè) 或多個(gè)候選屬性。選擇器從一個(gè)或多個(gè)候選屬性中選擇要用于分析的屬性作為選中屬性。 提取器從文檔中提取屬于選中屬性的表述作為屬性表述。
[0017] 以下,將參考附圖詳細(xì)描述根據(jù)當(dāng)前實(shí)施例的信息提取支持設(shè)備、方法和程序。在 以下實(shí)施例中,執(zhí)行相同操作的元素將被賦予相同的附圖標(biāo)記,并且對(duì)其的冗余說(shuō)明將被 酌情省略。
[0018] (第一實(shí)施例)
[0019] 將參考圖1的框圖描述根據(jù)第一實(shí)施例的信息提取支持設(shè)備。
[0020] 根據(jù)第一實(shí)施例的信息提取支持設(shè)備100包括文檔獲取器101、特征存儲(chǔ)庫(kù)102、 有效性判定器103、候選屬性呈現(xiàn)器104、選擇器105、屬性表述提取器106和生成器107。
[0021] 文檔獲取器101獲取要分析的一個(gè)或多個(gè)目標(biāo)文檔。目標(biāo)文檔可通過(guò)用戶輸入獲 取,或者可由外部服務(wù)器自動(dòng)收集。在本實(shí)施例中,假定目標(biāo)文檔是由自然書(shū)寫表述的文本 數(shù)據(jù),例如上傳在互聯(lián)網(wǎng)上的網(wǎng)頁(yè)和新聞文章。然而,目標(biāo)文檔不限于此,而可以是可從數(shù) 據(jù)提取屬性的任何事物。屬性指示用戶希望提取的某種類型的期望信息,例如產(chǎn)品名稱、價(jià) 格和公司名稱。文檔獲取器101可從用戶獲取分析的目的(以下也稱為"分析目的")。分 析目的可例如是技術(shù)地圖、供應(yīng)鏈或者家系圖,但不限于此。
[0022] 特征存儲(chǔ)庫(kù)102存儲(chǔ)表格、特征提取器和一個(gè)或多個(gè)邏輯規(guī)則,在該表格中包括 詞和短語(yǔ)的用語(yǔ)(wording)和用語(yǔ)的屬性彼此關(guān)聯(lián)。特征提取器提取用于提取屬性的文檔 的元數(shù)據(jù)以提取后面說(shuō)明的屬性表述(例如,創(chuàng)建的時(shí)間和日期、文檔的文件格式、語(yǔ)言等 等)、文檔中包括的用語(yǔ)的特征(例如,諸如名詞和動(dòng)詞之類的詞性、諸如人名和地名之類 的專有名詞的分類、出現(xiàn)在詞之前或之后的用語(yǔ)、N元語(yǔ)法等等)以及文檔中包括的附圖的 特征(圖畫(huà)、照片、圖表和插圖的分類、表格中的列或行的數(shù)目等等)。邏輯規(guī)則是與在用于 提取后面說(shuō)明的屬性表述的屬性之間的關(guān)系有關(guān)的規(guī)則。特征提取器和要作為提取候選的 屬性具有多對(duì)一關(guān)系或一對(duì)多關(guān)系。換言之,一個(gè)或多個(gè)特征提取器對(duì)應(yīng)于一個(gè)屬性,或者 特征提取器對(duì)應(yīng)于一個(gè)或多個(gè)屬性。特征提取器與屬性之間的關(guān)系可被預(yù)存儲(chǔ)或者基于提 取結(jié)果來(lái)選擇。稍后將參考圖4描述邏輯規(guī)則。特征存儲(chǔ)庫(kù)102存儲(chǔ)分析目的和對(duì)于該分 析目的預(yù)期的相應(yīng)屬性。分析目的和屬性彼此相關(guān)聯(lián)。
[0023] 有效性判定器103從文檔獲取器101接收一個(gè)或多個(gè)目標(biāo)文檔,并且通過(guò)參考特 征存儲(chǔ)庫(kù)102來(lái)判定可從該一個(gè)或多個(gè)目標(biāo)文檔提取的屬性對(duì)于分析目的是否有效。有效 性判定器103獲得被判定為有效的一個(gè)或多個(gè)屬性作為候選屬性。
[0024] 如果文檔獲取器101不獲取分析目的,則有效性判定器103可通過(guò)參考目標(biāo)文檔 和候選屬性中的至少一個(gè)來(lái)估計(jì)分析目的。在此情況下,有效性判定器103可估計(jì)一個(gè)或 多個(gè)目標(biāo)文檔的類別和文檔格式。
[0025] 候選屬性呈現(xiàn)器104從有效性判定器103獲取一個(gè)或多個(gè)候選屬性和一個(gè)或多個(gè) 目標(biāo)文檔,并且例如在顯示器上呈現(xiàn)一個(gè)或多個(gè)候選屬性。
[0026] 選擇器105從用戶接收指令(以下稱為"用戶指令"),并且從候選屬性呈現(xiàn)器104 接收一個(gè)或多個(gè)候選屬性和一個(gè)或多個(gè)目標(biāo)文檔。選擇器105從由候選屬性呈現(xiàn)器104呈 現(xiàn)的候選屬性之中選擇由用戶指令選擇的要用于分析的屬性作為選中屬性。
[0027] 屬性表述提取器106從選擇器105接收選中屬性和一個(gè)或多個(gè)目標(biāo)文檔,并且對(duì) 于每個(gè)選中屬性從一個(gè)或多個(gè)目標(biāo)文檔中提取屬于該選中屬性的表述作為屬性表述。
[0028] 生成器107從屬性表述提取器106接收選中屬性、相應(yīng)的屬性表述和一個(gè)或多個(gè) 目標(biāo)文檔。生成器107根據(jù)分析目的執(zhí)行包括對(duì)選中屬性和屬性表述設(shè)定用戶希望的輸出 格式在內(nèi)的分析處理,并且生成分析結(jié)果。分析結(jié)果例如被輸出到顯示器。生成器107可 通過(guò)接收包括指示輸出格式的信息的用戶指令來(lái)設(shè)定輸出格式。否則,特定的輸出格式可 被預(yù)設(shè)為默認(rèn)設(shè)定。
[0029] 接下來(lái),將參考圖2的流程圖說(shuō)明信息提取支持設(shè)備100處的信息提取處理。
[0030] 在步驟S201中,文檔獲取器101獲取一個(gè)或多個(gè)目標(biāo)文檔。
[0031] 在步驟S202中,有效性判定器103判定可從一個(gè)或多個(gè)目標(biāo)文檔提取的屬性是否 有效。
[0032] 例如,如果一個(gè)或多個(gè)目標(biāo)文檔中包括的屬于特定屬性的用語(yǔ)出現(xiàn)的次數(shù)不小于 閾值,則該屬性可被判定為有效。具體而言,如果由恰當(dāng)表述提取方法判定詞語(yǔ)"A公司"在 目標(biāo)文檔中出現(xiàn)的次數(shù)不小于閾值,則詞語(yǔ)"A公司"所屬的屬性"公司名稱"被判定為有效 屬性。
[0033] 用語(yǔ)和用語(yǔ)的屬性可通過(guò)參考存儲(chǔ)在特征存儲(chǔ)庫(kù)102中的指示用語(yǔ)與屬性之間 的對(duì)應(yīng)關(guān)系的查找表或者通過(guò)參考關(guān)于用語(yǔ)與屬性之間的對(duì)應(yīng)關(guān)系的外部信息來(lái)判定。否 貝1J,用語(yǔ)與屬性之間的對(duì)應(yīng)關(guān)系可基于在特征存儲(chǔ)庫(kù)102中對(duì)于相應(yīng)屬性存儲(chǔ)的該用語(yǔ)被 特征提取