專利名稱:信息提取系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及從文本提取與事務(wù)有關(guān)而被書寫的事實和意見等記述內(nèi)容的信息提取系統(tǒng)。
背景技術(shù):
作為以往的信息提取系統(tǒng),已知從文本提取關(guān)鍵詞(keyword)的系統(tǒng)、提取固有名和數(shù)值表現(xiàn)等的系統(tǒng)、提取與5W1H等事實有關(guān)的信息的系統(tǒng)、以及提取意見和評判等的系統(tǒng)。狹義的信息提取如非專利文獻1中被介紹的那樣,在提取文本的中心的信息的系統(tǒng)中,典型的是以特定的領(lǐng)域的文本為對象來準(zhǔn)備應(yīng)提取的信息的模板(template)(或者構(gòu)架(frame)),提取該信息。另一方面,近年來進行著要提取文本中的意見和評判的研究。例如,專利文獻1是從文件集合中提取與利用者指定的事物有關(guān)的意見的文獻。
專利文獻1特開2003-203136號公報非專利文獻1長尾他著“自然語言處理”巖波書店(pp.438-441,1996)但是,雖然在專利文獻1那樣以往的意見信息提取系統(tǒng)中可以提取與事物有關(guān)的意見,但是存在不能將與事物有關(guān)而被書寫的事實或意見的觀點與記述對應(yīng)而提取的課題。
發(fā)明內(nèi)容
本發(fā)明是鑒于上述問題而完成的,其第1目的是提供一種信息提取系統(tǒng),將事實和意見的觀點與記述附帶對應(yīng)地提取與在文本中表現(xiàn)的事物有關(guān)的事實和意見等記述內(nèi)容。
本發(fā)明的第2目的是提供一種信息提取系統(tǒng),在提取所述事實和意見等記述內(nèi)容時,能將其整理為容易進行事實和意見的對應(yīng)和關(guān)聯(lián)性的比較的形式來進行提取。
為了解決上述課題,本發(fā)明的信息提取系統(tǒng)設(shè)為以下結(jié)構(gòu)即包括輸入單元,輸入文本;觀點/記述提取規(guī)則存儲單元,存儲用于特定被記述在文本中的表現(xiàn)的觀點和與該觀點有關(guān)的記述的組的觀點/記述提取規(guī)則;觀點/記述提取單元,從對被輸入所述輸入單元中的文本中的字符串賦予的句法的屬性或者含義的屬性的至少一個屬性中,利用所述觀點/記述提取規(guī)則,將觀點及其記述的組提取作為附帶對應(yīng)的要素元數(shù)據(jù);以及元數(shù)據(jù)存儲單元,存儲所述觀點/記述提取單元提取的要素元數(shù)據(jù)。
按照該結(jié)構(gòu),將與文本中表現(xiàn)的事物有關(guān)的事實和意見等記述內(nèi)容作為觀點和記述的組來構(gòu)成,并且可以將事實和意見附帶對應(yīng)來提取。進而,可以整理為對于在之后的處理中提取的事實和意見,容易進行關(guān)聯(lián)性的比較的形式。
如以上說明的那樣,本發(fā)明的信息提取系統(tǒng)具有以下效果通過利用被記述在文本中的表現(xiàn)的觀點和與該觀點有關(guān)的記述的組的觀點/記述提取規(guī)則來將觀點及其記述的組附帶對應(yīng)地提取,可以將與在文本中表現(xiàn)的事物有關(guān)的事實和意見的記述內(nèi)容作為觀點和記述的組來對應(yīng)提取。
本發(fā)明的上述目的和優(yōu)點可以通過參照附圖進行說明的以下的實施方式來進一步明白。
圖1是表示本發(fā)明的實施方式1的信息提取系統(tǒng)的結(jié)構(gòu)的方框圖。
圖2(a)~圖2(c)是表示實施方式1的信息提取系統(tǒng)中的到從文本提取要素元數(shù)據(jù)為止的一連串的處理的流程的說明圖。
圖3(a)~圖3(b)是表示實施方式1的信息提取系統(tǒng)中的觀點/記述提取規(guī)則和規(guī)則的結(jié)構(gòu)要素定義的例子的圖。
圖4是表示實施方式1的信息提取系統(tǒng)中的綜合元數(shù)據(jù)的例子的圖。
圖5是表示本發(fā)明的實施方式2的信息提取系統(tǒng)的結(jié)構(gòu)的方框圖。
圖6(a)~圖6(b)是表示實施方式2的信息提取系統(tǒng)中的、被輸入的文本和被賦予了含義屬性的文本的例子的圖。
圖7(a)~圖7(b)是表示實施方式2的信息提取系統(tǒng)中的、含義屬性賦予規(guī)則的例子和含義屬性賦予規(guī)則構(gòu)成要素定義的例子的圖。
圖8(a)~圖8(b)是表示實施方式2的信息提取系統(tǒng)中的、附帶含義屬性文本的例子和觀點/記述認定例的圖。
圖9(a)~圖9(b)是表示實施方式2的信息提取系統(tǒng)中的、觀點/記述提取規(guī)則和規(guī)則的構(gòu)成要素定義的例子的圖。
圖10是表示實施方式2的信息提取系統(tǒng)中的、要素元數(shù)據(jù)提取結(jié)果的例子的圖。
圖11是表示實施方式2的信息提取系統(tǒng)中的、綜合元數(shù)據(jù)的例子的圖。
圖12是本發(fā)明的實施方式3的信息提取系統(tǒng)的結(jié)構(gòu)的方框圖。
圖13(a)~圖13(b)是表示實施方式3的信息提取系統(tǒng)中的觀點/記述的認定結(jié)果和要素元數(shù)據(jù)的提取結(jié)果的圖。
圖14(a)~圖14(b)是表示實施方式3的信息提取系統(tǒng)中的話題事物推定規(guī)則和話題事物推定規(guī)則結(jié)構(gòu)要素定義的例子的圖。
圖15是表示實施方式3的信息提取系統(tǒng)中的推定的話題事物的例子的圖。
圖16是表示實施方式3的信息提取系統(tǒng)中的綜合元數(shù)據(jù)的例子的圖。
圖17是表示實施方式3的信息提取系統(tǒng)中的元數(shù)據(jù)輸出形式的例子的圖。
圖18是表示本發(fā)明的實施方式4的信息提取系統(tǒng)的結(jié)構(gòu)的方框圖。
圖19(a)~圖19(d)是表示實施方式4的信息提取系統(tǒng)的、表示文本的來源信息、用戶信息的例子和附帶含義屬性的來源消息、附帶含義屬性的用戶信息的例子的圖。
圖20(a)~圖20(b)是表示實施方式4的信息提取系統(tǒng)的來源信息含義屬性賦予規(guī)則、用戶含義屬性賦予規(guī)則的例子的圖。
圖21(a)~圖21(b)是表示實施方式4的信息提取系統(tǒng)的來源觀點/記述提取規(guī)則、用戶觀點/記述提取規(guī)則的例子的圖。
圖22(a)~圖22(b)是表示實施方式4的信息提取系統(tǒng)的來源元數(shù)據(jù)提取結(jié)果、用戶元數(shù)據(jù)提取結(jié)果的例子的圖。
圖23是表示實施方式4的信息提取系統(tǒng)的客觀性/可靠性判定規(guī)則和可靠性/可靠性判定規(guī)則結(jié)構(gòu)要素定義的例子的圖。
圖24(a)~圖24(b)是表示實施方式4的信息提取系統(tǒng)的文本的例子和附帶含義屬性文本的例子的圖。
圖25(a)~圖25(b)是表示實施方式4的信息提取系統(tǒng)的觀點/記述提取規(guī)則例和觀點/記述結(jié)構(gòu)要素定義例的圖。
圖26是表示實施方式4的信息提取系統(tǒng)的要素元數(shù)據(jù)提取結(jié)果的例子的圖。
圖27是表示實施方式4的信息提取系統(tǒng)的客觀性/可靠性判定結(jié)果的例子的圖。
圖28是表示實施方式4的信息提取系統(tǒng)的元數(shù)據(jù)綜合結(jié)果的例子的圖。
圖29是表示實施方式4的信息提取系統(tǒng)的元數(shù)據(jù)輸出形式的例子的圖。
標(biāo)號說明100、200、300、400信息提取系統(tǒng)102輸入單元106元數(shù)據(jù)核對單元108元數(shù)據(jù)綜合單元110元數(shù)據(jù)存儲單元120觀點/記述提取單元122觀點/記述提取規(guī)則存儲單元202屬性賦予單元204含義屬性賦予規(guī)則存儲單元206附帶含義屬性文本存儲單元302用戶請求處理單元304元數(shù)據(jù)輸出形式生成單元306元數(shù)據(jù)輸出單元310話題事物推定單元312話題事物推定規(guī)則存儲單元412客觀性/可靠性判定單元414客觀性/可靠性判定規(guī)則存儲單元具體實施方式
以下,參照附圖詳細地說明本發(fā)明的實施方式。
(實施方式1)圖1是表示本發(fā)明的實施方式1的信息提取系統(tǒng)的結(jié)構(gòu)的方框圖。本實施方式的信息提取系統(tǒng)100是用于將與被輸入的文本中表現(xiàn)的事物有關(guān)的事實和意見等記述內(nèi)容構(gòu)成為觀點和記述的組,并將其整理為容易進行事實和意見的附帶對應(yīng)和關(guān)聯(lián)性的比較的形式來提取的系統(tǒng)。信息提取系統(tǒng)100包括輸入文本的輸入單元102;對用于特定文本中記述的表現(xiàn)的觀點和與該觀點有關(guān)的記述的組的觀點/記述規(guī)則進行存儲的觀點/記述提取規(guī)則存儲單元122;根據(jù)前述文本中的字符串的句法的屬性,利用前述觀點/記述提取規(guī)則將觀點及其記述附帶對應(yīng),作為賦予了用于識別它們的識別信息的要素元數(shù)據(jù)來提取的觀點/記述提取單元120;分別核對觀點/記述提取單元120提取的要素元數(shù)據(jù)的觀點之間、記述之間,并且推定要素元數(shù)據(jù)的關(guān)聯(lián)性的元數(shù)據(jù)核對單元106;根據(jù)前述被推定出的關(guān)聯(lián)性來綜合具有關(guān)聯(lián)性的要素元數(shù)據(jù)的元數(shù)據(jù)綜合單元108;存儲作為由元數(shù)據(jù)綜合單元108綜合的要素元數(shù)據(jù)的綜合元數(shù)據(jù)的元數(shù)據(jù)存儲單元110。
而且,信息提取系統(tǒng)100的硬件結(jié)構(gòu)是任意的,不被特別限制。例如,信息提取系統(tǒng)100可以通過具有CPU和存儲裝置(ROM、RAM、硬盤及其它各種存儲介質(zhì))的計算機來實現(xiàn)。這樣,在信息提取系統(tǒng)100通過計算機實現(xiàn)的情況下,通過計算機執(zhí)行記述了該信息提取系統(tǒng)100的動作的程序來進行規(guī)定的動作。
在該信息提取系統(tǒng)100中,首先,接受由輸入單元102輸入的文本。在觀點/記述提取規(guī)則存儲單元122中,存儲有用于特定被寫在該文本中的表現(xiàn)的規(guī)定和與該觀點有關(guān)的記述的組的觀點/記述提取規(guī)則。觀點/記述提取單元120參照被存儲在觀點/記述提取規(guī)則存儲單元122中的觀點/記述提取規(guī)則,根據(jù)前述文本中的字符串的句法的屬性,使與事物有關(guān)而被記述的內(nèi)容作為觀點及其記述的組來附帶對應(yīng)。接著,作為對被附帶對應(yīng)的觀點及其記述的組賦予了用于識別它們的識別信息的要素元數(shù)據(jù)ID的要素元數(shù)據(jù)來進行提取。然后,元數(shù)據(jù)核對單元106分別比較、核對被提取出的要素元數(shù)據(jù)的觀點間、記述間,推定關(guān)聯(lián)性。進而,元數(shù)據(jù)綜合單元108根據(jù)元數(shù)據(jù)核對單元106推定的關(guān)聯(lián)性,綜合具有關(guān)聯(lián)性的要素元數(shù)據(jù),并將其作為綜合元數(shù)據(jù)存儲在元數(shù)據(jù)存儲單元110中。
這里,所謂元數(shù)據(jù),一般是表示與目錄(contents)的內(nèi)容和書目事項等目錄有關(guān)的信息的數(shù)據(jù)。在本發(fā)明中,將與在文本中表現(xiàn)的事物有關(guān)的事實和意見等目錄的內(nèi)容有關(guān)的記述內(nèi)容作為觀點和記述的組來構(gòu)成的結(jié)構(gòu)事物元數(shù)據(jù)的基本單位,特別稱為要素元數(shù)據(jù)。上述所謂事實和意見的語言中的“事實”,意味著不管誰見到都可客觀地認定為相同的情況,例如指事物的名稱(包括固有名稱)和日期時間、或者數(shù)量這樣的情況。所謂“意見”,意味著對于各個事物,各人怎樣考慮,或者感想,或者評價這樣的見解,例如指重、輕、熱、不充分這樣的情況。所謂“觀點”,意味著與事物有關(guān)的事實和意見,著眼于事物的哪樣的點,或者從哪樣的觀點敘述這樣的情況。而且,所謂“記述”,意味著從上述觀點具體用哪樣的表現(xiàn)方式在文本中被表達。但是,有時構(gòu)成要素元數(shù)據(jù)的觀點和記述在文本中僅表現(xiàn)其中一個。而且,在對于一個觀點存在多種記述的情況下,對一個觀點提取多個記述。而且,在要素元數(shù)據(jù)中,不僅觀點和記述的組,也可以還包含它們的屬性和話題等關(guān)聯(lián)信息。而且,在多個要素元數(shù)據(jù)的觀點和記述以及它們的關(guān)聯(lián)信息中,將綜合了關(guān)聯(lián)的內(nèi)容的要素元數(shù)據(jù)稱為綜合元數(shù)據(jù)。
要素元數(shù)據(jù)假設(shè)被賦予作為識別信息的要素元數(shù)據(jù)ID。要素元數(shù)據(jù)ID是為了識別出現(xiàn)了要素元數(shù)據(jù)的文本,以及各個要素元數(shù)據(jù)而被賦予各個要素元數(shù)據(jù)的要素元數(shù)據(jù)的識別信息。而且,所謂字符串的句法的屬性,是與字符串的句子結(jié)構(gòu)的功能有關(guān)的屬性,至少由詞類分類信息、或者與字符串列表有關(guān)的信息的其中一個指定。與字符串列表有關(guān)的信息,被用于一部分詞的邊界的認定中,例如通過將字種用作與字符串列表有關(guān)的信息,即使是未實施句子結(jié)構(gòu)解析的文本,也可以進行名詞連續(xù)和助詞的區(qū)分的認定等簡易的解析。
接著,對于具有上述結(jié)構(gòu)的信息提取系統(tǒng)100,利用具體例更詳細地進行說明。圖2是表示直至從被輸入的文本中提取與事物有關(guān)而被表現(xiàn)的事實和意見等內(nèi)容作為要素元數(shù)據(jù)為止的一連串的處理的概要的說明圖。在圖2中,在圖2(a)中表示輸入文本例,在圖2(b)中表示觀點/記述認定例,在圖2(c)中表示要素元數(shù)據(jù)提取結(jié)果例。
首先,觀點/記述提取單元120參照存儲在觀點/記述提取規(guī)則存儲單元122中的觀點/記述提取規(guī)則,調(diào)查從輸入單元102輸入的文本內(nèi)的字符串是否具有觀點/記述提取規(guī)則的規(guī)范(pattern)指定的句法的屬性。在圖3中表示觀點/記述提取規(guī)則和規(guī)則的構(gòu)成要素定義的例子。這里,所謂規(guī)則的結(jié)構(gòu)要素定義,是在規(guī)則中,將規(guī)范等在記述中使用的字符串作為結(jié)構(gòu)要素預(yù)先定義,如果在規(guī)則中記述結(jié)構(gòu)要素名,則將其視為相當(dāng)于用該結(jié)構(gòu)要素名定義的字符串。結(jié)構(gòu)要素名的定義方法,只要能夠進行結(jié)構(gòu)要素名和字符串或者字符串規(guī)范的列表的附帶對應(yīng)則不被特別限定。例如,可以將與結(jié)構(gòu)要素名對應(yīng)的字符串或者字符串規(guī)范的列表記述在一個文件中,也可以對應(yīng)的字符串或者字符串規(guī)范的列表記述在另外的多個文件中。而且,在此后的規(guī)則例中利用同樣的結(jié)構(gòu)要素的情況下省略定義。在各規(guī)則中表示用于提取觀點/記述的規(guī)范,以及在規(guī)范中相當(dāng)于觀點、記述的位置。
圖3(a)所示的觀點/記述提取規(guī)則是利用字符串的句法的屬性來提取觀點/記述的規(guī)則。觀點/記述提取規(guī)則的規(guī)范中,相當(dāng)于觀點/記述的字符串或者其周邊的字符串的句法的屬性由字符串列表或者詞類分類指定。在用字符串列表指定句法的屬性的情況下,規(guī)則的規(guī)范中,作為包含“は”那樣的字符串,以及“がも”(“が”“も”中的哪一個的意思)那樣的字符串的正規(guī)表現(xiàn)的規(guī)范進行記述,或者如“漢字/片假名連續(xù)1”那樣被預(yù)先定義的結(jié)構(gòu)要素名指定。在用詞類分類指定綜合的屬性的情況下,例如“形容動詞詞尾1”“形容詞詞尾1”那樣預(yù)先定義對應(yīng)于詞類分類名的結(jié)構(gòu)要素名,指定被定義的結(jié)構(gòu)要素名。
而且,作為字符串的句法的屬性的指定方法,在上述說明中使用了字符串列表和詞類分類,但是本發(fā)明不限于此,另外也可以例如使用句子結(jié)構(gòu)的關(guān)系。而且,在使用字符串列表和詞類分類的情況下,它們的指定方法也不限于上述的方法,也可以是其它方法。而且,也可以取代句法的屬性而使用含義的屬性來指定,也可以指定句法的屬性和含義的屬性兩者,進而也可以除了它們還指定統(tǒng)計的屬性等其它屬性。而且,在上述說明中僅用規(guī)則規(guī)范指定了適用規(guī)則的條件,但是也可以另外指定與規(guī)范的一部分有關(guān)的制約,也可以在規(guī)范以外進行指定。
而且,在圖3(a)中,在規(guī)范中相當(dāng)于觀點和記述的位置用“()”標(biāo)記,被標(biāo)記的部分從開頭依次被參照為$1、$2、…。例如,在規(guī)則1的情況下,<“は”><漢字/平假名連續(xù)1><“が”或者“も”>、<英數(shù)字連續(xù)1>、<“と”>、<漢字/平假名連續(xù)1>、<形容詞詞尾1>以該順序在文本中出現(xiàn)的情況下,與規(guī)則的規(guī)范一致。在相當(dāng)于文本中的該規(guī)范的字符串中,規(guī)范中的相當(dāng)于用最初的“()”括住的<漢字/平假名連續(xù)1>的部分被作為$1參照。而且,相當(dāng)于用第二個“()”括住的<英數(shù)字連續(xù)1>的部分被作為$2參照,相當(dāng)于用第三個“()”括住的<漢字/平假名連續(xù)1><形容詞詞尾1>的部分被作為$3參照。按照規(guī)則,由$1參照的部分被作為觀點提取,由$2、$3參照的部分被作為記述提取。而且,規(guī)則的記法不限定于上述那樣,也可以用其它的記法。
在將圖3(a)的規(guī)則1應(yīng)用在圖2(a)的文本1的情況下,第一句的“開口部”相當(dāng)于觀點、“30cm”和“相當(dāng)大”相當(dāng)于記述。圖2(b)的觀點/記述認定例是對文本內(nèi)的觀點/記述賦予識別用的觀點/記述對ID號,將觀點的表現(xiàn)的開始和結(jié)束用<VIEW(觀點/記述對的號碼)>…<VIEW(觀點/記述對的號碼>標(biāo)記,將記述的表現(xiàn)的開始和結(jié)束用<DESC(觀點/記述對的號碼)>…<DESC(觀點/記述對的號碼>標(biāo)記的例子。而且,觀點/記述對ID號碼的提供方法只要是可以唯一地確定觀點/記述對則不進行特別限定。例如,也可以將文本的識別信息和文本內(nèi)的觀點/記述對的號碼組合。
而且,例如如“容量大至20升”那樣,對于一個觀點(在本例中為“容量”),在“20升”“大的”那樣存在多個記述的情況下,將它們認定為對于相同觀點的兩個不同的記述。在本發(fā)明的觀點和記述的提取規(guī)則例中,對于相同觀點認定多個不同的記述的情況下,利用記號‘‖’將這些記述表示為例如‘$1‖$2’(這里,$1、$2是記述)那樣。
另一方面,例如如“容量對于旅行用來說小”那樣,對于一個觀點(在本例中為“容量”),在用途被限定為“旅行用”時如“小”那樣,在記述間存在限定的關(guān)系的情況下,也可以集中多個記述(在本例中為“旅行用”和“小”)作為一個記述處理。在本發(fā)明的觀點和記述的提取規(guī)則例中,對于相同觀點集中關(guān)聯(lián)的多個記述而認定為一個記述的情況下,將這些記述利用記號‘&&’例如表示為‘$1&&$2’(這里,$1、$2是記述)那樣。
接著,觀點/記述提取單元120對被認定為相當(dāng)于上述觀點/記述提取規(guī)則的觀點/記述的組,賦予用于識別出現(xiàn)了觀點/記述對的文本和各個觀點/記述對的要素元數(shù)據(jù)ID,按照規(guī)則提取。在圖2(c)的要素元數(shù)據(jù)提取結(jié)果的表中表示觀點/記述的提取例。在該提取結(jié)果表中,要素元數(shù)據(jù)ID的最上段中記載的“1-1a”中,左側(cè)的“1”表示從文本1提取了該觀點“開口部”/記述“30cm”的情況。右側(cè)的“1a”中的“1”表示觀點“開口部”/記述“30cm”是在檢索了文本1時第一個(即最初)找到的觀點/記述,“a”表示是第一個記述。
而且,在本例中,雖然用所謂<文本ID>-<觀點/記述對在文本內(nèi)的號碼>的形式來賦予要素元數(shù)據(jù)ID,但是要素元數(shù)據(jù)ID的形式只要是可以進行文本的識別和觀點/記述對的識別,則不限定于此。而且,句法的屬性的賦予方法也不限于上述的方法,也可以進行句子結(jié)構(gòu)分析和詞態(tài)素分析。而且,上述的說明是觀點/記述提取單元120利用觀點/記述提取規(guī)則之間判定字符串的句法的屬性的例子,但是本發(fā)明不限于該方法,也可以對被輸入的文本預(yù)先賦予句法的屬性,也可以由屬性賦予單元(后述)賦予句法的屬性。
接著,元數(shù)據(jù)核對單元106分別比較/核對被提取出的要素元數(shù)據(jù)的觀點間/記述間,推定要素元數(shù)據(jù)的關(guān)聯(lián)性。觀點/記述的核對方法只要是至少使用構(gòu)成觀點、記述的字符串的句法的屬性來進行核對,則沒有特別限定。例如,利用詞典、同義詞辭典等來比較觀點或者記述的構(gòu)成詞的概念的類似性的方法,并且,進而除了這些方法,還可以使用由觀點或者記述的構(gòu)成詞的句子結(jié)構(gòu)的關(guān)系推定類似度的方法等。這里,假設(shè)從觀點和記述取出除去了助詞和詞尾的構(gòu)成詞,并且利用使用了元數(shù)據(jù)核對單元106內(nèi)具有的詞典而調(diào)查的結(jié)果,核對構(gòu)成詞間的句子結(jié)構(gòu)的關(guān)系、構(gòu)成詞是否同義。首先,從圖2(a)的文本1、文本2的觀點取出的構(gòu)成詞間的句子結(jié)構(gòu)的關(guān)系如下所示。
開口部→(構(gòu)成詞)開口、部(句子結(jié)構(gòu)的關(guān)系)連體修飾拉鏈的開閉→(構(gòu)成詞)拉鏈、開閉(句子結(jié)構(gòu)的關(guān)系)連體修飾皮的觸感→(構(gòu)成詞)皮、觸感(句子結(jié)構(gòu)的關(guān)系)連體修飾皮的手感→(構(gòu)成詞)皮、手感(句子結(jié)構(gòu)的關(guān)系)連體修飾色調(diào)→(構(gòu)成詞)色調(diào)接著,觀點“皮的觸感”、“皮的手感”的構(gòu)成詞中,“觸感”“手感”通過詞典認定為同義詞,其它的構(gòu)成詞“皮”和句子結(jié)構(gòu)的關(guān)系也一致,所以判定為兩個觀點“皮的觸感”、“皮的手感”為同義,具有關(guān)聯(lián)性。而且,對于記述也一樣,在求出同義的記述時,判定要素元數(shù)據(jù)ID1-3的“溫和濕潤”和要素元數(shù)據(jù)ID2-2的“溫和濕潤”的記述為同義,具有關(guān)聯(lián)性。而且,要素元數(shù)據(jù)的關(guān)聯(lián)性的判定方法只要根據(jù)觀點和記述的核對結(jié)果來進行判定,則不限于上述的方法,也可以是其它方法。例如,在觀點和記述的概念的類似性被數(shù)值化的情況下,也可以將觀點或者記述的數(shù)值位于一定范圍內(nèi)的要素元數(shù)據(jù)判定為“具有關(guān)聯(lián)性”。
接著,根據(jù)要素元數(shù)據(jù)間的關(guān)聯(lián)性,元數(shù)據(jù)綜合單元108綜合要素元數(shù)據(jù),作為綜合元數(shù)據(jù)存儲在元數(shù)據(jù)存儲單元110中。元數(shù)據(jù)的綜合方法不被特別限定,這里,設(shè)為(1)綜合具有同義的觀點的元數(shù)據(jù)(2)如果在具有同義的觀點的元數(shù)據(jù)中存在同義的記述則進行綜合在圖2的例子中,由于觀點中“皮的觸感”和“皮的手感”被判定為同義,所以綜合這些觀點,例如作為“皮的觸感”。而且,與這些觀點成對的記述“溫和濕潤”和“光滑”不被視為同義,所以不綜合。圖4表示這樣進行了綜合處理后的綜合元數(shù)據(jù)的例子。而且,在上述的說明中,說明了輸入多個文本的情況,但是也可以輸入一個文本。
這樣,按照本實施方式,將與在文本中表現(xiàn)的事物有關(guān)的事實和意見的記述內(nèi)容構(gòu)成為觀點和記述的組,并且將其整理為容易進行事實和意見的對應(yīng)和關(guān)聯(lián)性的比較的形式而提取,利用該提取結(jié)果,進而將事實和意見附帶對應(yīng),可以綜合關(guān)聯(lián)的事實和意見。
(實施方式2)圖5是表示本發(fā)明的實施方式2的信息提取系統(tǒng)的結(jié)構(gòu)的方框圖。該信息提取系統(tǒng)200具有與對應(yīng)于圖1所示的實施方式1的信息提取系統(tǒng)100相同的基本結(jié)構(gòu),對于相同的結(jié)構(gòu)要素賦予相同的標(biāo)號,省略其說明。
本實施方式的特征是具有屬性賦予單元202,對從輸入單元102輸入的文本的字符串賦予含義的屬性;含義屬性賦予規(guī)則存儲單元204,存儲了用于對前述字符串賦予含義屬性的含義屬性賦予規(guī)則;附帶含義屬性文本存儲單元206,存儲由屬性賦予單元202賦予的附帶含義屬性文本。屬性賦予單元202的處理結(jié)果,即被賦予了含義屬性的文本(附帶含義屬性文本)被存儲在附帶含義屬性文本存儲單元206中。這時,觀點/記述提取單元120對被存儲在附帶含義屬性文本存儲單元206中的附帶含義屬性文本進行觀點/記述提取。
屬性賦予單元202認定文本中的事物名、數(shù)值關(guān)聯(lián)表現(xiàn)(時間、數(shù)量、金額等)等字符串,對它們賦予含義的屬性。作為對事物名和數(shù)量表現(xiàn)賦予含義的屬性的方法,雖然沒有特別限定,但是例如可以使用對每個關(guān)鍵詞利用記載了其含義屬性的辭典,以及利用了在文獻“福本他固有名詞抽出たおける日本語と英語の比較”,情報処理學(xué)會研究會報告98-NL-126,pp.107-114,1998”中所示的固有名詞提取技術(shù)的方法等。
這里,所謂含義的屬性,例如是將事物名和數(shù)量表現(xiàn)通過表現(xiàn)的含義進行分類的含義分類。在含義的屬性具有詳細度的水平時,以及相應(yīng)的表現(xiàn)為一般的表現(xiàn)的其它表現(xiàn),需要表示被正規(guī)化的形式時,也可以將詳細度水平和被正規(guī)化的表現(xiàn)作為含義的屬性的詳細信息一起記錄。
在以下,說明屬性賦予單元202利用含義屬性賦予規(guī)則對事物名和數(shù)量表現(xiàn)賦予含義的屬性的例子。
首先,屬性賦予單元202參照被存儲在含義屬性賦予規(guī)則存儲單元204中的含義屬性賦予規(guī)則,對從輸入單元102輸入的文本內(nèi)的字符串,調(diào)查是否具有對應(yīng)于規(guī)則的含義的屬性的表現(xiàn)。其結(jié)果,對文本中的字符串中對應(yīng)的表現(xiàn)和含義屬性進行標(biāo)記,并作為附帶含義屬性文本存儲在附帶含義屬性文本存儲單元206中。在圖6(a)中,表示被輸入的文本例,在圖6(b)中表示被賦予含義的屬性的文本的例子。而且,在圖7中表示含義屬性賦予規(guī)則的例子和含義屬性賦予規(guī)則的構(gòu)成要素定義的例子。而且,構(gòu)成要素的定義方法,只要是可以進行構(gòu)成要素名和字符串或者字符串規(guī)范的列表的附帶對應(yīng)就沒有特別限定。例如,可以將構(gòu)成要素名和對應(yīng)的字符串或者字符串規(guī)范的列表記述作為一個文件,以及將對應(yīng)的字符串或者字符串規(guī)范的列表記述在其它的多個文件中。而且,在此后的規(guī)則例中使用同樣的構(gòu)成要素的情況下省略定義。
在圖7的含義屬性賦予規(guī)則例中,表示在文本中的字符串中用于檢測具有對應(yīng)的含義屬性的表現(xiàn)的規(guī)范,對與各規(guī)范一致的表現(xiàn)的對象部分賦予的含義屬性的含義分類和詳細信息。在規(guī)則規(guī)范中,賦予含義屬性的字符串和字符串列表被指定“數(shù)字連續(xù)”等字符串規(guī)范、或者“產(chǎn)品分類名”等對應(yīng)于詞列表的預(yù)先定義的構(gòu)成要素名。而且,規(guī)則規(guī)范以及對象部分的$1、$2等記法與圖3的規(guī)則一樣。在該例子中,詳細信息中“val”表示數(shù)值表現(xiàn)被正規(guī)化的值,“unit”是數(shù)量單位的表現(xiàn)的正規(guī)化形式,“type”表示含義的屬性的下位分類。
在將圖7的規(guī)則應(yīng)用在圖6(a)的文本1的情況下,通過規(guī)則1,“20升”的含義屬性中含義分類被識別為QUANT(數(shù)量),詳細信息被識別為〔unit=1(單位為‘1’的意思),val=20(數(shù)值為‘20’的意思)〕。而且,通過規(guī)則2,在“容量“的含義屬性中,含義分類被識別作為QUANT_TYPE(數(shù)量分類)。而且,通過規(guī)則3,“A公司”的含義屬性中,含義分類被識別為ORGANIZATION(組織名),詳細信息被識別為〔type=company(種類是‘公司名’的意思)〕。被識別出的結(jié)果,被賦予各個對應(yīng)的含義屬性的含義分類和詳細信息,作為圖6(b)所示的附帶含義屬性文本被存儲在附帶含義屬性文本存儲單元206中。
而且,含義屬性賦予規(guī)則的記法不限于上述的記法,也可以是其它的記法。而且,作為含義屬性賦予規(guī)則的規(guī)范的記述方法,在上述說明中使用了與字符串規(guī)范或詞列表對應(yīng)的構(gòu)成要素名,但是也可以使用其它的記述方法。而且,作為應(yīng)用含義屬性賦予規(guī)則的條件的指定方法,雖然在上述說明中僅使用了規(guī)范,但是本發(fā)明不限于此,也可以是其它方法。例如,除了規(guī)范,也可以作為另外指定與規(guī)范的一部分有關(guān)的制約,也可以利用規(guī)范以外的指定方法。而且,也可以將被預(yù)先賦予了含義屬性的文本直接輸入觀點/記述提取單元120中。
接著,觀點/記述提取單元120從被存儲在附帶含義屬性文本存儲單元206中的附帶含義屬性文本中將觀點/記述的組與含義的屬性一起作為要素元數(shù)據(jù)提取。在圖8(a)中表示附帶含義屬性文本的例子,在圖8(b)中表示觀點/記述認定例。而且,在圖9中表示用于提取觀點/記述的觀點/記述提取規(guī)則的例子和觀點/記述提取規(guī)則的構(gòu)成要素的定義例。關(guān)于規(guī)則的記法、構(gòu)成要素的定義方法與圖3一樣,省略說明。
圖9所示的觀點/記述提取規(guī)則和實施方式1的圖3所示的觀點/記述提取規(guī)則的不同之處在于,在圖9中,被賦予文本的含義屬性作為規(guī)范的一部分被記述。例如,在圖9的規(guī)則1中,由<QUANT_TYPE>,</QUANT_TYPE>包圍的標(biāo)記(tag)開始記號以外的任意字符串,即,被賦予了所謂QUANT_TYPE(數(shù)量分類)的含義屬性的字符串被指定作為觀點。而且,由<QUANT>,</QUANT>包圍的標(biāo)記開始記號以外的任意字符串,即,被賦予所謂QUANT(數(shù)量)的含義屬性的字符串被指定作為對應(yīng)于前述觀點的第一個記述。在將圖9的規(guī)則1應(yīng)用于文本1的情況下,被賦予了QUANT_TYPE的含義屬性的“容量”相當(dāng)于觀點,被賦予了QUANT的含義屬性的“20升”相當(dāng)于與該觀點對應(yīng)的一個記述,“大的”相當(dāng)于第二個記述。接著,在將圖9的規(guī)則3應(yīng)用于圖8(a)的文本1的情況下,被賦予了ORGANIZATION的含義的屬性的字符串“A公司”相當(dāng)于記述。雖然與該記述對應(yīng)的觀點未被表現(xiàn)在文本中,但是按照圖9的規(guī)則3,如果將含義的屬性的別名識別為觀點,則“公司名”被認定為觀點。同樣,在圖10中表示以下例子,即對于圖8(a)的附帶含義屬性的文本1、2,觀點/記述提取單元120應(yīng)用圖9的規(guī)則,將觀點和記述與它們的含義屬性的含義分類和詳細信息一起,賦予作為識別信息的要素元數(shù)據(jù)ID,從而作為要素元數(shù)據(jù)提取的結(jié)果的例子。
而且,在上述的說明中,設(shè)為屬性賦予單元202作為賦予字符串的含義的屬性的情況,但是本發(fā)明不限于此。屬性賦予單元202也可以對文本賦予句法的屬性和含義的屬性中的至少一個,也可以觀點/記述提取單元120利用觀點/記述提取規(guī)則或者其它的規(guī)則賦予句法的屬性和含義的屬性中的至少一個,也可以對被輸入的文本預(yù)先賦予句法的屬性和含義的屬性中的至少一個。
而且,在上述的說明中,設(shè)為作為含義的屬性賦予含義分類和詳細信息的情況,但是,只要被賦予的含義的屬性包含含義分類,則本發(fā)明不限于此,例如也可以賦予詳細信息以外的其它的含義的信息。
接著,元數(shù)據(jù)核對單元106分別比較、核對被提取的要素元數(shù)據(jù)的觀點間、記述間,推定關(guān)聯(lián)性。本實施方式中中的元數(shù)據(jù)核對單元106的核對方法和實施方式1的不同之處在于,在核對時使用要素元數(shù)據(jù)的觀點和記述的含義屬性這一點。這里,在核對圖10的要素元數(shù)據(jù)的觀點間、記述間從而求同義的觀點和記述時,除了實施方式1的方法,還在滿足以下的條件的情況下認定為同義的觀點或者記述。
·在含義分類為“產(chǎn)品名”的表現(xiàn)中,僅在表現(xiàn)中英數(shù)字的邊界是否插入有“-”這一點有所不同。
通過以上的方法,在圖10的要素元數(shù)據(jù)的觀點或者記述中,1-2和2-1的觀點“產(chǎn)品分類”和記述“包”、1-3的觀點“產(chǎn)品名”和記述“A200”和2-2的觀點“產(chǎn)品名”和記述“A-200”由于各自同義而被判定為具有關(guān)聯(lián)性的觀點和記述,1-4a和1-4b和2-3的觀點“容量”由于是同義的觀點而被判定為具有關(guān)聯(lián)性。
而且,元數(shù)據(jù)的觀點和記述的核對方法,以及要素元數(shù)據(jù)關(guān)聯(lián)性的判定方法不限于上述的方法。觀點和記述的核對方法例如也可以使用詞典、同義詞辭典等比較核對觀點或者記述的構(gòu)成詞的概念性的類似性的方法,以及由觀點或者記述的構(gòu)成詞的句子結(jié)構(gòu)的關(guān)系推定類似度的方法等。而且,要素元數(shù)據(jù)的關(guān)聯(lián)性的判定方法不限于上述的方法,例如,在觀點和記述的概念性的類似性被數(shù)值化的情況下,也可以將觀點或者記述的數(shù)值在一定范圍內(nèi)的要素元數(shù)據(jù)判定為“具有關(guān)聯(lián)性”。
接著,元數(shù)據(jù)綜合單元108根據(jù)前述要素元數(shù)據(jù)的關(guān)聯(lián)性,與實施方式1一樣,綜合要素元數(shù)據(jù),作為綜合元數(shù)據(jù)存儲在元數(shù)據(jù)存儲單元110中。這里,假設(shè)綜合滿足與實施方式1一樣的條件的觀點和記述,詳細的說明省略。在圖11中表示,在圖10的要素元數(shù)據(jù)中,綜合關(guān)聯(lián)的要素元數(shù)據(jù)而將其存儲在元數(shù)據(jù)存儲單元110中的綜合元數(shù)據(jù)的例子。在圖11中,作為同義的觀點和記述的1-2和2-1的觀點“產(chǎn)品分類”和記述“包”、1-3的觀點“產(chǎn)品名”和記述“A200”、以及2-2的觀點“產(chǎn)品名”和記述“A-200”被各自綜合。而且,可知作為三個不同的記述的1-4a的“20升”、1-4b的“大的”、2-3的“不足的”的觀點“容量”被綜合,作為數(shù)量的“20升”作為該產(chǎn)品的容量被表現(xiàn)為“大的”、“不足的”,在圖8的文本1和文本2中接受有不同的評價。
這樣,按照本實施方式,可以將與在附帶含義屬性的文本的字符串中表現(xiàn)的事物有關(guān)的事實和意見的記述內(nèi)容與觀點和記述的含義屬性一起容易地進行提取。而且,在利用該提取結(jié)果,更詳細地判定了關(guān)聯(lián)性以后,通過綜合關(guān)聯(lián)的事實和意見,可以容易的進行事實和意見的附帶關(guān)聯(lián)和關(guān)聯(lián)性的比較。
(實施方式3)圖12是表示本發(fā)明的實施方式3的信息提取系統(tǒng)的結(jié)構(gòu)的方框圖。該信息提取系統(tǒng)300具有與圖5所示的對應(yīng)于實施方式2的信息提取系統(tǒng)200同樣的基本結(jié)構(gòu),對同樣的構(gòu)成要素賦予相同的標(biāo)號,并省略其說明。
本實施方式的特征是具有以下單元用戶請求處理單元302,處理來自用戶的請求;元數(shù)據(jù)輸出形式生成單元304,整理元數(shù)據(jù)而生成元數(shù)據(jù)的輸出形式;元數(shù)據(jù)輸出單元306,對用戶提示元數(shù)據(jù)輸出形式生成單元304生成的元數(shù)據(jù)的輸出形式;話題事物推定單元310,推定觀點/記述提取單元120提取的要素元數(shù)據(jù)的話題的事物;以及話題事物推定規(guī)則存儲單元312,存儲用于推定話題的事物的規(guī)則的話題事物推定規(guī)則。
這里,所謂“話題事物”是指各要素元數(shù)據(jù)對哪個事物進行記述的要素元數(shù)據(jù)的話題的事物名。該話題事物從表示事物名的要素元數(shù)據(jù)的其中一個記述中被選擇。成為話題事物的候選的事物名不被特別限定,但是有人名、地名、組織名、事件名、生物或者人工物的名稱以及它們的分類(例如產(chǎn)品名、產(chǎn)品分類)等。
對于具有上述結(jié)構(gòu)的信息提取系統(tǒng)300,利用具體例更詳細地進行說明。現(xiàn)在,假設(shè)存在以下的文本1、2。
文本1“包A200的容量不足,包A300的容量太大?!蔽谋?“包A200的容量為20升,包A300的容量為30升?!鼻笆鑫谋緩妮斎雴卧?02被輸入,由屬性賦予單元202賦予含義屬性,由觀點/記述提取單元120認定觀點/記述,到提取要素元數(shù)據(jù)為止的處理的流程與實施方式2一樣,省略說明。在圖13(a)中表示對上述文本賦予含義分類,并且認定了觀點/記述的結(jié)果的例子,在圖13(b)中表示要素元數(shù)據(jù)的提取結(jié)果的例子。
接著,話題事物推定單元310按照話題事物推定規(guī)則存儲單元312中存儲的通話事物推定規(guī)則,推定文本內(nèi)的話題事物。話題事物的推定方法只要是使用話題事物推定規(guī)則,則沒有特別限定。話題事物推定單元310可以使用話題事物推定規(guī)則來直接推定話題事物,也可以首先決定作為話題事物候選的要素元數(shù)據(jù)的種類,并在之后利用話題事物推定規(guī)則進行推定。這時,在被輸入的文本例如存在具有公司名和人名等多種話題的可能性的情況下,希望設(shè)想多個話題事物推定候選,以便前述話題事物推定單元310可以選擇適當(dāng)?shù)脑掝}事物。例如,話題事物候選被規(guī)定為作為“規(guī)定是產(chǎn)品名或者人名”的要素元數(shù)據(jù)的記述的情況下,假設(shè)觀點為產(chǎn)品名或者人名的要素元數(shù)據(jù)的記述被規(guī)定為話題事物的候選。這時,文本1、2都是在觀點中具有產(chǎn)品名的要素元數(shù)據(jù)的記述,“A200”、“A300”成為話題事物候選。
以下,對話題事物推定單元310按照話題事物推定規(guī)則存儲單元312中存儲的話題事物推定規(guī)則,推定文本內(nèi)的話題事物的情況進行說明。這里,假設(shè)通過與在條件單元中記述的規(guī)范進行匹配來進行話題事物推定,在圖14(a)中表示話題事物推定規(guī)則的例子,在圖14(b)中表示話題事物推定規(guī)則構(gòu)成要素定義的例子。而且,規(guī)則的條件單元的規(guī)范的記法和構(gòu)成要素的定義方法與圖3基本相同,但是,在圖14的規(guī)則2、規(guī)則3中作為條件不僅是規(guī)范,還將規(guī)范的一部分字符串相同的情況加到條件中。
利用圖14(a)的規(guī)則,從圖13(a)的文本推定圖13(b)的要素元數(shù)據(jù)。例如,如對文本1應(yīng)用圖14的規(guī)則1,則首先作為第二個記述的<DESC2><PROD_NAME>A200</PROD_NAME></DESC2>與規(guī)則1的條件單元中記述的規(guī)范一致,按照該規(guī)則,這里,相當(dāng)于$1的“A200”的話題事物被推定為“A200”自身。同樣,圖15表示利用圖14的規(guī)則,從圖13(a)的文本1、2推定出圖13(b)的要素元數(shù)據(jù)的話題的例子。對圖15的要素元數(shù)據(jù)ID1-1、1-4、2-1、2-4的要素元數(shù)據(jù)應(yīng)用圖14的規(guī)則3,對圖15的ID1-2、1-5、2-2、2-5的要素元數(shù)據(jù)應(yīng)用圖14的規(guī)則1,對圖15的ID1-3、1-6、2-3、2-6的元數(shù)據(jù)應(yīng)用圖14(a)的規(guī)則2。
而且,話題事物的推定方法只要利用話題事物推定規(guī)則就不限于上述的方法,例如,也可以在與上述不同的記法的規(guī)則中指定要素元數(shù)據(jù)的觀點/記述、或者句法的屬性、或者含義的屬性、或者其它屬性。而且,也可以按照話題事物候選的種類而應(yīng)用不同的規(guī)則。
接著,元數(shù)據(jù)核對單元106分別比較、核對被提取出的要素元數(shù)據(jù)的觀點間、記述間,推定關(guān)聯(lián)性。要素元數(shù)據(jù)的觀點/記述的核對方法與實施方式1或2基本相同,在本實施方式中,進一步利用話題事物的推定結(jié)果進行核對。
在圖15的例子中,要素元數(shù)據(jù)ID1-1、1-2、1-3、2-1、2-2、2-3具有相同的話題事物“A200”,1-4、1-5、1-6、2-4、2-5、2-6具有相同的話題事物“A300”。對于每個具有相同的話題事物的要素元數(shù)據(jù),與實施方式1一樣,在求同義的觀點或記述時,首先,對于話題事物為“A200”的要素元數(shù)據(jù),具有同義的觀點或記述的要素元數(shù)據(jù)是1-1和2-1、1-2和2-2。而且,具有同義的觀點的要素元數(shù)據(jù)得到1-3和2-3。前者的觀點和記述、后者的觀點被推定出各自具有關(guān)聯(lián)性。
同樣,對于話題事物為“A300”的要素元數(shù)據(jù),具有同義的觀點和記述的要素元數(shù)據(jù)是1-4和2-4、1-5和2-5。而且,具有同義的觀點的要素元數(shù)據(jù)得到1-6和2-6。前者的觀點和記述、后者的觀點被推定出各自具有關(guān)聯(lián)性。
而且,元數(shù)據(jù)核對單元106的核對方法以及關(guān)聯(lián)性的推定方法不限于上述方法。在上述說明中,對于每個具有相同話題事物的要素元數(shù)據(jù),求同義的觀點和記述,但是,例如也可以在求出具有同義的觀點和記述的要素元數(shù)據(jù)后,求具有相同話題事物者,也可以進一步利用要素元數(shù)據(jù)的含義屬性等。
接著,與實施方式1同樣,元數(shù)據(jù)綜合單元108綜合要素元數(shù)據(jù),作為綜合元數(shù)據(jù)存儲在元數(shù)據(jù)存儲單元110中。要素元數(shù)據(jù)的綜合的方法未被限定,這里作為例子有以下三種(1)綜合具有相同話題的事物,(2)在相同的話題中統(tǒng)一具有同義的觀點的要素元數(shù)據(jù),(3)在相同的話題中在具有同義的觀點的要素元數(shù)據(jù)中如果存在同義的記述則進行統(tǒng)一。
對利用了該例子的情況進行說明。在圖15的要素元數(shù)據(jù)中,具有相同話題事物的1-1、1-2、1-3、2-1、2-2、2-3通過上述(1)綜合話題事物。同樣,1-4、1-5、1-6、2-4、2-5、2-6話題事物也被綜合。接著,具有相同話題事物和同義的觀點的要素元數(shù)據(jù)1-1和2-1、1-2和2-2、1-3和2-3、1-4和2-4、1-5和2-5、1-6和2-6按照上述(2),各自的話題事物和觀點被綜合。進而,在具有相同話題事物、具有同義的觀點和記述的要素元數(shù)據(jù)1-1和2-1、1-2和2-2、1-4和2-4、1-5和2-5按照上述(3),各個話題事物和觀點和記述被綜合。
如上述那樣,在圖16中表示元數(shù)據(jù)綜合單元108綜合了從文本1、2提取的圖15的要素元數(shù)據(jù)的結(jié)果、被存儲在元數(shù)據(jù)存儲單元110指定綜合元數(shù)據(jù)的例子。由該綜合結(jié)果可知,根據(jù)“A200”的“容量”為“20升”而被評價為“不足夠”,另一方面,根據(jù)“A300”的“容量”為“30升”而被評價為“太大”。而且,元數(shù)據(jù)的綜合方法不限定于上述方法,只要是根據(jù)元數(shù)據(jù)核對單元106推定的要素元數(shù)據(jù)的觀點和記述的關(guān)聯(lián)性進行綜合的方法,則其它方法也可以。例如,可以首先綜合具有同義的觀點和記述的要素元數(shù)據(jù),之后綜合具有相同話題事物的要素元數(shù)據(jù)。
接著,用戶請求處理單元302輸入用戶請求,將用戶請求的輸出形式輸出到元數(shù)據(jù)輸出形式生成單元304。元數(shù)據(jù)輸出形式生成單元304參照存儲在元數(shù)據(jù)存儲單元110中的綜合元數(shù)據(jù),以用戶請求的輸出形式生成元數(shù)據(jù),并通過元數(shù)據(jù)輸出單元306對用戶提示。
這里,說明按照用戶請求的指定,作為元數(shù)據(jù)的輸出形式的一例,生成元數(shù)據(jù)表的情況。首先,通過用戶請求處理單元302輸入用戶請求。被輸入用戶請求處理單元302的用戶請求設(shè)為指定包含了話題事物的要素元數(shù)據(jù)的一部分、或者它們的組合的其中一個。當(dāng)前,作為用戶請求的例子,例如指定“(話題事物A200)并且(觀點容量)”的條件作為要素元數(shù)據(jù)應(yīng)滿足的條件。用戶請求處理單元302檢查被指定的用戶請求的指定形式,并且在沒有問題時將用戶請求發(fā)送到元數(shù)據(jù)輸出形式生成單元304。
而且,在本例中,雖然假設(shè)用戶請求以上述的形式被輸入,但是,用戶請求也可以以自由的文本(例如“想知道A200的容量”)的方式被輸入。在后者的情況下,用戶請求處理單元302也可以直接解析文本從而取出上述的條件。而且,用戶請求處理單元302也可以將用戶輸入輸入單元102中的用戶請求的文本暫時發(fā)送,由通過觀點/記述提取單元120提取的要素元數(shù)據(jù)、以及它們的句子結(jié)構(gòu)的關(guān)系來解析被指定的條件的內(nèi)容。
元數(shù)據(jù)輸出形式生成單元304按照從用戶請求處理單元302獲得的用戶請求的指定內(nèi)容,從被存儲在元數(shù)據(jù)存儲單元110中的綜合元數(shù)據(jù)中挑選相應(yīng)的要素元數(shù)據(jù),使被挑選出的元數(shù)據(jù)對應(yīng)生成為輸出形式。例如,如果在用戶請求的內(nèi)容中存在話題事物的指定,則從綜合元數(shù)據(jù)中挑選在話題中具有該話題事物的要素元數(shù)據(jù),進一步挑選滿足被指定的觀點或記述的條件的要素元數(shù)據(jù),生成將它們作為對象的元數(shù)據(jù)表。元數(shù)據(jù)輸出單元306輸出被生成的元數(shù)據(jù)表。
在圖17中表示從圖16的綜合元數(shù)據(jù)中僅取出滿足用戶請求(話題事物A200)并且(觀點容量)的要素元數(shù)據(jù)而作成的元數(shù)據(jù)表的例子。這時,僅話題事物為“A200”并且觀點為“容量”的要素元數(shù)據(jù)作為表被輸出。而且,在上述的說明中,元數(shù)據(jù)的輸出形式作為元數(shù)據(jù)的表進行了說明,但是,輸出形式也可以是表以外的其它形式。
這樣,按照本實施方式,可以將與文本中表現(xiàn)的事物有關(guān)的事實和意見的記述內(nèi)容與被推定的話題的事物一起,容易地進行事實和意見的附帶對應(yīng)。而且,可以利用該提取結(jié)果,進一步對每個話題事物將事實和意見精密地附帶對應(yīng),在更詳細地判定了關(guān)聯(lián)性以后,綜合關(guān)聯(lián)的事實和意見,可以整理為容易進行關(guān)聯(lián)性的比較的形式來提取。
而且,通過對用戶提示將包含話題事物的要素元數(shù)據(jù)根據(jù)用戶的指定而整理的元數(shù)據(jù)輸出形式,可以整理并提示用戶請求的信息。
(實施方式4)圖18是表示本發(fā)明的實施方式4的信息提取系統(tǒng)的結(jié)構(gòu)的方框圖。該信息提取系統(tǒng)400具有與圖12所示的實施方式3對應(yīng)的信息提取系統(tǒng)300相同的基本結(jié)構(gòu),對同樣的構(gòu)成要素賦予同樣的標(biāo)號,省略其說明。
本實施方式的特征是前述輸入單元102還接受來源信息和用戶信息,元數(shù)據(jù)核對單元106包括客觀性/可靠性判定單元412,利用要素元數(shù)據(jù)、來源信息意見用戶信息來判定觀點/記述的客觀性和可靠性;客觀性/可靠性判定規(guī)則存儲單元414,存儲了用于評價客觀性和可靠性的客觀性/可靠性判定規(guī)則。
這里,所謂來源信息,是指與被輸入的文本有關(guān)的書目事項的信息,并且將文本中的來源信息的記述稱為來源信息記述。作為來源信息的例子,有文本的種類、取得元、作者分類、作者、組織名、作成日期時間等。來源信息記述,只要是可以進行與文本的附帶對應(yīng)的形式,則可以作為輸入文本的一部分被輸入,也可以與輸入文本分別輸入。來源信息記述的公文格式雖然沒有特別限定,但是設(shè)為與文本的識別信息一起被輸入。
而且,所謂用戶信息,是指與被輸入的文本的作者有關(guān)的信息,并且將文本中表現(xiàn)的用戶信息的記述稱為用戶信息記述。作為用戶信息的例子,有用戶的性別、年齡、職業(yè)、上班地、興趣等。用戶信息記述只要是可以進行與文本的附帶對應(yīng)的形式,則可以作為文本的一部分被輸入,也可以與輸入文本分別輸入。用戶信息記述的公文格式雖然沒有特別限定,但是設(shè)為與文本的識別信息一起被輸入。
而且,將構(gòu)成來源信息記述、用戶信息記述作為觀點和記述的組者稱為各個來源元數(shù)據(jù)、用戶元數(shù)據(jù)。對來源元數(shù)據(jù)和用戶元數(shù)據(jù)賦予用于識別對應(yīng)的文本和各個來源元數(shù)據(jù)或者用戶元數(shù)據(jù)的來源元數(shù)據(jù)ID、或者用戶元數(shù)據(jù)ID。來源元數(shù)據(jù)ID和用戶元數(shù)據(jù)ID的公文格式雖然沒有特別限定,但是由于需要取得與文本的對應(yīng)關(guān)系,所以希望設(shè)為對應(yīng)的文本ID能夠推定的公文格式。
客觀性/可靠性判定單元412利用要素元數(shù)據(jù)、來源元數(shù)據(jù)或者用戶元數(shù)據(jù)的其中一個判定要素元數(shù)據(jù)的觀點/記述的客觀性和可靠性,并且將判定結(jié)果設(shè)為要素元數(shù)據(jù)的評價數(shù)據(jù)。元數(shù)據(jù)綜合單元108除了要素元數(shù)據(jù),還可以在綜合元數(shù)據(jù)的結(jié)果中包含來源元數(shù)據(jù)、用戶元數(shù)據(jù)以及要素元數(shù)據(jù)的評價數(shù)據(jù)。而且,用戶可以從用戶請求處理單元302不僅利用要素元數(shù)據(jù),還利用源元數(shù)據(jù)、用戶元數(shù)據(jù)以及要素元數(shù)據(jù)的評價數(shù)據(jù)來指定必要的信息,得到對應(yīng)的元數(shù)據(jù)輸出形式。
接著,利用具體例更詳細地對具有上述結(jié)構(gòu)的信息提取系統(tǒng)400進行說明。在本實施方式中,來源信息記述和用戶信息記述作為輸入文本的一部分被輸入,輸入文本的特定的塊中分別記述來源信息記述、用戶信息記述。
從輸入單元102輸入文本。
屬性賦予單元202利用含義屬性賦予規(guī)則對包含被輸入的來源信息記述的文本賦予含義屬性,將附帶含義屬性的文本輸出到附帶含義屬性文本存儲單元206。圖24(a)表示除了來源信息記述和用戶信息記述的塊以外的文本例1~4。到此為止的處理的流程由于與實施方式2至3一樣,所以省略詳細的說明。圖19(a)中表示來源信息記述的例子,圖19(b)中表示用戶信息記述的例子,圖19(c)中表示附帶含義屬性的例子,圖19(d)中表示附帶含義屬性用戶信息記述的例子。而且,圖20(a)中表示來源含義屬性賦予規(guī)則的例子,圖20(b)中表示用戶含義屬性賦予規(guī)則的例子。
接著,觀點/記述提取單元120利用存儲在觀點/記述提取規(guī)則存儲單元122中的觀點/記述提取規(guī)則、利用觀點/記述提取規(guī)則、以及用戶觀點/記述提取規(guī)則,從存儲在附帶含義屬性文本存儲單元206中的附帶含義屬性文本、附帶含義屬性來源信息以及附帶含義屬性用戶信息中分別提取至少由觀點和記述的組構(gòu)成的要素元數(shù)據(jù)、來源元數(shù)據(jù)以及用戶元數(shù)據(jù)。
首先,對觀點/記述提取單元120從前述附帶含義屬性文本的來源信息記述和用戶信息記述的塊提取來源元數(shù)據(jù)和用戶元數(shù)據(jù)的情況進行說明。在提取來源元數(shù)據(jù)和用戶元數(shù)據(jù)時,如圖22(a)所示,對各來源元數(shù)據(jù)賦予來源元數(shù)據(jù)ID,如圖22(b)所示,對用戶元數(shù)據(jù)賦予用戶元數(shù)據(jù)ID。而且,在本實施方式中,設(shè)為以各個<文本ID>-S<觀點/記述對的來源信息內(nèi)的號碼>、<文本ID>-U<觀點/記述對的用戶信息內(nèi)的號碼>的形式賦予來源元數(shù)據(jù)ID和用戶元數(shù)據(jù)ID,但是來源元數(shù)據(jù)ID的形式和用戶元數(shù)據(jù)ID的形式不限于此。
在圖21(a)中表示來源觀點/記述提取規(guī)則的例子,在圖21(b)中表示用戶觀點/記述提取規(guī)則的例子。圖21(a)的來源觀點/記述提取規(guī)則和圖21(b)的用戶觀點/記述提取規(guī)則中,與實施方式1的觀點/記述提取規(guī)則一樣,在規(guī)則的規(guī)范中,相當(dāng)于觀點/記述的字符串及其周邊的字符串的句法的屬性以及含義的屬性被指定。而且,作為字符串的句法的屬性的指定方法,在圖21(a)(b)中使用列表,作為含義屬性的指定方法使用含義屬性的含義分類和詳細信息,但是本發(fā)明不限于此,也可以僅指定句法的屬性和含義的屬性的任何一個,例如作為句法的屬性也可以使用詞類分類等。
以下,對利用圖21(a)的利用觀點/記述提取規(guī)則或者圖21(b)的用戶觀點/記述提取規(guī)則,從圖19(c)的附帶含義屬性來源信息記述和圖19(d)的附帶含義屬性用戶信息記述提取來源元數(shù)據(jù)和用戶元數(shù)據(jù)的情況進行說明。例如,在對圖19(c)的附帶含義屬性來源信息記述應(yīng)用圖19(a)的來源觀點/記述提取規(guī)則1的情況下,圖19(c)的字符串<URL type=公司網(wǎng)頁s>http://aaa.co.jp/articlel</URL>相當(dāng)于前述規(guī)則1的規(guī)范,其中,相當(dāng)于規(guī)范中的最初的‘()’中被括住的部分的http://aaa.co.jp/articlel,相當(dāng)于與在規(guī)則中被指定的觀點“文本的取得元”對應(yīng)的記述。
利用圖21(a)的利用觀點/記述提取規(guī)則或者圖21(b)的用戶觀點/記述提取規(guī)則,從圖19(c)的附帶含義屬性來源信息記述和圖19(d)的附帶含義屬性用戶信息記述提取的來源元數(shù)據(jù)提取結(jié)果和用戶元數(shù)據(jù)提取結(jié)果的例子分別表示在圖22(a)、圖22(b)中。
接著,對觀點/記述提取單元120從前述附帶含義屬性文本的來源信息記述、用戶信息記述的塊以外提取要素元數(shù)據(jù),并且話題事物推定單元310推定話題事物為止的流程進行說明。圖24(b)中表示屬性賦予單元202對圖24(a)的各文本賦予含義屬性的例子,圖25中表示觀點/記述提取規(guī)則的例子。利用圖25的觀點/記述提取規(guī)則,與實施方式2或3一樣從圖24(b)的附帶含義屬性文本中提取觀點/記述。例如,在對圖24(b)的附帶含義屬性文本1應(yīng)用圖25的規(guī)則1時,對于觀點“容量”,提取兩個記述“20升”“大的”。同樣,通過圖25的規(guī)則,從圖24(b)的附帶含義屬性文本1~4中提取圖26所示的觀點和記述。進而,利用圖14的話題事物推定規(guī)則與實施方式3一樣從圖24(b)的附帶含義屬性文本1~4中進行推定。
在圖26中表示將觀點/記述提取單元120從圖24(b)的附帶含義屬性文本1~4提取的觀點/記述、以及它們的含義的屬性、話題事物推定單元310推定的話題事物進行集中而作為要素元數(shù)據(jù)的例子。而且,在圖26中,僅表示要素元數(shù)據(jù)的一部分。而且,在實施方式3中,關(guān)于話題事物的推定,說明了僅利用從文本得到的信息來進行推定的方法,但是此外也可以利用從來源信息或用戶信息得到的元數(shù)據(jù)。
接著,元數(shù)據(jù)核對單元106的客觀性/可靠性判定單元412在觀點/記述提取單元120中從附帶含義屬性文本中提取的要素元數(shù)據(jù)、來源元數(shù)據(jù)和用戶元數(shù)據(jù)中至少利用其中一個,按照存儲在客觀性/可靠性判定規(guī)則存儲單元414中的客觀性/可靠性判定規(guī)則來判定前述要素元數(shù)據(jù)的客觀性和可靠性。
這里,所謂要素元數(shù)據(jù)的客觀性表示要素元數(shù)據(jù)是否被客觀地記述,例如,如果作為事實被記述的話則認為客觀性高,如果作為意見被記述的話則認為客觀性低。客觀性可以作為數(shù)值表現(xiàn),也可以通過閾值或者判定條件用“事實”“意見”等的分類來表現(xiàn)。
而且,所謂要素元數(shù)據(jù)的可靠性,表示要素元數(shù)據(jù)是否可靠,例如,個人的主頁上作為意見被書寫的記述的可靠性被認為較低,在報紙報道中作為事實被書寫的記述的可靠性被認為較高等。而且,可靠性可以作為數(shù)值表現(xiàn),或者也可以通過閾值或者判定條件用“可靠性高”“可靠性低”的分類來表現(xiàn)。
要素元數(shù)據(jù)的客觀性/可靠性的判定中,假設(shè)至少使用要素元數(shù)據(jù)、來源元數(shù)據(jù)、用戶元數(shù)據(jù)的其中一個,但是,除此之外也可以將字符串的句法的屬性、含義的屬性或者統(tǒng)計的信息等組合來使用。
在圖23中表示客觀性/可靠性判定規(guī)則的例子。這里,將客觀性設(shè)為1~0(設(shè)1的客觀性高,0的客觀性低),將可靠性設(shè)為1~0(設(shè)1的可靠性高、0的可靠性低)來表現(xiàn)。例如,規(guī)則4是對于觀點為“用途”而記述的含義分類為“USAGE”那樣的要素元數(shù)據(jù),如果來源元數(shù)據(jù)的文本的取得元為“公司網(wǎng)頁”,則客觀性判定為1,可靠性也判斷為1的規(guī)則。
接著,對于圖26的要素元數(shù)據(jù),說明通過文本的要素元數(shù)據(jù)、來源元數(shù)據(jù)、句法的屬性,利用可客觀性/可靠性判定規(guī)則,進行了客觀性/可靠性的判定處理的例子。
當(dāng)前,假設(shè)通過觀點/記述提取單元120從輸入文本中,圖26的要素元數(shù)據(jù)的提取元的對應(yīng)于文本1~4的來源信息記述意見用戶信息記述的塊中,分別提取以下那樣的來源元數(shù)據(jù)和用戶元數(shù)據(jù)。
文本1來源元數(shù)據(jù)觀點文本的取得元假設(shè)的含義屬性公司網(wǎng)頁文本2來源元數(shù)據(jù)觀點文本的取得元記述的含義屬性個人網(wǎng)頁用戶元數(shù)據(jù)觀點性別記述男性文本3來源元數(shù)據(jù)觀點文本的取得元記述的含義屬性個人網(wǎng)頁用戶元數(shù)據(jù)觀點性別記述女性文本4來源元數(shù)據(jù)觀點文本的取得元記述的含義屬性個人網(wǎng)頁用戶元數(shù)據(jù)觀點性別記述男性利用上述的來源元數(shù)據(jù)和用戶元數(shù)據(jù),利用圖23的客觀性/可靠性判定規(guī)則判定圖26的要素元數(shù)據(jù)的客觀性和可靠性。例如,在圖26的要素元數(shù)據(jù)ID為1-3a的要素元數(shù)據(jù)的情況下,要素元數(shù)據(jù)的觀點為“容量”、記述的含義分類為“QUANT”,提取元的文本1為公司網(wǎng)頁,所以應(yīng)用圖23的規(guī)則6,客觀性、可靠性都被判定為1。另一方面,在圖26的要素元數(shù)據(jù)ID為1-3b的要素元數(shù)據(jù)的情況下,要素元數(shù)據(jù)的觀點為“容量”、記述的含義分類為“無”,提取元的文本1為公司網(wǎng)頁,進而包含要素元數(shù)據(jù)的句子的“句尾為不確定表現(xiàn)1以外”,所以應(yīng)用圖23的規(guī)則9,客觀性被判定為0、可靠性被判定為0.5。同樣,圖27表示利用上述來源元數(shù)據(jù)和用戶元數(shù)據(jù),對圖26的要素元數(shù)據(jù),客觀性/可靠性判定單元412利用圖23的客觀性/可靠性判定規(guī)則判定的客觀性/可靠性判定結(jié)果例。而且,對于規(guī)則的記法和構(gòu)成要素定義與圖3、圖7等一樣,省略說明。
而且,作為客觀性/可靠性判定規(guī)則的條件,在上述說明中利用了文本的要素元數(shù)據(jù)和來源元數(shù)據(jù)和句法的屬性,但是,只要是包含要素元數(shù)據(jù)、來源元數(shù)據(jù)和用戶元數(shù)據(jù)的至少其中一個,則本發(fā)明不限于此。而且,在圖23的客觀性/可靠性判定規(guī)則中,將對應(yīng)于來源元數(shù)據(jù)的觀點“文本的取得元”的記述的含義屬性用于規(guī)則的條件的一部分,但是也可以利用其它的觀點和記述的組。例如可以利用“作成日”而作成日早的要素元數(shù)據(jù)判定為可靠性低,或者利用“作成日”而將特點的人寫的文本的可靠度提高或降低。而且,將要素元數(shù)據(jù)和其它的信息組合的情況下,例如,與統(tǒng)計的信息組合,將對于同樣的觀點具有多個類似的內(nèi)容的記述的要素元數(shù)據(jù)的可靠度提高?;蛘?,也可以將具有與多數(shù)人的記述不同的內(nèi)容的記述的要素元數(shù)據(jù)的可靠度降低。而且,在圖23的客觀性/可靠性判定規(guī)則中,在一個規(guī)則中同時判定客觀性和可靠性,但是也可以區(qū)分客觀性的判定規(guī)則和可靠性的判定規(guī)則,從而在一個規(guī)則中判定其中一個。
接著,元數(shù)據(jù)核對單元106分別比較/核對被提取的要素元數(shù)據(jù)的觀點間、記述間,推定關(guān)聯(lián)性。元數(shù)據(jù)核對單元106的觀點/記述的核對方法沒有特別限定。這里,設(shè)為與實施方式1、2或3相同,但是,也可以還利用客觀性/可靠性,在由觀點/記述間的核對結(jié)果推定為關(guān)聯(lián)性高的要素元數(shù)據(jù)中,客觀性或可靠性的值接近者進一步推定為關(guān)聯(lián)性高。
而且,在上述說明中,來源元數(shù)據(jù)和用戶元數(shù)據(jù)僅在可靠性或可靠性的判定中使用,但是有利于將它們在元數(shù)據(jù)核對單元106進行要素元數(shù)據(jù)的比較/核對時直接使用。例如,也可以在存在關(guān)于從多個個人網(wǎng)頁中提取的要素元數(shù)據(jù)的某個產(chǎn)品的容量的記述的情況下,用戶元數(shù)據(jù)的“性別”的記述相同,或者“年齡”的記述在一定范圍內(nèi)時,使關(guān)聯(lián)性高。
接著,元數(shù)據(jù)綜合單元108綜合包含要素元數(shù)據(jù)、來源元數(shù)據(jù)、用戶元數(shù)據(jù)和評價的要素元數(shù)據(jù),將綜合結(jié)果存儲在元數(shù)據(jù)存儲單元110中。
綜合的方法雖然沒有特別限定,但是這里作為例子,設(shè)為以下的(1)~(4)(要素元數(shù)據(jù))(1)綜合具有相同話題的元數(shù)據(jù)(2)在相同的話題中綜合具有同義的觀點的要素元數(shù)據(jù)(3)在相同的話題中在具有同義的觀點的元數(shù)據(jù)中如果存在同義的記述則進行綜合。
(4)在相同的話題中在具有同義的觀點和同義的記述的元數(shù)據(jù)中如果含義屬性相同則進行綜合。
在將綜合的方法設(shè)為(1)~(4)的情況下,對元數(shù)據(jù)綜合單元108綜合圖27的要素元數(shù)據(jù)的情況進行說明。首先,圖27的元數(shù)據(jù)由于全部具有相同的話題“A200”,所以按照上述(1),以共同的話題進行綜合。接著,與實施方式1一樣,判定具有相同話題的各要素元數(shù)據(jù)的觀點是否同義。在圖27的例子中,觀點僅為“產(chǎn)品分類”、“產(chǎn)品名”、“容量”、“用途”四種,它們不同義,所以如果各自綜合具有這四種觀點的要素元數(shù)據(jù),則以觀點“產(chǎn)品分類”綜合要素元數(shù)據(jù)1-1、2-1、3-1、4-1,以觀點“產(chǎn)品名”綜合要素元數(shù)據(jù)1-2、2-2、3-2、4-2,以觀點“容量”綜合要素元數(shù)據(jù)1-3a、1-3b、2-3、3-3、4-3。
接著,與實施方式1一樣,判定在相同話題中具有同義的觀點的元數(shù)據(jù)的記述是否同義。在圖27的例子中,例如,由于在話題“A200”中具有同義的觀點“產(chǎn)品分類”的要素元數(shù)據(jù)的記述都是“包”,所以它們被視為同義,按照上述(3),要素元數(shù)據(jù)1-1、2-1、3-1、4-1的記述被綜合。同義,在話題“A200”中具有同義的觀點“產(chǎn)品名”的要素元數(shù)據(jù)1-2、2-2、3-2、4-2的記述,意見具有同義的觀點“用途”的要素元數(shù)據(jù)3-4、4-4被分別綜合。另一方面,例如,在話題“A200”中具有同義的觀點“容量”要素元數(shù)據(jù)的記述“20升”、“大的”、“海外出差用-不足夠”、“國內(nèi)出差用-太大”、“國內(nèi)出差用-足夠”不被判定為同義,所以不被綜合。
接著,在話題“A200”中具有同義的觀點“產(chǎn)品分類”和同義的記述“包”的要素元數(shù)據(jù)的含義分類都為“PROD_TYPE”,所以它們被視為同義,按照上述(4),要素元數(shù)據(jù)1-1、2-1、3-1、4-1的含義分類被綜合。同樣,在話題“A200”中,具有同義的觀點“產(chǎn)品名”和同義的記述“A200”的要素元數(shù)據(jù)1-2、2-2、3-2、4-2的含義分類、以及具有與同義的觀點“用途”同義的記述“國內(nèi)出差用”的要素元數(shù)據(jù)3-4、4-4的含義分類也被分別綜合。
如上所述,在圖28中表示元數(shù)據(jù)綜合單元108綜合了圖27的元數(shù)據(jù)的結(jié)果、被存儲在元數(shù)據(jù)存儲單元110中的元數(shù)據(jù)的綜合結(jié)果的例子。而且,在圖28中,要素元數(shù)據(jù)的一部分省略記述。
在圖28的例子中,作為客觀性、可靠性都高的信息,即作為事實的可能性高的信息,有“A200”的“包”的“容量”為“20升”的信息。而且,可知作為與其相關(guān)的客觀性低的信息,即被認為意見的信息,雖然在公司的網(wǎng)頁中,其容量被評價為“大的”,但是,在個人網(wǎng)頁中,在“海外出差用”中被一名男性評價為“不足夠”,在“國內(nèi)出差用”中被一名女性評價為“太大”,被一名男性評價為“足夠”。
接著,如果從用戶請求處理單元302有用戶請求的指定,則元數(shù)據(jù)輸出形式生成單元304按照用戶請求的指定生成元數(shù)據(jù)輸出形式,并通過元數(shù)據(jù)輸出單元306對用戶提示,但是,此前的流程與實施方式3一樣。而且,在本實施方式中,也可以將要素元數(shù)據(jù)的評價數(shù)據(jù)指定作為用戶請求。這里,以以下情況為例進行說明,即從圖28的元數(shù)據(jù)的綜合結(jié)果,接受包含如下那樣的要素元數(shù)據(jù)的評價數(shù)據(jù)的用戶請求的指定,元數(shù)據(jù)輸出形式生成單元304對與用戶指定的條件一致的元數(shù)據(jù)生成元數(shù)據(jù)表的情況。
用戶請求的指定話題事物A200客觀性0文本的種類個人網(wǎng)頁該指定是作為被寫在個人網(wǎng)頁的文本中的關(guān)于“A200”的事物的評價數(shù)據(jù),求“客觀性為0”的記述,即意見。而且,上述是用戶請求的指定方法的一例,指定方法不限于上述情況。
圖29表示通過上述的用戶請求的指定,與實施方式3一樣生成的元數(shù)據(jù)表的例子。從圖29的元數(shù)據(jù)表可知,作為被寫在與A200的事物有關(guān)的個人網(wǎng)頁的文本中的意見,容量和用途的觀點被采納,作為用途對于海外出差用、國內(nèi)出差用兩個用途進行評價,容量對于海外出差用被評價為不足夠(男性1名),對于國內(nèi)出差用被評價為太大(女性1名)、足夠(男性1名)。
這樣,按照本實施方式,可以將文本中被表現(xiàn)的與事物有關(guān)的事實和意見的記述內(nèi)容與被推定的話題的事物一起,將事物與意見附帶對應(yīng)來提取。而且,以容易進行被提取的事物和意見的關(guān)聯(lián)性的比較的形式提取,并將事實和意見對于某個話題事物附帶對應(yīng)后,還包含客觀性和可靠性的評價結(jié)果來對用戶提示。由此,可以適當(dāng)?shù)亟忉層糜谔崾居脩舻男畔?,并且僅確切地選擇用戶需要的信息。
本發(fā)明雖然根據(jù)附圖所示的優(yōu)選實施例進行了說明,但是只要是本技術(shù)領(lǐng)域的技術(shù)人員就明白,可以容易地變更和改變本發(fā)明,這樣的變更部分也被包含在發(fā)明的范圍內(nèi)。
本發(fā)明在產(chǎn)業(yè)上的可利用性與本發(fā)明有關(guān)的信息提取系統(tǒng)具有觀點/記述提取單元、觀點/記述提取規(guī)則存儲單元、元數(shù)據(jù)存儲單元,并作為信息提取系統(tǒng)、信息檢索系統(tǒng)有用。而且,也可以應(yīng)用在信息分析/評價系統(tǒng)、信息發(fā)信系統(tǒng)等用途中。
權(quán)利要求
1.一種信息提取系統(tǒng),包括輸入單元,輸入文本;觀點/記述提取規(guī)則存儲單元,存儲用于特定被記述在文本中的表現(xiàn)的觀點和與該觀點有關(guān)的記述的組的觀點/記述提取規(guī)則;觀點/記述提取單元,從對被輸入所述輸入單元中的文本中的字符串賦予的句法的屬性或者含義的屬性的至少一個屬性中,利用所述觀點/記述提取規(guī)則,將觀點及其記述的組提取作為附帶對應(yīng)的要素元數(shù)據(jù);以及元數(shù)據(jù)存儲單元,存儲所述觀點/記述提取單元提取的要素元數(shù)據(jù)。
2.如權(quán)利要求1所述的信息提取系統(tǒng),所述句法的屬性至少包括字符串列表或者詞類分類的其中一個。
3.如權(quán)利要求1所述的信息提取系統(tǒng),所述含義的屬性至少包含含義分類。
4.如權(quán)利要求1所述的信息提取系統(tǒng),所述觀點/記述提取單元在將附帶對應(yīng)的觀點和記述的組作為要素元數(shù)據(jù)提取時,賦予用于識別附帶對應(yīng)的觀點和記述的組的識別信息(要素元數(shù)據(jù)ID)來提取。
5.如權(quán)利要求1所述的信息提取系統(tǒng),還包括屬性賦予單元,從文本提取任意的字符串,并至少利用用于特定字符串的含義分類的含義屬性賦予規(guī)則,輸出對每個字符串賦予了含義屬性的附帶含義的屬性文本。
6.如權(quán)利要求1所述的信息提取系統(tǒng),所述觀點/記述提取單元在文本中不表現(xiàn)觀點,僅表現(xiàn)記述的情況下,將記述的含義的屬性作為觀點,提取觀點和記述的組。
7.如權(quán)利要求1所述的信息提取系統(tǒng),還包括元數(shù)據(jù)核對單元,分別核對所述觀點/記述提取單元提取的要素元數(shù)據(jù)的觀點之間和記述之間,并且推定關(guān)聯(lián)性;以及元數(shù)據(jù)綜合單元,根據(jù)所述被推定的關(guān)聯(lián)性,綜合具有關(guān)聯(lián)性的要素元數(shù)據(jù),并且輸出綜合元數(shù)據(jù)。
8.如權(quán)利要求6所述的信息提取系統(tǒng),所述元數(shù)據(jù)核對單元在核對所述觀點/記述提取單元提取的要素元數(shù)據(jù)的觀點和記述時,至少利用構(gòu)成觀點、記述的字符串的含義的屬性來進行核對。
9.如權(quán)利要求7所述的信息提取系統(tǒng),還包括話題事物推定單元,對于由所述觀點/記述提取單元提取的要素元數(shù)據(jù),利用用于推定話題的事物的話題事物推定規(guī)則,推定被作為話題的事物,所述元數(shù)據(jù)存儲單元將要素元數(shù)據(jù)與由所述話題事物推定單元推定的話題的事物一起對應(yīng)存儲。
10.如權(quán)利要求9所述的信息提取系統(tǒng),所述話題事物推定單元在推定要素元數(shù)據(jù)的話題的事物時,從被存儲在所述元數(shù)據(jù)存儲單元中的要素元數(shù)據(jù)的觀點/記述和含義的屬性推定話題的事物。
11.如權(quán)利要求9或10所述的信息提取系統(tǒng),所述元數(shù)據(jù)核對單元在進行觀點和記述的核對時,以通過所述話題事物推定單元推定的話題事物單位進行所述觀點和記述的核對。
12.如權(quán)利要求1所述的信息提取系統(tǒng),所述觀點/記述提取規(guī)則包含用于特定作為與文本的作者有關(guān)的信息的用戶信息的規(guī)則的用戶觀點/記述提取規(guī)則,所述觀點/記述提取單元利用所述用戶觀點/記述提取規(guī)則,提取作為與用戶信息有關(guān)的要素元數(shù)據(jù)的用戶元數(shù)據(jù)。
13.如權(quán)利要求1所述的信息提取系統(tǒng),所述觀點/記述提取規(guī)則包含用于特定作為與文本的書目事項有關(guān)的信息的來源信息的規(guī)則的來源觀點/記述提取規(guī)則,所述觀點/記述提取單元利用所述來源觀點/記述提取規(guī)則,提取作為與來源信息有關(guān)的要素元數(shù)據(jù)的來源元數(shù)據(jù)。
14.如權(quán)利要求9所述的信息提取系統(tǒng),所述元數(shù)據(jù)核對單元還包括客觀性/可靠性判定單元,至少利用要素元數(shù)據(jù)、或者用戶元數(shù)據(jù)、或者來源元數(shù)據(jù)中的一種以上,判定觀點、記述的客觀性/可靠性;以及客觀性/可靠性判定規(guī)則存儲單元,存儲用于判定所述觀點、記述的客觀性/可靠性的客觀性/可靠性判定規(guī)則。
15.如權(quán)利要求9所述的信息提取系統(tǒng),所述話題事物推定單元在推定要素元數(shù)據(jù)的話題的事物時,除了被存儲在所述元數(shù)據(jù)存儲單元中的要素元數(shù)據(jù),還利用來源元數(shù)據(jù)或者用戶元數(shù)據(jù)的至少其中一個來推定話題的事物。
16.如權(quán)利要求14所述的信息提取系統(tǒng),還包括元數(shù)據(jù)輸出形式生成單元,將所述元數(shù)據(jù)整理為表形式從而生成元數(shù)據(jù)表;以及元數(shù)據(jù)輸出單元,對用戶提示生成的元數(shù)據(jù)表。
17.如權(quán)利要求16所述的信息提取系統(tǒng),還包括處理來自用戶的請求的用戶請求處理單元,所述元數(shù)據(jù)輸出形式生成單元利用與通過所述用戶請求處理單元輸入的用戶請求一致的元數(shù)據(jù)來生成元數(shù)據(jù)表。
18.一種信息提取方法,包括輸入文本的步驟;參照用于特定被記述在文本中的表現(xiàn)的觀點和與該觀點有關(guān)的記述的組的觀點/記述提取規(guī)則的步驟;以及從對被輸入所述輸入單元中的文本中的字符串賦予的句法的屬性或者含義的屬性的至少一個屬性中,利用所述觀點/記述提取規(guī)則,將觀點及其記述的組提取作為附帶對應(yīng)的要素元數(shù)據(jù)的步驟。
全文摘要
將與文本中表現(xiàn)的事物有關(guān)的事實和意見等記述內(nèi)容,使事實和意見的觀點和記述附帶對應(yīng)地進行提取。為此,設(shè)為具有以下結(jié)構(gòu)輸入單元,輸入文本;觀點/記述提取規(guī)則存儲單元,存儲用于特定被記述在文本中的表現(xiàn)的觀點和與該觀點有關(guān)的記述的組的觀點/記述提取規(guī)則;觀點/記述提取單元,從文本中的字符串的句法的屬性或者含義的屬性的至少一個屬性中,利用所述觀點/記述提取規(guī)則,將觀點及其記述的組附帶對應(yīng),提取作為賦予了用于識別它們的識別信息的要素元數(shù)據(jù);以及元數(shù)據(jù)存儲單元,存儲所述觀點/記述提取單元提取的要素元數(shù)據(jù),將與文本中表現(xiàn)的事物有關(guān)的事實和意見等記述內(nèi)容構(gòu)成作為觀點和記述的組,并且整理為事實和意見附帶對應(yīng)的形式來提取。
文檔編號G06F17/27GK1942877SQ20058001178
公開日2007年4月4日 申請日期2005年3月31日 優(yōu)先權(quán)日2004年3月31日
發(fā)明者野本昌子 申請人:松下電器產(chǎn)業(yè)株式會社