專利名稱:語言處理設(shè)備、語言處理方法、以及語言處理程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于在自然語言處理中執(zhí)行形態(tài)分析或句法分析等 的語言處理設(shè)備、語言處理方法以及語言處理程序,更具體地,涉及一種 能夠在不改變語言分析處理的基本分析結(jié)果的前提下刪除分析中間的歧 義性以便高速執(zhí)行分析處理的語言處理設(shè)備、語言處理方法及語言處理程序。
背景技術(shù):
在以計算機翻譯、文本挖掘等為代表的自然語言處理中,用于分析輸 入語句的句法分析處理是十分重要的。
在句法分析處理中,對輸入語句執(zhí)行一系列處理,如(1)將語句分
成單詞、(2)為各單詞賦予詞性、(3)確定單詞間的相互關(guān)系、以及(4) 為單詞賦予語義信息。
然而,由于自然語言的諸如單詞、短語等的語法要素可以具有多種語 法功能,如多種含意、多種詞性等,因此語法要素本身可能存在歧義性, 因而具有多種含意,而并非被識別為具有唯一一種含意。
為此,在句法分析處理中,在進行分析要對語法要素的歧義性加以考 慮。'
具體地,語言處理設(shè)備在分析包含語法要素的語句時執(zhí)行如下分析, 所述語法要素具有諸如多種含意或多種詞性等語法功能,可以是比如單 詞、短語等(在下文中被稱為"多義詞")。
首先,語言處理設(shè)備根據(jù)多義詞所具有的多種語法功能(在下文中被 稱為"多種含意")創(chuàng)建多個候選項。隨后,語言處理設(shè)備對多個這樣的 候選項進行分析,以輸出唯一的分析結(jié)果。
相應(yīng)地,語言處理設(shè)備在分析包含多義詞的語句時,花費大量時間用 于句法分析。
傳統(tǒng)上,巳提出了多種用于更快速地處理句法分析的方法。例如,存 在一種方法,該方法用于在不改變句法分析結(jié)果的前提下,通過在前期刪 除可以被刪除的非必要候選項的方式來使處理加速。
傳統(tǒng)上,已提出了一種事先手工列舉規(guī)則的方法作為創(chuàng)建用于識別這 種非必要候選項的方法,然而由于手工數(shù)據(jù)創(chuàng)建成本很高因而是不現(xiàn)實 的。
另一方面,專利文獻1 (JP-2-114377-A)描述了一種根據(jù)句法分析處 理的分析結(jié)果中的實例來學習歧義性消除模型(規(guī)則)的自然語言處理設(shè) 備。
具體地,專利文獻l描述了一種自然語言處理設(shè)備,該設(shè)備學習用于 從句法分析處理的分析結(jié)果中消除詞性歧義性的模型。
這種傳統(tǒng)的自然語言處理設(shè)備包括形態(tài)分析單元、句法分析單元、學 習設(shè)備、以及學習結(jié)果保存單元。具有這種配置的傳統(tǒng)自然語言處理設(shè)備 按照如下方式工作。
形態(tài)分析單元從形態(tài)上分析輸入語句。句法分析單元根據(jù)形態(tài)分析的 結(jié)果進行句法分析。學習設(shè)備接收具有由形態(tài)分析單元輸出的具有歧義性 的詞性序列以及根據(jù)句法分析單元中的分析結(jié)果確定得到的詞性序列,以 學習用于估計詞性的統(tǒng)計模型。學習結(jié)果保存單元保存在學習設(shè)備中學到 的結(jié)果。在下一分析處理中,句法分析單元利用學習結(jié)果保存單元中的學 習結(jié)果來估計詞性,以在前期消除詞性序列的歧義性。
專利文獻l: JP-2-114377-A
發(fā)明內(nèi)容
為消除歧義性,專利文獻1中所描述的傳統(tǒng)自然語言處理設(shè)備對詞性 進行估計,但在這種情況下,存在執(zhí)行了錯誤的詞性估計的可能。因此, 如果傳統(tǒng)自然語言處理設(shè)備執(zhí)行了錯誤的詞性估計,那么該設(shè)備可能輸出 與尚未消除歧義性時的句法分析結(jié)果不同的句法分析結(jié)果。
為此,傳統(tǒng)自然語言處理設(shè)備無法實現(xiàn)僅刪除不改變句法分析結(jié)果的 非必要候選項的目的。
在這點上,傳統(tǒng)自然語言處理設(shè)備產(chǎn)生錯誤的詞性估計的原因在于
雖然存在實質(zhì)上不能刪除的候選項,但是在估計最有可能的方案(候選項) 時,進行的是最大似然估計,而沒有考慮統(tǒng)計模型中是否存在候選項。
例如,考慮兩種表達"hashiru/to/kare/ha/iu "(表達1 )和 "hashiru/to/kare/ha/tukareru"(表達2)。這里,表達中的符號"slash"代 表單詞之間的定界符。
這里,單詞"to"具有兩種語法功能(含意),即候選項,這兩個候選
項為表示短語之前緊接著引用表達的"引用助詞",以及表示時間轉(zhuǎn)換 的"連接助詞"。因此,單詞"to"具有歧義。
具體哪個候選項是正確方案取決于"to"后面是否存在能夠接受引用 表達的動詞。
在前述示例中,在表達1中,"引用助詞"是正確的方案,因為存在
可以接受引用表達"iu"的動詞,而在表達2中,"連接助詞"是正確的方 案,因為不存在相應(yīng)的動詞。
然而,當如同在傳統(tǒng)的自然語音處理設(shè)備中,僅通過觀察詞性來進行 學習時,表達1和2都具有能夠在學習過程中被參照的相同信息,即"動 詞/to/名詞/助詞/動詞"。為此,表達1和2中的詞性估計無法在實質(zhì)上導 致不同的結(jié)果。
當在最大似然估計的統(tǒng)計學習中使用這樣的矛盾數(shù)據(jù)作為學習數(shù)據(jù) 時,通常學習這樣的模型,該模型將學習數(shù)據(jù)內(nèi)的較頻繁出現(xiàn)的詞性估計 為某個單詞的詞性。
例如,如果"連接助詞"的頻率高于"引用助詞"的頻率,當應(yīng)用于 表達l的分析時,歧義性消除處理將消除出現(xiàn)頻率較低的、但其實是正確 方案的"引用助詞",并因而輸出與原始句法分析結(jié)果不同的句法分析結(jié) 果。
學習數(shù)據(jù)內(nèi)的這種矛盾不僅出現(xiàn)在在學習過程中單獨參照詞性的情 況下,在學習整個統(tǒng)計模型時也會出現(xiàn)。
在統(tǒng)計模型學習中,為了避免數(shù)據(jù)稀疏,將所參照的信息限定于有限 的空間,因此以同在不使用空間外部信息的情況下無法消除歧義性的示例 類似的方式,在學習數(shù)據(jù)中將會出現(xiàn)矛盾。
本發(fā)明的目的是提供一種能夠僅僅去除不改變最終分析結(jié)果的非必
要候選項的語言處理設(shè)備、語言處理方法以及語言處理程序,以及一種能 夠通過僅去除非必要候選項的方式在不改變分析結(jié)果的前提下以更快的 速度執(zhí)行分析處理的語言處理設(shè)備、語言處理方法以及語言處理程序。 解決問題的手段
為實現(xiàn)上述目的,根據(jù)本發(fā)明的語言處理設(shè)備包括第一分析單元, 對包括多義詞和其他單詞在內(nèi)的自然語言語句執(zhí)行預(yù)定分析,以根據(jù)多義 詞所具有的多種含意輸出針對該自然語言語句的多個分析結(jié)果;第二分析 單元,對第一分析單元輸出的多個分析結(jié)果執(zhí)行特定分析,以采用多個分 析結(jié)果中的一個分析結(jié)果;以及生成單元,基于第一分析單元所輸出的多 個分析結(jié)果以及第二分析單元所采用的結(jié)果,生成用于刪除第一分析單元 的一個或多個非必要分析結(jié)果的刪除規(guī)則,以便即使從第一分析單元輸出 的多個分析結(jié)果中刪除了一個或多個非必要分析結(jié)果,也能使第二分析單 元所采用的分析結(jié)果保持不變。
此外,根據(jù)本發(fā)明的語言處理方法包括第一分析步驟,對包括多義 詞和其他單詞在內(nèi)的自然語言語句執(zhí)行預(yù)定分析,以根據(jù)多義詞所具有的 多種含意輸出針對該自然語言語句的多個分析結(jié)果;第二分析步驟,對所 述多個分析結(jié)果執(zhí)行特定分析,以采用多個分析結(jié)果中的一個分析結(jié)果; 以及生成步驟,基于第一分析步驟所輸出的多個分析結(jié)果以及第二分析步 驟的采用結(jié)果,生成用于刪除第一分析步驟的一個或多個非必要分析結(jié)果 的刪除規(guī)則,以便即使從所述多個分析結(jié)果中刪除了一個或多個非必要分 析結(jié)果,也能使第二分析步驟所采用的分析結(jié)果保持不變。
根據(jù)上述發(fā)明,基于第一分析單元所輸出的多個分析結(jié)果以及第二分 析單元所采用的結(jié)果,生成用于刪除第一分析單元的一個或多個非必要分 析結(jié)果的刪除規(guī)則,以便即使從第一分析單元輸出的多個分析結(jié)果中刪除 了一個或多個非必要分析結(jié)果,也能夠使第二分析單元所采用的分析結(jié)果 保持不變。 .
因此,可以防止將第二分析單元為了采用正確的分析結(jié)果而需要的分 析結(jié)果從第一分析單元的、尚未被第二分析單元采用的分析結(jié)果中刪除。 因而,可以僅僅去除不改變最終分析結(jié)果的非必要候選項(分析結(jié)果)。
此外,根據(jù)本發(fā)明的語言處理設(shè)備包括第一分析單元,對包括多義
詞和其他單詞在內(nèi)的自然語言語句執(zhí)行預(yù)定分析,以根據(jù)多義詞所具有的 多種含意輸出針對該自然語言語句的多個分析結(jié)果;第二分析單元,對第 一分析單元輸出的多個分析結(jié)果執(zhí)行特定分析,以采用多個分析結(jié)果中的 一個分析結(jié)果;存儲單元,針對多義詞的一種含意與同其他單詞相關(guān)的信 息的各組合,存儲指示是否采用該組合的確定信息;采用信息生成單元, 針對第一分析單元所輸出的各分析結(jié)果內(nèi)的多義詞的含意與同其他單詞 相關(guān)的信息的各組合,基于第一分析單元所輸出的多個分析結(jié)果以及第二 分析單元所采用的結(jié)果,生成指示第二分析單元是否采用該組合的采用信 息;以及規(guī)則生成單元,當在由采用信息生成單元所生成的采用信息中被 確定為"不采用"的組合與存儲單元中指示"采用"的確定信息相對應(yīng)時, 將采用信息變?yōu)?采用",并在隨后基于改變了的采用信息以及沒有改變 的采用信息,生成用于從所述多個分析結(jié)果中刪除一個或多個非必要分析 結(jié)果的刪除規(guī)則。
此外, 一種根據(jù)本發(fā)明的語言處理方法是由語言處理設(shè)備所執(zhí)行的語 言處理方法,所述方法包括第一分析步驟,對包括多義詞和其他單詞在 內(nèi)的自然語言語句執(zhí)行預(yù)定分析,以根據(jù)多義詞所具有的多種含意輸出針 對該自然語言語句的多個分析結(jié)果;第二分析步驟,對所述多個分析結(jié)果 執(zhí)行特定分析,以采用多個分析結(jié)果中的一個分析結(jié)果;采用信息生成步 驟,針對第一分析步驟所輸出的各分析結(jié)果內(nèi)的多義詞的含意與同其他詞 相關(guān)的信息的各組合,基于第一分析步驟所輸出的多個分析結(jié)果以及第二 分析步驟的采用結(jié)果,生成指示第二分析步驟是否采用該組合的采用信 息;以及規(guī)則生成步驟,當在采用信息中被確定為"不采用"的組合與存 儲單元中指示"采用"的確定信息相對應(yīng)時,將采用信息變?yōu)?采用", 并在隨后基于改變了的采用信息以及沒有改變的采用信息,生成用于從所 述多個分析結(jié)果中刪除一個或多個非必要分析結(jié)果的刪除規(guī)則;其中所述 語言處理設(shè)備包括存儲單元,所述存儲單元針對多義詞的一種含意與同其 他單詞相關(guān)的信息的各組合,存儲指示是否采用該組合的確定信息。
根據(jù)上述發(fā)明,當未被第二分析單元采用的分析結(jié)果內(nèi)的組合與存儲 單元中指示"采用"的確定信息相對應(yīng)時,將該組合的采用信息變?yōu)?采 用",并在隨后基于改變了的釆用信息以及沒有改變的采用信息,生成用
于從第一分析單元的多個分析結(jié)果中刪除一個或多個非必要分析結(jié)果的 刪除規(guī)則。
因此,可以防止將第二分析單元為了采用正確的分析結(jié)果而需要的分 析結(jié)果從第一分析單元的、尚未被第二分析單元采用的分析結(jié)果中刪除。 因而,可以僅僅去除不改變最終分析結(jié)果的非必要候選項(分析結(jié)果)。
在這點上,多義詞的含意與同其他單詞有關(guān)的信息的組合優(yōu)選地是該
多義詞的表面字符串(surface string)、原型、詞性、變形或其組合中的一 種與該多義詞相鄰單詞的組合。
此外,第一分析單元優(yōu)選地,按照用于根據(jù)事先確定的預(yù)定規(guī)則執(zhí)行 分析的基于規(guī)則的方案,對自然語言語句進行分析。
根據(jù)上述發(fā)明,第一分析單元中的分析方案是與基于統(tǒng)計的分析在分 析方案上有所不同的基于規(guī)則的方案,所述基于統(tǒng)計的分析基于用于創(chuàng)建 刪除規(guī)則的統(tǒng)計模型。因此,基于刪除規(guī)則的刪除處理有效工作的可能性 更大。
此外,根據(jù)本發(fā)明的語言處理設(shè)備包括知識庫存儲單元,存儲上述 語言處理設(shè)備所生成的刪除規(guī)則;第一分析單元,對包括多義詞和其他單 詞在內(nèi)的自然語言語句執(zhí)行預(yù)定分析,以根據(jù)多義詞所具有的多種含意輸 出針對該自然語言語句的多個分析結(jié)果;歧義性刪除單元,基于知識庫存 儲單元內(nèi)存儲的刪除規(guī)則,從第一分析單元輸出的多個分析結(jié)果中刪除一 個或多個非必要分析結(jié)果;以及第二分析單元,對歧義性刪除單元己從中 刪除了一個或多個非必要分析結(jié)果的所述多個分析結(jié)果執(zhí)行特定分析,以 采用多個分析結(jié)果中的一個分析結(jié)果。
此外, 一種根據(jù)本發(fā)明的語言處理方法是由語言處理設(shè)備所執(zhí)行的語 言處理方法,該語言處理設(shè)備包括存儲由該語言處理設(shè)備所生成的刪除規(guī) 則的知識庫存儲單元,該方法包括第一分析步驟,對包括多義詞和其他 單詞在內(nèi)的自然語言語句執(zhí)行預(yù)定分析,以根據(jù)多義詞所具有的多種含意 輸出針對該自然語言語句的多個分析結(jié)果;歧義性刪除步驟,基于知識庫 存儲單元內(nèi)存儲的刪除規(guī)則,從所述多個分析結(jié)果中刪除一個或多個非必 要分析結(jié)果;以及第二分析步驟,對已從中刪除了一個或多個非必要分析 結(jié)果的所述多個分析結(jié)果執(zhí)行特定分析,以采用多個分析結(jié)果中的一個分
析結(jié)果。
根據(jù)上述發(fā)明,由于沒有將第二分析單元為了采用正確的分析結(jié)果而 需要的分析結(jié)果從第一分析單元的、尚未被第二分析單元釆用的分析結(jié)果 中刪除,因而可以僅刪除非必要分析結(jié)果。因此,可以在保持第二分析單 元的分析結(jié)果的精確度的同時,刪除第二分析單元的處理。
此外, 一種根據(jù)本發(fā)明的語言處理程序是用于使計算機執(zhí)行語言處理 的語言處理程序,并且該程序使計算機執(zhí)行的語言處理包括第一分析處 理,用于對包括多義詞和其他單詞在內(nèi)的自然語言語句執(zhí)行預(yù)定分析,以 根據(jù)多義詞所具有的多種含意輸出針對該自然語言語句的多個分析結(jié)果; 第二分析處理,用于對多個分析結(jié)果執(zhí)行特定分析,以采用多個分析結(jié)果 中的一個分析結(jié)果;以及生成處理,用于基于第一分析處理所輸出的多個
分析結(jié)果以及第二分析處理的采用結(jié)果,生成用于刪除第一分析處理的一 個或多個非必要分析結(jié)果的刪除規(guī)則,以便即使從所述多個分析結(jié)果中刪 除了一個或多個非必要分析結(jié)果,也能夠使第二分析處理所采用的分析結(jié) 果保持不變。
此外, 一種根據(jù)本發(fā)明的語言處理程序是用于使計算機執(zhí)行語言處理 的語言處理程序,該計算機連接至存儲單元,所述存儲單元針對多義詞的 一種含意與同其他單詞相關(guān)的信息的各組合,存儲指示是否采用該組合的 確定信息,并且該程序使計算機執(zhí)行的語言處理包括第一分析處理,用 于對包括多義詞和其他單詞在內(nèi)的自然語言語句執(zhí)行預(yù)定分析,以根據(jù)多 義詞所具有的多種含意輸出針對該自然語言語句的多個分析結(jié)果;第二分 析處理,用于對所述多個分析結(jié)果執(zhí)行特定分析,以采用多個分析結(jié)果中 的一個分析結(jié)果;采用信息生成處理,用于針對第一分析處理所輸出的各
分析結(jié)果內(nèi)的多義詞的含意與同其他詞相關(guān)的信息的各組合,基于第一分 析處理所輸出的多個分析結(jié)果以及第二分析處理的采用結(jié)果,生成指示第
二分析處理是否采用該組合的采用信息;以及規(guī)則生成處理,用于當在采 用信息中被確定為"不采用"的組合與存儲單元中指示"采用"的確定信 息相對應(yīng)時,將采用信息變?yōu)?采用",并在隨后基于改變了的采用信息 以及沒有改變的采用信息,生成用于從所述多個分析結(jié)果中刪除一個或多 個非必要分析結(jié)果的刪除規(guī)則。
此外, 一種根據(jù)本發(fā)明的語言處理程序是用于使計算機執(zhí)行語言處理 的語言處理程序,該計算機連接至知識庫存儲單元,所述知識庫存儲單元 存儲由語言處理設(shè)備生成的刪除規(guī)則,并且該程序使計算機執(zhí)行的的語言 處理包括第一分析處理,用于對包括多義詞和其他單詞在內(nèi)的自然語言 語句執(zhí)行預(yù)定分析,以根據(jù)多義詞所具有的多種含意輸出針對該自然語言 語句的多個分析結(jié)果;歧義性刪除處理,用于基于知識庫存儲單元內(nèi)存儲 的刪除規(guī)則,從所述多個分析結(jié)果中刪除一個或多個非必要分析結(jié)果;以 及第二分析處理,用于對己從中刪除了一個或多個非必要分析結(jié)果的所述 多個分析結(jié)果執(zhí)行特定分析,以采用多個分析結(jié)果中的一個分析結(jié)果。
根據(jù)上述發(fā)明,可以使計算機執(zhí)行語言處理方法。
發(fā)明效果
根據(jù)本發(fā)明,可以僅僅去除不改變最終分析結(jié)果的非必要候選項,并 且能夠通過僅去除非必要候選項的方式在不改變分析結(jié)果的前提下以更 快的速度執(zhí)行分析處理。
圖1是示出了本發(fā)明的第一典型實施例的配置的框圖。 圖2是示出了圖1所示的語言處理設(shè)備的操作的流程圖。 圖3A是示出了存儲在出現(xiàn)事例存儲單元31中的矛盾檢測事例的特定 示例的說明圖。
圖3B是示出了具有歧義性的形態(tài)分析結(jié)果的特定示例的說明圖。 圖3C是示出了從圖3B的分析結(jié)果中導出的事例的特定示例的說明圖。
附圖標記的說明 1輸入設(shè)備 2數(shù)據(jù)處理設(shè)備 21第一分析單元 22歧義性刪除單元 23第二分析單元
24非必要歧義性學習單元
241事例提取單元
243矛盾調(diào)整單元
243知識庫配置單元
244規(guī)則生成單元
3存儲設(shè)備
31出現(xiàn)事例存儲單元
32知識庫存儲單元
4輸出設(shè)備
5程序存儲單元
具體實施例方式
接下來,將參考附圖詳細描述用于實施本發(fā)明的最佳模式。 圖1是示出了本發(fā)明的第一典型實施例的配置的框圖。
在圖1中,第一典型實施例的語言處理設(shè)備包括諸如鍵盤之類的輸 入設(shè)備l;數(shù)據(jù)處理設(shè)備(計算機)2,用于在程序的控制下執(zhí)行操作;存 儲設(shè)備3,用于存儲信息;諸如顯示設(shè)備或打印設(shè)備等輸出設(shè)備4;以及 程序存儲單元(計算機可讀記錄介質(zhì))5,用于存儲定義了數(shù)據(jù)處理設(shè)備2 的操作的程序。
存儲設(shè)備3包括出現(xiàn)事例存儲單元31和知識庫存儲單元32。 出現(xiàn)事例存儲單元31具有事先存儲在其中的用于矛盾檢測的事例。 優(yōu)選地,由第一分析單元21和第二分析單元23通過在句法上分析大 量語句、并從其各個分析結(jié)果中提取與提供給知識庫配置單元243的事例 格式相同的數(shù)據(jù)的方式,來創(chuàng)建用于矛盾檢測的事例。由于這里創(chuàng)建了較 大量的事例,因而矛盾檢測的性能變得更好。
在各事例中,將多義詞的一種含意與同其他單詞相關(guān)的信息的組合與 表示是否采用該組合的確定信息相關(guān)聯(lián)。
作為參考,將多義詞定義為具有諸如多種含意或詞性等的語法功能的 語法要素,例如單詞或短語等。另一方面,與其他單詞有關(guān)的信息涉及與 某個不同于該多義詞的單詞有關(guān)的信息(例如,緊接在多義詞之前的單詞
的詞性)。
知識庫存儲單元32存儲由知識庫配置單元243創(chuàng)建的知識庫(例如,
刪除規(guī)則)。
數(shù)據(jù)處理設(shè)備2包括第一分析單元21、歧義性刪除單元22、第二 分析單元23、事例提取單元241、矛盾調(diào)整單元242、以及知識庫配置單 元243。在這點上,矛盾調(diào)整單元242和知識庫配置單元243組成了規(guī)則 生成單元244。此外,事例提取單元241、矛盾調(diào)整單元242、知識庫配置 單元243以及出現(xiàn)事例存儲單元31組成了一個生成單元。
數(shù)據(jù)處理設(shè)備2讀取比如存儲在程序存儲單元5中的程序,并執(zhí)行該 程序,以實現(xiàn)第一分析單元21、歧義性刪除單元22、第二分析單元23、 事例提取單元241、矛盾調(diào)整單元242、以及知識庫配置單元243。
在這點上,可以硬件方式配置第一分析單元21、歧義性刪除單元22、 第二分析單元23、事例提取單元241、矛盾調(diào)整單元242、以及知識庫配 置單元243。
這些組件通常按以下方式工作。
第一分析單元21執(zhí)行句法分析處理,直至某一中間階段。當句法分 析處理包括n個階段Xl-Xn時,第一分析單元21執(zhí)行Xl-Xm (m^n) 中的分析。
此外,第一分析單元21對包含多義詞和其他單詞在內(nèi)的自然語言語 句執(zhí)行預(yù)定分析(Xl-Xm (m^n)中的分析),并根據(jù)多義詞所具有的多 種含意為自然語言語句輸出多個分析結(jié)果。
歧義性刪除單元22基于存儲在知識庫存儲單元32中的知識庫,從第 一分析單元21輸出的多個分析結(jié)果中去除被確定為"不采用"的解釋結(jié) 果。在這點上,歧義性刪除單元22在第二分析單元23被禁止工作時向其 提供由第一分析單元21輸出的多個分析結(jié)果。
第二分析單元23基于歧義性刪除單元22的輸出,在第一分析單元21
執(zhí)行分析處理之后的階段執(zhí)行分析處理。
具體地,第二分析單元23對歧義性刪除單元22的輸出(例如,由第 一分析單元21輸出的多個分析結(jié)果)執(zhí)行特定分析(Xm+l至Xn的分析), 以采用多個分析結(jié)果中的一個分析結(jié)果。
事例提取單元241根據(jù)指示第二分析單元23的輸出中采用與否的采 用信息,以及與用于配置知識庫配置單元243中的知識庫的各分析結(jié)果中 的歧義性有關(guān)的信息(即屬性集合),創(chuàng)建針對第一分析單元21的各分析
結(jié)果的事例。
具體地,作為采用信息生成單元的示例,事例提取單元241根據(jù)第一 分析單元21所輸出的多個分析結(jié)果以及第二分析單元23所采用的結(jié)果, 從各分析結(jié)果中提取多義詞的含意與同其他單詞相關(guān)的信息的組合(包括 屬性集合),即事例。
此外,事例提取單元241根據(jù)第一分析單元21所輸出的多個分析結(jié) 果以及第二分析單元23所采用的結(jié)果,針對各事例生成指示該事例是否 己被第二分析單元23所采用的采用信息,并將該釆用信息附加至該事例。
矛盾調(diào)整單元242將存儲在出現(xiàn)事例存儲單元31中的大量事例同事 例提取單元241所提取的事例進行匹配,以確認是否存在矛盾事例。當存 在矛盾事例時,矛盾調(diào)整單元242僅按照從"不采用"到"采用"的方向, 對事例提取單元241所提取的事例的采用信息進行修正。
知識庫配置單元243根據(jù)矛盾調(diào)整單元242輸出的事例,創(chuàng)建用于歧 義性刪除的知識庫(例如,用于從第一分析單元21的多個分析結(jié)果中刪 除一個或多個非必要分析結(jié)果的刪除規(guī)則),并將該知識庫存儲在知識庫 存儲單元32中。
圖2是用于描述圖1中所示的語言處理設(shè)備的操作的流程圖。下面, 將參考圖l和2對圖1中所示的語言處理設(shè)備的整體操作進行詳細的描述。
首先,將對用于學習知識庫的操作(例如,在創(chuàng)建用于從第一分析單 元21的多個分析結(jié)果中刪除一個或多個非必要分析結(jié)果的刪除規(guī)則時的 操作)進行描述。
第一分析單元21和第二分析單元23在句法上對從輸入設(shè)備1施加的 輸入字符串進行分析(步驟A1)。在這點上,該輸入字符串包括多義詞和 其他單詞。
在該典型實施例中,第一分析單元21執(zhí)行用于將該輸入語句劃分為 單詞的形態(tài)分析處理,而第二分析單元23執(zhí)行用于確定單詞間的相互關(guān) 系的相互關(guān)系確定處理。在這種情況下,歧義性刪除單元22可以不刪除
歧義性。
接下來,事例提取單元241接收由第一分析單元21輸出的多個分析
結(jié)果以及第二分析單元23所采用的結(jié)果,并從由上述結(jié)果的集合產(chǎn)生的
信息中提取事例。在這點上,事例包括各分析結(jié)果內(nèi)的多義詞的含意與同 其他單詞相關(guān)的信息的組合(包括標識集),以及指示該組合是否已被第
二分析單元23采用的釆用信息(步驟A2)。
在該典型實施例中,第一分析單元21所輸出的分析結(jié)果在單詞劃分
以及詞性方面存在歧義性。此外,在該典型實施例中,所述屬性集合包括
具有歧義性的多義詞以及緊接在該多義詞之前和之后的單詞的表面字符 串、詞性和變形。
接下來,矛盾調(diào)整單元242將存儲在出現(xiàn)事例存儲單元31中的事例 與事例提取單元241所提取的事例進行匹配,以確認是否存在矛盾事例(步 驟A3)
該矛盾指示,出現(xiàn)事例存儲單元31中存在與事例提取單元241所提 取的事例具有相同的屬性集合但不同采用信息的事例。
當存在矛盾事例時,矛盾調(diào)整單元242僅按照從"不采用"到"采用" 的方向,對事例提取單元241所提取的事例的采用信息進行修正(步驟 A4)。
矛盾調(diào)整單元242執(zhí)行該修正,由此使創(chuàng)建錯誤刪除由于歧義性實質(zhì) 上不能被刪除的,刪除時將導致學習數(shù)據(jù)中存在矛盾事例的分析結(jié)果的模 型變得更加困難。
將作為矛盾調(diào)整單元242的輸出的事例臨時存儲在知識庫配置單元 243中的存儲器內(nèi)(步驟A5)。
這里,第一分析單元21確認是否仍存在可用于輸入的字符串(步驟 A6)。
當仍存在可用于輸入的字符串時,就對剩余輸入重復執(zhí)行步驟Al至A5。
當不存在可用于輸入的字符串時,知識庫配置單元243根據(jù)作為矛盾 調(diào)整單元242的輸出導出的事例,創(chuàng)建用于歧義性刪除的知識庫,并將知 識庫存儲在知識庫存儲單元32中。
該典型實施例用統(tǒng)計模型創(chuàng)建方法作為知識庫創(chuàng)建方法,所述統(tǒng)計模 型創(chuàng)建方法使用諸如判決樹、最大熵法、支持向量機方法之類的學習器。 下面,將描述該典型實施例的其他變體。
可以根據(jù)需要,利用在其中由第二分析單元23刪除第一分析單元21 的分析結(jié)果的歧義性的任意組合來改變第一分析單元21和第二分析單元 23。
例如,第一分析單元21可以執(zhí)行形態(tài)分析和段落形式化處理,而第 二分析單元23可以執(zhí)行段落間相互關(guān)系分析。
此外,該典型實施例使用句法分析處理作為整體語言分析處理,所述 整體語言分析處理是第一分析單元21和第二分析單元23的組合。然而, 只要整體語言分析處理是由多個階段組成語言分析處理,并且在其中通過 諸如形態(tài)分析處理、語義分析處理、計算機翻譯處理、語音合成處理以及 語音識別處理之類的后面的階段來消除中間階段中的歧義性,那么就可以 根據(jù)需要以其他方式改變作為第一分析單元21和第二分析單元23的組合
的整體語言分析處理。
可以手工創(chuàng)建存儲在出現(xiàn)事例存儲單元31中的用于矛盾檢測的事例。 可選地,可以不事先創(chuàng)建該事例,而在語言處理過程中將矛盾調(diào)整單元242 的輸出作為事例存儲在出現(xiàn)事例存儲單元31中。此外,除事先存儲的用 于矛盾檢測的事例之外,還可以將矛盾調(diào)整單元242的輸出加入事例。
可以根據(jù)需要改變諸如單詞和段落之類的、被參照作為用于配置知識 庫的屬性集合的語法要素(其他詞)的數(shù)目和方向。例如,可以僅參照緊 接在多義詞之前的一個要素,或者可以參照緊接在多義詞之前的兩個要素 以及緊接在多義詞之后的一個要素。
此外,所參照的語法要素中的信息(與其他詞有關(guān)的信息)可以是下 列情況中的任意一種表面字符串、詞性、變形、或其組合、或者其他只 要是與語法要素有關(guān)的信息。
此外,各語法要素所參照的信息可以不是完全統(tǒng)一的。例如,可以加 入諸如功能詞參照表面字符串,而獨立詞不參照表面字符串之類的變化。
此外,可以不執(zhí)行步驟A6,但是每次輸入可以在步驟S7處更新一次
知識庫。
作為一種知識庫創(chuàng)建方法,可以存儲矛盾調(diào)整單元242的輸出,因為 該輸出處于知識庫內(nèi)。
接下來,將對在使用知識庫存儲單元32內(nèi)的知識庫執(zhí)行句法分析時 的操作進行描述。
第一分析單元21對從輸入設(shè)備1輸入的字符串進行分析,直至句法 分析處理的中間階段(步驟B1)。在這點上,如果該字符串中包含多義詞, 第一分析單元21就根據(jù)該多義詞所具有的多種含意,輸出針對該字符串 的多個分析結(jié)果。
接下來,歧義性刪除單元22參考第一分析單元21的各分析結(jié)果內(nèi)的、 與多義詞和其他單詞的含意有關(guān)的信息以及知識庫存儲單元32內(nèi)的知識 庫,確定各分析結(jié)果的采用與否,并從這些分析結(jié)果中刪除被確定為"不 采用"的分析結(jié)果(步驟B2)。
第二分析單元23利用歧義性刪除單元22留下的分析結(jié)果,在剩余階 段執(zhí)行分析(步驟B3)。
第二分析單元23向輸出設(shè)備4輸出最終導出的分析結(jié)果作為分析的 結(jié)果(步驟B4)。
接下來,將描述該典型實施例的效果。
在該典型實施例中,由事例提取單元241、矛盾調(diào)整單元242、知識 庫配置單元243以及出現(xiàn)事例存儲單元31構(gòu)成的生成單元,基于第一分 析單元21所輸出的多個分析結(jié)果以及第二分析單元23所采用的結(jié)果,生 成用于刪除第一分析單元21的一個或多個非必要分析結(jié)果的刪除規(guī)則, 以便即使從第一分析單元21輸出的多個分析結(jié)果中刪除了一個或多個非 必要分析結(jié)果,也能夠維持第二分析單元23所采用的分析結(jié)果。
因此,可以防止將第二分析單元23為了采用正確的分析結(jié)果而需要 的分析結(jié)果從第一分析單元21的、尚未被第二分析單元23采用的分析結(jié) 果中刪除。因而,可以僅僅去除不改變最終分析結(jié)果的非必要候選項(分 析結(jié)果)。
此外,在該典型實施例中,在向出現(xiàn)事例存儲單元31存儲與事例提 取單元241所提取的事例不同的事例(矛盾事例)時,矛盾調(diào)整單元242 將事例提取單元241所提取的事例的采用信息從"不采用"修正為"采用"。
這樣,利用基于矛盾調(diào)整單元242的輸出創(chuàng)建的知識庫的歧義性刪除單元 22不太可能執(zhí)行錯誤的搜索結(jié)果刪除。
相應(yīng)地,有利地,即使為了加速分析處理而刪除了歧義性,分析結(jié)果 也不會與未刪除歧義性的情況有所不同。
此外,盡管粗略地設(shè)想了兩種用于實現(xiàn)第一分析單元21方法,即以 統(tǒng)計模型為基礎(chǔ)的基于統(tǒng)計的分析,以及用于基于手工創(chuàng)建的規(guī)則執(zhí)行分 析的基于規(guī)則的分析(基于規(guī)則的方案)。該典型實施例對于基于以分析 為基礎(chǔ)的規(guī)則的分析單元更為有利。
這可歸因于下列原因。
第一分析單元21在許多情況下獨立刪除歧義性,而歧義性刪除單元 22刪除第一分析單元21所無法刪除的歧義性(分析結(jié)果)。
假設(shè)只能夠從類似的信息中刪除類似的歧義性(分析結(jié)果),則可以 認為刪除效果變大了,這是由于第一分析單元21和歧義性刪除單元22參 照重疊部分減少了的信息。
當?shù)谝环治鰡卧?1執(zhí)行基于統(tǒng)計的分析時,如果基于該分析的統(tǒng)計 模型以及歧義性刪除單元22所參照的統(tǒng)計模型是類似的模型,則所參照 的信息在很大程度上重疊,從而導致削減的歧義性刪除效果。相反,基于 規(guī)則的分析中的分析規(guī)則通常具有與統(tǒng)計模型不同的性質(zhì),因此重疊參照 信息較少,從而導致增大的歧義性刪除效果。 (示例)
接下來,將利用特定示例描述該典型實施例的操作。
在第一示例中,第一分析單元21執(zhí)行將輸入語句劃分為單詞并賦予 詞性的形態(tài)分析處理,而第二分析單元23執(zhí)行用于確定單詞間相互關(guān)系 的相互關(guān)系確定處理。
此外,事例提取單元241所參照的信息包括具有歧義性的單詞(多義 詞)以及緊接在該歧義性(多義詞)之前和之后的單詞的表面字符串(僅 針對具有歧義性的單詞(多義詞)和功能詞)和詞性。
此外,在知識庫配置單元243中創(chuàng)建知識庫的方法是支持向量機法(以 下稱為SVM法)。
此外,出現(xiàn)事例存儲單元31存儲事例,所述事例是通過為事例提取單元241提供在第一分析單元21和第二分析單元23中分析大量語句的結(jié) 果的方式導出的。
圖3A是示出了存儲在出現(xiàn)事例存儲單元31中的事例的特定示例的說 明圖。例如,可以根據(jù)輸入語句"Mondai ga tokeru to shiawase ni nareru"(你
能夠在解決問題時感到快樂)導出圖3A中從上往下的第四事例。 首先,將描述知識庫學習過程中的操作。
假設(shè)輸入語句中存在三禾中表達"Mondai wo tokeru to musume ga iu" (我的女兒說她能夠解決問題)(表達l)、 "Yukiga tokeru to harugakuru" (隨著春天的到來,雪開始融化)(表達2)、以及"Kono mondai ga tokeru tohanashigasusumu"(如果解決了這個難題,會談將更進一步)(表達3)。
單詞"tokem"具有兩種含意,即動詞"(物體)融化"以及作為"解 決(問題)"的可能形式的可能動詞,因此詞"tokeru"具有歧義性。
此外,單詞"to"具有兩種含意,即"引用助詞"以及"連接助詞", 因此詞"to"具有歧義性。
相應(yīng)地,第一分析單元21對表達1-3的形態(tài)分析導致如圖3B所示的、 具有多個存在歧義性的形態(tài)分析結(jié)果的結(jié)構(gòu)。
由于向第二分析單元23提供了這一具有歧義性的結(jié)構(gòu),因而在第二 分析單元23的分析過程中消除了第一分析單元21的形態(tài)分析結(jié)果的歧義 性。圖3B中的符號※指示作為分析結(jié)果的第二分析單元23所采用的形態(tài) 分析結(jié)果。
接下來,非必要歧義性學習單元24根據(jù)第一分析單元21的輸出以及 第二分析單元23所采用的結(jié)果,為學習知識庫創(chuàng)建事例。
在本示例中,事例的創(chuàng)建指的是對于第一分析單元的各形態(tài)分析結(jié) 果,對具有歧義性的單詞以及緊接在該單詞之前和之后的單詞的各分析結(jié) 果,將表面字符串(僅針對具有歧義性的單詞以及功能詞)、關(guān)于詞性的 信息、以及第二分析單元23中的采用信息進行配對。
采用信息可以是"采用",或者是"不采用",并且取二進制值。
下面,示出某一事例,其中由非必要歧義性學習單元24根據(jù)表達1 中的"tokeru"(融化)的歧義性創(chuàng)建事例。
參照圖3B (表達1),具有歧義性的單詞(多義詞)的表面字符串是
"tokeru",其詞性是"動詞",并且前一單詞的表面字符串是"wo",其詞 性是助詞,而后一單詞的表面字符串是"to",其詞性是"引用助詞"或"連 接助詞",并且由于關(guān)于這些單詞的采用信息是"不采用",因此導出下面 兩個事例。
事例l:[前一單詞(表面字符串WO/詞性助詞)、具有歧義性的單 詞(表面字符串tokeru/詞性動詞)、后一單詞(表面字符串to/詞性 引用助詞)]->不采用
事例2:[前一單詞(表面字符串WO/詞性助詞)、具有歧義性的單 詞(表面字符串tokeru/詞性動詞)、后一單詞(表面字符串to/詞性 連接助詞)]->不采用
為了降低學習過程中的計算量,優(yōu)選地將事例的數(shù)目減小至盡可能小 的數(shù)目。
因此,對于與具有歧義性的單詞不同的單詞(其他單詞),可以盡可
能地使用第二分析單元23所采用的單詞。
具體地,由于表達1中所采用的"to"的候選項(解釋事例)是"引 用助詞",因而在學習中不可以使用未采用的候選項(解釋事例)即"連
接助詞"的事例2。
圖3C是示出了按照這種方式針對表達1-3的所有形態(tài)分析結(jié)果創(chuàng)建 事例的結(jié)果的說明圖。
接下來,非必要歧義性學習單元24 (矛盾調(diào)整單元242)將導出的事 例與存儲在出現(xiàn)事例存儲單元31中的用于矛盾檢測的事例進行比較,以 確認是否存在矛盾。
例如,在將圖3C中從上往下的第四事例與圖3A中從上往下的用于 矛盾檢測的第四事例進行比較時,它們具有相同的屬性集合,不同的采用 信息,因此可以認為這是一個矛盾事例。
在這種情況下,矛盾調(diào)整單元242將導出的事例的采用信息從"不采 用"更改為"采用"。
在這點上,當進行從"采用"到"不采用"的修改時,將在后續(xù)知識 庫配置中創(chuàng)建用于統(tǒng)一刪除實質(zhì)上不能被刪除的歧義性的模型,因此在該 示例中,不進行這樣的修改。
在這點上,對于需要從"不釆用"修改為"采用"的表達1的另一事 例,為圖3C中的使用信息項賦予標記("矛盾")。
矛盾調(diào)整單元242 —旦完成修改,就為知識庫配置單元243提供經(jīng)修 改事例以及未經(jīng)修改事例。
最后,知識庫配置單元243從接受自矛盾調(diào)整單元242的事例中學習 利用SVM的歧義性消除模型。
在這種情況下,知識庫配置單元243利用被用作輸入的各事例的屬性 集合以及作為目標類的采用信息,進行二叉分類學習。
可以利用SVM核函數(shù)中的三階多項式函數(shù)實現(xiàn)較高的精度。
諸如SVM、最大熵法、判決樹之類的分類器嘗試學習分界線,利用 該分界線,根據(jù)事例中所指示的類對輸入事例進行分類。
知識庫配置單元243通常根據(jù)本示例中的事例來配置這樣的一個模型 (知識庫),該知識庫在任意上下文中,將之前具有助詞的動詞"tokeru" (融化)的形態(tài)分析結(jié)果定為"不采用",并將與單詞"to"有關(guān)的多個形 態(tài)分析結(jié)果(歧義性)定為"采用",并將其存儲在知識庫存儲單元32中。
接下來,將對在利用所配置的知識庫執(zhí)行句法分析時的操作進行描述。
假設(shè)輸入了表達1-3,第一分析單元21利用與學習過程中的方式類似 的方式,輸出具有圖3B所示的歧義性的形態(tài)分析結(jié)果,即多個形態(tài)分析結(jié)果。
隨后,歧義性刪除單元22針對每個形態(tài)分析結(jié)果創(chuàng)建一個屬性集合, 并在該屬性集合被存儲在知識庫中的分類器確定為"不釆用"的情況下, 去除與其組成集合相對應(yīng)的形態(tài)分析結(jié)果。
例如,在與學習過程的示例類似的過程中,根據(jù)表達1的動詞"tokeru" (融化)的分析結(jié)果導出下列屬性集合。然而,由于尚未根據(jù)第一分析單 元21中的分析確定詞"to"的歧義性,因而屬性集合的數(shù)目是2。
屬性集合h [前一單詞(表面字符串wo/詞性助詞)、具有歧義性
的單詞(表面字符串t0keru/詞性動詞)、后一單詞(表面字符串to/ 詞性引用助詞)]
屬性集合2:[前一單詞(表面字符串W0/詞性助詞)、具有歧義性
的單詞(表面字符串tokeru/詞性動詞)、后一單詞(表面字符串to/ 詞性連接助詞)]
歧義性刪除單元22確定各屬性集合是否被知識庫存儲單元32內(nèi)的模 型所采用。在這種情況下,由于在這兩個屬性集合1和2中,具有歧義性 的單詞是動詞"tokeru"(融化),并且在緊接在"tokeru"之前的是助詞"wo", 因而歧義性刪除單元22將該屬性集合確定為"不釆用"。
因此,確定針對動詞"tokeru"(融化)的候選項是非必要的,并將其 去除。
另一方面,當沒有助詞"wo"緊接在"tokeru"之前時,此時所學習 的模型不將針對可能動詞"tokeru"(解決)的候選項確定為"不采用", 并且不將針對單詞"to"的多個分析結(jié)果(歧義性)確定為"不采用",因 此不去除表達1-3的其他形態(tài)分析結(jié)果。
最后,第二分析單元23利用剩余的形態(tài)分析結(jié)果執(zhí)行分析處理。
由歧義性刪除單元22刪除的形態(tài)分析結(jié)果是即便沒有被歧義性刪除 單元22去除也不被第二分析單元23所采用的形態(tài)分析結(jié)果,因此歧義性 的當前刪除不改變第二分析單元23的分析結(jié)果。
下面,將描述第一示例的效果。
在本示例中,由于僅去除了不改變第二分析單元23的分析結(jié)果的形 態(tài)分析結(jié)果,因而與沒有刪除歧義性時第二分析單元23的分析結(jié)果相比, 第二分析單元23的分析結(jié)果沒有改變。
另一方面,由于可以針對"tokem"刪除第一分析單元21的非必要 的形態(tài)分析結(jié)果,第二分析單元23在分析速度方面有所提高,從而導致 整體分析速度的提高。
此外,盡管以日語為例對本示例進行了描述,可以分析的語言不局限 于日語。
接下來,將描述第二示例。
第二示例實質(zhì)上在配置方面與第一示例相同,只不過知識庫配置單元 243將從矛盾調(diào)整單元242接收到的事例直接存儲在知識庫存儲單元32 中。
首先,將描述學習過程中的操作。當輸入上述表達1-3時,矛盾調(diào)整單元242按照與第一示例類似的方 式獲得圖3C所示的事例(注意,已經(jīng)被賦予矛盾標記的事例具有被修正 為"采用"的采用信息)。
在本示例中,知識庫配置單元243實際上將從矛盾調(diào)整單元242導出 的事例存儲在知識庫存儲單元32中。
接下來,將描述在使用導出的知識庫執(zhí)行句法分析時的操作。
按照與第一示例類似的方式,當輸入表達1-3時,第一分析單元21 輸出多個具有歧義性的形態(tài)分析結(jié)果(如圖3B所示),然后歧義性刪除單 元22從各形態(tài)分析結(jié)果中獲取與第一示例類似的屬性集合。表達1中的 動詞"tokeru"(融化)的歧義性也與第一示例類似。
隨后,歧義性刪除單元22按照下列方式確定是否采用各屬性集合。
如果知識庫存儲單元32中存在具有與各導出的屬性集合相匹配的屬 性集合的事例,歧義性刪除單元22就使用存在于知識庫存儲單元32中的 事例的采用信息作為確定結(jié)果。
具體地,如果知識庫存儲單元32中存在相關(guān)事例,并且其采用信息 為"采用",則歧義性刪除單元22也將確定結(jié)果設(shè)置為"采用";如果相 關(guān)事例的釆用信息為"不采用",歧義性刪除單元22就將確定結(jié)果設(shè)置為 "不采用";以及如果不存在相關(guān)事例,歧義性刪除單元22就將確定結(jié)果 設(shè)置為"待定"。
然后,歧義性刪除單元22按以下方式確定各、形態(tài)分析結(jié)果。
就算甚至只有一個屬性集合與被設(shè)置為"采用"的確定結(jié)果同時存在, 歧義性刪除單元22就將相關(guān)的形態(tài)分析結(jié)果確定為"采用",在沒有任何 屬性集合與具有被設(shè)置為"采用"的確定結(jié)果同時存在的情況下,就算甚 至只有一個屬性集合與被設(shè)置為"不采用"的確定結(jié)果同時存在,歧義性 刪除單元22就將相關(guān)形態(tài)分析結(jié)果確定為"不采用",否則將相關(guān)形態(tài)分 析結(jié)果確定為"采用"。
例如,用動詞"tokem"(融化)的各形態(tài)分析結(jié)果的屬性集合(屬性 集合l、 2)作為說明用的事例,由于屬性集合1與圖3C中從上往下的、 具有采用信息被確定為"不采用"的第一事例的屬性集合相同,因此將屬 性集合1確定為"不采用",而由于不存在任何與知識庫中存在的事例具有相同屬性集合的事例,將屬性集合2確定為"待定"。
相應(yīng)地,將表示動詞"tokeru"(融化)的形態(tài)分析結(jié)果確定為"不采 用"。由于已經(jīng)采用相似的方式確定了表達1-3的其他形態(tài)分析結(jié)果,因而 將它們?nèi)即_定為"采用"。
接下來,將描述第二示例的效果。
在第二示例中,為了將各形態(tài)分析結(jié)果確定為"不采用",由形態(tài)分 析結(jié)果導出的屬性集合必須與知識庫內(nèi)的屬性集合完全匹配,因此可以利 用與第一示例相似的方式(盡管歧義性刪除性能比第一示例差),通過僅 僅去除不必要的歧義性的方式,在不改變分析結(jié)果的前提下實現(xiàn)更快的速度。
應(yīng)注意,本發(fā)明可應(yīng)用于需要句法分析處理的自然語言處理應(yīng)用,例 如用于從第一自然語言翻譯成第二自然語言的計算機翻譯程序,以及用于 從語句中提取單詞的特征序列的文本挖掘程序。
在典型實施例以及上述各示例中,所例證的配置僅作為示例,并且本 發(fā)明不局限于那些配置。
權(quán)利要求
1. 一種語言處理設(shè)備,包括第一分析單元,對包括多義詞和其他單詞在內(nèi)的自然語言語句執(zhí)行預(yù)定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對所述自然語言語句的多個分析結(jié)果;第二分析單元,對所述第一分析單元輸出的多個分析結(jié)果執(zhí)行特定分析,以采用所述多個分析結(jié)果中的一個分析結(jié)果;以及生成單元,基于所述第一分析單元所輸出的多個分析結(jié)果以及所述第二分析單元的采用結(jié)果,生成用于刪除所述第一分析單元的一個或多個非必要分析結(jié)果的刪除規(guī)則,以便即使從所述第一分析單元輸出的多個分析結(jié)果中刪除了一個或多個非必要分析結(jié)果,也能使所述第二分析單元所采用的分析結(jié)果保持不變。
2. —種語言處理設(shè)備,包括第一分析單元,對包括多義詞和其他單詞在內(nèi)的自然語言語句執(zhí)行預(yù) 定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對所述自然語言語句 的多個分析結(jié)果;第二分析單元,對所述第一分析單元輸出的多個分析結(jié)果執(zhí)行特定分 析,以采用所述多個分析結(jié)果中的一個分析結(jié)果;存儲單元,針對所述多義詞的一種含意與同其他單詞相關(guān)的信息的各 組合,存儲指示是否采用所述組合的確定信息;采用信息生成單元,針對所述第一分析單元所輸出的各分析結(jié)果內(nèi)的 多義詞的含意與同其他單詞相關(guān)的信息的各組合,基于所述第一分析單元 所輸出的多個分析結(jié)果以及所述第二分析單元的采用結(jié)果,生成指示所述 第二分析單元是否采用所述組合的采用信息;以及規(guī)則生成單元,當在由所述采用信息生成單元所生成的采用信息中被 確定為"不采用"的組合與所述存儲單元中指示"采用"的確定信息相對 應(yīng)時,將所述采用信息變?yōu)?釆用",并在隨后基于改變了的采用信息以 及沒有改變的采用信息,生成用于從所述多個分析結(jié)果中刪除一個或多個 非必要分析結(jié)果的刪除規(guī)則。
3. 根據(jù)權(quán)利要求2所述的語言處理設(shè)備,其中,多義詞的含意與同其 他單詞有關(guān)的信息的所述組合是所述多義詞的表面字符串、詞性、變形或 其組合中的一種與所述多義詞相鄰單詞的組合。
4. 根據(jù)權(quán)利要求1至3中任一項所述的語言處理設(shè)備,其中,所述第 一分析單元按照用于根據(jù)事先確定的預(yù)定規(guī)則進行分析的基于規(guī)則的方 案,對所述自然語言語句進行分析。
5. —種語言處理設(shè)備,包括知識庫存儲單元,存儲根據(jù)權(quán)利要求1至4中任一項所述的語言處理 設(shè)備所生成的刪除規(guī)則;第一分析單元,對包括多義詞和其他單詞在內(nèi)的自然語言語句執(zhí)行預(yù) 定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對所述自然語言語句 的多個分析結(jié)果;歧義性刪除單元,基于所述知識庫存儲單元內(nèi)存儲的刪除規(guī)則,從所 述第一分析單元輸出的多個分析結(jié)果中刪除一個或多個非必要分析結(jié)果; 以及第二分析單元,對所述歧義性刪除單元已從中刪除了一個或多個非必 要分析結(jié)果的所述多個分析結(jié)果執(zhí)行特定分析,以采用所述多個分析結(jié)果 中的一個分析結(jié)果。
6. —種語言處理方法,包括第一分析步驟,對包括多義詞和其他單詞在內(nèi)的自然語言語句執(zhí)行預(yù) 定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對所述自然語言語句 的多個分析結(jié)果;第二分析步驟,對所述多個分析結(jié)果執(zhí)行特定分析,以采用所述多個 分析結(jié)果中的一個分析結(jié)果;以及生成步驟,基于所述第一分析步驟所輸出的多個分析結(jié)果以及所述第 二分析步驟的采用結(jié)果,生成用于刪除所述第一分析步驟的一個或多個非 必要分析結(jié)果的刪除規(guī)則,以便即使從所述多個分析結(jié)果中刪除了一個或 多個非必要分析結(jié)果,也能使所述第二分析步驟所采用的分析結(jié)果保持不 變。
7. —種由語言處理設(shè)備所執(zhí)行的語言處理方法,所述語言處理設(shè)備包括存儲單元,所述存儲單元針對多義詞的一種含意與同其他單詞相關(guān)的信 息的各組合,存儲指示是否采用所述組合的確定信息,所述方法包括第一分析步驟,對包括多義詞和其他單詞在內(nèi)的自然語言語句執(zhí)行預(yù) 定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對所述自然語言語句 的多個分析結(jié)果;第二分析步驟,對所述多個分析結(jié)果執(zhí)行特定分析,以采用所述多個 分析結(jié)果中的一個分析結(jié)果;采用信息生成步驟,針對所述第一分析步驟所輸出的各分析結(jié)果內(nèi)的 多義詞的含意與同其他單詞相關(guān)的信息的各組合,基于所述第一分析步驟 所輸出的多個分析結(jié)果以及所述第二分析步驟的采用結(jié)果,生成指示所述 第二分析步驟是否采用所述組合的采用信息;以及規(guī)則生成步驟,當在采用信息中被確定為"不采用"的組合與所述存 儲單元中指示"采用"的確定信息相對應(yīng)時,將所述采用信息變?yōu)?采用", 并在隨后基于改變了的采用信息以及沒有改變的采用信息,生成用于從所 述多個分析結(jié)果中刪除一個或多個非必要分析結(jié)果的刪除規(guī)則。
8. —種由語言處理設(shè)備執(zhí)行的語言處理方法,所述語言處理設(shè)備包括 知識庫存儲單元,所述知識庫存儲單元存儲由根據(jù)權(quán)利要求1至4任一項 所述的語言處理設(shè)備所生成的刪除規(guī)則,所述方法包括第一分析步驟,對包括多義詞和其他單詞在內(nèi)的自然語言語句執(zhí)行預(yù) 定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對所述自然語言語句 的多個分析結(jié)果;歧義性刪除步驟,基于所述知識庫存儲單元內(nèi)存儲的刪除規(guī)則,從所 述多個分析結(jié)果中刪除一個或多個非必要分析結(jié)果;以及第二分析步驟,對已從中刪除了一個或多個非必要分析結(jié)果的所述多 個分析結(jié)果執(zhí)行特定分析,以采用所述多個分析結(jié)果中的一個分析結(jié)果。
9. 一種用于使計算機執(zhí)行語言處理的語言處理程序,所述程序使計算 機執(zhí)行的語言處理包括第一分析處理,用于對包括多義詞和其他單詞在內(nèi)的自然語言語句執(zhí) 行預(yù)定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對所述自然語言語句的多個分析結(jié)果;第二分析處理,用于對所述多個分析結(jié)果執(zhí)行特定分析,以采用所述多個分析結(jié)果中的一個分析結(jié)果;以及生成處理,用于基于所述第一分析處理所輸出的多個分析結(jié)果以及所 述第二分析處理的采用結(jié)果,生成用于刪除所述第一分析處理的一個或多 個非必要分析結(jié)果的刪除規(guī)則,以便即使從所述多個分析結(jié)果中刪除了一 個或多個非必要分析結(jié)果,也能使所述第二分析處理所采用的分析結(jié)果保 持不變。
10. —種用于使計算機執(zhí)行語言處理的語言處理程序,所述計算機連 接至存儲單元,所述存儲單元針對多義詞的一種含意與同其他單詞相關(guān)的 信息的各組合,存儲指示是否采用所述組合的確定信息,所述程序使計算 機執(zhí)行的語言處理包括第一分析處理,用于對包括多義詞和其他單詞在內(nèi)的自然語言語句執(zhí) 行預(yù)定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對所述自然語言語句的多個分析結(jié)果;第二分析處理,用于對所述多個分析結(jié)果執(zhí)行特定分析,以采用所述 多個分析結(jié)果中的一個分析結(jié)果;采用信息生成處理,用于針對所述第一分析處理所輸出的各分析結(jié)果 內(nèi)的多義詞的含意與同其他詞相關(guān)的信息的各組合,基于所述第一分析處 理所輸出的多個分析結(jié)果以及所述第二分析處理的采用結(jié)果,生成指示所 述第二分析處理是否采用所述組合的采用信息;以及規(guī)則生成處理,用于當在采用信息中被確定為"不采用"的組合與所 述存儲單元中指示"采用"的確定信息相對應(yīng)時,將所述采用信息變?yōu)?采 用",并在隨后基于改變的采用信息以及沒有改變的采用信息,生成用于 從所述多個分析結(jié)果中刪除一個或多個非必要分析結(jié)果的刪除規(guī)則。
11. 一種用于使計算機執(zhí)行語言處理的語言處理程序,所述計算機連 接至知識庫存儲單元,所述知識庫存儲單元存儲由根據(jù)權(quán)利要求1至4中 任一項所述的語言處理設(shè)備所生成的刪除規(guī)則,所述程序使計算機執(zhí)行的 語言處理包括-第一分析處理,用于對包括多義詞和其他單詞在內(nèi)的自然語言語句執(zhí) 行預(yù)定分析,以根據(jù)所述多義詞所具有的多種含意輸出針對所述自然語言 語句的多個分析結(jié)果;歧義性刪除處理,用于基于所述知識庫存儲單元內(nèi)存儲的刪除規(guī)則, 從所述多個分析結(jié)果中刪除一個或多個非必要分析結(jié)果;以及第二分析處理,用于對已從中刪除了一個或多個非必要分析結(jié)果的所 述多個分析結(jié)果執(zhí)行特定分析,以采用所述多個分析結(jié)果中的一個分析結(jié) 果。
全文摘要
一種語言處理設(shè)備,包括第一分析單元(21)、第二分析單元(23)、以及生成單元(244)。第一分析單元(21)對包含多義詞和其他單詞在內(nèi)的自然語言語句進行預(yù)定分析,并根據(jù)多義詞的多種含意輸出針對該自然語言語句的多個分析結(jié)果。第二分析單元(23)對第一分析單元(21)輸出的多個分析結(jié)果執(zhí)行特定分析,以采用所述多個分析結(jié)果中的一個分析結(jié)果。生成單元(244)基于第一分析單元(21)所輸出的多個分析結(jié)果以及第二分析單元(23)所采用的結(jié)果,生成用于刪除從第一分析單元(21)所輸出的分析結(jié)果中刪除了的、但未被第二分析單元(23)所采用的非必要分析結(jié)果。
文檔編號G06F17/27GK101390091SQ20078000687
公開日2009年3月18日 申請日期2007年2月9日 優(yōu)先權(quán)日2006年2月27日
發(fā)明者土井伸一, 安藤真一, 定政邦彥 申請人:日本電氣株式會社