專利名稱:由計(jì)算機(jī)使用的從自然語言文本開發(fā)本體的方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及本體。更具體地涉及一種計(jì)算機(jī)使用的、用于從自然 語言的文本開發(fā)本體的方法。
背景技術(shù):
在本說明書中,以下術(shù)語除非特別指出都以所指明的意義被使用一 "本體"本體是組織成圖的被組織起來的結(jié)構(gòu)化集合,所述圖的 關(guān)系例如可以是語義關(guān)系或組合和繼承關(guān)系(在對象的意義上)。本體的 目的是對給定領(lǐng)域中的知識集合進(jìn)行建模。-"OWL"是一種Web本體語言,設(shè)計(jì)用于必須不僅向用戶呈現(xiàn)信 息而且還處理其內(nèi)容的應(yīng)用。OWL是基于RDF (資源描述框架)語法的 XML "方言",是指用于描述元數(shù)據(jù)和用于該元數(shù)據(jù)的特定自動處理的圖 模型。OWL提供用于定義結(jié)構(gòu)化Web本體的方法。由于補(bǔ)充詞匯和格式 化語義,OWL語言向機(jī)器提供比通常例如使用XML更大的解釋W(xué)eb內(nèi) 容的能力。OWL由提供遞增的表達(dá)性的三種子語言組成OWL Lite (或 OWL ) 、 OWL DL和OWL Full。 OWL誦S (其中S代表"語義")是面 向"語義"的,其至今僅作為建議存在,并且還未被標(biāo)準(zhǔn)化。-"Web服務(wù)"是指互聯(lián)網(wǎng)上可經(jīng)由標(biāo)準(zhǔn)接口訪問的應(yīng)用,它可以獨(dú) 立于所使用的操作系統(tǒng)和編程語言使用例如基于XML的通信協(xié)議與應(yīng)用 或其它Web服務(wù)動態(tài)交互。同樣,在其接口級,Web服務(wù)包括基于輸入 數(shù)據(jù)或"輸入M"提供結(jié)果的處理操作。為使用Web服務(wù),其操作中的 一個(gè)4皮調(diào)用,并被提供以期望的輸入數(shù)據(jù),以及恢復(fù)輸出結(jié)果。-"UML"(統(tǒng)一建模語言)是指一種用于借助于對象建才莫的符號
(而非語言),其用于在其開發(fā)期間確定和呈現(xiàn)對象系統(tǒng)的部件,以及在適當(dāng)?shù)那闆r下生成其文檔。UML當(dāng)前是OMG標(biāo)準(zhǔn)。它通過合并Jim Rumbaugh、 Grady Booch和Ivar Jacobson的工作而產(chǎn)生,并且已通過眾 多方式發(fā)展。- "語義Web"是指用于發(fā)布、咨詢以及最重要的對格式化知識的處 理進(jìn)行自動化的萬維網(wǎng)的擴(kuò)展,這意味著,由語義Web處理的文檔包含將 被自動處理的格式化信息,而不是自然語言的文本。-"XML"(可擴(kuò)展標(biāo)記語言)SGML語言的演進(jìn),它特別被HTML 文檔設(shè)計(jì)者用于為個(gè)人化數(shù)據(jù)結(jié)構(gòu)而定義自己的標(biāo)記?,F(xiàn)代電信技術(shù),特別是互聯(lián)網(wǎng),使用戶能夠快速訪問多種服務(wù)。在該 領(lǐng)域中,語義Web正在全面擴(kuò)展,特別當(dāng)涉及用于使用語義方法、借助于 現(xiàn)有服務(wù)開發(fā)服務(wù)的應(yīng)用時(shí)。在這點(diǎn)上,越來越多Web服務(wù)配備了本體或 更一般的語義描述。在本文中,發(fā)明人自己已設(shè)定了找到以下問題的解決方案的目的自 動產(chǎn)生自然語言文本的語義描述(例如經(jīng)由語義圖,或換句話說本體)。 該文本可以例如對應(yīng)于以自然語言書寫的用戶查詢。具有這樣的查詢的語 義描述例如將有助于對對應(yīng)于該查詢的Web服務(wù)的搜索。目前,不存在所述問題的任何自動解決方案。已知一種手動解決方案, 該方案在于使用例如Prot6g6或MindManager的語義工具或者甚至例如 Rational Rose、 Softteam Objecteering、 IBM-Rational XDE或Microsoft UML Visio的UML建模工具"手動"建立語義描述。實(shí)際上,憑借其特 定構(gòu)造,UML可以覆蓋語義描述所需的所有概念單元繼承、聚合或關(guān) 聯(lián)關(guān)系、屬性、版型、基本數(shù)據(jù)和標(biāo)記值、約束等。然而,這樣的解決方案并不令人滿意,主要因?yàn)樗峭耆謩拥摹R?此,它實(shí)現(xiàn)起來冗長并且易于出錯(cuò)。此外,該解決方案是主觀的結(jié)果取 決于用戶。該解決方案的結(jié)果是所獲得的描述中缺乏一致性。因此需要一種用于從文本數(shù)據(jù)自動(即通過計(jì)算機(jī))產(chǎn)生對應(yīng)于該文 本的自然語言文本的語義描述的解決方案
發(fā)明內(nèi)容
為此,本發(fā)明提出了一種計(jì)算機(jī)使用的、用于開發(fā)自然語言文本的本體的方法,該方法包括以下步驟 -從所述文本接收文本數(shù)據(jù);-經(jīng)由對所接收的數(shù)據(jù)的語法分析,從所述文本中提取語法和有意義 的詞;-對所述有意義的詞中的至少一些的每一個(gè)借助于至少一個(gè)電子詞 典搜索該詞的定義,提取該定義的語法和有意義的詞,并且,基于該定義 的語法和有意義的詞創(chuàng)建該定義的基本詞匯圖;以及-根據(jù)所述文本的語法合并所創(chuàng)建的基本詞匯圖中的至少兩個(gè),以便 創(chuàng)建所述文本的至少 一個(gè)語義圖。本發(fā)明的方法的優(yōu)選實(shí)施例具有以下特征中的一個(gè)或更多-本發(fā)明的方法進(jìn)一步包括在所述合并步驟之前,基于已提取的所述 文本的語法和有意義的詞提取所述文本的有意義的詞之間的關(guān)系的步驟, 其中,所述合并步驟基于所述文本的有意義的詞之間的這些關(guān)系;-所述提取第一步驟進(jìn)一步包括經(jīng)由對所述文本的語法結(jié)構(gòu)的語法分 析的提取,所述結(jié)構(gòu)包括一個(gè)或更多語法組;并且,所述合并步驟進(jìn)一步 基于所述提取的語法組,以便對于所述一個(gè)或更多提取的語法組的每個(gè)創(chuàng) 建至少一個(gè)語義圖;-本發(fā)明的方法進(jìn)一步包括對于所述文本的每一個(gè)有意義的詞,借助 于所述至少一個(gè)詞典搜索該詞的同義詞和那些同義詞的定義的步驟,并且, 所述合并步驟進(jìn)一步才艮據(jù)所述同義詞的定義來實(shí)現(xiàn);-本發(fā)明的方法進(jìn)一步包括在所述合并步驟之前,對于每個(gè)有意義 的詞,根據(jù)該有意義的詞及其同義詞的定義,對所找到的同義詞分類的步 驟;并且,所述合并步驟進(jìn)一步根據(jù)所述同義詞的分類的結(jié)果來實(shí)現(xiàn);-本發(fā)明的方法進(jìn)一步包括消除未^接到已創(chuàng)建的所述至少一個(gè)語義 圖的部件的步驟;-除所述文本數(shù)據(jù)接收步驟之外的所述步驟的每個(gè)在該文本數(shù)據(jù)接收步驟之后"在進(jìn)行中"(on the fly)被實(shí)現(xiàn);一所述至少一個(gè)語義圖用例如OWL或RDF的基于XML的語言來格式化;-所述文本數(shù)據(jù)對應(yīng)于服務(wù)查詢的文本。本發(fā)明還提出了一種用于搜索Web服務(wù)的方法,包括以下步驟接收 通過本發(fā)明的用于開發(fā)本體的方法創(chuàng)建的所述至少一個(gè)語義圖,以及根據(jù) 已接收的所述至少一個(gè)語義圖搜索Web服務(wù)。本發(fā)明還涉及一種計(jì)算機(jī)程序和一種電子數(shù)據(jù)處理系統(tǒng),所述電子數(shù) 據(jù)處理系統(tǒng)包括適于執(zhí)行根據(jù)本發(fā)明的方法的步驟的代碼裝置。
通過閱讀下面僅作為示例給出并且參考示例和附圖的對本發(fā)明的實(shí)施 例的詳細(xì)描述,本發(fā)明的其它特征和優(yōu)點(diǎn)將變得顯而易見,附圖示出 -圖1:示出本發(fā)明的方法的一個(gè)實(shí)施例步驟和部件的流程圖; -圖2:示出對于自然語言的用戶查詢的文本實(shí)現(xiàn)的語法分析的表格; -圖3:從由圖2表中示出的語法分析提取的有意義的詞中獲取的基 本詞匯圖集合;以及-圖4:在合并基本詞匯圖和消除未鏈接到該圖的部件的步驟之后獲 得的圖3的圖。
具體實(shí)施方式
本發(fā)明的基本想法是使用一方面由語法分析器產(chǎn)生的信息以及另一 方面諸如同義詞和定義的在一個(gè)或更多詞典中找到的單元,直接從文本的 文本數(shù)據(jù)開發(fā)本體(即語義描述)。更詳細(xì)地,本發(fā)明的方法包括接收所 述文本的文本數(shù)據(jù)的第一步驟。然后經(jīng)由對所接收的數(shù)據(jù)的語法分析從其 中提取出語法和有意義的詞。然后使用電子詞典來搜索每個(gè)有意義的詞的 定義,并且從其中提取出語法和有意義的詞。然后基于該定義的語法和有 意義的詞創(chuàng)建該定義的基本詞匯圖。然后合并對應(yīng)于所述文本的有意義的
詞的基本詞匯圖。該合并根據(jù)初始文本的語法來實(shí)現(xiàn),以便創(chuàng)建所述文本 的至少一個(gè)語義圖。本發(fā)明提供的解決方案是系統(tǒng)的,并且由此彌補(bǔ)了鏈 接到自然語言文本的本體的"手動"開發(fā)的缺點(diǎn)。該過程優(yōu)選地在"集成"電子數(shù)據(jù)處理工具中實(shí)現(xiàn),所述"集成"電 子數(shù)據(jù)處理工具例如是包括多個(gè)耦合的軟件模塊的助理或應(yīng)用,所述模塊 的每一個(gè)被分配了給定任務(wù)。圖1示出了說明本發(fā)明的方法的一個(gè)實(shí)施例的步驟和部件的流程圖。參考該圖,首先接收對應(yīng)于自然語言文本的文本數(shù)據(jù)IO。例如,該文 本是用戶從PC、個(gè)人數(shù)字助理或移動電話(例如通過SMS)發(fā)送的查詢 的文本。在步驟S100中,經(jīng)由對接收的數(shù)據(jù)10的語法分析,從文本中提取出 語法(圖1中未表示出)和有意義的詞20。所述語法分析包括獨(dú)立于意義 (其涉及語義;這將在隨后描述)的對所述文本中的詞的格式函數(shù)(formal function)的分析。該步驟可以借助于語法分析器來實(shí)現(xiàn)。這樣的工具是 商業(yè)上可用的。該步驟在圖2中示例,該圖示出了將對于自然語言的文本10實(shí)現(xiàn)的典 型語法分析的各個(gè)方面分組的表格。所述查詢包括文本"I want to obtain a French translation of CNN news (我想獲得CNN新聞的法語翻譯)"。在 該分析之后,僅有意義的詞被保留,即"我(I)"、"想(want)"、"法 語(French),,、"翻譯(translation)"等。這些被放置在所狄從左 邊開始的第一列中。例如"一個(gè)(a)"、"那個(gè)(the)"的冠詞和連接 詞祐放棄。在下一列中,描述所述有意義的詞的特征(人稱代詞、動詞等)。 最后兩列突出了所述有意義的詞之間的關(guān)系。例如,"我"是(動詞)"想" 的主語。再次參考圖1,該方法進(jìn)一步包括搜索每個(gè)提取的有意義的詞M (M 是指處理文本的有意義的詞)的定義40的步驟S200。該步驟必需典型地 為詞匯詞典的電子詞典30,其中,從所述電子詞典中提取出所述定義。語法和有意義的詞m然后被從該定義中提取出,所述語法和有意義的
詞m是該定義的概念40的基礎(chǔ)。有必要區(qū)分出現(xiàn)在有意義的詞M的定義 中的有意義的詞m與該詞M本身。從所述定義中提取語法和有意義的詞 使所述定義的概念40客觀化。如果需要,將還實(shí)現(xiàn)定義之間的意義比較, 這將使得在初始文本的有意義的詞M之間建立關(guān)系。該步驟的結(jié)果是初始 文本的第一語義限定(valorization)。在步驟S300中,基本詞匯圖50針對每個(gè)定義即針對最初文本的每個(gè) 有意義的詞M、基于每個(gè)定義的語法和有意義的詞m被創(chuàng)建。然而,很 一般地鏈接到所述查詢的意義的某些詞(例如圖2示例中的"我"和"想") 優(yōu)選地,M棄。更一般地,除了諸如"我想"、"我希望"、"我需要" 等的描述查詢的特征的表述之外,所有"有意義的"詞被保留實(shí)詞、動 詞、形容詞。由此,基本圖針對所保留的每個(gè)詞M被構(gòu)造,但該圖典型包 括該詞M的定義的有意義的詞m。在一定程度上,該"基本"圖因此代 表詞M的"微本體(micro - ontology)"。該方法優(yōu)選地進(jìn)一步包括搜索初始文本的每個(gè)有意義的詞M的同義 詞45以及搜索所述同義詞的定義的步驟。同義詞搜索可以例如采取對來自 有意義的詞M的定義的詞的同義詞的系統(tǒng)搜索的形式。為此,該搜索可以 使用與定義的詞典30分離的詞典35。然而,可以使用結(jié)合了詞的定義和 同義詞的同 一數(shù)據(jù)庫。同義詞的定義典型地通過與初始文本的有意義的詞 M相同的方式被客》見化。另外,詞的同義詞優(yōu)選根據(jù)該詞和其同義詞各自的定義被分類。根據(jù) 分類的結(jié)果,僅"主要"同義詞典型地被保留。"主要"同義詞例如是指 定義的概念極大程度上與基準(zhǔn)有意義的詞的相同的那些。由此,基本圖可以包括基準(zhǔn)有意義的詞M的同義詞。圖3示出了從借助于上文中描述的語法分析提取的有意義的詞M (見 圖2表)中獲得的基本詞匯圖。參考該圖,基本圖由詞"法語"、"翻譯"、 "CNN"和"新聞"表示。主語和動詞在該階段已祐放棄,其分析已揭示 了用戶的查詢的意義。由此,初始文本的有意義的詞的僅一部分可以實(shí)際 是基本圖創(chuàng)建的對象。
這些圖示出了源于定義提取的關(guān)系。在該圖中,由實(shí)線包圍的詞是初 始文本的有意義的詞。點(diǎn)線指示對象意義上的繼承關(guān)系(或者換句話說,類到子類的關(guān)系)。例如,"法語"繼承自"語言",而"CNN"繼承自 "專有名詞"。虛線指示同義詞,而點(diǎn)劃線指定另一種類型的關(guān)系,例如 "文本(Text)"通過"用……書寫"類型的關(guān)系鏈接到"源"或"目標(biāo)"。此外,"源"和"目標(biāo)"可以通過意味著"源"和"目標(biāo)"必須不同的約束來標(biāo)記。這可以借助于簡單外部標(biāo)簽而獲得。然而,沒有任何這樣得標(biāo)簽被系統(tǒng)地生成,這取決于所使用的定義的豐富性。在該階段,至今只存在構(gòu)成許多"微本體"的基本圖。該文本的最終本體由合并所述"微本體"產(chǎn)生,接下這將再次參考圖l進(jìn)行描述。本發(fā)明的方法進(jìn)一步包括合并所創(chuàng)建的基本詞匯圖50的至少兩個(gè)的 步驟S400,即,系統(tǒng)地搜索基本圖對的合并體(merger)。在適當(dāng)?shù)那闆r下,所述合并根據(jù)所述文本的語法和提取(借助于語法 分析)的有意義的詞來實(shí)現(xiàn),以《更創(chuàng)建初始文本的至少一個(gè)語義圖60。該 語義圖對向(subtend)所要求的本體。如上文中陳述的,語法分析揭示了初始文本的語法和有意義的詞,并 且由此揭露了該文本的有意義的詞之間的關(guān)系的存在。由此,換句話說, 所述合并至少基于所揭露的初始文本的有意義的詞之間的關(guān)系的存在而被 實(shí)現(xiàn)。然而,應(yīng)當(dāng)指出,所述合并步驟可以明確基于所述關(guān)系,即,可以考 慮除僅其存在性的事實(shí)之外的所述關(guān)系的意義。例如這意味著,所合并的 圖的部件(即作為概念的詞)可以更容易地定向。語法分析(步驟S100)優(yōu)選地進(jìn)一步包括從初始文本中對語法結(jié)構(gòu)并 且尤其是一個(gè)或更多語法組的提取("語法組"是指通過名稱補(bǔ)語("CNN 新聞(CNN News )")、屬性、別稱("法語翻譯(French translation )") 等類型的簡單語法關(guān)系連結(jié)的短語的詞的子集。在前述例子中,這些組為- "我想(Iwant),,(組l);-"法語翻譯(French translation ),,(組2); 一 "CNN新聞(CNNNews)"(組3)。這些合并體(步驟S400 )被然后基于所提取的語法組嘗試創(chuàng)建針對所 述語法組的每個(gè)的至少一個(gè)語義圖60。然后獲得每組至少一個(gè)詞匯圖。這 更大優(yōu)勢在于,語法組一般反映相關(guān)概念,其賓語是補(bǔ)充的或連接的。提 取的語法接口可以進(jìn)一步包括鏈接到短語、命題等的信息。特別地,語法 組之間的這些鏈接可以用于錯(cuò)開所述合并體的逸艮。由此,關(guān)于語法結(jié)構(gòu) 的信息有助于構(gòu)造所述合并體。類似地,同義詞及其定義的出現(xiàn)可以在這樣的程度上影響所述合并體 它們突出了來自不同詞匯圖的詞之間的關(guān)系。那些關(guān)系然后有助于構(gòu)造那 些圖之間的合并體。在一個(gè)實(shí)施例中,所述合并體同時(shí)考慮查詢的語法結(jié)構(gòu)和不同基本詞 匯圖之間的(語義上)相鄰術(shù)語的值,以非常簡單的方法來實(shí)現(xiàn)。在涉及 到語法結(jié)構(gòu)的情況下,這里具體是指所述語法組的結(jié)構(gòu)。在涉及(語義上) 相鄰術(shù)語的值的情況下,"相鄰"的程度取決于它們之間可以存在的關(guān)系 (即鏈接了來自不同基本詞匯圖的詞的關(guān)系)。應(yīng)當(dāng)指出,這里的基本圖 是用組成給定語法組的詞構(gòu)成的那些。在上文描述的示例中,對于組1 "法 語翻譯",此處同時(shí)考慮其語法結(jié)構(gòu)(通過名稱-別稱關(guān)系鏈接到一起的 兩個(gè)詞)和來自兩個(gè)基本詞匯圖的術(shù)語之間的現(xiàn)有關(guān)系,其中,來自兩個(gè) 基本詞匯圖的術(shù)語例如是"法語"側(cè)的"語言"和在"翻譯"側(cè)鏈接到"文 本"的"語言"(見圖3)。應(yīng)當(dāng)指出,上文中描述的所述步驟(S100-S400)的一些由于算法性能 可以被交錯(cuò)。例如,在接收查詢之后,從該文本中提取語法和有意義的詞 20、搜索其定義和分析所述定義(S200)的步驟可以是部分伴隨的。類似 地, 一旦對詞的搜索已結(jié)束,則在不等待對所述詞的每個(gè)的分析結(jié)束的情 況下,對應(yīng)的基本圖的構(gòu)造可以開始。按照同樣的想法, 一旦兩個(gè)圖可用, 則可以實(shí)現(xiàn)合并體搜索。因此不必要一個(gè)接一個(gè)地實(shí)現(xiàn)這些步驟。此外,在一個(gè)實(shí)施例中,例如響應(yīng)于用戶查詢IO,在文本數(shù)據(jù)接收步 驟之后,所述步驟S100-S400可以"在進(jìn)行中"(以及可能交錯(cuò)地)被實(shí) 現(xiàn)。這特別提供了對發(fā)自用戶的查詢的滿足。用戶典型地格式化其查詢,并且然后生成該查詢的本體(即包括至少一個(gè)語義圖60),并且搜索對應(yīng) 的Web服務(wù)。該方法優(yōu)選包括消除未鏈接到已創(chuàng)建的語義圖60的部件的步驟S500。 這消除了沒用的圖部分,并且因此最終簡化處理。因此獲得最終的語義圖 70。返回前一示例并且參考圖4,特別地,關(guān)于"法語"和"翻譯"的圖 已被合并是顯而易見的??梢杂浧饋恚瑏碜詧Dl的表格示出了 "法語"和 "翻譯"之間的語法關(guān)系的存在。初始文本的語法和有意義的詞因此包括 之后合并關(guān)于詞"法語"和"翻譯"的圖所必需的單元。更準(zhǔn)確地說,一 方面詞"法語"與"翻譯"之間("法語"是"翻譯"的別稱)、以及另 一方面"翻譯"、"文本"與"目標(biāo)語言"之間(后者是具有語義本質(zhì)的) 的特定關(guān)系已經(jīng)使得經(jīng)由詞/概念"語言"依附到"翻譯"的語義分支能夠 在"法語"與"目標(biāo)語言"之間被實(shí)現(xiàn)。在這點(diǎn)上,應(yīng)當(dāng)指出,下面"翻 譯"的定義已被用于該例中"不同于其已被書寫所用的(源語言)的語 言(目標(biāo)語言)的文本版本"。類似地,實(shí)現(xiàn)關(guān)于"新聞"和"CNN"的概念之間的合并體是可能的。 例如"互聯(lián)網(wǎng)論壇"或"首字母縮寫詞"的未鏈接的術(shù)語也已被消除。 還要指出,詞或概念之間的關(guān)系的存在并非必要地導(dǎo)致合并體。例如, 盡管"新聞"與"翻譯"之間的關(guān)系存在,但圖4中出現(xiàn)的兩個(gè)圖未被鏈 接。在這點(diǎn)上,不(在語義上)追求過度放寬每個(gè)概念以便合并其全部可 能是有利的。這將導(dǎo)致太目標(biāo)化、太個(gè)性化的單一最終圖。極少存在對應(yīng) 于太目標(biāo)化的查詢的Web服務(wù)。因此,最好以發(fā)現(xiàn)多個(gè)Web服務(wù)為目標(biāo), 所述多個(gè)Web服務(wù)的每一個(gè)都對應(yīng)于從該查詢獲得的一個(gè)圖。這明顯取決 于最終目標(biāo)在其它應(yīng)用中,合并最多的圖可能就是所述目標(biāo)。最終圖的 粒度級別可以根據(jù)經(jīng)驗(yàn)調(diào)整和糾正。在前述例子中,"新聞"與"翻譯" 之間(在最初查詢中)的關(guān)系可能已被發(fā)現(xiàn),但優(yōu)選不創(chuàng)建該鏈接,該鏈
接將使最終的圖太個(gè)性化。最后獲得的語義圖70可以例如用諸如OWL或RDF的基于XML的 語言簡單格式化。上文中描述的方法因此產(chǎn)生了相關(guān)的和系統(tǒng)的語義描述。當(dāng)然,顯而易見,如果初始查詢IO被很好地格式化并且很清楚,則該 方法運(yùn)行得更好。特別地,它可以有利地采用主語-動詞-補(bǔ)語的形式, 并且在適合的情況下用清晰的實(shí)詞補(bǔ)語使其優(yōu)美。
權(quán)利要求
1.一種由計(jì)算機(jī)使用的、用于開發(fā)自然語言文本(10)的本體(70)的方法,該方法包括以下步驟-從所述文本(10)接收文本數(shù)據(jù);-經(jīng)由對接收的數(shù)據(jù)的語法分析(S100)從所述文本中提取語法和有意義的詞(20);-對于所述文本的所述有意義的詞(20)中的至少一些的每一個(gè)借助于至少一個(gè)電子詞典(30、35)搜索(S200)該詞(20)的定義(40),提取所述定義的語法和有意義的詞,并且基于所述定義的語法和有意義的詞創(chuàng)建(S300)所述定義的基本詞匯圖(50);以及-根據(jù)所述文本的語法,合并(S400)已創(chuàng)建的所述基本詞匯圖(50)的至少兩個(gè),以便創(chuàng)建所述文本的至少一個(gè)語義圖(60)。
2. 根據(jù)權(quán)利要求1的方法,進(jìn)一步包括在所述合并步驟(S400)之 前,基于已提取的所述文本的語法和有意義的詞,提取所述文本的有意義 的詞之間的關(guān)系的步驟,所述合并步驟基于所述文本的有意義的詞之間的 所述關(guān)系。
3. 根據(jù)權(quán)利要求l的方法,其中-所述提取第一步驟進(jìn)一步包括經(jīng)由對所述文本的語法結(jié)構(gòu)的語法分 析(S100)的提取,所述結(jié)構(gòu)包括一個(gè)或更多語法組;以及-所述合并步驟(S400)進(jìn)一步基于提取的語法組,以便對于所述一 個(gè)或更多提取的語法組的每一個(gè)創(chuàng)建至少一個(gè)語義圖(60)。
4. 根據(jù)權(quán)利要求l的方法,進(jìn)一步包括對于所述文本的每個(gè)有意義 的詞,借助于所述至少一個(gè)詞典(35)搜索該詞的同義詞(45)及所述同 義詞的定義的步驟;以及-所述合并步驟(S400)進(jìn)一步根據(jù)所述同義詞的定義來實(shí)現(xiàn)。
5. 根據(jù)權(quán)利要求4的方法,進(jìn)一步包括在所述合并步驟之前的步驟 -對于每個(gè)有意義的詞,根據(jù)該有意義的詞及其同義詞的定義對找到的同義詞分類; 并且其中所述合并步驟進(jìn)一 步根據(jù)所述同義詞分類的結(jié)果來實(shí)現(xiàn)。
6. 根據(jù)權(quán)利要求l的方法,進(jìn)一步包括步驟(S500): -消除未鏈接到已創(chuàng)建的所述至少一個(gè)語義圖(60)的部件。
7. 根據(jù)權(quán)利要求l的方法,其中,除所述文本數(shù)據(jù)的接收步驟之外的 所述步驟(S100-S400 )的每一個(gè)在所述文本數(shù)據(jù)的接收步驟之后"在進(jìn)行 中"被實(shí)現(xiàn)。
8. 根據(jù)權(quán)利要求1到7中任一項(xiàng)的方法,其中,所述至少一個(gè)語義圖 (70 )被用諸如OWL或RDF的基于XML的語言格式化。
9. 根據(jù)權(quán)利要求1的方法,其中,所述文^t據(jù)對應(yīng)于服務(wù)查詢(10 ) 的文本。
10. —種搜索Web服務(wù)的方法,包括以下步驟-接收通過根據(jù)權(quán)利要求9的方法創(chuàng)建的所述至少一個(gè)語義圖(60);以及-根據(jù)已接收的所述至少一個(gè)語義圖搜索Web服務(wù)。
11. 一種計(jì)算機(jī)程序產(chǎn)品,適于執(zhí)行根據(jù)權(quán)利要求1到10中任一項(xiàng)的 方法的步驟。
12. —種電子數(shù)據(jù)處理系統(tǒng),包括適于執(zhí)行根據(jù)權(quán)利要求1到10中任 一項(xiàng)的方法的步驟的代碼裝置。
全文摘要
本發(fā)明涉及一種計(jì)算機(jī)使用的、開發(fā)自然語言文本(10)的本體(70)的方法,包括以下步驟從文本(10)接收文本數(shù)據(jù);經(jīng)由對接收的數(shù)據(jù)的語法分析(S100)從文本中提取語法和有意義的詞(20);對于文本的有意義的詞(20)中的至少一些的每一個(gè)借助至少一個(gè)電子詞典(30、35)搜索(S200)該詞(20)的定義(40),提取該定義的語法和有意義的詞,并基于該定義的語法和有意義的詞創(chuàng)建(S300)該定義的基本詞匯圖(50);以及根據(jù)文本的語法合并(S400)創(chuàng)建的基本詞匯圖(50)中的至少兩個(gè),以便創(chuàng)建文本的至少一個(gè)語義圖(60)。本發(fā)明還涉及計(jì)算機(jī)程序產(chǎn)品和電子數(shù)據(jù)處理系統(tǒng),所述電子數(shù)據(jù)處理系統(tǒng)包括適于實(shí)現(xiàn)本發(fā)明方法的步驟的代碼裝置。
文檔編號G06F17/27GK101149732SQ20071015406
公開日2008年3月26日 申請日期2007年9月13日 優(yōu)先權(quán)日2006年9月19日
發(fā)明者P·拉爾韋 申請人:阿爾卡特朗訊公司