由計(jì)算機(jī)使用的從自然語言文本開發(fā)本體的方法

文檔序號：6612351閱讀：157來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：由計(jì)算機(jī)使用的從自然語言文本開發(fā)本體的方法
技術(shù)領(lǐng)域：
本發(fā)明一般涉及本體。更具體地涉及一種計(jì)算機(jī)使用的、用于從自然語言的文本開發(fā)本體的方法。
背景技術(shù)：
在本說明書中，以下術(shù)語除非特別指出都以所指明的意義被使用一 "本體"本體是組織成圖的被組織起來的結(jié)構(gòu)化集合，所述圖的關(guān)系例如可以是語義關(guān)系或組合和繼承關(guān)系(在對象的意義上)。本體的目的是對給定領(lǐng)域中的知識集合進(jìn)行建模。-"OWL"是一種Web本體語言，設(shè)計(jì)用于必須不僅向用戶呈現(xiàn)信息而且還處理其內(nèi)容的應(yīng)用。OWL是基于RDF (資源描述框架)語法的 XML "方言"，是指用于描述元數(shù)據(jù)和用于該元數(shù)據(jù)的特定自動處理的圖模型。OWL提供用于定義結(jié)構(gòu)化Web本體的方法。由于補(bǔ)充詞匯和格式化語義，OWL語言向機(jī)器提供比通常例如使用XML更大的解釋W(xué)eb內(nèi) 容的能力。OWL由提供遞增的表達(dá)性的三種子語言組成OWL Lite (或 OWL ) 、 OWL DL和OWL Full。 OWL誦S (其中S代表"語義")是面向"語義"的，其至今僅作為建議存在，并且還未被標(biāo)準(zhǔn)化。-"Web服務(wù)"是指互聯(lián)網(wǎng)上可經(jīng)由標(biāo)準(zhǔn)接口訪問的應(yīng)用，它可以獨(dú) 立于所使用的操作系統(tǒng)和編程語言使用例如基于XML的通信協(xié)議與應(yīng)用或其它Web服務(wù)動態(tài)交互。同樣，在其接口級，Web服務(wù)包括基于輸入數(shù)據(jù)或"輸入M"提供結(jié)果的處理操作。為使用Web服務(wù)，其操作中的一個(gè)4皮調(diào)用，并被提供以期望的輸入數(shù)據(jù)，以及恢復(fù)輸出結(jié)果。-"UML"(統(tǒng)一建模語言)是指一種用于借助于對象建才莫的符號
(而非語言)，其用于在其開發(fā)期間確定和呈現(xiàn)對象系統(tǒng)的部件，以及在適當(dāng)?shù)那闆r下生成其文檔。UML當(dāng)前是OMG標(biāo)準(zhǔn)。它通過合并Jim Rumbaugh、 Grady Booch和Ivar Jacobson的工作而產(chǎn)生，并且已通過眾多方式發(fā)展。- "語義Web"是指用于發(fā)布、咨詢以及最重要的對格式化知識的處理進(jìn)行自動化的萬維網(wǎng)的擴(kuò)展，這意味著，由語義Web處理的文檔包含將被自動處理的格式化信息，而不是自然語言的文本。-"XML"(可擴(kuò)展標(biāo)記語言)SGML語言的演進(jìn)，它特別被HTML 文檔設(shè)計(jì)者用于為個(gè)人化數(shù)據(jù)結(jié)構(gòu)而定義自己的標(biāo)記?，F(xiàn)代電信技術(shù)，特別是互聯(lián)網(wǎng)，使用戶能夠快速訪問多種服務(wù)。在該領(lǐng)域中，語義Web正在全面擴(kuò)展，特別當(dāng)涉及用于使用語義方法、借助于現(xiàn)有服務(wù)開發(fā)服務(wù)的應(yīng)用時(shí)。在這點(diǎn)上，越來越多Web服務(wù)配備了本體或更一般的語義描述。在本文中，發(fā)明人自己已設(shè)定了找到以下問題的解決方案的目的自動產(chǎn)生自然語言文本的語義描述(例如經(jīng)由語義圖，或換句話說本體)。該文本可以例如對應(yīng)于以自然語言書寫的用戶查詢。具有這樣的查詢的語義描述例如將有助于對對應(yīng)于該查詢的Web服務(wù)的搜索。目前，不存在所述問題的任何自動解決方案。已知一種手動解決方案，該方案在于使用例如Prot6g6或MindManager的語義工具或者甚至例如 Rational Rose、 Softteam Objecteering、 IBM-Rational XDE或Microsoft UML Visio的UML建模工具"手動"建立語義描述。實(shí)際上，憑借其特定構(gòu)造，UML可以覆蓋語義描述所需的所有概念單元繼承、聚合或關(guān) 聯(lián)關(guān)系、屬性、版型、基本數(shù)據(jù)和標(biāo)記值、約束等。然而，這樣的解決方案并不令人滿意，主要因?yàn)樗峭耆謩拥摹Ｒ?此，它實(shí)現(xiàn)起來冗長并且易于出錯(cuò)。此外，該解決方案是主觀的結(jié)果取決于用戶。該解決方案的結(jié)果是所獲得的描述中缺乏一致性。因此需要一種用于從文本數(shù)據(jù)自動(即通過計(jì)算機(jī))產(chǎn)生對應(yīng)于該文本的自然語言文本的語義描述的解決方案
發(fā)明內(nèi)容
為此，本發(fā)明提出了一種計(jì)算機(jī)使用的、用于開發(fā)自然語言文本的本體的方法，該方法包括以下步驟 -從所述文本接收文本數(shù)據(jù)；-經(jīng)由對所接收的數(shù)據(jù)的語法分析，從所述文本中提取語法和有意義的詞；-對所述有意義的詞中的至少一些的每一個(gè)借助于至少一個(gè)電子詞典搜索該詞的定義，提取該定義的語法和有意義的詞，并且，基于該定義的語法和有意義的詞創(chuàng)建該定義的基本詞匯圖；以及-根據(jù)所述文本的語法合并所創(chuàng)建的基本詞匯圖中的至少兩個(gè)，以便創(chuàng)建所述文本的至少一個(gè)語義圖。本發(fā)明的方法的優(yōu)選實(shí)施例具有以下特征中的一個(gè)或更多-本發(fā)明的方法進(jìn)一步包括在所述合并步驟之前，基于已提取的所述文本的語法和有意義的詞提取所述文本的有意義的詞之間的關(guān)系的步驟，其中，所述合并步驟基于所述文本的有意義的詞之間的這些關(guān)系；-所述提取第一步驟進(jìn)一步包括經(jīng)由對所述文本的語法結(jié)構(gòu)的語法分析的提取，所述結(jié)構(gòu)包括一個(gè)或更多語法組；并且，所述合并步驟進(jìn)一步基于所述提取的語法組，以便對于所述一個(gè)或更多提取的語法組的每個(gè)創(chuàng) 建至少一個(gè)語義圖；-本發(fā)明的方法進(jìn)一步包括對于所述文本的每一個(gè)有意義的詞，借助于所述至少一個(gè)詞典搜索該詞的同義詞和那些同義詞的定義的步驟，并且，所述合并步驟進(jìn)一步才艮據(jù)所述同義詞的定義來實(shí)現(xiàn)；-本發(fā)明的方法進(jìn)一步包括在所述合并步驟之前，對于每個(gè)有意義的詞，根據(jù)該有意義的詞及其同義詞的定義，對所找到的同義詞分類的步驟；并且，所述合并步驟進(jìn)一步根據(jù)所述同義詞的分類的結(jié)果來實(shí)現(xiàn)；-本發(fā)明的方法進(jìn)一步包括消除未^接到已創(chuàng)建的所述至少一個(gè)語義圖的部件的步驟；-除所述文本數(shù)據(jù)接收步驟之外的所述步驟的每個(gè)在該文本數(shù)據(jù)接收步驟之后"在進(jìn)行中"(on the fly)被實(shí)現(xiàn)；一所述至少一個(gè)語義圖用例如OWL或RDF的基于XML的語言來格式化；-所述文本數(shù)據(jù)對應(yīng)于服務(wù)查詢的文本。本發(fā)明還提出了一種用于搜索Web服務(wù)的方法，包括以下步驟接收通過本發(fā)明的用于開發(fā)本體的方法創(chuàng)建的所述至少一個(gè)語義圖，以及根據(jù) 已接收的所述至少一個(gè)語義圖搜索Web服務(wù)。本發(fā)明還涉及一種計(jì)算機(jī)程序和一種電子數(shù)據(jù)處理系統(tǒng)，所述電子數(shù) 據(jù)處理系統(tǒng)包括適于執(zhí)行根據(jù)本發(fā)明的方法的步驟的代碼裝置。

通過閱讀下面僅作為示例給出并且參考示例和附圖的對本發(fā)明的實(shí)施例的詳細(xì)描述，本發(fā)明的其它特征和優(yōu)點(diǎn)將變得顯而易見，附圖示出 -圖1:示出本發(fā)明的方法的一個(gè)實(shí)施例步驟和部件的流程圖； -圖2:示出對于自然語言的用戶查詢的文本實(shí)現(xiàn)的語法分析的表格； -圖3:從由圖2表中示出的語法分析提取的有意義的詞中獲取的基本詞匯圖集合；以及-圖4:在合并基本詞匯圖和消除未鏈接到該圖的部件的步驟之后獲得的圖3的圖。
具體實(shí)施方式
本發(fā)明的基本想法是使用一方面由語法分析器產(chǎn)生的信息以及另一方面諸如同義詞和定義的在一個(gè)或更多詞典中找到的單元，直接從文本的文本數(shù)據(jù)開發(fā)本體(即語義描述)。更詳細(xì)地，本發(fā)明的方法包括接收所述文本的文本數(shù)據(jù)的第一步驟。然后經(jīng)由對所接收的數(shù)據(jù)的語法分析從其中提取出語法和有意義的詞。然后使用電子詞典來搜索每個(gè)有意義的詞的定義，并且從其中提取出語法和有意義的詞。然后基于該定義的語法和有意義的詞創(chuàng)建該定義的基本詞匯圖。然后合并對應(yīng)于所述文本的有意義的
詞的基本詞匯圖。該合并根據(jù)初始文本的語法來實(shí)現(xiàn)，以便創(chuàng)建所述文本的至少一個(gè)語義圖。本發(fā)明提供的解決方案是系統(tǒng)的，并且由此彌補(bǔ)了鏈接到自然語言文本的本體的"手動"開發(fā)的缺點(diǎn)。該過程優(yōu)選地在"集成"電子數(shù)據(jù)處理工具中實(shí)現(xiàn)，所述"集成"電子數(shù)據(jù)處理工具例如是包括多個(gè)耦合的軟件模塊的助理或應(yīng)用，所述模塊的每一個(gè)被分配了給定任務(wù)。圖1示出了說明本發(fā)明的方法的一個(gè)實(shí)施例的步驟和部件的流程圖。參考該圖，首先接收對應(yīng)于自然語言文本的文本數(shù)據(jù)IO。例如，該文本是用戶從PC、個(gè)人數(shù)字助理或移動電話(例如通過SMS)發(fā)送的查詢的文本。在步驟S100中，經(jīng)由對接收的數(shù)據(jù)10的語法分析，從文本中提取出語法(圖1中未表示出)和有意義的詞20。所述語法分析包括獨(dú)立于意義 (其涉及語義；這將在隨后描述)的對所述文本中的詞的格式函數(shù)(formal function)的分析。該步驟可以借助于語法分析器來實(shí)現(xiàn)。這樣的工具是商業(yè)上可用的。該步驟在圖2中示例，該圖示出了將對于自然語言的文本10實(shí)現(xiàn)的典型語法分析的各個(gè)方面分組的表格。所述查詢包括文本"I want to obtain a French translation of CNN news (我想獲得CNN新聞的法語翻譯)"。在該分析之后，僅有意義的詞被保留，即"我(I)"、"想(want)"、"法語(French)，，、"翻譯(translation)"等。這些被放置在所狄從左邊開始的第一列中。例如"一個(gè)(a)"、"那個(gè)(the)"的冠詞和連接詞祐放棄。在下一列中，描述所述有意義的詞的特征(人稱代詞、動詞等)。最后兩列突出了所述有意義的詞之間的關(guān)系。例如，"我"是(動詞)"想" 的主語。再次參考圖1，該方法進(jìn)一步包括搜索每個(gè)提取的有意義的詞M (M 是指處理文本的有意義的詞)的定義40的步驟S200。該步驟必需典型地為詞匯詞典的電子詞典30,其中，從所述電子詞典中提取出所述定義。語法和有意義的詞m然后被從該定義中提取出，所述語法和有意義的
詞m是該定義的概念40的基礎(chǔ)。有必要區(qū)分出現(xiàn)在有意義的詞M的定義中的有意義的詞m與該詞M本身。從所述定義中提取語法和有意義的詞使所述定義的概念40客觀化。如果需要，將還實(shí)現(xiàn)定義之間的意義比較，這將使得在初始文本的有意義的詞M之間建立關(guān)系。該步驟的結(jié)果是初始文本的第一語義限定(valorization)。在步驟S300中，基本詞匯圖50針對每個(gè)定義即針對最初文本的每個(gè) 有意義的詞M、基于每個(gè)定義的語法和有意義的詞m被創(chuàng)建。然而，很一般地鏈接到所述查詢的意義的某些詞(例如圖2示例中的"我"和"想") 優(yōu)選地,M棄。更一般地，除了諸如"我想"、"我希望"、"我需要" 等的描述查詢的特征的表述之外，所有"有意義的"詞被保留實(shí)詞、動詞、形容詞。由此，基本圖針對所保留的每個(gè)詞M被構(gòu)造，但該圖典型包括該詞M的定義的有意義的詞m。在一定程度上，該"基本"圖因此代表詞M的"微本體(micro - ontology)"。該方法優(yōu)選地進(jìn)一步包括搜索初始文本的每個(gè)有意義的詞M的同義詞45以及搜索所述同義詞的定義的步驟。同義詞搜索可以例如采取對來自有意義的詞M的定義的詞的同義詞的系統(tǒng)搜索的形式。為此，該搜索可以使用與定義的詞典30分離的詞典35。然而，可以使用結(jié)合了詞的定義和同義詞的同一數(shù)據(jù)庫。同義詞的定義典型地通過與初始文本的有意義的詞 M相同的方式被客》見化。另外，詞的同義詞優(yōu)選根據(jù)該詞和其同義詞各自的定義被分類。根據(jù) 分類的結(jié)果，僅"主要"同義詞典型地被保留。"主要"同義詞例如是指定義的概念極大程度上與基準(zhǔn)有意義的詞的相同的那些。由此，基本圖可以包括基準(zhǔn)有意義的詞M的同義詞。圖3示出了從借助于上文中描述的語法分析提取的有意義的詞M (見圖2表)中獲得的基本詞匯圖。參考該圖，基本圖由詞"法語"、"翻譯"、 "CNN"和"新聞"表示。主語和動詞在該階段已祐放棄，其分析已揭示了用戶的查詢的意義。由此，初始文本的有意義的詞的僅一部分可以實(shí)際是基本圖創(chuàng)建的對象。
這些圖示出了源于定義提取的關(guān)系。在該圖中，由實(shí)線包圍的詞是初始文本的有意義的詞。點(diǎn)線指示對象意義上的繼承關(guān)系(或者換句話說，類到子類的關(guān)系)。例如，"法語"繼承自"語言"，而"CNN"繼承自 "專有名詞"。虛線指示同義詞，而點(diǎn)劃線指定另一種類型的關(guān)系，例如 "文本(Text)"通過"用……書寫"類型的關(guān)系鏈接到"源"或"目標(biāo)"。此外，"源"和"目標(biāo)"可以通過意味著"源"和"目標(biāo)"必須不同的約束來標(biāo)記。這可以借助于簡單外部標(biāo)簽而獲得。然而，沒有任何這樣得標(biāo)簽被系統(tǒng)地生成，這取決于所使用的定義的豐富性。在該階段，至今只存在構(gòu)成許多"微本體"的基本圖。該文本的最終本體由合并所述"微本體"產(chǎn)生，接下這將再次參考圖l進(jìn)行描述。本發(fā)明的方法進(jìn)一步包括合并所創(chuàng)建的基本詞匯圖50的至少兩個(gè)的步驟S400，即，系統(tǒng)地搜索基本圖對的合并體(merger)。在適當(dāng)?shù)那闆r下，所述合并根據(jù)所述文本的語法和提取(借助于語法分析)的有意義的詞來實(shí)現(xiàn)，以《更創(chuàng)建初始文本的至少一個(gè)語義圖60。該語義圖對向(subtend)所要求的本體。如上文中陳述的，語法分析揭示了初始文本的語法和有意義的詞，并且由此揭露了該文本的有意義的詞之間的關(guān)系的存在。由此，換句話說，所述合并至少基于所揭露的初始文本的有意義的詞之間的關(guān)系的存在而被實(shí)現(xiàn)。然而，應(yīng)當(dāng)指出，所述合并步驟可以明確基于所述關(guān)系，即，可以考慮除僅其存在性的事實(shí)之外的所述關(guān)系的意義。例如這意味著，所合并的圖的部件(即作為概念的詞)可以更容易地定向。語法分析(步驟S100)優(yōu)選地進(jìn)一步包括從初始文本中對語法結(jié)構(gòu)并且尤其是一個(gè)或更多語法組的提取("語法組"是指通過名稱補(bǔ)語("CNN 新聞(CNN News )")、屬性、別稱("法語翻譯(French translation )") 等類型的簡單語法關(guān)系連結(jié)的短語的詞的子集。在前述例子中，這些組為- "我想(Iwant)，，(組l);-"法語翻譯(French translation )，，(組2); 一 "CNN新聞(CNNNews)"(組3)。這些合并體(步驟S400 )被然后基于所提取的語法組嘗試創(chuàng)建針對所述語法組的每個(gè)的至少一個(gè)語義圖60。然后獲得每組至少一個(gè)詞匯圖。這更大優(yōu)勢在于，語法組一般反映相關(guān)概念，其賓語是補(bǔ)充的或連接的。提取的語法接口可以進(jìn)一步包括鏈接到短語、命題等的信息。特別地，語法組之間的這些鏈接可以用于錯(cuò)開所述合并體的逸艮。由此，關(guān)于語法結(jié)構(gòu) 的信息有助于構(gòu)造所述合并體。類似地，同義詞及其定義的出現(xiàn)可以在這樣的程度上影響所述合并體它們突出了來自不同詞匯圖的詞之間的關(guān)系。那些關(guān)系然后有助于構(gòu)造那些圖之間的合并體。在一個(gè)實(shí)施例中，所述合并體同時(shí)考慮查詢的語法結(jié)構(gòu)和不同基本詞匯圖之間的(語義上)相鄰術(shù)語的值，以非常簡單的方法來實(shí)現(xiàn)。在涉及到語法結(jié)構(gòu)的情況下，這里具體是指所述語法組的結(jié)構(gòu)。在涉及(語義上) 相鄰術(shù)語的值的情況下，"相鄰"的程度取決于它們之間可以存在的關(guān)系 (即鏈接了來自不同基本詞匯圖的詞的關(guān)系)。應(yīng)當(dāng)指出，這里的基本圖是用組成給定語法組的詞構(gòu)成的那些。在上文描述的示例中，對于組1 "法語翻譯"，此處同時(shí)考慮其語法結(jié)構(gòu)(通過名稱-別稱關(guān)系鏈接到一起的兩個(gè)詞)和來自兩個(gè)基本詞匯圖的術(shù)語之間的現(xiàn)有關(guān)系，其中，來自兩個(gè) 基本詞匯圖的術(shù)語例如是"法語"側(cè)的"語言"和在"翻譯"側(cè)鏈接到"文本"的"語言"(見圖3)。應(yīng)當(dāng)指出，上文中描述的所述步驟(S100-S400)的一些由于算法性能可以被交錯(cuò)。例如，在接收查詢之后，從該文本中提取語法和有意義的詞 20、搜索其定義和分析所述定義(S200)的步驟可以是部分伴隨的。類似地，一旦對詞的搜索已結(jié)束，則在不等待對所述詞的每個(gè)的分析結(jié)束的情況下，對應(yīng)的基本圖的構(gòu)造可以開始。按照同樣的想法，一旦兩個(gè)圖可用，則可以實(shí)現(xiàn)合并體搜索。因此不必要一個(gè)接一個(gè)地實(shí)現(xiàn)這些步驟。此外，在一個(gè)實(shí)施例中，例如響應(yīng)于用戶查詢IO，在文本數(shù)據(jù)接收步驟之后，所述步驟S100-S400可以"在進(jìn)行中"(以及可能交錯(cuò)地)被實(shí) 現(xiàn)。這特別提供了對發(fā)自用戶的查詢的滿足。用戶典型地格式化其查詢，并且然后生成該查詢的本體(即包括至少一個(gè)語義圖60)，并且搜索對應(yīng) 的Web服務(wù)。該方法優(yōu)選包括消除未鏈接到已創(chuàng)建的語義圖60的部件的步驟S500。這消除了沒用的圖部分，并且因此最終簡化處理。因此獲得最終的語義圖 70。返回前一示例并且參考圖4，特別地，關(guān)于"法語"和"翻譯"的圖已被合并是顯而易見的?？梢杂浧饋恚瑏碜詧Dl的表格示出了 "法語"和 "翻譯"之間的語法關(guān)系的存在。初始文本的語法和有意義的詞因此包括之后合并關(guān)于詞"法語"和"翻譯"的圖所必需的單元。更準(zhǔn)確地說，一方面詞"法語"與"翻譯"之間("法語"是"翻譯"的別稱)、以及另一方面"翻譯"、"文本"與"目標(biāo)語言"之間(后者是具有語義本質(zhì)的) 的特定關(guān)系已經(jīng)使得經(jīng)由詞/概念"語言"依附到"翻譯"的語義分支能夠在"法語"與"目標(biāo)語言"之間被實(shí)現(xiàn)。在這點(diǎn)上，應(yīng)當(dāng)指出，下面"翻譯"的定義已被用于該例中"不同于其已被書寫所用的(源語言)的語言(目標(biāo)語言)的文本版本"。類似地，實(shí)現(xiàn)關(guān)于"新聞"和"CNN"的概念之間的合并體是可能的。例如"互聯(lián)網(wǎng)論壇"或"首字母縮寫詞"的未鏈接的術(shù)語也已被消除。還要指出，詞或概念之間的關(guān)系的存在并非必要地導(dǎo)致合并體。例如，盡管"新聞"與"翻譯"之間的關(guān)系存在，但圖4中出現(xiàn)的兩個(gè)圖未被鏈接。在這點(diǎn)上，不(在語義上)追求過度放寬每個(gè)概念以便合并其全部可能是有利的。這將導(dǎo)致太目標(biāo)化、太個(gè)性化的單一最終圖。極少存在對應(yīng) 于太目標(biāo)化的查詢的Web服務(wù)。因此，最好以發(fā)現(xiàn)多個(gè)Web服務(wù)為目標(biāo)，所述多個(gè)Web服務(wù)的每一個(gè)都對應(yīng)于從該查詢獲得的一個(gè)圖。這明顯取決于最終目標(biāo)在其它應(yīng)用中，合并最多的圖可能就是所述目標(biāo)。最終圖的粒度級別可以根據(jù)經(jīng)驗(yàn)調(diào)整和糾正。在前述例子中，"新聞"與"翻譯" 之間(在最初查詢中)的關(guān)系可能已被發(fā)現(xiàn)，但優(yōu)選不創(chuàng)建該鏈接，該鏈
接將使最終的圖太個(gè)性化。最后獲得的語義圖70可以例如用諸如OWL或RDF的基于XML的語言簡單格式化。上文中描述的方法因此產(chǎn)生了相關(guān)的和系統(tǒng)的語義描述。當(dāng)然，顯而易見，如果初始查詢IO被很好地格式化并且很清楚，則該方法運(yùn)行得更好。特別地，它可以有利地采用主語-動詞-補(bǔ)語的形式，并且在適合的情況下用清晰的實(shí)詞補(bǔ)語使其優(yōu)美。
權(quán)利要求
1.一種由計(jì)算機(jī)使用的、用于開發(fā)自然語言文本(10)的本體(70)的方法，該方法包括以下步驟-從所述文本(10)接收文本數(shù)據(jù)；-經(jīng)由對接收的數(shù)據(jù)的語法分析(S100)從所述文本中提取語法和有意義的詞(20)；-對于所述文本的所述有意義的詞(20)中的至少一些的每一個(gè)借助于至少一個(gè)電子詞典(30、35)搜索(S200)該詞(20)的定義(40)，提取所述定義的語法和有意義的詞，并且基于所述定義的語法和有意義的詞創(chuàng)建(S300)所述定義的基本詞匯圖(50)；以及-根據(jù)所述文本的語法，合并(S400)已創(chuàng)建的所述基本詞匯圖(50)的至少兩個(gè)，以便創(chuàng)建所述文本的至少一個(gè)語義圖(60)。
2. 根據(jù)權(quán)利要求1的方法，進(jìn)一步包括在所述合并步驟(S400)之前，基于已提取的所述文本的語法和有意義的詞，提取所述文本的有意義的詞之間的關(guān)系的步驟，所述合并步驟基于所述文本的有意義的詞之間的所述關(guān)系。
3. 根據(jù)權(quán)利要求l的方法，其中-所述提取第一步驟進(jìn)一步包括經(jīng)由對所述文本的語法結(jié)構(gòu)的語法分析(S100)的提取，所述結(jié)構(gòu)包括一個(gè)或更多語法組；以及-所述合并步驟(S400)進(jìn)一步基于提取的語法組，以便對于所述一個(gè)或更多提取的語法組的每一個(gè)創(chuàng)建至少一個(gè)語義圖(60)。
4. 根據(jù)權(quán)利要求l的方法，進(jìn)一步包括對于所述文本的每個(gè)有意義的詞，借助于所述至少一個(gè)詞典(35)搜索該詞的同義詞(45)及所述同義詞的定義的步驟；以及-所述合并步驟(S400)進(jìn)一步根據(jù)所述同義詞的定義來實(shí)現(xiàn)。
5. 根據(jù)權(quán)利要求4的方法，進(jìn)一步包括在所述合并步驟之前的步驟 -對于每個(gè)有意義的詞，根據(jù)該有意義的詞及其同義詞的定義對找到的同義詞分類；并且其中所述合并步驟進(jìn)一步根據(jù)所述同義詞分類的結(jié)果來實(shí)現(xiàn)。
6. 根據(jù)權(quán)利要求l的方法，進(jìn)一步包括步驟(S500): -消除未鏈接到已創(chuàng)建的所述至少一個(gè)語義圖(60)的部件。
7. 根據(jù)權(quán)利要求l的方法，其中，除所述文本數(shù)據(jù)的接收步驟之外的所述步驟(S100-S400 )的每一個(gè)在所述文本數(shù)據(jù)的接收步驟之后"在進(jìn)行中"被實(shí)現(xiàn)。
8. 根據(jù)權(quán)利要求1到7中任一項(xiàng)的方法，其中，所述至少一個(gè)語義圖 (70 )被用諸如OWL或RDF的基于XML的語言格式化。
9. 根據(jù)權(quán)利要求1的方法，其中，所述文^t據(jù)對應(yīng)于服務(wù)查詢(10 ) 的文本。
10. —種搜索Web服務(wù)的方法，包括以下步驟-接收通過根據(jù)權(quán)利要求9的方法創(chuàng)建的所述至少一個(gè)語義圖(60);以及-根據(jù)已接收的所述至少一個(gè)語義圖搜索Web服務(wù)。
11. 一種計(jì)算機(jī)程序產(chǎn)品，適于執(zhí)行根據(jù)權(quán)利要求1到10中任一項(xiàng)的方法的步驟。
12. —種電子數(shù)據(jù)處理系統(tǒng)，包括適于執(zhí)行根據(jù)權(quán)利要求1到10中任一項(xiàng)的方法的步驟的代碼裝置。
全文摘要
本發(fā)明涉及一種計(jì)算機(jī)使用的、開發(fā)自然語言文本(10)的本體(70)的方法，包括以下步驟從文本(10)接收文本數(shù)據(jù)；經(jīng)由對接收的數(shù)據(jù)的語法分析(S100)從文本中提取語法和有意義的詞(20)；對于文本的有意義的詞(20)中的至少一些的每一個(gè)借助至少一個(gè)電子詞典(30、35)搜索(S200)該詞(20)的定義(40)，提取該定義的語法和有意義的詞，并基于該定義的語法和有意義的詞創(chuàng)建(S300)該定義的基本詞匯圖(50)；以及根據(jù)文本的語法合并(S400)創(chuàng)建的基本詞匯圖(50)中的至少兩個(gè)，以便創(chuàng)建文本的至少一個(gè)語義圖(60)。本發(fā)明還涉及計(jì)算機(jī)程序產(chǎn)品和電子數(shù)據(jù)處理系統(tǒng)，所述電子數(shù)據(jù)處理系統(tǒng)包括適于實(shí)現(xiàn)本發(fā)明方法的步驟的代碼裝置。
文檔編號G06F17/27GK101149732SQ20071015406
公開日2008年3月26日申請日期2007年9月13日優(yōu)先權(quán)日2006年9月19日
發(fā)明者P·拉爾韋申請人:阿爾卡特朗訊公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：P.拉爾韋
技術(shù)所有人：阿爾卡特朗訊公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

cnn用于自然語言處理相關(guān)技術(shù)

cnn用于文本信息抽取相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

由計(jì)算機(jī)使用的從自然語言文本開發(fā)本體的方法