一種基于領(lǐng)域本體的智能檢索系統(tǒng)及方法

文檔序號(hào)：6472733閱讀：239來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：一種基于領(lǐng)域本體的智能檢索系統(tǒng)及方法
技術(shù)領(lǐng)域：
本發(fā)明涉及中文信息檢索(IR)領(lǐng)域，特別涉及一種基于領(lǐng)域本體(Domain ontology )的智能檢索方法，以及包含該方法的智能檢索系統(tǒng)。
背景技術(shù)：
信息檢索技術(shù)的出現(xiàn)是網(wǎng)絡(luò)發(fā)展史上的里程碑，它為網(wǎng)絡(luò)用戶(hù)帶來(lái)了極大的便利， Google、百度是這個(gè)領(lǐng)域的典型代表。用戶(hù)只要輸入檢索詞或檢索語(yǔ)句，信息檢索系統(tǒng)就會(huì) 按照一定的排序規(guī)則、為用戶(hù)快速地返回包含該檢索詞或檢索語(yǔ)句的所有網(wǎng)頁(yè)。因此，對(duì)于信息檢索系統(tǒng)而言，正確理解用戶(hù)的檢索需求、優(yōu)化結(jié)果排序方式等至關(guān)重要。
然而，現(xiàn)有的通用搜索引擎無(wú)法準(zhǔn)確理解和處理各類(lèi)信息，特別是專(zhuān)業(yè)領(lǐng)域知識(shí)，經(jīng)常檢索不到、甚至返回大量無(wú)關(guān)專(zhuān)業(yè)領(lǐng)域信息，系統(tǒng)査全率和査準(zhǔn)率不高。主要原因在于
一方面，采取關(guān)鍵字匹配方式理解用戶(hù)檢索語(yǔ)句。信息檢索系統(tǒng)并不關(guān)注用戶(hù)輸入的專(zhuān) 業(yè)領(lǐng)域詞匯的概念和語(yǔ)義，只是將分詞后的關(guān)鍵詞與索引庫(kù)中的索引詞按照字面形式進(jìn)行直接匹配。
另一方面，按照檢索相關(guān)度對(duì)結(jié)果進(jìn)行排序處理，即按照檢索詞和索引詞之間相同的字或詞的多少進(jìn)行排序。
為了提高檢索效率，一些信息檢索系統(tǒng)提出了 "相關(guān)搜索"等改進(jìn)技術(shù)，然而，這些技術(shù)仍沒(méi)有脫離字面匹配的本質(zhì)。在人工智能(AI)等領(lǐng)域，本體(ontology)的引入為相關(guān) 問(wèn)題的解決帶來(lái)了契機(jī)。
(1) 本體是共享概念模型的形式化的、明確的規(guī)范說(shuō)明(ontology is a formal, explicit specification of a shared conceptualization, studer 1998)。
本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí)，確定該領(lǐng)域共同認(rèn)可的詞匯，并明確定義這些詞匯及詞匯間的相互關(guān)系，提供對(duì)該領(lǐng)域知識(shí)的共同理解，并以規(guī)范化的形式在計(jì)算機(jī)中加以存儲(chǔ)。
(2) 規(guī)定了論域。
領(lǐng)域本體以一個(gè)特定的領(lǐng)域?yàn)槊枋鰧?duì)象，提供該特定領(lǐng)域的概念定義和概念之間的關(guān)系、主要理論、基本原理，以及領(lǐng)域中發(fā)生的活動(dòng)等。
(3) 知識(shí)表示、共享和重用。共享知識(shí)體系的表示是"機(jī)器可處理"的語(yǔ)義，它以RDF為基礎(chǔ)，以URI作為命名機(jī)制、以XML為語(yǔ)法，將不同的應(yīng)用集成在一起，對(duì)Web上的數(shù)據(jù)進(jìn)行抽象表示。本體通過(guò)這種通用框架的表示方式，允許跨越不同應(yīng)用程序、企業(yè)和團(tuán)體的邊界進(jìn)行數(shù)據(jù)的共享和重用。 (4)信息交流的語(yǔ)義基礎(chǔ)。
由本體所提供的領(lǐng)域內(nèi)共同認(rèn)可的知識(shí)體系包括術(shù)語(yǔ)集、關(guān)系集和規(guī)則集，會(huì)為不同主體提供一種共識(shí)，為不同背景和領(lǐng)域下的人、機(jī)器、軟件系統(tǒng)等進(jìn)行信息交流提供了可能。
正是由于以上的特點(diǎn)和優(yōu)勢(shì)，所以本體為語(yǔ)義理解、智能檢索等提供了可能。20世紀(jì) 90年代，本體技術(shù)得到了知識(shí)工程、人工智能等多個(gè)領(lǐng)域的廣泛關(guān)注和研究，并取得了一定的成果。
然而，目前構(gòu)建較為詳細(xì)的、囊括所有領(lǐng)域知識(shí)體系的通用本體，并基于這個(gè)通用本體建立信息檢索系統(tǒng)并不現(xiàn)實(shí)。因此，有必要從某一領(lǐng)域出發(fā)，構(gòu)建領(lǐng)域本體，實(shí)現(xiàn)對(duì)該專(zhuān)業(yè) 領(lǐng)域知識(shí)的智能檢索。目前，相關(guān)智能檢索技術(shù)中尚不存在基于領(lǐng)域本體的用戶(hù)輸入的句型模式匹配方法和語(yǔ)義距離測(cè)量的結(jié)果優(yōu)化排序方法，且尚不存在包含該方法的智能檢索系統(tǒng) ，導(dǎo)致智能檢索系統(tǒng)面臨一系列技術(shù)問(wèn)題，并未如預(yù)期一樣在檢索性能上比傳統(tǒng)檢索系統(tǒng)有明顯的提高和改善。

發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種基于領(lǐng)域本體實(shí)現(xiàn)智能檢索的系統(tǒng)，旨在正確理解用戶(hù) 需求，提供高效的專(zhuān)業(yè)領(lǐng)域信息服務(wù)，改進(jìn)現(xiàn)有信息檢索系統(tǒng)的不足。
本發(fā)明的另一個(gè)目的還在于提供一種用于上述基于領(lǐng)域本體的智能檢索系統(tǒng)的句型模式匹配方法和語(yǔ)義距離測(cè)量等方法，利用該方法可以正確理解用戶(hù)輸入的自然査詢(xún)語(yǔ)句，對(duì)査詢(xún)結(jié)果進(jìn)行語(yǔ)義相關(guān)度的計(jì)算，為用戶(hù)返回最相關(guān)的專(zhuān)業(yè)領(lǐng)域信息。
為達(dá)到上述發(fā)明目的，本發(fā)明是通過(guò)下述技術(shù)方案實(shí)現(xiàn)的
本發(fā)明實(shí)施例公開(kāi)了一種基于領(lǐng)域本體的智能檢索系統(tǒng)，其特征在于，該系統(tǒng)包括用于分析用戶(hù)輸入自然査詢(xún)語(yǔ)句的本體推理模塊，用于創(chuàng)建索引庫(kù)的索引處理模塊，用于進(jìn)行特定査詢(xún)的査詢(xún)處理模塊，以及用于査詢(xún)結(jié)果處理的結(jié)果優(yōu)化排序模塊，所述系統(tǒng)還包括基于某一領(lǐng)域所構(gòu)建的領(lǐng)域本體庫(kù)、數(shù)據(jù)資源庫(kù)、以及索引數(shù)據(jù)庫(kù)；
其中，本體推理模塊包括分詞預(yù)處理單元和句型模式匹配單元；
分詞預(yù)處理單元，用于接收用戶(hù)輸入的自然査詢(xún)語(yǔ)句，對(duì)査詢(xún)語(yǔ)句進(jìn)行分詞、詞性標(biāo)注、領(lǐng)域本體角色標(biāo)注等預(yù)處理，去除弱語(yǔ)義詞匯，得到強(qiáng)語(yǔ)義詞匯集合；
句型模式匹配單元，用于將強(qiáng)語(yǔ)義詞匯集合與事先定義的句型模式進(jìn)行匹配處理，得到新的檢索式；
索弓1處理模塊包括本體語(yǔ)義索弓1處理單元和全文索弓1處理單元；
本體語(yǔ)義索引處理單元，用于獲取數(shù)據(jù)資源文檔，解析、處理并提取文檔主體內(nèi)容信息
，基于領(lǐng)域本體庫(kù)合成文檔語(yǔ)義向量，建立基于本體的語(yǔ)義索引庫(kù)；
全文索引處理單元，用于獲取數(shù)據(jù)資源文檔，提取文檔信息，建立全文索引庫(kù)；査詢(xún)處理模塊包括語(yǔ)義査詢(xún)處理單元、擴(kuò)展査詢(xún)處理單元和全文檢索處理單元；語(yǔ)義査詢(xún)處理單元，用于基于領(lǐng)域本體概念及概念間關(guān)聯(lián)進(jìn)行專(zhuān)業(yè)領(lǐng)域信息的智能査詢(xún)
處理；
擴(kuò)展査詢(xún)處理單元，用于基于領(lǐng)域本體概念及概念間關(guān)聯(lián)進(jìn)行擴(kuò)展査詢(xún)處理；全文檢索處理單元，用于按照傳統(tǒng)的檢索方式，即按照關(guān)鍵字匹配原理進(jìn)行全文檢索的處理；
數(shù)據(jù)資源庫(kù)，包括本地領(lǐng)域數(shù)據(jù)庫(kù)內(nèi)的資源或從網(wǎng)上抓取的領(lǐng)域內(nèi)的資源數(shù)據(jù)；索引數(shù)據(jù)庫(kù)，包括由索引處理模塊建立的本體語(yǔ)義索引庫(kù)和全文索引庫(kù)。本發(fā)明實(shí)施例還公開(kāi)了一種基于領(lǐng)域本體的智能檢索方法，其特征在于，該方法包括下述步驟
A. 對(duì)用戶(hù)輸入的自然査詢(xún)語(yǔ)句進(jìn)行分詞、詞性標(biāo)注，并基于領(lǐng)域本體進(jìn)行角色標(biāo)注；
B. 分析、判斷上述步驟A中的詞匯集，進(jìn)行本體角色非空項(xiàng)的判斷，并按照一定的規(guī)則進(jìn)行相應(yīng)的査詢(xún)；
C. 對(duì)査詢(xún)結(jié)果進(jìn)行語(yǔ)義距離測(cè)量，按照語(yǔ)義距離值進(jìn)行結(jié)果的優(yōu)化，并將檢索結(jié)果排序輸出，返回給用戶(hù)。
其中上述步驟B所述的本體角色非空項(xiàng)的判斷進(jìn)一步包括
Bl.如果用戶(hù)輸入的自然査詢(xún)語(yǔ)句中不包括本體概念，則進(jìn)行全文檢索；
B2.如果用戶(hù)輸入的自然査詢(xún)語(yǔ)句中包括本體概念，則進(jìn)行句型模式的匹配判斷。
其中上述步驟B2所述的句型模式匹配判斷進(jìn)一步包括
B21.如果句型模式匹配成功，則進(jìn)行語(yǔ)義査詢(xún)；
B22.如果句型模式匹配成功，則訪問(wèn)領(lǐng)域本體庫(kù)，進(jìn)行適當(dāng)?shù)恼Z(yǔ)義擴(kuò)展處理，進(jìn)行擴(kuò) 展査詢(xún)。
因此，本發(fā)明實(shí)施例提供的基于領(lǐng)域本體的智能檢索系統(tǒng)和方法，具有以下的優(yōu)點(diǎn)本發(fā)明所述的基于領(lǐng)域本體的智能檢索系統(tǒng)及方法充分利用了領(lǐng)域本體庫(kù)中的概念及其相互關(guān) 系，能夠正確理解用戶(hù)需求，優(yōu)化檢索結(jié)果，為用戶(hù)更全、更準(zhǔn)地返回專(zhuān)業(yè)領(lǐng)域信息，能夠顯著提高專(zhuān)業(yè)技術(shù)領(lǐng)域內(nèi)信息檢索的性能。

根據(jù)下述附圖及實(shí)施例的描述，可以充分說(shuō)明本發(fā)明的特征及優(yōu)點(diǎn)。在附圖中圖1是本發(fā)明實(shí)施例的一種基于領(lǐng)域本體的智能檢索系統(tǒng)的結(jié)構(gòu)框圖；圖2是本發(fā)明實(shí)施例中的語(yǔ)義本體索引處理單元?jiǎng)?chuàng)建語(yǔ)義索引數(shù)據(jù)庫(kù)的流程圖；圖3是圖l所示的本發(fā)明實(shí)施例的智能檢索系統(tǒng)為用戶(hù)執(zhí)行專(zhuān)業(yè)領(lǐng)域知識(shí)査詢(xún)過(guò)程的流程圖4是本發(fā)明實(shí)施例所采用的檢索方式圖；以及
圖5是本發(fā)明實(shí)施例的領(lǐng)域本體概念間語(yǔ)義的距離示意圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，以下參照附圖以及實(shí)施例，對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。應(yīng)當(dāng)理解，下述所舉的實(shí)施例僅被用作解釋本發(fā)明、并不用于限制本發(fā)明，即本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例，相反，根據(jù)本發(fā)明的構(gòu)思，本領(lǐng)域普通技術(shù)人員可以進(jìn)行適當(dāng)更改，這些改變可以落入權(quán)利要求書(shū)所限定的發(fā)明范圍之內(nèi)。
本發(fā)明的基本思想是本發(fā)明的一個(gè)實(shí)施例基于領(lǐng)域本體庫(kù)提供了多種檢索方式，如圖
4所示，包括全文檢索402、擴(kuò)展檢索403和語(yǔ)義檢索404。如果用戶(hù)輸入的詞匯中不包含本體概念，則進(jìn)行全文檢索；否則結(jié)合領(lǐng)域本體對(duì)用戶(hù)輸入的自然査詢(xún)語(yǔ)句進(jìn)行句型模式匹配處理。如果匹配成功，則訪問(wèn)語(yǔ)義本體索引庫(kù)進(jìn)行語(yǔ)義檢索；如果匹配不成功，則基于領(lǐng)域本體庫(kù)進(jìn)行適當(dāng)?shù)恼Z(yǔ)義擴(kuò)展査詢(xún)。最后，對(duì)査詢(xún)結(jié)果進(jìn)行語(yǔ)義距離測(cè)量，并將結(jié)果優(yōu)化排序并輸出，為用戶(hù)返回專(zhuān)業(yè)領(lǐng)域信息。
圖l示出的本發(fā)明提供的基于領(lǐng)域本體的智能檢索系統(tǒng)包括本體推理模塊102、索引處理模塊109、査詢(xún)處理模塊115和結(jié)果優(yōu)化排序模塊119，以及領(lǐng)域本體庫(kù)105、數(shù)據(jù)資源庫(kù) 106和索引數(shù)據(jù)庫(kù)112。
圖1中的索引處理模塊109針對(duì)數(shù)據(jù)資源庫(kù)106中的本地?cái)?shù)據(jù)資源107或網(wǎng)上資源108，并結(jié)合領(lǐng)域本體庫(kù)105，通過(guò)本體語(yǔ)義索引處理單元110和全文索引處理單元111生成索引數(shù)據(jù) 庫(kù)112;本體推理模塊102接收用戶(hù)101輸入的自然語(yǔ)言査詢(xún)語(yǔ)句，結(jié)合領(lǐng)域本體庫(kù)105，使用分詞預(yù)處理單元103和句型模式匹配單元104生成相應(yīng)的檢索式。接著，將檢索式傳入索引數(shù) 據(jù)庫(kù)112 。索引數(shù)據(jù)庫(kù)112接收檢索式，按照對(duì)應(yīng)的規(guī)則訪問(wèn)相應(yīng)的本體語(yǔ)義索引庫(kù)113或全文索引庫(kù)114，然后，通過(guò)査詢(xún)處理模塊115中的語(yǔ)義査詢(xún)處理單元116、擴(kuò)展査詢(xún)處理單元 117和全文檢索處理單元118進(jìn)行相應(yīng)的査詢(xún)處理，最后，通過(guò)結(jié)果優(yōu)化排序模塊119優(yōu)化檢索結(jié)果，將査詢(xún)結(jié)果返回給用戶(hù)IOI。
圖1中的本發(fā)明實(shí)施例的領(lǐng)域本體庫(kù)105采用儀器儀表領(lǐng)域的數(shù)據(jù)進(jìn)行分析和構(gòu)建，根據(jù) 本發(fā)明開(kāi)發(fā)了一種針對(duì)結(jié)構(gòu)化數(shù)據(jù)自動(dòng)構(gòu)建領(lǐng)域本體庫(kù)的工具，該工具能自動(dòng)進(jìn)行領(lǐng)域本體知識(shí)庫(kù)的構(gòu)建，極大地提高了領(lǐng)域本體庫(kù)構(gòu)建的效率。
圖l中的全文索引處理單元lll采用一般的處理方法和技術(shù)，對(duì)所要處理數(shù)據(jù)資源的標(biāo)題、摘要、全文等建立索引，以便檢索時(shí)提高系統(tǒng)的査全率，由于相關(guān)技術(shù)已經(jīng)非常成熟，在此不再詳述。
圖2示出了圖1中本體語(yǔ)義索引處理單元110的處理流程，具體步驟詳述如下
1) 文檔獲取201，用于獲取專(zhuān)業(yè)領(lǐng)域內(nèi)的系統(tǒng)數(shù)據(jù)資源，此處文檔可以包括html、 asp
、pdf、 doc、 txt、 excel、卯t、 ps、圖片等多種格式，Web頁(yè)面信息的獲取是通過(guò)網(wǎng)絡(luò)爬蟲(chóng) 進(jìn)行抓取的。
例如，本發(fā)明的實(shí)施例采用heritrix爬蟲(chóng)框架，根據(jù)用戶(hù)設(shè)定的種子去請(qǐng)求一個(gè)頁(yè)面，并將有效的URL添加到隊(duì)列中等候處理，然后提取隊(duì)列中等候的第一個(gè)鏈接對(duì)其進(jìn)行頁(yè)面解析，并根據(jù)user-defined-extractor自定義的抽取器提取出有效的文本信息，以鏡像存儲(chǔ)結(jié) 構(gòu)存儲(chǔ)到本地。同時(shí)將頁(yè)面中有效的URL再次加入隊(duì)列等候處理，如此不斷地分析下去，直到最后一個(gè)鏈接無(wú)任何有效鏈接為止，完成一次任務(wù)的抓取，如此不斷循環(huán)往復(fù)，直至抓取完所需的預(yù)定網(wǎng)上資源。
本地專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)可以直接從圖1的本地?cái)?shù)據(jù)資源107中提取，實(shí)施例采用國(guó) 家基礎(chǔ)條件重點(diǎn)平臺(tái)項(xiàng)目"先進(jìn)制造與自動(dòng)化科學(xué)數(shù)據(jù)共享網(wǎng)"中的儀器儀表數(shù)據(jù)庫(kù)中的數(shù) 據(jù)；對(duì)于領(lǐng)域本體文件，可以訪問(wèn)事先創(chuàng)建的領(lǐng)域本體庫(kù)，進(jìn)行直接獲取。
2) 內(nèi)容解析202，對(duì)通過(guò)步驟l)獲得的文檔進(jìn)行解析，S卩通過(guò)對(duì)文檔內(nèi)容進(jìn)行格式解析，獲取各類(lèi)文檔中的具體內(nèi)容。具體流程為首先以流的方式把文件讀取到內(nèi)存中，然后對(duì)各類(lèi)型文件的存儲(chǔ)格式進(jìn)行分析，最后按照各自的存儲(chǔ)格式從內(nèi)存中提取出文件的有效信息。
3) 分詞、詞性標(biāo)注203，這一步對(duì)步驟2)中的解析文檔進(jìn)行分詞處理，以及詞性的標(biāo) 注。具體是通過(guò)系統(tǒng)的分詞工具對(duì)文檔中詞匯進(jìn)行分割，并標(biāo)注出各個(gè)詞匯的詞性，特別是針對(duì)專(zhuān)業(yè)領(lǐng)域詞匯的分詞做了特定的處理。其中名詞、動(dòng)詞、數(shù)詞、形容詞、前置詞、助詞、連詞、標(biāo)點(diǎn)等詞性標(biāo)記分別為n、 v、 m、 a、 p、 u、 c、 wp等符號(hào)。
例如，針對(duì)以下文檔內(nèi)容"雙金屬溫度計(jì)是利用兩種不同金屬在溫度改變時(shí)膨脹程度不同的原理工作的。工業(yè)用雙金屬溫度計(jì)主要的元件是一個(gè)用兩種或多種金屬片疊壓在一起組成的多層金屬片。"進(jìn)行分詞和詞性的標(biāo)注，最后的處理結(jié)果是"雙金屬溫度計(jì)/n/ 是/v利用/v兩種/m不同/a金屬/n在/p溫度/n改變/v時(shí)/n膨脹程度/n不同/a的/u原理/n工作/v 的/u 。 /wp工業(yè)/n用/p雙金屬溫度計(jì)/n主要/b 的/u元件/n是/v —個(gè)/m用/p兩種/m或/c多種/m金屬片/n疊壓/v在/p 一起/nl組成/v 的/u多/a層/q金屬片/n 。 /wp"。
4) 本體角色標(biāo)注204，對(duì)詞匯在本體中所充當(dāng)?shù)慕巧M(jìn)行分析并標(biāo)注，如本體類(lèi)概念( Class)標(biāo)記為C、 X寸象屬性(ObjectProperty)標(biāo)記為OP、數(shù)據(jù)屬性(DatatypeProperty) 標(biāo)記為DP、本體實(shí)例(Individuals)標(biāo)記為I等的標(biāo)注。另外，根據(jù)需要也可以進(jìn)行更詳細(xì) 標(biāo)注，如儀表實(shí)例(yb—Individuals)標(biāo)記為yb—I、標(biāo)準(zhǔn)實(shí)例(bz— Individuals)標(biāo)記為 bz—I等。
例如，將上述步驟3)的結(jié)果進(jìn)一步進(jìn)行本體角色的判斷，最后標(biāo)注為"雙金屬溫度
計(jì)/n/yb—C 是/v/null 利用/v/0P兩種/m/nu11 不同/a/null 金屬/n/C在/p/nul1 溫度/n/DP改變/v/nu11 時(shí)/n/null 膨脹程度/n/DP不同/a/nu11 的/u/null 原理 /n/DP 工作/v/nu11 的/u/null 。 /wp/nul1 工業(yè)/n/nu11 用/p/null 雙金屬溫度計(jì) /n/yb—C 主要/b/nu11 的/u/null 元件/n/C 是/v/null —個(gè)/m/nu11 用/p/null 兩種/m/null 或/c/nul1 多種/m/null 金屬片/n/C 疊壓/v/nu11 在/p/null —起 /nl/nul1 組成/v/0P 的/u/null 多/a/nul1 層/q/null 金屬片/n/C 。 /wp/null"。
5) 提取核心詞匯205，此步是針對(duì)步驟4)的標(biāo)注結(jié)果，將其中的本體角色為空的詞匯去除，保留本體角色為非空詞匯的過(guò)程。一般情況下，如果文檔中某個(gè)詞匯沒(méi)有被收錄到該領(lǐng)域的領(lǐng)域本體庫(kù)之中，則該詞匯對(duì)于領(lǐng)域?qū)I(yè)信息檢索過(guò)程而言，基本為干擾信息或不相干信息，因此，為提高專(zhuān)業(yè)領(lǐng)域檢索的效率，不必為該詞創(chuàng)建索引信息。
對(duì)步驟4)提取核心詞匯如下所示"雙金屬溫度計(jì)/n/yb—C利用/v/0P金屬/n/C 溫度/n/DP膨脹程度/n/DP原理/n/DP雙金屬溫度計(jì)/n/yb—C元件/n/C金屬片/n/C 組成/v/0P金屬片/n/C"。
6) 合成語(yǔ)義向量206，將文檔中所有在領(lǐng)域本體中出現(xiàn)的概念，即步驟5)提取的核心詞匯合成語(yǔ)義向量，中間允許同一概念出現(xiàn)多次，不同的位置對(duì)最終文檔相似度的計(jì)算結(jié)果會(huì)有不同的影響。
將步驟5)中的核心詞匯合成語(yǔ)義向量后的結(jié)果是"(雙金屬溫度計(jì)，利用，金屬，溫度，膨脹程度，原理，雙金屬溫度計(jì)，元件，金屬片，組成，金屬片)"。
7) 建立語(yǔ)義索引207，基于領(lǐng)域本體知識(shí)庫(kù)，對(duì)提取的語(yǔ)義向量建立索引。本發(fā)明所采用的語(yǔ)義索引創(chuàng)建的方式不但能節(jié)省空間、提升檢索效率，還能最大限度地保留文檔語(yǔ)義。
圖3示出了基于領(lǐng)域本體進(jìn)行專(zhuān)業(yè)領(lǐng)域知識(shí)査詢(xún)的流程，其中用戶(hù)輸入檢索語(yǔ)句301、分詞、詞性標(biāo)注302、以及本體角色標(biāo)注303與前面本體語(yǔ)義索引處理單元110中的處理過(guò)程類(lèi) 似，所以，此處不再贅述。通過(guò)用戶(hù)輸入檢索語(yǔ)句301 本體角色標(biāo)注303的流程處理后，得到標(biāo)有詞性和角色的分詞詞匯集合。
例如，用戶(hù)輸入自然査詢(xún)語(yǔ)句"能夠測(cè)量人體溫的儀表及生產(chǎn)廠家"，經(jīng)過(guò)分詞、詞性及本體角色標(biāo)注等過(guò)程處理后的結(jié)果是{能夠，v， nullK {測(cè)量，v， ObjectProperty}、 {人，n， X} {體溫，n， X} 、 {的，u， X }、 {儀表，n， yb—Class} 、 {及， c，皿11}、性產(chǎn)廠商，n， ObjectProperty }。
以下是從本體角色非空項(xiàng)判斷304處開(kāi)始的詳細(xì)處理流程
1)本體角色非空項(xiàng)304對(duì)標(biāo)注后的強(qiáng)語(yǔ)義詞匯集進(jìn)行分析，判斷其詞匯集合中是否含有本體概念。
a) 如果本體角色均為空，則利用分詞的詞匯集合訪問(wèn)提取核心詞匯305，然后利用核心詞匯訪問(wèn)全文索引庫(kù)306進(jìn)行全文檢索匹配處理。
例如，"兒童的營(yíng)養(yǎng)健康問(wèn)題"，分詞的詞匯集合為"兒童/的/營(yíng)養(yǎng)/健康/問(wèn)題/" ，提取核心詞匯為"兒童/營(yíng)養(yǎng)/健康/"，利用此核心詞匯集訪問(wèn)全文索引庫(kù)進(jìn)行全文檢
索處理。
b) 如果査詢(xún)語(yǔ)句中含有一個(gè)或一個(gè)以上的本體概念，則進(jìn)行提取強(qiáng)語(yǔ)義詞匯307的處理，然后訪問(wèn)句型模式匹配308。
例如，對(duì)"溫度計(jì)的種類(lèi)有哪些"分詞后"溫度計(jì)/n的/u種類(lèi)/n有/v哪些/r"，對(duì) 其進(jìn)一步進(jìn)行本體角色標(biāo)注并提取強(qiáng)語(yǔ)義詞匯，最后得到"溫度計(jì)/n/C"。其中，需要注意的是，句型模式是根據(jù)領(lǐng)域本體知識(shí)庫(kù)中的概念和各概念之間的相互關(guān)系以及推理規(guī)則等事先建立的一種自定義的句型模式，該句型模式的建立在一定程度上，還必須根據(jù)用戶(hù)需求分析以及在領(lǐng)域?qū)＜业闹笇?dǎo)下制定和定義。句型模式建立的越豐富，智能査詢(xún)的效果越好。
bl)如果含有本體概念的強(qiáng)語(yǔ)義詞匯集與句型模式M匹配成功，則執(zhí)行此步驟，最后形成智能檢索式；
下述是一個(gè)匹配成功的實(shí)施例
例如，用戶(hù)輸入"能夠測(cè)量人體溫的儀表及生產(chǎn)廠家"，經(jīng)過(guò)分詞和提取核心詞匯最后得到的詞匯集是"測(cè)量/人/體溫/儀表/生產(chǎn)廠家"。該檢索語(yǔ)句與句型模式M^目匹配。句型模式M^皮定義為"本體屬性Pl+X+本體類(lèi)概念C+本體屬性P2"，且存在如下關(guān)系C擁有屬性Pl、 P2，其中"X"為任意成分，強(qiáng)語(yǔ)義詞匯集與句型模式匹配的具體對(duì)應(yīng)關(guān)系為" 測(cè)量/ (本體屬性Pl)人/ (X)體溫/ (X)儀表/ (本體概念C)生產(chǎn)廠家/ (本體屬性P2)"
結(jié)合上述的實(shí)施例，符合模式Mi的處理規(guī)則是將儀表(本體類(lèi)C)下測(cè)量(屬性PD 的值包含"人體溫"(X)的所有儀表(本體類(lèi)C)實(shí)例及該儀表(本體類(lèi)C)實(shí)例的生產(chǎn)廠家(屬性P2)的對(duì)應(yīng)值按照一定格式返回，簡(jiǎn)單地說(shuō)就是將滿足測(cè)量人體溫的儀表實(shí)例及其生產(chǎn)廠家按照規(guī)定格式輸出。
當(dāng)句型模式匹配成功后，根據(jù)既定模式下的處理規(guī)則，訪問(wèn)領(lǐng)域本體庫(kù)，經(jīng)過(guò)本體推理，形成符合系統(tǒng)索引格式要求的智能語(yǔ)義檢索式。
檢索式應(yīng)為[RiU (Fl...，F(xiàn)J] U [R2U (Fi，...，F(xiàn)n)] U，...， U [RiU (F丄，F(xiàn)2，， Fk)]。其中，m》l，n》l，k》1， R表示滿足條件的儀表，F(xiàn)表示儀表R對(duì)應(yīng)的一個(gè)或多個(gè)生產(chǎn)廠家。例如，當(dāng)i二l，k二3時(shí)的檢索式應(yīng)為R!U (F!，F(xiàn)2，F(xiàn)3)，即，U,U,。
b2)如果含有本體概念的強(qiáng)語(yǔ)義詞匯集與句型模式匹配失敗，則執(zhí)行此步驟，最后形成擴(kuò)展檢索式。
例如，"溫度計(jì)的種類(lèi)有哪些"，經(jīng)分詞后的詞匯中含有本體概念"溫度計(jì)"，但是在句型模式中沒(méi)有定義；同理，當(dāng)用戶(hù)輸入"光譜儀"，經(jīng)分詞后的詞匯"光譜儀"屬于本體概念，但是在句型模式中也沒(méi)有定義。
當(dāng)模式匹配失敗后，訪問(wèn)領(lǐng)域本體庫(kù)309，進(jìn)行語(yǔ)義擴(kuò)展，形成擴(kuò)展査詢(xún)檢索式。具體處理過(guò)程是將査詢(xún)語(yǔ)句中的強(qiáng)語(yǔ)義詞匯x， y與領(lǐng)域本體庫(kù)309中的相關(guān)概念X， Y進(jìn)行映射，并根據(jù)本體概念間的上下級(jí)關(guān)系、同義關(guān)系，以及其它關(guān)系進(jìn)行適當(dāng)?shù)臇嗽?xún)擴(kuò)展處理。 (X，Xi，...，Xa) U (Y，Yi，...，Yb)，其中a，b為正整數(shù)，例如，X丄為X的同義詞，Y2為概念Y的下位概念，S口， a二l，b二2時(shí)，那么査詢(xún)的檢索式為(X， X工)U (Y， Y工，Y2) ， g卩。XYUXY工UXY2 UX^UX^2。
b3)通過(guò)上述步驟bl)和b2)之后，形成査詢(xún)檢索式311，具體為形成對(duì)應(yīng)的語(yǔ)義査詢(xún) 檢索式和擴(kuò)展査詢(xún)檢索式。利用査詢(xún)檢索式311訪問(wèn)語(yǔ)義索引庫(kù)312，進(jìn)行相應(yīng)的語(yǔ)義査詢(xún)或擴(kuò)展査詢(xún)處理。
2)結(jié)果排序
a)語(yǔ)義距離測(cè)量
al)句型模式匹配成功時(shí)的語(yǔ)義距離測(cè)量算法實(shí)施例參照步驟l)中的bl)所述，對(duì)檢索式中的每一項(xiàng)RF的相關(guān)"語(yǔ)義距離"進(jìn)行計(jì)算，Drf為本體中R和F兩概念間的最短語(yǔ)義距離，其中Drf為正整數(shù)，其取值是將R和F聯(lián)系起來(lái)經(jīng)過(guò)最少本體概念節(jié)點(diǎn)時(shí)，概念連接線的條數(shù)。如圖5所示，有多條語(yǔ)義關(guān)系線可以將A、 B連接起來(lái)，最短只經(jīng)過(guò)兩條連接線、一個(gè)本體節(jié)點(diǎn)即可將二者連接起來(lái)，即Dr產(chǎn)2。 drf為索引庫(kù)中每條記錄的語(yǔ)義向量中的維差，如文檔語(yǔ)義向量I^(aLa2，a3，a4，a5，a6，a7)，其中a^R， a6=F，則dr產(chǎn)3。當(dāng)R或F沒(méi)有在文檔語(yǔ) 義向量中出現(xiàn)時(shí)，則語(yǔ)義距離無(wú)限遠(yuǎn)，實(shí)際計(jì)算時(shí)計(jì)為103，當(dāng)均沒(méi)出現(xiàn)時(shí)，此項(xiàng)drf不做任何計(jì)算。
a2)句型模式匹配失敗時(shí)的語(yǔ)義距離測(cè)量算法當(dāng)用戶(hù)輸入的檢索式中含有本體概念，但是，其強(qiáng)語(yǔ)義詞匯集與本體句型模式匹配失敗時(shí)，語(yǔ)義距離測(cè)量采用下述的方式。實(shí)施例參照步驟l)中的b2)所述，強(qiáng)語(yǔ)義詞匯集可能包含l個(gè)或多個(gè)本體概念詞匯，當(dāng)本體概念數(shù) 量為1時(shí)，査詢(xún)檢索式應(yīng)為XUXiU... UXra，其中，Xl ..X!n為X的擴(kuò)展概念。此時(shí)不涉及語(yǔ) 義距離問(wèn)題，這種情況下，設(shè)定Dr產(chǎn)dr產(chǎn)l。當(dāng)本體核心概念數(shù)量為多個(gè)時(shí)，返回的査詢(xún)檢索式的形式如前面所述為(X，， Xa) U (Y，， Yb) U，， U (Z， Zl ， Zb)，此時(shí)， Drf、 drf的值為任意組合檢索式的概念之間距離的平均值。
b)根據(jù)語(yǔ)義距離進(jìn)行排序計(jì)算
排序計(jì)算的公式為Z=qi* E f 1 (qiAi， B) +q2*f 2 (gl (Drf) ， g2 (drf))。其中A為一個(gè)檢索式形成的多個(gè)檢索向量組成的矩陣，Ai為A中一個(gè)檢索向量，E是在i 為不同值時(shí)所有fl的和，B為文檔語(yǔ)義向量，fi(qiAi，B)表示Ai、 B兩向量的相關(guān)函數(shù)，qi為査詢(xún)擴(kuò)展系數(shù)，qiE(O，l]，如果為原概念，貝Uqfl，如果為同義詞或下位概念等，則根據(jù)査詢(xún)擴(kuò)展策略中不同的相似度設(shè)定査詢(xún)擴(kuò)展系數(shù)qi，如
fl(Ai， B)=qi*(ai+a2+. . . +aj)*(b1+b2+. . . +bk)，其中aj， bk分別為Ai， B兩向量維數(shù)為i時(shí)的概念，當(dāng)且僅當(dāng)aj與bk為同一概念時(shí)，f(A，B)自增ca。
f2(gl，g2)為gl，g2的相似函數(shù)，如，f2(gl，g2) = Eqi/(|gi(Drf)-g2(drf) |+1)。其中qi為與距離Drf對(duì)應(yīng)的語(yǔ)義向量的査詢(xún)擴(kuò)展系數(shù)，gl(Drf)為同一檢索式中不同向量的本體語(yǔ)義距離標(biāo)準(zhǔn)化函數(shù)，如gl(DrfX/Drf。
g2(drf)與gl(Drf)含義雷同，E是對(duì)不同的qi， Drf， drf下式子求和。qi，q2分別為兩函數(shù)fl，f2的權(quán)值。
可以通過(guò)對(duì)qi， q2大小的設(shè)定以及fl， f2， gl， g2等函數(shù)的修改實(shí)現(xiàn)排序方法的調(diào)整。另外可以以此排序算法為內(nèi)核，結(jié)合其它常用的排序方法，能夠達(dá)到更好的效果。
注全文檢索結(jié)果排序根據(jù)事先對(duì)標(biāo)題、摘要、全文等不同匹配區(qū)域設(shè)定的權(quán)值，以及關(guān)鍵詞命中個(gè)數(shù)等信息計(jì)算相似度并排序。具體排序算法不在詳細(xì)敘述。3)將上述處理后的排序結(jié)果返回給用戶(hù)。
盡管上述已經(jīng)詳細(xì)地描述了本發(fā)明，應(yīng)當(dāng)理解本發(fā)明的實(shí)施例僅僅是示范性地圖解了本發(fā)明的原理，在不脫離本發(fā)明構(gòu)思和范圍的情況下，本發(fā)明的實(shí)施例還有各種變化，替代和修改。這些改變都應(yīng)該包含在本發(fā)明的范圍內(nèi)，不應(yīng)被看作與本發(fā)明的精神和范圍的脫離。
權(quán)利要求
1.一種基于領(lǐng)域本體的智能檢索系統(tǒng)，包括用于分析用戶(hù)輸入自然查詢(xún)語(yǔ)句的本體推理模塊，用于創(chuàng)建索引庫(kù)的索引處理模塊，用于進(jìn)行特定查詢(xún)的查詢(xún)處理模塊，以及用于查詢(xún)結(jié)果處理的結(jié)果優(yōu)化排序模塊，其特征在于，所述的系統(tǒng)還包括數(shù)據(jù)資源庫(kù)、領(lǐng)域本體庫(kù)和索引數(shù)據(jù)庫(kù)；
2.權(quán)利要求l所述的基于領(lǐng)域本體的智能檢索系統(tǒng)，其特征在于，所述的本體推理模塊包括分詞預(yù)處理單元和句型模式匹配單元；所述分詞預(yù)處理單元，用于接收用戶(hù)輸入的自然査詢(xún)語(yǔ)句，對(duì)査詢(xún)語(yǔ)句進(jìn)行分詞、詞性標(biāo)注、領(lǐng)域本體角色標(biāo)注等預(yù)處理，去除弱語(yǔ)義詞匯，得到強(qiáng)語(yǔ)義詞匯集合；所述句型模式匹配單元，用于將強(qiáng)語(yǔ)義詞匯集合與事先定義的句型模式進(jìn)行匹配處理，得到新的檢索式；
3.權(quán)利要求l所述的基于領(lǐng)域本體的智能檢索系統(tǒng)，其特征在于，所述的索引處理模塊包括本體語(yǔ)義索弓1處理單元和全文索弓1處理單元；所述本體語(yǔ)義索引處理單元，用于獲取數(shù)據(jù)資源文檔，解析、處理并提取文檔主體內(nèi) 容信息，基于領(lǐng)域本體庫(kù)合成語(yǔ)義向量，建立語(yǔ)義本體索引庫(kù)；所述全文索引處理單元，用于獲取數(shù)據(jù)資源文檔，提取文檔信息，建立全文索引庫(kù)；
4.權(quán)利要求l所述的基于領(lǐng)域本體的智能檢索系統(tǒng)，其特征在于，所述的査詢(xún)處理模塊包括語(yǔ)義査詢(xún)處理單元、擴(kuò)展査詢(xún)處理單元和全文檢索處理單元；所述語(yǔ)義査詢(xún)處理單元，用于基于領(lǐng)域本體概念及概念間關(guān)聯(lián)進(jìn)行專(zhuān)業(yè)領(lǐng)域信息的智能査詢(xún)處理；所述擴(kuò)展査詢(xún)處理單元，用于基于領(lǐng)域本體概念及概念間關(guān)聯(lián)進(jìn)行擴(kuò)展査詢(xún)處理；全文檢索處理單元，用于按照傳統(tǒng)的檢索方式，即按照關(guān)鍵字匹配原理進(jìn)行全文檢索的處理。
5.權(quán)利要求l所述的基于領(lǐng)域本體的智能檢索系統(tǒng)，其特征在于，所述的數(shù)據(jù)資源庫(kù)包括本地領(lǐng)域數(shù)據(jù)庫(kù)內(nèi)的資源或從網(wǎng)上抓取的領(lǐng)域內(nèi)的資源數(shù)據(jù)；
6 根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的智能檢索系統(tǒng)，其特征在于，所述的索引數(shù)據(jù)庫(kù)包括由索引處理模塊建立的本體語(yǔ)義索引庫(kù)和全文索引庫(kù)。
7 一種如權(quán)利要求l所述基于領(lǐng)域本體的智能檢索方法，其特征在于，所述的方法包括以下步驟A. 對(duì)用戶(hù)輸入的自然査詢(xún)語(yǔ)句進(jìn)行分詞、詞性標(biāo)注、并基于領(lǐng)域本體進(jìn)行角色標(biāo)注；B. 分析、判斷上述步驟A中的詞匯集，進(jìn)行本體角色非空項(xiàng)的判斷，并按照一定的規(guī) 則進(jìn)行相應(yīng)的査詢(xún)；C. 對(duì)査詢(xún)結(jié)果進(jìn)行語(yǔ)義距離測(cè)量，按照語(yǔ)義距離值進(jìn)行結(jié)果的優(yōu)化，并將結(jié)果排序輸出，返回給用戶(hù)。
8 根據(jù)權(quán)利要求7所述的方法，其特征在于，步驟B中所述的本體角色非空項(xiàng)的判斷進(jìn)一步包括Bl.如果用戶(hù)輸入的自然査詢(xún)語(yǔ)句中不包括本體概念，則進(jìn)行全文檢索；B2.如果用戶(hù)輸入的自然査詢(xún)語(yǔ)句中包括本體概念，則進(jìn)行本體模式的匹配判斷。
9 根據(jù)權(quán)利要求8所述的方法，其特征在于，步驟B2進(jìn)一步包括 B21.如果本體模式匹配成功，則形成語(yǔ)義査詢(xún)檢索式；B22.如果本體模式匹配成功，則訪問(wèn)領(lǐng)域本體庫(kù)，進(jìn)行語(yǔ)義擴(kuò)展處理，并形成擴(kuò)展査詢(xún)檢索式。
全文摘要
本發(fā)明涉及中文信息檢索(IR)領(lǐng)域，特別涉及一種基于領(lǐng)域本體(Domain ontology)的智能檢索方法，以及包含該方法的智能檢索系統(tǒng)。其中該系統(tǒng)包括用于分析用戶(hù)輸入自然查詢(xún)語(yǔ)句的本體推理模塊，用于創(chuàng)建索引庫(kù)的索引處理模塊，用于進(jìn)行特定查詢(xún)的查詢(xún)處理模塊，以及用于查詢(xún)結(jié)果處理的結(jié)果優(yōu)化排序模塊，所述系統(tǒng)還包括基于某一領(lǐng)域所構(gòu)建的領(lǐng)域本體庫(kù)、數(shù)據(jù)資源庫(kù)、以及索引數(shù)據(jù)庫(kù)。本發(fā)明所述的基于領(lǐng)域本體的智能檢索系統(tǒng)及方法充分利用了領(lǐng)域本體庫(kù)中的概念及其相互關(guān)系，能夠正確理解用戶(hù)需求，優(yōu)化檢索結(jié)果，為用戶(hù)更全、更準(zhǔn)地返回專(zhuān)業(yè)領(lǐng)域信息，能夠顯著提高專(zhuān)業(yè)技術(shù)領(lǐng)域內(nèi)信息檢索的性能。
文檔編號(hào)G06F17/30GK101582073SQ20081030672
公開(kāi)日2009年11月18日申請(qǐng)日期2008年12月31日優(yōu)先權(quán)日2008年12月31日
發(fā)明者鵬劉, 來(lái) 吳, 李春梅, 范書(shū)德, 黃道雄申請(qǐng)人:北京中機(jī)科?？萍及l(fā)展有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳來(lái);劉鵬;李春梅;黃道雄;范書(shū)德
技術(shù)所有人：北京中機(jī)科?？萍及l(fā)展有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

領(lǐng)域本體構(gòu)建方法相關(guān)技術(shù)

領(lǐng)域本體相關(guān)技術(shù)

領(lǐng)域本體構(gòu)建相關(guān)技術(shù)

領(lǐng)域知識(shí)本體模型相關(guān)技術(shù)

領(lǐng)域本體構(gòu)建及其應(yīng)用相關(guān)技術(shù)

本體智能終端相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于領(lǐng)域本體的智能檢索系統(tǒng)及方法