亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于領域本體的智能檢索系統(tǒng)及方法

文檔序號:6472733閱讀:224來源:國知局
專利名稱:一種基于領域本體的智能檢索系統(tǒng)及方法
技術領域
本發(fā)明涉及中文信息檢索(IR)領域,特別涉及一種基于領域本體(Domain ontology )的智能檢索方法,以及包含該方法的智能檢索系統(tǒng)。
背景技術
信息檢索技術的出現(xiàn)是網(wǎng)絡發(fā)展史上的里程碑,它為網(wǎng)絡用戶帶來了極大的便利, Google、百度是這個領域的典型代表。用戶只要輸入檢索詞或檢索語句,信息檢索系統(tǒng)就會 按照一定的排序規(guī)則、為用戶快速地返回包含該檢索詞或檢索語句的所有網(wǎng)頁。因此,對于 信息檢索系統(tǒng)而言,正確理解用戶的檢索需求、優(yōu)化結果排序方式等至關重要。
然而,現(xiàn)有的通用搜索引擎無法準確理解和處理各類信息,特別是專業(yè)領域知識,經(jīng)常 檢索不到、甚至返回大量無關專業(yè)領域信息,系統(tǒng)査全率和査準率不高。主要原因在于
一方面,采取關鍵字匹配方式理解用戶檢索語句。信息檢索系統(tǒng)并不關注用戶輸入的專 業(yè)領域詞匯的概念和語義,只是將分詞后的關鍵詞與索引庫中的索引詞按照字面形式進行直 接匹配。
另一方面,按照檢索相關度對結果進行排序處理,即按照檢索詞和索引詞之間相同的字 或詞的多少進行排序。
為了提高檢索效率, 一些信息檢索系統(tǒng)提出了 "相關搜索"等改進技術,然而,這些技 術仍沒有脫離字面匹配的本質。在人工智能(AI)等領域,本體(ontology)的引入為相關 問題的解決帶來了契機。
(1) 本體是共享概念模型的形式化的、明確的規(guī)范說明(ontology is a formal, explicit specification of a shared conceptualization, studer 1998)。
本體的目標是捕獲相關領域的知識,確定該領域共同認可的詞匯,并明確定義這些詞匯 及詞匯間的相互關系,提供對該領域知識的共同理解,并以規(guī)范化的形式在計算機中加以存 儲。
(2) 規(guī)定了論域。
領域本體以一個特定的領域為描述對象,提供該特定領域的概念定義和概念之間的關系 、主要理論、基本原理,以及領域中發(fā)生的活動等。
(3) 知識表示、共享和重用。共享知識體系的表示是"機器可處理"的語義,它以RDF為基礎,以URI作為命名機制、 以XML為語法,將不同的應用集成在一起,對Web上的數(shù)據(jù)進行抽象表示。本體通過這種通用 框架的表示方式,允許跨越不同應用程序、企業(yè)和團體的邊界進行數(shù)據(jù)的共享和重用。 (4)信息交流的語義基礎。
由本體所提供的領域內(nèi)共同認可的知識體系包括術語集、關系集和規(guī)則集,會為不同主 體提供一種共識,為不同背景和領域下的人、機器、軟件系統(tǒng)等進行信息交流提供了可能。
正是由于以上的特點和優(yōu)勢,所以本體為語義理解、智能檢索等提供了可能。20世紀 90年代,本體技術得到了知識工程、人工智能等多個領域的廣泛關注和研究,并取得了一定 的成果。
然而,目前構建較為詳細的、囊括所有領域知識體系的通用本體,并基于這個通用本體 建立信息檢索系統(tǒng)并不現(xiàn)實。因此,有必要從某一領域出發(fā),構建領域本體,實現(xiàn)對該專業(yè) 領域知識的智能檢索。目前,相關智能檢索技術中尚不存在基于領域本體的用戶輸入的句型 模式匹配方法和語義距離測量的結果優(yōu)化排序方法,且尚不存在包含該方法的智能檢索系統(tǒng) ,導致智能檢索系統(tǒng)面臨一系列技術問題,并未如預期一樣在檢索性能上比傳統(tǒng)檢索系統(tǒng)有 明顯的提高和改善。

發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種基于領域本體實現(xiàn)智能檢索的系統(tǒng),旨在正確理解用戶 需求,提供高效的專業(yè)領域信息服務,改進現(xiàn)有信息檢索系統(tǒng)的不足。
本發(fā)明的另一個目的還在于提供一種用于上述基于領域本體的智能檢索系統(tǒng)的句型模式 匹配方法和語義距離測量等方法,利用該方法可以正確理解用戶輸入的自然査詢語句,對査 詢結果進行語義相關度的計算,為用戶返回最相關的專業(yè)領域信息。
為達到上述發(fā)明目的,本發(fā)明是通過下述技術方案實現(xiàn)的
本發(fā)明實施例公開了一種基于領域本體的智能檢索系統(tǒng),其特征在于,該系統(tǒng)包括用 于分析用戶輸入自然査詢語句的本體推理模塊,用于創(chuàng)建索引庫的索引處理模塊,用于進行 特定査詢的査詢處理模塊,以及用于査詢結果處理的結果優(yōu)化排序模塊,所述系統(tǒng)還包括 基于某一領域所構建的領域本體庫、數(shù)據(jù)資源庫、以及索引數(shù)據(jù)庫;
其中,本體推理模塊包括分詞預處理單元和句型模式匹配單元;
分詞預處理單元,用于接收用戶輸入的自然査詢語句,對査詢語句進行分詞、詞性標注 、領域本體角色標注等預處理,去除弱語義詞匯,得到強語義詞匯集合;
句型模式匹配單元,用于將強語義詞匯集合與事先定義的句型模式進行匹配處理,得到新的檢索式;
索弓1處理模塊包括本體語義索弓1處理單元和全文索弓1處理單元;
本體語義索引處理單元,用于獲取數(shù)據(jù)資源文檔,解析、處理并提取文檔主體內(nèi)容信息
,基于領域本體庫合成文檔語義向量,建立基于本體的語義索引庫;
全文索引處理單元,用于獲取數(shù)據(jù)資源文檔,提取文檔信息,建立全文索引庫; 査詢處理模塊包括語義査詢處理單元、擴展査詢處理單元和全文檢索處理單元; 語義査詢處理單元,用于基于領域本體概念及概念間關聯(lián)進行專業(yè)領域信息的智能査詢
處理;
擴展査詢處理單元,用于基于領域本體概念及概念間關聯(lián)進行擴展査詢處理; 全文檢索處理單元,用于按照傳統(tǒng)的檢索方式,即按照關鍵字匹配原理進行全文檢索的 處理;
數(shù)據(jù)資源庫,包括本地領域數(shù)據(jù)庫內(nèi)的資源或從網(wǎng)上抓取的領域內(nèi)的資源數(shù)據(jù); 索引數(shù)據(jù)庫,包括由索引處理模塊建立的本體語義索引庫和全文索引庫。 本發(fā)明實施例還公開了一種基于領域本體的智能檢索方法,其特征在于,該方法包括下 述步驟
A. 對用戶輸入的自然査詢語句進行分詞、詞性標注,并基于領域本體進行角色標注;
B. 分析、判斷上述步驟A中的詞匯集,進行本體角色非空項的判斷,并按照一定的規(guī)則 進行相應的査詢;
C. 對査詢結果進行語義距離測量,按照語義距離值進行結果的優(yōu)化,并將檢索結果排 序輸出,返回給用戶。
其中上述步驟B所述的本體角色非空項的判斷進一步包括
Bl.如果用戶輸入的自然査詢語句中不包括本體概念,則進行全文檢索;
B2.如果用戶輸入的自然査詢語句中包括本體概念,則進行句型模式的匹配判斷。
其中上述步驟B2所述的句型模式匹配判斷進一步包括
B21.如果句型模式匹配成功,則進行語義査詢;
B22.如果句型模式匹配成功,則訪問領域本體庫,進行適當?shù)恼Z義擴展處理,進行擴 展査詢。
因此,本發(fā)明實施例提供的基于領域本體的智能檢索系統(tǒng)和方法,具有以下的優(yōu)點本 發(fā)明所述的基于領域本體的智能檢索系統(tǒng)及方法充分利用了領域本體庫中的概念及其相互關 系,能夠正確理解用戶需求,優(yōu)化檢索結果,為用戶更全、更準地返回專業(yè)領域信息,能夠顯著提高專業(yè)技術領域內(nèi)信息檢索的性能。


根據(jù)下述附圖及實施例的描述,可以充分說明本發(fā)明的特征及優(yōu)點。在附圖中 圖1是本發(fā)明實施例的一種基于領域本體的智能檢索系統(tǒng)的結構框圖; 圖2是本發(fā)明實施例中的語義本體索引處理單元創(chuàng)建語義索引數(shù)據(jù)庫的流程圖; 圖3是圖l所示的本發(fā)明實施例的智能檢索系統(tǒng)為用戶執(zhí)行專業(yè)領域知識査詢過程的流 程圖4是本發(fā)明實施例所采用的檢索方式圖;以及
圖5是本發(fā)明實施例的領域本體概念間語義的距離示意圖。
具體實施例方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,以下參照附圖以及實施例,對本發(fā)明作 進一步詳細描述。應當理解,下述所舉的實施例僅被用作解釋本發(fā)明、并不用于限制本發(fā)明 ,即本發(fā)明的保護范圍不限于下述的實施例,相反,根據(jù)本發(fā)明的構思,本領域普通技術人 員可以進行適當更改,這些改變可以落入權利要求書所限定的發(fā)明范圍之內(nèi)。
本發(fā)明的基本思想是本發(fā)明的一個實施例基于領域本體庫提供了多種檢索方式,如圖
4所示,包括全文檢索402、擴展檢索403和語義檢索404。如果用戶輸入的詞匯中不包含本 體概念,則進行全文檢索;否則結合領域本體對用戶輸入的自然査詢語句進行句型模式匹配 處理。如果匹配成功,則訪問語義本體索引庫進行語義檢索;如果匹配不成功,則基于領域 本體庫進行適當?shù)恼Z義擴展査詢。最后,對査詢結果進行語義距離測量,并將結果優(yōu)化排序 并輸出,為用戶返回專業(yè)領域信息。
圖l示出的本發(fā)明提供的基于領域本體的智能檢索系統(tǒng)包括本體推理模塊102、索引處 理模塊109、査詢處理模塊115和結果優(yōu)化排序模塊119,以及領域本體庫105、數(shù)據(jù)資源庫 106和索引數(shù)據(jù)庫112。
圖1中的索引處理模塊109針對數(shù)據(jù)資源庫106中的本地數(shù)據(jù)資源107或網(wǎng)上資源108,并 結合領域本體庫105,通過本體語義索引處理單元110和全文索引處理單元111生成索引數(shù)據(jù) 庫112;本體推理模塊102接收用戶101輸入的自然語言査詢語句,結合領域本體庫105,使用 分詞預處理單元103和句型模式匹配單元104生成相應的檢索式。接著,將檢索式傳入索引數(shù) 據(jù)庫112 。索引數(shù)據(jù)庫112接收檢索式,按照對應的規(guī)則訪問相應的本體語義索引庫113或全 文索引庫114,然后,通過査詢處理模塊115中的語義査詢處理單元116、擴展査詢處理單元 117和全文檢索處理單元118進行相應的査詢處理,最后,通過結果優(yōu)化排序模塊119優(yōu)化檢索結果,將査詢結果返回給用戶IOI。
圖1中的本發(fā)明實施例的領域本體庫105采用儀器儀表領域的數(shù)據(jù)進行分析和構建,根據(jù) 本發(fā)明開發(fā)了一種針對結構化數(shù)據(jù)自動構建領域本體庫的工具,該工具能自動進行領域本體 知識庫的構建,極大地提高了領域本體庫構建的效率。
圖l中的全文索引處理單元lll采用一般的處理方法和技術,對所要處理數(shù)據(jù)資源的標題 、摘要、全文等建立索引,以便檢索時提高系統(tǒng)的査全率,由于相關技術已經(jīng)非常成熟,在 此不再詳述。
圖2示出了圖1中本體語義索引處理單元110的處理流程,具體步驟詳述如下
1) 文檔獲取201,用于獲取專業(yè)領域內(nèi)的系統(tǒng)數(shù)據(jù)資源,此處文檔可以包括html、 asp
、pdf、 doc、 txt、 excel、卯t、 ps、圖片等多種格式,Web頁面信息的獲取是通過網(wǎng)絡爬蟲 進行抓取的。
例如,本發(fā)明的實施例采用heritrix爬蟲框架,根據(jù)用戶設定的種子去請求一個頁面, 并將有效的URL添加到隊列中等候處理,然后提取隊列中等候的第一個鏈接對其進行頁面解 析,并根據(jù)user-defined-extractor自定義的抽取器提取出有效的文本信息,以鏡像存儲結 構存儲到本地。同時將頁面中有效的URL再次加入隊列等候處理,如此不斷地分析下去,直 到最后一個鏈接無任何有效鏈接為止,完成一次任務的抓取,如此不斷循環(huán)往復,直至抓取 完所需的預定網(wǎng)上資源。
本地專業(yè)領域數(shù)據(jù)庫內(nèi)的數(shù)據(jù)可以直接從圖1的本地數(shù)據(jù)資源107中提取,實施例采用國 家基礎條件重點平臺項目"先進制造與自動化科學數(shù)據(jù)共享網(wǎng)"中的儀器儀表數(shù)據(jù)庫中的數(shù) 據(jù);對于領域本體文件,可以訪問事先創(chuàng)建的領域本體庫,進行直接獲取。
2) 內(nèi)容解析202,對通過步驟l)獲得的文檔進行解析,S卩通過對文檔內(nèi)容進行格式 解析,獲取各類文檔中的具體內(nèi)容。具體流程為首先以流的方式把文件讀取到內(nèi)存中,然 后對各類型文件的存儲格式進行分析,最后按照各自的存儲格式從內(nèi)存中提取出文件的有效 信息。
3) 分詞、詞性標注203,這一步對步驟2)中的解析文檔進行分詞處理,以及詞性的標 注。具體是通過系統(tǒng)的分詞工具對文檔中詞匯進行分割,并標注出各個詞匯的詞性,特別是 針對專業(yè)領域詞匯的分詞做了特定的處理。其中名詞、動詞、數(shù)詞、形容詞、前置詞、助詞 、連詞、標點等詞性標記分別為n、 v、 m、 a、 p、 u、 c、 wp等符號。
例如,針對以下文檔內(nèi)容"雙金屬溫度計是利用兩種不同金屬在溫度改變時膨脹程度 不同的原理工作的。工業(yè)用雙金屬溫度計主要的元件是一個用兩種或多種金屬片疊壓在一起組成的多層金屬片。"進行分詞和詞性的標注,最后的處理結果是"雙金屬溫度計/n/ 是/v利用/v兩種/m不同/a金屬/n在/p溫度/n改變/v時/n膨脹程度/n不 同/a的/u原理/n工作/v 的/u 。 /wp工業(yè)/n用/p雙金屬溫度計/n主要/b 的/u元件/n是/v —個/m用/p兩種/m或/c多種/m金屬片/n疊壓/v在/p 一起/nl組成/v 的/u多/a層/q金屬片/n 。 /wp"。
4) 本體角色標注204,對詞匯在本體中所充當?shù)慕巧M行分析并標注,如本體類概念( Class)標記為C、 X寸象屬性(ObjectProperty)標記為OP、數(shù)據(jù)屬性(DatatypeProperty) 標記為DP、本體實例(Individuals)標記為I等的標注。另外,根據(jù)需要也可以進行更詳細 標注,如儀表實例(yb—Individuals)標記為yb—I、標準實例(bz— Individuals)標記為 bz—I等。
例如,將上述步驟3)的結果進一步進行本體角色的判斷,最后標注為"雙金屬溫度
計/n/yb—C 是/v/null 利用/v/0P兩種/m/nu11 不同/a/null 金屬/n/C在/p/nul1 溫度/n/DP改變/v/nu11 時/n/null 膨脹程度/n/DP不同/a/nu11 的/u/null 原理 /n/DP 工作/v/nu11 的/u/null 。 /wp/nul1 工業(yè)/n/nu11 用/p/null 雙金屬溫度計 /n/yb—C 主要/b/nu11 的/u/null 元件/n/C 是/v/null —個/m/nu11 用/p/null 兩 種/m/null 或/c/nul1 多種/m/null 金屬片/n/C 疊壓/v/nu11 在/p/null —起 /nl/nul1 組成/v/0P 的/u/null 多/a/nul1 層/q/null 金屬片/n/C 。 /wp/null"。
5) 提取核心詞匯205,此步是針對步驟4)的標注結果,將其中的本體角色為空的詞匯 去除,保留本體角色為非空詞匯的過程。 一般情況下,如果文檔中某個詞匯沒有被收錄到該 領域的領域本體庫之中,則該詞匯對于領域專業(yè)信息檢索過程而言,基本為干擾信息或不相 干信息,因此,為提高專業(yè)領域檢索的效率,不必為該詞創(chuàng)建索引信息。
對步驟4)提取核心詞匯如下所示"雙金屬溫度計/n/yb—C利用/v/0P金屬/n/C 溫度/n/DP膨脹程度/n/DP原理/n/DP雙金屬溫度計/n/yb—C元件/n/C金屬片/n/C 組成/v/0P金屬片/n/C"。
6) 合成語義向量206,將文檔中所有在領域本體中出現(xiàn)的概念,即步驟5)提取的核心 詞匯合成語義向量,中間允許同一概念出現(xiàn)多次,不同的位置對最終文檔相似度的計算結果 會有不同的影響。
將步驟5)中的核心詞匯合成語義向量后的結果是"(雙金屬溫度計,利用,金屬, 溫度,膨脹程度,原理,雙金屬溫度計,元件,金屬片,組成,金屬片)"。
7) 建立語義索引207,基于領域本體知識庫,對提取的語義向量建立索引。本發(fā)明所采用的語義索引創(chuàng)建的方式不但能節(jié)省空間、提升檢索效率,還能最大限度地 保留文檔語義。
圖3示出了基于領域本體進行專業(yè)領域知識査詢的流程,其中用戶輸入檢索語句301、分 詞、詞性標注302、以及本體角色標注303與前面本體語義索引處理單元110中的處理過程類 似,所以,此處不再贅述。通過用戶輸入檢索語句301 本體角色標注303的流程處理后,得 到標有詞性和角色的分詞詞匯集合。
例如,用戶輸入自然査詢語句"能夠測量人體溫的儀表及生產(chǎn)廠家",經(jīng)過分詞、詞 性及本體角色標注等過程處理后的結果是{能夠,v, nullK {測量,v, ObjectProperty}、 {人,n, X} {體溫,n, X} 、 {的,u, X }、 {儀表,n, yb—Class} 、 {及, c, 皿11}、 性產(chǎn)廠商,n, ObjectProperty }。
以下是從本體角色非空項判斷304處開始的詳細處理流程
1)本體角色非空項304對標注后的強語義詞匯集進行分析,判斷其詞匯集合中是否含有 本體概念。
a) 如果本體角色均為空,則利用分詞的詞匯集合訪問提取核心詞匯305,然后利用核心 詞匯訪問全文索引庫306進行全文檢索匹配處理。
例如,"兒童的營養(yǎng)健康問題",分詞的詞匯集合為"兒童/的/營養(yǎng)/健康/問題/" ,提取核心詞匯為"兒童/營養(yǎng)/健康/",利用此核心詞匯集訪問全文索引庫進行全文檢
索處理。
b) 如果査詢語句中含有一個或一個以上的本體概念,則進行提取強語義詞匯307的處理 ,然后訪問句型模式匹配308。
例如,對"溫度計的種類有哪些"分詞后"溫度計/n的/u種類/n有/v哪些/r",對 其進一步進行本體角色標注并提取強語義詞匯,最后得到"溫度計/n/C"。其中,需要注意 的是,句型模式是根據(jù)領域本體知識庫中的概念和各概念之間的相互關系以及推理規(guī)則等事 先建立的一種自定義的句型模式,該句型模式的建立在一定程度上,還必須根據(jù)用戶需求分 析以及在領域專家的指導下制定和定義。句型模式建立的越豐富,智能査詢的效果越好。
bl)如果含有本體概念的強語義詞匯集與句型模式M匹配成功,則執(zhí)行此步驟,最后形 成智能檢索式;
下述是一個匹配成功的實施例
例如,用戶輸入"能夠測量人體溫的儀表及生產(chǎn)廠家",經(jīng)過分詞和提取核心詞匯最后 得到的詞匯集是"測量/人/體溫/儀表/生產(chǎn)廠家"。該檢索語句與句型模式M^目匹配。句型模式M^皮定義為"本體屬性Pl+X+本體類概念C+本體屬性P2",且存在如下關系C擁有 屬性Pl、 P2,其中"X"為任意成分,強語義詞匯集與句型模式匹配的具體對應關系為" 測量/ (本體屬性Pl)人/ (X)體溫/ (X)儀表/ (本體概念C)生產(chǎn)廠家/ (本體屬性P2)"
結合上述的實施例,符合模式Mi的處理規(guī)則是將儀表(本體類C)下測量(屬性PD 的值包含"人體溫"(X)的所有儀表(本體類C)實例及該儀表(本體類C)實例的生產(chǎn)廠 家(屬性P2)的對應值按照一定格式返回,簡單地說就是將滿足測量人體溫的儀表實例及其 生產(chǎn)廠家按照規(guī)定格式輸出。
當句型模式匹配成功后,根據(jù)既定模式下的處理規(guī)則,訪問領域本體庫,經(jīng)過本體推理 ,形成符合系統(tǒng)索引格式要求的智能語義檢索式。
檢索式應為[RiU (Fl...,F(xiàn)J] U [R2U (Fi,...,F(xiàn)n)] U,..., U [RiU (F丄,F(xiàn)2, , Fk)]。 其中,m》l,n》l,k》1, R表示滿足條件的儀表,F(xiàn)表示儀表R對應的一個或多個生產(chǎn)廠家。 例如,當i二l,k二3時的檢索式應為R!U (F!,F(xiàn)2,F(xiàn)3),即,U,U,。
b2)如果含有本體概念的強語義詞匯集與句型模式匹配失敗,則執(zhí)行此步驟,最后形成 擴展檢索式。
例如,"溫度計的種類有哪些",經(jīng)分詞后的詞匯中含有本體概念"溫度計",但是在 句型模式中沒有定義;同理,當用戶輸入"光譜儀",經(jīng)分詞后的詞匯"光譜儀"屬于本體 概念,但是在句型模式中也沒有定義。
當模式匹配失敗后,訪問領域本體庫309,進行語義擴展,形成擴展査詢檢索式。具體 處理過程是將査詢語句中的強語義詞匯x, y與領域本體庫309中的相關概念X, Y進行映射, 并根據(jù)本體概念間的上下級關系、同義關系,以及其它關系進行適當?shù)臇嗽償U展處理。 (X,Xi,...,Xa) U (Y,Yi,...,Yb),其中a,b為正整數(shù),例如,X丄為X的同義詞,Y2為概念Y的 下位概念,S口, a二l,b二2時,那么査詢的檢索式為(X, X工)U (Y, Y工,Y2) , g卩。XYUXY工UXY2 UX^UX^2。
b3)通過上述步驟bl)和b2)之后,形成査詢檢索式311,具體為形成對應的語義査詢 檢索式和擴展査詢檢索式。利用査詢檢索式311訪問語義索引庫312,進行相應的語義査詢或 擴展査詢處理。
2)結果排序
a)語義距離測量
al)句型模式匹配成功時的語義距離測量算法實施例參照步驟l)中的bl)所述,對檢索式中的每一項RF的相關"語義距離"進行計算,Drf為本體中R和F兩概念間的最短語義 距離,其中Drf為正整數(shù),其取值是將R和F聯(lián)系起來經(jīng)過最少本體概念節(jié)點時,概念連接線 的條數(shù)。如圖5所示,有多條語義關系線可以將A、 B連接起來,最短只經(jīng)過兩條連接線、一 個本體節(jié)點即可將二者連接起來,即Dr產(chǎn)2。 drf為索引庫中每條記錄的語義向量中的維差, 如文檔語義向量I^(aLa2,a3,a4,a5,a6,a7),其中a^R, a6=F,則dr產(chǎn)3。當R或F沒有在文檔語 義向量中出現(xiàn)時,則語義距離無限遠,實際計算時計為103,當均沒出現(xiàn)時,此項drf不做任 何計算。
a2)句型模式匹配失敗時的語義距離測量算法當用戶輸入的檢索式中含有本體概念, 但是,其強語義詞匯集與本體句型模式匹配失敗時,語義距離測量采用下述的方式。實施例 參照步驟l)中的b2)所述,強語義詞匯集可能包含l個或多個本體概念詞匯,當本體概念數(shù) 量為1時,査詢檢索式應為XUXiU... UXra,其中,Xl ..X!n為X的擴展概念。此時不涉及語 義距離問題,這種情況下,設定Dr產(chǎn)dr產(chǎn)l。當本體核心概念數(shù)量為多個時,返回的査詢檢索 式的形式如前面所述為(X, , Xa) U (Y, , Yb) U, , U (Z, Zl , Zb),此時, Drf、 drf的值為任意組合檢索式的概念之間距離的平均值。
b)根據(jù)語義距離進行排序計算
排序計算的公式為Z=qi* E f 1 (qiAi, B) +q2*f 2 (gl (Drf) , g2 (drf))。 其中A為一個檢索式形成的多個檢索向量組成的矩陣,Ai為A中一個檢索向量,E是在i 為不同值時所有fl的和,B為文檔語義向量,fi(qiAi,B)表示Ai、 B兩向量的相關函數(shù),qi為査 詢擴展系數(shù),qiE(O,l],如果為原概念,貝Uqfl,如果為同義詞或下位概念等,則根據(jù)査 詢擴展策略中不同的相似度設定査詢擴展系數(shù)qi,如
fl(Ai, B)=qi*(ai+a2+. . . +aj)*(b1+b2+. . . +bk),其中aj, bk分別為Ai, B兩向量維數(shù)為i時的概念 ,當且僅當aj與bk為同一概念時,f(A,B)自增ca。
f2(gl,g2)為gl,g2的相似函數(shù),如,f2(gl,g2) = Eqi/(|gi(Drf)-g2(drf) |+1)。其中qi為與 距離Drf對應的語義向量的査詢擴展系數(shù),gl(Drf)為同一檢索式中不同向量的本體語義距離 標準化函數(shù),如gl(DrfX/Drf。
g2(drf)與gl(Drf)含義雷同,E是對不同的qi, Drf, drf下式子 求和。qi,q2分別為兩函數(shù)fl,f2的權值。
可以通過對qi, q2大小的設定以及fl, f2, gl, g2等函數(shù)的修改實現(xiàn)排序方法的調(diào)整。另外可 以以此排序算法為內(nèi)核,結合其它常用的排序方法,能夠達到更好的效果。
注全文檢索結果排序根據(jù)事先對標題、摘要、全文等不同匹配區(qū)域設定的權值,以 及關鍵詞命中個數(shù)等信息計算相似度并排序。具體排序算法不在詳細敘述。3)將上述處理后的排序結果返回給用戶。
盡管上述已經(jīng)詳細地描述了本發(fā)明,應當理解本發(fā)明的實施例僅僅是示范性地圖解了本 發(fā)明的原理,在不脫離本發(fā)明構思和范圍的情況下,本發(fā)明的實施例還有各種變化,替代和 修改。這些改變都應該包含在本發(fā)明的范圍內(nèi),不應被看作與本發(fā)明的精神和范圍的脫離。
權利要求
1.一種基于領域本體的智能檢索系統(tǒng),包括用于分析用戶輸入自然查詢語句的本體推理模塊,用于創(chuàng)建索引庫的索引處理模塊,用于進行特定查詢的查詢處理模塊,以及用于查詢結果處理的結果優(yōu)化排序模塊,其特征在于,所述的系統(tǒng)還包括數(shù)據(jù)資源庫、領域本體庫和索引數(shù)據(jù)庫;
2.權利要求l所述的基于領域本體的智能檢索系統(tǒng),其特征在于 ,所述的本體推理模塊包括分詞預處理單元和句型模式匹配單元;所述分詞預處理單元,用于接收用戶輸入的自然査詢語句,對査詢語句進行分詞、詞 性標注、領域本體角色標注等預處理,去除弱語義詞匯,得到強語義詞匯集合;所述句型模式匹配單元,用于將強語義詞匯集合與事先定義的句型模式進行匹配處理 ,得到新的檢索式;
3.權利要求l所述的基于領域本體的智能檢索系統(tǒng),其特征在于 ,所述的索引處理模塊包括本體語義索弓1處理單元和全文索弓1處理單元;所述本體語義索引處理單元,用于獲取數(shù)據(jù)資源文檔,解析、處理并提取文檔主體內(nèi) 容信息,基于領域本體庫合成語義向量,建立語義本體索引庫;所述全文索引處理單元,用于獲取數(shù)據(jù)資源文檔,提取文檔信息,建立全文索引庫;
4.權利要求l所述的基于領域本體的智能檢索系統(tǒng),其特征在于 ,所述的査詢處理模塊包括語義査詢處理單元、擴展査詢處理單元和全文檢索處理單元;所述語義査詢處理單元,用于基于領域本體概念及概念間關聯(lián)進行專業(yè)領域信息的智 能査詢處理;所述擴展査詢處理單元,用于基于領域本體概念及概念間關聯(lián)進行擴展査詢處理; 全文檢索處理單元,用于按照傳統(tǒng)的檢索方式,即按照關鍵字匹配原理進行全文檢索 的處理。
5.權利要求l所述的基于領域本體的智能檢索系統(tǒng),其特征在于 ,所述的數(shù)據(jù)資源庫包括本地領域數(shù)據(jù)庫內(nèi)的資源或從網(wǎng)上抓取的領域內(nèi)的資源數(shù)據(jù);
6 根據(jù)權利要求l所述的基于領域本體的智能檢索系統(tǒng),其特征在于 ,所述的索引數(shù)據(jù)庫包括由索引處理模塊建立的本體語義索引庫和全文索引庫。
7 一種如權利要求l所述基于領域本體的智能檢索方法,其特征在于 ,所述的方法包括以下步驟A. 對用戶輸入的自然査詢語句進行分詞、詞性標注、并基于領域本體進行角色標注;B. 分析、判斷上述步驟A中的詞匯集,進行本體角色非空項的判斷,并按照一定的規(guī) 則進行相應的査詢;C. 對査詢結果進行語義距離測量,按照語義距離值進行結果的優(yōu)化,并將結果排序輸 出,返回給用戶。
8 根據(jù)權利要求7所述的方法,其特征在于,步驟B中所述的本體角 色非空項的判斷進一步包括Bl.如果用戶輸入的自然査詢語句中不包括本體概念,則進行全文檢索;B2.如果用戶輸入的自然査詢語句中包括本體概念,則進行本體模式的匹配判斷。
9 根據(jù)權利要求8所述的方法,其特征在于,步驟B2進一步包括 B21.如果本體模式匹配成功,則形成語義査詢檢索式;B22.如果本體模式匹配成功,則訪問領域本體庫,進行語義擴展處理,并形成擴展査 詢檢索式。
全文摘要
本發(fā)明涉及中文信息檢索(IR)領域,特別涉及一種基于領域本體(Domain ontology)的智能檢索方法,以及包含該方法的智能檢索系統(tǒng)。其中該系統(tǒng)包括用于分析用戶輸入自然查詢語句的本體推理模塊,用于創(chuàng)建索引庫的索引處理模塊,用于進行特定查詢的查詢處理模塊,以及用于查詢結果處理的結果優(yōu)化排序模塊,所述系統(tǒng)還包括基于某一領域所構建的領域本體庫、數(shù)據(jù)資源庫、以及索引數(shù)據(jù)庫。本發(fā)明所述的基于領域本體的智能檢索系統(tǒng)及方法充分利用了領域本體庫中的概念及其相互關系,能夠正確理解用戶需求,優(yōu)化檢索結果,為用戶更全、更準地返回專業(yè)領域信息,能夠顯著提高專業(yè)技術領域內(nèi)信息檢索的性能。
文檔編號G06F17/30GK101582073SQ20081030672
公開日2009年11月18日 申請日期2008年12月31日 優(yōu)先權日2008年12月31日
發(fā)明者鵬 劉, 來 吳, 李春梅, 范書德, 黃道雄 申請人:北京中機科??萍及l(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1