專利名稱:基于領(lǐng)域本體的信息檢索優(yōu)化方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種網(wǎng)絡(luò)技術(shù),具體來說是基于搜索引擎的信息檢索方法。
背景技術(shù):
人們從網(wǎng)絡(luò)上獲取信息的主要手段是使用搜索工具,如Google、百度、雅虎等。搜 索引擎的工作原理基本包括三個過程(1)從互聯(lián)網(wǎng)上搜集信息,通過用網(wǎng)絡(luò)蜘蛛定期對 互聯(lián)網(wǎng)上所有網(wǎng)站網(wǎng)頁的信息進行抓取。(2)整理信息并建立索引數(shù)據(jù)庫由分析索引系 統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁所在網(wǎng)址鏈接、編碼類型、頁面內(nèi)容包含 的關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等信息,根據(jù)一定的相關(guān)度 算法進行計算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要 性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。(3)在索引數(shù)據(jù)庫中搜索排序、接受查詢 當(dāng)用戶在搜索引擎的界面輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符 合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁,按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后, 由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址、頁面內(nèi)容摘要等內(nèi)容,組織起來返回給用戶。目前的搜索引擎大多是基于關(guān)鍵字匹配的搜索引擎。然而,這些搜索引擎很少具 有語義推理能力。Google雖然采用了一些自然語言處理技術(shù),例如,同義詞擴展,但是它并 不能解析概念之間的語義關(guān)系,這樣在一定程度上導(dǎo)致了查準(zhǔn)率的降低,使得查詢返回結(jié) 果并不是用戶所滿意的信息。另一方面,用戶的查詢很大程度上依賴于某個專業(yè)領(lǐng)域,如海 洋領(lǐng)域。例如,假定用戶想搜索海洋領(lǐng)域有關(guān)“DIP(Dissolved inorganic phosphorus溶 解無機磷)”的信息,其查詢結(jié)果如圖4所示,通常會獲得大量其它領(lǐng)域的“DIP”信息,如微 電子領(lǐng)域的“Dual Inline Package”,即雙列直插式封裝技術(shù)。由于這些是與用戶的目的不 相關(guān)的無用信息,用戶對這樣的結(jié)果顯然是不滿意的?!氨倔w(Ontology)”作為“共享概念模型的明確的形式化規(guī)范說明”,是通過抽象 出客觀世界中一些現(xiàn)象的相關(guān)概念而得到的模型,概念模型表現(xiàn)的含義獨立于具體的環(huán)境 狀態(tài)。本體體現(xiàn)的是共同認(rèn)可的知識,反映的是相關(guān)領(lǐng)域內(nèi)公認(rèn)的概念集,因此本體提供了 對領(lǐng)域知識的共同理解與描述,可以更好地用于共享、交流和重用。構(gòu)成本體的概念及其之 間的關(guān)系是經(jīng)過精確定義的,運用本體可以消除一詞多義、多詞一義和詞義含糊等現(xiàn)象,從 而完成對領(lǐng)域知識清晰、確切、完整的定義與描述。本體研究的目標(biāo)是獲取一個知識表達方 法,使得機器可以像人類一樣共享和處理信息。目前,本體技術(shù)被大量應(yīng)用于知識表示、信 息檢索等領(lǐng)域。
發(fā)明內(nèi)容
為了克服現(xiàn)有搜索引擎在語義檢索上的不足,本發(fā)明提供了一種基于領(lǐng)域本體的 信息檢索優(yōu)化方法。本發(fā)明的技術(shù)方案為一種基于領(lǐng)域本體的信息檢索優(yōu)化方法,其步驟如下(1)通過檢索系統(tǒng)的檢索界面,獲取用戶提交的查詢關(guān)鍵字;
(2)在用戶期望的領(lǐng)域,根據(jù)已經(jīng)建立的領(lǐng)域本體,對用戶提交的查詢關(guān)鍵字通過 本體推理進行語義擴展,得到一組或多組新的查詢字符串;(3)將擴展后的查詢字符串提交給一個或多個搜索引擎進行檢索;(4)對各搜索引擎的返回結(jié)果進行去重、排序整合;(5)將最終結(jié)果通過檢索界面顯示給用戶。上述步驟(2)中基于領(lǐng)域本體的語義擴展方式包括如下方式中的一種、兩種或全 部①基于is-a關(guān)系的優(yōu)化方法Is-a關(guān)系(繼承關(guān)系)顯示了概念的分類,即父概念的實例等于子概念實例的總 和。在子概念上添加了一些約束,因此子概念也稱為父概念的特殊化。一個概念與其直接 父概念或子概念在同一個文檔中出現(xiàn)的幾率是較高的。因此,當(dāng)搜索關(guān)于某個概念A(yù)的文 檔時,可以利用A的父概念P或子概念C作為約束來提高搜索的查準(zhǔn)率。于是,可以將一個 概念優(yōu)化成概念本身和它的父概念或子概念的查詢對。②基于part-of關(guān)系的優(yōu)化方法Part-of表示整體-部分關(guān)系,用來描述一個概念與其部分概念之間的相互關(guān)系。 一個概念的組成部分也與此概念所屬的領(lǐng)域緊密相關(guān)。因此,與部分概念相匹配的文檔通 常也同其整體概念相關(guān)聯(lián)。于是,可以將一個概念優(yōu)化成概念本身及其部分概念的查詢對。③基于equivalent-class關(guān)系的優(yōu)化方法Equivalent-class(等價類)關(guān)系用于處理領(lǐng)域知識中的同義詞現(xiàn)象。利用 equivalent-class關(guān)系,用戶查詢中的概念可以映射成與其等價的同義詞。這樣,可以提高 信息檢索的查準(zhǔn)率。而且,equivalent-class關(guān)系通常作為前兩種優(yōu)化方法的輔助方法。所述查詢對內(nèi)的概念之間為“與”或者“或,,的邏輯關(guān)系,“與”可以提高查詢準(zhǔn)確 率,“或”能夠提高查全率。上述步驟(4)中,對各搜索引擎的返回結(jié)果進行去重、排序整合,可以采用的算法 如下(1)對搜索結(jié)果的URL進行處理,截取“#”之前的URL字符串作為最終的鏈接地 址;若存在MD5 (URLa) = MD5 (URLb),則認(rèn)為URLa及URLb對應(yīng)的頁面為重復(fù)頁面,去重;(2)排序算法考慮兩個方面①查詢字符串中各概念的語義距離Dist (Ci, Cj),其中Ci與Cj為查詢字符串中的 兩個概念,
權(quán)利要求
1.一種基于領(lǐng)域本體的信息檢索優(yōu)化方法,其步驟如下(1)通過檢索系統(tǒng)的檢索界面,獲取用戶提交的查詢關(guān)鍵字;(2)在用戶期望的領(lǐng)域,根據(jù)已經(jīng)建立的領(lǐng)域本體,對用戶提交的查詢關(guān)鍵字通過領(lǐng)域 本體推理進行語義擴展,得到一組或多組新的查詢字符串;(3)將擴展后的查詢字符串提交給一個或多個搜索引擎進行檢索;(4)對各搜索引擎的返回結(jié)果進行去重和排序整合;(5)將最終結(jié)果通過檢索界面顯示給用戶。
2.如權(quán)利要求1所述的方法,其特征在于所述的通過本體推理進行語義擴展,是采用 下述方法中的一種或兩種或全部①基于is-a關(guān)系優(yōu)化方法基于所述查詢關(guān)鍵字獲得的概念A(yù)的父概念P或子概念C,優(yōu)化成概念A(yù)本身和它的父 概念P的查詢對,或概念A(yù)本身和它的子概念C的查詢對;②基于part-of關(guān)系的優(yōu)化方法將基于查詢關(guān)鍵字獲得的概念優(yōu)化成該概念本身和其部分概念構(gòu)成的查詢對;③基于equivalent-class關(guān)系的優(yōu)化將基于查詢關(guān)鍵字獲得的概念優(yōu)化成該概念和與其等價的同義詞構(gòu)成的查詢對。
3.如權(quán)利要求2所述的方法,其特征在于所述查詢對內(nèi)的概念之間為“與”或者“或” 的邏輯關(guān)系。
4.如權(quán)利要求1至3中之一所述的方法,其特征在于所述去重是指對于搜索結(jié)果 URL進行處理,截取“#,,之前的URL字符串作為最終的鏈接地址,對于URLa和URLb若存在 MD5 (URLa) = MD5 (URLb),則認(rèn)為URLa及URLb對應(yīng)的頁面為重復(fù)頁面,去掉其中一個鏈接地址。
5.如權(quán)利要求4所述的方法,其特征在于所述排序是利用概念的語義相似度結(jié)合摘 要排序算法,對去重后的結(jié)果進行排序。
6.如權(quán)利要求5所述的方法,其特征在于所述排序方法包括①按式1計算查詢字符串中各概念的語義距離
7.如權(quán)利要求1至3中之一所述的方法,其特征在于所述檢索界面為針對某一領(lǐng)域 的專用界面。
8.如權(quán)利要求1至3中之一所述的方法,其特征在于所述檢索界面有領(lǐng)域選項或領(lǐng) 域關(guān)鍵字填寫區(qū)域,在所述步驟(2)中根據(jù)用戶選定的領(lǐng)域選項或領(lǐng)域關(guān)鍵字,加載相應(yīng) 的領(lǐng)域本體進行語義擴展。
全文摘要
本發(fā)明提供一種基于領(lǐng)域本體的信息檢索優(yōu)化方法,通過檢索系統(tǒng)的檢索界面,獲取用戶提交的查詢關(guān)鍵字;在用戶期望的領(lǐng)域,根據(jù)已經(jīng)建立的領(lǐng)域本體,對用戶提交的查詢關(guān)鍵字通過領(lǐng)域本體推理進行語義擴展,得到一組或多組新的查詢字符串;將擴展后的查詢字符串提交給一個或多個搜索引擎進行檢索;對各搜索引擎的返回結(jié)果進行去重和重排序整合;將最終結(jié)果通過檢索界面顯示給用戶。本發(fā)明是利用領(lǐng)域本體的語義優(yōu)勢,提高領(lǐng)域相關(guān)的信息檢索的效率。
文檔編號G06F17/30GK102081668SQ201110025219
公開日2011年6月1日 申請日期2011年1月24日 優(yōu)先權(quán)日2011年1月24日
發(fā)明者孫華, 張長青, 徐建良, 梁燕軍, 熊晶, 王愛民, 王繼鵬, 郭濤 申請人:徐建良, 熊晶, 王愛民