基于領(lǐng)域本體的信息檢索優(yōu)化方法

文檔序號：6650705閱讀：709來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于領(lǐng)域本體的信息檢索優(yōu)化方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種網(wǎng)絡(luò)技術(shù)，具體來說是基于搜索引擎的信息檢索方法。
背景技術(shù)：
人們從網(wǎng)絡(luò)上獲取信息的主要手段是使用搜索工具，如Google、百度、雅虎等。搜索引擎的工作原理基本包括三個過程(1)從互聯(lián)網(wǎng)上搜集信息，通過用網(wǎng)絡(luò)蜘蛛定期對互聯(lián)網(wǎng)上所有網(wǎng)站網(wǎng)頁的信息進行抓取。(2)整理信息并建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析，提取相關(guān)網(wǎng)頁所在網(wǎng)址鏈接、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等信息，根據(jù)一定的相關(guān)度算法進行計算，得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要性)，然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。(3)在索引數(shù)據(jù)庫中搜索排序、接受查詢當(dāng)用戶在搜索引擎的界面輸入關(guān)鍵詞搜索后，由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁，按照現(xiàn)成的相關(guān)度數(shù)值排序，相關(guān)度越高，排名越靠前。最后，由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址、頁面內(nèi)容摘要等內(nèi)容，組織起來返回給用戶。目前的搜索引擎大多是基于關(guān)鍵字匹配的搜索引擎。然而，這些搜索引擎很少具有語義推理能力。Google雖然采用了一些自然語言處理技術(shù)，例如，同義詞擴展，但是它并不能解析概念之間的語義關(guān)系，這樣在一定程度上導(dǎo)致了查準(zhǔn)率的降低，使得查詢返回結(jié) 果并不是用戶所滿意的信息。另一方面，用戶的查詢很大程度上依賴于某個專業(yè)領(lǐng)域，如海洋領(lǐng)域。例如，假定用戶想搜索海洋領(lǐng)域有關(guān)“DIP(Dissolved inorganic phosphorus溶解無機磷)”的信息，其查詢結(jié)果如圖4所示，通常會獲得大量其它領(lǐng)域的“DIP”信息，如微電子領(lǐng)域的“Dual Inline Package”，即雙列直插式封裝技術(shù)。由于這些是與用戶的目的不相關(guān)的無用信息，用戶對這樣的結(jié)果顯然是不滿意的?！氨倔w(Ontology)”作為“共享概念模型的明確的形式化規(guī)范說明”，是通過抽象出客觀世界中一些現(xiàn)象的相關(guān)概念而得到的模型，概念模型表現(xiàn)的含義獨立于具體的環(huán)境狀態(tài)。本體體現(xiàn)的是共同認(rèn)可的知識，反映的是相關(guān)領(lǐng)域內(nèi)公認(rèn)的概念集，因此本體提供了對領(lǐng)域知識的共同理解與描述，可以更好地用于共享、交流和重用。構(gòu)成本體的概念及其之間的關(guān)系是經(jīng)過精確定義的，運用本體可以消除一詞多義、多詞一義和詞義含糊等現(xiàn)象，從而完成對領(lǐng)域知識清晰、確切、完整的定義與描述。本體研究的目標(biāo)是獲取一個知識表達方法，使得機器可以像人類一樣共享和處理信息。目前，本體技術(shù)被大量應(yīng)用于知識表示、信息檢索等領(lǐng)域。

發(fā)明內(nèi)容
為了克服現(xiàn)有搜索引擎在語義檢索上的不足，本發(fā)明提供了一種基于領(lǐng)域本體的信息檢索優(yōu)化方法。本發(fā)明的技術(shù)方案為一種基于領(lǐng)域本體的信息檢索優(yōu)化方法，其步驟如下(1)通過檢索系統(tǒng)的檢索界面，獲取用戶提交的查詢關(guān)鍵字；
(2)在用戶期望的領(lǐng)域，根據(jù)已經(jīng)建立的領(lǐng)域本體，對用戶提交的查詢關(guān)鍵字通過本體推理進行語義擴展，得到一組或多組新的查詢字符串；(3)將擴展后的查詢字符串提交給一個或多個搜索引擎進行檢索；(4)對各搜索引擎的返回結(jié)果進行去重、排序整合；(5)將最終結(jié)果通過檢索界面顯示給用戶。上述步驟(2)中基于領(lǐng)域本體的語義擴展方式包括如下方式中的一種、兩種或全部①基于is-a關(guān)系的優(yōu)化方法Is-a關(guān)系(繼承關(guān)系)顯示了概念的分類，即父概念的實例等于子概念實例的總和。在子概念上添加了一些約束，因此子概念也稱為父概念的特殊化。一個概念與其直接父概念或子概念在同一個文檔中出現(xiàn)的幾率是較高的。因此，當(dāng)搜索關(guān)于某個概念A(yù)的文檔時，可以利用A的父概念P或子概念C作為約束來提高搜索的查準(zhǔn)率。于是，可以將一個概念優(yōu)化成概念本身和它的父概念或子概念的查詢對。②基于part-of關(guān)系的優(yōu)化方法Part-of表示整體-部分關(guān)系，用來描述一個概念與其部分概念之間的相互關(guān)系。一個概念的組成部分也與此概念所屬的領(lǐng)域緊密相關(guān)。因此，與部分概念相匹配的文檔通常也同其整體概念相關(guān)聯(lián)。于是，可以將一個概念優(yōu)化成概念本身及其部分概念的查詢對。③基于equivalent-class關(guān)系的優(yōu)化方法Equivalent-class(等價類)關(guān)系用于處理領(lǐng)域知識中的同義詞現(xiàn)象。利用 equivalent-class關(guān)系，用戶查詢中的概念可以映射成與其等價的同義詞。這樣，可以提高信息檢索的查準(zhǔn)率。而且，equivalent-class關(guān)系通常作為前兩種優(yōu)化方法的輔助方法。所述查詢對內(nèi)的概念之間為“與”或者“或，，的邏輯關(guān)系，“與”可以提高查詢準(zhǔn)確率，“或”能夠提高查全率。上述步驟(4)中，對各搜索引擎的返回結(jié)果進行去重、排序整合，可以采用的算法如下(1)對搜索結(jié)果的URL進行處理，截取“#”之前的URL字符串作為最終的鏈接地址；若存在MD5 (URLa) = MD5 (URLb)，則認(rèn)為URLa及URLb對應(yīng)的頁面為重復(fù)頁面，去重；(2)排序算法考慮兩個方面①查詢字符串中各概念的語義距離Dist (Ci, Cj)，其中Ci與Cj為查詢字符串中的兩個概念，
權(quán)利要求
1.一種基于領(lǐng)域本體的信息檢索優(yōu)化方法，其步驟如下(1)通過檢索系統(tǒng)的檢索界面，獲取用戶提交的查詢關(guān)鍵字；(2)在用戶期望的領(lǐng)域，根據(jù)已經(jīng)建立的領(lǐng)域本體，對用戶提交的查詢關(guān)鍵字通過領(lǐng)域本體推理進行語義擴展，得到一組或多組新的查詢字符串；(3)將擴展后的查詢字符串提交給一個或多個搜索引擎進行檢索；(4)對各搜索引擎的返回結(jié)果進行去重和排序整合；(5)將最終結(jié)果通過檢索界面顯示給用戶。
2.如權(quán)利要求1所述的方法，其特征在于所述的通過本體推理進行語義擴展，是采用下述方法中的一種或兩種或全部①基于is-a關(guān)系優(yōu)化方法基于所述查詢關(guān)鍵字獲得的概念A(yù)的父概念P或子概念C，優(yōu)化成概念A(yù)本身和它的父概念P的查詢對，或概念A(yù)本身和它的子概念C的查詢對；②基于part-of關(guān)系的優(yōu)化方法將基于查詢關(guān)鍵字獲得的概念優(yōu)化成該概念本身和其部分概念構(gòu)成的查詢對；③基于equivalent-class關(guān)系的優(yōu)化將基于查詢關(guān)鍵字獲得的概念優(yōu)化成該概念和與其等價的同義詞構(gòu)成的查詢對。
3.如權(quán)利要求2所述的方法，其特征在于所述查詢對內(nèi)的概念之間為“與”或者“或” 的邏輯關(guān)系。
4.如權(quán)利要求1至3中之一所述的方法，其特征在于所述去重是指對于搜索結(jié)果 URL進行處理，截取“#，，之前的URL字符串作為最終的鏈接地址，對于URLa和URLb若存在 MD5 (URLa) = MD5 (URLb)，則認(rèn)為URLa及URLb對應(yīng)的頁面為重復(fù)頁面，去掉其中一個鏈接地址。
5.如權(quán)利要求4所述的方法，其特征在于所述排序是利用概念的語義相似度結(jié)合摘要排序算法，對去重后的結(jié)果進行排序。
6.如權(quán)利要求5所述的方法，其特征在于所述排序方法包括①按式1計算查詢字符串中各概念的語義距離
7.如權(quán)利要求1至3中之一所述的方法，其特征在于所述檢索界面為針對某一領(lǐng)域的專用界面。
8.如權(quán)利要求1至3中之一所述的方法，其特征在于所述檢索界面有領(lǐng)域選項或領(lǐng) 域關(guān)鍵字填寫區(qū)域，在所述步驟(2)中根據(jù)用戶選定的領(lǐng)域選項或領(lǐng)域關(guān)鍵字，加載相應(yīng) 的領(lǐng)域本體進行語義擴展。
全文摘要
本發(fā)明提供一種基于領(lǐng)域本體的信息檢索優(yōu)化方法，通過檢索系統(tǒng)的檢索界面，獲取用戶提交的查詢關(guān)鍵字；在用戶期望的領(lǐng)域，根據(jù)已經(jīng)建立的領(lǐng)域本體，對用戶提交的查詢關(guān)鍵字通過領(lǐng)域本體推理進行語義擴展，得到一組或多組新的查詢字符串；將擴展后的查詢字符串提交給一個或多個搜索引擎進行檢索；對各搜索引擎的返回結(jié)果進行去重和重排序整合；將最終結(jié)果通過檢索界面顯示給用戶。本發(fā)明是利用領(lǐng)域本體的語義優(yōu)勢，提高領(lǐng)域相關(guān)的信息檢索的效率。
文檔編號G06F17/30GK102081668SQ201110025219
公開日2011年6月1日申請日期2011年1月24日優(yōu)先權(quán)日2011年1月24日
發(fā)明者孫華, 張長青, 徐建良, 梁燕軍, 熊晶, 王愛民, 王繼鵬, 郭濤申請人:徐建良, 熊晶, 王愛民

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：熊晶;王愛民;徐建良;王繼鵬;張長青;郭濤;梁燕軍;孫華
技術(shù)所有人：熊晶;王愛民;徐建良
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

領(lǐng)域本體相關(guān)技術(shù)

領(lǐng)域本體構(gòu)建相關(guān)技術(shù)

領(lǐng)域知識本體模型相關(guān)技術(shù)

領(lǐng)域本體構(gòu)建及其應(yīng)用相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于領(lǐng)域本體的信息檢索優(yōu)化方法