專利名稱:一種基于語(yǔ)義索引的檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)檢索領(lǐng)域,更具體地,涉及一種基于語(yǔ)義索引的數(shù)據(jù)檢索方法。
背景技術(shù):
基于計(jì)算機(jī)系統(tǒng)的文檔搜索處理器(即搜索引擎)已廣泛地用于對(duì)互聯(lián)網(wǎng)上的文 檔執(zhí)行關(guān)鍵詞搜索。用關(guān)鍵詞在網(wǎng)絡(luò)上進(jìn)行搜索,固然會(huì)給用戶提供很大幫助,具備較高的價(jià)值,但該 方法本身也存在著一個(gè)先天的不足,以至于在很大程度上影響著這種價(jià)值的發(fā)揮。具體地 說(shuō),由于網(wǎng)絡(luò)上的可用信息是海量的,而關(guān)鍵詞搜索僅僅依據(jù)關(guān)鍵詞匹配就將所得到的結(jié) 果提交給了用戶,以至于產(chǎn)生了大量的下載信息,這其中的絕大多數(shù)是與用戶所想要的信 息無(wú)關(guān)的或不重要的?;陉P(guān)鍵詞檢索方法所存在的問(wèn)題在科學(xué)技術(shù)領(lǐng)域也廣泛地存在。隨著越來(lái)越多 的研究機(jī)構(gòu)、大學(xué)、圖書(shū)館、專利部門以及其他可供網(wǎng)絡(luò)訪問(wèn)的技術(shù)和科學(xué)信息的增加,該 問(wèn)題顯得尤為嚴(yán)峻。科研人員被太多的報(bào)章、專利以及關(guān)于他們所感興趣的主題的一般性 信息所淹沒(méi)。與之形成巨大的反差的是,在實(shí)際查詢中,用戶所需要的僅僅是和某一特定請(qǐng)求 相關(guān)的若干篇文章。面對(duì)上述查準(zhǔn)率較低的情況,用戶在檢查檢索結(jié)果以確定其與用戶查 詢的相關(guān)性時(shí)目前只有兩個(gè)選擇——一種選擇是讀取摘要,另一種是瀏覽全文以確定是否 保存或打印出該檢索到的文章。而實(shí)際上,由于很多摘要并不全面,所以其常常不能反映出 用戶真正感興趣的特定主題或以不全面的方式論述該主題。因此,瀏覽摘要可能幾乎沒(méi)有 價(jià)值。而瀏覽全文則需要用戶花費(fèi)過(guò)多的時(shí)間。目前已有多種嘗試,試圖提高搜索的查準(zhǔn)率,但這些方法僅僅依賴于基于關(guān)鍵詞 的變化或所謂短語(yǔ)理解的各種技術(shù)進(jìn)行的關(guān)鍵詞或短語(yǔ)搜索,其仍然需要用戶耗費(fèi)太多的 精力和時(shí)間來(lái)確定真正需要的文檔。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種查準(zhǔn)率較高的基于語(yǔ)義索引的檢索方法。為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于語(yǔ)義索引的檢索方法, 包括下列步驟10)提取用戶請(qǐng)求的候選動(dòng)賓結(jié)構(gòu)并進(jìn)行篩選,獲得合法動(dòng)賓結(jié)構(gòu);20)匹配所述合法動(dòng)賓結(jié)構(gòu)和文檔的動(dòng)賓結(jié)構(gòu),其中所述文檔的動(dòng)賓結(jié)構(gòu)是對(duì)文 檔進(jìn)行提取并篩選所獲得。在上述方法中,所述篩選進(jìn)一步包括下列步驟100)采用動(dòng)賓結(jié)構(gòu)實(shí)例匹配進(jìn)行所述候選動(dòng)賓結(jié)構(gòu)的篩選。在上述方法中,所述篩選進(jìn)一步包括下列步驟101)采用動(dòng)賓結(jié)構(gòu)語(yǔ)義匹配進(jìn)行所述候選動(dòng)賓結(jié)構(gòu)的篩選。
在上述方法中,所述步驟101)中所說(shuō)動(dòng)賓結(jié)構(gòu)語(yǔ)義匹配進(jìn)一步包括下列步驟將待篩選的動(dòng)賓結(jié)構(gòu)表示為具體動(dòng)詞Wl和具體名詞W2 ;利用搭配知識(shí)詞典的動(dòng)賓搭配實(shí)例,選取能夠和所述具體名詞W2搭配的動(dòng)詞概 念 VC2 ;利用語(yǔ)義限制詞典的動(dòng)詞概念關(guān)系,獲得所述具體動(dòng)詞Wl的動(dòng)詞概念VCl ;將所述動(dòng)詞概念VCl和所述動(dòng)詞概念VC2相匹配。在上述方法中,所述提取進(jìn)一步包括下列步驟分詞和詞性標(biāo)注;進(jìn)行動(dòng)詞短語(yǔ)、名詞短語(yǔ)的句法分析。在上述方法中,所述步驟10)后還包括11)將所述合法動(dòng)賓結(jié)構(gòu)進(jìn)行同義擴(kuò)展,生成查詢表達(dá)式;所述步驟20)還包括201)匹配所述查詢表達(dá)式和所述文檔的動(dòng)賓結(jié)構(gòu)。在上述方法中,所述步驟201)后還包括步驟202)對(duì)于所述文檔的動(dòng)賓結(jié)構(gòu)與所述合法動(dòng)賓結(jié)構(gòu)相同的情況,則所述文檔在檢 索結(jié)果中居前,對(duì)于所述文檔的動(dòng)賓結(jié)構(gòu)與所述查詢表達(dá)式相同的情況,則所述文檔在所 述檢索結(jié)果中居后。在上述方法中,對(duì)于所述合法動(dòng)賓結(jié)構(gòu)為多個(gè)的情況,所述步驟202)中居后的文 檔根據(jù)下述規(guī)則排序?qū)τ谒龊戏▌?dòng)賓結(jié)構(gòu)的查詢表達(dá)式的個(gè)數(shù)最少的,將所述居后的文檔居于所述 檢索結(jié)果中的最后。本發(fā)明的技術(shù)效果在于根據(jù)本發(fā)明的檢索方法,對(duì)用戶輸入的問(wèn)句進(jìn)行預(yù)處理后 執(zhí)行問(wèn)題識(shí)別,更精確地理解問(wèn)句,提高了檢索的查準(zhǔn)率;進(jìn)一步地,還可以對(duì)識(shí)別的問(wèn)題 進(jìn)行查詢擴(kuò)展,從而提高檢索的查全率。
圖1是根據(jù)本發(fā)明優(yōu)選實(shí)施例的基于語(yǔ)義索引的檢索方法的流程圖;圖2是根據(jù)本發(fā)明優(yōu)選實(shí)施例的提取候選動(dòng)賓結(jié)構(gòu)并進(jìn)行篩選的流程圖;圖3是根據(jù)本發(fā)明優(yōu)選實(shí)施例的動(dòng)賓結(jié)構(gòu)語(yǔ)義匹配的流程圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖,對(duì)根據(jù)本發(fā) 明實(shí)施例的基于語(yǔ)義索引的檢索方法進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施 例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,該方法開(kāi)始于與用戶希望獲取的文檔概念相關(guān)的自然 語(yǔ)言文本的用戶請(qǐng)求,例如一個(gè)自然語(yǔ)言問(wèn)句。解析該用戶請(qǐng)求,以識(shí)別和存儲(chǔ)用戶請(qǐng)求中 的動(dòng)詞及其賓語(yǔ)所構(gòu)成的候選動(dòng)賓結(jié)構(gòu)對(duì)用戶請(qǐng)求進(jìn)行中文分詞、詞性標(biāo)記;一旦該請(qǐng) 求中的所有詞都被標(biāo)記,則執(zhí)行語(yǔ)義分析,在一個(gè)示例中,該語(yǔ)義分析包括識(shí)別用戶請(qǐng)求中 的動(dòng)詞短語(yǔ),然后識(shí)別用戶請(qǐng)求中的名詞短語(yǔ)。對(duì)此候選動(dòng)賓結(jié)構(gòu)進(jìn)行篩選,獲得合法動(dòng)賓結(jié)構(gòu)。采用該合法動(dòng)賓結(jié)構(gòu)及其同義擴(kuò)展作為查詢表達(dá)式來(lái)搜索。對(duì)文檔集合也提取動(dòng)賓 結(jié)構(gòu)并據(jù)此建立文檔語(yǔ)義索引,通過(guò)將查詢表達(dá)式與文檔語(yǔ)義索引進(jìn)行匹配,并對(duì)匹配成 功的文檔加以排序,使得只有滿足查詢表達(dá)式的少量文檔返回給用戶。圖1示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例的檢索方法的流程圖,如其所示,本發(fā)明的 檢索方法包括下列步驟步驟10,首先提取用戶請(qǐng)求的候選動(dòng)賓結(jié)構(gòu)并進(jìn)行篩選,獲得合法動(dòng)賓結(jié)構(gòu),也即 問(wèn)題識(shí)別,該合法動(dòng)賓結(jié)構(gòu)有效表示了用戶請(qǐng)求的意圖。圖2示出了該步驟10的詳細(xì)流程, 該過(guò)程將在后面詳細(xì)描述。步驟11,將上述步驟10所提取的用戶請(qǐng)求的合法動(dòng)賓結(jié)構(gòu)進(jìn)行同義擴(kuò)展,生成查 詢表達(dá)式。同義擴(kuò)展可以利用同義動(dòng)賓結(jié)構(gòu)數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)集中了同義的動(dòng)賓結(jié)構(gòu)的實(shí) 例,例如“加熱(動(dòng)詞)一水(賓語(yǔ))”的同義組合可以是“提高(動(dòng)詞)一水溫(賓語(yǔ))”等, 該數(shù)據(jù)庫(kù)中的每一條記錄均按照動(dòng)作-賓語(yǔ)格式存儲(chǔ),具有相同含義的動(dòng)賓結(jié)構(gòu)被賦以相 同的標(biāo)識(shí)符(ID)。將所提取的動(dòng)賓結(jié)構(gòu)與該數(shù)據(jù)庫(kù)中記錄進(jìn)行匹配,若數(shù)據(jù)庫(kù)中存在與之 相同的記錄,則依據(jù)該記錄的ID執(zhí)行同義擴(kuò)展。由此,生成代表用戶請(qǐng)求的查詢表達(dá)式。步驟12,與對(duì)用戶請(qǐng)求提取動(dòng)賓結(jié)構(gòu)類似,對(duì)文檔集合中的文檔進(jìn)行動(dòng)賓結(jié)構(gòu)提 取和篩選。步驟13,存儲(chǔ)步驟12所提取的動(dòng)賓結(jié)構(gòu)作為文檔語(yǔ)義索引。步驟14,匹配用戶請(qǐng)求的合法動(dòng)賓結(jié)構(gòu)和步驟11所生成的查詢表達(dá)式二者與文 檔語(yǔ)義索引,獲取匹配成功的文檔構(gòu)成匹配文檔集合。步驟15,對(duì)步驟14獲得的匹配文檔集合中的匹配文檔執(zhí)行結(jié)果排序。更具體地, 若匹配文檔的語(yǔ)義索引與用戶請(qǐng)求的動(dòng)賓結(jié)構(gòu)完全相同,則該匹配文檔排序居前,若匹配 文檔的語(yǔ)義索引與步驟11所生成的查詢表達(dá)式相同,則該匹配文檔排序靠后。更優(yōu)選地, 對(duì)于可能出現(xiàn)的用戶請(qǐng)求的合法動(dòng)賓結(jié)構(gòu)不唯一的情況,按照其查詢表達(dá)式的個(gè)數(shù)對(duì)靠后 的文檔加以排序,即設(shè)若用戶請(qǐng)求為S,經(jīng)提取得到動(dòng)賓結(jié)構(gòu)A和B,動(dòng)賓結(jié)構(gòu)A經(jīng)過(guò)同義 擴(kuò)展,得到Na篇文檔,而動(dòng)賓結(jié)構(gòu)B經(jīng)過(guò)同義擴(kuò)展,得到Nb篇文檔,若Nb > Na,則排序時(shí)將 Nb篇文檔置于Na篇文檔前。圖2示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的提取候選動(dòng)賓結(jié)構(gòu)并進(jìn)行篩選的流程圖。下 面將根據(jù)圖2詳細(xì)描述該過(guò)程步驟20,對(duì)用戶請(qǐng)求執(zhí)行分詞和詞性標(biāo)注,即詞法分析,將用戶請(qǐng)求切分成若干詞 語(yǔ)構(gòu)成的詞串,并對(duì)各個(gè)詞語(yǔ)標(biāo)示詞性。分詞和詞性標(biāo)注屬于常用技術(shù),例如可以采用正向 最大匹配分詞算法進(jìn)行分詞,采用863詞性標(biāo)注集進(jìn)行詞性標(biāo)注,此處不詳細(xì)說(shuō)明。例如, 用戶請(qǐng)求為“如何去除食用油中的游離脂肪酸? ”,經(jīng)過(guò)詞法分析得到如下分析結(jié)果如何/r去除/V食用油/n中/nd的/u游離/V脂肪酸/n ? /wp表1給出863詞性標(biāo)注集及含義,說(shuō)明了上述分析結(jié)果中的詞性標(biāo)注標(biāo)識(shí)及其含 義。表1 863詞性標(biāo)注集及含義
標(biāo)識(shí)含義示例標(biāo)識(shí)含義示例
權(quán)利要求
1.一種基于語(yǔ)義索引的檢索方法,包括下列步驟10)提取用戶請(qǐng)求的候選動(dòng)賓結(jié)構(gòu)并進(jìn)行篩選,獲得合法動(dòng)賓結(jié)構(gòu);20)匹配所述合法動(dòng)賓結(jié)構(gòu)和文檔的動(dòng)賓結(jié)構(gòu),其中所述文檔的動(dòng)賓結(jié)構(gòu)是對(duì)文檔進(jìn) 行提取并篩選所獲得。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述篩選進(jìn)一步包括下列步驟100)采用動(dòng)賓結(jié)構(gòu)實(shí)例匹配進(jìn)行所述候選動(dòng)賓結(jié)構(gòu)的篩選。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述篩選進(jìn)一步包括下列步驟101)采用動(dòng)賓結(jié)構(gòu)語(yǔ)義匹配進(jìn)行所述候選動(dòng)賓結(jié)構(gòu)的篩選。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟100)后包括下列步驟101)采用動(dòng)賓結(jié)構(gòu)語(yǔ)義匹配進(jìn)行未通過(guò)所述步驟100)篩選的候選動(dòng)賓結(jié)構(gòu)的篩選。
5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述步驟101)中所說(shuō)動(dòng)賓結(jié)構(gòu)語(yǔ)義 匹配進(jìn)一步包括下列步驟將待篩選的動(dòng)賓結(jié)構(gòu)表示為具體動(dòng)詞Wl和具體名詞W2 ;利用搭配知識(shí)詞典的動(dòng)賓搭配實(shí)例,選取能夠和所述具體名詞W2搭配的動(dòng)詞概念VC2 ;利用語(yǔ)義限制詞典的動(dòng)詞概念關(guān)系,獲得所述具體動(dòng)詞Wl的動(dòng)詞概念VCl ; 將所述動(dòng)詞概念VCl和所述動(dòng)詞概念VC2相匹配。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取進(jìn)一步包括下列步驟 分詞和詞性標(biāo)注;進(jìn)行動(dòng)詞短語(yǔ)、名詞短語(yǔ)的句法分析。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟10)后還包括11)將所述合法動(dòng)賓結(jié)構(gòu)進(jìn)行同義擴(kuò)展,生成查詢表達(dá)式; 所述步驟20)還包括201)匹配所述查詢表達(dá)式和所述文檔的動(dòng)賓結(jié)構(gòu)。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述步驟201)后還包括步驟202)對(duì)于所述文檔的動(dòng)賓結(jié)構(gòu)與所述合法動(dòng)賓結(jié)構(gòu)相同的情況,則所述文檔在檢索結(jié) 果中居前,對(duì)于所述文檔的動(dòng)賓結(jié)構(gòu)與所述查詢表達(dá)式相同的情況,則所述文檔在所述檢 索結(jié)果中居后。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,對(duì)于所述合法動(dòng)賓結(jié)構(gòu)為多個(gè)的情況,所 述步驟202)中居后的文檔根據(jù)下述規(guī)則排序?qū)τ谒龊戏▌?dòng)賓結(jié)構(gòu)的查詢表達(dá)式的個(gè)數(shù)最少的,將所述居后的文檔居于所述檢索 結(jié)果中的最后。
全文摘要
本發(fā)明提供一種基于語(yǔ)義索引的檢索方法,包括下列步驟10)提取用戶請(qǐng)求的候選動(dòng)賓結(jié)構(gòu)并進(jìn)行篩選,獲得合法動(dòng)賓結(jié)構(gòu);20)匹配所述合法動(dòng)賓結(jié)構(gòu)和文檔的動(dòng)賓結(jié)構(gòu),其中所述文檔的動(dòng)賓結(jié)構(gòu)是對(duì)文檔進(jìn)行提取并篩選所獲得。上述檢索方法,更精確地理解了用戶的目的,有效提高了檢索的查準(zhǔn)率。
文檔編號(hào)G06F17/30GK102117285SQ20091024399
公開(kāi)日2011年7月6日 申請(qǐng)日期2009年12月30日 優(yōu)先權(quán)日2009年12月30日
發(fā)明者王永剛, 范祝滿, 趙琦, 高建忠 申請(qǐng)人:安世亞太科技(北京)有限公司