專利名稱:檢索裝置和檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索領(lǐng)域,具體而言,涉及檢索裝置和檢索方法。
背景技術(shù):
隨著計算機技術(shù)(特別是互聯(lián)網(wǎng)技術(shù))的進步,電子化的信息(例如電子書籍、網(wǎng)頁等)以爆炸式的速度增長。面對海量而又分散無序的電子化信息,人們迫切需要快速查找和定位所需信息的方法和工具。信息檢索及搜索引擎系統(tǒng)正是為了滿足人們的這種需求而產(chǎn)生的。一個典型的搜索引擎系統(tǒng)包括下載子系統(tǒng)(信息的搜集和獲取)、預(yù)處理和索引子系統(tǒng)(信息的加工和組織)以及檢索子系統(tǒng)(向用戶提供查詢服務(wù))。其中,檢索子系統(tǒng)接受用戶輸入的查詢,按照一定的排序方法返回檢索結(jié)果列表。對檢索結(jié)果排序的功能由相關(guān)性排序模塊完成,它是搜索引擎的核心。相關(guān)性排序模塊依賴一個檢索模型對文檔進行打分,通??紤]的打分因素包括檢索詞的tfidf (即在文檔中的出現(xiàn)頻率和倒排文檔頻率)、網(wǎng)頁的重要性(如PageRank)以及檢索詞在文檔中的位置相關(guān)性(即根據(jù)查詢中的關(guān)鍵詞在文檔中的出現(xiàn)位置和順序打分)等。其中,位置相關(guān)性是提高搜索引擎質(zhì)量的關(guān)鍵因素之一,因為它在很大程度上反映了查詢和文檔在語義上的關(guān)聯(lián)性。例如,兩篇文檔都包含了多詞查詢中的所有關(guān)鍵詞,其中文檔I中命中的關(guān)鍵詞是連在一起的,而文檔2中命中的關(guān)鍵詞是分散在兩個不同的句子中出現(xiàn)的,顯然,文檔I的排名應(yīng)該比文檔2的更高。計算位置相關(guān)性的方法大致可以分為兩類I)建立混合索引,除了索引網(wǎng)頁中的關(guān)鍵詞,還索引關(guān)鍵詞N元組(n-gram)或短語,根據(jù)查詢中的關(guān)鍵詞N元組的匹配情況來計算位置相關(guān)性分?jǐn)?shù);2)只建立關(guān)鍵詞索引,但是記錄所有關(guān)鍵詞在文檔中的出現(xiàn)位置,然后根據(jù)某種鄰近度來計算位置相關(guān)性。第一類方法不需要記錄關(guān)鍵詞的位置,空間開銷相對較小。由于計算機的性能限制,早期的搜索引擎主要采取這種方式(通常只索引關(guān)鍵詞的二元組)。該方法的缺點是關(guān)鍵詞N元組往往只反映了局部信息。例如,在只索引二元組的情況下,對于查詢“北京大學(xué)學(xué)生”,相應(yīng)的關(guān)鍵詞二元組為“北京大學(xué)”和“大學(xué)學(xué)生”。如果某個網(wǎng)頁同時包含了“北京大學(xué)”和“大學(xué)學(xué)生”,但是兩者距離很遠(yuǎn),也就是說該網(wǎng)頁的內(nèi)容并不是直接關(guān)于“北京大學(xué)學(xué)生”的。如果直接按二元組的命中情況計算,該網(wǎng)頁仍然具有較高的位置相關(guān)性分?jǐn)?shù)。同時,該方法只在關(guān)鍵詞N元組命中的情況下有效,例如,它并不能區(qū)分下面的情況文檔I和2都包含查詢“AB”中的關(guān)鍵詞“A”和“B”,而且都不是緊鄰出現(xiàn)的,網(wǎng)頁I中“A”和“B”之間只間隔I個詞,而網(wǎng)頁2中“A”和“B”間隔了 100個詞。另外,索引表會膨脹(即索引項的數(shù)目也大大增加),而且索引的維護和檢索過程較復(fù)雜。目前存在一種基于詞匯的計算機索引和檢索方法,根據(jù)漢語的特點,提出了一種二元組索引的變種方法,例如,對于文檔中的文字片段“上海風(fēng)土人情”,分詞之后的結(jié)果為“上海/風(fēng)土人情”,會將“#海風(fēng)”(在該專利中稱為“隱形關(guān)鍵詞”)也加入索引,在檢索時如果命中了隱形關(guān)鍵詞則加權(quán)。由于只取了相鄰關(guān)鍵詞對的前者的尾字和后者的首字作為二元組加入索引,因此,該方法的優(yōu)點是在一定程度上減少索引詞表大小,但是并沒有避免N元組的局部性以及索引維護和檢索過程復(fù)雜的缺陷。目前還存在一種方案,判斷一組查詢關(guān)鍵字或詞在網(wǎng)頁中位置相關(guān)性的方法,這也是一個二元組索引的變種,它并不索引所有的二元組索引,而是對文檔中的每個關(guān)鍵詞記錄與其共現(xiàn)頻率最聞的如向和后向的關(guān)鍵詞,檢索時若發(fā)現(xiàn)查詢中的關(guān)鍵詞的iu后詞正好出現(xiàn)在其前向或后向表中則加權(quán)。該方法總體空間開銷較小,其缺點是只記錄了部分信息,適用面較小,只對部分查詢有效。另一方面,檢索時查找前向和后向表的效率也不聞。第二類方法需要記錄網(wǎng)頁中所有關(guān)鍵詞的出現(xiàn)位置,空間開銷比較大,計算位置相關(guān)性的時間開銷也比較大。它的優(yōu)點是索引結(jié)構(gòu)、索引維護和檢索過程都比較簡單,而且比較靈活,可以支持不同的位置相關(guān)性模型。常用的鄰近度(proximity measure)可分為兩類全局鄰近度(global proximity measure):考慮查詢中所有關(guān)鍵詞的鄰近情況全局鄰近度主要有最小命中窗口長度,即文檔中包含所有查詢關(guān)鍵詞的最小窗口的長度。窗口命中長度的優(yōu)點在于反映了查詢在文檔中整體的鄰近情況,對短查詢(2詞或3詞的查詢)效果較好,但是對于長查詢則不太適用,因為查詢越長,所有關(guān)鍵詞落在一個較小的窗口內(nèi)的可能性越小。目前有一種方案,對命中窗口的定義進行了擴展,放松了所有關(guān)鍵詞都必須出現(xiàn)的要求,只要包含一個以上關(guān)鍵詞即可構(gòu)成命中窗口,根據(jù)命中窗口長度和包含的關(guān)鍵詞數(shù)對詞頻加權(quán),最后通過BM25公式累計所有的加權(quán)詞頻。局部鄰近度(local proximity measure):考慮查詢中關(guān)鍵詞對的鄰近情況局部鄰近度的代表是詞對距離分?jǐn)?shù)累加方法統(tǒng)計文檔中的任意“鄰近”兩個關(guān)鍵詞對(該詞對之間不能出現(xiàn)任何查詢中的關(guān)鍵詞)的距離,然后根據(jù)距離折算為詞頻,最后把折算的詞頻通過BM25公式累加作為位置相關(guān)性分?jǐn)?shù)(參見Y. Rasolofo and J. Savoy.Term proximity scoring for keyword-based retrieval systems.1n Proceedings ofthe 25th European Conference on IR Research (ECIR 2003), pp. 207-218, 2003)。該方法的優(yōu)點是計算效率較高,考慮了多個詞對距離的分?jǐn)?shù),缺點主要在于它的局部性,因為它只考慮在文檔中鄰近關(guān)鍵詞之間的距離。綜上所述,第一類方法(即建立N元組索引的方法)的空間和時間復(fù)雜度相對較小,但是索引的維護和檢索過程較復(fù)雜。最重要的是,關(guān)鍵詞N元組往往只反映了局部信息,對檢索效果的提高有限。而第二類方法(即記錄關(guān)鍵詞位置,通過某種鄰近度來計算位置相關(guān)性)空間和時間復(fù)雜度相對較大,但提高檢索效果的潛力更大。在當(dāng)今計算機性能大幅提高的情況下,可以滿足第二類方法的空間和時間開銷的需求,因此,第二類方法逐漸成為了主流。但是,目前的第二類方法仍存在各種缺陷,如命中窗口長度方法通常只考慮了所有關(guān)鍵詞的聚集度,并沒有考慮命中窗口內(nèi)關(guān)鍵詞的順序是否與查詢中的原始順序一致,而且對于長查詢的效果不好;而詞對距離的方法只反映局部信息。因此,需要針對兩種中的任一種主流的位置相關(guān)性方法(即命中窗口長度以及詞對距離方法)存在的不足之處,提出一種新的位置相關(guān)性方案(即改進的命中窗口長度方法),能進一步地改進檢索效果,同時又能保證較高的檢索效率。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于,針對兩種中的任一種主流的位置相關(guān)性方法(即命中窗口長度以及詞對距離方法)存在的不足之處,提出一種新的位置相關(guān)性方案(即改進的命中窗口長度方法),能進一步地改進檢索效果,同時又能保證較高的檢索效率。有鑒于此,本發(fā)明提供一種檢索裝置,用于信息檢索及搜索引擎系統(tǒng),包括最小命中窗口獲取模塊,獲取查詢所用的多個關(guān)鍵詞在文檔中的最小命中窗口 ;全局鄰近度計算模塊,根據(jù)所述最小命中窗口的命中窗口長度,以及所述最小命中窗口中所述多個關(guān)鍵詞的逆序?qū)?shù),計算出所述最小命中窗口的擴展命中窗口長度,作為所述多個關(guān)鍵詞的全局鄰近度;位置相關(guān)性計算模塊,根據(jù)所述全局鄰近度,計算出所述多個關(guān)鍵詞在所述文檔中的位置相關(guān)性;結(jié)果生成模塊,根據(jù)所述位置相關(guān)性,對所述文檔進行排序,并生成檢索結(jié)果。通過該技術(shù)方案,實現(xiàn)了對全局鄰近度的改進,基于該改進的全局鄰近度,可以計算出合理的位置相關(guān)性,以更精確以及高效地進行檢索。在上述技術(shù)方案中,優(yōu)選地,所述全局鄰近度計算模塊通過以下公式,計算出所述最小命中窗口的擴展命中窗口長度:ExpSpanLen(Q, D) = OriSpanLen+ε · InvNum,其中,D表示所述文檔,Q表示所述多個關(guān)鍵詞,OriSpanLen表示預(yù)定命中窗口的命中窗口長度,InvNum表示所述特定命中窗口的逆序?qū)?shù),ε表示預(yù)設(shè)值,ExpSpanLen (Q, D)表示所述預(yù)定命中窗口的擴展命中窗口長度。通過該技術(shù)方案,合理設(shè)置了擴展命中窗口長度,其有利于實現(xiàn)精確高效的檢索。本發(fā)明還提供一種檢索方法,用于信息檢索及搜索引擎系統(tǒng),包括步驟202,最小命中窗口獲取模塊獲取查詢所用的多個關(guān)鍵詞在文檔中的最小命中窗口 ;步驟204,全局鄰近度計算模塊根據(jù)所述最小命中窗口的命中窗口長度,以及所述最小命中窗口中所述多個關(guān)鍵詞的逆序?qū)?shù),計算出所述最小命中窗口的擴展命中窗口長度,作為所述多個關(guān)鍵詞的全局鄰近度;步驟206,位置相關(guān)性計算模塊根據(jù)所述全局鄰近度,計算出所述多個關(guān)鍵詞在所述文檔中的位置相關(guān)性;步驟208,結(jié)果生成模塊根據(jù)所述位置相關(guān)性,對所述文檔進行排序,并生成檢索結(jié)果。通過該技術(shù)方案,實現(xiàn)了對全局鄰近度的改進,基于該改進的全局鄰近度,可以計算 出合理的位置相關(guān)性,以更精確以及高效地進行檢索。在上述技術(shù)方案中,優(yōu)選地,在所述步驟204中,所述全局鄰近度計算模塊通過以下公式,計算出所述最小命中窗口的擴展命中窗口長度=ExpSpanLen(Q, D)=OriSpanLen+ ε .1nvNum,其中,D表示所述文檔,Q表示所述多個關(guān)鍵詞,OriSpanLen表示預(yù)定命中窗口的命中窗口長度,InvNum表示所述特定命中窗口的逆序?qū)?shù),ε表示預(yù)設(shè)值,ExpSpanLen(Q, D)表示所述預(yù)定命中窗口的擴展命中窗口長度。通過該技術(shù)方案,合理設(shè)置了擴展命中窗口長度,其有利于實現(xiàn)精確高效的檢索。本發(fā)明還提供一種檢索裝置,用于信息檢索及搜索引擎系統(tǒng),包括最小距離計算模塊,計算出查詢所用的多個關(guān)鍵詞中的關(guān)鍵詞對在文檔中的最小距離;局部鄰近度計算模塊,根據(jù)所述關(guān)鍵詞對的最小距離,計算出所述多個關(guān)鍵詞在所述文檔中的幾何平均最小距離,作為所述多個關(guān)鍵詞的局部鄰近度;位置相關(guān)性計算模塊,根據(jù)所述局部鄰近度,計算出所述多個關(guān)鍵詞在所述文檔中的位置相關(guān)性;結(jié)果生成模塊,根據(jù)所述位置相關(guān)性,對所述文檔進行排序,并生成檢索結(jié)果。通過該技術(shù)方案,實現(xiàn)了對局部鄰近度的改進,基于該改進的局部鄰近度,可以計算出合理的位置相關(guān)性,以更精確以及高效地進行檢索。
在上述技術(shù)方案中,優(yōu)選地,所述局部鄰近度計算模塊根據(jù)以下公式,計算出所述幾何平均最小距
權(quán)利要求
1.一種檢索裝置,其特征在于,包括 最小命中窗口獲取|吳塊,獲取查詢所用的多個關(guān)鍵詞在文檔中的最小命中窗口 ;全局鄰近度計算模塊,根據(jù)所述最小命中窗口的命中窗口長度,以及所述最小命中窗口中所述多個關(guān)鍵詞的逆序?qū)?shù),計算出所述最小命中窗口的擴展命中窗口長度,作為所述多個關(guān)鍵詞的全局鄰近度; 位置相關(guān)性計算模塊,根據(jù)所述全局鄰近度,計算出所述多個關(guān)鍵詞在所述文檔中的位置相關(guān)性; 結(jié)果生成模塊,根據(jù)所述位置相關(guān)性,對所述文檔進行排序,并生成檢索結(jié)果。
2.根據(jù)權(quán)利要求1所述的檢索裝置,其特征在于,所述全局鄰近度計算模塊通過以下公式,計算出所述最小命中窗口的擴展命中窗口長度
3.一種檢索方法,其特征在于,包括 步驟202,最小命中窗口獲取模塊獲取查詢所用的多個關(guān)鍵詞在文檔中的最小命中窗Π ; 步驟204,全局鄰近度計算模塊根據(jù)所述最小命中窗口的命中窗口長度,以及所述最小命中窗口中所述多個關(guān)鍵詞的逆序?qū)?shù),計算出所述最小命中窗口的擴展命中窗口長度,作為所述多個關(guān)鍵詞的全局鄰近度; 步驟206,位置相關(guān)性計算模塊根據(jù)所述全局鄰近度,計算出所述多個關(guān)鍵詞在所述文檔中的位置相關(guān)性; 步驟208,結(jié)果生成模塊根據(jù)所述位置相關(guān)性,對所述文檔進行排序,并生成檢索結(jié)果。
4.根據(jù)權(quán)利要求3所述的檢索方法,其特征在于,在所述步驟204中,所述全局鄰近度計算模塊通過以下公式,計算出所述最小命中窗口的擴展命中窗口長度 ExpSpanLen (Q, D) = OriSpanLen+ ε .1nvNum,其中,D表不所述文檔,Q表不所述多個關(guān)鍵詞,OriSpanLen表示預(yù)定命中窗口的命中窗口長度,InvNum表示所述特定命中窗口的逆序?qū)?shù),ε表示預(yù)設(shè)值,ExpSpanLen (Q, D)表示所述預(yù)定命中窗口的擴展命中窗口長度。
5.一種檢索裝置,其特征在于,包括 最小距離計算模塊,計算出查詢所用的多個關(guān)鍵詞中的關(guān)鍵詞對在文檔中的最小距離; 局部鄰近度計算模塊,根據(jù)所述關(guān)鍵詞對的最小距離,計算出所述多個關(guān)鍵詞在所述文檔中的幾何平均最小距離,作為所述多個關(guān)鍵詞的局部鄰近度; 位置相關(guān)性計算模塊,根據(jù)所述局部鄰近度,計算出所述多個關(guān)鍵詞在所述文檔中的位置相關(guān)性; 結(jié)果生成模塊,根據(jù)所述位置相關(guān)性,對所述文檔進行排序,并生成檢索結(jié)果。
6.根據(jù)權(quán)利要求5所述的檢索裝置,其特征在于,所述局部鄰近度計算模塊根據(jù)以下公式,計算出所述幾何平均最小距離GeoMeanMinDist(Q, D) =t εβη£) t MinDistitx, ; Z)),其中,D 表不所述文檔,Q 表不所述多個關(guān)鍵詞,t1; t2表示所述關(guān)鍵詞對,所述關(guān)鍵詞對表示鄰近詞對,MinDistCt1, t2 ;D)表示t1; t2在D中的最小距離,GeoMeanMinDist (Q, D)表示所述幾何平均最小距離。
7.根據(jù)權(quán)利要求5或6所述的檢索裝置,其特征在于,所述最小距離計算模塊從所述關(guān)鍵詞對的多個距離中選出所述關(guān)鍵詞對的最小距離,其中,在所述關(guān)鍵詞對為逆序?qū)r,根據(jù)以下公式,計算所述關(guān)鍵詞對的最小距離 Dist (ti; tj) = Dist (tj, ti) + p ,其中,i < j, P 表示預(yù)設(shè)值,DistUi, t」)表示所述關(guān)鍵詞對的距離。
8.一種檢索方法,其特征在于,包括 步驟402,最小距離計算模塊計算出查詢所用的多個關(guān)鍵詞中的關(guān)鍵詞對在文檔中的最小距尚; 步驟404,局部鄰近度計算模塊根據(jù)所述關(guān)鍵詞對的最小距離,計算出所述多個關(guān)鍵詞在所述文檔中的幾何平均最小距離,作為所述多個關(guān)鍵詞的局部鄰近度; 步驟406,位置相關(guān)性計算模塊根據(jù)所述局部鄰近度,計算出所述多個關(guān)鍵詞在所述文檔中的位置相關(guān)性; 步驟408,結(jié)果生成模塊根據(jù)所述位置相關(guān)性,對所述文檔進行排序,并生成檢索結(jié)果。
9.根據(jù)權(quán)利要求8所述的檢索方法,其特征在于,在所述步驟204中,所述局部鄰近度計算模塊根據(jù)以下公式,計算出所述幾何平均最小距離
10.根據(jù)權(quán)利要求8或9所述的檢索方法,其特征在于,在所述步驟402中,所述最小距離計算模塊從所述關(guān)鍵詞對的多個距離中選出所述關(guān)鍵詞對的最小距離,其中,在所述關(guān)鍵詞對為逆序?qū)r,根據(jù)以下公式,計算所述關(guān)鍵詞對的距離 Dist (ti; tj) = Dist (tj, ti) + p ,其中,i < j, P 表示預(yù)設(shè)值,DistUi, t」)表示所述關(guān)鍵詞對的距離。
11.一種檢索裝置,其特征在于,包括 位置相關(guān)性計算模塊,根據(jù)查詢所用的多個關(guān)鍵詞在文檔中的全局鄰近度和局部鄰近度,以及預(yù)設(shè)的轉(zhuǎn)換函數(shù),計算出所述多個關(guān)鍵詞在所述文檔中的位置相關(guān)性; 結(jié)果生成模塊,根據(jù)所述位置相關(guān)性,對所述文檔進行排序,并生成檢索結(jié)果。
12.根據(jù)權(quán)利要求11所述的檢索裝置,其特征在于,所述轉(zhuǎn)換函數(shù)包括 π (Q,D) = c+logU+e-s(Q’D))和 / 或
13.根據(jù)權(quán)利要求12所述的檢索裝置,其特征在于,所述位置相關(guān)性計算模塊通過以下公式計算出所述位置相關(guān)性
14.一種檢索方法,其特征在于,包括 步驟602,位置相關(guān)性計算模塊根據(jù)查詢所用的多個關(guān)鍵詞在文檔中的全局鄰近度和局部鄰近度,以及預(yù)設(shè)的轉(zhuǎn)換函數(shù),計算出所述多個關(guān)鍵詞在所述文檔中的位置相關(guān)性;步驟604,結(jié)果生成模塊根據(jù)所述位置相關(guān)性,對所述文檔進行排序,并生成檢索結(jié)果。
15.根據(jù)權(quán)利要求14所述的檢索方法,其特征在于,所述轉(zhuǎn)換函數(shù)包括
16.根據(jù)權(quán)利要求14所述的檢索方法,其特征在于,在所述步驟602中,所述位置相關(guān)性計算模塊通過以下公式計算出所述位置相關(guān)性
全文摘要
本發(fā)明提供檢索裝置和檢索方法,其中一種檢索裝置,用于信息檢索及搜索引擎系統(tǒng),包括最小命中窗口獲取模塊,獲取查詢所用的多個關(guān)鍵詞在文檔中的最小命中窗口;全局鄰近度計算模塊,根據(jù)最小命中窗口的命中窗口長度,以及最小命中窗口中多個關(guān)鍵詞的逆序?qū)?shù),計算出最小命中窗口的擴展命中窗口長度,作為多個關(guān)鍵詞的全局鄰近度;位置相關(guān)性計算模塊,根據(jù)全局鄰近度,計算出多個關(guān)鍵詞在文檔中的位置相關(guān)性;結(jié)果生成模塊,根據(jù)位置相關(guān)性,對文檔進行排序,并生成檢索結(jié)果。通過本發(fā)明,實現(xiàn)了對全局鄰近度的改進,基于該改進的全局鄰近度,可以計算出合理的位置相關(guān)性,以更精確以及高效地進行檢索。
文檔編號G06F17/30GK103064846SQ20111031956
公開日2013年4月24日 申請日期2011年10月20日 優(yōu)先權(quán)日2011年10月20日
發(fā)明者吳尉林, 許歡慶, 史獻忠, 郭永福, 陳沛 申請人:北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司