亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種確定檢索詞在文檔中的位置信息的方法以及裝置的制作方法

文檔序號:6353954閱讀:428來源:國知局
專利名稱:一種確定檢索詞在文檔中的位置信息的方法以及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種確定檢索詞在文檔中的位置信息的方法以及裝置。
背景技術(shù)
全文檢索系統(tǒng)是目前應(yīng)用非常普及的一種檢索系統(tǒng),該檢索系統(tǒng)主要根據(jù)預(yù)先建立的倒排索引文件確定出與用戶終端提交的檢索詞匹配的文檔,該文檔一般為包括用戶終端提交的各檢索詞的文檔。目前,全文檢索系統(tǒng)建立倒排索引文件的過程包括:通過索引程序掃描文檔中的每一個詞項,并分別對每一個詞項建立一個索引項,該索引項用于標識所對應(yīng)詞項在該文檔中出現(xiàn)的位置信息,并根據(jù)為文檔中的每一個詞項分別建立的索引項創(chuàng)建倒排索引文件。在建立倒排索引文件后,全文檢索系統(tǒng)在進行檢索時,首先通過讀取該倒排索引文件確定出包含用戶提交的詞項的文檔集合(該集合中包括的文檔可以以文檔列表的形式存在),以及該詞項在每個文檔中分別出現(xiàn)的位置信息(該位置信息可以以列表的形式存在),然后返回檢索命中結(jié)果。一般情況下,用戶終端提交的檢索詞可以為詞組,也可以為短句,因此,在應(yīng)用全文檢索系統(tǒng)進行檢索時,一般將檢索請求中的檢索詞對應(yīng)的詞組或短句劃分為多個詞項在索引文件中進行查找,并將同時包含所有劃分得到的詞項的文檔確定為初步命中的文檔,然后讀取檢索詞在初步命中的每個文檔中分別出現(xiàn)的位置信息,并將確定出的位置信息滿足設(shè)定位置關(guān)系的文檔確定為最終的命中的文檔返回給該用戶終端。具體地,確定位置信息滿足設(shè)定位置關(guān)系的文檔,即在確定出檢索詞在文檔中出現(xiàn)的位置信息后,根據(jù)檢索詞在文檔中的上述位置信息進行位置關(guān)系計算。在進行位置關(guān)系計算時需要讀取檢索詞包括的各詞項分別在初步命中的文檔中分別出現(xiàn)的位置信息,下面將以讀取下表I中初步命中的文檔包括的檢索詞在文檔中的位置信息為示例進行說明:表1:
權(quán)利要求
1.一種確定檢索詞在文檔中的位置信息的方法,其特征在于,包括: 針對檢索詞被劃分得到的每個詞項,分別執(zhí)行: 確定該詞項在每個初步命中文檔中的位置信息的存儲位置,并根據(jù)確定出的所述存儲位置,讀取該詞項在所述初步命中文檔中的位置信息,其中,所述初步命中文檔中包括所述檢索詞被劃分得到的每個詞項。
2.如權(quán)利要求1所述的方法,其特征在于,確定該詞項在每個初步命中文檔中的位置信息的存儲位置,并根據(jù)確定出的所述存儲位置,讀取該詞項在所述初步命中文檔中的位置信息,包括: 根據(jù)預(yù)先確定的初步命中文檔的順序,確定該詞項在第一個初步命中文檔中的位置信息的存儲位置,并根據(jù)確定出的所述存儲位置,讀取該詞項在所述第一個初步命中文檔中的位置信息;選擇下一個初步命中文檔,并讀取該詞項在該初步命中文檔中的位置信息,直到讀取該詞項在所有初步命中文檔中的位置信息;或 確定該詞項在所有初步命中文檔中的位置信息的存儲位置,并根據(jù)確定出各存儲位置,依次讀取該詞項在各初步命中文檔中的位置信息。
3.如權(quán)利要求1所述的方法,其特征在于,確定該詞項在初步命中文檔中的位置信息的存儲位置,包括: 確定該詞項在初步命中文檔中的各位置信息被保存時分別對應(yīng)的第一起始存儲位置; 根據(jù)確定出的所述存儲位置,讀取該詞項在所述初步命中文檔中的位置信息,包括: 根據(jù)確定出的所述各位置信息被保存時分別對應(yīng)的第一起始存儲位置,讀取該詞項在所述初步命中文檔中的各位置信息。
4.如權(quán)利要求3所述的方法,其特征在于,確定該詞項在初步命中文檔中的各位置信息被保存時分別對應(yīng)的第一起始存儲位置,包括: 確定保存的與該詞項對應(yīng)的第二起始存儲位置,所述第二起始存儲位置為該詞項在包括該詞項的各文檔中的各位置信息被保存時的起始存儲位置;并 確定所述第二起始存儲位置分別與該詞項在初步命中文檔中的第一個位置信息被保存時的起始存儲位置之間的差值; 根據(jù)確定出的所述第二起始存儲位置以及所述差值,分別確定該詞項在初步命中文檔中的各位置信息被保存時分別對應(yīng)的第一起始存儲位置。
5.如權(quán)利要求4所述的方法,其特征在于,確定所述第二起始存儲位置分別與該詞項在初步命中文檔中的第一位置信息被保存時的各起始存儲位置之間的差值,包括: 確定保存的與該詞項對應(yīng)的第三起始存儲位置,所述第三起始存儲位置為用于保存與包括該詞項的各文檔中分別對應(yīng)的所述差值的存儲位置的起始存儲位置;并 根據(jù)該初步命中文檔在包括該詞項的各文檔中對應(yīng)的順序以及用于保存每個文檔對應(yīng)的所述差值的存儲空間,確定用于保存在該初步命中文檔之前的文檔對應(yīng)的所述差值的總存儲空間; 將確定出的所述第三起始存 儲位置與所述總存儲空間之和,確定為差值的起始存儲位置,并根據(jù)確定出的所述起始存儲位置讀取所述差值。
6.一種確定檢索詞在文檔中位置信息的裝置,其特征在于,包括:檢索詞劃分單元,用于將檢索詞劃分為多個詞項; 位置信息讀取單元,用于針對所述檢索詞劃分單元對檢索詞進行劃分得到的每個詞項,分別執(zhí)行:確定該詞項在每個初步命中文檔中的位置信息的存儲位置,并根據(jù)確定出的所述存儲位置,讀取該詞項在所述初步命中文檔中的位置信息,其中,所述初步命中文檔中包括所述檢索詞被劃分得到的每個詞項。
7.如權(quán)利要求6所述的裝置,其特征在于,所述位置信息讀取單元,具體用于: 根據(jù)預(yù)先確定的初步命中文檔的順序,確定該詞項在第一個初步命中文檔中的位置信息的存儲位置,并根據(jù)確定出的所述存儲位置,讀取該詞項在所述第一個初步命中文檔中的位置信息;選擇下一個初步命中文檔,并讀取該詞項在該初步命中文檔中的位置信息,直到讀取該詞項在所有初步命中文檔中的位置信息;或, 確定該詞項在所有初步命中文檔中的位置信息的存儲位置,并根據(jù)確定出各存儲位置,依次讀取該詞項在各初步命中文檔中的位置信息。
8.如權(quán)利要求6所述的裝置,其特征在于,所述位置信息讀取單元,具體用于: 確定該詞項在初步命中文檔中的各位置信息被保存時分別對應(yīng)的第一起始存儲位置; 根據(jù)確定出的所述各位置信息被保存時分別對應(yīng)的第一起始存儲位置,讀取該詞項在所述初步命中文檔中的各位置信息。
9.如權(quán)利要求8所述的裝置,其特征在于,所述位置信息讀取單元,具體用于: 確定保存的與該詞項對應(yīng) 的第二起始存儲位置,所述第二起始存儲位置為該詞項在包括該詞項的各文檔中的各位置信息被保存時的起始存儲位置;并 確定所述第二起始存儲位置分別與該詞項在初步命中文檔中的第一個位置信息被保存時的起始存儲位置之間的差值; 根據(jù)確定出的所述第二起始存儲位置以及所述差值,分別確定該詞項在初步命中文檔中的各位置信息被保存時分別對應(yīng)的第一起始存儲位置。
10.如權(quán)利要求9所述的裝置,其特征在于,所述位置信息讀取單元,具體用于: 確定保存的與該詞項對應(yīng)的第三起始存儲位置,所述第三起始存儲位置為用于保存與包括該詞項的各文檔中分別對應(yīng)的所述差值的存儲位置的起始存儲位置;并 根據(jù)該初步命中文檔在包括該詞項的各文檔中對應(yīng)的順序以及用于保存每個文檔對應(yīng)的所述差值的存儲空間,確定用于保存在該初步命中文檔之前的文檔對應(yīng)的所述差值的總存儲空間; 將確定出的所述第三起始存儲位置與所述總存儲空間之和,確定為差值的起始存儲位置,并根據(jù)確定出的所述起始存儲位置讀取所述差值。
全文摘要
本發(fā)明公開了一種確定檢索詞在文檔中的位置信息的方法以及裝置,包括針對檢索詞被劃分得到的每個詞項,分別執(zhí)行確定該詞項在每個初步命中文檔中的位置信息的存儲位置,并根據(jù)確定出的所述存儲位置,讀取該詞項在所述初步命中文檔中的位置信息,其中,所述初步命中文檔中包括所述檢索詞被劃分得到的每個詞項。根據(jù)本技術(shù)方案,減少了對詞項在非初步命中文檔中的位置信息的讀取過程,從而減少了信息的讀取量,提高了確定檢索詞在文檔中的位置信息的效率,進而提高了檢索效率。
文檔編號G06F17/30GK103176978SQ20111043065
公開日2013年6月26日 申請日期2011年12月20日 優(yōu)先權(quán)日2011年12月20日
發(fā)明者童征宇, 徐劍波, 閆進兵 申請人:北大方正集團有限公司, 北京方正阿帕比技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1