亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于索引表檢索的方法及裝置的制造方法

文檔序號:8258743閱讀:830來源:國知局
基于索引表檢索的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請涉及信息檢索技術(shù)領(lǐng)域,具體涉及一種基于索引表進(jìn)行檢索的方法及裝置。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)技術(shù)的發(fā)展給人類的生活帶來了極大的方便,各種各樣的內(nèi)容充斥著網(wǎng)絡(luò),如何在互聯(lián)網(wǎng)的海洋中找到自己關(guān)注的內(nèi)容也是互聯(lián)網(wǎng)開發(fā)者們一直努力解決的問題。每一個網(wǎng)站都有自己的搜索引擎,現(xiàn)有技術(shù)中的網(wǎng)站的搜索引擎在接收到用戶發(fā)起的搜索請求后,會通過接口將搜索到的相關(guān)結(jié)果反饋給用戶。
[0003]因此,如何通過一種如何準(zhǔn)確、快速地利用這種索引結(jié)構(gòu)搜索到相關(guān)搜索信息并反饋給用戶成為了亟待解決的一技術(shù)問題。

【發(fā)明內(nèi)容】

[0004]本申請的目的在于提供一種基于索引表進(jìn)行檢索的方法及裝置。
[0005]為了達(dá)成上述目的,本申請揭示了一種基于索引表進(jìn)行檢索的方法,包括:為收集的文本分配文本標(biāo)識,并對所述文本進(jìn)行分詞處理;根據(jù)所述文本處理后得到的各分詞提取所述文本的參數(shù)信息,并依據(jù)所述文本的參數(shù)信息更新索引表;識別用戶輸入的搜索詞并對所述搜索詞進(jìn)行分詞,根據(jù)分詞處理所得到的多個分詞中的每一個分別在所述索引表中進(jìn)行遍歷,輸出遍歷結(jié)果。
[0006]進(jìn)一步地,根據(jù)所述文本處理后得到的各分詞提取所述文本的參數(shù)信息,并依據(jù)所述文本的參數(shù)信息更新索引表,包括:統(tǒng)計所述文本處理后得到的各分詞在所述文本內(nèi)出現(xiàn)的次數(shù)以及出現(xiàn)的位置,并依據(jù)各分詞在所述文本內(nèi)出現(xiàn)的次數(shù)以及出現(xiàn)的位置形成所述文本內(nèi)各分詞的共生信息進(jìn)行存儲;將所述文本標(biāo)識綁定在所述文本內(nèi)各分詞的共生信息中,將綁定處理后的各分詞的共生信息與索引表中的相應(yīng)分詞建立對應(yīng)關(guān)系從而更新所述索引表。
[0007]進(jìn)一步地,依據(jù)各分詞在所述文本內(nèi)出現(xiàn)的次數(shù)以及出現(xiàn)的位置形成所述文本內(nèi)各分詞的共生信息進(jìn)行存儲,包括:以內(nèi)存區(qū)塊的方式對各分詞的共生信息進(jìn)行存儲,一個內(nèi)存區(qū)塊存儲一個或多個文本內(nèi)各分詞的共生信息,屬于同一個文本的所有分詞的共生信息被分配至同一個內(nèi)存區(qū)塊,每個內(nèi)存區(qū)塊內(nèi)待存儲的各分詞的共生信息由當(dāng)前可用的最尚地址開始進(jìn)彳丁存儲。
[0008]進(jìn)一步地,在每個內(nèi)存區(qū)塊內(nèi)設(shè)置有時間戳,所述時間戳記錄每個內(nèi)存區(qū)塊內(nèi)最近一次的存儲時間;以單向環(huán)形鏈表組織多個內(nèi)存區(qū)塊,以頭指針和尾指針分別標(biāo)識起始內(nèi)存區(qū)塊和結(jié)束內(nèi)存區(qū)塊,從頭指針到尾指針的方向上,各內(nèi)存區(qū)塊的時間戳所顯示的存儲時間距當(dāng)前時間越來越遠(yuǎn)。
[0009]進(jìn)一步地,將綁定處理后的各分詞的共生信息與索引表中的相應(yīng)分詞建立對應(yīng)關(guān)系從而更新所述索引表,包括:采用雙向環(huán)形鏈表建立所述索引表,所述索引表中每個節(jié)點(diǎn)對應(yīng)一分詞并存儲與所述分詞對應(yīng)的共生信息;對于綁定處理后的各分詞的共生信息,根據(jù)所述各分詞中的每一個,在所述索引表的節(jié)點(diǎn)上進(jìn)行遍歷,當(dāng)命中某一分詞時,在命中的所述分詞對應(yīng)的節(jié)點(diǎn)上存儲綁定處理后的對應(yīng)分詞的共生信息,或,當(dāng)沒有命中的分詞時,在所述索引表中的空白節(jié)點(diǎn)上創(chuàng)建所述沒有命中的分詞,并在所述空白節(jié)點(diǎn)上存儲經(jīng)綁定處理后的所述沒有命中的分詞的共生信息。
[0010]進(jìn)一步地,周期性對所述索引表中的所有節(jié)點(diǎn)的有效性進(jìn)行查詢,當(dāng)節(jié)點(diǎn)內(nèi)存儲的綁定處理后的所有分詞的共生信息失效時,在所述索引表中屏蔽所述節(jié)點(diǎn);當(dāng)所述節(jié)點(diǎn)被屏蔽的時長超過一預(yù)設(shè)門限,清空所述節(jié)點(diǎn),保留所述節(jié)點(diǎn)的內(nèi)存空間。
[0011]進(jìn)一步地,識別用戶輸入的搜索詞并對所述搜索詞進(jìn)行分詞,根據(jù)分詞處理所得到的多個分詞中的每一個分別在所述索引表中進(jìn)行遍歷,輸出遍歷結(jié)果,包括:識別用戶輸入的搜索詞并對所述搜索詞進(jìn)行分詞,根據(jù)分詞處理所得到的多個分詞中的每一個分別在所述索引表中進(jìn)行遍歷,獲得命中的多個節(jié)點(diǎn);針對命中的每一個節(jié)點(diǎn),分別獲取所述節(jié)點(diǎn)內(nèi)所存儲的所有共生信息形成一組共生信息,從而得到與所述命中的節(jié)點(diǎn)數(shù)對應(yīng)的多組共生信息;由所述多組共生信息中提取出具有同一文本標(biāo)識的共生信息,對于具有同一文本標(biāo)識的共生信息,成對地比較所述同一文本標(biāo)識的共生信息中對應(yīng)分詞在文本中出現(xiàn)的位置以及出現(xiàn)的次數(shù),當(dāng)所述對應(yīng)分詞在文本中出現(xiàn)的位置之間的距離小于或等于一第一門限且所述次數(shù)小于或等于一第二門限時,將所述同一文本標(biāo)識進(jìn)行輸出。
[0012]進(jìn)一步地,根據(jù)所述文本處理后得到的各分詞提取所述文本的參數(shù)信息,并依據(jù)所述文本的參數(shù)信息更新索引表,包括:計算所述分詞的個數(shù),將所述分詞的個數(shù)作為文本長度,還記錄所述文本長度的獲取時間;將所述文本標(biāo)識、所述文本長度或所述文本長度的獲取時間中一種或多種的組合,與所述文本進(jìn)行合并作為文本信息對象,根據(jù)所述文本信息對象更新索引表。
[0013]進(jìn)一步地,根據(jù)所述文本信息對象更新索引表,包括:將文本標(biāo)識作為源碼,與預(yù)設(shè)的掩碼經(jīng)過按位運(yùn)算或邏輯運(yùn)算映射為操作數(shù),將所述映射得到的操作數(shù)作為內(nèi)存地址;根據(jù)所述內(nèi)存地址對所述文本標(biāo)識對應(yīng)的文本信息對象進(jìn)行存儲。
[0014]進(jìn)一步地,根據(jù)所述文本信息對象更新索引表,包括:周期性檢測為所存儲的文本信息對象設(shè)置的有效位標(biāo)識,當(dāng)所述文本信息對象內(nèi)文本長度的獲取時間距當(dāng)前時間超過一預(yù)設(shè)時長,將所述文本信息對象的有效位標(biāo)識設(shè)置為失效。
[0015]進(jìn)一步地,識別用戶輸入的搜索詞并對所述搜索詞進(jìn)行分詞,根據(jù)分詞處理所得到的多個分詞中的每一個分別在所述索引表中進(jìn)行遍歷,輸出遍歷結(jié)果,包括:識別用戶輸入的搜索詞并對所述搜索詞進(jìn)行分詞,根據(jù)分詞處理所得到的多個分詞中的每一個分別在所述索引表內(nèi)所存儲的有效的文本信息對象的文本中進(jìn)行遍歷,將命中的文本信息對象輸出。
[0016]為了達(dá)成上述目的,本申請還揭示了一種基于索引表進(jìn)行檢索的裝置,包括:分詞配置模塊,用于為收集的文本分配文本標(biāo)識,并對所述文本進(jìn)行分詞處理;索引更新模塊,用于根據(jù)所述文本處理后得到的各分詞提取所述文本的參數(shù)信息,并依據(jù)所述文本的參數(shù)信息更新索引表;檢索模塊,用于識別用戶輸入的搜索詞并對所述搜索詞進(jìn)行分詞,根據(jù)分詞處理所得到的多個分詞中的每一個分別在所述索引表中進(jìn)行遍歷,輸出遍歷結(jié)果。
[0017]與現(xiàn)有技術(shù)相比,本申請可以獲得包括以下技術(shù)效果:
[0018]I)本申請集合了對索引表進(jìn)行建立和更新的機(jī)制,并依托于上述索引表進(jìn)行搜索,能夠更加合理高效快速的捕捉到用戶發(fā)起的搜索請求的目標(biāo)結(jié)果。
[0019]2)本申請通過接口搜索到的相關(guān)結(jié)果進(jìn)行分詞并獲取共生信息形成索引結(jié)構(gòu)從而對索引表進(jìn)行建立和更新,從而大大降低了存儲的數(shù)據(jù)量,并且加快了在索引表中檢索遍歷的速度,以便于更加合理高效快速的捕捉到用戶發(fā)起的搜索請求的目標(biāo)結(jié)果。
[0020]當(dāng)然,以上技術(shù)效果并不一定要同時達(dá)成。
【附圖說明】
[0021]此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實(shí)施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:
[0022]圖1為本申請實(shí)施例的方法流程示意圖。
[0023]圖2為圖1中步驟S102的方法流程示意圖。
[0024]圖3為圖1中步驟S104的方法流程示意圖。
[0025]圖4為圖1中步驟S102?S104的方法流程示意圖。
[0026]圖5為本申請實(shí)施例的裝置結(jié)構(gòu)圖。
[0027]圖6為本申請實(shí)施例的又一裝置結(jié)構(gòu)圖。
[0028]圖7為本申請實(shí)施例的又一裝置結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0029]以下將配合附圖及實(shí)施例來詳細(xì)說明本申請的實(shí)施方式,藉此對本申請如何應(yīng)用技術(shù)手段來解決技術(shù)問題并達(dá)成技術(shù)功效的實(shí)現(xiàn)過程能充分理解并據(jù)以實(shí)施。
[0030]如在說明書及權(quán)利要求當(dāng)中使用了某些詞匯來指稱特定組件。本領(lǐng)域技術(shù)人員應(yīng)可理解,硬件制造商可能會用不同名詞來稱呼同一個組件。本說明書及權(quán)利要求并不以名稱的差異來作為區(qū)分組件的方式,而是以組件在功能上的差異來作為區(qū)分的準(zhǔn)則。如在通篇說明書及權(quán)利要求當(dāng)中所提及的“包含”為一開放式用語,故應(yīng)解釋成“包含但不限定于”。“大致”是指在可接收的誤差范圍內(nèi),本領(lǐng)域技術(shù)人員能夠在一定誤差范圍內(nèi)解決所述技術(shù)問題,基本達(dá)到所述技術(shù)效果。此外,“耦接”一詞在此包含任何直接及間接的電性耦接手段。因此,若文中描述一第一裝置耦接于一第二裝置,則代表所述第一裝置可直接電性耦接于所述第二裝置,或通過其他裝置或耦接手段間接地電性耦接至所述第二裝置。說明書后續(xù)描述為實(shí)施本申請的較佳實(shí)施方式,然所述描述乃以說明本申請的一般原則為目的,并非用以限定本申請的范圍。本申請的保護(hù)范圍當(dāng)視所附權(quán)利要求所界定者為準(zhǔn)。
[0031]還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的商品或者系統(tǒng)不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種商品或者系統(tǒng)所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的商品或者系統(tǒng)
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1