亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

檢索方法

文檔序號:8473071閱讀:408來源:國知局
檢索方法
【技術領域】
[0001] 本發(fā)明涉及信息處理技術,尤其涉及一種檢索方法。
【背景技術】
[0002] 社交媒體和移動服務是互聯(lián)網上普遍流行的信息來源,由于數據量快速的增長, 各種應用中不僅僅需要用關鍵字信息來進行查詢,還越來越需要用時間間隔信息來進行查 詢。例如,用戶可以提交時間間隔信息來查詢、找到熱點信息,并追蹤事件的發(fā)展;網絡管理 員可以執(zhí)行時間間隔信息來查詢、找出活躍的頁面,從而方便網絡的管理和維護。
[0003] 在現(xiàn)有傳統(tǒng)的檢索方法中,同時對時間間隔信息和關鍵字信息的處理需要很大的 管理開銷,并且嚴重的依賴緩存容量,無法同時高效地處理時間間隔信息和關鍵字信息。

【發(fā)明內容】

[0004] 本發(fā)明實施例提供一種檢索方法,以解決現(xiàn)有的檢索方法中,無法同時高效的處 理時間間隔信息和關鍵字信息的問題。
[0005] 本發(fā)明實施例提供一種檢索方法,包括:
[0006] 獲取頁面的時間間隔信息與關鍵字信息;
[0007] 根據所述時間間隔信息與所述關鍵字信息構建TriI索引;
[0008] 根據所述TriI索引計算待查詢的關鍵字的相關度分數;
[0009] 根據預設規(guī)則獲得與所述相關度分數對應的頁面,將所述相關度分數對應的頁面 作為檢索結果。
[0010] 如上所述的方法,其中,所述根據所述TriI索引計算待查詢的關鍵字的相關度分 數,包括:
[0011] 根據所述TriI索引確定所述待查詢的關鍵字的類型;所述關鍵字的類型包括頻 繁關鍵字和非頻繁關鍵字;
[0012] 計算確定類型后的所述待查詢的關鍵字的相關度分數。
[0013] 如上所述的方法,其中,所述根據預設規(guī)則獲得與所述相關度分數對應的頁面,具 體包括:
[0014] 根據TIKQ算法獲得所述相關度分數最高的前k位各自對應的頁面,其中,k為自 然數。
[0015] 如上所述的方法,其中,所述TriI索引包括關鍵字匹配表,所述關鍵字匹配表用 于存儲所述關鍵字、所述關鍵字的標識符、所述關鍵字的頁面數以及所述關鍵字列表的存 儲結構。
[0016] 如上所述的方法,其中,所述關鍵字列表的存儲結構包括:聚合線段樹和分布式文 件系統(tǒng)HDFS塊文件;
[0017] 其中,所述聚合線段樹用于存儲所述頻繁關鍵字,所述聚合線段樹的樹節(jié)點還存 儲所述頻繁關鍵字的標識符以及所述頻繁關鍵字的權重;
[0018] 所述HDFS塊文件用于存儲所述非頻繁關鍵字,所述HDFS塊文件中還存儲所述非 頻繁關鍵字的標識符和所述非頻繁關鍵字在頁面中的余弦相似度。
[0019] 如上所述的方法,其中,所述相關度分數包括時間間隔相似度S(p.i,q.i)和關 鍵字相似度9 (P.d,q.d);
[0020]所述相關度分數G(p,q)為:G(p,q) =a? 6 (p.i,q.i) + (l-a) ? 0 (p.d,q.d);
[0021] 其中,a為查詢偏好率,aG[0, 1],用于權衡所述時間間隔相似度和關鍵字相似 度的相對影響;P.i為頁面的時間間隔范圍;q.i為查詢的時間間隔范圍;P.d為頁面的關 鍵字集合;q.d為查詢的關鍵字集合。
[0022] 如上所述的方法,其中,所述時間間隔相似度S(p.i,q.i)為:
【主權項】
1. 一種檢索方法,其特征在于,包括: 獲取頁面的時間間隔信息與關鍵字信息; 根據所述時間間隔信息與所述關鍵字信息構建Tril索引; 根據所述Tril索引計算待查詢的關鍵字的相關度分數; 根據預設規(guī)則獲得與所述相關度分數對應的頁面,將所述相關度分數對應的頁面作為 檢索結果。
2. 根據權利要求1所述的方法,其特征在于,所述根據所述Tril索引計算待查詢的關 鍵字的相關度分數,包括: 根據所述Tril索引確定所述待查詢的關鍵字的類型;所述關鍵字的類型包括頻繁關 鍵字和非頻繁關鍵字; 計算確定類型后的所述待查詢的關鍵字的相關度分數。
3. 根據權利要求1所述的方法,其特征在于,所述根據預設規(guī)則獲得與所述相關度分 數對應的頁面,具體包括: 根據TIKQ算法獲得所述相關度分數最高的前k位各自對應的頁面,其中,k為自然數。
4. 根據權利要求2所述的方法,其特征在于,所述Tril索引包括關鍵字匹配表,所述關 鍵字匹配表用于存儲所述關鍵字、所述關鍵字的標識符、所述關鍵字的頁面數W及所述關 鍵字列表的存儲結構。
5. 根據權利要求4所述的方法,其特征在于,所述關鍵字列表的存儲結構包括;聚合線 段樹和分布式文件系統(tǒng)皿FS塊文件; 其中,所述聚合線段樹用于存儲所述頻繁關鍵字,所述聚合線段樹的樹節(jié)點還存儲所 述頻繁關鍵字的標識符W及所述頻繁關鍵字的權重; 所述皿FS塊文件用于存儲所述非頻繁關鍵字,所述皿FS塊文件中還存儲所述非頻繁 關鍵字的標識符和所述非頻繁關鍵字在頁面中的余弦相似度。
6. 根據權利要求1-5任一項所述的方法,其特征在于,所述相關度分數包括時間間隔 相似度5 (P.i,q.i)和關鍵字相似度0 (P.d,q.d); 所述相關度分數訂八<7)為:f(/W) =a'<5(/;./,y/) + (l-a)'0(/).(/,y.(/); 其中,a為查詢偏好率,a G [〇,l],用于權衡所述時間間隔相似度和關鍵字相似度的 相對影響;P.i為頁面的時間間隔范圍;q.i為查詢的時間間隔范圍;P.d為頁面的關鍵字 集合;q.d為查詢的關鍵字集合。
7. 根據權利要求6所述的方法,其特征在于,所述時間間隔相似度5 (p.i,q.i)為;
5 (p.i,q.i)G[0, 1]; 其中,Ip.inq.iI為所述時間間隔交集的長度;Ip.iuq.iI為所述時間間隔并集的 長度。
8. 根據權利要求6所述的方法,其特征在于,所述關鍵字相似度0 (P.d,q.d)為:
其中,l+ln(f\p.d) 為所述頁面的關鍵字集合P.d中關鍵字t的頻率, ?t,g.d=In(1+i壯t,D),Z'斯,凸=7^ ;i壯t,D為頁面集合D中所述關鍵字t的獨特性;壯t,D為 巧t'D 所述頁面集合D中包含所述關鍵字t的頁面?zhèn)€數。
【專利摘要】本發(fā)明實施例提供一種檢索方法。該檢索方法包括:獲取頁面的時間間隔信息與關鍵字信息;根據時間間隔信息與關鍵字信息構建TriI索引;根據TriI索引計算待查詢的關鍵字的相關度分數;根據預設規(guī)則獲得與相關度分數對應的頁面,將相關度分數對應的頁面作為檢索結果。本發(fā)明實施例通過根據構建基于時間間隔信息和關鍵字信息的TriI索引,并根據該TriI索引獲得待查詢的關鍵字的相關度分數,根據TIKQ算法獲得相關度分數最高的前k位各自對應的頁面,并將獲得的頁面作為檢索結果。實現(xiàn)了檢索時的高效且同時的對時間間隔信息和關鍵字信息進行處理,提高了TIKQ中文本內容具有較大區(qū)分度的場景的查詢效率。
【IPC分類】G06F17-30
【公開號】CN104794238
【申請?zhí)枴緾N201510229773
【發(fā)明人】張孝, 李睿, 于翌睎, 王珊
【申請人】中國人民大學
【公開日】2015年7月22日
【申請日】2015年5月7日
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1