檢索方法

文檔序號：8473071閱讀：408來源：國知局

檢索方法
【技術領域】
[0001] 本發(fā)明涉及信息處理技術，尤其涉及一種檢索方法。
【背景技術】
[0002] 社交媒體和移動服務是互聯(lián)網上普遍流行的信息來源，由于數據量快速的增長，各種應用中不僅僅需要用關鍵字信息來進行查詢，還越來越需要用時間間隔信息來進行查詢。例如，用戶可以提交時間間隔信息來查詢、找到熱點信息，并追蹤事件的發(fā)展；網絡管理員可以執(zhí)行時間間隔信息來查詢、找出活躍的頁面，從而方便網絡的管理和維護。
[0003] 在現(xiàn)有傳統(tǒng)的檢索方法中，同時對時間間隔信息和關鍵字信息的處理需要很大的管理開銷，并且嚴重的依賴緩存容量，無法同時高效地處理時間間隔信息和關鍵字信息。

【發(fā)明內容】

[0004] 本發(fā)明實施例提供一種檢索方法，以解決現(xiàn)有的檢索方法中，無法同時高效的處理時間間隔信息和關鍵字信息的問題。
[0005] 本發(fā)明實施例提供一種檢索方法，包括：
[0006] 獲取頁面的時間間隔信息與關鍵字信息；
[0007] 根據所述時間間隔信息與所述關鍵字信息構建TriI索引；
[0008] 根據所述TriI索引計算待查詢的關鍵字的相關度分數；
[0009] 根據預設規(guī)則獲得與所述相關度分數對應的頁面，將所述相關度分數對應的頁面作為檢索結果。
[0010] 如上所述的方法，其中，所述根據所述TriI索引計算待查詢的關鍵字的相關度分數，包括：
[0011] 根據所述TriI索引確定所述待查詢的關鍵字的類型；所述關鍵字的類型包括頻繁關鍵字和非頻繁關鍵字；
[0012] 計算確定類型后的所述待查詢的關鍵字的相關度分數。
[0013] 如上所述的方法，其中，所述根據預設規(guī)則獲得與所述相關度分數對應的頁面，具體包括：
[0014] 根據TIKQ算法獲得所述相關度分數最高的前k位各自對應的頁面，其中，k為自然數。
[0015] 如上所述的方法，其中，所述TriI索引包括關鍵字匹配表，所述關鍵字匹配表用于存儲所述關鍵字、所述關鍵字的標識符、所述關鍵字的頁面數以及所述關鍵字列表的存儲結構。
[0016] 如上所述的方法，其中，所述關鍵字列表的存儲結構包括：聚合線段樹和分布式文件系統(tǒng)HDFS塊文件；
[0017] 其中，所述聚合線段樹用于存儲所述頻繁關鍵字，所述聚合線段樹的樹節(jié)點還存儲所述頻繁關鍵字的標識符以及所述頻繁關鍵字的權重；
[0018] 所述HDFS塊文件用于存儲所述非頻繁關鍵字，所述HDFS塊文件中還存儲所述非頻繁關鍵字的標識符和所述非頻繁關鍵字在頁面中的余弦相似度。
[0019] 如上所述的方法，其中，所述相關度分數包括時間間隔相似度S(p.i，q.i)和關鍵字相似度9 (P.d，q.d);
[0020]所述相關度分數G(p,q)為：G(p,q) =a? 6 (p.i,q.i) + (l-a) ? 0 (p.d，q.d);
[0021] 其中，a為查詢偏好率，aG[0, 1]，用于權衡所述時間間隔相似度和關鍵字相似度的相對影響；P.i為頁面的時間間隔范圍；q.i為查詢的時間間隔范圍；P.d為頁面的關鍵字集合；q.d為查詢的關鍵字集合。
[0022] 如上所述的方法，其中，所述時間間隔相似度S(p.i，q.i)為：
【主權項】
1. 一種檢索方法，其特征在于，包括：獲取頁面的時間間隔信息與關鍵字信息；根據所述時間間隔信息與所述關鍵字信息構建Tril索引；根據所述Tril索引計算待查詢的關鍵字的相關度分數；根據預設規(guī)則獲得與所述相關度分數對應的頁面，將所述相關度分數對應的頁面作為檢索結果。
2. 根據權利要求1所述的方法，其特征在于，所述根據所述Tril索引計算待查詢的關鍵字的相關度分數，包括：根據所述Tril索引確定所述待查詢的關鍵字的類型；所述關鍵字的類型包括頻繁關鍵字和非頻繁關鍵字；計算確定類型后的所述待查詢的關鍵字的相關度分數。
3. 根據權利要求1所述的方法，其特征在于，所述根據預設規(guī)則獲得與所述相關度分數對應的頁面，具體包括：根據TIKQ算法獲得所述相關度分數最高的前k位各自對應的頁面，其中，k為自然數。
4. 根據權利要求2所述的方法，其特征在于，所述Tril索引包括關鍵字匹配表，所述關鍵字匹配表用于存儲所述關鍵字、所述關鍵字的標識符、所述關鍵字的頁面數W及所述關鍵字列表的存儲結構。
5. 根據權利要求4所述的方法，其特征在于，所述關鍵字列表的存儲結構包括；聚合線段樹和分布式文件系統(tǒng)皿FS塊文件；其中，所述聚合線段樹用于存儲所述頻繁關鍵字，所述聚合線段樹的樹節(jié)點還存儲所述頻繁關鍵字的標識符W及所述頻繁關鍵字的權重；所述皿FS塊文件用于存儲所述非頻繁關鍵字，所述皿FS塊文件中還存儲所述非頻繁關鍵字的標識符和所述非頻繁關鍵字在頁面中的余弦相似度。
6. 根據權利要求1-5任一項所述的方法，其特征在于，所述相關度分數包括時間間隔相似度5 (P.i，q.i)和關鍵字相似度0 (P.d，q.d); 所述相關度分數訂八<7)為：f(/W) =a'<5(/;./，y/) + (l-a)'0(/).(/，y.(/); 其中，a為查詢偏好率，a G [〇，l]，用于權衡所述時間間隔相似度和關鍵字相似度的相對影響；P.i為頁面的時間間隔范圍；q.i為查詢的時間間隔范圍；P.d為頁面的關鍵字集合；q.d為查詢的關鍵字集合。
7. 根據權利要求6所述的方法，其特征在于，所述時間間隔相似度5 (p.i，q.i)為；
5 (p.i,q.i)G[0, 1]；其中，Ip.inq.iI為所述時間間隔交集的長度；Ip.iuq.iI為所述時間間隔并集的長度。
8. 根據權利要求6所述的方法，其特征在于，所述關鍵字相似度0 (P.d，q.d)為：
其中，l+ln(f\p.d) 為所述頁面的關鍵字集合P.d中關鍵字t的頻率， ?t，g.d=In(1+i壯t，D)，Z'斯，凸=7^ ;i壯t，D為頁面集合D中所述關鍵字t的獨特性；壯t，D為巧t'D 所述頁面集合D中包含所述關鍵字t的頁面?zhèn)€數。
【專利摘要】本發(fā)明實施例提供一種檢索方法。該檢索方法包括：獲取頁面的時間間隔信息與關鍵字信息；根據時間間隔信息與關鍵字信息構建TriI索引；根據TriI索引計算待查詢的關鍵字的相關度分數；根據預設規(guī)則獲得與相關度分數對應的頁面，將相關度分數對應的頁面作為檢索結果。本發(fā)明實施例通過根據構建基于時間間隔信息和關鍵字信息的TriI索引，并根據該TriI索引獲得待查詢的關鍵字的相關度分數，根據TIKQ算法獲得相關度分數最高的前k位各自對應的頁面，并將獲得的頁面作為檢索結果。實現(xiàn)了檢索時的高效且同時的對時間間隔信息和關鍵字信息進行處理，提高了TIKQ中文本內容具有較大區(qū)分度的場景的查詢效率。
【IPC分類】G06F17-30
【公開號】CN104794238
【申請?zhí)枴緾N201510229773
【發(fā)明人】張孝, 李睿, 于翌睎, 王珊
【申請人】中國人民大學
【公開日】2015年7月22日
【申請日】2015年5月7日

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：張孝;李睿;于翌睎;王珊;
技術所有人：中國人民大學;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

信息檢索方法有哪些相關技術

文獻檢索方法相關技術

搜索引擎檢索方法相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

檢索方法