網(wǎng)頁信息處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁信息處理方法及裝置。
【背景技術(shù)】
[0002] 社交媒體和移動(dòng)服務(wù)是互聯(lián)網(wǎng)上普遍流行的信息來源。根據(jù)2013年的推特招股 說明書,推特每月有超過2. 15億的活躍用戶,每天產(chǎn)生近5億條推文。由于網(wǎng)絡(luò)數(shù)據(jù)量史 無前例的增長(zhǎng),當(dāng)用戶進(jìn)行網(wǎng)頁信息查詢時(shí),為了準(zhǔn)確得到所需的信息,越來越需要結(jié)合時(shí) 間間隔來進(jìn)行查詢,而不僅僅使用關(guān)鍵字來進(jìn)行查詢。例如,在推特中,由于熱點(diǎn)推文與用 戶點(diǎn)擊率超過給定閾值的時(shí)間間隔有關(guān),因此用戶可以通過提交時(shí)間間隔結(jié)合關(guān)鍵字的查 詢條件來找到熱點(diǎn)推文,并追蹤事件的發(fā)展。再如,維基百科標(biāo)記了存檔文件從創(chuàng)建到最后 一次修改的這段時(shí)間間隔,管理員可以通過執(zhí)行時(shí)間間隔及關(guān)鍵字查詢來找出活躍網(wǎng)頁, 從而方便網(wǎng)絡(luò)的管理和維護(hù)。
[0003] 現(xiàn)有技術(shù)中,結(jié)合時(shí)間間隔和關(guān)鍵詞這兩方面的查詢條件對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行查詢和 處理時(shí),通常采用經(jīng)典的向量空間模型,對(duì)待檢索網(wǎng)頁的時(shí)間間隔信息和文本信息建立統(tǒng) 一的倒排索引檢索模型,同時(shí)針對(duì)這兩類信息進(jìn)行檢索處理,完成待檢索網(wǎng)頁的篩選過濾 以及候選數(shù)據(jù)集與查詢條件之間的相關(guān)度計(jì)算。但是,這種信息處理方式采用統(tǒng)一的索引 同時(shí)對(duì)所述待檢索網(wǎng)頁的時(shí)間間隔信息和文本信息進(jìn)行檢索,當(dāng)給定的查詢關(guān)鍵字區(qū)分度 不大,即,大量的待檢索網(wǎng)頁共同包含所述查詢關(guān)鍵字時(shí),同時(shí)針對(duì)待檢索網(wǎng)頁的文本信息 進(jìn)行檢索,容易造成信息處理量大,查詢效率低下的問題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實(shí)施例提供一種網(wǎng)頁信息處理方法及裝置,用以解決現(xiàn)有技術(shù)中同時(shí)針對(duì) 查詢時(shí)間間隔及查詢關(guān)鍵字進(jìn)行網(wǎng)頁檢索過程中檢索效率及檢索性能低下的問題。
[0005] 本發(fā)明實(shí)施例提供一種網(wǎng)頁信息處理方法,所述方法包括:
[0006] 獲取待檢索網(wǎng)頁的時(shí)間間隔信息;
[0007] 根據(jù)所述待檢索網(wǎng)頁的時(shí)間間隔信息將所述待檢索網(wǎng)頁的集合劃分為多個(gè)區(qū)域, 通過線段樹結(jié)構(gòu)將所述時(shí)間間隔信息構(gòu)成的時(shí)間間隔集合劃分成至少兩個(gè)單元時(shí)間間 隔;
[0008] 基于所述單元時(shí)間間隔為每個(gè)區(qū)域添加倒排線段樹索引;
[0009] 根據(jù)查詢時(shí)間間隔以及每個(gè)區(qū)域的倒排線段樹索引分別對(duì)每個(gè)區(qū)域內(nèi)的待檢索 網(wǎng)頁進(jìn)行檢索,確定與所述查詢時(shí)間間隔關(guān)聯(lián)的第一候選網(wǎng)頁;
[0010] 從所述第一候選網(wǎng)頁中確定包含查詢關(guān)鍵字的第二候選網(wǎng)頁;
[0011] 輸出所述第二候選網(wǎng)頁。
[0012] 在本發(fā)明的另一實(shí)施例中,所述基于所述單元時(shí)間間隔為每個(gè)區(qū)域添加倒排線段 樹索引具體包括:
[0013] 基于所述單元時(shí)間間隔對(duì)每個(gè)區(qū)域中的待檢索網(wǎng)頁構(gòu)建線段樹索引;
[0014] 通過節(jié)點(diǎn)摘要文件存儲(chǔ)所述線段樹中每個(gè)待檢索網(wǎng)頁的文本統(tǒng)計(jì)信息;
[0015] 通過節(jié)點(diǎn)倒排索引表存儲(chǔ)每個(gè)區(qū)域的待檢索網(wǎng)頁的倒排列表。
[0016] 在本發(fā)明的另一實(shí)施例中,還包括:
[0017] 所述線段樹索引的每個(gè)葉節(jié)點(diǎn)中存儲(chǔ)所述葉節(jié)點(diǎn)與其孩子節(jié)點(diǎn)中包含的所述待 檢索網(wǎng)頁的數(shù)量;
[0018] 所述文本統(tǒng)計(jì)信息包括行標(biāo)識(shí)符和二元組列表,所述行標(biāo)識(shí)符為所述待檢索網(wǎng)頁 中包含的文本信息,所述二元組列表的形式為node=dfItf,其中,node表示所述線段樹索 引中包含所述文本信息的待檢索網(wǎng)頁的標(biāo)識(shí)符,df表示包含所述文本信息的待檢索網(wǎng)頁的 總數(shù),tf表示所述文本信息在包含所述文本信息的待檢索網(wǎng)頁中出現(xiàn)的次數(shù);
[0019] 所述倒排列表包括行鍵值及鍵值對(duì),其中,所述行鍵值為所述待檢索網(wǎng)頁在所述 線段樹索引中的標(biāo)識(shí)符,所述鍵值對(duì)包括所述待檢索網(wǎng)頁中包含的所述文本信息及所述待 檢索網(wǎng)頁的標(biāo)識(shí)符對(duì)應(yīng)的連接。
[0020] 在本發(fā)明的另一實(shí)施例中,還包括:
[0021] 若確定有至少兩個(gè)所述第二候選網(wǎng)頁,分別計(jì)算所述至少兩個(gè)第二候選網(wǎng)頁的相 關(guān)度分?jǐn)?shù),并輸出至少一個(gè)所述第二候選網(wǎng)頁;其中,所述至少一個(gè)第二候選網(wǎng)頁的相關(guān)度 分?jǐn)?shù)值大于其它第二候選網(wǎng)頁的相關(guān)度分?jǐn)?shù)值。
[0022] 在本發(fā)明的另一實(shí)施例中,所述相關(guān)度分?jǐn)?shù)的計(jì)算方法為:
[0023] ^ (p,q) =a* 8 (p.i,q.i) + (1-a) * 0 (p.d,q.d)
[0024] 其中,p表示所述第一候選網(wǎng)頁,q表示查詢條件,p.i表示所述第一候選網(wǎng)頁的時(shí) 間間隔范圍,q.i表示所述查詢時(shí)間間隔的范圍,P.d表示所述第一候選網(wǎng)頁的文本信息集 合,q.d表示所述查詢關(guān)鍵字集合,S(p.i,q.i)表示所述第一候選網(wǎng)頁與所述查詢時(shí)間間 隔的時(shí)間間隔相似度,9 (P.k,q.k)表示所述第一候選網(wǎng)頁與所述查詢關(guān)鍵字的關(guān)鍵字相 關(guān)度,a為查詢偏好率,用于權(quán)衡所述時(shí)間間隔相似度和關(guān)鍵字相關(guān)度的相對(duì)影響;
【主權(quán)項(xiàng)】
1. 一種網(wǎng)頁信息處理方法,其特征在于,包括: 獲取待檢索網(wǎng)頁的時(shí)間間隔信息; 根據(jù)所述待檢索網(wǎng)頁的時(shí)間間隔信息將所述待檢索網(wǎng)頁的集合劃分為多個(gè)區(qū)域,通過 線段樹結(jié)構(gòu)將所述時(shí)間間隔信息構(gòu)成的時(shí)間間隔集合劃分成至少兩個(gè)單元時(shí)間間隔; 基于所述單元時(shí)間間隔為每個(gè)區(qū)域添加倒排線段樹索引; 根據(jù)查詢時(shí)間間隔W及每個(gè)區(qū)域的倒排線段樹索引分別對(duì)每個(gè)區(qū)域內(nèi)的待檢索網(wǎng)頁 進(jìn)行檢索,確定與所述查詢時(shí)間間隔關(guān)聯(lián)的第一候選網(wǎng)頁; 從所述第一候選網(wǎng)頁中確定包含查詢關(guān)鍵字的第二候選網(wǎng)頁; 輸出所述第二候選網(wǎng)頁。
2. 根據(jù)權(quán)利要求1所述的網(wǎng)頁信息處理方法,其特征在于,所述基于所述單元時(shí)間間 隔為每個(gè)區(qū)域添加倒排線段樹索引具體包括: 基于所述單元時(shí)間間隔對(duì)每個(gè)區(qū)域中的待檢索網(wǎng)頁構(gòu)建線段樹索引; 通過節(jié)點(diǎn)摘要文件存儲(chǔ)所述線段樹中每個(gè)待檢索網(wǎng)頁的文本統(tǒng)計(jì)信息; 通過節(jié)點(diǎn)倒排索引表存儲(chǔ)每個(gè)區(qū)域的待檢索網(wǎng)頁的倒排列表。
3. 根據(jù)權(quán)利要求2所述的網(wǎng)頁信息處理方法,其特征在于, 所述線段樹索引的每個(gè)葉節(jié)點(diǎn)中存儲(chǔ)所述葉節(jié)點(diǎn)與其孩子節(jié)點(diǎn)中包含的所述待檢索 網(wǎng)頁的數(shù)量; 所述文本統(tǒng)計(jì)信息包括行標(biāo)識(shí)符和二元組列表,所述行標(biāo)識(shí)符為所述待檢索網(wǎng)頁中包 含的文本信息,所述二元組列表的形式為node=壯|tf,其中,node表示所述線段樹索引 中包含所述文本信息的待檢索網(wǎng)頁的標(biāo)識(shí)符,壯表示包含所述文本信息的待檢索網(wǎng)頁的總 數(shù),tf表示所述文本信息在包含所述文本信息的待檢索網(wǎng)頁中出現(xiàn)的次數(shù); 所述倒排列表包括行鍵值及鍵值對(duì),其中,所述行鍵值為所述待檢索網(wǎng)頁在所述線段 樹索引中的標(biāo)識(shí)符,所述鍵值對(duì)包括所述待檢索網(wǎng)頁中包含的所述文本信息及所述待檢索 網(wǎng)頁的標(biāo)識(shí)符對(duì)應(yīng)的連接。
4. 根據(jù)權(quán)利要求1至3任一項(xiàng)所述的網(wǎng)頁信息處理方法,其特征在于,若確定有至少兩 個(gè)所述第二候選網(wǎng)頁,分別計(jì)算所述至少兩個(gè)第二候選網(wǎng)頁的相關(guān)度分?jǐn)?shù),并輸出至少一 個(gè)所述第二候選網(wǎng)頁;其中,所述至少一個(gè)第二候選網(wǎng)頁的相關(guān)度分?jǐn)?shù)值大于其它第二候 選網(wǎng)頁的相關(guān)度分?jǐn)?shù)值。
5. 根據(jù)權(quán)利要求4所述的網(wǎng)頁信息處理方法,其特征在于,所述相關(guān)度分?jǐn)?shù)的計(jì)算方 法為: C(P,q)=曰 *5(P.i,q.i)+ (1-曰)* 目(P.d,q.d) 其中,P表示所述第一候選網(wǎng)頁,q表示查詢條件,P.i表示所述第一候選網(wǎng)頁的時(shí)間間 隔范圍,q.i表示所述查詢時(shí)間間隔的范圍,P.d表示所述第一候選網(wǎng)頁的文本信息集合, q.d表示所述查詢關(guān)鍵字集合,5 (P.i,q.i)表示所述第一候選網(wǎng)頁與所述查詢時(shí)間間隔 的時(shí)間間隔相似度,0 (P.k,q.k)表示所述第一候選網(wǎng)頁與所述查詢關(guān)鍵字的關(guān)鍵字相關(guān) 度,a為查詢偏好率,用于權(quán)衡所述時(shí)間間隔相似度和關(guān)鍵字相關(guān)度的相對(duì)影響; 其中,所述時(shí)間間隔相似度的計(jì)算方法為:
所述關(guān)鍵字相關(guān)度的計(jì)算方法為:
其中,f;p.d表示所述待檢索網(wǎng)頁的文本信息集合P.d中關(guān)鍵字t的出現(xiàn)頻率,D表示所 述第一候選網(wǎng)頁的集合,Dq表示所述第一候選網(wǎng)頁的數(shù)量,壯t,D表示D中包含所述查詢關(guān) 鍵字t的網(wǎng)頁的個(gè)數(shù)。
6. 根據(jù)權(quán)利要求1至3任一項(xiàng)所述的網(wǎng)頁信息處理方法,其特征在于,所述根據(jù)所述待 檢索網(wǎng)頁的時(shí)間間隔信息將所述待檢索網(wǎng)頁的集合劃分為多個(gè)區(qū)域具體包括:根據(jù)所述待 檢索網(wǎng)頁的時(shí)間間隔信息,通過z-order多維映射函數(shù)計(jì)算出所述待檢索網(wǎng)頁的Z-order 值,根據(jù)所述Z-order值的排序?qū)⑺龃龣z索網(wǎng)頁的集合劃分為Z-order值域不關(guān)聯(lián)的多 個(gè)區(qū)域。
7. -種網(wǎng)頁信息處理裝置,其特征在于,包括; 獲取模塊,用于獲取待檢索網(wǎng)頁的時(shí)間間隔信息; 劃分模塊,用于根據(jù)所述待檢索網(wǎng)頁的時(shí)間間隔信息將所述待檢索網(wǎng)頁的集合劃分為 多個(gè)區(qū)域,并通過線段樹結(jié)構(gòu)將所述時(shí)間間隔信息構(gòu)成的時(shí)間間隔集合劃分成若干單元時(shí) 間間隔, 倒排線段樹索引構(gòu)建模塊,用于基于所述單元時(shí)間間隔為每個(gè)區(qū)域添加倒排線段樹索 引; 第一確定模塊,用于根據(jù)查詢時(shí)間間隔W及每個(gè)區(qū)域的倒排線段樹索引分別對(duì)每個(gè)區(qū) 域內(nèi)的待檢索網(wǎng)頁進(jìn)行檢索,確定與所述查詢時(shí)間間隔關(guān)聯(lián)的第一候選網(wǎng)頁; 第二確定模塊,用于從所述第一候選網(wǎng)頁中確定包含查詢關(guān)鍵字的第二候選網(wǎng)頁; 輸出模塊,用于輸出所述第二候選網(wǎng)頁。
8. 根據(jù)權(quán)利要求7所述的網(wǎng)頁信息處理裝置,其特征在于,所述倒排線段樹索引構(gòu)建 模塊具體用于: 基于所述單元時(shí)間間隔對(duì)每個(gè)區(qū)域中的待檢索網(wǎng)頁構(gòu)建線段樹索引; 通過節(jié)點(diǎn)摘要文件存儲(chǔ)所述線段樹中每個(gè)待檢索網(wǎng)頁的文本統(tǒng)計(jì)信息; 通過節(jié)點(diǎn)倒排索引表存儲(chǔ)每個(gè)區(qū)域的待檢索網(wǎng)頁的倒排列表。
9. 根據(jù)權(quán)利要求7或8所述的網(wǎng)頁信息處理裝置,其特征在于,還包括計(jì)算模塊,用于 當(dāng)所述第二確定模塊確定有至少兩個(gè)所述第二候選網(wǎng)頁時(shí),分別計(jì)算所述至少兩個(gè)第二候 選網(wǎng)頁的相關(guān)度分?jǐn)?shù); 所述輸出模塊用于輸出至少一個(gè)所述第二候選網(wǎng)頁;其中,所述至少一個(gè)第二候選網(wǎng) 頁的相關(guān)度分?jǐn)?shù)值大于其它第二候選網(wǎng)頁的相關(guān)度分?jǐn)?shù)值。
10. 根據(jù)權(quán)利要求7或8所述的網(wǎng)頁信息處理裝置,其特征在于,所述劃分模塊具體用 于:根據(jù)所述待檢索網(wǎng)頁的時(shí)間間隔信息,通過z-order多維映射函數(shù)計(jì)算出所述待檢索
【專利摘要】本發(fā)明提供一種網(wǎng)頁信息處理方法及裝置,所述方法包括:獲取待檢索網(wǎng)頁的時(shí)間間隔信息;根據(jù)所述待檢索網(wǎng)頁的時(shí)間間隔信息將所述待檢索網(wǎng)頁的集合劃分為多個(gè)區(qū)域,通過線段樹結(jié)構(gòu)將所述時(shí)間間隔信息構(gòu)成的時(shí)間間隔集合劃分成至少兩個(gè)單元時(shí)間間隔;基于所述單元時(shí)間間隔為每個(gè)區(qū)域添加倒排線段樹索引;根據(jù)查詢時(shí)間間隔以及每個(gè)區(qū)域的倒排線段樹索引分別對(duì)每個(gè)區(qū)域內(nèi)的待檢索網(wǎng)頁進(jìn)行檢索,確定與所述查詢時(shí)間間隔關(guān)聯(lián)的第一候選網(wǎng)頁;從所述第一候選網(wǎng)頁中確定包含查詢關(guān)鍵字的第二候選網(wǎng)頁;輸出所述第二候選網(wǎng)頁。
【IPC分類】G06F17-30
【公開號(hào)】CN104794237
【申請(qǐng)?zhí)枴緾N201510229707
【發(fā)明人】張孝, 李睿, 于翌睎, 王珊
【申請(qǐng)人】中國(guó)人民大學(xué)
【公開日】2015年7月22日
【申請(qǐng)日】2015年5月7日