網(wǎng)絡(luò)訪問日志處理方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)絡(luò)訪問日志處理方法及裝置,該網(wǎng)絡(luò)訪問日志處理方法包括:獲取第一網(wǎng)絡(luò)訪問日志,其中,第一網(wǎng)絡(luò)訪問日志是執(zhí)行網(wǎng)絡(luò)訪問產(chǎn)生的原始日志,第一網(wǎng)絡(luò)訪問日志包括多個(gè)字段;從預(yù)設(shè)字典庫中分別查找與多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí),其中,預(yù)設(shè)字典庫中存儲(chǔ)有字段和與字段對(duì)應(yīng)的標(biāo)識(shí);將第一網(wǎng)絡(luò)訪問日志中的多個(gè)字段替換為對(duì)應(yīng)的標(biāo)識(shí),得到第二網(wǎng)絡(luò)訪問日志;以及傳輸?shù)诙W(wǎng)絡(luò)訪問日志。通過本發(fā)明,解決了網(wǎng)絡(luò)訪問日志傳輸效率低的問題,進(jìn)一步達(dá)到了提高網(wǎng)絡(luò)訪問日志傳輸效率的效果。
【專利說明】網(wǎng)絡(luò)訪問日志處理方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種網(wǎng)絡(luò)訪問日志處理方法及裝置。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)產(chǎn)品越來越注重用戶的交互與體驗(yàn),例如,Web2.0,是一個(gè)由用戶主導(dǎo)而生成內(nèi)容的互聯(lián)網(wǎng)產(chǎn)品模式,用戶是網(wǎng)站內(nèi)容的創(chuàng)建者,同時(shí)也是使用者。目前Web2.0具有代表性的服務(wù)有電商網(wǎng)絡(luò)、資訊類、社區(qū)化網(wǎng)絡(luò)(SNS,如人人網(wǎng))、微博、微信等。由于Web2.0注重用戶交互,、用戶客戶端會(huì)產(chǎn)生數(shù)量龐大的日志數(shù)據(jù),例如一條微博發(fā)表后,通過不斷轉(zhuǎn)發(fā)、評(píng)論后,有可能產(chǎn)生GB級(jí)別的日志數(shù)據(jù)。
[0003]現(xiàn)有的技術(shù)方案日志傳輸架構(gòu)如圖1所示,日志數(shù)據(jù)從數(shù)據(jù)產(chǎn)生層傳輸?shù)綌?shù)據(jù)處理層的傳輸方式如下:WEB服務(wù)器產(chǎn)生用戶訪問日志后,對(duì)其進(jìn)行GZ壓縮后,按照傳輸協(xié)議(比如FTP、HTTP等)傳輸給數(shù)據(jù)中轉(zhuǎn)服務(wù)器;中轉(zhuǎn)服務(wù)器接收到GZ包文件后,對(duì)這些文件做匯總后(比如把相同設(shè)備上的多個(gè)文件做合并后上傳,如devicename相同的多個(gè)日志文件合并為一個(gè)GZ文件)上傳到數(shù)據(jù)處理層或某種公布式存儲(chǔ)或計(jì)算集群中進(jìn)行統(tǒng)計(jì)分析。
[0004]現(xiàn)有技術(shù)存在如下問題:一是WEB服務(wù)端產(chǎn)生的日志量非常龐大,給傳輸帶來了很高的帶寬成本;二是日志量大造成傳輸十分耗時(shí),使得日志收集的時(shí)效性低。
[0005]針對(duì)相關(guān)技術(shù)中網(wǎng)絡(luò)訪問日志傳輸效率低的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的主要目的在于提供一種網(wǎng)絡(luò)訪問日志處理方法及裝置,以解決網(wǎng)絡(luò)訪問日志傳輸效率低的問題。
[0007]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)絡(luò)訪問日志處理方法。
[0008]根據(jù)本發(fā)明的網(wǎng)絡(luò)訪問日志處理方法包括:獲取第一網(wǎng)絡(luò)訪問日志,其中,第一網(wǎng)絡(luò)訪問日志是執(zhí)行網(wǎng)絡(luò)訪問產(chǎn)生的原始日志,第一網(wǎng)絡(luò)訪問日志包括多個(gè)字段;從預(yù)設(shè)字典庫中分別查找與多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí),其中,預(yù)設(shè)字典庫中存儲(chǔ)有字段和與字段對(duì)應(yīng)的標(biāo)識(shí);將第一網(wǎng)絡(luò)訪問日志中的多個(gè)字段替換為對(duì)應(yīng)的標(biāo)識(shí),得到第二網(wǎng)絡(luò)訪問日志;以及傳輸?shù)诙W(wǎng)絡(luò)訪問日志。
[0009]進(jìn)一步地,在從預(yù)設(shè)字典庫中分別查找與多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí)之前,該方法包括:獲取多條網(wǎng)絡(luò)訪問日志;計(jì)算多條網(wǎng)絡(luò)訪問日志中字段內(nèi)容相同的第一字段的個(gè)數(shù),其中,第一字段為多個(gè)字段中任意一個(gè)字段或是多個(gè)字段的組合或是多個(gè)字段中任意一個(gè)字段的多個(gè)子字段中的任意一個(gè)子字段;判斷第一字段的個(gè)數(shù)是否大于預(yù)設(shè)值;創(chuàng)建預(yù)設(shè)字典庫;以及在第一字段的個(gè)數(shù)大于預(yù)設(shè)值時(shí),將第一字段和對(duì)應(yīng)的標(biāo)識(shí)存儲(chǔ)于預(yù)設(shè)字典庫中。
[0010]進(jìn)一步地,在第一字段的個(gè)數(shù)大于預(yù)設(shè)值時(shí),在將第一字段和對(duì)應(yīng)的標(biāo)識(shí)存儲(chǔ)于預(yù)設(shè)字典庫中之前,該方法包括:判斷第一字段是否存在于預(yù)設(shè)字典庫中;以及在第一字段不存在于預(yù)設(shè)字典庫中時(shí),生成第一字段對(duì)應(yīng)的標(biāo)識(shí)。
[0011]進(jìn)一步地,判斷第一字段是否存在于預(yù)設(shè)字典庫中包括:將第一字段進(jìn)行哈希運(yùn)算,得到第一字段的哈希值;判斷第一字段的哈希值是否存在于預(yù)設(shè)字典庫中;在第一字段的哈希值不存在于預(yù)設(shè)字典庫中時(shí),確定第一字段不存在于預(yù)設(shè)字典庫中,并將第一字段的哈希值存儲(chǔ)于預(yù)設(shè)字典庫中;以及在第一字段的哈希值存在于預(yù)設(shè)字典庫中時(shí),確定第一字段存在于預(yù)設(shè)字典庫中。
[0012]進(jìn)一步地,預(yù)設(shè)字典庫為多個(gè),多個(gè)預(yù)設(shè)字典庫與多個(gè)字段一一對(duì)應(yīng),從預(yù)設(shè)字典庫中分別查找與多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí)包括:分別從多個(gè)字段對(duì)應(yīng)的字典庫中查找對(duì)應(yīng)的標(biāo)識(shí)。
[0013]進(jìn)一步地,發(fā)送裝置傳輸?shù)谝痪W(wǎng)絡(luò)訪問日志至接收裝置,在發(fā)送裝置和接收裝置均存儲(chǔ)有預(yù)設(shè)字典庫,在發(fā)送裝置傳輸?shù)谝痪W(wǎng)絡(luò)訪問日志至接收裝置之后,方法包括:判斷接收裝置存儲(chǔ)的預(yù)設(shè)字典庫是否有更新;以及如果判斷出接收裝置存儲(chǔ)的預(yù)設(shè)字典庫有更新,則根據(jù)接收裝置的預(yù)設(shè)字典庫更新發(fā)送裝置的預(yù)設(shè)字典庫。
[0014]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)絡(luò)訪問日志處理裝置。該網(wǎng)絡(luò)訪問日志處理裝置包括:第一獲取單元,用于獲取第一網(wǎng)絡(luò)訪問日志,其中,第一網(wǎng)絡(luò)訪問日志是執(zhí)行網(wǎng)絡(luò)訪問產(chǎn)生的原始日志,第一網(wǎng)絡(luò)訪問日志包括多個(gè)字段;查找單元,用于從預(yù)設(shè)字典庫中分別查找與多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí),其中,預(yù)設(shè)字典庫中存儲(chǔ)有字段和與字段對(duì)應(yīng)的標(biāo)識(shí);替換單元,用于將第一網(wǎng)絡(luò)訪問日志中的多個(gè)字段替換為對(duì)應(yīng)的標(biāo)識(shí),得到第二網(wǎng)絡(luò)訪問日志;以及傳輸單元,用于傳輸?shù)诙W(wǎng)絡(luò)訪問日志。
[0015]進(jìn)一步地,該裝置還包括:第二獲取單元,用于獲取多條網(wǎng)絡(luò)訪問日志;計(jì)算單元,用于計(jì)算多條網(wǎng)絡(luò)訪問日志中字段內(nèi)容相同的第一字段的個(gè)數(shù),其中,第一字段為多個(gè)字段中任意一個(gè)字段或是多個(gè)字段的組合或是多個(gè)字段中任意一個(gè)字段的多個(gè)子字段中的任意一個(gè)子字段;第一判斷單元,用于判斷第一字段的個(gè)數(shù)是否大于預(yù)設(shè)值;創(chuàng)建單元,用于創(chuàng)建預(yù)設(shè)字典庫;以及存儲(chǔ)單元,用于在第一字段的個(gè)數(shù)大于預(yù)設(shè)值時(shí),將第一字段和對(duì)應(yīng)的標(biāo)識(shí)存儲(chǔ)于預(yù)設(shè)字典庫中。
[0016]進(jìn)一步地,該裝置還包括:第二判斷單元,用于判斷第一字段是否存在于預(yù)設(shè)字典庫中;以及生成單元,用于在第一字段不存在于預(yù)設(shè)字典庫中時(shí),生成第一字段對(duì)應(yīng)的標(biāo)識(shí)。
[0017]進(jìn)一步地,第二判斷單元包括:運(yùn)算模塊,用于將第一字段進(jìn)行哈希運(yùn)算,得到第一字段的哈希值;判斷模塊,用于判斷第一字段的哈希值是否存在于預(yù)設(shè)字典庫中;以及確定模塊,用于在第一字段的哈希值不存在于預(yù)設(shè)字典庫中時(shí),確定第一字段不存在于預(yù)設(shè)字典庫中,并將第一字段的哈希值存儲(chǔ)于預(yù)設(shè)字典庫中,在第一字段的哈希值存在于預(yù)設(shè)字典庫中時(shí),確定第一字段存在于預(yù)設(shè)字典庫中。
[0018]進(jìn)一步地,發(fā)送裝置傳輸?shù)谝痪W(wǎng)絡(luò)訪問日志至接收裝置,在發(fā)送裝置和接收裝置均存儲(chǔ)有預(yù)設(shè)字典庫,該裝置還包括:第三判斷單元,用于判斷接收裝置存儲(chǔ)的預(yù)設(shè)字典庫是否有更新;以及更新單元,用于在判斷出接收裝置存儲(chǔ)的預(yù)設(shè)字典庫有更新時(shí),則根據(jù)接收裝置的預(yù)設(shè)字典庫更新發(fā)送裝置的預(yù)設(shè)字典庫。
[0019]通過本發(fā)明,采用預(yù)設(shè)字典庫中的標(biāo)識(shí)替換對(duì)應(yīng)的網(wǎng)絡(luò)訪問日志的字段后在進(jìn)行傳輸,解決了網(wǎng)絡(luò)訪問日志傳輸效率低的問題,進(jìn)而達(dá)到了提高網(wǎng)絡(luò)訪問日志傳輸效率的效果。
【專利附圖】
【附圖說明】
[0020]構(gòu)成本申請(qǐng)的一部分的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0021]圖1是根據(jù)相關(guān)技術(shù)的日志傳輸架構(gòu)圖;
[0022]圖2是根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)訪問日志處理方法的流程圖;
[0023]圖3是根據(jù)本發(fā)明實(shí)施例的訪問志傳輸流程圖;以及
[0024]圖4是根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)訪問日志處理裝置示意圖。
【具體實(shí)施方式】
[0025]需要說明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0026]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0027]需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了多個(gè)元器件的系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些元器件,而是可包括沒有清楚地列出的或?qū)τ谶@些產(chǎn)品或設(shè)備固有的其它元器件。
[0028]根據(jù)本發(fā)明實(shí)施例,提供了一種網(wǎng)絡(luò)訪問日志處理方法,圖2是根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)訪問日志處理方法流程圖。
[0029]如圖2所示,該方法包括如下的步驟S102至步驟S108:
[0030]步驟S102:獲取第一網(wǎng)絡(luò)訪問日志,其中,第一網(wǎng)絡(luò)訪問日志是執(zhí)行網(wǎng)絡(luò)訪問產(chǎn)生的原始日志,第一網(wǎng)絡(luò)訪問日志包括多個(gè)字段。
[0031]第一網(wǎng)絡(luò)訪問日志是用戶訪問某網(wǎng)頁時(shí)產(chǎn)生的訪問日志,即原始日志,如用戶在新浪微博上轉(zhuǎn)發(fā)一條微博,相應(yīng)地,在用戶所訪問的網(wǎng)站的終端服務(wù)器中就產(chǎn)生一條訪問日志。當(dāng)網(wǎng)站的用戶數(shù)量很多時(shí),產(chǎn)生的訪問日志數(shù)量相應(yīng)的也很多。獲取第一網(wǎng)絡(luò)訪問日志可以是獲取一條第一網(wǎng)絡(luò)訪問日志,也可是獲取多條第一網(wǎng)絡(luò)訪問日志。網(wǎng)絡(luò)訪問日志通常包括多個(gè)字段,如IP字段、統(tǒng)一資源定位符(URL)字段、用戶代理(UserAgent)字段等,具體地,一條訪問日志的格式可以如下:
[0032]1386562882.666 14 XXX.XXX.XXX.XXX TCP_MEM_HIT/200 440 GEThttp://www.XXXXX.com/images/xxxxx.gi f-NONE/-1mage/gif〃http://www.XXXXX.com/drivers/440_176147XXX.htm^^MoziIla/5.0 (Windows NT 6.1 ;W0W64)AppleffebKit/537.1(KHTML, like Gecko)Chrome/21.0.1180.89Safari/537.1"。
[0033]其中,“XXX.XXX.XXX.XXX”為 IP,“http://www.XXXXX.com/images/xxxxx.gif,,為請(qǐng)求統(tǒng)一資源定位符(RequestUrl), 〃http://www.XXXXX.com/drivers/440_176147XXX.htm"為訪問來源(referer)字段,〃Mozilla/5.0 (Windows NT 6.1 ;W0W64)AppleffebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89Safari/537.1"為用戶代理(UserAgent)。
[0034]原始日志可以由一個(gè)終端服務(wù)器產(chǎn)生,也可以由多個(gè)終端服務(wù)器產(chǎn)生。為了提高訪問日志處理的效率,將多個(gè)終端服務(wù)器產(chǎn)生的原始日志匯總壓縮后發(fā)送給接收端,該接收端可以是數(shù)據(jù)處理層、公布式存儲(chǔ)或是計(jì)算集群。
[0035]步驟S104:從預(yù)設(shè)字典庫中分別查找與多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí),其中,預(yù)設(shè)字典庫中存儲(chǔ)有字段和與字段對(duì)應(yīng)的標(biāo)識(shí)。
[0036]預(yù)設(shè)字典庫采用鍵值(KeyValue)的存儲(chǔ)方式,即包含一個(gè)標(biāo)識(shí)和屬性值,在預(yù)設(shè)字典庫中預(yù)先存儲(chǔ)了訪問日志的字段和該字段對(duì)應(yīng)的標(biāo)識(shí),該字段對(duì)應(yīng)的標(biāo)識(shí)用于唯一的表示該字段。如上述日志的請(qǐng)求統(tǒng)一資源定位符字段所示,具有較長(zhǎng)的字符串,所占的內(nèi)存量較大,傳輸量大,如若用一個(gè)較短的字符串來唯一的替換上述較長(zhǎng)的字符串進(jìn)行傳輸,相應(yīng)的就可以減少日志傳輸量,提高傳輸效率,當(dāng)一次傳輸較多條日志時(shí),通過上述唯一標(biāo)識(shí)替換的方法將多條日志中的字段用對(duì)應(yīng)的標(biāo)識(shí)進(jìn)行替換可以顯著降低日志的傳輸量。
[0037]具體地,可以根據(jù)訪問日志的不同字段的具體情況來生成對(duì)應(yīng)的標(biāo)識(shí)。在從預(yù)設(shè)字典庫中分別查找與多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí)之前,該方法包括:獲取多條網(wǎng)絡(luò)訪問日志;計(jì)算多條網(wǎng)絡(luò)訪問日志中字段內(nèi)容相同的第一字段的個(gè)數(shù),其中,第一字段為多個(gè)字段中任意一個(gè)字段或是多個(gè)字段的組合或是多個(gè)字段中任意一個(gè)字段的多個(gè)子字段中的任意一個(gè)子字段;判斷第一字段的個(gè)數(shù)是否大于預(yù)設(shè)值;創(chuàng)建預(yù)設(shè)字典庫;以及在第一字段的個(gè)數(shù)大于預(yù)設(shè)值時(shí),將第一字段和對(duì)應(yīng)的標(biāo)識(shí)存儲(chǔ)于預(yù)設(shè)字典庫中。
[0038]為了提高預(yù)設(shè)字典庫中存儲(chǔ)的字段和對(duì)應(yīng)的標(biāo)識(shí)的代表性,在生成預(yù)設(shè)字典庫過程中,首先獲取多條的網(wǎng)絡(luò)訪問日志,多條網(wǎng)絡(luò)訪問日志用于統(tǒng)計(jì)字段內(nèi)容相同的第一字段的個(gè)數(shù),該第一字段根據(jù)訪問日志的不同字段的特點(diǎn)分為多種不同的情況。
[0039]若訪問日志的某個(gè)字段在多條訪問日志中出現(xiàn)的概率較高時(shí),則將該字段作為第一字段,例如,訪問日志中的URL字段,由于在多條訪問日志中會(huì)經(jīng)常出現(xiàn)相同內(nèi)容的URL,因此可以將該URL對(duì)應(yīng)的內(nèi)容和對(duì)應(yīng)的標(biāo)識(shí)存入預(yù)設(shè)字典庫中。
[0040]若訪問日志中的多個(gè)字段的組合在多條訪問日志中同時(shí)出現(xiàn)的概率較高時(shí),可以將該多個(gè)字段的組合作為第一字段,例如,IP和UserAgent這兩個(gè)字段對(duì)于同一個(gè)用戶它們的內(nèi)容往往是相同的,因此可以生成一個(gè)標(biāo)識(shí)對(duì)應(yīng)于IP和UserAgent這兩個(gè)字段的組合,并將該標(biāo)識(shí)和對(duì)應(yīng)的字段組合存入預(yù)設(shè)字典庫。
[0041]若訪問日志中某個(gè)字段還包含多個(gè)子字段時(shí),可以將多個(gè)子字段中的每一個(gè)作為第一字段,通過對(duì)每個(gè)子字段生成對(duì)應(yīng)的標(biāo)識(shí),并將每個(gè)子字段和對(duì)應(yīng)的標(biāo)識(shí)存儲(chǔ)于預(yù)設(shè)字典庫中。例如上述 UserAgent 字段,〃Mozilla/5.0 (Windows NT 6.1 ;W0W64)AppleffebKit/537.1(KHTML, like Gecko)Chrome/21.0.1180.89 Safari/537.1",將“Mozilla/5.0(Windows NT 6.1 ;W0W64) ” 對(duì)應(yīng)于 IDl, ^AppleffebKit/537.1” 對(duì)應(yīng)于 ID2,“ (KHTML, like Gecko) ” 對(duì)應(yīng)于 ID3,“Mozilla/5.0 (Windows NT 6.1 ;W0W64) ” 對(duì)應(yīng)于 ID4,則上述UserAgent字段可以表示為“ ID1+ID2I+D3+ID4”。
[0042]計(jì)算獲取的多條訪問日志中字段內(nèi)容相同的第一字段的個(gè)數(shù)后,將得到的字段內(nèi)容相同的第一字段的個(gè)數(shù)與預(yù)設(shè)值進(jìn)行比較,只有大于預(yù)設(shè)值時(shí)才將該字段和對(duì)應(yīng)的標(biāo)識(shí)存儲(chǔ)于預(yù)設(shè)字典中,例如,設(shè)定預(yù)設(shè)值為20,在獲取的3000條網(wǎng)絡(luò)訪問日志中,IP地址內(nèi)容為“101.102.000.000”的IP個(gè)數(shù)為30,則該IP個(gè)數(shù)大于預(yù)設(shè)值,生成該IP字段對(duì)應(yīng)的標(biāo)識(shí)ID5,則將“ 101.102.000.000”和對(duì)應(yīng)標(biāo)識(shí)ID5存儲(chǔ)于預(yù)設(shè)字典庫。
[0043]字段對(duì)應(yīng)標(biāo)識(shí)的生成方法有很多,可以按照預(yù)定的規(guī)則生成指定字段對(duì)應(yīng)標(biāo)識(shí),例如,取字典庫中存儲(chǔ)的ID的最大值加I后作為該指定字段對(duì)應(yīng)的標(biāo)識(shí)。
[0044]優(yōu)選地,為了避免相同的訪問日志的字段重復(fù)存儲(chǔ)于預(yù)設(shè)字典庫中,在第一字段的個(gè)數(shù)大于預(yù)設(shè)值時(shí),在將第一字段和對(duì)應(yīng)的標(biāo)識(shí)存儲(chǔ)于預(yù)設(shè)字典庫中之前,該方法包括:判斷第一字段是否存在于預(yù)設(shè)字典庫中;以及在第一字段不存在于預(yù)設(shè)字典庫中時(shí),生成第一字段對(duì)應(yīng)的標(biāo)識(shí)。
[0045]通過預(yù)先查找預(yù)設(shè)字典庫中是否存在該字段來確定是否需要將該字段和對(duì)應(yīng)標(biāo)識(shí)存儲(chǔ)于預(yù)設(shè)字典庫中,可以有效避免預(yù)設(shè)字典庫中數(shù)據(jù)存儲(chǔ)的冗余,也可以提高從預(yù)設(shè)字典庫中查找指定字段對(duì)應(yīng)標(biāo)識(shí)的效率。
[0046]優(yōu)選地,為了提高判斷第一字段是否存在于預(yù)設(shè)字典庫的效率,判斷第一字段是否存在于預(yù)設(shè)字典庫中包括:將第一字段進(jìn)行哈希運(yùn)算,得到第一字段的哈希值;判斷第一字段的哈希值是否存在于預(yù)設(shè)字典庫中;在第一字段的哈希值不存在于預(yù)設(shè)字典庫中時(shí),確定第一字段不存在于預(yù)設(shè)字典庫中,并將第一字段的哈希值存儲(chǔ)于預(yù)設(shè)字典庫中;以及在第一字段的哈希值存在于預(yù)設(shè)字典庫中時(shí),確定第一字段存在于預(yù)設(shè)字典庫中。
[0047]哈希(Hash)算法,即散列算法,可以將任意長(zhǎng)度的輸入經(jīng)過哈希運(yùn)算得到固定長(zhǎng)度的輸出,且不同的輸入對(duì)應(yīng)一個(gè)唯一的輸出。由于訪問日志的字段都較長(zhǎng),如果將訪問日志的多個(gè)字段直接與預(yù)設(shè)字典庫中預(yù)先存儲(chǔ)的字段分別進(jìn)行比較將十分耗時(shí),因此,為了提升比較的效率,可以先將訪問日志的第一字段首先進(jìn)行哈希運(yùn)算得到哈希值,該哈希值可以設(shè)定為一個(gè)長(zhǎng)度較短的字符串,通過將該哈希值與預(yù)設(shè)字典庫中預(yù)先存儲(chǔ)的字段的哈希值進(jìn)行比較,可以提高判斷第一字段是否存在于預(yù)設(shè)字典庫的效率。
[0048]步驟S106:將第一網(wǎng)絡(luò)訪問日志中的多個(gè)字段替換為對(duì)應(yīng)的標(biāo)識(shí),得到第二網(wǎng)絡(luò)訪問日志。
[0049]在從預(yù)設(shè)字典庫中查找到第一網(wǎng)絡(luò)訪問日志中的多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí)后,用對(duì)應(yīng)的標(biāo)識(shí)替換對(duì)應(yīng)的字段。如果訪問日志的多個(gè)字段都在預(yù)設(shè)字典庫中存在對(duì)應(yīng)標(biāo)識(shí),則用對(duì)應(yīng)標(biāo)識(shí)替換訪問日志的所有的字段,如果訪問日志的多個(gè)字段只有部分字段在預(yù)設(shè)字典庫中存在對(duì)應(yīng)的標(biāo)識(shí),則用對(duì)應(yīng)標(biāo)識(shí)替換訪問日志的部分字段,因此,得到的第二網(wǎng)絡(luò)訪問日志可以是全部字段都被對(duì)應(yīng)的標(biāo)識(shí)所替換,也可以是部分字段被對(duì)應(yīng)的標(biāo)識(shí)所替換。
[0050]步驟S108:傳輸?shù)诙W(wǎng)絡(luò)訪問日志。
[0051]上述用標(biāo)識(shí)替換后得到的第二網(wǎng)絡(luò)訪問日志相比于沒有進(jìn)行替換的第一網(wǎng)絡(luò)訪問日志,數(shù)據(jù)量已經(jīng)大大減少,相應(yīng)的傳輸時(shí)間減少,傳輸效率提高。同時(shí)傳輸?shù)脑L問日志條數(shù)越多傳輸效率提高的越顯著。
[0052]優(yōu)選地,為了提高查找訪問日志的字段對(duì)應(yīng)的標(biāo)識(shí)的效率,預(yù)設(shè)字典庫為多個(gè),多個(gè)預(yù)設(shè)字典庫與多個(gè)字段一一對(duì)應(yīng),從預(yù)設(shè)字典庫中分別查找與多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí)包括:分別從多個(gè)字段對(duì)應(yīng)的字典庫中查找對(duì)應(yīng)的標(biāo)識(shí)。
[0053]訪問日志的每個(gè)字段對(duì)應(yīng)于一個(gè)字典庫,在查找指定字段對(duì)應(yīng)的標(biāo)識(shí)時(shí),可以僅查找該字段對(duì)應(yīng)的字典庫,相比于將所有字段和對(duì)應(yīng)標(biāo)識(shí)都存儲(chǔ)于一個(gè)預(yù)設(shè)字典庫中,在查找指定字段對(duì)應(yīng)的標(biāo)識(shí)時(shí)需要遍歷包含全部字段的預(yù)設(shè)字典庫,大大減少了查找的時(shí)間,提高了查找的效率。
[0054]優(yōu)選地,為了及時(shí)更新接收裝置中存儲(chǔ)的預(yù)設(shè)字典庫,發(fā)送裝置傳輸?shù)谝痪W(wǎng)絡(luò)訪問日志至接收裝置,在發(fā)送裝置和接收裝置均存儲(chǔ)有預(yù)設(shè)字典庫,在發(fā)送裝置傳輸?shù)谝痪W(wǎng)絡(luò)訪問日志至接收裝置之后,方法包括:判斷接收裝置存儲(chǔ)的預(yù)設(shè)字典庫是否有更新;以及如果判斷出接收裝置存儲(chǔ)的預(yù)設(shè)字典庫有更新,則根據(jù)接收裝置的預(yù)設(shè)字典庫更新發(fā)送裝置的預(yù)設(shè)字典庫。
[0055]發(fā)送裝置可以是訪問日志生成服務(wù)器,也可以是中轉(zhuǎn)服務(wù)器,接收裝置可以是數(shù)據(jù)處理服務(wù)器,也可以是公布式存儲(chǔ),也可以是計(jì)算集群系統(tǒng)。為了及時(shí)更新接收裝置中存儲(chǔ)的預(yù)設(shè)字典庫,提高訪問日志的字段替換率,在將第一網(wǎng)絡(luò)訪問日志至接收裝置后判斷預(yù)設(shè)字典庫是否有更新,例如,可以通過在接收裝置更新預(yù)設(shè)字典庫后給發(fā)送裝置發(fā)送一個(gè)預(yù)設(shè)字典庫更新的信號(hào)通知接收裝置預(yù)設(shè)字典庫已經(jīng)更新,根據(jù)接收裝置的預(yù)設(shè)字典庫更新發(fā)送裝置的預(yù)設(shè)字典庫,例如,可以通過接收裝置將預(yù)設(shè)字典庫中更新的部分發(fā)送給發(fā)送裝置。
[0056]如下結(jié)合圖3具體說明本發(fā)明實(shí)施例的網(wǎng)絡(luò)訪問日志處理方法。
[0057]數(shù)據(jù)生成層的一個(gè)或多個(gè)終端服務(wù)器產(chǎn)生的原始日志通過傳輸協(xié)議(比如FTP、HTTP等)傳輸?shù)綌?shù)據(jù)中轉(zhuǎn)層,在數(shù)據(jù)中轉(zhuǎn)層對(duì)原始日志傳輸至數(shù)據(jù)處理層做準(zhǔn)備,例如,在數(shù)據(jù)中轉(zhuǎn)層接收到原始日志后,用預(yù)設(shè)字典庫中的標(biāo)識(shí)替換原始日志對(duì)應(yīng)的字段,將替換后得到的訪問日志壓縮后再傳輸至數(shù)據(jù)處理層。數(shù)據(jù)處理層在接收到訪問日志后首先進(jìn)行存儲(chǔ),然后對(duì)接收到的訪問日志進(jìn)行分析處理,并進(jìn)行預(yù)設(shè)字典庫的更新,將傳輸過來沒有被預(yù)設(shè)字典庫中的標(biāo)識(shí)、替換或是識(shí)別的字段補(bǔ)充進(jìn)預(yù)設(shè)字典庫中,數(shù)據(jù)處理層對(duì)更新后的預(yù)設(shè)字典庫同步到數(shù)據(jù)中轉(zhuǎn)層,即將預(yù)設(shè)字典庫的增量部分同步到數(shù)據(jù)中轉(zhuǎn)層,數(shù)據(jù)中轉(zhuǎn)層根據(jù)數(shù)據(jù)處理層的預(yù)設(shè)字典庫同步更新數(shù)據(jù)中轉(zhuǎn)層的預(yù)設(shè)字典庫,并利用更新后的預(yù)設(shè)字典庫對(duì)后續(xù)接收的原始日志的字段進(jìn)行替換。
[0058]在初始階段預(yù)設(shè)字典庫的更新會(huì)比較頻繁,但當(dāng)積累到一定程度之后預(yù)設(shè)字典庫包含的字段越來越多,預(yù)設(shè)字典庫更新量相應(yīng)就會(huì)越來越少,同時(shí)數(shù)據(jù)傳輸?shù)奶鎿Q率會(huì)越來越高,從而訪問日志的傳輸所需的帶寬成本降低,訪問日志傳輸?shù)臅r(shí)效性提高。
[0059]以每天收集100G訪問日志量為例,從數(shù)據(jù)中轉(zhuǎn)層傳輸?shù)饺罩咎幚韺尤罩玖繛?00G,在帶寬不變的前提下,按現(xiàn)有技術(shù)的傳輸方式,則傳輸日志量為100G,耗時(shí)設(shè)為100s;按照本發(fā)明實(shí)施例對(duì)訪問日志中的字段進(jìn)行替換后再傳輸分為兩種情況,第一種情況是獲取的所有原始日志的所有字段都可按預(yù)設(shè)字典庫進(jìn)行替換,則傳輸日志量大大減少,例如為52G,耗時(shí)相應(yīng)也大大減少,例如為52s,則時(shí)間縮短了 42s,存儲(chǔ)空間節(jié)省了48% ;第二種情況是預(yù)設(shè)字典庫不完整,只能進(jìn)行部分字段的替換,例如日志傳輸量為62G,傳輸時(shí)間為62S,傳輸?shù)娜罩玖侩m大于第一種情況,但是相比于現(xiàn)有技術(shù),日志傳輸量還是大幅減少了,相應(yīng)的傳輸時(shí)間和存儲(chǔ)空間也都減少了。
[0060]需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0061]根據(jù)本發(fā)明實(shí)施例的另一方面,提供了一種網(wǎng)絡(luò)訪問日志處理裝置,該網(wǎng)絡(luò)訪問日志處理裝置可以用于執(zhí)行本發(fā)明實(shí)施例的網(wǎng)絡(luò)訪問日志處理方法,本發(fā)明實(shí)施例的網(wǎng)絡(luò)訪問日志處理法也可以通過本發(fā)明實(shí)施例的網(wǎng)絡(luò)訪問日志處理裝置來執(zhí)行。
[0062]如圖4所示,該裝置包括:第一獲取單元10,查找單元20,替換單元30和傳輸單元40。
[0063]第一獲取單元10,用于獲取第一網(wǎng)絡(luò)訪問日志,其中,第一網(wǎng)絡(luò)訪問日志是執(zhí)行網(wǎng)絡(luò)訪問產(chǎn)生的原始日志,第一網(wǎng)絡(luò)訪問日志包括多個(gè)字段。
[0064]查找單元20,用于從預(yù)設(shè)字典庫中分別查找與多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí),其中,預(yù)設(shè)字典庫中存儲(chǔ)有字段和與字段對(duì)應(yīng)的標(biāo)識(shí)。
[0065]替換單元30,用于將第一網(wǎng)絡(luò)訪問日志中的多個(gè)字段替換為對(duì)應(yīng)的標(biāo)識(shí),得到第二網(wǎng)絡(luò)訪問日志。
[0066]傳輸單兀40,用于傳輸?shù)诙W(wǎng)絡(luò)訪問日志。
[0067]本發(fā)明實(shí)施例通過查找單元20從預(yù)設(shè)字典庫中查找第一網(wǎng)絡(luò)訪問日志中的多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí),通過替換單元30將第一網(wǎng)絡(luò)訪問日志中的多個(gè)字段替換為對(duì)應(yīng)的標(biāo)識(shí),得到第二網(wǎng)絡(luò)訪問日志,通過傳輸單元40傳輸?shù)诙W(wǎng)絡(luò)訪問日志,可以有效的減少訪問日志的傳輸量,解決現(xiàn)有技術(shù)中訪問日志傳輸效率低的問題。
[0068]優(yōu)選地,該裝置還包括:第二獲取單元,用于獲取多條網(wǎng)絡(luò)訪問日志;計(jì)算單元,用于計(jì)算多條網(wǎng)絡(luò)訪問日志中字段內(nèi)容相同的第一字段的個(gè)數(shù),其中,第一字段為多個(gè)字段中任意一個(gè)字段或是多個(gè)字段的組合或是多個(gè)字段中任意一個(gè)字段的多個(gè)子字段中的任意一個(gè)子字段;第一判斷單元,用于判斷第一字段的個(gè)數(shù)是否大于預(yù)設(shè)值;創(chuàng)建單元,用于創(chuàng)建預(yù)設(shè)字典庫;以及存儲(chǔ)單元,用于在第一字段的個(gè)數(shù)大于預(yù)設(shè)值時(shí),將第一字段和對(duì)應(yīng)的標(biāo)識(shí)存儲(chǔ)于預(yù)設(shè)字典庫中。
[0069]優(yōu)選地,該裝置還包括:第二判斷單元,用于判斷第一字段是否存在于預(yù)設(shè)字典庫中;以及生成單元,用于在第一字段不存在于預(yù)設(shè)字典庫中時(shí),生成第一字段對(duì)應(yīng)的標(biāo)識(shí)。
[0070]優(yōu)選地,第二判斷單元包括:運(yùn)算模塊,用于將第一字段進(jìn)行哈希運(yùn)算,得到第一字段的哈希值;判斷模塊,用于判斷第一字段的哈希值是否存在于預(yù)設(shè)字典庫中;以及確定模塊,用于在第一字段的哈希值不存在于預(yù)設(shè)字典庫中時(shí),確定第一字段不存在于預(yù)設(shè)字典庫中,并將第一字段的哈希值存儲(chǔ)于預(yù)設(shè)字典庫中,在第一字段的哈希值存在于預(yù)設(shè)字典庫中時(shí),確定第一字段存在于預(yù)設(shè)字典庫中。
[0071]優(yōu)選地,發(fā)送裝置傳輸?shù)谝痪W(wǎng)絡(luò)訪問日志至接收裝置,在發(fā)送裝置和接收裝置均存儲(chǔ)有預(yù)設(shè)字典庫,該裝置還包括:第三判斷單元,用于判斷接收裝置存儲(chǔ)的預(yù)設(shè)字典庫是否有更新;以及更新單元,用于在判斷出接收裝置存儲(chǔ)的預(yù)設(shè)字典庫有更新時(shí),則根據(jù)接收裝置的預(yù)設(shè)字典庫更新發(fā)送裝置的預(yù)設(shè)字典庫。
[0072]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0073]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)絡(luò)訪問日志處理方法,其特征在于,包括: 獲取第一網(wǎng)絡(luò)訪問日志,其中,所述第一網(wǎng)絡(luò)訪問日志是執(zhí)行網(wǎng)絡(luò)訪問產(chǎn)生的原始日志,所述第一網(wǎng)絡(luò)訪問日志包括多個(gè)字段; 從預(yù)設(shè)字典庫中分別查找與所述多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí),其中,所述預(yù)設(shè)字典庫中存儲(chǔ)有字段和與字段對(duì)應(yīng)的標(biāo)識(shí); 將所述第一網(wǎng)絡(luò)訪問日志中的所述多個(gè)字段替換為對(duì)應(yīng)的標(biāo)識(shí),得到第二網(wǎng)絡(luò)訪問日志;以及 傳輸所述第二網(wǎng)絡(luò)訪問日志。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)訪問日志處理方法,其特征在于,在從預(yù)設(shè)字典庫中分別查找與所述多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí)之前,所述方法包括: 獲取多條網(wǎng)絡(luò)訪問日志; 計(jì)算所述多條網(wǎng)絡(luò)訪問日志中字段內(nèi)容相同的第一字段的個(gè)數(shù),其中,所述第一字段為所述多個(gè)字段中任意一個(gè)字段或是所述多個(gè)字段的組合或是所述多個(gè)字段中任意一個(gè)字段的多個(gè)子字段中的任意一個(gè)子字段; 判斷所述第一字段的個(gè)數(shù)是否大于預(yù)設(shè)值; 創(chuàng)建預(yù)設(shè)字典庫;以及 在所述第一字段的個(gè)數(shù)大于預(yù)設(shè)值時(shí),將所述第一字段和對(duì)應(yīng)的標(biāo)識(shí)存儲(chǔ)于所述預(yù)設(shè)字典庫中。
3.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)訪問日志處理方法,其特征在于,在所述第一字段的個(gè)數(shù)大于預(yù)設(shè)值時(shí),在將所述第一字段和對(duì)應(yīng)的標(biāo)識(shí)存儲(chǔ)于所述預(yù)設(shè)字典庫中之前,所述方法包括: 判斷所述第一字段是否存在于所述預(yù)設(shè)字典庫中;以及 在所述第一字段不存在于所述預(yù)設(shè)字典庫中時(shí),生成所述第一字段對(duì)應(yīng)的標(biāo)識(shí)。
4.根據(jù)權(quán)利要求3所述的網(wǎng)絡(luò)訪問日志處理方法,其特征在于,判斷所述第一字段是否存在于所述預(yù)設(shè)字典庫中包括: 將所述第一字段進(jìn)行哈希運(yùn)算,得到所述第一字段的哈希值; 判斷所述第一字段的哈希值是否存在于所述預(yù)設(shè)字典庫中; 在所述第一字段的哈希值不存在于所述預(yù)設(shè)字典庫中時(shí),確定所述第一字段不存在于所述預(yù)設(shè)字典庫中,并將所述第一字段的哈希值存儲(chǔ)于所述預(yù)設(shè)字典庫中;以及 在所述第一字段的哈希值存在于所述預(yù)設(shè)字典庫中時(shí),確定所述第一字段存在于所述預(yù)設(shè)字典庫中。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)訪問日志處理方法,其特征在于,所述預(yù)設(shè)字典庫為多個(gè),所述多個(gè)預(yù)設(shè)字典庫與所述多個(gè)字段一一對(duì)應(yīng),從預(yù)設(shè)字典庫中分別查找與所述多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí)包括:分別從所述多個(gè)字段對(duì)應(yīng)的所述字典庫中查找對(duì)應(yīng)的標(biāo)識(shí)。
6.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)訪問日志處理方法,其特征在于,發(fā)送裝置傳輸所述第一網(wǎng)絡(luò)訪問日志至接收裝置,在所述發(fā)送裝置和所述接收裝置均存儲(chǔ)有所述預(yù)設(shè)字典庫,在所述發(fā)送裝置傳輸所述第一網(wǎng)絡(luò)訪問日志至所述接收裝置之后,所述方法包括: 判斷接收裝置存儲(chǔ)的預(yù)設(shè)字典庫是否有更新;以及 如果判斷出所述接收裝置存儲(chǔ)的預(yù)設(shè)字典庫有更新,則根據(jù)所述接收裝置的預(yù)設(shè)字典庫更新所述發(fā)送裝置的預(yù)設(shè)字典庫。
7.一種網(wǎng)絡(luò)訪問日志處理裝置,其特征在于,包括: 第一獲取單元,用于獲取第一網(wǎng)絡(luò)訪問日志,其中,所述第一網(wǎng)絡(luò)訪問日志是執(zhí)行網(wǎng)絡(luò)訪問產(chǎn)生的原始日志,所述第一網(wǎng)絡(luò)訪問日志包括多個(gè)字段; 查找單元,用于從預(yù)設(shè)字典庫中分別查找與所述多個(gè)字段對(duì)應(yīng)的標(biāo)識(shí),其中,所述預(yù)設(shè)字典庫中存儲(chǔ)有字段和與字段對(duì)應(yīng)的標(biāo)識(shí); 替換單元,用于將所述第一網(wǎng)絡(luò)訪問日志中的所述多個(gè)字段替換為對(duì)應(yīng)的標(biāo)識(shí),得到第二網(wǎng)絡(luò)訪問日志;以及 傳輸單兀,用于傳輸所述第二網(wǎng)絡(luò)訪問日志。
8.根據(jù)權(quán)利要求7所述的網(wǎng)絡(luò)訪問日志處理裝置,其特征在于,所述裝置還包括: 第二獲取單元,用于獲取多條網(wǎng)絡(luò)訪問日志; 計(jì)算單元,用于計(jì)算所述多條網(wǎng)絡(luò)訪問日志中字段內(nèi)容相同的第一字段的個(gè)數(shù),其中,所述第一字段為所述多個(gè)字段中任意一個(gè)字段或是所述多個(gè)字段的組合或是所述多個(gè)字段中任意一個(gè)字段的多個(gè)子字段中的任意一個(gè)子字段; 第一判斷單元,用于判斷所述第一字段的個(gè)數(shù)是否大于預(yù)設(shè)值; 創(chuàng)建單元,用于創(chuàng)建預(yù)設(shè)字典庫;以及 存儲(chǔ)單元,用于在所述第一字段的個(gè)數(shù)大于預(yù)設(shè)值時(shí),將所述第一字段和對(duì)應(yīng)的標(biāo)識(shí)存儲(chǔ)于所述預(yù)設(shè)字典庫中。
9.根據(jù)權(quán)利要求8所述的網(wǎng)絡(luò)訪問日志處理裝置,其特征在于,所述裝置還包括: 第二判斷單元,用于判斷所述第一字段是否存在于所述預(yù)設(shè)字典庫中;以及 生成單元,用于在所述第一字段不存在于所述預(yù)設(shè)字典庫中時(shí),生成所述第一字段對(duì)應(yīng)的標(biāo)識(shí)。
10.根據(jù)權(quán)利要求9所述的網(wǎng)絡(luò)訪問日志處理裝置,其特征在于,所述第二判斷單元包括: 運(yùn)算模塊,用于將所述第一字段進(jìn)行哈希運(yùn)算,得到所述第一字段的哈希值;判斷模塊,用于判斷所述第一字段的哈希值是否存在于所述預(yù)設(shè)字典庫中;以及確定模塊,用于在所述第一字段的哈希值不存在于所述預(yù)設(shè)字典庫中時(shí),確定所述第一字段不存在于所述預(yù)設(shè)字典庫中,并將所述第一字段的哈希值存儲(chǔ)于所述預(yù)設(shè)字典庫中,在所述第一字段的哈希值存在于所述預(yù)設(shè)字典庫中時(shí),確定所述第一字段存在于所述預(yù)設(shè)字典庫中。
11.根據(jù)權(quán)利要求7所述的網(wǎng)絡(luò)訪問日志處理裝置,其特征在于,發(fā)送裝置傳輸所述第一網(wǎng)絡(luò)訪問日志至接收裝置,在所述發(fā)送裝置和所述接收裝置均存儲(chǔ)有所述預(yù)設(shè)字典庫,所述裝置還包括: 第三判斷單元,用于判斷接收裝置存儲(chǔ)的預(yù)設(shè)字典庫是否有更新;以及更新單元,用于在判斷出所述接收裝置存儲(chǔ)的預(yù)設(shè)字典庫有更新時(shí),則根據(jù)所述接收裝置的預(yù)設(shè)字典庫更新所述發(fā)送裝置的預(yù)設(shè)字典庫。
【文檔編號(hào)】H04L12/24GK104283723SQ201410602350
【公開日】2015年1月14日 申請(qǐng)日期:2014年10月31日 優(yōu)先權(quán)日:2014年10月31日
【發(fā)明者】楊川, 秦剛 申請(qǐng)人:北京藍(lán)汛通信技術(shù)有限責(zé)任公司