一種采集互聯(lián)網(wǎng)訪問數(shù)據(jù)的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通信領(lǐng)域,尤其涉及一種采集互聯(lián)網(wǎng)訪問數(shù)據(jù)的方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)企業(yè)之間的競爭逐步加劇,對自然人用戶訪問的互聯(lián)網(wǎng)的內(nèi)容進行采 集就越加重要。
[0003] 現(xiàn)有的采集互聯(lián)網(wǎng)訪問數(shù)據(jù)的方法,通常需要在用戶到互聯(lián)網(wǎng)的訪問路徑上的多 處采集節(jié)點設(shè)置深度數(shù)據(jù)包檢測(De印Packet Inspection,DPI)設(shè)備,利用DPI設(shè)備對通 信鏈路上的數(shù)據(jù)包進行拆包、特征識別和檢測。
[0004] 而DPI設(shè)備的價格昂貴,可見,現(xiàn)有的互聯(lián)網(wǎng)訪問數(shù)據(jù)的采集方法具有成本高的 缺點。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實施例提供了一種采集互聯(lián)網(wǎng)訪問數(shù)據(jù)的方法,目的在于解決現(xiàn)有的互聯(lián) 網(wǎng)訪問數(shù)據(jù)的采集方法成本高的問題。
[0006] -種采集互聯(lián)網(wǎng)訪問內(nèi)容的方法,應(yīng)用于互聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng),所述方法包括:
[0007] 獲取應(yīng)用層日志和網(wǎng)絡(luò)接入標(biāo)識間的對應(yīng)關(guān)系,所述應(yīng)用層日志通過響應(yīng)終端訪 問統(tǒng)一資源定位符URL的內(nèi)容請求報文生成,所述內(nèi)容請求報文通過路由轉(zhuǎn)發(fā)至所述Web 代理服務(wù)器集群,所述Web代理服務(wù)器集群設(shè)置在所述電信運營商的IP承載網(wǎng)絡(luò)內(nèi)滿足預(yù) 設(shè)條件的節(jié)點上,所述終端使用所述網(wǎng)絡(luò)接入標(biāo)識;
[0008] 依據(jù)所述對應(yīng)關(guān)系,采集所述網(wǎng)絡(luò)接入標(biāo)識在預(yù)設(shè)時間段內(nèi)、對所述互聯(lián)網(wǎng)的訪 問內(nèi)容。
[0009] 可選的,所述獲取應(yīng)用層日志和網(wǎng)絡(luò)接入標(biāo)識間的對應(yīng)關(guān)系包括:
[0010] 從所述互聯(lián)網(wǎng)中的AAA服務(wù)器中獲取承載層日志,所述承載層日志中包括以下字 段:網(wǎng)絡(luò)接入標(biāo)識、本次承載層會話中所述網(wǎng)絡(luò)接入標(biāo)識使用的IP地址、本次承載層會話 開始的時間戳和本次承載層會話結(jié)束的時間戳;
[0011] 從所述Web代理服務(wù)器集群獲取應(yīng)用層日志,所述應(yīng)用層日志中包括以下字段: 本次應(yīng)用層請求結(jié)束的時間戳、發(fā)起此次應(yīng)用層請求的IP地址、響應(yīng)此次應(yīng)用層請求使用 的傳輸層流量和本次應(yīng)用層請求的URL ;
[0012] 當(dāng)所述發(fā)起此次應(yīng)用層請求的IP地址與所述本次承載層會話中所述網(wǎng)絡(luò)接入標(biāo) 識使用的IP地址匹配、且所述本次應(yīng)用層請求結(jié)束的時間戳位于所述本次承載層會話開 始的時間戳和本次承載層會話結(jié)束的時間戳之間時,確定所述應(yīng)用層日志與所述網(wǎng)絡(luò)接入 標(biāo)識間存在對應(yīng)關(guān)系。
[0013] 可選的,所述獲取應(yīng)用層日志和網(wǎng)絡(luò)接入標(biāo)識間的對應(yīng)關(guān)系包括:
[0014] 從所述互聯(lián)網(wǎng)中的AAA服務(wù)器中獲取承載層日志,所述承載層日志中包括以下字 段:網(wǎng)絡(luò)接入標(biāo)識、本次承載層會話中所述網(wǎng)絡(luò)接入標(biāo)識使用的原始接入IP地址、本次承 載層會話開始的時間戳和本次承載層會話結(jié)束的時間戳;
[0015] 獲取地址轉(zhuǎn)換日志,所述地址轉(zhuǎn)換日志中包括以下字段:原始接入IP地址、所述 原始接入IP地址對應(yīng)的端口號、由所述原始接入IP地址轉(zhuǎn)換得到的訪問IP地址、所述訪 問IP地址對應(yīng)的端口號和地址轉(zhuǎn)換時間;
[0016] 從所述Web代理服務(wù)器集群獲取應(yīng)用層日志,所述應(yīng)用層日志中包括以下字段: 本次應(yīng)用層請求結(jié)束的時間戳、發(fā)起此次應(yīng)用層請求的IP地址、所述IP地址對應(yīng)的訪問端 口號、內(nèi)容響應(yīng)成功時間戳、響應(yīng)此次應(yīng)用層請求使用的傳輸層流量和本次應(yīng)用層請求的 URL ;
[0017] 當(dāng)所述應(yīng)用層日志中的發(fā)起此次應(yīng)用層請求的IP地址與所述地址轉(zhuǎn)換日志中的 由所述原始接入IP地址轉(zhuǎn)換得到的訪問IP地址相同、所述應(yīng)用層日志中的所述IP地址對 應(yīng)的訪問端口號與所述地址轉(zhuǎn)換日志中的所述訪問IP地址對應(yīng)的端口號相同、以及,所述 應(yīng)用層日志中的內(nèi)容響應(yīng)成功時間戳在所述地址轉(zhuǎn)換日志中的地址轉(zhuǎn)換時間的間隔內(nèi),則 確定所述應(yīng)用層日志中的發(fā)起此次應(yīng)用層請求的IP地址與所述地址轉(zhuǎn)換日志中的原始接 入IP地址對應(yīng);
[0018] 如果所述承載成日志中的本次承載層會話中所述網(wǎng)絡(luò)接入標(biāo)識使用的原始接入 IP地址與所述原始接入IP地址相同,獲取所述承載層日志中與本次承載層會話中所述網(wǎng) 絡(luò)接入標(biāo)識使用的原始接入IP地址對應(yīng)的網(wǎng)絡(luò)接入標(biāo)識;
[0019] 建立所述網(wǎng)絡(luò)接入標(biāo)識與所述應(yīng)用層日志的對應(yīng)關(guān)系。
[0020] 可選的,所述獲取應(yīng)用層日志和網(wǎng)絡(luò)接入標(biāo)識間的對應(yīng)關(guān)系包括:
[0021] 依據(jù)獲取的應(yīng)用日志,確定所述應(yīng)用層日志和網(wǎng)絡(luò)接入標(biāo)識間的對應(yīng)關(guān)系,所述 應(yīng)用層日志中包括所述網(wǎng)絡(luò)接入標(biāo)識。
[0022] -種采集互聯(lián)網(wǎng)訪問內(nèi)容的方法,應(yīng)用于Web代理服務(wù)器集群,所述Web代理服務(wù) 器集群設(shè)置在所述電信運營商的IP承載網(wǎng)絡(luò)內(nèi)滿足預(yù)設(shè)條件的節(jié)點上,所述方法包括:
[0023] 接收終端訪問URL的內(nèi)容請求報文,所述內(nèi)容請求報文通過路由轉(zhuǎn)發(fā)至所述Web 代理服務(wù)器集群;
[0024] 通過響應(yīng)所述內(nèi)容請求報文生成應(yīng)用層日志,所述應(yīng)用層日志用于獲取所述應(yīng)用 層日志和網(wǎng)絡(luò)接入標(biāo)識間的對應(yīng)關(guān)系,所述對應(yīng)關(guān)系用于采集所述網(wǎng)絡(luò)接入標(biāo)識在預(yù)設(shè)時 間段內(nèi)、對所述互聯(lián)網(wǎng)的訪問內(nèi)容,所述終端使用所述網(wǎng)絡(luò)接入標(biāo)識。
[0025] 可選的,所述Web代理服務(wù)器集群具有互聯(lián)網(wǎng)內(nèi)容緩存功能。
[0026] 可選的,還包括:
[0027] 如果所述內(nèi)容請求報文中攜帶所述網(wǎng)絡(luò)接入標(biāo)識,將所述網(wǎng)絡(luò)接入標(biāo)識記錄在所 述應(yīng)用層日志中。
[0028] 一種采集互聯(lián)網(wǎng)訪問內(nèi)容的方法,包括:
[0029] 所述互聯(lián)網(wǎng)中的轉(zhuǎn)發(fā)重定向系統(tǒng)將所述網(wǎng)絡(luò)接入標(biāo)識訪問URL的內(nèi)容請求報文 路由轉(zhuǎn)發(fā)至Web代理服務(wù)器集群,所述Web代理服務(wù)器集群設(shè)置在所述電信運營商的IP承 載網(wǎng)絡(luò)內(nèi)滿足預(yù)設(shè)條件的節(jié)點上;
[0030] 所述Web代理服務(wù)器集群通過響應(yīng)所述網(wǎng)絡(luò)接入標(biāo)識訪問URL的內(nèi)容請求報文生 成應(yīng)用層日志;
[0031] 互聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)獲取所述應(yīng)用層日志和網(wǎng)絡(luò)接入標(biāo)識間的對應(yīng)關(guān)系,并依據(jù) 所述對應(yīng)關(guān)系,采集所述網(wǎng)絡(luò)接入標(biāo)識在預(yù)設(shè)時間段內(nèi)、對所述互聯(lián)網(wǎng)的訪問內(nèi)容。
[0032] 可選的,所述預(yù)設(shè)條件包括:
[0033] 連通互聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)與電信運營商的認證授權(quán)記賬系統(tǒng)間的通信;
[0034] 當(dāng)終端與所述Web代理服務(wù)器集群間存在IP地址的轉(zhuǎn)換時,在地址轉(zhuǎn)換設(shè)備上保 存有地址轉(zhuǎn)換的日志;
[0035] 以及,連接在所述節(jié)點上設(shè)備在時間上同步。
[0036] 一種互聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng),包括:
[0037] 獲取模塊,用于獲取應(yīng)用層日志和網(wǎng)絡(luò)接入標(biāo)識間的對應(yīng)關(guān)系,所述應(yīng)用層日志 通過響應(yīng)終端訪問URL的內(nèi)容請求報文生成,所述內(nèi)容請求報文通過路由轉(zhuǎn)發(fā)至所述Web 代理服務(wù)器集群,所述Web代理服務(wù)器集群設(shè)置在所述電信運營商的IP承載網(wǎng)絡(luò)內(nèi)滿足預(yù) 設(shè)條件的節(jié)點上,所述終端使用所述網(wǎng)絡(luò)接入標(biāo)識;
[0038] 采集模塊,用于依據(jù)所述對應(yīng)關(guān)系,采集所述網(wǎng)絡(luò)接入標(biāo)識在預(yù)設(shè)時間段內(nèi)、對所 述互聯(lián)網(wǎng)的訪問內(nèi)容。
[0039] 可選的,所述獲取模塊包括:
[0040] 第一獲取單元,用于從所述互聯(lián)網(wǎng)中的AAA服務(wù)器中獲取承載層日志,所述承載 層日志中包括以下字段:網(wǎng)絡(luò)接入標(biāo)識、本次承載層會話中所述網(wǎng)絡(luò)接入標(biāo)識使用的IP地 址、本次承載層會話開始的時間戳和本次承載層會話結(jié)束的時間戳;
[0041] 第二獲取單元,用于從所述Web代理服務(wù)器集群獲取應(yīng)用層日志,所述應(yīng)用層日 志中包括以下字段:本次應(yīng)用層請求結(jié)束的時間戳、發(fā)起此次應(yīng)用層請求的IP地址、響應(yīng) 此次應(yīng)用層請求使用的傳輸層流量和本次應(yīng)用層請求的URL ;
[0042] 第一確定單元,用于當(dāng)所述發(fā)起此次應(yīng)用層請求的IP地址與所述本次承載層會 話中所述網(wǎng)絡(luò)接入標(biāo)識使用的IP地址匹配、且所述本次應(yīng)用層請求結(jié)束的時間戳位于所 述本次承載層會話開始的時間戳和本次承載層會話結(jié)束的時間戳之間時,確定所述應(yīng)用層 日志與所述網(wǎng)絡(luò)接入標(biāo)識間存在對應(yīng)關(guān)系。
[0043] 可選的,所述獲取模塊包括:
[0044] 第一獲取單元,用于從所述互聯(lián)網(wǎng)中的AAA服務(wù)器中獲取承載層日志,所述承載 層日志中包括以下字段:網(wǎng)絡(luò)接入標(biāo)識、本次承載層會話中所述網(wǎng)絡(luò)接入標(biāo)識使用的原始 接入IP地址、本次承載層會話開始的時間戳和本次承載層會話結(jié)束的時間戳;
[0045] 第三獲取單元,用于獲取地址轉(zhuǎn)換日志,所述地址轉(zhuǎn)換日志中包括以下字段:原始 接入IP地址、所述原始接入IP地址對應(yīng)的端口號、由所述原始接入IP地址轉(zhuǎn)換得到的訪 問IP地址、所述訪問IP地址對應(yīng)的端口號和地址轉(zhuǎn)換時間;
[0046] 第二獲取單元,用于從所述Web代理服務(wù)器集群獲取應(yīng)用層日志,所述應(yīng)用層日 志中包括以下字段:本次應(yīng)用層請求結(jié)束的時間戳、發(fā)起此次應(yīng)用層請求的IP地址、所述 IP地址對應(yīng)的訪問端口號、內(nèi)容響應(yīng)成功時間戳、響應(yīng)此次應(yīng)用層請求使用的傳輸層流量 和本次應(yīng)用層請求的URL ;
[0047] 對應(yīng)關(guān)系建立單元,用于當(dāng)所述應(yīng)用層日志中的發(fā)起此次應(yīng)用層請求的IP地址 與所述地址轉(zhuǎn)換日志中的由所述原始接入IP地址轉(zhuǎn)換得到的訪問IP地址相同、所述應(yīng)用 層日志中的所述IP地址對應(yīng)的訪問端口號與所述地址轉(zhuǎn)換日志中的所述訪問IP地址對應(yīng) 的端口號相同、以及,所述應(yīng)用層日志中的內(nèi)容響應(yīng)成功時間戳在所述地址轉(zhuǎn)換日志中的 地址轉(zhuǎn)換時間的間隔內(nèi),則確定所述應(yīng)用層日志中的發(fā)起此次應(yīng)用層請求的IP地址與所 述地址轉(zhuǎn)換日志中的原始接入IP地址對應(yīng);如果所述承載成日志中的本次承載層會話中 所述網(wǎng)絡(luò)接入標(biāo)識使用的原始接入IP地址與所述原始接入IP地址相同,獲取所述承載層 日志中與本次承載層會話中所述網(wǎng)絡(luò)接入標(biāo)識使用的原始接入IP地址對應(yīng)的網(wǎng)絡(luò)接入標(biāo) 識,并建立所述網(wǎng)絡(luò)接入標(biāo)識與所述應(yīng)用層日志的對應(yīng)關(guān)系。
[0048] 可選的,所述獲取模塊包括:
[0049] 第二確定單元,用于依據(jù)獲取的應(yīng)用日志,確定所述應(yīng)用層日志和網(wǎng)絡(luò)接入標(biāo)識 間的對應(yīng)關(guān)系,所述應(yīng)用層日志中包括所述網(wǎng)絡(luò)接入標(biāo)識。
[0050] -種Web代理服務(wù)器集群,所述Web代理服務(wù)器集群設(shè)置在所述電信運營商的IP 承載網(wǎng)絡(luò)內(nèi)滿足預(yù)設(shè)條件的節(jié)點上,包括:
[0051 ] 接收模塊,用于接收終端訪問URL的內(nèi)容請求報文,所述內(nèi)容請求報文通過路由 轉(zhuǎn)發(fā)至所述Web代理服務(wù)器集群;
[0052] 生成模塊,用于通過響應(yīng)所述內(nèi)容