的第一類采集數(shù)據(jù),通過Syslog將記錄的數(shù)據(jù)發(fā)送到本模組抓取器,通過Syslog同步數(shù)據(jù),從而可以異步對Apache日志進(jìn)行數(shù)據(jù)分析。在本發(fā)明的一些實(shí)施方式中,Apache日志采集操作的流程可以如圖2所示。
[0031]本發(fā)明實(shí)施方式中通過Apache進(jìn)程采集的第一類采集數(shù)據(jù)可包括:用戶的訪問請求所訪問的頁面的標(biāo)識信息、該頁面加載時生成的時間戳以及第一采集數(shù)據(jù)。用戶所訪問的頁面的標(biāo)識信息可包括統(tǒng)一資源定位符(UniversalResource Locator ,URL),也可以是其他能夠唯一標(biāo)識該頁面的一個標(biāo)識信息或多個標(biāo)識信息。在本發(fā)明的一些實(shí)施方式中,該頁面的標(biāo)識信息為URL。頁面加載時生成的時間戳是每次頁面加載時均生成的時間戳,保存在頁面的cookie中,并且精確度可達(dá)到10—9秒級別。在其他實(shí)施方式中,根據(jù)所匹配的精確度需要的不同等因素,還可采用其他精確度的時間戳,例如,精確度在10—1秒、10—2秒、10—3秒、10—4秒、10—5秒、10—6秒、10—7秒、10—8秒、10—1(3秒、10—11秒等時間戳。第一采集數(shù)據(jù)根據(jù)所訪問的網(wǎng)站頁面的類型以及相應(yīng)的數(shù)據(jù)分析的目的而不同,例如,對于電商網(wǎng)站而言,第一采集數(shù)據(jù)可包括下述的一種或多種(例如,大于或等于2種):HTTP狀態(tài)碼、站內(nèi)搜索關(guān)鍵詞以及這些關(guān)鍵詞的流水?dāng)?shù)據(jù)、瀏覽的商品或加入購物車的商品等會員操作的流水?dāng)?shù)據(jù)等。需要說明的是,本發(fā)明實(shí)施方式中用戶所訪問的網(wǎng)站頁面不僅可以是各種不同類型的電商網(wǎng)站,也可以是其他類型的網(wǎng)站,例如,新聞類網(wǎng)站等。
[0032]在步驟S12中,通過Java腳本采集所述用戶對頁面的訪問請求關(guān)聯(lián)的第二類采集數(shù)據(jù),所述第二類采集數(shù)據(jù)包括:所述頁面的標(biāo)識信息、所述頁面加載時生成的時間戳以及第二采集數(shù)據(jù)。在客戶端一側(cè),用戶做出點(diǎn)擊網(wǎng)站頁面的動作之后,會觸發(fā)客戶端瀏覽器向該頁面發(fā)起HTTP請求,頁面加載的過程中,會觸發(fā)事先嵌入頁面的Java腳本,Java腳本開始采集與該訪問請求關(guān)聯(lián)的第二類采集數(shù)據(jù),在數(shù)據(jù)采集完成之后,將所采集的數(shù)據(jù)發(fā)送到相應(yīng)的采集服務(wù)器。從而可以進(jìn)行后續(xù)的采集數(shù)據(jù)分析。在本發(fā)明的一些實(shí)施方式中,通過Java腳本采集數(shù)據(jù)的流程可以如圖3所示。
[0033]本發(fā)明實(shí)施方式中通過Java腳本采集的第二類采集數(shù)據(jù)可包括:用戶的訪問請求所訪問的頁面的標(biāo)識信息、該頁面加載時生成的時間戳以及第二采集信息。用戶所訪問的頁面的標(biāo)識信息可包括URL,也可以是其他能夠唯一標(biāo)識該頁面的一個標(biāo)識信息或多個標(biāo)識信息組合。在本發(fā)明的一些實(shí)施方式中,該頁面的標(biāo)識信息為URL。頁面加載時生成的時間戳是每次頁面加載時均生成的時間戳,保存在頁面的cookie中,并且精確度可達(dá)到10—9秒級別。在其他實(shí)施方式中,根據(jù)所匹配的精確度需要的不同等因素,還可采用其他精確度的時間戳,例如,精確度在I O—1秒、10—2秒、10—3秒、10—4秒、10—5秒、10—6秒、10—7秒、10—8秒、10—1(3秒、10—11秒等時間戳。第二采集數(shù)據(jù)根據(jù)所訪問的網(wǎng)站頁面的類型以及相應(yīng)的數(shù)據(jù)分析的目的而不同,例如,對于電商網(wǎng)站而言,第二采集數(shù)據(jù)可包括下述的一種或多種(例如,大于或等于2種):會話ID(sess1nlD)、用戶代理(UserAgent)、Flash版本、Cookie、屏幕參數(shù)和頁面停留時間等。
[0034]需要說明的是,上述的步驟Sll和S12雖然是按照一定的順序進(jìn)行描述,但在數(shù)據(jù)采集過程中,步驟Sll和S12可以按照先執(zhí)行步驟Sll,再執(zhí)行步驟S12的順序執(zhí)行,也可以按照先執(zhí)行S12,再執(zhí)行步驟Sll的順序執(zhí)行,還可以同時執(zhí)行步驟Sll和S12的順序執(zhí)行。
[0035]通過上述步驟Sll采集的第一類采集數(shù)據(jù)可以保存為文件的形式,分布在不同的WEB服務(wù)器,采用SyslogNG可以將文件異步傳輸?shù)椒治龇?wù)器;通過上述步驟S12采集的第二類采集數(shù)據(jù)也可以保存為文件的形式,通過開源工具Flume傳輸?shù)綄?yīng)的分析服務(wù)器。
[0036]在步驟S13中,根據(jù)上述采集到的第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳對所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)進(jìn)行匹配以得到所述用戶的行為數(shù)據(jù)。具體而言,根據(jù)上述采集到的第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳對所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)進(jìn)行匹配可包括:將所述第一類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳與所述第二類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳進(jìn)行比對,若比對一致,也就是說,第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳均相同,則將所述第一類采集數(shù)據(jù)和所述第二類采集數(shù)據(jù)合并作為所述用戶在所述頁面上所述時間戳對應(yīng)時刻的行為數(shù)據(jù)。若比對不一致,也就是說,第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳是不同的,則不對數(shù)據(jù)進(jìn)行合并處理。也就是說,本發(fā)明的數(shù)據(jù)整合是基于第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)中共同的信息,頁面的標(biāo)識信息(例如,URL)和該頁面加載時生成的時間戳,對通過不同方式采集的第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)進(jìn)行匹配,得到該用戶在該頁面上該時間戳對應(yīng)時刻的多方面的采集數(shù)據(jù),作為該用戶在該時刻的行為數(shù)據(jù)。在得到用戶在某一時刻的行為數(shù)據(jù)之后,還可對這些行為數(shù)據(jù)進(jìn)行格式化,例如,可對這些數(shù)據(jù)進(jìn)行提取、加工等處理得到統(tǒng)一的格式,便于進(jìn)一步的統(tǒng)計分析處理。
[0037]本發(fā)明實(shí)施方式通過將不同方式采集的兩類用戶關(guān)聯(lián)數(shù)據(jù)基于頁面的標(biāo)識信息和時間戳進(jìn)行整合,與現(xiàn)有的僅通過一種方式采集用戶關(guān)聯(lián)數(shù)據(jù)的方案相比,可擴(kuò)展用戶行為數(shù)據(jù)采集的方式,同時也可改善用戶行為數(shù)據(jù)采集的全面度。
[0038]上面結(jié)合附圖和具體例子描述了本發(fā)明的用戶行為數(shù)據(jù)采集方法,下面結(jié)合附圖和具體例子上述用戶行為數(shù)據(jù)采集方法對應(yīng)的系統(tǒng)。
[0039]圖4是根據(jù)本發(fā)明一種實(shí)施方式的用戶行為數(shù)據(jù)采集系統(tǒng)的結(jié)構(gòu)示意圖。
[0040]如圖4所示,用戶行為數(shù)據(jù)采集系統(tǒng)4可包括第一采集模塊41、第二采集模塊42和整合模塊43,這些模塊可設(shè)置于網(wǎng)站的服務(wù)器一側(cè),例如,可設(shè)置于用于采集數(shù)據(jù)的服務(wù)器集群中。第一采集模塊41可以利用現(xiàn)有的Apache的采集設(shè)施進(jìn)行相應(yīng)的數(shù)據(jù)采集,第二采集模塊41也可以利用現(xiàn)有的java腳本的采集設(shè)施進(jìn)行相應(yīng)的數(shù)據(jù)采集。
[0041 ]下面對本發(fā)明的用戶行為數(shù)據(jù)采集系統(tǒng)的各個模塊進(jìn)行具體說明。
[0042]第一采集模塊41通過Apache進(jìn)程記錄用戶對頁面的訪問請求關(guān)聯(lián)的第一類采集數(shù)據(jù),所述第一類采集數(shù)據(jù)包括:所述頁面的標(biāo)識信息、所述頁面加載時生成的時間戳以及第一采集數(shù)據(jù)。在本發(fā)明的一些實(shí)施方式中,Apache日志采集操作的流程可以如圖2所示。
[0043]本發(fā)明實(shí)施方式中通過Apache進(jìn)程采集的第一類采集數(shù)據(jù)可包括:用戶的訪問請求所訪問的頁面的標(biāo)識信息、該頁面加載時生成的時間戳以及第一采集數(shù)據(jù)。用戶所訪問的頁面的標(biāo)識信息可包括統(tǒng)一資源定位符,也可以是其他能夠唯一標(biāo)識該頁面的一個標(biāo)識信息或多個標(biāo)識信息。在本發(fā)明的一些實(shí)施方式中,該頁面的標(biāo)識信息為URL。頁面加載時生成的時間戳是每次頁面加載時均生成的時間戳,保存在頁面的cookie中,并且精確度可達(dá)到10—9秒級別。在其他實(shí)施方式中,根據(jù)所匹配的精確度需要的不同等因素,還可采用其他精確度的時間戳,例如,精確度在I O—1秒、I O—2秒、I O—3秒、I O—4秒、I O—5秒、I O—6秒、I O—7秒、1一8秒、10—1(3秒、10—11秒等時間戳。第一采集數(shù)據(jù)根據(jù)所訪問的網(wǎng)站頁面的類型以及相應(yīng)的數(shù)據(jù)分析的目的而不同,例如,對于電商網(wǎng)站而言,第一采集數(shù)據(jù)可包括下述的一種或多種(例如,大于或等于2種):HTTP狀態(tài)碼、站內(nèi)搜索關(guān)鍵詞以及這些關(guān)鍵詞的流水?dāng)?shù)據(jù)、瀏覽的商品或加入購物車的商品等會員操作的流水?dāng)?shù)據(jù)等。
[0044]第二采集模塊42通過Java腳本采集所述用戶對頁面的訪問請求關(guān)聯(lián)的