亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種用戶行為數(shù)據(jù)采集方法和系統(tǒng)的制作方法

文檔序號:9931408閱讀:657來源:國知局
一種用戶行為數(shù)據(jù)采集方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,更為具體而言,涉及一種用戶行為數(shù)據(jù)采集方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,大數(shù)據(jù)時代已經(jīng)到來。許多熱門的WEB網(wǎng)站的用戶日均訪問量都達(dá)到了千萬級別,而這些用戶訪問行為的相關(guān)數(shù)據(jù)成為了大數(shù)據(jù)分析的基礎(chǔ)元數(shù)據(jù),動態(tài)數(shù)據(jù)采集也成為至關(guān)重要的環(huán)節(jié)。
[0003]然而,現(xiàn)有的對WEB網(wǎng)站的頁面數(shù)據(jù)采集大多數(shù)單一地采用Apache日志或者Javascript腳本的方式,而且每種采集方式所能夠采集的數(shù)據(jù)也不同,因此現(xiàn)有的數(shù)據(jù)采集方式所采集的數(shù)據(jù)比較單一,不夠充分和全面。

【發(fā)明內(nèi)容】

[0004]為解決上述技術(shù)問題,本發(fā)明提供了一種用戶行為數(shù)據(jù)采集方法和裝置,通過將Apache和Java腳本兩種方式從用戶采集的數(shù)據(jù)進(jìn)行匹配,作為用戶的行為數(shù)據(jù),可擴(kuò)展用戶行為數(shù)據(jù)采集的方式,顯著改善用戶行為數(shù)據(jù)的采集的全面度。
[0005]根據(jù)本發(fā)明實(shí)施方式的第一方面,提供了一種用戶行為數(shù)據(jù)采集方法,該方法包括:通過Apache進(jìn)程記錄用戶對頁面的訪問請求關(guān)聯(lián)的第一類采集數(shù)據(jù),所述第一類采集數(shù)據(jù)包括:所述頁面的標(biāo)識信息、所述頁面加載時生成的時間戳以及第一采集數(shù)據(jù);通過Java腳本采集所述用戶對頁面的訪問請求關(guān)聯(lián)的第二類采集數(shù)據(jù),所述第二類采集數(shù)據(jù)包括:所述頁面的標(biāo)識信息、所述頁面加載時生成的時間戳以及第二采集數(shù)據(jù);根據(jù)所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳對所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)進(jìn)行匹配以得到所述用戶的行為數(shù)據(jù)。
[0006]在本發(fā)明的一些實(shí)施方式中,所述頁面的標(biāo)識信息包括統(tǒng)一資源定位符URL。
[0007]在本發(fā)明的一些實(shí)施方式中,所述頁面加載時生成的時間戳保存在頁面的cookie中。
[0008]在本發(fā)明的一些實(shí)施方式中,所述第一采集數(shù)據(jù)包括下述的一種或多種:HTTP狀態(tài)碼、站內(nèi)搜索關(guān)鍵詞、瀏覽的商品和加入購物車的商品。
[0009]在本發(fā)明的一些實(shí)施方式中,所述第二采集數(shù)據(jù)包括下述的一種或多種:會話ID、用戶代理、Flash版本、cookie、屏幕參數(shù)和頁面停留時間。
[0010]在本發(fā)明的一些實(shí)施方式中,所述根據(jù)所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳對所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)進(jìn)行匹配包括:將所述第一類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳與所述第二類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳進(jìn)行比對,若比對一致,則將所述第一類采集數(shù)據(jù)和所述第二類采集數(shù)據(jù)合并作為所述用戶在所述頁面上所述時間戳對應(yīng)時刻的行為數(shù)據(jù)。
[0011]根據(jù)本發(fā)明實(shí)施方式的第二方面,提供了用戶行為數(shù)據(jù)采集系統(tǒng),該系統(tǒng)包括:第一采集模塊,用于通過Apache進(jìn)程記錄用戶對頁面的訪問請求關(guān)聯(lián)的第一類采集數(shù)據(jù),所述第一類采集數(shù)據(jù)包括:所述頁面的標(biāo)識信息、所述頁面加載時生成的時間戳以及第一采集數(shù)據(jù);第二采集模塊,通過Java腳本采集所述用戶對頁面的訪問請求關(guān)聯(lián)的第二類采集數(shù)據(jù),所述第二類采集數(shù)據(jù)包括:所述頁面的標(biāo)識信息、所述頁面加載時生成的時間戳以及第二采集數(shù)據(jù);整合模塊,用于根據(jù)所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳對所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)進(jìn)行匹配以得到所述用戶的行為數(shù)據(jù)。
[0012]在本發(fā)明的一些實(shí)施方式中,所述頁面的標(biāo)識信息包括統(tǒng)一資源定位符URL。
[0013]在本發(fā)明的一些實(shí)施方式中,所述頁面加載時生成的時間戳保存在頁面的cookie中。
[0014]在本發(fā)明的一些實(shí)施方式中,所述第一采集數(shù)據(jù)包括下述的一種或多種:HTTP狀態(tài)碼、站內(nèi)搜索關(guān)鍵詞、瀏覽的商品和加入購物車的商品。
[0015]在本發(fā)明的一些實(shí)施方式中,所述第二采集數(shù)據(jù)包括下述的一種或多種:會話ID、用戶代理、Flash版本、cookie、屏幕參數(shù)和頁面停留時間。
[0016]在本發(fā)明的一些實(shí)施方式中,所述整合模塊根據(jù)所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳對所述第一類采集數(shù)據(jù)和第二類采集數(shù)據(jù)進(jìn)行匹配包括:將所述第一類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳與所述第二類采集數(shù)據(jù)中的頁面的標(biāo)識信息和時間戳進(jìn)行比對,若比對一致,則將所述第一類采集數(shù)據(jù)和所述第二類采集數(shù)據(jù)合并作為所述用戶在所述頁面上所述時間戳對應(yīng)時刻的行為數(shù)據(jù)。
[0017]實(shí)施本發(fā)明實(shí)施方式提供用戶行為數(shù)據(jù)采集方法和系統(tǒng),可以擴(kuò)展用戶行為數(shù)據(jù)采集的方式,同時改善用戶行為數(shù)據(jù)采集的全面度。
【附圖說明】
[0018]圖1是根據(jù)本發(fā)明一種實(shí)施方式的用戶行為數(shù)據(jù)采集方法的流程示意圖;
[0019]圖2是根據(jù)本發(fā)明一種實(shí)施方式的通過Apache方式采集用戶關(guān)聯(lián)數(shù)據(jù)的流程示意圖;
[0020]圖3是根據(jù)本發(fā)明一種實(shí)施方式的通過Java腳本采集用戶關(guān)聯(lián)數(shù)據(jù)的流程示意圖;
[0021]圖4是根據(jù)本發(fā)明一種實(shí)施方式的用戶行為數(shù)據(jù)采集系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022]以下結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明的各個方面進(jìn)行詳細(xì)闡述。其中,眾所周知的模塊、單元及其相互之間的連接、鏈接、通信或操作沒有示出或未作詳細(xì)說明。并且,所描述的特征、架構(gòu)或功能可在一個或一個以上實(shí)施方式中以任何方式組合。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,下述的各種實(shí)施方式只用于舉例說明,而非用于限制本發(fā)明的保護(hù)范圍。還可以容易理解,本文所述和附圖所示的各實(shí)施方式中的模塊或單元或處理方式可以按各種不同配置進(jìn)行組合和設(shè)計(jì)。
[0023]下面就本發(fā)明涉及的一些概念進(jìn)行說明。
[0024]Apache,是Apache HTTP Server的簡稱,是Apache軟件基金會的一個開放源代碼的網(wǎng)頁服務(wù)器,可以在大多數(shù)計(jì)算機(jī)操作系統(tǒng)中運(yùn)行,屬于一種跨平臺的WEB服務(wù)器軟件。在本發(fā)明的實(shí)施方式中,可以利用Apache進(jìn)程接收用戶通過客戶端瀏覽器向頁面發(fā)起的超文本傳輸協(xié)議(Hyper Text Transferprotocol,HTTP)請求,并記錄相關(guān)日志。
[0025]Java腳本,即Javascript,是一種直譯式腳本語言,屬于動態(tài)類型、弱類型、基于原型的語言。在本發(fā)明的實(shí)施方式,可以在每個頁面嵌入公共的數(shù)據(jù)采集Ja va腳本,可實(shí)現(xiàn)采集自定義指標(biāo)。
[0026]下面結(jié)合附圖描述本發(fā)明的用戶行為數(shù)據(jù)采集方法。
[0027]圖1是根據(jù)本發(fā)明一種實(shí)施方式的用戶行為數(shù)據(jù)采集方法的流程示意圖;圖2是根據(jù)本發(fā)明一種實(shí)施方式的通過Apache方式采集用戶關(guān)聯(lián)數(shù)據(jù)的流程示意圖;圖3是根據(jù)本發(fā)明一種實(shí)施方式的通過Java腳本采集用戶關(guān)聯(lián)數(shù)據(jù)的流程示意圖。
[0028]如圖1所示,本發(fā)明實(shí)施方式的用戶行為數(shù)據(jù)采集方法可包括步驟S11、S12和S13,在另外的一些實(shí)施方式中,本發(fā)明的用戶行為數(shù)據(jù)采集方法還可包括其他的一些步驟,例如,在采集之前的預(yù)先配置和嵌入的步驟,以及在匹配之后的數(shù)據(jù)格式化步驟等。
[0029]下面對本發(fā)明的方法涉及的各個步驟進(jìn)行具體的說明。
[0030]在步驟Sll中,通過Apache進(jìn)程記錄用戶對頁面的訪問請求關(guān)聯(lián)的第一類采集數(shù)據(jù),所述第一類采集數(shù)據(jù)包括:所述頁面的標(biāo)識信息、所述頁面加載時生成的時間戳以及第一采集數(shù)據(jù)。本步驟是用戶所訪問的網(wǎng)站的服務(wù)器一側(cè)部署有Apache軟件的設(shè)備上執(zhí)行。在步驟SI I之前,本發(fā)明的用戶行為數(shù)據(jù)采集方法還可包括:配置Apache日志格式,例如,可以由系統(tǒng)管理員進(jìn)行。在客戶端一側(cè),用戶做出點(diǎn)擊網(wǎng)站頁面的動作之后,會觸發(fā)用戶所在的客戶端瀏覽器向該網(wǎng)站頁面發(fā)起HTTP請求。在網(wǎng)站的服務(wù)器一側(cè),Apache進(jìn)程會接收該HTTP請求,記錄用戶對該頁面的訪問請求關(guān)聯(lián)
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1