一種網(wǎng)站用戶訪問路徑的分析方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種網(wǎng)站用戶訪問路徑的分析方法及系統(tǒng),解決目前在大數(shù)據(jù)環(huán)境下如何利用網(wǎng)站用戶訪問路徑分析來進行網(wǎng)站優(yōu)化的問題。本發(fā)明的一種網(wǎng)站用戶訪問路徑的分析方法及系統(tǒng),提供了訪問路徑樹生成及頻繁路徑挖掘方法,提及的用戶訪問路徑分析是對這些訪問站點的信息加以分析,從中對用戶行為加以分析,分析各個環(huán)節(jié)的來源、轉(zhuǎn)化、退出等等,來發(fā)現(xiàn)網(wǎng)站結(jié)構(gòu)及頁面內(nèi)容中存在的缺陷與瓶頸,并從用戶實際需要來加以改善,最終提升用戶瀏覽轉(zhuǎn)化率,提高用戶體驗與滿意度。
【專利說明】 一種網(wǎng)站用戶訪問路徑的分析方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及網(wǎng)站分析領域,特別是一種網(wǎng)站用戶訪問路徑的分析方法及系統(tǒng)。
【背景技術】
[0002]在互聯(lián)網(wǎng)產(chǎn)業(yè)高速發(fā)展的大環(huán)境下,各個網(wǎng)站之間競爭日趨激烈,數(shù)據(jù)以爆炸式的速度產(chǎn)生,能夠?qū)⑦@些大數(shù)據(jù)轉(zhuǎn)變?yōu)橛袃r值的知識對于網(wǎng)站來說是至關重要的。
[0003]對于網(wǎng)站來說,每天都有大量的用戶點擊網(wǎng)站的各個頁面,這些點擊行為一般被apache等服務器軟件記錄下來,保存于文本或數(shù)據(jù)庫等數(shù)據(jù)源中?,F(xiàn)在越來越多企業(yè)開始重視網(wǎng)站分析,根據(jù)分析結(jié)果來改進網(wǎng)站的建設,達到更好的效果。
[0004]在這方面,積累了一些解決方案。專利“一種網(wǎng)站訪問分析的系統(tǒng)”(申請專利號:CN200910082358.2),它是直接針對每個訪問用戶實時的交互引導,從而將用戶訪問的傾向?qū)崟r分析出來,并根據(jù)預定的規(guī)則將用戶分成不同群體,直接推進從用戶到購買者的進程。
[0005]專利“一種網(wǎng)站分析系統(tǒng)及方法和裝置”(申請專利號:CN201210279722.6),它是提供一種基于“旁路鏡像”的模式完成網(wǎng)站分析的數(shù)據(jù)采集,可以獲得用戶訪問網(wǎng)站的原始數(shù)據(jù)包信息,經(jīng)過有效的數(shù)據(jù)清理、篩選,獲得完整的網(wǎng)站分析的數(shù)據(jù)報告。
[0006]以上兩個專利,一個是介紹日志采集的方法,一個是分析用戶的點擊行為,在用戶訪問路徑這一方面尚未涉及,因此上述2種專利提出的方法在網(wǎng)站建設成熟后,無法再憑經(jīng)驗去做一些深層次的優(yōu)化。
[0007]在當今互聯(lián)網(wǎng)飛速發(fā)展的今天,對網(wǎng)站訪問者的訪問行為越來越重視,因為訪問者的訪問行為中隱含有訪問者的興趣、愛好、習慣等因素,如果能正確的把握這些因素,對互聯(lián)網(wǎng)發(fā)展是非常有幫助的。而對用戶訪問路徑的分析是獲取訪問者訪問行為的一個非常關鍵的途徑。
【發(fā)明內(nèi)容】
[0008]本發(fā)明在此背景下,提及的用戶訪問路徑分析是對這些訪問站點的信息加以分析,從中對用戶行為加以分析,分析各個環(huán)節(jié)的來源、轉(zhuǎn)化、退出等等,來發(fā)現(xiàn)網(wǎng)站結(jié)構(gòu)及頁面內(nèi)容中存在的缺陷與瓶頸,并從用戶實際需要來加以改善,最終提升用戶瀏覽轉(zhuǎn)化率,提高用戶體驗與滿意度。發(fā)明人經(jīng)過實踐最終總結(jié)出一種網(wǎng)站用戶訪問路徑的分析方法及系統(tǒng)。
[0009]本發(fā)明提供一種網(wǎng)站用戶訪問路徑的分析方法及系統(tǒng),解決目前在大數(shù)據(jù)環(huán)境下如何利用網(wǎng)站用戶訪問路徑分析來進行網(wǎng)站優(yōu)化的問題。
[0010]本發(fā)明采用的技術方案為:一種網(wǎng)站用戶訪問路徑的分析方法,其特征在于提供了訪問路徑樹生成及頻繁路徑挖掘方法,包括:
[0011]步驟一:從業(yè)務系統(tǒng)、文本等相關數(shù)據(jù)源將數(shù)據(jù)抽取出來,去除掉其中的噪音異常數(shù)據(jù),保留用戶點擊數(shù)據(jù)。[0012]步驟二:一般日志中每次點擊都會包含referer與request, request記錄為每次點擊對應的請求頁面,而referer指點是每次點擊是從哪個頁面鏈接過來的。對于清洗后的數(shù)據(jù),由于訪問來源referer與當前請求request的記錄格式并不一致,后期直接匹配難以進行,因而需要轉(zhuǎn)化,可以以referer的格式為基準,將request轉(zhuǎn)化為完整的url格式,這樣后期可以直接將referer與request進行匹配。
[0013]另外,為了可以支持后續(xù)不同粒度的分析,可以按照頁面的類型將訪問頁面劃分為首頁、搜索頁面、目錄頁面、產(chǎn)品頁面等等。
[0014]步驟三:由于用戶瀏覽網(wǎng)站時不一定都在登錄狀態(tài),這時對用戶身份的識別是非常重要的。根據(jù)用戶訪問網(wǎng)站時的email、cookie、ip等信息,對每一個訪問的用戶進行身份識別,識別的依據(jù)權重為email>C00kie>ip,將每一條訪問記錄對應到某個用戶,最終將用戶身份識別的數(shù)據(jù)存儲到數(shù)據(jù)倉庫中。
[0015]步驟四:在最大向前路徑算法的基礎上,結(jié)合數(shù)據(jù)庫在處理、匹配數(shù)據(jù)方面的特性,通過改寫最大向前路徑算法,將用戶訪問網(wǎng)站的點擊數(shù)據(jù)生成路徑樹,步驟如下:
[0016]I)先將訪問記錄按照用戶、點擊時間進行排序,對于每個用戶來,其首次點擊作為一顆新樹的樹根,節(jié)點值為request的值;
[0017]2)依照時間順序讀取后面的referer_i與request_i,將referer_i與已生成的樹中節(jié)點request進行匹配,匹配上的作為該匹配節(jié)點的子節(jié)點,子節(jié)點值為request」的值;
[0018]3)若referer_i與樹中所有的request都無法匹配,則重新生成一顆新樹,該次點擊作為該新樹的根,值為request」的值;
[0019]4)重復2) -3)步, 直到該用戶所有點擊記錄都循環(huán)一遍;
[0020]5)依此最終生成該用戶訪問網(wǎng)站的路徑樹,將樹存儲到數(shù)據(jù)倉庫中,可以加以利用,分析各個環(huán)節(jié)間的轉(zhuǎn)化率。
[0021]步驟五:對于生成的樹,為方便進行重點路徑分析,在Apriori算法的基礎上,加入節(jié)點之間的序列特性,通過改寫Ap r i ο r i算法,可以進一步挖掘出用戶訪問的頻繁路徑圖,步驟如下:
[0022]I)找到包含2個頁面的頻繁路徑集
[0023]2)循環(huán):通過k頻繁集之間的關聯(lián)串接,生成k-Ι頻繁集。
[0024]這樣可以得到用戶訪問的頻繁路徑圖,可以分析得到網(wǎng)站的主要路徑,結(jié)合路徑上各個環(huán)節(jié)的轉(zhuǎn)化率,就可以對網(wǎng)站的結(jié)構(gòu)、內(nèi)容等進行優(yōu)化。其中,轉(zhuǎn)化率指某一頁面到另一頁面的訪問次數(shù),與某一頁面被訪問總次數(shù)的比率。
[0025]步驟六:從頻繁路徑出發(fā),尋找轉(zhuǎn)化率較低的環(huán)節(jié),分析不足的原因:
[0026]?中間環(huán)節(jié)的頁面存在的必要性低,影響訪問者不斷深入的訪問;
[0027]?頁面布局不突出,造成訪問者尋找目標困難;
[0028]?內(nèi)容組織不合理,導致訪問者無興趣進一步訪問;
[0029]?頁面缺乏符合訪問者興趣的個性化推薦鏈接,增加了訪問者尋找目標的代價。
[0030]根據(jù)具體的原因,可以指導網(wǎng)站建設者有針對性的解決問題,提高網(wǎng)站的品質(zhì)。
[0031]本發(fā)明公開一種網(wǎng)站用戶訪問路徑分析系統(tǒng),包括:數(shù)據(jù)源模塊、網(wǎng)站日志預處理模塊、訪問路徑樹生成模塊、頻繁路徑圖挖掘模塊、網(wǎng)站優(yōu)化機會發(fā)現(xiàn)模塊。[0032]所述數(shù)據(jù)源模塊,用于記錄用戶訪問網(wǎng)站時留下的基礎數(shù)據(jù),作為整個路徑分析系統(tǒng)的數(shù)據(jù)來源,主要是網(wǎng)站用戶訪問日志,還包括來自于業(yè)務系統(tǒng)、文本文件或其它數(shù)據(jù)結(jié)構(gòu)源。
[0033]所述網(wǎng)站日志預處理模塊,用于對數(shù)據(jù)源中基礎數(shù)據(jù)進行清洗、格式轉(zhuǎn)換、識別等處理,最終存放到數(shù)據(jù)倉庫中。其中包括三個子模塊:數(shù)據(jù)清洗子模塊、格式轉(zhuǎn)換子模塊、用戶識別子模塊。所述數(shù)據(jù)清洗子模塊,對基礎數(shù)據(jù)中的噪音異常進行處理,包括爬蟲數(shù)據(jù)、被動請求鏈接(圖片)、異常IP訪問數(shù)據(jù)等等。所述格式轉(zhuǎn)換子模塊,用于對訪問來源referer與當前請求request進行格式轉(zhuǎn)化與分類,便于后續(xù)路徑樹的生成與支持不同粒度的分析。所述用戶識別子模塊,用戶瀏覽網(wǎng)站時無論登錄與否,都能識別出其唯一的身份,一般通過其cookie、ip或其所留的手機、郵箱等進行識別。
[0034]所述訪問路徑樹生成模塊,用于將預處理完成的數(shù)據(jù)轉(zhuǎn)化為訪問路徑樹,存儲到數(shù)據(jù)倉庫中。
[0035]所述頻繁路徑圖挖掘模塊,用于從訪問路徑樹中挖掘出用戶的頻繁訪問路徑,存儲到數(shù)據(jù)倉庫中。
[0036]所述網(wǎng)站優(yōu)化機會發(fā)現(xiàn)模塊,從訪問路徑樹與頻繁訪問路徑圖中,分析網(wǎng)站各內(nèi)容及各個環(huán)節(jié)的轉(zhuǎn)化率,優(yōu)先從主要路徑出發(fā),針對轉(zhuǎn)化率低的,不斷從網(wǎng)站結(jié)構(gòu)與頁面內(nèi)容上對網(wǎng)站進行優(yōu)化。
[0037]本發(fā)明的有益結(jié)果如下:
[0038](I)通過改寫最大向前路徑算法,從用戶訪問日志中提取用戶訪問路徑樹結(jié)構(gòu),可以通過路徑樹中節(jié)點間轉(zhuǎn)化率高低,分析網(wǎng)站結(jié)構(gòu)及頁面內(nèi)容中存在的缺陷與瓶頸,結(jié)合用戶實際需求,對網(wǎng)站進行優(yōu)化,不斷提高用戶體驗及滿意度,提升流量轉(zhuǎn)化。
[0039](2)對于提取出的路徑樹,通過改寫Apriori算法,可以進一步挖掘出用戶訪問的頻繁路徑圖,也就是用戶訪問的主要路徑,得出的頻繁路徑圖反映了訪問用戶共性的訪問特征,作為指導,優(yōu)先從共性特征入手,快速定位,進行網(wǎng)站優(yōu)化。
【專利附圖】
【附圖說明】
[0040]圖1是本發(fā)明實施例中的用戶訪問路徑生成及挖掘的流程示意圖。
[0041]圖2是本發(fā)明實施例中的用戶訪問路徑分析系統(tǒng)的結(jié)構(gòu)示意圖。
[0042]圖3是本發(fā)明實施例中的從訪問日志生成路徑樹的流程示意圖。
[0043]圖4是本發(fā)明實施例中的生成訪問路徑樹圖。
【具體實施方式】
[0044]以下結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細說明。
[0045]在本發(fā)明中,通過對網(wǎng)站日志進行一系列處理,最終生成可以直接分析的路徑樹與頻繁路徑圖,幫助網(wǎng)站不斷進行優(yōu)化。
[0046]參閱圖1所示,本發(fā)明實施例的數(shù)據(jù)處理流程,具體步驟為:
[0047]步驟11:從業(yè)務系統(tǒng)、文本等相關數(shù)據(jù)源將數(shù)據(jù)抽取出來,去除掉其中的噪音異常數(shù)據(jù),只需保留用戶點擊相關數(shù)據(jù)。其中,需清洗的數(shù)據(jù)包括爬蟲數(shù)據(jù)、被動請求鏈接(圖片)、異常IP訪問數(shù)據(jù)等等。[0048]步驟12:對于清洗后的數(shù)據(jù),一般referer為正常url格式,而request的格式為:GET/X X X X HTTP/1.1 (有前后綴,且不包括域名),這時可以以referer為基準,去除request的‘GET/’前綴與‘HTTP/1.1’后綴,并加上域名,這樣兩者能夠進行匹配。同時對每個訪問頁面進行分類,可以分為首頁、搜索頁、目錄頁、產(chǎn)品頁等等,也可以細到專題頁甚至具體某個產(chǎn)品,這樣可以支持后續(xù)不同粒度的分析。
[0049]步驟13:由于用戶瀏覽網(wǎng)站時不一定都在登錄狀態(tài),這時對用戶身份的識別是非常重要的。目前我們根據(jù)用戶訪問網(wǎng)站時的email、cookie, ip等信息,對每一個訪問的用戶進行身份識別,識別的依據(jù)權重為email>C00kie>ip,將每一條訪問記錄對于到某個用戶,最終將用戶身份數(shù)據(jù)儲存到數(shù)據(jù)倉庫中。
[0050]步驟14:根據(jù)用戶每一次訪問的來源及請求,將來源和請求逐個匹配,匹配上的作為子葉,否則作為一顆新的樹根,最終生成該用戶訪問網(wǎng)站的路徑樹,將樹存儲到數(shù)據(jù)倉庫中,可直接用于分析,具體流程詳見圖3。
[0051]步驟15:對于生成的樹,通過關聯(lián)算法可以進一步挖掘出用戶訪問的頻繁路徑圖,可以優(yōu)先從用戶訪問主要路徑上進行網(wǎng)站優(yōu)化。這里是通過改寫Apriori算法,得到用戶訪問的頻繁路徑。算法如下:
[0052]輸入:事務數(shù)據(jù)庫,最小支持度minsup
[0053]輸出:頻繁路徑集F
[0054]步驟:
[0055]I)找到長度(包含的頁面數(shù))為2的頻繁路徑集F2`[0056]
【權利要求】
1.一種網(wǎng)站用戶訪問路徑的分析方法,它提供了訪問路徑樹生成及頻繁路徑挖掘方法,其特征在于,具體步驟包括: 步驟一、從業(yè)務系統(tǒng)、文本相關數(shù)據(jù)源將數(shù)據(jù)抽取出來,去除掉其中的噪音異常數(shù)據(jù),保留用戶點擊數(shù)據(jù); 步驟二、一般日志中每次點擊都會包含referer與request, request記錄為每次點擊對應的請求頁面,而referer指點是每次點擊是從哪個頁面鏈接過來的;對于清洗后的數(shù)據(jù),以referer的格式為基準,將request轉(zhuǎn)化為完整的url格式,以便后期將referer與request進行匹配; 步驟三:根據(jù)用戶訪問網(wǎng)站時的email、cookie、ip信息,對每一個訪問的用戶進行身份識別,識別的依據(jù)權重為email>C00kie>ip,將每一條訪問記錄對應到某個用戶,最終將用戶身份識別的數(shù)據(jù)存儲到數(shù)據(jù)倉庫中; 步驟四:在最大向前路徑算法的基礎上,結(jié)合數(shù)據(jù)庫在處理、匹配數(shù)據(jù)方面的特性,通過改寫最大向前路徑算法,將用戶訪問網(wǎng)站的點擊數(shù)據(jù)生成路徑樹; 步驟五:對于生成的路徑樹,在Apriori算法的基礎上,加入節(jié)點之間的序列特性,通過改寫Apriori算法,進一步挖掘出用戶訪問的頻繁路徑圖; 步驟六:從頻繁路徑出發(fā),尋找轉(zhuǎn)化率較低的環(huán)節(jié),分析不足的原因;根據(jù)具體的原因,指導網(wǎng)站建設者有針對性的解決問題,提高網(wǎng)站的品質(zhì)。
2.根據(jù)權利要求1所述的網(wǎng)站用戶訪問路徑的分析方法,其特征在于:步驟一中,噪音異常數(shù)據(jù)包括爬蟲數(shù)據(jù)、被動請求鏈接、被動請求圖片、異常IP訪問數(shù)據(jù)。
3.根據(jù)權利要求 1所述的網(wǎng)站用戶訪問路徑的分析方法,其特征在于:步驟二中,按照頁面的類型將訪問頁面劃分為首頁、搜索頁面、目錄頁面、產(chǎn)品頁面、專題頁面、具體產(chǎn)品頁面。
4.根據(jù)權利要求1所述的網(wǎng)站用戶訪問路徑的分析方法,其特征在于,步驟四中,具體步驟為: 步驟4.1先將訪問記錄按照用戶、點擊時間進行排序,對于每個用戶來,其首次點擊作為一顆新樹的樹根,節(jié)點值為request的值; 步驟4.2依照時間順序讀取后面的referer_i與request_i,將referer_i與已生成的樹中節(jié)點request進行匹配,匹配上的作為該匹配節(jié)點的子節(jié)點,子節(jié)點值為request_i的值; 步驟4.3若referer_i與樹中所有的request都無法匹配,則重新生成一顆新樹,該次點擊作為該新樹的根,值為request」的值; 步驟4.4重復步驟4.2和步驟4.3,直到該用戶所有點擊記錄都循環(huán)一遍; 步驟4.5依此最終生成該用戶訪問網(wǎng)站的路徑樹,將樹存儲到數(shù)據(jù)倉庫中,加以利用,分析各個環(huán)節(jié)間的轉(zhuǎn)化率。
5.根據(jù)權利要求1所述的網(wǎng)站用戶訪問路徑的分析方法,其特征在于,步驟五中,具體步驟為: 步驟5.1找到包含兩個頁面的頻繁路徑集; 步驟5.2循環(huán):通過k頻繁集之間的關聯(lián)串接,生成k-Ι頻繁集; 得到用戶訪問的頻繁路徑圖,分析得到網(wǎng)站的主要路徑,結(jié)合路徑上各個環(huán)節(jié)的轉(zhuǎn)化率,對網(wǎng)站的結(jié)構(gòu)、內(nèi)容進行優(yōu)化。
6.根據(jù)權利要求5所述的網(wǎng)站用戶訪問路徑的分析方法,其特征在于:所述轉(zhuǎn)化率指某一頁面到另一頁面的訪問次數(shù),與某一頁面被訪問總次數(shù)的比率。
7.根據(jù)權利要求1所述的網(wǎng)站用戶訪問路徑的分析方法,其特征在于,步驟六中,原因分類如下: ?中間環(huán)節(jié)的頁面存在的必要性低,影響訪問者不斷深入的訪問; ?頁面布局不突出,造成訪問者尋找目標困難; ?內(nèi)容組織不合理,導致訪問者無興趣進一步訪問; ?頁面缺乏符合訪問者興趣的個性化推薦鏈接,增加了訪問者尋找目標的代價。
8.—種網(wǎng)站用戶訪問路徑分析系統(tǒng),包括:數(shù)據(jù)源模塊、網(wǎng)站日志預處理模塊、訪問路徑樹生成模塊、頻繁路徑圖挖掘模塊、網(wǎng)站優(yōu)化機會發(fā)現(xiàn)模塊,其特征在于: 所述數(shù)據(jù)源模塊,用于記錄用戶訪問網(wǎng)站時留下的基礎數(shù)據(jù),作為整個路徑分析系統(tǒng)的數(shù)據(jù)來源,包括來自于網(wǎng)站用戶訪問日志、業(yè)務系統(tǒng)、文本文件或其它數(shù)據(jù)結(jié)構(gòu)源; 所述網(wǎng)站日志預處理模塊,用于對數(shù)據(jù)源中基礎數(shù)據(jù)進行清洗、格式轉(zhuǎn)換、識別處理,最終存放到數(shù)據(jù)倉庫中;它包括三個子模塊:數(shù)據(jù)清洗子模塊、格式轉(zhuǎn)換子模塊、用戶識別子模塊;所述數(shù)據(jù)清洗子模塊,對基礎數(shù)據(jù)中的噪音異常進行處理,包括爬蟲數(shù)據(jù)、被動請求鏈接、異常IP訪問數(shù) 據(jù);所述格式轉(zhuǎn)換子模塊,用于對訪問來源referer與當前請求request進行格式轉(zhuǎn)化與分類,便于后續(xù)路徑樹的生成與支持不同粒度的分析;所述用戶識別子模塊,用戶瀏覽網(wǎng)站時無論登錄與否,都能識別出其唯一的身份,通過其cookie、ip或其所留的手機、郵箱進行識別; 所述訪問路徑樹生成模塊,用于將預處理完成的數(shù)據(jù)轉(zhuǎn)化為訪問路徑樹,存儲到數(shù)據(jù)倉庫中; 所述頻繁路徑圖挖掘模塊,用于從訪問路徑樹中挖掘出用戶的頻繁訪問路徑,存儲到數(shù)據(jù)倉庫中; 所述網(wǎng)站優(yōu)化機會發(fā)現(xiàn)模塊,從訪問路徑樹與頻繁訪問路徑圖中,分析網(wǎng)站各內(nèi)容及各個環(huán)節(jié)的轉(zhuǎn)化率,優(yōu)先從主要路徑出發(fā),針對轉(zhuǎn)化率低的,不斷從網(wǎng)站結(jié)構(gòu)與頁面內(nèi)容上對網(wǎng)站進行優(yōu)化。
【文檔編號】G06F17/30GK103823883SQ201410080027
【公開日】2014年5月28日 申請日期:2014年3月6日 優(yōu)先權日:2014年3月6日
【發(fā)明者】房鵬展, 徐曉冬, 陳靜 申請人:焦點科技股份有限公司