專利名稱:實現(xiàn)互聯(lián)網(wǎng)用戶訪問情況統(tǒng)計分析的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)服務提供商統(tǒng)計分析服務網(wǎng)站受訪情況的方法,尤其涉及基于Cookie實現(xiàn)網(wǎng)站受訪情況統(tǒng)計分析的方法及裝置。
背景技術(shù):
Cookie是服務器暫時存放在上網(wǎng)用戶的電腦里的資料,即ー種文本文件,以便讓服務器能夠識別網(wǎng)絡用戶身份。當用戶訪問某ー網(wǎng)站吋,Web服務器會首先傳遞ー份Cookie資料放在用戶的機器上,將用戶在訪問網(wǎng)站時所輸入的文字或做的一些選擇記錄下來。當用戶再次訪問同一個網(wǎng)站吋,Web服務器若查詢到該用戶機留有Cookie資料,便會依據(jù)Cookie資料的內(nèi)容來判斷用戶機,并送出特定的網(wǎng)頁內(nèi)容給用戶機。 網(wǎng)站服務提供商可以利用cookie跟蹤統(tǒng)計分析訪問網(wǎng)站的訪問頻次和用戶行為習慣。其中,用戶行為包括瀏覽網(wǎng)站中的網(wǎng)頁,點擊網(wǎng)頁中的廣告,在網(wǎng)上進行購買活動,瀏覽網(wǎng)上商品,點播IPTV頻道節(jié)目等;訪問頻次例如根據(jù)對訪問頁面、訪問時間(在每個網(wǎng)頁上的停留時間)、點擊某ー網(wǎng)站鏈接的次數(shù)以及用戶的上網(wǎng)時間等行為習慣進行的分析,統(tǒng)計出訪問總?cè)藬?shù)、人均訪問次數(shù)以及不同訪問次數(shù)的人數(shù)分布分析等。利用統(tǒng)計分析出的這些受訪情況信息,一方面可以為用戶提供個性化的網(wǎng)絡服務,另一方面,也可以作為了解網(wǎng)絡用戶行為習慣的工具,用于改進網(wǎng)站經(jīng)營策略。隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,網(wǎng)絡上的信息越來越多,能夠提供的商品和信息服務越來越豐富,人們的生活也越來越依賴于網(wǎng)絡,互聯(lián)網(wǎng)用戶呈爆炸式地增長。信息提供商希望通過統(tǒng)計分析用戶的訪問頻次和瀏覽行為習慣,發(fā)現(xiàn)影響網(wǎng)站流量的相關(guān)因素,以便改善產(chǎn)品的質(zhì)量和服務的針對性,吸引更多目標用戶的訪問。廣告主則希望更科學地評價其廣告投放的效果,并由此改善廣告投放策略,將有限的廣告資源更精準地集中針對潛在的客戶上。目前,針對互聯(lián)網(wǎng)用戶訪問頻次和行為的分析,主要是基于瀏覽器Cookie或Flash cookie (Share 0b ject),即把Cookie與用戶等同起來。比如,當統(tǒng)計出一個網(wǎng)站的訪問次數(shù)大于兩次的Cookie有2000個,則認為訪問該網(wǎng)站大于兩次的人有2000人。然而,依據(jù)Cookie進行統(tǒng)計分析存在以下問題由于用戶可以自行刪除cookie,或者直接阻止cookie,因此通常Cookie的生命周期要比用戶短很多,一個用戶有可能對應了多個CookieAookie實際只相當于用戶在某段時間的行為片段;因此直接基于Cookie來統(tǒng)計分析相當于將ー個用戶割裂為多個用戶,使得統(tǒng)計出的用戶訪問頻次和行為數(shù)據(jù)會與實際的結(jié)果產(chǎn)生較大的誤差,從而導致網(wǎng)站受訪分析的結(jié)果缺乏真實性。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種實現(xiàn)互聯(lián)網(wǎng)用戶訪問情況統(tǒng)計分析的方法及裝置,能夠避免統(tǒng)計的用戶行為的關(guān)聯(lián)性丟失和統(tǒng)計誤差。為了解決上述技術(shù)問題,本發(fā)明提供了一種實現(xiàn)互聯(lián)網(wǎng)用戶訪問情況統(tǒng)計分析的方法,包括提取及記錄每一來訪用戶對象所代表的用戶機的信息,根據(jù)用戶機的信息的相似度合并用戶對象。進ー步地,提取及記錄每一來訪用戶對象所代表的用戶機的信息,根據(jù)所述用戶機的信息的相似度合并所述用戶對象,具體包括為每ー來訪的用戶對象分配ー個唯一標識,針對用戶對象提取并記錄用戶機的信息,包括IP地址、瀏覽器類型及其版本、操作系統(tǒng)類型及其版本、屏幕分辨率以及Flash版本信息中的ー種或多種;針對用戶機的信息的重要性或相關(guān)程度為所述信息賦予相應的權(quán)重,包括用戶機的第I信息至第η信息的各個權(quán)重,η為大于I的整數(shù);
按如下公式計算各用戶對象之間的相似度=Σ第N信息的權(quán)重*用戶對象之間第N信息的相似度;式中,用戶對象之間第N信息的相似度,是指該第N信息具有信息重疊部分占總信息的比率;Ν = I η ;將相似度大于或等于預定閾值的用戶對象合并成代表一個互聯(lián)網(wǎng)用戶的新用戶對象,為合并后的所述新用戶對象重新分配ー個唯一標識,并存儲新用戶對象的所述標識和描述合并后瀏覽行為的對應關(guān)系記錄。進ー步地,該方法還包括記錄用戶對象的瀏覽行為,根據(jù)用戶機的信息的相似度和瀏覽行為的相似度合并用戶對象。進ー步地,記錄用戶對象的瀏覽行為,根據(jù)用戶機的信息的相似度和瀏覽行為的相似度合并用戶對象,具體包括記錄瀏覽行為,包括瀏覽網(wǎng)站及其頁面、瀏覽總時間、瀏覽總頻次以及瀏覽網(wǎng)站頻道的頻次行為中的ー種或多種;針對用戶機的信息和瀏覽行為的重要性或相關(guān)程度為所述信息和瀏覽行為賦予相應的權(quán)重,包括用戶機的第I信息至第η信息的各個權(quán)重,用戶對象第I瀏覽行為至第m瀏覽行為的各個權(quán)重,n、m分別為大于I的整數(shù);按如下公式計算各用戶對象之間的相似度= Σ第N信息的權(quán)重*用戶對象之間第N信息的相似度+ Σ第M瀏覽行為的權(quán)重*用戶對象之間第M瀏覽行為的相似度;式中,用戶對象之間第M瀏覽行為的相似度通過求取瀏覽網(wǎng)站頻道的頻次占瀏覽總頻次的比率計算;N=l n;M=l m;將相似度大于或等于預定閾值的用戶對象合并成代表一個互聯(lián)網(wǎng)用戶的新用戶對象,為合并后的新用戶對象重新分配ー個唯一標識,并存儲新用戶對象的標識和描述合并后瀏覽行為的對應關(guān)系記錄。為了解決上述技術(shù)問題,本發(fā)明提供了一種實現(xiàn)互聯(lián)網(wǎng)對象受訪情況統(tǒng)計分析的方法,包括提取及記錄每一來訪用戶對象所代表的用戶機的信息,根據(jù)用戶機的信息的相似度合并用戶對象;
記錄合并的用戶對象的瀏覽行為,根據(jù)該記錄統(tǒng)計分析網(wǎng)站受訪情況。為了解決上述技術(shù)問題,本發(fā)明提供了一種實現(xiàn)互聯(lián)網(wǎng)用戶訪問情況統(tǒng)計分析的裝置,包括用戶機信息提取模塊、存儲模塊以及用戶合并模塊,其中用戶機信息提取模塊,用于提取每ー來訪用戶對象所代表的用戶機的信息,并將提取的信息記錄在存儲模塊中用戶機信息記錄中;用戶合并模塊,用于根據(jù)存儲模塊記錄中的用戶機的信息的相似度合并用戶對象,并將合并后的用戶對象所發(fā)生的瀏覽行為記錄在存儲模塊中合并用戶行為記錄中;存儲模塊,至少用于存儲用戶機信息和合并用戶行為記錄。進ー步地,用戶合并模塊針對所述用戶機的信息的重要性或相關(guān)程度為信息賦予相應的權(quán) 重,根據(jù)權(quán)重及用戶機的信息的相似度計算各用戶對象之間的相似度,將相似度大于或等于預定閾值的用戶對象合并成代表一個互聯(lián)網(wǎng)用戶的新用戶對象,為合并后的新用戶對象重新分配ー個唯一標識,并存儲新用戶對象的標識和描述合并后瀏覽行為的對應關(guān)系記求。進ー步地用戶行為記錄模塊,用于將記載在用戶機信息和行為記錄中的用戶對象所發(fā)生的瀏覽行為記錄在用戶行為記錄中;用戶合并模塊還根據(jù)用戶機的信息和瀏覽行為的相似度合并用戶對象,并將合并后的用戶對象所發(fā)生的瀏覽行為記錄在存儲模塊中合并用戶行為記錄中;存儲模塊還存儲用戶行為記錄。進一步地,用戶機信息提取模塊為每一來訪的用戶對象分配ー個唯一標識;針對用戶對象提取并記錄的用戶機的信息包括IP地址、瀏覽器類型及其版本、操作系統(tǒng)類型及其版本、屏幕分辨率以及Flash版本信息中的ー種或多種;用戶行為記錄模塊記錄的用戶對象的瀏覽行為包括瀏覽網(wǎng)站及其頁面、瀏覽總時間、瀏覽總頻次以及瀏覽網(wǎng)站頻道的頻次行為中的ー種或多種;用戶合并模塊針對用戶機的信息和瀏覽行為的重要性或相關(guān)程度賦予相應的權(quán)重,根據(jù)所述權(quán)重、用戶機的信息的相似度以及瀏覽行為的相似度計算各用戶對象之間的相似度,將相似度大于或等于預定閾值的用戶對象合并成代表一個互聯(lián)網(wǎng)用戶的新用戶對象,為合并后的新用戶對象重新分配ー個唯一標識,并存儲新用戶對象的標識和描述合并后瀏覽行為的對應關(guān)系記錄。進ー步地,該裝置還包括統(tǒng)計分析模塊,其中統(tǒng)計分析模塊,用于根據(jù)存儲模塊中合并用戶行為記錄統(tǒng)計用戶訪問頻次及用戶行為,并將生成的結(jié)果報告存儲在存儲模塊中的結(jié)果報告記錄中;存儲模塊還用于存儲統(tǒng)計分析模塊生成的結(jié)果報告。本發(fā)明通過學習過程,對不同的Cookie所代表的用戶機的信息以及對Cookie所發(fā)生的瀏覽行為的記錄對用戶相似程度進行判斷,將有可能是同一個用戶產(chǎn)生的Cookie進行合并,并基于合并后Cookie的瀏覽行為記錄統(tǒng)計分析訪問頻次和瀏覽行為習慣,由此可避免因用戶清除Cookie等因素造成的用戶行為關(guān)聯(lián)性丟失和統(tǒng)計誤差,從而能夠真實客觀地評價網(wǎng)站的受訪情況。
圖I為本發(fā)明的互聯(lián)網(wǎng)用戶訪問情況統(tǒng)計分析的方法實施例的流程圖;圖2為本發(fā)明的互聯(lián)網(wǎng)用戶訪問情況統(tǒng)計分析的裝置實施例的結(jié)構(gòu)框圖。
具體實施例方式以下結(jié)合附圖和優(yōu)選實施例對本發(fā)明的技術(shù)方案進行詳細地闡述。以下例舉的實施例僅用于說明和解釋本發(fā)明,而不構(gòu)成對本發(fā)明技術(shù)方案的限制。如圖I所示,是為本發(fā)明的實現(xiàn)互聯(lián)網(wǎng)用戶訪問情況統(tǒng)計分析的方法實施例的流程,包括如下步驟
110 :提取及記錄每一來訪用戶對象(即Cookie)所代表的用戶機的信息;首先為每ー個來訪Cookie分配ー個唯一標識(ID),提取并記錄每個Cookie所代表的用戶機的信息,包括IP地址、瀏覽器類型及其版本、操作系統(tǒng)類型及其版本以及屏幕分辨率等機器信息中的一種或多種。記錄的Cookie用戶機的信息和/或瀏覽行為如表I所示。表I
權(quán)利要求
1.一種對互聯(lián)網(wǎng)用戶訪問情況統(tǒng)計分析的方法,包括 提取及記錄每一來訪用戶對象所代表的用戶機的信息,根據(jù)所述用戶機的信息的相似度合并所述用戶對象。
2.按照權(quán)利要求I所述的方法,其特征在于,所述提取及記錄每一來訪用戶對象所代表的用戶機的信息,根據(jù)所述用戶機的信息的相似度合并所述用戶對象,具體包括 為每一來訪的所述用戶對象分配一個唯一標識,針對所述用戶對象提取并記錄所述用戶機的信息,包括IP地址、瀏覽器類型及其版本、操作系統(tǒng)類型及其版本、屏幕分辨率以及Flash版本信息中的一種或多種; 針對所述用戶機的信息的重要性或相關(guān)程度為所述信息賦予相應的權(quán)重,包括用戶機的第I信息至第η信息的各個權(quán)重,所述η為大于I的整數(shù); 按如下公式計算各用戶對象之間的相似度 =Σ第N信息的權(quán)重*所述用戶對象之間第N信息的相似度; 式中,所述用戶對象之間第N信息的相似度,是指該第N信息具有信息重疊部分占總信息的比率;所述N = I η ; 將相似度大于或等于預定閾值的用戶對象合并成代表一個互聯(lián)網(wǎng)用戶的新用戶對象,為合并后的所述新用戶對象重新分配一個唯一標識,并存儲所述新用戶對象的所述標識和描述合并后瀏覽行為的對應關(guān)系記錄。
3.按照權(quán)利要求2所述的方法,其特征在于,還包括 記錄所述用戶對象的瀏覽行為,根據(jù)所述用戶機的信息的相似度和所述瀏覽行為的相似度合并所述用戶對象。
4.按照權(quán)利要求3所述的方法,其特征在于,記錄所述用戶對象的瀏覽行為,根據(jù)所述用戶機的信息的相似度和所述瀏覽行為的相似度合并所述用戶對象,具體包括 記錄所述瀏覽行為,包括瀏覽網(wǎng)站及其頁面、瀏覽總時間、瀏覽總頻次以及瀏覽網(wǎng)站頻道的頻次行為中的一種或多種; 針對所述用戶機的信息和所述瀏覽行為的重要性或相關(guān)程度為所述信息和所述瀏覽行為賦予相應的權(quán)重,包括用戶機的第I信息至第η信息的各個權(quán)重,用戶對象第I瀏覽行為至第m瀏覽行為的各個權(quán)重,所述n、m分別為大于I的整數(shù); 按如下公式計算各用戶對象之間的相似度 =Σ第N信息的權(quán)重*所述用戶對象之間第N信息的相似度 + Σ第M瀏覽行為的權(quán)重*所述用戶對象之間第M瀏覽行為的相似度; 式中,所述用戶對象之間第M瀏覽行為的相似度通過求取瀏覽網(wǎng)站頻道的頻次占瀏覽總頻次的比率計算;所述N = I η ;所述M= I m ; 將相似度大于或等于預定閾值的用戶對象合并成代表一個互聯(lián)網(wǎng)用戶的新用戶對象,為合并后的所述新用戶對象重新分配一個唯一標識,并存儲所述新用戶對象的所述標識和描述合并后瀏覽行為的對應關(guān)系記錄。
5.一種實現(xiàn)互聯(lián)網(wǎng)對象受訪情況統(tǒng)計分析的方法,包括 提取及記錄每一來訪用戶對象所代表的用戶機的信息,根據(jù)所述用戶機的信息的相似度合并所述用戶對象; 記錄合并的用戶對象的瀏覽行為,根據(jù)該記錄統(tǒng)計分析網(wǎng)站受訪情況。
6.一種實現(xiàn)互聯(lián)網(wǎng)用戶訪問情況統(tǒng)計分析的裝置,其特征在于,包括用戶機信息提取模塊、存儲模塊以及用戶合并模塊,其中 用戶機信息提取模塊,用于提取每一來訪用戶對象所代表的用戶機的信息,并將提取的信息記錄在存儲模塊中用戶機信息記錄中; 用戶合并模塊,用于根據(jù)存儲模塊記錄中的所述用戶機的信息的相似度合并所述用戶對象,并將合并后的用戶對象所發(fā)生的瀏覽行為記錄在存儲模塊中合并用戶行為記錄中;存儲模塊,至少用于存儲所述用戶機信息和所述合并用戶行為記錄。
7.按照權(quán)利要求6所述的裝置,其特征在于, 所述用戶合并模塊針對所述用戶機的信息的重要性或相關(guān)程度為所述信息賦予相應的權(quán)重,根據(jù)所述權(quán)重及所述用戶機的信息的相似度計算各用戶對象之間的相似度,將相似度大于或等于預定閾值的用戶對象合并成代表一個互聯(lián)網(wǎng)用戶的新用戶對象,為合并后的所述新用戶對象重新分配一個唯一標識,并存儲所述新用戶對象的所述標識和描述合并后瀏覽行為的對應關(guān)系記錄。
8.按照權(quán)利要求7所述的裝置,其特征在于,還包括用戶行為記錄模塊,其中 用戶行為記錄模塊,用于將記載在所述用戶機信息和行為記錄中的用戶對象所發(fā)生的瀏覽行為記錄在用戶行為記錄中; 所述用戶合并模塊還根據(jù)所述用戶機的信息和所述瀏覽行為的相似度合并所述用戶對象,并將合并后的用戶對象所發(fā)生的瀏覽行為記錄在存儲模塊中合并用戶行為記錄中;所述存儲模塊還存儲所述用戶行為記錄。
9.按照權(quán)利要求8所述的裝置,其特征在于, 所述用戶機信息提取模塊為每一來訪的所述用戶對象分配一個唯一標識;針對所述用戶對象提取并記錄的所述用戶機的信息包括IP地址、瀏覽器類型及其版本、操作系統(tǒng)類型及其版本、屏幕分辨率以及Flash版本信息中的一種或多種; 所述用戶行為記錄模塊記錄的所述用戶對象的瀏覽行為包括瀏覽網(wǎng)站及其頁面、瀏覽總時間、瀏覽總頻次以及瀏覽網(wǎng)站頻道的頻次行為中的一種或多種; 所述用戶合并模塊針對所述用戶機的信息和所述瀏覽行為的重要性或相關(guān)程度賦予相應的權(quán)重,根據(jù)所述權(quán)重、所述用戶機的信息的相似度以及所述瀏覽行為的相似度計算各用戶對象之間的相似度,將相似度大于或等于預定閾值的用戶對象合并成代表一個互聯(lián)網(wǎng)用戶的新用戶對象,為合并后的所述新用戶對象重新分配一個唯一標識,并存儲所述新用戶對象的所述標識和描述合并后瀏覽行為的對應關(guān)系記錄。
10.按照權(quán)利要求7至9任一項所述的裝置,其特征在于,還包括統(tǒng)計分析模塊,其中 統(tǒng)計分析模塊,用于根據(jù)所述存儲模塊中所述合并用戶行為記錄統(tǒng)計用戶訪問頻次及用戶行為,并將生成的結(jié)果報告存儲在所述存儲模塊中的結(jié)果報告記錄中; 所述存儲模塊還用于存儲統(tǒng)計分析模塊生成的所述結(jié)果報告。
全文摘要
本發(fā)明披露了實現(xiàn)互聯(lián)網(wǎng)用戶訪問情況統(tǒng)計分析的方法及裝置,其中方法包括提取及記錄每一來訪用戶對象所代表的用戶機的信息,根據(jù)用戶機的信息的相似度合并用戶對象。本發(fā)明通過學習過程記錄不同的Cookie所代表的用戶機的信息以及對Cookie所發(fā)生的瀏覽行為,對用戶相似程度進行判斷,將有可能是同一個用戶產(chǎn)生的Cookie進行合并,并基于合并后Cookie的瀏覽行為記錄統(tǒng)計分析訪問頻次和瀏覽行為習慣,由此可避免因用戶清除Cookie等因素造成的用戶行為關(guān)聯(lián)性丟失和統(tǒng)計誤差,從而能夠真實客觀地評價網(wǎng)站的受訪情況。
文檔編號G06F17/30GK102831114SQ20111015936
公開日2012年12月19日 申請日期2011年6月14日 優(yōu)先權(quán)日2011年6月14日
發(fā)明者陳家耀, 申志輝, 歐陽佑 申請人:北京思博途信息技術(shù)有限公司