亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于骨干網(wǎng)的用戶上網(wǎng)數(shù)據(jù)處理方法和系統(tǒng)的制作方法

文檔序號(hào):7764821閱讀:413來源:國(guó)知局
專利名稱:一種基于骨干網(wǎng)的用戶上網(wǎng)數(shù)據(jù)處理方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)處理技術(shù),尤其涉及一種基于骨干網(wǎng)的用戶上網(wǎng)數(shù)據(jù)處理方 法和系統(tǒng)。
背景技術(shù)
電信運(yùn)營(yíng)商通常擁有數(shù)百萬的互聯(lián)網(wǎng)寬帶用戶,相應(yīng)骨干網(wǎng)的數(shù)據(jù)流總帶寬在TB 級(jí)別。多種應(yīng)用需要在網(wǎng)絡(luò)數(shù)據(jù)鏈路層面上采集寬帶用戶的上網(wǎng)數(shù)據(jù),刻畫用戶的上網(wǎng)行 為特征。為了實(shí)現(xiàn)在電信運(yùn)營(yíng)商的骨干網(wǎng)絡(luò)上覆蓋全范圍內(nèi)的寬帶用戶的上網(wǎng)行為,需要 在電信運(yùn)營(yíng)商骨干網(wǎng)絡(luò)上合理地部署數(shù)據(jù)采集點(diǎn)以盡量有效獲得全體寬帶用戶的上網(wǎng)數(shù) 據(jù),并盡量獲得用戶上網(wǎng)行為的全面描述信息。目前業(yè)界還沒有基于電信運(yùn)營(yíng)商骨干網(wǎng)絡(luò)的用戶上網(wǎng)行為數(shù)據(jù)采集解決方案。

發(fā)明內(nèi)容
本發(fā)明要解決的一個(gè)技術(shù)問題是提供一種用戶上網(wǎng)數(shù)據(jù)處理方法,能夠在骨干網(wǎng) 上對(duì)個(gè)體用戶上網(wǎng)行為進(jìn)行描述。本發(fā)明提供一種基于骨干網(wǎng)的用戶上網(wǎng)數(shù)據(jù)處理方法,包括在骨干網(wǎng)上通過數(shù)據(jù)采集點(diǎn)采集用戶上網(wǎng)數(shù)據(jù);根據(jù)從用戶上網(wǎng)數(shù)據(jù)中提取的用戶IP信息獲得用戶標(biāo)識(shí);按照用戶標(biāo)識(shí)對(duì)用戶上網(wǎng)數(shù)據(jù)進(jìn)行存儲(chǔ);從按照用戶標(biāo)識(shí)存儲(chǔ)的用戶上網(wǎng)數(shù)據(jù)獲得用戶的上網(wǎng)行為描述信息。進(jìn)一步,用戶的上網(wǎng)行為描述信息包括訪問時(shí)間、網(wǎng)站IP地址、網(wǎng)站URL、頁面文 本標(biāo)題、關(guān)鍵詞、網(wǎng)站cookie、和頁面Referrer中的至少一個(gè)。進(jìn)一步,根據(jù)網(wǎng)絡(luò)拓?fù)鋵哟谓Y(jié)構(gòu)和網(wǎng)絡(luò)路由策略在骨干網(wǎng)上的部署數(shù)據(jù)采集點(diǎn)。進(jìn)一步,對(duì)于采用靜態(tài)路由策略決定數(shù)據(jù)轉(zhuǎn)發(fā)路徑的路由器,在路由器的輸出端 口采集用戶上網(wǎng)數(shù)據(jù);禾口/ 或?qū)τ诓捎脛?dòng)態(tài)路由策略決定數(shù)據(jù)轉(zhuǎn)發(fā)路徑的路由器,根據(jù)metric信息選擇路由 器輸出端口網(wǎng)絡(luò)鏈路以部署數(shù)據(jù)采集點(diǎn);禾口/ 或在傳輸距離短或鏈路狀態(tài)好的路由器輸出端口網(wǎng)絡(luò)鏈路部署數(shù)據(jù)采集點(diǎn);禾口/ 或?qū)τ诼酚善鲗?shù)據(jù)按照負(fù)載均衡原則轉(zhuǎn)發(fā)到多條網(wǎng)絡(luò)鏈路上,每條鏈路以均等機(jī) 會(huì)獲得并傳輸數(shù)據(jù)的情況,從多條網(wǎng)絡(luò)鏈路上選擇任意一條鏈路部署數(shù)據(jù)采集點(diǎn);和/ 或在拓?fù)浣Y(jié)構(gòu)上層的數(shù)據(jù)鏈路上部署數(shù)據(jù)采集點(diǎn)。
進(jìn)一步,該方法還包括數(shù)據(jù)采集點(diǎn)部署在數(shù)據(jù)流分散之前和/或數(shù)據(jù)流匯聚之 后的網(wǎng)絡(luò)路由設(shè)備的輸入端口或輸出端口上。本發(fā)明要解決的一個(gè)技術(shù)問題是提供一種用戶上網(wǎng)數(shù)據(jù)處理系統(tǒng),能夠在骨干網(wǎng) 上對(duì)個(gè)體用戶上網(wǎng)行為進(jìn)行描述。本發(fā)明提供一種基于骨干網(wǎng)的用戶上網(wǎng)數(shù)據(jù)處理系統(tǒng),包括多個(gè)數(shù)據(jù)采集設(shè)備,用于在骨干網(wǎng)上采集用戶上網(wǎng)數(shù)據(jù);用戶標(biāo)識(shí)獲取設(shè)備,用于根據(jù)從用戶上網(wǎng)數(shù)據(jù)中提取的用戶IP信息獲得用戶標(biāo) 識(shí);上網(wǎng)數(shù)據(jù)存儲(chǔ)設(shè)備,用于按照用戶標(biāo)識(shí)對(duì)用戶上網(wǎng)數(shù)據(jù)進(jìn)行存儲(chǔ);描述信息提取設(shè)備,用于從按照用戶標(biāo)識(shí)存儲(chǔ)的用戶上網(wǎng)數(shù)據(jù)獲得用戶的上網(wǎng)行 為描述信息。進(jìn)一步,用戶的上網(wǎng)行為描述信息包括訪問時(shí)間、網(wǎng)站IP地址、網(wǎng)站URL、頁面文 本標(biāo)題、關(guān)鍵詞、網(wǎng)站cookie、和頁面Referrer中的至少一個(gè)。進(jìn)一步,對(duì)于采用動(dòng)態(tài)路由策略決定數(shù)據(jù)轉(zhuǎn)發(fā)路徑的路由器數(shù)據(jù)采集設(shè)備部署在骨干網(wǎng)根據(jù)metric信息選擇的路由器輸出端口網(wǎng)絡(luò)鏈路 上;和/ 或數(shù)據(jù)采集設(shè)備部署在骨干網(wǎng)的傳輸距離短或鏈路狀態(tài)好的路由器輸出端口網(wǎng)絡(luò) 鏈路上;和/ 或?qū)τ诼酚善鲗?shù)據(jù)按照負(fù)載均衡原則轉(zhuǎn)發(fā)到多條網(wǎng)絡(luò)鏈路上,每條鏈路以均等機(jī) 會(huì)獲得并傳輸數(shù)據(jù)的情況,數(shù)據(jù)采集設(shè)備部署在從多條網(wǎng)絡(luò)鏈路上選擇任意一條鏈路。進(jìn)一步,數(shù)據(jù)采集點(diǎn)部署在數(shù)據(jù)流分散之前和/或數(shù)據(jù)流匯聚之后的網(wǎng)絡(luò)路由設(shè) 備的輸入端口或輸出端口上。通過本發(fā)明實(shí)施例的用戶上網(wǎng)數(shù)據(jù)處理方法和系統(tǒng),在骨干網(wǎng)中采集用戶上網(wǎng)數(shù) 據(jù),將用戶的上網(wǎng)數(shù)據(jù)按照用戶進(jìn)行存儲(chǔ),并分析獲得各個(gè)用戶的上網(wǎng)行為描述信息,能夠 較好地獲得個(gè)體用戶上網(wǎng)行為描述。


圖1示出本發(fā)明的基于骨干網(wǎng)的用戶上網(wǎng)數(shù)據(jù)處理方法的一個(gè)實(shí)施例的流程圖;圖2示出路由器輸入輸出鏈路示意圖;圖3示出本發(fā)明的基于骨干網(wǎng)的用戶上網(wǎng)數(shù)據(jù)處理系統(tǒng)的一個(gè)實(shí)施例的結(jié)構(gòu)圖;圖4示出寬帶用戶群體對(duì)互聯(lián)網(wǎng)網(wǎng)站的訪問事件的集合在由時(shí)間、用戶、和網(wǎng)站 組成的三維空間中的示意圖;圖5示出部署在網(wǎng)絡(luò)鏈路上的采集點(diǎn)對(duì)用戶訪問網(wǎng)站事件在時(shí)間上進(jìn)行均勻的 隨機(jī)采樣所觀察到的用戶對(duì)網(wǎng)站的訪問事件的集合;圖6示出部署在網(wǎng)絡(luò)鏈路上的采集點(diǎn)對(duì)用戶訪問網(wǎng)站事件在時(shí)間上進(jìn)行非均勻 的隨機(jī)采樣所觀察到的用戶對(duì)網(wǎng)站的訪問事件的集合;圖7示出特定用戶的互聯(lián)網(wǎng)訪問數(shù)據(jù)由特定網(wǎng)絡(luò)鏈路來傳輸?shù)穆酚刹呗韵鄬?duì)固定的情況下所觀察到的用戶對(duì)網(wǎng)站的訪問事件的集合;圖8示出在特定的電信運(yùn)營(yíng)商IDC機(jī)房部署采集點(diǎn)所觀察到的用戶對(duì)網(wǎng)站的訪問 事件的集合;圖9示出三個(gè)寬帶用戶對(duì)多個(gè)網(wǎng)站的訪問行為在由時(shí)間和網(wǎng)站組成的二維空間 中的示意圖;圖10示出部署在固定網(wǎng)絡(luò)鏈路上的采集點(diǎn)將對(duì)個(gè)體用戶訪問網(wǎng)站事件在時(shí)間上 進(jìn)行均勻的隨機(jī)采樣所觀察到的個(gè)體用戶對(duì)網(wǎng)站的訪問事件的集合;圖11示出部署在固定網(wǎng)絡(luò)鏈路上的采集點(diǎn)將對(duì)個(gè)體用戶訪問網(wǎng)站事件在時(shí)間上 進(jìn)行非均勻的隨機(jī)采樣所觀察到的個(gè)體用戶對(duì)網(wǎng)站的訪問事件的集合;圖12示出部署在特定的電信運(yùn)營(yíng)商IDC機(jī)房的采集點(diǎn)所觀察到的個(gè)體用戶對(duì)網(wǎng) 站的訪問事件的集合;圖13示出一個(gè)電信網(wǎng)絡(luò)鏈路上數(shù)據(jù)采樣點(diǎn)例子的示意圖;以及圖14示出一個(gè)電信運(yùn)營(yíng)商省級(jí)中心的骨干網(wǎng)絡(luò)結(jié)構(gòu)及其采集點(diǎn)部署示意圖。
具體實(shí)施例方式下面參照附圖對(duì)本發(fā)明進(jìn)行更全面的描述,其中說明本發(fā)明的示例性實(shí)施例。圖1示出本發(fā)明的基于骨干網(wǎng)的用戶上網(wǎng)數(shù)據(jù)處理方法的一個(gè)實(shí)施例的流程圖。如圖1所示,在步驟102,在骨干網(wǎng)上通過數(shù)據(jù)采集點(diǎn)采集用戶上網(wǎng)數(shù)據(jù)。例如,根 據(jù)電信網(wǎng)絡(luò)路由策略選擇數(shù)據(jù)采集點(diǎn)的部署方式。在步驟104,根據(jù)從用戶上網(wǎng)數(shù)據(jù)中提取的用戶IP信息獲得用戶標(biāo)識(shí)。例如,從 AAA服務(wù)器獲取網(wǎng)絡(luò)用戶上下線信息,獲得用戶標(biāo)識(shí)和IP地址的對(duì)應(yīng)關(guān)系;根據(jù)用戶上網(wǎng) 數(shù)據(jù)中提取的IP地址以及用戶標(biāo)識(shí)和IP地址的對(duì)應(yīng)關(guān)系,獲得用戶標(biāo)識(shí)信息。在步驟106,按照用戶標(biāo)識(shí)對(duì)用戶上網(wǎng)數(shù)據(jù)進(jìn)行存儲(chǔ)。將采集的用戶上網(wǎng)數(shù)據(jù)按照 不同的用戶標(biāo)識(shí)分別存儲(chǔ),例如,存儲(chǔ)在根據(jù)用戶標(biāo)識(shí)索引的各個(gè)用戶目錄中。在步驟108,從按照用戶標(biāo)識(shí)存儲(chǔ)的用戶上網(wǎng)數(shù)據(jù)獲得用戶的上網(wǎng)行為描述信息。 對(duì)不同用戶的上網(wǎng)數(shù)據(jù)進(jìn)行分析,獲得各個(gè)用戶的上網(wǎng)行為描述信息。用戶的上網(wǎng)行為描 述信息例如包括訪問時(shí)間、網(wǎng)站IP地址、網(wǎng)站URL、頁面文本標(biāo)題或用戶提交的關(guān)鍵詞、網(wǎng) 站Cookie、頁面Referrer等信息。可以通過多個(gè)關(guān)鍵詞來描述用戶上網(wǎng)行為特征,作為用 戶上網(wǎng)行為描述信息,從用戶訪問頁面的文本標(biāo)題或者內(nèi)容匹配各個(gè)關(guān)鍵詞,從而體現(xiàn)用 戶上網(wǎng)行為特征。例如,采集代表寬帶用戶對(duì)網(wǎng)站頁面的訪問動(dòng)作的HTTP請(qǐng)求數(shù)據(jù)以及相應(yīng)網(wǎng)站 頁面的內(nèi)容信息,寬帶用戶的上網(wǎng)行為描述信息可以通過用戶對(duì)網(wǎng)站頁面的訪問事件來描 述。每個(gè)訪問事件記錄了用戶端信息和網(wǎng)站端信息,用戶端信息包括用戶UserlD、訪問時(shí) 間、用戶IP地址,網(wǎng)站端信息包括網(wǎng)站IP地址、網(wǎng)站URL、頁面文本標(biāo)題或用戶提交的關(guān)鍵 詞。在上述實(shí)施例中,在骨干網(wǎng)中采集用戶上網(wǎng)數(shù)據(jù),將用戶的上網(wǎng)數(shù)據(jù)按照用戶進(jìn) 行存儲(chǔ),并分析獲得各個(gè)用戶的上網(wǎng)行為描述信息,能夠較好地獲得個(gè)體用戶上網(wǎng)行為描 述,并根據(jù)個(gè)體用戶上網(wǎng)信息描述獲得用戶群體上網(wǎng)行為描述。此外,由于區(qū)分用戶進(jìn)行數(shù) 據(jù)存儲(chǔ)和分析,可以在部分或者較少的鏈路上部署采集點(diǎn),通過時(shí)間的積累獲得個(gè)體用戶上網(wǎng)行為描述,減少骨干網(wǎng)上數(shù)據(jù)采集點(diǎn)的部署,而同時(shí)仍能在統(tǒng)計(jì)意義上較準(zhǔn)確地獲得 用戶上網(wǎng)行為描述,從而減少了系統(tǒng)的成本,便于實(shí)施應(yīng)用。網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)上的關(guān)鍵節(jié)點(diǎn)由與之相關(guān)的鏈路連接和路由策略共同決定。本發(fā)明 的一個(gè)實(shí)施例根據(jù)網(wǎng)絡(luò)拓?fù)鋵哟谓Y(jié)構(gòu)和網(wǎng)絡(luò)路由策略在骨干網(wǎng)上部署數(shù)據(jù)采集點(diǎn),從而實(shí) 現(xiàn)在電信網(wǎng)絡(luò)中部署適量數(shù)據(jù)采集點(diǎn),并盡量獲得該網(wǎng)絡(luò)范圍內(nèi)所有個(gè)體用戶在統(tǒng)計(jì)意義 上的準(zhǔn)確上網(wǎng)行為。一種實(shí)現(xiàn)方式是數(shù)據(jù)采集點(diǎn)部署在數(shù)據(jù)流分散之前和/或數(shù)據(jù)流匯聚 之后的網(wǎng)絡(luò)路由設(shè)備的輸入端口或輸出端口上,從而以盡量少的采集點(diǎn)部署獲得盡可能多 的用戶數(shù)據(jù)。電信網(wǎng)絡(luò)的骨干網(wǎng)由大量路由器彼此連接組成的,當(dāng)一個(gè)數(shù)據(jù)包需要從網(wǎng)絡(luò)鏈路 的A節(jié)點(diǎn)傳輸?shù)紹節(jié)點(diǎn)時(shí)往往面臨多條傳輸路徑,這時(shí)電信網(wǎng)絡(luò)需要采用路由策略來決定 如何選擇數(shù)據(jù)的傳輸路徑。從大體上說路由策略分為動(dòng)態(tài)路由策略和靜態(tài)路由策略。動(dòng)態(tài)路由策略是指電信網(wǎng)絡(luò)能夠根據(jù)當(dāng)前網(wǎng)絡(luò)狀況確定最優(yōu)的數(shù)據(jù)傳輸路徑,常 用的路由協(xié)議包括基于距離向量的RIP協(xié)議、基于鏈路狀態(tài)的OSPF協(xié)議、和基于路徑向量 的BGP協(xié)議。RIP協(xié)議采用Bellman-Ford算法確定跳躍計(jì)數(shù)(Hop Count)最少的網(wǎng)絡(luò)鏈 路為最優(yōu)傳輸路徑并寫入路由表。OSPF協(xié)議采用Dijkstra' s算法確定帶寬最大的網(wǎng)絡(luò) 鏈路為最優(yōu)傳輸路徑并寫入路由表,該協(xié)議用于同一電信運(yùn)營(yíng)商運(yùn)營(yíng)的具有統(tǒng)一路由策略 的自治系統(tǒng)網(wǎng)絡(luò)內(nèi)(參見RFC1930)。BGP協(xié)議采用經(jīng)過修改的Bellman-Ford算法(參見 RFC1322)根據(jù)一系列與網(wǎng)絡(luò)鏈路相關(guān)的參數(shù)來確定最優(yōu)傳輸路徑并寫入路由表,該協(xié)議用 于不同自治系統(tǒng)網(wǎng)絡(luò)之間(參見RFC1930)。如果多條可用網(wǎng)絡(luò)鏈路具有相同的優(yōu)先級(jí)順 序,那么路由器會(huì)根據(jù)負(fù)載均衡原則將數(shù)據(jù)均勻地轉(zhuǎn)發(fā)到各條鏈路上。在采用動(dòng)態(tài)路由策 略的網(wǎng)絡(luò)中路由器會(huì)根據(jù)不同網(wǎng)絡(luò)狀態(tài)選擇不同網(wǎng)絡(luò)鏈路傳輸數(shù)據(jù)。在這種情況下,如果 網(wǎng)絡(luò)結(jié)構(gòu)狀態(tài)穩(wěn)定,則網(wǎng)絡(luò)路由器的每個(gè)輸出端口所連接的網(wǎng)絡(luò)鏈路所傳輸?shù)臄?shù)據(jù)內(nèi)容不 變,如果網(wǎng)絡(luò)狀態(tài)結(jié)構(gòu)發(fā)生變化,則路由器可使用網(wǎng)絡(luò)路由協(xié)議探測(cè)到該變化,進(jìn)而更新其 路由表,這樣路由器輸出端口所連網(wǎng)絡(luò)鏈路上傳輸?shù)臄?shù)據(jù)內(nèi)容就會(huì)發(fā)生變化。這種數(shù)據(jù)內(nèi) 容的變化可能反映在時(shí)間、用戶、和網(wǎng)站任何一個(gè)維度上。除了動(dòng)態(tài)路由策略外,路由器還可以采用人工設(shè)置的特定數(shù)據(jù)轉(zhuǎn)發(fā)規(guī)則來選擇網(wǎng) 絡(luò)鏈路,即靜態(tài)路由策略。比如電信運(yùn)營(yíng)商可以對(duì)具有不同源或目的IP地址段的數(shù)據(jù)選擇 不同的網(wǎng)絡(luò)鏈路,或者根據(jù)不同的數(shù)據(jù)類型(比如HTTP數(shù)據(jù)、流媒體數(shù)據(jù)、P2P數(shù)據(jù))選擇 不同的網(wǎng)絡(luò)鏈路。通常靜態(tài)路由策略規(guī)則直接作用在數(shù)據(jù)轉(zhuǎn)發(fā)過程中,優(yōu)先級(jí)高于基于網(wǎng) 絡(luò)協(xié)議的動(dòng)態(tài)路由策略。在這種情況下,網(wǎng)絡(luò)路由器的不同輸出端口所連接的網(wǎng)絡(luò)鏈路傳 輸?shù)臄?shù)據(jù)具有不同且固定的內(nèi)容特征,并且不同轉(zhuǎn)發(fā)規(guī)則決定了不同鏈路數(shù)據(jù)在時(shí)間、用 戶、和網(wǎng)站這三個(gè)維度上的差異。圖2示出路由器輸入輸出鏈路示意圖。如圖2所示,路由器21通過輸入端口有m 條輸入數(shù)據(jù)鏈路,通過輸出端口有m’條輸出數(shù)據(jù)鏈路,數(shù)據(jù)采集點(diǎn)部署在輸出數(shù)據(jù)鏈路上。 路由器21可以采用不同的路由策略。下面根據(jù)路由器21的路由策略介紹如何確定數(shù)據(jù)采 集點(diǎn)的部署。為了既獲得反映用戶群體真實(shí)上網(wǎng)行為的數(shù)據(jù),又能有效控制采集成本,可以采 用統(tǒng)計(jì)采樣方法在電信骨干網(wǎng)絡(luò)上選擇合適的數(shù)據(jù)采集點(diǎn)部署采集設(shè)備,并且確保采集到 的數(shù)據(jù)樣本對(duì)整體的代表性。因此根據(jù)不同的電信網(wǎng)絡(luò)路由策略采取不同方式在電信網(wǎng)絡(luò)路由器的輸出端口所連接的網(wǎng)絡(luò)鏈路上部署數(shù)據(jù)采集設(shè)備。對(duì)以動(dòng)態(tài)路由策略配置的路由器,數(shù)據(jù)被轉(zhuǎn)發(fā)到各個(gè)輸出端口所連網(wǎng)絡(luò)鏈路上的 轉(zhuǎn)發(fā)規(guī)則是根據(jù)當(dāng)時(shí)的網(wǎng)絡(luò)狀態(tài)動(dòng)態(tài)確定,可以根據(jù)電信運(yùn)營(yíng)商提供的運(yùn)營(yíng)經(jīng)驗(yàn)規(guī)則在可 靠性高穩(wěn)定性好的網(wǎng)絡(luò)鏈路上部署數(shù)據(jù)采集點(diǎn)。不同的采集點(diǎn)部署方式對(duì)采集到的數(shù)據(jù)樣 本的影響有兩種情況在一般情況下為了獲得對(duì)數(shù)據(jù)整體狀況有代表性的數(shù)據(jù)樣本,可以在盡可能多的 路由器輸出端口所連網(wǎng)絡(luò)鏈路上部署采集點(diǎn),使得數(shù)據(jù)的樣本量大且受網(wǎng)絡(luò)變化影響小。 一個(gè)極端情況是在所有輸出端口網(wǎng)絡(luò)鏈路上部署采集點(diǎn)以獲得全體數(shù)據(jù),這樣數(shù)據(jù)特征就 不受網(wǎng)絡(luò)變化影響。但是在實(shí)際操作中,所能部署的采集點(diǎn)個(gè)數(shù)受限于系統(tǒng)建設(shè)成本。如果路由器將數(shù)據(jù)按照負(fù)載均衡原則轉(zhuǎn)發(fā)到多條網(wǎng)絡(luò)鏈路上,每條鏈路都以均等 機(jī)會(huì)獲得并傳輸數(shù)據(jù),這種情況下可在任何一條鏈路上部署采集點(diǎn),而獲得的數(shù)據(jù)樣本在 統(tǒng)計(jì)意義上都能代表數(shù)據(jù)整體狀況。這樣,就可以大大減少采集點(diǎn)的部署,減少系統(tǒng)建設(shè)成 本。對(duì)以靜態(tài)路由策略配置的路由器,相應(yīng)路由轉(zhuǎn)發(fā)規(guī)則已經(jīng)事先確定,各條路由器 輸出端口所連網(wǎng)絡(luò)鏈路上的數(shù)據(jù)內(nèi)容特征也已確定,可以根據(jù)實(shí)際需要決定在哪條網(wǎng)絡(luò)鏈 路上采集什么樣的用戶上網(wǎng)行為數(shù)據(jù)。例如,如果路由器將從不同源IP地址發(fā)來的數(shù)據(jù)轉(zhuǎn) 發(fā)至不同輸出端口所連的網(wǎng)絡(luò)鏈路上,可以根據(jù)自身需要決定需要采集的數(shù)據(jù)樣本范圍 或者在所有鏈路上部署采集點(diǎn)以獲得全部源IP地址對(duì)應(yīng)的數(shù)據(jù),或者選擇性地在特定的 鏈路上部署采集點(diǎn)以獲得部分源IP地址段的數(shù)據(jù)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在數(shù)據(jù)采集容量允許的情況下,在拓?fù)浣Y(jié)構(gòu)上層的數(shù) 據(jù)鏈路上部署數(shù)據(jù)采集點(diǎn),以覆蓋更多的寬帶用戶。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在由靜態(tài)路 由策略確定的所有數(shù)據(jù)傳輸鏈路上部署采集點(diǎn),包括具有不同目的地址的數(shù)據(jù)由不同鏈路 傳輸?shù)那闆r(比如目的網(wǎng)站在省內(nèi)設(shè)有站點(diǎn)),以實(shí)現(xiàn)完全覆蓋上網(wǎng)行為在時(shí)間和網(wǎng)站維 度上的分布。根據(jù)本發(fā)明的一個(gè)實(shí)施例,在多條負(fù)載均衡鏈路上任選一條部署采集點(diǎn),即可 獲得在時(shí)間和網(wǎng)站維度上的具有準(zhǔn)確統(tǒng)計(jì)意義的用戶上網(wǎng)行為。根據(jù)本發(fā)明的一個(gè)實(shí)施 例,在多條熱備鏈路(即不同鏈路上數(shù)據(jù)相同)上均部署采集點(diǎn),但在正常情況下只啟用一 條,若鏈路發(fā)生故障則啟用其它鏈路上的采集點(diǎn),以應(yīng)對(duì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)發(fā)生變化,實(shí)現(xiàn)對(duì)該 鏈路上用戶上網(wǎng)行為數(shù)據(jù)在時(shí)間和網(wǎng)站維度上的完全覆蓋。對(duì)于冷備鏈路上可以不部署采 集點(diǎn),以節(jié)省成本。圖3示出本發(fā)明的基于骨干網(wǎng)的用戶上網(wǎng)數(shù)據(jù)處理系統(tǒng)的一個(gè)實(shí)施例的結(jié)構(gòu)圖。 如圖3所示,該系統(tǒng)包括多個(gè)數(shù)據(jù)采集設(shè)備31、用戶標(biāo)識(shí)獲取設(shè)備32、上網(wǎng)數(shù)據(jù)存儲(chǔ)設(shè)備33 和描述信息提取設(shè)備34。其中,數(shù)據(jù)采集設(shè)備31在骨干網(wǎng)上采集用戶上網(wǎng)數(shù)據(jù),將采集的 用戶上網(wǎng)數(shù)據(jù)發(fā)給用戶標(biāo)識(shí)獲取設(shè)備32。用戶標(biāo)識(shí)獲取設(shè)備32根據(jù)從用戶上網(wǎng)數(shù)據(jù)中提 取的用戶IP信息獲得用戶標(biāo)識(shí),將獲得的用戶標(biāo)識(shí)發(fā)送給上網(wǎng)數(shù)據(jù)存儲(chǔ)設(shè)備33。上網(wǎng)數(shù)據(jù) 存儲(chǔ)設(shè)備33按照用戶標(biāo)識(shí)對(duì)用戶上網(wǎng)數(shù)據(jù)進(jìn)行存儲(chǔ)。描述信息提取設(shè)備34從按照用戶標(biāo) 識(shí)存儲(chǔ)的用戶上網(wǎng)數(shù)據(jù)獲得用戶的上網(wǎng)行為描述信息。例如,用戶的上網(wǎng)行為描述信息包 括訪問時(shí)間、網(wǎng)站IP地址、網(wǎng)站URL、頁面文本標(biāo)題、關(guān)鍵詞、網(wǎng)站cookie、和頁面Referrer 中的至少一個(gè)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,對(duì)于采用動(dòng)態(tài)路由策略決定數(shù)據(jù)轉(zhuǎn)發(fā)路徑的路由器數(shù)據(jù)采集設(shè)備部署在骨干網(wǎng)根據(jù)metric信息選擇的路由器輸出端口網(wǎng)絡(luò)鏈路上;和/或數(shù) 據(jù)采集設(shè)備部署在骨干網(wǎng)的傳輸距離短或鏈路狀態(tài)好的路由器輸出端口網(wǎng)絡(luò)鏈路上;和/ 或?qū)τ诼酚善鲗?shù)據(jù)按照負(fù)載均衡原則轉(zhuǎn)發(fā)到多條網(wǎng)絡(luò)鏈路上,每條鏈路以均等機(jī)會(huì)獲得 并傳輸數(shù)據(jù)的情況,數(shù)據(jù)采集設(shè)備部署在從多條網(wǎng)絡(luò)鏈路上選擇任意一條鏈路。這種情況 下可在任何一條鏈路上部署采集點(diǎn),而獲得的數(shù)據(jù)樣本在統(tǒng)計(jì)意義上都能代表數(shù)據(jù)整體狀 況,就可以大大減少采集點(diǎn)的部署,減少系統(tǒng)建設(shè)成本。在路由策略與時(shí)間無關(guān)的情況下, 數(shù)據(jù)采集設(shè)備部署在固定網(wǎng)絡(luò)鏈路上對(duì)用戶訪問網(wǎng)站事件在時(shí)間上進(jìn)行均勻的隨機(jī)采樣。 這樣隨著采樣時(shí)間的延長(zhǎng)和樣本數(shù)據(jù)的不斷積累,采集得到的訪問事件樣本最終會(huì)在統(tǒng)計(jì) 意義上趨向于用戶對(duì)網(wǎng)站的訪問事件的全體集合。在這種情況下,可以減少采用時(shí)間,但仍 然能夠獲得統(tǒng)計(jì)意義上用戶對(duì)網(wǎng)站的訪問事件的全體集合,減少了運(yùn)營(yíng)成本。下面從時(shí)間、用戶、和網(wǎng)站三個(gè)維度描述寬帶用戶對(duì)互聯(lián)網(wǎng)網(wǎng)站的訪問行為。這 種情況下,整個(gè)寬帶用戶群體對(duì)互聯(lián)網(wǎng)網(wǎng)站的訪問事件的集合可以表示在如圖4所示的一 個(gè)由時(shí)間、用戶、和網(wǎng)站組成的三維空間中。在圖4中,上述用戶對(duì)網(wǎng)站的訪問事件的三維 圖中只有時(shí)間坐標(biāo)軸是連續(xù)有序排列的,用戶和網(wǎng)站在相應(yīng)坐標(biāo)軸上的排列是離散且無序 的,即不同的離散坐標(biāo)值表示該維度屬性上的不同個(gè)體,也就是說用戶坐標(biāo)軸上的每個(gè)離 散坐標(biāo)點(diǎn)表示一個(gè)用戶、網(wǎng)站坐標(biāo)軸上的每個(gè)離散坐標(biāo)點(diǎn)表示一個(gè)網(wǎng)站。如果數(shù)據(jù)采集方法不能覆蓋所有寬帶用戶對(duì)互聯(lián)網(wǎng)網(wǎng)站的所有訪問數(shù)據(jù),那么其 采集到的用戶上網(wǎng)行為采集數(shù)據(jù)就是全部數(shù)據(jù)集合的子集。根據(jù)用戶對(duì)網(wǎng)站的訪問事件的 三個(gè)描述維度,即時(shí)間、用戶、和網(wǎng)站,寬帶用戶上網(wǎng)行為數(shù)據(jù)子集的采樣效果可以用下列 指標(biāo)來衡量(1)采集到的寬帶用戶群體訪問事件樣本的時(shí)間采樣百分比Rt ;(2)采集到的寬帶用戶群體訪問事件樣本的用戶采樣百分比Ru ;(3)采集到的寬帶用戶群體訪問事件樣本的網(wǎng)站采樣百分比Rw。用戶群體上網(wǎng)行為采樣效果下面分別從時(shí)間、用戶、和網(wǎng)站三個(gè)維度來說明數(shù)據(jù)采樣方案對(duì)所觀察到的寬帶 用戶群體對(duì)互聯(lián)網(wǎng)網(wǎng)站的訪問行為的影響。一.時(shí)間維度采樣(1)均勻采樣無論是基于靜態(tài)因素還是動(dòng)態(tài)因素的路由策略,只要路由策略與時(shí)間沒有關(guān)聯(lián), 那么部署在固定網(wǎng)絡(luò)鏈路上的采集點(diǎn)將對(duì)用戶訪問網(wǎng)站事件在時(shí)間上進(jìn)行均勻的隨機(jī)采 樣。此時(shí)所觀察到的用戶對(duì)網(wǎng)站的訪問事件的集合將如圖5所示。在這樣的情況下所觀察 到的用戶對(duì)網(wǎng)站的訪問事件是全體集合的一個(gè)子集。但是隨著采樣時(shí)間的延長(zhǎng)和樣本數(shù)據(jù) 的不斷積累,采集得到的訪問事件樣本最終會(huì)在統(tǒng)計(jì)意義上趨向于用戶對(duì)網(wǎng)站的訪問事件 的全體集合。在這種情況下,可以減少采用時(shí)間,但仍然能夠獲得統(tǒng)計(jì)意義上用戶對(duì)網(wǎng)站的 訪問事件的全體集合,減少了運(yùn)營(yíng)成本。(2)非均勻采樣如果路由策略隨時(shí)間而變化,那么部署在固定網(wǎng)絡(luò)鏈路上的采集點(diǎn)將對(duì)用戶訪問 網(wǎng)站事件在時(shí)間上進(jìn)行非均勻的隨機(jī)采樣。此時(shí)所觀察到的用戶對(duì)網(wǎng)站的訪問事件的集合 將如圖6所示。在這樣的情況下隨著采樣時(shí)間的延長(zhǎng)和樣本數(shù)據(jù)的不斷積累,所觀察到的用戶對(duì)網(wǎng)站的訪問事件子集在統(tǒng)計(jì)意義上反映了全體訪問事件在時(shí)間維度上的簡(jiǎn)單或復(fù) 雜的映射結(jié)果,而不會(huì)趨向于用戶對(duì)網(wǎng)站的訪問事件的全體集合。綜合上述情況,在部署數(shù)據(jù)采集點(diǎn)時(shí)盡量選擇優(yōu)先級(jí)高、具備時(shí)間均勻特性路由 策略的路由器輸出數(shù)據(jù)鏈路作為數(shù)據(jù)采集路徑,以確保獲得充分的、且能代表整體用戶上 網(wǎng)行為特征的網(wǎng)絡(luò)數(shù)據(jù)。這種情況下采集到的網(wǎng)絡(luò)數(shù)據(jù)就是對(duì)其覆蓋的寬帶用戶群體上網(wǎng) 行為的一個(gè)估計(jì),該估計(jì)的準(zhǔn)確程度由采集到的用戶群體對(duì)網(wǎng)站的訪問時(shí)長(zhǎng)占整個(gè)訪問時(shí) 間的百分比決定,即由采集到的寬帶用戶群體訪問事件樣本的時(shí)間采樣百分比Rt決定。二,用戶維度采樣根據(jù)電信網(wǎng)絡(luò)的特點(diǎn),特定用戶的互聯(lián)網(wǎng)訪問數(shù)據(jù)是否由特定網(wǎng)絡(luò)鏈路來傳輸?shù)?路由策略是相對(duì)固定的,即該用戶的訪問數(shù)據(jù)是否流經(jīng)某條網(wǎng)絡(luò)鏈路大多是由靜態(tài)因素決 定的,比如用戶IP地址范圍、用戶所在區(qū)域的網(wǎng)絡(luò)鏈路質(zhì)量、用戶所在區(qū)域的網(wǎng)絡(luò)拓?fù)浣Y(jié) 構(gòu)等。所以,在這樣的情況下所觀察到的用戶群體采樣也是固定的。如果觀察到用戶群體 發(fā)生較大變化,那么很大程度上是因?yàn)殪o態(tài)的路由策略發(fā)生了變化所導(dǎo)致的;無論采樣時(shí) 間長(zhǎng)短,所觀察到的用戶群體行為只描述了該用戶群體采樣的行為,而不能以此來估計(jì)未 被觀察到的用戶群體的行為。此時(shí)所觀察到的用戶對(duì)網(wǎng)站的訪問事件的集合將如圖7所示。在部署數(shù)據(jù)采集點(diǎn) 時(shí)盡量選擇經(jīng)過路由器匯聚的路由器輸出端口所連接的數(shù)據(jù)鏈路作為數(shù)據(jù)采集路徑,以確 保覆蓋該路由器輸入端口所連接的數(shù)據(jù)鏈路所對(duì)應(yīng)的所有寬帶用戶群體。這種情況下采集 到的網(wǎng)絡(luò)數(shù)據(jù)就是對(duì)其所應(yīng)該覆蓋的寬帶用戶群體上網(wǎng)行為的一個(gè)估計(jì),該估計(jì)的準(zhǔn)確程 度由采集到的用戶數(shù)目占整個(gè)用戶群體的百分比決定,即由采集到的寬帶用戶群體訪問事 件樣本的用戶采樣百分比Ru決定。三,網(wǎng)站維度采樣如果在特定的電信運(yùn)營(yíng)商IDC機(jī)房部署采集點(diǎn),那么所獲得的用戶對(duì)網(wǎng)站的訪問 事件將只是全體訪問事件集合的一個(gè)子集。由于特定IDC機(jī)房所包含的網(wǎng)站是相對(duì)固定 的,于是與對(duì)用戶采樣的情況相似;在這樣的情況下所觀察到的用戶訪問的網(wǎng)站采樣也是相對(duì)固定的。如果觀察到 網(wǎng)站發(fā)生較大變化,那么很大程度上是因?yàn)橄鄳?yīng)網(wǎng)絡(luò)鏈路所連接的網(wǎng)站發(fā)生了變化所導(dǎo)致 的;無論采樣時(shí)間長(zhǎng)短,所觀察到的用戶對(duì)網(wǎng)站的訪問行為只描述了對(duì)相應(yīng)網(wǎng)站集合 的訪問行為,而不能以此來估計(jì)用戶在其所訪問過但未被觀察到的網(wǎng)站上的訪問行為。此時(shí)所觀察到的用戶對(duì)網(wǎng)站的訪問事件的集合將如圖8所示。在這種情況下所觀 察到的寬帶用戶所訪問的部分網(wǎng)站所對(duì)應(yīng)的用戶群體和訪問時(shí)間僅是全體用戶群體和全 部訪問時(shí)間的一個(gè)子集。因此無論采樣時(shí)間的長(zhǎng)短和樣本數(shù)據(jù)的多少,采集到的子集數(shù)據(jù) 只能反映這個(gè)子集所包含的用戶群體在相應(yīng)訪問時(shí)間內(nèi)的行為情況,而無法代表全部用戶 群體在任何時(shí)間訪問全部網(wǎng)站的行為。這種情況下采集到的網(wǎng)絡(luò)數(shù)據(jù)就是對(duì)訪問這些網(wǎng)站 的寬帶用戶群體的上網(wǎng)行為的一個(gè)估計(jì),該估計(jì)的準(zhǔn)確程度由采集到的網(wǎng)站占該用戶群體 所訪問過的全部網(wǎng)站的百分比決定,即由采集到的寬帶用戶群體訪問事件樣本的網(wǎng)站采樣 百分比Rw決定。因此,如果不能在用戶數(shù)據(jù)匯聚的網(wǎng)絡(luò)鏈路上部署數(shù)據(jù)采集點(diǎn),那么會(huì)盡量選擇連接著包含有大量大型互聯(lián)網(wǎng)網(wǎng)站的電信運(yùn)營(yíng)商IDC機(jī)房的網(wǎng)絡(luò)數(shù)據(jù)鏈路來部署數(shù)據(jù)采
^^點(diǎn)ο由于在實(shí)際電信網(wǎng)絡(luò)環(huán)境中對(duì)寬帶用戶群體上網(wǎng)行為的數(shù)據(jù)采樣效果通常是在 時(shí)間、用戶、和網(wǎng)站三個(gè)維度上的組合形式,所以需要根據(jù)實(shí)際網(wǎng)絡(luò)鏈路情況在數(shù)據(jù)采樣效 果和所需代價(jià)之間取得平衡。用戶個(gè)體上網(wǎng)行為采樣效果根據(jù)采集的寬帶用戶上網(wǎng)數(shù)據(jù)內(nèi)容,個(gè)體用戶的上網(wǎng)行為可以用其對(duì)網(wǎng)站頁面的 訪問事件來描述。首先個(gè)體用戶由其用戶UserID標(biāo)識(shí),每個(gè)訪問事件則記錄了該用戶訪問 某個(gè)網(wǎng)站時(shí)的時(shí)間信息和網(wǎng)站信息時(shí)間信息用戶對(duì)單個(gè)網(wǎng)站的訪問時(shí)間網(wǎng)站信息網(wǎng)站IP地址、網(wǎng)站URL、頁面文本標(biāo)題或用戶提交的關(guān)鍵詞、網(wǎng)站 Cookie、頁面 Referrer因此將屬于每個(gè)寬帶用戶的對(duì)互聯(lián)網(wǎng)網(wǎng)站的訪問事件歸入到這個(gè)用戶中,于是個(gè) 體寬帶用戶的上網(wǎng)行為可以表示在一個(gè)由時(shí)間和網(wǎng)站組成的二維空間中。圖9中顯示了三 個(gè)寬帶用戶對(duì)多個(gè)網(wǎng)站的訪問行為。需要注意的是時(shí)間坐標(biāo)軸是有序排列的,而網(wǎng)站坐標(biāo) 軸是無序排列的。如果數(shù)據(jù)采集方法不能覆蓋所有寬帶用戶對(duì)互聯(lián)網(wǎng)網(wǎng)站的所有訪問數(shù)據(jù),那么其 采集到的用戶上網(wǎng)行為采集數(shù)據(jù)就是全部數(shù)據(jù)集合的子集。根據(jù)個(gè)體用戶對(duì)網(wǎng)站的訪問事 件的兩個(gè)描述維度,即時(shí)間和網(wǎng)站,個(gè)體寬帶用戶上網(wǎng)行為數(shù)據(jù)子集的采樣效果可以用下 列指標(biāo)來衡量(1)采集到的個(gè)體寬帶用戶訪問事件樣本的時(shí)間采樣百分比Rt ;(2)采集到的個(gè)體寬帶用戶群體訪問事件樣本的網(wǎng)站采樣百分比Rw。下面分別從時(shí)間和網(wǎng)站兩個(gè)個(gè)維度來說明數(shù)據(jù)采樣方案對(duì)所觀察到的寬帶用戶 個(gè)體對(duì)互聯(lián)網(wǎng)網(wǎng)站的訪問行為的影響。一,時(shí)間維度采樣(1)均勻采樣無論是基于網(wǎng)絡(luò)因素的自適應(yīng)路由策略還是基于人工設(shè)置的靜態(tài)路由策略,只要 路由策略與時(shí)間沒有關(guān)聯(lián),那么部署在固定網(wǎng)絡(luò)鏈路上的采集點(diǎn)將對(duì)個(gè)體用戶訪問網(wǎng)站事 件在時(shí)間上進(jìn)行均勻的隨機(jī)采樣。此時(shí)所觀察到的個(gè)體用戶對(duì)網(wǎng)站的訪問事件的集合將如 圖10所示。圖10中顯示了三個(gè)寬帶用戶對(duì)多個(gè)網(wǎng)站的訪問行為,因此在這樣的情況下所 觀察到的個(gè)體用戶對(duì)網(wǎng)站的訪問事件是全體集合的一個(gè)子集,這意味著將不會(huì)知道任何在 采樣集合以外的訪問事件。但是隨著采樣時(shí)間的延長(zhǎng)和樣本數(shù)據(jù)的不斷積累,采集得到的 訪問事件樣本最終會(huì)在統(tǒng)計(jì)意義上趨向于個(gè)體用戶對(duì)網(wǎng)站的訪問事件的全體集合。(2)非均勻采樣如果路由策略隨時(shí)間而變化,那么部署在固定網(wǎng)絡(luò)鏈路上的采集點(diǎn)將對(duì)個(gè)體用戶 訪問網(wǎng)站事件在時(shí)間上進(jìn)行非均勻的隨機(jī)采樣。此時(shí)所觀察到的個(gè)體用戶對(duì)網(wǎng)站的訪問事 件的集合將如圖11所示。圖11中顯示了三個(gè)寬帶用戶對(duì)多個(gè)網(wǎng)站的訪問行為,因此在這 樣的情況下隨著采樣時(shí)間的延長(zhǎng)和樣本數(shù)據(jù)的不斷積累,所觀察到的個(gè)體用戶對(duì)網(wǎng)站的訪 問事件子集在統(tǒng)計(jì)意義上反映了全體訪問事件在時(shí)間維度上的簡(jiǎn)單或復(fù)雜的映射結(jié)果,而不會(huì)趨向于用戶對(duì)網(wǎng)站的訪問事件的全體集合。綜合上述情況,在部署數(shù)據(jù)采集點(diǎn)時(shí)盡量選擇優(yōu)先級(jí)高、具備時(shí)間均勻特性路由 策略的路由器輸出端口所連網(wǎng)絡(luò)鏈路作為數(shù)據(jù)采集路徑,以確保獲得充分的、且能代表個(gè) 體用戶上網(wǎng)行為特征的網(wǎng)絡(luò)數(shù)據(jù)。這種情況下采集到的網(wǎng)絡(luò)數(shù)據(jù)就是對(duì)其覆蓋的個(gè)體寬帶 用戶上網(wǎng)行為的一個(gè)估計(jì),該估計(jì)的準(zhǔn)確程度由采集到的個(gè)體用戶對(duì)網(wǎng)站的訪問時(shí)長(zhǎng)占整 個(gè)訪問時(shí)間的百分比決定,即由采集到的個(gè)體寬帶用戶訪問事件樣本的時(shí)間采樣百分比Rt 決定。二,網(wǎng)站維度采樣如果在特定的電信運(yùn)營(yíng)商IDC機(jī)房部署采集點(diǎn),那么所獲得的個(gè)體用戶對(duì)網(wǎng)站的 訪問事件將只是全體訪問事件集合的一個(gè)子集。由于特定IDC機(jī)房所包含的網(wǎng)站是相對(duì)固 定的在這樣的情況下所觀察到的個(gè)體用戶訪問的網(wǎng)站采樣也是相對(duì)固定的。如果觀察 到網(wǎng)站發(fā)生較大變化,那么很大程度上是因?yàn)橄鄳?yīng)網(wǎng)絡(luò)鏈路所連接的網(wǎng)站發(fā)生了變化所導(dǎo) 致的;無論采樣時(shí)間長(zhǎng)短,所觀察到的個(gè)體用戶對(duì)網(wǎng)站的訪問行為只描述了對(duì)相應(yīng)網(wǎng)站 集合的訪問行為,而不能以此來估計(jì)個(gè)體用戶在其所訪問過但未被觀察到的網(wǎng)站上的訪問 行為。此時(shí)所觀察到的個(gè)體用戶對(duì)網(wǎng)站的訪問事件的集合將如圖12所示。圖12中顯示 了三個(gè)寬帶用戶對(duì)多個(gè)網(wǎng)站的訪問行為,這些網(wǎng)站不含[1,2. 5]和[4,6]兩個(gè)區(qū)間內(nèi)的網(wǎng) 站。在這種情況下所觀察到的個(gè)體寬帶用戶所訪問的部分網(wǎng)站所對(duì)應(yīng)的訪問時(shí)間僅是該用 戶全部訪問時(shí)間的一個(gè)子集。因此無論采樣時(shí)間的長(zhǎng)短和樣本數(shù)據(jù)的多少,采集到的子集 數(shù)據(jù)只能反映這個(gè)子集所包含的個(gè)體用戶在相應(yīng)訪問時(shí)間內(nèi)的行為情況,而無法代表該用 戶在任何時(shí)間訪問全部網(wǎng)站的行為。這種情況下采集到的網(wǎng)絡(luò)數(shù)據(jù)就是對(duì)該用戶所訪問網(wǎng) 站的上網(wǎng)行為的一個(gè)采樣樣本,該樣本的準(zhǔn)確程度由采集到的網(wǎng)站占該用戶所訪問過的全 部網(wǎng)站的百分比決定,即由采集到的個(gè)體寬帶用戶訪問事件樣本的網(wǎng)站采樣百分比Rw決 定。因此,可以在用戶數(shù)據(jù)匯聚的網(wǎng)絡(luò)鏈路上部署數(shù)據(jù)采集點(diǎn),或者盡量選擇連接著 包含有大量大型互聯(lián)網(wǎng)網(wǎng)站的電信運(yùn)營(yíng)商IDC機(jī)房的網(wǎng)絡(luò)數(shù)據(jù)鏈路來部署數(shù)據(jù)采集點(diǎn)。圖13示出一個(gè)電信網(wǎng)絡(luò)鏈路上數(shù)據(jù)采樣點(diǎn)例子的示意圖。例如在某個(gè)電信網(wǎng)絡(luò) 環(huán)境中,網(wǎng)絡(luò)路由節(jié)點(diǎn)H的輸入端口連接到三條網(wǎng)絡(luò)鏈路路徑A — H、B — H、和C — H,其輸 出端口連接到的另外三條網(wǎng)絡(luò)鏈路路徑H — G、H — F、和H — I。其中路徑H — F具有比路 徑H —G和H — I更大的網(wǎng)絡(luò)帶寬,各條路徑對(duì)應(yīng)的網(wǎng)絡(luò)鏈路成本值(cost)標(biāo)注在圖3的 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。對(duì)從節(jié)點(diǎn)A、B、和C訪問節(jié)點(diǎn)E的數(shù)據(jù),網(wǎng)絡(luò)路由節(jié)點(diǎn)H的路由策略如下 靜態(tài)路由策略規(guī)定具有節(jié)點(diǎn)A的源IP地址段的數(shù)據(jù)由路徑H — G傳輸;·自適應(yīng)路由策略規(guī)定節(jié)點(diǎn)H優(yōu)先將數(shù)據(jù)轉(zhuǎn)發(fā)到高帶寬的網(wǎng)絡(luò)鏈路即路徑H — F 上; 因此這樣的路由策略將形成如下從節(jié)點(diǎn)A、B、和C訪問節(jié)點(diǎn)E的數(shù)據(jù)轉(zhuǎn)發(fā)情況 具有節(jié)點(diǎn)A的源IP地址段的數(shù)據(jù)由路徑H — G傳輸;
正常情況下其余數(shù)據(jù)由路徑H —F傳輸,而路徑H — I無數(shù)據(jù)傳輸成為備用鏈 路; 如果路徑H —F中斷,則(1)具有節(jié)點(diǎn)A的源IP地址段的數(shù)據(jù)仍由路徑H — G傳輸;;(2)其余數(shù)據(jù)則經(jīng)路徑H — I傳輸,因?yàn)槁窂紿 — I — E的成本值小于路徑 H — G — F — E ; 如果路徑H —G中斷,則(1)具有節(jié)點(diǎn)A的源IP地址段的數(shù)據(jù)將丟失;(2)其余數(shù)據(jù)仍經(jīng)路徑H — F傳輸,因?yàn)槁窂紿 — F — E的成本值小于路徑 H — I — E ; 如果路徑H —F和H —G同時(shí)中斷,則(1)具有節(jié)點(diǎn)A的源IP地址段的數(shù)據(jù)將丟失;(2)其余數(shù)據(jù)則經(jīng)路徑H — I傳輸;在具有這樣的路由策略的電信網(wǎng)絡(luò)結(jié)構(gòu)中,系統(tǒng)可采取如下方式部署數(shù)據(jù)采集占.
^ \\\ · 根據(jù)靜態(tài)路由策略的要求,系統(tǒng)必須在路徑H — G上部署一個(gè)采集點(diǎn)以獲得從 節(jié)點(diǎn)A訪問節(jié)點(diǎn)E的數(shù)據(jù); 根據(jù)自適應(yīng)路由策略的要求,系統(tǒng)必須在路徑H — F上部署一個(gè)采集點(diǎn)以獲得 在正常情況下從節(jié)點(diǎn)B和C訪問節(jié)點(diǎn)E的數(shù)據(jù); 在網(wǎng)絡(luò)結(jié)構(gòu)因部分路徑中斷發(fā)生變化而使得自適應(yīng)路由策略改變數(shù)據(jù)的傳輸 路徑的情況時(shí),系統(tǒng)還需要在路徑H— I上部署一個(gè)采集點(diǎn),以確保采集到因網(wǎng)絡(luò)結(jié)構(gòu)變化 而被重定向到這條路徑上的數(shù)據(jù);在按照上述方式部署數(shù)據(jù)采集點(diǎn)時(shí),在路由節(jié)點(diǎn)H輸出端口采集到的寬帶用戶對(duì) 互聯(lián)網(wǎng)網(wǎng)站的訪問行為在用戶、時(shí)間、和網(wǎng)站三個(gè)維度上會(huì)呈現(xiàn)出如下效果特征 如果在網(wǎng)絡(luò)路徑H — F和H — G上都部署了采集點(diǎn),那么在正常情況下系統(tǒng)采 集到的數(shù)據(jù)將來自節(jié)點(diǎn)A、B、和C的全部用戶,并且覆蓋全部用戶的全部上網(wǎng)行為時(shí)間和全 部訪問過的網(wǎng)站。 如果只在網(wǎng)絡(luò)路徑H — F而未在路徑H — G上部署采集點(diǎn),那么采集到的數(shù)據(jù) 將不會(huì)包含來自節(jié)點(diǎn)A的用戶群體、相應(yīng)的訪問時(shí)間、和訪問過的網(wǎng)站,而對(duì)其余來自節(jié)點(diǎn) B和C的用戶群體則覆蓋他們?nèi)可暇W(wǎng)行為時(shí)間和全部訪問過的網(wǎng)站。 如果在因網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生變化(比如路徑H —F或F —E中斷)使得數(shù)據(jù)被重定 向到路徑H—I上的情況下系統(tǒng)在該鏈路上部署了采集點(diǎn)那么系統(tǒng)仍將采集到所有被重定向的用戶群體,以及覆蓋他們?nèi)可暇W(wǎng)行為時(shí)間 和全部訪問過的網(wǎng)站。否則這些數(shù)據(jù)將全部丟失,包含來相應(yīng)的用戶群體、訪問時(shí)間、和訪 問過的網(wǎng)站。同時(shí)如果是路徑F — E中斷,則由于經(jīng)過路徑H — G傳輸?shù)臄?shù)據(jù)將無法通過節(jié)點(diǎn)F 到達(dá)E,而且這部分?jǐn)?shù)據(jù)的傳輸路徑是由靜態(tài)路由策略決定的,所以這部分?jǐn)?shù)據(jù)將會(huì)丟失。下面舉例說明電信骨干網(wǎng)絡(luò)環(huán)境中的采集點(diǎn)部署。下文中,MTP(Media Technology Platform,媒體技術(shù)平臺(tái))是本申請(qǐng)人的一個(gè)基于互聯(lián)網(wǎng)寬帶用戶上網(wǎng)行為的為互聯(lián)網(wǎng)網(wǎng)站提供根據(jù)用戶偏好進(jìn)行內(nèi)容定制的智能化信息服務(wù)技術(shù)平臺(tái)。圖14示出一個(gè)電信運(yùn)營(yíng)商省級(jí)中心的骨干網(wǎng)絡(luò)結(jié)構(gòu)及其采集點(diǎn)部署示意圖。在 圖14所示的電信運(yùn)營(yíng)商的省級(jí)中心網(wǎng)絡(luò)中,省內(nèi)寬帶用戶先通過分別在各地市的匯聚層 路由器匯總后接入省級(jí)中心,并與2個(gè)省網(wǎng)路由器相連。一方面省網(wǎng)路由器與2個(gè)省內(nèi)IDC 機(jī)房的路由器相連,使得省內(nèi)用戶可以直接訪問IDC機(jī)房中的網(wǎng)站,另一方面省網(wǎng)路由器 也與電信運(yùn)營(yíng)商的2個(gè)集團(tuán)路由器相連,并通過該集團(tuán)路由器與電信運(yùn)營(yíng)商在其它省份的 省級(jí)中心相連,這樣省內(nèi)寬帶用戶就可以通過省網(wǎng)路由器訪問其它省份的網(wǎng)絡(luò)資源。通常 情況下為了增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)的可靠性,各同級(jí)路由器之間也直接相連,比如省網(wǎng)路由器和IDC 機(jī)房路由器。而且集團(tuán)路由器直接與IDC機(jī)房相連,使得外省用戶可以不必經(jīng)過省網(wǎng)路由 器。同時(shí)各個(gè)機(jī)房路由器與網(wǎng)站之間(黃色連線)也采用直連方式,以縮短傳輸路徑,提高 傳輸效率和可靠性。對(duì)于路由選擇,通常情況下,網(wǎng)絡(luò)路由器采用自適應(yīng)路由策略來選擇數(shù)據(jù)轉(zhuǎn)發(fā)路 徑,如果多條轉(zhuǎn)發(fā)路徑的優(yōu)先級(jí)相同,則路由器采用負(fù)載均衡的方式隨機(jī)且均勻地選擇轉(zhuǎn) 發(fā)路徑。在圖14所示的省級(jí)中心網(wǎng)絡(luò)中,省網(wǎng)路由器采用多條IOG的POS鏈路與IDC機(jī)房 和集團(tuán)路由器相連,并采用自適應(yīng)路由策略轉(zhuǎn)發(fā)數(shù)據(jù),各條鏈路均勻地負(fù)擔(dān)數(shù)據(jù)傳輸任務(wù)。對(duì)于采集點(diǎn)部署,為了獲得省內(nèi)寬帶用戶的HTTP請(qǐng)求數(shù)據(jù),MTP在兩個(gè)地方部署 數(shù)據(jù)采集點(diǎn)(1)在省網(wǎng)路由器與省內(nèi)IDC機(jī)房路由器之間的連接鏈路上部署采集點(diǎn),以獲得 省內(nèi)寬帶用戶對(duì)IDC機(jī)房?jī)?nèi)的網(wǎng)站訪問所產(chǎn)生的HTTP請(qǐng)求數(shù)據(jù);(2)在省網(wǎng)路由器與集團(tuán)路由器之間的連接鏈路上部署采集點(diǎn),以獲得省內(nèi)寬帶 用戶對(duì)省外網(wǎng)站訪問所產(chǎn)生的HTTP請(qǐng)求數(shù)據(jù)。由于各條網(wǎng)絡(luò)鏈路均勻地承載網(wǎng)絡(luò)數(shù)據(jù)流量,所以MTP在兩個(gè)采集點(diǎn)上均只從多 條網(wǎng)絡(luò)鏈路中的任意一條上采用戶訪問網(wǎng)站時(shí)向網(wǎng)站發(fā)出的HTTP請(qǐng)求數(shù)據(jù)。對(duì)于數(shù)據(jù)采樣效果,MTP系統(tǒng)從上述兩個(gè)采集點(diǎn)獲得的用戶對(duì)網(wǎng)站訪問產(chǎn)生的 HTTP請(qǐng)求數(shù)據(jù)樣本具有如下特征(I)MTP采集到的用戶對(duì)網(wǎng)站的訪問行為覆蓋全部省內(nèi)寬帶用戶,無論用戶訪問的 是省內(nèi)還是省外的網(wǎng)站;(2)MTP采集到的用戶對(duì)網(wǎng)站的訪問事件樣本在統(tǒng)計(jì)意義上逐漸趨近于用戶對(duì)網(wǎng) 站的訪問事件的全體集合,趨近速度與采樣時(shí)間成正比;(3)MTP采集到的用戶對(duì)網(wǎng)站的訪問行為覆蓋所有位于省內(nèi)IDC機(jī)房的網(wǎng)站以及 省外網(wǎng)站。本發(fā)明實(shí)施例的方法和系統(tǒng),實(shí)現(xiàn)了覆蓋電信運(yùn)營(yíng)商省級(jí)中心所有寬帶用戶,能 夠客觀反映用戶群體上網(wǎng)行為的統(tǒng)計(jì)特征,客觀反映單個(gè)用戶上網(wǎng)行為的統(tǒng)計(jì)特征。本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發(fā)明 限于所公開的形式。很多修改和變化對(duì)于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描 述實(shí)施例是為了更好說明本發(fā)明的原理和實(shí)際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理 解本發(fā)明從而設(shè)計(jì)適于特定用途的帶有各種修改的各種實(shí)施例。
權(quán)利要求
一種基于骨干網(wǎng)的用戶上網(wǎng)數(shù)據(jù)處理方法,其特征在于,包括在骨干網(wǎng)上通過數(shù)據(jù)采集點(diǎn)采集用戶上網(wǎng)數(shù)據(jù);根據(jù)從所述用戶上網(wǎng)數(shù)據(jù)中提取的用戶IP信息獲得用戶標(biāo)識(shí);按照所述用戶標(biāo)識(shí)對(duì)所述用戶上網(wǎng)數(shù)據(jù)進(jìn)行存儲(chǔ);從按照所述用戶標(biāo)識(shí)存儲(chǔ)的所述用戶上網(wǎng)數(shù)據(jù)獲得所述用戶的上網(wǎng)行為描述信息。
2.根據(jù)權(quán)利要求1所述的用戶上網(wǎng)數(shù)據(jù)處理方法,其特征在于,所述用戶的上網(wǎng)行為 描述信息包括訪問時(shí)間、網(wǎng)站IP地址、網(wǎng)站URL、頁面文本標(biāo)題、關(guān)鍵詞、網(wǎng)站cookie、和頁 面Referrer中的至少一個(gè)。
3.根據(jù)權(quán)利要求1所述的用戶上網(wǎng)數(shù)據(jù)處理方法,其特征在于,根據(jù)網(wǎng)絡(luò)拓?fù)鋵哟谓Y(jié) 構(gòu)和網(wǎng)絡(luò)路由策略在所述骨干網(wǎng)上的部署所述數(shù)據(jù)采集點(diǎn)。
4.根據(jù)權(quán)利要求3所述的用戶上網(wǎng)數(shù)據(jù)處理方法,其特征在于,所述根據(jù)網(wǎng)絡(luò)拓?fù)鋵?次結(jié)構(gòu)和網(wǎng)絡(luò)路由策略在所述骨干網(wǎng)上的部署所述數(shù)據(jù)采集點(diǎn)的步驟包括對(duì)于采用靜態(tài)路由策略決定數(shù)據(jù)轉(zhuǎn)發(fā)路徑的路由器,在所述路由器的所有輸出端口采 集所述用戶上網(wǎng)數(shù)據(jù)。
5.根據(jù)權(quán)利要求3所述的用戶上網(wǎng)數(shù)據(jù)處理方法,其特征在于,所述根據(jù)網(wǎng)絡(luò)拓?fù)鋵?次結(jié)構(gòu)和網(wǎng)絡(luò)路由策略在所述骨干網(wǎng)上的部署所述數(shù)據(jù)采集點(diǎn)的步驟包括對(duì)于采用動(dòng)態(tài)路由策略決定數(shù)據(jù)轉(zhuǎn)發(fā)路徑的路由器,根據(jù)metric信息選擇所述路由 器輸出端口網(wǎng)絡(luò)鏈路以部署所述數(shù)據(jù)采集點(diǎn); 和/或在傳輸距離短或鏈路狀態(tài)好的路由器輸出端口網(wǎng)絡(luò)鏈路部署所述數(shù)據(jù)采集點(diǎn); 和/或?qū)τ诼酚善鲗?shù)據(jù)按照負(fù)載均衡原則轉(zhuǎn)發(fā)到多條網(wǎng)絡(luò)鏈路上,從所述多條網(wǎng)絡(luò)鏈路上 選擇任意一條鏈路部署所述數(shù)據(jù)采集點(diǎn); 和/或在拓?fù)浣Y(jié)構(gòu)上層的數(shù)據(jù)鏈路上部署所述數(shù)據(jù)采集點(diǎn)。
6.根據(jù)權(quán)利要求1所述的用戶上網(wǎng)數(shù)據(jù)處理方法,其特征在于,所述數(shù)據(jù)采集點(diǎn)部署在數(shù)據(jù)流分散之前和/或數(shù)據(jù)流匯聚之后的網(wǎng)絡(luò)路由設(shè)備的輸 入端口或輸出端口上。
7.一種基于骨干網(wǎng)的用戶上網(wǎng)數(shù)據(jù)處理系統(tǒng),其特征在于,包括 多個(gè)數(shù)據(jù)采集設(shè)備,用于在骨干網(wǎng)上采集用戶上網(wǎng)數(shù)據(jù);用戶標(biāo)識(shí)獲取設(shè)備,用于根據(jù)從所述用戶上網(wǎng)數(shù)據(jù)中提取的用戶IP信息獲得用戶標(biāo)識(shí);上網(wǎng)數(shù)據(jù)存儲(chǔ)設(shè)備,用于按照所述用戶標(biāo)識(shí)對(duì)所述用戶上網(wǎng)數(shù)據(jù)進(jìn)行存儲(chǔ); 描述信息提取設(shè)備,用于從按照所述用戶標(biāo)識(shí)存儲(chǔ)的所述用戶上網(wǎng)數(shù)據(jù)獲得所述用戶 的上網(wǎng)行為描述信息。
8.根據(jù)權(quán)利要求7所述的用戶上網(wǎng)數(shù)據(jù)處理系統(tǒng),其特征在于,所述用戶的上網(wǎng)行為 描述信息包括訪問時(shí)間、網(wǎng)站IP地址、網(wǎng)站URL、頁面文本標(biāo)題、關(guān)鍵詞、網(wǎng)站cookie、和頁 面Referrer中的至少一個(gè)。
9.根據(jù)權(quán)利要求7所述的用戶上網(wǎng)數(shù)據(jù)處理系統(tǒng),其特征在于,對(duì)于采用動(dòng)態(tài)路由策略決定數(shù)據(jù)轉(zhuǎn)發(fā)路徑的路由器所述數(shù)據(jù)采集設(shè)備部署在骨干網(wǎng)根據(jù)metric信息選擇的所述路由器輸出端口網(wǎng)絡(luò)鏈 路上;和/或所述數(shù)據(jù)采集設(shè)備部署在骨干網(wǎng)的傳輸距離短或鏈路狀態(tài)好的路由器輸出端口網(wǎng)絡(luò) 鏈路上; 和/或?qū)τ诼酚善鲗?shù)據(jù)按照負(fù)載均衡原則轉(zhuǎn)發(fā)到多條網(wǎng)絡(luò)鏈路上,所述數(shù)據(jù)采集設(shè)備部署 在從所述多條網(wǎng)絡(luò)鏈路上選擇任意一條鏈路; 和/或在拓?fù)浣Y(jié)構(gòu)上層的數(shù)據(jù)鏈路上部署所述數(shù)據(jù)采集點(diǎn)。
10.根據(jù)權(quán)利要求7所述的用戶上網(wǎng)數(shù)據(jù)處理方法,其特征在于, 所述數(shù)據(jù)采集點(diǎn)部署在數(shù)據(jù)流分散之前和/或數(shù)據(jù)流匯聚之后的網(wǎng)絡(luò)路由設(shè)備的輸 入端口或輸出端口上。
全文摘要
本發(fā)明公開一種基于骨干網(wǎng)的用戶上網(wǎng)數(shù)據(jù)處理方法和系統(tǒng)。該方法包括在骨干網(wǎng)上通過數(shù)據(jù)采集點(diǎn)采集用戶上網(wǎng)數(shù)據(jù);根據(jù)從用戶上網(wǎng)數(shù)據(jù)中提取的用戶IP信息獲得用戶標(biāo)識(shí);按照用戶標(biāo)識(shí)對(duì)用戶上網(wǎng)數(shù)據(jù)進(jìn)行存儲(chǔ);從按照用戶標(biāo)識(shí)存儲(chǔ)的用戶上網(wǎng)數(shù)據(jù)獲得用戶的上網(wǎng)行為描述信息。本公開的方法和系統(tǒng)實(shí)現(xiàn)了覆蓋電信運(yùn)營(yíng)商省級(jí)中心所有寬帶用戶,能夠客觀反映用戶群體上網(wǎng)行為的統(tǒng)計(jì)特征,客觀反映單個(gè)用戶上網(wǎng)行為的統(tǒng)計(jì)特征。
文檔編號(hào)H04L12/56GK101986605SQ201010537959
公開日2011年3月16日 申請(qǐng)日期2010年11月4日 優(yōu)先權(quán)日2010年11月4日
發(fā)明者王強(qiáng) 申請(qǐng)人:北京邁朗世訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1