亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種跨域用戶關(guān)聯(lián)方法及信息推送方法

文檔序號(hào):9235475閱讀:384來(lái)源:國(guó)知局
一種跨域用戶關(guān)聯(lián)方法及信息推送方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種基于Cookie聚類分析的跨域用戶關(guān)聯(lián)方法及信息推送方法,屬 于互聯(lián)網(wǎng)用戶行為關(guān)聯(lián)分析領(lǐng)域。
【背景技術(shù)】
[0002] 一般情況下,網(wǎng)站或者廣告聯(lián)盟都會(huì)非常想要一種技術(shù)方式可W在網(wǎng)絡(luò)上精確定 位到每一個(gè)個(gè)體,該樣可W通過(guò)收集該些個(gè)體的數(shù)據(jù),通過(guò)分析后更加精準(zhǔn)的去推送廣告 信息或其他有針對(duì)性的一些活動(dòng)。Cookie技術(shù)是非常受歡迎的一種。當(dāng)用戶訪問(wèn)一個(gè)網(wǎng)站 時(shí),網(wǎng)站可W在用戶當(dāng)前的瀏覽器Cookie中永久植入一個(gè)含有唯一標(biāo)識(shí)符扣UID)的信息, 并通過(guò)該個(gè)信息將用戶所有行為(瀏覽了哪些頁(yè)面?捜索了哪些關(guān)鍵字?對(duì)什么感興趣? 點(diǎn)了哪些按鈕?用了哪些功能?看了哪些商品?把哪些放入了購(gòu)物車等等)關(guān)聯(lián)起來(lái)。
[0003] 用戶唯一標(biāo)識(shí)體系
[0004] 在互聯(lián)網(wǎng)中,我們有著許多標(biāo)識(shí)唯一用戶的技術(shù)手段,其中,最為常見(jiàn)的就是 Cookie 了。簡(jiǎn)單的多,Cookie具備幾個(gè)特征;
[0005] >唯一性,一個(gè)Cookie是唯一存在于一個(gè)域名下的;
[0006] >歸屬權(quán),一個(gè)Cookie必須屬于某一個(gè)域名,且相互不能訪問(wèn)使用;
[0007] >持久性,一個(gè)Cookie可W持久的存在于一個(gè)瀏覽器中。
[000引 正因?yàn)镃ookie具備上述幾個(gè)特征,也就衍生出Cookie在使用上的一些特點(diǎn)了,我 們W A. COM(購(gòu)物平臺(tái)),B. COM(游戲平臺(tái)),C. COM(數(shù)據(jù)管理平臺(tái))為例,存在W下結(jié)論:
[0009] > A. COM, B. COM, C. COM都存在各自的用戶標(biāo)識(shí)體系(各自定義的唯一 ID標(biāo)識(shí));
[0010] >用戶化er在上述S個(gè)產(chǎn)品的ID分別是al,bl,cl,且相互不能訪問(wèn)使用。 [ocm] > A. COM,B. COM, C. COM都可W唯一的標(biāo)識(shí)出用戶User,但并不能相互讀取標(biāo)識(shí)信 [001引 息。
[0013] 共享用戶特征
[0014] 由于業(yè)務(wù)的需要,A. COM, B. COM, C. COM均有不同的業(yè)務(wù);
[0015] >廣告主使用A. COM進(jìn)行廣告投放,并且用戶化er點(diǎn)擊了游戲廣告;
[0016] >用戶化er主動(dòng)使用了 C. COM提供的瀏覽器購(gòu)物比價(jià)插件服務(wù);
[0017] >用戶化er點(diǎn)擊過(guò)位于交易平臺(tái)B. COM上的職業(yè)學(xué)習(xí)、求職類廣告;
[0018] 存在該種情況,A. COM識(shí)別出了化er喜歡玩游戲特征,C. COM識(shí)別出了化er是男 性用戶,B. COM識(shí)別出了化er是個(gè)年輕人。此時(shí)由于A,B,CS方的數(shù)據(jù)并不共享,因此對(duì)于 業(yè)務(wù)人員而言,僅知道al喜歡玩游戲,bl是年輕人,cl是男性用戶。并不能直接知道化er 是個(gè)喜愛(ài)玩游戲的年輕男性。
[0019] 廣告系統(tǒng)的目標(biāo)是要能夠識(shí)別用戶化er玩游戲的時(shí)候給他進(jìn)行產(chǎn)品的推薦,此 時(shí)產(chǎn)品的推薦依賴于用戶曾經(jīng)在C. COM, B. COM上購(gòu)買過(guò)產(chǎn)品或?yàn)g覽過(guò)一些信息。最終目標(biāo) 將不同業(yè)務(wù)體系中的用戶特征合并綁到同一個(gè)用戶上來(lái),然而現(xiàn)有方法無(wú)法將不同業(yè)務(wù)體 系中的用戶特征合并綁到同一個(gè)用戶上來(lái)。

【發(fā)明內(nèi)容】

[0020] 針對(duì)現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題,本發(fā)明的目的在于提供一種基于Cookie聚類 分析的跨域用戶關(guān)聯(lián)方法及信息推送方法。本發(fā)明利用用戶時(shí)序行為和第S方Cookie 對(duì)不同域名用戶進(jìn)行聚類關(guān)聯(lián),專利在聚類過(guò)程中采用了 次加法聚類、=次減法排除" 的方法。首先在時(shí)間窗口內(nèi)對(duì)用戶一次訪問(wèn)進(jìn)行聚類,在聚類過(guò)程中通過(guò)FixCookie進(jìn) 行排除,然后利用FixCookie進(jìn)行第二次聚類,最后利用An廠Cookie進(jìn)行S次聚類,用 FixCookie進(jìn)行排除。專利聚類方法不依賴任何第S方設(shè)備或程序?qū)Σ煌蛎碌腃ookie 做Mapping映射(物理或程序),而是對(duì)網(wǎng)絡(luò)中HTTP包進(jìn)行聚類分析,算法準(zhǔn)確率高,聚類 效果好。
[0021] 本發(fā)明的技術(shù)方案為:
[0022] 一種跨域用戶關(guān)聯(lián)方法,其步驟為:
[0023] 1)捜索域名的 FixCookie,建立一 FixCookie 列表;
[0024] 。從網(wǎng)絡(luò)中收集HTTP包,并按照設(shè)定的時(shí)間窗口對(duì)采集的HTTP包進(jìn)行劃分;其 中,該時(shí)間窗口為劃分用戶訪問(wèn)關(guān)聯(lián)第S方的界限;
[0025] 3)對(duì)每一時(shí)間窗口內(nèi)的HTTP包,根據(jù)FixCookie列表采用用戶時(shí)序聚類分析器進(jìn) 行聚類,將同一用戶的一次請(qǐng)求聚在一起,得到多個(gè)用戶組集合;然后將各個(gè)時(shí)間窗口內(nèi)相 同用戶的用戶組集合合并為一個(gè)用戶組集合;
[0026] 4)采用FixCookie聚類分析器對(duì)采集的HTTP包進(jìn)行聚類,將主機(jī)名相同且 cookie名、cookie值相同的HTTP包聚為一組,如果同一組內(nèi)的HTTP包位于步驟3)合并后 不同的用戶組集合內(nèi),則再將對(duì)應(yīng)的用戶組集合合并為一個(gè)用戶組集合;
[0027] 5)采用anyCookie聚類分析器對(duì)采集的HTTP包進(jìn)行聚類,將主機(jī)名、cookie名、 cookie值相同且不存在fixCookie沖突的HTTP包聚為一組,如果同一組內(nèi)的HTTP包位于 步驟4)合并后不同的用戶組集合內(nèi),則再將對(duì)應(yīng)的用戶組集合合并為一個(gè)用戶組集合; [002引 6)將位于步驟5)中同一用戶組集合內(nèi)的用戶判定為不同域中的同一用戶。
[0029] 進(jìn)一步的,所述不存在fixCookie沖突的HTTP包為具有相同主機(jī)名、都含有相同 的cookie屬性,且cookie_name相等但cookie_value不相等。
[0030] 進(jìn)一步的,所述步驟2)中,首先對(duì)從網(wǎng)絡(luò)中收集HTTP包進(jìn)行預(yù)處理,然后對(duì)采集 的HTTP包進(jìn)行劃分;其中預(yù)處理方法為;
[003U 31)對(duì)收集的HTTP包進(jìn)行過(guò)濾,去掉無(wú)Cookie的HTTP包和無(wú)瀏覽器標(biāo)識(shí)UA的 HTTP 包;
[0032] 32)將過(guò)濾后的HTTP包規(guī)整為鍵值對(duì)格式,然后按時(shí)間對(duì)進(jìn)行排序;
[0033] 33)將排序后的HTTP數(shù)據(jù)轉(zhuǎn)化為JS0N格式形式存儲(chǔ)。
[0034] 進(jìn)一步的,所述HTTP包信息包括;用戶IP、出口 IP、端口號(hào)、主機(jī)、路徑、時(shí)間、瀏覽 器柄識(shí)UA、引用和Cookie。
[0035] 一種信息推送方法,其步驟為:
[0036] 1)捜索域名的 FixCookie,建立一 FixCookie 列表;
[0037]。從網(wǎng)絡(luò)中收集HTTP包,并按照設(shè)定的時(shí)間窗口對(duì)采集的HTTP包進(jìn)行劃分;其 中,該時(shí)間窗口為劃分用戶訪問(wèn)關(guān)聯(lián)第s方的界限;
[003引 3)對(duì)每一時(shí)間窗口內(nèi)的HTTP包,根據(jù)FixCookie列表采用用戶時(shí)序聚類分析器進(jìn) 行聚類,將同一用戶的一次請(qǐng)求聚在一起,得到多個(gè)用戶組集合;然后將各個(gè)時(shí)間窗口內(nèi)相 同用戶的用戶組集合合并為一個(gè)用戶組集合;
[0039] 4)采用FixCookie聚類分析器對(duì)采集的HTTP包進(jìn)行聚類,將主機(jī)名相同且 cookie名、cookie值相同的HTTP包聚為一組,如果同一組內(nèi)的HTTP包位于步驟3)合并后 不同的用戶組集合內(nèi),則將對(duì)應(yīng)的用戶組集合合并為一個(gè)用戶組集合;
[0040] 5)采用anyCookie聚類分析器對(duì)采集的HTTP包進(jìn)行聚類,將主機(jī)名、cookie名、 cookie值相同且不存在fixCookie沖突的HTTP包聚為一組,如果同一組內(nèi)的HTTP包位于 步驟4)合并后不同的用戶組集合內(nèi),則將對(duì)應(yīng)的用戶組集合合并為一個(gè)用戶組集合;
[0041] 6)將位于步驟5)中同一用戶組集合內(nèi)的用戶判定為不同域中的同一用戶;
[0042] 7)根據(jù)步驟6)的結(jié)果提取同一用戶在不同域中的特征信息,向具有相同特征的 用戶發(fā)送設(shè)定信息。
[0043] 進(jìn)一步的,所述不存在fixCookie沖突的HTTP包為具有相同主機(jī)名、都含有相同 的 cookie 屬性,且 cookie_name 相等但 cookie_value 不相等。
[0044] 進(jìn)一步的,所述步驟2)中,首先對(duì)從網(wǎng)絡(luò)中收集HTTP包進(jìn)行預(yù)處理,然后對(duì)采集 的HTTP包進(jìn)行劃分;其中預(yù)處理方法為:
[0045] 34)對(duì)收集的HTTP包進(jìn)行過(guò)濾,去掉無(wú)Cookie的HTTP包和無(wú)瀏覽器標(biāo)識(shí)UA的 HTTP 包;
[0046] 35)將過(guò)濾后的HTTP包規(guī)整為鍵值對(duì)格式,然后按時(shí)間對(duì)進(jìn)行排序;
[0047] 36)將排序后的HTTP數(shù)據(jù)轉(zhuǎn)化為JS0N格式形式存儲(chǔ)。
[0048] 本方法首先對(duì)局域網(wǎng)中用戶HTTP包數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、HTTP包排 序、HTTP包轉(zhuǎn)換為JS0N格式數(shù)據(jù),接下來(lái)對(duì)JS0N格式數(shù)據(jù)進(jìn)行聚類分析,聚類分析過(guò)程包 括S部分;基于用戶時(shí)序聚類、基于FixCookie聚類和基于An廠Cookie聚類,經(jīng)S個(gè)聚類器 處理后就可將屬于同一個(gè)用戶的不同網(wǎng)站的HTTP包關(guān)聯(lián)到一個(gè)用戶,從而實(shí)現(xiàn)了用戶跨 域追蹤。
[0049] 與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:
[0050] 本發(fā)明的用戶時(shí)序行為關(guān)聯(lián)聚類算法整體效果較好,能夠保持準(zhǔn)確率在80%,平 均覆蓋率在42 %。能夠?qū)⒉煌瑯I(yè)務(wù)數(shù)據(jù)關(guān)聯(lián)到同一個(gè)用戶,進(jìn)而進(jìn)行推薦,算法具有準(zhǔn)確率 高,聚類效果好等優(yōu)點(diǎn)。
【附圖說(shuō)明】
[0化1] 圖1為本發(fā)明的總體流程圖;
[0化2] 圖2為用戶時(shí)序關(guān)聯(lián)算法流程圖;
[0化3] 圖3為基于FixCookie聚類算法流程圖;
[0化4] 圖4為基于AnyCookie聚類算法流程圖。
【具體實(shí)施方式】
[0化5] 本發(fā)明的方法總體流程圖如圖1所示。下面結(jié)合附圖對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)描 述。
[0化6] 1.用戶HTTP包數(shù)據(jù)說(shuō)明及預(yù)處理
[0057] 本發(fā)明首先要收集網(wǎng)站HTTP包(比如在局域網(wǎng)對(duì)外出口路由器上部署了一套抓 包代碼,對(duì)局域網(wǎng)中所有HTTP包進(jìn)行收集);然后將收集的HTTP包W文件形式存儲(chǔ)為一個(gè) 文件,放在一起處理;用戶HTTP包包含許多重要的信息,例如UA,HR邸,COOKIE, TIME等,該 些信息可W用作算法聚類的準(zhǔn)則,同時(shí)為了提高聚類算法的準(zhǔn)確性,人工標(biāo)記了一些第= 方訪問(wèn)W及一些Domain不變的FixCookie,該些數(shù)據(jù)大大提高了聚類算法準(zhǔn)確度。
[005引1) HTTP包信息
[0059] 用戶HTTP包信息包括用戶IP扣serip)、出口 IP(Sourcelp),端口號(hào)任oi~t),主 機(jī)(Host),路徑任ath),時(shí)間(UnixTime),瀏覽器標(biāo)識(shí)(UA),引用巧eferer),Cookie等 屬性。通常一個(gè)網(wǎng)站會(huì)有多個(gè)cookie, Fixcookie是那些長(zhǎng)期不變的、被用來(lái)標(biāo)識(shí)用戶的 cookie。一 個(gè) cookie -般由 cookie_name (cookie 名)和 cookie_value (cookie 值)組 成,如 <SGUID = 1355294586548_97680443,的 cookie_name 為 SGUID,cookie_value 為 1355294586548_97680443。
[0060] 其描述及示例值如表1所示:
[0061] 表1用戶HTTP包屬
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1