網(wǎng)絡(luò)用戶行為聚類方法、裝置及終端的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)大數(shù)據(jù)分析領(lǐng)域,尤其涉及一種網(wǎng)絡(luò)用戶行為聚類方法、裝置 及終端。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的普及以及移動互聯(lián)網(wǎng)的快速發(fā)展,用戶訪問網(wǎng)站和廣告平臺累計產(chǎn) 生的上網(wǎng)數(shù)據(jù)量非常大,在網(wǎng)站和廣告平臺每天可以達到百億級的用戶瀏覽記錄。在互聯(lián) 網(wǎng)領(lǐng)域,由于個性化營銷的需要,需要將用戶劃分成多個不同的集合,并對每個集合的用戶 針對性地采用不同的營銷策略,以提高營銷的效果。網(wǎng)站的經(jīng)營者需要深入的理解或分析 用戶,并根據(jù)不同類型用戶對網(wǎng)站的使用情況,相應(yīng)地設(shè)計改進方案。因此,網(wǎng)站的精細化 運營需要對用戶類型進行劃分,并得到每個集合的統(tǒng)計特征。
[0003] 現(xiàn)有技術(shù)中,用戶類型的劃分采用人工分類的方式,根據(jù)經(jīng)驗制定一些劃分的依 據(jù)。例如,從用戶對網(wǎng)站的訪問頻次和花費金額上,可以劃分為高頻訪問用戶、輕度訪問用 戶、高花費用戶、微花費用戶等;針對網(wǎng)站和平臺的個性化營銷活動,可以根據(jù)最近一周的 用戶記錄,把訪問過購物車網(wǎng)頁的用戶劃分為高轉(zhuǎn)化概率用戶,把訪問過商品詳情頁卻沒 有訪問過購物車網(wǎng)頁的用戶劃分為低轉(zhuǎn)化概率用戶。
[0004] 但是,人工劃分網(wǎng)絡(luò)用戶類型受限于人的知識范圍,且用戶的網(wǎng)絡(luò)行為復(fù)雜,現(xiàn)有 的劃分網(wǎng)絡(luò)用戶的方法不能全面覆蓋用戶的各種網(wǎng)絡(luò)行為,降低了網(wǎng)絡(luò)用戶劃分的準確 性。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明解決的技術(shù)問題是如何提高網(wǎng)絡(luò)用戶行為聚類的精準性。
[0006] 為解決上述技術(shù)問題,本發(fā)明實施例提供一種網(wǎng)絡(luò)用戶行為聚類方法,網(wǎng)絡(luò)用戶 行為聚類方法包括:
[0007] 根據(jù)預(yù)設(shè)的集合數(shù)目進行集合中心點的初始化;
[0008] 對所有用戶進行采樣以得到采樣用戶,根據(jù)所述采樣用戶與各個集合中心點的距 離,將所述采樣用戶分配到所述集合中心點對應(yīng)的集合,并根據(jù)分配的結(jié)果更新所述集合 中心點;
[0009] 迭代所述采樣、分配和更新所述集合中心點的過程,直至進入收斂狀態(tài);
[0010] 在迭代進入收斂狀態(tài)后,根據(jù)所有用戶與各個集合中心點的距離,進行所述所有 用戶的分配。
[0011] 可選的,根據(jù)所述預(yù)設(shè)的集合數(shù)目進行所述集合中心點的初始化包括:
[0012] 確定預(yù)設(shè)集合中心點,所述預(yù)設(shè)集合中心點的數(shù)量小于所述預(yù)設(shè)的集合數(shù)目;
[0013] 隨機選擇設(shè)定數(shù)量的用戶,計算選定用戶與所述預(yù)設(shè)集合中心點的距離;
[0014] 選取所述距離最大的用戶作為未知的集合中心點;
[0015] 迭代所述隨機選擇、計算和選取的過程,直至所述預(yù)設(shè)集合中心點和未知的集合 中心點的數(shù)目之和達到所述預(yù)設(shè)的集合數(shù)目。
[0016] 可選的,將所述采樣用戶分配到所述集合中心點對應(yīng)的集合包括:所述采樣用戶 與所述集合中心點之間的距離最小時,將所述采樣用戶分配到所述集合中心點對應(yīng)的集 合。
[0017] 可選的,根據(jù)分配的結(jié)果更新所述集合中心點還包括:計算所述采樣用戶與所述 集合中心點以外的其他所述集合中心點的距離;選取所述距離最大的所述采樣用戶作為所 述集合中心點,直至進入收斂狀態(tài)。
[0018] 可選的,將所述采樣用戶分配到所述集合中心點對應(yīng)的集合還包括:對分配的結(jié) 果進行均衡性處理,以使所有集合內(nèi)的所述采樣用戶的數(shù)量大于第二設(shè)定值。
[0019] 可選的,進行所述所有用戶的分配后,還包括:對分配的結(jié)果進行均衡性處理,以 使所有集合內(nèi)的所述用戶的數(shù)量大于第二設(shè)定值。
[0020] 可選的,所述距離為馬氏距離。
[0021] 為解決上述技術(shù)問題,本發(fā)明實施例還公開了一種網(wǎng)絡(luò)用戶行為聚類裝置,網(wǎng)絡(luò) 用戶行為聚類裝置包括:
[0022] 初始單元,根據(jù)預(yù)設(shè)的集合數(shù)目進行集合中心點的初始化;
[0023]更新單元,對所有用戶進行采樣以得到采樣用戶,根據(jù)所述采樣用戶與各個集合 中心點的距離,將所述采樣用戶分配到所述集合中心點對應(yīng)的集合,并根據(jù)分配的結(jié)果更 新所述集合中心點;
[0024] 迭代更新單元,控制所述更新單元迭代所述采樣、分配和更新所述集合中心點的 過程,直至進入收斂狀態(tài);
[0025] 分配單元,在迭代進入收斂狀態(tài)后,根據(jù)所有用戶與各個集合中心點的距離,進行 所述所有用戶的分配。
[0026]可選的,所述初始單元包括:
[0027] 初始子單元,確定預(yù)設(shè)集合中心點,所述預(yù)設(shè)集合中心點的數(shù)量小于所述預(yù)設(shè)的 集合數(shù)目;
[0028] 初始計算單元,隨機選擇設(shè)定數(shù)量的用戶,計算選定用戶與所述預(yù)設(shè)集合中心點 的距離;
[0029 ]初始判定單元,選取所述距離最大的用戶作為未知的集合中心點;
[0030] 初始迭代單元,控制所述初始計算單元和所述初始判定單元迭代所述隨機選擇、 計算和選取的過程,直至所述預(yù)設(shè)集合中心點和未知的集合中心點的數(shù)目之和達到所述預(yù) 設(shè)的集合數(shù)目。
[0031] 可選的,所述更新單元包括:采樣分配單元,所述采樣用戶與所述集合中心點之間 的距離最小時,將所述采樣用戶分配到所述集合中心點對應(yīng)的集合。
[0032] 可選的,所述迭代更新單元計算所述采樣用戶與所述集合中心點以外的其他所述 集合中心點的距離;選取所述距離最大的所述采樣用戶作為所述集合中心點,直至進入收 斂狀態(tài)。
[0033] 可選的,所述更新單元還包括:均衡處理單元,對分配的結(jié)果進行均衡性處理,以 使所有集合內(nèi)的所述采樣用戶的數(shù)量大于第二設(shè)定值。
[0034] 可選的,所述網(wǎng)絡(luò)用戶行為聚類裝置還包括:分配均衡處理單元,對分配的結(jié)果進 行均衡性處理,以使所有集合內(nèi)的所述用戶的數(shù)量大于第二設(shè)定值。
[0035] 可選的,所述距離為馬氏距離。
[0036] 為解決上述技術(shù)問題,本發(fā)明實施例還公開了一種終端,終端包括所述網(wǎng)絡(luò)用戶 行為聚類裝置。
[0037] 與現(xiàn)有技術(shù)相比,本發(fā)明實施例的技術(shù)方案具有以下有益效果:
[0038]本發(fā)明實施例根據(jù)預(yù)設(shè)的集合數(shù)目進行集合中心點的初始化,確定所有的集合中 心點的位置;對所有用戶進行采樣以得到采樣用戶,根據(jù)所述采樣用戶與各個集合中心點 的距離,將所述采樣用戶分配到所述集合中心點對應(yīng)的集合,并根據(jù)分配的結(jié)果更新所述 集合中心點,通過對用戶采樣并用于更新集合中心點,減小了聚合過程的計算量,提高了聚 合效率;迭代所述采樣、分配和更新所述集合中心點的過程,直至進入收斂狀態(tài),在迭代進 入收斂狀態(tài)后,根據(jù)所有用戶與各個集合中心點的距離,進行所述所有用戶的分配,通過迭 代運算得到精準的集合中心點的位置,然后根據(jù)距離大小進行分配,提高了用戶網(wǎng)絡(luò)用戶 行為聚類結(jié)果的精準性。
[0039]進一步,所述距離為馬氏距離,在計算馬氏距離的過程中,將用戶網(wǎng)絡(luò)行為的各個 特征維度之間的相關(guān)性考慮進去,從而使得用戶與集合中心點的距離更加準確,進一步提 高了用戶網(wǎng)絡(luò)用戶行為聚類結(jié)果的精準性。
【附圖說明】
[0040] 圖1是本發(fā)明實施例一種網(wǎng)絡(luò)用戶行為聚類方法的流程圖;
[0041] 圖2是本發(fā)明實施例另一種網(wǎng)絡(luò)用戶行為聚類方法的流程圖;
[0042] 圖3是本發(fā)明實施例一種網(wǎng)絡(luò)用戶行為聚類裝置的結(jié)構(gòu)示意圖;
[0043] 圖4是本發(fā)明實施例另一種網(wǎng)絡(luò)用戶行為聚類的結(jié)構(gòu)示意圖。
【具體實施方式】
[0044] 如【背景技術(shù)】中所述,人工劃分網(wǎng)絡(luò)用戶類型受限于人的知識范圍,且用戶的網(wǎng)絡(luò) 行為復(fù)雜,現(xiàn)有的劃分網(wǎng)絡(luò)用戶的方法不能全面覆蓋用戶的各種網(wǎng)絡(luò)行為,降低了網(wǎng)絡(luò)用 戶劃分的準確性。
[0045] 用戶行為聚類是將互聯(lián)網(wǎng)用戶的網(wǎng)上行為聚合成多個相似的集合。聚合的依據(jù)是 用戶訪問的站點、經(jīng)常上網(wǎng)的時間段、用戶地域、使用的設(shè)備等多種維度。在不同的應(yīng)用場 景下,或者數(shù)據(jù)來源不同時,聚類使用的維度會有不同。相對于人工分類的方式,用戶行為 聚類可以自動地進行用戶劃分。與人工的按規(guī)則切分相比,自動聚類的方法考慮的因素更 全面,可以得到更精細的用戶集合。
[0046] 本發(fā)明實施例通過迭代運算得到精準的集合中心點的位置,然后根據(jù)距離大小進 行分配,提高了用戶網(wǎng)絡(luò)用戶行為聚類結(jié)果的精準性