亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用戶行為的聚類方法和系統(tǒng)的制作方法

文檔序號(hào):6512934閱讀:331來(lái)源:國(guó)知局
用戶行為的聚類方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種用戶行為的聚類方法及系統(tǒng)。根據(jù)所述聚類方法,先計(jì)算所獲取的多個(gè)用于表示用戶行為的多維數(shù)據(jù)點(diǎn)之間的距離,并提取所計(jì)算的距離在預(yù)設(shè)的距離范圍內(nèi)的各數(shù)據(jù)點(diǎn);再建立由所提取的各數(shù)據(jù)點(diǎn)為節(jié)點(diǎn)、數(shù)據(jù)點(diǎn)之間的距離為邊的最小生成樹(shù);以及按照所述最小生成樹(shù)中的邊由大到小的排序,并根據(jù)預(yù)設(shè)的條件將各所述邊由大到小進(jìn)行分割,將分割后的由邊相連的各所述節(jié)點(diǎn)組成一種用戶行為的聚類。本發(fā)明在用戶行為的數(shù)據(jù)點(diǎn)之間建立最小生成樹(shù),能夠簡(jiǎn)單、直接的用數(shù)據(jù)點(diǎn)之間的距離反應(yīng)出用戶行為的相似程度,再根據(jù)距離長(zhǎng)短來(lái)劃分用戶行為的聚類,實(shí)現(xiàn)了以低運(yùn)算量、高聚類精度來(lái)得到用戶行為的聚類。
【專利說(shuō)明】用戶行為的聚類方法和系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種聚類方法,特別是涉及一種用戶行為的聚類方法和系統(tǒng)。

【背景技術(shù)】
[0002] 隨著用戶在網(wǎng)絡(luò)上的行為種類越來(lái)越多,技術(shù)人員通過(guò)用戶在網(wǎng)絡(luò)上的各種行為 所留下的數(shù)據(jù)進(jìn)行分析,來(lái)統(tǒng)計(jì)、分析用戶行為。其中,將用戶行為的多維數(shù)據(jù)進(jìn)行聚類是 一種進(jìn)行數(shù)據(jù)統(tǒng)計(jì)、分析用戶行為的手段。
[0003] 目前的聚類方法利用k-means方法來(lái)對(duì)多維數(shù)據(jù)進(jìn)行聚類,這種方式主要適用于 數(shù)據(jù)量不大的應(yīng)用場(chǎng)景,例如,醫(yī)學(xué)影像等專業(yè)領(lǐng)域。而對(duì)于網(wǎng)絡(luò)上的用戶行為的多維數(shù)據(jù) (如幾十個(gè)維度的數(shù)據(jù)),使用現(xiàn)有方式則需要大量的運(yùn)算,使用復(fù)雜度極高。因此,需要特 別針對(duì)用戶行為的聚類方法進(jìn)行改進(jìn)。


【發(fā)明內(nèi)容】

[0004] 鑒于以上所述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種用戶行為的聚類方法 和系統(tǒng),用于解決現(xiàn)有技術(shù)中用戶行為的數(shù)據(jù)的聚類運(yùn)算量過(guò)大、使用不簡(jiǎn)便的問(wèn)題。
[0005] 為實(shí)現(xiàn)上述目的及其他相關(guān)目的,本發(fā)明提供一種用戶行為的聚類方法,其至少 包括:1)計(jì)算所獲取的多個(gè)用于表示用戶行為的多維數(shù)據(jù)點(diǎn)之間的距離,并提取所計(jì)算的 距離在預(yù)設(shè)的距離范圍內(nèi)的各數(shù)據(jù)點(diǎn);2)建立由所提取的各數(shù)據(jù)點(diǎn)為節(jié)點(diǎn)、數(shù)據(jù)點(diǎn)之間的 距離為邊的最小生成樹(shù);3)按照所述最小生成樹(shù)中的邊由大到小的排序,并根據(jù)預(yù)設(shè)的條 件將各所述邊由大到小進(jìn)行分割,將分割后的由邊相連的各所述節(jié)點(diǎn)組成一種用戶行為的 聚類。
[0006] 優(yōu)選地,所述步驟2)還包括:2-1)依次將所提取的每個(gè)數(shù)據(jù)點(diǎn)至所提取的其他數(shù) 據(jù)點(diǎn)之間的距離在預(yù)設(shè)的距離范圍內(nèi)的各數(shù)據(jù)點(diǎn)劃分為一個(gè)超球體,其中,各所述超球體 之間存在部分重疊的數(shù)據(jù)點(diǎn);2-2)建立各所述超球體中的數(shù)據(jù)點(diǎn)的最小生成子樹(shù),將各所 述最小生成子樹(shù)連接起來(lái),以構(gòu)成最小生成樹(shù)。
[0007] 優(yōu)選地,在執(zhí)行步驟3)之前,所述聚類方法還執(zhí)行步驟4):至少一次的將所述最 小生成樹(shù)中只有一條邊的數(shù)據(jù)點(diǎn)予以刪減。
[0008] 優(yōu)選地,所述步驟3 )還包括:利用公¥

【權(quán)利要求】
1. 一種用戶行為的聚類方法,其特征在于,至少包括: 1) 計(jì)算所獲取的多個(gè)用于表示用戶行為的多維數(shù)據(jù)點(diǎn)之間的距離,并提取所計(jì)算的距 離在預(yù)設(shè)的距離范圍內(nèi)的各數(shù)據(jù)點(diǎn); 2) 建立由所提取的各數(shù)據(jù)點(diǎn)為節(jié)點(diǎn)、數(shù)據(jù)點(diǎn)之間的距離為邊的最小生成樹(shù); 3) 按照所述最小生成樹(shù)中的邊由大到小的排序,并根據(jù)預(yù)設(shè)的條件將各所述邊由大到 小進(jìn)行分割,將分割后的由邊相連的各所述節(jié)點(diǎn)組成一種用戶行為的聚類。
2. 根據(jù)權(quán)利要求1所述的用戶行為的聚類方法,其特征在于,所述步驟2)還包括: 2-1)依次將所提取的每個(gè)數(shù)據(jù)點(diǎn)至所提取的其他數(shù)據(jù)點(diǎn)之間的距離在預(yù)設(shè)的距離范 圍內(nèi)的各數(shù)據(jù)點(diǎn)劃分為一個(gè)超球體,其中,各所述超球體之間存在部分重疊的數(shù)據(jù)點(diǎn); 2-2)建立各所述超球體中的數(shù)據(jù)點(diǎn)的最小生成子樹(shù),將各所述最小生成子樹(shù)連接起 來(lái),以構(gòu)成最小生成樹(shù)。
3. 根據(jù)權(quán)利要求1所述的用戶行為的聚類方法,其特征在于,在執(zhí)行步驟3)之前,所述 聚類方法還執(zhí)行步驟4):至少一次的將所述最小生成樹(shù)中只有一條邊的數(shù)據(jù)點(diǎn)予以刪減。
4. 根據(jù)權(quán)利要求1或3所述的用戶行為的聚類方法,其特征在于,所述步驟3)還包括: 利用公式
來(lái)確定每條邊兩端的節(jié)點(diǎn)之間 的距離因數(shù),其中,m、η為一條邊兩端的節(jié)點(diǎn),cut(m,η)為節(jié)點(diǎn)m和節(jié)點(diǎn)η之間的距離,Am、An分別為在所述最小生成樹(shù)上從所述節(jié)點(diǎn)m/節(jié)點(diǎn)η延伸至預(yù)設(shè)數(shù)量范圍內(nèi)、距離最小的各 節(jié)點(diǎn)的集合,其中,集合Am中不包含節(jié)點(diǎn)η,集合An中不包含節(jié)點(diǎn)m,assoc(Am)和assoc(An) 分別集合A1^An中各節(jié)點(diǎn)之間的最小距離之和; 按照各節(jié)點(diǎn)之間的距離因數(shù)Mcut(m,η)由大到小的排序,根據(jù)預(yù)設(shè)的條件將各所述 距離因數(shù)所對(duì)應(yīng)的邊進(jìn)行分割,將分割后的由邊相連的各所述節(jié)點(diǎn)組成一種用戶行為的聚 類。
5. -種用戶行為的聚類系統(tǒng),其特征在于,至少包括: 提取模塊,用于計(jì)算所獲取的多個(gè)用于表示用戶行為的多維數(shù)據(jù)點(diǎn)之間的距離,并提 取所計(jì)算的距離在預(yù)設(shè)的距離范圍內(nèi)的各數(shù)據(jù)點(diǎn); 最小生成樹(shù)生成模塊,用于建立由所提取的各數(shù)據(jù)點(diǎn)為節(jié)點(diǎn)、數(shù)據(jù)點(diǎn)之間的距離為邊 的最小生成樹(shù); 聚類確定模塊,用于按照所述最小生成樹(shù)中的邊由大到小的排序,并根據(jù)預(yù)設(shè)的條件 將各所述邊由大到小進(jìn)行分割,將分割后的由邊相連的各所述節(jié)點(diǎn)組成一種用戶行為的聚 類。
6. 根據(jù)權(quán)利要求5所述的用戶行為的聚類系統(tǒng),其特征在于,所述最小生成樹(shù)生成模 塊包括: 超球體劃分單元,用于依次將所提取的每個(gè)數(shù)據(jù)點(diǎn)至所提取的其他數(shù)據(jù)點(diǎn)之間的距離 在預(yù)設(shè)的距離范圍內(nèi)的各數(shù)據(jù)點(diǎn)劃分為一個(gè)超球體,其中,各所述超球體之間存在部分重 疊的數(shù)據(jù)點(diǎn); 最小生成樹(shù)生成單元,用于建立各所述超球體中的數(shù)據(jù)點(diǎn)的最小生成子樹(shù),將各所述 最小生成子樹(shù)連接起來(lái),以構(gòu)成最小生成樹(shù)。
7. 根據(jù)權(quán)利要求5所述的用戶行為的聚類系統(tǒng),其特征在于,所述最小生成樹(shù)生成模 塊還包括:刪減模塊,用于至少一次的將所述最小生成樹(shù)中只有一條邊的數(shù)據(jù)點(diǎn)予以刪減。
8. 根據(jù)權(quán)利要求5或7所述的用戶行為的聚類系統(tǒng),其特征在于,所述聚類確定模塊包 括: 距離因數(shù)計(jì)算單元,用于利用公式
宋確定 每條邊兩端的節(jié)點(diǎn)之間的距離因數(shù),其中,m、n為一條邊兩端的節(jié)點(diǎn),cut(m,η)為節(jié)點(diǎn)m和 節(jié)點(diǎn)η之間的距離,Am、An分別為在所述最小生成樹(shù)上從所述節(jié)點(diǎn)m/節(jié)點(diǎn)η延伸至預(yù)設(shè)數(shù) 量范圍內(nèi)、距離最小的各節(jié)點(diǎn)的集合,其中,集合Am中不包含節(jié)點(diǎn)η,集合An中不包含節(jié)點(diǎn) m,assoc(Am)和assoc(An)分別集合八…An中各節(jié)點(diǎn)之間的最小距離之和; 聚類確定單元,用于按照各節(jié)點(diǎn)之間的距離因數(shù)Mcut(m,η)由大到小的排序,根據(jù)預(yù) 設(shè)的條件將各所述距離因數(shù)所對(duì)應(yīng)的邊進(jìn)行分割,將分割后的由邊相連的各所述節(jié)點(diǎn)組成 一種用戶行為的聚類。
【文檔編號(hào)】G06F17/30GK104462139SQ201310438913
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2013年9月24日 優(yōu)先權(quán)日:2013年9月24日
【發(fā)明者】范志剛, 許春玲, 李明齊 申請(qǐng)人:中國(guó)科學(xué)院上海高等研究院
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1