亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于用戶興趣的聚類方法和裝置制造方法

文檔序號:6501956閱讀:196來源:國知局
基于用戶興趣的聚類方法和裝置制造方法
【專利摘要】本發(fā)明適用于互聯(lián)網(wǎng)領(lǐng)域,提供了一種基于用戶興趣的聚類方法和裝置,該方法包括:接收用戶的基礎(chǔ)屬性的數(shù)據(jù);根據(jù)預(yù)先確定的影響用戶興趣計算的基礎(chǔ)屬性數(shù)據(jù)的聚類的中心點(diǎn),計算所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類的中心點(diǎn)的距離;將所述距離與預(yù)設(shè)的閾值進(jìn)行比較;如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚類。本發(fā)明實施例可以從注冊的用戶的數(shù)據(jù)中直接獲取基礎(chǔ)屬性數(shù)據(jù),在用戶沒有瀏覽操作的行為數(shù)據(jù)前就可以根據(jù)注冊信息得到的興趣聚類進(jìn)行相應(yīng)內(nèi)容的推薦,能夠?qū)π伦杂脩暨M(jìn)行推薦的同時,也能提高推薦的準(zhǔn)確度。
【專利說明】基于用戶興趣的聚類方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于互聯(lián)網(wǎng)領(lǐng)域,尤其涉及基于用戶興趣的聚類方法和裝置。

【背景技術(shù)】
[0002] 基于用戶興趣的聚類方法目前廣泛應(yīng)用于網(wǎng)頁內(nèi)容的推薦或廣告內(nèi)容的推薦,使 用戶快速找到符合自己興趣的網(wǎng)頁內(nèi)容或者查看到感興趣的商品。
[0003] 在完成對用戶興趣聚類前,需要對用戶興趣進(jìn)行查找和統(tǒng)計,現(xiàn)有的查找用戶興 趣的方法,一般是通過統(tǒng)計用戶的各種網(wǎng)頁操作數(shù)據(jù),如網(wǎng)頁的打開次數(shù)、搜索的產(chǎn)品內(nèi)容 信息和購買的產(chǎn)品的種類信息,然后根據(jù)統(tǒng)計的數(shù)據(jù)轉(zhuǎn)化為用戶興趣的相應(yīng)的權(quán)重值。
[0004] 采用這種興趣統(tǒng)計方法進(jìn)行用戶聚類,由于只考慮了用戶的網(wǎng)頁行為數(shù)據(jù),如果 用戶沒有產(chǎn)生行為數(shù)據(jù),則不能確定用戶興趣值,不能對新用戶完成聚類操作,不能準(zhǔn)確的 推薦相關(guān)內(nèi)容。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明實施例的目的在于提供一種基于用戶興趣的聚類方法,以解決現(xiàn)有技術(shù)在 用戶沒有產(chǎn)生行為數(shù)據(jù)時不能確定用戶興趣值,無法對新用戶完成聚類操作的問題,以提 高給用戶推薦內(nèi)容的準(zhǔn)確度。
[0006] 本發(fā)明實施例是這樣實現(xiàn)的,一種基于用戶興趣的聚類方法,所述方法包括下述 步驟:
[0007] 接收用戶的基礎(chǔ)屬性的數(shù)據(jù);
[0008] 根據(jù)預(yù)先確定的影響用戶興趣計算的基礎(chǔ)屬性數(shù)據(jù)的聚類的中心點(diǎn),計算所述用 戶的基礎(chǔ)屬性數(shù)據(jù)與聚類的中心點(diǎn)的距離;
[0009] 將所述距離與預(yù)設(shè)的閾值進(jìn)行比較;
[0010] 如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚類。
[0011] 本發(fā)明實施例的另一目的在于提供一種基于用戶興趣的聚類裝置,所述裝置包 括:
[0012] 第一接收單元,用于接收用戶的基礎(chǔ)屬性的數(shù)據(jù);
[0013] 第一計算單元,用于根據(jù)預(yù)先確定的影響用戶興趣計算的基礎(chǔ)屬性數(shù)據(jù)的聚類的 中心點(diǎn),計算所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類的中心點(diǎn)的距離;
[0014] 比較單元,用于將所述距離與預(yù)設(shè)的閾值進(jìn)行比較;
[0015] 判定單元,用于如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚 類。
[0016] 在本發(fā)明實施例中,根據(jù)接收到的用戶的基礎(chǔ)屬性數(shù)據(jù)和預(yù)先確定的影響用戶興 趣計算的基礎(chǔ)屬性數(shù)據(jù)的聚類的中心點(diǎn),計算得到所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類的中心 點(diǎn)的距離,將所述距離與預(yù)設(shè)的閥值比較,如果所計算的距離小于預(yù)設(shè)的閥值,則認(rèn)為當(dāng)前 計算的用戶屬于當(dāng)前興趣的聚類。由于本發(fā)明實施例可以從注冊的用戶的數(shù)據(jù)中直接獲取 基礎(chǔ)屬性數(shù)據(jù),在用戶沒有瀏覽操作的行為數(shù)據(jù)前就可以根據(jù)注冊信息得到的興趣聚類進(jìn) 行相應(yīng)內(nèi)容的推薦,能夠?qū)π伦杂脩暨M(jìn)行推薦的同時,也能提高推薦的準(zhǔn)確度。

【專利附圖】

【附圖說明】
[0017] 圖1是本發(fā)明第一實施例提供的基于用戶興趣的聚類方法的實現(xiàn)流程圖;
[0018] 圖2是本發(fā)明第二實施例提供的基于用戶興趣的聚類方法的實現(xiàn)流程圖;
[0019] 圖3是本發(fā)明第三實施例提供的基于用戶興趣的聚類裝置的結(jié)構(gòu)框圖。

【具體實施方式】
[0020] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實施例,對 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0021] 本發(fā)明實施例中所述興趣,是指用戶對某類產(chǎn)品或者某種行為的喜愛程度,如用 戶對電子產(chǎn)品、農(nóng)產(chǎn)品或者看玄幻小說、看軍事新聞等的喜愛程度。所述聚類,是指根據(jù)用 戶所具有的興趣,即用戶對產(chǎn)品或者行為的喜愛程度,查找具有相同興趣的同戶,將這些具 有相同興趣的用戶歸為一個類別。如查找喜歡看玄幻小說的用戶歸為一個類別。
[0022] 在本發(fā)明實施例中,對接收到的用戶的基礎(chǔ)屬性數(shù)據(jù)和預(yù)先確定的影響用戶興趣 計算的基礎(chǔ)屬性數(shù)據(jù)的聚類的中心點(diǎn),計算得到所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類的中心點(diǎn) 的距離,將所述距離與預(yù)設(shè)的閥值比較,如果所計算的距離小于預(yù)設(shè)的閥值,則認(rèn)為當(dāng)前計 算的用戶屬于當(dāng)前興趣的聚類。在用戶沒有瀏覽操作的行為數(shù)據(jù)前就可以根據(jù)注冊信息得 到的興趣聚類進(jìn)行相應(yīng)內(nèi)容的推薦,能夠?qū)π伦杂脩暨M(jìn)行推薦。
[0023] 為進(jìn)一步提高推薦的精確度,本發(fā)明實施例還提供了包括基于用戶的活躍度數(shù)據(jù) 和用戶的行為數(shù)據(jù)計算其與聚類的中心點(diǎn)的距離,通過綜合比較計算得到距離與預(yù)設(shè)閾值 的大小,通過更為全面的數(shù)據(jù)分析,提高聚類的精確度。相應(yīng)的,為適應(yīng)某一興趣的聚類用 戶的數(shù)量,可以調(diào)整預(yù)設(shè)的閾值相應(yīng)的改變聚類用戶的多少。
[0024] 實施例一:
[0025] 圖1示出了本發(fā)明基于用戶興趣的聚類的實現(xiàn)流程,詳述如下:
[0026] 在步驟S101中,接收用戶的基礎(chǔ)屬性的數(shù)據(jù)。
[0027] 具體的,所述用戶的基礎(chǔ)屬性的數(shù)據(jù),為用戶在注冊時填寫的一些常規(guī)個人數(shù)據(jù), 可以包括用戶的性別、年齡、職業(yè)、居住地、出生日期和星座等數(shù)據(jù)。
[0028] 在步驟S102中,根據(jù)預(yù)先確定的影響用戶興趣計算的基礎(chǔ)屬性數(shù)據(jù)的聚類的中 心點(diǎn),計算所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類的中心點(diǎn)的距離。
[0029] 具體的,影響用戶興趣的基礎(chǔ)屬性數(shù)據(jù)可能為其中一項,也可能包括基礎(chǔ)屬性數(shù) 據(jù)中的多項。當(dāng)確定影響用戶興趣的基礎(chǔ)屬性數(shù)據(jù)為其中一項時,對應(yīng)的聚類的中心點(diǎn)為 一個數(shù)值,當(dāng)確定影響用戶興趣基礎(chǔ)屬性數(shù)據(jù)有η項時,對應(yīng)的聚類的中心點(diǎn)對應(yīng)為η個數(shù) 值組成的η維向量。
[0030] 所述距離,可以為歐式距離、曼哈頓距離,還可以使用余弦相似度等計算用戶的基 礎(chǔ)屬性數(shù)據(jù)到聚類中心點(diǎn)的距離。
[0031] 所述聚類的中心點(diǎn),其計算需要預(yù)先得到的影響所述興趣的基礎(chǔ)屬性的統(tǒng)計數(shù) 據(jù)。可根據(jù)同一基礎(chǔ)屬性的不同值對所述興趣的影響程度和不同基礎(chǔ)屬性對所述興趣影響 的權(quán)重值得到聚類的中心點(diǎn)。
[0032] 得到聚類中心點(diǎn)的步驟可以包括如下步驟:
[0033] 1. 1量化影響用戶興趣計算的基礎(chǔ)屬性;
[0034] 具體的,某一影響用戶興趣計算的基礎(chǔ)屬性包括多個類型,如性別包括男、女和未 知,年齡包括多個數(shù)值等。
[0035] 1. 2獲取各量化的基礎(chǔ)屬性在所述基礎(chǔ)屬性中對應(yīng)的用戶的占比;
[0036] 將某個基礎(chǔ)屬性中多個類型量化后,對各類型對應(yīng)的用戶占所述基礎(chǔ)屬性總用戶 的值進(jìn)行計算,該計算結(jié)果一般預(yù)先已存儲。
[0037] 1. 3根據(jù)所述量化的基礎(chǔ)屬性和對應(yīng)的用戶的占比取乘積后求和,計算基礎(chǔ)屬性 數(shù)據(jù)的聚類的中心點(diǎn)。
[0038] 下面以電商興趣的用戶聚類舉例說明如下:
[0039] 影響電商興趣的基礎(chǔ)屬性包括性別、年齡,其它基礎(chǔ)屬性如住址、姓名、郵箱等對 電商興趣不產(chǎn)生明顯影響,其中:
[0040] 根據(jù)統(tǒng)計數(shù)據(jù),對于電商興趣,影響該興趣的基礎(chǔ)屬性的性別數(shù)據(jù)中,男性用戶 占30%,女性用戶占70%。首先,對性別的基礎(chǔ)屬性進(jìn)行量化,用1表示男性,用2表示女 性,用0表示未知,此處的量化數(shù)據(jù)僅為舉例說明,并不局限于數(shù)據(jù)1、2等,具體量化數(shù)值 的選取與所述基礎(chǔ)屬性影響用戶興趣的權(quán)重相關(guān)。那么,性別屬性的聚類的中心點(diǎn)為: 2*0. 7+1*0. 3=1. 7〇
[0041] 根據(jù)年齡在電商興趣的統(tǒng)計數(shù)據(jù):20歲用戶的用戶對電商購物感興趣的比例為 70%,25歲對電商購物感興趣的比例為30%(此處假設(shè)的年齡僅示意出兩個,實際中應(yīng)該包括 各個年齡的數(shù)據(jù))在量化過程中,根據(jù)年齡對用戶興趣影響的權(quán)重,以年齡作為量化結(jié)果, 用數(shù)字20表示年齡為20的用戶,用數(shù)字25表示年齡為25的用戶,那么對于上述量化后的 年齡在電商興趣的聚類的中心點(diǎn)為20*70%+25*30%=21. 5。
[0042] 因此,上述數(shù)據(jù)如由下表所示:
[0043] 基礎(chǔ)屬性名稱I性別 [11 聚類中心點(diǎn) ~ 2L5 7 7
[0044] 在得到影響電商興趣的基礎(chǔ)屬性的聚類的中心點(diǎn)后,依據(jù)所述聚類的中心點(diǎn)對用 戶的所述基礎(chǔ)屬性的距離進(jìn)行計算。依據(jù)聚類距離計算公式,包括歐式距離、曼哈頓距離、 余弦相似度等計算用戶與所述興趣的聚類的中心點(diǎn)的距離,如根據(jù)上述表格中的數(shù)據(jù),得 到影響用戶電商興趣兩上基礎(chǔ)屬性的聚類中心點(diǎn)向量(性別、年齡)為(1.7,21. 5),那么,如 果當(dāng)前用戶的基礎(chǔ)屬性數(shù)據(jù)為一 20歲的女青年,那么,當(dāng)前用戶的兩個基礎(chǔ)屬性與聚類的 中心點(diǎn)的歐式距離,計算式為:λ/(2 1.5-20)2 +(2-1.7)2 =^2.34 〇
[0045] 在步驟S103中,將所述距離與預(yù)設(shè)的閾值進(jìn)行比較。
[0046] 根據(jù)需要聚類的用戶的群體的大小,預(yù)先設(shè)置閾值,并將步驟S102得到的距離 (可以為單一基礎(chǔ)屬性與聚類的中心點(diǎn)的距離,也可以多個基礎(chǔ)屬性與聚類的中心點(diǎn)的距 離,根據(jù)情況設(shè)定閾值大?。┡c閾值比較。
[0047] 在步驟S104中,如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚 類。
[0048] 具體的,如果影響所述興趣的基礎(chǔ)屬性與聚類的中心點(diǎn)的距離小于預(yù)設(shè)的閾值, 那么可以判定所述用戶屬于所述興趣的聚類,該用戶具有該興趣。例如上述舉例中,假設(shè)兩 個基礎(chǔ)屬性與聚類中心點(diǎn)的閾值為1. 7,那么由于1 7> ,故判定該用戶具有電商興 趣。
[0049] 在本發(fā)明實施例,由于可以從注冊的用戶的數(shù)據(jù)中直接獲取基礎(chǔ)屬性數(shù)據(jù),在用 戶沒有瀏覽操作的行為數(shù)據(jù)前就可以根據(jù)注冊信息得到的興趣聚類進(jìn)行相應(yīng)內(nèi)容的推薦, 能夠?qū)π伦杂脩暨M(jìn)行推薦的同時,也能提高推薦的準(zhǔn)確度。
[0050] 實施例二:
[0051] 圖2為本發(fā)明第二實施例提供的基于用戶興趣的聚類方法的實現(xiàn)流程,詳述如 下:
[0052] 在步驟S201中,接收用戶的活躍度數(shù)據(jù)、用戶的基礎(chǔ)屬性的數(shù)據(jù)和用戶的行為數(shù) 據(jù)。
[0053] 具體的,對于某一具體興趣,影響該興趣的因素較多,可以綜合某用戶的全部或者 部分因素計算該興趣的喜愛程度,當(dāng)然,本實施例作為一種較為全面的實施方式,綜合考慮 了用戶的活躍度因素、用戶的基礎(chǔ)屬性的數(shù)據(jù)和用戶的行為數(shù)據(jù)對所述興趣的影響,還可 以包括其它影響用戶興趣計算的其它因素。
[0054] 所述活躍度數(shù)據(jù),包括用戶在指定的時間段內(nèi)的平均行為(包括瀏覽網(wǎng)站的行為、 搜索行為、書簽添加行為等)的次數(shù)。
[0055] 所述用戶的基礎(chǔ)屬性的數(shù)據(jù),包括用戶的性別、年齡、職業(yè)、居住地、出生日期和星 座等數(shù)據(jù)。
[0056] 對于瀏覽網(wǎng)站的行為,搜索行為,書簽添加行為等,需要轉(zhuǎn)化為相應(yīng)興趣類別的訪 問次數(shù)。對于瀏覽網(wǎng)站的行為,可以建立網(wǎng)站與興趣的類別的對應(yīng)關(guān)系,如www. taobao. com 對應(yīng)電商興趣,對于搜索行為,可以建立搜索詞與興趣類別的對應(yīng)關(guān)系,如搜索詞"武動乾 坤"對應(yīng)小說興趣,對于書簽添加行為,也可以根據(jù)瀏覽網(wǎng)站的行為所建立的網(wǎng)站與興趣的 類別的對應(yīng)關(guān)系,把添加的網(wǎng)站轉(zhuǎn)化為對應(yīng)興趣的行為。所述行為數(shù)據(jù)包括用戶某一興趣 的總的行為次數(shù)、用戶所有興趣的總的行為次數(shù)、用戶某一興趣的總的使用天數(shù)據(jù)、總的研 究天數(shù)據(jù)等。
[0057] 在步驟S202中,根據(jù)預(yù)先確定的影響用戶興趣計算的基礎(chǔ)屬性數(shù)據(jù)的聚類的中 心點(diǎn)、影響用戶興趣計算的活躍度數(shù)據(jù)的聚類的中心點(diǎn),根據(jù)預(yù)先確定的影響用戶的興趣 計算的行為數(shù)據(jù)的聚類的中心點(diǎn);計算所述基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)和用戶的 行為數(shù)據(jù)與相應(yīng)的聚類的中心點(diǎn)構(gòu)成的向量的距離。
[0058] 具體的,可以在考慮用戶基礎(chǔ)屬性的基礎(chǔ)上,增加活躍度數(shù)據(jù)和行為數(shù)據(jù),以提高 用戶聚類的準(zhǔn)確性。
[0059] 對于用戶的活躍度數(shù)據(jù),可以將用戶的平均行為次數(shù)劃分為三個等級(等級的定 義可以根據(jù)實際應(yīng)用場景細(xì)分)。平均行為次數(shù)在〇到a之間的用戶,其活躍度聚會為1,平 均行為次數(shù)在a到2a之間的用戶,其活躍度取值為2a,平均行為次數(shù)大于2a的用戶,其活 躍度取值為3。由于興趣計算中,更加傾向于活躍度高的用戶,所以活躍度的聚類的中心點(diǎn) 的取值為3。
[0060] 對于行為數(shù)據(jù),由于在興趣計算中,用戶某一興趣的總的行為次數(shù)在用戶所有興 趣的總的行為次靈敏的占比和用戶某一興趣的總的使用天數(shù)在總的研究天數(shù)中的占比 的值越大越好,所以其聚類的中心點(diǎn)都為1。例如,以瀏覽器用戶30天的行為數(shù)據(jù)來計 算,若某一用戶在這30天內(nèi),小說興趣類別的訪問天數(shù)是15天,總的頁面訪問PV (page view)次數(shù)是60,電商類別的訪問天數(shù)是6天,電商類別的頁面訪問PV次數(shù)是40,則小說 興趣類別的PV占比為60/100=0. 6,訪問天數(shù)的占比為15/30=0. 5,電商類別的PV占比為 40/100=0. 4,訪問天數(shù)的占比為6/30=0. 2。
[0061] 在步驟S203中,將所述計算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)和用戶的行為 數(shù)據(jù)與相應(yīng)的聚類的中心點(diǎn)構(gòu)成的向量的距離與預(yù)設(shè)的閾值進(jìn)行比較。
[0062] 假設(shè)現(xiàn)有的電商興趣的聚類的中心點(diǎn)構(gòu)成的向量為(性別、年齡、活躍度、電商PV 占比、電商訪問天數(shù)占比)=(1. 7,20,3,1,1),若一用戶性別為女,年齡為20,活躍度為3,電 商PV占有比為0. 8,電商的訪問天數(shù)占比為0. 5,那么,該用戶與聚類中心點(diǎn)構(gòu)成的向量的 歐式距離可以表示為:
[0063] λ/(2-1·7)2+ (21.5-20)2+ (3-3)2+ (1-0. 8)2+ (1-0. 5)2 ?1.622
[0064] 本實施例計算的因子包括四個,在其它實施方式中,也可以先用部分因子或者更 多影響興趣值的因子,根據(jù)興趣的類別而定。
[0065] 在步驟S204中,如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚 類。
[0066] 具體的,由于本發(fā)明實施例中考慮的數(shù)據(jù)個數(shù)不同,所以相應(yīng)的閾值距離也應(yīng)該 相應(yīng)的調(diào)整,。
[0067] 在步驟S205中,根據(jù)聚類用戶數(shù)量調(diào)整所述閾值的大小。
[0068] 由于不同的內(nèi)容所面向的推薦對象的群體的大小不盡相同,有時得到的聚類用戶 數(shù)量過大或者數(shù)量過小,因此,為使得聚類的用戶的數(shù)量更加合理,還可以包括本步驟根據(jù) 聚類的用戶數(shù)量調(diào)整所述閾值的大小,同樣,該步驟也可適用于實施例一。
[0069] 作為本發(fā)明的另一種實施方式,接收用戶的基礎(chǔ)屬性的數(shù)據(jù)和活躍度數(shù)據(jù);
[0070] 根據(jù)預(yù)先確定的影響用戶興趣計算的活躍度數(shù)據(jù)的聚類的中心點(diǎn),計算所述基礎(chǔ) 屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類的中心點(diǎn)構(gòu)成的向量的距離;
[0071] 計算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類的中心點(diǎn)構(gòu)成的向量的 距離,將所述計算的距離與預(yù)設(shè)的閾值進(jìn)行比較。
[0072] 本發(fā)明實施例二與實施例一不同之處在于,通過多個影響用戶興趣值的因子,包 括用戶的基礎(chǔ)屬性數(shù)據(jù)、用戶的活躍度數(shù)據(jù)和用戶的行為數(shù)據(jù)與相應(yīng)的聚類的中心點(diǎn)的向 量計算距離,使得到的用戶興趣的喜愛程度更加準(zhǔn)確,在聚類完成后還包括對閾值的調(diào)整 步驟,可以靈活調(diào)整聚類用戶的數(shù)量,使得推薦更加靈活。
[0073] 實施例三:
[0074] 圖3為本發(fā)明第三實施例提供的基于用戶興趣的聚類裝置的結(jié)構(gòu)示意圖,詳述如 下:
[0075] 本發(fā)明實施例所述基于用戶興趣的聚類裝置,包括第一接收單元301、第一計算單 元302、比較單元303和判定單元304,其中
[0076] 第一接收單元301,用于接收用戶的基礎(chǔ)屬性的數(shù)據(jù);
[0077] 第一計算單元302,用于根據(jù)預(yù)先確定的影響用戶興趣計算的基礎(chǔ)屬性數(shù)據(jù)的聚 類的中心點(diǎn),計算所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類的中心點(diǎn)的距離;
[0078] 比較單元303,用于將所述距離與預(yù)設(shè)的閾值進(jìn)行比較;
[0079] 判定單元304,用于如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的 聚類。
[0080] 為使得聚類的用戶更加準(zhǔn)確,所述裝置還包括:
[0081] 第二接收單元305,用于接收用戶的活躍度數(shù)據(jù);
[0082] 第二計算單元306,用于根據(jù)預(yù)先確定的影響用戶興趣計算的活躍度數(shù)據(jù)的聚類 的中心點(diǎn);計算所述基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類的中心點(diǎn)構(gòu)成的向 量的距尚;
[0083] 所述比較單元303具體用于計算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的 聚類的中心點(diǎn)構(gòu)成的向量的距離,將所述距離與預(yù)設(shè)的閾值進(jìn)行比較。
[0084] 為進(jìn)一步提高聚類用戶的準(zhǔn)確性,所述裝置還包括:
[0085] 第三接收單元307,用于接收用戶的行為數(shù)據(jù);
[0086] 第三計算單元308,用于計算所述基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)和用戶的行 為數(shù)據(jù)與相應(yīng)的聚類的中心點(diǎn)構(gòu)成的向量的距離;
[0087] 所述比較單元303具體用于計算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)、用戶的 行為數(shù)據(jù)與相應(yīng)的聚類的中心點(diǎn)構(gòu)成的向量的距離,將所述計算的距離與預(yù)設(shè)的閾值進(jìn)行 比較。
[0088] 所述第一計算單元302具體包括:
[0089] 量化子單元3021,用于量化影響用戶興趣計算的基礎(chǔ)屬性;
[0090] 占比獲取子單元3022,用于獲取各量化的基礎(chǔ)屬性在所述基礎(chǔ)屬性中對應(yīng)的用戶 的占比;
[0091] 聚類的中心點(diǎn)計算子單元3023,用于根據(jù)所述量化的基礎(chǔ)屬性和對應(yīng)的用戶的占 比取乘積后求和,計算基礎(chǔ)屬性數(shù)據(jù)的聚類的中心點(diǎn)。。
[0092] 其中,所述活躍度數(shù)據(jù)包括網(wǎng)頁瀏覽次數(shù)、搜索數(shù)據(jù)次數(shù)、書簽添加次數(shù)中的一種 或者多種,所述行為數(shù)據(jù)包括對于某一興趣的總的行為次數(shù)在用戶所有興趣的總的行為次 數(shù)的占比和/或某一興趣的總的行為次數(shù)在用戶所有興趣的行為次數(shù)中的占比。
[0093] 由于不同的內(nèi)容所面向的推薦對象的群體的大小不盡相同,有時得到的聚類用戶 數(shù)量過大或者數(shù)量過小,因此,為使得聚類的用戶的數(shù)量更加合理,本實施例所述裝置還包 括調(diào)整單元309,用于根據(jù)聚類用戶的數(shù)量調(diào)整所述閾值的大小。
[0094] 本發(fā)明實施例所述基于用戶興趣的聚類裝置,與上述實施例一和二所述的基于用 戶興趣的聚類方法相對應(yīng),在此不作重復(fù)贅述。
[〇〇95] 以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1. 一種基于用戶興趣的聚類方法,其特征在于,所述方法包括下述步驟: 接收用戶的基礎(chǔ)屬性的數(shù)據(jù); 根據(jù)預(yù)先確定的影響用戶興趣計算的基礎(chǔ)屬性數(shù)據(jù)的聚類的中心點(diǎn),計算所述用戶的 基礎(chǔ)屬性數(shù)據(jù)與聚類的中心點(diǎn)的距離; 將所述距離與預(yù)設(shè)的閾值進(jìn)行比較; 如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚類。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟將所述距離與預(yù)設(shè)的閾值進(jìn) 行比較前,所述方法還包括: 接收用戶的活躍度數(shù)據(jù); 根據(jù)預(yù)先確定的影響用戶興趣計算的活躍度數(shù)據(jù)的聚類的中心點(diǎn),計算所述基礎(chǔ)屬性 的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類的中心點(diǎn)構(gòu)成的向量的距離; 所述步驟將所述距離與預(yù)設(shè)的閾值進(jìn)行比較具體為: 計算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類的中心點(diǎn)構(gòu)成的向量的距 離,將所述計算的距離與預(yù)設(shè)的閾值進(jìn)行比較。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟將所述距離與預(yù)設(shè)的閾值進(jìn)行 比較前,所述方法還包括: 接收用戶的行為數(shù)據(jù); 計算所述基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)和用戶的行為數(shù)據(jù)與相應(yīng)的聚類的中心 點(diǎn)構(gòu)成的向量的距離; 所述步驟將所述距離與預(yù)設(shè)的閾值進(jìn)行比較具體為: 計算基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)、用戶的行為數(shù)據(jù)與相應(yīng)的聚類的中心點(diǎn)構(gòu) 成的向量的距離,將所述計算的距離與預(yù)設(shè)的閾值進(jìn)行比較。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述活躍度數(shù)據(jù)包括網(wǎng)頁瀏覽次數(shù)、搜索 數(shù)據(jù)次數(shù)、書簽添加次數(shù)中一種或者多種,所述行為數(shù)據(jù)包括對于某一興趣的總的行為次 數(shù)在用戶所有興趣的總的行為次數(shù)的占比和/或某一興趣的總的行為次數(shù)在用戶所有興 趣的行為次數(shù)中的占比。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 量化影響用戶興趣計算的基礎(chǔ)屬性; 獲取各量化的基礎(chǔ)屬性在所述基礎(chǔ)屬性中對應(yīng)的用戶的占比; 根據(jù)所述量化的基礎(chǔ)屬性和對應(yīng)的用戶的占比取乘積后求和,計算基礎(chǔ)屬性數(shù)據(jù)的聚 類的中心點(diǎn)。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括根據(jù)聚類用戶數(shù)量調(diào)整 所述閾值的大小。
7. -種基于用戶興趣的聚類裝置,其特征在于,所述裝置包括: 第一接收單元,用于接收用戶的基礎(chǔ)屬性的數(shù)據(jù); 第一計算單元,用于根據(jù)預(yù)先確定的影響用戶興趣計算的基礎(chǔ)屬性數(shù)據(jù)的聚類的中心 點(diǎn),計算所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類的中心點(diǎn)的距離; 比較單元,用于將所述距離與預(yù)設(shè)的閾值進(jìn)行比較; 判定單元,用于如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚類。
8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括: 第二接收單元,用于接收用戶的活躍度數(shù)據(jù); 第二計算單元,用于根據(jù)預(yù)先確定的影響用戶興趣計算的活躍度數(shù)據(jù)的聚類的中心 點(diǎn);計算所述基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類的中心點(diǎn)構(gòu)成的向量的距 離; 所述比較單元具體用于計算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類的中 心點(diǎn)構(gòu)成的向量的距離,將所述距離與預(yù)設(shè)的閾值進(jìn)行比較。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括: 第三接收單元,用于接收用戶的行為數(shù)據(jù); 第三計算單元,用于計算所述基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)和用戶的行為數(shù)據(jù) 與相應(yīng)的聚類的中心點(diǎn)構(gòu)成的向量的距離; 所述比較單元具體用于計算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)、用戶的行為數(shù)據(jù) 與相應(yīng)的聚類的中心點(diǎn)構(gòu)成的向量的距離,將所述計算的距離與預(yù)設(shè)的閾值進(jìn)行比較。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述活躍度數(shù)據(jù)包括網(wǎng)頁瀏覽次數(shù)、搜 索數(shù)據(jù)次數(shù)、書簽添加次數(shù)中的一種或者多種,所述行為數(shù)據(jù)包括對于某一興趣的總的行 為次數(shù)在用戶所有興趣的總的行為次數(shù)的占比和/或某一興趣的總的行為次數(shù)在用戶所 有興趣的行為次數(shù)中的占比。
11. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一計算單元具體包括: 量化子單元,用于量化影響用戶興趣計算的基礎(chǔ)屬性; 占比獲取子單元,用于獲取各量化的基礎(chǔ)屬性在所述基礎(chǔ)屬性中對應(yīng)的用戶的占比; 聚類的中心點(diǎn)計算子單元,用于根據(jù)所述量化的基礎(chǔ)屬性和對應(yīng)的用戶的占比取乘積 后求和,計算基礎(chǔ)屬性數(shù)據(jù)的聚類的中心點(diǎn)。
【文檔編號】G06F17/30GK104111946SQ201310137316
【公開日】2014年10月22日 申請日期:2013年4月19日 優(yōu)先權(quán)日:2013年4月19日
【發(fā)明者】程小梅, 蘇小康, 曾鵬云, 范世青 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1