基于用戶興趣的聚類(lèi)方法和裝置制造方法
【專利摘要】本發(fā)明適用于互聯(lián)網(wǎng)領(lǐng)域,提供了一種基于用戶興趣的聚類(lèi)方法和裝置,該方法包括:接收用戶的基礎(chǔ)屬性的數(shù)據(jù);根據(jù)預(yù)先確定的影響用戶興趣計(jì)算的基礎(chǔ)屬性數(shù)據(jù)的聚類(lèi)的中心點(diǎn),計(jì)算所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類(lèi)的中心點(diǎn)的距離;將所述距離與預(yù)設(shè)的閾值進(jìn)行比較;如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚類(lèi)。本發(fā)明實(shí)施例可以從注冊(cè)的用戶的數(shù)據(jù)中直接獲取基礎(chǔ)屬性數(shù)據(jù),在用戶沒(méi)有瀏覽操作的行為數(shù)據(jù)前就可以根據(jù)注冊(cè)信息得到的興趣聚類(lèi)進(jìn)行相應(yīng)內(nèi)容的推薦,能夠?qū)π伦?cè)用戶進(jìn)行推薦的同時(shí),也能提高推薦的準(zhǔn)確度。
【專利說(shuō)明】基于用戶興趣的聚類(lèi)方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于互聯(lián)網(wǎng)領(lǐng)域,尤其涉及基于用戶興趣的聚類(lèi)方法和裝置。
【背景技術(shù)】
[0002] 基于用戶興趣的聚類(lèi)方法目前廣泛應(yīng)用于網(wǎng)頁(yè)內(nèi)容的推薦或廣告內(nèi)容的推薦,使 用戶快速找到符合自己興趣的網(wǎng)頁(yè)內(nèi)容或者查看到感興趣的商品。
[0003] 在完成對(duì)用戶興趣聚類(lèi)前,需要對(duì)用戶興趣進(jìn)行查找和統(tǒng)計(jì),現(xiàn)有的查找用戶興 趣的方法,一般是通過(guò)統(tǒng)計(jì)用戶的各種網(wǎng)頁(yè)操作數(shù)據(jù),如網(wǎng)頁(yè)的打開(kāi)次數(shù)、搜索的產(chǎn)品內(nèi)容 信息和購(gòu)買(mǎi)的產(chǎn)品的種類(lèi)信息,然后根據(jù)統(tǒng)計(jì)的數(shù)據(jù)轉(zhuǎn)化為用戶興趣的相應(yīng)的權(quán)重值。
[0004] 采用這種興趣統(tǒng)計(jì)方法進(jìn)行用戶聚類(lèi),由于只考慮了用戶的網(wǎng)頁(yè)行為數(shù)據(jù),如果 用戶沒(méi)有產(chǎn)生行為數(shù)據(jù),則不能確定用戶興趣值,不能對(duì)新用戶完成聚類(lèi)操作,不能準(zhǔn)確的 推薦相關(guān)內(nèi)容。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實(shí)施例的目的在于提供一種基于用戶興趣的聚類(lèi)方法,以解決現(xiàn)有技術(shù)在 用戶沒(méi)有產(chǎn)生行為數(shù)據(jù)時(shí)不能確定用戶興趣值,無(wú)法對(duì)新用戶完成聚類(lèi)操作的問(wèn)題,以提 高給用戶推薦內(nèi)容的準(zhǔn)確度。
[0006] 本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的,一種基于用戶興趣的聚類(lèi)方法,所述方法包括下述 步驟:
[0007] 接收用戶的基礎(chǔ)屬性的數(shù)據(jù);
[0008] 根據(jù)預(yù)先確定的影響用戶興趣計(jì)算的基礎(chǔ)屬性數(shù)據(jù)的聚類(lèi)的中心點(diǎn),計(jì)算所述用 戶的基礎(chǔ)屬性數(shù)據(jù)與聚類(lèi)的中心點(diǎn)的距離;
[0009] 將所述距離與預(yù)設(shè)的閾值進(jìn)行比較;
[0010] 如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚類(lèi)。
[0011] 本發(fā)明實(shí)施例的另一目的在于提供一種基于用戶興趣的聚類(lèi)裝置,所述裝置包 括:
[0012] 第一接收單元,用于接收用戶的基礎(chǔ)屬性的數(shù)據(jù);
[0013] 第一計(jì)算單元,用于根據(jù)預(yù)先確定的影響用戶興趣計(jì)算的基礎(chǔ)屬性數(shù)據(jù)的聚類(lèi)的 中心點(diǎn),計(jì)算所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類(lèi)的中心點(diǎn)的距離;
[0014] 比較單元,用于將所述距離與預(yù)設(shè)的閾值進(jìn)行比較;
[0015] 判定單元,用于如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚 類(lèi)。
[0016] 在本發(fā)明實(shí)施例中,根據(jù)接收到的用戶的基礎(chǔ)屬性數(shù)據(jù)和預(yù)先確定的影響用戶興 趣計(jì)算的基礎(chǔ)屬性數(shù)據(jù)的聚類(lèi)的中心點(diǎn),計(jì)算得到所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類(lèi)的中心 點(diǎn)的距離,將所述距離與預(yù)設(shè)的閥值比較,如果所計(jì)算的距離小于預(yù)設(shè)的閥值,則認(rèn)為當(dāng)前 計(jì)算的用戶屬于當(dāng)前興趣的聚類(lèi)。由于本發(fā)明實(shí)施例可以從注冊(cè)的用戶的數(shù)據(jù)中直接獲取 基礎(chǔ)屬性數(shù)據(jù),在用戶沒(méi)有瀏覽操作的行為數(shù)據(jù)前就可以根據(jù)注冊(cè)信息得到的興趣聚類(lèi)進(jìn) 行相應(yīng)內(nèi)容的推薦,能夠?qū)π伦?cè)用戶進(jìn)行推薦的同時(shí),也能提高推薦的準(zhǔn)確度。
【專利附圖】
【附圖說(shuō)明】
[0017] 圖1是本發(fā)明第一實(shí)施例提供的基于用戶興趣的聚類(lèi)方法的實(shí)現(xiàn)流程圖;
[0018] 圖2是本發(fā)明第二實(shí)施例提供的基于用戶興趣的聚類(lèi)方法的實(shí)現(xiàn)流程圖;
[0019] 圖3是本發(fā)明第三實(shí)施例提供的基于用戶興趣的聚類(lèi)裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0020] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì) 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0021] 本發(fā)明實(shí)施例中所述興趣,是指用戶對(duì)某類(lèi)產(chǎn)品或者某種行為的喜愛(ài)程度,如用 戶對(duì)電子產(chǎn)品、農(nóng)產(chǎn)品或者看玄幻小說(shuō)、看軍事新聞等的喜愛(ài)程度。所述聚類(lèi),是指根據(jù)用 戶所具有的興趣,即用戶對(duì)產(chǎn)品或者行為的喜愛(ài)程度,查找具有相同興趣的同戶,將這些具 有相同興趣的用戶歸為一個(gè)類(lèi)別。如查找喜歡看玄幻小說(shuō)的用戶歸為一個(gè)類(lèi)別。
[0022] 在本發(fā)明實(shí)施例中,對(duì)接收到的用戶的基礎(chǔ)屬性數(shù)據(jù)和預(yù)先確定的影響用戶興趣 計(jì)算的基礎(chǔ)屬性數(shù)據(jù)的聚類(lèi)的中心點(diǎn),計(jì)算得到所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類(lèi)的中心點(diǎn) 的距離,將所述距離與預(yù)設(shè)的閥值比較,如果所計(jì)算的距離小于預(yù)設(shè)的閥值,則認(rèn)為當(dāng)前計(jì) 算的用戶屬于當(dāng)前興趣的聚類(lèi)。在用戶沒(méi)有瀏覽操作的行為數(shù)據(jù)前就可以根據(jù)注冊(cè)信息得 到的興趣聚類(lèi)進(jìn)行相應(yīng)內(nèi)容的推薦,能夠?qū)π伦?cè)用戶進(jìn)行推薦。
[0023] 為進(jìn)一步提高推薦的精確度,本發(fā)明實(shí)施例還提供了包括基于用戶的活躍度數(shù)據(jù) 和用戶的行為數(shù)據(jù)計(jì)算其與聚類(lèi)的中心點(diǎn)的距離,通過(guò)綜合比較計(jì)算得到距離與預(yù)設(shè)閾值 的大小,通過(guò)更為全面的數(shù)據(jù)分析,提高聚類(lèi)的精確度。相應(yīng)的,為適應(yīng)某一興趣的聚類(lèi)用 戶的數(shù)量,可以調(diào)整預(yù)設(shè)的閾值相應(yīng)的改變聚類(lèi)用戶的多少。
[0024] 實(shí)施例一:
[0025] 圖1示出了本發(fā)明基于用戶興趣的聚類(lèi)的實(shí)現(xiàn)流程,詳述如下:
[0026] 在步驟S101中,接收用戶的基礎(chǔ)屬性的數(shù)據(jù)。
[0027] 具體的,所述用戶的基礎(chǔ)屬性的數(shù)據(jù),為用戶在注冊(cè)時(shí)填寫(xiě)的一些常規(guī)個(gè)人數(shù)據(jù), 可以包括用戶的性別、年齡、職業(yè)、居住地、出生日期和星座等數(shù)據(jù)。
[0028] 在步驟S102中,根據(jù)預(yù)先確定的影響用戶興趣計(jì)算的基礎(chǔ)屬性數(shù)據(jù)的聚類(lèi)的中 心點(diǎn),計(jì)算所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類(lèi)的中心點(diǎn)的距離。
[0029] 具體的,影響用戶興趣的基礎(chǔ)屬性數(shù)據(jù)可能為其中一項(xiàng),也可能包括基礎(chǔ)屬性數(shù) 據(jù)中的多項(xiàng)。當(dāng)確定影響用戶興趣的基礎(chǔ)屬性數(shù)據(jù)為其中一項(xiàng)時(shí),對(duì)應(yīng)的聚類(lèi)的中心點(diǎn)為 一個(gè)數(shù)值,當(dāng)確定影響用戶興趣基礎(chǔ)屬性數(shù)據(jù)有η項(xiàng)時(shí),對(duì)應(yīng)的聚類(lèi)的中心點(diǎn)對(duì)應(yīng)為η個(gè)數(shù) 值組成的η維向量。
[0030] 所述距離,可以為歐式距離、曼哈頓距離,還可以使用余弦相似度等計(jì)算用戶的基 礎(chǔ)屬性數(shù)據(jù)到聚類(lèi)中心點(diǎn)的距離。
[0031] 所述聚類(lèi)的中心點(diǎn),其計(jì)算需要預(yù)先得到的影響所述興趣的基礎(chǔ)屬性的統(tǒng)計(jì)數(shù) 據(jù)。可根據(jù)同一基礎(chǔ)屬性的不同值對(duì)所述興趣的影響程度和不同基礎(chǔ)屬性對(duì)所述興趣影響 的權(quán)重值得到聚類(lèi)的中心點(diǎn)。
[0032] 得到聚類(lèi)中心點(diǎn)的步驟可以包括如下步驟:
[0033] 1. 1量化影響用戶興趣計(jì)算的基礎(chǔ)屬性;
[0034] 具體的,某一影響用戶興趣計(jì)算的基礎(chǔ)屬性包括多個(gè)類(lèi)型,如性別包括男、女和未 知,年齡包括多個(gè)數(shù)值等。
[0035] 1. 2獲取各量化的基礎(chǔ)屬性在所述基礎(chǔ)屬性中對(duì)應(yīng)的用戶的占比;
[0036] 將某個(gè)基礎(chǔ)屬性中多個(gè)類(lèi)型量化后,對(duì)各類(lèi)型對(duì)應(yīng)的用戶占所述基礎(chǔ)屬性總用戶 的值進(jìn)行計(jì)算,該計(jì)算結(jié)果一般預(yù)先已存儲(chǔ)。
[0037] 1. 3根據(jù)所述量化的基礎(chǔ)屬性和對(duì)應(yīng)的用戶的占比取乘積后求和,計(jì)算基礎(chǔ)屬性 數(shù)據(jù)的聚類(lèi)的中心點(diǎn)。
[0038] 下面以電商興趣的用戶聚類(lèi)舉例說(shuō)明如下:
[0039] 影響電商興趣的基礎(chǔ)屬性包括性別、年齡,其它基礎(chǔ)屬性如住址、姓名、郵箱等對(duì) 電商興趣不產(chǎn)生明顯影響,其中:
[0040] 根據(jù)統(tǒng)計(jì)數(shù)據(jù),對(duì)于電商興趣,影響該興趣的基礎(chǔ)屬性的性別數(shù)據(jù)中,男性用戶 占30%,女性用戶占70%。首先,對(duì)性別的基礎(chǔ)屬性進(jìn)行量化,用1表示男性,用2表示女 性,用0表示未知,此處的量化數(shù)據(jù)僅為舉例說(shuō)明,并不局限于數(shù)據(jù)1、2等,具體量化數(shù)值 的選取與所述基礎(chǔ)屬性影響用戶興趣的權(quán)重相關(guān)。那么,性別屬性的聚類(lèi)的中心點(diǎn)為: 2*0. 7+1*0. 3=1. 7〇
[0041] 根據(jù)年齡在電商興趣的統(tǒng)計(jì)數(shù)據(jù):20歲用戶的用戶對(duì)電商購(gòu)物感興趣的比例為 70%,25歲對(duì)電商購(gòu)物感興趣的比例為30%(此處假設(shè)的年齡僅示意出兩個(gè),實(shí)際中應(yīng)該包括 各個(gè)年齡的數(shù)據(jù))在量化過(guò)程中,根據(jù)年齡對(duì)用戶興趣影響的權(quán)重,以年齡作為量化結(jié)果, 用數(shù)字20表示年齡為20的用戶,用數(shù)字25表示年齡為25的用戶,那么對(duì)于上述量化后的 年齡在電商興趣的聚類(lèi)的中心點(diǎn)為20*70%+25*30%=21. 5。
[0042] 因此,上述數(shù)據(jù)如由下表所示:
[0043] 基礎(chǔ)屬性名稱I性別 [11 聚類(lèi)中心點(diǎn) ~ 2L5 7 7
[0044] 在得到影響電商興趣的基礎(chǔ)屬性的聚類(lèi)的中心點(diǎn)后,依據(jù)所述聚類(lèi)的中心點(diǎn)對(duì)用 戶的所述基礎(chǔ)屬性的距離進(jìn)行計(jì)算。依據(jù)聚類(lèi)距離計(jì)算公式,包括歐式距離、曼哈頓距離、 余弦相似度等計(jì)算用戶與所述興趣的聚類(lèi)的中心點(diǎn)的距離,如根據(jù)上述表格中的數(shù)據(jù),得 到影響用戶電商興趣兩上基礎(chǔ)屬性的聚類(lèi)中心點(diǎn)向量(性別、年齡)為(1.7,21. 5),那么,如 果當(dāng)前用戶的基礎(chǔ)屬性數(shù)據(jù)為一 20歲的女青年,那么,當(dāng)前用戶的兩個(gè)基礎(chǔ)屬性與聚類(lèi)的 中心點(diǎn)的歐式距離,計(jì)算式為:λ/(2 1.5-20)2 +(2-1.7)2 =^2.34 〇
[0045] 在步驟S103中,將所述距離與預(yù)設(shè)的閾值進(jìn)行比較。
[0046] 根據(jù)需要聚類(lèi)的用戶的群體的大小,預(yù)先設(shè)置閾值,并將步驟S102得到的距離 (可以為單一基礎(chǔ)屬性與聚類(lèi)的中心點(diǎn)的距離,也可以多個(gè)基礎(chǔ)屬性與聚類(lèi)的中心點(diǎn)的距 離,根據(jù)情況設(shè)定閾值大小)與閾值比較。
[0047] 在步驟S104中,如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚 類(lèi)。
[0048] 具體的,如果影響所述興趣的基礎(chǔ)屬性與聚類(lèi)的中心點(diǎn)的距離小于預(yù)設(shè)的閾值, 那么可以判定所述用戶屬于所述興趣的聚類(lèi),該用戶具有該興趣。例如上述舉例中,假設(shè)兩 個(gè)基礎(chǔ)屬性與聚類(lèi)中心點(diǎn)的閾值為1. 7,那么由于1 7> ,故判定該用戶具有電商興 趣。
[0049] 在本發(fā)明實(shí)施例,由于可以從注冊(cè)的用戶的數(shù)據(jù)中直接獲取基礎(chǔ)屬性數(shù)據(jù),在用 戶沒(méi)有瀏覽操作的行為數(shù)據(jù)前就可以根據(jù)注冊(cè)信息得到的興趣聚類(lèi)進(jìn)行相應(yīng)內(nèi)容的推薦, 能夠?qū)π伦?cè)用戶進(jìn)行推薦的同時(shí),也能提高推薦的準(zhǔn)確度。
[0050] 實(shí)施例二:
[0051] 圖2為本發(fā)明第二實(shí)施例提供的基于用戶興趣的聚類(lèi)方法的實(shí)現(xiàn)流程,詳述如 下:
[0052] 在步驟S201中,接收用戶的活躍度數(shù)據(jù)、用戶的基礎(chǔ)屬性的數(shù)據(jù)和用戶的行為數(shù) 據(jù)。
[0053] 具體的,對(duì)于某一具體興趣,影響該興趣的因素較多,可以綜合某用戶的全部或者 部分因素計(jì)算該興趣的喜愛(ài)程度,當(dāng)然,本實(shí)施例作為一種較為全面的實(shí)施方式,綜合考慮 了用戶的活躍度因素、用戶的基礎(chǔ)屬性的數(shù)據(jù)和用戶的行為數(shù)據(jù)對(duì)所述興趣的影響,還可 以包括其它影響用戶興趣計(jì)算的其它因素。
[0054] 所述活躍度數(shù)據(jù),包括用戶在指定的時(shí)間段內(nèi)的平均行為(包括瀏覽網(wǎng)站的行為、 搜索行為、書(shū)簽添加行為等)的次數(shù)。
[0055] 所述用戶的基礎(chǔ)屬性的數(shù)據(jù),包括用戶的性別、年齡、職業(yè)、居住地、出生日期和星 座等數(shù)據(jù)。
[0056] 對(duì)于瀏覽網(wǎng)站的行為,搜索行為,書(shū)簽添加行為等,需要轉(zhuǎn)化為相應(yīng)興趣類(lèi)別的訪 問(wèn)次數(shù)。對(duì)于瀏覽網(wǎng)站的行為,可以建立網(wǎng)站與興趣的類(lèi)別的對(duì)應(yīng)關(guān)系,如www. taobao. com 對(duì)應(yīng)電商興趣,對(duì)于搜索行為,可以建立搜索詞與興趣類(lèi)別的對(duì)應(yīng)關(guān)系,如搜索詞"武動(dòng)乾 坤"對(duì)應(yīng)小說(shuō)興趣,對(duì)于書(shū)簽添加行為,也可以根據(jù)瀏覽網(wǎng)站的行為所建立的網(wǎng)站與興趣的 類(lèi)別的對(duì)應(yīng)關(guān)系,把添加的網(wǎng)站轉(zhuǎn)化為對(duì)應(yīng)興趣的行為。所述行為數(shù)據(jù)包括用戶某一興趣 的總的行為次數(shù)、用戶所有興趣的總的行為次數(shù)、用戶某一興趣的總的使用天數(shù)據(jù)、總的研 究天數(shù)據(jù)等。
[0057] 在步驟S202中,根據(jù)預(yù)先確定的影響用戶興趣計(jì)算的基礎(chǔ)屬性數(shù)據(jù)的聚類(lèi)的中 心點(diǎn)、影響用戶興趣計(jì)算的活躍度數(shù)據(jù)的聚類(lèi)的中心點(diǎn),根據(jù)預(yù)先確定的影響用戶的興趣 計(jì)算的行為數(shù)據(jù)的聚類(lèi)的中心點(diǎn);計(jì)算所述基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)和用戶的 行為數(shù)據(jù)與相應(yīng)的聚類(lèi)的中心點(diǎn)構(gòu)成的向量的距離。
[0058] 具體的,可以在考慮用戶基礎(chǔ)屬性的基礎(chǔ)上,增加活躍度數(shù)據(jù)和行為數(shù)據(jù),以提高 用戶聚類(lèi)的準(zhǔn)確性。
[0059] 對(duì)于用戶的活躍度數(shù)據(jù),可以將用戶的平均行為次數(shù)劃分為三個(gè)等級(jí)(等級(jí)的定 義可以根據(jù)實(shí)際應(yīng)用場(chǎng)景細(xì)分)。平均行為次數(shù)在〇到a之間的用戶,其活躍度聚會(huì)為1,平 均行為次數(shù)在a到2a之間的用戶,其活躍度取值為2a,平均行為次數(shù)大于2a的用戶,其活 躍度取值為3。由于興趣計(jì)算中,更加傾向于活躍度高的用戶,所以活躍度的聚類(lèi)的中心點(diǎn) 的取值為3。
[0060] 對(duì)于行為數(shù)據(jù),由于在興趣計(jì)算中,用戶某一興趣的總的行為次數(shù)在用戶所有興 趣的總的行為次靈敏的占比和用戶某一興趣的總的使用天數(shù)在總的研究天數(shù)中的占比 的值越大越好,所以其聚類(lèi)的中心點(diǎn)都為1。例如,以瀏覽器用戶30天的行為數(shù)據(jù)來(lái)計(jì) 算,若某一用戶在這30天內(nèi),小說(shuō)興趣類(lèi)別的訪問(wèn)天數(shù)是15天,總的頁(yè)面訪問(wèn)PV (page view)次數(shù)是60,電商類(lèi)別的訪問(wèn)天數(shù)是6天,電商類(lèi)別的頁(yè)面訪問(wèn)PV次數(shù)是40,則小說(shuō) 興趣類(lèi)別的PV占比為60/100=0. 6,訪問(wèn)天數(shù)的占比為15/30=0. 5,電商類(lèi)別的PV占比為 40/100=0. 4,訪問(wèn)天數(shù)的占比為6/30=0. 2。
[0061] 在步驟S203中,將所述計(jì)算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)和用戶的行為 數(shù)據(jù)與相應(yīng)的聚類(lèi)的中心點(diǎn)構(gòu)成的向量的距離與預(yù)設(shè)的閾值進(jìn)行比較。
[0062] 假設(shè)現(xiàn)有的電商興趣的聚類(lèi)的中心點(diǎn)構(gòu)成的向量為(性別、年齡、活躍度、電商PV 占比、電商訪問(wèn)天數(shù)占比)=(1. 7,20,3,1,1),若一用戶性別為女,年齡為20,活躍度為3,電 商PV占有比為0. 8,電商的訪問(wèn)天數(shù)占比為0. 5,那么,該用戶與聚類(lèi)中心點(diǎn)構(gòu)成的向量的 歐式距離可以表示為:
[0063] λ/(2-1·7)2+ (21.5-20)2+ (3-3)2+ (1-0. 8)2+ (1-0. 5)2 ?1.622
[0064] 本實(shí)施例計(jì)算的因子包括四個(gè),在其它實(shí)施方式中,也可以先用部分因子或者更 多影響興趣值的因子,根據(jù)興趣的類(lèi)別而定。
[0065] 在步驟S204中,如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚 類(lèi)。
[0066] 具體的,由于本發(fā)明實(shí)施例中考慮的數(shù)據(jù)個(gè)數(shù)不同,所以相應(yīng)的閾值距離也應(yīng)該 相應(yīng)的調(diào)整,。
[0067] 在步驟S205中,根據(jù)聚類(lèi)用戶數(shù)量調(diào)整所述閾值的大小。
[0068] 由于不同的內(nèi)容所面向的推薦對(duì)象的群體的大小不盡相同,有時(shí)得到的聚類(lèi)用戶 數(shù)量過(guò)大或者數(shù)量過(guò)小,因此,為使得聚類(lèi)的用戶的數(shù)量更加合理,還可以包括本步驟根據(jù) 聚類(lèi)的用戶數(shù)量調(diào)整所述閾值的大小,同樣,該步驟也可適用于實(shí)施例一。
[0069] 作為本發(fā)明的另一種實(shí)施方式,接收用戶的基礎(chǔ)屬性的數(shù)據(jù)和活躍度數(shù)據(jù);
[0070] 根據(jù)預(yù)先確定的影響用戶興趣計(jì)算的活躍度數(shù)據(jù)的聚類(lèi)的中心點(diǎn),計(jì)算所述基礎(chǔ) 屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類(lèi)的中心點(diǎn)構(gòu)成的向量的距離;
[0071] 計(jì)算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類(lèi)的中心點(diǎn)構(gòu)成的向量的 距離,將所述計(jì)算的距離與預(yù)設(shè)的閾值進(jìn)行比較。
[0072] 本發(fā)明實(shí)施例二與實(shí)施例一不同之處在于,通過(guò)多個(gè)影響用戶興趣值的因子,包 括用戶的基礎(chǔ)屬性數(shù)據(jù)、用戶的活躍度數(shù)據(jù)和用戶的行為數(shù)據(jù)與相應(yīng)的聚類(lèi)的中心點(diǎn)的向 量計(jì)算距離,使得到的用戶興趣的喜愛(ài)程度更加準(zhǔn)確,在聚類(lèi)完成后還包括對(duì)閾值的調(diào)整 步驟,可以靈活調(diào)整聚類(lèi)用戶的數(shù)量,使得推薦更加靈活。
[0073] 實(shí)施例三:
[0074] 圖3為本發(fā)明第三實(shí)施例提供的基于用戶興趣的聚類(lèi)裝置的結(jié)構(gòu)示意圖,詳述如 下:
[0075] 本發(fā)明實(shí)施例所述基于用戶興趣的聚類(lèi)裝置,包括第一接收單元301、第一計(jì)算單 元302、比較單元303和判定單元304,其中
[0076] 第一接收單元301,用于接收用戶的基礎(chǔ)屬性的數(shù)據(jù);
[0077] 第一計(jì)算單元302,用于根據(jù)預(yù)先確定的影響用戶興趣計(jì)算的基礎(chǔ)屬性數(shù)據(jù)的聚 類(lèi)的中心點(diǎn),計(jì)算所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類(lèi)的中心點(diǎn)的距離;
[0078] 比較單元303,用于將所述距離與預(yù)設(shè)的閾值進(jìn)行比較;
[0079] 判定單元304,用于如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的 聚類(lèi)。
[0080] 為使得聚類(lèi)的用戶更加準(zhǔn)確,所述裝置還包括:
[0081] 第二接收單元305,用于接收用戶的活躍度數(shù)據(jù);
[0082] 第二計(jì)算單元306,用于根據(jù)預(yù)先確定的影響用戶興趣計(jì)算的活躍度數(shù)據(jù)的聚類(lèi) 的中心點(diǎn);計(jì)算所述基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類(lèi)的中心點(diǎn)構(gòu)成的向 量的距尚;
[0083] 所述比較單元303具體用于計(jì)算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的 聚類(lèi)的中心點(diǎn)構(gòu)成的向量的距離,將所述距離與預(yù)設(shè)的閾值進(jìn)行比較。
[0084] 為進(jìn)一步提高聚類(lèi)用戶的準(zhǔn)確性,所述裝置還包括:
[0085] 第三接收單元307,用于接收用戶的行為數(shù)據(jù);
[0086] 第三計(jì)算單元308,用于計(jì)算所述基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)和用戶的行 為數(shù)據(jù)與相應(yīng)的聚類(lèi)的中心點(diǎn)構(gòu)成的向量的距離;
[0087] 所述比較單元303具體用于計(jì)算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)、用戶的 行為數(shù)據(jù)與相應(yīng)的聚類(lèi)的中心點(diǎn)構(gòu)成的向量的距離,將所述計(jì)算的距離與預(yù)設(shè)的閾值進(jìn)行 比較。
[0088] 所述第一計(jì)算單元302具體包括:
[0089] 量化子單元3021,用于量化影響用戶興趣計(jì)算的基礎(chǔ)屬性;
[0090] 占比獲取子單元3022,用于獲取各量化的基礎(chǔ)屬性在所述基礎(chǔ)屬性中對(duì)應(yīng)的用戶 的占比;
[0091] 聚類(lèi)的中心點(diǎn)計(jì)算子單元3023,用于根據(jù)所述量化的基礎(chǔ)屬性和對(duì)應(yīng)的用戶的占 比取乘積后求和,計(jì)算基礎(chǔ)屬性數(shù)據(jù)的聚類(lèi)的中心點(diǎn)。。
[0092] 其中,所述活躍度數(shù)據(jù)包括網(wǎng)頁(yè)瀏覽次數(shù)、搜索數(shù)據(jù)次數(shù)、書(shū)簽添加次數(shù)中的一種 或者多種,所述行為數(shù)據(jù)包括對(duì)于某一興趣的總的行為次數(shù)在用戶所有興趣的總的行為次 數(shù)的占比和/或某一興趣的總的行為次數(shù)在用戶所有興趣的行為次數(shù)中的占比。
[0093] 由于不同的內(nèi)容所面向的推薦對(duì)象的群體的大小不盡相同,有時(shí)得到的聚類(lèi)用戶 數(shù)量過(guò)大或者數(shù)量過(guò)小,因此,為使得聚類(lèi)的用戶的數(shù)量更加合理,本實(shí)施例所述裝置還包 括調(diào)整單元309,用于根據(jù)聚類(lèi)用戶的數(shù)量調(diào)整所述閾值的大小。
[0094] 本發(fā)明實(shí)施例所述基于用戶興趣的聚類(lèi)裝置,與上述實(shí)施例一和二所述的基于用 戶興趣的聚類(lèi)方法相對(duì)應(yīng),在此不作重復(fù)贅述。
[〇〇95] 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1. 一種基于用戶興趣的聚類(lèi)方法,其特征在于,所述方法包括下述步驟: 接收用戶的基礎(chǔ)屬性的數(shù)據(jù); 根據(jù)預(yù)先確定的影響用戶興趣計(jì)算的基礎(chǔ)屬性數(shù)據(jù)的聚類(lèi)的中心點(diǎn),計(jì)算所述用戶的 基礎(chǔ)屬性數(shù)據(jù)與聚類(lèi)的中心點(diǎn)的距離; 將所述距離與預(yù)設(shè)的閾值進(jìn)行比較; 如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚類(lèi)。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟將所述距離與預(yù)設(shè)的閾值進(jìn) 行比較前,所述方法還包括: 接收用戶的活躍度數(shù)據(jù); 根據(jù)預(yù)先確定的影響用戶興趣計(jì)算的活躍度數(shù)據(jù)的聚類(lèi)的中心點(diǎn),計(jì)算所述基礎(chǔ)屬性 的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類(lèi)的中心點(diǎn)構(gòu)成的向量的距離; 所述步驟將所述距離與預(yù)設(shè)的閾值進(jìn)行比較具體為: 計(jì)算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類(lèi)的中心點(diǎn)構(gòu)成的向量的距 離,將所述計(jì)算的距離與預(yù)設(shè)的閾值進(jìn)行比較。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟將所述距離與預(yù)設(shè)的閾值進(jìn)行 比較前,所述方法還包括: 接收用戶的行為數(shù)據(jù); 計(jì)算所述基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)和用戶的行為數(shù)據(jù)與相應(yīng)的聚類(lèi)的中心 點(diǎn)構(gòu)成的向量的距離; 所述步驟將所述距離與預(yù)設(shè)的閾值進(jìn)行比較具體為: 計(jì)算基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)、用戶的行為數(shù)據(jù)與相應(yīng)的聚類(lèi)的中心點(diǎn)構(gòu) 成的向量的距離,將所述計(jì)算的距離與預(yù)設(shè)的閾值進(jìn)行比較。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述活躍度數(shù)據(jù)包括網(wǎng)頁(yè)瀏覽次數(shù)、搜索 數(shù)據(jù)次數(shù)、書(shū)簽添加次數(shù)中一種或者多種,所述行為數(shù)據(jù)包括對(duì)于某一興趣的總的行為次 數(shù)在用戶所有興趣的總的行為次數(shù)的占比和/或某一興趣的總的行為次數(shù)在用戶所有興 趣的行為次數(shù)中的占比。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 量化影響用戶興趣計(jì)算的基礎(chǔ)屬性; 獲取各量化的基礎(chǔ)屬性在所述基礎(chǔ)屬性中對(duì)應(yīng)的用戶的占比; 根據(jù)所述量化的基礎(chǔ)屬性和對(duì)應(yīng)的用戶的占比取乘積后求和,計(jì)算基礎(chǔ)屬性數(shù)據(jù)的聚 類(lèi)的中心點(diǎn)。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括根據(jù)聚類(lèi)用戶數(shù)量調(diào)整 所述閾值的大小。
7. -種基于用戶興趣的聚類(lèi)裝置,其特征在于,所述裝置包括: 第一接收單元,用于接收用戶的基礎(chǔ)屬性的數(shù)據(jù); 第一計(jì)算單元,用于根據(jù)預(yù)先確定的影響用戶興趣計(jì)算的基礎(chǔ)屬性數(shù)據(jù)的聚類(lèi)的中心 點(diǎn),計(jì)算所述用戶的基礎(chǔ)屬性數(shù)據(jù)與聚類(lèi)的中心點(diǎn)的距離; 比較單元,用于將所述距離與預(yù)設(shè)的閾值進(jìn)行比較; 判定單元,用于如果所述距離小于預(yù)設(shè)的閾值,判定所述用戶屬于所述興趣的聚類(lèi)。
8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括: 第二接收單元,用于接收用戶的活躍度數(shù)據(jù); 第二計(jì)算單元,用于根據(jù)預(yù)先確定的影響用戶興趣計(jì)算的活躍度數(shù)據(jù)的聚類(lèi)的中心 點(diǎn);計(jì)算所述基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類(lèi)的中心點(diǎn)構(gòu)成的向量的距 離; 所述比較單元具體用于計(jì)算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)與相應(yīng)的聚類(lèi)的中 心點(diǎn)構(gòu)成的向量的距離,將所述距離與預(yù)設(shè)的閾值進(jìn)行比較。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括: 第三接收單元,用于接收用戶的行為數(shù)據(jù); 第三計(jì)算單元,用于計(jì)算所述基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)和用戶的行為數(shù)據(jù) 與相應(yīng)的聚類(lèi)的中心點(diǎn)構(gòu)成的向量的距離; 所述比較單元具體用于計(jì)算的基礎(chǔ)屬性的數(shù)據(jù)、用戶的活躍度數(shù)據(jù)、用戶的行為數(shù)據(jù) 與相應(yīng)的聚類(lèi)的中心點(diǎn)構(gòu)成的向量的距離,將所述計(jì)算的距離與預(yù)設(shè)的閾值進(jìn)行比較。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述活躍度數(shù)據(jù)包括網(wǎng)頁(yè)瀏覽次數(shù)、搜 索數(shù)據(jù)次數(shù)、書(shū)簽添加次數(shù)中的一種或者多種,所述行為數(shù)據(jù)包括對(duì)于某一興趣的總的行 為次數(shù)在用戶所有興趣的總的行為次數(shù)的占比和/或某一興趣的總的行為次數(shù)在用戶所 有興趣的行為次數(shù)中的占比。
11. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一計(jì)算單元具體包括: 量化子單元,用于量化影響用戶興趣計(jì)算的基礎(chǔ)屬性; 占比獲取子單元,用于獲取各量化的基礎(chǔ)屬性在所述基礎(chǔ)屬性中對(duì)應(yīng)的用戶的占比; 聚類(lèi)的中心點(diǎn)計(jì)算子單元,用于根據(jù)所述量化的基礎(chǔ)屬性和對(duì)應(yīng)的用戶的占比取乘積 后求和,計(jì)算基礎(chǔ)屬性數(shù)據(jù)的聚類(lèi)的中心點(diǎn)。
【文檔編號(hào)】G06F17/30GK104111946SQ201310137316
【公開(kāi)日】2014年10月22日 申請(qǐng)日期:2013年4月19日 優(yōu)先權(quán)日:2013年4月19日
【發(fā)明者】程小梅, 蘇小康, 曾鵬云, 范世青 申請(qǐng)人:騰訊科技(深圳)有限公司