一種對用戶和內(nèi)容進(jìn)行分類的方法、裝置及計(jì)算設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)及互聯(lián)網(wǎng)領(lǐng)域,具體涉及一種對用戶和內(nèi)容進(jìn)行分類的方法、 裝置及計(jì)算設(shè)備。
【背景技術(shù)】
[0002] 網(wǎng)站對用戶訪問內(nèi)容的分析可以為網(wǎng)站內(nèi)容建設(shè)、運(yùn)營提供參考。在內(nèi)容建設(shè)上, 可以根據(jù)用戶訪問增長較快的商品與商家進(jìn)一步合作或者尋找商機(jī)。在對用戶服務(wù)上,可 以根據(jù)用戶感興趣的商品,對用戶進(jìn)行有針對性的推薦。在運(yùn)營管理上,可以根據(jù)不同用戶 類型給網(wǎng)站所有者帶來的收益水平,折算網(wǎng)站各內(nèi)容類型成本收益水平。其中,網(wǎng)站內(nèi)容可 以是網(wǎng)站的頁面、用戶發(fā)帖、網(wǎng)站類目、商品名稱、商品類目等網(wǎng)站展示給用戶的所有內(nèi)容。
[0003] 為此,需要對網(wǎng)站用戶和內(nèi)容進(jìn)行分類。在對網(wǎng)站用戶和內(nèi)容分類上,一般的做法 是先將網(wǎng)站內(nèi)容根據(jù)網(wǎng)站的建設(shè)人為分成若干個類型,然后,用戶來網(wǎng)站訪問時,根據(jù)用戶 對網(wǎng)站各內(nèi)容的訪問量,通過大量的計(jì)算,把用戶分成某些類型。但是,在實(shí)際應(yīng)用中有些 網(wǎng)站內(nèi)容較難人工分類,比如用戶發(fā)的帖子和鏈接地址等。
[0004] 對網(wǎng)站用戶和內(nèi)容進(jìn)行自動分類的常用算法有K均值(Kmeans)、概率潛在語義 分析(probabilitistic Latent Semantic Analysis,PLSA)和潛在狄利克雷分配模型 (Latent Dirichlet Allocation、LDA)等。這些算法通常是先對網(wǎng)站內(nèi)容進(jìn)行分類、降維, 然后再對用戶進(jìn)行分類。但是,根據(jù)這些算法對內(nèi)容進(jìn)行分類,首先應(yīng)當(dāng)有內(nèi)容的諸多屬 性,而且,采用這些算法時,其迭代計(jì)算量非常大。
【發(fā)明內(nèi)容】
[0005] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的對用戶和內(nèi)容進(jìn)行分類的方法、裝置及計(jì)算設(shè)備。
[0006] 根據(jù)本發(fā)明的一個方面,提供了一種對用戶和內(nèi)容進(jìn)行分類的裝置,駐留在計(jì)算 設(shè)備中,適于將用戶集合中的各用戶聚類為第一預(yù)定數(shù)目個用戶類型,將內(nèi)容集合中的各 內(nèi)容聚類為第二預(yù)定數(shù)目個內(nèi)容類型,所述裝置包括:初始化模塊,適于為所述第一預(yù)定數(shù) 目個用戶類型中的每個用戶類型指定用戶集合中的一個或多個用戶,為所述第二預(yù)定數(shù)目 個內(nèi)容類型中的每個內(nèi)容類型指定內(nèi)容集合中的一個或多個內(nèi)容;訪問量計(jì)算模塊,適于 根據(jù)用戶對內(nèi)容的訪問量,計(jì)算各用戶類型對各內(nèi)容的第一訪問量、各用戶對各內(nèi)容類型 的第二訪問量和各用戶類型對各內(nèi)容類型的第三訪問量;相似度計(jì)算模塊,適于根據(jù)所述 第二訪問量和第三訪問量,計(jì)算各用戶與各用戶類型之間的相似度,根據(jù)所述第一訪問量 和第三訪問量,計(jì)算各內(nèi)容與各內(nèi)容類型之間的相似度;分類模塊,適于對于每個用戶,選 擇與其相似度最高的用戶類型作為該用戶的用戶類型,對于每個內(nèi)容,選擇與其相似度最 高的內(nèi)容類型作為該內(nèi)容的內(nèi)容類型,并觸發(fā)訪問量計(jì)算模塊重新進(jìn)行訪問量計(jì)算和相似 度計(jì)算模塊重新進(jìn)行相似度計(jì)算后,重新進(jìn)行所述選擇,直到預(yù)定條件滿足時,不再進(jìn)行所 述觸發(fā)。
[0007] 可選地,在根據(jù)本發(fā)明的對用戶和內(nèi)容進(jìn)行分類的裝置中,所述初始化模塊進(jìn)一 步適于:根據(jù)已有的用戶與用戶類型之間的映射關(guān)系,為已有一個或多個用戶的用戶類型 指定該一個或多個用戶,并為沒有用戶的用戶類型隨機(jī)指定一個沒有用戶類型的用戶;根 據(jù)已有的內(nèi)容與內(nèi)容類型之間的映射關(guān)系,為已有一個或多個內(nèi)容的內(nèi)容類型指定該一個 或多個內(nèi)容,并為沒有內(nèi)容的內(nèi)容類型隨機(jī)指定一個沒有內(nèi)容類型的內(nèi)容。
[0008] 可選地,在根據(jù)本發(fā)明的對用戶和內(nèi)容進(jìn)行分類的裝置中,對于已有的用戶與用 戶類型之間的映射關(guān)系,所述相似度計(jì)算模塊不計(jì)算該用戶與各用戶類型之間的相似度, 且所述分類模塊不改變該用戶的用戶類型;對于已有的內(nèi)容與內(nèi)容類型之間的映射關(guān)系, 所述相似度計(jì)算模塊不計(jì)算該內(nèi)容與各內(nèi)容類型之間的相似度,且所述分類模塊不改變該 內(nèi)容的內(nèi)容類型。
[0009] 可選地,在根據(jù)本發(fā)明的對用戶和內(nèi)容進(jìn)行分類的裝置中,所述訪問量計(jì)算模塊 按照如下方式計(jì)算某個用戶類型對某個內(nèi)容的訪問量:獲取該用戶類型包括的所有用戶; 獲取其中每個用戶對該內(nèi)容的訪問量;對所有訪問量求和,得到該用戶類型對該內(nèi)容的訪 問量;所述訪問量計(jì)算模塊按照如下方式計(jì)算某個用戶對某個內(nèi)容類型的訪問量:獲取該 內(nèi)容類型包括的所有內(nèi)容;獲取該用戶對其中每個內(nèi)容的訪問量;對所有訪問量求和,得 到該用戶對該內(nèi)容類型的訪問量;所述訪問量計(jì)算模塊按照如下方式計(jì)算某個用戶類型對 某個內(nèi)容類型的訪問量:獲取該用戶類型包括的所有用戶以及該內(nèi)容類型包括的所有內(nèi) 容;獲取其中每個用戶對其中每個內(nèi)容的訪問量;對所有訪問量求和,得到該用戶類型對 該內(nèi)容類型的訪問量。
[0010] 可選地,在根據(jù)本發(fā)明的對用戶和內(nèi)容進(jìn)行分類的裝置中,所述相似度為基于最 小值的相似系數(shù)、巴氏相似系數(shù)或者余弦相似系數(shù)。
[0011] 可選地,在根據(jù)本發(fā)明的對用戶和內(nèi)容進(jìn)行分類的裝置中,所述相似度計(jì)算模塊 在計(jì)算兩個向量的相似度前,先對這兩個向量的定義域取交集或并集后,再計(jì)算這兩個向 量的相似度。
[0012] 可選地,在根據(jù)本發(fā)明的對用戶和內(nèi)容進(jìn)行分類的裝置中,所述預(yù)定條件為:觸發(fā) 所述訪問量計(jì)算模塊和相似度計(jì)算模塊的次數(shù)達(dá)到預(yù)設(shè)的次數(shù);或者,本次的分類結(jié)果與 上次的分類結(jié)果相比,用戶類型發(fā)生變化的用戶比例小于預(yù)設(shè)的第一門限且內(nèi)容類型發(fā)生 變化的內(nèi)容比例小于預(yù)設(shè)的第二門限。
[0013] 根據(jù)本發(fā)明的另一方面,提供了一種對用戶和內(nèi)容進(jìn)行分類的方法,在計(jì)算設(shè)備 中執(zhí)行,適于將用戶集合中的各用戶聚類為第一預(yù)定數(shù)目個用戶類型,將內(nèi)容集合中的各 內(nèi)容聚類為第二預(yù)定數(shù)目個內(nèi)容類型,所述方法包括:初始化步驟:為所述第一預(yù)定數(shù)目 個用戶類型中的每個用戶類型指定用戶集合中的一個或多個用戶,為所述第二預(yù)定數(shù)目個 內(nèi)容類型中的每個內(nèi)容類型指定內(nèi)容集合中的一個或多個內(nèi)容;訪問量計(jì)算步驟:根據(jù)用 戶對內(nèi)容的訪問量,計(jì)算各用戶類型對各內(nèi)容的第一訪問量、各用戶對各內(nèi)容類型的第二 訪問量和各用戶類型對各內(nèi)容類型的第三訪問量;相似度計(jì)算步驟,根據(jù)所述第二訪問量 和第三訪問量,計(jì)算各用戶與各用戶類型之間的相似度,根據(jù)所述第一訪問量和第三訪問 量,計(jì)算各內(nèi)容與各內(nèi)容類型之間的相似度;分類步驟:對于每個用戶,選擇與其相似度最 高的用戶類型作為該用戶的用戶類型,對于每個內(nèi)容,選擇與其相似度最高的內(nèi)容類型作 為該內(nèi)容的內(nèi)容類型,并觸發(fā)訪問量計(jì)算步驟重新進(jìn)行訪問量計(jì)算和相似度計(jì)算步驟重新 進(jìn)行相似度計(jì)算后,重新進(jìn)行所述選擇,直到預(yù)定條件滿足時,不再進(jìn)行所述觸發(fā)。
[0014] 可選地,在根據(jù)本發(fā)明的對用戶和內(nèi)容進(jìn)行分類的方法中,在所述初始化步驟中, 根據(jù)已有的用戶與用戶類型之間的映射關(guān)系,為已有一個或多個用戶的用戶類型指定該一 個或多個用戶,并為沒有用戶的用戶類型隨機(jī)指定一個沒有用戶類型的用戶;根據(jù)已有的 內(nèi)容與內(nèi)容類型之間的映射關(guān)系,為已有一個或多個內(nèi)容的內(nèi)容類型指定該一個或多個內(nèi) 容,并為沒有內(nèi)容的內(nèi)容類型隨機(jī)指定一個沒有內(nèi)容類型的內(nèi)容。
[0015] 可選地,在根據(jù)本發(fā)明的對用戶和內(nèi)容進(jìn)行分類的方法中,對于已有的用戶與用 戶類型之間的映射關(guān)系,在所述相似度計(jì)算步驟中不計(jì)算該用戶與各用戶類型之間的相似 度,且在