信息處理方法及裝置的制造方法
【專利摘要】本公開(kāi)實(shí)施例提供了一種信息處理方法及裝置,所示方法包括以下步驟:提取多個(gè)用戶瀏覽的媒體內(nèi)容中的用戶特征信息;根據(jù)用戶特征信息將多個(gè)用戶劃分為至少一個(gè)聚類類別;訓(xùn)練與每個(gè)聚類類別對(duì)應(yīng)的分類模型;判斷是否存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型;當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),確定分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型為目標(biāo)分類模型,以及,與每個(gè)所述目標(biāo)分類模型對(duì)應(yīng)的用類為目標(biāo)聚類類別。本公開(kāi)提供的方法,能夠構(gòu)建用于對(duì)未知類別的用戶進(jìn)行分類目標(biāo)聚類類別和目標(biāo)分類模型,先聚類再建模,有效過(guò)濾掉難以區(qū)別類別的用戶,減少噪音,分類準(zhǔn)確度高。
【專利說(shuō)明】
信息處理方法及裝置
技術(shù)領(lǐng)域
[0001 ]本公開(kāi)涉及大數(shù)據(jù)技術(shù)領(lǐng)域,尤其涉及一種信息處理方法及裝置。
【背景技術(shù)】
[0002]當(dāng)前的用戶屬性類別提取一般采用調(diào)查問(wèn)卷、或者注冊(cè)用戶、或者數(shù)據(jù)交換等方式獲得部分樣本數(shù)據(jù),在提取到用戶特征后,會(huì)通過(guò)有監(jiān)督的分類算法訓(xùn)練數(shù)據(jù)模型,數(shù)據(jù)模型訓(xùn)練完后,可以通過(guò)構(gòu)建的數(shù)據(jù)模型預(yù)測(cè)未知屬性的用戶的用戶屬性類別。
[0003]然而,互聯(lián)網(wǎng)的用戶數(shù)據(jù)非常繁雜,可能會(huì)存在不同類別的用戶具有極為相似的特征,比如某些視頻用戶,雖然有男有女,但他們共同喜好某幾個(gè)類型的視頻,這樣可能會(huì)造成分類不準(zhǔn)確;在有些用戶的特征極為稀疏、而所有用戶總的特征維度很大的情況時(shí),對(duì)于一個(gè)用戶可能大部分都是缺失特征,這也可能會(huì)影響分類的準(zhǔn)確率。
【發(fā)明內(nèi)容】
[0004]為克服相關(guān)技術(shù)中存在的問(wèn)題,本公開(kāi)提供一種信息處理方法及裝置。
[0005]根據(jù)本公開(kāi)實(shí)施例的第一方面,提供一種信息處理方法,包括:
[0006]提取多個(gè)用戶瀏覽的媒體內(nèi)容中的用戶特征信息;
[0007]根據(jù)用戶特征信息將多個(gè)用戶劃分為至少一個(gè)聚類類別;
[0008]訓(xùn)練與每個(gè)聚類類別對(duì)應(yīng)的分類模型;
[0009]判斷是否存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型;
[0010]當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),確定分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型為目標(biāo)分類模型,以及,與每個(gè)所述目標(biāo)分類模型對(duì)應(yīng)的用類為目標(biāo)聚類類別。
[0011 ] 可選地,所述方法還包括:
[0012]當(dāng)不存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),調(diào)整在將多個(gè)用戶劃分聚類類別時(shí)劃分的聚類類別的數(shù)量,直至存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型。
[0013]可選地,所述方法還包括:
[0014]當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),將分類準(zhǔn)確度小于預(yù)設(shè)準(zhǔn)確度閾值的分類模型中的用戶確定為無(wú)效用戶。
[0015]可選地,所述方法還包括:
[0016]獲取網(wǎng)絡(luò)中多個(gè)用戶的用戶特征信息,以及,每個(gè)用戶的標(biāo)注屬性信息;
[0017]利用多個(gè)用戶的用戶特征信息訓(xùn)練分類模型;
[0018]利用多個(gè)用戶的標(biāo)注屬性信息測(cè)試每個(gè)分類模型;
[0019]根據(jù)測(cè)試結(jié)果,確定分類模型的分類準(zhǔn)確度;
[0020]將所有分類模型準(zhǔn)確度的平均值確定為預(yù)設(shè)準(zhǔn)確度閾值。
[0021]根據(jù)本公開(kāi)實(shí)施例的第二方面,提供一種信息處理方法,包括:
[0022]獲取待分類用戶瀏覽的媒體內(nèi)容中的用戶特征信息;
[0023]根據(jù)所述用戶特征信息,將多個(gè)預(yù)設(shè)聚類類別中與所述待分類用戶對(duì)應(yīng)的預(yù)設(shè)聚類類別確定為目標(biāo)聚類類別;
[0024]利用與目標(biāo)聚類類別對(duì)應(yīng)的預(yù)設(shè)分類模型對(duì)目標(biāo)用戶進(jìn)行分類。
[0025]根據(jù)本公開(kāi)實(shí)施例的第三方面,提供一種信息處理裝置,包括:
[0026]第一獲取模塊,用于提取多個(gè)用戶瀏覽的媒體內(nèi)容中的用戶特征信息;
[0027]劃分模塊,用于根據(jù)用戶特征信息將多個(gè)用戶劃分為至少一個(gè)聚類類別;
[0028]第一訓(xùn)練模塊,用于訓(xùn)練與每個(gè)聚類類別對(duì)應(yīng)的分類模型;
[0029]判斷模塊,用于判斷是否存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類豐旲型;
[0030]第一確定模塊,用于當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),確定分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型為目標(biāo)分類模型,以及,與每個(gè)所述目標(biāo)分類模型對(duì)應(yīng)的用類為目標(biāo)聚類類別。
[0031]可選地,所述裝置還包括:
[0032]調(diào)整模塊,用于當(dāng)不存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),調(diào)整在將多個(gè)用戶劃分聚類類別時(shí)劃分的聚類類別的數(shù)量,直至存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型。
[0033]可選地,所述裝置還包括:
[0034]第二確定模塊,用于當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),將分類準(zhǔn)確度小于預(yù)設(shè)準(zhǔn)確度閾值的分類模型中的用戶確定為無(wú)效用戶。
[0035]可選地,所述裝置還包括:
[0036]第二獲取模塊,用于獲取網(wǎng)絡(luò)中多個(gè)用戶的用戶特征信息,以及,每個(gè)用戶的標(biāo)注屬性信息;
[0037]第二訓(xùn)練模塊,用于利用多個(gè)用戶的用戶特征信息訓(xùn)練分類模型;
[0038]測(cè)試模塊,用于利用多個(gè)用戶的標(biāo)注屬性信息測(cè)試每個(gè)分類模型;
[0039]第三確定模塊,用于根據(jù)測(cè)試結(jié)果,確定分類模型的分類準(zhǔn)確度;
[0040]第四確定模塊,用于將所有分類模型準(zhǔn)確度的平均值確定為預(yù)設(shè)準(zhǔn)確度閾值。
[0041]根據(jù)本公開(kāi)實(shí)施例的第四方面,提供一種信息處理裝置,包括:
[0042]第三獲取模塊,用于獲取待分類用戶瀏覽的媒體內(nèi)容中的用戶特征信息;
[0043]第五確定模塊,用于根據(jù)所述用戶特征信息,將多個(gè)預(yù)設(shè)聚類類別中與所述待分類用戶對(duì)應(yīng)的預(yù)設(shè)聚類類別確定為目標(biāo)聚類類別;
[0044]分類模塊,用于利用與目標(biāo)聚類類別對(duì)應(yīng)的預(yù)設(shè)分類模型對(duì)目標(biāo)用戶進(jìn)行分類。
[0045]本公開(kāi)的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
[0046]本公開(kāi)通過(guò)提取多個(gè)用戶瀏覽的媒體內(nèi)容中的用戶特征信息;根據(jù)用戶特征信息將多個(gè)用戶劃分為至少一個(gè)聚類類別;訓(xùn)練與每個(gè)聚類類別對(duì)應(yīng)的分類模型;判斷是否存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型;當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),確定分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型為目標(biāo)分類模型,以及,與每個(gè)所述目標(biāo)分類模型對(duì)應(yīng)的用類為目標(biāo)聚類類別。
[0047]本公開(kāi)提供的該方法,能夠利用多個(gè)用戶的用戶特征信息訓(xùn)練分類模型,并在訓(xùn)練得到的多個(gè)分類模型中選擇滿足準(zhǔn)確度要求和數(shù)量要求的分類模型作為目標(biāo)分類模型,以及將與每個(gè)目標(biāo)分類模型對(duì)應(yīng)的聚類類別作為目標(biāo)聚類類別,以便利用目標(biāo)聚類類別和目標(biāo)分類模型可以對(duì)未知類別的用戶進(jìn)行分類,先聚類再建模,有效過(guò)濾掉難以區(qū)別類別的用戶,減少噪音,分類準(zhǔn)確度高。
[0048]應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開(kāi)。
【附圖說(shuō)明】
[0049]此處的附圖被并入說(shuō)明書(shū)中并構(gòu)成本說(shuō)明書(shū)的一部分,示出了符合本發(fā)明的實(shí)施例,并與說(shuō)明書(shū)一起用于解釋本發(fā)明的原理。
[0050]圖1是根據(jù)一示例性實(shí)施例示出的一種信息處理方法的一種流程圖;
[0051 ]圖2是根據(jù)一示例性實(shí)施例示出的一種信息處理方法的另一種流程圖;
[0052]圖3是根據(jù)一示例性實(shí)施例示出的一種信息處理方法的另一種流程圖;
[0053]圖4是根據(jù)一示例性實(shí)施例示出的一種信息處理方法的另一種流程圖;
[0054]圖5是根據(jù)一示例性實(shí)施例示出的一種信息處理方法的另一種流程圖;
[0055]圖6是根據(jù)一示例性實(shí)施例示出的一種信息處理裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0056]這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說(shuō)明,其示例表示在附圖中。下面的描述涉及附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本發(fā)明相一致的所有實(shí)施方式。相反,它們僅是與如所附權(quán)利要求書(shū)中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
[0057]如圖1所示,在本公開(kāi)的一個(gè)實(shí)施例中,提供一種信息處理方法,包括以下步驟。
[0058]在步驟SlOl中,提取多個(gè)用戶瀏覽的媒體內(nèi)容中的用戶特征信息。
[0059]在該步驟中,可以提取預(yù)設(shè)數(shù)量個(gè)用戶利用終端應(yīng)用瀏覽媒體內(nèi)容的記錄,由于每個(gè)媒體內(nèi)容一般會(huì)預(yù)先設(shè)置有一些標(biāo)簽信息,如導(dǎo)演、演員、年份、類型和劇情等等,因此可以獲取媒體內(nèi)容的標(biāo)簽信息作為用戶特征,每個(gè)用戶特征信息中可以包括多個(gè)用戶特征,根據(jù)用戶特征信息可以確定用戶畫(huà)像,用戶畫(huà)像包括基本的用戶興趣行為標(biāo)簽(比如喜歡的明星,喜歡的品牌等),也包括用戶屬性(比如地域、年齡、性別、文化、職業(yè)、收入、生活習(xí)慣、消費(fèi)習(xí)慣等)等。
[0060]在步驟S102中,根據(jù)用戶特征信息將多個(gè)用戶劃分為至少一個(gè)聚類類別。
[0061]在該步驟中,可以利用K-means聚類算法、根據(jù)用戶特征信息對(duì)用戶進(jìn)行聚類,將存在交集的用戶特征信息對(duì)應(yīng)的用戶劃分為一個(gè)聚類類別,例如,用戶A的用戶特征信息A中包括張藝謀和胡歌,用戶B的用戶特征信息B中包括霍建華和胡歌,用戶C的用戶特征信息C中包括櫻桃小丸子和水冰月,那么可以將用戶A和用戶B劃分到一個(gè)聚類類別中,這里的聚類類別是將用戶進(jìn)行粗粒度的分類得到的分類類別。
[0062]在步驟S103中,訓(xùn)練與每個(gè)聚類類別對(duì)應(yīng)的分類模型。
[0063]在該步驟中,可以分別利用每個(gè)聚類類別中的用戶特征信息訓(xùn)練至少一個(gè)分類模型,這里的分類模型可以為SVM分類模型,訓(xùn)練得到的分類模型可以進(jìn)一步對(duì)用戶進(jìn)行分類,例如:聚類類別為70年代和80年代時(shí),則訓(xùn)練出的分類模型可以分別對(duì)70年代的男和女進(jìn)行分類,或者對(duì)80年代的本科以上學(xué)歷或本科以下學(xué)歷進(jìn)行分類等等。
[0064]在步驟S104中,判斷是否存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型。
[0065]在該步驟中,可以判斷是否存在分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型,但存在時(shí),可以進(jìn)一步判斷分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型的數(shù)量是否為預(yù)設(shè)數(shù)量個(gè),預(yù)設(shè)數(shù)量個(gè)可以根據(jù)需要設(shè)定,如5個(gè)、10個(gè)等等。
[0066]當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),在步驟S105中,確定分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型為目標(biāo)分類模型,以及,與每個(gè)所述目標(biāo)分類模型對(duì)應(yīng)的用類為目標(biāo)聚類類別。
[0067]本公開(kāi)實(shí)施例提供的該方法,可以利用多個(gè)用戶的用戶特征信息訓(xùn)練分類模型,并在訓(xùn)練得到的多個(gè)分類模型中選擇滿足準(zhǔn)確度要求和數(shù)量要求的分類模型作為目標(biāo)分類模型,以及將與每個(gè)目標(biāo)分類模型對(duì)應(yīng)的聚類類別作為目標(biāo)聚類類別,利用目標(biāo)聚類類別和目標(biāo)分類模型可以對(duì)未知類別的用戶進(jìn)行分類,先聚類再建模,有效過(guò)濾掉難以區(qū)別類別的用戶,減少噪音,分類準(zhǔn)確度高。
[0068]如圖2所示,在本公開(kāi)的一個(gè)實(shí)施例中,所述方法包括以下步驟。
[0069]在步驟SlOl中,提取多個(gè)用戶瀏覽的媒體內(nèi)容中的用戶特征信息。
[0070]在步驟S102中,根據(jù)用戶特征信息將多個(gè)用戶劃分為至少一個(gè)聚類類別。
[0071]在步驟S103中,訓(xùn)練與每個(gè)聚類類別對(duì)應(yīng)的分類模型。
[0072]在步驟S104中,判斷是否存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型。
[0073]當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),在步驟S105中,確定分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型為目標(biāo)分類模型,以及,與每個(gè)所述目標(biāo)分類模型對(duì)應(yīng)的用類為目標(biāo)聚類類別。
[0074]當(dāng)不存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),在步驟S201中,調(diào)整在將多個(gè)用戶劃分聚類類別時(shí)劃分的聚類類別的數(shù)量,直至存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型。
[0075]在該步驟中,可以在不存在分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型,或者數(shù)量較少時(shí),調(diào)整劃分聚類類別時(shí)的聚類類別的數(shù)量,例如,當(dāng)劃分的聚類類別的數(shù)量為5個(gè)時(shí),不存在分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型,則可以增加分類類別的數(shù)量,如增加到10個(gè)等,當(dāng)劃分的聚類類別的數(shù)量為5個(gè),預(yù)設(shè)數(shù)量個(gè)為3個(gè)時(shí),至存在I個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型,則也可以增加分類類別的數(shù)量,如增加到8個(gè)等。
[0076]本公開(kāi)實(shí)施例提供的該方法,能夠在得到的分類模型的數(shù)量不滿足數(shù)量要求或者準(zhǔn)確度要求時(shí),可以調(diào)整劃分的聚類類別的數(shù)量,保證訓(xùn)練處的分類模型滿足預(yù)設(shè)條件,保證用戶分類正常進(jìn)行。
[0077]如圖3所示,在本公開(kāi)的一個(gè)實(shí)施例中,所述方法還包括:
[0078]在步驟SlOl中,提取多個(gè)用戶瀏覽的媒體內(nèi)容中的用戶特征信息。
[0079]在步驟S102中,根據(jù)用戶特征信息將多個(gè)用戶劃分為至少一個(gè)聚類類別。
[0080]在步驟S103中,訓(xùn)練與每個(gè)聚類類別對(duì)應(yīng)的分類模型。
[0081]在步驟S104中,判斷是否存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型。
[0082]當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),在步驟S105中,確定分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型為目標(biāo)分類模型,以及,與每個(gè)所述目標(biāo)分類模型對(duì)應(yīng)的用類為目標(biāo)聚類類別;
[0083]在步驟S301中,將分類準(zhǔn)確度小于預(yù)設(shè)準(zhǔn)確度閾值的分類模型中的用戶確定為無(wú)效用戶。
[0084]在該步驟中,由于在實(shí)際應(yīng)用中可能會(huì)存在一些用戶特征信息中的每個(gè)用戶特征可以歸屬于不同的聚類類型中,或者已被分到不同的聚類類別中,但是其他特征極為相似的用戶特征的用戶,對(duì)于這種情況,可以過(guò)濾掉這些用戶,將這些用戶確定為我們不感興趣的無(wú)效用戶。
[0085]本公開(kāi)實(shí)施例提供的該方法,能夠?yàn)V除噪音用戶,增加分類準(zhǔn)確度。
[0086]如圖4所示,在本公開(kāi)的又一實(shí)施例中,所述方法還包括以下步驟。
[0087]在步驟S401中,獲取網(wǎng)絡(luò)中多個(gè)用戶的用戶特征信息,以及,每個(gè)用戶的標(biāo)注屬性
?目息O
[0088]在該步驟中,可以獲取網(wǎng)絡(luò)中的多個(gè)用戶樣本用戶,獲取這些樣本用戶的用戶特征信息,并可以獲取人為為這些樣本用戶設(shè)置的標(biāo)注屬性信息。
[0089]在步驟S402中,利用多個(gè)用戶的用戶特征信息訓(xùn)練分類模型。
[0090]在該步驟中,可以將多個(gè)用戶的用戶特征信息首先進(jìn)行聚類,再分別對(duì)每個(gè)聚類類別訓(xùn)練分類模型,也可以直接根據(jù)多個(gè)用戶的用戶特征信息訓(xùn)練分類模型。
[0091]在步驟S403中,利用多個(gè)用戶的標(biāo)注屬性信息測(cè)試每個(gè)分類模型。
[0092]在該步驟中,由于標(biāo)注屬性信息可以為準(zhǔn)確的參考實(shí)例,所以可以利用標(biāo)注屬性信息測(cè)試每個(gè)分類模型,具體地,可以將用戶的用戶特征信息輸入到訓(xùn)練好的分類模型中,之后看分類模型得到的分類結(jié)果是否與標(biāo)注屬性信息一致。
[0093]在步驟S404中,根據(jù)測(cè)試結(jié)果,確定分類模型的分類準(zhǔn)確度。
[0094]在該步驟中,可以統(tǒng)計(jì)每個(gè)分類模型得到的分類結(jié)果與標(biāo)注屬性信息一致的測(cè)試結(jié)果占所有測(cè)試結(jié)果的比率,可以將這個(gè)比率作為分類模型的分類準(zhǔn)確度。
[0095]在步驟S405中,將所有分類模型準(zhǔn)確度的平均值確定為預(yù)設(shè)準(zhǔn)確度閾值。
[0096]本公開(kāi)實(shí)施例提供的該方法,能夠精確的確定預(yù)設(shè)準(zhǔn)確度閾值,便于將預(yù)設(shè)準(zhǔn)確度閾值確定為分類模型是否滿足預(yù)設(shè)條件的參照標(biāo)準(zhǔn)。
[0097]如圖5所示,在本公開(kāi)的又一實(shí)施例中,提供一種信息處理方法,包括以下步驟。
[0098]在步驟S501中,獲取待分類用戶瀏覽的媒體內(nèi)容中的用戶特征信息。
[0099]在該步驟中,待分類用戶即為未知類別的用戶,可以獲取待分類用戶利用終端應(yīng)用瀏覽媒體內(nèi)容的記錄,可以獲取媒體內(nèi)容的標(biāo)簽信息作為用戶特征,每個(gè)用戶特征信息中可以包括多個(gè)用戶特征。
[0100]在步驟S502中,根據(jù)所述用戶特征信息,將多個(gè)預(yù)設(shè)聚類類別中與所述待分類用戶對(duì)應(yīng)的預(yù)設(shè)聚類類別確定為目標(biāo)聚類類別。
[0101]在該步驟中,可以采用將用戶特征信息與目標(biāo)聚類類別進(jìn)行比對(duì)等方式,再根據(jù)比對(duì)結(jié)果將用戶分類到一個(gè)目標(biāo)聚類類別中。
[0102]在步驟S503中,利用與目標(biāo)聚類類別對(duì)應(yīng)的預(yù)設(shè)分類模型對(duì)目標(biāo)用戶進(jìn)行分類。
[0103]在該步驟中,可以將待分類用戶的用戶特征信息輸入到與目標(biāo)聚類類別對(duì)應(yīng)的預(yù)設(shè)分類模型中,將預(yù)設(shè)分類模型輸入的分類結(jié)果確定為用戶的分類。
[0104]本公開(kāi)實(shí)施例提供的該方法,能夠?qū)ξ粗诸惖挠脩暨M(jìn)行分類,便于根據(jù)未知分類的用戶的用戶特征信息對(duì)用戶進(jìn)行分類,進(jìn)而便于向用戶推薦可能感興趣的媒體內(nèi)容等。
[0105]如圖6所示,在本公開(kāi)的又一實(shí)施例中,提供一種信息處理裝置,包括:第一獲取模塊601、劃分模塊602、第一訓(xùn)練模塊603、判斷模塊604和第一確定模塊605。
[0106]第一獲取模塊601,用于提取多個(gè)用戶瀏覽的媒體內(nèi)容中的用戶特征信息;
[0107]劃分模塊602,用于根據(jù)用戶特征信息將多個(gè)用戶劃分為至少一個(gè)聚類類別;
[0108]第一訓(xùn)練模塊603,用于訓(xùn)練與每個(gè)聚類類別對(duì)應(yīng)的分類模型;
[0109]判斷模塊604,用于判斷是否存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型;
[0110]第一確定模塊605,用于當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),確定分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型為目標(biāo)分類模型,以及,與每個(gè)所述目標(biāo)分類模型對(duì)應(yīng)的用類為目標(biāo)聚類類別。
[0111]在本公開(kāi)的又一實(shí)施例中,所述裝置還包括:
[0112]調(diào)整模塊,用于當(dāng)不存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),調(diào)整在將多個(gè)用戶劃分聚類類別時(shí)劃分的聚類類別的數(shù)量,直至存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型。
[0113]在本公開(kāi)的又一實(shí)施例中,所述裝置還包括:
[0114]第二確定模塊,用于當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),將分類準(zhǔn)確度小于預(yù)設(shè)準(zhǔn)確度閾值的分類模型中的用戶確定為無(wú)效用戶。
[0115]在本公開(kāi)的又一實(shí)施例中,所述裝置還包括:
[0116]第二獲取模塊,用于獲取網(wǎng)絡(luò)中多個(gè)用戶的用戶特征信息,以及,每個(gè)用戶的標(biāo)注屬性信息;
[0117]第二訓(xùn)練模塊,用于利用多個(gè)用戶的用戶特征信息訓(xùn)練分類模型;
[0118]測(cè)試模塊,用于利用多個(gè)用戶的標(biāo)注屬性信息測(cè)試每個(gè)分類模型;
[0119]第三確定模塊,用于根據(jù)測(cè)試結(jié)果,確定分類模型的分類準(zhǔn)確度;
[0120]第四確定模塊,用于將所有分類模型準(zhǔn)確度的平均值確定為預(yù)設(shè)準(zhǔn)確度閾值。
[0121 ]在本公開(kāi)的又一實(shí)施例中,提供一種信息處理裝置,包括:
[0122]第三獲取模塊,用于獲取待分類用戶瀏覽的媒體內(nèi)容中的用戶特征信息;
[0123]第五確定模塊,用于根據(jù)所述用戶特征信息,將多個(gè)預(yù)設(shè)聚類類別中與所述待分類用戶對(duì)應(yīng)的預(yù)設(shè)聚類類別確定為目標(biāo)聚類類別;
[0124]分類模塊,用于利用與目標(biāo)聚類類別對(duì)應(yīng)的預(yù)設(shè)分類模型對(duì)目標(biāo)用戶進(jìn)行分類。
[0125]本領(lǐng)域技術(shù)人員在考慮說(shuō)明書(shū)及實(shí)踐這里公開(kāi)的發(fā)明后,將容易想到本發(fā)明的其它實(shí)施方案。本申請(qǐng)旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本公開(kāi)未公開(kāi)的本技術(shù)領(lǐng)域中的公知常識(shí)或慣用技術(shù)手段。說(shuō)明書(shū)和實(shí)施例僅被視為示例性的,本發(fā)明的真正范圍和精神由所附的權(quán)利要求指出。
[0126]應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來(lái)限制。
【主權(quán)項(xiàng)】
1.一種信息處理方法,其特征在于,包括: 提取多個(gè)用戶瀏覽的媒體內(nèi)容中的用戶特征信息; 根據(jù)用戶特征信息將多個(gè)用戶劃分為至少一個(gè)聚類類別; 訓(xùn)練與每個(gè)聚類類別對(duì)應(yīng)的分類模型; 判斷是否存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型; 當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),確定分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型為目標(biāo)分類模型,以及,與每個(gè)所述目標(biāo)分類模型對(duì)應(yīng)的用類為目標(biāo)聚類類別。2.根據(jù)權(quán)利要求1所述的信息處理方法,其特征在于,所述方法還包括: 當(dāng)不存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),調(diào)整在將多個(gè)用戶劃分聚類類別時(shí)劃分的聚類類別的數(shù)量,直至存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型。3.根據(jù)權(quán)利要求1所述的信息處理方法,其特征在于,所述方法還包括: 當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),將分類準(zhǔn)確度小于預(yù)設(shè)準(zhǔn)確度閾值的分類模型中的用戶確定為無(wú)效用戶。4.根據(jù)權(quán)利要求1所述的信息處理方法,其特征在于,所述方法還包括: 獲取網(wǎng)絡(luò)中多個(gè)用戶的用戶特征信息,以及,每個(gè)用戶的標(biāo)注屬性信息; 利用多個(gè)用戶的用戶特征信息訓(xùn)練分類模型; 利用多個(gè)用戶的標(biāo)注屬性信息測(cè)試每個(gè)分類模型; 根據(jù)測(cè)試結(jié)果,確定分類模型的分類準(zhǔn)確度; 將所有分類模型準(zhǔn)確度的平均值確定為預(yù)設(shè)準(zhǔn)確度閾值。5.一種信息處理方法,其特征在于,包括: 獲取待分類用戶瀏覽的媒體內(nèi)容中的用戶特征信息; 根據(jù)所述用戶特征信息,將多個(gè)預(yù)設(shè)聚類類別中與所述待分類用戶對(duì)應(yīng)的預(yù)設(shè)聚類類別確定為目標(biāo)聚類類別; 利用與目標(biāo)聚類類別對(duì)應(yīng)的預(yù)設(shè)分類模型對(duì)目標(biāo)用戶進(jìn)行分類。6.一種信息處理裝置,其特征在于,包括: 第一獲取模塊,用于提取多個(gè)用戶瀏覽的媒體內(nèi)容中的用戶特征信息; 劃分模塊,用于根據(jù)用戶特征信息將多個(gè)用戶劃分為至少一個(gè)聚類類別; 第一訓(xùn)練模塊,用于訓(xùn)練與每個(gè)聚類類別對(duì)應(yīng)的分類模型; 判斷模塊,用于判斷是否存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型; 第一確定模塊,用于當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),確定分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型為目標(biāo)分類模型,以及,與每個(gè)所述目標(biāo)分類模型對(duì)應(yīng)的用類為目標(biāo)聚類類別。7.根據(jù)權(quán)利要求6所述的信息處理裝置,其特征在于,所述裝置還包括: 調(diào)整模塊,用于當(dāng)不存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),調(diào)整在將多個(gè)用戶劃分聚類類別時(shí)劃分的聚類類別的數(shù)量,直至存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型。8.根據(jù)權(quán)利要求6所述的信息處理裝置,其特征在于,所述裝置還包括: 第二確定模塊,用于當(dāng)存在預(yù)設(shè)數(shù)量個(gè)分類準(zhǔn)確度大于預(yù)設(shè)準(zhǔn)確度閾值的分類模型時(shí),將分類準(zhǔn)確度小于預(yù)設(shè)準(zhǔn)確度閾值的分類模型中的用戶確定為無(wú)效用戶。9.根據(jù)權(quán)利要求6所述的信息處理裝置,其特征在于,所述裝置還包括: 第二獲取模塊,用于獲取網(wǎng)絡(luò)中多個(gè)用戶的用戶特征信息,以及,每個(gè)用戶的標(biāo)注屬性信息; 第二訓(xùn)練模塊,用于利用多個(gè)用戶的用戶特征信息訓(xùn)練分類模型; 測(cè)試模塊,用于利用多個(gè)用戶的標(biāo)注屬性信息測(cè)試每個(gè)分類模型; 第三確定模塊,用于根據(jù)測(cè)試結(jié)果,確定分類模型的分類準(zhǔn)確度; 第四確定模塊,用于將所有分類模型準(zhǔn)確度的平均值確定為預(yù)設(shè)準(zhǔn)確度閾值。10.一種信息處理裝置,其特征在于,包括: 第三獲取模塊,用于獲取待分類用戶瀏覽的媒體內(nèi)容中的用戶特征信息; 第五確定模塊,用于根據(jù)所述用戶特征信息,將多個(gè)預(yù)設(shè)聚類類別中與所述待分類用戶對(duì)應(yīng)的預(yù)設(shè)聚類類別確定為目標(biāo)聚類類別; 分類模塊,用于利用與目標(biāo)聚類類別對(duì)應(yīng)的預(yù)設(shè)分類模型對(duì)目標(biāo)用戶進(jìn)行分類。
【文檔編號(hào)】G06F17/30GK105868243SQ201510925734
【公開(kāi)日】2016年8月17日
【申請(qǐng)日】2015年12月14日
【發(fā)明人】劉戀
【申請(qǐng)人】樂(lè)視網(wǎng)信息技術(shù)(北京)股份有限公司