用于對社交媒體的用戶分類的方法、計算機程序和計算機的制作方法
【技術領域】
[0001] 本發(fā)明涉及信息處理技術,更具體來說,涉及更有效地識別社交媒體中的用戶集 合的技術。
【背景技術】
[0002] 隨著社交媒體的廣泛使用,按"偏好和興趣"為社交媒體用戶分類,用于市場營銷, 越來越廣為人知。例如,這些分類被用來識別用戶有可能購買的產(chǎn)品和服務,以及分割大型 用戶集合(按照相似興趣的分類)。已經(jīng)有人嘗試根據(jù)年齡和政治傾向相似的用戶在社交 媒體上發(fā)布相似內(nèi)容的假設來識別用戶集合。例如,有人已經(jīng)努力過用內(nèi)容相似性來估計 用戶的年齡和政治傾向(非專利文獻1和非專利文獻2),這些努力已經(jīng)取得了一定的成功。 用類似的技術來估計具有共同偏好和興趣的用戶集合被認為在理論上是可能的。
[0003] 現(xiàn)有技術文獻
[0004] 專利文獻
[0005] 專利文獻1 :特許4, 898, 938號公報
[0006] 專利文獻2 :特開2000-148864號公報 [0007]非專利文獻
[0008]非專利文獻l:Pennacchiotti,M.、Popescu,A._M.,2011 年, ^Democrats,RepublicansandStarbucksAfficionados:UserClassificationin Twitter,',Proceedingsofthe17thACMSIGKDDInternationalConferenceon KnowledgeDiscoveryandDataMining(KDD2011),pp. 430-438, 2011.("民主黨人、共和 黨人和星巴克迷:推特中的用戶分類",第17屆ACMSIGKDD知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際研討 會論文集,2011年,第430-438頁)。
[0009] 非專利文獻 2 :Rao,D.、Yarowsky,D.、Shreevats,A.、Gupta,M. (2010), "ClassifyingLatentUserAttributesinTwitter',Proceedingsofthe2nd InternationalWorkshoponSearchandMiningUser-GeneratedContents(SMUC 2010),pp. 37-44,2010.( "分類推特中的用戶屬性",第二屆用戶生成內(nèi)容的檢索和挖掘國 際研討會論文集,2010年,第37-44頁)。
[0010] 非專利文獻 3 :Twitter,"GETstatuses/user_timeline",[online],2013-02-12 ,Twitter[2013-02-25 檢索]。因特網(wǎng)URL〈https://dev.twitter,com/docs/api/1. 1/get/ statuses/user_timeline>〇
[0011]非專利文獻 4:KritiPuniyani,JacobEisenstein,ShayCohen,和Eric P.Xing(2010),"SocialLinksfromLatentTopicsinMicroblogs',,Proceedingsof theNAACLHLT2010fforkshoponComputationalLinguisticsinaWorldofSocial Media(WSA' 10).AssociationforComputationalLinguistics,Stroudsburg,PA,USA, pp. 19-20,2010.( "來自微博的潛在主題的社交鏈接",2010年NAACLHLT社交媒體世界計 算語言學會議,(美國賓夕法尼亞州斯特勞斯堡,計算語言學協(xié)會,第19-20頁)。
【發(fā)明內(nèi)容】
[0012] 發(fā)明要解決的技術問題
[0013] 現(xiàn)有技術需要大量的內(nèi)容,但是,鑒于社交媒體的廣泛使用,對API查詢傳輸?shù)臄?shù) 量有限制,并且,要確定大量(例如數(shù)以百萬計的)用戶之間的相似性,需要大量的時間來 獲得足夠數(shù)量的案例(見非專利文獻3)。
[0014] 針對這一問題,本發(fā)明的目的是在無需獲取大量的內(nèi)容的情況下估計內(nèi)容的相似 性,以把社交媒體的用戶分類。
[0015] 本發(fā)明是發(fā)明人基于在研究這些問題時獲得的對社交媒體的特點的深刻認識而 作出的。社交媒體的用戶們,除了通過他們發(fā)布的內(nèi)容,還通過個人簡檔(profile)發(fā)生聯(lián) 系。個人簡檔是一種包括自我介紹的簡短文本。已經(jīng)觀察到個人簡檔有包括與內(nèi)容相關的 信息(喜好和興趣、年齡、職業(yè)等)的趨勢。此外,由于每個用戶的簡檔相比于內(nèi)容(通常是 每個用戶一個)更少,許多用戶的簡檔都可以在對發(fā)送和接收查詢的限制范圍內(nèi)獲得。然 而,因為個人簡檔部分的文字量通常有限,且個人簡檔通常包括與作為內(nèi)容張貼的主題沒 有直接關系的措辭,所以,單從個人簡檔信息,難以把用戶們劃歸反映他們的內(nèi)容的相似性 的類別。
[0016] 問題的解決方案
[0017] 本發(fā)明利用這些深刻認識來提供無需獲得所有用戶的內(nèi)容就能根據(jù)內(nèi)容的相似 性分類的手段。換言之,只從數(shù)量很少的用戶獲得內(nèi)容,以首先把這些用戶分類。然后,單 獨利用個人簡檔來把大量的額外用戶指派到先前分類的集合。這樣,不用從所有的用戶獲 得大量的內(nèi)容就能實現(xiàn)反映內(nèi)容相似性的分類。
[0018] 本發(fā)明是一種用計算機把各個用戶與一文本簡檔和文本內(nèi)容相關聯(lián)的社交媒體 中的多個用戶劃歸入多個群集的方法,該方法包含下述步驟:根據(jù)與一部分用戶相關聯(lián)的 內(nèi)容,為該部分用戶的各個用戶生成內(nèi)容特征向量;根據(jù)內(nèi)容特征向量,生成多個群集并且 映射該多個群集與該部分用戶;根據(jù)與映射到各個群集的該部分用戶相關聯(lián)的簡檔為該多 個群集的各個群集生成第一簡檔特征向量;以及根據(jù)與除該部分用戶以外的其他用戶相關 聯(lián)的簡檔和第一簡檔特征向量,把其他用戶的各個用戶劃歸入多個群集。
[0019] 這里,社交媒體可以是微博,以及各個用戶發(fā)布到微博的多個帖子的內(nèi)容。此外, 內(nèi)容特征向量可以用多個帖子中包含的單詞(word)作為元素。單詞可以是帖子中包含的 名詞、動詞或相關的措辭(dependentexpression)。內(nèi)容特征向量還可以向多個帖子中包 含的各個單詞分配一個重要性程度(得分),諸如出現(xiàn)頻率。在聚類過程中用得分來比較特 征向量。
[0020] 并且,在生成多個群集的步驟中,可以通過對與該部分用戶相關聯(lián)的內(nèi)容應用潛 在狄利克雷分配(LatentDirichletAllocation)模型以及聚類在相同話題上可能使用的 單詞而生成該多個群集。并且,在映射該多個群集與該部分用戶的步驟中,可以用與該部分 用戶相關聯(lián)的內(nèi)容中的聚類結(jié)果把該部分用戶映射到各個群集。
[0021] 并且,在生成第一簡檔特征向量的步驟中,可以根據(jù)與映射到每個群集的部分用 戶相關聯(lián)的簡檔中的單詞生成第一簡檔特征向量。單詞可以是帖子中包含的名詞、動詞或 相關措辭。這里,可以根據(jù)該單詞是否是與映射到其他群集的部分用戶相關聯(lián)的簡檔中的 單詞相比而言可能出現(xiàn)的單詞而生成第一簡檔特征向量。并且,該單詞是與映射到其他群 集的部分用戶相關聯(lián)的簡檔中的單詞相比而言第T最可能出現(xiàn)的單詞(T是自然數(shù))。并且, 在把其他用戶的各個用戶劃歸入多個類別的步驟中,根據(jù)第T最可能出現(xiàn)的單詞是否出現(xiàn) 在與其他用戶相關聯(lián)的簡檔中而把其他用戶的各個用戶劃歸入多個類別。
[0022] 該方法也包含根據(jù)與除該部分用戶以外的其他用戶相關聯(lián)的簡檔而為其他用戶 的各個用戶生成第二簡檔特征向量的步驟。這里,在把其他用戶的各個用戶劃歸入多個類 別的步驟中,根據(jù)第一簡檔特征向量和第二簡檔特征向量而把其他用戶的各個用戶劃歸入 多個類別。
[0023] 并且,可以根據(jù)第一簡檔特征向量和第二簡檔特征向量之間的相似度把一個用戶 劃歸入對應于具有最高相似度的第一簡檔特征向量的群集。并且,在把其他用戶的各個用 戶劃歸該多個群集中的步驟中,可以允許把一個用戶