用于對社交媒體的用戶分類的方法、計算機程序和計算機的制作方法

文檔序號：9620900閱讀：387來源：國知局

用于對社交媒體的用戶分類的方法、計算機程序和計算機的制作方法
【技術領域】
[0001] 本發(fā)明涉及信息處理技術，更具體來說，涉及更有效地識別社交媒體中的用戶集合的技術。
【背景技術】
[0002] 隨著社交媒體的廣泛使用，按"偏好和興趣"為社交媒體用戶分類，用于市場營銷，越來越廣為人知。例如，這些分類被用來識別用戶有可能購買的產(chǎn)品和服務，以及分割大型用戶集合（按照相似興趣的分類）。已經(jīng)有人嘗試根據(jù)年齡和政治傾向相似的用戶在社交媒體上發(fā)布相似內(nèi)容的假設來識別用戶集合。例如，有人已經(jīng)努力過用內(nèi)容相似性來估計用戶的年齡和政治傾向（非專利文獻1和非專利文獻2)，這些努力已經(jīng)取得了一定的成功。用類似的技術來估計具有共同偏好和興趣的用戶集合被認為在理論上是可能的。
[0003] 現(xiàn)有技術文獻
[0004] 專利文獻
[0005] 專利文獻1 :特許4, 898, 938號公報
[0006] 專利文獻2 :特開2000-148864號公報 [0007]非專利文獻
[0008]非專利文獻l:Pennacchiotti，M.、Popescu，A._M.，2011 年， ^Democrats,RepublicansandStarbucksAfficionados:UserClassificationin Twitter,'，Proceedingsofthe17thACMSIGKDDInternationalConferenceon KnowledgeDiscoveryandDataMining(KDD2011)，pp. 430-438, 2011.("民主黨人、共和黨人和星巴克迷：推特中的用戶分類"，第17屆ACMSIGKDD知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際研討會論文集，2011年，第430-438頁）。
[0009] 非專利文獻 2 :Rao,D.、Yarowsky,D.、Shreevats,A.、Gupta,M. (2010)， "ClassifyingLatentUserAttributesinTwitter'，Proceedingsofthe2nd InternationalWorkshoponSearchandMiningUser-GeneratedContents(SMUC 2010)，pp. 37-44,2010.( "分類推特中的用戶屬性"，第二屆用戶生成內(nèi)容的檢索和挖掘國際研討會論文集，2010年，第37-44頁）。
[0010] 非專利文獻 3 :Twitter，"GETstatuses/user_timeline"，[online]，2013-02-12 ，Twitter[2013-02-25 檢索]。因特網(wǎng)URL〈https://dev.twitter,com/docs/api/1. 1/get/ statuses/user_timeline>〇
[0011]非專利文獻 4:KritiPuniyani,JacobEisenstein,ShayCohen,和Eric P.Xing(2010)，"SocialLinksfromLatentTopicsinMicroblogs'，，Proceedingsof theNAACLHLT2010fforkshoponComputationalLinguisticsinaWorldofSocial Media(WSA' 10).AssociationforComputationalLinguistics,Stroudsburg,PA,USA, pp. 19-20,2010.( "來自微博的潛在主題的社交鏈接"，2010年NAACLHLT社交媒體世界計算語言學會議，（美國賓夕法尼亞州斯特勞斯堡，計算語言學協(xié)會，第19-20頁）。

【發(fā)明內(nèi)容】

[0012] 發(fā)明要解決的技術問題
[0013] 現(xiàn)有技術需要大量的內(nèi)容，但是，鑒于社交媒體的廣泛使用，對API查詢傳輸?shù)臄?shù) 量有限制，并且，要確定大量（例如數(shù)以百萬計的）用戶之間的相似性，需要大量的時間來獲得足夠數(shù)量的案例（見非專利文獻3)。
[0014] 針對這一問題，本發(fā)明的目的是在無需獲取大量的內(nèi)容的情況下估計內(nèi)容的相似性，以把社交媒體的用戶分類。
[0015] 本發(fā)明是發(fā)明人基于在研究這些問題時獲得的對社交媒體的特點的深刻認識而作出的。社交媒體的用戶們，除了通過他們發(fā)布的內(nèi)容，還通過個人簡檔（profile)發(fā)生聯(lián) 系。個人簡檔是一種包括自我介紹的簡短文本。已經(jīng)觀察到個人簡檔有包括與內(nèi)容相關的信息（喜好和興趣、年齡、職業(yè)等）的趨勢。此外，由于每個用戶的簡檔相比于內(nèi)容（通常是每個用戶一個）更少，許多用戶的簡檔都可以在對發(fā)送和接收查詢的限制范圍內(nèi)獲得。然而，因為個人簡檔部分的文字量通常有限，且個人簡檔通常包括與作為內(nèi)容張貼的主題沒有直接關系的措辭，所以，單從個人簡檔信息，難以把用戶們劃歸反映他們的內(nèi)容的相似性的類別。
[0016] 問題的解決方案
[0017] 本發(fā)明利用這些深刻認識來提供無需獲得所有用戶的內(nèi)容就能根據(jù)內(nèi)容的相似性分類的手段。換言之，只從數(shù)量很少的用戶獲得內(nèi)容，以首先把這些用戶分類。然后，單獨利用個人簡檔來把大量的額外用戶指派到先前分類的集合。這樣，不用從所有的用戶獲得大量的內(nèi)容就能實現(xiàn)反映內(nèi)容相似性的分類。
[0018] 本發(fā)明是一種用計算機把各個用戶與一文本簡檔和文本內(nèi)容相關聯(lián)的社交媒體中的多個用戶劃歸入多個群集的方法，該方法包含下述步驟：根據(jù)與一部分用戶相關聯(lián)的內(nèi)容，為該部分用戶的各個用戶生成內(nèi)容特征向量；根據(jù)內(nèi)容特征向量，生成多個群集并且映射該多個群集與該部分用戶；根據(jù)與映射到各個群集的該部分用戶相關聯(lián)的簡檔為該多個群集的各個群集生成第一簡檔特征向量；以及根據(jù)與除該部分用戶以外的其他用戶相關聯(lián)的簡檔和第一簡檔特征向量，把其他用戶的各個用戶劃歸入多個群集。
[0019] 這里，社交媒體可以是微博，以及各個用戶發(fā)布到微博的多個帖子的內(nèi)容。此外，內(nèi)容特征向量可以用多個帖子中包含的單詞（word)作為元素。單詞可以是帖子中包含的名詞、動詞或相關的措辭（dependentexpression)。內(nèi)容特征向量還可以向多個帖子中包含的各個單詞分配一個重要性程度（得分），諸如出現(xiàn)頻率。在聚類過程中用得分來比較特征向量。
[0020] 并且，在生成多個群集的步驟中，可以通過對與該部分用戶相關聯(lián)的內(nèi)容應用潛在狄利克雷分配（LatentDirichletAllocation)模型以及聚類在相同話題上可能使用的單詞而生成該多個群集。并且，在映射該多個群集與該部分用戶的步驟中，可以用與該部分用戶相關聯(lián)的內(nèi)容中的聚類結(jié)果把該部分用戶映射到各個群集。
[0021] 并且，在生成第一簡檔特征向量的步驟中，可以根據(jù)與映射到每個群集的部分用戶相關聯(lián)的簡檔中的單詞生成第一簡檔特征向量。單詞可以是帖子中包含的名詞、動詞或相關措辭。這里，可以根據(jù)該單詞是否是與映射到其他群集的部分用戶相關聯(lián)的簡檔中的單詞相比而言可能出現(xiàn)的單詞而生成第一簡檔特征向量。并且，該單詞是與映射到其他群集的部分用戶相關聯(lián)的簡檔中的單詞相比而言第T最可能出現(xiàn)的單詞（T是自然數(shù)）。并且，在把其他用戶的各個用戶劃歸入多個類別的步驟中，根據(jù)第T最可能出現(xiàn)的單詞是否出現(xiàn) 在與其他用戶相關聯(lián)的簡檔中而把其他用戶的各個用戶劃歸入多個類別。
[0022] 該方法也包含根據(jù)與除該部分用戶以外的其他用戶相關聯(lián)的簡檔而為其他用戶的各個用戶生成第二簡檔特征向量的步驟。這里，在把其他用戶的各個用戶劃歸入多個類別的步驟中，根據(jù)第一簡檔特征向量和第二簡檔特征向量而把其他用戶的各個用戶劃歸入多個類別。
[0023] 并且，可以根據(jù)第一簡檔特征向量和第二簡檔特征向量之間的相似度把一個用戶劃歸入對應于具有最高相似度的第一簡檔特征向量的群集。并且，在把其他用戶的各個用戶劃歸該多個群集中的步驟中，可以允許把一個用戶

完整全部詳細技術資料下載

當前第1頁1 2 3 4

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：西山莉紗;吉田一星;
技術所有人：國際商業(yè)機器公司;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

2017社交媒體用戶報告相關技術

2016社交媒體用戶報告相關技術

中國社交媒體用戶數(shù)量相關技術

2016社交媒體用戶數(shù)量相關技術

2017社交媒體用戶數(shù)量相關技術

社交媒體用戶數(shù)量相關技術

社交媒體用戶相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于對社交媒體的用戶分類的方法、計算機程序和計算機的制作方法