一種基于用戶評論的ugc垃圾內(nèi)容過濾方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于用戶評論的UGC垃圾內(nèi)容過濾方法,包括以下步驟:將發(fā)表正文數(shù)據(jù)的用戶作為第一用戶,將發(fā)表評論數(shù)據(jù)的用戶作為第二用戶,判斷所述第一用戶與第二用戶是否為同一聚類,若是,則對所述評論數(shù)據(jù)進行分析,判斷所述評論數(shù)據(jù)是否為垃圾內(nèi)容,若是,則刪除用戶生產(chǎn)內(nèi)容,所述用戶生產(chǎn)內(nèi)容包括正文數(shù)據(jù)和所有評論數(shù)據(jù)。相應地,本發(fā)明還公開了一種基于用戶評論的UGC垃圾內(nèi)容過濾系統(tǒng)。本發(fā)明方法及系統(tǒng)可以針對正文和評論進行一體化打擊,能夠識別并有力打擊看似正常的垃圾內(nèi)容,對垃圾內(nèi)容實現(xiàn)有效管控,提高平臺的生態(tài)健康和用戶體驗。
【專利說明】
一種基于用戶評論的UGC垃圾內(nèi)容過濾方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種基于用戶評論的UGC垃圾內(nèi)容過濾方法及系統(tǒng)。
【背景技術(shù)】
[0002]UGC(User Generated Content,用戶生產(chǎn)內(nèi)容)是當前國際主流媒體興起的一種思路,即在編輯的規(guī)范和指導下,把內(nèi)容的產(chǎn)生過程交付到用戶手上,讓用戶獲得主語權(quán)。每一個UGC內(nèi)容平臺在發(fā)展壯大之后,必然伴隨著垃圾內(nèi)容的滋生和成長。這些垃圾內(nèi)容主要包括色情、廣告、欺詐等。如果不能有效管控,垃圾內(nèi)容的泛濫將嚴重影響平臺的生態(tài)健康、用戶體驗,甚至危及平臺的生存。
[0003]基于文本內(nèi)容,通過機器學習手段,對正文進行分類并識別出垃圾內(nèi)容。這種手段已經(jīng)被廣泛用于各大內(nèi)容平臺上。用戶在發(fā)表新的內(nèi)容之后,可以立刻通過事先訓練好的分類模型判斷其是否為垃圾內(nèi)容。這種方法實現(xiàn)簡單,對于有著明顯文本特征的正文來說有著非常不錯的效果。
[0004]然而,對抗的雙方都會不斷進化。實踐中發(fā)現(xiàn),惡意用戶發(fā)明了一些新的形式來規(guī)避這種基于正文文本的打擊。在這些形式中,正文通常并沒有包括明顯的惡意特征,甚至看起來非常健康,通過吸引人的故事,漂亮的圖片吸引其他用戶瀏覽與互動,而垃圾部分則被轉(zhuǎn)移至評論。
[0005]例如,某社區(qū)帖子的正文為漂亮圖片以及具有文藝氣息的文本,從帖子正文來看,完全無法看得出這是一個護膚類的廣告貼。然而,發(fā)帖者通過優(yōu)質(zhì)的圖文引起讀者的興趣之后,通過小號的問答形式,在評論中打了一個非常明顯的護膚類廣告。此類廣告形式已經(jīng)在某些社區(qū)內(nèi)產(chǎn)品中大量出現(xiàn),對社區(qū)生態(tài)、用戶體驗,甚至用戶的個人利益都造成了很大的傷害,需要有效的打擊方法。然而目前的主流做法是針對正文和評論單獨進行打擊,對于這種形式的垃圾帖子無法成功識別。
[0006]針對正文的垃圾文本過濾在業(yè)界有著非常成熟的應用,基于圖片內(nèi)容的識別也在部分平臺上有了嘗試。此外,基于用戶關(guān)系鏈的垃圾內(nèi)容打擊也在一些社交型內(nèi)容平臺上有應用。但是所有這些都是基于內(nèi)容本身或者是用戶維度的,對于本文所描述的新的垃圾內(nèi)容形式無法做到有效打擊。
【發(fā)明內(nèi)容】
[0007]為了解決上述技術(shù)問題,本發(fā)明提供了一種基于用戶評論的UGC垃圾內(nèi)容過濾方法,包括以下步驟:
[0008]將發(fā)表正文數(shù)據(jù)的用戶作為第一用戶,將發(fā)表評論數(shù)據(jù)的用戶作為第二用戶,判斷所述第一用戶與第二用戶是否為同一聚類,若是,則對所述評論數(shù)據(jù)進行分析,判斷所述評論數(shù)據(jù)是否為垃圾內(nèi)容,若是,則刪除用戶生產(chǎn)內(nèi)容,所述用戶生產(chǎn)內(nèi)容包括正文數(shù)據(jù)和所有評論數(shù)據(jù)。
[0009]本發(fā)明方法中的第二用戶在狹義上僅僅代表發(fā)表評論的第二用戶,在廣義上包括第一用戶和第二用戶,廣義上的第二用戶包括針對第二用戶的評論進行回復的第一用戶,此時第一用戶則作為第二用戶。在本發(fā)明中當判斷第一用戶與第二用戶之間的互動是否頻繁時,使用的是狹義上的第二用戶,當判斷第二用戶與第二用戶之間的互動是否頻繁時,使用的是廣義上的第二用戶。另外,在本
【發(fā)明內(nèi)容】
中沒有注明是為狹義上的第二用戶還是廣義上的第二用戶時,均為狹義上的第二用戶。
[0010]進一步地,所述判斷所述第二用戶與第一用戶是否為同一聚類的方法為:若所述第一用戶和第二用戶滿足以下條件,則判斷所述第一用戶與第二用戶是同一聚類:
[0011]所述第一用戶與第二用戶為同一用戶,
[0012]所述第一用戶與第二用戶的登陸位置相同或基本相同,或
[0013]所述第一用戶與第二用戶或第二用戶與第二用戶之間的互動頻繁。
[0014]進一步地,所述判斷所述第一用戶與第二用戶是否為同一聚類之前還包括:
[0015]獲取第一用戶的用戶信息和發(fā)表的正文數(shù)據(jù),所述第一用戶的用戶信息包括第一用戶的用戶ID,所述正文數(shù)據(jù)包括正文內(nèi)容和與正文內(nèi)容對應的正文ID;建立第一用戶的用戶ID和正文ID的第一映射關(guān)系;存儲第一用戶的用戶信息、第一映射關(guān)系和正文數(shù)據(jù);
[0016]獲取第二用戶的用戶信息和發(fā)表的評論數(shù)據(jù),所述第二用戶的用戶信息包括第二用戶的用戶ID,所述評論數(shù)據(jù)包括評論內(nèi)容;建立第二用戶的用戶ID和正文ID的第二映射關(guān)系;存儲第二用戶的用戶信息、第二映射關(guān)系和評論數(shù)據(jù)。
[0017]進一步地,若所述第二用戶為新用戶,則根據(jù)所述新用戶的注冊信息判斷所述新用戶與所述第一用戶是否為同一聚類。
[0018]進一步地,所述判斷所述第一用戶與第二用戶是否為同一聚類,還包括:
[0019]若不是同一聚類,則丟棄第二用戶的用戶信息和第二映射關(guān)系。
[0020]進一步地,所述判斷所述評論數(shù)據(jù)是否為垃圾內(nèi)容,還包括:
[0021]若不是垃圾內(nèi)容,則丟棄所述評論數(shù)據(jù)、第二用戶的用戶信息和第二映射關(guān)系。
[0022]進一步地,所述方法還包括:
[0023]在預設(shè)時間內(nèi),若所有第二用戶發(fā)表的評論數(shù)據(jù)沒有出現(xiàn)垃圾內(nèi)容,則丟棄用戶生產(chǎn)內(nèi)容,所述用戶生產(chǎn)內(nèi)容包括第一用戶的用戶信息、第一映射關(guān)系、第二用戶的用戶信息和第二映射關(guān)系。其中,該處的第二用戶則為廣義上的第二用戶。
[0024]相應地,本發(fā)明還提供了一種基于用戶評論的UGC垃圾內(nèi)容過濾系統(tǒng),所述系統(tǒng)包括判斷模塊,
[0025]所述判斷模塊,用于將發(fā)表正文數(shù)據(jù)的用戶作為第一用戶,將發(fā)表評論數(shù)據(jù)的用戶作為第二用戶,判斷所述第一用戶與第二用戶是否為同一聚類,若是,則對所述評論數(shù)據(jù)進行分析,判斷所述評論數(shù)據(jù)是否為垃圾內(nèi)容,若是,則刪除用戶生產(chǎn)內(nèi)容,所述用戶生產(chǎn)內(nèi)容包括正文數(shù)據(jù)和所有評論數(shù)據(jù)。
[0026]進一步地,所述系統(tǒng)還包括獲取模塊、關(guān)系建立模塊和存儲模塊,
[0027]所述獲取模塊,用于獲取第一用戶的用戶信息和發(fā)表的正文數(shù)據(jù),所述第一用戶的用戶信息包括第一用戶的用戶ID,所述正文數(shù)據(jù)包括正文內(nèi)容和與正文內(nèi)容對應的正文ID;還用于獲取第二用戶的用戶信息和發(fā)表的評論數(shù)據(jù),所述第二用戶的用戶信息包括第二用戶的用戶ID,所述評論數(shù)據(jù)包括評論內(nèi)容;
[0028]所述關(guān)系建立模塊,用于在建立第一用戶的用戶ID和正文ID的第一映射關(guān)系;還用于建立第二用戶的用戶ID和正文ID的第二映射關(guān)系;
[0029]所述存儲模塊,用于第一用戶的用戶信息、第一映射關(guān)系和正文數(shù)據(jù);還用于存儲第二用戶的用戶信息、第二映射關(guān)系和評論數(shù)據(jù)。
[0030]進一步地,所述判斷模塊,還用于:
[0031]若判斷不是同一聚類,則丟棄第二用戶的用戶信息和第二映射關(guān)系;
[0032]若判斷所述評論數(shù)據(jù)不是垃圾內(nèi)容,則丟棄所述評論數(shù)據(jù)、第二用戶的用戶信息和第二映射關(guān)系;
[0033]若判斷在預設(shè)時間內(nèi),所有第二用戶發(fā)表的評論數(shù)據(jù)沒有出現(xiàn)垃圾內(nèi)容,則丟棄用戶生產(chǎn)內(nèi)容,所述用戶生產(chǎn)內(nèi)容包括第一用戶的用戶信息、第一映射關(guān)系、第二用戶的用戶信息和第二映射關(guān)系。其中,該處的第二用戶則為廣義上的第二用戶。
[0034]本發(fā)明的基于用戶評論的UGC垃圾內(nèi)容過濾方法及系統(tǒng),具有如下有益效果:
[0035]1、本發(fā)明方法及系統(tǒng)可以針對正文和評論進行一體化打擊,對垃圾內(nèi)容的識別精度高,首先確定第一用戶與第二用戶之間的關(guān)系,若為同一聚類,則判斷同一聚類中第二用戶的評論數(shù)據(jù)是否為垃圾內(nèi)容,若為垃圾內(nèi)容,則直接刪除帖子,能夠識別并有力打擊看似正常的垃圾內(nèi)容,對垃圾內(nèi)容實現(xiàn)有效管控,提高平臺的生態(tài)健康和用戶體驗。
[0036]2、本發(fā)明方法及系統(tǒng)能夠有效打擊第一用戶利用小號發(fā)布垃圾內(nèi)容的情況,對第一用戶的小號、“托”以及垃圾內(nèi)容識別精度都非常高,不僅判斷第二用戶與第一用戶的關(guān)系,還判斷第二用戶與第二用戶之間的關(guān)系,即便第一用戶本身不發(fā)布垃圾內(nèi)容,而利用小號進行發(fā)布,也會被識別出,進一步提高了平臺的生態(tài)健康和用戶體驗,用時對垃圾內(nèi)容實現(xiàn)了有效管控。
【附圖說明】
[0037]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它附圖。
[0038]圖1是本發(fā)明實施例一的基于用戶評論的UGC垃圾內(nèi)容過濾方法的流程圖;
[0039]圖2是本發(fā)明實施例一中的用戶A發(fā)表的帖子正文效果圖;
[0040]圖3是本發(fā)明實施例一中的用戶A發(fā)表的帖子正文中未顯示部分的效果圖;
[0041]圖4是本發(fā)明實施例一中的用戶C和D發(fā)表的評論效果圖;
[0042]圖5是本發(fā)明實施例三的基于用戶評論的UGC垃圾內(nèi)容過濾系統(tǒng)的框圖。
【具體實施方式】
[0043]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0044]實施例一:
[0045]本發(fā)明提供了一種基于用戶評論的UGC垃圾內(nèi)容過濾方法,包括以下步驟:
[0046]S101、離線收集評論數(shù)據(jù),并進行特征提取,通過機器學習方法進行訓練,建立分類模型;
[0047]具體為:離線收集用戶評論數(shù)據(jù)的正負樣本,其中,正樣本為垃圾評論,負樣本為正常評論,評論數(shù)據(jù)包括但不限于文本、圖片、視頻等形式。提取正負樣本中的相應特征,通過樸素貝葉斯算法進行訓練;
[0048]從正樣本和負樣本中構(gòu)成分類器,學習正負樣本的結(jié)構(gòu)和CPT,例如,正樣本中的垃圾評論的特征包括但不限于“皮膚”Cl、“最美俏佳人”C2、“美女”C3、“激情”c4、“代理”C5、“優(yōu)惠券” c6、“有獎銷售” c7、“處理” c8、“削價” c9,將上述特征進行歸一化處理,將“皮膚” Cl和“最美俏佳人” c2歸為“護膚”廣告Xl,將“美女” c3和“激情,,c4歸為“色情”內(nèi)容x2,將“代理” c5和“優(yōu)惠券” c6歸為“代理”廣告x3,將“有獎銷售” c7、“處理” c8和“削價” c9歸為“欺詐”廣告x4,則cl-c9可以構(gòu)成類集合C,所述類集合歸一化后組成一組節(jié)點X,即貝葉斯網(wǎng)絡中包含類結(jié)點C,其中,C的取值來自于類集合(cl,c2,c3,c4…,c9),X的取值為(xl,x2,...,x4);與正樣本的學習方式相同,負樣本也通過樸素貝葉斯算法進行訓練,從而建立分類模型。
[0049]S102、在發(fā)帖用戶成功發(fā)表新帖子之后,后臺服務器建立發(fā)帖用戶ID和正文ID的第一映射關(guān)系,并存儲所述新帖子的正文數(shù)據(jù)和所述第一映射關(guān)系,其中,正文ID即為帖子的正文ID;
[0050]在所述評論用戶發(fā)表評論數(shù)據(jù)后,建立所述評論用戶ID和正文ID的第二映射關(guān)系,并存儲評論數(shù)據(jù)和所述第二映射關(guān)系,考慮到打擊的時效性和服務器存儲能力,只緩存最近N個小時(例如最近48個小時)的帖子發(fā)表的數(shù)據(jù)。
[0051]S103、對用戶進行聚類,得到用戶聚類結(jié)果,所述用戶包括第一用戶和若干第二用戶,所述第一用戶發(fā)表正文數(shù)據(jù),所述第二用戶發(fā)表評論數(shù)據(jù),本實施例中的第一用戶為發(fā)帖用戶,第二用戶為評論用戶;
[0052]具體為:根據(jù)用戶屬性、行為,如用戶ID、用戶名稱,用戶注冊時的其他資料信息,以及該用戶與其他用戶之間的互動等行為,對用戶進行聚類,使得符合以下情況中任意一種的用戶被聚類到同一類中:
[0053]I)發(fā)帖用戶在真實世界中與評論用戶為同一用戶;
[0054]是否為用一用戶,可以根據(jù)用戶在注冊時填寫的資料或用戶ID等信息進行判斷,例如,發(fā)帖用戶使用一個或多個小號,而該一個或多個小號與發(fā)帖用戶在真實世界中實際上是同一個人。
[0055]2)所述發(fā)帖用戶與評論用戶的登陸位置基本相同或相同;
[0056]例如,A為發(fā)帖用戶,B、C和D都是評論用戶,若A、B、C和D用戶的登陸位置都是在X處,或登陸IP相近,則該A、B、C和D用戶可以被認為是同一聚類;
[0057]3)所述發(fā)帖用戶與評論用戶或評論用戶與評論用戶之間的互動頻繁。
[0058]例如,A為發(fā)帖用戶,B、C和D都是評論用戶,若A與B、C和D中的任意一個或多個之間的互動非常頻繁,互動包括瀏覽、評論、點贊、轉(zhuǎn)發(fā)等行為,則B、C和D中的任意一個或多個非常有可能是A的“托”,則將B、C和D中的任意一個或多個與A歸為同一聚類;
[0059]若B與C和D中的任意一個或兩個之間的互動非常頻繁,則B、C和D中的任意一個或多個非常有可能是A的“托”,或者B、C和D都有可能是A的小號,則將B、C和D中的任意一個或多個與A歸為同一聚類。
[0060]S104、實時監(jiān)控基于該帖子的用戶評論,對于出現(xiàn)新的評論,則執(zhí)行以下步驟:
[0061 ] S1041、若判斷該用戶評論是否為最近N個小時內(nèi)的,若是在最近N個小時之前,則直接丟棄該數(shù)據(jù)并結(jié)束,否則,執(zhí)行步驟S1042;
[0062]S1042、判斷用戶是否為新注冊用戶,若是,則執(zhí)行步驟S1043,否則,根據(jù)離線的用戶聚類結(jié)果,檢查評論用戶與發(fā)帖用戶是否處于同一聚類中,若不在同一聚類中,則丟棄該數(shù)據(jù)并結(jié)束,否則,執(zhí)行步驟S1044;
[0063]S1043、根據(jù)新用戶在注冊時填寫的資料、登陸信息等,例如登陸IP、移動設(shè)備碼等,對用戶進行在線聚類,聚類有兩種情況,一種是分配到已有的聚類中,另一種是自成一個新的聚類,若不在同一聚類中,則丟棄該數(shù)據(jù)并結(jié)束,否則轉(zhuǎn)步驟S1044;
[0064]S1044、利用離線訓練的評論分類模型,對評論內(nèi)容進行分類,判斷評論內(nèi)容是否為垃圾內(nèi)容,若不是,則丟棄該數(shù)據(jù)并結(jié)束,否則,轉(zhuǎn)步驟S1045;
[0065]S1045、將正文標識為垃圾內(nèi)容,進行下架處理,即刪除用戶生產(chǎn)內(nèi)容UGC,其中,所述用戶生產(chǎn)內(nèi)容UGC包括正文數(shù)據(jù)和所有評論數(shù)據(jù),同時將存儲的所有用戶信息和用戶ID與正文ID的映射關(guān)系移除,防止歷史數(shù)據(jù)占用內(nèi)存過大。
[0066]例如,只緩存最近48小時內(nèi)帖子數(shù)據(jù),A為發(fā)帖用戶,B、C和D都是評論用戶,其中C為新注冊用戶,其他都為老用戶,C在注冊時登陸地址與A基本相同,B、C和D均與A互動很頻繁,且他們發(fā)表的內(nèi)容都是在48小時內(nèi)的;
[0067]如圖2和圖3所示,A發(fā)表帖子的正文為一張美女圖片和一句話,該句話的內(nèi)容為“心若沒有棲息的地方,到哪都是流浪。有些人一直沒有機會見,等有機會見了,卻又猶豫了,相見不如不見。有些話埋葬在心中好久,沒有機會說,等有機會說的時候,卻說不出口了。有些愛一直沒有機會愛,等有機會了,已經(jīng)不愛,真的不愛了嗎?”;
[0068]B發(fā)表的評論內(nèi)容為“彩虹的美麗,讓我們都學會了堅強,堅強面對突如其來的愛情,,;
[0069]如圖4所示,C與A的其中一段對話為:C發(fā)表評論“姐姐好漂亮,皮膚真好,怎么保養(yǎng)的,好羨慕你啊,有沒有什么秘方啊?”,A回復“謝謝夸獎啊,我也沒有什么秘方,就是在最美俏佳人節(jié)目里認識一個達人,她教我的”;
[0070]D與A的其中一段對話為:D發(fā)表評論“我也好羨慕姐姐,皮膚真好,能否告訴我那位達人的聯(lián)系方式啊?”,A回復“好吧,我告訴你們吧,她的QQ號為207864681,你看還能加上不? ”;
[0071 ]按照發(fā)表評論的時間先后順序依次執(zhí)行本實施例方法,例如,先對A執(zhí)行下述I )-3)的步驟,再對B執(zhí)行下述1)-3)的步驟,再對C執(zhí)行下述1)-3)的步驟,最后對D執(zhí)行下述1)-3)的步驟,為了方便,下面就沒有區(qū)分先后順序,在一個方法中統(tǒng)一描述:
[0072]I )A、B、C和D發(fā)表的內(nèi)容都是在48小時內(nèi)的;
[0073]2)B、C和D中C屬于新注冊用戶,則對于C,根據(jù)C在注冊時填寫的資料,以及登陸IP等信息,對C進行在線聚類,由于C在注冊時登陸地址與A基本相同,則將C分配到已有的聚類中,即C與A屬于同一聚類;
[0074]對于B和D,根據(jù)離線的用戶聚類結(jié)果,B和D均與A互動很頻繁,則將B和D分配到已有的聚類中,即B和D與A屬于同一聚類;
[0075]判斷完B、C和D的聚類之后,則對于B、C和D用戶執(zhí)行下一步驟;
[0076]3)利用離線訓練的分類模型,對A、B、C和D的評論內(nèi)容進行分類;
[0077]通過判斷,B為正常內(nèi)容,則丟棄B的評論內(nèi)容,并結(jié)束;
[0078]通過判斷,A、C和D的評論內(nèi)容為垃圾內(nèi)容,則將正文標識為垃圾內(nèi)容,進行下架處理,即刪除用戶生產(chǎn)內(nèi)容UGC,其中,所述用戶生產(chǎn)內(nèi)容UGC包括正文數(shù)據(jù)和所有評論數(shù)據(jù),同時將存儲的所有用戶信息和用戶ID與正文ID的映射關(guān)系移除,防止歷史數(shù)據(jù)占用內(nèi)存過大。
[0079]另外,還可以設(shè)置定時器或自動超時機制,對于在預設(shè)時間內(nèi)沒有出現(xiàn)垃圾評論的帖子,從內(nèi)存中清除基于該帖子的用戶生產(chǎn)內(nèi)容UGC。
[0080]本發(fā)明實施例中的評論內(nèi)容包括發(fā)帖用戶對評論用戶的回復和評論用戶發(fā)表的評論,所以評論用戶也屬于廣義上的評論用戶,評論用戶包括上述情況的發(fā)帖用戶和評論用戶,狹義上的評論用戶僅指發(fā)表評論的用戶。
[0081]本發(fā)明實施例中的基于用戶評論的UGC垃圾內(nèi)容過濾方法具有如下有益效果:本發(fā)明方法可以針對帖子正文和評論進行一體化打擊,對垃圾內(nèi)容的識別精度高,首先確定發(fā)帖用戶與評論用戶之間的關(guān)系,若為同一聚類,則判斷同一聚類中評論用戶的評論數(shù)據(jù)是否為垃圾內(nèi)容,若為垃圾內(nèi)容,則直接刪除帖子,能夠識別并有力打擊看似正常的垃圾內(nèi)容,對垃圾內(nèi)容實現(xiàn)有效管控,提高平臺的生態(tài)健康和用戶體驗。
[0082]實施例二:
[0083]本發(fā)明實施例與實施例一的區(qū)別在于:
[0084]本發(fā)明實施例在對樣本進行訓練時是通過神經(jīng)網(wǎng)絡算法進行訓練,建立分類模型的。
[0085]例如,只緩存最近72小時內(nèi)的帖子數(shù)據(jù),A為發(fā)帖用戶,B、C、D和E都是評論用戶,其中B為新注冊用戶,其他都為老用戶,根據(jù)B注冊時的信息與登錄IP等能夠確定其與A不屬于同一聚類,C在現(xiàn)實世界中與A是同一個用戶,具體為C為A的小號,D和E與A的登陸位置基本相同或D和E與C的登陸位置基本相同,且與C的互動很頻繁,但是與A的互動不頻繁,所有這些用戶發(fā)表的內(nèi)容都是在48小時內(nèi)的;
[0086]A發(fā)表帖子的正文為一段新聞和與該段話相關(guān)的圖片,該段話的內(nèi)容為“XX食藥監(jiān)局關(guān)于復原乳標注不醒目的通知引發(fā)熱議”,圖片的內(nèi)容是市場上賣的各類牛奶的加工工藝以及如何挑選優(yōu)質(zhì)好牛奶;
[0087]B發(fā)表的評論內(nèi)容為“我中招了,之前喝過好多都是什么乳、什么調(diào)制奶的,原來都算是飲料,不是牛奶”;
[0088]C與A的其中一段對話為:C發(fā)表評論“我之前喝過XX奶,是國外進口的,且價格也非常合理,我們一家人還到他們加工牛奶的工廠看過,非常安全,喝起來放心”;
[0089]D與C的其中一段對話為:D發(fā)表評論“現(xiàn)在市場上賣的都不放心啊,你喝的XX奶,在哪買的啊?”,C回復“好牛奶就要廣泛推廣,你可以到XX網(wǎng)站XX店購買”;
[0090]E與C的其中一段對話為:E發(fā)表評論“我們家剛在XX網(wǎng)站XX店購買了,正好趕上活動,第二件半價呢,非常劃算,最重要的是,奶源很好啊”,C回復“還有活動,現(xiàn)在還有嗎?正好我家的奶喝完了,去看看”;[0091 ]按照發(fā)表評論的時間先后順序依次執(zhí)行本實施例方法,例如,先對A執(zhí)行下述I )-3)的步驟,再對B執(zhí)行下述1)-3)的步驟,再對C執(zhí)行下述1)-3)的步驟,最后對D執(zhí)行下述1)-3)的步驟,為了方便,下面就沒有區(qū)分先后順序,在一個方法中統(tǒng)一描述:
[0092]1)A、B、C、D和E發(fā)表的內(nèi)容都是在48小時內(nèi)的;
[0093]2)B、C、D和E中B屬于新注冊用戶,則對于B,根據(jù)B在注冊時填寫的資料,以及登陸IP等信息,對B進行在線聚類,根據(jù)B注冊時的信息與登錄IP等能夠確定其與A不屬于同一聚類,則直接丟棄B的數(shù)據(jù),并結(jié)束;
[0094]對于C、D和E,根據(jù)離線的用戶聚類結(jié)果,由于C為A的小號,則C與A屬于同一聚類,由于D和E與A的登陸位置基本相同或D和E與C的登陸位置基本相同,則D和E與A也屬于同一聚類或D和E與C屬于同一聚類;即當判斷出C為A的小號或者“托”的時候,則可以將C作為A執(zhí)行實施例一中的S102步驟,判斷D和E與C是否為同一聚類;
[0095]3)利用離線訓練的分類模型,對C、D和E的評論內(nèi)容進行分類;
[0096]通過判斷,C、D和E的評論內(nèi)容為垃圾內(nèi)容,則將正文標識為垃圾內(nèi)容,進行下架處理,即刪除用戶生產(chǎn)內(nèi)容UGC,其中,所述用戶生產(chǎn)內(nèi)容UGC包括正文數(shù)據(jù)和所有評論數(shù)據(jù),同時將存儲的所有用戶信息和用戶ID與正文ID的映射關(guān)系移除,防止歷史數(shù)據(jù)占用內(nèi)存過大;
[0097]或者刪除C、D和E的評論內(nèi)容的評論內(nèi)容,同時移除C、D和E的用戶信息和用戶ID與正文ID的映射關(guān)系移除。
[0098]本發(fā)明實施例中的基于用戶評論的UGC垃圾內(nèi)容過濾方法具有如下有益效果:本發(fā)明方法有效打擊發(fā)帖用戶利用小號發(fā)布垃圾內(nèi)容的情況,對發(fā)帖用戶的小號、“托”以及垃圾內(nèi)容識別精度都非常高,不僅判斷評論用戶與發(fā)帖用戶的關(guān)系,還判斷評論用戶與評論用戶之間的關(guān)系,即便發(fā)帖用戶本身不發(fā)布垃圾內(nèi)容,而利用小號進行發(fā)布,也會被識別出,進一步提高平臺的生態(tài)健康和用戶體驗,用時對垃圾內(nèi)容實現(xiàn)了有效管控。
[0099]實施例三:
[0100]相應地,如圖5所示,本發(fā)明還提供了一種基于用戶評論的UGC垃圾內(nèi)容過濾系統(tǒng),所述系統(tǒng)包括模型建立模塊、聚類模塊、判斷模塊、獲取模塊、關(guān)系建立模塊和存儲模塊,
[0101]所述模型建立模塊,用于離線收集評論數(shù)據(jù),并進行特征提取,通過機器學習方法進行訓練,建立分類模型;
[0102]具體地:所述模型建立模塊,用于離線收集用戶評論數(shù)據(jù)的正負樣本,其中,正樣本為垃圾評論,負樣本為正常評論,評論數(shù)據(jù)包括但不限于文本、圖片、視頻等形式。提取正負樣本中的相應特征,通過樸素貝葉斯算法進行訓練;
[0103]所述模型建立模塊,用于從正樣本和負樣本中構(gòu)成分類器,學習正負樣本的結(jié)構(gòu)和CPT,例如,正樣本中的垃圾評論的特征包括但不限于“皮膚” Cl、“最美俏佳人” C2、“美女”c3、“激情” c4、“代理” c5、“優(yōu)惠券” c6、“有獎銷售” c7、“處理” c8、“削價” c9,將上述特征進行歸一化處理,將“皮膚” cI和“最美俏佳人” c2歸為“護膚”廣告Xl,將“美女” c3和“激情,,c4歸為“色情”內(nèi)容x2,將“代理” c5和“優(yōu)惠券” c6歸為“代理”廣告x3,將“有獎銷售” c7、“處理” c8和“削價” c9歸為“欺詐”廣告x4,則cl-c9可以構(gòu)成類集合C,所述類集合歸一化后組成一組節(jié)點X,即貝葉斯網(wǎng)絡中包含類結(jié)點C,其中,C的取值來自于類集合(cI,c2,c3,c4…,c9),X的取值為(11^2,-_^4);與正樣本的學習方式相同,負樣本也通過樸素貝葉斯算法進行訓練,從而建立分類模型。
[0104]所述聚類模塊,用于對用戶進行聚類,得到用戶聚類結(jié)果,所述用戶包括第一用戶和若干第二用戶,所述第一用戶發(fā)表正文數(shù)據(jù),所述第二用戶發(fā)表評論數(shù)據(jù),本實施例中的第一用戶為發(fā)帖用戶,第二用戶為評論用戶;
[0105]具體為:所述聚類模塊,用于根據(jù)用戶屬性、行為,如用戶ID、用戶名稱,用戶注冊時的其他資料信息,以及該用戶與其他用戶之間的互動等行為,對用戶進行聚類,使得符合以下情況中任意一種的用戶被聚類到同一類中:
[0106]I)發(fā)帖用戶在真實世界中與評論用戶為同一用戶;
[0107]是否為用一用戶,可以根據(jù)用戶在注冊時填寫的資料或用戶ID等信息進行判斷,例如,發(fā)帖用戶使用一個或多個小號,而該一個或多個小號與發(fā)帖用戶在真實世界中實際上是同一個人。
[0108]2)所述發(fā)帖用戶與評論用戶的登陸位置基本相同或相同;
[0109]例如,A為發(fā)帖用戶,B、C和D都是評論用戶,若A、B、C和D用戶的登陸位置都是在X處,或登陸IP相近,則該A、B、C和D用戶可以被認為是同一聚類;
[0110]3)所述發(fā)帖用戶與評論用戶或評論用戶與評論用戶之間的互動頻繁。
[0111]例如,A為發(fā)帖用戶,B、C和D都是評論用戶,若A與B、C和D中的任意一個或多個之間的互動非常頻繁,互動包括瀏覽、評論、點贊、轉(zhuǎn)發(fā)等行為,則B、C和D中的任意一個或多個非常有可能是A的“托”,則將B、C和D中的任意一個或多個與A歸為同一聚類;
[0112]若B與C和D中的任意一個或兩個之間的互動非常頻繁,則B、C和D中的任意一個或多個非常有可能是A的“托”,或者B、C和D都有可能是A的小號,則將B、C和D中的任意一個或多個與A歸為同一聚類。
[0113]所述獲取模塊,用于獲取第一用戶的用戶信息和發(fā)表的正文數(shù)據(jù),所述第一用戶的用戶信息包括第一用戶的用戶ID,所述正文數(shù)據(jù)包括正文內(nèi)容和與正文內(nèi)容對應的正文ID;還用于獲取第二用戶的用戶信息和發(fā)表的評論數(shù)據(jù),所述第二用戶的用戶信息包括第二用戶的用戶ID,所述評論數(shù)據(jù)包括評論內(nèi)容;
[0114]所述關(guān)系建立模塊,用于在發(fā)帖用戶成功發(fā)表新帖子之后,后臺服務器建立發(fā)帖用戶ID和正文ID的第一映射關(guān)系;
[0115]所述存儲模塊,用于存儲所述新帖子的正文數(shù)據(jù)和所述第一映射關(guān)系,其中,內(nèi)容為帖子,貝lJ正文ID即為帖子ID;
[0116]所述關(guān)系建立模塊,還用于在所述評論用戶發(fā)表評論數(shù)據(jù)后,建立所述評論用戶ID和正文ID的第二映射關(guān)系;
[0117]所述存儲模塊,還用于存儲評論數(shù)據(jù)和所述第二映射關(guān)系,考慮到打擊的時效性和服務器存儲能力,只緩存最近N個小時(例如最近48個小時)的帖子發(fā)表的數(shù)據(jù)。
[0118]所述判斷模塊,還用于對于出現(xiàn)新的評論,判斷該用戶評論是否為最近N個小時內(nèi)的,若是在最近N個小時之前,則直接丟棄該數(shù)據(jù)并結(jié)束,否則,判斷用戶是否為新注冊用戶,
[0119]若是新注冊用戶,則根據(jù)新用戶在注冊時填寫的資料、登陸信息等,例如登陸IP、移動設(shè)備碼等,對用戶進行在線聚類,聚類有兩種情況,一種是分配到已有的聚類中,另一種是自成一個新的聚類,若不在同一聚類中,則丟棄該數(shù)據(jù)并結(jié)束,否則,利用離線訓練的評論分類模型,對評論內(nèi)容進行分類,判斷評論內(nèi)容是否為垃圾內(nèi)容,若不是,則丟棄該數(shù)據(jù)并結(jié)束,否則,將正文標識為垃圾內(nèi)容,進行下架處理,即刪除用戶生產(chǎn)內(nèi)容UGC,其中,所述用戶生產(chǎn)內(nèi)容UGC包括正文數(shù)據(jù)和所有評論數(shù)據(jù),同時將存儲的所有用戶信息和用戶ID與正文ID的映射關(guān)系移除,防止歷史數(shù)據(jù)占用內(nèi)存過大。
[0120]若不是新注冊用戶,根據(jù)離線的用戶聚類結(jié)果,檢查評論用戶與發(fā)帖用戶是否處于同一聚類中,若不在同一聚類中,則丟棄該數(shù)據(jù)并結(jié)束,否則,利用離線訓練的評論分類模型,對評論內(nèi)容進行分類,判斷評論內(nèi)容是否為垃圾內(nèi)容,若不是,則丟棄該數(shù)據(jù)并結(jié)束,否則,將正文標識為垃圾內(nèi)容,進行下架處理,即刪除用戶生產(chǎn)內(nèi)容UGC,其中,所述用戶生產(chǎn)內(nèi)容UGC包括正文數(shù)據(jù)和所有評論數(shù)據(jù),同時將存儲的所有用戶信息和用戶ID與正文ID的映射關(guān)系移除,防止歷史數(shù)據(jù)占用內(nèi)存過大。
[0121]另外,還可以設(shè)置定時器或自動超時機制,對于在預設(shè)時間內(nèi)沒有出現(xiàn)垃圾評論的帖子,從內(nèi)存中清除基于該帖子的用戶生產(chǎn)內(nèi)容UGC。
[0122]本發(fā)明實施例中的評論內(nèi)容包括發(fā)帖用戶對評論用戶的回復和評論用戶發(fā)表的評論,所以評論用戶也屬于廣義上的評論用戶,評論用戶包括上述情況的發(fā)帖用戶和評論用戶,狹義上的評論用戶僅指發(fā)表評論的用戶。
[0123]本發(fā)明實施例中的基于用戶評論的UGC垃圾內(nèi)容過濾系統(tǒng)具有如下有益效果:本發(fā)明系統(tǒng)可以針對帖子正文和評論進行一體化打擊,對垃圾內(nèi)容的識別精度高,首先確定發(fā)帖用戶與評論用戶之間的關(guān)系,若為同一聚類,則判斷同一聚類中評論用戶的評論數(shù)據(jù)是否為垃圾內(nèi)容,若為垃圾內(nèi)容,則直接刪除帖子,能夠識別并有力打擊看似正常的垃圾內(nèi)容,對垃圾內(nèi)容實現(xiàn)有效管控,提高平臺的生態(tài)健康和用戶體驗。
[0124]在另一實施例中,第一用戶發(fā)表的正文內(nèi)容可以包括文章、用戶發(fā)表的狀態(tài)等等。
[0125]以上所述是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也視為本發(fā)明的保護范圍。
【主權(quán)項】
1.一種基于用戶評論的UGC垃圾內(nèi)容過濾方法,其特征在于,包括以下步驟: 將發(fā)表正文數(shù)據(jù)的用戶作為第一用戶,將發(fā)表評論數(shù)據(jù)的用戶作為第二用戶,判斷所述第一用戶與第二用戶是否為同一聚類,若是,則對所述評論數(shù)據(jù)進行分析,判斷所述評論數(shù)據(jù)是否為垃圾內(nèi)容,若是,則刪除用戶生產(chǎn)內(nèi)容,所述用戶生產(chǎn)內(nèi)容包括正文數(shù)據(jù)和所有評論數(shù)據(jù)。2.根據(jù)權(quán)利要求1所述的基于用戶評論的UGC垃圾內(nèi)容過濾方法,其特征在于,所述判斷所述第二用戶與第一用戶是否為同一聚類的方法為:若所述第一用戶和第二用戶滿足以下條件,則判斷所述第一用戶與第二用戶是同一聚類: 所述第一用戶與第二用戶為同一用戶, 所述第一用戶與第二用戶的登陸位置相同或基本相同,或 所述第一用戶與第二用戶或第二用戶與第二用戶之間的互動頻繁。3.根據(jù)權(quán)利要求1或2所述的基于用戶評論的UGC垃圾內(nèi)容過濾方法,其特征在于,所述判斷所述第一用戶與第二用戶是否為同一聚類之前還包括: 獲取第一用戶的用戶信息和發(fā)表的正文數(shù)據(jù),所述第一用戶的用戶信息包括第一用戶的用戶ID,所述正文數(shù)據(jù)包括正文內(nèi)容和與正文內(nèi)容對應的正文ID;建立第一用戶的用戶ID和正文ID的第一映射關(guān)系;存儲第一用戶的用戶信息、第一映射關(guān)系和正文數(shù)據(jù); 獲取第二用戶的用戶信息和發(fā)表的評論數(shù)據(jù),所述第二用戶的用戶信息包括第二用戶的用戶ID,所述評論數(shù)據(jù)包括評論內(nèi)容;建立第二用戶的用戶ID和正文ID的第二映射關(guān)系;存儲第二用戶的用戶信息、第二映射關(guān)系和評論數(shù)據(jù)。4.根據(jù)權(quán)利要求3所述的基于用戶評論的UGC垃圾內(nèi)容過濾方法,其特征在于,若所述第二用戶為新用戶,則根據(jù)所述新用戶的注冊信息判斷所述新用戶與所述第一用戶是否為同一聚類。5.根據(jù)權(quán)利要求4所述的基于用戶評論的UGC垃圾內(nèi)容過濾方法,其特征在于,所述判斷所述第一用戶與第二用戶是否為同一聚類,還包括: 若不是同一聚類,則丟棄第二用戶的用戶信息和第二映射關(guān)系。6.根據(jù)權(quán)利要求4所述的基于用戶評論的UGC垃圾內(nèi)容過濾方法,其特征在于,所述判斷所述評論數(shù)據(jù)是否為垃圾內(nèi)容,還包括: 若不是垃圾內(nèi)容,則丟棄所述評論數(shù)據(jù)、第二用戶的用戶信息和第二映射關(guān)系。7.根據(jù)權(quán)利要求4-6中任意一項所述的基于用戶評論的UGC垃圾內(nèi)容過濾方法,其特征在于,所述方法還包括: 在預設(shè)時間內(nèi),若所有第二用戶發(fā)表的評論數(shù)據(jù)沒有出現(xiàn)垃圾內(nèi)容,則丟棄用戶生產(chǎn)內(nèi)容,所述用戶生產(chǎn)內(nèi)容包括第一用戶的用戶信息、第一映射關(guān)系、第二用戶的用戶信息和第二映射關(guān)系。8.一種基于用戶評論的UGC垃圾內(nèi)容過濾系統(tǒng),其特征在于,所述系統(tǒng)包括判斷模塊, 所述判斷模塊,用于判斷所述第一用戶與第二用戶是否為同一聚類,若是,則對所述評論數(shù)據(jù)進行分析,判斷所述評論數(shù)據(jù)是否為垃圾內(nèi)容,若是,則刪除用戶生產(chǎn)內(nèi)容,所述用戶生產(chǎn)內(nèi)容包括正文數(shù)據(jù)和所有評論數(shù)據(jù),所述第一用戶為發(fā)表正文數(shù)據(jù)的用戶,所述第二用戶為發(fā)表評論數(shù)據(jù)的用戶。9.根據(jù)權(quán)利要求8所述的基于用戶評論的UGC垃圾內(nèi)容過濾系統(tǒng),其特征在于,所述系統(tǒng)還包括獲取模塊、關(guān)系建立模塊和存儲模塊, 所述獲取模塊,用于獲取第一用戶的用戶信息和發(fā)表的正文數(shù)據(jù),所述第一用戶的用戶信息包括第一用戶的用戶ID,所述正文數(shù)據(jù)包括正文內(nèi)容和與正文內(nèi)容對應的正文ID;還用于獲取第二用戶的用戶信息和發(fā)表的評論數(shù)據(jù),所述第二用戶的用戶信息包括第二用戶的用戶ID,所述評論數(shù)據(jù)包括評論內(nèi)容; 所述關(guān)系建立模塊,用于在建立第一用戶的用戶ID和正文ID的第一映射關(guān)系;還用于建立第二用戶的用戶ID和正文ID的第二映射關(guān)系; 所述存儲模塊,用于第一用戶的用戶信息、第一映射關(guān)系和正文數(shù)據(jù);還用于存儲第二用戶的用戶信息、第二映射關(guān)系和評論數(shù)據(jù)。10.根據(jù)權(quán)利要求8或9所述的基于用戶評論的UGC垃圾內(nèi)容過濾系統(tǒng),其特征在于,所述判斷模塊,還用于: 若判斷不是同一聚類,則丟棄第二用戶的用戶信息和第二映射關(guān)系; 若判斷所述評論數(shù)據(jù)不是垃圾內(nèi)容,則丟棄所述評論數(shù)據(jù)、第二用戶的用戶信息和第一■映射關(guān)系; 若判斷在預設(shè)時間內(nèi),所有第二用戶發(fā)表的評論數(shù)據(jù)沒有出現(xiàn)垃圾內(nèi)容,則丟棄用戶生產(chǎn)內(nèi)容,所述用戶生產(chǎn)內(nèi)容包括第一用戶的用戶信息、第一映射關(guān)系、第二用戶的用戶信息和第二映射關(guān)系。
【文檔編號】G06F17/30GK106055664SQ201610389812
【公開日】2016年10月26日
【申請日】2016年6月3日
【發(fā)明人】梁傳明, 漆仁, 尹鵬達, 劉雪飄
【申請人】騰訊科技(深圳)有限公司