一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法

文檔序號：6619951閱讀：179來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法
【專利摘要】本發(fā)明涉及一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法，包括以下步驟：1、針對一社交網(wǎng)絡(luò)，定義需要從社交網(wǎng)絡(luò)的社交消息中提取的特征向量，構(gòu)建一垃圾消息過濾規(guī)則集；2、從社交網(wǎng)絡(luò)中取一定數(shù)量的社交消息作為訓(xùn)練樣本，然后通過信息增益算法對各訓(xùn)練樣本進(jìn)行特征提取，得到各訓(xùn)練樣本的特征向量中除垃圾關(guān)鍵字得分之外的所有元素；3、根據(jù)垃圾消息過濾規(guī)則集，計算各訓(xùn)練樣本的垃圾關(guān)鍵字得分，得到各訓(xùn)練樣本完整的特征向量；4、將各訓(xùn)練樣本的特征向量，輸入支持向量機(jī)進(jìn)行訓(xùn)練，得到垃圾消息過濾模型；5、利用垃圾消息過濾模型對待測消息進(jìn)行檢測，判斷待測消息是否為垃圾消息。該方法有利于準(zhǔn)確提取、過濾社交網(wǎng)絡(luò)中的垃圾消息。
【專利說明】-種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)垃圾過濾【技術(shù)領(lǐng)域】，特別是一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法。

【背景技術(shù)】
[0002] 在線社交網(wǎng)絡(luò)平臺如Facebook、Twitter、新浪微博等都是Web2. 0最受歡迎的應(yīng) 用程序。數(shù)以百萬的用戶活躍在社交網(wǎng)絡(luò)中(好友互動，閱讀新聞等)，并且用戶的規(guī)模正在逐年增加。社交網(wǎng)站在用戶規(guī)模擴(kuò)大的同時，也吸引了大量的垃圾消息（Spam)和垃圾用戶 (Spammer), Spammer在社交平臺上散布廣告、色情、暴力、恐怖等活動，給正常用戶的社交帶來嚴(yán)重的影響。
[0003] 有研究表明：發(fā)布在Twitter上的20萬條URL中有8%是釣魚或者色情鏈接，而由于社交網(wǎng)絡(luò)中大量用戶的存在，每條URL被點擊的概率為0. 13%，這個比例遠(yuǎn)遠(yuǎn)高于垃圾郵件中URL被點擊的概率，因此，在社交網(wǎng)站中，用戶更容易受到釣魚網(wǎng)站的攻擊。
[0004] 傳統(tǒng)的基于內(nèi)容的垃圾郵件過濾是指通過對郵件內(nèi)容進(jìn)行分析來判定郵件是否屬于垃圾郵件。由于垃圾郵件和正常郵件的內(nèi)容風(fēng)格迥異，因此可以利用機(jī)器學(xué)習(xí)算法對垃圾郵件和正常郵件的內(nèi)容進(jìn)行訓(xùn)練，利用訓(xùn)練好的模型進(jìn)行預(yù)測。但是，在社交網(wǎng)絡(luò)(例如新浪微博、Twitter等）中，由于用戶發(fā)布的消息受到字?jǐn)?shù)(例如140)的限制，垃圾消息和正常消息在內(nèi)容上并沒有太大區(qū)別，因此，傳統(tǒng)的基于內(nèi)容的過濾算法不再適用于社交網(wǎng) 絡(luò)Spam過濾。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于提供一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法，該方法有利于準(zhǔn)確提取、過濾社交網(wǎng)絡(luò)中的垃圾消息。
[0006] 本發(fā)明采用的技術(shù)方案是：一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法，包括以下步驟：步驟S1 :針對一社交網(wǎng)絡(luò)，定義需要從所述社交網(wǎng)絡(luò)的社交消息中提取的特征向量，構(gòu)建一垃圾消息過濾規(guī)則集；所述垃圾消息過濾規(guī)則集中定義有多個垃圾關(guān)鍵字，各垃圾關(guān)鍵字對應(yīng)有一分值，從而可根據(jù)社交消息中出現(xiàn)垃圾關(guān)鍵字的個數(shù)、頻次，計算社交消息的垃圾關(guān)鍵字得分；步驟S2 :從所述社交網(wǎng)絡(luò)中取一定數(shù)量的社交消息作為訓(xùn)練樣本，所述社交消息包括正常消息和垃圾消息，然后通過信息增益算法對各訓(xùn)練樣本進(jìn)行特征提取，得到各訓(xùn)練樣本的特征向量中除垃圾關(guān)鍵字得分之外的所有元素；步驟S3 :根據(jù)垃圾消息過濾規(guī)則集，計算各訓(xùn)練樣本的垃圾關(guān)鍵字得分，得到各訓(xùn)練樣本完整的特征向量；步驟S4 :將步驟S3得到的各訓(xùn)練樣本的特征向量，輸入支持向量機(jī)進(jìn)行訓(xùn)練，得到垃圾消息過濾模型；步驟S5 :利用所述垃圾消息過濾模型對待測消息進(jìn)行檢測，判斷待測消息是否為垃圾消息。
[0007] 進(jìn)一步的，步驟S1中，所述社交消息的特征向量VI為： Vl=[轉(zhuǎn)發(fā)數(shù)，評論數(shù)，贊數(shù)，URL鏈接數(shù)，圖片數(shù)，話題數(shù)，@的用戶數(shù)，是否為原創(chuàng)消息，垃圾關(guān)鍵字得分]。
[0008] 進(jìn)一步的，步驟S1中，所述垃圾消息過濾規(guī)則集的建立方法如下：步驟S101 :從所述社交網(wǎng)絡(luò)中獲取一定數(shù)量的垃圾消息；步驟S102 :對每條垃圾消息進(jìn)行中文分詞，每條垃圾消息得到一個詞語列表{keyi， key2,…，keyi,…}，keyi表示所述垃圾消息的第i個分詞；步驟S103 :對每個詞語列表采用信息增益算法計算信息增益值，每個詞語列表得到一個鍵值對集合{keyrlGGcey), key2:IG(key2),…，key^IGOceyi),…}，IGQieyi)表示第 i個分詞的信息增益值；步驟S104 :將不同的鍵值對集合進(jìn)行合并，其中對不同鍵值對集合中均有出現(xiàn)的分詞的信息增益值進(jìn)行累加，作為合并后的鍵值對集合對應(yīng)于該分詞的信息增益值；步驟S105 :對于合并后的鍵值對集合，根據(jù)信息增益值從大到小對分詞進(jìn)行排序，取出前η個分詞作為垃圾消息過濾規(guī)則集的垃圾關(guān)鍵字，分詞的信息增益值作為垃圾關(guān)鍵字的分值，從而建立所述垃圾消息過濾規(guī)則集。
[0009] 本發(fā)明的有益效果是將機(jī)器學(xué)習(xí)算法和社交元素相結(jié)合，提出了一種基于機(jī)器學(xué) 習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法，該方法適用于社交網(wǎng)絡(luò)Spam過濾，能夠準(zhǔn)確提取、過濾社交網(wǎng)絡(luò)中的垃圾消息，具有很強(qiáng)的實用性和廣闊的應(yīng)用前景。

【專利附圖】

【附圖說明】
[0010] 圖1是本發(fā)明實施例的實現(xiàn)流程圖。
[0011] 圖2是本發(fā)明實施例中建立垃圾消息過濾規(guī)則集的流程圖。

【具體實施方式】
[0012] 下面結(jié)合附圖及具體實施例對本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0013] 本發(fā)明將機(jī)器學(xué)習(xí)算法和社交元素相結(jié)合，通過社交元素自身特征而不是內(nèi)容來提取社交網(wǎng)絡(luò)垃圾消息。在社交網(wǎng)絡(luò)中，垃圾消息（Spam)通常以URL鏈接和圖片來散布廣告，但是由于這些消息很少獲得正常用戶的關(guān)注，因此它們具有較少的轉(zhuǎn)發(fā)數(shù)、評論數(shù)和贊的數(shù)。通過提取這些社交元素特征，運用于過濾社交網(wǎng)絡(luò)Spam。
[0014] 本發(fā)明基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法，如圖1所示，包括以下步驟：步驟S1 :針對一社交網(wǎng)絡(luò)(如微博、Twitter等)，定義需要從所述社交網(wǎng)絡(luò)的社交消息中提取的特征向量，構(gòu)建一垃圾消息過濾規(guī)則集；所述垃圾消息過濾規(guī)則集中定義有多個垃圾關(guān)鍵字，各垃圾關(guān)鍵字對應(yīng)有一分值，從而可根據(jù)社交消息中出現(xiàn)垃圾關(guān)鍵字的個數(shù)、頻次，計算社交消息的垃圾關(guān)鍵字得分。
[0015] 所述社交消息的特征向量VI為： Vl=[轉(zhuǎn)發(fā)數(shù)，評論數(shù)，贊數(shù)，URL鏈接數(shù)，圖片數(shù)，話題數(shù)，@的用戶數(shù)，是否為原創(chuàng)消息，垃圾關(guān)鍵字得分]。
[0016] 圖2是本發(fā)明實施例中建立垃圾消息過濾規(guī)則集的流程圖。如圖2所示，所述垃圾消息過濾規(guī)則集的建立方法如下：步驟S101 :從所述社交網(wǎng)絡(luò)中獲取一定數(shù)量(如10萬條）的垃圾消息。
[0017] 步驟S102 :對每條垃圾消息進(jìn)行中文分詞，每條垃圾消息得到一個詞語列表 {keyp key2,…，keyi,?}，1?^表示所述垃圾消息的第i個分詞。
[0018] 步驟S103 :對每個詞語列表采用信息增益算法計算信息增益值，每個詞語列表得到一個鍵值對集合{key^IGGceyD，key2:IG(key 2),…，key^IGOceyi),…}，IGQieyi)表示第i個分詞的信息增益（IG，Info Gain)值。所述信息增益算法為：

【權(quán)利要求】
1. 一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法，其特征在于，包括以下步驟：步驟S1 :針對一社交網(wǎng)絡(luò)，定義需要從所述社交網(wǎng)絡(luò)的社交消息中提取的特征向量，構(gòu)建一垃圾消息過濾規(guī)則集；所述垃圾消息過濾規(guī)則集中定義有多個垃圾關(guān)鍵字，各垃圾關(guān)鍵字對應(yīng)有一分值，從而可根據(jù)社交消息中出現(xiàn)垃圾關(guān)鍵字的個數(shù)、頻次，計算社交消息的垃圾關(guān)鍵字得分；步驟S2 :從所述社交網(wǎng)絡(luò)中取一定數(shù)量的社交消息作為訓(xùn)練樣本，所述社交消息包括正常消息和垃圾消息，然后通過信息增益算法對各訓(xùn)練樣本進(jìn)行特征提取，得到各訓(xùn)練樣本的特征向量中除垃圾關(guān)鍵字得分之外的所有元素；步驟S3 :根據(jù)垃圾消息過濾規(guī)則集，計算各訓(xùn)練樣本的垃圾關(guān)鍵字得分，得到各訓(xùn)練樣本完整的特征向量；步驟S4 :將步驟S3得到的各訓(xùn)練樣本的特征向量，輸入支持向量機(jī)進(jìn)行訓(xùn)練，得到垃圾消息過濾模型；步驟S5 :利用所述垃圾消息過濾模型對待測消息進(jìn)行檢測，判斷待測消息是否為垃圾消息。
2. 根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法，其特征在于，步驟S1中，所述社交消息的特征向量VI為： Vl=[轉(zhuǎn)發(fā)數(shù)，評論數(shù)，贊數(shù)，URL鏈接數(shù)，圖片數(shù)，話題數(shù)，@的用戶數(shù)，是否為原創(chuàng)消息，垃圾關(guān)鍵字得分]。
3. 根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法，其特征在于，步驟S1中，所述垃圾消息過濾規(guī)則集的建立方法如下：步驟S101 :從所述社交網(wǎng)絡(luò)中獲取一定數(shù)量的垃圾消息；步驟S102 :對每條垃圾消息進(jìn)行中文分詞，每條垃圾消息得到一個詞語列表{keyi， key2,…，keyi,…}，keyi表示所述垃圾消息的第i個分詞；步驟S103 :對每個詞語列表采用信息增益算法計算信息增益值，每個詞語列表得到一個鍵值對集合{keyrlGGcey), key2:IG(key2),…，key^IGOceyi),…}，IGQieyi)表示第 i個分詞的信息增益值；步驟S104 :將不同的鍵值對集合進(jìn)行合并，其中對不同鍵值對集合中均有出現(xiàn)的分詞的信息增益值進(jìn)行累加，作為合并后的鍵值對集合對應(yīng)于該分詞的信息增益值；步驟S105 :對于合并后的鍵值對集合，根據(jù)信息增益值從大到小對分詞進(jìn)行排序，取出前η個分詞作為垃圾消息過濾規(guī)則集的垃圾關(guān)鍵字，分詞的信息增益值作為垃圾關(guān)鍵字的分值，從而建立所述垃圾消息過濾規(guī)則集。
【文檔編號】G06F17/30GK104063515SQ201410332314
【公開日】2014年9月24日申請日期:2014年7月14日優(yōu)先權(quán)日:2014年7月14日
【發(fā)明者】鄭相涵, 陳國龍, 曾志鵬申請人:福州大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭相涵;陳國龍;曾志鵬
技術(shù)所有人：福州大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法