亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法

文檔序號:6619951閱讀:179來源:國知局
一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法
【專利摘要】本發(fā)明涉及一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法,包括以下步驟:1、針對一社交網(wǎng)絡(luò),定義需要從社交網(wǎng)絡(luò)的社交消息中提取的特征向量,構(gòu)建一垃圾消息過濾規(guī)則集;2、從社交網(wǎng)絡(luò)中取一定數(shù)量的社交消息作為訓(xùn)練樣本,然后通過信息增益算法對各訓(xùn)練樣本進(jìn)行特征提取,得到各訓(xùn)練樣本的特征向量中除垃圾關(guān)鍵字得分之外的所有元素;3、根據(jù)垃圾消息過濾規(guī)則集,計算各訓(xùn)練樣本的垃圾關(guān)鍵字得分,得到各訓(xùn)練樣本完整的特征向量;4、將各訓(xùn)練樣本的特征向量,輸入支持向量機(jī)進(jìn)行訓(xùn)練,得到垃圾消息過濾模型;5、利用垃圾消息過濾模型對待測消息進(jìn)行檢測,判斷待測消息是否為垃圾消息。該方法有利于準(zhǔn)確提取、過濾社交網(wǎng)絡(luò)中的垃圾消息。
【專利說明】-種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)垃圾過濾【技術(shù)領(lǐng)域】,特別是一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消 息過濾方法。

【背景技術(shù)】
[0002] 在線社交網(wǎng)絡(luò)平臺如Facebook、Twitter、新浪微博等都是Web2. 0最受歡迎的應(yīng) 用程序。數(shù)以百萬的用戶活躍在社交網(wǎng)絡(luò)中(好友互動,閱讀新聞等),并且用戶的規(guī)模正在 逐年增加。社交網(wǎng)站在用戶規(guī)模擴(kuò)大的同時,也吸引了大量的垃圾消息(Spam)和垃圾用戶 (Spammer), Spammer在社交平臺上散布廣告、色情、暴力、恐怖等活動,給正常用戶的社交帶 來嚴(yán)重的影響。
[0003] 有研究表明:發(fā)布在Twitter上的20萬條URL中有8%是釣魚或者色情鏈接,而由 于社交網(wǎng)絡(luò)中大量用戶的存在,每條URL被點擊的概率為0. 13%,這個比例遠(yuǎn)遠(yuǎn)高于垃圾郵 件中URL被點擊的概率,因此,在社交網(wǎng)站中,用戶更容易受到釣魚網(wǎng)站的攻擊。
[0004] 傳統(tǒng)的基于內(nèi)容的垃圾郵件過濾是指通過對郵件內(nèi)容進(jìn)行分析來判定郵件是否 屬于垃圾郵件。由于垃圾郵件和正常郵件的內(nèi)容風(fēng)格迥異,因此可以利用機(jī)器學(xué)習(xí)算法對 垃圾郵件和正常郵件的內(nèi)容進(jìn)行訓(xùn)練,利用訓(xùn)練好的模型進(jìn)行預(yù)測。但是,在社交網(wǎng)絡(luò)(例 如新浪微博、Twitter等)中,由于用戶發(fā)布的消息受到字?jǐn)?shù)(例如140)的限制,垃圾消息和 正常消息在內(nèi)容上并沒有太大區(qū)別,因此,傳統(tǒng)的基于內(nèi)容的過濾算法不再適用于社交網(wǎng) 絡(luò)Spam過濾。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于提供一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法,該方法 有利于準(zhǔn)確提取、過濾社交網(wǎng)絡(luò)中的垃圾消息。
[0006] 本發(fā)明采用的技術(shù)方案是:一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法,包 括以下步驟: 步驟S1 :針對一社交網(wǎng)絡(luò),定義需要從所述社交網(wǎng)絡(luò)的社交消息中提取的特征向量, 構(gòu)建一垃圾消息過濾規(guī)則集;所述垃圾消息過濾規(guī)則集中定義有多個垃圾關(guān)鍵字,各垃圾 關(guān)鍵字對應(yīng)有一分值,從而可根據(jù)社交消息中出現(xiàn)垃圾關(guān)鍵字的個數(shù)、頻次,計算社交消息 的垃圾關(guān)鍵字得分; 步驟S2 :從所述社交網(wǎng)絡(luò)中取一定數(shù)量的社交消息作為訓(xùn)練樣本,所述社交消息包括 正常消息和垃圾消息,然后通過信息增益算法對各訓(xùn)練樣本進(jìn)行特征提取,得到各訓(xùn)練樣 本的特征向量中除垃圾關(guān)鍵字得分之外的所有元素; 步驟S3 :根據(jù)垃圾消息過濾規(guī)則集,計算各訓(xùn)練樣本的垃圾關(guān)鍵字得分,得到各訓(xùn)練 樣本完整的特征向量; 步驟S4 :將步驟S3得到的各訓(xùn)練樣本的特征向量,輸入支持向量機(jī)進(jìn)行訓(xùn)練,得到垃 圾消息過濾模型; 步驟S5 :利用所述垃圾消息過濾模型對待測消息進(jìn)行檢測,判斷待測消息是否為垃圾 消息。
[0007] 進(jìn)一步的,步驟S1中,所述社交消息的特征向量VI為: Vl=[轉(zhuǎn)發(fā)數(shù),評論數(shù),贊數(shù),URL鏈接數(shù),圖片數(shù),話題數(shù),@的用戶數(shù),是否為原創(chuàng)消息, 垃圾關(guān)鍵字得分]。
[0008] 進(jìn)一步的,步驟S1中,所述垃圾消息過濾規(guī)則集的建立方法如下: 步驟S101 :從所述社交網(wǎng)絡(luò)中獲取一定數(shù)量的垃圾消息; 步驟S102 :對每條垃圾消息進(jìn)行中文分詞,每條垃圾消息得到一個詞語列表{keyi, key2,…,keyi,…},keyi表示所述垃圾消息的第i個分詞; 步驟S103 :對每個詞語列表采用信息增益算法計算信息增益值,每個詞語列表得到一 個鍵值對集合{keyrlGGcey), key2:IG(key2),…,key^IGOceyi),…},IGQieyi)表示第 i個分詞的信息增益值; 步驟S104 :將不同的鍵值對集合進(jìn)行合并,其中對不同鍵值對集合中均有出現(xiàn)的分詞 的信息增益值進(jìn)行累加,作為合并后的鍵值對集合對應(yīng)于該分詞的信息增益值; 步驟S105 :對于合并后的鍵值對集合,根據(jù)信息增益值從大到小對分詞進(jìn)行排序,取 出前η個分詞作為垃圾消息過濾規(guī)則集的垃圾關(guān)鍵字,分詞的信息增益值作為垃圾關(guān)鍵字 的分值,從而建立所述垃圾消息過濾規(guī)則集。
[0009] 本發(fā)明的有益效果是將機(jī)器學(xué)習(xí)算法和社交元素相結(jié)合,提出了一種基于機(jī)器學(xué) 習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法,該方法適用于社交網(wǎng)絡(luò)Spam過濾,能夠準(zhǔn)確提取、過濾 社交網(wǎng)絡(luò)中的垃圾消息,具有很強(qiáng)的實用性和廣闊的應(yīng)用前景。

【專利附圖】

【附圖說明】
[0010] 圖1是本發(fā)明實施例的實現(xiàn)流程圖。
[0011] 圖2是本發(fā)明實施例中建立垃圾消息過濾規(guī)則集的流程圖。

【具體實施方式】
[0012] 下面結(jié)合附圖及具體實施例對本發(fā)明作進(jìn)一步的詳細(xì)說明。
[0013] 本發(fā)明將機(jī)器學(xué)習(xí)算法和社交元素相結(jié)合,通過社交元素自身特征而不是內(nèi)容來 提取社交網(wǎng)絡(luò)垃圾消息。在社交網(wǎng)絡(luò)中,垃圾消息(Spam)通常以URL鏈接和圖片來散布廣 告,但是由于這些消息很少獲得正常用戶的關(guān)注,因此它們具有較少的轉(zhuǎn)發(fā)數(shù)、評論數(shù)和贊 的數(shù)。通過提取這些社交元素特征,運用于過濾社交網(wǎng)絡(luò)Spam。
[0014] 本發(fā)明基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法,如圖1所示,包括以下步驟: 步驟S1 :針對一社交網(wǎng)絡(luò)(如微博、Twitter等),定義需要從所述社交網(wǎng)絡(luò)的社交消息 中提取的特征向量,構(gòu)建一垃圾消息過濾規(guī)則集;所述垃圾消息過濾規(guī)則集中定義有多個 垃圾關(guān)鍵字,各垃圾關(guān)鍵字對應(yīng)有一分值,從而可根據(jù)社交消息中出現(xiàn)垃圾關(guān)鍵字的個數(shù)、 頻次,計算社交消息的垃圾關(guān)鍵字得分。
[0015] 所述社交消息的特征向量VI為: Vl=[轉(zhuǎn)發(fā)數(shù),評論數(shù),贊數(shù),URL鏈接數(shù),圖片數(shù),話題數(shù),@的用戶數(shù),是否為原創(chuàng)消息, 垃圾關(guān)鍵字得分]。
[0016] 圖2是本發(fā)明實施例中建立垃圾消息過濾規(guī)則集的流程圖。如圖2所示,所述垃 圾消息過濾規(guī)則集的建立方法如下: 步驟S101 :從所述社交網(wǎng)絡(luò)中獲取一定數(shù)量(如10萬條)的垃圾消息。
[0017] 步驟S102 :對每條垃圾消息進(jìn)行中文分詞,每條垃圾消息得到一個詞語列表 {keyp key2,…,keyi,?},1?^表示所述垃圾消息的第i個分詞。
[0018] 步驟S103 :對每個詞語列表采用信息增益算法計算信息增益值,每個詞語列表得 到一個鍵值對集合{key^IGGceyD,key2:IG(key 2),…,key^IGOceyi),…},IGQieyi)表 示第i個分詞的信息增益(IG,Info Gain)值。所述信息增益算法為:

【權(quán)利要求】
1. 一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法,其特征在于,包括以下步驟: 步驟S1 :針對一社交網(wǎng)絡(luò),定義需要從所述社交網(wǎng)絡(luò)的社交消息中提取的特征向量, 構(gòu)建一垃圾消息過濾規(guī)則集;所述垃圾消息過濾規(guī)則集中定義有多個垃圾關(guān)鍵字,各垃圾 關(guān)鍵字對應(yīng)有一分值,從而可根據(jù)社交消息中出現(xiàn)垃圾關(guān)鍵字的個數(shù)、頻次,計算社交消息 的垃圾關(guān)鍵字得分; 步驟S2 :從所述社交網(wǎng)絡(luò)中取一定數(shù)量的社交消息作為訓(xùn)練樣本,所述社交消息包括 正常消息和垃圾消息,然后通過信息增益算法對各訓(xùn)練樣本進(jìn)行特征提取,得到各訓(xùn)練樣 本的特征向量中除垃圾關(guān)鍵字得分之外的所有元素; 步驟S3 :根據(jù)垃圾消息過濾規(guī)則集,計算各訓(xùn)練樣本的垃圾關(guān)鍵字得分,得到各訓(xùn)練 樣本完整的特征向量; 步驟S4 :將步驟S3得到的各訓(xùn)練樣本的特征向量,輸入支持向量機(jī)進(jìn)行訓(xùn)練,得到垃 圾消息過濾模型; 步驟S5 :利用所述垃圾消息過濾模型對待測消息進(jìn)行檢測,判斷待測消息是否為垃圾 消息。
2. 根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法,其特征在 于,步驟S1中,所述社交消息的特征向量VI為: Vl=[轉(zhuǎn)發(fā)數(shù),評論數(shù),贊數(shù),URL鏈接數(shù),圖片數(shù),話題數(shù),@的用戶數(shù),是否為原創(chuàng)消息, 垃圾關(guān)鍵字得分]。
3. 根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的社交網(wǎng)絡(luò)垃圾消息過濾方法,其特征在 于,步驟S1中,所述垃圾消息過濾規(guī)則集的建立方法如下: 步驟S101 :從所述社交網(wǎng)絡(luò)中獲取一定數(shù)量的垃圾消息; 步驟S102 :對每條垃圾消息進(jìn)行中文分詞,每條垃圾消息得到一個詞語列表{keyi, key2,…,keyi,…},keyi表示所述垃圾消息的第i個分詞; 步驟S103 :對每個詞語列表采用信息增益算法計算信息增益值,每個詞語列表得到一 個鍵值對集合{keyrlGGcey), key2:IG(key2),…,key^IGOceyi),…},IGQieyi)表示第 i個分詞的信息增益值; 步驟S104 :將不同的鍵值對集合進(jìn)行合并,其中對不同鍵值對集合中均有出現(xiàn)的分詞 的信息增益值進(jìn)行累加,作為合并后的鍵值對集合對應(yīng)于該分詞的信息增益值; 步驟S105 :對于合并后的鍵值對集合,根據(jù)信息增益值從大到小對分詞進(jìn)行排序,取 出前η個分詞作為垃圾消息過濾規(guī)則集的垃圾關(guān)鍵字,分詞的信息增益值作為垃圾關(guān)鍵字 的分值,從而建立所述垃圾消息過濾規(guī)則集。
【文檔編號】G06F17/30GK104063515SQ201410332314
【公開日】2014年9月24日 申請日期:2014年7月14日 優(yōu)先權(quán)日:2014年7月14日
【發(fā)明者】鄭相涵, 陳國龍, 曾志鵬 申請人:福州大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1