垃圾郵件判定方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種垃圾郵件判定方法和裝置,方法包括:對(duì)待判定郵件的郵件內(nèi)容進(jìn)行分詞得到郵件的詞語集合;對(duì)詞語集合中的每個(gè)詞語,根據(jù)統(tǒng)計(jì)出的其在郵件內(nèi)容中的詞頻,及在預(yù)先構(gòu)建的詞語DF模型中查找到的其DF權(quán)重值,計(jì)算出其郵件權(quán)重值;將郵件權(quán)重值最大的M個(gè)詞語作為關(guān)鍵詞;對(duì)于每個(gè)關(guān)鍵詞,根據(jù)在預(yù)先構(gòu)建的詞向量模型中查找到的其詞特征向量,及其郵件權(quán)重值,計(jì)算出郵件的語義特征向量;計(jì)算郵件的語義特征向量與垃圾郵件庫中各垃圾郵件的語義特征向量之間的相似度;若計(jì)算出的相似度大于設(shè)定閾值則判定郵件為垃圾郵件。本發(fā)明的技術(shù)方案中,以詞語的DF權(quán)重值突出垃圾郵件之間內(nèi)容基本相同的特點(diǎn),可更準(zhǔn)確地判定垃圾郵件。
【專利說明】垃圾郵件判定方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子郵件技術(shù),尤其涉及一種垃圾郵件判定方法和裝置。
【背景技術(shù)】
[0002]隨著社會(huì)信息化程度的提高,使用郵件的用戶越來越多,用戶經(jīng)常會(huì)收到垃圾郵件,浪費(fèi)了用戶的時(shí)間、干擾了用戶與他人的交流。因此需要對(duì)垃圾郵件進(jìn)行判定、清除。
[0003]目前,一種基于郵件內(nèi)容的垃圾郵件的判定方法,在進(jìn)行垃圾郵件的判定過程中通常包括訓(xùn)練階段和判定階段。
[0004]在訓(xùn)練階段,對(duì)多樣本郵件構(gòu)成的訓(xùn)練集中,已分類為垃圾郵件或非垃圾郵件的樣本郵件的內(nèi)容進(jìn)行分詞,得到每個(gè)樣本郵件的詞語集合;對(duì)于每個(gè)樣本郵件,針對(duì)其詞語集合中的每個(gè)詞語,計(jì)算出該詞語的在該樣本郵件中的TF (Term Frequency,詞頻)值,以及該詞語在訓(xùn)練集中的IDF (Inverse Document Frequency,逆向文件頻率)權(quán)重值;根據(jù)該詞語的TF值和IDF權(quán)重值計(jì)算出該詞語的特征值,將該樣本郵件的詞語集合中各詞語的特征值組成該樣本郵件的詞語特征向量;根據(jù)每個(gè)樣本郵件的詞語特征向量,利用多種機(jī)器學(xué)習(xí)算法,例如貝葉斯(Bayes)算法、支持向量機(jī)(Suppot Vector Machine, SVM)算法等,訓(xùn)練出向量模型。
[0005]在判定階段,對(duì)于待判定郵件,進(jìn)行分詞得到該待判定郵件的詞語集合;計(jì)算出該待判定郵件的詞語集合中每個(gè)詞語的TF值和IDF權(quán)重值后,計(jì)算出該待判定郵件的詞語特征向量;根據(jù)待判定郵件的詞語特征向量與訓(xùn)練階段建立的向量模型來判斷待判定郵件是否為垃圾郵件。
[0006]本發(fā)明的發(fā)明人發(fā)現(xiàn),現(xiàn)有的垃圾郵件的判定方法中,需要對(duì)樣本郵件人工標(biāo)注為垃圾郵件或者非垃圾郵件;若一個(gè)樣本郵件被誤標(biāo)注為非垃圾郵件,則對(duì)于與該樣本郵件的內(nèi)容相似的待判定郵件,其很有可能被誤判定為非垃圾郵件,從而導(dǎo)致判定垃圾郵件的準(zhǔn)確性較低。
[0007]本發(fā)明的發(fā)明人還發(fā)現(xiàn),很多變體的垃圾郵件之間內(nèi)容基本相同,相同的內(nèi)容體現(xiàn)出垃圾郵件的共同特征。變體的垃圾郵件之間只有少部分特定的內(nèi)容不同,體現(xiàn)出垃圾郵件的差異特征;例如,作為稱呼的人名不同,作為聯(lián)絡(luò)方式的電話號(hào)碼、通訊地址、QQ號(hào)碼等不同。在訓(xùn)練集中,同一個(gè)人名或者通訊方式出現(xiàn)在多個(gè)樣本郵件中的概率很低,導(dǎo)致人名、通訊方式這些詞語的IDF權(quán)重值較高;而對(duì)于垃圾郵件之間相同的內(nèi)容中詞語,其在很多樣本郵件中均有出現(xiàn),導(dǎo)致其IDF權(quán)重值比較低。因此,現(xiàn)有的判定垃圾郵件的方法中,利用詞語的IDF權(quán)重值計(jì)算郵件的詞語特征向量,可能會(huì)導(dǎo)致很多具有共同特征的變體的垃圾郵件被漏判,從而導(dǎo)致判定垃圾郵件的準(zhǔn)確性較低。
[0008]綜上所述,現(xiàn)有的垃圾郵件的判定方法具有判定準(zhǔn)確性較低的問題;因此,有必要提供一種準(zhǔn)確性更高的垃圾郵件判定方法。
【發(fā)明內(nèi)容】
[0009]本發(fā)明實(shí)施例提供了一種垃圾郵件判定方法和裝置,用以更準(zhǔn)確地進(jìn)行垃圾郵件的判定。
[0010]根據(jù)本發(fā)明的一個(gè)方面,提供了一種垃圾郵件判定方法,包括:
[0011]對(duì)待判定郵件的郵件內(nèi)容進(jìn)行分詞,得到所述郵件的詞語集合后,統(tǒng)計(jì)所述詞語集合中的每個(gè)詞語在所述郵件內(nèi)容中的詞頻,并在預(yù)先構(gòu)建的詞語DF模型中查找到每個(gè)詞語的DF權(quán)重值;
[0012]對(duì)于所述詞語集合中的每個(gè)詞語,根據(jù)該詞語在所述郵件內(nèi)容中的詞頻,以及該詞語的DF權(quán)重值,計(jì)算出該詞語的郵件權(quán)重值;選取郵件權(quán)重值最大的M個(gè)詞語作為關(guān)鍵詞;
[0013]在預(yù)先構(gòu)建的詞向量模型中查找到每個(gè)關(guān)鍵詞的詞特征向量后,根據(jù)每個(gè)關(guān)鍵詞的郵件權(quán)重值和詞特征向量,計(jì)算出所述郵件的語義特征向量;
[0014]計(jì)算所述郵件的語義特征向量與垃圾郵件庫中各垃圾郵件的語義特征向量之間的相似度;若計(jì)算出的相似度大于設(shè)定閾值,則判定所述郵件為垃圾郵件。
[0015]較佳地,所述詞語DF模型是根據(jù)訓(xùn)練集中的樣本郵件訓(xùn)練得到的,具體包括:
[0016]對(duì)于所述訓(xùn)練集中的每個(gè)樣本郵件的郵件內(nèi)容進(jìn)行分詞,得到每個(gè)樣本郵件的詞
語集合;
[0017]將所述訓(xùn)練集中各樣本郵件的詞語集合合并后,得到所述訓(xùn)練集的詞語集合;
[0018]針對(duì)所述訓(xùn)練集的詞語集合中的每個(gè)詞語,在統(tǒng)計(jì)出所述訓(xùn)練集中包含該詞語的樣本郵件的數(shù)目后,將統(tǒng)計(jì)出的數(shù)目作為該詞語的樣本郵件數(shù)量nw,根據(jù)如下公式I確定該詞語在所述訓(xùn)練集中出現(xiàn)的頻率dfw:
[0019]
【權(quán)利要求】
1.一種垃圾郵件判定方法,其特征在于,包括: 對(duì)待判定郵件的郵件內(nèi)容進(jìn)行分詞,得到所述郵件的詞語集合后,統(tǒng)計(jì)所述詞語集合中的每個(gè)詞語在所述郵件內(nèi)容中的詞頻,并在預(yù)先構(gòu)建的詞語文件頻率DF模型中查找到每個(gè)詞語的DF權(quán)重值; 對(duì)于所述詞語集合中的每個(gè)詞語,根據(jù)該詞語在所述郵件內(nèi)容中的詞頻,以及該詞語的DF權(quán)重值,計(jì)算出該詞語的郵件權(quán)重值;選取郵件權(quán)重值最大的M個(gè)詞語作為關(guān)鍵詞;在預(yù)先構(gòu)建的詞向量模型中查找到每個(gè)關(guān)鍵詞的詞特征向量后,根據(jù)每個(gè)關(guān)鍵詞的郵件權(quán)重值和詞特征向量,計(jì)算出所述郵件的語義特征向量; 計(jì)算所述郵件的語義特征向量與垃圾郵件庫中各垃圾郵件的語義特征向量之間的相似度;若計(jì)算出的相似度大于設(shè)定閾值,則判定所述郵件為垃圾郵件。
2.如權(quán)利要求1所述的方法,其特征在于,所述詞語DF模型是根據(jù)訓(xùn)練集中的樣本郵件訓(xùn)練得到的,具體包括: 對(duì)于所述訓(xùn)練集中的每個(gè)樣本郵件的郵件內(nèi)容進(jìn)行分詞,得到每個(gè)樣本郵件的詞語集合; 將所述訓(xùn)練集中各樣本郵件的詞語集合合并后,得到所述訓(xùn)練集的詞語集合; 針對(duì)所述訓(xùn)練集的詞語集合中的每個(gè)詞語,在統(tǒng)計(jì)出所述訓(xùn)練集中包含該詞語的樣本郵件的數(shù)目后,將統(tǒng)計(jì)出的數(shù)目作為該詞語的樣本郵件數(shù)量nw,根據(jù)如下公式I確定該詞語在所述訓(xùn)練集中出現(xiàn)的頻率dfw:
3.如權(quán)利要求1所述的方法,其特征在于,所述詞向量模型是根據(jù)訓(xùn)練集中的樣本郵件訓(xùn)練得到的,具體包括: 將所述訓(xùn)練集中各樣本郵件的郵件內(nèi)容依次寫入文本文件;其中,所述文本文件中一行對(duì)應(yīng)一個(gè)樣本郵件的郵件內(nèi)容; 使用語句到向量word2vec工具讀取所述文本文件后,所述word2vec工具輸出所述訓(xùn)練集中各樣本郵件的郵件內(nèi)容所包含的所有詞語的詞特征向量,得到所述詞向量模型。
4.如權(quán)利要求1-3任一所述的方法,其特征在于,所述根據(jù)該詞語在所述郵件內(nèi)容中的詞頻,以及該詞語的DF權(quán)重值,計(jì)算出該詞語的郵件權(quán)重值,具體包括: 根據(jù)如下公式2計(jì)算出該詞語的郵件權(quán)重值tfdf: tfdf=tf Xdf (公式 2) 其中,tf表示該詞語在所述郵件內(nèi)容中的詞頻,df表示該詞語的DF權(quán)重值。
5.如權(quán)利要求4所述的方法,其特征在于,所述根據(jù)每個(gè)關(guān)鍵詞的郵件權(quán)重值和詞特征向量,計(jì)算出所述郵件的語義特征向量,具體為: 根據(jù)如下公式3計(jì)算出所述郵件的語義特征向量S:
6.一種垃圾郵件判定裝置,其特征在于,包括: 分詞模塊,用于對(duì)待判定郵件的郵件內(nèi)容進(jìn)行分詞,得到所述郵件的詞語集合; 關(guān)鍵詞選取模塊,用于統(tǒng)計(jì)所述詞語集合中的每個(gè)詞語在所述郵件內(nèi)容中的詞頻,并在預(yù)先構(gòu)建的詞語DF模型中查找到每個(gè)詞語的DF權(quán)重值; 對(duì)于所述詞語集合中的每個(gè)詞語,根據(jù)該詞語在所述郵件內(nèi)容中的詞頻,以及該詞語的DF權(quán)重值,計(jì)算出該詞語的郵件權(quán)重值;選取郵件權(quán)重值最大的M個(gè)詞語作為關(guān)鍵詞; 語義特征向量計(jì)算模塊,用于在預(yù)先構(gòu)建的詞向量模型中查找到每個(gè)關(guān)鍵詞的詞特征向量后,根據(jù)每個(gè)關(guān)鍵詞的郵件權(quán)重值和詞特征向量,計(jì)算出所述郵件的語義特征向量; 判定模塊,用于計(jì)算所述郵件的語義特征向量與垃圾郵件庫中各垃圾郵件的語義特征向量之間的相似度;若計(jì)算出的相似度大于設(shè)定閾值,則判定所述郵件為垃圾郵件。
7.如權(quán)利要求6所述的裝置,其特征在于,還包括: 詞語DF模型訓(xùn)練模塊,用于對(duì)訓(xùn)練集中的樣本郵件進(jìn)行訓(xùn)練得到所述詞語DF模型。
8.如權(quán)利要求7所述的裝置,其特征在于,還包括: 詞向量模型訓(xùn)練模塊,用于對(duì)訓(xùn)練集中的樣本郵件進(jìn)行訓(xùn)練得到所述詞向量模型。
9.如權(quán)利要求8所述的裝置,其特征在于, 所述詞語DF模型訓(xùn)練模塊還用于在對(duì)于所述訓(xùn)練集中的每個(gè)樣本郵件的郵件內(nèi)容進(jìn)行分詞之前,對(duì)所述訓(xùn)練集中的每個(gè)樣本郵件的郵件內(nèi)容進(jìn)行預(yù)處理;以及 所述詞向量模型訓(xùn)練模塊具體用于將所述訓(xùn)練集中、經(jīng)預(yù)處理后的各樣本郵件的郵件內(nèi)容依次寫入所述文本文件,使用語句到向量word2vec工具讀取所述文本文件。
10.如權(quán)利要求6-9任一所述的裝置,其特征在于,還包括: 預(yù)處理模塊,用于從待判定郵件中提取出郵件內(nèi)容;對(duì)提取出的郵件內(nèi)容依次進(jìn)行編碼轉(zhuǎn)換、去除網(wǎng)絡(luò)標(biāo)簽后,得到純文本形式的郵件內(nèi)容;將得到的純文本形式的郵件內(nèi)容中的繁體字轉(zhuǎn)換為簡(jiǎn)體字后,將轉(zhuǎn)換為簡(jiǎn)體字的郵件內(nèi)容輸出到所述分詞模塊。
【文檔編號(hào)】G06F17/30GK103744905SQ201310728059
【公開日】2014年4月23日 申請(qǐng)日期:2013年12月25日 優(yōu)先權(quán)日:2013年12月25日
【發(fā)明者】劉洋 申請(qǐng)人:新浪網(wǎng)技術(shù)(中國(guó))有限公司