一種垃圾郵件過(guò)濾方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及垃圾郵件處理技術(shù)領(lǐng)域,特別是涉及一種垃圾郵件過(guò)濾方法及系統(tǒng)。
【背景技術(shù)】
[0002] 當(dāng)今,隨著計(jì)算機(jī)技術(shù)以及互聯(lián)網(wǎng)的飛速發(fā)展,電子郵件(E-mail)早已成為人們 日常工作、生活中不可或缺的溝通方式。
[0003] 實(shí)際上,電子郵件在給人們帶來(lái)極大便利的同時(shí)也帶來(lái)了一些負(fù)面影響,即我們 每天收到的郵件有很大一部分是不請(qǐng)自來(lái)的,其中,有些是商業(yè)廣告,有些是政治宣傳,有 些是色情廣告,還有一些甚至是病毒,我們俗稱(chēng)這些郵件為垃圾郵件。垃圾郵件的發(fā)布者為 了大面積散布信息,通常采用多臺(tái)機(jī)器同時(shí)巨量發(fā)送的方式攻擊郵件服務(wù)器,導(dǎo)致被攻擊 郵件服務(wù)器大量帶寬的損失,并影響人們正常的工作與生活。因此,尋找一種切實(shí)可行的垃 圾郵件過(guò)濾方法顯得尤為重要。
[0004] 現(xiàn)有的垃圾郵件過(guò)濾方法主要有IP過(guò)濾技術(shù)、用戶黑白名單技術(shù)、基于規(guī)則的關(guān) 鍵字過(guò)濾、規(guī)則評(píng)分等,然而,這些技術(shù)都存在共同的缺點(diǎn):由于垃圾郵件的多源性、不確定 性、多變性,使得垃圾郵件過(guò)濾方法的設(shè)計(jì)復(fù)雜度高,并且垃圾郵件過(guò)濾的準(zhǔn)確率低,已無(wú) 法滿足當(dāng)前形勢(shì)下垃圾郵件過(guò)濾的需求。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明提供了一種垃圾郵件過(guò)濾方法及系統(tǒng),以降低垃圾郵件過(guò)濾方 法的設(shè)計(jì)復(fù)雜度,提高垃圾郵件過(guò)濾的準(zhǔn)確性。
[0006] 為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種垃圾郵件過(guò)濾方法,包括:
[0007] 接收電子郵件,并提取所述電子郵件的基因序列;
[0008] 對(duì)比所述電子郵件的基因序列與預(yù)設(shè)的郵件DNA庫(kù)中的基因序列,確定所述電子 郵件的基因序列與每個(gè)所述郵件DNA庫(kù)中的基因序列的相似度;
[0009] 將所述相似度超過(guò)預(yù)設(shè)閾值的所述郵件DNA庫(kù)中的基因序列對(duì)應(yīng)的郵件屬性作 為所述電子郵件的郵件屬性;
[0010] 其中,所述郵件屬性包括垃圾郵件或者非垃圾郵件。
[0011] 上述方法中,優(yōu)選的,所述提取所述電子郵件的基因序列包括:
[0012] 對(duì)所述電子郵件進(jìn)行分詞,得到分詞結(jié)果;
[0013] 利用貝葉斯統(tǒng)計(jì)模型,計(jì)算所述分詞結(jié)果中詞語(yǔ)序列對(duì)應(yīng)的先驗(yàn)概率;
[0014] 利用所述詞語(yǔ)序列和所述詞語(yǔ)序列對(duì)應(yīng)的先驗(yàn)概率,構(gòu)成所述電子郵件的基因序 列。
[0015] 上述方法中,優(yōu)選的,在所述對(duì)所述電子郵件進(jìn)行分詞,得到分詞結(jié)果之前,還包 括:
[0016] 將編碼格式的所述電子郵件轉(zhuǎn)換為可處理文本格式的電子郵件。
[0017] 上述方法中,優(yōu)選的,在所述對(duì)比所述電子郵件的基因序列與預(yù)設(shè)的郵件DNA庫(kù) 中的基因序列之前,還包括:
[0018] 獲取作為訓(xùn)練樣本的電子郵件,并提取所述訓(xùn)練樣本的基因序列;
[0019] 確定所述訓(xùn)練樣本的基因序列對(duì)應(yīng)的郵件屬性;
[0020] 利用所述訓(xùn)練樣本的基因序列、所述訓(xùn)練樣本的基因序列對(duì)應(yīng)的郵件屬性及兩者 之間的對(duì)應(yīng)關(guān)系,構(gòu)建得到所述郵件DNA庫(kù)。
[0021] 上述方法中,優(yōu)選的,在所述將所述相似度超過(guò)預(yù)設(shè)閾值的所述郵件DNA庫(kù)中的 基因序列對(duì)應(yīng)的郵件屬性作為所述電子郵件的郵件屬性之后,還包括:
[0022] 將所述電子郵件的基因序列和所述電子郵件的基因序列對(duì)應(yīng)的郵件屬性更新至 所述郵件NDA庫(kù)。
[0023] 本發(fā)明還提供了一種垃圾郵件過(guò)濾系統(tǒng),包括:
[0024] 提取單元,用于接收電子郵件,并提取所述電子郵件的基因序列;
[0025] 比對(duì)單元,用于對(duì)比所述電子郵件的基因序列與預(yù)設(shè)的郵件DNA庫(kù)中的基因序 列,確定所述電子郵件的基因序列與每個(gè)所述郵件DNA庫(kù)中的基因序列的相似度;
[0026] 屬性確定單元,用于將所述相似度超過(guò)預(yù)設(shè)閾值的所述郵件DNA庫(kù)中的基因序列 對(duì)應(yīng)的郵件屬性作為所述電子郵件的郵件屬性;
[0027] 其中,所述郵件屬性包括垃圾郵件或者非垃圾郵件。
[0028] 上述系統(tǒng)中,優(yōu)選的,所述提取單元包括:
[0029] 分詞子單元,用于對(duì)所述電子郵件進(jìn)行分詞,得到分詞結(jié)果;
[0030] 先驗(yàn)概率計(jì)算子單元,用于利用貝葉斯統(tǒng)計(jì)模型,計(jì)算所述分詞結(jié)果中詞語(yǔ)序列 對(duì)應(yīng)的先驗(yàn)概率;
[0031] 基因序列構(gòu)建子單元,用于利用所述詞語(yǔ)序列和所述詞語(yǔ)序列對(duì)應(yīng)的先驗(yàn)概率, 構(gòu)成所述電子郵件的基因序列。
[0032] 上述系統(tǒng)中,優(yōu)選的,還包括:
[0033] 預(yù)處理模塊,用于在所述對(duì)所述電子郵件進(jìn)行分詞,得到分詞結(jié)果之前,將編碼格 式的所述電子郵件轉(zhuǎn)換為可處理文本格式的電子郵件。
[0034] 上述系統(tǒng)中,優(yōu)選的,還包括:
[0035] 郵件DNA庫(kù)生成模塊,用于在所述對(duì)比所述電子郵件的基因序列與預(yù)設(shè)的郵件 DNA庫(kù)中的基因序列之前,獲取作為訓(xùn)練樣本的電子郵件,并提取所述訓(xùn)練樣本的基因序 列;確定所述訓(xùn)練樣本的基因序列對(duì)應(yīng)的郵件屬性;利用所述訓(xùn)練樣本的基因序列、所述 訓(xùn)練樣本的基因序列對(duì)應(yīng)的郵件屬性及兩者之間的對(duì)應(yīng)關(guān)系,構(gòu)建得到所述郵件DNA庫(kù)。
[0036] 上述系統(tǒng)中,優(yōu)選的,還包括:
[0037] 郵件NDA庫(kù)更新模塊,用于在所述將所述相似度超過(guò)預(yù)設(shè)閾值的所述郵件DNA庫(kù) 中的基因序列對(duì)應(yīng)的郵件屬性作為所述電子郵件的郵件屬性之后,將所述電子郵件的基因 序列和所述電子郵件的基因序列對(duì)應(yīng)的郵件屬性更新至所述郵件NDA庫(kù)。
[0038] 以上本發(fā)明提供的一種垃圾郵件過(guò)濾方法及系統(tǒng)中,基于郵件DNA庫(kù),首先,接收 電子郵件并提取該電子郵件的基因序列;然后,對(duì)比電子郵件的基因序列與預(yù)先構(gòu)建的郵 件DNA庫(kù)中的基因序列,確定該電子郵件的基因序列與每個(gè)郵件DNA庫(kù)中的基因序列的相 似度;最后,將相似度超過(guò)預(yù)設(shè)閾值的郵件DNA庫(kù)中的基因序列對(duì)應(yīng)的郵件屬性作為上述 電子郵件的郵件屬性,當(dāng)該郵件屬性為垃圾郵件時(shí)確定接收到的電子郵件為垃圾郵件。綜 上,上述基于郵件DNA庫(kù)的垃圾郵件過(guò)濾方法彌補(bǔ)了IP過(guò)濾技術(shù)、用戶黑白名單技術(shù)、基于 規(guī)則的關(guān)鍵字過(guò)濾、規(guī)則評(píng)分等方法的不足,大大降低了因垃圾郵件的多源性、不確定性、 多變性帶來(lái)的垃圾郵件過(guò)濾系統(tǒng)的設(shè)計(jì)復(fù)雜度,有效提高了垃圾郵件過(guò)濾的準(zhǔn)確性,均具 有較高的技術(shù)價(jià)值。
【附圖說(shuō)明】
[0039] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。
[0040] 圖1為本發(fā)明實(shí)施例提供的一種垃圾郵件過(guò)濾方法的流程圖;
[0041] 圖2為本發(fā)明實(shí)施例提供的電子郵件預(yù)處理的具體過(guò)程流程圖;
[0042] 圖3為本發(fā)明實(shí)施例提供的提取電子郵件的基因序列的具體過(guò)程流程圖;
[0043] 圖4為本發(fā)明實(shí)施例提供的郵件DNA庫(kù)的具體生成過(guò)程流程圖;
[0044] 圖5為本發(fā)明實(shí)施例提供的一種垃圾郵件過(guò)濾系統(tǒng)的結(jié)構(gòu)框圖示意圖。
【具體實(shí)施方式】
[0045] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0046] 本發(fā)明的核心是提供垃圾郵件過(guò)濾方法及系統(tǒng),以降低垃圾郵件過(guò)濾方法的設(shè)計(jì) 復(fù)雜度,提高垃圾郵件過(guò)濾的準(zhǔn)確性。
[0047] 為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和【具體實(shí)施方式】 對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。
[0048] 參考圖1,圖1示出了本發(fā)明實(shí)施例提供的一種垃圾郵件過(guò)濾方法的流程圖,該方 法具體可以包括如下步驟:
[0049] 步驟S100、接收電子郵件,并提取電子郵件的基因序列。
[0050] 本發(fā)明實(shí)施例方法的執(zhí)行主體為垃圾郵件過(guò)濾系統(tǒng),具體地,可由垃圾郵件過(guò)濾 系統(tǒng)中的垃圾郵件過(guò)濾模塊來(lái)完成步驟S100至步驟S102的具體內(nèi)容。
[0051] 在實(shí)際應(yīng)用中,接收到的電子郵件(也稱(chēng)新郵件)的格式通常都是編碼格式的, 因此,在提取電子郵件的基因序列之前,需要基于電子郵件的傳輸協(xié)議和編碼,將編碼格式 的電子郵件轉(zhuǎn)換為可處理文本格式的電子郵件。具體實(shí)施時(shí),可以由垃圾郵件過(guò)濾系統(tǒng)中 的預(yù)處理模塊實(shí)現(xiàn)上述轉(zhuǎn)換過(guò)程。參考圖2,示出了電子郵件預(yù)處理的具體過(guò)程,在電子 郵件接收端,郵件依次經(jīng)過(guò)郵件用戶代理模塊MUA(MailUserAgent)、郵件傳輸代理模塊 MTA(MailTransferAgent)和郵件投遞代理模塊MDA(MailDeliveryAgent)最終到達(dá)收 件人郵箱。接著,預(yù)處理模塊提取電子郵件的完整內(nèi)容,然后將提取的內(nèi)容根據(jù)標(biāo)簽格式化 為可處理文本以供后續(xù)處理。
[0052] 參考圖3,提取電子郵件的基因序列的具體過(guò)程如下:
[0053] 步驟S300、對(duì)電子郵件進(jìn)行分詞,得到分詞結(jié)果。
[0054] 在實(shí)際應(yīng)用中,首先需要基于電子郵件的傳輸協(xié)議和編碼,將編碼格式的電子郵 件轉(zhuǎn)換為可處理文本格式的電子郵件。具體實(shí)施時(shí),可以由垃圾郵件過(guò)濾系統(tǒng)中的預(yù)處理 模塊實(shí)現(xiàn)上述轉(zhuǎn)換過(guò)程。
[0055] 在接收到新郵件后,對(duì)可處理文本格式的電子郵件的內(nèi)容進(jìn)行分詞,得到分詞結(jié) 果。
[0056] 步驟S301、利用貝葉斯統(tǒng)計(jì)模型,計(jì)算分詞結(jié)果中詞語(yǔ)序列對(duì)應(yīng)的先驗(yàn)概率。
[0057] 具體地,將新郵件的基因序列與郵件DNA庫(kù)中的基因序列進(jìn)行比對(duì),利用貝葉斯 統(tǒng)計(jì)模型設(shè)定閾值并判定新郵件的屬性。
[0058] 步驟S302、利用詞語(yǔ)序列和詞語(yǔ)序列對(duì)應(yīng)的先驗(yàn)概率,構(gòu)成電子郵件的基因序列。
[0059] 以上為提取電子郵件的基因序列的具體過(guò)程。
[0060] 步驟S101、對(duì)比電子郵件的基因序列與預(yù)設(shè)的郵件DNA庫(kù)中的基因序列,確定電 子郵件