亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于拓撲行為的垃圾郵件判定方法

文檔序號:7687666閱讀:240來源:國知局
專利名稱:一種基于拓撲行為的垃圾郵件判定方法
技術領域
本發(fā)明涉及的是一種垃圾郵件的判定方法。
(二)
背景技術
電子郵件憑借低廉、簡單、快捷的優(yōu)勢己經成為人們工作和生活中的重要通 信方式,但人們在享受電子郵件提供諸多便捷之時,也在忍受著它的副產品所帶 來了的痛苦,即互聯(lián)網上垃圾郵件泛濫成災,并且近幾年有愈演愈烈的趨勢。
目前對垃圾郵件的治理還是集中在依靠垃圾郵件過濾技術。而以內容識別為 主的郵件過濾系統(tǒng),在使用過程中漸漸發(fā)現(xiàn)它們也存在著一些缺陷。內容過濾需 要訓練、分類、計算,過濾過程需要耗費大量系統(tǒng)資源,所以處理速度比較慢, CPU和內存占用較高,效率低。準確性依賴大量的歷史數(shù)據(jù),故生命周期短。對 于經常變換內容的垃圾郵件,效果也不是很好。因為它始終沒有逃離關鍵詞匹配 的思想,所以關鍵詞庫需要不斷更新維護,是一種被動的處理過程。另外,該技 術需要將郵件全部接收下來再進一步處理,雖然判斷出垃圾郵件,但并沒有節(jié)省 網絡流量開銷。
對于拓撲行為的垃圾郵件判定還處于起歩階段,如Scale-free topology of e-mail network[J], 2002,偏重于建立郵件網絡模型,以用戶為節(jié)點,以通信 關系為邊,從郵件服務器日志中截取一定信息來建立網絡模型,并通過試驗證明 由tH牛世界同樣有 scale free 禾口 small world 屬性;Comparative graph Theoretical Characterization of Networks of Spam and Regular Email [EB/0L]. http:〃arxiv. Org/abs/cond-mat/0503725,通過郵件發(fā)送者和接 收者產生的邊界流圖。作者通過用戶圖表和域圖表在各個指標如網絡聚合度、出 入度差異等方面差異來分析垃圾郵件和正常郵件的特征,使用HIS算法來分析流 量圖的演化結構,并提出如何動態(tài)地調整圖的關系結構的方法。上面典型的垃圾 郵件判定方法還屬于概念性的表述,如果沒有大量后續(xù)工作的展開,是難以在垃 圾郵件判定中得到應用。
(三) 發(fā)明內容本發(fā)明的目的在于提供一種通過分析郵件之間的通訊拓撲關系來對垃圾郵 件進行快速判定的方法。
本發(fā)明的目的是這樣實現(xiàn)的
1) 根據(jù)電子郵件的通訊關系,建立一個通訊關系拓撲2) 對通訊關系拓撲圖中,具有雙向通訊關系的用戶歸并為一個類,建立垃 圾郵件的判定模型;
3) 通過待檢測的郵件中提取from郵箱地址和to郵箱地址,并判斷其是否為垃 圾郵件;
4) 對垃圾郵件判定模型進行更新。
所述的建立郵件通訊關系拓撲圖1)從每一封電子郵件中抽取出from郵箱 地址和to郵箱地址;2)建立一條從from郵箱地址到to郵箱地址有向圖。
所述的建立垃圾郵件判定模型是1)將網絡中所有節(jié)點集合為U, from表 里存放可直達該節(jié)點的節(jié)點,to表里存放該節(jié)點可直達的節(jié)點。2)在U中任取 一個節(jié)點a,把a放進集合Tl中;3)在from表中查找出a可到達的所有的節(jié) 點ak,并加入到T1中;4)在from表中查找ak可達的所有節(jié)點,并加入到Tl 中(已有的不再加入),重復這種查找直到Tl不再發(fā)生變化;5)同樣的方法 在to表中進行查找,得到另一個集合T2,取Tl和T2的交集T為節(jié)點a的類(當 然也是T中任意一個元素的類);6)在U中去掉T中元素,再選擇一個節(jié)點, 重復3、 4、 5過程得出新的類,如此下去直至U為空;7)對每一個分出來的 類,若其內元素個數(shù)大于等于2則為正常類,給其分配一個奇素數(shù)類號,其它所 有節(jié)點都歸為一個奇異類,為其分配類號為l。
所述的垃圾郵件判定方法是1)首先要提取出from郵箱地址和to郵箱地 址,檢査它們的類號,如果兩個郵箱中至少有一個沒有類號,說明是新郵箱之間 通信或已有的類與新郵箱通信,這時暫判為正常郵件,把沒有類號的郵箱的類號 記為1 (奇異類)并記錄下通信關系。然后根據(jù)其以后的通信情況,再做相應判 斷和處理。否則,向下繼續(xù)進行;2)檢查兩個郵箱所屬類號的最大公約數(shù),如 果最大公約數(shù)大于l,則這封郵件被判為正常郵件。如果最大公約數(shù)為l,向下 繼續(xù)進行;3)看發(fā)送者是否在接受者已發(fā)送但并未回復的地址中,既判斷這封 郵件是否是一封回復郵件。如果是,則說明發(fā)送者和接收者在互相通信,則這封郵件被判為正常郵件。同時,還要更新類的信息。否則向下繼續(xù)進行;4)統(tǒng)計 這個發(fā)送者向這個接收者已發(fā)送但并沒有得到回復的郵件數(shù)目,并將其與我們設 定的閾值相比較。如果小于閾值,就判為正常郵件。如果大于等于閾值,則判為 垃圾郵件。
所述的模型更新具體包括以下幾種情形1)新節(jié)點和所有類節(jié)點進行單向 通信,把新節(jié)點加入到奇異類中;2)新節(jié)點與奇異類中節(jié)點進行雙向通信,則 它們生成新的正常類;3)新節(jié)點與正常類中節(jié)點進行雙向通信,則把新節(jié)點加 入該正常類。4)奇異類中的節(jié)點之間進行雙向通信,則它們生成新的正常類;5) 奇異類中的節(jié)點和某正常類中節(jié)點進行雙向通信后,把奇異類的節(jié)點也歸為與其 進行通信的節(jié)點的類中;6)若兩個不同的正常類節(jié)點進行雙向通信,則這兩個 節(jié)點生成一個新的包含這兩個類的聚類(原先的兩個類稱為該類的子類),它們 的類號均新設為原先兩個類號的積,但這兩個節(jié)點都可正常與以前所屬類別中的 節(jié)點通信;7)如果某個正常類里面已沒有節(jié)點,則撤銷該類,并把該類的聚類 并入聚類的另一個子類中,撤銷聚類。
針對以上情況,本發(fā)明從郵件的拓撲行為出發(fā),提出了基于拓撲行為的垃圾 郵件判定方法。經實驗驗證,這個技術能夠很好地解決已有的垃圾郵件判定技術 的不足。
本發(fā)明是基于如下問題而設計的
由于基于郵件內容的垃圾郵件識別技術,具有識別速度慢的特點,并且無法 從源頭上有效遏制垃圾郵件的轉播和蔓延,因此需要一種可以快速、有效的垃圾 郵件判定方法。
為了能夠快速判定垃圾郵件就必須要采用一種需要信息量小且有效的方法, 首先獲取郵件的消息頭信息,將from郵箱地址和to郵箱地址提取出來;其次建 立郵箱地址之間的通訊關系圖,并建立識別模型;將待檢測郵件的消息頭部信息 提取出來,并放入已有的判定模型中進行判斷;最后對判定模型進行更新。
本發(fā)明的主要技術特征體現(xiàn)在
1)需要少量郵件信息,處理速度快
判定郵件的屬性往往需要獲取郵件的內容,這樣處理速度就比較慢,而且必 須將郵件全部收下來以后才能進行,因此不能從源頭上遏制郵件的傳播。本發(fā)明之需要獲取郵件的頭部信息中的一部分,因此可以僅獲取部分信息,就可以對郵 件屬性進行判斷,可以從源頭上對郵件進行判斷。
具體技術路線是l.根據(jù)不同的部署情況,從SMTP協(xié)議中獲取郵件信頭部 信息從ReceWed字段開始,到連續(xù)兩個回車換行結束;2.從獲取數(shù)據(jù)中提取郵 件地址信息,包括from字段和to字段;3.將郵件地址字段信息對輸入到判定模型 中進行郵件屬性判定。
2)垃圾郵件判定模型可以自動實時更新
具體技術路線1.根據(jù)待判定郵件的地址信息與己存在類節(jié)點之間通訊關
系,更新識別模型;2.根據(jù)奇異類之間的通訊關系和奇異類與正常類之間的通 訊關系更新識別模型。3.根據(jù)正常類之間的通訊關系更新識別模型。
本發(fā)明的優(yōu)點在于只需要獲取郵件的少量信息就可以快速、準確的對垃圾 郵件進行判定,并且可以根據(jù)不同的情況部署到不同的位置如郵件服務器、 網關、骨干網出入口等等。由于其處理速度快,因此可以在源頭上遏制垃圾郵件 的傳播。
(四)


圖1基于拓撲行為的垃圾郵件判定步驟;
圖2 A 、 B、 C、 D、 E形成的拓撲網絡集合l;
圖3 A 、 B、 C、 D、 E形成的拓撲網絡集合2;
圖4郵件網絡拓撲圖5垃圾郵件子圖6合法郵件子圖7郵件拓撲示意圖8基于拓撲行為的垃圾郵件判定技術測試結果; 圖9處理時間對比表1。
具體實施方式
下面結合附圖舉例對本發(fā)明做更詳細地描述 1)拓撲行為識別模型原理
合法郵件是在發(fā)信人和收信人存在社會關系前提下,以相互交換信息為目 的,雙向通信的結果;而垃圾郵件是在發(fā)送者利益驅動下,以大范圍擴散為目的,單向通信的產物。兩者本質上的不同必然導致其行為的顯著差異,因此垃圾郵件 和合法郵件在單/雙向行為特征上是可以區(qū)分的。
通過對大量合法郵件和垃圾郵件樣本分析總結,發(fā)現(xiàn)合法郵件體現(xiàn)了通信雙 方之間一種親戚、朋友、同事、上下級等社會關系,而且與合法的通信雙方有"朋 友"關系或"信任"關系的人之間也有很大概率通信的可能性。例如A認識B、 C、 D、 E,那么B、 C、 D、 E相互認識的可能性就很大,這是社會關系網絡的一個 自然屬性。同樣對于郵件系統(tǒng),A給B、 C、 D、 E都發(fā)過郵件,因為都是A的 朋友,所以B、 C、 D、 E之間通過A相互認識,他們之間也會相互通信,就會 形成一個小的緊密聯(lián)系的集合,如圖2所示。
而垃圾郵件卻是那些不請自來,希望能有更多的人獲得發(fā)送者傳遞信息的郵 件。接收與發(fā)送者之間并不認識,也沒有任何社會關系。垃圾郵件屬于濫發(fā)行為, 發(fā)送者與接收者、多數(shù)接收者之間并不存在社會關系。比如A是垃圾郵件發(fā)送 者,將郵件發(fā)給B、 C、 D、 E,它們形成的疏松網絡如圖3所示。
用某大學校園郵件服務器上一周的日志信息,使用Graphviz繪圖工具生成 網絡拓撲圖驗證上面分析的正確性。由日志信息建立的郵件網絡拓撲圖如圖4所 示。
圖中每個節(jié)點是郵箱地址的散列值,從圖中可以拆分出一個垃圾郵件子圖和 一個合法郵件子圖,分別見圖5和圖6。
從垃圾郵件圖5中,可以明顯地看到散列值為33690和39900的兩個垃圾郵 件發(fā)送者在發(fā)送郵件。發(fā)送者只發(fā)不收,接收者之間沒有任何通信關系,節(jié)點之 間聯(lián)結疏松。而在合法郵件圖6中,節(jié)點之間存在著雙向互通關系,并且節(jié)點間 聯(lián)結很緊密,形成聯(lián)結緊密的關系網。這正是由于合法郵件之間存在合法的社會 關系,使得他們之間有對應的通信關系的結果。
郵件發(fā)送者和接收者之間是否擁有社會關系,是區(qū)分垃圾郵件和合法郵件最 本質的特征之一,這種特征在垃圾郵件和合法郵件拓撲圖中表現(xiàn)出極大的不同。 所以可以根據(jù)圖形理論知識,選取合適的度量,構建郵件拓撲圖,然后用圖形理 論分析的方法來區(qū)分垃圾郵件與合法郵件。
2)垃圾郵件判定模型
以用戶郵箱地址為結點,用戶之間通信關系作為邊建立郵件拓撲圖。分析圖的拓撲特性,得到多個反映用戶社會關系的用戶類。同一個類內的用戶相互通信 的郵件為正常郵件,不同類之間用戶單向通信的郵件為垃圾郵件。
用戶類別劃分是以用戶間是否相互通信為依據(jù),所有的用戶劃分為若干個正 常類和一個奇異類。當且僅當兩個用戶相互發(fā)送過郵件,兩者歸為同一個正常類, 們所有不能和其他用戶歸為同一類的用戶形成奇異類。隨著用戶之間的相互通 信,類可以自動進化以反映當前的用戶關系。
圖7是郵件拓撲關系的示意圖,其中灰色圓圈圍著的部分有相互通信關系, 表示正常類。兩個黑點沒有相互通信關系,說明這兩個黑點是垃圾郵件發(fā)送者, 它們代表垃圾類。
在識別模型的建立過程中,本文采用MNTA (mail net topology arithmetic)
算法,結合圖1該方法具體描述如下
設網絡中所有節(jié)點集合為U, from表里存放可直達該節(jié)點的節(jié)點,to表里 存放該節(jié)點可直達的節(jié)點。
(1) 在U中任取一個節(jié)點a,把a放進集合Tl中;
(2) 在from表中査找出a可到達的所有的節(jié)點ak,并加入到Tl中;
(3) 在from表中查找ak可達的所有節(jié)點,并加入到Tl中(已有的不再加 入),重復這種査找直到Tl不再發(fā)生變化;
(4) 同樣的方法在to表中進行查找,得到另一個集合T2,取T1和T2的交 集T為節(jié)點a的類(當然也是T中任意一個元素的類);
(5) 在U中去掉T中元素,再選擇一個節(jié)點,重復2、 3、 4過程得出新的類, 如此下去直至U為空;
(6) 對每一個分出來的類,若其內元素個數(shù)大于等于2則為正常類,給其分 配一個奇素數(shù)類號,其它所有節(jié)點都歸為一個奇異類,為其分配類號為l;
按照這個算法,我們就把一個大的網絡拓撲圖分成若干個類。正常類里面包 含的都是互相連通的、可以互達的、具有一定社會關系的節(jié)點。這些節(jié)點之間相 互通信,認為是合法的,它們之間通信的郵件即為合法郵件。而奇異類中只有單 向通信關系,節(jié)點之間不可以互達。由于節(jié)點之間不存在著確定的社會關系,因 此,這里面的節(jié)點是可疑的。.
最后,我們把網絡中的每個節(jié)點,即郵箱地址,分配一個由上面算法獲得的類號。這樣,識別模型就建立了起來。
3) 郵件屬性判定 對于每新來的一封郵件,
(1) 首先要提取出from郵箱地址和to郵箱地址,檢査它們的類號。 如果兩個郵箱中至少有一個沒有類號,說明是新郵箱之間通信或己有的類與
新郵箱通信,這時暫判為正常郵件,把沒有類號的郵箱的類號記為1 (奇異類) 并記錄下通信關系。然后根據(jù)其以后的通信情況,再做相應判斷和處理。否則, 向下繼續(xù)進行。
(2) 檢査兩個郵箱所屬類號的最大公約數(shù)。
如果最大公約數(shù)大于1,則這封郵件被判為正常郵件。如果最大公約數(shù)為1, 向下繼續(xù)進行。
(3) 看發(fā)送者是否在接受者已發(fā)送但并未回復的地址中,既判斷這封郵件是 否是一封回復郵件。如果是,則說明發(fā)送者和接收者在互相通信,則這封郵件被 判為正常郵件。同時,還要更新類的信息。否則向下繼續(xù)進行。
(4) 統(tǒng)計這個發(fā)送者向這個接收者已發(fā)送但并沒有得到回復的郵件數(shù)目,并 將其與我們設定的閾值相比較。如果小于閾值,就判為正常郵件。如果大于等于
閾值,則判為垃圾郵件。
4) 判定模型更新
隨著時間的推移,用戶節(jié)點之間的關系會發(fā)生變化,而此時類也應能進化以 表示新的用戶關系,具體包括以下幾種情形
(1) 新節(jié)點和所有類節(jié)點進行單向通信,把新節(jié)點加入到奇異類中。
(2) 新節(jié)點與奇異類中節(jié)點進行雙向通信,則它們生成新的正常類。
(3) 新節(jié)點與正常類中節(jié)點進行雙向通信,則把新節(jié)點加入該正常類。
(4) 奇異類中的節(jié)點之間進行雙向通信,則它們生成新的正常類。
(5) 奇異類中的節(jié)點和某正常類中節(jié)點進行雙向通信后,把奇異類的節(jié)點也 歸為與其進行通信的節(jié)點的類中。
(6) 若兩個不同的正常類節(jié)點進行雙向通信,則這兩個節(jié)點生成一個新的包 含這兩個類的聚類(原先的兩個類稱為該類的子類),它們的類號均新設為原先 兩個類號的積,但這兩個節(jié)點都可正常與以前所屬類別中的節(jié)點通信。(7)如果某個正常類里面已沒有節(jié)點,則撤銷該類,并把該類的聚類并入聚 類的另一個子類中,撤銷聚類。 4)實驗及分析收集某大學校園郵件服務器日志信息,共10586條。其中2000條用來建立 郵件拓撲圖,形成垃圾郵件識別模型,剩余8586條用來測試。 硬件環(huán)境曙光服務器一臺 軟件環(huán)境Red hat 9.0以上的linux操作系統(tǒng)在不同閾值的情況下,本文提出的基于拓撲的行為識別技術的召回率、準確 率、精確率如圖8所示。從圖中可以看出,召回率和精確率會隨著閾值的變大而 降低;準確率隨著閾值的增大而升高。準確率達到100%時,以后一直保持這個 水平,準確率很高,召回率稍低。當閾值為1時,表示收發(fā)件人只有一次單向通信關系時,即判為垃圾郵件。 這樣,就會將沒有來得及回信的郵件誤判為垃圾郵件。所以圖中當閾值為l時, 準確率只有70%,召回率90%,有30%正常郵件被誤判為垃圾郵件。閾值2時 的情況,雖然準確率有所提高,但仍有20%的誤判。然后準確率逐漸上升,當閾 值為6時,準確率達到100%,召回率70%,精確率72%,這時總的性能達到最 好。另外,該技術平均處理每封郵件的時間僅為微秒級,而內容識別技術為毫秒 級的,故其速度快、執(zhí)行效率比較高。與內容識別技術在處理時間上的對比,如 表1所示。綜上,實驗數(shù)據(jù)進一步證明了基于拓撲行為的垃圾郵件識別技術不僅快,而 且準的特點。
權利要求
1、一種垃圾郵件的判定方法,其特征是1)根據(jù)電子郵件的通訊關系,建立一個通訊關系拓撲圖;2)對通訊關系拓撲圖中,具有雙向通訊關系的用戶歸并為一個類,建立垃圾郵件的判定模型;3)通過待檢測的郵件中提取from郵箱地址和to郵箱地址,并判斷其是否為垃圾郵件;4)對垃圾郵件判定模型進行更新。
2、 根據(jù)權利要求1所述的一種垃圾郵件的判定方法,其特征是所述的建 立通訊關系拓撲圖的方法為1)從每一封電子郵件中抽取出from郵箱地址和 to郵箱地址;2)建立一條從from郵箱地址到to郵箱地址有向圖。
3、 根據(jù)權利要求2所述的一種垃圾郵件的判定方法,其特征是所述的建 立垃圾郵件判定模型的方法是1)將網絡中所有節(jié)點集合為U, from表里存 放可直達該節(jié)點的節(jié)點,to表里存放該節(jié)點可直達的節(jié)點;2)在U中任取一 個節(jié)點a,把a放進集合Tl中;3)在from表中査找出a可到達的所有的節(jié) 點ak,并加入到T1中;4)在from表中査找ak可達的所有節(jié)點,并加入到 Tl中且已有的不再加入,重復這種查找直到Tl不再發(fā)生變化;5)同樣的方 法在to表中進行査找,得到另一個集合T2,取Tl和T2的交集T為節(jié)點a的 類;6)在U中去掉T中元素,再選擇一個節(jié)點,重復3) 、 4) 、 5)過程得出 新的類,如此下去直至U為空;7)對每一個分出來的類,若其內元素個數(shù)大 于等于2則為正常類,給其分配一個奇素數(shù)類號,其它所有節(jié)點都歸為一個奇 異類,為其分配類號為1。
4、 根據(jù)權利要求3所述的一種垃圾郵件的判定方法,其特征是所述的判 斷其是否為垃圾郵件的方法是1)首先提取出from郵箱地址和to郵箱地址, 檢查它們的類號,如果兩個郵箱中至少有一個沒有類號,暫判為正常郵件,把 沒有類號的郵箱的類號記為1并記錄下通信關系;然后根據(jù)其以后的通信情況, 再做相應判斷和處理;否則,向下繼續(xù)進行;2)檢査兩個郵箱所屬類號的最大 公約數(shù),如果最大公約數(shù)大于1,則這封郵件被判為正常郵件;如果最大公約數(shù)為l,向下繼續(xù)進行;3)看發(fā)送者是否在接受者已發(fā)送但并未回復的地址中, 既判斷這封郵件是否是一封回復郵件,如果是,則這封郵件被判為正常郵件, 同時,還要更新類的信息,否則向下繼續(xù)進行;4)統(tǒng)計這個發(fā)送者向這個接收 者己發(fā)送但并沒有得到回復的郵件數(shù)目,并將其與設定的閾值相比較,如果小 于閾值,就判為正常郵件,如果大于等于閾值,則判為垃圾郵件。
5、根據(jù)權利要求4所述的一種垃圾郵件的判定方法,其特征是所述的對 垃圾郵件判定模型進行更新是選擇如下方法之一1)新節(jié)點和所有類節(jié)點進行 單向通信,把新節(jié)點加入到奇異類中;2)新節(jié)點與奇異類中節(jié)點進行雙向通信, 則它們生成新的正常類;3)新節(jié)點與正常類中節(jié)點進行雙向通信,則把新節(jié)點 加入該正常類;4)奇異類中的節(jié)點之間進行雙向通信,則它們生成新的正常類; 5)奇異類中的節(jié)點和某正常類中節(jié)點進行雙向通信后,把奇異類的節(jié)點也歸為 與其進行通信的節(jié)點的類中;6)若兩個不同的正常類節(jié)點進行雙向通信,則這 兩個節(jié)點生成一個新的包含這兩個類的聚類,它們的類號均新設為原先兩個類 號的積,但這兩個節(jié)點都可正常與以前所屬類別中的節(jié)點通信;7)如果某個正 常類里面已沒有節(jié)點,則撤銷該類,并把該類的聚類并入聚類的另一個子類中, 撤銷聚類。
全文摘要
本發(fā)明提供的是一種垃圾郵件的判定方法。根據(jù)電子郵件的通訊關系,建立一個通訊關系拓撲圖;對通訊關系拓撲圖中,具有雙向通訊關系的用戶歸并為一個類,建立垃圾郵件的判定模型;通過待檢測的郵件中提取from郵箱地址和to郵箱地址,并判斷其是否為垃圾郵件;對垃圾郵件判定模型進行更新。本發(fā)明的優(yōu)點在于只需要獲取郵件的少量信息就可以快速、準確的對垃圾郵件進行判定,并且可以根據(jù)不同的情況部署到不同的位置如郵件服務器、網關、骨干網出入口等等。由于其處理速度快,因此可以在源頭上遏制垃圾郵件的傳播。
文檔編號H04L12/58GK101299729SQ20081006480
公開日2008年11月5日 申請日期2008年6月25日 優(yōu)先權日2008年6月25日
發(fā)明者張樂君, 武 楊, 巍 王 申請人:哈爾濱工程大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1