亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種垃圾郵件檢測方法

文檔序號:6464421閱讀:267來源:國知局

專利名稱::一種垃圾郵件檢測方法
技術(shù)領(lǐng)域
:本發(fā)明涉及電子郵件處理
技術(shù)領(lǐng)域
,具體涉及一種基于郵件濃度特征向量的垃圾郵件檢測方法。
背景技術(shù)
:隨著互聯(lián)網(wǎng)的日益普及,電子郵件對于每一個人來說就已經(jīng)成為一種日常通訊的重要媒介和最為便捷的通信手段之一,基本上代替了傳統(tǒng)的紙質(zhì)信件,人們越來越依賴于它和離不開它。但是,電子垃圾郵件的出現(xiàn)卻引發(fā)了日益嚴(yán)重的問題,嚴(yán)重威脅著人們的正常電子郵件通信。垃圾郵件的膨脹不僅浪費掉大量的存儲空間和通信帶寬,而且還消耗了大量的用戶時間去處理和刪除它們。因此,研究對這種垃圾郵件的檢測過濾方法就顯得十分必要,具有重要意義。垃圾郵件分類檢測在本質(zhì)是一個模式識別問題。垃圾郵件的分類大體上可以分為郵件特征提取和分類器分類兩個步驟。如圖1所示顯示了垃圾郵件檢測的系統(tǒng)框架。對于一封待分類郵件,在經(jīng)過預(yù)處理后通過對郵件進(jìn)行特征提取將郵件表示為分類器可以理解的方式,隨后特征提取的結(jié)果被作為分類器的輸入。針對輸入分類器會利用預(yù)先積累的經(jīng)驗知識對郵件進(jìn)行一個兩類的判定,即是正常郵件或者是垃圾郵件并將分類結(jié)果輸出給用戶。用戶根據(jù)自身的判斷對分類器的分類結(jié)果做出反饋。分類器根據(jù)反饋的結(jié)果做出自身的動態(tài)調(diào)整。特征提取將郵件從原始形式轉(zhuǎn)化為分類器可以理解的方式。在特征提取之前需要對郵件進(jìn)行一定的預(yù)處理,如主題部分和郵件體部分的提取,分詞處理,附件解碼等。預(yù)處理之后通過某種提取方法對郵件的特征進(jìn)行分析。對于特征提取,將現(xiàn)有常用的方法將其劃分為三個類別(l)簡單方法,包括Mimging、列表、別名等,直接使用郵件的某些部分來構(gòu)造特征,如列表法允許白名單上的合法郵件發(fā)送者,過濾黑名單上的垃圾郵件發(fā)送者,同時,暫時擱置灰名單上的未確定身份的發(fā)送者;(2)詞頻統(tǒng)計方法,在許多垃圾郵件檢測方法中,一個詞w被定義為一個特征,并且一個包含若干詞的詞向量x被當(dāng)作特征向量來表示郵件,有許多詞頻統(tǒng)計的方法來構(gòu)建向量x,如標(biāo)識一個單詞在一封郵件中出現(xiàn)次數(shù)的詞頻、標(biāo)識一個詞頻在所有文檔中出現(xiàn)的總次數(shù)的-反轉(zhuǎn)文檔頻率和標(biāo)識一個單詞是否在郵件中出現(xiàn)的二元表示法;(3)啟發(fā)式方法,和詞頻統(tǒng)計關(guān)注與候選詞的選擇不同,啟發(fā)式的方法挖掘郵件中的語義信息,在訓(xùn)練階段生成的模式被用于在運行階段進(jìn)行匹配,然而,挖掘出適合分類的模式通常是比較困難的,Yeh等通過郵件頭中的如下幾個部分來挖掘垃圾郵件發(fā)送者的行為模式.-(1)From,(2)To,(3)Reply-To,(4)Delivered-To,(5)Return-Path,(6)Received,(7)Data。在上述部分中,正常郵件具有正常的行為模式,反之,垃圾郵件具有異常的行為模式。對于分類器設(shè)計,對應(yīng)地將其劃分為簡單方法、智能方法和混合方法。和分類器設(shè)計相比,特征構(gòu)造是和應(yīng)用背景密切相關(guān)的并且會對分類器的最終性能產(chǎn)生巨大的影響。準(zhǔn)確定義的特征可以很好的體現(xiàn)樣本個體之間的差別因此可以獲得良好的性能。同時,這也簡化了分類器的設(shè)計并且保障了泛化性能。然而許多特征提取方法利用詞頻統(tǒng)計形成詞向量并隨后作為后端分類算法的特征向量。雖然諸如停止列表,詞干處理,互信息量,信息獲取等方法被用于對候選詞進(jìn)行選擇以減低維數(shù),但最終形成的特征向里的維數(shù)通常還是在千位數(shù)的量級。啟發(fā)式的方法在一定程度上降低了維數(shù)巨大的問題,但是學(xué)習(xí)得到的模式集合和待分類郵件的模式之間的匹配通常是十分耗時的,尤其是當(dāng)這個模式集合比較龐大的時候。同時,挖掘準(zhǔn)確的模式也是十分困難的。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種垃圾郵件檢測方法,該方法是基于垃圾郵件濃度特征向量的,該濃度特征特征向量以二元濃度高效地表示郵件所述的類別,不僅在訓(xùn)練過程與檢測過程速度快,而且精度高,高效迅速地實現(xiàn)了垃圾郵件檢測。為實現(xiàn)上述目的,本發(fā)明釆用如下技術(shù)方案一種垃圾郵件檢測的方法,包括步驟獲取分類為正常郵件和垃圾郵件的訓(xùn)練樣本集;根據(jù)訓(xùn)練樣本集構(gòu)建正常郵件代表詞庫和垃圾郵件代表詞庫;根據(jù)訓(xùn)練樣本集中每封郵件在正常郵件代表詞庫和垃圾郵件代表詞庫中出現(xiàn)不同詞的個數(shù)與所述郵件中不同詞的個數(shù),獲取所述郵件的濃度特征向量;根據(jù)所述濃度特征向量與所述郵件的分類,建立濃度特征向量與分類的對應(yīng)關(guān)系;根據(jù)待檢測郵件在正常郵件代表詞庫和垃圾郵件代表詞庫中出現(xiàn)不同詞的個數(shù)與所述待檢測郵件中不同詞的個數(shù),獲取待檢測郵件的濃度特征向量;根據(jù)建立的濃度特征向量與分類的對應(yīng)關(guān)系,得到所述待檢測郵件的分類。其中,獲取所述郵件的濃度特征向量的方法包括步驟根據(jù)訓(xùn)練樣本集中每封郵件在正常郵件代表詞庫出現(xiàn)不同詞的個數(shù)與所述郵件中不同詞的個數(shù)比值,得到所述郵件的自己濃度;根據(jù)訓(xùn)練樣本集中每封郵件在垃圾郵件代表詞庫中出現(xiàn)不同詞的個數(shù)與所述郵件中不同詞的個數(shù)比值,得到所述郵件的非己濃度;由所述郵件的自己濃度與非己濃度組成所述郵件的濃度特征向量。其中,獲取所述待檢測郵件的濃度特征向量的方法包括步驟根據(jù)所述待檢測郵件的在正常郵件代表詞庫出現(xiàn)不同詞的個數(shù)與所述郵件中不同詞的個數(shù)比值,得到所述待檢測郵件的自己濃度;根據(jù)待檢測郵件的在垃圾郵件代表詞庫出現(xiàn)不同詞的個數(shù)與所述郵件中不同詞的個數(shù)比值,得到所述待檢測郵件的非己濃度;由所述待檢測郵件的自己濃度與非己濃度組成所述待檢測郵件的濃度特征向量。其中,構(gòu)建正常郵件代表詞庫和垃圾郵件代表詞庫的方法包括步驟獲取所述訓(xùn)練樣本集中每個詞在正常郵件中出現(xiàn)次數(shù)與在垃圾郵件中出現(xiàn)次數(shù)的差值;根據(jù)所述差值選擇所述詞為正常郵件代表詞或垃圾郵件代表詞,構(gòu)成正常郵件代表詞庫和垃圾郵件代表詞庫。其中,根據(jù)所述差值構(gòu)成正常郵件代表詞庫和垃圾郵件代表詞庫的方法為根據(jù)所述訓(xùn)練樣本集中的詞在正常郵件中出現(xiàn)次數(shù)與在垃圾郵件中出現(xiàn)次數(shù)的差值,將所述詞劃分為兩部分,其中差值大的一部分為正常郵件代表詞庫,差值小的一部分為垃圾郵件代表詞庫。其中,根據(jù)所述差值構(gòu)成正常郵件代表詞庫和垃圾郵件代表詞庫的方法為根據(jù)所述訓(xùn)練樣本集中的詞在正常郵件中出現(xiàn)次數(shù)與在垃圾郵件中出現(xiàn)次數(shù)的差值,將所述詞劃分為三部分,其中差值大的一部分為正常郵件代表詞庫,差值小的一部分為垃圾郵件代表詞庫,將差值位于中間部分的詞丟棄。其中,將訓(xùn)練樣本集中詞劃分為正常郵件垃圾庫或垃圾郵件代表詞庫時,獲取測試樣本作為待檢測樣本進(jìn)行分類的錯誤率高于設(shè)定值,則確定所述詞為丟棄詞。其中,在構(gòu)建正常郵件代表詞庫和垃圾郵件代表詞庫步驟前,還包括對所述訓(xùn)練樣本集的詞進(jìn)行預(yù)處理的步驟通過統(tǒng)計所述訓(xùn)練集樣本中不同詞在每封郵件中是否出現(xiàn),獲取不同詞的出現(xiàn)頻率,丟棄出現(xiàn)頻率高于95%的詞后得到預(yù)處理后的詞。其中,該方法中采用人工神經(jīng)網(wǎng)絡(luò)法根據(jù)所述濃度特征向量與所述郵件的分類,建立濃度特征向量與分類的對應(yīng)關(guān)系。其中,該方法中采用支持向量機(jī)根據(jù)所述濃度特征向量與所述郵件的分類,建立濃度特征向量與分類的對應(yīng)關(guān)系。利用本發(fā)明提供的垃圾郵件檢測方法進(jìn)行垃圾郵件檢測時,結(jié)果表明在僅使用兩個濃度特征的情況下,所提出的特征構(gòu)造方法與其他方法相比較取得了很好的性能提升。此外,這種特征構(gòu)造方法極大的簡化了分類器的設(shè)計與實現(xiàn),從而保證了分類器的泛化性能,具有訓(xùn)練過程與檢測過程速度快,而且精度高的優(yōu)點,高效迅速地實現(xiàn)了垃圾郵件檢測。圖l為現(xiàn)有技術(shù)中垃圾郵件檢測的系統(tǒng)框架;圖2為本發(fā)明垃圾郵件檢測方法的流程圖;圖3為本發(fā)明實施例中本實施例中構(gòu)建'自己'基因庫和'非己'基因庫的方法流程圖。具體實施例方式本發(fā)明提出的垃圾郵件檢測方法,結(jié)合附圖和實施例說明如下。如圖2所示為本發(fā)明提供的垃圾郵件檢測方法,該方法包括步驟:s201,獲取分類為正常郵件和垃圾郵件的訓(xùn)練樣本集;s202,根據(jù)訓(xùn)練樣本集構(gòu)建正常郵件代表詞庫和垃圾郵件代表詞庫;s203,根據(jù)訓(xùn)練樣本集中每封郵件在正常郵件代表詞庫和垃圾郵件代表詞庫中出現(xiàn)不同詞的個數(shù)與郵件中不同詞的個數(shù),獲取郵件的濃度特征向量;s204,根據(jù)濃度特征向量與郵件的分類,建立濃度特征向量與分類的對應(yīng)關(guān)系;s205,根據(jù)待檢測郵件在正常郵件代表詞庫和垃圾郵件代表詞庫中出現(xiàn)不同詞的個數(shù)與待檢測郵件中不同詞的個數(shù),獲取待檢測郵件的濃度特征向量;s206,根據(jù)建立的濃度特征向量與分類的對應(yīng)關(guān)系,得到待檢測郵件的分類。在自然免疫系統(tǒng)中,病原體的入侵可以簡單的通過抗體濃度的升高檢測出來,而我們也希望能夠借鑒這種思想并應(yīng)用于垃圾郵件檢測當(dāng)中。本發(fā)明的垃圾郵件檢測方法是基于免疫濃度的特征提取方式的,下面結(jié)合附圖詳細(xì)說明本發(fā)明的實施方式。實施例l本實施例中的訓(xùn)練樣本集采用標(biāo)準(zhǔn)數(shù)據(jù)集PUl(I.Androutsopoulos:J.Koutsias,K.V.Chandrinos,andC.D.Spyropoulos,"Anexperimentalcomparisonofnaivebayesianandkeyword-basedanti-spamfilteringwithpersonale-mailmessages,"inProc.ofthe23rdAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval,2000,pp.160-167.)和數(shù)據(jù)集Ling(I.Androutsopoulos,J.Koutsias,K.V.Chandrinos,G.Paliouras,andC.D.Spyropoulos,"Anevaluationofnaivebayesiananti-spamfiltering,"inProc.EuropeanConferenceonMachineLearning(ECML'00),2000)。PU1數(shù)據(jù)集包含1099封郵件,其中垃圾郵件的比率為43.77%。PU1數(shù)據(jù)集中包含經(jīng)過22個月收集得到的481封垃圾郵件,以及經(jīng)過36個月收集得到的618封正常郵件。所有的郵件均為英文郵件并且不含有內(nèi)容重復(fù)的郵件。Ling數(shù)據(jù)集包含2893封郵件,其中垃圾郵件的比率為16.63%。Ling數(shù)據(jù)集中包含481封垃圾郵件和2412封正常郵件。正常郵件是從郵件服務(wù)器存檔中隨機(jī)下載得到。所有的郵件均為英文郵件并且不含有內(nèi)容重復(fù)的郵件。兩個數(shù)據(jù)集中所有的郵件均去除了郵件頭,附件以及HTML標(biāo)簽。只保留了郵件主題部分和郵件體部分。在PU1數(shù)據(jù)集中,為了保護(hù)隱私,每一個詞被映射為一個唯一的整數(shù)。在Ling數(shù)據(jù)集中,所有的郵件保持了原始的明文形式。獲取訓(xùn)練包含正常郵件與垃圾郵件的訓(xùn)練樣本集后,下面的步驟可以分為四個部分(1)利用訓(xùn)練樣本產(chǎn)生'自己,基因庫和'非己,基因庫;(2)通過'自己'基因庫和'非己'基因庫為訓(xùn)練集中的每一個郵件樣本構(gòu)造濃度特征向量;(3)將上述這些濃度特征向量作為連續(xù)分類算法的輸入進(jìn)行分類器的訓(xùn)練;(4)訓(xùn)練好的分類器被用來檢測由濃度特征向量所屬的類別。具體如下(1)利用訓(xùn)練樣本產(chǎn)生'自己'基因庫和'非己'基因庫本實施例中將基于訓(xùn)練樣本集構(gòu)建正常郵件代表詞庫稱為'自己,基因庫,將基于訓(xùn)練樣本構(gòu)建的垃圾郵件代表詞庫稱為'非己'基因庫。在該方法中,通過訓(xùn)練樣本來構(gòu)建'自己,基因庫和'非己,基因庫?;驇熘械拿恳粋€基因片段是一個詞。'自己,基因庫中由最具正常郵件代表傾向的詞組成。相反的,'非己'基因庫中包含了最具垃圾郵件代表傾向的詞。直觀上,一個詞如果在正常郵件中出現(xiàn)的次數(shù)很多而同時它在垃圾郵件出現(xiàn)的次數(shù)很少的話,那么這個詞能夠較好的表示正常郵件,反之亦然。因此,一個詞對于正常郵件或者是垃圾郵件的代表的傾向性由它在正常郵件中的出現(xiàn)次數(shù)與它在垃圾郵件中的出現(xiàn)次數(shù)的差值來衡量。如圖3所示的本實施例中構(gòu)建'自己'基因庫和'非己,基因庫的方法流程圖,該方法包括步驟s302,統(tǒng)計訓(xùn)練樣本中每個詞在正常郵件中出現(xiàn)的次數(shù)/;s303,統(tǒng)計訓(xùn)練樣本中每個詞在垃圾郵件中出現(xiàn)的次數(shù),;s304,計算訓(xùn)練樣本中每個詞在正常郵件中出現(xiàn)的次數(shù)/與在垃圾郵件中出現(xiàn)的次數(shù)A的差值/,=/-/,;s305,將訓(xùn)練樣本中詞按照其對應(yīng)的差值力降序排序;步驟s306,位于隊列頭部和隊列尾部的一部分比例的詞將分別用于構(gòu)建'自己'基因庫和'非己'基因庫。圖3所示的方法中,本實施例中在構(gòu)建'自己,基因庫和'非己,基因庫之前,將會通過預(yù)處理對候選詞進(jìn)行餘選以降低詞庫的大小。根據(jù)垃圾郵件檢測技術(shù),幾乎在所有郵件中都出現(xiàn)的詞對于區(qū)分是否是垃圾郵件是沒有幫助的,因為每一種類別的郵件都有大量的包含該特征的詞。在這里,為了簡單起見,本實施例中釆用了如下的預(yù)處理步驟s301:通過統(tǒng)計所述訓(xùn)練集樣本中不同詞在每封郵件中是否出現(xiàn),獲取不同詞的出現(xiàn)頻率,丟棄出現(xiàn)頻率高于95%的詞后得到預(yù)處理后的詞。(2)為訓(xùn)練集中的每一個郵件樣本構(gòu)造濃度特征向量本實施例中一封郵件的濃度被定義為該郵件中在基因庫中出現(xiàn)的不同詞的個數(shù)與該郵件中不同詞的個數(shù)的比值。濃度可公式化為c=!(1)似其中,c表示濃度,iV表示郵件中在基因庫中出現(xiàn)的不同詞的個數(shù),F(xiàn)表示郵件中不同詞的個數(shù)。公式(2)中適用的基因庫包括已建立的'自己,基因庫或'非己,基因庫。因此,對于訓(xùn)練樣本中一封待分類郵件,可以分別得到描述它和正常郵件相似性的'自己,濃度和描述它和垃圾郵件相似性的'非己,濃度。即根據(jù)訓(xùn)練樣本集中每封郵件在正常郵件代表詞庫出現(xiàn)不同詞的個數(shù)與郵件中不同詞的個數(shù)比值,得到郵件的'自己,濃度;根據(jù)訓(xùn)練樣本集中每封郵件在垃圾郵件代表詞庫中出現(xiàn)不同詞的個數(shù)與郵件中不同詞的個數(shù)比值,得到所述郵件的'非己,濃度;由郵件的'自己,濃度與'非己,濃度組成郵件的濃度特征向量。(3)將郵件的濃度特征向量作為連續(xù)分類算法的輸入進(jìn)行分類器的訓(xùn)練特征提取的目的是將郵件從原始形式轉(zhuǎn)化為分類器可以理解的方式,本實施例前面的步驟已完成了郵件特征提取的過程,該郵件特征為郵件濃度特征向量,對于后序的根據(jù)濃度特征向量與郵件的分類,建立濃度特征向量與分類的對應(yīng)關(guān)系的過程,使用現(xiàn)有的分類器算法就可以完成,后端所使用的分類器算法可以是支持向量機(jī),人工神經(jīng)網(wǎng)絡(luò),Adaboost等。具體是將特征提取過程中得到的郵件濃度特征向量及郵件的分類作為輸入,輸入到人工神經(jīng)網(wǎng)絡(luò)或支持向量機(jī)進(jìn)行訓(xùn)練,就可以得到訓(xùn)練好的分類器。(4)用分類器檢測由濃度特征向量所表示的待檢測郵件的分類分類器被訓(xùn)練好,就可以進(jìn)行待檢測郵件檢測,在每接收到一封待檢測郵件后,根據(jù)待檢測郵件的在正常郵件代表詞庫出現(xiàn)不同詞的個數(shù)與待檢測郵件中不同詞的個數(shù)比值,得到待檢測郵件的'自己'濃度;根據(jù)待檢測郵件的在垃圾郵件代表詞庫出現(xiàn)不同詞的個數(shù)與待檢測郵件中不同詞的個數(shù)比值,得到待檢測郵件的'非己,濃度;由待檢測郵件的'自己,濃度與'非己,濃度組成待檢測郵件的濃度特征向量,待檢測郵件的濃度特征向量作為分類器的輸入,分類器根據(jù)建立的濃度特征向量與分類的對應(yīng)關(guān)系,輸出郵件所屬的分類,從而可以判斷該待檢測郵件是否為垃圾郵件。本實施例中在第(l)部分利用訓(xùn)練樣本產(chǎn)生'自己'基因庫和'非己,基因庫時,所提及的位于隊列頭部和隊列尾部的一部分比例的詞將分別用于構(gòu)建'自己,基因庫和'非己,基因庫,這里所說的一部分比例,可以是將隊列直接分為兩部分,位于隊列的前半部分的詞構(gòu)成'自己'基因庫,位于隊列的后半部分的詞構(gòu)成'非己,基因庫。這樣直接將隊列一分為二的作法得到的基因庫的性能有一定的準(zhǔn)確性,但還有待于進(jìn)一步優(yōu)化,本實施例中參數(shù)^%和^%唯一確定'自己'基因庫和'非己,基因庫,&%和^%的取值范圍均為0-50%,從隊列的起始位置到隊列的4%范圍內(nèi)的詞構(gòu)成'自己'基因庫,從隊列的末位置到隊列的ps%范圍內(nèi)的詞構(gòu)成'非己'基因庫,因此通過優(yōu)化&%和ps%的數(shù)值,可以丟棄中位于隊列中間部分的詞,優(yōu)化'自己'基因庫和'非己'基因庫。本實施例中釆用如下方法獲取優(yōu)選的iV/。和iV/。的數(shù)值本實施例中將&和A稱之為基因庫決定子,4和P,在5。/。到50%的區(qū)間內(nèi)進(jìn)行相互獨立測試,測試步長為5%,即?^%和&%的數(shù)值從5%的取值開始,在&和A在取不同值時構(gòu)建'自己'基因庫和'非己'基因庫,從隊列的起始位置到隊列的iV/。范圍內(nèi)的詞構(gòu)成'自己'基因庫,從隊列的末位置到隊列的^%范圍內(nèi)的詞構(gòu)成'非己'基因庫;在執(zhí)行前面所述的步驟(2)~(3)后,將測試樣本輸入到分類器中進(jìn)行測試,根據(jù)測試的分類結(jié)果可以獲取^和^在取不同值時構(gòu)建'自己,基因庫和'非己'基因庫的分類錯誤率。本實施例中的分類錯誤率目標(biāo)為0.01,在上述5%到50%的區(qū)間內(nèi)進(jìn)行測試時,分類錯誤率的iV/。和P,。/。的取值不再選用。本實施例中10次交叉驗證被用于評價性能。在試驗中進(jìn)行了IO次獨立的測試,每一次測試使用樣本集中未參加訓(xùn)練的樣本作為測試樣本。采用IO次測試的平均性能來評價濃度特征向量的性能。10次獨立測試的平均性能表明在PU1數(shù)據(jù)集上,當(dāng)&和P,均取30%時,獲得了最佳的性能。而在Ling數(shù)據(jù)集上,當(dāng)^和^分別取50%和5%時,取得的性能最好。現(xiàn)有技術(shù)中常使用正確率,精確率,召回率和丟失率這四項指標(biāo)對分類器的性能進(jìn)行評價。正確率被定義為正確分類的郵件的百分率。精確率定義為被正確分類為垃圾郵件的郵件個數(shù)與被判別為垃圾郵件的郵件個數(shù)的比率。召回率定義為被正確分類為垃圾郵件的郵件個數(shù)與自身類別為垃圾郵件的郵件個數(shù)的比率。當(dāng)過濾垃圾郵件時,錯誤的將一封正常郵件分類為垃圾郵件所造成的損失要遠(yuǎn)比未能識別出一封垃圾郵件嚴(yán)重。丟失率就是用來表示被錯誤分類的正常郵件的郵件數(shù)目與自身類別為正常郵件的郵件個數(shù)的比率。在此我們釆用將上述四種性能評價指標(biāo)列于表1中。表l.性能評價指標(biāo)<table>tableseeoriginaldocumentpage14</column></row><table>表1中,TP:被正確分類的垃圾郵件的數(shù)量。FN:被分類為正常郵件的垃圾郵件的數(shù)量。TN:被正確分類的正常郵件的數(shù)量。FP:被分類為垃圾郵件的正常郵件的數(shù)量。分類器除了BP神經(jīng)網(wǎng)絡(luò)外,我們還使用了線性分類器,線性核支持向量機(jī)SVM,徑向基神RBF核SVM來驗證二維濃度特征向量的性能。當(dāng)代價參數(shù)C足夠大時(通常大于50時),SVM的性能并不會顯著依賴參數(shù)C的選擇。在實驗中我們設(shè)置C為100。在最初的嘗試性實驗中,測試了一系列的RBF核參數(shù)y。結(jié)果表明SVM的性能對y的選擇并不敏感。在實驗中我們設(shè)置y為10。BP神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點個數(shù)被設(shè)置為3。表2和表3分別列出了在數(shù)據(jù)集PU1和Ling上測試集的平均性能。表2.&%和^%均取30%時,不同分類器在PU1測試集的平均性能<table>tableseeoriginaldocumentpage15</column></row><table>表3.&%和^%分別取50%和5%時,不同分類器在Ling測試集的平均性能<table>tableseeoriginaldocumentpage15</column></row><table>實施例2本實施例中與實施例1的不同之處在于,在優(yōu)化過程不但優(yōu)化^和A的取值,還優(yōu)化分類器的參數(shù)?,F(xiàn)有技術(shù)中有許多被用于優(yōu)化的方法,本實施例中具體采用的為粒子群優(yōu)化算法優(yōu)化&和&的取值及分類器的參數(shù)。由J.Kennedy和R.Eberhart在1995年提出的粒子群優(yōu)化算法(PSO),是一種受到鳥群覓食的社會行為啟發(fā)的隨機(jī)全局優(yōu)化算法[。當(dāng)今,PSO已經(jīng)被廣泛的應(yīng)用到了各個領(lǐng)域,包括數(shù)值函數(shù)優(yōu)化,人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練,模糊系統(tǒng)控制,盲源分離,機(jī)器學(xué)習(xí)等。CPSO是傳統(tǒng)標(biāo)準(zhǔn)粒子群優(yōu)化算法(SPSO)的一種改進(jìn)算法,它引入了免疫克隆策略的機(jī)制。和SPSO相比,CPSO具有更佳的優(yōu)化求解能力和更快的收斂能力。唯一確定'自己,和'非己'濃度的'自己'和'非己'基因庫的構(gòu)建在這里被看作為一個優(yōu)化問題。本實施例的目的是尋求一個最優(yōu)向量'={《,《,,.,《},使得和分類相關(guān)的代價函數(shù)CF(iO取得最小值CF(尸)=何尸)(6)其中,/V為使代價函數(shù)最小的^的取值,A'為使代價函數(shù)最小的^的取值,42,...《為特定分類器的參數(shù),,..《為使代價函數(shù)取最小值的特定分類器的參數(shù),^K。是訓(xùn)練集上通過10次交叉驗證度量的分類錯誤率。本實施例中首先確定特定分類器的輸入向量p,輸入向量p包括兩部分,基因庫決定子4和A,以及一個特定分類器的參數(shù)4&…A?;驇鞗Q定子唯一決定了基因庫的構(gòu)造,進(jìn)而確定了表示郵件的二維濃度特征向量。因此,基因庫決定子對應(yīng)特征構(gòu)造的性能。輸入向量P的另一部分——^尸2,…&,和分類器相關(guān)并最終影響分類器的性能。不同的分類器具有不同個數(shù)的參數(shù)。對于人工神經(jīng)網(wǎng)絡(luò)而言,確定網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)包括網(wǎng)絡(luò)層的數(shù)目,各個層的節(jié)點數(shù)目,連接兩個節(jié)點的權(quán)重等。對于支持向量機(jī)SVM而言,包括代價參數(shù)C和核函數(shù)相關(guān)的參數(shù)等。輸入向量P是我們的優(yōu)化目標(biāo)而其性能通過CF(尸)來衡量。因此,濃度特征向量的優(yōu)化過程可以被公式化,具體為求解?'={《,《,《,《,',《},使得CF(P*)=minC尸(P)不需要目標(biāo)函數(shù)解析表達(dá)式的優(yōu)化方法,只需要確定輸入向量與優(yōu)化目標(biāo)向量的優(yōu)化方法諸如遺傳算法,粒子群優(yōu)化算法PSO都可用于上述優(yōu)化過程。本實施例中將上述輸入向量輸入^%和Ps%的范圍均為5%~50%,設(shè)定人工神經(jīng)網(wǎng)絡(luò)或支持向量機(jī)的特定參數(shù)范圍后,支持向量機(jī)通過計算由上述各個數(shù)值范圍內(nèi)構(gòu)建的基因庫與分類器情況下得到的測試樣本的分類錯誤率,自動獲得上述各個數(shù)值的最優(yōu)取值,從而使基因庫決定子得到優(yōu)化,優(yōu)化了'自己'基因庫與'非己'基因庫,同時也優(yōu)化了分類器的性能。本實施例中每一個粒子的適應(yīng)度值是通過10次交叉驗證度量的訓(xùn)練集上的分類錯誤率。分類錯誤率越低,適應(yīng)度值越好。在等式7中,^和A在實數(shù)區(qū)間內(nèi)優(yōu)化。/^,..人是和分類器相關(guān)的參數(shù)。線性分類器沒有參數(shù)。對于BP神經(jīng)網(wǎng)絡(luò),隱層節(jié)點數(shù)在整數(shù)區(qū)間[3,15]內(nèi)優(yōu)化。徑向基SVM的代價參數(shù)C在實數(shù)區(qū)間[1,200]內(nèi)優(yōu)化。此外,對于RBF核SVM,核參數(shù);K在實數(shù)區(qū)間[l,20]內(nèi)優(yōu)化。CPSO的運行終止條件,即最大迭代次數(shù)被設(shè)置為200。此外,將粒子群的大小設(shè)置為20個粒子。我們對數(shù)據(jù)集的IO個不同等份進(jìn)行了十次不同的實驗,取十次實驗結(jié)果的平均值來衡量性能。因為CPSO的隨機(jī)性,在每一次實驗中我們統(tǒng)計10次獨立CPSO優(yōu)化實驗的平均值作為本次實驗的性能。實驗結(jié)果表明最終的性能對于分類器參數(shù)的選取并不敏感。這也驗證了選取分類器參數(shù)時的嘗試性實驗結(jié)果。表4和表5分別列出了在PU1和Ling上通過優(yōu)化得到的測試集上的平均性能,以及A和《的平均優(yōu)化結(jié)果。表4.不同分類器及基因庫決定子通過優(yōu)化在PU1測試集上的平均性能<table>tableseeoriginaldocumentpage17</column></row><table>表5.不同分類器及基因庫決定子通過優(yōu)化在Ling測試集上的平均性能<table>tableseeoriginaldocumentpage18</column></row><table>本實施例中訓(xùn)練樣本測試集不限于使用標(biāo)準(zhǔn)數(shù)據(jù)集,也可以釆用其他的具有代表性的訓(xùn)練樣本集,本實施例中分類器不限于所列出的上述分類器,只要是現(xiàn)有技術(shù)中根據(jù)特征向量可以建立特征向量與分類結(jié)果對應(yīng)關(guān)系的分類器都可以使用。以上實施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān)
技術(shù)領(lǐng)域
的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。權(quán)利要求1、一種垃圾郵件檢測的方法,其特征在于,該方法包括步驟獲取分類為正常郵件和垃圾郵件的訓(xùn)練樣本集;根據(jù)訓(xùn)練樣本集構(gòu)建正常郵件代表詞庫和垃圾郵件代表詞庫;根據(jù)訓(xùn)練樣本集中每封郵件在正常郵件代表詞庫和垃圾郵件代表詞庫中出現(xiàn)不同詞的個數(shù)與所述郵件中不同詞的個數(shù),獲取所述郵件的濃度特征向量;根據(jù)所述濃度特征向量與所述郵件的分類,建立濃度特征向量與分類的對應(yīng)關(guān)系;根據(jù)待檢測郵件在正常郵件代表詞庫和垃圾郵件代表詞庫中出現(xiàn)不同詞的個數(shù)與所述待檢測郵件中不同詞的個數(shù),獲取待檢測郵件的濃度特征向量;根據(jù)建立的濃度特征向量與分類的對應(yīng)關(guān)系,得到所述待檢測郵件的分類。2、如權(quán)利要求i所述的垃圾郵件檢測的方法,其特征在于,獲取所述郵件的濃度特征向量的方法包括步驟根據(jù)訓(xùn)練樣本集中每封郵件在正常郵件代表詞庫出現(xiàn)不同詞的個數(shù)與所述郵件中不同詞的個數(shù)比值,得到所述郵件的自己濃度;根據(jù)訓(xùn)練樣本集中每封郵件在垃圾郵件代表詞庫中出現(xiàn)不同詞的個數(shù)與所述郵件中不同詞的個數(shù)比值,得到所述郵件的非己濃度;由所述郵件的自己濃度與非己濃度組成所述郵件的濃度特征向3、如權(quán)利要求2所述的垃圾郵件檢測的方法,其特征在于,獲取待檢測郵件的濃度特征向量的方法包括步驟根據(jù)待檢測郵件的在正常郵件代表詞庫出現(xiàn)不同詞的個數(shù)與所述郵件中不同詞的個數(shù)比值,得到所述待檢測郵件的自己濃度;根據(jù)待檢測郵件的在垃圾郵件代表詞庫出現(xiàn)不同詞的個數(shù)與所述郵件中不同詞的個數(shù)比值,得到所述待檢測郵件的非己濃度;由所述待檢測郵件的自己濃度與非己濃度組成所述待檢測郵件的濃度特征向量。4、如權(quán)利要求1所述的郵件檢測的方法,其特征在于,構(gòu)建正常郵件代表詞庫和垃圾郵件代表詞庫的方法包括步驟獲取所述訓(xùn)練樣本集中每個詞在正常郵件中出現(xiàn)次數(shù)與在垃圾郵件中出現(xiàn)次數(shù)的差值;根據(jù)所述差值選擇所述詞為正常郵件代表詞或垃圾郵件代表詞,構(gòu)成正常郵件代表詞庫和垃圾郵件代表詞庫。5、如權(quán)利要求4所述的郵件檢測的方法,其特征在于,根據(jù)所述差值構(gòu)成正常郵件代表詞庫和垃圾郵件代表詞庫的方法為根據(jù)所述訓(xùn)練樣本集中的詞在正常郵件中出現(xiàn)次數(shù)與在垃圾郵件中出現(xiàn)次數(shù)的差值,將所述詞劃分為兩部分,其中差值大的一部分為正常郵件代表詞庫,差值小的一部分為垃圾郵件代表詞庫。6、如權(quán)利要求4所述的郵件檢測的方法,其特征在于,根據(jù)所述差值構(gòu)成正常郵件代表詞庫和垃圾郵件代表詞庫的方法為根據(jù)所述訓(xùn)練樣本集中的詞在正常郵件中出現(xiàn)次數(shù)與在垃圾郵件中出現(xiàn)次數(shù)的差值,將所述詞劃分為三部分,其中差值大的一部分為正常郵件代表詞庫,差值小的一部分為垃圾郵件代表詞庫,將差值位于中間部分的詞丟棄。7、如權(quán)利要求6所述的郵件檢測的方法,其特征在于,將訓(xùn)練樣本集中詞劃分為正常郵件垃圾庫或垃圾郵件代表詞庫時,獲取測試樣本作為待檢測樣本進(jìn)行分類的錯誤率高于設(shè)定值,則確定所述詞為丟棄詞。8、如權(quán)利要求1~7任一項所述的垃圾郵件檢測的方法,其特征在于,在構(gòu)建正常郵件代表詞庫和垃圾郵件代表詞庫步驟前,還包括對所述訓(xùn)練樣本集的詞進(jìn)行預(yù)處理的步驟通過統(tǒng)計所述訓(xùn)練集樣本中不同詞在每封郵件中是否出現(xiàn),獲取不同詞的出現(xiàn)頻率,丟棄出現(xiàn)頻率高于95%的詞后得到預(yù)處理后的詞。9、如權(quán)利要求l所述的垃圾郵件檢測的方法,其特征在于,該方法中采用人工神經(jīng)網(wǎng)絡(luò)法根據(jù)所述濃度特征向量與所述郵件的分類,建立濃度特征向量與分類的對應(yīng)關(guān)系。10、如權(quán)利要求l所述的郵件檢測的方法,其特征在于,該方法中釆用支持向量機(jī)根據(jù)所述濃度特征向量與所述郵件的分類,建立濃度特征向量與分類的對應(yīng)關(guān)系。全文摘要本發(fā)明涉及一種垃圾郵件檢測方法,包括步驟獲取分類為正常郵件和垃圾郵件的訓(xùn)練樣本集;根據(jù)訓(xùn)練樣本集構(gòu)建正常郵件代表詞庫和垃圾郵件代表詞庫;根據(jù)訓(xùn)練樣本集中每封郵件在正常郵件代表詞庫和垃圾郵件代表詞庫中出現(xiàn)不同詞的個數(shù)與郵件中不同詞的個數(shù),獲取郵件的濃度特征向量;根據(jù)濃度特征向量與郵件的分類,建立濃度特征向量與分類的對應(yīng)關(guān)系;獲取待檢測郵件的濃度特征向量;根據(jù)建立的濃度特征向量與分類的對應(yīng)關(guān)系,得到待檢測郵件的分類。本發(fā)明提出的垃圾郵件檢測方法以二元濃度高效地表示郵件所述的類別,而且精度高,高效迅速地實現(xiàn)了垃圾郵件檢測。文檔編號G06Q10/00GK101295381SQ20081011558公開日2008年10月29日申請日期2008年6月25日優(yōu)先權(quán)日2008年6月25日發(fā)明者營譚,阮光塵申請人:北京大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1