郵件分類方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種郵件分類方法和裝置,所述方法包括:對(duì)于每個(gè)郵件類別,計(jì)算出待分類郵件屬于該郵件類別的概率,將計(jì)算出的概率作為對(duì)應(yīng)該郵件類別的概率;將計(jì)算出的對(duì)應(yīng)各郵件類別的概率進(jìn)行排序,并判斷待分類郵件的特征詞中是否包括最大的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞;若是,則將待分類郵件劃分到最大的概率所對(duì)應(yīng)的郵件類別中;否則計(jì)算最大的概率和排序第二的概率的差值、以及該差值與最大的概率的比值,若該比值小于設(shè)定差率閾值,且待分類郵件的特征詞中包括有排序第二的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞,則將待分類郵件劃分到排序第二的概率所對(duì)應(yīng)的郵件類別中。從而通過設(shè)定郵件類別的關(guān)鍵詞可使得郵件分類更為準(zhǔn)確。
【專利說明】郵件分類方法和裝置
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種郵件分類方法和裝置。
【背景技術(shù)】
[0002]電子郵件采用儲(chǔ)存-轉(zhuǎn)發(fā)方式在網(wǎng)絡(luò)上逐步傳遞信息,具有傳播速度快、交流對(duì)象廣泛、成本低廉等特點(diǎn)。在當(dāng)前的互聯(lián)網(wǎng)信息化時(shí)代中,人們通過電子郵件進(jìn)行交流或通信的行為越來越普遍。
[0003]通常,電子郵件用戶的郵箱中包含多種類型的郵件,比如,商訊、社交、訂單、招聘、培訓(xùn)機(jī)構(gòu)、銀行理財(cái)?shù)阮愢]件,以及普通的對(duì)話郵件(如朋友間相互問候的郵件)等。若用戶的收件箱中商訊推廣等類郵件過多,則會(huì)造成用戶投訴過多的問題,而且將郵件無差別的投遞到用戶的收件箱中,可能會(huì)導(dǎo)致用戶的收件箱中各種類型的郵件混雜在一起,從而給用戶查看閱讀所需郵件造成困擾。因此,郵件系統(tǒng)往往會(huì)對(duì)郵件進(jìn)行分類,將郵件劃分為多種類別,以使用戶獲得更好地郵箱體驗(yàn)。例如,gmail郵箱在普通的收件箱之外有廣告郵件、網(wǎng)站動(dòng)態(tài)信息郵件等,qq郵箱在普通的收件箱之外有訂閱郵件等。
[0004]目前,現(xiàn)有的一種郵件分類方法主要是基于聚類算法:根據(jù)訓(xùn)練樣本郵件的郵件數(shù)據(jù)進(jìn)行分詞后得到的特征詞,將訓(xùn)練樣本郵件劃分為若干郵件類別,并分別組成若干郵件類別的郵件數(shù)據(jù)樣本集;之后,根據(jù)待分類郵件的郵件數(shù)據(jù)的特征詞,計(jì)算待分類郵件屬于每個(gè)郵件類別的郵件數(shù)據(jù)樣本集的概率,將最大的概率所對(duì)應(yīng)的郵件類別作為待分類郵件的郵件類別,并將待分類郵件劃分到該郵件類別的郵件數(shù)據(jù)樣本集中。其中,郵件數(shù)據(jù)通常為郵件內(nèi)容。
[0005]然而,本發(fā)明的發(fā)明人發(fā)現(xiàn),現(xiàn)有技術(shù)的郵件分類方法準(zhǔn)確度較低,會(huì)出現(xiàn)一些郵件類別誤判的現(xiàn)象,而使得用戶不能及時(shí)查看到所需要的郵件:比如,用戶在求職期間可能較為關(guān)心招聘類郵件,現(xiàn)有技術(shù)的方法卻可能將招聘類郵件劃分到培訓(xùn)機(jī)構(gòu)類郵件中,使得用戶不能及時(shí)得到招聘類郵件的信息;再如,將普通的對(duì)話郵件劃分為商訊類郵件,可能使得用戶無法及時(shí)查看這些誤判的普通的對(duì)話郵件,給用戶帶來極大不便。因此,有必要提供一種能夠更為準(zhǔn)確的對(duì)郵件進(jìn)行分類的郵件分類方法。
【發(fā)明內(nèi)容】
[0006]針對(duì)上述現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供了一種郵件分類方法和裝置,用以提高郵件分類的準(zhǔn)確性。
[0007]根據(jù)本發(fā)明的一個(gè)方面,提供了一種郵件分類方法,包括:
[0008]對(duì)于預(yù)先確定的每個(gè)郵件類別,根據(jù)待分類郵件的特征詞,計(jì)算出所述待分類郵件屬于該郵件類別的概率后,將計(jì)算出的概率作為對(duì)應(yīng)該郵件類別的概率;
[0009]將計(jì)算出的對(duì)應(yīng)各郵件類別的概率進(jìn)行排序,并判斷所述待分類郵件的特征詞中是否包括最大的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對(duì)應(yīng)的郵件類別中;否則:[0010]計(jì)算出最大的概率和排序第二的概率的差值,并計(jì)算該差值與最大的概率的比值;若判定計(jì)算出的比值小于設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第二的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞,則將所述待分類郵件劃分到排序第二的概率所對(duì)應(yīng)的郵件類別中。
[0011]較佳地,所述計(jì)算出所述待分類郵件屬于該郵件類別的概率之前,還包括:
[0012]確定出所述待分類郵件的特征詞中包含于該郵件類別的特征詞典中的特征詞的個(gè)數(shù),計(jì)算確定出的個(gè)數(shù)與所述待分類郵件的特征詞的總數(shù)的比值,作為所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率;并確認(rèn)所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率大于設(shè)定的比率閾值。
[0013]其中,所述郵件類別的關(guān)鍵詞是預(yù)先確定的:
[0014]針對(duì)每個(gè)郵件類別,對(duì)于該郵件類別的特征詞典中的每個(gè)特征詞,預(yù)先統(tǒng)計(jì)出該郵件類別中包含該特征詞的樣本郵件的數(shù)量并進(jìn)行由大到小排序;將排序靠前的設(shè)定個(gè)數(shù)的特征詞作為該郵件類別的關(guān)鍵詞。
[0015]較佳地,對(duì)于預(yù)先確定的每個(gè)郵件類別,根據(jù)待分類郵件的特征詞,計(jì)算出所述待分類郵件屬于該郵件類別的概率,具體包括:
[0016]記第i個(gè)郵件類別為Ci,所述待分類郵件的η個(gè)特征詞分別為F1,F2, , Fn,計(jì)算出如下式I的值,將其作為所述待分類郵件屬于第i個(gè)郵件類別的概率:
[0017]P(Ci)P(F1ICi)P(F2ICi)1--P(FjCi)(式 I)
[0018]式I 中,P(Fk I ?)=,PiCi)今;
J Q
[0019]其中,k取I~η之間的自然數(shù)h為特征詞Fk在郵件類別Ci的郵件數(shù)據(jù)樣本集中出現(xiàn)的次數(shù);/c,為郵件類別Ci的特征詞典中的各特征詞在郵件類別Ci的郵件數(shù)據(jù)樣本集中出現(xiàn)的次數(shù)之和;sCi為郵件類別Ci的郵件數(shù)據(jù)樣本集中的樣本郵件的數(shù)量;s為各郵件類別的郵件數(shù)據(jù)樣本集中的樣本郵件的數(shù)量之和。 [0020]其中,所 述郵件類別的特征詞典是根據(jù)如下方法得到的:
[0021]對(duì)于每個(gè)郵件類別,對(duì)該郵件類別的郵件數(shù)據(jù)樣本集中的樣本郵件進(jìn)行分詞,并統(tǒng)計(jì)出分詞后的每個(gè)詞語在該郵件類別的郵件數(shù)據(jù)樣本集中出現(xiàn)的次數(shù)作為該詞語的詞頻;去除分詞后的各詞語中的生僻詞和停用詞后,將詞頻大于設(shè)定下限閾值、小于設(shè)定上限閾值的詞語確定為該郵件類別的備選詞;將該郵件類別的備選詞中詞性信息與詞性信息表中記錄的詞性信息相匹配的備選詞,確定為該郵件類別的特征詞,該郵件類別的各特征詞組成該郵件類別的特征詞典;
[0022]其中,各郵件類別的郵件數(shù)據(jù)樣本集是根據(jù)樣本郵件的特征向量之間的相似度,基于聚類算法劃分出來的。
[0023]較佳地,所述待分類郵件的特征詞具體包括:從所述待分類郵件的郵件標(biāo)題中提取出的標(biāo)題特征詞,以及從所述待分類郵件的郵件內(nèi)容中提取出的內(nèi)容特征詞;以及
[0024]所述根據(jù)待分類郵件的特征詞,計(jì)算出所述待分類郵件屬于該郵件類別的概率,具體包括:
[0025]根據(jù)所述待分類郵件的標(biāo)題特征詞,計(jì)算出所述待分類郵件的郵件標(biāo)題屬于該郵件類別的概率后,將該概率作為對(duì)應(yīng)該郵件類別的標(biāo)題概率;并
[0026]根據(jù)所述待分類郵件的內(nèi)容特征詞,計(jì)算出所述待分類郵件的郵件內(nèi)容屬于該郵件類別的概率后,將該概率作為對(duì)應(yīng)該郵件類別的內(nèi)容概率;以及
[0027]所述將計(jì)算出的對(duì)應(yīng)各郵件類別的概率進(jìn)行排序,并判斷所述待分類郵件的特征詞中是否包括最大的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對(duì)應(yīng)的郵件類別中,具體包括:
[0028]將計(jì)算出的對(duì)應(yīng)各郵件類別的標(biāo)題概率進(jìn)行排序,若判斷所述待分類郵件的標(biāo)題特征詞中包括最大的標(biāo)題概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞,則將最大的標(biāo)題概率所對(duì)應(yīng)的郵件類別作為對(duì)應(yīng)郵件標(biāo)題的待判定郵件類別;并
[0029]將計(jì)算出的對(duì)應(yīng)各郵件類別的內(nèi)容概率進(jìn)行排序,若判斷所述待分類郵件的內(nèi)容特征詞中包括最大的內(nèi)容概率所對(duì)應(yīng)的郵件類別的關(guān)鍵詞,則將最大的內(nèi)容概率所對(duì)應(yīng)的郵件類別作為對(duì)應(yīng)郵件內(nèi)容的待判定郵件類別;
[0030]若所述對(duì)應(yīng)郵件標(biāo)題的待判定郵件類別與所述對(duì)應(yīng)郵件內(nèi)容的待判定郵件類別相同,則將所述待分類郵件劃分到所述待判定郵件類別中。
[0031]較佳地,在所述計(jì)算出最大的概率和排序第二的概率的差值,并計(jì)算該差值與最大的概率的比值后,還包括:
[0032]若判斷該比值不小于所述設(shè)定差率閾值,則將所述待分類郵件確定為對(duì)話郵件;
[0033]若判斷該比值小于所述設(shè)定差率閾值,且所述待分類郵件的特征詞中不包括排序第二的概率所對(duì)應(yīng)的郵件類別的關(guān)鍵詞,則:
[0034]將該比值作為第一分類概率差率后,進(jìn)一步計(jì)算最大的概率和排序第三的概率的差值,將該差值與最大的概率的比值作為第二分類概率差率;若確定第二分類概率差率小于所述設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第三的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞,則將所述待分類郵件劃分到排序第三的概率所對(duì)應(yīng)的郵件類別中。
[0035]根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種郵件分類裝置,包括:
[0036]概率計(jì)算模塊,用于對(duì)于預(yù)先確定的每個(gè)郵件類別,根據(jù)待分類郵件的特征詞,計(jì)算出所述待分類郵件屬于該郵件類別的概率后,將計(jì)算出的概率作為對(duì)應(yīng)該郵件類別的概率;
[0037]排序模塊,用于將計(jì)算出的對(duì)應(yīng)各郵件類別的概率進(jìn)行排序,得到排序結(jié)果;
[0038]類別劃分模塊,用于判斷所述待分類郵件的特征詞中是否包括所述排序結(jié)果中最大的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對(duì)應(yīng)的郵件類別中;否則:計(jì)算出所述排序結(jié)果中最大的概率和排序第二的概率的差值后,計(jì)算該差值與最大的概率的比值;若判定計(jì)算出的比值小于設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第二的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞,則將所述待分類郵件劃分到排序第二的概率所對(duì)應(yīng)的郵件類別中。
[0039]進(jìn)一步,所述郵件分類裝置,還包括:
[0040]特征詞出現(xiàn)比率預(yù)判模塊,用于對(duì)于預(yù)先確定的每個(gè)郵件類別,確定出所述待分類郵件的特征詞中包含于該郵件類別的特征詞典中的特征詞的個(gè)數(shù),計(jì)算確定出的個(gè)數(shù)與所述待分類郵件的特征詞的總數(shù)的比值,作為所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率;并確認(rèn)所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率大于設(shè)定的比率閾值時(shí),觸發(fā)所述概率計(jì)算模塊。
[0041]較佳地,所述類別劃分模塊還用于若判斷所述比值不小于所述設(shè)定差率閾值,則將所述待分類郵件確定為對(duì)話郵件;若判斷所述比值小于所述設(shè)定差率閾值,且所述待分類郵件的特征詞中不包括排序第二的概率所對(duì)應(yīng)的郵件類別的關(guān)鍵詞,則:將所述比值作為第一分類概率差率后,進(jìn)一步計(jì)算所述排序結(jié)果中最大的概率和排序第三的概率的差值,將該差值與最大的概率的比值作為第二分類概率差率;在確定第二分類概率差率小于所述設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第三的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞的情況下,將所述待分類郵件劃分到排序第三的概率所對(duì)應(yīng)的郵件類別中。
[0042]本發(fā)明的技術(shù)方案中,由于為每個(gè)郵件類別分別設(shè)定了關(guān)鍵詞,將待分類郵件屬于每個(gè)郵件類別的概率,與郵件類別的關(guān)鍵詞相結(jié)合進(jìn)行郵件分類,從而避免待分類郵件中的一些非關(guān)鍵詞對(duì)郵件分類的準(zhǔn)確性的影響,并基于待分類郵件的分類概率差率的計(jì)算,在不能將待分類郵件劃分到最大的概率所對(duì)應(yīng)的郵件類別中時(shí),保證郵件分類仍然具有較高的準(zhǔn)確性。
[0043]進(jìn)一步,本發(fā)明中的待分類郵件在每個(gè)郵件類別下的特征詞出現(xiàn)比率的計(jì)算,可以簡化郵件分類過程中的計(jì)算,并保證郵件分類的準(zhǔn)確性;而且,分別根據(jù)待分類郵件的郵件主題和郵件內(nèi)容進(jìn)行郵件分類,可進(jìn)一步保證郵件分類的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0044]圖1為本發(fā)明實(shí)施例的確定郵件類別及其郵件數(shù)據(jù)樣本集和特征詞典的方法的流程圖;
[0045]圖2a、2b為本發(fā)明實(shí)施例的郵件分類方法的流程圖;
[0046]圖3為本發(fā)明實(shí)施例的郵件分類裝置的內(nèi)部結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0047]為使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下參照附圖并舉出優(yōu)選實(shí)施例,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。然而,需要說明的是,說明書中列出的許多細(xì)節(jié)僅僅是為了使讀者對(duì)本發(fā)明的一個(gè)或多個(gè)方面有一個(gè)透徹的理解,即便沒有這些特定的細(xì)節(jié)也可以實(shí)現(xiàn)本發(fā)明的這些方面。
[0048]本申請(qǐng)使用的“模塊”、“系統(tǒng)”等術(shù)語旨在包括與計(jì)算機(jī)相關(guān)的實(shí)體,例如但不限于硬件、固件、軟硬件組合、軟件或者執(zhí)行中的軟件。例如,模塊可以是,但并不僅限于:處理器上運(yùn)行的進(jìn)程、處理器、對(duì)象、可執(zhí)行程序、執(zhí)行的線程、程序和/或計(jì)算機(jī)。舉例來說,計(jì)算設(shè)備上運(yùn)行的應(yīng)用程序和此計(jì)算設(shè)備都可以是模塊。一個(gè)或多個(gè)模塊可以位于執(zhí)行中的一個(gè)進(jìn)程和/或線程內(nèi),一個(gè)模塊也可以位于一臺(tái)計(jì)算機(jī)上和/或分布于兩臺(tái)或更多臺(tái)計(jì)算機(jī)之間。
[0049]本發(fā)明的發(fā)明人發(fā)現(xiàn),現(xiàn)有技術(shù)的方法誤判郵件的原因在于,當(dāng)某封郵件的郵件內(nèi)容中包含有較多的并不具有代表性的某郵件類別的特征時(shí),可能會(huì)使得計(jì)算出的該郵件屬于該郵件類別的概率最大,若將該郵件劃分到該郵件類別中可能并不準(zhǔn)確。例如,若兩位朋友間的對(duì)話郵件,談及到詢問彼此工作的情況,而使得郵件內(nèi)容中包含福利、待遇、職位等的詞語,而這些詞語可能屬于招聘類郵件的一些特征,現(xiàn)有技術(shù)的方法可能會(huì)誤將該郵件劃分到招聘類郵件中。
[0050]由此考慮到,可預(yù)先分別為每個(gè)郵件類別設(shè)定分類規(guī)則,即將一些較具有代表性的詞語設(shè)定為郵件類別的關(guān)鍵詞。例如,將“工作”、“簡歷”、“招聘”等的一個(gè)或幾個(gè)詞語設(shè)定為招聘類郵件的關(guān)鍵詞。這樣,得到待分類郵件屬于每個(gè)郵件類別的概率,并確定出最大的概率所對(duì)應(yīng)的郵件類別后,先判斷待分類郵件的特征詞中是否包含有該郵件類別的關(guān)鍵詞,若沒有則表明待分類郵件不符合該郵件類別的分類規(guī)則,可根據(jù)排序在前兩位的概率的差值(本文中稱為分類概率差率)以及排在第二的概率所對(duì)應(yīng)的郵件類別的關(guān)鍵詞,確定是否將待分類郵件劃分到排在第二的概率所對(duì)應(yīng)的郵件類別中。從而,基于郵件類別的關(guān)鍵詞以及分類概率差率,可更為準(zhǔn)確地對(duì)待分類郵件進(jìn)行分類。
[0051]下面結(jié)合附圖詳細(xì)說明本發(fā)明的技術(shù)方案。本發(fā)明實(shí)施例中,在進(jìn)行郵件分類之前,可預(yù)先確定出若干郵件類別(如商訊、社交、銀行信用卡、招聘信息、訂單信息、注冊(cè)信息、新聞)以及每個(gè)郵件類別的郵件數(shù)據(jù)樣本集和特征詞典,從而在預(yù)先確定的郵件類別的基礎(chǔ)上,對(duì)待分類郵件進(jìn)行分類。具體地,預(yù)先確定若干郵件類別以及每個(gè)郵件類別的郵件數(shù)據(jù)樣本集和特征詞典的方法的流程,如圖1所示,具體包括如下步驟:
[0052]SlOl:對(duì)于待 訓(xùn)練郵件集合中的每個(gè)樣本郵件,得到該樣本郵件的詞語集合,根據(jù)得到的各樣本郵件的詞語集合確定出待訓(xùn)練郵件集合的詞語集合,進(jìn)而確定出該樣本郵件的詞語特征向量。
[0053]具體地,可從郵件服務(wù)器的進(jìn)信箱里提取出設(shè)定時(shí)間段內(nèi)或設(shè)定數(shù)量的非對(duì)話郵件的樣本郵件,將這些樣本郵件作為集合元素組成待訓(xùn)練郵件集合。針對(duì)待訓(xùn)練郵件集合中的每個(gè)樣本郵件,對(duì)該樣本郵件的郵件數(shù)據(jù)(包括郵件標(biāo)題和郵件內(nèi)容)進(jìn)行分詞,并去除經(jīng)分詞劃分出的各詞語中的停用詞和生僻字,得到該樣本郵件的詞語集合。將待訓(xùn)練郵件集合中的每個(gè)樣本郵件的詞語集合合并成同一個(gè)詞語集合,即去除掉各樣本郵件的詞語集合中因重復(fù)而冗余的詞語,得到該待訓(xùn)練郵件集合的詞語集合。
[0054]對(duì)于待訓(xùn)練郵件集合中的每個(gè)樣本郵件,將待訓(xùn)練郵件集合的詞語集合中的詞語總數(shù)作為該樣本郵件的詞語特征向量的維數(shù),并將待訓(xùn)練郵件集合的詞語集合中的各詞語,分別對(duì)應(yīng)到該樣本郵件的詞語特征向量的各向量元素;對(duì)于該樣本郵件的詞語特征向量中的每個(gè)向量元素,該向量元素值的確定方法如下:若該向量元素所對(duì)應(yīng)的待訓(xùn)練郵件集合的詞語集合中的詞語包含在該樣本郵件的詞語集合中,則該向量元素值設(shè)置為I ;否則該向量元素值設(shè)置為O。例如,待訓(xùn)練郵件集合中的一個(gè)樣本郵件的詞語特征向量具體表征為D = [(I1,…,dj,..,dj ,其中dj的取值為I或者O,取I表示待訓(xùn)練郵件集合的詞語集合中第j個(gè)詞語包含在當(dāng)前樣本郵件的詞語集合中,取O表示待訓(xùn)練郵件集合的詞語集合中第j個(gè)詞語不包含在當(dāng)前樣本郵件的詞語集合中;其中,j為I~L的自然數(shù),L為待訓(xùn)練郵件集合的詞語集合的詞語總數(shù)。
[0055]S102:根據(jù)待訓(xùn)練郵件集合中的樣本郵件的詞語特征向量之間的相似度,采用聚類算法對(duì)待訓(xùn)練郵件集合中的樣本郵件進(jìn)行聚類,得到若干簇。
[0056]具體地,通??梢圆捎糜嘞蚁嗨贫扔?jì)算方法,計(jì)算出任意兩個(gè)樣本郵件的詞語特征向量之間的相似度,也就是任意兩個(gè)樣本郵件之間的相似度。例如,樣本郵件X和樣本郵件y的詞語特征向量分別為X = [X1, *.., Xj,..,xj和Y = Ly1,..., Yj,..,yj,可根據(jù)如下公式2計(jì)算出樣本郵件X的特征向量和樣本郵件y之間的相似度Sim(X,Y):
[0057]
【權(quán)利要求】
1.一種郵件分類方法,其特征在于,包括: 對(duì)于預(yù)先確定的每個(gè)郵件類別,根據(jù)待分類郵件的特征詞,計(jì)算出所述待分類郵件屬于該郵件類別的概率后,將計(jì)算出的概率作為對(duì)應(yīng)該郵件類別的概率; 將計(jì)算出的對(duì)應(yīng)各郵件類別的概率進(jìn)行排序,并判斷所述待分類郵件的特征詞中是否包括最大的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對(duì)應(yīng)的郵件類別中;否則: 計(jì)算出最大的概率和排序第二的概率的差值,并計(jì)算該差值與最大的概率的比值;若判定計(jì)算出的比值小于設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第二的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞,則將所述待分類郵件劃分到排序第二的概率所對(duì)應(yīng)的郵件類別中。
2.如權(quán)利要求1所述的方法,其特征在于,所述計(jì)算出所述待分類郵件屬于該郵件類別的概率之前,還包括: 確定出所述待分類郵件的特征詞中包含于該郵件類別的特征詞典中的特征詞的個(gè)數(shù),計(jì)算確定出的個(gè)數(shù)與所述待分類郵件的特征詞的總數(shù)的比值,作為所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率;并確認(rèn)所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率大于設(shè)定的比率閾值 。
3.如權(quán)利要求2所述的方法,其特征在于,所述郵件類別的關(guān)鍵詞是預(yù)先確定的: 針對(duì)每個(gè)郵件類別,對(duì)于該郵件類別的特征詞典中的每個(gè)特征詞,預(yù)先統(tǒng)計(jì)出該郵件類別中包含該特征詞的樣本郵件的數(shù)量并進(jìn)行由大到小排序;將排序靠前的設(shè)定個(gè)數(shù)的特征詞作為該郵件類別的關(guān)鍵詞。
4.如權(quán)利要求3所述的方法,其特征在于,對(duì)于預(yù)先確定的每個(gè)郵件類別,根據(jù)待分類郵件的特征詞,計(jì)算出所述待分類郵件屬于該郵件類別的概率,具體包括: 記第i個(gè)郵件類別為Ci,所述待分類郵件的η個(gè)特征詞分別為F1, F2,, Fn,計(jì)算出如下式I的值,將其作為所述待分類郵件屬于第i個(gè)郵件類別的概率:
P(Ci)P(F1ICi)P(F2ICi)1--P(FjCi)(式 I)
5.如權(quán)利要求4所述的方法,其特征在于,所述郵件類別的特征詞典是根據(jù)如下方法得到的: 對(duì)于每個(gè)郵件類別,對(duì)該郵件類別的郵件數(shù)據(jù)樣本集中的樣本郵件進(jìn)行分詞,并統(tǒng)計(jì)出分詞后的每個(gè)詞語在該郵件類別的郵件數(shù)據(jù)樣本集中出現(xiàn)的次數(shù)作為該詞語的詞頻;去除分詞后的各詞語中的生僻詞和停用詞后,將詞頻大于設(shè)定下限閾值、小于設(shè)定上限閾值的詞語確定為該郵件類別的備選詞;將該郵件類別的備選詞中詞性信息與詞性信息表中記錄的詞性信息相匹配的備選詞,確定為該郵件類別的特征詞,該郵件類別的各特征詞組成該郵件類別的特征詞典; 其中,各郵件類別的郵件數(shù)據(jù)樣本集是根據(jù)樣本郵件的特征向量之間的相似度,基于聚類算法劃分出來的。
6.如權(quán)利要求4或5所述的方法,其特征在于,所述待分類郵件的特征詞具體包括:從所述待分類郵件的郵件標(biāo)題中提取出的標(biāo)題特征詞,以及從所述待分類郵件的郵件內(nèi)容中提取出的內(nèi)容特征詞;以及 所述根據(jù)待分類郵件的特征詞,計(jì)算出所述待分類郵件屬于該郵件類別的概率,具體包括: 根據(jù)所述待分類郵件的標(biāo)題特征詞,計(jì)算出所述待分類郵件的郵件標(biāo)題屬于該郵件類另IJ的概率后,將該概率作為對(duì)應(yīng)該郵件類別的標(biāo)題概率;并 根據(jù)所述待分類郵件的內(nèi)容特征詞,計(jì)算出所述待分類郵件的郵件內(nèi)容屬于該郵件類別的概率后,將該概率作為對(duì)應(yīng)該郵件類別的內(nèi)容概率;以及 所述將計(jì)算出的對(duì)應(yīng)各郵件類別的概率進(jìn)行排序,并判斷所述待分類郵件的特征詞中是否包括最大的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對(duì) 應(yīng)的郵件類別中,具體包括: 將計(jì)算出的對(duì)應(yīng)各郵件類別的標(biāo)題概率進(jìn)行排序,若判斷所述待分類郵件的標(biāo)題特征詞中包括最大的標(biāo)題概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞,則將最大的標(biāo)題概率所對(duì)應(yīng)的郵件類別作為對(duì)應(yīng)郵件標(biāo)題的待判定郵件類別;并 將計(jì)算出的對(duì)應(yīng)各郵件類別的內(nèi)容概率進(jìn)行排序,若判斷所述待分類郵件的內(nèi)容特征詞中包括最大的內(nèi)容概率所對(duì)應(yīng)的郵件類別的關(guān)鍵詞,則將最大的內(nèi)容概率所對(duì)應(yīng)的郵件類別作為對(duì)應(yīng)郵件內(nèi)容的待判定郵件類別; 若所述對(duì)應(yīng)郵件標(biāo)題的待判定郵件類別與所述對(duì)應(yīng)郵件內(nèi)容的待判定郵件類別相同,則將所述待分類郵件劃分到所述待判定郵件類別中。
7.如權(quán)利要求1-5任一所述的方法,其特征在于,在所述計(jì)算出最大的概率和排序第二的概率的差值,并計(jì)算該差值與最大的概率的比值后,還包括: 若判斷該比值不小于所述設(shè)定差率閾值,則將所述待分類郵件確定為對(duì)話郵件; 若判斷該比值小于所述設(shè)定差率閾值,且所述待分類郵件的特征詞中不包括排序第二的概率所對(duì)應(yīng)的郵件類別的關(guān)鍵詞,則: 將該比值作為第一分類概率差率后,進(jìn)一步計(jì)算最大的概率和排序第三的概率的差值,將該差值與最大的概率的比值作為第二分類概率差率;若確定第二分類概率差率小于所述設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第三的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞,則將所述待分類郵件劃分到排序第三的概率所對(duì)應(yīng)的郵件類別中。
8.一種郵件分類裝置,其特征在于,包括: 概率計(jì)算模塊,用于對(duì)于預(yù)先確定的每個(gè)郵件類別,根據(jù)待分類郵件的特征詞,計(jì)算出所述待分類郵件屬于該郵件類別的概率后,將計(jì)算出的概率作為對(duì)應(yīng)該郵件類別的概率;排序模塊,用于將計(jì)算出的對(duì)應(yīng)各郵件類別的概率進(jìn)行排序,得到排序結(jié)果; 類別劃分模塊,用于判斷所述待分類郵件的特征詞中是否包括所述排序結(jié)果中最大的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞;若是,則將所述待分類郵件劃分到最大的概率所對(duì)應(yīng)的郵件類別中;否則:計(jì)算出所述排序結(jié)果中最大的概率和排序第二的概率的差值,并計(jì)算該差值與最大的概率的比值;若判定計(jì)算出的比值小于設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第二的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞,則將所述待分類郵件劃分到排序第二的概率所對(duì)應(yīng)的郵件類別中。
9.如權(quán)利要求8所述的裝置,其特征在于,還包括: 特征詞出現(xiàn)比率預(yù)判模塊,用于對(duì)于預(yù)先確定的每個(gè)郵件類別,確定出所述待分類郵件的特征詞中包含于該郵件類別的特征詞典中的特征詞的個(gè)數(shù),計(jì)算確定出的個(gè)數(shù)與所述待分類郵件的特征詞的總數(shù)的比值,作為所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率;并確認(rèn)所述待分類郵件在該郵件類別下的特征詞出現(xiàn)比率大于設(shè)定的比率閾值時(shí),觸發(fā)所述概率計(jì)算模塊。
10.如權(quán)利要求8或9所述的裝置,其特征在于, 所述類別劃分模塊還用于若判斷所述比值不小于所述設(shè)定差率閾值,則將所述待分類郵件確定為對(duì)話郵件;若判斷所述比值小于所述設(shè)定差率閾值,且所述待分類郵件的特征詞中不包括排序第二的概率所對(duì)應(yīng)的郵件類別的關(guān)鍵詞,則:將所述比值作為第一分類概率差率后,進(jìn)一步計(jì)算所述排序結(jié)果中最大的概率和排序第三的概率的差值,將該差值與最大的概率的比值作為第二分類概率差率;在確定第二分類概率差率小于所述設(shè)定差率閾值,且所述待分類郵件的特征詞中包括有排序第三的概率所對(duì)應(yīng)的郵件類別的至少一個(gè)關(guān)鍵詞的情況下,將所述待分類郵件劃分到排序第三的概率所對(duì)應(yīng)的郵件類別中。
【文檔編號(hào)】G06F17/30GK103984703SQ201410163082
【公開日】2014年8月13日 申請(qǐng)日期:2014年4月22日 優(yōu)先權(quán)日:2014年4月22日
【發(fā)明者】陳玉焓 申請(qǐng)人:新浪網(wǎng)技術(shù)(中國)有限公司