一種電子郵件分類方法及其裝置制造方法

文檔序號(hào)：6510158閱讀：213來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種電子郵件分類方法及其裝置制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種電子郵件分類方法及其裝置，其中，該方法包括：對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果；使用TF-IDF技術(shù)對(duì)所述分詞結(jié)果進(jìn)行排序處理；獲取每?jī)蓚€(gè)電子郵件之間的相似性；根據(jù)所述相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果；將所述聚類結(jié)果進(jìn)行顯示。實(shí)施本發(fā)明實(shí)施例，在用戶不希望對(duì)電子郵件進(jìn)行任何操作的情況下，可以智能地根據(jù)電子郵件的內(nèi)容對(duì)電子郵件進(jìn)行分類，可減少用戶的工作；在用戶對(duì)分類結(jié)果進(jìn)行干預(yù)時(shí)，也可以根據(jù)用戶自己設(shè)定的規(guī)則進(jìn)行優(yōu)先級(jí)排序，提高了操作靈活性，提高了電子郵件用戶的體驗(yàn)性及便利性。
【專利說(shuō)明】一種電子郵件分類方法及其裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)通信【技術(shù)領(lǐng)域】，特別是涉及一種電子郵件分類方法及其裝置。
【背景技術(shù)】
[0002]隨著移動(dòng)終端技術(shù)的不斷發(fā)展，手機(jī)、掌上電腦、平板、筆記本等各種移動(dòng)設(shè)備已經(jīng)成為人們工作、生活中必不可缺的一部分，而電子郵件是人們辦公、通信最常用的功能之
一。特別是對(duì)于商務(wù)人士，每天因?yàn)楣ぷ鞫伎赡墚a(chǎn)生幾百個(gè)電子郵件，長(zhǎng)時(shí)間使用電子郵件功能后，如何在大量的郵件中方便、有效地找到一條特定電子郵件，尤其是和當(dāng)前環(huán)境相關(guān)的郵件，成了一大問(wèn)題。
[0003]對(duì)于商務(wù)人士而言，如何面對(duì)郵箱里每天繁雜的電子郵件是一個(gè)令人頭疼的問(wèn)題。為了滿足顧客的需求，許多電子郵件服務(wù)商都提供了自定義郵件分類服務(wù)。用戶通過(guò)設(shè)置個(gè)性化收件規(guī)則，可將來(lái)自特定發(fā)件人、特定域名或是郵件中帶有特定詞匯的電子郵件分為一類，方便閱讀和管理。
[0004]現(xiàn)有方案中，對(duì)于電子郵件一般僅保存內(nèi)容、收信人或發(fā)信人、時(shí)間等信息，比如簡(jiǎn)單地按時(shí)間、主題等排序顯示，或者簡(jiǎn)單地按聯(lián)系人分類排序顯示，或者簡(jiǎn)單的提供搜索功能，讓用戶按聯(lián)系人或者電子郵件內(nèi)容來(lái)查找。上述方式只是簡(jiǎn)單把用戶的郵件列出來(lái)，對(duì)電子郵件的區(qū)分度較低，當(dāng)用戶想要查看某一個(gè)郵件時(shí)，一般用戶很難記得其中的詳細(xì)信息，只能根據(jù)電子郵件的時(shí)間或聯(lián)系人或者郵件的部分內(nèi)容去手動(dòng)查找，對(duì)于存儲(chǔ)了大量電子郵件。
[0005]然而，以上功能存在一定的局限性。首先，使用該功能需要用戶進(jìn)行多步驟的預(yù)設(shè)置；其次，即使郵件已經(jīng)進(jìn)行了分類，用戶依舊不能立馬從海量的未讀郵件中判斷出哪些是最需要優(yōu)先處理的；最后，該功能基本對(duì)手機(jī)用戶不適用。現(xiàn)有技術(shù)中存在一種根據(jù)郵件發(fā)件人的重要性進(jìn)行分級(jí)的方案，會(huì)依照發(fā)件人的地址對(duì)郵件進(jìn)行優(yōu)先級(jí)評(píng)級(jí)，也會(huì)通過(guò)發(fā)件人填寫的收件人信息來(lái)判斷郵件的重要程度。如果該郵件來(lái)自workOboss.com,郵箱系統(tǒng)將自動(dòng)給予該郵件較高評(píng)級(jí)；如果該郵件是發(fā)件人對(duì)用戶一對(duì)一發(fā)送的，郵箱會(huì)自動(dòng)判定它的優(yōu)先級(jí)比群發(fā)郵件更高；如果該郵件由發(fā)件人群發(fā)至“家人”分組，則收件方也會(huì)把這郵件判定為家庭郵件。與傳統(tǒng)的郵箱系統(tǒng)不同，這套智能信息系統(tǒng)的分類標(biāo)準(zhǔn)建立在對(duì)發(fā)件人信息的判斷，并且依據(jù)判斷結(jié)果把郵件的重要性分為各等級(jí)，為收件人在短時(shí)間內(nèi)判斷閱讀順序給予參考。
[0006]在現(xiàn)有技術(shù)中，在使用“智能”分類功能之前，必須首先整理好聯(lián)系人列表，并標(biāo)記聯(lián)系人屬于哪個(gè)分組，否則該分類系統(tǒng)也無(wú)法獲知哪個(gè)聯(lián)系人是“老板”，哪個(gè)聯(lián)系人是“家人”;現(xiàn)有技術(shù)主要是基于發(fā)信人或者收信人進(jìn)行排序，但是沒有考慮郵件內(nèi)容。一般情況下，老板和家人的郵件優(yōu)先級(jí)高是正確的，但是除了這些明顯的分類之外，其他聯(lián)系人的分類等級(jí)相對(duì)模糊。比如同樣是同事，有時(shí)候是本部門同事應(yīng)該優(yōu)先，有時(shí)候是外部門同事優(yōu)先，更復(fù)雜的情況是外部門的經(jīng)理比本部門的一般職別同事優(yōu)先。這些復(fù)雜的關(guān)系每個(gè)人都可能有不同的定義，而且最終的邏輯可能會(huì)非常復(fù)雜，很難定義清楚。
【發(fā)明內(nèi)容】

[0007]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，本發(fā)明提供了一種電子郵件分類方法及其裝置，在用戶不希望對(duì)電子郵件進(jìn)行任何操作的情況下，可以智能地根據(jù)電子電子郵件的內(nèi)容對(duì)電子郵件進(jìn)行分類，可減少用戶的工作。
[0008]為了解決上述問(wèn)題，本發(fā)明提出了一種電子郵件分類方法，所述方法包括:
對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果；
使用TF-1DF技術(shù)對(duì)所述分詞結(jié)果進(jìn)行排序處理；
獲取每?jī)蓚€(gè)電子郵件之間的相似性；
根據(jù)所述相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果；
將所述聚類結(jié)果進(jìn)行顯示。
[0009]優(yōu)選地，所述對(duì)電子郵件中的文本進(jìn)行分詞處理的步驟包括:
對(duì)文本進(jìn)行預(yù)處理并抽取出中文文本和/或英文文本；
分別對(duì)所述中文文本和英文文本進(jìn)行分詞處理，并獲得分詞結(jié)果。
[0010]優(yōu)選地，所述獲取每?jī)蓚€(gè)電子郵件之間的相似性的步驟具體為:通過(guò)兩個(gè)電子郵件的分詞向量?jī)?nèi)積空間的夾角的余弦值來(lái)獲取兩個(gè)電子郵件之間的相似性。
[0011]優(yōu)選地，所述根據(jù)所述相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果的步驟包括:
通過(guò)K-means算法對(duì)所述電子郵件進(jìn)行聚類處理；
根據(jù)所述相似性將所述電子郵件分成兩個(gè)簇，把相似的電子郵件歸在同一簇中。
[0012]優(yōu)選地，所述根據(jù)所述相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果的步驟包括:
通過(guò)K-means算法對(duì)所述電子郵件進(jìn)行聚類處理；
根據(jù)所述相似性將所述電子郵件分成兩個(gè)簇，把相似的電子郵件歸在同一簇中。
[0013]相應(yīng)地，本發(fā)明還提供一種電子郵件分類裝置，所述裝置包括:
分詞模塊，用于對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果；
排序模塊，用于使用TF-1DF技術(shù)對(duì)所述分詞模塊所獲得的分詞結(jié)果進(jìn)行排序處理；
相似性獲取模塊，用于獲取每?jī)蓚€(gè)電子郵件之間的相似性；
聚類模塊，用于根據(jù)所述相似性獲取模塊所獲取的相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果；
顯示模塊，用于將所述聚類模塊所獲得的聚類結(jié)果進(jìn)行顯示。
[0014]優(yōu)選地，所述分詞模塊包括:
文本預(yù)處理單元，用于對(duì)文本進(jìn)行預(yù)處理并抽取出中文文本和/或英文文本；
分詞單元，用于分別對(duì)所述文本預(yù)處理單元所抽取的中文文本和英文文本進(jìn)行分詞處理，并獲得分詞結(jié)果。
[0015]優(yōu)選地，所述相似性獲取模塊還用于通過(guò)兩個(gè)電子郵件的分詞向量?jī)?nèi)積空間的夾角的余弦值來(lái)獲取兩個(gè)電子郵件之間的相似性。
[0016]優(yōu)選地，所述聚類模塊包括:
聚類單元，用于通過(guò)K-means算法對(duì)所述電子郵件進(jìn)行聚類處理；分簇單元，用于根據(jù)所述相似性將所述電子郵件分成兩個(gè)簇，把相似的電子郵件歸在
同一簇中。
[0017]優(yōu)選地，所述裝置還包括:模式設(shè)定模塊，用于獲取任意一個(gè)簇中的電子郵件的數(shù)量，并根據(jù)所述電子郵件的數(shù)量設(shè)定該簇對(duì)應(yīng)的相似性的電子郵件模式。
[0018]實(shí)施本發(fā)明實(shí)施例，在用戶不希望對(duì)電子郵件進(jìn)行任何操作的情況下，可以智能地根據(jù)電子郵件的內(nèi)容對(duì)電子郵件進(jìn)行分類，可減少用戶的工作；在用戶對(duì)分類結(jié)果進(jìn)行干預(yù)時(shí)，也可以根據(jù)用戶自己設(shè)定的規(guī)則進(jìn)行優(yōu)先級(jí)排序，提高了操作靈活性，提高了電子郵件用戶的體驗(yàn)性及便利性。
【專利附圖】

【附圖說(shuō)明】
[0019]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0020]圖1是本發(fā)明實(shí)施例的電子郵件分類方法的流程示意圖；
圖2是本發(fā)明實(shí)施例的電子郵件分類裝置的結(jié)構(gòu)組成示意圖。
【具體實(shí)施方式】
[0021]下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0022]圖1是本發(fā)明實(shí)施例的電子郵件分類方法的流程示意圖，如圖1所示，該方法包括:
S101，對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果；
S102，使用TF-1DF技術(shù)對(duì)分詞結(jié)果進(jìn)行排序處理；
S103，獲取每?jī)蓚€(gè)電子郵件之間的相似性；
S104，根據(jù)相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果；
S105，將聚類結(jié)果進(jìn)行顯示。
[0023]其中，SlOl進(jìn)一步包括:
對(duì)文本進(jìn)行預(yù)處理并抽取出中文文本和/或英文文本；
分別對(duì)中文文本和英文文本進(jìn)行分詞處理，并獲得分詞結(jié)果。
[0024]具體實(shí)施中，首先獲取電子郵件，并對(duì)電子郵件中的文本進(jìn)行預(yù)處理。對(duì)于超文本標(biāo)記語(yǔ)言(Hypertext Markup Language, HTML)文檔,將其中的HTML標(biāo)記(tag)提取出來(lái)單獨(dú)處理；針對(duì)剩余的信息，將中文字符和英文字符分離出來(lái)，轉(zhuǎn)換成只有英文字符的文本和只有中文字符的文本。對(duì)于英文文本，使用傳統(tǒng)的分詞方式(以標(biāo)點(diǎn)符號(hào)和空格分隔各個(gè)分詞);對(duì)于中文文本，則使用機(jī)械的排列組合方式從句子中分離出詞語(yǔ)。分離的方法如下:對(duì)于一個(gè)中文序列L ;掃描其中的每一個(gè)中文文字C，并將C后面步長(zhǎng)為S的文字逐個(gè)提取出來(lái)，組成文字組合。比如句子:我是中國(guó)人，假定掃描步長(zhǎng)為3，分詞最大長(zhǎng)度為3的，則可能的分詞為:我、我是、我是中、是、是中、是中國(guó)、中、中國(guó)、中國(guó)人、國(guó)、國(guó)人、人。
[0025]使用此分詞方式的好處是無(wú)需中文詞典，由于中文的特性，使用此辦法分詞肯定可以覆蓋到絕大部分的中文詞語(yǔ)。另外可以處理帶有干擾信息的文本，比如:我a是a中a國(guó)a人的。
[0026]使用此分詞的劣勢(shì)是分詞的結(jié)果有很多對(duì)人來(lái)說(shuō)是沒有意義的詞組，但是后續(xù)通過(guò)S102的處理，會(huì)將這些分詞按照區(qū)分能力進(jìn)行排序，區(qū)分能力低的詞語(yǔ)會(huì)排到較后的位置。另外一些對(duì)于用戶來(lái)說(shuō)沒有意義的詞語(yǔ)，實(shí)際上是對(duì)文本分類有較大作用的。比如“芙王”這個(gè)詞語(yǔ)，經(jīng)過(guò)處理之后，可以發(fā)現(xiàn)這個(gè)詞語(yǔ)是垃圾郵件中一個(gè)有較大區(qū)分作用的分詞，經(jīng)驗(yàn)證，發(fā)現(xiàn)這個(gè)詞語(yǔ)來(lái)源于銷售假煙“芙蓉王”的垃圾郵件樣本，而“芙蓉”這個(gè)詞語(yǔ)可能會(huì)在其他正常郵件中經(jīng)常出現(xiàn)，所以“芙蓉”這個(gè)詞語(yǔ)對(duì)于垃圾郵件的區(qū)分作用不如“芙王”。
[0027]在S102中，使用TF-1DF技術(shù)對(duì)SlOl中所獲得的分詞進(jìn)行排序處理。經(jīng)排序后，分詞結(jié)果會(huì)按照區(qū)分能力從高到低排序。具體實(shí)施中，排序后只保留排名靠前的50%分詞(50% 為經(jīng)驗(yàn)值)。TF-1DF 技術(shù)(term frequency -1nverse document frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。TF-1DF是一種統(tǒng)計(jì)方法，用以評(píng)估一個(gè)字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。
[0028]在S103中，獲取每?jī)蓚€(gè)電子郵件之間的相似性，具體是，通過(guò)兩個(gè)電子郵件的分詞向量?jī)?nèi)積空間的夾角的余弦值來(lái)獲取兩個(gè)電子郵件之間的相似性。在實(shí)施過(guò)程中，O度角的余弦值是1，而其他任何角度的余弦值都不大于I;并且其最小值是-1。從而可以通過(guò)兩個(gè)向量之間的角度的余弦值確定兩個(gè)向量是否大致指向相同的方向。兩個(gè)向量有相同的指向時(shí)，余弦相似度的值為I ;兩個(gè)向量夾角為90°時(shí)，余弦相似度的值為O ;兩個(gè)向量指向完全相反的方向時(shí)，余弦相似度的值為-1。在比較過(guò)程中，向量的規(guī)模大小不予考慮，僅僅考慮到向量的指向方向。余弦相似度通常用于兩個(gè)向量的夾角小于90°之內(nèi)，因此余弦相似度的值為O到I之間。
[0029]進(jìn)一步地，S104包括:
通過(guò)K-means算法對(duì)電子郵件進(jìn)行聚類處理；
根據(jù)相似性將電子郵件分成兩個(gè)簇，把相似的電子郵件歸在同一簇中。
[0030]而在根據(jù)相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果過(guò)程中，聚類電子郵件通過(guò)K-means算法實(shí)現(xiàn)。在具體實(shí)施中，K-means算法的k為2,也就是聚類后電子郵件將會(huì)被分成兩個(gè)簇(即電子郵件將會(huì)被劃分成兩種類型)。假定兩個(gè)簇分別是A和B，實(shí)際上計(jì)算機(jī)并無(wú)法知道這么劃分的原因，單純是通過(guò)計(jì)算每?jī)蓚€(gè)電子郵件之間的相似性，把相似的電子郵件歸并在一起。由此，可以獲得簇A (互相之間比較相似的郵件)和簇B (除了簇A之外的郵件)。
[0031]在根據(jù)相似性將電子郵件分成兩個(gè)簇，把相似的電子郵件歸在同一簇中的步驟之后，還包括:獲取任意一個(gè)簇中的電子郵件的數(shù)量；并根據(jù)數(shù)量設(shè)定該簇對(duì)應(yīng)的相似性的電子郵件模式。
[0032]假如在S104過(guò)程中獲得簇A的電子郵件數(shù)量大于電子郵件總數(shù)的20% (20%是經(jīng)驗(yàn)值，即A/ (A+B) >0.2),則可以認(rèn)為分離出了一類比較相似的電子郵件模式，將簇A的聚類質(zhì)心點(diǎn)記錄下來(lái)(以后新到達(dá)的電子郵件如果靠近簇A的聚類質(zhì)心點(diǎn)的，將判定其屬于簇A)。將簇B作為S104的輸入，繼續(xù)嘗試獲取下一個(gè)電子郵件模式。
[0033]如果在S104過(guò)程中獲得簇A的電子郵件數(shù)量小于等于電子郵件總數(shù)的20%(即A/(Α+Β)〈=0.2)，則可以認(rèn)為剩下的電子郵件互相之間沒有明顯的不同，則無(wú)法再獲取新的電子郵件模式。
[0034]在S105中，將聚類結(jié)果進(jìn)行顯示，呈現(xiàn)給用戶，由用戶自行排列每個(gè)聚類的呈現(xiàn)優(yōu)先關(guān)系(如果用戶不選擇的，則按照找到聚類的先后關(guān)系呈現(xiàn)電子郵件順序)。在這里，已經(jīng)幫用戶基于電子郵件內(nèi)容對(duì)電子郵件進(jìn)行分組，用戶只需要大致看一下已經(jīng)做好的分組，便可獲知這批電子郵件的分組原因以及安排優(yōu)先級(jí)。常見的分組原因可能是賬單郵件、訂閱的郵件列表、公司事務(wù)討論郵件等，用戶可對(duì)分類分配其顯示的優(yōu)先級(jí)即可。如果用戶不進(jìn)行相關(guān)操作，則會(huì)使用聚類發(fā)現(xiàn)的先后順序呈現(xiàn)電子郵件，結(jié)果將是聚類中電子郵件數(shù)量較多的，其聚類電子郵件優(yōu)先呈現(xiàn)。
[0035]具體實(shí)施中，還可以提取聚類中的發(fā)信人地址，如果聚類中的大部分電子郵件都是來(lái)自一個(gè)或者幾個(gè)發(fā)信人(最常見的就是賬單類郵件)，則可以自動(dòng)提醒用戶是否添加一個(gè)規(guī)則，將這一個(gè)或者幾個(gè)發(fā)信人的電子郵件都標(biāo)記為這個(gè)聚類的電子郵件。
[0036]實(shí)施本發(fā)明實(shí)施例的方法，在用戶不希望對(duì)電子郵件進(jìn)行任何操作的情況下，可以智能地根據(jù)電子郵件的內(nèi)容對(duì)電子郵件進(jìn)行分類，可減少用戶的工作；在用戶對(duì)分類結(jié)果進(jìn)行干預(yù)時(shí)，也可以根據(jù)用戶自己設(shè)定的規(guī)則進(jìn)行優(yōu)先級(jí)排序，提高了操作靈活性；并可以協(xié)助用戶在較少工作量的情況下，添加可將電子郵件自動(dòng)分類的規(guī)則，為電子郵件的用戶帶來(lái)極大的便利。
[0037]本發(fā)明實(shí)施例還提供了一種電子郵件分類裝置，如圖2所示，該裝置包括:
分詞模塊1，用于對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果；
排序模塊2，用于使用TF-1DF技術(shù)對(duì)分詞模塊I所獲得的分詞結(jié)果進(jìn)行排序處理；
相似性獲取模塊3，用于獲取每?jī)蓚€(gè)電子郵件之間的相似性；
聚類模塊4，用于根據(jù)相似性獲取模塊3所獲取的相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果；
顯示模塊5，用于將聚類模塊4所獲得的聚類結(jié)果進(jìn)行顯示。
[0038]進(jìn)一步地，分詞模塊I包括:
文本預(yù)處理單元，用于對(duì)文本進(jìn)行預(yù)處理并抽取出中文文本和/或英文文本；
分詞單元，用于分別對(duì)文本預(yù)處理單元所抽取的中文文本和英文文本進(jìn)行分詞處理，并獲得分詞結(jié)果。
[0039]而相似性獲取模塊3還用于通過(guò)兩個(gè)電子郵件的分詞向量?jī)?nèi)積空間的夾角的余弦值來(lái)獲取兩個(gè)電子郵件之間的相似性。
[0040]聚類模塊4則進(jìn)一步包括:
聚類單元，用于通過(guò)K-means算法對(duì)電子郵件進(jìn)行聚類處理；
分簇單元，用于根據(jù)相似性將電子郵件分成兩個(gè)簇，把相似的電子郵件歸在同一簇中。
[0041]具體實(shí)施中，該裝置還可以包括模式設(shè)定模塊(圖中未示出)，用于獲取任意一個(gè)簇中的電子郵件的數(shù)量，并根據(jù)電子郵件的數(shù)量設(shè)定該簇對(duì)應(yīng)的相似性的電子郵件模式。
[0042]本發(fā)明實(shí)施例中的電子郵件分類裝置的模塊功能原理可參見本發(fā)明的電子郵件分類方法的實(shí)現(xiàn)過(guò)程及原理的描述，這里不再贅述。[0043]實(shí)施本發(fā)明實(shí)施例的裝置，在用戶不希望對(duì)電子郵件進(jìn)行任何操作的情況下，可以智能地根據(jù)電子郵件的內(nèi)容對(duì)電子郵件進(jìn)行分類，可減少用戶的工作；在用戶對(duì)分類結(jié)果進(jìn)行干預(yù)時(shí)，也可以根據(jù)用戶自己設(shè)定的規(guī)則進(jìn)行優(yōu)先級(jí)排序，提高了操作靈活性；并可以協(xié)助用戶在較少工作量的情況下，添加可將電子郵件自動(dòng)分類的規(guī)則，為電子郵件的用戶帶來(lái)極大的便利。
[0044]本發(fā)明的應(yīng)用包括但不限于服務(wù)器、個(gè)人計(jì)算機(jī)(Personal Computer,PC)以及移動(dòng)終端，包括手機(jī)、個(gè)人數(shù)字助理(Personal Digital Assistant, PDA)等。
[0045]本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成，該程序可以存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中，存儲(chǔ)介質(zhì)可以包括:只讀存儲(chǔ)器(ROM，Read Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM，RandomAccess Memory)、磁盤或光盤等。
[0046]另外，以上對(duì)本發(fā)明實(shí)施例所提供的基于短信的移動(dòng)互聯(lián)網(wǎng)搜索系統(tǒng)及實(shí)現(xiàn)方法進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述，以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想；同時(shí)，對(duì)于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處，綜上所述，本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【權(quán)利要求】
1.一種電子郵件分類方法,其特征在于,所述方法包括: 對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果；使用TF-1DF技術(shù)對(duì)所述分詞結(jié)果進(jìn)行排序處理；獲取每?jī)蓚€(gè)電子郵件之間的相似性；根據(jù)所述相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果；將所述聚類結(jié)果進(jìn)行顯示。
2.如權(quán)利要求1所述的電子郵件分類方法，其特征在于，所述對(duì)電子郵件中的文本進(jìn)行分詞處理的步驟包括: 對(duì)文本進(jìn)行預(yù)處理并抽取出中文文本和/或英文文本；分別對(duì)所述中文文本和英文文本進(jìn)行分詞處理，并獲得分詞結(jié)果。
3.如權(quán)利要求1所述的電子郵件分類方法，其特征在于，所述獲取每?jī)蓚€(gè)電子郵件之間的相似性的步驟具體為:通過(guò)兩個(gè)電子郵件的分詞向量?jī)?nèi)積空間的夾角的余弦值來(lái)獲取兩個(gè)電子郵件之間的相似性。
4.如權(quán)利要求1所述的電子郵件分類方法，其特征在于，所述根據(jù)所述相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果的步驟包括: 通過(guò)K-means算法對(duì)所述電子郵件進(jìn)行聚類處理；根據(jù)所述相似性將所述電子郵件分成兩個(gè)簇，把相似的電子郵件歸在同一簇中。
5.如權(quán)利要求4所述的電子郵件分類方法，其特征在于，在所述根據(jù)所述相似性將所述電子郵件分成兩個(gè)簇，把相似的電子郵件歸在同一簇中的步驟之后，還包括: 獲取任意一個(gè)簇中的電子郵件的數(shù)量；根據(jù)所述數(shù)量設(shè)定該簇對(duì)應(yīng)的相似性的電子郵件模式。
6.一種電子郵件分類裝置，其特征在于，所述裝置包括: 分詞模塊，用于對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果；排序模塊，用于使用TF-1DF技術(shù)對(duì)所述分詞模塊所獲得的分詞結(jié)果進(jìn)行排序處理；相似性獲取模塊，用于獲取每?jī)蓚€(gè)電子郵件之間的相似性；聚類模塊，用于根據(jù)所述相似性獲取模塊所獲取的相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果；顯示模塊，用于將所述聚類模塊所獲得的聚類結(jié)果進(jìn)行顯示。
7.如權(quán)利要求6所述的電子郵件分類裝置，其特征在于，所述分詞模塊包括: 文本預(yù)處理單元，用于對(duì)文本進(jìn)行預(yù)處理并抽取出中文文本和/或英文文本；分詞單元，用于分別對(duì)所述文本預(yù)處理單元所抽取的中文文本和英文文本進(jìn)行分詞處理，并獲得分詞結(jié)果。
8.如權(quán)利要求6所述的電子郵件分類裝置，其特征在于，所述相似性獲取模塊還用于通過(guò)兩個(gè)電子郵件的分詞向量?jī)?nèi)積空間的夾角的余弦值來(lái)獲取兩個(gè)電子郵件之間的相似性。
9.如權(quán)利要求6所述的電子郵件分類裝置，其特征在于，所述聚類模塊包括: 聚類單元，用于通過(guò)K-means算法對(duì)所述電子郵件進(jìn)行聚類處理；分簇單元，用于根據(jù)所述相似性將所述電子郵件分成兩個(gè)簇，把相似的電子郵件歸在同一簇中。
10.如權(quán)利要求6所述的電子郵件分類裝置，其特征在于，所述裝置還包括:模式設(shè)定模塊，用于獲取任意一個(gè)簇中的電子郵件的數(shù)量，并根據(jù)所述電子郵件的數(shù)量設(shè)定該簇對(duì)應(yīng)的相似性的電子郵件模式。.
【文檔編號(hào)】G06F17/27GK103473218SQ201310396635
【公開日】2013年12月25日申請(qǐng)日期:2013年9月4日優(yōu)先權(quán)日:2013年9月4日
【發(fā)明者】林延中, 潘慶峰申請(qǐng)人:盈世信息科技(北京)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林延中;潘慶峰
技術(shù)所有人：盈世信息科技（北京）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

電子郵件推廣方法相關(guān)技術(shù)

電子郵件的收集方法相關(guān)技術(shù)

電子郵件收集方法相關(guān)技術(shù)

電子郵件檢驗(yàn)技術(shù)方法相關(guān)技術(shù)

電子郵件營(yíng)銷方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種電子郵件分類方法及其裝置制造方法