一種識(shí)別惡意信息的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及互聯(lián)網(wǎng)通信領(lǐng)域,特別設(shè)及一種識(shí)別惡意信息的方法及裝置。
【背景技術(shù)】
[0002] 目前,用戶經(jīng)常通過(guò)即時(shí)通訊應(yīng)用或社交網(wǎng)絡(luò)與好友進(jìn)行聊天W增進(jìn)與好友之間 的感情,但是越來(lái)越多的惡意份子通過(guò)即時(shí)通訊應(yīng)用或社交網(wǎng)絡(luò)發(fā)送惡意信息給用戶,如 此會(huì)給用戶帶來(lái)打擾。為了屏蔽運(yùn)些惡意信息W避免給用戶帶來(lái)打擾,服務(wù)器需要識(shí)別運(yùn) 些惡意信息,W便屏蔽運(yùn)些惡意信息。
[0003] 當(dāng)前,現(xiàn)有技術(shù)提供了一種識(shí)別惡意信息的方法,包括:技術(shù)人員根據(jù)經(jīng)驗(yàn)捜集惡 意信息中常用的特征詞,將捜集到的特征詞組成特征詞集合,將特征詞集合發(fā)布到服務(wù)器 上。當(dāng)服務(wù)器接收到用戶發(fā)送的通訊信息時(shí),查看特征詞集合,如果該通訊信息中包括特征 詞集合中包括的特征詞,則將該通訊信息確定為惡意信息。
[0004] 在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在W下問(wèn)題: 陽(yáng)〇化]當(dāng)惡意份子利用新的特征詞組合成惡意信息時(shí),由于特征詞集合中不包括運(yùn)些新 的特征詞,所W導(dǎo)致服務(wù)器無(wú)法識(shí)別出該惡意信息。
【發(fā)明內(nèi)容】
[0006] 為了識(shí)別出不包括特征詞集合中的特征詞的惡意信息,本發(fā)明提供了一種識(shí)別惡 意信息的方法及裝置。所述技術(shù)方案如下:
[0007] 一種識(shí)別惡意信息的方法,所述方法包括:
[0008] 接收用戶發(fā)送的第一通訊信息;
[0009] 獲取所述用戶的歷史信息記錄,所述歷史信息記錄中包括在離當(dāng)前時(shí)間最近的預(yù) 設(shè)時(shí)間段內(nèi)所述用戶發(fā)送的每個(gè)第二通訊信息;
[0010] 根據(jù)所述歷史信息記錄,識(shí)別所述第一通訊信息是否為惡意信息。
[0011] 一種識(shí)別惡意信息的裝置,所述裝置包括:
[0012] 接收模塊,用于接收用戶發(fā)送的第一通訊信息;
[0013] 第一獲取模塊,用于獲取所述用戶的歷史信息記錄,所述歷史信息記錄中包括在 離當(dāng)前時(shí)間最近的預(yù)設(shè)時(shí)間段內(nèi)所述用戶發(fā)送的每個(gè)第二通訊信息;
[0014] 識(shí)別模塊,用于根據(jù)所述歷史信息記錄,識(shí)別所述第一通訊信息是否為惡意信息。
[0015] 在本發(fā)明實(shí)施例中,接收用戶發(fā)送的第一通訊信息;獲取該用戶的歷史信息記錄, 該歷史信息記錄中包括在離當(dāng)前時(shí)間最近的預(yù)設(shè)時(shí)間段內(nèi)該用戶發(fā)送的每個(gè)第二通訊信 息;根據(jù)該歷史信息記錄,識(shí)別第一通訊信息是否為惡意信息。由于獲取了用戶的歷史信息 記錄,如此當(dāng)?shù)谝煌ㄓ嵭畔⒅胁话ㄌ卣髟~集合中的特征詞時(shí),可W根據(jù)用戶的歷史信息 記錄來(lái)識(shí)別第一通訊信息是否為惡意信息,如此能夠識(shí)別出不包括特征詞集合中的特征詞 的惡意f旨息D
【附圖說(shuō)明】
[0016] 圖1是本發(fā)明實(shí)施例1提供的一種識(shí)別惡意信息的方法流程圖;
[0017] 圖2是本發(fā)明實(shí)施例2提供的一種識(shí)別惡意信息的方法流程圖;
[001引圖3是本發(fā)明實(shí)施例3提供的一種識(shí)別惡意信息的方法流程圖;
[0019] 圖4是本發(fā)明實(shí)施例4提供的一種識(shí)別惡意信息的裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0020] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方 式作進(jìn)一步地詳細(xì)描述。 陽(yáng)OW 實(shí)施例1 陽(yáng)02引參見圖1,本發(fā)明實(shí)施例提供了一種識(shí)別惡意信息的方法,包括:
[0023] 步驟101 :接收用戶發(fā)送的第一通訊信息;
[0024] 步驟102 :獲取該用戶的歷史信息記錄,該歷史信息記錄中包括在離當(dāng)前時(shí)間最 近的預(yù)設(shè)時(shí)間段內(nèi)該用戶發(fā)送的每個(gè)第二通訊信息; 陽(yáng)0巧]步驟103 :根據(jù)該歷史信息記錄,識(shí)別第一通訊信息是否為惡意信息。
[00%] 優(yōu)選地,根據(jù)該歷史信息記錄,識(shí)別第一通訊信息是否為惡意信息,包括:
[0027] 根據(jù)第一通訊信息和歷史信息記錄,計(jì)算第一通訊信息分別與歷史信息記錄中包 括的每個(gè)第二通訊信息之間的相似度;
[0028] 獲取與第一通訊信息之間的相似度超過(guò)預(yù)設(shè)相似度闊值的第二通訊信息的數(shù) 目;
[0029] 當(dāng)獲取的第二通訊信息的數(shù)目超過(guò)預(yù)設(shè)數(shù)目闊值時(shí),確定第一通訊信息為惡意信 息。
[0030] 優(yōu)選地,根據(jù)第一通訊信息和歷史信息記錄,計(jì)算第一通訊信息分別與歷史信息 記錄中包括的每個(gè)第二通訊信息之間的相似度,包括:
[0031] 將第一通訊信息轉(zhuǎn)換為第一信息矩陣,W及將第二通訊信息轉(zhuǎn)換為第二信息矩 陣;
[0032] 計(jì)算第一信息矩陣與第二信息矩陣之間的距離方差;
[0033] 根據(jù)第一信息矩陣與第二信息矩陣之間的距離方差,計(jì)算第一通訊信息與第二通 訊信息之間的相似度。 陽(yáng)034] 優(yōu)選地,將第一通訊信息轉(zhuǎn)換為第一信息矩陣,包括:
[0035] 從第一通訊信息包括的單詞中獲取關(guān)系表中存在的單詞作為第一單詞,W及獲取 關(guān)系表中不存在的單詞作為第二單詞,該關(guān)系表中包括單詞與索引值的對(duì)應(yīng)關(guān)系;
[0036] 從關(guān)系表中獲取第一單詞對(duì)應(yīng)的索引值;
[0037] 為第二單詞分配對(duì)應(yīng)的索引值;
[0038] 將第一單詞對(duì)應(yīng)的索引值和第二單詞對(duì)應(yīng)的索引值組成第一通訊信息對(duì)應(yīng)的第 一信息矩陣。
[0039] 優(yōu)選地,根據(jù)第一信息矩陣與第二信息矩陣之間的距離方差,計(jì)算第一通訊信息 與第二通訊信息之間的相似度,包括:
[0040] 計(jì)算第一信息矩陣與第二信息矩陣之間的距離方差的倒數(shù);
[0041] 將該倒數(shù)確定為第一通訊信息與第二通訊信息之間的相似度。
[0042] 進(jìn)一步地,獲取用戶的歷史信息記錄之前,還包括:
[0043] 確定第一通訊信息中是否包括特征詞集合中的特征詞,如果包括,則識(shí)別出第一 通訊信息為惡意信息,如果不包括,則執(zhí)行獲取用戶的歷史信息記錄的操作。
[0044] 進(jìn)一步地,該方法還包括:
[0045] 如果第一通訊信息不包括特征詞集合中的特征詞且識(shí)別出第一通訊信息為惡意 信息,則從第一通訊信息中獲取特征詞;
[0046] 將獲取的特征詞添加到特征詞集合中。
[0047] 優(yōu)選地,根據(jù)歷史信息記錄,識(shí)別第一通訊信息是否為惡意信息,包括:
[0048] 獲取第一通訊信息和每個(gè)第二通訊信息中包括的每個(gè)單詞,組成單詞集合;
[0049] 根據(jù)第一通訊信息和歷史信息記錄,生成單詞集合中包括的每個(gè)單詞分別對(duì)應(yīng)的 單詞矩陣;
[0050] 根據(jù)單詞集合中包括的每個(gè)單詞對(duì)應(yīng)的單詞矩陣,確定第一通訊信息中包括的特 征詞;
[0051] 當(dāng)?shù)谝煌ㄓ嵭畔⒅邪ǖ奶卣髟~的數(shù)目超過(guò)第二預(yù)設(shè)數(shù)目闊值時(shí),識(shí)別第一通訊 f目息為惡意f目息。
[0052] 優(yōu)選地,根據(jù)單詞集合中包括的每個(gè)單詞對(duì)應(yīng)的單詞矩陣,確定第一通訊信息中 包括的特征詞,包括:
[0053] 計(jì)算第=單詞對(duì)應(yīng)的單詞矩陣分別與單詞集合中包括的除第=單詞W外的每個(gè) 單詞對(duì)應(yīng)的單詞矩陣之間的距離方差,第=單詞為第一通訊信息中包括的任一單詞;
[0054] 獲取與第=單詞對(duì)應(yīng)的單詞矩陣之間的距離方差小于預(yù)設(shè)方差闊值的每個(gè)單詞 矩陣;
[0055] 當(dāng)獲取的單詞矩陣的數(shù)目超過(guò)第=預(yù)設(shè)數(shù)目闊值時(shí),將第=單詞確定為特征詞。
[0056] 在本發(fā)明實(shí)施例中,接收用戶發(fā)送的第一通訊信息;獲取該用戶的歷史信息記錄, 該歷史信息記錄中包括在離當(dāng)前時(shí)間最近的預(yù)設(shè)時(shí)間段內(nèi)該用戶發(fā)送的每個(gè)第二通訊信 息;根據(jù)該歷史信息記錄,識(shí)別第一通訊信息是否為惡意信息。由于獲取了用戶的歷史信息 記錄,如此當(dāng)?shù)谝煌ㄓ嵭畔⒅胁话ㄌ卣髟~集合中的特征詞時(shí),可W根據(jù)用戶的歷史信息 記錄來(lái)識(shí)別第一通訊信息是否為惡意信息,如此能夠識(shí)別出不包括特征詞集合中的特征詞 的惡意f目息。
[0057] 實(shí)施例2
[0058] 本發(fā)明實(shí)施例提供了一種識(shí)別惡意信息的方法。
[0059] 目前,用戶經(jīng)常通過(guò)即時(shí)通訊應(yīng)用或社交網(wǎng)絡(luò)發(fā)送通訊信息給好友,但是越來(lái)越 多的惡意份子通過(guò)即時(shí)通訊應(yīng)用或社交網(wǎng)絡(luò)發(fā)送惡意信息給用戶,惡意信息可W為廣告信 息或欺詐信息等,運(yùn)些惡意信息會(huì)給用戶帶來(lái)打擾。為了屏蔽運(yùn)些惡意信息W避免給用戶 帶來(lái)打擾,服務(wù)器可W通過(guò)本發(fā)明實(shí)施例提供的方法來(lái)識(shí)別運(yùn)些惡意信息,W便屏蔽運(yùn)些 惡意f目息。
[0060] 參見圖2,該方法具體包括:
[0061] 步驟201 :接收用戶發(fā)送的第一通訊信息和該用戶的用戶賬號(hào);
[0062] 其中,用戶在通過(guò)即時(shí)通訊應(yīng)用或社交網(wǎng)絡(luò)與好友進(jìn)行聊天時(shí),用戶編輯第一通 訊信息,第一通訊信息包括至少一個(gè)單詞。用戶對(duì)應(yīng)的終端當(dāng)檢測(cè)到用戶觸發(fā)的發(fā)送指令 時(shí),獲取該用戶編輯的第一通訊信息W及該用戶的用戶賬號(hào),將第一通訊信息和該用戶的 用戶賬號(hào)發(fā)送給服務(wù)器。服務(wù)器接收用戶對(duì)應(yīng)的終端發(fā)送的第一通訊信息和用戶賬號(hào)。 陽(yáng)06引例如:接收用戶A發(fā)送的第一通訊信息Sl為"家居飾品超低價(jià)盡在13655551110" 和用戶賬號(hào)IMA。
[0064] 步驟202 :確定第一通訊信息中是否包括特征詞集合中的特征詞,如果是,則執(zhí)行 步驟203,如果否,則執(zhí)行步驟204 ; 陽(yáng)0化]其中,特征詞集合中包括至少一個(gè)特征詞。運(yùn)些特征詞均為從已識(shí)別的惡意信息 中提取的特征詞。由于惡意信息中通常包括郵箱地址、網(wǎng)頁(yè)地址、電話號(hào)碼W及即時(shí)通訊或 社交網(wǎng)絡(luò)賬號(hào)等。所W特征詞一般為包含數(shù)字、http、WWW、com、cn或@等字符的單詞。例 如,廣告信息中通常會(huì)有產(chǎn)品的價(jià)格、產(chǎn)品信息的網(wǎng)頁(yè)地址W及商家的電話號(hào)碼等,所W廣 告信息中包含價(jià)格、網(wǎng)頁(yè)地址和電話號(hào)碼的單詞都是特征詞。
[0066] 本步驟具體為,對(duì)第一通訊信息進(jìn)行分詞處理,確定第一通訊信息中包括的每個(gè) 單詞,查看特征詞集合中包括的特征詞,如果第一通訊信息中存在特征詞集合中包括的特 征詞,則執(zhí)行步驟203,如果第一通訊信息中不存在特征詞集合中包括的特征詞,則執(zhí)行步 驟 204。 W67] 例如,假設(shè)特征詞集合中包括特征詞"httpV'wwwV'com"和"135666