騷擾短信判別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及移動終端技術(shù),具體而言,本發(fā)明涉及一種騷擾短信判別方法及裝置。
【背景技術(shù)】
[0002]隨著信息技術(shù)的發(fā)展,移動通信成為人們?nèi)粘Mㄐ诺闹饕侄危娫?、視頻等通信方式以外,短信也作為一種方便快捷的通信方式,成為性價(jià)比最高、覆蓋面最廣的通信方式。但隨之而來的騷擾短信給用戶帶來了很大困擾。商家做宣傳、不法分子通過短信發(fā)釣魚網(wǎng)址等,會發(fā)送騷擾短信給用戶。因此,現(xiàn)有技術(shù)為了避免接收大量騷擾短信的推送,會基于一定的策略判斷當(dāng)前接收的短信是否是對用戶有用的短信,而將判別為騷擾短信的信息自動放入黑名單或刪除,從而防止大量騷擾短信給用戶帶來的不便。
[0003]現(xiàn)有技術(shù)通常根據(jù)通訊錄判別短信的發(fā)送方是否為陌生號碼,以判別該短信是否為騷擾短信,或通過簡單的策略對騷擾短信進(jìn)行過濾,造成將對用戶有用的短信誤判成騷擾短信,基于此,需要提供一種更精確的騷擾短信判別方法,以提高判斷騷擾短信的正確率。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的旨在解決上述至少一個(gè)問題,提供一種騷擾短信判別方法及裝置,以盡可能正確地判別騷擾短信。
[0005]為了實(shí)現(xiàn)上述目的,本發(fā)明提供一種騷擾短信判別方法,包括以下步驟:
[0006]解析原始短信內(nèi)容以獲取其中的各個(gè)詞和數(shù)字信息;
[0007]以所述數(shù)字信息為基準(zhǔn)分別計(jì)算各個(gè)詞到各數(shù)字的距離;
[0008]將所述距離作為權(quán)重,各個(gè)詞作為維度,對短信內(nèi)容進(jìn)行描述以生成相應(yīng)的多個(gè)特征向量;
[0009]將每個(gè)特征向量分別輸入分類模型以獲得輸出結(jié)果;
[0010]基于所述輸出結(jié)果判別該短信是否為騷擾短信。
[0011]具體的,所述分類模型為預(yù)先訓(xùn)練的模型,其訓(xùn)練步驟如下:
[0012]對樣本集合中的每條原始短信內(nèi)容進(jìn)行解析以獲取其中的各個(gè)詞和數(shù)字信息;
[0013]以所述數(shù)字信息為基準(zhǔn)計(jì)算各個(gè)詞分別到各個(gè)數(shù)字的距離;
[0014]將所述相應(yīng)距離作為權(quán)重,各個(gè)詞作為維度,對每條短信內(nèi)容進(jìn)行描述以生成相應(yīng)的訓(xùn)練樣本;
[0015]將訓(xùn)練樣本人工標(biāo)記為正樣本和負(fù)樣本;
[0016]采用所述正樣本和負(fù)樣本訓(xùn)練分類模型。
[0017]進(jìn)一步,所述對短信內(nèi)容進(jìn)行描述以生成相應(yīng)的特征向量的具體步驟為:分別以所述各個(gè)數(shù)字作為基準(zhǔn),將其前面和后面的詞作為維度,計(jì)算其前面和后面的詞分別到各個(gè)數(shù)字的距離,將相應(yīng)距離作為權(quán)重,以生成用于描述該短信的多個(gè)特征向量。
[0018]具體的,所述各個(gè)詞到所述各個(gè)數(shù)字的距離以每個(gè)字作為單位距離進(jìn)行表征。
[0019]具體的,所述解析步驟具體如下:
[0020]刪除原始短信中的特定信息;
[0021]對短信內(nèi)容基于語法進(jìn)行分詞,以獲取短信中的詞、數(shù)字及相應(yīng)詞性;
[0022]提取其中的數(shù)字信息。
[0023]具體的,所述特定信息包括URL、IP地址、移動電話、客戶電話、固定電話。
[0024]較佳的,采用adaboost算法訓(xùn)練分類模型。
[0025]具體的,所述基于所述輸出結(jié)果判別該短信是否為騷擾短信的具體步驟為:
[0026]當(dāng)該短信的多個(gè)特征向量中至少存在一個(gè)特征向量的輸出結(jié)果為正確時(shí),則判別該短信為正常短信;
[0027]否則判別該短信為騷擾短信。
[0028]優(yōu)選的,所述輸出結(jié)果為1則表征正確,輸出結(jié)果為0則表征錯(cuò)誤。
[0029]進(jìn)一步,還包括步驟,將分類模型判別為騷擾短信的短信存儲于黑名單。
[0030]進(jìn)一步,還包括步驟,將判別為騷擾短信的短信從用戶短信列表中刪除。
[0031]一種騷擾短信判別裝置,包括:
[0032]解析模塊:用于解析原始短信內(nèi)容以獲取其中的各個(gè)詞和數(shù)字信息;
[0033]距離計(jì)算模塊:用于以所述數(shù)字信息為基準(zhǔn)分別計(jì)算各個(gè)詞到各數(shù)字的距離;
[0034]特征向量生成模塊:用于將所述距離作為權(quán)重,各個(gè)詞作為維度,對短信內(nèi)容進(jìn)行描述以生成相應(yīng)的多個(gè)特征向量;
[0035]分類模塊:用于將每個(gè)特征向量分別輸入分類模型以獲得輸出結(jié)果;
[0036]判別模塊:用于基于所述輸出結(jié)果判別該短信是否為騷擾短信。
[0037]具體的,所述分類模型為預(yù)先訓(xùn)練的模型,基于訓(xùn)練模塊訓(xùn)練生成,所述訓(xùn)練模塊執(zhí)行的步驟如下:
[0038]對樣本集合中的每條原始短信內(nèi)容進(jìn)行解析以獲取其中的各個(gè)詞和數(shù)字信息;
[0039]以所述數(shù)字信息為基準(zhǔn)計(jì)算各個(gè)詞分別到各個(gè)數(shù)字的距離;
[0040]將所述相應(yīng)距離作為權(quán)重,各個(gè)詞作為維度,對每條短信內(nèi)容進(jìn)行描述以生成相應(yīng)的訓(xùn)練樣本;
[0041]將訓(xùn)練樣本人工標(biāo)記為正樣本和負(fù)樣本;
[0042]采用所述正樣本和負(fù)樣本訓(xùn)練分類模型。
[0043]具體的,所述特征向量生成模塊執(zhí)行的具體步驟為:分別以所述各個(gè)數(shù)字作為基準(zhǔn),將其前面和后面的詞作為維度,計(jì)算其前面和后面的詞分別到各個(gè)數(shù)字的距離,將相應(yīng)距離作為權(quán)重,以生成用于描述該短信的多個(gè)特征向量。
[0044]具體的,所述各個(gè)詞到所述各個(gè)數(shù)字的距離以每個(gè)字作為單位距離進(jìn)行表征。
[0045]具體的,所述解析模塊執(zhí)行的步驟具體如下:
[0046]刪除原始短信中的特定信息;
[0047]對短信內(nèi)容基于語法進(jìn)行分詞,以獲取短信中的詞、數(shù)字及相應(yīng)詞性;
[0048]提取其中的數(shù)字信息。
[0049]具體的,所述特定信息包括URL、IP地址、移動電話、客戶電話、固定電話。
[0050]較佳的,所述訓(xùn)練模塊采用adaboost算法訓(xùn)練分類模型。
[0051]具體的,所述判別模塊執(zhí)行的具體步驟為:
[0052]當(dāng)該短信的多個(gè)特征向量中至少存在一個(gè)特征向量的輸出結(jié)果為正確時(shí),則判別該短信為正常短信;
[0053]否則判別該短信為騷擾短信。
[0054]具體的,所述輸出結(jié)果為1則表征正確,輸出結(jié)果為0則表征錯(cuò)誤。
[0055]進(jìn)一步,還包括黑名單模塊,用于將分類模型判別為騷擾短信的短信存儲于黑名單。
[0056]進(jìn)一步,還包括刪除模塊,用于將判別為騷擾短信的短信從用戶短信列表中刪除。
[0057]相比現(xiàn)有技術(shù),本發(fā)明的方案具有以下優(yōu)點(diǎn):
[0058]本發(fā)明通過對短信內(nèi)容進(jìn)行分詞解析,提取其中的數(shù)字信息,并以各數(shù)字作為基準(zhǔn)采用各個(gè)詞及分別到各個(gè)數(shù)字的距離為特征描述短信以生成特征向量,通過預(yù)先訓(xùn)練的分類模型判斷該特征向量是否存在正確的數(shù)字,如果至少存在一個(gè)數(shù)字正確則判斷該短信為正常短信,否則為騷擾短信?;诒景l(fā)明所述方法進(jìn)行騷擾短信的判斷,能夠更精確確定用戶移動終端接收的短信是否為騷擾短信,特別是對于銀行推送的消費(fèi)信息、物流公司推送的收貨信息等具有有效數(shù)字的信息,降低該些信息被誤判為騷擾短信的概率,進(jìn)一步提高騷擾短信判別的精度。
[0059]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0060]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得明顯和容易理解,其中:
[0061]圖1為本發(fā)明所述騷擾短信判別方法的流程示意圖;
[0062]圖2為本發(fā)明所述短信解析步驟的流程示意圖;
[0063]圖3為本發(fā)明所述分類模型訓(xùn)練步驟的流程示意圖;
[0064]圖4為本發(fā)明所述騷擾短信判別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0065]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0066]本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個(gè)”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元件被“連接”或“耦接”到另一元件時(shí),它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個(gè)或更多個(gè)相關(guān)聯(lián)的列出項(xiàng)的全部或任一單元和全部組合。
[0067]本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語),具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語,應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會用理想化或過于正式的含義來解釋。
[0068]本技術(shù)領(lǐng)域技術(shù)人員可以理解,這里所使