一種垃圾短信攔截方法及裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種垃圾短信攔截方法及裝置,可提高垃圾短信攔截的準(zhǔn)確度。本發(fā)明實(shí)施例方法包括:獲取短信;提取所述短信所包括的特征;調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到所述特征的權(quán)重值;根據(jù)所述特征的權(quán)重值判斷所述短信是否為垃圾短信;對(duì)判定為垃圾短信的短信進(jìn)行攔截處理。
【專利說明】
_種垃圾短信攔截方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及信息處理技術(shù),尤其涉及一種垃圾短信攔截方法及裝置。
【背景技術(shù)】
[0002]垃圾短信是指內(nèi)容為詐騙、違法信息、及對(duì)客戶端用戶造成騷擾的無用信息?,F(xiàn)有的垃圾短信攔截技術(shù)是采用人工編寫攔截規(guī)則的方式來實(shí)現(xiàn)。人工編寫的攔截規(guī)則一般包含發(fā)送者號(hào)碼以及短信內(nèi)容關(guān)鍵字等,例如一條人工編寫的攔截規(guī)則是發(fā)送者:106012345678 ;關(guān)鍵字:澳門娛樂城,輪盤,百家樂”,當(dāng)一條短信的發(fā)送號(hào)碼與這條攔截規(guī)則中的發(fā)送號(hào)碼一致,并且短信內(nèi)容同時(shí)包含該攔截規(guī)則的所有關(guān)鍵字,則該短信會(huì)被判定為該攔截;若某條短信沒有命中任何預(yù)先編寫的攔截規(guī)則,則默認(rèn)會(huì)放行該短信。
[0003]然而,短信內(nèi)容千變?nèi)f化,人工編寫特定的攔截規(guī)則,難以準(zhǔn)確地決定相關(guān)的短信該不該被攔截;而且,短信數(shù)量龐大,人工編寫的攔截規(guī)則數(shù)目有限,無法覆蓋如此龐大的短信數(shù)目,在維護(hù)上也十分繁瑣,非常容易出現(xiàn)前后矛盾的情況。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施例提供了一種垃圾短信攔截方法及裝置,可提高垃圾短信攔截的準(zhǔn)確度。
[0005]本發(fā)明實(shí)施例的第一方面提供一種垃圾短信攔截方法,包括:
[0006]獲取短信;
[0007]提取所述短信所包括的特征;
[0008]調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到所述特征的權(quán)重值;
[0009]根據(jù)所述特征的權(quán)重值判斷所述短信是否為垃圾短信;
[0010]對(duì)判定為垃圾短信的短信進(jìn)行攔截處理。
[0011]本發(fā)明實(shí)施例第二方面提供了一種垃圾短信攔截裝置,包括:
[0012]獲取單元,用于獲取短信;
[0013]提取單元,用于提取所述短信所包括的特征;
[0014]調(diào)用單元,用于調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到所述特征的權(quán)重值;
[0015]判斷單元,用于根據(jù)所述特征的權(quán)重值判斷所述短信是否為垃圾短信;
[0016]執(zhí)行單元,用于對(duì)判定為垃圾短信的短信進(jìn)行攔截處理。
[0017]本發(fā)明實(shí)施例提供的技術(shù)方案中,首先獲取短信并提取該短信所包括的特征,再調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到這些特征的權(quán)重值,從而根據(jù)這些特征的權(quán)重值判斷該短信是否為垃圾短信,并對(duì)判定為垃圾短信的短信進(jìn)行攔截處理。因此相對(duì)于現(xiàn)有技術(shù)中直接判斷短信中是否包含人工預(yù)先編寫的攔截規(guī)則中的關(guān)鍵字,本發(fā)明實(shí)施例通過短信攔截模型確定特征的權(quán)重值,以短信所包括的特征的權(quán)重值來識(shí)別垃圾短信的方式會(huì)更準(zhǔn)確,可有效提高垃圾短信攔截的準(zhǔn)確度。
【附圖說明】
[0018]圖1為本發(fā)明實(shí)施例中垃圾短信攔截方法一個(gè)實(shí)施例示意圖;
[0019]圖2為本發(fā)明實(shí)施例中垃圾短信攔截方法另一實(shí)施例示意圖;
[0020]圖3為本發(fā)明實(shí)施例中垃圾短信攔截裝置一個(gè)實(shí)施例示意圖;
[0021]圖4為本發(fā)明實(shí)施例中垃圾短信攔截裝置另一實(shí)施例示意圖;
[0022]圖5為本發(fā)明實(shí)施例中垃圾短信攔截裝置另一實(shí)施例示意圖。
【具體實(shí)施方式】
[0023]本發(fā)明實(shí)施例提供了一種垃圾短信攔截方法及裝置,可提高垃圾短信攔截的準(zhǔn)確度,以下分別進(jìn)行詳細(xì)說明。
[0024]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0025]本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”、“第三…第四”等(如果存在)是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的實(shí)施例能夠以除了在這里圖示或描述的內(nèi)容以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0026]本發(fā)明實(shí)施例中的垃圾短信攔截方法及裝置可以應(yīng)用于手機(jī)應(yīng)用程序中,以手機(jī)管家為例,本發(fā)明實(shí)施例可以作為手機(jī)管家騷擾攔截功能中的垃圾短信攔截功能背后的技術(shù)??蛻舳擞脩糁恍鑶⒂檬謾C(jī)管家的垃圾短信攔截功能,即可實(shí)現(xiàn)對(duì)垃圾短信的攔截,無需額外操作。當(dāng)客戶端收到一條新短信時(shí),手機(jī)管家會(huì)自動(dòng)調(diào)用短信攔截功能來判斷該短信是否需要攔截,如果需要攔截,則將該短信放入垃圾短信信箱中;如果可以放行,則將該短信放入客戶端用戶正常的短信信箱中。
[0027]需要說明的是,在其他一些實(shí)施例中,垃圾短信攔截方法及裝置也可以應(yīng)用于服務(wù)器,直接由服務(wù)器執(zhí)行垃圾短信的攔截流程,或者在其他一些實(shí)施例中,垃圾短信攔截流程中的部分步驟由服務(wù)器執(zhí)行,其他部分步驟由終端執(zhí)行,具體此處不作限定。
[0028]請(qǐng)參閱圖1,本發(fā)明實(shí)施例中垃圾短信攔截方法一個(gè)實(shí)施例包括:
[0029]101、獲取短信;
[0030]可以理解的是,在本實(shí)施例中,可以是終端直接接收短信,也可以是服務(wù)器截獲傳輸給終端的短信。
[0031]102、提取該短信所包括的特征;
[0032]在本實(shí)施例中,每條短信都有一系列的特征,其中,特征包括發(fā)送時(shí)間、發(fā)送者地區(qū)、接收者地區(qū)、發(fā)送者號(hào)碼、短信用詞、內(nèi)容是否包含電話號(hào)碼以及內(nèi)容是否包含網(wǎng)址中的至少一個(gè),當(dāng)然,根據(jù)各類短信的更新,特征的選取還可以包含更多種類,具體此處不作限定。
[0033]103、調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到特征的權(quán)重值;
[0034]需要說明的是,在本實(shí)施例中,在短信攔截模型中,預(yù)先建立有特征集且計(jì)算有特征集中各特征的權(quán)重值,由此,通過調(diào)用短信攔截模型,可以確定該短信中各特征的權(quán)重值。
[0035]104、根據(jù)特征的權(quán)重值判斷該短信是否為垃圾短信;
[0036]在本實(shí)施例中,在得到該短信中各特征的權(quán)重值后,可以根據(jù)這些特征值來判斷該短信是否為垃圾短信,在本實(shí)施例中,可以基于多種不同的規(guī)則來判斷這些特征的特征值是否滿足相應(yīng)的要求,從而根據(jù)判斷結(jié)果來判定該短信是否為垃圾短信。
[0037]105、對(duì)判定為垃圾短信的短信進(jìn)行攔截處理;
[0038]在本實(shí)施例中,當(dāng)判定該短信為垃圾短信時(shí),對(duì)該短信進(jìn)行攔截處理,具體此處對(duì)短信的攔截處理方式不作限定。
[0039]本發(fā)明實(shí)施例提供的技術(shù)方案中,首先獲取短信并提取該短信所包括的特征,再調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到這些特征的權(quán)重值,從而根據(jù)這些特征的權(quán)重值判斷該短信是否為垃圾短信,并對(duì)判定為垃圾短信的短信進(jìn)行攔截處理。因此相對(duì)于現(xiàn)有技術(shù)中直接判斷短信中是否包含人工預(yù)先編寫的攔截規(guī)則中的關(guān)鍵字,本發(fā)明實(shí)施例通過短信攔截模型確定特征的權(quán)重值,以短信所包括的特征的權(quán)重值來識(shí)別垃圾短信的方式會(huì)更準(zhǔn)確,可有效提高垃圾短信攔截的準(zhǔn)確度。
[0040]在圖1所示實(shí)施例的基礎(chǔ)上,下面進(jìn)一步詳細(xì)描述如何構(gòu)建短信攔截模型,具體請(qǐng)參閱圖2,本發(fā)明實(shí)施例中垃圾短信攔截方法另一實(shí)施例包括:
[0041]需要說明的是,短信攔截模型的構(gòu)建可以離線進(jìn)行,然后在線應(yīng)用于垃圾短信攔截,優(yōu)選地,在本實(shí)施例中,短信攔截模型的構(gòu)建由服務(wù)器執(zhí)行,以快速求解權(quán)重值,并同時(shí)向多個(gè)終端服務(wù)。
[0042]201、建立特征集;
[0043]在本實(shí)施例中,以多個(gè)已知是否為垃圾短信的短信作為短信樣本,提取該短信樣本中每條短信所包含的特征,得到特征集。為了保證覆蓋面和準(zhǔn)確度,在本實(shí)施例中,特征集收集的特征的個(gè)數(shù)可以達(dá)到千萬個(gè)的級(jí)別,或者更多,具體此處不作限定。其中,特征包括發(fā)送時(shí)間、發(fā)送者地區(qū)、接收者地區(qū)、發(fā)送者號(hào)碼、短信用詞、內(nèi)容是否包含電話號(hào)碼以及內(nèi)容是否包含網(wǎng)址中的至少一個(gè),當(dāng)然,根據(jù)各類短信的更新,特征的選取還可以包含更多種類,具體此處不作限定。
[0044]202、為特征集中的每個(gè)特征定義權(quán)重,針對(duì)該短信樣本中的各短信構(gòu)建以權(quán)重為變量的方程式,形成短信攔截方程組;
[0045]在本實(shí)施例中,為特征集中的每個(gè)特征引入一個(gè)特征系數(shù),即權(quán)重,其可以反映特征對(duì)短信被攔截的貢獻(xiàn)大小,然而針對(duì)該短信樣本中的各短信構(gòu)建以權(quán)重為變量的方程式,形成短信攔截方程組,以便通過該短信攔截方程組求解權(quán)重的權(quán)重值,具體包括:
[0046]將每條短信所包括的特征的權(quán)重進(jìn)行相加;
[0047]若短信為垃圾短信,則將其對(duì)應(yīng)相加的結(jié)果賦值為第一預(yù)設(shè)值;
[0048]若短信為垃圾短信,則將其對(duì)應(yīng)相加的結(jié)果賦值為第二預(yù)設(shè)值。
[0049]下面以一具體的應(yīng)用實(shí)例說明如何建立短信攔截方程組:
[0050]對(duì)上述短信樣本的中的短信進(jìn)行編號(hào),得到編號(hào)為I至k的k條短信,其中,k為短信樣本的樣本容量;并且,對(duì)特征集中的特征進(jìn)行編號(hào),得到特征&至X n;
[0051]針對(duì)短信樣本中的每條短信,將特征與其對(duì)應(yīng)的權(quán)重之乘積進(jìn)行相加,可參見計(jì)算式^1Xfa2Xda3X3+...+an Xn,其中,若在該條短信中不包含特征Xn,則Xn的值為0,否則,Xn的值為I ο在本實(shí)施例中,短信樣本中每條短信均已知是否為垃圾短信,對(duì)每條垃圾短信,將上述計(jì)算式的計(jì)算結(jié)果統(tǒng)一賦值為第一預(yù)設(shè)值,對(duì)每條非垃圾短信,將上述計(jì)算式的計(jì)算結(jié)果統(tǒng)一賦值為第二預(yù)設(shè)值,即:
[0052]針對(duì)短信樣本中的每條垃圾短信,可以得到方程:??+??+??+...+an Xn =第一預(yù)設(shè)值;
[0053]針對(duì)短信樣本中的每條普通短信,可以得到方程M1XJa2Xi^a3X3+...+an Xn =第二預(yù)設(shè)值;
[0054]最后,將短信樣本中每一條短信形成的方程連立起來,就得到短信攔截方程組,即:
[0055]B1X1 ⑴+a2X2 ⑴+a3X3 ⑴+...+an Xr^1)= y ι
[0056]B1X1 ⑵+a2X2 ⑵+a3X3 ⑵+...+an Xn ⑵=y 2
[0057]......
[0058]S1X1 (m) +a2X2 (m) +a3X3 (m) +...+an Xn (m)= y m
[0059]......
[0060]S1X1 (k) +a2X2 (k) +a3X3 (k) +...+an Xn (k)= y k
[0061]其中,當(dāng)短信編號(hào)為第m的短信為垃圾短信時(shí),yni的取值為第一預(yù)設(shè)值,否則,yni的取值為第二預(yù)設(shè)值;
[0062]Xn代表特征編號(hào)為第η的特征;a ?為X n的權(quán)重;X nW代表短信編號(hào)為第m的短信所包含的Xn,且m小于或等于k,其中,若短信編號(hào)為第m的短信不包含Xn,則Xnw的值為0,否則,Xnw的值為1
[0063]203、求解該短信攔截方程組中各特征的權(quán)重的權(quán)重值;
[0064]可以理解的是,在一些實(shí)施例中,為了保證覆蓋面和準(zhǔn)確度,短信樣本的樣本容量可以達(dá)到百億級(jí)的數(shù)量,或者更多,由此,可以得到具有海量特征的超大規(guī)模方程組,并利用大數(shù)據(jù)處理技術(shù)求解該超大規(guī)模方程組。在方程組規(guī)模巨大的情況下,若單臺(tái)計(jì)算機(jī)無法存儲(chǔ)以及計(jì)算如此大的數(shù)據(jù)量,也可以使用大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)計(jì)算技術(shù),分布式地存儲(chǔ)方程組,并進(jìn)行并行求解,最終求解出所有的權(quán)重值。
[0065]在步驟202的應(yīng)用實(shí)例的基礎(chǔ)上,通過執(zhí)行步驟203,可以求解得到&1至a n的值。
[0066]上述步驟201至步驟203為短信攔截模型的構(gòu)建流程,下面進(jìn)一步描述如何利用短信攔截模型進(jìn)行垃圾短信攔截:
[0067]優(yōu)選地,在本實(shí)施例中,可以由終端執(zhí)行垃圾短信的線上攔截流程:
[0068]204、獲取短信;
[0069]205、提取該短信所包括的特征;
[0070]在本實(shí)施例中,在獲取短信后,可以先對(duì)短信進(jìn)行預(yù)處理,去除短信中常見的人為干擾字符、全角英文字符等,然后再提取該短信所包括的特征。其中,特征包括發(fā)送時(shí)間、發(fā)送者地區(qū)、接收者地區(qū)、發(fā)送者號(hào)碼、短信用詞、內(nèi)容是否包含電話號(hào)碼以及內(nèi)容是否包含網(wǎng)址中的至少一個(gè),當(dāng)然,根據(jù)各類短信的更新,特征的選取還可以包含更多種類,具體此處不作限定。
[0071]206、調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到特征的權(quán)重值;
[0072]需要說明的是,并非每次攔截垃圾短信都要執(zhí)行上述步驟201至步驟203中的短信攔截模型的構(gòu)建流程,只需保證在調(diào)用時(shí),已經(jīng)構(gòu)建有短信攔截模型即可。由于在短信攔截模型中,建立有特征集且計(jì)算有特征集中各特征的權(quán)重值,由此,通過調(diào)用短信攔截模型,可以確定該短信中各特征的權(quán)重值。
[0073]207、根據(jù)特征的權(quán)重值判斷該短信是否為垃圾短信;
[0074]在本實(shí)施例中,在得到該短信中各特征的權(quán)重值后,可以根據(jù)這些特征值來判斷該短信是否為垃圾短信,在本實(shí)施例中,可以基于多種不同的規(guī)則來判斷這些特征的特征值是否滿足相應(yīng)的要求,從而根據(jù)判斷結(jié)果來判定該短信是否為垃圾短信。下面對(duì)根據(jù)特征的權(quán)重值判斷該短信是否為垃圾短信的具體方式進(jìn)行舉例說明:
[0075]第一種方式:對(duì)該短信中各特征的權(quán)重值進(jìn)行相加,得到一個(gè)權(quán)重總和;判斷該權(quán)重總和是否在該第一預(yù)設(shè)值和該第二預(yù)設(shè)值之中更接近該第一預(yù)設(shè)值,若是,則判定該短?目為垃圾短?目。
[0076]具體的,可利用計(jì)算式alXl+a2X2+a3X3+...+an Xn來得到權(quán)重總和,其中,若該條短信中不包含特征Xn,則Xn的值為0,否則Xn的值為I ;在得到權(quán)重總和后,計(jì)算該權(quán)重總和與第一預(yù)設(shè)值之間的差值的絕對(duì)值NI,并計(jì)算該權(quán)重總和與第二預(yù)設(shè)值之間的差值的絕對(duì)值N2 ;當(dāng)NI小于N2時(shí),判定該短信為垃圾短信。
[0077]在本實(shí)施例中,第一預(yù)設(shè)值可以設(shè)置為I,第二預(yù)設(shè)值可以設(shè)置為-1,則求解得到an值的正負(fù)可以表征該對(duì)應(yīng)特征對(duì)攔截是具有正貢獻(xiàn)還是負(fù)貢獻(xiàn),當(dāng)權(quán)重總和大于O時(shí),判定該短信為垃圾短信。
[0078]在一具體應(yīng)用場(chǎng)景中,以如下短信A為例進(jìn)行說明:
[0079]短信A:尊敬的XX用戶,恭喜您在線時(shí)長(zhǎng)超過1000分鐘,特贈(zèng)送砸金蛋送百元話費(fèi)!登錄網(wǎng)址XXX開始砸蛋,客服01058206555。
[0080]對(duì)該短信A提取的特征可以包括:發(fā)送者號(hào)碼A1、發(fā)送時(shí)間A2、發(fā)送者地區(qū)A3、接收者地區(qū)A4、發(fā)送者內(nèi)容包含電話號(hào)碼A5、內(nèi)容包含網(wǎng)址A6、內(nèi)容包含金額A7、短信用詞贈(zèng)送A8以及短?目用詞恭喜Ag。
[0081]上述特征均可以在特征集中查詢到,且通過調(diào)用短信攔截模型,得到這些特征的權(quán)重值:發(fā)送者號(hào)碼A1的權(quán)重值為0.01、發(fā)送時(shí)間A 2的權(quán)重值為-0.002、發(fā)送者地區(qū)A3的權(quán)重值為O、接收者地區(qū)A4的權(quán)重值為0、發(fā)送者內(nèi)容包含電話號(hào)碼A 5的權(quán)重值為0.005、內(nèi)容包含網(wǎng)址A6的權(quán)重值為0.005、內(nèi)容包含金額A7的權(quán)重值為0.001、短信用詞贈(zèng)送六8的權(quán)重值為0.002以及短信用詞恭喜A9的權(quán)重值為0.001 ;其中,第一預(yù)設(shè)值為I,第二預(yù)設(shè)值為-1 ;
[0082]對(duì)該短信中各特征的權(quán)重值進(jìn)行相加,得到權(quán)重總和0.01+( - 0.002)+0+0+0.005+0.005+0.001+0.002+0.001,等于0.022,由于0.022大于0,可以判定該短信為垃圾短信。
[0083]第二種方式:若第一預(yù)設(shè)值大于第二預(yù)設(shè)值,則判斷該短信所包括的特征中是否有權(quán)重值大于第三預(yù)設(shè)值的特征,若有,則判定該短信為垃圾短信;若該第一預(yù)設(shè)值小于第二預(yù)設(shè)值,則判斷該短信所包括的特征中是否有權(quán)重值小于第四預(yù)設(shè)值的特征,若有,則判定該短信為垃圾短信。
[0084]在一具體應(yīng)用場(chǎng)景中,以如下短信A為例進(jìn)行說明:
[0085]短信A:尊敬的XX用戶,恭喜您在線時(shí)長(zhǎng)超過1000分鐘,特贈(zèng)送砸金蛋送百元話費(fèi)!登錄網(wǎng)址XXX開始砸蛋,客服01058206555。
[0086]對(duì)該短信A提取的特征可以包括:發(fā)送者號(hào)碼A1、發(fā)送時(shí)間A2、發(fā)送者地區(qū)A3、接收者地區(qū)A4、發(fā)送者內(nèi)容包含電話號(hào)碼A5、內(nèi)容包含網(wǎng)址A6、內(nèi)容包含金額A7、短信用詞贈(zèng)送A8以及短?目用詞恭喜Ag。
[0087]上述特征均可以在特征集中查詢到,且通過調(diào)用短信攔截模型,得到這些特征的權(quán)重值:發(fā)送者號(hào)碼A1的權(quán)重值為0.01、發(fā)送時(shí)間A 2的權(quán)重值為-0.002、發(fā)送者地區(qū)A3的權(quán)重值為O、接收者地區(qū)A4的權(quán)重值為0、發(fā)送者內(nèi)容包含電話號(hào)碼A 5的權(quán)重值為0.005、內(nèi)容包含網(wǎng)址A6的權(quán)重值為0.005、內(nèi)容包含金額A7的權(quán)重值為0.001、短信用詞贈(zèng)送六8的權(quán)重值為0.2以及短信用詞恭喜A9的權(quán)重值為0.001 ;其中,第一預(yù)設(shè)值為1,第二預(yù)設(shè)值為-1,第三預(yù)設(shè)值為0.15 ;
[0088]在第一預(yù)設(shè)值大于第二預(yù)設(shè)值的情況下,該短信所包括的特征中有權(quán)重大于第三預(yù)設(shè)值的特征(短信用詞贈(zèng)送^的權(quán)重為0.2),可以判定該短信為垃圾短信。
[0089]需要說明的是,上面僅以幾個(gè)例子說明了如何根據(jù)特征的權(quán)重值判斷該短信是否為垃圾短信,在實(shí)際應(yīng)用中,還可以基于特征的權(quán)重值制定更多的判斷方式,具體的判斷方式此處不做限定。
[0090]208、對(duì)判定為垃圾短信的短信進(jìn)行攔截處理;
[0091 ] 在本實(shí)施例中,當(dāng)判定該短信為垃圾短信時(shí),對(duì)該短信進(jìn)行攔截處理,具體此處對(duì)短信的攔截處理方式不作限定。
[0092]上面對(duì)本發(fā)明實(shí)施例中的垃圾短信攔截方法進(jìn)行了描述,下面對(duì)本發(fā)明實(shí)施例中的垃圾短信攔截裝置進(jìn)行描述,請(qǐng)參閱圖3,本發(fā)明實(shí)施例中垃圾短信攔截裝置一個(gè)實(shí)施例包括:
[0093]獲取單元301,用于獲取短信;
[0094]提取單元302,用于提取所述短信所包括的特征;
[0095]調(diào)用單元303,用于調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到所述特征的權(quán)重值;
[0096]判斷單元304,用于根據(jù)所述特征的權(quán)重值判斷所述短信是否為垃圾短信;
[0097]執(zhí)行單元305,用于對(duì)判定為垃圾短信的短信進(jìn)行攔截處理。
[0098]為便于理解,下面以一具體應(yīng)用場(chǎng)景為例,對(duì)本實(shí)施例中垃圾短信攔截裝置內(nèi)部運(yùn)作流程進(jìn)行描述:
[0099]獲取單元301獲取短信;提取單元302提取所述短信所包括的特征;調(diào)用單元303調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到所述特征的權(quán)重值;判斷單元304根據(jù)所述特征的權(quán)重值判斷所述短信是否為垃圾短信;執(zhí)行單元305,對(duì)判定為垃圾短信的短信進(jìn)行攔截處理。
[0100]本發(fā)明實(shí)施例提供的技術(shù)方案中,首先通過獲取單元301獲取短信并由提取單元302提取該短信所包括的特征,再由調(diào)用單元303調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到這些特征的權(quán)重值,從而通過判斷單元304根據(jù)這些特征的權(quán)重值判斷該短信是否為垃圾短信,并由執(zhí)行單元305對(duì)判定為垃圾短信的短信進(jìn)行攔截處理。因此相對(duì)于現(xiàn)有技術(shù)中直接判斷短信中是否包含人工預(yù)先編寫的攔截規(guī)則中的關(guān)鍵字,本發(fā)明實(shí)施例通過短信攔截模型確定特征的權(quán)重值,以短信所包括的特征的權(quán)重值來識(shí)別垃圾短信的方式會(huì)更準(zhǔn)確,可有效提高垃圾短信攔截的準(zhǔn)確度。
[0101]在圖3所示實(shí)施例的基礎(chǔ)上,下面進(jìn)一步詳細(xì)描述包括構(gòu)建短信攔截模型的垃圾短信攔截裝置的具體結(jié)構(gòu),具體請(qǐng)參閱圖4,本發(fā)明實(shí)施例中垃圾短信攔截裝置另一實(shí)施例包括:
[0102]獲取單元401,用于獲取短信;
[0103]提取單元402,用于提取所述短信所包括的特征;
[0104]調(diào)用單元403,用于調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到所述特征的權(quán)重值;
[0105]判斷單元404,用于根據(jù)所述特征的權(quán)重值判斷所述短信是否為垃圾短信;
[0106]執(zhí)行單元405,用于對(duì)判定為垃圾短信的短信進(jìn)行攔截處理。
[0107]在本實(shí)施例中,所述垃圾短信攔截裝置還進(jìn)一步包括構(gòu)建單元406,所述構(gòu)建單元406包括:
[0108]提取模塊4061,用于以多個(gè)已知是否為垃圾短信的短信作為短信樣本,提取所述短信樣本中每條短信所包括的特征,得到特征集;
[0109]構(gòu)建模塊4062,用于為所述特征集中的每個(gè)特征定義權(quán)重;針對(duì)所述短信樣本中的各短信構(gòu)建以權(quán)重為變量的方程式,形成短信攔截方程組;
[0110]計(jì)算模塊4063,用于求解所述短信攔截方程組中各特征的權(quán)重的權(quán)重值。
[0111]可選地,所述構(gòu)建模塊4062,具體可以用于將每條短信所包括的特征的權(quán)重進(jìn)行相加;若短信為垃圾短信,則將其對(duì)應(yīng)相加的結(jié)果賦值為第一預(yù)設(shè)值;若短信為非垃圾短信,則將其對(duì)應(yīng)相加的結(jié)果賦值為第二預(yù)設(shè)值。
[0112]可選地,所述判斷單元404,具體可以用于對(duì)所述短信中各特征的權(quán)重值進(jìn)行相加,得到一個(gè)權(quán)重總和;判斷所述權(quán)重總和是否在所述第一預(yù)設(shè)值和所述第二預(yù)設(shè)值之中更接近所述第一預(yù)設(shè)值,若是,則判定所述短信為垃圾短信。
[0113]可選地,所述判斷單元404,具體可以用于若所述第一預(yù)設(shè)值大于第二預(yù)設(shè)值,則判斷所述短信所包括的特征中是否有權(quán)重值大于第三預(yù)設(shè)值的特征,若有,則判定所述短信為垃圾短信;若所述第一預(yù)設(shè)值小于第二預(yù)設(shè)值,則判斷所述短信所包括的特征中是否有權(quán)重值小于第四預(yù)設(shè)值的特征,若有,則判定所述短信為垃圾短信。
[0114]可選地,所述特征包括發(fā)送時(shí)間、發(fā)送者地區(qū)、接收者地區(qū)、發(fā)送者號(hào)碼、短信用詞、內(nèi)容是否包含電話號(hào)碼以及內(nèi)容是否包含網(wǎng)址中的至少一個(gè)。
[0115]上面從模塊化功能實(shí)體的角度對(duì)本發(fā)明實(shí)施例中的垃圾短信攔截裝置進(jìn)行描述,下面從硬件處理的角度對(duì)本發(fā)明實(shí)施例中的垃圾短信攔截裝置進(jìn)行描述,請(qǐng)參閱圖5,本發(fā)明實(shí)施例中垃圾短信攔截裝置另一實(shí)施例包括:
[0116]輸入裝置501、輸出裝置502、處理器503和存儲(chǔ)器504 (其中垃圾短信攔截裝置中的處理器503的數(shù)量可以一個(gè)或多個(gè),圖5中以一個(gè)處理器503為例)。在本發(fā)明的一些實(shí)施例中,輸入裝置501、輸出裝置502、處理器503和存儲(chǔ)器504可通過總線或其它方式連接,其中,圖5中以通過總線連接為例。
[0117]其中,通過調(diào)用存儲(chǔ)器504存儲(chǔ)的操作指令,處理器503,用于執(zhí)行如下步驟:
[0118]獲取短信;
[0119]提取所述短信所包括的特征;
[0120]調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到所述特征的權(quán)重值;
[0121]根據(jù)所述特征的權(quán)重值判斷所述短信是否為垃圾短信;
[0122]對(duì)判定為垃圾短信的短信進(jìn)行攔截處理。
[0123]在本發(fā)明的一些實(shí)施例中,處理器503還可以用于執(zhí)行以下步驟:構(gòu)建短信攔截模型;所述短信攔截模型的構(gòu)建包括:
[0124]以多個(gè)已知是否為垃圾短信的短信作為短信樣本,提取所述短信樣本中每條短信所包括的特征,得到特征集;
[0125]為所述特征集中的每個(gè)特征定義權(quán)重;
[0126]針對(duì)所述短信樣本中的各短信構(gòu)建以權(quán)重為變量的方程式,形成短信攔截方程組;
[0127]求解所述短信攔截方程組中各特征的權(quán)重的權(quán)重值。
[0128]在本發(fā)明的一些實(shí)施例中,處理器503具體用于執(zhí)行以下步驟:
[0129]將每條短信所包括的特征的權(quán)重進(jìn)行相加;
[0130]若短信為垃圾短信,則將其對(duì)應(yīng)相加的結(jié)果賦值為第一預(yù)設(shè)值;
[0131]若短信為非垃圾短信,則將其對(duì)應(yīng)相加的結(jié)果賦值為第二預(yù)設(shè)值。
[0132]在本發(fā)明的一些實(shí)施例中,處理器503具體可以用于執(zhí)行以下步驟:
[0133]對(duì)所述短信中各特征的權(quán)重值進(jìn)行相加,得到一個(gè)權(quán)重總和;
[0134]判斷所述權(quán)重總和是否在所述第一預(yù)設(shè)值和所述第二預(yù)設(shè)值之中更接近所述第一預(yù)設(shè)值,若是,則判定所述短信為垃圾短信。
[0135]在本發(fā)明的一些實(shí)施例中,處理器503具體可以用于執(zhí)行以下步驟:
[0136]若所述第一預(yù)設(shè)值大于第二預(yù)設(shè)值,則判斷所述短信所包括的特征中是否有權(quán)重值大于第三預(yù)設(shè)值的特征,若有,則判定所述短信為垃圾短信;
[0137]若所述第一預(yù)設(shè)值小于第二預(yù)設(shè)值,則判斷所述短信所包括的特征中是否有權(quán)重值小于第四預(yù)設(shè)值的特征,若有,則判定所述短信為垃圾短信。
[0138]在本發(fā)明的一些實(shí)施例中,所述特征包括發(fā)送時(shí)間、發(fā)送者地區(qū)、接收者地區(qū)、發(fā)送者號(hào)碼、短信用詞、內(nèi)容是否包含電話號(hào)碼以及內(nèi)容是否包含網(wǎng)址中的至少一個(gè)。
[0139]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。
[0140]在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
[0141]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
[0142]另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
[0143]所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0144]以上所述,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
【主權(quán)項(xiàng)】
1.一種垃圾短信攔截方法,其特征在于,包括: 獲取短ig ; 提取所述短信所包括的特征; 調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到所述特征的權(quán)重值; 根據(jù)所述特征的權(quán)重值判斷所述短信是否為垃圾短信; 對(duì)判定為垃圾短信的短信進(jìn)行攔截處理。2.如權(quán)利要求1所述的垃圾短信攔截方法,其特征在于,所述短信攔截模型的構(gòu)建包括: 以多個(gè)已知是否為垃圾短信的短信作為短信樣本,提取所述短信樣本中每條短信所包括的特征,得到特征集; 為所述特征集中的每個(gè)特征定義權(quán)重; 針對(duì)所述短信樣本中的各短信構(gòu)建以權(quán)重為變量的方程式,形成短信攔截方程組; 求解所述短信攔截方程組中各特征的權(quán)重的權(quán)重值。3.如權(quán)利要求2所述的垃圾短信攔截方法,其特征在于,所述針對(duì)所述短信樣本中的各短信構(gòu)建以權(quán)重為變量的方程式,形成短信攔截方程組包括: 將每條短信所包括的特征的權(quán)重進(jìn)行相加; 若短信為垃圾短信,則將其對(duì)應(yīng)相加的結(jié)果賦值為第一預(yù)設(shè)值; 若短信為非垃圾短信,則將其對(duì)應(yīng)相加的結(jié)果賦值為第二預(yù)設(shè)值。4.如權(quán)利要求3所述的垃圾短信攔截方法,其特征在于,所述根據(jù)所述特征的權(quán)重值判斷所述短信是否為垃圾短信包括: 對(duì)所述短信中各特征的權(quán)重值進(jìn)行相加,得到一個(gè)權(quán)重總和; 判斷所述權(quán)重總和是否在所述第一預(yù)設(shè)值和所述第二預(yù)設(shè)值之中更接近所述第一預(yù)設(shè)值,若是,則判定所述短信為垃圾短信。5.如權(quán)利要求3所述的垃圾短信攔截方法,其特征在于,所述根據(jù)所述特征的權(quán)重值判斷所述短信是否為垃圾短信包括: 若所述第一預(yù)設(shè)值大于第二預(yù)設(shè)值,則判斷所述短信所包括的特征中是否有權(quán)重值大于第三預(yù)設(shè)值的特征,若有,則判定所述短信為垃圾短信; 若所述第一預(yù)設(shè)值小于第二預(yù)設(shè)值,則判斷所述短信所包括的特征中是否有權(quán)重值小于第四預(yù)設(shè)值的特征,若有,則判定所述短信為垃圾短信。6.如權(quán)利要求1至5中任意一項(xiàng)所述的垃圾短信攔截方法,其特征在于,所述特征包括發(fā)送時(shí)間、發(fā)送者地區(qū)、接收者地區(qū)、發(fā)送者號(hào)碼、短信用詞、內(nèi)容是否包含電話號(hào)碼以及內(nèi)容是否包含網(wǎng)址中的至少一個(gè)。7.—種垃圾短信攔截裝置,其特征在于,包括: 獲取單元,用于獲取短信; 提取單元,用于提取所述短信所包括的特征; 調(diào)用單元,用于調(diào)用預(yù)先構(gòu)建的短信攔截模型,得到所述特征的權(quán)重值; 判斷單元,用于根據(jù)所述特征的權(quán)重值判斷所述短信是否為垃圾短信; 執(zhí)行單元,用于對(duì)判定為垃圾短信的短信進(jìn)行攔截處理。8.如權(quán)利要求7所述的垃圾短信攔截裝置,其特征在于,所述裝置還包括構(gòu)建單元;所述構(gòu)建單元包括: 提取模塊,用于以多個(gè)已知是否為垃圾短信的短信作為短信樣本,提取所述短信樣本中每條短信所包括的特征,得到特征集; 構(gòu)建模塊,用于為所述特征集中的每個(gè)特征定義權(quán)重;針對(duì)所述短信樣本中的各短信構(gòu)建以權(quán)重為變量的方程式,形成短信攔截方程組; 計(jì)算模塊,用于求解所述短信攔截方程組中各特征的權(quán)重的權(quán)重值。9.如權(quán)利要求8所述的垃圾短信攔截裝置,其特征在于, 所述構(gòu)建模塊,具體用于將每條短信所包括的特征的權(quán)重進(jìn)行相加;若短信為垃圾短信,則將其對(duì)應(yīng)相加的結(jié)果賦值為第一預(yù)設(shè)值;若短信為非垃圾短信,則將其對(duì)應(yīng)相加的結(jié)果賦值為第二預(yù)設(shè)值。10.如權(quán)利要求9所述的垃圾短信攔截裝置,其特征在于, 所述判斷單元,具體用于對(duì)所述短信中各特征的權(quán)重值進(jìn)行相加,得到一個(gè)權(quán)重總和;判斷所述權(quán)重總和是否在所述第一預(yù)設(shè)值和所述第二預(yù)設(shè)值之中更接近所述第一預(yù)設(shè)值,若是,則判定所述短信為垃圾短信。11.如權(quán)利要求9所述的垃圾短信攔截裝置,其特征在于, 所述判斷單元,具體用于若所述第一預(yù)設(shè)值大于第二預(yù)設(shè)值,則判斷所述短信所包括的特征中是否有權(quán)重值大于第三預(yù)設(shè)值的特征,若有,則判定所述短信為垃圾短信;若所述第一預(yù)設(shè)值小于第二預(yù)設(shè)值,則判斷所述短信所包括的特征中是否有權(quán)重值小于第四預(yù)設(shè)值的特征,若有,則判定所述短信為垃圾短信。12.如權(quán)利要求7至11中任意一項(xiàng)所述的垃圾短信攔截裝置,其特征在于,所述特征包括發(fā)送時(shí)間、發(fā)送者地區(qū)、接收者地區(qū)、發(fā)送者號(hào)碼、短信用詞、內(nèi)容是否包含電話號(hào)碼以及內(nèi)容是否包含網(wǎng)址中的至少一個(gè)。
【文檔編號(hào)】H04W4/14GK105992176SQ201510047399
【公開日】2016年10月5日
【申請(qǐng)日】2015年1月29日
【發(fā)明人】何銳邦
【申請(qǐng)人】騰訊科技(深圳)有限公司