信息識別方法及系統(tǒng)、移動通信網(wǎng)絡(luò)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種信息識別方法及系統(tǒng)、移動通信網(wǎng)絡(luò)。
【背景技術(shù)】
[0002]作為移動通信領(lǐng)域中的一項(xiàng)基本業(yè)務(wù),短信息為人們提供了簡單、快速、便捷、及時(shí)的通信服務(wù),并成為當(dāng)下一種非常重要的通信方式。然而,在信息業(yè)務(wù)為人們生活帶來方便快捷的同時(shí),垃圾信息也變得愈演愈烈,甚至嚴(yán)重影響了用戶日常的正常使用。
[0003]舉例而言,垃圾信息的發(fā)送者為了快速、大范圍的發(fā)送垃圾信息通常利用短信群發(fā)設(shè)備來發(fā)送垃圾信息。相關(guān)設(shè)備可以同時(shí)控制多張SM卡,并且群發(fā)發(fā)送大量信息給不同的接收者。
[0004]為了識別并攔截相應(yīng)的垃圾信息,現(xiàn)有技術(shù)通常采用下列幾種方法:1、基于關(guān)鍵字檢測,該方法通過設(shè)置常見的垃圾信息關(guān)鍵字、關(guān)鍵字長度、關(guān)鍵字出現(xiàn)頻率等進(jìn)行檢測;2、基于用戶發(fā)送模式檢測,該方法通過用戶發(fā)送信息的數(shù)量、內(nèi)容重復(fù)度、發(fā)送號碼的分布比等進(jìn)行檢測;3、基于用戶賬號信譽(yù)評估檢測:該方法通過用戶的信用度、其他用戶的舉報(bào)、業(yè)務(wù)使用情況等進(jìn)行檢測。
[0005]然而,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:現(xiàn)有的信息識別或檢測方法雖然在一定程度上可以識別出垃圾信息,但是在識別過程中依然存在著很多缺點(diǎn),例如:基于關(guān)鍵字檢測需要對關(guān)鍵字?jǐn)?shù)據(jù)庫進(jìn)行維護(hù),誤報(bào)率較高、時(shí)延隨關(guān)鍵字?jǐn)?shù)量顯著增長;基于用戶發(fā)生模式檢測閾值難以合理設(shè)置,容易對熱點(diǎn)轉(zhuǎn)發(fā)的信息進(jìn)行誤檢;而基于用戶賬號信譽(yù)評估檢測則不能達(dá)到及時(shí)發(fā)現(xiàn)并處理垃圾信息等。因此,現(xiàn)有信息識別方法并不完善。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的實(shí)施例提供一種信息識別方法及系統(tǒng)、移動通信網(wǎng)絡(luò),該信息識別方法以及系統(tǒng)可以較為準(zhǔn)確的識別出垃圾信息,同時(shí)降低了誤報(bào)率以及漏報(bào)率,從而有效的提高移動通信網(wǎng)絡(luò)對垃圾信息的處理能力。
[0007]為解決上述技術(shù)問題,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
[0008]一種信息識別方法,包括:
[0009]對待檢信息進(jìn)行聚類劃分,將包含信息的數(shù)量大于第一閾值且包含的信息與聚類中心的距離小于第二閾值的所述聚類標(biāo)記為可疑聚類;
[0010]對所述可疑聚類進(jìn)行重復(fù)內(nèi)容檢測,將重復(fù)數(shù)量大于第三閾值的信息標(biāo)記為重復(fù)信息;
[0011]提取所述重復(fù)信息的位置數(shù)據(jù),當(dāng)有任意一個(gè)位置的出現(xiàn)次數(shù)超過第四閾值時(shí),統(tǒng)計(jì)所述重復(fù)信息的分布情況;當(dāng)不存在任意一個(gè)位置的出現(xiàn)次數(shù)超過第四閾值時(shí),提取所述重復(fù)信息的主叫號碼并做去重處理;當(dāng)去重后的主叫號碼的個(gè)數(shù)超過第五閾值時(shí),統(tǒng)計(jì)所述重復(fù)信息的分布情況;
[0012]根據(jù)所述重復(fù)信息的分布情況,當(dāng)某一位置內(nèi)的重復(fù)信息所占比例超過第六閾值時(shí),則將該位置內(nèi)的重復(fù)信息標(biāo)記為垃圾信息,否則將該位置內(nèi)的重復(fù)信息標(biāo)記為正常信肩、O
[0013]進(jìn)一步的,所述的信息識別方法,還包括:
[0014]當(dāng)去重后的主叫號碼的個(gè)數(shù)不超過第五閾值時(shí),將所述重復(fù)信息標(biāo)記為重傳待檢測信息,等待用戶進(jìn)行重傳;
[0015]當(dāng)超時(shí)未收到重傳信息時(shí),則將所述待檢測信息標(biāo)記為垃圾信息;否則將所述待檢測信息標(biāo)記為正常信息。
[0016]進(jìn)一步的,在對待檢信息進(jìn)行聚類劃分之前,所述的信息識別方法,還包括:對所述待檢信息進(jìn)行預(yù)處理,從而去除所述待檢信息中包含的干擾字符。
[0017]進(jìn)一步的,在對待檢信息進(jìn)行預(yù)處理之前,所述的信息識別方法,還包括:判斷所述待檢信息的主叫號碼是否屬于黑白名單;當(dāng)所述待檢信息的主叫號碼屬于黑名單時(shí),則將所述待檢信息標(biāo)記為垃圾信息;當(dāng)所述待檢信息的主叫號碼屬于白名單時(shí),則將所述待檢信息標(biāo)記為正常信息。
[0018]優(yōu)選的,統(tǒng)計(jì)所述垃圾信息的主叫號碼以及位置數(shù)據(jù),產(chǎn)生告警并上報(bào)。
[0019]優(yōu)選的,所述位置數(shù)據(jù)包括位置區(qū)域碼以及小區(qū)識別碼。
[0020]本發(fā)明實(shí)施例還提供了一種信息識別系統(tǒng),包括:
[0021]聚類單元,用于對待檢信息進(jìn)行聚類劃分,從而將包含信息的數(shù)量大于第一閾值且包括的信息與聚類中心距離小于第二閾值的所述聚類標(biāo)記為可疑聚類;
[0022]重復(fù)度檢測單元,用于對所述可疑聚類進(jìn)行重復(fù)內(nèi)容檢測,從而將重復(fù)數(shù)量大于第三閾值的信息標(biāo)記為重復(fù)信息;
[0023]通信單元,用于提取所述重復(fù)信息的發(fā)送用戶的位置數(shù)據(jù);
[0024]判斷單元,用于當(dāng)有任意一個(gè)位置的出現(xiàn)次數(shù)超過第四閾值時(shí),統(tǒng)計(jì)所述重復(fù)信息的分布情況;還用于當(dāng)不存在任意一個(gè)位置的出現(xiàn)次數(shù)超過第四閾值時(shí),提取所述重復(fù)信息的主叫號碼并做去重處理;當(dāng)去重后的主叫號碼的個(gè)數(shù)超過第五閾值時(shí),統(tǒng)計(jì)所述重復(fù)信息的分布情況;根據(jù)所述重復(fù)信息的分布情況,當(dāng)某一位置內(nèi)的重復(fù)信息所占比例超過標(biāo)定值時(shí),則將該位置內(nèi)的重復(fù)信息標(biāo)記為垃圾信息,否則將該位置內(nèi)的重復(fù)信息標(biāo)記為正常信息。
[0025]進(jìn)一步的,所述的信息識別系統(tǒng),還包括:
[0026]重傳控制單元,用于在判斷單元判斷出當(dāng)去重后的主叫號碼的個(gè)數(shù)不超過第五閾值時(shí),將所述重復(fù)信息標(biāo)記為重傳待檢測信息,等待用戶進(jìn)行重傳;
[0027]當(dāng)超時(shí)未收到重傳信息時(shí),則將所述待檢測信息標(biāo)記為垃圾信息;否則將所述待檢測信息標(biāo)記為正常信息。
[0028]進(jìn)一步的,所述的信息識別系統(tǒng),還包括:
[0029]預(yù)處理單元,用于對所述待檢信息進(jìn)行預(yù)處理,從而去除所述待檢信息中包括的干擾字符。
[0030]另一方面,本發(fā)明實(shí)施例還提供了一種移動通信網(wǎng)絡(luò),包括上述所述的信息識別系統(tǒng),所述信息識別系統(tǒng)部署于信息中心的旁路。
[0031]本發(fā)明實(shí)施例提供的一種信息識別方法及系統(tǒng)、移動通信網(wǎng)絡(luò),其中該信息識別方法包括聚類劃分、重復(fù)內(nèi)容檢測、位置分布以及信息重傳等步驟,并在對應(yīng)步驟中設(shè)置相關(guān)的閾值,從而將待檢信息劃分為垃圾信息或者正常信息。在所述信息識別方法中,其識別工作是根據(jù)信息的內(nèi)容重復(fù)、信息的位置數(shù)據(jù)以及信息分布情況等多個(gè)特征而完成的,因此利用該方法進(jìn)行垃圾識別時(shí)準(zhǔn)確率更高,有效的提高了移動通信網(wǎng)絡(luò)對垃圾信息的處理能力。
【附圖說明】
[0032]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0033]圖1為本發(fā)明實(shí)施例的信息識別方法的流程示意圖;
[0034]圖2為本發(fā)明實(shí)施例的信息識別系統(tǒng)的結(jié)構(gòu)框圖;
[0035]圖3為本發(fā)明實(shí)施例的移動通信網(wǎng)絡(luò)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0036]本發(fā)明的實(shí)施例提供一種信息識別方法及系統(tǒng)、移動通信網(wǎng)絡(luò),該信息識別方法以及系統(tǒng)可以較為準(zhǔn)確的識別出垃圾信息,同時(shí)降低了誤報(bào)率以及漏報(bào)率,從而有效的提高了移動通信網(wǎng)絡(luò)對垃圾信息的處理能力。
[0037]以下描述中,為了說明而不是為了限定,提出了諸如特定系統(tǒng)結(jié)構(gòu)、接口、技術(shù)之類的具體細(xì)節(jié),以便透切理解本發(fā)明。然而,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)清楚,在沒有這些具體細(xì)節(jié)的其它實(shí)施例中也可以實(shí)現(xiàn)本發(fā)明。在其它情況中,省略對眾所周知的裝置、電路以及方法的詳細(xì)說明,以免不必要的細(xì)節(jié)妨礙本發(fā)明的描述。
[0038]下面結(jié)合下述附圖對本發(fā)明實(shí)施例做詳細(xì)描述。
[0039]本發(fā)明實(shí)施例提供了一種信息識別方法,如圖1所示,包括:
[0040]步驟SlOl:對待檢信息進(jìn)行聚類劃分,將包含信息的數(shù)量大于第一閾值且包含的信息與聚類中心的距離小于第二閾值的聚類標(biāo)記為可疑聚類;
[0041]在本發(fā)明實(shí)施例提供的信息識別方法中,首先對待檢信息進(jìn)行聚類劃分,從而將待檢信息劃分為多個(gè)群組以便繼續(xù)后續(xù)操作。具體的,舉例來說,可利用K-means的聚類方法對聚類信息進(jìn)行劃分。
[0042]K-means聚類過程可描述為:選取若干對象作為預(yù)設(shè)的聚類中心(選取的對象可由數(shù)據(jù)集抽取生成,或者也從待檢信息中提取);然后根據(jù)待檢信息中包含的文本內(nèi)容與聚類中心的相似程度決定每個(gè)待檢信息應(yīng)該劃分到哪個(gè)群組中。
[0043]進(jìn)一步的,在完成聚類劃分后可將聚類的重心作為新的聚類中心再次進(jìn)行聚類,直至聚類的重心不再移動時(shí)聚類劃分結(jié)束。其中,在本步驟對待檢信息聚類劃分過程中,設(shè)置有第一閾值Π以及第二閾值f2作為對聚類進(jìn)行標(biāo)記的條件:第一閾值fl為一數(shù)量閾值,用于作為標(biāo)記可疑聚類的信息數(shù)量觸發(fā)條件;第二閾值f2為一距離閾值,代表了信息的相似度,用于作為標(biāo)記可疑聚類的相似度觸發(fā)條件(需要說明的是,當(dāng)信息與聚類中心距離較近時(shí),則說明該信息內(nèi)容與聚類中心相似程度較高;反之,當(dāng)信息與聚類中心距離較遠(yuǎn)時(shí),則說明該信息內(nèi)容與聚類中心相似程度較低)