一種垃圾短信識(shí)別方法及裝置的制造方法

文檔序號(hào)：10627359閱讀：279來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種垃圾短信識(shí)別方法及裝置的制造方法
【專利摘要】本發(fā)明公開(kāi)了一種垃圾短信識(shí)別方法及裝置，該方法包括：根據(jù)設(shè)定的關(guān)鍵詞，獲取接收到的文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量；基于預(yù)先建立的垃圾短信識(shí)別模型，擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量，計(jì)算所述文本信息的近似度值；若所述近似度值大于設(shè)定閾值時(shí)，確定所述文本信息為垃圾短信，用以解決識(shí)別垃圾短信時(shí)，誤判率較高，或識(shí)別垃圾短信時(shí)覆蓋面較小，識(shí)別時(shí)容易丟失的問(wèn)題。
【專利說(shuō)明】
一種垃圾短信識(shí)別方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及通信技術(shù)領(lǐng)域，尤其是涉及一種垃圾短信識(shí)別方法及裝置。
【背景技術(shù)】
[0002] 在對(duì)現(xiàn)有的垃圾短信等短文本（垃圾短信、垃圾彩信、微博、0ΤΤ等）進(jìn)行信息分析與處置的一般是通過(guò)關(guān)鍵詞進(jìn)行發(fā)現(xiàn)，如下述表a所示，房產(chǎn)信息&銷售信息&電話作為一條已經(jīng)設(shè)置的關(guān)鍵詞名字策略，根據(jù)關(guān)鍵詞名字策略，抓取符合條件的信息并判定該短信可能為地產(chǎn)廣告短信。
[0003] 表 a [00041
[0005] ~基于對(duì)現(xiàn)有數(shù)據(jù)的分析發(fā)現(xiàn)，詐騙或垃圾短信往往是大面積發(fā)送，在對(duì)該原始信息進(jìn)行實(shí)際檢索的過(guò)程中，發(fā)現(xiàn)精確匹配的信息很少，但近似信息非常多。發(fā)送者有意采用不同的號(hào)碼并變更信息的部分內(nèi)容，使得信息更難以被追蹤與發(fā)現(xiàn)。因此，廣告、垃圾信息的發(fā)送者采用該類型方法進(jìn)行了有效逃避。如下述表b所示，同樣是一條關(guān)于地產(chǎn)銷售的垃圾短信，可以通過(guò)不同的變型方式發(fā)送給用戶。
[0006] 表 b
[0007]
[0008]
[0009] 針對(duì)該種情況，目前的相同/近似的短信的主要識(shí)別方式包括：
[0010] 第一種方式：基于關(guān)鍵字進(jìn)行發(fā)現(xiàn)。該方法能通過(guò)關(guān)鍵字對(duì)信息進(jìn)行發(fā)現(xiàn)，但在大量短信中單純采用關(guān)鍵字進(jìn)行識(shí)別極易形成誤判。
[0011] 第二種方式：信息哈希（英文：Hash)比對(duì)。將文本信息進(jìn)行摘要，通過(guò)比對(duì)摘要發(fā)現(xiàn)完全相同的信息；或通過(guò)近似Hash算法（如Simhash)，對(duì)內(nèi)容中較少的差異進(jìn)行兼容后形成摘要信息，并進(jìn)而進(jìn)行比對(duì)。但該種方式識(shí)別垃圾短信時(shí)，一方面由于短信息、微博文本等信息較短，如果出現(xiàn)一個(gè)字符的移位則很難識(shí)別。例如"購(gòu)買發(fā)票請(qǐng)聯(lián)系王經(jīng)理"和 "如購(gòu)買發(fā)票請(qǐng)聯(lián)系王經(jīng)理"。另一方面，嚴(yán)格針對(duì)內(nèi)容的比對(duì)覆蓋面較小，容易形成丟失。
[0012] 上述方式識(shí)別垃圾短信時(shí)，誤判率較高，或識(shí)別垃圾短信時(shí)覆蓋面較小，識(shí)別時(shí)容易丟失。

【發(fā)明內(nèi)容】

[0013] 本發(fā)明提供了一種垃圾短信識(shí)別方法及裝置，用以解決識(shí)別垃圾短信時(shí)，誤判率較高，或識(shí)別垃圾短信時(shí)覆蓋面較小，識(shí)別時(shí)容易丟失的問(wèn)題。
[0014] -種垃圾短信識(shí)別方法，包括：
[0015] 根據(jù)設(shè)定的關(guān)鍵詞，獲取接收到的文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú) 立子句匹配向量；
[0016] 基于預(yù)先建立的垃圾短信識(shí)別模型，擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量，計(jì)算所述文本信息的近似度值；
[0017] 若所述近似度值大于設(shè)定閾值時(shí)，確定所述文本信息為垃圾短信。
[0018] 根據(jù)設(shè)定的關(guān)鍵詞，獲取所述文本信息的關(guān)鍵詞鏈向量，包括：
[0019] 根據(jù)設(shè)定的第一關(guān)鍵詞鏈，確定文本信息中的第二關(guān)鍵詞鏈，其中，所述設(shè)定的第一關(guān)鍵詞鏈?zhǔn)窃O(shè)定的關(guān)鍵詞形成的詞鏈；
[0020] 針對(duì)任一第二關(guān)鍵詞鏈，確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān) 鍵詞鏈中的關(guān)鍵詞之間的相似性；以及確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性；
[0021] 將所述相似性和順序性，作為所述文本信息的關(guān)鍵詞鏈向量。
[0022] 確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的相似性，包括：
[0023] 確定所述第二關(guān)鍵詞鏈中和設(shè)定的第一關(guān)鍵詞鏈中相同的關(guān)鍵詞的第一數(shù)量；并
[0024] 確定設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞的第二數(shù)量；
[0025] 將所述第一數(shù)量和第二數(shù)量的比值作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè) 定的第一關(guān)鍵詞鏈中關(guān)鍵詞之間的相似性。
[0026] 確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性，包括：
[0027] 比較所述第二關(guān)鍵詞鏈和設(shè)定的第一關(guān)鍵詞鏈，確定所述第二關(guān)鍵詞鏈中最大的有序鏈的個(gè)數(shù)占比，其中所述最大的有序鏈?zhǔn)呛驮O(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞相同的數(shù)量最多的鏈；以及
[0028] 確定所述第二關(guān)鍵詞鏈的有差異的間隔距離，其中所述有差異的間隔距離是和設(shè) 定的第一關(guān)鍵詞鏈相比，相同關(guān)鍵詞之間存在的關(guān)鍵詞數(shù)量；
[0029] 將所述最大的有序鏈的個(gè)數(shù)占比和所述有差異的間隔距離，作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。
[0030] 獲取所述文本信息的分片信息向量，包括：
[0031] 將設(shè)定的第一關(guān)鍵詞鏈按照設(shè)定的關(guān)鍵詞劃分為第一前片和第一后片；其中，所述前片是設(shè)定的關(guān)鍵詞前面的信息，所述設(shè)定后片是設(shè)定的關(guān)鍵詞后面的信息；并
[0032] 將所述文本信息以設(shè)定的關(guān)鍵詞劃分為第二前片和第二后片；
[0033] 確定第一前片和第二前片，第一后片和第二后片之間的包含、被包含以及相似度；
[0034] 將所述包含、被包含以及相似度，作為所述文本信息的分片信息向量。
[0035] 獲取所述文本信息的獨(dú)立子句匹配向量，包括：
[0036] 確定所述文本信息中的獨(dú)立子句；
[0037] 將所述文本信息中的獨(dú)立子句和設(shè)定的獨(dú)立子句比較，確定所述文本信息的獨(dú)立子句匹配向量。
[0038] 按照下述公式，基于預(yù)先建立的垃圾短信識(shí)別模型，擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量，計(jì)算所述文本信息的近似度值：
[0039] MessageMatchDegree = F (VecKey, VecPhase, VecSub)
[0040] = FI (VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3，
[0041] 其中，MessageMatchDegree是近似度值，F(xiàn)I (VecKey)是關(guān)鍵詞鏈向量， F2 (VecPhase)是分片信息向量，F(xiàn)3 (VecSub)是獨(dú)立子句匹配向量，W1是關(guān)鍵詞鏈向量的權(quán) 重，W2是分片信息向量的權(quán)重，W3是獨(dú)立子句匹配向量的權(quán)重，W1+W2+W3 = 1。
[0042] 一種垃圾短信識(shí)別裝置，包括：
[0043] 獲取模塊，用于根據(jù)設(shè)定的關(guān)鍵詞，獲取接收到的文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量；
[0044] 計(jì)算模塊，用于基于預(yù)先建立的垃圾短信識(shí)別模型，擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量，計(jì)算所述文本信息的近似度值；
[0045] 確定模塊，用于若所述近似度值大于設(shè)定閾值時(shí)，確定所述文本信息為垃圾短信。
[0046] 所述獲取模塊，具體用于根據(jù)設(shè)定的第一關(guān)鍵詞鏈，確定文本信息中的第二關(guān)鍵詞鏈，其中，所述設(shè)定的第一關(guān)鍵詞鏈?zhǔn)窃O(shè)定的關(guān)鍵詞形成的詞鏈；針對(duì)任一第二關(guān)鍵詞鏈，確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的相似性；以及確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性；將所述相似性和順序性，作為所述文本信息的關(guān)鍵詞鏈向量。
[0047] 所述獲取模塊，具體用于確定所述第二關(guān)鍵詞鏈中和設(shè)定的第一關(guān)鍵詞鏈中相同的關(guān)鍵詞的第一數(shù)量；并
[0048] 確定設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞的第二數(shù)量；將所述第一數(shù)量和第二數(shù)量的比值作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞之間的相似性。
[0049] 所述獲取模塊，具體用于比較所述第二關(guān)鍵詞鏈和設(shè)定的第一關(guān)鍵詞鏈，確定所述第二關(guān)鍵詞鏈中最大的有序鏈的個(gè)數(shù)占比，其中所述最大的有序鏈?zhǔn)呛驮O(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞相同的數(shù)量最多的鏈；以及確定所述第二關(guān)鍵詞鏈的有差異的間隔距離，其中所述有差異的間隔距離是和設(shè)定的第一關(guān)鍵詞鏈相比，相同關(guān)鍵詞之間存在的關(guān)鍵詞數(shù) 量；將所述最大的有序鏈的個(gè)數(shù)占比和所述有差異的間隔距離，作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。
[0050] 所述獲取模塊，具體用于將設(shè)定的第一關(guān)鍵詞鏈按照設(shè)定的關(guān)鍵詞劃分為第一前片和第一后片；其中，所述前片是設(shè)定的關(guān)鍵詞前面的信息，所述設(shè)定后片是設(shè)定的關(guān)鍵詞后面的信息；并將所述文本信息以設(shè)定的關(guān)鍵詞劃分為第二前片和第二后片；確定第一前片和第二前片，第一后片和第二后片之間的包含、被包含以及相似度；將所述包含、被包含以及相似度，作為所述文本信息的分片信息向量。
[0051] 所述獲取模塊，具體用于確定所述文本信息中的獨(dú)立子句；將所述文本信息中的獨(dú)立子句和設(shè)定的獨(dú)立子句比較，確定所述文本信息的獨(dú)立子句匹配向量。
[0052] 所述計(jì)算模塊，具體用于按照下述公式，基于預(yù)先建立的垃圾短信識(shí)別模型，擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量，計(jì)算所述文本信息的近似度值：
[0053] MessageMatchDegree = F (VecKey, VecPhase, VecSub)
[0054] = FI (VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3，
[0055] 其中，MessageMatchDegree是近似度值，F(xiàn)I (VecKey)是關(guān)鍵詞鏈向量， F2 (VecPhase)是分片信息向量，F(xiàn)3 (VecSub)是獨(dú)立子句匹配向量，W1是關(guān)鍵詞鏈向量的權(quán) 重，W2是分片信息向量的權(quán)重，W3是獨(dú)立子句匹配向量的權(quán)重，W1+W2+W3 = 1。
[0056] 通過(guò)上述技術(shù)方案，本發(fā)明實(shí)施例上述提出的垃圾短信識(shí)別方法，針對(duì)任一文本信息，基于關(guān)鍵詞，獲取所述文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量。用以解決識(shí)別垃圾短信時(shí)，誤判率較高，或識(shí)別垃圾短信時(shí)覆蓋面較小，識(shí)別時(shí)容易丟失的問(wèn)題。
【附圖說(shuō)明】
[0057] 圖1為本發(fā)明實(shí)施例中，提出的垃圾短信識(shí)別方法流程圖；
[0058] 圖2為本發(fā)明實(shí)施例中，提出的垃圾短信識(shí)別裝置結(jié)構(gòu)組成示意圖。
【具體實(shí)施方式】
[0059] 針對(duì)解決識(shí)別垃圾短信時(shí)，誤判率較高，或識(shí)別垃圾短信時(shí)覆蓋面較小，識(shí)別時(shí)容易丟失的問(wèn)題，本發(fā)明實(shí)施例提出的技術(shù)方案中，針對(duì)任一文本信息，基于關(guān)鍵詞，獲取所述文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量。用以解決識(shí)別垃圾短信時(shí)，誤判率較高，或識(shí)別垃圾短信時(shí)覆蓋面較小，識(shí)別時(shí)容易丟失的問(wèn)題。
[0060] 下面將結(jié)合各個(gè)附圖對(duì)本發(fā)明實(shí)施例技術(shù)方案的主要實(shí)現(xiàn)原理、【具體實(shí)施方式】及其對(duì)應(yīng)能夠達(dá)到的有益效果進(jìn)行詳細(xì)地闡述。
[0061] 垃圾短信或其他類型的垃圾文本信息一般都采用多種變形的方式，主要包括下述三種類型：
[0062] 第一種類型：字符格式轉(zhuǎn)換。該種方式中，常見(jiàn)的轉(zhuǎn)換包括簡(jiǎn)、繁體、數(shù)字轉(zhuǎn)中文、全角半角轉(zhuǎn)換等。
[0063] 第二種類型：特殊字符添加。該種方式中，隨機(jī)添加一些特殊字符，如# Y%…… 0 等。
[0064] 第三種類型：句式轉(zhuǎn)換。該種方式中，通過(guò)文字前后順序調(diào)換，例如增加、改變一些字符，使得語(yǔ)義不變但和原有的文字信息有不同之處。
[0065] 對(duì)于上述各種類型的轉(zhuǎn)換來(lái)說(shuō)，字符格式轉(zhuǎn)換、特殊字符添加都易于被機(jī)器自動(dòng) 處理。但是對(duì)于句式轉(zhuǎn)換來(lái)說(shuō)，機(jī)器很難自動(dòng)化進(jìn)行處理，因此很多信息需要人工審核并確定一個(gè)文本信息是否是垃圾短信，人工審核的方式將會(huì)帶來(lái)較大的工作量。
[0066] 實(shí)施例一
[0067] 本發(fā)明實(shí)施例提出一種垃圾短信識(shí)別方法，如圖1所示，其具體處理流程如下述：
[0068] 步驟11，針對(duì)任一文本信息，根據(jù)設(shè)定的關(guān)鍵詞，獲取文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量。
[0069] 其中關(guān)鍵詞鏈向量是用于表征文本信息和設(shè)定的關(guān)鍵詞之間的相似性和順序性的特征向量。
[0070] 其中相似性是指文本信息中包含的關(guān)鍵詞，和設(shè)定的關(guān)鍵詞之間的相似性。例如，設(shè)定的關(guān)鍵詞為新盤(pán)，若文本信息中含有關(guān)鍵詞新樓、新房、新居，則可以定義該些關(guān)鍵詞新樓、新房、新居和設(shè)定的關(guān)鍵詞新盤(pán)之間的相似性。
[0071] 順序性是指文本信息中包含的關(guān)鍵詞形成的關(guān)鍵詞鏈，和設(shè)定的關(guān)鍵詞形成的關(guān) 鍵詞鏈之間的順序性。例如，設(shè)定的關(guān)鍵詞形成的關(guān)鍵詞鏈為新盤(pán)一開(kāi)售一電話，文本信息中包含的關(guān)鍵詞鏈為開(kāi)售一新盤(pán)一電話，二者相比，文本信息的關(guān)鍵詞鏈開(kāi)售一新盤(pán)一電話，開(kāi)售和電話之間間隔了一個(gè)關(guān)鍵詞新盤(pán)，則可以以關(guān)鍵詞數(shù)量來(lái)表示順序性。
[0072] 本發(fā)明實(shí)施例一提出的技術(shù)方案中，以VecKey來(lái)標(biāo)識(shí)關(guān)鍵詞鏈向量。其中，關(guān)鍵詞鏈向量是二維向量。
[0073] 為便于闡述，將設(shè)定關(guān)鍵詞形成的詞鏈稱之為第一關(guān)鍵詞鏈，將文本信息中的關(guān) 鍵詞鏈稱之為第二關(guān)鍵詞鏈，則獲取文本信息的關(guān)鍵詞向量的具體處理流程如下述：
[0074] 步驟一：根據(jù)設(shè)定的第一關(guān)鍵詞鏈，確定文本信息中的第二關(guān)鍵詞鏈。
[0075] 其中，設(shè)定的第一關(guān)鍵詞鏈?zhǔn)窃O(shè)定的關(guān)鍵詞形成的詞鏈。
[0076] 例如，設(shè)定的關(guān)鍵詞為新盤(pán)、開(kāi)售、電話，則第一關(guān)鍵詞鏈可以是新盤(pán)一開(kāi)售一電話。文本信息中若包含新盤(pán)、開(kāi)售、電話中的兩個(gè)關(guān)鍵詞，則形成第二關(guān)鍵詞鏈。例如，假設(shè) 文本信息中包含關(guān)鍵詞新盤(pán)、開(kāi)售，則第二關(guān)鍵詞鏈為新盤(pán)一開(kāi)售。
[0077] 步驟二：針對(duì)任一第二關(guān)鍵詞鏈，確定該第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的相似性；以及確定第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。
[0078] 其中，確定第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞之間的相似性，包括：
[0079] 首先，確定第二關(guān)鍵詞鏈中和設(shè)定的第一關(guān)鍵詞鏈中相同的關(guān)鍵詞的第一數(shù)量，以及確定設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞的第二數(shù)量。
[0080] 其次，將確定出的第一數(shù)量和第二數(shù)量的比值作為第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的關(guān)鍵詞鏈中關(guān)鍵詞之間的相似性。
[0081 ] 確定第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性，包括：
[0082] 首先，比較第二關(guān)鍵詞鏈和設(shè)定的第一關(guān)鍵詞鏈，確定第二關(guān)鍵詞鏈中最大的有序鏈的個(gè)數(shù)占比。
[0083] 其中最大的有序鏈?zhǔn)呛驮O(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞相同的數(shù)量最多的鏈。
[0084] 例如，設(shè)定的第一關(guān)鍵詞鏈為新盤(pán)一開(kāi)售一電話，文本信息中獲得的第二關(guān)鍵詞鏈為新盤(pán)一開(kāi)售。第二關(guān)鍵詞鏈中新盤(pán)、開(kāi)售完全和第一關(guān)鍵詞鏈中的新盤(pán)、開(kāi)售順序相一致。則最大有序鏈?zhǔn)侵感卤P(pán)一開(kāi)售。
[0085] 其次，確定第二關(guān)鍵詞鏈的有差異的間隔距離。
[0086] 其中有差異的間隔距離是和設(shè)定的第一關(guān)鍵詞鏈相比，相同關(guān)鍵詞之間存在的關(guān) 鍵詞數(shù)量。
[0087] 再次，將最大的有序鏈的個(gè)數(shù)占比和所述有差異的間隔距離，作為該第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。
[0088] 步驟三：將相似性和順序性，作為該文本信息的關(guān)鍵詞鏈向量。
[0089] 下面以一具體實(shí)例來(lái)詳細(xì)闡述本發(fā)明實(shí)施例提出的技術(shù)方案。
[0090] 為便于闡述，對(duì)下述示例文本信息進(jìn)行唯一標(biāo)識(shí)編號(hào)，具體如下述表1所示：
[0091] 表 1 :
[0092]
[0093] 以上述表1中的文本信息為例來(lái)進(jìn)行詳細(xì)闡述。首先設(shè)定文本信息1001為基準(zhǔn)文本信息。在垃圾短信中，如果有多個(gè)關(guān)鍵字完全相同，則有較大的可能性為同一條文本信息的不同排序，但也有可能為誤判的信息。基準(zhǔn)文本信息中設(shè)定的關(guān)鍵詞可以是新盤(pán)、開(kāi)售、電話。則由設(shè)定的關(guān)鍵詞形成的設(shè)定的第一關(guān)鍵詞鏈為新盤(pán)一開(kāi)售一電話。
[0094] 根據(jù)設(shè)定的關(guān)鍵詞鏈，確定文本信息中的關(guān)鍵詞鏈。
[0095] 對(duì)上述表1中的各文本信息進(jìn)行關(guān)鍵詞鏈提取。提取的關(guān)鍵詞鏈分別如下述表2 中所示：
[0096] 表 2
[0097]
[0098] 針對(duì)任一關(guān)鍵詞鏈，確定該關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的關(guān)鍵詞鏈中的關(guān)鍵詞之間的相似性。
[0099] 關(guān)鍵詞鏈提取完成后，對(duì)提取的關(guān)鍵詞鏈進(jìn)彳丁關(guān)鍵詞鏈分析。
[0100] 其中對(duì)提取的關(guān)鍵詞鏈進(jìn)行關(guān)鍵詞鏈分析，包括相似性和順序性。
[0101] 本發(fā)明實(shí)施例提出的技術(shù)方案中，首先，在進(jìn)行相似性的分析過(guò)程中，引入近義詞庫(kù)，每個(gè)詞的相近程度可以通過(guò)預(yù)先設(shè)定。例如可以以（關(guān)鍵詞，相似度）進(jìn)行表示，具體如下述表3所示：
[0102] 表 3
[0103]
[0104] 在上述表3中，首先給出基準(zhǔn)詞，然后設(shè)定近義詞和基準(zhǔn)詞之間的近似度值。將該些內(nèi)容存儲(chǔ)到字庫(kù)中。
[0105] 在確定了關(guān)鍵詞鏈的相似性之后，確定關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。
[0106] 其中相似性可以是兩個(gè)關(guān)鍵詞鏈中關(guān)鍵詞的相同個(gè)數(shù)和最大個(gè)數(shù)的比值。如果有近義詞，考慮近義詞和基準(zhǔn)詞之間的相似度值。順序性是一個(gè)二維向量，包含最大的有序鏈的個(gè)數(shù)占比、有差異的間隔距離。
[0107] 本發(fā)明實(shí)施例仍以上述表1中的各文本信息為例，關(guān)鍵詞鏈的相似性和順序性具體可以如下述表4所示。
[0108] 表 4
[0109]
[0110] 其中，對(duì)于近似信息，向量VeCKey=[有序鏈的個(gè)數(shù)占比，有差異的間隔距離]兩個(gè)參數(shù)，第一個(gè)參數(shù)值越大，表明近似度越高；第二個(gè)參數(shù)值越小，表明近似度越高。
[0111] 分片信息向量是用于表征文本信息和設(shè)定的關(guān)鍵詞分片之間的包含關(guān)系和相似度的三維特征向量，關(guān)鍵詞分片是設(shè)定的關(guān)鍵詞之前或關(guān)鍵詞之后的信息。
[0112] 獲取文本信息的分片信息向量，包括：
[0113] 首先，將設(shè)定的第一關(guān)鍵詞鏈按照設(shè)定的關(guān)鍵詞劃分為第一前片和第一后片。
[0114] 其中，前片是設(shè)定的關(guān)鍵詞前面的信息，后片是設(shè)定的關(guān)鍵詞后面的信息。
[0115] 例如，假設(shè)文本信息中包含湖濱、新盤(pán)、即將，設(shè)定的關(guān)鍵詞為新盤(pán)，則該文本信息華文的前片為湖濱，后片為即將。
[0116] 其次，將文本信息以設(shè)定的關(guān)鍵詞劃分為第二前片和第二后片。
[0117] 再次，確定第一前片和第二前片，第一后片和第二后片之間的包含、被包含以及相似度。
[0118] 最后，將包含、被包含以及相似度，作為該文本信息的分片信息向量。
[0119] 本發(fā)明實(shí)施例提出的技術(shù)方案中，以VecPhase表示分片信息向量，基于分片的前片（英文：Prefix)、后片（英文：Suffix)進(jìn)行的特征計(jì)算向量，向量的維數(shù)為關(guān)鍵詞個(gè)數(shù)： [Pkeyl, Pkey2, ···, Pkeyn]
[0120] 依據(jù)關(guān)鍵詞，可以對(duì)文本信息進(jìn)行有效分片，關(guān)鍵詞作為分片的第一特征。
[0121] 下面仍以上述表1中所示的文本信息為例來(lái)進(jìn)行詳細(xì)闡述。具體分片信息如下述表5所示：
[0122] 表 5
[0123]
[0125] 對(duì)于文本信息中的每個(gè)關(guān)鍵詞，都有依附的兩個(gè)文本分片信息：Prefix、Suffix。由于文本信息中語(yǔ)序的特征，圍繞一個(gè)關(guān)鍵詞的分片可能存在顛倒關(guān)系。設(shè)定分片之間的關(guān)系包括一個(gè)三維向量：（包含、被包含、相似度），前兩個(gè)向量值為Bool型（0或1)，第三個(gè)為0~1區(qū)間的值。
[0126] 分片信息具體如下述表6所示：
[0127] 表 6
[0128]
[0129] 獨(dú)立子句匹配向量是用于表征文本信息中的獨(dú)立子句的數(shù)量，獨(dú)立子句是用于表征文本信息被包含的分片內(nèi)容前或分片內(nèi)容后增加的信息。
[0130] 其中，獲取所述文本信息的獨(dú)立子句匹配向量，包括：
[0131] 首先，確定文本信息中的獨(dú)立子句。
[0132] 其次，將文本信息中的獨(dú)立子句和設(shè)定的獨(dú)立子句比較，確定文本信息的獨(dú)立子句匹配向量。
[0133] 當(dāng)出現(xiàn)（1，0，χ)或（0, l，y)時(shí)，表明一個(gè)分片中包含另一個(gè)分片；繼續(xù)進(jìn)行獨(dú)立子句分析。獨(dú)立子句是指在被包含的分片內(nèi)容前或后增加的內(nèi)容，稱為獨(dú)立子句。例如在上述1001和1002對(duì)比分析完畢后，在key2附著的信息中出現(xiàn)了包含關(guān)系，應(yīng)進(jìn)行獨(dú)立子句提??；容易得出獨(dú)立子句為"，上風(fēng)上水、獨(dú)特景觀"。
[0134] 獨(dú)立子句的提取更利于精確判定，排除干擾。獨(dú)立子句可循環(huán)提取，獲得最大值。
[0135] 在獨(dú)立子句提取后，應(yīng)再次進(jìn)行分片信息的信息更新；更新的內(nèi)容中包含對(duì)獨(dú)立子句的匹配度（0~1)。
[0136] 表 7
[0137]
[0138] 仍以上文中的表1為例來(lái)進(jìn)行詳細(xì)闡述。
[0139] 如上述表7所示，標(biāo)識(shí)編號(hào)為1001、1002兩條文本信息具有完全相同的實(shí)質(zhì)內(nèi)容；基于標(biāo)識(shí)編號(hào)1001和1002形成的聚類結(jié)果繼續(xù)進(jìn)行判定，對(duì)判定結(jié)果1004、1006示例如下述表8所示。
[0140] 表 8
[0141]
[0143] 在上述表8中，因?yàn)?即將"和標(biāo)識(shí)編號(hào)1004中的"在即"為相似詞，近似度為0. 8，去掉獨(dú)立子句后，內(nèi)容為"在即，熱線"，進(jìn)行同義詞替代后近似度為：（0. 8*2+lV(0. 8*2+3) =0. 56。
[0144] 對(duì)分片信息的近似度的結(jié)果的提取，對(duì)于每個(gè)關(guān)鍵詞，取其Prefix、Suffix向量中近似度的較大值，但相鄰的關(guān)鍵詞中，由于Prefix、Suffix，同一信息僅能使用1次。
[0145] 例如最終提取分片信息的分片近似度向量值VecPhase = [PKeyl，Pkey2, Pkey3]、獨(dú)立子句近似度向量值VecSub = [P_SubSentencel]〇
[0146] 1002 ：[1, 1, 1], [1]
[0147] 1004: [0, 0. 56, 1], [1]
[0148] 1006 ：[0. 4,0,0. 36], [0]
[0149] 步驟12,基于預(yù)先建立的垃圾短信識(shí)別模型，擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量，計(jì)算文本信息的近似度值。
[0150] 其中，擬合是指已知某函數(shù)的若干離散函數(shù)值，通過(guò)調(diào)整該函數(shù)中若干待定系數(shù)，使得該函數(shù)與已知點(diǎn)集的差別（最小二乘意義）最小。本發(fā)明實(shí)施例提出的技術(shù)方案中，通過(guò)擬合方法，來(lái)計(jì)算文本信息和已知垃圾短信樣本之間的近似度值。
[0151] 通過(guò)對(duì)已有樣本的學(xué)習(xí)和分析，建立全文近似判定的三維模型函數(shù)F。
[0152] MessageMatchDegree = F (VecKey, VecPhase, VecSub)
[0153] = FI(VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3，
[0154] 其中，MessageMatchDegree是近似度值，F(xiàn)I (VecKey)是關(guān)鍵詞鏈向量， F2(VecPhaSe)是分片信息向量，F(xiàn)3(VecSub)是獨(dú)立子句匹配向量，W1是關(guān)鍵詞鏈向量的權(quán) 重，W2是分片信息向量的權(quán)重，W3是獨(dú)立子句匹配向量的權(quán)重，W1+W2+W3 = 1。
[0155] 一種較佳地實(shí)現(xiàn)方式，例如W1 = 0. 3, W2 = 0. 4, W3 = 0. 3。
[0156] 其中F1的參數(shù)為1個(gè)，F(xiàn)2的參數(shù)為0個(gè)或多個(gè)（按關(guān)鍵詞數(shù)量確定）；F3的參數(shù) 為〇個(gè)或多個(gè)（按獨(dú)立子句數(shù)量確定）。
[0157] 步驟13,將確定出的近似度值和設(shè)定閾值比較，若近似度值大于設(shè)定閾值時(shí)，確定文本信息為垃圾短信。
[0158] -種較佳的實(shí)現(xiàn)方式，設(shè)定閾值LM為0. 7則判定為垃圾短信，否則判定不屬于垃圾短信。
[0159] 依據(jù)現(xiàn)有樣本的學(xué)習(xí)與分析，擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量三個(gè)函數(shù)如下：
[0162] 其中kl - kn為各關(guān)鍵詞的權(quán)重值。[0163] 一種較佳地實(shí)施方式，可以默認(rèn)為1。
[0160]
[0161]
[0164]
[0165] 其中，LI···Ln為各獨(dú)立子句的長(zhǎng)度。
[0166] 通過(guò)上述步驟，以標(biāo)識(shí)編號(hào)1001為原始基準(zhǔn)，對(duì)標(biāo)識(shí)編號(hào)1002、1004~1006判定示例如下述表9所示：
[0167] 表 9
[0168]
[0169] (1)標(biāo)識(shí)編號(hào)為1002的文本信息判定：
[0170] 1002 的三個(gè)向量值為：[1，0]，[1，1，1]，[1]。
[0171] F(VecKey, VecPhase, VecSub) = FI (1, 0) *0. 3+F2 (1, 1, 1) *0. 4+F3 (1) *0. 3 = 1*0. 3+1*0. 4+1*0. 3 = 1
[0172] MatchDegree = 1
[0173] 則標(biāo)識(shí)編號(hào)為1002與基準(zhǔn)的文本信息標(biāo)識(shí)編號(hào)1001實(shí)質(zhì)完全相同。（2)標(biāo)識(shí)編號(hào)為1004的文本信息判定：
[0174] 1004 的三個(gè)向量值為：[1,0]，[0,0· 56, 1], [1]。
[0175] F(VecKey, VecPhase, VecSub) = FI (1, 0) *0. 3+F2 (0, 0. 56, 1) *〇· 4+F3 (1) *0. 3 = 1*0. 3+0. 52*0. 4+1*0. 3 = 0. 808
[0176] MatchDegree = 0. 808>0. 7.
[0177] 判定1004雖然與1001不一樣，但是其實(shí)質(zhì)內(nèi)容較為接近。
[0178] (3)標(biāo)識(shí)編號(hào)為1006的文本信息判定
[0179] 1006 的三個(gè)向量值為：[0.667, 1]，[0.4, 0,0.36]，[0]。
[0180]
[0181]
[0182] MatchDegree = 0. 15K0. 7〇
[0183] 說(shuō)明標(biāo)識(shí)編號(hào)為1006的文本信息內(nèi)容與1001差別較大。
[0184] 相應(yīng)地，本發(fā)明實(shí)施例提出一種垃圾短信識(shí)別裝置，如圖2所示，包括：
[0185] 獲取模塊201，用于根據(jù)設(shè)定的關(guān)鍵詞，獲取接收到的文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量。
[0186] 具體地，上述獲取模塊201，具體用于根據(jù)設(shè)定的第一關(guān)鍵詞鏈，確定文本信息中的第二關(guān)鍵詞鏈，其中，所述設(shè)定的第一關(guān)鍵詞鏈?zhǔn)窃O(shè)定的關(guān)鍵詞形成的詞鏈；針對(duì)任一第二關(guān)鍵詞鏈，確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的相似性；以及確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性；將所述相似性和順序性，作為所述文本信息的關(guān)鍵詞鏈向量。
[0187] 具體地，上述獲取模塊201，具體用于確定所述第二關(guān)鍵詞鏈中和設(shè)定的第一關(guān)鍵詞鏈中相同的關(guān)鍵詞的第一數(shù)量；并確定設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞的第二數(shù)量；將所述第一數(shù)量和第二數(shù)量的比值作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān) 鍵詞鏈中關(guān)鍵詞之間的相似性。
[0188] 具體地，上述獲取模塊201，具體用于比較所述第二關(guān)鍵詞鏈和設(shè)定的第一關(guān)鍵詞鏈，確定所述第二關(guān)鍵詞鏈中最大的有序鏈的個(gè)數(shù)占比，其中所述最大的有序鏈?zhǔn)呛驮O(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞相同的數(shù)量最多的鏈；以及確定所述第二關(guān)鍵詞鏈的有差異的間隔距離，其中所述有差異的間隔距離是和設(shè)定的第一關(guān)鍵詞鏈相比，相同關(guān)鍵詞之間存在的關(guān)鍵詞數(shù)量；將所述最大的有序鏈的個(gè)數(shù)占比和所述有差異的間隔距離，作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。
[0189] 具體地，上述獲取模塊201，具體用于將設(shè)定的關(guān)鍵詞鏈按照設(shè)定的第一關(guān)鍵詞劃分為第一前片和第一后片；其中，所述前片是設(shè)定的關(guān)鍵詞前面的信息，所述設(shè)定后片是設(shè) 定的關(guān)鍵詞后面的信息；并將所述文本信息以設(shè)定的關(guān)鍵詞劃分為第二前片和第二后片；確定第一前片和第二前片，第一后片和第二后片之間的包含、被包含以及相似度；將所述包含、被包含以及相似度，作為所述文本信息的分片信息向量。
[0190] 具體地，上述獲取模塊201，具體用于確定所述文本信息中的獨(dú)立子句；將所述文本信息中的獨(dú)立子句和設(shè)定的獨(dú)立子句比較，確定所述文本信息的獨(dú)立子句匹配向量。
[0191] 計(jì)算模塊202,用于基于預(yù)先建立的垃圾短信識(shí)別模型，擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量，計(jì)算所述文本信息的近似度值。
[0192] 具體地，上述計(jì)算模塊202,具體用于按照下述公式，基于預(yù)先建立的垃圾短信識(shí) 別模型，擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量，計(jì)算所述文本信息的近似度值：
[0193] MessageMatchDegree = F (VecKey, VecPhase, VecSub)
[0194] = FI (VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3，
[0195] 其中，MessageMatchDegree是近似度值，F(xiàn)I (VecKey)是關(guān)鍵詞鏈向量， F2 (VecPhase)是分片信息向量，F(xiàn)3 (VecSub)是獨(dú)立子句匹配向量，W1是關(guān)鍵詞鏈向量的權(quán) 重，W2是分片信息向量的權(quán)重，W3是獨(dú)立子句匹配向量的權(quán)重，W1+W2+W3 = 1。
[0196] 確定模塊203,用于若所述近似度值大于設(shè)定閾值時(shí)，確定所述文本信息為垃圾短 {目。
[0197] 本發(fā)明實(shí)施例上述提出的垃圾短信識(shí)別方法，基于關(guān)鍵詞和文本片段迭代方式來(lái) 綜合進(jìn)行評(píng)定，對(duì)文本信息采用基于關(guān)鍵詞依附關(guān)系進(jìn)行分片，并定義了獨(dú)立子句的概念，實(shí)現(xiàn)了基于獨(dú)立子句的分片迭代提取與分析的三維向量判定方法。首先從系統(tǒng)命中的關(guān)鍵詞出發(fā)，進(jìn)行首次類型判定；然后從首次聚類的文本中，利用關(guān)鍵詞分割形成文本片段；進(jìn) 而對(duì)文本片段再次進(jìn)行迭代分析。最終使用三維向量模型進(jìn)行相似性判定，能有效解決句式變化等干擾，進(jìn)行精確判定。并且通過(guò)使用三維向量模型，能夠有效對(duì)相似的文本信息進(jìn) 行精準(zhǔn)判定，不僅判定準(zhǔn)確率極高，而且能有效抵抗內(nèi)容格式轉(zhuǎn)換、句式轉(zhuǎn)換、相似詞替代等多種問(wèn)題。在進(jìn)行垃圾短信判定、主題聚類方面有獨(dú)特的優(yōu)勢(shì)。
[0198] 本領(lǐng)域的技術(shù)人員應(yīng)明白，本發(fā)明的實(shí)施例可提供為方法、裝置（設(shè)備）、或計(jì)算機(jī)程序產(chǎn)品。因此，本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且，本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)（包括但不限于磁盤(pán)存儲(chǔ)器、只讀光盤(pán)、光學(xué)存儲(chǔ)器等）上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
[0199] 本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、裝置（設(shè)備）和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合?？商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器，使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
[0200] 這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中，使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品，該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
[0201] 這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上，使得在計(jì) 算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理，從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0202] 盡管已描述了本發(fā)明的優(yōu)選實(shí)施例，但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念，則可對(duì)這些實(shí)施例作出另外的變更和修改。所以，所附權(quán)利要求意欲解釋為包括優(yōu) 選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
[0203] 顯然，本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
【主權(quán)項(xiàng)】
1. 一種垃圾短信識(shí)別方法，其特征在于，包括：根據(jù)設(shè)定的關(guān)鍵詞，獲取接收到的文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量；基于預(yù)先建立的垃圾短信識(shí)別模型，擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量，計(jì)算所述文本信息的近似度值；若所述近似度值大于設(shè)定閾值時(shí)，確定所述文本信息為垃圾短信。2. 如權(quán)利要求1所述的方法，其特征在于，根據(jù)設(shè)定的關(guān)鍵詞，獲取所述文本信息的關(guān) 鍵詞鏈向量，包括：根據(jù)設(shè)定的第一關(guān)鍵詞鏈，確定文本信息中的第二關(guān)鍵詞鏈，其中，所述設(shè)定的第一關(guān) 鍵詞鏈?zhǔn)窃O(shè)定的關(guān)鍵詞形成的詞鏈；針對(duì)任一第二關(guān)鍵詞鏈，確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的相似性；以及確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān) 鍵詞鏈中的關(guān)鍵詞之間的順序性；將所述相似性和順序性，作為所述文本信息的關(guān)鍵詞鏈向量。3. 如權(quán)利要求2所述的方法，其特征在于，確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的相似性，包括：確定所述第二關(guān)鍵詞鏈中和設(shè)定的第一關(guān)鍵詞鏈中相同的關(guān)鍵詞的第一數(shù)量；并確定設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞的第二數(shù)量；將所述第一數(shù)量和第二數(shù)量的比值作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞之間的相似性。4. 如權(quán)利要求2所述的方法，其特征在于，確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性，包括：比較所述第二關(guān)鍵詞鏈和設(shè)定的第一關(guān)鍵詞鏈，確定所述第二關(guān)鍵詞鏈中最大的有序鏈的個(gè)數(shù)占比，其中所述最大的有序鏈?zhǔn)呛驮O(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞相同的數(shù)量最多的鏈；以及確定所述第二關(guān)鍵詞鏈的有差異的間隔距離，其中所述有差異的間隔距離是和設(shè)定的第一關(guān)鍵詞鏈相比，相同關(guān)鍵詞之間存在的關(guān)鍵詞數(shù)量；將所述最大的有序鏈的個(gè)數(shù)占比和所述有差異的間隔距離，作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。5. 如權(quán)利要求1所述的方法，其特征在于，獲取所述文本信息的分片信息向量，包括：將設(shè)定的第一關(guān)鍵詞鏈按照設(shè)定的關(guān)鍵詞劃分為第一前片和第一后片；其中，所述前片是設(shè)定的關(guān)鍵詞前面的信息，所述設(shè)定后片是設(shè)定的關(guān)鍵詞后面的信息；并將所述文本信息以設(shè)定的關(guān)鍵詞劃分為第二前片和第二后片；確定第一前片和第二前片，第一后片和第二后片之間的包含、被包含以及相似度；將所述包含、被包含以及相似度，作為所述文本信息的分片信息向量。6. 如權(quán)利要求1所述的方法，其特征在于，獲取所述文本信息的獨(dú)立子句匹配向量，包括：確定所述文本信息中的獨(dú)立子句；將所述文本信息中的獨(dú)立子句和設(shè)定的獨(dú)立子句比較，確定所述文本信息的獨(dú)立子句匹配向量。7. 如權(quán)利要求1所述的方法，其特征在于，按照下述公式，基于預(yù)先建立的垃圾短信識(shí) 別模型，擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量，計(jì)算所述文本信息的近似度值： MessageMatchDegree = F(VecKey, VecPhase, VecSub) =FI (VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3，其中，MessageMatchDegree 是近似度值，F(xiàn)I (VecKey)是關(guān)鍵詞鏈向量，F(xiàn)2 (VecPhase) 是分片信息向量，F(xiàn)3 (VecSub)是獨(dú)立子句匹配向量，W1是關(guān)鍵詞鏈向量的權(quán)重，W2是分片信息向量的權(quán)重，W3是獨(dú)立子句匹配向量的權(quán)重，W1+W2+W3 = 1。8. -種垃圾短信識(shí)別裝置，其特征在于，包括：獲取模塊，用于根據(jù)設(shè)定的關(guān)鍵詞，獲取接收到的文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量；計(jì)算模塊，用于基于預(yù)先建立的垃圾短信識(shí)別模型，擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量，計(jì)算所述文本信息的近似度值；確定模塊，用于若所述近似度值大于設(shè)定閾值時(shí)，確定所述文本信息為垃圾短信。9. 如權(quán)利要求8所述的裝置，其特征在于，所述獲取模塊，具體用于根據(jù)設(shè)定的第一關(guān) 鍵詞鏈，確定文本信息中的第二關(guān)鍵詞鏈，其中，所述設(shè)定的第一關(guān)鍵詞鏈?zhǔn)窃O(shè)定的關(guān)鍵詞形成的詞鏈；針對(duì)任一第二關(guān)鍵詞鏈，確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的相似性；以及確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性；將所述相似性和順序性，作為所述文本信息的關(guān)鍵詞鏈向量。10. 如權(quán)利要求9所述的裝置，其特征在于，所述獲取模塊，具體用于確定所述第二關(guān) 鍵詞鏈中和設(shè)定的第一關(guān)鍵詞鏈中相同的關(guān)鍵詞的第一數(shù)量；并確定設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞的第二數(shù)量；將所述第一數(shù)量和第二數(shù)量的比值作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞之間的相似性。11. 如權(quán)利要求9所述的裝置，其特征在于，所述獲取模塊，具體用于比較所述第二關(guān) 鍵詞鏈和設(shè)定的第一關(guān)鍵詞鏈，確定所述第二關(guān)鍵詞鏈中最大的有序鏈的個(gè)數(shù)占比，其中所述最大的有序鏈?zhǔn)呛驮O(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞相同的數(shù)量最多的鏈；以及確定所述第二關(guān)鍵詞鏈的有差異的間隔距離，其中所述有差異的間隔距離是和設(shè)定的第一關(guān)鍵詞鏈相比，相同關(guān)鍵詞之間存在的關(guān)鍵詞數(shù)量；將所述最大的有序鏈的個(gè)數(shù)占比和所述有差異的間隔距離，作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。12. 如權(quán)利要求8所述的裝置，其特征在于，所述獲取模塊，具體用于將設(shè)定的第一關(guān) 鍵詞鏈按照設(shè)定的關(guān)鍵詞劃分為第一前片和第一后片；其中，所述前片是設(shè)定的關(guān)鍵詞前面的信息，所述設(shè)定后片是設(shè)定的關(guān)鍵詞后面的信息；并將所述文本信息以設(shè)定的關(guān)鍵詞劃分為第二前片和第二后片；確定第一前片和第二前片，第一后片和第二后片之間的包含、被包含以及相似度；將所述包含、被包含以及相似度，作為所述文本信息的分片信息向量。13. 如權(quán)利要求8所述的裝置，其特征在于，所述獲取模塊，具體用于確定所述文本信息中的獨(dú)立子句；將所述文本信息中的獨(dú)立子句和設(shè)定的獨(dú)立子句比較，確定所述文本信息的獨(dú)立子句匹配向量。14.如權(quán)利要求8所述的裝置，其特征在于，所述計(jì)算模塊，具體用于按照下述公式，基于預(yù)先建立的垃圾短信識(shí)別模型，擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量，計(jì)算所述文本信息的近似度值： MessageMatchDegree = F(VecKey, VecPhase, VecSub) =FI (VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3，其中，MessageMatchDegree 是近似度值，F(xiàn)I (VecKey)是關(guān)鍵詞鏈向量，F(xiàn)2 (VecPhase) 是分片信息向量，F(xiàn)3 (VecSub)是獨(dú)立子句匹配向量，W1是關(guān)鍵詞鏈向量的權(quán)重，W2是分片信息向量的權(quán)重，W3是獨(dú)立子句匹配向量的權(quán)重，W1+W2+W3 = 1。
【文檔編號(hào)】H04W4/14GK105992178SQ201510065075
【公開(kāi)日】2016年10月5日
【申請(qǐng)日】2015年2月6日
【發(fā)明人】粟栗, 張峰, 冉鵬, 李元鋒, 周晶
【申請(qǐng)人】中國(guó)移動(dòng)通信集團(tuán)公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：粟栗;張峰;冉鵬;李元鋒;周晶;
技術(shù)所有人：中國(guó)移動(dòng)通信集團(tuán)公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

垃圾短信識(shí)別算法相關(guān)技術(shù)

垃圾短信識(shí)別相關(guān)技術(shù)

發(fā)垃圾短信軟件相關(guān)技術(shù)

垃圾短信舉報(bào)平臺(tái)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種垃圾短信識(shí)別方法及裝置的制造方法