亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種垃圾短信識(shí)別方法及裝置的制造方法

文檔序號(hào):10627359閱讀:279來(lái)源:國(guó)知局
一種垃圾短信識(shí)別方法及裝置的制造方法
【專利摘要】本發(fā)明公開(kāi)了一種垃圾短信識(shí)別方法及裝置,該方法包括:根據(jù)設(shè)定的關(guān)鍵詞,獲取接收到的文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量;基于預(yù)先建立的垃圾短信識(shí)別模型,擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量,計(jì)算所述文本信息的近似度值;若所述近似度值大于設(shè)定閾值時(shí),確定所述文本信息為垃圾短信,用以解決識(shí)別垃圾短信時(shí),誤判率較高,或識(shí)別垃圾短信時(shí)覆蓋面較小,識(shí)別時(shí)容易丟失的問(wèn)題。
【專利說(shuō)明】
一種垃圾短信識(shí)別方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其是涉及一種垃圾短信識(shí)別方法及裝置。
【背景技術(shù)】
[0002] 在對(duì)現(xiàn)有的垃圾短信等短文本(垃圾短信、垃圾彩信、微博、0ΤΤ等)進(jìn)行信息分 析與處置的一般是通過(guò)關(guān)鍵詞進(jìn)行發(fā)現(xiàn),如下述表a所示,房產(chǎn)信息&銷售信息&電話作為 一條已經(jīng)設(shè)置的關(guān)鍵詞名字策略,根據(jù)關(guān)鍵詞名字策略,抓取符合條件的信息并判定該短 信可能為地產(chǎn)廣告短信。
[0003] 表 a [00041
[0005] ~基于對(duì)現(xiàn)有數(shù)據(jù)的分析發(fā)現(xiàn),詐騙或垃圾短信往往是大面積發(fā)送,在對(duì)該原始信 息進(jìn)行實(shí)際檢索的過(guò)程中,發(fā)現(xiàn)精確匹配的信息很少,但近似信息非常多。發(fā)送者有意采用 不同的號(hào)碼并變更信息的部分內(nèi)容,使得信息更難以被追蹤與發(fā)現(xiàn)。因此,廣告、垃圾信息 的發(fā)送者采用該類型方法進(jìn)行了有效逃避。如下述表b所示,同樣是一條關(guān)于地產(chǎn)銷售的 垃圾短信,可以通過(guò)不同的變型方式發(fā)送給用戶。
[0006] 表 b
[0007]
[0008]
[0009] 針對(duì)該種情況,目前的相同/近似的短信的主要識(shí)別方式包括:
[0010] 第一種方式:基于關(guān)鍵字進(jìn)行發(fā)現(xiàn)。該方法能通過(guò)關(guān)鍵字對(duì)信息進(jìn)行發(fā)現(xiàn),但在大 量短信中單純采用關(guān)鍵字進(jìn)行識(shí)別極易形成誤判。
[0011] 第二種方式:信息哈希(英文:Hash)比對(duì)。將文本信息進(jìn)行摘要,通過(guò)比對(duì)摘要 發(fā)現(xiàn)完全相同的信息;或通過(guò)近似Hash算法(如Simhash),對(duì)內(nèi)容中較少的差異進(jìn)行兼容 后形成摘要信息,并進(jìn)而進(jìn)行比對(duì)。但該種方式識(shí)別垃圾短信時(shí),一方面由于短信息、微博 文本等信息較短,如果出現(xiàn)一個(gè)字符的移位則很難識(shí)別。例如"購(gòu)買發(fā)票請(qǐng)聯(lián)系王經(jīng)理"和 "如購(gòu)買發(fā)票請(qǐng)聯(lián)系王經(jīng)理"。另一方面,嚴(yán)格針對(duì)內(nèi)容的比對(duì)覆蓋面較小,容易形成丟失。
[0012] 上述方式識(shí)別垃圾短信時(shí),誤判率較高,或識(shí)別垃圾短信時(shí)覆蓋面較小,識(shí)別時(shí)容 易丟失。

【發(fā)明內(nèi)容】

[0013] 本發(fā)明提供了一種垃圾短信識(shí)別方法及裝置,用以解決識(shí)別垃圾短信時(shí),誤判率 較高,或識(shí)別垃圾短信時(shí)覆蓋面較小,識(shí)別時(shí)容易丟失的問(wèn)題。
[0014] -種垃圾短信識(shí)別方法,包括:
[0015] 根據(jù)設(shè)定的關(guān)鍵詞,獲取接收到的文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú) 立子句匹配向量;
[0016] 基于預(yù)先建立的垃圾短信識(shí)別模型,擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子 句匹配向量,計(jì)算所述文本信息的近似度值;
[0017] 若所述近似度值大于設(shè)定閾值時(shí),確定所述文本信息為垃圾短信。
[0018] 根據(jù)設(shè)定的關(guān)鍵詞,獲取所述文本信息的關(guān)鍵詞鏈向量,包括:
[0019] 根據(jù)設(shè)定的第一關(guān)鍵詞鏈,確定文本信息中的第二關(guān)鍵詞鏈,其中,所述設(shè)定的第 一關(guān)鍵詞鏈?zhǔn)窃O(shè)定的關(guān)鍵詞形成的詞鏈;
[0020] 針對(duì)任一第二關(guān)鍵詞鏈,確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān) 鍵詞鏈中的關(guān)鍵詞之間的相似性;以及確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第 一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性;
[0021] 將所述相似性和順序性,作為所述文本信息的關(guān)鍵詞鏈向量。
[0022] 確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間 的相似性,包括:
[0023] 確定所述第二關(guān)鍵詞鏈中和設(shè)定的第一關(guān)鍵詞鏈中相同的關(guān)鍵詞的第一數(shù)量;并
[0024] 確定設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞的第二數(shù)量;
[0025] 將所述第一數(shù)量和第二數(shù)量的比值作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè) 定的第一關(guān)鍵詞鏈中關(guān)鍵詞之間的相似性。
[0026] 確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間 的順序性,包括:
[0027] 比較所述第二關(guān)鍵詞鏈和設(shè)定的第一關(guān)鍵詞鏈,確定所述第二關(guān)鍵詞鏈中最大的 有序鏈的個(gè)數(shù)占比,其中所述最大的有序鏈?zhǔn)呛驮O(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞相同的數(shù)量 最多的鏈;以及
[0028] 確定所述第二關(guān)鍵詞鏈的有差異的間隔距離,其中所述有差異的間隔距離是和設(shè) 定的第一關(guān)鍵詞鏈相比,相同關(guān)鍵詞之間存在的關(guān)鍵詞數(shù)量;
[0029] 將所述最大的有序鏈的個(gè)數(shù)占比和所述有差異的間隔距離,作為所述第二關(guān)鍵詞 鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。
[0030] 獲取所述文本信息的分片信息向量,包括:
[0031] 將設(shè)定的第一關(guān)鍵詞鏈按照設(shè)定的關(guān)鍵詞劃分為第一前片和第一后片;其中,所 述前片是設(shè)定的關(guān)鍵詞前面的信息,所述設(shè)定后片是設(shè)定的關(guān)鍵詞后面的信息;并
[0032] 將所述文本信息以設(shè)定的關(guān)鍵詞劃分為第二前片和第二后片;
[0033] 確定第一前片和第二前片,第一后片和第二后片之間的包含、被包含以及相似 度;
[0034] 將所述包含、被包含以及相似度,作為所述文本信息的分片信息向量。
[0035] 獲取所述文本信息的獨(dú)立子句匹配向量,包括:
[0036] 確定所述文本信息中的獨(dú)立子句;
[0037] 將所述文本信息中的獨(dú)立子句和設(shè)定的獨(dú)立子句比較,確定所述文本信息的獨(dú)立 子句匹配向量。
[0038] 按照下述公式,基于預(yù)先建立的垃圾短信識(shí)別模型,擬合關(guān)鍵詞鏈向量、分片信息 向量和獨(dú)立子句匹配向量,計(jì)算所述文本信息的近似度值:
[0039] MessageMatchDegree = F (VecKey, VecPhase, VecSub)
[0040] = FI (VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3,
[0041] 其中,MessageMatchDegree是近似度值,F(xiàn)I (VecKey)是關(guān)鍵詞鏈向量, F2 (VecPhase)是分片信息向量,F(xiàn)3 (VecSub)是獨(dú)立子句匹配向量,W1是關(guān)鍵詞鏈向量的權(quán) 重,W2是分片信息向量的權(quán)重,W3是獨(dú)立子句匹配向量的權(quán)重,W1+W2+W3 = 1。
[0042] 一種垃圾短信識(shí)別裝置,包括:
[0043] 獲取模塊,用于根據(jù)設(shè)定的關(guān)鍵詞,獲取接收到的文本信息的關(guān)鍵詞鏈向量、分片 信息向量和獨(dú)立子句匹配向量;
[0044] 計(jì)算模塊,用于基于預(yù)先建立的垃圾短信識(shí)別模型,擬合關(guān)鍵詞鏈向量、分片信息 向量和獨(dú)立子句匹配向量,計(jì)算所述文本信息的近似度值;
[0045] 確定模塊,用于若所述近似度值大于設(shè)定閾值時(shí),確定所述文本信息為垃圾短信。
[0046] 所述獲取模塊,具體用于根據(jù)設(shè)定的第一關(guān)鍵詞鏈,確定文本信息中的第二關(guān)鍵 詞鏈,其中,所述設(shè)定的第一關(guān)鍵詞鏈?zhǔn)窃O(shè)定的關(guān)鍵詞形成的詞鏈;針對(duì)任一第二關(guān)鍵詞 鏈,確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的相似 性;以及確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的 順序性;將所述相似性和順序性,作為所述文本信息的關(guān)鍵詞鏈向量。
[0047] 所述獲取模塊,具體用于確定所述第二關(guān)鍵詞鏈中和設(shè)定的第一關(guān)鍵詞鏈中相同 的關(guān)鍵詞的第一數(shù)量;并
[0048] 確定設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞的第二數(shù)量;將所述第一數(shù)量和第二數(shù)量的 比值作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞之間的相似 性。
[0049] 所述獲取模塊,具體用于比較所述第二關(guān)鍵詞鏈和設(shè)定的第一關(guān)鍵詞鏈,確定所 述第二關(guān)鍵詞鏈中最大的有序鏈的個(gè)數(shù)占比,其中所述最大的有序鏈?zhǔn)呛驮O(shè)定的第一關(guān)鍵 詞鏈中關(guān)鍵詞相同的數(shù)量最多的鏈;以及確定所述第二關(guān)鍵詞鏈的有差異的間隔距離,其 中所述有差異的間隔距離是和設(shè)定的第一關(guān)鍵詞鏈相比,相同關(guān)鍵詞之間存在的關(guān)鍵詞數(shù) 量;將所述最大的有序鏈的個(gè)數(shù)占比和所述有差異的間隔距離,作為所述第二關(guān)鍵詞鏈中 的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。
[0050] 所述獲取模塊,具體用于將設(shè)定的第一關(guān)鍵詞鏈按照設(shè)定的關(guān)鍵詞劃分為第一前 片和第一后片;其中,所述前片是設(shè)定的關(guān)鍵詞前面的信息,所述設(shè)定后片是設(shè)定的關(guān)鍵詞 后面的信息;并將所述文本信息以設(shè)定的關(guān)鍵詞劃分為第二前片和第二后片;確定第一前 片和第二前片,第一后片和第二后片之間的包含、被包含以及相似度;將所述包含、被包含 以及相似度,作為所述文本信息的分片信息向量。
[0051] 所述獲取模塊,具體用于確定所述文本信息中的獨(dú)立子句;將所述文本信息中的 獨(dú)立子句和設(shè)定的獨(dú)立子句比較,確定所述文本信息的獨(dú)立子句匹配向量。
[0052] 所述計(jì)算模塊,具體用于按照下述公式,基于預(yù)先建立的垃圾短信識(shí)別模型,擬合 關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量,計(jì)算所述文本信息的近似度值:
[0053] MessageMatchDegree = F (VecKey, VecPhase, VecSub)
[0054] = FI (VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3,
[0055] 其中,MessageMatchDegree是近似度值,F(xiàn)I (VecKey)是關(guān)鍵詞鏈向量, F2 (VecPhase)是分片信息向量,F(xiàn)3 (VecSub)是獨(dú)立子句匹配向量,W1是關(guān)鍵詞鏈向量的權(quán) 重,W2是分片信息向量的權(quán)重,W3是獨(dú)立子句匹配向量的權(quán)重,W1+W2+W3 = 1。
[0056] 通過(guò)上述技術(shù)方案,本發(fā)明實(shí)施例上述提出的垃圾短信識(shí)別方法,針對(duì)任一文本 信息,基于關(guān)鍵詞,獲取所述文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向 量。用以解決識(shí)別垃圾短信時(shí),誤判率較高,或識(shí)別垃圾短信時(shí)覆蓋面較小,識(shí)別時(shí)容易丟 失的問(wèn)題。
【附圖說(shuō)明】
[0057] 圖1為本發(fā)明實(shí)施例中,提出的垃圾短信識(shí)別方法流程圖;
[0058] 圖2為本發(fā)明實(shí)施例中,提出的垃圾短信識(shí)別裝置結(jié)構(gòu)組成示意圖。
【具體實(shí)施方式】
[0059] 針對(duì)解決識(shí)別垃圾短信時(shí),誤判率較高,或識(shí)別垃圾短信時(shí)覆蓋面較小,識(shí)別時(shí)容 易丟失的問(wèn)題,本發(fā)明實(shí)施例提出的技術(shù)方案中,針對(duì)任一文本信息,基于關(guān)鍵詞,獲取所 述文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量。用以解決識(shí)別垃圾短信 時(shí),誤判率較高,或識(shí)別垃圾短信時(shí)覆蓋面較小,識(shí)別時(shí)容易丟失的問(wèn)題。
[0060] 下面將結(jié)合各個(gè)附圖對(duì)本發(fā)明實(shí)施例技術(shù)方案的主要實(shí)現(xiàn)原理、【具體實(shí)施方式】及 其對(duì)應(yīng)能夠達(dá)到的有益效果進(jìn)行詳細(xì)地闡述。
[0061] 垃圾短信或其他類型的垃圾文本信息一般都采用多種變形的方式,主要包括下述 三種類型:
[0062] 第一種類型:字符格式轉(zhuǎn)換。該種方式中,常見(jiàn)的轉(zhuǎn)換包括簡(jiǎn)、繁體、數(shù)字轉(zhuǎn)中文、 全角半角轉(zhuǎn)換等。
[0063] 第二種類型:特殊字符添加。該種方式中,隨機(jī)添加一些特殊字符,如# Y%…… 0 等。
[0064] 第三種類型:句式轉(zhuǎn)換。該種方式中,通過(guò)文字前后順序調(diào)換,例如增加、改變一些 字符,使得語(yǔ)義不變但和原有的文字信息有不同之處。
[0065] 對(duì)于上述各種類型的轉(zhuǎn)換來(lái)說(shuō),字符格式轉(zhuǎn)換、特殊字符添加都易于被機(jī)器自動(dòng) 處理。但是對(duì)于句式轉(zhuǎn)換來(lái)說(shuō),機(jī)器很難自動(dòng)化進(jìn)行處理,因此很多信息需要人工審核并確 定一個(gè)文本信息是否是垃圾短信,人工審核的方式將會(huì)帶來(lái)較大的工作量。
[0066] 實(shí)施例一
[0067] 本發(fā)明實(shí)施例提出一種垃圾短信識(shí)別方法,如圖1所示,其具體處理流程如下述:
[0068] 步驟11,針對(duì)任一文本信息,根據(jù)設(shè)定的關(guān)鍵詞,獲取文本信息的關(guān)鍵詞鏈向量、 分片信息向量和獨(dú)立子句匹配向量。
[0069] 其中關(guān)鍵詞鏈向量是用于表征文本信息和設(shè)定的關(guān)鍵詞之間的相似性和順序性 的特征向量。
[0070] 其中相似性是指文本信息中包含的關(guān)鍵詞,和設(shè)定的關(guān)鍵詞之間的相似性。例如, 設(shè)定的關(guān)鍵詞為新盤(pán),若文本信息中含有關(guān)鍵詞新樓、新房、新居,則可以定義該些關(guān)鍵詞 新樓、新房、新居和設(shè)定的關(guān)鍵詞新盤(pán)之間的相似性。
[0071] 順序性是指文本信息中包含的關(guān)鍵詞形成的關(guān)鍵詞鏈,和設(shè)定的關(guān)鍵詞形成的關(guān) 鍵詞鏈之間的順序性。例如,設(shè)定的關(guān)鍵詞形成的關(guān)鍵詞鏈為新盤(pán)一開(kāi)售一電話,文本信息 中包含的關(guān)鍵詞鏈為開(kāi)售一新盤(pán)一電話,二者相比,文本信息的關(guān)鍵詞鏈開(kāi)售一新盤(pán)一電 話,開(kāi)售和電話之間間隔了一個(gè)關(guān)鍵詞新盤(pán),則可以以關(guān)鍵詞數(shù)量來(lái)表示順序性。
[0072] 本發(fā)明實(shí)施例一提出的技術(shù)方案中,以VecKey來(lái)標(biāo)識(shí)關(guān)鍵詞鏈向量。其中,關(guān)鍵 詞鏈向量是二維向量。
[0073] 為便于闡述,將設(shè)定關(guān)鍵詞形成的詞鏈稱之為第一關(guān)鍵詞鏈,將文本信息中的關(guān) 鍵詞鏈稱之為第二關(guān)鍵詞鏈,則獲取文本信息的關(guān)鍵詞向量的具體處理流程如下述:
[0074] 步驟一:根據(jù)設(shè)定的第一關(guān)鍵詞鏈,確定文本信息中的第二關(guān)鍵詞鏈。
[0075] 其中,設(shè)定的第一關(guān)鍵詞鏈?zhǔn)窃O(shè)定的關(guān)鍵詞形成的詞鏈。
[0076] 例如,設(shè)定的關(guān)鍵詞為新盤(pán)、開(kāi)售、電話,則第一關(guān)鍵詞鏈可以是新盤(pán)一開(kāi)售一電 話。文本信息中若包含新盤(pán)、開(kāi)售、電話中的兩個(gè)關(guān)鍵詞,則形成第二關(guān)鍵詞鏈。例如,假設(shè) 文本信息中包含關(guān)鍵詞新盤(pán)、開(kāi)售,則第二關(guān)鍵詞鏈為新盤(pán)一開(kāi)售。
[0077] 步驟二:針對(duì)任一第二關(guān)鍵詞鏈,確定該第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的 第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的相似性;以及確定第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的 第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。
[0078] 其中,確定第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞之間的 相似性,包括:
[0079] 首先,確定第二關(guān)鍵詞鏈中和設(shè)定的第一關(guān)鍵詞鏈中相同的關(guān)鍵詞的第一數(shù)量, 以及確定設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞的第二數(shù)量。
[0080] 其次,將確定出的第一數(shù)量和第二數(shù)量的比值作為第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞 和設(shè)定的關(guān)鍵詞鏈中關(guān)鍵詞之間的相似性。
[0081 ] 確定第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順 序性,包括:
[0082] 首先,比較第二關(guān)鍵詞鏈和設(shè)定的第一關(guān)鍵詞鏈,確定第二關(guān)鍵詞鏈中最大的有 序鏈的個(gè)數(shù)占比。
[0083] 其中最大的有序鏈?zhǔn)呛驮O(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞相同的數(shù)量最多的鏈。
[0084] 例如,設(shè)定的第一關(guān)鍵詞鏈為新盤(pán)一開(kāi)售一電話,文本信息中獲得的第二關(guān)鍵詞 鏈為新盤(pán)一開(kāi)售。第二關(guān)鍵詞鏈中新盤(pán)、開(kāi)售完全和第一關(guān)鍵詞鏈中的新盤(pán)、開(kāi)售順序相一 致。則最大有序鏈?zhǔn)侵感卤P(pán)一開(kāi)售。
[0085] 其次,確定第二關(guān)鍵詞鏈的有差異的間隔距離。
[0086] 其中有差異的間隔距離是和設(shè)定的第一關(guān)鍵詞鏈相比,相同關(guān)鍵詞之間存在的關(guān) 鍵詞數(shù)量。
[0087] 再次,將最大的有序鏈的個(gè)數(shù)占比和所述有差異的間隔距離,作為該第二關(guān)鍵詞 鏈中的每個(gè)關(guān)鍵詞和設(shè)定的關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。
[0088] 步驟三:將相似性和順序性,作為該文本信息的關(guān)鍵詞鏈向量。
[0089] 下面以一具體實(shí)例來(lái)詳細(xì)闡述本發(fā)明實(shí)施例提出的技術(shù)方案。
[0090] 為便于闡述,對(duì)下述示例文本信息進(jìn)行唯一標(biāo)識(shí)編號(hào),具體如下述表1所示:
[0091] 表 1 :
[0092]
[0093] 以上述表1中的文本信息為例來(lái)進(jìn)行詳細(xì)闡述。首先設(shè)定文本信息1001為基準(zhǔn)文 本信息。在垃圾短信中,如果有多個(gè)關(guān)鍵字完全相同,則有較大的可能性為同一條文本信息 的不同排序,但也有可能為誤判的信息。基準(zhǔn)文本信息中設(shè)定的關(guān)鍵詞可以是新盤(pán)、開(kāi)售、 電話。則由設(shè)定的關(guān)鍵詞形成的設(shè)定的第一關(guān)鍵詞鏈為新盤(pán)一開(kāi)售一電話。
[0094] 根據(jù)設(shè)定的關(guān)鍵詞鏈,確定文本信息中的關(guān)鍵詞鏈。
[0095] 對(duì)上述表1中的各文本信息進(jìn)行關(guān)鍵詞鏈提取。提取的關(guān)鍵詞鏈分別如下述表2 中所示:
[0096] 表 2
[0097]
[0098] 針對(duì)任一關(guān)鍵詞鏈,確定該關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的關(guān)鍵詞鏈中的關(guān)鍵 詞之間的相似性。
[0099] 關(guān)鍵詞鏈提取完成后,對(duì)提取的關(guān)鍵詞鏈進(jìn)彳丁關(guān)鍵詞鏈分析。
[0100] 其中對(duì)提取的關(guān)鍵詞鏈進(jìn)行關(guān)鍵詞鏈分析,包括相似性和順序性。
[0101] 本發(fā)明實(shí)施例提出的技術(shù)方案中,首先,在進(jìn)行相似性的分析過(guò)程中,引入近義詞 庫(kù),每個(gè)詞的相近程度可以通過(guò)預(yù)先設(shè)定。例如可以以(關(guān)鍵詞,相似度)進(jìn)行表示,具體 如下述表3所示:
[0102] 表 3
[0103]
[0104] 在上述表3中,首先給出基準(zhǔn)詞,然后設(shè)定近義詞和基準(zhǔn)詞之間的近似度值。將該 些內(nèi)容存儲(chǔ)到字庫(kù)中。
[0105] 在確定了關(guān)鍵詞鏈的相似性之后,確定關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的關(guān)鍵詞 鏈中的關(guān)鍵詞之間的順序性。
[0106] 其中相似性可以是兩個(gè)關(guān)鍵詞鏈中關(guān)鍵詞的相同個(gè)數(shù)和最大個(gè)數(shù)的比值。如果有 近義詞,考慮近義詞和基準(zhǔn)詞之間的相似度值。順序性是一個(gè)二維向量,包含最大的有序鏈 的個(gè)數(shù)占比、有差異的間隔距離。
[0107] 本發(fā)明實(shí)施例仍以上述表1中的各文本信息為例,關(guān)鍵詞鏈的相似性和順序性具 體可以如下述表4所示。
[0108] 表 4
[0109]
[0110] 其中,對(duì)于近似信息,向量VeCKey=[有序鏈的個(gè)數(shù)占比,有差異的間隔距離]兩 個(gè)參數(shù),第一個(gè)參數(shù)值越大,表明近似度越高;第二個(gè)參數(shù)值越小,表明近似度越高。
[0111] 分片信息向量是用于表征文本信息和設(shè)定的關(guān)鍵詞分片之間的包含關(guān)系和相似 度的三維特征向量,關(guān)鍵詞分片是設(shè)定的關(guān)鍵詞之前或關(guān)鍵詞之后的信息。
[0112] 獲取文本信息的分片信息向量,包括:
[0113] 首先,將設(shè)定的第一關(guān)鍵詞鏈按照設(shè)定的關(guān)鍵詞劃分為第一前片和第一后片。
[0114] 其中,前片是設(shè)定的關(guān)鍵詞前面的信息,后片是設(shè)定的關(guān)鍵詞后面的信息。
[0115] 例如,假設(shè)文本信息中包含湖濱、新盤(pán)、即將,設(shè)定的關(guān)鍵詞為新盤(pán),則該文本信息 華文的前片為湖濱,后片為即將。
[0116] 其次,將文本信息以設(shè)定的關(guān)鍵詞劃分為第二前片和第二后片。
[0117] 再次,確定第一前片和第二前片,第一后片和第二后片之間的包含、被包含以及相 似度。
[0118] 最后,將包含、被包含以及相似度,作為該文本信息的分片信息向量。
[0119] 本發(fā)明實(shí)施例提出的技術(shù)方案中,以VecPhase表示分片信息向量,基于分片的前 片(英文:Prefix)、后片(英文:Suffix)進(jìn)行的特征計(jì)算向量,向量的維數(shù)為關(guān)鍵詞個(gè)數(shù): [Pkeyl, Pkey2, ···, Pkeyn]
[0120] 依據(jù)關(guān)鍵詞,可以對(duì)文本信息進(jìn)行有效分片,關(guān)鍵詞作為分片的第一特征。
[0121] 下面仍以上述表1中所示的文本信息為例來(lái)進(jìn)行詳細(xì)闡述。具體分片信息如下述 表5所示:
[0122] 表 5
[0123]
[0125] 對(duì)于文本信息中的每個(gè)關(guān)鍵詞,都有依附的兩個(gè)文本分片信息:Prefix、Suffix。 由于文本信息中語(yǔ)序的特征,圍繞一個(gè)關(guān)鍵詞的分片可能存在顛倒關(guān)系。設(shè)定分片之間的 關(guān)系包括一個(gè)三維向量:(包含、被包含、相似度),前兩個(gè)向量值為Bool型(0或1),第三 個(gè)為0~1區(qū)間的值。
[0126] 分片信息具體如下述表6所示:
[0127] 表 6
[0128]
[0129] 獨(dú)立子句匹配向量是用于表征文本信息中的獨(dú)立子句的數(shù)量,獨(dú)立子句是用于表 征文本信息被包含的分片內(nèi)容前或分片內(nèi)容后增加的信息。
[0130] 其中,獲取所述文本信息的獨(dú)立子句匹配向量,包括:
[0131] 首先,確定文本信息中的獨(dú)立子句。
[0132] 其次,將文本信息中的獨(dú)立子句和設(shè)定的獨(dú)立子句比較,確定文本信息的獨(dú)立子 句匹配向量。
[0133] 當(dāng)出現(xiàn)(1,0,χ)或(0, l,y)時(shí),表明一個(gè)分片中包含另一個(gè)分片;繼續(xù)進(jìn)行獨(dú)立子 句分析。獨(dú)立子句是指在被包含的分片內(nèi)容前或后增加的內(nèi)容,稱為獨(dú)立子句。例如在上 述1001和1002對(duì)比分析完畢后,在key2附著的信息中出現(xiàn)了包含關(guān)系,應(yīng)進(jìn)行獨(dú)立子句 提??;容易得出獨(dú)立子句為",上風(fēng)上水、獨(dú)特景觀"。
[0134] 獨(dú)立子句的提取更利于精確判定,排除干擾。獨(dú)立子句可循環(huán)提取,獲得最大值。
[0135] 在獨(dú)立子句提取后,應(yīng)再次進(jìn)行分片信息的信息更新;更新的內(nèi)容中包含對(duì)獨(dú)立 子句的匹配度(0~1)。
[0136] 表 7
[0137]
[0138] 仍以上文中的表1為例來(lái)進(jìn)行詳細(xì)闡述。
[0139] 如上述表7所示,標(biāo)識(shí)編號(hào)為1001、1002兩條文本信息具有完全相同的實(shí)質(zhì)內(nèi)容; 基于標(biāo)識(shí)編號(hào)1001和1002形成的聚類結(jié)果繼續(xù)進(jìn)行判定,對(duì)判定結(jié)果1004、1006示例如 下述表8所示。
[0140] 表 8
[0141]
[0143] 在上述表8中,因?yàn)?即將"和標(biāo)識(shí)編號(hào)1004中的"在即"為相似詞,近似度為0. 8, 去掉獨(dú)立子句后,內(nèi)容為"在即,熱線",進(jìn)行同義詞替代后近似度為:(0. 8*2+lV(0. 8*2+3) =0. 56。
[0144] 對(duì)分片信息的近似度的結(jié)果的提取,對(duì)于每個(gè)關(guān)鍵詞,取其Prefix、Suffix向量 中近似度的較大值,但相鄰的關(guān)鍵詞中,由于Prefix、Suffix,同一信息僅能使用1次。
[0145] 例如最終提取分片信息的分片近似度向量值VecPhase = [PKeyl,Pkey2, Pkey3]、 獨(dú)立子句近似度向量值VecSub = [P_SubSentencel]〇
[0146] 1002 :[1, 1, 1], [1]
[0147] 1004: [0, 0. 56, 1], [1]
[0148] 1006 :[0. 4,0,0. 36], [0]
[0149] 步驟12,基于預(yù)先建立的垃圾短信識(shí)別模型,擬合關(guān)鍵詞鏈向量、分片信息向量和 獨(dú)立子句匹配向量,計(jì)算文本信息的近似度值。
[0150] 其中,擬合是指已知某函數(shù)的若干離散函數(shù)值,通過(guò)調(diào)整該函數(shù)中若干待定系數(shù), 使得該函數(shù)與已知點(diǎn)集的差別(最小二乘意義)最小。本發(fā)明實(shí)施例提出的技術(shù)方案中, 通過(guò)擬合方法,來(lái)計(jì)算文本信息和已知垃圾短信樣本之間的近似度值。
[0151] 通過(guò)對(duì)已有樣本的學(xué)習(xí)和分析,建立全文近似判定的三維模型函數(shù)F。
[0152] MessageMatchDegree = F (VecKey, VecPhase, VecSub)
[0153] = FI(VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3,
[0154] 其中,MessageMatchDegree是近似度值,F(xiàn)I (VecKey)是關(guān)鍵詞鏈向量, F2(VecPhaSe)是分片信息向量,F(xiàn)3(VecSub)是獨(dú)立子句匹配向量,W1是關(guān)鍵詞鏈向量的權(quán) 重,W2是分片信息向量的權(quán)重,W3是獨(dú)立子句匹配向量的權(quán)重,W1+W2+W3 = 1。
[0155] 一種較佳地實(shí)現(xiàn)方式,例如W1 = 0. 3, W2 = 0. 4, W3 = 0. 3。
[0156] 其中F1的參數(shù)為1個(gè),F(xiàn)2的參數(shù)為0個(gè)或多個(gè)(按關(guān)鍵詞數(shù)量確定);F3的參數(shù) 為〇個(gè)或多個(gè)(按獨(dú)立子句數(shù)量確定)。
[0157] 步驟13,將確定出的近似度值和設(shè)定閾值比較,若近似度值大于設(shè)定閾值時(shí),確定 文本信息為垃圾短信。
[0158] -種較佳的實(shí)現(xiàn)方式,設(shè)定閾值LM為0. 7則判定為垃圾短信,否則判定不屬于垃 圾短信。
[0159] 依據(jù)現(xiàn)有樣本的學(xué)習(xí)與分析,擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配 向量三個(gè)函數(shù)如下:
[0162] 其中kl - kn為各關(guān)鍵詞的權(quán)重值。[0163] 一種較佳地實(shí)施方式,可以默認(rèn)為1。
[0160]
[0161]
[0164]
[0165] 其中,LI···Ln為各獨(dú)立子句的長(zhǎng)度。
[0166] 通過(guò)上述步驟,以標(biāo)識(shí)編號(hào)1001為原始基準(zhǔn),對(duì)標(biāo)識(shí)編號(hào)1002、1004~1006判定 示例如下述表9所示:
[0167] 表 9
[0168]
[0169] (1)標(biāo)識(shí)編號(hào)為1002的文本信息判定:
[0170] 1002 的三個(gè)向量值為:[1,0],[1,1,1],[1]。
[0171] F(VecKey, VecPhase, VecSub) = FI (1, 0) *0. 3+F2 (1, 1, 1) *0. 4+F3 (1) *0. 3 = 1*0. 3+1*0. 4+1*0. 3 = 1
[0172] MatchDegree = 1
[0173] 則標(biāo)識(shí)編號(hào)為1002與基準(zhǔn)的文本信息標(biāo)識(shí)編號(hào)1001實(shí)質(zhì)完全相同。(2)標(biāo)識(shí)編 號(hào)為1004的文本信息判定:
[0174] 1004 的三個(gè)向量值為:[1,0],[0,0· 56, 1], [1]。
[0175] F(VecKey, VecPhase, VecSub) = FI (1, 0) *0. 3+F2 (0, 0. 56, 1) *〇· 4+F3 (1) *0. 3 = 1*0. 3+0. 52*0. 4+1*0. 3 = 0. 808
[0176] MatchDegree = 0. 808>0. 7.
[0177] 判定1004雖然與1001不一樣,但是其實(shí)質(zhì)內(nèi)容較為接近。
[0178] (3)標(biāo)識(shí)編號(hào)為1006的文本信息判定
[0179] 1006 的三個(gè)向量值為:[0.667, 1],[0.4, 0,0.36],[0]。
[0180]
[0181]
[0182] MatchDegree = 0. 15K0. 7〇
[0183] 說(shuō)明標(biāo)識(shí)編號(hào)為1006的文本信息內(nèi)容與1001差別較大。
[0184] 相應(yīng)地,本發(fā)明實(shí)施例提出一種垃圾短信識(shí)別裝置,如圖2所示,包括:
[0185] 獲取模塊201,用于根據(jù)設(shè)定的關(guān)鍵詞,獲取接收到的文本信息的關(guān)鍵詞鏈向量、 分片信息向量和獨(dú)立子句匹配向量。
[0186] 具體地,上述獲取模塊201,具體用于根據(jù)設(shè)定的第一關(guān)鍵詞鏈,確定文本信息中 的第二關(guān)鍵詞鏈,其中,所述設(shè)定的第一關(guān)鍵詞鏈?zhǔn)窃O(shè)定的關(guān)鍵詞形成的詞鏈;針對(duì)任一第 二關(guān)鍵詞鏈,確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之 間的相似性;以及確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵 詞之間的順序性;將所述相似性和順序性,作為所述文本信息的關(guān)鍵詞鏈向量。
[0187] 具體地,上述獲取模塊201,具體用于確定所述第二關(guān)鍵詞鏈中和設(shè)定的第一關(guān)鍵 詞鏈中相同的關(guān)鍵詞的第一數(shù)量;并確定設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞的第二數(shù)量;將 所述第一數(shù)量和第二數(shù)量的比值作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān) 鍵詞鏈中關(guān)鍵詞之間的相似性。
[0188] 具體地,上述獲取模塊201,具體用于比較所述第二關(guān)鍵詞鏈和設(shè)定的第一關(guān)鍵詞 鏈,確定所述第二關(guān)鍵詞鏈中最大的有序鏈的個(gè)數(shù)占比,其中所述最大的有序鏈?zhǔn)呛驮O(shè)定 的第一關(guān)鍵詞鏈中關(guān)鍵詞相同的數(shù)量最多的鏈;以及確定所述第二關(guān)鍵詞鏈的有差異的間 隔距離,其中所述有差異的間隔距離是和設(shè)定的第一關(guān)鍵詞鏈相比,相同關(guān)鍵詞之間存在 的關(guān)鍵詞數(shù)量;將所述最大的有序鏈的個(gè)數(shù)占比和所述有差異的間隔距離,作為所述第二 關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。
[0189] 具體地,上述獲取模塊201,具體用于將設(shè)定的關(guān)鍵詞鏈按照設(shè)定的第一關(guān)鍵詞劃 分為第一前片和第一后片;其中,所述前片是設(shè)定的關(guān)鍵詞前面的信息,所述設(shè)定后片是設(shè) 定的關(guān)鍵詞后面的信息;并將所述文本信息以設(shè)定的關(guān)鍵詞劃分為第二前片和第二后片; 確定第一前片和第二前片,第一后片和第二后片之間的包含、被包含以及相似度;將所述包 含、被包含以及相似度,作為所述文本信息的分片信息向量。
[0190] 具體地,上述獲取模塊201,具體用于確定所述文本信息中的獨(dú)立子句;將所述文 本信息中的獨(dú)立子句和設(shè)定的獨(dú)立子句比較,確定所述文本信息的獨(dú)立子句匹配向量。
[0191] 計(jì)算模塊202,用于基于預(yù)先建立的垃圾短信識(shí)別模型,擬合關(guān)鍵詞鏈向量、分片 信息向量和獨(dú)立子句匹配向量,計(jì)算所述文本信息的近似度值。
[0192] 具體地,上述計(jì)算模塊202,具體用于按照下述公式,基于預(yù)先建立的垃圾短信識(shí) 別模型,擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量,計(jì)算所述文本信息的近似 度值:
[0193] MessageMatchDegree = F (VecKey, VecPhase, VecSub)
[0194] = FI (VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3,
[0195] 其中,MessageMatchDegree是近似度值,F(xiàn)I (VecKey)是關(guān)鍵詞鏈向量, F2 (VecPhase)是分片信息向量,F(xiàn)3 (VecSub)是獨(dú)立子句匹配向量,W1是關(guān)鍵詞鏈向量的權(quán) 重,W2是分片信息向量的權(quán)重,W3是獨(dú)立子句匹配向量的權(quán)重,W1+W2+W3 = 1。
[0196] 確定模塊203,用于若所述近似度值大于設(shè)定閾值時(shí),確定所述文本信息為垃圾短 {目。
[0197] 本發(fā)明實(shí)施例上述提出的垃圾短信識(shí)別方法,基于關(guān)鍵詞和文本片段迭代方式來(lái) 綜合進(jìn)行評(píng)定,對(duì)文本信息采用基于關(guān)鍵詞依附關(guān)系進(jìn)行分片,并定義了獨(dú)立子句的概念, 實(shí)現(xiàn)了基于獨(dú)立子句的分片迭代提取與分析的三維向量判定方法。首先從系統(tǒng)命中的關(guān)鍵 詞出發(fā),進(jìn)行首次類型判定;然后從首次聚類的文本中,利用關(guān)鍵詞分割形成文本片段;進(jìn) 而對(duì)文本片段再次進(jìn)行迭代分析。最終使用三維向量模型進(jìn)行相似性判定,能有效解決句 式變化等干擾,進(jìn)行精確判定。并且通過(guò)使用三維向量模型,能夠有效對(duì)相似的文本信息進(jìn) 行精準(zhǔn)判定,不僅判定準(zhǔn)確率極高,而且能有效抵抗內(nèi)容格式轉(zhuǎn)換、句式轉(zhuǎn)換、相似詞替代 等多種問(wèn)題。在進(jìn)行垃圾短信判定、主題聚類方面有獨(dú)特的優(yōu)勢(shì)。
[0198] 本領(lǐng)域的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、裝置(設(shè)備)、或計(jì)算 機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方 面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的 計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、只讀光盤(pán)、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算 機(jī)程序產(chǎn)品的形式。
[0199] 本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、裝置(設(shè)備)和計(jì)算機(jī)程序產(chǎn)品的流程 圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一 流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算 機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理 器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生 用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能 的裝置。
[0200] 這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特 定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指 令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或 多個(gè)方框中指定的功能。
[0201] 這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì) 算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或 其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖 一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0202] 盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造 性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu) 選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
[0203] 顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍 之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
【主權(quán)項(xiàng)】
1. 一種垃圾短信識(shí)別方法,其特征在于,包括: 根據(jù)設(shè)定的關(guān)鍵詞,獲取接收到的文本信息的關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子 句匹配向量; 基于預(yù)先建立的垃圾短信識(shí)別模型,擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹 配向量,計(jì)算所述文本信息的近似度值; 若所述近似度值大于設(shè)定閾值時(shí),確定所述文本信息為垃圾短信。2. 如權(quán)利要求1所述的方法,其特征在于,根據(jù)設(shè)定的關(guān)鍵詞,獲取所述文本信息的關(guān) 鍵詞鏈向量,包括: 根據(jù)設(shè)定的第一關(guān)鍵詞鏈,確定文本信息中的第二關(guān)鍵詞鏈,其中,所述設(shè)定的第一關(guān) 鍵詞鏈?zhǔn)窃O(shè)定的關(guān)鍵詞形成的詞鏈; 針對(duì)任一第二關(guān)鍵詞鏈,確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞 鏈中的關(guān)鍵詞之間的相似性;以及確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān) 鍵詞鏈中的關(guān)鍵詞之間的順序性; 將所述相似性和順序性,作為所述文本信息的關(guān)鍵詞鏈向量。3. 如權(quán)利要求2所述的方法,其特征在于,確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和 設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的相似性,包括: 確定所述第二關(guān)鍵詞鏈中和設(shè)定的第一關(guān)鍵詞鏈中相同的關(guān)鍵詞的第一數(shù)量;并 確定設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞的第二數(shù)量; 將所述第一數(shù)量和第二數(shù)量的比值作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的 第一關(guān)鍵詞鏈中關(guān)鍵詞之間的相似性。4. 如權(quán)利要求2所述的方法,其特征在于,確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和 設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性,包括: 比較所述第二關(guān)鍵詞鏈和設(shè)定的第一關(guān)鍵詞鏈,確定所述第二關(guān)鍵詞鏈中最大的有序 鏈的個(gè)數(shù)占比,其中所述最大的有序鏈?zhǔn)呛驮O(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞相同的數(shù)量最多 的鏈;以及 確定所述第二關(guān)鍵詞鏈的有差異的間隔距離,其中所述有差異的間隔距離是和設(shè)定的 第一關(guān)鍵詞鏈相比,相同關(guān)鍵詞之間存在的關(guān)鍵詞數(shù)量; 將所述最大的有序鏈的個(gè)數(shù)占比和所述有差異的間隔距離,作為所述第二關(guān)鍵詞鏈中 的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性。5. 如權(quán)利要求1所述的方法,其特征在于,獲取所述文本信息的分片信息向量,包括: 將設(shè)定的第一關(guān)鍵詞鏈按照設(shè)定的關(guān)鍵詞劃分為第一前片和第一后片;其中,所述前 片是設(shè)定的關(guān)鍵詞前面的信息,所述設(shè)定后片是設(shè)定的關(guān)鍵詞后面的信息;并 將所述文本信息以設(shè)定的關(guān)鍵詞劃分為第二前片和第二后片; 確定第一前片和第二前片,第一后片和第二后片之間的包含、被包含以及相似度; 將所述包含、被包含以及相似度,作為所述文本信息的分片信息向量。6. 如權(quán)利要求1所述的方法,其特征在于,獲取所述文本信息的獨(dú)立子句匹配向量,包 括: 確定所述文本信息中的獨(dú)立子句; 將所述文本信息中的獨(dú)立子句和設(shè)定的獨(dú)立子句比較,確定所述文本信息的獨(dú)立子句 匹配向量。7. 如權(quán)利要求1所述的方法,其特征在于,按照下述公式,基于預(yù)先建立的垃圾短信識(shí) 別模型,擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量,計(jì)算所述文本信息的近似 度值: MessageMatchDegree = F(VecKey, VecPhase, VecSub) =FI (VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3, 其中,MessageMatchDegree 是近似度值,F(xiàn)I (VecKey)是關(guān)鍵詞鏈向量,F(xiàn)2 (VecPhase) 是分片信息向量,F(xiàn)3 (VecSub)是獨(dú)立子句匹配向量,W1是關(guān)鍵詞鏈向量的權(quán)重,W2是分片 信息向量的權(quán)重,W3是獨(dú)立子句匹配向量的權(quán)重,W1+W2+W3 = 1。8. -種垃圾短信識(shí)別裝置,其特征在于,包括: 獲取模塊,用于根據(jù)設(shè)定的關(guān)鍵詞,獲取接收到的文本信息的關(guān)鍵詞鏈向量、分片信息 向量和獨(dú)立子句匹配向量; 計(jì)算模塊,用于基于預(yù)先建立的垃圾短信識(shí)別模型,擬合關(guān)鍵詞鏈向量、分片信息向量 和獨(dú)立子句匹配向量,計(jì)算所述文本信息的近似度值; 確定模塊,用于若所述近似度值大于設(shè)定閾值時(shí),確定所述文本信息為垃圾短信。9. 如權(quán)利要求8所述的裝置,其特征在于,所述獲取模塊,具體用于根據(jù)設(shè)定的第一關(guān) 鍵詞鏈,確定文本信息中的第二關(guān)鍵詞鏈,其中,所述設(shè)定的第一關(guān)鍵詞鏈?zhǔn)窃O(shè)定的關(guān)鍵詞 形成的詞鏈;針對(duì)任一第二關(guān)鍵詞鏈,確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第 一關(guān)鍵詞鏈中的關(guān)鍵詞之間的相似性;以及確定所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定 的第一關(guān)鍵詞鏈中的關(guān)鍵詞之間的順序性;將所述相似性和順序性,作為所述文本信息的 關(guān)鍵詞鏈向量。10. 如權(quán)利要求9所述的裝置,其特征在于,所述獲取模塊,具體用于確定所述第二關(guān) 鍵詞鏈中和設(shè)定的第一關(guān)鍵詞鏈中相同的關(guān)鍵詞的第一數(shù)量;并確定設(shè)定的第一關(guān)鍵詞鏈 中的關(guān)鍵詞的第二數(shù)量;將所述第一數(shù)量和第二數(shù)量的比值作為所述第二關(guān)鍵詞鏈中的每 個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞之間的相似性。11. 如權(quán)利要求9所述的裝置,其特征在于,所述獲取模塊,具體用于比較所述第二關(guān) 鍵詞鏈和設(shè)定的第一關(guān)鍵詞鏈,確定所述第二關(guān)鍵詞鏈中最大的有序鏈的個(gè)數(shù)占比,其中 所述最大的有序鏈?zhǔn)呛驮O(shè)定的第一關(guān)鍵詞鏈中關(guān)鍵詞相同的數(shù)量最多的鏈;以及確定所述 第二關(guān)鍵詞鏈的有差異的間隔距離,其中所述有差異的間隔距離是和設(shè)定的第一關(guān)鍵詞鏈 相比,相同關(guān)鍵詞之間存在的關(guān)鍵詞數(shù)量;將所述最大的有序鏈的個(gè)數(shù)占比和所述有差異 的間隔距離,作為所述第二關(guān)鍵詞鏈中的每個(gè)關(guān)鍵詞和設(shè)定的第一關(guān)鍵詞鏈中的關(guān)鍵詞之 間的順序性。12. 如權(quán)利要求8所述的裝置,其特征在于,所述獲取模塊,具體用于將設(shè)定的第一關(guān) 鍵詞鏈按照設(shè)定的關(guān)鍵詞劃分為第一前片和第一后片;其中,所述前片是設(shè)定的關(guān)鍵詞前 面的信息,所述設(shè)定后片是設(shè)定的關(guān)鍵詞后面的信息;并將所述文本信息以設(shè)定的關(guān)鍵詞 劃分為第二前片和第二后片;確定第一前片和第二前片,第一后片和第二后片之間的包含、 被包含以及相似度;將所述包含、被包含以及相似度,作為所述文本信息的分片信息向量。13. 如權(quán)利要求8所述的裝置,其特征在于,所述獲取模塊,具體用于確定所述文本信 息中的獨(dú)立子句;將所述文本信息中的獨(dú)立子句和設(shè)定的獨(dú)立子句比較,確定所述文本信 息的獨(dú)立子句匹配向量。14.如權(quán)利要求8所述的裝置,其特征在于,所述計(jì)算模塊,具體用于按照下述公式,基 于預(yù)先建立的垃圾短信識(shí)別模型,擬合關(guān)鍵詞鏈向量、分片信息向量和獨(dú)立子句匹配向量, 計(jì)算所述文本信息的近似度值: MessageMatchDegree = F(VecKey, VecPhase, VecSub) =FI (VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3, 其中,MessageMatchDegree 是近似度值,F(xiàn)I (VecKey)是關(guān)鍵詞鏈向量,F(xiàn)2 (VecPhase) 是分片信息向量,F(xiàn)3 (VecSub)是獨(dú)立子句匹配向量,W1是關(guān)鍵詞鏈向量的權(quán)重,W2是分片 信息向量的權(quán)重,W3是獨(dú)立子句匹配向量的權(quán)重,W1+W2+W3 = 1。
【文檔編號(hào)】H04W4/14GK105992178SQ201510065075
【公開(kāi)日】2016年10月5日
【申請(qǐng)日】2015年2月6日
【發(fā)明人】粟栗, 張峰, 冉鵬, 李元鋒, 周晶
【申請(qǐng)人】中國(guó)移動(dòng)通信集團(tuán)公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1