本發(fā)明實(shí)施例涉及計算機(jī)技術(shù)領(lǐng)域,具體涉及一種文本信息處理方法及裝置。
背景技術(shù):
隨著移動通信技術(shù)的發(fā)展,智能終端得到了廣泛的應(yīng)用。用戶使用智能終端進(jìn)行通信,例如撥打電話、發(fā)送短信、使用即時通訊(英文全稱為instantmessaging,英文簡稱為im)軟件進(jìn)行文本或者語音通信等。用戶在享受移動通信技術(shù)帶來的方便的同時,也飽受垃圾短信的困擾。因此,如何標(biāo)識信息的可信性成為一個重要的問題。
現(xiàn)有技術(shù)中,在標(biāo)識信息的可信性時,主要是通過檢測垃圾信息的方式來標(biāo)識非法信息。具體的,現(xiàn)有技術(shù)主要存在兩種非法短信檢測方法。一種是通過標(biāo)識發(fā)送非法信息的發(fā)送者的號碼,過濾來自所述號碼的短信的方式實(shí)現(xiàn)對非法信息的檢測和攔截。一種是通過設(shè)置非法信息關(guān)鍵詞,通過關(guān)鍵詞識別的方式檢測非法信息。這兩種方式在一定程度上能夠檢測、攔截部分非法信息。
然而,不法分子利用短信進(jìn)行詐騙的技術(shù)越來越高明,傳統(tǒng)的非法信息檢測技術(shù)已經(jīng)很難準(zhǔn)確地檢測、攔截非法信息。目前已經(jīng)出現(xiàn)不法分子通過偽基站仿造號碼來發(fā)送詐騙信息的事件。不法分子通過偽基站仿造號碼,可以使用與銀行、運(yùn)營商、服務(wù)商等一致的號碼,例如10086,95555號碼向用戶發(fā)送短信,這時使用號碼過濾的方式將難以攔截此類非法信息。此外,不法分子還對短信內(nèi)容進(jìn)行加工,在短信中使用與這類服務(wù)商相似的內(nèi)容格式發(fā)送短信,從而讓人們很難區(qū)分信息的真?zhèn)涡?。而使用關(guān)鍵字匹配的方式進(jìn)行檢測時,容易出現(xiàn)兩個問題:若關(guān)鍵詞處理策略設(shè)置嚴(yán)格將容易造成誤攔截;若關(guān)鍵詞處理策略設(shè)置寬松則無法實(shí)現(xiàn)有效的識別。
因此,現(xiàn)有技術(shù)的標(biāo)識信息可信性的方法存在準(zhǔn)確率不高、不能有效標(biāo)識文本信息可信性的缺陷,無法有效保護(hù)用戶的信息安全、財產(chǎn)安全。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了一種文本信息處理方法及裝置,可以通過文本信息識別模板識別文本信息,以標(biāo)識文本可信性,特別地,可以用于準(zhǔn)確識別垃圾短信、詐騙短信等非法信息,有效攔截此類信息,有效保護(hù)用戶信息、財產(chǎn)安全。
為此,本發(fā)明實(shí)施例提供如下技術(shù)方案:
第一方面,本發(fā)明實(shí)施例提供了一種文本信息處理方法,包括:
獲取文本信息;
對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板;所述文本信息識別模板用于進(jìn)行文本信息匹配。
第二方面,本發(fā)明實(shí)施例提供了一種文本信息處理方法,所述方法應(yīng)用于客戶端,包括:
接收第一文本信息;
將所述第一文本信息與預(yù)存的文本信息識別模板進(jìn)行匹配,獲得匹配結(jié)果;其中,所述文本信息識別模板用于進(jìn)行文本信息匹配;
根據(jù)所述匹配結(jié)果,標(biāo)識所述文本信息的可信度。
第三方面,本發(fā)明實(shí)施例提供了一種文本信息處理裝置,包括:
獲取單元,用于獲取文本信息;
文本信息識別模板生成單元,用于對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板;所述文本信息識別模板用于進(jìn)行文本信息匹配。。
第四方面,本發(fā)明實(shí)施例提供了一種文本信息處理裝置,包括:
第一接收單元,用于接收第一文本信息;
匹配單元,用于將所述第一文本信息與預(yù)存的文本信息識別模板進(jìn)行匹配,獲得匹配結(jié)果;其中,所述文本信息識別模板用于進(jìn)行文本信息匹配;
標(biāo)識單元,用于根據(jù)所述匹配結(jié)果,標(biāo)識所述文本信息的可信度。
第五方面,本發(fā)明實(shí)施例提供了一種用于文本信息處理的裝置,包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經(jīng)配置以由一個或者一個以上處理器執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
獲取文本信息;
對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板;所述文本信息識別模板用于進(jìn)行文本信息匹配。
第六方面,本發(fā)明實(shí)施例提供了一種用于文本信息處理的裝置,包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經(jīng)配置以由一個或者一個以上處理器執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
接收第一文本信息;
將所述第一文本信息與預(yù)存的文本信息識別模板進(jìn)行匹配,獲得匹配結(jié)果;其中,所述文本信息識別模板用于進(jìn)行文本信息匹配;
根據(jù)所述匹配結(jié)果,標(biāo)識所述文本信息的可信度。
本發(fā)明實(shí)施例提供的文本信息處理方法及裝置,可以針對獲取的文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。當(dāng)接收到新的文本信息時,可以利用所述文本信息識別模板對新的文本信息進(jìn)行匹配,以實(shí)現(xiàn)所述文本信息的可信性的標(biāo)識。特別地,本發(fā)明提供的方法和裝置可以應(yīng)用于對非法文本信息的檢測,可以有效、準(zhǔn)確地識別垃圾短信、詐騙短信等非法文本信息,有效攔截此類信息,有效保護(hù)用戶信息、財產(chǎn)安全。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明一實(shí)施例提供的文本信息處理方法流程圖;
圖2為本發(fā)明另一實(shí)施例提供的文本信息處理方法流程圖;
圖3為本發(fā)明再一實(shí)施例提供的文本信息處理方法流程圖;
圖4為本發(fā)明一實(shí)施例提供的文本信息處理裝置示意圖;
圖5為本發(fā)明另一實(shí)施例提供的文本信息處理裝置示意圖;
圖6是根據(jù)一示例性實(shí)施例示出的一種用于文本信息處理的裝置的框圖;
圖7是根據(jù)另一示例性實(shí)施例示出的一種用于文本信息處理的裝置的框圖。
具體實(shí)施方式
本發(fā)明實(shí)施例提供了一種文本信息處理方法及裝置,可以通過文本信息識別模板識別文本信息,以標(biāo)識文本可信性,特別地,可以用于準(zhǔn)確識別垃圾短信、詐騙短信等文本信息,有效攔截此類信息,有效保護(hù)用戶信息、財產(chǎn)安全。
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
首先對本發(fā)明的思想進(jìn)行闡述。在實(shí)現(xiàn)本發(fā)明的過程中,申請人發(fā)現(xiàn):現(xiàn)在很多偽基站通過偽造與銀行、運(yùn)營商、服務(wù)商等一致的號碼,例如10086、95555等號碼向用戶發(fā)送短信,例如通知用戶的積分可以點(diǎn)擊鏈接進(jìn)行兌換。這類短信如果不仔細(xì)看,非常容易上當(dāng)受騙?,F(xiàn)有的垃圾短信識別技術(shù),無法有效識別此類短信進(jìn)而提醒用戶。本發(fā)明提出一種文本信息處理的方法,能夠有效解決機(jī)器不能有效標(biāo)識文本可信性,特別是不能有效識別詐騙短信、垃圾短信的的問題。申請人發(fā)現(xiàn),無論是合法信息還是詐騙信息、垃圾信息,往往采用相同的文本格式具有一定的特點(diǎn)。本發(fā)明實(shí)施例提供的方法,可以針對獲取的文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。當(dāng)接收到新的文本信息時,可以利用所述文本信息識別模板對新的文本信息進(jìn)行匹配,以實(shí)現(xiàn)所述文本信息的可信性的標(biāo)識。例如,標(biāo)識所述文本信息為合法信息、垃圾短信或者詐騙信息等。特別地,本發(fā)明提供的方法和裝置可以應(yīng)用于對非法文本信息的檢測,可以有效、準(zhǔn)確地識別垃圾短信、詐騙短信等非法文本信息,有效攔截此類信息,有效保護(hù)用戶信息、財產(chǎn)安全。
下面將結(jié)合附圖1至附圖3對本發(fā)明示例性實(shí)施例示出的文本信息處理方法進(jìn)行介紹。
參見圖1,為本發(fā)明一實(shí)施例提供的文本信息處理方法流程圖。如圖1所示,可以包括:
s101,獲取文本信息。
s102,對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板;所述文本信息識別模板用于進(jìn)行文本信息匹配。
在本發(fā)明具體實(shí)現(xiàn)時,所述方法可以應(yīng)用于服務(wù)器,也可以應(yīng)用于客戶端。
其中,所述文本信息包括短信、微信、微博等各種形式的文本信息。特別地,所述獲取文本信息可以包括:當(dāng)獲取的信息為二維碼時,對所述二維碼進(jìn)行轉(zhuǎn)換處理,生成文本信息。進(jìn)一步地,所述獲取文本信息還可以包括:當(dāng)獲取的信息為圖片時,對所述圖片進(jìn)行轉(zhuǎn)換處理,生成文本信息。舉例說明,二維碼、圖片可以視為加密了的文本信息,可以對其進(jìn)行識別處理,將其從編碼指令轉(zhuǎn)換成文本信息。此外,當(dāng)獲取的信息為語音信息時,所述獲取文本信息還可以包括:對所述語音信息進(jìn)行語音識別處理,將所述語音信息轉(zhuǎn)換為文本信息。當(dāng)然,以上僅為示例性說明,文本信息還可以包括其他形式的信息,在此不進(jìn)行限定。
其中,當(dāng)所述方法應(yīng)用于服務(wù)器時,服務(wù)器獲取的文本信息可以來源于客戶端發(fā)送的包含第一標(biāo)識的文本信息。例如,服務(wù)器接收客戶端發(fā)送的文本信息;所述文本信息包含第一標(biāo)識,所述第一標(biāo)識用于標(biāo)識所述文本信息。需要說明的是,本發(fā)明實(shí)施例中,建立文本信息識別模板可以用于識別垃圾信息、詐騙信息,也可以用于建立合法、安全信息的模板,建立文本信息識別模板的核心是用于標(biāo)識文本信息的可信性。在本發(fā)明實(shí)施例中,用戶在使用客戶端接收到文本信息時,用戶可以對所述文本信息進(jìn)行標(biāo)識??蛻舳藢㈨憫?yīng)于用戶標(biāo)識所述文本信息的操作,向服務(wù)器發(fā)送所述文本信息。這樣服務(wù)器可以將用戶通過客戶端上傳的文本信息進(jìn)行存儲、分析。當(dāng)然,服務(wù)器獲取的文本信息也可以來源于人工收集或者機(jī)器識別,在此不進(jìn)行限定。
其中,當(dāng)所述方法應(yīng)用于客戶端時,獲取的文本信息可以包括:響應(yīng)于用戶標(biāo)識文本信息的操作,獲取所述文本信息。在這一實(shí)現(xiàn)方式中,用戶標(biāo)識文本信息后,可以由客戶端直接獲取所述文本信息,對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。當(dāng)然,用戶標(biāo)識文本信息后,客戶端也可以響應(yīng)于用戶標(biāo)識文本信息的操作,向服務(wù)器發(fā)送所述文本信息,由服務(wù)器對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。
在一些實(shí)施方式中,所述文本信息識別模板可以是包含一個或者多個字符組的集合。則對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板可以包括:獲取所述文本信息的核心信息對應(yīng)的語種,去除所述文本信息中非所述語種的語言表示的字符,獲得一個或者多個字符組,利用所述一個或者多個字符組的集合生成文本信息識別模板。舉例說明,假設(shè)獲取的文本信息為:“尊敬的用戶,您的積分即將清零,請登陸官方網(wǎng)1oo86gfkx.com請進(jìn)行兌現(xiàn)換現(xiàn)金按提示安裝領(lǐng)取【中國移動】”,去除了非中文字符后,獲得的文本信息識別模板為由以下字符組組成的集合{尊敬的用戶,您的積分即將清零,請登陸官方網(wǎng),請進(jìn)行兌現(xiàn)換現(xiàn)金按提示安裝領(lǐng)取,中國移動}。
在一些實(shí)施方式中,所述文本信息識別模板可以是符合句法規(guī)則的字符串。在一種可能的實(shí)現(xiàn)方式中,利用收集的非法短信或者合法短信生成非法短信模板或者合法短信模板。這時,文本信息識別模板即可以是由符合句法規(guī)則的文字組成的模板。在另外一種可能的實(shí)現(xiàn)方式中,是對文本信息進(jìn)行了規(guī)則提取,生成了符合句法規(guī)則的字符串,例如使用正則表達(dá)式對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。進(jìn)一步地,當(dāng)所述文本信息識別模板為符合句法規(guī)則的字符串時,在對所述文本信息進(jìn)行規(guī)則提取之前,所述方法還可以包括:對所述文本信息進(jìn)行聚類處理,獲取所述文本信息的文本類別。則所述對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板具體為:對符合預(yù)設(shè)條件的文本類別對應(yīng)的文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。
具體實(shí)現(xiàn)時,對所述文本信息進(jìn)行聚類處理,獲取所述文本信息的文本類別可以包括以下步驟:
a,獲取所述文本信息的核心信息對應(yīng)的語種,去除所述文本信息中非所述語種的語言表示的字符,獲得處理后的文本信息。
舉例說明,可以獲取文本信息的核心信息對應(yīng)的語種是中文、英文、西班牙語或者阿拉伯語等。然后,去除所述文本信息中非所述語種的語言表示的字符,獲得處理后的文本信息。舉例說明,所述文本信息的核心信息對應(yīng)的語種是中文,則去除非中文字符,例如標(biāo)點(diǎn)符號、英文字母、數(shù)字等。若所述文本信息的核心信息對應(yīng)的語種是英語,則去除非英文單詞,例如標(biāo)點(diǎn)符號、數(shù)字等。以所述文本信息的核心信息對應(yīng)的語種是中文為例進(jìn)行說明。去除獲取的文本信息中的非中文字符,這樣一條文本信息就成為若干個漢字字符組。舉例說明,假設(shè)獲取的文本信息為:“尊敬的用戶,您的積分即將清零,請登陸官方網(wǎng)1oo86gfkx.com請進(jìn)行兌現(xiàn)換現(xiàn)金按提示安裝領(lǐng)取【中國移動】”,去除了非中文字符后,獲得處理后的文本信息為:“尊敬的用戶|您的積分即將清零|請登陸官方網(wǎng)|請進(jìn)行兌現(xiàn)換現(xiàn)金按提示安裝領(lǐng)取|中國移動|”。
b,將所述處理后的文本信息與預(yù)先存儲的文本類別中的文本信息進(jìn)行比較,獲取所述處理后的文本信息與所述服務(wù)器存儲的文本類別中的文本信息的相似度值。
具體實(shí)現(xiàn)時,將所述處理后的文本信息與服務(wù)器或本地設(shè)備已存的所有類別依次遍歷對比,以獲取所述處理后的文本信息與所述預(yù)先存儲的文本類別中的文本信息的相似度值。
c,若所述處理后的文本信息與所述預(yù)先存儲的任意一個文本類別中的文本信息的相似度值大于或等于第一設(shè)定閾值,確定所述處理后的文本信息屬于所述文本類別。
舉例說明,若服務(wù)器有一條文本類別a123456為:
您的積分即將清零|請登陸官方網(wǎng)|請進(jìn)行兌現(xiàn)換現(xiàn)金按提示安裝領(lǐng)取。
若處理后的文本信息為“尊敬的用戶|您的積分即將清零|請登陸官方網(wǎng)|請進(jìn)行兌現(xiàn)換現(xiàn)金按提示安裝領(lǐng)取|中國移動|”,其與服務(wù)器上文本類別a123456的相似度為85%,大于第一設(shè)定閾值80%,則將所述文本信息歸入到a123456這個類別。當(dāng)然,第一設(shè)定閾值可以根據(jù)系統(tǒng)或者需要設(shè)定,以上僅為示例性說明。
d,若所述處理后的文本信息與所述預(yù)先存儲的所有文本類別中的文本信息的相似度值均小于第一設(shè)定閾值,為所述文本信息創(chuàng)建新的文本類別。
舉例說明,若服務(wù)器遍歷結(jié)束后,若確定處理后的文本信息與所述預(yù)先存儲的所有文本類別中的文本信息的相似度值均小于第一設(shè)定閾值,即沒有發(fā)現(xiàn)相似的類別,則為所述文本信息創(chuàng)建新的文本類別a123457。
其中,所述對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板包括:
利用正則表達(dá)式對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。
其中,當(dāng)本發(fā)明實(shí)施例還包括對文本信息進(jìn)行聚類處理的步驟時,則所述對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板即為對符合預(yù)設(shè)條件的文本類別對應(yīng)的文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。其中,所述預(yù)設(shè)條件可以包括:所述文本類別的風(fēng)險閾值大于第二設(shè)定閾值。其中,所述文本類別的風(fēng)險閾值根據(jù)所述文本類別的風(fēng)險特征值得到。所述風(fēng)險特征值包括所述文本類別的出現(xiàn)時間、出現(xiàn)頻率、出現(xiàn)地域中的任意一種或多種。舉例說明,服務(wù)器或本地設(shè)備可以對已有的文本類別可以進(jìn)行風(fēng)險閾值評估。具體實(shí)現(xiàn)時,可以根據(jù)不同文本類別出現(xiàn)的時間,出現(xiàn)的次數(shù),出現(xiàn)地域等因素進(jìn)行風(fēng)險閾值評估。例如,所述文本類別出現(xiàn)的時間越晚,出現(xiàn)的次數(shù)越多,則該文本類別的風(fēng)險閾值越高。此外,還可以針對不同的地區(qū)進(jìn)行地區(qū)風(fēng)險閾值評估。比如,來自北京地區(qū)的詐騙短信,則在北京分類中,風(fēng)險閾值會額外增加。當(dāng)然,還可以設(shè)定其他風(fēng)險閾值的評估方式,在此不進(jìn)行限定。其中,第二設(shè)定閾值可以根據(jù)經(jīng)驗(yàn)或需要設(shè)定。需要說明的是,在服務(wù)器端通過聚類處理以及風(fēng)險閾值評估的方式,可以及時發(fā)現(xiàn)新出現(xiàn)的、出現(xiàn)數(shù)量較大、頻率較高的騷擾、詐騙類信息。此外,本發(fā)明還可以針對不同地區(qū)做針對性的加權(quán)處理,避免更多的人被騷擾或被騙。
申請人發(fā)現(xiàn),隨著信息社會的發(fā)展,各類信息服務(wù)內(nèi)容越來越多,用戶收到的服務(wù)類短信越來越多,但是新型的偽基站詐騙方式使得傳統(tǒng)的號碼和關(guān)鍵詞的攔截短信技術(shù)失靈,無法有效幫助用戶避免上當(dāng)受騙。然而,無論詐騙短信的內(nèi)容多么逼真,即使號碼偽造的和真實(shí)的服務(wù)商號碼一致,但是垃圾短信的格式在短期內(nèi)都會相似,因此通過提取某一類別垃圾短信的規(guī)則,生成文本信息識別模板,則會有效識別短信。因此,在本發(fā)明中,對符合預(yù)設(shè)條件的文本類別對應(yīng)的文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。
其中,所述對符合預(yù)設(shè)條件的文本類別對應(yīng)的文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板包括:利用正則表達(dá)式對符合預(yù)設(shè)條件的文本類別對應(yīng)的文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。所述文本信息識別模板包括符合句法規(guī)則的字符串,用于進(jìn)行文本信息匹配。其中,正則表達(dá)式(英文全稱為regularexpression,英文簡稱為re)又稱正規(guī)表示法、常規(guī)表示法,是一種使用單個字符串來描述、匹配一系列符合某個句法規(guī)則的字符串的方式。簡單來說,正則表達(dá)式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規(guī)則字符串”,這個“規(guī)則字符串”用來表達(dá)對字符串的一種過濾邏輯。正則表達(dá)式可以被用來檢索、替換那些符合某個模式的文本。本發(fā)明正是利用了正則表達(dá)式,可以有效的獲取垃圾短信的格式信息,并形成文本信息模板對垃圾短信進(jìn)行識別。
舉例說明,對上述文本類別a123456利用正則表達(dá)式進(jìn)行規(guī)則提取,生成的文本信息識別模板為:
尊敬的用戶(,|,)您的積分(即|)將清零(,|,)請登陸官方網(wǎng)[0-9a-za-z.]{4,11}
其中,“|”表示邏輯或,[0-9a-za-z.]{4,11}表示由數(shù)字0-9、小寫字母a-z或者大寫字母a-z符號(.)組成的4位到11位的任意字符串。
若客戶端收到一條文本信息為:
尊敬的用戶,您的積分將清零,請登陸官方網(wǎng)1oo86aaa.com請進(jìn)行兌現(xiàn)換現(xiàn)金按提示安裝領(lǐng)取【中國移動】
此時,使用上述文本信息識別模板進(jìn)行匹配,若所述文本信息與預(yù)存的文本信息識別模板匹配,則可以標(biāo)識所述文本信息。例如,根據(jù)所述文本信息識別模板所屬的類別,例如詐騙類,標(biāo)識所述文本信息為詐騙短信。又如,若所述文本信息識別模板為合法短信,則標(biāo)識所述文本信息為合法短信。
進(jìn)一步地,當(dāng)所述方法應(yīng)用于服務(wù)器時,服務(wù)器還可以向客戶端發(fā)送所述文本信息識別模板。
舉例說明,服務(wù)器可以定時主動向客戶端發(fā)送所述文本信息識別模板,也可以響應(yīng)于客戶端的請求發(fā)送所述文本信息識別模板。需要說明的是,服務(wù)器還可以針對不同地區(qū),向不同的客戶端發(fā)送不同地區(qū)的文本信息識別模板。
參見圖2,為本發(fā)明另一實(shí)施例提供的文本信息處理方法流程圖。
s201,接收第一文本信息。
s202,將所述第一文本信息與預(yù)存的文本信息識別模板進(jìn)行匹配,獲得匹配結(jié)果。
其中,所述第一文本信息識別模板用于進(jìn)行文本信息匹配。文本信息識別模板的獲取過程請參照圖1以及前文所示實(shí)施例的介紹,在此不再贅述。
在一些實(shí)施方式中,所述文本信息識別模板可以是包含一個或者多個字符組的集合。在將所述第一文本信息與預(yù)存的文本信息識別模板進(jìn)行匹配時,可以預(yù)先對第一文本信息進(jìn)行處理,將其處理成包含一個或者多個字符組的集合,然后再與所述文本信息模板集合中的字符組進(jìn)行相似度計算,以獲得最終的匹配結(jié)果。
在一些實(shí)施方式中,所述文本信息模板包括符合句法規(guī)則的文字,例如由詐騙短信組成的模板,這時,也可以對詐騙短信模板中的文字以及所述第一文本信息均進(jìn)行處理,將二者均轉(zhuǎn)換成包含一個或者多個字符組的集合,然后將字符組與字符組進(jìn)行比較,以獲得最終的匹配結(jié)果。
需要說明的是,在以上提到的實(shí)施方式中,所述字符組不同于關(guān)鍵字,其可以具有一定的語法邏輯或者句法規(guī)則。舉例說明,現(xiàn)有技術(shù)的關(guān)鍵字匹配往往設(shè)置的關(guān)鍵字為“中獎”這種具有明確含義的特征詞,但本發(fā)明實(shí)施例中提取的字符組集合所包含的元素可以例如是:“您的積分即將清零、請進(jìn)行兌現(xiàn)換現(xiàn)金按提示安裝領(lǐng)取”等,其是具有語法邏輯或者句法規(guī)則的,并不是單純的關(guān)鍵字,從一定程度上能夠體現(xiàn)文本信息前后詞語之間的順序與邏輯關(guān)系,能夠體現(xiàn)文本信息格式的一致性和規(guī)律性。
在一些實(shí)施方式中,所述文本信息模板包括符合句法規(guī)則的字符串,用于進(jìn)行文本信息匹配。具體實(shí)現(xiàn)時,可以利用正則表達(dá)式將所述文本信息與預(yù)存的文本信息識別模板進(jìn)行匹配,獲得匹配結(jié)果。在這種實(shí)現(xiàn)方式中,文本信息識別模板則可以完全能夠體現(xiàn)語法邏輯或者句法規(guī)則。
舉例說明,若客戶端收到一條文本信息為:
尊敬的用戶,您的積分將清零,請登陸官方網(wǎng)1oo86aaa.com請進(jìn)行兌現(xiàn)換現(xiàn)金按提示安裝領(lǐng)取【中國移動】
通過正則表達(dá)式匹配,則有可能匹配的文本信息識別模板為:
尊敬的用戶(,|,)您的積分(即|)將清零(,|,)請登陸官方網(wǎng)[0-9a-za-z.]{4,11}
從上述示例可以看出,文本信息與文本信息識別模板的格式相同或者相近,都符合一定的格式,其均是以“尊敬的用戶”開頭,然后是“,”接著是“您的積分將清零”,然后是“請登陸官方網(wǎng)”,然后是以4到11位的字母或者數(shù)字組成的字符串。這樣,就能夠準(zhǔn)確地將相同格式、具有相同的句法規(guī)則的文本識別出來。
s203,根據(jù)所述匹配結(jié)果,標(biāo)識所述文本信息的可信度。。
在一些實(shí)施方式中,所述根據(jù)所述匹配結(jié)果,標(biāo)識所述文本信息的可信度包括:根據(jù)獲取的所述第一文本信息與預(yù)存的文本信息識別模板的匹配值以及預(yù)先保存的匹配值與可信度等級的對應(yīng)關(guān)系,標(biāo)識所述文本信息的可信度等級。舉例說明,可以設(shè)置一個或者多個匹配閾值。不同的匹配閾值對應(yīng)不同的可信度等級。以預(yù)存的文本信息識別模板為合法文本信息模板為例,匹配值越高,可信度等級越高。反之,當(dāng)預(yù)存的文本新識別模板為非法文本信息模板時,匹配值越高,可信度等級越低。在具體實(shí)現(xiàn)時,可以根據(jù)所述匹配閾值,標(biāo)記文本信息的可信度,例如標(biāo)識可信度等級為高、中、低等。當(dāng)然,以上僅為示例性說明,不視為對本發(fā)明的限制。
在一些實(shí)施方式中,所述根據(jù)所述匹配結(jié)果,標(biāo)識所述文本信息的可信度包括:當(dāng)所述匹配結(jié)果表明所述第一文本信息與預(yù)存的文本信息識別模板完全匹配時,輸出與完全匹配結(jié)果對應(yīng)的可信度結(jié)果;當(dāng)所述匹配結(jié)果表明所述第一文本信息與預(yù)存的文本信息識別模板部分匹配時,輸出與部分匹配結(jié)果對應(yīng)的可信度結(jié)果。舉例說明,可以預(yù)先設(shè)置不同的匹配結(jié)果與可信度結(jié)果的對應(yīng)關(guān)系。其中,所述可信度結(jié)果可以是“該信息屬于詐騙短信”,所述可信度結(jié)果可以是“垃圾短信的可能性很高,請注意”,也可以是“該信息疑似詐騙短信,請你小心”等。由此,可以有效地提示用戶文本信息的可信度。
在一些實(shí)施方式中,當(dāng)文本信息識別模板為符合句法規(guī)則的字符串時,所述匹配結(jié)果可以是匹配,或者是不匹配。若匹配結(jié)果表示所述第一文本信息與預(yù)存的文本信息識別模板匹配,可以標(biāo)識所述第一文本信息的可信度。舉例說明,若所述第一文本信息與預(yù)存的文本信息識別模板匹配,則可以根據(jù)所述文本信息識別模板所屬的類別標(biāo)識所述文本信息的可信度。例如,根據(jù)所述文本信息識別模板所屬的類別,例如詐騙類,標(biāo)識所述第一文本信息為詐騙短信。又如,若所述文本信息識別模板為合法短信,則標(biāo)識所述第一文本信息為合法短信。
需要說明的是,為了避免例如合法信息發(fā)送者發(fā)送的短信被誤認(rèn)為為垃圾短信,所述預(yù)存的文本信息識別模板可以包括合法文本信息模板和非法文本信息模板。當(dāng)用戶收到一條合法的短信時,其與合法文本信息模板的匹配度必然高于其與非法文本信息模板的匹配度,因此所述合法的短信即與合法文本信息模板匹配,會被標(biāo)識為合法信息。
在另外一種可能的實(shí)現(xiàn)方式中,當(dāng)非法短信與合法短信的相似度較高時,為避免誤傷合法短信的情況出現(xiàn),可以設(shè)置第一文本信息識別模板庫和第二文本信息識別模板庫,通過區(qū)分文本信息的發(fā)送參數(shù)決定使用哪個文本信息識別模板庫來進(jìn)行匹配。舉例說明,本發(fā)明的方法還可以包括:獲取所述第一文本信息的發(fā)送參數(shù);當(dāng)所述發(fā)送參數(shù)符合預(yù)設(shè)條件時,使用第一文本信息識別模板庫中的文本信息識別模板進(jìn)行匹配;若所述匹配結(jié)果表明所述第一文本信息與預(yù)存的第一文本信息識別模板庫中的模板匹配時,再將所述第一文本信息與預(yù)存的第二文本信息識別模板庫中的模板進(jìn)行匹配,若匹配,則標(biāo)識所述文本信息為合法信息;若不匹配,則標(biāo)識所述文本信息為非法信息。其中,所述第一文本信息識別模板庫包含的文本信息識別模板為非法文本信息識別模板;所述第二文本信息識別模板庫包含的文本信息識別模板為合法文本信息識別模板。舉例說明,當(dāng)詐騙短信與合法的10086短信相似度較高時,那么根據(jù)詐騙短信獲得的非法文本信息識別模板就有可能匹配上合法的10086短信。當(dāng)獲取到一條10086發(fā)送的短信時,發(fā)現(xiàn)所述短信的發(fā)送參數(shù)例如發(fā)送號碼是10086,滿足預(yù)設(shè)條件,先將此短信與非法文本信息識別模板進(jìn)行匹配,若匹配上,所述短信有非常大的可能是非法短信,當(dāng)然,也有極小的可能是合法10086的短信。這時,為了排除這種可能性,將此短信與合法的10086短信對應(yīng)的文本信息識別模板進(jìn)行匹配,若匹配不上,說明此短信是非法短信;若匹配上,說明此短信正是極小概率下的合法10086短信。
進(jìn)一步地,客戶端可以顯示提示信息,用于提示用戶第一文本信息為合法短信,或非法短信,當(dāng)為非法短信時進(jìn)一步可以為垃圾短信、騷擾短信或者詐騙短信等。進(jìn)一步地,客戶端還可以攔截該第一文本信息,避免顯示在收件箱或短信app中。
進(jìn)一步地,本發(fā)明實(shí)施例應(yīng)用于客戶端時,所述方法還包括:接收第二文本信息;響應(yīng)于用戶標(biāo)識所述第二文本信息的操作,向所述服務(wù)器發(fā)送所述第二文本信息。例如,當(dāng)用戶人工判斷出接收的第二文本信息為合法短信或者非法短信時,可以標(biāo)記所述第二文本信息??蛻舳隧憫?yīng)于用戶標(biāo)識所述第二文本信息的操作,向所述服務(wù)器發(fā)送所述第二文本信息,以便于服務(wù)器提取文本信息識別模板。
在一些實(shí)施方式中,當(dāng)所述方法應(yīng)用于客戶端時,將所述第一文本信息與預(yù)存的文本信息識別模板進(jìn)行匹配,獲得匹配結(jié)果包括:將所述第一文本信息與所述客戶端本地預(yù)存的文本信息識別模板進(jìn)行匹配,獲得第一匹配結(jié)果;當(dāng)所述匹配結(jié)果符合預(yù)設(shè)條件時,向服務(wù)器發(fā)送所述第一文本信息;接收所述服務(wù)器在將所述第一文本信息與服務(wù)器預(yù)存的文本信息識別模板進(jìn)行匹配獲得的第二匹配結(jié)果;則所述根據(jù)所述匹配結(jié)果,標(biāo)識所述文本信息的可信度包括:根據(jù)所述第二匹配結(jié)果標(biāo)識文本信息的可信度。舉例說明,可以在客戶端本地保存有常見類型的模板,用戶收到文本信息,先進(jìn)行本地判定,當(dāng)判定結(jié)果不明確時,再申請服務(wù)器判定,根據(jù)服務(wù)器的判定結(jié)果來標(biāo)識文本信息的可信度。
下面將結(jié)合圖3對另一示例性實(shí)施例進(jìn)行說明。此實(shí)施例中,以文本信息為短信為例、客戶端應(yīng)用程序?yàn)槎绦臿pp為例進(jìn)行說明。當(dāng)然,本領(lǐng)域技術(shù)人員可以理解的是,本發(fā)明提供的方法還可以應(yīng)用于其他文本信息通信工具中,包括但不限于qq、微信、微博、郵件等。
參見圖3,為本發(fā)明再一實(shí)施例提供的文本信息處理方法流程圖。
s301,客戶端接收新短信。
舉例說明,客戶端在手機(jī)上接收新短信。
s302,響應(yīng)于用戶標(biāo)識所述新短信的操作,客戶端向所述服務(wù)器發(fā)送所述短信。
舉例說明,用戶對接收的新短信進(jìn)行判斷,可以標(biāo)識其為合法短信,也可以標(biāo)識其為非法短信。在合適的網(wǎng)絡(luò)條件下,客戶端將向服務(wù)器發(fā)送該標(biāo)識短信。
s303,服務(wù)器對所述短信進(jìn)行聚類處理,獲取所述短信的文本類別。
舉例說明,服務(wù)器將收到的短信去掉非中文字符,這樣一條短信就成為若干個漢字組,和服務(wù)器已存的所有類別依次遍歷對比,如果屬于已有的詐騙類別,則計入相應(yīng)的類別,如果屬于新出現(xiàn)的類別,則單獨(dú)創(chuàng)建該類別。
s304,服務(wù)器對已有的文本類別進(jìn)行風(fēng)險閾值評估處理。
舉例說明,服務(wù)器對已有的文本類別可以進(jìn)行風(fēng)險閾值評估。具體實(shí)現(xiàn)時,可以根據(jù)不同文本類別出現(xiàn)的時間,出現(xiàn)的次數(shù),出現(xiàn)地域等因素進(jìn)行風(fēng)險閾值評估。例如,所述文本類別出現(xiàn)的時間越晚,出現(xiàn)的次數(shù)越多,則該文本類別的風(fēng)險閾值越高。此外,還可以針對不同的地區(qū)進(jìn)行地區(qū)風(fēng)險閾值評估。比如,來自北京地區(qū)的詐騙短信,則在北京分類中,風(fēng)險閾值會額外增加。
s305,對文本類別的風(fēng)險閾值大于第二設(shè)定閾值的短信進(jìn)行規(guī)則提取,生成文本信息識別模板。
s306,服務(wù)器向客戶端發(fā)送文本信息識別模板。
具體實(shí)現(xiàn)時,可以針對不同的地區(qū),下發(fā)不同地區(qū)的文本信息識別模板。
s307,客戶端更新文本信息識別模板。
s308,客戶端接收新短信,利用所述文本信息識別模板進(jìn)行檢測匹配。
s309,當(dāng)新短信與已有的文本信息識別模板匹配時,客戶端針對該短信對用戶進(jìn)行提示。
在這一實(shí)施例中,通過文本信息識別模板標(biāo)識文本的可信性,而不是傳統(tǒng)的關(guān)鍵詞信息進(jìn)行識別,出錯的可能性更低,有效提高準(zhǔn)確率。這是因?yàn)?,現(xiàn)有技術(shù)的關(guān)鍵詞識別方法,若設(shè)置關(guān)鍵詞為中獎,若有短信存在“中獎”一詞可能就會認(rèn)為是詐騙短信,這有可能造成誤傷,給用戶帶來一定的損失。此外,由于關(guān)鍵詞識別的局限性,垃圾短信發(fā)送者變換垃圾短信的內(nèi)容,例如使用同義詞、近義詞,避免使用現(xiàn)有關(guān)鍵詞,則會無法有效識別此類垃圾短信。而本發(fā)明實(shí)施例中,通過文本信息識別模板標(biāo)識文本可信性,通過具有上下文環(huán)境的正則規(guī)則來匹配文本信息,使得識別的準(zhǔn)確性顯著提升。
此外,在這一實(shí)施例中,客戶端可以響應(yīng)于用戶標(biāo)識文本信息的操作,將文本信息上傳至服務(wù)器進(jìn)行分析。由于通過廣大的用戶首先對文本信息進(jìn)行判斷,再交由機(jī)器分析、檢測,有效提升了文本信息可信性標(biāo)識的準(zhǔn)確性和及時性。
需要說明的是,這一實(shí)施例介紹的方法可以全部應(yīng)用于客戶端,或者全部應(yīng)用于服務(wù)器,都能夠達(dá)到相同的技術(shù)效果。詳細(xì)地實(shí)現(xiàn)可以參照圖3所述實(shí)施例,在此不再贅述。
參見圖4,為本發(fā)明一實(shí)施例提供的文本信息處理裝置示意圖。
一種文本信息處理裝置400,包括:
獲取單元401,用于獲取文本信息;
文本信息識別模板生成單元402,用于對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板;所述文本信息識別模板用于進(jìn)行文本信息匹配。
進(jìn)一步地,所述獲取單元具體用于:
接收包含第一標(biāo)識的文本信息;所述第一標(biāo)識用于標(biāo)識所述文本信息;或者,響應(yīng)于用戶標(biāo)識文本信息的操作,獲取所述文本信息進(jìn)一步地,所述文本信息識別模板生成單元具體用于:
利用正則表達(dá)式對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。
進(jìn)一步地,所述裝置還包括:
聚類處理單元,用于對所述文本信息進(jìn)行聚類處理,獲取所述文本信息的文本類別;
所述文本信息識別模板生成單元具體用于:對符合預(yù)設(shè)條件的文本類別對應(yīng)的文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。
進(jìn)一步地,所述聚類處理單元具體包括:
處理單元,用于獲取所述文本信息的核心信息對應(yīng)的語種,去除所述文本信息中非所述語種的語言表示的字符,獲得處理后的文本信息;
比較單元,用于將所述處理后的文本信息與所述服務(wù)器存儲的文本類別中的文本信息進(jìn)行比較,獲取所述處理后的文本信息與所述服務(wù)器存儲的文本類別中的文本信息的相似度值;
確定單元,用于若所述處理后的文本信息與所述服務(wù)器存儲的任意一個文本類別中的文本信息的相似度值大于第一設(shè)定閾值,確定所述處理后的文本信息屬于所述文本類別;
創(chuàng)建單元,用于若所述處理后的文本信息與所述服務(wù)器存儲的任意一個文本類別中的文本信息的相似度值小于第一設(shè)定閾值,為所述文本信息創(chuàng)建新的文本類別。
進(jìn)一步地,所述文本信息識別模板生成單元具體用于:
利用正則表達(dá)式對符合預(yù)設(shè)條件的文本類別對應(yīng)的文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。
進(jìn)一步地,所述預(yù)設(shè)條件包括:
所述文本類別的風(fēng)險閾值大于第二設(shè)定閾值;其中,所述文本類別的風(fēng)險閾值根據(jù)所述文本類別的風(fēng)險特征值得到;所述風(fēng)險特征值包括所述文本類別的出現(xiàn)時間、出現(xiàn)頻率、出現(xiàn)地域中的任意一種或多種。
參見圖5,為本發(fā)明另一實(shí)施例提供的文本信息處理裝置示意圖。
一種文本信息處理裝置500,包括:
第一接收單元501,用于接收第一文本信息;
匹配單元502,用于將所述第一文本信息與預(yù)存的文本信息識別模板進(jìn)行匹配,獲得匹配結(jié)果;其中,所述文本信息識別模板用于進(jìn)行文本信息匹配;
標(biāo)識單元503,用于根據(jù)所述匹配結(jié)果,標(biāo)識所述文本信息的可信度。
進(jìn)一步地,所述標(biāo)識單元具體用于:
根據(jù)獲取的所述第一文本信息與預(yù)存的文本信息識別模板的匹配值以及預(yù)先保存的匹配值與可信度等級的對應(yīng)關(guān)系,標(biāo)識所述文本信息的可信度等級。
進(jìn)一步地,所述標(biāo)識單元具體用于:
當(dāng)所述匹配結(jié)果表明所述第一文本信息與預(yù)存的文本信息識別模板完全匹配時,輸出與完全匹配結(jié)果對應(yīng)的可信度結(jié)果;
當(dāng)所述匹配結(jié)果表明所述第一文本信息與預(yù)存的文本信息識別模板部分匹配時,輸出與部分匹配結(jié)果對應(yīng)的可信度結(jié)果。
進(jìn)一步地,所述匹配單元具體用于:將所述第一文本信息與所述客戶端本地預(yù)存的文本信息識別模板進(jìn)行匹配,獲得第一匹配結(jié)果;當(dāng)所述匹配結(jié)果符合預(yù)設(shè)條件時,向服務(wù)器發(fā)送所述第一文本信息;接收所述服務(wù)器在將所述第一文本信息與服務(wù)器預(yù)存的文本信息識別模板進(jìn)行匹配獲得的第二匹配結(jié)果;
進(jìn)一步地,所述標(biāo)識單元具體用于:根據(jù)所述第二匹配結(jié)果標(biāo)識文本信息的可信度。
進(jìn)一步地,所述匹配單元具體用于:
利用正則表達(dá)式將所述文本信息與預(yù)存的文本信息識別模板進(jìn)行匹配,獲得匹配結(jié)果;其中,所述文本信息識別模板包括符合句法規(guī)則的字符串。
進(jìn)一步地,所述裝置還包括:
第二接收單元,用于接收第二文本信息;
發(fā)送單元,用于響應(yīng)于用戶標(biāo)識所述第二文本信息的操作,向所述服務(wù)器發(fā)送所述第二文本信息。
其中,本發(fā)明裝置各單元或模塊的設(shè)置可以參照圖1至圖3所示的方法而實(shí)現(xiàn),在此不贅述。
參見圖6,為根據(jù)一示例性實(shí)施例示出的一種用于文本信息處理的裝置的框圖。例如,裝置600可以是移動電話,計算機(jī),數(shù)字廣播終端,消息收發(fā)設(shè)備,游戲控制臺,平板設(shè)備,醫(yī)療設(shè)備,健身設(shè)備,個人數(shù)字助理等。
參照圖6,裝置600可以包括以下一個或多個組件:處理組件602,存儲器604,電源組件606,多媒體組件606,音頻組件610,輸入/輸出(i/o)的接口612,傳感器組件614,以及通信組件616。
處理組件602通常控制裝置600的整體操作,諸如與顯示,電話呼叫,數(shù)據(jù)通信,相機(jī)操作和記錄操作相關(guān)聯(lián)的操作。處理組件602可以包括一個或多個處理器620來執(zhí)行指令,以完成上述的方法的全部或部分步驟。此外,處理組件602可以包括一個或多個模塊,便于處理組件602和其他組件之間的交互。例如,處理部件602可以包括多媒體模塊,以方便多媒體組件606和處理組件602之間的交互。
存儲器604被配置為存儲各種類型的數(shù)據(jù)以支持在設(shè)備600的操作。這些數(shù)據(jù)的示例包括用于在裝置600上操作的任何應(yīng)用程序或方法的指令,聯(lián)系人數(shù)據(jù),電話簿數(shù)據(jù),消息,圖片,視頻等。存儲器604可以由任何類型的易失性或非易失性存儲設(shè)備或者它們的組合實(shí)現(xiàn),如靜態(tài)隨機(jī)存取存儲器(sram),電可擦除可編程只讀存儲器(eeprom),可擦除可編程只讀存儲器(eprom),可編程只讀存儲器(prom),只讀存儲器(rom),磁存儲器,快閃存儲器,磁盤或光盤。
電源組件606為裝置600的各種組件提供電力。電源組件606可以包括電源管理系統(tǒng),一個或多個電源,及其他與為裝置600生成、管理和分配電力相關(guān)聯(lián)的組件。
多媒體組件606包括在所述裝置600和用戶之間的提供一個輸出接口的屏幕。在一些實(shí)施例中,屏幕可以包括液晶顯示器(lcd)和觸摸面板(tp)。如果屏幕包括觸摸面板,屏幕可以被實(shí)現(xiàn)為觸摸屏,以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸摸傳感器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸傳感器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關(guān)的持續(xù)時間和壓力。在一些實(shí)施例中,多媒體組件606包括一個前置攝像頭和/或后置攝像頭。當(dāng)設(shè)備600處于操作模式,如拍攝模式或視頻模式時,前置攝像頭和/或后置攝像頭可以接收外部的多媒體數(shù)據(jù)。每個前置攝像頭和后置攝像頭可以是一個固定的光學(xué)透鏡系統(tǒng)或具有焦距和光學(xué)變焦能力。
音頻組件610被配置為輸出和/或輸入音頻信號。例如,音頻組件610包括一個麥克風(fēng)(mic),當(dāng)裝置600處于操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風(fēng)被配置為接收外部音頻信號。所接收的音頻信號可以被進(jìn)一步存儲在存儲器604或經(jīng)由通信組件616發(fā)送。在一些實(shí)施例中,音頻組件610還包括一個揚(yáng)聲器,用于輸出音頻信號。
i/o接口612為處理組件602和外圍接口模塊之間提供接口,上述外圍接口模塊可以是鍵盤,點(diǎn)擊輪,按鈕等。這些按鈕可包括但不限于:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
傳感器組件614包括一個或多個傳感器,用于為裝置600提供各個方面的狀態(tài)評估。例如,傳感器組件614可以檢測到設(shè)備600的打開/關(guān)閉狀態(tài),組件的相對定位,例如所述組件為裝置600的顯示器和小鍵盤,傳感器組件614還可以檢測裝置600或裝置600一個組件的位置改變,用戶與裝置600接觸的存在或不存在,裝置600方位或加速/減速和裝置600的溫度變化。傳感器組件614可以包括接近傳感器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。傳感器組件614還可以包括光傳感器,如cmos或ccd圖像傳感器,用于在成像應(yīng)用中使用。在一些實(shí)施例中,該傳感器組件614還可以包括加速度傳感器,陀螺儀傳感器,磁傳感器,壓力傳感器或溫度傳感器。
通信組件616被配置為便于裝置600和其他設(shè)備之間有線或無線方式的通信。裝置600可以接入基于通信標(biāo)準(zhǔn)的無線網(wǎng)絡(luò),如wifi,2g或3g,或它們的組合。在一個示例性實(shí)施例中,通信部件616經(jīng)由廣播信道接收來自外部廣播管理系統(tǒng)的廣播信號或廣播相關(guān)信息。在一個示例性實(shí)施例中,所述通信部件616還包括近場通信(nfc)模塊,以促進(jìn)短程通信。例如,在nfc模塊可基于射頻識別(rfid)技術(shù),紅外數(shù)據(jù)協(xié)會(irda)技術(shù),超寬帶(uwb)技術(shù),藍(lán)牙(bt)技術(shù)和其他技術(shù)來實(shí)現(xiàn)。
在示例性實(shí)施例中,裝置600可以被一個或多個應(yīng)用專用集成電路(asic)、數(shù)字信號處理器(dsp)、數(shù)字信號處理設(shè)備(dspd)、可編程邏輯器件(pld)、現(xiàn)場可編程門陣列(fpga)、控制器、微控制器、微處理器或其他電子元件實(shí)現(xiàn),用于執(zhí)行上述方法。
具體地,本發(fā)明實(shí)施例提供了一種文本信息處理裝置600,包括有存儲器604,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器604中,且經(jīng)配置以由一個或者一個以上處理器620執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
獲取文本信息;
對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板;所述文本信息識別模板用于進(jìn)行文本信息匹配。
進(jìn)一步地,所述處理器620具體還用于執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
接收包含第一標(biāo)識的文本信息;所述第一標(biāo)識用于標(biāo)識所述文本信息;
或者,
響應(yīng)于用戶標(biāo)識文本信息的操作,獲取所述文本信息。
進(jìn)一步地,所述處理器620具體還用于執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
利用正則表達(dá)式對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板;其中,所述文本信息識別模板包括符合句法規(guī)則的字符串。
進(jìn)一步地,所述處理器620具體還用于執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
對所述文本信息進(jìn)行聚類處理,獲取所述文本信息所屬的文本類別;
所述對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板具體為:
對符合預(yù)設(shè)條件的文本類別對應(yīng)的文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。
進(jìn)一步地,所述處理器620具體還用于執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
獲取所述文本信息的核心信息對應(yīng)的語種,去除所述文本信息中非所述語種的語言表示的字符,獲得處理后的文本信息;
將所述處理后的文本信息與所述服務(wù)器存儲的文本類別中的文本信息進(jìn)行比較,獲取所述處理后的文本信息與所述服務(wù)器存儲的文本類別中的文本信息的相似度值;
若所述處理后的文本信息與所述服務(wù)器存儲的任意一個文本類別中的文本信息的相似度值大于第一設(shè)定閾值,確定所述處理后的文本信息屬于所述文本類別;
若所述處理后的文本信息與所述服務(wù)器存儲的所有文本類別中的文本信息的相似度值小于第一設(shè)定閾值,為所述文本信息創(chuàng)建新的文本類別。
進(jìn)一步地,所述處理器620具體還用于執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
利用正則表達(dá)式對符合預(yù)設(shè)條件的文本類別對應(yīng)的文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板。
在示例性實(shí)施例中,還提供了一種包括指令的非臨時性計算機(jī)可讀存儲介質(zhì),例如包括指令的存儲器604,上述指令可由裝置600的處理器620執(zhí)行以完成上述方法。例如,所述非臨時性計算機(jī)可讀存儲介質(zhì)可以是rom、隨機(jī)存取存儲器(ram)、cd-rom、磁帶、軟盤和光數(shù)據(jù)存儲設(shè)備等。
一種非臨時性計算機(jī)可讀存儲介質(zhì),當(dāng)所述存儲介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時,使得電子設(shè)備能夠執(zhí)行一種文本信息處理方法,所述方法包括:
獲取文本信息;
對所述文本信息進(jìn)行規(guī)則提取,生成文本信息識別模板;所述文本信息識別模板用于進(jìn)行文本信息匹配。
圖7是根據(jù)另一示例性實(shí)施例示出的一種用于文本信息處理的裝置700的框圖。例如,裝置700可以是移動電話,計算機(jī),數(shù)字廣播終端,消息收發(fā)設(shè)備,游戲控制臺,平板設(shè)備,醫(yī)療設(shè)備,健身設(shè)備,個人數(shù)字助理等。
裝置700可以包括以下一個或多個組件:處理組件702,存儲器704,電源組件706,多媒體組件708,音頻組件710,輸入/輸出(i/o)的接口712,傳感器組件714,以及通信組件716。
處理組件702通??刂蒲b置700的整體操作,諸如與顯示,電話呼叫,數(shù)據(jù)通信,相機(jī)操作和記錄操作相關(guān)聯(lián)的操作。處理組件702可以包括一個或多個處理器720來執(zhí)行指令,以完成上述的方法的全部或部分步驟。此外,處理組件702可以包括一個或多個模塊,便于處理組件702和其他組件之間的交互。例如,處理部件702可以包括多媒體模塊,以方便多媒體組件708和處理組件702之間的交互。
存儲器704被配置為存儲各種類型的數(shù)據(jù)以支持在設(shè)備700的操作。這些數(shù)據(jù)的示例包括用于在裝置700上操作的任何應(yīng)用程序或方法的指令,聯(lián)系人數(shù)據(jù),電話簿數(shù)據(jù),消息,圖片,視頻等。存儲器704可以由任何類型的易失性或非易失性存儲設(shè)備或者它們的組合實(shí)現(xiàn),如靜態(tài)隨機(jī)存取存儲器(sram),電可擦除可編程只讀存儲器(eeprom),可擦除可編程只讀存儲器(eprom),可編程只讀存儲器(prom),只讀存儲器(rom),磁存儲器,快閃存儲器,磁盤或光盤。
電源組件706為裝置700的各種組件提供電力。電源組件706可以包括電源管理系統(tǒng),一個或多個電源,及其他與為裝置700生成、管理和分配電力相關(guān)聯(lián)的組件。
多媒體組件708包括在所述裝置700和用戶之間的提供一個輸出接口的屏幕。在一些實(shí)施例中,屏幕可以包括液晶顯示器(lcd)和觸摸面板(tp)。如果屏幕包括觸摸面板,屏幕可以被實(shí)現(xiàn)為觸摸屏,以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸摸傳感器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸傳感器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與所述觸摸或滑動操作相關(guān)的持續(xù)時間和壓力。在一些實(shí)施例中,多媒體組件708包括一個前置攝像頭和/或后置攝像頭。當(dāng)設(shè)備700處于操作模式,如拍攝模式或視頻模式時,前置攝像頭和/或后置攝像頭可以接收外部的多媒體數(shù)據(jù)。每個前置攝像頭和后置攝像頭可以是一個固定的光學(xué)透鏡系統(tǒng)或具有焦距和光學(xué)變焦能力。
音頻組件710被配置為輸出和/或輸入音頻信號。例如,音頻組件710包括一個麥克風(fēng)(mic),當(dāng)裝置700處于操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風(fēng)被配置為接收外部音頻信號。所接收的音頻信號可以被進(jìn)一步存儲在存儲器704或經(jīng)由通信組件716發(fā)送。在一些實(shí)施例中,音頻組件710還包括一個揚(yáng)聲器,用于輸出音頻信號。
i/o接口712為處理組件702和外圍接口模塊之間提供接口,上述外圍接口模塊可以是鍵盤,點(diǎn)擊輪,按鈕等。這些按鈕可包括但不限于:主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。
傳感器組件714包括一個或多個傳感器,用于為裝置700提供各個方面的狀態(tài)評估。例如,傳感器組件714可以檢測到設(shè)備700的打開/關(guān)閉狀態(tài),組件的相對定位,例如所述組件為裝置700的顯示器和小鍵盤,傳感器組件714還可以檢測裝置700或裝置700一個組件的位置改變,用戶與裝置700接觸的存在或不存在,裝置700方位或加速/減速和裝置700的溫度變化。傳感器組件714可以包括接近傳感器,被配置用來在沒有任何的物理接觸時檢測附近物體的存在。傳感器組件714還可以包括光傳感器,如cmos或ccd圖像傳感器,用于在成像應(yīng)用中使用。在一些實(shí)施例中,該傳感器組件714還可以包括加速度傳感器,陀螺儀傳感器,磁傳感器,壓力傳感器或溫度傳感器。
通信組件716被配置為便于裝置700和其他設(shè)備之間有線或無線方式的通信。裝置700可以接入基于通信標(biāo)準(zhǔn)的無線網(wǎng)絡(luò),如wifi,2g或3g,或它們的組合。在一個示例性實(shí)施例中,通信部件716經(jīng)由廣播信道接收來自外部廣播管理系統(tǒng)的廣播信號或廣播相關(guān)信息。在一個示例性實(shí)施例中,所述通信部件716還包括近場通信(nfc)模塊,以促進(jìn)短程通信。例如,在nfc模塊可基于射頻識別(rfid)技術(shù),紅外數(shù)據(jù)協(xié)會(irda)技術(shù),超寬帶(uwb)技術(shù),藍(lán)牙(bt)技術(shù)和其他技術(shù)來實(shí)現(xiàn)。
在示例性實(shí)施例中,裝置700可以被一個或多個應(yīng)用專用集成電路(asic)、數(shù)字信號處理器(dsp)、數(shù)字信號處理設(shè)備(dspd)、可編程邏輯器件(pld)、現(xiàn)場可編程門陣列(fpga)、控制器、微控制器、微處理器或其他電子元件實(shí)現(xiàn),用于執(zhí)行上述方法。
具體地,本發(fā)明實(shí)施例提供了一種用于文本信息處理的裝置,包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經(jīng)配置以由一個或者一個以上處理器執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
接收第一文本信息;
將所述第一文本信息與預(yù)存的文本信息識別模板進(jìn)行匹配,獲得匹配結(jié)果;其中,所述文本信息識別模板包括符合句法規(guī)則的字符串,用于進(jìn)行文本信息匹配;
根據(jù)所述匹配結(jié)果,標(biāo)識所述文本信息的可信度。。
進(jìn)一步地,所述處理器720還用于執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
根據(jù)獲取的所述第一文本信息與預(yù)存的文本信息識別模板的匹配值以及預(yù)先保存的匹配值與可信度等級的對應(yīng)關(guān)系,標(biāo)識所述文本信息的可信度等級。
進(jìn)一步地,所述處理器720還用于執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
當(dāng)所述匹配結(jié)果表明所述第一文本信息與預(yù)存的文本信息識別模板完全匹配時,輸出與完全匹配結(jié)果對應(yīng)的可信度結(jié)果;
當(dāng)所述匹配結(jié)果表明所述第一文本信息與預(yù)存的文本信息識別模板部分匹配時,輸出與部分匹配結(jié)果對應(yīng)的可信度結(jié)果。
進(jìn)一步地,所述處理器720還用于執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
將所述第一文本信息與所述客戶端本地預(yù)存的文本信息識別模板進(jìn)行匹配,獲得第一匹配結(jié)果;
當(dāng)所述匹配結(jié)果符合預(yù)設(shè)條件時,向服務(wù)器發(fā)送所述第一文本信息;
接收所述服務(wù)器在將所述第一文本信息與服務(wù)器預(yù)存的文本信息識別模板進(jìn)行匹配獲得的第二匹配結(jié)果;
根據(jù)所述第二匹配結(jié)果標(biāo)識文本信息的可信度。
進(jìn)一步地,所述處理器720還用于執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:利用正則表達(dá)式將所述文本信息與預(yù)存的文本信息識別模板進(jìn)行匹配,獲得匹配結(jié)果。
進(jìn)一步地,所述處理器720還用于執(zhí)行所述一個或者一個以上程序包含用于進(jìn)行以下操作的指令:
接收第二文本信息;
響應(yīng)于用戶標(biāo)識所述第二文本信息的操作,向所述服務(wù)器發(fā)送所述第二文本信息。
在示例性實(shí)施例中,還提供了一種包括指令的非臨時性計算機(jī)可讀存儲介質(zhì),例如包括指令的存儲器704,上述指令可由裝置700的處理器720執(zhí)行以完成上述方法。例如,所述非臨時性計算機(jī)可讀存儲介質(zhì)可以是rom、隨機(jī)存取存儲器(ram)、cd-rom、磁帶、軟盤和光數(shù)據(jù)存儲設(shè)備等。
一種非臨時性計算機(jī)可讀存儲介質(zhì),當(dāng)所述存儲介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時,使得電子設(shè)備能夠執(zhí)行一種文本信息處理方法,所述方法包括:
接收第一文本信息;
將所述第一文本信息與預(yù)存的文本信息識別模板進(jìn)行匹配,獲得匹配結(jié)果;其中,所述文本信息識別模板用于進(jìn)行文本信息匹配;
根據(jù)所述匹配結(jié)果,標(biāo)識所述文本信息的可信度。
本領(lǐng)域技術(shù)人員在考慮說明書及實(shí)踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實(shí)施方案。本發(fā)明旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實(shí)施例僅被視為示例性的,本發(fā)明的真正范圍和精神由下面的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制
以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。本發(fā)明可以在由計算機(jī)執(zhí)行的計算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計算機(jī)存儲介質(zhì)中。
本說明書中的各個實(shí)施例均采用遞進(jìn)的方式描述,各個實(shí)施例之間相同相似的部分互相參見即可,每個實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實(shí)施。以上所述僅是本發(fā)明的具體實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。