專利名稱:垃圾短信處理方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理系統(tǒng),特別是涉及一種垃圾短信處理方法和系統(tǒng)。
背景技術(shù):
隨著移動通信的蓬勃發(fā)展,短信成為用戶基礎(chǔ)最為廣泛的移動增值業(yè)務(wù)。然而繁榮滋生弊病,垃圾短信(即非用戶所需要的,對用戶造成騷擾的短信)泛濫使手機用戶深受其擾。用戶對垃圾短信治理有強烈需求。各類垃圾短信過濾系統(tǒng)應(yīng)時而生。然而現(xiàn)有的垃圾短信過濾系統(tǒng)對垃圾短信的判定大多基于面向所有用戶統(tǒng)一的固定準則。這對于不良短信、非法短信的過濾還是有顯著效果的。但對于如廣告內(nèi)容的短信,不同用戶有著不同的定義與需求,對某用戶造成騷擾的短信卻可能是另一用戶亟需的資訊。
發(fā)明內(nèi)容
本發(fā)明的目的是提出一種垃圾短信處理方法和系統(tǒng),以提供可以適應(yīng)用戶個性化過濾需求的垃圾短信過濾方案。為實現(xiàn)上述目的,本發(fā)明提供了一種垃圾短信處理方法,包括移動終端的垃圾短信過濾客戶端根據(jù)垃圾短信判決準則將接收到的短信中的垃圾短信過濾出來;垃圾短信過濾客戶端將未能過濾出的垃圾短信反饋給垃圾短信處理平臺;垃圾短信處理平臺根據(jù)反饋短信分類準則對接收到的反饋短信進行分類;垃圾短信處理平臺根據(jù)對反饋短信的分類, 將不同屬性的反饋短信分別存儲到不同的語料庫;垃圾短信處理平臺基于語料庫建立用戶模型;通過對用戶模型的訓(xùn)練,垃圾短信處理平臺生成或更新反饋短信分類準則和垃圾短信判決準則;垃圾短信處理平臺將垃圾短信判決準則發(fā)送給移動終端的垃圾短信過濾客戶端。在一個實施例中,垃圾短信處理平臺基于語料庫建立用戶模型,包括垃圾短信處理平臺通過提取短信的分詞結(jié)構(gòu)和使用詞頻對語料庫存儲的短信進行特征統(tǒng)計;垃圾短信處理平臺根據(jù)對語料庫的短信的特征統(tǒng)計建立用戶模型。在一個實施例中,通過對用戶模型的訓(xùn)練,垃圾短信處理平臺生成或更新反饋短信分類準則和垃圾短信判決準則,包括垃圾短信處理平臺通過采用統(tǒng)計模式識別方法對用戶模型的訓(xùn)練選取出最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù);垃圾短信處理平臺根據(jù)最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新反饋短信分類準則和垃圾短信判決準則。在一個實施例中,垃圾短信處理平臺根據(jù)對反饋短信的分類,將不同屬性的反饋短信分別存儲到不同的語料庫,包括垃圾短信處理平臺將反饋短信分類為公用短信和個性化短信;垃圾短信處理平臺將公用短信存儲到所有用戶能夠共享的公用短信語料庫,將個性化短信存儲到網(wǎng)絡(luò)側(cè)分別為不同用戶設(shè)立的個性化語料庫。在一個實施例中,網(wǎng)絡(luò)側(cè)分別為不同用戶設(shè)立的個性化語料庫采用用戶的移動識別碼進行標識。
4
在一個實施例中,垃圾短信處理平臺基于語料庫建立用戶模型,包括垃圾短信處理平臺通過提取短信的分詞結(jié)構(gòu)和使用詞頻分別對公用短信語料庫和個性化語料庫存儲的短信進行特征統(tǒng)計;垃圾短信處理平臺根據(jù)對公用短信語料庫的短信的特征統(tǒng)計建立用戶基本模型,根據(jù)對個性化語料庫的短信的特征統(tǒng)計建立用戶特性模型。在一個實施例中,通過對用戶模型的訓(xùn)練,垃圾短信處理平臺生成或更新反饋短信分類準則和垃圾短信判決準則,包括垃圾短信處理平臺通過采用統(tǒng)計模式識別方法對用戶基本模型的訓(xùn)練選取出第一最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù),根據(jù)第一最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新反饋短信分類準則和垃圾短信判決基本準則;垃圾短信處理平臺通過采用統(tǒng)計模式識別方法對用戶基本模型和用戶特性模型的線性聯(lián)合訓(xùn)練選取出第二最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù),根據(jù)第二最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新反饋短信分類準則和垃圾短信個性化判決準則。在一個實施例中,垃圾短信處理平臺將垃圾短信判決準則發(fā)送給移動終端的垃圾短信過濾客戶端,包括垃圾短信處理平臺根據(jù)用戶的定制情況,將垃圾短信判決基本準則和/或垃圾短信個性化判決準則發(fā)送給移動終端垃圾短信過濾客戶端。為實現(xiàn)上述目的,本發(fā)明還提供了一種垃圾短信處理系統(tǒng),包括移動終端的垃圾短信過濾客戶端,用于根據(jù)垃圾短信判決準則將接收到的短信中的垃圾短信過濾出來,并發(fā)送反饋短信,反饋短信為所屬垃圾短信過濾客戶端未能過濾出的垃圾短信;垃圾短信處理平臺,包括接收模塊,用于接收反饋短信;分類模塊,用于根據(jù)反饋短信分類準則對反饋短信進行分類,根據(jù)對反饋短信的分類,將不同屬性的反饋短信分別存儲到不同的語料庫;用戶建模模塊,用于基于語料庫建立用戶模型;訓(xùn)練機,用于通過對用戶模型的訓(xùn)練, 生成或更新反饋短信分類準則和垃圾短信判決準則;發(fā)送模塊,用于將垃圾短信判決準則發(fā)送給垃圾短信過濾客戶端。在一個實施例中,用戶建模模塊,包括特征統(tǒng)計單元,用于通過提取短信的分詞結(jié)構(gòu)和使用詞頻對語料庫存儲的短信進行特征統(tǒng)計;建模單元,用于根據(jù)對語料庫的短信的特征統(tǒng)計建立用戶模型。在一個實施例中,訓(xùn)練機,包括訓(xùn)練單元,用于通過采用統(tǒng)計模式識別方法對用戶模型的訓(xùn)練選取出最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù);準則建立單元,用于根據(jù)最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新反饋短信分類準則和垃圾短信判決準則。在一個實施例中,語料庫包括公用短信語料庫和個性化語料庫,其中,分類模塊將反饋短信分類為公用短信和個性化短信,并將公用短信存儲到所有用戶能夠共享的公用短信語料庫,將個性化短信存儲到網(wǎng)絡(luò)側(cè)分別為不同用戶設(shè)立的個性化語料庫?;谏鲜黾夹g(shù)方案,根據(jù)本發(fā)明的一方面,網(wǎng)絡(luò)側(cè)的垃圾短信處理平臺可以基于用戶反饋的短信進行用戶建模,從而生成垃圾短信判決準則和反饋短信分類準則。移動終端的客戶端可以根據(jù)垃圾短信判決準則對接收到的垃圾短信進行過濾。通過垃圾短信處理平臺對垃圾短信判決準則和反饋短信分類準則的更新,不斷的提高過濾精度,適應(yīng)用戶的需求。
此處所說明的附圖用來提供對本發(fā)明的進一步解釋,構(gòu)成本發(fā)明的一部分。本發(fā)明的示意性實施例及其說明僅用于解釋本發(fā)明,但并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附
圖
圖
圖
圖
圖
具體實施例方式下面參照附圖對本發(fā)明進行更詳細的描述,其中說明本發(fā)明的示例性實施例。在附圖中,相同的標號表示相同或者相似的組件或者元素。圖I為根據(jù)本發(fā)明實施例的垃圾短信處理方法100的流程圖。在步驟102中,移動終端的垃圾短信過濾客戶端根據(jù)垃圾短信判決準則將接收到的短信中的垃圾短信過濾出來。在步驟104中,垃圾短信過濾客戶端將未能過濾出的垃圾短信反饋給垃圾短信處理平臺。在步驟106中,垃圾短信處理平臺根據(jù)反饋短信分類準則對接收到的反饋短信進行分類。在步驟108中,垃圾短信處理平臺根據(jù)對反饋短信的分類,將不同屬性的反饋短信分別存儲到不同的語料庫。在步驟110中,垃圾短信處理平臺基于語料庫建立用戶模型。在步驟112中,通過對用戶模型的訓(xùn)練,垃圾短信處理平臺生成或更新反饋短信分類準則和垃圾短信判決準則。在步驟114中,垃圾短信處理平臺將垃圾短信判決準則發(fā)送給移動終端的垃圾短信過濾客戶端。圖2為根據(jù)本發(fā)明另一實施例的垃圾短信處理方法200的流程圖。在步驟202中,移動終端的垃圾短信過濾客戶端根據(jù)垃圾短信判決準則將接收到的短信中的垃圾短信過濾出來。垃圾短信過濾客戶端可以是安置在移動終端內(nèi)的面向用戶的應(yīng)用軟件。垃圾短信過濾客戶端可以存儲和維護垃圾短信判決準則。移動終端接收到短信時,垃圾短信過濾客戶端可以根據(jù)垃圾短信判決準則對短信進行過濾判決,比如,將垃圾短信過濾至垃圾短信信箱,不向用戶發(fā)通知信號音,正常短信正常接收。垃圾短信判決準則由后續(xù)流程中網(wǎng)絡(luò)側(cè)的垃圾短信處理平臺基于用戶模型生成和更新。不同用戶的垃圾短信判決準則可以是有差異性的。在步驟204中,垃圾短信過濾客戶端將未能過濾出的垃圾短信反饋給垃圾短信處理平臺。垃圾短信處理平臺是網(wǎng)絡(luò)側(cè)的短信存儲和處理系統(tǒng)。在步驟206中,垃圾短信處理平臺根據(jù)反饋短信分類準則對接收到的反饋短信進行分類。比如,垃圾短信處理平臺可以將反饋短信分類為公用短信和個性化短信。垃圾短信處理平臺可以保存維護反饋短信分類準則。反饋短信分類準則可以由后續(xù)流程中垃圾短信處理平臺基于用戶模型生成和更新。在步驟208中,垃圾短信處理平臺根據(jù)對反饋短信的分類,將不同屬性的反饋短信分別存儲到不同的語料庫。語料庫可以文件形式分類存儲,不同類別不同用戶的語料庫可以彼此隔離。比如,垃圾短信處理平臺可以將公用短信存儲到所有用戶能夠共享的公用短信語料庫,將個性化短信存儲到網(wǎng)絡(luò)側(cè)分別為不同用戶設(shè)立的個性化語料庫。在步驟210中,垃圾短信處理平臺通過提取短信的分詞結(jié)構(gòu)和使用詞頻對語料庫存儲的短信進行特征統(tǒng)計。在步驟212中,垃圾短信處理平臺根據(jù)對語料庫的短信的特征統(tǒng)計建立用戶模型。垃圾短信處理平臺可以數(shù)據(jù)庫形式存儲和索引用戶短信特征。在步驟214中,垃圾短信處理平臺通過采用統(tǒng)計模式識別方法對用戶模型的訓(xùn)練選取出最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)。在步驟216中,垃圾短信處理平臺根據(jù)最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新反饋短信分類準則和垃圾短信判決準則。在步驟218中,垃圾短信處理平臺將垃圾短信判決準則發(fā)送給移動終端的垃圾短信過濾客戶端。在一個實施例中,垃圾短信處理平臺可以預(yù)定周期將垃圾短信判決準則發(fā)送給移動終端的垃圾短信過濾客戶端。在另一個實施例中,垃圾短信處理平臺可以根據(jù)移動終端的觸發(fā),對垃圾短信過濾客戶端的垃圾短信判決準則進行更新。圖3為根據(jù)本發(fā)明又一實施例的垃圾短信處理方法300的流程圖。在步驟302中,移動終端的垃圾短信過濾客戶端根據(jù)垃圾短信判決準則將接收到的短信中的垃圾短信過濾出來。不同用戶的垃圾短信判決準則可以是有差異性的。在步驟304中,垃圾短信過濾客戶端將未能過濾出的垃圾短信反饋給垃圾短信處理平臺。在步驟306中,垃圾短信處理平臺可以根據(jù)反饋短信分類準則將移動終端的反饋短信分類為公用短信和個性化短信。垃圾短信處理平臺可以保存維護反饋短信分類準則。 垃圾短信處理平臺可以將與現(xiàn)有垃圾短信定義相似度較高的短信存儲為公用短信,將反映用戶個性化需求的短信存儲為個性化短信。在步驟308中,垃圾短信處理平臺可以為所有用戶建立能夠共享的公用短信語料庫,用于存儲公用短信。在步驟310中,垃圾短信處理平臺通過提取短信的分詞結(jié)構(gòu)和使用詞頻對公用短信語料庫的短信進行特征統(tǒng)計。在步驟312中,垃圾短信處理平臺根據(jù)對公用短信語料庫的短信的特征統(tǒng)計建立用戶基本模型。在步驟314中,垃圾短信處理平臺通過采用統(tǒng)計模式識別方法對用戶基本模型的訓(xùn)練選取出第一最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù),根據(jù)第一最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新反饋短信分類準則和垃圾短信判決基本準則。統(tǒng)計模式識別是人工智能和模式識別技術(shù)中一類傳統(tǒng)的方法理論。其原理是將模式用n維向量來表示,即模式特征。模式類就是這些向量的集合。統(tǒng)計模式識別方法通過對有限數(shù)據(jù)樣本做訓(xùn)練,研究模式類的統(tǒng)計概率模型,確定不同模式類在某一特征空間彼此隔離的最優(yōu)決策界,從而確定統(tǒng)計模式識別的分類器。統(tǒng)計模式識別方法包括貝葉斯分類、線性判別函數(shù)、近鄰法分類、最小距離分類、聚類分類等。垃圾短信處理平臺可以通過對用戶基本模型的訓(xùn)練選取出不同的最優(yōu)分詞結(jié)構(gòu)和不同的函數(shù)參數(shù),進而分別生成反饋短信分類準則和垃圾短信判決基本準則。在一個實施例中,反饋短信分類準則可以比垃圾短信判決基本準則精度要求略低一個比例。在步驟316中,垃圾短信處理平臺將垃圾短信判決基本準則發(fā)送給移動終端垃圾短信過濾客戶端,該移動終端的用戶可以是非個性化服務(wù)定制用戶。在步驟318中,垃圾短信處理平臺為定制個性化服務(wù)的用戶開辟個性化存儲空間,即個性化語料庫,存儲個性化短信。其中,垃圾短信處理平臺可以為不同的用戶分別建設(shè)個性化語料庫。在一個實施例中,網(wǎng)絡(luò)側(cè)分別為不同用戶設(shè)立的個性化語料庫可以采用用戶的移動識別碼進行標識。用虛擬化方法實現(xiàn)用戶與其移動識別碼標識的個性化語料庫的一一對應(yīng)關(guān)系。利用移動識別碼可以對用戶身份進行認證,實現(xiàn)個性化語料庫的控制訪問,保證彼此隔離。在步驟320中,垃圾短信處理平臺通過提取短信的分詞結(jié)構(gòu)和使用詞頻對個性化語料庫存儲的短信進行特征統(tǒng)計。在步驟322中,垃圾短信處理平臺根據(jù)對個性化語料庫的短信的特征統(tǒng)計建立用戶特性模型。在步驟324中,垃圾短信處理平臺通過采用統(tǒng)計模式識別方法對用戶基本模型和用戶特性模型的線性聯(lián)合訓(xùn)練選取出第二最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù),根據(jù)第二最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新反饋短信分類準則和垃圾短信個性化判決準則。垃圾短信處理平臺可以通過對用戶基本模型和用戶特性模型的線性聯(lián)合訓(xùn)練選取出不同的最優(yōu)分詞結(jié)構(gòu)和不同的函數(shù)參數(shù),進而分別生成反饋短信分類準則和垃圾短信個性化判決準則。在一個實施例中,用戶基本模型和用戶特性模型的雙模型結(jié)構(gòu)按訓(xùn)練學(xué)習(xí)出的權(quán)重,組合詞頻,參與后續(xù)的訓(xùn)練過程。在步驟326中,垃圾短信處理平臺可以將垃圾短信個性化判決準則發(fā)送給已定制個性化服務(wù)的移動終端垃圾短信過濾客戶端。圖4為根據(jù)本發(fā)明實施例的垃圾短信處理系統(tǒng)400的結(jié)構(gòu)示意圖。垃圾短信處理系統(tǒng)400包括垃圾短信過濾客戶端402和垃圾短信處理平臺404。移動終端的垃圾短信過濾客戶端402,用于根據(jù)垃圾短信判決準則將接收到的短信中的垃圾短信過濾出來,并發(fā)送反饋短信,反饋短信為所屬垃圾短信過濾客戶端未能過濾出的垃圾短信。垃圾短信處理平臺404,如圖5所示,包括接收模塊502、分類模塊504、用戶建模模塊505、訓(xùn)練機506和發(fā)送模塊508。接收模塊502,用于接收反饋短信。分類模塊504,用于根據(jù)反饋短信分類準則對反饋短信進行分類,根據(jù)對反饋短信的分類,將不同屬性的反饋短信分別存儲到不同的語料庫。用戶建模模塊505,用于基于語料庫建立用戶模型。訓(xùn)練機506,用于通過對用戶模型的訓(xùn)練,生成或更新反饋短信分類準則和垃圾短信判決準則。 發(fā)送模塊508,用于將垃圾短信判決準則發(fā)送給垃圾短信過濾客戶端。圖6為根據(jù)本發(fā)明另一實施例的垃圾短信處理平臺600的結(jié)構(gòu)示意圖。垃圾短信處理平臺600包括接收模塊602、分類模塊604、用戶建模模塊605、訓(xùn)練機606和發(fā)送模塊 608。接收模塊602,用于接收反饋短信。
分類模塊604,用于根據(jù)反饋短信分類準則對反饋短信進行分類,根據(jù)對反饋短信的分類,將不同屬性的反饋短信分別存儲到不同的語料庫。用戶建模模塊605,用于基于語料庫建立用戶模型。用戶建模模塊605可以包括特征統(tǒng)計單元12和建模單元14。特征統(tǒng)計單元12,用于通過提取短信的分詞結(jié)構(gòu)和使用詞頻對語料庫存儲的短信進行特征統(tǒng)計。建模單元14,用于根據(jù)對語料庫的短信的特征統(tǒng)計建立用戶模型。訓(xùn)練機606,用于通過對用戶模型的訓(xùn)練,生成或更新反饋短信分類準則和垃圾短信判決準則。訓(xùn)練機606可以包括訓(xùn)練單元22和準則建立單元24。訓(xùn)練單元22,用于通過采用統(tǒng)計模式識別方法對用戶模型的訓(xùn)練選取出最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)。準則建立單元24,用于根據(jù)最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新反饋短信分類準則和垃圾短信判決準則。發(fā)送模塊608,用于將垃圾短信判決準則發(fā)送給垃圾短信過濾客戶端。在一個實施例中,語料庫可以包括公用短信語料庫和個性化語料庫。其中,分類模塊604將反饋短信分類為公用短信和個性化短信,并將公用短信存儲到所有用戶能夠共享的公用短信語料庫,將個性化短信存儲到網(wǎng)絡(luò)側(cè)分別為不同用戶設(shè)立的個性化語料庫。用戶建模模塊605可以通過提取短信的分詞結(jié)構(gòu)和使用詞頻分別對公用短信語料庫和個性化語料庫存儲的短信進行特征統(tǒng)計,并根據(jù)對公用短信語料庫的短信的特征統(tǒng)計建立用戶基本模型,根據(jù)對個性化語料庫的短信的特征統(tǒng)計建立用戶特性模型。訓(xùn)練機606可以通過采用統(tǒng)計模式識別方法對用戶基本模型的訓(xùn)練選取出第一最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù),根據(jù)第一最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新反饋短信分類準則和垃圾短信判決基本準則。訓(xùn)練機606通過采用統(tǒng)計模式識別方法對用戶基本模型和用戶特性模型的線性聯(lián)合訓(xùn)練選取出第二最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù),根據(jù)第二最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新反饋短信分類準則和垃圾短信個性化判決準則。在一個實施例中, 訓(xùn)練機606可以預(yù)定周期檢查用戶基本模型和用戶特性模型,若有變化,則啟動。發(fā)送模塊608可以根據(jù)用戶的定制情況,將垃圾短信判決基本準則和/或垃圾短信個性化判決準則發(fā)送給移動終端垃圾短信過濾客戶端。比如,將垃圾短信個性化判決準則發(fā)送給已定制個性化服務(wù)的用戶移動終端,將垃圾短信判決基本準則發(fā)送給非個性化服務(wù)的用戶移動終端?;谏鲜黾夹g(shù)方案,根據(jù)本發(fā)明的一方面,網(wǎng)絡(luò)側(cè)的垃圾短信處理平臺可以基于用戶反饋的短信進行用戶建模,從而生成垃圾短信判決準則和反饋短信分類準則。移動終端的客戶端可以根據(jù)垃圾短信判決準則對接收到的垃圾短信進行過濾。通過垃圾短信處理平臺對垃圾短信判決準則和反饋短信分類準則的更新,不斷的提高過濾精度,適應(yīng)用戶的需求。根據(jù)本發(fā)明的另一方面,垃圾短信處理平臺還可以根據(jù)用戶反饋的具有個性化特點的短信和具有公共特性的短信,分別建立用戶特性模型和用戶基本模型,通過對用戶特性模型與用戶基本模型的聯(lián)合訓(xùn)練,生成垃圾短信個性化判決準則,為用戶提供個性化服務(wù), 以適應(yīng)用戶的差異性要求。本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發(fā)明限于所公開的形式。很多修改和變化對于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描述實施例是為了更好說明本發(fā)明的原理和實際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計適于特定用途的帶有各種修改的各種實施例。
權(quán)利要求
1.一種垃圾短信處理方法,其特征在于,包括移動終端的垃圾短信過濾客戶端根據(jù)垃圾短信判決準則將接收到的短信中的垃圾短信過濾出來;所述垃圾短信過濾客戶端將未能過濾出的垃圾短信反饋給垃圾短信處理平臺;所述垃圾短信處理平臺根據(jù)反饋短信分類準則對接收到的反饋短信進行分類;所述垃圾短信處理平臺根據(jù)對所述反饋短信的分類,將不同屬性的所述反饋短信分別存儲到不同的語料庫;所述垃圾短信處理平臺基于所述語料庫建立用戶模型;通過對所述用戶模型的訓(xùn)練,所述垃圾短信處理平臺生成或更新所述反饋短信分類準則和所述垃圾短信判決準則;所述垃圾短信處理平臺將所述垃圾短信判決準則發(fā)送給移動終端的所述垃圾短信過濾客戶端。
2.根據(jù)權(quán)利要求I所述的垃圾短信處理方法,其特征在于,所述垃圾短信處理平臺基于所述語料庫建立所述用戶模型,包括所述垃圾短信處理平臺通過提取短信的分詞結(jié)構(gòu)和使用詞頻對所述語料庫存儲的短信進行特征統(tǒng)計;所述垃圾短信處理平臺根據(jù)對所述語料庫的短信的特征統(tǒng)計建立所述用戶模型。
3.根據(jù)權(quán)利要求I所述的垃圾短信處理方法,其特征在于,通過對所述用戶模型的訓(xùn)練,所述垃圾短信處理平臺生成或更新所述反饋短信分類準則和所述垃圾短信判決準則, 包括所述垃圾短信處理平臺通過采用統(tǒng)計模式識別方法對所述用戶模型的訓(xùn)練選取出最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù);所述垃圾短信處理平臺根據(jù)最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新所述反饋短信分類準則和所述垃圾短信判決準則。
4.根據(jù)權(quán)利要求I所述的垃圾短信處理方法,其特征在于,所述垃圾短信處理平臺根據(jù)對所述反饋短信的分類,將不同屬性的所述反饋短信分別存儲到不同的所述語料庫,包括所述垃圾短信處理平臺將所述反饋短信分類為公用短信和個性化短信;所述垃圾短信處理平臺將所述公用短信存儲到所有用戶能夠共享的公用短信語料庫, 將所述個性化短信存儲到網(wǎng)絡(luò)側(cè)分別為不同用戶設(shè)立的個性化語料庫。
5.根據(jù)權(quán)利要求4所述的垃圾短信處理方法,其特征在于,網(wǎng)絡(luò)側(cè)分別為不同用戶設(shè)立的所述個性化語料庫采用用戶的移動識別碼進行標識。
6.根據(jù)權(quán)利要求4所述的垃圾短信處理方法,其特征在于,所述垃圾短信處理平臺基于所述語料庫建立所述用戶模型,包括所述垃圾短信處理平臺通過提取短信的分詞結(jié)構(gòu)和使用詞頻分別對所述公用短信語料庫和所述個性化語料庫存儲的短信進行特征統(tǒng)計;所述垃圾短信處理平臺根據(jù)對所述公用短信語料庫的短信的特征統(tǒng)計建立用戶基本模型,根據(jù)對所述個性化語料庫的短信的特征統(tǒng)計建立用戶特性模型。
7.根據(jù)權(quán)利要求6所述的垃圾短信處理方法,其特征在于,通過對所述用戶模型的訓(xùn)練,所述垃圾短信處理平臺生成或更新所述反饋短信分類準則和所述垃圾短信判決準則, 包括所述垃圾短信處理平臺通過采用統(tǒng)計模式識別方法對所述用戶基本模型的訓(xùn)練選取出第一最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù),根據(jù)所述第一最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新所述反饋短信分類準則和垃圾短信判決基本準則;所述垃圾短信處理平臺通過采用統(tǒng)計模式識別方法對所述用戶基本模型和所述用戶特性模型的線性聯(lián)合訓(xùn)練選取出第二最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù),根據(jù)所述第二最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新反饋短信分類準則和垃圾短信個性化判決準則。
8.根據(jù)權(quán)利要求7所述的垃圾短信處理方法,其特征在于,所述垃圾短信處理平臺將所述垃圾短信判決準則發(fā)送給移動終端的所述垃圾短信過濾客戶端,包括所述垃圾短信處理平臺根據(jù)用戶的定制情況,將所述垃圾短信判決基本準則和/或所述垃圾短信個性化判決準則發(fā)送給移動終端所述垃圾短信過濾客戶端。
9.一種垃圾短信處理系統(tǒng),其特征在于,包括移動終端的垃圾短信過濾客戶端,用于根據(jù)垃圾短信判決準則將接收到的短信中的垃圾短信過濾出來,并發(fā)送反饋短信,所述反饋短信為所述垃圾短信過濾客戶端未能過濾出的垃圾短信;垃圾短信處理平臺,包括接收模塊,用于接收所述反饋短信;分類模塊,用于根據(jù)反饋短信分類準則對所述反饋短信進行分類,根據(jù)對所述反饋短信的分類,將不同屬性的所述反饋短信分別存儲到不同的語料庫;用戶建模模塊,用于基于所述語料庫建立用戶模型;訓(xùn)練機,用于通過對所述用戶模型的訓(xùn)練,生成或更新所述反饋短信分類準則和所述垃圾短信判決準則;發(fā)送模塊,用于將所述垃圾短信判決準則發(fā)送給所述垃圾短信過濾客戶端。
10.根據(jù)權(quán)利要求9所述的垃圾短信處理系統(tǒng),其特征在于,所述用戶建模模塊,包括特征統(tǒng)計單元,用于通過提取短信的分詞結(jié)構(gòu)和使用詞頻對所述語料庫存儲的短信進行特征統(tǒng)計;建模單元,用于根據(jù)對所述語料庫的短信的特征統(tǒng)計建立所述用戶模型。
11.根據(jù)權(quán)利要求9所述的垃圾短信處理系統(tǒng),其特征在于,所述訓(xùn)練機,包括訓(xùn)練單元,用于通過采用統(tǒng)計模式識別方法對所述用戶模型的訓(xùn)練選取出最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù);準則建立單元,用于根據(jù)最優(yōu)分詞結(jié)構(gòu)和函數(shù)參數(shù)生成或更新所述反饋短信分類準則和所述垃圾短信判決準則。
12.根據(jù)權(quán)利要求9所述的垃圾短信處理系統(tǒng),其特征在于,所述語料庫包括公用短信語料庫和個性化語料庫,其中,所述分類模塊將所述反饋短信分類為公用短信和個性化短信,并將所述公用短信存儲到所有用戶能夠共享的所述公用短信語料庫,將所述個性化短信存儲到網(wǎng)絡(luò)側(cè)分別為不同用戶設(shè)立的所述個性化語料庫。
全文摘要
本發(fā)明提供一種垃圾短信處理方法和系統(tǒng),涉及信息處理系統(tǒng)。其中,垃圾短信處理方法,包括移動終端的垃圾短信過濾客戶端根據(jù)垃圾短信判決準則將接收到的短信中的垃圾短信過濾出來;垃圾短信過濾客戶端將未能過濾出的垃圾短信反饋給垃圾短信處理平臺;垃圾短信處理平臺根據(jù)反饋短信分類準則對接收到的反饋短信進行分類;垃圾短信處理平臺將不同屬性的反饋短信分別存儲到不同的語料庫;垃圾短信處理平臺基于語料庫建立用戶模型;通過對用戶模型的訓(xùn)練,垃圾短信處理平臺生成或更新反饋短信分類準則和垃圾短信判決準則;垃圾短信處理平臺將垃圾短信判決準則發(fā)送給移動終端的垃圾短信過濾客戶端。本發(fā)明能夠?qū)绦挪粩嗟奶岣哌^濾精度,適應(yīng)用戶的需求。
文檔編號G06F17/30GK102547623SQ201110003289
公開日2012年7月4日 申請日期2011年1月10日 優(yōu)先權(quán)日2010年12月8日
發(fā)明者劉東鑫, 周斯寧, 樊寧, 沈軍 申請人:中國電信股份有限公司