一種基于賬號屬性的異常消息檢測方法及設(shè)備的制作方法
【專利摘要】本發(fā)明公開了一種異常消息檢測方法,包括:將被檢測消息的文本劃分為多個文本段;獲取每一文本段的一個或多個賬號屬性,并確定對應(yīng)于所述每一文本段各賬號屬性的發(fā)表比例參數(shù);根據(jù)所述發(fā)表比例參數(shù)確定所述每一文本段對應(yīng)各賬號屬性的第一因子;根據(jù)所述每一文本段對應(yīng)各賬號屬性的第一因子確定第二因子;根據(jù)所述第二因子確定所述被檢測消息是否為異常消息。通過將消息的發(fā)表賬號屬性與無差別文本分割處理結(jié)合使用貝葉斯算法,從而實現(xiàn)了對微博批量垃圾消息的有效限制,同時提高了垃圾消息處理的靈活性。
【專利說明】一種基于賬號屬性的異常消息檢測方法及設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機網(wǎng)絡(luò)領(lǐng)域,特別涉及一種基于賬號屬性的異常消息檢測方法及系統(tǒng)。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)即時通訊(IM, Instant Massager)工具發(fā)展到今天,已經(jīng)被大多數(shù)的網(wǎng)絡(luò)用戶所接受,并成為網(wǎng)絡(luò)用戶必不可少的軟件工具之一,不但在平時的休閑娛樂中使用,而且在用戶的工作中也得到了廣泛使用。在IM軟件中,主要實現(xiàn)的是一對一的好友單獨聊天以及一對N的群或者討論組的消息聊天模式。隨著互聯(lián)網(wǎng)應(yīng)用的不斷發(fā)展,類似推特(twitter)的微博應(yīng)用也在不斷發(fā)展壯大。
[0003]微博是微型博客的簡稱,其信息傳遞效率高,門檻低。通過微博用戶可以非??焖俚倪M行信息的傳播與傳遞,實現(xiàn)用戶消息聊天模式從一對一、一對N到一對無窮的一種跨越。這種一對無窮的模式意味著一個人可以對無窮多個人進行消息的傳播,同時一個人也可以收聽萬級以上的用戶的消息。但與此同時,這種大用戶量的應(yīng)用必然也會被許多的廣告發(fā)布者利用,通過微博向用戶轉(zhuǎn)發(fā)大量的廣告或是垃圾消息,這不僅造成了網(wǎng)絡(luò)資源的浪費,同時還會影響用戶的產(chǎn)品使用體驗。
[0004]現(xiàn)有技術(shù)中,微博運營商通過事先收集大量的垃圾消息和非垃圾消息,建立垃圾消息和非垃圾消息集,在接收到新的消息后,首先對被檢測消息進行分詞處理,然后再對這些詞分別求其在正常消息和垃圾消息樣本中出現(xiàn)的次數(shù),統(tǒng)計其屬于垃圾消息的概率,進而根據(jù)貝葉斯公式計算整條消息屬于垃圾消息的概率。
[0005]然而,在實際應(yīng)用當(dāng)中,發(fā)明人發(fā)現(xiàn)以上方法有很大的缺點,無法覆蓋到大部分的微博的垃圾消息,主要原因如下:
(I)、難以準(zhǔn)確獲取垃圾消息樣本庫:
垃圾消息樣本庫一般只能靠人工或者是其他一些行為檢測算法發(fā)現(xiàn),發(fā)現(xiàn)的時間往往有數(shù)小時的延遲,并且都存在誤判的情況。這樣對于樣本的完整性和準(zhǔn)確性都有很大的影響,直接導(dǎo)致每個詞的垃圾消息概率與真實值有極大的偏差。
[0006](2)、現(xiàn)有的垃圾消息或廣告針對分詞做規(guī)避處理,導(dǎo)致無法正確分詞:
傳統(tǒng)的檢測方法依賴于對被檢測消息的分詞處理,因此垃圾消息發(fā)送者在發(fā)送垃圾消息或廣告前往往會針對以上情況對消息進行處理:在詞句中間增加干擾符號,或利用孤僻的諧音字代替常用字。從而導(dǎo)致消息在分詞之后變成了一個個孤立的字,無法與樣本庫中的詞準(zhǔn)確匹配。
【發(fā)明內(nèi)容】
[0007]本發(fā)明提供一種異常消息檢測方法和設(shè)備,直接根據(jù)發(fā)表賬號的屬性特征,確定發(fā)送正常消息賬號和垃圾消息賬號的屬性異常概率;同時將消息文本進行劃分,通過計算劃分文本段的歷史發(fā)表的總賬號數(shù)與當(dāng)前賬號屬性的賬號數(shù)的因子,結(jié)合屬性異常概率進行貝葉斯計算。
[0008]為達到上述目的,本發(fā)明一方面提供了一種異常消息檢測方法,包括:
將被檢測消息的文本劃分為多個文本段;
獲取每一文本段的一個或多個賬號屬性,并確定對應(yīng)于所述每一文本段各賬號屬性的發(fā)表比例參數(shù);
根據(jù)所述發(fā)表比例參數(shù)確定所述每一文本段對應(yīng)各賬號屬性的第一因子;
根據(jù)所述每一文本段對應(yīng)各賬號屬性的第一因子確定第二因子;
根據(jù)所述第二因子確定所述被檢測消息是否為異常消息。
[0009]優(yōu)選地,所述發(fā)表比例參數(shù),具體為總共發(fā)表過所述文本段的用戶數(shù)與在所述賬號屬性下發(fā)表過所述文本段的用戶數(shù)的比值。
[0010]優(yōu)選地,根據(jù)所述發(fā)表比例參數(shù)確定所述每一文本段對應(yīng)各賬號屬性的第一因子,具體包括:獲取各所述賬號屬性對應(yīng)的異常概率,將各所述賬號屬性對應(yīng)的發(fā)表比例參數(shù)與所述異常概率的乘積作為所述文本段對應(yīng)各賬號屬性的第一因子。
[0011]優(yōu)選地,根據(jù)所述每一文本段對應(yīng)各賬號屬性的第一因子計算第二因子,具體包括:根據(jù)所述每一文本段對應(yīng)各所述賬號屬性的第一因子,通過貝葉斯公式計算所述被檢測消息在各所述賬號屬性下的 第二因子。
[0012]優(yōu)選地,根據(jù)所述第二因子確定所述被檢測消息是否為異常消息,具體包括:判斷所述被檢測消息在一個或多個所述賬號屬性下的第二因子是否超過閾值,若是,則確定所述被檢測消息為異常消息;或,判斷所述被檢測消息各所述賬號屬性的第二因子之乘積是否超過閾值,若是,則確定所述被檢測消息為異常消息。
[0013]優(yōu)選地,根據(jù)所述每一文本段對應(yīng)各賬號屬性的第一因子計算第二因子,還包括:計算所述文本段所有賬號屬性對應(yīng)的第一因子的總乘積;根據(jù)所述文本段所有賬號屬性對應(yīng)的第一因子的總乘積,通過貝葉斯公式計算所述被檢測消息的第二因子。
[0014]優(yōu)選地,根據(jù)所述被檢測消息的第二因子確定所述被檢測消息是否為異常消息,具體包括:判斷所述被檢測消息的第二因子是否超過閾值,若是,則確定所述被檢測消息為異常消息。
[0015]優(yōu)選地,所述用于計算的貝葉斯公式,具體為:P(A I t1; t2, t3......tn) = (P1*
P2*......PN) / [P1* P2*......Pn+(1-P1)*(1-P2)*……(1-PN)],其中,P(A | t2,t3......tn)
為所述第二因子,Pn為所述第一因子或所述第一因子的總乘積。
[0016]另一方面,本發(fā)明還提供了一種基于賬號屬性的異常消息檢測設(shè)備,包括:劃分模塊,用于將被檢測消息的文本劃分為多個文本段;獲取模塊,用于獲取每一文本段的一個或多個賬號屬性;確定模塊,分別與所述劃分模塊及所述獲取模塊相連,用于確定對應(yīng)于所述每一文本段各賬號屬性的發(fā)表比例參數(shù),根據(jù)所述發(fā)表比例參數(shù)確定所述每一文本段對應(yīng)各賬號屬性的第一因子;根據(jù)所述每一文本段對應(yīng)各賬號屬性的第一因子確定第二因子;根據(jù)所述第二因子確定所述被檢測消息是否為異常消息。
[0017]優(yōu)選地,所述確定模塊,具體用于確定總共發(fā)表過所述文本段的用戶數(shù)與在所述賬號屬性下發(fā)表過所述文本段的用戶數(shù)的比值。
[0018]優(yōu)選地,所述獲取模塊,還用于獲取各所述賬號屬性對應(yīng)的異常概率。
[0019]優(yōu)選地,還包括計算模塊,其中所述計算模塊,用于計算各所述賬號屬性對應(yīng)的發(fā)表比例參數(shù)與所述異常概率的乘積,和/或;計算所述每一文本段所有賬號屬性對應(yīng)的發(fā)表比例參數(shù)與所述異常概率的總乘積。
[0020]優(yōu)選地,所述計算模塊,還用于根據(jù)所述每一文本段對應(yīng)各所述賬號屬性的第一因子,通過貝葉斯公式計算所述被檢測消息在各所述賬號屬性下的第二因子;或,根據(jù)所述文本段所有賬號屬性對應(yīng)的第一因子的總乘積,通過貝葉斯公式計算所述被檢測消息的第
二因子。
[0021]優(yōu)選地,還包括存儲模塊,其中所述存儲模塊與所述劃分模塊相連,用于接收并緩存所述被檢測消息。
[0022]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:
通過應(yīng)用本發(fā)明的技術(shù)方案,將消息的發(fā)表賬號屬性與無差別文本分割處理結(jié)合使用貝葉斯算法,無需再收集正常樣本與垃圾消息樣本,同時也盡可能地保留了異常消息的原始特征,從而實現(xiàn)了對微博批量垃圾消息的有效限制,由于該異常消息的處理過程不需要人工參與或系統(tǒng)協(xié)助提供樣本,因此完全實現(xiàn)了自學(xué)習(xí)智能化識別處理,提高了垃圾消息處理的靈活性。
【專利附圖】
【附圖說明】
[0023]圖1為本發(fā)明提出的一種異常消息檢測方法流程圖;
圖2為本發(fā)明在具體應(yīng)用場景下提出的一種異常消息檢測方法流程圖;
圖3為現(xiàn)有技術(shù)中一種異常消息的具體示例圖;
圖4為本發(fā)明在具體應(yīng)用場景下提出的另一種異常消息檢測方法流程圖;
圖5為本發(fā)明提出的一種異常消息檢測設(shè)備結(jié)構(gòu)圖。
【具體實施方式】
[0024]如【背景技術(shù)】所述,由于對垃圾消息樣本庫的即時更新維護和針對人為設(shè)置的分詞干擾在現(xiàn)有技術(shù)中并沒有明確的實現(xiàn)方案,因此現(xiàn)有的異常消息檢測技術(shù)無法覆蓋到大部分的微博的垃圾消息,從而不能實現(xiàn)針對異常消息的即時有效的檢測。
[0025]為了解決上述問題,本發(fā)明提供了一種異常消息檢測方法,其中不再需要預(yù)先建立及維護正常樣本或垃圾消息樣本庫,而是直接根據(jù)發(fā)表賬號的屬性特征,確定發(fā)送正常消息賬號和垃圾消息賬號的屬性異常概率;同時亦不再對新進入的消息進行特定的分詞,而是直接將消息文本進行劃分,通過計算劃分文本段的歷史發(fā)表的總賬號數(shù)與當(dāng)前賬號屬性的賬號數(shù)的比值,結(jié)合屬性異常概率進行貝葉斯計算。
[0026]如圖1所述,為本發(fā)明所提出的一種異常消息檢測方法的流程示意圖,具體包括以下步驟:
步驟SlOl、將被檢測消息的文本劃分為多個文本段;
與現(xiàn)有技術(shù)所不同的是,在該步驟中,對于被檢測消息文本的劃分并不涉及特定的劃分規(guī)則,也無需參考任何樣本庫,所劃分出來的各文本段之間均是無差別的;同時,基于長短不一的消息文本所劃分的文本段的具體數(shù)量也可根據(jù)實際情況靈活調(diào)節(jié),以能夠達到最佳統(tǒng)計效果為準(zhǔn),這樣的改變并不影響本發(fā)明的保護范圍。
[0027]步驟S102、獲取每一文本段的一個或多個賬號屬性,并確定對應(yīng)于所述每一文本段各賬號屬性的發(fā)表比例參數(shù);
由于多個文本段均是從同一個被檢測消息文本所劃分出來的,其彼此之間共享同一個發(fā)表賬號,因此各文本段賬號屬性的獲取方式可以存在很多種形式,這對本發(fā)明的保護范圍并沒有影響。
[0028]步驟S103、根據(jù)所述發(fā)表比例參數(shù)確定所述每一文本段對應(yīng)各賬號屬性的第一因子;
由于當(dāng)前文本段的每一個賬號屬性都對應(yīng)著一個第一因子,因此在該文本段下同時存在著多個第一因子,其分別對應(yīng)該文本段的各個賬號屬性;這樣做的好處是在后續(xù)的判斷過程中本領(lǐng)域技術(shù)人員可以分別根據(jù)各個不同的賬號屬性進行整體性的分析或針對性的處理。
[0029]步驟S104、根據(jù)所述每一文本段對應(yīng)各賬號屬性的第一因子確定第二因子;
需要具體指出的是,在需要同時根據(jù)多個賬號屬性進行統(tǒng)計計算的情況下,該第二因
子及其相應(yīng)的獲取流程具體包括以下兩種方法:
方法一、針對每一個文本段的各個賬號屬性的第一因子確定第二因子:
在該情況下,本步驟中將步驟S103中各個第一因子作為計算輸入值,對應(yīng)輸出多個數(shù)值結(jié)果作為被檢測消息對應(yīng)于各賬號屬性的第二因子(為使敘述更為清楚明確,以下“第二因子”均以“惡意概率”指代)。
[0030]方法二、基于每一個文本段的所有賬號屬性下第一因子的總乘積確定第二因子: 在該情況下,針對當(dāng)前文本段各個賬號屬性所作的初步統(tǒng)計計算結(jié)果(即所有的第一
因子)將被匯總并相乘,即每一個文本段下只存在唯一一個與之相對應(yīng)的總乘積,根據(jù)概率學(xué)原理,該乘積結(jié)果是一個從整體上無差別地反映當(dāng)前文本段是否屬于垃圾消息的概率值,或是輸出一個反映被檢測消息整體惡意概率的數(shù)值結(jié)果。因此,該方法可適用于需要同時處理大量消息的場合,為快速處理消息進行準(zhǔn)備。
[0031]步驟S105、根據(jù)所述第二因子確定所述被檢測消息是否為異常消息。
[0032]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:
通過應(yīng)用本發(fā)明的技術(shù)方案,將消息的發(fā)表賬號屬性與無差別文本分割處理結(jié)合使用貝葉斯算法,無需再收集正常樣本與垃圾消息樣本,同時也盡可能地保留了異常消息的原始特征,從而實現(xiàn)了對微博批量垃圾消息的有效限制,由于該異常消息的處理過程不需要人工參與或系統(tǒng)協(xié)助提供樣本,因此完全實現(xiàn)了自學(xué)習(xí)智能化識別處理,提高了垃圾消息處理的靈活性。
[0033]為了進一步闡述本發(fā)明的技術(shù)思想,現(xiàn)結(jié)合具體的應(yīng)用場景,對本發(fā)明的技術(shù)方案進行說明。
[0034]本發(fā)明提出了一種異常消息檢測方法,通過引入賬號屬性,結(jié)合無差別文本分割處理,可以在無需事先導(dǎo)入樣本的前提下,實現(xiàn)對垃圾消息的有效限制。
[0035]如圖2所示,為本發(fā)明具體實施例提供的一種異常消息檢測方法流程圖,具體包括以下步驟:
步驟S201,接收并緩存被檢測消息。
[0036]具體地,系統(tǒng)發(fā)現(xiàn)如圖3所示的一條消息,將其緩存至內(nèi)存中,準(zhǔn)備下一步的處理。[0037]步驟S202,將被檢測消息文本劃分為多個文本段。
[0038]在本實施例中,以每3-4個字節(jié)一段對消息文本進行分段。因為在GBK模式下,每個中文占兩個字節(jié),而一個英文占一個字節(jié)。如果是純英文的,則一次可以切分4個字節(jié),4個英文字母;有一個中文一個英文的,則切分3個字節(jié),一個英文字母一個中文;全是中文的則切分4個字節(jié),2個中文。具體操作示例如下:
將圖3中的消息文本進行分段,分成“了放”、“知從”、“AB(此處代表四個字節(jié)字符串)”、“最火”、“AB”、“爆的”、“蔵AB”、“人游”、“AB戲”、“男女”、“老少”、“都上”、“AB”、“癮來”、“挑AB”、“戰(zhàn)吧”、“地 AB”、“址”、“AB.CDE.COM”、“了放”、“知從”、“ο ( H _ η )ο”、“了放”、“知從”、“ΑΒ 24”。
[0039]需要指出的是,在以上述方法切分完畢后,還將根據(jù)最后一個文字是中文還是英文,依次右移2個或I個字節(jié)。這樣做的目的是能夠?qū)ξ谋局痦椃指睿瑥亩缮婕暗剿锌赡艿慕M合,這樣即使有很多的文字變換或分割干擾,都不會影響到文本段的無差別性。
[0040]步驟S203,獲取被檢測消息的賬號屬性。
[0041]由于所劃分的文本段均來自于同一個賬號所發(fā)表的消息,因此本步驟中在獲取了被檢測消息的賬號屬性后,即相當(dāng)于獲取對應(yīng)各文本段的各賬號屬性。其中,所獲取的賬號屬性包括但不限于:新注冊、注冊地址、發(fā)表時間等。
[0042]同時,本領(lǐng)域技術(shù)人員可以理解,具體實現(xiàn)時,該獲取賬號屬性的步驟與步驟S202沒有嚴(yán)格的先后次序,二者可交換步驟或并列穿插執(zhí)行。
[0043]步驟S204,統(tǒng)計對應(yīng)于每一文本段各賬號屬性的發(fā)表比例參數(shù)η。
[0044]本步驟中,首先將分出的文本段存入哈希表中,對這個文本段的歷史發(fā)表的用戶總量和各賬號屬性下的用戶總量做統(tǒng)計。例如:若當(dāng)前的賬號屬性為新注冊,則某一條字節(jié)段需要記錄的量包括:總共發(fā)表過該字節(jié)段的用戶數(shù)m,和總共發(fā)表過該字節(jié)段的新用戶數(shù)n。然后,通過每個哈希表中的文本段的屬性統(tǒng)計,根據(jù)η= n/m得到這個文本段在該“新注冊”賬號屬性下的發(fā)表比例參數(shù)。例如,歷史上發(fā)表過“ 了放”這個文本段的帳號有100個,其中屬于“新注冊”這個賬號屬性的帳號有90個,那么“ 了放”這個文本段對應(yīng)“新注冊”這個賬號屬性的發(fā)表比例參數(shù)就是90%。
[0045]相應(yīng)地,針對該文本段其他賬號屬性的發(fā)表比例參數(shù)的獲取工作亦如上所述,其中有關(guān)哈希表的數(shù)據(jù)存儲讀取及查找統(tǒng)計可參考現(xiàn)有的技術(shù),在此 申請人:不再贅述。
[0046]步驟S205,獲取各所述賬號屬性對應(yīng)的異常概率ξ。
[0047]由于被檢測消息的發(fā)表賬號擁有著多種賬號屬性,因此可根據(jù)以往的分析經(jīng)驗為每種賬號屬性賦予其對應(yīng)的異常概率;例如,經(jīng)過對以往垃圾賬號的分析了解發(fā)現(xiàn),目前發(fā)送垃圾消息的帳號基本都是廣告者自己新注冊的,那么該“新注冊”賬號屬性對應(yīng)的異常概率可設(shè)為90% ;廣告發(fā)送者一般選擇凌晨的時段發(fā)送垃圾消息,那么“發(fā)表時間在00:00-4:00之間”賬號屬性對應(yīng)的異常概率可設(shè)為90% ;另一方面,為了能夠?qū)⒌亩喾N特征進行分析研究,可預(yù)先設(shè)置一個賬號屬性的異常概率,根據(jù)其他賬號屬性及最終結(jié)果進行調(diào)整,比如將“發(fā)送地點為A城市”該賬號屬性對應(yīng)的異常概率預(yù)設(shè)為50%,若最終結(jié)果表明該消息為垃圾消息,則表明廣告發(fā)布者主要集中在該城市,此時可將“發(fā)送地點為A城市”對應(yīng)的異常概率適當(dāng)?shù)厣险{(diào)。
[0048]此外,還可預(yù)先根據(jù)以往處理結(jié)果獲取垃圾消息的幾個比較鮮明的賬號屬性(例如:新注冊、發(fā)表時間在凌晨),直接將其對應(yīng)的異常概述設(shè)為1,這樣便可實現(xiàn)對大量消息進行快速處理。
[0049]步驟S206,計算每一文本段各賬號屬性對應(yīng)的第一因子P”
[0050]基于步驟S205中各賬號屬性對應(yīng)的發(fā)表比例參數(shù)η,以及步驟S205中各賬號屬性對應(yīng)的異常概率ξ,本步驟中以此二者相乘,將各賬號屬性下的相應(yīng)乘積作為各賬號屬性對應(yīng)的第一因子Pi。例如,“新注冊”該賬號屬性對應(yīng)的發(fā)表比例參數(shù)Π= 0.9,其賬號屬性對應(yīng)的異常概率為ξ= I (即100%),則“新注冊”該賬號屬性對應(yīng)的第一因子Pi = Il^l =90%。具體地,當(dāng)前文本段各賬號屬性第一因子Pi的形式可如表1所示:
【權(quán)利要求】
1.一種異常消息檢測方法,其特征在于, 將被檢測消息的文本劃分為多個文本段; 獲取每一文本段的一個或多個賬號屬性,并確定對應(yīng)于所述每一文本段各賬號屬性的發(fā)表比例參數(shù); 根據(jù)所述發(fā)表比例參數(shù)確定所述每一文本段對應(yīng)各賬號屬性的第一因子; 根據(jù)所述每一文本段對應(yīng)各賬號屬性的第一因子確定第二因子; 根據(jù)所述第二因子確定所述被檢測消息是否為異常消息。
2.如權(quán)利要求1所述的方法,其特征在于,所述發(fā)表比例參數(shù),具體為: 總共發(fā)表過所述文本段的用戶數(shù)與在所述賬號屬性下發(fā)表過所述文本段的用戶數(shù)的比值。
3.如權(quán)利要求2所述的方法,其特征在于,根據(jù)所述發(fā)表比例參數(shù)確定所述每一文本段對應(yīng)各賬號屬性的第一因子,具體包括: 獲取各所述賬號屬性對應(yīng)的異常概率,將各所述賬號屬性對應(yīng)的發(fā)表比例參數(shù)與所述異常概率的乘積作為所述文本段對應(yīng)各賬號屬性的第一因子。
4.如權(quán)利要求3所述的方法,其特征在于,根據(jù)所述每一文本段對應(yīng)各賬號屬性的第一因子計算第二因子,具體包括: 根據(jù)所述每一文本段對應(yīng)各所述賬號屬性的第一因子,通過貝葉斯公式計算所述被檢測消息在各所述賬號屬性下的·第二因子。
5.如權(quán)利要求4所述的方法,其特征在于,根據(jù)所述第二因子確定所述被檢測消息是否為異常消息,具體包括: 判斷所述被檢測消息在一個或多個所述賬號屬性下的第二因子是否超過閾值,若是,則確定所述被檢測消息為異常消息; 或,判斷所述被檢測消息各所述賬號屬性的第二因子之乘積是否超過閾值,若是,則確定所述被檢測消息為異常消息。
6.如權(quán)利要求3所述的方法,其特征在于,根據(jù)所述每一文本段對應(yīng)各賬號屬性的第一因子計算第二因子,還包括: 計算所述文本段所有賬號屬性對應(yīng)的第一因子的總乘積; 根據(jù)所述文本段所有賬號屬性對應(yīng)的第一因子的總乘積,通過貝葉斯公式計算所述被檢測消息的第二因子。
7.如權(quán)利要求6所述的方法,其特征在于,根據(jù)所述被檢測消息的第二因子確定所述被檢測消息是否為異常消息,具體包括: 判斷所述被檢測消息的第二因子是否超過閾值,若是,則確定所述被檢測消息為異常消息。
8.如權(quán)利要求4或6所述的方法,其特征在于,所述用于計算的貝葉斯公式,具體為:P(A I tl,t2,t3......tn) = (PI* P2*......PN) / [PI* P2*......PN+(1-P1)*(1-P2)*......(1-PN)], 其中,P(A I tl,t2,t3……tn)為所述第二因子,PN為所述第一因子或所述第一因子的總乘積。
9.一種基于賬號屬性的異常消息檢測設(shè)備,其特征在于,包括:劃分模塊,用于將被檢測消息的文本劃分為多個文本段; 獲取模塊,用于獲取每一文本段的一個或多個賬號屬性; 確定模塊,分別與所述劃分模塊及所述獲取模塊相連,用于確定對應(yīng)于所述每一文本段各賬號屬性的發(fā)表比例參數(shù),根據(jù)所述發(fā)表比例參數(shù)確定所述每一文本段對應(yīng)各賬號屬性的第一因子;根據(jù)所述每一文本段對應(yīng)各賬號屬性的第一因子確定第二因子;根據(jù)所述第二因子確定所述被檢測消息是否為異常消息。
10.如權(quán)利要求9所述的設(shè)備,其特征在于, 所述確定模塊,具體用于確定總共發(fā)表過所述文本段的用戶數(shù)與在所述賬號屬性下發(fā)表過所述文本段的用戶數(shù)的因子。
11.如權(quán)利要求10所述的設(shè)備,其特征在于, 所述獲取模塊,還用于獲取各所述賬號屬性對應(yīng)的異常概率。
12.如權(quán)利要求11所述的設(shè)備,其特征在于,還包括計算模塊,其中: 所述計算模塊,用于計算各所述賬號屬性對應(yīng)的發(fā)表比例參數(shù)與所述異常概率的乘積,和/或; 計算所述每一文本段所有賬號屬性對應(yīng)的發(fā)表比例參數(shù)與所述異常概率的總乘積。
13.如權(quán)利要求12所述的設(shè)備,其特征在于, 所述計算模塊,還用于根據(jù)所述每一文本段對應(yīng)各所述賬號屬性的第一因子,通過貝葉斯公式計算所述被檢測消息在各所述賬號屬性下的第二因子; 或,根據(jù)所述文本段所有賬號屬性對應(yīng)的第一因子的總乘積,通過貝葉斯公式計算所述被檢測消息的第二因子。
14.如權(quán)利要求13所述的設(shè)備,其特征在于,還包括存儲模塊,其中: 所述存儲模塊與 所述劃分模塊相連,用于接收并緩存所述被檢測消息。
【文檔編號】H04L12/58GK103580939SQ201210266045
【公開日】2014年2月12日 申請日期:2012年7月30日 優(yōu)先權(quán)日:2012年7月30日
【發(fā)明者】鐘清華, 王金華 申請人:騰訊科技(深圳)有限公司