一種利用代表向量過濾信息的方法和裝置制造方法
【專利摘要】本發(fā)明涉及信息分析【技術(shù)領(lǐng)域】,具體而言,本發(fā)明涉及一種利用代表向量過濾信息的方法和裝置。其中信息過濾方法包括將信息轉(zhuǎn)換為信息向量;將所述信息向量中相似的信息向量置于同一信息向量組中;找出信息向量組中的代表向量;將待分析信息轉(zhuǎn)換為信息向量,與所述代表向量相比較,如果與所述代表向量匹配則濾除所述待分析信息。通過上述本發(fā)明實施例的方法及裝置,可以減少信息過濾中匹配的次數(shù),縮小匹配數(shù)據(jù)庫的規(guī)模,并且過濾信息準(zhǔn)確率很高。
【專利說明】一種利用代表向量過濾信息的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息分析【技術(shù)領(lǐng)域】,具體而言,本發(fā)明涉及一種利用代表向量過濾信息的方法和裝置。
【背景技術(shù)】
[0002]短信,微信,微博,電子郵件,可以利用一個發(fā)送賬號向一個或多個接受賬號發(fā)送文本信息,這類通訊方式,在成為一種流行的溝通方式的同時,也為垃圾信息的傳播提供了渠道。
[0003]以現(xiàn)有技術(shù)中的短信息為例,垃圾短消息的問題日益泛濫。垃圾短消息中的廣告短消息不但影響了客戶感知、損害客戶利益,而且部分違法的垃圾信息還影響了社會穩(wěn)定和國家安全。因此對垃圾短消息智能識別分類和攔截的研究成了目前移動運營商重要的課題。
[0004]目前對垃圾信息的識別和治理方式是可以分為以下幾種:
[0005](I)黑名單過濾,如中國專利申請201110182348.3、201010561642.0和201010184392.3。即判斷是否短信發(fā)送號碼是否在已知的黑名單列表中。建立黑名單可以由行為分析,如是否群發(fā)短信等完成。
[0006](2)內(nèi)容過濾,使用預(yù)設(shè)關(guān)鍵字,如中國專利申請201210580601.5和201210498100.2。即判斷是否短信中包含預(yù)設(shè)關(guān)鍵字/組,然后加上一定的行為分析。
[0007]或使用文本分類模型,對短信語義內(nèi)容加以判斷。如中國專利申請201110003289.9 和 201010225273.8。
[0008]目前短信過濾的主要缺點是誤判率高。例如,垃圾短信發(fā)送人員利用植入木馬的方式盜用用戶號碼發(fā)送短信,可能造成黑名單過濾誤判大量短信。另外,大量詐騙短信使用的都是正常關(guān)鍵字。例如短信“你想有.張能聽:對#方#談#話,收,到,對#方,信#息,的咔.嗎”,很難找出合適的誤判率低的關(guān)鍵字/組。
[0009]即使找出,也可以輕易修改關(guān)鍵字逃避監(jiān)管。例如,對發(fā)票短信“如I正需I規(guī)各I稅類丨據(jù)一一XXXXXXX X X ”,運營商花費了大量人力物力,
[0010]在幾年的時間內(nèi),對該條發(fā)票短信設(shè)置了上千個關(guān)鍵字/組,但該條短信的變種還是每天都出現(xiàn)在短信網(wǎng)上。使用機器學(xué)習(xí)中的文本分類方法,在已分類短信上訓(xùn)練分類模型,
[0011]再使用模型對短信內(nèi)容進(jìn)行自動分類是目前研究的重點。但是,由于文本分類中訓(xùn)練和過濾數(shù)據(jù)分布不一致造成的概念漂移,以及類不平衡問題,常常造成誤判,使得實際應(yīng)用時誤判率無法達(dá)到要求。
[0012]為解決高誤判率問題,系統(tǒng)中常常需要大量客服人員解決誤判帶來的一系列問題,或需要人工座席判斷是否垃圾短等。
[0013]由于現(xiàn)有短信過濾系統(tǒng)的高誤判率問題,造成運營商由于擔(dān)心影響生產(chǎn)或高昂的系統(tǒng)使用費用,常常不敢啟用過濾系統(tǒng),使得許多垃圾短信系統(tǒng)形同虛設(shè)。
[0014]運營商急需一套誤判率小于萬分之一,系統(tǒng)的使用無需專人管理的自動化的過濾系統(tǒng),以實現(xiàn)在不影響短信正常使用,以較低的費用,達(dá)到治理垃圾短信的目的。
【發(fā)明內(nèi)容】
[0015]為了解決現(xiàn)有技術(shù)中信息分析中的問題,提出了一種利用代表向量過濾信息的方法和裝置。在本發(fā)明中,我們使用垃圾短信作為發(fā)明的一個實施說明和舉例,但本發(fā)明的所有技術(shù)均適用于其他類似通訊手段,包括但不限于短信,微信,微博,電子郵件等。
[0016]本發(fā)明實施例提供了一種利用代表向量過濾信息的方法,包括,
[0017]將信息轉(zhuǎn)換為信息向量;
[0018]將所述信息向量中相似的信息向量置于同一信息向量組中;
[0019]找出信息向量組中的代表向量;
[0020]將待分析信息轉(zhuǎn)換為信息向量,與所述代表向量相比較,如果與所述代表向量匹配則濾除所述待分析信息。
[0021]本發(fā)明實施例還提供了一種利用代表向量過濾信息的裝置,包括,
[0022]轉(zhuǎn)換單元,用于將信息轉(zhuǎn)換為信息向量;
[0023]分組單元,用于將所述信息向量中相似的信息向量置于同一信息向量組中;
[0024]代表向量單兀,用于找出信息向量組中的代表向量;
[0025]所述轉(zhuǎn)換單元將待分析信息轉(zhuǎn)換為信息向量后發(fā)送給匹配單元,所述匹配單元將所述待分析的信息向量與所述代表向量相比較,如果與所述代表向量匹配則濾除所述待分析信息。
[0026]通過上述本發(fā)明實施例的方法及裝置,可以減少信息過濾中匹配的次數(shù),縮小匹配數(shù)據(jù)庫的規(guī)模,并且過濾信息準(zhǔn)確率很高。
【專利附圖】
【附圖說明】
[0027]結(jié)合以下附圖閱讀對實施例的詳細(xì)描述,本發(fā)明的上述特征和優(yōu)點,以及額外的特征和優(yōu)點,將會更加清楚。
[0028]圖1所示為發(fā)明實施例一種信息過濾方法的流程圖;
[0029]圖2所示為本發(fā)明實施例一種信息過濾裝置的結(jié)構(gòu)示意圖;
[0030]圖3所示為本發(fā)明實施例一種完善代表向量方法的流程圖;
[0031]圖4所示為本發(fā)明實施例一種完善代表向量裝置的結(jié)構(gòu)示意圖;
[0032]圖5所示為本發(fā)明實施例一種短信息過濾的方法流程圖;
[0033]圖6所示為本發(fā)明實施例一種完善代表向量方法的流程圖。
【具體實施方式】
[0034]下面的描述可以使任何本領(lǐng)域技術(shù)人員利用本發(fā)明。具體實施例和應(yīng)用中所提供的描述信息僅為示例。這里所描述的實施例的各種延伸和組合對于本領(lǐng)域的技術(shù)人員是顯而易見的,在不脫離本發(fā)明的實質(zhì)和范圍的情況下,本發(fā)明定義的一般原則可以應(yīng)用到其他實施例和應(yīng)用中。因此,本發(fā)明不只限于所示的實施例,本發(fā)明涵蓋與本文所示原理和特征相一致的最大范圍。
[0035]下面的詳細(xì)說明以流程圖、邏輯模塊和其他的符號操作表達(dá)的形式給出,可以在計算機系統(tǒng)上執(zhí)行。一個程序、計算機執(zhí)行步、邏輯塊,過程等,在這里被設(shè)想為得到所希望的結(jié)果的一個或多個步驟或指令的自洽序列。這些步驟是對物理量的物理操作。這些物理量包括電、磁或者無線電信號,它們在計算機系統(tǒng)中被存儲、傳輸、組合、比較以及其他操作。這些信號可是比特、數(shù)值、元素、符號、字符、條件、數(shù)字等。每個步驟都可以通過硬件、軟件、固件或它們的組合執(zhí)行。
[0036]如圖1所示為發(fā)明實施例一種利用代表向量過濾信息的方法的流程圖。
[0037]包括步驟101,將信息轉(zhuǎn)換為信息向量。
[0038]步驟102,將所述信息向量中相似的信息向量置于同一信息向量組中。
[0039]步驟103,找出信息向量組中的代表向量。
[0040]步驟104,將待分析信息轉(zhuǎn)換為信息向量,與所述代表向量相比較,如果與所述代表向量匹配則濾除所述待分析信息。
[0041]在所述步驟101中,所述信息向量為該信息中濾除重復(fù)字、詞和數(shù)字之后的文本信息;或者所述信息向量還可以不經(jīng)過濾除重復(fù)信息而包括信息中的全部內(nèi)容。
[0042]所述信息包括文本信息、語音信息和/或視頻信息,只要是能夠?qū)⒃撔畔⑥D(zhuǎn)換為文本格式即可,本發(fā)明實施例只是以短信息作為舉例描述發(fā)明流程和數(shù)據(jù)處理過程,并不意味著只限于文本類型的短信息,還可以包括例如電子郵件等,其中將語音信息和/或視頻信息轉(zhuǎn)換為文本信息可以采用現(xiàn)有技術(shù)中的方式進(jìn)行處理,并不限制采用何種方式將信息轉(zhuǎn)換為文本信息。
[0043]還可以進(jìn)一步,在預(yù)設(shè)的單位時間窗口內(nèi)將接收到的信息轉(zhuǎn)換為信息向量,這是由于在通常情況下,垃圾短信息發(fā)送都是在很短時間內(nèi)向不同電話號碼發(fā)送相同短信息,從而在單位時間窗口內(nèi)進(jìn)行垃圾短信息的判斷準(zhǔn)確率會有很大提成。
[0044]在步驟102中的相似信息向量包括文本信息中字符相同,其中所述字符應(yīng)理解為廣義上的字符,即至少包括文字、字母、數(shù)字、特殊字符、標(biāo)點符號、不可見字符等。
[0045]在上述步驟102之后還可以包括,對所述信息的行為進(jìn)行分析,去除不符合預(yù)定條件的信息向量組,以便于減少監(jiān)控的信息向量組,加快信息過濾的流程。
[0046]上述不符合預(yù)定條件包括,所述信息向量組中信息發(fā)送方賬號的數(shù)量和接收所述信息的賬號數(shù)量的比值超過第一預(yù)定閥值;
[0047]所述信息向量組中信息發(fā)送方賬號數(shù)量和接收所述信息的賬號數(shù)量的比值接近于I或者第二預(yù)定閥值;
[0048]所述信息向量組中信息發(fā)送方賬號數(shù)量和接收所述信息的賬號數(shù)量的比值小于第三預(yù)定閥值。
[0049]在上述步驟102之后還包括,如果所述信息向量組中的信息向量數(shù)量小于一預(yù)定閥值,則去除所述信息向量組,這是因為一個信息向量組中相似的信息向量的數(shù)量較少時,這種信息為垃圾信息的可能性較小,因此在此步驟中濾除信息向量組可以進(jìn)一步加快垃圾信息過濾。
[0050]所述步驟103中,所述代表向量例如可以采用如下方式獲得,但本發(fā)明并不限制獲得代表向量的方法。
[0051]計算所述信息向量組的平均長度I ;
[0052]統(tǒng)計該信息向量組中信息向量的出現(xiàn)頻次;
[0053]選擇出現(xiàn)頻次最高的I個信息向量作為所述信息向量組的代表向量。
[0054]在另一個實施例中,上述獲得代表向量的方法還可以包括隨機選擇一個信息向量作為該信息向量組的代表向量。
[0055]所述代表向量的數(shù)量遠(yuǎn)小于所述信息向量組中信息向量的數(shù)量,例如在一個信息向量組中只具有一個代表向量。
[0056]在所述步驟103之后還包括,對所述代表向量進(jìn)行分類,以便于識別該代表向量屬于“廣告信息”或者“垃圾信息”等類型。
[0057]在對代表向量進(jìn)行分類后還包括對代表向量所屬分類標(biāo)記信心度,所述信心度代表該代表向量屬于某個分類的可能性,其中同一個代表向量可能隸屬于不同的分類,每個分類均具有一個信心度,可以根據(jù)信心度低對代表向量進(jìn)行刪除。其中,在本步驟中也可以不根據(jù)分類后的代表向量信心度刪除信息向量組或者代表向量,而只是等待后面的信息過濾中作為濾除信息的參考值。
[0058]在所述步驟104中還可以包括,所述待分析信息對應(yīng)的信息向量匹配到某個信息向量組的代表向量,根據(jù)該信息向量組所屬的分類對所述待分析信息進(jìn)行相應(yīng)處理,例如待分析信息為“廣告信息”則可以發(fā)送給信息接收者,待分析信息為“垃圾信息”則濾除所述待分析信息,如果為“安全威脅”類型的信息則向相關(guān)管理人員的計算機或者計算機系統(tǒng)發(fā)送報警。
[0059]在所述步驟104中還可以包括,所述待分析信息對應(yīng)的信息向量匹配到某個信息向量組的代表向量,根據(jù)該信息向量組所屬的分類和該分類的信心度對所述待分析信息進(jìn)行相應(yīng)處理,例如待分析信息為“廣告信息”,其信心度為40%,則可以發(fā)送給信息接收者,待分析信息為“垃圾信息”,其信心度為30%,則將該待分析信息發(fā)送給接收者,如果為待分析信息為“安全威脅”類型的信息,其信心度為90%,則向相關(guān)管理人員的計算機或者計算機系統(tǒng)發(fā)送報警。
[0060]通過上述實施例中的方法,可以減少信息過濾中匹配的次數(shù),縮小匹配數(shù)據(jù)庫的規(guī)模,并且過濾信息準(zhǔn)確率很高,極大的降低了運營商的投入。
[0061]如圖2所示為本發(fā)明實施例一種利用代表向量過濾信息的裝置的結(jié)構(gòu)示意圖。
[0062]包括轉(zhuǎn)換單元201,用于將信息轉(zhuǎn)換為信息向量。
[0063]分組單元202,用于將所述信息向量中相似的信息向量置于同一信息向量組中。
[0064]代表向量單兀203,用于找出信息向量組中的代表向量。
[0065]所述轉(zhuǎn)換單元201將待分析信息轉(zhuǎn)換為信息向量后發(fā)送給匹配單元204,所述匹配單元204將所述待分析的信息向量與所述代表向量相比較,如果與所述代表向量匹配則濾除所述待分析信息。
[0066]所述轉(zhuǎn)換單元201轉(zhuǎn)換形成的信息向量為該信息中濾除重復(fù)字、詞和數(shù)字之后的文本息。其中,所述息包括文本息、語首息和/或視頻息。
[0067]還包括時間窗口單元205,用于計算一單位時間窗口,所述轉(zhuǎn)換單元201獲取該單位時間窗口,在該單位時間窗口內(nèi)所述轉(zhuǎn)換單元201將接收到的信息轉(zhuǎn)換為信息向量。
[0068]所述分組單元202將文本信息中字符相同或者字義相類似的信息向量分為同一組。
[0069]還包括與所述分組單元202相連接的行為分析單元206,對所述信息的行為進(jìn)行分析,去除不符合預(yù)定條件的信息向量組,以便于減少監(jiān)控的信息向量組,加快信息過濾的流程。
[0070]上述不符合預(yù)定條件包括,所述信息向量組中信息發(fā)送方賬號的數(shù)量和接收所述信息的賬號數(shù)量的比值超過第一預(yù)定閥值;
[0071]所述信息向量組中信息發(fā)送方賬號數(shù)量和接收所述信息的賬號數(shù)量的比值接近于I或者第二預(yù)定閥值;
[0072]所述信息向量組中信息發(fā)送方賬號數(shù)量和接收所述信息的賬號數(shù)量的比值小于第三預(yù)定閥值。
[0073]還包括信息向量組篩選單元207,與所述分組單元202相連接,當(dāng)所述信息向量組中的信息向量數(shù)量小于一預(yù)定閥值,則去除所述信息向量組。
[0074]所述代表向量單元203進(jìn)一步包括計算模塊2031,計算所述信息向量組的平均長度I ;
[0075]統(tǒng)計模塊2032,統(tǒng)計該信息向量組中信息向量的出現(xiàn)頻次;
[0076]選擇模塊2033,選擇出現(xiàn)頻次最高的I個信息向量作為所述信息向量組的代表向量。
[0077]所述代表向量的數(shù)量遠(yuǎn)小于所述信息向量組中信息向量的數(shù)量,例如在一個信息向量組中只具有一個代表向量。
[0078]還包括分類單元208,與所述代表向量單元203相連接,對所述代表向量進(jìn)行分類。
[0079]還包括信心度單元209,與所述分類單元208相連接,對代表向量所屬分類標(biāo)記信心度,所述信心度代表該代表向量屬于某個分類的可能性。
[0080]所述匹配單元204找出與所述待分析信息匹配的代表向量,根據(jù)該代表向量所屬的分類對所述待分析信息進(jìn)行相應(yīng)處理。
[0081]所述匹配單元204找出與所述待分析信息匹配的代表向量,根據(jù)該代表向量所屬的分類和該分類的信心度對所述待分析信息進(jìn)行相應(yīng)處理。
[0082]通過上述實施例中的方法,可以減少信息過濾中匹配的次數(shù),縮小匹配數(shù)據(jù)庫的規(guī)模,并且過濾信息準(zhǔn)確率很高,極大的降低了運營商的投入。
[0083]如圖3所示為本發(fā)明實施例一種完善代表向量方法的流程圖。
[0084]包括步驟301,將信息轉(zhuǎn)換為信息向量。
[0085]步驟302,將所述信息向量中相似的信息向量置于同一信息向量組中。
[0086]步驟303,找出信息向量組中的代表向量。
[0087]步驟304,對所述代表向量進(jìn)行分類。
[0088]步驟305,根據(jù)所述分類建立代表向量的分類模型。
[0089]步驟306,利用所述代表向量的分類模型對新的代表向量進(jìn)行分類。
[0090]所述步驟304中可以采用人工審核標(biāo)記的方式對所述代表向量進(jìn)行分類,例如分為“廣告”和“詐騙”等類別;或者還可以采用現(xiàn)有技術(shù)中計算機文本處理的分類技術(shù)。
[0091]在步驟305中例如可以采用貝葉斯網(wǎng)、支持向量機、決策樹等方式根據(jù)所述分類建立分類模型,上述建立分類模型的現(xiàn)有技術(shù)中的算法為機器學(xué)習(xí)算法,即可以自動的將新的代表向量進(jìn)行分類,將新的代表向量及其分類信息和信心度(可以在分類模型中加入信心度的評價,其中信心度的評價可以參考圖1中實施例獲得信心度的方法)等內(nèi)容存儲于代表向量數(shù)據(jù)庫中,進(jìn)一步完善代表向量的數(shù)據(jù)庫,以便于在對信息進(jìn)行處理時可以更加的準(zhǔn)確。
[0092]如圖4所示為本發(fā)明實施例一種完善代表向量裝置的結(jié)構(gòu)示意圖。
[0093]包括轉(zhuǎn)換單元401,用于將信息轉(zhuǎn)換為信息向量;
[0094]分組單元402,用于將所述信息向量中相似的信息向量置于同一信息向量組中;
[0095]代表向量單兀403,用于找出信息向量組中的代表向量;
[0096]分類單元404,用于對所述代表向量進(jìn)行分類;
[0097]分類模型單元405,用于根據(jù)所述分類建立代表向量的分類模型;
[0098]執(zhí)行單元406,用于利用所述代表向量的分類模型對新的代表向量進(jìn)行分類。
[0099]在一個實施例中,如圖5所示為本發(fā)明實施例一種短信息過濾的方法流程圖。
[0100]包括步驟501,在本實施例中以短信息為例對信息過濾方法進(jìn)行描述,但不排除其它例如郵件內(nèi)容、語音信息、視頻信息等信息的過濾應(yīng)用。
[0101]在本步驟中接收來自短信息網(wǎng)關(guān)服務(wù)器的短信息,將該短信息轉(zhuǎn)換為短信息向量。
[0102]在本實施例中,短信息為:“請到窗口交費,請到窗口交費,1890222040221 ? ”。
[0103]在該短信息中包括重復(fù)的信息“請到窗口交費”,濾除重復(fù)的文字后得到短信息向量為:[請,到,窗口,交費,1890222040221]。
[0104]步驟502,將相同的短信息向量置于同一短信向量組中。
[0105]例如,給定短信向量池P,從任意一條短信向量P」開始,將P」從短信向量池P中刪除;
[0106]將P」和短信向量池P的其他短信向量P_j做對比,如果發(fā)現(xiàn)P」和p_j內(nèi)容相似度大于一預(yù)定閥值,則把P_j作為P」的相似短信向量;
[0107]將p_ j從短信向量池P中刪除;
[0108]如果p_i及其下所有的相似短信數(shù)量大于一預(yù)定閥值,則放入相似短信向量組S中作為一組相似短信向量s_i。
[0109]重復(fù)以上步驟,直到短信向量池P為空。
[0110]在上述判斷p_i和p_j內(nèi)容相似度的過程中,可以使用多種現(xiàn)有的文本相似度判斷函數(shù),一個優(yōu)選實施例是使用文本分類中常用的cosine函數(shù)。例如:給定如下兩個短信向量:
[0111][請,到,窗口,交費,1890222040221]
[0112][請,窗口,交費,1890222040221]
[0113]其計算方法為兩個短信向量的共同出現(xiàn)的字、詞數(shù)為4,除以兩條短信向量中元素個數(shù)平方和的總和的平方根,即這兩條短信向量的相似度為:
[0114]4/sqrt (5*5+4*4) =0.62
[0115]步驟503,對短信向量組S中的每條相似短信向量s_i,對其中的發(fā)送和接收賬號進(jìn)行行為分析。按照監(jiān)控的需求,忽略不符合需求的相似短信向量組,縮小監(jiān)控范圍。
[0116]上述的短信向量的行為分析可以采取如下方式進(jìn)行:
[0117]如果該短信向量組中出現(xiàn)的發(fā)送賬號的數(shù)量和接收所述短信息賬號的數(shù)量的比值大于第一設(shè)定閥值,則該短信向量組可被分為可疑群發(fā)短信,此種情況中例如為詐騙,票據(jù)等短信息。對于運營商,大部分需要過濾的短信屬于該類別。
[0118]如果該短信向量組中出現(xiàn)的發(fā)送賬號數(shù)量和接收該短信息的賬號數(shù)量比值接近于一或等于第二設(shè)定閥值,則該短信向量組為被分為可疑傳播短信,此種情況中例如為謠言,非法集會等短信息。
[0119]如果該短信向量組中出現(xiàn)的發(fā)送賬號數(shù)量和接收該短信息的賬號的數(shù)量比值小于第三設(shè)定閥值,則該短信向量組為可疑騷擾短信,此種情況中類似“呼死你”的短信。
[0120]步驟504,對相似短信向量組S中的多條短信向量生成一個或者幾個代表向量。
[0121]其中代表向量的數(shù)量遠(yuǎn)小于所述相似短信向量組S中的短信向量數(shù)量,例如,相似短信向量組中有10000條短信向量,只生成I條代表向量即可。
[0122]其中,可以隨機選擇相似短信向量組中的一條短信向量作為該相似短信向量組的代表向量,同樣也可以采用例如如下方式獲得代表向量。
[0123]計算該短信向量組的平均長度I ;
[0124]統(tǒng)計該短信向量組中短信向量的字,詞數(shù)字出現(xiàn)的頻次;
[0125]選擇頻次最高的I個字,詞,數(shù)字組成代表短信向量。
[0126]具體的例如,給定一短信向量組中相似短信如下三條短信向量:
[0127][a, e 請,到,窗口,交費,1890222040221]
[0128][a, c,到,窗口,處,交費,1890222040221]
[0129][b, c 請,到,窗口,交費,1890222040221]
[0130]該短信向量組的平均長度為7,選擇頻次最高的I個字,詞,數(shù)字組成代表向量即為:
[0131][a, c,請,到,窗口,交費,1890222040221]
[0132]注意以上代表向量可能不同于原有的任何一條短信向量。
[0133]步驟505,對所述代表向量生成分類信息。
[0134]標(biāo)記所述代表向量的類型,例如可以為“廣告”或者“詐騙”等預(yù)設(shè)的類別,對所述代表向量分類可以采用人工審核標(biāo)記的方式,也可以采用機器自動審核標(biāo)記的方式,例如可以采用現(xiàn)有技術(shù)中的文本分類方式等,在此不限定機器分類的具體方法。
[0135]在一個優(yōu)選的實施例中,還可以標(biāo)記某個代表向量分類的信心度,例如某個代表向量分類為“正常”的信心度為90%,分類為“廣告”的信心度為30%等。
[0136]在一個優(yōu)選的實施例中,可以使用短信息向量庫T中的已標(biāo)記類型的代表向量,訓(xùn)練文本分類模型C。文本分類可以使用貝葉斯網(wǎng),支持向量機,決策樹等傳統(tǒng)的機器學(xué)習(xí)算法。
[0137]使用文本分類模型C對相似短信向量組S中的未審核代表向量進(jìn)行自動分類,并產(chǎn)生分類信心度。例如,“90%屬于詐騙短信”,把標(biāo)記“詐騙”和標(biāo)記信心度90%存入短信息向量庫T。
[0138]對短信息向量庫T中由文本分類模型C自動標(biāo)識的最不確定的代表向量行人工審核。例如,可以僅僅針對分類信心度在40%?60%的代表向量進(jìn)行人工審核。
[0139]通過上述步驟可以建立短信息向量庫,以備對待分析短信息進(jìn)行過濾或者篩選等處理。
[0140]步驟506,將待分析短信息轉(zhuǎn)換為短信息向量。
[0141]步驟507,將所述待分析的短信息向量參照短信息向量庫中的代表向量進(jìn)行過濾等處理。
[0142]作為一個實施例,在短信息過濾時,利用過濾模塊對一條待分析短信p_i,把一條待分析短信P_i轉(zhuǎn)化為短信向量,利用短信向量庫T中的全部代表向量判斷是否應(yīng)該將該短信過濾。
[0143]作為優(yōu)選的實施例可以采用如下方式進(jìn)行短信息的處理:
[0144]將待分析短信息轉(zhuǎn)換為短信向量后與短信向量庫T的已標(biāo)記類型和信心度的代表向量逐條對比,例如可以使用cosine函數(shù)計算內(nèi)容相似度
[0145]在短信向量庫T中找到和待分析短信p_i內(nèi)容相似度最大的一條代表向量t_i,如果代表向量t_i的標(biāo)記為需要被過濾的類別,并且P」和t_i的內(nèi)容相似度大于一定閥值,則過濾該未知短信P」。
[0146]在上述步驟中還可以結(jié)合信心度進(jìn)行處理,例如,在短信向量庫T中找到和待分析短信P」內(nèi)容相似度最大的一條代表向量t_i,如果代表向量t_i的標(biāo)記為需要被過濾的類別,并且P」和t_i的內(nèi)容相似度大于一定閥值,而且該代表向量的為過濾類別的信心度超過一定閥值,則過濾該待分析短信P_i。
[0147]如圖6所不為本發(fā)明實施例一種完善代表向量方法的流程圖。
[0148]包括步驟601,將信息轉(zhuǎn)換為信息向量。
[0149]步驟602,將所述信息向量中相似的信息向量置于同一信息向量組中。
[0150]步驟603,找出信息向量組中的代表向量。
[0151]步驟604,對所述代表向量進(jìn)行分類。
[0152]步驟605,根據(jù)所述分類建立代表向量的分類模型。
[0153]步驟606,利用所述代表向量的分類模型對新的代表向量進(jìn)行分類。
[0154]上述步驟601-605均可以采用圖5中相應(yīng)步驟的實施方式,在此不再贅述。
[0155]其中步驟606中利用所述代表向量的分類模型對新的代表向量進(jìn)行分類是指對待分析的信息轉(zhuǎn)換為信息向量,生成新的代表向量,利用分類模型分析該新的代表向量自動將新的代表向量進(jìn)行分類,在信息向量數(shù)據(jù)庫中記錄下該新的代表向量及其相應(yīng)的分類和信心度。通過上述步驟能夠?qū)崿F(xiàn)進(jìn)一步完善信息向量數(shù)據(jù)庫,提高自動化程度減少人工參與,降低運營商的實施成本。
[0156]通過本發(fā)明實施例的方法及裝置,可以減少信息過濾中匹配的次數(shù),縮小匹配數(shù)據(jù)庫的規(guī)模,并且過濾信息準(zhǔn)確率很高,還可以進(jìn)一步完善信息向量數(shù)據(jù)庫,提高自動化程度減少人工參與,降低運營商的實施成本。
[0157]本發(fā)明可以以任何適當(dāng)?shù)男问綄崿F(xiàn),包括硬件、軟件、固件或它們的任意組合。本發(fā)明可以根據(jù)情況有選擇的部分實現(xiàn),比如計算機軟件執(zhí)行于一個或多個數(shù)據(jù)處理器以及數(shù)字信號處理器。本文的每個實施例的元素和組件可以在物理上、功能上、邏輯上以任何適當(dāng)?shù)姆绞綄崿F(xiàn)。事實上,一個功能可以在獨立單元中、在一組單元中、或作為其他功能單元的一部分來實現(xiàn)。因此,該系統(tǒng)和方法既可以在獨立單元中實現(xiàn),也可以在物理上和功能上分布于不同的單元和處理器之間。
[0158]在相關(guān)領(lǐng)域中的技術(shù)人員將會認(rèn)識到,本發(fā)明的實施例有許多可能的修改和組合,雖然形式略有不同,仍采用相同的基本機制和方法。為了解釋的目的,前述描述參考了幾個特定的實施例。然而,上述的說明性討論不旨在窮舉或限制本文所發(fā)明的精確形式。前文所示,許多修改和變化是可能的。所選和所描述的實施例,用以解釋本發(fā)明的原理及其實際應(yīng)用,用以使本領(lǐng)域技術(shù)人員能夠最好地利用本發(fā)明和各個實施例的針對特定應(yīng)用的修改、變形。
【權(quán)利要求】
1.一種利用代表向量過濾信息的方法,其特征在于包括, 將信息轉(zhuǎn)換為信息向量; 將所述信息向量中相似的信息向量置于同一信息向量組中; 找出信息向量組中的代表向量; 將待分析信息轉(zhuǎn)換為信息向量,與所述代表向量相比較,如果與所述代表向量匹配則濾除所述待分析信息。
2.根據(jù)權(quán)利要求1所述的一種利用代表向量過濾信息的方法,其特征在于,所述信息向量為該信息中濾除重復(fù)字、詞和數(shù)字之后的文本信息。
3.根據(jù)權(quán)利要求1所述的一種利用代表向量過濾信息的方法,其特征在于,所述信息包括文本息、語首息和/或視頻息。
4.根據(jù)權(quán)利要求1所述的一種利用代表向量過濾信息的方法,其特征在于,在將信息轉(zhuǎn)換為信息向量中還包括,在預(yù)設(shè)的單位時間窗口內(nèi)將接收到的信息轉(zhuǎn)換為信息向量。
5.根據(jù)權(quán)利要求1所述的一種利用代表向量過濾信息的方法,其特征在于,在將所述信息向量中相似的信息向量置于同一信息向量組中進(jìn)一步包括,所述相似信息向量包括文本信息中字符相同。
6.根據(jù)權(quán)利要求1所述的一種利用代表向量過濾信息的方法,其特征在于,在將所述信息向量中相似的信息向量置于同一信息向量組中進(jìn)一步包括,對所述信息的行為進(jìn)行分析,去除不符合預(yù)定條件的信息向量組。
7.根據(jù)權(quán)利要求6所述的一種利用代表向量過濾信息的方法,其特征在于,上述不符合預(yù)定條件包括,所述信息向量組中信息發(fā)送方賬號的數(shù)量和接收所述信息的賬號數(shù)量的比值超過第一預(yù)定閥值; 所述信息向量組中信息發(fā)送方賬號數(shù)量和接收所述信息的賬號數(shù)量的比值接近于1或者第二預(yù)定閥值; 所述信息向量組中信息發(fā)送方賬號數(shù)量和接收所述信息的賬號數(shù)量的比值小于第三預(yù)定閥值。
8.根據(jù)權(quán)利要求1所述的一種利用代表向量過濾信息的方法,其特征在于,在將所述信息向量中相似的信息向量置于同一信息向量組后還包括,如果所述信息向量組中的信息向量數(shù)量小于一預(yù)定閥值,則去除所述信息向量組。
9.根據(jù)權(quán)利要求1所述的一種利用代表向量過濾信息的方法,其特征在于,在找出信息向量組中的代表向量中進(jìn)一步包括,計算所述信息向量組的平均長度I ; 統(tǒng)計該信息向量組中信息向量的出現(xiàn)頻次; 選擇出現(xiàn)頻次最高的I個信息向量作為所述信息向量組的代表向量。
10.根據(jù)權(quán)利要求1所述的一種利用代表向量過濾信息的方法,其特征在于,在找出信息向量組中的代表向量后進(jìn)一步包括,對所述代表向量進(jìn)行分類。
11.根據(jù)權(quán)利要求10所述的一種利用代表向量過濾信息的方法,其特征在于,在對代表向量進(jìn)行分類后還包括對代表向量所屬分類標(biāo)記信心度,所述信心度代表該代表向量屬于某個分類的可能性。
12.根據(jù)權(quán)利要求10所述的一種利用代表向量過濾信息的方法,其特征在于,在將待分析信息轉(zhuǎn)換為信息向量,與所述代表向量相比較,如果與所述代表向量匹配則濾除所述待分析信息中進(jìn)一步包括,所述待分析信息對應(yīng)的信息向量匹配到某個信息向量組的代表向量,根據(jù)該代表向量所屬的分類對所述待分析信息進(jìn)行相應(yīng)處理。
13.根據(jù)權(quán)利要求11所述的一種利用代表向量過濾信息的方法,其特征在于,在將待分析信息轉(zhuǎn)換為信息向量,與所述代表向量相比較,如果與所述代表向量匹配則濾除所述待分析信息中進(jìn)一步包括,所述待分析信息對應(yīng)的信息向量匹配到某個信息向量組的代表向量,根據(jù)該代表向量所屬的分類和該分類的信心度對所述待分析信息進(jìn)行相應(yīng)處理。
14.一種利用代表向量過濾信息的裝置,其特征在于包括, 轉(zhuǎn)換單元,用于將信息轉(zhuǎn)換為信息向量; 分組單元,用于將所述信息向量中相似的信息向量置于同一信息向量組中; 代表向量單元,用于找出信息向量組中的代表向量; 所述轉(zhuǎn)換單元將待分析信息轉(zhuǎn)換為信息向量后發(fā)送給匹配單元,所述匹配單元將所述待分析的信息向量與所述代表向量相比較,如果與所述代表向量匹配則濾除所述待分析信肩、ο
【文檔編號】G06F17/30GK104252465SQ201310259175
【公開日】2014年12月31日 申請日期:2013年6月26日 優(yōu)先權(quán)日:2013年6月26日
【發(fā)明者】蘇江 申請人:南寧明江智能科技有限公司