亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

使用模板生成和指紋比較特征管理不想要的通信的制作方法

文檔序號:7889716閱讀:229來源:國知局

專利名稱::使用模板生成和指紋比較特征管理不想要的通信的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及使用模板生成和指紋比較特征管理不想要的通信。
背景技術(shù)
:兜售信息(spam)—般被描述為使用電子消息收發(fā)系統(tǒng)來發(fā)送未經(jīng)請求的、而且通常是不想要的批量消息。兜售信息一般可被表征為包含一些不想要的或者未經(jīng)請求的電子通信。3售信息包含許多電子服務(wù),包括電子郵件3售信息、即時消息收發(fā)3售信息、Usenet新聞組兜售信息、Web搜索引擎兜售信息、博客中的兜售信息、維基兜售信息、在線分類廣告兜售信息、移動設(shè)備兜售信息、因特網(wǎng)論壇兜售信息、社交聯(lián)網(wǎng)兜售信息等。兜售信息檢測和保護(hù)系統(tǒng)嘗試標(biāo)識并控制兜售信息通信。當(dāng)前的兜售信息檢測系統(tǒng)使用基本內(nèi)容過濾技術(shù),像正則表達(dá)式或關(guān)鍵字匹配,作為檢測兜售信息的一部分。然而,這些系統(tǒng)不能夠捕捉所有類型的兜售信息和其他不想要的通信。例如,兜售信息者通常重用(reuse)HTML/文字模板來發(fā)送兜售信息。除了檢測和消除問題以外,兜售信息技術(shù)一直涉及對繞過原地兜售信息檢測和/或排除技術(shù)的嘗試。此外,可縮放性(scalability)和性能問題成為部署某些兜售信息檢測系統(tǒng)的考慮因素。不幸的是,標(biāo)識和排除不想要的通信的傳統(tǒng)方法和系統(tǒng)可能是資源密集的,并且難以實現(xiàn)附加的預(yù)防措施。
發(fā)明內(nèi)容提供本
發(fā)明內(nèi)容以便以簡化的形式介紹將在以下的具體實施例中進(jìn)一步描述的一些概念。本
發(fā)明內(nèi)容并不旨在標(biāo)識出所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于幫助確定所要求保護(hù)的主題的范圍。各實施例提供不想要通信的檢測和/或管理特征,包括使用一個或多個共性度量(commonalitymeasure)作為生成模板以進(jìn)行指紋化(fingerprinting)和對比操作的一部分,但是實施例不限于此。在一實施例中,計算架構(gòu)包括被配置成為已知不想要的通信生成模板和相關(guān)聯(lián)指紋的組件,其中將該模板指紋與未知通信指紋進(jìn)行比較,作為確定該未知通信是否是基于類似模板的并且可以被恰當(dāng)分類為不想要的或可能不安全的通信以進(jìn)行后續(xù)分析和/或阻擋的一部分。一個實施例的方法用于使用多個模板指紋來檢測未知通信并將其分類為兜售信息、網(wǎng)絡(luò)釣魚(Phishing)、和/或其他不想要通信。還包括其他實施例。通過閱讀下面的詳細(xì)描述并參考相關(guān)聯(lián)的附圖,這些及其它特點和優(yōu)點將變得顯而易見。可以理解,前述一般描述和以下詳細(xì)描述均僅是說明性的,并且不限制所要求保護(hù)的本發(fā)明。圖I是示例性計算架構(gòu)的框圖。圖2A-2B示出了使用包含系數(shù)計算作為標(biāo)識兜售信息通信的一部分的示例性過程。圖3是描繪標(biāo)識不想要的電子通信的示例性過程的流程圖。圖4是描繪處理和管理不想要的電子通信的示例性過程的流程圖。圖5A-描繪了部分地使用消息來生成模板以進(jìn)行指紋化并在消息表征操作中使用的示例。圖6A-6C描繪了部分地使用消息來生成模板以進(jìn)行指紋化并在消息表征操作中使用的示例。圖7是描繪處理和管理不想要的電子通信的示例性過程的流程圖。圖8是描繪示例性兜售信息檢測系統(tǒng)的方面的框圖。圖9是描繪示例性兜售信息檢測系統(tǒng)的方面的框圖。圖10是示出用于實現(xiàn)此處所描述的各個實施例的示例性計算環(huán)境的框圖。具體實施例方式圖I是示例性計算架構(gòu)100的框圖,計算架構(gòu)100包括處理、存儲器和提供通信處理操作的其他組件/資源,這些操作包括處理電子消息的功能,作為防止不想要通信被傳遞和/或阻塞通信管道的一部分。例如,基于存儲器和處理器的計算系統(tǒng)/設(shè)備可以被配置成提供消息處理操作,作為標(biāo)識和/或防止兜售信息或其他不想要通信被傳遞到接收者的一部分。在一實施例中,架構(gòu)100的組件可被用作對通信管道上的消息進(jìn)行監(jiān)視的一部分,包括部分基于一個或多個已知不想要通信模板指紋來標(biāo)識不想要通信。例如,可以根據(jù)各種因素(諸如通過已知兜售信息實體)來生成模板指紋并將其分組。已知的不想要通信的模板的指紋可以代表已知不想要通信的已定義組或分組。如同下面描述的,假的和/或負(fù)面的反饋通信可被用作維護(hù)模板指紋儲存庫的方面的一部分,諸如刪除/移除和/或添加/修改模板指紋。在一個實施例中,可以部分基于部分基于第一共性度量提取多個不想要通信的第一部分以及部分基于第二共性度量提取該多個不想要通信的第二部分來生成模板。例如,模板生成過程可以用于部分基于第一共性度量來標(biāo)識并提取第一組電子消息的部分,其中該第一共性度量指示該第一組電子消息的所標(biāo)識的部分之間有很少共性或沒有共性。繼續(xù)該示例,模板生成過程還可用于部分基于第二共性度量來標(biāo)識并提取第二組(例如,跨多個組)電子消息的部分,其中該第二共性度量指示該第二組電子消息的所標(biāo)識的部分之間的很高的或顯著的共性(例如,跨多個消息的極常見的標(biāo)記(markup)結(jié)構(gòu))。一旦已提取了這些部分,則可以生成指紋以用于檢測不想要的通信,如下面討論的。在另一實施例中,可以部分基于對自定義串解析器的使用來生成模板,該自定義串解析器被配置成提取包括超文本標(biāo)記語言(HTML)的多個不想要的通信的已定義部分,作為生成用于指紋化的模板的一部分。一實施例的模板生成器可以被配置成從不想要通信數(shù)據(jù)結(jié)構(gòu)中提取所有文字和標(biāo)記屬性,從而暴露基本標(biāo)簽(例如,<html>,<a>,〈table〉等)。例如,模板生成器可以使用自定義解析器來從MME消息部分移除文字,然后對剩余部分應(yīng)用正則表達(dá)式,以提取純標(biāo)簽,作為生成模板以用于指紋化和在消息表征操作中使用的一部分。繼續(xù)參考圖1,架構(gòu)100的組件監(jiān)視一個或多個電子通信,諸如例如專用消息通信管道,作為標(biāo)識或監(jiān)視不想要電子通信(諸如兜售信息、網(wǎng)絡(luò)釣魚和其他不想要通信)的一部分。如同下面討論的,架構(gòu)100的組件被配置成為一個或多個已知不想要電子通信生成模板和模板指紋。已知不想要電子通信的模板指紋可被用作將未知電子通信表征為安全或不安全的一部分。例如,已知不想要電子通信的模板指紋可被存儲在計算機(jī)存儲器(例如,遠(yuǎn)程的和/或本地的)中,并被與未知消息指紋進(jìn)行比較,作為將未知電子消息表征或標(biāo)識為不想要電子通信(例如,兜售信息消息、網(wǎng)絡(luò)釣魚消息等)的一部分。如圖I所示,一實施例的架構(gòu)100包括模板生成器組件或模板生成器102、指紋生成器組件或指紋生成器104、表征組件106、指紋儲存庫108、和/或知識管理器組件或知識管理器110。如圖所示,并且如下面進(jìn)一步描述的,架構(gòu)100的組件可被用于監(jiān)視并處理通信管道(例如,簡單郵件傳輸(SMTP)管道)上的入站未知電子通信112的各方面,但是不限于此。作為未知消息表征操作的示例,可基于兜售信息活動的指示(經(jīng)由源IP地址、源域、相似度打分等完成)將電子郵件消息的集合分組在一起,并且可以使用模板處理操作來提供模板以進(jìn)行指紋化。例如,微軟的用于Exchange的前線在線保護(hù)(FOPE)維護(hù)已知會發(fā)送3售信息的IP地址的列表,其中可以根據(jù)IP地址分組來生成模板。在一個實施例中,與該已知IP地址相關(guān)聯(lián)的消息被用于捕捉實況兜售信息電子郵件,以供模板生成器102在生成用于指紋化的模板時使用。模板生成器102被配置成部分基于一個或多個源通信的方面來生成電子模板,但不限于此。例如,模板生成器102可以部分基于由標(biāo)記語言和數(shù)據(jù)(例如,包括文字的HTML模板)組成的已知兜售信息或其他不想要通信的各方面來生成不想要通信模板。一實施例的模板生成器102可以部分基于一個或多個電子通信的方面來生成電子模板,包括使用一個或多個共性度量來標(biāo)識通信部分以用于提取??蓪⑹S嗟牟糠种讣y化并將其用作標(biāo)識不想要通信或不想要通信部分的一部分。一個實施例的模板生成器102可用于部分基于第一共性度量提取第一通信部分并部分基于第二共性度量提取第二通信部分來生成不想要通信模板。一旦已提取了這些部分,則指紋化組件104可以生成指紋以用于檢測不想要的通信,如下面討論的。例如,模板生成器102可用于部分基于第一共性度量標(biāo)識和提取第一組電子消息的部分,該第一共性度量指示該第一組電子消息的所標(biāo)識部分之間有很少的共性或沒有共性(例如,組中的大部分電子郵件不包含所標(biāo)識的第一部分,其根據(jù)已知兜售信息IP地址分組)??梢圆糠只谙TML和文字的檢查、使用無損集合交集(losslesssetintersection)對消息的不相交“元組”或字單元的收集、和/或用于標(biāo)識消息間的差別的其他自動化方法,標(biāo)識共性。繼續(xù)上述示例,模板生成過程還可以部分基于第二共性度量來標(biāo)識并提取第二組(例如,跨多個組)的電子消息的部分,該第二共性度量指示該第二組電子消息的相關(guān)聯(lián)部分之間的很高的或顯著的共性。作為一個示例,極常見部分可以使用第二共性度量來標(biāo)識,極常見部分可被定義為所有消息的百分之十(10)中出現(xiàn)的消息部分,并且可以包括超出基本值的逆文檔頻率(IDF)度量(例如,〈!DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTMLI.OTransitional//ΕΝ""http://www.w3.org/TR/xhtmll/DTD/xhtmll_transitional.dtd">)。注意,這些極常見的所標(biāo)識的部分可能橫跨多個組和/或儲存庫。在一個實施例中,通過編譯標(biāo)準(zhǔn)列表或通過基于樣本消息動態(tài)地生成列表,可以標(biāo)識這些極常見部分,從而提高指紋化過程的選擇性。任何剩余部分(例如,HTML和文字)可以被定義為模板,以用于由指紋化組件104指紋化。在另一實施例中,模板生成器可用于部分基于對自定義串解析器的使用來生成模板,該自定義串解析器被配置成提取多個不想要的通信的已定義部分,作為生成用于指紋化的模板的一部分。一實施例的模板生成器可以被配置成從不想要通信數(shù)據(jù)結(jié)構(gòu)中提取所有文字和HTML屬性并留下基本的HTML標(biāo)簽(例如,<html>,<a>,〈table〉等)。例如,模板生成器可以使用自定義解析器來從MME消息部分的文本中移除文字,然后對剩余部分應(yīng)用正則表達(dá)式,以提取純標(biāo)簽,作為生成模板以用于指紋化和在消息表征操作中使用的一部分。指紋化組件104被配置成使用指紋化算法部分基于底層源(諸如例如已知兜售信息模板或未知入站消息)生成電子指紋。一實施例的指紋化組件104用于部分基于散列技術(shù)和電子通信的方面以及至少一個其他未知電子通信生成電子指紋,所述電子通信的方面包括被分類為兜售信息的所生成的電子模板的方面。在一個實施例中,指紋化組件104可以生成指紋,以在使用minwise散列計算確定已知和未知通信之間的相似度度量時使用。一實施例的minwise散列涉及基于電子通信的字單元生成散列值的集合,以及使用從所述集合選擇的散列值進(jìn)行比較操作。B-位minwise散列包括所選擇的值的多個位截斷的比較。指紋化新的、未知的消息不需要在指紋化之前移除或修改任何部分,這部分是由于使用下面進(jìn)一步討論的包含因素或系數(shù)所提供的非對稱比較。字單元的類型可被定義并用作minwise散列計算的一部分。字單元的選擇對應(yīng)于在散列操作中使用的單元。例如,用于散列的字單元可包括單個字或術(shù)語,或者兩個或更多個連續(xù)的字或術(shù)語。字單元還可以基于多個連續(xù)的字符。在這樣的實施例中,連續(xù)字符的數(shù)量可以基于所有文本字符(諸如所有ASCII字符),或者字符的數(shù)量可以排除非字母字符或非數(shù)字字符,諸如空格或標(biāo)點符號。提取字單元可以包括提取電子通信(諸如例如電子郵件模板)內(nèi)的所有文本。字對的提取可以用作提取字單元的示例。當(dāng)提取字對時,每個字(除了第一個字和最后一個字之外)可以被包括在字對中。例如,考慮以字“PatentDisclosureDocument.Thisisasummaryparagraph,Abstract,Claims,etc(專利披露文檔。這是
發(fā)明內(nèi)容段落、摘要、權(quán)利要求書等)”開始的模板。本模板的字對包括“PatentDisclosure”、“DisclosureDocument'“DocumentThis”、“Thisis”等。每個術(shù)語既作為對中的第一術(shù)語出現(xiàn),又作為對中的第二術(shù)語出現(xiàn),以避免類似的消息可能由于偏移了單個術(shù)語而顯得不同的可能性。散列函數(shù)可用于基于所提取的字單元來生成一組散列值。在字單元是字對的實施例中,使用散列函數(shù)來生成每個字對的散列值。對每個字對使用散列函數(shù)(或其他字單元解析)導(dǎo)致電子通信的一組散列值。適當(dāng)?shù)纳⒘泻瘮?shù)允許將字單元轉(zhuǎn)換為可被表達(dá)為η-位值的數(shù)字。例如,可以為字單元的每個字符分配數(shù)字,諸如ASCII數(shù)字。然后能夠使用散列函數(shù)來將求和后的值轉(zhuǎn)換成散列值。在另一實施例中,可以為每個字符生成散列值,并將該散列值求和以生成字單元的單個值。可以使用其他方法以使得該散列函數(shù)將字單元轉(zhuǎn)換為η-位值。還可以選擇散列函數(shù)以使得所使用的各個散列函數(shù)是獨立于彼此min-wise的。在一個實施例中,可以選擇若干不同類型的散列函數(shù),以使得所得到的散列函數(shù)的集合是近似min-wise獨立的??梢允褂枚鄠€不同的散列函數(shù)來重復(fù)字單元的散列,以使得該多個散列函數(shù)中的每一個允許創(chuàng)建不同的散列值集合。可以按預(yù)定序列使用散列函數(shù),以使得可對被比較的每個消息使用相同序列的散列函數(shù)?;谏⒘泻瘮?shù)的函數(shù)格式,某些散列函數(shù)可能不同。其他散列函數(shù)可能具有類似的函數(shù)格式,但是包括與該散列函數(shù)一起使用的不同的內(nèi)部常量。在文檔上使用的不同的散列函數(shù)的數(shù)量可以變化,并且可以與字單元中的字(或字符)的數(shù)量有關(guān)。使用多個散列函數(shù)的結(jié)果是多個散列值集合。每個集合的大小基于字單元的數(shù)量。集合的數(shù)量基于散列函數(shù)的數(shù)量。如同上面指出的,可以按預(yù)定序列應(yīng)用多個散列函數(shù),以使得所得到的散列值集合對應(yīng)于散列值集合的有序系列或序列。在一實施例中,對于每個散列值集合,可以從該集合中選出特征值。例如,特征值的一個選擇可以是該散列值集合的最小值。來自數(shù)字集合的最小值不依賴于該集合的大小或該最小值在該數(shù)字集合中的位置。集合的最大值可以是特征值的另一示例。又一個選項可以是使用與產(chǎn)生所述散列值集合的總排序、然后基于排序后的集合的方面選擇特征值相一致的任何技術(shù)。在一個實施例中,特征值可被用作指紋值的基礎(chǔ)??梢灾苯邮褂锰卣髦担?qū)⑵滢D(zhuǎn)換成指紋值。所述轉(zhuǎn)換可以是如下轉(zhuǎn)換用可預(yù)測的方式修改特征值,諸如對特征值執(zhí)行算術(shù)運算。另一示例包括截斷該特征值中所述數(shù)量的位,諸如通過僅使用相關(guān)聯(lián)特征值的b個最低有效位。從一組散列函數(shù)生成的指紋值可以被匯編成消息的指紋值集合,該集合基于用于散列值的原始預(yù)定順序來排序。如同下面描述的,代表消息指紋的指紋值可用于確定電子通信的相似度值和/或包含系數(shù)。包括指紋值的有序集合的指紋很容易被存儲在指紋儲存庫108中并且與其他指紋(包括未知消息的指紋)進(jìn)行比較。存儲指紋而不是底層源(例如,模板、原始源通信等)需要使用少得多的存儲器和更少的處理需求。在一實施例中,散列操作是不可逆的。例如,原始文本不能從所得出的散列重構(gòu)。一個實施例的表征組件106被配置為部分基于相似度和包含因素過程使用電子指紋執(zhí)行表征操作。在一實施例中,表征組件106使用模板指紋和未知(例如,新的兜售信息/網(wǎng)絡(luò)釣魚活動)通信指紋以標(biāo)識并核查兜售信息、網(wǎng)絡(luò)釣魚、和其他不想要的通信。如上所述,字單元類型被用作指紋化過程的一部分。瓦片(shingle)代表一些參考文本或語料庫的η個連續(xù)的字。研究已指示,在執(zhí)行集合相似度計算時,瓦片集合能夠準(zhǔn)確代表文本。作為示例,考慮如下消息“theredfoxrunsfar(紅狐貍跑得遠(yuǎn))”。這會產(chǎn)生如下的瓦片或字單兀集合{“thered”,“redfox”,“foxruns”,“runsfar”}。一個實施例的表征組件106使用以下算法作為表征未知通信指紋的一部分,其中Fingerprintt(指紋t):代表用于模板檢測的目的的St并實際上代表散列值序列的指紋。Fingerprintt(i):返回指紋中的第i個值。WordUnitCountt(字單元計數(shù)t):模板(例如,HTML模板)中包含的字單元的數(shù)量,取決于模板生成方法。S。未知通信(例如,實況電子郵件)中的字單元的集合。R:R代表集合相似性(resemblance)或相似度(similarity)。hash(散列):散列是具有隨機(jī)離差的唯一散列函數(shù)。min(最小值)min⑶尋找S中的最低值。bb(b,V1,V2):若V1和V2的最后b位相等則等于一⑴;否則等于零(O)。權(quán)利要求1.一種系統(tǒng),包括模板生成器組件(102),所述模板生成器組件被配置為移除已知不想要通信的第一部分、移除所述已知不想要通信的第二部分、以及使用所述已知不想要通信的剩余部分生成模板,其中所述第一部分與第一共性度量相關(guān)聯(lián),其中所述第二部分與第二共性度量相關(guān)聯(lián);指紋生成器組件(104),所述指紋生成器組件被配置為生成所述模板的模板指紋和未知通信的未知通信指紋;以及表征組件(106),所述表征組件被配置為將所述模板指紋和所述未知通信指紋的方面進(jìn)行比較,作為確定所述未知通信是否是不想要通信的一部分;以及指紋儲存庫(108),所述指紋儲存庫用于存儲模板指紋。2.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述模板生成器組件(102)被配置為根據(jù)第一分組已知不想要通信來移除所述已知不想要通信的所述第一部分,其中所述第一共性度量與所述第一分組的所述已知不想要通信的很少的共性或沒有共性相對應(yīng)。3.如權(quán)利要求2所述的系統(tǒng),其特征在于,所述模板生成器組件(102)被配置為根據(jù)第二分組通信來移除所述已知不想要通信的所述第二部分,其中所述第二共性度量與所述第二分組的所述第二部分之間的高程度的共性相對應(yīng)。4.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述表征組件(106)被配置為部分基于包含系數(shù)評估來將所述未知通信分類為兜售信息,包括使用已知兜售信息模板的一組字單元和實況消息的一組字單元。5.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述表征組件(106)被配置為部分基于包含系數(shù)參數(shù)將主動未知電子消息分類為兜售信息,包括使用相似度參數(shù)比乘以所述模板中的所述組字單元和所述主動未知電子消息中的所述組字單元的和,除以所述模板中的所述組字單元。6.如權(quán)利要求I所述的系統(tǒng),其特征在于,所述指紋生成器組件(104)被配置為使用b-位minwise散列算法來生成所述指紋。7.一種方法,包括使用指紋生成器組件(104)和所標(biāo)識的不想要通信的部分來使用一個或多個散列算法生成一個或多個不想要通信指紋,以及使用所述一個或多個散列算法從未知通信生成未知通信指紋;以及使用表征組件(106)來將所述一個或多個不想要通信指紋和所述未知通信指紋的方面進(jìn)行比較以標(biāo)識所述未知通信是否是不想要的,作為當(dāng)所述未知通信被標(biāo)識為不想要未知通信時阻止所述不想要通信的遞送的一部分。8.如權(quán)利要求7所述的方法,其特征在于,進(jìn)一步包括使用模板生成器組件(102)來部分基于所述部分生成不想要通信模板,其中所述部分包括具有相關(guān)聯(lián)共性度量的第一部分和具有相關(guān)量共性度量的第二部分。9.如權(quán)利要求7所述的方法,其特征在于,進(jìn)一步包括使用模板指紋、實況消息指紋、以及包含系數(shù)評估來表征電子通信。10.一種包括可執(zhí)行指令的計算機(jī)可讀存儲介質(zhì),當(dāng)所述可執(zhí)行指令時被使用計算系統(tǒng)執(zhí)行時,用于移除已知不想要通信的第一部分、移除所述已知不想要通信的第二部分、以及使用所述已知不想要通信的剩余部分生成模板(202),其中所述第一部分與第一共性度量相關(guān)聯(lián),其中所述第二部分與第二共性度量相關(guān)聯(lián);生成所述模板(202)的模板指紋(206)和未知通信(210)的未知通信指紋(208);以及將所述模板指紋(206)和所述未知通信指紋(208)的方面進(jìn)行比較,作為確定所述未知通信(210)是否是不想要通信的一部分;以及存儲模板指紋。全文摘要本發(fā)明涉及使用模板生成和指紋比較特征管理不想要的通信。提供不想要通信的檢測和/或管理特征,包括使用一個或多個共性度量作為生成模板以進(jìn)行指紋化和對比操作的一部分,但是這些實施例不限于此。一個實施例的計算架構(gòu)包括被配置成為已知不想要通信生成模板和相關(guān)聯(lián)指紋的組件,其中將該模板指紋與未知通信指紋進(jìn)行比較,作為確定該未知通信是否是基于類似模板的并且可以被恰當(dāng)分類為不想要的或可能不安全的通信以進(jìn)行后續(xù)分析和/或阻擋的一部分。一個實施例的方法用于使用多個模板指紋來檢測未知通信并將其分類為兜售信息、網(wǎng)絡(luò)釣魚(phishing)、和/或其他不想要通信。文檔編號H04L29/08GK102685200SQ201210037670公開日2012年9月19日申請日期2012年2月17日優(yōu)先權(quán)日2011年2月17日發(fā)明者C·P·希洛維茨,C·W·拉曼納,M·森達(dá)拉姆,M·甘地申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1