分布式模式發(fā)現(xiàn)的制作方法
【專利說明】分布式模式發(fā)現(xiàn)
【背景技術(shù)】
[0001] 安全信息和事件管理(SIEM)技術(shù)提供對網(wǎng)絡(luò)硬件和應(yīng)用所生成的安全警報(bào)的實(shí) 時(shí)分析。SKM技術(shù)可檢測對計(jì)算網(wǎng)絡(luò)的可能威脅。運(yùn)些可能威脅可根據(jù)對安全事件的分析 來確定。
【附圖說明】
[0002] 下面的詳細(xì)描述參照附圖,其中:
[0003] 圖1和圖2是根據(jù)各種示例的能夠分布式模式發(fā)現(xiàn)的系統(tǒng)的框圖;
[0004] 圖3是根據(jù)一個(gè)示例的用于基于分布式模式發(fā)現(xiàn)的規(guī)則來生成單項(xiàng)項(xiàng)集 (itemset)的方法的流程圖;
[0005] 圖4是根據(jù)一個(gè)示例的用于確定分布式模式發(fā)現(xiàn)的新候選項(xiàng)集的方法的流程圖;
[0006] 圖5是根據(jù)一個(gè)示例的用于輸出包括頻繁項(xiàng)集的元組的方法的流程圖;
[0007] 圖6是根據(jù)一個(gè)示例的用于從包括頻繁項(xiàng)集的元組確定所發(fā)現(xiàn)的模式的方法的流 程圖;W及
[000引圖7是根據(jù)一個(gè)示例的能夠建立新候選項(xiàng)集的計(jì)算設(shè)備的框圖。
【具體實(shí)施方式】
[0009] 模式發(fā)現(xiàn)是基于數(shù)據(jù)挖掘的先發(fā)制人的方法,用于解決安全信息和事件管理 (SIEM)系統(tǒng)面臨的許多挑戰(zhàn)。隨著大安全數(shù)據(jù)和專業(yè)的信息攻擊者采用的先進(jìn)的協(xié)作技術(shù) 的涌現(xiàn),SffiM系統(tǒng)正面臨各種挑戰(zhàn),例如,零日漏桐探索、慢攻擊、從一個(gè)系統(tǒng)到另一個(gè)系統(tǒng) 的長期滲透、W及信息泄露。此外,黑客正在其倉庫中增加之前從未見過的新武器。
[0010] 先發(fā)制人的方法可用于不通過匹配已知的簽名來檢測系統(tǒng)異常,而是通過關(guān)聯(lián)安 全信息并發(fā)現(xiàn)系統(tǒng)中未知模式的痕跡來檢測系統(tǒng)異常。SIEM中的模式發(fā)現(xiàn)是確定運(yùn)些漏桐 的有用方法。
[0011] 在某些示例中,網(wǎng)絡(luò)的安全信息/事件管理可包括從網(wǎng)絡(luò)和網(wǎng)絡(luò)設(shè)備收集反映網(wǎng) 絡(luò)活動(dòng)和/或設(shè)備的操作的數(shù)據(jù)、W及分析數(shù)據(jù)W提高安全性。網(wǎng)絡(luò)設(shè)備的示例可包括防火 墻、入侵檢測系統(tǒng)、服務(wù)器、工作站、個(gè)人計(jì)算機(jī),等。可分析數(shù)據(jù)W檢測模式,該模式可指示 網(wǎng)絡(luò)或網(wǎng)絡(luò)設(shè)備上的攻擊或異常。所檢測的模式可用于例如定位數(shù)據(jù)中的那些模式。例如, 模式可指示嘗試訪問網(wǎng)絡(luò)中的計(jì)算機(jī)并安裝惡意軟件的蠕蟲或其他類型的計(jì)算機(jī)病毒的 活動(dòng)。
[0012] 從網(wǎng)絡(luò)和網(wǎng)絡(luò)設(shè)備收集的數(shù)據(jù)用于事件。事件可W為可被監(jiān)控和分析的任意活 動(dòng)。針對事件采集的數(shù)據(jù)稱作事件數(shù)據(jù)??蓪?shí)施所采集的事件數(shù)據(jù)的分析,W確定事件是否 與威脅或一些其他情況關(guān)聯(lián)。與事件關(guān)聯(lián)的活動(dòng)的示例可包括登錄、退出、通過網(wǎng)絡(luò)發(fā)送數(shù) 據(jù)、發(fā)電子郵件、訪問應(yīng)用、讀或?qū)憯?shù)據(jù)、端口掃描、安裝軟件等。事件數(shù)據(jù)可從網(wǎng)絡(luò)設(shè)備所 生成的消息、日志文件條目來收集,或從其他源收集。安全系統(tǒng)還可生成事件數(shù)據(jù),例如,相 關(guān)事件和審計(jì)事件。
[0013] 在一些示例中,還可通過建立已在線下學(xué)習(xí)的系統(tǒng)的正常模式的基線來實(shí)現(xiàn)異常 檢測。發(fā)生任何異常時(shí),系統(tǒng)可檢測新的模式并警告系統(tǒng)管理。SIEM的單個(gè)節(jié)點(diǎn)上的模式發(fā) 現(xiàn)可限制于系統(tǒng)資源(例如,存儲(chǔ)器、具有數(shù)據(jù)庫(DB)的IO帶寬,等),使得其缺少處理大數(shù) 據(jù)的能力,運(yùn)在現(xiàn)代先進(jìn)的企業(yè)安全體系中是常見的。此外,如果W批處理模式實(shí)現(xiàn)模式發(fā) 現(xiàn),則實(shí)時(shí)發(fā)現(xiàn)新模式是有挑戰(zhàn)性的。
[0014] 因此,本文描述的各種實(shí)施例設(shè)及一種實(shí)時(shí)的能夠擴(kuò)展傳統(tǒng)模式發(fā)現(xiàn)的分布式模 式發(fā)現(xiàn)引擎。此外,各種實(shí)施例可用于在關(guān)聯(lián)的數(shù)據(jù)流式傳入時(shí),實(shí)時(shí)響應(yīng)新的模式。模式 發(fā)現(xiàn)程序可分流并分成多個(gè)級。此外,多個(gè)節(jié)點(diǎn)可用于多個(gè)級。
[0015] 如圖1中進(jìn)一步描述的,運(yùn)些節(jié)點(diǎn)可包括事務(wù)項(xiàng)節(jié)點(diǎn)、單項(xiàng)計(jì)數(shù)節(jié)點(diǎn)、事務(wù)項(xiàng)集生 成器(builder)節(jié)點(diǎn)、項(xiàng)集計(jì)數(shù)器節(jié)點(diǎn)、W及模式輸出節(jié)點(diǎn)。一個(gè)或多個(gè)節(jié)點(diǎn)可分配于模式 發(fā)現(xiàn)的每個(gè)級。在一些示例中,映射/歸約、Storm(風(fēng)暴)、或其他方法可用于平衡工作負(fù)載。 因此,本文描述的方法可避免數(shù)據(jù)集中的I/O瓶頸W及計(jì)算集中的瓶頸。有利地,本文描述 的方法可改善發(fā)現(xiàn)實(shí)時(shí)模式的性能。可在流處理框架上實(shí)現(xiàn)映射/歸約和/或Storm方法,W 提供在多級上流模式發(fā)現(xiàn)處理的機(jī)制,W及在一個(gè)或多個(gè)節(jié)點(diǎn)上并行化每級中的任務(wù),W 避免瓶頸。運(yùn)允許實(shí)時(shí)處理持續(xù)流動(dòng)的安全信息和事件數(shù)據(jù)。
[0016] 節(jié)點(diǎn)可檢查事件組成,并將相關(guān)事件組識(shí)別為事務(wù)。隨后可確定頻繁項(xiàng)集。在某些 示例中,頻繁項(xiàng)集是一起頻繁地出現(xiàn)在不同事務(wù)中的相關(guān)事件組。因此,一個(gè)或多個(gè)安全事 件可包括在事務(wù)中。可被定制W例如滿足消費(fèi)者指定的標(biāo)準(zhǔn)的運(yùn)些頻繁項(xiàng)集中的一些是惡 意攻擊的痕跡,且可用作未來分析的簽名。
[0017] 運(yùn)可能是關(guān)聯(lián)項(xiàng)集挖掘的情況,其可在形式上被描述如下:令I(lǐng)= {日1,日2,日3…,am} 是項(xiàng)集,且事務(wù)數(shù)據(jù)庫DB是I的子集的集合,由DB ={ Tl,T2,T3…,Tn}表示,其中Ti (1 y如) 稱為事務(wù)??赡苣J紸的由SUPP(A)表示的支集是DB中包含A的事務(wù)的數(shù)量,且可能模式A的 由length(A)表示的長度是A中項(xiàng)的數(shù)量。在一個(gè)示例中,當(dāng)且僅當(dāng)SUPP(A) > Cl且length (A) >卽寸,A被認(rèn)為是頻繁模式,其中Cl是模式支集的預(yù)定義闊值,且C2是模式長度的預(yù)定 義闊值。項(xiàng)的示例可包括用于模式發(fā)現(xiàn)的字段和參數(shù)。模式長度可認(rèn)為是活動(dòng)的數(shù)量。
[0018] 根據(jù)示例,針對模式發(fā)現(xiàn)選擇字段和參數(shù)。事件數(shù)據(jù)中的事件可具有大量的屬性。 事件數(shù)據(jù)可根據(jù)與事件數(shù)據(jù)中的事件的屬性關(guān)聯(lián)的字段來存儲(chǔ)。例如,字段是描述事件數(shù) 據(jù)中的事件的屬性。字段的示例包括事件的日期/時(shí)間、事件名稱、事件類別、事件ID、源地 址、源MAC地址、目的地址、目的MAC地址、用戶ID、用戶權(quán)限、設(shè)備客戶字符串等等。事件數(shù)據(jù) 可存儲(chǔ)在由字段組成的表中。在一些情況下,反映不同事件屬性的數(shù)W百計(jì)的字段可用于 存儲(chǔ)事件數(shù)據(jù)。
[0019] 針對模式發(fā)現(xiàn),選擇字段中的一些。例如,所選擇的字段可包括來自表的字段的集 合。集合中的多個(gè)字段可包括來自表的字段中的一個(gè)或多個(gè)。集合的所選擇的字段可基于 各種統(tǒng)計(jì)來選擇,且可存儲(chǔ)在模式發(fā)現(xiàn)分布(profile)中。模式發(fā)現(xiàn)分布是用于發(fā)現(xiàn)事件數(shù) 據(jù)中的模式的任何數(shù)據(jù)。模式發(fā)現(xiàn)分布可包括字段的集合、用于模式發(fā)現(xiàn)的參數(shù)和其他信 息。
[0020] 除了包括字段之外,參數(shù)可用于模式發(fā)現(xiàn)。參數(shù)可包括在模式發(fā)現(xiàn)分布中,W供模 式發(fā)現(xiàn)。參數(shù)可規(guī)定模式發(fā)現(xiàn)分布中的字段與事件數(shù)據(jù)匹配的條件,W檢測模式。此外,參 數(shù)可用于調(diào)整所檢測的模式的數(shù)量。參數(shù)的一個(gè)示例是模式長度,模式長度是活動(dòng)數(shù)。模式 長度參數(shù)可表示為了將被認(rèn)為是模式的活動(dòng)所執(zhí)行的不同活動(dòng)的最小數(shù)量。參數(shù)的另一個(gè) 示例是可重復(fù)性參數(shù),可重復(fù)性參數(shù)可表示為了使其被認(rèn)為是模式而重復(fù)不同活動(dòng)的最小 次數(shù)。在一個(gè)示例中,重復(fù)性與兩個(gè)字段關(guān)聯(lián)。例如,重復(fù)性可被表示為其上活動(dòng)被重復(fù)的 源和目標(biāo)字段的不同組合。源和目標(biāo)IP地址的不同組合的最小數(shù)是重復(fù)性參數(shù)的示例。可 調(diào)整運(yùn)些參數(shù),直至預(yù)定量的匹配模式被識(shí)別。
[002