亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種網(wǎng)絡(luò)安全日志模板抽取方法及裝置的制造方法

文檔序號:9330373閱讀:271來源:國知局
一種網(wǎng)絡(luò)安全日志模板抽取方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息安全領(lǐng)域,尤其涉及一種網(wǎng)絡(luò)安全日志模板抽取方法及裝置,該 方案不依賴于任何先驗知識,可以自動抽取出描述未知網(wǎng)絡(luò)安全日志格式的模板。
【背景技術(shù)】
[0002] 網(wǎng)絡(luò)安全日志,包括操作系統(tǒng)產(chǎn)生的系統(tǒng)日志和網(wǎng)絡(luò)安全設(shè)備產(chǎn)生的報警日志, 記錄了網(wǎng)絡(luò)環(huán)境中發(fā)生的各種安全事件,為網(wǎng)絡(luò)異常診斷和網(wǎng)絡(luò)攻擊威脅的發(fā)現(xiàn)提供重要 的線索。在網(wǎng)絡(luò)安全日志分析系統(tǒng)中,日志格式解析是一個必不可少的步驟。因此,抽取網(wǎng) 絡(luò)安全日志模板,對日志分析有著重要的意義。目前,在一些比較成熟的網(wǎng)絡(luò)安全日志分 析產(chǎn)品中,如OSS頂、Snort、OSSEC等,通常采集基于正則表達(dá)式的日志解析方法。它們獲 取日志模板的方法包括兩種:一種是通過閱讀相關(guān)技術(shù)文檔,獲得源日志的格式模板說明; 另一種是通過人工去分析源日志的格式,手工編寫日志格式模板。這種日志模板提取的方 法,只適用于已知格式模板的日志。當(dāng)大量格式未知的日志混雜在一起,并且沒有相關(guān)技術(shù) 文檔說明時,很難通過人工分析的方法得到描述日志格式的模板。
[0003] 隨著網(wǎng)絡(luò)通信技術(shù)的發(fā)展,部署在網(wǎng)絡(luò)環(huán)境中的設(shè)備和系統(tǒng)服務(wù)都越來越多,越 來越復(fù)雜化,從而導(dǎo)致網(wǎng)絡(luò)中產(chǎn)生的日志呈現(xiàn)"海量"、"異構(gòu)"的特點。雖然很多日志格式 可以通過相關(guān)的技術(shù)文檔獲得,日志格式可能會隨著系統(tǒng)的更新或升級而改變。并且很多 安全產(chǎn)品廠商的日志格式并不對外公開,對于網(wǎng)絡(luò)中海量未知格式的日志,分析人員很難 人工去抽取出所有的日志模板。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的在于提供一種網(wǎng)絡(luò)安全日志模板抽取方法及裝置,使得日志分析人 員能夠不需要任何先驗知識,可以自動獲取網(wǎng)絡(luò)安全日志格式的模板。從而,解決前面提到 的在網(wǎng)絡(luò)安全日志格式提取中遇到的問題。
[0005] 為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0006] -種網(wǎng)絡(luò)安全日志模板抽取方法,包括如下步驟:
[0007] 1)對原始的網(wǎng)絡(luò)安全日志進(jìn)行數(shù)據(jù)清洗,得到過濾掉時間和IP地址的日志信息;
[0008] 2)對不包含時間和IP地址的日志信息進(jìn)行聚類,把具有相似格式的日志劃分到 同一類中;
[0009] 3)對于每一類中的日志,提取出日志中描述格式的模板詞,得到日志格式的模板。
[0010] 進(jìn)一步地,步驟1)在數(shù)據(jù)清洗時,根據(jù)時間和IP地址具有的特定的格式,采用正 則表達(dá)式匹配去掉對應(yīng)的字段。
[0011] 進(jìn)一步地,步驟2)采用DBSCAN算法或者OPTICS算法對相似格式的日志進(jìn)行聚 類。
[0012] 進(jìn)一步地,步驟3)利用LDA Gibbs sampling算法提取出日志中描述格式的模板 詞,僅保留原始日志中的模板詞,得到日志格式。
[0013] 進(jìn)一步地,步驟3)將每個主題中分布最大的單詞作為模板詞,用來描述日志的格 式;在得到模板詞后,把原始日志中不屬于模板詞的單詞用**代替,得到描述日志格式的 正則表達(dá)式。
[0014] 一種網(wǎng)絡(luò)安全日志模板抽取裝置,其包括:
[0015] 數(shù)據(jù)清洗單元,用于對原始的網(wǎng)絡(luò)安全日志進(jìn)行數(shù)據(jù)清洗,過濾其中的時間和IP 地址;
[0016] 信息聚類單元,用于對不包含時間和IP地址的日志信息進(jìn)行聚類,把具有相似格 式的日志劃分到同一類中;
[0017] 模板提取單元,用于提取每一類的日志中描述格式的模板詞,得到日志格式的模 板。
[0018] 進(jìn)一步地,所述信息聚類單元采用DBSCAN算法或者OPTICS算法對相似格式的日 志進(jìn)行聚類。
[0019] 進(jìn)一步地,所述模板提取單元利用LDA Gibbs sampling算法提取出日志中描述格 式的模板詞,僅保留原始日志中的模板詞,得到日志格式。
[0020] 利用本發(fā)明提供的方法提取網(wǎng)絡(luò)安全日志的格式,具有以下優(yōu)點:
[0021] 1、該方法不需要任何網(wǎng)絡(luò)安全領(lǐng)域的先驗知識,就可以得到描述未知網(wǎng)絡(luò)安全日 志格式的模板;
[0022] 2、該方法解決了對包含不同格式的海量多源異構(gòu)網(wǎng)絡(luò)安全日志模板的提取,為日 志分析預(yù)處理提供有力的支撐;
[0023] 3、在提取描述日志格式的模板單詞之前,先進(jìn)行聚類處理,然后對每一類網(wǎng)絡(luò)安 全日志進(jìn)彳it旲板提取,從而減小系統(tǒng)負(fù)載,提尚運算效率;
[0024] 4、該方法得到的網(wǎng)絡(luò)安全日志模板可以用于日志分析中的日志解析,比查閱技術(shù) 說明文檔或手工分析準(zhǔn)確率更高。
【附圖說明】
[0025] 圖1是本發(fā)明方法的數(shù)據(jù)流處理流程圖。
[0026] 圖2是具體實例中網(wǎng)絡(luò)安全日志模板抽取方法的流程圖。
[0027] 圖3是SSH進(jìn)程日志信息示意圖。
[0028] 圖4是進(jìn)行數(shù)據(jù)清洗后的日志信息示意圖。
[0029] 圖5是聚類結(jié)果示意圖。
[0030] 圖6是模板抽取后得到的描述日志格式的正則表達(dá)式示意圖。
[0031] 圖7是具體實例中不同主題數(shù)量的召回率曲線圖。
【具體實施方式】
[0032] 為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面通過具體實施例和 附圖,對本發(fā)明做進(jìn)一步說明。
[0033] 本發(fā)明提供的網(wǎng)絡(luò)安全日志模板抽取方法,其主要步驟包括數(shù)據(jù)清洗、信息聚類 和模板提取,如圖1所示。其中,數(shù)據(jù)清洗是首先對日志數(shù)據(jù)中具有特定格式的字段,包括 日期、IP地址等,進(jìn)行過濾;信息聚類是對清洗之后的數(shù)據(jù),利用聚類算法把具有相似格式 的日志劃分到一個類中;模板提取是對于每一個類中的日志,提取出日志中描述格式的模 板詞,僅保留原始日志中的模板詞,得到日志格式。
[0034] L數(shù)據(jù)清洗
[0035] 該方法中的數(shù)據(jù)清洗,主要是為了過濾掉具有特定格式的字段,包括時間和IP地 址。該方法主要是對數(shù)據(jù)清洗后剩余的信息部分進(jìn)行模板提取。
[0036] 在自然語言中,時間和IP地址具有特定的格式,本方法中采用正則表達(dá)式匹配去 掉對應(yīng)的字段。
[0037] IP地址的正則表達(dá)式可以是:
[0038] (( ? : ( ? :25[0-5] |2[0-4]\d| ((l\d{2}) I ([1-9] ? \d)))\.){3} (? :25[0-5]I 2[0-4]\dI ((l\d{2}) I ([1-9] ? \d))))
[0039] 時間2015-12-2112:21:10.的正則表達(dá)式可以是:
[0040] (\d{4})-(0\d{l} I I [0-2])-(0\d{l} | [ 12]\d {I} | 3 [0 I]) (0\d {I} | I \ d{l} |2[0-3]) : [0-5]\d{l} : ([0-5]\d{l})
[0041] 下表中列出幾種常用的正則表達(dá)式:
[0042] 表1常用正則表達(dá)式
[0043]
[0045] 數(shù)據(jù)清洗的輸入是原始的網(wǎng)絡(luò)安全日志,輸出的是過濾掉時間和IP地址的日志 信息。
[0046] 2.信息聚類
[0047] 該方法中提到的信息聚類,輸入是清洗之后不包含時間和IP地址的日志信息,輸 出是包含相似格式的多個日志信息聚類。
[0048] 優(yōu)選地,該方法米用 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚類算法,對相似格式的日志進(jìn)行聚類;選取日志中的單詞組 成作為日志特征向量,把每一條日志轉(zhuǎn)化為多維空間里的一個點,進(jìn)行聚類。
[0049] DBSCAN算法是一種基于密度的聚類算法,不需要事先知道要形成的簇類的數(shù) 量,并且可以發(fā)現(xiàn)噪音點。還可以采用的聚類方法有OPTICS算法(Ordering Points to identify the clustering structure),OPTICS并不顯示的產(chǎn)生結(jié)果類簇,而是為聚類分 析生成一個增廣的簇排序,可以得到基于任何半徑E和minPts的DBSCAN算法的聚類結(jié) 果。
[0050] 原始日志中出現(xiàn)的每個單詞作為一個特征,假設(shè)輸入的M條日志中共有W個不同 的單詞,0表示不存在該特征,1表示存在該特征。每一條日志信息可以轉(zhuǎn)化為由0和1組 成的W維特征向量,表示空間的一個點。得到空間的M個點,利用DBSCAN算法把M個點進(jìn) 行聚類,得到的每一個聚類中都包含格式相似的日志。
[0051] 上面以單詞作為日志的特征,在其它實施例中,還可以采用N-Gram(漢語語言模 型)把日志劃分為由長度為N的字段組成的有序隊列,每一個長度為N的字段作為日志的 特征,最終得到的模板詞就是由多個長度為N的字段組成的單詞序列。
[0052] 3.模板提取
[0053] 對于每一個類中的日志,利用LDA(Latent Dirichlet allocation,隱含狄利克雷 分布)Gibbs
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1