一種網(wǎng)絡(luò)安全日志模板抽取方法及裝置的制造方法

文檔序號：9330373閱讀：271來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種網(wǎng)絡(luò)安全日志模板抽取方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息安全領(lǐng)域，尤其涉及一種網(wǎng)絡(luò)安全日志模板抽取方法及裝置，該方案不依賴于任何先驗知識，可以自動抽取出描述未知網(wǎng)絡(luò)安全日志格式的模板。
【背景技術(shù)】
[0002] 網(wǎng)絡(luò)安全日志，包括操作系統(tǒng)產(chǎn)生的系統(tǒng)日志和網(wǎng)絡(luò)安全設(shè)備產(chǎn)生的報警日志，記錄了網(wǎng)絡(luò)環(huán)境中發(fā)生的各種安全事件，為網(wǎng)絡(luò)異常診斷和網(wǎng)絡(luò)攻擊威脅的發(fā)現(xiàn)提供重要的線索。在網(wǎng)絡(luò)安全日志分析系統(tǒng)中，日志格式解析是一個必不可少的步驟。因此，抽取網(wǎng) 絡(luò)安全日志模板，對日志分析有著重要的意義。目前，在一些比較成熟的網(wǎng)絡(luò)安全日志分析產(chǎn)品中，如OSS頂、Snort、OSSEC等，通常采集基于正則表達(dá)式的日志解析方法。它們獲取日志模板的方法包括兩種：一種是通過閱讀相關(guān)技術(shù)文檔，獲得源日志的格式模板說明；另一種是通過人工去分析源日志的格式，手工編寫日志格式模板。這種日志模板提取的方法，只適用于已知格式模板的日志。當(dāng)大量格式未知的日志混雜在一起，并且沒有相關(guān)技術(shù) 文檔說明時，很難通過人工分析的方法得到描述日志格式的模板。
[0003] 隨著網(wǎng)絡(luò)通信技術(shù)的發(fā)展，部署在網(wǎng)絡(luò)環(huán)境中的設(shè)備和系統(tǒng)服務(wù)都越來越多，越來越復(fù)雜化，從而導(dǎo)致網(wǎng)絡(luò)中產(chǎn)生的日志呈現(xiàn)"海量"、"異構(gòu)"的特點。雖然很多日志格式可以通過相關(guān)的技術(shù)文檔獲得，日志格式可能會隨著系統(tǒng)的更新或升級而改變。并且很多安全產(chǎn)品廠商的日志格式并不對外公開，對于網(wǎng)絡(luò)中海量未知格式的日志，分析人員很難人工去抽取出所有的日志模板。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的在于提供一種網(wǎng)絡(luò)安全日志模板抽取方法及裝置，使得日志分析人員能夠不需要任何先驗知識，可以自動獲取網(wǎng)絡(luò)安全日志格式的模板。從而，解決前面提到的在網(wǎng)絡(luò)安全日志格式提取中遇到的問題。
[0005] 為實現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案如下：
[0006] -種網(wǎng)絡(luò)安全日志模板抽取方法，包括如下步驟：
[0007] 1)對原始的網(wǎng)絡(luò)安全日志進(jìn)行數(shù)據(jù)清洗，得到過濾掉時間和IP地址的日志信息；
[0008] 2)對不包含時間和IP地址的日志信息進(jìn)行聚類，把具有相似格式的日志劃分到同一類中；
[0009] 3)對于每一類中的日志，提取出日志中描述格式的模板詞，得到日志格式的模板。
[0010] 進(jìn)一步地，步驟1)在數(shù)據(jù)清洗時，根據(jù)時間和IP地址具有的特定的格式，采用正則表達(dá)式匹配去掉對應(yīng)的字段。
[0011] 進(jìn)一步地，步驟2)采用DBSCAN算法或者OPTICS算法對相似格式的日志進(jìn)行聚類。
[0012] 進(jìn)一步地，步驟3)利用LDA Gibbs sampling算法提取出日志中描述格式的模板詞，僅保留原始日志中的模板詞，得到日志格式。
[0013] 進(jìn)一步地，步驟3)將每個主題中分布最大的單詞作為模板詞，用來描述日志的格式；在得到模板詞后，把原始日志中不屬于模板詞的單詞用**代替，得到描述日志格式的正則表達(dá)式。
[0014] 一種網(wǎng)絡(luò)安全日志模板抽取裝置，其包括：
[0015] 數(shù)據(jù)清洗單元，用于對原始的網(wǎng)絡(luò)安全日志進(jìn)行數(shù)據(jù)清洗，過濾其中的時間和IP 地址；
[0016] 信息聚類單元，用于對不包含時間和IP地址的日志信息進(jìn)行聚類，把具有相似格式的日志劃分到同一類中；
[0017] 模板提取單元，用于提取每一類的日志中描述格式的模板詞，得到日志格式的模板。
[0018] 進(jìn)一步地，所述信息聚類單元采用DBSCAN算法或者OPTICS算法對相似格式的日志進(jìn)行聚類。
[0019] 進(jìn)一步地，所述模板提取單元利用LDA Gibbs sampling算法提取出日志中描述格式的模板詞，僅保留原始日志中的模板詞，得到日志格式。
[0020] 利用本發(fā)明提供的方法提取網(wǎng)絡(luò)安全日志的格式，具有以下優(yōu)點：
[0021] 1、該方法不需要任何網(wǎng)絡(luò)安全領(lǐng)域的先驗知識，就可以得到描述未知網(wǎng)絡(luò)安全日志格式的模板；
[0022] 2、該方法解決了對包含不同格式的海量多源異構(gòu)網(wǎng)絡(luò)安全日志模板的提取，為日志分析預(yù)處理提供有力的支撐；
[0023] 3、在提取描述日志格式的模板單詞之前，先進(jìn)行聚類處理，然后對每一類網(wǎng)絡(luò)安全日志進(jìn)彳it旲板提取，從而減小系統(tǒng)負(fù)載，提尚運算效率；
[0024] 4、該方法得到的網(wǎng)絡(luò)安全日志模板可以用于日志分析中的日志解析，比查閱技術(shù) 說明文檔或手工分析準(zhǔn)確率更高。
【附圖說明】
[0025] 圖1是本發(fā)明方法的數(shù)據(jù)流處理流程圖。
[0026] 圖2是具體實例中網(wǎng)絡(luò)安全日志模板抽取方法的流程圖。
[0027] 圖3是SSH進(jìn)程日志信息示意圖。
[0028] 圖4是進(jìn)行數(shù)據(jù)清洗后的日志信息示意圖。
[0029] 圖5是聚類結(jié)果示意圖。
[0030] 圖6是模板抽取后得到的描述日志格式的正則表達(dá)式示意圖。
[0031] 圖7是具體實例中不同主題數(shù)量的召回率曲線圖。
【具體實施方式】
[0032] 為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面通過具體實施例和附圖，對本發(fā)明做進(jìn)一步說明。
[0033] 本發(fā)明提供的網(wǎng)絡(luò)安全日志模板抽取方法，其主要步驟包括數(shù)據(jù)清洗、信息聚類和模板提取，如圖1所示。其中，數(shù)據(jù)清洗是首先對日志數(shù)據(jù)中具有特定格式的字段，包括日期、IP地址等，進(jìn)行過濾；信息聚類是對清洗之后的數(shù)據(jù)，利用聚類算法把具有相似格式的日志劃分到一個類中；模板提取是對于每一個類中的日志，提取出日志中描述格式的模板詞，僅保留原始日志中的模板詞，得到日志格式。
[0034] L數(shù)據(jù)清洗
[0035] 該方法中的數(shù)據(jù)清洗，主要是為了過濾掉具有特定格式的字段，包括時間和IP地址。該方法主要是對數(shù)據(jù)清洗后剩余的信息部分進(jìn)行模板提取。
[0036] 在自然語言中，時間和IP地址具有特定的格式，本方法中采用正則表達(dá)式匹配去掉對應(yīng)的字段。
[0037] IP地址的正則表達(dá)式可以是：
[0038] (( ? : ( ? :25[0-5] |2[0-4]\d| ((l\d{2}) I ([1-9] ? \d)))\.){3} (? :25[0-5]I 2[0-4]\dI ((l\d{2}) I ([1-9] ? \d))))
[0039] 時間2015-12-2112:21:10.的正則表達(dá)式可以是：
[0040] (\d{4})-(0\d{l} I I [0-2])-(0\d{l} | [ 12]\d {I} | 3 [0 I]) (0\d {I} | I \ d{l} |2[0-3]) : [0-5]\d{l} : ([0-5]\d{l})
[0041] 下表中列出幾種常用的正則表達(dá)式：
[0042] 表1常用正則表達(dá)式
[0043]
[0045] 數(shù)據(jù)清洗的輸入是原始的網(wǎng)絡(luò)安全日志，輸出的是過濾掉時間和IP地址的日志信息。
[0046] 2.信息聚類
[0047] 該方法中提到的信息聚類，輸入是清洗之后不包含時間和IP地址的日志信息，輸出是包含相似格式的多個日志信息聚類。
[0048] 優(yōu)選地，該方法米用 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚類算法，對相似格式的日志進(jìn)行聚類；選取日志中的單詞組成作為日志特征向量，把每一條日志轉(zhuǎn)化為多維空間里的一個點，進(jìn)行聚類。
[0049] DBSCAN算法是一種基于密度的聚類算法，不需要事先知道要形成的簇類的數(shù) 量，并且可以發(fā)現(xiàn)噪音點。還可以采用的聚類方法有OPTICS算法（Ordering Points to identify the clustering structure)，OPTICS并不顯示的產(chǎn)生結(jié)果類簇，而是為聚類分析生成一個增廣的簇排序，可以得到基于任何半徑E和minPts的DBSCAN算法的聚類結(jié) 果。
[0050] 原始日志中出現(xiàn)的每個單詞作為一個特征，假設(shè)輸入的M條日志中共有W個不同的單詞，0表示不存在該特征，1表示存在該特征。每一條日志信息可以轉(zhuǎn)化為由0和1組成的W維特征向量，表示空間的一個點。得到空間的M個點，利用DBSCAN算法把M個點進(jìn) 行聚類，得到的每一個聚類中都包含格式相似的日志。
[0051] 上面以單詞作為日志的特征，在其它實施例中，還可以采用N-Gram(漢語語言模型）把日志劃分為由長度為N的字段組成的有序隊列，每一個長度為N的字段作為日志的特征，最終得到的模板詞就是由多個長度為N的字段組成的單詞序列。
[0052] 3.模板提取
[0053] 對于每一個類中的日志，利用LDA(Latent Dirichlet allocation，隱含狄利克雷分布）Gibbs

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：亞靜;柳廳文;張浩亮;時金橋;
技術(shù)所有人：中國科學(xué)院信息工程研究所;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

施工日志模板相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種網(wǎng)絡(luò)安全日志模板抽取方法及裝置的制造方法