6]所述步驟SlOO為程序運(yùn)行后,構(gòu)建待清洗數(shù)據(jù)源(也稱(chēng)原始數(shù)據(jù)源);其中,所述帶清洗數(shù)據(jù)源為JSON格式,且符合IP的正常字段。需要注意地是,在不收SI中是沒(méi)有工具結(jié)果的,工具結(jié)果是在工具執(zhí)行完后,再回來(lái)清洗的后置后置操作中。在本實(shí)施例中,所述待清洗數(shù)據(jù)源包括:IP、URL、操作系統(tǒng)、漏洞名稱(chēng)以及對(duì)應(yīng)的網(wǎng)址或網(wǎng)絡(luò)域名。
[0037]所述步驟S200為根據(jù)工具腳本提取待清洗數(shù)據(jù)源中有用的數(shù)據(jù)生成相應(yīng)的命令,運(yùn)行后再通過(guò)實(shí)時(shí)返回或者回調(diào)方式得到運(yùn)行后的數(shù)據(jù)源。概括來(lái)說(shuō),首先,將帶清洗數(shù)據(jù)源中的數(shù)據(jù)給到安全監(jiān)檢測(cè)工具生產(chǎn)命令(根據(jù)工具的種類(lèi)不同,生產(chǎn)不同的命令),然后,通過(guò)兩種方式得到運(yùn)行后的數(shù)據(jù)源。其中,一種是實(shí)時(shí)方式,即馬上返回到帶清洗數(shù)據(jù)源中得到運(yùn)行后的數(shù)據(jù)源;另一種是通過(guò)回調(diào)的方式執(zhí)行完后回到帶清洗數(shù)據(jù)源中得到運(yùn)行后的數(shù)據(jù)源(篩選匹配,更新其數(shù)據(jù)源,通過(guò)腳本編寫(xiě)進(jìn)行篩選匹配)。
[0038]所述回調(diào)方式,指將數(shù)據(jù)源加任務(wù)放到隊(duì)列,由worker (工作者)取這個(gè)任務(wù),取完任務(wù)就運(yùn)行返回工具結(jié)果到對(duì)應(yīng)的數(shù)據(jù)源(發(fā)送人)。
[0039]進(jìn)一步地,還包括步驟S300、根據(jù)工具腳本提取運(yùn)行后的數(shù)據(jù)源的運(yùn)行結(jié)果,進(jìn)行一致性判斷、無(wú)效處理、缺少值處理和/或重復(fù)值處理,得到清洗后的數(shù)據(jù)源。相對(duì)于原始數(shù)據(jù)源,在運(yùn)行后的數(shù)據(jù)源中多了一個(gè)工具運(yùn)行的結(jié)果數(shù)據(jù)。最后,將清洗后的數(shù)據(jù)源按實(shí)時(shí)和回調(diào)的方式再返回。
[0040]本發(fā)明還提供了一種數(shù)據(jù)清洗系統(tǒng),如圖2所示,包括:
[0041]構(gòu)建單元100,用于在程序運(yùn)行后,構(gòu)建待清洗數(shù)據(jù)源;其中,所述帶清洗數(shù)據(jù)源為JSON格式,且符合IP的正常字段;
[0042]命令生成單元200,用于根據(jù)工具腳本提取待清洗數(shù)據(jù)源中有用的數(shù)據(jù)生成相應(yīng)的命令,運(yùn)行后再通過(guò)實(shí)時(shí)返回或者回調(diào)方式得到運(yùn)行后的數(shù)據(jù)源。
[0043]進(jìn)一步地,所述的數(shù)據(jù)清洗系統(tǒng)中,所述構(gòu)建單元中的待清洗數(shù)據(jù)源包括:IP、URL、操作系統(tǒng)、漏洞名稱(chēng)以及對(duì)應(yīng)的網(wǎng)址或網(wǎng)絡(luò)域名。
[0044]進(jìn)一步地,所述的數(shù)據(jù)清洗系統(tǒng)中,還包括:后置處理單元,用于根據(jù)工具腳本提取運(yùn)行后的數(shù)據(jù)源的運(yùn)行結(jié)果,進(jìn)行一致性判斷、無(wú)效處理、缺少值處理和/或重復(fù)值處理,得到清洗后的數(shù)據(jù)源。
[0045]進(jìn)一步地,所述的數(shù)據(jù)清洗系統(tǒng)中,所述運(yùn)行后的數(shù)據(jù)源中還包括工具結(jié)果。
[0046]進(jìn)一步地,所述的數(shù)據(jù)清洗系統(tǒng)中,所述命令生成單元中回調(diào)方式具體包括:將待清洗數(shù)據(jù)源和任務(wù)放入隊(duì)列中,提取所述任務(wù)后運(yùn)行返回工具結(jié)果到對(duì)應(yīng)的運(yùn)行后的數(shù)據(jù)源。
[0047]上述數(shù)據(jù)清洗系統(tǒng)中的各個(gè)模塊的功能都已經(jīng)在數(shù)據(jù)清洗方法中進(jìn)行了介紹,這里就不再做贅述了。
[0048]綜上所述,本發(fā)明提供的數(shù)據(jù)清洗方法及系統(tǒng),其中,所述方法包括:首先,程序運(yùn)行后構(gòu)建待清洗數(shù)據(jù)源;再根據(jù)工具腳本提取待清洗數(shù)據(jù)源中有用的數(shù)據(jù)生成相應(yīng)的命令,運(yùn)行后再通過(guò)實(shí)時(shí)返回或者回調(diào)方式得到運(yùn)行后的數(shù)據(jù)源。其容易拓展,適應(yīng)能力強(qiáng),不會(huì)因?yàn)楣ぞ叩母聯(lián)Q代而導(dǎo)致整個(gè)系統(tǒng)重新編譯,是目前非常可行的解決方案,具有很好的市場(chǎng)推廣應(yīng)用前景。
[0049]可以理解的是,對(duì)本領(lǐng)域普通技術(shù)人員來(lái)說(shuō),可以根據(jù)本發(fā)明的技術(shù)方案及本發(fā)明構(gòu)思加以等同替換或改變,而所有這些改變或替換都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【主權(quán)項(xiàng)】
1.一種數(shù)據(jù)清洗方法,其特征在于,包括以下步驟: 51、程序運(yùn)行后,構(gòu)建待清洗數(shù)據(jù)源;其中,所述帶清洗數(shù)據(jù)源為JSON格式,且符合IP的正常字段; 52、根據(jù)工具腳本提取待清洗數(shù)據(jù)源中有用的數(shù)據(jù)生成相應(yīng)的命令,運(yùn)行后再通過(guò)實(shí)時(shí)返回或者回調(diào)方式得到運(yùn)行后的數(shù)據(jù)源。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)清洗方法,其特征在于,所述步驟SI中的待清洗數(shù)據(jù)源包括:IP、URL、操作系統(tǒng)、漏洞名稱(chēng)以及對(duì)應(yīng)的網(wǎng)址或網(wǎng)絡(luò)域名。
3.根據(jù)權(quán)利要求1或2所述的數(shù)據(jù)清洗方法,其特征在于,還包括步驟S3、根據(jù)工具腳本提取運(yùn)行后的數(shù)據(jù)源的運(yùn)行結(jié)果,進(jìn)行一致性判斷、無(wú)效處理、缺少值處理和/或重復(fù)值處理,得到清洗后的數(shù)據(jù)源。
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)清洗方法,其特征在于,所述運(yùn)行后的數(shù)據(jù)源中還包括工具結(jié)果。
5.根據(jù)權(quán)利要求3所述的數(shù)據(jù)清洗方法,其特征在于,所述S2中回調(diào)方式具體包括:將待清洗數(shù)據(jù)源和任務(wù)放入隊(duì)列中,提取所述任務(wù)后運(yùn)行返回工具結(jié)果到對(duì)應(yīng)的運(yùn)行后的數(shù)據(jù)源。
6.一種數(shù)據(jù)清洗系統(tǒng),其特征在于,包括: 構(gòu)建單元,用于在程序運(yùn)行后,構(gòu)建待清洗數(shù)據(jù)源;其中,所述帶清洗數(shù)據(jù)源為JSON格式,且符合IP的正常字段; 命令生成單元,用于根據(jù)工具腳本提取待清洗數(shù)據(jù)源中有用的數(shù)據(jù)生成相應(yīng)的命令,運(yùn)行后再通過(guò)實(shí)時(shí)返回或者回調(diào)方式得到運(yùn)行后的數(shù)據(jù)源。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)清洗系統(tǒng),其特征在于,所述構(gòu)建單元中的待清洗數(shù)據(jù)源包括:IP、URL、操作系統(tǒng)、漏洞名稱(chēng)以及對(duì)應(yīng)的網(wǎng)址或網(wǎng)絡(luò)域名。
8.根據(jù)權(quán)利要求6或7所述的數(shù)據(jù)清洗系統(tǒng),其特征在于,還包括:后置處理單元,用于根據(jù)工具腳本提取運(yùn)行后的數(shù)據(jù)源的運(yùn)行結(jié)果,進(jìn)行一致性判斷、無(wú)效處理、缺少值處理和/或重復(fù)值處理,得到清洗后的數(shù)據(jù)源。
9.根據(jù)權(quán)利要求8所述的數(shù)據(jù)清洗系統(tǒng),其特征在于,所述運(yùn)行后的數(shù)據(jù)源中還包括工具結(jié)果。
10.根據(jù)權(quán)利要求8所述的數(shù)據(jù)清洗系統(tǒng),其特征在于,所述命令生成單元中回調(diào)方式具體包括:將待清洗數(shù)據(jù)源和任務(wù)放入隊(duì)列中,提取所述任務(wù)后運(yùn)行返回工具結(jié)果到對(duì)應(yīng)的運(yùn)行后的數(shù)據(jù)源。
【專(zhuān)利摘要】本發(fā)明提供了一種數(shù)據(jù)清洗方法及系統(tǒng),其中,所述方法包括:首先,程序運(yùn)行后構(gòu)建待清洗數(shù)據(jù)源;再根據(jù)工具腳本提取待清洗數(shù)據(jù)源中有用的數(shù)據(jù)生成相應(yīng)的命令,運(yùn)行后再通過(guò)實(shí)時(shí)返回或者回調(diào)方式得到運(yùn)行后的數(shù)據(jù)源。其容易拓展,適應(yīng)能力強(qiáng),不會(huì)因?yàn)楣ぞ叩母聯(lián)Q代而導(dǎo)致整個(gè)系統(tǒng)重新編譯,是目前非常可行的解決方案,具有很好的市場(chǎng)推廣應(yīng)用前景。
【IPC分類(lèi)】G06F3-06
【公開(kāi)號(hào)】CN104850361
【申請(qǐng)?zhí)枴緾N201510293101
【發(fā)明人】龍震岳, 魏理豪, 艾解清
【申請(qǐng)人】廣東電網(wǎng)有限責(zé)任公司信息中心
【公開(kāi)日】2015年8月19日
【申請(qǐng)日】2015年6月1日