亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種數(shù)據(jù)清洗方法及系統(tǒng)的制作方法

文檔序號:8527974閱讀:341來源:國知局
一種數(shù)據(jù)清洗方法及系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及數(shù)據(jù)處理技術領域,尤其涉及一種數(shù)據(jù)清洗方法及系統(tǒng)。
【背景技術】
[0002]數(shù)據(jù)清洗是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。因為數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務系統(tǒng)中抽取而來而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)” “洗掉”,這就是數(shù)據(jù)清洗。
[0003]數(shù)據(jù)清洗的任務是為了將很多種不同的信息安全檢測的工具統(tǒng)一成平臺專用格式,并且提取有用的數(shù)據(jù),用于后續(xù)流程的數(shù)據(jù)流轉。
[0004]舉例來說,平臺會使用大量的開源工具對企業(yè)內部資源進行探測及評估,由于各工具的指令格式及結果數(shù)據(jù)格式不統(tǒng)一,導致不利于數(shù)據(jù)的收集與整理,所以使用數(shù)據(jù)清洗組件對此進行處理。數(shù)據(jù)清洗為發(fā)現(xiàn)、過濾及轉換不符要求信息的數(shù)據(jù)處理過程,針對各開源工具的命令重寫和工具運行結果數(shù)據(jù)的一致性檢查,并對結果數(shù)據(jù)的無效值、缺少值、重復數(shù)據(jù)的處理與規(guī)格化。
[0005]目前,通常是針對兩個或多個檢測工具編寫一個統(tǒng)一的接口,這種方式難以拓展,而且每次需要修改內核代碼,通過以發(fā)布新的版本來增加新的工具或接口。
[0006]有鑒于此,現(xiàn)有技術有待改進和提尚。

【發(fā)明內容】

[0007]鑒于上述現(xiàn)有技術的不足之處,本發(fā)明的目的在于提供一種數(shù)據(jù)清洗方法及系統(tǒng),旨在解決現(xiàn)有數(shù)據(jù)清理方法難以拓展的問題。
[0008]為了達到上述目的,本發(fā)明采取了以下技術方案:
[0009]一種數(shù)據(jù)清洗方法,其中,包括以下步驟:
[0010]S1、程序運行后,構建待清洗數(shù)據(jù)源;其中,所述帶清洗數(shù)據(jù)源為JSON格式,且符合IP的正常字段;
[0011]S2、根據(jù)工具腳本提取待清洗數(shù)據(jù)源中有用的數(shù)據(jù)生成相應的命令,運行后再通過實時返回或者回調方式得到運行后的數(shù)據(jù)源。
[0012]所述的數(shù)據(jù)清洗方法,其中,所述步驟SI中的待清洗數(shù)據(jù)源包括:IP、URL、操作系統(tǒng)、漏洞名稱以及對應的網址或網絡域名。
[0013]所述的數(shù)據(jù)清洗方法,其中,還包括步驟S3、根據(jù)工具腳本提取運行后的數(shù)據(jù)源的運行結果,進行一致性判斷、無效處理、缺少值處理和/或重復值處理,得到清洗后的數(shù)據(jù)源。
[0014]所述的數(shù)據(jù)清洗方法,其中,所述運行后的數(shù)據(jù)源中還包括工具結果。
[0015]所述的數(shù)據(jù)清洗方法,其中,所述S2中回調方式具體包括:將待清洗數(shù)據(jù)源和任務放入隊列中,提取所述任務后運行返回工具結果到對應的運行后的數(shù)據(jù)源。
[0016]一種數(shù)據(jù)清洗系統(tǒng),其中,包括:
[0017]構建單元,用于在程序運行后,構建待清洗數(shù)據(jù)源;其中,所述帶清洗數(shù)據(jù)源為JSON格式,且符合IP的正常字段;
[0018]命令生成單元,用于根據(jù)工具腳本提取待清洗數(shù)據(jù)源中有用的數(shù)據(jù)生成相應的命令,運行后再通過實時返回或者回調方式得到運行后的數(shù)據(jù)源。
[0019]所述的數(shù)據(jù)清洗系統(tǒng),其中,所述構建單元中的待清洗數(shù)據(jù)源包括:IP、URL、操作系統(tǒng)、漏洞名稱以及對應的網址或網絡域名。
[0020]所述的數(shù)據(jù)清洗系統(tǒng),其中,還包括:后置處理單元,用于根據(jù)工具腳本提取運行后的數(shù)據(jù)源的運行結果,進行一致性判斷、無效處理、缺少值處理和/或重復值處理,得到清洗后的數(shù)據(jù)源。
[0021]所述的數(shù)據(jù)清洗系統(tǒng),其中,所述運行后的數(shù)據(jù)源中還包括工具結果。
[0022]所述的數(shù)據(jù)清洗系統(tǒng),其中,所述命令生成單元中回調方式具體包括:將待清洗數(shù)據(jù)源和任務放入隊列中,提取所述任務后運行返回工具結果到對應的運行后的數(shù)據(jù)源。
[0023]有益效果:本發(fā)明提供的數(shù)據(jù)清洗方法及系統(tǒng),其中,所述方法包括:首先,程序運行后構建待清洗數(shù)據(jù)源;再根據(jù)工具腳本提取待清洗數(shù)據(jù)源中有用的數(shù)據(jù)生成相應的命令,運行后再通過實時返回或者回調方式得到運行后的數(shù)據(jù)源。其容易拓展,適應能力強,不會因為工具的更新?lián)Q代而導致整個系統(tǒng)重新編譯,是目前非??尚械慕鉀Q方案,具有很好的市場推廣應用前景。
【附圖說明】
[0024]圖1為本發(fā)明的數(shù)據(jù)清洗方法的流程圖。
[0025]圖2為本發(fā)明的數(shù)據(jù)清洗系統(tǒng)的結構框圖。
【具體實施方式】
[0026]本發(fā)明提供一種數(shù)據(jù)清洗方法及系統(tǒng)。為使本發(fā)明的目的、技術方案及效果更加清楚、明確,以下參照附圖并舉實施例對本發(fā)明進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0027]本發(fā)明的思路是:將數(shù)據(jù)清洗編寫成一個平臺框架,當每次出現(xiàn)新的信息安全檢測的工具,只需要編寫對應的腳本放入到此平臺,使得容易拓展,適應新出的各種工具,適應能力強,不會因為工具的更新?lián)Q代而導致整個平臺重新編譯,只需要修改對應的腳本或參數(shù)。
[0028]為了方便理解,對前述的一些技術特征的解釋:
[0029](I)不符要求信息:比如,一個是掃描IP的信息安全檢測工具,它的作用是得出IP信息,那么僅僅提取IP信息就夠了,如時間等其他數(shù)據(jù)就為無用信息,這些可以過濾掉的信息即屬于不符要求信息。
[0030](2) 一致性:例如要掃描IP的工具,能掃描出來的結果數(shù)據(jù)有一定的格式,掃描不出來也有一定的格式,只提取掃描出來的結果的格式,就只提取這個數(shù)據(jù)。
[0031](3)無效值、缺少值、重復數(shù)據(jù)如何處理以及規(guī)格化:結果可能是雜亂無章,無效,缺失或重復,根據(jù)這個結果的共性進行處理,如拋棄無效值,補齊缺少值,去掉重復的數(shù)據(jù)。
[0032]請參閱圖1,其為本發(fā)明的數(shù)據(jù)清洗方法的流程圖。如圖所示,所述數(shù)據(jù)清洗方法包括以下步驟:
[0033]S100、程序運行后,構建待清洗數(shù)據(jù)源;其中,所述帶清洗數(shù)據(jù)源為JSON格式,且符合IP的正常字段;
[0034]S200、根據(jù)工具腳本提取待清洗數(shù)據(jù)源中有用的數(shù)據(jù)生成相應的命令,運行后再通過實時返回或者回調方式得到運行后的數(shù)據(jù)源。
[0035]下面分別針對上述步驟進行具體描述。
[003
當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1