本發(fā)明涉及一種數據系統(tǒng),具體涉及具有數據清洗的海量數據系統(tǒng)。
背景技術:
近年來,隨著信息化技術的迅猛發(fā)展,收集、存儲、處理和分析的數據量越來越大。面向海量數據的處理越來越火,區(qū)別于傳統(tǒng)的數據結構化特點,大數據有三個特點,包括海量性、分布性、和異構性。其海量性主要是指數據規(guī)模的巨大并且增長速度持續(xù)增加;其分布性主要體現在巨大的數據量不能在一臺機器上存儲計算和分析;其異構性主要體現在數據類型和數據來源的多樣化。利用傳統(tǒng)的面向結構化數據的集中式處理方式,很難解決大數據帶來的問題,針對這三個特性,面向大數據的集成和清洗變得尤為重要。大數據同時還包含不確定性數據,現階段不確定數據產生的原因比較多樣化,主要體現在原始數據不準確、使用粗粒度數據集合、數據字段缺失以及數據集成。
技術實現要素:
本發(fā)明所要解決的技術問題是發(fā)現結構級錯誤和記錄級錯誤并修正,目的在于提供具有數據清洗的海量數據系統(tǒng),解決值缺失、值錯誤、重復記錄以及數據源內部與數據源之間不一致性的錯誤。
本發(fā)明通過下述技術方案實現:
具有數據清洗的海量數據系統(tǒng),包括:
數據采集模塊:從各類數據源收集數據到數據處理中心,針對所收集的各類數據進行初步加工,即格式檢查和標準化處理;
數據處理模塊:針對所述數據采集模塊中采集到的經過初步加工的數據進行解碼和格式轉換,生成標準格式的數據產品,設置每個數據的質量控制碼,生成帶有質量控制碼的標準格式數據產品;對部分實時和非實時海量數據進行選取、融合以及統(tǒng)計加工,生成處理后的數據;
數據清洗模塊:首先完成數據分析、定義錯誤類型,其次完成搜索、識別錯誤記錄,最后修正錯誤;
數據存儲管理模塊:對經過所述數據處理模塊加工處理之后的數據進行存儲管理;
數據服務模塊:將所述數據存儲管理模塊存儲的數據以各種方式與客戶之間進行交互,實現客戶對數據的訪問需求,所述數據服務模塊包括數據共享分發(fā)、元數據交換、Web檢索服務、數據定制服務、數據直接服務、數據訪問服務接口和用戶服務管理;
數據監(jiān)控模塊:對所述數據采集模塊中的數據收集過程、多維數據集處理模塊的多維度數據集、數據服務模塊中的數據訪問過程進行監(jiān)控記錄和處理。
進一步地,錯誤類型包括結構級錯誤和記錄級錯誤。
進一步地,識別錯誤的方法是基于數據按照預定義的清理規(guī)則,查找不匹配的記錄。
進一步地,修正錯誤是指按照編制程序或借助于外部標準源文件或數據字典修正錯誤,又或者根據數理統(tǒng)計知識自動修正。
本發(fā)明與現有技術相比,具有如下的優(yōu)點和有益效果:發(fā)現結構級錯誤和記錄級錯誤并修正,解決值缺失、值錯誤、重復記錄以及數據源內部與數據源之間不一致性的錯誤。
附圖說明
此處所說明的附圖用來提供對本發(fā)明實施例的進一步理解,構成本申請的一部分,并不構成對本發(fā)明實施例的限定。在附圖中:
圖1為本發(fā)明結構示意圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,下面結合實施例和附圖,對本發(fā)明作進一步的詳細說明,本發(fā)明的示意性實施方式及其說明僅用于解釋本發(fā)明,并不作為對本發(fā)明的限定。
實施例
如圖1所示,具有數據清洗的海量數據系統(tǒng),包括:
數據采集模塊:從各類數據源收集數據到數據處理中心,針對所收集的各類數據進行初步加工,即格式檢查和標準化處理;
數據處理模塊:針對所述數據采集模塊中采集到的經過初步加工的數據進行解碼和格式轉換,生成標準格式的數據產品,設置每個數據的質量控制碼,生成帶有質量控制碼的標準格式數據產品;對部分實時和非實時海量數據進行選取、融合以及統(tǒng)計加工,生成處理后的數據;
數據清洗模塊:首先完成數據分析、定義錯誤類型,其次完成搜索、識別錯誤記錄,最后修正錯誤;錯誤類型包括結構級錯誤和記錄級錯誤;識別錯誤的方法是基于數據按照預定義的清理規(guī)則,查找不匹配的記錄;修正錯誤是指按照編制程序或借助于外部標準源文件或數據字典修正錯誤,又或者根據數理統(tǒng)計知識自動修正。
數據存儲管理模塊:對經過所述數據處理模塊加工處理之后的數據進行存儲管理;數據存儲管理模塊具有集中化備份管理、集中化復制管理、連續(xù)數據保護、分析和報告和簡化管理的優(yōu)點,提高了數據庫可用性、增加了應用程序正常運行時間、減少了業(yè)務風險。
數據服務模塊:將所述數據存儲管理模塊存儲的數據以各種方式與客戶之間進行交互,實現客戶對數據的訪問需求,所述數據服務模塊包括數據共享分發(fā)、元數據交換、Web檢索服務、數據定制服務、數據直接服務、數據訪問服務接口和用戶服務管理;
數據監(jiān)控模塊:對所述數據采集模塊中的數據收集過程、數據處理模塊的數據處理、數據服務模塊中的數據訪問過程進行監(jiān)控記錄和處理。
以上所述的具體實施方式,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施方式而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。