一種基于Hadoop云平臺的海量數據比對方法及系統(tǒng)的制作方法

文檔序號：6632625閱讀：601來源：國知局

一種基于Hadoop云平臺的海量數據比對方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種基于Hadoop云平臺的海量數據比對方法和系統(tǒng)，所述方法包括：步驟1，將海量數據按區(qū)間標尺切分為若干份，并利用云比較引擎對每份數據進行排序，輸出對應數量的內部有序的文件至基于Hadoop云平臺的分布式文件系統(tǒng)中,作為源數據比對文件；步驟2，當有比對任務時,分布式文件系統(tǒng)通過其主任務節(jié)點來調度和控制其余任務節(jié)點執(zhí)行任務文件；步驟3，每個任務節(jié)點找出其要執(zhí)行的任務文件,與源數據比對文件進行比對,將比對的文件中的相同記錄放至同一個文件中,將差異記錄放到設定的差異文件中；步驟4,各任務節(jié)點完成文件比對后,主任務節(jié)點對各任務節(jié)點的比對結果進行合并和輸出。本發(fā)明提高了海量數據一致性比對的效率。
【專利說明】-種基于Hadoop云平臺的海量數據比對方法及系統(tǒng)

【技術領域】
[0001] 本發(fā)明涉及海量數據處理【技術領域】，特別是涉及一種基于Hadoop云平臺的海量數據比對方法及系統(tǒng)。

【背景技術】
[0002] 目前隨著電信產業(yè)的發(fā)展，數據業(yè)務高速發(fā)展，業(yè)務規(guī)則也變得相對復雜，各大運營商對數據質量要求也越來越高。但是由于業(yè)務規(guī)則不明確，業(yè)務受理入口和出口不統(tǒng)一，業(yè)務流程不規(guī)范，接口不穩(wěn)定，缺乏數據稽核等原因導致各網元的用戶數據和業(yè)務局數據產生差異，由于數據量巨大無法在短時間內稽核完成，如果多次或者拉長稽核周期，比對的數據又會存在時間差，造成比對結果不正確。
[0003] 通過分析傳統(tǒng)的數據比對方法發(fā)現，傳統(tǒng)的比對方法基本上都是基于單主機來進行的，由于受限于單主機資源的限制，稽核效率大多都非常低，尤其隨著各行業(yè)數據量增大，傳統(tǒng)的數據稽核引擎根本無法達到用戶的要求。
[0004] 傳統(tǒng)的比對方法主要為取出要比對的數據，每個結果集的每條記錄有兩個字段，第一個是索引字段，第二個是屬性字段，如下所示：
[0005]

【權利要求】
1. 一種基于Hadoop云平臺的海量數據比對方法，其特征在于，包括：步驟1，將海量數據按區(qū)間標尺切分為若干份，并利用云比較引擎對每份數據進行排序，輸出對應數量的內部有序的文件，再將該內部有序的文件放至基于Hadoop云平臺的分布式文件系統(tǒng)中，作為源數據比對文件；步驟2,當有比對任務時，分布式文件系統(tǒng)通過其主任務節(jié)點來調度和控制其余任務節(jié)點執(zhí)行任務文件；步驟3,每個任務節(jié)點找出其要執(zhí)行的任務文件，與源數據比對文件進行比對，將比對的文件中的相同記錄放至同一個文件中，并將比對的文件中的差異記錄放到設定的差異文件中；步驟4,各任務節(jié)點完成文件比對后，主任務節(jié)點對各任務節(jié)點的比對結果進行合并和輸出。
2. 根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法，其特征在于，所述步驟1中將內部有序的文件放至分布式文件系統(tǒng)中具體包括：根據文件個數和用戶自定義文件大小設計數據量分布算法，按數據量分布算法將內部有序的文件存儲至分布式文件系統(tǒng)中。
3. 根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法，其特征在于，所述步驟2還包括：所述主任務節(jié)點還用于監(jiān)控其余任務節(jié)點的運行狀況，當有任務節(jié)點出現故障時，主任務節(jié)點將出現故障的任務節(jié)點負責的任務轉交給空閑的任務節(jié)點重新運行。
4. 根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法，其特征在于，所述步驟3中比對文件是否有相同記錄是通過比對文件的排序字段實現的，若排序字段相同則為相同記錄，否則為差異記錄。
5. 根據權利要求1或4所述的一種基于Hadoop云平臺的海量數據比對方法，其特征在于，累加所有存儲相同記錄的文件，若累加值大于設定值，則將所述相同記錄單獨輸出至新建的另一個文件中。
6. 根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法，其特征在于，所述步驟4中主任務節(jié)點對各任務節(jié)點的比對結果進行合并，具體包括：假定源數據比對文件為A，任務節(jié)點上要執(zhí)行的任務文件為B，則將比對結果合并為三個文件，第一個文件用于存儲相同記錄，第二個文件用于存儲A比B多和B除主鍵相同外屬性不一致的數據，第三文件用于存儲B比A多和A除主鍵相同外屬性不一致的數據。
7. -種基于Hadoop云平臺的海量數據比對系統(tǒng)，其特征在于，包括：源數據處理模塊，用于將海量數據按區(qū)間標尺切分為若干份，并利用云比較引擎對每份數據進行排序，輸出對應數量的內部有序的文件，再將該內部有序的文件放至基于 Hadoop云平臺的分布式文件系統(tǒng)中，作為源數據比對文件；節(jié)點分配模塊，用于當有比對任務時，調用分布式文件系統(tǒng)通過其主任務節(jié)點來調度和控制其余任務節(jié)點執(zhí)行任務文件；比對模塊，用于調用每個任務節(jié)點找出其要執(zhí)行的任務文件，與源數據比對文件進行比對，將比對的文件中的相同記錄放至同一個文件中，并將比對的文件中的差異記錄放到設定的差異文件中；輸出模塊，用于在各任務節(jié)點完成文件比對后，調用主任務節(jié)點對各任務節(jié)點的比對結果進行合并和輸出。
8. 根據權利要求7所述的一種基于Hadoop云平臺的海量數據比對系統(tǒng)，其特征在于，所述源數據處理模塊中將內部有序的文件放至分布式文件系統(tǒng)中具體包括：根據文件個數和用戶自定義文件大小設計數據量分布算法，按數據量分布算法將內部有序的文件放至分布式文件系統(tǒng)中。
9. 根據權利要求7所述的一種基于Hadoop云平臺的海量數據比對系統(tǒng)，其特征在于，所述主任務節(jié)點還用于監(jiān)控其余任務節(jié)點的運行狀況，當有任務節(jié)點出現故障時，主任務節(jié)點將出現故障的任務節(jié)點負責的任務轉交給空閑的任務節(jié)點重新運行。
10. 根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法，其特征在于，所述輸出模塊中主任務節(jié)點對各任務節(jié)點的比對結果進行合并具體包括：假定源數據比對文件為A，任務節(jié)點上要執(zhí)行的任務文件為B，則將比對結果合并為三個文件，第一個文件用于存儲相同記錄，第二個文件用于存儲A比B多和B除主鍵相同外屬性不一致的數據，第三文件用于存儲B比A多和A除主鍵相同外屬性不一致的數據。
【文檔編號】G06F17/30GK104317942SQ201410602807
【公開日】2015年1月28日申請日期:2014年10月31日優(yōu)先權日:2014年10月31日
【發(fā)明者】何攀申請人:北京思特奇信息技術股份有限公司

完整全部詳細技術資料下載