亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于Hadoop云平臺的海量數據比對方法及系統(tǒng)的制作方法

文檔序號:6632625閱讀:601來源:國知局
一種基于Hadoop云平臺的海量數據比對方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種基于Hadoop云平臺的海量數據比對方法和系統(tǒng),所述方法包括:步驟1,將海量數據按區(qū)間標尺切分為若干份,并利用云比較引擎對每份數據進行排序,輸出對應數量的內部有序的文件至基于Hadoop云平臺的分布式文件系統(tǒng)中,作為源數據比對文件;步驟2,當有比對任務時,分布式文件系統(tǒng)通過其主任務節(jié)點來調度和控制其余任務節(jié)點執(zhí)行任務文件;步驟3,每個任務節(jié)點找出其要執(zhí)行的任務文件,與源數據比對文件進行比對,將比對的文件中的相同記錄放至同一個文件中,將差異記錄放到設定的差異文件中;步驟4,各任務節(jié)點完成文件比對后,主任務節(jié)點對各任務節(jié)點的比對結果進行合并和輸出。本發(fā)明提高了海量數據一致性比對的效率。
【專利說明】-種基于Hadoop云平臺的海量數據比對方法及系統(tǒng)

【技術領域】
[0001] 本發(fā)明涉及海量數據處理【技術領域】,特別是涉及一種基于Hadoop云平臺的海量 數據比對方法及系統(tǒng)。

【背景技術】
[0002] 目前隨著電信產業(yè)的發(fā)展,數據業(yè)務高速發(fā)展,業(yè)務規(guī)則也變得相對復雜,各大運 營商對數據質量要求也越來越高。但是由于業(yè)務規(guī)則不明確,業(yè)務受理入口和出口不統(tǒng)一, 業(yè)務流程不規(guī)范,接口不穩(wěn)定,缺乏數據稽核等原因導致各網元的用戶數據和業(yè)務局數據 產生差異,由于數據量巨大無法在短時間內稽核完成,如果多次或者拉長稽核周期,比對的 數據又會存在時間差,造成比對結果不正確。
[0003] 通過分析傳統(tǒng)的數據比對方法發(fā)現,傳統(tǒng)的比對方法基本上都是基于單主機來進 行的,由于受限于單主機資源的限制,稽核效率大多都非常低,尤其隨著各行業(yè)數據量增 大,傳統(tǒng)的數據稽核引擎根本無法達到用戶的要求。
[0004] 傳統(tǒng)的比對方法主要為取出要比對的數據,每個結果集的每條記錄有兩個字段, 第一個是索引字段,第二個是屬性字段,如下所示:
[0005]

【權利要求】
1. 一種基于Hadoop云平臺的海量數據比對方法,其特征在于,包括: 步驟1,將海量數據按區(qū)間標尺切分為若干份,并利用云比較引擎對每份數據進行排 序,輸出對應數量的內部有序的文件,再將該內部有序的文件放至基于Hadoop云平臺的分 布式文件系統(tǒng)中,作為源數據比對文件; 步驟2,當有比對任務時,分布式文件系統(tǒng)通過其主任務節(jié)點來調度和控制其余任務 節(jié)點執(zhí)行任務文件; 步驟3,每個任務節(jié)點找出其要執(zhí)行的任務文件,與源數據比對文件進行比對,將比對 的文件中的相同記錄放至同一個文件中,并將比對的文件中的差異記錄放到設定的差異 文件中; 步驟4,各任務節(jié)點完成文件比對后,主任務節(jié)點對各任務節(jié)點的比對結果進行合并 和輸出。
2. 根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法,其特征在于, 所述步驟1中將內部有序的文件放至分布式文件系統(tǒng)中具體包括:根據文件個數和用戶自 定義文件大小設計數據量分布算法,按數據量分布算法將內部有序的文件存儲至分布式 文件系統(tǒng)中。
3. 根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法,其特征在于, 所述步驟2還包括:所述主任務節(jié)點還用于監(jiān)控其余任務節(jié)點的運行狀況,當有任務節(jié)點 出現故障時,主任務節(jié)點將出現故障的任務節(jié)點負責的任務轉交給空閑的任務節(jié)點重新 運行。
4. 根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法,其特征在于, 所述步驟3中比對文件是否有相同記錄是通過比對文件的排序字段實現的,若排序字段相 同則為相同記錄,否則為差異記錄。
5. 根據權利要求1或4所述的一種基于Hadoop云平臺的海量數據比對方法,其特征 在于,累加所有存儲相同記錄的文件,若累加值大于設定值,則將所述相同記錄單獨輸出 至新建的另一個文件中。
6. 根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法,其特征在于, 所述步驟4中主任務節(jié)點對各任務節(jié)點的比對結果進行合并,具體包括:假定源數據比對 文件為A,任務節(jié)點上要執(zhí)行的任務文件為B,則將比對結果合并為三個文件,第一個文件 用于存儲相同記錄,第二個文件用于存儲A比B多和B除主鍵相同外屬性不一致的數據,第 三文件用于存儲B比A多和A除主鍵相同外屬性不一致的數據。
7. -種基于Hadoop云平臺的海量數據比對系統(tǒng),其特征在于,包括: 源數據處理模塊,用于將海量數據按區(qū)間標尺切分為若干份,并利用云比較引擎對 每份數據進行排序,輸出對應數量的內部有序的文件,再將該內部有序的文件放至基于 Hadoop云平臺的分布式文件系統(tǒng)中,作為源數據比對文件; 節(jié)點分配模塊,用于當有比對任務時,調用分布式文件系統(tǒng)通過其主任務節(jié)點來調度 和控制其余任務節(jié)點執(zhí)行任務文件; 比對模塊,用于調用每個任務節(jié)點找出其要執(zhí)行的任務文件,與源數據比對文件進行 比對,將比對的文件中的相同記錄放至同一個文件中,并將比對的文件中的差異記錄放到 設定的差異文件中; 輸出模塊,用于在各任務節(jié)點完成文件比對后,調用主任務節(jié)點對各任務節(jié)點的比對 結果進行合并和輸出。
8. 根據權利要求7所述的一種基于Hadoop云平臺的海量數據比對系統(tǒng),其特征在于, 所述源數據處理模塊中將內部有序的文件放至分布式文件系統(tǒng)中具體包括:根據文件個 數和用戶自定義文件大小設計數據量分布算法,按數據量分布算法將內部有序的文件放 至分布式文件系統(tǒng)中。
9. 根據權利要求7所述的一種基于Hadoop云平臺的海量數據比對系統(tǒng),其特征在于, 所述主任務節(jié)點還用于監(jiān)控其余任務節(jié)點的運行狀況,當有任務節(jié)點出現故障時,主任務 節(jié)點將出現故障的任務節(jié)點負責的任務轉交給空閑的任務節(jié)點重新運行。
10. 根據權利要求1所述的一種基于Hadoop云平臺的海量數據比對方法,其特征在 于,所述輸出模塊中主任務節(jié)點對各任務節(jié)點的比對結果進行合并具體包括:假定源數據 比對文件為A,任務節(jié)點上要執(zhí)行的任務文件為B,則將比對結果合并為三個文件,第一個 文件用于存儲相同記錄,第二個文件用于存儲A比B多和B除主鍵相同外屬性不一致的數 據,第三文件用于存儲B比A多和A除主鍵相同外屬性不一致的數據。
【文檔編號】G06F17/30GK104317942SQ201410602807
【公開日】2015年1月28日 申請日期:2014年10月31日 優(yōu)先權日:2014年10月31日
【發(fā)明者】何攀 申請人:北京思特奇信息技術股份有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1