一種hdfs中大數(shù)據(jù)遷移完整性驗(yàn)證的方法
【專利摘要】本發(fā)明提供一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法,其具體實(shí)現(xiàn)過程如下:獲取原始HDFS文件及目錄結(jié)構(gòu)詳細(xì)信息和遷移后的新HDFS文件信息;對原始文件信息以及新文件信息分片處理;輸出新舊文件信息的對比驗(yàn)證和驗(yàn)證結(jié)果。該一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法和現(xiàn)有技術(shù)相比,不需要進(jìn)行程序的編譯、打包,只需要簡單的腳本即可完成驗(yàn)證;更加突出大數(shù)據(jù)靈活、便捷的優(yōu)勢,使得用戶可以非常快速簡便的找到可能存在的不完整的數(shù)據(jù);適用范圍廣泛,該方法適用于多種HDFS環(huán)境,實(shí)用性強(qiáng)。
【專利說明】一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法
[0001]
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,具體的說是一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法。
【背景技術(shù)】
[0003]大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。
[0004]Hadoop Distributed File System (HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。運(yùn)行在HDFS之上的程序有很大量的數(shù)據(jù)集。典型的HDFS文件大小是TB的級別。所以,HDFS被調(diào)整成支持大文件。它應(yīng)該提供很高的聚合數(shù)據(jù)帶寬,一個(gè)集群中支持?jǐn)?shù)百個(gè)節(jié)點(diǎn),一個(gè)集群中還應(yīng)該支持千萬級別的文件。HDFS被設(shè)計(jì)成可以簡便地實(shí)現(xiàn)平臺間的遷移,這將推動需要大數(shù)據(jù)集的應(yīng)用更廣泛地采用HDFS作為平臺。
[0005]本技術(shù)提供了一種簡便宜行的驗(yàn)證HDFS數(shù)據(jù)遷移之后數(shù)據(jù)完整性的方法,可以使管理員迅速、方便的驗(yàn)證遷移后數(shù)據(jù)是否完整、有效,并將驗(yàn)證結(jié)果記錄到日志文件中。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的技術(shù)任務(wù)是解決現(xiàn)有技術(shù)的不足,提供一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法。
[0007]本發(fā)明的技術(shù)方案是按以下方式實(shí)現(xiàn)的,該一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法,其具體實(shí)現(xiàn)過程如下:
1)獲取原始HDFS文件及目錄結(jié)構(gòu)詳細(xì)信息和遷移后的新HDFS文件信息;
2)對原始文件信息以及新文件信息分片處理;
3)輸出新舊文件信息的對比驗(yàn)證和驗(yàn)證結(jié)果。
[0008]所述步驟I)的詳細(xì)過程為:
在原始的HDFS文件系統(tǒng)中通過執(zhí)行hadoop fs -1sr / > oldlnfo命令,獲取原始HDFS文件的詳細(xì)信息,并將結(jié)果重定向到oldlnfo文件中;
在遷移后新的HDFS文件系統(tǒng)中,通過執(zhí)行相同的命令hadoop fs -1sr / >newInfo,獲取新的HDFS文件信息,并將結(jié)果重定向到newlnfo文件中。
[0009]所述步驟2)的詳細(xì)過程為:將原始文件信息oldlnfo和新文件信息newlnfo按相同的規(guī)則進(jìn)行分片,這里的規(guī)則是指按照行數(shù)分割成相同的文件數(shù)。
[0010]所述步驟3)的詳細(xì)過程為:通過將分片后的新舊HDFS文件信息進(jìn)行對應(yīng)的逐個(gè)對比,將對比后的結(jié)果保存在日志文件中,這里的對比是指對比文件或文件夾的名字,以及文件的大小是否相匹配。
[0011]所述匹配過程為:
一、用舊的文件信息為基準(zhǔn),逐條匹配新的文件信息;
二、若完全匹配,則取舊文件信息的下一條繼續(xù)步驟二過程的匹配;
三、若文件大小未能完全匹配上,代表該文件遷移不完整,將文件信息記錄至日志文件后,繼續(xù)步驟二;
四、若文件信息為找到,代表該文件未被遷移至新文件系統(tǒng),將文件信息記錄至日志文件后,繼續(xù)步驟二;
五、當(dāng)所有的舊文件信息全都被提取過一遍之后,本次完整性驗(yàn)證結(jié)束。
[0012]本發(fā)明與現(xiàn)有技術(shù)相比所產(chǎn)生的有益效果是:
本發(fā)明的一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法是一種高效、快速且易實(shí)施操作的對HDFS中遷移出的數(shù)據(jù)完整性驗(yàn)證的方法,最終實(shí)現(xiàn)利用該技術(shù),高效、簡便的驗(yàn)證遷移出的新數(shù)據(jù)的完整性,進(jìn)一步減少了人工逐一進(jìn)行數(shù)據(jù)驗(yàn)證的工作量,且大大減少了編程的工作量;不需要進(jìn)行程序的編譯、打包,只需要簡單的腳本即可完成驗(yàn)證;更加突出大數(shù)據(jù)靈活、便捷的優(yōu)勢,使得用戶可以非??焖俸啽愕恼业娇赡艽嬖诘牟煌暾臄?shù)據(jù);適用范圍廣泛,該方法適用于多種HDFS環(huán)境,實(shí)用性強(qiáng),易于推廣。
【專利附圖】
【附圖說明】
[0013]附圖1為本發(fā)明的實(shí)現(xiàn)流程示意圖。
【具體實(shí)施方式】
[0014]下面結(jié)合附圖對本發(fā)明的一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法作以下詳細(xì)說明。
[0015]如附圖1所示,現(xiàn)提供一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法,該方法的具體思路是依次取出遷移之前的每個(gè)HDFS文件信息,在新的HDFS文件信息中搜索,若文件信息存在,且大小等信息符合。則繼續(xù)在遷移前的HDFS信息中取出下一條,繼續(xù)比較。如果在新的HDFS文件信息中沒找到或找到后文件大小不相符,則代表該條數(shù)據(jù)未被成功遷移。
[0016]其具體實(shí)現(xiàn)過程如下:
一、原始HDFS文件及目錄結(jié)構(gòu)詳細(xì)信息和遷移后的新HDFS文件信息的獲取。
[0017]在原始的HDFS文件系統(tǒng)中通過執(zhí)行hadoop fs -1sr / > oldlnfo命令,獲取原始HDFS文件的詳細(xì)信息,并將結(jié)果重定向到oldlnfo文件中。
[0018]在遷移后新的HDFS文件系統(tǒng)中,通過執(zhí)行相同的命令hadoop fs -1sr />newInfo,獲取新的HDFS文件信息,并將結(jié)果重定向到newlnfo文件中。
[0019]二、原始文件信息以及新文件信息的分片處理。
[0020]由于hadoop文件系統(tǒng)中的文件數(shù)量巨大,且目錄結(jié)構(gòu)及其復(fù)雜。為了便于新舊信息對比驗(yàn)證??蓪⒃嘉募畔ldlnfo和新文件信息newlnfo按相同的規(guī)則進(jìn)行分片。具體的分片方法見如下腳本:
#!/bin/env python
【權(quán)利要求】
1.一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法,其特征在于其具體實(shí)現(xiàn)過程如下: 1)獲取原始HDFS文件及目錄結(jié)構(gòu)詳細(xì)信息和遷移后的新HDFS文件信息; 2)對原始文件信息以及新文件信息分片處理; 3)輸出新舊文件信息的對比驗(yàn)證和驗(yàn)證結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法,其特征在于:所述步驟I)的詳細(xì)過程為: 在原始的HDFS文件系統(tǒng)中通過執(zhí)行hadoop fs -1sr / > oldlnfo命令,獲取原始HDFS文件的詳細(xì)信息,并將結(jié)果重定向到oldlnfo文件中; 在遷移后新的HDFS文件系統(tǒng)中,通過執(zhí)行相同的命令hadoop fs -1sr / >newInfo,獲取新的HDFS文件信息,并將結(jié)果重定向到newlnfo文件中。
3.根據(jù)權(quán)利要求1或2所述的一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法,其特征在于:所述步驟2)的詳細(xì)過程為:將原始文件信息oldlnfo和新文件信息newlnfo按相同的規(guī)則進(jìn)行分片,這里的規(guī)則是指按照行數(shù)分割成相同的文件數(shù)。
4.根據(jù)權(quán)利要求3所述的一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法,其特征在于:所述步驟3)的詳細(xì)過程為:通過將分片后的新舊HDFS文件信息進(jìn)行對應(yīng)的逐個(gè)對比,將對比后的結(jié)果保存在日志文件中,這里的對比是指對比文件或文件夾的名字,以及文件的大小是否相匹配。
5.根據(jù)權(quán)利要求4所述的一種HDFS中大數(shù)據(jù)遷移完整性驗(yàn)證的方法,其特征在于:所述匹配過程為: 一、用舊的文件信息為基準(zhǔn),逐條匹配新的文件信息; 二、若完全匹配,則取舊文件信息的下一條繼續(xù)步驟二過程的匹配; 三、若文件大小未能完全匹配上,代表該文件遷移不完整,將文件信息記錄至日志文件后,繼續(xù)步驟二; 四、若文件信息為找到,代表該文件未被遷移至新文件系統(tǒng),將文件信息記錄至日志文件后,繼續(xù)步驟二; 五、當(dāng)所有的舊文件信息全都被提取過一遍之后,本次完整性驗(yàn)證結(jié)束。
【文檔編號】G06F21/64GK103971066SQ201410212726
【公開日】2014年8月6日 申請日期:2014年5月20日 優(yōu)先權(quán)日:2014年5月20日
【發(fā)明者】趙仁明, 辛國茂, 亓開元, 房體盈 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司