亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于云計算的海量數(shù)據(jù)處理系統(tǒng)的制作方法

文檔序號:8905286閱讀:810來源:國知局
一種基于云計算的海量數(shù)據(jù)處理系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理系統(tǒng),更具體地,涉及一種基于云計算的海量數(shù)據(jù)處理系統(tǒng)。
【背景技術(shù)】
[0002]在云計算架構(gòu)中的一個重要問題是如何設(shè)計一個高效的存儲層來處理云計算平臺上的海量數(shù)據(jù)。根據(jù)馬上游云平臺的設(shè)計,數(shù)據(jù)是自然的分布式管理和存儲,即所有的數(shù)據(jù)由一個高速局域網(wǎng)連接成一個數(shù)據(jù)群。海量的數(shù)據(jù)是通過各種在云平臺系統(tǒng)上面的應(yīng)用生成,一個可能的數(shù)據(jù)存儲及查詢方法是使用一個集中的,關(guān)系數(shù)據(jù)庫管理系統(tǒng)(DBMS)作為底層數(shù)據(jù)存儲層。然而,我們看到幾個這種方法的局限性,尤其是在分布式的系統(tǒng)下。
[0003]首先,中央數(shù)據(jù)庫服務(wù)器很難實現(xiàn)系統(tǒng)中多個節(jié)點的負載平衡。
[0004]第二,很容易出現(xiàn)一個單點失敗,即容錯問題可能會對系統(tǒng)的功能構(gòu)成威脅。
[0005]第三,它會產(chǎn)生非常嚴重的通信負載,因為分布在各個節(jié)點的數(shù)據(jù)必須通過基礎(chǔ)網(wǎng)絡(luò)傳遞到中央服務(wù)器。最后,這個模式難以實現(xiàn)并行處理,以利用云平臺的計算優(yōu)勢架構(gòu)。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的是為了解決上述現(xiàn)有技術(shù)方案所存在的缺陷,本發(fā)明提出了一種基于云計算的海量數(shù)據(jù)處理系統(tǒng)。
[0007]本發(fā)明所采用的技術(shù)方案是:
[0008]提供可擴展的分布式存儲層,采用Hadoop系統(tǒng),保持分布式的區(qū)域小群,然后,這些集群被視為一個更大的無共享集群中的節(jié)點,歸Hadoop系統(tǒng)管理。每一個小簇節(jié)點被視為在Hadoop系統(tǒng)中的從屬節(jié)點,其中二個主節(jié)點被指定為Hadoop系統(tǒng)的協(xié)調(diào)員。我們把這種設(shè)計稱之為使用Hadoop的分布式數(shù)據(jù)倉庫。我們把數(shù)據(jù)存儲在分布式文件系統(tǒng),HadoopDistributed File System(HDFS,并且設(shè)計應(yīng)用需要的Map及Reduce功能,以適應(yīng)和減少在云計算系統(tǒng)的中用戶應(yīng)用程序的計算量和通訊量。
[0009]這種分布式數(shù)據(jù)倉庫是特別為云計算架構(gòu)所設(shè)計的,因為它自然的提供了極好的負載平衡,容錯功能,滿足了分布式和并行處理的要求。例如,在我們的系統(tǒng)中能夠自動處理分發(fā)計算需求到輕負載的節(jié)點。它利用數(shù)據(jù)重載的技術(shù),因此,能夠把一個失敗節(jié)點正在執(zhí)行的任務(wù)移植到其他正常節(jié)點繼續(xù)計算工作。我們的系統(tǒng)的另一個吸引人的特點是,它可以大大減少系統(tǒng)的通信開銷。我們的主要挑戰(zhàn)是要設(shè)計好,實現(xiàn)個性化Map和Reduce的設(shè)計來減少通訊成本和整體計算成本(例如修剪不必要的節(jié)點訪問和數(shù)據(jù)傳輸)。我們也整合傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)到我們的Hadoop分布式數(shù)據(jù)倉庫,尤其是在對結(jié)構(gòu)化數(shù)據(jù)的處理。為此,我們一個有用的擴展是利用HadoopDB技術(shù)。每個從節(jié)點使用一個關(guān)系數(shù)據(jù)庫管理系統(tǒng)作為其在本地的存儲層實例,而不是僅僅依靠HDFS的。因此,它可以提供更好的效率在處理結(jié)構(gòu)化數(shù)據(jù)的情況下(例如,使用一個索引結(jié)構(gòu)在一個數(shù)據(jù)庫管理系統(tǒng),以加快訪問本地數(shù)據(jù))。
[0010]采用HBase作為我們的數(shù)據(jù)存儲計算系統(tǒng)。HBase是一個開源項目支持隨機,實時讀/寫訪問大數(shù)據(jù)。它的目標(biāo)是處理商用硬件集群之上的特大表-數(shù)十億行及數(shù)百萬列。
[0011]本發(fā)明的有益效果是,
[0012]本發(fā)明基于云計算的海量數(shù)據(jù)處理系統(tǒng),
[0013]1、提供了極好的負載平衡,容錯功能,滿足了分布式和并行處理的要求;
[0014]2、可以大大減少系統(tǒng)的通信開銷。
[0015]下面結(jié)合附圖對本發(fā)明作進一步詳細描述。
【附圖說明】
[0016]圖1為本發(fā)明的基于云計算的海量數(shù)據(jù)處理系統(tǒng):數(shù)據(jù)存儲及處理過程。
【具體實施方式】
[0017]為了加深對本發(fā)明的理解,下面結(jié)合附圖和實施例對本發(fā)明作進一步詳細的說明。以下實施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,而不能以此來限制本發(fā)明的保護范圍。
[0018]本發(fā)明的具體實施例是,
[0019]如圖1所示,提供可擴展的分布式存儲層,采用Hadoop系統(tǒng),保持分布式的區(qū)域小群,然后,這些集群被視為一個更大的無共享集群中的節(jié)點,歸Hadoop系統(tǒng)管理。每一個小簇節(jié)點被視為在Hadoop系統(tǒng)中的從屬節(jié)點,其中二個主節(jié)點被指定為Hadoop系統(tǒng)的協(xié)調(diào)員。我們把這種設(shè)計稱之為使用Hadoop的分布式數(shù)據(jù)倉庫。我們把數(shù)據(jù)存儲在分布式文件系統(tǒng),Hadoop Distributed File System(HDFS,并且設(shè)計應(yīng)用需要的 Map 及 Reduce 功能,以適應(yīng)和減少在云計算系統(tǒng)的中用戶應(yīng)用程序的計算量和通訊量。
[0020]這種分布式數(shù)據(jù)倉庫是特別為云計算架構(gòu)所設(shè)計的,因為它自然的提供了極好的負載平衡,容錯功能,滿足了分布式和并行處理的要求。例如,在我們的系統(tǒng)中能夠自動處理分發(fā)計算需求到輕負載的節(jié)點。它利用數(shù)據(jù)重載的技術(shù),因此,能夠把一個失敗節(jié)點正在執(zhí)行的任務(wù)移植到其他正常節(jié)點繼續(xù)計算工作。我們的系統(tǒng)的另一個吸引人的特點是,它可以大大減少系統(tǒng)的通信開銷。我們的主要挑戰(zhàn)是要設(shè)計好,實現(xiàn)個性化Map和Reduce的設(shè)計來減少通訊成本和整體計算成本(例如修剪不必要的節(jié)點訪問和數(shù)據(jù)傳輸)。我們也整合傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)到我們的Hadoop分布式數(shù)據(jù)倉庫,尤其是在對結(jié)構(gòu)化數(shù)據(jù)的處理。為此,我們一個有用的擴展是利用HadoopDB技術(shù)。每個從節(jié)點使用一個關(guān)系數(shù)據(jù)庫管理系統(tǒng)作為其在本地的存儲層實例,而不是僅僅依靠HDFS的。因此,它可以提供更好的效率在處理結(jié)構(gòu)化數(shù)據(jù)的情況下(例如,使用一個索引結(jié)構(gòu)在一個數(shù)據(jù)庫管理系統(tǒng),以加快訪問本地數(shù)據(jù))。
[0021]采用HBase作為我們的數(shù)據(jù)存儲計算系統(tǒng)。HBase是一個開源項目支持隨機,實時讀/寫訪問大數(shù)據(jù)。它的目標(biāo)是處理商用硬件集群之上的特大表-數(shù)十億行及數(shù)百萬列。
[0022]要說明的是,以上所述實施例是對本發(fā)明技術(shù)方案的說明而非限制,所屬技術(shù)領(lǐng)域普通技術(shù)人員的等同替換或者根據(jù)現(xiàn)有技術(shù)而做的其他修改,只要沒超出本發(fā)明技術(shù)方案的思路和范圍,均應(yīng)包含在本發(fā)明所要求的權(quán)利范圍之內(nèi)。
【主權(quán)項】
1.一種基于云計算的海量數(shù)據(jù)處理系統(tǒng),其特征在于:包括Hadoop系統(tǒng)、分布式區(qū)域小群、主節(jié)點和分布式文件系統(tǒng),分布式區(qū)域小群被視為一個更大的無共享集群中的節(jié)點,歸Hadoop系統(tǒng)管理,主節(jié)點為Hadoop系統(tǒng)的協(xié)調(diào)員,數(shù)據(jù)存儲于分布式文件系統(tǒng)中。2.根據(jù)權(quán)利要求1所述的基于云計算的海量數(shù)據(jù)處理系統(tǒng),其特征在于:所述Hadoop系統(tǒng)中還包括MapReduce節(jié)點,以適應(yīng)和減少在云計算系統(tǒng)的中用戶應(yīng)用程序的計算量和通訊量。
【專利摘要】本發(fā)明公開了一種基于云計算的海量數(shù)據(jù)處理系統(tǒng),包括Hadoop系統(tǒng)、分布式區(qū)域小群、主節(jié)點和分布式文件系統(tǒng),分布式區(qū)域小群被視為一個更大的無共享集群中的節(jié)點,歸Hadoop系統(tǒng)管理,主節(jié)點為Hadoop系統(tǒng)的協(xié)調(diào)員,數(shù)據(jù)存儲于分布式文件系統(tǒng)中。本發(fā)明提供了極好的負載平衡,容錯功能,滿足了分布式和并行處理的要求;可以大大減少系統(tǒng)的通信開銷。
【IPC分類】G06F9/50, G06F17/30
【公開號】CN104881476
【申請?zhí)枴緾N201510296226
【發(fā)明人】陳勇, 胡中驥
【申請人】江蘇馬上游科技股份有限公司
【公開日】2015年9月2日
【申請日】2015年6月3日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1