一種基于云計算的海量數(shù)據(jù)處理系統(tǒng)的制作方法

文檔序號：8905286閱讀：810來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于云計算的海量數(shù)據(jù)處理系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理系統(tǒng)，更具體地，涉及一種基于云計算的海量數(shù)據(jù)處理系統(tǒng)。
【背景技術(shù)】
[0002]在云計算架構(gòu)中的一個重要問題是如何設(shè)計一個高效的存儲層來處理云計算平臺上的海量數(shù)據(jù)。根據(jù)馬上游云平臺的設(shè)計，數(shù)據(jù)是自然的分布式管理和存儲，即所有的數(shù)據(jù)由一個高速局域網(wǎng)連接成一個數(shù)據(jù)群。海量的數(shù)據(jù)是通過各種在云平臺系統(tǒng)上面的應(yīng)用生成，一個可能的數(shù)據(jù)存儲及查詢方法是使用一個集中的，關(guān)系數(shù)據(jù)庫管理系統(tǒng)(DBMS)作為底層數(shù)據(jù)存儲層。然而，我們看到幾個這種方法的局限性，尤其是在分布式的系統(tǒng)下。
[0003]首先，中央數(shù)據(jù)庫服務(wù)器很難實現(xiàn)系統(tǒng)中多個節(jié)點的負載平衡。
[0004]第二，很容易出現(xiàn)一個單點失敗，即容錯問題可能會對系統(tǒng)的功能構(gòu)成威脅。
[0005]第三，它會產(chǎn)生非常嚴重的通信負載，因為分布在各個節(jié)點的數(shù)據(jù)必須通過基礎(chǔ)網(wǎng)絡(luò)傳遞到中央服務(wù)器。最后，這個模式難以實現(xiàn)并行處理，以利用云平臺的計算優(yōu)勢架構(gòu)。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的是為了解決上述現(xiàn)有技術(shù)方案所存在的缺陷，本發(fā)明提出了一種基于云計算的海量數(shù)據(jù)處理系統(tǒng)。
[0007]本發(fā)明所采用的技術(shù)方案是:
[0008]提供可擴展的分布式存儲層，采用Hadoop系統(tǒng)，保持分布式的區(qū)域小群，然后，這些集群被視為一個更大的無共享集群中的節(jié)點，歸Hadoop系統(tǒng)管理。每一個小簇節(jié)點被視為在Hadoop系統(tǒng)中的從屬節(jié)點，其中二個主節(jié)點被指定為Hadoop系統(tǒng)的協(xié)調(diào)員。我們把這種設(shè)計稱之為使用Hadoop的分布式數(shù)據(jù)倉庫。我們把數(shù)據(jù)存儲在分布式文件系統(tǒng)，HadoopDistributed File System(HDFS，并且設(shè)計應(yīng)用需要的Map及Reduce功能，以適應(yīng)和減少在云計算系統(tǒng)的中用戶應(yīng)用程序的計算量和通訊量。
[0009]這種分布式數(shù)據(jù)倉庫是特別為云計算架構(gòu)所設(shè)計的，因為它自然的提供了極好的負載平衡，容錯功能，滿足了分布式和并行處理的要求。例如，在我們的系統(tǒng)中能夠自動處理分發(fā)計算需求到輕負載的節(jié)點。它利用數(shù)據(jù)重載的技術(shù)，因此，能夠把一個失敗節(jié)點正在執(zhí)行的任務(wù)移植到其他正常節(jié)點繼續(xù)計算工作。我們的系統(tǒng)的另一個吸引人的特點是，它可以大大減少系統(tǒng)的通信開銷。我們的主要挑戰(zhàn)是要設(shè)計好，實現(xiàn)個性化Map和Reduce的設(shè)計來減少通訊成本和整體計算成本(例如修剪不必要的節(jié)點訪問和數(shù)據(jù)傳輸)。我們也整合傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)到我們的Hadoop分布式數(shù)據(jù)倉庫，尤其是在對結(jié)構(gòu)化數(shù)據(jù)的處理。為此，我們一個有用的擴展是利用HadoopDB技術(shù)。每個從節(jié)點使用一個關(guān)系數(shù)據(jù)庫管理系統(tǒng)作為其在本地的存儲層實例，而不是僅僅依靠HDFS的。因此，它可以提供更好的效率在處理結(jié)構(gòu)化數(shù)據(jù)的情況下(例如，使用一個索引結(jié)構(gòu)在一個數(shù)據(jù)庫管理系統(tǒng)，以加快訪問本地數(shù)據(jù))。
[0010]采用HBase作為我們的數(shù)據(jù)存儲計算系統(tǒng)。HBase是一個開源項目支持隨機，實時讀/寫訪問大數(shù)據(jù)。它的目標(biāo)是處理商用硬件集群之上的特大表-數(shù)十億行及數(shù)百萬列。
[0011]本發(fā)明的有益效果是，
[0012]本發(fā)明基于云計算的海量數(shù)據(jù)處理系統(tǒng)，
[0013]1、提供了極好的負載平衡，容錯功能，滿足了分布式和并行處理的要求；
[0014]2、可以大大減少系統(tǒng)的通信開銷。
[0015]下面結(jié)合附圖對本發(fā)明作進一步詳細描述。
【附圖說明】
[0016]圖1為本發(fā)明的基于云計算的海量數(shù)據(jù)處理系統(tǒng):數(shù)據(jù)存儲及處理過程。
【具體實施方式】
[0017]為了加深對本發(fā)明的理解，下面結(jié)合附圖和實施例對本發(fā)明作進一步詳細的說明。以下實施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案，而不能以此來限制本發(fā)明的保護范圍。
[0018]本發(fā)明的具體實施例是，
[0019]如圖1所示，提供可擴展的分布式存儲層，采用Hadoop系統(tǒng)，保持分布式的區(qū)域小群，然后，這些集群被視為一個更大的無共享集群中的節(jié)點，歸Hadoop系統(tǒng)管理。每一個小簇節(jié)點被視為在Hadoop系統(tǒng)中的從屬節(jié)點，其中二個主節(jié)點被指定為Hadoop系統(tǒng)的協(xié)調(diào)員。我們把這種設(shè)計稱之為使用Hadoop的分布式數(shù)據(jù)倉庫。我們把數(shù)據(jù)存儲在分布式文件系統(tǒng)，Hadoop Distributed File System(HDFS，并且設(shè)計應(yīng)用需要的 Map 及 Reduce 功能，以適應(yīng)和減少在云計算系統(tǒng)的中用戶應(yīng)用程序的計算量和通訊量。
[0020]這種分布式數(shù)據(jù)倉庫是特別為云計算架構(gòu)所設(shè)計的，因為它自然的提供了極好的負載平衡，容錯功能，滿足了分布式和并行處理的要求。例如，在我們的系統(tǒng)中能夠自動處理分發(fā)計算需求到輕負載的節(jié)點。它利用數(shù)據(jù)重載的技術(shù)，因此，能夠把一個失敗節(jié)點正在執(zhí)行的任務(wù)移植到其他正常節(jié)點繼續(xù)計算工作。我們的系統(tǒng)的另一個吸引人的特點是，它可以大大減少系統(tǒng)的通信開銷。我們的主要挑戰(zhàn)是要設(shè)計好，實現(xiàn)個性化Map和Reduce的設(shè)計來減少通訊成本和整體計算成本(例如修剪不必要的節(jié)點訪問和數(shù)據(jù)傳輸)。我們也整合傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)到我們的Hadoop分布式數(shù)據(jù)倉庫，尤其是在對結(jié)構(gòu)化數(shù)據(jù)的處理。為此，我們一個有用的擴展是利用HadoopDB技術(shù)。每個從節(jié)點使用一個關(guān)系數(shù)據(jù)庫管理系統(tǒng)作為其在本地的存儲層實例，而不是僅僅依靠HDFS的。因此，它可以提供更好的效率在處理結(jié)構(gòu)化數(shù)據(jù)的情況下(例如，使用一個索引結(jié)構(gòu)在一個數(shù)據(jù)庫管理系統(tǒng)，以加快訪問本地數(shù)據(jù))。
[0021]采用HBase作為我們的數(shù)據(jù)存儲計算系統(tǒng)。HBase是一個開源項目支持隨機，實時讀/寫訪問大數(shù)據(jù)。它的目標(biāo)是處理商用硬件集群之上的特大表-數(shù)十億行及數(shù)百萬列。
[0022]要說明的是，以上所述實施例是對本發(fā)明技術(shù)方案的說明而非限制，所屬技術(shù)領(lǐng)域普通技術(shù)人員的等同替換或者根據(jù)現(xiàn)有技術(shù)而做的其他修改，只要沒超出本發(fā)明技術(shù)方案的思路和范圍，均應(yīng)包含在本發(fā)明所要求的權(quán)利范圍之內(nèi)。
【主權(quán)項】
1.一種基于云計算的海量數(shù)據(jù)處理系統(tǒng)，其特征在于:包括Hadoop系統(tǒng)、分布式區(qū)域小群、主節(jié)點和分布式文件系統(tǒng)，分布式區(qū)域小群被視為一個更大的無共享集群中的節(jié)點，歸Hadoop系統(tǒng)管理，主節(jié)點為Hadoop系統(tǒng)的協(xié)調(diào)員，數(shù)據(jù)存儲于分布式文件系統(tǒng)中。2.根據(jù)權(quán)利要求1所述的基于云計算的海量數(shù)據(jù)處理系統(tǒng)，其特征在于:所述Hadoop系統(tǒng)中還包括MapReduce節(jié)點，以適應(yīng)和減少在云計算系統(tǒng)的中用戶應(yīng)用程序的計算量和通訊量。
【專利摘要】本發(fā)明公開了一種基于云計算的海量數(shù)據(jù)處理系統(tǒng)，包括Hadoop系統(tǒng)、分布式區(qū)域小群、主節(jié)點和分布式文件系統(tǒng)，分布式區(qū)域小群被視為一個更大的無共享集群中的節(jié)點，歸Hadoop系統(tǒng)管理，主節(jié)點為Hadoop系統(tǒng)的協(xié)調(diào)員，數(shù)據(jù)存儲于分布式文件系統(tǒng)中。本發(fā)明提供了極好的負載平衡，容錯功能，滿足了分布式和并行處理的要求；可以大大減少系統(tǒng)的通信開銷。
【IPC分類】G06F9/50, G06F17/30
【公開號】CN104881476
【申請?zhí)枴緾N201510296226
【發(fā)明人】陳勇, 胡中驥
【申請人】江蘇馬上游科技股份有限公司
【公開日】2015年9月2日
【申請日】2015年6月3日

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳勇;胡中驥;
技術(shù)所有人：江蘇馬上游科技股份有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

云計算與大數(shù)據(jù)處理相關(guān)技術(shù)

海量音頻數(shù)據(jù)管理系統(tǒng)相關(guān)技術(shù)

海量數(shù)據(jù)處理相關(guān)技術(shù)

海量數(shù)據(jù)處理技術(shù)相關(guān)技術(shù)

hadoop海量數(shù)據(jù)處理相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于云計算的海量數(shù)據(jù)處理系統(tǒng)的制作方法