亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種大數(shù)據(jù)系統(tǒng)的制作方法

文檔序號:6634641閱讀:345來源:國知局
一種大數(shù)據(jù)系統(tǒng)的制作方法
【專利摘要】提出一種大數(shù)據(jù)系統(tǒng),所述系統(tǒng)包括大數(shù)據(jù)基礎平臺、共享資源庫、可視化編輯與展示子系統(tǒng)、以及流程調度子系統(tǒng)。所述系統(tǒng)綜合現(xiàn)有各種大數(shù)據(jù)處理系統(tǒng),基于用戶編輯生成的數(shù)據(jù)處理流程調度程序資源和數(shù)據(jù)資源提交特定的大數(shù)據(jù)處理系統(tǒng)執(zhí)行數(shù)據(jù)處理,極大降低了大數(shù)據(jù)系統(tǒng)的使用門檻,并且使組織內部大數(shù)據(jù)相關資源能方便共享,數(shù)據(jù)處理流程可復用可繼承。
【專利說明】一種大數(shù)據(jù)系統(tǒng)

【技術領域】
[0001]本發(fā)明涉及計算機信息存儲與處理【技術領域】,具體涉及一種大數(shù)據(jù)系統(tǒng)。

【背景技術】
[0002]信息科技經(jīng)過60多年的發(fā)展,已滲透到各行業(yè)的方方面面。政治、經(jīng)濟活動中很大一部分的活動都與數(shù)據(jù)的創(chuàng)造、采集、傳輸和使用相關,隨著網(wǎng)絡應用日益深化,大數(shù)據(jù)應用的影響日益擴大。根據(jù)機構測算,全世界數(shù)據(jù)總量以每兩年翻一番的速度遞增。換句話說,最近兩年產生的數(shù)據(jù)總量相當于人類有史以來所有數(shù)據(jù)量的總和。在這個背景下,從公司戰(zhàn)略到產業(yè)生態(tài),從學術研究到生產實踐,從城鎮(zhèn)管理乃至國家治理,都將發(fā)生本質的變化。
[0003]大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)工具獲取、存儲、管理和分析能力的數(shù)據(jù)集,并不是說一定要超過特定TB值得數(shù)據(jù)集才能算是大數(shù)據(jù)。國際數(shù)據(jù)公司(IDC)從四個特征定義大數(shù)據(jù),即海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉和動態(tài)的數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)類型(Variety)和巨大的數(shù)據(jù)價值(Value)。大數(shù)據(jù)幾乎滲透到國民經(jīng)濟的所有部門,應用領域涉及信息服務、智慧城市、金融、制造業(yè)、國家安全和科學研究等。但目前這些行業(yè)處理大數(shù)據(jù)時,至少會面臨如下的問題:
[0004]1.數(shù)據(jù)存儲與管理
[0005]大數(shù)據(jù)給存儲系統(tǒng)帶來了 3個方面的挑戰(zhàn):存儲規(guī)模大,通常達到PB (1,000ΤΒ)甚至EB(1,000PB)量級;存儲管理復雜,需要兼顧結構化、非結構化和半結構化的數(shù)據(jù);上層應用對存儲系統(tǒng)的性能、可靠性等指標有不同的要求,而數(shù)據(jù)的大規(guī)模和高復雜度放大了達到這些指標的技術難度。
[0006]3.數(shù)據(jù)分析處理
[0007]傳統(tǒng)的并行計算方法主要從體系結構和編程語言的層面定義了一些較為底層的并行計算抽象和模型,但由于大數(shù)據(jù)處理問題具有很有高層的數(shù)據(jù)特征和計算特征,因此大數(shù)據(jù)處理需要更多地結合這些高層特征考慮更為高層的計算模式。大數(shù)據(jù)處理包括以下典型的特征和維度:
[0008]?數(shù)據(jù)結構特征
[0009]可分為結構化數(shù)據(jù)處理、半結構化數(shù)據(jù)處理與非結構化數(shù)據(jù)處理。
[0010]?數(shù)據(jù)獲取處理方式
[0011]按照數(shù)據(jù)獲取方式,大數(shù)據(jù)可分為批處理與流式計算方式。
[0012]?數(shù)據(jù)處理類型
[0013]從數(shù)據(jù)處理類型來看,大數(shù)據(jù)處理可分為傳統(tǒng)的查詢分析計算和復雜的數(shù)據(jù)挖掘分析計算。
[0014]?實時性
[0015]從數(shù)據(jù)計算響應性能角度看,大數(shù)據(jù)處理可分為實時/準實時與非實時計算,或者是聯(lián)機計算與離線計算。
[0016]籲并行計算體系結構
[0017]由于需要支持大規(guī)模數(shù)據(jù)的存儲計算,大數(shù)據(jù)處理通常需要使用基于集群的分布式存儲與并行計算體系結構和硬件平臺。
[0018]針對如上問題,開源社區(qū)和國內外廠商都在進行相應的嘗試和努力。大數(shù)據(jù)查詢分析的典型系統(tǒng)包括Hadoop下的HBase和Hive, Facebook開發(fā)的Cassandra, Google公司的Dremel, Cloudera公司的Impala ;此外為了實現(xiàn)更高性能的數(shù)據(jù)查詢分析,還出現(xiàn)了不少基于內存的分布式數(shù)據(jù)存儲管理和查詢系統(tǒng),如UC Berkeley AMPLab的基于內存計算引擎 Spark 的數(shù)據(jù)倉庫 Shark。還有 MPP (massively parallel processing)數(shù)據(jù)庫,比如EMC 的 GreenPlum, HP 的 Vertica0
[0019]最適合于大數(shù)據(jù)批處理的計算模式是MapReduce。MapReduce是一個單輸入、兩階段(Map和Reduce)的數(shù)據(jù)處理過程。MapReduce的簡單易用性使其成為目前大數(shù)據(jù)處理最為成功、最廣為接受使用的主流并行計算模式。在開源社區(qū)的努力下,Hadoop系統(tǒng)目前已發(fā)展成為較為成熟的大數(shù)據(jù)處理平臺,并已發(fā)展成一個包含眾多數(shù)據(jù)處理工具和環(huán)境的完整的生態(tài)系統(tǒng)。Spark也是一個批處理系統(tǒng),在性能方面比Hadoop MapReduce有很大提升,但是其易用性及穩(wěn)定性方面目前仍不如Hadoop MapReduce。
[0020]流式計算是一種高實時性的計算模式,需要對一定時間窗口內產生的新數(shù)據(jù)完成實時的計算處理,避免造成數(shù)據(jù)堆積和丟失。Facebook的Scribe和Apache的Flume都提供了機制來構建日志數(shù)據(jù)處理流圖。通用的流式計算系統(tǒng)是Twitter公司的Storm、Yahoo公司的 S4、以及 UC Berkeley AMPLab 的 Spark Streaming。
[0021]上述這種基礎平臺級的系統(tǒng)會不斷增多,每個都有自己單獨的任務提交與管理方式,而且在系統(tǒng)使用方面不友好,需要有一定的Iinux操作和編程經(jīng)驗。上述平臺都側重于解決一種應用場景,而現(xiàn)實中大數(shù)據(jù)分析及應用一般都是混合型場景,比如既包含批處理又包含查詢分析,這就造成組織內部往往會部署多種大數(shù)據(jù)平臺,而且每個平臺都沒有完善的任務和數(shù)據(jù)共享的機制。這至少會帶來如下的問題:
[0022]第一,大數(shù)據(jù)平臺使用門檻較高,擅長大數(shù)據(jù)分析的人往往很難掌握操作方法,阻礙了大數(shù)據(jù)平臺的普及。
[0023]第二,組織內大數(shù)據(jù)分析及處理的相關代碼、腳本和數(shù)據(jù)沒有一種共享機制,每個任務都需要從頭做起,知識無法積累,不具有持續(xù)性;
[0024]第三,目前基于上述大數(shù)據(jù)平臺的數(shù)據(jù)處理需要編寫相關程序或者腳本,在描述復雜數(shù)據(jù)處理流程時極為不便,這也為后續(xù)的維護及修改造成很大困難。


【發(fā)明內容】

[0025]為了解決上述現(xiàn)有技術中存在的問題,本發(fā)明提出了一種大數(shù)據(jù)系統(tǒng),降低了大數(shù)據(jù)基礎平臺的使用門檻,使組織內部大數(shù)據(jù)相關資源能方便共享,數(shù)據(jù)處理流程可復用可繼承,且能夠為用戶提供一種可視化的編輯和展示方式。
[0026]所述系統(tǒng)包括:大數(shù)據(jù)基礎平臺、共享資源庫、可視化編輯與展示子系統(tǒng)、以及流程調度子系統(tǒng);
[0027]所述大數(shù)據(jù)基礎平臺,用于從所述流程調度子系統(tǒng)接收程序資源,并執(zhí)行處理;
[0028]所述共享資源庫,用于存儲所有用戶共享的數(shù)據(jù)資源、程序資源、以及由數(shù)據(jù)資源和程序資源組成的數(shù)據(jù)處理流程;
[0029]所述可視化編輯與展示子系統(tǒng),用于以圖形化的方式向用戶展示所述數(shù)據(jù)處理流程,以及為用戶提供編輯所述數(shù)據(jù)處理流程的用戶接口 ;
[0030]所述流程調度子系統(tǒng),用于調度所述數(shù)據(jù)處理流程,將所述程序資源提交所述大數(shù)據(jù)基礎平臺執(zhí)行。
[0031]特別地:
[0032]所述共享資源庫只存儲所述數(shù)據(jù)資源的存儲路徑信息,所述數(shù)據(jù)資源存儲在所述大數(shù)據(jù)基礎平臺中。
[0033]特別地:
[0034]所述數(shù)據(jù)處理流程是由所述數(shù)據(jù)資源和程序資源連接而成的有向無環(huán)圖;
[0035]所述編輯所述數(shù)據(jù)處理流程具體為:用戶根據(jù)需要組合所述數(shù)據(jù)資源和程序資源,構成新的數(shù)據(jù)處理流程。
[0036]特別地:
[0037]所述大數(shù)據(jù)基礎平臺包括Hbase、Cassandra、Dremel、Impala、基于內存計算引擎Spark的數(shù)據(jù)倉庫Shark、GreenPlum、Vertica中的一種或者多種的組合。
[0038]本發(fā)明的有益效果是:本大數(shù)據(jù)系統(tǒng)極大降低了大數(shù)據(jù)系統(tǒng)的使用門檻,并且使組織內部大數(shù)據(jù)相關資源能方便共享,數(shù)據(jù)處理流程可復用可繼承,是一套可持續(xù)的可累積的大數(shù)據(jù)系統(tǒng)。

【專利附圖】

【附圖說明】
[0039]附圖1為本發(fā)明提出的大數(shù)據(jù)系統(tǒng)架構圖。
[0040]附圖2為本發(fā)明提出的大數(shù)據(jù)系統(tǒng)中數(shù)據(jù)處理流程示意圖。
[0041]附圖3為本發(fā)明提出的大數(shù)據(jù)系統(tǒng)中數(shù)據(jù)處理流程的樹狀結構示意圖。

【具體實施方式】
[0042]下面將結合附圖,詳細說明本發(fā)明提出的方案。
[0043]參見附圖2,其示出了本發(fā)明提出的一種大數(shù)據(jù)系統(tǒng),該系統(tǒng)包含四個部分:(1)大數(shù)據(jù)基礎平臺;(2)共享資源庫;(3)可視化編輯與展示子系統(tǒng);(4)流程調度子系統(tǒng)。
[0044]1.大數(shù)據(jù)基礎平臺
[0045]大數(shù)據(jù)平臺及計算模式,參考技術背景部分的介紹。組織可根據(jù)實際業(yè)務需求,選擇上述內容中介紹的一種或多種平臺。
[0046]2.共享資源庫
[0047]共享資源庫包含所有用戶共享的資源,資源主要分為如下兩種:
[0048]?數(shù)據(jù)資源
[0049]指的是存儲在大數(shù)據(jù)基礎平臺中的數(shù)據(jù),比如存在于HDFS分布式文件系統(tǒng)中的一個文件或HBase分布式數(shù)據(jù)庫中的一張數(shù)據(jù)表。
[0050]?程序資源
[0051]指的是用戶編寫的處理數(shù)據(jù)資源的程序、腳本及配置文件。
[0052]還包括,數(shù)據(jù)處理流程資源
[0053]由數(shù)據(jù)資源和程序資源組成,每個數(shù)據(jù)處理流程是由前述二者連接而成的有向無環(huán)圖,如圖2所示。
[0054]特別地,共享資源庫只存儲上述資源的描述,而不存儲具體的信息。比如,一個對應HDFS文件的數(shù)據(jù)資源,共享資源庫中記錄的只是這個文件的路徑。資源共享機制和共享資源庫使得組織內部大數(shù)據(jù)相關的數(shù)據(jù)和程序資源可累積。
[0055]3.可視化編輯與展示子系統(tǒng)
[0056]以圖形化的方式展示與編輯數(shù)據(jù)處理流程,每個數(shù)據(jù)處理流程是由數(shù)據(jù)資源和程序資源組成的有向無環(huán)圖。用戶可以基于已有的數(shù)據(jù)處理流程資源進行修改,構造新的有向無環(huán)圖,從而形成新的數(shù)據(jù)處理流程。這類似于面向對象編程中的類繼承,基于父數(shù)據(jù)處理流程(父類),添加或修改功能夠成子數(shù)據(jù)處理流程(子類),而子數(shù)據(jù)處理流程又可以派生新的數(shù)據(jù)處理流程,從而構成數(shù)據(jù)處理流程的樹狀結構,如圖3所示。這實現(xiàn)了數(shù)據(jù)處理的可復用、可繼承和可持續(xù)。
[0057]4.流程調度子系統(tǒng)
[0058]用戶完成編寫相應的數(shù)據(jù)處理流程后,由流程調度子系統(tǒng)調度執(zhí)行。把流程中所包含的程序資源對應有向無環(huán)圖中的節(jié)點,當節(jié)點的所有依賴節(jié)點都執(zhí)行完畢,也就是所有的輸入都生成時,調用當前節(jié)點的執(zhí)行。把節(jié)點對應的程序資源提交給相應的大數(shù)據(jù)基礎平臺,并監(jiān)控節(jié)點的運行,記錄運行狀態(tài)。
[0059]當然,本發(fā)明還可有其他多種實施例,在不背離本發(fā)明精神及其實質的情況下,熟悉本領域的技術人員當可根據(jù)本發(fā)明作出各種相應的改變和變形,但這些相應的改變和變形都應屬于本發(fā)明的權利要求的保護范圍。
【權利要求】
1.一種大數(shù)據(jù)系統(tǒng),其特征在于,包括:大數(shù)據(jù)基礎平臺、共享資源庫、可視化編輯與展示子系統(tǒng)、以及流程調度子系統(tǒng); 所述大數(shù)據(jù)基礎平臺,用于從所述流程調度子系統(tǒng)接收程序資源,并執(zhí)行處理; 所述共享資源庫,用于存儲所有用戶共享的數(shù)據(jù)資源、程序資源、以及由數(shù)據(jù)資源和程序資源組成的數(shù)據(jù)處理流程; 所述可視化編輯與展示子系統(tǒng),用于以圖形化的方式向用戶展示所述數(shù)據(jù)處理流程,以及為用戶提供編輯所述數(shù)據(jù)處理流程的用戶接口; 所述流程調度子系統(tǒng),用于調度所述數(shù)據(jù)處理流程,將所述程序資源提交所述大數(shù)據(jù)基礎平臺執(zhí)行。
2.如權利要求1所述的系統(tǒng),其特征在于: 所述共享資源庫只存儲所述數(shù)據(jù)資源的存儲路徑信息。
3.如權利要求1所述的系統(tǒng),其特征在于: 所述數(shù)據(jù)處理流程是由所述數(shù)據(jù)資源和程序資源連接而成的有向無環(huán)圖; 所述編輯所述數(shù)據(jù)處理流程具體為:用戶根據(jù)需要組合所述數(shù)據(jù)資源和程序資源,構成新的數(shù)據(jù)處理流程。
4.如權利要求1至3任一項所述的系統(tǒng),其特征在于: 所述大數(shù)據(jù)基礎平臺包括Hbase、Cassandra、Dremel> Impala、基于內存計算引擎Spark的數(shù)據(jù)倉庫Shark、GreenPlum、Vertica中的一種或者多種的組合。
【文檔編號】G06F17/30GK104361091SQ201410658038
【公開日】2015年2月18日 申請日期:2014年11月18日 優(yōu)先權日:2014年11月18日
【發(fā)明者】辛國茂, 張東, 亓開元, 趙仁明, 房體盈, 曹連超, 盧軍佐, 金洪殿, 劉偉, 楊勇, 李占強, 范榮盛 申請人:浪潮(北京)電子信息產業(yè)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1