park、storm等計(jì)算框架,其中,spark計(jì)算框架為數(shù)據(jù)分析工具,storm用來處理流式數(shù)據(jù)。該平臺(tái)通過ZooKeeper分布式協(xié)調(diào)系統(tǒng)對(duì)整個(gè)平臺(tái)的資源進(jìn)行協(xié)同服務(wù)。
[0033]在以上的Hadoop應(yīng)用環(huán)境中,本發(fā)明的Hadoop數(shù)據(jù)平臺(tái)可以劃分為分布式文件子系統(tǒng)、資源管理子系統(tǒng)、數(shù)據(jù)庫(kù)和物理存儲(chǔ)單元。本發(fā)明在工程實(shí)現(xiàn)中采用在線盤陣作為數(shù)據(jù)平臺(tái)的物理存儲(chǔ)單元,從而實(shí)現(xiàn)了數(shù)據(jù)完全在線化存儲(chǔ)。
[0034]分布式文件子系統(tǒng)接收數(shù)據(jù)獲取子系統(tǒng)發(fā)送的數(shù)據(jù),以及計(jì)算處理子系統(tǒng)發(fā)送的數(shù)據(jù)處理結(jié)果,將所述數(shù)據(jù)和數(shù)據(jù)處理結(jié)果按照分布式存儲(chǔ)策略存儲(chǔ)在物理存儲(chǔ)單元中,并將所述存儲(chǔ)數(shù)據(jù)和數(shù)據(jù)處理結(jié)果的元信息存儲(chǔ)在數(shù)據(jù)庫(kù)中。該子系統(tǒng)基于Hadoop系統(tǒng)的HDFS分布式文件系統(tǒng),按照該系統(tǒng)的分布策略進(jìn)行數(shù)據(jù)分布存儲(chǔ),這種分布策略的效率高,而且允許對(duì)數(shù)據(jù)平臺(tái)的在線盤陣進(jìn)行靈活擴(kuò)充,即本發(fā)明處理系統(tǒng)的存儲(chǔ)物理單元為可擴(kuò)展的在線盤陣。而且由于采用了數(shù)據(jù)分布式存儲(chǔ),可以避免存儲(chǔ)單元物理?yè)p壞而引起的整組數(shù)據(jù)的丟失,提高了數(shù)據(jù)處理系統(tǒng)的安全性。
[0035]資源管理子系統(tǒng)接收應(yīng)用子系統(tǒng)發(fā)送的指令,對(duì)所述指令進(jìn)行解析,按照指令解析結(jié)果從數(shù)據(jù)庫(kù)中讀取相應(yīng)數(shù)據(jù)的元信息,然后將指令解析結(jié)果和數(shù)據(jù)元信息發(fā)送到計(jì)算處理子系統(tǒng)。資源管理子系統(tǒng)包括MapReduce計(jì)算框架,所述計(jì)算框架實(shí)現(xiàn)數(shù)據(jù)劃分、計(jì)算調(diào)度和數(shù)據(jù)歸約整合,具體實(shí)現(xiàn)方法如下:
[0036](I)、MapReduce計(jì)算框架根據(jù)指令解析結(jié)果對(duì)數(shù)據(jù)處理任務(wù)進(jìn)行劃分,按照任務(wù)劃分結(jié)果將各分任務(wù)對(duì)應(yīng)的數(shù)據(jù)元信息和指令分發(fā)到計(jì)算處理子系統(tǒng)的各分布式物理計(jì)算單元;
[0037](2)、各分布式物理計(jì)算單元根據(jù)接收到的數(shù)據(jù)元信息讀取相應(yīng)數(shù)據(jù),并按照接收到的指令進(jìn)行數(shù)據(jù)處理;
[0038](3)、MapReduce計(jì)算框架根據(jù)步驟(I)的任務(wù)劃分結(jié)果,對(duì)各分布式物理計(jì)算單元的數(shù)據(jù)處理結(jié)果進(jìn)行歸約整合,即各分布式物理計(jì)算單元按照MapReduce計(jì)算框架給出的歸約整合指令將數(shù)據(jù)處理結(jié)果發(fā)送到分布式文件子系統(tǒng)進(jìn)行存儲(chǔ)。
[0039](三)、計(jì)算處理子系統(tǒng)
[0040]位于數(shù)據(jù)計(jì)算及分析層的計(jì)算處理子系統(tǒng),接收資源管理子系統(tǒng)發(fā)送的數(shù)據(jù)元信息和指令解析結(jié)果,根據(jù)所述數(shù)據(jù)元信息在Hadoop數(shù)據(jù)平臺(tái)的物理存儲(chǔ)單元中讀取相應(yīng)數(shù)據(jù),然后按照所述指令解析結(jié)果對(duì)數(shù)據(jù)進(jìn)行相應(yīng)處理,并將數(shù)據(jù)處理結(jié)果發(fā)送到分布式文件子系統(tǒng)進(jìn)行存儲(chǔ)。在本發(fā)明中,為了提高整個(gè)系統(tǒng)的資源利用率和計(jì)算效率,將多個(gè)分布式物理計(jì)算單元通過光纖網(wǎng)絡(luò)連接后組成計(jì)算處理子系統(tǒng)。這些計(jì)算單元都可以與資源管理子系統(tǒng)進(jìn)行通信,可以根據(jù)資源管理子系統(tǒng)劃分的任務(wù)進(jìn)行數(shù)據(jù)塊的處理,然后再經(jīng)資源管理子系統(tǒng)將處理結(jié)果進(jìn)行歸約整合。在實(shí)際工程應(yīng)用中,單個(gè)的計(jì)算單元可以處理的數(shù)據(jù)類型以及可以實(shí)現(xiàn)的算法類型可能不同,采用這種分布式計(jì)算處理子系統(tǒng)進(jìn)行組合處理,可以適應(yīng)于多種類型數(shù)據(jù)的處理,因此本發(fā)明的數(shù)據(jù)處理系統(tǒng)可以同時(shí)支持跨行業(yè)的數(shù)據(jù)分析。
[0041](四)、應(yīng)用子系統(tǒng)
[0042]位于應(yīng)用層的應(yīng)用子系統(tǒng)發(fā)送指令到資源管理子系統(tǒng),并通過分布文件子系統(tǒng)讀取數(shù)據(jù)處理結(jié)果進(jìn)行顯示。在進(jìn)行數(shù)據(jù)查詢和下載過程中,應(yīng)用子系統(tǒng)的應(yīng)用服務(wù)器可以直接對(duì)查詢和下載命令進(jìn)行解析,并按照解析結(jié)果從分布文件子系統(tǒng)中讀取數(shù)據(jù)進(jìn)行顯示和下載。但如果用戶需要對(duì)數(shù)據(jù)進(jìn)行分析處理時(shí),就會(huì)發(fā)送指令到資源管理子系統(tǒng)。其中應(yīng)用服務(wù)器通過如下方法實(shí)現(xiàn)數(shù)據(jù)查詢和下載處理:
[0043]應(yīng)用服務(wù)器接收外部輸入的數(shù)據(jù)查詢或下載命令,對(duì)所述命令進(jìn)行解析后,按照命令解析結(jié)果在Hadoop數(shù)據(jù)平臺(tái)的數(shù)據(jù)庫(kù)中查找數(shù)據(jù)元信息,然后按照所述數(shù)據(jù)元信息從物理存儲(chǔ)單元中讀取數(shù)據(jù),并在用戶計(jì)算機(jī)上對(duì)所述數(shù)據(jù)進(jìn)行顯示或下載。
[0044]以上所述,僅為本發(fā)明一個(gè)【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
[0045]本發(fā)明說明書中未作詳細(xì)描述的內(nèi)容屬于本領(lǐng)域?qū)I(yè)技術(shù)人員的公知技術(shù)。
【主權(quán)項(xiàng)】
1.一種基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng),其特征在于:包括數(shù)據(jù)獲取子系統(tǒng)、Hadoop數(shù)據(jù)平臺(tái)、計(jì)算處理子系統(tǒng)和應(yīng)用子系統(tǒng),所述Hadoop數(shù)據(jù)平臺(tái)包括分布式文件子系統(tǒng)、資源管理子系統(tǒng)、數(shù)據(jù)庫(kù)和物理存儲(chǔ)單元,其中: 數(shù)據(jù)獲取子系統(tǒng):接收外部采集系統(tǒng)發(fā)送的源數(shù)據(jù),對(duì)所述源數(shù)據(jù)進(jìn)行解壓縮或格式轉(zhuǎn)換,然后將數(shù)據(jù)發(fā)送到Hadoop數(shù)據(jù)平臺(tái)的分布式文件子系統(tǒng); 分布式文件子系統(tǒng):接收數(shù)據(jù)獲取子系統(tǒng)發(fā)送的數(shù)據(jù),以及計(jì)算處理子系統(tǒng)發(fā)送的數(shù)據(jù)處理結(jié)果,將所述數(shù)據(jù)和數(shù)據(jù)處理結(jié)果按照分布式存儲(chǔ)策略存儲(chǔ)在物理存儲(chǔ)單元中,并將所述存儲(chǔ)數(shù)據(jù)和數(shù)據(jù)處理結(jié)果的元信息存儲(chǔ)在數(shù)據(jù)庫(kù)中; 資源管理子系統(tǒng):接收應(yīng)用子系統(tǒng)發(fā)送的指令,對(duì)所述指令進(jìn)行解析,按照指令解析結(jié)果從數(shù)據(jù)庫(kù)中讀取相應(yīng)數(shù)據(jù)的元信息,然后將指令解析結(jié)果和數(shù)據(jù)元信息發(fā)送到計(jì)算處理子系統(tǒng); 計(jì)算處理子系統(tǒng):接收資源管理子系統(tǒng)發(fā)送的數(shù)據(jù)元信息和指令解析結(jié)果,根據(jù)所述數(shù)據(jù)元信息在Hadoop數(shù)據(jù)平臺(tái)的物理存儲(chǔ)單元中讀取相應(yīng)數(shù)據(jù),然后按照所述指令解析結(jié)果對(duì)數(shù)據(jù)進(jìn)行相應(yīng)處理,并將數(shù)據(jù)處理結(jié)果發(fā)送到分布式文件子系統(tǒng)進(jìn)行存儲(chǔ); 應(yīng)用子系統(tǒng):發(fā)送指令到資源管理子系統(tǒng),并通過分布式文件子系統(tǒng)讀取數(shù)據(jù)處理結(jié)果進(jìn)行顯示。2.根據(jù)權(quán)利要求1所述的一種基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng),其特征在于:Hadoop數(shù)據(jù)平臺(tái)的存儲(chǔ)物理單元為在線盤陣。3.根據(jù)權(quán)利要求1所述的一種基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng),其特征在于:計(jì)算處理子系統(tǒng)包括多個(gè)分布式物理計(jì)算單元,并且所述分布式物理計(jì)算單元和資源管理子系統(tǒng)通過光纖網(wǎng)絡(luò)實(shí)現(xiàn)互連。4.根據(jù)權(quán)利要求3所述的一種基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng),其特征在于:資源管理子系統(tǒng)包括MapReduce計(jì)算框架,所述計(jì)算框架實(shí)現(xiàn)數(shù)據(jù)劃分、計(jì)算調(diào)度和數(shù)據(jù)歸約整合控制,具體控制實(shí)現(xiàn)方法如下: (1)、MapReduce計(jì)算框架根據(jù)指令解析結(jié)果對(duì)數(shù)據(jù)處理任務(wù)進(jìn)行劃分,按照任務(wù)劃分結(jié)果將各分任務(wù)對(duì)應(yīng)的數(shù)據(jù)元信息和指令分發(fā)到計(jì)算處理子系統(tǒng)的各分布式物理計(jì)算單元; (2)、各分布式物理計(jì)算單元根據(jù)接收到的數(shù)據(jù)元信息讀取相應(yīng)數(shù)據(jù),并按照接收到的指令進(jìn)行數(shù)據(jù)處理; (3)、MapReduce計(jì)算框架根據(jù)步驟(I)的任務(wù)劃分結(jié)果,對(duì)各分布式物理計(jì)算單元的數(shù)據(jù)處理結(jié)果進(jìn)行歸約整合,即各分布式物理計(jì)算單元按照MapReduce計(jì)算框架給出的歸約整合指令將數(shù)據(jù)處理結(jié)果發(fā)送到分布式文件子系統(tǒng)進(jìn)行存儲(chǔ)。5.根據(jù)權(quán)利要求3所述的一種基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng),其特征在于:應(yīng)用子系統(tǒng)包括多個(gè)應(yīng)用服務(wù)器,所述應(yīng)用服務(wù)器通過如下方法實(shí)現(xiàn)數(shù)據(jù)查詢和下載處理: 應(yīng)用服務(wù)器接收外部輸入的數(shù)據(jù)查詢或下載命令,對(duì)所述命令進(jìn)行解析后,按照命令解析結(jié)果在Hadoop數(shù)據(jù)平臺(tái)的數(shù)據(jù)庫(kù)中查找數(shù)據(jù)元信息,然后按照所述數(shù)據(jù)元信息從物理存儲(chǔ)單元中讀取數(shù)據(jù),并在用戶計(jì)算機(jī)上對(duì)所述數(shù)據(jù)進(jìn)行顯示或下載。
【專利摘要】本發(fā)明提供了一種基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng),該系統(tǒng)包括數(shù)據(jù)獲取子系統(tǒng)、Hadoop數(shù)據(jù)平臺(tái)、計(jì)算處理子系統(tǒng)和應(yīng)用子系統(tǒng),其中,Hadoop數(shù)據(jù)平臺(tái)包括分布式文件子系統(tǒng)、資源管理子系統(tǒng)、數(shù)據(jù)庫(kù)和物理存儲(chǔ)單元;該系統(tǒng)以數(shù)據(jù)在線化為基礎(chǔ),支持面向應(yīng)用的分布式存儲(chǔ)和處理,可以同時(shí)支持橫向跨行業(yè)和縱向跨歷史的數(shù)據(jù)分析。該系統(tǒng)具有靈活的可擴(kuò)展性,支持未來新發(fā)射的遙感衛(wèi)星地面系統(tǒng)的快速建設(shè)和在線接入。
【IPC分類】G06F17/30
【公開號(hào)】CN105045856
【申請(qǐng)?zhí)枴緾N201510400968
【發(fā)明人】邵俊, 徐文, 喻文勇, 徐大琦, 馮春
【申請(qǐng)人】中國(guó)資源衛(wèi)星應(yīng)用中心
【公開日】2015年11月11日
【申請(qǐng)日】2015年7月9日