一種基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)在遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)中的應(yīng)用領(lǐng)域,特別涉及一種基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)。
【背景技術(shù)】
[0002]隨著衛(wèi)星遙感的快速發(fā)展,遙感衛(wèi)星數(shù)據(jù)在國土、林業(yè)等領(lǐng)域逐漸呈現(xiàn)出業(yè)務(wù)化應(yīng)用的趨勢,而目前遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)的體系架構(gòu),基于現(xiàn)有技術(shù)發(fā)展水平,以滿足用戶需求為導(dǎo)向,尚未對(duì)具有“3V(Volume !Variety !Velocity) ”特征且不能用常規(guī)手段處理的遙感衛(wèi)星大數(shù)據(jù)進(jìn)行適應(yīng)性分析與設(shè)計(jì)。隨著硬件成本的降低,網(wǎng)絡(luò)帶寬的提升,分布式計(jì)算的興起,網(wǎng)絡(luò)技術(shù)的發(fā)展、智能終端及物聯(lián)網(wǎng)等的興起與應(yīng)用,遙感衛(wèi)星數(shù)據(jù)的時(shí)空尺度和要素類型全面拓展,其種類和數(shù)據(jù)量急劇膨脹,逐漸呈現(xiàn)出多源、多維、大量、多態(tài)和高速的大數(shù)據(jù)特征,且用戶在大數(shù)據(jù)時(shí)代對(duì)于數(shù)據(jù)信息的需求呈現(xiàn)多元化趨勢,有效處理、存儲(chǔ)、分析和應(yīng)用這些大數(shù)據(jù),滿足用戶的多元化需求已經(jīng)成為未來遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)的關(guān)鍵。
[0003]當(dāng)前,為滿足多星地面處理系統(tǒng)功能和性能的要求,根據(jù)計(jì)算機(jī)、存儲(chǔ)、網(wǎng)絡(luò)和信息技術(shù)的發(fā)展,遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)采用集中存儲(chǔ)管理、集中處理的體系架構(gòu),分為數(shù)據(jù)獲取層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)處理與分析層及數(shù)據(jù)應(yīng)用層,其架構(gòu)如圖1所示。現(xiàn)有的多個(gè)系統(tǒng)之間有獨(dú)立的計(jì)算、存儲(chǔ)、軟件及算法資源,這些資源尚未得到很好的統(tǒng)籌利用。
[0004]然而,隨著遙感衛(wèi)星發(fā)射越來越密集,其載荷數(shù)據(jù)及應(yīng)用多樣性越來越顯著,同時(shí)遙感衛(wèi)星數(shù)據(jù)存儲(chǔ)規(guī)模急速增長,用戶對(duì)數(shù)據(jù)處理及應(yīng)用的高時(shí)效性需求越來越強(qiáng)烈,系統(tǒng)還面臨著高可擴(kuò)展性需求及系統(tǒng)資源整合的緊迫性需求。當(dāng)前遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)架構(gòu)無法滿足大數(shù)據(jù)時(shí)代面臨的新的挑戰(zhàn),必須結(jié)合當(dāng)前大數(shù)據(jù)技術(shù)的發(fā)展,解決目前系統(tǒng)面臨的挑戰(zhàn)。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng),該系統(tǒng)采用基于Hadoop的數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)分布式存儲(chǔ)和管理,適用于大數(shù)據(jù)處理和分析。
[0006]本發(fā)明的上述目的通過以下方案實(shí)現(xiàn):
[0007]一種基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng),包括數(shù)據(jù)獲取子系統(tǒng)、Hadoop數(shù)據(jù)平臺(tái)、計(jì)算處理子系統(tǒng)和應(yīng)用子系統(tǒng),所述Hadoop數(shù)據(jù)平臺(tái)包括分布式文件子系統(tǒng)、資源管理子系統(tǒng)、數(shù)據(jù)庫和物理存儲(chǔ)單元,其中:
[0008]數(shù)據(jù)獲取子系統(tǒng):接收外部采集系統(tǒng)發(fā)送的源數(shù)據(jù),對(duì)所述源數(shù)據(jù)進(jìn)行解壓縮或格式轉(zhuǎn)換,然后將數(shù)據(jù)發(fā)送到Hadoop數(shù)據(jù)平臺(tái)的分布式文件子系統(tǒng);
[0009]分布式文件子系統(tǒng):接收數(shù)據(jù)獲取子系統(tǒng)發(fā)送的數(shù)據(jù),以及計(jì)算處理子系統(tǒng)發(fā)送的數(shù)據(jù)處理結(jié)果,將所述數(shù)據(jù)和數(shù)據(jù)處理結(jié)果按照分布式存儲(chǔ)策略存儲(chǔ)在物理存儲(chǔ)單元中,并將所述存儲(chǔ)數(shù)據(jù)和數(shù)據(jù)處理結(jié)果的元信息存儲(chǔ)在數(shù)據(jù)庫中;
[0010]資源管理子系統(tǒng):接收應(yīng)用子系統(tǒng)發(fā)送的指令,對(duì)所述指令進(jìn)行解析,按照指令解析結(jié)果從數(shù)據(jù)庫中讀取相應(yīng)數(shù)據(jù)的元信息,然后將指令解析結(jié)果和數(shù)據(jù)元信息發(fā)送到計(jì)算處理子系統(tǒng);
[0011]計(jì)算處理子系統(tǒng):接收資源管理子系統(tǒng)發(fā)送的數(shù)據(jù)元信息和指令解析結(jié)果,根據(jù)所述數(shù)據(jù)元信息在Hadoop數(shù)據(jù)平臺(tái)的物理存儲(chǔ)單元中讀取相應(yīng)數(shù)據(jù),然后按照所述指令解析結(jié)果對(duì)數(shù)據(jù)進(jìn)行相應(yīng)處理,并將數(shù)據(jù)處理結(jié)果發(fā)送到分布式文件子系統(tǒng)進(jìn)行存儲(chǔ);
[0012]應(yīng)用子系統(tǒng):發(fā)送指令到資源管理子系統(tǒng),并通過分布文件子系統(tǒng)讀取數(shù)據(jù)處理結(jié)果進(jìn)行顯示。
[0013]在上述的基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)中,Hadoop數(shù)據(jù)平臺(tái)的存儲(chǔ)物理單元為在線盤陣。
[0014]在上述的基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)中,計(jì)算處理子系統(tǒng)包括多個(gè)分布式物理計(jì)算單元,并且所述分布式物理計(jì)算單元和資源管理子系統(tǒng)通過光纖網(wǎng)絡(luò)實(shí)現(xiàn)互連。
[0015]在上述的基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)中,資源管理子系統(tǒng)包括MapReduce計(jì)算框架,所述計(jì)算框架實(shí)現(xiàn)數(shù)據(jù)劃分、計(jì)算調(diào)度和數(shù)據(jù)歸約整合控制,具體控制實(shí)現(xiàn)方法如下:
[0016](I)、MapReduce計(jì)算框架根據(jù)指令解析結(jié)果對(duì)數(shù)據(jù)處理任務(wù)進(jìn)行劃分,按照任務(wù)劃分結(jié)果將各分任務(wù)對(duì)應(yīng)的數(shù)據(jù)元信息和指令分發(fā)到計(jì)算處理子系統(tǒng)的各分布式物理計(jì)算單元;
[0017](2)、各分布式物理計(jì)算單元根據(jù)接收到的數(shù)據(jù)元信息讀取相應(yīng)數(shù)據(jù),并按照接收到的指令進(jìn)行數(shù)據(jù)處理;
[0018](3)、MapReduce計(jì)算框架根據(jù)步驟(I)的任務(wù)劃分結(jié)果,對(duì)各分布式物理計(jì)算單元的數(shù)據(jù)處理結(jié)果進(jìn)行歸約整合,即各分布式物理計(jì)算單元按照MapReduce計(jì)算框架給出的歸約整合指令將數(shù)據(jù)處理結(jié)果發(fā)送到分布式文件子系統(tǒng)進(jìn)行存儲(chǔ)。
[0019]在上述的基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)中,應(yīng)用子系統(tǒng)包括多個(gè)應(yīng)用服務(wù)器,所述應(yīng)用服務(wù)器通過如下方法實(shí)現(xiàn)數(shù)據(jù)查詢和下載處理:
[0020]應(yīng)用服務(wù)器接收外部輸入的數(shù)據(jù)查詢或下載命令,對(duì)所述命令進(jìn)行解析后,按照命令解析結(jié)果在Hadoop數(shù)據(jù)平臺(tái)的數(shù)據(jù)庫中查找數(shù)據(jù)元信息,然后按照所述數(shù)據(jù)元信息從物理存儲(chǔ)單元中讀取數(shù)據(jù),并在用戶計(jì)算機(jī)上對(duì)所述數(shù)據(jù)進(jìn)行顯示或下載。
[0021]本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn):
[0022](I)、本發(fā)明采用的Hadoop數(shù)據(jù)平臺(tái)采用分布式存儲(chǔ)策略實(shí)現(xiàn)大數(shù)據(jù)的存儲(chǔ),相對(duì)于現(xiàn)有技術(shù)中采用的集中存儲(chǔ)方式,這種分布存儲(chǔ)策略可以避免存儲(chǔ)單元物理損壞造成大片數(shù)據(jù)丟失的問題,提高了數(shù)據(jù)存儲(chǔ)的安全性,而且這種分布存儲(chǔ)策略支持存儲(chǔ)物理單元的規(guī)模擴(kuò)展,從而實(shí)現(xiàn)存儲(chǔ)容量的靈活擴(kuò)充;
[0023](2)、本發(fā)明采用的Hadoop數(shù)據(jù)平臺(tái)采用在線盤陣作為物理存儲(chǔ)單元,數(shù)據(jù)完全采用在線化存儲(chǔ),提高了數(shù)據(jù)存儲(chǔ)和提取效率;
[0024](3)、本發(fā)明的計(jì)算處理子系統(tǒng)由多個(gè)分布式計(jì)算單元組成,每個(gè)計(jì)算單元處理的數(shù)據(jù)類型和算法類型互補(bǔ),各單元之間可以共享計(jì)算資源后可以實(shí)現(xiàn)多類型數(shù)據(jù)的多種處理實(shí)現(xiàn)。
【附圖說明】
[0025]圖1為現(xiàn)有技術(shù)中遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)組成框圖;
[0026]圖2為本發(fā)明的基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)組成框圖。
【具體實(shí)施方式】
[0027]下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述:
[0028]如圖2所示的系統(tǒng)組成框圖,本發(fā)明的基于Hadoop的大數(shù)據(jù)遙感衛(wèi)星數(shù)據(jù)處理系統(tǒng)包括數(shù)據(jù)獲取子系統(tǒng)、Hadoop數(shù)據(jù)平臺(tái)、計(jì)算處理子系統(tǒng)和應(yīng)用子系統(tǒng),其中,Hadoop數(shù)據(jù)平臺(tái)包括分布式文件子系統(tǒng)、資源管理子系統(tǒng)、數(shù)據(jù)庫和物理存儲(chǔ)單元。
[0029](一)、數(shù)據(jù)獲取子系統(tǒng)
[0030]數(shù)據(jù)獲取子系統(tǒng)處于大數(shù)據(jù)獲取層,用于接收外部采集系統(tǒng)發(fā)送的源數(shù)據(jù)。該源數(shù)據(jù)包括衛(wèi)星遙感數(shù)據(jù)、定標(biāo)數(shù)據(jù)、基礎(chǔ)地理信息數(shù)據(jù)等。數(shù)據(jù)獲取子系統(tǒng)需要根據(jù)源數(shù)據(jù)的類型進(jìn)行數(shù)據(jù)整理,如果源數(shù)據(jù)為壓縮數(shù)據(jù),則需要按照設(shè)定的壓縮格式對(duì)該數(shù)據(jù)進(jìn)行解壓縮,而且需要將各源數(shù)據(jù)的數(shù)據(jù)格式統(tǒng)一為適應(yīng)Hadoop數(shù)據(jù)平臺(tái)的格式。完成數(shù)據(jù)整理后,將適應(yīng)于Hadoop數(shù)據(jù)平臺(tái)的數(shù)據(jù)發(fā)送到Hadoop數(shù)據(jù)平臺(tái)的分布式文件子系統(tǒng)。
[0031](二)、Hadoop 數(shù)據(jù)平臺(tái)
[0032]本發(fā)明的Hadoop數(shù)據(jù)平臺(tái)為基于Hadoop的大數(shù)據(jù)平臺(tái),該平臺(tái)基于分布式文件系統(tǒng)HDFS建立遙感衛(wèi)星數(shù)據(jù)存儲(chǔ)策略,可以滿足不同時(shí)效性數(shù)據(jù)存儲(chǔ)和讀取需求,而且該平臺(tái)采用YARN架構(gòu),如同平臺(tái)的資源管理器,控制整個(gè)集群并管理應(yīng)用程序向基礎(chǔ)計(jì)算資源的分配,允許多個(gè)應(yīng)用程序同時(shí)、高效地運(yùn)行在一個(gè)集群上。而且該平臺(tái)具有MapReduce分布式計(jì)算框架,該計(jì)算框架可以進(jìn)行數(shù)據(jù)劃分、計(jì)算調(diào)度和數(shù)據(jù)歸約整合,從而完成數(shù)據(jù)信息快速分布式處理。該平臺(tái)的數(shù)據(jù)庫采用HBase列式數(shù)據(jù)庫系統(tǒng),可以用來存儲(chǔ)大量的數(shù)據(jù)元信息。該平臺(tái)還具有s