基于大數(shù)據(jù)處理的電壓監(jiān)測方法與流程

文檔序號：12135254閱讀：597來源：國知局

本發(fā)明涉及電變量的監(jiān)測方法
技術領域：
，尤其涉及基于大數(shù)據(jù)處理的電壓監(jiān)測方法。
背景技術：
：供電系統(tǒng)電能質量的好壞，直接關系到供電系統(tǒng)能否安全運行和用戶是否能夠安全用電。國家能源局《供電監(jiān)管辦法》明確提出了對供電可靠性和電壓合格率嚴格監(jiān)管的要求。廣東電網(wǎng)有限責任公司以供電可靠性和電壓合格率為中長期發(fā)展戰(zhàn)略和創(chuàng)先的核心指標，將電壓質量和供電可靠性作為客戶全方位服務三項重點工作任務之一和供電服務承諾的重要內容。為了掌握全網(wǎng)的供電質量現(xiàn)狀，及時發(fā)現(xiàn)和準確定位配電網(wǎng)供電質量問題，進一步做好供電質量管理工作，有必要對與供電質量相關的信息系統(tǒng)現(xiàn)狀進行梳理分析，明確各系統(tǒng)對供電質量分析的業(yè)務支撐程度，為進一步建設電壓監(jiān)測技術平臺提供基礎保障。電壓監(jiān)測現(xiàn)狀分析：隨著智能電網(wǎng)建設的發(fā)展，電壓監(jiān)測數(shù)據(jù)飛速增長，電力系統(tǒng)具有空間分布、控制對象多樣和復雜的特點，現(xiàn)有的結構已很難適應業(yè)務發(fā)展的要求，具體表現(xiàn)在以下三點：(一)隨著智能電網(wǎng)建設進程的加快，電壓質量監(jiān)測點不斷增多，系統(tǒng)逐步完善的同時，各種類型的監(jiān)測和計算數(shù)據(jù)量急劇增加；(二)電壓質量監(jiān)控系統(tǒng)的好壞與所管理的數(shù)據(jù)存儲和實時計算與分析緊密相關，現(xiàn)有系統(tǒng)的軟件平臺架構無法滿足可定制和可擴充的要求，硬件平臺無法滿足高速、實時和并行處理要求；(三)數(shù)據(jù)集成平臺無法滿足數(shù)據(jù)的日益增長需求，以至于無法滿足廣東電網(wǎng)有限責任公司朝智能電網(wǎng)發(fā)展的步伐，也無法采用先進的數(shù)據(jù)挖掘技術和智能算法，來實現(xiàn)電能質量問題的分析、故障源定位和自動識別、電能質量評估及治理等一系列功能，無法為治理電能質量問題和建立電能質量市場提供有效保障。技術實現(xiàn)要素：本發(fā)明所要解決的技術問題是提供基于大數(shù)據(jù)處理的電壓監(jiān)測方法，所述方法能夠對海量電壓數(shù)據(jù)進行統(tǒng)一管理，基于大數(shù)據(jù)挖掘技術能夠挖掘出電壓異常原因，有力的支持了智能電網(wǎng)建設和維護。為解決上述技術問題，本發(fā)明所采取的技術方案是：一種基于大數(shù)據(jù)處理的電壓監(jiān)測方法，其特征在于包括如下步驟：通過Hadoop分布式云計算平臺對電壓數(shù)據(jù)進行分布式存儲、計算和處理；通過數(shù)據(jù)挖掘對分布式存儲、計算和處理后的電壓數(shù)據(jù)進行分析，從大量數(shù)據(jù)中尋找出其規(guī)律；通過對尋找出規(guī)律的數(shù)據(jù)進行統(tǒng)計分析，對電壓數(shù)據(jù)的相應指標進行預測。進一步的技術方案在于，所述的Hadoop分布式云計算平臺的構建方法如下：創(chuàng)建虛擬機master，完成JDK、Hadoop應用的安裝和配置；對虛擬機master進行克隆，得到的虛擬機分別作為slave1、slave2和slave3；完成Zookeeper、HBase分布式服務的配置，搭建Hadoop集群；運行并測試Hadoop集群系統(tǒng)。進一步的技術方案在于，所述的創(chuàng)建虛擬機master，完成JDK、Hadoop應用的安裝和配置的過程如下：安裝虛擬機軟件VMwareWorkstation；在master節(jié)點上安裝Linux系統(tǒng)Ubuntu；master節(jié)點的JDK安裝與配置；master節(jié)點的hadoop安裝與配置。進一步的技術方案在于，所述的對虛擬機master進行克隆，得到的虛擬機分別作為slave1、slave2和slave3的方法如下：建立SSH無密碼互訪，實現(xiàn)Hadoop虛擬機群之間的無密碼登錄互訪；克隆虛擬機作為Slave節(jié)點；為各個節(jié)點分配IP地址；修改加載在各虛擬機中的系統(tǒng)名稱，用于區(qū)分不同的節(jié)點，修改hosts文件，實現(xiàn)機器名和IP地址之間的映射；建立SSH無密碼互訪，實現(xiàn)Hadoop虛擬機集群之間的無密碼登陸互訪。進一步的技術方案在于，所述的Zookeeper分布式服務的配置方法如下：Zookeeper的解壓安裝；添加環(huán)境變量；Zookeeper的安裝目錄下配置文件的修改；目錄設置：在dataDir所指定的目錄下創(chuàng)建一個文件名為myid的文件；遠程復制分發(fā)目錄文件并配置環(huán)境變量；在ZooKeeper集群的每個結點上，執(zhí)行啟動ZooKeeper服務的腳本，分別在slave1、slave2和slave3機器上執(zhí)行相關命令，啟動zookeeper集群；停止Zookeeper進程。進一步的技術方案在于，所述的HBase分布式服務的配置方法如下：HBase的解壓安裝；添加環(huán)境變量；配置hbase-env.sh文件、hbase-site.xml文件以及regionservers文件；安裝目錄下jar包的替換；將hadoop的部分配置文件拷貝到HBase分布式服務的conf目錄下；遠程復制分發(fā)目錄文件并配置環(huán)境變量；在啟動HBase之前，需要首先啟動hadoop，接下來再啟動zookeeper服務；若要終止HBase服務，則首先需要終止zookeeper，再停止hadoop進程的運行。在啟動hadoop和zookeeper之后，進入HBase分布式服務的bin目錄，運行腳本start-hbase.sh；進入HBase分布式服務的bin目錄，啟動HBase的shell命令，進行數(shù)據(jù)表的創(chuàng)建、狀態(tài)查詢、數(shù)據(jù)插入操作。進一步的技術方案在于，所述通過數(shù)據(jù)挖掘對分布式存儲、計算和處理后的電壓數(shù)據(jù)進行分析，從大量數(shù)據(jù)中尋找出其規(guī)律的方法如下：數(shù)據(jù)準備：從相關的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集；規(guī)律尋找：用某種方法將數(shù)據(jù)集所含的規(guī)律找出來；規(guī)律表示：以用戶可理解的方式將找出的規(guī)律表示出來。進一步的技術方案在于，所述的統(tǒng)計分析是指對收集到的有關數(shù)據(jù)資料進行整理歸類并進行解釋的過程，所述的統(tǒng)計分析包括描述統(tǒng)計和推斷統(tǒng)計。進一步的技術方案在于，所述的描述統(tǒng)計是指：對找出規(guī)律的電壓數(shù)據(jù)加以整理、歸類、簡化或繪制成圖表，以此描述和歸納數(shù)據(jù)的特征及變量之間的關系，描述統(tǒng)計包括數(shù)據(jù)的集中趨勢、離散程度和相關強度，相關指標有平均數(shù)、標準差以及相關系數(shù)。進一步的技術方案在于，所述的推斷統(tǒng)計是指：用概率形式來決斷電壓數(shù)據(jù)之間是否存在某種關系及用樣本統(tǒng)計值來推測總體特征；推斷統(tǒng)計包括總體參數(shù)估計和假設檢驗，使用的方法有Z檢驗、T檢驗、卡方檢驗。采用上述技術方案所產生的有益效果在于：所述方法基于大數(shù)據(jù)技術，能有效集成電壓監(jiān)測儀、計量自動化、配網(wǎng)生產、GIS、營銷系統(tǒng)的海量電壓數(shù)據(jù)。對海量電壓數(shù)據(jù)進行統(tǒng)一進行存儲、處理、計算、分析，包括準實時數(shù)據(jù)存儲、大數(shù)據(jù)分布式存儲、數(shù)據(jù)處理分析以及數(shù)據(jù)可視化。能夠準確高效滿足電壓監(jiān)測管控和停電監(jiān)測應用需求，基于大數(shù)據(jù)挖掘技術能夠挖掘出電壓異常原因，有力的支持了智能電網(wǎng)建設和維護。附圖說明下面結合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。圖1是本發(fā)明實施例所述方法中大數(shù)據(jù)分布式處理技術架構圖。圖2是本發(fā)明實施例所述方法的流程圖；圖3是本發(fā)明實施例所述方法中Hadoop分布式云計算平臺的構建方法流程圖。具體實施方式下面結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明的一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明，但是本發(fā)明還可以采用其他不同于在此描述的其它方式來實施，本領域技術人員可以在不違背本發(fā)明內涵的情況下做類似推廣，因此本發(fā)明不受下面公開的具體實施例的限制。由于電壓監(jiān)測要從多個系統(tǒng)獲取數(shù)據(jù)，導致數(shù)據(jù)平臺數(shù)據(jù)量增大，根據(jù)數(shù)據(jù)結構和技術指標中的性能要求，本方法選取了大數(shù)據(jù)技術中的分布式存儲技術和并行計算技術。結合現(xiàn)有的應用模塊的分析、評價要求，本發(fā)明還選取了大數(shù)據(jù)挖掘技術、指標預測技術，通過這些技術保證了電壓監(jiān)測系統(tǒng)數(shù)據(jù)監(jiān)測分析的實時性和準確性，符合智能電網(wǎng)建設的要求。在大規(guī)模智能電網(wǎng)中，各類供電設備數(shù)量眾多、分布范圍極廣，這造成了所采集的數(shù)據(jù)量多而繁雜的問題，面對這些海量、動態(tài)、分布式且多源異構的信息，傳統(tǒng)的集中式數(shù)據(jù)存儲方式使數(shù)據(jù)庫成為訪問瓶頸，嚴重限制了數(shù)據(jù)的訪問與處理速度,很難實現(xiàn)數(shù)據(jù)存儲的實時性和可靠性，而且各服務器之間大量數(shù)據(jù)的頻繁交換，占用了大量的網(wǎng)絡資源。分布式數(shù)據(jù)存儲：分布式數(shù)據(jù)存儲技術可以有效解決這一問題。分布式存儲就是要把網(wǎng)絡中各個存儲設備的存儲容量虛擬地連接起來，組成一個巨大的存儲池，使海量數(shù)據(jù)分散地存儲在各個節(jié)點，又通過相應的存儲策略將它們有機地連接起來，形成一個存儲的整體。因此，通過充分結合全網(wǎng)電壓監(jiān)測對數(shù)據(jù)的傳輸、存儲與查詢的客觀要求，提出了以數(shù)據(jù)為中心的分布式數(shù)據(jù)存儲方法來處理電壓監(jiān)測過程中所產生的海量數(shù)據(jù)的存儲策略。本發(fā)明所采用的海量數(shù)據(jù)分布式處理技術架構如下圖1所示。并行計算技術：采用集群、分布式處理、任務調度等策略實現(xiàn)統(tǒng)一的數(shù)據(jù)采集管理。采取內存計算技術，在內存中駐留各類服務和節(jié)點所需訪問的參數(shù)數(shù)據(jù)，大部分業(yè)務對歷史數(shù)據(jù)庫的訪問轉為對內存的訪問，減少數(shù)據(jù)庫壓力，提高性能。采用多機集群以及多線程并行計算等實現(xiàn)高效的數(shù)據(jù)計算處理，從而保障了電壓監(jiān)測的實時性和高效性。通過Hadoop分布式計算技術采用MAP-REDUCE模型建立分布式計算集群或者YonghongZ-Suite等高性能工具，對電力大數(shù)據(jù)進行分布式計算和處理。數(shù)據(jù)挖掘技術：具體模型包括聚類模型、決策樹模型、貝葉斯分類模型、遺傳算法與粗糙集分類模型等。同時支持對多個模型的聯(lián)合應用，可以有效滿足電壓監(jiān)測系統(tǒng)對數(shù)據(jù)深入挖掘的要求。數(shù)據(jù)挖掘技術是通過分析大量數(shù)據(jù)，從大量數(shù)據(jù)中尋找其規(guī)律的技術，主要有數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示3個步驟。數(shù)據(jù)準備是從相關的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集；規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來；規(guī)律表示是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來。數(shù)據(jù)挖掘的任務有關聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等等。指標預測技術：其分析包括電壓影響因素分析和停電影響因素分析；同時，也包括對決策事項核心指標未來發(fā)展狀況的預測，以便輔助相關部門開展運營計劃的制定。指標的預測包括了長期、中期與短期預測。具體模型包括Winters-DM模型、一元線性回歸模型、二次指數(shù)平滑模型、BP神經(jīng)網(wǎng)絡與灰色模型等。同時支持對多個模型的聯(lián)合應用，可以有效滿足電壓監(jiān)測系統(tǒng)相關指標預測的要求。統(tǒng)計分析，常指對收集到的有關數(shù)據(jù)資料進行整理歸類并進行解釋的過程。統(tǒng)計分析可分為描述統(tǒng)計和推斷統(tǒng)計。描述統(tǒng)計：描述統(tǒng)計是將研究中所得的數(shù)據(jù)加以整理、歸類、簡化或繪制成圖表，以此描述和歸納數(shù)據(jù)的特征及變量之間的關系的一種最基本的統(tǒng)計方法。描述統(tǒng)計主要涉及數(shù)據(jù)的集中趨勢、離散程度和相關強度，最常用的指標有平均數(shù)、標準差、相關系數(shù)等。推斷統(tǒng)計：推斷統(tǒng)計指用概率形式來決斷數(shù)據(jù)之間是否存在某種關系及用樣本統(tǒng)計值來推測總體特征的一種重要的統(tǒng)計方法。推斷統(tǒng)計包括總體參數(shù)估計和假設檢驗，最常用的方法有Z檢驗、T檢驗、卡方檢驗等。數(shù)據(jù)可視化技術：數(shù)據(jù)可視化數(shù)據(jù)可視化主要旨在借助于圖形化手段，清晰有效地傳達與溝通信息，便于相關者對數(shù)據(jù)的理解和認識。數(shù)據(jù)可視化與信息圖形、信息可視化、科學可視化以及統(tǒng)計圖形密切相關。基于大數(shù)據(jù)的電壓監(jiān)測影響因素分析：在電網(wǎng)中，影響電壓的因素有很多。電阻、電流、變壓器過載或容量不夠、電線的長度、各種設備的參數(shù)、功率因數(shù)以及在短路時電流會瞬間增大等，都會影響到電源電壓?，F(xiàn)基于綜合調度SCADA、計量自動化等系統(tǒng)的基礎數(shù)據(jù)、運行數(shù)據(jù)及電力設備間的拓撲關系和線路、負荷等模型，結合大數(shù)據(jù)處理技術，通過對電壓情況進行準實時監(jiān)測，可以實現(xiàn)以下5個應用：1.對全網(wǎng)的電壓情況在接線圖上進行展示：依據(jù)各系統(tǒng)的基礎數(shù)據(jù)，對數(shù)據(jù)進行匯總統(tǒng)計后，生成電壓情況總圖，結合接線圖進行顯示。2.針對不同區(qū)域的電壓進行展示及趨勢圖展示分析：對不同區(qū)域生成電壓情況展示圖，并根據(jù)各區(qū)域的電壓情況生成電壓趨勢圖。3.自動篩選不合格的主變、10kV線路以及配電臺區(qū)，原因分析：依據(jù)基礎數(shù)據(jù)，對不合格的主變、10kV線路、配電臺區(qū)分別進行匯總展示，并以圖形方式展現(xiàn)，對不合格原因進行歸類分析。4.系統(tǒng)對需要關注的情況自動預警：能自由設置預警參數(shù)，系統(tǒng)會根據(jù)預先設置好的參數(shù)閥值進行預警。5.對電壓監(jiān)測點的實時數(shù)據(jù)能按日電壓、月電壓合格率數(shù)據(jù)進行計算和極值統(tǒng)計，以圖+表的方式展現(xiàn)結果數(shù)據(jù)?；诖髷?shù)據(jù)的停電監(jiān)測影響因素分析：基于標準化電網(wǎng)模型中的接線圖，結合監(jiān)測匯總的停電事件數(shù)據(jù)，對影響停電的因素進行分析，根據(jù)監(jiān)測的停電事件及計算得到的可靠性指標，可實現(xiàn)停電區(qū)域在接線圖上的顯示，可對不同區(qū)域內用戶平均停電時間進行趨勢分析，對線段重復停電、停電持續(xù)時間等分布情況進行分析，對導致停電的主要責任原因進行對比分析。同時，關聯(lián)可轉供電率、線路分段數(shù)、絕緣化率、配網(wǎng)自動化覆蓋率、帶電作業(yè)次數(shù)、轉供電次數(shù)等與可靠性密切相關的生產指標，并開展相關性分析，查找供電可靠性的薄弱環(huán)節(jié)，為制定整改措施提供基礎支撐。主要有以下4個基本應用：1.按不同區(qū)域用戶停電時間進行趨勢分析：根據(jù)用戶的停電時間，按不同區(qū)域生成停電時間趨勢圖。2.按不同區(qū)域用戶的停電次數(shù)進行分析：根據(jù)用戶的停電次數(shù)數(shù)據(jù)，按不同區(qū)域生成停電次數(shù)趨勢圖。3.對導致停電的原因進行對比分析：根據(jù)各種停電數(shù)據(jù)按停電原因進行匯總統(tǒng)計，以圖+表的方式展示。4.結合供電率、線路分段數(shù)、絕緣化率等與生產指標進行分析。通過以上分析，本發(fā)明公開了一種基于大數(shù)據(jù)處理的電壓監(jiān)測方法，如圖2所示，所述方法包括如下步驟：S101：通過Hadoop分布式云計算平臺對電壓數(shù)據(jù)進行分布式存儲、計算和處理；S102：通過數(shù)據(jù)挖掘對分布式存儲、計算和處理后的電壓數(shù)據(jù)進行分析，從大量數(shù)據(jù)中尋找出其規(guī)律；S103：通過對尋找出規(guī)律的數(shù)據(jù)進行統(tǒng)計分析，對電壓數(shù)據(jù)的相應指標進行預測。所述方法基于大數(shù)據(jù)技術，能有效集成電壓監(jiān)測儀、計量自動化、配網(wǎng)生產、GIS、營銷系統(tǒng)的海量電壓數(shù)據(jù)。對海量電壓數(shù)據(jù)進行統(tǒng)一進行存儲、處理、計算、分析，包括準實時數(shù)據(jù)存儲、大數(shù)據(jù)分布式存儲、數(shù)據(jù)處理分析以及數(shù)據(jù)可視化。能夠準確高效滿足電壓監(jiān)測管控和停電監(jiān)測應用需求，基于大數(shù)據(jù)挖掘技術能夠挖掘出電壓異常原因，有力的支持了智能電網(wǎng)建設和維護。圖3是本發(fā)明實施例所述方法中Hadoop分布式云計算平臺的構建方法流程圖，從圖中可以看出Hadoop分布式云計算平臺的構建方法如下：創(chuàng)建虛擬機master，完成JDK、Hadoop應用的安裝和配置；對虛擬機master進行克隆，得到的虛擬機分別作為slave1、slave2和slave3；完成Zookeeper、HBase分布式服務的配置，搭建Hadoop集群；運行并測試Hadoop集群系統(tǒng)。各節(jié)點信息如下表所示：機器名IP地址用戶名充當角色master172.19.17.102hadoopJobTracker、Namenodeslave1172.19.17.104hadoopTaskTracker、Datanodeslave2172.19.17.105hadoopTaskTracker、Datanodeslave3172.19.17.106hadoopTaskTracker、DatanodeHadoop分布式云計算平臺的構建方法具體如下：本實施例中Hadoop分布式云計算平臺的搭建，需要4臺物理節(jié)點來部署Hadoop平臺環(huán)境。使用虛擬機軟件VMwareWorkstation創(chuàng)建4臺虛擬機，承載平臺搭建工作。另外，由于對4臺虛擬機的配置大部分是相同的，所以利用VMwareWorkstation的克隆功能，可以減少部署的工作量。1.1安裝虛擬機軟件VMwareWorkstation首先在4臺PC機器上均安裝虛擬化軟件VMwareWorkstation，并輸入相應的序列號。1.2在master節(jié)點上安裝Linux系統(tǒng)Ubuntu在設定為masterPC節(jié)點上首先安裝Linux系統(tǒng)(版本為ubuntu-11.04-desktop-i386)，在安裝過程中為提高后期安裝軟件的兼容性和穩(wěn)定性，在系統(tǒng)語言上選擇英語。創(chuàng)建用戶名為“hadoop”的普通用戶，設置統(tǒng)一的密碼。安裝完成后將系統(tǒng)的terminal命令窗口調出來，以便使用。同時，為實現(xiàn)虛擬機的Ubuntu系統(tǒng)與本機的Windows系統(tǒng)之間方便快捷的文字復制粘貼以及物理主機系統(tǒng)與虛擬機系統(tǒng)相互拖放文件進行共享，需要安裝VMareTools工具，具體操作如下：啟動虛擬機，進入Ubuntu系統(tǒng)，在VM菜單欄“虛擬機(M)”的下拉菜單點擊“安裝VMareTools(T)”后，會彈出一個“VMareTools”文件夾，里面包含VMareTools的安裝包VMwareTools-9.6.2-1688356.tar.gz，將該安裝包拷貝到/home/hadoop目錄下，輸入命令進行解壓安裝：tarxzvfVMwareTools-9.6.2-1688356.tar.gz此時在/home/hadoop/目錄下產生vmware-tools-distrib文件夾，進入該目錄，通過在terminal終端輸入相應命令，運行vmware-install.pl腳本，按提示多次“回車”直至顯示安裝成功的信息，再重啟系統(tǒng)即可。在完成上述操作后，為保障Hadoop集群各節(jié)點之間的無障礙通信，需關閉系統(tǒng)防火墻。在重啟系統(tǒng)后，在terminal終端輸入命令：sudoufwdisable當顯示“Firewallstoppedanddisableonsystemstartup”時表示防火墻已關閉，若后續(xù)服務部署過程中機器重啟無法實現(xiàn)節(jié)點之間的相互通信，可嘗試檢查防火墻是否關閉。1.3master節(jié)點的JDK安裝與配置由于Hadoop底層實現(xiàn)是用JAVA語言編寫的，因此它的運行離不開JAVA運行環(huán)境(JRE)的支持，這就需要JDK。JDK有多個更新版本，安裝過程大致相同，這里選擇安裝最近更新的版本jdkl.8.0_20。先將安裝文件jdk-8u20-linux-i586.gz拷貝到master節(jié)點的目錄/home/hadoop/下，在終端輸入命令：tarxzvfjdk-8u20-linux-i586.gz進行解壓安裝，此時會產生文件夾“jdk1.8.0_20”，所得的JDK安裝路徑為“/home/hadoop/jdk1.8.0_20”。安裝結束后打開/etc/profile文件，配置JDK的classpath：在terminal終端鍵入命令：sudogedit/etc/profile打開profile文件，在文件末尾加上相關語句。保存之后，在terminal終端輸入命令：source/etc/profile使其生效。并鍵入命令java–version查看是否配置成功，若出現(xiàn)如下信息，則表示java環(huán)境變量配置成功。1.4master節(jié)點的hadoop安裝與配置Hadoop的安裝是Hadoop平臺搭建的關鍵步驟，將下載的安裝包hadoop-2.2.0.tar.gz拷貝到master節(jié)點目錄/home/hadoop/下，進行解壓安裝，輸入命令：tarxzvfhadoop-2.2.0.tar.gz安裝完成后配置環(huán)境變量：在系統(tǒng)文件/etc/profile以及Hadoop的安裝目錄/home/hadoop/hadoop-2.2.0文件夾下的多個文件添加相應的配置信息。1.4.1添加環(huán)境變量打開/etc/profile文件，在terminal終端鍵入命令：sudogedit/etc/profile調出profile文件，在文件末尾加上相關語句，然后保存，在終端鍵入命令source/etc/profile使其生效。若無視警告重啟ubuntu后將會出現(xiàn)以下情況：輸入密碼無法進入系統(tǒng)，一直處于輸入密碼后又跳轉回輸入密碼的界面。此時的解決方法是：在輸入密碼界面同時按下alt+ctrl+F2進入ubuntu命令模式，并使用root用戶及對應密碼登陸系統(tǒng)，然后鍵入：/usr/bin/vi/etc/profile打開etc/profile文件，找到最近在末尾加上的hadoop配置文件，按delete鍵刪除這些行，然后鍵入命令:wq！(注意此處有冒號，不可省略)保存文件。然后同時按下ctrl+alt+del重啟系統(tǒng)即可使系統(tǒng)恢復正常登陸，然后按照上述方法重新配置。1.4.2目錄設置在普通用戶hadoop下創(chuàng)建hadoop的數(shù)據(jù)存儲目錄(若使用root用戶創(chuàng)建上述文件夾則會因權限問題導致無法向這些文件夾中寫入并讀取數(shù)據(jù))，可自行選擇數(shù)據(jù)存儲的路徑，我們選擇在/home/hadoop/文件夾下創(chuàng)建dfs和tmp作為數(shù)據(jù)存儲與交換的目錄，并在dfs文件夾下創(chuàng)建name和data兩個子文件夾。1.4.3/home/hadoop/hadoop-2.2.0/etc/hadoop下配置文件的修改接下來在/home/hadoop/hadoop-2.2.0/etc/hadoop目錄下需要修改以下文件的內容：在slaves文件下分別寫入三個slave節(jié)點的名稱，完成節(jié)點信息配置，并分別通過對hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、yarn-env.sh等文件分別進行Hadoop核心文件配置、HDFS配置、Mapreduce配置和Yarn配置。對/home/hadoop/hadoop-2.2.0/etc/hadoop文件夾下的幾個文件做一定的修改，配置每個文件時先單擊文件右鍵，選擇“openwithtexteditor”方式打開，按照以下方式修改，需要配置的文件如下：(1)配置hadoop-env.sh文件，打開該文件，檢索“#exportJAVA_HOME＝${JAVA_HOME}”文本；(2)配置slaves文件，打開該文件，將其內容修改為slave1、slave2、slave3。(3)配置core-site.xml文件，打開該文件。(4)配置hdfs-site.xml文件，打開該文件。注意：需要在hdfs-site.xml中配置dfs.replication屬性時，dfs.replication屬性指定HDFS中文件塊復制的份數(shù)，其默認值為3，當datanode節(jié)點少于3臺便會報錯。在一般情況下，當其屬性值為3的時候，HDFS的部署策略是在本地機柜中一個節(jié)點放置一個備份，在本地機柜的不同結點再放置一個備份，然后再在另一個機柜中的一個結點放置一個備份。(5)配置mapred-site.xml文件。事實上在進行配置之前，mapred-site.xml文件默認并不存在，需要首先將該目錄下的mapred-site.xml.template文件進行復制，并重命名為mapred-site.xml，接下來打開mapred-site.xml，添加相關語句。(6)配置yarn-site.xml文件，打開該文件，在文件末尾添加相關語句。(7)配置yarn-env.sh文件，打開該文件，檢索“#exportJAVA_HOME＝/home/y/libexec/jdk1.6.0/”語句，在該語句下一行添加相關語句。通過對上述文件的修改，完成對Hadoop的配置。事實上，配置過程并不復雜，一般而言，除了規(guī)定的端口、IP地址、文件的存儲位置外，其他配置都不是必須修改的，可以根據(jù)需要決定是采用默認配置還是自行修改。還有一點需要注意的是以上配置都被默認為最終參數(shù)，這些參數(shù)都不可以在程序中被再次修改。1.5Hadoop集群的部署與各節(jié)點的通信1.5.1安裝SSH服務通過建立SSH無密碼互訪，可以實現(xiàn)Hadoop虛擬機群之間的無密碼登錄互訪。在安裝SSH服務之前，首先需要更新軟件源，并保證每臺機器上都安裝了SSH服務器，且都能正常啟動。軟件源更新完畢后，在terminal輸入相關命令開始安裝openssh-server：sudoapt-getinstallopenssh-server；輸入相關命令，檢查openssh-server是否成功安裝：whichssh；如顯示/usr/bin/ssh表示ssh安裝成功：whichsshd；如顯示/usr/bin/sshd表示sshd安裝成功，如果以上二者都成功顯示，表示open-server安裝成功1.5.2克隆虛擬機作為Slave節(jié)點將上面配置好的虛擬機作為master，關閉作為master的ubuntu系統(tǒng)，然后修改虛擬機的網(wǎng)絡連接設置，改為“橋接模式”，即在master虛擬機主界面點擊“虛擬機—設置—硬件—網(wǎng)絡適配器”，在彈出的對話的“網(wǎng)絡連接”項目下選擇“橋接模式(B)”此舉的目的在于使主節(jié)點和各從節(jié)點都能連上網(wǎng)絡，從而使各臺機器之間能夠互訪。接下來對master進行克隆，得到slave1、slave2、slave3的雛形，即點擊VM菜單下的“虛擬機—管理—克隆”，進入克隆虛擬機的向導界面，根據(jù)向導提示，在“克隆類型”引導界面選擇“創(chuàng)建完整克隆”。然后輸入被克隆的虛擬機名稱，先暫輸入slave1，點擊確認進行克隆，將克隆好的系統(tǒng)復制到除master之外的三臺PC節(jié)點上，用虛擬機VMware識別并將其啟動，并在虛擬機啟動界面點擊“虛擬機—設置—選項—常規(guī)”設置中，分別修改虛擬機名稱為slave1、slave2和slave3。1.5.3設置IP地址在Hadoop平臺上，各個節(jié)點之間的互訪是基于TCP/IP協(xié)議的，所以要為各個節(jié)點分配IP地址。在四個PC節(jié)點上，點擊桌面右上角從左到右的第一個數(shù)據(jù)連接圖標，在下拉菜單中選擇最后一項“EditConnections…”在彈出的“NetworkConnections”框中選擇“Edit…”，顯示“EditingEthernetconnection1”框，點擊“IPv4Settings”將彈出的Method選擇框設置為Manual，然后添加IP地址。添加同一網(wǎng)關內的IP地址、子網(wǎng)掩碼、默認網(wǎng)關，目的是讓各個節(jié)點機器能夠互訪。需要注意的是在設置IP地址時，需要首先在DNSservers輸入相應的IP地址，否則無法填寫“Addresses”項內容。因此，將DNS服務器(DNSservers)地址設置為：202.96.128.166，接下來將master節(jié)點的IP地址(Address)設置為：172.19.17.102，子網(wǎng)掩碼(Netmask)設置為：255.255.255.0，默認網(wǎng)關(Gateway)設置為：172.19.17.1。用同樣的方法，將虛擬機salve1的IP地址設置為：202.96.128.166(DNS服務器)；172.19.17.104(IP地址)；255.255.255.0(子網(wǎng)掩碼)；172.19.17.1(網(wǎng)關)，將slave2的IP地址設置為：202.96.128.166(DNS服務器)；172.19.17.105(IP地址)；255.255.255.0(子網(wǎng)掩碼)；172.19.17.1(網(wǎng)關)，將slave3的IP地址設置為：202.96.128.166(DNS服務器)；172.19.17.106(IP地址)；255.255.255.0(子網(wǎng)掩碼)；172.19.17.1(網(wǎng)關)。1.5.4修改機器名通過克隆得到的ubuntu系統(tǒng)有相同的機器名，所以要修改加載在各虛擬機中的系統(tǒng)名稱，來區(qū)分不同的節(jié)點，以便后期操作。在master機器上打開etc/hostname文件，將etc/hostname文件內容修改為master；用同樣的方法分別在剛剛克隆得到的slave1、slave2和slave3上，修改其機器名：將slave1的機器名修改為slave1；將slave2的機器名修改為slave2；將slave3的機器名修改為slave3；1.5.5修改hosts文件通過修改hosts文件可以實現(xiàn)機器名和IP地址之間的映射，在master節(jié)點上，打開文件/etc/hosts；用同樣的方法，在slave1、slave2和slave3機器上修改如上hosts文件，映射配置與master一致。配置完成后重啟master和slave1、slave2和slave3使其生效。1.5.6建立SSH無密碼互訪通過建立SSH無密碼互訪，可以實現(xiàn)Hadoop虛擬機集群之間的無密碼登陸互訪。首先在4臺機器上均生成秘鑰對，并將slave1、slave2和slave3分別所生成的公鑰id_rsa.pub進行重命名后發(fā)送到master機器上，由master將自身所生成的公鑰與其它三臺slave節(jié)點發(fā)送過來的公鑰合并到一個文件中，重新分發(fā)給三臺slave節(jié)點。對于不同的機器執(zhí)行對應的操作如下：(1)master生成密鑰對此時，在目錄/home/hadoop/.ssh/(隱藏的文件夾)下生成兩個文件id_rsa和id_rsa.pub(2)slave1生成密鑰對，重命名公鑰，并將其發(fā)送到maser在目錄/home/hadoop/.ssh/(隱藏的文件夾)下生成兩個文件id_rsa和id_rsa.pub，并重命名公鑰id_rsa.pub為id_rsa_slave1.pub；將重命名后的文件都復制到master機；(3)slave2生成密鑰對，重命名公鑰，并將其發(fā)送到maser；(4)slave3生成密鑰對，重命名公鑰，并將其發(fā)送到maser；(5)master合并公鑰，重新分發(fā)給各slave節(jié)點；(6)節(jié)點間無密碼互訪測試：在任意機器上輸入命令訪問另一臺機器，如果返回”Agentadmittedfailuretosignusingthekey“，不能連接到slave1，此時可輸入相關命令使ssh-agent處于運行狀態(tài)，再將id_rsa添加到ssh-agent中。1.6啟動Hadoop1.6.1啟動HDFS(1)初始化namenode在運行Hadoop平臺之前，要在master上格式化文件系統(tǒng)，建立HDFS。切換至hadoop用戶，進入/home/hadoop/hadoop-2.2.0/bin，初始化Namenode；格式化會產生多條信息，其中倒數(shù)第三行如果出現(xiàn)：.......Storagedirectory/home/hadoop/hdfs/namehasbeensuccessfullyformatted，則說明格式化HDFS成功，初始化完成之后會自動的在/home/hdoop/hadoop-2.2.0/創(chuàng)建dfs/name/目錄。(2)測試啟動HDFS在hadoop用戶下，啟動namenode，執(zhí)行相關命令：hadoop-daemon.shstartnamenode；啟動datanode，執(zhí)行相關命令：hadoop-daemon.shstartdatanode。當namenode與datanode均啟動之后，可使用jps命令查看進程；當同時看到下列進程時，標明hadoop正常運行：3588NameNode，3692DataNode；3757Jps如上述進程啟動過程正常，則可啟動HDFS。1.6.2啟動YARN在hadoop用戶下，切換至/home/hadoop/hadoop-2.2.0/sbin目錄下，執(zhí)行腳本./start-yarn.sh，啟動YARN；1.7Hadoop平臺測試在Hadoop平臺搭建完成后，對Hadoop平臺進行測試。在Hadoop的安裝目錄下，提供了一個單詞統(tǒng)計程序—WordCount。WordCount程序運行于Hadoop計算平臺之上，充分利用了MapReduce和HDFS。它可以對文件中單詞出現(xiàn)次數(shù)進行統(tǒng)計，然后給出統(tǒng)計結果。通過運行WordCount程序，可以檢測Hadoop平臺是否能夠正常運行。(1)在HDFS上建立相應的目錄和相應的文本文件；(2)在HDFS上建立文件夾input，將file01和file02上傳至hdfs的input文件夾；(3)運行WordCount程序；(4)程序的運行結果輸出；2.1Zookeeper的安裝與配置：Zookeeper是一個分布式開源框架，提供了協(xié)調分布式應用的基本服務，它向外部應用暴露一組通用服務—分布式同步、命名服務、集群維護等，簡化分布式應用協(xié)調及其管理的難度，提供高性能的分布式服務。同時，分布式運行的HBase(Hadoop分布式數(shù)據(jù)庫)離不開Hadoop協(xié)調工作系統(tǒng)Zookeeper的支持，事實上，HBase本身內置Zookeeper，但由于自帶Zookeepke的HBase重啟時會順帶重啟Zookeeper，致使其它依賴Zookeeper的組件無法正常工作。因此需要安裝與HBase內置的版本一致的Zookeeper。2.1.1Zookeeper的解壓安裝將下載好的安裝包zookeeper-3.4.5.tar.gz拷貝到master節(jié)點目錄/home/hadoop/下，輸入命令：tarxzvfzookeeper-3.4.5.tar.gz，進行解壓安裝，此時會產生文件夾“zookeeper-3.4.5”。安裝完成后配置環(huán)境變量：在系統(tǒng)目錄文件/etc/profile以及zookeeper的安裝目錄/home/hadoop/zookeeper-3.4.5/conf文件夾下的多個文件添加相應的配置信息。2.1.2添加環(huán)境變量打開/etc/profile文件，在terminal終端鍵入相關命令，然后保存，在終端鍵入命令source/etc/profile使其生效。2.1.3/home/hadoop/zookeeper-3.4.5下配置文件的修改Zookeeper集群環(huán)境下只要一半以上的機器能夠正常啟動，那么Zookeeper服務將是可用的。因此，集群上部署Zookeeper最好使用奇數(shù)臺機器，現(xiàn)搭建Hadoop集群共使用4臺PC節(jié)點，只要3臺正常工作便可正常提供服務，我們在三臺slave節(jié)點上部署Zookeeper服務。接下來將對Zookeeper的配置文件參數(shù)進行設置：(可以先在一臺機器slave1上配置，然后再分發(fā)給slave2和slave3)。進入/home/hadoop/zookeeper-3.4.5/conf目錄，復制該目錄下的文件zoo_sampel.cfg并重命名為zoo.cfg，在terminal終端執(zhí)行相關命令，接下來打開zoo.cfg文件，添相關語句。其中：slave1、slave2、slave3分別為主機名，配置文件中"server.id＝host:port:port"中的第一個port是指從機器(follower)連接到主機器(leader)的端口號，第二個port是進行l(wèi)eadership選舉的端口號。2.1.4目錄設置在dataDir所指定的目錄/home/hadoop/zookeeper-3.4.5/zkdata創(chuàng)建一個文件名為myid的文件。由于/home/hadoop/zookeeper-3.4.5/目錄下zkdata子文件夾并不存在，因此需要先創(chuàng)建，然后再創(chuàng)建在zkdata子文件夾的myid文件，執(zhí)行相關命令，打開myid文件，寫入上述“server.id”中的id編號，如：在slave1節(jié)點中的myid的內容應該寫入1，將配置文件分發(fā)到其它節(jié)點后，也需要根據(jù)不同的server.id編號進行修改。2.1.5遠程復制分發(fā)目錄文件并配置環(huán)境變量將上面的安裝配置文件拷貝到集群中的其他機器上對應的目錄下，拷貝完成后修改對應的機器上的myid。修改slave2、slave3中的myid，分別修改為2和3。同時，需要分別在slave2、slave3的/etc/profile文件下添加環(huán)境變量，打開/etc/profile文件，在terminal終端鍵入命令：sudogedit/etc/profile調出profile文件，在文件末尾加上相關命令。2.1.6啟動zookeeper集群在ZooKeeper集群的每個結點上，執(zhí)行啟動ZooKeeper服務的腳本，分別在slave1、slave2和slave3機器上執(zhí)行相關命令，可使用jps命令查看進程。若依次啟動了所有機器上的Zookeeper進程之后，輸入命令：zkServer.shstart可查看服務當前的啟動狀態(tài)，包括集群中各個結點的角色(或是Leader，或是Follower)，即mode所顯示的角色。另外，可以通過客戶端腳本，連接到ZooKeeper集群上。對于客戶端來說，ZooKeeper是一個整體(ensemble)，連接到ZooKeeper集群便可共享整個集群的服務，所以，可以在任何一個結點上建立到服務集群的連接，至此，完成了對Zookeeper集群的安裝和配置。2.2HBase的安裝與配置HBase是一個開源的、版本化的、可伸縮、面向列的、以鍵值對形式存儲數(shù)據(jù)的分布式存儲系統(tǒng)，具有高效的存儲和簡單的查詢功能，能提供大數(shù)據(jù)集的實時讀取和隨機訪問，利用HBase技術可以在廉價的PCServer上搭建起大規(guī)模的非結構化存儲集群。它不僅能夠存儲結構化的數(shù)據(jù)，更適于存儲松散型的非結構化數(shù)據(jù)，即是介于映射(Key/Value)和關系型數(shù)據(jù)之間的數(shù)據(jù)。2.2.1HBase的解壓安裝將下載好的HBase安裝包hbase-0.96.2-hadoop2-bin.tar.gz拷貝到master節(jié)點目錄/home/hadoop/下，輸入命令：tarxzvfhbase-0.96.2-hadoop2-bin.tar.gz，進行解壓安裝，此時會產生文件夾“hbase-0.96.2-hadoop2”。安裝完成后配置環(huán)境變量：在系統(tǒng)目錄文件/etc/profile以及HBase的安裝目錄/home/hadoop/hbase-0.96.2-hadoop2/conf文件夾下的多個文件添加相應的配置信息。2.2.2添加環(huán)境變量打開/etc/profile文件，在terminal終端鍵入命令：sudogedit/etc/profile調出profile文件，在文件末尾加上相關指令，然后保存，在終端鍵入命令source/etc/profile使其生效。2.2.3/home/hadoop/hbase-0.96.2-hadoop2/conf下配置文件的修改(1)配置hbase-env.sh文件打開該文件，在文件中檢索關鍵字“exportJAVA_HOME”，將等號“＝”后的目錄修改為：/home/hadoop/jdk1.8.0_20/，即配置：exportJAVA_HOME＝/home/hadoop/jdk1.8.0_20，使HBase能夠獲取到JDK服務的支持。同時，由于HBase內置Zookeeper，需要在hbase-env.sh文件進行設置，使HBase工作時只啟動外置的Zookeeper，自帶的Zookeeper服務進程不啟動。打開該文件，在文件中檢索關鍵字“exportHBASE_MANAGES_ZK，將等號“＝”后的值修改為：false，即配置:exportHBASE_MANAGES_ZK＝false。(2)配置hbase-site.xml文件打開/home/hadoop/hbase-0.96.2-hadoop2/conf下的hbase-site.xml文件，在文件末尾添加以相關命令。(3)配置regionservers文件打開regionservers文件，添加相關命令。2.2.4/home/hadoop/hbase-0.96.2-hadoop2/lib目錄下jar包的替換由于hbase-0.96.2安裝包的lib目錄下所用的hadoop相關jar包與hadoop-2.2.0一致，因此不需要進行替換，此步驟可跳過。若兩者不兼容，則必須進行替換，否則hbase將無法訪問hdfs，導致所有的CRUD操作都會報錯。如：hbase0.96.0安裝包的lib目錄下所用的hadoop相關jar包都是hadoop-2.1.0beta版的，而這部分jar包跟hadoop-2.2.0之間不能完全兼容，所以需要將hbase0.96.0的lib目錄中的hadoop相關jar包替換成hadoop2.2.0版的jar包。2.2.5將hadoop的部分配置文件拷貝到hbase0.96.2的conf目錄下將/home/hadoop/hadoop-2.2.0/etc/hadoop目錄下的hdfs-site.xml等文件拷貝到/home/hadoop/hbase-0.96.2-hadoop2/conf下。2.2.6遠程復制分發(fā)目錄文件并配置環(huán)境變量完成上述操作后，將master節(jié)點上的/home/hadoop/hbase-0.96.2-hadoop2/目錄拷貝到slave1、slave2、slave3三臺就機器上，注意保證目錄結構一致，執(zhí)行相關命令，同時，需要分別在slave1、slave2和slave3的/etc/profile文件下添加環(huán)境變量，打開/etc/profile文件，在terminal終端鍵入命令：sudogedit/etc/profile調出profile文件，在文件末尾加上相關命令。2.2.7啟動HBase，測試在啟動HBase之前，需要首先啟動hadoop，接下來再啟動zookeeper服務；若要終止HBase服務，則首先需要終止zookeeper，再停止hadoop進程的運行。在啟動hadoop和zookeeper之后，進入hbase0.96.2的bin目錄，運行腳本start-hbase.sh，啟動HBase服務的相關命令。在各節(jié)點上使用jps查看HBase是否啟動成功，在master節(jié)點上，顯示“Hmaster”，在各slave節(jié)點上顯示“HRegionServer”，則表示集群上HBase啟動成功，或者打開web客戶端查看相關信息：master節(jié)點通過http://master:60010查詢，slave節(jié)點通過http://slave(i):60010(i＝1,2,3)進行查詢。2.2.8啟動Shell連接進入hbase0.96.2的bin目錄，啟動HBase的shell命令，進行數(shù)據(jù)表的創(chuàng)建、狀態(tài)查詢、數(shù)據(jù)插入等操作。執(zhí)行幾個基本操作，如list，status，create，put等進行測試,如順利通過則安裝配置成功。如有任何異常，可通過hmaster的log來進行分析，定位問題所在。2.3Sqoop的安裝與配置Sqoop是一款開源數(shù)據(jù)遷移工具，主要用于在Hadoop(或Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql、oracle等)間進行數(shù)據(jù)的傳遞、遷移。2.3.1Sqoop的解壓安裝將下載好的Sqoop安裝包sqoop-1.99.3-bin-hadoop200.tar.gz拷貝到master節(jié)點目錄/home/hadoop/下，輸入命令：tarxzvfsqoop-1.99.3-bin-hadoop200.tar.gz，進行解壓安裝，此時會產生文件夾“sqoop-1.99.3-bin-hadoop200”。安裝完成后配置環(huán)境變量：在系統(tǒng)目錄文件/etc/profile以及Sqoop的安裝目錄/home/hadoop/sqoop-1.99.3-bin-hadoop200/server/conf文件夾下的多個文件添加相應的配置信息。2.3.2添加環(huán)境變量打開/etc/profile文件，在terminal終端鍵入命令：sudogedit/etc/profile調出profile文件，在文件末尾加上相關命令，然后保存，在終端鍵入命令source/etc/profile使其生效。2.3.3/home/hadoop/sqoop-1.99.3-bin-hadoop200/server/conf下配置文件的修改(1)配置catalina.properties文件打開該文件，在文件中檢索關鍵字“common.loader”，在等號“＝”后添加hadoop相關jar包路徑。(2)配置sqoop.properties文件打開/home/hadoop/sqoop-1.99.3-bin-hadoop200/server/conf下的sqoop.properties文件，在文件中檢索文本“org.apache.sqoop.submission.engine.mapreduce.configuration.directory”，將等號“＝”后的目錄修改為：/home/hadoop/hadoop-2.2.0/etc/hadoop，此處的配置文件中不能用環(huán)境變量(比如$HADOOP_HOME)，必須用全路徑。2.3.3jar包的拷貝與替換(1)拷入需要用到的Oracle的jdbc包ojdbc6.jar到相關目錄由于從Oracle等數(shù)據(jù)庫向HBase、HDFS等Hadoop存儲系統(tǒng)導入數(shù)據(jù)時，需要建立Oracle與Sqoop的連接，這就需要用到一個Oracle驅動程序jdbc的jar包，因此將下載好的ojdbc6.jar包拷貝到以下兩個Sqoop文件目錄下。(2)log4j包沖突問題的解決方法另外，由于在catalina.properties配置文件的common.loader屬性中配置引入了所有的hadoop相關jar包，而hadoop的lib目錄下帶有l(wèi)og4j包，雖然版本和Sqoop自帶的log4j不一致，但也造成了兩個目錄下log4j包沖突，需要將/home/hadoop/sqoop-1.99.3-bin-hadoop200/server/webapps/sqoop/WEB-INF/lib目錄下的log4j-1.2.16.jar移除。2.1.5遠程復制分發(fā)目錄文件并配置環(huán)境變量將上面的安裝配置文件拷貝到集群中的其他機器上對應的目錄下，同時，需要分別在slave1、slave2和slave3的/etc/profile文件下添加環(huán)境變量，打開/etc/profile文件，在terminal終端鍵入命令：sudogedit/etc/profile調出profile文件，在文件末尾加上相關命令。2.3.5啟動SqoopSqoop分為server端和client端，server端只需要在一個hadoop節(jié)點上運行即可，client端可以在任意hadoop節(jié)點上運行。(1)啟動server端進入/home/hadoop/sqoop-1.99.3-bin-hadoop200/bin目錄下，運行sqoop.sh腳本的server啟動服務，啟動Sqoop的server端，執(zhí)行相關命令，若顯示以下信息(部分信息)，則表示成功啟動server端：Sqoophomedirectory:/home/hadoop/sqoop-1.99.3-bin-hadoop200SettingSQOOP_HTTP_PORT:12000SettingSQOOP_ADMIN_PORT:12001(2)啟動client端進入/home/hadoop/sqoop-1.99.3-bin-hadoop200/bin目錄下，運行sqoop.sh腳本的client啟動服務，啟動Sqoop的client端，執(zhí)行相關命令，若顯示以下信息，則表示成功啟動client端：Sqoophomedirectory:/home/hadoop/sqoop-1.99.3-bin-hadoop200SqoopShell:Type'help'or'\h'forhelp.到此，Sqoop1.99.3正常啟動。當前第1頁1 2 3

完整全部詳細技術資料下載

當前第1頁1 2 3