亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種hadoop集群性能的優(yōu)化方法

文檔序號(hào):6379628閱讀:650來源:國(guó)知局
專利名稱:一種hadoop集群性能的優(yōu)化方法
技術(shù)領(lǐng)域
本發(fā)明涉及高性能集群領(lǐng)域,具體涉及一種hadoop集群性能的優(yōu)化方法。
背景技術(shù)
hadoop技術(shù)已經(jīng)在互聯(lián)網(wǎng)領(lǐng)域得到廣泛的應(yīng)用,同時(shí)也得到了學(xué)術(shù)界的普遍關(guān)注。針對(duì)hadoop集群優(yōu)化對(duì)于提高系統(tǒng)性能和執(zhí)行效率具有重大的意義。以往的hadoop集群優(yōu)化均為設(shè)置一個(gè)參數(shù)后,對(duì)系統(tǒng)進(jìn)行性能測(cè)試,得出結(jié)果后根據(jù)經(jīng)驗(yàn)判斷參數(shù)設(shè)置的效果如何。這樣將會(huì)造成太多時(shí)間的浪費(fèi)。如何能快速定位系統(tǒng)性能瓶頸,并根據(jù)性能瓶頸進(jìn)行性能優(yōu)化是本發(fā)明要解決的問題。目前在hadoop集群優(yōu)化中有大約幾十個(gè)參數(shù)可以設(shè)置,給hadoop集群系統(tǒng)的性能優(yōu)化帶來了很大的麻煩
發(fā)明內(nèi)容
·針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種hadoop集群性能的優(yōu)化方法,該方法解決了如何能快速定位系統(tǒng)性能瓶頸,并根據(jù)性能瓶頸進(jìn)行性能優(yōu)化的問題,采用nmon工具來實(shí)時(shí)監(jiān)控系統(tǒng)的各項(xiàng)性能指標(biāo),性能指標(biāo)包括磁盤,CPU,內(nèi)存網(wǎng)絡(luò)等,在hadoop文件系統(tǒng)運(yùn)行過程中及時(shí)發(fā)現(xiàn)性能瓶頸,及時(shí)發(fā)現(xiàn)hadoop集群系統(tǒng)設(shè)置參數(shù)的影響,從而更快更直接的進(jìn)行hadoop集群系統(tǒng)的性能優(yōu)化,節(jié)省大量的時(shí)間。本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的—種hadoop集群性能的優(yōu)化方法,其改進(jìn)之處在于,所述方法采用監(jiān)視工具nmon監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo);所述方法包括下述步驟A、安裝監(jiān)視工具nmon ;B、運(yùn)行hadoop集群系統(tǒng)。C、根據(jù)運(yùn)行過程中nmon工具的性能反饋,對(duì)hadoop集群參數(shù)進(jìn)行調(diào)整,實(shí)現(xiàn)優(yōu)化。其中,所述安裝監(jiān)視工具nmon包括下述步驟a、從網(wǎng)頁(yè)界面下載nmon 二進(jìn)制包;b、將所述nmon 二進(jìn)制包復(fù)制到Hadoop集群的所有節(jié)點(diǎn);C、使用$ΝΜ0Ν_Η0ΜΕ目錄代表放置nmon 二進(jìn)制代碼的位置;d、選擇作業(yè)管理節(jié)點(diǎn)jobtracker作為中心節(jié)點(diǎn)收集nmon數(shù)據(jù);e、登錄 jobtracker 中心節(jié)點(diǎn);f、在所述jobtracker中心節(jié)點(diǎn)上創(chuàng)建目錄并通過網(wǎng)絡(luò)文件系統(tǒng)服務(wù)實(shí)現(xiàn)共享;g、創(chuàng)建腳本在Hadoop集群的所有節(jié)點(diǎn)上啟動(dòng)nmon。其中,所述步驟b中,所述Hadoop集群的所有節(jié)點(diǎn)包括目錄管理節(jié)點(diǎn)Namenode、任務(wù)計(jì)算節(jié)點(diǎn)Datanode、作業(yè)管理節(jié)點(diǎn)Jobtracker和輔助目錄管理節(jié)點(diǎn)SecondNamenode。其中,所述步驟f包括以下步驟(I)在所述jobtracker中心節(jié)點(diǎn)上創(chuàng)建目錄;
(2)修改 /etc/exports 文件;(3)重新啟動(dòng)網(wǎng)絡(luò)文件系統(tǒng)服務(wù);(4)在目錄管理節(jié)點(diǎn)Namenode、任務(wù)計(jì)算節(jié)點(diǎn)Datanode和輔助目錄管理節(jié)點(diǎn)SecondNamenode上創(chuàng)建該目錄并將其掛裝到j(luò)obtracker中心節(jié)點(diǎn)上的perf_share目錄中。其中,所述步驟g中,所述腳本包括_f表示希望把數(shù)據(jù)保存到文件中,并不在屏幕上顯示;_m表示保存數(shù)據(jù)的位置;-s 30表示希望每30秒捕捉一次數(shù)據(jù);-c 360表示需要360個(gè)數(shù)據(jù)點(diǎn)(即快照),總數(shù)據(jù)收集時(shí)間為30x360秒,即3小時(shí)。其中,所述步驟B中,通過所述監(jiān)視工具nmon返回hadoop集群系統(tǒng)性能數(shù)據(jù)確定 性能瓶頸,進(jìn)行hadoop系統(tǒng)配置參數(shù)調(diào)整。其中,所述hadoop集群系統(tǒng)的性能指標(biāo)包括磁盤、CPU和內(nèi)存網(wǎng)絡(luò)。其中,所述nmon為系統(tǒng)管理、調(diào)優(yōu)和基準(zhǔn)測(cè)試工具,用于監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo)。其中,所述hadoop系統(tǒng)配置參數(shù)調(diào)整是一個(gè)反復(fù)循環(huán)的過程。其中,所述步驟C中,根據(jù)運(yùn)行過程中監(jiān)視工具nmon的性能反饋,對(duì)hadoop集群參數(shù)進(jìn)行調(diào)整,包括I、統(tǒng)計(jì)系統(tǒng)各項(xiàng)數(shù)據(jù),包括CPU的使用率,內(nèi)存使用情,內(nèi)核統(tǒng)計(jì)信息和運(yùn)行隊(duì)列信,磁盤1/0速度、傳輸和讀/寫比,文件系統(tǒng)中的可用空,磁盤適配,網(wǎng)絡(luò)1/0速度、傳輸和讀/寫比率,頁(yè)面空間和頁(yè)面速度,CPU和AIX規(guī)范,消耗資源最多的進(jìn)程,計(jì)算機(jī)詳細(xì)信息和資源,網(wǎng)絡(luò)文件系統(tǒng);II、尋找調(diào)優(yōu)的點(diǎn),如果不能再優(yōu)化,則維持現(xiàn)狀;否則進(jìn)行優(yōu)化,繼續(xù)進(jìn)行步驟III ;III、進(jìn)行hadoop集群系統(tǒng)優(yōu)化,之后再進(jìn)行統(tǒng)計(jì)測(cè)試。與現(xiàn)有技術(shù)比,本發(fā)明達(dá)到的有益效果是本發(fā)明提供的hadoop集群性能的優(yōu)化方法,在hadoop集群運(yùn)行過程中使用一種系統(tǒng)整體性能監(jiān)控工具,實(shí)時(shí)準(zhǔn)確的定位系統(tǒng)性能瓶頸,從而能夠快速實(shí)現(xiàn)對(duì)系統(tǒng)整體的性能優(yōu)化,節(jié)省大量的時(shí)間。該優(yōu)化方法能夠監(jiān)測(cè)CPU的使用率,內(nèi)存使用情,內(nèi)核統(tǒng)計(jì)信息和運(yùn)行隊(duì)列信,磁盤I/o速度、傳輸和讀/寫比,文件系統(tǒng)中的可用空,磁盤適配,網(wǎng)絡(luò)I/O速度、傳輸和讀/寫比率,頁(yè)面空間和頁(yè)面速度,CPU和AIX規(guī)范,消耗資源最多的進(jìn)程,計(jì)算機(jī)詳細(xì)信息和資源,網(wǎng)絡(luò)文件系統(tǒng)等等。實(shí)時(shí)準(zhǔn)確的定位系統(tǒng)性能瓶頸,能夠快速實(shí)現(xiàn)對(duì)系統(tǒng)整體的性能優(yōu)化,如在某集群系統(tǒng)環(huán)境下,nmon的監(jiān)測(cè)顯示帶寬的占有率達(dá)到了最大限度,這時(shí),工程師就可以根據(jù)當(dāng)下環(huán)境適當(dāng)增大帶寬。該方法能夠使工程師的工作更有針對(duì)性,極大的減少了盲目的試探。


圖I是本發(fā)明提供的hadoop集群性能的優(yōu)化方法的流程圖。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式
作進(jìn)一步的詳細(xì)說明。
本發(fā)明提供的hadoop集群性能的優(yōu)化方法的流程如圖I所示,包括下述內(nèi)容A、nmon 的安裝nmon是一個(gè)系統(tǒng)管理、調(diào)優(yōu)和基準(zhǔn)測(cè)試工具,可以簡(jiǎn)便地監(jiān)視大量重要的性能信息??梢栽谡麄€(gè)性能調(diào)優(yōu)過程中使用nmon作為監(jiān)視工具。按以下步驟安裝并配置nmon,建立自己的性能監(jiān)視系統(tǒng)從nmon for Linux站點(diǎn)下載nmon二進(jìn)制包。找到適合的版本,把它復(fù)制到Hadoop集群的所有節(jié)點(diǎn)。下面使用$ΝΜ0Ν_Η0ΜΕ代表放置nmon 二進(jìn)制代碼的位置。因?yàn)橐呀?jīng)讓namenode、jobtracker 和 secondnamenode 能夠通過 ssh 無需密碼地訪問所有其他節(jié)點(diǎn),而且將在jobtracker上提交所有map/reduce作業(yè),所以選擇jobtracker作為中心節(jié)點(diǎn)收集所有nmon數(shù)據(jù)。登錄jobtracker節(jié)點(diǎn),然后執(zhí)行以下步驟。
使用以下命令在jobtracker上創(chuàng)建一個(gè)目錄(例如/home/hadoop/perf_share)并通過NFS共享它(I)創(chuàng)建目錄$mkdir/home/hadoop/perf_share ;(2)修改 /etc/exports 文件,在其中包含以下行/home/hadoop/perf_share*(rw, sync);(3)重新啟動(dòng) NFS 服務(wù)$/etc/rc. d/init. d/nfs restart ;(4)在所有其他節(jié)點(diǎn)上創(chuàng)建這個(gè)目錄并把它們掛裝到j(luò)obtracker上的perf_share目錄;創(chuàng)建以下腳本以便在所有節(jié)點(diǎn)上啟動(dòng)nmon 在最后的nmon命令中,_f表示希望把數(shù)據(jù)保存到文件中,并不在屏幕上顯示;_m表示保存數(shù)據(jù)的位置;-s 30表示希望每30秒捕捉一次數(shù)據(jù);-c 360表示需要360個(gè)數(shù)據(jù)點(diǎn)(即快照),總數(shù)據(jù)收集時(shí)間為30x360秒,即3小時(shí)。Unmonanalyser wiki 下載 nmonanalyser (這個(gè) Excel 電子表格接受 nmon 的輸出文件,生成一些漂亮的圖表以幫助分析),用它分析收集到的監(jiān)視數(shù)據(jù)。B、運(yùn)行hadoop集群,通過nmon監(jiān)視工具返回的系統(tǒng)性能數(shù)據(jù)確定相應(yīng)性能瓶頸,進(jìn)行相應(yīng)的參數(shù)調(diào)整,以期得到最高性能的集群。C、根據(jù)運(yùn)行過程中nmon工具的性能反饋,對(duì)hadoop集群參數(shù)進(jìn)行調(diào)整,實(shí)現(xiàn)優(yōu)化,包括I、統(tǒng)計(jì)系統(tǒng)各項(xiàng)數(shù)據(jù),包括CPU的使用率,內(nèi)存使用情,內(nèi)核統(tǒng)計(jì)信息和運(yùn)行隊(duì)列信,磁盤1/0速度、傳輸和讀/寫比,文件系統(tǒng)中的可用空,磁盤適配,網(wǎng)絡(luò)1/0速度、傳輸和讀/寫比率,頁(yè)面空間和頁(yè)面速度,CPU和AIX規(guī)范,消耗資源最多的進(jìn)程,計(jì)算機(jī)詳細(xì)信息和資源,網(wǎng)絡(luò)文件系統(tǒng);II、尋找調(diào)優(yōu)的點(diǎn),如果不能再優(yōu)化,則維持現(xiàn)狀;否則進(jìn)行優(yōu)化,繼續(xù)進(jìn)行步驟III ;III、進(jìn)行hadoop集群系統(tǒng)優(yōu)化,之后再進(jìn)行統(tǒng)計(jì)測(cè)試。本發(fā)明提供的hadoop集群性能的優(yōu)化方法中采用nmon工具來實(shí)時(shí)監(jiān)控系統(tǒng)的各項(xiàng)性能指標(biāo)包括磁盤,CPU,內(nèi)存網(wǎng)絡(luò)等,在hadoop文件系統(tǒng)運(yùn)行過程中及時(shí)發(fā)現(xiàn)性能瓶頸,及時(shí)發(fā)現(xiàn)系統(tǒng)設(shè)置參數(shù)的影響,從而更快更直接的進(jìn)行hadoop集群系統(tǒng)的性能優(yōu)化。最后應(yīng)當(dāng)說明的是以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對(duì)其限制,盡管參照上述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解依然可以對(duì)本發(fā)明的具體實(shí)施方式
進(jìn)行修改或者等同替換,而未脫離本發(fā)明精神和范圍的任何 修改或者等同替換,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1.一種hadoop集群性能的優(yōu)化方法,其特征在于,所述方法采用監(jiān)視工具nmon監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo);所述方法包括下述步驟 A、安裝監(jiān)視工具nmon; B、運(yùn)行hadoop集群系統(tǒng)。
C、根據(jù)運(yùn)行過程中nmon工具的性能反饋,對(duì)hadoop集群參數(shù)進(jìn)行調(diào)整,實(shí)現(xiàn)優(yōu)化。
2.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述安裝監(jiān)視工具nmon包括下述步驟 a、從網(wǎng)頁(yè)界面下載nmon二進(jìn)制包; b、將所述nmon二進(jìn)制包復(fù)制到Hadoop集群的所有節(jié)點(diǎn); C、使用$ΝΜ0Ν_Η0ΜΕ目錄代表放置nmon 二進(jìn)制代碼的位置; d、選擇作業(yè)管理節(jié)點(diǎn)jobtracker作為中心節(jié)點(diǎn)收集nmon數(shù)據(jù); e、登錄jobtracker中心節(jié)點(diǎn); f、在所述jobtracker中心節(jié)點(diǎn)上創(chuàng)建目錄并通過網(wǎng)絡(luò)文件系統(tǒng)服務(wù)實(shí)現(xiàn)共享; g、創(chuàng)建腳本在Hadoop集群的所有節(jié)點(diǎn)上啟動(dòng)nmon。
3.如權(quán)利要求2所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述步驟b中,所述Hadoop集群的所有節(jié)點(diǎn)包括目錄管理節(jié)點(diǎn)Namenode、任務(wù)計(jì)算節(jié)點(diǎn)Datanode、作業(yè)管理節(jié)點(diǎn)Jobtracker和輔助目錄管理節(jié)點(diǎn)SecondNamenode。
4.如權(quán)利要求2所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述步驟f包括以下步驟 (1)在所述jobtracker中心節(jié)點(diǎn)上創(chuàng)建目錄; (2)修改/etc/exports 文件; (3)重新啟動(dòng)網(wǎng)絡(luò)文件系統(tǒng)服務(wù); (4)在目錄管理節(jié)點(diǎn)Namenode、任務(wù)計(jì)算節(jié)點(diǎn)Datanode和輔助目錄管理節(jié)點(diǎn)SecondNamenode上創(chuàng)建該目錄并將其掛裝到j(luò)obtracker中心節(jié)點(diǎn)上的perf_share目錄中。
5.如權(quán)利要求2所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述步驟g中,所述腳本包括_f表示希望把數(shù)據(jù)保存到文件中,并不在屏幕上顯示;_m表示保存數(shù)據(jù)的位置;-S 30表示希望每30秒捕捉一次數(shù)據(jù);-c 360表示需要360個(gè)數(shù)據(jù)點(diǎn)(即快照),總數(shù)據(jù)收集時(shí)間為30x360秒,即3小時(shí)。
6.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述步驟B中,通過所述監(jiān)視工具nmon返回hadoop集群系統(tǒng)性能數(shù)據(jù)確定性能瓶頸,進(jìn)行hadoop系統(tǒng)配置參數(shù)調(diào)整。
7.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述hadoop集群系統(tǒng)的性能指標(biāo)包括磁盤、CPU和內(nèi)存網(wǎng)絡(luò)。
8.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述nmon為系統(tǒng)管理、調(diào)優(yōu)和基準(zhǔn)測(cè)試工具,用于監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo)。
9.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述hadoop系統(tǒng)配置參數(shù)調(diào)整是一個(gè)反復(fù)循環(huán)的過程。
10.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述步驟C中,根據(jù)運(yùn)行過程中監(jiān)視工具nmon的性能反饋,對(duì)hadoop集群參數(shù)進(jìn)行調(diào)整,包括 I、統(tǒng)計(jì)系統(tǒng)各項(xiàng)數(shù)據(jù),包括CPU的使用率,內(nèi)存使用情,內(nèi)核統(tǒng)計(jì)信息和運(yùn)行隊(duì)列信,磁盤I/O速度、傳輸和讀/寫比,文件系統(tǒng)中的可用空,磁盤適配,網(wǎng)絡(luò)I/O速度、傳輸和讀/寫比率,頁(yè)面空間和頁(yè)面速度,CPU和AIX規(guī)范,消耗資源最多的進(jìn)程,計(jì)算機(jī)詳細(xì)信息和資源,網(wǎng)絡(luò)文件系統(tǒng); II、尋找調(diào)優(yōu)的點(diǎn),如果不能再優(yōu)化,則維持現(xiàn)狀;否則進(jìn)行優(yōu)化,繼續(xù)進(jìn)行步驟III; III、進(jìn)行hadoop集群系統(tǒng)優(yōu)化,之后再進(jìn)行統(tǒng)計(jì)測(cè)試。
全文摘要
本發(fā)明涉及一種hadoop集群性能的優(yōu)化方法,該方法采用監(jiān)視工具nmon監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo);所述方法包括下述步驟A、安裝監(jiān)視工具nmon;B、運(yùn)行hadoop集群系統(tǒng);C、根據(jù)運(yùn)行過程中nmon工具的性能反饋,對(duì)hadoop集群參數(shù)進(jìn)行調(diào)整。該方法能夠監(jiān)測(cè)CPU的使用率,內(nèi)存使用情,內(nèi)核統(tǒng)計(jì)信息和運(yùn)行隊(duì)列信,磁盤I/O速度、傳輸和讀/寫比,文件系統(tǒng)中的可用空,磁盤適配,網(wǎng)絡(luò)I/O速度、傳輸和讀/寫比率,頁(yè)面空間和頁(yè)面速度,CPU和AIX規(guī)范,消耗資源最多的進(jìn)程,計(jì)算機(jī)詳細(xì)信息和資源,網(wǎng)絡(luò)文件系統(tǒng)等。實(shí)時(shí)準(zhǔn)確的定位系統(tǒng)性能瓶頸,能夠快速實(shí)現(xiàn)對(duì)系統(tǒng)整體的性能優(yōu)化。該方法能夠使工程師的工作更有針對(duì)性,極大的減少了盲目的試探。
文檔編號(hào)G06F11/30GK102929667SQ20121041030
公開日2013年2月13日 申請(qǐng)日期2012年10月24日 優(yōu)先權(quán)日2012年10月24日
發(fā)明者馬慶懷 申請(qǐng)人:曙光信息產(chǎn)業(yè)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1