一種hadoop集群性能的優(yōu)化方法

文檔序號(hào)：6379628閱讀：650來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種hadoop集群性能的優(yōu)化方法
技術(shù)領(lǐng)域：
本發(fā)明涉及高性能集群領(lǐng)域,具體涉及一種hadoop集群性能的優(yōu)化方法。
背景技術(shù)：
hadoop技術(shù)已經(jīng)在互聯(lián)網(wǎng)領(lǐng)域得到廣泛的應(yīng)用，同時(shí)也得到了學(xué)術(shù)界的普遍關(guān)注。針對(duì)hadoop集群優(yōu)化對(duì)于提高系統(tǒng)性能和執(zhí)行效率具有重大的意義。以往的hadoop集群優(yōu)化均為設(shè)置一個(gè)參數(shù)后，對(duì)系統(tǒng)進(jìn)行性能測(cè)試，得出結(jié)果后根據(jù)經(jīng)驗(yàn)判斷參數(shù)設(shè)置的效果如何。這樣將會(huì)造成太多時(shí)間的浪費(fèi)。如何能快速定位系統(tǒng)性能瓶頸，并根據(jù)性能瓶頸進(jìn)行性能優(yōu)化是本發(fā)明要解決的問題。目前在hadoop集群優(yōu)化中有大約幾十個(gè)參數(shù)可以設(shè)置，給hadoop集群系統(tǒng)的性能優(yōu)化帶來了很大的麻煩
發(fā)明內(nèi)容
·針對(duì)現(xiàn)有技術(shù)的不足，本發(fā)明提供一種hadoop集群性能的優(yōu)化方法，該方法解決了如何能快速定位系統(tǒng)性能瓶頸，并根據(jù)性能瓶頸進(jìn)行性能優(yōu)化的問題，采用nmon工具來實(shí)時(shí)監(jiān)控系統(tǒng)的各項(xiàng)性能指標(biāo)，性能指標(biāo)包括磁盤，CPU,內(nèi)存網(wǎng)絡(luò)等，在hadoop文件系統(tǒng)運(yùn)行過程中及時(shí)發(fā)現(xiàn)性能瓶頸，及時(shí)發(fā)現(xiàn)hadoop集群系統(tǒng)設(shè)置參數(shù)的影響，從而更快更直接的進(jìn)行hadoop集群系統(tǒng)的性能優(yōu)化，節(jié)省大量的時(shí)間。本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的—種hadoop集群性能的優(yōu)化方法,其改進(jìn)之處在于，所述方法采用監(jiān)視工具nmon監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo)；所述方法包括下述步驟A、安裝監(jiān)視工具nmon ;B、運(yùn)行hadoop集群系統(tǒng)。C、根據(jù)運(yùn)行過程中nmon工具的性能反饋，對(duì)hadoop集群參數(shù)進(jìn)行調(diào)整，實(shí)現(xiàn)優(yōu)化。其中,所述安裝監(jiān)視工具nmon包括下述步驟a、從網(wǎng)頁(yè)界面下載nmon 二進(jìn)制包；b、將所述nmon 二進(jìn)制包復(fù)制到Hadoop集群的所有節(jié)點(diǎn)；C、使用$ΝΜ0Ν_Η0ΜΕ目錄代表放置nmon 二進(jìn)制代碼的位置；d、選擇作業(yè)管理節(jié)點(diǎn)jobtracker作為中心節(jié)點(diǎn)收集nmon數(shù)據(jù)；e、登錄 jobtracker 中心節(jié)點(diǎn)；f、在所述jobtracker中心節(jié)點(diǎn)上創(chuàng)建目錄并通過網(wǎng)絡(luò)文件系統(tǒng)服務(wù)實(shí)現(xiàn)共享；g、創(chuàng)建腳本在Hadoop集群的所有節(jié)點(diǎn)上啟動(dòng)nmon。其中，所述步驟b中，所述Hadoop集群的所有節(jié)點(diǎn)包括目錄管理節(jié)點(diǎn)Namenode、任務(wù)計(jì)算節(jié)點(diǎn)Datanode、作業(yè)管理節(jié)點(diǎn)Jobtracker和輔助目錄管理節(jié)點(diǎn)SecondNamenode。其中，所述步驟f包括以下步驟(I)在所述jobtracker中心節(jié)點(diǎn)上創(chuàng)建目錄；
(2)修改 /etc/exports 文件；(3)重新啟動(dòng)網(wǎng)絡(luò)文件系統(tǒng)服務(wù)；(4)在目錄管理節(jié)點(diǎn)Namenode、任務(wù)計(jì)算節(jié)點(diǎn)Datanode和輔助目錄管理節(jié)點(diǎn)SecondNamenode上創(chuàng)建該目錄并將其掛裝到j(luò)obtracker中心節(jié)點(diǎn)上的perf_share目錄中。其中，所述步驟g中，所述腳本包括_f表示希望把數(shù)據(jù)保存到文件中，并不在屏幕上顯示；_m表示保存數(shù)據(jù)的位置;-s 30表示希望每30秒捕捉一次數(shù)據(jù)；-c 360表示需要360個(gè)數(shù)據(jù)點(diǎn)(即快照)，總數(shù)據(jù)收集時(shí)間為30x360秒，即3小時(shí)。其中，所述步驟B中，通過所述監(jiān)視工具nmon返回hadoop集群系統(tǒng)性能數(shù)據(jù)確定性能瓶頸，進(jìn)行hadoop系統(tǒng)配置參數(shù)調(diào)整。其中，所述hadoop集群系統(tǒng)的性能指標(biāo)包括磁盤、CPU和內(nèi)存網(wǎng)絡(luò)。其中，所述nmon為系統(tǒng)管理、調(diào)優(yōu)和基準(zhǔn)測(cè)試工具，用于監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo)。其中，所述hadoop系統(tǒng)配置參數(shù)調(diào)整是一個(gè)反復(fù)循環(huán)的過程。其中，所述步驟C中,根據(jù)運(yùn)行過程中監(jiān)視工具nmon的性能反饋,對(duì)hadoop集群參數(shù)進(jìn)行調(diào)整，包括I、統(tǒng)計(jì)系統(tǒng)各項(xiàng)數(shù)據(jù)，包括CPU的使用率，內(nèi)存使用情，內(nèi)核統(tǒng)計(jì)信息和運(yùn)行隊(duì)列信，磁盤1/0速度、傳輸和讀/寫比，文件系統(tǒng)中的可用空，磁盤適配，網(wǎng)絡(luò)1/0速度、傳輸和讀/寫比率，頁(yè)面空間和頁(yè)面速度，CPU和AIX規(guī)范，消耗資源最多的進(jìn)程，計(jì)算機(jī)詳細(xì)信息和資源，網(wǎng)絡(luò)文件系統(tǒng)；II、尋找調(diào)優(yōu)的點(diǎn)，如果不能再優(yōu)化，則維持現(xiàn)狀；否則進(jìn)行優(yōu)化，繼續(xù)進(jìn)行步驟III ;III、進(jìn)行hadoop集群系統(tǒng)優(yōu)化，之后再進(jìn)行統(tǒng)計(jì)測(cè)試。與現(xiàn)有技術(shù)比，本發(fā)明達(dá)到的有益效果是本發(fā)明提供的hadoop集群性能的優(yōu)化方法，在hadoop集群運(yùn)行過程中使用一種系統(tǒng)整體性能監(jiān)控工具，實(shí)時(shí)準(zhǔn)確的定位系統(tǒng)性能瓶頸，從而能夠快速實(shí)現(xiàn)對(duì)系統(tǒng)整體的性能優(yōu)化，節(jié)省大量的時(shí)間。該優(yōu)化方法能夠監(jiān)測(cè)CPU的使用率，內(nèi)存使用情，內(nèi)核統(tǒng)計(jì)信息和運(yùn)行隊(duì)列信，磁盤I/o速度、傳輸和讀/寫比，文件系統(tǒng)中的可用空，磁盤適配，網(wǎng)絡(luò)I/O速度、傳輸和讀/寫比率，頁(yè)面空間和頁(yè)面速度，CPU和AIX規(guī)范，消耗資源最多的進(jìn)程，計(jì)算機(jī)詳細(xì)信息和資源，網(wǎng)絡(luò)文件系統(tǒng)等等。實(shí)時(shí)準(zhǔn)確的定位系統(tǒng)性能瓶頸，能夠快速實(shí)現(xiàn)對(duì)系統(tǒng)整體的性能優(yōu)化，如在某集群系統(tǒng)環(huán)境下，nmon的監(jiān)測(cè)顯示帶寬的占有率達(dá)到了最大限度，這時(shí)，工程師就可以根據(jù)當(dāng)下環(huán)境適當(dāng)增大帶寬。該方法能夠使工程師的工作更有針對(duì)性，極大的減少了盲目的試探。

圖I是本發(fā)明提供的hadoop集群性能的優(yōu)化方法的流程圖。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式
作進(jìn)一步的詳細(xì)說明。
本發(fā)明提供的hadoop集群性能的優(yōu)化方法的流程如圖I所示，包括下述內(nèi)容A、nmon 的安裝nmon是一個(gè)系統(tǒng)管理、調(diào)優(yōu)和基準(zhǔn)測(cè)試工具，可以簡(jiǎn)便地監(jiān)視大量重要的性能信息?？梢栽谡麄€(gè)性能調(diào)優(yōu)過程中使用nmon作為監(jiān)視工具。按以下步驟安裝并配置nmon，建立自己的性能監(jiān)視系統(tǒng)從nmon for Linux站點(diǎn)下載nmon二進(jìn)制包。找到適合的版本,把它復(fù)制到Hadoop集群的所有節(jié)點(diǎn)。下面使用$ΝΜ0Ν_Η0ΜΕ代表放置nmon 二進(jìn)制代碼的位置。因?yàn)橐呀?jīng)讓namenode、jobtracker 和 secondnamenode 能夠通過 ssh 無需密碼地訪問所有其他節(jié)點(diǎn)，而且將在jobtracker上提交所有map/reduce作業(yè)，所以選擇jobtracker作為中心節(jié)點(diǎn)收集所有nmon數(shù)據(jù)。登錄jobtracker節(jié)點(diǎn),然后執(zhí)行以下步驟。
使用以下命令在jobtracker上創(chuàng)建一個(gè)目錄(例如/home/hadoop/perf_share)并通過NFS共享它(I)創(chuàng)建目錄$mkdir/home/hadoop/perf_share ；(2)修改 /etc/exports 文件，在其中包含以下行/home/hadoop/perf_share*(rw, sync)；(3)重新啟動(dòng) NFS 服務(wù)$/etc/rc. d/init. d/nfs restart ；(4)在所有其他節(jié)點(diǎn)上創(chuàng)建這個(gè)目錄并把它們掛裝到j(luò)obtracker上的perf_share目錄；創(chuàng)建以下腳本以便在所有節(jié)點(diǎn)上啟動(dòng)nmon 在最后的nmon命令中，_f表示希望把數(shù)據(jù)保存到文件中，并不在屏幕上顯示；_m表示保存數(shù)據(jù)的位置；-s 30表示希望每30秒捕捉一次數(shù)據(jù)；-c 360表示需要360個(gè)數(shù)據(jù)點(diǎn)(即快照)，總數(shù)據(jù)收集時(shí)間為30x360秒，即3小時(shí)。Unmonanalyser wiki 下載 nmonanalyser (這個(gè) Excel 電子表格接受 nmon 的輸出文件，生成一些漂亮的圖表以幫助分析)，用它分析收集到的監(jiān)視數(shù)據(jù)。B、運(yùn)行hadoop集群,通過nmon監(jiān)視工具返回的系統(tǒng)性能數(shù)據(jù)確定相應(yīng)性能瓶頸，進(jìn)行相應(yīng)的參數(shù)調(diào)整，以期得到最高性能的集群。C、根據(jù)運(yùn)行過程中nmon工具的性能反饋，對(duì)hadoop集群參數(shù)進(jìn)行調(diào)整，實(shí)現(xiàn)優(yōu)化，包括I、統(tǒng)計(jì)系統(tǒng)各項(xiàng)數(shù)據(jù)，包括CPU的使用率，內(nèi)存使用情，內(nèi)核統(tǒng)計(jì)信息和運(yùn)行隊(duì)列信，磁盤1/0速度、傳輸和讀/寫比，文件系統(tǒng)中的可用空，磁盤適配，網(wǎng)絡(luò)1/0速度、傳輸和讀/寫比率，頁(yè)面空間和頁(yè)面速度，CPU和AIX規(guī)范，消耗資源最多的進(jìn)程，計(jì)算機(jī)詳細(xì)信息和資源，網(wǎng)絡(luò)文件系統(tǒng)；II、尋找調(diào)優(yōu)的點(diǎn)，如果不能再優(yōu)化，則維持現(xiàn)狀；否則進(jìn)行優(yōu)化，繼續(xù)進(jìn)行步驟III ;III、進(jìn)行hadoop集群系統(tǒng)優(yōu)化，之后再進(jìn)行統(tǒng)計(jì)測(cè)試。本發(fā)明提供的hadoop集群性能的優(yōu)化方法中采用nmon工具來實(shí)時(shí)監(jiān)控系統(tǒng)的各項(xiàng)性能指標(biāo)包括磁盤，CPU,內(nèi)存網(wǎng)絡(luò)等，在hadoop文件系統(tǒng)運(yùn)行過程中及時(shí)發(fā)現(xiàn)性能瓶頸，及時(shí)發(fā)現(xiàn)系統(tǒng)設(shè)置參數(shù)的影響，從而更快更直接的進(jìn)行hadoop集群系統(tǒng)的性能優(yōu)化。最后應(yīng)當(dāng)說明的是以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對(duì)其限制，盡管參照上述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明，所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解依然可以對(duì)本發(fā)明的具體實(shí)施方式
進(jìn)行修改或者等同替換，而未脫離本發(fā)明精神和范圍的任何修改或者等同替換，其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1.一種hadoop集群性能的優(yōu)化方法,其特征在于,所述方法采用監(jiān)視工具nmon監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo)；所述方法包括下述步驟 A、安裝監(jiān)視工具nmon； B、運(yùn)行hadoop集群系統(tǒng)。
C、根據(jù)運(yùn)行過程中nmon工具的性能反饋，對(duì)hadoop集群參數(shù)進(jìn)行調(diào)整，實(shí)現(xiàn)優(yōu)化。
2.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法，其特征在于，所述安裝監(jiān)視工具nmon包括下述步驟 a、從網(wǎng)頁(yè)界面下載nmon二進(jìn)制包； b、將所述nmon二進(jìn)制包復(fù)制到Hadoop集群的所有節(jié)點(diǎn)； C、使用$ΝΜ0Ν_Η0ΜΕ目錄代表放置nmon 二進(jìn)制代碼的位置； d、選擇作業(yè)管理節(jié)點(diǎn)jobtracker作為中心節(jié)點(diǎn)收集nmon數(shù)據(jù)； e、登錄jobtracker中心節(jié)點(diǎn)； f、在所述jobtracker中心節(jié)點(diǎn)上創(chuàng)建目錄并通過網(wǎng)絡(luò)文件系統(tǒng)服務(wù)實(shí)現(xiàn)共享； g、創(chuàng)建腳本在Hadoop集群的所有節(jié)點(diǎn)上啟動(dòng)nmon。
3.如權(quán)利要求2所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述步驟b中，所述Hadoop集群的所有節(jié)點(diǎn)包括目錄管理節(jié)點(diǎn)Namenode、任務(wù)計(jì)算節(jié)點(diǎn)Datanode、作業(yè)管理節(jié)點(diǎn)Jobtracker和輔助目錄管理節(jié)點(diǎn)SecondNamenode。
4.如權(quán)利要求2所述的hadoop集群性能的優(yōu)化方法，其特征在于，所述步驟f包括以下步驟 (1)在所述jobtracker中心節(jié)點(diǎn)上創(chuàng)建目錄； (2)修改/etc/exports 文件； (3)重新啟動(dòng)網(wǎng)絡(luò)文件系統(tǒng)服務(wù)； (4)在目錄管理節(jié)點(diǎn)Namenode、任務(wù)計(jì)算節(jié)點(diǎn)Datanode和輔助目錄管理節(jié)點(diǎn)SecondNamenode上創(chuàng)建該目錄并將其掛裝到j(luò)obtracker中心節(jié)點(diǎn)上的perf_share目錄中。
5.如權(quán)利要求2所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述步驟g中，所述腳本包括_f表示希望把數(shù)據(jù)保存到文件中，并不在屏幕上顯示；_m表示保存數(shù)據(jù)的位置；-S 30表示希望每30秒捕捉一次數(shù)據(jù)；-c 360表示需要360個(gè)數(shù)據(jù)點(diǎn)(即快照)，總數(shù)據(jù)收集時(shí)間為30x360秒，即3小時(shí)。
6.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法，其特征在于，所述步驟B中，通過所述監(jiān)視工具nmon返回hadoop集群系統(tǒng)性能數(shù)據(jù)確定性能瓶頸,進(jìn)行hadoop系統(tǒng)配置參數(shù)調(diào)整。
7.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于，所述hadoop集群系統(tǒng)的性能指標(biāo)包括磁盤、CPU和內(nèi)存網(wǎng)絡(luò)。
8.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述nmon為系統(tǒng)管理、調(diào)優(yōu)和基準(zhǔn)測(cè)試工具，用于監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo)。
9.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述hadoop系統(tǒng)配置參數(shù)調(diào)整是一個(gè)反復(fù)循環(huán)的過程。
10.如權(quán)利要求I所述的hadoop集群性能的優(yōu)化方法,其特征在于,所述步驟C中,根據(jù)運(yùn)行過程中監(jiān)視工具nmon的性能反饋，對(duì)hadoop集群參數(shù)進(jìn)行調(diào)整，包括 I、統(tǒng)計(jì)系統(tǒng)各項(xiàng)數(shù)據(jù)，包括CPU的使用率，內(nèi)存使用情，內(nèi)核統(tǒng)計(jì)信息和運(yùn)行隊(duì)列信，磁盤I/O速度、傳輸和讀/寫比，文件系統(tǒng)中的可用空，磁盤適配，網(wǎng)絡(luò)I/O速度、傳輸和讀/寫比率，頁(yè)面空間和頁(yè)面速度，CPU和AIX規(guī)范，消耗資源最多的進(jìn)程，計(jì)算機(jī)詳細(xì)信息和資源，網(wǎng)絡(luò)文件系統(tǒng)； II、尋找調(diào)優(yōu)的點(diǎn)，如果不能再優(yōu)化，則維持現(xiàn)狀；否則進(jìn)行優(yōu)化，繼續(xù)進(jìn)行步驟III; III、進(jìn)行hadoop集群系統(tǒng)優(yōu)化，之后再進(jìn)行統(tǒng)計(jì)測(cè)試。
全文摘要
本發(fā)明涉及一種hadoop集群性能的優(yōu)化方法，該方法采用監(jiān)視工具nmon監(jiān)視hadoop集群系統(tǒng)的性能指標(biāo)；所述方法包括下述步驟A、安裝監(jiān)視工具nmon；B、運(yùn)行hadoop集群系統(tǒng)；C、根據(jù)運(yùn)行過程中nmon工具的性能反饋，對(duì)hadoop集群參數(shù)進(jìn)行調(diào)整。該方法能夠監(jiān)測(cè)CPU的使用率，內(nèi)存使用情，內(nèi)核統(tǒng)計(jì)信息和運(yùn)行隊(duì)列信，磁盤I/O速度、傳輸和讀/寫比，文件系統(tǒng)中的可用空，磁盤適配，網(wǎng)絡(luò)I/O速度、傳輸和讀/寫比率，頁(yè)面空間和頁(yè)面速度，CPU和AIX規(guī)范，消耗資源最多的進(jìn)程，計(jì)算機(jī)詳細(xì)信息和資源，網(wǎng)絡(luò)文件系統(tǒng)等。實(shí)時(shí)準(zhǔn)確的定位系統(tǒng)性能瓶頸，能夠快速實(shí)現(xiàn)對(duì)系統(tǒng)整體的性能優(yōu)化。該方法能夠使工程師的工作更有針對(duì)性，極大的減少了盲目的試探。
文檔編號(hào)G06F11/30GK102929667SQ20121041030
公開日2013年2月13日申請(qǐng)日期2012年10月24日優(yōu)先權(quán)日2012年10月24日
發(fā)明者馬慶懷申請(qǐng)人:曙光信息產(chǎn)業(yè)(北京)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬慶懷
技術(shù)所有人：曙光信息產(chǎn)業(yè)（北京）有限公司
我是此專利的發(fā)明人

上一篇：一種寄存器分配方法、系統(tǒng)及處理器的制作方法
上一篇：一種電動(dòng)汽車運(yùn)行特性建模分析方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

hadoop集群環(huán)境搭建相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種hadoop集群性能的優(yōu)化方法