亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于Linux的HPC作業(yè)調(diào)度實現(xiàn)高可用的方法

文檔序號:9708150閱讀:2553來源:國知局
一種基于Linux的HPC作業(yè)調(diào)度實現(xiàn)高可用的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及高性能集群的作業(yè)調(diào)度系統(tǒng)技術(shù)領(lǐng)域,具體涉及一種基于Linux的HPC作業(yè)調(diào)度實現(xiàn)高可用的方法,通過綜合高性能作業(yè)調(diào)度器、Linux網(wǎng)絡(luò)文件系統(tǒng)機制、資源同步、資源監(jiān)控等主流方法,實現(xiàn)在高性能集群中非常重要的作業(yè)調(diào)度系統(tǒng)的高可用功能,使高性能核心作業(yè)提交業(yè)務(wù)不中斷。
【背景技術(shù)】
[0002]高性能集群的作業(yè)調(diào)度系統(tǒng)作為高性能計算的核心功能,一直以來被企業(yè)和用戶高度重視。目前主流的高性能作業(yè)調(diào)度器(或稱之為集群資源管理器)包括IBM的LSF,開源的Torque等。在集群的正常運行過程中,考慮到集群業(yè)務(wù)不能中斷的需求,通常需要兩個服務(wù)器互備。在高性能集群使用中,需要考慮到更多服務(wù)需求,特別是作業(yè)調(diào)度器的互備功會泛。
[0003]隨著云計算,互聯(lián)網(wǎng),大數(shù)據(jù)的飛速發(fā)展,人們對機器的性能要求越來越高,特別是對集群高可用性的關(guān)注。高可用性通常里描述一個系統(tǒng)經(jīng)過專門設(shè)計,盡可能減少停工時間,從而保證集群業(yè)務(wù)的連續(xù)性。通常高可用有三種工作方式:主從方式、雙機雙工方式、集群工作方式。
[0004]( 1)主從方式:主機工作,備機監(jiān)控。當(dāng)主機失效時,服務(wù)切換到備機;當(dāng)主機恢復(fù)后,服務(wù)回切到主機。
[0005](2)雙機雙工方式:兩臺主機同時運行各自的服務(wù)工作相互監(jiān)控,并且能保證一臺失效后,另一臺能接手。
[0006](3)集群工作方式:集群內(nèi)部多臺主機一起工作,各自運行一個或多個服務(wù),任意主機失效后其業(yè)務(wù)都可以被其他主機接管。
[0007]Torque作業(yè)調(diào)度器做為集群作業(yè)調(diào)度系統(tǒng),作業(yè)管理又稱為工作負載管理,負載共享或負載管理。它有效地管理系統(tǒng)中的各種資源,以及用戶提交的作業(yè)。目的是為了充分利用集群的軟硬件資源及寶貴的CPU時間,有效地管理集群,合理地調(diào)度作業(yè),使系統(tǒng)具有高的吞吐率和利用率。
[0008]DRBD是一個塊設(shè)備,用來配置高可用集群。其主要思想是通過網(wǎng)絡(luò)實現(xiàn)整個塊設(shè)備鏡像的方式,可以認為一個基于網(wǎng)絡(luò)的raidl。
[0009]HEARTBEAT作為常用的資源管理監(jiān)控軟件,通過配置節(jié)點之間的心跳鏈路(監(jiān)控鏈路),實現(xiàn)高可用方案中的關(guān)鍵功能,即服務(wù)的監(jiān)控與啟動,資源的掛載,失效切換。

【發(fā)明內(nèi)容】

[0010]本發(fā)明要解決的技術(shù)問題是:為了解決上述問題,提供一種基于Linux的HPC作業(yè)調(diào)度實現(xiàn)高可用的方法。
[0011]本發(fā)明所采用的技術(shù)方案為:
一種基于Linux的HPC作業(yè)調(diào)度實現(xiàn)高可用的方法,所述方法在開源的Torque調(diào)度器互備功能的基礎(chǔ)上,通過DRBD+HEARTBEAT方式,將Torque的相關(guān)配置文件和路徑共享,最終通過浮動IP以及NFS實現(xiàn)雙機互備的完整功能。
[0012]所述方法包括:1)集群高可用性;2)Torque資源管理器;3)DRBD+HEARTBEAT方案;其中:
1)集群高可用性:集群是由一系列獨立的計算機,通過高速互聯(lián)網(wǎng)路連接在一起,通過統(tǒng)一的管理對外提供服務(wù)的計算機組;集群高可用性通常里描述一個系統(tǒng)經(jīng)過專門設(shè)計,盡可能減少停工時間,從而保證集群業(yè)務(wù)的連續(xù)性;
2)TorqUe資源管理器:對集群中的cpu,內(nèi)存計算資源、網(wǎng)絡(luò)、存儲資源統(tǒng)一管理和調(diào)度,同時具有對當(dāng)前集群資源的負載情況、工作狀態(tài)監(jiān)控的功能;
3)DRBD+HEARTBEAT方案:DRK)是實現(xiàn)資源同步的主流軟件,HEARTBEAT是實現(xiàn)互備資源監(jiān)控的主流軟件,兩者構(gòu)成一個比較成熟的雙機互備方案。
[0013]所述方法采用的高可用方案為雙機主備方案,部署步驟如下:
根據(jù)Torque+Maui的部署方式,所述Torque調(diào)度器環(huán)境分為: server端,部署高可用的調(diào)度器服務(wù)節(jié)點;
client端,部署調(diào)度器提交作業(yè)服務(wù)節(jié)點; mom端,部署調(diào)度器運行節(jié)點;
其中:
1)浮動IP,提供調(diào)度器的server端的訪問路徑和端口;
2)NFS服務(wù),提供調(diào)度器所需的配置文件存放路徑;
3)NTP服務(wù),提供調(diào)度器以及整個集群的時間同步功能。
[0014]所述方法具體操作過程如下:
1)配置hosts文件,將所有客戶端節(jié)點的信息都寫入到hosts文件,并保證節(jié)點間可相互實現(xiàn)無密碼訪問;
2)配置NTP時間同步服務(wù),作為server端的主服務(wù)器和備服務(wù)器必須同步以保證高可用的正常功能;
3)配置HEARTBEAT’Heartbeat主要負責(zé)監(jiān)控drbd資源,失效切換和浮動IP設(shè)置;
4)配置Torque,安裝Torque之前要確定安裝位置,要確定共享存儲的掛載情況。
[0015]所述共享存儲的掛載情況:兩臺互備機器共享一套NAS存儲,設(shè)置heartbeat對服務(wù)進行監(jiān)控。
[0016]所述共享存儲的掛載情況:兩臺互備機器沒有共享NAS存儲,需要配置drbd構(gòu)建方案,配置DRBD,使用DRBD為調(diào)度器的server端節(jié)點提供共享存儲空間,用來存放roS和maui的配置文件,并為PBS提供lock_f ile_update_time,lock_f ile,lock_f ile_check_time和server_priv共享存儲空間。
[0017]drbd配置如下:
安裝DRK);
編輯配置文件/ etc/drbd.conf ;
初始化drbd;
啟動drbd服務(wù);
設(shè)置主從關(guān)系。
[0018]配置HEARTBEAT過程如下:
安裝 heartbeat ;
配置 HEARTBEAT 文件 ha.cf ;
配置 / etc/heartbeat/haresources 文件;
開啟服務(wù)。
[0019]配置Torque過程如下:
關(guān)閉防火墻和selinux;
設(shè)置Torque環(huán)境變量;
安裝 Torque;
配置 Torque;
開啟服務(wù)。
[0020]所述方法測試結(jié)果包括失效切換測試:
在server2上通過nfs掛載浮動IP,然后通過關(guān)閉serverl節(jié)點模擬宕機,然后再打開serverl節(jié)點模擬恢復(fù),觀察server2在這個過程中掛載點的變化以及浮動IP的變化:
關(guān)閉serverl節(jié)點,看到掛載點仍然在且server2出現(xiàn)浮動IP,證明了nfs業(yè)務(wù)不中斷;重啟serverl節(jié)點,看到serverl重新掌控了drbdO這個設(shè)備的使用權(quán),server2的掛載點仍然存在。
[0021]本發(fā)明的有益效果為:
本發(fā)明通過綜合高性能資源管理器、Linux網(wǎng)絡(luò)文件系統(tǒng)機制、資源同步、資源監(jiān)控等方法,實現(xiàn)在高性能集群中非常重要的作業(yè)調(diào)度系統(tǒng)的高可用功能,使高性能核心作業(yè)提交業(yè)務(wù)不中斷。本發(fā)明的實現(xiàn)可以幫助指導(dǎo)高性能從業(yè)人員在售前方案規(guī)劃,售中方案實施過程,具有一定的參考價值。
【附圖說明】
[0022]圖1為本發(fā)明雙機主備方案拓撲示意圖;
圖2為本發(fā)明集群存儲方案一示意圖;
圖3為本發(fā)明集群存儲方案二示意圖;
圖4為Torque架構(gòu)和組成。
【具體實施方式】
[0023]下面根據(jù)說明書附圖,結(jié)合【具體實施方式】對本發(fā)明進一步說明:
實施例1:
一種基于Linux的HPC作業(yè)調(diào)度實現(xiàn)高可用的方法,所述方法在開源的Torque調(diào)度器互備功能的基礎(chǔ)上,通過DRBD+HEARTBEAT方式,將Torque的相關(guān)配置文件和路徑共享,最終通過浮動IP以及NFS實現(xiàn)雙機互備的完整功能。
[0024]實施例2:
在實施例1的基礎(chǔ)上,本實施例所述方法包括:1)集群高可用性;2)T0rque資源管理器;3)DRBD+HEARTBEAT方案;其中:
1)集群高可用性:集群是由一系列獨立的計算機,通過高速互聯(lián)網(wǎng)路連接在一起,通過統(tǒng)一的管理對外提供服務(wù)的計算機組;集群高可用性通常里描述一個系統(tǒng)經(jīng)過專門設(shè)計,盡可能減少停工時間,從而保證集群業(yè)務(wù)的連續(xù)性;
2)TorqUe資源管理器:對集群中的cpu,內(nèi)存等計算資源、網(wǎng)絡(luò)、存儲資源統(tǒng)一管理和調(diào)度,同時具有對當(dāng)前集群資源的負載情況、工作狀態(tài)監(jiān)控的功能,如圖4所示;
3)DRBD+HEARTBEAT方案:DRK)是實現(xiàn)資源同步的主流軟件,HEARTBEAT是實現(xiàn)互備資源監(jiān)控的主流軟件,兩者構(gòu)成一個比較成熟的雙機互備方案。
[0025]實施例3:
如圖1所示,在實施例2的基礎(chǔ)上,本實施例所述方法采用的高可用方案為雙機主備方案,部署步驟如下:
根據(jù)Torque+Maui的部署方式,所述Torque調(diào)度器環(huán)境分為: server端,部署高可用的調(diào)度器服務(wù)節(jié)點(pbs_server); c 1 i ent端,部署調(diào)度器提交作業(yè)服務(wù)節(jié)點(trqauthd); mom端,部署調(diào)度器運行節(jié)點(pbs_mom);
其中:
1)浮動IP,提供調(diào)度器的server端的訪問路徑和端口;
2)NFS服務(wù),提供調(diào)度器所需的配置文件存放路徑;
3)NTP服務(wù),提供調(diào)度器以及整個集群的時間同步功能。
[0026]實施例4:
在實施例3的基礎(chǔ)上,本實施例所述方法具體操作過程如下:
1)配置hosts文件,將所有客戶端節(jié)點的信息都寫入到hosts文件,并保證節(jié)點間可相互實現(xiàn)無密碼訪問;
2)配置NTP時間同步服務(wù),作為server端的主服務(wù)器和備服務(wù)器必須同步以保證高可用的正常功能;
3)配置HEARTBEAT’Heartbeat主要負責(zé)監(jiān)控drbd資源,失效切換和浮動IP設(shè)置;
4)配置Torque,安裝Torque之前要確定安裝位置,這里首先要確定共享存儲的掛載情況。
[0027]實施例5:
如圖2所示,在實施例4的基礎(chǔ)上,本實施例所述共享存儲的掛載情況:兩臺互備機器共享一套NAS存儲,這種方案可以不用做drbd,只需要設(shè)置heartbeat對服務(wù)進行監(jiān)控。
[0028]實施例6:
如圖3所示,在實施例4的基礎(chǔ)上,本實施例所述共享存儲的掛載情況:兩臺互備機器沒有共享NAS存儲,需要配置drbd構(gòu)建方案,配置DRBD,使用DRBD為調(diào)度器的server端節(jié)點提供共享存儲空間,用來存放PBS和maui的配置文件,并為PBS提供1 ock_f i 1 e_update_t ime,lock_f ile,lock_f ile_check_time 和 server_priv 等共享存儲空間。
[0029]實施例7:
在實施例6的基礎(chǔ)上,本實施例drbd配置如下:
安裝DRK)
tar zxvf drbd-^.tar.gzmakemake install
編輯配置文件/ etc/drbd.conf
# You can find an example in /usr/share/doc/drbd.../drbd.conf.example#include 〃drbd.d/global_common.conf〃;
#include 〃drbd.dA.res〃;global {
usage-count yes; @是否參加DRBD使用者統(tǒng)計,默認是yes
}
common { syncer { rate 1000M; } }
@設(shè)置主備節(jié)點同步時的網(wǎng)絡(luò)速率最大值,單位是字節(jié) resource rO {
一個DRBD設(shè)備(S卩:/dev/drbdX),叫做一個〃資源〃,里面包含一個DRK)設(shè)備的主備節(jié)點的的ip信息,底層存儲設(shè)備名稱,設(shè)備大小,meta信息存放方式,drbd對外提供的設(shè)備名等等;
Protocol C@收到寫入確認就認為完成了寫入操作
net {
cram-hmac-alg shal; @設(shè)置主備機之間通信使用的信息算法 shared-secret 〃FooFunFactory〃;
}
meta-disk internal;device drbdO;on serverl{
disk /dev/sdc; //對應(yīng)節(jié)點的設(shè)備名稱
}
on server2 {
disk /dev/sda; //對應(yīng)節(jié)點的設(shè)備名稱address 192.168.9.1:7789;
}
}
初始化drbd
[rootOserverl # drbdadm create-md rOWriting meta data...1nitializing activity logNOT initializing bitmap
New d
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1