一種lustre的oss高可用集群方案的制作方法
【專利摘要】本發(fā)明公開了一種LUSTRE的OSS高可用集群方案,屬于計算機(jī)服務(wù)器系統(tǒng)領(lǐng)域,該方案步驟如下:1)將整個文件系統(tǒng)建立;2)在每個OSS上安裝pacemaker軟件以及corosync軟件;3)在命令行中對此高可用集群添加資源;4)配置完成后,啟動corosync和pacemaker服務(wù),模擬失敗節(jié)點(diǎn);5)在修復(fù)失敗節(jié)點(diǎn),然后查看資源是否可以重新添加回來,如果可以,說明此方案可行并執(zhí)行成功。本發(fā)明能實(shí)現(xiàn)OSS的故障轉(zhuǎn)移,并且能避免drbd出現(xiàn)數(shù)據(jù)同步問題,并可安全高效的實(shí)現(xiàn)的故障轉(zhuǎn)移,并保證數(shù)據(jù)的正確無誤;能方便用戶很快的按照自己的意愿添加ost資源,并快速刪除和添加資源。
【專利說明】—種LUSTRE的OSS高可用集群方案
[0001]
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及計算機(jī)服務(wù)器系統(tǒng)領(lǐng)域,具體地說是一種LUSTRE的OSS高可用集群方案。
【背景技術(shù)】
[0003]Lustre是一種平行分布式文件系統(tǒng),通常使用在大型計算機(jī)集群與超級計算機(jī)之上。OSS (Open Storage Service的簡稱)是支持任意數(shù)據(jù)類型的存儲服務(wù),支持任意時間、地點(diǎn)的數(shù)據(jù)上傳和下載,OSS中每個存儲對象(object)由名稱、內(nèi)容、描述三部分組成。
[0004]Pacemaker是一個集群管理器。它利用首選集群基礎(chǔ)設(shè)施(OpenAIS或heartbeat)提供的消息和成員能力,由輔助節(jié)點(diǎn)和系統(tǒng)進(jìn)行故障檢測和回收,實(shí)現(xiàn)性群集服務(wù)(亦稱資源)的高可用性。它可以做幾乎任何規(guī)模的集群,并帶有一個強(qiáng)大的依賴模式,讓管理員能夠準(zhǔn)確地表達(dá)的群集資源之間的關(guān)系(包括順序和位置)。幾乎任何可以編寫的腳本,都可以作為管理起搏器集群的一部分。
[0005]Corosync是集群管理套件的一部分,它在傳遞信息的時候可以通過一個簡單的配置文件來定義信息傳遞的方式和協(xié)議等。它是2008年推出,但其實(shí)它并不是一個真正意義上的新軟件,在2002年的時候有一個項(xiàng)目Openais,它由于過大,分裂為兩個子項(xiàng)目,其中可以實(shí)現(xiàn)HA心跳信息傳輸?shù)墓δ芫褪荂orosync,它的代碼60%左右來源于Openais.Corosync可以提供一個完整的HA功能,但是要實(shí)現(xiàn)更多,更復(fù)雜的功能,那就需要使用Openais 了。Corosync是未來的發(fā)展方向。在以后的新項(xiàng)目里,一般采用Corosync,而hb_gui可以提供很好的HA管理功能,可以實(shí)現(xiàn)圖形化的管理。另外相關(guān)的圖形化有RHCS的套件luci+ricci,當(dāng)然還有基于java開發(fā)的LCMC集群管理工具。
[0006]Lustre針對大文件的讀寫作了優(yōu)化,可以為集群系統(tǒng)提供高性能的1/0吞吐率、全局?jǐn)?shù)據(jù)共享環(huán)境、數(shù)據(jù)存儲位置獨(dú)立性和對節(jié)點(diǎn)失效提供冗余機(jī)制,以及當(dāng)集群重配置或者服務(wù)器和網(wǎng)絡(luò)失效時的快速恢復(fù)服務(wù),較好地滿足了高性能計算集群系統(tǒng)的需要。但是現(xiàn)在的lustre文件系統(tǒng)中,oss很少會做高可用,但是這部分應(yīng)該也是迫切需要的,如果在大容量的lustre文件系統(tǒng)中,oss的數(shù)量會增多,所以oss出故障的幾率會增加,并且如果有部分?jǐn)?shù)據(jù)正好是用戶要讀取的內(nèi)容,則可能會導(dǎo)致客戶無法讀取源數(shù)據(jù),進(jìn)而無法進(jìn)行相關(guān)數(shù)據(jù)的提取和整合。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的技術(shù)任務(wù)是提供一種LUSTRE的OSS高可用集群方案。
[0008]本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的,該方案步驟如下:
I)按照正常lustre的安裝過程,將整個文件系統(tǒng)建立,使得所有的ost在每個oss中都可以看得到,并進(jìn)行格式化; 2)在每個OSS上安裝pacemaker軟件以及corosync軟件,修改corosync的配置文件,將所有OSS加入到pacemaker高可用集群,并設(shè)置心跳IP地址;
3)在命令行中對此高可用集群添加資源;
4)配置完成后,啟動corosync和pacemaker服務(wù),然后對集群進(jìn)行failover測試,模擬失敗節(jié)點(diǎn),查看是否其他節(jié)點(diǎn)是否可接受pacemaker中的失敗節(jié)點(diǎn)的資源;
5)在修復(fù)失敗節(jié)點(diǎn),然后查看資源是否可以重新添加回來,如果可以,說明此方案可行并執(zhí)行成功。
[0009]所述的步驟I)中格式化OST時需指定failover的節(jié)點(diǎn)。
[0010]所述的步驟2)為將需要切換的節(jié)點(diǎn)中的資源,即每個OSS的ost,加入到pacemaker 中。
[0011]本發(fā)明的一種LUSTRE的OSS高可用集群方案和現(xiàn)有技術(shù)相比,能實(shí)現(xiàn)OSS的故障轉(zhuǎn)移,并且能避免drbd出現(xiàn)數(shù)據(jù)同步問題,并可安全高效的實(shí)現(xiàn)的故障轉(zhuǎn)移,并保證數(shù)據(jù)的正確無誤;能方便用戶很快的按照自己的意愿添加ost資源,并快速刪除和添加資源。
【專利附圖】
【附圖說明】
[0012]附圖1為一種LUSTRE的OSS高可用集群方案的Lustre的組成示意圖。
[0013]附圖2為一種LUSTRE的OSS高可用集群方案的pacemaker的關(guān)系模型及調(diào)度過程不意圖。
【具體實(shí)施方式】
[0014]實(shí)施例1:
按照正常lustre的安裝過程,將整個文件系統(tǒng)建立,使得所有的ost在每個oss中都可以看得到,并進(jìn)行格式化,格式化OST時需指定failover的節(jié)點(diǎn);在每個OSS上安裝pacemaker軟件以及corosync軟件,修改corosync的配置文件,將所有OSS加入到pacemaker高可用集群,并設(shè)置心跳IP地址;
在命令行中對此高可用集群添加資源;配置完成后,啟動corosync和pacemaker服務(wù),然后對集群進(jìn)行failover測試,模擬失敗節(jié)點(diǎn),查看是否其他節(jié)點(diǎn)是否可接受pacemaker中的失敗節(jié)點(diǎn)的資源;在修復(fù)失敗節(jié)點(diǎn),然后查看資源是否可以重新添加回來,如果可以,說明此方案可行并執(zhí)行成功。
[0015]實(shí)施例2:
按照正常lustre的安裝過程,將整個文件系統(tǒng)建立,使得所有的ost在每個oss中都可以看得到,并進(jìn)行格式化,格式化OST時需指定failover的節(jié)點(diǎn);在每個OSS上安裝pacemaker軟件以及corosync軟件,修改corosync的配置文件,將所有OSS加入到pacemaker高可用集群,并設(shè)置心跳IP地址;
在命令行中對此高可用集群添加資源,將需要切換的節(jié)點(diǎn)中的資源,即每個OSS的ost,加入到pacemaker中;配置完成后,啟動corosync和pacemaker服務(wù),然后對集群進(jìn)行failover測試,模擬失敗節(jié)點(diǎn),查看是否其他節(jié)點(diǎn)是否可接受pacemaker中的失敗節(jié)點(diǎn)的資源;在修復(fù)失敗節(jié)點(diǎn),然后查看資源是否可以重新添加回來,如果可以,說明此方案可行并執(zhí)行成功。
【權(quán)利要求】
1.一種LUSTRE的OSS高可用集群方案,其特征在于,該方案步驟如下: 1)按照正常lustre的安裝過程,將整個文件系統(tǒng)建立,使得所有的ost在每個oss中都可以看得到,并進(jìn)行格式化; 2)在每個OSS上安裝pacemaker軟件以及corosync軟件,修改corosync的配置文件,將所有OSS加入到pacemaker高可用集群,并設(shè)置心跳IP地址; 3)在命令行中對此高可用集群添加資源; 4)配置完成后,啟動corosync和pacemaker服務(wù),然后對集群進(jìn)行failover測試,模擬失敗節(jié)點(diǎn),查看是否其他節(jié)點(diǎn)是否可接受pacemaker中的失敗節(jié)點(diǎn)的資源; 5)在修復(fù)失敗節(jié)點(diǎn),然后查看資源是否可以重新添加回來,如果可以,說明此方案可行并執(zhí)行成功。
2.根據(jù)權(quán)利要求1所述的一種LUSTRE的OSS高可用集群方案,其特征在于,所述的步驟I)中格式化OST時需指定failover的節(jié)點(diǎn)。
3.根據(jù)權(quán)利要求1所述的一種LUSTRE的OSS高可用集群方案,其特征在于,所述的步驟2)為將需要切換的節(jié)點(diǎn)中的資源,即每個OSS的ost,加入到pacemaker中。
【文檔編號】H04L12/24GK104023061SQ201410252060
【公開日】2014年9月3日 申請日期:2014年6月10日 優(yōu)先權(quán)日:2014年6月10日
【發(fā)明者】王冬冬 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司