一種高可用集群資源監(jiān)控方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及Iinux操作系統(tǒng)下高可用集群資源的監(jiān)控技術(shù)領(lǐng)域,特別涉及一種高可用集群資源監(jiān)控方法。
【背景技術(shù)】
[0002]信息化建設(shè)的不斷推進(jìn),各個(gè)企事業(yè)單位的活動越來越多的依賴于其關(guān)鍵的業(yè)務(wù)信息系統(tǒng),這些業(yè)務(wù)信息系統(tǒng)對整個(gè)機(jī)構(gòu)的運(yùn)營和發(fā)展起著至關(guān)重要的作用,一旦發(fā)生宕機(jī)故障或應(yīng)用停機(jī),將給機(jī)構(gòu)帶來巨大的經(jīng)濟(jì)損失。
[0003]可見,對那些需要保障信息安全和提供不間斷的信息服務(wù)的機(jī)構(gòu)來說,業(yè)務(wù)系統(tǒng)的容錯性和不間斷性顯得尤為重要。如何保障各種關(guān)鍵應(yīng)用持續(xù)運(yùn)營,達(dá)到永續(xù)經(jīng)營的良性循環(huán),已成為當(dāng)今企事業(yè)單位和IT領(lǐng)域急需解決的關(guān)鍵問題,計(jì)算資源的高可用變得越來越重要。尤其目前隨著國產(chǎn)化的推進(jìn),在國產(chǎn)平臺上實(shí)現(xiàn)高可用集群變得越來越重要。
[0004]針對國產(chǎn)平臺上高可用集群的管理,為了實(shí)現(xiàn)不間斷信息服務(wù),保障信息安全,本發(fā)明提出了一種高可用集群資源監(jiān)控方法。
【發(fā)明內(nèi)容】
[0005]本發(fā)明為了彌補(bǔ)現(xiàn)有技術(shù)的缺陷,提供了一種安全穩(wěn)定、高效的高可用集群資源監(jiān)控方法。
[0006]本發(fā)明是通過如下技術(shù)方案實(shí)現(xiàn)的:
一種高可用集群資源監(jiān)控方法,其特征在于:所述基于國產(chǎn)平臺的集群節(jié)點(diǎn)上修改、編譯并安裝有心跳軟件,集群資源層軟件和集群圖形化管理軟件;同時(shí),在基于國產(chǎn)平臺的集群中設(shè)置主節(jié)點(diǎn),備份節(jié)點(diǎn),管理節(jié)點(diǎn)和監(jiān)控節(jié)點(diǎn),所述備份節(jié)點(diǎn)隨時(shí)和主節(jié)點(diǎn)保持信息同步,當(dāng)主節(jié)點(diǎn)發(fā)生宕機(jī)故障時(shí),所述備份節(jié)點(diǎn)及時(shí)接管主節(jié)點(diǎn)工作;所述管理節(jié)點(diǎn)負(fù)責(zé)收集各監(jiān)控節(jié)點(diǎn)的發(fā)送的狀態(tài)信息,將狀態(tài)變化信息發(fā)送給其他各節(jié)點(diǎn),還根據(jù)整個(gè)集群中的負(fù)載情況進(jìn)行決策處理,通知實(shí)施引擎進(jìn)行迀移;所述監(jiān)控節(jié)點(diǎn)負(fù)責(zé)接收狀態(tài)信息。
[0007]所述圖形化集群管理軟件用于在主節(jié)點(diǎn)服務(wù)器上部署并啟動國產(chǎn)平臺的浮動IP、Apache服務(wù)、MySql數(shù)據(jù)庫服務(wù)、IP-San存儲服務(wù)等服務(wù)。
[0008]所述高可用集群即支持單活-主從模式,又支持雙活-主從模式,所述單活-主從模式是指主節(jié)點(diǎn)處于工作狀態(tài),而備用節(jié)點(diǎn)處于備用狀態(tài),所述雙活-主從模式是指主節(jié)點(diǎn)和備用節(jié)點(diǎn)均處于工作狀態(tài)。
[0009]本發(fā)明高可用集群資源監(jiān)控方法,包括以下步驟:
(1)在國產(chǎn)平臺上修改、編譯、安裝心跳軟件并進(jìn)行,集群管理軟件和圖形化集群管理軟件,使其可以運(yùn)行在國產(chǎn)平臺上;
(2)修改集群配置文件/etc/hosts,添加主節(jié)點(diǎn),備份節(jié)點(diǎn)以及其IP等信息;
(3)配置ssh,在本地創(chuàng)建密鑰,并在備份節(jié)點(diǎn)上安裝ssh密鑰;
(4)主節(jié)點(diǎn)上心跳軟件發(fā)出心跳,修改主節(jié)點(diǎn)的配置文件,并將配置文件傳送至備份節(jié)占.(5)所述監(jiān)控節(jié)點(diǎn)監(jiān)聽到國產(chǎn)平臺主節(jié)點(diǎn)上心跳軟件發(fā)出的心跳,當(dāng)所述監(jiān)控節(jié)點(diǎn)監(jiān)聽到心跳時(shí),開始監(jiān)控狀態(tài)信息,否則通知所述備份節(jié)點(diǎn)接管主節(jié)點(diǎn)工作;
(6)當(dāng)所述監(jiān)控節(jié)點(diǎn)監(jiān)測到狀態(tài)信息變更時(shí),將狀態(tài)信息保存到該節(jié)點(diǎn)上的CIB文件中,并將狀態(tài)信息發(fā)送給管理節(jié)點(diǎn);當(dāng)所述監(jiān)控節(jié)點(diǎn)沒有監(jiān)測到狀態(tài)信息變更時(shí),則返回步驟(5),監(jiān)聽心跳;
(7)所述管理節(jié)點(diǎn)接收到監(jiān)控節(jié)點(diǎn)的發(fā)送的狀態(tài)信息后,保存變更信息,并打包發(fā)送給各節(jié)點(diǎn)將狀態(tài)變化信息發(fā)送給其他各節(jié)點(diǎn),并根據(jù)整個(gè)集群中的負(fù)載情況進(jìn)行決策處理,通知實(shí)施引擎進(jìn)行迀移;
(8)所述監(jiān)控節(jié)點(diǎn)返回步驟(5),繼續(xù)監(jiān)聽心跳,否則結(jié)束進(jìn)程。
[0010]本發(fā)明的有益效果是:該高可用集群資源監(jiān)控方法,使備份節(jié)點(diǎn)隨時(shí)和主節(jié)點(diǎn)保持信息同步,當(dāng)主節(jié)點(diǎn)發(fā)生宕機(jī)故障時(shí),備份節(jié)點(diǎn)能夠及時(shí)接管主節(jié)點(diǎn)工作,能夠保障國產(chǎn)平臺上各種關(guān)鍵應(yīng)用的信息安全和不間斷持續(xù)運(yùn)營,實(shí)現(xiàn)永續(xù)經(jīng)營的良性循環(huán)。
【附圖說明】
[0011]附圖1為高可用集群資源監(jiān)控流程示意圖;
附圖2為本發(fā)明單活模式集群部署示意圖;
附圖3為本發(fā)明Ν+Μ多節(jié)點(diǎn)集群部署示意圖。
【具體實(shí)施方式】
[0012]附圖為本發(fā)明的一種具體實(shí)施例,下面結(jié)合附圖對本發(fā)明進(jìn)行詳細(xì)說明。
[0013]該高可用集群資源監(jiān)控方法,所述基于國產(chǎn)平臺的集群節(jié)點(diǎn)上修改、編譯并安裝有心跳軟件,集群資源層軟件和集群圖形化管理軟件;同時(shí),在基于國產(chǎn)平臺的集群中設(shè)置主節(jié)點(diǎn),備份節(jié)點(diǎn),管理節(jié)點(diǎn)和監(jiān)控節(jié)點(diǎn),所述備份節(jié)點(diǎn)隨時(shí)和主節(jié)點(diǎn)保持信息同步,當(dāng)主節(jié)點(diǎn)發(fā)生宕機(jī)故障時(shí),所述備份節(jié)點(diǎn)及時(shí)接管主節(jié)點(diǎn)工作;所述管理節(jié)點(diǎn)負(fù)責(zé)收集各監(jiān)控節(jié)點(diǎn)的發(fā)送的狀態(tài)信息,將狀態(tài)變化信息發(fā)送給其他各節(jié)點(diǎn),還根據(jù)整個(gè)集群中的負(fù)載情況進(jìn)行決策處理,通知實(shí)施引擎進(jìn)行迀移;所述監(jiān)控節(jié)點(diǎn)負(fù)責(zé)接收狀態(tài)信息。
[0014]所述圖形化集群管理軟件用于在主節(jié)點(diǎn)服務(wù)器上部署并啟動國產(chǎn)平臺的浮動ΙΡ、Apache服務(wù)、MySql數(shù)據(jù)庫服務(wù)、IP-San存儲服務(wù)等服務(wù)。
[0015]所述高可用集群即支持單活-主從模式,又支持雙活-主從模式,所述單活-主從模式是指主節(jié)點(diǎn)處于工作狀態(tài),而備用節(jié)點(diǎn)處于備用狀態(tài),所述雙活-主從模式是指主節(jié)點(diǎn)和備用節(jié)點(diǎn)均處于工作狀態(tài)。
[0016]本發(fā)明高可用集群資源監(jiān)控方法,包括以下步驟:
(1)在國產(chǎn)平臺上修改、編譯、安裝心跳軟件并進(jìn)行,集群管理軟件和圖形化集群管理軟件,使其可以運(yùn)行在國產(chǎn)平臺上;
(2)修改集群配置文件/etc/hosts,添加主節(jié)點(diǎn),備份節(jié)點(diǎn)以及其IP等信息;
(3)配置ssh,在本地創(chuàng)建密鑰,并在備份節(jié)點(diǎn)上安裝ssh密鑰;
(4)主節(jié)點(diǎn)上心跳軟件發(fā)出心跳,修改主節(jié)點(diǎn)的配置文件,并將配置文件傳送至備份節(jié)占.V, (5)所述監(jiān)控節(jié)點(diǎn)監(jiān)聽到國產(chǎn)平臺主節(jié)點(diǎn)上心跳軟件發(fā)出的心跳,當(dāng)所述監(jiān)控節(jié)點(diǎn)監(jiān)聽到心跳時(shí),開始監(jiān)控狀態(tài)信息,否則通知所述備份節(jié)點(diǎn)接管主節(jié)點(diǎn)工作;
(6)當(dāng)所述監(jiān)控節(jié)點(diǎn)監(jiān)測到狀態(tài)信息變更時(shí),將狀態(tài)信息保存到該節(jié)點(diǎn)上的CIB文件中,并將狀態(tài)信息發(fā)送給管理節(jié)點(diǎn);當(dāng)所述監(jiān)控節(jié)點(diǎn)沒有監(jiān)測到狀態(tài)信息變更時(shí),則返回步驟(5),監(jiān)聽心跳;
(7)所述管理節(jié)點(diǎn)接收到監(jiān)控節(jié)點(diǎn)的發(fā)送的狀態(tài)信息后,保存變更信息,并打包發(fā)送給各節(jié)點(diǎn)將狀態(tài)變化信息發(fā)送給其他各節(jié)點(diǎn),并根據(jù)整個(gè)集群中的負(fù)載情況進(jìn)行決策處理,通知實(shí)施引擎進(jìn)行迀移;
(8)所述監(jiān)控節(jié)點(diǎn)返回步驟(5),繼續(xù)監(jiān)聽心跳,否則結(jié)束進(jìn)程。
[0017]在國產(chǎn)平臺上,實(shí)現(xiàn)高可用集群資源監(jiān)控,主要是監(jiān)控各集群節(jié)點(diǎn)的狀態(tài)及集群節(jié)點(diǎn)上的浮動IP、Apache服務(wù)、Drbd存儲、IP-San存儲、Orcal數(shù)據(jù)庫、Mysql數(shù)據(jù)庫等資源狀態(tài)。
[0018]所述高可用集群采用單活-主從模式,包括2臺國產(chǎn)服務(wù)器和I個(gè)共享存儲,I臺國產(chǎn)服務(wù)器作為主節(jié)點(diǎn),I臺國產(chǎn)服務(wù)器作為從節(jié)點(diǎn)。所述單活模式(Active/Passive)集群可改為雙活(Active/Active),如附圖3所示,還支持N+1和N+M等多節(jié)點(diǎn)集群備份模式。
【主權(quán)項(xiàng)】
1.一種高可用集群資源監(jiān)控方法,其特征在于:所述基于國產(chǎn)平臺的集群節(jié)點(diǎn)上修改、編譯并安裝有心跳軟件,集群資源層軟件和集群圖形化管理軟件;同時(shí),在基于國產(chǎn)平臺的集群中設(shè)置主節(jié)點(diǎn),備份節(jié)點(diǎn),管理節(jié)點(diǎn)和監(jiān)控節(jié)點(diǎn),所述備份節(jié)點(diǎn)隨時(shí)和主節(jié)點(diǎn)保持信息同步,當(dāng)主節(jié)點(diǎn)發(fā)生宕機(jī)故障時(shí),所述備份節(jié)點(diǎn)及時(shí)接管主節(jié)點(diǎn)工作;所述管理節(jié)點(diǎn)負(fù)責(zé)收集各監(jiān)控節(jié)點(diǎn)的發(fā)送的狀態(tài)信息,將狀態(tài)變化信息發(fā)送給其他各節(jié)點(diǎn),還根據(jù)整個(gè)集群中的負(fù)載情況進(jìn)行決策處理,通知實(shí)施引擎進(jìn)行迀移;所述監(jiān)控節(jié)點(diǎn)負(fù)責(zé)接收狀態(tài)信息。2.根據(jù)權(quán)利要求1所述的高可用集群資源監(jiān)控方法,其特征在于:所述圖形化集群管理軟件用于在主節(jié)點(diǎn)服務(wù)器上部署并啟動國產(chǎn)平臺的浮動IP、Apache服務(wù)、MySql數(shù)據(jù)庫服務(wù)、IP-San存儲服務(wù)等服務(wù)。3.根據(jù)權(quán)利要求1所述的高可用集群資源監(jiān)控方法,其特征在于:所述高可用集群即支持單活-主從模式,又支持雙活-主從模式,所述單活-主從模式是指主節(jié)點(diǎn)處于工作狀態(tài),而備用節(jié)點(diǎn)處于備用狀態(tài),所述雙活-主從模式是指主節(jié)點(diǎn)和備用節(jié)點(diǎn)均處于工作狀??τ O4.根據(jù)權(quán)利要求1所述的高可用集群資源監(jiān)控方法,其特征在于包括以下步驟: (1)在國產(chǎn)平臺上修改、編譯、安裝心跳軟件并進(jìn)行,集群管理軟件和圖形化集群管理軟件,使其可以運(yùn)行在國產(chǎn)平臺上; (2)修改集群配置文件/etc/hosts,添加主節(jié)點(diǎn),備份節(jié)點(diǎn)以及其IP等信息; (3)配置ssh,在本地創(chuàng)建密鑰,并在備份節(jié)點(diǎn)上安裝ssh密鑰; (4)主節(jié)點(diǎn)上心跳軟件發(fā)出心跳,修改主節(jié)點(diǎn)的配置文件,并將配置文件傳送至備份節(jié)占.V, (5)所述監(jiān)控節(jié)點(diǎn)監(jiān)聽到國產(chǎn)平臺主節(jié)點(diǎn)上心跳軟件發(fā)出的心跳,當(dāng)所述監(jiān)控節(jié)點(diǎn)監(jiān)聽到心跳時(shí),開始監(jiān)控狀態(tài)信息,否則通知所述備份節(jié)點(diǎn)接管主節(jié)點(diǎn)工作; (6)當(dāng)所述監(jiān)控節(jié)點(diǎn)監(jiān)測到狀態(tài)信息變更時(shí),將狀態(tài)信息保存到該節(jié)點(diǎn)上的CIB文件中,并將狀態(tài)信息發(fā)送給管理節(jié)點(diǎn);當(dāng)所述監(jiān)控節(jié)點(diǎn)沒有監(jiān)測到狀態(tài)信息變更時(shí),則返回步驟(5),監(jiān)聽心跳; (7)所述管理節(jié)點(diǎn)接收到監(jiān)控節(jié)點(diǎn)的發(fā)送的狀態(tài)信息后,保存變更信息,并打包發(fā)送給各節(jié)點(diǎn)將狀態(tài)變化信息發(fā)送給其他各節(jié)點(diǎn),并根據(jù)整個(gè)集群中的負(fù)載情況進(jìn)行決策處理,通知實(shí)施引擎進(jìn)行迀移; (8)所述監(jiān)控節(jié)點(diǎn)返回步驟(5),繼續(xù)監(jiān)聽心跳,否則結(jié)束進(jìn)程。
【專利摘要】本發(fā)明特別涉及一種高可用集群資源監(jiān)控方法。該高可用集群資源監(jiān)控方法,所述基于國產(chǎn)平臺的集群節(jié)點(diǎn)上修改、編譯并安裝有心跳軟件,集群資源層軟件和集群圖形化管理軟件;同時(shí),在基于國產(chǎn)平臺的集群中設(shè)置主節(jié)點(diǎn),備份節(jié)點(diǎn),管理節(jié)點(diǎn)和監(jiān)控節(jié)點(diǎn),所述備份節(jié)點(diǎn)隨時(shí)和主節(jié)點(diǎn)保持信息同步,當(dāng)主節(jié)點(diǎn)發(fā)生宕機(jī)故障時(shí),所述備份節(jié)點(diǎn)及時(shí)接管主節(jié)點(diǎn)工作。該高可用集群資源監(jiān)控方法,使備份節(jié)點(diǎn)隨時(shí)和主節(jié)點(diǎn)保持信息同步,當(dāng)主節(jié)點(diǎn)發(fā)生宕機(jī)故障時(shí),備份節(jié)點(diǎn)能夠及時(shí)接管主節(jié)點(diǎn)工作,能夠保障國產(chǎn)平臺上各種關(guān)鍵應(yīng)用的信息安全和不間斷持續(xù)運(yùn)營,實(shí)現(xiàn)永續(xù)經(jīng)營的良性循環(huán)。
【IPC分類】H04L29/08, H04L12/26, H04L12/24
【公開號】CN105141456
【申請?zhí)枴緾N201510525461
【發(fā)明人】于麗, 趙瑞東, 吳登勇, 王則陸
【申請人】山東超越數(shù)控電子有限公司
【公開日】2015年12月9日
【申請日】2015年8月25日