亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種云計算集群中節(jié)點自修復(fù)的方法

文檔序號:7777717閱讀:266來源:國知局
一種云計算集群中節(jié)點自修復(fù)的方法
【專利摘要】一種云計算集群中節(jié)點自修復(fù)的方法,它涉及云計算【技術(shù)領(lǐng)域】,它的修復(fù)方法為:(1)、云管理系統(tǒng)監(jiān)控每臺節(jié)點的運行狀態(tài);(2)、當某節(jié)點出現(xiàn)故障時,系統(tǒng)啟動故障轉(zhuǎn)移進程,該節(jié)點上的所有云虛機在其他資源充足且運行正常的節(jié)點上自動啟動;(3)、管理系統(tǒng)通過IPMI系統(tǒng)控制節(jié)點重新啟動,并檢測狀態(tài);(4)、如果啟動之后正常則該節(jié)點繼續(xù)加入集群使用;(5)、如果重啟修復(fù)失敗,則通過IPMI控制節(jié)點實現(xiàn)網(wǎng)絡(luò)啟動,然后利用云管理系統(tǒng)的自動發(fā)現(xiàn)安裝功能給該節(jié)點重裝系統(tǒng)和設(shè)置,待設(shè)置完成后加入集群;(6)、如果修復(fù)失敗則通過控制臺發(fā)布警報通知管理員。它降低服務(wù)器管理員的工作量與工作時間,節(jié)省人力資源成本。
【專利說明】一種云計算集群中節(jié)點自修復(fù)的方法
【技術(shù)領(lǐng)域】:
[0001]本發(fā)明涉及云計算【技術(shù)領(lǐng)域】,具體涉及一種云計算集群中節(jié)點自修復(fù)的方法。
【背景技術(shù)】:
[0002]隨著互聯(lián)網(wǎng)技術(shù)與應(yīng)用的不斷發(fā)展,承載互聯(lián)網(wǎng)服務(wù)的數(shù)據(jù)中心規(guī)模也再不斷擴大,一些大型的數(shù)據(jù)中心服務(wù)器數(shù)量已有數(shù)百臺,甚至上千臺,面對如此龐大的服務(wù)器維護工作,服務(wù)器管理員的一大部分時間都被服務(wù)器重啟這樣簡單操作所占用,服務(wù)器管理員迫切需求一種技術(shù)方法可以實現(xiàn)服務(wù)器自檢與重啟,從而降低服務(wù)器管理與維護繁雜度,并更好的實現(xiàn)服務(wù)器管理人員的人力資源分配與優(yōu)化。
[0003]參看圖1,云管理系統(tǒng)中有多臺服務(wù)器用于承載云虛機運行,這些服務(wù)器被組成一個集群,而其中的每臺服務(wù)器被稱作節(jié)點。集群中的某個節(jié)點出現(xiàn)故障時,云管理系統(tǒng)將會自動啟用故障轉(zhuǎn)移功能,即將該臺服務(wù)器上運行的云虛機全部轉(zhuǎn)移到運行良好的設(shè)備上,從而保證云虛機的正常運行。對于出現(xiàn)故障的服務(wù)器,管理人員需要手動檢測并重啟,服務(wù)器重啟且正常運行后便可以再次用于承載云虛機。
[0004]現(xiàn)有的云管理系統(tǒng)中集群節(jié)點自動化部署技術(shù),當發(fā)現(xiàn)集群中節(jié)點宕機之后會啟動故障轉(zhuǎn)移程序,然后需要管理員去檢測故障節(jié)點并修復(fù)。對于規(guī)模龐大的云管理系統(tǒng)集群,這樣的技術(shù)管理將耗費大量的維護成本。

【發(fā)明內(nèi)容】
:
[0005]本發(fā)明的目的是提供一種云計算集群中節(jié)點自修復(fù)的方法,它基于現(xiàn)有的云管理系統(tǒng)中集群節(jié)點自動化部署技術(shù),以及IPMI技術(shù),通過將這兩種技術(shù)優(yōu)化結(jié)合,并采用一定技術(shù)手段來使之更符合現(xiàn)在的市場需求,實現(xiàn)云管理系統(tǒng)中集群節(jié)點的自動修復(fù)功能,從而在保證云管理系統(tǒng)運行正常且不被影響的情況下,降低服務(wù)器管理員的工作量與工作時間,節(jié)省人力資源成本。
[0006]為了解決【背景技術(shù)】所存在的問題,本發(fā)明是采用以下技術(shù)方案:它的修復(fù)方法為:
1、云管理系統(tǒng)監(jiān)控每臺節(jié)點的運行狀態(tài);2、當某節(jié)點出現(xiàn)故障時,系統(tǒng)啟動故障轉(zhuǎn)移進程,該節(jié)點上的所有云虛機在其他資源充足且運行正常的節(jié)點上自動啟動;3、管理系統(tǒng)通過IPMI系統(tǒng)控制節(jié)點重新啟動,并檢測狀態(tài);4、如果啟動之后正常則該節(jié)點繼續(xù)加入集群使用;5、如果重啟修復(fù)失敗,則通過IPMI控制節(jié)點實現(xiàn)網(wǎng)絡(luò)啟動,然后利用云管理系統(tǒng)的自動發(fā)現(xiàn)安裝功能給該節(jié)點重裝系統(tǒng)和設(shè)置,待設(shè)置完成后加入集群;6、如果修復(fù)失敗則通過控制臺發(fā)布警報通知管理員。
[0007]本發(fā)明具有以下有益效果:它基于現(xiàn)有的云管理系統(tǒng)中集群節(jié)點自動化部署技術(shù),以及IPMI技術(shù),通過將這兩種技術(shù)優(yōu)化結(jié)合,并采用一定技術(shù)手段來使之更符合現(xiàn)在的市場需求,實現(xiàn)云管理系統(tǒng)中集群節(jié)點的自動修復(fù)功能,從而在保證云管理系統(tǒng)運行正常且不被影響的情況下,降低服務(wù)器管理員的工作量與工作時間,節(jié)省人力資源成本?!緦@綀D】

【附圖說明】:
[0008]圖1為【背景技術(shù)】中傳統(tǒng)云管理系統(tǒng)中集群節(jié)點運行與修復(fù)流程圖,
[0009]圖2為本發(fā)明的工作流程圖,
[0010]圖3為實施例的的分析圖示。
【具體實施方式】:
[0011]參看圖2,本【具體實施方式】采用以下技術(shù)方案:它的修復(fù)方法為:1、云管理系統(tǒng)監(jiān)控每臺節(jié)點的運行狀態(tài);2、當某節(jié)點出現(xiàn)故障時,系統(tǒng)啟動故障轉(zhuǎn)移進程,該節(jié)點上的所有云虛機在其他資源充足且運行正常的節(jié)點上自動啟動;3、管理系統(tǒng)通過IPMI系統(tǒng)控制節(jié)點重新啟動,并檢測狀態(tài);4、如果啟動之后正常則該節(jié)點繼續(xù)加入集群使用;5、如果重啟修復(fù)失敗,則通過IPMI控制節(jié)點實現(xiàn)網(wǎng)絡(luò)啟動,然后利用云管理系統(tǒng)的自動發(fā)現(xiàn)安裝功能給該節(jié)點重裝系統(tǒng)和設(shè)置,待設(shè)置完成后加入集群;6、如果修復(fù)失敗則通過控制臺發(fā)布警報通知管理員。
[0012]本【具體實施方式】具有以下特點:1、自愈能力:當云管理系統(tǒng)中有節(jié)點運行不正?;蝈礄C時,系統(tǒng)可以通過本方案來實現(xiàn)自愈能力,該過程需要手動操作的非常少;2、高安全性:云管理系統(tǒng)會通過監(jiān)測、判斷與自動啟用功能來實現(xiàn)節(jié)點宕機時的修復(fù)工作,整個過程幾乎無需人工干涉,因此安全性更高;3、更具時效性:傳統(tǒng)情況下,云管理系統(tǒng)中節(jié)點宕機需要管理員手動修復(fù),但是發(fā)現(xiàn)宕機、到達現(xiàn)場、手動修復(fù)及監(jiān)測是否修復(fù)成功這一系列的工作都需要耗費不少的時間,因此一定程度上影響了云管理系統(tǒng)中節(jié)點的正常運行。而通過本方案可以實現(xiàn)整個修復(fù)過程的自動化,從而更具時效性;4、降低管理成本:整個修復(fù)過程由系統(tǒng)自主監(jiān)測與修復(fù),無需人工操作,因此可以節(jié)省管理人員及管理成本;5、優(yōu)化管理人員結(jié)構(gòu):由于管理員可以從本來繁雜的工作中解脫出來,因此他們可以有時間與精力從事其它更重要的工作。
[0013]本【具體實施方式】通過幾個步驟對故障節(jié)點進行修復(fù),首先通過簡單的重啟來修復(fù)問題,如果失敗則自動重裝系統(tǒng)和重新配置并加入集群。對于沒有硬件故障的服務(wù)器,本方案都可以成功進行修復(fù),因此可節(jié)省云計算數(shù)據(jù)中心中節(jié)點的維護成本。
[0014]本【具體實施方式】基于現(xiàn)有的云管理系統(tǒng)中集群節(jié)點自動化部署技術(shù),以及IPMI技術(shù),通過將這兩種技術(shù)優(yōu)化結(jié)合,并采用一定技術(shù)手段來使之更符合現(xiàn)在的市場需求,實現(xiàn)云管理系統(tǒng)中集群節(jié)點的自動修復(fù)功能,從而在保證云管理系統(tǒng)運行正常且不被影響的情況下,降低服務(wù)器管理員的工作量與工作時間,節(jié)省人力資源成本。
[0015]實施例:
[0016]參看圖3,集群中A節(jié)點出現(xiàn)宕機情況時的系統(tǒng)工作步驟:
[0017]步驟1:云系統(tǒng)實時監(jiān)測A節(jié)點的狀態(tài),判斷其是否宕機;
[0018]步驟2:如果A節(jié)點宕機,那么A節(jié)點上所有運行的云虛機將自動遷移到運行正常的B節(jié)點上,從而保證云虛機的正常運行;
[0019]步驟3:云系統(tǒng)啟用IPMI ;
[0020]步驟4: IPMI對A節(jié)點進行重啟操作;
[0021]步驟5:云系統(tǒng)再次監(jiān)測A節(jié)點的狀態(tài),重啟成功則完成,否則進入步驟6。
[0022]步驟6:云系統(tǒng)啟用IPMI ;[0023]步驟7 =IPMI對A節(jié)點執(zhí)行網(wǎng)絡(luò)啟動,再利用云管理系統(tǒng)的自動發(fā)現(xiàn)安裝功能給該節(jié)點重裝系統(tǒng)和設(shè)置;
[0024]步驟8:云系統(tǒng)再次監(jiān)測A節(jié)點的狀態(tài),A節(jié)點運行正常則完成,否則進行步驟9。
[0025]步驟9:云系統(tǒng)發(fā)出警報;
[0026]步驟10:管理人員看到警報后手動修復(fù)A節(jié)點;至此,A節(jié)點運行正常。
[0027]云管理系統(tǒng)中各節(jié)點對外而言無區(qū)別,即云虛機運行在任何一個節(jié)點上都沒有影響。
[0028]實例初始狀態(tài):A、B節(jié)點運行正常,云虛機運行于A節(jié)點之上。
[0029]實例最終狀態(tài):A、B節(jié)點運行正常,云虛機運行于B節(jié)點之上。
[0030]由于云管理系統(tǒng)中節(jié)點對外表現(xiàn)無差別,因此執(zhí)行本方案使得實例最終恢復(fù)到了初始的狀態(tài)。
【權(quán)利要求】
1.一種云計算集群中節(jié)點自修復(fù)的方法,其特征在于它的修復(fù)方法為:(1)、云管理系統(tǒng)監(jiān)控每臺節(jié)點的運行狀態(tài);⑵、當某節(jié)點出現(xiàn)故障時,系統(tǒng)啟動故障轉(zhuǎn)移進程,該節(jié)點上的所有云虛機在其他資源充足且運行正常的節(jié)點上自動啟動;(3)、管理系統(tǒng)通過IPMI系統(tǒng)控制節(jié)點重新啟動,并檢測狀態(tài);(4)、如果啟動之后正常則該節(jié)點繼續(xù)加入集群使用;(5)、如果重啟修復(fù)失敗,則通過IPMI控制節(jié)點實現(xiàn)網(wǎng)絡(luò)啟動,然后利用云管理系統(tǒng)的自動發(fā)現(xiàn)安裝功能給該節(jié)點重裝系統(tǒng)和設(shè)置,待設(shè)置完成后加入集群;(6)、如果修復(fù)失敗則通過控制臺發(fā)布警報通知管理員。
【文檔編號】H04L29/08GK103595572SQ201310607512
【公開日】2014年2月19日 申請日期:2013年11月27日 優(yōu)先權(quán)日:2013年11月27日
【發(fā)明者】牛永偉 申請人:牛永偉
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1