專(zhuān)利名稱:在可修復(fù)的故障后使群集器系統(tǒng)自動(dòng)投入運(yùn)行的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及在可修復(fù)的故障后使群集器投入運(yùn)行的方法,所述群集器由多個(gè)節(jié)點(diǎn)組成,在發(fā)生故障情況下,相應(yīng)地由一個(gè)節(jié)點(diǎn)接管另外一個(gè)節(jié)點(diǎn)(12)的任務(wù)。
本發(fā)明在高可用性系統(tǒng)的領(lǐng)域,尤其是在一個(gè)有缺陷的節(jié)點(diǎn)的啟動(dòng)之后,要確保向群集器的無(wú)故障的操作狀態(tài)自動(dòng)過(guò)渡。
原則上有各種故障源,由于故障很難克服,所以造成只能由計(jì)算機(jī)重自舉機(jī)器或系統(tǒng)。此外,這樣重自舉的系統(tǒng)需要使用人工指令。如果考慮到系統(tǒng)人工干預(yù)所需的時(shí)間,尤其是通過(guò)交互輸入,顯然為要求高可用性的系統(tǒng)所不能承受。
因此至今為止人們都在不斷地努力,使系統(tǒng)重自舉自動(dòng)化。US5708776提出了一種在發(fā)生故障之前自動(dòng)恢復(fù)狀態(tài)的方法。為此,要有一個(gè)第一和一個(gè)第二重自舉分區(qū)供使用。如果第一重自舉分區(qū)的自舉不成功,則系統(tǒng)從第二分區(qū)啟動(dòng)。監(jiān)控處理器實(shí)施自動(dòng)恢復(fù)的軟件,在自動(dòng)恢復(fù)之后發(fā)現(xiàn)在操作系統(tǒng)-軟件或應(yīng)用軟件中有故障。然而,所述文獻(xiàn)沒(méi)有包括對(duì)重自舉之后群集器投入運(yùn)行的說(shuō)明。群集器再次投入運(yùn)行意味著主要要考慮各個(gè)節(jié)點(diǎn)的更多和較復(fù)雜的相互依賴性,這一般地是通過(guò)一個(gè)群集器控制器來(lái)控制。
對(duì)于以最大可用性為前提的系統(tǒng),例如通信領(lǐng)域的載波級(jí)系統(tǒng)或醫(yī)療-或財(cái)政領(lǐng)域中的系統(tǒng),采用高可用性的計(jì)算機(jī)體系結(jié)構(gòu),它們要確保有一個(gè)最大的可靠性。此時(shí),所執(zhí)行的任務(wù)要能晝夜不停地不間斷地進(jìn)行。
為此,特別要使用群集器系統(tǒng)。此概念包括有各種類(lèi)型的系統(tǒng),對(duì)于這些系統(tǒng),多個(gè)具有冗余資源的分別獨(dú)立的機(jī)器相互連接成網(wǎng)絡(luò),并在它們的使用過(guò)程中由一個(gè)群集器控制器進(jìn)行控制。
在主動(dòng)-被動(dòng)與主動(dòng)-主動(dòng)之間區(qū)分群集器體系結(jié)構(gòu)。對(duì)于主動(dòng)-被動(dòng)群集器,總是,虛擬地,由成對(duì)的機(jī)器或服務(wù)器形成,其中服務(wù)器是主動(dòng)的并提供自己的服務(wù)或執(zhí)行相應(yīng)的軟件。如果此時(shí)沒(méi)有出現(xiàn)故障,則另一個(gè)服務(wù)器基本上處于待機(jī)-或被動(dòng)-狀態(tài)。只有當(dāng)在主動(dòng)服務(wù)器發(fā)現(xiàn)故障時(shí),它才接管其任務(wù)。此時(shí),被動(dòng)服務(wù)器沒(méi)有任務(wù)地處于待機(jī)運(yùn)行狀態(tài)并在發(fā)生故障情況下盡快介入。
對(duì)于主動(dòng)-主動(dòng)-群集器,每個(gè)服務(wù)器在群集器之內(nèi)接受一個(gè)任務(wù),兩者平行主動(dòng)地工作。視系統(tǒng)布局而定,完好的服務(wù)器在發(fā)生故障情況下接管有缺陷服務(wù)器的全部任務(wù)。用主動(dòng)-主動(dòng)-方案,能比在主動(dòng)-被動(dòng)-體系結(jié)構(gòu)實(shí)現(xiàn)較好的負(fù)荷分配。
與各自的體系結(jié)構(gòu)無(wú)關(guān),對(duì)于群集器系統(tǒng),一個(gè)還有操作能力的服務(wù)器在發(fā)生故障情況下接管有缺陷服務(wù)器的任務(wù)。這個(gè)過(guò)程稱作Fail-Over。
除了計(jì)算機(jī)硬件,對(duì)于高可用性系統(tǒng)還要有外圍存儲(chǔ)系統(tǒng)與群集器系統(tǒng)匹配。例如,為了提高系統(tǒng)的安全性,能將數(shù)據(jù)在所分配的存儲(chǔ)器上重復(fù)存放。這樣,所謂的RAID-1-系統(tǒng)(Redundant Array ofInexpensive Disks)利用基于數(shù)據(jù)組鏡像的冗余方案。
所有群集器系統(tǒng)的重要之處在于,它們基于各個(gè)群集器計(jì)算機(jī)之間的“智能”控制、協(xié)調(diào)和通信。應(yīng)該確定,哪些傳輸協(xié)議得到應(yīng)用,各個(gè)要?jiǎng)澐值倪^(guò)程如何相互通信或按照哪些判據(jù)控制Fail-Over。此外,一個(gè)重要之處在于保持群集器的高集成度。這樣,必須確保,即使在系統(tǒng)重自舉之后,在所有的節(jié)點(diǎn)上有牢固的數(shù)據(jù)組存在。
如果在群集器系統(tǒng)出現(xiàn)雖然可消除然而是嚴(yán)重的故障,致使一個(gè)節(jié)點(diǎn)必須重自舉,則到目前為止要求在節(jié)點(diǎn)重自舉之后,將群集器通過(guò)人工輸入指令投入運(yùn)行。
JP14 87 04 A2對(duì)此指出了為保持群集器運(yùn)行的方法,其中在群集器的存儲(chǔ)范圍識(shí)別出故障。其中,在每個(gè)節(jié)點(diǎn)設(shè)置的系統(tǒng)控制器報(bào)告出現(xiàn)故障并將故障報(bào)文傳送到中心局,以便能阻止這個(gè)有錯(cuò)的節(jié)點(diǎn)造成群集器的停機(jī)時(shí)間。然而沒(méi)有說(shuō)明,在重自舉之后,根據(jù)不同的故障,群集器如何能再次自動(dòng)投入運(yùn)行。在此還要求在重自舉之后人工地使集群集器投入運(yùn)行。
但是,這個(gè)人工措施是基于提高的停機(jī)時(shí)間(Downtime),這是高可用性群集器所不能承受的。
因此,本發(fā)明的任務(wù)是提供一種方法,在有缺陷的節(jié)點(diǎn)基于可修復(fù)的故障,經(jīng)過(guò)重自舉之后,使群集器系統(tǒng),尤其是待機(jī)-群集器能夠自動(dòng)地以時(shí)間最佳方式投入運(yùn)行。
該任務(wù)通過(guò)前序部分闡述的方法用下列步驟解決
-確定至少一個(gè)第一和一個(gè)第二故障等級(jí),-分析導(dǎo)致第一節(jié)點(diǎn)的重自舉的故障,-將故障劃分到故障等級(jí)之一中,-如果故障劃分到第一故障等級(jí)中,群集器與節(jié)點(diǎn)自動(dòng)投入運(yùn)行。
根據(jù)總權(quán)利要求,該任務(wù)的解決辦法在于,在群集器的一個(gè)節(jié)點(diǎn)中可修復(fù)的故障之后,該已經(jīng)進(jìn)行了重自舉的群集器能獨(dú)立和自動(dòng)地回到它的運(yùn)行狀態(tài)。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施形式中,用EWSD-系統(tǒng)實(shí)施所述方法,SUN-群集器連接在這個(gè)系統(tǒng)上。EWSD(電子選擇系統(tǒng),數(shù)字的),是一個(gè)公共的數(shù)字交換系統(tǒng),在各國(guó)已經(jīng)設(shè)立了超過(guò)2億個(gè)這種系統(tǒng)的端口。
在這個(gè)實(shí)施例中,利用中央監(jiān)控裝置,監(jiān)控地理上遠(yuǎn)離設(shè)立電話網(wǎng)的故障。如果存在可消除的故障,例如由于軟件故障或由于電源中斷引起的故障(把這些故障歸入暫時(shí)的故障,要可以通過(guò)一種自動(dòng)方法再消除),則電話網(wǎng)按照本發(fā)明能由中心局再次投入運(yùn)行而無(wú)需人工干預(yù)。
通過(guò)在重自舉之后群集器系統(tǒng)自動(dòng)投入運(yùn)行,尤其在網(wǎng)絡(luò)運(yùn)營(yíng)商和服務(wù)供應(yīng)商的應(yīng)用領(lǐng)域,明顯改善了所用軟件的停機(jī)時(shí)間。
在本發(fā)明的優(yōu)選實(shí)施形式中,所述方法被用于使SUN-群集器系統(tǒng)2.x自動(dòng)投入運(yùn)行。
本發(fā)明的一個(gè)特別有利的實(shí)施形式涉及一個(gè)由一對(duì)或多對(duì)服務(wù)器組成的主動(dòng)-被動(dòng)群集器系統(tǒng),其中服務(wù)器執(zhí)行一個(gè)分配給它的特定任務(wù)。其它的機(jī)器處于待機(jī)狀態(tài)。只有當(dāng)?shù)谝粰C(jī)器發(fā)出出現(xiàn)問(wèn)題的信號(hào),第二機(jī)器才接管第一機(jī)器的任務(wù)。因此,必須連續(xù)地監(jiān)控相應(yīng)的主動(dòng)服務(wù)器。主動(dòng)服務(wù)器例如可能由于硬件故障、操作系統(tǒng)的阻塞或由于電源中斷而失靈。
為了提高可用性和有利地影響其它系統(tǒng)參數(shù),還多次使用主動(dòng)-主動(dòng)-群集器。根據(jù)本發(fā)明方法的一個(gè)可選擇的實(shí)施形式,在應(yīng)用中要考慮這種類(lèi)型的體系結(jié)構(gòu)。
在本發(fā)明的另一種有利的實(shí)施形式中,作為操作系統(tǒng)環(huán)境“Solaris”利用。
本發(fā)明尤其是根據(jù)預(yù)先發(fā)生的并導(dǎo)致服務(wù)器復(fù)位故障的分析為群集器進(jìn)行自動(dòng)和首先是動(dòng)態(tài)產(chǎn)生的投入運(yùn)行策略。
本發(fā)明的其它有利的進(jìn)一步擴(kuò)展由從屬權(quán)利要求得出。
本發(fā)明的其它優(yōu)點(diǎn)和帶有其特征的特別實(shí)施形式,以下列的詳細(xì)圖示說(shuō)明表示。其中有
圖1群集器系統(tǒng)的示意圖示,和圖2按照本發(fā)明的一個(gè)優(yōu)選實(shí)施形式用于進(jìn)行狀態(tài)變換流程圖。
隨后示出關(guān)于圖1的一個(gè)現(xiàn)有技術(shù)重公知的常規(guī)群集器體系結(jié)構(gòu)。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施形式中,所述方法用于支持高可用性應(yīng)用的群集器10。它尤其是一個(gè)主動(dòng)-待機(jī)-群集器。這些通常包括一對(duì)服務(wù)器,這里也稱這些服務(wù)器為節(jié)點(diǎn)。將一個(gè)第一節(jié)點(diǎn)12定義為主服務(wù)器,給它分派一定的任務(wù)。規(guī)定一個(gè)第二節(jié)點(diǎn)14為待機(jī)-服務(wù)器。在這個(gè)實(shí)施例中,第一節(jié)點(diǎn)12有故障并因此也被稱為有缺陷的節(jié)點(diǎn),其時(shí)第二節(jié)點(diǎn)14是完好的節(jié)點(diǎn)。對(duì)于第二節(jié)點(diǎn)失靈并被考慮為有缺陷的節(jié)點(diǎn)情況當(dāng)然同樣在本發(fā)明的范圍之內(nèi)。
第二節(jié)點(diǎn)14用在發(fā)生故障情況的情況下,就是說(shuō)在主服務(wù)器(第一或有缺陷的節(jié)點(diǎn)12)失靈時(shí)接管其任務(wù),然后不再作為待機(jī)-服務(wù)器,而是作為新的主服務(wù)器起作用。通過(guò)這種體系結(jié)構(gòu),系統(tǒng)的“停機(jī)時(shí)間”能最小。
為了識(shí)別發(fā)生故障狀態(tài)和控制接管過(guò)程,有各種所謂的Failover方案。
例如,要實(shí)施的、一般只在一個(gè)為此預(yù)先規(guī)定的機(jī)器上運(yùn)行的軟件,在此必須也能在所有其它節(jié)點(diǎn)上運(yùn)行,以便能確保這些節(jié)點(diǎn)在一個(gè)發(fā)生故障情況下有一個(gè)無(wú)故障的Failover。
當(dāng)然,該方法同樣可用于具有較復(fù)雜體系結(jié)構(gòu)的系統(tǒng)。
兩個(gè)節(jié)點(diǎn)12、14經(jīng)過(guò)一個(gè)高速接口相互連接在一起,在圖1中的兩個(gè)服務(wù)器12、14之間用連接線識(shí)別出。
借助于本發(fā)明的方法,能將系統(tǒng)預(yù)計(jì)的和非預(yù)計(jì)的停機(jī)時(shí)間最小化,群集器10在一個(gè)嚴(yán)重故障之后進(jìn)行重自舉操作,并接著或在此期間自動(dòng)再次投入運(yùn)行。
鑒于圖2中示出的流程圖,在下面闡述本發(fā)明的步驟。
方法用于群集器系統(tǒng)基于軟件故障或基于中央電源中斷必須再次啟動(dòng)起來(lái)的情況。
為了在這些與其它故障等級(jí)或情況組之間進(jìn)行區(qū)分,使用一個(gè)所謂的加電的識(shí)別機(jī)理。為此,對(duì)第一和第二節(jié)點(diǎn)12和14進(jìn)行分析,尤其要挑出兩個(gè)節(jié)點(diǎn)的壽命并在進(jìn)一步處理中考慮。將第一節(jié)點(diǎn)12的所謂正常運(yùn)行時(shí)間(uptime)此時(shí)與第二節(jié)點(diǎn)14的正常運(yùn)行時(shí)間進(jìn)行比較。如果除了一個(gè)預(yù)先規(guī)定的公差值(它確定偏差公差)之外兩個(gè)時(shí)間符合一致,則能由此間接得出結(jié)論,這應(yīng)該涉及中央電源中斷,系統(tǒng)基于這個(gè)結(jié)論進(jìn)行重自舉。公差值可通過(guò)輸入一個(gè)閾值來(lái)規(guī)定。該值可以取決于系統(tǒng)和應(yīng)用而變化。如果例如包括另一種情況,即第一節(jié)點(diǎn)12已經(jīng)存活數(shù)天,而第二節(jié)點(diǎn)14只在數(shù)分鐘的范圍內(nèi)有效,則所涉及的就不會(huì)是中央電源中斷。
如果在加電-機(jī)理時(shí)確定相應(yīng)的正常運(yùn)行時(shí)間相互間有顯著的偏差,則能間接推斷出另外的故障(例如硬件故障、軟件故障、單個(gè)節(jié)點(diǎn)的斷電)。在這種情況下,將推動(dòng)在群集器10中自動(dòng)地協(xié)調(diào)接受兩個(gè)節(jié)點(diǎn)。隨后在群集器系統(tǒng)10投入運(yùn)行時(shí),能因此在所有的群集器節(jié)點(diǎn)12、14上激活無(wú)故障的狀態(tài)。
為了方法的一般控制,在投入運(yùn)行方法的相應(yīng)進(jìn)行之前能確定故障等級(jí)16,所述等級(jí)通過(guò)一定的參數(shù)說(shuō)明來(lái)規(guī)定。這個(gè)第一方法步驟能與群集器操作無(wú)關(guān)地進(jìn)行并能置于此前;這在圖2中用點(diǎn)劃線表示。在群集器操作期間或在群集器操作中發(fā)生故障時(shí)進(jìn)行其余的方法步驟。
在隨后闡述的實(shí)施例中,確定兩個(gè)故障等級(jí)16。
一個(gè)第一故障等級(jí)16-1,包括在其中所述方法用于群集器投入運(yùn)行要自動(dòng)推動(dòng)的情況。
一個(gè)第二故障等級(jí)16-2,包括在其中要進(jìn)行故障的一個(gè)另外的分析和將方法人工地繼續(xù)進(jìn)行的情況。第一故障等級(jí)16-1通過(guò)參數(shù)“軟件故障”和/或“中央電源中斷”來(lái)定義。就是說(shuō),系統(tǒng)自動(dòng)分析系統(tǒng)的狀態(tài)或基于故障重自舉的原因,此時(shí)尤其要研究節(jié)點(diǎn)12、14的正常運(yùn)行時(shí)間和一個(gè)軟件故障識(shí)別的結(jié)果。
如果該結(jié)果是必須出示一個(gè)軟件故障或一個(gè)電源中斷,則將故障劃分到第一故障等級(jí)16-1。在此假設(shè)所涉及的只是一個(gè)暫時(shí)的故障,能將它通過(guò)一個(gè)重自舉和在群集器中再接受有缺陷的節(jié)點(diǎn)而消除。因此,在這些情況能自動(dòng)投入運(yùn)行。
在所有其他情況下,將故障劃分到第二故障等級(jí)16-2。在此假設(shè)涉及的是一個(gè)嚴(yán)重的故障,它不能通過(guò)一個(gè)重自舉清除。在下面,例如是包括一個(gè)硬件故障或一個(gè)嚴(yán)重的硬件和軟件組合的故障的情況。
隨著通過(guò)管理員確定故障等級(jí)16,能動(dòng)態(tài)地調(diào)節(jié)在某些情況下群集器應(yīng)當(dāng)自動(dòng)運(yùn)行而在某些情況下不自動(dòng)運(yùn)行。有利的是,在一個(gè)發(fā)生故障之后群集器10投入運(yùn)行的過(guò)程能動(dòng)態(tài)地與相應(yīng)的系統(tǒng)配合,此時(shí)給某些故障分配一個(gè)專(zhuān)門(mén)的要求單獨(dú)投入運(yùn)行的故障等級(jí),因?yàn)樵谧詣?dòng)重復(fù)將有缺陷的節(jié)點(diǎn)捆扎到群集器10中時(shí)會(huì)出現(xiàn)二次誤差。
為了例如還能進(jìn)行其它的故障分析,第二故障等級(jí)16-2能有選擇地包括在其中也要進(jìn)行一個(gè)自動(dòng)的但時(shí)間上滯后的投入運(yùn)行的情況。但是,也能為第二故障等級(jí)16-2規(guī)定,在這些情況下必須總是以人工方式投入運(yùn)行。
在第一故障等級(jí)16-1的兩個(gè)情況中(“暫時(shí)的軟件故障”或“中央電源中斷”),在重自舉之后將兩個(gè)節(jié)點(diǎn)12、14協(xié)調(diào)到群集器10中去。
通過(guò)控制故障等級(jí)控制的進(jìn)行方式可以使群集器10根據(jù)當(dāng)時(shí)現(xiàn)實(shí)的故障狀態(tài)動(dòng)態(tài)地投入運(yùn)行。
有利的是,對(duì)于在此介紹的投入運(yùn)行方案,自舉程序或自舉塊程序和投入運(yùn)行方法相互嵌套的。就是說(shuō),在群集器投入運(yùn)行的各個(gè)步驟被觸發(fā)之前,不必要地必然完全結(jié)束自舉。
Solaris操作系統(tǒng)環(huán)境很適合于在高可用性的群集器系統(tǒng)時(shí)應(yīng)用,因?yàn)樗梢耘c在此之下的硬件層進(jìn)行有效的通信,此外支持監(jiān)控功能并因此是本發(fā)明系統(tǒng)的優(yōu)選實(shí)施形式的組成部分。
一個(gè)Solaris 2.x-系統(tǒng)能在各種所謂的運(yùn)行級(jí)(Runlevel)自舉。運(yùn)行級(jí)指出計(jì)算機(jī)的操作方式并規(guī)定狀態(tài)和由它提供的服務(wù)。這里特別要在八個(gè)運(yùn)行級(jí)之間進(jìn)行區(qū)分。在運(yùn)行級(jí)0(也稱作為監(jiān)視器模式)時(shí)還沒(méi)有UNIX運(yùn)行,而在運(yùn)行級(jí)1時(shí)已經(jīng)激活UNIX內(nèi)核。運(yùn)行級(jí)3(也稱作為多用戶模式)闡明機(jī)器已經(jīng)處于支配全部功能的狀態(tài),所有文件系統(tǒng)已經(jīng)處于安裝好的狀態(tài)且網(wǎng)絡(luò)過(guò)程在運(yùn)行。
有利的是,在達(dá)到運(yùn)行級(jí)3之后,能借助于本發(fā)明的方法已經(jīng)使兩個(gè)群集器節(jié)點(diǎn)同步并自動(dòng)地投入運(yùn)行。
為了進(jìn)行所述方法方法的顯著時(shí)間優(yōu)化,首先事態(tài)有助于,能通過(guò)相應(yīng)的故障等級(jí)16分配來(lái)識(shí)別情況,在這些情況下,可以使群集器自動(dòng)地再次投入運(yùn)行。這樣,顯著降低了系統(tǒng)的停機(jī)時(shí)間,因?yàn)樵谒幸郧氨欢x為非緊迫的情況下立即再投入運(yùn)行。迄今在非緊迫情況下也必須人工地投入運(yùn)行,這導(dǎo)致較長(zhǎng)的系統(tǒng)停機(jī)時(shí)間。
在群集器10投入運(yùn)行時(shí),尤其要實(shí)施下列步驟在第一節(jié)點(diǎn)12被接受到群集器10中之后(例如通過(guò)指令“scadminstartcluster”),必須檢驗(yàn),是否這個(gè)步驟能成功地執(zhí)行(例如用指令“hastat”)。隨后將第二節(jié)點(diǎn)14用另一個(gè)指令接受到群集器10中(例如用指令“scadmin startnode”),接著再去檢驗(yàn)這個(gè)步驟的無(wú)故障性(指令“hastat”)。在將兩個(gè)節(jié)點(diǎn)12、14成功的捆扎到群集器10中之后,能將后者啟動(dòng)。此時(shí),必須登記屬于群集器控制器控制的服務(wù)或應(yīng)用。
群集器10的各個(gè)服務(wù)器或節(jié)點(diǎn)12、14,主要是經(jīng)過(guò)一個(gè)所謂的專(zhuān)用-鏈接-連接相互處于數(shù)據(jù)交換中。為了能控制節(jié)點(diǎn)12、14的失效,這個(gè)連接從而以冗余方式設(shè)立。
在本發(fā)明的一個(gè)可選擇的、同樣示于圖2的實(shí)施形式中,擴(kuò)展了所述方法,在發(fā)生屬于故障等級(jí)16-2的故障時(shí),不立即自動(dòng)投入運(yùn)行循環(huán),要進(jìn)行另外的分析。通過(guò)自動(dòng)獲取其它參數(shù),可以推斷故障的類(lèi)型,在可能的情況下,在略晚的時(shí)刻自動(dòng)投入運(yùn)行也許有意義或要不然結(jié)束所述方法。
權(quán)利要求
1.在發(fā)生故障后使群集器(10)投入運(yùn)行的方法,群集器(10)包括多個(gè)節(jié)點(diǎn)(12,14)組成,在發(fā)生故障的情況下相應(yīng)地由一個(gè)第二節(jié)點(diǎn)(14)接管一個(gè)第一節(jié)點(diǎn)(12)的任務(wù),該方法包括下列步驟-確定至少一個(gè)第一和一個(gè)第二故障等級(jí)(16-1,16-2),-分析導(dǎo)致第一節(jié)點(diǎn)(12)重自舉的故障,-將故障分級(jí)成故障等級(jí)(16-1,16-2)之一,-如果故障被分級(jí)成第一故障等級(jí)(16-1),則具有節(jié)點(diǎn)(12,14)的群集器(10)自動(dòng)投入運(yùn)行。
2.如權(quán)利要求1的方法,其特征在于對(duì)于第二故障等級(jí)(16-2)群集器(10)以非自動(dòng)方式投入運(yùn)行。
3.如上述權(quán)利要求之一的方法,其特征在于故障分析至少包括一個(gè)加電識(shí)別,尤其是通過(guò)讀取和比較節(jié)點(diǎn)(12,14)的壽命進(jìn)行。
4.如上述權(quán)利要求之一的方法,其特征在于群集器(10)是一個(gè)SUN-群集器,尤其是2.x型。
5.如上述權(quán)利要求之一的方法,其特征在于在第一節(jié)點(diǎn)(12)重自舉后,在運(yùn)行級(jí)3中使群集器(10)投入運(yùn)行。
6.如上述權(quán)利要求之一的方法,其特征在于;群集器(10)是一個(gè)主動(dòng)-主動(dòng)-群集器。
7.如權(quán)利要求1至5之一的方法,其特征在于群集器(10)是一個(gè)主動(dòng)-被動(dòng)-群集器。
8.如上述權(quán)利要求之一的方法,其特征在于在兩個(gè)彼此分配給群集器(10)的節(jié)點(diǎn)(12,14)上進(jìn)行重自舉的故障分析。
9.如上述權(quán)利要求之一的方法,其特征在于利用協(xié)調(diào)的節(jié)點(diǎn)(12,14)實(shí)施群集器(10)的投入運(yùn)行,其中,將節(jié)點(diǎn)(12,14)按順序用相應(yīng)不同的指令捆扎到群集器(10)中,要檢驗(yàn)這些捆扎的每個(gè)節(jié)點(diǎn)的無(wú)故障性。
10.如權(quán)利要求6和9的方法,其特征在于通過(guò)求取在群集器(10)的兩側(cè)在預(yù)先確定的協(xié)調(diào)時(shí)間點(diǎn)節(jié)點(diǎn)(12,14)的狀態(tài)來(lái)進(jìn)行節(jié)點(diǎn)(12,14)的協(xié)調(diào)。
11.程序,包括軟件代碼程序段,利用所述程序段通過(guò)處理器實(shí)施如權(quán)利要求1至10之一的方法。
12.布置,用于實(shí)施如權(quán)利要求1至10之一方法。
全文摘要
本發(fā)明涉及在群集器(10)的一個(gè)節(jié)點(diǎn)(12,14)中出現(xiàn)導(dǎo)致節(jié)點(diǎn)(12,14)重自舉的故障后,群集器(10)自動(dòng)投入運(yùn)行的方法。此時(shí),自動(dòng)識(shí)別涉及是否是一個(gè)可自動(dòng)修復(fù)的故障,在發(fā)生所述故障時(shí)群集器(10)能自動(dòng)啟動(dòng)。利用該方法,群集器(10)能在發(fā)生故障之后自行回到其運(yùn)行狀態(tài),并能因此而使系統(tǒng)的停機(jī)時(shí)間最小。
文檔編號(hào)G06F11/07GK1491386SQ02804758
公開(kāi)日2004年4月21日 申請(qǐng)日期2002年1月23日 優(yōu)先權(quán)日2001年2月9日
發(fā)明者D·克勞斯, J·布拉古拉, D 克勞斯, 爬 申請(qǐng)人:西門(mén)子公司