高可用集群系統(tǒng)及基于該系統(tǒng)的告警方法、告警系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)集群技術(shù)領(lǐng)域,尤其涉及一種高可用集群系統(tǒng),還涉及一種基于該高可用集群系統(tǒng)的告警方法、告警系統(tǒng)。
【背景技術(shù)】
[0002]隨著通信網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,電信、金融、電子政務(wù)等關(guān)鍵領(lǐng)域?qū)Ψ?wù)器可用性的要求越來越高,由服務(wù)器故障導(dǎo)致的停止提供服務(wù)將造成巨大的損失,采用高可用集群(High Availability Cluster, HAC)系統(tǒng)可以大幅提高系統(tǒng)的可用性,把因軟件、硬件、人為造成的故障對業(yè)務(wù)的影響降到最小程度。
[0003]高可用集群系統(tǒng)是由集群軟件監(jiān)控、具有多臺(tái)服務(wù)器互相冗余的系統(tǒng)。此系統(tǒng)通過集群軟件提供的故障監(jiān)測和故障處理能力,可提供業(yè)務(wù)連續(xù)性的能力。
[0004]現(xiàn)有技術(shù)中的高可用集群系統(tǒng)包括一個(gè)主節(jié)點(diǎn)(也稱為主控節(jié)點(diǎn))以及至少一個(gè)從節(jié)點(diǎn)。一般來說,高可用集群系統(tǒng)的高可用集群類告警信息存儲(chǔ)在主節(jié)點(diǎn)的數(shù)據(jù)庫中。當(dāng)用戶欲查閱高可用集群類告警信息時(shí),需要首先登錄主節(jié)點(diǎn),然后從主節(jié)點(diǎn)的數(shù)據(jù)庫中調(diào)出該類告警信息。
[0005]可以看出,針對現(xiàn)有技術(shù)中的高可用集群系統(tǒng),用戶只能通過主節(jié)點(diǎn)查閱高可用集群類告警信息,而無法通過從節(jié)點(diǎn)查閱該類告警信息,靈活性差,可操作性差。另外,重要地,當(dāng)主節(jié)點(diǎn)或者主節(jié)點(diǎn)的數(shù)據(jù)庫出現(xiàn)故障時(shí),用戶則徹底無法查閱高可用集群系統(tǒng)的高可用集群類告警信息,由此用戶不能及時(shí)依據(jù)高可用集群類告警信息采取相應(yīng)的應(yīng)對措施,有可能造成重大損失。
【發(fā)明內(nèi)容】
[0006]本發(fā)明所要解決的技術(shù)問題是:針對現(xiàn)有技術(shù)中的高可用集群系統(tǒng),用戶只能通過主節(jié)點(diǎn)查閱高可用集群類告警信息,而無法通過從節(jié)點(diǎn)查閱該類告警信息,靈活性差,可操作差;另外,在主節(jié)點(diǎn)或者主節(jié)點(diǎn)的數(shù)據(jù)庫出現(xiàn)故障時(shí),用戶則徹底無法查閱高可用集群系統(tǒng)的高可用集群類告警信息,從而不能及時(shí)依據(jù)高可用集群類告警信息采取相應(yīng)的應(yīng)對措施,有可能造成重大損失。
[0007]為了解決上述技術(shù)問題,本發(fā)明提供了一種高可用集群系統(tǒng)及基于該系統(tǒng)的告警方法、告警系統(tǒng)。
[0008]根據(jù)本發(fā)明的第一個(gè)方面,提供了一種高可用集群系統(tǒng),其包括:
[0009]主節(jié)點(diǎn),所述主節(jié)點(diǎn)包括均用于存儲(chǔ)告警信息的第一主數(shù)據(jù)庫和第一輔助數(shù)據(jù)庫;以及
[0010]至少一個(gè)從節(jié)點(diǎn),每個(gè)所述從節(jié)點(diǎn)分別與所述主節(jié)點(diǎn)連接,每個(gè)所述從節(jié)點(diǎn)分別包括用于存儲(chǔ)所述告警信息的第二輔助數(shù)據(jù)庫。
[0011]根據(jù)本發(fā)明的第二個(gè)方面,提供了一種基于上述高可用集群系統(tǒng)的告警方法,其包括:
[0012]監(jiān)測所述高可用集群系統(tǒng)的運(yùn)行狀態(tài);
[0013]監(jiān)測到所述高可用集群系統(tǒng)出現(xiàn)高可用集群類故障時(shí),生成高可用集群類告警信息;
[0014]將所述高可用集群類告警信息分別寫入所述第一主數(shù)據(jù)庫和所述第一輔助數(shù)據(jù)庫;
[0015]將所述第一輔助數(shù)據(jù)庫中的高可用集群類告警信息同步到各個(gè)所述第二輔助數(shù)據(jù)庫中。
[0016]優(yōu)選的是,所述高可用集群類告警信息包括均與所述高可用集群類故障相對應(yīng)的故障標(biāo)識(shí)和嚴(yán)重級別標(biāo)識(shí);
[0017]所述方法還包括:將所述高可用集群類告警信息呈現(xiàn)在所述高可用集群系統(tǒng)的集群軟件的頁面上。
[0018]優(yōu)選的是,上述告警方法還包括:
[0019]監(jiān)測到所述高可用集群系統(tǒng)出現(xiàn)操作系統(tǒng)負(fù)載類故障時(shí),生成操作系統(tǒng)負(fù)載類告警信息;
[0020]將所述操作系統(tǒng)負(fù)載類告警信息分別寫入所述第一主數(shù)據(jù)庫和所述第一輔助數(shù)據(jù)庫中;
[0021]將所述第一輔助數(shù)據(jù)庫中的操作系統(tǒng)負(fù)載類告警信息同步到各個(gè)所述第二輔助數(shù)據(jù)庫中。
[0022]優(yōu)選的是,生成操作系統(tǒng)負(fù)載類告警信息,包括:
[0023]根據(jù)預(yù)設(shè)的負(fù)載閾值和所述操作系統(tǒng)類故障涉及的第一故障節(jié)點(diǎn)的操作系統(tǒng)負(fù)載,確定與所述操作系統(tǒng)負(fù)載類故障相對應(yīng)的嚴(yán)重級別標(biāo)識(shí);
[0024]生成操作系統(tǒng)負(fù)載類告警信息,并使所述操作系統(tǒng)負(fù)載類告警信息包括均與所述操作系統(tǒng)負(fù)載類故障相對應(yīng)的故障標(biāo)識(shí)和嚴(yán)重級別標(biāo)識(shí)。
[0025]優(yōu)選的是,上述告警方法還包括:
[0026]監(jiān)測到所述高可用集群系統(tǒng)出現(xiàn)第一主數(shù)據(jù)庫類故障時(shí),生成第一主數(shù)據(jù)庫類告警信息;
[0027]根據(jù)所述第一主數(shù)據(jù)庫類告警信息、以及均在所述第一主數(shù)據(jù)庫類故障期間生成的所述高可用集群類告警信息和所述操作系統(tǒng)負(fù)載類告警信息,得到待回寫告警信息;
[0028]將所述待回寫告警信息寫入所述第一主數(shù)據(jù)庫類故障涉及的第二故障節(jié)點(diǎn)的本地待回寫告警信息日志中。
[0029]優(yōu)選的是,所述第一主數(shù)據(jù)庫類告警信息包括均與所述第一主數(shù)據(jù)庫類故障相對應(yīng)的故障標(biāo)識(shí)和嚴(yán)重級別標(biāo)識(shí);
[0030]所述方法還包括:將所述待回寫告警信息和所述第二故障節(jié)點(diǎn)的第二輔助數(shù)據(jù)庫中的歷史告警信息呈現(xiàn)在所述高可用集群系統(tǒng)的集群軟件的頁面上。
[0031]優(yōu)選的是,上述告警方法還包括:
[0032]監(jiān)測到所述第一主數(shù)據(jù)庫類故障消除時(shí),將所述待回寫告警信息日志中的所述待回寫告警信息寫入所述第一主數(shù)據(jù)庫、所述第一輔助數(shù)據(jù)庫和各個(gè)所述第二數(shù)據(jù)庫中。
[0033]優(yōu)選的是,將所述待回寫告警信息日志中的所述待回寫告警信息寫入所述第一主數(shù)據(jù)庫、所述第一輔助數(shù)據(jù)庫和各個(gè)所述第二數(shù)據(jù)庫中,包括:
[0034]依次對所述待回寫告警信息中的每條待回寫信息,判斷所述待回寫信息是否合法;
[0035]判斷出所述待回寫信息合法時(shí),將所述待回寫信息分別寫入所述第一主數(shù)據(jù)庫和所述第一輔助數(shù)據(jù)庫中,并將所述第一輔助數(shù)據(jù)庫中的所述待回寫信息同步到各個(gè)第二輔助數(shù)據(jù)庫中;
[0036]將所述待回寫信息從所述待回寫告警信息日志中刪除。
[0037]優(yōu)選的是,上述告警方法還包括:
[0038]累計(jì)未處理的告警信息的數(shù)目;
[0039]將所述數(shù)目呈現(xiàn)在所述高可用集群系統(tǒng)的集群軟件的各個(gè)頁面上。
[0040]根據(jù)本發(fā)明的第三個(gè)方面,提供了一種基于上述高可用集群系統(tǒng)的告警系統(tǒng),其利用上述告警方法進(jìn)行告警。
[0041]與現(xiàn)有技術(shù)相比,上述方案中的一個(gè)或多個(gè)實(shí)施例可以具有如下優(yōu)點(diǎn)或有益效果:
[0042]應(yīng)用本發(fā)明實(shí)施例提供的高可用集群系統(tǒng),告警信息同時(shí)存儲(chǔ)在第一主數(shù)據(jù)庫、第一輔助數(shù)據(jù)庫和各個(gè)第二輔助數(shù)據(jù)庫中。在未發(fā)生數(shù)據(jù)庫連接故障的情況下,上述各個(gè)數(shù)據(jù)庫中存儲(chǔ)的告警信息是一致的。因此,無論用戶當(dāng)前訪問(登錄)的是主節(jié)點(diǎn)還是任意一個(gè)從節(jié)點(diǎn),都可以從當(dāng)前訪問的節(jié)點(diǎn)的數(shù)據(jù)庫中獲取告警信息。即便是在主節(jié)點(diǎn)或者主節(jié)點(diǎn)的數(shù)據(jù)庫出現(xiàn)故障時(shí),用戶也可以從任意一個(gè)從節(jié)點(diǎn)的第二輔助數(shù)據(jù)庫中獲取到告警信息,從而能夠及時(shí)依據(jù)獲取的告警信息采取相應(yīng)的應(yīng)對措施,保證了高可用集群系統(tǒng)的正常運(yùn)行,有效避免了由于未及時(shí)采取采取應(yīng)對措施而造成的損失,大大提高了高可用集群系統(tǒng)的系統(tǒng)性能。
[0043]本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
【附圖說明】
[0044]附圖用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實(shí)施例共同用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
[0045]圖1示出了本發(fā)明實(shí)施例高可用集群系統(tǒng)的結(jié)構(gòu)示意圖;
[0046]圖2示出了本發(fā)明實(shí)施例基于圖1中所示的高可用集群系統(tǒng)的告警方法的流程示意圖;
[0047]圖3示出了本發(fā)明實(shí)施例中監(jiān)測到高可用集群系統(tǒng)出現(xiàn)操作系統(tǒng)負(fù)載類故障時(shí)的告警方法的流程示意圖;
[0048]圖4示出了本發(fā)明實(shí)施例中生成操作系統(tǒng)負(fù)載類告警信息的方法的流程示意圖;
[0049]圖5示出了本發(fā)明實(shí)施例中監(jiān)測到高可用集群系統(tǒng)出現(xiàn)第一主數(shù)據(jù)庫類故障時(shí)的告警方法的流程示意圖;
[0050]圖6示出了本發(fā)明實(shí)施例中監(jiān)測到第一主數(shù)據(jù)庫類故障消除時(shí)將第一主數(shù)據(jù)庫類告警信息寫入主從節(jié)點(diǎn)的各個(gè)數(shù)據(jù)庫的方法的流程示意圖;以及
[0051]圖7示出了本發(fā)明實(shí)施例基于圖1所示的高可用集群系統(tǒng)的告警系統(tǒng)的告警系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0052]以下將結(jié)合附圖及實(shí)施例來詳細(xì)說明本發(fā)明的實(shí)施方式,借此對本發(fā)明如何應(yīng)用技術(shù)手段來解決技術(shù)問題,并達(dá)成技術(shù)效果的實(shí)現(xiàn)過程能充分理解并據(jù)以實(shí)施。需要說明的是,只要不構(gòu)成沖突,本發(fā)明中的各個(gè)實(shí)施例以及各實(shí)施例中的各個(gè)特征可以相互結(jié)合,所形成的技術(shù)方案均在本發(fā)明的保護(hù)范圍之內(nèi)。
[0053]本發(fā)明所要解