類(lèi)告警信息。其第二位表示故障標(biāo)識(shí)。其第三位表示嚴(yán)重級(jí)別標(biāo)識(shí),“O”表示嚴(yán)重級(jí)告警信息,“I”表示普通級(jí)告警信息。當(dāng)高可用集群部署完畢,其周期性的執(zhí)行相對(duì)應(yīng)的腳本,監(jiān)測(cè)集群資源、集群心跳、集群節(jié)點(diǎn)的信息,如果發(fā)現(xiàn)異常,立即創(chuàng)建相對(duì)應(yīng)的高可用集群類(lèi)告警信息。例如,如發(fā)現(xiàn)高可用集群資源啟動(dòng)失敗的信息,規(guī)定其嚴(yán)重級(jí)別為嚴(yán)重級(jí),故高可用集群類(lèi)告警信息的level標(biāo)示為“1R0”,然后結(jié)合其它信息字段,將該高可用集群類(lèi)告警信息寫(xiě)入各節(jié)點(diǎn)的數(shù)據(jù)庫(kù)中。
[0076]此外,在高可用集群類(lèi)系統(tǒng)的各個(gè)節(jié)點(diǎn)的本地告警信息日志文件中,告警信息level標(biāo)示卻用四個(gè)有效字符的字符串來(lái)表示,前三位與數(shù)據(jù)庫(kù)中存儲(chǔ)的告警信息level內(nèi)容相同,第四位表示當(dāng)前節(jié)點(diǎn)與主節(jié)點(diǎn)的第一主數(shù)據(jù)庫(kù)的連接狀態(tài),“O”表示連接正常,“I”表示連接異常。
[0077]在本發(fā)明一優(yōu)選的實(shí)施例中,高可用集群系統(tǒng)除了實(shí)時(shí)監(jiān)測(cè)常規(guī)的高可用集群類(lèi)故障外,還實(shí)時(shí)監(jiān)測(cè)操作系統(tǒng)負(fù)載類(lèi)故障。這里,操作系統(tǒng)負(fù)載例如為CPU負(fù)載等。
[0078]如圖3所示,是本發(fā)明實(shí)施例中監(jiān)測(cè)到高可用集群系統(tǒng)出現(xiàn)操作系統(tǒng)負(fù)載類(lèi)故障時(shí)的告警方法的流程示意圖。本實(shí)施例監(jiān)測(cè)到高可用集群系統(tǒng)出現(xiàn)操作系統(tǒng)負(fù)載類(lèi)故障時(shí)的告警方法,主要包括以下步驟:
[0079]步驟201:監(jiān)測(cè)到高可用集群系統(tǒng)出現(xiàn)操作系統(tǒng)負(fù)載類(lèi)故障時(shí),生成操作系統(tǒng)負(fù)載類(lèi)告警信息。
[0080]具體地,本步驟中生成操作系統(tǒng)負(fù)載類(lèi)告警信息的方法將在下文中進(jìn)行詳細(xì)地闡述。
[0081]步驟202:將操作系統(tǒng)負(fù)載類(lèi)告警信息分別寫(xiě)入第一主數(shù)據(jù)庫(kù)和第一輔助數(shù)據(jù)庫(kù)中。
[0082]步驟203:將第一輔助數(shù)據(jù)庫(kù)中的操作系統(tǒng)負(fù)載類(lèi)告警信息同步到各個(gè)第二輔助數(shù)據(jù)庫(kù)中。
[0083]如圖4所示,是本發(fā)明實(shí)施例中生成操作系統(tǒng)負(fù)載類(lèi)告警信息的方法的流程示意圖。本實(shí)施例所述的生成操作系統(tǒng)負(fù)載類(lèi)告警信息的方法,主要包括以下步驟:
[0084]步驟301:根據(jù)預(yù)設(shè)的負(fù)載閾值和操作系統(tǒng)類(lèi)故障涉及的第一故障節(jié)點(diǎn)的操作系統(tǒng)負(fù)載,確定與操作系統(tǒng)負(fù)載類(lèi)故障相對(duì)應(yīng)的嚴(yán)重級(jí)別標(biāo)識(shí)。
[0085]步驟302:生成操作系統(tǒng)負(fù)載類(lèi)告警信息,并使操作系統(tǒng)負(fù)載類(lèi)告警信息包括均與操作系統(tǒng)負(fù)載類(lèi)故障相對(duì)應(yīng)的故障標(biāo)識(shí)和嚴(yán)重級(jí)別標(biāo)識(shí)。
[0086]具體地,對(duì)于操作系統(tǒng)負(fù)載類(lèi)故障的判斷,需要事先在系統(tǒng)中預(yù)設(shè)的負(fù)載閾值。具體地,通過(guò)比較監(jiān)測(cè)到系統(tǒng)中某個(gè)節(jié)點(diǎn)的操作系統(tǒng)負(fù)載與預(yù)設(shè)的負(fù)載閾值的大小關(guān)系,確定高可用集群系統(tǒng)是否出現(xiàn)了操作系統(tǒng)負(fù)載類(lèi)故障。需要在系統(tǒng)中保存預(yù)設(shè)的第一負(fù)載閾值和第二負(fù)載閾值,第一負(fù)載閾值大于第二負(fù)載閾值。當(dāng)系統(tǒng)中的某個(gè)節(jié)點(diǎn)的操作系統(tǒng)負(fù)載大于第二負(fù)載閾值且小于第一負(fù)載閾值時(shí),則立即生成嚴(yán)重級(jí)別較低的操作系統(tǒng)負(fù)載類(lèi)告警信息(其嚴(yán)重級(jí)別標(biāo)識(shí)為I),優(yōu)選地發(fā)出黃燈信號(hào),以警示用戶(hù)該節(jié)點(diǎn)發(fā)生嚴(yán)重級(jí)別較低的操作系統(tǒng)負(fù)載類(lèi)故障。類(lèi)似地,當(dāng)系統(tǒng)中的某個(gè)節(jié)點(diǎn)的操作系統(tǒng)負(fù)載大于第一負(fù)載閾值時(shí),則立即生成嚴(yán)重級(jí)別較高的操作系統(tǒng)負(fù)載類(lèi)告警信息(其嚴(yán)重級(jí)別標(biāo)識(shí)為O),優(yōu)選地發(fā)生紅燈信號(hào),以警示用戶(hù)該節(jié)點(diǎn)發(fā)生嚴(yán)重級(jí)別較高的操作系統(tǒng)負(fù)載類(lèi)故障。
[0087]需要指出的是,上述操作系統(tǒng)負(fù)載也可以指代空閑內(nèi)存或者磁盤(pán)使用量,當(dāng)然,當(dāng)判斷是否出現(xiàn)操作系統(tǒng)負(fù)載類(lèi)故障時(shí),需要判斷此類(lèi)負(fù)載是否低于相應(yīng)的負(fù)載閾值。具體地,對(duì)于空閑內(nèi)存來(lái)說(shuō),其相應(yīng)的負(fù)載閾值為第三負(fù)載閾值和第四負(fù)載閾值,第三負(fù)載閾值大于第四負(fù)載閾值。當(dāng)系統(tǒng)中的某個(gè)節(jié)點(diǎn)的空閑內(nèi)存大于第四負(fù)載閾值且小于第三負(fù)載閾值時(shí),則立即生成嚴(yán)重級(jí)別較低的操作系統(tǒng)負(fù)載類(lèi)告警信息(其嚴(yán)重級(jí)別標(biāo)識(shí)為1),優(yōu)選地發(fā)出黃燈信號(hào),以警示用戶(hù)該節(jié)點(diǎn)發(fā)生嚴(yán)重級(jí)別較低的操作系統(tǒng)負(fù)載類(lèi)故障。類(lèi)似地,當(dāng)系統(tǒng)中的某個(gè)節(jié)點(diǎn)的空閑內(nèi)存小于第四負(fù)載閾值時(shí),則立即生成嚴(yán)重級(jí)別較高的操作系統(tǒng)負(fù)載類(lèi)告警信息(其嚴(yán)重級(jí)別標(biāo)識(shí)為O),優(yōu)選地發(fā)生紅燈信號(hào),以警示用戶(hù)該節(jié)點(diǎn)發(fā)生嚴(yán)重級(jí)別較高的操作系統(tǒng)負(fù)載類(lèi)故障。
[0088]另外,操作系統(tǒng)負(fù)載類(lèi)告警信息包括故障標(biāo)識(shí)OS (OS為Operat1n System的簡(jiǎn)寫(xiě))和嚴(yán)重級(jí)別標(biāo)識(shí)。類(lèi)似于高可用集群類(lèi)告警信息的顯示,本實(shí)施例所述的方法還包括:將操作系統(tǒng)負(fù)載類(lèi)告警信息呈現(xiàn)在高可用集群系統(tǒng)的集群軟件的頁(yè)面上。例如,經(jīng)比較確定當(dāng)前操作系統(tǒng)負(fù)載類(lèi)故障的嚴(yán)重級(jí)別為嚴(yán)重級(jí),則該故障對(duì)應(yīng)的嚴(yán)重級(jí)別標(biāo)識(shí)為0,則最終呈現(xiàn)在用戶(hù)界面上的圖標(biāo)為紅色字體的“0S0”。這樣,采用簡(jiǎn)單明了的圖標(biāo)將操作系統(tǒng)負(fù)載類(lèi)告警信息直觀地呈現(xiàn)在用戶(hù)界面上,使得用戶(hù)能夠在第一時(shí)間了解系統(tǒng)的運(yùn)行狀態(tài)。并且,用戶(hù)能夠及時(shí)根據(jù)快速獲知的告警信息采用相應(yīng)的應(yīng)對(duì)措施,最大程度地減少或避免了可能造成的損失。
[0089]進(jìn)一步地,被存儲(chǔ)在高可用集群系統(tǒng)的各個(gè)數(shù)據(jù)庫(kù)的操作系統(tǒng)負(fù)載類(lèi)告警信息除了上述均與操作系統(tǒng)負(fù)載類(lèi)故障相對(duì)應(yīng)的故障標(biāo)識(shí)和嚴(yán)重級(jí)別標(biāo)識(shí)外,還包括故障來(lái)源標(biāo)識(shí)。例如,嚴(yán)重級(jí)別較高的操作系統(tǒng)負(fù)載類(lèi)告警信息的level標(biāo)示為“00S0”。
[0090]應(yīng)用本實(shí)施例所述的告警方法,告警信息除了涉及高可用集群類(lèi)告警信息,還涉及操作系統(tǒng)負(fù)載類(lèi)告警信息。當(dāng)發(fā)生操作系統(tǒng)負(fù)載類(lèi)故障時(shí),系統(tǒng)能夠及時(shí)地將此類(lèi)故障反映給用戶(hù),從而用戶(hù)能夠及時(shí)采取相應(yīng)的應(yīng)對(duì)措施,有效減少或避免有可能造成的損失。
[0091]在本發(fā)明一優(yōu)選的實(shí)施例中,高可用集群系統(tǒng)除了實(shí)時(shí)監(jiān)測(cè)操作系統(tǒng)負(fù)載類(lèi)故障和常規(guī)的高可用集群類(lèi)故障外,還實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)庫(kù)類(lèi)故障,尤其是第一主數(shù)據(jù)庫(kù)類(lèi)故障。這里,第一主數(shù)據(jù)庫(kù)類(lèi)故障表示高可用集群系統(tǒng)中的節(jié)點(diǎn)(主節(jié)點(diǎn)或者從節(jié)點(diǎn))與主節(jié)點(diǎn)的第一主數(shù)據(jù)庫(kù)的連接異常的故障。節(jié)點(diǎn)與第一主數(shù)據(jù)庫(kù)的連接異常通常涉及兩方面原因,一是節(jié)點(diǎn)與第一主數(shù)據(jù)庫(kù)之間的通訊線(xiàn)路斷開(kāi),二是第一主數(shù)據(jù)庫(kù)本身關(guān)閉或者出現(xiàn)故障。
[0092]如圖5所示,是本發(fā)明實(shí)施例中監(jiān)測(cè)到高可用集群系統(tǒng)出現(xiàn)第一主數(shù)據(jù)庫(kù)類(lèi)故障時(shí)的告警方法的流程示意圖。本實(shí)施例監(jiān)測(cè)到高可用集群系統(tǒng)出現(xiàn)第一主數(shù)據(jù)庫(kù)類(lèi)故障時(shí)的告警方法,主要包括以下步驟:
[0093]步驟401:監(jiān)測(cè)到高可用集群系統(tǒng)出現(xiàn)第一主數(shù)據(jù)庫(kù)類(lèi)故障時(shí),生成第一主數(shù)據(jù)庫(kù)類(lèi)告警信息。
[0094]步驟402:根據(jù)第一主數(shù)據(jù)庫(kù)類(lèi)告警信息、以及均在第一主數(shù)據(jù)庫(kù)類(lèi)故障期間生成的高可用集群類(lèi)告警信息和操作系統(tǒng)負(fù)載類(lèi)告警信息,得到待回寫(xiě)告警信息。
[0095]步驟403:將待回寫(xiě)告警信息寫(xiě)入第一主數(shù)據(jù)庫(kù)類(lèi)故障涉及的第二故障節(jié)點(diǎn)的本地待回寫(xiě)告警信息日志中。
[0096]具體地,當(dāng)高可用集群系統(tǒng)中的某個(gè)節(jié)點(diǎn)無(wú)法連接第一主數(shù)據(jù)庫(kù)時(shí),即出現(xiàn)第一主數(shù)據(jù)庫(kù)類(lèi)故障時(shí),首先生成第一主數(shù)據(jù)庫(kù)類(lèi)告警信息。然后結(jié)合在第一主數(shù)據(jù)庫(kù)類(lèi)故障未消除期間(即節(jié)點(diǎn)無(wú)法連接第一主數(shù)據(jù)庫(kù)期間)生成的所有告警信息(高可用集群類(lèi)告警信息和/或操作系統(tǒng)負(fù)載類(lèi)告警信息),得到待回寫(xiě)告警信息。最后將得到的待回寫(xiě)告警信息分別寫(xiě)入出現(xiàn)該第一主數(shù)據(jù)庫(kù)類(lèi)故障的第二故障節(jié)點(diǎn)的本地告警信息日志文件和本地待回寫(xiě)告警信息日志文件中。
[0097]應(yīng)用本實(shí)施例所述的告警方法,當(dāng)監(jiān)測(cè)到高可用集群系統(tǒng)中的某個(gè)節(jié)點(diǎn)與第一主數(shù)據(jù)庫(kù)連接異常時(shí),即當(dāng)監(jiān)測(cè)到出現(xiàn)第一主數(shù)據(jù)庫(kù)類(lèi)故障時(shí),將故障期間生成的所有告警信息暫存在與第一主數(shù)據(jù)庫(kù)連接異常的那個(gè)節(jié)點(diǎn)(即第一主數(shù)據(jù)庫(kù)類(lèi)故障涉及的第二故障節(jié)點(diǎn))的待回寫(xiě)告警信息日志文件中。在第一主數(shù)據(jù)庫(kù)類(lèi)故障尚未解除之前,用戶(hù)登錄上述第二故障節(jié)點(diǎn),可以查閱到完整的告警信息。這里,完整的告警信息包括待回寫(xiě)告警信息日志文件中的告警信息以及存儲(chǔ)于第二故障節(jié)點(diǎn)的第二輔助庫(kù)中存儲(chǔ)的歷史告警信息??偠灾緦?shí)施例所述的告警方法,有效保證了告警信息的完整性,進(jìn)一步提高了高可用集群系統(tǒng)的系統(tǒng)性能。
[0098]另外,第一主數(shù)據(jù)庫(kù)類(lèi)告警信息包括故障標(biāo)識(shí)D (D為DataBase的簡(jiǎn)寫(xiě))和嚴(yán)重級(jí)別標(biāo)識(shí)。類(lèi)似于高可用集群類(lèi)告警信息的顯示,本實(shí)施例所述的方法還包括:將待回寫(xiě)告警信息和第二故障節(jié)點(diǎn)的第二輔助數(shù)據(jù)庫(kù)中的歷史告警信息呈現(xiàn)在高可用集群系統(tǒng)的集群軟件的頁(yè)面上。例如,對(duì)于嚴(yán)重級(jí)別較高的第一主數(shù)據(jù)庫(kù)類(lèi)故障,該故障對(duì)應(yīng)的嚴(yán)重級(jí)別標(biāo)識(shí)為0,則最終呈現(xiàn)在用戶(hù)界面上的圖標(biāo)為紅色字體的“D0”。這樣,采用簡(jiǎn)單明了的圖標(biāo)將第一主數(shù)據(jù)庫(kù)類(lèi)告警信息直觀地呈現(xiàn)在用戶(hù)界面上,使得用戶(hù)能夠在第一時(shí)間了解系統(tǒng)的運(yùn)行狀態(tài)。并且,用戶(hù)能夠及時(shí)根據(jù)快速獲知的告警信息采用相應(yīng)的應(yīng)對(duì)措施,最大程度地減少或避免了可能造成的損失。
[0099]進(jìn)一步地,被存儲(chǔ)在高可用集群系統(tǒng)的各個(gè)數(shù)據(jù)庫(kù)的第一主數(shù)據(jù)庫(kù)類(lèi)告警信息除了上述均與第一主數(shù)據(jù)庫(kù)類(lèi)故障相對(duì)應(yīng)的故障標(biāo)識(shí)和嚴(yán)重級(jí)別標(biāo)識(shí)外,還包括故障來(lái)源標(biāo)識(shí)。例如,嚴(yán)重級(jí)別較高的第一主數(shù)據(jù)庫(kù)類(lèi)告警信息的level標(biāo)示為“0D0”。
[0100]在本發(fā)明一優(yōu)選的實(shí)施例中,仍參照?qǐng)D5,上述監(jiān)測(cè)到高可用集群系統(tǒng)出現(xiàn)第一主數(shù)據(jù)庫(kù)類(lèi)故障時(shí)的告警方法還