一種信息化機房故障點影響范圍分析系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及機房故障點監(jiān)測領(lǐng)域,具體地說是一種信息化機房故障點影響范圍分析系統(tǒng)及方法。
【背景技術(shù)】
[0002]近年來,隨著信息化技術(shù)的普及和大規(guī)模應(yīng)用,各類企、事業(yè)單位建設(shè)了大量的應(yīng)用系統(tǒng),與之相對應(yīng),多數(shù)單位建設(shè)了現(xiàn)代化的信息化機房。作為企業(yè)信息化建設(shè)的基礎(chǔ)設(shè)施,機房具有高復(fù)雜性、高投入性、高技術(shù)密集性和高風(fēng)險性等特點,它的穩(wěn)定運行關(guān)系到企業(yè)的生產(chǎn)安全、信息安全以及日常的業(yè)務(wù)流程處理,在企業(yè)的運轉(zhuǎn)過程中起到了越來越重要的作用。
[0003]目前,大多企業(yè)機房都具備一些保障系統(tǒng),如網(wǎng)絡(luò)管理系統(tǒng)、監(jiān)控系統(tǒng)、消防報警系統(tǒng)等,這些系統(tǒng)在一定程度上提高了機房運行的安全性,但是,這些系統(tǒng)往往只關(guān)注機房運行的單一方面,且技術(shù)路線不統(tǒng)一,數(shù)據(jù)難共享,難以從整體分析故障的位置及影響范圍;另一方面,隨著機房規(guī)模的不斷擴大、網(wǎng)絡(luò)接線的增加、應(yīng)用系統(tǒng)的增多以及應(yīng)用系統(tǒng)間業(yè)務(wù)關(guān)聯(lián)不斷增強,故障點的定位和處理也變得更復(fù)雜,很難通過人工手段來解決。
[0004]目前缺少專門的工具從機房整體考慮、并綜合多種因素來分析故障點可能帶來的影響范圍,以及引起該故障的可能故障源,這給機房的日常維護帶來困難;另一方面,當(dāng)對機房設(shè)備或系統(tǒng)進行檢修時,也難以方便、快速、準(zhǔn)確的評估檢修可能影響到的其它設(shè)備、系統(tǒng)及業(yè)務(wù)流程,從而影響檢修預(yù)案的質(zhì)量,給機房的日常維護帶來潛在的風(fēng)險。
【發(fā)明內(nèi)容】
[0005]針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種可以提高機房的管理水平的信息化機房故障點影響范圍分析系統(tǒng)及方法,用來協(xié)助機房管理人員及時發(fā)現(xiàn)故障點,并通過智能分析,向管理員提供該故障點可能影響到的設(shè)備和應(yīng)用系統(tǒng)。
[0006]本發(fā)明為實現(xiàn)上述目的所采用的技術(shù)方案是:一種信息化機房故障點影響范圍分析系統(tǒng),其中,數(shù)據(jù)采集模塊連接被監(jiān)控對象,采集被監(jiān)控對象的狀態(tài)信息;任務(wù)調(diào)度模塊連接數(shù)據(jù)采集模塊,接收數(shù)據(jù)采集模塊發(fā)送的被監(jiān)控對象的狀態(tài)信息;任務(wù)調(diào)度模塊連接故障信息處理模塊,調(diào)度故障信息處理模塊進行故障判斷;其特征在于:任務(wù)調(diào)度模塊連接故障影響分析模塊,調(diào)度故障影響分析模塊分析故障影響。
[0007]所述任務(wù)調(diào)度模塊為負(fù)責(zé)系統(tǒng)整體業(yè)務(wù)調(diào)度和控制,同時將數(shù)據(jù)進行匯總、緩存和同步的模塊。
[0008]所述故障影響分析模塊為負(fù)責(zé)分析故障點影響范圍的模塊。
[0009]還包括系統(tǒng)運行監(jiān)控模塊與任務(wù)調(diào)度模塊連接,接收任務(wù)調(diào)度模塊的實時數(shù)據(jù),對其運行情況進行監(jiān)控。
[0010]一種信息化機房故障點影響范圍分析方法,包括以下過程:
[0011]步驟1:對機房中設(shè)備和應(yīng)用系統(tǒng)進行數(shù)據(jù)建模,并定義被監(jiān)測對象故障判斷規(guī)則和故障影響范圍判斷規(guī)則;
[0012]步驟2:任務(wù)調(diào)度模塊調(diào)度數(shù)據(jù)采集模塊采集被監(jiān)測對象的實時狀態(tài)信息;
[0013]步驟3:故障信息處理模塊根據(jù)故障判斷規(guī)則判斷當(dāng)前被監(jiān)測對象的故障狀態(tài);
[0014]步驟4:當(dāng)被監(jiān)測對象為故障狀態(tài)時,故障影響分析模塊根據(jù)故障影響范圍判斷規(guī)則判斷當(dāng)前故障影響范圍。
[0015]所述故障判斷規(guī)則為:根據(jù)需求設(shè)定每個被監(jiān)測對象的非故障范圍,則超出非故障范圍判定為故障狀態(tài)。
[0016]所述故障影響范圍判斷規(guī)則包括網(wǎng)絡(luò)拓?fù)渑袛嘁?guī)則和應(yīng)用系統(tǒng)判斷規(guī)則。
[0017]所述網(wǎng)絡(luò)拓?fù)渑袛嘁?guī)則為找出與故障點相關(guān)的網(wǎng)絡(luò)拓?fù)湓O(shè)備,設(shè)備范圍為故障影響范圍。
[0018]所述應(yīng)用系統(tǒng)判斷規(guī)則為找出與故障點相關(guān)的應(yīng)用系統(tǒng),以及與該系統(tǒng)有邏輯關(guān)系的應(yīng)用系統(tǒng),應(yīng)用系統(tǒng)范圍為故障影響范圍。
[0019]本發(fā)明具有以下有益效果及優(yōu)點:
[0020]1.本發(fā)明故障點的判斷以及故障影響范圍分析都采用基于表達(dá)式的規(guī)則定義方式,處理靈活,擴展性強,效率高。
[0021]2.本發(fā)明從機房整體作為分析對象,綜合考慮了設(shè)備、網(wǎng)絡(luò)、應(yīng)用、機房環(huán)境多種因素對故障點進行影響范圍分析,相比現(xiàn)有的其它系統(tǒng),具有更高的判斷準(zhǔn)確性和技術(shù)先進性。
【附圖說明】
[0022]圖1是本發(fā)明的總體結(jié)構(gòu)關(guān)系圖;
[0023]圖2是本發(fā)明的模塊結(jié)構(gòu)圖。
【具體實施方式】
[0024]下面結(jié)合附圖及實施例對本發(fā)明做進一步的詳細(xì)說明。
[0025]如圖1所示為本發(fā)明的總體結(jié)構(gòu)關(guān)系圖,本發(fā)明的系統(tǒng)是一種多層次、模塊化、支持分布式部署的信息化系統(tǒng),它主要可分為三個層次,從下向上依次為數(shù)據(jù)存儲層、平臺功能層和業(yè)務(wù)應(yīng)用層。
[0026]數(shù)據(jù)存儲層由平臺數(shù)據(jù)中心組成,平臺數(shù)據(jù)中心包括了系統(tǒng)運行所依賴的底層的模型定義數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),以及操作這些數(shù)據(jù)的接口方法。
[0027]平臺數(shù)據(jù)中心包括的數(shù)據(jù)主要有監(jiān)控模型數(shù)據(jù)(包括設(shè)備、系統(tǒng)、機房環(huán)境對象信息及監(jiān)測點定義等數(shù)據(jù))、故障判斷規(guī)則模型、故障范圍分析模型等數(shù)據(jù)定義,另外還包括系統(tǒng)運行時采集的業(yè)務(wù)數(shù)據(jù)和生成的日志信息。這些數(shù)據(jù)的存儲方式有多種選擇方式,如數(shù)據(jù)庫、文件等。
[0028]平臺數(shù)據(jù)中心可以獨立部署,也可以與整個系統(tǒng)共同部署,它提供數(shù)據(jù)訪問接口供上層應(yīng)用調(diào)用,提高了系統(tǒng)部署的靈活性。
[0029]如圖1所示,平臺功能層是系統(tǒng)的核心部分,它又可以進一步分為任務(wù)調(diào)度模塊、數(shù)據(jù)采集模塊、故障信息處理模塊、故障影響分析模塊、系統(tǒng)運行監(jiān)控模塊等幾部分。
[0030]平臺系統(tǒng)初始化的時候,會通過平臺數(shù)據(jù)中心加載各種模型數(shù)據(jù)、網(wǎng)絡(luò)拓?fù)湫畔ⅰ?yīng)用系統(tǒng)關(guān)系數(shù)據(jù)、故障判斷規(guī)則、故障影響范圍規(guī)則等基礎(chǔ)數(shù)據(jù),特別是對網(wǎng)絡(luò)拓?fù)湫畔?、?yīng)用系統(tǒng)關(guān)系數(shù)據(jù),平臺會根據(jù)它們的邏輯關(guān)系生成有向圖模型,以便于數(shù)據(jù)的遍歷和處理。
[0031]如圖2所示為本發(fā)明的模塊結(jié)構(gòu)圖,任務(wù)調(diào)度模塊與數(shù)據(jù)采集模塊是兩個相對獨立的子系統(tǒng),可以分布式部署,通過網(wǎng)絡(luò)實現(xiàn)互聯(lián),提高系統(tǒng)的靈活性和擴展性。任務(wù)調(diào)度模塊是系統(tǒng)的核心業(yè)務(wù)調(diào)度模塊,同時負(fù)責(zé)業(yè)務(wù)數(shù)據(jù)的緩存及同步;數(shù)據(jù)采集模塊涵蓋了數(shù)據(jù)采集協(xié)議的解析、采集數(shù)據(jù)處理、數(shù)據(jù)采集等底層功能,實現(xiàn)外部監(jiān)測數(shù)據(jù)的接入。
[0032]故障信息處理模塊的運行依賴任務(wù)調(diào)度模塊,它以采集數(shù)據(jù)、故障判斷規(guī)則為基礎(chǔ)數(shù)據(jù)進行計算,完成監(jiān)控點狀態(tài)的判斷,實現(xiàn)故障信息的生成和日志記錄。
[0033]故障影響分析模塊由任務(wù)調(diào)用模塊調(diào)用,它以故障信息處理模塊生成的報警信息、故障范圍分析規(guī)則為基礎(chǔ)數(shù)據(jù)進行分析計算,得出當(dāng)前故障影響的范圍,或者引起當(dāng)前故障的潛在故障源信息。
[0034]系統(tǒng)運行監(jiān)控模塊,是平臺管理員對平臺運行情況進行監(jiān)控的接口,保證系統(tǒng)的安全穩(wěn)定運行。
[0035]業(yè)務(wù)應(yīng)用層根據(jù)具體的業(yè)務(wù)需求,提供用戶與系統(tǒng)交互的人機界面,完成用戶的業(yè)務(wù)操作。它分為應(yīng)用控制中心和各類應(yīng)用頁面兩部分,應(yīng)用控制中心負(fù)責(zé)平臺核心模塊與業(yè)務(wù)頁面的連接,實現(xiàn)業(yè)務(wù)模型分析、業(yè)務(wù)數(shù)據(jù)處理、頁面數(shù)據(jù)解析、數(shù)據(jù)質(zhì)量校驗等核心功能;各類應(yīng)用頁面負(fù)責(zé)數(shù)據(jù)的顯示和對用戶操作的響應(yīng)。
【主權(quán)項】
1.一種信息化機房故障點影響范圍分析系統(tǒng),其中,數(shù)據(jù)采集模塊連接被監(jiān)控對象,采集被監(jiān)控對象的狀態(tài)信息;任務(wù)調(diào)度模塊連接數(shù)據(jù)采集模塊,接收數(shù)據(jù)采集模塊發(fā)送的被監(jiān)控對象的狀態(tài)信息;任務(wù)調(diào)度模塊連接故障信息處理模塊,調(diào)度故障信息處理模塊進行故障判斷;其特征在于:任務(wù)調(diào)度模塊連接故障影響分析模塊,調(diào)度故障影響分析模塊分析故障影響。2.根據(jù)權(quán)利要求1所述的信息化機房故障點影響范圍分析系統(tǒng),其特征在于:所述任務(wù)調(diào)度模塊為負(fù)責(zé)系統(tǒng)整體業(yè)務(wù)調(diào)度和控制,同時將數(shù)據(jù)進行匯總、緩存和同步的模塊。3.根據(jù)權(quán)利要求1所述的信息化機房故障點影響范圍分析系統(tǒng),其特征在于:所述故障影響分析模塊為負(fù)責(zé)分析故障點影響范圍的模塊。4.根據(jù)權(quán)利要求1所述的信息化機房故障點影響范圍分析系統(tǒng),其特征在于:還包括系統(tǒng)運行監(jiān)控模塊與任務(wù)調(diào)度模塊連接,接收任務(wù)調(diào)度模塊的實時數(shù)據(jù),對其運行情況進行監(jiān)控。5.一種信息化機房故障點影響范圍分析方法,其特征在于,包括以下過程: 步驟1:對機房中設(shè)備和應(yīng)用系統(tǒng)進行數(shù)據(jù)建模,并定義被監(jiān)測對象故障判斷規(guī)則和故障影響范圍判斷規(guī)則; 步驟2:任務(wù)調(diào)度模塊調(diào)度數(shù)據(jù)采集模塊采集被監(jiān)測對象的實時狀態(tài)信息; 步驟3:故障信息處理模塊根據(jù)故障判斷規(guī)則判斷當(dāng)前被監(jiān)測對象的故障狀態(tài); 步驟4:當(dāng)被監(jiān)測對象為故障狀態(tài)時,故障影響分析模塊根據(jù)故障影響范圍判斷規(guī)則判斷當(dāng)前故障影響范圍。6.根據(jù)權(quán)利要求5所述的信息化機房故障點影響范圍分析方法,其特征在于,所述故障判斷規(guī)則為:根據(jù)需求設(shè)定每個被監(jiān)測對象的非故障范圍,則超出非故障范圍判定為故障狀態(tài)。7.根據(jù)權(quán)利要求5所述的信息化機房故障點影響范圍分析方法,其特征在于:所述故障影響范圍判斷規(guī)則包括網(wǎng)絡(luò)拓?fù)渑袛嘁?guī)則和應(yīng)用系統(tǒng)判斷規(guī)則。8.根據(jù)權(quán)利要求7所述的信息化機房故障點影響范圍分析方法,其特征在于:所述網(wǎng)絡(luò)拓?fù)渑袛嘁?guī)則為找出與故障點相關(guān)的網(wǎng)絡(luò)拓?fù)湓O(shè)備,設(shè)備范圍為故障影響范圍。9.根據(jù)權(quán)利要求7所述的信息化機房故障點影響范圍分析方法,其特征在于:所述應(yīng)用系統(tǒng)判斷規(guī)則為找出與故障點相關(guān)的應(yīng)用系統(tǒng),以及與該系統(tǒng)有邏輯關(guān)系的應(yīng)用系統(tǒng),應(yīng)用系統(tǒng)范圍為故障影響范圍。
【專利摘要】本發(fā)明涉及一種信息化機房故障點影響范圍分析系統(tǒng)及方法,數(shù)據(jù)采集模塊連接被監(jiān)控對象,任務(wù)調(diào)度模塊連接數(shù)據(jù)采集模塊、故障信息處理模塊和故障影響分析模塊;對機房中設(shè)備和應(yīng)用系統(tǒng)進行數(shù)據(jù)建模,并定義被監(jiān)測對象故障判斷規(guī)則和故障影響范圍判斷規(guī)則;任務(wù)調(diào)度模塊調(diào)度數(shù)據(jù)采集模塊采集被監(jiān)測對象的實時狀態(tài)信息;故障信息處理模塊根據(jù)故障判斷規(guī)則判斷當(dāng)前被監(jiān)測對象的故障狀態(tài);當(dāng)被監(jiān)測對象為故障狀態(tài)時,故障影響分析模塊根據(jù)故障影響范圍判斷規(guī)則判斷當(dāng)前故障影響范圍。本發(fā)明適合設(shè)備眾多、接線復(fù)雜、業(yè)務(wù)系統(tǒng)間關(guān)系復(fù)雜的大型機房,尤其是對安全性要求較高的能源、電力、國防、政府等各類企、事業(yè)單位信息化機房。
【IPC分類】H04L12/24
【公開號】CN105591788
【申請?zhí)枴緾N201410652779
【發(fā)明人】韓嵩峰, 王漢軍, 向勇, 李喜旺, 張千里, 李丹, 代宇
【申請人】中國科學(xué)院沈陽計算技術(shù)研究所有限公司
【公開日】2016年5月18日
【申請日】2014年11月14日