一種面向超級計算機的分布式層次化自主監(jiān)控管理系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種面向超級計算機的分布式層次化自主監(jiān)控管理系統(tǒng),將大規(guī)模超級計算機管理系統(tǒng)進行邏輯分區(qū);在分區(qū)內(nèi)部通過構建多層次自主元素實現(xiàn)自主管理。監(jiān)控管理系統(tǒng)MMS實現(xiàn)對系統(tǒng)資源管理,告警信息管理和系統(tǒng)配置信息的管理,系統(tǒng)管理員通過監(jiān)控管理軟件可以了解系統(tǒng)當前的健康狀況、使用情況和功耗及運行環(huán)境狀態(tài)。同時系統(tǒng)采用統(tǒng)一監(jiān)控管理策略從而實現(xiàn)統(tǒng)一的分布式管理。
【專利說明】
一種面向超級計算機的分布式層次化自主監(jiān)控管理系統(tǒng)
技術領域
[0001]本發(fā)明涉及分布式計算管理領域,具體來說,提供了一種面向超級計算機的分布式層次化自主監(jiān)控管理系統(tǒng)。
【背景技術】
[0002]超級計算機系統(tǒng)結構不同,其監(jiān)控管理軟件架構也不盡相同。目前比較典型的集群管理軟件包括〖311〖1丨&,11&〖;[08,8即61'1]1011和卩&1'1]1011。
[0003]Ganglia是UC Berkeley發(fā)起的一個開源監(jiān)控項目。Ganglia是目前應用最為廣泛的集群監(jiān)控軟件之一。Ganglia能夠得到廣泛的應用主要得益于以下三點:l)Ganglia是一個開源項目。2) Gang I i a采用分級的樹狀體系結構,該結構使得Gang I i a具有良好的可擴展性,可支持不同規(guī)模的集群系統(tǒng)。3)Ganglia采用基于XML技術的數(shù)據(jù)傳輸機制,因此監(jiān)控信息可以跨越不同的平臺進行交互。Ganglia將結點劃分成不同的區(qū)域,區(qū)域內(nèi)的結點通過多播進行信息交互,因此每個結點都維護了一張本區(qū)域內(nèi)所有結點狀態(tài)的列表。這種組織方式使得Ganglia在不進行任何配置的情況下進行結點的刪除與添加,但是其帶來的代價很大。首先多播導致監(jiān)控數(shù)據(jù)占用了系統(tǒng)網(wǎng)絡帶寬,其次每個結點都維護了一張本區(qū)域內(nèi)的結點狀態(tài)表,當區(qū)域較大時,這些全局冗余的數(shù)據(jù)的更新效率低下。
[0004]Nag1s是由Ethan Galstad開發(fā)的一款基于GPLv2的開源軟件,用于對系統(tǒng)運行狀態(tài)和網(wǎng)絡信息進行監(jiān)控,也是當前使用廣泛的監(jiān)控軟件之一川。其主要功能包括:網(wǎng)絡服務監(jiān)控(SMTP,P0P3,HTTP,NNTP,ICMP,SNMP等)和主機資源監(jiān)控(CPU負載、硬盤利用率和系統(tǒng)日志)Jag1s與Ganglia都可用于高性能計算環(huán)境中,但是這兩者對監(jiān)控的側(cè)重點不同。Ganglia更多地收集監(jiān)控數(shù)據(jù)并隨時跟蹤這些數(shù)據(jù)而Nag1s則致力于成為一種報警機制。
[0005]Supermon是美國洛斯阿拉莫斯國家高級計算實驗室開發(fā)的一套面向Iinux集群的監(jiān)控系統(tǒng)。集群中的每個結點上都運行一個定制的內(nèi)核模塊mon,因此其信息采集效率高。Supermon依次與所有的mon進行通信來獲取監(jiān)控信息。Supermon是監(jiān)控系統(tǒng)中的單一失效點,同時Supermon由于需要串行訪問所有結點上的mon模塊導致在大規(guī)模系統(tǒng)中監(jiān)控效率下降。
[0006]Parmon是由印度高性能計算中心為PAR-MON集群開發(fā)的監(jiān)控軟件。該軟件采用c/s結構,每個結點上運行一個server程序負責本地信息收集,Client負責集中管理與信息顯示。當系統(tǒng)規(guī)模較大時Client收集全系統(tǒng)信息需要的時間較長從而導致監(jiān)控軟件的實時性差。
[0007]上述管理軟件在一定規(guī)模的集群系統(tǒng)上可以高效運行,但是當系統(tǒng)規(guī)摸不斷擴大時,這些管理軟件面臨如下問題,這也是超級計算機系統(tǒng)的監(jiān)控管理所面臨的問題。
[0008]I)實時性。當計算機系統(tǒng)規(guī)模擴大時,監(jiān)控管理系統(tǒng)是否能夠繼續(xù)高效對系統(tǒng)進行管理與監(jiān)控。隨著應用需求的增長,系統(tǒng)規(guī)模擴大、性能提高是計算機系統(tǒng)的發(fā)展趨勢。根據(jù)top500統(tǒng)計結果,2012年11月發(fā)布的top50。中排名第一的系統(tǒng)理論峰值27112TFlops,包括560 640個CPU核,一年后排名第一的系統(tǒng)性能提升到54902TFlops,規(guī)模擴展到3120OOO個CPU核。系統(tǒng)性能翻了一翻,系統(tǒng)規(guī)模擴大了 5倍多。傳統(tǒng)的集中式監(jiān)控已經(jīng)無法適用于如此大規(guī)模的計算機系統(tǒng)。因此如何提高監(jiān)控管理系統(tǒng)的實時性是超級計算機系統(tǒng)監(jiān)控管理軟件面臨的問題之一。
[0009]2)可靠性。監(jiān)控管理軟件是超級計算機系統(tǒng)可靠性運行的保障之一,因此監(jiān)控管理系統(tǒng)自身的可靠性是首先要解決的問題。
[00?0] 3)完備性。目前的監(jiān)控管理軟件基本上側(cè)重于某個功能。例如Ganglia,Supermon和Permon都側(cè)重于系統(tǒng)資源的監(jiān)控,而Nag1s則是側(cè)重于對異常狀態(tài)的管理。監(jiān)控管理軟件是提高超級計算機系統(tǒng)可靠性和可用性的關鍵,因此功能完備的監(jiān)控管理軟件才能更好實現(xiàn)對超級計算機系統(tǒng)的管理。
[0011]4)自組織性。如此龐大的超級計算機規(guī)模,要向完全發(fā)揮超級計算機系統(tǒng)的性能,完全靠人為管理和干預必然會導致性能的下降。因此需要提高系統(tǒng)的自主管理能力。監(jiān)控管理軟件如何基于數(shù)據(jù)環(huán)境自適應的改變管理策略,也是面臨的問題之一。
[0012]5)可擴展性。超級計算機系統(tǒng)必須是可擴展的,可擴展包括規(guī)模(資源)可擴展、時間可擴展(升級)、性能可擴展、軟件可擴展,前三項特點和超級計算機自身相關,而軟件可擴展更是不僅針對超級計算機系統(tǒng)運行時的業(yè)務軟件,同時針對超級計算機管理系統(tǒng)軟件。
[0013]此外,從管理層次角度來看,自主計算管理體系結構重點研究多個自主元素之間的組織關系,從已有的研究看主要包括層次結構、對等結構、混合結構即層次和對等結構的結合。在層次結構中,上層自主管理者(AM)可以向其下層AM傳遞控制信息(Cl),下層AM則向其上層AM傳遞狀態(tài)信息(SI);上層AM控制系統(tǒng)的宏觀自主特性,Cl型出度為零的AM為底層自主管理者,實現(xiàn)微觀控制。例如,基于控制論和效用函數(shù)優(yōu)化的兩層自主計算系統(tǒng)。在對等結構中,參與協(xié)作的AM不存在等級關系,控制信息和狀態(tài)信息的傳遞是雙向的,系統(tǒng)的全局自主特性通常是在個體的局部交互中“涌現(xiàn)”出來,例如,基于自組織涌現(xiàn)理論的體系結構。在這種體系結構中,AM的關系是對等的,不存在管理全局自治行為的AM,即系統(tǒng)宏觀自主特性是在AM的局部交互中產(chǎn)生的。在混合結構中,上層AM可以向其下層AM傳遞控制信息(Cl),下層AM向其上層AM傳遞狀態(tài)信息(SI);上層AM控制系統(tǒng)的宏觀自主特性,下層AM則基于上層AM提供的約束、通過交互實現(xiàn)該層的宏觀特性。例如,把自主系統(tǒng)分為二層:上層是資源仲裁者,負責全局的資源分配,實現(xiàn)全局效用的最大化;下層是應用管理者,對于給定的資源,應用管理者通過調(diào)整局部參數(shù),實現(xiàn)本地效用的最大化。應用管理者把本地服務級效用函數(shù)轉(zhuǎn)化為資源仲裁者使用的資源級效用函數(shù),資源仲裁者通過計算系統(tǒng)級的效用得到全局的資源分配方案,并以此來調(diào)整下層應用管理者的行為。
【發(fā)明內(nèi)容】
[0014]為解決上述缺陷,本發(fā)明提供了一種面向超級計算機的分布式層次化自主監(jiān)控管理系統(tǒng)。具體包括如下技術方案:
[0015]一種面向超級計算機的分布式層次化自主監(jiān)控管理系統(tǒng),其特征在于:監(jiān)控管理系統(tǒng)采用分布式系統(tǒng)結構,分為三個層次,底層結點由所有的被管理設備組成,中間層包括多個中間代理,最頂層是多個管理結點,最底層的每個結點上運行一個信息采集模塊daemon,負責采集結點的資源信息,包括結點配置、結點資源使用情況,結點負載,結點的用戶及進程信息;
[0016]監(jiān)控管理系統(tǒng)提供基于web的用戶訪問界面,管理員可以在遠程或本地訪問MMS。MMS實現(xiàn)了對系統(tǒng)資源管理,告警信息管理和系統(tǒng)配置信息的管理,資源管理是MMS的主要功能之一資源管理包括軟件資源信息和硬件信息,軟件資源主要包括系統(tǒng)資源、結點狀態(tài)和全局存儲信息,系統(tǒng)資源主要包括系統(tǒng)所有結點的狀態(tài)和作業(yè)信息,包括結點是否空閑和可用、作業(yè)的運行狀態(tài)、排隊狀態(tài)等,結點狀態(tài)包括單個結點上的可用資源例如CPU、內(nèi)存的利用率等。全局存儲信息主要顯示全局存儲資源的使用和健康狀態(tài),硬件信息主要包括電壓、溫度、風扇信息、運行環(huán)境相關信息和系統(tǒng)功耗管理,系統(tǒng)管理員通過監(jiān)控管理軟件了解系統(tǒng)當前的健康狀況、使用情況和功耗及運行環(huán)境狀態(tài);
[0017]監(jiān)控管理系統(tǒng)采用統(tǒng)一監(jiān)控管理策略,所述統(tǒng)一監(jiān)控管理策略內(nèi)容如下:
[0018]策略分類:依據(jù)全局監(jiān)控管理策略劃分為若干類別,包括:交換機、磁盤陣列、操作系統(tǒng)、磁帶庫、數(shù)據(jù)庫、硬件信息;策略抽象:各層次自主元素從同一類型不同廠商產(chǎn)品的監(jiān)控管理策略中,抽象出該類型產(chǎn)品的統(tǒng)一監(jiān)控管理策略格式;策略描述:在上述監(jiān)控管理策略分類的基礎上,各層次自主元素實現(xiàn)對各個種類的監(jiān)控管理策略進行統(tǒng)一描述;策略組合:將監(jiān)控管理策略分為直接策略和間接策略兩種,其中,直接策略是通過策略轉(zhuǎn)換直接實施到具體設備或應用上的,而間接策略則由一組直接策略或間接策略組合而成;策略配置:實現(xiàn)將統(tǒng)一策略轉(zhuǎn)換為具體設備策略的監(jiān)控管理策略處理模塊,另外再實現(xiàn)將具體設備策略分發(fā)到設備或應用上的設備監(jiān)管驅(qū)動和中間代理模塊。
[0019]進一步的,所述方案還具有如下特點:
[°02°]結點信息采集模塊包括帶內(nèi)daemon和帶外OOB-mon模塊,Daemon運行在結點上,負責采集本地信息,OOB-mon是結點的帶外監(jiān)控程序,負責一個或多個結點的硬件狀態(tài)監(jiān)控。OOB-mon和daemon采集到的信息發(fā)送到對應的中間代理模塊。
[0021 ]進一步的,所述方案還具有如下特點:
[0022]管理結點提供基于web的監(jiān)控服務,用戶通過瀏覽器可以實現(xiàn)系統(tǒng)的遠程和本地監(jiān)控,管理結點上的報警信息處理模塊負責接收系統(tǒng)內(nèi)所有的報警消息,對報警消息進行解析并存儲到數(shù)據(jù)庫,同時將報警消息發(fā)送到客戶端。
[0023]進一步的,所述方案還具有如下特點:
[0024]被管理網(wǎng)絡由節(jié)點組成。設一個邏輯分區(qū)內(nèi)被管理節(jié)點個數(shù)為n,每個節(jié)點上均有一個中間代理,該代理有一個全局唯一標識(IDl),并作為先驗知識被本分區(qū)內(nèi)其他中間代理所知,整個分區(qū)內(nèi)任意兩中間代理間都可以通過消息互相傳遞信息,即為全連接拓撲結構,整個分區(qū)代理的集合可以用{100,101,102,……IDN-1}表示,在每個邏輯分區(qū)內(nèi),由一個管理節(jié)點對分區(qū)內(nèi)的中間代理進行管理。
[0025]進一步的,所述方案還具有如下特點:
[0026]Daemon將采集到的信息分成兩類,其中一類是靜態(tài)信息,另一類是動態(tài)信息。所述靜態(tài)信息包括CPU的型號、內(nèi)存的型號及容量,網(wǎng)絡理論帶寬和本地存儲容量信息。所述動態(tài)信息包括CPU、內(nèi)存和網(wǎng)絡利用率,作業(yè)負載信息。
【附圖說明】
[0027]圖1是本發(fā)明的MMS功能示意圖;
[0028]圖2是本發(fā)明的監(jiān)控系統(tǒng)結構圖;
[0029]圖3是本發(fā)明的中間代理的組織結構圖;
【具體實施方式】
[0030]以下根據(jù)附圖,詳細說明本發(fā)明的實施例。說明本發(fā)明時如果對該發(fā)明相關的通知功能或結構的說明不必要時可以省略該部分的說明。還有后述的功能都是考慮到本發(fā)明而定義的功能,該功能根據(jù)運用者的意愿或慣例而可變,所以該定義是應該基于本說明書的全部內(nèi)容而決定的。
[0031]超級計算機系統(tǒng)規(guī)模龐大,節(jié)點數(shù)目成千上萬,系統(tǒng)設備復雜,系統(tǒng)中除了計算結點外還包括存儲設備、互連設備和基礎架構(包括供電和制冷)等,因此監(jiān)控管理系統(tǒng)需要在對系統(tǒng)軟件資源管理的同時,對這些硬件設備進行監(jiān)測與控制,實現(xiàn)一個功能完備的監(jiān)控管理系統(tǒng)。
[0032]監(jiān)控管理系統(tǒng)MMS提供了基于web的用戶訪問界面,管理員可以在遠程或本地訪問MMS JMS實現(xiàn)了對系統(tǒng)資源管理,告警信息管理和系統(tǒng)配置信息的管理,其主要功能如圖1所示。資源管理是MMS的主要功能之一資源管理包括軟件資源信息和硬件信息。軟件資源主要包括系統(tǒng)資源、結點狀態(tài)和全局存儲信息。系統(tǒng)資源主要包括系統(tǒng)所有結點的狀態(tài)和作業(yè)信息,包括結點是否空閑和可用、作業(yè)的運行狀態(tài)、排隊狀態(tài)等。結點狀態(tài)包括單個結點上的可用資源例如CPU、內(nèi)存等的利用率等。全局存儲信息主要顯示全局存儲資源的使用和健康狀態(tài)。硬件信息主要包括電壓、溫度、風扇等信息、運行環(huán)境相關信息和系統(tǒng)功耗管理。系統(tǒng)管理員通過監(jiān)控管理軟件可以了解系統(tǒng)當前的健康狀況、使用情況和功耗及運行環(huán)境狀態(tài)。
[0033]同時,MMS采用統(tǒng)一監(jiān)控管理策略,所述統(tǒng)一監(jiān)控管理策略內(nèi)容如下:
[0034]策略分類:依據(jù)全局監(jiān)控管理策略劃分為若干類別,包括:交換機、磁盤陣列、操作系統(tǒng)、磁帶庫、數(shù)據(jù)庫、硬件信息;
[0035]策略抽象:各層次自主元素從同一類型不同廠商產(chǎn)品的監(jiān)控管理策略中,抽象出該類型產(chǎn)品的統(tǒng)一監(jiān)控管理策略格式;
[0036]策略描述:在上述監(jiān)控管理策略分類的基礎上,各層次自主元素實現(xiàn)對各個種類的監(jiān)控管理策略進行統(tǒng)一描述;
[0037]策略組合:將監(jiān)控管理策略分為直接策略和間接策略兩種,其中,直接策略是可以通過策略轉(zhuǎn)換直接實施到具體設備或應用上的,而間接策略則由一組直接策略或間接策略組合而成;
[0038]策略配置:實現(xiàn)將統(tǒng)一策略轉(zhuǎn)換為具體設備策略的監(jiān)控管理策略處理模塊,另外再實現(xiàn)將具體設備策略分發(fā)到設備或應用上的設備監(jiān)管驅(qū)動和中間代理模塊。
[0039]MMS采用分布式系統(tǒng)結構如圖2所示。MMS系統(tǒng)分為3個層次。底層結點由所有的被管理設備組成,中間層包括多個中間代理,最頂層是兩個管理結點。最底層的每個結點上運行一個信息采集模塊daemon,負責采集結點的資源信息,包括結點配置、結點資源(CPU、內(nèi)存、網(wǎng)絡、本地存儲等)使用情況,結點負載,結點的用戶及進程等相關信息。OOB-mon是結點的帶外監(jiān)控程序,負責一個或多個結點的硬件狀態(tài)監(jiān)控。OOB-mon和daemon采集到的信息發(fā)送到對應的client。在圖2中,帶箭頭的實線表示數(shù)據(jù)通過計算網(wǎng)絡進行傳輸,帶箭頭的虛線表示數(shù)據(jù)通過監(jiān)控管理網(wǎng)絡進行傳輸。從圖2可以看出daemon與client之間的通信需要經(jīng)過計算網(wǎng)絡,對計算網(wǎng)絡帶來一定的影響。而OOB-mon與c I i ent之間通過專用的監(jiān)控管理網(wǎng)絡進行互連,因此帶外管理對系統(tǒng)性能沒有影響。Client是中間代理模塊,負責接收來自所管轄范圍內(nèi)結點信息采集模塊發(fā)送的信息,雙機熱備的兩個管理結點負責管理中間代理同時向用戶提供基于web的人機交互界面。中間代理和管理結點上都使用mysql數(shù)據(jù)庫來存儲信息。
[°04°]結點信息采集模塊包括帶內(nèi)daemon和帶外OOB-mon模塊。Daemon運行在結點上,負責采集本地信息。Daemon將采集到的信息分成兩類。其中一類是靜態(tài)信息,主要是系統(tǒng)配置信息,例如:CPU的型號、內(nèi)存的型號及容量,網(wǎng)絡理論帶寬和本地存儲容量等信息。另一類是動態(tài)信息,包括CPU、內(nèi)存和網(wǎng)絡利用率,作業(yè)負載等動態(tài)變化的信息。因為改變結點配置時通常情況下需要重新啟動結點才能生效,此時daemon程序也將被重啟,所以只有在dae-mon 程序每次重啟之后進行一次靜態(tài)信息采集。 Daemon 啟動后 ,等待接收來自中間代理的信息,然后開始查詢。將查詢的靜態(tài)信息和首次查詢(包括daemon啟動后的第一次和中間代理發(fā)生變化后的第一次查詢)的動態(tài)信息發(fā)送到中間代理,后續(xù)的查詢只針對動態(tài)信息。動態(tài)信息查詢的結果與上次的狀態(tài)進行比較,標記發(fā)生了變化的信息,將信息采集結果以及比較結果存放到公共數(shù)據(jù)區(qū)。中間代理在查詢過程中只需要訪問公共數(shù)據(jù)區(qū)即可。中間代理和結點之間只傳輸發(fā)生了變化的數(shù)據(jù)。這種策略減少了計算網(wǎng)絡上傳輸?shù)谋O(jiān)控管理數(shù)據(jù)量,從而降低對計算網(wǎng)絡的影響。
[0041]中間代理層由多個中間代理組成。每個中間代理負責所屬分區(qū)內(nèi)結點的監(jiān)控。如圖3所示,中間代理包括4個功能模塊。結點監(jiān)聽模塊負責接收來自結點的靜態(tài)信息和首次查詢的動態(tài)信息。信息組播模塊定時向所屬分區(qū)內(nèi)的結點發(fā)送中間代理的相關信息,保證故障結點恢復后知道自己所在分區(qū)。查詢模塊定時對所屬結點進行動態(tài)信息查詢,將查詢的信息存儲到本地數(shù)據(jù)庫。
[0042]管理結點提供了基于web的監(jiān)控服務,用戶通過瀏覽器可以實現(xiàn)系統(tǒng)的遠程和本地監(jiān)控。管理結點上的報警信息處理模塊負責接收系統(tǒng)內(nèi)所有的報警消息,對報警消息進行解析并存儲到數(shù)據(jù)庫,同時將報警消息發(fā)送到客戶端。
[0043]在本發(fā)明中,從網(wǎng)絡管理角度來看,被管理網(wǎng)絡由基本的被管元素節(jié)點組成。設一個邏輯分區(qū)內(nèi)被管理節(jié)點個數(shù)為n,每個節(jié)點上均有一個中間代理,該代理有一個全局唯一標識(IDl),并作為先驗知識被本分區(qū)內(nèi)其他中間代理所知,整個分區(qū)內(nèi)任意兩中間代理間都可以通過消息互相傳遞信息,即為全連接拓撲結構,整個分區(qū)代理的集合可以用{IDO,IDl,ID2,……IDN-1}表示。在每個邏輯分區(qū)內(nèi),由一個管理節(jié)點對分區(qū)內(nèi)的中間代理進行管理。管理節(jié)點和中間代理之間依據(jù)集中式管理模式協(xié)作,即管理節(jié)點指示中間代理進行特定的操作或提供特定的信息,中間代理返回操作結果或被要求的信息;管理節(jié)點之間則依據(jù)一定的分布式協(xié)同模式完成管理任務。
[0044]本發(fā)明利用分治思想設計了超級計算機的自主管理系統(tǒng)?;诙噙壿嫹謪^(qū)動態(tài)管理方式,把大規(guī)模計算機系統(tǒng)根據(jù)一定策略進行邏輯分區(qū),每個分區(qū)內(nèi)部實現(xiàn)自主管理,以適應系統(tǒng)規(guī)模的擴展。每個分區(qū)內(nèi)部,構建多層次自主元素進行管理,在多個分區(qū)的上層,構建高一級的自主元素實現(xiàn)系統(tǒng)級管理。每一級自主元素支持可擴展性,在新增設備或修改特征參數(shù)時系統(tǒng)不停機,實現(xiàn)系統(tǒng)的自配置。
[0045]到目前為止著重說明的是關于本發(fā)明的實施例。在屬于本發(fā)明的技術領域里擁有常規(guī)的知識的人可以看出本發(fā)明并沒有超出本質(zhì),只是一個稍微變型的一種,所以把上述的實施例不要理解為有限的觀點應理解為說明性的觀點。本發(fā)明的范圍不是上述的說明而體現(xiàn)在權利要求范圍內(nèi),至于其它在同一范圍內(nèi)的所有的差別應當理解成都包括在本發(fā)明里。
【主權項】
1.一種面向超級計算機的分布式層次化自主監(jiān)控管理系統(tǒng),其特征在于:監(jiān)控管理系統(tǒng)采用分布式系統(tǒng)結構,分為三個層次,底層結點由所有的被管理設備組成,中間層包括多個中間代理,最頂層是多個管理結點,最底層的每個結點上運行一個信息采集模塊daemon,負責采集結點的資源信息,包括結點配置、結點資源使用情況,結點負載,結點的用戶及進程信息; 監(jiān)控管理系統(tǒng)提供基于web的用戶訪問界面,管理員在遠程或本地訪問MMS,MMS實現(xiàn)了對系統(tǒng)資源管理,告警信息管理和系統(tǒng)配置信息的管理,資源管理是MMS的主要功能之一資源管理包括軟件資源信息和硬件信息,軟件資源主要包括系統(tǒng)資源、結點狀態(tài)和全局存儲信息,系統(tǒng)資源主要包括系統(tǒng)所有結點的狀態(tài)和作業(yè)信息,包括結點是否空閑和可用、作業(yè)的運行狀態(tài)、排隊狀態(tài),結點狀態(tài)包括單個結點上的可用資源例如CPU、內(nèi)存的利用率,全局存儲信息主要顯示全局存儲資源的使用和健康狀態(tài),硬件信息主要包括電壓、溫度、風扇信息、運行環(huán)境相關信息和系統(tǒng)功耗管理,系統(tǒng)管理員通過監(jiān)控管理軟件了解系統(tǒng)當前的健康狀況、使用情況和功耗及運行環(huán)境狀態(tài); 監(jiān)控管理系統(tǒng)采用統(tǒng)一監(jiān)控管理策略,所述統(tǒng)一監(jiān)控管理策略內(nèi)容如下: 策略分類:依據(jù)全局監(jiān)控管理策略劃分為若干類別,包括:交換機、磁盤陣列、操作系統(tǒng)、磁帶庫、數(shù)據(jù)庫、硬件信息;策略抽象:各層次自主元素從同一類型不同廠商產(chǎn)品的監(jiān)控管理策略中,抽象出該類型產(chǎn)品的統(tǒng)一監(jiān)控管理策略格式;策略描述:在上述監(jiān)控管理策略分類的基礎上,各層次自主元素實現(xiàn)對各個種類的監(jiān)控管理策略進行統(tǒng)一描述;策略組合:將監(jiān)控管理策略分為直接策略和間接策略兩種,其中,直接策略是通過策略轉(zhuǎn)換直接實施到具體設備或應用上的,而間接策略則由一組直接策略或間接策略組合而成;策略配置:實現(xiàn)將統(tǒng)一策略轉(zhuǎn)換為具體設備策略的監(jiān)控管理策略處理模塊,另外再實現(xiàn)將具體設備策略分發(fā)到設備或應用上的設備監(jiān)管驅(qū)動和中間代理模塊。2.如權利要求1所述的系統(tǒng),其特征在于:結點信息采集模塊包括帶內(nèi)daemon和帶外OOB-mon模塊,Daemon運行在結點上,負責采集本地信息,OOB-mon是結點的帶外監(jiān)控程序,負責一個或多個結點的硬件狀態(tài)監(jiān)控,OOB-mon和daemon采集到的信息發(fā)送到對應的中間代理模塊。3.如權利要求1所述的系統(tǒng),其特征在于:管理結點提供基于web的監(jiān)控服務,用戶通過瀏覽器實現(xiàn)系統(tǒng)的遠程和本地監(jiān)控,管理結點上的報警信息處理模塊負責接收系統(tǒng)內(nèi)所有的報警消息,對報警消息進行解析并存儲到數(shù)據(jù)庫,同時將報警消息發(fā)送到客戶端。4.如權利要求1所述的系統(tǒng),其特征在于:被管理網(wǎng)絡由節(jié)點組成,設一個邏輯分區(qū)內(nèi)被管理節(jié)點個數(shù)為n,每個節(jié)點上均有一個中間代理,該代理有一個全局唯一標識IDl,并作為先驗知識被本分區(qū)內(nèi)其他中間代理所知,整個分區(qū)內(nèi)任意兩中間代理間都通過消息互相傳遞信息,即為全連接拓撲結構,整個分區(qū)代理的集合用{IDO,IDl,ID2,……IDN-1}表示,在每個邏輯分區(qū)內(nèi),由一個管理節(jié)點對分區(qū)內(nèi)的中間代理進行管理。5.如權利要求3所述的系統(tǒng),其特征在于:Daemon將采集到的信息分成兩類,其中一類是靜態(tài)息,另一類是動態(tài)信息。6.如權利要求5所述的系統(tǒng),其特征在于:所述靜態(tài)信息包括CPU的型號、內(nèi)存的型號及容量,網(wǎng)絡理論帶寬和本地存儲容量信息。7.如權利要求5所述的系統(tǒng),其特征在于:所述動態(tài)信息包括CPU、內(nèi)存和網(wǎng)絡利用率,作業(yè)負載信息。
【文檔編號】G06F11/30GK105975378SQ201610307721
【公開日】2016年9月28日
【申請日】2016年5月11日
【發(fā)明人】王紀軍, 譚晶, 高莉莎, 張輝, 徐宏志, 梁俊鋒, 李興
【申請人】國網(wǎng)江蘇省電力公司, 北京中電普華信息技術有限公司