亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種gpu集群監(jiān)控系統(tǒng)及監(jiān)控報警發(fā)布方法

文檔序號:7984826閱讀:465來源:國知局
一種gpu集群監(jiān)控系統(tǒng)及監(jiān)控報警發(fā)布方法
【專利摘要】本發(fā)明提供了一種GPU集群監(jiān)控系統(tǒng)及監(jiān)控報警發(fā)布方法,屬于信息【技術領域】。所述GPU集群監(jiān)控系統(tǒng)包括數據采集模塊、分析模塊和展現模塊;在GPU集群中的每一個計算節(jié)點上均安裝有所述數據采集模塊,所述數據采集模塊采集該計算節(jié)點的數據信息,所述數據信息為GPU卡的利用率;所述分析模塊設置在所述代理節(jié)點上,所述分析模塊將所述采集模塊采集到的數據信息收集到代理節(jié)點當中,并對數據信息進行統(tǒng)計分析,生成精簡數據表;所述展現模塊設置在所述信息發(fā)布服務器上,所述展現模塊接收分析模塊生成的精簡數據表,并建立web平臺,將精簡數據表以圖形的形勢直觀表現出來,讓運維人員實時監(jiān)控。
【專利說明】一種GPU集群監(jiān)控系統(tǒng)及監(jiān)控報警發(fā)布方法
【技術領域】
[0001]本發(fā)明屬于信息【技術領域】,具體涉及一種GPU集群監(jiān)控系統(tǒng)及監(jiān)控報警發(fā)布方法。
【背景技術】
[0002]GPU如今在地球物理領域應用越來越廣泛,大規(guī)模的GPU集群也隨之而產生,但現如今還未針對大規(guī)模GPU集群設備開發(fā)相應的實時監(jiān)控系統(tǒng),只能監(jiān)控cpu、內存、存儲等傳統(tǒng)的計算機硬件狀態(tài)。而且,目前的實時監(jiān)控界面單一,只能反應節(jié)點健康狀態(tài),以及CPU和GPU的利用率。

【發(fā)明內容】

[0003]本發(fā)明的目的在于解決上述現有技術中存在的難題,提供一種GPU集群監(jiān)控系統(tǒng)及監(jiān)控報警發(fā)布方法,針對地球物理研究中對GPU設備的特殊要求,提供一種實時監(jiān)控系統(tǒng),實現監(jiān)控GPU設備運行狀態(tài)的功能,將采集的數據轉化為可視化界面,實時的反應設備運行的情況,以保障設備的正常運行。
[0004]本發(fā)明是通過以下技術方案實現的:
[0005]一種GPU集群監(jiān)控系統(tǒng),包括代理節(jié)點、生產網交換機和信息發(fā)布服務器;被監(jiān)控的GPU集群與代理節(jié)點連接,代理節(jié)點與生產網交換機連接,生產網交換機與信息發(fā)布服務器連接;所述GPU集群是由至少一個計算節(jié)點組成的且做并行計算的系統(tǒng),一個計算節(jié)點是一個含有GPU卡的節(jié)點;
[0006]所述GPU集群監(jiān)控系統(tǒng)包括數據采集模塊、分析模塊和展現模塊;
[0007]在GPU集群中的每一個計算節(jié)點上均安裝有所述數據采集模塊,所述數據采集模塊采集該計算節(jié)點的數據信息,所述數據信息為GPU卡的利用率;
[0008]所述分析模塊設置在所述代理節(jié)點上,所述分析模塊將所述采集模塊采集到的數據信息收集到代理節(jié)點當中,并對數據信息進行統(tǒng)計分析,生成精簡數據表;
[0009]所述展現模塊設置在所述信息發(fā)布服務器上,所述展現模塊接收分析模塊生成的精簡數據表,并建立web平臺,將精簡數據表以圖形的形勢直觀表現出來,讓運維人員實時監(jiān)控。
[0010]所述數據采集模塊是通過gmond守護進程來采集計算節(jié)點的數據信息
[0011]一種監(jiān)控報警發(fā)布方法:所述分析模塊將收集來的精簡數據表中的數據與設定的界限值進行比較,如果精簡數據表中的數據超過界限值,分析模塊會向展示模塊發(fā)送消息,展示模塊將對應該數據的設備的標識(比如logo)標注上與其它設備的標識不同的顏色(例如紅色),以引起運維人員的關注。所述界限值是根據本單位設備的實際情況所設定的,數據超過界限值被認為危險。
[0012]另外,所述展示模塊向運維人員發(fā)送電子郵件和或短信,向運維人員告警。例如,如果節(jié)點網絡中斷,GPU集群監(jiān)控系統(tǒng)即認為該節(jié)點死機,然后將該節(jié)點死機的信息通過電子郵件和或短信告知運維人員。
[0013]與現有技術相比,本發(fā)明的有益效果是:
[0014]本發(fā)明實現了 GPU設備的實時監(jiān)控,同時通過WEB界面發(fā)布實時監(jiān)控信息,本發(fā)明在Ganglia監(jiān)控系統(tǒng)的基礎上擴展了 GPU監(jiān)控,并通過WEB頁面進行展示。
【專利附圖】

【附圖說明】
[0015]圖1是本發(fā)明基于高性能計算的GPU集群監(jiān)控系統(tǒng)的硬件結構圖。
[0016]圖2是本發(fā)明基于高性能計算的GPU集群監(jiān)控系統(tǒng)的工作原理圖。
[0017]圖3是本發(fā)明本發(fā)明基于高性能計算的GPU集群監(jiān)控系統(tǒng)的模塊結構圖。
【具體實施方式】
[0018]下面結合附圖對本發(fā)明作進一步詳細描述:
[0019]作為高性能計算的GPU集群,對GPU的實時監(jiān)控一直是運維人員最為關心的。本發(fā)明在Ganglia的原有架構基礎上,編寫了一套適用于GPU監(jiān)控的系統(tǒng),并且設計了監(jiān)控信息,實現了對于GPU的實時監(jiān)控。一般所謂的GPU是包含GPU卡的計算節(jié)點,在普通的監(jiān)控系統(tǒng)中只能對cpu、內存等常規(guī)信息進行實時監(jiān)控,但是無法對GPU卡進行實時監(jiān)控,本發(fā)明就是針對這個研發(fā)出一套系統(tǒng)來專門針對GPU卡的利用率進行實時監(jiān)控。
[0020]如圖1所示,本發(fā)明的GPU集群監(jiān)控系統(tǒng)是應用在GPU集群中的,通過部署Ganglia系統(tǒng)中的gmond守護進程來采集并傳遞數據。本發(fā)明的監(jiān)控系統(tǒng)包括代理節(jié)點、生產網交換機和信息發(fā)布服務器;被監(jiān)控的GPU集群與代理節(jié)點連接,代理節(jié)點與生產網交換機連接,生產網交換機與信息發(fā)布服務器連接。
[0021]如圖2所示,本發(fā)明的監(jiān)控系統(tǒng)是在Ganglia的基礎上進行擴展,實現對GPU集群的監(jiān)控功能,Ganglia是一個集群監(jiān)控系統(tǒng),每個節(jié)點都運行一個收集和發(fā)送度量數據的名為gmond的守護進程,接收所有度量數據的主機叫代理節(jié)點,代理節(jié)點顯示這些數據并且將這些數據的精簡表單通過交換機傳遞到信息發(fā)布服務器上,這些數據在信息發(fā)布服務器會對這些數據進行處理,然后通過搭建web平臺將運行狀態(tài)呈現出來。
[0022]具體來說,如圖3所示,本發(fā)明的監(jiān)控系統(tǒng)包括數據采集模塊、分析模塊和展現模塊;
[0023]在GPU集群中的每一個計算節(jié)點上均安裝有所述數據采集模塊,所述數據采集模塊采集該計算節(jié)點的數據信息;所述GPU集群監(jiān)控系統(tǒng)通過gmond守護進程采集各個計算節(jié)點的數據信息,所述數據信息為GPU卡的利用率;
[0024]所述分析模塊設置在所述代理節(jié)點上,所述分析模塊將所述采集模塊采集到的數據信息收集到代理節(jié)點當中,并對數據信息進行統(tǒng)計分析,生成精簡數據表;
[0025]所述展現模塊設置在所述信息發(fā)布服務器上,所述展現模塊接收分析模塊生成的精簡數據表,并建立web平臺,將精簡數據表以圖形的形勢直觀表現出來,讓運維人員實時監(jiān)控。
[0026]除了傳統(tǒng)的系統(tǒng)性能指標,如:cpu、mem、硬盤利用率,I/O負載、網絡流量情況等,本發(fā)明主要擴展了 GPU卡相關的各項信息。
[0027]本系統(tǒng)通過自主研發(fā)采集了每個節(jié)點的GPU相關指標,利用gmond守護進程將數據推送到代理節(jié)點,由代理節(jié)點統(tǒng)計分析,將精簡的數據表送到信息發(fā)布服務器上進行WEB展示。
[0028]上述技術方案只是本發(fā)明的一種實施方式,對于本領域內的技術人員而言,在本發(fā)明公開了應用方法和原理的基礎上,很容易做出各種類型的改進或變形,而不僅限于本發(fā)明上述【具體實施方式】所描述的方法,因此前面描述的方式只是優(yōu)選的,而并不具有限制性的意義。
【權利要求】
1.一種GPU集群監(jiān)控系統(tǒng),包括代理節(jié)點、生產網交換機和信息發(fā)布服務器;被監(jiān)控的GPU集群與代理節(jié)點連接,代理節(jié)點與生產網交換機連接,生產網交換機與信息發(fā)布服務器連接;所述GPU集群是由至少一個計算節(jié)點組成的且做并行計算的系統(tǒng),一個計算節(jié)點是一個含有GPU卡的節(jié)點,其特征在于: 所述GPU集群監(jiān)控系統(tǒng)包括數據采集模塊、分析模塊和展現模塊; 在GPU集群中的每一個計算節(jié)點上均安裝有所述數據采集模塊,所述數據采集模塊采集該計算節(jié)點的數據信息,所述數據信息為GPU卡的利用率; 所述分析模塊設置在所述代理節(jié)點上,所述分析模塊將所述采集模塊采集到的數據信息收集到代理節(jié)點當中,并對數據信息進行統(tǒng)計分析,生成精簡數據表; 所述展現模塊設置在所述信息發(fā)布服務器上,所述展現模塊接收分析模塊生成的精簡數據表,并建立web平臺,將精簡數據表以圖形的形勢直觀表現出來。
2.根據權利要求1所述的GPU集群監(jiān)控系統(tǒng),其特征在于:所述數據采集模塊是通過gmond守護進程來采集計算節(jié)點的數據信息。
3.一種利用權利要求2所述GPU集群監(jiān)控系統(tǒng)進行監(jiān)控報警發(fā)布方法,其特征在于:所述分析模塊將收集來的精簡數據表中的數據與設定的界限值進行比較,如果精簡數據表中的數據超過界限值,分析模塊會向展示模塊發(fā)送消息,展示模塊將對應該數據的設備的標識標注上與其它設備的標識不同的顏色。
4.根據權利要求3所述的監(jiān)控報警發(fā)布方法,其特征在于:所述展示模塊向運維人員發(fā)送電子郵件和或短信。
【文檔編號】H04L29/08GK103780660SQ201210414718
【公開日】2014年5月7日 申請日期:2012年10月25日 優(yōu)先權日:2012年10月25日
【發(fā)明者】葛鑫, 王勝春, 李進 申請人:中國石油化工股份有限公司, 中國石油化工股份有限公司石油物探技術研究院
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1