亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

集群的作業(yè)流管理方法和裝置的制造方法

文檔序號:8905137閱讀:832來源:國知局
集群的作業(yè)流管理方法和裝置的制造方法【
技術(shù)領域
】[0001]本發(fā)明涉及計算機應用
技術(shù)領域
,具體來說,涉及一種集群的作業(yè)流管理方法和目.0【
背景技術(shù)
】[0002]在高性能計算領域,面向氣象、生物、石油等行業(yè)的高性能計算越來越復雜,僅依靠作業(yè)管理系統(tǒng)構(gòu)建的高性能計算用戶環(huán)境,不能完全滿足日益復雜的面向行業(yè)的高性能計算用戶的需求?;诠ぷ髁鳂?gòu)建的高性能計算用戶環(huán)境,它不僅便于業(yè)務流程的創(chuàng)建和控制,而且擴展了各種關系依賴和流程語義,給復雜的流程控制提供了可能?;诠ぷ髁鞯母咝阅苡嬎阌脩舡h(huán)境能夠靈活地適應不同用戶環(huán)境的變化。ecflow就是這樣一種作業(yè)流控制軟件,可以支持多種作業(yè)調(diào)度系統(tǒng)(例如PBSPortableBatchSystem)。[0003]高性能計算用戶向PBS等作業(yè)調(diào)度系統(tǒng)提交作業(yè)時,多個作業(yè)間可能是有依賴關系的。那么為了方便作業(yè)管理,可根據(jù)作業(yè)間的依賴關系和運行順序創(chuàng)建一個作業(yè)流。而ecflow就可以根據(jù)該作業(yè)流,控制作業(yè)的運行順序,調(diào)整作業(yè)運行狀態(tài),從而進行復雜的流程控制,實現(xiàn)作業(yè)流管理。[0004]Ecflow主要由ecflowserver、ecflow_client、ecflowview三部分構(gòu)成。其中,ecflowserver是作業(yè)流的服務端,又叫做作業(yè)流控制器,用于提供作業(yè)流的管理和調(diào)度功能,其可以分布在集群內(nèi)的各個節(jié)點上。系統(tǒng)用戶可以啟動自己的ecflowserver;ecflow_client是一種命令行工具;ecf1wview則是ecflow提供的可視化作業(yè)監(jiān)控和管理客戶端。[0005]那么在集群環(huán)境中使用ecflow時,多個ecflowserver可能分布在集群的不同節(jié)點上,也可能在同一個節(jié)點上運行多個ecflowserverο那么如何快速發(fā)現(xiàn)并定位集群中的ecflowserver的位置和狀態(tài)目前還是個未解決的問題。[0006]另外,為方便對ecflowserver的管理,實現(xiàn)對多個ecflowserver以及應用作業(yè)流的流程和狀態(tài)的監(jiān)控和管理。ecflow提供了C/S(客戶端/服務器)模式的監(jiān)控客戶端ecflowview。但是在現(xiàn)有技術(shù)中,ecflowview需要通過vnc等工具登錄到ecflowserver所在節(jié)點才能使用,不方便用戶使用;而且ecflowview不能同時管理多個ecflowserver,如果在管理ecflowserverl時需要管理ecflowserver2,則需要關閉對ecflowserverI的連接,然后在建立與ecflowserver2的連接。顯然,管理員難以掌握集群中所有ecflowserver的整體狀態(tài),不方便在大規(guī)模集群中使用。[0007]此外,ecflow中的單個任務(作業(yè))和作業(yè)調(diào)度系統(tǒng)中的作業(yè),目前沒有顯式的對應關系,在使用時需要用戶自己分析兩者之間的對應關系,這樣就會不方便定位作業(yè)的實際運行位置,以及掌握作業(yè)的具體運行數(shù)據(jù)。[0008]針對相關技術(shù)中的上述問題,目前尚未提出有效的解決方案?!?br/>發(fā)明內(nèi)容】[0009]針對相關技術(shù)中的上述問題,本發(fā)明提出一種集群的作業(yè)流管理方法和裝置,能夠?qū)崿F(xiàn)對集群中正在運行的作業(yè)流控制器的快速定位。[0010]本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:[0011]根據(jù)本發(fā)明的一個方面,提供了一種集群的作業(yè)流管理方法。[0012]該作業(yè)流管理方法包括:[0013]掃描目標節(jié)點范圍內(nèi)每個節(jié)點上運行的作業(yè)流控制進程的進程號,確定每個節(jié)點上所運行的作業(yè)流控制進程;[0014]基于每個節(jié)點上運行的作業(yè)流控制進程的進程信息,確定該作業(yè)流控制進程所對應的作業(yè)流控制器的端口號;[0015]根據(jù)作業(yè)流控制器的端口號,確定每個節(jié)點上配置的作業(yè)流控制器。[0016]此外,該作業(yè)流管理方法進一步包括:[0017]基于每個節(jié)點上運行的作業(yè)流控制進程的進程信息,確定發(fā)起作業(yè)流控制進程的用戶信息。[0018]進一步的,該作業(yè)流管理方法進一步包括:[0019]根據(jù)預先配置的用戶優(yōu)先級信息,控制每個節(jié)點上運行的作業(yè)流對用戶的可見性。[0020]另外,該作業(yè)流管理方法進一步包括:[0021]根據(jù)每個節(jié)點的IP地址信息和每個節(jié)點上配置的作業(yè)流控制器的端口號,確定目標節(jié)點范圍內(nèi)每個節(jié)點上的作業(yè)流控制器的分布信息。[0022]此外,該作業(yè)流管理方法進一步包括:[0023]通過調(diào)用預先封裝的作業(yè)流控制命令,對多個作業(yè)流控制器進行管理。[0024]其中,在對任意一個作業(yè)流控制器進行管理時,可通過確定該作業(yè)流控制器在所在的節(jié)點上所對應的多個作業(yè)流;獲取多個作業(yè)流中每個作業(yè)流的作業(yè)流程信息和作業(yè)狀態(tài)信息;根據(jù)每個作業(yè)流的作業(yè)流程信息和作業(yè)狀態(tài)信息對該作業(yè)流控制器所對應的每個作業(yè)流進行管理。[0025]另外,該作業(yè)流管理方法進一步包括:[0026]對每個節(jié)點上配置的作業(yè)流控制器所對應的作業(yè)流的作業(yè)狀態(tài)進行跟蹤;[0027]在作業(yè)流的作業(yè)狀態(tài)改變的情況下,對作業(yè)調(diào)度系統(tǒng)中對應該作業(yè)狀態(tài)改變的任務作業(yè)的狀態(tài)信息進行更新。[0028]并且,該作業(yè)流管理方法進一步包括:[0029]預先關聯(lián)作業(yè)步驟:根據(jù)作業(yè)流中的作業(yè)的屬性信息將作業(yè)流中的作業(yè)與作業(yè)調(diào)度系統(tǒng)中的任務作業(yè)的作業(yè)號相關聯(lián),生成作業(yè)關聯(lián)信息。[0030]對應的,該作業(yè)流管理方法進一步包括:[0031]在對作業(yè)調(diào)度系統(tǒng)中對應該作業(yè)狀態(tài)改變的任務作業(yè)的狀態(tài)信息進行更新之前,根據(jù)作業(yè)關聯(lián)信息在作業(yè)調(diào)度系統(tǒng)中查找是否具有對應該作業(yè)流中作業(yè)狀態(tài)改變的作業(yè)的任務作業(yè);[0032]在未查找到對應該作業(yè)流的作業(yè)狀態(tài)改變的作業(yè)的任務作業(yè)的情況下,執(zhí)行預先關聯(lián)作業(yè)步驟。[0033]根據(jù)本發(fā)明的另一方面,提供了一種集群的作業(yè)流管理裝置。[0034]該作業(yè)流管理裝置包括:[0035]掃描模塊,用于掃描目標節(jié)點范圍內(nèi)每個節(jié)點上運行的作業(yè)流控制進程的進程號,確定每個節(jié)點上所運行的作業(yè)流控制進程;[0036]第一確定模塊,用于基于每個節(jié)點上運行的作業(yè)流控制進程的進程信息,確定該作業(yè)流控制進程所對應的作業(yè)流控制器的端口號;[0037]第二確定模塊,用于根據(jù)作業(yè)流控制器的端口號,確定每個節(jié)點上配置的作業(yè)流控制器。[0038]本發(fā)明通過掃描并確定節(jié)點上運行的作業(yè)流控制進程的進程號和對應該作業(yè)流控制進程的作業(yè)流控制器的端口號,實現(xiàn)了對集群中正在運行的作業(yè)流控制器的快速定位。【附圖說明】[0039]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0040]圖1是根據(jù)本發(fā)明實施例的集群的作業(yè)流管理方法的流程圖;[0041]圖2是根據(jù)本發(fā)明實施例的集群的ecflowserver的探測流程圖;[0042]圖3是根據(jù)本發(fā)明實施例的多ecflowserver下的作業(yè)流監(jiān)控流程圖;[0043]圖4是根據(jù)本發(fā)明實施例的作業(yè)流和作業(yè)調(diào)度系統(tǒng)中的作業(yè)的關聯(lián)監(jiān)控流程圖;[0044]圖5是根據(jù)本發(fā)明實施例的集群的作業(yè)流管理裝置的框圖?!揪唧w實施方式】[0045]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術(shù)人員所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。[0046]根據(jù)本發(fā)明的實施例,提供了一種集群的作業(yè)流管理方法。[0047]如圖1所示,根據(jù)本發(fā)明實施例的作業(yè)流管理方法包括:[0048]步驟S101,掃描目標節(jié)點范圍內(nèi)每個節(jié)點上運行的作業(yè)流控制進程的進程號,確定每個節(jié)點上所運行的作業(yè)流控制進程;[0049]步驟S103,基于每個節(jié)點上運行的作業(yè)流控制進程的進程信息,確定該作業(yè)流控制進程所對應的作業(yè)流控制器的端口號;[0050]步驟S105,根據(jù)作業(yè)流控制器的端口號,確定每個節(jié)點上配置的作業(yè)流控制器。[0051]下面以ecflow來對上述技術(shù)方案進行詳細闡述,在一個具體的實施例中,本發(fā)明將集群中的節(jié)點分為三類:管理節(jié)點、web監(jiān)控節(jié)點和其他節(jié)點。其中,管理節(jié)點可運行server探測、作業(yè)流狀態(tài)獲取和監(jiān)控等程序;web監(jiān)控節(jié)點則用于提供對作業(yè)流的監(jiān)控和管理功能的頁面訪問入口,即提供一種可視化界面,用戶可通過該可視化界面來對集群中各個節(jié)點上的server進行管理;此外,集群中除管理節(jié)點和web監(jiān)控節(jié)點外的所有節(jié)點都屬于其他節(jié)點。并且,管理節(jié)點和web監(jiān)控節(jié)點可以部署在同一節(jié)點,也可分開部署。另夕卜,集群中的所有節(jié)點都可運行ecflowserver,同時也可作為作業(yè)運行節(jié)點(即上述其他節(jié)點)。[0052]由于多個server可以分布在集群的不同節(jié)點上,也可以分布在同一節(jié)點上,那么為了快速并定位集群中的ecf當前第1頁1 2 3 
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1