亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

Linux集群故障自動恢復方法和Linux集群故障自動恢復系統(tǒng)的制作方法

文檔序號:7889321閱讀:364來源:國知局
專利名稱:Linux集群故障自動恢復方法和Linux集群故障自動恢復系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及大規(guī)模集群資源管理系統(tǒng)的優(yōu)化與應用,特別是涉及到Linux集群故障自動恢復方法。
背景技術(shù)
隨著計算需求的發(fā)展,微機集群的規(guī)模也在不斷地擴大,如何高效地完成對大規(guī)模集群的管理,成為亟待解決的一個難題。國內(nèi)外的計算機廠家均投入了大量研發(fā)力量開發(fā)集群相關(guān)產(chǎn)品,從免費軟件到收費軟件,功能各有不同,主要功能集中于系統(tǒng)管理和監(jiān)視,但缺少智能的、自動化的工具,所以集群的可管理性和可用性均收到極大的影響。在現(xiàn)
有的模式下,管理人員需要通過自身的經(jīng)驗進行故障點的查找和判斷,往往耗時較長,且不容易迅速處理問題,將故障節(jié)點重新投入使用。為此我們發(fā)明了一種新的Linux集群故障自動恢復方法,解決了以上技術(shù)問題。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種能夠自動、快速、高效地完成集群節(jié)點系統(tǒng)的故障自動恢復的Linux集群故障自動恢復方法。
本發(fā)明的目的可通過如下技術(shù)措施來實現(xiàn)Linux集群故障自動恢復方法,該Linux集群故障自動恢復方法包執(zhí)行數(shù)據(jù)信息采集并判斷是否出現(xiàn)故障;當判斷出現(xiàn)故障時,重新啟動節(jié)點;當重新啟動該節(jié)點后,再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,執(zhí)行故障節(jié)點的維護集成;在執(zhí)行該故障節(jié)點的維護集成后,再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,執(zhí)行故障節(jié)點的安裝集成;以及在執(zhí)行該故障節(jié)點的安裝集成后,再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,進行人工處理。本發(fā)明的目的還可通過如下技術(shù)措施來實現(xiàn)
該數(shù)據(jù)信息采集包括動態(tài)數(shù)據(jù)采集、靜態(tài)信息采集、系統(tǒng)服務狀態(tài)數(shù)據(jù)采集和應用信息數(shù)據(jù)采集。該動態(tài)數(shù)據(jù)采集和靜態(tài)信息采集通過讀取系統(tǒng)的/proc文件系統(tǒng)獲取系統(tǒng)信息。該系統(tǒng)服務狀態(tài)數(shù)據(jù)采集是檢測整個集群的DNS、NIS、NTP等主從服務器的服務狀態(tài),并把其狀態(tài)寫到數(shù)據(jù)庫中。該應用信息數(shù)據(jù)采集是根據(jù)生產(chǎn)應用的實際情況,先羅列出實際應用中的各種需要,然后根據(jù)需要手工錄入各個應用服務器及應用服務的節(jié)點名,并保存到數(shù)據(jù)庫中,然后根據(jù)各個應用服務器的節(jié)點名檢測該服務器的應用服務狀態(tài),并把其狀態(tài)寫到該數(shù)據(jù)庫中。該Linux集群故障自動恢復方法根據(jù)該數(shù)據(jù)信息采集的更新時間,設(shè)定該更新間隔的最大時間間隔,當該數(shù)據(jù)信息采集的刷新時間超過了該最大時間間隔時,判斷出現(xiàn)故障。
該Linux集群故障自動恢復方法還包括在重新啟動節(jié)點的步驟后,標志節(jié)點已進行重新啟動的標志位,并在再次執(zhí)行該數(shù)據(jù)信息采集并判斷未出現(xiàn)故障時,清除節(jié)點已進行重新啟動的標志位。該Linux集群故障自動恢復方法還包括在執(zhí)行故障節(jié)點的維護集成的步驟后,標志節(jié)點維護集成的標志位,并在再次執(zhí)行該數(shù)據(jù)信息采集并判斷未出現(xiàn)故障時,清除節(jié)點維護集成的標志位。該Linux集群故障自動恢復方法還包括在執(zhí)行故障節(jié)點的安裝集成的步驟后,標志節(jié)點安裝集成的標志位,并在再次執(zhí)行該數(shù)據(jù)信息采集并判斷未出現(xiàn)故障時,清除節(jié)點安裝集成的標志位。 該執(zhí)行故障節(jié)點的維護集成的步驟包括將該節(jié)點在服務器端設(shè)置成維護狀態(tài),重新啟動該節(jié)點,該節(jié)點在啟動過程中,從網(wǎng)絡讀取啟動映像,進入該節(jié)點的維護狀態(tài),將該節(jié)點系統(tǒng)的配置還原到最初配置狀態(tài)。該執(zhí)行故障節(jié)點的安裝集成的步驟包括將該節(jié)點在服務器端設(shè)置成安裝集成狀態(tài),重新啟動該節(jié)點,該節(jié)點在啟動過程中,從網(wǎng)絡讀取啟動映像,進入節(jié)點的網(wǎng)絡安裝集成,從網(wǎng)絡讀取安裝包,進行系統(tǒng)的安裝配置,將該節(jié)點系統(tǒng)重新進行安裝。本發(fā)明的目的也可通過如下技術(shù)措施來實現(xiàn)=Linux集群故障自動恢復系統(tǒng),其特征在于,該Linux集群故障自動恢復系統(tǒng)包括數(shù)據(jù)信息采集及判斷模塊、重新啟動節(jié)點模塊、維護集成模塊和安裝集成模塊,該數(shù)據(jù)信息采集及判斷模塊用于執(zhí)行數(shù)據(jù)信息采集并判斷是否出現(xiàn)故障,該重新啟動節(jié)點模塊用于重新啟動節(jié)點,該維護集成模塊用于執(zhí)行故障節(jié)點的維護集成,該安裝集成模塊用于執(zhí)行故障節(jié)點的安裝集成。本發(fā)明的目的還可通過如下技術(shù)措施來實現(xiàn)
該數(shù)據(jù)信息采集及判斷模塊執(zhí)行數(shù)據(jù)信息采集并判斷是否出現(xiàn)故障,當該數(shù)據(jù)信息采集及判斷模塊判斷出現(xiàn)故障時,該重新啟動節(jié)點模塊重新啟動節(jié)點,在該重新啟動節(jié)點模塊重新啟動該節(jié)點后,該數(shù)據(jù)信息采集及判斷模塊再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,該維護集成模塊執(zhí)行故障節(jié)點的維護集成,當該維護集成模塊執(zhí)行該故障節(jié)點的維護集成后,該數(shù)據(jù)信息采集及判斷模塊再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,該安裝集成模塊執(zhí)行故障節(jié)點的安裝集成,在該安裝集成模塊執(zhí)行該故障節(jié)點的安裝集成后,該數(shù)據(jù)信息采集及判斷模塊再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,該數(shù)據(jù)信息采集及判斷模塊發(fā)送消息以進行人工處理。該數(shù)據(jù)信息采集包括動態(tài)數(shù)據(jù)采集、靜態(tài)信息采集、系統(tǒng)服務狀態(tài)數(shù)據(jù)采集和應用信息數(shù)據(jù)采集。該數(shù)據(jù)信息采集及判斷模塊通過讀取系統(tǒng)的/proc文件系統(tǒng)獲取系統(tǒng)信息以獲得該動態(tài)數(shù)據(jù)采集和該靜態(tài)信息采集。該數(shù)據(jù)信息采集及判斷模塊檢測整個集群的DNS、NIS、NTP等主從服務器的服務狀態(tài)以獲得該系統(tǒng)服務狀態(tài)數(shù)據(jù)采集,并把其狀態(tài)寫到數(shù)據(jù)庫中。該數(shù)據(jù)信息采集及判斷模塊根據(jù)生產(chǎn)應用的實際情況,先羅列出實際應用中的各種需要,然后根據(jù)需要手工錄入各個應用服務器及應用服務的節(jié)點名,并保存到數(shù)據(jù)庫中,然后根據(jù)各個應用服務器的節(jié)點名檢測該服務器的應用服務狀態(tài),并把其狀態(tài)寫到該數(shù)據(jù)庫中,以進行該應用信息數(shù)據(jù)采集。
該數(shù)據(jù)信息采集及判斷模塊根據(jù)該數(shù)據(jù)信息采集的更新時間,設(shè)定該更新間隔的最大時間間隔,當該數(shù)據(jù)信息采集的刷新時間超過了該最大時間間隔時,該數(shù)據(jù)信息采集及判斷模塊判斷出現(xiàn)故障。該維護集成模塊在執(zhí)行故障節(jié)點的維護集成時,將該節(jié)點在服務器端設(shè)置成維護狀態(tài),重新啟動該節(jié)點,該節(jié)點在啟動過程中,從網(wǎng)絡讀取啟動映像,進入該節(jié)點的維護狀態(tài),將該節(jié)點系統(tǒng)的配置還原到最初配置狀態(tài)。該安裝集成模塊在執(zhí)行 故障節(jié)點的安裝集成時,將該節(jié)點在服務器端設(shè)置成安裝集成狀態(tài),重新啟動該節(jié)點,該節(jié)點在啟動過程中,從網(wǎng)絡讀取啟動映像,進入節(jié)點的網(wǎng)絡安裝集成,從網(wǎng)絡讀取安裝包,進行系統(tǒng)的安裝配置,將該節(jié)點系統(tǒng)重新進行安裝。本發(fā)明中的Linux集群故障自動恢復方法,能夠采集集群系統(tǒng)運行的各種關(guān)鍵信息并集中存儲,建立預警機制,從多個級別自動處理集群的故障,并能夠提供詳細的參考數(shù)據(jù)供管理人員決策,在很大程度上減少了人工的消耗,將故障節(jié)點以最快地速度恢復并投入生產(chǎn)使用。本發(fā)明中的Linux集群故障自動恢復方法,能夠自動、快速、高效地完成集群節(jié)點系統(tǒng)的故障自動恢復,能夠滿足異構(gòu)集群不同需求,支持多個版本操作系統(tǒng),加快了集群節(jié)點的再次投產(chǎn),方便了用戶的使用,提高了集群資源利用效率。


圖I為本發(fā)明的Linux集群故障自動恢復方法的流程 圖2為圖I中的應用信息數(shù)據(jù)采集步驟的流程 圖3為本發(fā)明的Linux集群故障自動恢復系統(tǒng)的模塊圖。
具體實施例方式為使本發(fā)明的上述和其他目的、特征和優(yōu)點能更明顯易懂,下文特舉出較佳實施例,并配合所附圖式,作詳細說明如下。如圖I所示,圖I為本發(fā)明的Linux集群故障自動恢復方法的流程圖。在步驟101,執(zhí)行數(shù)據(jù)信息采集,信息采集可分為動態(tài)數(shù)據(jù)采集、靜態(tài)信息采集、系統(tǒng)服務狀態(tài)數(shù)據(jù)采集和應用信息數(shù)據(jù)采集。動態(tài)數(shù)據(jù)采集主要采集的信息包括包含總內(nèi)存、使用內(nèi)存、空閑內(nèi)存、共享內(nèi)存、總交換區(qū)、使用交換區(qū)、空閑交換區(qū)、磁盤每秒IO次數(shù)、磁盤讀速度、磁盤讀字節(jié)數(shù)、磁盤寫速度、磁盤寫字節(jié)數(shù)等信息。動態(tài)數(shù)據(jù)采集通過讀取/proc文件系統(tǒng)中meminfo、stat、loadavg、snmp等文件并分析后獲得。采集的動態(tài)數(shù)據(jù)信息為集中保存,月艮務運行在收集信息的節(jié)點上,負責將采集的信息存儲到數(shù)據(jù)庫中。靜態(tài)信息采集主要采集的信息包括節(jié)點的名稱、CPU的標志符、CPU的型號、CPU的頻率、CPU的頻率的單位、CPU個數(shù)、單個CPU核數(shù)、內(nèi)存大小、磁盤大小、本地文件系統(tǒng)名、對應FSNames字段的文件系統(tǒng)大小等。靜態(tài)信息采集讀取/proc文件系統(tǒng)中cpuinfo、partitions、mounts等文件并分析后獲得信息。采集的靜態(tài)數(shù)據(jù)信息也是集中保存,在集群中每個節(jié)點上運行提供靜態(tài)信息的服務,監(jiān)聽用戶的請求。當需要采集某節(jié)點的靜態(tài)信息時,再遠程執(zhí)行命令,通過網(wǎng)絡返回采集的數(shù)據(jù),集中存放到數(shù)據(jù)庫中。動態(tài)數(shù)據(jù)采集和靜態(tài)信息采集通過讀取系統(tǒng)的/proc文件系統(tǒng)獲取系統(tǒng)信息,此方法速度快效率高,適合并行獲取大量節(jié)點信息,文件系統(tǒng)內(nèi)容在不同內(nèi)核版本下變化相對較小,有利于編程兼容。
系統(tǒng)服務狀態(tài)數(shù)據(jù)采集是檢測整個集群的DNS、NIS、NTP等主從服務器的服務狀態(tài),并把其狀態(tài)寫到數(shù)據(jù)庫中,以便用戶方便的查詢到這些服務器的服務狀態(tài)。應用信息數(shù)據(jù)采集是根據(jù)生產(chǎn)應用的實際情況,先羅列出實際應用中的各種需要,然后根據(jù)需要手工錄入各個應用服務器及應用服務的節(jié)點名,并保存到數(shù)據(jù)庫中,然后根據(jù)各個應用服務器的節(jié)點名檢測該服務器的應用服務狀態(tài),并把其狀態(tài)寫到數(shù)據(jù)庫中,以便用戶方便的查詢到這些服務器的應用服務狀態(tài)。采集的信息數(shù)據(jù)還可以通過圖像界面顯示。圖形界面通過統(tǒng)一的數(shù)據(jù)接口,訪問集中存放數(shù)據(jù)庫中的信息采集的數(shù)據(jù),并根據(jù)需求進行顯示方式的定制,可以提供給系統(tǒng)管理員非常方便直觀的監(jiān)視方式。在執(zhí)行完動態(tài)數(shù)據(jù)采集、靜態(tài)信息采集、系統(tǒng)服務狀態(tài)數(shù)據(jù)采集和應用信息數(shù)據(jù)采集后,流程進入到步驟102。
在步驟102,判斷是否出現(xiàn)故障。在一實施例中,根據(jù)數(shù)據(jù)信息采集(節(jié)點、服務、應用等信息)的更新時間,設(shè)定更新間隔的最大門檻值,當采集信息的刷新時間超過了最大的時間間隔,認定節(jié)點、服務、或者應用出現(xiàn)故障,流程進入到步驟103 ;當采集信息的刷新時間未超過最大的時間間隔時,說明沒有故障產(chǎn)生,流程返回到步驟101。在步驟103,重新啟動節(jié)點。也就是說,使用遠程控制方法重新啟動節(jié)點,并標志節(jié)點已進行重新啟動,流程進入到步驟104。在步驟104,執(zhí)行與步驟101相同的數(shù)據(jù)信息采集,流程進入到步驟105。在步驟105,與步驟102相同,判斷是否出現(xiàn)故障,當判斷沒有故障產(chǎn)生時,流程進入到步驟106 ;當判斷有故障產(chǎn)生時,流程進入到步驟107。在步驟106,清除節(jié)點已進行重新啟動的標志位,流程返回到步驟101。在步驟107,執(zhí)行故障節(jié)點的維護集成。即對于已經(jīng)重新啟動的節(jié)點,如果故障無法排除,將節(jié)點在服務器端設(shè)置成維護狀態(tài),重新啟動節(jié)點。節(jié)點在啟動過程中,從網(wǎng)絡讀取啟動映像,進入節(jié)點的維護狀態(tài),將節(jié)點系統(tǒng)的配置還原到最初配置狀態(tài)。維護集成完成后,系統(tǒng)再次啟動使維護集成的內(nèi)容生效,并將節(jié)點標志成維護集成,流程進入到步驟108。在步驟108,執(zhí)行與步驟101相同的數(shù)據(jù)信息采集,流程進入到步驟109。在步驟109,與步驟102相同,判斷是否出現(xiàn)故障,當判斷沒有故障產(chǎn)生時,流程進入到步驟110 ;當判斷有故障產(chǎn)生時,流程進入到步驟111。在步驟110,清除節(jié)點維護集成的標志位,流程返回到步驟101。在步驟111,執(zhí)行故障節(jié)點的安裝集成。對于維護集成后,檢測仍不能夠正常運行的節(jié)點,將節(jié)點在服務器端設(shè)置成安裝集成狀態(tài),重新啟動節(jié)點。節(jié)點在啟動過程中,從網(wǎng)絡讀取啟動映像,進入節(jié)點的網(wǎng)絡安裝集成,即從網(wǎng)絡讀取安裝包,進行系統(tǒng)的安裝配置,將節(jié)點系統(tǒng)重新進行安裝。安裝集成完成后,系統(tǒng)再次啟動使新系統(tǒng)生效,并將節(jié)點標志成安裝集成,流程進入到步驟112。在步驟112,執(zhí)行與步驟101相同的數(shù)據(jù)信息采集,流程進入到步驟113。在步驟113,與步驟102相同,判斷是否出現(xiàn)故障,當判斷沒有故障產(chǎn)生時,流程進入到步驟114 ;當判斷有故障產(chǎn)生時,流程進入到步驟115。在步驟114,清除節(jié)點安裝集成的標志位,流程返回到步驟101。在步驟115,由于檢測節(jié)點仍不能正常運行,此時發(fā)送消息給系統(tǒng)管理員,由管理員進行人工處理。參照圖2,圖2為圖I中的執(zhí)行數(shù)據(jù)信息采集的步驟中應用信息數(shù)據(jù)采集的流程圖。應用信息數(shù)據(jù)采集是根據(jù)生產(chǎn)應用的實際情況,先羅列出實際應用中的各種需要,然后根據(jù)需要手工錄入各個應用服務器及應用服務的節(jié)點名,并保存到數(shù)據(jù)庫中,然后根據(jù)各個應用服務器的節(jié)點名查詢該服務器的應用服務狀態(tài),并把其狀態(tài)寫到數(shù)據(jù)庫中,以便用戶方便的查詢到這些服務器的應用服務狀態(tài)。其主要包括一下步驟
在步驟201,為服務和進程在數(shù)據(jù)庫中命名,即通過研究生產(chǎn)中各種應用,確定其中的關(guān)鍵服務、進程,并為其定義了在數(shù)據(jù)庫中的名字,流程進入到步驟202。在步驟202,為每個服務和進程的不同狀況定義了相應的狀態(tài)UP、DOWN、DEGRADE。UP表示狀態(tài)正常,在界面上用綠色表示,DOWN表示該服務不可用,在界面上用紅色表示,DEGRADE表示服務可用,但存在問題,在界面上用黃色表示。流程進入到步驟203。在步驟203,取主機名,流程進入到步驟204。

在步驟204,讀取應用各服務或進程對應的記錄及個數(shù),流程進入到步驟205。在步驟205,取出其中一個記錄中的節(jié)點名,流程進入到步驟206。在步驟206,判斷節(jié)點名與主機名是否相符,當節(jié)點名與主機名相符時,流程進入到步驟207 ;當節(jié)點名與主機名不相符時,流程返回到步驟205。在步驟207,采集對應的服務或進程狀態(tài)并寫入數(shù)據(jù)庫,流程進入到步驟208。在步驟208,根據(jù)讀取的記錄的個數(shù)判斷是否已經(jīng)循環(huán)完畢,即是否已經(jīng)取出過所有記錄中的節(jié)點名,當循環(huán)完畢時,流程進入到步驟209;當還未進行完循環(huán)時,等待固定的時間間隔后,流程返回到步驟205。在步驟209,將狀態(tài)查詢的結(jié)果發(fā)送到遠程的數(shù)據(jù)庫服務器進行集中的存儲。流程進入到步驟210。在步驟210,在界面的應用服務器狀態(tài)欄上,當點擊到本欄時,更新并顯示每個應用服務器狀態(tài)。此流程結(jié)束。在圖2中,步驟205至步驟208為應用信息采集模塊在集群中各個應用服務器上以守護進程方式運行,以固定時間間隔進行狀態(tài)查詢。在圖I中的步驟115中,當管理員進行人工控制時,可包括以下步驟首先,安裝服務器端將節(jié)點標志為安裝;再通過遠程控制的方法,重新啟動節(jié)點或者將節(jié)點復位;節(jié)點通過PXE網(wǎng)絡引導,判斷需要進行網(wǎng)絡的安裝;當需要網(wǎng)絡安裝時,通過網(wǎng)絡文件系統(tǒng)讀取需要安裝的軟件包,進行系統(tǒng)的安裝以及安裝后的各項網(wǎng)絡、系統(tǒng)配置;再次進行故障的檢測判斷,并進行相應的處理。圖3為本發(fā)明的Linux集群故障自動恢復系統(tǒng)的模塊圖。該系統(tǒng)包括數(shù)據(jù)信息采集及判斷模塊301、重新啟動節(jié)點模塊302、維護集成模塊302和安裝集成模塊304。數(shù)據(jù)信息采集及判斷模塊301用于執(zhí)行數(shù)據(jù)信息采集并判斷是否出現(xiàn)故障。信息采集可分為動態(tài)數(shù)據(jù)采集、靜態(tài)信息采集、系統(tǒng)服務狀態(tài)數(shù)據(jù)采集和應用信息數(shù)據(jù)采集。在一實施例中,該數(shù)據(jù)信息采集及判斷模塊301通過讀取系統(tǒng)的/proc文件系統(tǒng)獲取系統(tǒng)信息以獲得該動態(tài)數(shù)據(jù)采集和該靜態(tài)信息采集。該數(shù)據(jù)信息采集及判斷模塊301檢測整個集群的DNS、NIS、NTP等主從服務器的服務狀態(tài)以獲得該系統(tǒng)服務狀態(tài)數(shù)據(jù)采集,并把其狀態(tài)寫到數(shù)據(jù)庫中。該數(shù)據(jù)信息采集及判斷模塊301根據(jù)生產(chǎn)應用的實際情況,先羅列出實際應用中的各種需要,然后根據(jù)需要手工錄入各個應用服務器及應用服務的節(jié)點名,并保存到數(shù)據(jù)庫中,然后根據(jù)各個應用服務器的節(jié)點名檢測該服務器的應用服務狀態(tài),并把其狀態(tài)寫到該數(shù)據(jù)庫中,以進行該應用信息數(shù)據(jù)采集。數(shù)據(jù)信息采集及判斷模塊301根據(jù)數(shù)據(jù)信息采集(節(jié)點、服務、應用等信息)的更新時間,設(shè)定更新間隔的最大門檻值,當采集信息的刷新時間超過了最大的時間間隔,認定節(jié)點、服務、或者應用出現(xiàn)故障。當數(shù)據(jù)信息采集及判斷模塊301判斷出現(xiàn)故障時,重新啟動節(jié)點模塊302使用遠程控制方法重新啟動節(jié)點,并標志節(jié)點已進行重新啟動。此時,數(shù)據(jù)信息采集及判斷模塊301再次執(zhí)行數(shù)據(jù)信息采集并判斷是否出現(xiàn)故障,當判斷沒有故障產(chǎn)生時,數(shù)據(jù)信息采集及判斷模塊301清除節(jié)點已進行重新啟動的標志位;當判斷有故障產(chǎn)生時,維護集成模塊303執(zhí)行故障節(jié)點的維護集成。對于已經(jīng)重新啟動的節(jié)點,如果故障無法排除,維護集成模塊303將節(jié)點在服務器端設(shè)置成維護狀態(tài),重新啟動節(jié)點。節(jié)點在啟動過程中,維護集成模塊303從網(wǎng)絡讀取啟 動映像,進入節(jié)點的維護狀態(tài),將節(jié)點系統(tǒng)的配置還原到最初配置狀態(tài)。維護集成完成后,系統(tǒng)再次啟動使維護集成的內(nèi)容生效,并且維護集成模塊303將節(jié)點標志成維護集成。此時,數(shù)據(jù)信息采集及判斷模塊301再次執(zhí)行數(shù)據(jù)信息采集并判斷是否出現(xiàn)故障,當判斷沒有故障產(chǎn)生時,數(shù)據(jù)信息采集及判斷模塊301清除節(jié)點維護集成的標志位;當判斷有故障產(chǎn)生時,安裝集成模塊304執(zhí)行故障節(jié)點的安裝集成。對于維護集成后,檢測仍不能夠正常運行的節(jié)點,安裝集成模塊304將節(jié)點在服務器端設(shè)置成安裝集成狀態(tài),重新啟動節(jié)點。節(jié)點在啟動過程中,安裝集成模塊304從網(wǎng)絡讀取啟動映像,進入節(jié)點的網(wǎng)絡安裝集成,即從網(wǎng)絡讀取安裝包,進行系統(tǒng)的安裝配置,將節(jié)點系統(tǒng)重新進行安裝。安裝集成完成后,系統(tǒng)再次啟動使新系統(tǒng)生效,并且安裝集成模塊304將節(jié)點標志成安裝集成。此時,數(shù)據(jù)信息采集及判斷模塊301再次執(zhí)行數(shù)據(jù)信息采集并判斷是否出現(xiàn)故障,當判斷沒有故障產(chǎn)生時,安裝集成模塊304清除節(jié)點安裝集成的標志位;當判斷有故障產(chǎn)生時,數(shù)據(jù)信息采集及判斷模塊301此時發(fā)送消息給系統(tǒng)管理員,由管理員進行人工處理。以上實施例僅為本發(fā)明的示例性實施例,不用于限制本發(fā)明,本發(fā)明的保護范圍由附加的權(quán)利要求書限定。本領(lǐng)域技術(shù)人員可以在本發(fā)明的實質(zhì)和保護范圍內(nèi),對本發(fā)明做出各種修改或等同替換,這種修改或等同替換也應視為落在本發(fā)明的保護范圍內(nèi)。
權(quán)利要求
1.Linux集群故障自動恢復方法,其特征在于,該Linux集群故障自動恢復方法包括 執(zhí)行數(shù)據(jù)信息采集并判斷是否出現(xiàn)故障; 當判斷出現(xiàn)故障時,重新啟動節(jié)點; 當重新啟動該節(jié)點后,再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,執(zhí)行故障節(jié)點的維護集成; 在執(zhí)行該故障節(jié)點的維護集成后,再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,執(zhí)行故障節(jié)點的安裝集成;以及 在執(zhí)行該故障節(jié)點的安裝集成后,再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,進行人工處理。
2.根據(jù)權(quán)利要求I所述的Linux集群故障自動恢復方法,其特征在于,該數(shù)據(jù)信息采集包括動態(tài)數(shù)據(jù)采集、靜態(tài)信息采集、系統(tǒng)服務狀態(tài)數(shù)據(jù)采集和應用信息數(shù)據(jù)采集。
3.根據(jù)權(quán)利要求2所述的Linux集群故障自動恢復方法,其特征在于,該動態(tài)數(shù)據(jù)采集和靜態(tài)信息采集通過讀取系統(tǒng)的/proc文件系統(tǒng)獲取系統(tǒng)信息。
4.根據(jù)權(quán)利要求2所述的Linux集群故障自動恢復方法,其特征在于,該系統(tǒng)服務狀態(tài)數(shù)據(jù)采集是檢測整個集群的DNS、NIS、NTP等主從服務器的服務狀態(tài),并把其狀態(tài)寫到數(shù)據(jù)庫中。
5.Linux集群故障自動恢復系統(tǒng),其特征在于,該Linux集群故障自動恢復系統(tǒng)包括數(shù)據(jù)信息采集及判斷模塊、重新啟動節(jié)點模塊、維護集成模塊和安裝集成模塊,該數(shù)據(jù)信息采集及判斷模塊用于執(zhí)行數(shù)據(jù)信息采集并判斷是否出現(xiàn)故障,該重新啟動節(jié)點模塊用于重新啟動節(jié)點,該維護集成模塊用于執(zhí)行故障節(jié)點的維護集成,該安裝集成模塊用于執(zhí)行故障節(jié)點的安裝集成。
6.根據(jù)權(quán)利要求5所述的Linux集群故障自動恢復系統(tǒng),其特征在于,該數(shù)據(jù)信息采集及判斷模塊執(zhí)行數(shù)據(jù)信息采集并判斷是否出現(xiàn)故障,當該數(shù)據(jù)信息采集及判斷模塊判斷出現(xiàn)故障時,該重新啟動節(jié)點模塊重新啟動節(jié)點,在該重新啟動節(jié)點模塊重新啟動該節(jié)點后,該數(shù)據(jù)信息采集及判斷模塊再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,該維護集成模塊執(zhí)行故障節(jié)點的維護集成,當該維護集成模塊執(zhí)行該故障節(jié)點的維護集成后,該數(shù)據(jù)信息采集及判斷模塊再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,該安裝集成模塊執(zhí)行故障節(jié)點的安裝集成,在該安裝集成模塊執(zhí)行該故障節(jié)點的安裝集成后,該數(shù)據(jù)信息采集及判斷模塊再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,該數(shù)據(jù)信息采集及判斷模塊發(fā)送消息以進行人工處理。
7.根據(jù)權(quán)利要求5所述的Linux集群故障自動恢復系統(tǒng),其特征在于,該數(shù)據(jù)信息采集包括動態(tài)數(shù)據(jù)采集、靜態(tài)信息采集、系統(tǒng)服務狀態(tài)數(shù)據(jù)采集和應用信息數(shù)據(jù)采集。
8.根據(jù)權(quán)利要求7所述的Linux集群故障自動恢復系統(tǒng),其特征在于,該數(shù)據(jù)信息采集及判斷模塊通過讀取系統(tǒng)的/proc文件系統(tǒng)獲取系統(tǒng)信息以獲得該動態(tài)數(shù)據(jù)采集和該靜態(tài)信息米集。
9.根據(jù)權(quán)利要求7所述的Linux集群故障自動恢復系統(tǒng),其特征在于,該數(shù)據(jù)信息采集及判斷模塊檢測整個集群的DNS、NIS、NTP等主從服務器的服務狀態(tài)以獲得該系統(tǒng)服務狀態(tài)數(shù)據(jù)采集,并把其狀態(tài)寫到數(shù)據(jù)庫中。
10.根據(jù)權(quán)利要求5所述的Linux集群故障自動恢復系統(tǒng),其特征在于,該數(shù)據(jù)信息采集及判斷模塊根據(jù)該數(shù)據(jù)信息采集的更新時間,設(shè)定該更新間隔的最大時間間隔,當該數(shù)據(jù)信息采集的刷新時間超過了該最大時間間隔時,該數(shù)據(jù)信息采集及判斷模塊判斷出現(xiàn)故 障。
全文摘要
本發(fā)明提供一種Linux集群故障自動恢復方法,包括執(zhí)行數(shù)據(jù)信息采集并判斷是否出現(xiàn)故障;當判斷出現(xiàn)故障時,重新啟動節(jié)點;當重新啟動該節(jié)點后,再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,執(zhí)行故障節(jié)點的維護集成;在執(zhí)行該故障節(jié)點的維護集成后,再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,執(zhí)行故障節(jié)點的安裝集成;以及在執(zhí)行該故障節(jié)點的安裝集成后,再次執(zhí)行該數(shù)據(jù)信息采集并判斷出現(xiàn)故障時,進行人工處理。該Linux集群故障自動恢復方法在很大程度上減少了人工的消耗,能夠自動、快速、高效地完成集群節(jié)點系統(tǒng)的故障自動恢復,能夠滿足異構(gòu)集群不同需求,支持多個版本操作系統(tǒng),提高了集群資源利用效率。
文檔編號H04L12/24GK102957563SQ201210031209
公開日2013年3月6日 申請日期2012年2月13日 優(yōu)先權(quán)日2011年8月16日
發(fā)明者單聯(lián)瑜, 叢龍水, 董濤, 李戰(zhàn)強, 孫世為, 邢占軍, 孫友凱, 段淼, 劉玉梅, 徐香明, 趙軍民, 付巧娟, 吳敏, 車曉萍, 劉芳, 盧晉平, 董倩, 尚新民, 侯樹杰, 郭見樂 申請人:中國石油化工股份有限公司, 中國石油化工股份有限公司勝利油田分公司物探研究院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1