亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種集群存儲(chǔ)中磁盤故障的預(yù)防及檢測(cè)方法

文檔序號(hào):6535450閱讀:270來(lái)源:國(guó)知局
一種集群存儲(chǔ)中磁盤故障的預(yù)防及檢測(cè)方法
【專利摘要】本發(fā)明公開了一種集群存儲(chǔ)中磁盤故障的預(yù)防及檢測(cè)方法,步驟如下:將每個(gè)磁盤對(duì)應(yīng)設(shè)置一個(gè)磁盤請(qǐng)求監(jiān)控模塊,磁盤請(qǐng)求監(jiān)控模塊監(jiān)控磁盤請(qǐng)求處理過程中每個(gè)請(qǐng)求的響應(yīng)速度,當(dāng)請(qǐng)求花費(fèi)的時(shí)間超過了規(guī)定的閾值時(shí),則磁盤請(qǐng)求監(jiān)控模塊會(huì)向磁盤故障判斷模塊報(bào)告其所監(jiān)控的磁盤出現(xiàn)了請(qǐng)求響應(yīng)緩慢的情況,并給出最慢的請(qǐng)求所花費(fèi)的時(shí)間;磁盤故障判斷模塊收集磁盤請(qǐng)求監(jiān)控模塊報(bào)告的磁盤請(qǐng)求超時(shí)情況,并據(jù)此判斷是否可能存在潛在故障磁盤,如果發(fā)現(xiàn)只有極個(gè)別的磁盤發(fā)生了超時(shí),則判斷該磁盤是潛在故障磁盤;則會(huì)發(fā)送信息通知磁盤故障處理模塊對(duì)該磁盤進(jìn)行處理。本發(fā)明能有效的預(yù)防磁盤故障導(dǎo)致的數(shù)據(jù)丟失,提高系統(tǒng)的數(shù)據(jù)可靠性。
【專利說(shuō)明】一種集群存儲(chǔ)中磁盤故障的預(yù)防及檢測(cè)方法
[0001]
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及計(jì)算機(jī)存儲(chǔ)領(lǐng)域,具體地說(shuō)是一種集群存儲(chǔ)中磁盤故障的預(yù)防及檢測(cè)方法。
【背景技術(shù)】
[0003]隨著的互聯(lián)網(wǎng)時(shí)代已經(jīng)到來(lái):社交網(wǎng)絡(luò)、微博、位置服務(wù)等面向普通互聯(lián)網(wǎng)用戶的交互型網(wǎng)站正蓬勃興起,如Google、Facebook、Twitter以及國(guó)內(nèi)的人人網(wǎng)、微博等,向數(shù)以億計(jì)的用戶提供基于互聯(lián)網(wǎng)和無(wú)線網(wǎng)絡(luò)的交互服務(wù)。遍布全世界的互聯(lián)網(wǎng)用戶每天都進(jìn)行多種多樣的交互,隨時(shí)都在制造各種各樣的數(shù)據(jù),這些數(shù)據(jù)的數(shù)量是單機(jī)時(shí)代數(shù)據(jù)量的數(shù)倍。
[0004]為存儲(chǔ)這些數(shù)據(jù),各互聯(lián)網(wǎng)公司在世界各地建立了龐大的數(shù)據(jù)中心,單個(gè)數(shù)據(jù)中心的主機(jī)數(shù)量在幾百至數(shù)萬(wàn)的數(shù)量級(jí)不等。來(lái)自Google的信息表明,Google在全球有數(shù)十個(gè)數(shù)據(jù)中心和過千萬(wàn)臺(tái)服務(wù)器,存儲(chǔ)其全球用戶每天產(chǎn)生的海量數(shù)據(jù)。在數(shù)據(jù)中心內(nèi)部,數(shù)據(jù)的儲(chǔ)存最終需要存儲(chǔ)到磁盤上,因此,磁盤的可靠性與數(shù)據(jù)的可靠性密切相關(guān)。
[0005]目前,一個(gè)數(shù)據(jù)中心通常包括成千上萬(wàn)塊磁盤,在如此龐大的數(shù)量下,磁盤的故障被視為一種常態(tài)而對(duì)待,因此數(shù)據(jù)冗余功能也成為了基本功能。在磁盤發(fā)生故障的時(shí)候,通過冗余的數(shù)據(jù),可以保證數(shù)據(jù)的可靠性,同時(shí)還可以重新建立數(shù)據(jù)的冗余,以便應(yīng)對(duì)后續(xù)的磁盤故障。目前常用的數(shù)據(jù)冗余功能包括副本和RAID兩種方式,前者主要用于跨數(shù)據(jù)節(jié)點(diǎn)的容災(zāi)、后者用于節(jié)點(diǎn)內(nèi)部的容災(zāi)。這兩種方式都能保證部分磁盤損壞(容災(zāi)限度內(nèi))的情況下,數(shù)據(jù)仍然可用。
[0006]數(shù)據(jù)的冗余機(jī)制雖然能夠在磁盤發(fā)生故障時(shí)在一定程度上保證數(shù)據(jù)的安全性,但仍然存在一定的風(fēng)險(xiǎn),特別是在磁盤發(fā)生故障后的冗余數(shù)據(jù)重建過程中。以雙副本數(shù)據(jù)冗余策略為例,假設(shè)一份數(shù)據(jù)存在A和B兩個(gè)副本,如果A副本由于磁盤故障丟失后,需要根據(jù)B副本重建A副本。此時(shí),數(shù)據(jù)實(shí)際上只存在一份有效的拷貝(B副本)。如果在A副本的重建過程中,B副本所在的磁盤也發(fā)生了故障,則有可能導(dǎo)致數(shù)據(jù)的徹底丟失。改善這一現(xiàn)象固然可以通過增加數(shù)據(jù)冗余度(例如增加到三副本)進(jìn)行改善,但會(huì)造成額外的空間利用率的損失。
[0007]導(dǎo)致數(shù)據(jù)重建過程中數(shù)據(jù)安全性較為脆弱的原因,主要是因?yàn)楝F(xiàn)有的數(shù)據(jù)容災(zāi)機(jī)制都是一種基于事后的處理方式,即只有當(dāng)磁盤發(fā)生了故障、無(wú)法使用后才會(huì)進(jìn)行數(shù)據(jù)冗余的重建,而無(wú)法實(shí)現(xiàn)識(shí)別潛在的磁盤故障,因此存在一個(gè)數(shù)據(jù)安全系數(shù)較低的冗余數(shù)據(jù)重建階段。
[0008]另一方面,磁盤的損壞通常是一個(gè)逐漸發(fā)生的過程,其前期特征通常是磁盤的性能出現(xiàn)較大幅度的下降,體現(xiàn)在部分磁盤請(qǐng)求需要較長(zhǎng)時(shí)間完整或者平均吞吐量出現(xiàn)明顯的降低。如果能夠通過這些前期特征提前識(shí)別出可能發(fā)生故障的磁盤,并且在其完全故障前就采取相應(yīng)的策略,則可以極大的提高數(shù)據(jù)的安全性。
[0009]
【發(fā)明內(nèi)容】

本發(fā)明的技術(shù)任務(wù)是提供一種集群存儲(chǔ)中磁盤故障的預(yù)防及檢測(cè)方法。
[0010]本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的,該預(yù)防及檢測(cè)方法包括磁盤請(qǐng)求監(jiān)控模塊、磁盤故障判斷模塊和磁盤故障處理模塊,所述的檢測(cè)方法步驟如下:
將每個(gè)磁盤對(duì)應(yīng)設(shè)置一個(gè)磁盤請(qǐng)求監(jiān)控模塊,磁盤請(qǐng)求監(jiān)控模塊監(jiān)控磁盤請(qǐng)求處理過程中每個(gè)請(qǐng)求的響應(yīng)速度,當(dāng)請(qǐng)求花費(fèi)的時(shí)間超過了規(guī)定的閾值時(shí),則磁盤請(qǐng)求監(jiān)控模塊會(huì)向磁盤故障判斷模塊報(bào)告其所監(jiān)控的磁盤出現(xiàn)了請(qǐng)求響應(yīng)緩慢的情況,并給出最慢的請(qǐng)求所花費(fèi)的時(shí)間;磁盤故障判斷模塊收集磁盤請(qǐng)求監(jiān)控模塊報(bào)告的磁盤請(qǐng)求超時(shí)情況,并據(jù)此判斷是否可能存在潛在故障磁盤,如果發(fā)現(xiàn)只有極個(gè)別的磁盤發(fā)生了超時(shí),則判斷該磁盤是潛在故障磁盤;則會(huì)發(fā)送信息通知磁盤故障處理模塊對(duì)該磁盤進(jìn)行處理。
[0011]所述的磁盤故障判斷模塊判斷磁盤是否存在潛在故障的依據(jù)主要是根據(jù)集群存儲(chǔ)的負(fù)載平衡原理。
[0012]所述的磁盤故障處理模塊處理潛在故障磁盤有以下處理方式:在集群狀態(tài)描述中,將該磁盤標(biāo)記為潛在故障;發(fā)送告警信息,通知系統(tǒng)維護(hù)人員該磁盤存在潛在故障;降低該磁盤的權(quán)重,減少該磁盤的IO負(fù)載,延緩磁盤發(fā)生故障的時(shí)間;如果集群壓力較小,將該磁盤的數(shù)據(jù)重新分布到其它磁盤中。
[0013]本發(fā)明的一種集群存儲(chǔ)中磁盤故障的預(yù)防及檢測(cè)方法和現(xiàn)有技術(shù)相比,能夠在磁盤故障前,預(yù)先判斷出可能發(fā)生故障的磁盤,并對(duì)這些磁盤執(zhí)行自動(dòng)處理操作,包括將該磁盤標(biāo)記為潛在故障、激活數(shù)據(jù)冗余的重建、向維護(hù)人員發(fā)送告警信息等;通過這種方法可以有效的預(yù)防磁盤故障導(dǎo)致的數(shù)據(jù)丟失,提高系統(tǒng)的數(shù)據(jù)可靠性。
【專利附圖】

【附圖說(shuō)明】`
[0014]附圖1為一種集群存儲(chǔ)中磁盤故障的預(yù)防及檢測(cè)方法的示意圖。
【具體實(shí)施方式】
[0015]實(shí)施例1:
磁盤對(duì)于IO請(qǐng)求的執(zhí)行情況是磁盤潛在故障的判斷依據(jù),對(duì)于磁盤IO請(qǐng)求執(zhí)行情況的監(jiān)控由磁盤請(qǐng)求監(jiān)控模塊負(fù)責(zé)。將每一個(gè)磁盤對(duì)應(yīng)設(shè)置一個(gè)磁盤請(qǐng)求監(jiān)控模塊,該模塊主要監(jiān)控磁盤請(qǐng)求處理過程中每個(gè)請(qǐng)求的響應(yīng)速度。如果存在請(qǐng)求花費(fèi)的時(shí)間超過了規(guī)定的閾值,例如一個(gè)IO請(qǐng)求在30秒之內(nèi)仍無(wú)法完成,則磁盤請(qǐng)求監(jiān)控模塊會(huì)向磁盤故障判斷模塊報(bào)告其所監(jiān)控的磁盤出現(xiàn)了請(qǐng)求響應(yīng)緩慢的情況,并給出最慢的請(qǐng)求所花費(fèi)的時(shí)間。
[0016]磁盤故障判斷模塊收集磁盤請(qǐng)求監(jiān)控模塊報(bào)告的磁盤請(qǐng)求超時(shí)情況,并據(jù)此判斷是否存在潛在故障磁盤。磁盤故障判斷模塊判斷磁盤可能存在潛在故障的依據(jù)主要是根據(jù)集群存儲(chǔ)的負(fù)載平衡原理,即:在一個(gè)集群中,負(fù)載平衡算法會(huì)將集群的負(fù)載平均的分配到每一個(gè)磁盤上,因此每一個(gè)磁盤所承擔(dān)的IO操作的壓力是相同的。由于集群的采用的磁盤基本相同,其IO處理能力也相同,因此,在相同壓力下,完成請(qǐng)求所有的時(shí)間應(yīng)該也大致相同;反之,如果出現(xiàn)了個(gè)別磁盤完成請(qǐng)求所需要的時(shí)間大大超過其它磁盤,則該磁盤存在潛在故障的可能性極大。根據(jù)以上原理,磁盤故障判斷模塊如果在其收集到的磁盤請(qǐng)求超時(shí)情況中,發(fā)現(xiàn)只有極個(gè)別的磁盤發(fā)生了超時(shí),則判斷該磁盤是潛在故障磁盤。
[0017]如果磁盤故障判斷模塊認(rèn)定某塊磁盤是潛在故障磁盤,則會(huì)通知磁盤故障處理模塊對(duì)該磁盤進(jìn)行處理,磁盤故障處理模塊會(huì)根據(jù)需要對(duì)該磁盤進(jìn)行如下處理:
1)在集群狀態(tài)描述中,將該磁盤標(biāo)記為潛在故障;
2)發(fā)送告警信息,通知系統(tǒng)維護(hù)人員該磁盤存在潛在故障;
3)降低該磁盤的權(quán)重,減少該磁盤的IO負(fù)載,延緩磁盤發(fā)生故障的時(shí)間;
4)如果集群壓力較小,將該磁盤的數(shù)據(jù)重新分布到其它磁盤中。
【權(quán)利要求】
1.一種集群存儲(chǔ)中磁盤故障的預(yù)防及檢測(cè)方法,包括磁盤請(qǐng)求監(jiān)控模塊、磁盤故障判斷模塊和磁盤故障處理模塊,其特征在于,所述的檢測(cè)方法步驟如下: 將每個(gè)磁盤對(duì)應(yīng)設(shè)置一個(gè)磁盤請(qǐng)求監(jiān)控模塊,磁盤請(qǐng)求監(jiān)控模塊監(jiān)控磁盤請(qǐng)求處理過程中每個(gè)請(qǐng)求的響應(yīng)速度,當(dāng)請(qǐng)求花費(fèi)的時(shí)間超過了規(guī)定的閾值時(shí),則磁盤請(qǐng)求監(jiān)控模塊會(huì)向磁盤故障判斷模塊報(bào)告其所監(jiān)控的磁盤出現(xiàn)了請(qǐng)求響應(yīng)緩慢的情況,并給出最慢的請(qǐng)求所花費(fèi)的時(shí)間;磁盤故障判斷模塊收集磁盤請(qǐng)求監(jiān)控模塊報(bào)告的磁盤請(qǐng)求超時(shí)情況,并據(jù)此判斷是否可能存在潛在故障磁盤,如果發(fā)現(xiàn)只有極個(gè)別的磁盤發(fā)生了超時(shí),則判斷該磁盤是潛在故障磁盤;則會(huì)發(fā)送信息通知磁盤故障處理模塊對(duì)該磁盤進(jìn)行處理。
2.根據(jù)權(quán)利要求1所述的一種集群存儲(chǔ)中磁盤故障的預(yù)防及檢測(cè)方法,其特征在于,所述的磁盤故障判斷模塊判斷磁盤是否存在潛在故障的依據(jù)主要是根據(jù)集群存儲(chǔ)的負(fù)載平衡原理。
3.根據(jù)權(quán)利要求1所述的一種集群存儲(chǔ)中磁盤故障的預(yù)防及檢測(cè)方法,其特征在于,所述的磁盤故障處理模塊處理潛在故障磁盤有以下處理方式:在集群狀態(tài)描述中,將該磁盤標(biāo)記為潛在故障;發(fā)送告警信息,通知系統(tǒng)維護(hù)人員該磁盤存在潛在故障;降低該磁盤的權(quán)重,減少該磁盤的IO負(fù)載,延緩磁盤發(fā)生故障的時(shí)間;如果集群壓力較小,將該磁盤的數(shù)據(jù)重新分布到其它磁盤中。
【文檔編號(hào)】G06F11/34GK103761180SQ201410011802
【公開日】2014年4月30日 申請(qǐng)日期:2014年1月11日 優(yōu)先權(quán)日:2014年1月11日
【發(fā)明者】王恩東, 文中領(lǐng), 張立強(qiáng), 袁冬 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1