一種故障告警方法與裝置制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種故障告警方法與裝置,涉及電子信息【技術(shù)領(lǐng)域】,能夠區(qū)分故障點(diǎn)的故障類型,避免不必要的硬件更換,減少了維護(hù)設(shè)備花費(fèi)的維護(hù)成本。本發(fā)明的方法包括:當(dāng)存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息;根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)的地址信息,得到測試結(jié)果;判斷測試結(jié)果與預(yù)設(shè)的正確結(jié)果是否相同;若相同,則判定第一故障點(diǎn)的故障類型為軟失效故障;若不同,則判定第一故障點(diǎn)的故障類型為硬失效故障;輸出判定得到的第一故障點(diǎn)的故障類型。本發(fā)明適用于檢測到故障后,區(qū)分故障類型并發(fā)布告警的場景中。
【專利說明】一種故障告警方法與裝置
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及電子信息【技術(shù)領(lǐng)域】,尤其涉及一種故障告警方法與裝置。
【背景技術(shù)】
[0002]在電子信息【技術(shù)領(lǐng)域】,RAM (Random Access Memory,隨機(jī)存儲(chǔ)記憶體)得到了大規(guī)模應(yīng)用,但是在使用RAM的過程中,往往會(huì)出現(xiàn)一些故障,為了能夠快速的找到故障并排除,現(xiàn)有技術(shù)使用故障告警系統(tǒng),故障告警系統(tǒng)會(huì)根據(jù)存儲(chǔ)單元在設(shè)備中的重要性,設(shè)定存儲(chǔ)單元發(fā)生故障時(shí)故障的等級(jí),當(dāng)系統(tǒng)檢測到設(shè)備中某個(gè)存儲(chǔ)單元出現(xiàn)故障時(shí),會(huì)根據(jù)預(yù)先設(shè)定的故障等級(jí),向維護(hù)人員或用戶發(fā)布包含故障等級(jí)的告警信息,使得維護(hù)人員可以根據(jù)故障等級(jí)對(duì)設(shè)備進(jìn)行相應(yīng)的維護(hù)處理。
[0003]其中,RAM的故障分為硬失效故障和軟失效故障,硬失效故障是由于設(shè)備的存儲(chǔ)單元或部件內(nèi)部發(fā)生了不可恢復(fù)的物理失效,必須更換硬件才可以消除故障;而軟失效故障是由于自由電荷聚集在電路節(jié)點(diǎn)中,引起了存儲(chǔ)數(shù)據(jù)的改變,不需要更換硬件,通過數(shù)據(jù)刷新等方法就可以解決故障。
[0004]然而,在現(xiàn)有技術(shù)的故障告警系統(tǒng)中,維護(hù)人員或用戶從故障告警系統(tǒng)發(fā)布的告警信息得到的是故障等級(jí),但同一故障等級(jí)的故障往往會(huì)有軟失效、硬失效故障的分別,且軟失效、硬失效故障的維護(hù)處理方法也不同,導(dǎo)致維護(hù)人員或用戶不能針對(duì)性的對(duì)故障進(jìn)行處理,將所有故障當(dāng)作硬失效故障,更換發(fā)生故障的硬件,對(duì)于軟失效故障,只要故障等級(jí)與需要更換硬件的硬失效故障相同,也需要更換硬件,從而增加了大量的維護(hù)成本。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的實(shí)施例提供一種故障告警方法與裝置,能夠區(qū)分故障點(diǎn)的故障類型,避免不必要的硬件更換,減少了維護(hù)設(shè)備花費(fèi)的維護(hù)成本。
[0006]為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
[0007]第一方面,本發(fā)明實(shí)施例提供一種故障告警方法,包括:
[0008]當(dāng)所述存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取所述第一故障點(diǎn)的地址信息;
[0009]根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到所述第一故障點(diǎn)的地址信息,得到測試結(jié)果;
[0010]判斷所述測試結(jié)果與預(yù)設(shè)的正確結(jié)果是否相同;若相同,則判定所述第一故障點(diǎn)的故障類型為軟失效故障;若不同,則判定所述第一故障點(diǎn)的故障類型為硬失效故障;
[0011]輸出判定得到的所述第一故障點(diǎn)的故障類型。
[0012]結(jié)合第一方面,在第一種可能的實(shí)現(xiàn)方式中,所述存儲(chǔ)設(shè)備為高速緩沖存儲(chǔ)器cache ;所述地址信息為所述第一故障點(diǎn)所在的緩存線cacheline對(duì)應(yīng)的地址范圍。
[0013]結(jié)合第一方面,在第二種可能的實(shí)現(xiàn)方式中,所述存儲(chǔ)設(shè)備為閃存器flash;所述地址信息為所述第一故障點(diǎn)所在的塊對(duì)應(yīng)的地址范圍。[0014]結(jié)合第一方面,在第三種可能的實(shí)現(xiàn)方式中,所述方法還包括:
[0015]在判定所述第一故障點(diǎn)的故障類型為軟失效故障之后,記錄所述第一故障點(diǎn)再次出現(xiàn)軟失效故障的次數(shù),當(dāng)所述次數(shù)超過閾值時(shí),判定所述第一故障點(diǎn)的故障類型為硬失效故障。
[0016]結(jié)合第一方面和第一方面的第三種可能的實(shí)現(xiàn)方式,在第四種可能的實(shí)現(xiàn)方式中,所述方法還包括:
[0017]獲取第二故障點(diǎn),檢測所述第二故障點(diǎn)與所述第一故障點(diǎn)是否存在配置相關(guān)性和時(shí)間相關(guān)性,所述第二故障點(diǎn)發(fā)生的故障伴生于所述第一故障點(diǎn)發(fā)生的故障,所述第二故障點(diǎn)的位置包括所述第一故障點(diǎn)所在的所述存儲(chǔ)設(shè)備,或者與所述第一故障點(diǎn)所在的所述存儲(chǔ)設(shè)備不同的硬件設(shè)備;
[0018]若存在所述配置相關(guān)性和所述時(shí)間相關(guān)性中的任意一項(xiàng),則對(duì)所述第二故障點(diǎn)的故障進(jìn)行自愈;
[0019]若不存在所述配置相關(guān)性,也不存在所述時(shí)間相關(guān)性,則發(fā)布告警信息,所述告警信息用于表示所述第二故障點(diǎn)的位置。
[0020]結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方式,在第五種可能的實(shí)現(xiàn)方式中,所述檢測所述第二故障點(diǎn)與所述第一故障點(diǎn)是否存在配置相關(guān)性包括:
[0021]檢測所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)的配置信息是否部分相同或完全相同;
[0022]若部分相同或完全相同,則所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在配置相關(guān)性;
[0023]所述檢測所述第二故障點(diǎn)與所述第一故障點(diǎn)是否存在時(shí)間相關(guān)性包括:
[0024]檢測所述第二故障點(diǎn)的故障是否滿足預(yù)設(shè)條件,所述預(yù)設(shè)條件包括:所述第二故障點(diǎn)的故障發(fā)生的時(shí)刻在所述第一故障點(diǎn)發(fā)生軟失效故障的時(shí)刻之后;所述第二故障點(diǎn)的故障恢復(fù)的時(shí)刻在所述第一故障點(diǎn)的軟失效故障恢復(fù)的時(shí)刻之后;
[0025]若滿足所述預(yù)設(shè)條件,則所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在時(shí)間相關(guān)性。
[0026]第二方面,本發(fā)明實(shí)施例提供一種故障告警裝置,包括:
[0027]獲取模塊,用于當(dāng)所述存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取所述第一故障點(diǎn)的地址信息;
[0028]測試模塊,用于根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到所述第一故障點(diǎn)的地址信息,得到測試結(jié)果;
[0029]判斷模塊,用于判斷所述測試結(jié)果與預(yù)設(shè)的正確結(jié)果是否相同;若相同,則判定所述第一故障點(diǎn)的故障類型為軟失效故障;若不同,則判定所述第一故障點(diǎn)的故障類型為硬失效故障;
[0030]發(fā)布模塊,用于輸出判定得到的所述第一故障點(diǎn)的故障類型。
[0031]結(jié)合第二方面,在第一種可能的實(shí)現(xiàn)方式中,所述存儲(chǔ)設(shè)備為高速緩沖存儲(chǔ)器cache ;所述地址信息為所述第一故障點(diǎn)所在的緩存線cacheline對(duì)應(yīng)的地址范圍。
[0032]結(jié)合第二方面,在第二種可能的實(shí)現(xiàn)方式中,所述存儲(chǔ)設(shè)備為閃存器flash ;所述地址信息為所述第一故障點(diǎn)所在的塊對(duì)應(yīng)的地址范圍。[0033]結(jié)合第二方面,在第三種可能的實(shí)現(xiàn)方式中,所述裝置還包括:
[0034]判定模塊,用于在判定所述第一故障點(diǎn)的故障類型為軟失效故障之后,記錄所述第一故障點(diǎn)再次出現(xiàn)軟失效故障的次數(shù),當(dāng)所述次數(shù)超過閾值時(shí),判定所述第一故障點(diǎn)的故障類型為硬失效故障。
[0035]結(jié)合第二方面和第二方面的第三種可能的實(shí)現(xiàn)方式,在第四種可能的實(shí)現(xiàn)方式中,所述裝置還包括:
[0036]檢測模塊,獲取第二故障點(diǎn),檢測所述第二故障點(diǎn)與所述第一故障點(diǎn)是否存在配置相關(guān)性和時(shí)間相關(guān)性,所述第二故障點(diǎn)發(fā)生的故障伴生于所述第一故障點(diǎn)發(fā)生的故障,所述第二故障點(diǎn)的位置包括所述第一故障點(diǎn)所在的所述存儲(chǔ)設(shè)備,或者與所述第一故障點(diǎn)所在的所述存儲(chǔ)設(shè)備不同的硬件設(shè)備;
[0037]自愈模塊,用于當(dāng)存在所述配置相關(guān)性和所述時(shí)間相關(guān)性中的任意一項(xiàng)時(shí),對(duì)所述第二故障點(diǎn)的故障進(jìn)行自愈;
[0038]告警模塊,用于當(dāng)不存在所述配置相關(guān)性,也不存在所述時(shí)間相關(guān)性時(shí),發(fā)布告警信息,所述告警信息用于表示所述第二故障點(diǎn)的位置。
[0039]結(jié)合第二方面的第四種可能的實(shí)現(xiàn)方式,在第五種可能的實(shí)現(xiàn)方式中,所述檢測模塊包括:
[0040]第一檢測單元,用于檢測所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)的配置信息是否部分相同或完全相同;
[0041]第一判定單元,用于當(dāng)部分相同或完全相同時(shí),判定所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在配置相關(guān)性;
[0042]第二檢測單元,用于檢測所述第二故障點(diǎn)的故障是否滿足預(yù)設(shè)條件,所述預(yù)設(shè)條件包括:所述第二故障點(diǎn)的故障發(fā)生的時(shí)刻在所述第一故障點(diǎn)發(fā)生軟失效故障的時(shí)刻之后;所述第二故障點(diǎn)的故障恢復(fù)的時(shí)刻在所述第一故障點(diǎn)的軟失效故障恢復(fù)的時(shí)刻之后;
[0043]第二判定單元,用于當(dāng)滿足所述預(yù)設(shè)條件時(shí),判定所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在時(shí)間相關(guān)性。
[0044]本發(fā)明實(shí)施例提供的一種故障告警方法與裝置,能夠在存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)的地址信息,得到測試結(jié)果,根據(jù)測試結(jié)果與預(yù)設(shè)的正確結(jié)果,判定第一故障點(diǎn)的故障類型,并輸出第一故障點(diǎn)的故障類型。與如圖1a所示的現(xiàn)有技術(shù)相比,本方案如圖1b所示,能夠判定存儲(chǔ)設(shè)備中故障的類型,例如:當(dāng)故障為軟失效故障時(shí),故障告警系統(tǒng)不會(huì)顯示更換硬件的告警信息,當(dāng)故障為硬失效故障時(shí),故障告警系統(tǒng)才會(huì)顯示更換硬件的告警信息。從而使得維護(hù)人員可以針對(duì)不同類型的故障采取不同的措施,因此維護(hù)人員能夠避免不必要的硬件更換,從而減少了維護(hù)設(shè)備花費(fèi)的成本。
【專利附圖】
【附圖說明】
[0045]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它的附圖。[0046]圖1a為現(xiàn)有技術(shù)提供的一種故障告警方法的示意圖;
[0047]圖1b為本發(fā)明實(shí)施例提供的一種故障告警方法的示意圖;
[0048]圖2a為本發(fā)明實(shí)施例提供的一種故障告警方法的流程圖;
[0049]圖2b為本發(fā)明實(shí)施例提供的SRRl寄存器表格的舉例示意圖;
[0050]圖3a、圖3b為本發(fā)明實(shí)施例提供的一種故障告警方法的一種具體實(shí)現(xiàn)方式的流程圖;
[0051]圖4為本發(fā)明實(shí)施例提供的一種故障告警方法的另一種具體實(shí)現(xiàn)方式的流程圖;
[0052]圖5為本發(fā)明實(shí)施例提供的一種故障告警方法的又一種具體實(shí)現(xiàn)方式的流程圖;
[0053]圖6為本發(fā)明實(shí)施例提供的一種故障告警方法的再一種具體實(shí)現(xiàn)方式的流程圖;
[0054]圖7為本發(fā)明實(shí)施例提供的一種故障告警裝置的結(jié)構(gòu)示意圖;
[0055]圖8為本發(fā)明實(shí)施例提供的一種故障告警裝置的一種具體實(shí)現(xiàn)方式的結(jié)構(gòu)示意圖;
[0056]圖9為本發(fā)明實(shí)施例提供的一種故障告警裝置的另一種具體實(shí)現(xiàn)方式的結(jié)構(gòu)示意圖;
[0057]圖10為本發(fā)明實(shí)施例提供的一種故障告警裝置的又一種具體實(shí)現(xiàn)方式的結(jié)構(gòu)示意圖;
[0058]圖11為本發(fā)明實(shí)施例提供的一種故障告警系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0059]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0060]本發(fā)明實(shí)施例提供的技術(shù)方案應(yīng)用于故障告警系統(tǒng)、,故障告警系統(tǒng)可以確定存儲(chǔ)設(shè)備中的第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)的地址信息,得到測試結(jié)果,測試結(jié)果,判斷第一故障點(diǎn)的故障類型。在實(shí)際應(yīng)用中,存儲(chǔ)設(shè)備可以是內(nèi)存、高速緩沖存儲(chǔ)器(Cache)、數(shù)字處理器、邏輯類器件、以太網(wǎng)交換單元緩存等。
[0061]本發(fā)明實(shí)施例提供了一種故障告警方法,如圖2a所示,包括:
[0062]101,當(dāng)所述存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取所述第一故障點(diǎn)的地址信息。
[0063]其中,在存儲(chǔ)設(shè)備發(fā)生故障時(shí),故障告警系統(tǒng)可以根據(jù)處理器狀態(tài)寄存器的值,確定第一故障點(diǎn)所在的存儲(chǔ)設(shè)備的類型,比如:在如圖2b所示處理器的SRRl寄存器狀態(tài)表格中,可以根據(jù)處理器SRRl寄存器比特位(Bits),則可以根據(jù)字段名稱(Field Name)和描述(Description)確定對(duì)應(yīng)的第一故障點(diǎn)所在的存儲(chǔ)設(shè)備的類型。第一故障點(diǎn)可以是隨機(jī)存儲(chǔ)記憶體(RAM)中的存儲(chǔ)單元,存儲(chǔ)單元的大小可以等于RAM的最小存儲(chǔ)單位,也可以等于多個(gè)共用同一個(gè)物理地址的最小存儲(chǔ)單位之和,還可以等于多個(gè)物理地址對(duì)應(yīng)的存儲(chǔ)單位之和。
[0064]其中,地址信息可以是存儲(chǔ)設(shè)備中的存儲(chǔ)單元的物理地址,第一故障點(diǎn)所在的存儲(chǔ)設(shè)備可以是內(nèi)存、高速緩沖存儲(chǔ)器(Cache)、數(shù)字處理器、邏輯類器件、以太網(wǎng)交換單元緩存等。第一故障點(diǎn)所在的存儲(chǔ)設(shè)備的類型不同,獲取第一故障點(diǎn)的地址信息的方法也不同,比如:
[0065]a、若第一故障點(diǎn)所在的存儲(chǔ)設(shè)備為內(nèi)存、以太網(wǎng)交換單元緩存等,則可以直接得到第一故障點(diǎn)所在的物理地址。
[0066]b、若第一故障點(diǎn)所在的存儲(chǔ)設(shè)備為Cache,則需要根據(jù)Cache映射關(guān)系、處理器頁表入口(PTE)表項(xiàng)等信息,得到第一故障點(diǎn)所在的緩存線cacheline對(duì)應(yīng)的物理地址的范圍。
[0067]C、若第一故障點(diǎn)所在的存儲(chǔ)設(shè)備為閃存器(flash)、數(shù)字處理器等,則需要得到第一故障點(diǎn)所在的塊的物理地址的范圍。
[0068]其中,故障類型包括軟失效故障和硬失效故障。軟失效故障是由于自由電荷聚集在電路節(jié)點(diǎn)中,引起了存儲(chǔ)數(shù)據(jù)的改變,不需要更換硬件,通過數(shù)據(jù)刷新等方法就能夠解決;硬失效故障是由于設(shè)備的存儲(chǔ)單元、其他功能性單元或部件內(nèi)部發(fā)生了不可恢復(fù)的物理失效,需要更換硬件消除故障。
[0069]102,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到所述第一故障點(diǎn)的地址信息,得到測試結(jié)果。
[0070]其中,校驗(yàn)數(shù)據(jù)用于對(duì)第一故障點(diǎn)進(jìn)行測試,存儲(chǔ)單元失效檢測規(guī)則可以是棋盤法、數(shù)據(jù)圖案法等測試方法,測試結(jié)果為通過測試后從對(duì)應(yīng)的地址讀出的與檢驗(yàn)數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)。
[0071]其中,102這一步驟可以在存儲(chǔ)設(shè)備運(yùn)行過程中進(jìn)行,不必將第一故障點(diǎn)所在的存儲(chǔ)單元從存儲(chǔ)設(shè)備上拆卸下來再進(jìn)行測試。
[0072]103,判斷所述測試結(jié)果與預(yù)設(shè)的正確結(jié)果是否相同。
[0073]其中,預(yù)設(shè)的正確結(jié)果是在沒有出現(xiàn)故障時(shí)通過測試后應(yīng)該得到的正確的測試結(jié)果O
[0074]104,若相同,則判定所述第一故障點(diǎn)的故障類型為軟失效故障。
[0075]其中,若測試結(jié)果與預(yù)設(shè)的正確結(jié)果相同,那么第一故障點(diǎn)的故障類型為軟失效故障,比如:將校驗(yàn)數(shù)據(jù)寫入第一故障點(diǎn)的地址信息,經(jīng)過測試后,預(yù)設(shè)的正確結(jié)果是二進(jìn)制字符串1000101001,最終得到的測試結(jié)果也是二進(jìn)制字符串1000101001,則第一故障點(diǎn)的故障類型為軟失效故障。
[0076]105,若不同,則判定所述第一故障點(diǎn)的故障類型為硬失效故障。
[0077]其中,若測試結(jié)果與預(yù)設(shè)的正確結(jié)果不同,那么第一故障點(diǎn)的故障類型為硬失效故障,比如:將校驗(yàn)數(shù)據(jù)寫入第一故障點(diǎn)的地址信息,經(jīng)過測試后,預(yù)設(shè)的正確結(jié)果是二進(jìn)制字符串1000101001,最終得到的測試結(jié)果是二進(jìn)制字符串1100101001,則第一故障點(diǎn)的故障類型為硬失效故障。
[0078]106,輸出判定得到的所述第一故障點(diǎn)的故障類型。
[0079]其中,故障告警系統(tǒng)輸出第一故障點(diǎn)的故障類型,同時(shí),故障告警系統(tǒng)還可以給出提示信息,提示信息包括故障的解決方法。比如:當(dāng)故障告警系統(tǒng)發(fā)布該故障類型為硬失效故障時(shí),還可以發(fā)布提示信息,提示維護(hù)人員或用戶更換第一故障點(diǎn)所在的硬件;當(dāng)故障告警系統(tǒng)發(fā)布該故障類型為軟失效故障時(shí),還可以發(fā)布提示信息,提示維護(hù)人員或用戶刷新數(shù)據(jù),進(jìn)行數(shù)據(jù)恢復(fù)。
[0080]本發(fā)明實(shí)施例提供的一種故障告警方法,能夠在存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)的地址信息,得到測試結(jié)果,根據(jù)測試結(jié)果與預(yù)設(shè)的正確結(jié)果,判定第一故障點(diǎn)的故障類型,并輸出第一故障點(diǎn)的故障類型。與現(xiàn)有技術(shù)相比,本方案能夠判定存儲(chǔ)設(shè)備中故障的類型,例如:當(dāng)故障為軟失效故障時(shí),故障告警系統(tǒng)不會(huì)顯示更換硬件的告警信息,當(dāng)故障為硬失效故障時(shí),故障告警系統(tǒng)才會(huì)顯示更換硬件的告警信息。從而使得維護(hù)人員可以針對(duì)不同類型的故障采取不同的措施,因此維護(hù)人員能夠避免不必要的硬件更換,從而減少了維護(hù)設(shè)備花費(fèi)的成本。
[0081]可選的,在圖2a所示的方案的基礎(chǔ)上,本發(fā)明實(shí)施例還提供了一種故障告警方法的具體方案,存儲(chǔ)設(shè)備為cache,則101可以是101a,102可以是102a,如圖3a所示,包括:
[0082]IOla,當(dāng)cache發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取所述第一故障點(diǎn)所在的緩存線cacheline對(duì)應(yīng)的地址范圍。
[0083]其中,緩存線cacheline是cache的最小的不可再分的物理結(jié)構(gòu),根據(jù)cache映射關(guān)系,解析系統(tǒng)的PTE (Page Table Entry,頁表)表項(xiàng),得到第一故障點(diǎn)所在的cacheline,從而確定cacheline對(duì)應(yīng)的地址范圍。
[0084]102a,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到所述第一故障點(diǎn)所在的緩存線cacheline對(duì)應(yīng)的地址范圍,得到測試結(jié)果。
[0085]其中,具體過程與102相同,在此不再贅述。
[0086]本發(fā)明實(shí)施例提供的一種故障告警方法,能夠在cache發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)所在的cacheline對(duì)應(yīng)的地址范圍,得到測試結(jié)果,根據(jù)測試結(jié)果與預(yù)設(shè)的正確結(jié)果,判定第一故障點(diǎn)的故障類型,并輸出第一故障點(diǎn)的故障類型。與現(xiàn)有技術(shù)相比,本方案能夠判定存儲(chǔ)設(shè)備中故障的類型,例如:當(dāng)故障為軟失效故障時(shí),故障告警系統(tǒng)不會(huì)顯示更換硬件的告警信息,當(dāng)故障為硬失效故障時(shí),故障告警系統(tǒng)才會(huì)顯示更換硬件的告警信息。從而使得維護(hù)人員可以針對(duì)不同類型的故障采取不同的措施,因此維護(hù)人員能夠避免不必要的硬件更換,從而減少了維護(hù)設(shè)備花費(fèi)的成本。
[0087]可選的,在圖2a所示的方案的基礎(chǔ)上,本發(fā)明實(shí)施例還提供了一種故障告警方法的具體方案,存儲(chǔ)設(shè)備為閃存器flash,則101可以是101b,102可以是102b,如圖3b所示,包括:
[0088]101b,當(dāng)閃存器flash發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取所述第一故障點(diǎn)所在的塊對(duì)應(yīng)的地址范圍。
[0089]其中,塊是閃存器flash的最小的不可再分的物理結(jié)構(gòu),確定第一故障點(diǎn)所在的塊,從而得到第一故障點(diǎn)所在的塊對(duì)應(yīng)的地址范圍。
[0090]102b,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到所述第一故障點(diǎn)所在的塊對(duì)應(yīng)的地址范圍,得到測試結(jié)果。
[0091]其中,具體過程與102相同,在此不再贅述。
[0092]本發(fā)明實(shí)施例提供的一種故障告警方法,能夠在閃存器flash發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)所在的塊對(duì)應(yīng)的地址范圍,得到測試結(jié)果,根據(jù)測試結(jié)果與預(yù)設(shè)的正確結(jié)果,判定第一故障點(diǎn)的故障類型,并輸出第一故障點(diǎn)的故障類型。與現(xiàn)有技術(shù)相比,本方案能夠判定存儲(chǔ)設(shè)備中故障的類型,例如:當(dāng)故障為軟失效故障時(shí),故障告警系統(tǒng)不會(huì)顯示更換硬件的告警信息,當(dāng)故障為硬失效故障時(shí),故障告警系統(tǒng)才會(huì)顯示更換硬件的告警信息。從而使得維護(hù)人員可以針對(duì)不同類型的故障采取不同的措施,因此維護(hù)人員能夠避免不必要的硬件更換,從而減少了維護(hù)設(shè)備花費(fèi)的成本。
[0093]此外,在圖2a所示的方案的基礎(chǔ)上,本發(fā)明實(shí)施例還提供了一種故障告警方法的具體方案,通過增加107解決第一故障點(diǎn)多次出現(xiàn)軟失效故障的問題,如圖4所示,包括:
[0094]107,在判定所述第一故障點(diǎn)的故障類型為軟失效故障之后,記錄所述第一故障點(diǎn)再次出現(xiàn)軟失效故障的次數(shù),當(dāng)所述次數(shù)超過閾值時(shí),判定所述第一故障點(diǎn)的故障為硬失效故障。
[0095]其中,當(dāng)?shù)谝还收宵c(diǎn)第一次發(fā)生軟失效故障后,累積記錄第一故障點(diǎn)再次發(fā)生軟失效故障的次數(shù),當(dāng)次數(shù)超過設(shè)置的閾值時(shí),判定第一故障點(diǎn)發(fā)生硬失效故障,比如:設(shè)置的閾值為20,當(dāng)?shù)谝还收宵c(diǎn)發(fā)生軟失效故障之后,第一故障點(diǎn)再次發(fā)生軟失效故障的次數(shù)超過20次時(shí),判定第一故障點(diǎn)發(fā)生硬失效故障。
[0096]本發(fā)明實(shí)施例提供的一種故障告警方法,能夠在存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)的地址信息,得到測試結(jié)果,根據(jù)測試結(jié)果與預(yù)設(shè)的正確結(jié)果,判定第一故障點(diǎn)的故障類型,并輸出第一故障點(diǎn)的故障類型。當(dāng)在第一故障點(diǎn)反復(fù)發(fā)生軟失效故障,且發(fā)生軟失效故障的次數(shù)超過設(shè)置的閾值時(shí),判定第一故障點(diǎn)發(fā)生硬失效故障。與現(xiàn)有技術(shù)相比,本方案能夠判定存儲(chǔ)設(shè)備中故障的類型,例如:當(dāng)故障為軟失效故障時(shí),故障告警系統(tǒng)不會(huì)顯示更換硬件的告警信息,當(dāng)故障為硬失效故障時(shí),故障告警系統(tǒng)才會(huì)顯示更換硬件的告警信息。從而使得維護(hù)人員可以針對(duì)不同類型的故障采取不同的措施,因此維護(hù)人員能夠避免不必要的硬件更換,從而減少了維護(hù)設(shè)備花費(fèi)的成本;同時(shí),也可以更換反復(fù)發(fā)生軟失效故障的硬件,減低設(shè)備運(yùn)行過程中反復(fù)出現(xiàn)故障的概率。
[0097]此外,在圖4所示的方案的基礎(chǔ)上,本發(fā)明實(shí)施例還提供了一種故障告警方法的具體方案,當(dāng)判定第一故障點(diǎn)的故障類型為軟失效故障后,還可以通過增加108-110來判斷其他故障與第一故障點(diǎn)的故障的相關(guān)性,并對(duì)應(yīng)處理,如圖5所示,包括:
[0098]108,獲取第二故障點(diǎn),檢測所述第二故障點(diǎn)與所述第一故障點(diǎn)是否存在配置相關(guān)性和時(shí)間相關(guān)性。
[0099]其中,第二故障點(diǎn)發(fā)生的故障伴生于所述第一故障點(diǎn)發(fā)生的故障,第二故障點(diǎn)的位置包括第一故障點(diǎn)所在的存儲(chǔ)設(shè)備,或者與第一故障點(diǎn)所在的存儲(chǔ)設(shè)備不同的硬件設(shè)備。也就是說,第二故障點(diǎn)可以是與第一故障點(diǎn)所在的存儲(chǔ)設(shè)備上不同的存儲(chǔ)單元,也可以是存儲(chǔ)設(shè)備所在的系統(tǒng)中的其他硬件設(shè)備上具有其他功能的單元,比如:通信單元或控制單元等。當(dāng)系統(tǒng)檢測到第一故障點(diǎn)發(fā)生軟失效故障時(shí),也可能檢測到了其他故障點(diǎn),如第二故障點(diǎn)、第三故障點(diǎn)等,此時(shí),檢測其他故障點(diǎn)是否與第一故障點(diǎn)存在配置相關(guān)性和時(shí)間相關(guān)性。
[0100]109,若存在所述配置相關(guān)性和所述時(shí)間相關(guān)性中的任意一項(xiàng),則對(duì)所述第二故障點(diǎn)的故障進(jìn)行自愈。[0101]其中,若第二故障點(diǎn)與第一故障點(diǎn)存在配置相關(guān)性和時(shí)間相關(guān)性中的一項(xiàng),或者第二故障點(diǎn)與第一故障點(diǎn)既存在配置相關(guān)性,又存在時(shí)間相關(guān)性,則故障告警系統(tǒng)會(huì)對(duì)第二故障點(diǎn)使用數(shù)據(jù)刷新等自愈方法解決第二故障點(diǎn)發(fā)生的故障,不會(huì)發(fā)布告警信息。
[0102]110,若不存在所述配置相關(guān)性,也不存在所述時(shí)間相關(guān)性,則發(fā)布告警信息。
[0103]其中,若第二故障點(diǎn)與第一故障點(diǎn)不存在配置相關(guān)性,也不存在時(shí)間相關(guān)性,則發(fā)布告警信息,告警信息用于表示第二故障點(diǎn)的位置,告警信息中也可以包括解決與解決第二故障點(diǎn)發(fā)生的故障的操作指導(dǎo)信息等。通過檢測第二故障點(diǎn)與第一故障點(diǎn)是否存在配置相關(guān)性和時(shí)間相關(guān)性,來判斷第二故障點(diǎn)發(fā)生的故障是否是由第一故障點(diǎn)發(fā)生的軟失效故障引起的。
[0104]本發(fā)明實(shí)施例提供的一種故障告警方法,能夠在存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)的地址信息,得到測試結(jié)果,根據(jù)測試結(jié)果與預(yù)設(shè)的正確結(jié)果,判定第一故障點(diǎn)的故障類型,并輸出第一故障點(diǎn)的故障類型。當(dāng)檢測到其他故障點(diǎn)時(shí),通過判斷其他故障點(diǎn)與發(fā)生軟故障的第一故障點(diǎn)是否存在配置相關(guān)性和時(shí)間相關(guān)性,可以得知其他故障點(diǎn)發(fā)生的故障是否由第一故障點(diǎn)發(fā)生的軟失效故障引起,如果是,故障告警系統(tǒng)可以對(duì)該故障進(jìn)行自愈,避免使用花費(fèi)時(shí)間較長的人工修復(fù),提高了故障修復(fù)效率。與現(xiàn)有技術(shù)相比,本方案能夠判定故障的類型,例如:當(dāng)故障為軟失效故障時(shí),故障告警系統(tǒng)不會(huì)顯示更換硬件的告警信息,當(dāng)故障為硬失效故障時(shí),故障告警系統(tǒng)才會(huì)顯示更換硬件的告警信息。從而使得維護(hù)人員可以針對(duì)不同類型的故障采取不同的措施,因此維護(hù)人員能夠避免不必要的硬件更換,從而減少了維護(hù)設(shè)備花費(fèi)的成本;同時(shí),也提高了故障修復(fù)效率。
[0105]進(jìn)一步的,在圖5所示的方案的基礎(chǔ)上,本發(fā)明實(shí)施例還提供了一種故障告警方法的具體方案,對(duì)圖5所示的方案中的108的執(zhí)行過程進(jìn)一步細(xì)化,其中,108具體細(xì)化為1081-1084,如圖6所示,包括:
[0106]1081,檢測所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)的配置信息是否部分相同或完全相同。
[0107]其中,配置信息包括框槽號(hào)、模塊號(hào)、鏈路號(hào)等信息。
[0108]1082,若部分相同或完全相同,則所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在配置相關(guān)性。
[0109]其中,當(dāng)?shù)诙收宵c(diǎn)與發(fā)生軟失效故障的第一故障點(diǎn)的配置信息部分相同時(shí),判定第二故障點(diǎn)與發(fā)生軟失效故障的第一故障點(diǎn)存在配置相關(guān)性,比如:配置信息包括框槽號(hào)、模塊號(hào)、鏈路號(hào),第二故障點(diǎn)的框槽號(hào)與第一故障點(diǎn)的框槽號(hào)相同,則判定第二故障點(diǎn)與第一故障點(diǎn)存在配置相關(guān)性。當(dāng)?shù)诙收宵c(diǎn)與發(fā)生軟失效故障的第一故障點(diǎn)的配置信息完全相同時(shí),判定第二故障點(diǎn)與發(fā)生軟失效故障的第一故障點(diǎn)存在配置相關(guān)性,比如:配置信息包括框槽號(hào)和鏈路號(hào),第二故障點(diǎn)的框槽號(hào)、鏈路號(hào)與第一故障點(diǎn)的全部相同,則判定第二故障點(diǎn)與第一故障點(diǎn)存在配置相關(guān)性。
[0110]其中,若第二故障點(diǎn)與發(fā)生軟失效故障的第一故障點(diǎn)的配置信息完全不相同,則執(zhí)行1083。
[0111]1083,檢測所述第二故障點(diǎn)的故障是否滿足預(yù)設(shè)條件。
[0112]其中,預(yù)設(shè)條件包括:第二故障點(diǎn)的故障發(fā)生的時(shí)刻在第一故障點(diǎn)發(fā)生軟失效故障的時(shí)刻之后;第二故障點(diǎn)的故障恢復(fù)的時(shí)刻在第一故障點(diǎn)的軟失效故障恢復(fù)的時(shí)刻之后。
[0113]1084,若滿足預(yù)設(shè)條件,則所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在時(shí)間相關(guān)性。
[0114]其中,若第二故障點(diǎn)的故障只滿足1083的預(yù)設(shè)條件中的一個(gè)條件,第二故障點(diǎn)與發(fā)生軟失效故障的第一故障點(diǎn)不存在時(shí)間相關(guān)性,只有當(dāng)?shù)诙收宵c(diǎn)的故障滿足所有預(yù)設(shè)條件時(shí),才能夠判定第二故障點(diǎn)與發(fā)生軟失效故障的第一故障點(diǎn)存在時(shí)間相關(guān)性。
[0115]其中,若不滿足預(yù)設(shè)條件,則發(fā)布告警信息,告警信息可以包括第二故障點(diǎn)的位置,也可以包括解決第二故障點(diǎn)的故障的操作指導(dǎo)。
[0116]可選的,在本方案中也可以先執(zhí)行1083-1084,后執(zhí)行1081-1082,只需要保證時(shí)間相關(guān)性的檢測和配置相關(guān)性的檢測先后進(jìn)行即可;或者1083-1084和1081-1082的檢測是并列關(guān)系,并沒有固定的順序關(guān)系,當(dāng)進(jìn)行過兩次檢測,且存在時(shí)間相關(guān)性和配置相關(guān)性中的至少一個(gè)時(shí),故障告警系統(tǒng)不會(huì)發(fā)布第二故障點(diǎn)的告警信息,但會(huì)將第二故障點(diǎn)發(fā)生的故障記錄為日志信息。
[0117]本發(fā)明實(shí)施例提供的一種故障告警方法,能夠在存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)的地址信息,得到測試結(jié)果,根據(jù)測試結(jié)果與預(yù)設(shè)的正確結(jié)果,判定第一故障點(diǎn)的故障類型,并輸出第一故障點(diǎn)的故障類型。當(dāng)檢測到其他故障點(diǎn)時(shí),通過判斷其他故障點(diǎn)與發(fā)生軟故障的第一故障點(diǎn)是否存在配置相關(guān)性和時(shí)間相關(guān)性,可以得知其他故障點(diǎn)發(fā)生的故障是否由第一故障點(diǎn)發(fā)生的軟失效故障引起,如果是,故障告警系統(tǒng)可以對(duì)該故障進(jìn)行自愈,避免使用花費(fèi)時(shí)間較長的人工修復(fù),提高了故障修復(fù)效率。與現(xiàn)有技術(shù)相比,本方案能夠判定故障的類型,例如:當(dāng)故障為軟失效故障時(shí),故障告警系統(tǒng)不會(huì)顯示更換硬件的告警信息,當(dāng)故障為硬失效故障時(shí),故障告警系統(tǒng)才會(huì)顯示更換硬件的告警信息。從而使得維護(hù)人員可以針對(duì)不同類型的故障采取不同的措施,因此維護(hù)人員能夠避免不必要的硬件更換,從而減少了維護(hù)設(shè)備花費(fèi)的成本;同時(shí),也提高了故障修復(fù)效率。
[0118]本發(fā)明實(shí)施例提供了一種故障告警裝置200,如圖7所示,包括:
[0119]獲取模塊201,用于當(dāng)所述存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取所述第一故障點(diǎn)的地址信息。
[0120]可選的,存儲(chǔ)設(shè)備為cache ;地址信息為第一故障點(diǎn)所在的緩存線cacheline對(duì)應(yīng)的地址范圍。
[0121]可選的,存儲(chǔ)設(shè)備為閃存器flash;地址信息為第一故障點(diǎn)所在的塊對(duì)應(yīng)的地址范圍。
[0122]測試模塊202,用于根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到所述第一故障點(diǎn)的地址信息,得到測試結(jié)果。
[0123]判斷模塊203,用于判斷所述測試結(jié)果與預(yù)設(shè)的正確結(jié)果是否相同;若相同,則判定所述第一故障點(diǎn)的故障類型為軟失效故障;若不同,則判定所述第一故障點(diǎn)的故障類型為硬失效故障。
[0124]發(fā)布模塊204,用于輸出判定得到的所述第一故障點(diǎn)的故障類型。
[0125]本發(fā)明實(shí)施例提供的一種故障告警裝置,能夠在存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)的地址信息,得到測試結(jié)果,根據(jù)測試結(jié)果與預(yù)設(shè)的正確結(jié)果,判定第一故障點(diǎn)的故障類型,并輸出第一故障點(diǎn)的故障類型。與現(xiàn)有技術(shù)相比,本方案能夠判定存儲(chǔ)設(shè)備中故障的類型,例如:當(dāng)故障為軟失效故障時(shí),故障告警系統(tǒng)不會(huì)顯示更換硬件的告警信息,當(dāng)故障為硬失效故障時(shí),故障告警系統(tǒng)才會(huì)顯示更換硬件的告警信息。從而使得維護(hù)人員可以針對(duì)不同類型的故障采取不同的措施,因此維護(hù)人員能夠避免不必要的硬件更換,從而減少了維護(hù)設(shè)備花費(fèi)的成本;同時(shí),在設(shè)備運(yùn)行過程中進(jìn)行測試,避免了拆卸硬件的過程,減少了測試花費(fèi)的時(shí)間,提高了測試效率。
[0126]進(jìn)一步的,如圖8所示,所述裝置200,還包括:
[0127]判定模塊205,用于在判定所述第一故障點(diǎn)的故障類型為軟失效故障之后,記錄所述第一故障點(diǎn)再次出現(xiàn)軟失效故障的次數(shù),當(dāng)所述次數(shù)超過閾值時(shí),判定所述第一故障點(diǎn)的故障類型為硬失效故障。
[0128]本發(fā)明實(shí)施例提供的一種故障告警裝置,能夠在存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)的地址信息,得到測試結(jié)果,根據(jù)測試結(jié)果與預(yù)設(shè)的正確結(jié)果,判定第一故障點(diǎn)的故障類型,并輸出第一故障點(diǎn)的故障類型。當(dāng)在第一故障點(diǎn)反復(fù)發(fā)生軟失效故障,且發(fā)生軟失效故障的次數(shù)超過設(shè)置的閾值時(shí),判定第一故障點(diǎn)發(fā)生硬失效故障。與現(xiàn)有技術(shù)相比,本方案能夠判定存儲(chǔ)設(shè)備中故障的類型,例如:當(dāng)故障為軟失效故障時(shí),故障告警系統(tǒng)不會(huì)顯示更換硬件的告警信息,當(dāng)故障為硬失效故障時(shí),故障告警系統(tǒng)才會(huì)顯示更換硬件的告警信息。從而使得維護(hù)人員可以針對(duì)不同類型的故障采取不同的措施,因此維護(hù)人員能夠避免不必要的硬件更換,從而減少了維護(hù)設(shè)備花費(fèi)的成本;同時(shí),也可以更換反復(fù)發(fā)生軟失效故障的硬件,減低設(shè)備運(yùn)行過程中反復(fù)出現(xiàn)故障的概率。
[0129]可選的,如圖9所示,所述裝置200,還包括:
[0130]檢測模塊206,用于獲取第二故障點(diǎn),檢測所述第二故障點(diǎn)與所述第一故障點(diǎn)是否存在配置相關(guān)性和時(shí)間相關(guān)性。
[0131]其中,第二故障點(diǎn)發(fā)生的故障伴生于第一故障點(diǎn)發(fā)生的故障,第二故障點(diǎn)的位置包括第一故障點(diǎn)所在的存儲(chǔ)設(shè)備,或者與第一故障點(diǎn)所在的存儲(chǔ)設(shè)備不同的硬件設(shè)備。
[0132]自愈模塊207,用于當(dāng)存在所述配置相關(guān)性和所述時(shí)間相關(guān)性中的任意一項(xiàng)時(shí),對(duì)所述第二故障點(diǎn)的故障進(jìn)行自愈。
[0133]告警模塊208,用于當(dāng)不存在所述配置相關(guān)性,也不存在所述時(shí)間相關(guān)性時(shí),發(fā)布告警信息。
[0134]其中,告警信息用于表不第二故障點(diǎn)的位置。
[0135]本發(fā)明實(shí)施例提供的一種故障告警裝置,能夠在存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)的地址信息,得到測試結(jié)果,根據(jù)測試結(jié)果與預(yù)設(shè)的正確結(jié)果,判定第一故障點(diǎn)的故障類型,并輸出第一故障點(diǎn)的故障類型。當(dāng)檢測到其他故障點(diǎn)時(shí),通過判斷其他故障點(diǎn)與發(fā)生軟故障的第一故障點(diǎn)是否存在配置相關(guān)性和時(shí)間相關(guān)性,可以得知其他故障點(diǎn)發(fā)生的故障是否由第一故障點(diǎn)發(fā)生的軟失效故障引起,如果是,故障告警系統(tǒng)可以對(duì)該故障進(jìn)行自愈,避免使用花費(fèi)時(shí)間較長的人工修復(fù),提高了故障修復(fù)效率。與現(xiàn)有技術(shù)相比,本方案能夠判定故障的類型,例如:當(dāng)故障為軟失效故障時(shí),故障告警系統(tǒng)不會(huì)顯示更換硬件的告警信息,當(dāng)故障為硬失效故障時(shí),故障告警系統(tǒng)才會(huì)顯示更換硬件的告警信息。從而使得維護(hù)人員可以針對(duì)不同類型的故障采取不同的措施,因此維護(hù)人員能夠避免不必要的硬件更換,從而減少了維護(hù)設(shè)備花費(fèi)的成本;同時(shí),也提高了故障修復(fù)效率。
[0136]進(jìn)一步的,如圖10所示,所述檢測模塊206,包括:
[0137]第一檢測單元2061,用于檢測所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)的配置信息是否部分相同或完全相同。
[0138]第一判定單元2062,用于當(dāng)部分相同或完全相同時(shí),判定所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在配置相關(guān)性。
[0139]第二檢測單元2063,用于檢測所述第二故障點(diǎn)的故障是否滿足預(yù)設(shè)條件。
[0140]其中,預(yù)設(shè)條件包括:第二故障點(diǎn)的故障發(fā)生的時(shí)刻在第一故障點(diǎn)發(fā)生軟失效故障的時(shí)刻之后;第二故障點(diǎn)的故障恢復(fù)的時(shí)刻在第一故障點(diǎn)的軟失效故障恢復(fù)的時(shí)刻之后。
[0141]第二判定單元2064,用于當(dāng)滿足所述預(yù)設(shè)條件時(shí),判定所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在時(shí)間相關(guān)性。
[0142]本發(fā)明實(shí)施例提供的一種故障告警裝置,能夠在存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)的地址信息,得到測試結(jié)果,根據(jù)測試結(jié)果與預(yù)設(shè)的正確結(jié)果,判定第一故障點(diǎn)的故障類型,并輸出第一故障點(diǎn)的故障類型。當(dāng)檢測到其他故障點(diǎn)時(shí),通過判斷其他故障點(diǎn)與發(fā)生軟故障的第一故障點(diǎn)是否存在配置相關(guān)性和時(shí)間相關(guān)性,可以得知其他故障點(diǎn)發(fā)生的故障是否由第一故障點(diǎn)發(fā)生的軟失效故障引起,如果是,故障告警系統(tǒng)可以對(duì)該故障進(jìn)行自愈,避免使用花費(fèi)時(shí)間較長的人工修復(fù),提高了故障修復(fù)效率。與現(xiàn)有技術(shù)相比,本方案能夠判定故障的類型,例如:當(dāng)故障為軟失效故障時(shí),故障告警系統(tǒng)不會(huì)顯示更換硬件的告警信息,當(dāng)故障為硬失效故障時(shí),故障告警系統(tǒng)才會(huì)顯示更換硬件的告警信息。從而使得維護(hù)人員可以針對(duì)不同類型的故障采取不同的措施,因此維護(hù)人員能夠避免不必要的硬件更換,從而減少了維護(hù)設(shè)備花費(fèi)的成本;同時(shí),也提高了故障修復(fù)效率。
[0143]本發(fā)明實(shí)施例提供了一種故障告警系統(tǒng)300,如圖11所示,包括:至少一個(gè)處理器301,例如CPU,至少一個(gè)通信總線302,存儲(chǔ)器303,至少一個(gè)網(wǎng)絡(luò)接口 304或者用戶接口305。通信總線302用于實(shí)現(xiàn)這些組件之間的連接通信??蛇x的,用戶接口 305包括顯示器、鍵盤、鼠標(biāo)、觸摸屏等設(shè)備。存儲(chǔ)器303可能包含高速RAM存儲(chǔ)器,也可能還包括非不穩(wěn)定的存儲(chǔ)器(non-volatile memory),例如至少一個(gè)磁盤存儲(chǔ)器。
[0144]具體的,存儲(chǔ)器303可以用于存儲(chǔ)故障類型、第一故障點(diǎn)的地址信息,也可以用于存儲(chǔ)存儲(chǔ)單元失效檢測規(guī)則、校驗(yàn)數(shù)據(jù)、預(yù)設(shè)的正確結(jié)果和測試結(jié)果,在第一故障點(diǎn)第一次出現(xiàn)軟失效故障后,還可以用來存儲(chǔ)第一故障點(diǎn)再次出現(xiàn)軟失效故障的次數(shù)和設(shè)置的閾值,以及,還可以用來存儲(chǔ)各個(gè)故障點(diǎn)的配置信息、各個(gè)故障點(diǎn)的故障發(fā)生的時(shí)刻和恢復(fù)的時(shí)刻。
[0145]進(jìn)一步的,存儲(chǔ)器303還可以用于存儲(chǔ)第一故障點(diǎn)所在的緩存線cacheline對(duì)應(yīng)的地址范圍;還可以用來存儲(chǔ)第一故障點(diǎn)所在的塊對(duì)應(yīng)的地址范圍。
[0146]具體的,處理器301,用于當(dāng)所述存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取所述第一故障點(diǎn)的地址信息;以及,用于根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到所述第一故障點(diǎn)的地址信息,得到測試結(jié)果;以及,用于判斷所述測試結(jié)果與預(yù)設(shè)的正確結(jié)果是否相同;若相同,則判定所述第一故障點(diǎn)的故障類型為軟失效故障;若不同,則判定所述第一故障點(diǎn)的故障類型為硬失效故障;以及,用于輸出判定得到的所述第一故障點(diǎn)的故障類型。
[0147]可選的,所述存儲(chǔ)設(shè)備為cache ;所述地址信息為所述第一故障點(diǎn)所在的緩存線cacheline對(duì)應(yīng)的地址范圍。
[0148]可選的,所述存儲(chǔ)設(shè)備為閃存器flash ;所述地址信息為所述第一故障點(diǎn)所在的塊對(duì)應(yīng)的地址范圍。
[0149]此外,處理器301還用于在判定所述第一故障點(diǎn)的故障類型為軟失效故障之后,記錄所述第一故障點(diǎn)再次出現(xiàn)軟失效故障的次數(shù),當(dāng)所述次數(shù)超過閾值時(shí),判定所述第一故障點(diǎn)的故障類型為硬失效故障。
[0150]此外,處理器301還用于獲取第二故障點(diǎn),檢測所述第二故障點(diǎn)與所述第一故障點(diǎn)是否存在配置相關(guān)性和時(shí)間相關(guān)性,所述第二故障點(diǎn)發(fā)生的故障伴生于所述第一故障點(diǎn)發(fā)生的故障,所述第二故障點(diǎn)的位置包括所述第一故障點(diǎn)所在的所述存儲(chǔ)設(shè)備,或者與所述第一故障點(diǎn)所在的所述存儲(chǔ)設(shè)備不同的硬件設(shè)備;以及,用于當(dāng)存在所述配置相關(guān)性和所述時(shí)間相關(guān)性中的任意一項(xiàng)時(shí),對(duì)所述第二故障點(diǎn)的故障進(jìn)行自愈;以及,用于當(dāng)不存在所述配置相關(guān)性,也不存在所述時(shí)間相關(guān)性時(shí),發(fā)布告警信息,所述告警信息用于表示所述第二故障點(diǎn)的位置。
[0151]進(jìn)一步的,處理器301還用于檢測所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)的配置信息是否部分相同或完全相同;以及,用于當(dāng)部分相同或完全相同時(shí),判定所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在配置相關(guān)性;以及用于檢測所述第二故障點(diǎn)的故障是否滿足預(yù)設(shè)條件,所述預(yù)設(shè)條件包括:所述第二故障點(diǎn)的故障發(fā)生的時(shí)刻在所述第一故障點(diǎn)發(fā)生軟失效故障的時(shí)刻之后;所述第二故障點(diǎn)的故障恢復(fù)的時(shí)刻在所述第一故障點(diǎn)的軟失效故障恢復(fù)的時(shí)刻之后;以及,用于當(dāng)滿足所述預(yù)設(shè)條件時(shí),判定所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在時(shí)間相關(guān)性。
[0152]本發(fā)明實(shí)施例提供的一種故障告警系統(tǒng),能夠在存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取第一故障點(diǎn)的地址信息,根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到第一故障點(diǎn)的地址信息,得到測試結(jié)果,根據(jù)測試結(jié)果與預(yù)設(shè)的正確結(jié)果,判定第一故障點(diǎn)的故障類型,并輸出第一故障點(diǎn)的故障類型。當(dāng)檢測到其他故障點(diǎn)時(shí),通過判斷其他故障點(diǎn)與發(fā)生軟故障的第一故障點(diǎn)是否存在配置相關(guān)性和時(shí)間相關(guān)性,可以得知其他故障點(diǎn)發(fā)生的故障是否由第一故障點(diǎn)發(fā)生的軟失效故障引起,如果是,故障告警系統(tǒng)可以對(duì)該故障進(jìn)行自愈,避免使用花費(fèi)時(shí)間較長的人工修復(fù),提高了故障修復(fù)效率。與現(xiàn)有技術(shù)相比,本方案能夠判定故障的類型,例如:當(dāng)故障為軟失效故障時(shí),故障告警系統(tǒng)不會(huì)顯示更換硬件的告警信息,當(dāng)故障為硬失效故障時(shí),故障告警系統(tǒng)才會(huì)顯示更換硬件的告警信息。從而使得維護(hù)人員可以針對(duì)不同類型的故障采取不同的措施,因此維護(hù)人員能夠避免不必要的硬件更換,從而減少了維護(hù)設(shè)備花費(fèi)的成本;同時(shí),也提高了故障修復(fù)效率。
[0153]本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于設(shè)備實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
[0154]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory, ROM)或隨機(jī)存儲(chǔ)記憶體(Random AccessMemory, RAM)等。
[0155]以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【權(quán)利要求】
1.一種故障告警方法,其特征在于,用于故障告警系統(tǒng),所述故障告警系統(tǒng)用于檢測存儲(chǔ)設(shè)備中的存儲(chǔ)單元的故障類型,所述故障類型包括軟失效故障和硬失效故障;所述方法包括: 當(dāng)所述存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取所述第一故障點(diǎn)的地址信息; 根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到所述第一故障點(diǎn)的地址信息,得到測試結(jié)果; 判斷所述測試結(jié)果與預(yù)設(shè)的正確結(jié)果是否相同;若相同,則判定所述第一故障點(diǎn)的故障類型為軟失效故障;若不同,則判定所述第一故障點(diǎn)的故障類型為硬失效故障; 輸出判定得到的所述第一故障點(diǎn)的故障類型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述存儲(chǔ)設(shè)備為高速緩沖存儲(chǔ)器cache;所述地址信息為所述第一故障點(diǎn)所在的緩存線cacheline對(duì)應(yīng)的地址范圍。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述存儲(chǔ)設(shè)備為閃存器flash;所述地址信息為所述第一故障點(diǎn)所在的塊對(duì)應(yīng)的地址范圍。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 在判定所述第一故障點(diǎn)的故障類型為軟失效故障之后,記錄所述第一故障點(diǎn)再次出現(xiàn)軟失效故障的次數(shù),當(dāng)所述次數(shù)超過閾值時(shí),判定所述第一故障點(diǎn)的故障類型為硬失效故障。
5.根據(jù)權(quán)利要求1或4所述的方法,其特征在于,當(dāng)判定所述第一故障點(diǎn)的故障類型為軟失效故障后,所述方法還包括: 獲取第二故障點(diǎn),檢測所述第二故障`點(diǎn)與所述第一故障點(diǎn)是否存在配置相關(guān)性和時(shí)間相關(guān)性,所述第二故障點(diǎn)發(fā)生的故障伴生于所述第一故障點(diǎn)發(fā)生的故障,所述第二故障點(diǎn)的位置包括所述第一故障點(diǎn)所在的所述存儲(chǔ)設(shè)備,或者與所述第一故障點(diǎn)所在的所述存儲(chǔ)設(shè)備不同的硬件設(shè)備; 若存在所述配置相關(guān)性和所述時(shí)間相關(guān)性中的任意一項(xiàng),則對(duì)所述第二故障點(diǎn)的故障進(jìn)行自愈; 若不存在所述配置相關(guān)性,也不存在所述時(shí)間相關(guān)性,則發(fā)布告警信息,所述告警信息用于表示所述第二故障點(diǎn)的位置。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述檢測所述第二故障點(diǎn)與所述第一故障點(diǎn)是否存在配置相關(guān)性包括: 檢測所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)的配置信息是否部分相同或完全相同; 若部分相同或完全相同,則所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在配置相關(guān)性; 所述檢測所述第二故障點(diǎn)與所述第一故障點(diǎn)是否存在時(shí)間相關(guān)性包括: 檢測所述第二故障點(diǎn)的故障是否滿足預(yù)設(shè)條件,所述預(yù)設(shè)條件包括:所述第二故障點(diǎn)的故障發(fā)生的時(shí)刻在所述第一故障點(diǎn)發(fā)生軟失效故障的時(shí)刻之后;所述第二故障點(diǎn)的故障恢復(fù)的時(shí)刻在所述第一故障點(diǎn)的軟失效故障恢復(fù)的時(shí)刻之后; 若滿足所述預(yù)設(shè)條件,則所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在時(shí)間相關(guān)性。
7.一種故障告警裝置,其特征在于,包括: 獲取模塊,用于當(dāng)所述存儲(chǔ)設(shè)備發(fā)生故障時(shí)確定第一故障點(diǎn),并獲取所述第一故障點(diǎn)的地址信息; 測試模塊,用于根據(jù)存儲(chǔ)單元失效檢測規(guī)則將校驗(yàn)數(shù)據(jù)寫入到所述第一故障點(diǎn)的地址信息,得到測試結(jié)果; 判斷模塊,用于判斷所述測試結(jié)果與預(yù)設(shè)的正確結(jié)果是否相同;若相同,則判定所述第一故障點(diǎn)的故障類型為軟失效故障;若不同,則判定所述第一故障點(diǎn)的故障類型為硬失效故障; 發(fā)布模塊,用于輸出判定得到的所述第一故障點(diǎn)的故障類型。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述存儲(chǔ)設(shè)備為高速緩沖存儲(chǔ)器cache;所述地址信息為所述第一故障點(diǎn)所在的緩存線cacheline對(duì)應(yīng)的地址范圍。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述存儲(chǔ)設(shè)備為閃存器flash;所述地址信息為所述第一故障點(diǎn)所在的塊對(duì)應(yīng)的地址范圍。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括: 判定模塊,用于在判定所述第一故障點(diǎn)的故障類型為軟失效故障之后,記錄所述第一故障點(diǎn)再次出現(xiàn)軟失效故障的次數(shù),當(dāng)所述次數(shù)超過閾值時(shí),判定所述第一故障點(diǎn)的故障類型為硬失效故障。
11.根據(jù)權(quán)利要求7或10所述的裝置,其特征在于,所述裝置還包括: 檢測模塊,用于獲取第二故障點(diǎn),檢測所述第二故障點(diǎn)與所述第一故障點(diǎn)是否存在配置相關(guān)性和時(shí)間相關(guān)性,所述第二故障點(diǎn)發(fā)生的故障伴生于所述第一故障點(diǎn)發(fā)生的故障,所述第二故障點(diǎn)的位置包括所述第一故障點(diǎn)所在的所述存儲(chǔ)設(shè)備,或者與所述第一故障點(diǎn)所在的所述存儲(chǔ)設(shè)備不同的硬件設(shè)備; 自愈模塊,用于當(dāng)存在所述配置相關(guān)性和所述時(shí)間相關(guān)性中的任意一項(xiàng)時(shí),對(duì)所述第二故障點(diǎn)的故障進(jìn)行自愈; 告警模塊,用于當(dāng)不存在所述配置相關(guān)性,也不存在所述時(shí)間相關(guān)性時(shí),發(fā)布告警信息,所述告警信息用于表示所述第二故障點(diǎn)的位置。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述檢測模塊包括: 第一檢測單元,用于檢測所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)的配置信息是否部分相同或完全相同; 第一判定單元,用于當(dāng)部分相同或完全相同時(shí),判定所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在配置相關(guān)性; 第二檢測單元,用于檢測所述第二故障點(diǎn)的故障是否滿足預(yù)設(shè)條件,所述預(yù)設(shè)條件包括:所述第二故障點(diǎn)的故障發(fā)生的時(shí)刻在所述第一故障點(diǎn)發(fā)生軟失效故障的時(shí)刻之后;所述第二故障點(diǎn)的故障恢復(fù)的時(shí)刻在所述第一故障點(diǎn)的軟失效故障恢復(fù)的時(shí)刻之后; 第二判定單元,用于當(dāng)滿足所述預(yù)設(shè)條件時(shí),判定所述第二故障點(diǎn)與發(fā)生軟失效故障的所述第一故障點(diǎn)存在時(shí)間相關(guān)性。
【文檔編號(hào)】G11C29/08GK103745751SQ201310719925
【公開日】2014年4月23日 申請(qǐng)日期:2013年12月23日 優(yōu)先權(quán)日:2013年12月23日
【發(fā)明者】惠衛(wèi)鋒, 朱小剛 申請(qǐng)人:華為技術(shù)有限公司