一種云計算系統(tǒng)節(jié)點失效預警裝置和方法
【技術領域】
[0001] 本發(fā)明涉及計算機云計算領域,尤其涉及一種云計算系統(tǒng)節(jié)點失效預警裝置和方 法。
【背景技術】
[0002] 云計算是一種基于互聯(lián)網(wǎng)的計算方式,通過過種方式,共享的軟硬件資源和信息 可以按需求提供給計算機和其他設備。相對于傳統(tǒng)的軟件和計算形態(tài),云計算具有松散耦 合、隨需應變、成本可控、資源虛擬、異構協(xié)同等顯著的優(yōu)勢,使其更適應現(xiàn)今的電子商務、 柔性制造、移動互聯(lián)網(wǎng)等應用。
[0003] 大型的云計算系統(tǒng)一般包含許多計算節(jié)點,這些節(jié)點為整個云計算系統(tǒng)提供計算 資源,在計算邏輯上通過云虛擬化技術成為一個整體,但在物理上,仍然是獨立的個體。整 個云計算系統(tǒng)的可靠性和穩(wěn)定性均依賴于這些計算節(jié)點的穩(wěn)定性;計算節(jié)點越穩(wěn)定,則云 計算系統(tǒng)的可靠性和穩(wěn)定性越高。由于這些節(jié)點在空間上距離可能非常遙遠(同為一個云 計算系統(tǒng)提供計算資源的計算節(jié)點可能相距數(shù)百公里),因此,使用人工或者電子監(jiān)控方式 對單一節(jié)點的穩(wěn)定性進行監(jiān)控,不能從云計算系統(tǒng)整體出發(fā),進行全局的統(tǒng)籌與分析。
[0004] 因此,如何針對大型云計算系統(tǒng)中的計算節(jié)點,結合其運行狀態(tài)歷史情況,從云計 算整體系統(tǒng)角度出發(fā),進行符合統(tǒng)計規(guī)律、準確度高的節(jié)點失效分析與預警,是云計算領域 中亟待解決的一個關鍵技術問題。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明旨在至少解決現(xiàn)有技術中存在的技術問題,特別創(chuàng)新地提出了一種云計算 系統(tǒng)節(jié)點失效預警裝置和方法。
[0006] 為了實現(xiàn)本發(fā)明的上述目的,本發(fā)明提供了云計算系統(tǒng)節(jié)點失效預警裝置,其包 括:
[0007] 接收模塊,用于接收服務器采集的計算節(jié)點運行狀態(tài)歷史數(shù)據(jù)和運行狀態(tài)實時數(shù) 據(jù),并指示數(shù)據(jù)模塊對接收的數(shù)據(jù)進行存儲;
[0008] 數(shù)據(jù)模塊,用于存儲由接收模塊接收的計算節(jié)點運行狀態(tài)歷史數(shù)據(jù)和運行狀態(tài)實 時數(shù)據(jù),以及裝置提取的節(jié)點失效特征和節(jié)點實時特征;其中節(jié)點運行狀態(tài)數(shù)據(jù)存儲單元, 用于存儲接收模塊接收的計算節(jié)點運行狀態(tài)歷史數(shù)據(jù)和運行狀態(tài)實時數(shù)據(jù);節(jié)點失效特征 存儲單元,用于存儲裝置提取的節(jié)點失效特征;節(jié)點實時特征存儲單元,用于存儲裝置提取 的節(jié)點實時特征;
[0009] 特征提取模塊,用于執(zhí)行云計算節(jié)點失效特征提取過程,和云計算節(jié)點實時特征 提取過程,并將提取的特征分別存入數(shù)據(jù)模塊中的節(jié)點失效特征存儲單元,和節(jié)點實時特 征存儲單元;
[0010] 節(jié)點失效預警模塊,用于執(zhí)行云計算節(jié)點失效預警過程,輸出失效的云計算節(jié)點 序號列表。
[0011] 所述的云計算系統(tǒng)節(jié)點失效預警裝置,優(yōu)選的,所述特征提取模塊包括:
[0012] 初始化單元,用于初始化云計算節(jié)點失效特征提取過程,和云計算節(jié)點實時特征 提取過程中涉及的相關參數(shù);
[0013] 提取單元,用于根據(jù)數(shù)據(jù)模塊中,節(jié)點運行狀態(tài)數(shù)據(jù)存儲單元,存儲接收模塊接收 的計算節(jié)點運行狀態(tài)歷史數(shù)據(jù),和運行狀態(tài)實時數(shù)據(jù),分別進行云計算節(jié)點失效特征提取, 和云計算節(jié)點實時特征提?。?br>[0014] 輸出單元,用于將提取單元提取的云計算節(jié)點失效特征,和云計算節(jié)點實時特征, 分別存儲至數(shù)據(jù)模塊中的節(jié)點失效特征存儲單元,和節(jié)點實時特征存儲單元。
[0015] 所述的云計算系統(tǒng)節(jié)點失效預警裝置,優(yōu)選的,所述提取單元中云計算節(jié)點失效 特征提取包括:
[0016] 接收服務器提取云計算節(jié)點失效特征的指令;
[0017] 初始化相關參數(shù);
[0018] 對節(jié)點運行狀態(tài)屬性a對應的運行狀態(tài)歷史矩陣Ra,關于其對應的節(jié)點特征矩陣 Da和時間特征矩陣E a,構造訓練目標函數(shù)Fa;
[0019] 判斷提取迭代控制變量k已達到上限K ;
[0020] 判斷
[0021 ] 關于EJP D 3對F 3進行迭代優(yōu)化;
[0022] 判斷已處理完所有的節(jié)點運行狀態(tài)屬性;
[0023] 對于所有云計算節(jié)點1~N,對其運行狀態(tài)屬性1~A,在時間點1~T,根據(jù)節(jié)點 失效歷史記錄矩陣Y,和提取的節(jié)點特征矩陣Di- D A和時間特征矩陣E E A,構造并輸出 所有失效節(jié)點實例的特征,存入數(shù)據(jù)模塊中的節(jié)點失效特征存儲單元。
[0024] 所述的云計算系統(tǒng)節(jié)點失效預警裝置,優(yōu)選的,所述提取單元中云計算節(jié)點實時 特征提取過程包括:
[0025] 接收服務器提取云計算節(jié)點實時特征的指令;
[0026] 結合云計算節(jié)點實時運行狀態(tài)向量組{Bp B2,…,BJ,和云計算節(jié)點歷史運行狀態(tài) 矩陣組{&,R2,…,RA},構造云計算節(jié)點最近窗口運行狀態(tài)矩陣IA,C2,…,CJ
[0027] 初始化相關參數(shù);
[0028] 對節(jié)點運行狀態(tài)屬性a對應的最近窗口運行狀態(tài)矩陣Ca,關于其對應的節(jié)點特征 矩陣Da和時間特征矩陣E a,構造訓練目標函數(shù)Fa;
[0029] 判斷提取迭代控制變量k已達到上限K ;
[0030] 判斷
[0031 ] 關于EJP D 3對F 3進行迭代優(yōu)化;
[0032] 判斷已處理完所有的節(jié)點運行狀態(tài)屬性;
[0033] 對于所有云計算節(jié)點1~N,對其運行狀態(tài)屬性1~A,構造并輸出其運行狀態(tài)實 時特征,數(shù)據(jù)模塊中的節(jié)點實時特征存儲單元。
[0034] 所述的云計算系統(tǒng)節(jié)點失效預警裝置,優(yōu)選的,所述節(jié)點失效預警模塊包括:
[0035] 接收服務器進行云計算節(jié)點失效預警的指令;
[0036] 從節(jié)點失效特征存儲單元取出節(jié)點失效特征;
[0037] 從節(jié)點實時特征存儲單中取出節(jié)點實時特征;
[0038] 對節(jié)點1~N,根據(jù)其節(jié)點失效特征和節(jié)點實時特征,判斷其當前時刻是否會失 效;
[0039] 將可能失效的云計算節(jié)點序號列表輸出,作為預警判斷結果。
[0040] 所述的云計算系統(tǒng)節(jié)點失效預警裝置,優(yōu)選的,所述提取單元中云計算節(jié)點失效 特征提取包括:
[0041] 接收服務器提取云計算節(jié)點失效特征的指令;
[0042] 服務器向裝置發(fā)送指令的方式為:定期、或根據(jù)所述裝置的通知、或根據(jù)某服務器 的通知,將要求從云計算節(jié)點運行狀態(tài)歷史數(shù)據(jù)中提取云計算節(jié)點失效特征的指令發(fā)送給 裝置;
[0043] 初始化相關參數(shù);
[0044] 需要初始化的參數(shù)包括:特征空間維數(shù)D、節(jié)點特征矩陣組仉,D2,…,DJ、時間特 征矩陣組{Ei,E2,…,EA}、提取迭代控制變量k、提取迭代上限K和收斂判定閾值γ ;其中:
[0045] 特征空間維數(shù)D :是控制需要提取的特征的維數(shù)的變量,初始化為正整數(shù),如20 ;
[0046] 節(jié)點特征矩陣組{Dd D2,…,DJ :對應節(jié)點運行狀態(tài)屬性{1,2,…,Α},根據(jù)云計算 節(jié)點個數(shù)N和特征空間維數(shù)D,建立的A個N行,D列的矩陣,其中每個元素初始化為為開區(qū) 間(〇, 0.1)內(nèi)的隨機數(shù);
[0047] 時間特征矩陣組{Ed E2,…,EJ :對應節(jié)點運行狀態(tài)屬性{1,2,…,A},根據(jù)云計算 節(jié)點運行狀態(tài)歷史數(shù)據(jù)涉及的時間節(jié)點數(shù)T和特征空間維數(shù)D,建立的A個T行,D列的矩 陣,其中每個元素初始化為為開區(qū)間(〇, 0.1)內(nèi)的隨機數(shù);
[0048] 提取迭代控制變量k :控制提取迭代過程的變量,初始化為0 ;
[0049] 提取迭代上限K :控制提取迭代過程中,迭代次數(shù)上限的變量,初始化為正整數(shù);
[0050] 收斂判定閾值γ :判斷提取迭代過程是否已收斂的閾值參數(shù),初始化為極小正 數(shù);
[0051] 對節(jié)點運行狀態(tài)屬性a對應的運行狀態(tài)歷史矩陣Ra,關于其對應的節(jié)點特征矩陣 Da和時間特征矩陣E a,構造訓練目標函數(shù)Fa;
[0052] 訓練目標函數(shù)Fa以下式表示:
[0054] 其中
表示計算矩陣RjPDaEa T間的歐式距離的平方。該目標函數(shù)的物 理意義為,使用歐式距離衡量矩陣&和D j/間的差異,并通過優(yōu)化方法使該差異最小化;
[0055] 判斷提取迭代控制變量k已達到上限K ;
[0056] 首先在提取迭代控制變量k上累加 1,然后判斷提取迭代控制變量k是否大于提取 迭代上限N;
[0057] 判斷
[0058] 判斷F,E 3和D 3收斂為,本輪迭代開始前,F(xiàn) a的數(shù)值,對比上輪迭代開始前,F(xiàn) 3的 數(shù)值,其差的絕對值是否小于收斂判定閾值γ ;如果小于,則判定為已收斂,反之,則判定 為未收斂;
[0059] 關于EJP D 3對F 3進行迭代優(yōu)化;
[0060] 關于EJP D 3對F a進行迭代優(yōu)化,迭代優(yōu)化的計算公式如下:
[0063] 其中D+k)表示矩陣D a的第N行,第k列的元素 ;E aa,k)表示矩陣E a的第T行,第k 列的元素;罐表示矩陣1的轉(zhuǎn)置; <表示矩陣艮的轉(zhuǎn)置;使用非負矩陣因式分解的非負 參數(shù)乘積更新方法,在Fa上對E 3和D a相對于Ra進行迭代優(yōu)化;
[0064] 判斷已處理完所有的節(jié)點運行狀態(tài)屬性;
[0065] 判斷當前處理的節(jié)點運行狀態(tài)屬性a是否是所有待處理節(jié)點運行狀態(tài)屬性 {1,2,…,A}的最后一個屬性,如果是,則判定已處理完所有屬性,反之,則判定還未處理完 所有屬性;
[0066] 對于所有云計算節(jié)點1~N,對其運行狀態(tài)屬性1~A,在時間點1~T,根據(jù)節(jié)點 失效歷史記錄矩陣Y,和提取的節(jié)點特征矩陣Di- D A和時間特征矩陣E E A,構造并輸出 所有失效節(jié)點實例的特征,存入數(shù)據(jù)模塊中的節(jié)點失效特征存儲單元122 ;
[0067] 構造節(jié)點失效特征的方法為:
[0068] 遍歷節(jié)點失效歷史記錄矩陣Y,如果節(jié)點N在時間點T上被標記為失效,即Υ(ΝιΤ) = 1,則從節(jié)點特征矩陣組{Dp D2,…,DA}的每個矩陣中提取第N行,即對應于節(jié)點N的特征向 量,總共提取A個向量,構造一個A行,D列的節(jié)點特征矩陣J ;
[0069] 同時,從時間特征矩陣組{Ε。E2,…,EA}中,提取第T行,即對應于時刻T的特征向 量,總共提取A個向量,構造一個A行,D列的時刻特征矩陣S ;
[0070] 然后,將J和S按列進行合并,構造節(jié)點N在時刻T的失效特征矩陣L,如下式所示
[0071] L(n,t) = {JS}
[0072] 根據(jù)云計算系統(tǒng)中節(jié)點1~N,時刻1~T的歷史運行狀態(tài)整體數(shù)據(jù)對各節(jié)點和各 時刻的特征進行建模,并使用符合統(tǒng)計規(guī)律的優(yōu)化方法進行特征提取,最后用該特征描述 特定節(jié)點在特定時刻的失效狀態(tài);
[0073] 將構造完成的節(jié)點失效特征存入數(shù)據(jù)模塊中的節(jié)點失效特征存儲單元。
[0074] 所述的云計算系統(tǒng)節(jié)點失效預警裝置,優(yōu)選的,所述提取單元中云計算節(jié)點實時 特征提取包括:
[0075] 接收服務器提取云計算節(jié)點實時特征的指令;
[0076] 服務器向裝置發(fā)送指令的方式為:定期、或根據(jù)所述裝置的通知、或根據(jù)某服務器 的通知,將要求從云計算節(jié)點運行狀態(tài)實時數(shù)據(jù)中提取云計算節(jié)點失效特征的指令發(fā)送給 裝置;
[0077] 結合云計算節(jié)點實時運行狀態(tài)向量組{Bp B2,…,BJ,和云計算節(jié)點歷史運行狀態(tài) 矩陣組{&,R2,…,RA},構造云計算節(jié)點最近窗口運行狀態(tài)矩陣IA,C2,…,CJ ;
[0078] 結合云計算節(jié)點實時運行狀態(tài)向量組{Bp B2,…,BJ,和云計算節(jié)點歷史運行狀態(tài) 矩陣組{&,R2,…,RA},構造云計算節(jié)點最近窗口運行狀態(tài)矩陣組IA,C 2,…,CJ是:
[0079] 將云計算節(jié)點歷史運行狀態(tài)矩陣組{&,R2,…,RJ和云計算節(jié)點實時運行狀態(tài)向 量組ΙΛ,B2,…,BA}按