一種面向數(shù)據(jù)中心基于能耗感知的數(shù)據(jù)備份方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種面向能耗優(yōu)化的備份方法,屬于大數(shù)據(jù)節(jié)能備份技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 在數(shù)據(jù)中心的數(shù)據(jù)備份方法中,重復(fù)數(shù)據(jù)刪除的效率主要通過數(shù)據(jù)集經(jīng)過重刪之 前和之后的占用空間之比來決定,這個(gè)比值通常被稱為壓縮比或者去重比。而重復(fù)數(shù)據(jù)刪 除的性能主要是通過數(shù)據(jù)集在備份或者存儲(chǔ)過程中總體的讀寫速率進(jìn)行評(píng)價(jià)的。
[0003] 目前存在的備份方法有面向云備份服務(wù)的備份方法。此方法有一個(gè)專門檢查文件 修改狀況并做出相應(yīng)處理的模塊(中間件),并能夠嵌入到現(xiàn)有備份系統(tǒng)中去。并且可以根 據(jù)數(shù)據(jù)集中文件的不同類別,設(shè)計(jì)了一個(gè)智能的重復(fù)數(shù)據(jù)刪除系統(tǒng)。該系統(tǒng)集合了不同力 度的數(shù)據(jù)劃分方法,包括單一實(shí)例(SIS),固定塊劃分(fixed-sized partion,F(xiàn)SP),基于內(nèi) 容劃分(CDC)和滑動(dòng)塊劃分(sliding block)。它能夠根據(jù)文件的類型,如文本文檔、音頻文 件、圖像文件、1 inux源碼文件等,選擇劃分方法,以取得最好的去重比例。
[0004] 此外還有面向吞吐率的備份策略。這個(gè)策略將重刪比和備份時(shí)間納入衡量指標(biāo)的 范圍,但是這些指標(biāo)并不能直接體現(xiàn)出備份任務(wù)的能源消耗量。盡管一個(gè)擁有高重刪比和 低時(shí)間開銷,即高DET值得備份數(shù)據(jù)集,在備份過程中一定也擁有較高的能耗效率。
[0005] 但是,以上的備份方法并不能準(zhǔn)確區(qū)分這些備份任務(wù)在能耗上的表現(xiàn)。因此,需要 制定一個(gè)從能耗角度出發(fā),基于能耗感知的備份策略。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的技術(shù)解決問題是:克服現(xiàn)有技術(shù)的不足,提供一種面向數(shù)據(jù)中心基于能 耗感知的數(shù)據(jù)備份方法,以達(dá)到能耗優(yōu)化的目的。
[0007] 本發(fā)明技術(shù)解決方案:一種面向數(shù)據(jù)中心基于能耗感知的數(shù)據(jù)備份方法,其特點(diǎn) 在于包括以下步驟:
[0008] (1)備份任務(wù)一經(jīng)創(chuàng)建,即開始備份,全部備份任務(wù)均需要經(jīng)過重復(fù)數(shù)據(jù)刪除過 程,得到重復(fù)數(shù)據(jù)刪除的備份數(shù)據(jù)集;
[0009] (2)對(duì)重復(fù)數(shù)據(jù)刪除的備份數(shù)據(jù)集,記錄本次重刪的備份數(shù)據(jù)集各項(xiàng)參數(shù),所述參 數(shù)包括尺寸、重刪比、備份時(shí)間;其中尺寸分為原始數(shù)據(jù)大小,即邏輯尺寸和經(jīng)過重復(fù)數(shù)據(jù) 刪除過程之后存儲(chǔ)在介質(zhì)上的數(shù)據(jù)大小,即物理尺寸;重刪比是衡量重復(fù)數(shù)據(jù)刪除效果最 直觀的數(shù)據(jù),即備份數(shù)據(jù)集的邏輯尺寸與物理尺寸之比;以上三個(gè)參數(shù)用于在步驟(3)中計(jì) 算中間變量;
[0010] (3)計(jì)算每次重復(fù)數(shù)據(jù)刪除過程后?1-。(3(1和? 1___1的值,并記錄在備份數(shù)據(jù)集 元數(shù)據(jù)中,并判斷Preduced和Pincremental的大小關(guān)系,其中Preduced表示備份過程采用重復(fù)數(shù)據(jù) 刪除技術(shù)而減少的能耗,P inCT_ntai表示備份過程采用重復(fù)數(shù)據(jù)刪除技術(shù)而增加的能耗;
[0011] (4)如果一個(gè)數(shù)據(jù)集連續(xù)3次出現(xiàn)的關(guān)系,則該備份數(shù)據(jù)集不再 進(jìn)行重刪,即備份數(shù)據(jù)集按照正常流程備份;反之,只要數(shù)據(jù)集未出現(xiàn)連續(xù)3次存在Preduced <PinCTe?entai的情況,則繼續(xù)去重并檢測(cè);
[0012] (5)無論進(jìn)行重刪與否,備份任務(wù)會(huì)照常執(zhí)行到自然結(jié)束或被終止。
[0013] 所述步驟(1)中的重復(fù)數(shù)據(jù)刪除過程的次數(shù)小于3。
[0014] 所述步驟⑵中Pincrementai的計(jì)算公式如下:
[0015] Pincremental- Σ nodes ((Pdedup_Pstandby)*Tdedup (1.1)
[0016] 其中,Tdedup為重復(fù)數(shù)據(jù)刪除在其上耗費(fèi)的時(shí)間,(Pdedup-Pstandby)表不,在這一段時(shí) 間內(nèi),由于進(jìn)行重復(fù)數(shù)據(jù)刪除過程,服務(wù)器功率增加的部分,Pdedup表示進(jìn)行重復(fù)數(shù)據(jù)刪除過 程后存儲(chǔ)設(shè)備的功率,Pstandby是處于空閑狀態(tài)下的存儲(chǔ)設(shè)備功率。
[0017] 所述(Pdedup-Pstandby)或?qū)?Pd edup-Pstandby)視為服務(wù)器功率增加的平均值,并通過能 耗模型
[0018] P active = P standby+P seq+Prand (1.2)
[0019] 和重復(fù)數(shù)據(jù)刪除過程的資源使用率情況,計(jì)算得出,其中Pseq表示順序10產(chǎn)生的 能耗,Prand表示隨機(jī)10產(chǎn)生的能耗,它們均為由于10開銷帶來的負(fù)載相關(guān)能耗。
[0020] 所述步驟(1 )中的Preduced的計(jì)算公式如下:
[0021] Preduced = (PMaxSeqlO - Pstandby ) * Ttosaye * NactiTC + (Pstandhy ~ ^idle ) * Tbackup * ; ~ ^energy _unit < 1.3)
[0022] (PMaxSe3qIQ-Pstandby)是處于傳輸狀態(tài)下與處于空閑狀態(tài)下的存儲(chǔ)設(shè)備功率之差, PMaxSe3qIQ表示處于傳輸狀態(tài)下的存儲(chǔ)設(shè)備功率,Pstandby表示處于空閑狀態(tài)下的存儲(chǔ)設(shè)備功 率;T lcisave表示由于數(shù)據(jù)量削減而減少的傳輸時(shí)間,在實(shí)際實(shí)驗(yàn)過程中記錄即可;Nactlve表示 在傳輸過程涉及到的存儲(chǔ)設(shè)備的數(shù)量;(P standby-Pldle3)表示處于待機(jī)下與處于低功耗或者關(guān) 閉狀態(tài)下的存儲(chǔ)設(shè)備功率之差,P ldl(3表示處于低功耗或者關(guān)閉狀態(tài)下的存儲(chǔ)設(shè)備功率; Tba。-表示備份任務(wù)的執(zhí)行周期,在備份任務(wù)下一次執(zhí)行之前經(jīng)過的時(shí)間,通過備份任務(wù)的 設(shè)置信息得到;丨-SiHP--表示能被空閑的設(shè)備的數(shù)量,其中S_rgy unit等同于存儲(chǔ)系統(tǒng)可以 '°ene聊._unit 操作的最小存儲(chǔ)單元的容量,3<^表示能被空閑的設(shè)備的容量,Senergy_unit等同于存儲(chǔ)系統(tǒng)可 以操作的最小存儲(chǔ)單元的容量。
[0023] 本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于:
[0024] (1)完全以吞吐率作為篩選的指標(biāo)并不能準(zhǔn)確區(qū)分這些備份任務(wù)在能耗上的表 現(xiàn)。制定一個(gè)從能耗角度出發(fā),本發(fā)明基于能耗感知的備份策略能夠達(dá)到能耗優(yōu)化的目的。 綜合兩個(gè)方面的影響進(jìn)行分析,找到能耗增加與能耗減少的平衡點(diǎn),是制定基于能耗感知 的備份策略的關(guān)鍵所在。根據(jù)計(jì)算得到的能耗變化值,仿照面向吞吐率的備份策略,對(duì)備份 任務(wù)的數(shù)據(jù)集進(jìn)行篩選。然后,備份系統(tǒng)只對(duì)篩選通過的數(shù)據(jù)集進(jìn)行重刪操作,以達(dá)到能耗 優(yōu)化的目的。
[0025] (2)圖2展示了備份系統(tǒng)在不同策略影響下的平均功耗表現(xiàn),由于避免了重刪過程 消耗的能源,同時(shí)利用空閑的硬盤進(jìn)行節(jié)能,應(yīng)用本發(fā)明面向能耗優(yōu)化的備份方法的實(shí)驗(yàn) 組耗能最低。相比于面向吞吐率的備份策略減少的約8%的能耗,能夠關(guān)閉更多硬盤的面向 能耗優(yōu)化的策略降低了 300W的功率。當(dāng)數(shù)據(jù)集尺寸更大,實(shí)驗(yàn)設(shè)備規(guī)模更大時(shí),節(jié)能效果將 更加明顯。
【附圖說明】
[0026] 圖1為本發(fā)明方法實(shí)現(xiàn)流程圖;
[0027] 圖2為不同數(shù)據(jù)集在不同策略下備份系統(tǒng)的平均功耗。
【具體實(shí)施方式】
[0028] 如圖1所示,為面向能耗優(yōu)化的備份決策算法流程圖
[0029] 由于重復(fù)數(shù)據(jù)刪除技術(shù)對(duì)備份過程在能耗方面擁有兩面性,因此,綜合兩個(gè)方面 的影響進(jìn)行分析,找到能耗增加與能耗減少的平衡點(diǎn),是制定基于能耗感知的備份策略的 關(guān)鍵所在。所謂能耗平衡點(diǎn)(energy balance point)指的是,重復(fù)數(shù)據(jù)刪除過程造成備份 服務(wù)器端增加的能耗開銷與存儲(chǔ)端由于空間需要減少而節(jié)約的能耗,二者相等的情況下, 備份數(shù)據(jù)集的尺寸、重刪比等參數(shù)狀態(tài)。要找到數(shù)據(jù)集的能耗平衡點(diǎn),需要計(jì)算該數(shù)據(jù)集在 經(jīng)過重復(fù)數(shù)據(jù)刪除過程之后,在服務(wù)器端增加的能耗與在存儲(chǔ)系統(tǒng)端減少的能耗。
[0030] 服務(wù)器端增加的能耗主要來自重刪過程額外的時(shí)間開銷和額外的計(jì)算資源開銷。 與一般的備份過程相比,重復(fù)數(shù)據(jù)刪除在更多的時(shí)間內(nèi)占用了更多的計(jì)算資源。根據(jù)服務(wù) 器能耗模型,可以得到計(jì)算這一部分增加的能耗的公式:
[0031 ] P incremental = Σ nodes ( ( Pdedup-Pstandby ) dedup (1.4)
[0032]用?1^__1表示備份過程采用重復(fù)數(shù)據(jù)刪除技術(shù)而增加的能耗。一個(gè)備份任務(wù)可 能需要多臺(tái)服務(wù)器進(jìn)行處理,需要根據(jù)情況分別計(jì)算并匯總。而對(duì)于每臺(tái)服務(wù)器,重復(fù)數(shù)據(jù) 刪除在其上耗費(fèi)的時(shí)間是TdedUP。這個(gè)時(shí)間可以通過數(shù)據(jù)集的重刪比和服務(wù)器吞吐率由公式 進(jìn)行計(jì)算得到重刪比即備份數(shù)據(jù)集的邏輯大小與物理大小之比。
[0033] (Pdedup-Pstandby)表示,在這一段時(shí)間內(nèi),由于進(jìn)行重復(fù)數(shù)據(jù)刪除過程,服務(wù)器功率 增加的部分。由實(shí)驗(yàn)結(jié)果可以得到,使用提出的重復(fù)數(shù)據(jù)刪除框架進(jìn)行重刪,在服務(wù)器沒有 其他計(jì)算密集型任務(wù)的情況下,它的資源使用情況是穩(wěn)定的。因此,為了方便計(jì)算,將 (PdedUp-P standby)視為服務(wù)器功率增加的平均值,并通過能耗模型(1.2)和重復(fù)數(shù)據(jù)刪除過程 的資源使用率情況,計(jì)算得出結(jié)果。
[0034] 存儲(chǔ)系統(tǒng)減少的能耗可以分為兩個(gè)部分,一部分是由于重刪減小的數(shù)據(jù)集尺寸導(dǎo) 致的傳輸開銷減少帶來的能耗降低,另一部分是占用空間的削減導(dǎo)致更多可能的存儲(chǔ)設(shè)備 可以處于低功耗運(yùn)行或者關(guān)閉狀態(tài),從而節(jié)省的能耗。