專利名稱:基于內(nèi)容相似性的分布式儲存的副本替換算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于分布式存儲領(lǐng)域,涉及一種基于內(nèi)容相似性的分布式儲存的副本替換算法。可將其應(yīng)用到云存儲、數(shù)據(jù)網(wǎng)格存儲和分布式存儲等領(lǐng)域。
背景技術(shù):
在分布式計(jì)算中,由于廣域網(wǎng)和hternet的高延遲,數(shù)據(jù)讀取的速度受網(wǎng)絡(luò)的影響越來越大,同時(shí)也影響了整個(gè)分布式環(huán)境的可擴(kuò)展性。為了解決這一難題,大量數(shù)據(jù)需要復(fù)制在廣泛分布的多個(gè)節(jié)點(diǎn)上。然而節(jié)點(diǎn)中存儲空間的數(shù)量和大小是有限的,當(dāng)存儲空間的副本達(dá)到一定的閾值時(shí),存儲空間的輸入輸出性能將會急劇的下降。所以當(dāng)一個(gè)新的數(shù)據(jù)副本到達(dá)以后使得存儲空間中所存儲的副本大小超過了閾值,必須啟動(dòng)副本替換算法刪除一些副本為新的副本空出空間。傳統(tǒng)替換算法有最少使用頻率副本替換算法和最近最少使用副本替換算法等等。最少使用頻率副本替換算法是一種基于副本使用頻率的副本替換算法。當(dāng)新到達(dá)存儲空間的副本需要空間時(shí),該算法將刪除引用數(shù)最低的副本,同時(shí)定期的減少被緩存的副本引用計(jì)數(shù)器的值,這樣可以減少一些以前流行現(xiàn)在不流行的副本對最少使用頻率副本替換算法的干擾。最近最少使用副本替換算法是基于副本引用時(shí)間的副本替換算法。當(dāng)需要啟動(dòng)替換算法時(shí),該算法將刪除最長沒有被引用的副本。然而和最少使用頻率副本替換算法一樣, 它并不能預(yù)測未來時(shí)間窗口內(nèi)的熱點(diǎn)數(shù)據(jù)。同時(shí)最近最少使用副本替換算法是一種歧視性算法,對比較早到達(dá)的副本是不公平的。
發(fā)明內(nèi)容
為了克服上述兩種算法的缺點(diǎn),使分布式存儲的整體性能達(dá)到最優(yōu),選擇被替換的副本不僅是當(dāng)前代價(jià)最小的,也應(yīng)該是在以后的時(shí)間內(nèi)代價(jià)最小的,本發(fā)明的目的是提供一種基于內(nèi)容相似性的分布式儲存的副本替換算法,該算法提高了分布式存儲的中文本替換的效率,減少了網(wǎng)絡(luò)資源的消耗,在分布式存儲領(lǐng)域具有重要的意義。本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的
一種基于內(nèi)容相似性的分布式儲存的副本替換算法,其特征在于該算法提取最少使用的副本,并在此基礎(chǔ)上提取最長沒有被引用的副本,然后綜合使用兩種算法實(shí)現(xiàn)副本替換; 具體步驟如下
1)基于內(nèi)容相似性計(jì)算副本價(jià)值;
首先定義副本空間集合{M和副本ID空間集合{W,設(shè)定副本的標(biāo)識符為一個(gè)正整數(shù), 內(nèi)容的相似性定義成集合{們和集合IW之間的映射,若|r7_rJ |的值越小,則副本於和 R2的相似度越大;
2)計(jì)算復(fù)制代價(jià);
引入代價(jià)因子來考慮由于大小以及帶寬所引起的替換代價(jià);定義C為代價(jià)因子,
權(quán)利要求
1. 一種基于內(nèi)容相似性的分布式儲存的副本替換算法,其特征在于該算法提取最少使用的副本,并在此基礎(chǔ)上提取最長沒有被引用的副本,然后綜合使用兩種算法實(shí)現(xiàn)副本替換;具體步驟如下1)基于內(nèi)容相似性計(jì)算副本價(jià)值;首先定義副本空間集合{M和副本ID空間集合{W,設(shè)定副本的標(biāo)識符為一個(gè)正整數(shù), 內(nèi)容的相似性定義成集合{們和集合IW之間的映射,若|r7_rJ |的值越小,則副本於和 R2的相似度越大;2)計(jì)算復(fù)制代價(jià);引入代價(jià)因子來考慮由于大小以及帶寬所引起的替換代價(jià);定義C為代價(jià)因子, C=$,其中,5^代表副本大小,A代表復(fù)制請求節(jié)點(diǎn)與擁有該副本節(jié)點(diǎn)間的帶寬;若多個(gè)節(jié)點(diǎn)都存儲有副本t則僅考慮與復(fù)制請求節(jié)點(diǎn)相連的最大帶寬并賦值給A;3)基于內(nèi)容相似性的分布式儲存的副本替換算法; 標(biāo)識符為A的替換測度幻如式(9)所示其中幻表示副本A的替換測度,替換測度越大,越應(yīng)該被保留,完成基于內(nèi)容相似性的分布式儲存的副本替換算法。
2.根據(jù)權(quán)利要求1所述的基于內(nèi)容相似性的分布式儲存的副本替換算法,其特征在于步驟1)中,假設(shè)副本訪問從標(biāo)識符為r0的副本開始,訪問歷史可以看作一系列的隨機(jī)步,si (其中i>0)表示副本標(biāo)識符之差的絕對值,其表示如式(1)所示 (/>0) (1)根據(jù)時(shí)間空間局部性定理,在文件空間中彼此靠近的文件更有可能被連續(xù)的訪問到; 若初始訪問對象為/0,由于第次訪問的副本標(biāo)識符/ 可用式⑵所示fiUJ^JUO—^A-^m(2)則/ 同時(shí)可以用式(3)表示假設(shè)任意相鄰兩次副本訪問的標(biāo)識符只絕對值之差為1,即 Vi > O^HHl(4)則對于每一個(gè)A可以看成一次獨(dú)立隨機(jī)實(shí)驗(yàn),實(shí)驗(yàn)的輸出結(jié)果是1或者-1 ;設(shè)定A為 1的概率為q,則&為-1的概率為l-q,n次獨(dú)立這樣的實(shí)驗(yàn),可以將副本訪問看出一個(gè)η次獨(dú)立的伯努利實(shí)驗(yàn);設(shè)力=1的事件數(shù)為I,力=-1事件數(shù)為7,/+7=/7,1-7=毛/7為實(shí)驗(yàn)總次數(shù)從即
3.根據(jù)權(quán)利要求2所述的基于內(nèi)容相似性的分布式儲存的副本替換算法,其特征在于根據(jù)時(shí)間空間局部性原理,將副本訪問建模為一系列獨(dú)立隨機(jī)實(shí)驗(yàn),計(jì)算出副本A在未來Τ,時(shí)間窗口內(nèi)的訪問次數(shù),即副本的價(jià)值,價(jià)值低的副本就是使用最少的副本。
4.根據(jù)權(quán)利要求1所述的基于內(nèi)容相似性的分布式儲存的副本替換算法,其特征在于步驟3)中,新到達(dá)的副本的幻值比當(dāng)前計(jì)算節(jié)點(diǎn)中幻值最低的副本高,幻值最低的副本將被刪除,新的副本將被保留;當(dāng)本地的存儲器沒達(dá)到閾值,本算法依然復(fù)制副本而不考慮刪除。
全文摘要
本發(fā)明公開了一種基于內(nèi)容相似性的分布式儲存的副本替換算法,該算法首先基于內(nèi)容相似性計(jì)算副本價(jià)值,然后計(jì)算復(fù)制代價(jià),由于副本大小以及計(jì)算節(jié)點(diǎn)和存儲節(jié)點(diǎn)之間連接帶寬的差別,每一個(gè)副本的淘汰代價(jià)是不一樣的。最后綜合考慮預(yù)測和代價(jià)因素,提出基于內(nèi)容相似性的分布式儲存的副本替換算法。本發(fā)明通過基于內(nèi)容相似性的副本替換算法提取最少使用的副本,使用分布式儲存的副本替換算法找到最長沒有被引用的副本,然后綜合使用兩種算法實(shí)現(xiàn)副本替換,提高了平均作業(yè)時(shí)間,減少了網(wǎng)絡(luò)資源的消耗,在分布式存儲領(lǐng)域具有重要意義。
文檔編號H04L29/08GK102170468SQ201110086019
公開日2011年8月31日 申請日期2011年4月7日 優(yōu)先權(quán)日2011年4月7日
發(fā)明者張明明, 承軼青, 程偉華 申請人:江蘇省電力公司