經(jīng)重復(fù)消除的數(shù)據(jù)的備份的制作方法
【專利摘要】本發(fā)明涉及經(jīng)重復(fù)消除的數(shù)據(jù)的備份。方法和系統(tǒng)向數(shù)據(jù)存儲(chǔ)介質(zhì)備份經(jīng)重復(fù)消除的數(shù)據(jù),該經(jīng)重復(fù)消除的數(shù)據(jù)包括為了重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊。在一個(gè)實(shí)施方式中,確定對(duì)存在對(duì)每個(gè)數(shù)據(jù)塊的多次引用;并且存儲(chǔ)具有對(duì)其的多次引用的至少每個(gè)數(shù)據(jù)塊的至少兩個(gè)拷貝,每個(gè)被存儲(chǔ)到獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)。在另一實(shí)施方式中,確定對(duì)每個(gè)數(shù)據(jù)塊的引用;比較多次引用的總數(shù)與百分比閾值;并且在百分比閾值被超過(guò)的情況下針對(duì)所有數(shù)據(jù)塊存儲(chǔ)多個(gè)拷貝。
【專利說(shuō)明】經(jīng)重復(fù)消除的數(shù)據(jù)的備份
[0001]相關(guān)申請(qǐng)
[0002]本申請(qǐng)是國(guó)際申請(qǐng)日為2010年01月19日、國(guó)際申請(qǐng)?zhí)枮镻CT/EP2010/050587、進(jìn)入中國(guó)國(guó)家階段日期為2011年08月05日、國(guó)家申請(qǐng)?zhí)枮?01080006849.X的發(fā)明專利申
請(qǐng)的分案申請(qǐng)。
【技術(shù)領(lǐng)域】
[0003]本發(fā)明涉及數(shù)據(jù)重復(fù)消除,并且更特別地,涉及向數(shù)據(jù)存儲(chǔ)介質(zhì)備份經(jīng)重復(fù)消除的數(shù)據(jù)。
【背景技術(shù)】
[0004]計(jì)算機(jī)系統(tǒng)采用通常部分地采用不時(shí)更新數(shù)據(jù)的應(yīng)用。該數(shù)據(jù)繼而通常被存儲(chǔ),可能首先是被存儲(chǔ)到諸如存儲(chǔ)器或者盤(pán)的存儲(chǔ)庫(kù),隨后被存儲(chǔ)到諸如可拆卸介質(zhì)的數(shù)據(jù)存儲(chǔ)介質(zhì),其示例包括磁帶、光盤(pán)、盒式磁盤(pán)、盒式存儲(chǔ)器,等等。如本領(lǐng)域中已知的,向儲(chǔ)存庫(kù)和向數(shù)據(jù)存儲(chǔ)介質(zhì)的存儲(chǔ)可以被稱為數(shù)據(jù)的備份,并且由備份/恢復(fù)應(yīng)用來(lái)進(jìn)行。例如,一個(gè)用戶或者一組用戶可能希望向儲(chǔ)存庫(kù)備份定期(例如,每天或者每周)備份特定應(yīng)用的數(shù)據(jù)或者在其計(jì)算機(jī)上存儲(chǔ)的所有數(shù)據(jù),以作為針對(duì)重要數(shù)據(jù)可能的崩潰、損壞或者意外刪除的預(yù)防措施。
[0005]對(duì)數(shù)據(jù)流的部分更新可能源自各更新應(yīng)用中的每個(gè)應(yīng)用僅使用該數(shù)據(jù)流的一部分。在一個(gè)示例中,一個(gè)應(yīng)用或者用戶將使用和更新包括數(shù)據(jù)流一部分的一個(gè)或者多個(gè)數(shù)據(jù)集或者虛擬卷,而另一應(yīng)用或者用戶將使用和更新包括數(shù)據(jù)流的另一部分的一個(gè)或者多個(gè)數(shù)據(jù)集或者虛擬卷。在任一情況下,常常只有所備份的數(shù)據(jù)流中的數(shù)據(jù)集或者虛擬卷的小部分已被更新,因此當(dāng)前數(shù)據(jù)的大部分可能已經(jīng)存在于儲(chǔ)存庫(kù)中,只有少量改變。
[0006]用于減少儲(chǔ)存庫(kù)中所存儲(chǔ)的相同數(shù)據(jù)的量的過(guò)程被稱為數(shù)據(jù)重復(fù)消除,并且各種技術(shù)是本領(lǐng)域技術(shù)人員所已知的。數(shù)據(jù)重復(fù)消除最終結(jié)果是:對(duì)于相同的數(shù)據(jù)部分,該數(shù)據(jù)部分的一個(gè)拷貝被存儲(chǔ)為第一拷貝,而將其他拷貝替換為指向第一拷貝的指針。
[0007]在此,用于數(shù)據(jù)給定部分的每個(gè)第一拷貝和指向第一拷貝的任何指針中的每一個(gè)被稱為針對(duì)該數(shù)據(jù)的重復(fù)消除的“引用”。數(shù)據(jù)的沒(méi)有相同拷貝的唯一的部分也被稱為針對(duì)該數(shù)據(jù)的重復(fù)消除的“引用”。
[0008]由此,經(jīng)重復(fù)消除的虛擬卷可以包括唯一的數(shù)據(jù)塊與或者是第一拷貝或者是指向第一拷貝的指針的數(shù)據(jù)塊的組合。依賴于用來(lái)創(chuàng)建重復(fù)消除的技術(shù),數(shù)據(jù)塊可以具有一致的或者可變的尺寸。
[0009]如本領(lǐng)域技術(shù)人員所知,經(jīng)重復(fù)消除的數(shù)據(jù)通常始于以重復(fù)消除形式向儲(chǔ)存庫(kù)“備份”,并且通常被存儲(chǔ)在諸如RAID之類的硬盤(pán)驅(qū)動(dòng)系統(tǒng)上。RAID系統(tǒng)使用奇偶校驗(yàn)系統(tǒng)來(lái)確保數(shù)據(jù)不被丟失,即使數(shù)據(jù)的大部分可能變得被損壞等。數(shù)據(jù)可以被格式化以模仿磁帶或者其他形式的可拆卸介質(zhì),但是按照可以快速恢復(fù)原始數(shù)據(jù)的方式被布置在硬盤(pán)驅(qū)動(dòng)系統(tǒng)上。包括虛擬卷的數(shù)據(jù)流可以作為完整原始數(shù)據(jù)流而存在,并且在其被備份到儲(chǔ)存庫(kù)時(shí)被重復(fù)消除;或者它可以被重復(fù)消除并且以經(jīng)重復(fù)消除形式被存儲(chǔ)在例如臨時(shí)存儲(chǔ)中,并且繼而被備份到儲(chǔ)存庫(kù)。
[0010]備份儲(chǔ)存庫(kù)本身必須不時(shí)地備份以便避免過(guò)高的成本,并且備份通常是向?qū)嶋H的可拆卸介質(zhì)(例如磁帶庫(kù))。為了恢復(fù)原始數(shù)據(jù)通常需要訪問(wèn)數(shù)據(jù),并且一個(gè)庫(kù)維護(hù)可拆卸介質(zhì)以供快速訪問(wèn),盡管它比盤(pán)驅(qū)動(dòng)系統(tǒng)的訪問(wèn)更慢。當(dāng)向物理帶傳送數(shù)據(jù)時(shí),可以對(duì)數(shù)據(jù)進(jìn)行重建以用于傳送,在這種情況下其擴(kuò)展和消耗大量的帶,例如,擴(kuò)展因子可以是10或者20。
【發(fā)明內(nèi)容】
[0011]方法和和系統(tǒng)備份經(jīng)重復(fù)消除的數(shù)據(jù),該經(jīng)重復(fù)消除的數(shù)據(jù)包括針對(duì)重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊。
[0012]在一個(gè)實(shí)施方式中,一個(gè)步驟包括確定存在對(duì)每個(gè)數(shù)據(jù)塊的多次引用;并且一個(gè)步驟包括存儲(chǔ)具有對(duì)其的多次引用的至少每個(gè)數(shù)據(jù)塊的至少兩個(gè)拷貝,其中向獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)數(shù)據(jù)塊的每個(gè)拷貝。
[0013]在另一實(shí)施方式中,一個(gè)步驟包括確定對(duì)每個(gè)數(shù)據(jù)塊的引用;一個(gè)步驟包括比較該引用與引用閾值;一個(gè)步驟包括在引用閾值未被超過(guò)的情況下存儲(chǔ)每個(gè)數(shù)據(jù)塊的單個(gè)拷貝;以及一個(gè)步驟包括在引用閾值被超過(guò)的情況下存儲(chǔ)每個(gè)數(shù)據(jù)塊的多個(gè)拷貝。
[0014]在又一實(shí)施方式中,多個(gè)拷貝存儲(chǔ)步驟包括向獨(dú)立數(shù)據(jù)存儲(chǔ)介質(zhì)的每一個(gè)存儲(chǔ)數(shù)據(jù)塊的多個(gè)拷貝中的每個(gè)拷貝。
[0015]在又一實(shí)施方式中,引用閾值包括對(duì)數(shù)據(jù)塊的引用次數(shù)。
[0016]在又一實(shí)施方式中,其中經(jīng)重復(fù)消除的數(shù)據(jù)被布置在數(shù)據(jù)卷中,其中至少一個(gè)數(shù)據(jù)卷包括多個(gè)數(shù)據(jù)塊,確定步驟所確定的對(duì)數(shù)據(jù)塊的引用不包括對(duì)相同數(shù)據(jù)卷中的數(shù)據(jù)塊的多次引用。
[0017]在另一實(shí)施方式中,其中經(jīng)重復(fù)消除的數(shù)據(jù)被布置在數(shù)據(jù)卷中,其中至少一個(gè)數(shù)據(jù)卷包括多個(gè)數(shù)據(jù)塊,確定步驟所確定的對(duì)數(shù)據(jù)塊的引用包括對(duì)相同數(shù)據(jù)卷中的數(shù)據(jù)塊的多次引用。
[0018]在又一實(shí)施方式中,引用閾值次數(shù)是對(duì)數(shù)據(jù)塊的一次引用。
[0019]在另一實(shí)施方式中,引用閾值包括大于I的基于風(fēng)險(xiǎn)的閾值。
[0020]在又一實(shí)施方式中,備份經(jīng)重復(fù)消除的數(shù)據(jù)包括:包括確定例如上下文中對(duì)每個(gè)數(shù)據(jù)塊的引用的步驟;包括將上下文中的多次引用總數(shù)與百分比閾值進(jìn)行比較的步驟;以及包括在百分比閾值被超過(guò)的情況下存儲(chǔ)上下文的所有數(shù)據(jù)塊的步驟。
[0021]在又一實(shí)施方式中,其中經(jīng)重復(fù)消除的數(shù)據(jù)布置在卷中,而至少一個(gè)數(shù)據(jù)卷包括多個(gè)數(shù)據(jù)塊;百分比閾值包括具有對(duì)數(shù)據(jù)塊的多次引用的卷的數(shù)據(jù)百分比;并且存儲(chǔ)步驟包括存儲(chǔ)卷的所有數(shù)據(jù)塊。
[0022]在另一實(shí)施方式中,百分比閾值包括卷的數(shù)據(jù)塊的數(shù)目百分比。
[0023]在另一實(shí)施方式中,引用閾值包括數(shù)據(jù)流的數(shù)據(jù)塊的數(shù)目百分比。
[0024]在又一實(shí)施方式中,其中經(jīng)重復(fù)消除的數(shù)據(jù)包括限定的數(shù)據(jù)流,該數(shù)據(jù)流包括多個(gè)數(shù)據(jù)卷;百分比閾值包括上下文的數(shù)據(jù)的數(shù)量百分比;并且存儲(chǔ)步驟包括存儲(chǔ)上下文的所有數(shù)據(jù)。[0025]在又一實(shí)施方式中,引用閾值包括卷的經(jīng)重復(fù)消除的數(shù)據(jù)的數(shù)量百分比。
[0026]在又一實(shí)施方式中,引用閾值包括數(shù)據(jù)流的經(jīng)重復(fù)消除的數(shù)據(jù)的數(shù)量百分比。
[0027]在又一實(shí)施方式中,備份經(jīng)重復(fù)消除的數(shù)據(jù)包括:包括確定對(duì)每個(gè)數(shù)據(jù)塊的引用的步驟;包括比較引用與第一閾值的步驟;包括比較引用與第二閾值的步驟;包括在第一閾值被超過(guò)的情況下存儲(chǔ)至少每個(gè)數(shù)據(jù)塊的第二拷貝的步驟;以及包括在第二閾值被超過(guò)的情況下存儲(chǔ)至少每個(gè)數(shù)據(jù)塊的第二拷貝以及附加拷貝的步驟。
[0028]在又一實(shí)施方式中,多個(gè)拷貝存儲(chǔ)步驟包括向每個(gè)獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)數(shù)據(jù)塊的第二拷貝的每個(gè)拷貝和數(shù)據(jù)塊的附加拷貝的每個(gè)拷貝。
[0029]在本發(fā)明的第一方面,現(xiàn)在提供一種用于備份來(lái)自重復(fù)消除的數(shù)據(jù)源的經(jīng)重復(fù)消除的數(shù)據(jù)的方法,所述經(jīng)重復(fù)消除的數(shù)據(jù)包括為了重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊,該方法包括:
[0030]由處理系統(tǒng)執(zhí)行的包括確定存在對(duì)每個(gè)所述數(shù)據(jù)塊的多次引用的步驟;以及
[0031]由處理系統(tǒng)執(zhí)行的包括存儲(chǔ)具有對(duì)其的多次引用的至少每個(gè)所述數(shù)據(jù)塊的至少兩個(gè)拷貝的步驟,其中向獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)所述數(shù)據(jù)塊的每個(gè)拷貝。
[0032]在本發(fā)明的第二方面,現(xiàn)在提供一種用于備份來(lái)自經(jīng)重復(fù)消除的數(shù)據(jù)源的經(jīng)重復(fù)消除的數(shù)據(jù)的方法,所述經(jīng)重復(fù)消除的數(shù)據(jù)包括為了重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊,該方法包括:
[0033]由處理系統(tǒng)執(zhí)行的包括確定對(duì)每個(gè)所述數(shù)據(jù)塊的引用的步驟;
[0034]由處理系統(tǒng)執(zhí)行的包括比較所述引用與引用閾值的步驟;
[0035]由處理系統(tǒng)執(zhí)行的包括在所述引用閾值未被超過(guò)的情況下存儲(chǔ)每個(gè)所述數(shù)據(jù)塊的單個(gè)拷貝的步驟;以及
[0036]由處理系統(tǒng)執(zhí)行的包括在所述引用閾值被超過(guò)的情況下存儲(chǔ)每個(gè)所述數(shù)據(jù)塊的多個(gè)拷貝的步驟。
[0037]在本發(fā)明的第三方面,現(xiàn)在提供一種用于備份來(lái)自經(jīng)重復(fù)消除的數(shù)據(jù)源的經(jīng)重復(fù)消除的數(shù)據(jù)的方法,所述經(jīng)重復(fù)消除的數(shù)據(jù)包括為了重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊,該方法包括:
[0038]由處理系統(tǒng)執(zhí)行的包括確定在上下文中對(duì)每個(gè)所述數(shù)據(jù)塊的引用的步驟;
[0039]由處理系統(tǒng)執(zhí)行的包括對(duì)所述上下文中的多次所述引用的總數(shù)與百分比閾值進(jìn)行比較的步驟;以及
[0040]由處理系統(tǒng)執(zhí)行的包括在所述百分比閾值被超過(guò)的情況下存儲(chǔ)所述上下文的所有所述數(shù)據(jù)塊的步驟。
[0041]在本發(fā)明的第四方面,現(xiàn)在提供一種用于備份來(lái)自經(jīng)重復(fù)消除的數(shù)據(jù)源的經(jīng)重復(fù)消除的數(shù)據(jù)的方法,所述經(jīng)重復(fù)消除的數(shù)據(jù)包括為了重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊,該方法包括:
[0042]由處理系統(tǒng)執(zhí)行的包括確定在上下文中對(duì)每個(gè)所述數(shù)據(jù)塊的引用的數(shù)據(jù)的量的步驟;
[0043]由處理系統(tǒng)執(zhí)行的包括對(duì)所述上下文的數(shù)據(jù)的量與百分比閾值進(jìn)行比較的步驟;以及
[0044]由處理系統(tǒng)執(zhí)行的包括在所述百分比閾值被超過(guò)的情況下存儲(chǔ)所述上下文的所有所述數(shù)據(jù)塊的步驟。
[0045]在本發(fā)明的第五方面,現(xiàn)在提供一種用于備份來(lái)自經(jīng)重復(fù)消除的數(shù)據(jù)源的經(jīng)重復(fù)消除的數(shù)據(jù)的方法,所述經(jīng)重復(fù)消除的數(shù)據(jù)包括為了重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊,該方法包括:
[0046]由處理系統(tǒng)執(zhí)行的包括確定對(duì)每個(gè)所述數(shù)據(jù)塊的引用的步驟;
[0047]由處理系統(tǒng)執(zhí)行的包括對(duì)所述引用與第一閾值進(jìn)行比較的步驟;
[0048]由處理系統(tǒng)執(zhí)行的包括對(duì)所述引用與第二閾值進(jìn)行比較的步驟;
[0049]由處理系統(tǒng)執(zhí)行的包括在所述第一閾值被超過(guò)的情況下存儲(chǔ)至少每個(gè)所述數(shù)據(jù)塊的第二拷貝的步驟;以及
[0050]由處理系統(tǒng)執(zhí)行的包括在所述第二閾值被超過(guò)的情況下存儲(chǔ)至少每個(gè)所述數(shù)據(jù)塊的所述第二拷貝以及附加拷貝的步驟。
[0051]在本發(fā)明的第六方面,現(xiàn)在提供一種系統(tǒng),該系統(tǒng)包括:
[0052]至少一個(gè)數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器,配置用于向至少一個(gè)數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)數(shù)據(jù);以及
[0053]處理器系統(tǒng),配置用于經(jīng)由所述至少一個(gè)數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器向多個(gè)獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)備份經(jīng)重復(fù)消除的數(shù)據(jù),所述經(jīng)重復(fù)消除的數(shù)據(jù)包括為了重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊,所述處理器系統(tǒng)被配置用于:
[0054]針對(duì)每個(gè)所述數(shù)據(jù)塊確定關(guān)于所述數(shù)據(jù)塊是否存在多次所述引用;以及
[0055]存儲(chǔ)具有對(duì)其的多次引用的至少每個(gè)所述數(shù)據(jù)塊的至少兩個(gè)拷貝,其中所述數(shù)據(jù)塊的每個(gè)拷貝被存儲(chǔ)到獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)。
[0056]在本發(fā)明的第七方面,現(xiàn)在提供一種系統(tǒng),該系統(tǒng)包括:
[0057]至少一個(gè)數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器,配置用于向至少一個(gè)數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)數(shù)據(jù);以及
[0058]處理器系統(tǒng),配置用于經(jīng)由所述至少一個(gè)數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器向多個(gè)獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)備份經(jīng)重復(fù)消除的數(shù)據(jù),所述經(jīng)重復(fù)消除的數(shù)據(jù)包括為了重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊,所述處理器系統(tǒng)被配置用于:
[0059]確定對(duì)每個(gè)所述數(shù)據(jù)塊的引用;
[0060]對(duì)所述引用與引用閾值進(jìn)行比較;
[0061]在所述引用閾值未被超過(guò)的情況下向每個(gè)所述數(shù)據(jù)塊的數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)單個(gè)拷貝;以及
[0062]在所述引用閾值被超過(guò)的情況下向每個(gè)所述數(shù)據(jù)塊的每個(gè)獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)獨(dú)立拷貝。
[0063]在本發(fā)明的第八方面,現(xiàn)在提供一種系統(tǒng),該系統(tǒng)包括:
[0064]至少一個(gè)數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器,器配置用于向至少一個(gè)數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)數(shù)據(jù);以及
[0065]處理器系統(tǒng),配置用于經(jīng)由所述至少一個(gè)數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器向多個(gè)獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)備份經(jīng)重復(fù)消除的數(shù)據(jù),所述經(jīng)重復(fù)消除的數(shù)據(jù)包括為了重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊,所述處理器系統(tǒng)被配置用于:
[0066]在上下文中確定對(duì)每個(gè)所述數(shù)據(jù)塊的引用;
[0067]對(duì)所述上下文中的多次所述引用的總數(shù)與百分比閾值進(jìn)行比較;以及
[0068]在所述百分比閾值被超過(guò)的情況下存儲(chǔ)所述上下文的所有所述數(shù)據(jù)塊。
[0069]在本發(fā)明的弟九方面,現(xiàn)在提供一種系統(tǒng),該系統(tǒng)包括:[0070]至少一個(gè)數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器,配置用于向至少一個(gè)數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)數(shù)據(jù);以及
[0071]處理器系統(tǒng),配置用于經(jīng)由所述至少一個(gè)數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器向多個(gè)獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)備份經(jīng)重復(fù)消除的數(shù)據(jù),所述經(jīng)重復(fù)消除的數(shù)據(jù)包括為了重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊,所述處理器系統(tǒng)被配置用于:
[0072]確定在上下文中對(duì)每個(gè)所述數(shù)據(jù)塊的引用的數(shù)據(jù)的量;
[0073]對(duì)所述上下文的數(shù)據(jù)的量與百分比閾值進(jìn)行比較;以及
[0074]在所述百分比閾值被超過(guò)的情況下存儲(chǔ)所述上下文的所有所述數(shù)據(jù)塊。
[0075]在本發(fā)明的第十方面,現(xiàn)在提供一種系統(tǒng),該系統(tǒng)包括:
[0076]至少一個(gè)數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器,配置用于向至少一個(gè)數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)數(shù)據(jù);以及
[0077]處理器系統(tǒng),配置用于經(jīng)由所述至少一個(gè)數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)其向多個(gè)獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)備份經(jīng)重復(fù)消除的數(shù)據(jù),所述經(jīng)重復(fù)消除的數(shù)據(jù)包括為了重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊,所述處理器系統(tǒng)被配置用于:
[0078]確定對(duì)每個(gè)所述數(shù)據(jù)塊的引用;
[0079]對(duì)所述引用與第一閾值進(jìn)行比較;
[0080]對(duì)所述引用與第二閾值進(jìn)行比較;
[0081]在所述第一閾值被超過(guò)的情況下向所述獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)至少每個(gè)所述數(shù)據(jù)塊的第二拷貝;以及
[0082]在所述第二閾值被超過(guò)的情況下向至少每個(gè)所述數(shù)據(jù)塊的所述獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)所述第二拷貝以及附加拷貝。
[0083]為了更充分地理解本發(fā)明,應(yīng)當(dāng)參照結(jié)合附圖進(jìn)行的以下詳細(xì)描述。
【專利附圖】
【附圖說(shuō)明】
[0084]圖1是根據(jù)本發(fā)明的實(shí)施方式的數(shù)據(jù)重復(fù)消除源以及用于備份經(jīng)重復(fù)消除的數(shù)據(jù)的系統(tǒng)的示意框圖;
[0085]圖2是描繪用于備份經(jīng)重復(fù)消除的數(shù)據(jù)的本發(fā)明的實(shí)施方式的流程圖;
[0086]圖3是描繪用于備份經(jīng)重復(fù)消除的數(shù)據(jù)的本發(fā)明的實(shí)施方式的流程圖;
[0087]圖4A、圖4B和圖4C是圖示經(jīng)重復(fù)消除的數(shù)據(jù)和備份經(jīng)重復(fù)消除的數(shù)據(jù)的示圖;
[0088]圖5是圖示經(jīng)重復(fù)消除的數(shù)據(jù)的屬性的圖;
[0089]圖6A和圖6B是圖示根據(jù)本發(fā)明的備份經(jīng)重復(fù)消除的數(shù)據(jù)的實(shí)施方式的示圖;
[0090]圖7A和圖7B是圖示根據(jù)本發(fā)明的備份經(jīng)重復(fù)消除的數(shù)據(jù)的實(shí)施方式的示圖;
[0091]圖8A和圖SB是圖示根據(jù)本發(fā)明的備份經(jīng)重復(fù)消除的數(shù)據(jù)的實(shí)施方式的示圖;
[0092]圖9A和圖9B是圖示經(jīng)重復(fù)消除的數(shù)據(jù)和備份經(jīng)重復(fù)消除的數(shù)據(jù)的實(shí)施方式的示圖;
[0093]圖1OA和圖1OB是圖示根據(jù)本發(fā)明的備份經(jīng)重復(fù)消除的數(shù)據(jù)的實(shí)施方式的示圖;
[0094]圖11是描繪圖1的示例性處理器系統(tǒng)的框圖;
[0095]圖12A和圖12B是圖1的數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器的前等距圖和后等距圖;以及
[0096]圖13是圖1的數(shù)據(jù)存儲(chǔ)介質(zhì)盒的等距圖。
【具體實(shí)施方式】[0097]參照其中相似標(biāo)號(hào)表示相同或者相似單元的附圖在以下描述中在優(yōu)選實(shí)施方式中描述本發(fā)明。盡管按照用于實(shí)現(xiàn)本發(fā)明的目的最佳模式描述本發(fā)明,但是本領(lǐng)域技術(shù)人員將領(lǐng)會(huì)可以按照這些教示實(shí)現(xiàn)變化而不背離本發(fā)明的精神或范圍。
[0098]參照?qǐng)D1,系統(tǒng)100被配置用于從數(shù)據(jù)重復(fù)消除源103接收或者獲得經(jīng)重復(fù)消除的數(shù)據(jù)。數(shù)據(jù)重復(fù)消除源可以包括任何適當(dāng)類型的主機(jī)系統(tǒng)或者儲(chǔ)存庫(kù),該主機(jī)系統(tǒng)或者儲(chǔ)存庫(kù)生成或者提供如下經(jīng)重復(fù)消除的虛擬卷,這些虛擬卷如上文討論的那樣可以包括唯一的數(shù)據(jù)塊與或者是第一拷貝或者指向第一拷貝的指針的數(shù)據(jù)塊的組合。根據(jù)重復(fù)消除選擇和技術(shù),數(shù)據(jù)塊可以尺寸相同或者相似或者可以包括各種尺寸。主機(jī)系統(tǒng)或者儲(chǔ)存庫(kù)103的示例包括能夠與其他設(shè)備通信的用戶計(jì)算機(jī)系統(tǒng)、應(yīng)用服務(wù)器、存儲(chǔ)服務(wù)器等。
[0099]系統(tǒng)100包括能夠通過(guò)一個(gè)或者多個(gè)通信鏈路106進(jìn)行與數(shù)據(jù)重復(fù)消除源103有關(guān)的通信的處理器系統(tǒng)105。處理器系統(tǒng)105包括如此后討論的一個(gè)或多個(gè)處理器以及相關(guān)聯(lián)的系統(tǒng)、設(shè)備或元件,用于處理經(jīng)重復(fù)消除的數(shù)據(jù),以及例如通過(guò)數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器112而使數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)介質(zhì)110上。在一個(gè)示例中,在自動(dòng)化數(shù)據(jù)存儲(chǔ)庫(kù)中每次一個(gè)地向單個(gè)數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器112提供或者基本上同時(shí)向多個(gè)數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器或者以二者的組合方式提供數(shù)據(jù)存儲(chǔ)介質(zhì)110。備選地,數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器112可以是獨(dú)立的或者是系統(tǒng)(諸如架式系統(tǒng))的一部分,并且使用自動(dòng)或者人工加載以在數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器中放置數(shù)據(jù)存儲(chǔ)介質(zhì)110。
[0100]數(shù)據(jù)存儲(chǔ)介質(zhì)110可以包括在其上可以存儲(chǔ)數(shù)據(jù)的任何類型的介質(zhì)(包括但不限于磁介質(zhì)(諸如磁帶或者磁盤(pán))、光介質(zhì)(諸如光帶或者光盤(pán))、電介質(zhì)(諸如PR0M、EEPR0M、快速 PROM、CompactFlash TM、Smartmedia TM、Memory Stick TM 等)或者其他適合的介質(zhì))。例如在用于海量數(shù)據(jù)存儲(chǔ)的自動(dòng)化數(shù)據(jù)存儲(chǔ)庫(kù)中廣泛使用的可拆卸介質(zhì)的示例是在其中介質(zhì)為磁帶的磁帶盒。
[0101]數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器112適合于向數(shù)據(jù)存儲(chǔ)介質(zhì)110存儲(chǔ)數(shù)據(jù)和從數(shù)據(jù)存儲(chǔ)介質(zhì)110獲取數(shù)據(jù),并且可以是與介質(zhì)獨(dú)立的單元或者可以是與介質(zhì)通用的單元。獨(dú)立單元的示例包括磁帶驅(qū)動(dòng)和可拆卸磁帶盒,通用單元的示例包括可拆卸硬盤(pán)驅(qū)動(dòng)器。
[0102]如上文討論的那樣,數(shù)據(jù)重復(fù)消除包括各種用于減少存儲(chǔ)在儲(chǔ)存庫(kù)中的相同數(shù)據(jù)的量的技術(shù)。數(shù)據(jù)重復(fù)消除的最終結(jié)果是:對(duì)于相同的數(shù)據(jù)部分,將該數(shù)據(jù)部分的一個(gè)拷貝存儲(chǔ)為第一部分,而將其他拷貝替換為指向第一拷貝的指針。
[0103]在此,用于給定的數(shù)據(jù)部分的每個(gè)第一拷貝和指向第一拷貝的每個(gè)任何指針被稱為用于該數(shù)據(jù)重復(fù)消除的“引用”。數(shù)據(jù)的唯一部分(無(wú)相同拷貝)也被稱為用于該數(shù)據(jù)的“引用”,但是將是單次引用。
[0104]因此,經(jīng)重復(fù)消除的虛擬卷可以包括唯一的數(shù)據(jù)塊與或者是第一拷貝或者指向第一拷貝的指針的數(shù)據(jù)塊的組合。依賴于用來(lái)創(chuàng)建重復(fù)消除技術(shù),數(shù)據(jù)塊可以是一致的或者可變的尺寸。
[0105]經(jīng)重復(fù)消除的數(shù)據(jù)可以被存儲(chǔ)在儲(chǔ)存庫(kù)中并且可以被視為“被備份”,但是儲(chǔ)存庫(kù)不可能保持覆蓋延長(zhǎng)時(shí)段的數(shù)據(jù)流的整個(gè)連續(xù)體。作為替代,數(shù)據(jù)流例如向海量數(shù)據(jù)儲(chǔ)存器(諸如磁帶庫(kù))或者向磁帶系統(tǒng)偶爾或者定期自行備份。
[0106]對(duì)于被備份的數(shù)據(jù)(包括重復(fù)消除的數(shù)據(jù))來(lái)說(shuō)也存在著丟失的風(fēng)險(xiǎn),盡管這種風(fēng)險(xiǎn)通常較小。如果向諸如可拆卸介質(zhì)的多個(gè)數(shù)據(jù)存儲(chǔ)介質(zhì)備份數(shù)據(jù),則該風(fēng)險(xiǎn)通常被限制在個(gè)別數(shù)據(jù)存儲(chǔ)介質(zhì)。如果重復(fù)消除的數(shù)據(jù)在未被重建的情況下存儲(chǔ),則例如包含一條實(shí)際數(shù)據(jù)(在數(shù)據(jù)流的所有其余部分內(nèi)的對(duì)象指向該條數(shù)據(jù))的單個(gè)數(shù)據(jù)存儲(chǔ)介質(zhì)的丟失有可能妨礙那些對(duì)象的重建,從而實(shí)質(zhì)上妨礙整個(gè)數(shù)據(jù)流的重建。
[0107]參照?qǐng)D1和圖2,其呈現(xiàn)用于備份經(jīng)重復(fù)消除的數(shù)據(jù)而不重建該數(shù)據(jù)、并且例如在丟失個(gè)別數(shù)據(jù)存儲(chǔ)介質(zhì)的一些或者所有該數(shù)據(jù)時(shí)具有減小的丟失可能性的本發(fā)明實(shí)施方式。
[0108]在一個(gè)實(shí)施方式中,步驟120、123和125 —起包括確定存在對(duì)從數(shù)據(jù)重復(fù)消除源103接收的數(shù)據(jù)流的每個(gè)數(shù)據(jù)塊的多次引用的單個(gè)步驟。如果僅存在單次引用,則數(shù)據(jù)塊是特定于數(shù)據(jù)流的,并且在步驟130中存儲(chǔ)數(shù)據(jù)塊的單個(gè)拷貝。然而,如果存在對(duì)數(shù)據(jù)塊的多次引用,則在一些可選步驟之后,例如在步驟135中,存儲(chǔ)具有對(duì)其的多次引用的至少每個(gè)數(shù)據(jù)塊的至少兩個(gè)拷貝,并且每個(gè)拷貝被存儲(chǔ)到獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)110。
[0109]此外,參照?qǐng)D4A、圖4B和圖4C,圖4A圖示了在卷145中布置的示例性數(shù)據(jù)流140的表示。該表示可以是原始數(shù)據(jù)流在重復(fù)消除之前的表示。備選地,該表示可以是用于數(shù)據(jù)流的引用的表示。在該示例中,數(shù)據(jù)流140包括對(duì)56個(gè)數(shù)據(jù)塊147(其中許多為重復(fù)數(shù)據(jù)塊)的引用總數(shù)。圖4B表示組成數(shù)據(jù)流140 (包括15個(gè)數(shù)據(jù)塊)的每個(gè)數(shù)據(jù)塊149的單個(gè)拷貝。圖4A也可以表示經(jīng)重復(fù)消除的數(shù)據(jù)流,其中每個(gè)數(shù)據(jù)塊147是對(duì)拷貝149之一的引用。
[0110]如果向磁帶寫(xiě)入每個(gè)數(shù)據(jù)塊149的單個(gè)拷貝,則磁帶可以表現(xiàn)為圖4C的磁帶150。
[0111]參照?qǐng)D1、圖2、圖4A和圖5,在步驟120中,處理器系統(tǒng)105確定對(duì)每個(gè)數(shù)據(jù)塊的引用。在圖5中,列表155表示如下步驟120,其中列舉數(shù)據(jù)塊149并且也列舉來(lái)自步驟120的對(duì)每個(gè)數(shù)據(jù)塊的引用次數(shù)158。
[0112]在一個(gè)實(shí)施方式中,引用次數(shù)160不包括相同卷145中的多個(gè)相同引用147這樣的引用。作為替代,將多次引用計(jì)數(shù)為一次引用。
[0113]在另一實(shí)施方式中,引用次數(shù)163包括相同卷145中的多個(gè)相同引用147這樣的引用。
[0114]此外,參照?qǐng)D6A和6B,表示步驟123和步驟125,這些步驟包括比較引用與引用閾值以及是否超過(guò)閾值。針對(duì)每個(gè)數(shù)據(jù)塊149確定引用次數(shù)147,并且在不包括相同卷中的多次引用的針對(duì)引用的列160中圖示該次數(shù),而且在包括相同卷中的多次引用的針對(duì)引用的列163中圖示該次數(shù)。例如,塊D在卷000中被引用一次、在卷002中被引用三次、在卷004中被引用兩次并且在卷005中被引用一次。因此,在步驟120中針對(duì)塊D確定的引用在每卷計(jì)數(shù)一次的列160中為4次,而在對(duì)每次引用進(jìn)行計(jì)數(shù)的列163中為7次。
[0115]可以在步驟170中設(shè)置步驟123 (在可選步驟中)的閾值。具有最小風(fēng)險(xiǎn)的閾值為“I”(這意味著任何時(shí)候均超過(guò)閾值)、“2”或者更大,向數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)數(shù)據(jù)塊的至少兩個(gè)拷貝(向獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)每個(gè)拷貝)。因此,如果在數(shù)據(jù)存儲(chǔ)介質(zhì)之一上的數(shù)據(jù)變?yōu)楸皇軗p等,則卷145之一可能會(huì)丟失,但是另一拷貝可用于確保其他卷保持完整。例如,圖6A表示包括11個(gè)數(shù)據(jù)塊的每個(gè)如下數(shù)據(jù)塊149的第二拷貝173,這些數(shù)據(jù)塊的引用超過(guò)步驟123和步驟125的閾值“I” (不包括相同卷中的多次引用)。在步驟135中獲得的合成數(shù)據(jù)存儲(chǔ)介質(zhì)在圖6B中圖示為數(shù)據(jù)存儲(chǔ)介質(zhì)175,其中存儲(chǔ)所有數(shù)據(jù)塊149的第一組拷貝,繼而為具有相同卷以外的多次引用的所有數(shù)據(jù)塊173的一組第二拷貝。[0116]在基于風(fēng)險(xiǎn)的方式中,步驟170可以例如由用戶用來(lái)通過(guò)設(shè)置更高次數(shù)來(lái)減少數(shù)據(jù)存儲(chǔ)介質(zhì)的數(shù)目。該風(fēng)險(xiǎn)在于單個(gè)數(shù)據(jù)存儲(chǔ)介質(zhì)的丟失可能影響多個(gè)卷。下文將討論示例。
[0117]此外,參照?qǐng)D7A和圖7B,表示步驟123和步驟125,這些步驟包括比較引用與引用閾值以及是否超過(guò)閾值,其中對(duì)包括卷內(nèi)多次引用的每次引用進(jìn)行計(jì)數(shù)。針對(duì)每個(gè)數(shù)據(jù)塊149確定引用次數(shù)147,并且在包括相同卷中的多次引用的針對(duì)引用的列163中圖示該次數(shù)。例如,塊M在卷005145中被引用兩次而在任何其他卷中未被引用。因此,在步驟120中針對(duì)塊M確定的引用在每卷計(jì)數(shù)一次的列160中為I次,而在對(duì)每次引用進(jìn)行計(jì)數(shù)的列163中為2次。
[0118]因此,在步驟123的閾值為“I”時(shí),如果不包括多次引用則未超過(guò)閾值,但是如果對(duì)每次引用進(jìn)行計(jì)數(shù)則超過(guò)閾值。圖7A表示包括12個(gè)數(shù)據(jù)塊(現(xiàn)在包括數(shù)據(jù)塊M)的每個(gè)如下數(shù)據(jù)塊149的第二拷貝180,這些數(shù)據(jù)塊的引用超過(guò)步驟123的閾值“I”(包括相同卷中的多次引用)。在步驟135中獲得的合成數(shù)據(jù)存儲(chǔ)介質(zhì)在圖7B中圖示為數(shù)據(jù)存儲(chǔ)介質(zhì)185,其中存儲(chǔ)所有數(shù)據(jù)塊149的第一組拷貝,繼而為具有多次完全引用的所有數(shù)據(jù)塊180的一組第二拷貝。
[0119]在備選實(shí)施方式中,參照?qǐng)D1、圖3、圖4A、圖8A和圖8B,在步驟220中,處理器系統(tǒng)105確定例如上下文中對(duì)每個(gè)數(shù)據(jù)塊的引用。在一個(gè)實(shí)施方式中,上下文為卷145。在另一實(shí)施方式中,上下文為整個(gè)數(shù)據(jù)流。在步驟223和步驟225中,比較上下文中的多次引用總數(shù)與百分比閾值。在一個(gè)不例中,閾值可以是數(shù)據(jù)塊的50%。在圖8A中,列表255代表如下步驟220,其中列舉所用上下文(例如卷245)并且也列舉來(lái)自步驟220的在每個(gè)卷的上下文中對(duì)數(shù)據(jù)塊的多次引用的次數(shù)258。
[0120]a.例如,使用百分比閾值50%,僅卷002具有超過(guò)閾值的多次引用總數(shù),如圖4A的147中所示,其中對(duì)于共計(jì)八次引用之中的共計(jì)五次而言,有對(duì)數(shù)據(jù)塊D的三次引用和對(duì)數(shù)據(jù)塊L的兩次引用。
[0121]根據(jù)一個(gè)實(shí)施方式,與重建上下文的數(shù)據(jù)相比,如果在步驟260中向數(shù)據(jù)存儲(chǔ)介質(zhì)直接復(fù)制整個(gè)數(shù)據(jù)上下文,則數(shù)據(jù)的潛在恢復(fù)將容易和快得多。步驟260包括存儲(chǔ)上下文的所有數(shù)據(jù)塊。
[0122]圖8B表示數(shù)據(jù)存儲(chǔ)介質(zhì)273,其中卷002的上下文的所有數(shù)據(jù)塊的直接拷貝278存儲(chǔ)在“磁帶5”中和“磁帶6”中。步驟225指示其他卷未超過(guò)閾值,并且在步驟280隨需存儲(chǔ)其拷貝。在一個(gè)示例中,根據(jù)圖2的實(shí)施方式之一處理用于其余卷的拷貝。在一個(gè)示例中,在步驟135中獲得的合成數(shù)據(jù)存儲(chǔ)介質(zhì)在圖SB中圖示為數(shù)據(jù)存儲(chǔ)介質(zhì)285,其中所有數(shù)據(jù)塊149的第一組拷貝被存儲(chǔ),其后是除具有相同卷外部的多次引用的存儲(chǔ)在介質(zhì)278中的數(shù)據(jù)塊之外的所有數(shù)據(jù)塊173的存儲(chǔ)在數(shù)據(jù)存儲(chǔ)介質(zhì)287上的第二拷貝的組。
[0123]在另一實(shí)施方式中,百分比閾值上下文可以包括圖4A的整個(gè)數(shù)據(jù)流147,并且百分比可以使得對(duì)數(shù)據(jù)的多次引用的很大百分比被采用。在被超過(guò)時(shí),閾值將要求存儲(chǔ)整個(gè)數(shù)據(jù)流。
[0124]備選的百分比閾值可以包括諸如數(shù)據(jù)卷或者數(shù)據(jù)流的上下文的經(jīng)重復(fù)消除的數(shù)據(jù)的數(shù)量百分比。附加地,參照?qǐng)D9A和圖9B,將數(shù)據(jù)流290的卷001圖示為具有異常數(shù)據(jù)量的塊J。例如,該塊可以包括如在步驟220中確定的卷數(shù)量的35%以上。[0125]在步驟223和步驟225中,比較上下文中的個(gè)別引用的數(shù)據(jù)總量與百分比閾值。在一個(gè)示例中,該閾值可以是上下文的數(shù)據(jù)的量的30%。在圖9A中,使用百分比閾值30%,卷001具有數(shù)據(jù)的量超過(guò)閾值的塊。根據(jù)一個(gè)實(shí)施方式,與重建上下文的數(shù)據(jù)相比,如果在步驟260中向數(shù)據(jù)存儲(chǔ)介質(zhì)直接復(fù)制整個(gè)數(shù)據(jù)上下文,則數(shù)據(jù)的潛在恢復(fù)將容易和快得多。步驟260包括向數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)上下文的所有數(shù)據(jù)塊。
[0126]圖9B表示數(shù)據(jù)存儲(chǔ)介質(zhì)293,其中卷001的上下文的所有數(shù)據(jù)塊的直接拷貝298存儲(chǔ)在“磁帶5”中和“磁帶6”中。步驟225指示其他卷未超過(guò)閾值,并且在步驟280中隨需存儲(chǔ)其拷貝。在一個(gè)示例中,根據(jù)圖2的實(shí)施方式之一處理用于其余卷的拷貝。在一個(gè)示例中,在圖9B中將在步驟135中獲得的合成數(shù)據(jù)存儲(chǔ)介質(zhì)圖示為數(shù)據(jù)存儲(chǔ)介質(zhì)285,其中存儲(chǔ)所有數(shù)據(jù)塊的第一組拷貝,其后是具有相同卷外部的多次引用的除了存儲(chǔ)在介質(zhì)298中的數(shù)據(jù)塊之外的所有數(shù)據(jù)塊290的存儲(chǔ)在數(shù)據(jù)存儲(chǔ)介質(zhì)299上的第二拷貝的組。
[0127]參照?qǐng)D1、圖2、圖5、圖1OA和圖10B,可以在一個(gè)實(shí)施方式中使用兩個(gè)閾值。超過(guò)步驟125的第一閾值可以導(dǎo)致步驟305,在此比較引用與第二閾值。在一個(gè)實(shí)施方式中,超過(guò)第一閾值可以涉及步驟135,在此存儲(chǔ)塊的第二拷貝,并且向與第一拷貝獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)第二拷貝。在步驟310中超過(guò)第二閾值可以導(dǎo)致步驟325,仍然向獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)塊的附加拷貝。在圖5中,一個(gè)示例中的第一閾值可以包括“1”,并且通過(guò)具有對(duì)數(shù)據(jù)塊的多次引用而超過(guò)閾值,從而使得將存儲(chǔ)具有對(duì)其的多次引用的至少每個(gè)數(shù)據(jù)塊的至少兩個(gè)拷貝。用于步驟305和步驟310的閾值可以例如包括“4”,從而僅在存在對(duì)數(shù)據(jù)塊的五次或者更多引用(不包括卷內(nèi)的多次引用)時(shí)超過(guò)閾值。
[0128]在圖1OA中,例如塊A和塊B是具有超過(guò)閾值的引用次數(shù)的僅有塊,并且在步驟325中,如圖1OB的介質(zhì)330的數(shù)據(jù)存儲(chǔ)介質(zhì)328所示,向仍然獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)110存儲(chǔ)每個(gè)拷貝。
[0129]第一閾值和第二閾值可以包括按照任何順序的在此討論的任何閾值。
[0130]圖1OA也圖示例如可以由用戶在圖2的步驟170中選擇的基于風(fēng)險(xiǎn)的閾值。
[0131]就基于風(fēng)險(xiǎn)的閾值而言,該閾值大于“I”意味著僅向數(shù)據(jù)存儲(chǔ)介質(zhì)存儲(chǔ)被引用多次,但是等于或者少于閾值的每個(gè)數(shù)據(jù)塊的單個(gè)拷貝。因此,如果在數(shù)據(jù)存儲(chǔ)介質(zhì)之一上的數(shù)據(jù)變?yōu)楸粨p壞等,則有可能的是卷145的多個(gè)可能丟失,因?yàn)闊o(wú)其他拷貝可用于確保其他卷保持完整。例如,圖1OA表示僅有的塊A和塊B,其中存在其引用超過(guò)步驟123和步驟125的“4”閾值這一示例性閾值(不包括相同卷中的多次引用)的每個(gè)數(shù)據(jù)塊149的第二拷貝173。
[0132]基于風(fēng)險(xiǎn)的方式可能需要明顯更少的數(shù)據(jù)存儲(chǔ)介質(zhì)并且減少成本。權(quán)衡減少的成本與單個(gè)數(shù)據(jù)存儲(chǔ)介質(zhì)的丟失可能影向多卷的風(fēng)險(xiǎn)可能在一些情況中是值得的。
[0133]參照?qǐng)D1和圖11,處理器系統(tǒng)可以采用許多不同形式,并且可以例如包括但不限于嵌入式系統(tǒng)、分布式控制系統(tǒng)、個(gè)人計(jì)算機(jī)或者工作站。實(shí)質(zhì)上,如在此所用術(shù)語(yǔ)“處理器系統(tǒng)”在它的最廣泛意義上意指如此類術(shù)語(yǔ)在此定義的包含至少一個(gè)處理器的設(shè)備。圖11示出了處理器系統(tǒng)105的示例,該處理器系統(tǒng)105具有處理器402、RAM(隨機(jī)存取存儲(chǔ)器)403、非易失性存儲(chǔ)器404和I/O接口 405。在一些實(shí)施方式中,處理器系統(tǒng)105還可以包括設(shè)備特定的電路401。備選地,RAM403和/或非易失性存儲(chǔ)器404可以如設(shè)備特定的電路401和I/O接口 405可以的那樣包含在處理器402中。處理器402可以例如包括現(xiàn)貨供應(yīng)的微處理器、定制處理器、FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)、ASIC(專用集成電路)、離散邏輯等。RAM(隨機(jī)存取存儲(chǔ)器)403通常用來(lái)保持變量數(shù)據(jù)、堆棧數(shù)據(jù)、可執(zhí)行指令等。非易失性存儲(chǔ)器404可以包括任何類型的非易失性存儲(chǔ)器(諸如但不限于EEPROM(電可擦除可編程只讀存儲(chǔ)器)、快速PROM(可編程只讀存儲(chǔ)器)、電池備用RAM和硬盤(pán)驅(qū)動(dòng))。非易失性存儲(chǔ)器404通常用來(lái)保持可執(zhí)行固件和任何非易失性數(shù)據(jù)。I/O接口 405包括允許處理器402與處理器系統(tǒng)外部的設(shè)備通信的通信接口。示例可以包括但不限于諸如RS-232之類的串行接口、USB (通用串行總線)或者SCSI (小型計(jì)算機(jī)系統(tǒng)接口)。設(shè)備特定的電路401提供支持處理器系統(tǒng)105執(zhí)行特定的功能(諸如但不限于操作自動(dòng)化數(shù)據(jù)存儲(chǔ)庫(kù)的單元)的附加硬件。設(shè)備特定的電路401可以包括如下電子器件,這些電子器件提供例如但不限于,脈寬調(diào)制(PWM)控制、模數(shù)轉(zhuǎn)換(ADC)、數(shù)模轉(zhuǎn)換(DAC)等。此外,設(shè)備特定的電路401的全部或者部分可以駐留在處理器系統(tǒng)105之外。
[0134]圖12A和圖12B圖示了數(shù)據(jù)存儲(chǔ)設(shè)備112的前面501和后面502的一個(gè)實(shí)施方式。在該示例中,數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器包括磁帶驅(qū)動(dòng)器。這僅為示例而并非意味著將本發(fā)明限制到磁帶驅(qū)動(dòng)器。備選數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)112的示例可以包括光盤(pán)驅(qū)動(dòng)器、熱交換磁盤(pán)驅(qū)動(dòng)器、軟盤(pán)驅(qū)動(dòng)器等。在該示例中,磁帶數(shù)據(jù)存儲(chǔ)盒可以在開(kāi)口 503處放入數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器112中。數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器被用來(lái)讀取和/或?qū)懭肱c數(shù)據(jù)存儲(chǔ)介質(zhì)110有關(guān)的數(shù)據(jù),并且附加地與處理器系統(tǒng)105通信。數(shù)據(jù)存儲(chǔ)驅(qū)動(dòng)器附加地可以與如下存儲(chǔ)器通信,該存儲(chǔ)器與介質(zhì)獨(dú)立并且位于盒內(nèi)。
[0135]圖13圖示了諸如數(shù)據(jù)存儲(chǔ)盒之類的數(shù)據(jù)存儲(chǔ)介質(zhì)110的一個(gè)實(shí)施方式。數(shù)據(jù)存儲(chǔ)盒的介質(zhì)可以包括在其上可以存儲(chǔ)數(shù)據(jù)的任何類型介質(zhì),包括但不限于:磁介質(zhì)(諸如磁帶或者磁盤(pán))、光介質(zhì)(諸如光帶或者光盤(pán))、電子介質(zhì)(諸如PROM、EEPR0M、快速PR0M、CompactFlash?、Memory Stick?等或者其他適合的介質(zhì)。在用于海量數(shù)據(jù)存儲(chǔ)的自動(dòng)化數(shù)據(jù)存儲(chǔ)庫(kù)中使用的數(shù)據(jù)存儲(chǔ)介質(zhì)的示例是磁帶盒的磁帶介質(zhì)620。磁帶盒也可以包括與磁帶介質(zhì)620獨(dú)立的盒存儲(chǔ)器610。盒存儲(chǔ)器通常存儲(chǔ)關(guān)于該盒的信息,并且該信息可以包括該盒正在存儲(chǔ)經(jīng)重復(fù)消除的數(shù)據(jù)。
[0136]本發(fā)明可以包括采用計(jì)算機(jī)可用或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)形式的計(jì)算機(jī)程序產(chǎn)品,該介質(zhì)提供用于由計(jì)算機(jī)或者任何指令執(zhí)行系統(tǒng)使用或者與計(jì)算機(jī)或者任何指令執(zhí)行系統(tǒng)結(jié)合使用的程序代碼。該介質(zhì)可以是電子、磁、光、電磁、紅外線或者半導(dǎo)體系統(tǒng)(或者裝置或者設(shè)備)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的示例包括半導(dǎo)體或者固態(tài)存儲(chǔ)器、磁帶、可拆卸計(jì)算機(jī)軟盤(pán)和隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、剛性磁盤(pán)和光盤(pán)。光盤(pán)的當(dāng)前示例包括光盤(pán)-只讀存儲(chǔ)器(CD-ROM)、光盤(pán)-讀/寫(xiě)(CD-R/W)和DVD。
[0137]本領(lǐng)域技術(shù)人員將理解可以關(guān)于上文討論的方法進(jìn)行改變(包括對(duì)步驟順序的改變)。另外,本領(lǐng)域技術(shù)人員將理解可以使用與這里說(shuō)明的具體組件布置不同的具體組件布置。
[0138]盡管已經(jīng)詳細(xì)說(shuō)明了本發(fā)明的優(yōu)選實(shí)施方式,但是應(yīng)當(dāng)清楚本領(lǐng)域技術(shù)人員可以想到并未脫離本發(fā)明范圍的對(duì)那些實(shí)施方式的修改和適應(yīng)。
【權(quán)利要求】
1.一種用于由處理系統(tǒng)執(zhí)行的從經(jīng)重復(fù)消除的數(shù)據(jù)源備份經(jīng)重復(fù)消除的數(shù)據(jù)的方法,所述經(jīng)重復(fù)消除的數(shù)據(jù)包括為了重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊,包括: 確定在上下文中對(duì)每個(gè)所述數(shù)據(jù)塊的引用的步驟,其中所述確定步驟包括對(duì)所述上下文中的相關(guān)信息與百分比閾值進(jìn)行比較的步驟;以及 根據(jù)所述確定步驟而存儲(chǔ)每個(gè)所述數(shù)據(jù)塊的至少一個(gè)拷貝的步驟,其中所述存儲(chǔ)步驟包括在所述百分比閾值被超過(guò)的情況下存儲(chǔ)所述上下文的所有所述數(shù)據(jù)塊的步驟。
2.根據(jù)權(quán)利要求1所述的方法,其中所述存儲(chǔ)步驟包括存儲(chǔ)具有對(duì)其的多次引用的至少每個(gè)所述數(shù)據(jù)塊的至少兩個(gè)拷貝,其中所述數(shù)據(jù)塊的每個(gè)拷貝被存儲(chǔ)到獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)。
3.根據(jù)權(quán)利要求1所述的方法,其中所述上下文中的相關(guān)信息為上下文中的多次所述引用的總數(shù)。
4.根據(jù)權(quán)利要求3所述的方法,其中所述經(jīng)重復(fù)消除的數(shù)據(jù)被布置在數(shù)據(jù)卷中,至少一個(gè)所述數(shù)據(jù)卷包括多個(gè)所述數(shù)據(jù)塊;其中所述百分比閾值包括具有對(duì)數(shù)據(jù)塊的多次引用的卷的數(shù)據(jù)的百分比;并且其中所述存儲(chǔ)步驟包括存儲(chǔ)所述卷的所有所述數(shù)據(jù)塊。
5.根據(jù)權(quán)利要求4所述的方法,其中所述百分比閾值包括所述卷的所述數(shù)據(jù)塊的數(shù)目的百分比。
6.根據(jù)權(quán)利要求3所述的方法,其中所述經(jīng)重復(fù)消除的數(shù)據(jù)包括限定的數(shù)據(jù)流,所述數(shù)據(jù)流包括多個(gè)數(shù)據(jù)卷;其中所述百分比閾值包括具有對(duì)數(shù)據(jù)塊的多次引用的所述數(shù)據(jù)流的數(shù)據(jù)的百分比;并且其中所述存儲(chǔ)步驟包括存儲(chǔ)所述數(shù)據(jù)流的所有所述數(shù)據(jù)。
7.根據(jù)權(quán)利要求1所述的方法,其中所述上下文中的相關(guān)信息為上下文的數(shù)據(jù)的量。`
8.根據(jù)權(quán)利要求7所述的方法,其中所述經(jīng)重復(fù)消除的數(shù)據(jù)被布置在數(shù)據(jù)卷中;其中所述百分比閾值包括卷的數(shù)據(jù)的量的百分比;并且其中所述存儲(chǔ)步驟包括存儲(chǔ)所述卷的所有所述數(shù)據(jù)塊。
9.根據(jù)權(quán)利要求7所述的方法,其中所述經(jīng)重復(fù)消除的數(shù)據(jù)包括限定的數(shù)據(jù)流,所述數(shù)據(jù)流包括多個(gè)數(shù)據(jù)卷;其中所述百分比閾值包括所述數(shù)據(jù)流的經(jīng)重復(fù)消除的數(shù)據(jù)的量的百分比;并且所述存儲(chǔ)步驟包括存儲(chǔ)所述數(shù)據(jù)流的所有所述數(shù)據(jù)。
10.一種用于由處理系統(tǒng)執(zhí)行的從經(jīng)重復(fù)消除的數(shù)據(jù)源備份經(jīng)重復(fù)消除的數(shù)據(jù)的系統(tǒng),所述經(jīng)重復(fù)消除的數(shù)據(jù)包括為了重復(fù)消除而被引用的多個(gè)數(shù)據(jù)塊,包括: 用于確定在上下文中對(duì)每個(gè)所述數(shù)據(jù)塊的引用的裝置,其中所述確定裝置包括對(duì)所述上下文中的相關(guān)信息與百分比閾值進(jìn)行比較的裝置;以及 用于根據(jù)所述確定裝置的確定而存儲(chǔ)每個(gè)所述數(shù)據(jù)塊的至少一個(gè)拷貝的裝置,其中所述存儲(chǔ)裝置包括用于在所述百分比閾值被超過(guò)的情況下存儲(chǔ)所述上下文的所有所述數(shù)據(jù)塊的裝置。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其中所述存儲(chǔ)裝置包括用于存儲(chǔ)具有對(duì)其的多次引用的至少每個(gè)所述數(shù)據(jù)塊的至少兩個(gè)拷貝的裝置,其中所述數(shù)據(jù)塊的每個(gè)拷貝被存儲(chǔ)到獨(dú)立的數(shù)據(jù)存儲(chǔ)介質(zhì)。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中所述上下文中的相關(guān)信息為上下文中的多次所述引用的總數(shù)。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述經(jīng)重復(fù)消除的數(shù)據(jù)被布置在數(shù)據(jù)卷中,至少一個(gè)所述數(shù)據(jù)卷包括多個(gè)所述數(shù)據(jù)塊;其中所述百分比閾值包括具有對(duì)數(shù)據(jù)塊的多次引用的卷的數(shù)據(jù)的百分比;并且其中所述存儲(chǔ)裝置包括存儲(chǔ)所述卷的所有所述數(shù)據(jù)塊。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中所述百分比閾值包括所述卷的所述數(shù)據(jù)塊的數(shù)目的百分比。
15.根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述經(jīng)重復(fù)消除的數(shù)據(jù)包括限定的數(shù)據(jù)流,所述數(shù)據(jù)流包括多個(gè)數(shù)據(jù)卷;其中所述百分比閾值包括具有對(duì)數(shù)據(jù)塊的多次引用的所述數(shù)據(jù)流的數(shù)據(jù)的百分比;并且其中所述存儲(chǔ)裝置包括存儲(chǔ)所述數(shù)據(jù)流的所有所述數(shù)據(jù)。
16.根據(jù)權(quán)利要求10所述的系統(tǒng),其中所述上下文中的相關(guān)信息為上下文的數(shù)據(jù)的量。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其中所述經(jīng)重復(fù)消除的數(shù)據(jù)被布置在數(shù)據(jù)卷中;其中所述百分比閾值包括卷的數(shù)據(jù)的量的百分比;并且其中所述存儲(chǔ)裝置包括存儲(chǔ)所述卷的所有所述數(shù)據(jù)塊。
18.根據(jù)權(quán)利要求16所述的系統(tǒng),其中所述經(jīng)重復(fù)消除的數(shù)據(jù)包括限定的數(shù)據(jù)流,所述數(shù)據(jù)流包括多個(gè)數(shù)據(jù) 卷;其中所述百分比閾值包括所述數(shù)據(jù)流的經(jīng)重復(fù)消除的數(shù)據(jù)的量的百分比;并且所述存儲(chǔ)裝置包括存儲(chǔ)所述數(shù)據(jù)流的所有所述數(shù)據(jù)。
【文檔編號(hào)】G06F11/14GK103729267SQ201410009120
【公開(kāi)日】2014年4月16日 申請(qǐng)日期:2010年1月19日 優(yōu)先權(quán)日:2009年2月6日
【發(fā)明者】G·T·基施 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司