一種基于分布式塊存儲(chǔ)的虛擬磁盤分層緩存設(shè)計(jì)方法與流程

文檔序號(hào)：11250575閱讀：836來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于分布式塊存儲(chǔ)的虛擬磁盤分層緩存設(shè)計(jì)方法與流程

本發(fā)明涉及數(shù)據(jù)存儲(chǔ)技術(shù)領(lǐng)域，具體的說是涉及一種基于分布式塊存儲(chǔ)的虛擬磁盤分層緩存設(shè)計(jì)方法。

背景技術(shù)：

分布式存儲(chǔ)系統(tǒng)中，數(shù)據(jù)往往需要通過網(wǎng)絡(luò)，數(shù)據(jù)路徑過長，導(dǎo)致性能降低，延遲增大，對(duì)于性能要求較高的使用場(chǎng)景，往往是望而卻步。目前主流的分布式存儲(chǔ)系統(tǒng)，無論是開源或是商用，幾乎都是在虛擬磁盤端增加緩存系統(tǒng)來提升性能以滿足一些高端使用場(chǎng)景。主要有兩種方向：一種是基于內(nèi)存的緩存，一種是基于ssd的緩存。基于內(nèi)存緩存由于內(nèi)存的掉電易失性，無法滿足數(shù)據(jù)安全的需求。基于ssd的緩存如果選用nvmessd是比較理想的選擇，但是價(jià)格非常昂貴。如果是選用sata/sasssd則性能略顯不足。

目前軟件定義存儲(chǔ)的概念逐漸深入人心，這種基于通用x86服務(wù)的，分布式的，純軟件的存儲(chǔ)系統(tǒng)逐漸被廣大用戶所接受。相對(duì)于傳統(tǒng)陣列存儲(chǔ)系統(tǒng)，分布式存儲(chǔ)系統(tǒng)的性能是巨大的弱點(diǎn)，通過緩存技術(shù)能顯著改善，使其使用場(chǎng)景更加廣泛。

技術(shù)實(shí)現(xiàn)要素：

針對(duì)現(xiàn)有技術(shù)中的不足，本發(fā)明要解決的技術(shù)問題在于提供了一種基于分布式塊存儲(chǔ)的虛擬磁盤分層緩存設(shè)計(jì)方法。

為解決上述技術(shù)問題，本發(fā)明通過以下方案來實(shí)現(xiàn)：一種基于分布式塊存儲(chǔ)的虛擬磁盤分層緩存設(shè)計(jì)方法，該方法通過內(nèi)存與sata/sasssd組成分層緩存系統(tǒng)結(jié)構(gòu)，通過快速算法檢測(cè)數(shù)據(jù)訪問熱點(diǎn)，熱點(diǎn)度最高的數(shù)據(jù)存放在內(nèi)存，熱點(diǎn)讀較高的數(shù)據(jù)存放在sata/sasssd中；

緩存分層包括內(nèi)存和sata/sasssd兩個(gè)物理組件，由軟件實(shí)現(xiàn)熱點(diǎn)判斷和數(shù)據(jù)在各級(jí)緩存中的上浮與下層，緩存算法針對(duì)磁盤的讀寫特性設(shè)計(jì)，并非通用的緩存，主要應(yīng)用于分布式塊存儲(chǔ)系統(tǒng)的前端虛擬磁盤中，為虛擬磁盤加速；

所述分布式塊存儲(chǔ)系統(tǒng)包括：

控制主機(jī)：所述控制主機(jī)生成虛擬磁盤，為虛擬磁盤準(zhǔn)備高速緩沖存儲(chǔ)器，作為存儲(chǔ)數(shù)據(jù)路徑的前端主機(jī)，完成數(shù)據(jù)接收、緩存、轉(zhuǎn)發(fā)功能；

策略主機(jī)：所述策略主機(jī)為分布式塊存儲(chǔ)系統(tǒng)的大腦，控制主機(jī)需要?jiǎng)?chuàng)建虛擬磁盤時(shí)，將從存儲(chǔ)主機(jī)中調(diào)度處滿足條件的主機(jī)，生成存儲(chǔ)組件供控制主機(jī)連接使用；

存儲(chǔ)主機(jī)：分布式設(shè)于系統(tǒng)中，數(shù)據(jù)最終的存放地點(diǎn)，將存儲(chǔ)資源抽象成多個(gè)存儲(chǔ)組件；

所述方法包括塊設(shè)備的寫入和讀取方法，該塊設(shè)備的寫入和讀取方法如下：

塊設(shè)備的讀取或?qū)懭攵际且淮巫x取或?qū)懭胍粔K連續(xù)的數(shù)據(jù)，其應(yīng)用程序?qū)懭氲臄?shù)據(jù)的參數(shù)為：offset,length,data；讀取的參數(shù)為：offset，length，buffer；

offset：讀寫磁盤的位置，起始位置為0，offset為距離起始位置的偏移量；

length：讀寫磁盤數(shù)據(jù)的長度；

data：需要寫入磁盤的數(shù)據(jù)；

buffer：將磁盤中的對(duì)應(yīng)數(shù)據(jù)填入buffer中。

進(jìn)一步的，所述分層緩存系統(tǒng)結(jié)構(gòu)將存儲(chǔ)空間劃分為cache對(duì)象，每個(gè)cache對(duì)象固定大小，所述分層緩存系統(tǒng)結(jié)構(gòu)的第一層是內(nèi)存索引，內(nèi)存索引由一組item組成，每個(gè)item占用4個(gè)字節(jié)代表一個(gè)cache對(duì)象；內(nèi)存索引主要維護(hù)cache對(duì)象的引用計(jì)數(shù)，標(biāo)志對(duì)應(yīng)的item是否在cache樹中，如果在，該cache對(duì)象在cache樹的id；

內(nèi)存索引所需要的內(nèi)存空間，假設(shè)ssd緩存空間為1tb，一個(gè)item占用4個(gè)字節(jié)空間代表4mb的cache對(duì)象：

內(nèi)存索引占用空間=1tb÷4mb*4=1mb；

內(nèi)存索引占用空間較小幾乎可以忽略不計(jì)；提到具體的cache對(duì)象時(shí)緩存在cache樹中的，cache樹是一顆完全二叉樹，并組織成最小堆；完全二叉樹表示其每個(gè)節(jié)點(diǎn)可以用整數(shù)編號(hào)，并且隨著插入，刪除節(jié)點(diǎn)，依然能滿足完全二叉樹條件；最小堆表示樹根節(jié)點(diǎn)一定是二叉樹中key值最小的；通過不同的計(jì)算引用計(jì)數(shù)的方式可以實(shí)現(xiàn)不同的緩存淘汰算法；cache樹的value用于存儲(chǔ)ssdcache的偏移id，以快速找到ssdcache的block；

cache樹將ssdcache中的block組織成完全二叉樹，ssdcache將存儲(chǔ)空間劃分為一組block，一個(gè)block對(duì)應(yīng)一個(gè)cache對(duì)象，通過簡(jiǎn)單的映射算法將將要從hdd讀取或?qū)懭氲臄?shù)據(jù)加載到ssdcache中；

計(jì)算cache樹占用內(nèi)存空間，最小堆以數(shù)組的形式實(shí)現(xiàn)無需指針：

cache樹的節(jié)點(diǎn)數(shù)量=1tb÷4mb=262144；

cache樹占用內(nèi)存空間=262144*16=4mb。

進(jìn)一步的，基于述各模塊的描述，描述cache的具體寫入流程步驟：

步驟①：應(yīng)用程序發(fā)起寫入請(qǐng)求，請(qǐng)求中包含(offset,length,data)；

步驟②：虛擬磁盤io處理程序接收到該請(qǐng)求，根據(jù)offset獲取內(nèi)存索引對(duì)應(yīng)的item項(xiàng)，直接通過移位運(yùn)算得到時(shí)間復(fù)雜度為o(1)，將引用計(jì)數(shù)+1；

步驟③：如果有需要將數(shù)據(jù)拆分成多個(gè)cache對(duì)象，插入cache樹中，將根節(jié)點(diǎn)替換掉，如果沒有設(shè)置為o_direct則直接返回，后續(xù)數(shù)據(jù)將異步同步到ssdcache和hdd中；

步驟④：如果設(shè)置了o_direct，將cache對(duì)象的數(shù)據(jù)同步到節(jié)點(diǎn)對(duì)應(yīng)的ssdcacheblock中返回；后續(xù)由異步進(jìn)程同步到后端hdd中；

基于cache系統(tǒng)的讀取流程步驟：

步驟①：應(yīng)用程序發(fā)起讀取請(qǐng)求，請(qǐng)求中包含(offset,length,buffer)；

步驟③：根據(jù)item的最高位bit，判斷offset對(duì)應(yīng)的數(shù)據(jù)是否在cache中；如果在cache中，在直接從item讀取到其對(duì)應(yīng)的cache樹的索引id值，如果cache對(duì)象保存了數(shù)據(jù)，將數(shù)據(jù)讀取返回；如果cache對(duì)象內(nèi)存數(shù)據(jù)已是否，則根據(jù)cache樹節(jié)點(diǎn)的值對(duì)應(yīng)的ssdcache偏移id，從ssd讀取數(shù)據(jù)；

步驟④：如果所請(qǐng)求不在cache中，則直接請(qǐng)求存儲(chǔ)主機(jī)，讀取數(shù)據(jù)；

步驟⑤：比較該請(qǐng)求對(duì)應(yīng)item的引用計(jì)數(shù)，如果該item的引用計(jì)數(shù)大于cache樹根節(jié)點(diǎn)的引用計(jì)數(shù)，則節(jié)點(diǎn)替換，緩存更新；

步驟⑥：如果該item的引用計(jì)數(shù)小于cache樹根節(jié)點(diǎn)的引用計(jì)數(shù)，表示該數(shù)據(jù)塊熱度不夠，數(shù)據(jù)返回后，則不更新緩存。

進(jìn)一步的，由于內(nèi)存的掉電易失性，內(nèi)存中僅僅保存讀取的數(shù)據(jù)，更新的數(shù)據(jù)需要寫入ssd中以防掉電數(shù)據(jù)丟失。

相對(duì)于現(xiàn)有技術(shù)，本發(fā)明的有益效果是：本發(fā)明提出一種全新的基于分布式塊存儲(chǔ)的虛擬磁盤分層緩存設(shè)計(jì)方法。通過內(nèi)存與sata/sasssd組成分層緩存結(jié)構(gòu)，通過快速算法檢測(cè)數(shù)據(jù)訪問熱點(diǎn)，熱點(diǎn)度最高的數(shù)據(jù)存放在內(nèi)存，熱點(diǎn)讀較高的數(shù)據(jù)存放在sata/sasssd中。由于內(nèi)存的掉電易失性，內(nèi)存中僅僅保存讀取的數(shù)據(jù)。更新的數(shù)據(jù)需要寫入ssd中以防掉電數(shù)據(jù)丟失。緩存分層由內(nèi)存和sata/sasssd兩個(gè)物理組件組成。由軟件實(shí)現(xiàn)熱點(diǎn)判斷和數(shù)據(jù)在各級(jí)緩存中的上浮與下層。本發(fā)明的緩存算法針對(duì)磁盤的讀寫特性設(shè)計(jì)，并非通用的緩存，主要應(yīng)用于分布式塊存儲(chǔ)系統(tǒng)的前端虛擬磁盤中，為虛擬磁盤加速。采用本發(fā)明的分層緩存方案，避免了內(nèi)存的掉電易失性，相比于sata/sasssd能大幅度提升性能，同時(shí)能帶來巨大的成本效益，為客戶降低存儲(chǔ)上的總擁有成本(tco)。

附圖說明

圖1為本發(fā)明的分布式塊存儲(chǔ)系統(tǒng)架構(gòu)圖；

圖2為本發(fā)明的分層緩存系統(tǒng)結(jié)構(gòu)圖；

圖3為本發(fā)明的磁盤讀寫方法流程圖；

圖4為本發(fā)明的第一類內(nèi)存索引結(jié)構(gòu)圖；

圖5為本發(fā)明的內(nèi)存cache樹結(jié)構(gòu)圖；

圖6為本發(fā)明的第二類內(nèi)存索引結(jié)構(gòu)圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)闡述，以使本發(fā)明的優(yōu)點(diǎn)和特征能更易于被本領(lǐng)域技術(shù)人員理解，從而對(duì)本發(fā)明的保護(hù)范圍做出更為清楚明確的界定。

請(qǐng)參照附圖1-6，本發(fā)明的一種基于分布式塊存儲(chǔ)的虛擬磁盤分層緩存設(shè)計(jì)方法，該方法通過內(nèi)存與sata/sasssd組成分層緩存系統(tǒng)結(jié)構(gòu)，通過快速算法檢測(cè)數(shù)據(jù)訪問熱點(diǎn)，熱點(diǎn)度最高的數(shù)據(jù)存放在內(nèi)存，熱點(diǎn)讀較高的數(shù)據(jù)存放在sata/sasssd中；

所述分布式塊存儲(chǔ)系統(tǒng)包括：

存儲(chǔ)主機(jī)：分布式設(shè)于系統(tǒng)中，數(shù)據(jù)最終的存放地點(diǎn)，將存儲(chǔ)資源抽象成多個(gè)存儲(chǔ)組件；

如圖3所示，所述方法還包括塊設(shè)備的寫入和讀取方法，該塊設(shè)備的寫入和讀取方法如下：

offset：讀寫磁盤的位置，起始位置為0，offset為距離起始位置的偏移量；

length：讀寫磁盤數(shù)據(jù)的長度；

data：需要寫入磁盤的數(shù)據(jù)；

buffer：將磁盤中的對(duì)應(yīng)數(shù)據(jù)填入buffer中。

所述分層緩存系統(tǒng)結(jié)構(gòu)將存儲(chǔ)空間劃分為cache對(duì)象，每個(gè)cache對(duì)象固定大小(以4mb為例)，如圖4所示，所述分層緩存系統(tǒng)結(jié)構(gòu)的第一層是內(nèi)存索引，內(nèi)存索引由一組item組成，每個(gè)item占用4個(gè)字節(jié)代表一個(gè)cache對(duì)象；內(nèi)存索引主要維護(hù)cache對(duì)象的引用計(jì)數(shù)，標(biāo)志對(duì)應(yīng)的item是否在cache樹中，如果在，該cache對(duì)象在cache樹的id；

內(nèi)存索引所需要的內(nèi)存空間，假設(shè)ssd緩存空間為1tb，一個(gè)item占用4個(gè)字節(jié)空間代表4mb的cache對(duì)象：

內(nèi)存索引占用空間=1tb÷4mb*4=1mb；

內(nèi)存索引占用空間較小幾乎可以忽略不計(jì)；提到具體的cache對(duì)象時(shí)緩存在cache樹中的，如圖5所示，cache樹是一顆完全二叉樹，并組織成最小堆；完全二叉樹表示其每個(gè)節(jié)點(diǎn)可以用整數(shù)編號(hào)，并且隨著插入，刪除節(jié)點(diǎn)，依然能滿足完全二叉樹條件；最小堆表示樹根節(jié)點(diǎn)一定是二叉樹中key值最小的；通過不同的計(jì)算引用計(jì)數(shù)的方式可以實(shí)現(xiàn)不同的緩存淘汰算法；cache樹的value用于存儲(chǔ)ssdcache的偏移id，以快速找到ssdcache的block；

cache樹將ssdcache中的block組織成完全二叉樹，如圖6所示，ssdcache將存儲(chǔ)空間劃分為一組block，一個(gè)block對(duì)應(yīng)一個(gè)cache對(duì)象，通過簡(jiǎn)單的映射算法將將要從hdd讀取或?qū)懭氲臄?shù)據(jù)加載到ssdcache中；

計(jì)算cache樹占用內(nèi)存空間，最小堆以數(shù)組的形式實(shí)現(xiàn)無需指針：

cache樹的節(jié)點(diǎn)數(shù)量=1tb÷4mb=262144；

cache樹占用內(nèi)存空間=262144*16=4mb。

基于述各模塊的描述，描述cache的具體寫入流程步驟：

步驟①：應(yīng)用程序發(fā)起寫入請(qǐng)求，請(qǐng)求中包含(offset,length,data)；

基于cache系統(tǒng)的讀取流程步驟：

步驟①：應(yīng)用程序發(fā)起讀取請(qǐng)求，請(qǐng)求中包含(offset,length,buffer)；

步驟④：如果所請(qǐng)求不在cache中，則直接請(qǐng)求存儲(chǔ)主機(jī)，讀取數(shù)據(jù)；

由于內(nèi)存的掉電易失性，內(nèi)存中僅僅保存讀取的數(shù)據(jù)，更新的數(shù)據(jù)需要寫入ssd中以防掉電數(shù)據(jù)丟失。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施方式，并非因此限制本發(fā)明的專利范圍，凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換，或直接或間接運(yùn)用在其它相關(guān)的技術(shù)領(lǐng)域，均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張朝潞
技術(shù)所有人：深圳市云舒網(wǎng)絡(luò)技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

虛擬機(jī)分布式存儲(chǔ)系統(tǒng)相關(guān)技術(shù)

虛擬化分布式存儲(chǔ)相關(guān)技術(shù)

虛擬機(jī)磁盤空間不足相關(guān)技術(shù)

虛擬磁盤相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于分布式塊存儲(chǔ)的虛擬磁盤分層緩存設(shè)計(jì)方法與流程