亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種云數(shù)據(jù)中心文件管理方法

文檔序號:6517988閱讀:299來源:國知局
一種云數(shù)據(jù)中心文件管理方法
【專利摘要】一種云數(shù)據(jù)中心文件管理方法,在用戶上傳文件后,為上傳的文件創(chuàng)建文件索引表,并將文件索引表分解為局部哈希表,存儲在與小塊存儲塊連接的管理子節(jié)點(diǎn)中,在用戶下載文件時,從文件數(shù)據(jù)所在的多個存儲分塊中同時下載文件數(shù)據(jù),待所有文件數(shù)據(jù)下載完畢后拼裝成該文件;并且,還基于預(yù)測的文件復(fù)制頻率和文件共享頻率對存儲區(qū)域中的文件數(shù)據(jù)進(jìn)行管理。所述方法能夠同時從多個存儲塊中下載文件數(shù)據(jù),下載效率得到大幅度提升;能夠在空閑時段對存儲區(qū)域中的文件進(jìn)行管理,降低用戶未來請求文件資源時,存儲資源的搶占可能,提高了管理文件的智能性。
【專利說明】一種云數(shù)據(jù)中心文件管理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及云數(shù)據(jù)中心應(yīng)用系統(tǒng)領(lǐng)域,具體涉及一種云數(shù)據(jù)中心文件管理方法。【背景技術(shù)】
[0002]隨著信息科技的發(fā)展,云計算逐步成為業(yè)界的發(fā)展熱點(diǎn),國內(nèi)外各大廠商的云計算服務(wù)平臺也開始紛紛投入到科學(xué)、教育、文化、衛(wèi)生、政府、高性能計算、電子商務(wù)、物聯(lián)網(wǎng)等多個領(lǐng)域進(jìn)行使用。
[0003]云計算的一大重要特點(diǎn),即是通過網(wǎng)絡(luò)技術(shù),將分布在各地的數(shù)據(jù)中心中的服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備通過管理軟件集合起來協(xié)同工作,共同對外提供計算與存儲等服務(wù)。隨著存儲技術(shù)的發(fā)展,各大云計算廠商通過集群應(yīng)用、網(wǎng)格以及分布式文件系統(tǒng)等技術(shù),將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供一個統(tǒng)一的大型云數(shù)據(jù)中心存儲系統(tǒng)。
[0004]在云數(shù)據(jù)中心存儲系統(tǒng)中,文件管理的效率直接影響著系統(tǒng)的性能與用戶體驗(yàn)度。高效的文件復(fù)制、下載、共享效率不僅是必需的,而且已經(jīng)成為企業(yè)成功的先決條件。
[0005]為了降低系統(tǒng)建設(shè)成本,減少數(shù)據(jù)通信開銷,簡化應(yīng)用的環(huán)節(jié),提高系統(tǒng)性能和效率,保證整個系統(tǒng)的高效穩(wěn)定運(yùn)行,向客戶提供了更加穩(wěn)定的存儲性能以及更加強(qiáng)大的共享功能,我們提出了一種智能、高效、易開發(fā)、易維護(hù)的云數(shù)據(jù)中心文件管理方案。

【發(fā)明內(nèi)容】

[0006]本發(fā)明針對現(xiàn)有的云數(shù)據(jù)中心存儲性能低、通信開銷大、文件管理效率差的弊端,提出一種通過使用文件索引、P2P網(wǎng)絡(luò)、預(yù)測算法、動態(tài)管理等技術(shù)手段,管理云數(shù)據(jù)中心文件的解決方案。
[0007]一種云數(shù)據(jù)中心文件管理方法,包括:
[0008]所述云數(shù)據(jù)中心由存儲中控中心、管理子節(jié)點(diǎn)和存儲區(qū)域構(gòu)成,所述方法包括:
[0009]S1:為上傳的文件創(chuàng)建文件索引表,存放在存儲中控中心,所述文件索引表中的每條文件索引被表示成一個(K,V)記錄,其中K是文件的哈希值,V是該存儲文件的存儲路徑,對應(yīng)由存儲了所述文件的多個小塊存儲塊組成的存儲區(qū)域;
[0010]S2:對文件索引表進(jìn)行拆分,按照鄰近性度量規(guī)則將各小塊存儲塊的路徑制作成局部哈希表保存到與每一小塊存儲塊距離最近的管理子節(jié)點(diǎn)中;
[0011]S3:用戶發(fā)起文件下載請求后,先計算文件的哈希值K,在中控節(jié)點(diǎn)查找到對應(yīng)的文件存儲路徑V,再查找V包含的每一小塊存儲塊路徑保存在哪個管理子節(jié)點(diǎn)的局部哈希表中,找到該小塊存儲塊所在的局部哈希表后,通過其所在的管理子節(jié)點(diǎn)下載對應(yīng)的文件數(shù)據(jù),待所有的文件數(shù)據(jù)完成下載后,進(jìn)行拼裝,組合成用戶請求下載的文件。
[0012]一種云數(shù)據(jù)中心文件管理方法,包括:
[0013]所述云數(shù)據(jù)中心由存儲中控中心、管理子節(jié)點(diǎn)和存儲區(qū)域構(gòu)成,所述方法包括:
[0014]Sll:統(tǒng)計(n-1)天內(nèi)云數(shù)據(jù)中心中存儲的文件的復(fù)制頻率Y,所述復(fù)制頻率Y定義為該文件的復(fù)制次數(shù)減去該文件的刪除次數(shù);
[0015]S12:基于統(tǒng)計的(η-1)天內(nèi)的文件復(fù)制頻率Y,使用埃特金插值公式計算第η天時該文件的復(fù)制頻率預(yù)測值yn ;
[0016]S13:基于第η天時該文件的復(fù)制頻率預(yù)測值7?,確定需要預(yù)先配置的該文件的副本數(shù)量,在第η天用戶請求下載該文件時直接分配給用戶。
[0017]傳統(tǒng)的云數(shù)據(jù)中心,大多采用擴(kuò)大存儲的方式增加系統(tǒng)中可存放文件的規(guī)模,采用擴(kuò)增網(wǎng)絡(luò)帶寬的方式提高文件讀寫的性能。在實(shí)際的使用過程中,文件上傳、復(fù)制與下載效率無法得到根本性提升。相比之下,本發(fā)明的創(chuàng)新之處在于:
[0018]1、在存儲與服務(wù)器資源之間,搭建P2P網(wǎng)絡(luò),實(shí)現(xiàn)同一文件的各存儲分塊在多個管理子節(jié)點(diǎn)的同時下載,下載效率得到大幅度提升。
[0019]2、創(chuàng)新地將一種準(zhǔn)確、高效的預(yù)測算法——埃特金插值算法移植到云數(shù)據(jù)中心,將高次插值過程轉(zhuǎn)化為線性插值的多次重復(fù)計算,時間復(fù)雜度低,計算簡便,預(yù)測結(jié)果準(zhǔn)確。將未來文件的預(yù)測使用情況,與文件的管理決策相結(jié)合,提高系統(tǒng)決策的智能性。
[0020]3、創(chuàng)新地提出閑置時段文件整理的概念,選擇系統(tǒng)閑暇時段,根據(jù)文件使用的預(yù)測結(jié)果動態(tài)復(fù)制文件副本,通過消耗閑時的資源,降低用戶未來請求文件資源時,存儲資源的搶占可能,提高了管理文件的智能性。
【專利附圖】

【附圖說明】
[0021]圖1為本發(fā)明提出的一種云數(shù)據(jù)中心文件管理方法流程圖。
[0022]圖2為本發(fā)明提出的存儲環(huán)境架構(gòu)圖。
[0023]圖3Α為本發(fā)明提出的存儲路徑V對應(yīng)存儲空間不意圖。
[0024]圖3Β為本發(fā)明提出的存儲路徑V劃分示意圖。
[0025]圖4為本發(fā)明提出的文件副本整理流程圖
【具體實(shí)施方式】 [0026]下面參照附圖,對本發(fā)明的【具體實(shí)施方式】進(jìn)行描述。
[0027]參見附圖1,本發(fā)明總體構(gòu)思主要包括如下步驟:
[0028]搭建存儲環(huán)境設(shè)施與中控中心,文件上傳與下載管理,文件使用情況統(tǒng)計,閑置時段文件整理。
[0029]其中,搭建存儲環(huán)境設(shè)施與中控中心是該方案的基礎(chǔ)。如附圖2,云數(shù)據(jù)中心的所有存儲資源均與一臺或多臺服務(wù)器相連。存儲資源按照其與服務(wù)器的連接方式,劃分為共享存儲與本地存儲兩大類。所有與存儲資源相連的服務(wù)器,作為存儲管理子節(jié)點(diǎn),管理與其直連的存儲資源。所有存儲資源與服務(wù)器間組成P2P網(wǎng)絡(luò),對外統(tǒng)一抽象為一個大的存儲池。設(shè)置獨(dú)立的服務(wù)器作為存儲中控中心,管理整個系統(tǒng)中的存儲資源,如附圖2,服務(wù)器A為本地存儲SI與3臺共享存儲的管理子節(jié)點(diǎn),服務(wù)器C為管理整個存儲池的中控中心。
[0030]文件上傳與下載管理是該方案的核心創(chuàng)新點(diǎn)之一,通過在文件上傳時為其建立文件索引表,提升文件的使用效率。具體步驟如下:
[0031]S1:使用Pastry算法,為上傳的文件創(chuàng)建文件索引,存放在存儲中控中心。每條文件索引被表示成一個(K,V)對,其中K為關(guān)鍵字,是文件的哈希值,V是該存儲文件的存儲路徑,均以2b為基(2b指2的整數(shù)倍,一般b取1、2、3、4。選2b為基,便于步驟S2中對文件哈希表進(jìn)行分割)。所有的(K,V)對組成一張大的文件索引哈希表,只要輸入目標(biāo)文件的K值,就可以從這張表中查出所有存儲該文件的實(shí)際存放地址。
[0032]S2:然后,再將上面的文件哈希表分割成很多局部小塊,按照特定的規(guī)則把這些小塊的局部哈希表分布到系統(tǒng)中的所有管理子節(jié)點(diǎn)上,使得每個管理子節(jié)點(diǎn)負(fù)責(zé)維護(hù)其中的一塊。管理子節(jié)點(diǎn)基于應(yīng)用層定義的鄰近性度量規(guī)則來分割整體的哈希表,獲得離本地最近的地址,即每個管理子節(jié)點(diǎn)負(fù)責(zé)維護(hù)與其物理距離最近的局部存儲小塊。比如,當(dāng)用戶上傳一個系統(tǒng)中不存在的大文件時,系統(tǒng)首先計算該文件的哈希值K,然后將該文件存放到某個存儲上,存儲路徑為V。由于路徑V對應(yīng)一個較大的存儲區(qū)域,如圖3A所示,因?yàn)槲募且远M(jìn)制方式存放在存儲空間中的,所以存儲路徑V實(shí)際表示從存儲空間的起始地址Vstart到終止地址Vend的一個存儲范圍,例如存儲路徑V可表示從地址Vstart (0x1234)到Vend(0x5678)的存儲空間。
[0033]參見附圖3B,該存儲空間可以按照某種規(guī)則劃分成η個較小的存儲塊,如將其平分成4塊,并基于Pastry算法對文件索引表(K,V)進(jìn)行拆分。按照鄰近性度量規(guī)則將各小塊存儲塊的路徑制作成局部哈希表保存到與每一小塊存儲塊距離最近的管理子節(jié)點(diǎn)中,局部哈希表中存放該小塊存儲塊的路徑、前后相鄰小塊存儲塊的路由信息。
[0034]管理子節(jié)點(diǎn)要維護(hù)自己的節(jié)點(diǎn)狀態(tài)表,節(jié)點(diǎn)狀態(tài)表記錄的是除自身外其他管理子節(jié)點(diǎn)的狀態(tài)。即如果其他管理子節(jié)點(diǎn)宕機(jī),它對應(yīng)的狀態(tài)就會更新為宕機(jī),然后在下載文件時,如果該文件需要通過宕機(jī)的管理子節(jié)點(diǎn)下載,就更換路徑,轉(zhuǎn)為從其他狀態(tài)正常的管理子節(jié)點(diǎn)下載該數(shù)據(jù)。
[0035]管理子節(jié)點(diǎn)按ID從小到大順序排列在一個邏輯環(huán)上,查詢消息被路由到管理子節(jié)點(diǎn)ID和關(guān)鍵字在數(shù)值上最接近的管理子節(jié)點(diǎn)。每個管理子節(jié)點(diǎn)把查詢消息轉(zhuǎn)發(fā)給下一個管理子節(jié)點(diǎn)時,要保證這個管理子節(jié)點(diǎn)的ID和關(guān)鍵字的相同前綴至少要比當(dāng)前管理子節(jié)點(diǎn)的ID和關(guān)鍵字的相同前綴長一個數(shù)位,即b個比特。如果找不到這樣的管理子節(jié)點(diǎn),消息將轉(zhuǎn)發(fā)給前綴長度相同但是節(jié)點(diǎn)ID值更接近關(guān)鍵字的管理子節(jié)點(diǎn)。
[0036]S3:每個管理子節(jié)點(diǎn)都需要維護(hù)狀態(tài)表:一張路由表,一個鄰居節(jié)點(diǎn)集和一個葉子節(jié)點(diǎn)集。鄰居節(jié)點(diǎn)集存放物理上距離該節(jié)點(diǎn)最近的節(jié)點(diǎn),葉子節(jié)點(diǎn)集存放節(jié)點(diǎn)ID距離本節(jié)點(diǎn)最近的點(diǎn)。為了安全起見,本方案只掃描特定類型的文件。為了節(jié)省計算開支,可以只對特定大小,如500MB以上的文件建立文件索引。
[0037]S4:上傳文件時,計算每個文件的Hash值,并比對文件索引表。如果文件索引中存在該文件的Hash值(證明存儲池中存在該文件),則不做操作;如果表中沒有,則將文件上傳到存儲池中,并更新索引表。
[0038]S5:用戶發(fā)起文件下載請求后,系統(tǒng)根據(jù)文件的哈希值(Hash值,也是該文件的唯一標(biāo)識),查詢文件索引表,求得實(shí)際存儲文件的尋址方式。當(dāng)下載該文件時,用戶分別從各個管理子節(jié)點(diǎn)下載相應(yīng)的存儲塊。下載的每個存儲塊,根據(jù)局部哈希表中的路由信息,找到與自己相鄰的存儲塊,通過拼裝,組裝成原始的大文件。由于本方案使用Pastry算法,存儲池內(nèi)部為P2P網(wǎng)絡(luò),所以在下載文件時,便可以做到同一文件的多個存儲分塊從彼此物理距離最近的多個管理子節(jié)點(diǎn)同時下載,效率得到大幅度提升。
[0039]下載文件的具體過程如下:[0040]1、先計算文件的哈希值k,在中控節(jié)點(diǎn)查找到對應(yīng)的路徑V ;
[0041]2、根據(jù)Pastry算法,查找V包含的每一小塊存儲路徑保存在哪個管理子節(jié)點(diǎn)的局部哈希表中;
[0042]3、找到該小塊存儲所在的局部哈希表后,即在其所在的管理子節(jié)點(diǎn)中下載對應(yīng)的小塊存儲;
[0043]4、待所有的小塊存儲均完成下載后,進(jìn)行拼裝,組合成原始的大文件。
[0044]文件使用情況統(tǒng)計為本方案提供有效的文件使用統(tǒng)計數(shù)據(jù)。如附表1,為每個文件設(shè)置“文件使用情況統(tǒng)計表”,當(dāng)使用文件時,實(shí)時更新表中當(dāng)天的復(fù)制頻率(復(fù)制頻率=復(fù)制次數(shù)-刪除次數(shù))與共享頻率(共享頻率=A服務(wù)器讀寫該文件的次數(shù)+B服務(wù)器讀寫該文件的次數(shù)+……=系統(tǒng)內(nèi)所有服務(wù)器讀寫該文件次數(shù)的總和)。以η-1天為一個刷新周期,之后每天的數(shù)據(jù)均向前刷新。為了節(jié)省計算開支,可以只為特定大小,如500MB,以上的文件設(shè)置使用情況統(tǒng)計表。
[0045]附表1文件使用情況統(tǒng)計表
[0046]
【權(quán)利要求】
1.一種云數(shù)據(jù)中心文件管理方法,其特征在于: 所述云數(shù)據(jù)中心由存儲中控中心、管理子節(jié)點(diǎn)和存儲區(qū)域構(gòu)成,所述方法包括: S1:為上傳的文件創(chuàng)建文件索引表,存放在存儲中控中心,所述文件索引表中的每條文件索引被表示成一個(K,V)記錄,其中K是文件的哈希值,V是該存儲文件的存儲路徑,對應(yīng)由存儲了所述文件的多個小塊存儲塊組成的存儲區(qū)域; S2:對文件索引表進(jìn)行拆分,按照鄰近性度量規(guī)則將各小塊存儲塊的路徑制作成局部哈希表保存到與每一小塊存儲塊距離最近的管理子節(jié)點(diǎn)中; S3:用戶發(fā)起文件下載請求后,先計算文件的哈希值K,在中控節(jié)點(diǎn)查找到對應(yīng)的文件存儲路徑V,再查找V包含的每一小塊存儲塊路徑保存在哪個管理子節(jié)點(diǎn)的局部哈希表中,找到該小塊存儲塊所在的局部哈希表后,通過其所在的管理子節(jié)點(diǎn)下載對應(yīng)的文件數(shù)據(jù),待所有的文件數(shù)據(jù)完成下載后,進(jìn)行拼裝,組合成用戶請求下載的文件。
2.如權(quán)利要求1所述的方法,其特征在于: 所述每一小塊存儲塊與其管理子節(jié)點(diǎn)通過點(diǎn)對點(diǎn)方式連接。
3.如權(quán)利要求1或2所述的方法,其特征在于: 局部哈希表中存放該小塊存儲塊的路徑、前后相鄰小塊存儲塊的路由信息。
4.如權(quán)利要求3所述的方法,其特征在于: 每個管理子節(jié)點(diǎn)還維護(hù)一個狀態(tài)表,其中包括一張路由表,一個鄰居節(jié)點(diǎn)集和一個葉子節(jié)點(diǎn)集,所述鄰 居節(jié)點(diǎn)集存放物理上距離該節(jié)點(diǎn)最近的節(jié)點(diǎn),所述葉子節(jié)點(diǎn)集存放節(jié)點(diǎn)ID距離本節(jié)點(diǎn)最近的點(diǎn)。
5.如權(quán)利要求4所述的方法,其特征在于: 所述狀態(tài)表還記錄了除自身外其他相鄰管理子節(jié)點(diǎn)的狀態(tài),在下載文件時若根據(jù)狀態(tài)表確定某些相鄰管理子節(jié)點(diǎn)的狀態(tài)為宕機(jī),則更換下載路徑,從其它狀態(tài)正常的相鄰管理子節(jié)點(diǎn)下載文件數(shù)據(jù)。
6.—種云數(shù)據(jù)中心文件管理方法,其特征在于: 所述云數(shù)據(jù)中心由存儲中控中心、管理子節(jié)點(diǎn)和存儲區(qū)域構(gòu)成,所述方法包括: Sll:統(tǒng)計(n-1)天內(nèi)云數(shù)據(jù)中心中存儲的文件的復(fù)制頻率Y,所述復(fù)制頻率Y定義為該文件的復(fù)制次數(shù)減去該文件的刪除次數(shù); S12:基于統(tǒng)計的(η-1)天內(nèi)的文件復(fù)制頻率Y,使用埃特金插值公式計算第η天時該文件的復(fù)制頻率預(yù)測值yn ; S13:基于第η天時該文件的復(fù)制頻率預(yù)測值yn,確定需要預(yù)先配置的該文件的副本數(shù)量,在第η天用戶請求下載該文件時直接分配給用戶。
7.如權(quán)利要求6所述的方法,其特征在于: 所述確定需要預(yù)先配置的該文件的副本數(shù)量具體為:將計算獲得的第η天時該文件的復(fù)制頻率預(yù)測值In與預(yù)先設(shè)定的復(fù)制因子a相乘,所得到的值即為所述需要預(yù)先配置的該文件的副本數(shù)量X, 若該文件當(dāng)前已有副本數(shù)量m小于X,則為該文件再配置副本x-m個,若該文件當(dāng)前已有副本數(shù)量m大于X,則基于預(yù)先設(shè)定的刪除因子b確定需要刪除的副本數(shù)量為b* (m-x)。
8.如權(quán)利要求6或7所述的方法,其特征在于: 還包括統(tǒng)計文件共享頻率的步驟和基于某一統(tǒng)計時間段內(nèi)文件的共享頻率變化對該文件執(zhí)行相應(yīng)的處理的步驟, 所述共享頻率定義為云數(shù)據(jù)中心中所有管理子節(jié)點(diǎn)讀寫該文件次數(shù)的總和。
9.如權(quán)利要求8所述的方法,其特征在于: 所述基于某一統(tǒng)計時間段內(nèi)文件的共享頻率變化對該文件執(zhí)行相應(yīng)的處理的步驟具體為:若共享頻率持續(xù)走低,則將文件從與管理子節(jié)點(diǎn)連接的共享存儲區(qū)域中移動到與管理子節(jié)點(diǎn)連接的本地存儲區(qū)域中,若共享頻率為O,則將該文件從存儲區(qū)域中刪除。
10.如權(quán)利要求9所述的方法,其特征在于: 所述復(fù)制因子a取值為 0.3,所述刪除因子b取值為0.2。
【文檔編號】G06F17/30GK103544318SQ201310544589
【公開日】2014年1月29日 申請日期:2013年11月5日 優(yōu)先權(quán)日:2013年11月5日
【發(fā)明者】呂廣杰, 朱波 申請人:浪潮(北京)電子信息產(chǎn)業(yè)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1