利用并行文件訪問協(xié)議的自動校準(zhǔn)以及元數(shù)據(jù)管理支持對文件系統(tǒng)的共享存儲的協(xié)調(diào)訪問的制作方法
【專利說明】利用并行文件訪問協(xié)議的自動校準(zhǔn)以及元數(shù)據(jù)管理支持對 文件系統(tǒng)的共享存儲的協(xié)調(diào)訪問
【背景技術(shù)】
[0001] 本發(fā)明的實(shí)施例涉及數(shù)據(jù)存儲領(lǐng)域,特別地涉及利用并行文件訪問協(xié)議的自動校 準(zhǔn)和基于每個對象的元數(shù)據(jù)管理支持對文件系統(tǒng)的共享磁盤存儲子系統(tǒng)的協(xié)調(diào)訪問。
[0002] 云體系結(jié)構(gòu)中的數(shù)據(jù)訪問開始以擴(kuò)展(Scale-out)存儲系統(tǒng)為中心。例如,IBM S0NAS?(橫向擴(kuò)展網(wǎng)絡(luò)連接存儲)是一種提供用于管理需要極大容量(例如:拍字節(jié)(千萬 億字節(jié)))、高性能以及高可用性的企業(yè)云計算環(huán)境中的信息大量存儲庫的存儲橫向擴(kuò)展 NAS。IBM SONAS利用IBM通用并行文件系統(tǒng)(GPFStm)構(gòu)建,GPFS是一種支持?jǐn)U展和并行集 群計算的高性能企業(yè)文件管理平臺的集群文件系統(tǒng)。擴(kuò)展存儲系統(tǒng)從而允許應(yīng)用通過集群 中的多個文件服務(wù)器訪問單一文件系統(tǒng)、存儲設(shè)備、單一部分或數(shù)據(jù)、或單一文件。
[0003] 通常利用第三方文件訪問協(xié)議(例如FTP或HTTP)對文件系統(tǒng)數(shù)據(jù)進(jìn)行遠(yuǎn)程訪 問。這些協(xié)議大部分是基于客戶機(jī)-服務(wù)器的,由單一的客戶機(jī)訪問單一的存儲服務(wù)器。 這些協(xié)議扼殺了擴(kuò)展存儲系統(tǒng)的可擴(kuò)展性,并且經(jīng)常通過限制訪問單一服務(wù)器導(dǎo)致數(shù)據(jù)訪 問瓶頸。開發(fā)了協(xié)調(diào)以及并行文件訪問協(xié)議以同時訪問遠(yuǎn)程集群中的多個文件服務(wù)器。這 些協(xié)議幫助減輕了存儲瓶頸,但其訪問必須由存儲系統(tǒng)協(xié)調(diào)以保持?jǐn)?shù)據(jù)訪問語義(例如 P0SIX)和避免損壞。
[0004] 并行網(wǎng)絡(luò)文件系統(tǒng)(pNFS)是網(wǎng)絡(luò)文件系統(tǒng)(NFS)協(xié)議的標(biāo)準(zhǔn)化并行文件訪問協(xié) 議擴(kuò)展??梢灶A(yù)見未來的大部分?jǐn)U展存儲系統(tǒng)都將支持pNFS。作為NFSv4. 1 -部分的pNFS 將NFSv4轉(zhuǎn)換成異構(gòu)的(heterogeneous)元數(shù)據(jù)協(xié)議。pNFS客戶機(jī)和服務(wù)器負(fù)責(zé)控制和 文件管理操作,但將I/O功能向客戶機(jī)上特定于存儲的布局驅(qū)動授權(quán)。PNFS客戶機(jī)通過分 離控制和數(shù)據(jù)流可以使并行文件系統(tǒng)的可用帶寬飽和。每個存儲系統(tǒng)可以以不同方式支持 pNFS或任意類似的并行文件訪問協(xié)議。例如,為了確定I/O訪問的特定文件布局,每個存儲 系統(tǒng)將具有創(chuàng)建最佳布局的獨(dú)特方式以減少延遲、最大化I/O吞吐量。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的各個方面包括利用并行文件訪問協(xié)議的自動校準(zhǔn)以及基于每個對象的 元數(shù)據(jù)管理支持對文件系統(tǒng)的共享磁盤存儲子系統(tǒng)的協(xié)調(diào)訪問的方法、集群文件系統(tǒng)以及 計算機(jī)程序產(chǎn)品。文件系統(tǒng)包括多個文件服務(wù)器的集群,其中集群中的活動的文件服務(wù)器 可以等效訪問文件系統(tǒng)的共享數(shù)據(jù)。文件系統(tǒng)進(jìn)一步包括存儲所述文件系統(tǒng)的共享數(shù)據(jù)的 共享磁盤存儲子系統(tǒng)。
[0006] 在一個實(shí)施例中,(集群中多個服務(wù)器中的)文件服務(wù)器接收客戶機(jī)的利用并行 文件訪問協(xié)議對所述存儲系統(tǒng)中由所述文件系統(tǒng)存儲的文件的訪問的請求。如果文件系統(tǒng) 已經(jīng)選定作為該文件的元數(shù)據(jù)管理器的文件服務(wù)器,那么該文件服務(wù)器利用選定的文件服 務(wù)器協(xié)調(diào)對所述文件的元數(shù)據(jù)的訪問。如果文件系統(tǒng)沒有選定作為該文件元數(shù)據(jù)管理器 的文件服務(wù)器,那么文件系統(tǒng)選擇接收所述請求的文件服務(wù)器作為所述文件的元數(shù)據(jù)管理 器,直到接收到文件關(guān)閉請求操作。
[0007] 文件服務(wù)器然后為該文件執(zhí)行向被選定作為元數(shù)據(jù)管理器的文件服務(wù)器的文件 打開請求操作。文件服務(wù)器然后打開該文件并且創(chuàng)建該文件的文件句柄。文件服務(wù)器然后 在文件句柄中對被選定作為所述文件的元數(shù)據(jù)管理器的文件服務(wù)器的文件服務(wù)器ID進(jìn)行 編碼,以使文件系統(tǒng)的文件服務(wù)器能夠識別哪一個文件服務(wù)器為該文件的元數(shù)據(jù)管理器。 文件服務(wù)器然后向客戶機(jī)返回文件句柄用于執(zhí)行對所述文件的I/O。
[0008] 以下將在【具體實(shí)施方式】部分結(jié)合附圖描述本發(fā)明的各個實(shí)施例的細(xì)節(jié)。
【發(fā)明內(nèi)容】
旨在提供一個要求保護(hù)的主題的概覽,不能作為對權(quán)利要求保護(hù)范圍的限制。本發(fā)明其他 的特征和優(yōu)點(diǎn)將通過【具體實(shí)施方式】部分的描述變得明顯。
【附圖說明】
[0009] 這里參考的附圖作為說明書的一部分。除非明確表明,附圖中示出的特征只顯示 了本發(fā)明的一些實(shí)施例,并不是本發(fā)明的全部實(shí)施例。
[0010] 圖1顯示了根據(jù)一個實(shí)施例的示例性文件服務(wù)器集群的示意圖,所述文件服務(wù)器 集群用于運(yùn)行具有對實(shí)現(xiàn)本發(fā)明實(shí)施例的共享存儲的并行訪問的集群文件系統(tǒng);
[0011] 圖2顯示了用于集群文件系統(tǒng)以支持對利用并行文件訪問協(xié)議的自動校準(zhǔn)以及 基于每個對象的元數(shù)據(jù)管理的文件系統(tǒng)的共享磁盤存儲子系統(tǒng)的協(xié)調(diào)訪問的流程的流程 圖;
[0012] 圖3顯示了根據(jù)一個實(shí)施例的用于具有對共享存儲的并行訪問以服務(wù)于從基于 文件的并行文件訪問協(xié)議客戶機(jī)接收的I/O請求的集群文件系統(tǒng)的流程的流程圖;
[0013] 圖4顯示了用于實(shí)現(xiàn)本發(fā)明的實(shí)施例的示例性通用計算架構(gòu)的框圖;
[0014] 圖5顯示了根據(jù)一個實(shí)施例的示例性云計算環(huán)境的框圖;
[0015] 圖6顯示了根據(jù)一個實(shí)施例的示例性抽象模型層的框圖。
【具體實(shí)施方式】
[0016] 下面【具體實(shí)施方式】部分如附圖所示的本發(fā)明的系統(tǒng)、方法和計算機(jī)程序產(chǎn)品的實(shí) 施例,僅代表本發(fā)明的一些選定實(shí)施例,不能用于限制權(quán)利要求的保護(hù)范圍。這里描述以及 如附圖所示的本發(fā)明的架構(gòu)可以以多種不同方式進(jìn)行安排和設(shè)計。因此,以下具體實(shí)施方 式部分旨在通過示例簡要說明與本發(fā)明的權(quán)利要求一致的系統(tǒng)和流程的選定實(shí)施例。
[0017] 本發(fā)明的實(shí)施例提供利用并行文件訪問協(xié)議的自動校準(zhǔn)以及基于每個對象的元 數(shù)據(jù)管理支持對文件系統(tǒng)的共享磁盤存儲子系統(tǒng)的協(xié)調(diào)訪問的方法、集群文件系統(tǒng)以及計 算機(jī)程序產(chǎn)品。在一個實(shí)施例中,本發(fā)明提供多文件系統(tǒng)元數(shù)據(jù)服務(wù)器支持。例如,實(shí)現(xiàn)本 發(fā)明實(shí)施例的文件系統(tǒng)(例如GPFS?)可以定義與集群文件系統(tǒng)中的文件服務(wù)器相同數(shù)量 的文件系統(tǒng)元數(shù)據(jù)服務(wù)器,從而允許并行文件訪問協(xié)議(例如PNFS)客戶機(jī)裝載不同的文 件系統(tǒng)元數(shù)據(jù)服務(wù)器。如此以來,元數(shù)據(jù)管理可以分布于所有文件系統(tǒng)服務(wù)器間,即使是單 一的輸出。
[0018] 在一個實(shí)施例中,本發(fā)明提供并行文件訪問協(xié)議的自動校準(zhǔn)以及基于每個對象的 文件系統(tǒng)元數(shù)據(jù)管理。例如,當(dāng)并行文件訪問協(xié)議(例如PNFS)客戶機(jī)裝載服務(wù)器并開始 訪問對象時,服務(wù)器動態(tài)變成該對象的元數(shù)據(jù)管理器。作為結(jié)果,消除了必須與單獨(dú)的元數(shù) 據(jù)管理服務(wù)器交互的網(wǎng)絡(luò)延遲。此外,一旦客戶機(jī)結(jié)束訪問該對象,另一客戶機(jī)可以從另一 文件服務(wù)器開始訪問同一對象。該對象的元數(shù)據(jù)管理器動態(tài)迀移至新服務(wù)器。
[0019] 在另一實(shí)施例中,為了實(shí)現(xiàn)靈活的文件系統(tǒng)布局創(chuàng)建,用一種新穎的編碼方案優(yōu) 化對文件系統(tǒng)的每個I/O上文件訪問布局擁有者的識別。
[0020] 圖1顯示了根據(jù)一個實(shí)施例的示例性文件服務(wù)器集群(108)(以下稱為"集群") 的示意圖,所述集群用于運(yùn)行具有對實(shí)現(xiàn)本發(fā)明實(shí)施例的共享存儲子系統(tǒng)(112)(以下稱 為"存儲子系統(tǒng)")的并行訪問的集群文件系統(tǒng)。文件系統(tǒng)利用用于不同工作負(fù)載和訪問模 式的文件訪問布局的動態(tài)創(chuàng)建支持對文件系統(tǒng)的存儲子系統(tǒng)的協(xié)調(diào)訪問。示意圖包括遠(yuǎn)程 訪問文件系統(tǒng)的基于文件的并行文件訪問協(xié)議(例如pNFS)客戶機(jī)(102, 104,…106)(以 下稱為"客戶機(jī)")。例如,客戶機(jī)可以包括并行文件訪問協(xié)議AIX?客戶機(jī)(l〇2)、Wind〇ws 客戶機(jī)(104)以及Linux客戶機(jī)(104)。客戶機(jī)向通過網(wǎng)絡(luò)(108)(例如廣域網(wǎng)(WAN))向 集群發(fā)送并從集群接收數(shù)據(jù)和元數(shù)據(jù)。
[0021] 集群包括并行工作以服務(wù)于文件訪問協(xié)議客戶機(jī)的I/O請求的多個服務(wù)器 (110),包括但不限于狀態(tài)服務(wù)器、數(shù)據(jù)服務(wù)器或存儲服務(wù)器(以下稱為"文件服務(wù)器")。"文 件服務(wù)器"可以包括作為存儲系統(tǒng)一部分并且能夠由外部應(yīng)用使用以訪問存儲系統(tǒng)中存儲 的數(shù)據(jù)的任意服務(wù)器(或虛擬服務(wù)器)。例如,文件服務(wù)器包括配置用以支持文件訪問協(xié)議 客戶機(jī)對文件系統(tǒng)的存儲的訪問的服務(wù)器(例如IBM SystemXR))。集群進(jìn)一步包括存儲 子系統(tǒng)(112)。在一個實(shí)施例中,存儲子系統(tǒng)是可擴(kuò)展的(例如擴(kuò)展存儲系統(tǒng))。例如諸如 IBMSONAS?、IBM XIV?以及支持超過7〇〇〇個磁盤驅(qū)動器的IBM Storwize? V7000磁盤系 統(tǒng)的擴(kuò)展存儲系統(tǒng)NAS解決方案。文件服務(wù)器與存儲子系統(tǒng)通過網(wǎng)絡(luò)(114)(例如局域網(wǎng) (LAN)或光纖通道(FC))通信。
[0022] 圖2顯示了根據(jù)一個實(shí)施例的用于文件系統(tǒng)以支持對利用并行文件訪問協(xié)議的 自動校準(zhǔn)以及基于每個對象的元數(shù)據(jù)管理的文件系統(tǒng)的存儲子系統(tǒng)的協(xié)調(diào)訪問的流程 (200)的流程圖。文件系統(tǒng),尤其是集群中多個文件服務(wù)器中某一特定文件服務(wù)器接收客戶 機(jī)利用并行文件訪問協(xié)議對存儲子系統(tǒng)中由文件系統(tǒng)存儲的某一文件進(jìn)行(以下稱為"該 文件")訪問的請求(步驟202)。該文件特定服務(wù)器(以下稱為"該文件服務(wù)器")確定文件 系統(tǒng)是否已經(jīng)選定(集群中的)某一文件服務(wù)器作為該文件的元數(shù)據(jù)管理器(步驟204)。
[0023] 如果文件系統(tǒng)已經(jīng)選定了某一文件服務(wù)器作為該文件的元數(shù)據(jù)管理器,那么文件 系統(tǒng)利用選定的文件服務(wù)器協(xié)調(diào)對該文件的元數(shù)據(jù)的訪問(步驟206)。該文件服務(wù)器為該 文件執(zhí)行向被