專利名稱:在數(shù)據(jù)中心以太網(wǎng)中的流量控制管理方法、系統(tǒng)和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明主要涉及流量控制,尤其涉及經(jīng)由延伸距離的流量控制。
技術(shù)背景數(shù)據(jù)中心以太網(wǎng)(DCE)是一種新興的工業(yè)標(biāo)準(zhǔn),該標(biāo)準(zhǔn)提出對 現(xiàn)有網(wǎng)絡(luò)進行修改,以便將以太網(wǎng)定位成是用于所有類型的數(shù)據(jù)中心 業(yè)務(wù)量的首選匯聚組織(convergence fabric )。近期的研究發(fā)現(xiàn),以 太網(wǎng)是一種具有處于圖1所示數(shù)據(jù)中心的1/0合并的匯聚組織。預(yù)計 這種合并將會簡化平臺架構(gòu)并降低總的平臺成本。在"Proposal for Traffic Differentiation in Ethernet Networks"中描述了關(guān)于合并建議 的更多細節(jié),并且該文獻可以在http:〃www.ieee802.org/l/files/publie /docs2005/new-wadekar-virtual。/。20-links-0305.pdf找到。對DCE (也被稱為增強型以太網(wǎng)和低等待時間以太網(wǎng))來說, 目前提出的主要改變包括在鏈路層添加以信用點(credit)為基礎(chǔ)的流 量控制、擁塞檢測以及數(shù)據(jù)速率節(jié)流,以及添加具有服務(wù)質(zhì)量區(qū)分的 虛擬通道(virtual lane )。值得一提的是,這些功能并未影響到存在 于DCE等級之上的傳輸控制協(xié)議/網(wǎng)際協(xié)議(TCP/IP)。此外還應(yīng)該 指出,DCE的目的是在不需要TCP/IP開銷的情況下執(zhí)行操作。這樣 做會提供一種不需要卸載處理或加速器的更簡單的低成本方法。發(fā)明內(nèi)容根據(jù)例示實施例,在這里提供一種用于在相隔延伸距離的源節(jié)點 與目的地節(jié)點之間的數(shù)據(jù)中心以太網(wǎng)(DCE)網(wǎng)絡(luò)中管理流量控制的 方法、系統(tǒng)和設(shè)備。源節(jié)點與目的地節(jié)點之間的起始序列被攔截,其
中該起始序列用于確定可以用于在源節(jié)點和目的地節(jié)點中接收分組的 緩存信用點。針對源節(jié)點和目的地節(jié)點產(chǎn)生應(yīng)答,其中該應(yīng)答指示的 是可以在散布于源節(jié)點與目的地節(jié)點之間的至少一個擴展數(shù)據(jù)接口中 使用的緩存信用點。該啟動序列根據(jù)來自擴展數(shù)據(jù)接口的應(yīng)答而被完 成。此外,保存在擴展數(shù)據(jù)接口中的數(shù)據(jù)還可以用于鏈路恢復(fù)。
現(xiàn)在參考附圖,其中相同的部件是以相同方式編號的圖l描述的是在數(shù)據(jù)中心以太網(wǎng)(DCE)網(wǎng)絡(luò)中提出的業(yè)務(wù)量合并;圖2描述的是根據(jù)例示實施例的擴展DCE組織;圖3描述的是根據(jù)例示實施例并處于擴展DCE組織中的源節(jié)點 與目的地節(jié)點之間的啟動序列;圖4描述的是根據(jù)例示實施例來向擴展DCE組織中的源節(jié)點和 目的地節(jié)點發(fā)送應(yīng)答;圖5描述的是根據(jù)例示實施例的緩存信用點應(yīng)答以及EDI緩存 數(shù)據(jù)重傳;圖6描述的是根據(jù)例示實施例的擴展DCE組織中的恢復(fù)處理;以及圖7描述的是根據(jù)例示實施例的EDI的詳細視圖。
具體實施方式
可以預(yù)見的是,在經(jīng)由長距離(10千米到約100千米或更遠)的 應(yīng)用中將會用到DCE網(wǎng)絡(luò),其中所述應(yīng)用包括光纖通道存儲局域網(wǎng) 的容災(zāi)恢復(fù)和封裝,該網(wǎng)絡(luò)則可以是用于XRC和全局鏡像應(yīng)用的網(wǎng) 絡(luò)。此外,即使源與目的地的地理距離并不遙遠,DCE網(wǎng)絡(luò)的拓樸結(jié) 構(gòu)也還是有可能需要很大的距離。例如,多交換機組織可以用于互連 相鄰辦公建筑物的不同樓層上的節(jié) 出并以反向傳播信用點為基礎(chǔ)的流量控制未必可以擴展到這些距離。雖然用于DCE的最終規(guī)范尚未發(fā)布,但是可以設(shè)想,對經(jīng)由延伸距 離的以信用點為基礎(chǔ)的流量控制操作來說,其需要的鏈路緩存將會遠 遠多于可以為網(wǎng)絡(luò)接口卡(NIC)設(shè)計所給予的鏈路緩存。即使可以 物理延長這些鏈路,但是高性能仍舊需要始終用數(shù)據(jù)來填充這些鏈路。 否則,緩存信用點不足有可能會導(dǎo)致產(chǎn)生糟糕到無法接受的性能。根據(jù)一個例示實施例,在大型DCE網(wǎng)絡(luò)中,鏈路層上的可靠性 是通過在NIC等級的硬件中管理流量控制以及通過補償延伸距離的 效果來增強的。在圖2中顯示了一個基本的擴展DCE組織100。該組織包括一 個擴展DCE網(wǎng)絡(luò)140,其中分組是經(jīng)由該網(wǎng)絡(luò)傳播的。在圖2中,延 伸距離接口 (EDI) 110a和110b是作為交換機端口表示的,其中該交 換機端口可以具有專為延伸距離設(shè)計的可插式光學(xué)收發(fā)信機。但是, 在這里也可以使用獨立的DCE通道擴展產(chǎn)品或波分復(fù)用器(WDM) 來實施EDI的功能。為了簡化說明,后續(xù)描述主要參考的是如用經(jīng)過 修改的交換機端口實施的EDI。無論是作為交換機端口、獨立產(chǎn)品還 是WDM來實施,該EDI都需要具有經(jīng)由長距離延伸的端口的知識。 舉例來說,該知識既可以通過簡單地讀取與交換才幾端口上的可插式光 學(xué)裝置相關(guān)聯(lián)的重要產(chǎn)品數(shù)據(jù)(VPD)來確定,也可以通過經(jīng)由軟件 管理界面或其他裝置配置該交換機來確定。 一旦確定該知識,那么可 以激活最優(yōu)的緩存信用點管理。在下文中將會參考圖7來對此進行更 詳細的描述。如圖2所示,EDI110a和110b散布于源節(jié)點120與目的地節(jié)點 130之間。源節(jié)點120和目的地節(jié)點130中的每一個包括NIC,并且 經(jīng)由DCE鏈路115和DCE網(wǎng)絡(luò)140來相互通信。雖然在圖中僅僅顯 示并且在這里僅僅描述了兩個EDI,但是應(yīng)該了解,可以使用任何適 當(dāng)數(shù)量的EDI。如圖3所示,EDI110a和110b可以竊聽源節(jié)點120與目的地節(jié) 點130之間的初始化序列。在這個序列中,源節(jié)點120和目的地節(jié)點
130都會確定可供數(shù)據(jù)傳輸使用的緩存信用點,也就是可以在每一個 節(jié)點中用于接收分組的緩存器空間。通常,緩存-緩存信用點(BBC)信息是在節(jié)點之間交換的,由 此每一個節(jié)點將會得知可以在其他節(jié)點中使用的緩存信用點。作為起 始處理的一部分,較小的緩存器(無論是在源節(jié)點還是目的地節(jié)點中) 將會控制可以在節(jié)點之間傳送的數(shù)據(jù)量。如圖3所示,與允許不間斷地進行起始序列不同,EDI 110a和 110b可以攔截來自網(wǎng)絡(luò)140的任何一方的緩存信用點報告。然后,如 圖4所示,EDI 110a和110b可以插入其自身的鏈路初始化響應(yīng),其 中該響應(yīng)實際指示的是可以在EDI中使用的緩存信用點。該結(jié)果可以 被認為是從EDI 110a到源節(jié)點120以及從EDI 110b到目的地節(jié)點130 的"虛擬化"鏈路初始化序列。EDI110a和110b可以包括控制邏輯,如下文中參考圖7所例示 和描述的那樣,該控制邏輯控制緩存信用點信息的攔截和插入。如圖 5所示, 一旦鏈路初始化完成,那么EDI110a、 110b會將其自身的緩 存信用點分別傳送到源節(jié)點120和目的地節(jié)點130,由此源節(jié)點和目 的地節(jié)點都看起來是經(jīng)由很短的鏈路連接的。EDI 110a和110b可以 產(chǎn)生用于指示可用緩存信用點的應(yīng)答,并且將其分別傳送到源節(jié)點 120和目的地節(jié)點130。由于源節(jié)點120和目的地節(jié)點130全都接收到 連續(xù)的緩存信用點確認流,因此,它們將會提供連續(xù)的數(shù)據(jù)分組流。 這樣做將會保持填充長鏈路,并且改進性能。關(guān)于分組傳輸和分組接 收確認的更多細節(jié)是在共同轉(zhuǎn)讓的美國專利申請11/847,965中提供 的,其中該申請在這里引入作為參考。關(guān)于PSN的更多細節(jié)是在共同 轉(zhuǎn)讓的美國專利申請11/426,421中提供的,并且該申請同樣在這里引 入作為參考。這種方法存在的一個顯著問題是在EDI已經(jīng)報告了分組接收 成功之后從鏈路故障中恢復(fù)。根據(jù)一個例示實施例,該恢復(fù)是由EDI 而不是由附屬的源和目的地節(jié)點執(zhí)行的。每一個EDI都被設(shè)計有足夠 大的數(shù)據(jù)緩存器,以便容納例如長達100km的鏈路。如圖6所示,當(dāng)
發(fā)生鏈路錯誤、例如無法遞送分組時,EDI 110a和110b將會辨認出 這種情況,并且執(zhí)行從其自身緩存器中恢復(fù)的處理,由此根據(jù)需要來 重傳分組,以便進行恢復(fù)。這樣一來,恢復(fù)處理并沒有留給源和目的 地節(jié)點,而是由EDI來執(zhí)行的。在圖6中,鏈路錯誤是用附圖標(biāo)記150a 和150c表示的。附圖標(biāo)記150b表示的一種特殊鏈路故障是光損耗(LOL)。這 種鏈路故障可以被假設(shè)成會使在網(wǎng)絡(luò)上傳輸?shù)乃袛?shù)據(jù)無效。在這種 情況下,EDI 110a和110b將會清洗其緩存,無效化傳輸中的分組, 防止將無效分組存儲在緩存器中,以及等待虛擬EDI接口鏈路重新初 始化。EDI110a和110b會將LOL故障分別傳播到源節(jié)點120和目的 地節(jié)點130,由此這些節(jié)點將會停止發(fā)送分組。 一旦EDI將LOL故 障告知源節(jié)點和目的地節(jié)點,那么源節(jié)點和目的地節(jié)點將會清洗其緩 存器。這種鏈路故障處理與先前提出的其它類型的鏈路擴展技術(shù)不同。 根據(jù)例示實施例的鏈路故障恢復(fù)處理將會確保擴展距離鏈路上的端到 端數(shù)據(jù)完整性,同時還在比僅僅使用DCE流量控制所能實現(xiàn)的距離 更長的距離上提供最大性能。圖7描述的是#>據(jù)例示實施例并且如圖2 6所示的EDI的詳細 視圖。EDI 110a、 110b中的每一個都可以包括與在DCE網(wǎng)絡(luò)的交換 機中發(fā)現(xiàn)的組件相類似的組件,例如虛擬產(chǎn)品數(shù)據(jù)(VPD)標(biāo)識組件 710、緩存信用點存儲器730以及控制邏輯750。但是,與傳統(tǒng)的交換 機不同,EDI包括一個專為遠程傳輸設(shè)計的光學(xué)收發(fā)信機740。此夕卜, 緩存信用點存儲器730可以大于那些在傳統(tǒng)交換機中發(fā)現(xiàn)的緩存器, 以便容納那些經(jīng)由長距離接收的數(shù)據(jù)。作為替換,EDI可以借助現(xiàn)有 交換機并且通過插入光學(xué)收發(fā)信機以及使用緩存信用點合并 (pooling )或是將緩存存儲卡與具有更大緩存存儲器的卡相交換來實 施。如果換出緩存存儲卡,那么EDI中的緩存信用點存儲器將被報告 給網(wǎng)絡(luò)中的管理模塊的管理軟件。如果使用的是緩存合并,那么EDI 所需要的信用點總量可以由受網(wǎng)絡(luò)管理員控制的管理模塊來確定。如
果插入新的緩存存儲卡和可插式光學(xué)裝置,那么EDI可以使用VPD 標(biāo)識單元710來對其進行識別。此外,EDI還包括用于鏈路恢復(fù)的邏 輯720。這個用于鏈路恢復(fù)的邏輯從長距離光學(xué)收發(fā)信機740接收一 個關(guān)于鏈路錯誤狀況的指示,并且在與控制邏輯750和緩存信用點存 儲器730擁塞的情況下工作,以便通過恢復(fù)緩存器730或者在LOL 情況下清洗緩存器730,以及通過無效化傳輸中的分組并且等待重新 初始化來從鏈路錯誤中恢復(fù)。根據(jù)例示實施例,在延伸距離上進行的無損DCE的操作將被啟 用。此外,在長鏈路上還可以啟用更高的性能和帶寬利用率。雖然在這里參考例示實施例而對本發(fā)明進行了描述,但是本領(lǐng)域 技術(shù)人員應(yīng)該理解,在沒有脫離本發(fā)明的范圍的情況下,各種變更都 是可行的,并且在這里可以用等價物來替換這些例示實施例的部件。 此外,在不脫離本發(fā)明的本質(zhì)范圍的情況下,在這里可以采取眾多修 改,以使特定的情形或材料適應(yīng)于本發(fā)明的教導(dǎo)。由此,本發(fā)明并不 局限于作為被認為是執(zhí)行本發(fā)明的最佳模式而被公開的特定實施例, 相反,本發(fā)明將會包含落入附加權(quán)利要求范圍以內(nèi)的所有實施例。
權(quán)利要求
1. 一種用于在數(shù)據(jù)中心以太網(wǎng)(DCE)網(wǎng)絡(luò)中管理流量控制的方法,包括在DCE網(wǎng)絡(luò)中的源節(jié)點與目的地節(jié)點之間攔截起始序列,以便確定可以用于接收分組的緩存信用點,其中源節(jié)點和目的地節(jié)點相隔一個延伸距離;產(chǎn)生針對源節(jié)點和目的地節(jié)點的應(yīng)答,該應(yīng)答指示的是在散布于源節(jié)點與目的地節(jié)點之間的至少一個擴展數(shù)據(jù)接口上可用的緩存信用點;根據(jù)來自擴展數(shù)據(jù)接口的應(yīng)答來完成起始序列。
2. 根據(jù)權(quán)利要求1所述的方法,還包括持續(xù)向源節(jié)點和目的 地節(jié)點提供關(guān)于擴展數(shù)據(jù)接口中的可用緩存信用點的應(yīng)答。
3. 根據(jù)權(quán)利要求1所述的方法,其中擴展數(shù)據(jù)接口產(chǎn)生的應(yīng)答 使源節(jié)點和目的地節(jié)點看上去似乎這些節(jié)點之間的鏈路很短。
4. 根據(jù)權(quán)利要求1所述的方法,其中擴展數(shù)據(jù)接口產(chǎn)生的應(yīng)答 被傳送到源節(jié)點和目的地節(jié)點。
5. 根據(jù)權(quán)利要求1所述的方法,其中源節(jié)點與目的地節(jié)點之間 的延伸距離跨越了多鏈路、大規(guī)模的DCE組織。
6. 根據(jù)權(quán)利要求1所述的方法,還包括使用保存在擴展數(shù)據(jù) 接口的緩存器中的數(shù)據(jù)來從鏈路故障中恢復(fù)。
7. 根據(jù)權(quán)利要求6所述的方法,其中如果鏈路故障是光損耗, 那么恢復(fù)步驟包括清洗保存在擴展數(shù)據(jù)接口的緩存器中的分組,無 效化在擴展數(shù)據(jù)接口上接收的分組,以及阻止在緩存器中存儲接收到 的無效分組。
8. —種用于在數(shù)據(jù)中心以太網(wǎng)(DCE)網(wǎng)絡(luò)中管理流程控制的 系統(tǒng),包括源節(jié)點,用于傳送和接收分組;目的地節(jié)點,用于接收分組和傳送分組,其中源節(jié)點和目的地節(jié) 點相隔一個延伸距離;散布在源節(jié)點與目的地節(jié)點之間的至少 一個擴展數(shù)據(jù)接口 ,用于 在DCE網(wǎng)絡(luò)中的源節(jié)點與目的地節(jié)點之間攔截起始序列,以便確定 可以用于接收分組的緩存信用點,其中該擴展數(shù)據(jù)接口產(chǎn)生針對源節(jié) 點和目的地節(jié)點的應(yīng)答,該應(yīng)答指示的是在散布于源節(jié)點與目的地節(jié) 點之間的至少一個擴展數(shù)據(jù)接口上可用的緩存信用點;以及起始序列 是根據(jù)來自擴展數(shù)據(jù)接口的應(yīng)答而被完成的。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中擴展數(shù)據(jù)接口持續(xù)向源節(jié) 點和目的地節(jié)點提供關(guān)于可用緩存信用點的應(yīng)答。
10. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中擴展數(shù)據(jù)接口產(chǎn)生的應(yīng)答 使源節(jié)點和目的地節(jié)點看上去似乎這些節(jié)點之間的鏈路很短。
11. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中擴展數(shù)據(jù)接口產(chǎn)生的應(yīng)答 被傳送到源節(jié)點和目的地節(jié)點。
12. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中源節(jié)點與目的地節(jié)點之間 的延伸距離跨越了多鏈路、大規(guī)模的DCE組織。
13. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中在擴展數(shù)據(jù)接口中可用的 緩存信用點被用于從鏈路故障中恢復(fù)。
14,根據(jù)權(quán)利要求13所述的系統(tǒng),其中如果鏈路故障是光損耗, 那么擴展數(shù)據(jù)接口將會通過清洗保存在擴展數(shù)據(jù)接口的緩存器中的分 組以及通過阻止在緩存器中存儲接收到的無效分組來執(zhí)行恢復(fù)。
15. —種用于在數(shù)據(jù)中心以太網(wǎng)(DCE)網(wǎng)絡(luò)中管理流量控制的 設(shè)備,包括遠程收發(fā)信機,用于在DCE網(wǎng)絡(luò)中的源節(jié)點與目的地節(jié)點之間 攔截起始序列,其中源節(jié)點與目的地節(jié)點相隔一個延伸距離,并且該 設(shè)備散布在源節(jié)點與目的地節(jié)點之間;緩存信用點存儲器,用于存儲分組;以及控制邏輯,用于確定可以在緩存信用點存儲器中用于存儲分組的 緩存信用點,以及產(chǎn)生針對源節(jié)點和目的地節(jié)點的應(yīng)答,其中該應(yīng)答 指示的是在緩存信用點存儲器中可用的緩存信用點,并且其中起始序列是根據(jù)這些應(yīng)答來完成的。
16. 根據(jù)權(quán)利要求15所述的設(shè)備,其中收發(fā)信機持續(xù)向源節(jié)點 和目的地節(jié)點提供關(guān)于可用緩存信用點的應(yīng)答。
17. 根據(jù)權(quán)利要求15所述的設(shè)備,其中控制邏輯產(chǎn)生的應(yīng)答使 源節(jié)點和目的地節(jié)點看上去似乎這些節(jié)點之間的鏈路很短。
18. 根據(jù)權(quán)利要求15所述的設(shè)備,其中控制邏輯產(chǎn)生的應(yīng)答被 收發(fā)信機傳送到源節(jié)點和目的地節(jié)點。
19. 根據(jù)權(quán)利要求15所述的設(shè)備,其中源節(jié)點與目的地節(jié)點之 間的延伸距離跨越了多鏈路、大規(guī)模的DCE組織。
20. 根據(jù)權(quán)利要求15所述的設(shè)備,還包括鏈路恢復(fù)邏輯,其中 該邏輯使用在緩存信用點存儲器中可用的緩存信用點來從鏈路故障中 恢復(fù),并且其中如果鏈路故障是光損耗,那么鏈路恢復(fù)邏輯通過清洗 保存在緩存器中的分組,無效化傳輸中的分組以及阻止在緩存器中保 存接收到的無效分組來執(zhí)行恢復(fù)處理。
全文摘要
本發(fā)明涉及在數(shù)據(jù)中心以太網(wǎng)中的流量控制管理方法、系統(tǒng)和設(shè)備。在數(shù)據(jù)中心以太網(wǎng)(DCE)網(wǎng)絡(luò)中,流量控制是在相隔一個延伸距離的源節(jié)點與目的地節(jié)點之間管理的。源節(jié)點與目的地節(jié)點之間的起始序列被攔截。該起始序列用于確定可以用于在源節(jié)點和目的地節(jié)點中接收分組的緩存信用點。針對源節(jié)點和目的地節(jié)點產(chǎn)生應(yīng)答,該應(yīng)答指示的是可以在散布于源節(jié)點與目的地節(jié)點之間的至少一個擴展數(shù)據(jù)接口中使用的緩存信用點。該啟動序列則是根據(jù)來自擴展數(shù)據(jù)接口的應(yīng)答而被完成的。
文檔編號H04L12/56GK101399770SQ20081014924
公開日2009年4月1日 申請日期2008年9月17日 優(yōu)先權(quán)日2007年9月27日
發(fā)明者C·德庫薩蒂斯, 托馬斯·A.·格里格 申請人:國際商業(yè)機器公司