專利名稱:一種刀片式服務(wù)器系統(tǒng)初始狀態(tài)的順序上下電系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種機(jī)群系統(tǒng)的上下電方法,具體是計(jì)算刀片服務(wù)器系統(tǒng)的上下電策略。
背景技術(shù):
現(xiàn)今的刀片服務(wù)器系統(tǒng)為一種高密度系統(tǒng),通??扇菁{好幾片至十幾、二十片刀片服務(wù)器,電源作為刀片系統(tǒng)的動(dòng)力來源,其安全可靠性直接關(guān)系著整個(gè)系統(tǒng)的性能。由于系統(tǒng)是一個(gè)龐大的耗電系統(tǒng),對(duì)刀片系統(tǒng)的上下電方案的設(shè)計(jì)顯得尤為重要,刀片系統(tǒng)運(yùn)行過程中,需要隨時(shí)監(jiān)測(cè)其各個(gè)模塊的健康狀態(tài)和運(yùn)行狀態(tài),管理員能夠及時(shí)了解系統(tǒng)的運(yùn)行狀況,及時(shí)發(fā)現(xiàn)運(yùn)行過程中出現(xiàn)的異常情況,并進(jìn)行相應(yīng)處理,保證刀片系統(tǒng)的正常運(yùn)行。系統(tǒng)的多臺(tái)刀片需要上電、下電時(shí),由于每個(gè)刀片在上電瞬間存在一個(gè)尖峰電流問題,如果多臺(tái)刀片同時(shí)上電、下電,也會(huì)存在一個(gè)瞬間電流過大的問題。整個(gè)刀片系統(tǒng)是一個(gè)龐大的耗電系統(tǒng),如果同時(shí)上電和下電,對(duì)供電系統(tǒng)電網(wǎng)也會(huì)造成沖擊。
因此,需要設(shè)計(jì)一種計(jì)算刀片服務(wù)器上下電的系統(tǒng)和方法,它使刀片服務(wù)器系統(tǒng)能夠安全穩(wěn)定的上電和下電,并且能夠支持熱插拔操作。消除上下電過程中對(duì)電源系統(tǒng)和外界電網(wǎng)的沖擊,以解決現(xiàn)有的一系列安全問題。
發(fā)明內(nèi)容
本發(fā)明的目的之一是提供一種計(jì)算刀片服務(wù)器上下電的系統(tǒng)和方法,它使刀片服務(wù)器系統(tǒng)在初始狀態(tài)下能夠安全穩(wěn)定的上電和下電。
本發(fā)明的又一目的是提供一種計(jì)算刀片服務(wù)器上下電的方法,它使刀片服務(wù)器系統(tǒng)在運(yùn)行狀態(tài)下能夠安全穩(wěn)定的上電和下電,即支持模塊進(jìn)行熱插拔操作。
為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明所提供的技術(shù)方案的基本構(gòu)思如下本發(fā)明提供一種刀片式服務(wù)器系統(tǒng)的順序上下電系統(tǒng),包括風(fēng)扇、刀片、交換機(jī)、IOE擴(kuò)展模塊,其特殊之處在于還包括,管理模塊,采用“中央集權(quán)”式連接并控制電源系統(tǒng)、IOE擴(kuò)展模塊、交換機(jī)、刀片、風(fēng)扇;電源系統(tǒng),用于上下電順序控制、電源功率分配和回收、電源冗余控制、故障分析和報(bào)警,分為電源管理域和任務(wù)域;其中,所述的電源管理域?yàn)槌跏寄J焦芾碜酉到y(tǒng)供電,電源任務(wù)域?yàn)楦髂K處于正常工作模式下供電。
所述管理模塊對(duì)電源任務(wù)域上電請(qǐng)求采用“申請(qǐng)-審批”的模式,下電請(qǐng)求采用“通知-確認(rèn)”。
所述管理模塊和刀片的連接采用RS485總線,和電源系統(tǒng)、IOE擴(kuò)展模塊、交換機(jī)、風(fēng)扇的連接采用I2C總線。
其中,所述上下電系統(tǒng)能夠支持熱插拔操作,對(duì)于不支持熱插拔的部件,管理模塊立刻對(duì)整個(gè)系統(tǒng)進(jìn)行系統(tǒng)下電處理。
所述支持熱插拔的部件為刀片、管理模塊、千兆交換機(jī)、Infiniband交換機(jī)、帶冗余的電源模塊。
一種刀片式服務(wù)器系統(tǒng)的順序上下電方法,包括步驟系統(tǒng)從靜止?fàn)顟B(tài)(初始狀態(tài))上電aAC輸入接入,電源模塊輸出12v Standby,管理模塊和在線其它模塊的管理子系統(tǒng)開始工作,進(jìn)行整體系統(tǒng)初始化操作;b管理模塊與電源模塊進(jìn)行通訊,判斷在線電源模塊功率額度、狀態(tài)和數(shù)量,管理模塊計(jì)算出電源模塊能夠提供的整體有效功率輸出;c電源模塊工作是否正常c1工作正常時(shí),等待系統(tǒng)上電請(qǐng)求,c2工作不正常時(shí),立刻終止上電過程并報(bào)告相應(yīng)系統(tǒng)錯(cuò)誤;
d有系統(tǒng)上電請(qǐng)求,首先檢測(cè)是否有刀片在線d1有刀片在線,執(zhí)行上電請(qǐng)求,d2沒有刀片在線,終止上電請(qǐng)求,同時(shí)發(fā)送警報(bào);e啟動(dòng)風(fēng)扇模塊是否滿足啟動(dòng)的最低配置要求e1滿足,全速運(yùn)行風(fēng)扇,e2不滿足,立刻終止上電過程并報(bào)告相應(yīng)系統(tǒng)錯(cuò)誤;f檢查風(fēng)扇運(yùn)行是否正常f1運(yùn)行正常,檢測(cè)所有在線模塊,f2運(yùn)行不正常,立刻終止上電過程并報(bào)告相應(yīng)系統(tǒng)錯(cuò)誤;g檢測(cè)刀片是否在線或者請(qǐng)求上電g1有在線或者上電請(qǐng)求,判斷交換機(jī)是否在線,g2沒有刀片在線或者請(qǐng)求上電,降低風(fēng)扇轉(zhuǎn)速等待刀片上電;h檢測(cè)交換機(jī)是否在線h1在線,判斷IOE模塊是否在線,h2不在線,不對(duì)交換機(jī)進(jìn)行初始化上電過程;i判斷IOE模塊是否在線i1在線,給未上電中槽位代碼最低的刀片服務(wù)器上電,同時(shí)給IOE相應(yīng)插槽上電,i2不在線,給未上電中槽位代碼最低的刀片服務(wù)器上電;j檢測(cè)還有無刀片請(qǐng)求上電j1有,繼續(xù)執(zhí)行一下操作,j2無,跳到l步;k每上完一個(gè)刀片,根據(jù)當(dāng)前功率分配實(shí)際的分配情況來判斷是否可以允許下一個(gè)刀片上電k1允許,跳到i步,繼續(xù)為下一個(gè)槽位刀片上電,k2不允許,報(bào)錯(cuò)終止上電操作;l根據(jù)系統(tǒng)運(yùn)行狀況調(diào)整風(fēng)扇轉(zhuǎn)速,系統(tǒng)整體初始化上電完畢。
系統(tǒng)從運(yùn)行狀態(tài)(初始狀態(tài))下電m刀片系統(tǒng)處于運(yùn)行態(tài);n接收到系統(tǒng)下電請(qǐng)求;o判斷是否有IOE模塊在線o1有,管理模塊向刀片服務(wù)器和IOE模塊相應(yīng)PCI-E插槽廣播下電要求,o2沒有,管理模塊向刀片服務(wù)器廣播下電要求;p等待所有刀片和IOE相應(yīng)槽位下電確認(rèn);q通知交換機(jī)下電;r等待交換機(jī)下電確認(rèn);s通知風(fēng)扇下電;t等待風(fēng)扇下電確認(rèn);u通知電源模塊停止12v輸出,下電過程完成。
在運(yùn)行態(tài)(熱插拔)的模塊上電順序運(yùn)行的刀片系統(tǒng)中插入HPPM;計(jì)算功率分配余額,是否允許HPPM上電,是,判斷是否刀片在線,否,給出系統(tǒng)警告,同時(shí)停止系統(tǒng)上電;判斷是否刀片在線,是,判斷是否含有IOE模塊,否,給交換機(jī)模塊上電;是否含有IOE模塊,是,給發(fā)出上電請(qǐng)求的刀片服務(wù)器上電,同時(shí)IOE相應(yīng)插槽上電,否,給發(fā)出上電請(qǐng)求的刀片服務(wù)器上電;HPPM上電完畢;根據(jù)系統(tǒng)最終運(yùn)行情況調(diào)整各風(fēng)扇轉(zhuǎn)速。
在運(yùn)行態(tài)(熱插拔)的模塊下電順序下電模塊提出申請(qǐng);管理模塊批準(zhǔn);模塊下電并發(fā)出確認(rèn)消息;管理模塊進(jìn)行功率回收;模塊下電完成。
所述的系統(tǒng)初始狀態(tài)順序上下電方法,其中,所述的上電前電源功率預(yù)分配的步驟分兩步功能模塊把自身在固定Flash中的存儲(chǔ)的最大滿配情況的功率需求發(fā)送給管理模塊進(jìn)行審批,等刀片完成了BIOS自檢之后還要進(jìn)行電源功率實(shí)際分配的申請(qǐng)給管理模塊。
與現(xiàn)有的技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)及有益效果1、采用初始狀態(tài)上下電策略和運(yùn)行狀態(tài)上下電策略使整個(gè)刀片系統(tǒng)能夠安全可靠的運(yùn)行;2、PTD各個(gè)模塊處于正常工作模式下,由管理模塊進(jìn)行“中央集權(quán)式”控制模式,上電采用“申請(qǐng)-審批”模式,下電采用“通知-確認(rèn)”模式,即支持熱插拔操作;3、系統(tǒng)初始狀態(tài)順序上下電方法中,上電前電源功率預(yù)分配的步驟分兩步,這兩步電源分配的策略一方面可以保證刀片不會(huì)誤上電,另外一方面可以保證有功耗使用的精確性,使功耗分配更加合理;4、對(duì)于上電權(quán)限的獲取,采用一次上電一次權(quán)限獲取的機(jī)制,這樣可以保證不會(huì)導(dǎo)致刀片誤上電操作,因?yàn)槊看紊想姸夹枰淮涡碌纳暾?qǐng);一旦申請(qǐng)成功,在不下電的情況下(即使重啟),因?yàn)闆]有改變電源功率分配,也不用再次申請(qǐng),減少通訊次數(shù);本發(fā)明采用上述刀片服務(wù)器順序上下電策略,解決了上電、下電時(shí),由于每個(gè)刀片在上電瞬間存在一個(gè)尖峰電流問題,和存在一個(gè)瞬間電流過大的問題,且消除上下電過程中對(duì)電源系統(tǒng)和外界電網(wǎng)的沖擊,以解決現(xiàn)有的一系列安全問題;本發(fā)明可廣泛應(yīng)用于具有多個(gè)至二十個(gè)刀片的服務(wù)器系統(tǒng)中。
圖1是本發(fā)明的管理系統(tǒng)通訊總線結(jié)構(gòu)示意圖;圖2是本發(fā)明的電源電壓分布示意圖;圖3是本發(fā)明的系統(tǒng)初始狀態(tài)上電順序示意圖;圖4是本發(fā)明的系統(tǒng)初始狀態(tài)下電順序示意圖;圖5是本發(fā)明的系統(tǒng)運(yùn)行狀態(tài)上電順序示意圖;圖6是本發(fā)明的系統(tǒng)運(yùn)行狀態(tài)下電順序示意圖。
具體實(shí)施例方式
下面結(jié)合附圖,對(duì)本發(fā)明作進(jìn)一步說明。
參見圖1至圖6電源系統(tǒng)負(fù)責(zé)給整個(gè)刀片系統(tǒng)中各個(gè)模塊和機(jī)箱提供電源,進(jìn)行上電順序控制和電源功率分配;下電順序控制和功率回收;電源冗余控制,電源模塊故障分析、報(bào)警。電源系統(tǒng)采用兩種電壓的工作模式把電源系統(tǒng)整體分為兩個(gè)工作域電源管理域(Power Management DomainPMD)和電源任務(wù)域(PowerTask DomainPTD)。
本發(fā)明一種刀片式服務(wù)器系統(tǒng)的順序上下電系統(tǒng),包括風(fēng)扇(FAN)、刀片(Blade)、交換機(jī)(SW)、IOE擴(kuò)展模塊,其特殊之處在于還包括管理模塊(MM),采用“中央集權(quán)”式連接并控制電源系統(tǒng)、IOE擴(kuò)展模塊、交換機(jī)、刀片、風(fēng)扇;電源系統(tǒng)(PS),用于上下電順序控制、電源功率分配和回收、電源冗余控制、故障分析和報(bào)警,分為電源管理域和任務(wù)域;其中,所述的電源管理域?yàn)槌跏寄J焦芾碜酉到y(tǒng)供電,采用電源模塊的12v Standby電源部分,只要電源模塊存在AC輸入,整個(gè)PMD就有功率輸出,相應(yīng)管理子系統(tǒng)就能正常工作,這里的上電并不受管理模塊控制;電源任務(wù)域?yàn)楦髂K處于正常工作模式下供電,例如刀片服務(wù)器的CPU、內(nèi)存、硬盤等部件就采用PTD電源供電,這些系統(tǒng)統(tǒng)一來自于電源模塊的12v,同時(shí)上下電受到PMD中的管理子系統(tǒng)控制和管理。對(duì)于PTD部分電源系統(tǒng)是由管理模塊進(jìn)行“中央集權(quán)式”的控制模式。
所述管理模塊對(duì)電源任務(wù)域上電請(qǐng)求采用“申請(qǐng)-審批”的模式,下電請(qǐng)求采用“通知-確認(rèn)”,其它模塊如果要做出對(duì)PTD狀態(tài)的改變,特別是對(duì)于上電的請(qǐng)求,必須首先向管理模塊提出申請(qǐng),經(jīng)過管理模塊審批之后,采取相應(yīng)操作,上電采用的是“申請(qǐng)-審批”模式,而對(duì)于下電控制,由于下電并不需要新的功率資源,所以采用的是“通知-確認(rèn)”模式,含義就是一方面管理模塊可以通知刀片和其它各個(gè)模塊需要進(jìn)行下電控制,另外也可以發(fā)過來刀片和其它各個(gè)模塊發(fā)送下電通知給管理模塊,并自行決定下電不等管理模塊的確認(rèn),比如在散熱中非常緊急的情況,刀片服務(wù)器可以自行決定下電操作。
所述管理模塊和刀片的連接采用RS485總線,和電源系統(tǒng)、IOE擴(kuò)展模塊、交換機(jī)、風(fēng)扇的連接采用I2C總線,電源系統(tǒng)管理是通過各種電源管理命令來實(shí)現(xiàn)的,而電源管理命令以數(shù)據(jù)幀的格式在管理系統(tǒng)各種總線上傳遞,系統(tǒng)管理總線體現(xiàn)集中控制的思想,即各種設(shè)備都通過工業(yè)總線和管理模塊進(jìn)行連接,彼此之間并沒有連接。
所述上下電系統(tǒng)能夠支持熱插拔操作,對(duì)于不支持熱插拔的部件,管理模塊立刻對(duì)整個(gè)系統(tǒng)進(jìn)行系統(tǒng)下電處理。
所述支持熱插拔的部件為刀片、管理模塊、千兆交換機(jī)、Infiniband交換機(jī)、帶冗余的電源模塊,除此之外,不再有任何熱插拔部件,對(duì)于熱插拔的部件,有管理模塊按照正常上下電順序進(jìn)行控制,對(duì)于不支持熱插拔的部件一旦被拔除,管理模塊立刻對(duì)整個(gè)系統(tǒng)進(jìn)行下電處理,即當(dāng)IOE模塊,或拔除過多不再冗余的電源模塊就立刻又管理模塊進(jìn)行系統(tǒng)下電處理。
根據(jù)刀片系統(tǒng)狀態(tài)的劃分,上電順序分為兩種第一種,從靜止態(tài)開始的整個(gè)刀片系統(tǒng)的上電順序;第二種,在運(yùn)行態(tài)的單個(gè)可以熱插拔模塊上電順序。刀片系統(tǒng)上電按鈕功能定義如下系統(tǒng)總上電按鈕功能由管理模塊軟件配置,缺省情況下僅上電機(jī)箱、風(fēng)扇等;刀片上電按鈕僅僅為指定刀片上電,總按鈕沒有操作,無法上電。整個(gè)刀片系統(tǒng)的上電順序是系統(tǒng)安全能夠安全可靠運(yùn)行的重要保證,也是系統(tǒng)從靜止態(tài)到運(yùn)行態(tài)轉(zhuǎn)換的過程。刀片系統(tǒng)上電的初始必要條件是至少有一個(gè)電源模塊存在于刀片系統(tǒng)中;至少有一個(gè)管理模塊存在于刀片系統(tǒng)中需要至少一個(gè)刀片服務(wù)器模塊在線。初始條件是指到刀片系統(tǒng)在沒有接入AC輸入的情況為初始條件,在這種情況下插入任意組合的模塊的上電順序。狀態(tài)輸入系統(tǒng)上電請(qǐng)求,可以來自系統(tǒng)上電請(qǐng)求按鈕,也可以來自管理模塊提供的管理界面的上電請(qǐng)求。上電的基本思想是管理模塊上電-風(fēng)扇上電-交換機(jī)上電-刀片和IOE同時(shí)上電。
一種刀片式服務(wù)器系統(tǒng)的順序上下電方法,具體步驟系統(tǒng)從靜止?fàn)顟B(tài)(初始狀態(tài))上電aAC輸入接入,電源模塊輸出12V Standby,管理模塊和在線其它模塊的管理子系統(tǒng)開始工作,進(jìn)行整體系統(tǒng)初始化操作;b管理模塊與電源模塊進(jìn)行通訊,判斷在線電源模塊功率額度、狀態(tài)和數(shù)量,管理模塊計(jì)算出電源模塊能夠提供的整體有效功率輸出;c電源模塊工作是否正常c1工作正常時(shí),等待系統(tǒng)上電請(qǐng)求,c2工作不正常時(shí),立刻終止上電過程并報(bào)告相應(yīng)系統(tǒng)錯(cuò)誤;d有系統(tǒng)上電請(qǐng)求,首先檢測(cè)是否有刀片在線d1有刀片在線,執(zhí)行上電請(qǐng)求,d2沒有刀片在線,終止上電請(qǐng)求,同時(shí)發(fā)送警報(bào);e啟動(dòng)風(fēng)扇模塊是否滿足啟動(dòng)的最低配置要求(最低配置要求可以根據(jù)刀片的Present-Detect引腳來確定風(fēng)道,從而確定風(fēng)扇最低配置)e1滿足,全速運(yùn)行風(fēng)扇,e2不滿足,立刻終止上電過程并報(bào)告相應(yīng)系統(tǒng)錯(cuò)誤;
f檢查風(fēng)扇運(yùn)行是否正常f1運(yùn)行正常,檢測(cè)所有在線模塊,f2運(yùn)行不正常,立刻終止上電過程并報(bào)告相應(yīng)系統(tǒng)錯(cuò)誤;g檢測(cè)刀片是否在線或者請(qǐng)求上電g1有在線或者上電請(qǐng)求,判斷交換機(jī)是否在線,g2沒有刀片在線或者請(qǐng)求上電,降低風(fēng)扇轉(zhuǎn)速等待刀片上電;h檢測(cè)交換機(jī)是否在線h1在線,判斷IOE模塊是否在線,h2不在線,不對(duì)交換機(jī)進(jìn)行初始化上電過程;i判斷IOE模塊是否在線i1在線,給未上電中槽位代碼最低的刀片服務(wù)器上電,同時(shí)給IOE相應(yīng)插槽上電(保證主機(jī)和PCI-E接口上電同步),i2不在線,給未上電中槽位代碼最低的刀片服務(wù)器上電;j檢測(cè)還有無刀片請(qǐng)求上電j1有,繼續(xù)執(zhí)行一下操作,j2無,跳到l步;k每上完一個(gè)刀片(如果有IOE,那么就包括相應(yīng)PCI-E插槽),根據(jù)當(dāng)前功率分配實(shí)際的分配情況來判斷是否可以允許下一個(gè)刀片上電k1允許,跳到i步,繼續(xù)為下一個(gè)槽位刀片上電,k2不允許,報(bào)錯(cuò)終止上電操作;l根據(jù)系統(tǒng)運(yùn)行狀況調(diào)整風(fēng)扇轉(zhuǎn)速,系統(tǒng)整體初始化上電完畢。
在對(duì)于第一個(gè)刀片上電的時(shí)候,并沒有做出功率計(jì)算,是建立在一個(gè)電源模塊能夠支持至少一個(gè)刀片服務(wù)器和所有其他輔助模塊的假設(shè)前提下,如果這個(gè)假設(shè)不成立則需要在第一個(gè)刀片上電前進(jìn)行計(jì)算,對(duì)于功率分配計(jì)算分為兩步,第一步是上電前的電源功率預(yù)分配,在這一步功能模塊是把自身在固定Flash中的存儲(chǔ)的最大滿配情況的功率需求發(fā)送給管理模塊進(jìn)行審批,這里說明的是滿配并不代表實(shí)際配置。所以等刀片完成了BIOS自檢之后還要進(jìn)行電源功率實(shí)際分配的申請(qǐng)給管理模塊,這是第二步電源分配結(jié)果。比如根據(jù)不同的配置,刀片中可以插入8條內(nèi)存、4條內(nèi)存、2條內(nèi)存或者兩塊或者一塊硬盤,甚至將來的單雙CPU不同,對(duì)于功耗還是有明顯差異的。這種兩步電源分配的策略一方面可以保證刀片不會(huì)誤上電(最大滿配功耗),另外一方面可以保證有功耗使用的精確性,是功耗分配更加合理。
下電過程與上電過程相對(duì),也分兩種第一種,從運(yùn)行態(tài)開始的整個(gè)刀片系統(tǒng)的下電順序,第二種,在運(yùn)行態(tài)的單個(gè)模塊下電順序。
刀片系統(tǒng)整體初始下電順序,初始條件是指當(dāng)?shù)镀到y(tǒng)在運(yùn)行的情況為初始條件(至少有一個(gè)刀片在運(yùn)行),狀態(tài)輸入系統(tǒng)下電請(qǐng)求,可以來自系統(tǒng)電源按鈕請(qǐng)求下電,也可以來自管理模塊提供的管理界面的上電請(qǐng)求,下電的基本思想是刀片和IOE同時(shí)下電-交換機(jī)下電-風(fēng)扇下電-電源模塊停止輸出12v電壓回到靜止態(tài)。
系統(tǒng)從運(yùn)行狀態(tài)(初始狀態(tài))下電具體步驟m刀片系統(tǒng)處于運(yùn)行態(tài);n接收到系統(tǒng)下電請(qǐng)求;o判斷是否有IOE模塊在線o1有,管理模塊向刀片服務(wù)器和IOE模塊相應(yīng)PCI-E插槽廣播下電要求,o2沒有,管理模塊向刀片服務(wù)器廣播下電要求;p等待所有刀片和IOE相應(yīng)槽位下電確認(rèn);q通知交換機(jī)下電;r等待交換機(jī)下電確認(rèn);s通知風(fēng)扇下電;t等待風(fēng)扇下電確認(rèn);u通知電源模塊停止12v輸出,下電過程完成。
當(dāng)?shù)镀?wù)器處于運(yùn)行態(tài)時(shí),單獨(dú)的模塊可以進(jìn)行熱插拔操作,所以也存在一定的上電時(shí)序問題。能夠熱插拔的模塊有刀片、交換機(jī)、管理模塊,對(duì)于冗余電源單獨(dú)考慮。對(duì)于刀片和交換機(jī)由于都工作在PTD中,可以采用相同的策略上電,這里統(tǒng)一采用HPPM(Hot Plug&Play Module)表示。而管理模塊由于工作在PMD中,所以在設(shè)計(jì)PMD輸出功率大于兩個(gè)管理模塊時(shí)的情況,就可以直接上電了。
在運(yùn)行態(tài)(熱插拔)的模塊上電順序運(yùn)行的刀片系統(tǒng)中插入HPPM;計(jì)算功率分配余額,是否允許HPPM上電,是,判斷是否刀片在線,否,給出系統(tǒng)警告,同時(shí)停止系統(tǒng)上電;判斷是否刀片在線,是,判斷是否含有IOE模塊,否,給交換機(jī)模塊上電;是否含有IOE模塊,是,給發(fā)出上電請(qǐng)求的刀片服務(wù)器上電,同時(shí)IOE相應(yīng)插槽上電,否,給發(fā)出上電請(qǐng)求的刀片服務(wù)器上電;HPPM上電完畢;根據(jù)系統(tǒng)最終運(yùn)行情況調(diào)整各風(fēng)扇轉(zhuǎn)速。
上電策略采用“申請(qǐng)-審批”的模式,各個(gè)模塊首先提供自身需求的功率數(shù)目給管理模塊,管理模塊在根據(jù)目前功率余額進(jìn)行審批,如果功率余額不夠,則不進(jìn)行上電審批,否則給予上電批準(zhǔn)。對(duì)于上電權(quán)限的獲取,采用一次上電一次權(quán)限獲取的機(jī)制。這樣的做法可以保證第一、不會(huì)導(dǎo)致刀片誤上電操作,因?yàn)槊看紊想姸夹枰淮涡碌纳暾?qǐng)。第二、一旦申請(qǐng)成功,在不下電的情況下(即使重啟),因?yàn)闆]有改變電源功率分配,也不用再次申請(qǐng),減少通訊次數(shù)。
在運(yùn)行態(tài)的模塊下電的基本思想是下電模塊提出申請(qǐng)-管理模塊批準(zhǔn)-模塊下電,并發(fā)出確認(rèn)消息-管理模塊進(jìn)行功率回收,模塊下電完成。這里需要注意的是,當(dāng)沒有一個(gè)管理模塊在線時(shí),也要支持下電操作,即如果下電模塊連續(xù)三次發(fā)送請(qǐng)求不能得到批準(zhǔn),就認(rèn)為管理模塊不在線(考慮是否要增加管理模塊在線位),就立即由本地管理系統(tǒng)進(jìn)行下電操作。當(dāng)下電模塊是最后一個(gè)刀片服務(wù)器時(shí),進(jìn)行系統(tǒng)下電步驟,關(guān)閉整個(gè)系統(tǒng)。下電策略中主要采用的是“通知-確認(rèn)”模式,不同于上電策略,主要是計(jì)算功率回收問題。對(duì)于電源模塊由于采用全定制的電源模塊設(shè)計(jì)方案,為此需要指定相關(guān)電源功能,電源接口和相關(guān)通訊協(xié)議部件。電源功能定義最大輸出功率4800W;支持N+1電源冗余模式,除非僅有一個(gè)電源,否則一定有一個(gè)電源模塊為冗余配置,并且能夠在電源出現(xiàn)故障時(shí),自動(dòng)完成冗余切換;能夠提供相關(guān)狀態(tài)信息,包括輸出電壓值、電源模塊溫度值、電源模塊最大輸出功率、電源模塊功率使用情況、電源模塊健康信息,即冗余情況;電源接口總線I2C總線;電源通訊協(xié)議TBD。
在運(yùn)行態(tài)(熱插拔)的模塊下電順序下電模塊提出申請(qǐng);管理模塊批準(zhǔn);模塊下電并發(fā)出確認(rèn)消息;管理模塊進(jìn)行功率回收;模塊下電完成。
最后應(yīng)當(dāng)說明的是以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對(duì)其限制,盡管參照上述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解依然可以對(duì)本發(fā)明的具體實(shí)施方式
進(jìn)行修改或者等同替換,而未脫離本發(fā)明精神和范圍的任何修改或者等同替換,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1.一種刀片式服務(wù)器系統(tǒng)初始狀態(tài)的順序上下電系統(tǒng),包括風(fēng)扇、刀片、交換機(jī)、IOE擴(kuò)展模塊,其特征在于還包括,管理模塊,采用“中央集權(quán)”式連接并控制電源系統(tǒng)、IOE擴(kuò)展模塊、交換機(jī)、刀片、風(fēng)扇;電源系統(tǒng),用于上下電順序控制、電源功率分配和回收、電源冗余控制、故障分析和報(bào)警,分為電源管理域和任務(wù)域;其中,所述的電源管理域?yàn)槌跏寄J焦芾碜酉到y(tǒng)供電,電源任務(wù)域?yàn)楦髂K處于正常工作模式下供電。
2.如權(quán)利要求1所述的系統(tǒng),其中,所述管理模塊對(duì)電源任務(wù)域上電請(qǐng)求采用“申請(qǐng)-審批”的模式,下電請(qǐng)求采用“通知-確認(rèn)”。
3.如權(quán)利要求1所述的系統(tǒng),其中,所述管理模塊和刀片的連接采用RS485總線,和電源系統(tǒng)、IOE擴(kuò)展模塊、交換機(jī)、風(fēng)扇的連接采用I2C總線。
4.如權(quán)利要求1所述的系統(tǒng),其中,所述上下電系統(tǒng)能夠支持熱插拔操作,對(duì)于不支持熱插拔的部件,管理模塊立刻對(duì)整個(gè)系統(tǒng)進(jìn)行系統(tǒng)下電處理。
5.如權(quán)利要求4所述的系統(tǒng),其中,所述支持熱插拔的部件為刀片、管理模塊、千兆交換機(jī)、Infiniband交換機(jī)、帶冗余的電源模塊。
6.一種刀片式服務(wù)器系統(tǒng)初始狀態(tài)的順序上下電方法,包括步驟系統(tǒng)從靜止?fàn)顟B(tài)上電aAC輸入接入,電源模塊輸出12V Standby,管理模塊和在線其它模塊的管理子系統(tǒng)開始工作,進(jìn)行整體系統(tǒng)初始化操作;b管理模塊與電源模塊進(jìn)行通訊,判斷在線電源模塊功率額度、狀態(tài)和數(shù)量,管理模塊計(jì)算出電源模塊能夠提供的整體有效功率輸出;c電源模塊工作是否正常c1工作正常時(shí),等待系統(tǒng)上電請(qǐng)求,c2工作不正常時(shí),立刻終止上電過程并報(bào)告相應(yīng)系統(tǒng)錯(cuò)誤;d有系統(tǒng)上電請(qǐng)求,首先檢測(cè)是否有刀片在線d1有刀片在線,執(zhí)行上電請(qǐng)求,d2沒有刀片在線,終止上電請(qǐng)求,同時(shí)發(fā)送警報(bào);e啟動(dòng)風(fēng)扇模塊是否滿足啟動(dòng)的最低配置要求e1滿足,全速運(yùn)行風(fēng)扇,e2不滿足,立刻終止上電過程并報(bào)告相應(yīng)系統(tǒng)錯(cuò)誤;f檢查風(fēng)扇運(yùn)行是否正常f1運(yùn)行正常,檢測(cè)所有在線模塊,f2運(yùn)行不正常,立刻終止上電過程并報(bào)告相應(yīng)系統(tǒng)錯(cuò)誤;g檢測(cè)刀片是否在線或者請(qǐng)求上電g1有在線或者上電請(qǐng)求,判斷交換機(jī)是否在線,g2沒有刀片在線或者請(qǐng)求上電,降低風(fēng)扇轉(zhuǎn)速等待刀片上電;h檢測(cè)交換機(jī)是否在線h1在線,判斷IOE模塊是否在線,h2不在線,不對(duì)交換機(jī)進(jìn)行初始化上電過程;i判斷IOE模塊是否在線i1在線,給未上電中槽位代碼最低的刀片服務(wù)器上電,同時(shí)給IOE相應(yīng)插槽上電,i2不在線,給未上電中槽位代碼最低的刀片服務(wù)器上電;j檢測(cè)還有無刀片請(qǐng)求上電j1有,繼續(xù)執(zhí)行一下操作,j2無,跳到e步;k每上完一個(gè)刀片,根據(jù)當(dāng)前功率分配實(shí)際的分配情況來判斷是否可以允許下一個(gè)刀片上電k1允許,跳到i步,繼續(xù)為下一個(gè)槽位刀片上電,k2不允許,報(bào)錯(cuò)終止上電操作;e根據(jù)系統(tǒng)運(yùn)行狀況調(diào)整風(fēng)扇轉(zhuǎn)速,系統(tǒng)整體初始化上電完畢;系統(tǒng)從運(yùn)行狀態(tài)下電m刀片系統(tǒng)處于運(yùn)行態(tài);n接收到系統(tǒng)下電請(qǐng)求;o判斷是否有IOE模塊在線o1有,管理模塊向刀片服務(wù)器和IOE模塊相應(yīng)PCI-E插槽廣播下電要求,o2沒有,管理模塊向刀片服務(wù)器廣播下電要求;p等待所有刀片和IOE相應(yīng)槽位下電確認(rèn);q通知交換機(jī)下電;r等待交換機(jī)下電確認(rèn);s通知風(fēng)扇下電;t等待風(fēng)扇下電確認(rèn);u通知電源模塊停止12v輸出,下電過程完成。
7.如權(quán)利要求6所述的系統(tǒng)順序上下電方法,其中,所述的上電前電源功率預(yù)分配的步驟分兩步功能模塊把自身在固定Flash中的存儲(chǔ)的最大滿配情況的功率需求發(fā)送給管理模塊進(jìn)行審批,等刀片完成了BIOS自檢之后還要進(jìn)行電源功率實(shí)際分配的申請(qǐng)給管理模塊。
全文摘要
一種刀片式服務(wù)器系統(tǒng)初始狀態(tài)的順序上下電系統(tǒng)和方法,包括風(fēng)扇、刀片、交換機(jī)、IOE擴(kuò)展模塊、管理模塊、電源系統(tǒng),電源系統(tǒng)分為為初始模式管理子系統(tǒng)供電的電源管理域和為各模塊處于正常工作模式下供電的電源任務(wù)域;系統(tǒng)在初始狀態(tài)下和運(yùn)行狀態(tài)下(即支持模塊進(jìn)行熱插拔操作)能夠安全穩(wěn)定的上電和下電;采用本發(fā)明的方法解決了上電、下電時(shí),由于每個(gè)刀片在上電瞬間存在一個(gè)尖峰電流問題,和存在一個(gè)瞬間電流過大的問題,且消除上下電過程中對(duì)電源系統(tǒng)和外界電網(wǎng)的沖擊,以解決現(xiàn)有的一系列安全問題。
文檔編號(hào)G06F1/26GK1987734SQ20061014413
公開日2007年6月27日 申請(qǐng)日期2006年11月28日 優(yōu)先權(quán)日2006年11月28日
發(fā)明者沙超群, 曾宇, 李華 申請(qǐng)人:曙光信息產(chǎn)業(yè)(北京)有限公司