專利名稱:克服單元管理層服務(wù)器中故障的方法和計算機產(chǎn)品的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電信網(wǎng)絡(luò)中的單元管理層服務(wù)器的領(lǐng)域,并且特別涉及用于自動克服這種服務(wù)器中可能的故障的方法。此外,本發(fā)明涉及適于執(zhí)行所述方法步驟的計算機產(chǎn)品。
背景技術(shù):
如在電信現(xiàn)有技術(shù)中公知的那樣,網(wǎng)絡(luò)單元至少部分上是由服務(wù)器通過適當(dāng)?shù)能浖ぞ邅砉芾淼?。在電信管理網(wǎng)絡(luò)(TMN)層次中組織所述管理軟件工具,其在于創(chuàng)建用于監(jiān)控且管理電信設(shè)備的分層結(jié)構(gòu)的一組標(biāo)準(zhǔn)化協(xié)議,這因而可以將高復(fù)雜度的網(wǎng)絡(luò)作為單個凝聚單元來管理。TMN層次的較低管理層存在于單元管理層中,簡稱為“EML”。EML例如處理管理告警、配置網(wǎng)絡(luò)裝置、執(zhí)行備份和恢復(fù)機制(用于數(shù)據(jù)和軟件)并收集性能監(jiān)控信息(對功率消耗、溫度、可用資源及其它的檢測)。
由于不同的原因,EML服務(wù)器可能產(chǎn)生問題。例如,當(dāng)網(wǎng)絡(luò)單元的配置數(shù)據(jù)和/或配置順序與所設(shè)計的不一致時,EML服務(wù)器將出現(xiàn)故障。也可能由于軟件錯誤(bug)而使EML服務(wù)器出現(xiàn)故障。
現(xiàn)在,當(dāng)問題產(chǎn)生時,服務(wù)器變得完全失敗。通常,電信服務(wù)提供商不能克服問題并且聯(lián)系基礎(chǔ)設(shè)施的設(shè)計者/提供商。當(dāng)有時基礎(chǔ)設(shè)施提供商能夠相當(dāng)容易地克服問題時,從問題通知到問題解決的時間可能達(dá)到幾個小時或幾天。這正是由于服務(wù)提供商必須檢測問題并將問題通知給電信基礎(chǔ)設(shè)施提供商;基礎(chǔ)設(shè)施提供商還必須找到合適的解決方案,可能通過測試內(nèi)部服務(wù)器;并且最終,基礎(chǔ)設(shè)施提供商必須相應(yīng)地指示服務(wù)提供商。最終,服務(wù)提供商必須采取所建議的行動。
申請者已經(jīng)觀察到,從問題檢測到問題解決消耗的時間是非常長,并且能夠有利地減少,這因而減小了整個電信網(wǎng)絡(luò)的操作和維護(hù)成本(操作支出或“OPEX”)。因此,申請者必須面對減小電信網(wǎng)絡(luò)的OPEX的一般問題。更詳細(xì)地,所述問題是如何減少電信網(wǎng)絡(luò)中的EML服務(wù)器的維護(hù)時間和停工期(downtime)。從服務(wù)提供商的角度出發(fā),較快地反饋未預(yù)見的錯誤十分關(guān)鍵。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的方法和計算機產(chǎn)品解決了所述和其它問題。在各個附屬權(quán)利要求中闡述了本發(fā)明的其它有利特征。所有權(quán)利要求被認(rèn)為是本說明書的完整部分。
根據(jù)本發(fā)明的第一方面,提供了一種用于自動克服EML服務(wù)器中的故障或錯誤的新的方法。最后,根據(jù)本發(fā)明的第二方面,提供了一種新的計算機產(chǎn)品。
根據(jù)所述新的方法,所述EML服務(wù)器由具有基本上相同的基本結(jié)構(gòu)的幾個激活的單元所組成。此外,通過錯誤收集器和錯誤監(jiān)視器提供了用于所有單元的公共錯誤管理。所述單元周期性地發(fā)送錯誤和狀態(tài)信息給所述錯誤收集器。該錯誤收集器通過處理來自該單元的信息,能夠確定單元是否受到錯誤的影響。然后發(fā)送被處理的錯誤和狀態(tài)信息給所述錯誤監(jiān)視器,該錯誤監(jiān)視器進(jìn)一步處理所述信息,并且通過合適的故障模型來決定要在受錯誤影響的單元上執(zhí)行的繞過操作動作(workaround action)。最終執(zhí)行該繞過操作動作,而不需要外部操作者的任何人工介入。
通過根據(jù)本發(fā)明的方法,簡化了EML服務(wù)器中的管理錯誤檢測和繞過操作過程。更具體地,所述類型的方法允許錯誤的自檢測和繞過操作的自動激活。如果所述自動繞過操作是成功的,則服務(wù)提供商和網(wǎng)絡(luò)提供商不必花費時間來解決問題。此外,在所述自動繞過操作沒有解決錯誤的情況下,網(wǎng)絡(luò)提供商將能夠針對這種錯誤較快地找到解決方案,這是由于可以先驗丟棄關(guān)于錯誤原因的若干假設(shè)。因此,在所述兩種情況下,根據(jù)本發(fā)明的EML服務(wù)器允許電信網(wǎng)絡(luò)的OPEX的減小。
根據(jù)本發(fā)明的第一方面,提供了一種用于自動克服EML服務(wù)器中的故障或錯誤的方法。所述方法包括以下步驟在所述EML服務(wù)器中標(biāo)識一個或多個單元;提供錯誤收集器;提供錯誤監(jiān)視器;定義故障模型;將單元的狀態(tài)通知給所述錯誤收集器;在所述錯誤監(jiān)視器中,通過所述故障模型來處理單元狀態(tài)信息;以及通過所述錯誤監(jiān)視器,將要采用的繞過操作動作指示給所述單元。
將所述單元狀態(tài)通知給所述錯誤收集器的步驟,優(yōu)選地由發(fā)送狀態(tài)和/或錯誤指示消息給所述錯誤收集器的所述單元來執(zhí)行。
優(yōu)選地,所述方法還包括在所述EML服務(wù)器中標(biāo)識一個或多個核心單元的步驟,所述核心單元能夠發(fā)送不同的核心度量(core metric)給所述錯誤收集器。
優(yōu)選地,所述通過故障模型來處理單元狀態(tài)信息的步驟,包括從預(yù)定的繞過操作動作集合中選擇繞過操作動作。
所述故障模型可以是靜態(tài)的、動態(tài)的或概率的。
所述錯誤監(jiān)視器可以有利地將所采取的繞過操作動作存儲到合適的日志(log)或存儲器中。
有利地,每個子部件與所述錯誤收集器獨立地通信,并且根據(jù)來自所述錯誤監(jiān)視器的指令來執(zhí)行繞過操作動作。
所述方法還包括這樣的步驟為所述單元中的每一個標(biāo)識單元類型;以及為每個單元類型定義預(yù)定繞過操作動作的集合。所述預(yù)定繞過操作動作的集合可以包括繞過操作動作,該繞過操作動作旨在將受故障或錯誤影響的單元移至穩(wěn)定條件。
根據(jù)本發(fā)明的一種可能實現(xiàn),所述要采取的繞過操作動作包括下列動作中的一個或多個重啟、復(fù)位和恢復(fù)。
有利地,所述錯誤收集器存儲來自位于EML服務(wù)器外部的部件的錯誤報告。有利地,所述錯誤收集器存儲最有意義的指示到日志或存儲器中。
所述為所述單元中的每一個標(biāo)識單元類型的步驟,可以包括將所述單元分類為永久狀態(tài)部件、動態(tài)狀態(tài)部件和無狀態(tài)部件的步驟。
根據(jù)不同的方面,本發(fā)明提供了一種包括計算機程序代碼裝置的計算機產(chǎn)品,該計算機程序代碼裝置適于當(dāng)所述程序運行在計算機上時執(zhí)行上述方法的所有步驟。所述計算機產(chǎn)品包括計算機程序或計算機可讀存儲媒介。
根據(jù)另一方面,本發(fā)明提供了一種包括如上所述的計算機產(chǎn)品的網(wǎng)絡(luò)單元。
結(jié)合附圖,在讀過下面作為非限制性例子給出的詳細(xì)描述之后,本發(fā)明將變得明顯,其中-圖1是TMN分層結(jié)構(gòu)的一部分的示意性說明,該結(jié)構(gòu)包括根據(jù)本發(fā)明的單元管理層;-圖2示出了從故障管理角度的根據(jù)本發(fā)明的EML服務(wù)器的結(jié)構(gòu);-圖3a和3b概略地示出了分別作為動態(tài)狀態(tài)部件和永久狀態(tài)部件的單元的示例性結(jié)構(gòu);以及-圖4a和4b示出了分別來自代理和用戶的外部錯誤報告的例子。
具體實施例方式
圖1示出了TMN分層結(jié)構(gòu)的一部分的示意性說明,所述結(jié)構(gòu)包括根據(jù)本發(fā)明的單元管理層。如上所示,所述單元管理層(EML)是TMN層次中的一部分。所述EML因而連接到其TMN層次的服務(wù)器層,即網(wǎng)絡(luò)單元層(NEL)。如圖1所示,例如可以通過合適的代理來將本發(fā)明的EML服務(wù)器連接到不同的網(wǎng)絡(luò)單元通信協(xié)議,例如-事務(wù)處理語言1(TL1,Transaction Language 1),-簡單網(wǎng)絡(luò)管理協(xié)議(SNMP),-公共管理信息協(xié)議(CMIP),以及-命令行接口(CLI)。
所述EML也連接到其TMN層次中的客戶層,即網(wǎng)絡(luò)管理層(NML),所述客戶層包括客戶支持的協(xié)議,例如-超文本傳輸協(xié)議(HTTP),-公共管理信息協(xié)議(CMIP),-文件傳送協(xié)議(FTP),-公共對象請求代理體系結(jié)構(gòu)(COBRA),或-Web分布式創(chuàng)作和版本管理(WebDAV,Web DistributionAuthoring and Versioning)。
從功能的角度來看,所述EML包括兩個分離的實體,如圖1中所示EML服務(wù)器,其與所述TMN結(jié)構(gòu)的服務(wù)器和客戶層連接;以及EML客戶端,其通過合適的接口直接與用戶連接。下面為了簡化起見,包括所述EML服務(wù)器和EML客戶端二者的EML的整個軟件結(jié)構(gòu),被稱作“EML服務(wù)器”。
如前面所提到的,根據(jù)本發(fā)明,所述EML服務(wù)器被分為稱作“單元”的部件。例如,根據(jù)本發(fā)明的優(yōu)選實施例,所述單元可以包括以下類型的單元-管理單元(MU),-微積分單元(CU,Calculus Unit),-代理單元(Prx,Proxy Unit),以及-圖形用戶接口(GUI)單元。
典型地,為了直接與用戶連接(例如運營商和軟件開發(fā)者),EML客戶端包括所有GUI。
這種單元中的再分的主要優(yōu)勢在于,每個單元的復(fù)雜度小于整個EML服務(wù)器結(jié)構(gòu)的復(fù)雜度。因此,為了確認(rèn)單元的新的軟件版本,執(zhí)行測試的組合序列(sequence)是可能的,該序列通常是詳盡的序列。一種簡單的自動測試系統(tǒng)可以支持開發(fā)階段的單元測試/確認(rèn)。
在另一方面,所述單元中的再分導(dǎo)致難以在整個系統(tǒng)上檢驗所述單元的交互(空間和時間交互二者)。單元可以將其自身注冊到相鄰的單元(空間交互)并且在每個時刻從該相鄰單元接收消息(時間交互)。“組合的測試事例(test-cast)產(chǎn)生技術(shù)”可能提供無效的測試集合,這是由于所述技術(shù)不能覆蓋綜合(integration)階段的所有可能的交互,這因而導(dǎo)致難以提供從錯誤角度的EML服務(wù)器的詳盡描述,如同后面將詳細(xì)描述的那樣。
根據(jù)本發(fā)明,每個單元負(fù)責(zé)通知(圖1所示的)錯誤收集器EC關(guān)于其狀態(tài),并且如果發(fā)生錯誤/故障則通知錯誤收集器關(guān)于該錯誤/故障?,F(xiàn)在參考圖2,可以注意到,每個單元發(fā)送若干消息或指示給錯誤收集器EC,包括單元狀態(tài)指示(USI,Unit Status Indication)和單元錯誤指示(UEI,Unit Error Indication)。為了絕對支持所謂的“心跳機制(heartbeatmechanism)”,周期性地發(fā)送消息給錯誤收集器EC。換言之,當(dāng)錯誤收集器EC不再接收到來自單元的消息時,其將認(rèn)識到該單元已經(jīng)完全失敗,并且將自動開始繞過操作過程。
進(jìn)一步參考圖1和圖2,應(yīng)當(dāng)認(rèn)識到,根據(jù)本發(fā)明的EML服務(wù)器結(jié)構(gòu)包括若干核心單元CrU。核心單元CrU是EML服務(wù)器的結(jié)構(gòu)部件,即所述核心單元實現(xiàn)允許其它單元執(zhí)行其功能的基礎(chǔ)功能。所述核心單元例如包括-目錄核心單元(Dir),其允許所有單元注冊它們自己;-消息轉(zhuǎn)發(fā)核心單元(MF),其管理單元之間的消息交換機制;-工廠(factory)核心單元(Fct),其管理新單元的創(chuàng)建;以及-虛擬機(VM),其典型地為Java和Dotnet應(yīng)用程序所需。
類似地,所述核心單元發(fā)送不同的核心度量CM給錯誤收集器EC。所述核心度量CM可以包括例如-所述單元的虛擬交互,例如就所分配的存儲器或CPU利用率(來自目錄核心單元“Dir”)方面;-所述單元的消息統(tǒng)計,例如輸入/輸出隊列的填充(filling)(來自消息轉(zhuǎn)發(fā)核心單元“MF”)。
-針對每個分類所創(chuàng)建的單元數(shù)量(來自工廠核心單元Fct);以及-虛擬機使用,就存儲器、線程/過程、CPU消耗等(來自虛擬機VM)方面。
錯誤收集器EC收集來自不同單元的單元狀態(tài)指示(USI)和單元錯誤指示(UEI),以及來自核心單元的核心度量CM。此外,如同后文將參考圖4a和4b所描述的那樣,錯誤收集器EC存儲來自位于EML服務(wù)器外部的部件的錯誤報告,所述部件即代理和用戶。最后,通過單元心跳信號(Uhb,Unit heartbeat signal),所述錯誤收集器檢測包括核心單元的一個或多個單元的完全故障(可能是致命錯誤)。通過所述單元狀態(tài)指示(USI)、單元錯誤指示(UEI)和核心度量(CM),絕對地導(dǎo)出所述單元心跳信號(Uhb)。最后,所述錯誤收集器將所接收的指示存儲到日志或存儲器(EC log)中。此后可以由網(wǎng)絡(luò)提供商/開發(fā)商來分析被記入日志的指示。
根據(jù)本發(fā)明的EML服務(wù)器結(jié)構(gòu)與錯誤監(jiān)視器ES進(jìn)行交互。參考圖1,應(yīng)當(dāng)認(rèn)識到,錯誤監(jiān)視器ES是獨立的部件(即其位于EML服務(wù)器的外部)。錯誤監(jiān)視器ES從錯誤收集器接收各個不同的指示。例如,其接收狀態(tài)指示SI和錯誤指示EI。此外,錯誤監(jiān)視器ES利用單元心跳信號(Uhb)來接收由所述錯誤收集器(EC)所計算的停止指示(StopI)。反過來,錯誤監(jiān)視器ES發(fā)送其自己的心跳信號(ES Hb)給所述錯誤收集器,以使該錯誤收集器可以檢測該錯誤監(jiān)視器是在操作中還是失敗了。當(dāng)所述錯誤收集器通過所述錯誤監(jiān)視器的心跳信號(ES Hb)而認(rèn)識到該錯誤監(jiān)視器ES失敗時,該錯誤收集器EC可以通過恢復(fù)動作(RA,restore action)來恢復(fù)該錯誤監(jiān)視器的操作,如圖2所示。
錯誤監(jiān)視器ES的主要任務(wù)是將來自錯誤收集器EC的錯誤和狀態(tài)指示關(guān)聯(lián)于其它信息(例如由核心單元提供的核心度量(加載(load)指示或“LI”)),并因而通過合適的故障模型來確定要在受錯誤影響的單元上執(zhí)行的繞過操作動作(圖2中的WA)。錯誤監(jiān)視器ES也可以將所決定的動作存儲到合適的日志或存儲器(ES log)中,其將由網(wǎng)絡(luò)提供商/開發(fā)商以后進(jìn)行分析。
為了簡化錯誤監(jiān)視器ES所執(zhí)行的處理,所有單元實現(xiàn)相同的機制以檢測錯誤,并且實現(xiàn)相同的機制以發(fā)送單元錯誤指示UEI給錯誤收集器EC??赡艿兀鰡卧梢园l(fā)送單元錯誤指示UEI給注冊的單元。
此外,為了簡化繞過操作的管理,定義了繞過操作動作的公共集合??赡軇幼鞯亩x是基于單元類型的??梢园l(fā)現(xiàn)三種單元類型1.動態(tài)狀態(tài)部件當(dāng)在故障之后重啟動態(tài)狀態(tài)部件時,不可能恢復(fù)其在該故障之前所具備的狀態(tài)(即動態(tài)狀態(tài)部件僅包括易失性存儲設(shè)備);2.永久狀態(tài)部件當(dāng)在故障之后重啟永久狀態(tài)部件時,可能恢復(fù)其在該故障之前所具備的狀態(tài)(即永久狀態(tài)部件僅包括非易失性存儲設(shè)備);以及3.無狀態(tài)部件這種單元類型在故障之后沒有要恢復(fù)的狀態(tài)(即,其是純微積分單元)。
圖3a和3b分別作為動態(tài)狀態(tài)部件和永久狀態(tài)部件來概略地示出單元的示例性結(jié)構(gòu)。
參考圖3a和3b,每個單元包括不同的子部件,例如隊列、控制子部件、非易失性存儲子部件、微積分子部件或視圖(view)子部件。
例如,圖3a示出了作為動態(tài)狀態(tài)部件的單元的結(jié)構(gòu),所述動態(tài)狀態(tài)部件包括兩個輸入隊列Qin、Qis、兩個輸出隊列Qon、Qos和兩個控制子部件Cns、Csn(“n”代表北,“s”代表南)。當(dāng)圖3a所示的單元最終經(jīng)歷了重啟過程時,重啟之前的單元狀態(tài)將丟失,這是因為在單元中沒有永久存儲設(shè)備是可用的。因此,所述單元必須被初始化到默認(rèn)狀態(tài)。
圖3b示出了作為永久狀態(tài)部件的單元的例子,所述永久狀態(tài)部件包括非易失性存儲子部件M、兩個輸入隊列Qin、Qis、兩個輸出隊列Qon、Qos、兩個控制子部件Cns、Csn和微積分/視圖子部件C/V。當(dāng)圖3a所示的單元最后經(jīng)歷了重啟過程時,其重啟之前的狀態(tài)可以被恢復(fù),這是由于所有參數(shù)可以被恢復(fù)到非易失性存儲子部件M中。
根據(jù)本發(fā)明,每個上述單元類型的特征在于被支持繞過操作動作的集合。根據(jù)本發(fā)明的優(yōu)選實施例,所述動作旨在將受錯誤影響的單元移至穩(wěn)定條件,即最小化錯誤影響的條件。由于最穩(wěn)定的條件被認(rèn)為是初始的單元交互工作(inter-working),因此錯誤監(jiān)視器ES所決定的行為旨在將該單元移向其初始條件(即啟動或默認(rèn)狀態(tài))。因此,對于無狀態(tài)單元,所支持的動作是-重啟() //由核心單元支持對于動態(tài)狀態(tài)單元,所支持的動作是-重啟() //由核心單元支持-復(fù)位() //強制所述單元狀態(tài)為默認(rèn)對于永久狀態(tài)單元,所支持的動作是-重啟() //由核心單元支持-復(fù)位() //強制所述單元狀態(tài)為默認(rèn)-恢復(fù)() //加載被存儲的參數(shù)以恢復(fù)先前狀態(tài)應(yīng)當(dāng)指出,上述動作僅是大量可能動作中的可能動作的集合。
錯誤監(jiān)視器ES基于“故障模型”來決定要在受錯誤影響的單元上執(zhí)行的動作(圖2)。所述故障模型允許錯誤監(jiān)視器ES根據(jù)錯誤收集器所提供的信息,確定故障單元的錯誤狀態(tài)和要在該故障單元上執(zhí)行的繞過操作動作。
所述故障模型包括從錯誤角度的EML服務(wù)器的描述。特別地,所述故障模型包括從錯誤角度的單元之間交互的描述和單元之間功能相關(guān)性的描述。換言之,所述故障模型將錯誤狀態(tài)關(guān)聯(lián)于(來自單元的)錯誤指示、(來自單元的)狀態(tài)指示、(來自核心單元的)加載指示的給定集合。
根據(jù)EML服務(wù)器的描述類型,所述故障模型可以是-靜態(tài)的從錯誤角度的EML服務(wù)器的描述是詳盡的。因此,錯誤指示、狀態(tài)指示和加載指示的每個集合單一地對應(yīng)于單個錯誤狀態(tài)。然后單一地并確定性地確定要在故障單元上采取的繞過操作動作。在所述情況下,必須將新的錯誤狀態(tài)(例如由于插入新的軟件部件到EML服務(wù)器中)插入靜態(tài)故障模式中;否則,所述錯誤狀態(tài)是未知的并且不能被解決。
-動態(tài)的從錯誤角度的EML服務(wù)器的描述是被動態(tài)更新,即,當(dāng)新的錯誤狀態(tài)發(fā)生,其通過學(xué)習(xí)(learning)機制而被自動插入動態(tài)故障模型中,這例如可以基于神經(jīng)網(wǎng)絡(luò)。換言之,當(dāng)錯誤指示、狀態(tài)指示和加載指示的新集合發(fā)生時,所述錯誤監(jiān)視器需要神經(jīng)網(wǎng)絡(luò)的介入,所述神經(jīng)網(wǎng)絡(luò)試圖根據(jù)已經(jīng)存在于故障模型中的錯誤指示、狀態(tài)指示和加載指示的集合來推斷錯誤狀態(tài)。一旦推斷出錯誤狀態(tài),所述錯誤監(jiān)視器就確定合適的繞過操作動作。還可以為錯誤監(jiān)視器提供存儲設(shè)備,該存儲設(shè)備允許分類所述新的錯誤狀態(tài),以便軟件開發(fā)者能夠研究它們用來開發(fā)軟件的下一個版本及更新。所述動態(tài)故障模型有利地是適應(yīng)的,即,其即使在不確定的情況下也能夠進(jìn)行判決,其中,新的錯誤狀態(tài)發(fā)生。此外,當(dāng)(如靜態(tài)故障模型所需的)系統(tǒng)的詳盡描述相當(dāng)難于實現(xiàn)時,所述動態(tài)故障模型可以有利地應(yīng)用于復(fù)雜系統(tǒng)。然而,所述動態(tài)故障模型典型地需要非常復(fù)雜的實現(xiàn),并且其特征在于確定性的行為。
-概率的這種機制更適合簡單EML服務(wù)器的情況,即EML服務(wù)器的特征在于縮減的單元數(shù)量或具有縮減的可能狀態(tài)數(shù)量的單元。在概率故障模型中(或貝葉斯(Bayesian)故障模型),提供了所述EML服務(wù)器的概率描述。換言之,標(biāo)識了EML服務(wù)器的所有可能的狀態(tài),并且針對每對可能的狀態(tài)來估計參數(shù),所述參數(shù)涉及每對的兩個狀態(tài)之間的轉(zhuǎn)換的概率。因此,根據(jù)所述參數(shù),當(dāng)所述錯誤監(jiān)視器從所述錯誤收集器接收了錯誤指示、狀態(tài)指示和加載指示的集合時,通過概率算法來確定最可能的錯誤狀態(tài)。最終,應(yīng)用對應(yīng)于最可能錯誤狀態(tài)的繞過操作動作。在所述概率模型中,可以提供模型的自動更新(與動態(tài)故障模型類似)和模型的人工更新(與靜態(tài)故障模型類似)二者。
如上所述,根據(jù)本發(fā)明的EML服務(wù)器也支持外部錯誤報告。圖4a和圖4b示出了分別來自代理和用戶的外部錯誤報告的兩個例子。特別地,參考圖4a,代理可以發(fā)送錯誤報告給EML服務(wù)器。所述報告被發(fā)送給代理單元Prx、傳播給注冊的單元并最終由錯誤收集器EC來收集,該錯誤收集器將錯誤的發(fā)生通知給錯誤監(jiān)視器ES。如果由錯誤監(jiān)視器ES決定并由所述單元執(zhí)行的動作不能解決所述錯誤,則發(fā)送錯誤報告給圖形接口單元GUI,該圖形接口單元將未解決的錯誤通知給用戶。
此外,錯誤指示也可以由發(fā)現(xiàn)錯誤的用戶來產(chǎn)生,如圖4b中所示。該用戶可以填寫錯誤通知表(未示出)并通過圖形用戶接口GUI發(fā)送所述表給涉及的單元以及錯誤收集器EC,該錯誤收集器將錯誤通知給錯誤監(jiān)視器ES。錯誤監(jiān)視器ES在所涉及的單元上激活繞過操作過程。最終,發(fā)送關(guān)于該繞過操作過程的報告給用戶。
應(yīng)當(dāng)指出,傳輸網(wǎng)絡(luò)需要動態(tài)故障模型時,來自代理的錯誤報告和來自用戶的錯誤報告二者的結(jié)果都可以用來動態(tài)更新所述故障模型。
根據(jù)本發(fā)明的EML服務(wù)器具有許多優(yōu)勢。首先,相比已知的解決方案,減小了解決錯誤的總時間,這是由于EML服務(wù)器自動激活并管理所述繞過操作過程,并且不需要網(wǎng)絡(luò)提供商的人工介入。因此,避免了根據(jù)現(xiàn)有技術(shù)的已知繞過操作過程所需的、服務(wù)提供商和網(wǎng)絡(luò)提供商之間的所有反饋,這通常需要幾天或幾個星期。在許多情況下,如果自動繞過操作成功,則網(wǎng)絡(luò)持續(xù)工作而不會放任等待解決錯誤的時間(“停工期”)。總之,即使自動繞過操作沒有成功,網(wǎng)絡(luò)提供商也能夠在不影響網(wǎng)絡(luò)的停工期的情況下搜索解決方案,同時整體減少了網(wǎng)絡(luò)的OPEX。
權(quán)利要求
1.一種用于自動克服單元管理層(EML)服務(wù)器中的故障或錯誤的方法,所述方法包括以下步驟-在所述單元管理層服務(wù)器中標(biāo)識一個或多個單元;-提供錯誤收集器(EC);-提供錯誤監(jiān)視器(ES);-定義故障模型;-將所述單元的狀態(tài)通知給所述錯誤收集器(EC);-在所述錯誤監(jiān)視器(ES)中通過所述故障模型來處理單元狀態(tài)信息;以及-通過所述錯誤監(jiān)視器(ES)將要采用的繞過操作動作指示給所述單元。
2.根據(jù)權(quán)利要求1的方法,其中,所述將單元狀態(tài)通知給錯誤收集器(EC)的步驟由發(fā)送狀態(tài)和/或錯誤指示消息(USI、UEI)給所述錯誤收集器(EC)的所述單元來執(zhí)行。
3.根據(jù)權(quán)利要求1或2的方法,其中,所述方法還包括在所述單元管理層服務(wù)器中標(biāo)識一個或多個核心單元(CrU)的步驟,所述核心單元(CrU)能夠發(fā)送不同的核心度量(CM)給所述錯誤收集器(EC)。
4.根據(jù)前面權(quán)利要求中任何一個的方法,其中,所述通過所述故障模型處理單元狀態(tài)信息的步驟,包括從預(yù)定繞過操作動作的集合選擇繞過操作動作(WA)。
5.根據(jù)權(quán)利要求1-4中任何一個的方法,其中,所述故障模型可以是靜態(tài)的、動態(tài)的或概率的。
6.根據(jù)前面權(quán)利要求中任何一個的方法,其中,所述錯誤監(jiān)視器(ES)將所采取的繞過操作動作(WA)存儲到合適的日志或存儲器(ES log)中。
7.根據(jù)前面權(quán)利要求中任何一個的方法,其中,每個子部件與所述錯誤收集器(EC)獨立地通信,并且根據(jù)來自所述錯誤監(jiān)視器(ES)的指令來執(zhí)行所述繞過操作動作(WA)。
8.根據(jù)前面權(quán)利要求中任何一個的方法,其中,所述方法還包括這樣的步驟為所述單元中的每一個標(biāo)識單元類型;并且為每個單元類型定義預(yù)定繞過操作動作的集合。
9.根據(jù)前面權(quán)利要求中任何一個的方法,其中,所述預(yù)定繞過操作動作的集合包括繞過操作動作,該繞過操作動作旨在將受故障或錯誤影響的單元移至穩(wěn)定條件。
10.根據(jù)前面權(quán)利要求中任何一個的方法,其中,所述要采取的繞過操作動作包括以下動作中的一個或多個重啟、復(fù)位和恢復(fù)。
11.根據(jù)權(quán)利要求1-10中任何一個的方法,其中,所述錯誤收集器(EC)存儲來自位于單元管理層服務(wù)器外部的部件的錯誤報告。
12.根據(jù)權(quán)利要求2-11中任何一個的方法,其中,所述錯誤收集器(EC)將最有意義的指示存儲到日志或存儲器(ES log)中。
13.根據(jù)前面權(quán)利要求中任何一個的方法,其中,所述為所述單元中的每一個標(biāo)識單元類型的步驟,包括分類所述單元為永久狀態(tài)部件、動態(tài)狀態(tài)部件和無狀態(tài)部件的步驟。
14.一種包括計算機程序代碼裝置的計算機產(chǎn)品,該計算機程序代碼裝置適于在所述程序運行在計算機上時執(zhí)行根據(jù)權(quán)利要求1的所有步驟。
15.根據(jù)權(quán)利要求14的計算機產(chǎn)品,其中,所述計算機產(chǎn)品包括計算機程序。
16.根據(jù)權(quán)利要求14的計算機產(chǎn)品,其中,所述計算機產(chǎn)品包括計算機可讀存儲媒介。
17.一種網(wǎng)絡(luò)單元,其包括根據(jù)權(quán)利要求14-16中任何一個的計算機產(chǎn)品。
全文摘要
公開了一種用于自動克服EML服務(wù)器中的故障或錯誤的方法,所述方法包括以下步驟在所述EML服務(wù)器中標(biāo)識一個或多個單元;為所述單元中的每一個標(biāo)識一個或多個子部件;提供錯誤收集器;提供錯誤監(jiān)視器;定義故障模型;將單元的狀態(tài)通知給錯誤收集器;在所述錯誤監(jiān)視器中,通過所述故障模型來處理單元狀態(tài)信息;以及通過所述錯誤監(jiān)視器,將要采用的繞過操作動作指示給所述單元。
文檔編號H04L12/24GK1776632SQ200510123298
公開日2006年5月24日 申請日期2005年11月15日 優(yōu)先權(quán)日2004年11月16日
發(fā)明者A·帕帕雷拉, R·羅伯托 申請人:阿爾卡特公司