專利名稱:通信設備故障定位的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及一種故障自動定位技術,特別是一種通信設備故障定位的方法和系統(tǒng),屬于通信技術領域。
背景技術:
器件失效、軟件缺陷、線纜老化、人為錯誤等眾多因素都會導致通信設備在運行過程中發(fā)生故障,通信設備提供的通信服務業(yè)務也會出現(xiàn)中斷或異常。當通信設備發(fā)生故障時,應當盡快地對故障進行定位,以便盡快地排除故障,恢復通信設備的正常運行,保障通信設備能夠正常地提供的通信服務業(yè)務。
故障定位的主要目的是為排除故障提供指導性信息。一般的要求是將故障定位到現(xiàn)場可更換單元(Field Replace Unit,以下簡稱為FRU),這些FRU通常為電路板、通信線纜等;故障定位通常并不關注故障的根本原因。為了降低平均修復時間,提高設備的可用度,故障定位所花費的時間應當盡可能地短。
通信設備在發(fā)生故障時,通常會表現(xiàn)出一定的故障癥狀,例如通信服務業(yè)務中斷、通信終端下載數(shù)據(jù)的速度變慢、話音質量明顯降低等。通信設備在發(fā)生故障時會表現(xiàn)出何種故障癥狀,與通信設備的配置情況密切相關。通常,故障信息的獲得主要有三種途徑設備或系統(tǒng)自動告警、使用通信業(yè)務用戶的投訴、專業(yè)人員的測試。相對來說,通過設備或系統(tǒng)的自動告警是較為簡單、快捷地獲取故障信息的途徑。因而故障定位一般都是從獲取的告警信息著手,定位過程也主要是對告警信息的分析過程。
參見圖1,一個故障定位系統(tǒng)通常包括定位知識(即專家經(jīng)驗,為故障癥狀與故障的關系)、事實(現(xiàn)場的故障癥狀、配置等)、推理(定位步驟、推理邏輯)分析三個基本構成要素。
故障定位的一般步驟包括收集故障癥狀、配置等現(xiàn)場事實;(根據(jù)故障定位知識分析現(xiàn)場信息)初步確定故障范圍及可能的故障;(根據(jù)故障定位知識深入分析現(xiàn)場信息)把故障范圍縮小到可更換單元范圍,甚至找出真正故障。為獲得進一步的信息,定位過程中有時還需要執(zhí)行一些測試。
在通信技術領域,對于故障定位技術的研究非?;钴S;目前應用較為廣泛的故障定位技術包括人工分析方法、告警相關性分析方法、故障樹分析方法(Fault Tree Analysis,以下簡稱FTA)。
當通信設備發(fā)生故障時,常常采用人工分析的方法來確定故障原因及范圍。人工分析方法需要參與故障分析的工程師熟悉通信設備的電路關系、告警、定位程序等一系列技術信息,熟悉并具備專門的故障定位知識。在具體的定位過程中,工程師需要收集并查閱各種事實、信息,利用其掌握的定位知識,通過多次的推理,才能來完成故障的定位。對一些故障而言,如果告警信息很少,或者告警信息本身已經(jīng)直接指示出有限的故障范圍,依據(jù)這樣的告警信息,工程師進行故障定位時,會較為容易找到故障的準確位置。如果告警信息很多,或者告警信息直接或間接指示的故障范圍很廣,工程師對故障的定位工作就會非常困難。
隨著通信設備和通信網(wǎng)絡規(guī)模及復雜度越來越大,參與故障定位工作的工程師通過技術、設備資料學習及工作實踐來掌握的眾多通信設備的故障定位知識存在困難。因此,采用人工分析方法,需要參與故障定位工作的工程師具有較高的技術能力,即使如此,對于故障定位的時間也會較長,難以滿足高可用通信設備快速定位故障的要求,同時,故障定位的成本也會較高。
在由通信設備構成的通信網(wǎng)絡中,當一個通信設備發(fā)生故障時,發(fā)生故障的通信設備以及與該通信設備相關聯(lián)的其他通信設備都會發(fā)出告警,所有的告警匯集在一起,會形成龐大的告警信息。但是,在這些龐大的告警信息中,只有少量的告警信息是有關通信設備故障的根源告警,而絕大多數(shù)屬于因根源告警的故障原因而產(chǎn)生的伴隨告警。在通信網(wǎng)絡中,這種伴隨告警的數(shù)量往往會非常龐大,經(jīng)常會大到將攜帶有反映故障原因的根源告警淹沒掉的程度。
采用上述的告警相關性分析方法,需要根據(jù)通信設備中告警信息之間的相互關聯(lián)關系,區(qū)分出根源告警及伴隨告警。這樣做的兩個好處是可以過濾掉告警信息中冗余的伴隨告警,只把根源告警提取出來,達到減少告警信息處理工作量的目的;找到根源告警,可以把故障范圍從通信網(wǎng)絡或通信設備集中在和根源告警相關的一組FRU上,因此,可以縮小通信設備故障的查找范圍。
但是,一個根源告警仍然會與多個FRU相關,即使在采用上述的告警相關性分析方法,將故障范圍從通信網(wǎng)絡或通信設備集中到和根源告警相關的一組FRU之上后,還需要采取其他分析方法才能把故障定位到真正出故障的FRU上,最終滿足排除通信設備故障的需要。
因此,采用告警相關性分析方法,只能縮小故障定位的范圍,無法直接、準確地確定故障位置。告警相關性分析方法還必須與其它分析方法相結合,才能最終找出故障的FRU;所以,采用告警相關性分析方法不是一個完整的故障定位方法。
采用故障樹分析方法是工業(yè)界進行故障定位的經(jīng)典方法。在通信領域中應用得較為廣泛。在故障樹分析方法中,故障分析系統(tǒng)可以將故障、故障癥狀構造為定位知識-故障樹。經(jīng)過簡單的變換,就可以將故障樹轉化為故障定位樹。故障定位樹為不完全二叉樹。在故障定位樹中,每一個節(jié)點包含一個故障癥狀信息(測試信息或告警信息),不同的故障癥狀指向故障定位樹中不同的子節(jié)點,故障定位樹中的葉節(jié)點是故障,其他節(jié)點為故障癥狀。故障定位樹中的任何一個由根到葉的分枝的含義是expr(T1,T2,...)->/Fm。Ti表示故障癥狀信息,F(xiàn)m表示故障。表達式的含義F為T的函數(shù),一組T唯一確定一個F。
對故障進行分析、推理的過程,就是通過對故障定位樹的遍歷,從典型的故障癥狀出發(fā),根據(jù)每一個預設的其它故障癥狀確定下一步可以做出什么判斷,以及如何做。故障定位樹與定位知識、定位推理結合為一體,可以直觀地反映正向的推理邏輯關系,與人的直接經(jīng)驗知識有直接的對應關系,便于理解和操作。
故障樹分析方法依賴于通信設備的電路關系。只有當通信設備的電路關系確定時,才能獲得故障樹,進而使用故障樹分析方法進行故障定位。當通信設備的電路關系發(fā)生變化時,需要重新構造上述的故障樹。由于通信設備的電路關系通常都不是固定的,而具有動態(tài)性,構造故障樹的工作只能在設備運行的現(xiàn)場進行。但是,通信設備復雜性導致故障樹的邏輯結構復雜、嚴密,構造起來具有很大的難度,在對通信設備進行升級時,在通信設備運行現(xiàn)場重新構造故障樹的難度就更大了。
發(fā)明內容
本發(fā)明的目的是克服現(xiàn)有通信設備故障定位技術不能快速進行故障定位的缺陷,提供一種通信設備故障定位的方法和系統(tǒng),能夠自動地通信設備的故障定位到FRU,解決現(xiàn)有技術中故障定位所花費時間較長的問題。
具體而言,本發(fā)明通過如下的技術方案來實現(xiàn)本發(fā)明的目的首先,獲取通信設備中可現(xiàn)場更換單元內部測試信息;然后,根據(jù)測試信息和描述通信設備中可現(xiàn)場更換單元內部各單元電路關聯(lián)關系的關聯(lián)矩陣,在該關聯(lián)矩陣中搜尋與該測試信息對應的單元電路集合;在完成上述的測試信息對應的單元電路集合搜尋之后,再進一步根據(jù)單元電路集合搜索關聯(lián)的測試信息,得到關聯(lián)測試信息集,建立由各單元電路集合及測試信息集合構成的定位子矩陣;最后,根據(jù)故障推理規(guī)則,搜索所述定位子矩陣中各測試信息表示工作狀態(tài)為不正常的單元電路并進行記錄;再根據(jù)可現(xiàn)場更換單元分析規(guī)則,對工作狀態(tài)為不正常的單元電路進行判斷,并記錄所述工作狀態(tài)為不正常的單元電路所對應的可現(xiàn)場更換單元。由此,完成了將發(fā)生告警或測試到的工作狀態(tài)不正常的測試信息定位到具體的可現(xiàn)場更換單元的任務。
為了實現(xiàn)本發(fā)明的第二個目的,本發(fā)明還提供了如下的技術方案提供一種通信設備故障定位的系統(tǒng),所述系統(tǒng)設置在可現(xiàn)場更換單元或由可現(xiàn)場更換單元構成的通信設備中,主要由測試適配單元、定位知識構造單元、FRU知識庫、告警模塊、測試模塊、配置管理模塊和推理機連接構成;其中測試適配單元連接告警模塊和測試模塊,用于獲取通信設備中可現(xiàn)場更換單元內部的告警信息和測試信息,并向和該測試適配單元連接的推理機發(fā)送;定位知識構造單元連接FRU知識庫、推理機和配置管理模塊,用于根據(jù)推理機發(fā)送的測試信息、描述通信設備中可現(xiàn)場更換單元內部各單元電路關聯(lián)關系的關聯(lián)矩陣,在所述關聯(lián)矩陣中搜尋與所述測試信息對應的單元電路,得到單元電路集合,進一步搜索關聯(lián)的測試信息,建立由各單元電路集合與關聯(lián)測試信息集構成的定位子矩陣,,并向和該定位知識構造單元連接的推理機發(fā)送;FRU知識庫用于存儲的通信設備中可現(xiàn)場更換單元及其內部各單元電路的配置文件;推理機接收定位操作命令,根據(jù)故障推理規(guī)則和可現(xiàn)場更換單元分析規(guī)則,查詢定位子矩陣中各測試信息,查找并記錄工作狀態(tài)為不正常的單元電路;最終查找到所述工作狀態(tài)為不正常的單元電路中所對應的可現(xiàn)場更換單元。
本發(fā)明的故障定位方法,通過將通信設備的故障或告警信息與可現(xiàn)場更換單元的電路單元進行關聯(lián),并構建基于電路單元的關聯(lián)矩陣,同時,在發(fā)生故障告警或對通信設備進行測試時,根據(jù)按照上述方式構建的關聯(lián)矩陣和檢測到的信息找出對應的一個或多個單元電路,再進一步根據(jù)事先記載的、不同單元電路之間的管理關系、可現(xiàn)場更換單元以及通信設備的配置關系信息,自動地定位出實際發(fā)生故障或告警所在的可現(xiàn)場更換單元,克服了現(xiàn)有通信設備故障定位技術不能快速進行故障定位的缺陷,能夠自動地通信設備的故障定位到FRU,解決了現(xiàn)有技術為故障定位所花費時間較長的問題。
本發(fā)明的通信設備故障定位的系統(tǒng),基于通信設備故障信息以單元電路為基礎的構建方式,克服了現(xiàn)有通信設備故障定位技術中定位知識構造困難的缺陷,能夠適應自動、動態(tài)構造定位知識的需求,解決了現(xiàn)有技術中,通信設備或通信網(wǎng)絡配置變化后,不能快速、自動構造故障定位信息的問題。本發(fā)明的故障定位方法和系統(tǒng),把現(xiàn)有技術中通信設備故障定位的過程分解為基于定位單元電路故障的定位方式,實現(xiàn)了把故障直接定位到FRU的目的。
圖1為本發(fā)明中故障定位系統(tǒng)的組成要素示意圖;圖2為本發(fā)明一FRU的結構示意圖;圖3為本發(fā)明另一FRU的結構示意圖;圖4為本發(fā)明一故障定位的流程圖;圖5為本發(fā)明一故障定位系統(tǒng)的結構框圖。
具體實施例方式
為了能夠清楚地描述本發(fā)明的技術方案,以下首先對作為本發(fā)明技術方案基礎的通信設備配置信息進行介紹本發(fā)明涉及的通信設備,均由一個FRU或多個相互連接的FRU構成;構成這些FRU的部件,參見圖2、圖3,可以是能夠完成基本電功能的電路單元,或由這些電路單元和FRU的組合。這些電路單元在故障定位時,盡管是需要關注的對象,但是,為了能在發(fā)生故障時迅速更換掉故障部件,使通信設備工作在良好的狀態(tài),對于通信網(wǎng)絡管理人員而言,通常更加關心那些由電路單元構成的FRU。這些FRU,即故障定位所關心的物理實體可以是節(jié)點故障定位所關心的物理實體,例如電路板、機框、子架、設備等。這些物理實體可以采用一種關聯(lián)矩陣來描述其相互之間的關聯(lián)關系。
圖2所示的FRU1由電路單元11、12和13相互連接構成;其中,任何電路單元、測試信息與信號的關聯(lián)關系都可以分別采用一個關聯(lián)矩陣來描述。關聯(lián)矩陣的橫坐標用于表示一組輸入信號或可測試模塊或者其組合,縱坐標用于表示一測試信號或輸出信號的關系。
參見表1,F(xiàn)RU1的電路單元11采用表1所列關聯(lián)矩陣來表達,其中,F(xiàn)1-F3表示電路單元11中各個電路模塊或該單元電路11的輸入信號,T1-T4表示電路單元11中各個電路模塊的測試信號以及該單元電路11的輸出信號;以F1-F3為橫坐標,T1-T4為縱坐標,構成電路單元11的關聯(lián)矩陣。該關聯(lián)矩陣中的各個元素值在該單元電路11制造完成時就存儲在該單元電路11之中;其中,任意元素的值均表示該元素所在行Fm(1≤m≤3)與該元素所在列Tn(1≤n≤4)的相關性。參見表1,各個元素的取值可以為“0”,“1”或“1+”三種,其中,“1”表示Fm與Tn弱相關,即當Fm發(fā)生時Tn可能但不必然發(fā)生;取值“1+”表示Fm與Tn強相關,即當Fm發(fā)生時Tn必然發(fā)生;取值“0”表示Fm與Tn不相關,即兩者之間無必然關系。
由與Fm相關的一組T為Fm的故障癥狀或者告警。如果Tn發(fā)生,則與Tn相關的一組F中必有一個F發(fā)生,即必有一個故障或告警發(fā)生。由此上述的關聯(lián)矩陣如表1所示。以下的解釋可以幫助理解這個關聯(lián)矩陣所表示的信息假設F1、F2、F3分別表示電路單元11中防雷模塊111、濾波模塊112和輸入信號IN;T1-T4分別表示電路單元11中的電壓測試、防雷測試、第一路電壓輸出和第二路電壓輸出;由表1就可以看出防雷模塊111與電壓測試之間的相關性為“0”,即表示防雷模塊111與電壓測試之間無必然關系;同樣,防雷模塊111與防雷測試之間的相關性為“1+”,即表示防雷模塊111與防雷測試之間具有強相關性,防雷模塊111發(fā)生故障,則必然會發(fā)生防雷測試的結果為不正?;蚬收系默F(xiàn)象;依此類推,關聯(lián)矩陣中其他元素所表達的相關性也可以用上述的關聯(lián)矩陣得到。這個關聯(lián)矩陣是該單元電路11制造的同時就生成,并保存在單元電路11之中。
表1
采用上述的關聯(lián)矩陣可以用于描述任意的電路單元。這樣做的好處是使用于進行故障定位的知識或信息設置在各個單元電路中,當需要將這些單元電路組合而構成一個FRU時,可以從各個單元電路中取出相關的關聯(lián)信息構建整個FRU的關聯(lián)矩陣。這是一個非常靈活的方式。
眾所周知在通信設備的配置改變,往往是通過改變單元電路或FRU來實現(xiàn)的,而FRU同樣是由單元電路構成的。因此,將關聯(lián)矩陣細化到單元電路后,即使通信設備被改變,也可以簡單地通過上述的關聯(lián)矩陣來自動地構造出新的故障定位信息。
參見表2-表5,它們給出了描述圖2所示FRU1的所有電路單元11、12、13以及它們之間相互關聯(lián)關系的關聯(lián)矩陣。
表2
表3
表4
表5
由上述表2-表5可以看出各個單元電路11、12、13的輸入信號和故障,可能會影響各個單元電路的測試狀態(tài)及輸出信號。因此,各個單元電路的故障、測試、輸入信號、輸出信號及相互關聯(lián)關系構成了定位知識的幾個要素。后級單元或模塊的輸入信號可以看作是前級單元電路故障在本節(jié)點入口處的映象;而前級單元或模塊輸出信號可以看作是后級單元電路測試在本電路單元出口處的映象。
單元電路自身的測試信息是有限的。僅僅利用單元電路自身的測試信息,常常難以定位出故障是發(fā)生在單元電路內還是單元電路之外。如果能夠充分利用各單元電路的測試信息,所有故障都可以定位到單元電路范圍。
圖3所示是另一種形態(tài)FRU,即FRU2中包含有FRU1,與FRU1不同的是FRU2還具有一個電路單元21,電路單元21由濾波模塊211和電壓轉換模塊212構成,其輸入信號是IN1,輸出信號是OUT3;有上述各個部件構成的FRU2,其關聯(lián)矩陣的構成與上述FRU1的構成方式相同,在此不再贅述。
FRU在設計階段就可以將其用于定位的關聯(lián)矩陣建立好,并存儲在相關的FRU中,由該FRU攜帶。該關聯(lián)矩陣建立的方法如下確定FRU的單元電路及接口輸入信號,并添加到關聯(lián)矩陣中;確定FRU的測試及接口輸出信號,也添加到關聯(lián)矩陣矩陣中;遍歷所有單元電路及接口輸入信號,根據(jù)單元電路或接口輸入信號對測試及接口輸出信號的影響,確定它們之間的相關性,也將這些相關性的參數(shù)表達形式添加到關聯(lián)矩陣中;最后,將把關聯(lián)矩陣轉化為FRU或FRU所在通信設備支持的數(shù)據(jù)配置文件。
由于FRU作為通信設備的基本組成單元,其電路配置是固定不變的,因此FRU的定位知識也是固定不變的。可以在FRU研發(fā)階段構造定位知識;由于FRU是閉合的小系統(tǒng)。構造及驗證定位知識時可以只關注FRU自身就可以,因此,定位知識的構造難度低。測試人員可以在FRU的驗證階段通過模擬故障來驗證FRU定位知識是否正確,可以在FRU研發(fā)階段驗證定位知識,且驗證方法簡單;由于FRU定位知識可以很容易作為獨立的設備配置數(shù)據(jù)進行升級,與其他配置數(shù)據(jù)沒有耦合,升級容易、簡單。最為重要的是上述的這些特點,可以支持根據(jù)通信設備的FRU配置及FRU定位知識而自動、動態(tài)地構造設通信備定位知識。
為了能夠基于上述的關聯(lián)矩陣來實現(xiàn)對故障或報警信息的定位,本發(fā)明提供了如下的一個具體的實例,以幫助相關領域技術人員進一步理解本發(fā)明技術方案。
本發(fā)明故障定位的整體思路是首先,根據(jù)當前的故障癥狀推理出可能故障的單元電路,然后再根據(jù)單元電路的狀態(tài),推理出可能故障的FRU。當然,在故障定位完成后,需要輸出故障定位結果,以使故障能夠盡快地被排除。
參見圖4,本發(fā)明的具體實例中,需要先獲取通信設備中FRU內部測試信息,這些測試信息反映了被測試的單元電路的功能或輸出是否存在不合格狀態(tài);下一步就是根據(jù)這些測試信息以及保存在FRU內部,用于描述各單元電路關聯(lián)關系的關聯(lián)矩陣,在這些關聯(lián)矩陣中搜尋與上述測試信息對應的單元電路集合。根據(jù)上面的介紹,一個FRU內部會存在若干個單元電路,每個單元電路都有與之相對應的關聯(lián)矩陣,這些關聯(lián)矩陣存儲在FRU中。然后,再根據(jù)上述已經(jīng)搜索的所述單元電路集合,搜索相關測試集,建立由各單元電路集合及關聯(lián)測試信息集合構成的定位子矩陣;在定位子矩陣中,根據(jù)故障推理規(guī)則,找到定位子矩陣中工作狀態(tài)為不正常的單元電路并進行記錄;最后,根據(jù)在故障推理過程中找到的工作狀態(tài)為不正常的單元電路和FRU分析規(guī)則,對工作狀態(tài)為不正常的單元電路進行判斷、分析,得到工作狀態(tài)為不正常的單元電路所對應的FRU。
如果根據(jù)故障推理規(guī)則,在定位子矩陣中沒有搜索到工作狀態(tài)為不正常的單元電路,說明FRU中沒有工作狀態(tài)為不正常的單元電路,因此,在此情況下,就無需再執(zhí)行判斷并記錄工作狀態(tài)為不正常的單元電路所對應的FRU的操作。
為了在定位子矩陣中找到工作狀態(tài)為不正常的單元電路并對其進行記錄,需要執(zhí)行如下的操作步驟首先,從定位子矩陣中取出一未分析過的測試信息;再根據(jù)事先確定的故障推理規(guī)則對單元電路進行判斷;如果單元電路工作狀態(tài)為不正常,則記錄這個電路單元;重復上述的各個步驟,直到定位子矩陣中所有測試信息均分析完畢。通過這種在定位子矩陣中遍歷的方式,就可以在上述關聯(lián)矩陣的基礎上,找到所有工作狀態(tài)為不正常的單元電路。
上述的故障推理規(guī)則包括如果測試信息為不合格(FAIL),則將與所述測試信息關聯(lián)的單元電路的狀態(tài)設置為不可信(Suspect)狀態(tài);如果測試信息為通過(PASS),則將與所述測試信息的關聯(lián)關系為強相關的單元電路的狀態(tài)設置為良好(GOOD)狀態(tài);如果測試信息不是良好(GOOD),且與所述測試信息相關的單元電路中存在唯一的狀態(tài)不為良好(GOOD)的單元電路,則將所述單元電路的狀態(tài)設置為故障(BAD)狀態(tài);如果一個單元電路與某一FRU內相關的所有測試信息的關聯(lián)關系都為弱相關,且所有的這些測試信息的結果都為通過(PASS),則將所述的單元電路的狀態(tài)設置為良好(GOOD)狀態(tài);如果測試信息為不合格(FAIL),且與所述測試信息相關的單元電路集中所有單元電路都不為故障(BAD)狀態(tài),則根據(jù)單元電路集得到單元電路集相關的測試集,確定符合測試集的最少的一組單元電路(這組單元電路稱為一個故障組),把故障組中的單元電路狀態(tài)設置為有可能故障(PROBABLY)狀態(tài);如果某故障組中只有一個單元電路,把該單元電路狀態(tài)設置為故障(BAD)狀態(tài)。
在找到并記錄下單元電路的工作狀態(tài)后,還需要進一步找到那些工作狀態(tài)不是良好的單元電路所對應的FRU,這樣才能最終將故障定位的工作完成。為了定位到上述的FRU,需要采用如下的判斷步驟,這些步驟的順序是可以任意改變的。這些步驟包括如果FRU中所有單元電路的狀態(tài)都是良好(GOOD)狀態(tài),則將所述可現(xiàn)場更換單元的狀態(tài)設置為良好(GOOD)狀態(tài);如果FRU中只要存在狀態(tài)為故障(BAD)狀態(tài)的單元電路,則將FRU的狀態(tài)設置為故障(BAD)狀態(tài);如果可現(xiàn)場更換單元中存在有狀態(tài)為可能故障(Probably)的單元電路,且該狀態(tài)為可能故障(Probably)的單元電路同屬一個故障組的單元電路完全屬于該可現(xiàn)場更換單元,則將所述可現(xiàn)場更換單元的狀態(tài)設置為故障(BAD)狀態(tài);如果FRU中存在有狀態(tài)為可能故障(Probably)的單元電路,且該狀態(tài)為可能故障(Probably)的單元電路同屬一個故障組的單元電路不完全屬于該FRU,且該FRU的狀態(tài)不為故障(BAD)狀態(tài),則將所述FRU的狀態(tài)設置為可能故障(Probably)狀態(tài);如果FRU中存在有狀態(tài)為不可信(Suspect)的單元電路,且FRU的狀態(tài)不是故障(BAD)或可能故障(Probably),則將FRU的狀態(tài)設置為不可信(Suspect)狀態(tài);如果FRU的所有測試信息為不合格(FAIL)的單元電路都屬于該FRU,則設置該FRU的狀態(tài)為故障(BAD)狀態(tài)。
通常,一個對FRU定位的操作是應通信網(wǎng)絡中一些節(jié)點,例如網(wǎng)管設備,發(fā)出的定位命令而產(chǎn)生的;因此,當定位結束后,定位的結果信息應當返回給這些發(fā)出定位命令的節(jié)點。因此,本發(fā)明的一個實例還包括將上述在定位過程中所記錄的工作狀態(tài)為不正常的單元電路所對應的FRU的信息返回給發(fā)出定位操作命令的設備的步驟;這種步驟,所屬領域技術人員完全可以依據(jù)現(xiàn)有技術的知識而實現(xiàn),例如采用通信過程中的請求和響應的處理方法,在此不再贅述。
如上所述,在一個通信設備因升級或故障,更換了其中的FRU后,該通信設備中FRU的關聯(lián)矩陣則需要進行更新,以滿足在新的配置情況下,對通信設備進行故障定位的需要。因此,本發(fā)明還提供了一個自動更新關聯(lián)矩陣的技術方案,具體的一個實例包括如下的步驟首先,以FRU的單元電路、接口輸入信號與測試、接口輸出信號構成通信設備關聯(lián)矩陣,并保留原FRU之間、單元電路之間以及FRU與單元電路之間的相關元素;然后,遍歷通信設備關聯(lián)矩陣中所有的單元電路,如果單元電路存在相關的接口輸出信號,則找到與接口輸出信號存在連接關系的接口輸入信號,采用遞歸搜索的方式,搜索與接口輸入信號相關的所有測試信號,在通信設備關聯(lián)矩陣中存儲相應單元電路與測試信號的相關元素;最后,刪除通信設備關聯(lián)矩陣中存在連接關系的接口輸入信號元素與接口輸出信號元素,形成新的通信設備關聯(lián)矩陣。
與上述技術方案相對應,本發(fā)明還提供了一個通信設備故障定位的系統(tǒng)的實例,以幫助相關技術領域技術人員對本發(fā)明的系統(tǒng)的理解。
參見圖5,該系統(tǒng)S一般設置在FRU中,也可以設置在由FRU構成的通信設備中,主要由測試適配單元S1、定位知識構造單元S3、FRU知識庫S4和推理機S2連接構成;其中測試適配單元S1連接告警模塊S11和測試模塊S12,用于獲取告警信息和測試信息,并向和該測試適配單元S1連接的推理機S2發(fā)送;知識構造單元S3連接FRU知識庫S4和配置管理模塊S31,用于構造描述通信設備中FRU內部各單元電路關聯(lián)關系的關聯(lián)矩陣,并向和該知識構造單元S3連接的推理機S2發(fā)送;FRU知識庫S4用于存儲的通信設備中FRU及其內部各單元電路的配置文件;推理機S2接收故障定位節(jié)點S21發(fā)出的操作命令,根據(jù)故障推理規(guī)則和FRU分析規(guī)則,對存在故障的FRU進行定位,具體參見上述的定位方法,在此不再贅述。
事實上,告警模塊S11、測試模塊S12和配置管理模塊S31是現(xiàn)有技術中存在的功能單元,但是,由于前述現(xiàn)有技術中這些模塊發(fā)出的信息并未能夠合理地使用,造成了上述種種故障定位的問題。本發(fā)明的系統(tǒng)中,測試適配單元S1將警模塊S11、測試模塊S12發(fā)來的測試信息整理后,才發(fā)送給推理機S2,而這里所述的測試信息整理就是上述獲取通信設備中可現(xiàn)場更換單元內部的告警信息和測試信息的操作,具體參見上述的定位方法的介紹;同樣,由知識構造單元S3將FRU知識庫的信息和配置管理模塊S31進行匹配后送入推理機S2;這一過程即是上述根據(jù)推理機發(fā)送的測試信息、描述通信設備中可現(xiàn)場更換單元內部各單元電路關聯(lián)關系的關聯(lián)矩陣,在所述關聯(lián)矩陣中搜尋與所述測試信息對應的單元電路,得到單元電路集合,以及進一步搜索關聯(lián)的測試信息,建立由各單元電路集合與關聯(lián)測試信息集構成的定位子矩陣的操作。在整理好的測試信息和匹配好的FRU知識的基礎上,推理機S2根據(jù)推理規(guī)則,查詢定位子矩陣中各測試信息,查找并記錄工作狀態(tài)為不正常的單元電路;最終查找到所述工作狀態(tài)為不正常的單元電路中所對應的可現(xiàn)場更換單元,得到相應的故障分析結果。
一般而言,一個對FRU定位的操作是應通信網(wǎng)絡中一些節(jié)點,例如網(wǎng)管設備,發(fā)出的定位命令而產(chǎn)生的;因此,當定位結束后,定位的結果信息應當返回給這些發(fā)出定位命令的節(jié)點。因此,本發(fā)明系統(tǒng)的實例中,還包括一個故障定位節(jié)點S21,在推理機完成定位推理工作后,會將上述在定位過程中所記錄的工作狀態(tài)為不正常的單元電路所對應的FRU的信息返回給發(fā)出定位操作命令的設備;這種交互的過程是所屬領域技術人員可以依據(jù)現(xiàn)有技術的知識就能實現(xiàn)的,例如采用通信過程中的請求和響應的處理方法,在此不再贅述。
最后應說明的是以上實施例僅用以說明本發(fā)明的技術方案而非對本發(fā)明作限制性理解。盡管參照上述較佳實施例對本發(fā)明進行了詳細說明,本領域的普通技術人員應當理解其依然可以對本發(fā)明的技術方案進行修改或者等同替換,而這種修改或者等同替換并不脫離本發(fā)明技術方案的精神和范圍。
權利要求
1.一種通信設備故障定位的方法,其特征在于,包括獲取通信設備中可現(xiàn)場更換單元內部測試信息;根據(jù)所述測試信息及描述通信設備中可現(xiàn)場更換單元內部各單元電路關聯(lián)關系的關聯(lián)矩陣,在所述關聯(lián)矩陣中搜尋與所述測試信息對應的單元電路,得到單元電路集合;根據(jù)所述單元電路集合搜索關聯(lián)的測試信息,得到關聯(lián)測試信息集;根據(jù)所述單元電路集及測試信息集建立由各單元電路集合與關聯(lián)測試信息集構成的定位子矩陣;查詢所述定位子矩陣中各測試信息,查找并記錄工作狀態(tài)為不正常的單元電路;以及,查找到所述工作狀態(tài)為不正常的單元電路中所對應的可現(xiàn)場更換單元。
2.根據(jù)權利要求1所述的方法,其特征在于在查詢所述定位子矩陣中各測試信息,查找并記錄工作狀態(tài)為不正常的單元電路之后,還進一步根據(jù)可現(xiàn)場更換單元分析規(guī)則,對工作狀態(tài)為不正常的單元電路進行判斷,并記錄所述工作狀態(tài)為不正常的單元電路所對應的可現(xiàn)場更換單元。
3.根據(jù)權利要求1或2所述的方法,其特征在于所述查詢所述定位子矩陣中各測試信息為根據(jù)故障推理規(guī)則,搜索所述定位子矩陣中各測試信息表示工作狀態(tài)為不正常的單元電路并進行記錄的步驟,具體包括從所述定位子矩陣中取出一未分析過的單元電路測試信息;根據(jù)故障推理規(guī)則查詢測試信息對所述關聯(lián)單元電路進行判斷;如果所述單元電路工作狀態(tài)為不正常,則記錄所述的電路單元;重復上述的步驟,直到定位子矩陣中所有測試信息均分析完畢。
4.根據(jù)權利要求3所述的方法,其特征在于所述根據(jù)故障推理規(guī)則查詢測試信息對所述關聯(lián)單元電路進行判斷包括如果測試信息為不合格,則將與所述測試信息關聯(lián)的單元電路的狀態(tài)設置為不可信狀態(tài);如果測試信息為通過,則將與所述測試信息的關聯(lián)關系為強相關的單元電路的狀態(tài)設置為良好狀態(tài);如果測試信息不是良好,且與所述測試信息相關的單元電路中存在唯一的狀態(tài)不為良好的單元電路,則將所述單元電路的狀態(tài)設置為故障狀態(tài);如果一個單元電路與某一可現(xiàn)場更換單元內相關的所有測試信息的關聯(lián)關系都為弱相關,且所有的這些測試信息的結果都為通過,則將所述的單元電路的狀態(tài)設置為良好狀態(tài);如果測試信息為不合格,且與所述測試信息相關的單元電路集中所有單元電路都不為故障狀態(tài),則根據(jù)單元電路集得到單元電路集相關的測試集,確定符合測試集的最少的一組單元電路,并將該組單元電路的狀態(tài)設置為有可能故障狀態(tài);如果所述符合測試集的最少的一組單元電路組中只有一個單元電路,則將該單元電路狀態(tài)設置為故障狀態(tài)。
5.根據(jù)權利要求3所述的方法,其特征在于所述根據(jù)可現(xiàn)場更換單元分析規(guī)則,對工作狀態(tài)為不正常的單元電路進行判斷,并記錄所述工作狀態(tài)為不正常的單元電路所對應的可現(xiàn)場更換單元的步驟具體包括如果所述可現(xiàn)場更換單元中所有單元電路的狀態(tài)都是良好,則將所述可現(xiàn)場更換單元的狀態(tài)設置為良好;如果所述可現(xiàn)場更換單元中只要存在狀態(tài)為故障的單元電路,則將所述可現(xiàn)場更換單元的狀態(tài)設置為故障;如果可現(xiàn)場更換單元中存在有狀態(tài)為可能故障的單元電路,且該狀態(tài)為可能故障的單元電路同屬一個故障組的單元電路完全屬于該可現(xiàn)場更換單元,則將所述可現(xiàn)場更換單元的狀態(tài)設置為故障;如果可現(xiàn)場更換單元中存在有狀態(tài)為可能故障的單元電路,且該狀態(tài)為可能故障的單元電路同屬一個故障組的單元電路不完全屬于該可現(xiàn)場更換單元,且該可現(xiàn)場更換單元的狀態(tài)不為故障,則將所述可現(xiàn)場更換單元的狀態(tài)設置為可能故障;如果可現(xiàn)場更換單元中存在有狀態(tài)為不可信的單元電路,且所述可現(xiàn)場更換單元的狀態(tài)不是故障或可能故障,則將可現(xiàn)場更換單元的狀態(tài)設置為不可信狀態(tài);如果可現(xiàn)場更換單元的所有測試信息為不合格的單元電路都屬于該可現(xiàn)場更換單元,則設置該可現(xiàn)場更換單元的狀態(tài)為故障。
6.根據(jù)權利要求1或2所述的方法,其特征在于,還包括將記錄所述工作狀態(tài)為不正常的單元電路所對應的可現(xiàn)場更換單元信息返回給發(fā)出定位操作命令的設備的步驟。
7.根據(jù)權利要求1或2所述的方法,其特征在于,還包括對所述描述通信設備中可現(xiàn)場更換單元內部各單元電路關聯(lián)關系的關聯(lián)矩陣自動更新,構成新的關聯(lián)矩陣的步驟以所述可現(xiàn)場更換單元的單元電路、接口輸入信號與所述測試、接口輸出信號構成所述通信設備關聯(lián)矩陣,并保留原可現(xiàn)場更換單元之間、單元電路之間以及可現(xiàn)場更換單元與單元電路之間的相關元素;遍歷通信設備關聯(lián)矩陣中所有的單元電路,如果所述單元電路存在相關的接口輸出信號,找到與接口輸出信號存在連接關系的接口輸入信號,遞歸搜索與接口輸入信號相關的所有測試信號,在所述通信設備關聯(lián)矩陣中存儲相應單元電路與所述測試信號的相關元素;刪除通信設備關聯(lián)矩陣中存在連接關系的接口輸入信號元素與接口輸出信號元素。
8.根據(jù)權利要求1或2所述的方法,其特征在于,在查找到所述工作狀態(tài)為不正常的單元電路中所對應的可現(xiàn)場更換單元之后,還對所述工作狀態(tài)為不正常的單元電路中所對應的可現(xiàn)場更換單元進行記錄。
9.一種通信設備故障定位的系統(tǒng),其特征在于由測試適配單元、定位知識構造單元、可現(xiàn)場更換單元知識庫、告警模塊、測試模塊、配置管理模塊和推理機連接構成;其中所述測試適配單元連接告警模塊和測試模塊,用于獲取通信設備中可現(xiàn)場更換單元內部的告警信息和測試信息,并向和該測試適配單元連接的推理機發(fā)送;所述定位知識構造單元連接可現(xiàn)場更換單元知識庫、推理機和配置管理模塊,用于根據(jù)推理機發(fā)送的測試信息、描述通信設備中可現(xiàn)場更換單元內部各單元電路關聯(lián)關系的關聯(lián)矩陣,在所述關聯(lián)矩陣中搜尋與所述測試信息對應的單元電路,得到單元電路集合,進一步搜索關聯(lián)的測試信息,建立由各單元電路集合與關聯(lián)測試信息集構成的定位子矩陣,并向和該定位知識構造單元連接的推理機發(fā)送;所述可現(xiàn)場更換單元知識庫用于存儲的通信設備中可現(xiàn)場更換單元及其內部各單元電路的配置文件;所述推理機接收定位操作命令,根據(jù)故障推理規(guī)則和可現(xiàn)場更換單元分析規(guī)則,查詢定位子矩陣中各測試信息,查找并記錄工作狀態(tài)為不正常的單元電路;最終查找到所述工作狀態(tài)為不正常的單元電路中所對應的可現(xiàn)場更換單元。
全文摘要
一種通信設備故障定位的方法和系統(tǒng),包括獲取設備各可現(xiàn)場更換單元內部測試信息;根據(jù)測試信息及描述通信設備的關聯(lián)矩陣,搜尋與測試信息關聯(lián)的所有單元電路;根據(jù)單元電路及關聯(lián)矩陣,進一步搜索與單元電路集中單元電路關聯(lián)的測試信息;由搜索到的單元電路集及測試信息集建立定位子矩陣;判斷并記錄定位子矩陣中工作狀態(tài)為不正常的單元電路;根據(jù)FRU分析規(guī)則,對工作狀態(tài)不正常的單元電路進行判斷,并記錄所對應的FRU。本發(fā)明將測試或告警信息與FRU的電路單元關聯(lián),自動定位出實際發(fā)生故障的FRU,克服了現(xiàn)有技術不能快速故障定位的缺陷,能自動地定位到FRU,解決了故障定位花費時間較長的問題,把故障直接定位到FRU。
文檔編號H04M3/24GK101047738SQ200610086709
公開日2007年10月3日 申請日期2006年6月16日 優(yōu)先權日2006年6月16日
發(fā)明者楊賓和, 霍大勇, 宋志新, 金雪鋒, 康小波, 袁標, 耿建旭, 程力, 崔秀國, 潘海濤, 唐建勛 申請人:華為技術有限公司