從異常數(shù)據(jù)構(gòu)造反常模型的方法
【專利摘要】從包含正常和反常數(shù)據(jù)兩者的數(shù)據(jù)構(gòu)造系統(tǒng)的概率圖形模型(10)的方法(100)包含學(xué)習(xí)對于概率圖形模型(10)的結(jié)構(gòu)的參數(shù)的步驟。該結(jié)構(gòu)包含其他變量(12,14,16,18,20,22,24)以其為條件并且具有多個成分的至少一個潛在變量(26)。方法進一步包含以下步驟:使?jié)撛谧兞浚?6)的多個成分中的一個或多個與正常數(shù)據(jù)迭代關(guān)聯(lián);構(gòu)造關(guān)聯(lián)矩陣;基于與正常數(shù)據(jù)的低關(guān)聯(lián)或關(guān)聯(lián)矩陣中的一個檢測潛在變量(26)的異常成分;以及從概率圖形模型(10)刪除潛在變量(26)的異常成分。
【專利說明】
從異常數(shù)據(jù)構(gòu)造反常模型的方法
【背景技術(shù)】
[0001]從數(shù)據(jù)檢測異常行為是許多應(yīng)用的要求。例如,異常行為能夠指示如關(guān)于機械資產(chǎn)、網(wǎng)絡(luò)攻擊、需要即時關(guān)注的重病特護患者或欺詐交易等的問題的這類事情。
[0002]理想地在已知為‘正?!臍v史數(shù)據(jù)上進行開發(fā),構(gòu)建分析模型來檢測異常行為。然而,存在其中歷史數(shù)據(jù)無法清除反常的許多應(yīng)用。在反常行為先前未被檢測并且已沒有理由回顧看看數(shù)據(jù)時情況就是這樣的。例如,考慮裝有健康狀況監(jiān)測系統(tǒng)(其包含振動傳感器和磁碎片檢測器)的旋翼飛行器。由于磁塞檢測引起的警報可導(dǎo)致更換變速器(transmiss1n)。然而,如果健康狀況監(jiān)測系統(tǒng)未使警報與振動傳感器關(guān)聯(lián),它可未將振動數(shù)據(jù)標(biāo)記為異常。換言之,健康狀況監(jiān)測系統(tǒng)可假設(shè)振動數(shù)據(jù)是正常的,即使能夠存在異常行為的證據(jù)。
[0003]可使用先驗知識來描述反?;虍惓J录臋z測。例如,考慮在高溫情況下的患者。單變量測量特征(例如患者的體溫和患者的正常體溫響應(yīng)的知識)足以設(shè)置簡單規(guī)則用于檢測高溫。通常存在測量的體溫以患者處于寧靜狀態(tài)(例如,不執(zhí)行緊張運動)為條件的假設(shè)。對于許多情形,不存在先驗知識來定義異常事件(或狀態(tài))。此外,異常事件的定義可要求多變量特征。例如,檢測人是否過重要求身高和體重的特征。多個特征通常取決于彼此并且這些依賴性根據(jù)諸如觀察對象的當(dāng)前狀態(tài)的因素而變化(或以其為條件)。例如,飛機可在起飛、爬升、巡航等期間收集數(shù)據(jù)并且所得的數(shù)據(jù)和它的相關(guān)特征能夠最終變得非常復(fù)雜。對于存儲歷史數(shù)據(jù)的應(yīng)用,通過直接從數(shù)據(jù)學(xué)習(xí)那些模型來對反常檢測構(gòu)造模型通常是可能的。通常叫作數(shù)據(jù)驅(qū)動建模方法,一般概念是要從過去行為的歷史學(xué)習(xí)‘正常’行為的模型。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的一個方面涉及從包含正常和反常數(shù)據(jù)兩者的數(shù)據(jù)構(gòu)造系統(tǒng)的概率圖形模型的方法。該方法包括:學(xué)習(xí)概率圖形模型的結(jié)構(gòu)的參數(shù),其中該結(jié)構(gòu)包含其他變量以其為條件并且具有多個成分的至少一個潛在變量;使?jié)撛谧兞康亩鄠€成分中的一個或多個與正常數(shù)據(jù)迭代關(guān)聯(lián);構(gòu)造關(guān)聯(lián)的矩陣;基于與正常數(shù)據(jù)的低關(guān)聯(lián)或關(guān)聯(lián)矩陣中的一個檢測潛在變量的異常成分;以及從概率圖形模型刪除潛在變量的異常成分。
【附圖說明】
[0005]在圖中:
圖1示出發(fā)明性方法可應(yīng)用在其上的數(shù)據(jù)的示例概率圖形模型。
[0006]圖2示出根據(jù)本發(fā)明的實施例的流程圖,其詳述用于從概率圖形模型(例如圖1)去除異常數(shù)據(jù)成分的關(guān)聯(lián)矩陣的距離計算和生成。
【具體實施方式】
[0007]在背景和下面的描述中,為了說明目的,闡述許多特定細節(jié)以便提供對本文描述的技術(shù)的徹底理解。然而,示范性實施例可在沒有這些特定細節(jié)的情況下實施,這對于本領(lǐng)域內(nèi)技術(shù)人員將是顯然的。在其他實例中,采用簡圖的形式示出結(jié)構(gòu)和裝置以便促進描述示范性實施例。
[0008]參考圖來描述示范性實施例。這些圖圖示實現(xiàn)本文描述的模塊、方法或計算機程序產(chǎn)品的特定實施例的某些細節(jié)。然而,圖不應(yīng)理解為強加可在圖中存在的任何限制??稍谌魏螜C器可讀媒體上提供方法和計算機程序產(chǎn)品用于實現(xiàn)它們的操作??墒褂矛F(xiàn)有的計算機處理器或通過為該或另一個目的而合并的專用計算機處理器或通過硬連線系統(tǒng)來實現(xiàn)實施例。
[0009]如上所述,本文描述的實施例可包含計算機程序產(chǎn)品,其包括用于攜帶或具有存儲在其上的機器可運行指令或數(shù)據(jù)結(jié)構(gòu)的機器可讀媒體。這種機器可讀媒體能夠是任何可用媒體,其能夠被通用或?qū)S糜嬎銠C或具有處理器的其他機器訪問。通過示例,這類機器可讀媒體能夠包括RAM、R0M、EPR0M、EEPR0M、CD_R0M或其他光盤存儲裝置、磁盤存儲裝置或其他磁存儲裝置,或能夠用來采用機器可運行指令或數(shù)據(jù)結(jié)構(gòu)形式攜帶或存儲期望程序代碼并且能夠被通用或?qū)S糜嬎銠C或具有處理器的其他機器訪問的任何其他媒介。當(dāng)通過網(wǎng)絡(luò)或另一個通信連接(硬連線、無線或硬連線或無線的組合)將信息傳遞或提供給機器時,機器適當(dāng)?shù)貙⑦B接視為機器可讀媒介。因而,任何這種連接適當(dāng)?shù)胤Q作機器可讀媒介。上文的組合也包含在機器可讀媒體的范圍內(nèi)。機器可運行指令包括,例如促使通用計算機、專用計算機或?qū)S锰幚頇C執(zhí)行某些功能或功能編組的指令和數(shù)據(jù)。
[0010]將在可在一個實施例中由包含機器可運行指令(例如程序代碼)例如采用由聯(lián)網(wǎng)環(huán)境中的機器運行的程序模塊的形式的程序產(chǎn)品實現(xiàn)的方法步驟的一般上下文中描述實施例。一般來說,程序模塊包含具有執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的技術(shù)效果的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等。機器可運行指令、關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)和程序模塊表示用于運行本文公開的方法的步驟的程序代碼的示例。這類可運行指令或關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)的特定序列表示用于實現(xiàn)在這類步驟中描述的功能的對應(yīng)動作的示例。
[0011]實施例可使用到具有處理器的一個或多個遠程計算機的邏輯連接而在聯(lián)網(wǎng)環(huán)境中實施。邏輯連接可包含局域網(wǎng)(LAN)和廣域網(wǎng)(WAN),其作為示例而非限制在這里被提出。這類聯(lián)網(wǎng)環(huán)境在辦公室范圍或企業(yè)范圍的計算機網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是普通的,并且可使用各種各樣不同的通信協(xié)議。本領(lǐng)域內(nèi)技術(shù)人員將領(lǐng)會,這類網(wǎng)絡(luò)計算環(huán)境通常將囊括許多類型的計算機系統(tǒng)配置,其包含個人計算機、手持裝置、多處理器系統(tǒng)、基于微處理器或可編程的消費電子設(shè)備、網(wǎng)絡(luò)PC、小型計算機、大型計算機等。
[0012]實施例還可在分布式計算環(huán)境中實施,其中任務(wù)由通過通信網(wǎng)絡(luò)而鏈接(通過硬連線鏈路、無線鏈路或硬連線或無線鏈路的組合)的本地和遠程處理裝置執(zhí)行。在分布式計算環(huán)境中,程序模塊可位于本地和遠程存儲器存儲裝置兩者中。
[0013]用于實現(xiàn)示范性實施例的全部或部分的示范性系統(tǒng)可包含采用計算機形式的通用計算裝置,其包含處理單元、系統(tǒng)存儲器和使包含系統(tǒng)存儲器的各種系統(tǒng)組件耦合于處理單元的系統(tǒng)總線。系統(tǒng)存儲器可包含只讀存儲器(ROM)和隨機存取存儲器(RAM)。計算機還可包含用于從磁硬盤讀取和寫入磁硬盤的磁硬盤驅(qū)動、用于從可移動磁盤讀取或?qū)懭肟梢苿哟疟P的磁盤驅(qū)動和用于從可移動光盤(例如CD-ROM或其他光學(xué)媒體)讀取或?qū)懭肟梢苿庸獗P的光盤驅(qū)動。驅(qū)動和它們關(guān)聯(lián)的計算機可讀媒體為計算機提供機器可運行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的非易失性存儲。
[0014]在實施例中公開的方法的有益效果包含對許多模型類型的構(gòu)建時間顯著減少。模型(用于當(dāng)前技術(shù)水平的臺式計算機的模型的構(gòu)建時間可范圍達到(range up to)若干幾天)可具有減少至若干小時的構(gòu)建時間。通過使用并行處理已知的技術(shù)來實現(xiàn)附加的時間節(jié)省。
[0015]概率圖形模型(PGM)提供隨機變量之間的條件依賴性結(jié)構(gòu)的基于圖形的表示。通過C.M.BishopiSiPaiier/? Recognit1n and Machine Learning, Springer(2006)的章節(jié)8中進一步描述,PGM是概率模型,但它們的結(jié)構(gòu)能夠可視化,這允許通過檢查來推導(dǎo)獨立性質(zhì)。變量(例如特征)由節(jié)點表示并且變量之間的關(guān)聯(lián)由邊表示。為了幫助檢測異常(或反常)行為,PGM可表示觀察系統(tǒng)的正常行為。
[0016]經(jīng)由機器學(xué)習(xí)技術(shù),PGM能夠?qū)W習(xí)數(shù)據(jù)的密度模型,使得表示正常行為的數(shù)據(jù)占據(jù)致密區(qū)而占據(jù)稀疏密度區(qū)的數(shù)據(jù)是異常行為的候選。PGM可包含連續(xù)和離散特征兩者。連續(xù)特征是諸如溫度的模擬輸入并且離散特征是諸如成分標(biāo)識符的可計算特征。如對本領(lǐng)域內(nèi)普通技術(shù)人員是明顯的,連續(xù)特征能夠成為離散的。連續(xù)特征通常在PGM中由高斯變量表示并且離散特征由多項變量表示。
[0017]P G M提供高度靈活的結(jié)構(gòu)用于推斷。它們能夠用來:預(yù)測類成員關(guān)系(membership);從一個或其他特征的值推斷一個或多個特征的值;測量一組特征與模型之間的關(guān)聯(lián)(稱為似然得分);并且計算概率、聯(lián)合分布和其他推導(dǎo)度量。此外,PGM允許推斷數(shù)據(jù)何時丟失,例如在系統(tǒng)輸入中的一個包含故障傳感器的時間。
[0018]現(xiàn)在參考圖1,示出示例PGM結(jié)構(gòu)10。模型的特定結(jié)構(gòu)可取決于模型的特定實例而變化。即,建模應(yīng)用確定PGM的實際預(yù)定義結(jié)構(gòu)。圓形節(jié)點12、14、16用來指示連續(xù)變量(或特征)并且矩形節(jié)點18、20、22、24、26用來指示離散變量(或特征)。模型將包含由Xjg示的一個或多個特征,其中i對個別特征編索引。這些特征能夠是連續(xù)或離散的。所有特征以潛在變量L 26為條件(下文描述)。所有離散特征在已知L 26的值時假設(shè)為有條件獨立。
[0019]連續(xù)特征12、14、16能夠被鏈接來表示依賴性28、30、32。例如,如果X1、12和X2、14相關(guān),則它們將會被鏈接30。連續(xù)變量的鏈接必須維持作為定向且無環(huán)圖形的結(jié)構(gòu)。換言之,路徑通過遵循邊的方向而不能夠從節(jié)點引出回(draw back)到它自身。
[0020]變量L26稱為潛在或隱藏變量,因為它的值一般不被觀察。L 26的值稱為‘成分’。L 26的目的是要允許特征以不同的數(shù)據(jù)模式為條件。變量L 26允許模型表示復(fù)雜的密度景觀(landscape)ο
[0021]數(shù)據(jù)中的不同模式能夠由于許多原因而出現(xiàn)。如果應(yīng)用牽涉機械資產(chǎn),則由于以下中的差異而能夠出現(xiàn)不同的模式:物理配置;采集體系;環(huán)境因素(例如,熱對冷氣候);等。S變量22、24稱為子集變量并且用來顯式描述預(yù)期模式。
[0022]L 26與子集變量S 22、24之間的邊的方向應(yīng)反過來示出,因為L 26以子集變量S
22、24為條件。然而,使邊如示出的那樣定向,這更方便。來自推斷的結(jié)果將是正確的,但模型訓(xùn)練必須遵循特定程序。如果邊從子集變量S 22、24定向到L 26 JljL 26中的條目(entry)在計算上將會是不可管理的。例如,假設(shè)S1 24具有20個值,S2 22具有30個值并且L26具有50個值。如果邊指向L 26,則如與在如示出的那樣引出時的50相對,在L 26中將會存在30000個條目(S卩20x30x50)。圖1示出兩個子集變量S 22、24,但可不存在或存在一個或多個。例如,考慮用來監(jiān)測旋翼飛行器隊中的變速器振動的應(yīng)用。振動簽名(signature)在飛機創(chuàng)建截然不同的模式之間能夠明顯變化,從而。因此,添加表示飛機尾號的子集變量可以是更可取的。因此,子集變量中的值的數(shù)量將會對應(yīng)于隊中飛機的數(shù)量。
[0023]變量L26能夠視為指定訓(xùn)練數(shù)據(jù)中的分區(qū)(或子集模型)。分區(qū)的數(shù)量等同于子集變量S 22、24中的值的積。例如對于20旋翼飛行器隊,分區(qū)的數(shù)量是20。隨著添加第二子集變量來以諸如盤旋和巡航的體系為條件,分區(qū)的數(shù)量是40。通常,L 26中的值被硬賦給子集;即,值是專用的并且僅對與特定子集模型關(guān)聯(lián)的數(shù)據(jù)來訓(xùn)練。備選地,值可跨子集共享。賦給子集的L值的數(shù)量能夠由于子集而變化。例如,L中的單個值可表示一個子集,而20個值可表示另一個子集。進一步使模型訓(xùn)練過程復(fù)雜化,每子集的值的數(shù)量可由于在訓(xùn)練期間的最優(yōu)化而變化。
[0024]系統(tǒng)可通過假設(shè)在由L值所表示的特征空間的區(qū)域中出現(xiàn)訓(xùn)練反常而從包含反常的訓(xùn)練數(shù)據(jù)構(gòu)建模型。換言之,將存在訓(xùn)練反常將與之最緊密關(guān)聯(lián)的L的值并且L的這些值與正常數(shù)據(jù)將具有低關(guān)聯(lián)。然后通過檢測這些‘反?!疞值并且從模型刪除它們而生成常態(tài)模型。盡管先前的專利申請已公開通過將數(shù)據(jù)分區(qū)成多個子集來生成模型的方法(美國專利號13/027829 )以及涉及圖形模型的功用的概念(英國專利申請1119241.6 ),本發(fā)明的實施例的方法的關(guān)鍵方面是高效去除‘反常’L,其可以是模型構(gòu)建過程的最耗時階段。
[0025]模型構(gòu)建由兩個階段組成。在第一階段期間學(xué)習(xí)子集模型參數(shù)。第二階段包含從L去除可能與反常關(guān)聯(lián)的成分(或值)。
[0026]現(xiàn)在參考圖2,本發(fā)明的方法100的處理器將在步驟102處在子集上執(zhí)行循環(huán)。進而通過輸入關(guān)于子集變量的證據(jù)來選擇每個子集。如上文指示的,如本文描述的方法適用于硬證據(jù)(hard evidence),其確保每個子集映射到L的一個或多個值,但L的這些值未映射到任何其他子集。然而,方法在存在軟證據(jù)(soft evidence)的情況下可同樣適用并且因此不應(yīng)視為局限于其中僅硬證據(jù)可用的應(yīng)用。硬證據(jù)簡單地意指選擇每個子集變量的單個值。關(guān)于子集變量的硬證據(jù)定義單個子集。變量L將包含專用于所選子集的一個或多個成分。然后學(xué)習(xí)以有效成分為條件的特征。關(guān)于子集變量的證據(jù)在訓(xùn)練數(shù)據(jù)中定義分區(qū)。證據(jù)用來構(gòu)造查詢,使得與分區(qū)關(guān)聯(lián)的數(shù)據(jù)能夠被檢索用于訓(xùn)練。訓(xùn)練能夠利用任何適合的方法,例如期望最大化。
[0027]其中構(gòu)成模型的方式意指存在與L的每個成分關(guān)聯(lián)的特征參數(shù)。例如,連續(xù)特征將具有L的每個值的均值和方差,和對于每個關(guān)聯(lián)連續(xù)特征的權(quán)重。離散特征將具有對于L的每個成分在它的值上分布的概率。這些概率是離散特征的參數(shù)。
[0028]如上文描述的,專用于子集的成分的數(shù)量能夠基于在模型構(gòu)建過程的學(xué)習(xí)階段期間對最佳數(shù)量的成分的計算搜索而變化。然而,確定最佳數(shù)量的成分通常是啟發(fā)式過程。對最佳確定的標(biāo)準(zhǔn)啟發(fā)旨在將模型質(zhì)量與模型大小進行權(quán)衡并且包含眾所周知的度量,例如Akaike信息準(zhǔn)則、Bayesian信息準(zhǔn)則和偏差信息準(zhǔn)則。在該上下文中,模型質(zhì)量通常指模型是數(shù)據(jù)的良好生成器。換言之,從模型采樣的數(shù)據(jù)將會與訓(xùn)練數(shù)據(jù)類似。模型質(zhì)量和模型大小需要交易(trade)來防止數(shù)據(jù)的過擬合。即,如果在它的大小上沒有約束,則模型可完美地表示訓(xùn)練數(shù)據(jù);然而,這種模型將會未很好地歸納或形成生成數(shù)據(jù)的真實概率模型的良好表示。
[0029]從L去除成分潛在地是在計算上模型構(gòu)建的最昂貴階段。計算時間隨模型大小(即,L成分的數(shù)量)按指數(shù)規(guī)律增長。為了減輕該指數(shù)增長,初始可執(zhí)行附加計算并且定義簿記的方法,其節(jié)省重復(fù)的不必要計算。
[0030]處理器在L中檢測成分,其被視為與其他成分最不類似,并且這些成分然后假設(shè)為最可能與訓(xùn)練數(shù)據(jù)中反常關(guān)聯(lián)的成分。這些成分是去除的候選。處理器使用距離計量測量成分之間的類似性。在去除過程期間,檢查每個成分并且計算它的距離。在已對所有成分計算距離時,成分按距離的降序排序。在列表頂部的成分被去除。
[0031]因為模型隨著成分的去除而改變,去除成分潛在地改變?nèi)匀辉谀P椭械某煞值娜烤嚯x。通常,默認位置要在成分去除后對所有剩余成分重新計算距離。該默認方法對于大的模型在計算上是非常昂貴的。
[0032]簡單的備選方法是要在初始距離計算后以單次(singleshot)去除多于一個成分,其包含去除初始確定被刪除的所有成分的可能性。盡管該方法對于一些應(yīng)用可以是足夠的,這可導(dǎo)致被掩蓋和未檢測的反常成分。例如,多個反常成分可在計算它們的距離時對彼此提供支持,因為它們占據(jù)特征空間的相同區(qū)域。因此,方法可未將一些反常成分作為刪除的目標(biāo)。
[0033]將要計算其距離的成分指示為P,處理器通過將P與指示為Q的一組其他成分比較來計算距離。Q的成員關(guān)系通過子集變量來確定。
[0034]如果沒有子集變量,則Q的默認成員關(guān)系是除P以外的所有成分。在該情形中,處理器使用所有其他成分對P計算距離。然而,在存在子集變量時,通過對每個子集變量輸入證據(jù)來定義子集H1。默認位置要輸入硬證據(jù),其具有出將與L的一個或多個成分關(guān)聯(lián)并且這些成分將未被任何其他子集共享的結(jié)果。換言之,H1與所有其他子集的交集是零(或空)集。Q集將是不在H1中的L的所有成分。處理器將P設(shè)置成H1中的第一成分并且P將總是包含單個成分。在計算它的距離時,H1中的每個成分將進而被賦給P。為了總結(jié)該情況,通過將P與未共享與P相同的子集的所有其他成分比較來計算對于成分P的距離。
[0035]如先前描述的,關(guān)于子集變量的證據(jù)通常是硬性的,但它能夠是軟性的。軟證據(jù)導(dǎo)致在子集變量值上的概率分布。假設(shè)變量S1具有值{a,b, c, d, e}。采用硬證據(jù),處理器僅選擇一個值;即,對Si賦予單值。采用軟證據(jù),處理器可賦予多個值,例如{a=0,b=0.5, c=0.3, d=0, e=0.2}。采用軟證據(jù),處理器對具有硬證據(jù)的情況執(zhí)行類似計算,但Q的每個成員具有被計入距離計算中的關(guān)聯(lián)加權(quán)。
[0036]使用似然得分來計算距離。通過輸入關(guān)于特征的證據(jù)(回想起特征是圖1中的X變量12、14、16 )來執(zhí)行模型中的推斷。證據(jù)的似然性是概率模型中的標(biāo)準(zhǔn)度量并且在C.M.BishopiSiPaiier/3 Recognit1n and Machine Learning, Spinger(2006)的章節(jié)8中進——步詳細描述。
[0037]通過在步驟110處在隨機樣本計數(shù)上循環(huán),處理器在步驟112處從成分P生成η個樣本。參數(shù)η是可配置的,但優(yōu)選默認值是100。樣本生成對特征產(chǎn)生仿真值。處理器在步驟128處通過從P的角度(perspective)計算樣本數(shù)據(jù)的似然性并且將其與從Q的角度計算的似然性比較來計算距離。
[0038]具體地,如在步驟110處示出的,處理器進而采取每個樣本,從而在樣本計數(shù)上循環(huán)。處理器通過在步驟114處設(shè)置關(guān)于X變量的證據(jù)并且選擇對應(yīng)于P的L值來計算P—似然性。通過在步驟116處循環(huán)通過除H1以外的所有子集以及在步驟118處循環(huán)通過子集中的所有Q成分,處理器通過去除關(guān)于L的證據(jù)并且輸入關(guān)于每個S變量的證據(jù)使得在L中僅Q變量有效來計算Q—似然性。Q—似然性通過將它的似然性除以Q的基數(shù)(即,Q成員的數(shù)量)而歸一化。Q的對數(shù)減去P的對數(shù)。處理器對于剩下的樣本重復(fù)步驟112-126并且將對數(shù)差求和以在步驟128處確定對于P的距離。
[0039]不存在用于決定從L要去除多少成分的固定方法。對于一些應(yīng)用,先驗知識將確定模型的質(zhì)量。用于對要去除的成分數(shù)量作出決定的默認方法是要通過探索或了解來對與反常關(guān)聯(lián)的訓(xùn)練數(shù)據(jù)的百分比進行估計。關(guān)于L的每個成分具有支持度量,其指定與成分關(guān)聯(lián)的訓(xùn)練情況(case)的數(shù)量。稱為‘去除百分比’的參數(shù)在從模型去除成分時被跟蹤。每當(dāng)去除成分時,將它的支持添加到‘去除百分比’。成分去除在該‘去除百分比’與反常的估計數(shù)量相同或超過它時停止。
[0040]如先前解釋的,默認位置要迭代去除成分。為了在模型大小增長時節(jié)省計算時間中的指數(shù)增長,處理器采用簿記方法來識別潛在冗余計算。
[0041]對于大多數(shù)模型,期望Q中的大部分成分將對P中成分的距離沒有或具有可忽略影響。因此,處理器確定在去除Q成分后是否需要重新計算P成分的距離。處理器在步驟124處維持P成分與Q成分之間的關(guān)聯(lián)表。如果關(guān)聯(lián)是弱的,則處理器在步驟108處確定不要求重新計算。弱的定義在步驟108中在稱作‘關(guān)聯(lián)閾值’(指示為T)的參數(shù)中聲明。關(guān)聯(lián)閾值的值確定需要進行多少計算以及因此構(gòu)建模型所花的時間。
[0042]閾值的實際值將取決于應(yīng)用以及要如何使用閾值。例如,處理器可使用關(guān)聯(lián)閾值來限制構(gòu)建模型所花的時間并且該類型的閾值目標(biāo)能夠通過構(gòu)建一些初始模型而自動確定。如果關(guān)聯(lián)閾值的目的是要將識別對于去除的最佳候選成分與計算所花的時間進行交易,這也能夠通過構(gòu)建一些初始模型而自動確定。對于其中數(shù)據(jù)趨于集中在特征空間的若干截然不同的區(qū)上的應(yīng)用,一般將存在P與Q的成員之間的關(guān)聯(lián)的清晰分布(profile)。如果數(shù)據(jù)趨于集中在特定區(qū)中使得P與Q成員之間的關(guān)聯(lián)趨向于均一分布,則去除成分可幾乎不起任何作用或單次去除(如上文描述的)是足夠的。
[0043]P與Q的成員之間的關(guān)聯(lián)將在去除成分時潛在地改變??啥ㄆ诟玛P(guān)聯(lián),但優(yōu)選地,處理器在初始距離如在步驟122中示出的那樣計算時將計算它們一次。
[0044]關(guān)于在步驟124中關(guān)聯(lián)矩陣的構(gòu)造,關(guān)聯(lián)度量是簡單的概率度量。從群集P生成的樣本用來找到P與Q的成員之間的關(guān)聯(lián)。關(guān)聯(lián)計算從用于距離的計算的子集構(gòu)造。對于由高斯和多項變量組成的成分的概率密度函數(shù)(pdf)被很好地定義。對由P和Q的每個成員生成的每個樣本計算pdfC3Q pdf然后通過使每個Q pdf除以Q pdf的總和來對Q的每個成員生成成員關(guān)系概率而歸一化。這在步驟118處對每個樣本重復(fù)并且Q概率在步驟120中被求和。樣本上的求和是P與Q的成員之間的關(guān)聯(lián)的度量。
[0045]因為每個成分迭代選擇為P成分,處理器計算每個成分與不占據(jù)與P成分相同子集的所有其他成分之間的關(guān)聯(lián)的矩陣??山M織關(guān)聯(lián)矩陣,其中Q作為列并且P作為行。每個成分將在行和列中出現(xiàn)。矩陣將具有空值,其中行和列值在相同子集上相交。在處理器去除成分時,它識別關(guān)聯(lián)矩陣中與成分有關(guān)的Q列。處理器可重新計算其在該列中的條目超過關(guān)聯(lián)閾值的P成分的距離。處理器將未重新計算具有低于或等于關(guān)聯(lián)閾值的值的P成分。
[0046]因而,在確定第一成分去除所要求的距離計算期間生成完整的關(guān)聯(lián)矩陣。關(guān)聯(lián)矩陣然后對所有特征計算保持靜止,但對于一些應(yīng)用,模型可從該矩陣的偶爾更新中獲益。處理器對關(guān)聯(lián)矩陣編索引來確定是否必須重新計算距離值用于后續(xù)成分去除。
[0047]對于許多模型類型,構(gòu)建時間能夠顯著減少,通常約計算時間中的90%減少。時間節(jié)省對于大的應(yīng)用是明顯的。對于當(dāng)前技術(shù)水平的臺式計算機,它可花若干小時一直到若干天來構(gòu)建模型。然而,使用上文描述的方法,這些模型現(xiàn)在可在少得多的時間構(gòu)建。通過使用并行處理已知的技術(shù)來實現(xiàn)附加時間節(jié)省。
[0048]為了更充分領(lǐng)會時間節(jié)省的重要性,考慮在典型應(yīng)用中發(fā)生什么。通常,應(yīng)用將依賴許多模型,或許100或更多。如果域(domain)具有許多資產(chǎn)類型;例如,不同類型的引擎,模型的數(shù)量能夠增長為數(shù)千。在歷史數(shù)據(jù)更新時,這些模型也將定期更新。對于新的應(yīng)用,通常存在探索許多不同模型(例如,使用特征的不同組合)來找到最佳集的要求。該探索僅在模型能夠相對快地構(gòu)建時是可行的。
[0049]采用子集變量構(gòu)造反常模型通常被證明是有用的并且可提供許多優(yōu)勢。子集模型的構(gòu)造是非??斓?即,計算高效的)。子集趨于迫使建模資源或成分到特征空間的通常被忽視的區(qū)域,并且因此對組件提供擬合反常數(shù)據(jù)的機會。因此,建模方法對于采用包含隱藏反常的數(shù)據(jù)來訓(xùn)練更魯棒。子集還對推斷提供大量靈活性。例如,考慮具有專用于與特定飛機尾號擬合的每個引擎的子集的模型。使用子集,推斷引擎/飛機與隊的余下相比如何表現(xiàn)是有可能的。使用相同模型來跟蹤個別引擎/飛機行為中的改變也是有可能的。子集還提供內(nèi)置平臺以在測試模型性能時執(zhí)行交叉驗證。
[0050]本書面描述使用包含最佳模式的示例來公開本發(fā)明,并且還使本領(lǐng)域內(nèi)技術(shù)人員能夠?qū)嵤┍景l(fā)明,包含制作和使用任何裝置或系統(tǒng)并且執(zhí)行任何包含的方法。本發(fā)明的可取得專利范圍由權(quán)利要求限定,并且可包含本領(lǐng)域內(nèi)技術(shù)人員想到的其他示例。如果這類其他示例具有與權(quán)利要求的文字語言完全相同的結(jié)構(gòu)單元,或者如果它們包括具有與權(quán)利要求的文字語言的非實質(zhì)差異的等效結(jié)構(gòu)單元,則預(yù)計它們處于權(quán)利要求的范圍之內(nèi)。
【主權(quán)項】
1.一種從包含正常和反常數(shù)據(jù)兩者的數(shù)據(jù)構(gòu)造系統(tǒng)的概率圖形模型(10)的方法,所述方法包括: 學(xué)習(xí)對于所述概率圖形模型(10)的結(jié)構(gòu)的參數(shù),其中所述結(jié)構(gòu)包含其他變量(12,14,16,18,20,22,24)以其為條件并且具有多個成分的至少一個潛在變量(26); 使所述潛在變量(26)的所述多個成分中的一個或多個與正常數(shù)據(jù)迭代地關(guān)聯(lián); 構(gòu)造所述關(guān)聯(lián)的矩陣; 基于與所述正常數(shù)據(jù)的低關(guān)聯(lián)或所述關(guān)聯(lián)矩陣的一個來檢測所述潛在變量(26)的異常成分;以及 從所述概率圖形模型(10)刪除所述潛在變量(26)的所述異常成分。2.如權(quán)利要求1所述的方法,其中學(xué)習(xí)所述結(jié)構(gòu)的所述參數(shù)的步驟通過預(yù)期最大化來執(zhí)行。3.如權(quán)利要求1或2所述的方法,其中使所述多個成分中的一個或多個迭代關(guān)聯(lián)的步驟通過計算所述一個或多個成分之間的類似性來執(zhí)行。4.如權(quán)利要求3所述的方法,其中所述一個或多個成分之間的所述類似性采用距離度量來計算。5.如權(quán)利要求4所述的方法,其中所述距離度量是似然函數(shù)。6.如任何前述權(quán)利要求所述的方法,其中使所述多個成分中的一個或多個迭代關(guān)聯(lián)的步驟在存在新數(shù)據(jù)時重復(fù)。7.如任何前述權(quán)利要求所述的方法,其中刪除所述異常成分的步驟進一步包含對所述一個或多個成分中的每個之間的所述關(guān)聯(lián)矩陣編索引來確定是否需要重復(fù)使所述潛在變量的所述多個成分中的一個或多個與正常數(shù)據(jù)迭代關(guān)聯(lián)的所述步驟的步驟。
【文檔編號】G06K9/62GK105934765SQ201380082008
【公開日】2016年9月7日
【申請日】2013年11月29日
【發(fā)明人】R.E.卡蘭, D.S.哈德維克
【申請人】通用電氣航空系統(tǒng)有限公司