識別在線服務的行為變化的制作方法

文檔序號：11161016閱讀：296來源：國知局

具有運行若干不同服務的大量計算機的組織通常針對可能指示安全威脅的異常而對硬件和軟件事件這兩者進行監(jiān)視。迄今為止，操作安全保證程序通?；诘氖轻槍︻A定義模式而分析事件的規(guī)則。例如，該規(guī)則可以是每個計算機的運行日志。該預定義模式可以指示潛在的安全威脅，其一旦被識別就能夠得到解決。該基于規(guī)則的方法在至少兩個維度可能無法進行擴展，因此使得該方法難以靈活實施。首先，關于基于規(guī)則的實施方式，這要求規(guī)則基于專家知識提前進行編碼。這意味著規(guī)則開發(fā)者必須預見到什么被認為是易損性。然而，規(guī)則開發(fā)者可能無法具備所有潛在易損性的知識，因此在該方法中留下了缺口。第二，在操作期間，基于規(guī)則的方法要求所有事件的完全掃描，尋找數(shù)據(jù)或信息中可能具有不完整或不正確數(shù)據(jù)的模式。

因此，由于這樣的系統(tǒng)通常無法識別出重要的安全事件或者可能產生許多假陽性而因此觸發(fā)不必要的檢查，所以難以實現(xiàn)良好且令人滿意的結果。

技術實現(xiàn)要素：

提供該發(fā)明內容而以簡單的形式引入在以下具體實施方式中進一步進行描述的概念的選擇。該發(fā)明內容并非意在標識出所請求保護主題的關鍵特征或必要特征。

各個實施例提供了基于行為變化檢測或“易變性”的概念對安全事件進行分類的方法。行為變化檢測代替預定義模型方法而被用來查看系統(tǒng)的行為并且檢測從原本正常操作行為所發(fā)生的任何變化。在操作中，機器學習技術被用作促進實施方式可擴展性的事件分類機制。該機器學習技術是迭代的并且隨時間持續(xù)進行學習。操作可擴展性問題通過使用時間序列中的事件的所計算出的易變性作為分類器輸入而得以解決。在學習過程(即，機器學習過程)期間，該系統(tǒng)識別被安全事故所影響的相關特征。當處于操作中時，該系統(tǒng)實時地對那些特征進行評估并且提供將要發(fā)生事故的概率。

附圖說明

參考附圖對具體實施方式進行描述。在圖中，附圖標記最左側的(多個)數(shù)字標識出該附圖標記首次出現(xiàn)的附圖。在描述的不同實例中使用相同的附圖標記并且附圖可以指示相似或相同的事項。

圖1圖示了依據(jù)一個或多個實施例的示例操作環(huán)境。

圖2圖示了依據(jù)一個或多個實施例的示例系統(tǒng)。

圖2a圖示了依據(jù)一個實施例的作為xml數(shù)據(jù)的元域(meta-domain)描述符。

圖2b圖示了依據(jù)一個實施例的將矩陣執(zhí)行建模為xml數(shù)據(jù)。

圖3圖示了依據(jù)一個或多個實施例的示例識別器。

圖3a圖示了能夠如何隨時間在特定上下文中收集對象特征的多個方面。

圖3b圖示了對來自圖3a的集合數(shù)值進行聚類的示例。

圖3c圖示了能夠如何隨時間在特定上下文中收集對象特征的多個方面。

圖3d圖示了對來自圖3c的集合數(shù)值進行聚類的示例。

圖3e圖示了依據(jù)一個或多個實施例的計算機偏差。

圖4圖示了經(jīng)歷迭代的機器學習過程的示例系統(tǒng)。

圖5圖示了經(jīng)歷迭代的機器學習過程的示例系統(tǒng)。

圖6圖示了依據(jù)一個或多個實施例的示例架構(schema)如何被映射至示例系統(tǒng)的多個方面。

圖7圖示了依據(jù)一個或多個實施例的示例架構如何被映射至示例系統(tǒng)的多個方面。

圖8是描述依據(jù)一個或多個實施例的方法中的步驟的流程圖。

圖9是描述依據(jù)一個或多個實施例的方法中的步驟的流程圖。

圖10是依據(jù)一個或多個實施例的示例設備。

具體實施方式

概要

各個實施例提供了用于基于行為變化檢測或“易變性”的概念對安全事件進行分類的方法。安全事件與一個或多個在線服務的提供相關聯(lián)。使用行為變化檢測來代替預定義模型方法以查看系統(tǒng)的行為并且檢測從原本正常操作行為所發(fā)生的任何變化。在操作中，機器學習技術被用作促成實施方式可擴展性的事件分類機制。該機器學習技術是迭代的并且隨時間持續(xù)進行學習。這構成了對于無論何時系統(tǒng)改變都要求新規(guī)則得到授權的基于規(guī)則的系統(tǒng)的改進。通過機器學習技術，消除了通常與基于規(guī)則的系統(tǒng)相關聯(lián)的手動處理。操作可擴展性問題通過使用時間序列中的事件的所計算出的易變性來作為分類器輸入而得以解決。在學習過程(即，機器學習過程)期間，該系統(tǒng)識別被安全事故所影響的相關特征。當處于操作中時，該系統(tǒng)實時地對那些特征進行評估并且提供將要發(fā)生事故的概率。

在后續(xù)的討論中，標題為“示例環(huán)境”的部分描述了各個實施例能夠在其中被加以利用的示例環(huán)境。接下來，標題為“示例架構”的部分描述了可以結合各個實施例被加以利用的示例架構。在此之后，標題為“訓練識別器”的部分描述了其中識別器能夠依據(jù)一個或多個實施例而被初始訓練以便進行部署的實施例。接下來，標題為“針對在線服務的行為變化分析—示例”的部分描述了能夠被用來依據(jù)一個實施例進行行為變化分析的一種方法。接下來，標題為“操作中”的部分描述了依據(jù)一個或多個實施例的所部署識別器和迭代機器學習過程的多個操作方面。在此之后，標題為“將系統(tǒng)與架構相關”的部分提供了以下所描述的示例架構如何與所描述系統(tǒng)進行相關的圖解表示形式。接下來，標題為“示例方法”的部分描述了依據(jù)一個或多個實施例的示例方法。最后，標題為“示例設備”的部分描述了依據(jù)一個或多個實施例的示例設備。

現(xiàn)在考慮各個實施例能夠在其中進行實踐的示例環(huán)境。

示例環(huán)境

圖1是示例實施方式中能夠進行操作以采用這里所描述的技術的環(huán)境100的圖示。所圖示的環(huán)境100包括服務器102、103，一個或多個客戶端設備104，以及將服務器和客戶端設備通信耦合的網(wǎng)絡106。

雖然客戶端設備104被圖示為由傳統(tǒng)的臺式計算機所實施，但是客戶端設備104可以由各種不同的設備來實施。例如，客戶端設備104可以被配置為能夠通過網(wǎng)絡106進行通信的計算機，諸如臺式計算機、移動站點、娛樂電器、通信耦合至顯示設備的機頂盒、無線電話、游戲機、平板計算機、筆記本電腦，等等。因此，客戶端設備104的范圍可以從具有實質性的存儲器和處理器資源的全資源設備(例如，個人計算機、游戲機)到具有有限存儲器和/或處理資源的低資源設備(例如，傳統(tǒng)機頂盒、手持游戲機)。此外，設備可以表示一個或多個設備，例如，(多個)服務器102所提供的功能可以由服務器群組中的多個服務器(諸如服務器103所表示的那些服務器)所提供。

雖然網(wǎng)絡106被圖示為互聯(lián)網(wǎng)，但是網(wǎng)絡可以假設為各種配置。例如，網(wǎng)絡106可以包括廣域網(wǎng)(WAN)、局域網(wǎng)(LAN)、無線網(wǎng)絡、公共電話網(wǎng)、內聯(lián)網(wǎng)，等等。另外，雖然示出了單個網(wǎng)絡106，但是網(wǎng)絡106可以被配置為包括多個網(wǎng)絡。

服務器102可以被配置為能夠提供能夠在線進行消費的任意適當類型的服務108的任意適當類型的服務器。在至少一些實施例中，一個或多個服務器能夠被配置為以在所謂的“云計算”環(huán)境中進行操作。云計算是指使得無所不在的網(wǎng)絡能夠訪問共享且虛擬化的計算能力池。作為示例而非限制，這樣的計算能力可以包括能夠快速供應的網(wǎng)絡、存儲、處理和存儲器能力。云計算能夠涵蓋各種云提供方，以及若干的設施即服務(Iaas)和平臺即服務(Paas)解決方案。

特別地，作為示例而非限制，服務器102能夠被配置為專用于運行某些軟件應用(例如，商業(yè)相關應用)的應用服務器，能夠跨分布式網(wǎng)絡提供針對信息的集中搜索點的目錄服務器，為通信網(wǎng)絡提供計算平臺的通信服務器，意在用于密集計算(例如，科學計算)的計算服務器，為其它計算機程序或計算機提供數(shù)據(jù)庫服務的數(shù)據(jù)庫服務器，為客戶端設備提供傳真服務的傳真服務器，針對文件提供遠程訪問的文件服務器，使得視頻游戲客戶端能夠連接以便玩在線游戲的游隙服務器，處理電子郵件的傳輸和針對其的訪問以及其它通信服務器的郵件服務器，提供名稱解析的名稱服務器，提供打印服務的打印服務器，針對來自客戶端的從其它服務器尋求資源的請求充當中介的代理服務器，允許HTTP客戶端進行連接以便發(fā)送命令并且連同數(shù)據(jù)內容一起接收響應的Web服務器，等等。這樣，服務器102、103所提供的服務的數(shù)量和類型能夠大幅變化。

個體服務器可以包括系統(tǒng)，后者包括所謂的識別器，其被配置為利用機器學習技術而基于行為變化檢測或“易變性”的概念對安全事件進行分類。行為變化檢測替代預定義模式方法而被用來查看系統(tǒng)的行為并且檢測與本來正常的操作行為相比的任何變化。在操作中，機器學習技術被用作事件分類機制。該機器學習技術是迭代的并且隨時間持續(xù)進行學習。這構成了對基于規(guī)則的系統(tǒng)的改進，后者無論系統(tǒng)何時發(fā)生變化都要求創(chuàng)建新的規(guī)則。通過機器學習技術，通常與基于規(guī)則的系統(tǒng)相關聯(lián)的人工處理得以消除，有助于可自動更新且持續(xù)學習的解決方案。

客戶端設備104的用戶可以與通信模塊110進行交互，后者表示客戶端設備104用來與網(wǎng)絡106進行交互并且因此與服務器102、103所提供的各種在線服務進行交互的功能。

上文和下文所描述的各個實施例能夠利用計算機可讀存儲介質來實施，其包括使得處理單元能夠實施所公開方法的一個或多個方面以及實施被配置為實施所公開方法的一個或多個方面的系統(tǒng)?！坝嬎銠C可讀存儲介質”表示所有法定形式的介質。因此，諸如載波和信號本身的非法定形式的媒體并非意在被術語“計算機可讀存儲介質”所涵蓋。

通常，這里所描述的任意功能都能夠使用軟件、固件、硬件(例如，固定邏輯電路)、人工處理，或者這些實施方式的組合來實施。如這里所使用的術語“模塊”、“功能”和“邏輯”總體上表示軟件、固件、硬件或者它們的組合。在軟件實施方式的情況下，該模塊、功能或邏輯表示在處理器(例如，一個或多個CPU)上執(zhí)行時實施指定任務的程序代碼。該程序代碼可以存儲在一個或多個計算機可讀存儲器設備中，諸如計算機可讀存儲介質?；谝鬃冃缘姆诸惼鞯奶卣魇仟毩⒂谄脚_的，這意味著該技術可以在具有各種處理配置的各種商業(yè)計算平臺上實施。

已經(jīng)考慮了其中能夠采用各個實施例的示例環(huán)境，現(xiàn)在首先對定義以下所描述的模塊之間的數(shù)據(jù)流程的示例架構。然而，所要意識到和理解的是，將要描述的架構僅構成架構的一個示例而并非被用來對所請求保護主題的應用加以限制。在本文的結尾附近，圖6和7以圖示方式將該架構與以下所要描述的系統(tǒng)進行相關。

示例架構

將要討論的架構描述了通過基于易變性的分類器的處理模塊的管道的數(shù)據(jù)流程。首先對架構進行描述，隨后是對各個處理模塊以及該架構所描述的數(shù)據(jù)如何流過處理模塊的討論。

“使用數(shù)據(jù)(UsageData)”是針對使用數(shù)據(jù)的開放架構，其描述了用戶如何與特定服務器進行交互，例如去往特定網(wǎng)站的在線服務請求，諸如Bing.com中的搜索查詢。

“使用數(shù)據(jù)描述(UsageDataDescription)”是用于有關UsageData的元數(shù)據(jù)的架構。該元數(shù)據(jù)以一些特定方式對UsageData進行描述。

“操作數(shù)據(jù)(OperationalData)”是針對托管服務的數(shù)據(jù)中心的操作數(shù)據(jù)的開放架構。作為示例而非限制，OperationalData可以包括聚集的CPU利用、網(wǎng)絡業(yè)務、存儲器使用等。

“操作數(shù)據(jù)描述(OperationalDataDescription)”用于有關OperationalData的元數(shù)據(jù)的架構。該元數(shù)據(jù)以一些特定方式對OperationalData進行描述。

“使用易變性(UsageVolatility)”是用于時間序列的開放架構，其具有所指示的使用數(shù)據(jù)的易變性。例如，這可以是數(shù)字特征(如請求的數(shù)目)的派生物或者是獲取變化類型的開放串，例如，用于獲取在最后一段時間中在網(wǎng)頁內存在渲染差異的串。

“操作易變性(OperationalVolatility)”是用于時間序列的開放架構，其具有所指示的操作數(shù)據(jù)的易變性。如同使用易變性一樣，這例如可以是數(shù)字特征(如CPU利用)的派生物，或者是能夠對目標間隔內的易變性進行總結的任意其它類型的數(shù)據(jù)，例如類別數(shù)據(jù)、二進制數(shù)據(jù)或者甚至在沒有獲取到數(shù)據(jù)的情況下為零。

“特征流(FeatureStream)”是獲取與預定義間隔(例如，數(shù)天、數(shù)小時、數(shù)分鐘、數(shù)秒鐘、數(shù)毫秒等)相結合的時間序列中的使用易變性和操作易變性二者的統(tǒng)一且相關的聚集的開放架構。

“所識別事件(RecognizedEvents)”是用于生成所識別事件的開放架構。那些是使用和操作易變性基于所注釋的訓練數(shù)據(jù)而與歷史數(shù)據(jù)出現(xiàn)偏差時的時間點。

“識別打分(RecognitionScoring)”是用于針對所謂被標記的“地面真值”而輸出所識別事件的記分處理的開放架構。

已經(jīng)考慮了依據(jù)一個或多個實施例的示例架構，現(xiàn)在考慮用于針對各種事件訓練所謂的“識別器”的工具和處理的討論。

訓練識別器

這部分對能夠如何通過機器學習技術對所謂的“識別器”進行初始訓練。

在所圖示并描述的實施例中，作為示例而非限制，用于訓練識別器的工具和處理包括：

(1)生成綜合攻擊的服務；

(2)獲取使用和操作數(shù)據(jù)的數(shù)據(jù)流；

(3)用于計算使用數(shù)據(jù)易變性和操作數(shù)據(jù)易變性的處理器模塊；

(4)用于對來自使用易變性和操作易變性的時間序列流的相關進行計算的相關模塊；

(5)用于數(shù)據(jù)聚類、分類和回歸的機器學習訓練構架；和

(6)機器學習運行時間環(huán)境。

作為示例，考慮圖2，其總體上以200圖示了依據(jù)一個或多個實施例的示例系統(tǒng)。系統(tǒng)200包括一個或多個在線服務202，以上提供了它們的多個示例。此外，系統(tǒng)200包括用戶業(yè)務模塊204、綜合攻擊生成器206、使用數(shù)據(jù)208、操作數(shù)據(jù)210、識別器212，以及所謂的所識別的不良業(yè)務214。基于以下所描述的訓練數(shù)據(jù)，所識別的不良業(yè)務構成在使用和操作易變性與歷史數(shù)據(jù)有偏差的時間點所識別的事件。

用戶業(yè)務模塊204表示與關于特定在線服務202的用戶業(yè)務相關聯(lián)的功能。具體而言，用戶業(yè)務能夠構成所謂的“良好”業(yè)務，其是典型、正常的用戶交互。這些正常用戶動作將是通常與用戶在正常情況下如何消費在線服務或者以其它方式與之進行交互相關聯(lián)的那些動作。用戶業(yè)務也能夠構成所謂的“不良”用戶業(yè)務。不良用戶業(yè)務構成了并不正常的業(yè)務，包括攻擊類型業(yè)務、惡意業(yè)務以及其它可疑交互。

綜合攻擊生成器206被用來對在線服務202生成綜合攻擊。該綜合攻擊可以采用任意適當?shù)男问剑⑶以谥辽僖恍嵤├锌梢允撬峁┑脑诰€服務的類型的函數(shù)。綜合攻擊生成器206例如能夠被用來生成特殊攻擊串，將攻擊代碼注入到在從與在線服務相關聯(lián)的各種日志所發(fā)現(xiàn)的各種URL和參數(shù)中。很多時候，這些已知攻擊能夠每天對在線服務202生成數(shù)百個請求。

響應于從用戶業(yè)務模塊204和綜合攻擊生成器206所接收的輸入，在線服務202產生兩種數(shù)據(jù)——使用數(shù)據(jù)208和操作數(shù)據(jù)210。

使用數(shù)據(jù)208可以包括與用戶與在線服務的交互相關聯(lián)的任意適當類型的數(shù)據(jù)。因此，例如，日志能夠描述用戶在特定時間點導航至網(wǎng)頁，針對特定類型的蜂窩電話作出查詢，接收針對該查詢的結果，并且隨后導航至另一個網(wǎng)頁。

操作數(shù)據(jù)210描述系統(tǒng)硬件和軟件操作的多個方面。作為示例而非限制，這可以包括聚集CPU利用、網(wǎng)絡業(yè)務、存儲器使用等。從而，例如，操作數(shù)據(jù)可以描述特定機器在一段時間內從使得其第一百分比的存儲器可用到使得其第二百分比的存儲器可用。

以下更詳細的方式描述對這兩種數(shù)據(jù)—使用數(shù)據(jù)和操作數(shù)據(jù)進行相關并排序。特別地，如以下所描述的，使用數(shù)據(jù)和操作數(shù)據(jù)被輸入到識別器212并由該識別器212進行處理。識別器212利用如以下更詳細描述的機器學習技術來產生所識別的不良業(yè)務214，即所識別出的與歷史行為有偏差的事件。

圖3圖示了依據(jù)一個或多個實施例的示例識別器212。在該示例中，識別器被描述為被部署或者可操作。在該特定示例中，識別器212包括使用數(shù)據(jù)易變性處理器300、操作數(shù)據(jù)易變性處理器302、時間序列流相關器304和訓練模型事件識別器206。

以上所提到的使用數(shù)據(jù)被使用數(shù)據(jù)易變性處理器300所接收并處理。同樣，操作數(shù)據(jù)被操作數(shù)據(jù)易變性處理器302接收并處理。處理器300、302中的每一個對其相應數(shù)據(jù)進行處理從而分析與數(shù)據(jù)相關聯(lián)的行為。也就是說，這些處理器中的每一個對其所接收的數(shù)據(jù)執(zhí)行行為變化分析。能夠進行任意適當類型的行為變化分析。因此，例如，使用數(shù)據(jù)易變性處理器可以注意到用戶在昨天利用在線服務進行了針對前往蒙特利爾旅行的車票的搜索。該搜索產生了被該用戶進一步消費的網(wǎng)頁。然而，當不同用戶在今天進行類似搜索時，該系統(tǒng)的行為由于可能產生了不同的搜索結果而表現(xiàn)得十分不同。同樣，在此期間，操作數(shù)據(jù)易變性處理器302可以注意到昨天的操作數(shù)據(jù)在該搜索期間與今天的類似搜索相比在其存儲器使用方面發(fā)生具有意義的變化。

基于處理器300、302所進行的處理，所觀察到的行為變化使用一個數(shù)字或數(shù)值進行量化，該數(shù)字或數(shù)值與所觀察到的行為變化的偏差相關。依據(jù)一個或多個實施例，能夠使用任意適當?shù)牧炕桨浮Ｔ谥辽僖恍嵤├?，行為變化使?和1之間的數(shù)值進行量化。按照這種方式的行為變化的量化使得行為變化能夠隨時間進行分類。該處理產生了具有用戶易變性和操作易變性數(shù)據(jù)的時間序列。以下在標題為“在線服務的行為變化分析—示例”的部分中提供這能夠如何實現(xiàn)的一個示例。

經(jīng)量化的行為變化數(shù)據(jù)被提供至時間序列流相關器304以便進行處理。該相關器對其從使用數(shù)據(jù)易變性處理器300所接收的數(shù)據(jù)進行分析，并且查看從操作數(shù)據(jù)易變性處理器302所接收到的任何數(shù)據(jù)是否指示相對應時間的任何行為變化。因此，例如，如果在特定時間發(fā)生了使用行為偏差，則時間序列流相關器304檢查從該時間起從操作數(shù)據(jù)易變性處理器302所接收的數(shù)據(jù)以確認操作正常還是在一定具有意義的程度上有所變化，例如使得CPU使用從50％躍升至100％。因此，使用數(shù)據(jù)和操作數(shù)據(jù)的易變性的相關能夠有助于識別特定行為偏差是否甚至更為不同尋常。該處理產生了特征流，所述特征流獲取使用易變性和操作易變性在結合至預定義間隔的時間序列中的統(tǒng)一且相關的聚集。

該特征流被提供至訓練模型事件識別器306。識別器306被配置為從其所接收到的特征流識別出正常對比異常的行為。因此，例如，在給定時間，操作數(shù)據(jù)可能指示與機器被關機相關聯(lián)的行為變化。在對相關的時間序列流進行檢查時，訓練模型時間識別器306可以注意到與該時間相關聯(lián)的使用數(shù)據(jù)是正常的。因此，該系統(tǒng)在此之前都是正常操作的。然而，該時間序列流可以指示連同處于正常操作范圍之外的使用數(shù)據(jù)一起的操作數(shù)據(jù)變化。在這種情況下，這被識別為不良業(yè)務，即所識別的其中使用和操作易變性與示例數(shù)據(jù)有偏差的事件，并且可以由該系統(tǒng)生成通知以使得進一步的調查被執(zhí)行。

在線服務的行為變化分析—示例

在一個或多個實施例中，為了針對在線服務計算行為偏差，采用了兩種概念—元域描述符和矩陣執(zhí)行，以下對它們各自進行討論。能夠使用其它方法而并不背離所請求保護主題的精神和范圍。

元域描述符

元域描述符描述了與當前上下文相關聯(lián)的要素。例如，考慮將該概念應用于簡單地作為HTML端點的“http://www.bing.com”。能夠在提取出算法搜索結果(例如，藍色鏈接)時看到其示例。在該實例中，我們并不考慮諸如查詢、市場、語言之類的賬戶環(huán)境因素，或者能夠對其中算法結果得到驗證的上下文有所影響的任意其它參數(shù)。元域描述符(MDD)是在獨立上下文中進行描述的對象的集合。

在所圖示并描述的示例中，MDD對象具有提取器和特征集合。特征是動作的集合。算法結果的動作示例可以包括：實例數(shù)量、實例順序(針對其中顯示順序的特定上下文)、頁面位置等。

令提取器為E且特征為F，而動作為A，則對象能夠被表示為：

O＝{(E,F(i))with i＝1..n}

其中F＝{A(i),with i＝1..n}。

隨后，元域描述符能夠被表達為MDD＝{O(i)其中i＝1..n:O(i)獨立于上下文}。

將元域描述符建模為xml數(shù)據(jù)將如圖2a中所示(使用描述Bing算法結果的示例)。

最后，元域描述符被用來描述我們嘗試針對偏差而對哪一部分的域行為進行檢查和分析。

矩陣執(zhí)行

矩陣執(zhí)行描述了對象上下文生成器。矩陣執(zhí)行將MDD置于各種類型的上下文之中。使用算法結果的簡單示例將是針對具體查詢、市場、語言而對它們加以呈現(xiàn)。

令上下文為C并且被表達為C＝{O(i)其中i＝1..n:O(i)獨立于上下文}。隨后，矩陣執(zhí)行能夠被表達為MTX＝{C(i),其中i＝1..n}。并且，隨后MDD是C的子集。MTX可以被認為是消費MDD的機制。

將矩陣執(zhí)行建模為xml數(shù)據(jù)將如圖2b中所示(使用生成Bing上下文的示例)。

行為收集初始階段

現(xiàn)在考慮行為收集初始階段。特別地，現(xiàn)在已經(jīng)建立了MTX和MDD，可以描述行為是什么以及如何對其進行收集。我們看MTX所觸發(fā)的特定上下文中的MDD。隨后，我們能夠通過以下在特定上下文中對MDD進行表達：MDD(MTX)＝{O(i,C(j)),其中i＝1..n,j＝1..m}，其中O(i,C(j))＝{(F(i,C(j))其中i＝1..n,j＝1..m}，而不是替換為我們所具有的第一表達式MDD(MTX)＝{F(i,C(j)),其中i＝1..n,j＝1..m}。

所以，如果現(xiàn)在有限時段被定義為T＝{t(1),…t(k)}，則可以在該時段內針對特定情境1收集特征1，隨后這可以呈現(xiàn)如下：F(1,C(1),T)＝{A(i,C(1),t(j)),其中i＝1..n,j＝1..k}。

(針對一個時段內的特定上下文中的特征)得到那些數(shù)值集合之后的下一個步驟是使用機器學習層級聚類算法(例如，聚合法(agglomerative approach))對它們進行聚類。

參見圖3a，對Set1、Set2和Set3進行聚類。從而在此時，可以認為一個時段內針對特定上下文中的對象特征的行為是多個聚類中的一個聚類。令聚類為CL＝{Set(i),其中i＝1..n}并且令多個聚類中的一個聚類為CLCL＝{CL(i),其中i＝1..n}。

參見圖3a，如果3a,如果CL1＝{Set1,Set2}且CL2＝{Set3}，則CLCL1＝{CL1,CL2}。作為示例，考慮圖3b，其圖示了對來自圖3a的數(shù)值集合進行聚類的示例。

最后，行為是使用層級聚類算法(例如，聚合法)利用一個時段內針對特定上下文中的對象特征所收集的數(shù)據(jù)所計算的多個聚類中的一個聚類。這能夠如下表達：令行為為B＝{CLCL(T)}，其中CLCL是多個聚類中的一個聚類并且T是時段。

行為收集練習階段

現(xiàn)在考慮依據(jù)一個或多個實施例的行為收集練習階段。該階段實際上是與以(以上所解釋的)初始階段相同的方式進行收集和計算。這里僅有的差異將是時間(T)。因此，如果針對初始行為階段選擇了T＝{t(i),其中i＝1..n}，則針對練習階段就必須選擇T’＝{t(j),其中j＝n+m,..k且m>＝1且k>m+n}。換句話說，在兩個時段之間沒有重疊。從而該練習階段僅有的特定性在于T不應當與來自初始階段的時間T’有所重疊。圖3c對此進行了圖示。

圖3d中示出了針對該練習階段的行為。這些集合在不同時段內被收集，因此多個聚類中的一個聚類看上去可能有所不同。

應當注意的是，來自初始和練習行為間隔的T和T’應當是相等的。希望針對每個行為階段具有對稱的分布數(shù)據(jù)。該上下文跨T統(tǒng)一分布，因此如果j＝i+1且k＝j+1，則t(j)-t(i)＝t(k)-t(j)，其中i,j,k來自于1..n。

計算行為偏差

現(xiàn)在考慮依據(jù)一個實施例的行為偏差的計算。也就是說，利用以上所解釋的兩個行為階段，能夠進一步計算行為偏差。為了計算相同行為的兩個不同階段之間的偏差，計算多個集群中的兩個集群之間的對稱偏差。因此，CLCL(T)ΔCLCL(T’)＝CLCL(T)∪CLCL(T’)-CLCL(T)∩CLCL(T’)(或者B(T)ΔB(T’)＝B(T)∪B(T’)-B(T)∩B(T’))之間的對稱偏差是相同行為的兩個階段之間的實際偏差。圖3e對此進行了圖示。

B(T)ΔB(T’)大于或等于零并且小于或等于1。

偏差等于零意味著沒有行為變化，因此數(shù)值等于1意味著行為已經(jīng)完全發(fā)生了變化?，F(xiàn)在能夠關于該偏差意味著什么、其是否構成問題、以及如果它是問題則是什么樣的問題(例如，安全、常規(guī)回歸、隱私)作出判斷。

通過收集行為偏差、對它們進行分類以及使得系統(tǒng)記住它們，能夠找出包括安全、常規(guī)回歸、隱私問題在內的問題。測試覆蓋得以大幅改進，將不會隨著時間推移而大幅依賴于人，并且將會學習而且能夠標識出未知的問題。

已經(jīng)考慮了識別器能夠如何進行訓練以及被部署使用，以及能夠如何進行行為變化分析，現(xiàn)在考慮用于將各個處理模塊進行連接并且執(zhí)行操作評估的示例整體處理，上述操作評估包括使用機器學習技術的持續(xù)訓練。

操作中

以下討論描述了識別器能夠通過其識別安全事件的迭代處理，并且機器學習技術能夠被用來自動且持續(xù)地使得該識別器能夠進一步學習如何識別安全事件。

在隨后的討論中對圖4和5加以利用。圖4從識別器的初始部署的角度描述了該迭代處理，并且圖5描述了識別器能夠如何進一步訓練或“升級”。出于討論的目的并且由于篇幅限制，個體元件或模塊的名稱已經(jīng)被去除。然而，每個元件的相對應附圖標記已經(jīng)從之前的討論中所涉及。

參考圖4，初始訓練通過使用所謂的初始地面真值對數(shù)據(jù)進行訓練來進行。該初始地面真值包括針對特定在線服務描述表現(xiàn)為正常的行為以及表現(xiàn)為不正常的行為的數(shù)據(jù)。如隨后將更為清楚的，該數(shù)據(jù)能夠隨時間有所發(fā)展并且能夠通過后續(xù)機器學習技術進行迭代強化。該數(shù)據(jù)能夠以如以上所描述的使用數(shù)據(jù)和操作數(shù)據(jù)二者的形式存在。

使用初始地面真值對識別器212的訓練基本上如以上所描述的進行。一旦被初始訓練，該識別器就如從訓練模型事件識別器306指向最右側識別器212的箭頭所示進行部署。

現(xiàn)在參考圖5，所部署的識別器，即最左側識別器212，準備參與迭代的機器學習過程。在操作中，當識別器212在線時，其接收使用數(shù)據(jù)208和操作數(shù)據(jù)210并且如以上所描述的對該數(shù)據(jù)進行處理。特別地，使用數(shù)據(jù)208和操作數(shù)據(jù)210被處理從而產生所識別不良業(yè)務或所識別的事件。

該系統(tǒng)隨后采用評估和打分處理，在其間出于進一步強化該系統(tǒng)識別不良業(yè)務的目的而對所識別不良業(yè)務進行評估和打分。在該示例中，該評估和打分過程由從最左側的所識別的不良業(yè)務214到打分表500延伸的箭頭所表示。所識別的不良業(yè)務的每個實例被打分為“真陽性”、“真陰性”、“假陽性”或“假陰性”。

如本領域技術人員將會意識到的，“真陽性”和“真陰性”是其中該系統(tǒng)表現(xiàn)符合預期的實例。也就是說，該系統(tǒng)正確標識和識別出了不良業(yè)務而沒有識別并非不良業(yè)務的業(yè)務。該評估和打分處理標識出“假陽性”或“假陰性”的實例構成了其中迭代學習過程能夠被用來進一步加強該系統(tǒng)所能夠標識安全威脅的準確性的實例。

具體而言，“假陽性”是其中業(yè)務被標識為不良但是實際上該業(yè)務并非不良的情形。“假陰性”是其中某些應當被標識為不良業(yè)務的卻沒有被標識為不良業(yè)務的情形。在這兩種情況下，通過將該信息以附加地面真值訓練數(shù)據(jù)——使用數(shù)據(jù)和操作數(shù)據(jù)二者——的形式提供回到識別器，來采取動作以強化該地面真值，上述數(shù)據(jù)能夠進一步被該系統(tǒng)進行處理。該數(shù)據(jù)還被用作用戶業(yè)務模塊204的驗證數(shù)據(jù)。使用該附加訓練數(shù)據(jù)的結果在于所部屬的識別器能夠如從訓練模型事件識別器306延伸至最左側識別器212的箭頭所指示的進行加強。

該過程能夠自動繼續(xù)以將被反饋至該系統(tǒng)中的附加訓練數(shù)據(jù)發(fā)展成用于訓練和驗證這二者，這進而提高了識別器能夠執(zhí)行其操作的有效性。

將系統(tǒng)與架構相關

之前介紹了架構的概念以描述由如以上所述系統(tǒng)進行處理的數(shù)據(jù)。以下討論將架構與剛才上文所描述的系統(tǒng)進行相關。類似于其中討論圖4和5的方式，現(xiàn)在提供了圖6和7。還提供了表格600，其包括數(shù)字至架構元素的映射。這些數(shù)字隨后被加以圓圈被提供至每個圖的圖形上以示出該架構元素的數(shù)據(jù)在處理的何處被采用。

以圖6開始，分別與使用和操作數(shù)據(jù)相關聯(lián)的元數(shù)據(jù)(01d和02d)分別被用來描述使用數(shù)據(jù)(01)和操作數(shù)據(jù)(02)。使用數(shù)據(jù)和操作數(shù)據(jù)由相應的易變性處理器300、302進行處理從而分別產生如以上所描述的使用易變性(03)和操作易變性(04)時間序列。這些時間序列由時間序列流相關器304進行處理從而產生特征流(05)。該特征流在限制在預定義間隔的時間序列中獲取使用易變性和操作易變性這兩者的統(tǒng)一且相關的聚集，作為示例而非限制，上述預定義間隔諸如數(shù)天、數(shù)小時、數(shù)分鐘、數(shù)秒鐘、數(shù)毫秒等。該特征流由訓練模型事件識別器306進行處理從而產生在以上描述中被稱作“不良業(yè)務”的所識別的事件(06)。

現(xiàn)在轉向圖7，所識別的事件(06)經(jīng)歷評估和打分過程從而產生識別打分數(shù)據(jù)(07)，其中所識別的事件相對于所標記的地面真值而被打分。該處理隨后如以上所描述的繼續(xù)進行。也就是說，該識別器能夠通過機器學習技術進行加強，上述機器學習技術采用所識別的假陽性和假陰性來改善系統(tǒng)識別不良業(yè)務或所識別事件的能力。

示例方法

圖8是描述依據(jù)一個或多個實施例的被用來訓練識別器的訓練方法中的步驟的流程圖。該方法能夠結合任意適當?shù)挠布④浖?、固件等實施。在至少一些實施例中，該方法或者其多個方面能夠由諸如以上所描述的識別器的適當配置的識別器來實施。

步驟800產生與在線服務相關聯(lián)的使用數(shù)據(jù)。步驟802產生與該在線服務相關聯(lián)的操作數(shù)據(jù)。步驟800和802能夠以任意適當方式來執(zhí)行。例如，在至少一些實施例中，使用和操作數(shù)據(jù)通過觀察用戶如何與該在線服務進行交互而產生。如以上所提到的，這可以包括良好和不良交互。此外，使用和操作數(shù)據(jù)能夠從該在線服務所處理的綜合攻擊模式而產生。上文提供了綜合攻擊模式的示例。步驟800和802所產生的數(shù)據(jù)能夠并行產生。

步驟804對該使用數(shù)據(jù)和操作數(shù)據(jù)進行處理從而產生行為隨時間變化的測量。該步驟能夠以任意適當方式來執(zhí)行。例如，在以上所描述的實施例中，易變性處理器分別對使用數(shù)據(jù)和操作數(shù)據(jù)進行處理以產生經(jīng)量化的測量，該經(jīng)量化的測量與隨時間的行為變化的偏差相關。步驟806將使用數(shù)據(jù)和操作數(shù)據(jù)的行為變化進行相關。以上提供了能夠如何實現(xiàn)此目的的示例。使用數(shù)據(jù)和操作數(shù)據(jù)能夠被并行處理。

步驟808對經(jīng)相關的行為變化進行處理從而識別出其中使用和操作行為變化與歷史數(shù)據(jù)相比有所偏差的一個或多個事件。

圖9是描述依據(jù)一個或多個實施例的其中經(jīng)訓練的識別器能夠通過機器學習技術而被持續(xù)且自動加強從而更為有效地識別不良業(yè)務或所識別事件的方法中的步驟的流程圖。該方法能夠結合任意適當?shù)挠布?、軟件、固件等實施。在至少一些實施例中，該方法或者其多個方面能夠由諸如以上所描述的識別器的適當配置的識別器來實施。

步驟900提供已經(jīng)利用使用數(shù)據(jù)和操作數(shù)據(jù)進行了訓練的識別器。以上提供了能夠如何實現(xiàn)此目的的示例。步驟902對所接收的使用數(shù)據(jù)和操作數(shù)據(jù)進行處理從而識別出其中使用和操作行為變化與歷史數(shù)據(jù)有偏差的一個或多個事件。以上提供了能夠如何實現(xiàn)此目的的示例。特別地，關于圖8中所描述的方法，其中能夠執(zhí)行該步驟的一種方式是通過步驟804、806和808的組合。

步驟904對所識別事件進行打分從而標識假陽性和假陰性。以上提供了能夠如何實現(xiàn)此目的的示例。步驟906使用該假陽性和假陰性來進一步訓練該識別器。以上提供了能夠如何實現(xiàn)此目的的示例。該方法隨后能夠返回至步驟902從而繼續(xù)如以上所描述的繼續(xù)接收并處理使用和操作數(shù)據(jù)。

示例設備

圖10圖示了示例設備1000的各個組件，該示例設備1000能夠被實施為任意類型的用來實施這里所描述實施例的便攜式和/或計算機設備。設備1000包括支持設備數(shù)據(jù)1004(例如，所接收數(shù)據(jù)、正在接收的數(shù)據(jù)、被調度用于廣播的數(shù)據(jù)、數(shù)據(jù)的數(shù)據(jù)分組等等)的有線和/或無線通信的通信設備1002。設備數(shù)據(jù)1004或其它設備內容可以包括設備的配置設置、存儲在設備上的媒體內容和/或與設備用戶相關聯(lián)的信息。存儲在設備1000上的媒體內容可以包括任意類型的音頻、視頻和/或圖像數(shù)據(jù)。設備1000包括一個或多個數(shù)據(jù)輸入1006，能夠經(jīng)由其接收任意類型的數(shù)據(jù)、媒體內容和/或輸入，諸如用戶可選擇輸入、消息、音樂、電視媒體內容、錄制視頻內容，以及從任意內容和/或數(shù)據(jù)源所接收的任意其它類型的音頻、視頻和/或圖像數(shù)據(jù)。

設備1000還包括通信接口1008，其能夠被實現(xiàn)為以下中的任意一個或多個：串行和/或并行接口、無線接口、任意類型的網(wǎng)絡接口、調制解調器，以及被實現(xiàn)為任意其它類型的通信接口。通信接口1008在設備和通信網(wǎng)絡之間提供其它電子、計算和通信設備通過其能夠與設備1000傳輸數(shù)據(jù)的連接和/或通信鏈路。

設備1000包括一個或多個處理器1010(例如，任意的微處理器、控制器等)，其對各種計算機可執(zhí)行指令進行處理以控制設備1000的操作并且實施基于資源的自適應服務器加載的實施例?？商鎿Q地或除此之外，設備1000可以利用任意硬件、固件或固定邏輯電路的任意之一或其組合結合總體上以1012進行標識的處理和控制電路來實施。雖然沒有被示出，但是設備1000可以包括耦合設備內的各個組件的系統(tǒng)總線或數(shù)據(jù)傳輸系統(tǒng)。系統(tǒng)總線可以包括不同總線結構的任意一種或其組合，諸如利用各種總線構架的存儲器總線或存儲器控制器、外部總線、通用串行總線和/或處理器或局部總線。

設備1000還包括計算機可讀存儲介質1014，諸如一個或多個存儲器組件，其示例包括隨機訪問存儲器(RAM)、非易失性存儲器(例如，任意的一個或多個只讀存儲器(ROM)、閃存、EPROM、EEPROM等)，以及盤存儲設備。盤存儲設備可以被實現(xiàn)為任意類型的磁或光存儲設備，諸如硬盤驅動器、可錄制和/或可寫入緊致盤(CD)、任意類型的數(shù)字多功能盤(DVD)等。設備1000還可以包括大型存儲介質設備1016。

計算機可讀存儲介質1014提供數(shù)據(jù)存儲機制以存儲設備數(shù)據(jù)1004，以及各種設備應用1018和與設備1000的操作方面相關的任意其它類型的信息和/或數(shù)據(jù)。例如，操作系統(tǒng)1000可以利用計算機可讀存儲介質1014而被保存為計算機應用并且在處理器1010上執(zhí)行。設備應用1018可以包括設備管理器(例如，控制應用、軟件應用、信號處理和控制模塊、特定設備本地的代碼、特定設備的硬件抽象層等)，以及能夠包括web瀏覽器、圖像處理應用、諸如即時消息應用的通信應用、文字處理應用以及各種其它不同應用的其它應用。設備應用1018還包括用來實施陣列所描述技術的實施例的任意系統(tǒng)組件或模塊。在該示例中，設備應用1018可以包括如以上所描述的那樣進行操作的識別器1022。

設備1000還包括音頻和/或視頻輸入-輸出系統(tǒng)1024，其向音頻系統(tǒng)1026提供音頻數(shù)據(jù)，和/或向顯示系統(tǒng)1028提供視頻數(shù)據(jù)。音頻系統(tǒng)1026和/或顯示系統(tǒng)1028能夠包括處理、顯示和/或另外渲染音頻、顯示和圖像數(shù)據(jù)的任意設備。視頻信號和音頻信號可以經(jīng)由RF(射頻)鏈路、S-視頻鏈路、復合視頻鏈路、分量視頻鏈路、DVI(數(shù)字視頻接口)、模擬音頻連接或其它類似通信鏈路從設備1000傳輸至音頻設備和/或顯示設備。在一個實施例中，音頻系統(tǒng)1026和/或顯示系統(tǒng)1028被實施為設備1000外部的組件?？商鎿Q地，音頻系統(tǒng)1026和/或顯示系統(tǒng)1028被實施為示例設備1000的集成組件。

結論

各個實施例提供了基于行為變化檢測或“易變性”的概念對安全事件進行分類的方法。行為變化檢測代替預定義模型方法而被用來查看系統(tǒng)的行為并且檢測從原本正常操作行為所發(fā)生的任何變化。在操作中，機器學習技術被用作促成實施方式可擴展性的事件分類機制。該機器學習技術是迭代的并且隨時間持續(xù)進行學習。操作可擴展性問題通過使用時間序列中的事件的所計算易變性作為分類器輸入而得以解決。在學習過程(即，機器學習過程)期間，該系統(tǒng)標識被安全事故所影響的相關特征。當處于操作中時，該系統(tǒng)實時地對那些特征進行評估并且提供將要發(fā)生事故的概率。

雖然已經(jīng)以特定于結構特征和/或方法動作的語言對主題進行了描述，但是所要理解的是，所附權利要求中所定義的主題并非必然被局限于以上所描述的具體特征和動作。相反，以上所描述的具體特征和動作作為實施權利要求的示例形式而公開。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：A·A·S·索爾;B·馬基;R·D·菲什;D·J·安克妮;D·D·博亞;V·拉姆達特米西爾
技術所有人：微軟技術許可有限責任公司
我是此專利的發(fā)明人

上一篇：網(wǎng)絡防御的制造方法與工藝
上一篇：檢測裝置、檢測方法以及檢測程序與制造工藝

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

企業(yè)行為識別系統(tǒng)相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

識別在線服務的行為變化的制作方法