信息識別方法、程序產(chǎn)品以及系統(tǒng)的制作方法
【專利摘要】提供一種技術(shù),在通過受監(jiān)督的機器學(xué)習(xí)對申請文件進行審查和評估的處理中,能夠高精度地檢測惡意生成的錯誤地接受的數(shù)據(jù)。根據(jù)本發(fā)明,在準(zhǔn)備受監(jiān)督(學(xué)習(xí))的數(shù)據(jù)的情形和準(zhǔn)備測試數(shù)據(jù)的情形這兩種情形下,數(shù)據(jù)與附加到數(shù)據(jù)上的時間信息被記錄。然后,在目標(biāo)類中的學(xué)習(xí)數(shù)據(jù)受到聚類。相似的,在目標(biāo)類中的測試數(shù)據(jù)也受到聚類。然后,對學(xué)習(xí)數(shù)據(jù),對具有各種時間點和寬度的每個時間間隔,計算每個識別出的子類的概率密度,并且對測試數(shù)據(jù),對具有各種寬度的最近時間周期中的每個時間間隔,計算每個識別出的子類的概率密度。然后,在每個子類的每個時間間隔,獲得執(zhí)行學(xué)習(xí)時獲得的概率密度與執(zhí)行測試時獲得的概率密度的比值作為相對頻度。將具有統(tǒng)計上顯著增大的相對頻度的輸入檢測為異常,并且發(fā)出警報,以便詳細(xì)地檢查該異常是否由攻擊導(dǎo)致。
【專利說明】信息識別方法、程序產(chǎn)品以及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通過受監(jiān)督的機器學(xué)習(xí)的信息識別,特別是涉及用于應(yīng)對信息被惡意篡改的攻擊的技術(shù)。
【背景技術(shù)】[0002]在此之前,例如保險公司的保險索賠評估、金融公司的貸款和信用卡的審查和授信(credit)是根本且重要的工作,并且在這些公司中的有經(jīng)驗的專家一直負(fù)責(zé)這些工作。然而,近來需要處理的工作數(shù)量在增加,無法由專家進行的人工步驟來處理這樣的工作。
[0003]因此,為了減輕專家的負(fù)擔(dān),最近采用了一種方法,通過使用計算機的機器學(xué)習(xí)技術(shù),來執(zhí)行保險索賠評估和信用卡的授信。
[0004]由申請者提交的、用于評估和授信的信息包含對于問題的是/否回答,如年齡、年收入等數(shù)值,以及其它描述性文本信息。當(dāng)在紙上給出此類信息時,規(guī)定的操作員用計算機的鍵盤或OCR方式來輸入該信息,以便將信息轉(zhuǎn)換為電子格式。另一方面,當(dāng) 申請人:通過網(wǎng)頁瀏覽器上的操作將信息提交到服務(wù)器時,則無須將信息轉(zhuǎn)換為電子格式。
[0005]當(dāng)通過這些方式收集到電子申請時,專家首先檢查各個申請信息,然后,對于每個申請,判定接受/拒絕,并且以電子方式為它記錄一個標(biāo)簽。由對于各申請信息的特征向量XiQ=I,...,η)和判定結(jié)果(類別標(biāo)簽)Υ?(?=1,..., η)構(gòu)成的對的、代表由專家預(yù)先如上所述地進行的判定的受監(jiān)督的(訓(xùn)練)數(shù)據(jù)集合被定義如下:
[0006]Dtraining-{(Xi, Yi))...) (xn,yn) I
[0007]此處,yi e C,其中C代表類別標(biāo)簽集合。例如,C={0,1},其中I代表接受,而O代
表拒絕。
[0008]在圖1中圖示這樣的訓(xùn)練數(shù)據(jù)集合的例子。即,受監(jiān)督的數(shù)據(jù)包括接受的(標(biāo)簽I)數(shù)據(jù)102、104、106以及108,和拒絕的(標(biāo)簽O)數(shù)據(jù)110、112以及114。這些數(shù)據(jù)對應(yīng)于單個的申請。
[0009]通過使用該訓(xùn)練數(shù)據(jù),受監(jiān)督的機器學(xué)習(xí)的系統(tǒng)構(gòu)成了分類器。分類器相對于例如函數(shù)h
[0010]h:x —y
[0011]其中,X代表申請的特征向量,而y代表申請的標(biāo)簽。
[0012]在分類器被如上所述構(gòu)成后,圖2圖示了使用分類器來分類作為測試數(shù)據(jù)的申請。即,數(shù)據(jù)202、204、206以及208被分類為接受的數(shù)據(jù),而數(shù)據(jù)210、212、214以及216被分類為拒絕的數(shù)據(jù)。此處,將關(guān)注數(shù)據(jù)208和210。如果數(shù)據(jù)208已經(jīng)被恰當(dāng)?shù)胤诸?,則它應(yīng)該已經(jīng)被分類為拒絕的數(shù)據(jù);然而,數(shù)據(jù)208已經(jīng)由分類器被分類為接受的數(shù)據(jù),并被稱為錯誤地接受的數(shù)據(jù)(FP=false positive,偽陽性)。如果數(shù)據(jù)210已經(jīng)被恰當(dāng)?shù)胤诸?,則它應(yīng)該已經(jīng)被分類為接受的數(shù)據(jù);然而,數(shù)據(jù)210已經(jīng)由分類器被分類為拒絕的數(shù)據(jù),并被稱為錯誤地拒絕的數(shù)據(jù)(FN=f a I s e ne gat i ve,偽陰性)。
[0013]分類器基于概率被構(gòu)成。因此,不論采用何種機器學(xué)習(xí)的方式,也很難根除錯誤地接受的數(shù)據(jù)和錯誤地拒絕的數(shù)據(jù)。
[0014]分類器將樣本的測試數(shù)據(jù)進行分類,分類結(jié)果如圖3所示,數(shù)據(jù)302、304、306、308,310以及312被分類為接受的數(shù)據(jù),而數(shù)據(jù)314、316、318、320以及322被分類為拒絕的數(shù)據(jù)。關(guān)于該分類結(jié)果,假設(shè)一個惡意的人偶然地發(fā)現(xiàn)數(shù)據(jù)312是被錯誤地接受的。該惡意的人可以分析在數(shù)據(jù)312中描述的內(nèi)容,并獲取將會被惡意利用的知識,即為了使本來將會被拒絕的數(shù)據(jù)變成接受的數(shù)據(jù),哪些項要被重寫以及怎么重寫這些項,而且通過使用該知識制作指南。例如,該指南可以是被冠以“如何使遠不會被接收的保險索賠被容易地接受”的指南。該惡意的人可能銷售此指南,從而讀過此指南的人可能產(chǎn)生并發(fā)送一系列可以變成如由圖3中附圖標(biāo)記324表示的錯誤地接受的數(shù)據(jù)的案例。
[0015]用來檢測這樣的惡意攻擊的已知技術(shù)在下面的文獻中被描述。
[0016]在文獻 Shohei Hido, Yuta Tsuboi, Hisashi Kashima, Masashi Sugiyama,Takafumi Kanamori, “Iniier-based Outlier Detection via Direct Density RatioEstimation (通過直接密度比值估計的基于內(nèi)圍層的異常值檢測)”,ICDM 2008 http://sugiyama-www.cs.titech.ac.jp/ ~sugi/2008/ICDM2008.pdf 中披露了一種通過獲得訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)之間的密度比值來檢測異常的技術(shù)。
[0017]在文獻Daniel Lowd, Christopher Meek, " Adversarial Learning (對抗性學(xué)習(xí))",KDD 2005 http://portal.acm.0rg/citation.cfm? id=1081950 中披露了一種在垃圾郵件過濾領(lǐng)域的算法,其旨在持續(xù)處理單個攻擊者使用不同技術(shù)進行攻擊的情況。該算法將到攻擊者想要通過的理想樣本的距離定義為對抗成本,并且從多項式次的攻擊中檢測具有最小對抗成本(在能通過的樣本中攻擊者最想通過的樣本)的樣本和具有最多最小對抗成本的k倍的對抗成本的樣本。
[0018] 文獻 Adam J.0liner, Ashutosh V.Kulkarni, Alex Aiken, Community EpidemicDetection using Time-Correlated Anomalies (使用時間相關(guān)的異常的社區(qū)疫情檢測),RAID 2010 http://dx.do1.0rg/10.1007/978-3-642-15512_3_19 描述了一種技術(shù),當(dāng)計算機受到惡意攻擊時為了檢測惡意攻擊,多個客戶端在相同條件下被集群,并且與周圍的事物在行為上的差異作為異常度被計算。對于單個客戶端的異常度暫時地增加的情況甚至可以出現(xiàn)在正常的情況下,而一定數(shù)目的異??蛻舳说漠惓6韧瑫r地增加的情況卻表明發(fā)生攻擊。這被稱為時間相關(guān)的異常,并提議了一種檢測時間相關(guān)的異常的監(jiān)測方法。
[0019]文獻杉山將(Masashi Sugiyama),「共変量卜下教師付務(wù)學(xué)習(xí)」("Supervised Learning under Covariate Shift",協(xié)變量移位下的受監(jiān)督的學(xué)習(xí))日本神経回路學(xué)會誌(The Brain&Neural Networks,大腦和神經(jīng)網(wǎng)絡(luò)),13 (3),2006描述了關(guān)于當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)具有不同概率分布時被執(zhí)行的受監(jiān)督的學(xué)習(xí)中,預(yù)測模型如何被修正的討論。特別地,此文獻描述了一種技術(shù),對于在測試數(shù)據(jù)頻繁出現(xiàn)的區(qū)域中存在的訓(xùn)練數(shù)據(jù)樣本,重要度被增加,由此測試數(shù)據(jù)被成功分類。
[0020]根據(jù)上述現(xiàn)有技術(shù),惡意攻擊在特定情況下可能被檢測到。然而,現(xiàn)有技術(shù)具有假設(shè)例如數(shù)據(jù)一致性和對于單個數(shù)據(jù)的異常度等特定于數(shù)據(jù)的屬性的限制的問題。另一個問題是雖然能夠評估脆弱度,但不能檢測使用錯誤地接受的數(shù)據(jù)進行的集中攻擊的行為。
[0021]現(xiàn)有技術(shù)文獻
[0022]非專利文獻[0023][非專利文獻 I]Shohei Hido, Yuta Tsuboi, Hisashi Kashima, MasashiSugiyama, Takafumi Kanamori, " Inlier-based Outlier Detection via Direct DensityRatio Estimation (通過直接密度比值估計的基于內(nèi)圍層的異常值檢測n) " , ICDM 2008
[0024][非專利文獻 2]Daniel Lowd, Christopher Meek, " Adversarial Learning (對抗性學(xué)習(xí))",KDD 2005 http://portal.acm.0rg/citation.cfm? id=1081950
[0025][非專利文獻 3]Adam J.0liner, Ashutosh V.Kulkarni, Alex Aiken, CommunityEpidemic Detection using Time-Correlated Anomalies (使用時間相關(guān)的異常的社區(qū)疫情檢測),RAID 2010 http://dx.do1.0rg/10.1007/978-3-642-15512_3_19
[0026][非專利文獻4]杉山將(MasashiSugiyama) ,「共変量卜下T O教師付務(wù)學(xué)習(xí)」("Supervised Learning under Covariate Shift",協(xié)變量移位下的受監(jiān)督的學(xué)習(xí)),日本神経回路學(xué)會誌(The Brain&Neural Networks,大腦和神經(jīng)網(wǎng)絡(luò)),13 (3),2006
【發(fā)明內(nèi)容】
[0027]本發(fā)明所要解決的技術(shù)問題
[0028]因此,本發(fā)明的目的在于,在通過受監(jiān)督的機器學(xué)習(xí)執(zhí)行申請文件的審查和評估的處理中,提供使得能夠高精確地檢測惡意生成的錯誤地接受的數(shù)據(jù)的技術(shù)。
[0029]本發(fā)明的另一目的在于,在通過受監(jiān)督的機器學(xué)習(xí)執(zhí)行申請文件的審查和評估的處理中,通過利用不可避免的錯誤判定的線索來阻止損害的擴大。
[0030]本發(fā)明的又一目的在于,在通過受監(jiān)督的機器學(xué)習(xí)執(zhí)行申請文件的審查和評估的處理中,避免損害發(fā)生但是沒有被注意到的情況。
[0031]解決技術(shù)問題的技術(shù)方案
[0032]本發(fā)明是為解決以上問題而作出的。根據(jù)本發(fā)明,在準(zhǔn)備受監(jiān)督(學(xué)習(xí))數(shù)據(jù)的情形和準(zhǔn)備測試數(shù)據(jù)的情形這兩種情形下,數(shù)據(jù)與附加到數(shù)據(jù)上的時間信息被記錄。該時間是例如數(shù)據(jù)被輸入的時間。
[0033]然后,根據(jù)本發(fā)明的系統(tǒng)對目標(biāo)類(典型地為接受類)中的學(xué)習(xí)數(shù)據(jù)執(zhí)行聚類(clustering)。相似地,系統(tǒng)對目標(biāo)類(典型地為接受類)中的測試數(shù)據(jù)執(zhí)行聚類。
[0034]然后,根據(jù)本發(fā)明的系統(tǒng)對于通過聚類獲得的每個子類匯總識別的概率密度。按照具有不同時間點和寬度的每個時間間隔,對學(xué)習(xí)數(shù)據(jù)執(zhí)行該匯總,并且按照具有不同寬度的最近時間周期的每個時間間隔,對測試數(shù)據(jù)執(zhí)行該匯總。
[0035]然后,根據(jù)本發(fā)明的系統(tǒng),在每個子類的每個時間間隔,獲得執(zhí)行學(xué)習(xí)時獲得的概率密度與執(zhí)行測試時獲得的概率密度之間的比值作為相對頻度。系統(tǒng)將具有統(tǒng)計上顯著增大的相對頻率的輸入檢測為異常,并且發(fā)出警報,以便詳細(xì)地檢查該異常是否由攻擊導(dǎo)致。換句話說,根據(jù)本發(fā)明的發(fā)現(xiàn),這樣的情況潛在地表明很可能惡意的人可以繞過(circumvent)通過學(xué)習(xí)數(shù)據(jù)獲得的學(xué)習(xí)。
[0036]發(fā)明效果
[0037]根據(jù)本發(fā)明,在通過受監(jiān)督的機器學(xué)習(xí)對申請文件進行審查和評估的處理中,在準(zhǔn)備受監(jiān)督(學(xué)習(xí))的數(shù)據(jù)的情形和準(zhǔn)備測試數(shù)據(jù)的情形這兩種情形下,數(shù)據(jù)與附加到數(shù)據(jù)上的時間信息被記錄。另外,將在對學(xué)習(xí)數(shù)據(jù)的聚類后的每個時間間隔的頻度與測試數(shù)據(jù)的相應(yīng)頻度進行比較,從而使得能夠檢測到潛在的惡意數(shù)據(jù)。因此,無需假設(shè)例如數(shù)據(jù)一致性和對于每個數(shù)據(jù)的異常度等特定于數(shù)據(jù)的屬性,而能夠高精度地檢測惡意數(shù)據(jù),結(jié)果提高了審查的可靠性。此外,甚至能夠考慮到攻擊者之間的社會聯(lián)系。
【專利附圖】
【附圖說明】
[0038]圖1是用于解釋受監(jiān)督的機器學(xué)習(xí)處理的圖示。
[0039]圖2是用于解釋使用通過受監(jiān)督的機器學(xué)習(xí)處理構(gòu)成的分類器的分類處理的圖
/Jn ο
[0040]圖3是示出使用錯誤地接受的數(shù)據(jù)來攻擊通過受監(jiān)督的機器學(xué)習(xí)處理構(gòu)成的分類器的狀態(tài)的圖示。
[0041 ]圖4是用于實施本發(fā)明的硬件配置框圖。
[0042]圖5是用于實施本發(fā)明的功能配置框圖。
[0043]圖6是不出訓(xùn)練輸入分析處理的流程圖的圖不。
[0044]圖7是示出副分類器生成處理的流程圖的圖示。
[0045]圖8是示出對測試輸入數(shù)據(jù)的分析處理的流程圖的圖示。
[0046]圖9是示出按照各時間窗的頻度分析處理的流程圖的圖示。
[0047]圖10是示出在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的子類中單個頻度的圖示。
[0048]圖11是示出可能為異常數(shù)據(jù)的數(shù)據(jù)頻度的圖示。
[0049]附圖標(biāo)記
[0050]404:CPU
[0051]408:硬盤驅(qū)動器
[0052]502:訓(xùn)練數(shù)據(jù)
[0053]504:測試數(shù)據(jù)
[0054]506:分類器生成例程
[0055]510:分類器
[0056]514:聚類分析例程
[0057]516:劃分?jǐn)?shù)據(jù)
[0058]518,522:時間序列分析例程
[0059]520,524:時間序列數(shù)據(jù)
[0060]526:異常檢測例程
【具體實施方式】
[0061]以下,將基于附圖來描述本發(fā)明的實施例。除非另有規(guī)定,相同的附圖標(biāo)記在附圖中代表相同的對象。請注意,以下將描述本發(fā)明的實施例,并且應(yīng)當(dāng)理解這并意在將本發(fā)明限于此實施例的解釋。
[0062]參照圖4,示出了圖示用于實現(xiàn)根據(jù)本發(fā)明的實施例的系統(tǒng)配置和處理的計算機硬件的框圖。在圖4中,CPU 404、主存儲器(RAM) 406、硬盤驅(qū)動器(HDD) 408、鍵盤410、鼠標(biāo)412以及顯示器414被連接到系統(tǒng)總線402上。CPU 404優(yōu)選基于32位或64位體系結(jié)構(gòu),例如,Intel公司的Pentium (注冊商標(biāo))4、Core (注冊商標(biāo))2Duo以及Xeon (注冊商標(biāo)),以及AMD公司的Athlon (注冊商標(biāo))可以用作CPU 404。主存儲器406優(yōu)選具有4GB或更多的容量。硬盤驅(qū)動器408優(yōu)選具有例如500GB或以上的容量,以便用于存儲例如保險公司的保險索賠評估和金融公司的貸款和信用卡的審查和授信等大量申請信息的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。
[0063]硬盤驅(qū)動器408預(yù)先存儲未被明確圖示的操作系統(tǒng)。此操作系統(tǒng)可以是任意與CPU 404兼容的系統(tǒng),例如Linux(注冊商標(biāo))、微軟公司的Windows XP(注冊商標(biāo))或Windows(注冊商標(biāo))2000、或者蘋果電腦公司的Mac OS (注冊商標(biāo))。
[0064]硬盤驅(qū)動器408可以存儲程序語言處理器,例如C、C++、C#以及Java (注冊商標(biāo)),這些程序語言處理器被用于創(chuàng)建和維護根據(jù)如下所述的本發(fā)明的處理的例程或工具。硬盤驅(qū)動器408還包括開發(fā)環(huán)境,例如用于書寫會被用程序語言處理器編譯的源代碼的文本編輯器和Eclipse (注冊商標(biāo))。
[0065]鍵盤410和鼠標(biāo)412被用于起動操作系統(tǒng)或從硬盤驅(qū)動器408加載到主存儲器406并在顯示器414上顯示的程序(未圖示),并用于鍵入字符。
[0066]顯示器414優(yōu)選是液晶顯示器。例如,如XGA(1024X768分辨率)或UXGA (1600 X 1200分辨率)等任意分辨率的顯示器可以被用于作為顯示器414。顯示器414被用于顯示包含錯誤地接受的可能是惡意生成的數(shù)據(jù)的聚類(未圖示)。
[0067]圖5是示出根據(jù)本發(fā)明的處理例程、訓(xùn)練數(shù)據(jù)502以及測試數(shù)據(jù)504的功能框圖。使用現(xiàn)有的程序語言例如C、C++、C#以及Java (注冊商標(biāo))來書寫這些例程,并且將這些例程以可執(zhí)行的二進制格式存儲在硬盤驅(qū)動器408中。響應(yīng)鼠標(biāo)412或鍵盤410的操作,程序被調(diào)用進主存儲器406中,并且通過操作系統(tǒng)的功能(未圖示)被執(zhí)行。
`[0068]訓(xùn)練數(shù)據(jù)502被存儲在硬盤驅(qū)動器408中,并且具有如下的數(shù)據(jù)結(jié)構(gòu):
[0069](training) _ | ^ (training) y (training) (training))(χ (training) y (training) (training))!
[0070]在此數(shù)據(jù)結(jié)構(gòu)中,Xi(toinW)代表第i個訓(xùn)練數(shù)據(jù)的特征向量,Yi(training)代表第i個訓(xùn)練數(shù)據(jù)的類別標(biāo)簽,并且ti(taining)代表第i個訓(xùn)練數(shù)據(jù)的時間戳。特征向量
(i=l,...,η)優(yōu)選自動地通過計算機處理根據(jù)電子申請信息中的項目被生成,當(dāng)特征向量被生成后,必要時會使用文本挖掘之類的技術(shù)。根據(jù)由預(yù)先檢查申請信息的負(fù)責(zé)的熟練專家決定的結(jié)果,來設(shè)定類別標(biāo)簽Ltaaining)。時間戳t嚴(yán)aining)優(yōu)選是申請信息的輸入日期和時間,并且具有例如日期和時間的格式。
[0071]分類器生成程序506具有根據(jù)訓(xùn)練數(shù)據(jù)502生成分類參數(shù)508的功能,而分類器510使用此參數(shù)來對測試數(shù)據(jù)504進行分類。
[0072]測試數(shù)據(jù)504被存儲在硬盤驅(qū)動器408中,并且具有如下的數(shù)據(jù)結(jié)構(gòu):
[0073]D, (test) = {(Xl(test), t/^),..., (xm(test), tm(test))}
[0074]在此數(shù)據(jù)結(jié)構(gòu)中,Xi(test)代表第i個測試數(shù)據(jù)的特征向量,代表第i個測試數(shù)據(jù)的時間戳。特征向量1廣@)(1=1,...,111)優(yōu)選自動地通過計算機處理根據(jù)電子申請信息中的項目被生成,時間戳優(yōu)選是申請信息的輸入日期和時間,并且具有例如日期和時間的格式。
[0075]通過已知的受監(jiān)督的機器學(xué)習(xí)處理,分類器510給每個測試數(shù)據(jù)(Xi(test),ti(test))添加類別標(biāo)簽Yi(t^st)。分類器510的功能可以被指定為函數(shù)h(),從而可以使用表達式
yi(test)=h (Xi(test))。
[0076]已知的受監(jiān)督的機器學(xué)習(xí)大致上分為分類分析和回歸分析,可以用于本發(fā)明的目的的受監(jiān)督的機器學(xué)習(xí)屬于分類分析的范疇。已知的作為分類分析的技術(shù)包括線性分類器,例如Fisher線性判別函數(shù)、Logistic回歸、樸素貝葉斯分類器以及感知器。除此之外,該技術(shù)包括二次分類器、K近鄰算法、Boosting、決策樹、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、支持向量機以及隱馬爾可夫模型。對于本發(fā)明,可以從這些技術(shù)中選擇任意技術(shù)。然而,根據(jù)實施例,特意使用支持向量機。更多詳細(xì)描述,參見例如Christopher M.Bishop, " PatternRecognition And Machine Learning"(模式識別與機器學(xué)習(xí)),2006,Springer Verlag0
[0077]分類器510讀取測試數(shù)據(jù)504,并給測試數(shù)據(jù)504添加類別標(biāo)簽,以生成分類數(shù)據(jù)512,例如下列表達式所示:
λλ-ιλ?(test) 一 J ( (test) (test) , (test) \( (test) (test) , (test) \ ?
|_UU /i5」 U — Ij ΥI ,/ j...j、Xm ,) i
[0079]聚類分析例程514定義了訓(xùn)練數(shù)據(jù)502中數(shù)據(jù)的特征向量之間的距離,例如歐氏距離或曼哈頓距離,并且通過使用此距離用例如K-means等已知的技術(shù)執(zhí)行聚類,以便生成作為聚類的結(jié)果的劃分?jǐn)?shù)據(jù)516。劃分?jǐn)?shù)據(jù)516優(yōu)選存儲在硬盤驅(qū)動器408中。因為劃分?jǐn)?shù)據(jù)516規(guī)定了例如聚類的邊界和中心等位置信息,所以通過參照劃分?jǐn)?shù)據(jù)516,可以確定哪一數(shù)據(jù)應(yīng)該屬于哪個聚類。簡言之,劃分?jǐn)?shù)據(jù)516用作副分類器。請注意,可以用于本發(fā)明的聚類技術(shù)并不局限于K-means,任意與本發(fā)明兼容的聚類技術(shù),例如高斯混合模型、凝聚聚類、分支聚類以及自組織映射,都可以被使用?;蛘撸ㄟ^網(wǎng)格劃分的方式,也可以獲得劃分?jǐn)?shù)據(jù)群。
[0080]聚類分析例程514將代表聚類的結(jié)果的劃分?jǐn)?shù)據(jù)516寫入硬盤驅(qū)動器408。
[0081]時間序列分析例程518讀取訓(xùn)練數(shù)據(jù)502,對每個對應(yīng)于劃分?jǐn)?shù)據(jù)516的聚類(子類)的每個預(yù)定的時間窗,計算數(shù)據(jù)頻度和其它統(tǒng)計數(shù)據(jù),并優(yōu)選將結(jié)果作為時間序列數(shù)據(jù)520存儲到硬盤驅(qū)動器408中。
[0082]時間序列分析例程522讀取分類數(shù)據(jù)512,對每個對應(yīng)于劃分?jǐn)?shù)據(jù)516的聚類(子類)的每個預(yù)定的時間窗,計算數(shù)據(jù)頻度和其它統(tǒng)計數(shù)據(jù),并優(yōu)選將結(jié)果作為時間序列數(shù)據(jù)524存儲到硬盤驅(qū)動器408中。
[0083]異常檢測程序526計算關(guān)于對時間序列數(shù)據(jù)520的聚類的時間窗和關(guān)于對時間序列數(shù)據(jù)524的聚類的對應(yīng)時間窗的數(shù)據(jù),當(dāng)結(jié)果值大于預(yù)定閥值時,異常檢測例程526具有起動警報例程528的功能。
[0084]警報程序528具有如下功能:在顯示器414上顯示例如異常被檢測到的聚類和時間窗,以便將該異常通知操作員。
[0085]參照圖6至圖9的流程圖,被執(zhí)行的處理會在下面逐一被描述。圖6是示出訓(xùn)練數(shù)據(jù)分析流程的流程圖的圖示。
[0086]在圖6的步驟602中,分類器生成例程506生成分類參數(shù)508,以便生成分類器510。
[0087]在步驟604中,聚類分析例程514生成副分類器,即用于聚類的劃分?jǐn)?shù)據(jù)516。
[0088]在步驟606中,時間序列分析例程518對每個子類的每個時間窗計算輸入頻度的統(tǒng)計值,以便生成時間序列數(shù)據(jù)520。
[0089]圖7是示出具體地描述步驟604中處理的流程圖的圖示。即,在該處理中,聚類分析例程514執(zhí)行對每個類的從步驟702到步驟706的循環(huán),并在步驟704中為類中的數(shù)據(jù)生成副分類器。[0090]請注意,在圖7流程圖的處理中,不是所有類都需要受到該處理,例如,如果要檢測針對某個類的攻擊,則只有該類受到該處理即可。
[0091]圖8是示出對測試數(shù)據(jù)的分析處理的流程圖的圖示。在從步驟802到步驟810的循環(huán)中,包含在測試數(shù)據(jù)504中的所有數(shù)據(jù)都受到該處理。
[0092]在步驟804中,分類器510對測試數(shù)據(jù)504中的每個數(shù)據(jù)進行分類。然后,在步驟806中,基于劃分?jǐn)?shù)據(jù)516,時間序列分析例程522將該分類的數(shù)據(jù)分類到子類(即,聚類)。在步驟808中,伴隨偏移具有預(yù)定寬度的時間窗,時間序列分析例程522增大當(dāng)前時間窗中的子類的輸入頻度。
[0093]當(dāng)完成對包含在測試數(shù)據(jù)504中的所有數(shù)據(jù)的從步驟802到步驟810的處理循環(huán)時,時間序列分析例程522將時間序列數(shù)據(jù)524寫入硬盤驅(qū)動器408。
[0094]圖9是示出異常檢測例程526檢測預(yù)定時間窗中異常出現(xiàn)的可能性的處理的流程圖的圖示。在步驟902中,異常檢測例程526計算時間窗中測試輸入頻度相對于訓(xùn)練數(shù)據(jù)頻度的比率。
[0095]在步驟904中,異常檢測例程526對每個子類計算統(tǒng)計上有意義的頻度的增加得分。在此處,統(tǒng)計上有意義意思是準(zhǔn)備有足夠數(shù)量的樣本。有意義的頻度的增加得分可以通過簡單的比值計算獲得。然而,根據(jù)本實施例,用以下表達式來更精確地計算增加得分。
[0096]時間窗的寬度用W代表。函數(shù)g()代表求得子類的函數(shù)。在時間窗中,在時間t標(biāo)記為j的輸入特征向量的集合被表達為下式:
[0097][式I]
[0098]
【權(quán)利要求】
1.一種計算機實現(xiàn)的信息識別方法,該信息識別方法用于檢測使用不正常數(shù)據(jù)進行的對通過受監(jiān)督的機器學(xué)習(xí)構(gòu)成的分類器的攻擊,該方法包括如下步驟: 準(zhǔn)備各自包含特征數(shù)據(jù)、標(biāo)簽和時間的多個訓(xùn)練數(shù)據(jù); 通過使用所述多個訓(xùn)練數(shù)據(jù)來構(gòu)成分類器; 在將由所述分類器分類而獲得的類中的數(shù)據(jù)分類為子類的同時,通過使用所述多個訓(xùn)練數(shù)據(jù)來構(gòu)成副分類器; 準(zhǔn)備各自包含特征數(shù)據(jù)、標(biāo)簽和時間的多個測試數(shù)據(jù); 通過使用所述分類器對所述多個測試數(shù)據(jù)進行分類; 通過使用所述副分類器將已經(jīng)被分類的所述多個測試數(shù)據(jù)分類為子類; 計算表示所述多個測試數(shù)據(jù)相對于所述多個訓(xùn)練數(shù)據(jù)的相對頻度的統(tǒng)計數(shù)據(jù),所述統(tǒng)計數(shù)據(jù)是在具有對于時間的預(yù)定寬度的時間窗中對每個相同子類集合計算的;以及 響應(yīng)于所述統(tǒng)計數(shù)據(jù)的值超過預(yù)定閥值,對發(fā)生使用不正常數(shù)據(jù)進行的攻擊的可能性進行警報。
2.根據(jù)權(quán)利要求1所述的信息識別方法,其中 所述特征數(shù)據(jù)通過將對金融申請文檔中問題項的回答轉(zhuǎn)換為電子形式而獲得的特征向量來表示,并且所述類包括接受類和拒絕類。
3.根據(jù)權(quán)利要求1所述的信息識別方法,其中 所述分類器由支持向量機構(gòu)成。
4.根據(jù)權(quán)利要求1所述的信息識別方法,其中 所述副分類器使用K-means算法。
5.根據(jù)權(quán)利要求2所述的信息識別方法,其中 所述不正常數(shù)據(jù)是錯誤地接受的數(shù)據(jù)。
6.根據(jù)權(quán)利要求1所述的信息識別方法,其中 所述統(tǒng)計數(shù)據(jù)通過使用頻度的移動平均和所述移動平均的方差來計算。
7.一種計算機執(zhí)行的信息識別程序產(chǎn)品,該程序產(chǎn)品用于檢測用不正常數(shù)據(jù)進行的對通過受監(jiān)督的機器學(xué)習(xí)構(gòu)成的分類器的攻擊,該程序產(chǎn)品使得計算機執(zhí)行如下步驟: 準(zhǔn)備各自包含特征數(shù)據(jù)、標(biāo)簽和時間的多個訓(xùn)練數(shù)據(jù); 通過使用所述多個訓(xùn)練數(shù)據(jù)來構(gòu)成分類器; 在將由所述分類器分類而獲得的類中的數(shù)據(jù)分類為子類的同時,通過使用所述多個訓(xùn)練數(shù)據(jù)來構(gòu)成副分類器; 準(zhǔn)備各自包含特征數(shù)據(jù)、標(biāo)簽和時間的多個測試數(shù)據(jù); 通過使用所述分類器對所述多個測試數(shù)據(jù)進行分類; 通過使用所述副分類器將已經(jīng)被分類的所述多個測試數(shù)據(jù)分類為子類; 計算表示所述多個測試數(shù)據(jù)相對于所述多個訓(xùn)練數(shù)據(jù)的相對頻度的統(tǒng)計數(shù)據(jù),所述統(tǒng)計數(shù)據(jù)是在具有對于時間的預(yù)定寬度的時間窗中對每個相同子類集合計算的;以及 響應(yīng)于所述統(tǒng)計數(shù)據(jù)的值超過預(yù)定閥值,對發(fā)生使用不正常數(shù)據(jù)進行的攻擊的可能性進行警報。
8.根據(jù)權(quán)利要求7所述的信息識別程序產(chǎn)品,其中 所述特征數(shù)據(jù)通過將對金融申請文檔中問題項的回答轉(zhuǎn)換為電子形式而獲得的特征向量來表示,并且所述類包括接受類和拒絕類。
9.根據(jù)權(quán)利要求7所述的信息識別程序產(chǎn)品,其中 所述分類器由支持向量機構(gòu)成。
10.根據(jù)權(quán)利要求7所述的信息識別程序產(chǎn)品,其中 所述副分類器使用K-means算法。
11.根據(jù)權(quán)利要求8所述的信息識別程序產(chǎn)品,其中 所述不正常數(shù)據(jù)是錯誤地接受的數(shù)據(jù)。
12.根據(jù)權(quán)利要求7所述的信息識別程序產(chǎn)品,其中 所述統(tǒng)計數(shù)據(jù)通過使用頻度的移動平均和所述移動平均的方差來計算。
13.一種計算機實現(xiàn)的信息識別系統(tǒng),該信息識別系統(tǒng)用于檢測用不正常數(shù)據(jù)進行的對通過受監(jiān)督的機器學(xué)習(xí)配置的分類器的攻擊,該信息識別系統(tǒng)包括: 存儲單兀; 多個訓(xùn)練數(shù)據(jù),各自包含特征數(shù)據(jù)、標(biāo)簽和時間,并且被存儲于所述存儲單元; 分類器,通過使用所述多個訓(xùn)練數(shù)據(jù)而構(gòu)成; 副分類器,通過使用所述多個訓(xùn)練數(shù)據(jù)而構(gòu)成,并且用于將由所述分類器分類而獲得的類中的數(shù)據(jù)分類為子類; 在所述多個訓(xùn)練數(shù)據(jù)的子類中的數(shù)據(jù),通過將副分類器應(yīng)用于所述多個訓(xùn)練數(shù)據(jù)而生成,并被存儲于所述存儲單元; 多個測試數(shù)據(jù),各自包含特征數(shù)據(jù)、標(biāo)簽和時間,并被存儲于所述存儲單元; 在所述多個測試數(shù)據(jù)的子類中的數(shù)據(jù),通過將副分類器應(yīng)用于所述多個測試數(shù)據(jù)而生成,并被存儲于所述存儲單元; 計算單元,用于計算表示所述多個測試數(shù)據(jù)相對于所述多個訓(xùn)練數(shù)據(jù)的相對頻度的統(tǒng)計數(shù)據(jù),所述統(tǒng)計數(shù)據(jù)是在具有對于時間的預(yù)定寬度的時間窗中對每個相同子類集合計算的;以及 警告單元,用于響應(yīng)于所述統(tǒng)計數(shù)據(jù)的值超過預(yù)定閥值,對發(fā)生使用不正常數(shù)據(jù)進行的攻擊的可能性進行警報。
14.根據(jù)權(quán)利要求13所述的信息識別系統(tǒng),其中 所述特征數(shù)據(jù)通過將對金融申請文檔中問題項的回答轉(zhuǎn)換為電子形式而獲得的特征向量來表示,并且所述類包括接受類和拒絕類。
15.根據(jù)權(quán)利要求13所述的信息識別系統(tǒng),其中 所述分類器由支持向量機構(gòu)成。
16.根據(jù)權(quán)利要求13所述的信息識別系統(tǒng),其中 所述副分類器使用K-means算法。
17.根據(jù)權(quán)利要求14所述的信息識別系統(tǒng),其中 所述不正常數(shù)據(jù)是錯誤地接受的數(shù)據(jù)。
18.根據(jù)權(quán)利要求13所述的信息識別系統(tǒng),其中 所述統(tǒng)計數(shù)據(jù)通過使用頻度的移動平均和所述移動平均的方差來計算。
【文檔編號】G06Q40/08GK103703487SQ201280036705
【公開日】2014年4月2日 申請日期:2012年4月26日 優(yōu)先權(quán)日:2011年7月25日
【發(fā)明者】立堀道昭, 比戶將平 申請人:國際商業(yè)機器公司