一種基于增量核主成分分析的增量軌跡異常檢測(cè)的方法
【專利摘要】一種基于增量核主成分分析的增量軌跡異常檢測(cè)的方法,屬于增量軌跡異常檢測(cè)的方法。該方法:首先進(jìn)行模型的初始化計(jì)算,使用傳統(tǒng)的Batch KPCA進(jìn)行初始核特征空間計(jì)算,每當(dāng)有M條新增軌跡數(shù)據(jù)到來時(shí),先對(duì)這M條軌跡數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化;然后使用Batch KPCA計(jì)算新增數(shù)據(jù)的核特征空間;分別計(jì)算新增數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的平均重建誤差,如果兩者誤差大于給定閥值,則執(zhí)行后續(xù)的核特征空間分割?合并方法,更新核特征空間;接著對(duì)更新后的核特征空間進(jìn)行投影,提取出主分量;最后利用一類支持向量機(jī)進(jìn)行無監(jiān)督學(xué)習(xí)和異常檢測(cè)。優(yōu)點(diǎn):該方法優(yōu)于傳統(tǒng)的核主成分分析方法,降低了計(jì)算復(fù)雜性,提高了軌跡異常檢測(cè)的效率。
【專利說明】
-種基于増量核主成分分析的増量軌跡異常檢測(cè)的方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及一種增量軌跡異常檢測(cè)的方法,特別是一種基于增量核主成分分析的 增量軌跡異常檢測(cè)的方法。
【背景技術(shù)】
[0002] 軌跡數(shù)據(jù)包含地理位置坐標(biāo)、速度、方向等多種特征,可W看作一種高維數(shù)據(jù)。核 主成分分析是一種非線性的主成分分析軌跡異常檢測(cè)方法,通過非線性映射將軌跡數(shù)據(jù)從 原始數(shù)據(jù)空間映射到高維特征空間中,然后在高維特征空間中運(yùn)用線性主成分分析進(jìn)行特 征提取。但是核主成分分析在進(jìn)行核矩陣特征分解時(shí)的計(jì)算復(fù)雜度為〇(N3),嚴(yán)重影響在大 規(guī)模數(shù)據(jù)集上的應(yīng)用。引入增量學(xué)習(xí)方式來降低時(shí)間復(fù)雜度是提高此類方法的關(guān)鍵。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的是要提供一種基于增量核主成分分析的增量軌跡異常檢測(cè)的方法, 解決現(xiàn)有核主成分分析方法的計(jì)算復(fù)雜度高的問題。
[0004] 本發(fā)明的目的是運(yùn)樣實(shí)現(xiàn)的:該方法:
[0005] 首先進(jìn)行模型的初始化計(jì)算,使用傳統(tǒng)的Batch KPCA進(jìn)行初始核特征空間計(jì)算, 每當(dāng)有M條新增軌跡數(shù)據(jù)到來時(shí),先對(duì)運(yùn)M條軌跡數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化;
[0006] 然后使用Batch KPCA計(jì)算新增數(shù)據(jù)的核特征空間;
[0007] 分別計(jì)算新增數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的平均重建誤差,如果兩者誤差大于給定閥值,貝U 執(zhí)行后續(xù)的核特征空間分割-合并方法,更新核特征空間;
[000引接著對(duì)更新后的核特征空間進(jìn)行投影,提取出主分量;
[0009] 最后利用一類支持向量機(jī)進(jìn)行無監(jiān)督學(xué)習(xí)和異常檢測(cè);
[0010] 該方法具體步驟如下:
[0011] (1)該基于增量核主成分分析的增量軌跡異常檢測(cè)方法,首先需要設(shè)定滑動(dòng)窗口 的大小P和每次更新的軌跡數(shù)目M;P代表了每次需要更新的核特征空間的大小,核特征空間 大小在算法執(zhí)行期間固定不變;M代表了每次增量的大??;
[0012] (2)然后使用傳統(tǒng)的Batch KPCA計(jì)算滑動(dòng)數(shù)據(jù)窗口的初始核特征空間模型W及計(jì) 算其平均重建誤差寫之后循環(huán)批量處理新增的軌跡數(shù)據(jù)向量;在處理新增軌跡數(shù)據(jù) 向量時(shí),先構(gòu)造其核特征空間模型,計(jì)算其平均重建誤差焉;
[OOU] (3)接著計(jì)算其與滑動(dòng)窗口核特征空間之間的平均重建誤差比率EratiO;當(dāng)EratiO高 于給定閥值V時(shí),使用核特征空間分割-合并算法更新滑動(dòng)窗口核特征空間,先采用核特征 空間分割方法從滑動(dòng)數(shù)據(jù)窗口中移除最早的M條軌跡數(shù)據(jù)特征向量,縮減核特征空間;然后 采用核特征空間合并方法將新增的M條軌跡數(shù)據(jù)向量合并到滑動(dòng)窗口核特征空間中;
[0014] (4)同時(shí)計(jì)算滑動(dòng)窗口核特征空間投影,求取主成分并計(jì)算其特征空間投影;
[0015] (5)最后使用一類支持向量機(jī)對(duì)提取的主分量進(jìn)行無監(jiān)督學(xué)習(xí)和異常檢測(cè),記錄 檢測(cè)到的異常軌跡;檢測(cè)完之后,需要重新計(jì)算滑動(dòng)窗口核特征空間平均重建誤差 焉。,化便處理下一次新增軌跡數(shù)據(jù)。
[0016] 有益效果,由于采用了上述方案,該基于增量核主成分分析的增量軌跡異常檢測(cè) 方法采用核特征空間分割-合并算法來更新核特征空間數(shù)據(jù)模型。維持一個(gè)固定大小的滑 動(dòng)數(shù)據(jù)窗口,每當(dāng)有M條新增軌跡到來時(shí),先從滑動(dòng)數(shù)據(jù)窗口核特征空間模型中移除最早的 M條軌跡數(shù)據(jù),再將新增的M條軌跡數(shù)據(jù)合并到核特征空間中;只需要計(jì)算M條軌跡的核特征 空間,在原有滑動(dòng)數(shù)據(jù)窗口核特征空間的基礎(chǔ)上增量地更新核特征空間,避免了每次更新 時(shí)都要重新計(jì)算核特征空間的不足,解決了現(xiàn)有核主成分分析方法的計(jì)算復(fù)雜度高的問 題,達(dá)到了本發(fā)明的目的。
[0017] 優(yōu)點(diǎn):該方法優(yōu)于傳統(tǒng)的核主成分分析方法,降低了計(jì)算復(fù)雜性,提高了軌跡異常 檢測(cè)的效率。
【附圖說明】
[0018] 圖1為本發(fā)明基于增量核主成分分析的增量軌跡異常檢測(cè)方法框架的流程圖。
[0019] 圖2為本發(fā)明與基于傳統(tǒng)KPCA的增量軌跡異常檢測(cè)方法的對(duì)比效果圖。
[0020] 圖3為本發(fā)明異常檢測(cè)效果圖。
[0021 ]圖4為本發(fā)明異常檢測(cè)效果圖。
【具體實(shí)施方式】
[0022] 下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明。
[0023] 實(shí)施例1:首先進(jìn)行模型的初始化計(jì)算,使用傳統(tǒng)的Batch KPCA進(jìn)行初始核特征空 間計(jì)算,每當(dāng)有M條新增軌跡數(shù)據(jù)到來時(shí),先對(duì)運(yùn)M條軌跡數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化;然后使用Batch KPCA計(jì)算新增數(shù)據(jù)的核特征空間。分別計(jì)算新增數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的平均重建誤差,如果兩 者誤差大于給定閥值,則執(zhí)行后續(xù)的核特征空間分割-合并方法,更新核特征空間;接著對(duì) 更新后的核特征空間進(jìn)行投影,提取出主分量;最后利用一類支持向量機(jī)進(jìn)行無監(jiān)督學(xué)習(xí) 和異常檢測(cè)。
[0024] 參見圖1所示,一種基于增量核主成分分析的增量軌跡異常檢測(cè)方法,包括W下步 驟:
[0025] (1)初始軌跡數(shù)據(jù),軌跡標(biāo)準(zhǔn)化;
[0026] (2)確定一個(gè)固定大小的滑動(dòng)數(shù)據(jù)窗口,計(jì)算初始核特征空間W及重建誤差;
[0027] (3)計(jì)算新增數(shù)據(jù)和滑動(dòng)窗口之間的平均重建誤差比率,如果兩者誤差大于給定 閥值,則執(zhí)行核特征空間分割-合并方法,更新核特征空間;
[0028] (4)計(jì)算更新后滑動(dòng)窗口核特征空間投影,提取出主分量;
[0029] (5)利用一類支持向量機(jī)進(jìn)行無監(jiān)督學(xué)習(xí)和異常檢測(cè);
[0030] 具體方法如下;
[0031] 該基于增量核主成分分析的增量軌跡異常檢測(cè)方法,首先采用Min-max方法標(biāo)準(zhǔn) 化每條軌跡,設(shè)定滑動(dòng)窗口的大小P和每次更新的軌跡數(shù)目MdP代表了每次需要更新的核特 征空間的大小,核特征空間大小在算法執(zhí)行期間固定不變;M代表了每次增量的大小;
[0032] 然后使用傳統(tǒng)的Batch KPCA計(jì)算滑動(dòng)數(shù)據(jù)窗口的初始核特征空間模型W及計(jì)算 其平均重建誤差5,W,UW;-個(gè)n維的輸入向量t通過核函數(shù)映射為一個(gè)1維的向量d) (t);重 建誤差e就是聲(0與其在核特征空間中投影之間的平方距離,其中多約是中屯、化后的映射向 量4 (t);之后循環(huán)批量處理新增的軌跡數(shù)據(jù)向量;在處理新增軌跡數(shù)據(jù)向量時(shí),先構(gòu)造其 核特征空間模型,計(jì)算其平均重建誤差&如。,f。平均重建誤差比率Eratio是新增的M條軌跡數(shù) 據(jù)的平均重建誤差和滑動(dòng)數(shù)據(jù)窗口中訓(xùn)練數(shù)據(jù)集平均重建誤差之間的比值。具體計(jì)算公式 為
[0033]
[0034] 接著計(jì)算其與滑動(dòng)窗口核特征空間之間的平均重建誤差比率Eratio;當(dāng)Eratio高于 給定閥值V時(shí),使用核特征空間分割-合并算法更新滑動(dòng)窗口核特征空間,先采用核特征空 間分割方法從滑動(dòng)數(shù)據(jù)窗口中移除最早的M條軌跡數(shù)據(jù)特征向量,縮減核特征空間,核特征 空間分割方法即基于原始輸入空間的特征空間分割方法,對(duì)其進(jìn)行核化得到適用于增量核 主成分分析的核特征空間分割方法;然后采用核特征空間合并方法將新增的M條軌跡數(shù)據(jù) 向量合并到滑動(dòng)窗口核特征空間中,核特征空間合并即經(jīng)過核特征空間分割后,從滑動(dòng)數(shù) 據(jù)窗口核特征空間中分割并得到由剩余軌跡構(gòu)成的核特征空間模型Q=化,?x,a,A,N), 新增的M條軌跡構(gòu)成的核特征空間模型為0=(V,Oy,0,A,M),合并Q和0得到更新后的 核特征空間模型Q=(W,〇z,T,n,P)。
[0035] 同時(shí)計(jì)算滑動(dòng)窗口核特征空間投影,求取主成分并計(jì)算其特征空間投影;
[0036] 最后使用一類支持向量機(jī)對(duì)提取的主分量進(jìn)行無監(jiān)督學(xué)習(xí)和異常檢測(cè),遍歷軌跡 集合,對(duì)于數(shù)據(jù)集中每條軌跡樣本,利用決策函數(shù)判斷異常軌跡,記錄檢測(cè)到的異常軌跡, 并設(shè)置相應(yīng)的軌跡標(biāo)簽;檢測(cè)完之后,需要重新計(jì)算滑動(dòng)窗口核特征空間平均重建誤差 馬,,,,。>,,_.,。,,W便處理下一次新增軌跡數(shù)據(jù)。
[0037] 實(shí)施例2:本發(fā)明與基于傳統(tǒng)KPCA(Batch KPCA)的增量軌跡異常檢測(cè)算法的比較;
[0038] 為了驗(yàn)證本發(fā)明的有效性,選取大西洋贓風(fēng)數(shù)據(jù)中1990年到2006年之間的7270個(gè) 軌跡點(diǎn)共計(jì)221條軌跡作為實(shí)驗(yàn)數(shù)據(jù)集來進(jìn)行驗(yàn)證。從圖2可W看出基于傳統(tǒng)KPCA的增量軌 跡異常檢測(cè)方法的執(zhí)行時(shí)間隨著滑動(dòng)數(shù)據(jù)窗口的增大在快速增加。而基于核特征空間分 害合并的增量軌跡異常檢測(cè)算法的執(zhí)行時(shí)間也會(huì)隨著滑動(dòng)數(shù)據(jù)窗口的增大而增加,但是 幅度不算大。并且在相同滑動(dòng)數(shù)據(jù)窗口大小的情況下,基于核特征空間分割-合并的增量軌 跡異常檢測(cè)算法要比基于傳統(tǒng)KPCA的增量軌跡異常檢測(cè)方法所用的計(jì)算時(shí)間更少,且隨著 滑動(dòng)數(shù)據(jù)窗口的增大,運(yùn)種差異會(huì)越來越大。
[0039] 實(shí)施例3:本發(fā)明的異常檢測(cè)效果圖;
[0040] 選取本發(fā)明方法在大西洋贓風(fēng)數(shù)據(jù)集上第4次迭代和第6次迭代的檢測(cè)結(jié)果,如圖 3和圖4所示。圖中較粗的線條代表檢測(cè)出的異常軌跡,較細(xì)的線條代表正常軌跡。從圖中可 W看出,異常檢測(cè)效果很好,很多行為反常的軌跡都被檢測(cè)了出來。并且從兩次迭代的結(jié)果 可W看出,隨著新增軌跡的不斷加入,一些新的異常軌跡被檢測(cè)出來,又由于核特征空間在 不斷更新,一些早先的異常軌跡被忽略了。
【主權(quán)項(xiàng)】
1. 一種基于增量核主成分分析的增量軌跡異常檢測(cè)的方法,其特征是:該方法: 首先進(jìn)行模型的初始化計(jì)算,使用傳統(tǒng)的Batch KPCA進(jìn)行初始核特征空間計(jì)算,每當(dāng) 有M條新增軌跡數(shù)據(jù)到來時(shí),先對(duì)這M條軌跡數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化; 然后使用Batch KPCA計(jì)算新增數(shù)據(jù)的核特征空間; 分別計(jì)算新增數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的平均重建誤差,如果兩者誤差大于給定閥值,則執(zhí)行 后續(xù)的核特征空間分割-合并方法,更新核特征空間; 接著對(duì)更新后的核特征空間進(jìn)行投影,提取出主分量; 最后利用一類支持向量機(jī)進(jìn)行無監(jiān)督學(xué)習(xí)和異常檢測(cè)。2. 根據(jù)權(quán)利要求1所述的一種基于增量核主成分分析的增量軌跡異常檢測(cè)的方法,其 特征是:該方法具體步驟如下: (1) 該基于增量核主成分分析的增量軌跡異常檢測(cè)方法,首先需要設(shè)定滑動(dòng)窗口的大 小P和每次更新的軌跡數(shù)目M;P代表了每次需要更新的核特征空間的大小,核特征空間大小 在算法執(zhí)行期間固定不變;M代表了每次增量的大小; (2) 然后使用傳統(tǒng)的Batch KPCA計(jì)算滑動(dòng)數(shù)據(jù)窗口的初始核特征空間模型以及計(jì)算其 平均重建誤差之后循環(huán)批量處理新增的軌跡數(shù)據(jù)向量;在處理新增軌跡數(shù)據(jù)向量 時(shí),先構(gòu)造其核特征空間模型,計(jì)算其平均重建誤差 (3) 接著計(jì)算其與滑動(dòng)窗口核特征空間之間的平均重建誤差比率。高于給 定閥值V時(shí),使用核特征空間分割-合并算法更新滑動(dòng)窗口核特征空間,先采用核特征空間 分割方法從滑動(dòng)數(shù)據(jù)窗口中移除最早的M條軌跡數(shù)據(jù)特征向量,縮減核特征空間;然后采用 核特征空間合并方法將新增的M條軌跡數(shù)據(jù)向量合并到滑動(dòng)窗口核特征空間中; (4) 同時(shí)計(jì)算滑動(dòng)窗口核特征空間投影,求取主成分并計(jì)算其特征空間投影; (5) 最后使用一類支持向量機(jī)對(duì)提取的主分量進(jìn)行無監(jiān)督學(xué)習(xí)和異常檢測(cè),記錄檢測(cè) 到的異常軌跡;檢測(cè)完之后,需要重新計(jì)算滑動(dòng)窗口核特征空間平均重建誤差&__^,以 便處理下一次新增軌跡數(shù)據(jù)。
【文檔編號(hào)】G06K9/62GK106022368SQ201610325491
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月17日
【發(fā)明人】張磊, 樊慶富, 劉磊軍, 鮑蘇寧, 張國興
【申請(qǐng)人】中國礦業(yè)大學(xué)