亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法

文檔序號:6633500閱讀:705來源:國知局
一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法
【專利摘要】本發(fā)明公開了一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法,包括特征提取和動態(tài)模式匹配步驟。首先對時間序列切分子序列,依次提取每條子序列的多種統(tǒng)計特征,構(gòu)造局部模式特征向量;然后利用加權(quán)歐氏距離計算局部模式特征向量之間的距離,實現(xiàn)局部模式匹配,并以此作為動態(tài)規(guī)劃算法的子程序,實現(xiàn)全局模式匹配。本發(fā)明在度量精度和計算效率方面都以較大的程度優(yōu)于其他度量方法,在人們的日常活動和工業(yè)生產(chǎn)中可發(fā)揮重要作用,如在金融交易、交通監(jiān)管、空氣質(zhì)量和溫度監(jiān)測、工業(yè)流程監(jiān)控、醫(yī)療診斷等應(yīng)用中,對大規(guī)模采樣數(shù)據(jù)或高速動態(tài)數(shù)據(jù)流進行相似性查詢、分類、聚類、預(yù)測、異常檢測、在線模式識別等處理。
【專利說明】一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)庫、數(shù)據(jù)挖掘、機器學(xué)習(xí)、信息檢索等領(lǐng)域,尤其涉及一種基于分 段統(tǒng)計近似表示的時間序列相似性度量方法。

【背景技術(shù)】
[0002] 時間序列廣泛存在于人們的日常生活及工業(yè)生產(chǎn)中,如基金或股票的實時交易數(shù) 據(jù),零售市場的日銷量數(shù)據(jù),流程工業(yè)的傳感器監(jiān)測數(shù)據(jù),天文觀測數(shù)據(jù),航空航天雷達、衛(wèi) 星監(jiān)測數(shù)據(jù),實時天氣溫度及空氣質(zhì)量指數(shù)等。工業(yè)界迄今提出了許多時間序列分析方法, 包括相似性查詢方法、分類方法、聚類方法、預(yù)測方法、異常檢測方法等。其中,許多方法都 需要對時間序列進行相似性判斷,比如kNN分類器、k-means聚類方法等,因此,時間序列相 似性度量方法在工業(yè)界有著廣泛的應(yīng)用需求。
[0003] 目前工業(yè)界最常用的時間序列相似性度量方法可分為鎖步度量方法和彈性度量 方法。前者采用了一對一的度量方式,即時間序列T 1和T2之間的距離是通過嚴格比較T1和 T2在各自第i個位置的點對,再累加所有點對的距離得到。該類方法最常見的有曼哈頓距 離、歐氏距離和切比雪夫距離,其都是L p-n〇rms距離在p取不同值時的特例。該類方法具 有易實現(xiàn)、計算復(fù)雜度低、滿足距離三角不等式、無參等優(yōu)點;但是,其度量精度對噪聲、異 常點、幅值伸縮和漂移、相位偏移等非常敏感,并且只能用于度量等長的時間序列。彈性度 量方法采用了一對多的度量方式,即時間序列T 1的一個點可以與T2的多個連續(xù)點相對應(yīng), 通過動態(tài)規(guī)劃方法遍歷T1和T 2的所有點對之間的距離。該類方法最常見的有動態(tài)時間彎 曲距離(DTW)和編輯距離的變種(如LCSS、EDR、ERP)等。與鎖步度量相比,彈性度量能夠 實現(xiàn)兩條時間序列的最佳對齊匹配,可以有效處理時間彎曲、相位偏移、幅值伸縮和漂移等 基本形態(tài)變化,對噪聲和異常點具有魯棒性,因此,彈性度量具有較高的度量精度。但是,該 類方法具有較高的計算復(fù)雜度,當(dāng)用于度量高維的時間序列時會導(dǎo)致高昂的時間開銷,難 以在工業(yè)生產(chǎn)中處理大規(guī)模的時間序列或高速的動態(tài)數(shù)據(jù)流。
[0004] 基于時間序列的特征計算彈性度量是改進其高計算復(fù)雜度的一種有效方法,即首 先采用數(shù)據(jù)表示方法將原始時間序列映射到低維的特征空間,然后進行彈性度量。目前工 業(yè)界常用的數(shù)據(jù)表示方法可分為非數(shù)據(jù)適應(yīng)性方法和數(shù)據(jù)適應(yīng)性方法。對于前者,變換參 數(shù)不受單獨的時間序列影響,而始終保持不變;該類表示大多基于頻譜分解實現(xiàn),如離散傅 里葉變換、離散小波變換、離散余弦變換,其主要通過對原始時間序列做相應(yīng)的頻域變換, 提取主要的頻譜系數(shù)作為特征;該類方法各有缺陷,如離散傅里葉變換只能提取總體形態(tài) 特征而忽略了局部特征,離散小波變換只能處理長度為2的指數(shù)次的時間序列,離散余弦 變換的信息丟失較多,對原始數(shù)據(jù)的重構(gòu)誤差較大。數(shù)據(jù)適應(yīng)性表示是指對變換參數(shù)的確 定需要依賴數(shù)據(jù)本身;通過增加數(shù)據(jù)敏感的選擇處理過程,可以把大部分非數(shù)據(jù)適應(yīng)性方 法變?yōu)閿?shù)據(jù)適應(yīng)性方法。該類方法有分段聚集近似、分段線性近似、符號化聚集近似、奇異 值分解、主成分分析等,前三種都需要先對原始時間序列進行分段,然后對每一子段單獨處 理(分段聚集近似是對各段求平均值,分段線性近似是對各段做線段擬合,符號化聚集近 似是在分段聚集近似基礎(chǔ)上將每段平均值離散化為符號),由于其所提取的特征較為單一, 使其對時間序列波動模式的表達能力較弱。奇異值分解和主成分分析通過對所有時間序列 做統(tǒng)一的特征矩陣分解實現(xiàn),這兩類方法的典型缺陷是計算復(fù)雜度高,而且分解過程只能 在內(nèi)存完成,數(shù)據(jù)規(guī)模的可擴展性很低。


【發(fā)明內(nèi)容】

[0005] 本發(fā)明要解決的問題是如何高效及高精度地度量時間序列之間的相似性。為了解 決該問題,本發(fā)明提出了一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法。
[0006] 本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:一種基于分段統(tǒng)計近似表示的時間 序列相似性度量方法,包括以下步驟:
[0007] (1)特征提取,具體包括以下子步驟:
[0008] (I. 1)讀取原始時間序列T和Q ;
[0009] (1. 2)對T和Q做Z-規(guī)范化處理,得到規(guī)范化的時間序列Ti和Qi ;
[0010] (1.3)采用長度為1的窗口將T,和Q,分別切分為M和N條子序列;
[0011] (1. 4)為T和Q分別構(gòu)建分段統(tǒng)計近似表示PSA(T)和PSA(Q),并初始化為空集; 依次對T'和Q'的每條子序列計算平均值μ、標準差 〇、離散系數(shù)CV、偏態(tài)SK、峰態(tài)K,構(gòu) 造局部模式特征向量LPV= [μ,0,CV,SK,K];將T的M個局部模式特征向量插入PSA (Τ), 將Q的N個局部模式特征向量插入PSA(Q);
[0012] (2)動態(tài)模式匹配,具體包括以下子步驟:
[0013] (2. 1)構(gòu)建動態(tài)規(guī)劃表Table (M,N),并進行初始化;
[0014] (2. 2)依次計算PSA(T)的第1個局部模式特征向量LPV1與PSA(Q)的N個局部模 式特征向量LPV' 1?LPV' N之間的加權(quán)歐氏距離{distaPVpLPV' 〇,...,ClistaPV1, L ?乂,1<)},并存入了&1^的第1行了&1^(1,1 :吣;
[0015] (2. 3)依次計算PSA(Q)的第1個局部模式特征向量LPV' 1與PSA⑴的M個局 部模式特征向量LPV1?LPVm之間的加權(quán)歐氏距離{di st (LPV1, LPV' D,...,di st (LPVM,LP V' 1) },并存入 Table 的第 1 列 Table (I :M, 1);
[0016] (2.4)利用動態(tài)規(guī)劃方法,依次掃描PSA(T)的第2到第M個局部模式特征向量 LPV2?LPVM和PSA(Q)的第2到第N個局部模式特征向量LPV' 2?LPV' N,基于加權(quán)歐氏 距離計算Table (2:M, 2: N)的每個單元值;
[0017] (2. 5)返回動態(tài)規(guī)劃表的第M行第N列單元值作為最終的度量結(jié)果,實現(xiàn)時間序列 相似性度量。
[0018] 本發(fā)明的有益效果是:
[0019] 1、在特征提取階段,采用了分段表示方法,對每個子段提取多種統(tǒng)計特征,從多方 面反映了時間序列的波動特性,可全面捕捉時間序列的局部波動模式,實現(xiàn)了較高的時間 序列局部模式匹配精度。
[0020] 2、在動態(tài)模式匹配階段,基于局部模式層次的動態(tài)規(guī)劃計算,克服了時間彎曲造 成的局部模式之間的相位偏移問題,實現(xiàn)了較高的時間序列全局模式匹配精度。
[0021] 3、在度量精度和計算效率兩個方面,本發(fā)明都在較大程度上超越了現(xiàn)有彈性度量 方法。

【專利附圖】

【附圖說明】
[0022] 圖1為基于分段統(tǒng)計近似表示的時間序列相似性度量方法流程圖;
[0023] 圖2為采用分段統(tǒng)計近似表示時間序列的流程圖;
[0024] 圖3為時間序列相似性計算的動態(tài)模式匹配過程。

【具體實施方式】
[0025] 下面結(jié)合附圖對本發(fā)明作進一步詳細說明。
[0026] 如圖1所示,本發(fā)明一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法,包 括以下步驟:
[0027] (1)特征提取,如圖2所示,具體包括以下子步驟:
[0028] (I. 1)讀取原始時間序列 T = It1, t2,…,% …,tj 和 Q = Iq1, q2,…,qi,…,qn};
[0029] (1.2)對于時間序列T和Q,分別計算T的采樣點的平均值m'和標準差〇 ',Q的 采樣點的平均值m'和標準差〇 ',根據(jù)公式(1)對T和Q做Z-規(guī)范化處理,得到規(guī)范化的 時間序列 T' ={t' nt' 2,…,t' i,…,t' J 和 Q' ={q' 1;q' 2,?,q'?!? J;
[0030] = tj~- (I) σ
[0031] (I. 3)采用長度為I的窗口,對步驟I. 2處理得到的T'和Qi分別切分為M和N條 不重疊的子序列,ST, = (S1, S2, · · ·,Si, · · ·,SM},SQ, = {S' i,S' 2,,· · ·,S' i,· · ·,S' Ν}, 其中 Si = {s" s2,…,Si,…,sj,S' i = {s' " s' 2,…,s' " …,s' J ;
[0032] (1.4)依次對T'和Q'的每條子序列Si和S' i計算多種統(tǒng)計特征,構(gòu)造局部模 式特征向量LPVi和LPV' i,得到T和Q的分段統(tǒng)計近似表示PSA(T)和PSA(Q),該過程包 括以下子步驟:
[0033] (I. 4. 1)初始化T和Q的分段統(tǒng)計近似表示PSA (T)和PSA (Q)為空集;
[0034] (1. 4. 2)依次掃描Sr和SQ;,根據(jù)公式(2),計算每條子序列Si和S',的平均值 μ i 和 μ ; i;

【權(quán)利要求】
1. 一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法,其特征在于,包括w下步 驟: (1)特征提取,具體包括W下子步驟: (1. 1)讀取原始時間序列T和Q; (1. 2)對T和Q做Z-規(guī)范化處理,得到規(guī)范化的時間序列r和Q'; (1.:3)采用長度為1的窗口將r和Q'分別切分為M和N條子序列; (1. 4)為T和Q分別構(gòu)建分段統(tǒng)計近似表示PSA(T)和PSA(Q),并初始化為空集;依次 對r和Q'的每條子序列計算平均值y、標準差0、離散系數(shù)CV、偏態(tài)SK、峰態(tài)K,構(gòu)造局 部模式特征向量LPV= [y, 〇,CV,SK,K];將T的M個局部模式特征向量插入PSA(T),將Q 的N個局部模式特征向量插入PSA(Q); (2) 動態(tài)模式匹配,具體包括W下子步驟: (2. 1)構(gòu)建動態(tài)規(guī)劃表Table (M,腳,并進行初始化; (2. 2)依次計算PSA(T)的第1個局部模式特征向量LPVi與PSA (曲的N個局部模式特 征向量 LPV' 1 ?LPV' N 之間的加權(quán)歐氏距離{dist (LPVi,LPV' 1),. . .,dist (LPVi,LPV' N)},并 存入T油le的第1行T油le(l,l:N); (2. 3)依次計算PSA怕)的第1個局部模式特征向量LPV' 1與PSA (T)的M個局部模式 特征向量LPVi?LPVm之間的加權(quán)歐氏距離他St (LPVi,LPV' 1),. . .,di St (LPVm,LPV' 1)},并 存入T油le的第1列T油le (1 :M,1); (2.4)利用動態(tài)規(guī)劃方法,依次掃描PSA (T)的第2到第M個局部模式特征向量LPV2?LPVm和PSA(曲的第2到第N個局部模式特征向量LPV' 2?LPV' W,基于加權(quán)歐氏距離計算 T油le(2:M, 2:腳的每個單元值; (2. 5)返回動態(tài)規(guī)劃表的第M行第N列單元值作為最終的度量結(jié)果,實現(xiàn)時間序列相似 性度量。
2. 根據(jù)權(quán)利要求1所述一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法,其特 征在于,所述步驟2. 4包括W下子步驟: (2. 4. 1)順序掃描LPV2?LPVm,對于第i個局部模式特征向量LPVi,依次計算其與 LPV' 2 ?LPV' N 之間的加權(quán)歐氏距離{dist (LPV。LPV' 2),. . .,dist (LPV。LPV' N)}; (2.4.2)根據(jù)先行后列的順序掃描1'油16(2:1,2:腳,在每個單元1'油16(1,如中,首先 比較化ble (i-1,_1.)、T油le (i,j-1)和T油le (i-1,j-1)的大小,選擇最小值記為min,然后 計算 dist (LPV。LPV' j) +min 的值賦予 T油le (i, j)。
【文檔編號】G06F17/30GK104462217SQ201410626154
【公開日】2015年3月25日 申請日期:2014年11月9日 優(yōu)先權(quán)日:2014年11月9日
【發(fā)明者】蔡青林, 陳嶺, 孫建伶, 陳蕾英 申請人:浙江大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1