一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法

文檔序號：6633500閱讀：705來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法
【專利摘要】本發(fā)明公開了一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法，包括特征提取和動態(tài)模式匹配步驟。首先對時間序列切分子序列，依次提取每條子序列的多種統(tǒng)計特征，構(gòu)造局部模式特征向量；然后利用加權(quán)歐氏距離計算局部模式特征向量之間的距離，實現(xiàn)局部模式匹配，并以此作為動態(tài)規(guī)劃算法的子程序，實現(xiàn)全局模式匹配。本發(fā)明在度量精度和計算效率方面都以較大的程度優(yōu)于其他度量方法，在人們的日常活動和工業(yè)生產(chǎn)中可發(fā)揮重要作用，如在金融交易、交通監(jiān)管、空氣質(zhì)量和溫度監(jiān)測、工業(yè)流程監(jiān)控、醫(yī)療診斷等應(yīng)用中，對大規(guī)模采樣數(shù)據(jù)或高速動態(tài)數(shù)據(jù)流進行相似性查詢、分類、聚類、預(yù)測、異常檢測、在線模式識別等處理。
【專利說明】一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)庫、數(shù)據(jù)挖掘、機器學(xué)習(xí)、信息檢索等領(lǐng)域，尤其涉及一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法。

【背景技術(shù)】
[0002] 時間序列廣泛存在于人們的日常生活及工業(yè)生產(chǎn)中，如基金或股票的實時交易數(shù) 據(jù)，零售市場的日銷量數(shù)據(jù)，流程工業(yè)的傳感器監(jiān)測數(shù)據(jù)，天文觀測數(shù)據(jù)，航空航天雷達、衛(wèi) 星監(jiān)測數(shù)據(jù)，實時天氣溫度及空氣質(zhì)量指數(shù)等。工業(yè)界迄今提出了許多時間序列分析方法，包括相似性查詢方法、分類方法、聚類方法、預(yù)測方法、異常檢測方法等。其中，許多方法都需要對時間序列進行相似性判斷，比如kNN分類器、k-means聚類方法等，因此，時間序列相似性度量方法在工業(yè)界有著廣泛的應(yīng)用需求。
[0003] 目前工業(yè)界最常用的時間序列相似性度量方法可分為鎖步度量方法和彈性度量方法。前者采用了一對一的度量方式，即時間序列T 1和T2之間的距離是通過嚴格比較T1和 T2在各自第i個位置的點對，再累加所有點對的距離得到。該類方法最常見的有曼哈頓距離、歐氏距離和切比雪夫距離，其都是L p-n〇rms距離在p取不同值時的特例。該類方法具有易實現(xiàn)、計算復(fù)雜度低、滿足距離三角不等式、無參等優(yōu)點；但是，其度量精度對噪聲、異常點、幅值伸縮和漂移、相位偏移等非常敏感，并且只能用于度量等長的時間序列。彈性度量方法采用了一對多的度量方式，即時間序列T 1的一個點可以與T2的多個連續(xù)點相對應(yīng)，通過動態(tài)規(guī)劃方法遍歷T1和T 2的所有點對之間的距離。該類方法最常見的有動態(tài)時間彎曲距離（DTW)和編輯距離的變種（如LCSS、EDR、ERP)等。與鎖步度量相比，彈性度量能夠實現(xiàn)兩條時間序列的最佳對齊匹配，可以有效處理時間彎曲、相位偏移、幅值伸縮和漂移等基本形態(tài)變化，對噪聲和異常點具有魯棒性，因此，彈性度量具有較高的度量精度。但是，該類方法具有較高的計算復(fù)雜度，當(dāng)用于度量高維的時間序列時會導(dǎo)致高昂的時間開銷，難以在工業(yè)生產(chǎn)中處理大規(guī)模的時間序列或高速的動態(tài)數(shù)據(jù)流。
[0004] 基于時間序列的特征計算彈性度量是改進其高計算復(fù)雜度的一種有效方法，即首先采用數(shù)據(jù)表示方法將原始時間序列映射到低維的特征空間，然后進行彈性度量。目前工業(yè)界常用的數(shù)據(jù)表示方法可分為非數(shù)據(jù)適應(yīng)性方法和數(shù)據(jù)適應(yīng)性方法。對于前者，變換參數(shù)不受單獨的時間序列影響，而始終保持不變；該類表示大多基于頻譜分解實現(xiàn)，如離散傅里葉變換、離散小波變換、離散余弦變換，其主要通過對原始時間序列做相應(yīng)的頻域變換，提取主要的頻譜系數(shù)作為特征；該類方法各有缺陷，如離散傅里葉變換只能提取總體形態(tài) 特征而忽略了局部特征，離散小波變換只能處理長度為2的指數(shù)次的時間序列，離散余弦變換的信息丟失較多，對原始數(shù)據(jù)的重構(gòu)誤差較大。數(shù)據(jù)適應(yīng)性表示是指對變換參數(shù)的確定需要依賴數(shù)據(jù)本身；通過增加數(shù)據(jù)敏感的選擇處理過程，可以把大部分非數(shù)據(jù)適應(yīng)性方法變?yōu)閿?shù)據(jù)適應(yīng)性方法。該類方法有分段聚集近似、分段線性近似、符號化聚集近似、奇異值分解、主成分分析等，前三種都需要先對原始時間序列進行分段，然后對每一子段單獨處理（分段聚集近似是對各段求平均值，分段線性近似是對各段做線段擬合，符號化聚集近似是在分段聚集近似基礎(chǔ)上將每段平均值離散化為符號），由于其所提取的特征較為單一，使其對時間序列波動模式的表達能力較弱。奇異值分解和主成分分析通過對所有時間序列做統(tǒng)一的特征矩陣分解實現(xiàn)，這兩類方法的典型缺陷是計算復(fù)雜度高，而且分解過程只能在內(nèi)存完成，數(shù)據(jù)規(guī)模的可擴展性很低。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明要解決的問題是如何高效及高精度地度量時間序列之間的相似性。為了解決該問題，本發(fā)明提出了一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法。
[0006] 本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的：一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法，包括以下步驟：
[0007] (1)特征提取，具體包括以下子步驟：
[0008] (I. 1)讀取原始時間序列T和Q ;
[0009] (1. 2)對T和Q做Z-規(guī)范化處理，得到規(guī)范化的時間序列Ti和Qi ;
[0010] (1.3)采用長度為1的窗口將T，和Q，分別切分為M和N條子序列；
[0011] (1. 4)為T和Q分別構(gòu)建分段統(tǒng)計近似表示PSA(T)和PSA(Q)，并初始化為空集；依次對T'和Q'的每條子序列計算平均值μ、標準差〇、離散系數(shù)CV、偏態(tài)SK、峰態(tài)K，構(gòu) 造局部模式特征向量LPV= [μ，0，CV，SK，K];將T的M個局部模式特征向量插入PSA (Τ)，將Q的N個局部模式特征向量插入PSA(Q);
[0012] (2)動態(tài)模式匹配，具體包括以下子步驟：
[0013] (2. 1)構(gòu)建動態(tài)規(guī)劃表Table (M，N)，并進行初始化；
[0014] (2. 2)依次計算PSA(T)的第1個局部模式特征向量LPV1與PSA(Q)的N個局部模式特征向量LPV' 1?LPV' N之間的加權(quán)歐氏距離{distaPVpLPV' 〇，...，ClistaPV1, L ?乂，1<)}，并存入了&1^的第1行了&1^(1，1 :吣；
[0015] (2. 3)依次計算PSA(Q)的第1個局部模式特征向量LPV' 1與PSA⑴的M個局部模式特征向量LPV1?LPVm之間的加權(quán)歐氏距離{di st (LPV1, LPV' D，...，di st (LPVM，LP V' 1) }，并存入 Table 的第 1 列 Table (I :M, 1);
[0016] (2.4)利用動態(tài)規(guī)劃方法，依次掃描PSA(T)的第2到第M個局部模式特征向量 LPV2?LPVM和PSA(Q)的第2到第N個局部模式特征向量LPV' 2?LPV' N，基于加權(quán)歐氏距離計算Table (2:M, 2: N)的每個單元值；
[0017] (2. 5)返回動態(tài)規(guī)劃表的第M行第N列單元值作為最終的度量結(jié)果，實現(xiàn)時間序列相似性度量。
[0018] 本發(fā)明的有益效果是：
[0019] 1、在特征提取階段，采用了分段表示方法，對每個子段提取多種統(tǒng)計特征，從多方面反映了時間序列的波動特性，可全面捕捉時間序列的局部波動模式，實現(xiàn)了較高的時間序列局部模式匹配精度。
[0020] 2、在動態(tài)模式匹配階段，基于局部模式層次的動態(tài)規(guī)劃計算，克服了時間彎曲造成的局部模式之間的相位偏移問題，實現(xiàn)了較高的時間序列全局模式匹配精度。
[0021] 3、在度量精度和計算效率兩個方面，本發(fā)明都在較大程度上超越了現(xiàn)有彈性度量方法。

【專利附圖】

【附圖說明】
[0022] 圖1為基于分段統(tǒng)計近似表示的時間序列相似性度量方法流程圖；
[0023] 圖2為采用分段統(tǒng)計近似表示時間序列的流程圖；
[0024] 圖3為時間序列相似性計算的動態(tài)模式匹配過程。

【具體實施方式】
[0025] 下面結(jié)合附圖對本發(fā)明作進一步詳細說明。
[0026] 如圖1所示，本發(fā)明一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法，包括以下步驟：
[0027] (1)特征提取，如圖2所示，具體包括以下子步驟：
[0028] (I. 1)讀取原始時間序列 T = It1, t2,…，％ …，tj 和 Q = Iq1, q2,…，qi,…，qn};
[0029] (1.2)對于時間序列T和Q，分別計算T的采樣點的平均值m'和標準差〇 '，Q的采樣點的平均值m'和標準差〇 '，根據(jù)公式（1)對T和Q做Z-規(guī)范化處理，得到規(guī)范化的時間序列 T' ={t' nt' 2，…，t' i，…，t' J 和 Q' ={q' 1;q' 2，?，q'?！? J;
[0030] = tj~- (I) σ
[0031] (I. 3)采用長度為I的窗口，對步驟I. 2處理得到的T'和Qi分別切分為M和N條不重疊的子序列，ST, = (S1, S2, · · ·，Si, · · ·，SM}，SQ, = {S' i，S' 2,，· · ·，S' i，· · ·，S' Ν}，其中 Si = {s" s2,…，Si,…，sj，S' i = {s' " s' 2,…，s' " …，s' J ;
[0032] (1.4)依次對T'和Q'的每條子序列Si和S' i計算多種統(tǒng)計特征，構(gòu)造局部模式特征向量LPVi和LPV' i，得到T和Q的分段統(tǒng)計近似表示PSA(T)和PSA(Q)，該過程包括以下子步驟：
[0033] (I. 4. 1)初始化T和Q的分段統(tǒng)計近似表示PSA (T)和PSA (Q)為空集；
[0034] (1. 4. 2)依次掃描Sr和SQ;，根據(jù)公式（2)，計算每條子序列Si和S',的平均值 μ i 和 μ ; i;

【權(quán)利要求】
1. 一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法，其特征在于，包括w下步驟： (1)特征提取，具體包括W下子步驟： (1. 1)讀取原始時間序列T和Q; (1. 2)對T和Q做Z-規(guī)范化處理，得到規(guī)范化的時間序列r和Q'； (1.：3)采用長度為1的窗口將r和Q'分別切分為M和N條子序列； (1. 4)為T和Q分別構(gòu)建分段統(tǒng)計近似表示PSA(T)和PSA(Q)，并初始化為空集；依次對r和Q'的每條子序列計算平均值y、標準差0、離散系數(shù)CV、偏態(tài)SK、峰態(tài)K，構(gòu)造局部模式特征向量LPV= [y, 〇，CV，SK，K];將T的M個局部模式特征向量插入PSA(T)，將Q 的N個局部模式特征向量插入PSA(Q); (2) 動態(tài)模式匹配，具體包括W下子步驟： (2. 1)構(gòu)建動態(tài)規(guī)劃表Table (M，腳，并進行初始化； (2. 2)依次計算PSA(T)的第1個局部模式特征向量LPVi與PSA (曲的N個局部模式特征向量 LPV' 1 ?LPV' N 之間的加權(quán)歐氏距離{dist (LPVi，LPV' 1)，. . .，dist (LPVi，LPV' N)}，并存入T油le的第1行T油le(l，l:N); (2. 3)依次計算PSA怕）的第1個局部模式特征向量LPV' 1與PSA (T)的M個局部模式特征向量LPVi?LPVm之間的加權(quán)歐氏距離他St (LPVi，LPV' 1)，. . .，di St (LPVm，LPV' 1)}，并存入T油le的第1列T油le (1 :M，1); (2.4)利用動態(tài)規(guī)劃方法，依次掃描PSA (T)的第2到第M個局部模式特征向量LPV2?LPVm和PSA(曲的第2到第N個局部模式特征向量LPV' 2?LPV' W，基于加權(quán)歐氏距離計算 T油le(2:M, 2:腳的每個單元值； (2. 5)返回動態(tài)規(guī)劃表的第M行第N列單元值作為最終的度量結(jié)果，實現(xiàn)時間序列相似性度量。
2. 根據(jù)權(quán)利要求1所述一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法，其特征在于，所述步驟2. 4包括W下子步驟： (2. 4. 1)順序掃描LPV2?LPVm，對于第i個局部模式特征向量LPVi,依次計算其與 LPV' 2 ?LPV' N 之間的加權(quán)歐氏距離{dist (LPV。LPV' 2)，. . .，dist (LPV。LPV' N)}; (2.4.2)根據(jù)先行后列的順序掃描1'油16(2:1，2:腳，在每個單元1'油16(1，如中，首先比較化ble (i-1，_1.)、T油le (i，j-1)和T油le (i-1，j-1)的大小，選擇最小值記為min,然后計算 dist (LPV。LPV' j) +min 的值賦予 T油le (i, j)。
【文檔編號】G06F17/30GK104462217SQ201410626154
【公開日】2015年3月25日申請日期:2014年11月9日優(yōu)先權(quán)日:2014年11月9日
【發(fā)明者】蔡青林, 陳嶺, 孫建伶, 陳蕾英申請人:浙江大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔡青林;陳嶺;孫建伶;陳蕾英;
技術(shù)所有人：浙江大學(xué);
我是此專利的發(fā)明人

上一篇：一種測量隨機數(shù)據(jù)非指數(shù)性的熵方法
上一篇：快照回滾方法和存儲設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

時間序列相似性度量相關(guān)技術(shù)

相似性度量相關(guān)技術(shù)

圖像相似性度量相關(guān)技術(shù)

圖像相似性度量方法相關(guān)技術(shù)

相似性度量方法相關(guān)技術(shù)

向量相似性度量相關(guān)技術(shù)

矩陣相似性度量相關(guān)技術(shù)

直方圖相似性度量相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于分段統(tǒng)計近似表示的時間序列相似性度量方法