亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

時(shí)間序列數(shù)據(jù)的周期挖掘方法

文檔序號(hào):8430861閱讀:1102來(lái)源:國(guó)知局
時(shí)間序列數(shù)據(jù)的周期挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種時(shí)間序列數(shù)據(jù)的周期挖掘方法,屬于計(jì)算機(jī)模式識(shí)別與數(shù)據(jù)挖掘技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002]隨著技術(shù)的發(fā)展,移動(dòng)的物體有很多種方式被監(jiān)測(cè)到,從而產(chǎn)生了大量移動(dòng)數(shù)據(jù)。我們可以通過(guò)定位系統(tǒng)獲取一個(gè)人的移動(dòng)數(shù)據(jù);動(dòng)物學(xué)家也可以通過(guò)定位系統(tǒng)來(lái)獲取野生動(dòng)物的數(shù)據(jù)以得到它們的移動(dòng)模式。而交通傳感器已經(jīng)被大量安裝在了各種道路上以及十字路口處,通常是監(jiān)測(cè)一小段時(shí)間里車(chē)的平均速度和交通流量,來(lái)產(chǎn)生大量需要分析的數(shù)據(jù)。
[0003]這里主要有兩類(lèi)移動(dòng)數(shù)據(jù):一個(gè)是個(gè)體的,一個(gè)是總和的。在個(gè)體數(shù)據(jù)或者說(shuō)是面向單個(gè)對(duì)象的交通數(shù)據(jù),我們可以分開(kāi)來(lái)分析出單個(gè)對(duì)象的某些模式,在總和數(shù)據(jù)中,個(gè)體特征不再能夠被偵測(cè),而集體特征則能夠被分析。
[0004]時(shí)間序列數(shù)據(jù)挖掘有很多不同應(yīng)用,比如道路交通數(shù)據(jù)挖掘,能夠幫助我們更好地管理城市的交通以及確定哪里需要修建新的道路,還能夠?qū)⒋罅繌?fù)雜的交通數(shù)據(jù)變成可以應(yīng)用的知識(shí),來(lái)讓人們選擇兩個(gè)地點(diǎn)之間最佳的出行路線。然而從原始數(shù)據(jù)中挖掘出這些信息面臨很多挑戰(zhàn):首先數(shù)據(jù)量很大,可能很短的時(shí)間間隔就收集兩次,并且受外部因素影響,數(shù)據(jù)含有很多噪聲,采集失敗導(dǎo)致部分?jǐn)?shù)據(jù)缺失;其次,除去數(shù)據(jù)部分的原因,真實(shí)世界里的數(shù)據(jù)的模式也很復(fù)雜,可能有多種模式,或者多種模式相互影響,導(dǎo)致很難給它們建模。
[0005]其中移動(dòng)物體數(shù)據(jù)模式挖掘中一種很重要經(jīng)常用到的模式就是周期,發(fā)現(xiàn)移動(dòng)物體周期性行為對(duì)總結(jié)了解和總結(jié)物體的移動(dòng)模式很重要,我們可以只存儲(chǔ)行為特征而不必存儲(chǔ)所有數(shù)據(jù),實(shí)際應(yīng)用中挖掘交通流量的周期存在兩個(gè)難點(diǎn):(I)某個(gè)模式不一定每次都在準(zhǔn)確一個(gè)點(diǎn)上重復(fù),可能是在鄰近時(shí)間點(diǎn)重復(fù);(2)這里可能有多個(gè)周期,周期與周期之間會(huì)相互覆蓋相互影響,使他們很難被挖掘出來(lái)。類(lèi)似地,諸如水文數(shù)據(jù)、地震觀測(cè)數(shù)據(jù)、氣候數(shù)據(jù)等的周期挖掘中同樣存在這樣的問(wèn)題。
[0006]現(xiàn)有時(shí)間序列數(shù)據(jù)周期挖掘的方法主要是傅里葉變換和自相關(guān)函數(shù)方法,這兩種方法都能很有效地對(duì)適量的均勻采樣的數(shù)據(jù)進(jìn)行周期提取,然而,對(duì)于處理采樣不均勻得到的不完整數(shù)據(jù),這兩種方法存在很大的局限性,并且當(dāng)數(shù)據(jù)量動(dòng)態(tài)增長(zhǎng)時(shí),增加了數(shù)據(jù)量,也大大增加了計(jì)算時(shí)間。

【發(fā)明內(nèi)容】

[0007]本發(fā)明所要解決的技術(shù)問(wèn)題在于克服現(xiàn)有技術(shù)不足,提供一種時(shí)間序列數(shù)據(jù)的周期挖掘方法,可有效解決觀測(cè)數(shù)據(jù)不均勻所帶來(lái)的周期確定不準(zhǔn)確的問(wèn)題,且算法簡(jiǎn)單,實(shí)時(shí)性更好。
[0008]本發(fā)明時(shí)間序列數(shù)據(jù)的周期挖掘方法,包括以下步驟: 步驟1、對(duì)原始時(shí)間序列數(shù)據(jù)進(jìn)行預(yù)處理,將其劃分為N個(gè)不同的等級(jí),每個(gè)數(shù)據(jù)賦予相應(yīng)的等級(jí)值,從而得到預(yù)處理后的時(shí)間序列,N為大于2的整數(shù);
步驟2、設(shè)定一系列不同的候選周期,并按照以下方法計(jì)算每一個(gè)候選周期的綜合指標(biāo):步驟2-1、按照該周期對(duì)預(yù)處理后的時(shí)間序列進(jìn)行劃分,并將所得到的各時(shí)間片進(jìn)行疊加,從而在該候選周期的疊加后時(shí)間片的每個(gè)時(shí)間戳上得到一個(gè)等級(jí)值集合;
步驟2-2、以每個(gè)時(shí)間戳所對(duì)應(yīng)的等級(jí)值集合中眾數(shù)所占的比例作為該時(shí)間戳的重疊度指標(biāo),并選出重疊度指標(biāo)大于預(yù)設(shè)重疊度閾值的時(shí)間戳作為有效時(shí)間戳;
步驟2-3、將具有相同眾數(shù)且連續(xù)的有效時(shí)間戳合并為密集域;對(duì)每個(gè)等級(jí)值,統(tǒng)計(jì)其在密集域中作為眾數(shù)出現(xiàn)的頻次與其在預(yù)處理后的時(shí)間序列中出現(xiàn)的總頻次之間的比值,并以N個(gè)等級(jí)值的比值之和或者N個(gè)等級(jí)值的比值均值作為該候選周期的綜合指標(biāo);
步驟3、從具有最大綜合指標(biāo)的候選周期中選出最小的候選周期作為原始時(shí)間序列數(shù)據(jù)的周期。
[0009]上述技術(shù)方案可用于離線或在線的周期挖掘,為了充分利用最新的流量數(shù)據(jù)對(duì)周期進(jìn)行實(shí)時(shí)更新,本發(fā)明進(jìn)一步提出了以下技術(shù)方案:
如上所述周期挖掘方法,還包括:
步驟4、當(dāng)新增數(shù)據(jù)的時(shí)間跨度達(dá)到步驟3所確定的周期時(shí),則按照以下方法計(jì)算新增數(shù)據(jù)的迎合度:按照步驟I的方法對(duì)新增數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理后的新增數(shù)據(jù)時(shí)間片;根據(jù)步驟3所確定周期的密集域位置,從預(yù)處理后的新增數(shù)據(jù)時(shí)間片中選出與步驟3所確定周期的密集域相對(duì)應(yīng)的時(shí)間戳,然后比較所選出的每個(gè)時(shí)間戳的等級(jí)值是否等于其所對(duì)應(yīng)的密集域的眾數(shù),如是,則迎合度加1,如否,則迎合度減I ;所選出的時(shí)間戳全部比較完成后即得到新增數(shù)據(jù)的迎合度;
步驟5、比較新增數(shù)據(jù)的迎合度是否大于預(yù)設(shè)迎合度閾值,如是,則轉(zhuǎn)至步驟4,繼續(xù)計(jì)算下一個(gè)周期新增數(shù)據(jù)的迎合度;如否,則從新增數(shù)據(jù)的最后位置開(kāi)始,向前截取一段預(yù)設(shè)長(zhǎng)度的數(shù)據(jù)作為新的原始時(shí)間序列數(shù)據(jù),轉(zhuǎn)至步驟I。
[0010]相比現(xiàn)有技術(shù),本發(fā)明及其進(jìn)一步改進(jìn)技術(shù)方案具有以下有益效果:
(1)解決觀測(cè)數(shù)據(jù)不均勻問(wèn)題:由于設(shè)備等客觀因素,往往會(huì)導(dǎo)致采集數(shù)據(jù)殘缺,存在噪聲,以往的方法均只對(duì)均勻采樣有效,而本發(fā)明使用概率分布的方法,可以很好解決這個(gè)問(wèn)題,同時(shí)算法更簡(jiǎn)單,實(shí)時(shí)性更好;
(2)數(shù)據(jù)隨著時(shí)間不斷增長(zhǎng),舊數(shù)據(jù)的作用可能沒(méi)有新數(shù)據(jù)強(qiáng),而不斷進(jìn)行周期計(jì)算,計(jì)算量較大,而本發(fā)明采用在線增量式更新方法則能很好地解決實(shí)時(shí)周期更新問(wèn)題。
【附圖說(shuō)明】
[0011]圖1是本發(fā)明一個(gè)優(yōu)選實(shí)施例的基本原理示意圖;
圖2是本發(fā)明優(yōu)選實(shí)施例具體實(shí)現(xiàn)算法的流程示意圖;
圖3是本發(fā)明優(yōu)選實(shí)施例中的車(chē)流量采樣數(shù)據(jù)時(shí)間序列圖;
圖4是本發(fā)明優(yōu)選實(shí)施例中車(chē)流量采樣數(shù)據(jù)分等級(jí)后的時(shí)間序列圖;
圖5是本發(fā)明優(yōu)選實(shí)施例中車(chē)流量候選周期綜合指數(shù)折線圖。
【具體實(shí)施方式】
[0012]下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說(shuō)明:
本發(fā)明針對(duì)現(xiàn)有技術(shù)在觀測(cè)數(shù)據(jù)不均勻的條件下難以獲得準(zhǔn)確周期的不足,提出了一種時(shí)間序列數(shù)據(jù)的周期挖掘方法,采用概率分布估計(jì)的方式進(jìn)行周期挖掘,可在觀測(cè)數(shù)據(jù)不均勻的條件下獲得準(zhǔn)確周期,且算法更簡(jiǎn)單,實(shí)時(shí)性更好;在此基礎(chǔ)上,本發(fā)明進(jìn)一步采用在線增量式更新方式解決實(shí)時(shí)周期更新問(wèn)題,使得在線周期更新所花費(fèi)的資源和時(shí)間更少。
[0013]下面以本發(fā)明方法在交通流量數(shù)據(jù)分析中的應(yīng)用為例進(jìn)行進(jìn)一步說(shuō)明。
[0014]本發(fā)明一個(gè)優(yōu)選實(shí)施例的基本原理如圖1所示,其具體包括以下步驟:
步驟1、對(duì)原始交通流量數(shù)據(jù)進(jìn)行預(yù)處理,將其劃分為N個(gè)不同的流量等級(jí),每個(gè)數(shù)據(jù)賦予相應(yīng)的流量等級(jí)值,從而得到預(yù)處理后的時(shí)間序列,N為大于2的整數(shù);經(jīng)實(shí)際驗(yàn)證發(fā)現(xiàn),對(duì)于交通流量數(shù)據(jù)的周期挖掘而言,N的較佳取值范圍為5?8 ;
步驟2、設(shè)定一系列不同的候選周期,并按照以下方法計(jì)算每一個(gè)候選周期的綜合指標(biāo):步驟2-1、按照該周期對(duì)所述時(shí)間序列進(jìn)行劃分,并將所得到的各時(shí)間片進(jìn)行疊加,從而在該候選周期的疊加后時(shí)間片的每個(gè)時(shí)間戳上得到一個(gè)流量等級(jí)值集合;
步驟2-2、以每個(gè)時(shí)間戳所對(duì)應(yīng)的流量等級(jí)值集合中眾數(shù)所占的比例作為該時(shí)間戳的重疊度指標(biāo),并選出重疊度指標(biāo)大于預(yù)設(shè)重疊度閾值的時(shí)間戳作為有效時(shí)間戳;
步驟2-3、將具有相同眾數(shù)且連續(xù)的有效時(shí)間戳合并為密集域;對(duì)每個(gè)流量等級(jí)值,統(tǒng)計(jì)其在密集域中作為眾數(shù)出現(xiàn)的頻次與其在預(yù)處理后的時(shí)間序列中出現(xiàn)的總頻次之間的比值,并以N個(gè)流量等級(jí)值的比值之和或者N個(gè)流量等級(jí)值的比值均值作為該候選周期的綜合指標(biāo);
步驟3、從具有最大綜合指標(biāo)的候選周期中選出最小的候選周期作為交通流量數(shù)據(jù)的周期;
步驟4、當(dāng)新增交通流量數(shù)據(jù)的時(shí)間跨度達(dá)到步驟3所確定的周期時(shí),則按照以下方法計(jì)算新增交通流量數(shù)據(jù)的迎合度:按照步驟I的方法對(duì)新增交通流量數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理后的新增交通流量數(shù)據(jù)時(shí)間片;根據(jù)步驟3所確定周期的密集域位置,從預(yù)處理后的新增交通流量數(shù)據(jù)時(shí)間片中選出與步驟3所確定周期的密集域相對(duì)應(yīng)的時(shí)間戳,然后比較所選出的每個(gè)時(shí)間戳的流量等級(jí)值是否等于其所對(duì)應(yīng)的密集域的眾數(shù),如是
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1