一種基于頻繁模式樹的車輛運動模式挖掘方法
【技術領域】
[0001] 本發(fā)明設及智能交通技術領域,具體設及一種基于頻繁模式樹的車輛運動模式挖 掘方法。
【背景技術】
[0002] 時下,"大數(shù)據(jù)"該個詞越來越熱,數(shù)據(jù)挖掘也越來越熱口。而在數(shù)據(jù)挖掘中,非常 重要的一步就是模式挖掘。模式挖掘,簡而言之,就是從一堆雜而無章的數(shù)據(jù)中提取出有規(guī) 律的特征。
[0003] 在智能交通領域,模式挖掘的一個典型例子就是對車輛的運動軌跡進行挖掘,提 取出車輛的頻繁運動軌跡。
[0004] Lee A J T, Qien Y A, Ip W C等人在"Mining frequent trajectoiy patterns in spatial-temporal dat 油 ases"(Info;rmation Sciences 179. 13(2009) :2218_2231)中提 出了一個將整個空間分成許多cell,然后將所有軌跡根據(jù)其所對應的空間cell轉(zhuǎn)換成節(jié) 點序列,然后基于該些節(jié)點序列進行頻繁模式挖掘。
[0005] Morzy M 也在"Mining frequent trajectories of moving objects for location prediction" (Machine Learning and Data Mining in Pattern Recognition. Springer Berlin Heide化erg, 2007:667-680)中提出了一種將空間分成許多celld的模式 挖掘方法。
[0006] Leonardi L Orlando S, Raffaetdi A, et al 等人在"Rrequent spatio-temporal patterns in trajectory data warehouses" (Proceedings of the 2009 ACM symposium on Applied Computing. ACM, 2009:1433-1440)中也提出了 一種將空間分成許多 base cell,然后將軌跡線段歸并到base cell進行分類挖掘的方法。
[0007] W上方法都需要事先對空間進行劃分,并且對劃分后的子空間進行編碼,然后將 原來的軌跡數(shù)據(jù)轉(zhuǎn)換成編碼后的數(shù)據(jù)來進行聚類W及模式挖掘,過程復雜,速度較慢。
【發(fā)明內(nèi)容】
[000引針對現(xiàn)有技術的不足,本發(fā)明提出了一種基于頻繁模式樹的車輛運動模式挖掘方 法,該運動模式挖掘方法不需要進行W上的劃分步驟,而是直接通過對軌跡線段進行聚類 并創(chuàng)建一顆頻繁模式樹來記錄挖掘到的頻繁模式,并且有不錯的效果。
[0009] 一種基于頻繁模式樹的車輛運動模式挖掘方法,包括如下步驟:
[0010] (1)對待進行模式挖掘的車輛的載客運行軌跡進行軌跡分離得到若干個子運行軌 跡;
[0011] (2)基于歐式距離對所有子運行軌跡進行線段聚類得到若干個聚類;
[0012] (3)計算任意兩個聚類之間的歐式距離,并根據(jù)所述的歐式距離確定各個聚類之 間的鄰近關系;
[0013] (4)根據(jù)各個聚類之間的鄰近關系構建得到頻繁模式樹,所述頻繁模式樹中的根 節(jié)點用于保存與該根節(jié)點相連的子節(jié)點的列表,其子節(jié)點與線段聚類得到的聚類一一對 應;所述頻繁模式樹中的每一個非根節(jié)點包含cluster和suppcxrt兩個屬性,cluster屬性 表示該節(jié)點對應的類,Suppod值表示從該節(jié)點到深度為1的節(jié)點的車輛運行軌跡的數(shù)量。
[0014] 根據(jù)所有聚類的鄰近關系構建頻繁模式樹時首先根據(jù)各個聚類之間的相鄰關系, 構建用于表示相鄰關系的有向連通關系,在連通圖中的節(jié)點表示聚類,邊表示相鄰的兩個 類之間的連接關系,且邊上的箭頭表示兩個類之間的位置關系。
[0015] 然后根據(jù)該有向連通圖,生成頻繁模式樹,來表示我們所得到的頻繁運動軌跡。其 中,頻繁運動軌跡根據(jù)各個聚類的鄰近關系,將相鄰的聚類拼接生成一個運動模式,將該運 動模式對應的聚類的代表線段按照相鄰關系連接即得到頻繁運動軌跡。
[0016] 需要注意的是,模式樹中的每一個深度大于1的節(jié)點到其深度為1的父節(jié)點的路 徑都是一條運動模式,而且所有的運動模式在該樹中都W該種形式存在。
[0017] 頻繁模式樹的根節(jié)點只用于保存與該根節(jié)點相連的子節(jié)點的列表,所有的子節(jié)點 與線段聚類一一對應。W深度為1的節(jié)點為根的子樹保存了 W該節(jié)點對應的線段聚類結尾 的所有頻繁運動軌跡。
[0018] 頻繁運動軌跡是指車輛通過頻率較高的路段軌跡,其反映的是車輛的運動規(guī)律和 運動習慣,即模式挖掘的結果。它也可W看成是一組歷史軌跡的共同子軌跡,但是直接比較 歷史軌跡去尋找共同子軌跡復雜度太高,因此我們采用從短的共同子軌跡延長到長的共同 子軌跡的方法。最短的共同子軌跡即為線段的聚類,其長度為1。長度為2的共同子軌跡可 W通過連接兩個線段聚類來獲得。兩個線段聚類連接成長度為2的共同子軌跡的條件是: 1)兩個類的地理位置相連;2)存在一定數(shù)量的歷史軌跡依次通過該兩個類所在的區(qū)域。通 過類似的過程可W將長度為N的共同子軌跡延伸成長度為化1的共同子軌跡,從而挖掘出 長的共同子軌跡,該些子軌跡就可W作為下一步預測的基礎。
[0019] 所述步驟(2)中通過如下步驟對所有子運行軌跡進行線段聚類:
[0020] (2-1)將各個子運行軌跡劃分為若干線段;
[0021] (2-2)針對當前子運行軌跡劃對應的任意一條線段,在其他子運行軌跡劃對應的 線段中確定與其距離最近的線段:
[0022] 若該兩條線段之間的距離小于預設的線段距離闊值,則將該兩條線段作為同一聚 類;
[0023] 否則,W該線段單獨作為一個聚類;
[0024] (2-3)針對任意兩個聚類,計算二者之間的距離,若距離小于預設的類距離闊值, 則將二者合并為一個聚類;
[00巧]否則,不處理;
[0026] (2-4)返回執(zhí)行步驟(2-3)直至聚類的數(shù)量不變時停止;
[0027] (2-5)統(tǒng)計每個聚類中的線段數(shù)量,舍棄線段數(shù)量小于預設的線段數(shù)量闊值的聚 類。
[002引該線段聚類方法僅利用歐式距離實現(xiàn),簡化了線段聚類過程,大大提高了聚類效 率。
[0029] 針對任意兩條線段Li與線段L j.,二者之間的距離d通過如下公式計算:
[0030] d二d丄+d| i+de
[003U且d||= Max(l111, 1||2),dg = I |L j| |*sin(白),
[00對其中,IlLj.ll為線段Lj斯長度,
[0033] Li,分別為過線段Lj的兩個端點到線段Li的長度,
[0034] Li,L2分別為線段Li的兩個端點到距離其最近的垂線的距離,所述的垂線包括 過線段Lj.的兩個端點到線段Li的兩條垂線,
[00對 0為線段Li與線段Lj.的夾角。
[0036] 通過本發(fā)明的方法計算任意兩條之間的距離,能夠有效提供聚類的準確性,有利 于提高了運動模式挖掘結果的準確性。
[0037] 實際應用時,線段距離闊值、類距離闊值W及線段數(shù)量闊值均可根據(jù)實際應用需 求設定。所述步驟(2-2)中的線段距離闊值為150m~300m。所述步驟(2-3)中的類距離 闊值為150m~300m。
[003引任意兩個聚類之間的距離通過如下方法計算:
[0039] 分別確定兩個聚類的代表線段,W二者對應的代表線段之間的距離作為二者之間 的距離。
[0040] 針對任意一個聚類通過如下方法確定該聚類的代表線段:
[0041] 分別計算該聚類