一種基于移動對象時空信息軌跡分段聚類的方法
【專利摘要】本發(fā)明公開了一種基于移動對象時空信息軌跡分段聚類的方法,該基于移動對象時空信息軌跡分段聚類的方法包括:引入時間、速度和方向三個屬性,并給出他們的相似度計算公式來分析移動對象軌跡內(nèi)外部結構;首先根據(jù)軌跡的空間密度將軌跡劃分成若干軌跡段,然后通過計算各軌跡段在空間、時間、速度和方向上的差異來判斷軌跡段的相似度,最后,基于第一次聚類結果,將非顯著簇中的軌跡段刪除或并入鄰近的顯著簇,使聚類空間形態(tài)體現(xiàn)出全局性的移動規(guī)律。本發(fā)明提高了聚類效果,具有更強的應用價值,采用空間四叉樹對軌跡段進行索引,在大規(guī)模軌跡數(shù)集環(huán)境下極大提升聚類效率,可對軌跡進行有效聚類。
【專利說明】一種基于移動對象時空信息軌跡分段聚類的方法【技術領域】
[0001]本發(fā)明屬于軌跡地理坐標值進行聚類【技術領域】,尤其涉及一種基于移動對象時空信息軌跡分段聚類的方法。
【背景技術】
[0002]時空軌跡是移動對象的位置和時間的記錄序列,包括了時間、位置、速度等基礎信息。隨著移動互聯(lián)網(wǎng)、定位系統(tǒng)等技術的快速發(fā)展,在交通、物流等應用領域,通過智能移動終端能夠及時收集大量的時空軌跡(Trajectory)數(shù)據(jù)。作為一種重要的時空對象數(shù)據(jù)類型和信息源,時空軌跡數(shù)據(jù)蘊含著豐富的知識,其應用范圍涵蓋了人類行為、交通物流、應急疏散管理、動物習性和市場營銷等諸多方面。聚類分析是對數(shù)據(jù)對象進行分組,使得同一組中對象之間具有較高的相似度,而不同組中的對象具有較低的相似度。軌跡聚類的目標是尋找那些具有相同運動模式的軌跡,通過對軌跡內(nèi)部運動模式和特征信息的分析,確定軌跡間的相似程度,然后將相似程度較高的軌跡歸為一類。通過對各種時空軌跡數(shù)據(jù)進行聚類分析,提取時空軌跡數(shù)據(jù)中的相似性與異常特征,有助于發(fā)現(xiàn)其中有意義的模式。
[0003]近年來,世界各國的研究人員提出了多種軌跡聚類方法,,如K-MEANS、BIRCH,DBSCAN、OPTICS、STING等[5]。KREVELD等[6]首次將軌跡的時間依賴關系引入到形狀依賴的軌跡分析中,KNORR等將軌跡的起始位置、方向等要素引入軌跡間的相似度計算。張延玲等通過軌跡聚類得到運動模式,Ping等提出了路網(wǎng)空間下基于密度的軌跡聚類方法,該方法首先根據(jù)移動對象經(jīng)過的道路計算出繁忙路徑,然后根據(jù)用戶設置的密度參數(shù)對子軌跡進行聚類。Sang等提出首先計算重疊路段長度的相似度,然后進行聚類。Ying等提出了在路網(wǎng)約束下綜合考慮時間和空間約束的軌跡相似性度量方法,并應用于軌跡聚類。這些方法大多是基于整條軌跡 采樣點空間信息進行聚類,沒有全面考慮軌跡的局部特征和移動屬性,難以匹配路徑較長或較復雜的軌跡。
[0004]目前直接以軌跡地理坐標值進行聚類,導致聚類效果降低。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實施例的目的在于提供一種基于移動對象時空信息軌跡分段聚類的方法,旨在解決目前直接以軌跡地理坐標值進行聚類,導致聚類效果降低的問題。
[0006]本發(fā)明實施例是這樣實現(xiàn)的,一種基于移動對象時空信息軌跡分段聚類的方法,該基于移動對象時空信息軌跡分段聚類的方法包括以下步驟:
[0007]第一步,軌跡和軌跡段:
[0008]定義I軌跡:三維空間中的有序點集稱為軌跡,軌跡TRi定義=TRi=IPliP2,...,pk},其中Pk= {xk, yk,tk},分別代表該點的二維空間坐標和采用時間,不同軌跡長度可能不一樣;
[0009]定義2軌跡段:為TRi內(nèi)連續(xù)的部分三維點集,如:SubTrajectorys= {p1;..., pk}(I ^ s ^ k), k為該軌跡段所屬軌跡的采樣點總數(shù);[0010]第二步,Hausdorff距離:給定兩個軌跡段P和Q,使用HausdorfT距離進行相似性測量:
【權利要求】
1.一種基于移動對象時空信息軌跡分段聚類的方法,其特征在于,該基于移動對象時空信息軌跡分段聚類的方法包括以下步驟: 第一步,軌跡和軌跡段: 定義I軌跡:三維空間中的有序點集稱為軌跡,軌跡TRi定義=TRi = {Pl, P2, , PkI,其中pk={xk,yk,tk},分別代表該點的二維空間坐標和采用時間; 定義2軌跡段:為TRi內(nèi)連續(xù)的部分三維點集,如:SubTrajectorys= (P1,..., pk}(I ^ s ^ k), k為該軌跡段所屬軌跡的采樣點總數(shù); 第二步,Hausdorff距離:給定兩個軌跡段P和Q,使用HausdorfT距離進行相似性測量:
Zi(P5Q)-max{h(P,Q),h(Q,P)}
-Zr(P5Q) = maxmin{i/(p,g)}
peP qeQ κ
Α(Ρ, Q) = max min{d(p, q)} Vp龜P q^Q 其中,d(p, q)為點p和q之間某個屬性上的距離公式,Hausdorff距離用以量度軌跡段之間的空間和時間差異度; 第三步,軌跡段速度:` 通過如下公式得到每個采樣點速度:
distance^ ,p) + distance^/?+ ) ' =-_~T~rt-
P+ P- 其中,P-為P點之前的相鄰采樣點,P+為P點之后的相鄰采樣點,V和&分別代表P-和P+的米樣時間; 第四步,軌跡段方向 軌跡段的總體移動方向之間方向差別,運動方向角?廠,其中,(Xs, ys)軌跡段起點,(Xyye)為軌跡段終點; 第五步,軌跡段鄰域:
定義 3 軌跡段 Li 的 ξ 鄰域 Nx(Li) =Nx(Li) = ILi 危 DlcKLi, Lj) 1}; 其中,D為所有軌跡段數(shù)據(jù)集合,軌跡段領域用以在DBSCAN軌跡密度聚類中,判斷每個軌跡段的當前空間密度,進而將空間密度較大的軌跡段聚為同一組; 第六步,軌跡分割;通過采樣點在某個時間段內(nèi)的速度變化來分割軌跡; 定義4斷點:假設存在一軌跡段,位于軌跡段上的任何兩點之間的距離不超過閾值ε,并且這段子軌跡的采樣點數(shù)s大于閾值Ε,則將這段子軌跡中的第[s / 2]個點設置為斷點,同時將位于段子軌跡上其余的點刪除;如果一條軌跡上有t個斷點,則軌跡被分割為t+Ι個軌跡段; 第七步,軌跡段相似性比較:軌跡段之間的相似性通過軌跡段之間的差異度獲取,包括:空間差異度、時間差異度、方向差異度和速度差異度; 第八步,VOC-TC算法:對軌跡進行分割后,再利用DBSCAN密度算法,采用距離公式,對軌跡段進行聚類,設聚類簇C中包含的軌跡數(shù)目為簇基數(shù)η?,簇基數(shù)nb與聚類中軌跡段數(shù)目η。之比為簇顯著度Is,給定閾值τ和Y,進行如下定義:定義5顯著簇:Csig= {C|C吻O η?Η?ηΜ g},其中,O為第一次聚類的結果集,即簇基數(shù)nb高于τ且簇顯著度ns高于Y聚類稱為顯著簇; 定義6非顯著簇:Cmsig= {C| C吻O C 口 Osig},其中,Osig為顯著簇集合,即顯著簇之外的聚類都為非顯著簇; 進行第二次聚類,將第一次聚類中非顯著簇刪除,同時將該其中包含的軌跡段歸并到離最距離小于閾值μ且包含同一條軌跡的聚類中,最終獲取那些能反映主題變化的顯著簇,非顯著簇的軌跡段歸并到其他簇不會改變這些簇中的軌跡數(shù)量。
2.如權利要求1所述的基于移動對象時空信息軌跡分段聚類的方法,其特征在于,在第三步中,進行Hausdorff距離進行相似性測量的計算公式利用移動對象在三個連續(xù)采用點的平均速度作為當前點的速度,軌跡段的速度通過該軌跡段中的最小速度、最大速度和平均速度來衡量:
3.如權利要求1所述的基于移動對象時空信息軌跡分段聚類的方法,其特征在于,在第七步中,空間差異度與時間差異度采用Hausdorff距離計算得到,方向差異度和速度差異度直接采用屬性差值絕對值表示即可;結合得到一個統(tǒng)一的表達軌跡段相似性公式:
subDis = Ws ^1J spatialDis+wt tempoDis+wjJ OrientDis+wv velocityDis,
1=1.ws+wt+w0+wv=l 其中,spatialDis、tempoDis、OrientDi和seolocityDis分別為軌跡段之間的空間差異度、時間差異度、方向差異度和速度差異度,軌跡段相似性公式為:
subSIM = 1-tanh (subDis) 其中,tanh(subDis)為三角函數(shù)歸一化公式。
4.如權利要求1所述的基于移動對象時空信息軌跡分段聚類的方法,其特征在于,在第八步中,從不同的聚類開始進行順序顯著簇的判斷和軌跡段歸并,最終會得到相同的聚類形態(tài),計算每個軌跡段鄰域的時間復雜度為0(n2),采用四叉樹空間索引,將時間復雜度降為 O(nlogn) ο
【文檔編號】G06F17/30GK103593430SQ201310553219
【公開日】2014年2月19日 申請日期:2013年11月11日 優(yōu)先權日:2013年11月11日
【發(fā)明者】胡寶清, 段煉, 覃開賢 申請人:胡寶清