亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于張量的用戶軌跡挖掘方法

文檔序號:8528216閱讀:519來源:國知局
一種基于張量的用戶軌跡挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于移動互聯(lián)網(wǎng)信息技術(shù)領(lǐng)域,更具體地,涉及一種基于張量的用戶軌跡 挖掘方法。
【背景技術(shù)】
[0002] 基于用戶軌跡位置數(shù)據(jù)的研宄是當前移動互聯(lián)網(wǎng)的研宄熱點之一,軌跡是移動 對象(人或者車輛等物體)隨著時間變化在空間中移動所留下的印跡。隨著移動設備嵌 入式技術(shù)的飛速發(fā)展,GPS定位技術(shù)在移動設備上獲得了廣泛的應用。隨著基于位置服務 (Location Based Service,LBS)的普及,用戶可以通過各式各樣的平臺例如:Google+或者 Foursquare來隨時上傳與分享自己的軌跡數(shù)據(jù),大量的軌跡數(shù)據(jù)在日常生活中正在日益積 累并為不同類型的應用所服務。然而大多數(shù)的應用都是在使用GPS的原始數(shù)據(jù),例如GPS 點的位置經(jīng)煒度、GPS點的時間戳,而沒有過多去挖掘其中的信息。
[0003] 軌跡挖掘是數(shù)據(jù)挖掘的一個新興分支,其研宄熱點集中于軌跡聚類、軌跡分類、離 群點檢測、興趣區(qū)域、隱私保護、位置推薦等方面?,F(xiàn)有技術(shù)對用戶軌跡的挖掘主要是從位 置方面入手,研宄用戶的熱點興趣位置規(guī)律發(fā)現(xiàn)頻繁模式從而進行推薦;不足是位置僅僅 是軌跡的一部分,連接位置之間的移動路線也是屬于軌跡很重要的一部分。本發(fā)明嘗試從 軌跡數(shù)據(jù)挖掘角度入手,實現(xiàn)軌跡搜索、頻繁路徑挖掘等目標,對于軌跡挖掘的深入研宄有 著重要意義。

【發(fā)明內(nèi)容】

[0004] 大量的軌跡數(shù)據(jù)給數(shù)據(jù)管理和應用帶來許多挑戰(zhàn),主要是三個方面:數(shù)據(jù)規(guī)模、數(shù) 據(jù)稀疏性以及智能提取。為了處理軌跡數(shù)據(jù)的稀疏性,更有效的預處理軌跡大數(shù)據(jù)和更好 的計算,因此通過引入張量數(shù)據(jù)結(jié)構(gòu),對軌跡進行分割聚類,將用戶的出發(fā)點作為第一維度 的數(shù)據(jù),將用戶的目的地作為第二維度的數(shù)據(jù),將用戶軌跡過程對應的路段作為第三維度 的數(shù)據(jù),則可以構(gòu)建一個三維的張量來表示用戶的歷史軌跡數(shù)據(jù)。結(jié)合不同的張量計算,可 以實現(xiàn)軌跡搜索、軌跡頻繁模式挖掘等目標。張量被廣泛應用于如下領(lǐng)域:信號處理、數(shù)字 線性代數(shù)、數(shù)值分析、圖像分析、神經(jīng)系統(tǒng)科學、數(shù)據(jù)挖掘等等,同時也能用來存儲大數(shù)據(jù)以 及較好的應對數(shù)據(jù)的稀疏性。
[0005] 本發(fā)明的目的在于提供一種基于張量的用戶軌跡數(shù)據(jù)挖掘方法。該方法通過利用 張量數(shù)據(jù)結(jié)構(gòu)處理用戶軌跡數(shù)據(jù)以及基于各種權(quán)重的張量計算,能夠有效處理軌跡數(shù)據(jù)之 間的聚類與協(xié)同運算,從而實現(xiàn)軌跡搜索、軌跡頻繁模式挖掘等目標。
[0006] 本發(fā)明提供了一種基于張量的用戶軌跡數(shù)據(jù)挖掘方法,包括如下步驟:
[0007] (1)獲取用戶的歷史軌跡數(shù)據(jù);
[0008] (2)將歷史軌跡數(shù)據(jù)中時間差超過設定時間閾值的數(shù)據(jù)分割,形成多段連續(xù)的軌 跡數(shù)據(jù);
[0009] (3)針對每段連續(xù)的軌跡數(shù)據(jù),提取用戶在每段軌跡上的停留點;
[0010] ⑷針對步驟(3)獲得的一對對停留點,將有先后時間關(guān)聯(lián)關(guān)系的停留點劃分為 起始點和目的點,起始點和停留點之間是一串連續(xù)的GPS點,運用地圖匹配方法,將GPS點 對應到真實的道路交通網(wǎng)絡上從而匹配到對應的道路路段上,獲得對應的起始點和目的點 之間的關(guān)聯(lián)路段序列;
[0011] (5)將用戶的出發(fā)點作為第一維度的數(shù)據(jù),將用戶的目的點作為第二維度的數(shù)據(jù), 將用戶軌跡過程對應的路段作為第三維度的數(shù)據(jù),構(gòu)建一個三維的張量來表示用戶的歷史 軌跡數(shù)據(jù);
[0012](6)對于一個用戶查詢請求(QueryS, QueryD),對QueryS附近的起始點進行聚類, 按照與QueryS的距離不同賦予不同的權(quán)重向量,獲得關(guān)于起始點的權(quán)重向量V s;對QueryD 附近的起始點進行聚類,按照與QueryD的距離不同賦予不同的權(quán)重向量,獲得關(guān)于起始點 的權(quán)重向量V D;運用獲得的關(guān)于QueryS和QueryD的兩個權(quán)重向量對張量進行降維處理獲 得熱點路段權(quán)值集合;其中,QueryS表示用戶查詢的起始點,QueryD表示用戶查詢的目的 占.
[0013] (7)運用路線搜索方法檢索QueryS到QueryD之間的路段集合,選擇綜合熱點權(quán)值 最高的路段集合作為推薦路徑。
[0014] 本發(fā)明方法提供一種基于張量的用戶軌跡數(shù)據(jù)挖掘方法,能針對用戶經(jīng)過的歷史 路段挖掘熱度信息,并且計算出一條綜合的熱門路線。具體而言,本發(fā)明具有以下有益效 果:
[0015] (1)利用軌跡分割、停留點提取、地圖匹配等預處理工作將用戶的歷史軌跡數(shù)據(jù)有 效分割,整理,有效聚類形成對應的匹配路段集;
[0016] (2)將用戶的軌跡形成三維結(jié)構(gòu)的張量形式表達,有效的利用其相關(guān)性引入不同 的計算模式針對不同的應用場景;
[0017] (3)運用張量結(jié)構(gòu)有效對應處理數(shù)據(jù)的稀疏性,而對于軌跡位置信息這類"大數(shù) 據(jù)"的張量形式表達研宄也是目前的熱點之一;
[0018] (4)利用"起始點-目的點-關(guān)聯(lián)路段"三元關(guān)系構(gòu)建三維張量,通過張量的特性 與運算方法挖掘不同用戶之間的協(xié)同熱點路段,重組成推薦熱點路線。
【附圖說明】
[0019] 圖1是本發(fā)明基于張量的用戶軌跡數(shù)據(jù)挖掘方法流程圖;
[0020] 圖2(a)為對于給定的檢索請求找出相關(guān)路段的實例圖;
[0021] 圖2(b)為對于給定的檢索請求生成推薦路徑的實例圖。
【具體實施方式】
[0022] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實施方式中所涉及到的技術(shù)特征只要 彼此之間未構(gòu)成沖突就可以相互組合。
[0023] 如圖1所示,本發(fā)明基于張量的用戶軌跡數(shù)據(jù)挖掘方法包括以下幾個步驟:
[0024] (1)獲取用戶的歷史軌跡數(shù)據(jù)。軌跡是移動對象(人或者車輛等物體)隨著時間 變化在空間中移動所留下的印跡,用戶的歷史軌跡數(shù)據(jù)點P為如下格式(用戶ID、經(jīng)度、煒 度、時間),其數(shù)據(jù)結(jié)構(gòu)可以對應地表示為(P. id,P. lon,P. lat,P. t)。
[0025] (2)針對步驟(1)的歷史軌跡數(shù)據(jù),將歷史軌跡數(shù)據(jù)中時間差超過設定時間閾值 T(T是一個時間值用來分割兩段相隔時間比較長的軌跡,例如:4個小時)的數(shù)據(jù)分割,形成 多段連續(xù)的軌跡數(shù)據(jù)。軌跡數(shù)據(jù)的表達形式是
[0026] T 七-汗廠汗廣.Pn并且 0〈P i+1. t-Ppt〈 A T。
[0027] A T用來限制GPS軌跡點的采樣頻率,一般情況下采用的是高采樣頻率的GPS軌 跡數(shù)據(jù),高采樣頻率是指GPS設備以高頻率輸出定位坐標,低采樣頻率一般是指采樣間隔 大于2分鐘的軌跡數(shù)據(jù)。因此AT定義為2分鐘。
[0028] (3)針對步驟(2)提取的每段連續(xù)的軌跡數(shù)據(jù),提取用戶在每段軌跡上的停留點。
[0029] 停留點的定義是一個人在一個區(qū)域內(nèi)停留超過一個時間閾值Tth_ h()ld,則取區(qū)域 的中心點作為停留點。對于一條連續(xù)的GPS軌跡T= {Pi,P2,P3,…Pn},如果對于所有的 i (l〈i〈n),Distance (P" PJ〈D-并且 P n. t-P" t> = Tthreshold〇
[0030] Distance表示計算兩個GPS點之間的距離的函數(shù),上面的表述為對于任意的Pi, 第一個點?:與P ^勺距離不超過一個停留區(qū)域距離閾值D threstold(設置為實際距離200m)并 且最后一個軌跡點Pn的采樣時間P n. t與第一個GPS軌跡點的采樣時間Pp t超過一個停留 時間間隔閾值TthMsh()ld(設置為20分鐘),則我們?nèi)≤壽ET的中心點作為一個停留區(qū)域中心 點。
[0031] (4)通過步驟(3),獲得了一對對有時間先后關(guān)系的停留點,將有先后時間關(guān)聯(lián)關(guān) 系的停留點劃分為起始點和目的點,起始點和停留點之間是一串連續(xù)的GPS點,運用地圖 匹配方法,將GPS點對應到真實的道路交通網(wǎng)絡上,匹配到對應的道路路段上,獲得對應的 起始點和目的點之間的關(guān)聯(lián)路段序列(Source, Destination, Road segments
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1