基于密度聚類的自適應(yīng)軌跡預(yù)測方法
【專利摘要】本發(fā)明公開了基于密度聚類的自適應(yīng)軌跡預(yù)測方法,包括軌跡建模階段和軌跡更新階段,軌跡建模階段通過對新產(chǎn)生的移動報告進行柵格化處理得到移動點并劃分為6個移動點子集,采用基于限定區(qū)域數(shù)據(jù)抽樣的密度聚類算法對6個移動點子集聚類形成新軌跡簇,根據(jù)軌跡點的相似度將相同時間段內(nèi)的新舊軌跡簇合并,更新合并后的軌跡簇的軌跡點以及影響區(qū)域,將這些軌跡點按照時間順序組合便得到完整的用戶移動軌跡,軌跡更新階段對于軌跡建模階段產(chǎn)生的用戶移動軌跡進行修正。本發(fā)明基于密度聚類的自適應(yīng)軌跡預(yù)測方法,能夠應(yīng)用于移動通信場景下的用戶移動軌跡預(yù)測,并且當新的用戶移動軌跡到來時不需要對全部軌跡數(shù)據(jù)進行重新建模。
【專利說明】基于密度聚類的自適應(yīng)軌跡預(yù)測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機科學(xué)與技術(shù)的數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】,涉及一種基于密度聚類的自 適應(yīng)軌跡預(yù)測方法。
【背景技術(shù)】
[0002] 隨著移動便攜設(shè)備的廣泛普及、無線通信技術(shù)和全球定位技術(shù)的快速發(fā)展,使得 人們已經(jīng)能夠獲得大量的用戶實時位置數(shù)據(jù),如利用車載GPS導(dǎo)航系統(tǒng)可以實時地獲得汽 車當前的地理位置以及行駛方向等信息;對于攜帶移動設(shè)備的用戶,通過基站定位的方式 能大概估計出用戶的活動區(qū)域。將獲得的位置信息在連續(xù)時間點上"串聯(lián)"起來就形成了 某個用戶在一段時間內(nèi)的移動軌跡。大量的用戶位置數(shù)據(jù)和移動軌跡背后蘊藏著豐富的空 間結(jié)構(gòu)信息和用戶的行為規(guī)律,通過對這些信息的分析與挖掘,可以為用戶提供多種增值 服務(wù)和工具,如智能交通中的電子地圖和路徑誘導(dǎo)服務(wù)、社交網(wǎng)絡(luò)中的好友推薦以及個性 化服務(wù)等。
[0003] 近年來,移動網(wǎng)絡(luò)中基于位置信息的服務(wù)也越來越受到國內(nèi)外研究學(xué)者的關(guān)注, 軌跡預(yù)測技術(shù)是其中最受關(guān)注的熱點問題之一。在用戶移動軌跡預(yù)測的研究中,基于位置 的行為分析取得了比較好的研究成果。Gonzalez等人通過分析10萬個移動用戶的移動軌 跡數(shù)據(jù),發(fā)現(xiàn)人們的軌跡在時空上呈現(xiàn)出一定的規(guī)律性,Blumm等人利用三個月100萬手 機用戶的話單數(shù)據(jù),通過度量每個用戶軌跡熵值的方法,論證得出了任何對于人類行為模 式進行預(yù)測的準確率不會超過93%的結(jié)論,這些工作證明了用戶移動軌跡的規(guī)律性和可預(yù) 測性。研究學(xué)者將數(shù)據(jù)挖掘方法應(yīng)用到用戶軌跡預(yù)測問題的研究中,提出了 一系列的算法 和技術(shù),這些方法利用不同的相似度度量函數(shù)將用戶軌跡數(shù)據(jù)進行聚類分析,進而得出用 戶的行為模式。Cadez和Gaffney等人通過建立軌跡的多元混合模型來對用戶軌跡的所屬 模式進行概率估計,并利用EM算法來估計混合模型的參數(shù),該算法可以獲得用戶全局的行 為模式,但不能方便地獲得用戶局部的軌跡模式。Han J W等人首次提出用戶"區(qū)域軌跡" 的發(fā)現(xiàn)問題,區(qū)域軌跡在一定程度上反映了用戶特定的興趣,為了分析用戶的區(qū)域軌跡,利 用劃分-聚類的思想提出了 TRACLUS算法,該算法主要包含兩個階段:在劃分階段,算法首 先將用戶一次完整的移動軌跡劃分為多個子軌跡序列,在聚類階段使用基于密度的聚類方 法將相似子軌跡進行合并,進而獲得用戶行為的"區(qū)域模式"。隨后,再將"區(qū)域模式"和劃 分-聚類的思想應(yīng)用于解決軌跡分類和異常軌跡檢測的問題,提出了 TraClass軌跡特征識 別框架和TRA0D軌跡異常點檢測算法。Agrawal在以上研究的基礎(chǔ)上提出了對位置數(shù)據(jù)進 行增量式聚類分析的算法框架TCMM,該框架包含微聚類和再聚類兩個階段,微聚類階段算 法根據(jù)特定的相似度度量方法和相似度閾值對新的軌跡數(shù)據(jù)和已存在的軌跡簇進行聚類, 再聚類階段對上一階段產(chǎn)生的微簇進行重新合并聚類,再聚類操作在算法執(zhí)行中不是必須 的,只有在用戶需要查詢當前的軌跡聚類結(jié)果時進行。
[0004] 上述方法的實施大都依賴完整、連續(xù)、靜態(tài)的用戶軌跡數(shù)據(jù),而移動通信數(shù)據(jù)具有 數(shù)據(jù)量龐大、信息分布離散、數(shù)據(jù)格式復(fù)雜等特點,現(xiàn)有的針對連續(xù)軌跡數(shù)據(jù)的研究方法難 以直接應(yīng)用到移動通信場景中,并且當有新的用戶移動軌跡數(shù)據(jù)到來時,需要對全部軌跡 數(shù)據(jù)進行重新建模,導(dǎo)致算法效率低。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是提供一種基于密度聚類的自適應(yīng)軌跡預(yù)測方法,能夠應(yīng)用于移動 通信場景下的用戶移動軌跡預(yù)測,并且當新的用戶移動軌跡到來時不需要對全部軌跡數(shù)據(jù) 進行重新建模。
[0006] 本發(fā)明所采用的技術(shù)方案是,基于密度聚類的自適應(yīng)軌跡預(yù)測方法,包括軌跡建 模階段和軌跡更新階段,軌跡建模階段具體按照以下步驟實施:
[0007] 步驟1,采集用戶第i天的移動報告%,其中,i>0 ;
[0008] 步驟2,采用基于倒排索引的MR定位算法對移動報告%進行轉(zhuǎn)化,得到用戶一天 的移動點集Si ;
[0009] 步驟 3,將移動點集 Si 按照時間段 0am-6am、6am-9am、9am-12am、12am_14pm、 14pm-18pm、18pm-24pm劃分為六個移動點子集;
[0010] 步驟4,采用基于限定區(qū)域數(shù)據(jù)抽樣的密度聚類算法密度聚類算法分別對六個移 動點子集中的移動點進行聚類,得到包含有六個軌跡簇子集的軌跡簇集合;
[0011] 步驟5,計算軌跡簇集合Ti中每一個軌跡簇的軌跡點及其軌跡點的影響區(qū)域;
[0012] 步驟6,計算軌跡簇集合1\中每一個軌跡點的預(yù)測概率,并且將每一個軌跡點按照 時間順序組合得到用戶軌跡預(yù)測模型TMi;
[0013] 步驟7,對用戶i+1天的移動報告Mi+1執(zhí)行步驟1?步驟4,得到軌跡簇集合T i+1, 其中,i+1彡7 ;
[0014] 步驟8,按照步驟3中的時間段順序依次計算在相同的時間段內(nèi)軌跡簇集合凡中 的每一個軌跡簇與軌跡簇集合T i+1中所有軌跡簇之間的相似度值,如果計算出來的相似度 值不小于第一軌跡點相似度閾值,則將兩個軌跡簇合并至軌跡簇集合中,并且將軌跡簇 集合T i+1中已經(jīng)被合并的軌跡簇刪除,執(zhí)行步驟9 ;如果計算出來的相似度值小于相似度閾 值,則不將兩個軌跡簇合并;
[0015] 步驟9,判斷合并操作后的軌跡簇集合1\中是否存在無效軌跡簇,如果合并操作后 的軌跡簇集合中存在無效軌跡簇,則將合并操作后的軌跡簇集合中的無效軌跡簇刪 除,執(zhí)行步驟10 ;如果合并操作后的軌跡簇集合1\中不存在無效軌跡簇,則將軌跡簇集合 Ti+1中未進行合并操作的軌跡簇加入合并操作后的軌跡簇集合中,并計算加入操作之后 的軌跡簇集合中每一個軌跡簇的軌跡點及其軌跡點的影響區(qū)域,以及每一個軌跡點的預(yù)測 概率,并且將軌跡簇集合中的軌跡點按照時間順序組合得到用戶軌跡預(yù)測模型TM i+1 ;
[0016] 步驟10,將軌跡簇集合Ti+1中未進行合并操作的軌跡簇加入刪除了無效軌跡簇的 軌跡簇集合中,得到軌跡簇集合判斷軌跡簇集合^中是否存在無效軌跡簇,如果軌跡 簇集合h中存在無效軌跡簇,則將軌跡簇集合&中無效軌跡簇刪除,執(zhí)行步驟11 ;如果軌 跡簇集合1^中不存在無效軌跡簇,則計算軌跡簇集合中每一個軌跡簇的軌跡點及其軌跡 點的影響區(qū)域,以及每一個軌跡點的預(yù)測概率,并且將軌跡簇集合h中的軌跡點按照時間 順序組合得到用戶軌跡預(yù)測模型TM i+1 ;
[0017]步驟11,計算刪除了無效軌跡簇的軌跡簇集合&中的每一個軌跡簇的軌跡點及其 軌跡點的影響區(qū)域,以及每一個軌跡點的預(yù)測概率,并且將軌跡簇集合ti中的軌跡點按照 時間順序組合得到用戶軌跡預(yù)測模型TMi+1 ;
[0018] 步驟12,對于用戶i+n天的移動報告執(zhí)行步驟7?步驟11,得到用戶軌跡預(yù)測模 型 TMi+n ;
[0019] 軌跡更新階段具體按照以下步驟實施:
[0020] 步驟13,依次計算用戶軌跡預(yù)測模型TMi+n中各時間段內(nèi)任意一個軌跡點與其他 所有軌跡點之間的相似度值,如果兩個軌跡點的相似度值不小于第二軌跡點相似度閾值, 則將軌跡簇集合t i+n中兩個軌跡點對應(yīng)的軌跡簇合并,并且使合并的兩個軌跡簇的軌跡點 保留次數(shù)均增長1,執(zhí)行步驟14 ;如果兩個軌跡點的相似度值小于第二軌跡點相似度閾值, 則將兩個軌跡點的保留次數(shù)均增長1,執(zhí)行步驟14 ;
[0021] 步驟14,采用縮減因子0對軌跡簇集合ti+n中所有軌跡簇的大小進行縮減,并依 次計算縮減后的軌跡簇集合t i+n中每一個軌跡點的柵格坐標及其影響區(qū)域,計算縮減后的 軌跡簇集合ti+n中各個時間段內(nèi)的每一個軌跡點的預(yù)測概率,并將軌跡點按照時間順序組 合得到用戶移動軌跡預(yù)測模型TM' i+n。
[0022] 本發(fā)明的特點還在于,
[0023] 步驟9具體按照以下步驟實施:
[0024] 步驟9. 1,計算合并操作后的軌跡簇集合1\中每一個時間段內(nèi)的軌跡點個數(shù),如果 某個時間段內(nèi)軌跡簇中的軌跡點個數(shù)不小于軌跡點刪除閾值,則執(zhí)行步驟9. 2 ;如果某個 時間段內(nèi)軌跡簇中的軌跡點個數(shù)小于軌跡點刪除閾值,則將軌跡簇集合Ti+1中未進行合并 操作的軌跡簇加入合并操作完成之后的軌跡簇集合中,并計算加入操作之后的軌跡簇集 合中每一個軌跡簇的軌跡點及其軌跡點的影響區(qū)域,以及每一個軌跡點的預(yù)測概率,并且 將軌跡簇集合中的軌跡點按照時間順序組合得到用戶軌跡預(yù)測模型TM i+1 ;
[0025] 步驟9. 2,依次計算合并操作后的軌跡簇集合中每一個軌跡點的預(yù)測概率,將預(yù) 測概率小于軌跡點預(yù)測概率下限閾值且保留次數(shù)大于軌跡點保留次數(shù)的軌跡點及其相應(yīng) 的軌跡簇刪除。
[0026] 步驟5、步驟10、步驟11和步驟14中的軌跡點是指軌跡簇中全部移動點位置坐標 的加權(quán)平均點,軌跡點的影響區(qū)域是以軌跡點為中心的圓形區(qū)域;軌跡點及其影響區(qū)域用 0grid_x, grid_y, m, k表示,其中g(shù)rid_x, grid_y為軌跡點所在的柵格坐標,由以下方法計 算得出,
[0027]
【權(quán)利要求】
1.基于密度聚類的自適應(yīng)軌跡預(yù)測方法,其特征在于,包括軌跡建模階段和軌跡更新 階段,所述軌跡建模階段具體按照以下步驟實施: 步驟1,采集用戶第i天的移動報告Mi,其中,i > 0 ; 步驟2,采用基于倒排索引的MR定位算法對移動報告%進行轉(zhuǎn)化,得到用戶一天的移 動點集Si ; 步驟 3,將移動點集 Si 按照時間段 0am-6am、6am-9am、9am-12am、12am-14pm、 14pm-18pm、18pm-24pm劃分為六個移動點子集; 步驟4,采用基于限定區(qū)域數(shù)據(jù)抽樣的密度聚類算法分別對六個移動點子集中的移動 點進行聚類,得到包含有六個軌跡簇子集的軌跡簇集合凡; 步驟5,計算軌跡簇集合?\中每一個軌跡簇的軌跡點及其軌跡點的影響區(qū)域; 步驟6,計算軌跡簇集合1\中每一個軌跡點的預(yù)測概率,并且將每一個軌跡點按照時間 順序組合得到用戶軌跡預(yù)測模型TMi ; 步驟7,對用戶i+1天的移動報告Mi+1執(zhí)行步驟1?步驟4,得到軌跡簇集合Ti+1,其中 i+Ι 彡 7 ; 步驟8,按照步驟3中的時間段順序依次計算在相同的時間段內(nèi)軌跡簇集合?\中的每 一個軌跡簇與軌跡簇集合Ti+1中所有軌跡簇之間的相似度值,如果計算出來的相似度值不 小于第一軌跡點相似度閾值,則將兩個軌跡簇合并至軌跡簇集合?\中,并且將軌跡簇集合 Ti+1中已經(jīng)被合并的軌跡簇刪除,執(zhí)行步驟9 ;如果計算出來的相似度值小于相似度閾值, 則不將兩個軌跡簇合并; 步驟9,判斷合并操作后的軌跡簇集合1\中是否存在無效軌跡簇,如果合并操作后的軌 跡簇集合1\中存在無效軌跡簇,則將合并操作后的軌跡簇集合?\中的無效軌跡簇刪除,執(zhí) 行步驟10 ; 如果合并操作后的軌跡簇集合1\中不存在無效軌跡簇,則將軌跡簇集合Ti+1中未進行 合并操作的軌跡簇加入合并操作后的軌跡簇集合?\中,并計算加入操作之后的軌跡簇集合 中每一個軌跡簇的軌跡點及其軌跡點的影響區(qū)域,以及每一個軌跡點的預(yù)測概率,并且將 軌跡簇集合中的軌跡點按照時間順序組合得到用戶軌跡預(yù)測模型TM i+1 ; 步驟10,將軌跡簇集合Ti+1中未進行合并操作的軌跡簇加入刪除了無效軌跡簇的軌跡 簇集合?\中,得到軌跡簇集合判斷軌跡簇集合^中是否存在無效軌跡簇,如果軌跡簇集 合h中存在無效軌跡簇,則將軌跡簇集合&中無效軌跡簇刪除,執(zhí)行步驟11 ; 如果軌跡簇集合1^中不存在無效軌跡簇,則計算軌跡簇集合ti中每一個軌跡簇的軌跡 點及其軌跡點的影響區(qū)域,以及每一個軌跡點的預(yù)測概率,并且將軌跡簇集合ti中的軌跡 點按照時間順序組合得到用戶軌跡預(yù)測模型TM i+1 ; 步驟11,計算刪除了無效軌跡簇的軌跡簇集合ti中的每一個軌跡簇的軌跡點及其軌跡 點的影響區(qū)域,以及每一個軌跡點的預(yù)測概率,并且將軌跡簇集合ti中的軌跡點按照時間 順序組合得到用戶軌跡預(yù)測模型TMi+1 ; 步驟12,對于用戶i+n天的移動報告執(zhí)行步驟7?步驟11,得到用戶軌跡預(yù)測模型 TMi+n ; 所述軌跡更新階段具體按照以下步驟實施: 步驟13,依次計算用戶軌跡預(yù)測模型TMi+n中各時間段內(nèi)任意一個軌跡點與其他所有 軌跡點之間的相似度值,如果兩個軌跡點的相似度值不小于第二軌跡點相似度閾值,則將 軌跡簇集合ti+n中兩個軌跡點對應(yīng)的軌跡簇合并,并且使合并的兩個軌跡簇的軌跡點保留 次數(shù)均增長1,執(zhí)行步驟14 ;如果兩個軌跡點的相似度值小于第二軌跡點相似度閾值,則將 兩個軌跡點的保留次數(shù)均增長1,執(zhí)行步驟14 ; 步驟14,采用縮減因子β對軌跡簇集合ti+n中所有軌跡簇的大小進行縮減,并依次計 算縮減后的軌跡簇集合ti+n中每一個軌跡點的柵格坐標及其影響區(qū)域,計算縮減后的軌跡 簇集合ti+n中各個時間段內(nèi)的每一個軌跡點的預(yù)測概率,并將軌跡點按照時間順序組合得 到用戶移動軌跡預(yù)測模型TM' i+n。
2. 根據(jù)權(quán)利要求1所述的一種基于密度聚類的自適應(yīng)軌跡預(yù)測方法,其特征在于,所 述步驟9具體按照以下步驟實施: 步驟9. 1,計算合并操作后的軌跡簇集合1\中每一個時間段內(nèi)的軌跡點個數(shù),如果某個 時間段內(nèi)軌跡簇中的軌跡點個數(shù)不小于軌跡點刪除閾值,則執(zhí)行步驟9. 2 ;如果某個時間 段內(nèi)軌跡簇中的軌跡點個數(shù)小于軌跡點刪除閾值,則將軌跡簇集合Ti+Ι中未進行合并操 作的軌跡簇加入合并操作后的軌跡簇集合?\中,并計算加入操作之后的軌跡簇集合中每一 個軌跡簇的軌跡點及其軌跡點的影響區(qū)域,以及每一個軌跡點的預(yù)測概率,并且將軌跡簇 集合中的軌跡點按照時間順序組合得到用戶軌跡預(yù)測模型TM i+1 ; 步驟9. 2,依次計算合并操作后的軌跡簇集合?\中每一個軌跡點的預(yù)測概率,將預(yù)測概 率小于軌跡點預(yù)測概率下限閾值且保留次數(shù)大于軌跡點保留次數(shù)的軌跡點及其相應(yīng)的軌 跡簇刪除。
3. 根據(jù)權(quán)利要求1所述的一種基于密度聚類的自適應(yīng)軌跡預(yù)測方法,其特征在于,步 驟5、步驟10、步驟11和步驟14中的所述軌跡點是指軌跡簇中全部移動點位置坐標的加權(quán) 平均點,軌跡點的影響區(qū)域是以軌跡點為中心的圓形區(qū)域;軌跡點及其影響區(qū)域用〇grid_ X,grid_y,m, k表示,其中g(shù)rid_x, grid_y為軌跡點所在的柵格坐標,由以下方法計算得出, grid _.x = T^grid _x, x grid _ y = ^grid _ x r=l 1-=1 ( 1 ()) 其中 <grid_xk,grid_yk,mk> (1 彡 k 彡 n) e Cmov ; m為軌跡點所代表的移動報告數(shù),其值為軌跡簇中全部移動點所包含移動報告數(shù)目的 總和,k為軌跡點的影響半徑,由以下方法計算得出, η r-1 η η /c =. I/Η,. x 化,;,m丨腿 < I< Wma' ;〇 < 化,< 1 r=l r=l η L 廣1 (11) 其中,mmax,mmin分別為移動報告數(shù)目的上限閾值和下限閾值,mmax,m min的值分別為1000, 100, kmax,kmin分別為軌跡點影響范圍的上限閾值和下限閾值,kmax,k min的值分別為250,25。
4. 根據(jù)權(quán)利要求1所述的一種基于密度聚類的自適應(yīng)軌跡預(yù)測方法,其特征在于,所 述步驟6、步驟10、步驟11和步驟14中軌跡點的預(yù)測概率按照以下公式計算: (1 </</?) (12) Μ 其中,m代表該軌跡點所在柵格內(nèi)包含的移動報告數(shù)目。
5. 根據(jù)權(quán)利要求1所述的基于密度聚類的自適應(yīng)軌跡預(yù)測方法,其特征在于,所述步 驟8和步驟13中兩個軌跡簇之間的相似度值按照以下公式計算: S㈣ 0'M =々丨+W((以)><利.''丨-).:)4 (13) mir^/cp/cjx 2 其中,sirn^i,02)代表兩個軌跡點和02之間的相似度值; Xi,X2分別為軌跡點和軌跡點〇2所在柵格的行號; yi,y2分別為軌跡點和軌跡點〇2所在柵格的列號; kp k2分別為軌跡點和軌跡點02所在柵格包含的移動報告數(shù)目; α為柵格邊長,大小為30mX30m。
6. 根據(jù)權(quán)利要求1所述的基于密度聚類的自適應(yīng)軌跡預(yù)測方法,其特征在于,步驟14 中采用縮減因子對β對軌跡簇集合ti+n中所有軌跡簇的大小進行縮減,按照以下公式計 算: m' = m* β (4) 其中,m為縮減前的軌跡簇中所包含的移動報告的數(shù)目; m'為縮減后的軌跡簇中所包含的移動報告的數(shù)目。
7. 根據(jù)權(quán)利要求1所述的基于密度聚類的自適應(yīng)軌跡預(yù)測方法,其特征在于,所述步 驟9和步驟10中的無效軌跡簇是指軌跡簇的軌跡點的預(yù)測概率小于軌跡點預(yù)測概率下限 閾值且保留次數(shù)大于軌跡點保留次數(shù)閾值的軌跡點。
8. 根據(jù)權(quán)利要求1至7中任一項所述的基于密度聚類的自適應(yīng)軌跡預(yù)測方法,其特征 在于,所述軌跡點保留次數(shù)閾值取值為3 ;所述軌跡簇的縮減因子β取值為0. 8 ;所述軌跡 點預(yù)測概率的下限閾值取值為〇. 1 ;所述軌跡點的刪除閾值取值為7 ;所述第一軌跡點相似 度閾值取值為〇. 3 ;所述第二軌跡點相似度閾值取值為0. 5。
【文檔編號】G06F17/30GK104239556SQ201410498088
【公開日】2014年12月24日 申請日期:2014年9月25日 優(yōu)先權(quán)日:2014年9月25日
【發(fā)明者】周紅芳, 張國榮, 趙雪涵, 郭杰, 段文聰, 王心怡, 何馨依 申請人:西安理工大學(xué)