本發(fā)明屬于基于用戶軌跡數(shù)據(jù)的位置預測技術領域,更為具體地講,涉及一種融合個體與近鄰移動規(guī)律的位置預測方法。
背景技術:
隨著衛(wèi)星、無線網(wǎng)絡以及定位設備的發(fā)展,大量用戶軌跡數(shù)據(jù)呈急速增長的趨勢,如車輛軌跡數(shù)據(jù)、人員移動軌跡數(shù)據(jù)等。通過用戶軌跡數(shù)據(jù)挖掘發(fā)現(xiàn)隱含的知識,研究人類行為模式并做出預測,可以幫助政府和用戶做出更好的決策,甚至可以成為解決城市交通、城市環(huán)境、突發(fā)應急事件等重大社會問題的有效手段。例如,在交通方面,通過分析車輛的軌跡數(shù)據(jù)可以得知道路的擁堵情況,從而可以根據(jù)推測的擁堵情況來向車輛提示路況堵塞情況和最佳導航,方便城市交通的協(xié)調;另外,通過分析用戶軌跡數(shù)據(jù),還可以挖掘出人們之間的社交關系,從而為人們提供旅游、好友推薦等服務;城市規(guī)劃方面,通過分析市民的出行習慣,分析熱點區(qū)域和出行習慣,更好的建立城市區(qū)域的功能劃分與基礎交通設施的建設。因此,近年來用戶軌跡數(shù)據(jù)挖掘越來越受到各界的關注,包括計算機科學、社會學和地理學等在內的各個領域都將其列為重要研究課題。而移動對象(車輛、人員)的位置預測技術可以向用戶提供更好的基于位置的服務,有助于分析和理解用戶軌跡數(shù)據(jù),具有深遠的意義和巨大的發(fā)展空間?;谟脩糗壽E數(shù)據(jù)的位置預測技術,在城市規(guī)劃、交通管控、用戶位置預測、用戶位置推薦、社會人類學研究等政府和商業(yè)應用中有著不可估量的作用。
傳統(tǒng)的位置預測技術,分為對用戶個人位置的預測和對群體位置分布的預測兩類?;趥€人歷史用戶軌跡數(shù)據(jù),重點關注個人歷史用戶軌跡數(shù)據(jù)中所具有的周期性模式或地理分布模式,如挖掘個人移動規(guī)律等,但該類方法不僅忽略了用戶作為具有社會屬性特征的個體這一重要特點,而且在用戶個人移動模式發(fā)現(xiàn)、時間與空間緊耦合等問題上存在缺陷。對群體位置分布的預測大多集中于分析一個地區(qū)范圍內的車流量或用戶密度較高的空間分布特點,忽略了群體的基礎是個體,群體是由個體匯聚而成,這一基礎社會學理論。
技術實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術的不足,提供一種融合個體與近鄰移動規(guī)律的位置預測方法,以提高位置預測抗噪聲能力,更加符合社會學規(guī)律即位置預測更加魯棒,準確度更高。
為實現(xiàn)上述發(fā)明目的,本發(fā)明融合個體與近鄰移動規(guī)律的位置預測方法,其特征在于,包括以下步驟:
(1)、用戶移動數(shù)據(jù)收集與整理清洗
收集用戶移動數(shù)據(jù),根據(jù)分析需求對用戶移動數(shù)據(jù)進行整理清洗,采用相關的關鍵地點信息提取技術(即POI,Point of Interest發(fā)現(xiàn)及提取)對隱藏在用戶移動數(shù)據(jù)中重要(關鍵)地點的時間位置信息進行提取,得到用戶軌跡數(shù)據(jù)。
(2)、K近鄰發(fā)現(xiàn)
將每個用戶的軌跡數(shù)據(jù)映射為一個帶時空特征的網(wǎng)絡即用戶軌跡網(wǎng)絡,對需要進行位置預測的用戶即預測用戶,將其用戶軌跡網(wǎng)絡與其他用戶軌跡網(wǎng)絡進行相似度度量,找到相似度最大的K個用戶,這K個用戶為預測用戶的K個近鄰;
對K個近鄰的相似度進行歸一化處理,并作為K個近鄰對預測用戶的影響權值:
其中,Sk為K個近鄰中第k個的相似度,wk為對應的影響權值;
(3)、位置移動模式確定
對于預測用戶,在時間段T內,從位置A到位置B后所有可能到達的位置為Ci,則三個連續(xù)位置即位置A、位置B以及Ci構成一個位置移動模式<A-B-Ci,T>;其中,i為可能到達位置的序號,i=1,2,…,I,I為所有可能到達位置的數(shù)量;
(4)、用戶位置預測
在預測用戶的K個近鄰中,對于每個近鄰,在其歷史用戶軌跡數(shù)據(jù)找到位置移動模式<A-B-Ci,T>,并計算該位置移動模式發(fā)生的可能性NPrk<A-B-Ci,T>,則預測用戶到達第i個位置的可能性為:
其中,Pr(<A-B-Ci,T>)為預測用戶在時間段T內,從位置A到位置B后到達的位置Ci的可能性,UPr(<A-B-Ci,T>)為預測用戶歷史用戶軌跡數(shù)據(jù)中位置移動模式<A-B-Ci,T>發(fā)生的可能性。
本發(fā)明的目的是這樣實現(xiàn)的。
本發(fā)明融合個體與近鄰移動規(guī)律的位置預測方法,首先提取用戶移動數(shù)據(jù)中重要(關鍵)地點的時間位置信息進行提取,得到用戶軌跡數(shù)據(jù),然后通過映射,找出圍繞預測用戶且具有相似時空分布的K個用戶,再通過挖掘歷史用戶軌跡數(shù)據(jù)中形如<A-B-C,T>(其中A,B,C代表提取出的位置,且A,B,C具有先后順序性,T代表該A-B-C位置模式所具備的時間特征即時間段)的位置移動模式。在K個近鄰中,搜索具有相同位置移動模式,將預測用戶與近鄰的相似度作為權重,與預測用戶(個體)進行融合。考慮了K個近鄰用戶的相似度并作為權重對預測用戶本身的影響,同時搜索相關的移動規(guī)律即位置移動模式進行位置預測,這樣的技術思路相較與傳統(tǒng)位置預測方法更加的魯棒,抗噪聲能力更強,也更加符合社會學規(guī)律,準確度更高。
附圖說明
圖1是本發(fā)明融合個體與近鄰移動規(guī)律的位置預測方法的一種具體實施方式流程圖;
圖2是圖1所示K近鄰發(fā)現(xiàn)中用戶軌跡數(shù)據(jù)映射的用戶軌跡網(wǎng)絡示意圖;
圖3是圖1所示K近鄰發(fā)現(xiàn)中位置時間分布示意圖,其中(a)為到達地點1時間分布,(b)為離開地點1時間分布;
圖4是本發(fā)明中K近鄰搜索過程中所采用的近鄰權重影響一具體實例示意圖;
圖5是本發(fā)明中對于用戶的位置移動模式的挖掘,通過挖掘分析用戶歷史的移動數(shù)據(jù)提取形如<A-B-Ci,T>位置移動模式;
圖6是圖1中基于個體規(guī)律和近鄰規(guī)律的位置預測示意圖。
具體實施方式
下面結合附圖對本發(fā)明的具體實施方式進行描述,以便本領域的技術人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當已知功能和設計的詳細描述也許會淡化本發(fā)明的主要內容時,這些描述在這里將被忽略。
圖1是本發(fā)明融合個體與近鄰移動規(guī)律的位置預測方法的一種具體實施方式流程圖。
在本實施例中,如圖1所示,本發(fā)明融合個體與近鄰移動規(guī)律的位置預測方法包括以下步驟:
S1:用戶移動數(shù)據(jù)收集與整理清洗
用戶移動數(shù)據(jù),如:用戶手機定位服務GPS數(shù)據(jù)、車輛定位儀的GPS數(shù)據(jù)、航空公司航班飛行數(shù)據(jù)、火車開行數(shù)據(jù)等。
GPS數(shù)據(jù)包括每個時間采樣刻度,用戶所在的經(jīng)緯度信息。航空公司航班飛行數(shù)據(jù)即為每個用戶的行程單數(shù)據(jù),火車開行數(shù)據(jù)為用戶乘坐的火車出行的數(shù)據(jù)。
在GPS數(shù)據(jù)中,由于GPS數(shù)據(jù)中冗余信息過多,需要提取具有時空分布特征的重要(關鍵)地點的時間位置信息,在此我們采用傳統(tǒng)的POI(Point of Interest)提取方法,對隱藏在GPS數(shù)據(jù)中的重要(關鍵)地點的位置信息進行提取,并提取對應位置的時間分布信息,得到用戶軌跡數(shù)據(jù)。
在具體實施過程中,也可以采用其他類似提取方法或是參考專家知識對位置數(shù)據(jù)中的重要地點的時間位置信息進行提取。
S2:K近鄰發(fā)現(xiàn)
為了更好地反映預測用戶與其他用戶的相關性,在本實施例中,提出了一種新的用戶軌跡距離度量函數(shù),可以更好地度量出預測用戶與其他用戶軌跡的相似度。針對每個用戶的軌跡數(shù)據(jù),將其映射為一個帶時空特征的網(wǎng)絡即用戶軌跡網(wǎng)絡,將位置變?yōu)榫W(wǎng)絡中的節(jié)點,每個節(jié)點存儲關于這個位置的兩個信息:1.這個位置在軌跡中出現(xiàn)的次數(shù)(作為節(jié)點的權重);2.以及進入和離開這個地點的時間分布。這兩者分別反映了該位置的空間信息和時間信息。用戶軌跡的相似度的問題就轉化為了用戶軌跡網(wǎng)絡的相似度。在本實施例中,采用巴氏距離來進行用戶軌跡網(wǎng)絡的相似度度量,巴氏距離是一種被廣泛使用的度量離散變量或者連續(xù)變量概率分布之間的距離的指標。
在本實施例中,具體相似度度量方法如下:
為了能夠更加清晰的描述本發(fā)明中的用戶軌跡網(wǎng)絡相似度度量方法給出如下幾個定義:
定義1.用戶軌跡。在本實施例中,用Γ表示所有用戶軌跡構成的集合,用L表示一條用戶軌跡數(shù)據(jù),Γ中第j個用戶的軌跡數(shù)據(jù)用L(j)表示。用戶軌跡數(shù)據(jù)L(j)由一系列包含時間位置信息的點構成,可以是多天,甚至一個月的。
在本實施例中,用戶軌跡數(shù)據(jù)L(j)={<地點3,6:30,到達>,<地點3,7:00,離開>,<地點2,7:10,到達>,<地點2,7:30,離開>,<地點3,7:45,到達>,<地點3,8:05,離開>,<地點1,8:15,到達>,<地點1,8:35,離開>,…,<地點1,10:30,到達>,<地點1,11:00,離開>,<地點5,11:30,到達>,<地點5,12:00,離開>,<地點4,12:30,到達>,…}。相應映射的用戶軌跡網(wǎng)絡如圖2所示。
定義2.用戶軌跡網(wǎng)絡。對每一條用戶軌跡,我們可以將其軌跡數(shù)據(jù)映射為一個用戶軌跡網(wǎng)絡N,N=(V,PV),其中V是節(jié)點構成的集合,對于集合V中的任意一個節(jié)點v代表用戶軌跡中的一個位置;每個節(jié)點包含兩個屬性:
(1)、進入和離開節(jié)點(位置)分別的權值。比如對于第j個用戶的軌跡網(wǎng)絡N(j)中的第q個節(jié)點我們根據(jù)在軌跡中到達該位置和離開該位置次數(shù)賦予其權值和用戶軌跡數(shù)據(jù)L(j)出現(xiàn)位置的集合記為看作(離散)隨機變量中到達第q個位置的概率作為進入q節(jié)點的權值,表示第j個用戶軌跡數(shù)據(jù)所有位置到達次數(shù)之和;中離開第q個位置的概率作為離開該位置的權值,表示第j個用戶軌跡數(shù)據(jù)所有位置離開次數(shù)之和。
(2)、進入和離開節(jié)點(位置)的時間分布,如圖2中所示,節(jié)點地點1的時間分布,分為兩部分:一是進入該節(jié)點的時間分布,二是離開該節(jié)點的時間分布。
第j個用戶的軌跡網(wǎng)絡N(j)中的第q個節(jié)點的到達時間也可以看作隨機變量,用表示,簡記為離開時間用表示,簡記為將所有節(jié)點的時間和離散化后,劃分為H個位置時間段,出現(xiàn)在第h位置時間段內的次數(shù)為則出現(xiàn)在第h位置時間段內的概率其中,出現(xiàn)在各個即H個時間段內的次數(shù)為次數(shù)之和,也就是到達第q個節(jié)點的次數(shù)。
同理,出現(xiàn)在第h位置時間段內的次數(shù)為則現(xiàn)在第h位置時間段內的概率
在本實施例中,如圖3所示,在到達位置即地點1時間分布主要集中在8:00-10:00位置時間段,為18次,其概率0.529,而離開的位置即地點1時間分布主要集中在10:00-12:00位置時間段,為16次,其概率為0.471。
兩個用戶軌跡網(wǎng)絡相似度度量方法如下1、度量兩個網(wǎng)絡到達對應節(jié)點的時空分布,2度量兩個網(wǎng)絡離開對應節(jié)點的時空分布,將兩者相加為兩個軌跡相似度的度量結果。
到達對應節(jié)點的時空分布度量方法與離開對應節(jié)點的時空分布度量方法相同,在此僅以到達對應時間節(jié)點的時空分布度量方法為例,具體度量方法如下。
1、預測用戶的用戶軌跡數(shù)據(jù)為第m條,表示為L(m),其他與之進行相似度度量的用戶軌跡數(shù)據(jù)為第n條,表示為L(n),兩個用戶(預測用戶和與之進行相似度度量的用戶)軌跡網(wǎng)絡到達節(jié)點的空間距離Diss(m,n)in為:
其中為預測用戶的用戶軌跡數(shù)據(jù)中到達第q個位置的概率,為到達第q個位置的次數(shù),表示預測用戶的用戶軌跡數(shù)據(jù)中所有位置到達次數(shù)之和;為與預測用戶進行相似度度量的用戶軌跡數(shù)據(jù)中到達第q個位置的概率,為到達第q個位置的次數(shù),表示與預測用戶進行相似度度量的用戶軌跡數(shù)據(jù)中所有位置到達次數(shù)之和;表示位置q屬于預測用戶的用戶軌跡數(shù)據(jù)或其他與之進行相似度度量用戶的用戶軌跡數(shù)據(jù)中的一個位置,并且其中的
表示所有屬于兩個用戶軌跡數(shù)據(jù)中位置上到達概率乘積的平方根之和,其中,預測用戶的用戶軌跡數(shù)據(jù)中出現(xiàn)的位置集合,與預測用戶進行相似度度量的用戶的用戶軌跡數(shù)據(jù)中出現(xiàn)的位置集合;
同理,可以得到兩個用戶(預測用戶與之進行相似度度量的用戶)軌跡網(wǎng)絡離開節(jié)點的空間距離Diss(m,n)out。
2、兩個用戶(預測用戶與之進行相似度度量的用戶)軌跡網(wǎng)絡到達節(jié)點的時間距離Dist(m,n)in可表示為:
其中,N為兩個用戶(預測用戶與之進行相似度度量的用戶)軌跡網(wǎng)絡的節(jié)點數(shù)量,為預測用戶的用戶軌跡數(shù)據(jù)中到達第q個位置的時間出現(xiàn)在第h位置時間段內的概率,為與預測用戶進行相似度度量用戶的用戶軌跡數(shù)據(jù)中到達第q個位置的時間出現(xiàn)在第h位置時間段內的概率;
并且其中的
表示兩個用戶軌跡數(shù)據(jù)中所有H個位置時間段到達第q個位置的出現(xiàn)在各個位置時間段內的概率乘積的平方根之和;
同理,可以得到得到兩個用戶(預測用戶與之進行相似度度量的用戶)軌跡網(wǎng)絡離開節(jié)點的的時間距離Dist(m,n)out可表示為:
其中為預測用戶的用戶軌跡數(shù)據(jù)中離開第q個位置的時間出現(xiàn)在第h位置時間段內的概率,為與預測用戶進行相似度度量用戶的用戶軌跡數(shù)據(jù)中離開第q個位置的時間出現(xiàn)在第h位置時間段內的概率;
并且其中的
表示兩個用戶軌跡數(shù)據(jù)中所有H個位置時間段離開第q個位置出現(xiàn)在各個位置時間段內的概率乘積的平方根之和;
則到達節(jié)點的時空分布度量為Diss(m,n)in與Dist(m,n)in的積:
Dis(m,n)in=Diss(m,n)in×Dist(m,n)in
離開節(jié)點的時空分布度量方法與到達對應節(jié)點的時空分布度量方法相同,為Dis(m,n)out=Diss(m,n)out×Dist(m,n)out。
3、兩個用戶(預測用戶與之進行相似度度量的用戶)軌跡網(wǎng)絡的距離Dis(m,n)最終由上述兩部分距離共同決定,即:
Dis(m,n)=Dis(m,n)in+Dis(m,n)out
兩個用戶(預測用戶與之進行相似度度量的用戶)軌跡網(wǎng)絡的相似度S(m,n)可以簡單地由Dis(m,n)得到:
S(m,n)=e-Dis(m,n)。
K近鄰規(guī)律是本發(fā)明中重要的一步,根據(jù)前述方法,將用戶軌跡網(wǎng)絡與其他用戶軌跡網(wǎng)絡進行相似度度量,在K近鄰發(fā)現(xiàn)中采用遍歷的方法搜索K個相似度最高的用戶,找到相似度最大的K個用戶,這K個用戶為預測用戶的K個近鄰。
K個近鄰與預測用戶的相似性度量作為與用戶融合的權重值進行融合,在對位置進行預測時,將K近鄰中的相似性影響權重歸一化至[0-1],且總和為1。
對K個近鄰的相似度進行歸一化處理,并作為K個近鄰對預測用戶的影響權值:
其中,Sk為K個近鄰中第k個的相似度,wk為對應的影響權值。
通過此種歸一化方法,考慮了K近鄰中每個用戶與預測用戶之間的關系,且更好的反映了近鄰用戶對預測用戶的加權影響。在本實施例例中,如圖4所示,預測用戶有K=4個近鄰用戶,其歸一化后的權值分別為:用戶1,w1=0.3;用戶2,w2=0.1;用戶3,w3=0.2;用戶4,w4=0.4。
S3:位置移動模式確定
對于預測用戶,在時間段T內,從位置A到位置B后所有可能到達的位置為Ci,則三個連續(xù)位置即位置A、位置B以及Ci構成一個位置移動模式<A-B-Ci,T>;其中,i為可能到達的位置序號,i=1,2,…,I,I為所有可能到達位置的數(shù)量。在本實施例中,如圖5所示,給出了一個8:00-9:00時間段,宿舍-食堂-實驗室的位置移動模式。
S4:用戶位置預測
本發(fā)明的核心內容之一是對用戶位置預測,本發(fā)明考慮了預測用戶自身的移動規(guī)律和身邊最相似的K個用戶(近鄰)的活動規(guī)律,然后將兩種規(guī)律進行融合最終匯聚成為帶有K近鄰特征的移動規(guī)律。在用戶移動規(guī)律的模式中,著重發(fā)現(xiàn)具有三個連續(xù)地點的移動模式,這種模式符合實際的時間和空間約束。帶有地點相關特征的預測主要表現(xiàn)為通過分析前一地點所具有的空間約束和時間約束分析未來可能到達地點約束的最大可能,如圖6所示,具體用戶位置預測為:
S401、首先找到位置集合Z,集合Z為所有預測用戶可能到達位置Ci的集合,i為可能到達位置的序號,i=1,2,…,I,I為所有可能到達位置的數(shù)量;
S402、在預測用戶的K個近鄰中,對于每個近鄰,在其歷史用戶軌跡數(shù)據(jù)找到位置移動模式<A-B-Ci,T>,并計算該位置移動模式發(fā)生的可能性NPrk<A-B-Ci,T>,所有近鄰模式即所有近鄰的影響為:
S403、個體模式下,計算預測用戶歷史用戶軌跡數(shù)據(jù)中位置移動模式<A-B-Ci,T>發(fā)生的可能性UPr(<A-B-Ci,T>);
S404、計算預測用戶到達第i個位置的可能性為:
其中,Pr(<A-B-Ci,T>)為預測用戶在時間段T內,從位置A到位置B后到達的位置Ci的可能性。
S405、找到可能性最大的位置Cmax。
S5:群體分布規(guī)律預測
本發(fā)明中,群體位置分布預測的基礎是群體內個體的移動模式。將群體內個體即各個用戶位置預測結果相加后既為群體位置分布預測結果。在一定區(qū)域范圍內共有R個預測用戶,則群體位置分布預測如下:
其中,Prr(<A-B-Ci,T>)為第r個預測用戶在時間段T內,從位置A到位置B后到達的位置Ci的可能性。
本發(fā)明首先提取軌跡數(shù)據(jù)中的重要地點,然后通過一種時空分布相關的距離度量函數(shù),找出圍繞用戶且具有相似位置分布的K個用戶。然后本發(fā)明通過挖掘用戶歷史信息中形如<A-B-C,T>(其中A,B,C代表提取出的位置,且A,B,C具有先后順序性,T代表該A-B-C位置模式所具備的時間特征)的移動模式。在近鄰模式中,搜索具有相同模式的近鄰并且將與近鄰的距離作為權重,與個體模式進行融合。對未來位置C進行預測時要注意先前到達的位置的移動模式。未來的群體位置分布針對群體是由每個小團體構建而成的社會特點,將K近鄰中的所有模式視為位置分布,將群體中的所有K近鄰的位置分布相加即為群體的位置分布。
本發(fā)明中,針對傳統(tǒng)位置預測方法的不足提出了基于個體移動規(guī)律和K近鄰規(guī)律的位置預測技術。本發(fā)明中提出了在用戶相似性度量、用戶移動模式發(fā)現(xiàn)、用戶K近鄰發(fā)現(xiàn)、用戶位置預測和群體位置分布預測等關鍵技術上做出了創(chuàng)新。
盡管上面對本發(fā)明說明性的具體實施方式進行了描述,以便于本技術領域的技術人員理解本發(fā)明,但應該清楚,本發(fā)明不限于具體實施方式的范圍,對本技術領域的普通技術人員來講,只要各種變化在所附的權利要求限定和確定的本發(fā)明的精神和范圍內,這些變化是顯而易見的,一切利用本發(fā)明構思的發(fā)明創(chuàng)造均在保護之列。