本發(fā)明屬于社交網(wǎng)絡(luò)位置預(yù)測技術(shù)領(lǐng)域,尤其涉及一種基于社交網(wǎng)絡(luò)的位置預(yù)測系統(tǒng)及方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展和可定位設(shè)備的大量普及,基于地理位置服務(wù)的網(wǎng)絡(luò)應(yīng)用越來越普及,如定向廣告(targetedadvertisement)、跟蹤人口流動、預(yù)防疾病蔓延、網(wǎng)絡(luò)安全、性能優(yōu)化等,地址位置作為一種質(zhì)量極高的信息資源被廣泛應(yīng)用。同時伴隨著在線社交網(wǎng)絡(luò)的發(fā)展,位置服務(wù)和在線社交網(wǎng)絡(luò)逐漸趨于融合,即產(chǎn)生了lbsn?;谖恢玫膌bsn是位置和社交的結(jié)合體,它支持用戶隨時隨地在社交平臺記錄并分享自己的地理信息,它是以通信網(wǎng)絡(luò)為媒介,以智能終端為主要載體的新型平臺。在lbsn中,大量用戶通過簽到向朋友分享位置信息或地理標簽。位置社交網(wǎng)絡(luò)讓基于位置的社交成為一種新的社交模式,使得線上社交和線下社交得到有機的結(jié)合,極大的改變了人們的生活方式。社交網(wǎng)絡(luò)催生了許多基于位置的服務(wù),為了提供更好的服務(wù),預(yù)測用戶最有可能的下一個位置是非常重要的。如通過預(yù)測用戶下一個位置,商家可以更加有效的投放定向廣告?,F(xiàn)有預(yù)測方法有基于gps軌跡歷史數(shù)據(jù)的位置預(yù)測,有基于社交網(wǎng)絡(luò)簽到數(shù)據(jù)的位置預(yù)測。社交網(wǎng)絡(luò)簽到數(shù)據(jù)和gps軌跡歷史數(shù)據(jù)有著明顯的區(qū)別。社交網(wǎng)絡(luò)簽到歷史數(shù)據(jù)較稀疏,位置預(yù)測范圍較大。相比于社交網(wǎng)絡(luò)簽到數(shù)據(jù),連續(xù)記錄的gps數(shù)據(jù)之間間隔5-10米。但是gps數(shù)據(jù)僅僅包括經(jīng)度、緯度和時間戳信息,沒有包括語義信息,無法根據(jù)社交關(guān)系進行位置預(yù)測?,F(xiàn)有的基于社交網(wǎng)絡(luò)的位置預(yù)測主要有運動軌跡的預(yù)測和下一地點的預(yù)測。運動軌跡的預(yù)測相對復(fù)雜,開銷較大,對周期性軌跡預(yù)測表現(xiàn)良好,但是對周期性不明顯的軌跡預(yù)測精度較差?,F(xiàn)有基于社交網(wǎng)絡(luò)下一位置預(yù)測假設(shè)下一位置用戶曾經(jīng)訪問過,下一位置僅僅從個人歷史位置中選擇,容易造成“冷啟動”,導(dǎo)致常規(guī)位置預(yù)測良好,非常規(guī)位置預(yù)測精度較低。
綜上所述,現(xiàn)有技術(shù)存在的問題是:現(xiàn)有基于gps歷史數(shù)據(jù)位置預(yù)測不包含語義信息,無法根據(jù)社交關(guān)系進行位置預(yù)測?,F(xiàn)有的基于社交網(wǎng)絡(luò)軌跡相似性位置預(yù)測存在運動軌跡預(yù)測相對復(fù)雜,開銷較大,對周期性不明顯的軌跡預(yù)測精度較差,容易造成“冷啟動”。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提供了一種基于社交網(wǎng)絡(luò)的位置預(yù)測系統(tǒng)及方法。
本發(fā)明是這樣實現(xiàn)的,一種基于社交網(wǎng)絡(luò)的位置預(yù)測方法,所述基于社交網(wǎng)絡(luò)的位置預(yù)測方法包括以下步驟:
步驟一,爬取社交網(wǎng)絡(luò)簽到數(shù)據(jù);
步驟二,對爬取的社交網(wǎng)絡(luò)簽到數(shù)據(jù)進行預(yù)處理,過濾掉簽到次數(shù)小于平均簽到次數(shù)的數(shù)據(jù),清洗掉無效的數(shù)據(jù),利用核平滑插值技術(shù)對簽到數(shù)據(jù)的稀疏性進行處理;在f(x)中,若使用鄰域樣本的均值進行插值,則使f(x)不平滑,所以使用一個核函數(shù)對估計值平滑;具體使用核加權(quán)平均,公式為:
步驟三,結(jié)合常規(guī)位置預(yù)測的輸出概率pr(loc)和非常規(guī)位置預(yù)測的輸出概率pu(loc),預(yù)測下一位置是否為常規(guī)位置;
步驟四,通過常規(guī)位置預(yù)測模塊,得到top-m個位置列表;通過提取分析數(shù)據(jù)采集模塊中采集的非結(jié)構(gòu)化信息,應(yīng)用于top-m位置列表,提高位置預(yù)測精度,得到top-k個位置列表,k<=m。
進一步,所述預(yù)測下一位置是否為常規(guī)位置公式為:
p(loc)=λpr(loc)+(1-λ)pu(loc)。
其中pr(loc)為常規(guī)位置預(yù)測概率,pu(loc)為非常規(guī)位置預(yù)測概率,λ為調(diào)節(jié)參數(shù),λ∈{0,1}。
進一步,所述常規(guī)位置預(yù)測采用mhmm算法,hmm結(jié)合時間特征和空間特征對位置進行預(yù)測。不考慮時間和空間的影響,給定相同的觀測序列,hmm總是得到相同的預(yù)測結(jié)果;考慮到社交用戶的簽到行為受到時間和空間的影響,選用混合hmm算法對下一位置進行預(yù)測。
進一步,所述非常規(guī)位置預(yù)測結(jié)合構(gòu)建知識圖譜,挖掘社交關(guān)系,采用融合社交關(guān)系的馬爾科夫模型結(jié)合位置推薦系統(tǒng)對非常規(guī)位置進行預(yù)測。利用簽到數(shù)據(jù)集構(gòu)建知識圖譜,在知識圖譜上進行推理,挖掘相似用戶,基于歷史簽到數(shù)據(jù)并融合相似用戶訓(xùn)練一個馬爾科夫模型對下一位置進行預(yù)測。最后將馬爾科夫模型和位置推薦系統(tǒng)結(jié)合在一起,提高位置預(yù)測精度。
進一步,利用簽到數(shù)據(jù)集作為數(shù)據(jù)來源,構(gòu)建社交知識圖譜,在知識圖譜上進行推理。推理方法有三類:embedding-based技術(shù),pathrankingalgorithms,和probabilisticgraphicalmodels概率模型。社交關(guān)系的推理采用embedding-based技術(shù)。embedding-based技術(shù)是以隱式因子模型為基本思想的方法,它是基于低維向量的表示方法,將知識圖譜中的實體和關(guān)系在低維的向量空間里進行表達,然后進行推理。首先將實體和關(guān)系進行向量表示;其次,定義打分函數(shù)來衡量關(guān)系成立的可能性。再者,參數(shù)估計,根據(jù)打分函數(shù)推理相似用戶。相似用戶推理綜合打分函數(shù)結(jié)構(gòu)化信息和非結(jié)構(gòu)化分析模塊提取的興趣相似度,表示如下:
sim(u,v)=αs(u,v)+(1-α)w(u,v);
其中,α是調(diào)節(jié)參數(shù),取值為[0,1],反應(yīng)結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息相似度所占比重,s(u,v)代表結(jié)構(gòu)化信息相似度,w(u,v)代表非結(jié)構(gòu)信息相似度。非結(jié)構(gòu)化信息相似度是非結(jié)構(gòu)信息分析模塊提取興趣關(guān)鍵字,然后根據(jù)余弦相似度計算用戶之間的相似度。計算如下:
其中ui,uj表示用戶i和用戶j興趣關(guān)鍵字向量表示。余弦值取值范圍為[0,1],0表示完全不同,1表示完全相同。
在歷史簽到數(shù)據(jù)的基礎(chǔ)上,融合相似用戶的影響,訓(xùn)練馬爾科夫模型對位置進行預(yù)測,即lm=maxp(am|h,sim(u,v)),其中am代表馬爾科夫算法,h代表歷史簽到數(shù)據(jù),sim(u,v)代表用戶相似度。
最后,綜合融合相似用戶的馬爾科夫模型和位置推薦系統(tǒng),提高位置預(yù)測精度。其公式如下:
ltop-n=βlm+(1-β)sr;
其中l(wèi)m代表融合相似用戶的馬爾科夫模型,sr代表位置推薦系統(tǒng),β為調(diào)節(jié)權(quán)重,取0.6。綜合融合相似用戶的馬爾科夫模型和位置推薦系統(tǒng),得到top-n位置列表。
本發(fā)明的另一目的在于提供一種所述基于社交網(wǎng)絡(luò)的位置預(yù)測方法的基于社交網(wǎng)絡(luò)的位置預(yù)測系統(tǒng)包括:
數(shù)據(jù)采集模塊,應(yīng)用爬蟲系統(tǒng),爬取社交網(wǎng)絡(luò)簽到數(shù)據(jù);
數(shù)據(jù)預(yù)處理模塊,對爬取的社交網(wǎng)絡(luò)簽到數(shù)據(jù)進行預(yù)處理,清洗掉無效的數(shù)據(jù),利用核平滑插值技術(shù)對簽到數(shù)據(jù)的稀疏性進行處理;
判斷模塊,結(jié)合常規(guī)位置預(yù)測的輸出概率pr(loc)和非常規(guī)位置預(yù)測的輸出概率pu(loc),預(yù)測下一位置是否為常規(guī)位置;
常規(guī)位置預(yù)測模塊,用于對預(yù)測位置進行分類,先預(yù)測位置的類別,預(yù)測位置;
非結(jié)構(gòu)化數(shù)據(jù)分析模塊,通過常規(guī)位置預(yù)測模塊,得到top-m個位置列表;通過提取分析數(shù)據(jù)采集模塊中采集的非結(jié)構(gòu)化信息,應(yīng)用于top-m位置列表,提高位置預(yù)測精度,得到top-k個位置列表;
非常規(guī)位置預(yù)測模塊,結(jié)合構(gòu)建知識圖譜,挖掘相似用戶,采用融合相似用戶的馬爾科夫模型結(jié)合位置推薦系統(tǒng)對非常規(guī)位置進行預(yù)測。
本發(fā)明的另一目的在于提供一種應(yīng)用所述基于社交網(wǎng)絡(luò)的位置預(yù)測方法的社交網(wǎng)絡(luò)終端。
本發(fā)明的優(yōu)點及積極效果為:基于社交網(wǎng)絡(luò)簽到數(shù)據(jù),結(jié)合模糊聚類、知識圖譜和位置推薦對下一地點進行預(yù)測,既適用于常規(guī)模式位置預(yù)測,又適用于非常規(guī)模式位置預(yù)測。本發(fā)明結(jié)合時間和位置因素對位置預(yù)測的影響,充分挖掘社交網(wǎng)絡(luò)簽到信息中的語義信息,解決了常規(guī)位置預(yù)測問題,同時通過對非常規(guī)位置預(yù)測解決了位置預(yù)測中的“冷啟動”問題。本發(fā)明運用知識圖譜,挖掘隱含相似用戶;運用概率論知識預(yù)測下一位置為常規(guī)位置或非常規(guī)位置。對于非常規(guī)位置,結(jié)合位置推薦系統(tǒng),提高非常規(guī)位置預(yù)測精度。
附圖說明
圖1是本發(fā)明實施例提供的基于社交網(wǎng)絡(luò)的位置預(yù)測方法流程圖。
圖2是本發(fā)明實施例提供的基于社交網(wǎng)絡(luò)的位置預(yù)測方法實現(xiàn)流程圖。
圖3是本發(fā)明實施例提供的基于社交網(wǎng)絡(luò)的位置預(yù)測系統(tǒng)結(jié)構(gòu)示意圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
下面結(jié)合附圖對本發(fā)明的應(yīng)用原理作詳細的描述。
如圖1所示,本發(fā)明實施例提供的基于社交網(wǎng)絡(luò)的位置預(yù)測方法包括以下步驟:
s101:爬取社交網(wǎng)絡(luò)簽到數(shù)據(jù);
s102;對爬取的社交網(wǎng)絡(luò)簽到數(shù)據(jù)進行預(yù)處理,清洗掉無效的數(shù)據(jù),利用核平滑插值技術(shù)對簽到數(shù)據(jù)的稀疏性進行處理;
s103:結(jié)合常規(guī)位置預(yù)測的輸出概率pr(loc)和非常規(guī)位置預(yù)測的輸出概率pu(loc),預(yù)測下一位置是否為常規(guī)位置:
s104:通過常規(guī)位置預(yù)測模塊,得到top-m個位置列表;通過提取分析數(shù)據(jù)采集模塊中采集的非結(jié)構(gòu)化信息,應(yīng)用于top-m位置列表,提高位置預(yù)測精度,得到top-k個位置列表(k<=m)。
常規(guī)位置預(yù)測采用mhmm算法,hmm結(jié)合時間特征和空間特征對位置進行預(yù)測。不考慮時間和空間的影響,給定相同的觀測序列,hmm總是得到相同的預(yù)測結(jié)果;考慮到社交用戶的簽到行為受到時間和空間的影響,選用混合hmm算法對下一位置進行預(yù)測。
所述非常規(guī)位置預(yù)測結(jié)合構(gòu)建知識圖譜,挖掘社交關(guān)系,采用融合社交關(guān)系的馬爾科夫模型結(jié)合位置推薦系統(tǒng)對非常規(guī)位置進行預(yù)測。利用簽到數(shù)據(jù)集構(gòu)建知識圖譜,在知識圖譜上進行推理,挖掘相似用戶,基于歷史簽到數(shù)據(jù)并融合相似用戶訓(xùn)練一個馬爾科夫模型對下一位置進行預(yù)測。最后將馬爾科夫模型和位置推薦系統(tǒng)結(jié)合在一起,提高位置預(yù)測精度。
利用簽到數(shù)據(jù)集作為數(shù)據(jù)來源,構(gòu)建社交知識圖譜,在知識圖譜上進行推理。推理方法有三類:embedding-based技術(shù),pathrankingalgorithms,和probabilisticgraphicalmodels概率模型。社交關(guān)系的推理采用embedding-based技術(shù)。embedding-based技術(shù)是以隱式因子模型為基本思想的方法,它是基于低維向量的表示方法,將知識圖譜中的實體和關(guān)系在低維的向量空間里進行表達,然后進行推理。首先將實體和關(guān)系進行向量表示;其次,定義打分函數(shù)來衡量關(guān)系成立的可能性。再者,參數(shù)估計,根據(jù)打分函數(shù)推理相似用戶。相似用戶推理綜合打分函數(shù)結(jié)構(gòu)化信息和非結(jié)構(gòu)化分析模塊提取的興趣相似度,表示如下:
sim(u,v)=αs(u,v)+(1-α)w(u,v);
其中,α是調(diào)節(jié)參數(shù),取值為[0,1],反應(yīng)結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息相似度所占比重,s(u,v)代表結(jié)構(gòu)化信息相似度,w(u,v)代表非結(jié)構(gòu)信息相似度。非結(jié)構(gòu)化信息相似度是非結(jié)構(gòu)信息分析模塊提取興趣關(guān)鍵字,然后根據(jù)余弦相似度計算用戶之間的相似度。計算如下:
其中ui,uj表示用戶i和用戶j興趣關(guān)鍵字向量表示。余弦值取值范圍為[0,1],0表示完全不同,1表示完全相同。
在歷史簽到數(shù)據(jù)的基礎(chǔ)上,融合相似用戶的影響,訓(xùn)練馬爾科夫模型對位置進行預(yù)測,即lm=maxp(am|h,sim(u,v)),其中am代表馬爾科夫算法,h代表歷史簽到數(shù)據(jù),sim(u,v)代表用戶相似度。
最后,綜合融合相似用戶的馬爾科夫模型和位置推薦系統(tǒng),提高位置預(yù)測精度。其公式如下:
ltop-n=βlm+(1-β)sr;
其中l(wèi)m代表融合相似用戶的馬爾科夫模型,sr代表位置推薦系統(tǒng),β為調(diào)節(jié)權(quán)重,取0.6。綜合融合相似用戶的馬爾科夫模型和位置推薦系統(tǒng),得到top-n位置列表。
圖2是本發(fā)明實施例提供的基于社交網(wǎng)絡(luò)的位置預(yù)測方法實現(xiàn)流程圖。
如圖3所示,本發(fā)明實施例提供的基于社交網(wǎng)絡(luò)的位置預(yù)測系統(tǒng)包括:
數(shù)據(jù)采集模塊,應(yīng)用爬蟲系統(tǒng),爬取社交網(wǎng)絡(luò)簽到數(shù)據(jù)。
數(shù)據(jù)預(yù)處理模塊,對爬取的社交網(wǎng)絡(luò)簽到數(shù)據(jù)進行預(yù)處理,清洗掉無效的數(shù)據(jù),然后利用核平滑插值技術(shù)對簽到數(shù)據(jù)的稀疏性進行處理。
判斷模塊,結(jié)合常規(guī)位置預(yù)測的輸出概率pr(loc)和非常規(guī)位置預(yù)測的輸出概率pu(loc),預(yù)測下一位置是否為常規(guī)位置:
p(loc)=λpr(loc)+(1-λ)pu(loc),λ∈{0,1}。
常規(guī)位置預(yù)測模塊,常規(guī)位置即頻繁模式,周期性模式;如8點半上班,中午12點在公司附近午餐,下午6點半下班回家,回家后在家看電視不外出。常規(guī)位置預(yù)測精度受到時間因素、地理因素和歷史數(shù)據(jù)的影響。采用ghmm算法,hmm結(jié)合時間特征和空間特征對位置進行預(yù)測。為了克服預(yù)測范圍大的困難,首先對預(yù)測位置進行分類,先預(yù)測位置的類別,然后進一步預(yù)測位置。
非結(jié)構(gòu)化數(shù)據(jù)分析模塊,通過常規(guī)位置預(yù)測模塊,得到top-m個位置列表。非結(jié)構(gòu)化預(yù)測模塊通過提取分析數(shù)據(jù)采集模塊中采集的非結(jié)構(gòu)化信息,應(yīng)用于top-m位置列表,提高位置預(yù)測精度,得到top-k個位置列表(k<=m)。
非常規(guī)位置預(yù)測模塊,位置預(yù)測不僅涉及常規(guī)位置,由于人們的新奇特性,隨眾模式,在移動模式上會表現(xiàn)出對非常規(guī)位置的探索。如周六去看電影,周天去購物等。非常規(guī)位置預(yù)測模塊結(jié)合非結(jié)構(gòu)化分析模塊,同時構(gòu)建知識圖譜,挖掘相似用戶,采用融合相似用戶的馬爾科夫模型結(jié)合位置推薦系統(tǒng)對非常規(guī)位置進行預(yù)測。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。