亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

對齊異構(gòu)社交網(wǎng)絡(luò)中基于元路徑的鏈路預(yù)測方法與流程

文檔序號:11230529閱讀:489來源:國知局
對齊異構(gòu)社交網(wǎng)絡(luò)中基于元路徑的鏈路預(yù)測方法與流程

本發(fā)明是一種異構(gòu)社交網(wǎng)絡(luò)中基于元路徑的鏈路預(yù)測方法,利用了特征選擇、鏈路預(yù)測等相關(guān)技術(shù),涉及社會計(jì)算特別是鏈路預(yù)測領(lǐng)域。



背景技術(shù):

首先對本發(fā)明中涉及到的相關(guān)概念進(jìn)行定義:

異構(gòu)社交網(wǎng)絡(luò)(heterogeneoussocialnetwork):給定社交網(wǎng)絡(luò)n=(v,e),其中v=vuser∪vnon-user表示節(jié)點(diǎn)集合,包含用戶集合vuser和非用戶節(jié)點(diǎn)集合vnon-user,e=euser,user∪euser,non-user∪enon-user,non-user}是用戶節(jié)點(diǎn)之間、用戶與非用戶節(jié)點(diǎn)以及非用戶節(jié)點(diǎn)之間的邊集合,則稱n為一個(gè)異構(gòu)社交網(wǎng)絡(luò);

錨鏈路(anchorlink):給定兩個(gè)異構(gòu)社交網(wǎng)絡(luò)ni、nj以及兩個(gè)賬號分別屬于兩個(gè)不同異構(gòu)社交網(wǎng)絡(luò)的用戶節(jié)點(diǎn)集合,若在現(xiàn)實(shí)中為同一個(gè)用戶,則稱存在錨鏈路,記作ni、nj之間的錨鏈路集合記作

對齊異構(gòu)社交網(wǎng)絡(luò)(alignedheterogeneoussocialnetwork):給定兩個(gè)異構(gòu)社交網(wǎng)絡(luò)ni、nj,若ni和nj的用戶集合之間至少存在一條錨鏈路,則稱ni和nj組成對齊異構(gòu)社交網(wǎng)絡(luò)記作其中a為錨鏈路集合。

網(wǎng)絡(luò)模式(networkschema):網(wǎng)絡(luò)模式是對實(shí)際社交網(wǎng)絡(luò)的抽象,形式化表示為tn=(s,r),其中r表示網(wǎng)絡(luò)中的節(jié)點(diǎn)類型集合,s表示網(wǎng)絡(luò)中的變類型集合。

元路徑(metapath):元路徑是定義在網(wǎng)絡(luò)模式中的路徑,給定一個(gè)網(wǎng)絡(luò)模式tn=(s,r),形如的路徑稱為元路徑,其中si∈s(i=1,...,l+1),rj∈r(j=1,...,l+1);

實(shí)例路徑(instancepath):給定元路徑當(dāng)網(wǎng)絡(luò)中兩個(gè)節(jié)點(diǎn)v1和vl+1之間存在路徑且對于所有節(jié)點(diǎn)vi∈si,所有關(guān)系ri∈ri,則稱路徑p為元路徑p的一個(gè)實(shí)例路徑。

對齊異構(gòu)社交網(wǎng)絡(luò)的鏈路預(yù)測(linkpredictioninalignedheterogeneoussocialnetworks):給定對齊異構(gòu)社交網(wǎng)絡(luò)記v=vi∪vj,其中vi和vj分別為ni和nj的點(diǎn)集,記ε為v中節(jié)點(diǎn)之間的邊集合,則不存在的邊集合為ε′=ε×ε-v,那么對齊異構(gòu)社交網(wǎng)絡(luò)的鏈路預(yù)測即為預(yù)測在未來是否會形成。

鏈路預(yù)測(linkprediction)是社交網(wǎng)絡(luò)研究中的一個(gè)重要分支和基礎(chǔ)環(huán)節(jié),它基于可觀察到的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征和節(jié)點(diǎn)自身的屬性特征,預(yù)測兩個(gè)不存在鏈路的節(jié)點(diǎn)之間在未來是否會形成鏈路。鏈路預(yù)測通常被看作是一個(gè)二分類問題,即對于兩個(gè)給定的節(jié)點(diǎn),預(yù)測兩者之間是否會形成鏈路。鏈路預(yù)測對于精準(zhǔn)營銷、犯罪團(tuán)伙發(fā)現(xiàn)等領(lǐng)域都有著重要的實(shí)際應(yīng)用價(jià)值。

早期的鏈路預(yù)測主要是在單個(gè)社交網(wǎng)絡(luò)中進(jìn)行,常用的方法一般分為(1)基于相似性的預(yù)測;(2)基于最大似然估計(jì)的預(yù)測;(3)基于概率關(guān)系模型的預(yù)測等。其中,基于相似性的方法假設(shè)兩個(gè)節(jié)點(diǎn)越相似,它們之間未來建立鏈路的可能性越大,于是,計(jì)算兩個(gè)節(jié)點(diǎn)的相似性是這類方法的主要途徑。典型的方法有共同鄰居、jaccard系數(shù)、katz指標(biāo)、rwr(randomwalkwithrestart)等?;谧畲笏迫还烙?jì)的預(yù)測方法分為層次結(jié)構(gòu)模型和隨機(jī)分塊模型,兩者都是建立一個(gè)初始模型然后通過極大似然估計(jì)的方法調(diào)整結(jié)構(gòu),最終達(dá)到收斂狀態(tài)。概率關(guān)系模型則有貝葉斯網(wǎng)絡(luò)關(guān)系模型、馬爾科夫網(wǎng)絡(luò)關(guān)系模型和關(guān)系依賴網(wǎng)絡(luò)模型等。

然而,在進(jìn)行鏈路預(yù)測時(shí),利用單一網(wǎng)絡(luò)的信息往往不能取得很好的效果,例如,一個(gè)新用戶在加入一個(gè)社交網(wǎng)絡(luò)時(shí),其在該網(wǎng)絡(luò)中的拓?fù)潢P(guān)系和個(gè)人屬性特征等信息都是相當(dāng)稀疏的,這也就使得利用單網(wǎng)絡(luò)信息為該用戶推薦好友或服務(wù)時(shí)很難取得較好的效果。此外,由于現(xiàn)實(shí)中基本不存在完全對齊的社交網(wǎng)絡(luò),因此人們在現(xiàn)實(shí)中的好友不會存在于每個(gè)社交網(wǎng)絡(luò)中,也就是說,用戶在某個(gè)社交網(wǎng)絡(luò)中的好友只是真實(shí)好友的一部分。而由于網(wǎng)絡(luò)功能、性質(zhì)的差異性,用戶在使用不同的社交網(wǎng)絡(luò)時(shí),也會發(fā)布不同的信息(post)。因此,只觀察一個(gè)社交網(wǎng)絡(luò)很難獲取關(guān)于某個(gè)真實(shí)用戶足夠的社交關(guān)系和對該用戶興趣愛好、生活習(xí)慣、性格特點(diǎn)等等全面的認(rèn)識。因此,綜合不同社交網(wǎng)絡(luò)的信息,對于更為準(zhǔn)確的鏈路預(yù)測工作具有指導(dǎo)性意義。

對齊異構(gòu)社交網(wǎng)絡(luò)中的鏈路預(yù)測工作還處于起步階段。多數(shù)研究仍然集中在以用戶-用戶鏈路預(yù)測為主的問題中,現(xiàn)有的工作中存在屬性或數(shù)據(jù)字段利用率不高,特征設(shè)計(jì)考慮的因素過少、特征篩選方法不夠好等問題,因此也無法從已有特征中得到準(zhǔn)確具體的結(jié)論。而且這些理論上的鏈路預(yù)測的預(yù)測搜索空間遠(yuǎn)遠(yuǎn)達(dá)不到實(shí)體推薦的需求,并且也沒有按照時(shí)間順序真正地進(jìn)行“預(yù)測”而是數(shù)據(jù)正負(fù)例的交叉驗(yàn)證。因此,與鏈路預(yù)測相關(guān)的工作種類不多,針對這些不足,本發(fā)明將從特征定義和特征篩選等方面對部分對齊異構(gòu)社交網(wǎng)絡(luò)中的鏈路預(yù)測問題進(jìn)行研究,利用基于元路徑的方法挖掘用戶(實(shí)體)之間的相關(guān)性,從而解決對齊異構(gòu)社交網(wǎng)絡(luò)中的鏈路預(yù)測問題。



技術(shù)實(shí)現(xiàn)要素:

針對當(dāng)前對齊異構(gòu)社交網(wǎng)絡(luò)中的鏈路預(yù)測相關(guān)研究較少,且已有研究考慮的因素較少,傳統(tǒng)的協(xié)同過濾、矩陣分解等鏈路預(yù)測方法很難解決數(shù)據(jù)稀疏性問題,結(jié)合現(xiàn)有的鏈路預(yù)測、特征選擇等相關(guān)技術(shù),本發(fā)明提出了一種對齊異構(gòu)社交網(wǎng)絡(luò)中基于元路徑的鏈路預(yù)測方法,主要解決對齊異構(gòu)社交網(wǎng)絡(luò)中的用戶推薦和位置推薦問題。該方法能夠有效地挖掘出用戶(實(shí)體)之間基于不同元路徑的語義相關(guān)性,同時(shí)也在一定程度上緩解了數(shù)據(jù)的稀疏性問題,從而達(dá)到較好的推薦效果。

為了解決上述問題,本發(fā)明提出了一種對齊異構(gòu)社交網(wǎng)絡(luò)中基于元路徑的鏈路預(yù)測方法,具體的技術(shù)方案包括以下五個(gè)步驟:

1.對齊異構(gòu)社交網(wǎng)絡(luò)(alignedheterogeneoussocialnetwork)建模:

將foursquare和twitter組成的對齊異構(gòu)社交網(wǎng)絡(luò)建模為其中nf=(vf,ef)表示foursquare網(wǎng)絡(luò),nt=(vt,et)表示twitter網(wǎng)絡(luò),a表示foursquare與twitter之間的錨鏈路集合,具體而言:

在foursquare網(wǎng)絡(luò)中,節(jié)點(diǎn)集合包括用戶節(jié)點(diǎn)集合和位置節(jié)點(diǎn)集合邊集合包括:

●用戶-用戶邊集合對于表示用戶和用戶存在好友關(guān)系;

●用戶-位置邊集合對于表示用戶訪問過位置并發(fā)布了tip;

●位置-位置邊集合對于表示位置和位置間存在共同訪問用戶;

在twitter網(wǎng)絡(luò)中,節(jié)點(diǎn)集合包括用戶節(jié)點(diǎn)集合和位置節(jié)點(diǎn)集合邊集合包括:

●用戶-用戶邊集合對于表示用戶關(guān)注了用戶

●用戶-位置邊集合對于表示用戶在位置發(fā)布過推文;

●位置-位置邊集合對于表示位置和位置間存在共同訪問用戶;

foursquare和twitter組成的對齊異構(gòu)社交網(wǎng)絡(luò)的網(wǎng)絡(luò)模式可以抽象為tn=(s,r),其中節(jié)點(diǎn)類型集合s={uf,ut,lf,lt},邊類型集合r={uf-ufut→ut,uf→lf,ut→lt,ufaut,lf-lf,lt-lt;

其中,網(wǎng)絡(luò)中各種邊的權(quán)值定義及計(jì)算方法如下:

1)foursquare中用戶-用戶(uf-uf)邊權(quán)值定義為:

其中,為foursquare的用戶,表示用戶好友數(shù)量;

2)twitter中用戶-用戶(ut→ut)邊權(quán)值定義為:

其中,

3)foursquare/twitter中用戶-位置(uf→lf/ut→lt)邊權(quán)值定義為:

給定一條用戶-位置邊(ui,lj),使用兩種方式定義其權(quán)值:

●計(jì)數(shù)計(jì)量方式(考慮用戶ui對位置lj的訪問次數(shù)):

●二值計(jì)量方式(考慮用戶ui是否訪問過位置lj):

其中,loc(ui)表示用戶ui訪問過的位置集合;

4)錨鏈路邊權(quán)值定義為:

5)foursquare/twitter位置-位置(lf-lf/lt-lt)邊權(quán)值定義:

對于給定的一條位置-位置邊(li,lj),使用以下六種方式定義其權(quán)值:

●基于空間距離:

dis(li,lj)表示位置li和位置lj間的球面距離,單位為米;

●基于時(shí)間訪問規(guī)律:

t(li)是一個(gè)24維的向量,表示位置li在每個(gè)小時(shí)內(nèi)被訪問的次數(shù),cos(t(li),t(lj))表示向量t(li)與t(lj)之間的余弦相似度;

●基于文本相似度:

doc(li)表示位置li處的所有tips(推文)形成的文檔,此處使用monge-elkan距離作為文本相似度的計(jì)算方法;

●基于流行度:

cni表示位置li的訪問人次,uni表示位置li的訪問次數(shù);

●基于描述相似度:

des(li)表示位置li的描述性文字;

●基于類別相似度:

表示位置li的類別集合,此處使用位置li和位置lj類別集合的jaccard相似度表示類別相似度。

2.元路徑的自動(dòng)化提?。?/p>

利用深度優(yōu)先遍歷的思想,分別為下述三類鏈路類型自動(dòng)化提取元路徑集合:

a)foursquare中以用戶類型節(jié)點(diǎn)為起始節(jié)點(diǎn)、位置類型節(jié)點(diǎn)為終止節(jié)點(diǎn),提取的元路徑集合記作ψ;

b)foursquare中以用戶類型節(jié)點(diǎn)為起始節(jié)點(diǎn)、用戶類型節(jié)點(diǎn)為終止節(jié)點(diǎn),提取的元路徑集合記作ω;

c)twitter中以用戶類型節(jié)點(diǎn)為起始節(jié)點(diǎn)、用戶類型節(jié)點(diǎn)為終止節(jié)點(diǎn),提取的元路徑集合記作γ;

元路徑自動(dòng)選擇算法的具體步驟如下:

1)給定網(wǎng)絡(luò)模式tn=(s,r),元路徑起點(diǎn)類型si、元路徑終點(diǎn)類型sj,網(wǎng)絡(luò)內(nèi)元路徑最大長度lintra=3以及網(wǎng)絡(luò)間元路徑最大長度linter=5;

2)設(shè)置元路徑起點(diǎn)類型si為起始節(jié)點(diǎn),在網(wǎng)絡(luò)模式圖中利用深度優(yōu)先遍歷搜索的方法提取出所有長度不超過lintra的網(wǎng)絡(luò)內(nèi)元路徑和長度不超過linter的網(wǎng)絡(luò)間元路徑;

3)從步驟2)得到的元路徑集合中篩選出終點(diǎn)為sj的元路徑;

4)在步驟3)得到的元路徑集合中,刪除存在兩條及其以上連續(xù)位置-位置邊的元路徑,形成最終的元路徑集合。

3.定義基于元路徑的特征值計(jì)算方法:

對于3種鏈路類型對應(yīng)的元路徑集合ψ、ω以及γ,基于元路徑的特征向量分別表示為xψ、xω、xγ,統(tǒng)稱為xφ,即:

其中,每個(gè)分量按下式計(jì)算:

其中,為網(wǎng)絡(luò)中類型為φi的所有實(shí)例路徑的特征值之和,表示類型為φi的第r條實(shí)例路徑的特征值,計(jì)算的方法為:

其中,r(φi,s)是元路徑φi中第s個(gè)關(guān)系類型,表示節(jié)點(diǎn)vs到vs+1在關(guān)系r(φi,s)下的邊權(quán)值,l(φi)表示元路徑φi的長度,即表示該實(shí)例路徑中所有邊的權(quán)值的乘積。

4.按時(shí)間戳劃分?jǐn)?shù)據(jù)集:

以foursquare中用戶-位置關(guān)系的鏈路預(yù)測為例,首先將數(shù)據(jù)集的有關(guān)歷史記錄按照時(shí)間順序劃分為7:1:1:1四部分,若沒有時(shí)間信息則隨機(jī)劃分;然后將之前未出現(xiàn)過之后出現(xiàn)的鏈路標(biāo)記為1,否則標(biāo)記為0,于是,使用這四部分?jǐn)?shù)據(jù)可以標(biāo)記出三個(gè)帶有不同時(shí)間跨度標(biāo)記即具有時(shí)間因果性的數(shù)據(jù)集,即訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集以及驗(yàn)證數(shù)據(jù)集。

5.提出一種兩階段逐步向前貪心選擇算法進(jìn)行特征選擇,包括步驟:

利用步驟4得到的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集進(jìn)行下述特征選擇過程:

1)使用信息增益比從特征全集中篩選出k個(gè)特征;

2)針對步驟1)獲得的特征集合,利用啟發(fā)式搜索的思想,特征子集從空集合開始,每次加入一個(gè)或兩個(gè)新特征,使得利用該特征子集訓(xùn)練得到的c4.5決策樹模型的f1值達(dá)到最優(yōu);

3)重復(fù)步驟2),直至模型的f1值收斂。

6.基于特征選擇的結(jié)果訓(xùn)練c4.5決策樹分類器進(jìn)行鏈路預(yù)測,包括步驟:

1)按照步驟5得到的特征子集,抽取訓(xùn)練實(shí)例集和驗(yàn)證數(shù)據(jù)集中所有實(shí)例相應(yīng)的特征,形成新的訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集;

2)利用步驟1)得到的訓(xùn)練數(shù)據(jù)集訓(xùn)練c4.5決策樹分類器;

3)使用步驟1)得到的驗(yàn)證數(shù)據(jù)集對步驟2)得到的分類器效果進(jìn)行評價(jià),評價(jià)指標(biāo)為f1值。

本發(fā)明的有益效果是:

1)利用深度優(yōu)先遍歷的方法自動(dòng)提取網(wǎng)絡(luò)模式中蘊(yùn)含的元路徑,該方法能夠應(yīng)用于大規(guī)模復(fù)雜網(wǎng)絡(luò)中;

2)結(jié)合現(xiàn)有特征選擇算法的研究,本發(fā)明設(shè)計(jì)了自己的特征選擇算法,該算法結(jié)合特征選擇算法中過濾模型及封裝模型進(jìn)行設(shè)計(jì),能夠快速有效地挖掘出有益特征;

3)能夠有效地挖掘出用戶(實(shí)體)之間基于不同元路徑的語義相關(guān)性,同時(shí)也在一定程度上緩解了數(shù)據(jù)的稀疏性問題,能夠得到較好的鏈路預(yù)測效果。

附圖說明

圖1為foursquare-twitter對齊異構(gòu)社交網(wǎng)絡(luò)結(jié)構(gòu)圖;

圖2為foursquare-twitter對齊異構(gòu)社交網(wǎng)絡(luò)模式圖;

圖3為本發(fā)明的具體實(shí)施框架圖。

具體實(shí)施方式

下面結(jié)合附圖對本發(fā)明再作進(jìn)一步詳細(xì)的說明。

1.對齊異構(gòu)社交網(wǎng)絡(luò)的建模:

將foursquare和twitter組成的對齊異構(gòu)社交網(wǎng)絡(luò)建模為其中nf=(vf,ef)表示foursquare網(wǎng)絡(luò),nt=(vt,et)表示twitter網(wǎng)絡(luò),a表示foursquare與twitter之間的錨鏈路集合,具體而言:

在foursquare網(wǎng)絡(luò)中,節(jié)點(diǎn)集合包括用戶節(jié)點(diǎn)集合和位置節(jié)點(diǎn)集合邊集合包括:

●用戶-用戶邊集合對于表示用戶和用戶存在好友關(guān)系;

●用戶-位置邊集合對于表示用戶訪問過位置并發(fā)布了tip;

●位置-位置邊集合對于表示位置和位置間存在共同訪問用戶;

在twitter網(wǎng)絡(luò)中,節(jié)點(diǎn)集合包括用戶節(jié)點(diǎn)集合和位置節(jié)點(diǎn)集合邊集合包括:

●用戶-用戶邊集合對于表示用戶關(guān)注了用戶

●用戶-位置邊集合對于表示用戶在位置發(fā)布過推文;

●位置-位置邊集合對于表示位置和位置間存在共同訪問用戶;

foursquare和twitter組成的對齊異構(gòu)社交網(wǎng)絡(luò)的網(wǎng)絡(luò)模式可以抽象為tn=(s,r),其中節(jié)點(diǎn)類型集合s={uf,ut,lf,lt},邊類型集合r={uf-uf,ut→ut,uf→lf,ut→lt,ufaut,lf-lf,lt-lt;

其中,網(wǎng)絡(luò)中各種邊的權(quán)值定義及計(jì)算方法如下:

1)foursquare中用戶-用戶(uf-uf)邊權(quán)值定義為:

其中,為foursquare的用戶,表示用戶好友數(shù)量;

2)twitter中用戶-用戶(ut→ut)邊權(quán)值定義為:

其中,

3)foursquare/twitter中用戶-位置(uf→lf/ut→lt)邊權(quán)值定義為:

給定一條用戶-位置邊(ui,lj),使用兩種方式定義其權(quán)值:

●計(jì)數(shù)計(jì)量方式(考慮用戶ui對位置lj的訪問次數(shù)):

●二值計(jì)量方式(考慮用戶ui是否訪問過位置lj):

其中,loc(ui)表示用戶ui訪問過的位置集合;

4)錨鏈路邊權(quán)值定義為:

5)foursquare/twitter位置-位置(lf-lf/lt-lt)邊權(quán)值定義:

對于給定的一條位置-位置邊(li,lj),使用以下六種方式定義其權(quán)值:

●基于空間距離:

dis(li,lj)表示位置li和位置lj間的球面距離,單位為米;

●基于時(shí)間訪問規(guī)律:

t(li)是一個(gè)24維的向量,表示位置li在每個(gè)小時(shí)內(nèi)被訪問的次數(shù),cos(t(li),t(lj))表示向量t(lj)與t(lj)之間的余弦相似度;

●基于文本相似度:

doc(li)表示位置li處的所有tips(推文)形成的文檔,此處使用monge-elkan距離作為文本相似度的計(jì)算方法;

●基于流行度:

cni表示位置li的訪問人次,uni表示位置li的訪問次數(shù);

●基于描述相似度:

des(li)表示位置li的描述性文字;

●基于類別相似度:

表示位置li的類別集合,此處使用位置li和位置lj類別集合的jaccard相似度表示類別相似度;

2.元路徑的自動(dòng)化提?。?/p>

利用深度優(yōu)先遍歷的思想,分別為下述三類三類鏈路類型自動(dòng)化提取元路徑集合:

a)foursquare中以用戶類型節(jié)點(diǎn)為起始節(jié)點(diǎn)、位置類型節(jié)點(diǎn)為終止節(jié)點(diǎn),提取的元路徑集合記作ψ;

b)foursquare中以用戶類型節(jié)點(diǎn)為起始節(jié)點(diǎn)、用戶類型節(jié)點(diǎn)為終止節(jié)點(diǎn),提取的元路徑集合記作ω;

c)twitter中以用戶類型節(jié)點(diǎn)為起始節(jié)點(diǎn)、用戶類型節(jié)點(diǎn)為終止節(jié)點(diǎn),提取的元路徑集合記作γ;

元路徑自動(dòng)選擇算法的具體步驟如下:

1)給定網(wǎng)絡(luò)模式tn=(s,r),元路徑起點(diǎn)類型si、元路徑終點(diǎn)類型sj,網(wǎng)絡(luò)內(nèi)元路徑最大長度lintra=3以及網(wǎng)絡(luò)間元路徑最大長度linter=5;

2)設(shè)置元路徑起點(diǎn)類型si為起始節(jié)點(diǎn),在網(wǎng)絡(luò)模式圖中利用深度優(yōu)先遍歷搜索的方法提取出所有長度不超過lintra的網(wǎng)絡(luò)內(nèi)元路徑和長度不超過linter的網(wǎng)絡(luò)間元路徑;

3)從步驟2)得到的元路徑集合中篩選出終點(diǎn)為sj的元路徑;

4)在步驟3)得到的元路徑集合中,刪除存在兩條及其以上連續(xù)位置-位置邊的元路徑,形成最終的元路徑集合;

表1是元路徑自動(dòng)化提取的算法偽代碼:

3.定義基于元路徑的特征值計(jì)算方法:

對于3種鏈路類型對應(yīng)的元路徑集合ψ、ω以及γ,基于元路徑的特征向量分別表示為xψ、xω、xγ,統(tǒng)稱為xφ,即:

其中,每個(gè)分量按下式計(jì)算:

其中,為網(wǎng)絡(luò)中類型為φi的所有實(shí)例路徑的特征值之和,表示類型為φi的第r條實(shí)例路徑的特征值,計(jì)算的方法為:

其中,r(φi,s)是元路徑φi中第s個(gè)關(guān)系類型,表示節(jié)點(diǎn)vs到vs+1在關(guān)系r(φi,s)下的邊權(quán)值,l(φi)表示元路徑φi的長度,即表示該實(shí)例路徑中所有邊的權(quán)值的乘積。

4.按時(shí)間戳劃分?jǐn)?shù)據(jù)集:

以foursquare中用戶-位置關(guān)系的鏈路預(yù)測為例,首先將數(shù)據(jù)集的有關(guān)歷史記錄按照時(shí)間順序劃分為7:1:1:1四部分,若沒有時(shí)間信息則隨機(jī)劃分;然后將之前未出現(xiàn)過之后出現(xiàn)的鏈路標(biāo)記為1,否則標(biāo)記為0,于是,使用這四部分?jǐn)?shù)據(jù)可以標(biāo)記出三個(gè)帶有不同時(shí)間跨度標(biāo)記即具有時(shí)間因果性的數(shù)據(jù)集,即訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集以及驗(yàn)證數(shù)據(jù)集。

5.提出一種兩階段逐步向前貪心選擇算法進(jìn)行特征選擇:

首先使用信息增益比從特征全集中篩選出k個(gè)特征;然后針對這k個(gè)特征,利用啟發(fā)式搜索的思想,特征子集從空集合開始,每次加入一個(gè)或兩個(gè)新特征,使得利用該特征子集訓(xùn)練得到的c4.5決策樹模型的f1值達(dá)到最優(yōu),并重復(fù)該步驟,直至模型性能收斂;

表2是兩階段逐步向前貪心選擇算法偽代碼:

6.基于特征選擇的結(jié)果訓(xùn)練c4.5決策樹分類器進(jìn)行鏈路預(yù)測,包括步驟:

1)按照步驟5得到的特征子集,抽取訓(xùn)練實(shí)例集和驗(yàn)證數(shù)據(jù)集中所有實(shí)例相應(yīng)的特征,形成新的訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集;

2)利用步驟1)得到的訓(xùn)練數(shù)據(jù)集,使用weka軟件訓(xùn)練c4.5決策樹分類器;

3)使用步驟1)得到的驗(yàn)證數(shù)據(jù)集對步驟2)得到的分類器效果進(jìn)行評價(jià),評價(jià)指標(biāo)為f1值。

本發(fā)明還可有其他多種實(shí)施方式,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員可根據(jù)本發(fā)明做出各種相應(yīng)的改變和變形,這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1