專利名稱:一種指導(dǎo)者推薦系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)搜索技術(shù)領(lǐng)域,特別涉及一種指導(dǎo)者推薦系統(tǒng)及方法。
背景技術(shù):
在學(xué)習(xí)和科研的過程中,一個合適的指導(dǎo)者往往能夠?qū)ψ约旱某砷L和發(fā)展起到關(guān)鍵性的作用。也經(jīng)常會在出國留學(xué),申請研究生,或者是科學(xué)研究的過程中,需要尋求一位合適的導(dǎo)師。但是作為一名學(xué)生的社交圈是比較小的,獲取導(dǎo)師信息的渠道非常有限。舉例來說,想要申請出國,感興趣的方向是數(shù)據(jù)挖掘,這時如果沒有一位資深的數(shù)據(jù)挖掘方面的專家來介紹,很難全面的了解到數(shù)據(jù)挖掘領(lǐng)域權(quán)威的導(dǎo)師。在由學(xué)術(shù)搜索引擎Arnetminer 發(fā)起的對用戶使用目的的調(diào)查中,共331名用戶參加了調(diào)查,在所有六個選項(xiàng)中有17. 23% 的用戶選擇了“找尋一個好的導(dǎo)師”這一選項(xiàng)。由此可見,指導(dǎo)者搜索確實(shí)是一個有著較強(qiáng)用戶需求的熱點(diǎn)問題。而從申請者的角度來說,獲得某一個領(lǐng)域權(quán)威的指導(dǎo)者其實(shí)并不是一個理想的結(jié)果,因?yàn)閷τ诖蟛糠稚暾堈邅碚f,憑借自己的能力水平,申請到最權(quán)威專家的成功率是很小的。因此,對于申請者更有幫助的是那些在研究方向上和自己相吻合,申請的成功率又比較大的導(dǎo)師。針對上述問題,以下研究工作將非常重要即向申請者提供個性化的指導(dǎo)者推薦服務(wù),即根據(jù)申請者的個人基本信息以及感興趣的研究方向,向用戶推薦在該領(lǐng)域比較權(quán)威而申請成功率又比較大的導(dǎo)師。在已有的研究中,大部分是對專家搜索的研究,比如 Craig Macdonald和Iadh Ounis基于候選人投票的專家搜索研究,Jing Zhang, Jie Tang 等人的社會網(wǎng)絡(luò)中的專家發(fā)掘,以及Zi Yang, Jie Tang等對于專家搜索到伯樂搜索的遷移學(xué)習(xí)問題的研究。但是涉及個性化導(dǎo)師推薦的研究幾乎沒有。隨著*吐2.0的發(fā)展,一些導(dǎo)師評價網(wǎng)站以及師生關(guān)系圖譜網(wǎng)站,也為本發(fā)明的研究提供了一定的借鑒意義,比如 RateMyProfessors. com禾口 Mathematics Genealogy Project。但這些網(wǎng)站存在的主要問題是導(dǎo)師的資料不全面,用戶的評價過于主觀,在評價較少的情況下容易誤導(dǎo)用戶。綜上所述,個性化的指導(dǎo)者推薦是一個全新的研究課題,主要的難點(diǎn)和挑戰(zhàn)體現(xiàn)在(1)如何衡量一位指導(dǎo)者的專家度。在已有的研究中,對一位專家的專家度的衡量更多的是考慮其發(fā)表論文的數(shù)量和質(zhì)量以及合作關(guān)系的信息,為了評價指導(dǎo)者的專家度, 師生關(guān)系的信息就顯得尤為重要。但是很多時候師生關(guān)系往往隱藏于專家間的學(xué)術(shù)合作網(wǎng)絡(luò)之中,因此如何從學(xué)術(shù)合作網(wǎng)絡(luò)中挖掘師生關(guān)系并進(jìn)一步衡量指導(dǎo)者的專家度成為難點(diǎn)之一。(2)如何根據(jù)用戶信息及指導(dǎo)者信息進(jìn)行個性化推薦。傳統(tǒng)的信息檢索模型,如布爾模型、向量空間模型、潛在語意索引等都是對查詢關(guān)鍵詞以及目標(biāo)文檔進(jìn)行相似度計算。 而個性化指導(dǎo)者推薦需要對用戶的各類信息及指導(dǎo)者特征進(jìn)行不同域上的匹配整合,這就需要改進(jìn)傳統(tǒng)信息檢索模型或建立新的推薦模型。因此,如何建立基于個性化的推薦模型成為又一挑戰(zhàn)。(3)如何評測推薦精度。對于指導(dǎo)者專家度的評測本身就是一個主觀的過程。而個性化的推薦結(jié)果更是難于找到統(tǒng)一的評測標(biāo)準(zhǔn)。針對這個問題,Yang在伯樂搜索的研究中采用了郵件調(diào)查的形式收集了 82名用戶的反饋,以此對搜索結(jié)果進(jìn)行評測。但是對本發(fā)明中基于個性化的推薦模型的評測仍是一個難點(diǎn)。參考文獻(xiàn)[1]T. Wu,Y. Chen,and J. Han. Re-examination of interestingness measures in pattern mining :A unified framework. Data Mining and Knowledge Discovery,2010
發(fā)明內(nèi)容
(一)要解決的技術(shù)問題本發(fā)明要解決的技術(shù)問題是如何從學(xué)術(shù)合作網(wǎng)絡(luò)中挖掘師生關(guān)系并進(jìn)一步衡量指導(dǎo)者的專家度,及對指導(dǎo)者進(jìn)行個性化推薦,以達(dá)到更精確的指導(dǎo)者搜索。(二)技術(shù)方案
為解決上述技術(shù)問題,本發(fā)明提供了一種指導(dǎo)者推薦系統(tǒng),包括數(shù)據(jù)源模塊、師生關(guān)系抽取模塊、專家度特征分析模塊、專家度計算模塊和排序模塊,所述數(shù)據(jù)源模塊用于為師生關(guān)系抽取模塊提供師生關(guān)系數(shù)據(jù);所述師生關(guān)系抽取模塊用于根據(jù)所述師生關(guān)系數(shù)據(jù)抽取師生關(guān)系;所述專家度特征分析模塊用于分析師生關(guān)系中指導(dǎo)者的專家度特征;所述專家度計算模塊用于根據(jù)專家度特征計算指導(dǎo)者專家度;所述排序模塊用于根據(jù)專家度進(jìn)行排序,輸出推薦的指導(dǎo)者列表。其中,所述系統(tǒng)還包括個人信息分析模塊,用于分析申請者和指導(dǎo)者的個人信息,計算申請者申請所述指導(dǎo)者列表中的指導(dǎo)者的申請成功率。其中,所述系統(tǒng)還包括用戶反饋模塊,用于抽取用戶反饋的師生關(guān)系。本發(fā)明還公開了一種指導(dǎo)者推薦方法,包括以下步驟Sl 根據(jù)專家及其發(fā)表的論文數(shù)、發(fā)表時間、指導(dǎo)者合作關(guān)系網(wǎng)抽取師生關(guān)系,所述指導(dǎo)者合作關(guān)系網(wǎng)為{G} = KV = Vp U Va, E)},其中P={A,+ ++,&}代表論文集,Pi發(fā)表時間為、,廣={ ...,代表作者集,E為邊集合,每一條邊 e E連接了論文Pi與作者ap表示…是Pi的作者之一,抽取出的師生關(guān)系表示為一個有向無環(huán)圖 H = (F',E's,{(wdU,為G的子圖,且有Es e E,邊相關(guān)的信息Ov Stij, e^j) 中,表示作者…是%指導(dǎo)者的概率,Stij和edu分別表示師生關(guān)系開始的時間和結(jié)束的時間;S2:抽取所述師生關(guān)系中的基于話題模型類,學(xué)術(shù)信息類以及學(xué)生成就類的專家度特征,利用排序支持向量機(jī)訓(xùn)練所述專家度特征的權(quán)重并計算專家的專家度,具體方式為排序支持向量機(jī)對于用戶輸入的查詢關(guān)鍵詞中兩個不同排序等級(<,乂)的實(shí)例,創(chuàng)建一個新的實(shí)例(< -彳,。,其中引入的變量Zi的取值滿足如果彳> 乂那么 Zi = +1,否則Zi = -1,構(gòu)建好新的訓(xùn)練集P = I(Xf-XfA)Kl1之后,進(jìn)一步構(gòu)建排序函數(shù) >,將訓(xùn)練集中的實(shí)例對(xf,xf )簡寫為X',向量W則是實(shí)例對的每個特征對應(yīng)的權(quán)重,值越大表明該維特征對于決定實(shí)例之間等級關(guān)系的作用越大,W*是W的最優(yōu)解, 學(xué)習(xí)排序函數(shù)的目的則是求解向量W的最優(yōu)解從而使得排序函數(shù)f<W*,X' >能夠正確排列出訓(xùn)練集中實(shí)例對的等級關(guān)系,求解排序函數(shù)f<W*,X' >采用機(jī)器學(xué)習(xí)算法,利用支持向量機(jī)來求解一個二次最優(yōu)化問題
權(quán)利要求
1.一種指導(dǎo)者推薦系統(tǒng),其特征在于,包括數(shù)據(jù)源模塊、師生關(guān)系抽取模塊、專家度特征分析模塊、專家度計算模塊和排序模塊,所述數(shù)據(jù)源模塊用于為師生關(guān)系抽取模塊提供師生關(guān)系數(shù)據(jù); 所述師生關(guān)系抽取模塊用于根據(jù)所述師生關(guān)系數(shù)據(jù)抽取師生關(guān)系; 所述專家度特征分析模塊用于分析師生關(guān)系中指導(dǎo)者的專家度特征; 所述專家度計算模塊用于根據(jù)專家度特征計算指導(dǎo)者專家度; 所述排序模塊用于根據(jù)專家度進(jìn)行排序,輸出推薦的指導(dǎo)者列表。
2.如權(quán)利要求1所述的指導(dǎo)者推薦系統(tǒng),其特征在于,所述系統(tǒng)還包括個人信息分析模塊,用于分析申請者和指導(dǎo)者的個人信息,計算申請者申請所述指導(dǎo)者列表中的指導(dǎo)者的申請成功率。
3.如權(quán)利要求1或2所述的指導(dǎo)者推薦系統(tǒng),其特征在于,所述系統(tǒng)還包括 用戶反饋模塊,用于抽取用戶反饋的師生關(guān)系。
4.一種指導(dǎo)者推薦方法,其特征在于,包括以下步驟Sl 根據(jù)專家及其發(fā)表的論文數(shù)、發(fā)表時間、指導(dǎo)者合作關(guān)系網(wǎng)抽取師生關(guān)系,所述指導(dǎo)者合作關(guān)系網(wǎng)為{G} = {(V = Vp U Va,幻},其中廣={凡,+ ++, }代表論文集, Pi發(fā)表時間為ti; ^a = { ...,代表作者集,E為邊集合,每一條邊 e E連接了論文?1與作者…,表示 是?1的作者之一,抽取出的師生關(guān)系表示為一個有向無環(huán)圖丑= (77^3(4, ,^;)}⑷;^s) ,H為G的子圖,且有Es e E,邊相關(guān)的信息Ov Stij, e^j)中,表示作者…是%指導(dǎo)者的概率,Stij和edu分別表示師生關(guān)系開始的時間和結(jié)束的時間;S2:抽取所述師生關(guān)系中的基于話題模型類,學(xué)術(shù)信息類以及學(xué)生成就類的專家度特征,利用排序支持向量機(jī)訓(xùn)練所述專家度特征的權(quán)重并計算專家的專家度,具體方式為 排序支持向量機(jī)對于用戶輸入的查詢關(guān)鍵詞中兩個不同排序等級(<,乂)的實(shí)例 ,創(chuàng)建一個新的實(shí)例(< -彳,。,其中引入的變量Zi的取值滿足如果彳> 乂那么 Zi = +1,否則Zi = _1,構(gòu)建好新的訓(xùn)練集廠={@;1-1;)4)}!—1之后,進(jìn)一步構(gòu)建排序函數(shù) /<^,(x;-xf) >,將訓(xùn)練集中的實(shí)例對(Xf,xf )簡寫為χ',向量w則是實(shí)例對的每個特征對應(yīng)的權(quán)重,值越大表明該維特征對于決定實(shí)例之間等級關(guān)系的作用越大,W*是W的最優(yōu)解, 學(xué)習(xí)排序函數(shù)的目的則是求解向量W的最優(yōu)解從而使得排序函數(shù)f<W*,X' >能夠正確排列出訓(xùn)練集中實(shí)例對的等級關(guān)系,求解排序函數(shù)f<W*,X' >采用機(jī)器學(xué)習(xí)算法,利用支持向量機(jī)來求解一個二次最優(yōu)化問題 其中有 ξ i 彡 0,i = 1,. . .,1 ;z<w, x(1)-x(2)> 彡 1- ξ ρξ i表示排序函數(shù)的等級排序誤差,S表示新輸入的實(shí)例集合,C表示用戶自定義的SVM 的參數(shù),每個X表示一個實(shí)例,(xa,xb)表示實(shí)例對,(<,xf)表示第i個實(shí)例對;χω-χ(2)表示相鄰兩個實(shí)例構(gòu)成的實(shí)例對;y表示每一個實(shí)例的排序等級,(ya,yb)則表示實(shí)例對的排序等級關(guān)系,(<,乂)表示第i個實(shí)例對的排序等級關(guān)系,其排序關(guān)系可以簡寫為z,當(dāng)ζ = 1的時候表明Xa的排序等級比Xb的排序等級高,當(dāng)ζ = -1的時候表明Xa的排序等級比Xb的排序等級低;S3 將推薦的指導(dǎo)者的信息返回給用戶。
5.如權(quán)利要求4所述的指導(dǎo)者推薦方法,其特征在于,所述步驟Sl中抽取師生關(guān)系的方式為利用有時間約束的概率因子圖模型進(jìn)行抽取,包括步驟在指導(dǎo)者合作關(guān)系網(wǎng)中過濾肯定沒有師生關(guān)系的連接,其中,學(xué)生χ結(jié)束師生關(guān)系的時間edx比χ的導(dǎo)師yx結(jié)束師生關(guān)系的時間edyx要晚,一個學(xué)生χ發(fā)表第一篇論文的時間 Pyx1要比他的導(dǎo)師yx發(fā)表第一篇論文的時間Pyyx1晚,過濾過程如下如果下列條件中的任一條成立,則不認(rèn)為專家 為 的導(dǎo)師(1)在 和iij合作期間,IR值的時間序列URtijIt中存在IRtij< 0 ;(2)在 和…合作期間IkulctijIt序列沒有增長;(3)Bi和…和合作關(guān)系時間t僅持續(xù)了一年;(4)Py1j^> Py1ij,表示專家y」發(fā)表的第一篇論文的發(fā)表時間比專家Yi和y」合作的第一篇文章晚兩年以上,其中,IR和kulc是兩個衡量合作關(guān)系的標(biāo)準(zhǔn),{IR、} t用于衡量作者 是…論文合作者的概率與作者…是 論文合作者的概率的不平衡率其中,0 ^ IR^ 1, {killed用于衡量合作者之間合作的緊密程度的度量值,其中,0 ( kulc ( 1,所述兩個標(biāo)準(zhǔn)用于計算合作關(guān)系為師生關(guān)系的概率ru,計算公式為
6.如權(quán)利要求5所述的指導(dǎo)者推薦方法,其特征在于,所述步驟Sl中抽取師生關(guān)系的方式為根據(jù)用戶反饋修改抽取的師生關(guān)系。
7.如權(quán)利要求4所述的指導(dǎo)者推薦方法,其特征在于,所述步驟S2中的專家度特征包括研究方向和用戶輸入關(guān)鍵詞相關(guān)度、發(fā)表論文的影響力的指標(biāo)、近期發(fā)表論文的活躍程度指標(biāo)、學(xué)術(shù)成就的上升趨勢指標(biāo)、論文被引用數(shù)之和、學(xué)術(shù)生涯長度、學(xué)生平均學(xué)術(shù)成就、學(xué)生接受指導(dǎo)前后學(xué)術(shù)成就平均變化、最近5年的學(xué)生平均學(xué)術(shù)成就、學(xué)生學(xué)術(shù)成就總和、學(xué)生接受指導(dǎo)前后學(xué)術(shù)成就變化總及最近5年的學(xué)生學(xué)術(shù)成就總和。
8.如權(quán)利要求4 7中任一項(xiàng)所述的指導(dǎo)者推薦方法,其特征在于,所述步驟S2和S3 之間還包括步驟計算申請者申請指導(dǎo)者的成功率,計算公式如下success—rate(S,A) = (achieve_score(S,A)X achieve—weight+ interest_score(S,A)X interest—weight+refer—score(S,A)X refer—weight+ nation_score(S,A)Xnation—weight) /(achieve_weight+interest_weight+ refer_weight+nation_weight) 其中,achieve_weight表示實(shí)力匹配權(quán)重,achieve_score (S,Α)表示申請者和指導(dǎo)者之間的實(shí)力匹配度,形式化公式如下achieve_score (S, A) =S (S' s gpa—score+S' s pub_score+ R(S' s uni—rank,uni_count)-R(A' s hindex—rank,advisor_count) -R(A' s citation—rank,advisor_count)-R(Af suni—rank,uni_count)) 其中,S’ S表示“申請者的”,A’ S表示“指導(dǎo)者的”,gpa_SCOre為換算成百分比后的申請者GPA排名,pub_score為發(fā)表論文的評分,且pub_score = Iog10 (l+number_of_ pubs) + Σ Iog10(l+pub_conference_score),其中,參數(shù) number_of_pubs 表不指導(dǎo)者 A 發(fā)表的論文數(shù)量,pub_conference_score表示指導(dǎo)者A發(fā)表的所有論文對應(yīng)的會議或者期刊當(dāng)年的影響因子,imi_rank為申請者學(xué)校的排名;hindeX_rank為指導(dǎo)者的索引排名, citation_rank為指導(dǎo)者的引用總數(shù)排名,imi_rank為指導(dǎo)者所在學(xué)校排名,imi_COimt為大學(xué)數(shù)量,advisor_count為導(dǎo)師個數(shù);函數(shù)S( ·)是對所有參數(shù)的值進(jìn)行求和,函數(shù)R(x, y)表示歸一化函數(shù),將各個指標(biāo)映射到值域W,1]內(nèi),具體實(shí)現(xiàn)為當(dāng)x<y時,R(x,y)= Ι-χ/y,反之,R(χ, y) = 0,interest_weight表示研究方向匹配權(quán)重,interest_score (S,Α)表示申請者和指導(dǎo)者的研究方向匹配度,形式化公式如下
全文摘要
本發(fā)明公開了一種指導(dǎo)者推薦系統(tǒng),包括數(shù)據(jù)源模塊、師生關(guān)系抽取模塊、專家度特征分析模塊、專家度計算模塊和排序模塊,還公開了一種指導(dǎo)者推薦方法,包括以下步驟S1、采用了有時間約束的概率因子圖模型進(jìn)行師生關(guān)系挖掘;S2、建立基于專家度的推薦模型;S3、建立個性化的推薦模型;S4、利用基于專家度和基于個性化的推薦模型輸出推薦結(jié)果。本發(fā)明將推薦模型的NDCG指標(biāo)提高了5%~10%。利用概率模型建立了個性化推薦模型,實(shí)現(xiàn)了個性化的指導(dǎo)者推薦。
文檔編號G06F17/30GK102156706SQ20111003181
公開日2011年8月17日 申請日期2011年1月28日 優(yōu)先權(quán)日2011年1月28日
發(fā)明者何均宏, 馮建華, 唐杰, 李國良, 王喆 申請人:華為技術(shù)有限公司, 清華大學(xué)