一種指導(dǎo)者推薦系統(tǒng)及方法

文檔序號：6651740閱讀：333來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種指導(dǎo)者推薦系統(tǒng)及方法
技術(shù)領(lǐng)域：
本發(fā)明涉及互聯(lián)網(wǎng)搜索技術(shù)領(lǐng)域，特別涉及一種指導(dǎo)者推薦系統(tǒng)及方法。
背景技術(shù)：
在學(xué)習(xí)和科研的過程中，一個合適的指導(dǎo)者往往能夠?qū)ψ约旱某砷L和發(fā)展起到關(guān)鍵性的作用。也經(jīng)常會在出國留學(xué)，申請研究生，或者是科學(xué)研究的過程中，需要尋求一位合適的導(dǎo)師。但是作為一名學(xué)生的社交圈是比較小的，獲取導(dǎo)師信息的渠道非常有限。舉例來說，想要申請出國，感興趣的方向是數(shù)據(jù)挖掘，這時如果沒有一位資深的數(shù)據(jù)挖掘方面的專家來介紹，很難全面的了解到數(shù)據(jù)挖掘領(lǐng)域權(quán)威的導(dǎo)師。在由學(xué)術(shù)搜索引擎Arnetminer 發(fā)起的對用戶使用目的的調(diào)查中，共331名用戶參加了調(diào)查，在所有六個選項(xiàng)中有17. 23% 的用戶選擇了“找尋一個好的導(dǎo)師”這一選項(xiàng)。由此可見，指導(dǎo)者搜索確實(shí)是一個有著較強(qiáng)用戶需求的熱點(diǎn)問題。而從申請者的角度來說，獲得某一個領(lǐng)域權(quán)威的指導(dǎo)者其實(shí)并不是一個理想的結(jié)果，因?yàn)閷τ诖蟛糠稚暾堈邅碚f，憑借自己的能力水平，申請到最權(quán)威專家的成功率是很小的。因此，對于申請者更有幫助的是那些在研究方向上和自己相吻合，申請的成功率又比較大的導(dǎo)師。針對上述問題，以下研究工作將非常重要即向申請者提供個性化的指導(dǎo)者推薦服務(wù)，即根據(jù)申請者的個人基本信息以及感興趣的研究方向，向用戶推薦在該領(lǐng)域比較權(quán)威而申請成功率又比較大的導(dǎo)師。在已有的研究中，大部分是對專家搜索的研究，比如 Craig Macdonald和Iadh Ounis基于候選人投票的專家搜索研究，Jing Zhang, Jie Tang 等人的社會網(wǎng)絡(luò)中的專家發(fā)掘，以及Zi Yang, Jie Tang等對于專家搜索到伯樂搜索的遷移學(xué)習(xí)問題的研究。但是涉及個性化導(dǎo)師推薦的研究幾乎沒有。隨著*吐2.0的發(fā)展，一些導(dǎo)師評價網(wǎng)站以及師生關(guān)系圖譜網(wǎng)站，也為本發(fā)明的研究提供了一定的借鑒意義，比如 RateMyProfessors. com禾口 Mathematics Genealogy Project。但這些網(wǎng)站存在的主要問題是導(dǎo)師的資料不全面，用戶的評價過于主觀，在評價較少的情況下容易誤導(dǎo)用戶。綜上所述，個性化的指導(dǎo)者推薦是一個全新的研究課題，主要的難點(diǎn)和挑戰(zhàn)體現(xiàn)在(1)如何衡量一位指導(dǎo)者的專家度。在已有的研究中，對一位專家的專家度的衡量更多的是考慮其發(fā)表論文的數(shù)量和質(zhì)量以及合作關(guān)系的信息，為了評價指導(dǎo)者的專家度，師生關(guān)系的信息就顯得尤為重要。但是很多時候師生關(guān)系往往隱藏于專家間的學(xué)術(shù)合作網(wǎng)絡(luò)之中，因此如何從學(xué)術(shù)合作網(wǎng)絡(luò)中挖掘師生關(guān)系并進(jìn)一步衡量指導(dǎo)者的專家度成為難點(diǎn)之一。(2)如何根據(jù)用戶信息及指導(dǎo)者信息進(jìn)行個性化推薦。傳統(tǒng)的信息檢索模型，如布爾模型、向量空間模型、潛在語意索引等都是對查詢關(guān)鍵詞以及目標(biāo)文檔進(jìn)行相似度計算。而個性化指導(dǎo)者推薦需要對用戶的各類信息及指導(dǎo)者特征進(jìn)行不同域上的匹配整合，這就需要改進(jìn)傳統(tǒng)信息檢索模型或建立新的推薦模型。因此，如何建立基于個性化的推薦模型成為又一挑戰(zhàn)。(3)如何評測推薦精度。對于指導(dǎo)者專家度的評測本身就是一個主觀的過程。而個性化的推薦結(jié)果更是難于找到統(tǒng)一的評測標(biāo)準(zhǔn)。針對這個問題，Yang在伯樂搜索的研究中采用了郵件調(diào)查的形式收集了 82名用戶的反饋，以此對搜索結(jié)果進(jìn)行評測。但是對本發(fā)明中基于個性化的推薦模型的評測仍是一個難點(diǎn)。參考文獻(xiàn)[1]T. Wu,Y. Chen,and J. Han. Re-examination of interestingness measures in pattern mining :A unified framework. Data Mining and Knowledge Discovery,2010

發(fā)明內(nèi)容
(一)要解決的技術(shù)問題本發(fā)明要解決的技術(shù)問題是如何從學(xué)術(shù)合作網(wǎng)絡(luò)中挖掘師生關(guān)系并進(jìn)一步衡量指導(dǎo)者的專家度，及對指導(dǎo)者進(jìn)行個性化推薦，以達(dá)到更精確的指導(dǎo)者搜索。(二)技術(shù)方案

為解決上述技術(shù)問題，本發(fā)明提供了一種指導(dǎo)者推薦系統(tǒng)，包括數(shù)據(jù)源模塊、師生關(guān)系抽取模塊、專家度特征分析模塊、專家度計算模塊和排序模塊，所述數(shù)據(jù)源模塊用于為師生關(guān)系抽取模塊提供師生關(guān)系數(shù)據(jù)；所述師生關(guān)系抽取模塊用于根據(jù)所述師生關(guān)系數(shù)據(jù)抽取師生關(guān)系；所述專家度特征分析模塊用于分析師生關(guān)系中指導(dǎo)者的專家度特征；所述專家度計算模塊用于根據(jù)專家度特征計算指導(dǎo)者專家度；所述排序模塊用于根據(jù)專家度進(jìn)行排序，輸出推薦的指導(dǎo)者列表。其中，所述系統(tǒng)還包括個人信息分析模塊，用于分析申請者和指導(dǎo)者的個人信息，計算申請者申請所述指導(dǎo)者列表中的指導(dǎo)者的申請成功率。其中，所述系統(tǒng)還包括用戶反饋模塊，用于抽取用戶反饋的師生關(guān)系。本發(fā)明還公開了一種指導(dǎo)者推薦方法，包括以下步驟Sl 根據(jù)專家及其發(fā)表的論文數(shù)、發(fā)表時間、指導(dǎo)者合作關(guān)系網(wǎng)抽取師生關(guān)系，所述指導(dǎo)者合作關(guān)系網(wǎng)為{G} = KV = Vp U Va, E)}，其中P={A，+ ++，&}代表論文集，Pi發(fā)表時間為、，廣={ ...,代表作者集，E為邊集合，每一條邊 e E連接了論文Pi與作者ap表示…是Pi的作者之一，抽取出的師生關(guān)系表示為一個有向無環(huán)圖 H = (F'，E's，{(wdU，為G的子圖，且有Es e E，邊相關(guān)的信息Ov Stij, e^j) 中，表示作者…是％指導(dǎo)者的概率，Stij和edu分別表示師生關(guān)系開始的時間和結(jié)束的時間；S2:抽取所述師生關(guān)系中的基于話題模型類，學(xué)術(shù)信息類以及學(xué)生成就類的專家度特征，利用排序支持向量機(jī)訓(xùn)練所述專家度特征的權(quán)重并計算專家的專家度，具體方式為排序支持向量機(jī)對于用戶輸入的查詢關(guān)鍵詞中兩個不同排序等級(<，乂)的實(shí)例,創(chuàng)建一個新的實(shí)例(< -彳，。，其中引入的變量Zi的取值滿足如果彳> 乂那么 Zi = +1，否則Zi = -1，構(gòu)建好新的訓(xùn)練集P = I(Xf-XfA)Kl1之后，進(jìn)一步構(gòu)建排序函數(shù) >，將訓(xùn)練集中的實(shí)例對(xf,xf )簡寫為X'，向量W則是實(shí)例對的每個特征對應(yīng)的權(quán)重，值越大表明該維特征對于決定實(shí)例之間等級關(guān)系的作用越大，W*是W的最優(yōu)解，學(xué)習(xí)排序函數(shù)的目的則是求解向量W的最優(yōu)解從而使得排序函數(shù)f<W*，X' >能夠正確排列出訓(xùn)練集中實(shí)例對的等級關(guān)系，求解排序函數(shù)f<W*，X' >采用機(jī)器學(xué)習(xí)算法，利用支持向量機(jī)來求解一個二次最優(yōu)化問題
權(quán)利要求
1.一種指導(dǎo)者推薦系統(tǒng)，其特征在于，包括數(shù)據(jù)源模塊、師生關(guān)系抽取模塊、專家度特征分析模塊、專家度計算模塊和排序模塊，所述數(shù)據(jù)源模塊用于為師生關(guān)系抽取模塊提供師生關(guān)系數(shù)據(jù)；所述師生關(guān)系抽取模塊用于根據(jù)所述師生關(guān)系數(shù)據(jù)抽取師生關(guān)系；所述專家度特征分析模塊用于分析師生關(guān)系中指導(dǎo)者的專家度特征；所述專家度計算模塊用于根據(jù)專家度特征計算指導(dǎo)者專家度；所述排序模塊用于根據(jù)專家度進(jìn)行排序，輸出推薦的指導(dǎo)者列表。
2.如權(quán)利要求1所述的指導(dǎo)者推薦系統(tǒng)，其特征在于，所述系統(tǒng)還包括個人信息分析模塊，用于分析申請者和指導(dǎo)者的個人信息，計算申請者申請所述指導(dǎo)者列表中的指導(dǎo)者的申請成功率。
3.如權(quán)利要求1或2所述的指導(dǎo)者推薦系統(tǒng)，其特征在于，所述系統(tǒng)還包括用戶反饋模塊，用于抽取用戶反饋的師生關(guān)系。
4.一種指導(dǎo)者推薦方法，其特征在于，包括以下步驟Sl 根據(jù)專家及其發(fā)表的論文數(shù)、發(fā)表時間、指導(dǎo)者合作關(guān)系網(wǎng)抽取師生關(guān)系，所述指導(dǎo)者合作關(guān)系網(wǎng)為{G} = {(V = Vp U Va,幻}，其中廣={凡，+ ++， }代表論文集， Pi發(fā)表時間為ti; ^a = { ...,代表作者集，E為邊集合，每一條邊 e E連接了論文？1與作者…，表示是？1的作者之一，抽取出的師生關(guān)系表示為一個有向無環(huán)圖丑= (77^3(4, ,^;)}⑷;^s) ,H為G的子圖，且有Es e E，邊相關(guān)的信息Ov Stij, e^j)中，表示作者…是％指導(dǎo)者的概率，Stij和edu分別表示師生關(guān)系開始的時間和結(jié)束的時間；S2:抽取所述師生關(guān)系中的基于話題模型類，學(xué)術(shù)信息類以及學(xué)生成就類的專家度特征，利用排序支持向量機(jī)訓(xùn)練所述專家度特征的權(quán)重并計算專家的專家度，具體方式為排序支持向量機(jī)對于用戶輸入的查詢關(guān)鍵詞中兩個不同排序等級(<，乂)的實(shí)例 ,創(chuàng)建一個新的實(shí)例(< -彳，。，其中引入的變量Zi的取值滿足如果彳> 乂那么 Zi = +1，否則Zi = _1，構(gòu)建好新的訓(xùn)練集廠={@；1-1；)4)}!—1之后，進(jìn)一步構(gòu)建排序函數(shù) /<^,(x;-xf) >，將訓(xùn)練集中的實(shí)例對(Xf，xf )簡寫為χ'，向量w則是實(shí)例對的每個特征對應(yīng)的權(quán)重，值越大表明該維特征對于決定實(shí)例之間等級關(guān)系的作用越大，W*是W的最優(yōu)解，學(xué)習(xí)排序函數(shù)的目的則是求解向量W的最優(yōu)解從而使得排序函數(shù)f<W*，X' >能夠正確排列出訓(xùn)練集中實(shí)例對的等級關(guān)系，求解排序函數(shù)f<W*，X' >采用機(jī)器學(xué)習(xí)算法，利用支持向量機(jī)來求解一個二次最優(yōu)化問題其中有 ξ i 彡 0，i = 1，. . .，1 ;z<w, x(1)-x(2)> 彡 1- ξ ρξ i表示排序函數(shù)的等級排序誤差，S表示新輸入的實(shí)例集合，C表示用戶自定義的SVM 的參數(shù)，每個X表示一個實(shí)例，(xa,xb)表示實(shí)例對，(<，xf)表示第i個實(shí)例對；χω-χ(2)表示相鄰兩個實(shí)例構(gòu)成的實(shí)例對；y表示每一個實(shí)例的排序等級，(ya，yb)則表示實(shí)例對的排序等級關(guān)系，(<，乂)表示第i個實(shí)例對的排序等級關(guān)系，其排序關(guān)系可以簡寫為z，當(dāng)ζ = 1的時候表明Xa的排序等級比Xb的排序等級高，當(dāng)ζ = -1的時候表明Xa的排序等級比Xb的排序等級低；S3 將推薦的指導(dǎo)者的信息返回給用戶。
5.如權(quán)利要求4所述的指導(dǎo)者推薦方法，其特征在于，所述步驟Sl中抽取師生關(guān)系的方式為利用有時間約束的概率因子圖模型進(jìn)行抽取，包括步驟在指導(dǎo)者合作關(guān)系網(wǎng)中過濾肯定沒有師生關(guān)系的連接，其中，學(xué)生χ結(jié)束師生關(guān)系的時間edx比χ的導(dǎo)師yx結(jié)束師生關(guān)系的時間edyx要晚，一個學(xué)生χ發(fā)表第一篇論文的時間 Pyx1要比他的導(dǎo)師yx發(fā)表第一篇論文的時間Pyyx1晚，過濾過程如下如果下列條件中的任一條成立，則不認(rèn)為專家為的導(dǎo)師(1)在和iij合作期間，IR值的時間序列URtijIt中存在IRtij< 0 ；(2)在和…合作期間IkulctijIt序列沒有增長；(3)Bi和…和合作關(guān)系時間t僅持續(xù)了一年；(4)Py1j^> Py1ij,表示專家y」發(fā)表的第一篇論文的發(fā)表時間比專家Yi和y」合作的第一篇文章晚兩年以上，其中，IR和kulc是兩個衡量合作關(guān)系的標(biāo)準(zhǔn)，{IR、} t用于衡量作者是…論文合作者的概率與作者…是論文合作者的概率的不平衡率其中，0 ^ IR^ 1, {killed用于衡量合作者之間合作的緊密程度的度量值，其中，0 ( kulc ( 1，所述兩個標(biāo)準(zhǔn)用于計算合作關(guān)系為師生關(guān)系的概率ru，計算公式為
6.如權(quán)利要求5所述的指導(dǎo)者推薦方法，其特征在于，所述步驟Sl中抽取師生關(guān)系的方式為根據(jù)用戶反饋修改抽取的師生關(guān)系。
7.如權(quán)利要求4所述的指導(dǎo)者推薦方法，其特征在于，所述步驟S2中的專家度特征包括研究方向和用戶輸入關(guān)鍵詞相關(guān)度、發(fā)表論文的影響力的指標(biāo)、近期發(fā)表論文的活躍程度指標(biāo)、學(xué)術(shù)成就的上升趨勢指標(biāo)、論文被引用數(shù)之和、學(xué)術(shù)生涯長度、學(xué)生平均學(xué)術(shù)成就、學(xué)生接受指導(dǎo)前后學(xué)術(shù)成就平均變化、最近5年的學(xué)生平均學(xué)術(shù)成就、學(xué)生學(xué)術(shù)成就總和、學(xué)生接受指導(dǎo)前后學(xué)術(shù)成就變化總及最近5年的學(xué)生學(xué)術(shù)成就總和。
8.如權(quán)利要求4 7中任一項(xiàng)所述的指導(dǎo)者推薦方法，其特征在于，所述步驟S2和S3 之間還包括步驟計算申請者申請指導(dǎo)者的成功率，計算公式如下success—rate(S，A) = (achieve_score(S，A)X achieve—weight+ interest_score(S，A)X interest—weight+refer—score(S，A)X refer—weight+ nation_score(S，A)Xnation—weight) /(achieve_weight+interest_weight+ refer_weight+nation_weight) 其中，achieve_weight表示實(shí)力匹配權(quán)重，achieve_score (S，Α)表示申請者和指導(dǎo)者之間的實(shí)力匹配度，形式化公式如下achieve_score (S, A) =S (S' s gpa—score+S' s pub_score+ R(S' s uni—rank，uni_count)-R(A' s hindex—rank，advisor_count) -R(A' s citation—rank，advisor_count)-R(Af suni—rank，uni_count)) 其中，S’ S表示“申請者的”，A’ S表示“指導(dǎo)者的”，gpa_SCOre為換算成百分比后的申請者GPA排名，pub_score為發(fā)表論文的評分，且pub_score = Iog10 (l+number_of_ pubs) + Σ Iog10(l+pub_conference_score)，其中，參數(shù) number_of_pubs 表不指導(dǎo)者 A 發(fā)表的論文數(shù)量，pub_conference_score表示指導(dǎo)者A發(fā)表的所有論文對應(yīng)的會議或者期刊當(dāng)年的影響因子，imi_rank為申請者學(xué)校的排名；hindeX_rank為指導(dǎo)者的索引排名， citation_rank為指導(dǎo)者的引用總數(shù)排名，imi_rank為指導(dǎo)者所在學(xué)校排名，imi_COimt為大學(xué)數(shù)量，advisor_count為導(dǎo)師個數(shù)；函數(shù)S( ·)是對所有參數(shù)的值進(jìn)行求和，函數(shù)R(x， y)表示歸一化函數(shù)，將各個指標(biāo)映射到值域W，1]內(nèi)，具體實(shí)現(xiàn)為當(dāng)x<y時，R(x，y)= Ι-χ/y，反之，R(χ, y) = 0，interest_weight表示研究方向匹配權(quán)重，interest_score (S，Α)表示申請者和指導(dǎo)者的研究方向匹配度，形式化公式如下
全文摘要
本發(fā)明公開了一種指導(dǎo)者推薦系統(tǒng)，包括數(shù)據(jù)源模塊、師生關(guān)系抽取模塊、專家度特征分析模塊、專家度計算模塊和排序模塊，還公開了一種指導(dǎo)者推薦方法，包括以下步驟S1、采用了有時間約束的概率因子圖模型進(jìn)行師生關(guān)系挖掘；S2、建立基于專家度的推薦模型；S3、建立個性化的推薦模型；S4、利用基于專家度和基于個性化的推薦模型輸出推薦結(jié)果。本發(fā)明將推薦模型的NDCG指標(biāo)提高了5％～10％。利用概率模型建立了個性化推薦模型，實(shí)現(xiàn)了個性化的指導(dǎo)者推薦。
文檔編號G06F17/30GK102156706SQ20111003181
公開日2011年8月17日申請日期2011年1月28日優(yōu)先權(quán)日2011年1月28日
發(fā)明者何均宏, 馮建華, 唐杰, 李國良, 王喆申請人:華為技術(shù)有限公司, 清華大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：唐杰;王喆;何均宏;馮建華;李國良
技術(shù)所有人：清華大學(xué);華為技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：燃?xì)廨啓C(jī)氣路故障建模方法
上一篇：基于乏信息理論融合的產(chǎn)品壽命特征信息提取方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

門禁系統(tǒng)安裝方法相關(guān)技術(shù)

系統(tǒng)交易方法相關(guān)技術(shù)

手機(jī)群控系統(tǒng)方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種指導(dǎo)者推薦系統(tǒng)及方法