基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法

文檔序號(hào)：6593790閱讀：409來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)應(yīng)用領(lǐng)域，具體涉及一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法。
背景技術(shù)：
飛速發(fā)展的信息技術(shù)為互聯(lián)網(wǎng)用戶群體提供了海量、異構(gòu)、互相關(guān)聯(lián)的復(fù)雜網(wǎng)絡(luò)關(guān)系數(shù)據(jù)，包括學(xué)術(shù)論文引用關(guān)系網(wǎng)絡(luò)、社交關(guān)系網(wǎng)絡(luò)等。深入分析這些網(wǎng)絡(luò)數(shù)據(jù)，有效利用關(guān)系網(wǎng)絡(luò)數(shù)據(jù)的關(guān)聯(lián)結(jié)構(gòu)與網(wǎng)絡(luò)自然屬性，有利于學(xué)習(xí)更精確的預(yù)測(cè)模型，提高諸多數(shù)據(jù)挖掘和預(yù)測(cè)任務(wù)的性能，例如更準(zhǔn)確地推薦學(xué)術(shù)論文引用文獻(xiàn)、推薦社交網(wǎng)絡(luò)好友等。這也是近年來(lái)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)領(lǐng)域廣泛關(guān)注的熱點(diǎn)問(wèn)題之一。為了更好地學(xué)習(xí)復(fù)雜關(guān)系網(wǎng)絡(luò)數(shù)據(jù)，實(shí)現(xiàn)自動(dòng)預(yù)測(cè)關(guān)系數(shù)據(jù)的鏈接關(guān)系等任務(wù)，近年來(lái)，國(guó)際上使用含有隱變量的關(guān)系隱層空間模型對(duì)關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行建模，預(yù)測(cè)網(wǎng)絡(luò)鏈接關(guān)系。相關(guān)工作包括:使用隱層空間模型學(xué)習(xí)關(guān)系網(wǎng)絡(luò)數(shù)據(jù)，例如P.D.Hoff.提出的“Modeling homophily and stochastic equivalence in symmetric relational data，，，Advances in Neural Information Processing Systems (2007) ;E.Airoldi 等人提出的“Mixed membership stochastic blockmodels”，Advances in Neural InformationProcessing Systems (20 08)等；以及非參數(shù)化的貝葉斯方法例如K.Miller等人提出的“Nonparametric latent feature models for link prediction，，，Advances in NeuralInformation Processing Systems (2009)等；J.Chang等人提出的同時(shí)考慮觀測(cè)數(shù)據(jù)鏈接結(jié)構(gòu)和文本信息的模型 “Relational topic models for document networks”，International Conference on Artificial Intelligence and Statistics(2009)等。為了實(shí)現(xiàn)鏈接預(yù)測(cè)任務(wù)，需要定義兩個(gè)網(wǎng)絡(luò)實(shí)體之間的關(guān)系判別函數(shù)，學(xué)習(xí)與所有成對(duì)網(wǎng)絡(luò)實(shí)體相關(guān)的隱權(quán)值矩陣。現(xiàn)有的關(guān)系隱層空間模型沒(méi)有考慮網(wǎng)絡(luò)是否是對(duì)稱(chēng)的，采用對(duì)稱(chēng)的對(duì)角權(quán)值矩陣n定義關(guān)于鏈接指示變量Y的似然函數(shù)^iUn = Zj, η) = σ( 7Τ(&。％))，其中Zi, Zj為對(duì)象實(shí)體在隱層特征空間中的表示向量，這里特指非負(fù)的隱含話題表示，σ (.)為常用的Sigmoid閾值函數(shù)。可以發(fā)現(xiàn)等式關(guān)系^(Zi Ozj) = \Tdiag(T )%成立，由于隱話題特征力的非負(fù)性約束以及對(duì)角元素之間的互
相競(jìng)爭(zhēng)，因此Z中必然會(huì)出現(xiàn)部分元素為正值，還有一部分元素為負(fù)值。負(fù)值表示兩個(gè)隱話題之間關(guān)系對(duì)于鏈接似然函數(shù)產(chǎn)生負(fù)影響。而這與我們直觀理解一個(gè)引用關(guān)系網(wǎng)絡(luò)恰恰是矛盾的，因?yàn)閺南嗤[話題中產(chǎn)生的樣本應(yīng)該更有可能存在“引用-被引用”的鏈接關(guān)系。此外，使用對(duì)角權(quán)值矩陣，其實(shí)暗含了模型是對(duì)稱(chēng)性的假設(shè)條件，即由i — j和由j — i的鏈接存在的概率是相同的。這種對(duì)稱(chēng)性屬性對(duì)于很多非對(duì)稱(chēng)網(wǎng)絡(luò)來(lái)說(shuō)都是不合理的。此不合理假設(shè)限制了模型發(fā)現(xiàn)關(guān)系網(wǎng)絡(luò)隱層空間表示的能力，還影響了模型的預(yù)測(cè)性能。其次，對(duì)于關(guān)系隱話題模型的精確與高效求解(模型學(xué)習(xí)與推理問(wèn)題)也是本發(fā)明涉及的主要內(nèi)容。由于模型目標(biāo)函數(shù)通常含有數(shù)據(jù)似然和正則化損失函數(shù)兩項(xiàng)，而正則化損失函數(shù)(如最大似然估計(jì)中的羅杰斯特?fù)p失函數(shù))與先驗(yàn)分布(通常假設(shè)服從高斯分布)不滿足共軛性，因此很難精確推理得到模型的后驗(yàn)分布。通常采用近似推理的方法(如變分方法)對(duì)模型近似推理。例如，D.Blei等人提出的“Supervised Topic Models”,Advances in Neural Information Processing Systems(2007) ;S.Lacoste-Jullien 等人提出的 “DiscLDA:Discriminative Learning for Dimensionality Reduction andClassification，，，Advances in Neural Information Processing Systems (2008) ；J.Zhu等人提出的“MedLDA:Maximum Margin Supervised Topic Models for Regression andClassification，，，International Conference on Machine Learning (2009)。在這些方法中使用的變分推理基于很強(qiáng)的均值場(chǎng)假設(shè)，即要求所有變量的后驗(yàn)分布滿足因子化獨(dú)立性，這在實(shí)際應(yīng)用中很不合理，一定程度上會(huì)影響模型的推理精度。因此，針對(duì)以上不足，本發(fā)明提供了一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法。

發(fā)明內(nèi)容
(一)解決的技術(shù)問(wèn)題針對(duì)現(xiàn)有技術(shù)的不足，本發(fā)明提供了一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法；本發(fā)明克服了現(xiàn)有技術(shù)中存在的對(duì)稱(chēng)性關(guān)系判別函數(shù)的不合理、因關(guān)系判別函數(shù)中數(shù)據(jù)似然與損失函數(shù)兩部分的不均衡以及近似推理的均值場(chǎng)假設(shè)所造成的鏈接關(guān)系預(yù)測(cè)性能不理想的缺陷。(二)技術(shù)方案為實(shí)現(xiàn)以上目的，本發(fā)明通過(guò)以下技術(shù)方案予以實(shí)現(xiàn):一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法，包括以下步驟:S1、將文本關(guān)系網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理，提取詞袋文本特征及文檔間的鏈接關(guān)系；S2、根據(jù)所述詞袋文本特征及文檔間的鏈接關(guān)系建立廣義關(guān)系隱話題鏈接預(yù)測(cè)模型；S3、將所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型進(jìn)行訓(xùn)練；S4、將訓(xùn)練好的廣義關(guān)系隱話題鏈接預(yù)測(cè)模型用來(lái)預(yù)測(cè)關(guān)系網(wǎng)絡(luò)中文檔之間的鏈接關(guān)系。其中，步驟S2中所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型適用于對(duì)稱(chēng)或非對(duì)稱(chēng)網(wǎng)絡(luò)。優(yōu)選的，所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型通過(guò)完全實(shí)數(shù)值矩陣的方式來(lái)描述；定義廣義鏈接似然函數(shù)為:
p(tjij = I |z,:, Zj, U) = σ(ζ7Uzj),其中Zi，Zj為對(duì)象實(shí)體在隱層特征空間中的表示向量，σ為sigmoid函數(shù)，U為KXK的實(shí)數(shù)值矩陣。優(yōu)選的，所述關(guān)于鏈接關(guān)系的廣義似然函數(shù)在處理對(duì)稱(chēng)的關(guān)系數(shù)據(jù)時(shí)，在模型中加入對(duì)稱(chēng)性約束條件U = Ut。其中，步驟S3中包含步驟:對(duì)廣義關(guān)系隱話題模型進(jìn)行學(xué)習(xí)；對(duì)廣義關(guān)系隱話題模型進(jìn)行后驗(yàn)推理。優(yōu)選的，采用基于羅杰斯特?fù)p失函數(shù)的最大似然判別式學(xué)習(xí)方法學(xué)習(xí)廣義關(guān)系隱話題鏈接預(yù)測(cè)模型。優(yōu)選的，廣義關(guān)系隱話題模型的目標(biāo)函數(shù)為
權(quán)利要求
1.一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法，其特征在于，包括以下步驟: 51、將文本關(guān)系網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理，提取詞袋文本特征及文檔間的鏈接關(guān)系； 52、根據(jù)所述詞袋文本特征及文檔間的鏈接關(guān)系建立廣義關(guān)系隱話題鏈接預(yù)測(cè)模型； 53、將所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型進(jìn)行訓(xùn)練； 54、將訓(xùn)練好的廣義關(guān)系隱話題鏈接預(yù)測(cè)模型用來(lái)預(yù)測(cè)關(guān)系網(wǎng)絡(luò)中文檔之間的鏈接關(guān)系O
2.如權(quán)利要求1所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法，其特征在于，步驟S2中所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型適用于對(duì)稱(chēng)或非對(duì)稱(chēng)網(wǎng)絡(luò)。
3.如權(quán)利要求2所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法，其特征在于，所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型通過(guò)完全實(shí)數(shù)值矩陣的方式來(lái)描述；定義廣義鏈接似然函數(shù)為:PiVij =U) = aizJUzj), 其中Zi, \為對(duì)象實(shí)體在隱層特征空間中的表示向量，O為sigmoid函數(shù)，U為KXK的實(shí)數(shù)值矩陣。
4.如權(quán)利要求3所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法，其特征在于，所述關(guān)于鏈接關(guān)系的廣義似然函數(shù)在處理對(duì)稱(chēng)的關(guān)系數(shù)據(jù)時(shí)，在模型中加入對(duì)稱(chēng)性約束條件U =(
5.如權(quán)利要求1所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法，其特征在于，步驟S3中包含步驟: 對(duì)廣義關(guān)系隱話題模型進(jìn)行學(xué)習(xí)；對(duì)廣義關(guān)系隱話題模型進(jìn)行后驗(yàn)推理。
6.如權(quán)利要求5所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法，其特征在于，采用基于羅杰斯特?fù)p失函數(shù)的最大似然判別式學(xué)習(xí)方法學(xué)習(xí)廣義關(guān)系隱話題鏈接預(yù)測(cè)模型。
7.如權(quán)利要求6所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法，其特征在于，廣義關(guān)系隱話題模型的目標(biāo)函數(shù)為 C{q(U, Θ, Ζ,.)) + cR{q{L\ Z)) 其中 C(q) = KL(q\\Pi)(U, θ.Ζ, Φ)) -EJlogi,(W|Z.Φ)]是描述數(shù)據(jù)的似然函數(shù)，n{q{U, Z))是損失函數(shù)，W是可觀測(cè)數(shù)據(jù)，U是隱權(quán)值矩陣，Z = {巧}^表示隱話題指示變量，θ = {氏紀(jì)4是話題混合比例變量。c是控制鏈接關(guān)系結(jié)構(gòu)對(duì)整個(gè)目標(biāo)函數(shù)影響大小的正則化參數(shù)。
8.如權(quán)利要求5所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法，其特征在于，采用基于數(shù)據(jù)增廣統(tǒng)計(jì)理論的馬爾可夫鏈蒙特卡羅MCMC采樣精確推理方法對(duì)廣義關(guān)系隱話題鏈接預(yù)測(cè)模型進(jìn)行后驗(yàn)推理。
9.如權(quán)利要求1所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法，其特征在于，步驟S4中預(yù)測(cè)為新文檔與其它文檔之間的鏈接關(guān)系。
10.如權(quán)利要求1 9中任一項(xiàng)所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法，其特征在于，該方法是一種概率圖模型方法，對(duì)關(guān)系網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)和關(guān)系數(shù)據(jù)的文本內(nèi)容同時(shí)進(jìn)行建模。
全文摘要
本發(fā)明提供一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,涉及計(jì)算機(jī)應(yīng)用領(lǐng)域。包括以下步驟S1、將文本關(guān)系網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理，提取詞袋文本特征及文檔間的鏈接關(guān)系；S2、根據(jù)所述詞袋文本特征及文檔間的鏈接關(guān)系，建立廣義關(guān)系隱話題鏈接預(yù)測(cè)模型；S3、將所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型進(jìn)行訓(xùn)練；S4、將訓(xùn)練好的廣義關(guān)系隱話題鏈接預(yù)測(cè)模型用來(lái)預(yù)測(cè)文檔之間的鏈接關(guān)系。本發(fā)明克服了現(xiàn)有技術(shù)中存在的對(duì)稱(chēng)性關(guān)系判別函數(shù)的不合理、因關(guān)系判別函數(shù)中數(shù)據(jù)似然與損失函數(shù)兩部分的不均衡以及近似推理的均值場(chǎng)假設(shè)所造成的鏈接關(guān)系預(yù)測(cè)性能不理想的缺陷，顯著提高在鏈接關(guān)系預(yù)測(cè)、網(wǎng)絡(luò)推薦、文本檢索等任務(wù)中的實(shí)用性能。
文檔編號(hào)G06F19/00GK103198228SQ20131013624
公開(kāi)日2013年7月10日申請(qǐng)日期2013年4月18日優(yōu)先權(quán)日2013年4月18日
發(fā)明者陳寧, 朱軍, 張鈸申請(qǐng)人:清華大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳寧;朱軍;張鈸
技術(shù)所有人：清華大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種基于dct變換的智能紋理防偽方法
上一篇：超高速飛行目標(biāo)的電磁散射分析方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

廣義預(yù)測(cè)控制相關(guān)技術(shù)

廣義預(yù)測(cè)控制代碼相關(guān)技術(shù)

廣義預(yù)測(cè)控制算法相關(guān)技術(shù)

廣義預(yù)測(cè)控制算法實(shí)例相關(guān)技術(shù)

廣義線性模型相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法