專(zhuān)利名稱(chēng):基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)應(yīng)用領(lǐng)域,具體涉及一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法。
背景技術(shù):
飛速發(fā)展的信息技術(shù)為互聯(lián)網(wǎng)用戶群體提供了海量、異構(gòu)、互相關(guān)聯(lián)的復(fù)雜網(wǎng)絡(luò)關(guān)系數(shù)據(jù),包括學(xué)術(shù)論文引用關(guān)系網(wǎng)絡(luò)、社交關(guān)系網(wǎng)絡(luò)等。深入分析這些網(wǎng)絡(luò)數(shù)據(jù),有效利用關(guān)系網(wǎng)絡(luò)數(shù)據(jù)的關(guān)聯(lián)結(jié)構(gòu)與網(wǎng)絡(luò)自然屬性,有利于學(xué)習(xí)更精確的預(yù)測(cè)模型,提高諸多數(shù)據(jù)挖掘和預(yù)測(cè)任務(wù)的性能,例如更準(zhǔn)確地推薦學(xué)術(shù)論文引用文獻(xiàn)、推薦社交網(wǎng)絡(luò)好友等。這也是近年來(lái)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)領(lǐng)域廣泛關(guān)注的熱點(diǎn)問(wèn)題之一。為了更好地學(xué)習(xí)復(fù)雜關(guān)系網(wǎng)絡(luò)數(shù)據(jù),實(shí)現(xiàn)自動(dòng)預(yù)測(cè)關(guān)系數(shù)據(jù)的鏈接關(guān)系等任務(wù),近年來(lái),國(guó)際上使用含有隱變量的關(guān)系隱層空間模型對(duì)關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行建模,預(yù)測(cè)網(wǎng)絡(luò)鏈接關(guān)系。相關(guān)工作包括:使用隱層空間模型學(xué)習(xí)關(guān)系網(wǎng)絡(luò)數(shù)據(jù),例如P.D.Hoff.提出的“Modeling homophily and stochastic equivalence in symmetric relational data,,,Advances in Neural Information Processing Systems (2007) ;E.Airoldi 等人提出的“Mixed membership stochastic blockmodels”,Advances in Neural InformationProcessing Systems (20 08)等;以及非參數(shù)化的貝葉斯方法例如K.Miller等人提出的“Nonparametric latent feature models for link prediction,,,Advances in NeuralInformation Processing Systems (2009)等;J.Chang等人提出的同時(shí)考慮觀測(cè)數(shù)據(jù)鏈接結(jié)構(gòu)和文本信息的模型 “Relational topic models for document networks”,International Conference on Artificial Intelligence and Statistics(2009)等。為了實(shí)現(xiàn)鏈接預(yù)測(cè)任務(wù),需要定義兩個(gè)網(wǎng)絡(luò)實(shí)體之間的關(guān)系判別函數(shù),學(xué)習(xí)與所有成對(duì)網(wǎng)絡(luò)實(shí)體相關(guān)的隱權(quán)值矩陣。現(xiàn)有的關(guān)系隱層空間模型沒(méi)有考慮網(wǎng)絡(luò)是否是對(duì)稱(chēng)的,采用對(duì)稱(chēng)的對(duì)角權(quán)值矩陣n定義關(guān)于鏈接指示變量Y的似然函數(shù)^iUn = Zj, η) = σ( 7Τ(&。%)),其中Zi, Zj為對(duì)象實(shí)體在隱層特征空間中的表示向量,這里特指非負(fù)的隱含話題表示,σ (.)為常用的Sigmoid閾值函數(shù)。可以發(fā)現(xiàn)等式關(guān)系^(Zi Ozj) = \Tdiag(T )%成立,由于隱話題特征力的非負(fù)性約束以及對(duì)角元素之間的互
相競(jìng)爭(zhēng),因此Z中必然會(huì)出現(xiàn)部分元素為正值,還有一部分元素為負(fù)值。負(fù)值表示兩個(gè)隱話題之間關(guān)系對(duì)于鏈接似然函數(shù)產(chǎn)生負(fù)影響。而這與我們直觀理解一個(gè)引用關(guān)系網(wǎng)絡(luò)恰恰是矛盾的,因?yàn)閺南嗤[話題中產(chǎn)生的樣本應(yīng)該更有可能存在“引用-被引用”的鏈接關(guān)系。此外,使用對(duì)角權(quán)值矩陣,其實(shí)暗含了模型是對(duì)稱(chēng)性的假設(shè)條件,即由i — j和由j — i的鏈接存在的概率是相同的。這種對(duì)稱(chēng)性屬性對(duì)于很多非對(duì)稱(chēng)網(wǎng)絡(luò)來(lái)說(shuō)都是不合理的。此不合理假設(shè)限制了模型發(fā)現(xiàn)關(guān)系網(wǎng)絡(luò)隱層空間表示的能力,還影響了模型的預(yù)測(cè)性能。其次,對(duì)于關(guān)系隱話題模型的精確與高效求解(模型學(xué)習(xí)與推理問(wèn)題)也是本發(fā)明涉及的主要內(nèi)容。由于模型目標(biāo)函數(shù)通常含有數(shù)據(jù)似然和正則化損失函數(shù)兩項(xiàng),而正則化損失函數(shù)(如最大似然估計(jì)中的羅杰斯特?fù)p失函數(shù))與先驗(yàn)分布(通常假設(shè)服從高斯分布)不滿足共軛性,因此很難精確推理得到模型的后驗(yàn)分布。通常采用近似推理的方法(如變分方法)對(duì)模型近似推理。例如,D.Blei等人提出的“Supervised Topic Models”,Advances in Neural Information Processing Systems(2007) ;S.Lacoste-Jullien 等人提出的 “DiscLDA:Discriminative Learning for Dimensionality Reduction andClassification,,,Advances in Neural Information Processing Systems (2008) ;J.Zhu等人提出的“MedLDA:Maximum Margin Supervised Topic Models for Regression andClassification,,,International Conference on Machine Learning (2009)。在這些方法中使用的變分推理基于很強(qiáng)的均值場(chǎng)假設(shè),即要求所有變量的后驗(yàn)分布滿足因子化獨(dú)立性,這在實(shí)際應(yīng)用中很不合理,一定程度上會(huì)影響模型的推理精度。因此,針對(duì)以上不足,本發(fā)明提供了一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法。
發(fā)明內(nèi)容
(一)解決的技術(shù)問(wèn)題針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法;本發(fā)明克服了現(xiàn)有技術(shù)中存在的對(duì)稱(chēng)性關(guān)系判別函數(shù)的不合理、因關(guān)系判別函數(shù)中數(shù)據(jù)似然與損失函數(shù)兩部分的不均衡以及近似推理的均值場(chǎng)假設(shè)所造成的鏈接關(guān)系預(yù)測(cè)性能不理想的缺陷。(二)技術(shù)方案為實(shí)現(xiàn)以上目的,本發(fā)明通過(guò)以下技術(shù)方案予以實(shí)現(xiàn):一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,包括以下步驟:S1、將文本關(guān)系網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理,提取詞袋文本特征及文檔間的鏈接關(guān)系;S2、根據(jù)所述詞袋文本特征及文檔間的鏈接關(guān)系建立廣義關(guān)系隱話題鏈接預(yù)測(cè)模型;S3、將所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型進(jìn)行訓(xùn)練;S4、將訓(xùn)練好的廣義關(guān)系隱話題鏈接預(yù)測(cè)模型用來(lái)預(yù)測(cè)關(guān)系網(wǎng)絡(luò)中文檔之間的鏈接關(guān)系。其中,步驟S2中所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型適用于對(duì)稱(chēng)或非對(duì)稱(chēng)網(wǎng)絡(luò)。優(yōu)選的,所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型通過(guò)完全實(shí)數(shù)值矩陣的方式來(lái)描述;定義廣義鏈接似然函數(shù)為:
p(tjij = I |z,:, Zj, U) = σ(ζ7Uzj),其中Zi,Zj為對(duì)象實(shí)體在隱層特征空間中的表示向量,σ為sigmoid函數(shù),U為KXK的實(shí)數(shù)值矩陣。優(yōu)選的,所述關(guān)于鏈接關(guān)系的廣義似然函數(shù)在處理對(duì)稱(chēng)的關(guān)系數(shù)據(jù)時(shí),在模型中加入對(duì)稱(chēng)性約束條件U = Ut。其中,步驟S3中包含步驟:對(duì)廣義關(guān)系隱話題模型進(jìn)行學(xué)習(xí);對(duì)廣義關(guān)系隱話題模型進(jìn)行后驗(yàn)推理。優(yōu)選的,采用基于羅杰斯特?fù)p失函數(shù)的最大似然判別式學(xué)習(xí)方法學(xué)習(xí)廣義關(guān)系隱話題鏈接預(yù)測(cè)模型。優(yōu)選的,廣義關(guān)系隱話題模型的目標(biāo)函數(shù)為
權(quán)利要求
1.一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,其特征在于,包括以下步驟: 51、將文本關(guān)系網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理,提取詞袋文本特征及文檔間的鏈接關(guān)系; 52、根據(jù)所述詞袋文本特征及文檔間的鏈接關(guān)系建立廣義關(guān)系隱話題鏈接預(yù)測(cè)模型; 53、將所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型進(jìn)行訓(xùn)練; 54、將訓(xùn)練好的廣義關(guān)系隱話題鏈接預(yù)測(cè)模型用來(lái)預(yù)測(cè)關(guān)系網(wǎng)絡(luò)中文檔之間的鏈接關(guān)系O
2.如權(quán)利要求1所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,其特征在于,步驟S2中所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型適用于對(duì)稱(chēng)或非對(duì)稱(chēng)網(wǎng)絡(luò)。
3.如權(quán)利要求2所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,其特征在于,所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型通過(guò)完全實(shí)數(shù)值矩陣的方式來(lái)描述;定義廣義鏈接似然函數(shù)為:PiVij =U) = aizJUzj), 其中Zi, \為對(duì)象實(shí)體在隱層特征空間中的表示向量,O為sigmoid函數(shù),U為KXK的實(shí)數(shù)值矩陣。
4.如權(quán)利要求3所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,其特征在于,所述關(guān)于鏈接關(guān)系的廣義似然函數(shù)在處理對(duì)稱(chēng)的關(guān)系數(shù)據(jù)時(shí),在模型中加入對(duì)稱(chēng)性約束條件U =(
5.如權(quán)利要求1所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,其特征在于,步驟S3中包含步驟: 對(duì)廣義關(guān)系隱話題模型進(jìn)行學(xué)習(xí);對(duì)廣義關(guān)系隱話題模型進(jìn)行后驗(yàn)推理。
6.如權(quán)利要求5所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,其特征在于,采用基于羅杰斯特?fù)p失函數(shù)的最大似然判別式學(xué)習(xí)方法學(xué)習(xí)廣義關(guān)系隱話題鏈接預(yù)測(cè)模型。
7.如權(quán)利要求6所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,其特征在于,廣義關(guān)系隱話題模型的目標(biāo)函數(shù)為 C{q(U, Θ, Ζ,.)) + cR{q{L\ Z)) 其中 C(q) = KL(q\\Pi)(U, θ.Ζ, Φ)) -EJlogi,(W|Z.Φ)]是描述數(shù)據(jù)的似然函數(shù),n{q{U, Z))是損失函數(shù),W是可觀測(cè)數(shù)據(jù),U是隱權(quán)值矩陣,Z = {巧}^表示隱話題指示變量,θ = {氏紀(jì)4是話題混合比例變量。c是控制鏈接關(guān)系結(jié)構(gòu)對(duì)整個(gè)目標(biāo)函數(shù)影響大小的正則化參數(shù)。
8.如權(quán)利要求5所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,其特征在于,采用基于數(shù)據(jù)增廣統(tǒng)計(jì)理論的馬爾可夫鏈蒙特卡羅MCMC采樣精確推理方法對(duì)廣義關(guān)系隱話題鏈接預(yù)測(cè)模型進(jìn)行后驗(yàn)推理。
9.如權(quán)利要求1所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,其特征在于,步驟S4中預(yù)測(cè)為新文檔與其它文檔之間的鏈接關(guān)系。
10.如權(quán)利要求1 9中任一項(xiàng)所述的一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,其特征在于,該方法是一種概率圖模型方法,對(duì)關(guān)系網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)和關(guān)系數(shù)據(jù)的文本內(nèi)容同時(shí)進(jìn)行 建模。
全文摘要
本發(fā)明提供一種基于廣義關(guān)系隱話題模型的關(guān)系網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,涉及計(jì)算機(jī)應(yīng)用領(lǐng)域。包括以下步驟S1、將文本關(guān)系網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理,提取詞袋文本特征及文檔間的鏈接關(guān)系;S2、根據(jù)所述詞袋文本特征及文檔間的鏈接關(guān)系,建立廣義關(guān)系隱話題鏈接預(yù)測(cè)模型;S3、將所述廣義關(guān)系隱話題鏈接預(yù)測(cè)模型進(jìn)行訓(xùn)練;S4、將訓(xùn)練好的廣義關(guān)系隱話題鏈接預(yù)測(cè)模型用來(lái)預(yù)測(cè)文檔之間的鏈接關(guān)系。本發(fā)明克服了現(xiàn)有技術(shù)中存在的對(duì)稱(chēng)性關(guān)系判別函數(shù)的不合理、因關(guān)系判別函數(shù)中數(shù)據(jù)似然與損失函數(shù)兩部分的不均衡以及近似推理的均值場(chǎng)假設(shè)所造成的鏈接關(guān)系預(yù)測(cè)性能不理想的缺陷,顯著提高在鏈接關(guān)系預(yù)測(cè)、網(wǎng)絡(luò)推薦、文本檢索等任務(wù)中的實(shí)用性能。
文檔編號(hào)G06F19/00GK103198228SQ20131013624
公開(kāi)日2013年7月10日 申請(qǐng)日期2013年4月18日 優(yōu)先權(quán)日2013年4月18日
發(fā)明者陳寧, 朱軍, 張鈸 申請(qǐng)人:清華大學(xué)