關(guān)系模型的確定方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及統(tǒng)計(jì)技術(shù)領(lǐng)域,特別涉及一種關(guān)系模型的確定方法及裝置。
【背景技術(shù)】
[0002] 隨著統(tǒng)計(jì)技術(shù)的不斷發(fā)展,對(duì)對(duì)象間的關(guān)系信息進(jìn)行建模成為了一個(gè)熱點(diǎn)問題。 其中,對(duì)象間的關(guān)系信息多種多樣,例如被調(diào)查人群中人與人之間的聯(lián)系信息,因特網(wǎng)上 頁面與頁面之間的鏈接關(guān)系信息等等。各種各樣的關(guān)系信息描述了一類對(duì)象內(nèi)的相互關(guān)系 或是多類對(duì)象間的關(guān)系,通過對(duì)關(guān)系信息進(jìn)行分析,可以獲得很多有價(jià)值的信息。也正因 為如此,基于關(guān)系信息的應(yīng)用種類越來越多,將不同樣本數(shù)據(jù)根據(jù)關(guān)系信息進(jìn)行關(guān)系聚類 即是其中的一種。而在關(guān)系聚類的過程中,通常會(huì)用到關(guān)系模型。例如,如果某電影公司想 要獲取用戶對(duì)當(dāng)前上映的一系列電影的評(píng)價(jià),則收集一批用戶對(duì)一系列電影的評(píng)分,通過 關(guān)系模型將用戶和電影分到不同的樣本類別內(nèi),實(shí)現(xiàn)對(duì)用戶、電影和電影評(píng)分進(jìn)行同時(shí)聚 類,從而通過聚類結(jié)果進(jìn)行電影評(píng)價(jià)分析。
[0003] 在實(shí)際應(yīng)用中,關(guān)系模型由隱變量的變分分布和模型參數(shù)確定。隱變量指不能被 直接觀測(cè)到,而需要通過樣本數(shù)據(jù)推導(dǎo)得出的變量,隱變量的變分分布用于描述樣本數(shù)據(jù) 被聚類到對(duì)應(yīng)類別的概率;模型參數(shù)用于描述每個(gè)類別下子模型的參數(shù)。目前用于確定關(guān) 系模型的方法大多是基于變分推斷的,而在變分推斷過程中需要對(duì)每一個(gè)樣本數(shù)據(jù)進(jìn)行計(jì) 算,這使得大規(guī)模樣本數(shù)據(jù)的處理過程缺乏效率,因此,如何針對(duì)大規(guī)模樣本數(shù)據(jù)快速地確 定關(guān)系模型,成為了目前研究關(guān)系聚類的關(guān)鍵。
[0004] 文章Scalableinferenceofoverlappingcommunities,Gopalanet al.,NIPS,2012中給出了一種針對(duì)大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)提出的確定隱變量的變分分布和模型參 數(shù)的方式。該方式下,首先,獲取根據(jù)樣本數(shù)據(jù)、隱變量及模型參數(shù)確定的對(duì)數(shù)似然及隱變 量的變分分布的對(duì)數(shù);其次,根據(jù)對(duì)數(shù)似然及隱變量的變分分布的對(duì)數(shù)確定目標(biāo)函數(shù);最 后,根據(jù)從樣本數(shù)據(jù)中隨機(jī)抽取的子樣本數(shù)據(jù)確定使目標(biāo)函數(shù)收斂的隱變量的變分分布及 模型參數(shù),而該使目標(biāo)函數(shù)收斂的隱變量的變分分布及模型參數(shù)即可作為用于確定關(guān)系模 型的隱變量的變分分布及模型參數(shù)。
[0005] 在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
[0006] 由于上述確定關(guān)系模型的方式針對(duì)的是大規(guī)模網(wǎng)絡(luò)數(shù)據(jù),雖然根據(jù)子樣本數(shù)據(jù)確 定使目標(biāo)函數(shù)收斂的隱變量的變分分布及模型參數(shù)的方式能夠加快確定關(guān)系模型的速度, 但網(wǎng)絡(luò)數(shù)據(jù)是一類對(duì)象間的相互關(guān)系,即通過一個(gè)隱變量來實(shí)現(xiàn),導(dǎo)致根據(jù)上述方式得到 的隱變量的變分分布及模型參數(shù)所確定的關(guān)系模型的應(yīng)用范圍具有一定的局限性;此外, 由于目標(biāo)函數(shù)根據(jù)對(duì)數(shù)似然及隱變量的變分分布的對(duì)數(shù)確定,因而通過該種目標(biāo)函數(shù)所確 定的關(guān)系模型的復(fù)雜度較高。
【發(fā)明內(nèi)容】
[0007] 為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種關(guān)系模型的確定方法及裝 置。所述技術(shù)方案如下:
[0008] 第一方面,提供了一種關(guān)系模型的確定方法,所述方法包括:
[0009] 獲取根據(jù)樣本數(shù)據(jù)、至少兩個(gè)隱變量及模型參數(shù)確定的對(duì)數(shù)似然、正則項(xiàng)及各個(gè) 隱變量的變分分布的對(duì)數(shù),并根據(jù)所述對(duì)數(shù)似然、正則項(xiàng)及各個(gè)隱變量的變分分布的對(duì)數(shù) 確定目標(biāo)函數(shù);
[0010] 根據(jù)從所述樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)確定使所述目標(biāo)函數(shù)收斂的各個(gè)隱變 量的變分分布及模型參數(shù),根據(jù)使所述目標(biāo)函數(shù)收斂的各個(gè)隱變量的變分分布及模型參數(shù) 確定關(guān)系t吳型。
[0011] 結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,根據(jù)所述樣本數(shù)據(jù)、至少 兩個(gè)隱變量及模型參數(shù)確定的對(duì)數(shù)似然為:
[0013] 其中,所述logpO表示對(duì)數(shù)似然,所述P表示聯(lián)合概率密度函數(shù),所述為樣 本數(shù)據(jù),所述隊(duì)為行樣本個(gè)數(shù),所述N。為列樣本個(gè)數(shù),所述ZK為行隱變量,所述Ze為列隱變 量,所述Q為模型參數(shù)的集合,所述模型參數(shù)包括a、00,所述a、0分別為行、列混 合比率,所述p表示每個(gè)樣本類別內(nèi)的子模型參數(shù)。
[0014] 結(jié)合第一方面,在第一方面的第二種可能的實(shí)現(xiàn)方式中,根據(jù)樣本數(shù)據(jù)、至少兩個(gè) 隱變量及模型參數(shù)確定的正則項(xiàng)為:
[0016]其中,所述隊(duì)為行樣本個(gè)數(shù),所述N。為列樣本個(gè)數(shù);所述&是行樣本類別的個(gè) 數(shù),所述K。是列樣本類別的個(gè)數(shù);所述彳()為隱變量的變分分布的近似值,所述Zf為第 i個(gè)行樣本數(shù)據(jù)所在第k個(gè)樣本類別的行隱變量,所述zj為第j個(gè)列樣本數(shù)據(jù)所在第1 個(gè)樣本類別的列隱變量;所述0分別為行、列混合比率,所述Da為所述a的維度, 所述De為所述0的維度,所述Dkl為第k行、第1列的樣本類別內(nèi)的子模型參數(shù)的維度, L (a, b) =logb+ (a_b) /b,所述a為
[0017] 結(jié)合第一方面,在第一方面的第三種可能的實(shí)現(xiàn)方式中,根據(jù)所述樣本數(shù)據(jù)、至少 兩個(gè)隱變量及模型參數(shù)確定的隱變量的變分分布的對(duì)數(shù)為:
[0018] logq(ZK)和logq(Zc);
[0019] 其中,所述q(ZK)為行隱變量ZK的變分分布,所述q(Ze)為列隱變量Ze的變分分 布。
[0020] 結(jié)合第一方面至第一方面的第三種可能的實(shí)現(xiàn)方式中任一種可能的實(shí)現(xiàn)方式,在 第一方面的第四種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述對(duì)數(shù)似然、正則項(xiàng)及各個(gè)隱變量的變 分分布的對(duì)數(shù)確定目標(biāo)函數(shù),包括:
[0021] 根據(jù)所述對(duì)數(shù)似然的期望值、所述正則項(xiàng)的期望值及所述各個(gè)隱變量的變分分布 的對(duì)數(shù)的期望值確定目標(biāo)函數(shù)。
[0022] 結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方式,在第一方面的第五種可能的實(shí)現(xiàn)方式 中,根據(jù)所述對(duì)數(shù)似然的期望值、所述正則項(xiàng)的期望值及所述各個(gè)隱變量的變分分布的對(duì) 數(shù)的期望值確定的目標(biāo)函數(shù)為:
[0024] 結(jié)合第一方面的第五種可能的實(shí)現(xiàn)方式,在第一方面的第六種可能的實(shí)現(xiàn)方式 中,所述根據(jù)從所述樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)確定使所述目標(biāo)函數(shù)收斂的各個(gè)隱變量 的變分分布及模型參數(shù),包括:
[0025] 根據(jù)從所述樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)獲取更新的各個(gè)隱變量的變分分布及 更新的模型參數(shù);
[0026] 根據(jù)更新的各個(gè)隱變量的變分分布及更新的模型參數(shù)確定所述目標(biāo)函數(shù)是否收 斂,如果所述目標(biāo)函數(shù)未收斂,則重新根據(jù)從所述樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)獲取更新 的各個(gè)隱變量的變分分布及更新的模型參數(shù),直至得到使所述目標(biāo)函數(shù)收斂的各個(gè)隱變量 的變分分布及模型參數(shù)。
[0027] 結(jié)合第一方面的第六種可能的實(shí)現(xiàn)方式,在第一方面的第七種可能的實(shí)現(xiàn)方式 中,所述根據(jù)從所述樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)獲取更新的各個(gè)隱變量的變分分布及更 新的模型參數(shù),包括:
[0028] 根據(jù)從所述樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)獲取各個(gè)隱變量的變分分布中間值,根 據(jù)所述各個(gè)隱變量的變分分布中間值獲取更新的各個(gè)隱變量的變分分布;
[0029] 根據(jù)所述更新的各個(gè)隱變量的變分分布確定模型參數(shù)的中間值,并根據(jù)所述模型 參數(shù)的中間值獲取更新的模型參數(shù)。
[0030] 結(jié)合第一方面的第七種可能的實(shí)現(xiàn)方式,在第一方面的第八種可能的實(shí)現(xiàn)方式 中,所述根據(jù)所述更新的各個(gè)隱變量的變分分布確定模型參數(shù)的中間值之前,還包括:
[0031] 確定所述更新的各個(gè)隱變量的變分分布是否收斂,如果所述更新的各個(gè)隱變量的 變分分布未收斂,則重新根據(jù)從所述樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)獲取各個(gè)隱變量的變分 分布中間值,并根據(jù)所述各個(gè)隱變量的變分分布中間值獲取更新的各個(gè)隱變量的變分分 布,直至得到收斂的更新的各個(gè)隱變量的變分分布;
[0032] 所述根據(jù)所述更新的各個(gè)隱變量的變分分布確定模型參數(shù)的中間值,包括 :
[0033] 根據(jù)收斂的更新的各個(gè)隱變量的變分分布確定模型參數(shù)的中間值。
[0034] 結(jié)合第一方面的第七種或第八種可能的實(shí)現(xiàn)方式,在第一方面的第九種可能的實(shí) 現(xiàn)方式中,所述根據(jù)從所述樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)獲取各個(gè)隱變量的變分分布中間 值,包括:
[0035] 根據(jù)從所述樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)按照如下公式獲取各個(gè)隱變量的變分 分布中間值:
[0038] 根據(jù)所述各個(gè)隱變量的變分分布中間值按照如下公式獲取更新的各個(gè)隱變量的 變分分布:
[0041] 所述t、tpt。代表當(dāng)前獲取,所述t_l、k-1、1:。_1代表上一次獲取或初始化,所述 I和為從所述樣本數(shù)據(jù)的行樣本數(shù)據(jù)中抽取的樣本數(shù)據(jù)集合,U。和U'。為從所述樣本數(shù) 據(jù)的列樣本數(shù)據(jù)中抽取的樣本數(shù)據(jù)集合,所述c。'為所述u'。的樣本數(shù)據(jù)個(gè)數(shù),所述(V為所 述的樣本數(shù)據(jù)個(gè)數(shù),所述L為所述I中的樣本數(shù)據(jù),所述Jn為所述U。中的樣本數(shù)據(jù), 所述J'n為所述U'。中的樣本數(shù)據(jù),所述I'm為所述U'r中的樣本數(shù)據(jù),所述彳為所述在的 變分分布的更新步長(zhǎng),所述為所述的變分分布的更新步長(zhǎng)。
[0042] 結(jié)合第一方面的第九種可能的實(shí)現(xiàn)方式,在第一方面的第十種可能的實(shí)現(xiàn)方式 中,所述根據(jù)所述更新的各個(gè)隱變量的變分分布確定模型參數(shù)的中間值,包括:
[0043] 根據(jù)所述更新的各個(gè)隱變量的變分分布按照如下公式確定模型參數(shù)的中間值:
[0046] 所述根據(jù)所述模型參數(shù)的中間值獲取更新的模型參數(shù),包括:
[0047] 根據(jù)所述模型參數(shù)的中間值按照如下公式獲取更新的模型參數(shù):
[0051] 所述P1為當(dāng)前獲取的更新步長(zhǎng)。
[0052] 結(jié)合第一方面的第八種可能的實(shí)現(xiàn)方式,在第一方面的第十一種可能的實(shí)現(xiàn)方式 中,所述確定所述更新的各個(gè)隱變量的變分分布是否收斂之前,還包括:
[0053] 獲取根據(jù)從所述樣本數(shù)據(jù)中抽取得到的子樣本數(shù)據(jù)以及所述目標(biāo)函數(shù)確定的各 個(gè)隱變量對(duì)應(yīng)的隨機(jī)函數(shù);
[0054] 所述確定所述更新的各個(gè)隱變量的變分分布是否收斂,包括:
[0055] 根據(jù)所述更新的各個(gè)隱變量的變分分布確定各個(gè)隱變量對(duì)應(yīng)的隨機(jī)函數(shù)是否收 斂;如果任一隱變量對(duì)應(yīng)的隨機(jī)函數(shù)未收斂,則確定所述任一隱變量對(duì)應(yīng)的更新的隱變量 的變分分布未收斂;如果所述任一隱變量對(duì)應(yīng)的隨機(jī)函數(shù)收斂,則確定所述任一隱變量對(duì) 應(yīng)的更新的隱變量的變分分布收斂。
[0056] 結(jié)合第一方面的第i^一種可能的實(shí)現(xiàn)方式,在第一方面的第十二種可能的實(shí)現(xiàn)方 式中,所述根據(jù)從所述樣本數(shù)據(jù)中抽取得到的子樣本數(shù)據(jù)以及所述目標(biāo)函數(shù)確定的各個(gè)隱 變量對(duì)應(yīng)的隨機(jī)函數(shù)為:
[0058] 其中,所述廠/〇^,(以,)為行隱變量ZK對(duì)應(yīng)的隨機(jī)函數(shù),所述 F/CZ^,, )為列隱變量ZC對(duì)應(yīng)的隨機(jī)函數(shù)。
[0059] 第二方面,提供了一種關(guān)系模型的確定裝置,所述裝置包括:
[0060] 獲取模塊,用于獲取根據(jù)樣本數(shù)據(jù)、至少兩個(gè)隱變量及模型參數(shù)確定的對(duì)數(shù)似然、 正則項(xiàng)及各個(gè)隱變量的變分分布的對(duì)數(shù);
[0061] 第一確定模塊,用于根據(jù)所述對(duì)數(shù)似然、正則項(xiàng)及各個(gè)隱變量的變分分布的對(duì)數(shù) 確定目標(biāo)函數(shù);
[0062] 第二確定模塊,用于根據(jù)從所述樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)確定使所述目標(biāo)函 數(shù)收斂的各個(gè)隱變量的變分分布及模型參數(shù);
[0063]第三確定模塊,用于根據(jù)使所述目標(biāo)函數(shù)收斂的各個(gè)隱變量的變分分布及模型參 數(shù)確定關(guān)系模型。
[0064] 結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,所述獲取模塊獲取到的 對(duì)數(shù)似然為:
[0066] 其中,所述logp〇表示對(duì)數(shù)似然,所述p表示聯(lián)合概率密度函數(shù),所述為樣 本數(shù)據(jù),所述隊(duì)為行樣本個(gè)數(shù),所述N。為列樣本個(gè)數(shù),所述ZK為行隱變量,所述Ze為列隱變 量,所述Q為模型參數(shù)的集合,所述模型參數(shù)包括a、0、^,所述a、0分別為行、列混 合比率,所述p表示每個(gè)樣本類別內(nèi)的子模型參數(shù)。
[0067] 結(jié)合第二方面,在第二方面的第二種可能的實(shí)現(xiàn)方式中,所述獲取模塊獲取到的 正則項(xiàng)為:
[0069] 其中,所述隊(duì)為行樣本個(gè)數(shù),所述N。為列樣本個(gè)數(shù);所述&是行樣本類別的個(gè) 數(shù),所述