一種多網(wǎng)絡(luò)中相同人名的身份識別方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種多網(wǎng)絡(luò)中相同人名的身份識別方法和裝置,包括:獲取多個網(wǎng)絡(luò)中的用戶身份信息以及用戶身份對應(yīng)關(guān)系,將已知用戶身份對應(yīng)關(guān)系的用戶身份信息集合作為訓練集,根據(jù)訓練集中的用戶身份信息構(gòu)建基于用戶行為相似度的能量最低模型,獲取能量因子和匹配關(guān)系分類器;根據(jù)匹配關(guān)系分類器將任意兩個用戶身份信息進行匹配,求解此能量矩陣得到單次預(yù)測的匹配結(jié)果;對多次求解的匹配結(jié)果進行集成,得到用戶身份對應(yīng)關(guān)系。本發(fā)明的方法及裝置,能夠?qū)⒍鄠€網(wǎng)絡(luò)中具有不同身份信息但名字相同的信息進行同一性確認,能夠提高統(tǒng)計結(jié)果的準確性,采用的算法高效,計算過程較快,隨著樣本庫的增加,計算結(jié)果準確率也會不斷提高。
【專利說明】-種多網(wǎng)絡(luò)中相同人名的身份識別方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理【技術(shù)領(lǐng)域】,特別是指一種多網(wǎng)絡(luò)中相同人名的身份識別方法 及裝置。
【背景技術(shù)】
[0002] -般情況下,同一個用戶在不同網(wǎng)絡(luò)中注冊有不同的身份信息,例如,電子郵箱、 電話等等信息。例如,在在科學研究領(lǐng)域,往往會有大量科技工作者同時在多個科研團隊中 協(xié)同工作,由此導致在發(fā)表學術(shù)成果時同一個人所使用的個人信息,如電子信箱、單位、地 址等,可能并不相同,即相同人名具有不同身份信息。在對領(lǐng)域內(nèi)相關(guān)學術(shù)成果信息進行匯 總時,由于難以判斷這些相同的人名是否為同一個人,這樣的冗余信息會直接影響統(tǒng)計結(jié) 果的準確性。例如,科技工作者在不同的團隊中工作,同一個科技工作者的個人信息可能在 多個網(wǎng)絡(luò)中出現(xiàn),例如,某大學的網(wǎng)站、論文網(wǎng)、技術(shù)成果轉(zhuǎn)讓網(wǎng)、專利交易網(wǎng)等等,而此科 技工作者在多個網(wǎng)絡(luò)中的個人信息不一定完全相同。
[0003] 傳統(tǒng)的社會網(wǎng)絡(luò)分析方法通常僅考慮用戶在單一網(wǎng)絡(luò)(如在某高校任職)中的行 為特征,忽略了用戶可能會處于多個網(wǎng)絡(luò)中的關(guān)聯(lián)情況,例如一個用戶可以同時活躍于高 校、國企科研機構(gòu)和社會性研究機構(gòu)中,并且在每個社會網(wǎng)絡(luò)中擁有不同的身份、人際圈子 和研究內(nèi)容,針對單一網(wǎng)絡(luò)的行為分析方法無法應(yīng)用于這種多層網(wǎng)絡(luò)環(huán)境。在多個網(wǎng)絡(luò)中, 各網(wǎng)絡(luò)中的節(jié)點可能具有截然不同的屬性,并且網(wǎng)絡(luò)與網(wǎng)絡(luò)的節(jié)點之間存在相互依賴和協(xié) 作等關(guān)聯(lián)關(guān)系,因此,需要一種多網(wǎng)絡(luò)中對同名個體的同一性認定的方法。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明的目的在于提出一種多網(wǎng)絡(luò)中相同人名的身份識別方法及裝 置,能夠?qū)⒍鄠€網(wǎng)絡(luò)中具有不同身份信息但名字相同的信息進行同一性確定。
[0005] 基于上述目的本發(fā)明提供一種多網(wǎng)絡(luò)中相同人名的身份識別方法,包括:獲取多 個網(wǎng)絡(luò)中的用戶身份信息以及用戶身份對應(yīng)關(guān)系;將已知用戶身份對應(yīng)關(guān)系的用戶身份信 息集合作為訓練集;根據(jù)所述訓練集中的所述用戶身份信息構(gòu)建基于用戶行為相似度的能 量最低模型,獲取能量因子和匹配關(guān)系分類器;根據(jù)所述匹配關(guān)系分類器將任意兩個用戶 身份信息進行匹配,并采用能量因子進行能量填充形成能量矩陣,求解此能量矩陣得到單 次預(yù)測的匹配結(jié)果;對多次求解的匹配結(jié)果進行集成,得到用戶身份對應(yīng)關(guān)系并確定具有 相同人名用戶的身份同一'丨生。
[0006] 根據(jù)本發(fā)明的一個實施例,進一步的,所述將已知用戶身份對應(yīng)關(guān)系的所述用戶 身份信息的集合作為訓練集、根據(jù)所述訓練集中的所述用戶身份信息構(gòu)建基于用戶行為 相似度的能量最低模型、獲取能量因子和匹配關(guān)系分類器包括:對于2個網(wǎng)絡(luò)P、Q中任意 給定的節(jié)點V(i),其網(wǎng)絡(luò)拓撲結(jié)構(gòu)特征向量為:f(i) = {f\,f2,…fd},其中,節(jié)點代表用 戶身份信息,為節(jié)點基本屬性特征,包括:節(jié)點出度、入度、聚類系數(shù)、鄰居節(jié)點、平均 度、共同鄰居;建立節(jié)點對特征向量向量,對于2個網(wǎng)絡(luò)P、Q的節(jié)點對特征向量向量為: ?=沖;_, (,) J y/)) = !/,,(1),(2),…,乂 量向量對匹配節(jié)點對進行聚類,獲得各聚類類別C中所包含的具有相似特征節(jié)點的個數(shù), 將其作為粒子特征,節(jié)點對特征的分布情況作為能量因子,將具有相似網(wǎng)絡(luò)行為特征的用 k 戶賦予等值的能量因子;構(gòu)建匹配節(jié)點對能量模型:其中,I為相似特征 Z=I . 的匹配節(jié)點對集合依據(jù)特征進行聚類后的節(jié)點對個數(shù),ε i為該類別對應(yīng)的能量因子;根據(jù) 所述能量模型獲取每個聚類類別所對應(yīng)的能量因子:ε = { ε ε 2, . . .,ε k},并將其作為 預(yù)測過程中節(jié)點對所屬類別的能量因子;根據(jù)聚類類別結(jié)果建立K分類器,并賦予每個節(jié) 點對類別編號。
[0007] 根據(jù)本發(fā)明的一個實施例,進一步的,所述根據(jù)所述匹配關(guān)系分類器將任意兩個 用戶身份信息進行匹配、并采用能量因子進行能量填充形成能量矩陣、求解此能量矩陣得 到單次預(yù)測的匹配結(jié)果包括:對網(wǎng)絡(luò)P、Q中未知身份對應(yīng)關(guān)系的節(jié)點分別提取其拓撲結(jié)構(gòu) 特征:F P(i) = {fP(l),fP(2),· · ·,fP(m)}和?(3(;〇 = {fQ(l),fQ(2),· · ·,fQ(m)};對于任意未 知身份對應(yīng)關(guān)系的節(jié)點i e P,j e Q,構(gòu)建nXn個所有未知節(jié)點的匹配節(jié)點對特征向量: 巧噸=y,xrr(/)j丨乂/+)) = (乂,⑴,義⑵,…,似〃 X石⑴ 點對特征向量進行分類,得到每個節(jié)點對類別標簽,構(gòu)建節(jié)點對類別矩陣;對類別矩陣進行 能量因子填充,將類別矩陣中類別標簽替換為該類別所對應(yīng)的能量因子ε ,構(gòu)建能 量矩陣;計算能量矩陣的最佳匹配。
[0008] 根據(jù)本發(fā)明的一個實施例,進一步的,計算該能量矩陣的最佳匹配的算法為:
【權(quán)利要求】
1. 一種多網(wǎng)絡(luò)中相同人名的身份識別方法,其特征在于,包括: 獲取多個網(wǎng)絡(luò)中的用戶身份信息以及用戶身份對應(yīng)關(guān)系; 將已知用戶身份對應(yīng)關(guān)系的用戶身份信息集合作為訓練集; 根據(jù)所述訓練集中的所述用戶身份信息構(gòu)建基于用戶行為相似度的能量最低模型,獲 取能量因子和匹配關(guān)系分類器; 根據(jù)所述匹配關(guān)系分類器將任意兩個用戶身份信息進行匹配,并采用能量因子進行能 量填充形成能量矩陣,求解此能量矩陣得到單次預(yù)測的匹配結(jié)果; 對多次求解的匹配結(jié)果進行集成,得到用戶身份對應(yīng)關(guān)系并確定具有相同人名用戶的 身份同一'I"生。
2. 如權(quán)利要求1所述的方法,其特征在于,所述將已知用戶身份對應(yīng)關(guān)系的所述用戶 身份信息的集合作為訓練集、根據(jù)所述訓練集中的所述用戶身份信息構(gòu)建基于用戶行為相 似度的能量最低模型、獲取能量因子和匹配關(guān)系分類器包括: 對于2個網(wǎng)絡(luò)P、Q中任意給定的節(jié)點V(i),其網(wǎng)絡(luò)拓撲結(jié)構(gòu)特征向量為:f(i)= {f\,f2,…fd},其中,節(jié)點代表用戶身份信息,為節(jié)點基本屬性特征,包括:節(jié)點出度、入 度、聚類系數(shù)、鄰居節(jié)點、平均度、共同鄰居; 建立節(jié)點對特征向量向量,對于2個網(wǎng)絡(luò)P、Q的節(jié)點對特征向量向量為:
根據(jù)該節(jié)點對特征向量向量對匹配節(jié)點對進行聚類,獲得各聚類類別C中所包含的具 有相似特征節(jié)點的個數(shù),將其作為粒子特征,節(jié)點對特征的分布情況作為能量因子,將具有 相似網(wǎng)絡(luò)行為特征的用戶賦予等值的能量因子; k 構(gòu)建匹配節(jié)點對能量模型:其中,1為相似特征的匹配節(jié)點對集合 i=\ . 依據(jù)特征進行聚類后的節(jié)點對個數(shù),εi為該類別對應(yīng)的能量因子; 根據(jù)所述能量模型獲取每個聚類類別所對應(yīng)的能量因子:ε= {εε2, . ..,εk},并 將其作為預(yù)測過程中節(jié)點對所屬類別的能量因子; 根據(jù)聚類類別結(jié)果建立K分類器,并賦予每個節(jié)點對類別編號。
3. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述匹配關(guān)系分類器將任意兩個 用戶身份信息進行匹配、并采用能量因子進行能量填充形成能量矩陣、求解此能量矩陣得 到單次預(yù)測的匹配結(jié)果包括: 對網(wǎng)絡(luò)P、Q中未知身份對應(yīng)關(guān)系的節(jié)點分別提取其拓撲結(jié)構(gòu)特征:Fp⑴={fP(l),fP(2),· ··,fP(m)}和卩々)={4(1),4(2),...,4(111)}; 對于任意未知身份對應(yīng)關(guān)系的節(jié)點ieP,jeQ,構(gòu)建nXn個所有未知節(jié)點的匹配節(jié) 點對特征向量:
通過K分類器對匹配節(jié)點對特征向量進行分類,得到每個節(jié)點對類別標簽,構(gòu)建節(jié)點 對類別矩陣; 對類別矩陣進行能量因子填充,將類別矩陣中類別標簽替換為該類別所對應(yīng)的能量因 子= ,構(gòu)建能量矩陣; 計算能量矩陣的最佳匹配。
4. 如權(quán)利要求3所述的方法,其特征在于, 計算該能量矩陣的最佳匹配的算法為:
其中,Aij表示網(wǎng)絡(luò)P中的節(jié)點i與網(wǎng)絡(luò)G中的節(jié)點j是否存在--對應(yīng)關(guān)系,若i0j的對應(yīng)關(guān)系被確立則標記為1,否則標記為〇,匹配結(jié)果表述為心〇+) 〇G(./+)。
5. 如權(quán)利要求3或4所述的方法,其特征在于,所述對多次求解的匹配結(jié)果進行集成, 得到用戶身份信息的對應(yīng)關(guān)系并確定具有相同人名的身份同一性包括: 得到ξ個預(yù)測結(jié)果,將每次預(yù)測結(jié)果在節(jié)點對匹配矩陣中進行投票,得到投票矩陣V-Matrix= (Vij); 求解該投票矩陣V-Matrix的最優(yōu)匹配問題,采用的算法為:
其中,k表示表示投票矩陣中第i行第j列的投票結(jié)果,λυ表示網(wǎng)絡(luò)P中的節(jié)點i與網(wǎng)絡(luò)G中的節(jié)點j是否存在一一對應(yīng)關(guān)系,即表示節(jié)點對的最終匹配結(jié)果。
6. -種多網(wǎng)絡(luò)中相同人名的身份識別裝置,其特征在于,包括: 信息獲取單元,用于獲取多個網(wǎng)絡(luò)中的用戶身份信息以及用戶身份對應(yīng)關(guān)系; 訓練集生成單元,用于將已知用戶身份對應(yīng)關(guān)系的用戶身份信息集合作為訓練集;根 據(jù)所述訓練集中的所述用戶身份信息構(gòu)建基于用戶行為相似度的能量最低模型,獲取能量 因子和匹配關(guān)系分類器; 匹配單元,用于根據(jù)所述匹配關(guān)系分類器將任意兩個用戶身份信息進行匹配,并采用 能量因子進行能量填充形成能量矩陣,求解此能量矩陣得到單次預(yù)測的匹配結(jié)果; 集成單元,用于對多次求解的匹配結(jié)果進行集成,得到用戶身份對應(yīng)關(guān)系并確定具有 相同人名用戶的身份同一性。
7. 如權(quán)利要求6所述的裝置,其特征在于: 所述訓練集生成單元,包括: 節(jié)點對特征建立子模塊,用于對于2個網(wǎng)絡(luò)P、Q中任意給定的節(jié)點V(i),建立 其網(wǎng)絡(luò)拓撲結(jié)構(gòu)特征向量為:f⑴={fl,f2,…fd},其中,節(jié)點代表用戶身份信息, ?·Μ為節(jié)點基本屬性特征,包括:節(jié)點出度、人度、聚類系數(shù)、鄰居節(jié)點、平均度、共 同鄰居;建立節(jié)點對特征向量向量,對于2個網(wǎng)絡(luò)P、Q的節(jié)點對特征向量向量為: 廠…=廠以/))=丨.,/;,(1),,/;,(2),…⑷4 量向量對匹配節(jié)點對進行聚類,獲得各聚類類別C中所包含的具有相似特征節(jié)點的個數(shù), 將其作為粒子特征,節(jié)點對特征的分布情況作為能量因子,將具有相似網(wǎng)絡(luò)行為特征的用 戶賦予等值的能量因子; k 分類器生成子模塊,用于構(gòu)建匹配節(jié)點對能量模型:其中,I為相似 i=\ ; 特征的匹配節(jié)點對集合依據(jù)特征進行聚類后的節(jié)點對個數(shù),εi為該類別對應(yīng)的能量因子; 根據(jù)所述能量模型獲取每個聚類類別所對應(yīng)的能量因子:ε= {εε2, . ..,εk},并將其 作為預(yù)測過程中節(jié)點對所屬類別的能量因子;根據(jù)聚類類別結(jié)果建立K分類器,并賦予每 個節(jié)點對類別編號。
8. 如權(quán)利要求6所述的裝置,其特征在于: 所述訓練集生成單元,還包括: 節(jié)點對類別建立子模塊,用于對網(wǎng)絡(luò)P、Q中未知身份對應(yīng)關(guān)系的節(jié)點分別提取其拓撲 結(jié)構(gòu)特征:FP(i) = {fP(l),fP(2),· · ·,fP(m)}和?0(;〇 = {fQ(l),fQ(2),· · ·,fQ(m)};對于任 意未知身份對應(yīng)關(guān)系的節(jié)點ieP,jeQ,構(gòu)建nXn個所有未知節(jié)點的匹配節(jié)點對特征向 量:7,;^ = 7*'(以〇,心(刀)=(/r(l),/r⑵,,乃⑴,乃⑵,...,/?,("七通過K分類器對匹 配節(jié)點對特征向量進行分類,得到每個節(jié)點對類別標簽,構(gòu)建節(jié)點對類別矩陣; 所述匹配單元,還用于對類別矩陣進行能量因子填充,將類別矩陣中類別標簽替換為 該類別所對應(yīng)的能量因子εi=Mt()gOTy,構(gòu)建能量矩陣,計算能量矩陣的最佳匹配。
9. 如權(quán)利要求8所述的裝置,其特征在于, 所述匹配單元計算該能量矩陣的最佳匹配的算法為:
其中,Aij表示網(wǎng)絡(luò)P中的節(jié)點i與網(wǎng)絡(luò)G中的節(jié)點j是否存在--對應(yīng)關(guān)系,若i〇j的對應(yīng)關(guān)系被確立則標記為1,否則標記為〇,匹配結(jié)果表述為1〉〇+)G心(./)。
10. 如權(quán)利要求8或9所述的裝置,其特征在于: 所述集成單元,還用得到ξ個預(yù)測結(jié)果,將每次預(yù)測結(jié)果在節(jié)點對匹配矩陣中進行投 票,得到投票矩陣V-Matrix= (Vij);求解該投票矩陣V-Matrix的最優(yōu)匹配問題,采用的公 式為:
其中,k表示表示投票矩陣中第i行第j列的投票結(jié)果,λu表示網(wǎng)絡(luò)P中的節(jié)點i與網(wǎng)絡(luò)G中的節(jié)點j是否存在一一對應(yīng)關(guān)系,即表示節(jié)點對的最終匹配結(jié)果。
【文檔編號】G06F17/30GK104462318SQ201410719649
【公開日】2015年3月25日 申請日期:2014年12月1日 優(yōu)先權(quán)日:2014年12月1日
【發(fā)明者】王晶華, 陳晰, 徐慧明, 郭光 , 魏明磊 申請人:國家電網(wǎng)公司, 國網(wǎng)河北省電力公司, 國網(wǎng)河北省電力公司衡水供電分公司, 國家電網(wǎng)公司信息通信分公司