一種多網(wǎng)絡(luò)中相同人名的身份識別方法及裝置制造方法

文檔序號：6636875閱讀：188來源：國知局

一種多網(wǎng)絡(luò)中相同人名的身份識別方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種多網(wǎng)絡(luò)中相同人名的身份識別方法和裝置，包括：獲取多個網(wǎng)絡(luò)中的用戶身份信息以及用戶身份對應(yīng)關(guān)系，將已知用戶身份對應(yīng)關(guān)系的用戶身份信息集合作為訓練集，根據(jù)訓練集中的用戶身份信息構(gòu)建基于用戶行為相似度的能量最低模型，獲取能量因子和匹配關(guān)系分類器；根據(jù)匹配關(guān)系分類器將任意兩個用戶身份信息進行匹配，求解此能量矩陣得到單次預(yù)測的匹配結(jié)果；對多次求解的匹配結(jié)果進行集成，得到用戶身份對應(yīng)關(guān)系。本發(fā)明的方法及裝置，能夠?qū)⒍鄠€網(wǎng)絡(luò)中具有不同身份信息但名字相同的信息進行同一性確認，能夠提高統(tǒng)計結(jié)果的準確性，采用的算法高效，計算過程較快，隨著樣本庫的增加，計算結(jié)果準確率也會不斷提高。
【專利說明】-種多網(wǎng)絡(luò)中相同人名的身份識別方法及裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理【技術(shù)領(lǐng)域】，特別是指一種多網(wǎng)絡(luò)中相同人名的身份識別方法及裝置。

【背景技術(shù)】
[0002] -般情況下，同一個用戶在不同網(wǎng)絡(luò)中注冊有不同的身份信息，例如，電子郵箱、電話等等信息。例如，在在科學研究領(lǐng)域，往往會有大量科技工作者同時在多個科研團隊中協(xié)同工作，由此導致在發(fā)表學術(shù)成果時同一個人所使用的個人信息，如電子信箱、單位、地址等，可能并不相同，即相同人名具有不同身份信息。在對領(lǐng)域內(nèi)相關(guān)學術(shù)成果信息進行匯總時，由于難以判斷這些相同的人名是否為同一個人，這樣的冗余信息會直接影響統(tǒng)計結(jié) 果的準確性。例如，科技工作者在不同的團隊中工作，同一個科技工作者的個人信息可能在多個網(wǎng)絡(luò)中出現(xiàn)，例如，某大學的網(wǎng)站、論文網(wǎng)、技術(shù)成果轉(zhuǎn)讓網(wǎng)、專利交易網(wǎng)等等，而此科技工作者在多個網(wǎng)絡(luò)中的個人信息不一定完全相同。
[0003] 傳統(tǒng)的社會網(wǎng)絡(luò)分析方法通常僅考慮用戶在單一網(wǎng)絡(luò)（如在某高校任職）中的行為特征，忽略了用戶可能會處于多個網(wǎng)絡(luò)中的關(guān)聯(lián)情況，例如一個用戶可以同時活躍于高校、國企科研機構(gòu)和社會性研究機構(gòu)中，并且在每個社會網(wǎng)絡(luò)中擁有不同的身份、人際圈子和研究內(nèi)容，針對單一網(wǎng)絡(luò)的行為分析方法無法應(yīng)用于這種多層網(wǎng)絡(luò)環(huán)境。在多個網(wǎng)絡(luò)中，各網(wǎng)絡(luò)中的節(jié)點可能具有截然不同的屬性，并且網(wǎng)絡(luò)與網(wǎng)絡(luò)的節(jié)點之間存在相互依賴和協(xié) 作等關(guān)聯(lián)關(guān)系，因此，需要一種多網(wǎng)絡(luò)中對同名個體的同一性認定的方法。

【發(fā)明內(nèi)容】

[0004] 有鑒于此，本發(fā)明的目的在于提出一種多網(wǎng)絡(luò)中相同人名的身份識別方法及裝置，能夠?qū)⒍鄠€網(wǎng)絡(luò)中具有不同身份信息但名字相同的信息進行同一性確定。
[0005] 基于上述目的本發(fā)明提供一種多網(wǎng)絡(luò)中相同人名的身份識別方法，包括：獲取多個網(wǎng)絡(luò)中的用戶身份信息以及用戶身份對應(yīng)關(guān)系；將已知用戶身份對應(yīng)關(guān)系的用戶身份信息集合作為訓練集；根據(jù)所述訓練集中的所述用戶身份信息構(gòu)建基于用戶行為相似度的能量最低模型，獲取能量因子和匹配關(guān)系分類器；根據(jù)所述匹配關(guān)系分類器將任意兩個用戶身份信息進行匹配，并采用能量因子進行能量填充形成能量矩陣，求解此能量矩陣得到單次預(yù)測的匹配結(jié)果；對多次求解的匹配結(jié)果進行集成，得到用戶身份對應(yīng)關(guān)系并確定具有相同人名用戶的身份同一'丨生。
[0006] 根據(jù)本發(fā)明的一個實施例，進一步的，所述將已知用戶身份對應(yīng)關(guān)系的所述用戶身份信息的集合作為訓練集、根據(jù)所述訓練集中的所述用戶身份信息構(gòu)建基于用戶行為相似度的能量最低模型、獲取能量因子和匹配關(guān)系分類器包括：對于2個網(wǎng)絡(luò)P、Q中任意給定的節(jié)點V(i)，其網(wǎng)絡(luò)拓撲結(jié)構(gòu)特征向量為：f(i) = {f\，f2，…fd}，其中，節(jié)點代表用戶身份信息，為節(jié)點基本屬性特征，包括：節(jié)點出度、入度、聚類系數(shù)、鄰居節(jié)點、平均度、共同鄰居；建立節(jié)點對特征向量向量，對于2個網(wǎng)絡(luò)P、Q的節(jié)點對特征向量向量為： ?=沖;_, (，) J y/)) = !/,，(1)，(2)，…，乂量向量對匹配節(jié)點對進行聚類，獲得各聚類類別C中所包含的具有相似特征節(jié)點的個數(shù)，將其作為粒子特征，節(jié)點對特征的分布情況作為能量因子，將具有相似網(wǎng)絡(luò)行為特征的用 k 戶賦予等值的能量因子；構(gòu)建匹配節(jié)點對能量模型：其中，I為相似特征 Z=I . 的匹配節(jié)點對集合依據(jù)特征進行聚類后的節(jié)點對個數(shù)，ε i為該類別對應(yīng)的能量因子；根據(jù) 所述能量模型獲取每個聚類類別所對應(yīng)的能量因子：ε = { ε ε 2, . . .，ε k}，并將其作為預(yù)測過程中節(jié)點對所屬類別的能量因子；根據(jù)聚類類別結(jié)果建立K分類器，并賦予每個節(jié) 點對類別編號。
[0007] 根據(jù)本發(fā)明的一個實施例，進一步的，所述根據(jù)所述匹配關(guān)系分類器將任意兩個用戶身份信息進行匹配、并采用能量因子進行能量填充形成能量矩陣、求解此能量矩陣得到單次預(yù)測的匹配結(jié)果包括：對網(wǎng)絡(luò)P、Q中未知身份對應(yīng)關(guān)系的節(jié)點分別提取其拓撲結(jié)構(gòu) 特征：F P(i) = {fP(l)，fP(2)，· · ·，fP(m)}和？(3(;〇 = {fQ(l)，fQ(2)，· · ·，fQ(m)};對于任意未知身份對應(yīng)關(guān)系的節(jié)點i e P，j e Q，構(gòu)建nXn個所有未知節(jié)點的匹配節(jié)點對特征向量：巧噸=y，xrr(/)j丨乂/+)) = (乂,⑴，義⑵，…，似〃 X石⑴ 點對特征向量進行分類，得到每個節(jié)點對類別標簽，構(gòu)建節(jié)點對類別矩陣；對類別矩陣進行能量因子填充，將類別矩陣中類別標簽替換為該類別所對應(yīng)的能量因子ε ，構(gòu)建能量矩陣；計算能量矩陣的最佳匹配。
[0008] 根據(jù)本發(fā)明的一個實施例，進一步的，計算該能量矩陣的最佳匹配的算法為：

【權(quán)利要求】
1. 一種多網(wǎng)絡(luò)中相同人名的身份識別方法，其特征在于，包括：獲取多個網(wǎng)絡(luò)中的用戶身份信息以及用戶身份對應(yīng)關(guān)系；將已知用戶身份對應(yīng)關(guān)系的用戶身份信息集合作為訓練集；根據(jù)所述訓練集中的所述用戶身份信息構(gòu)建基于用戶行為相似度的能量最低模型，獲取能量因子和匹配關(guān)系分類器；根據(jù)所述匹配關(guān)系分類器將任意兩個用戶身份信息進行匹配，并采用能量因子進行能量填充形成能量矩陣，求解此能量矩陣得到單次預(yù)測的匹配結(jié)果；對多次求解的匹配結(jié)果進行集成，得到用戶身份對應(yīng)關(guān)系并確定具有相同人名用戶的身份同一'I"生。
2. 如權(quán)利要求1所述的方法，其特征在于，所述將已知用戶身份對應(yīng)關(guān)系的所述用戶身份信息的集合作為訓練集、根據(jù)所述訓練集中的所述用戶身份信息構(gòu)建基于用戶行為相似度的能量最低模型、獲取能量因子和匹配關(guān)系分類器包括：對于2個網(wǎng)絡(luò)P、Q中任意給定的節(jié)點V(i)，其網(wǎng)絡(luò)拓撲結(jié)構(gòu)特征向量為：f(i)= {f\，f2，…fd}，其中，節(jié)點代表用戶身份信息，為節(jié)點基本屬性特征，包括：節(jié)點出度、入度、聚類系數(shù)、鄰居節(jié)點、平均度、共同鄰居；建立節(jié)點對特征向量向量，對于2個網(wǎng)絡(luò)P、Q的節(jié)點對特征向量向量為：
根據(jù)該節(jié)點對特征向量向量對匹配節(jié)點對進行聚類，獲得各聚類類別C中所包含的具有相似特征節(jié)點的個數(shù)，將其作為粒子特征，節(jié)點對特征的分布情況作為能量因子，將具有相似網(wǎng)絡(luò)行為特征的用戶賦予等值的能量因子； k 構(gòu)建匹配節(jié)點對能量模型：其中，1為相似特征的匹配節(jié)點對集合 i=\ . 依據(jù)特征進行聚類后的節(jié)點對個數(shù)，εi為該類別對應(yīng)的能量因子；根據(jù)所述能量模型獲取每個聚類類別所對應(yīng)的能量因子：ε= {εε2, . ..，εk}，并將其作為預(yù)測過程中節(jié)點對所屬類別的能量因子；根據(jù)聚類類別結(jié)果建立K分類器，并賦予每個節(jié)點對類別編號。
3. 如權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述匹配關(guān)系分類器將任意兩個用戶身份信息進行匹配、并采用能量因子進行能量填充形成能量矩陣、求解此能量矩陣得到單次預(yù)測的匹配結(jié)果包括：對網(wǎng)絡(luò)P、Q中未知身份對應(yīng)關(guān)系的節(jié)點分別提取其拓撲結(jié)構(gòu)特征：Fp⑴={fP(l)，fP(2)，· ··，fP(m)}和卩々）={4(1),4(2),...,4(111)}; 對于任意未知身份對應(yīng)關(guān)系的節(jié)點ieP，jeQ，構(gòu)建nXn個所有未知節(jié)點的匹配節(jié) 點對特征向量：
通過K分類器對匹配節(jié)點對特征向量進行分類，得到每個節(jié)點對類別標簽，構(gòu)建節(jié)點對類別矩陣；對類別矩陣進行能量因子填充，將類別矩陣中類別標簽替換為該類別所對應(yīng)的能量因子= ，構(gòu)建能量矩陣；計算能量矩陣的最佳匹配。
4. 如權(quán)利要求3所述的方法，其特征在于，計算該能量矩陣的最佳匹配的算法為：
其中，Aij表示網(wǎng)絡(luò)P中的節(jié)點i與網(wǎng)絡(luò)G中的節(jié)點j是否存在--對應(yīng)關(guān)系，若i0j的對應(yīng)關(guān)系被確立則標記為1，否則標記為〇,匹配結(jié)果表述為心〇+) 〇G(./+)。
5. 如權(quán)利要求3或4所述的方法，其特征在于，所述對多次求解的匹配結(jié)果進行集成，得到用戶身份信息的對應(yīng)關(guān)系并確定具有相同人名的身份同一性包括：得到ξ個預(yù)測結(jié)果，將每次預(yù)測結(jié)果在節(jié)點對匹配矩陣中進行投票，得到投票矩陣V-Matrix= (Vij)；求解該投票矩陣V-Matrix的最優(yōu)匹配問題，采用的算法為：
其中，k表示表示投票矩陣中第i行第j列的投票結(jié)果，λυ表示網(wǎng)絡(luò)P中的節(jié)點i與網(wǎng)絡(luò)G中的節(jié)點j是否存在一一對應(yīng)關(guān)系，即表示節(jié)點對的最終匹配結(jié)果。
6. -種多網(wǎng)絡(luò)中相同人名的身份識別裝置，其特征在于，包括：信息獲取單元，用于獲取多個網(wǎng)絡(luò)中的用戶身份信息以及用戶身份對應(yīng)關(guān)系；訓練集生成單元，用于將已知用戶身份對應(yīng)關(guān)系的用戶身份信息集合作為訓練集；根據(jù)所述訓練集中的所述用戶身份信息構(gòu)建基于用戶行為相似度的能量最低模型，獲取能量因子和匹配關(guān)系分類器；匹配單元，用于根據(jù)所述匹配關(guān)系分類器將任意兩個用戶身份信息進行匹配，并采用能量因子進行能量填充形成能量矩陣，求解此能量矩陣得到單次預(yù)測的匹配結(jié)果；集成單元，用于對多次求解的匹配結(jié)果進行集成，得到用戶身份對應(yīng)關(guān)系并確定具有相同人名用戶的身份同一性。
7. 如權(quán)利要求6所述的裝置，其特征在于：所述訓練集生成單元，包括：節(jié)點對特征建立子模塊，用于對于2個網(wǎng)絡(luò)P、Q中任意給定的節(jié)點V(i)，建立其網(wǎng)絡(luò)拓撲結(jié)構(gòu)特征向量為：f⑴={fl，f2，…fd}，其中，節(jié)點代表用戶身份信息， ?·Μ為節(jié)點基本屬性特征，包括：節(jié)點出度、人度、聚類系數(shù)、鄰居節(jié)點、平均度、共同鄰居；建立節(jié)點對特征向量向量，對于2個網(wǎng)絡(luò)P、Q的節(jié)點對特征向量向量為：廠…=廠以/))=丨.,/;,(1)，,/;,(2),…⑷4 量向量對匹配節(jié)點對進行聚類，獲得各聚類類別C中所包含的具有相似特征節(jié)點的個數(shù)，將其作為粒子特征，節(jié)點對特征的分布情況作為能量因子，將具有相似網(wǎng)絡(luò)行為特征的用戶賦予等值的能量因子； k 分類器生成子模塊，用于構(gòu)建匹配節(jié)點對能量模型：其中，I為相似 i=\ ; 特征的匹配節(jié)點對集合依據(jù)特征進行聚類后的節(jié)點對個數(shù)，εi為該類別對應(yīng)的能量因子；根據(jù)所述能量模型獲取每個聚類類別所對應(yīng)的能量因子：ε= {εε2, . ..，εk}，并將其作為預(yù)測過程中節(jié)點對所屬類別的能量因子；根據(jù)聚類類別結(jié)果建立K分類器，并賦予每個節(jié)點對類別編號。
8. 如權(quán)利要求6所述的裝置，其特征在于：所述訓練集生成單元，還包括：節(jié)點對類別建立子模塊，用于對網(wǎng)絡(luò)P、Q中未知身份對應(yīng)關(guān)系的節(jié)點分別提取其拓撲結(jié)構(gòu)特征：FP(i) = {fP(l)，fP(2)，· · ·，fP(m)}和？0(;〇 = {fQ(l)，fQ(2)，· · ·，fQ(m)};對于任意未知身份對應(yīng)關(guān)系的節(jié)點ieP，jeQ，構(gòu)建nXn個所有未知節(jié)點的匹配節(jié)點對特征向量：7，;^ = 7*'(以〇，心(刀)=(/r(l)，/r⑵，，乃⑴，乃⑵,...，/?,("七通過K分類器對匹配節(jié)點對特征向量進行分類，得到每個節(jié)點對類別標簽，構(gòu)建節(jié)點對類別矩陣；所述匹配單元，還用于對類別矩陣進行能量因子填充，將類別矩陣中類別標簽替換為該類別所對應(yīng)的能量因子εi=Mt()gOTy，構(gòu)建能量矩陣，計算能量矩陣的最佳匹配。
9. 如權(quán)利要求8所述的裝置，其特征在于，所述匹配單元計算該能量矩陣的最佳匹配的算法為：
其中，Aij表示網(wǎng)絡(luò)P中的節(jié)點i與網(wǎng)絡(luò)G中的節(jié)點j是否存在--對應(yīng)關(guān)系，若i〇j的對應(yīng)關(guān)系被確立則標記為1，否則標記為〇,匹配結(jié)果表述為1〉〇+)G心(./)。
10. 如權(quán)利要求8或9所述的裝置，其特征在于：所述集成單元，還用得到ξ個預(yù)測結(jié)果，將每次預(yù)測結(jié)果在節(jié)點對匹配矩陣中進行投票，得到投票矩陣V-Matrix= (Vij);求解該投票矩陣V-Matrix的最優(yōu)匹配問題，采用的公式為：
其中，k表示表示投票矩陣中第i行第j列的投票結(jié)果，λu表示網(wǎng)絡(luò)P中的節(jié)點i與網(wǎng)絡(luò)G中的節(jié)點j是否存在一一對應(yīng)關(guān)系，即表示節(jié)點對的最終匹配結(jié)果。
【文檔編號】G06F17/30GK104462318SQ201410719649
【公開日】2015年3月25日申請日期:2014年12月1日優(yōu)先權(quán)日:2014年12月1日
【發(fā)明者】王晶華, 陳晰, 徐慧明, 郭光 , 魏明磊申請人:國家電網(wǎng)公司, 國網(wǎng)河北省電力公司, 國網(wǎng)河北省電力公司衡水供電分公司, 國家電網(wǎng)公司信息通信分公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王晶華;陳晰;徐慧明;郭光;魏明磊;
技術(shù)所有人：國家電網(wǎng)公司;國網(wǎng)河北省電力公司;國網(wǎng)河北省電力公司衡水供電分公司;國家電網(wǎng)公司信息通信分公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種多網(wǎng)絡(luò)中相同人名的身份識別方法及裝置制造方法