亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種用于實(shí)體匹配的方法及系統(tǒng)的制作方法

文檔序號:9326949閱讀:420來源:國知局
一種用于實(shí)體匹配的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及數(shù)據(jù)庫技術(shù)領(lǐng)域,尤其涉及一種用于實(shí)體匹配的方法及系統(tǒng)。
【背景技術(shù)】
[0002] 在信息化不斷發(fā)展的當(dāng)今社會,每天都有各種各樣的信息涌入我們的生活。然而, 在這些信息當(dāng)中不乏那些重復(fù)的信息,這不僅導(dǎo)致了信息的冗余,而且極有可能帶來數(shù)據(jù) 不一致的問題。
[0003] 數(shù)據(jù)表中包含著多個(gè)實(shí)體,在兩個(gè)數(shù)據(jù)表中可能存在相同的實(shí)體,這兩個(gè)實(shí)體構(gòu) 成一個(gè)實(shí)例對表示同一個(gè)實(shí)體。由于這些實(shí)例可能以不同的方式表示,也可能在涵蓋信息 的廣度上有所不同,使得在進(jìn)行信息整合時(shí)無法較好的識別出這些相同的實(shí)體,不僅耗時(shí) 耗力,而且效率低下,因此需要找出這些實(shí)例對,對它們加以識別,以便于信息的融合。
[0004] 現(xiàn)有的大量實(shí)體匹配方法都是依賴于實(shí)體的主屬性的值,通過對字符串相似度計(jì) 算來度量實(shí)體的相似度,并根據(jù)預(yù)先定義好的相似度閾值與計(jì)算所得的相似度比較決定實(shí) 例對是否匹配。然而,由于躁數(shù)據(jù)和空缺值(指數(shù)據(jù)表中某一行下的某一屬性的值為空)的 影響,這種武斷地設(shè)定閾值的方式既會影響到實(shí)體匹配的準(zhǔn)確率也會影響其召回率。同時(shí), 由于主屬性表達(dá)方式的千差萬別,導(dǎo)致對于那些主屬性相似度較低的實(shí)例對在現(xiàn)有的方法 下無法準(zhǔn)確的對匹配結(jié)果加以判斷,甚至導(dǎo)致誤匹配問題。

【發(fā)明內(nèi)容】

[0005] 有鑒于此,本申請?zhí)峁┝艘环N用于實(shí)體匹配的方法及系統(tǒng),以克服現(xiàn)有技術(shù)中在 進(jìn)行實(shí)體匹配時(shí)單純依賴主屬性值影響實(shí)體匹配的準(zhǔn)確率和召回率的問題。
[0006] 為實(shí)現(xiàn)上述目的,本申請?zhí)峁┮韵录夹g(shù)方案:
[0007] -種用于實(shí)體匹配的方法,該方法包括:
[0008] 將待匹配實(shí)例對從預(yù)先訓(xùn)練的決策樹的根節(jié)點(diǎn)對應(yīng)的屬性開始進(jìn)行訪問,獲取所 述待匹配實(shí)例對的各屬性的屬性相似度和置信度;
[0009] 利用所述屬性相似度和所述置信度,結(jié)合調(diào)整系數(shù)計(jì)算并輸出所述待匹配實(shí)例對 的實(shí)體相似度;
[0010] 將所述實(shí)體相似度與預(yù)設(shè)實(shí)體相似度閾值進(jìn)行對比,判斷所述待匹配實(shí)例對的相 似性;
[0011] 其中,所述決策樹是利用由已知的匹配實(shí)體組成的實(shí)例對中共同的非主屬性集合 和/或主屬性集合訓(xùn)練獲得。
[0012] 優(yōu)選的,所述將待匹配實(shí)例對從預(yù)先訓(xùn)練的決策樹的根節(jié)點(diǎn)對應(yīng)的屬性開始進(jìn)行 訪問,獲取所述待匹配實(shí)例對的各屬性的屬性相似度和置信度包括:
[0013] 將所述待匹配實(shí)例對對所述決策樹的根節(jié)點(diǎn)對應(yīng)的屬性進(jìn)行訪問,得到根節(jié)點(diǎn)對 應(yīng)屬性的置信度,并計(jì)算所述待匹配實(shí)例對根節(jié)點(diǎn)對應(yīng)屬性的屬性相似度;
[0014] 根據(jù)所述根節(jié)點(diǎn)對應(yīng)屬性的屬性相似度與預(yù)設(shè)屬性相似度閾值的大小確定葉節(jié) 點(diǎn),并將所述待匹配實(shí)例對對所述葉節(jié)點(diǎn)對應(yīng)的屬性進(jìn)行訪問,得到當(dāng)前葉節(jié)點(diǎn)對應(yīng)屬性 的置信度,并計(jì)算所述待匹配實(shí)例對當(dāng)前葉節(jié)點(diǎn)對應(yīng)屬性的屬性相似度;
[0015] 根據(jù)所述當(dāng)前葉節(jié)點(diǎn)對應(yīng)屬性的屬性相似度與預(yù)設(shè)屬性相似度閾值的大小確定 下一級葉節(jié)點(diǎn)繼續(xù)進(jìn)行訪問,直至葉節(jié)點(diǎn)的頂端,獲取所述待匹配實(shí)例對的各屬性的屬性 相似度和置信度。
[0016] 優(yōu)選的,所述決策樹的預(yù)先訓(xùn)練方法包括:
[0017] 選取由已知的匹配實(shí)體組成的實(shí)例對構(gòu)成第一訓(xùn)練樣本集;
[0018] 根據(jù)所述第一訓(xùn)練樣本集得到每個(gè)非主屬性的充分性概率和必要性概率;
[0019] 根據(jù)所述非主屬性的充分性概率或必要性概率的大小,利用所述非主屬性構(gòu)建第 一決策樹;
[0020] 其中,選取所述非主屬性中所述充分性概率或者所述必要性概率最大的屬性作為 所述第一決策樹的根節(jié)點(diǎn)。
[0021] 優(yōu)選的,所述決策樹的預(yù)先訓(xùn)練方法包括:
[0022] 選取由已知的匹配實(shí)體組成的實(shí)例對構(gòu)成第二訓(xùn)練樣本集;
[0023] 根據(jù)所述第二訓(xùn)練樣本集得到每個(gè)非主屬性和主屬性的充分性概率和必要性概 率;
[0024] 根據(jù)所述非主屬性和主屬性的充分性概率或必要性概率的大小,利用所述非主屬 性和主屬性構(gòu)建第二決策樹;
[0025] 其中,選取所述非主屬性和主屬性中,所述充分性概率或者所述必要性概率最大 的屬性作為所述第二決策樹的根節(jié)點(diǎn)。
[0026] 優(yōu)選的,所述利用所述屬性相似度和所述置信度,結(jié)合調(diào)整系數(shù)計(jì)算并輸出所述 待匹配實(shí)例對的實(shí)體相似度的計(jì)算公式為:
[0028] 其中,F(xiàn)PRT_(t,s)表示由實(shí)體t和實(shí)體s構(gòu)成的待匹配實(shí)例對(t,s)的實(shí)體 相似度,height (Ai)表示屬性六;在所述決策樹中對應(yīng)的節(jié)點(diǎn)的高度,表示調(diào)整系數(shù), t Conf (A1)表示屬性A1的置信度,simUtAi], s[Aj表示兩個(gè)待處理實(shí)體中屬性A1的相似度, UA1]表示實(shí)體t中屬性A1的值,s [A J表示實(shí)體s中屬性A1的值。
[0029] 一種用于實(shí)體匹配的系統(tǒng),該系統(tǒng)包括:
[0030] 訓(xùn)練單元,用于預(yù)先訓(xùn)練決策樹,其中,所述決策樹是所述訓(xùn)練單元利用由已知的 匹配實(shí)體組成的實(shí)例對中共同的非主屬性集合和/或主屬性集合訓(xùn)練獲得;
[0031] 獲取單元,用于將待匹配實(shí)例對從預(yù)先訓(xùn)練的決策樹的根節(jié)點(diǎn)對應(yīng)的屬性開始進(jìn) 行訪問,獲取所述待匹配實(shí)例對的各屬性的屬性相似度和置信度;
[0032] 計(jì)算單元,用于利用所述屬性相似度和所述置信度,結(jié)合調(diào)整系數(shù)計(jì)算并輸出所 述待匹配實(shí)例對的實(shí)體相似度;
[0033] 判斷單元,用于將所述實(shí)體相似度與預(yù)設(shè)實(shí)體相似度閾值進(jìn)行對比,判斷所述待 匹配實(shí)例對的相似性。
[0034] 優(yōu)選的,所述獲取單元包括:
[0035] 節(jié)點(diǎn)訪問單元,用于將所述待匹配實(shí)例對對所述決策樹的根節(jié)點(diǎn)對應(yīng)的屬性進(jìn)行 訪問,得到根節(jié)點(diǎn)對應(yīng)屬性的置信度;
[0036] 第一計(jì)算子單元,用于計(jì)算所述待匹配實(shí)例對根節(jié)點(diǎn)對應(yīng)屬性的屬性相似度;
[0037] 判斷子單元,用于根據(jù)所述根節(jié)點(diǎn)對應(yīng)屬性的屬性相似度與預(yù)設(shè)屬性相似度閾值 的大小確定葉節(jié)點(diǎn);
[0038] 所述節(jié)點(diǎn)訪問單元,還用于將所述待匹配實(shí)例對,對根據(jù)判斷子單元判斷出的所 述葉節(jié)點(diǎn)對應(yīng)的屬性進(jìn)行訪問,得到當(dāng)前葉節(jié)點(diǎn)對應(yīng)屬性的置信度;
[0039] 所述第一計(jì)算子單元,還用于計(jì)算所述待匹配實(shí)例對當(dāng)前葉節(jié)點(diǎn)對應(yīng)屬性的屬性 相似度;
[0040] 所述判斷子單元,還用于根據(jù)所述當(dāng)前葉節(jié)點(diǎn)對應(yīng)屬性的屬性相似度與預(yù)設(shè)屬性 相似度閾值的大小確定下一級葉節(jié)點(diǎn)繼續(xù)進(jìn)行訪問,直至葉節(jié)點(diǎn)的頂端;
[0041] 獲取子單元,用于獲取通過所述節(jié)點(diǎn)訪問單元得到的所述待匹配實(shí)例對的各屬性 的置信度和通過所述第一計(jì)算子單元計(jì)算得到的各屬性的屬性相似度。
[0042] 優(yōu)選的,所述訓(xùn)練單元包括:
[0043] 第一選取單元,用于選取由已知的匹配實(shí)體組成的實(shí)例對構(gòu)成第一訓(xùn)練樣本集;
[0044] 第二計(jì)算子單元,用于根據(jù)所述第一訓(xùn)練樣本集得到每個(gè)非主屬性的充分性概率 和必要性概率;
[0045] 第一構(gòu)建單元,根據(jù)所述非主屬性的充分性概率或必要性概率的大小,利用所述 非主屬性構(gòu)建第一決策樹;
[0046] 其中,選取所述非主屬性中所述充分性概率或者所述必要性概率最大的屬性作為 所述第一決策樹的根節(jié)點(diǎn)。
[0047] 優(yōu)選的,所述訓(xùn)練單元包括:
[0048] 第二選取單元,用于選取由已知的匹配實(shí)體組成的實(shí)例對構(gòu)成第二訓(xùn)練樣本集;
[0049] 第三計(jì)算子單元,用于根據(jù)所述第二訓(xùn)練樣本集得到每個(gè)非主屬性和主屬性的充 分性概率和必要性概率;
[0050] 第二構(gòu)建單元,用于根據(jù)所述非主屬性和主屬性的充分性概率或必要性概率的大 小,利用所述非主屬性和主屬性構(gòu)建第二決策樹;
[0051] 其中,選取所述非主屬性和主屬性中,所述充分性概率或者所述必要性概率最大 的屬性作為所述第二決策樹的根節(jié)點(diǎn)。
[0052] 優(yōu)選的,所述計(jì)算單元利用所述屬性相似度和所述置信度,結(jié)合調(diào)整系數(shù)計(jì)算計(jì) 算實(shí)體相似度的計(jì)算公式為:
[0054] 其中,F(xiàn)PRT_(t,s)表示由實(shí)體t和實(shí)體s構(gòu)成的待匹配實(shí)例對(t,s)的實(shí)體 相似度,height (Ai)表示屬性六;在所述決策樹中對應(yīng)的節(jié)點(diǎn)的高度,__τ表示調(diào)整系數(shù), Conf (A1)表示屬性A1的置信度,simUtAi], s[Aj表示兩個(gè)待處理實(shí)體中屬性A1的相似度, UA1]表示實(shí)體t中屬性A1的值,s [A J表示實(shí)體s中屬性A1的值。
[0055] 由以上技術(shù)方案可知,本申請?zhí)峁┝艘环N用于實(shí)體匹配的方法及系統(tǒng),該方法包 括:將待匹配實(shí)例對從預(yù)先訓(xùn)練的決策樹的根節(jié)點(diǎn)對應(yīng)的屬性開始進(jìn)行訪問,獲取所述待 匹配實(shí)例對的各屬性的屬性相似度和置信度;利用所述屬性相似度和所述置信度,結(jié)合調(diào) 整系數(shù)計(jì)算并輸出所述待匹配實(shí)例對的實(shí)體相似度;將所述實(shí)體相似度與預(yù)設(shè)實(shí)體相似度 閾值進(jìn)行對比,判斷所述待匹配實(shí)例對的相似性;其中,所述決策樹是利用由已知的匹配實(shí) 體組成的實(shí)例對中共同的非主屬性集合和/或主屬性集合訓(xùn)練獲得。該方法通過利用已知 的實(shí)例對中
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1