基于閾值匹配模型的相似度分析系統(tǒng)和方法
【專利摘要】本發(fā)明提供了一種基于閾值匹配模型的相似度分析系統(tǒng)和基于閾值匹配模型的相似度分析方法,其中,基于閾值匹配模型的相似度分析系統(tǒng)包括:獲取單元,用于獲取匹配對,所述匹配對包含兩個記錄;處理單元,按照預設規(guī)則計算出所述兩個記錄的相似度;關系確定單元,用于比較所述兩個記錄的相似度和設定的相似度閾值的大小,根據(jù)比較結果確定所述兩個記錄的關系。根據(jù)本發(fā)明的技術方案,在大數(shù)據(jù)量中獲取相匹配的記錄,并且可確定記錄之間的關系,為判斷系統(tǒng)分析結果的正確性和可靠性提供依據(jù)。
【專利說明】基于閾值匹配模型的相似度分析系統(tǒng)和方法
【技術領域】
[0001]本發(fā)明涉及計算機【技術領域】,具體而言,涉及一種基于閾值匹配模型的相似度分析系統(tǒng)和方法。
【背景技術】
[0002]目前我國醫(yī)療信息化是多形態(tài)并存并逐步完善,最終的目標達到醫(yī)療信息社會化。醫(yī)療系統(tǒng)中各系統(tǒng)相互獨立,例如門急診系統(tǒng)、住院、體檢系統(tǒng)、影像中心等,部分系統(tǒng)的患者信息數(shù)據(jù)要求低,錄入不完整。各業(yè)務系統(tǒng)標準不一致、業(yè)務字段不一致、或語言表達差異,從而導致患者信息沒有關聯(lián),系統(tǒng)間信息獨立?;颊邤?shù)據(jù)只有部分字段有效,并不能對患者進行唯一性確認,缺失標識。也沒有很好的處理方式來確定記錄之間的關系,不能確定不同的記錄是不是表達同一個對象,即便相同的部分較多,也不能確定是否是同一個對象。
[0003]因此,需要一種相似度分析方案,來確定不同的記錄是不是表達同一個對象,為判斷系統(tǒng)分析結果的正確性和可靠性提供依據(jù)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明正是基于上述技術問題,提出了一種相似度分析方案,來確定不同的記錄是不是表達同一個對象,為判斷系統(tǒng)分析結果的正確性和可靠性提供依據(jù)。
[0005]有鑒于此,根據(jù)本發(fā)明的一個方面,提出了一種基于閾值匹配模型的相似度分析系統(tǒng),包括:獲取單元,用于獲取匹配對,所述匹配對包含兩個記錄;處理單元,按照預設規(guī)則計算出所述兩個記錄的相似度;關系確定單元,用于比較所述兩個記錄的相似度和設定的相似度閾值的大小,根據(jù)比較結果確定所述兩個記錄的關系。
[0006]在該技術方案中,首先在大數(shù)據(jù)量中獲取初步確定的匹配對,該匹配對具有相似的字段值。在獲取匹配對后,需要進一步確定匹配對中兩個記錄的相似度,根據(jù)兩個記錄的相似度與相似度閾值的大小來確定兩個記錄的關系。
[0007]在上述技術方案中,優(yōu)選的,每個記錄包含一個或多個字段,所述處理單元進一步用于針對所述兩個記錄的相同字段,計算所述兩個記錄的相同字段的相似值,根據(jù)所述相同字段的相似值確定所述相似度。
[0008]由于每個記錄可能包含多個字段,因此需要針對每個字段進行比較,計算出兩個記錄的相同字段對應的字段值之間的相似值,從而根據(jù)字段值的相似值來確定記錄之間的相似度。
[0009]在上述技術方案中,優(yōu)選的,還可以包括:存儲器,保存設置的所述記錄的每一字段的匹配概率,所述匹配概率包括正向概率、逆向概率、正向權重和/或逆向權重,所述正向概率是若兩個字段匹配,則表示同一個對象的概率,所述逆向概率是若兩個字段不匹配,則表示不是一個對象的概率。
[0010]預先設置自動的匹配概率,例如若記錄的字段包括姓名字段、身份證字段、家庭地址字段,可以設置身份證字段的匹配概率較大,而家庭地址字段的匹配概率較小,這樣針對不同的字段,其對應的相似值在記錄的最終相似度中所占的比重是不一樣的,可提高相似度的準確性。
[0011]在上述技術方案中,優(yōu)選的,所述處理單元進一步用于基于所述匹配概率計算出所述相同字段的相似值,在所述兩個記錄具有多個相同字段時,將各相同字段的對應相似值之和作為所述兩個記錄的相似度。
[0012]在計算出不同字段的相似值之后,可將所有字段的相似值相加得到兩個記錄之間最終的相似度值。當然也可以是其他處理方式例如相乘得到最終的相似度值。
[0013]在上述任一技術方案中,優(yōu)選的,所述相似度閾值包括第一閾值和第二閾值,所述第一閾值大于所述第二閾值;所述關系確定單元進一步用于在所述兩個記錄的相似度大于等于所述第一閾值時,確定所述兩個記錄的關系為匹配關系并生成用于關聯(lián)所述兩個記錄的唯一標識,在所述兩個記錄的相似度小于所述第一閾值且大于所述第二閾值時,確定所述兩個記錄的關系為疑似關系,以及在所述兩個記錄的相似度小于等于所述第二閾值時,確定所述兩個記錄的關系為不匹配關系。
[0014]為相似度設置兩個界限,第一閾值即高界限,第二閾值即低界限。若計算出的相似度高于第一閾值,說明這兩個記錄表示同一個對象的可能性非常大,那么可確定這兩個記錄是匹配關系;若計算出的相似度在高界限與低界限之間,那么說明這兩個記錄可能表示同一個對象,可能性不是很大,需要進行人工確定這兩個記錄是否表示同一個對象;若計算出的相似度在低于低界限,那么說明這兩個記錄不可能表示同一個對象,可確定這兩個記錄不是匹配關系。
[0015]根據(jù)本發(fā)明的另一方面,還提供了一種基于閾值匹配模型的相似度分析方法,包括:獲取匹配對,所述匹配對包含兩個記錄;按照預設規(guī)則計算出所述兩個記錄的相似度;比較所述兩個記錄的相似度和設定的相似度閾值的大小,根據(jù)比較結果確定所述兩個記錄的關系。
[0016]在該技術方案中,首先在大數(shù)據(jù)量中獲取初步確定的匹配對,該匹配對具有相似的字段值。在獲取匹配對后,需要進一步確定匹配對中兩個記錄的相似度,根據(jù)兩個記錄的相似度與相似度閾值的大小來確定兩個記錄的關系。
[0017]在上述技術方案中,優(yōu)選的,按照預設規(guī)則計算出所述兩個記錄的相似度的步驟具體包括:每個記錄包含一個或多個字段,針對所述兩個記錄的相同字段,計算所述兩個記錄的相同字段的相似值,根據(jù)所述相同字段的相似值確定所述相似度。
[0018]由于每個記錄可能包含多個字段,因此需要針對每個字段進行比較,計算出兩個記錄的相同字段對應的字段值之間的相似值,從而根據(jù)字段值的相似值來確定記錄之間的相似度。
[0019]在上述技術方案中,優(yōu)選的,還可以包括:保存設置的所述記錄的每一字段的匹配概率,所述匹配概率包括正向概率、逆向概率、正向權重和/或逆向權重,所述正向概率是若兩個字段匹配,則表示同一個對象的概率,所述逆向概率是若兩個字段不匹配,則表示不是一個對象的概率。
[0020]預先設置自動的匹配概率,例如若記錄的字段包括姓名字段、身份證字段、家庭地址字段,可以設置身份證字段的匹配概率較大,而家庭地址字段的匹配概率較小,這樣針對不同的字段,其對應的相似值在記錄的最終相似度中所占的比重是不一樣的,可提高相似度的準確性。
[0021]在上述技術方案中,優(yōu)選的,基于所述匹配概率計算出所述相同字段的相似值;在所述兩個記錄具有多個相同字段時,將各相同字段的對應相似值之和作為所述兩個記錄的相似度。
[0022]在計算出不同字段的相似值之后,可將所有字段的相似值相加得到兩個記錄之間最終的相似度值。當然也可以是其他處理方式例如相乘得到最終的相似度值。
[0023]在上述任一技術方案中,優(yōu)選的,所述相似度閾值包括第一閾值和第二閾值,所述第一閾值大于所述第二閾值;在所述兩個記錄的相似度大于等于所述第一閾值時,確定所述兩個記錄的關系為匹配關系并生成用于關聯(lián)所述兩個記錄的唯一標識,在所述兩個記錄的相似度小于所述第一閾值且大于所述第二閾值時,確定所述兩個記錄的關系為疑似關系,以及在所述兩個記錄的相似度小于等于所述第二閾值時,確定所述兩個記錄的關系為不匹配關系。
[0024]為相似度設置兩個界限,第一閾值即高界限,第二閾值即低界限。若計算出的相似度高于第一閾值,說明這兩個記錄表示同一個對象的可能性非常大,那么可確定這兩個記錄是匹配關系;若計算出的相似度在高界限與低界限之間,那么說明這兩個記錄可能表示同一個對象,可能性不是很大,需要進行人工確定這兩個記錄是否表示同一個對象;若計算出的相似度在低于低界限,那么說明這兩個記錄不可能表示同一個對象,可確定這兩個記錄不是匹配關系。
【專利附圖】
【附圖說明】
[0025]圖1示出了根據(jù)本發(fā)明的實施例的基于閾值匹配模型的相似度分析系統(tǒng)的框圖;
[0026]圖2示出了根據(jù)本發(fā)明的實施例的基于閾值匹配模型的相似度分析方法的流程圖;
[0027]圖3示出了根據(jù)本發(fā)明的實施例的基于相似度確定記錄之間的關系的示意圖;
[0028]圖4示出了根據(jù)本發(fā)明的實施例的基于閾值匹配模型的相似度分析方法的流程圖。
【具體實施方式】
[0029]為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結合附圖和【具體實施方式】對本發(fā)明進行進一步的詳細描述。需要說明的是,在不沖突的情況下,本申請的實施例及實施例中的特征可以相互組合。
[0030]在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實施,因此,本發(fā)明的保護范圍并不受下面公開的具體實施例的限制。
[0031]圖1示出了根據(jù)本發(fā)明的實施例的基于閾值匹配模型的相似度分析系統(tǒng)的框圖。
[0032]如圖1所示,根據(jù)本發(fā)明的實施例的基于閾值匹配模型的相似度分析系統(tǒng)100,包括:獲取單元102,用于獲取匹配對,所述匹配對包含兩個記錄;處理單元104,按照預設規(guī)則計算出所述兩個記錄的相似度;關系確定單元106,用于比較所述兩個記錄的相似度和設定的相似度閾值的大小,根據(jù)比較結果確定所述兩個記錄的關系。
[0033]在該技術方案中,首先在大數(shù)據(jù)量中獲取初步確定的匹配對,該匹配對具有相似的字段值。在獲取匹配對后,需要進一步確定匹配對中兩個記錄的相似度,根據(jù)兩個記錄的相似度與相似度閾值的大小來確定兩個記錄的關系。
[0034]在上述技術方案中,優(yōu)選的,每個記錄包含一個或多個字段,所述處理單元進一步用于針對所述兩個記錄的相同字段,計算所述兩個記錄的相同字段的相似值,根據(jù)所述相同字段的相似值確定所述相似度。
[0035]由于每個記錄可能包含多個字段,因此需要針對每個字段進行比較,計算出兩個記錄的相同字段對應的字段值之間的相似值,從而根據(jù)字段值的相似值來確定記錄之間的相似度。
[0036]在上述技術方案中,優(yōu)選的,還可以包括:存儲器108,保存設置的所述記錄的每一字段的匹配概率,所述匹配概率包括正向概率、逆向概率、正向權重和/或逆向權重,所述正向概率是若兩個字段匹配,則表示同一個對象的概率,所述逆向概率是若兩個字段不匹配,則表示不是一個對象的概率。
[0037]預先設置自動的匹配概率,例如若記錄的字段包括姓名字段、身份證字段、家庭地址字段,可以設置身份證字段的匹配概率較大,而家庭地址字段的匹配概率較小,這樣針對不同的字段,其對應的相似值在記錄的最終相似度中所占的比重是不一樣的,可提高相似度的準確性。
[0038]在上述技術方案中,優(yōu)選的,所述處理單元104進一步用于基于所述匹配概率計算出所述相同字段的相似值,在所述兩個記錄具有多個相同字段時,將各相同字段的對應相似值之和作為所述兩個記錄的相似度。
[0039]在計算出不同字段的相似值之后,可將所有字段的相似值相加得到兩個記錄之間最終的相似度值。當然也可以是其他處理方式例如相乘得到最終的相似度值。
[0040]舉例:假設一匹配對信息如表1所示,
[0041]
【權利要求】
1.一種基于閾值匹配模型的相似度分析系統(tǒng),其特征在于,包括: 獲取單元,用于獲取匹配對,所述匹配對包含兩個記錄; 處理單元,按照預設規(guī)則計算出所述兩個記錄的相似度; 關系確定單元,用于比較所述兩個記錄的相似度和設定的相似度閾值的大小,根據(jù)比較結果確定所述兩個記錄的關系。
2.根據(jù)權利要求1所述的基于閾值匹配模型的相似度分析系統(tǒng),其特征在于,每個記錄包含一個或多個字段,所述處理單元進一步用于針對所述兩個記錄的相同字段,計算所述兩個記錄的相同字段的相似值,根據(jù)所述相同字段的相似值確定所述相似度。
3.根據(jù)權利要求2所述的基于閾值匹配模型的相似度分析系統(tǒng),其特征在于,還包括:存儲器,保存設置的所述記錄的每一字段的匹配概率,所述匹配概率包括正向概率、逆向概率、正向權重和/或逆向權重,所述正向概率是若兩個字段匹配,則表示同一個對象的概率,所述逆向概率是若兩個字段不匹配,則表示不是一個對象的概率。
4.根據(jù)權利要求3所述的基于閾值匹配模型的相似度分析系統(tǒng),其特征在于,所述處理單元進一步用于基于所述匹配概率計算出所述相同字段的相似值,在所述兩個記錄具有多個相同字段時,將各相同字段的對應相似值之和作為所述兩個記錄的相似度。
5.根據(jù)權利要求1至4中任一項所述的基于閾值匹配模型的相似度分析系統(tǒng),其特征在于,所述相似度閾值包括第一閾值和第二閾值,所述第一閾值大于所述第二閾值; 所述關系確定單元進一步用于在所述兩個記錄的相似度大于等于所述第一閾值時,確定所述兩個記錄的關系為匹配關系并生成用于關聯(lián)所述兩個記錄的唯一標識,在所述兩個記錄的相似度小于所述.第一閾值且大于所述第二閾值時,確定所述兩個記錄的關系為疑似關系,以及在所述兩個記錄的相似度小于等于所述第二閾值時,確定所述兩個記錄的關系為不匹配關系。
6.一種基于閾值匹配模型的相似度分析方法,其特征在于,包括: 獲取匹配對,所述匹配對包含兩個記錄; 按照預設規(guī)則計算出所述兩個記錄的相似度; 比較所述兩個記錄的相似度和設定的相似度閾值的大小,根據(jù)比較結果確定所述兩個記錄的關系。
7.根據(jù)權利要求6所述的基于閾值匹配模型的相似度分析方法,其特征在于,按照預設規(guī)則計算出所述兩個記錄的相似度的步驟具體包括:每個記錄包含一個或多個字段,針對所述兩個記錄的相同字段,計算所述兩個記錄的相同字段的相似值,根據(jù)所述相同字段的相似值確定所述相似度。
8.根據(jù)權利要求7所述的基于閾值匹配模型的相似度分析方法,其特征在于,還包括:保存設置的所述記錄的每一字段的匹配概率,所述匹配概率包括正向概率、逆向概率、正向權重和/或逆向權重,所述正向概率是若兩個字段匹配,則表示同一個對象的概率,所述逆向概率是若兩個字段不匹配,則表示不是一個對象的概率。
9.根據(jù)權利要求8所述的基于閾值匹配模型的相似度分析方法,其特征在于,基于所述匹配概率計算出所述相同字段的相似值; 在所述兩個記錄具有多個相同字段時,將各相同字段的對應相似值之和作為所述兩個記錄的相似度。
10.根據(jù)權利要求6至8中任一項所述的基于閾值匹配模型的相似度分析方法,其特征在于,所述相似度閾值包括第一閾值和第二閾值,所述第一閾值大于所述第二閾值; 在所述兩個記錄的相似度大于等于所述第一閾值時,確定所述兩個記錄的關系為匹配關系并生成用于關聯(lián)所述兩個記錄的唯一標識,在所述兩個記錄的相似度小于所述第一閾值且大于所述第二閾值時,確定所述兩個記錄的關系為疑似關系,以及在所述兩個記錄的相似度小于等于所述第二閾 值時,確定所述兩個記錄的關系為不匹配關系。
【文檔編號】G06F17/30GK103473373SQ201310456063
【公開日】2013年12月25日 申請日期:2013年9月29日 優(yōu)先權日:2013年9月29日
【發(fā)明者】李登高, 張應才 申請人:方正國際軟件有限公司, 方正國際軟件(北京)有限公司