數(shù)據(jù)清洗系統(tǒng)和數(shù)據(jù)清洗方法
【專利摘要】本發(fā)明提供了一種數(shù)據(jù)清洗方法與數(shù)據(jù)清洗系統(tǒng),其中,數(shù)據(jù)清洗系統(tǒng)包括處理器,根據(jù)預(yù)設(shè)規(guī)則清洗來自不同系統(tǒng)的域數(shù)據(jù),以及根據(jù)清洗結(jié)果調(diào)整所述預(yù)設(shè)規(guī)則。通過本發(fā)明的技術(shù)方案,對來自不同數(shù)據(jù)源的域數(shù)據(jù)進(jìn)行清洗,以符合數(shù)據(jù)清洗系統(tǒng)的主數(shù)據(jù)庫要求,并為下一步數(shù)據(jù)歸類于對比以及合并識別出表示同一對象的不同數(shù)據(jù)奠定基礎(chǔ)。
【專利說明】數(shù)據(jù)清洗系統(tǒng)和數(shù)據(jù)清洗方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,具體而言,涉及一種數(shù)據(jù)清洗系統(tǒng)和一種數(shù)據(jù)清洗方法?!颈尘凹夹g(shù)】
[0002]目前我國醫(yī)療信息化是多形態(tài)并存并逐步完善,最終的目標(biāo)達(dá)到醫(yī)療信息社會(huì)化。醫(yī)療系統(tǒng)中各系統(tǒng)相互獨(dú)立,例如門急診系統(tǒng)、住院、體檢系統(tǒng)、影像中心等,部分系統(tǒng)的患者信息數(shù)據(jù)要求低,錄入不完整。各業(yè)務(wù)系統(tǒng)標(biāo)準(zhǔn)不一致、業(yè)務(wù)字段不一致、或語言表達(dá)差異,從而導(dǎo)致患者信息沒有關(guān)聯(lián),系統(tǒng)間信息獨(dú)立?;颊邤?shù)據(jù)只有部分字段有效,并不能對患者進(jìn)行唯一性確認(rèn),缺失標(biāo)識。系統(tǒng)之間平臺不一致,數(shù)據(jù)標(biāo)準(zhǔn)不一致,導(dǎo)致交互不能暢通。
[0003]數(shù)據(jù)清洗是進(jìn)行數(shù)據(jù)對比、數(shù)據(jù)可信合并、形成統(tǒng)一患者主索引的關(guān)鍵的第一階段,是患者主索引處理形成的核心。因此,需要一種數(shù)據(jù)清洗方案,可將不同格式、不同表達(dá)的數(shù)據(jù)統(tǒng)一成符合預(yù)定格式要求的數(shù)據(jù),使得數(shù)據(jù)標(biāo)準(zhǔn)化,便于后續(xù)的數(shù)據(jù)處理,使系統(tǒng)之間溝通順暢。
【發(fā)明內(nèi)容】
[0004]本發(fā)明正是基于上述問題,提出了一種數(shù)據(jù)清洗方案,可將不同格式、不同表達(dá)的數(shù)據(jù)統(tǒng)一成符合預(yù)定格式要求的數(shù)據(jù),使得數(shù)據(jù)標(biāo)準(zhǔn)化。便于后續(xù)的數(shù)據(jù)處理,使系統(tǒng)之間溝通順暢。
[0005]有鑒于此,根據(jù)本發(fā)明的一個(gè)方面,提出了一種數(shù)據(jù)清洗系統(tǒng),包括:處理器,根據(jù)預(yù)設(shè)規(guī)則清洗來自不同系統(tǒng)的域數(shù)據(jù),以及根據(jù)清洗結(jié)果調(diào)整所述預(yù)設(shè)規(guī)則。
[0006]不同鏡像服務(wù)器中的域數(shù)據(jù)的格式均不一樣,有可能是字段不一樣,有可能是表達(dá)方式不一樣,有可能是字段值錯(cuò)誤,該數(shù)據(jù)清洗系統(tǒng)可識別出無效的,不符合要求的數(shù)據(jù),可對來自不同系統(tǒng)的域數(shù)據(jù)進(jìn)行清洗,實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化,便于后續(xù)的關(guān)聯(lián)計(jì)算。
[0007]在上述技術(shù)方案中,優(yōu)選的,所述處理器讀取所述域數(shù)據(jù)中每條記錄的字段值,將不符合預(yù)設(shè)條件的字段值置換成預(yù)設(shè)值或空值或刪除所述字段值。
[0008]由于每個(gè)數(shù)據(jù)記錄均包含了一個(gè)或多個(gè)字段,因此,在對數(shù)據(jù)進(jìn)行清洗時(shí),可包含字段級的清洗,例如對于時(shí)間字段,不同的系統(tǒng)表示方式不一樣,需將這些不同表方式的時(shí)間進(jìn)行同一,按照數(shù)據(jù)清洗系統(tǒng)的主數(shù)據(jù)庫的時(shí)間字段的格式進(jìn)行統(tǒng)一。
[0009]在上述技術(shù)方案中,優(yōu)選的,所述處理器還用于逐條讀取所述域數(shù)據(jù)中的記錄,根據(jù)所述記錄中字段之間的關(guān)聯(lián)關(guān)系為缺少字段值的字段匹配出所述字段值,并將所述字段值填充至相應(yīng)字段。
[0010]雖然數(shù)據(jù)記錄包含了多個(gè)字段,但有可能某些字段缺少關(guān)鍵值,可識別出數(shù)據(jù)記錄中字段之間的關(guān)聯(lián)關(guān)系,基于該關(guān)聯(lián)關(guān)系推導(dǎo)出缺少關(guān)鍵值的字段的相應(yīng)字段值,從而完成記錄的匹配和填充。
[0011]在上述技術(shù)方案中,優(yōu)選的,所述處理器可以包括:計(jì)算單元,用于根據(jù)所述域數(shù)據(jù)中每條記錄中各字段的權(quán)重值,計(jì)算相應(yīng)記錄的總權(quán)重值,刪除總權(quán)重值小于等于閾值的記錄。例如設(shè)置身份證字段的權(quán)重最大為50%,設(shè)置姓名的權(quán)重為20%,住址字段的權(quán)重最小5%,并且設(shè)置閾值為5%,假設(shè)有一條記錄的字符值僅包含住址字段時(shí),計(jì)算該條記錄的權(quán)重值為5%,該條記錄的權(quán)重值小于等于閾值,故刪除該條記錄。在上述技術(shù)方案中,優(yōu)選的,所述處理器還用于識別出屬于同一域的多個(gè)域數(shù)據(jù),并比較同一域下的所述多個(gè)域數(shù)據(jù),在比較出具有差異的字段時(shí),根據(jù)所述同一域的域內(nèi)數(shù)據(jù)關(guān)系修正所述具有差異的字段。
[0012]在某些時(shí)候,即便數(shù)據(jù)記錄中所有字段的字段值均已填充并且表達(dá)方式也正確,但是在不同的系統(tǒng)中,相應(yīng)的字段值不一樣,為了確定哪個(gè)字段值是正確的,需要根據(jù)同一域下的域內(nèi)數(shù)據(jù)關(guān)系來修正具有字段值差異的字段。例如,同一域下的系統(tǒng)包括公安系統(tǒng)、商場系統(tǒng)和醫(yī)院系統(tǒng),在數(shù)據(jù)記錄出現(xiàn)差異時(shí),可以公安系統(tǒng)的數(shù)據(jù)記錄為準(zhǔn),來修正其他系統(tǒng)的域數(shù)據(jù),以盡量保證數(shù)據(jù)的準(zhǔn)確性。
[0013]根據(jù)本發(fā)明的另一方面,還提出了一種數(shù)據(jù)清洗方法,包括:根據(jù)預(yù)設(shè)規(guī)則清洗來自不同系統(tǒng)的域數(shù)據(jù),以及根據(jù)清洗結(jié)果調(diào)整所述預(yù)設(shè)規(guī)則。
[0014]不同鏡像服務(wù)器中的域數(shù)據(jù)的格式均不一樣,有可能是字段不一樣,有可能是表達(dá)方式不一樣,有可能是字段值錯(cuò)誤,該數(shù)據(jù)清洗系統(tǒng)可識別出無效的,不符合要求的數(shù)據(jù),可對來自不同鏡像服務(wù)器的域數(shù)據(jù)進(jìn)行清洗,實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化,便于后續(xù)的關(guān)聯(lián)計(jì)算。
[0015]在上述技術(shù)方案中,優(yōu)選的,清洗所述域數(shù)據(jù)的具體步驟包括:讀取所述域數(shù)據(jù)中每條記錄的字段值,將不符合預(yù)設(shè)條件的字段值置換成預(yù)設(shè)值或空值。
[0016]由于每個(gè)數(shù)據(jù)記錄均包含了一個(gè)或多個(gè)字段,因此,在對數(shù)據(jù)進(jìn)行清洗時(shí),可包含字段級的清洗,例如對于時(shí)間字段,不同的系統(tǒng)表示方式不一樣,需將這些不同表方式的時(shí)間進(jìn)行同一,按照數(shù)據(jù)清洗系統(tǒng)的主數(shù)據(jù)庫的時(shí)間字段的格式進(jìn)行統(tǒng)一。
[0017]在上述技術(shù)方案中,優(yōu)選的,清洗所述域數(shù)據(jù)的具體步驟還包括:逐條讀取所述域數(shù)據(jù)中的記錄,根據(jù)所述記錄中字段之間的關(guān)聯(lián)關(guān)系為缺少字段值的字段匹配出所述字段值,并將所述字段值填充至相應(yīng)字段。
[0018]雖然數(shù)據(jù)記錄包含了多個(gè)字段,但有可能某些字段缺少關(guān)鍵值,可識別出數(shù)據(jù)記錄中字段之間的關(guān)聯(lián)關(guān)系,基于該關(guān)聯(lián)關(guān)系推導(dǎo)出缺少關(guān)鍵值的字段的相應(yīng)字段值,從而完成記錄的匹配和填充。
[0019]在上述技術(shù)方案中,優(yōu)選的,清洗所述域數(shù)據(jù)的具體步驟還可以包括:根據(jù)所述域數(shù)據(jù)中每條記錄中各字段的權(quán)重值,計(jì)算相應(yīng)記錄的總權(quán)重值,并刪除總權(quán)重值小于等于閾值的記錄。
[0020]在上述技術(shù)方案中,優(yōu)選的,清洗所述域數(shù)據(jù)的具體步驟還包括:識別出屬于同一域的多個(gè)域數(shù)據(jù),并比較同一域下的所述多個(gè)域數(shù)據(jù);在比較出具有差異的字段時(shí),根據(jù)所述同一域的域內(nèi)數(shù)據(jù)關(guān)系修正所述具有差異的字段。
[0021]在某些時(shí)候,即便數(shù)據(jù)記錄中所有字段的字段值均已填充并且表達(dá)方式也正確,但是在不同的系統(tǒng)中,相應(yīng)的字段值不一樣,為了確定哪個(gè)字段值是正確的,需要根據(jù)同一域下的域內(nèi)數(shù)據(jù)關(guān)系來修正具有字段值差異的字段。例如,同一域下的系統(tǒng)包括公安系統(tǒng)、商場系統(tǒng)和醫(yī)院系統(tǒng),在數(shù)據(jù)記錄出現(xiàn)差異時(shí),可以公安系統(tǒng)的數(shù)據(jù)記錄為準(zhǔn),來修正其他系統(tǒng)的域數(shù)據(jù),以盡量保證數(shù)據(jù)的準(zhǔn)確性。[0022]由于不同系統(tǒng)之間數(shù)據(jù)格式差異很大,因此需要對來自不同系統(tǒng)的數(shù)據(jù)進(jìn)行清洗,以符合標(biāo)準(zhǔn)化格式,以為關(guān)聯(lián)計(jì)算做準(zhǔn)備,以使系統(tǒng)之間溝通更順暢。數(shù)據(jù)的清洗包括字段級的清洗、記錄級清洗和系統(tǒng)級清洗。字段級清洗主要是把字段值不符合規(guī)定的、無效的進(jìn)行置換,然后把不符合主數(shù)據(jù)庫標(biāo)準(zhǔn)的數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換。記錄級清洗主要是根據(jù)記錄中字段之間的關(guān)聯(lián)關(guān)系來匹配和填充不正確的字段以及字段值。系統(tǒng)級清洗是對同一域下的主數(shù)據(jù)進(jìn)行比對,把多余或者不正確的字段通過域內(nèi)數(shù)據(jù)關(guān)系進(jìn)行修正,從而完成數(shù)據(jù)的清洗過程,也使清洗后的數(shù)據(jù)在符合標(biāo)準(zhǔn)格式的同時(shí)也更準(zhǔn)確。
【專利附圖】
【附圖說明】
[0023]圖1示出了根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)清洗系統(tǒng)的框圖;
[0024]圖2示出了根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)清洗原理的示意圖;
[0025]圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的數(shù)據(jù)清洗方法的流程圖;
[0026]圖4示出了根據(jù)本發(fā)明的另一實(shí)施例的數(shù)據(jù)清洗方法的流程圖。
【具體實(shí)施方式】
[0027]為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是,在不沖突的情況下,本申請的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0028]在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。
[0029]圖1示出了根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)清洗系統(tǒng)的框圖。
[0030]如圖1所示,根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)清洗系統(tǒng)100,包括:處理器102,根據(jù)預(yù)設(shè)規(guī)則清洗來自不同系統(tǒng)的域數(shù)據(jù),以及根據(jù)清洗結(jié)果調(diào)整所述預(yù)設(shè)規(guī)則。
[0031]不同鏡像服務(wù)器中的域數(shù)據(jù)的格式均不一樣,有可能是字段不一樣,有可能是表達(dá)方式不一樣,有可能是字段值錯(cuò)誤,該數(shù)據(jù)清洗系統(tǒng)可識別出無效的,不符合要求的數(shù)據(jù),可對來自不同鏡像服務(wù)器的域數(shù)據(jù)進(jìn)行清洗,實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化,便于后續(xù)的關(guān)聯(lián)計(jì)算。
[0032]在上述技術(shù)方案中,優(yōu)選的,所述處理器102讀取所述域數(shù)據(jù)的字段值,將不符合預(yù)設(shè)條件的字段值置換成預(yù)設(shè)值或空值或刪除所述字段值。
[0033]由于每個(gè)數(shù)據(jù)記錄均包含了一個(gè)或多個(gè)字段,因此,在對數(shù)據(jù)進(jìn)行清洗時(shí),可包含字段級的清洗,例如對于時(shí)間字段,不同的系統(tǒng)表示方式不一樣,需將這些不同表方式的時(shí)間進(jìn)行同一,按照數(shù)據(jù)清洗系統(tǒng)的主數(shù)據(jù)庫的時(shí)間字段的格式進(jìn)行統(tǒng)一。
[0034]在上述技術(shù)方案中,優(yōu)選的,所述處理器102還用于逐條讀取所述域數(shù)據(jù)中的記錄,根據(jù)所述記錄中字段之間的關(guān)聯(lián)關(guān)系為缺少字段值的字段匹配出所述字段值,并將所述字段值填充至相應(yīng)字段。
[0035]雖然數(shù)據(jù)記錄包含了多個(gè)字段,但有可能某些字段缺少關(guān)鍵值,可識別出數(shù)據(jù)記錄中字段之間的關(guān)聯(lián)關(guān)系,基于該關(guān)聯(lián)關(guān)系推導(dǎo)出缺少關(guān)鍵值的字段的相應(yīng)字段值,從而完成記錄的匹配和填充。
[0036]在上述技術(shù)方案中,優(yōu)選的,所述處理器102可以包括:計(jì)算單元1022,用于根據(jù)所述域數(shù)據(jù)中每條記錄中各字段的權(quán)重值,計(jì)算相應(yīng)記錄的總權(quán)重值,刪除總權(quán)重值小于等于閾值的記錄。例如設(shè)置身份證字段的權(quán)重最大為50%,設(shè)置姓名的權(quán)重為20%,住址字段的權(quán)重最小5%,并且設(shè)置閾值為5%,假設(shè)有一條記錄的字符值僅包含住址字段時(shí),計(jì)算該條記錄的權(quán)重值為5%,該條記錄的權(quán)重值小于等于閾值,故刪除該條記錄。
[0037]在上述技術(shù)方案中,優(yōu)選的,所述處理器102還用于識別出屬于同一域的多個(gè)域數(shù)據(jù),并比較同一域下的所述多個(gè)域數(shù)據(jù),在比較出具有差異的字段時(shí),根據(jù)所述同一域的域內(nèi)數(shù)據(jù)關(guān)系修正所述具有差異的字段。
[0038]在某些時(shí)候,即便數(shù)據(jù)記錄中所有字段的字段值均已填充并且表達(dá)方式也正確,但是在不同的系統(tǒng)中,相應(yīng)的字段值不一樣,為了確定哪個(gè)字段值是正確的,需要根據(jù)同一域下的域內(nèi)數(shù)據(jù)關(guān)系來修正具有字段值差異的字段。例如,同一域下的系統(tǒng)包括公安系統(tǒng)、商場系統(tǒng)和醫(yī)院系統(tǒng),在數(shù)據(jù)記錄出現(xiàn)差異時(shí),可以公安系統(tǒng)的數(shù)據(jù)記錄為準(zhǔn),來修正其他系統(tǒng)的域數(shù)據(jù),以盡量保證數(shù)據(jù)的準(zhǔn)確性。
[0039]圖2示出了根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)清洗原理的示意圖。
[0040]如圖2所示,數(shù)據(jù)清洗系統(tǒng)100接收來自不同鏡像服務(wù)器202的域數(shù)據(jù),應(yīng)該理解雖然圖中以相同的標(biāo)號來表示不同的鏡像服務(wù)器,實(shí)際上是不同的鏡像服務(wù)器,例如門診系統(tǒng)、體檢系統(tǒng)和住院系統(tǒng)。數(shù)據(jù)清洗系統(tǒng)100按照本服務(wù)器的主數(shù)據(jù)庫的格式對這些域數(shù)據(jù)進(jìn)行清洗,以實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化數(shù)據(jù)。在清洗時(shí),可分為字段級清洗、記錄級清洗和系統(tǒng)級清洗。
[0041]圖3示出了根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)清洗方法的流程圖。
[0042]如圖3所示,根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)清洗方法,可以包括以下步驟:步驟302,根據(jù)預(yù)設(shè)規(guī)則清洗來自不同系統(tǒng)的域數(shù)據(jù),以及根據(jù)清洗結(jié)果調(diào)整所述預(yù)設(shè)規(guī)則。
[0043]不同鏡像服務(wù)器中的域數(shù)據(jù)的格式均不一樣,有可能是字段不一樣,有可能是表達(dá)方式不一樣,有可能是字段值錯(cuò)誤,該數(shù)據(jù)清洗系統(tǒng)可識別出無效的,不符合要求的數(shù)據(jù),可對來自不同鏡像服務(wù)器的域數(shù)據(jù)進(jìn)行清洗,實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化,便于后續(xù)的關(guān)聯(lián)計(jì)算。
[0044]在上述技術(shù)方案中,優(yōu)選的,清洗所述域數(shù)據(jù)的具體步驟包括:讀取所述域數(shù)據(jù)中每條記錄的字段值,將不符合預(yù)設(shè)條件的字段值置換成預(yù)設(shè)值或空值。
[0045]由于每個(gè)數(shù)據(jù)記錄均包含了一個(gè)或多個(gè)字段,因此,在對數(shù)據(jù)進(jìn)行清洗時(shí),可包含字段級的清洗,例如對于時(shí)間字段,不同的系統(tǒng)表示方式不一樣,需將這些不同表方式的時(shí)間進(jìn)行同一,按照數(shù)據(jù)清洗系統(tǒng)的主數(shù)據(jù)庫的時(shí)間字段的格式進(jìn)行統(tǒng)一。
[0046]在上述技術(shù)方案中,優(yōu)選的,清洗所述域數(shù)據(jù)的具體步驟還包括:逐條讀取所述域數(shù)據(jù)中的記錄,根據(jù)所述記錄中字段之間的關(guān)聯(lián)關(guān)系為缺少字段值的字段匹配出所述字段值,并將所述字段值填充至相應(yīng)字段。
[0047]雖然數(shù)據(jù)記錄包含了多個(gè)字段,但有可能某些字段缺少關(guān)鍵值,可識別出數(shù)據(jù)記錄中字段之間的關(guān)聯(lián)關(guān)系,基于該關(guān)聯(lián)關(guān)系推導(dǎo)出缺少關(guān)鍵值的字段的相應(yīng)字段值,從而完成記錄的匹配和填充。
[0048]在上述技術(shù)方案中,優(yōu)選的,清洗所述域數(shù)據(jù)的具體步驟還包括:根據(jù)所述域數(shù)據(jù)中每條記錄中各字段的權(quán)重值,計(jì)算相應(yīng)記錄的總權(quán)重值,并刪除總權(quán)重值小于等于閾值的記錄。
[0049]在上述技術(shù)方案中,優(yōu)選的,清洗所述域數(shù)據(jù)的具體步驟還包括:識別出屬于同一域的多個(gè)域數(shù)據(jù),并比較同一域下的所述多個(gè)域數(shù)據(jù);在比較出具有差異的字段時(shí),根據(jù)所述同一域的域內(nèi)數(shù)據(jù)關(guān)系修正所述具有差異的字段。
[0050]在某些時(shí)候,即便數(shù)據(jù)記錄中所有字段的字段值均已填充并且表達(dá)方式也正確,但是在不同的系統(tǒng)中,相應(yīng)的字段值不一樣,為了確定哪個(gè)字段值是正確的,需要根據(jù)同一域下的域內(nèi)數(shù)據(jù)關(guān)系來修正具有字段值差異的字段。例如,同一域下的系統(tǒng)包括公安系統(tǒng)、商場系統(tǒng)和醫(yī)院系統(tǒng),在數(shù)據(jù)記錄出現(xiàn)差異時(shí),可以公安系統(tǒng)的數(shù)據(jù)記錄為準(zhǔn),來修正其他系統(tǒng)的域數(shù)據(jù),以盡量保證數(shù)據(jù)的準(zhǔn)確性。
[0051]圖4示出了根據(jù)本發(fā)明的另一實(shí)施例的數(shù)據(jù)清洗方法的流程圖。
[0052]如圖4所示,在步驟402,接收來自不同鏡像服務(wù)器的域數(shù)據(jù);在步驟404,讀取域數(shù)據(jù)的字段值,將不符合預(yù)設(shè)條件的字段值置換成預(yù)設(shè)值或空值。在數(shù)據(jù)清洗系統(tǒng)中設(shè)置有規(guī)則庫,根據(jù)不同的數(shù)據(jù)情況設(shè)置相應(yīng)的規(guī)則,例如數(shù)據(jù)清洗系統(tǒng)主數(shù)據(jù)庫中時(shí)間的表達(dá)方式是2012-12-12,而其他域數(shù)據(jù)的時(shí)間表達(dá)方式是2012年12月12日或2012.12.12,那么可將該這些格式的時(shí)間數(shù)據(jù)統(tǒng)一成2012-12-12。又例如,主數(shù)據(jù)庫中姓名的字之間沒有空格,但域數(shù)據(jù)的姓名的字之間具有空格,那么可將這些空格刪除,與主數(shù)據(jù)庫中姓名的格式相符。又例如,在主數(shù)據(jù)庫中I表示性別男,2表示性別女,而在其他域數(shù)據(jù)庫中,M表示男,W表示女,因此需要將域數(shù)據(jù)的性別格式也統(tǒng)一成主數(shù)據(jù)庫中的性別格式。該清洗過程稱為字段級清洗。
[0053]在步驟406,判斷域數(shù)據(jù)的字段值是否有空缺,若有,則進(jìn)入步驟408,否則進(jìn)入步驟 410。
[0054]在步驟408,若數(shù)據(jù)中某字段缺省相應(yīng)的字段值,則識別字段之間的關(guān)聯(lián)關(guān)系,推導(dǎo)出相應(yīng)的字段值,并進(jìn)行填充。
[0055]例如域數(shù)據(jù)包含出生地址字段、身份證字段,地址字段與身份證字段的關(guān)聯(lián)關(guān)系為身份證號碼的前幾位數(shù)字與出生地址相關(guān),假如身份證的有關(guān)于出生地址的號碼缺失,那么可根據(jù)出生地址字段的字段值查找出相應(yīng)的代碼編號,將該代碼編號填充至身份證中缺失的號碼中,這樣便使身份數(shù)據(jù)記錄更完善,更有效和更準(zhǔn)確,這樣的處理過程稱為記錄級清洗。
[0056]在步驟410,判斷不同域數(shù)據(jù)之間是否具有差異的字符,若有,則進(jìn)入步驟412,否貝U,結(jié)束該流程。
[0057]在步驟412,根據(jù)同一域的域內(nèi)數(shù)據(jù)關(guān)系修正具有差異的字段。例如系統(tǒng)A的用戶a的身份證號碼與系統(tǒng)B中的用戶a的身份證號碼不一樣,假設(shè)系統(tǒng)A是醫(yī)院系統(tǒng),系統(tǒng)B是公安局系統(tǒng),域內(nèi)數(shù)據(jù)關(guān)系即公安局系統(tǒng)的數(shù)據(jù)的權(quán)重大于醫(yī)院系統(tǒng)的數(shù)據(jù)的權(quán)重,那么可以系統(tǒng)B的數(shù)據(jù)為準(zhǔn)來更正系統(tǒng)A的數(shù)據(jù),使數(shù)據(jù)更準(zhǔn)確。該清洗過程稱為系統(tǒng)級清洗。
[0058]以上結(jié)合附圖詳細(xì)說明了本發(fā)明的技術(shù)方案,由于不同系統(tǒng)之間數(shù)據(jù)格式差異很大,因此需要對來自不同系統(tǒng)的數(shù)據(jù)進(jìn)行清洗,以符合標(biāo)準(zhǔn)化格式,以為關(guān)聯(lián)計(jì)算做準(zhǔn)備,以使系統(tǒng)之間溝通更順暢。數(shù)據(jù)的清洗包括字段級的清洗、記錄級清洗和系統(tǒng)級清洗。字段級清洗主要是把字段值不符合規(guī)定的、無效的進(jìn)行置換,然后把不符合主數(shù)據(jù)庫標(biāo)準(zhǔn)的數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換。記錄級清洗主要是根據(jù)記錄中字段之間的關(guān)聯(lián)關(guān)系來匹配和填充不正確的字段以及字段值。系統(tǒng)級清洗是對同一域下的主數(shù)據(jù)進(jìn)行比對,把多余或者不正確的字段通過域內(nèi)數(shù)據(jù)關(guān)系進(jìn)行修正,從而完成數(shù)據(jù)的清洗過程,也使清洗后的數(shù)據(jù)在符合標(biāo)準(zhǔn)格式的同時(shí)也更準(zhǔn)確。
[0059]在本發(fā)明中,術(shù)語“多個(gè)”指兩個(gè)或兩個(gè)以上,除非另有明確的限定。
[0060]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種數(shù)據(jù)清洗系統(tǒng),其特征在于,包括: 處理器,根據(jù)預(yù)設(shè)規(guī)則清洗來自不同系統(tǒng)的域數(shù)據(jù),以及根據(jù)清洗結(jié)果調(diào)整所述預(yù)設(shè)規(guī)則。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)清洗系統(tǒng),其特征在于,所述處理器讀取所述域數(shù)據(jù)中每條記錄的字段值,將不符合預(yù)設(shè)條件的字段值置換成預(yù)設(shè)值或空值或刪除所述字段值。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)清洗系統(tǒng),其特征在于,所述處理器還用于逐條讀取所述域數(shù)據(jù)中的記錄,根據(jù)所述記錄中字段之間的關(guān)聯(lián)關(guān)系為缺少字段值的字段匹配出所述字段值,并將所述字段值填充至相應(yīng)字段。
4.根據(jù)權(quán)利要求2所述的數(shù)據(jù)清洗系統(tǒng),其特征在于,所述處理器包括: 計(jì)算單元,用于根據(jù)所述域數(shù)據(jù)中每條記錄中各字段的權(quán)重值,計(jì)算相應(yīng)記錄的總權(quán)重值,刪除總權(quán)重值小于等于閾值的記錄。
5.根據(jù)權(quán)利要求2至4中任一項(xiàng)所述的數(shù)據(jù)清洗系統(tǒng),其特征在于,所述處理器還用于識別出屬于同一域的多個(gè)域數(shù)據(jù),并比較同一域下的所述多個(gè)域數(shù)據(jù),在比較出具有差異的字段時(shí),根據(jù)所述同一域的域內(nèi)數(shù)據(jù)關(guān)系修正所述具有差異的字段。
6.一種數(shù)據(jù)清洗方法,其特征在于,包括: 根據(jù)預(yù)設(shè)規(guī)則清洗來自不同系統(tǒng)的域數(shù)據(jù),以及根據(jù)清洗結(jié)果調(diào)整所述預(yù)設(shè)規(guī)則。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)清洗方法,其特征在于,清洗所述域數(shù)據(jù)的具體步驟包括: 讀取所述域數(shù)據(jù)中每條記錄的字段值,將不符合預(yù)設(shè)條件的字段值置換成預(yù)設(shè)值或空值。
8.根據(jù)權(quán)利要求7所述的數(shù)據(jù)清洗方法,其特征在于,清洗所述域數(shù)據(jù)的具體步驟還包括: 逐條讀取所述域數(shù)據(jù)中的記錄,根據(jù)所述記錄中字段之間的關(guān)聯(lián)關(guān)系為缺少字段值的字段匹配出所述字段值,并將所述字段值填充至相應(yīng)字段。
9.根據(jù)權(quán)利要求7所述的數(shù)據(jù)清洗方法,其特征在于,清洗所述域數(shù)據(jù)的具體步驟還包括: 根據(jù)所述域數(shù)據(jù)中每條記錄中各字段的權(quán)重值,計(jì)算相應(yīng)記錄的總權(quán)重值,并刪除總權(quán)重值小于等于閾值的記錄。
10.根據(jù)權(quán)利要求7至9中任一項(xiàng)所述的數(shù)據(jù)清洗方法,其特征在于,清洗所述域數(shù)據(jù)的具體步驟還包括: 識別出屬于同一域的多個(gè)域數(shù)據(jù),并比較同一域下的所述多個(gè)域數(shù)據(jù); 在比較出具有差異的字段時(shí),根據(jù)所述同一域的域內(nèi)數(shù)據(jù)關(guān)系修正所述具有差異的字段。
【文檔編號】G06F17/30GK103473375SQ201310456395
【公開日】2013年12月25日 申請日期:2013年9月29日 優(yōu)先權(quán)日:2013年9月29日
【發(fā)明者】李登高, 陳衛(wèi)華 申請人:方正國際軟件有限公司, 方正國際軟件(北京)有限公司