
本申請涉及互聯(lián)網(wǎng)信息處理技術(shù),尤其涉及一種數(shù)據(jù)處理方法和設(shè)備。
背景技術(shù):
:數(shù)據(jù)倉庫是一個面向主題的(英文:SubjectOriented)、集成的(英文:Integrated)、相對穩(wěn)定的(英文:Non-Volatile)、反映歷史變化(英文:TimeVariant)的數(shù)據(jù)集合。在數(shù)據(jù)倉庫中將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)表。數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散數(shù)據(jù)庫中的數(shù)據(jù)執(zhí)行數(shù)據(jù)抽取、數(shù)據(jù)清理等基礎(chǔ)操作之上經(jīng)過系統(tǒng)加工、匯總和整理得到的,這樣能夠保證數(shù)據(jù)倉庫中的數(shù)據(jù)消除了源數(shù)據(jù)的不一致性。在實際應用中,一個業(yè)務(wù)對應的多個業(yè)務(wù)數(shù)據(jù)可能會在多個不同系統(tǒng)中出現(xiàn),而系統(tǒng)之間交互的時間差又可能導致該業(yè)務(wù)數(shù)據(jù)在不同系統(tǒng)的數(shù)據(jù)表中存儲的時間出現(xiàn)跨天的情況,這種現(xiàn)象稱為數(shù)據(jù)漂移。例如:一個業(yè)務(wù)為一個訂單業(yè)務(wù),那么在表1中產(chǎn)生一組與該訂單業(yè)務(wù)有關(guān)的數(shù)據(jù):產(chǎn)生時間、該訂單業(yè)務(wù)的訂單信息以及支付事件信息,對應的產(chǎn)生時間為1號23:59:00;在表2中產(chǎn)生一組與該訂單業(yè)務(wù)有關(guān)的數(shù)據(jù):產(chǎn)生時間、該訂單業(yè)務(wù)的訂單信息以及支付金額信息,對應的產(chǎn)生時間為2號00:00:00,由此可見,該訂單業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)發(fā)生數(shù)據(jù)漂移。然而系統(tǒng)之間的業(yè)務(wù)數(shù)據(jù)發(fā)生數(shù)據(jù)漂移不可避免,那么在將不同系統(tǒng)內(nèi)的業(yè)務(wù)數(shù)據(jù)同步至數(shù)據(jù)倉庫中,如何有效地避免因為數(shù)據(jù)漂移導致業(yè)務(wù)數(shù)據(jù)累加過程中出現(xiàn)遺漏累加成為亟需解決的問題。正是由于數(shù)據(jù)漂移使得數(shù)據(jù)倉庫中通過累加得到的業(yè)務(wù)數(shù)據(jù)的準確性較低。技術(shù)實現(xiàn)要素:有鑒于此,本申請實施例提供了一種數(shù)據(jù)處理方法和設(shè)備,用于解決現(xiàn)有技術(shù)中存在的如何有效地避免因為數(shù)據(jù)漂移導致業(yè)務(wù)數(shù)據(jù)累加過程中出現(xiàn)遺漏累加的問題。一種數(shù)據(jù)處理方法,包括:獲取第一數(shù)據(jù)表中存儲的與目標業(yè)務(wù)相關(guān)聯(lián)的多組數(shù)據(jù)信息,其中,每一組所述數(shù)據(jù)信息中包含所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間以及所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容;在確定所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)在所述第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移時,從第二數(shù)據(jù)表中獲取發(fā)生數(shù)據(jù)漂移的與所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)相關(guān)聯(lián)的第二數(shù)據(jù)內(nèi)容,其中,所述第一數(shù)據(jù)表與所述第二數(shù)據(jù)表不同;將獲取的所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容與所述業(yè)務(wù)數(shù)據(jù)的第二數(shù)據(jù)內(nèi)容進行合并,對合并后的數(shù)據(jù)內(nèi)容執(zhí)行數(shù)據(jù)清洗操作。一種數(shù)據(jù)處理設(shè)備,包括:獲取單元,用于獲取第一數(shù)據(jù)表中存儲的與目標業(yè)務(wù)相關(guān)聯(lián)的多組數(shù)據(jù)信息,其中,每一組所述數(shù)據(jù)信息中包含所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間以及所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容;所述獲取單元,還用于在確定所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)在所述第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移時,從第二數(shù)據(jù)表中獲取發(fā)生數(shù)據(jù)漂移的與所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)相關(guān)聯(lián)的第二數(shù)據(jù)內(nèi)容,其中,所述第一數(shù)據(jù)表與所述第二數(shù)據(jù)表不同;處理單元,用于將獲取的所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容與所述業(yè)務(wù)數(shù)據(jù)的第二數(shù)據(jù)內(nèi)容進行合并,對合并后的數(shù)據(jù)內(nèi)容執(zhí)行數(shù)據(jù)清洗操作。本申請有益效果如下:本申請實施例獲取第一數(shù)據(jù)表中存儲的與目標業(yè)務(wù)相關(guān)聯(lián)的多組數(shù)據(jù)信息,每一組所述數(shù)據(jù)信息中包含所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間以及所述 業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容;在確定所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)在所述第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移時,從第二數(shù)據(jù)表中獲取發(fā)生數(shù)據(jù)漂移的與所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)相關(guān)聯(lián)的第二數(shù)據(jù)內(nèi)容,所述第一數(shù)據(jù)表與所述第二數(shù)據(jù)表不同;將獲取的所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容與所述業(yè)務(wù)數(shù)據(jù)的第二數(shù)據(jù)內(nèi)容進行合并,對合并后的數(shù)據(jù)內(nèi)容執(zhí)行數(shù)據(jù)清洗操作,這樣,數(shù)據(jù)倉庫在進行數(shù)據(jù)清洗之前,判斷獲取的業(yè)務(wù)數(shù)據(jù)是否發(fā)生數(shù)據(jù)漂移,并在確定業(yè)務(wù)數(shù)據(jù)發(fā)生數(shù)據(jù)漂移時,獲取發(fā)生數(shù)據(jù)漂移的業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容,進而對業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容進行合并,有效地避免了因為數(shù)據(jù)漂移導致業(yè)務(wù)數(shù)據(jù)合并過程中出現(xiàn)遺漏累加的問題,有效提升了數(shù)據(jù)倉庫中存儲的業(yè)務(wù)數(shù)據(jù)的準確性,同時簡化了數(shù)據(jù)倉庫中數(shù)據(jù)同步方式,有效地提升了數(shù)據(jù)倉庫中數(shù)據(jù)處理效率。附圖說明為了更清楚地說明本申請實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本申請實施例提供的一種數(shù)據(jù)處理方法的流程示意圖;圖2為本申請實施例提供的一種數(shù)據(jù)處理設(shè)備的結(jié)構(gòu)示意圖。具體實施方式為了實現(xiàn)本申請實施例的目的,本申請實施例提供了一種數(shù)據(jù)處理方法和設(shè)備,獲取第一數(shù)據(jù)表中存儲的與目標業(yè)務(wù)相關(guān)聯(lián)的多組數(shù)據(jù)信息,每一組所述數(shù)據(jù)信息中包含所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間以及所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容;在確定所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)在所述第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移時,從第二數(shù)據(jù)表中獲取發(fā)生數(shù)據(jù)漂移的與所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù) 相關(guān)聯(lián)的第二數(shù)據(jù)內(nèi)容,所述第一數(shù)據(jù)表與所述第二數(shù)據(jù)表不同;將獲取的所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容與所述業(yè)務(wù)數(shù)據(jù)的第二數(shù)據(jù)內(nèi)容進行合并,對合并后的數(shù)據(jù)內(nèi)容執(zhí)行數(shù)據(jù)清洗操作,這樣,數(shù)據(jù)倉庫在進行數(shù)據(jù)清洗之前,判斷獲取的業(yè)務(wù)數(shù)據(jù)是否發(fā)生數(shù)據(jù)漂移,并在確定業(yè)務(wù)數(shù)據(jù)發(fā)生數(shù)據(jù)漂移時,獲取發(fā)生數(shù)據(jù)漂移的業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容,進而對業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容進行合并,有效地避免了因為數(shù)據(jù)漂移導致業(yè)務(wù)數(shù)據(jù)合并過程中出現(xiàn)遺漏累加的問題,有效提升了數(shù)據(jù)倉庫中存儲的業(yè)務(wù)數(shù)據(jù)的準確性,同時簡化了數(shù)據(jù)倉庫中數(shù)據(jù)同步方式,有效地提升了數(shù)據(jù)倉庫中數(shù)據(jù)處理效率。需要說明的是,本申請實施例中所述的數(shù)據(jù)清洗是指數(shù)據(jù)倉庫對抽取到的數(shù)據(jù)進行清洗,發(fā)現(xiàn)并糾正數(shù)據(jù)中存在的錯誤。一般包括檢查數(shù)據(jù)的一致性、對出現(xiàn)無效值或者缺失值的數(shù)據(jù)進行處理。這里的處理可以包含刪除。本申請實施例可以被應用于針對多階段的業(yè)務(wù),例如:分期付款業(yè)務(wù),或者需要執(zhí)行多次操作的業(yè)務(wù)等等。下面結(jié)合說明書附圖對本申請各個實施例作進一步地詳細描述。顯然,所描述的實施例僅僅是本申請的一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├绢I(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本申請保護的范圍。圖1為本申請實施例提供的一種數(shù)據(jù)處理方法的流程示意圖。所述方法可以如下所述。本申請實施例的執(zhí)行主體可以是數(shù)據(jù)倉庫。步驟101:獲取第一數(shù)據(jù)表中存儲的與目標業(yè)務(wù)相關(guān)聯(lián)的多組數(shù)據(jù)信息。其中,每一組所述數(shù)據(jù)信息中包含所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間以及所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容。在步驟101中,由于數(shù)據(jù)倉庫具備對大量數(shù)據(jù)進行管理的能力,各個分散系統(tǒng)采集到的業(yè)務(wù)數(shù)據(jù)需要在指定的數(shù)據(jù)同步時間同步至數(shù)據(jù)倉庫,以實現(xiàn)數(shù)據(jù)倉庫對大量數(shù)據(jù)的管理。數(shù)據(jù)倉庫的功能可以通過一些工具實現(xiàn),例如:開放數(shù)據(jù)處理服務(wù)(英文: OpenDataProcessingService;縮寫:ODPS);Hive工具等等。需要說明的是,Hive是一種基于Hadoop的開源數(shù)據(jù)倉庫工具,可將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)表,并能夠提供簡單的SQL查詢功能,還可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進行運行。數(shù)據(jù)倉庫在完成數(shù)據(jù)同步時,一般需要經(jīng)過數(shù)據(jù)抽取和數(shù)據(jù)清洗這兩個階段。其中,數(shù)據(jù)抽取是指數(shù)據(jù)倉庫從分散系統(tǒng)中采集每一個系統(tǒng)在指定時間內(nèi)采集的業(yè)務(wù)數(shù)據(jù)。需要說明的是,指定時間可以根據(jù)實際需要確定,也可以根據(jù)系統(tǒng)要求設(shè)定,例如:每天的00:00:00~23:59:59。數(shù)據(jù)倉庫執(zhí)行數(shù)據(jù)同步的時間可以是定時的,也可以是周期性的,例如:設(shè)置為每天00:00:00~00:30:00;或者設(shè)置為每周一00:00:00~00:30:00等等。假設(shè)數(shù)據(jù)倉庫執(zhí)行數(shù)據(jù)同步的時間設(shè)置為每天的00:00:00~00:30:00,那么在這個時間段內(nèi),數(shù)據(jù)倉庫從分散系統(tǒng)中抽取在前一天內(nèi)采集的業(yè)務(wù)數(shù)據(jù)。例如:在2號的00:00:00~00:30:00,數(shù)據(jù)倉庫從分散系統(tǒng)中抽取在1號采集的業(yè)務(wù)數(shù)據(jù)。通常分散系統(tǒng)采用表的方式存儲一天采集的業(yè)務(wù)數(shù)據(jù)。這樣,數(shù)據(jù)倉庫在執(zhí)行數(shù)據(jù)同步時,從第一數(shù)據(jù)表中獲取與目標業(yè)務(wù)相關(guān)聯(lián)的多組數(shù)據(jù)信息。在第一數(shù)據(jù)表中,針對不同業(yè)務(wù),為每一個業(yè)務(wù)產(chǎn)生的每一個業(yè)務(wù)數(shù)據(jù)生成數(shù)據(jù)信息,即包含業(yè)務(wù)的業(yè)務(wù)標識、業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間以及該產(chǎn)生時間內(nèi)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容等。由于在實際應用中,由于業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容會出現(xiàn)跨天產(chǎn)生的情況,導致業(yè)務(wù)數(shù)據(jù)內(nèi)容發(fā)生數(shù)據(jù)漂移的現(xiàn)象,即針對目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),業(yè)務(wù)數(shù)據(jù)的變更時間發(fā)生在1號23:59:59;但是針對該變更對應的數(shù)據(jù)內(nèi)容發(fā)生在2號00:00:00。在系統(tǒng)中,對于2號00:00:00產(chǎn)生的數(shù)據(jù)內(nèi)容存在被視為無效數(shù)據(jù)的可能性,在執(zhí)行數(shù)據(jù)清洗時,該數(shù)據(jù)將被清洗,這樣導致目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)不完整。步驟102:針對其中一組數(shù)據(jù)信息,判斷所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)是否在所述第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移;若發(fā)生數(shù)據(jù)漂移,則執(zhí)行步驟103;若尚未發(fā)生數(shù)據(jù)漂移,則按照現(xiàn)有技術(shù)方案進行數(shù)據(jù)抽取。在步驟102中,針對其中一組數(shù)據(jù)信息,根據(jù)所述數(shù)據(jù)信息中包含的所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間,判斷所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間是否包含在預設(shè)第一時間范圍之內(nèi)。其中,所述預設(shè)第一時間范圍根據(jù)數(shù)據(jù)倉庫從不同的系統(tǒng)數(shù)據(jù)庫中抽取業(yè)務(wù)數(shù)據(jù)的時間確定。若判斷結(jié)果是所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間包含在預設(shè)第一時間范圍之內(nèi),則確定所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)在所述第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移。具體地,針對第一數(shù)據(jù)表中的一組數(shù)據(jù)信息,假設(shè)一組數(shù)據(jù)信息中業(yè)務(wù)數(shù)據(jù)內(nèi)容為空,此時根據(jù)該數(shù)據(jù)信息中的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間,進一步確定該數(shù)據(jù)信息中的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間是否包含在預設(shè)第一時間范圍之內(nèi),若該數(shù)據(jù)信息中的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間包含在預設(shè)第一時間范圍之內(nèi),則可以確定該數(shù)據(jù)信息中的業(yè)務(wù)數(shù)據(jù)在第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移。例如:數(shù)據(jù)倉庫從不同的系統(tǒng)數(shù)據(jù)庫中抽取業(yè)務(wù)數(shù)據(jù)的時間確定為00:00:00~00:30:00,那么預設(shè)第一時間范圍可以確定為:23:59:50~23:59:59,一旦所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間包含在23:59:50~23:59:59之內(nèi),則確定所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)在所述第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移。步驟103:在確定所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)在所述第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移時,從第二數(shù)據(jù)表中獲取發(fā)生數(shù)據(jù)漂移的與所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)相關(guān)聯(lián)的第二數(shù)據(jù)內(nèi)容。其中,所述第一數(shù)據(jù)表與所述第二數(shù)據(jù)表不同。在步驟103中,由于數(shù)據(jù)漂移之后,業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容可能被存儲在另一張數(shù)據(jù)表中,那么從第二數(shù)據(jù)表中獲取發(fā)生數(shù)據(jù)漂移的與所述目標業(yè)務(wù)的所 述業(yè)務(wù)數(shù)據(jù)相關(guān)聯(lián)的第二數(shù)據(jù)內(nèi)容。具體地,從第二數(shù)據(jù)表中查找在預設(shè)第二時間范圍內(nèi)產(chǎn)生的,且與所述目標業(yè)務(wù)相關(guān)聯(lián)的數(shù)據(jù)內(nèi)容,其中,所述預設(shè)第二時間范圍用于表征數(shù)據(jù)倉庫從不同的系統(tǒng)數(shù)據(jù)庫中抽取業(yè)務(wù)數(shù)據(jù);在確定查找的數(shù)據(jù)內(nèi)容與所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)相關(guān)聯(lián)時,將查找到的數(shù)據(jù)內(nèi)容作為發(fā)生數(shù)據(jù)漂移的與所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)相關(guān)聯(lián)的第二數(shù)據(jù)內(nèi)容。需要說明的是,所述預設(shè)第一時間范圍與所述預設(shè)第二時間范圍不同,但預設(shè)第一時間范圍與預設(shè)第二時間范圍之間的時間差滿足設(shè)定閾值。所述設(shè)定閾值可以根據(jù)實際需要確定,也可以根據(jù)數(shù)據(jù)漂移的特性確定。即首先從其他數(shù)據(jù)表中查找包含目標業(yè)務(wù)的業(yè)務(wù)標識的數(shù)據(jù)表(這里假設(shè)是第二數(shù)據(jù)表);其次,從第二數(shù)據(jù)表中查找在預設(shè)第二時間范圍內(nèi)產(chǎn)生的,且與所述目標業(yè)務(wù)相關(guān)聯(lián)的數(shù)據(jù)內(nèi)容,即根據(jù)第二數(shù)據(jù)表中包含的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間,確定產(chǎn)生時間包含在預設(shè)第二時間范圍內(nèi)的業(yè)務(wù)數(shù)據(jù),并從確定的業(yè)務(wù)數(shù)據(jù)中確定出與第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移的數(shù)據(jù)內(nèi)容。如表1所示,為第一數(shù)據(jù)表和第二數(shù)據(jù)表的示意表:表1步驟104:將獲取的所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容與所述業(yè)務(wù)數(shù)據(jù)的第二數(shù)據(jù)內(nèi)容進行合并,對合并后的數(shù)據(jù)內(nèi)容執(zhí)行數(shù)據(jù)清洗操作。在步驟104中,針對抽取到的業(yè)務(wù)數(shù)據(jù),將所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容 與所述業(yè)務(wù)數(shù)據(jù)的第二數(shù)據(jù)內(nèi)容進行合并,得到該業(yè)務(wù)數(shù)據(jù)的完整數(shù)據(jù)內(nèi)容。在本申請的另一個實施例中,數(shù)據(jù)倉庫在完成數(shù)據(jù)抽取之后,需要更新歷史數(shù)據(jù),因此,數(shù)據(jù)倉庫再次獲取所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)的歷史數(shù)據(jù)內(nèi)容;并將所述歷史數(shù)據(jù)內(nèi)容、獲取的所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容以及所述業(yè)務(wù)數(shù)據(jù)的第二數(shù)據(jù)內(nèi)容進行合并。在本申請的另一個實施例中,數(shù)據(jù)倉庫在抽取到第一數(shù)據(jù)表中的數(shù)據(jù)信息時,對于尚未發(fā)生數(shù)據(jù)漂移的業(yè)務(wù)數(shù)據(jù),可以首先將所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)的歷史數(shù)據(jù)內(nèi)容與獲取的所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容進行合并;其次在將合并結(jié)果與獲取到的所述業(yè)務(wù)數(shù)據(jù)的第二數(shù)據(jù)內(nèi)容進行合并。通過本申請實施例提供的數(shù)據(jù)處理方法,獲取第一數(shù)據(jù)表中存儲的與目標業(yè)務(wù)相關(guān)聯(lián)的多組數(shù)據(jù)信息,每一組所述數(shù)據(jù)信息中包含所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間以及所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容;在確定所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)在所述第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移時,從第二數(shù)據(jù)表中獲取發(fā)生數(shù)據(jù)漂移的與所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)相關(guān)聯(lián)的第二數(shù)據(jù)內(nèi)容,所述第一數(shù)據(jù)表與所述第二數(shù)據(jù)表不同;將獲取的所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容與所述業(yè)務(wù)數(shù)據(jù)的第二數(shù)據(jù)內(nèi)容進行合并,對合并后的數(shù)據(jù)內(nèi)容執(zhí)行數(shù)據(jù)清洗操作,這樣,數(shù)據(jù)倉庫在進行數(shù)據(jù)清洗之前,判斷獲取的業(yè)務(wù)數(shù)據(jù)是否發(fā)生數(shù)據(jù)漂移,并在確定業(yè)務(wù)數(shù)據(jù)發(fā)生數(shù)據(jù)漂移時,獲取發(fā)生數(shù)據(jù)漂移的業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容,進而對業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容進行合并,有效地避免了因為數(shù)據(jù)漂移導致業(yè)務(wù)數(shù)據(jù)合并過程中出現(xiàn)遺漏累加的問題,有效提升了數(shù)據(jù)倉庫中存儲的業(yè)務(wù)數(shù)據(jù)的準確性。例如:針對目標業(yè)務(wù)存在以下幾組數(shù)據(jù)信息,如表2所示:表2目標業(yè)務(wù)的業(yè)務(wù)標識產(chǎn)生時間業(yè)務(wù)數(shù)據(jù)數(shù)據(jù)內(nèi)容11111號11:59:59支付1011112號23:59:59支付空11113號00:00:00空20若數(shù)據(jù)倉庫抽取業(yè)務(wù)數(shù)據(jù)的時間為2號00:00:00~00:30:00,由于業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間為1號11:59:59,不包含在預設(shè)第一時間范圍(23:59:50~23:59:59)之內(nèi),那么抽取到目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容為10;若數(shù)據(jù)倉庫抽取業(yè)務(wù)數(shù)據(jù)的時間為3號00:00:00~00:30:00,由于業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間為2號23:59:59,包含在預設(shè)第一時間范圍(23:59:50~23:59:59)之內(nèi),那么確定該業(yè)務(wù)數(shù)據(jù)發(fā)生數(shù)據(jù)漂移,此時需要進一步地從預設(shè)第二時間范圍(00:00:00~00:15:00)之內(nèi)確定發(fā)生數(shù)據(jù)漂移的業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容,即獲取到20,這樣,數(shù)據(jù)倉庫可以相對準確到該目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù),也不會因為數(shù)據(jù)信息中因為缺失內(nèi)容而導致該數(shù)據(jù)信息無效,有效地避免了因為數(shù)據(jù)漂移導致業(yè)務(wù)數(shù)據(jù)合并過程中出現(xiàn)遺漏累加的問題,有效提升了數(shù)據(jù)倉庫中存儲的業(yè)務(wù)數(shù)據(jù)的準確性。圖2為本申請實施例提供的一種數(shù)據(jù)處理設(shè)備的結(jié)構(gòu)示意圖。所述數(shù)據(jù)處理設(shè)備包括:獲取單元21和處理單元22,其中:獲取單元21,用于獲取第一數(shù)據(jù)表中存儲的與目標業(yè)務(wù)相關(guān)聯(lián)的多組數(shù)據(jù)信息,其中,每一組所述數(shù)據(jù)信息中包含所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間以及所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容;所述獲取單元21,還用于在確定所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)在所述第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移時,從第二數(shù)據(jù)表中獲取發(fā)生數(shù)據(jù)漂移的與所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)相關(guān)聯(lián)的第二數(shù)據(jù)內(nèi)容,其中,所述第一數(shù)據(jù)表與所述第二數(shù)據(jù)表不同;處理單元22,用于將獲取的所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容與所述業(yè)務(wù)數(shù)據(jù)的第二數(shù)據(jù)內(nèi)容進行合并,對合并后的數(shù)據(jù)內(nèi)容執(zhí)行數(shù)據(jù)清洗操作。具體地,所述獲取單元21確定所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)在所述第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移,包括:針對其中一組數(shù)據(jù)信息,根據(jù)所述數(shù)據(jù)信息中包含的所述目標業(yè)務(wù)的業(yè)務(wù) 數(shù)據(jù)的產(chǎn)生時間,判斷所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間是否包含在預設(shè)第一時間范圍之內(nèi),其中,所述預設(shè)第一時間范圍根據(jù)數(shù)據(jù)倉庫從不同的系統(tǒng)數(shù)據(jù)庫中抽取業(yè)務(wù)數(shù)據(jù)的時間確定;若判斷結(jié)果是所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)的產(chǎn)生時間包含在預設(shè)第一時間范圍之內(nèi),則確定所述目標業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)在所述第一數(shù)據(jù)表中發(fā)生數(shù)據(jù)漂移。具體地,所述獲取單元21從第二數(shù)據(jù)表中獲取發(fā)生數(shù)據(jù)漂移的與所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)相關(guān)聯(lián)的第二數(shù)據(jù)內(nèi)容,包括:從第二數(shù)據(jù)表中查找在預設(shè)第二時間范圍內(nèi)產(chǎn)生的,且與所述目標業(yè)務(wù)相關(guān)聯(lián)的數(shù)據(jù)內(nèi)容,其中,所述預設(shè)第二時間范圍用于表征數(shù)據(jù)倉庫從不同的系統(tǒng)數(shù)據(jù)庫中抽取業(yè)務(wù)數(shù)據(jù);在確定查找的數(shù)據(jù)內(nèi)容與所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)相關(guān)聯(lián)時,將查找到的數(shù)據(jù)內(nèi)容作為發(fā)生數(shù)據(jù)漂移的與所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)相關(guān)聯(lián)的第二數(shù)據(jù)內(nèi)容。具體地,所述處理單元22將獲取的所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容與所述業(yè)務(wù)數(shù)據(jù)的第二數(shù)據(jù)內(nèi)容進行合并,包括:獲取所述目標業(yè)務(wù)的所述業(yè)務(wù)數(shù)據(jù)的歷史數(shù)據(jù)內(nèi)容;將所述歷史數(shù)據(jù)內(nèi)容、獲取的所述業(yè)務(wù)數(shù)據(jù)的第一數(shù)據(jù)內(nèi)容以及所述業(yè)務(wù)數(shù)據(jù)的第二數(shù)據(jù)內(nèi)容進行合并。需要說明的是,本申請實施例提供的設(shè)備可以通過硬件方式實現(xiàn),也可以通過軟件方式實現(xiàn),這里不做限定,所述設(shè)備在進行數(shù)據(jù)清洗之前,判斷獲取的業(yè)務(wù)數(shù)據(jù)是否發(fā)生數(shù)據(jù)漂移,并在確定業(yè)務(wù)數(shù)據(jù)發(fā)生數(shù)據(jù)漂移時,獲取發(fā)生數(shù)據(jù)漂移的業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容,進而對業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)內(nèi)容進行合并,有效地避免了因為數(shù)據(jù)漂移導致業(yè)務(wù)數(shù)據(jù)合并過程中出現(xiàn)遺漏累加的問題,有效提升了數(shù)據(jù)倉庫中存儲的業(yè)務(wù)數(shù)據(jù)的準確性。本領(lǐng)域的技術(shù)人員應明白,本申請的實施例可提供為方法、裝置(設(shè)備)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。本申請是參照根據(jù)本申請實施例的方法、裝置(設(shè)備)和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。盡管已描述了本申請的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本申請的范圍。這樣,倘若本申請的這些修改和變型屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請也意圖包含這些改動和變型在內(nèi)。當前第1頁1 2 3