專利名稱:一種面向企業(yè)數(shù)據(jù)集成的全面數(shù)據(jù)質(zhì)量管理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及企業(yè)數(shù)據(jù)質(zhì)量管理領(lǐng)域,特別是涉及一種面向企業(yè)數(shù)據(jù)集成的全面數(shù)
據(jù)質(zhì)量管理方法。
背景技術(shù):
如何運用信息化手段來幫助企業(yè)信息管理部門提高數(shù)據(jù)質(zhì)量從而提高信息資源
的使用價值是一個比較有意義的問題。當(dāng)前主要有兩種主流的技術(shù)方案 1)作為ETL整體解決方案一部分的數(shù)據(jù)質(zhì)量管理,如IBM的quality stage,這種
解決方案比較關(guān)注的是數(shù)據(jù)從聯(lián)機交易系統(tǒng)通過抽取、轉(zhuǎn)換到裝載入數(shù)據(jù)倉庫過程中的數(shù)
據(jù)質(zhì)量問題。 2)與元數(shù)據(jù)管理解決方案結(jié)合的數(shù)據(jù)質(zhì)量管理,如石竹公司的quality one。這 種解決方案大都以一組業(yè)務(wù)指標(biāo)為中心,通過部署在各個數(shù)據(jù)源的代理程序收集關(guān)于該指 標(biāo)的信息,然后由后臺質(zhì)量管理組件按照一定的規(guī)則進行判斷,從而識別潛在的數(shù)據(jù)質(zhì)量 問題。 這兩種方案都有較大的局限性對于第一種方案,首先往往無法覆蓋到整個企業(yè) 數(shù)據(jù)環(huán)境,其次也不能覆蓋到整個數(shù)據(jù)質(zhì)量管理的全過程;對于第二種方案,往往要進行大 量的定制化開發(fā),撰寫并部署大量的agent代理程序,另外需要人手工做大量的分析和處 理工作,勞動強度和復(fù)雜度較大。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種面向企業(yè)數(shù)據(jù)集成的全面數(shù)據(jù)質(zhì)量管理方法。 本發(fā)明的目的是按以下方式實現(xiàn)的,數(shù)據(jù)是企業(yè)重要的資產(chǎn),而質(zhì)量是數(shù)據(jù)資產(chǎn)
的生命。低質(zhì)量的數(shù)據(jù)將導(dǎo)致業(yè)務(wù)流程阻塞、運營成本增加和決策困難。本方法立足于企
業(yè)數(shù)據(jù)集成過程,致力于整個企業(yè)數(shù)據(jù)環(huán)境數(shù)據(jù)質(zhì)量的監(jiān)控、診斷和持續(xù)改善。意在通過本
方法以及基于本方法實現(xiàn)的信息系統(tǒng)的支持來全面提升企業(yè)數(shù)據(jù)質(zhì)量管理水平。 該方法面向企業(yè)數(shù)據(jù)集成的全過程,針對數(shù)據(jù)加工過程的前、中、后采取了全方位
的管理與控制;根據(jù)數(shù)據(jù)血緣關(guān)系,對大量數(shù)據(jù)質(zhì)量問題進行智能歸并,自動尋找最為基
本、最為重要的數(shù)據(jù)質(zhì)量問題;具體包括以下內(nèi)容 1)對企業(yè)數(shù)據(jù)集成全過程的質(zhì)量問題管理與監(jiān)控,包括集成前的源系統(tǒng)規(guī)則診
斷、集成過程中的ETL運行監(jiān)控、集成后的指標(biāo)一致性稽核; 2)建立企業(yè)數(shù)據(jù)血緣關(guān)系圖譜并基于此提供質(zhì)量問題歸并方法; 3)建立數(shù)據(jù)質(zhì)量規(guī)則庫,基于規(guī)則進行靈活的診斷設(shè)定,方便的進行數(shù)據(jù)質(zhì)量問
題的診斷; 4)以數(shù)據(jù)庫關(guān)系表描述了企業(yè)數(shù)據(jù)血緣關(guān)系圖譜,并提供了基于血緣關(guān)系圖譜的 質(zhì)量問題智能歸并算法; 5)數(shù)據(jù)質(zhì)量規(guī)則庫包括準(zhǔn)確性、完整性、一致性、及時性四大類,每個大類下含十一小類,每一小類均給出了明確的定義及要點,且每一小類均有對應(yīng)的診斷程序。
本發(fā)明的有益效果如下 (1)依據(jù)本專利所述方法設(shè)計開發(fā)的信息系統(tǒng)中的數(shù)據(jù)質(zhì)量規(guī)則引擎使得用戶通 過簡單的規(guī)則配置即可實現(xiàn)數(shù)據(jù)質(zhì)量問題的自動診斷與報告,極大的減輕了企業(yè)數(shù)據(jù)質(zhì)量 管理人員的工作量,提供了勞動效率。
(2)本方法所設(shè)計的系統(tǒng)覆蓋企業(yè)數(shù)據(jù)集成的全方面,涵蓋數(shù)據(jù)的產(chǎn)生、加工、應(yīng)
用的全過程。對企業(yè)數(shù)據(jù)質(zhì)量的全方位控制與提升可以起到有益的促進效果。
(3)本發(fā)明所設(shè)計的數(shù)據(jù)質(zhì)量問題歸并器,可以自動對大量數(shù)據(jù)質(zhì)量問題進行歸
納總結(jié),并追根溯源直接找到問題的源頭,提高了數(shù)據(jù)質(zhì)量問題的解決速度。
圖1是數(shù)據(jù)質(zhì)量規(guī)則庫分類表; 圖2是質(zhì)量診斷覆蓋數(shù)據(jù)集成的流程圖; 圖3是數(shù)據(jù)質(zhì)量診斷及處理流程圖。
具體實施例方式本發(fā)明通過如下措施來達到上述目標(biāo) 1)本發(fā)明通過對數(shù)據(jù)質(zhì)量評估框架的深入分析,構(gòu)造了一個獨特的數(shù)據(jù)質(zhì)量規(guī)則 庫,以此來描述業(yè)務(wù)對數(shù)據(jù)的內(nèi)在質(zhì)量要求和數(shù)據(jù)的內(nèi)在聯(lián)系,通過這些規(guī)則我們可以方 便的進行數(shù)據(jù)質(zhì)量問題的診斷。 根據(jù)我們對企業(yè)數(shù)據(jù)質(zhì)量的深入分析,歸納總結(jié)出常見質(zhì)量問題的四個大類準(zhǔn) 確性問題、完整性問題、一致性問題、及時性問題。每個問題大類下面又可細分為若干小類。 對應(yīng)質(zhì)量問題的類別,我們進行抽象總結(jié)即得到了企業(yè)數(shù)據(jù)質(zhì)量規(guī)則體系,如圖1所示
這些規(guī)則基本上做到了對企業(yè)數(shù)據(jù)質(zhì)量問題的全面覆蓋。我們針對每一種規(guī)則都 編制了特定的診斷處理邏輯。這樣我們將各業(yè)務(wù)系統(tǒng)中業(yè)務(wù)對數(shù)據(jù)的要求及數(shù)據(jù)本身內(nèi)在 的聯(lián)系均維護成相應(yīng)的規(guī)則,在數(shù)據(jù)抽取之前首先對這些規(guī)則進行統(tǒng)一診斷,即可提前發(fā) 現(xiàn)業(yè)務(wù)系統(tǒng)隱藏的數(shù)據(jù)質(zhì)量問題,防止質(zhì)量問題的進一步擴散。 2)當(dāng)前企業(yè)數(shù)據(jù)集成,最常用的技術(shù)手段是使用ETL工具來完成數(shù)據(jù)由業(yè)務(wù)系統(tǒng) 到數(shù)據(jù)倉庫的抽取、轉(zhuǎn)換、裝載過程。ETL過程是否正常執(zhí)行將對企業(yè)數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量 產(chǎn)生直接的影響。 本專利所涉及的系統(tǒng)針對常用的多種ETL工具分別開發(fā)了執(zhí)行監(jiān)控程序。監(jiān)控程 序以讀取解析ETL日志為主,配合ETL重大事件的監(jiān)聽完成了對ETL執(zhí)行過程的監(jiān)控。
3)ETL執(zhí)行完成后,企業(yè)數(shù)據(jù)集成過程基本完成,企業(yè)數(shù)據(jù)被集中到了數(shù)據(jù)倉庫。 數(shù)據(jù)倉庫的數(shù)據(jù)是決策分析的最終依據(jù),其數(shù)據(jù)是否準(zhǔn)確將直接影響分析結(jié)果,進一步影 響到企業(yè)的經(jīng)營決策。 本專利涉及的方法針對企業(yè)數(shù)據(jù)集成的結(jié)果即數(shù)據(jù)倉庫數(shù)據(jù)的準(zhǔn)確性提出了進 一步驗證的思路并在系統(tǒng)中進行了實現(xiàn)。驗證包含以下三部分內(nèi)容
>驗證數(shù)據(jù)倉庫關(guān)鍵指標(biāo)值與源系統(tǒng)指標(biāo)值是否一致。
>驗證關(guān)鍵指標(biāo)在各個業(yè)務(wù)系統(tǒng)及數(shù)據(jù)倉庫中的值是否一致。
>驗證關(guān)鍵指標(biāo)在數(shù)據(jù)倉庫不同實體中的值是否一致。 通過以上三部分驗證可以確保數(shù)據(jù)倉庫與業(yè)務(wù)系統(tǒng)的數(shù)據(jù)準(zhǔn)確、一致,保證了決 策分析基于正確的數(shù)據(jù)進行。 4)上面三點從企業(yè)數(shù)據(jù)集成的前、中、后三個階段入手,保證了數(shù)據(jù)集成全過程的 數(shù)據(jù)質(zhì)量問題可以及時的被發(fā)現(xiàn)。同時本方法提供了一種數(shù)據(jù)質(zhì)量問題快速總結(jié)處理的手 段——質(zhì)量問題智能歸并。 經(jīng)過對企業(yè)數(shù)據(jù)質(zhì)量問題的深入研究與分析,我們發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題存在明顯的 擴散現(xiàn)象,特別是在企業(yè)數(shù)據(jù)集成過程中,這種現(xiàn)象表現(xiàn)的尤為明顯。所謂擴散是指,如果 企業(yè)中的某一個數(shù)據(jù)存在質(zhì)量問題而未及時處理,那么隨著業(yè)務(wù)的逐步進展以及企業(yè)數(shù)據(jù) 的集成過程,會引發(fā)越來越多的質(zhì)量問題。例如,一個商品屬性錯誤,隨著業(yè)務(wù)的進展以及 企業(yè)數(shù)據(jù)的集成可能導(dǎo)致訂單數(shù)據(jù)、庫存數(shù)據(jù)、日結(jié)數(shù)據(jù)、月結(jié)數(shù)據(jù)、銷售匯總數(shù)據(jù)等均出 現(xiàn)質(zhì)量問題。當(dāng)我們通過數(shù)據(jù)質(zhì)量管理方法發(fā)現(xiàn)這么多質(zhì)量問題后,如果能快速準(zhǔn)確地找 到核心問題,將極大的提高我們問題處理的速度,并有助于防范類似問題的再次發(fā)生。我們 提供的質(zhì)量問題智能歸并方法就是專為完成該功能設(shè)計的。 質(zhì)量問題歸并器基于數(shù)據(jù)血緣關(guān)系圖譜進行工作。所謂數(shù)據(jù)血緣關(guān)系圖譜即通過 元數(shù)據(jù)來描述企業(yè)數(shù)據(jù)以及數(shù)據(jù)間的關(guān)系。通過這種元數(shù)據(jù)描述,我們可以清晰的知道當(dāng) 一個數(shù)據(jù)發(fā)生改變將對哪些數(shù)據(jù)產(chǎn)生何種影響。當(dāng)血緣關(guān)系圖譜建立好以后,企業(yè)中的所 有數(shù)據(jù)對象均可在其上找到自己的位置,數(shù)據(jù)對象間的影響關(guān)系也均已明確。然后質(zhì)量問 題智能歸并器可以在其上開始工作 >首先獲取系統(tǒng)診斷出的所有數(shù)據(jù)質(zhì)量問題列表。
>循環(huán)數(shù)據(jù)質(zhì)量問題列表,對每個質(zhì)量問題做如下處理
B確定該質(zhì)量問題對應(yīng)的數(shù)據(jù)在血緣關(guān)系圖上的位置。 B掃描本節(jié)點的所有父節(jié)點,如果所有父節(jié)點均不存在質(zhì)量問題則當(dāng)前質(zhì)量問題
為核心問題之一,將其存儲起來;如果存在有質(zhì)量問題父節(jié)點,則可判斷該問題為父節(jié)點擴 散的質(zhì)量問題,存儲該節(jié)點與父節(jié)點的擴散關(guān)系。 >列表循環(huán)完成后,可以得到兩部分數(shù)據(jù)核心問題列表與質(zhì)量問題擴散關(guān)系列表。 >核心問題列表即為質(zhì)量問題歸并器工作的成果,即源頭問題列表。根據(jù)擴散關(guān)系 列表可以找出每個源頭問題引發(fā)了哪些數(shù)據(jù)質(zhì)量問題。 在根據(jù)本方法設(shè)計的數(shù)據(jù)質(zhì)量管理系統(tǒng)中,我們采用數(shù)據(jù)質(zhì)量對象的形式以關(guān)系 表存儲了數(shù)據(jù)血緣關(guān)系圖譜,并用java程序?qū)崿F(xiàn)了質(zhì)量問題智能歸并器。實踐證明該方法 可以有力的提升數(shù)據(jù)質(zhì)量問題處理的效率。
權(quán)利要求
一種面向企業(yè)數(shù)據(jù)集成的全面數(shù)據(jù)質(zhì)量管理方法,其特征在于,該方法面向企業(yè)數(shù)據(jù)集成的全過程,針對數(shù)據(jù)加工過程的前、中、后采取了全方位的管理與控制;根據(jù)數(shù)據(jù)血緣關(guān)系,對大量數(shù)據(jù)質(zhì)量問題進行智能歸并,自動尋找最為基本、最為重要的數(shù)據(jù)質(zhì)量問題;具體包括以下內(nèi)容1)對企業(yè)數(shù)據(jù)集成全過程的質(zhì)量問題管理與監(jiān)控,包括集成前的源系統(tǒng)規(guī)則診斷、集成過程中的ETL運行監(jiān)控、集成后的指標(biāo)一致性稽核;2)建立企業(yè)數(shù)據(jù)血緣關(guān)系圖譜并基于此提供質(zhì)量問題歸并方法;3)建立數(shù)據(jù)質(zhì)量規(guī)則庫,基于規(guī)則進行靈活的診斷設(shè)定,方便的進行數(shù)據(jù)質(zhì)量問題的診斷;4)以數(shù)據(jù)庫關(guān)系表描述了企業(yè)數(shù)據(jù)血緣關(guān)系圖譜,并提供了基于血緣關(guān)系圖譜的質(zhì)量問題智能歸并算法;5)數(shù)據(jù)質(zhì)量規(guī)則庫包括準(zhǔn)確性、完整性、一致性、及時性四大類,每個大類下含十一小類,每一小類均給出了明確的定義及要點,且每一小類均設(shè)置有對應(yīng)的診斷程序。
全文摘要
本發(fā)明提供一種面向企業(yè)數(shù)據(jù)集成的全面數(shù)據(jù)質(zhì)量管理方法,本方法包括基于規(guī)則的數(shù)據(jù)質(zhì)量問題診斷、ETL數(shù)據(jù)加工處理過程的管理與監(jiān)控、業(yè)務(wù)指標(biāo)一致性的稽核以及質(zhì)量問題智能歸并等內(nèi)容。本方法覆蓋了企業(yè)數(shù)據(jù)集成中從數(shù)據(jù)源頭到加工處理一直到最終加工完成的整個過程,可以對數(shù)據(jù)集成中的各種質(zhì)量問題進行全面診斷、統(tǒng)一處理。使用基于本方法開發(fā)的系統(tǒng)可以方便地對企業(yè)數(shù)據(jù)集成過程進行全面的管理,有效提高企業(yè)數(shù)據(jù)質(zhì)量,提高企業(yè)數(shù)據(jù)資產(chǎn)的價值。
文檔編號G06F17/30GK101706909SQ20091023015
公開日2010年5月12日 申請日期2009年11月18日 優(yōu)先權(quán)日2009年11月18日
發(fā)明者張永剛, 鄭斌, 雷天武 申請人:山東浪潮齊魯軟件產(chǎn)業(yè)股份有限公司