專利名稱:通過(guò)確定子節(jié)點(diǎn)和父節(jié)點(diǎn)的度量值進(jìn)行的數(shù)據(jù)質(zhì)量跟蹤的制作方法
技術(shù)領(lǐng)域:
本描述涉及數(shù)據(jù)質(zhì)量跟蹤。
背景技術(shù):
所存儲(chǔ)的數(shù)據(jù)集經(jīng)常包括事先不知道其各種特性的數(shù)據(jù)。例如,數(shù)據(jù)集的值的范 圍或典型值、數(shù)據(jù)集內(nèi)不同字段之間的關(guān)系、或不同字段中各值之中的功能相關(guān)性可能是 未知的。數(shù)據(jù)剖析(profiling)可以含有檢驗(yàn)數(shù)據(jù)集的源以便確定這種特性。數(shù)據(jù)剖析系 統(tǒng)的一個(gè)用途是基于數(shù)據(jù)剖析的結(jié)果來(lái)確定單一數(shù)據(jù)對(duì)象或整個(gè)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量的測(cè)量。
發(fā)明內(nèi)容
在一個(gè)方面中,一般地,一種方法包括針對(duì)一個(gè)或多個(gè)子節(jié)點(diǎn)來(lái)確定與數(shù)據(jù)質(zhì)量 相關(guān)聯(lián)的各度量值?;谒鲎庸?jié)點(diǎn)中至少一些子節(jié)點(diǎn)的度量值來(lái)確定父節(jié)點(diǎn)的度量值, 并且一個(gè)或多個(gè)父節(jié)點(diǎn)和一個(gè)或多個(gè)子節(jié)點(diǎn)之間的關(guān)系定義了層級(jí)。針對(duì)多個(gè)實(shí)例來(lái)重復(fù) 確定父節(jié)點(diǎn)的度量值的步驟。各方面可以包括以下特征中的一個(gè)或多個(gè)特征。在確定父節(jié)點(diǎn)的度量值的步驟中 使用的一個(gè)或多個(gè)子節(jié)點(diǎn)不具有子節(jié)點(diǎn)。生成表示了由所述子節(jié)點(diǎn)和父節(jié)點(diǎn)表示的數(shù)據(jù)的 特性的剖析信息。所述子節(jié)點(diǎn)的度量值基于該剖析信息。該層級(jí)的安排由用戶來(lái)指定。用 戶指定該剖析信息內(nèi)的哪些數(shù)據(jù)字段將影響所述度量值的確定。用戶選擇一個(gè)或多個(gè)預(yù)先 構(gòu)造的因素,以影響所述度量值的確定。將所述各度量值和所述度量值表示為從0到100 的數(shù)字。在連續(xù)線形圖表上,作為時(shí)間的函數(shù)、針對(duì)所述多個(gè)實(shí)例中的每一個(gè)來(lái)顯示所述一 個(gè)或多個(gè)子節(jié)點(diǎn)的度量值或所述父節(jié)點(diǎn)的度量值中的一個(gè)或兩者。該連續(xù)線形圖表基于該 剖析信息而自動(dòng)地生成。該圖表指示了用于管控所述度量值的確定的規(guī)則的改變。該圖表 指示了在確定父節(jié)點(diǎn)的度量值的步驟中使用的度量值的改變。在另一方面中,一般地,一種計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)了用于在根據(jù)裝置信號(hào)而獲得 值中使用的可執(zhí)行指令,所述指令使得計(jì)算機(jī)確定一個(gè)或多個(gè)子節(jié)點(diǎn)的各度量值。基于所 述子節(jié)點(diǎn)中至少一些子節(jié)點(diǎn)的度量值來(lái)確定父節(jié)點(diǎn)的度量值,其中一個(gè)或多個(gè)父節(jié)點(diǎn)和一 個(gè)或多個(gè)子節(jié)點(diǎn)之間的關(guān)系定義了層級(jí)。針對(duì)多個(gè)實(shí)例來(lái)重復(fù)確定父節(jié)點(diǎn)的度量值的步
馬聚ο各方面可以包括以下特征中的一個(gè)或多個(gè)特征。在確定父節(jié)點(diǎn)的度量值的步驟中 使用的所述一個(gè)或多個(gè)子節(jié)點(diǎn)不具有子節(jié)點(diǎn)。生成表示了由所述子節(jié)點(diǎn)和父節(jié)點(diǎn)表示的數(shù) 據(jù)的特性的剖析信息。所述子節(jié)點(diǎn)的度量值基于該剖析信息。該層級(jí)的安排由用戶來(lái)指定。 用戶指定該剖析信息內(nèi)的哪些數(shù)據(jù)字段將影響所述度量值的確定。用戶選擇一個(gè)或多個(gè)預(yù) 先構(gòu)造的因素,以影響所述度量值的確定。將所述各度量值和所述度量值表示為從0到100 的數(shù)字。在連續(xù)線形圖表上,作為時(shí)間的函數(shù)、針對(duì)所述多個(gè)實(shí)例中的每一個(gè)來(lái)顯示所述一 個(gè)或多個(gè)子節(jié)點(diǎn)的度量值或所述父節(jié)點(diǎn)的度量值中的一個(gè)或兩者。該連續(xù)線形圖表基于該剖析信息而自動(dòng)地生成。該圖表指示了用于管控度量值的確定的規(guī)則的改變。該圖表指示 了在確定父節(jié)點(diǎn)的度量值的步驟中使用的所述度量值的改變。在另一方面中,一般地,一種系統(tǒng)包括用于確定一個(gè)或多個(gè)子節(jié)點(diǎn)的各度量值的 部件。一種系統(tǒng)還包括用于基于所述子節(jié)點(diǎn)中至少一些子節(jié)點(diǎn)的度量值來(lái)確定父節(jié)點(diǎn)的度 量值的部件,其中一個(gè)或多個(gè)父節(jié)點(diǎn)和一個(gè)或多個(gè)子節(jié)點(diǎn)之間的關(guān)系定義了層級(jí)。一種系 統(tǒng)還包括用于針對(duì)多個(gè)實(shí)例來(lái)重復(fù)確定父節(jié)點(diǎn)的度量值的部件。根據(jù)以下描述并根據(jù)權(quán)利要求,其他特征和優(yōu)點(diǎn)將明顯。
圖1是包括了剖析器引擎和數(shù)據(jù)質(zhì)量引擎的系統(tǒng)的框圖。圖2是示出了用于生成數(shù)據(jù)集的數(shù)據(jù)質(zhì)量度量的處理的流程圖。圖3示出了圖形用戶界面的示例。圖4是層級(jí)的示例。圖5是示出了用于生成表示了剖析信息的值的處理的流程圖。圖6A是基于度量值對(duì)時(shí)間的圖表。圖6B是基于總結(jié)報(bào)告的圖表。
具體實(shí)施例方式參考圖1,數(shù)據(jù)處理系統(tǒng)100包括剖析器引擎104,該剖析器引擎104用于處理來(lái) 自對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102的數(shù)據(jù)。對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102中的數(shù)據(jù)對(duì)象例如可以包括與如記錄 格式所定義的記錄的字段相關(guān)聯(lián)的對(duì)象。通過(guò)用戶界面106,用戶110可以使得數(shù)據(jù)質(zhì)量引 擎108訪問(wèn)與對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102內(nèi)的對(duì)象相關(guān)聯(lián)的所存儲(chǔ)剖析信息(有時(shí)稱作“字段剖 析”)。數(shù)據(jù)質(zhì)量引擎可以針對(duì)在對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102中存儲(chǔ)的對(duì)象生成與數(shù)據(jù)質(zhì)量相關(guān)的 信息(有時(shí)稱作“度量值”或“數(shù)據(jù)質(zhì)量度量”),并且可以通過(guò)用戶界面106來(lái)向用戶顯示 所生成的信息。數(shù)據(jù)源112通常包括各種單獨(dú)的數(shù)據(jù)源,所述數(shù)據(jù)源中的每一個(gè)可以具有唯一的 存儲(chǔ)格式和接口(例如,數(shù)據(jù)庫(kù)表、電子數(shù)據(jù)表文件、純文本文件、或主幀所使用的原生格 式)。單獨(dú)數(shù)據(jù)源可以處于該系統(tǒng)的本地(例如,被寄存(host)在同一計(jì)算機(jī)系統(tǒng)上),或 者可以位于該系統(tǒng)的遠(yuǎn)程(例如,被寄存在經(jīng)由局域或廣域數(shù)據(jù)網(wǎng)絡(luò)來(lái)訪問(wèn)的遠(yuǎn)程計(jì)算機(jī) 上)。對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102包括與數(shù)據(jù)源112中的數(shù)據(jù)相關(guān)的信息。這種信息可以包 括記錄格式、以及用于確定這些記錄中字段值的有效性的規(guī)范??梢园凑崭鞣N方式來(lái)表示 在數(shù)據(jù)源112內(nèi)出現(xiàn)的各記錄的不同字段之中的關(guān)系(例如,主鍵外鍵(primary-foreign key)關(guān)系)。例如,可以將在對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102中的各數(shù)據(jù)對(duì)象之中存在的層級(jí)關(guān)系表 示為層級(jí)。對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102可以用于存儲(chǔ)關(guān)于要剖析的數(shù)據(jù)源112中的數(shù)據(jù)集的初始信 息、以及關(guān)于這種數(shù)據(jù)集所獲得的信息。通過(guò)剖析處理從這個(gè)數(shù)據(jù)集所導(dǎo)出的字段剖析也 可以存儲(chǔ)在對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102中。該系統(tǒng)100包括剖析器引擎104,該剖析器引擎104從對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102中讀取數(shù)據(jù)。當(dāng)從數(shù)據(jù)源112中首次讀取數(shù)據(jù)時(shí),剖析器引擎104典型地以關(guān)于這個(gè)數(shù)據(jù)源中 各記錄的一些初始格式信息來(lái)開(kāi)始。(要注意,在一些情形下,甚至可能不知道數(shù)據(jù)源的記 錄結(jié)構(gòu))。關(guān)于記錄的初始信息可以包括表示了相異值(distinct value)的比特?cái)?shù)(例 如,16個(gè)比特(=2個(gè)字節(jié)))和值的順序(所述值包括與記錄字段相關(guān)聯(lián)的值和與標(biāo)簽或 定界符相關(guān)聯(lián)的值)、以及由所述比特表示的值的類型(例如,字符串、有符號(hào)/無(wú)符號(hào)整 數(shù))。在存儲(chǔ)于對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102中的數(shù)據(jù)操縱語(yǔ)言(DML)文件中指定了關(guān)于數(shù)據(jù)源的 記錄的該信息。剖析器引擎104可以使用預(yù)定義的DML文件來(lái)自動(dòng)地解析各種常見(jiàn)數(shù)據(jù)系 統(tǒng)格式(例如,SQL表、XML文件、CSV文件)的數(shù)據(jù)、或者使用用于描述所定制數(shù)據(jù)系統(tǒng)格 式的從對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102中獲得的DML文件。剖析器引擎104還可以生成用于用戶所供 應(yīng)的SQL語(yǔ)句和XML圖式的DML文件。在剖析器引擎104初始讀取該數(shù)據(jù)以前,該系統(tǒng)100可得到關(guān)于數(shù)據(jù)源記錄的部 分、可能不準(zhǔn)確的初始信息。例如,與數(shù)據(jù)源相關(guān)聯(lián)的COBOL字帖(copy book)可以作為所 存儲(chǔ)的數(shù)據(jù)而可得到,或者可以由用戶110通過(guò)用戶界面106而鍵入。通常,字段剖析是指 通過(guò)對(duì)包含數(shù)據(jù)對(duì)象的數(shù)據(jù)集進(jìn)行剖析而產(chǎn)生的關(guān)于這個(gè)數(shù)據(jù)對(duì)象的統(tǒng)計(jì)量的集合。字段 剖析典型地包括關(guān)于其中計(jì)算剖析的日期的信息。當(dāng)剖析器引擎104從數(shù)據(jù)源中讀取記錄時(shí),它對(duì)反映了該數(shù)據(jù)集內(nèi)容的統(tǒng)計(jì)量和 其他描述性信息進(jìn)行計(jì)算。剖析器引擎104然后將這些統(tǒng)計(jì)量和描述性信息以“剖析”的形 式而寫(xiě)入到對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102中,該對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102然后可以通過(guò)用戶界面106或 者訪問(wèn)對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102的任何其他模塊被檢查。在一些情況下,該剖析中的統(tǒng)計(jì)量例 如包括每個(gè)字段中各值的直方圖;最大、最小和平均值;以及最不常見(jiàn)值(least common value)禾口最常見(jiàn)值(most common value)的樣本。通過(guò)從數(shù)據(jù)源中進(jìn)行讀取而獲得的統(tǒng)計(jì)量可以用于各種用途。這種用途可以包括 發(fā)現(xiàn)不熟悉數(shù)據(jù)集的內(nèi)容、構(gòu)建與數(shù)據(jù)集相關(guān)聯(lián)的元數(shù)據(jù)的集合、在購(gòu)實(shí)或使用第三方數(shù) 據(jù)之前檢查所述數(shù)據(jù)、以及實(shí)現(xiàn)用于所收集數(shù)據(jù)的質(zhì)量控制方案。對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102能夠存儲(chǔ)與每個(gè)所剖析的字段相關(guān)聯(lián)的驗(yàn)證信息,例如作為 用于對(duì)驗(yàn)證信息進(jìn)行編碼的驗(yàn)證規(guī)范??商鎿Q地,驗(yàn)證信息可以存儲(chǔ)在外部存儲(chǔ)位置中并 且由剖析器引擎104來(lái)檢索。在對(duì)數(shù)據(jù)集進(jìn)行剖析之前,驗(yàn)證信息可以針對(duì)每個(gè)字段來(lái)指 定有效的數(shù)據(jù)類型。例如,如果字段是個(gè)人的“頭銜”,則默認(rèn)的有效值可以是作為“字符串” 數(shù)據(jù)類型的任何值。用戶也可以在對(duì)數(shù)據(jù)源進(jìn)行剖析以前供應(yīng)諸如“先生(Mr.)”、“夫人 (Mrs.) ”和“博士(Dr.) ”之類的有效值,使得由剖析器引擎104所讀取的任何其他值將被標(biāo) 識(shí)為無(wú)效的。從剖析運(yùn)行中獲得的信息也可以被用戶用來(lái)針對(duì)具體字段來(lái)指定有效值。例 如,用戶可以在對(duì)數(shù)據(jù)集進(jìn)行剖析之后發(fā)現(xiàn)值“女士(Ms.)”、和“Msr. ”顯現(xiàn)為常見(jiàn)值。用 戶可以將“女士”添加為有效值,并且作為數(shù)據(jù)清除選項(xiàng)來(lái)將值“Msr. ”映射為值“Mrs.(夫 人)”。因而,驗(yàn)證信息可以包括有效值和映射信息,以準(zhǔn)許通過(guò)將無(wú)效值映射為有效值來(lái)清 除所述無(wú)效值。當(dāng)通過(guò)相繼的剖析運(yùn)行而發(fā)現(xiàn)了關(guān)于數(shù)據(jù)源的更多信息時(shí),可以按照迭代 的方式來(lái)著手進(jìn)行數(shù)據(jù)源的剖析。剖析器引擎104還可以生成可執(zhí)行代碼,以實(shí)現(xiàn)可以訪問(wèn)所剖析的數(shù)據(jù)系統(tǒng)的其 他模塊。這種代碼的示例可以將值“Msr. ”映射到“Mrs.(夫人)”作為到數(shù)據(jù)源的訪問(wèn)過(guò) 程的一部分。
剖析器引擎104使用對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102來(lái)組織并存儲(chǔ)各種元數(shù)據(jù)和剖析偏好, 并產(chǎn)生數(shù)據(jù)對(duì)象。對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102可以存儲(chǔ)一組剖析設(shè)置對(duì)象(其每一個(gè)用于與剖析 工作相關(guān)的信息)、一組數(shù)據(jù)集對(duì)象(其每一個(gè)用于與數(shù)據(jù)集相關(guān)的信息)、以及一組DML 文件(其每一個(gè)描述了具體的數(shù)據(jù)格式)。剖析設(shè)置對(duì)象包含用于由剖析器引擎104執(zhí)行 的剖析運(yùn)行的偏好。用戶110可以鍵入用于創(chuàng)建新剖析設(shè)置對(duì)象或者選擇預(yù)存儲(chǔ)的剖析設(shè) 置對(duì)象的信息。剖析設(shè)置對(duì)象包含對(duì)于數(shù)據(jù)集對(duì)象的參考。數(shù)據(jù)集設(shè)置對(duì)象包含數(shù)據(jù)集定位器, 該數(shù)據(jù)集定位器使得剖析器引擎104能夠定位要在一個(gè)或多個(gè)數(shù)據(jù)系統(tǒng)上剖析的數(shù)據(jù),該 一個(gè)或多個(gè)數(shù)據(jù)系統(tǒng)可在運(yùn)行時(shí)環(huán)境內(nèi)訪問(wèn)。數(shù)據(jù)集定位器典型地是路徑/文件名、URL、 表格名、SQL選擇語(yǔ)句、或用于在多個(gè)位置上分布的數(shù)據(jù)集的路徑/文件名和/或URL的列 表。數(shù)據(jù)集對(duì)象可以可選地包含對(duì)于一個(gè)或多個(gè)DML文件的參考。數(shù)據(jù)集對(duì)象包含對(duì)于字段對(duì)象集的參考。在要剖析的數(shù)據(jù)集的記錄內(nèi),對(duì)于每個(gè) 字段存在一個(gè)字段對(duì)象。一旦完成由剖析器引擎104執(zhí)行的剖析運(yùn)行,數(shù)據(jù)集剖析就與對(duì) 應(yīng)于被剖析了的數(shù)據(jù)集的數(shù)據(jù)集對(duì)象相關(guān)聯(lián)。數(shù)據(jù)集剖析包含與該數(shù)據(jù)集相關(guān)的統(tǒng)計(jì)量 (諸如,記錄的總數(shù)和有效/無(wú)效記錄的總數(shù))、連同數(shù)據(jù)集被剖析的時(shí)間和數(shù)據(jù)、以及在剖 析中使用的驗(yàn)證對(duì)象的版本。字段對(duì)象可以可選地包含驗(yàn)證信息,剖析器引擎104可以將該驗(yàn)證信息用于確定 對(duì)應(yīng)字段的有效值,并且指定用于清除無(wú)效值(即,將無(wú)效值映射為有效值)的規(guī)則。字段 對(duì)象還與剖析器引擎在完成剖析運(yùn)行時(shí)存儲(chǔ)的字段剖析相關(guān)聯(lián),該字段剖析包含與對(duì)應(yīng)字 段相關(guān)的統(tǒng)計(jì)量,諸如相異值、空值、和有效/無(wú)效值的數(shù)目。字段剖析還可以包括諸如最 大、最小、最常見(jiàn)、和最不常見(jiàn)值之類的樣本值。完整的“剖析”包括數(shù)據(jù)集剖析和用于所有 被剖析字段的字段剖析??梢詫⒂糜谄饰銎鬟\(yùn)行的其他用戶偏好收集并存儲(chǔ)在剖析設(shè)置對(duì)象或數(shù)據(jù)集對(duì) 象中。例如,用戶可以選擇過(guò)濾器表達(dá)式,該過(guò)濾器表達(dá)式可以用于限制所剖析的字段或值 的數(shù)目,其包括剖析所述值的隨機(jī)樣本(例如,1%)ο圖2示出了過(guò)程200的示例的流程圖,該過(guò)程200用于剖析數(shù)據(jù)集以為了各種目 的中的任何目的來(lái)測(cè)試其質(zhì)量,例如,所述各種目的包括在將數(shù)據(jù)集變形并加載到數(shù)據(jù)儲(chǔ) 存庫(kù)中之前測(cè)試其質(zhì)量。該過(guò)程200可以自動(dòng)或手動(dòng)地執(zhí)行。用于測(cè)試數(shù)據(jù)集的質(zhì)量的規(guī) 則可以來(lái)自該數(shù)據(jù)集的先驗(yàn)知識(shí),和/或可以來(lái)自對(duì)相似數(shù)據(jù)集(例如,來(lái)自與要測(cè)試的數(shù) 據(jù)集相同源的數(shù)據(jù)集)執(zhí)行的諸如過(guò)程200之類的剖析過(guò)程的結(jié)果。這些規(guī)則還可以由用 戶來(lái)定制(下面詳細(xì)討論)。該過(guò)程200可以由企業(yè)例如用于在導(dǎo)入或處理從企業(yè)伙伴發(fā) 送的周期性(例如,每月的)數(shù)據(jù)反饋之前、對(duì)該數(shù)據(jù)進(jìn)行剖析。因?yàn)檫@將使得該企業(yè)能夠 檢測(cè)“不良”數(shù)據(jù)(例如,具有比閾值更高的無(wú)效值百分比的數(shù)據(jù)),所以它不會(huì)通過(guò)可以難 以取消的動(dòng)作而“污染”現(xiàn)有的數(shù)據(jù)儲(chǔ)存庫(kù)。該過(guò)程200首先標(biāo)識(shí)202要在一個(gè)或多個(gè)數(shù)據(jù)系統(tǒng)上測(cè)試的數(shù)據(jù)集,所述數(shù)據(jù)系 統(tǒng)可以在運(yùn)行時(shí)環(huán)境內(nèi)進(jìn)行訪問(wèn)。該過(guò)程200然后對(duì)該數(shù)據(jù)集(或該數(shù)據(jù)集的子集)運(yùn)行 204剖析,并且將字段剖析存儲(chǔ)206在諸如對(duì)象數(shù)據(jù)儲(chǔ)存庫(kù)102(圖1)之類的位置中。該過(guò) 程基于該剖析的結(jié)果來(lái)執(zhí)行208質(zhì)量測(cè)試。例如,可以將在該數(shù)據(jù)集中特定常見(jiàn)值出現(xiàn)的 百分比與在在先數(shù)據(jù)集中該常見(jiàn)值出現(xiàn)的百分比(基于在先剖析運(yùn)行)進(jìn)行比較,并且如果所述百分比彼此相差大于10%,則該質(zhì)量測(cè)試失敗??梢詫⒃撡|(zhì)量測(cè)試應(yīng)用于已知為一 貫出現(xiàn)(10%以內(nèi))的一系列數(shù)據(jù)集中的值。該過(guò)程200確定210該質(zhì)量測(cè)試的結(jié)果,并 且使用數(shù)據(jù)質(zhì)量度量(也稱為“數(shù)據(jù)質(zhì)量測(cè)量”)來(lái)生成表示了所測(cè)試數(shù)據(jù)的質(zhì)量的數(shù)據(jù)質(zhì) 量度量值??梢酝ㄟ^(guò)標(biāo)識(shí)202另一數(shù)據(jù)集或在不同時(shí)間處標(biāo)識(shí)202同一數(shù)據(jù)集來(lái)重復(fù)該過(guò)程。在一些示例中,如下面更詳細(xì)地描述的,可以根據(jù)層級(jí)來(lái)將該過(guò)程200應(yīng)用于其 度量值相關(guān)的數(shù)據(jù)對(duì)象。在確定數(shù)據(jù)對(duì)象(或數(shù)據(jù)對(duì)象組)的數(shù)據(jù)質(zhì)量度量值時(shí),該系統(tǒng) 計(jì)算指示了數(shù)據(jù)質(zhì)量的一些測(cè)量的單一值(例如,處于范圍0-100中)。該數(shù)據(jù)質(zhì)量度量的 計(jì)算基于應(yīng)用于該數(shù)據(jù)對(duì)象的字段剖析的函數(shù)。圖3示出了用于定義各個(gè)數(shù)據(jù)質(zhì)量度量的圖形用戶界面300的示例。該圖形用戶 界面300包括數(shù)據(jù)對(duì)象的名稱304(稱為“物理元素名稱(PhysicalElement Name) ”)、和所 述數(shù)據(jù)對(duì)象是其一部分的數(shù)據(jù)集的名稱302。下拉菜單306向用戶給予使用簡(jiǎn)單、預(yù)先構(gòu) 造的測(cè)量(稱為“數(shù)據(jù)質(zhì)量測(cè)量”)的選項(xiàng),以定義或部分地定義數(shù)據(jù)質(zhì)量度量,該數(shù)據(jù)質(zhì)量 度量要用于生成數(shù)據(jù)質(zhì)量度量值;例如在曾有效的字段剖析中找到的值的百分比。編輯按 鈕308允許用戶經(jīng)由表達(dá)式編輯器來(lái)定義慣例表達(dá)式,該表達(dá)式編輯器示出了包括在字段 剖析內(nèi)包含的所有數(shù)據(jù)字段的輸入記錄。這樣,用戶可以定制用于計(jì)算數(shù)據(jù)質(zhì)量度量值的 函數(shù)。因?yàn)樽侄纹饰隹梢园嘘P(guān)兩個(gè)數(shù)據(jù)對(duì)象之間的關(guān)系的信息,所以可能在這種跨 字段信息方面定義數(shù)據(jù)質(zhì)量度量。例如,可以在其與另一數(shù)據(jù)對(duì)象的百分比重疊方面定義 數(shù)據(jù)對(duì)象的質(zhì)量。同樣,如果存在通過(guò)其來(lái)描述元素的有效性的多個(gè)準(zhǔn)則,則可以在單一數(shù) 據(jù)對(duì)象方面定義多個(gè)數(shù)據(jù)質(zhì)量度量。圖4示出了度量值的安排。在該安排中,在層級(jí)400中組織所述度量值,該層級(jí) 400包括父節(jié)點(diǎn)(例如,“顧客個(gè)人(Customer Personal) ”節(jié)點(diǎn)402)和子節(jié)點(diǎn)(例如,“名 字(First Name)”節(jié)點(diǎn)404)兩者。父節(jié)點(diǎn)可以是父節(jié)點(diǎn)和子節(jié)點(diǎn)兩者。例如,“顧客個(gè)人” 節(jié)點(diǎn)402是關(guān)于“名字”節(jié)點(diǎn)404的父節(jié)點(diǎn),但它又是“顧客信息”節(jié)點(diǎn)406的子節(jié)點(diǎn)。在 該安排中,“名字”節(jié)點(diǎn)404也是“葉節(jié)點(diǎn)”,這是因?yàn)樗痪哂凶庸?jié)點(diǎn)。表示了度量值的所 述節(jié)點(diǎn)之中的層級(jí)關(guān)系可以與可以存在于通過(guò)度量值來(lái)測(cè)量其質(zhì)量的數(shù)據(jù)對(duì)象之中的任 何層級(jí)關(guān)系無(wú)關(guān)。對(duì)于該層級(jí)中的各個(gè)節(jié)點(diǎn)而言,用戶110(圖1)可以通過(guò)用戶界面106(圖1)來(lái) 查看并安排數(shù)據(jù)質(zhì)量度量。在諸如圖4的示例之類的一些示例中,可以通過(guò)特別的界面來(lái) 添加和刪除數(shù)據(jù)元素,以及可以將該數(shù)據(jù)元素從該層級(jí)中的一個(gè)位置“拖拉”到另一位置。 層級(jí)的安排可以對(duì)應(yīng)于任何層級(jí)結(jié)構(gòu),諸如在組織內(nèi)職責(zé)的層級(jí)。可以基于用于給定數(shù)據(jù) 對(duì)象的所存儲(chǔ)歷史數(shù)據(jù)質(zhì)量度量值(或者基于可以根據(jù)其計(jì)算數(shù)據(jù)質(zhì)量度量值的所存儲(chǔ) 歷史剖析信息)來(lái)計(jì)算數(shù)據(jù)質(zhì)量歷史,如下面更詳細(xì)描述的,該數(shù)據(jù)質(zhì)量歷史用于隨時(shí)間 跟蹤數(shù)據(jù)質(zhì)量度量值。在給定節(jié)點(diǎn)的層級(jí)及其相關(guān)聯(lián)的度量的情況下,數(shù)據(jù)質(zhì)量歷史的計(jì) 算可以在請(qǐng)求查看和報(bào)告時(shí)、基于要求或所述兩者的組合來(lái)執(zhí)行。在一些示例中,可以在數(shù)據(jù)質(zhì)量度量的計(jì)算中使用層級(jí)。例如,為了計(jì)算父節(jié)點(diǎn)的 數(shù)據(jù)質(zhì)量度量值(或“度量值”),過(guò)程500確定502 —個(gè)或多個(gè)子節(jié)點(diǎn)的度量值。該層級(jí) 包含至少一個(gè)子節(jié)點(diǎn)和至少一個(gè)父節(jié)點(diǎn)。該處理500基于所述子節(jié)點(diǎn)中至少一些子節(jié)點(diǎn)的度量值來(lái)確定504父節(jié)點(diǎn)的度量值。父節(jié)點(diǎn)和子節(jié)點(diǎn)之間的關(guān)系定義了層級(jí)。該層級(jí)可以 類似于圖4的示例,并且可以由用戶進(jìn)行定制。在一些示例中,可以在計(jì)算任何數(shù)據(jù)質(zhì)量度 量之前確定該層級(jí);即在一些實(shí)現(xiàn)中,步驟504可以在步驟502之前。該處理500針對(duì)多個(gè) 實(shí)例來(lái)重復(fù)506確定父節(jié)點(diǎn)的度量值。在給定各個(gè)數(shù)據(jù)質(zhì)量度量和用于對(duì)應(yīng)物理元素的字段剖析的集合(或計(jì)算數(shù)據(jù) 質(zhì)量度量值的一些其他方式)的情況下,可以產(chǎn)生度量值的時(shí)間序列。所得到的時(shí)間序列 表示了所述度量值的歷史,并且可以在所需要的基礎(chǔ)上計(jì)算、或者被存儲(chǔ)在對(duì)象數(shù)據(jù)儲(chǔ)存 庫(kù)中以供稍后使用并與度量規(guī)范的表示相關(guān)聯(lián)。在任一情況下,可以然后在數(shù)據(jù)剖析器用 戶界面中用圖表來(lái)表示它。在圖6A中示出了用于繪制數(shù)據(jù)質(zhì)量度量值對(duì)時(shí)間的圖表的示例。圖表600A示出 了用于度量“顧客幸福感(Customer Happiness) ”的所計(jì)算度量值的時(shí)間序列。如果用戶 將游標(biāo)移動(dòng)到圖表600A中的點(diǎn)602A上,則對(duì)于所述點(diǎn)來(lái)顯示日期和所計(jì)算的質(zhì)量值。通 過(guò)該圖表上的暗點(diǎn)來(lái)標(biāo)記其中驗(yàn)證規(guī)范從其先前值改變了的點(diǎn),并且在所述點(diǎn)上移動(dòng)游標(biāo) 將示出驗(yàn)證規(guī)范的改變。該圖表上的點(diǎn)還可以示出以下實(shí)例,其中用于在該計(jì)算中使用的 子節(jié)點(diǎn)的度量值已經(jīng)改變;即當(dāng)在該確定中使用不同子節(jié)點(diǎn)度量值時(shí),該圖表將標(biāo)識(shí)其中 改變出現(xiàn)的點(diǎn)。該圖表還可以標(biāo)識(shí)其中度量值計(jì)算的其他元素(諸如,用于計(jì)算所述值的 度量的定義)已經(jīng)改變的點(diǎn)。彩色圓點(diǎn)604A處于該圖表的左上方,該彩色圓點(diǎn)604A用于 將最新的數(shù)據(jù)質(zhì)量總結(jié)為“良好”、“需要注意”、或“不好”(分別為綠色、黃色、或紅色)。可以將多個(gè)數(shù)據(jù)質(zhì)量度量分組為“總結(jié)報(bào)告”,在圖6B中可以看到該“總結(jié)報(bào)告” 的示例??偨Y(jié)報(bào)告包括用于將多個(gè)數(shù)據(jù)質(zhì)量度量值總結(jié)為單一值的規(guī)則,諸如與層級(jí)相關(guān) 的上述方法。示例規(guī)則包括“最大值”、“最小值”和“平均值”。因此,總結(jié)報(bào)告還可以用于 產(chǎn)生具有以下值的數(shù)據(jù)質(zhì)量歷史,所述值例如是用于在該報(bào)告內(nèi)包含的所有數(shù)據(jù)質(zhì)量度量 的那些值的平均值。除了各個(gè)數(shù)據(jù)質(zhì)量度量之外,總結(jié)報(bào)告還可以包含其他總結(jié)報(bào)告,這導(dǎo)致了報(bào)告 的層級(jí),其中的每一個(gè)報(bào)告總結(jié)了它的元素。換言之,用于從屬于第三父節(jié)點(diǎn)的兩個(gè)父節(jié)點(diǎn) 的度量值可以用于計(jì)算該第三父節(jié)點(diǎn)的度量值。在給定用于總結(jié)報(bào)告的每個(gè)元素的度量值的時(shí)間序列的情況下,可以計(jì)算用 于總結(jié)報(bào)告自身的度量值的時(shí)間序列。然后,可以用圖表來(lái)表示該時(shí)間序列,并且將其 與用于其組分的時(shí)間序列進(jìn)行比較。在圖6B中示出了總結(jié)報(bào)告“顧客信息(Customer hformation) ”。在該圖表上方的表格中列出了在該總結(jié)報(bào)告內(nèi)包含的度量。利用其最新 的度量值、總結(jié)了如上所述的值的彩色原點(diǎn)、和與其歷史對(duì)應(yīng)的該圖表的縮圖來(lái)示出每一 個(gè)度量。選擇這些縮表之一將把所述圖表的全尺寸版本疊加到用于“顧客信息”的圖 表之上。在該圖示中,已經(jīng)選擇了“顧客互動(dòng)(Customer Interactions) ”,并且以藍(lán)色來(lái)用 圖表表示它。用戶可由于多種原因(例如,可不關(guān)注所有所計(jì)算的字段剖析)而希望該時(shí)間序 列可僅包括可計(jì)算度量值的子集。一些字段剖析可能已經(jīng)基于部分?jǐn)?shù)據(jù)被計(jì)算,同時(shí)一些 字段剖析可能已經(jīng)作為前往最終剖析結(jié)果的實(shí)驗(yàn),且另一些字段剖析可能已經(jīng)被錯(cuò)誤地計(jì) 算。因此,該時(shí)間序列的計(jì)算具有用于選定要包括哪些字段剖析的一些準(zhǔn)則。一個(gè)示范準(zhǔn) 則在于總是針對(duì)每個(gè)歷日(calendar day)來(lái)選定最新的可用字段剖析(例如,最近的字段剖析)。用戶可以定義其中認(rèn)為每個(gè)歷日已經(jīng)開(kāi)始的日子中的時(shí)間,即,可以將歷日的定義 擴(kuò)展為包括日子之間的任意時(shí)間邊界。字段剖析結(jié)果部分地取決于可以隨時(shí)間改變的驗(yàn)證規(guī)范。因此,還利用應(yīng)用于對(duì) 應(yīng)字段剖析的驗(yàn)證規(guī)范的版本來(lái)注釋每個(gè)度量值。各個(gè)度量值還取決于可以隨時(shí)間改變的度量規(guī)范。因此,還利用在計(jì)算了該值時(shí) 應(yīng)用的度量的版本來(lái)注釋每個(gè)度量值。可以使用用于在計(jì)算機(jī)上執(zhí)行的軟件來(lái)實(shí)現(xiàn)上述方法。例如,該軟件形成了用于 在一個(gè)或多個(gè)已編程或可編程計(jì)算機(jī)系統(tǒng)(其可以具有諸如分布式、客戶端/服務(wù)器、或網(wǎng) 格之類的各種架構(gòu))上執(zhí)行的一個(gè)或多個(gè)計(jì)算機(jī)程序中的過(guò)程,所述計(jì)算機(jī)系統(tǒng)中的每一 個(gè)包括至少一個(gè)處理器、至少一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng)(例如,易失性和非易失性存儲(chǔ)器和/或存 儲(chǔ)元件)、至少一個(gè)輸入裝置或端口、和至少一個(gè)輸出裝置或端口。該軟件可以形成較大程 序中的一個(gè)或多個(gè)模塊,該較大程序例如是用于提供與圖形的設(shè)計(jì)和配置相關(guān)的其他服務(wù) 的程序??梢栽谟赏ㄓ没?qū)S每删幊逃?jì)算機(jī)可讀取的或在網(wǎng)絡(luò)上傳遞(以傳播信號(hào)編碼) 的介質(zhì)或裝置上向其中該軟件執(zhí)行的計(jì)算機(jī)提供該軟件??梢栽趯S糜?jì)算機(jī)上或者使用諸 如協(xié)處理器之類的專用硬件來(lái)執(zhí)行所有所述功能。可以以其中不同計(jì)算機(jī)執(zhí)行由該軟件指 定的計(jì)算的不同部分的分布式方式來(lái)實(shí)現(xiàn)該軟件。每個(gè)這種計(jì)算機(jī)程序優(yōu)選地存儲(chǔ)在可由 通用或?qū)S每删幊逃?jì)算機(jī)讀取的存儲(chǔ)介質(zhì)或裝置(例如,固態(tài)存儲(chǔ)器或介質(zhì)、或磁性或光 學(xué)介質(zhì))上、或下載到所述存儲(chǔ)介質(zhì)或裝置,以用于當(dāng)由該計(jì)算機(jī)系統(tǒng)讀取所述存儲(chǔ)介質(zhì) 或裝置以執(zhí)行在這里描述的過(guò)程時(shí),配置并操作該計(jì)算機(jī)。還可以認(rèn)為本發(fā)明系統(tǒng)被實(shí)現(xiàn) 為配置有計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中如此配置的存儲(chǔ)介質(zhì)使得計(jì)算機(jī)系統(tǒng)在 特定和預(yù)定義的方式中操作,以執(zhí)行在這里描述的功能。要理解,前述描述意欲進(jìn)行說(shuō)明、而不意欲限制本發(fā)明的范圍,所述本發(fā)明的范圍 通過(guò)所附權(quán)利要求的范圍來(lái)限定。其他實(shí)施例處于以下權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.一種方法,包括確定一個(gè)或多個(gè)子節(jié)點(diǎn)的、與數(shù)據(jù)質(zhì)量相關(guān)聯(lián)的各度量值;基于所述子節(jié)點(diǎn)中至少一些子節(jié)點(diǎn)的度量值來(lái)確定父節(jié)點(diǎn)的度量值,其中一個(gè)或多個(gè) 父節(jié)點(diǎn)和一個(gè)或多個(gè)子節(jié)點(diǎn)之間的關(guān)系定義了層級(jí);以及 針對(duì)多個(gè)實(shí)例來(lái)重復(fù)確定父節(jié)點(diǎn)的度量值。
2.根據(jù)權(quán)利要求1的方法,其中在確定父節(jié)點(diǎn)的度量值的步驟中使用的所述一個(gè)或多 個(gè)子節(jié)點(diǎn)不具有子節(jié)點(diǎn)。
3.根據(jù)權(quán)利要求1的方法,還包括生成表示由所述子節(jié)點(diǎn)和父節(jié)點(diǎn)表示的數(shù)據(jù)的特 性的剖析信息。
4.根據(jù)權(quán)利要求3的方法,其中所述子節(jié)點(diǎn)的各度量值基于該剖析信息。
5.根據(jù)權(quán)利要求1的方法,其中所述層級(jí)的安排由用戶來(lái)指定。
6.根據(jù)權(quán)利要求3的方法,其中用戶指定所述剖析信息內(nèi)的哪些數(shù)據(jù)字段將影響度量 值的確定。
7.根據(jù)權(quán)利要求1的方法,其中用戶選擇一個(gè)或多個(gè)預(yù)先構(gòu)造的因素,以影響度量值 的確定。
8.根據(jù)權(quán)利要求1的方法,其中將所述各度量值和所述度量值表示為從0到100的數(shù)字。
9.根據(jù)權(quán)利要求1的方法,其中在連續(xù)線形圖表上,作為時(shí)間的函數(shù)、針對(duì)所述多個(gè)實(shí) 例中的每一個(gè)來(lái)顯示所述一個(gè)或多個(gè)子節(jié)點(diǎn)的各度量值或所述父節(jié)點(diǎn)的度量值之一或兩者ο
10.根據(jù)權(quán)利要求9的方法,其中基于該剖析信息而自動(dòng)地生成所述連續(xù)線形圖表。
11.根據(jù)權(quán)利要求9的方法,其中該圖表指示了用于管控度量值的確定的規(guī)則的改變。
12.根據(jù)權(quán)利要求9的方法,其中該圖表指示了在確定父節(jié)點(diǎn)的度量值的步驟中使用 的度量值的改變。
13.一種計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)了用于在根據(jù)裝置信號(hào)獲得值中使 用的可執(zhí)行指令,所述指令使得計(jì)算機(jī)確定一個(gè)或多個(gè)子節(jié)點(diǎn)的各度量值;基于所述子節(jié)點(diǎn)中至少一些子節(jié)點(diǎn)的度量值來(lái)確定父節(jié)點(diǎn)的度量值,其中一個(gè)或多個(gè) 父節(jié)點(diǎn)和一個(gè)或多個(gè)子節(jié)點(diǎn)之間的關(guān)系定義了層級(jí);以及 針對(duì)多個(gè)實(shí)例來(lái)重復(fù)確定父節(jié)點(diǎn)的度量值。
14.根據(jù)權(quán)利要求13的計(jì)算機(jī)可讀介質(zhì),其中在確定父節(jié)點(diǎn)的度量值的步驟中使用的 一個(gè)或多個(gè)子節(jié)點(diǎn)不具有子節(jié)點(diǎn)。
15.根據(jù)權(quán)利要求13的計(jì)算機(jī)可讀介質(zhì),還包括生成表示由所述子節(jié)點(diǎn)和父節(jié)點(diǎn)表 示的數(shù)據(jù)的特性的剖析信息。
16.根據(jù)權(quán)利要求15的計(jì)算機(jī)可讀介質(zhì),其中所述子節(jié)點(diǎn)的度量值基于所述剖析信肩、ο
17.根據(jù)權(quán)利要求13的計(jì)算機(jī)可讀介質(zhì),其中所述層級(jí)的安排由用戶來(lái)指定。
18.根據(jù)權(quán)利要求15的計(jì)算機(jī)可讀介質(zhì),其中用戶指定所述剖析信息內(nèi)的哪些數(shù)據(jù)字 段將影響度量值的確定。
19.根據(jù)權(quán)利要求13的計(jì)算機(jī)可讀介質(zhì),其中用戶選擇一個(gè)或多個(gè)預(yù)先構(gòu)造的因素, 以影響度量值的確定。
20.根據(jù)權(quán)利要求13的計(jì)算機(jī)可讀介質(zhì),其中將所述各度量值和所述度量值表示為從 0到100的數(shù)字。
21.根據(jù)權(quán)利要求13的計(jì)算機(jī)可讀介質(zhì),其中在連續(xù)線形圖表上,作為時(shí)間的函數(shù)、針 對(duì)所述多個(gè)實(shí)例中的每一個(gè)來(lái)顯示所述一個(gè)或多個(gè)子節(jié)點(diǎn)的各度量值或所述父節(jié)點(diǎn)的度量值之一或兩者。
22.根據(jù)權(quán)利要求21的計(jì)算機(jī)可讀介質(zhì),其中基于該剖析信息而自動(dòng)地生成所述連續(xù) 線形圖表。
23.根據(jù)權(quán)利要求21的計(jì)算機(jī)可讀介質(zhì),其中該圖表指示了用于管控度量值的確定的 規(guī)則的改變。
24.根據(jù)權(quán)利要求21的計(jì)算機(jī)可讀介質(zhì),其中該圖表指示了在確定父節(jié)點(diǎn)的度量值的 步驟中使用的度量值的改變。
25.—種系統(tǒng),包括用于確定一個(gè)或多個(gè)子節(jié)點(diǎn)的各度量值的部件;用于基于所述子節(jié)點(diǎn)中至少一些子節(jié)點(diǎn)的度量值來(lái)確定父節(jié)點(diǎn)的度量值的部件,其中 一個(gè)或多個(gè)父節(jié)點(diǎn)和一個(gè)或多個(gè)子節(jié)點(diǎn)之間的關(guān)系定義了層級(jí);以及 用于針對(duì)多個(gè)實(shí)例來(lái)重復(fù)確定父節(jié)點(diǎn)的度量值的部件。
全文摘要
一般地,一種方法包括確定(502)一個(gè)或多個(gè)子節(jié)點(diǎn)的、與數(shù)據(jù)質(zhì)量相關(guān)聯(lián)的各度量值?;谒鲎庸?jié)點(diǎn)中至少一些子節(jié)點(diǎn)的度量值來(lái)確定(504)父節(jié)點(diǎn)的度量值,并且一個(gè)或多個(gè)父節(jié)點(diǎn)和一個(gè)或多個(gè)子節(jié)點(diǎn)之間的關(guān)系定義了層級(jí)。針對(duì)多個(gè)實(shí)例來(lái)重復(fù)(506)確定父節(jié)點(diǎn)的度量值的步驟。
文檔編號(hào)G06F17/00GK102067106SQ200980123317
公開(kāi)日2011年5月18日 申請(qǐng)日期2009年6月18日 優(yōu)先權(quán)日2008年6月20日
發(fā)明者戴維·沃爾德, 穆罕麥德·A·卡恩, 蒂姆·韋克林 申請(qǐng)人:起元技術(shù)有限責(zé)任公司