亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備及方法

文檔序號(hào):10687747閱讀:753來源:國(guó)知局
基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備及方法
【專利摘要】本發(fā)明提供了一種基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備及方法。該方法包括:獲取待評(píng)估的數(shù)據(jù)集以及與之對(duì)應(yīng)的領(lǐng)域上下文;根據(jù)數(shù)據(jù)集和領(lǐng)域上下文,選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度量;抽樣數(shù)據(jù)集,確定待評(píng)估數(shù)據(jù)子集;根據(jù)待評(píng)估數(shù)據(jù)子集、評(píng)估度量和領(lǐng)域上下文,計(jì)算基于評(píng)估度量所得到的評(píng)估結(jié)果;以及對(duì)評(píng)估結(jié)果進(jìn)行聚合和排序,以獲得數(shù)據(jù)集的評(píng)估結(jié)果。相比于現(xiàn)有技術(shù),本發(fā)明根據(jù)所獲得的領(lǐng)域上下文和用戶所選擇的評(píng)估度量,對(duì)數(shù)據(jù)集抽樣得到的數(shù)據(jù)子集進(jìn)行評(píng)估,充分反映了用戶需求,能夠全面客觀對(duì)數(shù)據(jù)集進(jìn)行評(píng)估,并且獲得直觀且可對(duì)比的評(píng)估結(jié)果。
【專利說明】
基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備及方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種數(shù)據(jù)質(zhì)量評(píng)估技術(shù),尤其涉及一種基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備及方法?!颈尘凹夹g(shù)】
[0002]隨著大數(shù)據(jù)技術(shù)的成熟和發(fā)展,大數(shù)據(jù)在在商業(yè)上的應(yīng)用越來越廣泛,有關(guān)大數(shù)據(jù)的交互、整合、交換甚至交易也日益增多。盡管當(dāng)前大數(shù)據(jù)存儲(chǔ)和挖掘技術(shù)已經(jīng)逐步成熟,但“數(shù)據(jù)孤島”的大量存在,制約了數(shù)據(jù)的流通和變現(xiàn)。唯有對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行評(píng)估,對(duì)數(shù)據(jù)進(jìn)行合理定價(jià),實(shí)現(xiàn)大數(shù)據(jù)交易,才能打破行業(yè)信息壁皇,優(yōu)化和提高生產(chǎn)效率,深度推進(jìn)產(chǎn)業(yè)創(chuàng)新。
[0003]在數(shù)據(jù)交易領(lǐng)域中,數(shù)據(jù)作為商品進(jìn)行買賣。數(shù)據(jù)是一種邏輯實(shí)體,具有抽象性, 必須通過運(yùn)行、觀察、分析、思考、判斷才能夠了解數(shù)據(jù)的功能、性能及其他特性。此外,數(shù)據(jù)具有明顯的非可視特征。因此,數(shù)據(jù)交易領(lǐng)域?qū)?shù)據(jù)進(jìn)行評(píng)價(jià)的最重要指標(biāo)是對(duì)數(shù)據(jù)質(zhì)量的評(píng)估?,F(xiàn)有數(shù)據(jù)質(zhì)量評(píng)估的研究通常分為三類:(1)面向特定領(lǐng)域或特定來源的數(shù)據(jù),質(zhì)量評(píng)估針對(duì)某個(gè)企業(yè)或是某個(gè)組織機(jī)構(gòu),例如,中國(guó)專利申請(qǐng)?zhí)枮?01310714474.8、發(fā)明名稱為電動(dòng)汽車充換電站火災(zāi)風(fēng)險(xiǎn)數(shù)據(jù)評(píng)估方法揭示了一種針對(duì)電動(dòng)汽車充換電站的特定來源數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的技術(shù)內(nèi)容;(2)針對(duì)通用領(lǐng)域的特定問題的研究,專注于發(fā)現(xiàn)某個(gè)新的度量,如與數(shù)據(jù)復(fù)雜度相關(guān)的度量,或是集中于某個(gè)度量的自動(dòng)計(jì)算方法,如錯(cuò)誤率等;(3)面向通用的數(shù)據(jù)質(zhì)量框架的研究,例如:IS08000的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)?,F(xiàn)有的研究中無法解決面向大數(shù)據(jù)交易平臺(tái)中的數(shù)據(jù)來源復(fù)雜,涉及領(lǐng)域廣泛的數(shù)據(jù)質(zhì)量的評(píng)估問題。
[0004]此外,數(shù)據(jù)質(zhì)量評(píng)估與應(yīng)用場(chǎng)景的相關(guān)程度高,脫離于應(yīng)用場(chǎng)景的質(zhì)量評(píng)估,無法滿足交易平臺(tái)未來數(shù)據(jù)買方的需要。但是,完全依賴于特定需求與用戶喜好的質(zhì)量評(píng)估,又具有過強(qiáng)的主觀性,喪失了質(zhì)量的客觀性。從質(zhì)量定義角度,ISO 8000引用了IS09000:2005 的定義“多大程度滿足需求的內(nèi)部特征集合(Degree to which a set ofinherent characteristic fulfills requirements)”。學(xué)界也普遍認(rèn)可了“高質(zhì)量的數(shù)據(jù)應(yīng)該是能充分滿足用戶使用要求的數(shù)據(jù)”這一觀點(diǎn)?,F(xiàn)有技術(shù)中,在《計(jì)算機(jī)技術(shù)與發(fā)展》2011年第1 期上發(fā)表的論文《面向企業(yè)信息化的數(shù)據(jù)質(zhì)量評(píng)估研究》中,通過引入S0A上下文的可重用服務(wù)思想,設(shè)計(jì)了一種數(shù)據(jù)質(zhì)量評(píng)估的服務(wù)框架,基于該框架對(duì)輸入輸出、流程管理、自動(dòng)化評(píng)估等服務(wù)進(jìn)行了闡述,并使用Web Services服務(wù)組件的形式實(shí)現(xiàn)了所有的功能需求。 此外,在《計(jì)算機(jī)科學(xué)》2014年11期的論文《基于事實(shí)抽取的Web文檔內(nèi)容數(shù)據(jù)質(zhì)量評(píng)估》中, 提出了基于事實(shí)的質(zhì)量評(píng)估方法(Fact-based Quality Assessment,F(xiàn)QA),在Web上構(gòu)建目標(biāo)文檔上下文,并抽取Web文檔內(nèi)容的事實(shí);然后分別采用投票和圖迭代策略,構(gòu)建準(zhǔn)確性和完整性維度的參照;最后,比對(duì)目標(biāo)文檔和維度參照的事實(shí),量化準(zhǔn)確性和完整性。但是, 現(xiàn)有的上述數(shù)據(jù)質(zhì)量評(píng)估技術(shù)仍然有待進(jìn)一步提高和改善。
【發(fā)明內(nèi)容】

[0005]針對(duì)現(xiàn)有技術(shù)中的數(shù)據(jù)質(zhì)量評(píng)估設(shè)備所存在的上述缺陷,本發(fā)明提供了一種基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備及方法。
[0006]依據(jù)本發(fā)明的一個(gè)方面,提供了一種計(jì)算機(jī)實(shí)現(xiàn)的基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的方法,包括以下步驟:
[0007]獲取待評(píng)估的數(shù)據(jù)集以及與所述數(shù)據(jù)集相對(duì)應(yīng)的領(lǐng)域上下文;
[0008]根據(jù)所述數(shù)據(jù)集和所述領(lǐng)域上下文,選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度量;
[0009]抽樣所述數(shù)據(jù)集,確定待評(píng)估數(shù)據(jù)子集;
[0010]根據(jù)所述待評(píng)估數(shù)據(jù)子集、所述評(píng)估度量和所述領(lǐng)域上下文,計(jì)算基于所述評(píng)估度量所得到的評(píng)估結(jié)果;以及
[0011]對(duì)所述評(píng)估結(jié)果進(jìn)行聚合和排序,以獲得所述數(shù)據(jù)集的評(píng)估結(jié)果。
[0012]在其中的一實(shí)施例,于抽樣所述數(shù)據(jù)集的步驟與計(jì)算評(píng)估結(jié)果的步驟之間,該方法還包括步驟:采用模式對(duì)齊庫對(duì)所述待評(píng)估數(shù)據(jù)子集和所述領(lǐng)域上下文進(jìn)行模式對(duì)齊。
[0013]在其中的一實(shí)施例,采用層次抽樣法、系統(tǒng)抽樣法或隨機(jī)抽樣法對(duì)所述數(shù)據(jù)集進(jìn)行抽樣以確定所述待評(píng)估數(shù)據(jù)子集。
[0014]在其中的一實(shí)施例,根據(jù)所述待評(píng)估數(shù)據(jù)子集、所述評(píng)估度量和所述領(lǐng)域上下文計(jì)算所述評(píng)估結(jié)果采用以下至少一種方式:
[0015]-根據(jù)所述評(píng)估度量的定義直接計(jì)算;
[0016]-根據(jù)所述評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè);
[0017]-人工評(píng)估。
[0018]在其中的一實(shí)施例,根據(jù)所述評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè)包括:定義所述待評(píng)估數(shù)據(jù)子集的字段約束或字段之間約束的模板;根據(jù)所述待評(píng)估數(shù)據(jù)子集的具體數(shù)據(jù)對(duì)所定義的模板進(jìn)行實(shí)例化,生成用于在所述待評(píng)估數(shù)據(jù)子集進(jìn)行查詢的測(cè)試用例;執(zhí)行所述測(cè)試用例得到查詢結(jié)果,所述查詢結(jié)果返回錯(cuò)誤數(shù)據(jù);以及根據(jù)所述錯(cuò)誤數(shù)據(jù)和所述評(píng)估度量的度量公式,計(jì)算所述評(píng)估結(jié)果。
[0019]在其中的一實(shí)施例,采用人工評(píng)估方式計(jì)算所述評(píng)估結(jié)果包括:根據(jù)所述待評(píng)估數(shù)據(jù)子集和所述評(píng)估度量,將評(píng)估任務(wù)隨機(jī)分配給N名評(píng)估人員,N為大于或等于3的奇數(shù); 根據(jù)所述待評(píng)估數(shù)據(jù)子集的大小設(shè)置一評(píng)估期間,獲取所述評(píng)估人員在所述評(píng)估期間內(nèi)的各自評(píng)估結(jié)果;根據(jù)所述各自評(píng)估結(jié)果校正評(píng)估結(jié)果中的偏差,得到經(jīng)校正后的評(píng)估結(jié)果; 以及根據(jù)校正后的所述評(píng)估結(jié)果,計(jì)算平均值從而獲得基于所述評(píng)估度量的評(píng)估結(jié)果。
[0020]依據(jù)本發(fā)明的另一個(gè)方面,提供了一種基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備,包括:
[0021]展示模塊,用于獲取待評(píng)估的數(shù)據(jù)集以及與所述數(shù)據(jù)集相對(duì)應(yīng)的領(lǐng)域上下文;
[0022]選擇模塊,用于根據(jù)所述數(shù)據(jù)集和所述領(lǐng)域上下文,選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度量;[〇〇23]抽樣模塊,用于抽樣所述數(shù)據(jù)集,確定待評(píng)估數(shù)據(jù)子集;
[0024]計(jì)算模塊,用于根據(jù)所述待評(píng)估數(shù)據(jù)子集、所述評(píng)估度量和所述領(lǐng)域上下文,計(jì)算基于所述評(píng)估度量得到的評(píng)估結(jié)果;以及
[0025]聚合排序模塊,用于對(duì)所述評(píng)估結(jié)果進(jìn)行聚合和排序,以獲得所述數(shù)據(jù)集的評(píng)估結(jié)果。
[0026]在其中的一實(shí)施例,所述設(shè)備還包括模式對(duì)齊模塊,用于根據(jù)模式對(duì)齊庫對(duì)所述待評(píng)估數(shù)據(jù)子集和所述領(lǐng)域上下文進(jìn)行模式對(duì)齊,得到對(duì)齊后的待評(píng)估數(shù)據(jù)子集。
[0027]在其中的一實(shí)施例,所述計(jì)算模塊采用以下至少一種方式計(jì)算所述評(píng)估結(jié)果:
[0028]-根據(jù)所述評(píng)估度量的定義直接計(jì)算;[〇〇29]-根據(jù)所述評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè);
[0030]-人工評(píng)估。
[0031]在其中的一實(shí)施例,所述領(lǐng)域上下文包括上下文名稱、參考模式、參考數(shù)據(jù)集、字典數(shù)據(jù)集、用例集和度量聚合庫。
[0032]相比于現(xiàn)有技術(shù),本發(fā)明的基于上下文的數(shù)據(jù)質(zhì)量評(píng)估設(shè)備和方法根據(jù)所獲得的領(lǐng)域上下文和用戶所選擇的評(píng)估度量,對(duì)數(shù)據(jù)集抽樣得到的數(shù)據(jù)子集進(jìn)行評(píng)估,充分反映了用戶需求,能夠全面客觀對(duì)數(shù)據(jù)集進(jìn)行評(píng)估,并且獲得直觀且可對(duì)比的評(píng)估結(jié)果。
[0033]根據(jù)下面參考附圖對(duì)示例性實(shí)施例的詳細(xì)說明,本發(fā)明的其它特征及方面將變得清楚?!靖綀D說明】
[0034]讀者在參照附圖閱讀了本發(fā)明的【具體實(shí)施方式】以后,將會(huì)更清楚地了解本發(fā)明的各個(gè)方面。其中,
[0035]圖1示出依據(jù)本發(fā)明的一實(shí)施方式,基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的方法的流程框圖;
[0036]圖2示出采用圖1的數(shù)據(jù)質(zhì)量評(píng)估方法的一較佳實(shí)施例;[〇〇37]圖3A示出圖1的數(shù)據(jù)質(zhì)量評(píng)估方法中,根據(jù)待評(píng)估數(shù)據(jù)子集、評(píng)估度量和領(lǐng)域上下文計(jì)算評(píng)估結(jié)果的第一實(shí)施例;[〇〇38]圖3B示出圖1的數(shù)據(jù)質(zhì)量評(píng)估方法中,根據(jù)待評(píng)估數(shù)據(jù)子集、評(píng)估度量和領(lǐng)域上下文計(jì)算評(píng)估結(jié)果的第二實(shí)施例;以及
[0039]圖4示出依據(jù)本發(fā)明的另一實(shí)施方式,基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備的結(jié)構(gòu)框圖?!揪唧w實(shí)施方式】
[0040]為了使本申請(qǐng)所揭示的技術(shù)內(nèi)容更加詳盡與完備,可參照附圖以及本發(fā)明的下述各種具體實(shí)施例,附圖中相同的標(biāo)記代表相同或相似的組件。然而,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,下文中所提供的實(shí)施例并非用來限制本發(fā)明所涵蓋的范圍。此外,附圖僅僅用于示意性地加以說明,并未依照其原尺寸進(jìn)行繪制。
[0041]下面參照附圖,對(duì)本發(fā)明各個(gè)方面的【具體實(shí)施方式】作進(jìn)一步的詳細(xì)描述。[〇〇42]圖1示出依據(jù)本發(fā)明的一實(shí)施方式,基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的方法的流程框圖。
[0043]參照?qǐng)D1,在該實(shí)施方式中,本發(fā)明的基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的方法透過步驟S110?步驟S150予以實(shí)現(xiàn)。
[0044]詳細(xì)而言,首先執(zhí)行步驟S110和S120,獲取待評(píng)估的數(shù)據(jù)集以及與數(shù)據(jù)集相對(duì)應(yīng)的領(lǐng)域上下文,然后根據(jù)數(shù)據(jù)集和領(lǐng)域上下文來選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度量。例如,在獲得相應(yīng)的領(lǐng)域上下文/應(yīng)用上下文時(shí),如果系統(tǒng)缺乏與評(píng)估者需求相一致的上下文,則自定義該上下文;如果系統(tǒng)與評(píng)估者需求基本一致,則在已有的上下文基礎(chǔ)上根據(jù)用戶需求進(jìn)行客戶化。之后,根據(jù)領(lǐng)域上下文和待評(píng)估的數(shù)據(jù)集選擇評(píng)估度量。
[0045]在本發(fā)明實(shí)施例中,數(shù)據(jù)集是指待評(píng)估的數(shù)據(jù)集,包括但不只局限于關(guān)系數(shù)據(jù)庫。例如,待評(píng)估的數(shù)據(jù)集還可以是知識(shí)庫等。評(píng)估度量是用戶擬評(píng)估數(shù)據(jù)集的數(shù)據(jù)質(zhì)量的度量指標(biāo)。評(píng)估度量包括各質(zhì)量維度的具體度量指標(biāo)。例如,評(píng)估維度可以是豐富度、準(zhǔn)確性、完整性、一致性、及時(shí)性、可用性、數(shù)據(jù)服務(wù)訪問性能、可查詢性、信息性等。進(jìn)一步,豐富度又可分為數(shù)據(jù)大小、模式大小或是類層次的深度等子維度,而數(shù)據(jù)大小子維度的度量指標(biāo)包括表的數(shù)量、實(shí)例數(shù)量、主實(shí)體記錄數(shù)量、事實(shí)數(shù)量等。領(lǐng)域上下文包括上下文名稱、參考模式、參考數(shù)據(jù)集、字典數(shù)據(jù)集、用例的集合和度量聚合庫。上下文的名稱說明上下文所屬的領(lǐng)域;參考模式包括該領(lǐng)域的數(shù)據(jù)的標(biāo)準(zhǔn)模式,對(duì)數(shù)據(jù)應(yīng)該包括哪些字段并且這些字段有哪些約束進(jìn)行說明;參考數(shù)據(jù)集包括該領(lǐng)域的樣例數(shù)據(jù)集,是一組質(zhì)量較好的示例集合;數(shù)據(jù)字典包括該領(lǐng)域的標(biāo)準(zhǔn)字典庫;用例集包括用于計(jì)算使用質(zhì)量的測(cè)試用例;度量聚合庫包括用于度量的權(quán)重,說明各度量的重要程度,即度量之間的權(quán)重值。
[0046]接著,執(zhí)行步驟S130,抽樣數(shù)據(jù)集以確定待評(píng)估數(shù)據(jù)子集。即,利用數(shù)據(jù)抽樣方法將大數(shù)據(jù)集抽樣構(gòu)造出一個(gè)適合評(píng)估的數(shù)據(jù)子集,后續(xù)在這個(gè)數(shù)據(jù)子集上進(jìn)行度量計(jì)算。較佳地,采用層次抽樣法、系統(tǒng)抽樣法或隨機(jī)抽樣法對(duì)數(shù)據(jù)集進(jìn)行抽樣。其中,層次抽樣法是將數(shù)據(jù)集按照某種特征分成若干層,確定各層的總體數(shù)據(jù)容量,從每一層內(nèi)抽取一定數(shù)量的觀察數(shù)據(jù),然后將每層抽取的觀察數(shù)據(jù)組合形成樣本。系統(tǒng)抽樣法是將數(shù)據(jù)等分成η個(gè)部分(η為總體數(shù)據(jù)量/樣本量),然后從第一部分隨機(jī)抽第k號(hào)觀察單位,依次用相等間隔,機(jī)械地從每一部分各抽取一個(gè)觀察單位組成樣本。隨機(jī)抽樣法是遵循隨機(jī)的原則,采用不放回抽取方法,從總體中隨機(jī)抽取所需數(shù)量的觀察單位組成樣本。
[0047]然后,執(zhí)行步驟S140,根據(jù)待評(píng)估數(shù)據(jù)子集,評(píng)估度量和領(lǐng)域上下文計(jì)算基于評(píng)估度量得到的評(píng)估結(jié)果。在本發(fā)明的不同實(shí)施例中,計(jì)算得到評(píng)估結(jié)果可以根據(jù)評(píng)估度量的定義直接計(jì)算;或者根據(jù)評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè);或者采用人工評(píng)估方法。在下文中,將結(jié)合圖3A和圖3B進(jìn)行詳細(xì)說明。
[0048]最后,執(zhí)行步驟S150,根據(jù)每個(gè)評(píng)估度量的評(píng)估結(jié)果聚合和排序,獲得數(shù)據(jù)集的評(píng)估結(jié)果。例如,當(dāng)所有已選擇的評(píng)估度量計(jì)算完成之后,數(shù)據(jù)子集在每個(gè)評(píng)估度量上都有一個(gè)百分制的評(píng)分,然后將所有的評(píng)分聚合成一個(gè)最終的數(shù)據(jù)質(zhì)量評(píng)分,并將數(shù)據(jù)集按照評(píng)分進(jìn)行排序。較佳地,聚合排序包括三種方式,其一是按照領(lǐng)域上下文中由領(lǐng)域?qū)<以O(shè)定的評(píng)分標(biāo)準(zhǔn);其二是由數(shù)據(jù)評(píng)估者自己設(shè)定各個(gè)評(píng)估度量的權(quán)重;其三是使用機(jī)器學(xué)習(xí)的方法,基于上下文中各個(gè)維度的重要程度學(xué)習(xí)出權(quán)重。
[0049]圖2示出采用圖1的數(shù)據(jù)質(zhì)量評(píng)估方法的一較佳實(shí)施例。將圖2與圖1進(jìn)行比較,在該實(shí)施例中,其主要區(qū)別是在于,在步驟S130與步驟S140之間增加了步驟S160,采用模式對(duì)齊庫對(duì)待評(píng)估數(shù)據(jù)子集和領(lǐng)域上下文進(jìn)行模式對(duì)齊。即,模式對(duì)齊待評(píng)估數(shù)據(jù)子集和領(lǐng)域上下文,根據(jù)模式對(duì)齊庫中的字段映射關(guān)系,查找待評(píng)估數(shù)據(jù)子集和領(lǐng)域上下文,將存在映射關(guān)系的字段設(shè)置為同一字段。
[0050]在此,模式對(duì)齊庫的構(gòu)建過程如下:構(gòu)建同義詞庫,其包括中文同義詞庫、英文同義詞庫、中英文對(duì)照庫。當(dāng)數(shù)據(jù)供應(yīng)商提供的數(shù)據(jù)模式包含拼音或者拼音首字母時(shí),還需要數(shù)據(jù)供應(yīng)商提供對(duì)應(yīng)的中文全稱并添加到同義詞庫中;利用同義詞庫,將兩個(gè)數(shù)據(jù)集模式中的字段都用統(tǒng)一的中文表示,然后計(jì)算兩個(gè)模式中字段的字符相似度和字段對(duì)應(yīng)的約束的相似度(如值域的相似度,數(shù)據(jù)類型的相似度等);根據(jù)計(jì)算的相似度,找出兩個(gè)模式的字段之間相似度高的字段對(duì),構(gòu)建出兩個(gè)模式字段之間的映射;由領(lǐng)域?qū)<覍?duì)構(gòu)建的映射進(jìn)行審核和補(bǔ)充,剔除錯(cuò)誤的映射關(guān)系,獲得模式對(duì)齊庫。
[0051]由上述可知,根據(jù)已經(jīng)構(gòu)建的模式對(duì)齊庫將待評(píng)估數(shù)據(jù)子集和領(lǐng)域上下文對(duì)齊,可獲得更準(zhǔn)確的數(shù)據(jù)集和領(lǐng)域上下文,以確保相同含義不同名稱的字段對(duì)應(yīng)的數(shù)據(jù)有效且準(zhǔn)確地進(jìn)行評(píng)估。
[0052]圖3A示出圖1的數(shù)據(jù)質(zhì)量評(píng)估方法中,根據(jù)待評(píng)估數(shù)據(jù)子集、評(píng)估度量和領(lǐng)域上下文計(jì)算評(píng)估結(jié)果的第一實(shí)施例;
[0053]參照?qǐng)D3A,根據(jù)評(píng)估度量的度量公式,利用錯(cuò)誤數(shù)據(jù)進(jìn)行自動(dòng)檢測(cè)時(shí),統(tǒng)計(jì)待評(píng)估數(shù)據(jù)子集中不滿足度量要求的數(shù)據(jù),計(jì)算待評(píng)估數(shù)據(jù)子集的評(píng)估結(jié)果。該自動(dòng)檢測(cè)方法通過步驟S210?步驟S240實(shí)現(xiàn),主要包括模板定義、模板實(shí)例化、執(zhí)行查詢得到錯(cuò)誤數(shù)據(jù)與計(jì)算評(píng)估結(jié)果。具體地,
[0054]在步驟S210中,定義模板一一定義待評(píng)估數(shù)據(jù)子集的字段約束或者字段之間約束的模板,如值域模板、比較模板、正則模板等。其中,值域模板說明某一字段的值應(yīng)該在某一個(gè)范圍內(nèi),比如人的性別是男或女;比較模板說明一條記錄中的某一個(gè)字段值和另外一個(gè)字段值的大小關(guān)系,比如人的死亡日期要晚于其出生日期);
[0055]在步驟S220中,模板實(shí)例化一一根據(jù)待評(píng)估數(shù)據(jù)子集中的具體數(shù)據(jù)對(duì)所定義的模板進(jìn)行實(shí)例化,生成可在待評(píng)估數(shù)據(jù)子集上進(jìn)行查詢的測(cè)試用例(SQL查詢)。在此,對(duì)模板進(jìn)行實(shí)例化生成測(cè)試用例有多種方式,包括:利用數(shù)據(jù)集中的模式來自動(dòng)生成測(cè)試用例;或者,由領(lǐng)域?qū)<疫x擇相應(yīng)的模板,然后依據(jù)對(duì)數(shù)據(jù)集的了解對(duì)模板實(shí)例化,生成測(cè)試用例;或者,由領(lǐng)域?qū)<視鴮懗瞿0?,然后?duì)模板實(shí)例化,得到測(cè)試用例;
[0056]在步驟S230中,執(zhí)行查詢得到錯(cuò)誤數(shù)據(jù)一一根據(jù)待評(píng)估數(shù)據(jù)子集執(zhí)行測(cè)試用例得到查詢結(jié)果,該查詢結(jié)果返回錯(cuò)誤數(shù)據(jù)。例如,執(zhí)行每一個(gè)測(cè)試用例有兩種不同的結(jié)果:沒有結(jié)果返回(正確),如果有返回結(jié)果說明存在錯(cuò)誤的數(shù)據(jù),并得到錯(cuò)誤數(shù)據(jù);
[0057]在步驟S240中,計(jì)算評(píng)估結(jié)果一一根據(jù)錯(cuò)誤數(shù)據(jù)和評(píng)估度量的度量公式,計(jì)算基于該評(píng)估度量的評(píng)估結(jié)果。
[0058]圖3B示出圖1的數(shù)據(jù)質(zhì)量評(píng)估方法中,根據(jù)待評(píng)估數(shù)據(jù)子集、評(píng)估度量和領(lǐng)域上下文計(jì)算評(píng)估結(jié)果的第二實(shí)施例。
[0059]參照?qǐng)D3B,人工評(píng)估處理是根據(jù)評(píng)估度量和待評(píng)估數(shù)據(jù)子集,進(jìn)行人工評(píng)估處理,根據(jù)人工評(píng)估的評(píng)估結(jié)果,計(jì)算基于評(píng)估度量的評(píng)估結(jié)果。采用人工評(píng)估方式可通過步驟S310?步驟S340實(shí)現(xiàn),主要包括任務(wù)分配、獲取人工評(píng)估結(jié)果、校正評(píng)估結(jié)果偏差和計(jì)算評(píng)估結(jié)果。具體地,
[0060]在步驟S310中,任務(wù)分配一一根據(jù)待評(píng)估數(shù)據(jù)子集和評(píng)估度量,將評(píng)估任務(wù)隨機(jī)分配給多名評(píng)估人員。例如,評(píng)估人員的數(shù)量大于或等于3名,且評(píng)估人員數(shù)為奇數(shù);
[0061]在步驟S320中,獲取人工評(píng)估結(jié)果一一根據(jù)待評(píng)估數(shù)據(jù)子集的大小設(shè)置評(píng)估期間,諸如限定時(shí)間期間為4小時(shí)、8小時(shí)、24小時(shí)或48小時(shí),在該時(shí)間內(nèi)獲取評(píng)估人員各自的評(píng)估結(jié)果。若超出時(shí)間范圍,該評(píng)估人員的評(píng)估任務(wù)取消;
[0062]在步驟S330中,校正評(píng)估結(jié)果偏差一一根據(jù)評(píng)估結(jié)果校正評(píng)估結(jié)果中的偏差,得到校正后的評(píng)估結(jié)果。如果評(píng)估結(jié)果中出現(xiàn)不一致的情況,即各評(píng)估結(jié)果的偏差大于或等于0.15時(shí),則返回步驟S310重新進(jìn)行任務(wù)分配;
[0063]在步驟S340中,計(jì)算評(píng)估結(jié)果一一根據(jù)校正后的評(píng)估結(jié)果,計(jì)算平均值從而獲得基于評(píng)估度量的評(píng)估結(jié)果。
[0064]本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,在一些實(shí)施例中,還可采用圖3A和圖3B之外的其他計(jì)算評(píng)估結(jié)果的方式,例如直接計(jì)算方式一一根據(jù)待評(píng)估數(shù)據(jù)子集和評(píng)估度量的定義直接計(jì)算獲得該度量的評(píng)估結(jié)果。在度量的計(jì)算過程中,有些度量可以直接進(jìn)行計(jì)算,例如表的數(shù)量、實(shí)體的數(shù)量都直接通過計(jì)算機(jī)進(jìn)行統(tǒng)計(jì)即可。此外還可將直接計(jì)算方式、自動(dòng)檢測(cè)方式和人工評(píng)估方式綜合運(yùn)用。
[0065]圖4示出依據(jù)本發(fā)明的另一實(shí)施方式,基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備的結(jié)構(gòu)框圖。
[0066]參照?qǐng)D4,在該實(shí)施方式中,基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備包括展示模塊、選擇模塊、抽樣模塊、計(jì)算模塊和聚合排序模塊。
[0067]其中,展示模塊和選擇模塊既可獨(dú)立設(shè)置,也可集成于同一功能模塊,用于獲取待評(píng)估的數(shù)據(jù)集以及與之對(duì)應(yīng)的領(lǐng)域上下文,然后根據(jù)數(shù)據(jù)集和領(lǐng)域上下文選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度量。此外,如圖4所示,展示模塊還可提供輸入待評(píng)估數(shù)據(jù)集、評(píng)估度量和用戶配置參數(shù)的界面,并顯示接收到的評(píng)估結(jié)果及分析圖表,以及提供領(lǐng)域上下文的輸入和顯示界面。這里,領(lǐng)域上下文包括上下文名稱、參考模式、參考數(shù)據(jù)集、數(shù)據(jù)字典、度量聚合庫和用例庫。
[0068]抽樣模塊針對(duì)展示模塊獲得的待評(píng)估數(shù)據(jù)集進(jìn)行抽樣處理,從而得到待評(píng)估數(shù)據(jù)子集。計(jì)算模塊與抽樣模塊相連,用于根據(jù)待評(píng)估數(shù)據(jù)子集、評(píng)估度量和領(lǐng)域上下文,計(jì)算基于評(píng)估度量得到的評(píng)估結(jié)果。聚合排序模塊用于對(duì)評(píng)估結(jié)果進(jìn)行聚合和排序,以獲得數(shù)據(jù)集的評(píng)估結(jié)果。
[0069]相比于現(xiàn)有技術(shù),本發(fā)明的基于上下文的數(shù)據(jù)質(zhì)量評(píng)估設(shè)備和方法根據(jù)所獲得的領(lǐng)域上下文和用戶所選擇的評(píng)估度量,對(duì)數(shù)據(jù)集抽樣得到的數(shù)據(jù)子集進(jìn)行評(píng)估,充分反映了用戶需求,能夠全面客觀對(duì)數(shù)據(jù)集進(jìn)行評(píng)估,并且獲得直觀且可對(duì)比的評(píng)估結(jié)果。
[0070]上文中,參照附圖描述了本發(fā)明的【具體實(shí)施方式】。但是,本領(lǐng)域中的普通技術(shù)人員能夠理解,在不偏離本發(fā)明的精神和范圍的情況下,還可以對(duì)本發(fā)明的【具體實(shí)施方式】作各種變更和替換。這些變更和替換都落在本發(fā)明權(quán)利要求書所限定的范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種計(jì)算機(jī)實(shí)現(xiàn)的基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的方法,其特征在于,該 方法包括以下步驟:獲取待評(píng)估的數(shù)據(jù)集以及與所述數(shù)據(jù)集相對(duì)應(yīng)的領(lǐng)域上下文;根據(jù)所述數(shù)據(jù)集和所述領(lǐng)域上下文,選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度量;抽樣所述數(shù)據(jù)集,確定待評(píng)估數(shù)據(jù)子集;根據(jù)所述待評(píng)估數(shù)據(jù)子集、所述評(píng)估度量和所述領(lǐng)域上下文,計(jì)算基于所述評(píng)估度量 所得到的評(píng)估結(jié)果;以及對(duì)所述評(píng)估結(jié)果進(jìn)行聚合和排序,以獲得所述數(shù)據(jù)集的評(píng)估結(jié)果。2.如權(quán)利要求1所述的方法,其特征在于,在抽樣所述數(shù)據(jù)集的步驟與計(jì)算評(píng)估結(jié)果的 步驟之間,該方法還包括步驟:采用模式對(duì)齊庫對(duì)所述待評(píng)估數(shù)據(jù)子集和所述領(lǐng)域上下文進(jìn)行模式對(duì)齊。3.如權(quán)利要求1所述的方法,其特征在于,采用層次抽樣法、系統(tǒng)抽樣法或隨機(jī)抽樣法 對(duì)所述數(shù)據(jù)集進(jìn)行抽樣以確定所述待評(píng)估數(shù)據(jù)子集。4.如權(quán)利要求1所述的方法,其特征在于,根據(jù)所述待評(píng)估數(shù)據(jù)子集、所述評(píng)估度量和 所述領(lǐng)域上下文計(jì)算所述評(píng)估結(jié)果采用以下至少一種方式:-根據(jù)所述評(píng)估度量的定義直接計(jì)算;-根據(jù)所述評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè);-人工評(píng)估。5.如權(quán)利要求4所述的方法,其特征在于,根據(jù)所述評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè) 包括:定義所述待評(píng)估數(shù)據(jù)子集的字段約束或字段之間約束的模板;根據(jù)所述待評(píng)估數(shù)據(jù)子集的具體數(shù)據(jù)對(duì)所定義的模板進(jìn)行實(shí)例化,生成用于在所述待 評(píng)估數(shù)據(jù)子集進(jìn)行查詢的測(cè)試用例;執(zhí)行所述測(cè)試用例得到查詢結(jié)果,所述查詢結(jié)果返回錯(cuò)誤數(shù)據(jù);以及 根據(jù)所述錯(cuò)誤數(shù)據(jù)和所述評(píng)估度量的度量公式,計(jì)算所述評(píng)估結(jié)果。6.如權(quán)利要求4所述的方法,其特征在于,采用人工評(píng)估方式計(jì)算所述評(píng)估結(jié)果包括: 根據(jù)所述待評(píng)估數(shù)據(jù)子集和所述評(píng)估度量,將評(píng)估任務(wù)隨機(jī)分配給N名評(píng)估人員,N為大于或等于3的奇數(shù);根據(jù)所述待評(píng)估數(shù)據(jù)子集的大小設(shè)置一評(píng)估期間,獲取所述評(píng)估人員在所述評(píng)估期間 內(nèi)的各自評(píng)估結(jié)果;根據(jù)所述各自評(píng)估結(jié)果校正評(píng)估結(jié)果中的偏差,得到經(jīng)校正后的評(píng)估結(jié)果;以及 根據(jù)校正后的所述評(píng)估結(jié)果,計(jì)算平均值從而獲得基于所述評(píng)估度量的評(píng)估結(jié)果。7.—種基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備,其特征在于,所述設(shè)備包括:展示模塊,用于獲取待評(píng)估的數(shù)據(jù)集以及與所述數(shù)據(jù)集相對(duì)應(yīng)的領(lǐng)域上下文;選擇模塊,用于根據(jù)所述數(shù)據(jù)集和所述領(lǐng)域上下文,選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度 量;抽樣模塊,用于抽樣所述數(shù)據(jù)集,確定待評(píng)估數(shù)據(jù)子集;計(jì)算模塊,用于根據(jù)所述待評(píng)估數(shù)據(jù)子集、所述評(píng)估度量和所述領(lǐng)域上下文,計(jì)算基于 所述評(píng)估度量得到的評(píng)估結(jié)果;以及聚合排序模塊,用于對(duì)所述評(píng)估結(jié)果進(jìn)行聚合和排序,以獲得所述數(shù)據(jù)集的評(píng)估結(jié)果。8.如權(quán)利要求7所述的設(shè)備,其特征在于,所述設(shè)備還包括模式對(duì)齊模塊,用于根據(jù)模 式對(duì)齊庫對(duì)所述待評(píng)估數(shù)據(jù)子集和所述領(lǐng)域上下文進(jìn)行模式對(duì)齊,得到對(duì)齊后的待評(píng)估數(shù) 據(jù)子集。9.如權(quán)利要求7或8所述的設(shè)備,其特征在于,所述計(jì)算模塊采用以下至少一種方式計(jì) 算所述評(píng)估結(jié)果:-根據(jù)所述評(píng)估度量的定義直接計(jì)算;-根據(jù)所述評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè);-人工評(píng)估。10.如權(quán)利要求7所述的設(shè)備,其特征在于,所述領(lǐng)域上下文包括上下文名稱、參考模 式、參考數(shù)據(jù)集、字典數(shù)據(jù)集、用例集和度量聚合庫。
【文檔編號(hào)】G06F17/30GK106056287SQ201610388931
【公開日】2016年10月26日
【申請(qǐng)日】2016年6月3日
【發(fā)明人】阮彤, 申翔宇, 葉琪, 李陽, 趙亮
【申請(qǐng)人】華東理工大學(xué), 上海數(shù)據(jù)交易中心有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1