基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備及方法

文檔序號(hào)：10687747閱讀：753來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備及方法
【專利摘要】本發(fā)明提供了一種基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備及方法。該方法包括：獲取待評(píng)估的數(shù)據(jù)集以及與之對(duì)應(yīng)的領(lǐng)域上下文；根據(jù)數(shù)據(jù)集和領(lǐng)域上下文，選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度量；抽樣數(shù)據(jù)集，確定待評(píng)估數(shù)據(jù)子集；根據(jù)待評(píng)估數(shù)據(jù)子集、評(píng)估度量和領(lǐng)域上下文，計(jì)算基于評(píng)估度量所得到的評(píng)估結(jié)果；以及對(duì)評(píng)估結(jié)果進(jìn)行聚合和排序，以獲得數(shù)據(jù)集的評(píng)估結(jié)果。相比于現(xiàn)有技術(shù)，本發(fā)明根據(jù)所獲得的領(lǐng)域上下文和用戶所選擇的評(píng)估度量，對(duì)數(shù)據(jù)集抽樣得到的數(shù)據(jù)子集進(jìn)行評(píng)估，充分反映了用戶需求，能夠全面客觀對(duì)數(shù)據(jù)集進(jìn)行評(píng)估，并且獲得直觀且可對(duì)比的評(píng)估結(jié)果。
【專利說明】
基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備及方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種數(shù)據(jù)質(zhì)量評(píng)估技術(shù)，尤其涉及一種基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備及方法?！颈尘凹夹g(shù)】
[0002]隨著大數(shù)據(jù)技術(shù)的成熟和發(fā)展，大數(shù)據(jù)在在商業(yè)上的應(yīng)用越來越廣泛，有關(guān)大數(shù)據(jù)的交互、整合、交換甚至交易也日益增多。盡管當(dāng)前大數(shù)據(jù)存儲(chǔ)和挖掘技術(shù)已經(jīng)逐步成熟，但“數(shù)據(jù)孤島”的大量存在，制約了數(shù)據(jù)的流通和變現(xiàn)。唯有對(duì)數(shù)據(jù)的質(zhì)量進(jìn)行評(píng)估，對(duì)數(shù)據(jù)進(jìn)行合理定價(jià)，實(shí)現(xiàn)大數(shù)據(jù)交易，才能打破行業(yè)信息壁皇，優(yōu)化和提高生產(chǎn)效率，深度推進(jìn)產(chǎn)業(yè)創(chuàng)新。
[0003]在數(shù)據(jù)交易領(lǐng)域中，數(shù)據(jù)作為商品進(jìn)行買賣。數(shù)據(jù)是一種邏輯實(shí)體，具有抽象性，必須通過運(yùn)行、觀察、分析、思考、判斷才能夠了解數(shù)據(jù)的功能、性能及其他特性。此外，數(shù)據(jù)具有明顯的非可視特征。因此，數(shù)據(jù)交易領(lǐng)域?qū)?shù)據(jù)進(jìn)行評(píng)價(jià)的最重要指標(biāo)是對(duì)數(shù)據(jù)質(zhì)量的評(píng)估?，F(xiàn)有數(shù)據(jù)質(zhì)量評(píng)估的研究通常分為三類:(1)面向特定領(lǐng)域或特定來源的數(shù)據(jù)，質(zhì)量評(píng)估針對(duì)某個(gè)企業(yè)或是某個(gè)組織機(jī)構(gòu)，例如，中國(guó)專利申請(qǐng)?zhí)枮?01310714474.8、發(fā)明名稱為電動(dòng)汽車充換電站火災(zāi)風(fēng)險(xiǎn)數(shù)據(jù)評(píng)估方法揭示了一種針對(duì)電動(dòng)汽車充換電站的特定來源數(shù)據(jù)進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的技術(shù)內(nèi)容；(2)針對(duì)通用領(lǐng)域的特定問題的研究，專注于發(fā)現(xiàn)某個(gè)新的度量，如與數(shù)據(jù)復(fù)雜度相關(guān)的度量，或是集中于某個(gè)度量的自動(dòng)計(jì)算方法，如錯(cuò)誤率等；(3)面向通用的數(shù)據(jù)質(zhì)量框架的研究，例如:IS08000的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)?，F(xiàn)有的研究中無法解決面向大數(shù)據(jù)交易平臺(tái)中的數(shù)據(jù)來源復(fù)雜，涉及領(lǐng)域廣泛的數(shù)據(jù)質(zhì)量的評(píng)估問題。
[0004]此外，數(shù)據(jù)質(zhì)量評(píng)估與應(yīng)用場(chǎng)景的相關(guān)程度高，脫離于應(yīng)用場(chǎng)景的質(zhì)量評(píng)估，無法滿足交易平臺(tái)未來數(shù)據(jù)買方的需要。但是，完全依賴于特定需求與用戶喜好的質(zhì)量評(píng)估，又具有過強(qiáng)的主觀性，喪失了質(zhì)量的客觀性。從質(zhì)量定義角度，ISO 8000引用了IS09000:2005 的定義“多大程度滿足需求的內(nèi)部特征集合(Degree to which a set ofinherent characteristic fulfills requirements)”。學(xué)界也普遍認(rèn)可了“高質(zhì)量的數(shù)據(jù)應(yīng)該是能充分滿足用戶使用要求的數(shù)據(jù)”這一觀點(diǎn)?，F(xiàn)有技術(shù)中，在《計(jì)算機(jī)技術(shù)與發(fā)展》2011年第1 期上發(fā)表的論文《面向企業(yè)信息化的數(shù)據(jù)質(zhì)量評(píng)估研究》中，通過引入S0A上下文的可重用服務(wù)思想，設(shè)計(jì)了一種數(shù)據(jù)質(zhì)量評(píng)估的服務(wù)框架，基于該框架對(duì)輸入輸出、流程管理、自動(dòng)化評(píng)估等服務(wù)進(jìn)行了闡述，并使用Web Services服務(wù)組件的形式實(shí)現(xiàn)了所有的功能需求。此外，在《計(jì)算機(jī)科學(xué)》2014年11期的論文《基于事實(shí)抽取的Web文檔內(nèi)容數(shù)據(jù)質(zhì)量評(píng)估》中，提出了基于事實(shí)的質(zhì)量評(píng)估方法(Fact-based Quality Assessment，F(xiàn)QA)，在Web上構(gòu)建目標(biāo)文檔上下文，并抽取Web文檔內(nèi)容的事實(shí);然后分別采用投票和圖迭代策略，構(gòu)建準(zhǔn)確性和完整性維度的參照;最后，比對(duì)目標(biāo)文檔和維度參照的事實(shí)，量化準(zhǔn)確性和完整性。但是，現(xiàn)有的上述數(shù)據(jù)質(zhì)量評(píng)估技術(shù)仍然有待進(jìn)一步提高和改善。
【發(fā)明內(nèi)容】

[0005]針對(duì)現(xiàn)有技術(shù)中的數(shù)據(jù)質(zhì)量評(píng)估設(shè)備所存在的上述缺陷，本發(fā)明提供了一種基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備及方法。
[0006]依據(jù)本發(fā)明的一個(gè)方面，提供了一種計(jì)算機(jī)實(shí)現(xiàn)的基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的方法，包括以下步驟:
[0007]獲取待評(píng)估的數(shù)據(jù)集以及與所述數(shù)據(jù)集相對(duì)應(yīng)的領(lǐng)域上下文；
[0008]根據(jù)所述數(shù)據(jù)集和所述領(lǐng)域上下文，選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度量；
[0009]抽樣所述數(shù)據(jù)集，確定待評(píng)估數(shù)據(jù)子集；
[0010]根據(jù)所述待評(píng)估數(shù)據(jù)子集、所述評(píng)估度量和所述領(lǐng)域上下文，計(jì)算基于所述評(píng)估度量所得到的評(píng)估結(jié)果；以及
[0011]對(duì)所述評(píng)估結(jié)果進(jìn)行聚合和排序，以獲得所述數(shù)據(jù)集的評(píng)估結(jié)果。
[0012]在其中的一實(shí)施例，于抽樣所述數(shù)據(jù)集的步驟與計(jì)算評(píng)估結(jié)果的步驟之間，該方法還包括步驟:采用模式對(duì)齊庫對(duì)所述待評(píng)估數(shù)據(jù)子集和所述領(lǐng)域上下文進(jìn)行模式對(duì)齊。
[0013]在其中的一實(shí)施例，采用層次抽樣法、系統(tǒng)抽樣法或隨機(jī)抽樣法對(duì)所述數(shù)據(jù)集進(jìn)行抽樣以確定所述待評(píng)估數(shù)據(jù)子集。
[0014]在其中的一實(shí)施例，根據(jù)所述待評(píng)估數(shù)據(jù)子集、所述評(píng)估度量和所述領(lǐng)域上下文計(jì)算所述評(píng)估結(jié)果采用以下至少一種方式:
[0015]-根據(jù)所述評(píng)估度量的定義直接計(jì)算；
[0016]-根據(jù)所述評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè)；
[0017]-人工評(píng)估。
[0018]在其中的一實(shí)施例，根據(jù)所述評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè)包括:定義所述待評(píng)估數(shù)據(jù)子集的字段約束或字段之間約束的模板;根據(jù)所述待評(píng)估數(shù)據(jù)子集的具體數(shù)據(jù)對(duì)所定義的模板進(jìn)行實(shí)例化，生成用于在所述待評(píng)估數(shù)據(jù)子集進(jìn)行查詢的測(cè)試用例;執(zhí)行所述測(cè)試用例得到查詢結(jié)果，所述查詢結(jié)果返回錯(cuò)誤數(shù)據(jù)；以及根據(jù)所述錯(cuò)誤數(shù)據(jù)和所述評(píng)估度量的度量公式，計(jì)算所述評(píng)估結(jié)果。
[0019]在其中的一實(shí)施例，采用人工評(píng)估方式計(jì)算所述評(píng)估結(jié)果包括:根據(jù)所述待評(píng)估數(shù)據(jù)子集和所述評(píng)估度量，將評(píng)估任務(wù)隨機(jī)分配給N名評(píng)估人員，N為大于或等于3的奇數(shù)；根據(jù)所述待評(píng)估數(shù)據(jù)子集的大小設(shè)置一評(píng)估期間，獲取所述評(píng)估人員在所述評(píng)估期間內(nèi)的各自評(píng)估結(jié)果;根據(jù)所述各自評(píng)估結(jié)果校正評(píng)估結(jié)果中的偏差，得到經(jīng)校正后的評(píng)估結(jié)果；以及根據(jù)校正后的所述評(píng)估結(jié)果，計(jì)算平均值從而獲得基于所述評(píng)估度量的評(píng)估結(jié)果。
[0020]依據(jù)本發(fā)明的另一個(gè)方面，提供了一種基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備，包括:
[0021]展示模塊，用于獲取待評(píng)估的數(shù)據(jù)集以及與所述數(shù)據(jù)集相對(duì)應(yīng)的領(lǐng)域上下文；
[0022]選擇模塊，用于根據(jù)所述數(shù)據(jù)集和所述領(lǐng)域上下文，選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度量；[〇〇23]抽樣模塊，用于抽樣所述數(shù)據(jù)集，確定待評(píng)估數(shù)據(jù)子集；
[0024]計(jì)算模塊，用于根據(jù)所述待評(píng)估數(shù)據(jù)子集、所述評(píng)估度量和所述領(lǐng)域上下文，計(jì)算基于所述評(píng)估度量得到的評(píng)估結(jié)果；以及
[0025]聚合排序模塊，用于對(duì)所述評(píng)估結(jié)果進(jìn)行聚合和排序，以獲得所述數(shù)據(jù)集的評(píng)估結(jié)果。
[0026]在其中的一實(shí)施例，所述設(shè)備還包括模式對(duì)齊模塊，用于根據(jù)模式對(duì)齊庫對(duì)所述待評(píng)估數(shù)據(jù)子集和所述領(lǐng)域上下文進(jìn)行模式對(duì)齊，得到對(duì)齊后的待評(píng)估數(shù)據(jù)子集。
[0027]在其中的一實(shí)施例，所述計(jì)算模塊采用以下至少一種方式計(jì)算所述評(píng)估結(jié)果:
[0028]-根據(jù)所述評(píng)估度量的定義直接計(jì)算；[〇〇29]-根據(jù)所述評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè)；
[0030]-人工評(píng)估。
[0031]在其中的一實(shí)施例，所述領(lǐng)域上下文包括上下文名稱、參考模式、參考數(shù)據(jù)集、字典數(shù)據(jù)集、用例集和度量聚合庫。
[0032]相比于現(xiàn)有技術(shù)，本發(fā)明的基于上下文的數(shù)據(jù)質(zhì)量評(píng)估設(shè)備和方法根據(jù)所獲得的領(lǐng)域上下文和用戶所選擇的評(píng)估度量，對(duì)數(shù)據(jù)集抽樣得到的數(shù)據(jù)子集進(jìn)行評(píng)估，充分反映了用戶需求，能夠全面客觀對(duì)數(shù)據(jù)集進(jìn)行評(píng)估，并且獲得直觀且可對(duì)比的評(píng)估結(jié)果。
[0033]根據(jù)下面參考附圖對(duì)示例性實(shí)施例的詳細(xì)說明，本發(fā)明的其它特征及方面將變得清楚?！靖綀D說明】
[0034]讀者在參照附圖閱讀了本發(fā)明的【具體實(shí)施方式】以后，將會(huì)更清楚地了解本發(fā)明的各個(gè)方面。其中，
[0035]圖1示出依據(jù)本發(fā)明的一實(shí)施方式，基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的方法的流程框圖；
[0036]圖2示出采用圖1的數(shù)據(jù)質(zhì)量評(píng)估方法的一較佳實(shí)施例；[〇〇37]圖3A示出圖1的數(shù)據(jù)質(zhì)量評(píng)估方法中，根據(jù)待評(píng)估數(shù)據(jù)子集、評(píng)估度量和領(lǐng)域上下文計(jì)算評(píng)估結(jié)果的第一實(shí)施例；[〇〇38]圖3B示出圖1的數(shù)據(jù)質(zhì)量評(píng)估方法中，根據(jù)待評(píng)估數(shù)據(jù)子集、評(píng)估度量和領(lǐng)域上下文計(jì)算評(píng)估結(jié)果的第二實(shí)施例；以及
[0039]圖4示出依據(jù)本發(fā)明的另一實(shí)施方式，基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備的結(jié)構(gòu)框圖?！揪唧w實(shí)施方式】
[0040]為了使本申請(qǐng)所揭示的技術(shù)內(nèi)容更加詳盡與完備，可參照附圖以及本發(fā)明的下述各種具體實(shí)施例，附圖中相同的標(biāo)記代表相同或相似的組件。然而，本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解，下文中所提供的實(shí)施例并非用來限制本發(fā)明所涵蓋的范圍。此外，附圖僅僅用于示意性地加以說明，并未依照其原尺寸進(jìn)行繪制。
[0041]下面參照附圖，對(duì)本發(fā)明各個(gè)方面的【具體實(shí)施方式】作進(jìn)一步的詳細(xì)描述。[〇〇42]圖1示出依據(jù)本發(fā)明的一實(shí)施方式，基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的方法的流程框圖。
[0043]參照?qǐng)D1，在該實(shí)施方式中，本發(fā)明的基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的方法透過步驟S110?步驟S150予以實(shí)現(xiàn)。
[0044]詳細(xì)而言，首先執(zhí)行步驟S110和S120,獲取待評(píng)估的數(shù)據(jù)集以及與數(shù)據(jù)集相對(duì)應(yīng)的領(lǐng)域上下文，然后根據(jù)數(shù)據(jù)集和領(lǐng)域上下文來選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度量。例如，在獲得相應(yīng)的領(lǐng)域上下文/應(yīng)用上下文時(shí)，如果系統(tǒng)缺乏與評(píng)估者需求相一致的上下文，則自定義該上下文；如果系統(tǒng)與評(píng)估者需求基本一致，則在已有的上下文基礎(chǔ)上根據(jù)用戶需求進(jìn)行客戶化。之后，根據(jù)領(lǐng)域上下文和待評(píng)估的數(shù)據(jù)集選擇評(píng)估度量。
[0045]在本發(fā)明實(shí)施例中，數(shù)據(jù)集是指待評(píng)估的數(shù)據(jù)集，包括但不只局限于關(guān)系數(shù)據(jù)庫。例如，待評(píng)估的數(shù)據(jù)集還可以是知識(shí)庫等。評(píng)估度量是用戶擬評(píng)估數(shù)據(jù)集的數(shù)據(jù)質(zhì)量的度量指標(biāo)。評(píng)估度量包括各質(zhì)量維度的具體度量指標(biāo)。例如，評(píng)估維度可以是豐富度、準(zhǔn)確性、完整性、一致性、及時(shí)性、可用性、數(shù)據(jù)服務(wù)訪問性能、可查詢性、信息性等。進(jìn)一步，豐富度又可分為數(shù)據(jù)大小、模式大小或是類層次的深度等子維度，而數(shù)據(jù)大小子維度的度量指標(biāo)包括表的數(shù)量、實(shí)例數(shù)量、主實(shí)體記錄數(shù)量、事實(shí)數(shù)量等。領(lǐng)域上下文包括上下文名稱、參考模式、參考數(shù)據(jù)集、字典數(shù)據(jù)集、用例的集合和度量聚合庫。上下文的名稱說明上下文所屬的領(lǐng)域;參考模式包括該領(lǐng)域的數(shù)據(jù)的標(biāo)準(zhǔn)模式，對(duì)數(shù)據(jù)應(yīng)該包括哪些字段并且這些字段有哪些約束進(jìn)行說明；參考數(shù)據(jù)集包括該領(lǐng)域的樣例數(shù)據(jù)集，是一組質(zhì)量較好的示例集合；數(shù)據(jù)字典包括該領(lǐng)域的標(biāo)準(zhǔn)字典庫；用例集包括用于計(jì)算使用質(zhì)量的測(cè)試用例;度量聚合庫包括用于度量的權(quán)重，說明各度量的重要程度，即度量之間的權(quán)重值。
[0046]接著，執(zhí)行步驟S130，抽樣數(shù)據(jù)集以確定待評(píng)估數(shù)據(jù)子集。即，利用數(shù)據(jù)抽樣方法將大數(shù)據(jù)集抽樣構(gòu)造出一個(gè)適合評(píng)估的數(shù)據(jù)子集，后續(xù)在這個(gè)數(shù)據(jù)子集上進(jìn)行度量計(jì)算。較佳地，采用層次抽樣法、系統(tǒng)抽樣法或隨機(jī)抽樣法對(duì)數(shù)據(jù)集進(jìn)行抽樣。其中，層次抽樣法是將數(shù)據(jù)集按照某種特征分成若干層，確定各層的總體數(shù)據(jù)容量，從每一層內(nèi)抽取一定數(shù)量的觀察數(shù)據(jù)，然后將每層抽取的觀察數(shù)據(jù)組合形成樣本。系統(tǒng)抽樣法是將數(shù)據(jù)等分成η個(gè)部分(η為總體數(shù)據(jù)量/樣本量)，然后從第一部分隨機(jī)抽第k號(hào)觀察單位，依次用相等間隔，機(jī)械地從每一部分各抽取一個(gè)觀察單位組成樣本。隨機(jī)抽樣法是遵循隨機(jī)的原則，采用不放回抽取方法，從總體中隨機(jī)抽取所需數(shù)量的觀察單位組成樣本。
[0047]然后，執(zhí)行步驟S140，根據(jù)待評(píng)估數(shù)據(jù)子集，評(píng)估度量和領(lǐng)域上下文計(jì)算基于評(píng)估度量得到的評(píng)估結(jié)果。在本發(fā)明的不同實(shí)施例中，計(jì)算得到評(píng)估結(jié)果可以根據(jù)評(píng)估度量的定義直接計(jì)算;或者根據(jù)評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè);或者采用人工評(píng)估方法。在下文中，將結(jié)合圖3A和圖3B進(jìn)行詳細(xì)說明。
[0048]最后，執(zhí)行步驟S150，根據(jù)每個(gè)評(píng)估度量的評(píng)估結(jié)果聚合和排序，獲得數(shù)據(jù)集的評(píng)估結(jié)果。例如，當(dāng)所有已選擇的評(píng)估度量計(jì)算完成之后，數(shù)據(jù)子集在每個(gè)評(píng)估度量上都有一個(gè)百分制的評(píng)分，然后將所有的評(píng)分聚合成一個(gè)最終的數(shù)據(jù)質(zhì)量評(píng)分，并將數(shù)據(jù)集按照評(píng)分進(jìn)行排序。較佳地，聚合排序包括三種方式，其一是按照領(lǐng)域上下文中由領(lǐng)域?qū)＜以O(shè)定的評(píng)分標(biāo)準(zhǔn)；其二是由數(shù)據(jù)評(píng)估者自己設(shè)定各個(gè)評(píng)估度量的權(quán)重；其三是使用機(jī)器學(xué)習(xí)的方法，基于上下文中各個(gè)維度的重要程度學(xué)習(xí)出權(quán)重。
[0049]圖2示出采用圖1的數(shù)據(jù)質(zhì)量評(píng)估方法的一較佳實(shí)施例。將圖2與圖1進(jìn)行比較，在該實(shí)施例中，其主要區(qū)別是在于，在步驟S130與步驟S140之間增加了步驟S160，采用模式對(duì)齊庫對(duì)待評(píng)估數(shù)據(jù)子集和領(lǐng)域上下文進(jìn)行模式對(duì)齊。即，模式對(duì)齊待評(píng)估數(shù)據(jù)子集和領(lǐng)域上下文，根據(jù)模式對(duì)齊庫中的字段映射關(guān)系，查找待評(píng)估數(shù)據(jù)子集和領(lǐng)域上下文，將存在映射關(guān)系的字段設(shè)置為同一字段。
[0050]在此，模式對(duì)齊庫的構(gòu)建過程如下:構(gòu)建同義詞庫，其包括中文同義詞庫、英文同義詞庫、中英文對(duì)照庫。當(dāng)數(shù)據(jù)供應(yīng)商提供的數(shù)據(jù)模式包含拼音或者拼音首字母時(shí)，還需要數(shù)據(jù)供應(yīng)商提供對(duì)應(yīng)的中文全稱并添加到同義詞庫中；利用同義詞庫，將兩個(gè)數(shù)據(jù)集模式中的字段都用統(tǒng)一的中文表示，然后計(jì)算兩個(gè)模式中字段的字符相似度和字段對(duì)應(yīng)的約束的相似度(如值域的相似度，數(shù)據(jù)類型的相似度等)；根據(jù)計(jì)算的相似度，找出兩個(gè)模式的字段之間相似度高的字段對(duì)，構(gòu)建出兩個(gè)模式字段之間的映射；由領(lǐng)域?qū)＜覍?duì)構(gòu)建的映射進(jìn)行審核和補(bǔ)充，剔除錯(cuò)誤的映射關(guān)系，獲得模式對(duì)齊庫。
[0051]由上述可知，根據(jù)已經(jīng)構(gòu)建的模式對(duì)齊庫將待評(píng)估數(shù)據(jù)子集和領(lǐng)域上下文對(duì)齊，可獲得更準(zhǔn)確的數(shù)據(jù)集和領(lǐng)域上下文，以確保相同含義不同名稱的字段對(duì)應(yīng)的數(shù)據(jù)有效且準(zhǔn)確地進(jìn)行評(píng)估。
[0052]圖3A示出圖1的數(shù)據(jù)質(zhì)量評(píng)估方法中，根據(jù)待評(píng)估數(shù)據(jù)子集、評(píng)估度量和領(lǐng)域上下文計(jì)算評(píng)估結(jié)果的第一實(shí)施例；
[0053]參照?qǐng)D3A，根據(jù)評(píng)估度量的度量公式，利用錯(cuò)誤數(shù)據(jù)進(jìn)行自動(dòng)檢測(cè)時(shí)，統(tǒng)計(jì)待評(píng)估數(shù)據(jù)子集中不滿足度量要求的數(shù)據(jù)，計(jì)算待評(píng)估數(shù)據(jù)子集的評(píng)估結(jié)果。該自動(dòng)檢測(cè)方法通過步驟S210?步驟S240實(shí)現(xiàn)，主要包括模板定義、模板實(shí)例化、執(zhí)行查詢得到錯(cuò)誤數(shù)據(jù)與計(jì)算評(píng)估結(jié)果。具體地，
[0054]在步驟S210中，定義模板一一定義待評(píng)估數(shù)據(jù)子集的字段約束或者字段之間約束的模板，如值域模板、比較模板、正則模板等。其中，值域模板說明某一字段的值應(yīng)該在某一個(gè)范圍內(nèi)，比如人的性別是男或女；比較模板說明一條記錄中的某一個(gè)字段值和另外一個(gè)字段值的大小關(guān)系，比如人的死亡日期要晚于其出生日期)；
[0055]在步驟S220中，模板實(shí)例化一一根據(jù)待評(píng)估數(shù)據(jù)子集中的具體數(shù)據(jù)對(duì)所定義的模板進(jìn)行實(shí)例化，生成可在待評(píng)估數(shù)據(jù)子集上進(jìn)行查詢的測(cè)試用例(SQL查詢)。在此，對(duì)模板進(jìn)行實(shí)例化生成測(cè)試用例有多種方式，包括:利用數(shù)據(jù)集中的模式來自動(dòng)生成測(cè)試用例;或者，由領(lǐng)域?qū)＜疫x擇相應(yīng)的模板，然后依據(jù)對(duì)數(shù)據(jù)集的了解對(duì)模板實(shí)例化，生成測(cè)試用例；或者，由領(lǐng)域?qū)＜視鴮懗瞿０?，然后?duì)模板實(shí)例化，得到測(cè)試用例；
[0056]在步驟S230中，執(zhí)行查詢得到錯(cuò)誤數(shù)據(jù)一一根據(jù)待評(píng)估數(shù)據(jù)子集執(zhí)行測(cè)試用例得到查詢結(jié)果，該查詢結(jié)果返回錯(cuò)誤數(shù)據(jù)。例如，執(zhí)行每一個(gè)測(cè)試用例有兩種不同的結(jié)果:沒有結(jié)果返回(正確)，如果有返回結(jié)果說明存在錯(cuò)誤的數(shù)據(jù)，并得到錯(cuò)誤數(shù)據(jù)；
[0057]在步驟S240中，計(jì)算評(píng)估結(jié)果一一根據(jù)錯(cuò)誤數(shù)據(jù)和評(píng)估度量的度量公式，計(jì)算基于該評(píng)估度量的評(píng)估結(jié)果。
[0058]圖3B示出圖1的數(shù)據(jù)質(zhì)量評(píng)估方法中，根據(jù)待評(píng)估數(shù)據(jù)子集、評(píng)估度量和領(lǐng)域上下文計(jì)算評(píng)估結(jié)果的第二實(shí)施例。
[0059]參照?qǐng)D3B，人工評(píng)估處理是根據(jù)評(píng)估度量和待評(píng)估數(shù)據(jù)子集，進(jìn)行人工評(píng)估處理，根據(jù)人工評(píng)估的評(píng)估結(jié)果，計(jì)算基于評(píng)估度量的評(píng)估結(jié)果。采用人工評(píng)估方式可通過步驟S310?步驟S340實(shí)現(xiàn)，主要包括任務(wù)分配、獲取人工評(píng)估結(jié)果、校正評(píng)估結(jié)果偏差和計(jì)算評(píng)估結(jié)果。具體地，
[0060]在步驟S310中，任務(wù)分配一一根據(jù)待評(píng)估數(shù)據(jù)子集和評(píng)估度量，將評(píng)估任務(wù)隨機(jī)分配給多名評(píng)估人員。例如，評(píng)估人員的數(shù)量大于或等于3名，且評(píng)估人員數(shù)為奇數(shù)；
[0061]在步驟S320中，獲取人工評(píng)估結(jié)果一一根據(jù)待評(píng)估數(shù)據(jù)子集的大小設(shè)置評(píng)估期間，諸如限定時(shí)間期間為4小時(shí)、8小時(shí)、24小時(shí)或48小時(shí)，在該時(shí)間內(nèi)獲取評(píng)估人員各自的評(píng)估結(jié)果。若超出時(shí)間范圍，該評(píng)估人員的評(píng)估任務(wù)取消；
[0062]在步驟S330中，校正評(píng)估結(jié)果偏差一一根據(jù)評(píng)估結(jié)果校正評(píng)估結(jié)果中的偏差，得到校正后的評(píng)估結(jié)果。如果評(píng)估結(jié)果中出現(xiàn)不一致的情況，即各評(píng)估結(jié)果的偏差大于或等于0.15時(shí)，則返回步驟S310重新進(jìn)行任務(wù)分配；
[0063]在步驟S340中，計(jì)算評(píng)估結(jié)果一一根據(jù)校正后的評(píng)估結(jié)果，計(jì)算平均值從而獲得基于評(píng)估度量的評(píng)估結(jié)果。
[0064]本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，在一些實(shí)施例中，還可采用圖3A和圖3B之外的其他計(jì)算評(píng)估結(jié)果的方式，例如直接計(jì)算方式一一根據(jù)待評(píng)估數(shù)據(jù)子集和評(píng)估度量的定義直接計(jì)算獲得該度量的評(píng)估結(jié)果。在度量的計(jì)算過程中，有些度量可以直接進(jìn)行計(jì)算，例如表的數(shù)量、實(shí)體的數(shù)量都直接通過計(jì)算機(jī)進(jìn)行統(tǒng)計(jì)即可。此外還可將直接計(jì)算方式、自動(dòng)檢測(cè)方式和人工評(píng)估方式綜合運(yùn)用。
[0065]圖4示出依據(jù)本發(fā)明的另一實(shí)施方式，基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備的結(jié)構(gòu)框圖。
[0066]參照?qǐng)D4，在該實(shí)施方式中，基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備包括展示模塊、選擇模塊、抽樣模塊、計(jì)算模塊和聚合排序模塊。
[0067]其中，展示模塊和選擇模塊既可獨(dú)立設(shè)置，也可集成于同一功能模塊，用于獲取待評(píng)估的數(shù)據(jù)集以及與之對(duì)應(yīng)的領(lǐng)域上下文，然后根據(jù)數(shù)據(jù)集和領(lǐng)域上下文選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度量。此外，如圖4所示，展示模塊還可提供輸入待評(píng)估數(shù)據(jù)集、評(píng)估度量和用戶配置參數(shù)的界面，并顯示接收到的評(píng)估結(jié)果及分析圖表，以及提供領(lǐng)域上下文的輸入和顯示界面。這里，領(lǐng)域上下文包括上下文名稱、參考模式、參考數(shù)據(jù)集、數(shù)據(jù)字典、度量聚合庫和用例庫。
[0068]抽樣模塊針對(duì)展示模塊獲得的待評(píng)估數(shù)據(jù)集進(jìn)行抽樣處理，從而得到待評(píng)估數(shù)據(jù)子集。計(jì)算模塊與抽樣模塊相連，用于根據(jù)待評(píng)估數(shù)據(jù)子集、評(píng)估度量和領(lǐng)域上下文，計(jì)算基于評(píng)估度量得到的評(píng)估結(jié)果。聚合排序模塊用于對(duì)評(píng)估結(jié)果進(jìn)行聚合和排序，以獲得數(shù)據(jù)集的評(píng)估結(jié)果。
[0069]相比于現(xiàn)有技術(shù)，本發(fā)明的基于上下文的數(shù)據(jù)質(zhì)量評(píng)估設(shè)備和方法根據(jù)所獲得的領(lǐng)域上下文和用戶所選擇的評(píng)估度量，對(duì)數(shù)據(jù)集抽樣得到的數(shù)據(jù)子集進(jìn)行評(píng)估，充分反映了用戶需求，能夠全面客觀對(duì)數(shù)據(jù)集進(jìn)行評(píng)估，并且獲得直觀且可對(duì)比的評(píng)估結(jié)果。
[0070]上文中，參照附圖描述了本發(fā)明的【具體實(shí)施方式】。但是，本領(lǐng)域中的普通技術(shù)人員能夠理解，在不偏離本發(fā)明的精神和范圍的情況下，還可以對(duì)本發(fā)明的【具體實(shí)施方式】作各種變更和替換。這些變更和替換都落在本發(fā)明權(quán)利要求書所限定的范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種計(jì)算機(jī)實(shí)現(xiàn)的基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的方法，其特征在于，該方法包括以下步驟:獲取待評(píng)估的數(shù)據(jù)集以及與所述數(shù)據(jù)集相對(duì)應(yīng)的領(lǐng)域上下文；根據(jù)所述數(shù)據(jù)集和所述領(lǐng)域上下文，選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度量；抽樣所述數(shù)據(jù)集，確定待評(píng)估數(shù)據(jù)子集；根據(jù)所述待評(píng)估數(shù)據(jù)子集、所述評(píng)估度量和所述領(lǐng)域上下文，計(jì)算基于所述評(píng)估度量所得到的評(píng)估結(jié)果；以及對(duì)所述評(píng)估結(jié)果進(jìn)行聚合和排序，以獲得所述數(shù)據(jù)集的評(píng)估結(jié)果。2.如權(quán)利要求1所述的方法，其特征在于，在抽樣所述數(shù)據(jù)集的步驟與計(jì)算評(píng)估結(jié)果的步驟之間，該方法還包括步驟:采用模式對(duì)齊庫對(duì)所述待評(píng)估數(shù)據(jù)子集和所述領(lǐng)域上下文進(jìn)行模式對(duì)齊。3.如權(quán)利要求1所述的方法，其特征在于，采用層次抽樣法、系統(tǒng)抽樣法或隨機(jī)抽樣法對(duì)所述數(shù)據(jù)集進(jìn)行抽樣以確定所述待評(píng)估數(shù)據(jù)子集。4.如權(quán)利要求1所述的方法，其特征在于，根據(jù)所述待評(píng)估數(shù)據(jù)子集、所述評(píng)估度量和所述領(lǐng)域上下文計(jì)算所述評(píng)估結(jié)果采用以下至少一種方式:-根據(jù)所述評(píng)估度量的定義直接計(jì)算；-根據(jù)所述評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè)；-人工評(píng)估。5.如權(quán)利要求4所述的方法，其特征在于，根據(jù)所述評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè) 包括:定義所述待評(píng)估數(shù)據(jù)子集的字段約束或字段之間約束的模板；根據(jù)所述待評(píng)估數(shù)據(jù)子集的具體數(shù)據(jù)對(duì)所定義的模板進(jìn)行實(shí)例化，生成用于在所述待評(píng)估數(shù)據(jù)子集進(jìn)行查詢的測(cè)試用例；執(zhí)行所述測(cè)試用例得到查詢結(jié)果，所述查詢結(jié)果返回錯(cuò)誤數(shù)據(jù)；以及根據(jù)所述錯(cuò)誤數(shù)據(jù)和所述評(píng)估度量的度量公式，計(jì)算所述評(píng)估結(jié)果。6.如權(quán)利要求4所述的方法，其特征在于，采用人工評(píng)估方式計(jì)算所述評(píng)估結(jié)果包括: 根據(jù)所述待評(píng)估數(shù)據(jù)子集和所述評(píng)估度量，將評(píng)估任務(wù)隨機(jī)分配給N名評(píng)估人員，N為大于或等于3的奇數(shù)；根據(jù)所述待評(píng)估數(shù)據(jù)子集的大小設(shè)置一評(píng)估期間，獲取所述評(píng)估人員在所述評(píng)估期間內(nèi)的各自評(píng)估結(jié)果；根據(jù)所述各自評(píng)估結(jié)果校正評(píng)估結(jié)果中的偏差，得到經(jīng)校正后的評(píng)估結(jié)果；以及根據(jù)校正后的所述評(píng)估結(jié)果，計(jì)算平均值從而獲得基于所述評(píng)估度量的評(píng)估結(jié)果。7.—種基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備，其特征在于，所述設(shè)備包括:展示模塊，用于獲取待評(píng)估的數(shù)據(jù)集以及與所述數(shù)據(jù)集相對(duì)應(yīng)的領(lǐng)域上下文；選擇模塊，用于根據(jù)所述數(shù)據(jù)集和所述領(lǐng)域上下文，選擇用于評(píng)估數(shù)據(jù)質(zhì)量的評(píng)估度量；抽樣模塊，用于抽樣所述數(shù)據(jù)集，確定待評(píng)估數(shù)據(jù)子集；計(jì)算模塊，用于根據(jù)所述待評(píng)估數(shù)據(jù)子集、所述評(píng)估度量和所述領(lǐng)域上下文，計(jì)算基于所述評(píng)估度量得到的評(píng)估結(jié)果；以及聚合排序模塊，用于對(duì)所述評(píng)估結(jié)果進(jìn)行聚合和排序，以獲得所述數(shù)據(jù)集的評(píng)估結(jié)果。8.如權(quán)利要求7所述的設(shè)備，其特征在于，所述設(shè)備還包括模式對(duì)齊模塊，用于根據(jù)模式對(duì)齊庫對(duì)所述待評(píng)估數(shù)據(jù)子集和所述領(lǐng)域上下文進(jìn)行模式對(duì)齊，得到對(duì)齊后的待評(píng)估數(shù) 據(jù)子集。9.如權(quán)利要求7或8所述的設(shè)備，其特征在于，所述計(jì)算模塊采用以下至少一種方式計(jì) 算所述評(píng)估結(jié)果:-根據(jù)所述評(píng)估度量的定義直接計(jì)算；-根據(jù)所述評(píng)估度量的度量公式進(jìn)行自動(dòng)檢測(cè)；-人工評(píng)估。10.如權(quán)利要求7所述的設(shè)備，其特征在于，所述領(lǐng)域上下文包括上下文名稱、參考模式、參考數(shù)據(jù)集、字典數(shù)據(jù)集、用例集和度量聚合庫。
【文檔編號(hào)】G06F17/30GK106056287SQ201610388931
【公開日】2016年10月26日
【申請(qǐng)日】2016年6月3日
【發(fā)明人】阮彤, 申翔宇, 葉琪, 李陽, 趙亮
【申請(qǐng)人】華東理工大學(xué), 上海數(shù)據(jù)交易中心有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：阮彤;申翔宇;葉琪;李陽;趙亮;
技術(shù)所有人：華東理工大學(xué);上海數(shù)據(jù)交易中心有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

設(shè)備上下文相關(guān)技術(shù)

dc設(shè)備上下文相關(guān)技術(shù)

設(shè)備上下文環(huán)境相關(guān)技術(shù)

設(shè)備評(píng)估報(bào)告相關(guān)技術(shù)

設(shè)備評(píng)估相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于上下文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估的設(shè)備及方法