亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

創(chuàng)建基準(zhǔn)圖數(shù)據(jù)的制作方法

文檔序號(hào):6494736閱讀:438來源:國知局
創(chuàng)建基準(zhǔn)圖數(shù)據(jù)的制作方法
【專利摘要】根據(jù)本原理的一個(gè)方面,提供一種用于生成資源描述框架基準(zhǔn)的方法。所述方法包括:從具有給定大小和給定一致性的輸入數(shù)據(jù)集并針對(duì)該輸入數(shù)據(jù)集,獲得(350)具有用戶指定大小和用戶指定一致性的結(jié)果基準(zhǔn)數(shù)據(jù)集,方式為:確定(340)為了獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集,要將哪些主題-屬性-對(duì)象三元組添加到所述輸入數(shù)據(jù)集或者要從所述輸入數(shù)據(jù)集刪除哪些主題-屬性-對(duì)象三元組。
【專利說明】創(chuàng)建基準(zhǔn)圖數(shù)據(jù)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般地涉及資源描述框架數(shù)據(jù),更具體地說,涉及創(chuàng)建基準(zhǔn)(benchmark)圖數(shù)據(jù)。
【背景技術(shù)】
[0002]RDF (資源描述框架)迅速成為信息表示和交換的實(shí)際標(biāo)準(zhǔn)。這一點(diǎn)在最近的鏈接開放數(shù)據(jù)(LOD)計(jì)劃中得到了最突出的體現(xiàn),其中相互鏈接來自不同域(如地理位置、人員、公司、書籍、電影、科學(xué)數(shù)據(jù)(基因、蛋白質(zhì)、藥物)、統(tǒng)計(jì)數(shù)據(jù)等)的數(shù)據(jù)以便提供一個(gè)大型數(shù)據(jù)云。到2010年10月為止,這種云包括大約200個(gè)數(shù)據(jù)源,總計(jì)貢獻(xiàn)250億個(gè)RDF三元組(triple)。但是,對(duì)RDF的接受并不限于網(wǎng)絡(luò)上提供的開放數(shù)據(jù)。政府也采用RDF。許多大型公司和組織使用RDF作為業(yè)務(wù)數(shù)據(jù)表示格式,用于語義數(shù)據(jù)集成、搜索引擎優(yōu)化和更好的產(chǎn)品搜索,或者用于來自信息提取的數(shù)據(jù)表示。實(shí)際上,隨著GOOGLE和YAHOO將RDF推廣用于搜索引擎優(yōu)化,這顯然激勵(lì)其在網(wǎng)絡(luò)上的發(fā)展。
[0003]RDF廣為接受的一個(gè)主要原因是其固有的靈活性:范圍從結(jié)構(gòu)化數(shù)據(jù)(例如,DBLP)到非結(jié)構(gòu)化數(shù)據(jù)(例如,WIKIPEDIA/DBpedia)的一組多樣數(shù)據(jù)都可以以RDF表示。傳統(tǒng)上,當(dāng)確定適當(dāng)?shù)臄?shù)據(jù)表示格式(例如,針對(duì)結(jié)構(gòu)化數(shù)據(jù)使用關(guān)系模型,針對(duì)半結(jié)構(gòu)化數(shù)據(jù)使用XML)時(shí),數(shù)據(jù)集的結(jié)構(gòu)性(structuredness)(在此定義為指結(jié)構(gòu)數(shù)量(如果有))是一個(gè)關(guān)鍵的考慮因素。這種選擇又在很大程度上確定如何組織數(shù)據(jù)(例如,針對(duì)關(guān)系模型和XML使用依賴?yán)碚摵驼?guī)形式)。當(dāng)確定如何索引數(shù)據(jù)(例如,針對(duì)關(guān)系數(shù)據(jù)使用B+樹索引,針對(duì)XML使用基于編號(hào)方案的索引)時(shí),它起著極其重要的作用。結(jié)構(gòu)性還影響如何查詢數(shù)據(jù)(例如,針對(duì)關(guān)系數(shù)據(jù)使用SQL,針對(duì)XML使用XPath/XQuery)。換言之,數(shù)據(jù)結(jié)構(gòu)性滲入數(shù)據(jù)管理的每個(gè)方面,因此通常針對(duì)具有預(yù)期結(jié)構(gòu)性級(jí)別的數(shù)據(jù)衡量數(shù)據(jù)管理系統(tǒng)的性能(例如,針對(duì)關(guān)系數(shù)據(jù)使用TPC-H基準(zhǔn),針對(duì)XML數(shù)據(jù)使用XMark基準(zhǔn))。RDF的主要優(yōu)勢是它可以用于跨整個(gè)結(jié)構(gòu)性范圍(從非結(jié)構(gòu)化到結(jié)構(gòu)化)準(zhǔn)確地表示數(shù)據(jù)。但是,RDF的這種靈活性要付出代價(jià)。如果模糊結(jié)構(gòu)性界限,則RDF數(shù)據(jù)的管理成為一項(xiàng)挑戰(zhàn),因?yàn)镽DF DBMS不能先驗(yàn)做出關(guān)于要管理哪種(哪些)類型數(shù)據(jù)的假設(shè)。不同于關(guān)系和XML情況,RDF DBMS具有繁重的要求,即應(yīng)該針對(duì)非常多樣化的數(shù)據(jù)集(就結(jié)構(gòu)性而言)測試其性能。
[0004]目前提供了若干RDF數(shù)據(jù)管理系統(tǒng)(又稱為RDF存儲(chǔ))。還存在支持通過關(guān)系(列)存儲(chǔ)進(jìn)行RDF存儲(chǔ)的研究原型。為了測試這些RDF存儲(chǔ)的性能,還開發(fā)了多個(gè)RDF基準(zhǔn)。同樣為了測試RDF存儲(chǔ),已普及使用某些實(shí)際數(shù)據(jù)集。盡管現(xiàn)有基準(zhǔn)主要集中于RDF存儲(chǔ)在可擴(kuò)展性方面的性能(即,被測試RDF數(shù)據(jù)中的三元組數(shù)量),但自然要問的問題是實(shí)際針對(duì)哪些類型的RDF數(shù)據(jù)測試這些RDF存儲(chǔ)。即,需要調(diào)查:(a)現(xiàn)有性能測試是否限于結(jié)構(gòu)性范圍的特定區(qū)域;以及(b)范圍中的這些被測試區(qū)域是什么。為此并且具體地說,我們表明
(i)每個(gè)基準(zhǔn)數(shù)據(jù)集的結(jié)構(gòu)性實(shí)際是固定的;以及(ii)即使針對(duì)完整可用基準(zhǔn)數(shù)據(jù)集測試存儲(chǔ),這些測試也僅僅覆蓋結(jié)構(gòu)性范圍的一小部分。但是,我們表明許多實(shí)際RDF數(shù)據(jù)集當(dāng)前位于范圍的未測試部分中。
【發(fā)明內(nèi)容】

[0005]根據(jù)本原理的一個(gè)方面,提供一種用于生成資源描述框架基準(zhǔn)的方法。所述方法包括:從具有給定大小和給定一致性的輸入數(shù)據(jù)集并針對(duì)該輸入數(shù)據(jù)集,獲得具有用戶指定大小和用戶指定一致性的結(jié)果基準(zhǔn)數(shù)據(jù)集,方式為:確定為了獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集,要將哪些主題-屬性-對(duì)象三元組添加到所述輸入數(shù)據(jù)集或者要從所述輸入數(shù)據(jù)集刪除哪些主題-屬性-對(duì)象三元組。
[0006]根據(jù)本原理的另一個(gè)方面,提供另一種用于生成資源描述框架基準(zhǔn)的方法。所述方法包括從具有給定大小和給定一致性的輸入數(shù)據(jù)集并針對(duì)該輸入數(shù)據(jù)集,獲得具有用戶指定大小和用戶指定一致性的結(jié)果基準(zhǔn)數(shù)據(jù)集。所述獲得步驟包括計(jì)算相應(yīng)硬幣,每個(gè)硬幣表示相應(yīng)值,當(dāng)分別向所述輸入數(shù)據(jù)集添加或從所述輸入數(shù)據(jù)集刪除具有是多個(gè)類型集中的類型實(shí)例的主題和具有等于特定屬性集的屬性的所有主題-屬性-對(duì)象三元組時(shí),針對(duì)獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集而使用所述相應(yīng)值增加或減小所述輸入數(shù)據(jù)集的一致性。針對(duì)所述多個(gè)類型集中的僅一個(gè)相應(yīng)類型集中的所有類型和針對(duì)所述特定屬性集中的僅一個(gè)相應(yīng)屬性而計(jì)算每個(gè)所述相應(yīng)硬幣。所述獲得步驟還包括確定為了獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集,要添加到所述輸入數(shù)據(jù)集或從所述輸入數(shù)據(jù)集刪除的三元組數(shù)量,該三元組數(shù)量由所述相應(yīng)硬幣表示。所述獲得步驟還包括將所確定數(shù)量的三元組添加到所述輸入數(shù)據(jù)集或從所述輸入數(shù)據(jù)集刪除所確定數(shù)量的三元組,以便獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集。
[0007]根據(jù)本原理的另一個(gè)方面,提供相應(yīng)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述相應(yīng)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括相應(yīng)計(jì)算機(jī)可讀程序,當(dāng)所述相應(yīng)計(jì)算機(jī)可讀程序在計(jì)算機(jī)上執(zhí)行時(shí),導(dǎo)致所述計(jì)算機(jī)執(zhí)行上述方法的相應(yīng)步驟。
[0008]根據(jù)本原理的另一個(gè)方面,提供一種用于從具有給定大小和給定一致性的輸入數(shù)據(jù)集并針對(duì)所述輸入數(shù)據(jù)集而獲得結(jié)果基準(zhǔn)數(shù)據(jù)集的系統(tǒng)。所述系統(tǒng)包括硬幣計(jì)算器,其用于計(jì)算相應(yīng)硬幣,每個(gè)硬幣表示相應(yīng)值,當(dāng)分別向所述輸入數(shù)據(jù)集添加或從所述輸入數(shù)據(jù)集刪除具有是多個(gè)類型集中的類型實(shí)例的主題和具有等于特定屬性集的屬性的所有主題-屬性-對(duì)象三元組時(shí),針對(duì)獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集而使用所述相應(yīng)值增加或減小所述輸入數(shù)據(jù)集的一致性。針對(duì)所述多個(gè)類型集中的僅一個(gè)相應(yīng)類型集中的所有類型和針對(duì)所述特定屬性集中的僅一個(gè)相應(yīng)屬性而計(jì)算每個(gè)所述相應(yīng)硬幣。所述系統(tǒng)還包括三元組數(shù)量確定器,其用于確定為了獲得具有用戶指定大小和用戶指定一致性的所述結(jié)果基準(zhǔn)數(shù)據(jù)集,要添加到所述輸入數(shù)據(jù)集或從所述輸入數(shù)據(jù)集刪除的三元組數(shù)量,該三元組數(shù)量由所述相應(yīng)硬幣表示。所述系統(tǒng)還包括三元組修改器,其用于將所確定數(shù)量的三元組添加到所述輸入數(shù)據(jù)集或從所述輸入數(shù)據(jù)集刪除所確定數(shù)量的三元組,以便獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集。
[0009]從以下將結(jié)合附圖閱讀的對(duì)示例性實(shí)施例的詳細(xì)描述,這些和其它特性和優(yōu)點(diǎn)將變得顯而易見。
【專利附圖】

【附圖說明】
[0010]本公開將參考附圖在【具體實(shí)施方式】中提供詳細(xì)信息,這些附圖是:
[0011]圖1是示出根據(jù)本原理的一個(gè)實(shí)施例的可以應(yīng)用本原理的示例性計(jì)算機(jī)處理系統(tǒng)100的框圖;
[0012]圖2示出根據(jù)本原理的一個(gè)實(shí)施例的用于生成資源描述框架基準(zhǔn)的示例性系統(tǒng)200 ;
[0013]圖3是示出根據(jù)本原理的一個(gè)實(shí)施例的用于生成資源描述框架基準(zhǔn)的示例性方法300的流程圖;
[0014]圖4是示出根據(jù)本原理的一個(gè)實(shí)施例的用于收集輸入數(shù)據(jù)集的度量的示例性方法400的流程圖;
[0015]圖5是根據(jù)本原理的一個(gè)實(shí)施例的可以應(yīng)用本原理的數(shù)據(jù)集D的表示500 ;
[0016]圖6是根據(jù)本原理的一個(gè)實(shí)施例的可以應(yīng)用本原理的數(shù)據(jù)集D’的表示600 ;
[0017]圖7是根據(jù)本原理的一個(gè)實(shí)施例的特定屬性P在數(shù)據(jù)集Dm中的類型Tm的所有實(shí)例中設(shè)置其值的次數(shù)的圖700 ;以及
[0018]圖8是示出根據(jù)本原理的一個(gè)實(shí)施例的用于生成資源描述框架基準(zhǔn)的另一個(gè)示例性方法800的流程圖。
【具體實(shí)施方式】
[0019]如上所述,本原理涉及創(chuàng)建基準(zhǔn)圖數(shù)據(jù)??紤]到現(xiàn)有技術(shù)的上述缺點(diǎn),并且因此為了擴(kuò)展基準(zhǔn)以覆蓋結(jié)構(gòu)性范圍,引入一種新的基準(zhǔn)數(shù)據(jù)生成器,其具有以下獨(dú)有的特性:我們的生成器接受任何數(shù)據(jù)集(例如,從任何現(xiàn)有基準(zhǔn)生成的數(shù)據(jù)集,或者任何實(shí)際數(shù)據(jù)集)以及所需級(jí)別的結(jié)構(gòu)性和大小作為輸入,并使用輸入數(shù)據(jù)集作為種子以便生成具有所指示大小和結(jié)構(gòu)性的數(shù)據(jù)集。我們的數(shù)據(jù)生成器具有較之現(xiàn)有生成器的多個(gè)優(yōu)點(diǎn)。第一個(gè)明顯的優(yōu)點(diǎn)是我們的生成器完全控制已生成數(shù)據(jù)的結(jié)構(gòu)性和大小。不同于其數(shù)據(jù)域和附帶查詢固定的現(xiàn)有基準(zhǔn)生成器(例如,LUBM考慮以下模式:其包括教授、學(xué)生和課程等,以及針對(duì)已生成數(shù)據(jù)的14個(gè)固定查詢),我們的生成器允許用戶挑選他們所選的數(shù)據(jù)集和查詢,并且通過這些數(shù)據(jù)集和查詢系統(tǒng)地創(chuàng)建基準(zhǔn)。通過固定輸入數(shù)據(jù)集和輸出大小,并且通過更改結(jié)構(gòu)性的值,用戶可以跨任何所需級(jí)別的結(jié)構(gòu)性來測試系統(tǒng)的性能。同時(shí),通過考慮備選數(shù)據(jù)集大小,用戶可以執(zhí)行類似于當(dāng)前基準(zhǔn)執(zhí)行的可擴(kuò)展性測試。通過能夠使用各種輸入數(shù)據(jù)集(并且因此使用各種數(shù)據(jù)和值分布,以及查詢工作負(fù)載)執(zhí)行上述全部操作,我們的基準(zhǔn)生成器可以用于沿著多個(gè)獨(dú)立維度對(duì)系統(tǒng)性能進(jìn)行廣泛的系統(tǒng)測試。
[0020]因此,在開始就指出,盡管在此提供的有關(guān)從輸入數(shù)據(jù)集獲得結(jié)果基準(zhǔn)數(shù)據(jù)集的多個(gè)實(shí)例涉及針對(duì)輸入數(shù)據(jù)集具有較小大小和/或較小一致性中的至少一個(gè)的結(jié)果基準(zhǔn)數(shù)據(jù)集,但本原理并沒有同樣的限制。即,本原理應(yīng)用于針對(duì)輸入數(shù)據(jù)集增加或減小結(jié)果基準(zhǔn)數(shù)據(jù)集的大小和一致性的之一或兩者。因此,特別是有關(guān)在此給出的涉及減小結(jié)果基準(zhǔn)數(shù)據(jù)集的大小和/或一致性的某些實(shí)例和等式,只需進(jìn)行實(shí)例和等式的反轉(zhuǎn)即可很容易提供對(duì)應(yīng)的解決方案,以便增加結(jié)果基準(zhǔn)數(shù)據(jù)集的大小和/或一致性,如所屬【技術(shù)領(lǐng)域】的技術(shù)人員顯而易見的那樣。
[0021]除了在RDF基準(zhǔn)領(lǐng)域中的實(shí)際貢獻(xiàn)之外,本原理還具有明確的技術(shù)方面。更詳細(xì)地說,到目前為止以非常直觀的方式提出了結(jié)構(gòu)性的概念。在此,提供正式的結(jié)構(gòu)性定義,并且表明可以如何測量特定集合的結(jié)構(gòu)化。生成具有不同大小和結(jié)構(gòu)性級(jí)別的數(shù)據(jù)集提出它自己的挑戰(zhàn)。如我們表明的,一個(gè)主要挑戰(zhàn)是由于在數(shù)據(jù)大小和結(jié)構(gòu)性之間具有交互的事實(shí)而導(dǎo)致的:改變數(shù)據(jù)集的大小可以影響其結(jié)構(gòu)性,并且相應(yīng)地改變數(shù)據(jù)集的結(jié)構(gòu)性可以影響其大小。因此,如果給出輸入數(shù)據(jù)集以及輸出數(shù)據(jù)集的所需大小和結(jié)構(gòu)性,則直到達(dá)到所需的輸出大小,才能在輸入數(shù)據(jù)集中任意添加/刪除三元組。這種方法不提供關(guān)于輸出數(shù)據(jù)集結(jié)構(gòu)性的保證,并且?guī)缀醣WC導(dǎo)致具有不同于所需的結(jié)構(gòu)性的輸出數(shù)據(jù)集。同樣,直到達(dá)到所需的級(jí)別,才能調(diào)整輸入數(shù)據(jù)集的結(jié)構(gòu)性,因?yàn)樵撨^程再次幾乎保證導(dǎo)致具有不正確大小的數(shù)據(jù)集。但是,我們表明用于基準(zhǔn)生成問題的解決方案以兩個(gè)目標(biāo)函數(shù)的形式呈現(xiàn),一個(gè)用于結(jié)構(gòu)性,一個(gè)用于大小,并且問題形成為整數(shù)編程問題。
[0022]因此,引入正式的結(jié)構(gòu)性定義,并建議將其用作RDF數(shù)據(jù)表征的度量之一。使用結(jié)構(gòu)性度量,我們表明現(xiàn)有基準(zhǔn)僅覆蓋結(jié)構(gòu)性范圍的較小區(qū)域,其與實(shí)際RDF數(shù)據(jù)覆蓋的范圍幾乎沒有重疊。
[0023]我們開發(fā)一種原則性的通用技術(shù),以便生成沿著結(jié)構(gòu)性和大小維度獨(dú)立變化的RDF基準(zhǔn)數(shù)據(jù)集。我們表明不同于現(xiàn)有基準(zhǔn),我們的基準(zhǔn)生成器可以輸出類似于實(shí)際數(shù)據(jù)集的數(shù)據(jù)集(不僅在結(jié)構(gòu)性方面類似,而且在內(nèi)容方面也類似)。這是可行的,因?yàn)槲覀兊纳善骺梢允褂萌魏螖?shù)據(jù)集作為輸入(實(shí)際或合成)并根據(jù)輸入生成基準(zhǔn)。
[0024]所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明的各個(gè)方面可以實(shí)現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明的各個(gè)方面可以具體實(shí)現(xiàn)為以下形式,即:完全的硬件實(shí)施方式、完全的軟件實(shí)施方式(包括固件、駐留軟件、微代碼等),或硬件和軟件方面結(jié)合的實(shí)施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。此外,本發(fā)明的各個(gè)方面還可以實(shí)現(xiàn)為在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介質(zhì)中包含計(jì)算機(jī)可讀的程序代碼。
[0025]可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是一但不限于一電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者上述的任意合適的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器(EPR0M或閃存)、光纖、便攜式緊湊盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)設(shè)備、磁存儲(chǔ)設(shè)備、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
[0026]計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括例如在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括一但不限于一電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
[0027]計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一但不限于一無線、有線、光纜、RF等等,或者上述的任意合適的組合。
[0028]可以以一種或多種程序設(shè)計(jì)語言的任意組合來編寫用于執(zhí)行本發(fā)明的各個(gè)方面的操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言一諸如Java、Smalltalk、C++等,還包括常規(guī)的過程式程序設(shè)計(jì)語言一諸如“C”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN) —連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
[0029]下面參照根據(jù)本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明的各個(gè)方面。應(yīng)當(dāng)理解,流程圖和/或框圖的每個(gè)方框以及流程圖和/或框圖中各方框的組合,都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,使得這些指令在通過計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器執(zhí)行時(shí),產(chǎn)生了實(shí)現(xiàn)流程圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的裝置。
[0030]也可以把這些計(jì)算機(jī)程序指令存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,這些指令使得計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備以特定方式工作,從而,存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令就產(chǎn)生出包括實(shí)現(xiàn)流程圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的指令的制造品(article of manufacture)0
[0031]也可以把計(jì)算機(jī)程序指令加載到計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備上,使得在計(jì)算機(jī)、其它可編程裝置或其它設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過程,從而使得在計(jì)算機(jī)或其它可編程裝置上執(zhí)行的指令提供實(shí)現(xiàn)流程圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的過程。
[0032]附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的不同實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系結(jié)構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動(dòng)作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。
[0033]圖1是示出根據(jù)本原理的一個(gè)實(shí)施例的可以應(yīng)用本原理的示例性計(jì)算機(jī)處理系統(tǒng)100的框圖。計(jì)算機(jī)處理系統(tǒng)100包括至少一個(gè)處理器(CPU) 102,其在運(yùn)行上通過系統(tǒng)總線104連接到其它組件。只讀存儲(chǔ)器(ROM) 106、隨機(jī)存取存儲(chǔ)器(RAM) 108、顯示適配器110、1/0適配器112、用戶接口適配器114和網(wǎng)絡(luò)適配器198在運(yùn)行上連接到系統(tǒng)總線104。
[0034]顯示設(shè)備116在運(yùn)行上通過顯示適配器110連接到系統(tǒng)總線104。磁盤存儲(chǔ)設(shè)備(例如,磁盤或光盤存儲(chǔ)設(shè)備)118在運(yùn)行上通過I/O適配器112連接到系統(tǒng)總線104。
[0035]鼠標(biāo)120和鍵盤122在運(yùn)行上通過用戶接口適配器114連接到系統(tǒng)總線104。鼠標(biāo)120和鍵盤122用于向系統(tǒng)100輸入信息和從系統(tǒng)100輸出信息。
[0036](數(shù)字和/或模擬、有線和/或無線)調(diào)制解調(diào)器196在運(yùn)行上通過網(wǎng)絡(luò)適配器198連接到系統(tǒng)總線104。
[0037]當(dāng)然,計(jì)算機(jī)處理系統(tǒng)100還可以包括其它元件(未示出),包括一但不限于一聲音適配器和對(duì)應(yīng)的揚(yáng)聲器(多個(gè))等,并且很容易由所屬【技術(shù)領(lǐng)域】的技術(shù)人員所構(gòu)想。[0038]圖2示出根據(jù)本原理的一個(gè)實(shí)施例的用于生成資源描述框架基準(zhǔn)的示例性系統(tǒng)200。
[0039]系統(tǒng)200包括一致性計(jì)算器210、硬幣計(jì)算器220、三元組數(shù)量確定器(例如,其可以包括但不限于整數(shù)編程求解器)230和硬幣(三元組)修改器(添加器/刪除器)240。盡管在此詳細(xì)描述了上述元件執(zhí)行的功能,但我們專門針對(duì)系統(tǒng)200的元件220指向下面描述的圖3的方法300的步驟330、針對(duì)系統(tǒng)200的元件230指向方法300的步驟340,以及針對(duì)系統(tǒng)200的元件240指向方法300的步驟350。此外,我們專門針對(duì)系統(tǒng)200的元件210和220指向下面描述的圖8的方法800的步驟810、針對(duì)系統(tǒng)200的元件230指向方法800的步驟820,以及針對(duì)系統(tǒng)200的元件240指向方法800的步驟840。
[0040]應(yīng)當(dāng)理解,系統(tǒng)200可以由計(jì)算機(jī)處理系統(tǒng)(例如針對(duì)圖1示出和描述的計(jì)算機(jī)處理系統(tǒng)100)實(shí)現(xiàn)。此外,應(yīng)當(dāng)理解,計(jì)算機(jī)處理系統(tǒng)100的選擇元件可以包含在系統(tǒng)200的一個(gè)或多個(gè)元件中。例如,處理器和必需存儲(chǔ)器可以包括在系統(tǒng)200的一個(gè)或多個(gè)元件中,或者可以在一個(gè)或多個(gè)這種元件之間分布。無論如何,在系統(tǒng)200的任何實(shí)現(xiàn)中都使用這種必需處理和存儲(chǔ)器硬件,而不考慮使用哪些元件和/或以其他方式包括相同元件。給予了在此提供的本原理的教導(dǎo)后,應(yīng)當(dāng)理解,所屬【技術(shù)領(lǐng)域】和相關(guān)【技術(shù)領(lǐng)域】的技術(shù)人員將很容易構(gòu)想系統(tǒng)200的這些和其它變化和實(shí)現(xiàn),同時(shí)保持本原理的精神。
[0041]圖3是示出根據(jù)本原理的一個(gè)實(shí)施例的用于生成資源描述框架基準(zhǔn)的示例性方法300的流程圖。具體地說,所述方法從具有給定大小和給定一致性的輸入數(shù)據(jù)集并針對(duì)所述輸入數(shù)據(jù)集,獲得具有用戶指定的較小大小和用戶指定的較小一致性的結(jié)果基準(zhǔn)數(shù)據(jù)集。
[0042]因此,在步驟310,提供(輸入)具有給定大小和給定一致性的輸入數(shù)據(jù)集。在步驟320,針對(duì)關(guān)于輸入文件的結(jié)果基準(zhǔn)數(shù)據(jù)集輸入用戶指定大小和用戶指定一致性。
[0043]在步驟330,計(jì)算相應(yīng)硬幣,每個(gè)硬幣表示相應(yīng)值,當(dāng)分別向所述輸入數(shù)據(jù)集添加或從所述輸入數(shù)據(jù)集刪除具有是多個(gè)類型集中的類型實(shí)例的主題和具有等于特定屬性集的屬性的所有主題-屬性-對(duì)象三元組時(shí),針對(duì)獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集而使用所述相應(yīng)值增加或減小所述輸入數(shù)據(jù)集的一致性。具體地說,針對(duì)所述多個(gè)類型集中的僅一個(gè)相應(yīng)類型集中的所有類型和針對(duì)所述特定屬性集中的僅一個(gè)相應(yīng)屬性而計(jì)算每個(gè)所述相應(yīng)硬幣。
[0044]在步驟340,使用整數(shù)編程問題確定要添加到所述輸入數(shù)據(jù)集或者從所述輸入數(shù)據(jù)集刪除以獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集的由相應(yīng)硬幣表示的三元組數(shù)量。關(guān)于步驟340,使用整數(shù)編程問題可以包括和/或以其他方式涉及形成一個(gè)或多個(gè)約束和/或一個(gè)或多個(gè)目標(biāo)函數(shù),以便確定要?jiǎng)h除的三元組數(shù)量。
[0045]在步驟350,將所確定數(shù)量的三元組添加到所述輸入數(shù)據(jù)集或從所述輸入數(shù)據(jù)集刪除所確定數(shù)量的三元組,以便獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集。在添加三元組的情況下,新三元組可以包括從所述輸入數(shù)據(jù)集中的現(xiàn)有主題、屬性或?qū)ο笾但@得的主題、屬性或?qū)ο笾?,或者它們可以包括不存在于所述輸入?shù)據(jù)集中的(新)發(fā)明的主題、屬性或?qū)ο笾怠?br> [0046]我們注意到,在下面進(jìn)一步詳細(xì)地描述方法300的上述每個(gè)步驟。
[0047]我們進(jìn)一步注意到,關(guān)于步驟330,在本原理的其它實(shí)施例中,如所屬【技術(shù)領(lǐng)域】的普通技術(shù)人員很容易構(gòu)想的,不需要針對(duì)多個(gè)類型集的僅一個(gè)相應(yīng)類型集中的所有類型和針對(duì)特定屬性集中的僅一個(gè)相應(yīng)屬性計(jì)算每個(gè)相應(yīng)硬幣。即,還可以根據(jù)本原理的教導(dǎo)使用上述變化,同時(shí)保持本原理的精神。例如,可以僅針對(duì)類型子集或者僅針對(duì)特定類型的屬性子集計(jì)算硬幣。通過這種方式,用戶可以指定不針對(duì)其計(jì)算硬幣的類型或?qū)傩詫⒈3滞暾?,并且將不受任何進(jìn)一步的大小或一致性更改的影響。
[0048]此外,關(guān)于步驟340,我們注意到本原理并不限于使用整數(shù)編程問題,因此,給予了在此提供的本原理的教導(dǎo)后,所屬【技術(shù)領(lǐng)域】的普通技術(shù)人員將很容易構(gòu)想其它方法,以便在結(jié)果基準(zhǔn)數(shù)據(jù)集中執(zhí)行所需的大小和一致性更改,同時(shí)保持本原理的精神。在這些情況下,當(dāng)使用其它方法時(shí),可以使用和/或代替和/或刪除在此針對(duì)整數(shù)編程問題描述的約束等。最后,目標(biāo)是修改輸入數(shù)據(jù)集,以便獲得具有不同于輸入數(shù)據(jù)集的用戶指定大小和/或用戶指定一致性的結(jié)果基準(zhǔn)數(shù)據(jù)集。
[0049]數(shù)據(jù)集
[0050]如在此所述的,本原理有利地應(yīng)用于實(shí)際或基準(zhǔn)數(shù)據(jù)集。實(shí)際數(shù)據(jù)集的實(shí)例例如包括一但不限于一DBpedia數(shù)據(jù)集、UniPiOt數(shù)據(jù)集、YAGO數(shù)據(jù)集、巴頓圖書館數(shù)據(jù)集、詞匯網(wǎng)絡(luò)數(shù)據(jù)集和Linked Sensor數(shù)據(jù)集?;鶞?zhǔn)數(shù)據(jù)集的實(shí)例例如包括一但不限于一TPC基準(zhǔn)H(TPC-H)數(shù)據(jù)集、柏林SPARQL基準(zhǔn)(BSBM)數(shù)據(jù)集、里海大學(xué)基準(zhǔn)(LUBM)數(shù)據(jù)集和SP2Bench基準(zhǔn)數(shù)據(jù)。上述和/或其它數(shù)據(jù)集可以用作針對(duì)本原理的輸入數(shù)據(jù)集。
[0051]圖4是示出根據(jù)本原理的一個(gè)實(shí)施例的用于收集輸入數(shù)據(jù)集的度量的示例性方法400的流程圖。在步驟410,將輸入數(shù)據(jù)集的所有三元組組裝成單個(gè)文件,稱為SDF.rdf(單個(gè)數(shù)據(jù)集文件)。在步驟420,執(zhí)行數(shù)據(jù)清理和規(guī)范化。在步驟430,我們通過分別沿著SDF.nt中的三元組的主題、屬性和對(duì)象單獨(dú)對(duì)文件SDF.nt進(jìn)行排序,生成三個(gè)新文件,即SDF_subj.nt、SDF_prop.nt和SDF_obj.nt。在步驟440,我們選擇在上一步驟中生成的SDF_sub j.nt文件,并使用它提取當(dāng)前(S卩,輸入)數(shù)據(jù)集的類型系統(tǒng)。在步驟450,我們使用文件SDF_subj.nt、文件SDF_prop.nt和文件SDF_obj.nt收集相應(yīng)的度量。
[0052]現(xiàn)在將進(jìn)一步詳細(xì)地描述方法400中的每個(gè)步驟。
[0053]步驟410。對(duì)于某些數(shù)據(jù)集(例如,LUBM),數(shù)據(jù)集三元組跨(大)量文件分布。因此,我們過程中的第一步驟是將所有三元組組裝成單個(gè)文件。之后,我們使用數(shù)據(jù)集無關(guān)文件名稱SDF.rdf (單個(gè)數(shù)據(jù)集文件)以指該文件。
[0054]步驟420。我們還執(zhí)行某些數(shù)據(jù)清理和規(guī)范化。更詳細(xì)地說,某些實(shí)際數(shù)據(jù)集包括小百分比的具有句法錯(cuò)誤的三元組。在該階段,我們標(biāo)識(shí)這種三元組,并且如果修復(fù)顯而易見(例如,缺少引號(hào)或尖括號(hào)),則糾正句法,或者當(dāng)三元組中的信息不完整時(shí),不予考慮三元組。我們還刪除具體化形式的三元組(例如,如在UniProt中)并規(guī)范化所有數(shù)據(jù)集,為此將它們?nèi)哭D(zhuǎn)換為N-三元組格式,這是純文本RDF格式,其中文本中的每行對(duì)應(yīng)于一個(gè)三元組,每個(gè)三元組通過由空格分隔的主題、屬性和對(duì)象表示,并且行以句號(hào)結(jié)束。我們將SDF.nt稱為具有文件SDF.rdf的N-三元組表示的文件。
[0055]步驟430。我們通過沿著SDF.nt中的三元組的主題、屬性和對(duì)象單獨(dú)對(duì)文件SDF.nt進(jìn)行排序,生成三個(gè)新文件,即SDF_subj.nt、SDF_prop.nt和SDF_obj.nt。每個(gè)有序輸出文件可用于收集的不同類型度量,并且排序的優(yōu)點(diǎn)是可以通過形成排序文件的單通道來收集對(duì)應(yīng)的度量。盡管排序可簡化度量的計(jì)算成本,但具有相當(dāng)大的初始開銷,因?yàn)閷?duì)于占用磁盤上許多千兆字節(jié)(GB)的具有數(shù)十億個(gè)三元組的排序文件,需要大量存儲(chǔ)器和處理能力(對(duì)于某些數(shù)據(jù)集,每個(gè)單獨(dú)排序在具有24GB存儲(chǔ)器和6TB磁盤空間的雙處理器服務(wù)器中都需要兩天以上的時(shí)間)。但是,該方法的優(yōu)點(diǎn)是排序僅需要執(zhí)行一次。執(zhí)行排序之后,可以高效收集度量,并且可以開發(fā)利用排序順序的新度量。對(duì)SDF.nt文件進(jìn)行排序的另一個(gè)重要優(yōu)點(diǎn)是在排序過程中消除重復(fù)的三元組。特別是在輸入數(shù)據(jù)集最初被分成多個(gè)文件時(shí),會(huì)出現(xiàn)這種重復(fù)的三元組。
[0056]步驟440。我們選擇在上一步驟中生成的SDF_subj.nt文件,并使用它提取當(dāng)前數(shù)據(jù)集的類型系統(tǒng)。在我們引入結(jié)構(gòu)性度量之后,提取系統(tǒng)類型的原因?qū)⒆兊们逦?br> [0057]步驟450。我們使用文件SDF_subj.nt收集度量,例如對(duì)輸入數(shù)據(jù)集中的主題和三元組的數(shù)量進(jìn)行計(jì)數(shù),以及有關(guān)主題的引出次數(shù)的詳細(xì)統(tǒng)計(jì)(即,與主題關(guān)聯(lián)的屬性數(shù)量)。我們使用文件SDF_prop.nt收集度量,例如數(shù)據(jù)集中的屬性數(shù)量,以及有關(guān)每個(gè)屬性的出現(xiàn)次數(shù)的詳細(xì)統(tǒng)計(jì)。我們使用文件SDF_obj.nt收集度量,例如數(shù)據(jù)集中的對(duì)象數(shù)量,以及有關(guān)對(duì)象的引出次數(shù)的詳細(xì)統(tǒng)計(jì)(即,與對(duì)象關(guān)聯(lián)的屬性數(shù)量)。
[0058] 覆蓋范圍和一致性
[0059]接下來,我們正式定義結(jié)構(gòu)性的概念(通過覆蓋范圍和一致性度量),并針對(duì)在上一部分中引入的數(shù)據(jù)集顯示這些度量的值。
[0060]直觀上,數(shù)據(jù)集D針對(duì)類型T的結(jié)構(gòu)性級(jí)別通過D中的實(shí)例數(shù)據(jù)符合類型T的程度來確定。例如考慮圖5中的RDF三元組的數(shù)據(jù)集D。即,圖5是根據(jù)本原理的一個(gè)實(shí)施例的可以應(yīng)用本原理的數(shù)據(jù)集D的表示500。為簡單起見,假設(shè)這些三元組的類型T具有屬性name (姓名)、office (辦公室)和ext (分機(jī))。如果D中的每個(gè)實(shí)體(主題)針對(duì)T的大多數(shù)(如果不是所有)屬性設(shè)置值,則D中的所有實(shí)體具有符合T的相當(dāng)類似的結(jié)構(gòu)。在這種情況下,我們可以認(rèn)為D針對(duì)T具有高結(jié)構(gòu)性。這實(shí)際上是圖5中的數(shù)據(jù)集D的情況?,F(xiàn)在考慮包括圖5和圖6中的三元組的并集D U D’的數(shù)據(jù)集Dm。圖6是根據(jù)本原理的一個(gè)實(shí)施例的可以應(yīng)用本原理的數(shù)據(jù)集D’的表示600。出于示例目的,考慮類型Tm,其除了具有T的屬性之外,還具有屬性major (主修)和GPA。數(shù)據(jù)集Dm針對(duì)Tm具有低結(jié)構(gòu)性。要了解這種情況的原因,注意類型Tm將實(shí)體與重疊屬性捆綁在一起。因此,盡管Dm中的所有實(shí)體針對(duì)name屬性具有值,但前三個(gè)實(shí)體(屬于數(shù)據(jù)集D的那些實(shí)體)僅針對(duì)office和ext屬性設(shè)置值,而后三個(gè)實(shí)體(屬于數(shù)據(jù)集D’的那些實(shí)體)僅針對(duì)major和GPA屬性設(shè)置值。我們的工作目標(biāo)是測量數(shù)據(jù)集(無論它是什么數(shù)據(jù)集)的結(jié)構(gòu)性級(jí)別,并生成具有所需(高或低)結(jié)構(gòu)性級(jí)別的數(shù)據(jù)集以便用于基準(zhǔn)測試目的。接下來,我們正式定義結(jié)構(gòu)性并顯示如何可以測量它。
[0061]如果給出類型T和數(shù)據(jù)集D,則讓PT表示T的所有屬性(特性)的集合,IT,D表示數(shù)據(jù)集D中的類型T的所有實(shí)例(實(shí)體)的集合,OCp, IT, D表示屬性P e PT的出現(xiàn)次數(shù),即,屬性P在T的實(shí)例IT,D中設(shè)置其值的次數(shù)。再次參考圖5,對(duì)于其中定義的類型和數(shù)據(jù)集,PT=name、office, ext 等于 personO、personl、person2,而 OCoffice, T 等于 2 (因?yàn)槲瘁槍?duì)數(shù)據(jù)集D中的第三個(gè)實(shí)體設(shè)置屬性office),同樣OCmajor, T等于I。
[0062]定義I。我們將數(shù)據(jù)集D上類型T的覆蓋范圍CVT,D定義為
[0063]CVT,D=VpePTOCp,IT, DPT x IT, D(I)
[0064]為了理解覆蓋范圍的原理,考慮圖7。圖7是根據(jù)本原理的一個(gè)實(shí)施例的特定屬性P在數(shù)據(jù)集Dm中的類型Tm的所有實(shí)例中設(shè)置其值的次數(shù)的圖700。具體地說,圖7考慮圖5和6定義的類型Tm和數(shù)據(jù)集Dm。注意PTm=5,因?yàn)榻M合的類型系統(tǒng)中具有五個(gè)屬性,并且第六個(gè)人員實(shí)例的ITm,Dm=6。對(duì)于每個(gè)屬性p,該圖繪制出OCp, ITm, Dm。因此,例如對(duì)于屬性name, OCname, ITm, Dm等于6,而對(duì)于屬性major, OCmajor, ITm, Dm等于I?,F(xiàn)在,如上所述,類型的結(jié)構(gòu)性取決于類型的實(shí)例是否針對(duì)其所有屬性設(shè)置值。因此,對(duì)于具有完美結(jié)構(gòu)性的Tm的數(shù)據(jù)集Dm,Dm中的類型的每個(gè)實(shí)例都設(shè)置其所有屬性,即對(duì)于每個(gè)屬性p e PTm,OCp, ITm, Dm等于ITm,Dm。然后,在圖7中,將完美結(jié)構(gòu)性轉(zhuǎn)換為PTmX ITm, Dm覆蓋的區(qū)域,即對(duì)應(yīng)于整個(gè)圖7的矩形的區(qū)域(這也是CVTm,Dm計(jì)算中的分母)。但是,通常并非針對(duì)每個(gè)實(shí)例設(shè)置所有屬性。然后,圖7中的陰影區(qū)域(通過CVTm,Dm計(jì)算中的分子計(jì)算)對(duì)應(yīng)于Dm針對(duì)Tm的當(dāng)前結(jié)構(gòu)性級(jí)別。如果給出以上所述,則上面的覆蓋范圍CVTm,Dm的公式基本上是Dm針對(duì)Tm的結(jié)構(gòu)性的指示,其在[0,I]區(qū)間內(nèi)規(guī)范化(接近于O的值對(duì)應(yīng)于低結(jié)構(gòu)性,接近于I的值對(duì)應(yīng)于完美結(jié)構(gòu)性)。在我們的特定實(shí)例中,計(jì)算出的CVTm,Dm覆蓋范圍的值等于6+2+3+1+330=0.5,這直觀地說明數(shù)據(jù)集Dm中的類型Tm的每個(gè)實(shí)例僅設(shè)置其一半屬性。
[0065]公式I考慮數(shù)據(jù)集針對(duì)單個(gè)類型的結(jié)構(gòu)性。顯然,實(shí)際上數(shù)據(jù)集D具有來自多個(gè)類型的實(shí)體,而每個(gè)實(shí)體是這些類型中的至少一個(gè)(如果支持多重實(shí)例化)。數(shù)據(jù)集D很有可能針對(duì)類型T具有高結(jié)構(gòu)性(例如CVT, D=0.8),而針對(duì)另一個(gè)類型T’具有低結(jié)構(gòu)性(例如CVT,D=0.15)。但是,整個(gè)數(shù)據(jù)集針對(duì)我們的類型系統(tǒng)(所有類型的集合)T具有什么結(jié)構(gòu)性?我們提出一種用于對(duì)此計(jì)算的機(jī)制一通過考慮單獨(dú)類型的覆蓋范圍CVT,D的加權(quán)總和。更詳細(xì)地說,對(duì)于每個(gè)類型T,我們使用以下公式對(duì)其覆蓋范圍進(jìn)行加權(quán):
[0066]WTCVT, D=PT+IT, DVTeTPT+IT, D(2)
[0067]其中PT是類型T的屬性數(shù)量,IT, D是類型T的D中的實(shí)體數(shù)量,分母針對(duì)類型系統(tǒng)T中的所有類型計(jì)算這些數(shù)量的總和。權(quán)重公式具有多個(gè)所需的屬性。顯而易見,如果對(duì)于T中的每個(gè)類型T,覆蓋范圍CVT,D等于1,則T中的所有類型T的覆蓋范圍加權(quán)總和等于I。該公式還為具有更多實(shí)例的類型提供較高權(quán)重。因此,在整個(gè)數(shù)據(jù)集的結(jié)構(gòu)性計(jì)算中,具有單個(gè)實(shí)例的類型的 覆蓋范圍的影響低于具有數(shù)百個(gè)實(shí)例的類型的覆蓋范圍。這也與我們的直觀相符:具有少量實(shí)例的類型通常比具有較大量實(shí)例的類型更結(jié)構(gòu)化。最后,該公式為具有較大量屬性的類型提供較高權(quán)重。再次,這與我們的直觀相符:預(yù)計(jì)在僅具有兩個(gè)屬性的類型的實(shí)例中發(fā)現(xiàn)的差異小于在具有數(shù)百個(gè)屬性的類型的實(shí)例中遇到的差異。預(yù)計(jì)后一種類型具有較大量的可選屬性,因此如果類型具有高覆蓋范圍,則這應(yīng)該比僅具有兩個(gè)屬性的高覆蓋范圍的類型包含更多的權(quán)重。
[0068]我們現(xiàn)在準(zhǔn)備計(jì)算整個(gè)數(shù)據(jù)集D針對(duì)類型系統(tǒng)T的結(jié)構(gòu)性,之后稱為一致性(以避免與術(shù)語覆蓋范圍混淆,覆蓋范圍用于描述單個(gè)類型的結(jié)構(gòu)性)。
[0069]定義2。我們將數(shù)據(jù)集D針對(duì)類型系統(tǒng)T的一致性CHT,D定義如下:
[0070]C HT, D=VT in TWTCVT,D x CVT, D(3)
[0071]計(jì)算一致性
[0072]為了計(jì)算輸入數(shù)據(jù)集的一致性,我們考慮文件SDF_sub j.nt (參見上面)。記住,該文件包含數(shù)據(jù)集中以N-三元組格式表示的所有三元組(在清理、規(guī)范化和重復(fù)消除之后)。我們接著使用三元組的主題和對(duì)象的類型注釋SDF_subj.nt中的每個(gè)三元組。該過程將每個(gè)三元組轉(zhuǎn)換為五元組。我們將生成的文件稱為SDF_WT.nt (用于具有類型的單個(gè)數(shù)據(jù)集文件)。再次,SDF_WT.nt文件通道足以針對(duì)數(shù)據(jù)集的每個(gè)類型T收集T的每個(gè)屬性p的OCp, IT, D的值。同時(shí),我們計(jì)算PT和IT,D的值,并且在文件處理結(jié)束時(shí),我們計(jì)算CVT,D、WTCVT, D,并最后計(jì)算CHT, Do
[0073]基準(zhǔn)生成
[0074]在生成更好地表示實(shí)際數(shù)據(jù)集的具有結(jié)構(gòu)性的基準(zhǔn)時(shí),考慮兩種整體方法。第一種方法類似于LUBM、SP2Bench和BSBM的開發(fā)人員采取的方法,是生成具有給定一致性和自下而上的大小的數(shù)據(jù)集。該方法的主要問題是生成的基準(zhǔn)特定于領(lǐng)域。在上述所有基準(zhǔn)數(shù)據(jù)集中,不同類型之間的關(guān)系和相對(duì)基數(shù)來自目標(biāo)領(lǐng)域的知識(shí),并且被硬編碼到生成算法中而不由用戶控制。例如,在LUBM中,教授和學(xué)生或者學(xué)生和課程的相對(duì)基數(shù)是生成算法的一個(gè)特性,并且不可用于生成基準(zhǔn)的用戶。
[0075]第二種方法應(yīng)用于已經(jīng)具有基準(zhǔn)的任何領(lǐng)域,包括采取已經(jīng)生成的基準(zhǔn)數(shù)據(jù)集,并生成具有指定的較小大小和一致性的數(shù)據(jù)集。在理想情況下,我們希望采取從現(xiàn)有基準(zhǔn)生成的數(shù)據(jù)集D,并生成具有指定大小D’〈D和指定一致性CHT,D’〈CHT,D的數(shù)據(jù)集D’。我們認(rèn)為這后一種方法實(shí)際上具有較大的影響,因?yàn)樗梢杂糜谌魏我呀?jīng)存在的基準(zhǔn)或?qū)嶋H數(shù)據(jù)集之上。 [0076]我們方法的中心理念是在某些情況下,我們可以估計(jì)刪除具有相同主題和屬性的一組三元組可能對(duì)一致性產(chǎn)生的影響。假設(shè)S,P, O是D中的三元組,并假設(shè)Ts=Tsl、*"、Tsn是實(shí)例S的類型集(我們提醒讀者,單個(gè)實(shí)例s可以具有多個(gè)類型,例如GraduateStudent也可以是ResearchAssistant)。我們要在以下兩個(gè)假設(shè)下,計(jì)算從D刪除具有主題s和屬性P的所有三元組對(duì)一致性的影響:
[0077](假設(shè)I)我們并未從任何類型Tsl、…、Tsn完全刪除屬性p。即,在刪除之后,針對(duì)這些類型的每一個(gè)還存在仍具有屬性P的實(shí)例。
[0078](假設(shè)2)我們并未從數(shù)據(jù)集完全刪除實(shí)例S。這可以通過在數(shù)據(jù)集中保持三元組S,rdf: type, Tsi很容易地實(shí)施。
[0079]在這兩個(gè)假設(shè)下,注意任何類型TeTs的覆蓋范圍的權(quán)重WTCVT,D都不更改,因?yàn)槲覀冡槍?duì)每個(gè)這種類型保持相同數(shù)量的屬性和實(shí)例。對(duì)于每個(gè)類型T e T S,我們可以將新覆蓋范圍計(jì)算如下:
[0080]
CVT, Di=VqePT-POCq,IT,D+OCp,IT, D-1PT x IT, D(4)
[0081]注意,對(duì)于類型T,少一個(gè)具有屬性p的實(shí)例(具體地說為S)。從該公式中明顯看出,刪除具有主題S和屬性P的所有三元組將使所有類型TeTs的覆蓋范圍減小CVT, D-CVT, D’。因此,我們還可以在刪除這些三元組之后計(jì)算D的一致性CHT, D’,只需針對(duì)T s中的所有類型T使用CVT,D’替換CVT,D0最后,我們將刪除對(duì)D的一致性的影響計(jì)算如下:
[0082]coinT s, p=CHT, D-CHT, D,
[0083]讓我們通過實(shí)例示出該過程。考慮在圖5中引入的數(shù)據(jù)集Dm,并假設(shè)我們想要從Dm刪除三元組(personl, ext, x5304)。然后該數(shù)據(jù)集中的類型person的新覆蓋范圍變成6+2+2+1+330 ^ 0.467,因此對(duì)person的覆蓋范圍的影響大約為0.5-0.467=0.033。在該實(shí)例中,Dm包含單個(gè)類型,因此數(shù)據(jù)集的一致性與person的覆蓋范圍相同,這使我們得出coin person,ext ^ 0.033。
[0084]基準(zhǔn)生成算法
[0085]我們現(xiàn)在描述用于生成具有所需一致性和大小的基準(zhǔn)數(shù)據(jù)集的方法,為此采取數(shù)據(jù)集0并生成數(shù)據(jù)集D? 0,以便CHT,D=Y,D’=0,其中Y和O由用戶指定。為此,我們需要確定哪些三元組需要從D刪除以獲得D’。我們將此形成為整數(shù)編程問題,并使用現(xiàn)有整數(shù)編程求解器對(duì)其進(jìn)行求解。
[0086]前面,對(duì)于類型集S GT和屬性P,我們表明如何計(jì)算coinS,p,這表示刪除具有是S中的類型實(shí)例的主題和等于P的屬性的所有三元組對(duì)一致性的影響。為了簡化,我們將超載符號(hào),并使用coinS,P表示是S中的所有類型的實(shí)例并具有屬性為P的至少一個(gè)三元組的主題的數(shù)量,即如下所示:
[0087]coinS, p=s∈T∈SIT, D彐s,p,v∈D
[0088]我們的目標(biāo)是形成整數(shù)編程問題,其解決方案將告訴我們要?jiǎng)h除多少“硬幣”(具有是某些類型的實(shí)例的主題和具有給定屬性的三元組)以獲得所需的一致性Y和大小σ。將使用XS,P表示整數(shù)編程變量,該變量表示針對(duì)每個(gè)類型的硬幣要?jiǎng)h除的硬幣數(shù)量。在最糟糕的情況下,D的這種變量(和對(duì)應(yīng)的硬幣類型)的數(shù)量可以是2Τ π,其中T是數(shù)據(jù)集中的類型數(shù)量,η是數(shù)據(jù)集中的屬性數(shù)量。但是,實(shí)際上許多類型組合沒有任何實(shí)例,例如在LUBM中,將不會(huì)發(fā)現(xiàn)也是Course或Department實(shí)例的UndergraduateStudent實(shí)例。對(duì)于LUBM,我們發(fā)現(xiàn)盡管具有15個(gè)類型和18個(gè)屬性,但僅具有73個(gè)有效的組合(具有至少一個(gè)baohanyu可用硬幣的類型集和屬性)。
[0089]為了獲得所需的一致性,我們將針對(duì)整數(shù)編程問題形成以下約束和最大化標(biāo)準(zhǔn):
[0090]S ^ T’pcoinS, p x XS,p<CHT, D-Y(Cl)
[0091]MAXIMIZES ^ D,pcoinS, p x.XS,p(M)
[0092]不等式Cl說明一致性的減小數(shù)量(通過刪除硬幣)應(yīng)該小于或等于為了從CHT,D(原始數(shù)據(jù)集的一致性)到Y(jié) (所需的一致性)而需要?jiǎng)h除的數(shù)量。目標(biāo)函數(shù)M說明應(yīng)該最大化一致性的減小數(shù)量。這兩個(gè)元素共同確保盡可能多地減小D的一致性,同時(shí)不低于Y。
[0093]我們還將針對(duì)可以刪除的硬幣數(shù)量設(shè)置下限和上限。記住,假設(shè)(Al)需要我們不從任何類型刪除任何屬性,因此我們將確保剩余每個(gè)類型的至少一個(gè)硬幣。此外,我們將通過始終保持具有rdf:type屬性的三元組,實(shí)施有關(guān)不從數(shù)據(jù)集刪除實(shí)例的假設(shè)(A2),如下所示:
[0094]VS ^ T,p 0<XS,p<coinS, p-1(C2 )
[0095]獲得所需的大小σ類似,但需要近似。在所有屬性為單值(即,D中僅存在一個(gè)具有給定主題和給定屬性的三元組)的簡化假設(shè)下,我們可以編寫以下約束:
[0096]S^T,pXS,p=D-a
[0097]該等式將確保我們恰好刪除正確數(shù)量的硬幣以獲得大小σ,假設(shè)所有屬性為單值(意味著一個(gè)硬幣恰好表示一個(gè)三元組)。但是,該假設(shè)不適用我們所看到的任何數(shù)據(jù)集。具體地說,對(duì)于LUBM,許多屬性為多值。例如,一名學(xué)生可以報(bào)讀多門課程,一篇論文可以具有多個(gè)作者等。我們將通過以下操作解決該問題:計(jì)算每個(gè)硬幣類型的平均三元組數(shù)量(以ctS, p表示),并松弛大小約束,如下所示:
[0098]1- P X D- σ <S ^ T,pXS,p x ctS,p(C3 )
[0099]S^T,pXS,p X ctS,p<l+ p X D- σ(C4 )
[0100]在這兩個(gè)約束中,P是松弛參數(shù)。需要存在P,因?yàn)槲覀兪褂妹總€(gè)硬幣的平均三元組數(shù)量時(shí)引入了近似。實(shí)際上,設(shè)置P有助于我們將算法結(jié)果調(diào)整為更接近于目標(biāo)一致性和大小。
[0101]圖8是示出根據(jù)本原理的一個(gè)實(shí)施例的用于生成資源描述框架基準(zhǔn)的另一個(gè)示例性方法800的流程圖。方法800基本上是方法300的另一個(gè)表示。具體地說,與方法300相比,方法800還包含其中整數(shù)編程問題沒有解決方案的情況。在步驟810,針對(duì)所有類型集和所有屬性計(jì)算一致性和硬幣值以及每個(gè)硬幣的平均三元組數(shù)。在步驟820,形成整數(shù)編程問題。整數(shù)編程問題可以包括和/或以其他方式涉及一個(gè)或多個(gè)約束和/或一個(gè)或多個(gè)目標(biāo)函數(shù)。在步驟825,確定整數(shù)編程問題是否具有解決方案。如果具有,則方法800繼續(xù)到步驟840。否則,方法800繼續(xù)到步驟830。在步驟830,響應(yīng)于沒有整數(shù)編程問題的解決方案,使數(shù)據(jù)集變得更小(例如,通過刪除某一百分比的實(shí)例),并且所述方法返回到步驟810。在步驟840,對(duì)于由類型集和特定屬性給定的每個(gè)硬幣,從結(jié)果基準(zhǔn)數(shù)據(jù)集刪除具有是所述類型集中的類型實(shí)例的主題和具有所述特定屬性的三元組。在步驟845,確定結(jié)果基準(zhǔn)數(shù)據(jù)集的大小是否等于用戶指定大小。如果等于,則方法800繼續(xù)到步驟846。否則,方法800繼續(xù)到步驟850。在步驟846,輸出結(jié)果基準(zhǔn)數(shù)據(jù)集。在步驟850,執(zhí)行后處理以便刪除具有相同主題和屬性的三元組,并且方法800然后繼續(xù)到步驟846以便輸出(經(jīng)過后處理的)結(jié)果基準(zhǔn)數(shù)據(jù)集。
[0102]我們現(xiàn)在進(jìn)一步描述從原始數(shù)據(jù)集D生成具有所需一致性Y和大小σ的基準(zhǔn)數(shù)據(jù)集的方法800的某些步驟 :
[0103](步驟810)針對(duì)所有類型集SGT和所有屬性P,計(jì)算一致性CHT,D和硬幣值coinS, P以及每個(gè)硬幣的平均三元組數(shù)ctS, p。
[0104](步驟820)通過編寫約束Cl、C2、C3、C4和目標(biāo)函數(shù)M,形成整數(shù)編程問題。對(duì)整數(shù)編程問題進(jìn)行求解。
[0105](步驟830)如果問題沒有解決方案,則嘗試通過刪除某一百分比的實(shí)例使數(shù)據(jù)集變得更小,并從步驟I繼續(xù)。
[0106](步驟840)如果問題具有解決方案,則對(duì)于給定S和P的每個(gè)硬幣,刪除具有是S中的類型實(shí)例的XS,P主題和具有屬性P的三元組。
[0107](步驟850)如果生成的數(shù)據(jù)集大小大于σ,則通過嘗試刪除具有相同主題和屬性的三元組來執(zhí)行后處理。
[0108]我們?cè)谇懊嬖敿?xì)解釋了如何可以執(zhí)行步驟(810)和(820)。在沒有線性編程問題的解決方案的情況下,步驟(830)是一種調(diào)整。記住,如果整數(shù)編程形成是生成正確數(shù)量的待刪除硬幣,則假設(shè)(Α2)需要我們不從數(shù)據(jù)集刪除全部實(shí)例。實(shí)際上,我們發(fā)現(xiàn)對(duì)于Y和σ的某些組合,整數(shù)編程問題沒有解決方案,例如特別是對(duì)于其中所需一致性Y高,但所需大小σ低的情況(B卩,我們必須刪除多個(gè)硬幣,但我們不應(yīng)該過多地減小一致性)。對(duì)于這些情況,我們發(fā)現(xiàn)可以首先從D刪除全部實(shí)例以減小其大小,然后重新形成整數(shù)編程問題并查找解決方案。該方法的原理是當(dāng)從具有非常高的一致性的原始數(shù)據(jù)集(例如,LUBM、TPC-H等)開始時(shí),隨機(jī)均勻地刪除實(shí)例將不會(huì)過多地減小一致性(如果發(fā)生),因?yàn)樗蓄愋偷母采w范圍高,但它可以將數(shù)據(jù)集大小減小到某一點(diǎn),我們的整數(shù)編程方法在該點(diǎn)發(fā)現(xiàn)解決方案。
[0109]為了有效地執(zhí)行這種實(shí)例刪除,我們需要了解要從原始數(shù)據(jù)集刪除多少實(shí)例,以便更有可能發(fā)現(xiàn)有關(guān)新數(shù)據(jù)集的解決方案。在我們的實(shí)驗(yàn)中,整數(shù)編程問題始終針對(duì)
YCHT,D具有解決方案。因此,我們需要?jiǎng)h除足夠的實(shí)例以便具有新數(shù)據(jù)集的大小,約為CHT,D X σ。假設(shè)數(shù)據(jù)集大小與實(shí)例數(shù)量成正比(我們發(fā)現(xiàn)這對(duì)于檢查的所有數(shù)據(jù)集都正確),則我們應(yīng)該隨機(jī)均勻地刪除比例為1-CHT,DyXoD的實(shí)例,以便達(dá)到如下數(shù)據(jù)集:我們針對(duì)其具有很好的求解整數(shù)編程問題機(jī)會(huì)。在該過程之后,我們必須重新啟動(dòng)算法,因?yàn)樵趯?shí)例刪除之后,數(shù)據(jù)集的一致性和硬幣數(shù)量可能不同于原始數(shù)據(jù)集。
[0110]在步驟(840),我們根據(jù)整數(shù)編程問題的解決方案,執(zhí)行實(shí)際三元組刪除。步驟(850)是后處理步驟,其嘗試補(bǔ)償整數(shù)編程問題的約束C3和C4引入的近似。具體地說,如果我們?cè)诓襟E(840)之后獲得的解決方案具有高于σ的大小,則我們可以通過查找具有相同主題和屬性的三元組進(jìn)行補(bǔ)償。
[0111]注意,根據(jù)我們針對(duì)類型定義覆蓋范圍的方式,公式測量實(shí)例是否針對(duì)該類型的每個(gè)屬性具有至少一個(gè)值。因此,如果屬性為多值,則我們可以安全刪除包括額外值的三元組(確保我們保持至少一個(gè)值),因此減小數(shù)據(jù)集的大小。盡管該步驟可選,但它可以改善σ和生成的數(shù)據(jù)集的實(shí)際大小之間的匹配。注意,該部分中提供的算法至少兩次通過原始數(shù)據(jù)集D。第一次通過在步驟(810)執(zhí)行,以便計(jì)算一致性和硬幣值以及每個(gè)硬幣的平均三元組數(shù)。第二次通過在步驟(840)執(zhí)行,其中從D刪除硬幣以便生成所需的數(shù)據(jù)集。如果整數(shù)編程問題沒有解決方案,則需要至少四次通過:一次通過在步驟(810),一次通過在步驟(830)以便刪除實(shí)例,第三次通過在步驟(810)以便在實(shí)例刪除之后計(jì)算一致性和硬幣值,最后第四次通過在步驟(840)以便從數(shù)據(jù)集刪除硬幣。此外,在任何一種情況下,都可以另外通過生成的數(shù)據(jù)集以便調(diào)整大小(步驟850)。
[0112]此外,我們注意到,在某些實(shí)施例中,輸入數(shù)據(jù)集中用戶標(biāo)記的某些三元組在從輸入數(shù)據(jù)集到結(jié)果基準(zhǔn)數(shù)據(jù)集時(shí)保持不變,使得所標(biāo)記的三元組在輸入數(shù)據(jù)集和結(jié)果基準(zhǔn)數(shù)據(jù)集中是相同的。這基本上向用戶保證:對(duì)輸入數(shù)據(jù)集進(jìn)行更改以便獲得結(jié)果基準(zhǔn)數(shù)據(jù)集之后,所標(biāo)記的三元組仍在該處(即,仍存在于結(jié)果基準(zhǔn)數(shù)據(jù)集中)。
[0113]描述了一種系統(tǒng)和方法的優(yōu)選實(shí)施例(它們旨在是示例性的,而不是限制性的)之后,要注意的是,所屬【技術(shù)領(lǐng)域】的技術(shù)人員可以根據(jù)上述教導(dǎo)進(jìn)行修改和變化。因此,應(yīng)該理解,可以在公開的特定實(shí)施例中進(jìn)行更改,這些更改在所附權(quán)利要求概括的本發(fā)明的范圍內(nèi)。因此,描述本發(fā)明的各個(gè)方面以及專利法需要的細(xì)節(jié)和特殊性之后,在所附權(quán)利要求中給出專利證書保護(hù)的要求保護(hù)和需要的事物。
【權(quán)利要求】
1.一種用于生成資源描述框架基準(zhǔn)的方法,包括: 從具有給定大小和給定一致性的輸入數(shù)據(jù)集并針對(duì)該輸入數(shù)據(jù)集,獲得具有用戶指定大小和用戶指定一致性的結(jié)果基準(zhǔn)數(shù)據(jù)集,方式為:確定為了獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集,要將哪些主題-屬性-對(duì)象三元組添加到所述輸入數(shù)據(jù)集或者要從所述輸入數(shù)據(jù)集刪除哪些主題_屬性-對(duì)象二兀組。
2.根據(jù)權(quán)利要求1的方法,其中所述用戶指定一致性和所述給定一致性分別表示所述結(jié)果基準(zhǔn)數(shù)據(jù)集和所述輸入數(shù)據(jù)集針對(duì)特定類型的結(jié)構(gòu)數(shù)量。
3.根據(jù)權(quán)利要求1的方法,其中針對(duì)是所述輸入數(shù)據(jù)集的類型集中的特定類型的實(shí)例的三元組而執(zhí)行所述確定。
4.根據(jù)權(quán)利要求1的方法,其中針對(duì)具有是類型集中的所有類型的實(shí)例的相同主題和具有相同屬性的三元組而執(zhí)行所述確定。
5.根據(jù)權(quán)利要求4的方法,其中所述用戶指定一致性和所述給定一致性分別表示所述結(jié)果基準(zhǔn)數(shù)據(jù)集和所述輸入數(shù)據(jù)集針對(duì)特定類型的結(jié)構(gòu)數(shù)量,并且其中所述結(jié)果基準(zhǔn)數(shù)據(jù)集的結(jié)構(gòu)數(shù)量基于所述類型集中的所有類型的實(shí)例是否針對(duì)與其對(duì)應(yīng)的所有屬性而設(shè)置了值。
6.根據(jù)權(quán)利要求4的方法,其中當(dāng)發(fā)生所述用戶指定大小小于所述給定大小和所述用戶指定一致性小于所述給定一致性中的至少一個(gè)時(shí),針對(duì)兩個(gè)約束而執(zhí)行所述確定,所述兩個(gè)約束中的第一個(gè)約束是所述類型集中具有相同屬性的每個(gè)類型的實(shí)例將仍存在于針對(duì)所述輸入數(shù)據(jù)集的所述結(jié)果基準(zhǔn)數(shù)據(jù)集中,所述兩個(gè)約束中的第二個(gè)約束是相同主題的實(shí)例中的至少一個(gè)被保留在針對(duì)所述輸入數(shù)據(jù)集的所述結(jié)果基準(zhǔn)數(shù)據(jù)集中。
7.根據(jù)權(quán)利要求4的方法,其中使用整數(shù)編程問題執(zhí)行所述確定,所述整數(shù)編程問題指定具有是所述類型集中的所有類型的實(shí)例的相同主題和具有相同屬性的三元組數(shù)量,以便添加到所述輸入數(shù)據(jù)集或者從所述輸入數(shù)據(jù)集刪除以獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集。
8.根據(jù)權(quán)利要求4的方法,其中根據(jù)一個(gè)約束執(zhí)行所述確定,該約束是當(dāng)所述用戶指定一致性小于所述給定一致性時(shí),用于減小所述輸入數(shù)據(jù)集中的所述給定一致性以便在所述結(jié)果基準(zhǔn)數(shù)據(jù)集中獲得所述用戶指定一致性的數(shù)量小于或等于為了從所述給定一致性達(dá)到所述用戶指定一致性而刪除的三元組數(shù)量;或者其中根據(jù)另一個(gè)約束執(zhí)行所述確定,該約束是當(dāng)所述用戶指定一致性大于所述給定一致性時(shí),用于增加所述輸入數(shù)據(jù)集中的所述給定一致性以便在所述結(jié)果基準(zhǔn)數(shù)據(jù)集中獲得所述用戶指定一致性的數(shù)量小于或等于為了從所述給定一致性達(dá)到所述用戶指定一致性而添加的三元組數(shù)量。
9.根據(jù)權(quán)利要求1的方法,其中所述輸入數(shù)據(jù)集中由用戶標(biāo)記的特定三元組在從所述輸入數(shù)據(jù)集到所述結(jié)果基準(zhǔn)數(shù)據(jù)集時(shí)保持不變,使得所標(biāo)記的三元組在所述輸入數(shù)據(jù)集和所述結(jié)果基準(zhǔn)數(shù)據(jù)集中是相同的。
10.一種用于生成資源描述框架基準(zhǔn)的方法,包括: 從具有給定大小和給定一致性的輸入數(shù)據(jù)集并針對(duì)該輸入數(shù)據(jù)集,獲得具有用戶指定大小和用戶指定一致性的結(jié)果基準(zhǔn)數(shù)據(jù)集; 其中所述獲得步驟包括: 計(jì)算相應(yīng)硬幣,每個(gè)硬幣表示相應(yīng)值,當(dāng)分別向所述輸入數(shù)據(jù)集添加或從所述輸入數(shù)據(jù)集刪除具有是多個(gè)類型集中的類型實(shí)例的主題和具有等于特定屬性集的屬性的所有主題-屬性-對(duì)象三元組時(shí),針對(duì)獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集而使用所述相應(yīng)值增加或減小所述輸入數(shù)據(jù)集的一致性,針對(duì)所述多個(gè)類型集中的僅一個(gè)相應(yīng)類型集中的所有類型和針對(duì)所述特定屬性集中的僅一個(gè)相應(yīng)屬性而計(jì)算每個(gè)所述相應(yīng)硬幣; 確定為了獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集,要添加到所述輸入數(shù)據(jù)集或從所述輸入數(shù)據(jù)集刪除的三元組數(shù)量,該三元組數(shù)量由所述相應(yīng)硬幣表示;以及 將所確定數(shù)量的三元組添加到所述輸入數(shù)據(jù)集或從所述輸入數(shù)據(jù)集刪除所確定數(shù)量的三元組,以便獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集。
11.根據(jù)權(quán)利要求10的方法,其中所述用戶指定一致性和所述給定一致性分別表示所述結(jié)果基準(zhǔn)數(shù)據(jù)集和所述輸入數(shù)據(jù)集針對(duì)特定類型的結(jié)構(gòu)數(shù)量。
12.根據(jù)權(quán)利要求11的方法,其中所述結(jié)果基準(zhǔn)數(shù)據(jù)集的結(jié)構(gòu)數(shù)量基于所述類型集中的所有類型的實(shí)例是否針對(duì)與其對(duì)應(yīng)的所有屬性而設(shè)置了值。
13.根據(jù)權(quán)利要求10的方法,其中當(dāng)發(fā)生所述用戶指定大小小于所述給定大小和所述用戶指定一致性小于所述給定一致性中的至少一個(gè)時(shí),針對(duì)兩個(gè)約束而執(zhí)行所述確定,所述兩個(gè)約束中的第一個(gè)約束是所述類型集中具有相同屬性的每個(gè)類型的實(shí)例將仍存在于針對(duì)所述輸入數(shù)據(jù)集的所述結(jié)果基準(zhǔn)數(shù)據(jù)集中,所述兩個(gè)約束中的第二個(gè)約束是相同主題的實(shí)例中的至少一個(gè)被保留在針對(duì)所述輸入數(shù)據(jù)集的所述結(jié)果基準(zhǔn)數(shù)據(jù)集中。
14.根據(jù)權(quán)利要求10的方法,其中使用整數(shù)編程問題執(zhí)行所述確定,所述整數(shù)編程問題指定具有是所述類型集中的所有類型的實(shí)例的相同主題和具有相同屬性的三元組數(shù)量,以便添加到所述輸入數(shù)據(jù)集或者從所述輸入數(shù)據(jù)集刪除以獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集。
15.根據(jù)權(quán)利要求14的方法,其中根據(jù)一個(gè)約束執(zhí)行所述確定,該約束是當(dāng)所述用戶指定一致性小于所述給定一致性時(shí),用于減小所述輸入數(shù)據(jù)集中的所述給定一致性以便在所述結(jié)果基準(zhǔn)數(shù)據(jù)集中獲 得所述用戶指定一致性的數(shù)量小于或等于為了從所述給定一致性達(dá)到所述用戶指定一致性而刪除的三元組數(shù)量;或者其中根據(jù)另一個(gè)約束執(zhí)行所述確定,該約束是當(dāng)所述用戶指定一致性大于所述給定一致性時(shí),用于增加所述輸入數(shù)據(jù)集中的所述給定一致性以便在所述結(jié)果基準(zhǔn)數(shù)據(jù)集中獲得所述用戶指定一致性的數(shù)量小于或等于為了從所述給定一致性達(dá)到所述用戶指定一致性而添加的三元組數(shù)量。
16.根據(jù)權(quán)利要求14的方法,其中根據(jù)施加于所述用戶指定大小的松弛約束來執(zhí)行所述確定,所述松弛約束涉及在確定由所述硬幣表示的三元組數(shù)量,以便執(zhí)行添加到所述輸入數(shù)據(jù)集或從所述輸入數(shù)據(jù)集刪除中的至少一個(gè)以獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集時(shí),計(jì)算每種硬幣類型的平均三元組數(shù)量以取代該種硬幣類型的特定三元組數(shù)量。
17.—種包括計(jì)算機(jī)可讀程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中當(dāng)在計(jì)算機(jī)上執(zhí)行時(shí),所述計(jì)算機(jī)可讀程序?qū)е滤鲇?jì)算機(jī)執(zhí)行以下操作: 從具有給定大小和給定一致性的輸入數(shù)據(jù)集并針對(duì)該輸入數(shù)據(jù)集,獲得具有用戶指定大小和用戶指定一致性的結(jié)果基準(zhǔn)數(shù)據(jù)集,方式為:確定為了獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集,要將哪些主題-屬性-對(duì)象三元組添加到所述輸入數(shù)據(jù)集或者要從所述輸入數(shù)據(jù)集刪除哪些主題_屬性-對(duì)象二兀組。
18.根據(jù)權(quán)利要求17的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中所述用戶指定一致性和所述給定一致性分別表示所述結(jié)果基準(zhǔn)數(shù)據(jù)集和所述輸入數(shù)據(jù)集針對(duì)特定類型的結(jié)構(gòu)數(shù)量。
19.根據(jù)權(quán)利要求17的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中針對(duì)具有是類型集中的所有類型的實(shí)例的相同主題和具有相同屬性的三元組而執(zhí)行所述確定。
20.根據(jù)權(quán)利要求17的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中所述用戶指定一致性和所述給定一致性分別表示所述結(jié)果基準(zhǔn)數(shù)據(jù)集和所述輸入數(shù)據(jù)集針對(duì)特定類型的結(jié)構(gòu)數(shù)量,并且其中所述結(jié)果基準(zhǔn)數(shù)據(jù)集的結(jié)構(gòu)數(shù)量基于所述類型集中的所有類型的實(shí)例是否針對(duì)與其對(duì)應(yīng)的所有屬性而設(shè)置了值。
21.根據(jù)權(quán)利要求17的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中當(dāng)發(fā)生所述用戶指定大小小于所述給定大小和所述用戶指定一致性小于所述給定一致性中的至少一個(gè)時(shí),針對(duì)兩個(gè)約束而執(zhí)行所述確定,所述兩個(gè)約束中的第一個(gè)約束是所述類型集中具有相同屬性的每個(gè)類型的實(shí)例將仍存在于針對(duì)所述輸入數(shù)據(jù)集的所述結(jié)果基準(zhǔn)數(shù)據(jù)集中,所述兩個(gè)約束中的第二個(gè)約束是相同主題的實(shí)例中的至少一個(gè)被保留在針對(duì)所述輸入數(shù)據(jù)集的所述結(jié)果基準(zhǔn)數(shù)據(jù)集中。
22.根據(jù)權(quán)利要求17的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中所述輸入數(shù)據(jù)集中由用戶標(biāo)記的特定三元組在從所述輸入數(shù)據(jù)集到所述結(jié)果基準(zhǔn)數(shù)據(jù)集時(shí)保持不變,使得所標(biāo)記的三元組在所述輸入數(shù)據(jù)集和所述結(jié)果基準(zhǔn)數(shù)據(jù)集中是相同的。
23.一種包括計(jì)算機(jī)可讀程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中當(dāng)在計(jì)算機(jī)上執(zhí)行時(shí),所述計(jì)算機(jī)可讀程序?qū)е滤鲇?jì)算機(jī)執(zhí)行以下操作: 從具有給定大小和給定一致性的輸入數(shù)據(jù)集并針對(duì)該輸入數(shù)據(jù)集,獲得具有用戶指定大小和用戶指定一致性的結(jié)果基準(zhǔn)數(shù)據(jù)集; 其中所述獲得步驟包括: 計(jì)算相應(yīng)硬幣,每個(gè)硬幣表示相應(yīng)值,當(dāng)分別向所述輸入數(shù)據(jù)集添加或從所述輸入數(shù)據(jù)集刪除具有是多個(gè)類型集中的類型實(shí)例的主題和具有等于特定屬性集的屬性的所有主題-屬性-對(duì)象三元組時(shí),針對(duì)獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集而使用所述相應(yīng)值增加或減小所述輸入數(shù)據(jù)集的一致性,針對(duì)所述多個(gè)類型集中的僅一個(gè)相應(yīng)類型集中的所有類型和針對(duì)所述特定屬性集中的僅一個(gè)相應(yīng)屬性而計(jì)算每個(gè)所述相應(yīng)硬幣; 確定為了獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集,要添加到所述輸入數(shù)據(jù)集或從所述輸入數(shù)據(jù)集刪除的三元組數(shù)量,該三元組數(shù)量由所述相應(yīng)硬幣表示;以及 將所確定數(shù)量的三元組添加到所述輸入數(shù)據(jù)集或從所述輸入數(shù)據(jù)集刪除所確定數(shù)量的三元組,以便獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集。
24.根據(jù)權(quán)利要求23的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中當(dāng)發(fā)生所述用戶指定大小小于所述給定大小和所述用戶指定一致性小于所述給定一致性中的至少一個(gè)時(shí),針對(duì)兩個(gè)約束而執(zhí)行所述確定,所述兩個(gè)約束中的第一個(gè)約束是所述類型集中具有相同屬性的每個(gè)類型的實(shí)例將仍存在于針對(duì)所述輸入數(shù)據(jù)集的所述結(jié)果基準(zhǔn)數(shù)據(jù)集中,所述兩個(gè)約束中的第二個(gè)約束是相同主題的實(shí)例中的至少一個(gè)被保留在針對(duì)所述輸入數(shù)據(jù)集的所述結(jié)果基準(zhǔn)數(shù)據(jù)集中。
25.一種用于從具有給定大小和給定一致性的輸入數(shù)據(jù)集并針對(duì)該輸入數(shù)據(jù)集而獲得結(jié)果基準(zhǔn)數(shù)據(jù)集的系統(tǒng),所述系統(tǒng)包括: 硬幣計(jì)算器,其用于計(jì)算相應(yīng)硬幣,每個(gè)硬幣表示相應(yīng)值,當(dāng)分別向所述輸入數(shù)據(jù)集添加或從所述輸入數(shù)據(jù)集刪除具有是多個(gè)類型集中的類型實(shí)例的主題和具有等于特定屬性集的屬性的所有主題-屬性-對(duì)象三元組時(shí),針對(duì)獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集而使用所述相應(yīng)值增加或減小所述輸入數(shù)據(jù)集的一致性,針對(duì)所述多個(gè)類型集中的僅一個(gè)相應(yīng)類型集中的所有類型和針對(duì)所述特定屬性集中的僅一個(gè)相應(yīng)屬性而計(jì)算每個(gè)所述相應(yīng)硬幣; 三元組數(shù)量確定器,其用于確定為了獲得具有用戶指定大小和用戶指定一致性的所述結(jié)果基準(zhǔn)數(shù)據(jù)集,要添加到所述輸入數(shù)據(jù)集或從所述輸入數(shù)據(jù)集刪除的三元組數(shù)量,該三元組數(shù)量由所述相應(yīng)硬幣表示;以及 三元組修改器,其用于將所確定數(shù)量的三元組添加到所述輸入數(shù)據(jù)集或從所述輸入數(shù)據(jù)集刪除所確定數(shù)量 的三元組,以便獲得所述結(jié)果基準(zhǔn)數(shù)據(jù)集。
【文檔編號(hào)】G06F9/44GK103477321SQ201280015691
【公開日】2013年12月25日 申請(qǐng)日期:2012年1月11日 優(yōu)先權(quán)日:2011年1月28日
【發(fā)明者】段松云, A·凱門西斯迪斯, K·斯里尼瓦斯, O·烏德雷亞 申請(qǐng)人:國際商業(yè)機(jī)器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1