亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法及系統(tǒng)的制作方法

文檔序號:10687173閱讀:558來源:國知局
一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法及系統(tǒng),其方法包括以下步驟:S1.模型工作流分析:分析Hadoop平臺(tái)上的模型構(gòu)成的模型工作流的輸入節(jié)點(diǎn)、輸出節(jié)點(diǎn)和動(dòng)作節(jié)點(diǎn),并獲取各節(jié)點(diǎn)的唯一標(biāo)識(shí);S2.設(shè)計(jì)溯源信息元數(shù)據(jù)模型:根據(jù)每個(gè)模型工作流對應(yīng)描述一個(gè)溯源文件;S3.溯源信息存儲(chǔ):對所述溯源文件構(gòu)建索引,將索引信息存放在緩存數(shù)據(jù)庫,索引文件存放在HDFS上;S4.數(shù)據(jù)溯源追蹤:判斷是否追蹤數(shù)據(jù)產(chǎn)生過程,若不追蹤數(shù)據(jù)產(chǎn)生過程,則通過查詢所述索引信息獲取所述溯源文件的地址。本發(fā)明克服了傳統(tǒng)數(shù)據(jù)溯源方法在大數(shù)據(jù)平臺(tái)下不適用的問題,并為溯源文件建立索引,減少了輸入/輸出操作,提高了查詢速度。
【專利說明】
一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及數(shù)據(jù)溯源技術(shù)領(lǐng)域,特別是涉及一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法及系統(tǒng)。
【背景技術(shù)】
[0002]大數(shù)據(jù)模型分析平臺(tái)是構(gòu)建在Hadoop集群之上的涉及模型的設(shè)計(jì)、開發(fā)以及交易的平臺(tái)。系統(tǒng)提供基礎(chǔ)的模型,用戶可以在其基礎(chǔ)之上通過可視化的設(shè)計(jì)器來構(gòu)建自己的模型,并可以使用該模型來分析平臺(tái)提供的行業(yè)數(shù)據(jù)。由于底層的存儲(chǔ)和計(jì)算是通過Hadoop集群來支持,所以該平臺(tái)是構(gòu)建在大數(shù)據(jù)環(huán)境之上的模型分析平臺(tái),模型的設(shè)計(jì)圖如圖1所示。
[0003]近些年隨著計(jì)算機(jī)和移動(dòng)互聯(lián)網(wǎng)的發(fā)展,各種信息呈爆炸式的增長,這些信息基本可以分成兩類,一類是原始的錄入數(shù)據(jù),另一類是由于這些數(shù)據(jù)經(jīng)過若干處理派生出來的數(shù)據(jù)。但是一般暴露給用戶的往往是結(jié)果數(shù)據(jù),這些數(shù)據(jù)對使用者來說,其處理過程或者說可信度來說是不得而知的,而有時(shí)候結(jié)果數(shù)據(jù)和原始數(shù)據(jù)沒有任何關(guān)系,這就使得用戶必須去關(guān)心結(jié)果數(shù)據(jù)的來源,因此產(chǎn)生了數(shù)據(jù)溯源技術(shù)。
[0004]數(shù)據(jù)溯源是對數(shù)據(jù)的起源以及數(shù)據(jù)的產(chǎn)生過程的描述信息,這些信息在很多方面發(fā)揮著重要的作用,例如調(diào)試數(shù)據(jù)和轉(zhuǎn)換、審計(jì)、評估數(shù)據(jù)的質(zhì)量和信任度以及實(shí)現(xiàn)對數(shù)據(jù)的訪問控制等方面。數(shù)據(jù)溯源技術(shù)在國內(nèi)研究相對較少,戴超凡比較系列地研究了在數(shù)據(jù)倉庫領(lǐng)域中的數(shù)據(jù)溯源技術(shù);王黎維等人主要研究了科學(xué)工作流服務(wù)框架中的數(shù)據(jù)跟蹤問題,并基于對象代理數(shù)據(jù)庫中的雙向指針提出了一種數(shù)據(jù)溯源方法;李亞子研究了數(shù)據(jù)起源的標(biāo)注模式和描述模型,并引入了7W模型;陳穎等人設(shè)計(jì)了基于DNA雙螺旋結(jié)構(gòu)的起源追蹤模型。國外也有很多大學(xué)和研究機(jī)構(gòu)把數(shù)據(jù)溯源作為課題研究,其中GrigorsKarvounarakis提出了一種基于元組、半環(huán)溯源的ProQL語言來解決溯源維護(hù)、存儲(chǔ)和查詢等相關(guān)問題;Tanu Malik等人描述了一種在分布式應(yīng)用程序中采集數(shù)據(jù)溯源,并通過實(shí)驗(yàn)表明了分散的溯源管理體系結(jié)構(gòu)的可行性以及有效改進(jìn)了起源查詢的效率等。
[0005]傳統(tǒng)的溯源方法主要是在數(shù)據(jù)庫以及科學(xué)工作流計(jì)算方面,而在大數(shù)據(jù)平臺(tái)下,不管是源數(shù)據(jù)還是結(jié)果數(shù)據(jù),都存儲(chǔ)在HDFS上,無法直接采用標(biāo)注元組的方式來標(biāo)記。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法及系統(tǒng),解決了在大數(shù)據(jù)模型分析平臺(tái)下的多模型組合處理的數(shù)據(jù)溯源問題。
[0007]本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法,包括以下步驟:
[0008]S1.模型工作流分析:分析Hadoop平臺(tái)上的模型構(gòu)成的模型工作流的輸入節(jié)點(diǎn)、輸出節(jié)點(diǎn)和動(dòng)作節(jié)點(diǎn),并獲取各節(jié)點(diǎn)的唯一標(biāo)識(shí);
[0009]S2.設(shè)計(jì)溯源信息元數(shù)據(jù)模型:根據(jù)每個(gè)模型工作流對應(yīng)描述一個(gè)溯源文件;
[0010]S3.溯源信息存儲(chǔ):對所述溯源文件構(gòu)建索引,將索引信息存放在緩存數(shù)據(jù)庫,索弓I文件存放在HDFS (Hadoop分布式文件系統(tǒng))上;
[0011 ] S4.數(shù)據(jù)溯源追蹤:判斷是否追蹤數(shù)據(jù)產(chǎn)生過程,若不追蹤數(shù)據(jù)產(chǎn)生過程,則通過查詢所述索引信息獲取所述溯源文件的地址。
[0012]所述步驟SI包括以下子步驟:
[0013]Sll.掃描所述模型工作流,尋找所述模型工作流的第一個(gè)動(dòng)作節(jié)點(diǎn),獲取所述第一個(gè)動(dòng)作節(jié)點(diǎn)的輸入文件路徑作為所述模型工作流的輸入文件路徑;
[0014]尋找所述模型工作流的最后一個(gè)動(dòng)作節(jié)點(diǎn),獲取所述最后一個(gè)動(dòng)作節(jié)點(diǎn)的輸出文件路徑作為所述模型工作流的輸出文件路徑,保存所述模型工作流的輸入文件路徑和所述模型工作流輸出文件路徑;
[0015]S12.檢測所述模型工作流的所有動(dòng)作節(jié)點(diǎn),獲取所述模型工作流的唯一標(biāo)識(shí)和名稱,并使用鄰接表緩存起來。
[0016]根據(jù)每個(gè)模型工作流對應(yīng)描述一個(gè)溯源文件的方法為:
[0017]S21.掃描模型工作流,獲取所述模型工作流的控制流節(jié)點(diǎn)、輸入文件路徑和輸出文件路徑;
[0018]S22.檢測所述模型工作流的所有動(dòng)作節(jié)點(diǎn)及各動(dòng)作節(jié)點(diǎn)之間的關(guān)系,將所述所有動(dòng)作節(jié)點(diǎn)及各動(dòng)作節(jié)點(diǎn)之間的關(guān)系作為緩存信息,使用鄰接表緩存;
[0019]S23.將緩存信息寫入溯源文件中,并將溯源文件保存在HDFS上;
[0020]S24.將所述模型工作流的輸入文件路徑和輸出文件路徑、溯源文件的地址以鍵值對的形式保存在緩存數(shù)據(jù)庫中。
[0021]所述溯源文件用一個(gè)四元數(shù)組W={ID,I,0,M,T}表示,其中,ID表示所述模型工作流的唯一標(biāo)識(shí),I表示所述模型工作流的輸入節(jié)點(diǎn),O表示所述模型工作流的輸出節(jié)點(diǎn),M表示所述模型工作流動(dòng)作節(jié)點(diǎn)的集合,T表示構(gòu)建所述模型工作流的時(shí)間戳。
?0022] 所述模型工作流動(dòng)作節(jié)點(diǎn)的集合M= {ml,m2...mn},mi表示一個(gè)模型,將每個(gè)模型看作一個(gè)動(dòng)作節(jié)點(diǎn),<mi,mj>表示mi的輸出作為mj的輸入,使得M以及M中各動(dòng)作節(jié)點(diǎn)之間的關(guān)系構(gòu)成一個(gè)有向無環(huán)圖。
[0023]所述溯源文件的地址的獲取方法為:根據(jù)所述模型工作流的輸出文件路徑查詢緩存數(shù)據(jù)庫,獲取溯源文件的地址。
[0024]所述步驟S4中,若追蹤數(shù)據(jù)產(chǎn)生過程,則通過查詢所述索引信息獲取所述溯源文件的地址,根據(jù)溯源文件的地址獲取所述溯源文件,構(gòu)建溯源圖,再現(xiàn)數(shù)據(jù)的產(chǎn)生過程。
[0025]所述步驟S4中,若追蹤數(shù)據(jù)產(chǎn)生過程,包括以下子步驟:
[0026]S51.通過查詢所述索引信息獲取所述溯源文件的地址;
[0027]S52.根據(jù)所述溯源文件的地址讀取存儲(chǔ)在HDFS上的溯源文件,將所述溯源文件緩存在鄰接表中;
[0028]S53.讀取所述溯源文件中的所有動(dòng)作節(jié)點(diǎn)及各動(dòng)作節(jié)點(diǎn)之間的關(guān)系,通過鄰接表構(gòu)造有向無環(huán)圖,再現(xiàn)數(shù)據(jù)的產(chǎn)生過程。
[0029]—種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源系統(tǒng),包括:
[0030]模型工作流分析模塊,用于分析Hadoop平臺(tái)上的模型構(gòu)成的模型工作流的輸入路徑、輸出路徑和動(dòng)作節(jié)點(diǎn),并獲取所述模型工作流中每個(gè)模型的唯一標(biāo)識(shí);
[0031]溯源信息元數(shù)據(jù)模型設(shè)計(jì)模塊,用于根據(jù)每個(gè)模型工作流對應(yīng)描述一個(gè)溯源文件;
[0032]溯源信息存儲(chǔ)模塊,用于對所述溯源文件構(gòu)建索引,將索引信息存放在緩存數(shù)據(jù)庫,索引文件存放在HDFS上;
[0033]數(shù)據(jù)溯源追蹤模塊,用于通過查詢所述索引信息獲取所述溯源文件的地址,據(jù)溯源文件的地址獲取所述溯源文件,構(gòu)建溯源圖,再現(xiàn)數(shù)據(jù)的產(chǎn)生過程。
[0034]本發(fā)明的有益效果是:本發(fā)明克服了傳統(tǒng)數(shù)據(jù)溯源方法在大數(shù)據(jù)平臺(tái)下不適用的問題,并為溯源文件建立索引,減少了 I/O操作(輸入/輸出操作),提高了查詢速度。
【附圖說明】
[0035]圖1為現(xiàn)有大數(shù)據(jù)模型分析平臺(tái)模型工作流示意圖;
[0036]圖2為本發(fā)明中數(shù)據(jù)溯源方法的流程圖;
[0037]圖3為本發(fā)明中設(shè)計(jì)溯源信息元數(shù)據(jù)模型的流程圖;
[0038]圖4為本發(fā)明中數(shù)據(jù)溯源追蹤的流程圖
[0039]圖5為本發(fā)明中數(shù)據(jù)溯源系統(tǒng)的示意圖。
【具體實(shí)施方式】
[0040]下面結(jié)合附圖進(jìn)一步詳細(xì)描述本發(fā)明的技術(shù)方案,但本發(fā)明的保護(hù)范圍不局限于以下所述。
[0041]如圖2所示,一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法,包括以下步驟:
[0042]S1.模型工作流分析:模型工作流是由控制流節(jié)點(diǎn)(例如,開始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn))和動(dòng)作節(jié)點(diǎn)組成的運(yùn)行于Hadoop平臺(tái)上的工作流,分析Hadoop平臺(tái)上的模型構(gòu)成的模型工作流的輸入節(jié)點(diǎn)、輸出節(jié)點(diǎn)和動(dòng)作節(jié)點(diǎn),并獲取各節(jié)點(diǎn)的唯一標(biāo)識(shí)。
[0043]所述步驟SI包括以下子步驟:
[0044]SI 1.掃描所述模型工作流,尋找所述模型工作流的第一個(gè)動(dòng)作節(jié)點(diǎn),獲取所述第一個(gè)動(dòng)作節(jié)點(diǎn)的輸入文件路徑作為所述模型工作流的輸入文件路徑;
[0045]尋找所述模型工作流的最后一個(gè)動(dòng)作節(jié)點(diǎn),獲取所述最后一個(gè)動(dòng)作節(jié)點(diǎn)的輸出文件路徑作為所述模型工作流的輸出文件路徑,保存所述模型工作流的輸入文件路徑和所述模型工作流輸出文件路徑;
[0046]S12.檢測所述模型工作流的所有動(dòng)作節(jié)點(diǎn),獲取所述模型工作流的唯一標(biāo)識(shí)和名稱,并使用鄰接表緩存起來。
[0047]S2.設(shè)計(jì)溯源信息元數(shù)據(jù)模型:根據(jù)每個(gè)模型工作流對應(yīng)描述一個(gè)基于XML溯源文件。
[0048]如圖2所示,根據(jù)每個(gè)模型工作流對應(yīng)描述一個(gè)基于XML溯源文件的方法為:
[0049]S21.掃描模型工作流,獲取所述模型工作流的控制流節(jié)點(diǎn)、輸入文件路徑和輸出文件路徑;
[0050]S22.檢測所述模型工作流的所有動(dòng)作節(jié)點(diǎn)及各動(dòng)作節(jié)點(diǎn)之間的關(guān)系,將所述所有動(dòng)作節(jié)點(diǎn)及各動(dòng)作節(jié)點(diǎn)之間的關(guān)系作為緩存信息,使用鄰接表緩存;
[0051 ] S23.將緩存信息寫入溯源文件中,并將溯源文件保存在HDFS上;
[0052]S24.將所述模型工作流的輸入文件路徑和輸出文件路徑、溯源文件的地址以鍵值對的形式保存在緩存數(shù)據(jù)庫中。
[0053]所述溯源文件用一個(gè)四元數(shù)組W={ID,I,0,M,T}表示,其中,ID表示所述模型工作流的唯一標(biāo)識(shí),I表示所述模型工作流的輸入節(jié)點(diǎn),O表示所述模型工作流的輸出節(jié)點(diǎn),M表示所述模型工作流動(dòng)作節(jié)點(diǎn)的集合,T表示構(gòu)建所述模型工作流的時(shí)間戳。
[0054]所述模型工作流動(dòng)作節(jié)點(diǎn)的集合M={ml,m2...mn},mi表示一個(gè)模型,將每個(gè)模型看作一個(gè)動(dòng)作節(jié)點(diǎn),<mi,mj>表示mi的輸出作為mj的輸入,使得M以及M中各動(dòng)作節(jié)點(diǎn)之間的關(guān)系構(gòu)成一個(gè)有向無環(huán)圖。
[0055]S3.溯源信息存儲(chǔ):對所述溯源文件構(gòu)建索引,將索引信息存放在緩存數(shù)據(jù)庫,索引文件存放在HDFS上。
[0056]S4.數(shù)據(jù)溯源追蹤:判斷是否追蹤數(shù)據(jù)產(chǎn)生過程,若不追蹤數(shù)據(jù)產(chǎn)生過程,則通過查詢所述索引信息獲取所述溯源文件的地址;若追蹤數(shù)據(jù)產(chǎn)生過程,則通過查詢所述索引信息獲取所述溯源文件的地址,根據(jù)溯源文件的地址獲取所述溯源文件,構(gòu)建溯源圖,再現(xiàn)數(shù)據(jù)的產(chǎn)生過程,如圖4所示。
[0057]所述溯源文件的地址的獲取方法為:根據(jù)所述模型工作流的輸出文件路徑查詢緩存數(shù)據(jù)庫,獲取溯源文件的地址。
[0058]所述步驟S4中,若追蹤數(shù)據(jù)產(chǎn)生過程,包括以下子步驟:
[0059]S51.通過查詢所述索引信息獲取所述溯源文件的地址;
[0060]S52.根據(jù)所述溯源文件的地址讀取存儲(chǔ)在HDFS上的溯源文件,將所述溯源文件緩存在鄰接表中;
[0061]S53.讀取所述溯源文件中的所有動(dòng)作節(jié)點(diǎn)及各動(dòng)作節(jié)點(diǎn)之間的關(guān)系,通過鄰接表構(gòu)造有向無環(huán)圖,再現(xiàn)數(shù)據(jù)的產(chǎn)生過程。
[0062]如圖5所示,一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源系統(tǒng),包括:
[0063]模型工作流分析模塊,用于分析Hadoop平臺(tái)上的模型構(gòu)成的模型工作流的輸入路徑、輸出路徑和動(dòng)作節(jié)點(diǎn),并獲取所述模型工作流中每個(gè)模型的唯一標(biāo)識(shí);
[0064]溯源信息元數(shù)據(jù)模型設(shè)計(jì)模塊,用于根據(jù)每個(gè)模型工作流對應(yīng)描述一個(gè)溯源文件;
[0065]溯源信息存儲(chǔ)模塊,用于對所述溯源文件構(gòu)建索引,將索引信息存放在緩存數(shù)據(jù)庫,索引文件存放在HDFS上;
[0066]數(shù)據(jù)溯源追蹤模塊,用于通過查詢所述索引信息獲取所述溯源文件的地址,據(jù)溯源文件的地址獲取所述溯源文件,構(gòu)建溯源圖,再現(xiàn)數(shù)據(jù)的產(chǎn)生過程。
[0067]以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對其他實(shí)施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述構(gòu)想范圍內(nèi),通過上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識(shí)進(jìn)行改動(dòng)。而本領(lǐng)域人員所進(jìn)行的改動(dòng)和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)利要求的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法,其特征在于:包括以下步驟: 51.模型工作流分析:分析Hadoop平臺(tái)上的模型構(gòu)成的模型工作流的輸入節(jié)點(diǎn)、輸出節(jié)點(diǎn)和動(dòng)作節(jié)點(diǎn),并獲取各節(jié)點(diǎn)的唯一標(biāo)識(shí); 52.設(shè)計(jì)溯源信息元數(shù)據(jù)模型:根據(jù)每個(gè)模型工作流對應(yīng)描述一個(gè)溯源文件; 53.溯源信息存儲(chǔ):對所述溯源文件構(gòu)建索引,將索引信息存放在緩存數(shù)據(jù)庫,索引文件存放在HDFS上; 54.數(shù)據(jù)溯源追蹤:判斷是否追蹤數(shù)據(jù)產(chǎn)生過程,若不追蹤數(shù)據(jù)產(chǎn)生過程,則通過查詢所述索引信息獲取所述溯源文件的地址。2.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法,其特征在于:所述步驟SI包括以下子步驟: SI 1.掃描所述模型工作流,尋找所述模型工作流的第一個(gè)動(dòng)作節(jié)點(diǎn),獲取所述第一個(gè)動(dòng)作節(jié)點(diǎn)的輸入文件路徑作為所述模型工作流的輸入文件路徑; 尋找所述模型工作流的最后一個(gè)動(dòng)作節(jié)點(diǎn),獲取所述最后一個(gè)動(dòng)作節(jié)點(diǎn)的輸出文件路徑作為所述模型工作流的輸出文件路徑,保存所述模型工作流的輸入文件路徑和所述模型工作流輸出文件路徑; S12.檢測所述模型工作流的所有動(dòng)作節(jié)點(diǎn),獲取所述模型工作流的唯一標(biāo)識(shí)和名稱,并使用鄰接表緩存起來。3.根據(jù)權(quán)利要求2所述的一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法,其特征在于:根據(jù)每個(gè)模型工作流對應(yīng)描述一個(gè)溯源文件的方法為: 521.掃描模型工作流,獲取所述模型工作流的控制流節(jié)點(diǎn)、輸入文件路徑和輸出文件路徑; 522.檢測所述模型工作流的所有動(dòng)作節(jié)點(diǎn)及各動(dòng)作節(jié)點(diǎn)之間的關(guān)系,將所述所有動(dòng)作節(jié)點(diǎn)及各動(dòng)作節(jié)點(diǎn)之間的關(guān)系作為緩存信息,使用鄰接表緩存; 523.將緩存信息寫入溯源文件中,并將溯源文件保存在HDFS上; 524.將所述模型工作流的輸入文件路徑和輸出文件路徑、溯源文件的地址以鍵值對的形式保存在緩存數(shù)據(jù)庫中。4.根據(jù)權(quán)利要求2所述的一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法,其特征在于:所述溯源文件用一個(gè)四元數(shù)組W= {ID,I,0,M,T}表示,其中,ID表示所述模型工作流的唯一標(biāo)識(shí),I表示所述模型工作流的輸入節(jié)點(diǎn),O表示所述模型工作流的輸出節(jié)點(diǎn),M表示所述模型工作流動(dòng)作節(jié)點(diǎn)的集合,T表示構(gòu)建所述模型工作流的時(shí)間戳。5.根據(jù)權(quán)利要求4所述的一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法,其特征在于:所述模型工作流動(dòng)作節(jié)點(diǎn)的集合M= {ml,m2...mn},mi表示一個(gè)模型,將每個(gè)模型看作一個(gè)動(dòng)作節(jié)點(diǎn),<mi,mj>表示mi的輸出作為mj的輸入,使得M以及M中各動(dòng)作節(jié)點(diǎn)之間的關(guān)系構(gòu)成一個(gè)有向無環(huán)圖。6.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法,其特征在于:所述溯源文件的地址的獲取方法為:根據(jù)所述模型工作流的輸出文件路徑查詢緩存數(shù)據(jù)庫,獲取溯源文件的地址。7.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法,其特征在于:所述步驟S4中,若追蹤數(shù)據(jù)產(chǎn)生過程,則通過查詢所述索引信息獲取所述溯源文件的地址,根據(jù)溯源文件的地址獲取所述溯源文件,構(gòu)建溯源圖,再現(xiàn)數(shù)據(jù)的產(chǎn)生過程。8.根據(jù)權(quán)利要求7所述的一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源方法,其特征在于:所述步驟S4中,若追蹤數(shù)據(jù)產(chǎn)生過程,包括以下子步驟: 551.通過查詢所述索引信息獲取所述溯源文件的地址; 552.根據(jù)所述溯源文件的地址讀取存儲(chǔ)在HDFS上的溯源文件,將所述溯源文件緩存在鄰接表中; 553.讀取所述溯源文件中的所有動(dòng)作節(jié)點(diǎn)及各動(dòng)作節(jié)點(diǎn)之間的關(guān)系,通過鄰接表構(gòu)造有向無環(huán)圖,再現(xiàn)數(shù)據(jù)的產(chǎn)生過程。9.一種基于大數(shù)據(jù)模型分析平臺(tái)的數(shù)據(jù)溯源系統(tǒng),其特征在于:包括: 模型工作流分析模塊,用于分析Hadoop平臺(tái)上的模型構(gòu)成的模型工作流的輸入路徑、輸出路徑和動(dòng)作節(jié)點(diǎn),并獲取所述模型工作流中每個(gè)模型的唯一標(biāo)識(shí); 溯源信息元數(shù)據(jù)模型設(shè)計(jì)模塊,用于根據(jù)每個(gè)模型工作流對應(yīng)描述一個(gè)溯源文件; 溯源信息存儲(chǔ)模塊,用于對所述溯源文件構(gòu)建索引,將索引信息存放在緩存數(shù)據(jù)庫,索引文件存放在HDFS上; 數(shù)據(jù)溯源追蹤模塊,用于通過查詢所述索引信息獲取所述溯源文件的地址,據(jù)溯源文件的地址獲取所述溯源文件,構(gòu)建溯源圖,再現(xiàn)數(shù)據(jù)的產(chǎn)生過程。
【文檔編號】G06F17/30GK106055676SQ201610395246
【公開日】2016年10月26日
【申請日】2016年6月3日
【發(fā)明人】林劼, 郝鵬飛, 彭世錦, 李年華, 陸文斌, 王曉明
【申請人】電子科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1