一種歷史數(shù)據(jù)存儲方法和系統(tǒng)的制作方法【專利摘要】本發(fā)明公開一種歷史數(shù)據(jù)存儲方法和系統(tǒng),所述方法針對歷史數(shù)據(jù)中存在價值較低的數(shù)據(jù)這一現(xiàn)象,預(yù)先制定了篩選策略,以過濾價值較低的數(shù)據(jù);并將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化的文本數(shù)據(jù),同時為避免對部分表內(nèi)的數(shù)據(jù)在每個抽取周期重復(fù)抽取,造成存儲浪費,制定了數(shù)據(jù)抽取策略及相應(yīng)的兩種抽取方式:增量和全量抽取,例如明細(xì)類表數(shù)據(jù)量大、增量大且有時間字段,可采用增量方式進(jìn)行數(shù)據(jù)抽取,只保存增量數(shù)據(jù),而其他表則采用全量方式,最終得到文本格式的抽取數(shù)據(jù),并將其保存至存儲設(shè)備。可見,本發(fā)明通過數(shù)據(jù)篩選過濾了價值較低的數(shù)據(jù),同時只保存增量數(shù)據(jù),并將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化的文本數(shù)據(jù),大大減少了需保存的數(shù)據(jù)量,降低了存儲成本。【專利說明】一種歷史數(shù)據(jù)存儲方法和系統(tǒng)【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明屬于數(shù)據(jù)存儲、管理【
技術(shù)領(lǐng)域:
】,尤其涉及一種歷史數(shù)據(jù)存儲方法和系統(tǒng)?!?br>背景技術(shù):
】[0002]隨著信息技術(shù)應(yīng)用的不斷發(fā)展,大型企業(yè)尤其是金融行業(yè)的信息系統(tǒng)產(chǎn)生的歷史數(shù)據(jù)越來越龐大,而且歷史數(shù)據(jù)的增長量也越來越快。[0003]大型企業(yè)尤其是金融行業(yè)的歷史數(shù)據(jù)包含較多的重要信息、敏感信息,例如銀行系統(tǒng)的客戶數(shù)據(jù)等,基于企業(yè)自身業(yè)務(wù)需求或監(jiān)管需求,不能輕易刪除歷史數(shù)據(jù),因此,需對信息系統(tǒng)所產(chǎn)生的歷史數(shù)據(jù)進(jìn)行存儲。傳統(tǒng)一般采用結(jié)構(gòu)化存儲方式,每個存儲周期將結(jié)構(gòu)化歷史數(shù)據(jù)全量備份保存于專門搭建的數(shù)據(jù)庫、數(shù)據(jù)表中,或保存在增設(shè)的磁帶庫中。然而,隨著大數(shù)據(jù)時代的到來,存儲于數(shù)據(jù)庫中的結(jié)構(gòu)化歷史數(shù)據(jù)量將飛速增長,從而導(dǎo)致數(shù)據(jù)庫和磁帶庫消耗的存儲資源將越來越大、存儲成本將越來越高。[0004]因此,提供一種能夠減小存儲資源消耗、降低存儲成本的歷史數(shù)據(jù)存儲方法成為該領(lǐng)域亟需解決的問題?!?br/>發(fā)明內(nèi)容】[0005]有鑒于此,本發(fā)明的目的在于提供一種歷史數(shù)據(jù)存儲方法和系統(tǒng),以解決當(dāng)前數(shù)據(jù)存儲方式存在的存儲資源消耗較大、存儲成本較高的問題。[0006]為此,本發(fā)明公開如下技術(shù)方案:[0007]-種歷史數(shù)據(jù)存儲方法,包括:[0008]依據(jù)預(yù)先制定的篩選策略對信息系統(tǒng)產(chǎn)生的結(jié)構(gòu)化歷史數(shù)據(jù)進(jìn)行篩選,得到待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù),所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)包括至少一種類型的數(shù)據(jù)表;[0009]依據(jù)預(yù)先設(shè)定的數(shù)據(jù)抽取策略獲取所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)中每種類型數(shù)據(jù)表所屬的數(shù)據(jù)抽取方式,其中,所述數(shù)據(jù)抽取方式包括增量抽取方式和全量抽取方式;[0010]若相應(yīng)類型數(shù)據(jù)表的抽取方式為增量抽取方式,則對所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行增量抽取,得到文本文件格式的增量數(shù)據(jù);[0011]若相應(yīng)類型數(shù)據(jù)表的抽取方式為全量抽取方式,則對所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行全量抽取,得到文本文件格式的全量數(shù)據(jù);[0012]將所述文本文件格式的增量數(shù)據(jù)以及全量數(shù)據(jù)保存至存儲設(shè)備。[0013]上述方法,優(yōu)選的,所述數(shù)據(jù)表的類型包括明細(xì)類、主檔類和靜態(tài)類。[0014]上述方法,優(yōu)選的,所述存儲設(shè)備為磁盤存儲設(shè)備。[0015]上述方法,優(yōu)選的,還包括:[0016]分別為所述增量數(shù)據(jù)所在的文本文件以及所述全量數(shù)據(jù)所在文本文件配置元數(shù)據(jù),所述元數(shù)據(jù)記錄所述文本文件的屬性信息。[0017]上述方法,優(yōu)選的,還包括:[0018]對保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行歸檔管理,所述歸檔管理包括文件歸檔、權(quán)限管理、文件檢索、文件下載、任務(wù)監(jiān)控和元數(shù)據(jù)管理。[0019]上述方法,優(yōu)選的,還包括:[0020]通過對保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行查詢管理,實現(xiàn)對保存數(shù)據(jù)的再利用。[0021]一種歷史數(shù)據(jù)存儲系統(tǒng),包括篩選模塊、獲取模塊、增量抽取模塊、全量抽取模塊以及保存模塊,其中:[0022]所述篩選模塊,用于依據(jù)預(yù)先制定的篩選策略對信息系統(tǒng)產(chǎn)生的結(jié)構(gòu)化歷史數(shù)據(jù)進(jìn)行篩選,得到待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù),所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)包括至少一種類型的數(shù)據(jù)表;[0023]所述獲取模塊,用于依據(jù)預(yù)先設(shè)定的數(shù)據(jù)抽取策略獲取所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)中每種類型數(shù)據(jù)表所屬的抽取方式,其中,所述抽取方式包括增量抽取方式和全量抽取方式;[0024]所述增量抽取模塊,用于在相應(yīng)類型數(shù)據(jù)表的抽取方式為增量抽取方式時,對所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行增量抽取,得到文本文件格式的增量數(shù)據(jù);[0025]所述全量抽取模塊,用于在相應(yīng)類型數(shù)據(jù)表的抽取方式為全量抽取方式時,對所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行全量抽取,得到文本文件格式的全量數(shù)據(jù);[0026]所述保存模塊,用于將所述文本文件格式的增量數(shù)據(jù)以及全量數(shù)據(jù)保存至存儲設(shè)備。[0027]上述系統(tǒng),優(yōu)選的,還包括配置模塊,所述配置模塊用于分別為所述增量數(shù)據(jù)所在的文本文件以及所述全量數(shù)據(jù)所在文本文件配置元數(shù)據(jù),所述元數(shù)據(jù)記錄所述文本文件的屬性信息。[0028]上述系統(tǒng),優(yōu)選的,還包括歸檔管理模塊,所述管理模塊用于對保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行歸檔管理,所述歸檔管理包括文件歸檔、權(quán)限管理、表信息查詢、文件檢索、文件下載和元數(shù)據(jù)管理。[0029]上述系統(tǒng),優(yōu)選的,還包括查詢管理模塊,所述查詢管理模塊用于通過對保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行查詢管理,實現(xiàn)對保存數(shù)據(jù)的再利用。[0030]本發(fā)明提供了一種歷史數(shù)據(jù)存儲方法和系統(tǒng),所述方法針對結(jié)構(gòu)化歷史數(shù)據(jù)中往往存在價值較低的數(shù)據(jù)這一現(xiàn)象,預(yù)先制定了篩選策略,以過濾價值較低的數(shù)據(jù);并改變結(jié)構(gòu)化數(shù)據(jù)全量備份的保存方式,將占用資源較多的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化的文本數(shù)據(jù),同時為避免對部分表內(nèi)的數(shù)據(jù)每個抽取周期重復(fù)抽取,造成存儲浪費,制定了數(shù)據(jù)抽取策略及相應(yīng)的兩種抽取方式:增量抽取和全量抽取,例如明細(xì)類數(shù)據(jù)表數(shù)據(jù)量大、增長量大且有日期時間字段,對其可采用增量方式進(jìn)行數(shù)據(jù)抽取,每個存儲周期只保存增量數(shù)據(jù),而其他數(shù)據(jù)表,如靜態(tài)表等增量較小且無時間字段,則采用全量方式進(jìn)行抽取,最終得到文本文件格式的抽取數(shù)據(jù),并將其保存至存儲設(shè)備。[0031]可見,本發(fā)明改變了結(jié)構(gòu)化數(shù)據(jù)全量備份的保存方式,通過數(shù)據(jù)篩選過濾掉了價值較低的數(shù)據(jù),同時針對明細(xì)類表只保存增量數(shù)據(jù),并將占用資源較多的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化的文本數(shù)據(jù),大大減少了需保存的數(shù)據(jù)量,減小了存儲消耗、降低了存儲成本。【專利附圖】【附圖說明】[0032]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0033]圖1是本發(fā)明實施例一公開的歷史數(shù)據(jù)存儲方法的一種流程圖;[0034]圖2是本發(fā)明實施例三公開的歷史數(shù)據(jù)存儲方法的另一種流程圖;[0035]圖3是本發(fā)明實施例四公開的歷史數(shù)據(jù)存儲方法的又一種流程圖;[0036]圖4是本發(fā)明實施例五公開的歷史數(shù)據(jù)存儲系統(tǒng)的一種結(jié)構(gòu)示意圖;[0037]圖5是本發(fā)明實施例五公開的歷史數(shù)據(jù)存儲系統(tǒng)的另一種結(jié)構(gòu)示意圖;[0038]圖6是本發(fā)明實施例五公開的歷史數(shù)據(jù)存儲系統(tǒng)的又一種結(jié)構(gòu)示意圖;[0039]圖7是本發(fā)明實施例五公開的實現(xiàn)本發(fā)明方法的技術(shù)架構(gòu)?!揪唧w實施方式】[0040]為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。[0041]實施例一[0042]本發(fā)明實施例一公開一種歷史數(shù)據(jù)存儲方法,該方法適于對海量歷史數(shù)據(jù)進(jìn)行長期保存,請參見圖1,上述方法包括如下步驟:[0043]S1:依據(jù)預(yù)先制定的篩選策略對信息系統(tǒng)產(chǎn)生的結(jié)構(gòu)化歷史數(shù)據(jù)進(jìn)行篩選,得到待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù),所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)包括至少一種類型的數(shù)據(jù)表。[0044]大型企業(yè),例如銀行類的大型金融企業(yè),結(jié)構(gòu)化歷史數(shù)據(jù)的數(shù)據(jù)量以及每日的數(shù)據(jù)增量都非常大(占用空間超過TB級),且這些數(shù)據(jù)中往往存在一些不重要的、價值較低的數(shù)據(jù),對所有數(shù)據(jù)進(jìn)行歸檔保存會造成不必要的資源浪費,針對此種情況,本實施例預(yù)先制定篩選策略,以對價值較低的數(shù)據(jù)進(jìn)行過濾,初步減少需保存的數(shù)據(jù)量。[0045]具體地,通過對數(shù)據(jù)庫表中存儲的數(shù)據(jù)業(yè)務(wù)類型進(jìn)行判斷,將有價值、重要、需要長期保存的數(shù)據(jù)納入保存范圍。以銀行系統(tǒng)為例,記載銀行與客戶之間債權(quán)、債務(wù)關(guān)系(如分戶帳)和記載銀行與客戶之間交易行為關(guān)系(如日志、明細(xì)帳等)的數(shù)據(jù)為銀行系統(tǒng)的核心數(shù)據(jù),價值較高,此類數(shù)據(jù)需要保存,而其他一些非賬務(wù)數(shù)據(jù)暫不納入需要存儲的范圍,因此,可采用篩選策略將這些數(shù)據(jù)過濾掉。[0046]S2:依據(jù)預(yù)先設(shè)定的數(shù)據(jù)抽取策略獲取所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)中每種類型數(shù)據(jù)表所屬的數(shù)據(jù)抽取方式,其中,所述數(shù)據(jù)抽取方式包括增量抽取方式和全量抽取方式。[0047]由于企業(yè)歷史數(shù)據(jù)量巨大,本發(fā)明考慮盡量不在每個抽取周期對所有數(shù)據(jù)(包括之前歷史數(shù)據(jù)和本周期新增數(shù)據(jù))進(jìn)行全量歸檔,為避免對部分?jǐn)?shù)據(jù)表內(nèi)數(shù)據(jù)每個周期重復(fù)抽取,造成存儲浪費,本發(fā)明制定了數(shù)據(jù)抽取策略及相應(yīng)的兩種抽取方式:增量抽?。ㄖ怀槿”局芷谛略鰯?shù)據(jù))和全量抽取,以采用相應(yīng)方式從生產(chǎn)數(shù)據(jù)庫(在線數(shù)據(jù))、歷史數(shù)據(jù)庫(近線數(shù)據(jù))或歷史磁帶庫(離線數(shù)據(jù))中抽取數(shù)據(jù)。[0048]S3:若相應(yīng)類型數(shù)據(jù)表的抽取方式為增量抽取方式,則對所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行增量抽取,得到文本文件格式的增量數(shù)據(jù)。[0049]具體地,例如明細(xì)類數(shù)據(jù)表數(shù)據(jù)量大、增長量大且有日期字段,對該類數(shù)據(jù)表可按日期字段采用增量方式只抽取其當(dāng)日新增數(shù)據(jù),并同時將新增數(shù)抽取為非結(jié)構(gòu)化的文本文件格式進(jìn)行保存,而之前的歷史數(shù)據(jù)不再重復(fù)抽取。[0050]由于明細(xì)類數(shù)據(jù)表數(shù)據(jù)量及增長量較大,本實施例對其進(jìn)行每日歸檔,即每天抽取明細(xì)表的當(dāng)日新增數(shù)據(jù),減少了數(shù)據(jù)的重復(fù)抽取。[0051]S4:若相應(yīng)類型數(shù)據(jù)表的抽取方式為全量抽取方式,則對所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行全量抽取,得到文本文件格式的全量數(shù)據(jù);[0052]主檔表或靜態(tài)表沒有日期字段標(biāo)識數(shù)據(jù)時間,只能在每個抽取周期采用全量抽取方式對全表數(shù)據(jù)進(jìn)行抽取,并同時將全量數(shù)據(jù)抽取為非結(jié)構(gòu)化的文本文件格式。對于主檔表或靜態(tài)表,由于其數(shù)據(jù)量及增長量較小,本實施例采用每月歸檔,減少了數(shù)據(jù)的抽取次數(shù)。[0053]具體地,對于存儲在數(shù)據(jù)庫中的數(shù)據(jù),可采用數(shù)據(jù)庫提供的抽取為文本文檔的命令進(jìn)行數(shù)據(jù)抽取,例如針對Sybase數(shù)據(jù)庫,全量抽取可采用該數(shù)據(jù)庫提供的:bcpdbname.·tablenameout文件(帶路徑)-Usa-Ppassword-Sservername-c命令抽取得到非結(jié)構(gòu)化的文本文件。[0054]增量抽取可采用增加查詢條件實現(xiàn),如增加查詢條件:select*fromAAAwhereDATE=$workDate$可實現(xiàn)從數(shù)據(jù)表"AAA"中抽取出時間字段是"workDate"的增量數(shù)據(jù)。[0055]其中,對于已經(jīng)存儲在磁帶庫中的數(shù)據(jù),需要首先搭建數(shù)據(jù)庫環(huán)境,利用搭建的環(huán)境將磁帶數(shù)據(jù)恢復(fù),之后可對恢復(fù)的數(shù)據(jù)進(jìn)行抽取。[0056]S5:將所述文本文件格式的增量數(shù)據(jù)以及全量數(shù)據(jù)保存至存儲設(shè)備。[0057]綜上,本發(fā)明方法針對結(jié)構(gòu)化歷史數(shù)據(jù)中往往存在價值較低的數(shù)據(jù)這一現(xiàn)象,預(yù)先制定了篩選策略,以過濾價值較低的數(shù)據(jù);并改變結(jié)構(gòu)化數(shù)據(jù)全量備份的保存方式,將占用資源較多的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化的文本數(shù)據(jù),同時為避免對部分表內(nèi)的數(shù)據(jù)每個抽取周期重復(fù)抽取,造成存儲浪費,制定了數(shù)據(jù)抽取策略及相應(yīng)的兩種抽取方式:增量抽取和全量抽取,例如明細(xì)類數(shù)據(jù)表數(shù)據(jù)量大、增長量大且有日期時間字段,對其可采用增量方式進(jìn)行數(shù)據(jù)抽取,每個存儲周期只保存增量數(shù)據(jù),而其他數(shù)據(jù)表,如靜態(tài)表等增量較小且無時間字段,則采用全量方式進(jìn)行抽取,最終得到文本文件格式的抽取數(shù)據(jù),并將其保存至存儲設(shè)備。[0058]可見,本發(fā)明改變了結(jié)構(gòu)化數(shù)據(jù)全量備份的保存方式,通過數(shù)據(jù)篩選過濾掉了價值較低的數(shù)據(jù),同時針對明細(xì)類表只保存增量數(shù)據(jù),并將占用資源較多的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為非結(jié)構(gòu)化的文本數(shù)據(jù),大大減少了需保存的數(shù)據(jù)量,減小了存儲消耗、降低了存儲成本。[0059]實施例二[0060]本實施例二對保存文本數(shù)據(jù)所采用的存儲設(shè)備進(jìn)行說明。[0061]具體地,本發(fā)明采用磁盤存儲設(shè)備對抽取的文本數(shù)據(jù)進(jìn)行保存。區(qū)別于現(xiàn)有的存儲介質(zhì),本發(fā)明采用磁盤存儲設(shè)備具有如下優(yōu)勢:[0062]1)高效[0063]現(xiàn)實應(yīng)用中,大規(guī)模的歷史數(shù)據(jù)短期內(nèi)(如三年內(nèi))一般存于在線數(shù)據(jù)庫,超過一定年限后一般從在線數(shù)據(jù)庫轉(zhuǎn)移到磁帶庫中存儲,然而保存和訪問磁帶庫歷史數(shù)據(jù)的效率較低,本發(fā)明采用磁盤存儲設(shè)備,提高了數(shù)據(jù)的保存和訪問效率。[0064]2)安全[0065]大型企業(yè)尤其是金融行業(yè)的歷史數(shù)據(jù)往往包含較多敏感信息,安全性要求較高,現(xiàn)有一般通過權(quán)限控制來保證數(shù)據(jù)的安全性,但仍存在權(quán)限泄漏、數(shù)據(jù)被更改的可能,本發(fā)明采用專用的磁盤存儲設(shè)備,數(shù)據(jù)文件一旦存入該設(shè)備,其從物理層面決定數(shù)據(jù)將不能再修改。[0066]3)經(jīng)濟[0067]現(xiàn)有數(shù)據(jù)庫尤其是高性能的大型機數(shù)據(jù)庫存儲資源成本較高,而磁盤存儲設(shè)備成本低廉。[0068]4)再利用[0069]現(xiàn)有技術(shù)中,時間久遠(yuǎn)的歷史數(shù)據(jù)一般存放于磁帶庫中,對磁帶庫中數(shù)據(jù)進(jìn)行再利用難度大、成本高(需搭建一套和產(chǎn)生歷史數(shù)據(jù)的原系統(tǒng)相同的環(huán)境),且磁帶介質(zhì)壽命較短易導(dǎo)致數(shù)據(jù)無法恢復(fù),本發(fā)明采用的磁盤存儲設(shè)備可將數(shù)據(jù)恢復(fù)至任意一數(shù)據(jù)庫中進(jìn)行再利用,且其壽命長、設(shè)備維護、擴容和升級方便。[0070]實施例三[0071]本實施例三繼續(xù)對以上實施例公開的歷史數(shù)據(jù)存儲方法進(jìn)行補充,請參見圖2,該方法還包括:[0072]S6:分別為所述增量數(shù)據(jù)所在的文本文件以及所述全量數(shù)據(jù)所在文本文件配置元數(shù)據(jù),所述元數(shù)據(jù)記錄所述文本文件的屬性信息。[0073]其中,元數(shù)據(jù)中記錄了文件的重要屬性信息,包括省市代碼、表名、日期、大小、保存年限等,以方便后續(xù)對保存的數(shù)據(jù)文件進(jìn)行管理。[0074]實施例四[0075]本實施例四繼續(xù)對以上實施例公開的歷史數(shù)據(jù)存儲方法進(jìn)行補充、完善。請參見圖3,該方法還包括:[0076]S7:對保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行歸檔管理。[0077]歸檔管理包括文件歸檔、權(quán)限管理、文件檢索與下載、數(shù)據(jù)文件年限管理、輔助查詢數(shù)據(jù)裝載、任務(wù)監(jiān)控以及元數(shù)據(jù)管理等功能。[0078]其中,文件歸檔包括自動批量歸檔和手動批量歸檔。自動批量歸檔實現(xiàn)將從數(shù)據(jù)庫中抽取的數(shù)據(jù)定時批量歸檔保存到磁盤存儲設(shè)備中(可通過軟件形式實現(xiàn)),手動歸檔指通過手動操作方式將磁帶數(shù)據(jù)或其他數(shù)據(jù)歸檔到磁盤存儲設(shè)備中。[0079]具體地,實現(xiàn)數(shù)據(jù)歸檔保存的過程如下:采用數(shù)據(jù)抽取程序從生產(chǎn)系統(tǒng)(信息系統(tǒng))中抽取并導(dǎo)出待歸檔的文本數(shù)據(jù),即格式為gzip的文件(包括增量數(shù)據(jù)和全量數(shù)據(jù)),并將其存放在NAS(NetworkAttachedStorage:網(wǎng)絡(luò)附屬存儲)中進(jìn)行中轉(zhuǎn)存儲;當(dāng)數(shù)據(jù)抽取程序執(zhí)行完畢后,數(shù)據(jù)上傳程序?qū)⒅修D(zhuǎn)存儲的gzip文件導(dǎo)入磁盤存儲設(shè)備中實現(xiàn)歸檔,同時記錄文件的元數(shù)據(jù)信息,包括省市代碼、表名、日期、大小、保存年限等。[0080]元數(shù)據(jù)管理是歸檔管理的一項重要功能,用于對已歸檔文本文件的元數(shù)據(jù)進(jìn)行修改、添加或刪除等操作,例如修改元數(shù)據(jù)中的保存年限字段。后續(xù)歸檔管理可在文本文件超出保存年限字段所標(biāo)識的保存期限后,對該文本文件進(jìn)行清除。[0081]S8:通過對保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行查詢管理,實現(xiàn)對保存數(shù)據(jù)的再利用。[0082]查詢管理提供對保存至磁盤設(shè)備的文本文件數(shù)據(jù)進(jìn)行表信息查詢、文件下載、恢復(fù)和輔助查詢功能,以實現(xiàn)對已保存的相應(yīng)文本數(shù)據(jù)進(jìn)行再利用。[0083]其中,在對文本文件進(jìn)行歸檔時,預(yù)先制定待歸檔文件的明細(xì),得到歸檔明細(xì)表。在此基礎(chǔ)上,當(dāng)需要對保存的文本數(shù)據(jù)進(jìn)行再利用時,本步驟S8的詢管理功能可通過索引查詢到文本文件,再將其恢復(fù)到任意一數(shù)據(jù)庫中,實現(xiàn)數(shù)據(jù)的再利用。[0084]具體地,表信息查詢(通過索引查詢文件)是指通過輸入一些關(guān)鍵信息,查找到精確的表信息,例如通過輸入中文表名、所屬子系統(tǒng)、表的類別、涉及的產(chǎn)品名,可以查到符合條件的表信息,得到英文表名,然后通過輸入英文表名、時間區(qū)間、文件類型,進(jìn)行文件檢索,得到所需的文本文件。[0085]接下來,本步驟S8提供的查詢管理功能將文件檢索的結(jié)果從歸檔磁盤設(shè)備中下載并導(dǎo)入至本地任意一主流的數(shù)據(jù)庫中,實現(xiàn)數(shù)據(jù)恢復(fù),之后通過后續(xù)的輔助查詢從恢復(fù)的數(shù)據(jù)中查詢出所需的特定數(shù)據(jù),以為后續(xù)的數(shù)據(jù)再利用提供支持。[0086]本實施例通過歸檔管理和查詢管理實現(xiàn)了歸檔后數(shù)據(jù)的統(tǒng)一管理和再利用。[0087]實施例五[0088]本實施例五公開一種歷史數(shù)據(jù)存儲系統(tǒng),該系統(tǒng)與以上各實施例公開的歷史數(shù)據(jù)存儲方法相對應(yīng)。[0089]首先,相應(yīng)于實施例一中歷史數(shù)據(jù)存儲方法的流程,如圖4所示,上述系統(tǒng)包括篩選模塊100、獲取模塊200、增量抽取模塊300、全量抽取模塊400以及保存模塊500。[0090]篩選模塊100,用于依據(jù)預(yù)先制定的篩選策略對信息系統(tǒng)產(chǎn)生的結(jié)構(gòu)化歷史數(shù)據(jù)進(jìn)行篩選,得到待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù),所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)包括至少一種類型的數(shù)據(jù)表。[0091]獲取模塊200,用于依據(jù)預(yù)先設(shè)定的數(shù)據(jù)抽取策略獲取所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)中每種類型數(shù)據(jù)表所屬的抽取方式,其中,所述抽取方式包括增量抽取方式和全量抽取方式。[0092]增量抽取模塊300,用于在相應(yīng)類型數(shù)據(jù)表的抽取方式為增量抽取方式時,對所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行增量抽取,得到文本文件格式的增量數(shù)據(jù)。[0093]全量抽取模塊400,用于在相應(yīng)類型數(shù)據(jù)表的抽取方式為全量抽取方式時,對所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行全量抽取,得到文本文件格式的全量數(shù)據(jù)。[0094]保存模塊500,用于將所述文本文件格式的增量數(shù)據(jù)以及全量數(shù)據(jù)保存至存儲設(shè)備。[0095]相應(yīng)于實施例三中歷史數(shù)據(jù)存儲方法的流程,請參見圖5,上述歷史數(shù)據(jù)存儲系統(tǒng)還包括配置模塊600,該模塊用于分別為所述增量數(shù)據(jù)所在的文本文件以及所述全量數(shù)據(jù)所在文本文件配置元數(shù)據(jù),所述元數(shù)據(jù)記錄所述文本文件的屬性信息。[0096]相應(yīng)于實施例四,如圖6所示,該歷史數(shù)據(jù)存儲系統(tǒng)還包括歸檔管理模塊700和查詢管理模塊800。[0097]歸檔管理模塊700,用于對保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行歸檔管理,所述歸檔管理包括文件歸檔、權(quán)限管理、表信息查詢、文件檢索、文件下載和元數(shù)據(jù)管理。[0098]查詢管理模塊800,用于通過對保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行查詢管理,實現(xiàn)對保存數(shù)據(jù)的再利用。[0099]接下來,請參見圖7,本實施例繼續(xù)公開實現(xiàn)本發(fā)明方法或系統(tǒng)的技術(shù)架構(gòu),包括主機數(shù)據(jù)層、數(shù)據(jù)抽取層和歷史數(shù)據(jù)管理層。[0100]在主機數(shù)據(jù)層,可將歷史磁帶備份數(shù)據(jù)恢復(fù)到數(shù)據(jù)庫,恢復(fù)數(shù)據(jù)同當(dāng)前生產(chǎn)數(shù)據(jù)庫一起,作為數(shù)據(jù)源對外提供數(shù)據(jù)抽取接口。[0101]在數(shù)據(jù)抽取層,配置抽取策略和作業(yè),并使用數(shù)據(jù)庫提供的自有工具或第三方工具,進(jìn)行數(shù)據(jù)庫的數(shù)據(jù)抽取,將數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換為純文本文件。[0102]在歷史數(shù)據(jù)管理層,通過開發(fā)專用的管理系統(tǒng)平臺,對權(quán)限、歸檔操作、文件等進(jìn)行管理,并通過輔助查詢,對外提供歷史數(shù)據(jù)的再利用。[0103]對于本發(fā)明實施例五公開的歷史數(shù)據(jù)存儲系統(tǒng)而言,由于其與以上各實施例公開的歷史數(shù)據(jù)存儲方法相對應(yīng),所以描述的比較簡單,相關(guān)相似之處請參見以上各實施例中歷史數(shù)據(jù)存儲方法部分的說明即可,此處不再詳述。[0104]綜上所述,本發(fā)明通過制定數(shù)據(jù)的抽取策略,改變了結(jié)構(gòu)化數(shù)據(jù)全量備份保存的方式,只保存增量數(shù)據(jù),并將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為非結(jié)構(gòu)化的文本數(shù)據(jù),大大減少了需保存的數(shù)據(jù)量,降低了資源消耗;且本發(fā)明使用磁盤存儲設(shè)備保存數(shù)據(jù),具有高效、安全、經(jīng)濟以及再利用可靠性高的優(yōu)點,當(dāng)需要對已保存的文本數(shù)據(jù)恢復(fù)再利用時,通過索引查詢到文本文件再將其恢復(fù)到任意一主流數(shù)據(jù)庫中即可,數(shù)據(jù)再利用的可靠性大大增強。[0105]需要說明的是,本說明書中的各個實施例均采用遞進(jìn)的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。[0106]為了描述的方便,描述以上裝置時以功能分為各種模塊或單元分別描述。當(dāng)然,在實施本申請時可以把各模塊、單元的功能在同一個或多個軟件和/或硬件中實現(xiàn)。[0107]通過以上的實施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,本申請的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實施例或者實施例的某些部分所述的方法。[0108]以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本【
技術(shù)領(lǐng)域:
】的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護范圍?!緳?quán)利要求】1.一種歷史數(shù)據(jù)存儲方法,其特征在于,包括:依據(jù)預(yù)先制定的篩選策略對信息系統(tǒng)產(chǎn)生的結(jié)構(gòu)化歷史數(shù)據(jù)進(jìn)行篩選,得到待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù),所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)包括至少一種類型的數(shù)據(jù)表;依據(jù)預(yù)先設(shè)定的數(shù)據(jù)抽取策略獲取所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)中每種類型數(shù)據(jù)表所屬的數(shù)據(jù)抽取方式,其中,所述數(shù)據(jù)抽取方式包括增量抽取方式和全量抽取方式;若相應(yīng)類型數(shù)據(jù)表的抽取方式為增量抽取方式,則對所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行增量抽取,得到文本文件格式的增量數(shù)據(jù);若相應(yīng)類型數(shù)據(jù)表的抽取方式為全量抽取方式,則對所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行全量抽取,得到文本文件格式的全量數(shù)據(jù);將所述文本文件格式的增量數(shù)據(jù)以及全量數(shù)據(jù)保存至存儲設(shè)備。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)表的類型包括明細(xì)類、主檔類和靜態(tài)類。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述存儲設(shè)備為磁盤存儲設(shè)備。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:分別為所述增量數(shù)據(jù)所在的文本文件以及所述全量數(shù)據(jù)所在文本文件配置元數(shù)據(jù),所述元數(shù)據(jù)記錄所述文本文件的屬性信息。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,還包括:對保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行歸檔管理,所述歸檔管理包括文件歸檔、權(quán)限管理、文件檢索、文件下載、任務(wù)監(jiān)控和元數(shù)據(jù)管理。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,還包括:通過對保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行查詢管理,實現(xiàn)對保存數(shù)據(jù)的再利用。7.-種歷史數(shù)據(jù)存儲系統(tǒng),其特征在于,包括篩選模塊、獲取模塊、增量抽取模塊、全量抽取模塊以及保存模塊,其中:所述篩選模塊,用于依據(jù)預(yù)先制定的篩選策略對信息系統(tǒng)產(chǎn)生的結(jié)構(gòu)化歷史數(shù)據(jù)進(jìn)行篩選,得到待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù),所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)包括至少一種類型的數(shù)據(jù)表;所述獲取模塊,用于依據(jù)預(yù)先設(shè)定的數(shù)據(jù)抽取策略獲取所述待歸檔的結(jié)構(gòu)化歷史數(shù)據(jù)中每種類型數(shù)據(jù)表所屬的抽取方式,其中,所述抽取方式包括增量抽取方式和全量抽取方式;所述增量抽取模塊,用于在相應(yīng)類型數(shù)據(jù)表的抽取方式為增量抽取方式時,對所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行增量抽取,得到文本文件格式的增量數(shù)據(jù);所述全量抽取模塊,用于在相應(yīng)類型數(shù)據(jù)表的抽取方式為全量抽取方式時,對所述類型數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行全量抽取,得到文本文件格式的全量數(shù)據(jù);所述保存模塊,用于將所述文本文件格式的增量數(shù)據(jù)以及全量數(shù)據(jù)保存至存儲設(shè)備。8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,還包括配置模塊,所述配置模塊用于分別為所述增量數(shù)據(jù)所在的文本文件以及所述全量數(shù)據(jù)所在文本文件配置元數(shù)據(jù),所述元數(shù)據(jù)記錄所述文本文件的屬性信息。9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,還包括歸檔管理模塊,所述管理模塊用于對保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行歸檔管理,所述歸檔管理包括文件歸檔、權(quán)限管理、表信息查詢、文件檢索、文件下載和元數(shù)據(jù)管理。10.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,還包括查詢管理模塊,所述查詢管理模塊用于通過對保存后的所述文本文件格式的數(shù)據(jù)進(jìn)行查詢管理,實現(xiàn)對保存數(shù)據(jù)的再利用?!疚臋n編號】G06F17/30GK104102737SQ201410363419【公開日】2014年10月15日申請日期:2014年7月28日優(yōu)先權(quán)日:2014年7月28日【發(fā)明者】楊亮,王晶申請人:中國農(nóng)業(yè)銀行股份有限公司