亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種網(wǎng)絡(luò)管理數(shù)據(jù)無損壓縮存儲與檢索的方法與系統(tǒng)的制作方法

文檔序號:6535600閱讀:218來源:國知局
一種網(wǎng)絡(luò)管理數(shù)據(jù)無損壓縮存儲與檢索的方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種網(wǎng)絡(luò)管理數(shù)據(jù)無損壓縮存儲與檢索的方法與系統(tǒng),應(yīng)用于網(wǎng)絡(luò)管理數(shù)據(jù)的壓縮、檢索、長期保存和還原。所述方法包括以下步驟:讀取原始網(wǎng)管數(shù)據(jù)表,對非頻繁變化屬性值預(yù)先進行分組壓縮存儲;對于連續(xù)型屬性值,記錄取值區(qū)間變化的增量而非全量;對于離散屬性值,采用分組存儲進行壓縮;對于記錄號集合,采用VLB變長壓縮后的數(shù)據(jù)集合進行存儲;根據(jù)預(yù)制的查詢條件,在壓縮的同時進行統(tǒng)計、構(gòu)建索引。所述系統(tǒng)由網(wǎng)管數(shù)據(jù)分組去重模塊、網(wǎng)管數(shù)據(jù)屬性壓縮存儲模塊、網(wǎng)管數(shù)據(jù)檢索模塊以及網(wǎng)管壓縮數(shù)據(jù)還原模塊四個部分組成。
【專利說明】—種網(wǎng)絡(luò)管理數(shù)據(jù)無損壓縮存儲與檢索的方法與系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明提供了一種對關(guān)系型數(shù)據(jù)庫數(shù)據(jù)進行壓縮存儲與檢索的方法與系統(tǒng),尤其是適用于內(nèi)含大量相似數(shù)據(jù)記錄的海量網(wǎng)絡(luò)管理數(shù)據(jù)。
【背景技術(shù)】
[0002]隨著信息技術(shù)的發(fā)展,通信網(wǎng)絡(luò)的建設(shè)正朝著多業(yè)務(wù)、多功能、高速的方向發(fā)展,規(guī)模越來越龐大,結(jié)構(gòu)越來越復(fù)雜,需要依靠網(wǎng)絡(luò)管理系統(tǒng)保證網(wǎng)絡(luò)穩(wěn)定、有效、安全地提供高質(zhì)量的服務(wù)。網(wǎng)絡(luò)管理系統(tǒng)需要采集、存儲和處理大量的SNMP、Syslog日志、ICMP探測、流量等網(wǎng)絡(luò)管理數(shù)據(jù)。這些數(shù)據(jù)一般按照分鐘或更小的時間粒度進行請求和采集,但是為了實現(xiàn)網(wǎng)管系統(tǒng)高速數(shù)據(jù)檢索,滿足存儲容量受限的需要,往往會對一段時間前的采集數(shù)據(jù)進行有損的合并存儲,這樣無法對網(wǎng)絡(luò)管理中故障定位分析等提供較長時間內(nèi)細粒度的監(jiān)控數(shù)據(jù)。
[0003]每一天每個路由器或交換機等網(wǎng)絡(luò)設(shè)備的監(jiān)控采集信息有數(shù)百兆字節(jié),核心網(wǎng)管服務(wù)器需要存儲上百個不同地址、不同時間采集的網(wǎng)絡(luò)設(shè)備監(jiān)控信息,進行分析和處理,存儲的數(shù)據(jù)量巨大。
[0004]為了便于組織和處理,網(wǎng)絡(luò)管理數(shù)據(jù)一般采用關(guān)系型數(shù)據(jù)庫存儲。關(guān)系型數(shù)據(jù)庫存儲容量增加的同時會大大降低數(shù)據(jù)庫查詢和處理的效率,因此網(wǎng)絡(luò)管理數(shù)據(jù)的海量增長給關(guān)系型數(shù)據(jù)庫開來挑戰(zhàn)。
[0005]數(shù)據(jù)壓縮是指在不丟失信息的前提下,縮減數(shù)據(jù)量以減少存儲空間,提高其傳輸、存儲和處理效率的一種技術(shù)方法?;虬凑找欢ǖ乃惴▽?shù)據(jù)進行重新組織,減少數(shù)據(jù)的冗余和存儲的空間。數(shù)據(jù)壓縮包括有損壓縮和無損壓縮。從壓縮對象來看,壓縮方法分為通用數(shù)據(jù)壓縮和多媒體數(shù)據(jù)壓縮。通用數(shù)據(jù)壓縮方法包括基于統(tǒng)計模型的壓縮方法和基于字典模型的壓縮方法;增量壓縮是利用兩個文件之間的內(nèi)容差異來進行編碼壓縮;把數(shù)據(jù)壓縮應(yīng)用到數(shù)據(jù)庫的存儲中,在訪問時經(jīng)常要為數(shù)據(jù)壓縮耗費很大的時間開銷。
[0006]關(guān)系型數(shù)據(jù)庫是為通用用途設(shè)計的,并沒有為網(wǎng)絡(luò)管理系統(tǒng)進行優(yōu)化,采用關(guān)系型數(shù)據(jù)庫存儲網(wǎng)管數(shù)據(jù),空間利用率不足?,F(xiàn)有壓縮方法沒有充分利用網(wǎng)絡(luò)管理數(shù)據(jù)的固有特點。網(wǎng)絡(luò)管理數(shù)據(jù)是一類特殊的數(shù)據(jù)集,不同的數(shù)據(jù)記錄之間存在大量相同之處,這些相同記錄是的各個數(shù)據(jù)記錄之間存在大量的數(shù)據(jù)冗余。數(shù)據(jù)壓縮可以提高海量網(wǎng)絡(luò)管理數(shù)據(jù)的存儲效率,提高數(shù)據(jù)庫的性能。

【發(fā)明內(nèi)容】

[0007]現(xiàn)有的網(wǎng)絡(luò)管理系統(tǒng),絕大部分均將管理數(shù)據(jù)存儲在關(guān)系型數(shù)據(jù)庫中。傳統(tǒng)關(guān)系型數(shù)據(jù)庫存儲采用頁表結(jié)構(gòu),對數(shù)據(jù)庫頁表可以采用的通用的zip等壓縮機制,但是提供的壓縮比有限。因為網(wǎng)管系統(tǒng)需要存儲處理的數(shù)據(jù)量非常大,導(dǎo)致其只能記錄近幾天的細粒度網(wǎng)管數(shù)據(jù),對于更早的數(shù)據(jù)只能記錄更粗時間粒度統(tǒng)計采樣后的值,這使得對于歷史故障現(xiàn)象的回溯幾乎不可能。[0008]本發(fā)明提供了一種對網(wǎng)絡(luò)管理數(shù)據(jù)進行壓縮與檢索的方法與系統(tǒng),通過實施本發(fā)明所屬的方法與系統(tǒng),可以有效的對網(wǎng)絡(luò)管理數(shù)據(jù)進行壓縮存儲,以備日后分析使用。
[0009]本發(fā)明揭示了一種可以網(wǎng)絡(luò)管理數(shù)據(jù)進行壓縮、檢索、長期保存的方法與系統(tǒng)。
[0010]有益效果
[0011](1)長期存儲:本發(fā)明描述了一種針對數(shù)據(jù)性質(zhì)自適應(yīng)的壓縮的長期保存機制,便于運營、維護、管理人員回溯分析數(shù)據(jù)。
[0012](2)檢索分析:本發(fā)明在所述的數(shù)據(jù)長期保存的結(jié)構(gòu)基礎(chǔ)上,提供了檢索分析接口,對預(yù)定義的指標進行統(tǒng)計。
[0013](3)數(shù)據(jù)還原:從長期保存的數(shù)據(jù)向網(wǎng)管系統(tǒng)還原數(shù)據(jù),使用現(xiàn)有網(wǎng)管系統(tǒng)的分析工具,對數(shù)據(jù)進行分析。
[0014]實施本發(fā)明的要點在于:
[0015]對于要壓縮的數(shù)據(jù),預(yù)先進行分組;對于重復(fù)的數(shù)據(jù)預(yù)先進行分組壓縮存儲,不再額外存儲重復(fù)的數(shù)據(jù)記錄;對于連續(xù)量,記錄取值區(qū)間變化的增量而非全量以達到降低存儲空間要求的目的;對于離散量,采用分組存儲進行壓縮;對于記錄號集合,采用VLB變長壓縮后的數(shù)據(jù)集合進行存儲;根據(jù)預(yù)制的查詢條件,在壓縮的同時進行統(tǒng)計、構(gòu)建索引;
[0016]其特征在于,對于網(wǎng)管數(shù)據(jù)中的多個屬性,可以存放于一個壓縮表中,也可以各自獨立存放于多個壓縮表中;凡是采用了前述一條或多條技術(shù)方案的有關(guān)網(wǎng)絡(luò)管理數(shù)據(jù)的壓縮方法與系統(tǒng),均在本發(fā)明的保護范圍之內(nèi)。
【專利附圖】

【附圖說明】
[0017]圖1是本發(fā)明系統(tǒng)架構(gòu)圖;
[0018]圖2是系統(tǒng)壓縮原理;
[0019]圖3是系統(tǒng)壓縮存儲流程;
[0020]圖4是系統(tǒng)壓縮還原流程。
【具體實施方式】
[0021]本發(fā)明包括網(wǎng)管數(shù)據(jù)分組去重模塊、網(wǎng)管數(shù)據(jù)屬性壓縮存儲模塊、網(wǎng)管數(shù)據(jù)檢索模塊以及網(wǎng)管壓縮數(shù)據(jù)還原模塊四個部分組成,如圖1所示。詳述如下:
[0022]1、網(wǎng)管數(shù)據(jù)分組去重模塊
[0023]對于給定的連續(xù)記錄的網(wǎng)管數(shù)據(jù)記錄,根據(jù)網(wǎng)管檢索需要,按照某屬性的一定取值范圍進行分組存儲。對于分組內(nèi)的數(shù)據(jù),根據(jù)網(wǎng)管的數(shù)據(jù)特征,去掉其中變化頻繁的參數(shù)后,對記錄進行去重。識別出的重復(fù)記錄存儲在單獨的存儲區(qū)域內(nèi)。
[0024]設(shè)RA,k2…,An)是某種網(wǎng)管數(shù)據(jù)T的η元組關(guān)系框架,T有N條記錄,T在關(guān)系型數(shù)據(jù)庫中的原始網(wǎng)管數(shù)據(jù)存儲表所示,其中Ai為R的第i個屬性,設(shè)第j條記錄的Ai的值為 Aijo
[0025]第一步,按記錄編號對T中的所有記錄升序排列。
[0026]第二步,R的屬性按照值的變化情況由人工判斷,分為變化頻繁屬性、非變化頻繁屬性。設(shè)有k個變化頻繁屬性,則有n-k個非變化頻繁屬性。非變化頻繁屬性集合為R’(A’ 1; A’ 2,…,A’ n_k)、變化頻繁屬性集合為R” (k\, A”2,…,A”k),存儲結(jié)構(gòu)變換情況如非頻繁變化屬性存儲表所示,R=R’ U R”。令r和r’為R’上的兩條記錄,其中r=R’(X1, x2,…,xn_k), r’ =R’ ( ; y2,…,yn_k), r=r’ 當且僅當對于任意 j e {I, 2,…,n_k}都有 x」=yj。
[0027]第三步,遍歷R’中所有記錄,當r=r’則將r和;r’的記錄號放到一個分組里。設(shè)遍歷完成后R’有m個分組,將m組記錄號集合和對應(yīng)的R’值集合記錄到存儲區(qū)域中,存儲結(jié)構(gòu)如分組去重存儲表所示,其中,記錄號集合為采用逗號或其他符號分隔的記錄號{記錄號1,記錄號2,…},R’值集合為采用逗號或其他符號分隔的Ai屬性值{屬性值1,屬性值2,…}。
[0028]2、網(wǎng)管數(shù)據(jù)屬性壓縮存儲模塊
[0029]根據(jù)網(wǎng)管數(shù)據(jù)的屬性值類型和實際的數(shù)據(jù)分布,選擇合適的數(shù)據(jù)壓縮算法進行壓縮。屬性值按照連續(xù)型和離散型進行分類。對于如時間戳、丟包率、誤碼率等屬性值定位為連續(xù)型屬性值;對于如端口類型、端口狀態(tài)等離散型屬性值定位為離散型屬性值。
[0030]對于取值變化頻繁的屬性,按照數(shù)據(jù)分組去重模塊的記錄順序,每一列單獨存儲,如圖2分列存儲表所示。根據(jù)人工判斷,確定屬性類型。連續(xù)型和離散型按照不同的方法進行壓縮。
[0031]本模塊提供以分組為單位對壓縮過的網(wǎng)管數(shù)據(jù)進行解壓縮的接口。
[0032]( I)連續(xù)型屬性值壓縮模塊
[0033]①當A”u為整型、浮點型屬性值,則查找到最大的屬性值max (A^i)和最小的屬性值 mir^A')。將 Hiax(Ai) IlJ Hiin(A^i)的數(shù)值分為 m 段,分別為(aQ, a)、(a” a2)、...、(Bffl^1, am)m個區(qū)間。將在同一個區(qū)間的A” ,j放到一個分組中,并生成該分組中A” u集合和記錄號集合;
[0034]令A(yù)” u為第j條記錄的A” i的屬性值,設(shè)a^A” ^ak ;
[0035]分組中A” ,j變換為區(qū)間差值A(chǔ)”’ u,變換規(guī)則:A”’ U=A” ;
[0036]即A”’ ,j記錄原有A”u與它所在區(qū)間最小值之間的數(shù)值偏移量,從而對A”u值進行壓縮。生成新的屬性值A(chǔ)”’ ^集合和記錄號集合保存到存儲區(qū)域中,結(jié)構(gòu)如圖2連續(xù)型屬性值存儲表所示。
[0037]②當時間型屬性值,則將A”u變換為A”’ u,變換規(guī)則:
[0038]j=l 時,A”’;
[0039]j>l 時,A’”;
[0040]即A”’ ,j記錄原有A” ,j與A” i(j_D之間值的偏移量,從而對A” ,j值進行壓縮。生成新的連續(xù)型屬性值保存到存儲區(qū)域中,結(jié)構(gòu)如圖2連續(xù)型屬性值存儲表所示。
[0041](2)離散型屬性值壓縮模塊
[0042]設(shè)網(wǎng)管數(shù)據(jù)的屬性值A(chǔ)^j有m個不同的值,如果m*3>N,則A'定義為非相似型屬性,否則A”,定義為相似型屬性。
[0043]①當A'為文本等非相似型屬性,則按列順序存儲屬性值,結(jié)構(gòu)如圖2連續(xù)型屬性值存儲表所示。
[0044]②當A'為相似型屬性,將A”u相同的記錄放到一個分組中,并生成該分組中記錄號的集合?!盺有!!!個不同的值,將m組記錄號集合和對應(yīng)的A”’ u值保存到存儲區(qū)域中,結(jié)構(gòu)如圖2離散型屬性值存儲表所示。
[0045]( 3 )記錄號集合壓縮模塊[0046]對分組去重存儲表和連續(xù)型、離散型屬性值存儲表存儲結(jié)構(gòu)中涉及的記錄號集合采用VLB變長壓縮后的數(shù)值集合存儲,將記錄號集合Ib1, b2,…,bp}變換成為Ib1, b2-bi,…,bp-bp_J,即變換為原有bp與Ivi之間值的偏移量,對記錄號集合進行壓縮并保存至存儲區(qū)域。
[0047]3、網(wǎng)管壓縮數(shù)據(jù)檢索模塊
[0048]根據(jù)預(yù)先定義的時間、IP地址等條件,對網(wǎng)管數(shù)據(jù)進行統(tǒng)計、索引,生成網(wǎng)管數(shù)據(jù)索引表,以備外部模塊檢索。外部模塊對建立過索引的數(shù)據(jù)進行查詢,系統(tǒng)不對壓縮過的網(wǎng)管數(shù)據(jù)進行解壓而直接返回索引中的數(shù)據(jù)。
[0049]4、網(wǎng)管壓縮數(shù)據(jù)還原模塊
[0050]讀取壓縮后的數(shù)據(jù),將其還原到關(guān)系型數(shù)據(jù)庫中,可以使用現(xiàn)有的網(wǎng)管工具對數(shù)據(jù)進行進一步分析。
[0051]系統(tǒng)一次至少解碼一個分組,步驟如下:
[0052](I)讀取網(wǎng)管數(shù)據(jù)壓縮索引表,還原原始網(wǎng)管數(shù)據(jù)庫表結(jié)構(gòu);
[0053](2)還原分組去重數(shù)據(jù)壓縮表中記錄號集合,讀取存儲區(qū)域中分組去重數(shù)據(jù)壓縮表,根據(jù)記錄編號還原記錄分組去重模塊壓縮的信息;
[0054](3)讀取連續(xù)型屬性值壓縮存儲表,根據(jù)各個參數(shù)的順序還原數(shù)據(jù)到特定記錄上;
[0055](4)還原離散型參數(shù)壓縮表中記錄號集合,讀取離散型屬性值壓縮存儲表,根據(jù)屬性值和對應(yīng)的記錄號集合還原離散型屬性值。
[0056]最后應(yīng)說明的是:顯然,上述實施例僅僅是為清楚地說明本申請所作的舉例,而并非對實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。而由此所引申出的顯而易見的變化或變動仍處于本申請型的保護范圍之中。
【權(quán)利要求】
1.一種網(wǎng)絡(luò)管理數(shù)據(jù)有損壓縮存儲與檢索方法,其特征在于,所述方法包括: 一條數(shù)據(jù)記錄由一個或多個屬性構(gòu)成; 對于重復(fù)的數(shù)據(jù)記錄預(yù)先進行分組壓縮存儲,不再額外存儲取值重復(fù)的數(shù)據(jù)記錄; 按照構(gòu)成數(shù)據(jù)記錄的記錄的屬性的數(shù)據(jù)類型、取值范圍的不同,各自獨立的進行存儲與壓縮; 根據(jù)預(yù)制的查詢條件,在壓縮的同時進行統(tǒng)計、構(gòu)建索引; 從壓縮后的數(shù)據(jù)還原出原始數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,其特征在于: 對于連續(xù)取值的屬性,對于不同類型屬性值采用不同方法進行壓縮存儲; 對于離散取值的屬性,記錄出現(xiàn)該離散量的記錄號集合; 對于記錄號集合,按記錄號的升序進行存儲,存儲變長壓縮后的數(shù)據(jù)。
3.如權(quán)利要求1所述的方法,其特征在于: 讀取連續(xù)型屬性值壓縮存儲表,根據(jù)不同類型屬性值還原出屬性的原始值; 還原離散型參數(shù)壓縮表中記錄號集合,讀取離散型屬性值壓縮存儲表,根據(jù)屬性值和對應(yīng)的記錄號集合還原離散型屬性原始值; 還原分組去重數(shù)據(jù)壓縮表中記錄號集合,讀取存儲區(qū)域中分組去重數(shù)據(jù)壓縮表,根據(jù)記錄編號還原記錄分組去重模塊壓縮的信息。
4.一種網(wǎng)絡(luò)管理數(shù)據(jù)無損壓縮存儲與檢索系統(tǒng),其特征在于:所述系統(tǒng)由網(wǎng)管數(shù)據(jù)分組去重模塊、網(wǎng)管數(shù)據(jù)屬性壓縮存儲模塊、網(wǎng)管數(shù)據(jù)檢索模塊以及網(wǎng)管壓縮數(shù)據(jù)還原模塊四個部分組成。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于:所述網(wǎng)管數(shù)據(jù)分組去重模塊是對于給定的連續(xù)記錄的網(wǎng)管數(shù)據(jù)記錄,根據(jù)網(wǎng)管檢索需要,按照某個屬性的一定取值范圍進行分組存儲,對于分組內(nèi)的數(shù)據(jù),根據(jù)網(wǎng)管的數(shù)據(jù)特征,去掉其中變化頻繁的參數(shù)后,對記錄進行去重,識別出的重復(fù)記錄存儲在單獨的存儲區(qū)域內(nèi)。
6.根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于:所述網(wǎng)管數(shù)據(jù)屬性壓縮存儲模塊,根據(jù)網(wǎng)管數(shù)據(jù)的屬性值類型、取值范圍和實際的數(shù)據(jù)分布,選擇合適的數(shù)據(jù)壓縮算法進行壓縮,屬性值按照連續(xù)型和離散型進行分類。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于:系統(tǒng)管理的屬性數(shù)據(jù)類型包括對數(shù)值在一定范圍內(nèi)連續(xù)取值的連續(xù)型屬性和數(shù)值在一定范圍內(nèi)離散取值的離散型屬性。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于:系統(tǒng)提供接口,由使用者指定屬性的壓縮方法。
9.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于:系統(tǒng)存儲的屬性每一列單獨存儲。
10.根據(jù)權(quán)利要求7所述的系統(tǒng),對于高頻出現(xiàn)的屬性值,采用壓縮方法對屬性值的二進制編碼進行再編碼后,由網(wǎng)管數(shù)據(jù)屬性壓縮存儲模塊進行壓縮。
11.根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于:所述網(wǎng)管壓縮數(shù)據(jù)檢索模塊根據(jù)預(yù)先定義的條件,對網(wǎng)管數(shù)據(jù)進行統(tǒng)計、索引,生成網(wǎng)管數(shù)據(jù)索引表,以備外部模塊檢索,外部模塊對建立過索引的數(shù)據(jù)進行查詢,系統(tǒng)不對壓縮過的網(wǎng)管數(shù)據(jù)進行解壓而直接返回索引中的數(shù)據(jù)。
12.根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于:所述網(wǎng)管壓縮數(shù)據(jù)還原模塊讀取壓縮后的數(shù)據(jù),將其還原到關(guān) 系型數(shù)據(jù)庫中,能夠使用現(xiàn)有的網(wǎng)管工具對數(shù)據(jù)進行進一步分析。
【文檔編號】G06F17/30GK103778203SQ201410014467
【公開日】2014年5月7日 申請日期:2014年1月13日 優(yōu)先權(quán)日:2014年1月13日
【發(fā)明者】王璐, 趙瑜, 劉勇, 李帥, 孫寧偉, 王峰, 商云飛, 劉海峰, 薛蕓 申請人:中國人民解放軍91655部隊
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1