亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于數(shù)據(jù)分布庫(kù)的多維度數(shù)據(jù)分布方法

文檔序號(hào):6636223閱讀:1131來(lái)源:國(guó)知局
一種基于數(shù)據(jù)分布庫(kù)的多維度數(shù)據(jù)分布方法
【專利摘要】本發(fā)明公開(kāi)了一種基于數(shù)據(jù)分布庫(kù)的多維度數(shù)據(jù)分布及方法,屬于電網(wǎng)數(shù)據(jù)處理【技術(shù)領(lǐng)域】。本發(fā)明首先分析業(yè)務(wù)邏輯,分析出業(yè)務(wù)功能和數(shù)據(jù)庫(kù)中的表之間的邏輯關(guān)系,然后確定水平或垂直分布,根據(jù)業(yè)務(wù)分析結(jié)果,確定數(shù)據(jù)整體拆分原則,對(duì)于簡(jiǎn)單邏輯的系統(tǒng)宜采用垂直分布策略,對(duì)于復(fù)雜邏輯的系統(tǒng)宜采用水平分布策略,接著確定多維度混合分布,結(jié)合業(yè)務(wù)邏輯,組合數(shù)據(jù)分布庫(kù)中的分布策略成最佳的混合分布;并確定多維度分布的數(shù)據(jù)塊的最細(xì)粒度,通過(guò)分析集群節(jié)點(diǎn)的存儲(chǔ)空間,利用最大公約原則來(lái)確定數(shù)據(jù)塊的最細(xì)粒度;最后實(shí)現(xiàn)數(shù)據(jù)分布。本發(fā)明能夠?qū)崿F(xiàn)高性能的數(shù)據(jù)查詢與分析,滿足用戶對(duì)大數(shù)據(jù)處理的實(shí)時(shí)性需求。
【專利說(shuō)明】一種基于數(shù)據(jù)分布庫(kù)的多維度數(shù)據(jù)分布方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于電網(wǎng)數(shù)據(jù)處理【技術(shù)領(lǐng)域】,更準(zhǔn)確地說(shuō),本發(fā)明涉及一種基于數(shù)據(jù)分布庫(kù)的多維度數(shù)據(jù)分布方法。

【背景技術(shù)】
[0002]隨著電力企業(yè)業(yè)務(wù)信息系統(tǒng)應(yīng)用的逐步深入,業(yè)務(wù)數(shù)據(jù)量激增,目前多個(gè)系統(tǒng)數(shù)據(jù)已達(dá)數(shù)億條記錄,信息系統(tǒng)性能和運(yùn)行效率逐漸降低,當(dāng)前對(duì)象化并行計(jì)算系統(tǒng)分布式緩存數(shù)據(jù)庫(kù)數(shù)據(jù)到內(nèi)存,借助于內(nèi)存計(jì)算,可有效提升電力信息系統(tǒng)運(yùn)行性能,但數(shù)據(jù)分布策略采用水平切片,比較單一,造成拆分后的數(shù)據(jù)塊不均,無(wú)法達(dá)到負(fù)載均衡,此外沒(méi)有考慮業(yè)務(wù)邏輯,沒(méi)有達(dá)到最佳分布策略,嚴(yán)重影響系統(tǒng)運(yùn)行效率。
[0003]數(shù)據(jù)分布是分布式并行系統(tǒng)實(shí)現(xiàn)的基礎(chǔ),數(shù)據(jù)分布策略是研究如何在多節(jié)點(diǎn)之間均衡分布數(shù)據(jù),它的優(yōu)劣,直接影響系統(tǒng)的運(yùn)行效率。當(dāng)前,業(yè)界在分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)等技術(shù)中均有數(shù)據(jù)分布策略,為大數(shù)據(jù)的存儲(chǔ)提出了數(shù)據(jù)分布解決方案。
[0004]分布式文件系統(tǒng)是主從結(jié)構(gòu),由一個(gè)主服務(wù)器和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)構(gòu)成。通常是一個(gè)節(jié)點(diǎn)一個(gè)機(jī)器,管理對(duì)應(yīng)節(jié)點(diǎn)的存儲(chǔ)。系統(tǒng)設(shè)計(jì)成能可靠地在集群中大量機(jī)器之間存儲(chǔ)大量的文件,數(shù)據(jù)分布策略是將一個(gè)文件分割成一個(gè)或多個(gè)塊,這些塊被存儲(chǔ)在一組數(shù)據(jù)節(jié)點(diǎn)中,以塊序列的形式存儲(chǔ)文件。文件中除了最后一個(gè)塊,其他塊都有相同的大小。提供高吞吐量來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。
[0005]分布式數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)分布是指在多存儲(chǔ)節(jié)點(diǎn)分配數(shù)據(jù),使得系統(tǒng)對(duì)數(shù)據(jù)處理的并行性得以充分發(fā)揮,達(dá)到最小化數(shù)據(jù)處理時(shí)間的目的,數(shù)據(jù)分布過(guò)程主要有兩個(gè)階段:數(shù)據(jù)分段和數(shù)據(jù)分配。數(shù)據(jù)分段是將按照關(guān)系將數(shù)據(jù)劃分為若干個(gè)數(shù)據(jù)子集。數(shù)據(jù)分配是將已劃分的數(shù)據(jù)子集分配到不同的存儲(chǔ)節(jié)點(diǎn)中。數(shù)據(jù)分段又分為垂直分段和水平分段。垂直分段是指以關(guān)系的屬性為單位,通過(guò)投影操作產(chǎn)生若干數(shù)據(jù)子集;水平分段是指以關(guān)系的元組為單位,通過(guò)選擇操作產(chǎn)生若干數(shù)據(jù)子集,當(dāng)前數(shù)據(jù)分布多采用水平分段,因?yàn)檫@種分段方式通過(guò)數(shù)據(jù)子集的并操作還原關(guān)系,不僅有利于均衡負(fù)載,也有利于增強(qiáng)查詢的并行性。
[0006]數(shù)據(jù)分布策略主要有水平分布、垂直分布和混合分布。水平分布是按特定策略將關(guān)系的元組劃分成若干不相交子集,每個(gè)子集為關(guān)系的一個(gè)邏輯片段,各片段分布到不同節(jié)點(diǎn)上。垂直分布則將關(guān)系的屬性集劃分為若干子集,然后將關(guān)系的鍵和屬性子集的值分布到不同節(jié)點(diǎn)上;混合分布則是水平和垂直分布兩種策略的混合。由于關(guān)系型數(shù)據(jù)庫(kù)在設(shè)計(jì)之初就要求小的冗余度,表的屬性集較小,導(dǎo)致垂直分布代價(jià)較高,因此目前實(shí)際應(yīng)用的多是水平分布,其主要有如下幾種:
輪轉(zhuǎn)劃分。將元組輪轉(zhuǎn)循環(huán)分布到各節(jié)點(diǎn)上。
[0007]范圍劃分。根據(jù)表中某一個(gè)或多個(gè)屬性取值將所有元組劃分成若干不相交子集后分布到各節(jié)點(diǎn)上。
[0008]散列劃分。根據(jù)選定的函數(shù)和屬性將元組散布到相應(yīng)節(jié)點(diǎn)上。
[0009]此外,近年來(lái)由于面向?qū)ο髷?shù)據(jù)庫(kù)的興起,使元組中某些屬性的數(shù)據(jù)量極為龐大,關(guān)于垂直分布的研究逐漸增多。
[0010]現(xiàn)有并行計(jì)算方法(如專利CN1641957電力系統(tǒng)潮流分網(wǎng)并行計(jì)算方法),是將系統(tǒng)數(shù)據(jù)分割成若干個(gè)小數(shù)據(jù)集,分析出各個(gè)小數(shù)據(jù)集之間的關(guān)聯(lián)矩陣,然后在小數(shù)據(jù)集上并行計(jì)算任務(wù)。
[0011]針對(duì)在電力行業(yè)大數(shù)據(jù)中,數(shù)據(jù)分布策略采用單一存儲(chǔ)策略,無(wú)法達(dá)到負(fù)載均衡,影響系統(tǒng)運(yùn)行效率,以上分布式文件系統(tǒng)、面向列的分布式數(shù)據(jù)庫(kù)等技術(shù)具有局限性,只能在一定程度上緩解問(wèn)題。上述法沒(méi)有考慮業(yè)務(wù)邏輯,雖然能達(dá)到數(shù)據(jù)存儲(chǔ)負(fù)載均衡,但不適用于對(duì)象化并行計(jì)算系統(tǒng),性能有待于進(jìn)一步提升。


【發(fā)明內(nèi)容】

[0012]本發(fā)明目的是:針對(duì)現(xiàn)有技術(shù)中電網(wǎng)信息系統(tǒng)中分布式文件系統(tǒng)的局限性,提供一種基于數(shù)據(jù)分布庫(kù)的多維度數(shù)據(jù)分布方法。該方法基于多維度數(shù)據(jù)分布策略,結(jié)合業(yè)務(wù)邏輯,利用多維度數(shù)據(jù)分布策略實(shí)現(xiàn)負(fù)載均衡,為提升電網(wǎng)信息系統(tǒng)運(yùn)行性能打下良好的基礎(chǔ)。
[0013]具體地說(shuō),本發(fā)明是采用以下技術(shù)方案實(shí)現(xiàn)的,包括以下步驟:
1)分析業(yè)務(wù)邏輯,分析出業(yè)務(wù)功能和業(yè)務(wù)層使用的電力信息數(shù)據(jù)庫(kù)中的表之間的邏輯關(guān)系,并分析出可用于分布的字段集合;
2)確定水平或垂直分布,根據(jù)業(yè)務(wù)分析結(jié)果,確定數(shù)據(jù)整體拆分原則,對(duì)于簡(jiǎn)單邏輯的系統(tǒng)可以采用垂直分布策略,對(duì)于復(fù)雜邏輯的系統(tǒng)采用水平分布策略;
3)確定多維度混合分布,利用業(yè)務(wù)分析結(jié)果,分析用戶行為,明確查詢、統(tǒng)計(jì)任務(wù)常用維度,然后利用數(shù)據(jù)分布庫(kù)中的這些數(shù)據(jù)分布策略進(jìn)行組合,將數(shù)據(jù)分成大小基本相同的數(shù)據(jù)塊;
4)確定多維度分布的數(shù)據(jù)塊的最細(xì)粒度,通過(guò)分析集群節(jié)點(diǎn)的存儲(chǔ)空間,利用最大公約原則來(lái)確定數(shù)據(jù)塊的最細(xì)粒度;所述最細(xì)粒度的數(shù)據(jù)塊是不可再拆分的、最基本的數(shù)據(jù)塊,以最細(xì)粒度的數(shù)據(jù)塊為單位進(jìn)行計(jì)算節(jié)點(diǎn)的存儲(chǔ)空間;
5)實(shí)現(xiàn)數(shù)據(jù)分布,根據(jù)節(jié)點(diǎn)的可用存儲(chǔ)空間,利用最細(xì)粒度的數(shù)據(jù)塊來(lái)計(jì)算集群節(jié)點(diǎn)分布的數(shù)據(jù),存儲(chǔ)數(shù)據(jù)量。
[0014]上述技術(shù)方案的進(jìn)一步特征在于:所述步驟4)中,最大公約原則是根據(jù)所有節(jié)點(diǎn)的存儲(chǔ)空間數(shù)值的共有約數(shù)中最大的一個(gè)作為集群節(jié)點(diǎn)存儲(chǔ)空間的最大公約數(shù),依據(jù)這個(gè)數(shù)值作為確定數(shù)據(jù)塊的最細(xì)粒度的原則。
[0015]上述技術(shù)方案的進(jìn)一步特征在于:所述步驟5)中,節(jié)點(diǎn)的可用的存儲(chǔ)空間計(jì)算方法按照下面公式進(jìn)行:
可用空間=(物理空間-其他程序占用空間)X80%。
[0016]本發(fā)明的有益效果如下:本發(fā)明基于多維度數(shù)據(jù)分布策略,結(jié)合業(yè)務(wù)邏輯,利用多維度數(shù)據(jù)分布策略實(shí)現(xiàn)負(fù)載均衡,為提升電網(wǎng)信息系統(tǒng)運(yùn)行性能打下良好的基礎(chǔ)。因此,本發(fā)明能夠?qū)崿F(xiàn)高性能的數(shù)據(jù)查詢與分析,滿足用戶對(duì)大數(shù)據(jù)處理的實(shí)時(shí)性需求。

【專利附圖】

【附圖說(shuō)明】
[0017]圖1為本發(fā)明數(shù)據(jù)分布庫(kù)和數(shù)據(jù)分布方法關(guān)系圖。
[0018]圖2為本發(fā)明方法流程圖。

【具體實(shí)施方式】
[0019]下面參照附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
[0020]本發(fā)明基于多維度數(shù)據(jù)分布策略,結(jié)合業(yè)務(wù)邏輯,利用多維度數(shù)據(jù)分布策略,實(shí)現(xiàn)負(fù)載均衡,為提升系統(tǒng)運(yùn)行性能打下良好的基礎(chǔ)。電網(wǎng)信息系統(tǒng)數(shù)據(jù)分布庫(kù)中數(shù)據(jù)分布方法主要有:
I)水平分布。水平分片是指按一定的業(yè)務(wù)邏輯關(guān)系將關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)按行分為若干個(gè)不相交的子集,每個(gè)子集為數(shù)據(jù)的一個(gè)片段。
[0021]2)垂直分布。垂直分布是指將關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)按列分為若干子集,垂直分布的片段必須能夠重構(gòu)原來(lái)的全局關(guān)系,即可以用連接的方式恢復(fù)原關(guān)系因此垂直分布的諸片段通常都包含關(guān)系。
[0022]3)地區(qū)分布。是指將關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照數(shù)據(jù)地區(qū)屬性分成若干個(gè)子集,各個(gè)子集之間沒(méi)有交集,所有子集能夠重構(gòu)原來(lái)的數(shù)據(jù)。比如將國(guó)網(wǎng)數(shù)據(jù)以省為單位進(jìn)行分布,則數(shù)據(jù)分成北京、河北…,江蘇等子集,每個(gè)省公司子集不包含其他省的數(shù)據(jù),所有省的數(shù)據(jù)之和是國(guó)網(wǎng)公司的數(shù)據(jù)。
[0023]4)時(shí)間分布。是指將將關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照數(shù)據(jù)時(shí)間屬性分成不相交的若干個(gè)子集,各個(gè)子集之間沒(méi)有交集。比如:可以將國(guó)網(wǎng)公司的數(shù)據(jù)按照年月進(jìn)行分布,2014年I月的數(shù)據(jù)為一個(gè)子集,2014年2月的數(shù)據(jù)為一個(gè)子集,以此類推。
[0024]5 )電壓分布。是指將關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照數(shù)據(jù)電壓數(shù)據(jù)進(jìn)行拆分成若干個(gè)不相交的子集,當(dāng)前國(guó)網(wǎng)公司電壓等級(jí)主要有:1000kv、500kv、…、1kv等,100kv的數(shù)據(jù)分成一個(gè)子集,500kv的數(shù)據(jù)分為一個(gè)子集,由于線路電壓不允許同時(shí)有兩個(gè)值,因此,子集之間沒(méi)有交集。
[0025]6)其他分布。關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照某個(gè)屬性分成若干個(gè)不相交的子集,這些子集可能重構(gòu)原有數(shù)據(jù)。
[0026]多維度分布策略主要有:
I)垂直或水平分布策略。垂直分布和水平分布是數(shù)據(jù)拆分的總策略,選擇哪種分布要看數(shù)據(jù)之間的邏輯關(guān)系,如果數(shù)據(jù)之間關(guān)聯(lián)性強(qiáng),一次統(tǒng)計(jì)分析等任務(wù)需要多個(gè)表數(shù)據(jù),那么數(shù)據(jù)不適合垂直分布,適合用水平分布。如果數(shù)據(jù)之間關(guān)聯(lián)性不強(qiáng),則適合垂直分布。
[0027]2)多維度混合分布策略。是指將數(shù)據(jù)按照多種分布方式組合進(jìn)行分布,分布的原則就是達(dá)到拆分后的子集大小均衡,不能差異過(guò)大。例如將數(shù)據(jù)可以先按照地區(qū)拆分?jǐn)?shù)據(jù),不同省之間的數(shù)據(jù)量差異大,則在地區(qū)拆分的基礎(chǔ)上進(jìn)一步利用時(shí)間段拆分,如果混合分布方式拆分后的子集大小均衡,則完成拆分,否則繼續(xù)混合其他分布方式,直到拆分后的子集均衡為止。
[0028]在上述多維度分布策略基礎(chǔ)上,本發(fā)明方法的數(shù)據(jù)分布庫(kù)和多維度數(shù)據(jù)分布方法關(guān)系見(jiàn)圖1。集群系統(tǒng)以在對(duì)象化并行計(jì)算系統(tǒng)應(yīng)用為例,該系統(tǒng)根據(jù)功能將集群中計(jì)算機(jī)分為:對(duì)象服務(wù)器、對(duì)象管理服務(wù)器、客戶端代理三類。其中對(duì)象服務(wù)器負(fù)責(zé)創(chuàng)建對(duì)象,加載并緩存數(shù)據(jù),管理所有對(duì)象。提供對(duì)象訪問(wèn)的遠(yuǎn)程接口,對(duì)內(nèi)存對(duì)象的訪問(wèn)進(jìn)行并發(fā)控制。屏蔽底層不同數(shù)據(jù)存儲(chǔ)方式的差異,完成內(nèi)存對(duì)象數(shù)據(jù)的持久化。完成內(nèi)存對(duì)象數(shù)據(jù)同步,負(fù)責(zé)對(duì)象更新時(shí)事務(wù)管理。
[0029]本發(fā)明方法實(shí)施流程如圖2所示,包括以下具體過(guò)程:
第一步,分析業(yè)務(wù)邏輯。業(yè)務(wù)邏輯是指電力行業(yè)內(nèi)數(shù)據(jù)之間的邏輯,數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系依據(jù)電力業(yè)務(wù)規(guī)則構(gòu)成了整個(gè)業(yè)務(wù)邏輯的動(dòng)態(tài)模型。業(yè)務(wù)規(guī)則作用于領(lǐng)域?qū)嶓w,領(lǐng)域?qū)嶓w遵從業(yè)務(wù)規(guī)則進(jìn)行運(yùn)作。一般根據(jù)數(shù)據(jù)表組織業(yè)務(wù)模塊,每個(gè)模塊對(duì)應(yīng)一個(gè)表,其中包含了這個(gè)表的相應(yīng)處理。在業(yè)務(wù)層內(nèi),使用庫(kù)-表結(jié)構(gòu)的對(duì)象進(jìn)行數(shù)據(jù)操作,做到最大限度與數(shù)據(jù)表的對(duì)應(yīng)。分析出業(yè)務(wù)功能和數(shù)據(jù)庫(kù)中的表之間的邏輯關(guān)系。簡(jiǎn)單邏輯就是一個(gè)業(yè)務(wù)功能對(duì)應(yīng)一個(gè)或者兩個(gè)數(shù)據(jù)庫(kù)表,表之間沒(méi)有關(guān)聯(lián)或者僅有兩個(gè)表之間有關(guān)聯(lián)關(guān)系,復(fù)雜邏輯就是一個(gè)業(yè)務(wù)功能對(duì)應(yīng)多個(gè)數(shù)據(jù)庫(kù)表,表之間有復(fù)雜的關(guān)聯(lián)關(guān)系。此外,分析出可用于分布的字段集合,即數(shù)據(jù)可用哪些字段進(jìn)行拆分成若干個(gè)子集,子集之間沒(méi)有交集。
[0030]第二步,確定水平或垂直分布。根據(jù)業(yè)務(wù)分析結(jié)果,確定數(shù)據(jù)整體拆分原則,對(duì)于簡(jiǎn)單邏輯的系統(tǒng)可以采用垂直分布策略,數(shù)據(jù)庫(kù)表內(nèi)能滿足業(yè)務(wù)邏輯,這樣數(shù)據(jù)庫(kù)中每個(gè)表都可以獨(dú)立成一個(gè)子集,系統(tǒng)運(yùn)行任務(wù)時(shí),只需調(diào)用單個(gè)子集即可滿足需求,有利于提高效率。對(duì)于復(fù)雜邏輯的系統(tǒng)適宜采用水平分布策略,由于數(shù)據(jù)庫(kù)表數(shù)據(jù)邏輯復(fù)雜,數(shù)據(jù)表之間需要關(guān)聯(lián),利用水平分布,則可以完整保留下這些邏輯關(guān)系,系統(tǒng)運(yùn)行時(shí),可有效避免各存儲(chǔ)節(jié)點(diǎn)間遷移大量數(shù)據(jù),提高運(yùn)行效率。
[0031]第三步,確定多維度混合分布。多維度混合分布是指數(shù)據(jù)按照不同維度組合的分布策略進(jìn)行分布,達(dá)到均衡的目的。分布原則是混合分布后的數(shù)據(jù)量基本相等或數(shù)據(jù)量之間差異在10%之內(nèi)(經(jīng)驗(yàn)值)。利用業(yè)務(wù)分析結(jié)果,分析用戶行為,明確查詢、統(tǒng)計(jì)等任務(wù)常用維度,例如地區(qū)、時(shí)間等。然后利用數(shù)據(jù)分布庫(kù)中的這些數(shù)據(jù)分布策略進(jìn)行組合,找出最佳組合。這種最佳組合可以是一種分布,也可以是多種分布混合組合。經(jīng)過(guò)最佳組合分布后,數(shù)據(jù)被分成大小基本相同的數(shù)據(jù)塊。
[0032]第四步,確定多維度分布的數(shù)據(jù)塊的最細(xì)粒度。由于集群中節(jié)點(diǎn)的存儲(chǔ)空間大小不一定相同,因此,為了最大有效地利用節(jié)點(diǎn)的存儲(chǔ)空間,通過(guò)分析集群節(jié)點(diǎn)的存儲(chǔ)空間,利用最大公約原則來(lái)確定數(shù)據(jù)塊的最細(xì)粒度。最細(xì)粒度的數(shù)據(jù)塊是不可再拆分的,最基本的數(shù)據(jù)塊,節(jié)點(diǎn)的存儲(chǔ)空間能存儲(chǔ)多少數(shù)據(jù),就以最細(xì)粒度的數(shù)據(jù)塊為單位進(jìn)行計(jì)算。最大公約原則是利用數(shù)學(xué)上的最大公約數(shù)方法分析獲得的。最大公約數(shù)也稱最大公因數(shù)、最大公因子,指兩個(gè)或多個(gè)整數(shù)共有約數(shù)中最大的一個(gè)。集群節(jié)點(diǎn)存儲(chǔ)空間的最大公約數(shù)就是指所有節(jié)點(diǎn)的存儲(chǔ)空間數(shù)值的共有約數(shù)中最大的一個(gè),即為最大公約數(shù),依據(jù)這個(gè)數(shù)值作為確定數(shù)據(jù)塊的最細(xì)粒度的原則。最大公約數(shù)的計(jì)算方法采用質(zhì)因數(shù)分解法,該方法是把每個(gè)數(shù)分別分解質(zhì)因數(shù),再把各數(shù)中的全部公有質(zhì)因數(shù)提取出來(lái)連乘,所得的積就是這幾個(gè)數(shù)的最大公約數(shù)。
[0033]第五步,實(shí)現(xiàn)數(shù)據(jù)分布。集群節(jié)點(diǎn)分布的數(shù)據(jù)是根據(jù)節(jié)點(diǎn)的可用存儲(chǔ)空間,利用最細(xì)粒度的數(shù)據(jù)塊來(lái)計(jì)算可存儲(chǔ)數(shù)據(jù)量。這里的可用存儲(chǔ)空間不一定是所有物理存儲(chǔ)空間,比如內(nèi)存存儲(chǔ)數(shù)據(jù),假設(shè)內(nèi)存物理存儲(chǔ)空間為10G,其有效存儲(chǔ)空間是能用來(lái)存儲(chǔ)數(shù)據(jù)的空間,由于內(nèi)存是操作系統(tǒng)、各種軟件運(yùn)行時(shí)都需要占用,因此存儲(chǔ)數(shù)據(jù)的空間肯定比物理存儲(chǔ)空間小(〈10G),需要給節(jié)點(diǎn)其他軟件預(yù)留出足夠的內(nèi)存空間,剩余空間就是可用的存儲(chǔ)數(shù)據(jù)的空間。可用的存儲(chǔ)空間計(jì)算方法按照下面公式進(jìn)行: 可用空間=(物理空間-其他程序占用空間)X80%。
[0034]上面公式中的80%是經(jīng)驗(yàn)值,預(yù)留出一定空間用于數(shù)據(jù)交換,便于提高運(yùn)行效率。根據(jù)集群節(jié)點(diǎn)的可用空間,可以將數(shù)據(jù)均衡分布在集群節(jié)點(diǎn)存儲(chǔ)空間中。
[0035]對(duì)象化并行計(jì)算系統(tǒng)借助于上述方法,可將系統(tǒng)數(shù)據(jù)結(jié)合業(yè)務(wù)邏輯均衡分布在集群內(nèi)存中,為提高系統(tǒng)運(yùn)行效率打下良好的基礎(chǔ)。
[0036]雖然本發(fā)明已以較佳實(shí)施例公開(kāi)如上,但實(shí)施例并不是用來(lái)限定本發(fā)明的。在不脫離本發(fā)明之精神和范圍內(nèi),所做的任何等效變化或潤(rùn)飾,同樣屬于本發(fā)明之保護(hù)范圍。因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以本申請(qǐng)的權(quán)利要求所界定的內(nèi)容為標(biāo)準(zhǔn)。
【權(quán)利要求】
1.一種基于數(shù)據(jù)分布庫(kù)的多維度數(shù)據(jù)分布方法,其特征在于,包括以下步驟: 1)分析業(yè)務(wù)邏輯,分析出業(yè)務(wù)功能和業(yè)務(wù)層使用的電力信息數(shù)據(jù)庫(kù)中的表之間的邏輯關(guān)系,并分析出可用于分布的字段集合; 2)確定水平或垂直分布,根據(jù)業(yè)務(wù)分析結(jié)果,確定數(shù)據(jù)整體拆分原則,對(duì)于簡(jiǎn)單邏輯的系統(tǒng)可以采用垂直分布策略,對(duì)于復(fù)雜邏輯的系統(tǒng)采用水平分布策略; 3)確定多維度混合分布,利用業(yè)務(wù)分析結(jié)果,分析用戶行為,明確查詢、統(tǒng)計(jì)任務(wù)常用維度,然后利用數(shù)據(jù)分布庫(kù)中的這些數(shù)據(jù)分布策略進(jìn)行組合,將數(shù)據(jù)分成大小基本相同的數(shù)據(jù)塊; 4)確定多維度分布的數(shù)據(jù)塊的最細(xì)粒度,通過(guò)分析集群節(jié)點(diǎn)的存儲(chǔ)空間,利用最大公約原則來(lái)確定數(shù)據(jù)塊的最細(xì)粒度;所述最細(xì)粒度的數(shù)據(jù)塊是不可再拆分的、最基本的數(shù)據(jù)塊,以最細(xì)粒度的數(shù)據(jù)塊為單位進(jìn)行計(jì)算節(jié)點(diǎn)的存儲(chǔ)空間; 5)實(shí)現(xiàn)數(shù)據(jù)分布,根據(jù)節(jié)點(diǎn)的可用存儲(chǔ)空間,利用最細(xì)粒度的數(shù)據(jù)塊來(lái)計(jì)算集群節(jié)點(diǎn)分布的數(shù)據(jù),存儲(chǔ)數(shù)據(jù)量。
2.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)分布庫(kù)的多維度數(shù)據(jù)分布方法,其特征在于,所述步驟4)中,最大公約原則是根據(jù)所有節(jié)點(diǎn)的存儲(chǔ)空間數(shù)值的共有約數(shù)中最大的一個(gè)作為集群節(jié)點(diǎn)存儲(chǔ)空間的最大公約數(shù),依據(jù)這個(gè)數(shù)值作為確定數(shù)據(jù)塊的最細(xì)粒度的原則。
3.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)分布庫(kù)的多維度數(shù)據(jù)分布方法,其特征在于,所述步驟5)中,節(jié)點(diǎn)的可用的存儲(chǔ)空間計(jì)算方法按照下面公式進(jìn)行: 可用空間=(物理空間-其他程序占用空間)X80%。
【文檔編號(hào)】G06Q50/06GK104376109SQ201410700945
【公開(kāi)日】2015年2月25日 申請(qǐng)日期:2014年11月28日 優(yōu)先權(quán)日:2014年11月28日
【發(fā)明者】楊志, 張春平, 胡牧, 林峰 申請(qǐng)人:國(guó)家電網(wǎng)公司, 南京南瑞集團(tuán)公司, 南京南瑞信息通信科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1