一種大數(shù)據(jù)環(huán)境下的數(shù)據(jù)存儲與查找方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種大數(shù)據(jù)環(huán)境下的數(shù)據(jù)存儲與查找方法,屬于數(shù)據(jù)處理技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002]根據(jù)節(jié)能減排管理的新要求和新形勢,電能服務(wù)管理平臺的進(jìn)一步完善可以使得節(jié)能服務(wù)體系更開放,全面實(shí)現(xiàn)社會、用戶、電網(wǎng)等各類單位能效管理、有序用電管理等一體化管控,實(shí)現(xiàn)能效管理的“數(shù)字化、網(wǎng)絡(luò)化、可視化、專業(yè)化”,為各類電力用戶提供能效管理或?qū)S没泄芊?wù)。能效管理服務(wù)正在朝著覆蓋區(qū)域乃至全國的支撐節(jié)能服務(wù)的能效公共服務(wù)平臺和延伸至用戶內(nèi)部的數(shù)據(jù)采集網(wǎng)絡(luò)方向快速發(fā)展。
[0003]能效服務(wù)正在步入海量、復(fù)雜、異構(gòu)數(shù)據(jù)源廣泛存在的時代,數(shù)據(jù)異構(gòu)異質(zhì)、種類繁多和應(yīng)用類型數(shù)量不可預(yù)期,如何根據(jù)數(shù)據(jù)特點(diǎn)準(zhǔn)確快速的實(shí)現(xiàn)存儲、搜索成為關(guān)鍵。能效服務(wù)涉及到環(huán)境、管理、信息、經(jīng)濟(jì)以及控制等多種學(xué)科的交叉,考慮范圍大到環(huán)境、企業(yè)整體用能的分析,小到單個能耗設(shè)備的性能評估,在電力大數(shù)據(jù)逐漸形成的環(huán)境下構(gòu)建合理的數(shù)據(jù)管控模型將對充分利用海量多源異構(gòu)信息具有重要意義。
[0004]另外,電力部門及企業(yè)在不同的發(fā)展時期,根據(jù)各業(yè)務(wù)部門的特定需要,分別安裝和開發(fā)了實(shí)現(xiàn)不同功能的能效數(shù)據(jù)管理系統(tǒng)。由于這些系統(tǒng)關(guān)系電力對象的不同方面,且建模方法不同,因而使得這些應(yīng)用系統(tǒng)成為相對孤立的“信息孤島”,不能與其他系統(tǒng)交換數(shù)據(jù)或在電網(wǎng)范圍內(nèi)實(shí)現(xiàn)信息共享和集成。因此,如何解決電力信息條塊化分割以及信息碎片化問題成為當(dāng)前熱點(diǎn)研究的問題,其關(guān)系著能否實(shí)現(xiàn)電力供需平衡優(yōu)化控制的實(shí)時響應(yīng)及為能效服務(wù)提供保障。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于,提供一種大數(shù)據(jù)環(huán)境下的數(shù)據(jù)存儲與查找方法,它可以有效解決現(xiàn)有技術(shù)中存在的問題,尤其是由于電力信息的條塊化分割以及信息碎片化導(dǎo)致無法準(zhǔn)確、快速的實(shí)現(xiàn)電力信息的存儲與搜索的問題。
[0006]為解決上述技術(shù)問題,本發(fā)明采用如下的技術(shù)方案:一種大數(shù)據(jù)環(huán)境下的數(shù)據(jù)存儲與查找方法,包括以下步驟:
[0007]S1.利用數(shù)據(jù)空間創(chuàng)建基于語義的多維知識體并存儲;
[0008]S2.大數(shù)據(jù)環(huán)境下查找數(shù)據(jù)時,根據(jù)語義查找知識體,并根據(jù)知識體之間的關(guān)聯(lián)性,合并輸出目標(biāo)數(shù)據(jù)。
[0009]優(yōu)選的,具體包括以下步驟:
[0010]S1.利用數(shù)據(jù)空間創(chuàng)建基于語義的多維知識體;在該多維知識體中,根據(jù)所述多維知識體的多維屬性構(gòu)建目錄,對多維知識體進(jìn)行層次劃分,并存儲;
[0011]S2.大數(shù)據(jù)環(huán)境下查找數(shù)據(jù)時,首先根據(jù)語義查找多維知識體,其次根據(jù)該多維知識體的目錄進(jìn)一步查找相關(guān)知識體,最后,根據(jù)所述相關(guān)知識體的關(guān)聯(lián)性,合并輸出目標(biāo)數(shù)據(jù)。
[0012]通過上述方法步驟,從而可以將條塊化、碎片化的電力信息充分利用起來,更快速、更完善的在大數(shù)據(jù)環(huán)境中給用戶提供完善的目標(biāo)數(shù)據(jù)。
[0013]本發(fā)明中,所述的多維屬性包括:主題、關(guān)聯(lián)性、空間和時間,其中,各個多維知識體之間通過關(guān)聯(lián)性關(guān)聯(lián)(所述的關(guān)聯(lián)性可以存在于同一語義下的知識體,也可以存在于不同語義下的知識體)。從而可以根據(jù)數(shù)據(jù)的屬性更合理的對數(shù)據(jù)進(jìn)行知識體劃分,便于快速、高效的查詢。
[0014]優(yōu)選的,所述的關(guān)聯(lián)性通過關(guān)聯(lián)分析方法獲取,從而使得條塊化、碎片化的電力信息的準(zhǔn)確、快速存儲與搜索成為可能。
[0015]前述的大數(shù)據(jù)環(huán)境下的數(shù)據(jù)存儲與查找方法中,所述的關(guān)聯(lián)性具體通過以下方法獲取:首先利用單層布爾型二進(jìn)制形式存儲原始數(shù)據(jù),再通過二進(jìn)制的與運(yùn)算掃描原始數(shù)據(jù)庫獲得支持事務(wù)集和支持?jǐn)?shù),然后根據(jù)設(shè)定的最小支持度閾值生成頻繁項(xiàng)集,最后由所有的頻繁項(xiàng)集生成最大關(guān)聯(lián)規(guī)則。
[0016]優(yōu)選的,具體通過以下方法生成最大關(guān)聯(lián)規(guī)則:
[0017]a.掃描數(shù)據(jù)庫,利用單層布爾型二進(jìn)制形式存儲該數(shù)據(jù)庫中的原始數(shù)據(jù);
[0018]b.若某項(xiàng)的支持?jǐn)?shù)大于等于最小支持?jǐn)?shù)閾值,則該項(xiàng)即為頻繁1-項(xiàng)集;將該頻繁1-項(xiàng)集添加到頻繁項(xiàng)集L中;其中,所述的支持?jǐn)?shù)表示某項(xiàng)在若干事務(wù)中出現(xiàn)的次數(shù);
[0019]c.將頻繁1-項(xiàng)集中所對應(yīng)的項(xiàng)利用位運(yùn)算進(jìn)一步求支持?jǐn)?shù),若某項(xiàng)的支持?jǐn)?shù)大于等于最小支持?jǐn)?shù)閾值,則該項(xiàng)即為頻繁2-項(xiàng)集,將該頻繁2-項(xiàng)集添加到頻繁項(xiàng)集L中;以此類推,將頻繁k-Ι項(xiàng)集中所對應(yīng)的項(xiàng)利用位運(yùn)算求支持?jǐn)?shù),若某項(xiàng)的支持?jǐn)?shù)大于等于最小支持?jǐn)?shù)閾值,則該項(xiàng)即為頻繁k-項(xiàng)集,將該頻繁k-項(xiàng)集添加到頻繁項(xiàng)集L中;
[0020]d.由頻繁項(xiàng)集L中的所有頻繁項(xiàng)集即生成最大關(guān)聯(lián)規(guī)則。
[0021]上述方法的步驟a中,在數(shù)據(jù)存儲過程中,存儲結(jié)構(gòu)以屬性為關(guān)鍵字,每條記錄由是否出現(xiàn)的二進(jìn)制位組成,其中“I”表示該項(xiàng)出現(xiàn),“O”表示該項(xiàng)沒有出現(xiàn)。
[0022]采用本發(fā)明中的上述方法生成最大關(guān)聯(lián)規(guī)則,不僅時間效率高,而且可以大大減小I/O占用內(nèi)存負(fù)荷。
[0023]與現(xiàn)有技術(shù)相比,本發(fā)明通過利用數(shù)據(jù)空間創(chuàng)建基于語義的多維知識體并存儲;大數(shù)據(jù)環(huán)境下查找數(shù)據(jù)時,根據(jù)語義查找知識體,并根據(jù)知識體的關(guān)聯(lián)性,合并輸出目標(biāo)數(shù)據(jù),從而實(shí)現(xiàn)了條塊化、碎片化的電力信息的準(zhǔn)確、快速的存儲與搜索,同時提高了電力信息數(shù)據(jù)的利用率,提供更多的數(shù)據(jù),滿足了數(shù)據(jù)異構(gòu)共存及電網(wǎng)對數(shù)據(jù)獲取實(shí)時性的特殊需求。此外,考慮根據(jù)數(shù)據(jù)的多樣性,本發(fā)明在知識體服務(wù)器中對所述的多維知識體構(gòu)建目錄,從而可以進(jìn)一步提高數(shù)據(jù)查找的速率和準(zhǔn)確性。另外,本發(fā)明所構(gòu)建的知識體具有適變性,可根據(jù)關(guān)聯(lián)規(guī)則對知識體進(jìn)行動態(tài)調(diào)整,以適應(yīng)智能電網(wǎng)不同的業(yè)務(wù)需求,進(jìn)一步解決電力信息條塊化分割和信息碎片化問題。此外,本發(fā)明根據(jù)數(shù)據(jù)的關(guān)聯(lián)性,可以獲得最有效最新更精準(zhǔn)的相關(guān)數(shù)據(jù),能夠更好的為用戶提供服務(wù)。最后,采用本發(fā)明中的方法生成最大關(guān)聯(lián)規(guī)則,不僅時間效率高,而且可以大大減小I/O占用內(nèi)存負(fù)荷,從而可以進(jìn)一步提高大數(shù)據(jù)環(huán)境下查找數(shù)據(jù)的效率及準(zhǔn)確性。據(jù)大量數(shù)據(jù)統(tǒng)計(jì)表明,采用本發(fā)明中的方法生成最大關(guān)聯(lián)規(guī)則,在大數(shù)據(jù)環(huán)境下查找數(shù)據(jù)的效率提高了 20%。
【附圖說明】
[0024]圖1是本發(fā)明的一種實(shí)施例的方法示意圖;
[0025]圖2是本發(fā)明的一種實(shí)施例的架構(gòu)示意圖;
[0026]圖3是本發(fā)明中生成最大關(guān)聯(lián)規(guī)則的方法流程圖。
[0027]下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明作進(jìn)一步的說明。
【具體實(shí)施方式】
[0028]本發(fā)明的實(shí)施1:一種大數(shù)據(jù)環(huán)境下的數(shù)據(jù)存儲與查找方法,如圖1、圖2所示,包括以下步驟:
[0029]S1.利用數(shù)據(jù)空間創(chuàng)建基于語義的多維知識體;在該多維知識體中,根據(jù)所述多維知識體的多維屬性一一主題、關(guān)聯(lián)性、空間和時間構(gòu)建目錄,對多維知識體進(jìn)行層次劃分,并存儲;其中,各個多維知識體之間通過關(guān)聯(lián)性關(guān)聯(lián)(所述的關(guān)聯(lián)性可以存在于同一語義下的知識體,也可以存在于不同語義下的知識體);所述的關(guān)聯(lián)性通過以下方法獲取:首先利用單層布爾型二進(jìn)制形式存儲原始數(shù)據(jù),再通過二