亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于大數(shù)據(jù)技術(shù)的電力負荷預(yù)測方法及基于該方法的研究應(yīng)用系統(tǒng)的制作方法

文檔序號:9911763閱讀:1042來源:國知局
基于大數(shù)據(jù)技術(shù)的電力負荷預(yù)測方法及基于該方法的研究應(yīng)用系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于電力信息大數(shù)據(jù)信息挖掘與分析領(lǐng)域,特別是一種基于大數(shù)據(jù)技術(shù)的 電力負荷預(yù)測方法及基于該方法的研究應(yīng)用系統(tǒng)。
【背景技術(shù)】
[0002] 現(xiàn)有的電力負荷預(yù)測方法都是基于傳統(tǒng)的統(tǒng)計分析來進行數(shù)據(jù)規(guī)范和數(shù)據(jù)展現(xiàn) 的,傳統(tǒng)的統(tǒng)計分析是指運用統(tǒng)計方法及與分析對象有關(guān)的知識,從定量與定性的結(jié)合上 進行的研究活動。統(tǒng)計分析可以分為5個步驟:描述要分析的數(shù)據(jù)的性質(zhì);研究基礎(chǔ)群體的 數(shù)據(jù)關(guān)系;創(chuàng)建一個模型,總結(jié)數(shù)據(jù)與基礎(chǔ)群體的聯(lián)系;證明(或否定)該模型的有效性;采 用該模型來預(yù)測將來的趨勢。
[0003] 在運用傳統(tǒng)的統(tǒng)計分析方法進行分析應(yīng)用時,需對數(shù)據(jù)分布和變量間的關(guān)系做假 設(shè),確定用什么概率函數(shù)來描述變量間的關(guān)系,以及如何檢驗參數(shù)的統(tǒng)計顯著性,以驗證假 設(shè)是否成立,而無法實現(xiàn)自動尋找變量間隱藏的關(guān)系或規(guī)律,并且,傳統(tǒng)的統(tǒng)計分析在處理 實時、海量、模糊、雜亂的數(shù)據(jù)時效率低下,不能很好的支撐電力負荷預(yù)測的相關(guān)應(yīng)用,所 以,基于大數(shù)據(jù)技術(shù)的分布式并行計算和分析挖掘能力可以實現(xiàn)對海量數(shù)據(jù)快速準確的進 行分析。

【發(fā)明內(nèi)容】

[0004] 本專利的目的在于:針對傳統(tǒng)統(tǒng)計分析方法在分析應(yīng)用之前需對數(shù)據(jù)分布和變量 間的關(guān)系做假設(shè)的問題,基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)可以不需要對數(shù)據(jù)分布做任何假設(shè), 數(shù)據(jù)挖掘中的算法會自動尋找變量間隱藏的關(guān)系或規(guī)律。針對傳統(tǒng)統(tǒng)計分析方法處理實 時、海量數(shù)據(jù)效率低下的問題,基于大數(shù)據(jù)的分布式消息隊列、流計算、內(nèi)存計算和分布式 并行計算技術(shù)可以高效率、簡潔、實時的實現(xiàn)對數(shù)據(jù)的采集和處理。
[0005] 本專利利用生產(chǎn)管理系統(tǒng)、用電信息采集系統(tǒng)以及營銷業(yè)務(wù)應(yīng)用等系統(tǒng)的用電負 荷、用戶檔案、電網(wǎng)設(shè)備臺賬、變電站信息、區(qū)域/行業(yè)/用電類別等信息并結(jié)合天氣信息、節(jié) 假日信息等外部數(shù)據(jù)。利用大數(shù)據(jù)處理技術(shù),通過構(gòu)建分布式負荷特性分析模型和負荷預(yù) 測模型,實現(xiàn)用電負荷特性分析和電力負荷預(yù)測分析場景,為公司電網(wǎng)規(guī)劃、設(shè)備檢修、電 能調(diào)配等提供決策支持。
[0006] 本專利的具體技術(shù)方案如下:
[0007] 它包括以下步驟:
[0008] 步驟a、數(shù)據(jù)源建立,建立用電負荷、用戶檔案、電網(wǎng)設(shè)備臺賬、變電站信息、區(qū)域/ 行業(yè)/用電類別信息以及外部的天氣信息、節(jié)假日信息;
[0009]步驟b、數(shù)據(jù)整合:融合kafka實時數(shù)據(jù)分布式消息隊列、sqoop離線數(shù)據(jù)抽取技術(shù), 對異構(gòu)數(shù)據(jù)的快速接入,構(gòu)建分布式數(shù)據(jù)整合功能,具備定時/實時數(shù)據(jù)的采集處理能力, 實現(xiàn)從數(shù)據(jù)源到平臺存儲的配置開發(fā)、過程監(jiān)控;
[0010] 步驟c、數(shù)據(jù)存儲:對關(guān)系型數(shù)據(jù)存儲、非關(guān)系型數(shù)據(jù)存儲、分布式文件存儲進行數(shù) 據(jù)存儲,同時提供統(tǒng)一存儲訪問接口,提高數(shù)據(jù)存儲低成本的橫向擴展能力,提高在高并發(fā) 條件下的快速數(shù)據(jù)訪問響應(yīng)能力、滿足海量數(shù)據(jù)實時與準實時存儲需求;
[0011] 步驟d、數(shù)據(jù)計算:包括流計算、批量計算、查詢計算并支撐SQL查詢,滿足不同時效 性計算需求;批量計算支持大批量數(shù)據(jù)離線分析;流計算支持實時處理,如用電數(shù)據(jù)實時處 理、預(yù)警;同時提供類似SQL的查詢分析技術(shù),將查詢語句轉(zhuǎn)譯為并行的分布式計算任務(wù);
[0012] 步驟e、數(shù)據(jù)分析:集成R語言和Mahout,形成分布式數(shù)據(jù)挖掘算法庫,提供挖掘建 模設(shè)計工具,構(gòu)建統(tǒng)一的分析建模能力和運行引擎;同時,通過提升改造分析決策平臺,完 善分析建模、模型運行、模型發(fā)布能力,增加對大數(shù)據(jù)分布式計算的支持,滿足實時、離線應(yīng) 用的分析挖掘需求,為公司分析決策應(yīng)用構(gòu)建提供基礎(chǔ)平臺支撐;
[0013] 步驟f、場景展現(xiàn):實施電負荷特性分析以及電力負荷預(yù)測分析。
[0014] 其中,步驟b的具體步驟如下:
[0015] 1)通過sqoop定期將業(yè)務(wù)系統(tǒng)數(shù)據(jù)抽取到hive,數(shù)據(jù)包括用戶信息表、客戶聯(lián)系信 息表、供電單位表、營銷編碼表、日測量點功率曲線表、變電站信息表、變電站坐標信息表、 關(guān)聯(lián)表、變電站資源編碼映射表、日氣象數(shù)據(jù)表、月氣象數(shù)據(jù)表;
[0016] 2)大數(shù)據(jù)平臺解析程序定期將CIS數(shù)據(jù)源區(qū)域負荷信息及變電站負荷信息原始數(shù) 據(jù)進行解析,并寫入hive區(qū)域負荷信息解析表、變電站負荷信息解析表寫入hive;
[0017] 3)大數(shù)據(jù)平臺定期數(shù)據(jù)計算,并將其中的區(qū)域信息表、行業(yè)信息表、用電類別信息 表、變電站信息表、用戶信息表、區(qū)域用戶數(shù)量信息表、行業(yè)用戶數(shù)量信息表、用電類別用戶 數(shù)量信息表、用戶負荷信息表、行業(yè)負荷信息表、用電類別負荷信息表、負荷聚類模型寬表、 負荷預(yù)測模型寬表、負荷多因素影響分析預(yù)測模型寬表寫入PostgreSQL;
[0018] 4)智能分析決策平臺每月讀取負荷聚類模型寬表、負荷預(yù)測模型寬表、負荷多因 素影響分析預(yù)測模型寬表,挖掘生成負荷聚類模型輸出表、負荷聚類模型輸出結(jié)果描述表、 負荷預(yù)測模型輸出表、負荷多因素影響分析預(yù)測模型輸出表,并寫入PostgreSQL;
[0019] 5)前端展現(xiàn)定時讀取postgreSQ中的計算結(jié)果進行展示。
[0020] 步驟e:數(shù)據(jù)分析中,包括分布式負荷特性分析,于負荷數(shù)據(jù)量非常大,采用基于 Mahout的分布式Conopy算法及K-Means算法實現(xiàn)對負荷數(shù)據(jù)的并行處理,識別客戶用電模 式,分布式聚類算法可通過自動設(shè)定聚類類別個數(shù)或手動設(shè)定聚類類別個數(shù)兩種方式實現(xiàn) 對負荷信息的聚類,解決傳統(tǒng)聚類算法無法處理大數(shù)據(jù)量的局限性,Mahout是Hadoop家族 中與眾不同的一個成員,是基于Hadoop的機器學(xué)習(xí)和數(shù)據(jù)挖掘的一個分布式框架,Mahout 用MapReduce實現(xiàn)了部分數(shù)據(jù)挖掘算法,解決了并行挖掘的問題,K-Means作為一種經(jīng)典的 聚類算法,依賴于不斷尋找簇中心直至其達至穩(wěn)定實現(xiàn)對象的劃分,K-Means的一個不足之 處是必須預(yù)先指定簇數(shù)K,在許多實際應(yīng)用中要設(shè)定一個合理的K值不是一件容易的事,借 助Canopy算法可以完成簇數(shù)K及初始簇中心的估計。Canopy算法實現(xiàn)步驟如下:
[0021] 1)輸入歷史一年中全省負荷值最大的當天用戶整點負荷數(shù)據(jù),針對負荷數(shù)據(jù)進行 預(yù)處理,并進行數(shù)據(jù)歸一化處理;
[0022] 2)執(zhí)行并行聚類算法,確定是否自動確定聚類簇數(shù),如果選擇手動確定簇數(shù),則直 接輸入聚類簇數(shù),如果選擇自動確定聚類簇數(shù),則采用并行Conopy算法計算簇數(shù)值和初始 簇中心;
[0023]執(zhí)行并行K-Means算法,輸出聚類結(jié)果,進行聚類結(jié)果評估;
[0024] K-Means算法實現(xiàn)步驟如下:
[0025] 1)第一步是為待聚類的點尋找K個聚類中心,
[0026] >指定聚類數(shù)目K;
[0027] >在所有個案中隨機選取K個類初始中心,(0k,Tk),k = l,2,...;
[0028] 2)第二步是計算每個點到聚類中心的距離,將每個點聚類到離該點最近的聚類中 去,根據(jù)距離最近原則進行分類,計算每個樣本數(shù)據(jù)點到K個類初始中心點的歐式距離,并 按照距K個類中心點距離最近的原則分派所有樣本,形成K類;
[0029] >樣本點到類初始中心點的歐式距離公式為:則'm,1H>)=和,-ο,ν+α;-打, (〇i,Ti)為樣本點;
[0030] 夢判斷樣本點到哪類初始中心點的距離最小,并將此樣本歸入此類;
[0031] 3)第三步是計算每個聚類中所有點的坐標平均值,并將這個平均值作為新的聚類 中心,反復(fù)執(zhí)行(2)、(3),直到聚類中心不再進行大范圍移動或者聚類次數(shù)達到要求為止, 依次計算各類中K個變量的均值,以均值點作為K個類的中心點;
[0032] >重新確定類中心點(ck,tk)
η為各類中樣本點的個數(shù);設(shè) 置終止聚類的條件:迭代次數(shù)η:當目前的迭代次數(shù)等于指定的迭代次數(shù)時,終止聚類;類中 心點偏移程度(S):新確定的類中心點距上個類中心的最大偏移量小于指定的量時停止聚 類,當?shù)螖?shù)和類中心偏移成都中任一條件滿足則結(jié)束聚類,不滿足上述兩個條件,則反 復(fù)執(zhí)行K-Means算法步驟(2)、( 3)。
[0033] 步驟e:數(shù)據(jù)分析中,包括負荷預(yù)測分析,運用隨機森林回歸預(yù)測、時間序列算法觀 察探索歷史負荷、氣象的內(nèi)在發(fā)展規(guī)律,構(gòu)建負荷預(yù)測模型,預(yù)測未來負荷值,AMMA模型全 稱為自回歸移動平均模型,其中ARIMA(p,d. q)稱為差分自回歸移動平均模型,AR是自回歸, P為自回歸項;Μ為移動平均,q為移動平均項數(shù),d為時間序列成為平穩(wěn)時所做的差分次數(shù); ARIMA模型為將預(yù)測對象隨時間推移而形成的數(shù)據(jù)序列視為一個隨機序列,以時間序列的 自相關(guān)分析為基礎(chǔ),用一定的數(shù)學(xué)模型來近似描述這個序列,這個模型一旦被識別后就可 以從時間序列的過去值及現(xiàn)在值來預(yù)測未來值,隨機森林,指的是利用多棵
當前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1