用于支撐智慧城市運(yùn)行管理的智能電網(wǎng)大數(shù)據(jù)挖掘系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,特別設(shè)及一種適用于支撐智慧城市運(yùn)行管理的智能電 網(wǎng)大數(shù)據(jù)挖掘系統(tǒng)及方法。
【背景技術(shù)】
[0002] 智慧城市是城市可持續(xù)發(fā)展需求與新一代信息技術(shù)應(yīng)用相結(jié)合的產(chǎn)物,是通過(guò)綜 合運(yùn)用現(xiàn)代科學(xué)技術(shù),統(tǒng)籌業(yè)務(wù)應(yīng)用系統(tǒng),整合信息通信資源,集城市運(yùn)行管理、能源供需、 公共服務(wù)、產(chǎn)業(yè)優(yōu)化、環(huán)境監(jiān)測(cè)等為一體的城市科學(xué)發(fā)展新實(shí)踐,智能電網(wǎng)與智慧城市緊密 結(jié)合,能夠促進(jìn)城市綠色發(fā)展,保障城市用電安全,完善城市通信信息網(wǎng)絡(luò),帶動(dòng)城市產(chǎn)業(yè) 發(fā)展,豐富城市服務(wù)內(nèi)涵。智慧城市的高效運(yùn)轉(zhuǎn)離不開(kāi)智能電網(wǎng),智能電網(wǎng)是智慧城市的關(guān) 鍵基礎(chǔ)和客觀(guān)需要。
[0003] 智慧城市的本質(zhì)是對(duì)數(shù)據(jù)的智慧處理。大數(shù)據(jù)改變了城市的管理方式、運(yùn)行模式, 讓人們享受智慧的生活體驗(yàn)。在智慧城市建設(shè)的過(guò)程中,大數(shù)據(jù)的收集、存儲(chǔ)、分析挖掘及 使用是智慧城市面臨的挑戰(zhàn)。又由于智能電網(wǎng)對(duì)智慧城市的支撐作用,對(duì)智能電網(wǎng)的大數(shù) 據(jù)挖掘則顯得尤其重要。
[0004] 大數(shù)據(jù)是智能電網(wǎng)的典型特點(diǎn),要實(shí)現(xiàn)智能電網(wǎng)支撐智慧城市必須掌握數(shù)據(jù)處理 的關(guān)鍵技術(shù)即大數(shù)據(jù)挖掘技術(shù)。目前存在多種數(shù)據(jù)挖掘方法和技術(shù),基本上按挖掘任務(wù)分 屬五類(lèi):預(yù)測(cè)、分類(lèi)、關(guān)聯(lián)規(guī)則、聚類(lèi)分析、離群分析。通過(guò)該些技術(shù)方法來(lái)進(jìn)行數(shù)據(jù)挖掘, 得到有用信息。但是數(shù)據(jù)挖掘模型的建立沒(méi)有通用性,一般現(xiàn)在大多數(shù)的做法是根據(jù)需要 的一個(gè)任務(wù)目標(biāo)來(lái)建立相應(yīng)模型進(jìn)行數(shù)據(jù)挖掘,然而該個(gè)模型在其他的任務(wù)上卻沒(méi)有適用 性。
【發(fā)明內(nèi)容】
[0005] 針對(duì)現(xiàn)有方法存在的不足,本發(fā)明提出一種用于支撐智慧城市運(yùn)行管理的電網(wǎng)大 數(shù)據(jù)挖掘系統(tǒng)及方法。
[0006] 本發(fā)明所采用的技術(shù)方案是該樣實(shí)現(xiàn)的:
[0007] -種用于支撐智慧城市運(yùn)行管理的智能電網(wǎng)大數(shù)據(jù)挖掘系統(tǒng),包括:
[0008] 數(shù)據(jù)提取模塊:用于提取智慧城市運(yùn)行管理所需的智能電網(wǎng)數(shù)據(jù);
[0009] 數(shù)據(jù)處理模塊;用于對(duì)數(shù)據(jù)提取模塊提取的智能電網(wǎng)數(shù)據(jù)進(jìn)行分類(lèi)整合處理;
[0010] 數(shù)據(jù)挖掘模塊:具有基于云計(jì)算的數(shù)據(jù)聚類(lèi)分析方法(即,基于云計(jì)算的MapRe化ce-APS方法)、改進(jìn)的關(guān)聯(lián)規(guī)則方法和改進(jìn)的離群分析方法該=種數(shù)據(jù)挖掘方法, 并具有獨(dú)立工作模式和聯(lián)合工作模式;能夠根據(jù)不同運(yùn)行任務(wù)目標(biāo),進(jìn)行工作模式選擇后, 對(duì)數(shù)據(jù)處理模塊處理后的智能電網(wǎng)數(shù)據(jù)進(jìn)行挖掘得到有用信息;所述獨(dú)立工作模式,指的 是根據(jù)運(yùn)行任務(wù)目標(biāo)從基于云計(jì)算的數(shù)據(jù)聚類(lèi)分析方法、改進(jìn)的關(guān)聯(lián)規(guī)則方法和改進(jìn)的離 群分析方法中選擇一種數(shù)據(jù)挖掘方法進(jìn)行數(shù)據(jù)挖掘的工作模式;所述聯(lián)合工作模式指的是 根據(jù)運(yùn)行任務(wù)目標(biāo)從基于云計(jì)算的數(shù)據(jù)聚類(lèi)分析方法、改進(jìn)的關(guān)聯(lián)規(guī)則方法和改進(jìn)的離群 分析方法中選擇至少兩種挖掘方法聯(lián)合進(jìn)行數(shù)據(jù)挖掘的工作模式;
[0011] 數(shù)據(jù)可視化模塊;用于可視化數(shù)據(jù)挖掘模塊的智能電網(wǎng)大數(shù)據(jù)挖掘后得到的有用 f目息;
[0012] 一種用于支撐智慧城市運(yùn)行管理的電網(wǎng)大數(shù)據(jù)挖掘方法,包括如下步驟:
[0013] 步驟1 ;各城市運(yùn)行管理部口從智能電網(wǎng)數(shù)據(jù)庫(kù)中提取出所需的智能電網(wǎng)數(shù)據(jù);
[0014] 步驟2;對(duì)步驟1提取的智能電網(wǎng)數(shù)據(jù)進(jìn)行分類(lèi)整合處理得到所需的數(shù)據(jù)集;
[0015] 步驟3;將數(shù)據(jù)集和城市運(yùn)行管理部口的運(yùn)行任務(wù)目標(biāo)輸入到數(shù)據(jù)挖掘模塊;
[0016] 步驟4 ;數(shù)據(jù)挖掘模塊對(duì)運(yùn)行任務(wù)目標(biāo)進(jìn)行分析;
[0017] 步驟5;在對(duì)輸入的運(yùn)行任務(wù)目標(biāo)分析后,根據(jù)所輸入的運(yùn)行任務(wù)目標(biāo)的個(gè)數(shù),數(shù) 據(jù)挖掘模塊決定其數(shù)據(jù)挖掘的工作模式;當(dāng)所選的運(yùn)行目標(biāo)任務(wù)為一個(gè)時(shí),則數(shù)據(jù)挖掘模 塊進(jìn)行獨(dú)立工作模式;當(dāng)所選的運(yùn)行目標(biāo)任務(wù)為多個(gè)時(shí),則數(shù)據(jù)挖掘模塊進(jìn)行聯(lián)合工作模 式;
[0018] 步驟6 ;在不同的工作模式下,根據(jù)不同挖掘方法進(jìn)行數(shù)據(jù)挖掘,得到的有用信息 輸出到數(shù)據(jù)可視化模塊進(jìn)行顯示。
[0019] 所述的基于云計(jì)算的數(shù)據(jù)聚類(lèi)分析方法的運(yùn)行環(huán)境由兩種不同類(lèi)型的數(shù)據(jù)節(jié)點(diǎn) 組成;在從節(jié)點(diǎn)上負(fù)責(zé)數(shù)據(jù)的處理,在主節(jié)點(diǎn)上負(fù)責(zé)運(yùn)行目標(biāo)任務(wù)調(diào)度及不同節(jié)點(diǎn)之間的 數(shù)據(jù)共享;具體包括如下步驟;
[0020] 步驟A01 ;首先采用AP算法(即,近鄰傳播聚類(lèi)算法)確定最佳聚類(lèi)數(shù)的捜索范 圍,并選擇合適的有效性分析指標(biāo),評(píng)估該捜索范圍內(nèi)各聚類(lèi)結(jié)果的質(zhì)量,根據(jù)評(píng)估結(jié)果得 到數(shù)據(jù)集聚類(lèi)數(shù)1。。,從而得到最佳聚類(lèi)數(shù)范圍[2,1。。],并將數(shù)據(jù)集聚類(lèi)數(shù)1。。作為基于云 計(jì)算的數(shù)據(jù)聚類(lèi)分析方法的輸入;
[0021] 步驟A02;基于并行框架的方法,將輸入的數(shù)據(jù)集進(jìn)行隨機(jī)劃分,劃分結(jié)果標(biāo) 記為數(shù)據(jù)片spliti、split2、splits、...、和邱,并將各隨機(jī)劃分的數(shù)據(jù)片均轉(zhuǎn)化為 <key,value〉形式,作為各map函數(shù)的輸入;
[002引步驟A03 ;Map階段;根據(jù)步驟A01中輸入的數(shù)據(jù)集聚類(lèi)數(shù)1。。對(duì)輸入的數(shù)據(jù)片運(yùn) 用C均值聚類(lèi)算法(又稱(chēng)FCM聚類(lèi)算法)進(jìn)行分析,得到初始聚類(lèi)中屯、,根據(jù)密度指標(biāo)將數(shù) 據(jù)集中每個(gè)數(shù)據(jù)點(diǎn)劃分到數(shù)據(jù)點(diǎn)附近的聚類(lèi)中,直到所有的數(shù)據(jù)點(diǎn)都劃分完畢;
[002引步驟A04 ;取所有map函數(shù)的輸出,對(duì)輸出結(jié)果進(jìn)行匯總對(duì)map函數(shù)輸出的數(shù)據(jù) 節(jié)點(diǎn),Wkey值為索引進(jìn)行分組和排序,將屬于同一聚類(lèi)的數(shù)據(jù)點(diǎn)進(jìn)行匯總,匯總之后輸出 至Re化ce階段;
[0024]步驟A05 ;Re化ce階段;讀取步驟A04的輸出結(jié)果并進(jìn)行匯總處理,處理結(jié)束后輸 出聚類(lèi)中屯、點(diǎn)及隸屬于該個(gè)聚類(lèi)中屯、的數(shù)據(jù)至下一步的驗(yàn)證環(huán)節(jié);
[00巧]步驟A06 ;對(duì)Re化ce階段的輸出結(jié)果進(jìn)行驗(yàn)證;采用Si化ouette指標(biāo)對(duì)輸出結(jié)果 進(jìn)行有效性分析,符合指標(biāo)則作為最終結(jié)果進(jìn)行輸出并顯示,否則返回到步驟A01,同時(shí)改 變輸入最佳聚類(lèi)數(shù)為1。。+1。
[0026] 所述的改進(jìn)的關(guān)聯(lián)規(guī)則方法,是通過(guò)將DIC算法與DHP算法結(jié)合,相比于DIC算法 能夠進(jìn)一步減少掃描數(shù)據(jù)庫(kù)的次數(shù),提高效率,高效找出事物中的全部頻集,并且精確度又 比DHP算法高。按如下步驟進(jìn)行:
[0027] 步驟B01;用戶(hù)設(shè)定最小支持度和最小置信度,輸入待處理數(shù)據(jù)事物庫(kù);
[0028] 步驟B02;基于分層劃分技術(shù)的方法,對(duì)給定的數(shù)據(jù)事物庫(kù)進(jìn)行DIC算法分區(qū),將 數(shù)據(jù)庫(kù)劃分為N片表區(qū);
[0029] 步驟B03;計(jì)算每個(gè)表區(qū)內(nèi)項(xiàng)目集的最小支持度;
[0030] 步驟B04;統(tǒng)計(jì)每個(gè)表區(qū)內(nèi)的局部頻繁項(xiàng)目集巧,形成候選項(xiàng)目集,其中每個(gè)表區(qū) 內(nèi)最小支持度大于設(shè)定的最小支持度的項(xiàng)目集為頻繁項(xiàng)目集,i表示頻繁項(xiàng)目集中的項(xiàng)目 個(gè)數(shù);k表示頻繁項(xiàng)目集中第k個(gè)項(xiàng)目;
[003。步驟B05;在上一步的基礎(chǔ)上進(jìn)一步采用畑P算法,將每個(gè)表區(qū)的候選項(xiàng)目集中含 有i-1個(gè)公共項(xiàng)目的局部頻繁項(xiàng)目集進(jìn)行兩兩合并;
[0032] 步驟B06;對(duì)每個(gè)表區(qū)重復(fù)執(zhí)行步驟B03至步驟B04,得到全局項(xiàng)目頻繁集;
[0033] 步驟B07;執(zhí)行Apriori算法第二步,計(jì)算全局頻繁項(xiàng)目集的最小置信度,進(jìn)而得 到關(guān)聯(lián)規(guī)則。
[0034] 所述的改進(jìn)的離群分析方法,為首先根據(jù)用戶(hù)需要的檢測(cè)方向(例如,檢測(cè)電 壓),確定檢測(cè)屬性(例如,電壓)從而進(jìn)行相應(yīng)的子空間選擇;選擇了子空間后在各子空 間中運(yùn)用聚類(lèi)密度算法檢測(cè)子空間中差異性較大的離群數(shù)據(jù)點(diǎn);在此基礎(chǔ)之上,通過(guò)計(jì)算 多個(gè)子空間的離群程度的加權(quán)和來(lái)定義一個(gè)離群對(duì)象;按如下步驟進(jìn)行:
[0035] 步驟C01;用戶(hù)根據(jù)檢測(cè)方向從原始輸入數(shù)據(jù)中決定最終輸入數(shù)據(jù)(例如原始輸 入數(shù)據(jù)含有電壓,電流,功率等等數(shù)據(jù),但是用戶(hù)現(xiàn)在的檢測(cè)方向只是檢測(cè)電壓,那么只選 取電壓數(shù)據(jù)作為最終的輸入數(shù)據(jù)),并基于檢測(cè)屬性(電壓)選擇子空間;
[0036] 步驟C02;在子空間中運(yùn)用基于密度的聚類(lèi)算法來(lái)檢測(cè)子空間中差異性較大的離 群數(shù)據(jù)點(diǎn);
[0037] 步驟C03;計(jì)算多個(gè)子空間屬性的邊際密度概率和子空間的聯(lián)合密度分布概率來(lái) 判斷子空間屬性之間的相關(guān)性;
[0038] 步驟C04;選取相關(guān)性較大的子空間,并計(jì)算被懷疑的離群數(shù)據(jù)點(diǎn)相對(duì)于前述相 關(guān)性較大的子空間的離群偏差程度的加權(quán)和;
[0039] 步驟C05;將步驟C04得到的計(jì)算結(jié)果與設(shè)定好的離群偏差加權(quán)和闊值比較,大于 闊值的則被認(rèn)為是離群數(shù)據(jù)點(diǎn);
[0040] 步驟C06;統(tǒng)計(jì)由步驟C05中得到的相對(duì)于相關(guān)程度大的子空間檢測(cè)出的離群數(shù) 據(jù)點(diǎn)和個(gè)別獨(dú)立的子空間中檢測(cè)出的離群數(shù)據(jù)點(diǎn)作為最終結(jié)果輸出并顯示。
[0041] 本發(fā)明的優(yōu)點(diǎn);本發(fā)明的用于支撐智慧城市運(yùn)行管理的電網(wǎng)大數(shù)據(jù)挖掘系統(tǒng)及 方法中的數(shù)據(jù)挖掘模炔基于云計(jì)算的MapRe化ce-APS算法、改進(jìn)的關(guān)聯(lián)規(guī)則算法和改進(jìn)的 離群分析算法,具有采用其中之一的算法單獨(dú)執(zhí)行數(shù)據(jù)挖掘的獨(dú)立工作模式和具有采用其 中至少兩種算法聯(lián)合進(jìn)