本發(fā)明涉及一種標(biāo)簽產(chǎn)出技術(shù),具體涉及一種基于電力營(yíng)銷(xiāo)數(shù)據(jù)的標(biāo)簽產(chǎn)出方法和裝置。
背景技術(shù):
隨著國(guó)網(wǎng)公司信息化系統(tǒng)的大規(guī)模建設(shè),使公司內(nèi)部積累了海量、多樣的數(shù)據(jù)資源,近年來(lái),公司營(yíng)銷(xiāo)業(yè)務(wù)領(lǐng)域依托大數(shù)據(jù)技術(shù)已進(jìn)行了多維度的業(yè)務(wù)應(yīng)用探索。在大數(shù)據(jù)業(yè)務(wù)應(yīng)用領(lǐng)域如何透過(guò)多層次、多維度的數(shù)據(jù)集,實(shí)現(xiàn)對(duì)于某一用戶、某一設(shè)備或某一種運(yùn)行狀態(tài)的現(xiàn)實(shí)態(tài)勢(shì)聚焦,如何確定描述這一對(duì)象的關(guān)鍵維度,以及各維度之間的關(guān)聯(lián)關(guān)系;如何在時(shí)間序列的電力營(yíng)銷(xiāo)數(shù)據(jù)集合中找到分析邏輯,提取數(shù)據(jù)特征,對(duì)特征屬性分類,成為電力營(yíng)銷(xiāo)業(yè)務(wù)應(yīng)用領(lǐng)域亟待解決的問(wèn)題。因此需要提供一種技術(shù)方案來(lái)滿足不同類屬數(shù)據(jù)集的功能聚合模型以及數(shù)據(jù)標(biāo)簽體系構(gòu)建方法的需要。
技術(shù)實(shí)現(xiàn)要素:
為有效解決營(yíng)銷(xiāo)業(yè)務(wù)應(yīng)用的技術(shù)瓶頸,本發(fā)明提供一種基于電力營(yíng)銷(xiāo)數(shù)據(jù)的標(biāo)簽產(chǎn)出方法和裝置,實(shí)現(xiàn)了大規(guī)模數(shù)據(jù)提取、存儲(chǔ)、標(biāo)簽計(jì)算、查詢檢索及可視化展示等,促進(jìn)標(biāo)簽應(yīng)用的快速生成,提升標(biāo)簽生產(chǎn)效率和查詢檢索速度,最終利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)基于電力營(yíng)銷(xiāo)數(shù)據(jù)的用戶畫(huà)像的生成。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采取如下技術(shù)方案:
本發(fā)明提供一種基于電力營(yíng)銷(xiāo)數(shù)據(jù)的標(biāo)簽產(chǎn)出方法,所述方法包括:
采集并存儲(chǔ)電力營(yíng)銷(xiāo)數(shù)據(jù),其中電力營(yíng)銷(xiāo)數(shù)據(jù)包括用戶屬性數(shù)據(jù)、用電行為數(shù)據(jù)、交易行為數(shù)據(jù)和履約能力數(shù)據(jù);
清理電力營(yíng)銷(xiāo)數(shù)據(jù)中不符合要求的數(shù)據(jù),其中所述不符合要求的數(shù)據(jù)包括不完整數(shù)據(jù)、異常數(shù)據(jù)和重復(fù)數(shù)據(jù);
根據(jù)清理后的電力營(yíng)銷(xiāo)數(shù)據(jù)產(chǎn)出標(biāo)簽。
所述采集并存儲(chǔ)電力營(yíng)銷(xiāo)數(shù)據(jù)包括:
采用數(shù)據(jù)貼源的方式從營(yíng)銷(xiāo)業(yè)務(wù)應(yīng)用系統(tǒng)或用電信息采集系統(tǒng)中采集電力營(yíng)銷(xiāo)數(shù)據(jù);
將采集的電力營(yíng)銷(xiāo)數(shù)據(jù)存儲(chǔ)到電力營(yíng)銷(xiāo)數(shù)據(jù)庫(kù)。
所述用戶屬性數(shù)據(jù)包括用戶檔案數(shù)據(jù)以及與用戶綁定且不頻繁發(fā)生變更的數(shù)據(jù);
所述用電行為數(shù)據(jù)包括帶有時(shí)間屬性的用戶用電量和用電負(fù)荷數(shù)據(jù);
所述交易行為數(shù)據(jù)包括帶有時(shí)間屬性的用戶繳費(fèi)時(shí)間、繳費(fèi)頻度和繳費(fèi)周期;
所述履約能力數(shù)據(jù)包括記錄用戶是否遵守合同約定,以及是否存在竊電、欠費(fèi)、違約行為的數(shù)據(jù)。
所述電力營(yíng)銷(xiāo)數(shù)據(jù)庫(kù)包括緩沖層、倉(cāng)庫(kù)層和展示層;
所述緩沖層用于將采集的電力營(yíng)銷(xiāo)數(shù)據(jù)通過(guò)數(shù)據(jù)采集工具kettle存儲(chǔ)到hive數(shù)據(jù)庫(kù);
所述倉(cāng)庫(kù)層用于將采集的電力營(yíng)銷(xiāo)數(shù)據(jù)通過(guò)并行運(yùn)算編程模型mapreduce處理后存儲(chǔ)到hbase數(shù)據(jù)庫(kù);
所述展示層基于搜索引擎elasticsearch創(chuàng)建二級(jí)索引,實(shí)現(xiàn)對(duì)電力營(yíng)銷(xiāo)數(shù)據(jù)的檢索。
所述不完整數(shù)據(jù)包括基礎(chǔ)屬性、維度信息和度量值缺失的數(shù)據(jù),所述不完整數(shù)據(jù)包括文本類數(shù)據(jù)和度量值類數(shù)據(jù);
清理電力營(yíng)銷(xiāo)數(shù)據(jù)中不符合要求的數(shù)據(jù),具體包括:對(duì)于文本類數(shù)據(jù)的缺失,通過(guò)人工查證或關(guān)聯(lián)歷史明細(xì)數(shù)據(jù)的方式補(bǔ)充;對(duì)于度量值類數(shù)據(jù)的缺失,通過(guò)查詢歷史記錄補(bǔ)充或基于實(shí)際業(yè)務(wù)含義和業(yè)務(wù)規(guī)則,通過(guò)推測(cè)方式補(bǔ)充。
所述異常數(shù)據(jù)包括由于業(yè)務(wù)系統(tǒng)性能不健全、沒(méi)有校驗(yàn)規(guī)則或缺乏人工管理的原因而被直接寫(xiě)入用電信息采集系統(tǒng)數(shù)據(jù)庫(kù)的用電行為數(shù)據(jù)。
在清理電力營(yíng)銷(xiāo)數(shù)據(jù)中不符合要求的數(shù)據(jù)之前,還包括:根據(jù)判斷規(guī)則判斷異常數(shù)據(jù);
所述判斷規(guī)則包括飛走判斷規(guī)則、停走判斷規(guī)則和倒走判斷規(guī)則。
所述飛走判斷規(guī)則是指電能表顯示的用戶日用電量與用戶日可能最大用電量比值大于飛走判斷規(guī)則閾值,表示為:
其中,dw為電能表顯示的用戶日用電量;dwmax為用戶日可能最大用電量,且dwmax=imax×u額×24,imax為最大電流,u額為額定電壓;k為飛走判斷規(guī)則閾值。
所述停走判斷規(guī)則是指電能表兩天內(nèi)日正向有功總電能示值或電能表兩天內(nèi)日反向有功總電能示值的差值等于0,分別表示為:
pf(n)-pf(n-2)=0
pr(n)-pr(n-2)=0
其中,pf(n)表示電能表第n天的日正向有功總電能示值,pf(n-2)表示電能表第n-2天的日正向有功總電能示值;pr(n)表示電能表第n天的日反向有功總電能示值,pr(n-2)表示電能表第n-2天的日反向有功總電能示值。
所述倒走判斷規(guī)則是指電能表當(dāng)天日正向有功總電能示值小于電能表前一天日正向有功總電能示值,或電能表當(dāng)天日反向有功總電能示值小于電能表前一天日反向有功總電能示值,分別表示為:
pf(n)-pf(n-1)<0
pr(n)-pr(n-1)<0。
所述重復(fù)數(shù)據(jù)包括由于業(yè)務(wù)系統(tǒng)性能不健全而被重復(fù)寫(xiě)入營(yíng)銷(xiāo)業(yè)務(wù)應(yīng)用系統(tǒng)數(shù)據(jù)庫(kù)或用電信息采集系統(tǒng)數(shù)據(jù)庫(kù)的一條或至少兩條完全相同用電數(shù)據(jù)。
所述根據(jù)清理后的電力營(yíng)銷(xiāo)數(shù)據(jù)產(chǎn)出標(biāo)簽包括:
對(duì)清理后的電力營(yíng)銷(xiāo)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析和挖掘,之后通過(guò)轉(zhuǎn)換和加工處理后得到標(biāo)簽,并將標(biāo)簽存儲(chǔ)至hive數(shù)據(jù)庫(kù)。
在根據(jù)清理后的電力營(yíng)銷(xiāo)數(shù)據(jù)產(chǎn)出標(biāo)簽之后,還包括:
從hive數(shù)據(jù)庫(kù)中讀取標(biāo)簽并對(duì)讀取的標(biāo)簽進(jìn)行整合,具體是將分散的標(biāo)簽通過(guò)并行運(yùn)算編程模型mapreduce進(jìn)行匯總,形成標(biāo)簽集合,最后將標(biāo)簽集合存儲(chǔ)至hbase數(shù)據(jù)庫(kù);
從hbase數(shù)據(jù)庫(kù)獲取標(biāo)簽,并根據(jù)關(guān)鍵字建立不同標(biāo)簽之間的索引關(guān)系,并將索引關(guān)系存放到elasticsearch索引庫(kù);
從hbase數(shù)據(jù)庫(kù)和elasticsearch索引庫(kù)中分別讀取標(biāo)簽和索引關(guān)系,并從redis數(shù)據(jù)庫(kù)中讀取歷史緩存數(shù)據(jù),以供用戶查詢。
所述根據(jù)清理后的電力營(yíng)銷(xiāo)數(shù)據(jù)產(chǎn)出標(biāo)簽之后包括:
利用標(biāo)簽提取用戶特征,并基于大數(shù)據(jù)可視化工具繪制實(shí)體畫(huà)像;
基于畫(huà)像分類和時(shí)間維度實(shí)現(xiàn)群體畫(huà)像繪制和實(shí)體畫(huà)像演變;
基于標(biāo)簽分析用戶,并基于可視化展示工具生成用戶畫(huà)像。
本發(fā)明還提供一種基于電力營(yíng)銷(xiāo)數(shù)據(jù)的標(biāo)簽產(chǎn)出裝置,所述裝置包括:
采集和存儲(chǔ)模塊,用于采集并存儲(chǔ)電力營(yíng)銷(xiāo)數(shù)據(jù),其中電力營(yíng)銷(xiāo)數(shù)據(jù)包括用戶屬性數(shù)據(jù)、用電行為數(shù)據(jù)、交易行為數(shù)據(jù)和履約能力數(shù)據(jù);
清理模塊,用于清理電力營(yíng)銷(xiāo)數(shù)據(jù)中不符合要求的數(shù)據(jù),其中所述不符合要求的數(shù)據(jù)包括不完整數(shù)據(jù)、異常數(shù)據(jù)和重復(fù)數(shù)據(jù);
產(chǎn)出模塊,用于根據(jù)清理后的電力營(yíng)銷(xiāo)數(shù)據(jù)產(chǎn)出標(biāo)簽。
所述采集和存儲(chǔ)模塊具體用于:
采用數(shù)據(jù)貼源的方式從營(yíng)銷(xiāo)業(yè)務(wù)應(yīng)用系統(tǒng)或用電信息采集系統(tǒng)中采集電力營(yíng)銷(xiāo)數(shù)據(jù);
將采集的電力營(yíng)銷(xiāo)數(shù)據(jù)存儲(chǔ)到電力營(yíng)銷(xiāo)數(shù)據(jù)庫(kù)。
所述用戶屬性數(shù)據(jù)包括用戶檔案數(shù)據(jù)以及與用戶綁定且不頻繁發(fā)生變更的數(shù)據(jù);
所述用電行為數(shù)據(jù)包括帶有時(shí)間屬性的用戶用電量和用電負(fù)荷數(shù)據(jù);
所述交易行為數(shù)據(jù)包括帶有時(shí)間屬性的用戶繳費(fèi)時(shí)間、繳費(fèi)頻度和繳費(fèi)周期;
所述履約能力數(shù)據(jù)包括記錄用戶是否遵守合同約定,以及是否存在竊電、欠費(fèi)、違約行為的數(shù)據(jù)。
所述電力營(yíng)銷(xiāo)數(shù)據(jù)庫(kù)包括緩沖層、倉(cāng)庫(kù)層和展示層;
所述緩沖層用于將采集的電力營(yíng)銷(xiāo)數(shù)據(jù)通過(guò)數(shù)據(jù)采集工具kettle存儲(chǔ)到hive數(shù)據(jù)庫(kù);
所述倉(cāng)庫(kù)層用于將采集的電力營(yíng)銷(xiāo)數(shù)據(jù)通過(guò)并行運(yùn)算編程模型mapreduce處理后存儲(chǔ)到hbase數(shù)據(jù)庫(kù);
所述展示層基于搜索引擎elasticsearch創(chuàng)建二級(jí)索引,實(shí)現(xiàn)對(duì)電力營(yíng)銷(xiāo)數(shù)據(jù)的檢索。
所述不完整數(shù)據(jù)包括基礎(chǔ)屬性、維度信息和度量值缺失的數(shù)據(jù),所述不完整數(shù)據(jù)包括文本類數(shù)據(jù)和度量值類數(shù)據(jù);
清理電力營(yíng)銷(xiāo)數(shù)據(jù)中不符合要求的數(shù)據(jù),具體包括:對(duì)于文本類數(shù)據(jù)的缺失,通過(guò)人工查證或關(guān)聯(lián)歷史明細(xì)數(shù)據(jù)的方式補(bǔ)充;對(duì)于度量值類數(shù)據(jù)的缺失,通過(guò)查詢歷史記錄補(bǔ)充或基于實(shí)際業(yè)務(wù)含義和業(yè)務(wù)規(guī)則,通過(guò)推測(cè)方式補(bǔ)充。
所述異常數(shù)據(jù)包括由于業(yè)務(wù)系統(tǒng)性能不健全、沒(méi)有校驗(yàn)規(guī)則或缺乏人工管理的原因而被直接寫(xiě)入用電信息采集系統(tǒng)數(shù)據(jù)庫(kù)的用電行為數(shù)據(jù)。
所述裝置還包括判斷模塊,所述判斷模塊用于根據(jù)判斷規(guī)則判斷異常數(shù)據(jù);
所述判斷規(guī)則包括飛走判斷規(guī)則、停走判斷規(guī)則和倒走判斷規(guī)則。
所述飛走判斷規(guī)則是指電能表顯示的用戶日用電量與用戶日可能最大用電量比值大于飛走判斷規(guī)則閾值,表示為:
其中,dw為電能表顯示的用戶日用電量;dwmax為用戶日可能最大用電量,且dwmax=imax×u額×24,imax為最大電流,u額為額定電壓;k為飛走判斷規(guī)則閾值。
所述停走判斷規(guī)則是指電能表兩天內(nèi)日正向有功總電能示值或電能表兩天內(nèi)日反向有功總電能示值的差值等于0,分別表示為:
pf(n)-pf(n-2)=0
pr(n)-pr(n-2)=0
其中,pf(n)表示電能表第n天的日正向有功總電能示值,pf(n-2)表示電能表第n-2天的日正向有功總電能示值;pr(n)表示電能表第n天的日反向有功總電能示值,pr(n-2)表示電能表第n-2天的日反向有功總電能示值。
所述倒走判斷規(guī)則是指電能表當(dāng)天日正向有功總電能示值小于電能表前一天日正向有功總電能示值,或電能表當(dāng)天日反向有功總電能示值小于電能表前一天日反向有功總電能示值,分別表示為:
pf(n)-pf(n-1)<0
pr(n)-pr(n-1)<0。
所述重復(fù)數(shù)據(jù)包括由于業(yè)務(wù)系統(tǒng)性能不健全而被重復(fù)寫(xiě)入營(yíng)銷(xiāo)業(yè)務(wù)應(yīng)用系統(tǒng)數(shù)據(jù)庫(kù)或用電信息采集系統(tǒng)數(shù)據(jù)庫(kù)的一條或至少兩條完全相同用電數(shù)據(jù)。
所述產(chǎn)出模塊具體用于:
對(duì)清理后的電力營(yíng)銷(xiāo)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析和挖掘,之后通過(guò)轉(zhuǎn)換和加工處理后得到標(biāo)簽,并將標(biāo)簽存儲(chǔ)至hive數(shù)據(jù)庫(kù)。
所述裝置還包括存儲(chǔ)模塊,所述存儲(chǔ)模塊具體用于:
從hive數(shù)據(jù)庫(kù)中讀取標(biāo)簽并對(duì)讀取的標(biāo)簽進(jìn)行整合,具體是將分散的標(biāo)簽通過(guò)并行運(yùn)算編程模型mapreduce進(jìn)行匯總,形成標(biāo)簽集合,最后將標(biāo)簽集合存儲(chǔ)至hbase數(shù)據(jù)庫(kù);
從hbase數(shù)據(jù)庫(kù)獲取標(biāo)簽,并根據(jù)關(guān)鍵字建立不同標(biāo)簽之間的索引關(guān)系,并將索引關(guān)系存放到elasticsearch索引庫(kù);
從hbase數(shù)據(jù)庫(kù)和elasticsearch索引庫(kù)中分別讀取標(biāo)簽和索引關(guān)系,并從redis數(shù)據(jù)庫(kù)中讀取歷史緩存數(shù)據(jù),以供用戶查詢。
所述裝置還包括生成模塊,所述生成模塊具體用于:
利用標(biāo)簽提取用戶特征,并基于大數(shù)據(jù)可視化工具繪制實(shí)體畫(huà)像;
基于畫(huà)像分類和時(shí)間維度實(shí)現(xiàn)群體畫(huà)像繪制和實(shí)體畫(huà)像演變;
基于標(biāo)簽分析用戶,并基于可視化展示工具生成用戶畫(huà)像。
與最接近的現(xiàn)有技術(shù)相比,本發(fā)明提供的技術(shù)方案具有以下有益效果:
本發(fā)明提供的基于電力營(yíng)銷(xiāo)數(shù)據(jù)的標(biāo)簽產(chǎn)出方法和裝置,通過(guò)采集用戶屬性數(shù)據(jù)、用電行為數(shù)據(jù)、交易行為數(shù)據(jù)和履約能力數(shù)據(jù)等電力營(yíng)銷(xiāo)數(shù)據(jù),并清理電力營(yíng)銷(xiāo)數(shù)據(jù)中不完整數(shù)據(jù)、異常數(shù)據(jù)和重復(fù)數(shù)據(jù)等的不符合要求的數(shù)據(jù),最后根據(jù)清理后的電力營(yíng)銷(xiāo)數(shù)據(jù)產(chǎn)出標(biāo)簽,還可以進(jìn)一步實(shí)現(xiàn)用戶畫(huà)像的生成;
本發(fā)明提供的基于電力營(yíng)銷(xiāo)數(shù)據(jù)的標(biāo)簽產(chǎn)出方法和裝置,有效地實(shí)現(xiàn)了數(shù)據(jù)特征的提取,減少了數(shù)據(jù)規(guī)模,提高了數(shù)據(jù)價(jià)值密度,本發(fā)明提供的技術(shù)方案可廣泛應(yīng)用于公司管理效率的提升、電力用戶服務(wù)的優(yōu)化、政府部門(mén)的輔助決策、電力數(shù)據(jù)的交易共享;
本發(fā)明提供的技術(shù)方案通過(guò)電力營(yíng)銷(xiāo)數(shù)據(jù)可以全觸點(diǎn)、全渠道多維度洞察用戶特征,憑借智能化價(jià)值分布、權(quán)重分配、時(shí)間衰減等分析技術(shù),立體化展現(xiàn)用戶的360°畫(huà)像,可防范潛在風(fēng)險(xiǎn),并充分挖掘電力用戶數(shù)據(jù)資產(chǎn)價(jià)值。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例中電力營(yíng)銷(xiāo)數(shù)據(jù)的標(biāo)簽產(chǎn)出方法框圖;
圖2是本發(fā)明實(shí)施例中電力營(yíng)銷(xiāo)數(shù)據(jù)的標(biāo)簽產(chǎn)出方法流程圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
電力營(yíng)銷(xiāo)數(shù)據(jù)的用戶畫(huà)像以企業(yè)大數(shù)據(jù)為基礎(chǔ),用于解決如何通過(guò)將電力營(yíng)銷(xiāo)用戶數(shù)據(jù)以標(biāo)簽的方式管理與應(yīng)用的方法,在標(biāo)簽的生成、運(yùn)行、運(yùn)維、運(yùn)營(yíng)和共享各個(gè)環(huán)節(jié)制定標(biāo)準(zhǔn)化操作流程、數(shù)據(jù)標(biāo)準(zhǔn)和管理策略,以達(dá)到打通用戶數(shù)據(jù)壁壘,充分發(fā)揮用戶數(shù)據(jù)價(jià)值,實(shí)現(xiàn)用戶數(shù)據(jù)增值、變現(xiàn)等一系列的效果。通過(guò)用戶數(shù)據(jù)標(biāo)簽化,一方面,有利于挖掘用戶數(shù)據(jù)的利用價(jià)值,深化用戶標(biāo)簽數(shù)據(jù)的業(yè)務(wù)應(yīng)用,增強(qiáng)用戶數(shù)據(jù)的實(shí)用化,推進(jìn)數(shù)據(jù)間的共享,進(jìn)一步提升用戶數(shù)據(jù)的業(yè)務(wù)支撐能力和數(shù)據(jù)的管理能力,為公司電網(wǎng)生產(chǎn)、經(jīng)營(yíng)管理和優(yōu)質(zhì)服務(wù)等多領(lǐng)域提供有效的數(shù)據(jù)服務(wù)和決策支持。另一方面,數(shù)據(jù)標(biāo)簽化是實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)形成和價(jià)值增長(zhǎng)的有效途徑和方法論。
本發(fā)明提出了一種基于電力營(yíng)銷(xiāo)數(shù)據(jù)的標(biāo)簽產(chǎn)出方法,以用戶為分析對(duì)象,從用戶屬性、用電行為、交易行為、履約能力等方面提取用戶用電數(shù)據(jù),形成用戶數(shù)據(jù)標(biāo)簽,生成多級(jí)分類模式樹(shù),每一級(jí)都代表一種對(duì)用戶的標(biāo)簽定義。
標(biāo)簽定義的方法是用定量的數(shù)據(jù)被定性分析的業(yè)務(wù)對(duì)象,換句話描述標(biāo)簽定義的方法可以分為三步,第一步,定量分析,整合已知數(shù)據(jù),并根據(jù)數(shù)據(jù)間關(guān)系性的強(qiáng)弱進(jìn)行分類;第二步,定性分析,根據(jù)定量分析得結(jié)果,把抽象的分類結(jié)果賦予具體形象的定義;第三步,標(biāo)簽產(chǎn)出,根據(jù)定性分析的結(jié)果,生成具體的標(biāo)簽。
以下結(jié)合流程圖(圖1)介紹本實(shí)施例提供的基于電力營(yíng)銷(xiāo)數(shù)據(jù)的標(biāo)簽產(chǎn)出方法具體過(guò)程:
s101:采集并存儲(chǔ)包括用戶屬性數(shù)據(jù)、用電行為數(shù)據(jù)、交易行為數(shù)據(jù)和履約能力數(shù)據(jù)等電力營(yíng)銷(xiāo)數(shù)據(jù);
具體的采集并存儲(chǔ)電力營(yíng)銷(xiāo)數(shù)據(jù)包括以下步驟:
1)采用數(shù)據(jù)貼源的方式從營(yíng)銷(xiāo)業(yè)務(wù)應(yīng)用系統(tǒng)或用電信息采集系統(tǒng)中采集電力營(yíng)銷(xiāo)數(shù)據(jù);
2)將采集的電力營(yíng)銷(xiāo)數(shù)據(jù)存儲(chǔ)到電力營(yíng)銷(xiāo)數(shù)據(jù)庫(kù)。
用戶屬性數(shù)據(jù)、用電行為數(shù)據(jù)、交易行為數(shù)據(jù)和履約能力數(shù)據(jù)的具體含義如下:
1)用戶屬性數(shù)據(jù)包括用戶檔案數(shù)據(jù)以及與用戶綁定且不頻繁發(fā)生變更的數(shù)據(jù);
2)用電行為數(shù)據(jù)包括帶有時(shí)間屬性的用戶用電量和用電負(fù)荷數(shù)據(jù);
3)交易行為數(shù)據(jù)包括帶有時(shí)間屬性的用戶繳費(fèi)時(shí)間、繳費(fèi)頻度和繳費(fèi)周期;
4)履約能力數(shù)據(jù)包括記錄用戶是否遵守合同約定,以及是否存在竊電、欠費(fèi)、違約行為的數(shù)據(jù)。
上述的電力營(yíng)銷(xiāo)數(shù)據(jù)庫(kù)包括緩沖層、倉(cāng)庫(kù)層和展示層;下面分別介紹緩沖層、倉(cāng)庫(kù)層和展示層的用途如下:
其中,緩沖層用于將采集的電力營(yíng)銷(xiāo)數(shù)據(jù)通過(guò)數(shù)據(jù)采集工具kettle存儲(chǔ)到hive數(shù)據(jù)庫(kù);倉(cāng)庫(kù)層用于將采集的電力營(yíng)銷(xiāo)數(shù)據(jù)通過(guò)并行運(yùn)算編程模型mapreduce處理后存儲(chǔ)到hbase數(shù)據(jù)庫(kù);展示層基于搜索引擎elasticsearch創(chuàng)建二級(jí)索引,實(shí)現(xiàn)對(duì)電力營(yíng)銷(xiāo)數(shù)據(jù)的檢索。
s102:清理電力營(yíng)銷(xiāo)數(shù)據(jù)中不完整數(shù)據(jù)、異常數(shù)據(jù)和重復(fù)數(shù)據(jù)等的不符合要求的數(shù)據(jù);
上述的不完整數(shù)據(jù)包括基礎(chǔ)屬性、維度信息和度量值缺失的數(shù)據(jù),不完整數(shù)據(jù)包括文本類數(shù)據(jù)和度量值類數(shù)據(jù);
清理電力營(yíng)銷(xiāo)數(shù)據(jù)中不符合要求的數(shù)據(jù),具體包括:
對(duì)于文本類數(shù)據(jù)的缺失,通過(guò)人工查證或關(guān)聯(lián)歷史明細(xì)數(shù)據(jù)的方式補(bǔ)充;
對(duì)于度量值類數(shù)據(jù)的缺失,通過(guò)查詢歷史記錄補(bǔ)充或基于實(shí)際業(yè)務(wù)含義和業(yè)務(wù)規(guī)則,通過(guò)推測(cè)方式補(bǔ)充。
上述的異常數(shù)據(jù)包括由于業(yè)務(wù)系統(tǒng)性能不健全、沒(méi)有校驗(yàn)規(guī)則或缺乏人工管理的原因而被直接寫(xiě)入用電信息采集系統(tǒng)數(shù)據(jù)庫(kù)的用電行為數(shù)據(jù)。
上述的重復(fù)數(shù)據(jù)包括由于業(yè)務(wù)系統(tǒng)性能不健全而被重復(fù)寫(xiě)入營(yíng)銷(xiāo)業(yè)務(wù)應(yīng)用系統(tǒng)數(shù)據(jù)庫(kù)或用電信息采集系統(tǒng)數(shù)據(jù)庫(kù)的一條或至少兩條完全相同用電數(shù)據(jù)。
根據(jù)飛走判斷規(guī)則、停走判斷規(guī)則和倒走判斷規(guī)則等判斷規(guī)則判斷異常數(shù)據(jù),下面分別對(duì)飛走判斷規(guī)則、停走判斷規(guī)則和倒走判斷規(guī)則進(jìn)行介紹:
其中,飛走判斷規(guī)則是指電能表顯示的用戶日用電量與用戶日可能最大用電量比值大于飛走判斷規(guī)則閾值,用公式表示為:
其中,dw為電能表顯示的用戶日用電量;dwmax為用戶日可能最大用電量,且dwmax=imax×u額×24,imax為最大電流,u額為額定電壓;k為飛走判斷規(guī)則閾值。
其中,停走判斷規(guī)則是指電能表兩天內(nèi)日正向有功總電能示值或電能表兩天內(nèi)日反向有功總電能示值的差值等于0,用公式分別表示為:
pf(n)-pf(n-2)=0
pr(n)-pr(n-2)=0
其中,pf(n)表示電能表第n天的日正向有功總電能示值,pf(n-2)表示電能表第n-2天的日正向有功總電能示值;pr(n)表示電能表第n天的日反向有功總電能示值,pr(n-2)表示電能表第n-2天的日反向有功總電能示值。
其中,倒走判斷規(guī)則是指電能表當(dāng)天日正向有功總電能示值小于電能表前一天日正向有功總電能示值,或電能表當(dāng)天日反向有功總電能示值小于電能表前一天日反向有功總電能示值,用公式分別表示為:
pf(n)-pf(n-1)<0
pr(n)-pr(n-1)<0。
s103:根據(jù)清理后的電力營(yíng)銷(xiāo)數(shù)據(jù)產(chǎn)出標(biāo)簽,具體過(guò)程如下:
對(duì)清理后的電力營(yíng)銷(xiāo)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析和挖掘,之后通過(guò)轉(zhuǎn)換和加工處理后得到標(biāo)簽,并將標(biāo)簽存儲(chǔ)至hive數(shù)據(jù)庫(kù)。
在s103的根據(jù)清理后的電力營(yíng)銷(xiāo)數(shù)據(jù)產(chǎn)出標(biāo)簽之后,還需要執(zhí)行如下操作:
從hive數(shù)據(jù)庫(kù)中讀取標(biāo)簽并對(duì)讀取的標(biāo)簽進(jìn)行整合,具體是將分散的標(biāo)簽通過(guò)并行運(yùn)算編程模型mapreduce進(jìn)行匯總,形成標(biāo)簽集合,最后將標(biāo)簽集合存儲(chǔ)至hbase數(shù)據(jù)庫(kù);
從hbase數(shù)據(jù)庫(kù)獲取標(biāo)簽,并根據(jù)關(guān)鍵字建立不同標(biāo)簽之間的索引關(guān)系,并將索引關(guān)系存放到elasticsearch索引庫(kù);
從hbase數(shù)據(jù)庫(kù)和elasticsearch索引庫(kù)中分別讀取標(biāo)簽和索引關(guān)系,并從redis數(shù)據(jù)庫(kù)中讀取歷史緩存數(shù)據(jù),以供用戶查詢。
在s103之后還可以進(jìn)行如下操作:
先利用標(biāo)簽提取用戶特征,并基于大數(shù)據(jù)可視化工具繪制實(shí)體畫(huà)像;
然后,基于畫(huà)像分類和時(shí)間維度實(shí)現(xiàn)群體畫(huà)像繪制和實(shí)體畫(huà)像演變;
最后,基于標(biāo)簽分析用戶,并基于可視化展示工具生成用戶畫(huà)像。
如圖2,存儲(chǔ)于oracle數(shù)據(jù)庫(kù)的電力營(yíng)銷(xiāo)數(shù)據(jù)通過(guò)數(shù)據(jù)采集工具kettle抽取關(guān)鍵字段數(shù)據(jù)并存儲(chǔ)到hive數(shù)據(jù)庫(kù),根據(jù)規(guī)則清理數(shù)據(jù)后,經(jīng)數(shù)據(jù)統(tǒng)計(jì)或分析挖掘算法計(jì)算生成基礎(chǔ)標(biāo)簽、分析標(biāo)簽和預(yù)測(cè)標(biāo)簽,存儲(chǔ)于hive數(shù)據(jù)庫(kù)中,再通過(guò)并行運(yùn)算編程模型mapreduce進(jìn)行標(biāo)簽整合。分別將標(biāo)簽關(guān)系存放到mysql數(shù)據(jù)庫(kù)中,用于查詢標(biāo)簽結(jié)構(gòu)體系;將單個(gè)用戶標(biāo)簽數(shù)據(jù)存放到hbase數(shù)據(jù)庫(kù)中,用于查詢個(gè)體畫(huà)像;通過(guò)搜索引擎elasticsearch進(jìn)行多種標(biāo)簽的組合查詢和存儲(chǔ),查詢結(jié)果形成群體畫(huà)像。建立統(tǒng)一對(duì)外查詢接口,以api接口方式對(duì)外提供服務(wù),通過(guò)用戶編號(hào)可在hbase數(shù)據(jù)庫(kù)查詢個(gè)體畫(huà)像,通過(guò)標(biāo)簽名稱在搜索引擎elasticsearch查詢?nèi)后w畫(huà)像,通過(guò)標(biāo)簽編號(hào)可在mysql數(shù)據(jù)庫(kù)查詢標(biāo)簽關(guān)系,查詢結(jié)果存儲(chǔ)于redis標(biāo)簽緩存庫(kù)中,并定期更新。
基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供了一種基于電力營(yíng)銷(xiāo)數(shù)據(jù)的標(biāo)簽產(chǎn)出裝置,由于這些設(shè)備解決問(wèn)題的原理與基于電力營(yíng)銷(xiāo)數(shù)據(jù)的標(biāo)簽產(chǎn)出方法相似,因此這些設(shè)備的實(shí)施可以參見(jiàn)方法的實(shí)施,重復(fù)之處不再贅述。
本發(fā)明實(shí)施例提供的基于電力營(yíng)銷(xiāo)數(shù)據(jù)的標(biāo)簽產(chǎn)出裝置具體包括采集和存儲(chǔ)模塊、清理模塊以及產(chǎn)出模塊,以下分別介紹上述三個(gè)模塊的功能:
采集和存儲(chǔ)模塊,具體用于采集并存儲(chǔ)用戶屬性數(shù)據(jù)、用電行為數(shù)據(jù)、交易行為數(shù)據(jù)和履約能力數(shù)據(jù)等電力營(yíng)銷(xiāo)數(shù)據(jù);
清理模塊,具體用于清理電力營(yíng)銷(xiāo)數(shù)據(jù)中不完整數(shù)據(jù)、異常數(shù)據(jù)和重復(fù)數(shù)據(jù)等不符合要求的數(shù)據(jù);
產(chǎn)出模塊,具體用于根據(jù)清理后的電力營(yíng)銷(xiāo)數(shù)據(jù)產(chǎn)出標(biāo)簽。
上述的采集和存儲(chǔ)模塊首先采用數(shù)據(jù)貼源的方式從營(yíng)銷(xiāo)業(yè)務(wù)應(yīng)用系統(tǒng)或用電信息采集系統(tǒng)中采集電力營(yíng)銷(xiāo)數(shù)據(jù);然后將采集的電力營(yíng)銷(xiāo)數(shù)據(jù)存儲(chǔ)到電力營(yíng)銷(xiāo)數(shù)據(jù)庫(kù)。
上述的用戶屬性數(shù)據(jù)包括用戶檔案數(shù)據(jù)以及與用戶綁定且不頻繁發(fā)生變更的數(shù)據(jù);上述的用電行為數(shù)據(jù)包括帶有時(shí)間屬性的用戶用電量和用電負(fù)荷數(shù)據(jù);上述的交易行為數(shù)據(jù)包括帶有時(shí)間屬性的用戶繳費(fèi)時(shí)間、繳費(fèi)頻度和繳費(fèi)周期;上述的履約能力數(shù)據(jù)包括記錄用戶是否遵守合同約定,以及是否存在竊電、欠費(fèi)、違約行為的數(shù)據(jù)。
上述的電力營(yíng)銷(xiāo)數(shù)據(jù)庫(kù)包括緩沖層、倉(cāng)庫(kù)層和展示層,下面分別介紹緩沖層、倉(cāng)庫(kù)層和展示層的具體用于:
其中,緩沖層用于將采集的電力營(yíng)銷(xiāo)數(shù)據(jù)通過(guò)數(shù)據(jù)采集工具kettle存儲(chǔ)到hive數(shù)據(jù)庫(kù);倉(cāng)庫(kù)層用于將采集的電力營(yíng)銷(xiāo)數(shù)據(jù)通過(guò)并行運(yùn)算編程模型mapreduce處理后存儲(chǔ)到hbase數(shù)據(jù)庫(kù);展示層基于搜索引擎elasticsearch創(chuàng)建二級(jí)索引,實(shí)現(xiàn)對(duì)電力營(yíng)銷(xiāo)數(shù)據(jù)的檢索。
電力營(yíng)銷(xiāo)數(shù)據(jù)中不符合要求的數(shù)據(jù)包括不完整數(shù)據(jù)、異常數(shù)據(jù)和重復(fù)數(shù)據(jù),下面分別對(duì)這三種數(shù)據(jù)的具體定義做出說(shuō)明:
1)上述不完整數(shù)據(jù)包括基礎(chǔ)屬性、維度信息和度量值缺失的數(shù)據(jù),不完整數(shù)據(jù)包括文本類數(shù)據(jù)和度量值類數(shù)據(jù);
清理電力營(yíng)銷(xiāo)數(shù)據(jù)中不符合要求的數(shù)據(jù),具體包括:
對(duì)于文本類數(shù)據(jù)的缺失,通過(guò)人工查證或關(guān)聯(lián)歷史明細(xì)數(shù)據(jù)的方式補(bǔ)充;
對(duì)于度量值類數(shù)據(jù)的缺失,通過(guò)查詢歷史記錄補(bǔ)充或基于實(shí)際業(yè)務(wù)含義和業(yè)務(wù)規(guī)則,通過(guò)推測(cè)方式補(bǔ)充。
2)異常數(shù)據(jù)包括由于業(yè)務(wù)系統(tǒng)性能不健全、沒(méi)有校驗(yàn)規(guī)則或缺乏人工管理的原因而被直接寫(xiě)入用電信息采集系統(tǒng)數(shù)據(jù)庫(kù)的用電行為數(shù)據(jù)。
3)重復(fù)數(shù)據(jù)包括由于業(yè)務(wù)系統(tǒng)性能不健全而被重復(fù)寫(xiě)入營(yíng)銷(xiāo)業(yè)務(wù)應(yīng)用系統(tǒng)數(shù)據(jù)庫(kù)或用電信息采集系統(tǒng)數(shù)據(jù)庫(kù)的一條或至少兩條完全相同用電數(shù)據(jù)。
本發(fā)實(shí)施例提供的裝置還包括判斷模塊,該判斷模塊用于根據(jù)判斷規(guī)則判斷異常數(shù)據(jù),其中判斷規(guī)則包括飛走判斷規(guī)則、停走判斷規(guī)則和倒走判斷規(guī)則,下面分別介紹上述三種判斷規(guī)則:
1)飛走判斷規(guī)則是指電能表顯示的用戶日用電量與用戶日可能最大用電量比值大于飛走判斷規(guī)則閾值,表示為:
其中,dw為電能表顯示的用戶日用電量;dwmax為用戶日可能最大用電量,且dwmax=imax×u額×24,imax為最大電流,u額為額定電壓;k為飛走判斷規(guī)則閾值。
2)停走判斷規(guī)則是指電能表兩天內(nèi)日正向有功總電能示值或電能表兩天內(nèi)日反向有功總電能示值的差值等于0,分別表示為:
pf(n)-pf(n-2)=0
pr(n)-pr(n-2)=0
其中,pf(n)表示電能表第n天的日正向有功總電能示值,pf(n-2)表示電能表第n-2天的日正向有功總電能示值;pr(n)表示電能表第n天的日反向有功總電能示值,pr(n-2)表示電能表第n-2天的日反向有功總電能示值。
3)倒走判斷規(guī)則是指電能表當(dāng)天日正向有功總電能示值小于電能表前一天日正向有功總電能示值,或電能表當(dāng)天日反向有功總電能示值小于電能表前一天日反向有功總電能示值,分別表示為:
pf(n)-pf(n-1)<0
pr(n)-pr(n-1)<0。
上述的產(chǎn)出模塊對(duì)清理后的電力營(yíng)銷(xiāo)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析和挖掘,之后通過(guò)轉(zhuǎn)換和加工處理后得到標(biāo)簽,并將標(biāo)簽存儲(chǔ)至hive數(shù)據(jù)庫(kù)。
本發(fā)明實(shí)施例提供的裝置還包括存儲(chǔ)模塊,該存儲(chǔ)模塊先從hive數(shù)據(jù)庫(kù)中讀取標(biāo)簽并對(duì)讀取的標(biāo)簽進(jìn)行整合,具體是將分散的標(biāo)簽通過(guò)并行運(yùn)算編程模型mapreduce進(jìn)行匯總,形成標(biāo)簽集合,最后將標(biāo)簽集合存儲(chǔ)至hbase數(shù)據(jù)庫(kù);接著從hbase數(shù)據(jù)庫(kù)獲取標(biāo)簽,并根據(jù)關(guān)鍵字建立不同標(biāo)簽之間的索引關(guān)系,并將索引關(guān)系存放到elasticsearch索引庫(kù);最后從hbase數(shù)據(jù)庫(kù)和elasticsearch索引庫(kù)中分別讀取標(biāo)簽和索引關(guān)系,并從redis數(shù)據(jù)庫(kù)中讀取歷史緩存數(shù)據(jù),以供用戶查詢。
為了實(shí)現(xiàn)用戶畫(huà)像的構(gòu)建,本發(fā)明實(shí)施例提供的標(biāo)簽產(chǎn)出裝置還包括生成模塊,該生成模塊先利用標(biāo)簽提取用戶特征,并基于大數(shù)據(jù)可視化工具繪制實(shí)體畫(huà)像,然后基于畫(huà)像分類和時(shí)間維度實(shí)現(xiàn)群體畫(huà)像繪制和實(shí)體畫(huà)像演變,最后基于標(biāo)簽分析用戶,并基于可視化展示工具生成用戶畫(huà)像。
為了描述的方便,以上所述裝置的各部分以功能分為各種模塊或單元分別描述。當(dāng)然,在實(shí)施本申請(qǐng)時(shí)可以把各模塊或單元的功能在同一個(gè)或多個(gè)軟件或硬件中實(shí)現(xiàn)。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
最后應(yīng)當(dāng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非對(duì)其限制,所屬領(lǐng)域的普通技術(shù)人員參照上述實(shí)施例依然可以對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行修改或者等同替換,這些未脫離本發(fā)明精神和范圍的任何修改或者等同替換,均在申請(qǐng)待批的本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。