本發(fā)明涉及數(shù)據(jù)清洗,具體涉及一種用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法及系統(tǒng)。
背景技術(shù):
1、通過(guò)大數(shù)據(jù)分析平臺(tái)對(duì)不同醫(yī)藥類型的銷量數(shù)據(jù)進(jìn)行分析,能夠及時(shí)發(fā)現(xiàn)不同醫(yī)藥類型的銷量數(shù)據(jù)的變化趨勢(shì),并針對(duì)性的對(duì)不同醫(yī)藥產(chǎn)品的生產(chǎn)做出調(diào)整,但在醫(yī)藥銷量數(shù)據(jù)的獲取、傳輸和存儲(chǔ)過(guò)程中,部分?jǐn)?shù)據(jù)會(huì)不可避免的出現(xiàn)偏差,因此需要對(duì)大數(shù)據(jù)分析平臺(tái)的醫(yī)藥銷量數(shù)據(jù)進(jìn)行清洗,以保證平臺(tái)的分析精度。
2、相關(guān)技術(shù)中,通常利用局部異常異常因子算法(local?outlier?factor,lof)或孤立森林算法(isolation?forest,iforest)等異常檢測(cè)算法對(duì)醫(yī)藥銷量數(shù)據(jù)進(jìn)行異常檢測(cè),并對(duì)異常數(shù)據(jù)進(jìn)行清洗,但由于各類型的醫(yī)藥通常會(huì)通過(guò)多種渠道進(jìn)行銷售,多種渠道下的醫(yī)藥銷量數(shù)據(jù)相互影響,某個(gè)渠道的醫(yī)藥銷量數(shù)據(jù)的變化會(huì)影響到其他渠道的醫(yī)藥銷量數(shù)據(jù)發(fā)生改變,導(dǎo)致現(xiàn)有方法無(wú)法準(zhǔn)確檢測(cè)出異常銷量數(shù)據(jù),進(jìn)而降低對(duì)醫(yī)藥銷量數(shù)據(jù)清洗的效果。
技術(shù)實(shí)現(xiàn)思路
1、為了解決多種渠道下的醫(yī)藥銷量數(shù)據(jù)相互影響,導(dǎo)致現(xiàn)有方法無(wú)法準(zhǔn)確檢測(cè)出異常的銷量數(shù)據(jù),進(jìn)而降低對(duì)醫(yī)藥銷量數(shù)據(jù)清洗的效果的技術(shù)問(wèn)題,本發(fā)明的目的在于提供一種用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法及系統(tǒng),所采用的技術(shù)方案具體如下:
2、本發(fā)明提出了一種用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法,所述方法包括:
3、獲取待測(cè)銷售渠道在預(yù)設(shè)時(shí)間段內(nèi)每個(gè)時(shí)間點(diǎn)的銷量數(shù)據(jù)序列,所述銷量數(shù)據(jù)序列包括不同醫(yī)藥類型的銷量數(shù)據(jù);
4、對(duì)所述待測(cè)銷售渠道中所有時(shí)間點(diǎn)的銷量數(shù)據(jù)序列進(jìn)行聚類,獲得不同的聚類簇以及每個(gè)聚類簇的特征時(shí)間段;將任意一個(gè)聚類簇作為目標(biāo)聚類簇,將待測(cè)銷售渠道中屬于目標(biāo)聚類簇的所述特征時(shí)間段的銷量數(shù)據(jù)序列,作為目標(biāo)聚類簇的參考序列;根據(jù)所述參考序列和目標(biāo)聚類簇中的銷量數(shù)據(jù)序列之間數(shù)量的差異,獲得目標(biāo)聚類簇的時(shí)序離散特征值;根據(jù)各參考序列和目標(biāo)聚類簇中各銷量數(shù)據(jù)序列之間相同醫(yī)藥類型的銷量數(shù)據(jù)的變化的差異,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)變化特征值;
5、根據(jù)目標(biāo)聚類簇與除目標(biāo)聚類簇之外的其他聚類簇之間相同醫(yī)藥類型的所述數(shù)據(jù)變化特征值的差異,以及所述時(shí)序離散特征值的差異,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)異常變化因子;
6、對(duì)目標(biāo)聚類簇中相同醫(yī)藥類型的銷量數(shù)據(jù)進(jìn)行異常檢測(cè),并結(jié)合所述數(shù)據(jù)異常變化因子,對(duì)目標(biāo)聚類聚中的銷量數(shù)據(jù)序列進(jìn)行清洗。
7、進(jìn)一步地,所述獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)變化特征值包括:
8、對(duì)目標(biāo)聚類簇中所有時(shí)間點(diǎn)的銷量數(shù)據(jù)序列中每種醫(yī)藥類型的銷量數(shù)據(jù)的離散程度,以及各醫(yī)藥類型的銷量數(shù)據(jù)之間的相關(guān)性進(jìn)行分析,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的第一數(shù)據(jù)變化參數(shù);
9、對(duì)所有時(shí)間點(diǎn)的所述參考序列中每種醫(yī)藥類型的銷量數(shù)據(jù)的離散程度,以及各醫(yī)藥類型的銷量數(shù)據(jù)之間的相關(guān)性進(jìn)行分析,獲得待測(cè)銷售渠道在目標(biāo)聚類簇的特征時(shí)間段中每種醫(yī)藥類型的第二數(shù)據(jù)變化參數(shù);
10、根據(jù)相同醫(yī)藥類型的所述第一數(shù)據(jù)變化參數(shù)和所述第二數(shù)據(jù)變化參數(shù)的差異,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)變化特征值。
11、進(jìn)一步地,所述獲得目標(biāo)聚類簇中每種醫(yī)藥類型的第一數(shù)據(jù)變化參數(shù)包括:
12、構(gòu)建第一狀態(tài)矩陣,所述第一狀態(tài)矩陣的行表示時(shí)間點(diǎn),所述第一狀態(tài)矩陣的列表示醫(yī)藥類型,所述第一狀態(tài)矩陣的行元素為目標(biāo)聚類簇中每個(gè)時(shí)間點(diǎn)的銷量數(shù)據(jù)序列;
13、將所述第一狀態(tài)矩陣輸入至critic客觀賦權(quán)算法中,將輸出的每列的客觀權(quán)重值,作為目標(biāo)聚類簇中每種醫(yī)藥類型的第一數(shù)據(jù)變化參數(shù)。
14、進(jìn)一步地,所述獲得待測(cè)銷售渠道在目標(biāo)聚類簇的特征時(shí)間段中每種醫(yī)藥類型的第二數(shù)據(jù)變化參數(shù)包括:
15、構(gòu)建第二狀態(tài)矩陣,所述第二狀態(tài)矩陣的行表示時(shí)間點(diǎn),所述第二狀態(tài)矩陣的列表示醫(yī)藥類型,所述第二狀態(tài)矩陣的行元素為每個(gè)時(shí)間點(diǎn)的參考序列;
16、將所述第二狀態(tài)矩陣輸入至critic客觀賦權(quán)算法中,將輸出的每列的客觀權(quán)重值,作為待測(cè)銷售渠道在目標(biāo)聚類簇的特征時(shí)間段中每種醫(yī)藥類型的第二數(shù)據(jù)變化參數(shù)。
17、進(jìn)一步地,所述獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)異常變化因子包括:
18、將除目標(biāo)聚類簇之外的其他聚類簇作為參考聚類簇;
19、根據(jù)目標(biāo)聚類簇與每個(gè)參考聚類簇之間所述時(shí)序離散特征值的差異,獲得目標(biāo)聚類簇與每個(gè)參考聚類簇之間的第一特征值差異;
20、根據(jù)目標(biāo)聚類簇與每個(gè)參考聚類簇之間相同醫(yī)藥類型的所述數(shù)據(jù)變化特征值的差異,獲得目標(biāo)聚類簇與每個(gè)參考聚類簇之間每種醫(yī)藥類型的第二特征值差異;
21、對(duì)所述第一特征值差異和所述第二特征值差異進(jìn)行綜合,獲得目標(biāo)聚類簇與每個(gè)參考聚類簇之間每種醫(yī)藥類型的綜合特征值差異;
22、對(duì)目標(biāo)聚類簇與所有參考聚類簇之間每種醫(yī)藥類型的所述綜合特征值差異的整體水平分析后并進(jìn)行歸一化處理,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)異常變化因子,其中,目標(biāo)聚類簇中所有醫(yī)藥類型的所述數(shù)據(jù)異常變化因子的和值等于數(shù)值1。
23、進(jìn)一步地,所述對(duì)目標(biāo)聚類簇中相同醫(yī)藥類型的銷量數(shù)據(jù)進(jìn)行異常檢測(cè),并結(jié)合所述數(shù)據(jù)異常變化因子,對(duì)目標(biāo)聚類聚中的銷量數(shù)據(jù)序列進(jìn)行清洗包括:
24、分別將目標(biāo)聚類簇中所有銷量數(shù)據(jù)序列中的相同醫(yī)藥類型的銷量數(shù)據(jù)輸入至異常檢測(cè)算法中,獲得目標(biāo)聚類簇中每個(gè)銷量數(shù)據(jù)序列中每種醫(yī)藥類型的銷量數(shù)據(jù)的異常評(píng)估值;
25、利用目標(biāo)聚類簇中每種醫(yī)藥類型的所述數(shù)據(jù)異常變化因子,對(duì)目標(biāo)聚類簇中每個(gè)銷量數(shù)據(jù)序列中每種醫(yī)藥類型的銷量數(shù)據(jù)的所述異常評(píng)估值進(jìn)行加權(quán)求和后并進(jìn)行歸一化處理,獲得目標(biāo)聚類簇中每個(gè)銷量數(shù)據(jù)序列的清洗判斷值;
26、基于所述清洗判斷值,對(duì)目標(biāo)聚類簇中的銷量數(shù)據(jù)序列進(jìn)行清洗。
27、進(jìn)一步地,所述基于所述清洗判斷值,對(duì)目標(biāo)聚類簇中的銷量數(shù)據(jù)序列進(jìn)行清洗包括:
28、在目標(biāo)聚類簇中,將所述清洗判斷值大于預(yù)設(shè)清洗閾值的銷量數(shù)據(jù)序列進(jìn)行刪除。
29、進(jìn)一步地,所述對(duì)所述待測(cè)銷售渠道中所有時(shí)間點(diǎn)的銷量數(shù)據(jù)序列進(jìn)行聚類,獲得不同的聚類簇以及每個(gè)聚類簇的特征時(shí)間段包括:
30、基于待測(cè)銷售渠道中各銷量數(shù)據(jù)序列中相同醫(yī)藥類型的醫(yī)藥數(shù)據(jù)的差異,對(duì)所有的銷量數(shù)據(jù)序列進(jìn)行聚類,獲得不同的聚類簇;
31、在每個(gè)聚類簇中,將所有銷量數(shù)據(jù)序列對(duì)應(yīng)的時(shí)間點(diǎn)的最小值和最大值之間的時(shí)間段,作為每個(gè)聚類簇的特征時(shí)間段。
32、進(jìn)一步地,所述根據(jù)所述參考序列和目標(biāo)聚類簇中的銷量數(shù)據(jù)序列之間數(shù)量的差異,獲得目標(biāo)聚類簇的時(shí)序離散特征值包括:
33、將所有參考序列的數(shù)量作分子,將目標(biāo)聚類簇中所有銷量數(shù)據(jù)序列的數(shù)量作分母,將比值作為目標(biāo)聚類簇的時(shí)序離散特征值。
34、本發(fā)明還提出了一種用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除系統(tǒng),所述系統(tǒng)包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)任意一項(xiàng)用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法的步驟。
35、本發(fā)明具有如下有益效果:
36、本發(fā)明考慮到多種銷售渠道下的醫(yī)藥銷量數(shù)據(jù)相互影響,導(dǎo)致現(xiàn)有方法無(wú)法準(zhǔn)確檢測(cè)出異常的銷量數(shù)據(jù),進(jìn)而降低對(duì)醫(yī)藥銷量數(shù)據(jù)清洗的效果,因此本發(fā)明首先獲取待測(cè)銷售渠道在預(yù)設(shè)時(shí)間段內(nèi)每個(gè)時(shí)間點(diǎn)的銷量數(shù)據(jù)序列,考慮到異常因素和不同銷售渠道間相互影響的因素,都會(huì)導(dǎo)致使得銷量數(shù)據(jù)出現(xiàn)變化,因此本發(fā)明首先對(duì)醫(yī)藥銷量數(shù)據(jù)序列進(jìn)行聚類,得到多個(gè)聚類簇以及每個(gè)聚類簇的特征時(shí)間段,并將待測(cè)銷售渠道中屬于目標(biāo)聚類簇的特征時(shí)間段的銷量數(shù)據(jù)序列作為參考序列,當(dāng)目標(biāo)聚類簇中存在受這兩種因素影響的銷量數(shù)據(jù)序列時(shí),使得參考序列和目標(biāo)聚類簇中的銷量數(shù)據(jù)序列之間的數(shù)量差異較大,并且二者之間相同醫(yī)藥類型的銷量數(shù)據(jù)的變化情況也存在較大的差異,因此可通過(guò)時(shí)序離散特征值和數(shù)據(jù)變化特征值反映目標(biāo)聚類簇中存在受影響的銷量數(shù)據(jù)序列的可能性,考慮到當(dāng)目標(biāo)聚類簇中存在異常數(shù)據(jù)時(shí),會(huì)增大目標(biāo)聚類簇與其他聚類簇之間的時(shí)序離散特征值差異以及相同醫(yī)藥類型的數(shù)據(jù)變化特征值的差異,因此可通過(guò)數(shù)據(jù)異常變化因子反映目標(biāo)聚類簇中每種醫(yī)藥類型的銷量數(shù)據(jù)存在異常的可能性,進(jìn)而結(jié)合數(shù)據(jù)異常變化因子,對(duì)目標(biāo)聚類聚中的銷量數(shù)據(jù)序列進(jìn)行清洗,提高異常銷量數(shù)據(jù)檢測(cè)的準(zhǔn)確性以及對(duì)銷量數(shù)據(jù)清洗的效果。