一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法
【專利摘要】本發(fā)明提供一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法,是充分考慮到大規(guī)模數(shù)據(jù)離群數(shù)據(jù)挖掘計算時間及空間復(fù)雜度的特點,采用隨機采樣來減小參與計算的樣本數(shù)量,采用并行計算來加速運算速度,從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對計算時間和內(nèi)存空間的要求較高的問題,從而實現(xiàn)快速且有效的離群數(shù)據(jù)篩選。
【專利說明】一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機模式識別及機器學(xué)習(xí)【技術(shù)領(lǐng)域】,具體地說是一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法。
【背景技術(shù)】
[0002]離群數(shù)據(jù)是指在大量數(shù)據(jù)存在的一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)。離群數(shù)據(jù)的產(chǎn)生一般認(rèn)為有兩種原因:
1)度量或執(zhí)行錯誤所導(dǎo)致對這類型離群數(shù)據(jù)的篩選,可以從大量數(shù)據(jù)中篩選出雜質(zhì)或存在問題的數(shù)據(jù),進而提高數(shù)據(jù)的總體質(zhì)量;
2)固有的數(shù)據(jù)變異性的結(jié)果這類型數(shù)據(jù)的客觀存在決定了對該類型離群數(shù)據(jù)篩選的重要性。例如在科研數(shù)據(jù)發(fā)現(xiàn)客觀存在的一些未知的離群數(shù)據(jù),可以很好的提高相關(guān)理論的研究。
[0003]隨著數(shù)據(jù)的不斷積累及數(shù)據(jù)的規(guī)模不斷的增大,傳統(tǒng)離群數(shù)據(jù)挖掘算法利用現(xiàn)有計算條件在其中篩選離群數(shù)據(jù)越發(fā)地困難。針對此問題,本發(fā)明公開了一種從大規(guī)模數(shù)據(jù)中快速篩選離群數(shù)據(jù)的方法。該方法充分考慮到大規(guī)模數(shù)據(jù)離群數(shù)據(jù)挖掘計算時間及空間復(fù)雜度的特點,采用隨機采樣來減小參與計算的樣本數(shù)量,采用并行計算來加速運算速度,從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對計算時間和內(nèi)存空間的要求較高的問題,從而實現(xiàn)快速且有效的離群數(shù)據(jù)篩選。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法。
[0005]本發(fā)明的目的是按以下方式實現(xiàn)的,采用隨機采樣來減小參與計算的樣本數(shù)量,采用并行計算來加速運算速度,從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對計算時間和內(nèi)存空間的要求較高的問題,從而實現(xiàn)快速且有效的離群數(shù)據(jù)篩選,包括以下幾個步驟:
1)數(shù)據(jù)預(yù)處理
對數(shù)據(jù)進行預(yù)處理,消除數(shù)據(jù)間的不一致性同時歸一化各個數(shù)據(jù),具體操作包括:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約,得到的特征矩陣記為T,其大小為N*M,其中N為所有樣本的數(shù)目,M為原始特征屬性的個數(shù);
2)特征選取與變換
特征選取是從所有屬性篩選去掉對后續(xù)操作貢獻(xiàn)較小甚至于沒有貢獻(xiàn)的屬性,特征變換是利用當(dāng)前屬性通過變換得到新特征空間的屬性,得到的特征矩陣記為Ts,其大小為N*m,其中N為所有樣本的數(shù)目,m為篩選和變換之后屬性的個數(shù);
3)初始化變量
記兩個長度為N的全零向量分別為Co、Cs,分別用于保存后續(xù)計算中離群因子的加和及樣本篩選次數(shù); 4)迭代
通過以下迭代更新向量Co及Cs,迭代到一定次數(shù)k即終止:
(O隨機選擇一個子樣本集,大小固定為η ;
(2)向量Cs中對應(yīng)元素數(shù)值加I;
(3)從矩陣Ts中篩選對應(yīng)行,并計算該矩陣對應(yīng)的局部孤立性因子;
(4)向量Co對應(yīng)數(shù)值分別加上步得到的局部孤立性因子;
5)離群指數(shù)計算
通過向量Co及Cs計算得到向量COI為離群因子,計算公式為:C0I=Co/Cs ;
6)離群數(shù)據(jù)篩選
按照向量COI對應(yīng)數(shù)值從大到小的順序,篩選前I個樣本作為離群數(shù)據(jù)。
[0006]通過隨機米樣來得到一個規(guī)模遠(yuǎn)遠(yuǎn)小于原始樣本規(guī)模的小樣本,米樣時米取完全隨機采樣或采用加權(quán)采樣。
[0007]通過多線程和多進程方式來加速非耦合迭代過程計算,不同線程或進程間需要共享訪問兩個數(shù)值變量。
[0008]通過迭代過程共享的兩個數(shù)值變量來計算每個樣本的離群指數(shù),該指數(shù)表征了該樣本離群的趨勢,數(shù)值越大,樣本是離群的可能性越大,數(shù)值越小,樣本越不可能成為離群數(shù)據(jù)。
[0009]本發(fā)明的目的有益效果是:從大規(guī)模數(shù)據(jù)中快速篩選離群數(shù)據(jù)的方法,充分考慮到大規(guī)模數(shù)據(jù)離群數(shù)據(jù)挖掘計算時間及空間復(fù)雜度的特點,采用隨機采樣來減小參與計算的樣本數(shù)量,采用并行計算來加速運算速度,從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對計算時間和內(nèi)存空間的要求較高的問題,從而實現(xiàn)快速且有效的離群數(shù)據(jù)篩選。采用隨機采樣來減小參與計算的樣本數(shù)量,采用并行計算來加速運算速度,從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對計算時間和內(nèi)存空間的要求較高的問題,從而實現(xiàn)快速且有效的離群數(shù)據(jù)篩選。
【專利附圖】
【附圖說明】
[0010]圖1是從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)流程圖;
圖2是采樣后的小樣本局部孤立性因子計算流程圖;
圖3是迭代過程共享變量的更新流程圖;
圖4是離群指數(shù)的計算過程圖;
圖5是并行化篩選離群數(shù)據(jù)流程圖。
【具體實施方式】
[0011]參照說明書附圖對本發(fā)明的一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法作以下詳細(xì)地說明。
[0012]一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法,設(shè)計思路如下:
I)主要分為數(shù)據(jù)預(yù)處理、特征選取與變換、初始化變量、迭代、離群指數(shù)計算、離群數(shù)據(jù)篩選六個階段進行開發(fā)實施。為保證流程的一致性及中間結(jié)果的可復(fù)用性,建議采取采用統(tǒng)一的開發(fā)編程語言來完成; 2)本發(fā)明中使用的基本算法可以重新編寫,也可以采用現(xiàn)有程序包;
3)本發(fā)明中多次使用距離度量。距離的定義是靈活的,可以采用歐氏距離、曼哈頓距離、余弦距離等。考慮到余弦距離計算時更簡單且快速,建議使用余弦距離;
4 )采樣時可以采取完全隨機采樣,也可以采用加權(quán)采樣,采樣率較低的樣本權(quán)值高;
5)步驟4的迭代過程,由于不同迭代之間不存在耦合性,因此可以采用并行迭代計算結(jié)構(gòu)(如附圖5所示);
6)通過多線程和多進程方式來加速非耦合迭代過程計算,不同線程或進程間需要共享訪問兩個數(shù)值變量;在改寫數(shù)值時,需要對變量進行加/解鎖操作;
7)離群指數(shù)結(jié)表征了該樣本離群的趨勢,數(shù)值越大,樣本是離群的可能性越大,數(shù)值越小,樣本越不可能成為離群數(shù)據(jù)。
[0013]本發(fā)明方法定義了一種離群指數(shù)的定義及計算方法,實際實施是,可以此為基礎(chǔ)改進其定義方式及計算方法。
[0014]除說明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。
【權(quán)利要求】
1.一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法,其特征在于采用隨機采樣來減小參與計算的樣本數(shù)量,采用并行計算來加速運算速度,從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對計算時間和內(nèi)存空間的要求較高的問題,從而實現(xiàn)快速且有效的離群數(shù)據(jù)篩選,包括以下幾個步驟: 1)數(shù)據(jù)預(yù)處理 對數(shù)據(jù)進行預(yù)處理,消除數(shù)據(jù)間的不一致性同時歸一化各個數(shù)據(jù),具體操作包括:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約,得到的特征矩陣記為T,其大小為N*M,其中N為所有樣本的數(shù)目,M為原始特征屬性的個數(shù); 2)特征選取與變換 特征選取是從所有屬性篩選去掉對后續(xù)操作貢獻(xiàn)較小甚至于沒有貢獻(xiàn)的屬性,特征變換是利用當(dāng)前屬性通過變換得到新特征空間的屬性,得到的特征矩陣記為Ts,其大小為N*m,其中N為所有樣本的數(shù)目,m為篩選和變換之后屬性的個數(shù); 3)初始化變量 記兩個長度為N的全零向量分別為Co、Cs,分別用于保存后續(xù)計算中離群因子的加和及樣本篩選次數(shù); 4)迭代 通過以下迭代更新向量Co及Cs,迭代到一定次數(shù)k即終止: (O隨機選擇一個子樣本集,大小固定為η ; (2)向量Cs中對應(yīng)元素數(shù)值加I; (3)從矩陣Ts中篩選對應(yīng)行,并計算該矩陣對應(yīng)的局部孤立性因子; (4)向量Co對應(yīng)數(shù)值分別加上步得到的局部孤立性因子; 5)離群指數(shù)計算 通過向量Co及Cs計算得到向量COI為離群因子,計算公式為:C0I=Co/Cs ; 6)離群數(shù)據(jù)篩選 按照向量COI對應(yīng)數(shù)值從大到小的順序,篩選前I個樣本作為離群數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于通過隨機采樣來得到一個規(guī)模遠(yuǎn)遠(yuǎn)小于原始樣本規(guī)模的小樣本,采樣時采取完全隨機采樣或采用加權(quán)采樣。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過多線程和多進程方式來加速非耦合迭代過程計算,不同線程或進程間需要共享訪問兩個數(shù)值變量。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過迭代過程共享的兩個數(shù)值變量來計算每個樣本的離群指數(shù),該指數(shù)表征了該樣本離群的趨勢,數(shù)值越大,樣本是離群的可能性越大,數(shù)值越小,樣本越不可能成為離群數(shù)據(jù)。
【文檔編號】G06F17/30GK104346445SQ201410584552
【公開日】2015年2月11日 申請日期:2014年10月28日 優(yōu)先權(quán)日:2014年10月28日
【發(fā)明者】王恩東, 張東, 吳楠, 韋鵬, 付興旺 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司