一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法

文檔序號：6631866閱讀：349來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法
【專利摘要】本發(fā)明提供一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法，是充分考慮到大規(guī)模數(shù)據(jù)離群數(shù)據(jù)挖掘計算時間及空間復(fù)雜度的特點，采用隨機采樣來減小參與計算的樣本數(shù)量，采用并行計算來加速運算速度，從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對計算時間和內(nèi)存空間的要求較高的問題，從而實現(xiàn)快速且有效的離群數(shù)據(jù)篩選。
【專利說明】一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機模式識別及機器學(xué)習(xí)【技術(shù)領(lǐng)域】，具體地說是一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法。

【背景技術(shù)】
[0002]離群數(shù)據(jù)是指在大量數(shù)據(jù)存在的一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)。離群數(shù)據(jù)的產(chǎn)生一般認(rèn)為有兩種原因:
1)度量或執(zhí)行錯誤所導(dǎo)致對這類型離群數(shù)據(jù)的篩選，可以從大量數(shù)據(jù)中篩選出雜質(zhì)或存在問題的數(shù)據(jù)，進而提高數(shù)據(jù)的總體質(zhì)量；
2)固有的數(shù)據(jù)變異性的結(jié)果這類型數(shù)據(jù)的客觀存在決定了對該類型離群數(shù)據(jù)篩選的重要性。例如在科研數(shù)據(jù)發(fā)現(xiàn)客觀存在的一些未知的離群數(shù)據(jù)，可以很好的提高相關(guān)理論的研究。
[0003]隨著數(shù)據(jù)的不斷積累及數(shù)據(jù)的規(guī)模不斷的增大，傳統(tǒng)離群數(shù)據(jù)挖掘算法利用現(xiàn)有計算條件在其中篩選離群數(shù)據(jù)越發(fā)地困難。針對此問題，本發(fā)明公開了一種從大規(guī)模數(shù)據(jù)中快速篩選離群數(shù)據(jù)的方法。該方法充分考慮到大規(guī)模數(shù)據(jù)離群數(shù)據(jù)挖掘計算時間及空間復(fù)雜度的特點，采用隨機采樣來減小參與計算的樣本數(shù)量，采用并行計算來加速運算速度，從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對計算時間和內(nèi)存空間的要求較高的問題，從而實現(xiàn)快速且有效的離群數(shù)據(jù)篩選。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的是提供一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法。
[0005]本發(fā)明的目的是按以下方式實現(xiàn)的，采用隨機采樣來減小參與計算的樣本數(shù)量，采用并行計算來加速運算速度，從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對計算時間和內(nèi)存空間的要求較高的問題，從而實現(xiàn)快速且有效的離群數(shù)據(jù)篩選，包括以下幾個步驟:
1)數(shù)據(jù)預(yù)處理
對數(shù)據(jù)進行預(yù)處理，消除數(shù)據(jù)間的不一致性同時歸一化各個數(shù)據(jù)，具體操作包括:數(shù)據(jù)清理，數(shù)據(jù)集成，數(shù)據(jù)變換，數(shù)據(jù)歸約，得到的特征矩陣記為T，其大小為N*M，其中N為所有樣本的數(shù)目，M為原始特征屬性的個數(shù)；
2)特征選取與變換
特征選取是從所有屬性篩選去掉對后續(xù)操作貢獻(xiàn)較小甚至于沒有貢獻(xiàn)的屬性，特征變換是利用當(dāng)前屬性通過變換得到新特征空間的屬性，得到的特征矩陣記為Ts，其大小為N*m,其中N為所有樣本的數(shù)目，m為篩選和變換之后屬性的個數(shù)；
3)初始化變量
記兩個長度為N的全零向量分別為Co、Cs，分別用于保存后續(xù)計算中離群因子的加和及樣本篩選次數(shù)； 4)迭代
通過以下迭代更新向量Co及Cs，迭代到一定次數(shù)k即終止:
(O隨機選擇一個子樣本集，大小固定為η ;
(2)向量Cs中對應(yīng)元素數(shù)值加I;
(3)從矩陣Ts中篩選對應(yīng)行，并計算該矩陣對應(yīng)的局部孤立性因子；
(4)向量Co對應(yīng)數(shù)值分別加上步得到的局部孤立性因子；
5)離群指數(shù)計算
通過向量Co及Cs計算得到向量COI為離群因子，計算公式為:C0I=Co/Cs ；
6)離群數(shù)據(jù)篩選
按照向量COI對應(yīng)數(shù)值從大到小的順序，篩選前I個樣本作為離群數(shù)據(jù)。
[0006]通過隨機米樣來得到一個規(guī)模遠(yuǎn)遠(yuǎn)小于原始樣本規(guī)模的小樣本，米樣時米取完全隨機采樣或采用加權(quán)采樣。
[0007]通過多線程和多進程方式來加速非耦合迭代過程計算，不同線程或進程間需要共享訪問兩個數(shù)值變量。
[0008]通過迭代過程共享的兩個數(shù)值變量來計算每個樣本的離群指數(shù)，該指數(shù)表征了該樣本離群的趨勢，數(shù)值越大，樣本是離群的可能性越大，數(shù)值越小，樣本越不可能成為離群數(shù)據(jù)。
[0009]本發(fā)明的目的有益效果是:從大規(guī)模數(shù)據(jù)中快速篩選離群數(shù)據(jù)的方法，充分考慮到大規(guī)模數(shù)據(jù)離群數(shù)據(jù)挖掘計算時間及空間復(fù)雜度的特點，采用隨機采樣來減小參與計算的樣本數(shù)量，采用并行計算來加速運算速度，從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對計算時間和內(nèi)存空間的要求較高的問題，從而實現(xiàn)快速且有效的離群數(shù)據(jù)篩選。采用隨機采樣來減小參與計算的樣本數(shù)量，采用并行計算來加速運算速度，從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對計算時間和內(nèi)存空間的要求較高的問題，從而實現(xiàn)快速且有效的離群數(shù)據(jù)篩選。

【專利附圖】

【附圖說明】
[0010]圖1是從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)流程圖；
圖2是采樣后的小樣本局部孤立性因子計算流程圖；
圖3是迭代過程共享變量的更新流程圖；
圖4是離群指數(shù)的計算過程圖；
圖5是并行化篩選離群數(shù)據(jù)流程圖。

【具體實施方式】
[0011]參照說明書附圖對本發(fā)明的一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法作以下詳細(xì)地說明。
[0012]一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法，設(shè)計思路如下:
I)主要分為數(shù)據(jù)預(yù)處理、特征選取與變換、初始化變量、迭代、離群指數(shù)計算、離群數(shù)據(jù)篩選六個階段進行開發(fā)實施。為保證流程的一致性及中間結(jié)果的可復(fù)用性，建議采取采用統(tǒng)一的開發(fā)編程語言來完成； 2)本發(fā)明中使用的基本算法可以重新編寫，也可以采用現(xiàn)有程序包；
3)本發(fā)明中多次使用距離度量。距離的定義是靈活的，可以采用歐氏距離、曼哈頓距離、余弦距離等。考慮到余弦距離計算時更簡單且快速，建議使用余弦距離；
4 )采樣時可以采取完全隨機采樣,也可以采用加權(quán)采樣,采樣率較低的樣本權(quán)值高；
5)步驟4的迭代過程，由于不同迭代之間不存在耦合性，因此可以采用并行迭代計算結(jié)構(gòu)(如附圖5所示)；
6)通過多線程和多進程方式來加速非耦合迭代過程計算，不同線程或進程間需要共享訪問兩個數(shù)值變量；在改寫數(shù)值時，需要對變量進行加/解鎖操作；
7)離群指數(shù)結(jié)表征了該樣本離群的趨勢，數(shù)值越大，樣本是離群的可能性越大，數(shù)值越小，樣本越不可能成為離群數(shù)據(jù)。
[0013]本發(fā)明方法定義了一種離群指數(shù)的定義及計算方法，實際實施是，可以此為基礎(chǔ)改進其定義方式及計算方法。
[0014]除說明書所述的技術(shù)特征外，均為本專業(yè)技術(shù)人員的已知技術(shù)。
【權(quán)利要求】
1.一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法，其特征在于采用隨機采樣來減小參與計算的樣本數(shù)量，采用并行計算來加速運算速度，從而有效的解決了大規(guī)模數(shù)據(jù)離群數(shù)據(jù)篩選中對計算時間和內(nèi)存空間的要求較高的問題，從而實現(xiàn)快速且有效的離群數(shù)據(jù)篩選，包括以下幾個步驟: 1)數(shù)據(jù)預(yù)處理對數(shù)據(jù)進行預(yù)處理，消除數(shù)據(jù)間的不一致性同時歸一化各個數(shù)據(jù)，具體操作包括:數(shù)據(jù)清理，數(shù)據(jù)集成，數(shù)據(jù)變換，數(shù)據(jù)歸約，得到的特征矩陣記為T，其大小為N*M，其中N為所有樣本的數(shù)目，M為原始特征屬性的個數(shù)； 2)特征選取與變換特征選取是從所有屬性篩選去掉對后續(xù)操作貢獻(xiàn)較小甚至于沒有貢獻(xiàn)的屬性，特征變換是利用當(dāng)前屬性通過變換得到新特征空間的屬性，得到的特征矩陣記為Ts，其大小為N*m,其中N為所有樣本的數(shù)目，m為篩選和變換之后屬性的個數(shù)； 3)初始化變量記兩個長度為N的全零向量分別為Co、Cs，分別用于保存后續(xù)計算中離群因子的加和及樣本篩選次數(shù)； 4)迭代通過以下迭代更新向量Co及Cs，迭代到一定次數(shù)k即終止: (O隨機選擇一個子樣本集，大小固定為η ； (2)向量Cs中對應(yīng)元素數(shù)值加I; (3)從矩陣Ts中篩選對應(yīng)行，并計算該矩陣對應(yīng)的局部孤立性因子； (4)向量Co對應(yīng)數(shù)值分別加上步得到的局部孤立性因子； 5)離群指數(shù)計算通過向量Co及Cs計算得到向量COI為離群因子，計算公式為:C0I=Co/Cs ； 6)離群數(shù)據(jù)篩選按照向量COI對應(yīng)數(shù)值從大到小的順序，篩選前I個樣本作為離群數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于通過隨機采樣來得到一個規(guī)模遠(yuǎn)遠(yuǎn)小于原始樣本規(guī)模的小樣本，采樣時采取完全隨機采樣或采用加權(quán)采樣。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，通過多線程和多進程方式來加速非耦合迭代過程計算，不同線程或進程間需要共享訪問兩個數(shù)值變量。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，通過迭代過程共享的兩個數(shù)值變量來計算每個樣本的離群指數(shù)，該指數(shù)表征了該樣本離群的趨勢，數(shù)值越大，樣本是離群的可能性越大，數(shù)值越小，樣本越不可能成為離群數(shù)據(jù)。
【文檔編號】G06F17/30GK104346445SQ201410584552
【公開日】2015年2月11日申請日期:2014年10月28日優(yōu)先權(quán)日:2014年10月28日
【發(fā)明者】王恩東, 張東, 吳楠, 韋鵬, 付興旺申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王恩東;張東;吳楠;韋鵬;付興旺
技術(shù)所有人：浪潮電子信息產(chǎn)業(yè)股份有限公司
我是此專利的發(fā)明人

上一篇：一種基于HBase的大表join方法
上一篇：一種帶有電源管理的多接口移動安全設(shè)備及其工作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

快速篩選重復(fù)數(shù)據(jù)相關(guān)技術(shù)

excel重復(fù)數(shù)據(jù)篩選相關(guān)技術(shù)

兩個表格相同數(shù)據(jù)篩選相關(guān)技術(shù)

如何復(fù)制篩選后的數(shù)據(jù)相關(guān)技術(shù)

篩選重復(fù)數(shù)據(jù)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種快速從大規(guī)模數(shù)據(jù)中篩選離群數(shù)據(jù)的方法