本發(fā)明公開一種大數(shù)據(jù)缺失屬性補(bǔ)全方法,涉及數(shù)據(jù)處理與數(shù)據(jù)挖掘領(lǐng)域。
背景技術(shù):
當(dāng)前互聯(lián)網(wǎng)背景下,每時每刻都產(chǎn)生著各種數(shù)據(jù),這些數(shù)據(jù)中蘊(yùn)含著豐富的潛在知識,各行各業(yè)的決策者也意識到了這些大量數(shù)據(jù)的價值,利用云計(jì)算、數(shù)據(jù)挖掘等新型技術(shù)從這些大數(shù)據(jù)中挖掘知識,支持決策。但由于數(shù)據(jù)來源的多樣性,真實(shí)數(shù)據(jù)的復(fù)雜性,采集來的大數(shù)據(jù)有相當(dāng)一部分信息量不足或?qū)傩匀笔?,造成?shù)據(jù)不完整,從而很難對該類數(shù)據(jù)進(jìn)行下一步處理。另外,現(xiàn)有的大數(shù)據(jù)缺失屬性補(bǔ)全的方法一般是取所有樣本的均值或者某個固定的默認(rèn)值,這些方法忽視了缺失屬性數(shù)據(jù)與其他樣本的關(guān)聯(lián)性問題,補(bǔ)全的屬性值準(zhǔn)確率較低,進(jìn)而影響后期針對該數(shù)據(jù)的其他應(yīng)用,比如精準(zhǔn)推薦、營銷等。
而本發(fā)明提供了一種大數(shù)據(jù)缺失屬性補(bǔ)全方法,主要包括四個階段:訓(xùn)練樣本聚類階段;待補(bǔ)全數(shù)據(jù)與各簇間相似性計(jì)算階段;各簇權(quán)重確定階段;缺失屬性補(bǔ)全階段;利用本發(fā)明先將屬性健全的訓(xùn)練樣本聚類成特定數(shù)量的簇,然后根據(jù)缺失屬性的數(shù)據(jù)與各個簇的相似性確定權(quán)重,最后利用各簇加權(quán)屬性之和補(bǔ)全缺失屬性,充分考慮了缺失屬性數(shù)據(jù)與其他樣本的關(guān)聯(lián)性,補(bǔ)全的屬性值準(zhǔn)確率較高,不影響后期針對該數(shù)據(jù)的其他應(yīng)用。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種大數(shù)據(jù)缺失屬性補(bǔ)全方法,具有通用性強(qiáng)、實(shí)施簡便等特點(diǎn),具有廣闊的應(yīng)用前景。
本發(fā)明提出的具體方案是:
一種大數(shù)據(jù)缺失屬性補(bǔ)全方法:
將屬性健全的大數(shù)據(jù)作為訓(xùn)練樣本聚類成特定數(shù)量的簇,計(jì)算缺失屬性數(shù)據(jù)與各簇間的相似性,并根據(jù)上述相似性確定權(quán)重,利用各簇加權(quán)屬性之和補(bǔ)全缺失屬性數(shù)據(jù)的缺失屬性。上述過程實(shí)質(zhì)包括a1:訓(xùn)練樣本聚類階段;a2:待補(bǔ)全數(shù)據(jù)與各簇間相似性計(jì)算階段;a3:各簇權(quán)重確定階段;a4:缺失屬性補(bǔ)全階段,這四個階段。
所述將屬性健全的大數(shù)據(jù)作為訓(xùn)練樣本聚類成特定簇的方式是采樣屬性健全的規(guī)范樣本數(shù)據(jù),使用聚類方法將樣本分成一定數(shù)量的簇,分別計(jì)算各簇樣本均值。
所述計(jì)算缺失屬性數(shù)據(jù)與各簇間的相似性的方式是在去掉缺失屬性的前提下,計(jì)算缺失屬性數(shù)據(jù)與所述的各簇樣本均值之間的距離。
所述確定權(quán)重的方式是對所述的缺失屬性數(shù)據(jù)與各簇樣本均值之間的各個距離取倒數(shù)并求和,以距離倒數(shù)與總和的比值作為權(quán)重值。
所述補(bǔ)全缺失屬性數(shù)據(jù)的缺失屬性的方式是利用所述各簇樣本均值與所述的對應(yīng)的權(quán)重值計(jì)算加權(quán)之和,以此作為缺失的屬性值。
本發(fā)明的有益之處是:
本發(fā)明提供一種大數(shù)據(jù)缺失屬性補(bǔ)全方法,主要包括四個階段:訓(xùn)練樣本聚類階段;待補(bǔ)全數(shù)據(jù)與各簇間相似性計(jì)算階段;各簇權(quán)重確定階段;缺失屬性補(bǔ)全階段;利用本發(fā)明先將屬性健全的訓(xùn)練樣本聚類成特定數(shù)量的簇,然后根據(jù)缺失屬性的數(shù)據(jù)與各個簇的相似性確定權(quán)重,最后利用各簇加權(quán)屬性之和補(bǔ)全缺失屬性,充分考慮了缺失屬性數(shù)據(jù)與其他樣本的關(guān)聯(lián)性,補(bǔ)全的屬性值準(zhǔn)確率較高,不影響后期針對該數(shù)據(jù)的其他應(yīng)用。
附圖說明
圖1是本發(fā)明方法四個階段流程示意圖;
圖2本發(fā)明方法具體流程示意圖。
具體實(shí)施方式
本發(fā)明提供一種大數(shù)據(jù)缺失屬性補(bǔ)全方法:
將屬性健全的大數(shù)據(jù)作為訓(xùn)練樣本聚類成特定數(shù)量的簇,計(jì)算缺失屬性數(shù)據(jù)與各簇間的相似性,并根據(jù)上述相似性確定權(quán)重,利用各簇加權(quán)屬性之和補(bǔ)全缺失屬性數(shù)據(jù)的缺失屬性。
結(jié)合附圖,對本發(fā)明做進(jìn)一步說明。
利用本發(fā)明方法,主要包括四個階段:
a1:訓(xùn)練樣本聚類階段;
a2:待補(bǔ)全數(shù)據(jù)與各簇間相似性計(jì)算階段;
a3:各簇權(quán)重確定階段;
a4:缺失屬性補(bǔ)全階段。
其中a1具體過程為:隨機(jī)采樣數(shù)據(jù)倉庫中已處理好的屬性健全的規(guī)范樣本數(shù)據(jù),使用k中心點(diǎn)聚類方法將樣本分成k個簇,k的取值根據(jù)預(yù)判的數(shù)據(jù)類別數(shù)確定,分別計(jì)算各簇樣本均值;
a2相似性的計(jì)算方法為:在去掉缺失屬性的前提下,計(jì)算待補(bǔ)全數(shù)據(jù)與階段a1所述的各簇樣本均值之間的距離;
a3權(quán)重計(jì)算方法為:對a2階段所述的各距離取倒數(shù)并求和,以距離倒數(shù)與總和的比值作為權(quán)重值;
a4屬性補(bǔ)全方法為:階段a1所述的均值與階段a3所述的對應(yīng)權(quán)重值計(jì)算加權(quán)和,以此作為缺失的屬性值。
將缺失的屬性值補(bǔ)全給缺失屬性的數(shù)據(jù),完成補(bǔ)全階段。本發(fā)明考慮了缺失屬性數(shù)據(jù)與其他樣本的關(guān)聯(lián)性,補(bǔ)全的屬性值準(zhǔn)確率較高,不影響后期針對該數(shù)據(jù)的其他應(yīng)用。