基于層次聚類的云平臺測速數(shù)據(jù)判定方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種判定方法,具體涉及基于層次聚類的云平臺測速數(shù)據(jù)判定方法。
【背景技術(shù)】
[0002] 目前暫無將無監(jiān)督聚類技術(shù)應(yīng)用于網(wǎng)速異常檢測的解決方案。較為接近的解決 方案應(yīng)用于網(wǎng)絡(luò)入侵的異常檢測領(lǐng)域。使用無監(jiān)督方法的網(wǎng)絡(luò)入侵異常檢測方案中,結(jié)合 使用了劃分聚類算法與層次凝聚聚類方法,但不同之處在于,先使用劃分聚類將樣本分為 若干簇,再使用凝聚聚類算法合并這些簇,從而得到正常簇與異常簇。方案出處:李娜,鐘 誠.基于劃分和凝聚層次聚類的無監(jiān)督異常檢測[J].計算機(jī)工程,2008,(2).
[0003] 由于網(wǎng)絡(luò)速度數(shù)據(jù)與網(wǎng)絡(luò)入侵檢測的數(shù)據(jù)相比,分布更復(fù)雜且變化性大,因此若 按照上述方案直接使用劃分聚類方法,其聚類結(jié)果無法很好的擬合所有的數(shù)據(jù)分布。
[0004] 另外,此方案的劃分聚類步驟十分依賴某個超參數(shù)的設(shè)置,這也使得方案在應(yīng)用 與網(wǎng)速異常判定問題中時,不具有較高的魯棒性。
【發(fā)明內(nèi)容】
[0005] 針對現(xiàn)有技術(shù)的不足,本發(fā)明提供基于層次聚類的云平臺測速數(shù)據(jù)判定方法,實 現(xiàn)了對于當(dāng)前網(wǎng)速是否正?;虍惓5淖詣踊卸ā?br>[0006] 本發(fā)明的目的是采用下述技術(shù)方案實現(xiàn)的:
[0007] 基于層次聚類的云平臺測速數(shù)據(jù)判定方法,所述方法包括,
[0008] 在數(shù)據(jù)源中獲取待聚類的一維數(shù)據(jù),構(gòu)成數(shù)據(jù)集;
[0009] 對所述數(shù)據(jù)集過濾,并對過濾后的數(shù)據(jù)進(jìn)行歸并操作;
[0010] 針對歸并操作后的數(shù)據(jù)進(jìn)行第一次聚類,生成聚類結(jié)果;所述聚類結(jié)果包括多個 簇,每個簇包括至少一個數(shù)據(jù);
[0011] 根據(jù)第一次聚類結(jié)果,確定中心點;
[0012] 根據(jù)該中心點進(jìn)行第二次聚類,獲得正常范圍與異常范圍的邊界點。
[0013] 優(yōu)選的,對所述數(shù)據(jù)集過濾包括,將數(shù)據(jù)由小到大順序排列,刪除其中最小的5 % 和最大的5%。
[0014] 優(yōu)選的,對所述數(shù)據(jù)過濾還包括,第一預(yù)設(shè)閾值為tl,并為tl賦值5,濾掉數(shù)據(jù)間 局部密度小于5的數(shù)據(jù);所述局部密度的表達(dá)式為:
[0015]
[0016] 式⑴中,d為兩個數(shù)據(jù)之間的距離;\和X汾別為數(shù)據(jù)集中任意兩個相鄰數(shù)據(jù)。
[0017] 優(yōu)選的,所述歸并操作包括,預(yù)設(shè)歸并半徑r,并為r賦值0. 0001,將過濾數(shù)據(jù)中兩 兩之間距離最短的數(shù)據(jù)合并為一類,由小到大排列后刪除兩類之間距離小于0. 0001的類。
[0018] 優(yōu)選的,所述生成聚類結(jié)果包括,將兩兩之間距離最短的兩類合并為一簇,并以此 循環(huán),直到簇的數(shù)量達(dá)到預(yù)設(shè)聚類閾值為止;
[0019] 所述預(yù)設(shè)聚類閾值為數(shù)據(jù)集數(shù)據(jù)總數(shù)的10%。
[0020] 優(yōu)選的,所述確定中心點包括,將聚類結(jié)果分為k簇,根據(jù)每一簇包含的數(shù)據(jù)個數(shù) 從高至低排序C 1, C2,…Ck,選取前6個簇,分別為C1, C2, C3,…,C6;C AC6;每個簇的聚類中心 為該簇內(nèi)數(shù)據(jù)的平均值;
[0021] 若|c」/|c21彡TI,則選擇CI的聚類中心為中心點;否則,令s = IA},i = 1;若 ,則依次向后遍歷S = s U {C1+1},i+1 - t;否則停止遍歷,將s中的簇按照 各自聚類中心的高低排序,選擇其中最小的聚類中心作為中心點;其中,Tl為第二預(yù)設(shè)閾 值。
[0022] 優(yōu)選的,所述獲得正常范圍與異常范圍的邊界點包括,使用K = 2的K均值聚類算 法對所有小于所述中心點的數(shù)據(jù)進(jìn)行第二次聚類,獲取聚類結(jié)果;通過相似性度量聚類結(jié) 果的兩個簇X,Y的分界點作為正常范圍與異常范圍的邊界點。
[0023] 進(jìn)一步地,所述相似性度量為歐幾里德距離度量;其中,兩個簇X,Y的歐幾里德距 離,
[0024] 與現(xiàn)有技術(shù)比,本發(fā)明達(dá)到的有益效果是:
[0025] 1、由于各個聚類算法的缺點與局限性,不適合直接應(yīng)用于該判定問題。在該問題 中,由于原始數(shù)據(jù)分布的不規(guī)則性與復(fù)雜性,若直接在原始數(shù)據(jù)中執(zhí)行K = 2的K均值聚類 算法,聚類的結(jié)果往往不準(zhǔn)確。因此,本方案先采用了另外一種層次聚類算法,大大的簡化 了數(shù)據(jù)分布,縮小正常與異常邊界點的范圍,再應(yīng)用K均值聚類就會取得較好的效果。
[0026] 2、聚類算法通常對于海量數(shù)據(jù)的處理不夠靈活,當(dāng)數(shù)據(jù)量規(guī)模較大時,聚類算法 的時間性能很差。因此,本方案設(shè)計了兩種數(shù)據(jù)篩減方法來減小數(shù)據(jù)規(guī)模:引入了局部密度 這個定義,通過局部密度表征樣本點的重要性,從而在維持?jǐn)?shù)據(jù)分布的基礎(chǔ)上減小了樣本 個數(shù);引入了歸并半徑,可控的歸并距離十分相近的樣本,對于局部密度很大的區(qū)域可以明 顯減小數(shù)據(jù)規(guī)模。
【附圖說明】
[0027] 圖1為本發(fā)明基于層次聚類的云平臺測速數(shù)據(jù)判定方法流程圖。
【具體實施方式】
[0028] 下面結(jié)合附圖對本發(fā)明的【具體實施方式】作進(jìn)一步的詳細(xì)說明。
[0029] 如圖1所示,基于層次聚類的云平臺測速數(shù)據(jù)判定方法,所述方法包括,
[0030] 在數(shù)據(jù)源中獲取待聚類的一維數(shù)據(jù),構(gòu)成數(shù)據(jù)集;
[0031] 對所述數(shù)據(jù)集過濾,并對過濾后的數(shù)據(jù)進(jìn)行歸并操作,以減小數(shù)據(jù)規(guī)模;對所述數(shù) 據(jù)集過濾包括,將數(shù)據(jù)由小到大順序排列,刪除其中最小的5%和最大的5%。
[0032] 所述數(shù)據(jù)過濾還包括,第一預(yù)設(shè)閾值為tl,并為tl賦值5,濾掉數(shù)據(jù)間局部密度小 于5的數(shù)據(jù);所述局部密度的表達(dá)式為:
[0033]
[0034] 式(1)中,d為兩個數(shù)據(jù)之間的距離;\和X 別為數(shù)據(jù)集中任意兩個相鄰數(shù)據(jù)。 所述歸并操作包括,預(yù)設(shè)歸并半徑r,并為r賦值0. 0001,將過濾數(shù)據(jù)中兩兩之間距離最短 的數(shù)據(jù)合并為一類,由小到大排列后刪除兩類之間距離小于〇. 0001的類。
[0035] 針對歸并操作后的數(shù)據(jù)進(jìn)行第一次聚類,生成聚類結(jié)果;所述聚類結(jié)果包括多個 簇,每個簇包括至少一個數(shù)據(jù);所述生成聚類結(jié)果包括,將兩兩之間距離最短的兩類合并為 一簇,并以此循環(huán),直到簇的數(shù)量達(dá)到預(yù)設(shè)聚類閾值為止;
[0036] 所述預(yù)設(shè)聚類閾值為數(shù)據(jù)集數(shù)據(jù)總數(shù)的10%。
[0037] 根據(jù)第一次聚類結(jié)果,確定中心點;所述確定中心點包括,將聚類結(jié)果分為k簇, 根據(jù)每一簇包含的數(shù)據(jù)個數(shù)從高至低排序C 1, C2,…Ck,選取前6個簇,分別為C1, C2, C3,… ,C6;C AC6;每個簇的聚類中心為該簇內(nèi)數(shù)據(jù)的平均值;
[0038] 若|C」/|C21彡Tl,則選擇Cl的聚類中心為中心點;否則,令S = IA},i = 1 ;若 C1IzlC1J <T1,則依次向后遍歷S = S U {C1+1},i+1 - t;否則停止遍歷,將S中的簇按 照各自聚類中心的高低排序,選擇其中最小的聚類中心作為中心點;其中,Tl為第二預(yù)設(shè) 閾值。
[0039] 根據(jù)該中心點進(jìn)行第二次聚類,獲得正常范圍與異常范圍的邊界點。所述獲得正 常范圍與異常范圍的邊界點包括,使用K = 2的K均值聚類算法對所有小于所述中心點的 數(shù)據(jù)進(jìn)行第二次聚類,獲取聚類結(jié)果;通過相似性度量聚類結(jié)果的兩個簇X,Y的分界點作 為正常范圍與異常范圍的邊界點。
[0040] 所述相似性度量為歐幾里德距離度量;其中,兩個簇X,Y的歐幾里德距離為
[0041] 最后應(yīng)當(dāng)說明的是:以上實施例僅用以說明本發(fā)明的技術(shù)方案而非對其限制,盡 管參照上述實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:依然 可以對本發(fā)明的【具體實施方式】進(jìn)行修改或者等同替換,而未脫離本發(fā)明精神和范圍的任何 修改或者等同替換,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
【主權(quán)項】
1. 基于層次聚類的云平臺測速數(shù)據(jù)判定方法,其特征在于,所述方法包括: 在數(shù)據(jù)源中獲取待聚類的一維數(shù)據(jù),構(gòu)成數(shù)據(jù)集; 對所述數(shù)據(jù)集過濾,并對過濾后的數(shù)據(jù)進(jìn)行歸并操作; 針對歸并操作后的數(shù)據(jù)進(jìn)行第一次聚類,生成聚類結(jié)果;所述聚類結(jié)果包括多個簇,每 個簇包括至少一個數(shù)據(jù); 根據(jù)第一次聚類結(jié)果,確定中心點; 根據(jù)該中心點進(jìn)行第二次聚類,獲得正常范圍與異常范圍的邊界點。2. 如權(quán)利要求1所述的方法,其特征在于,對所述數(shù)據(jù)集過濾包括,將數(shù)據(jù)由小到大順 序排列,刪除其中最小的5%和最大的5%。3. 如權(quán)利要求1或2所述的方法,其特征在于,對所述數(shù)據(jù)過濾還包括,第一預(yù)設(shè)閾值 為tl,并為tl賦值5,濾掉數(shù)據(jù)間局部密度小于5的數(shù)據(jù);所述局部密度的表達(dá)式為:式(1)中,d為兩個數(shù)據(jù)之間的距離;\和X別為數(shù)據(jù)集中任意兩個相鄰數(shù)據(jù)。4. 如權(quán)利要求1所述的方法,其特征在于,所述歸并操作包括,預(yù)設(shè)歸并半徑r,并為r 賦值0. 0001,將過濾數(shù)據(jù)中兩兩之間距離最短的數(shù)據(jù)合并為一類,由小到大排列后刪除兩 類之間距離小于0.0001的類。5. 如權(quán)利要求1所述的方法,其特征在于,所述生成聚類結(jié)果包括,將兩兩之間距離最 短的兩類合并為一簇,并以此循環(huán),直到簇的數(shù)量達(dá)到預(yù)設(shè)聚類閾值為止; 所述預(yù)設(shè)聚類閾值為數(shù)據(jù)集數(shù)據(jù)總數(shù)的10%。6. 如權(quán)利要求1所述的方法,其特征在于,所述確定中心點包括,將聚類結(jié)果分為k簇, 根據(jù)每一簇包含的數(shù)據(jù)個數(shù)從高至低排序C1,C2,…Ck,選取前6個簇,分別為C1,C2,C3,… ,C6;CAC6;每個簇的聚類中心為該簇內(nèi)數(shù)據(jù)的平均值; 若Ic1Uc2I彡T1,則選擇Cl的聚類中心為中心點;否則,令S=IC1Ki=1;若C1MlC1J彡T1,則依次向后遍歷S=SU{C1+1},i+1 -i;否則停止遍歷,將S中的簇按 照各自聚類中心的高低排序,選擇其中最小的聚類中心作為中心點;其中,Tl為第二預(yù)設(shè) 閾值。7. 如權(quán)利要求1所述的方法,其特征在于,所述獲得正常范圍與異常范圍的邊界點包 括,使用K= 2的K均值聚類算法對所有小于所述中心點的數(shù)據(jù)進(jìn)行第二次聚類,獲取聚 類結(jié)果;通過相似性度量聚類結(jié)果的兩個簇X,Y的分界點作為正常范圍與異常范圍的邊界 點。8. 如權(quán)利要求7所述的方法,其特征在于,所述相似性度量為歐幾里德距離度量;其
【專利摘要】本發(fā)明涉及基于層次聚類的云平臺測速數(shù)據(jù)判定方法,所述方法包括,在數(shù)據(jù)源中獲取待聚類的一維數(shù)據(jù),構(gòu)成數(shù)據(jù)集;對所述數(shù)據(jù)集過濾,并對過濾后的數(shù)據(jù)進(jìn)行歸并操作;針對歸并操作后的數(shù)據(jù)進(jìn)行第一次聚類,生成聚類結(jié)果;所述聚類結(jié)果包括多個簇,每個簇包括至少一個數(shù)據(jù);根據(jù)第一次聚類結(jié)果,確定中心點;根據(jù)該中心點進(jìn)行第二次聚類,獲得正常范圍與異常范圍的邊界點,從而實現(xiàn)了對于當(dāng)前網(wǎng)速是否正?;虍惓5淖詣踊卸?。
【IPC分類】H04L12/26
【公開號】CN105049286
【申請?zhí)枴緾N201510432338
【發(fā)明人】劉欣然, 朱春鴿, 王勇, 張鴻, 周潤林, 孫斌, 李焱, 李正民, 黃道超, 沈時軍, 鄭世慧, 郭尚瓚
【申請人】國家計算機(jī)網(wǎng)絡(luò)與信息安全管理中心
【公開日】2015年11月11日
【申請日】2015年7月21日