亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

子空間聚類(lèi)的方法及裝置的制造方法

文檔序號(hào):9667489閱讀:665來(lái)源:國(guó)知局
子空間聚類(lèi)的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及子空間聚類(lèi)的方法及裝置。
【背景技術(shù)】
[0002]在高維數(shù)據(jù)聚類(lèi)中,常常由于數(shù)據(jù)的稀疏或不同維度的冗余,導(dǎo)致聚類(lèi)時(shí)間復(fù)雜度和空間復(fù)雜度高,聚類(lèi)效果差,子空間聚類(lèi)方法的提出,使之成為了解決上述問(wèn)題的有效途徑之一。常用的子空間聚類(lèi)方法有CLIQUE,以及在CLIQUE方法的基礎(chǔ)之上衍生出來(lái)的其他方法。CLIQUE方法采用類(lèi)似Apr1ri算法的方式,在高維數(shù)據(jù)中將每個(gè)維度按照數(shù)據(jù)密度進(jìn)行劃分,然后從低維往高維組合出可聚類(lèi)的高維子空間。
[0003]CLIQUE方法通過(guò)網(wǎng)格對(duì)數(shù)據(jù)密度進(jìn)行劃分,然而,在數(shù)據(jù)集分布并不按照網(wǎng)格劃分的情況之下(如圖1所示的情況),通過(guò)CLIQUE方法就無(wú)法得到合理的聚類(lèi)效果。

【發(fā)明內(nèi)容】

[0004]有鑒于此,本發(fā)明實(shí)施例提供了子空間聚類(lèi)的方法及裝置,以解決在數(shù)據(jù)集分布并不按照網(wǎng)格劃分的情況之下,通過(guò)CLIQUE方法無(wú)法得到合理的聚類(lèi)效果問(wèn)題。
[0005]第一方面,提供了一種子空間聚類(lèi)的方法,包括:
[0006]初始化SSAm= 0,并隨機(jī)生成m τ個(gè)不為零的c.j,所述SS-為m維K-means組合聚類(lèi)得到的類(lèi)間離差和,所述C]S—維空間的聚類(lèi)中心,所述m τ表示原始數(shù)據(jù)集共有m τ個(gè)維度,所述m表示預(yù)設(shè)子空間共有m個(gè)維度;
[0007]使用所述C]在每個(gè)維度上分別進(jìn)行一維K-means聚類(lèi),得到每個(gè)維度的類(lèi)間離差和 SSA1;
[0008]基于mT個(gè)類(lèi)間離差和SS A1,選取Σ SSA1最大且還未組合聚類(lèi)過(guò)的m個(gè)維度;
[0009]若已經(jīng)選取完m個(gè)維度在所述mT個(gè)維度中的所有組合或存在Σ SSA1< SSAni,則將SS-對(duì)應(yīng)的聚類(lèi)結(jié)果輸出;
[0010]若Σ SSA1> SS-,使用當(dāng)前選取的m個(gè)維度對(duì)應(yīng)的Cj作為聚類(lèi)初始值進(jìn)行K-means組合聚類(lèi),并且計(jì)算得到對(duì)應(yīng)的類(lèi)間離差和ssAn/ ;
[0011]返回執(zhí)行所述基于mT個(gè)類(lèi)間離差和SSA1,選取Σ SSA1最大且還未組合聚類(lèi)過(guò)的m個(gè)維度的操作,且若存在SS' _> SS-,則在所述返回執(zhí)行前設(shè)置SSAni= SS' Αηι。
[0012]另一方面,提供了一種子空間聚類(lèi)的裝置,包括:
[0013]初始化單元,用于初始化SSAm= 0,并隨機(jī)生成m τ個(gè)不為零的c.j,所述SSAmS m維K-means組合聚類(lèi)得到的類(lèi)間離差和,所述(^為一維空間的聚類(lèi)中心,所述m τ表示原始數(shù)據(jù)集共有%個(gè)維度,所述m表示預(yù)設(shè)子空間共有m個(gè)維度;
[0014]排序單元,用于使用所述C]在每個(gè)維度上分別進(jìn)行一維K-means聚類(lèi),得到每個(gè)維度的類(lèi)間離差和SSA1;
[0015]選取單元,用于基于mT個(gè)類(lèi)間離差和SSA1,選取Σ SSA1最大且還未組合聚類(lèi)過(guò)的m個(gè)維度;
[0016]輸出單元,用于若已經(jīng)選取完m個(gè)維度在所述mT個(gè)維度中的所有組合或存在Σ SSA1^ SSAni,則將SSAni對(duì)應(yīng)的聚類(lèi)結(jié)果輸出;
[0017]計(jì)算單元,若Σ SSA1> SSAm,使用當(dāng)前選取的m個(gè)維度對(duì)應(yīng)的作為聚類(lèi)初始值進(jìn)行K-means組合聚類(lèi),并且計(jì)算得到對(duì)應(yīng)的類(lèi)間離差和SSAn/ ;
[0018]迭代單元,用于返回執(zhí)行所述選取單元的操作,且若存在SS' SSAni,則在所述返回執(zhí)行前設(shè)置SSAm= SS' ta。
[0019]本發(fā)明實(shí)施例在子空間聚類(lèi)中引入了 K-means算法,相比CLIQUE方法,在原始數(shù)據(jù)集并不按照網(wǎng)格來(lái)劃分的情況下,本發(fā)明實(shí)施例提供的方案使得子空間聚類(lèi)能夠快速地得到最佳子空間的聚類(lèi)結(jié)果。
【附圖說(shuō)明】
[0020]為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0021]圖1是現(xiàn)有技術(shù)提供的數(shù)據(jù)集分布示例圖;
[0022]圖2是本發(fā)明實(shí)施例提供的子空間聚類(lèi)的方法的實(shí)現(xiàn)流程圖;
[0023]圖3是本發(fā)明實(shí)施例提供的子空間聚類(lèi)的裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0024]以下描述中,為了說(shuō)明而不是為了限定,提出了諸如特定系統(tǒng)結(jié)構(gòu)、技術(shù)之類(lèi)的具體細(xì)節(jié),以便透切理解本發(fā)明實(shí)施例。然而,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)清楚,在沒(méi)有這些具體細(xì)節(jié)的其它實(shí)施例中也可以實(shí)現(xiàn)本發(fā)明。在其它情況中,省略對(duì)眾所周知的系統(tǒng)、裝置、電路以及方法的詳細(xì)說(shuō)明,以免不必要的細(xì)節(jié)妨礙本發(fā)明的描述。
[0025]本發(fā)明實(shí)施例在子空間聚類(lèi)過(guò)程中引入了 K-means算法,從而在原始數(shù)據(jù)集并不按照網(wǎng)格來(lái)劃分的情況下,也能夠快速地得到合理的子空間聚類(lèi)的聚類(lèi)結(jié)果。
[0026]圖2示出了本發(fā)明實(shí)施例提供的子空間聚類(lèi)的方法的實(shí)現(xiàn)流程,詳述如下:
[0027]在S201中,初始化SSAni= 0,并隨機(jī)生成mT個(gè)不為零的c j,其中,所述SSAni為m個(gè)維K-means組合聚類(lèi)得到的類(lèi)間離差和,所述C]S—維空間的聚類(lèi)中心,所述m 1表示原始數(shù)據(jù)集共有mT個(gè)維度,所述m表示預(yù)設(shè)子空間共有m個(gè)維度。
[0028]作為本發(fā)明的一個(gè)實(shí)施例,在S201之前,還可以對(duì)原始數(shù)據(jù)集的每一維度分別執(zhí)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,即,在執(zhí)行聚類(lèi)之前,先對(duì)原始數(shù)據(jù)進(jìn)行去量綱處理(即數(shù)據(jù)標(biāo)準(zhǔn)化處理)。在本發(fā)明實(shí)施例中,去量綱處理可以采用Z值來(lái)標(biāo)準(zhǔn)化數(shù)據(jù),在去量綱后,每個(gè)維度的均值為0,方差為1恒成立,由此一來(lái),再采用K-means算法進(jìn)行聚類(lèi),每個(gè)維度就擁有相同的權(quán)重。
[0029]將隨機(jī)生成的1%個(gè)初始值c j設(shè)置為廣播變量,作為K-means算法的初始條件,而將初始值C]設(shè)置為廣播變量,是方便在分布式計(jì)算的場(chǎng)景之下,能夠?qū)⒊跏贾礳 配到每臺(tái)機(jī)器之中進(jìn)行運(yùn)算。
[0030]在S202中,使用所述Cj在每個(gè)維度上分別進(jìn)行一維K-means聚類(lèi),得到每個(gè)維度的類(lèi)間離差和SSA1。
[0031]為了方便后續(xù)S203的處理,在S202之后,可以將mT個(gè)維度中還未被選取過(guò)的維度按照每個(gè)維度對(duì)應(yīng)的SSA1的值從大到小進(jìn)行排序。
[0032]在S203中,基于mT個(gè)類(lèi)間離差和SSA1,選取Σ SSA1最大且還未組合聚類(lèi)過(guò)的m個(gè)維度。
[0033]在S204中,若已經(jīng)選取完m個(gè)維度在所述mT個(gè)維度中的所有組合或存在Σ SSA1^ SSAni,則將SSjt出對(duì)應(yīng)的聚類(lèi)結(jié)果輸出。
[0034]例如,m = 2,mT= 6,通過(guò)S202的一維聚類(lèi)之后,每個(gè)維度對(duì)應(yīng)的類(lèi)間離差和SS A1分別為 SS1 = 0.1、SS2 = 0.2、SS3 = 0.3、SS4 = 0.4、SS5 = 0.5,SS6 = 0.6,其中,SS5+SS6的值最大,則在S203的處理過(guò)程中,先選取出SS5和SS6對(duì)應(yīng)的維度,并判斷這兩個(gè)維度是否存在Σ SSA1^ SS-,若存在,則迭代結(jié)束,不對(duì)SS5和SS6對(duì)應(yīng)的維度進(jìn)行組合,并將當(dāng)前的SSAni對(duì)應(yīng)的聚類(lèi)結(jié)果輸出。
[0035]在S205中,若Σ SSA1> SS _,使用當(dāng)前選取的m個(gè)維度對(duì)應(yīng)的(^作為聚類(lèi)初始值進(jìn)行K-means組合聚類(lèi),并且計(jì)算得到對(duì)應(yīng)的類(lèi)間離差和SSAni'。
[0036]在S206中,返回執(zhí)行S203的操作,且若存在SS' SS Αηι,則在所述返回執(zhí)行前設(shè)置 ssAm= SS'―。
[0037]上述迭代過(guò)程反復(fù)進(jìn)行,直至得到SSAni最大的m個(gè)維度,將該m個(gè)維度選取為最佳的聚類(lèi)維度。
[0038]其中,將SSAni最大的m個(gè)維度選取為最佳的聚類(lèi)維度的理由如下:
[0039]K-means算法每次迭代分兩步,第一步重新計(jì)算每個(gè)類(lèi)的中心點(diǎn),第二步將每個(gè)點(diǎn)重新分配到的新類(lèi)為離這個(gè)點(diǎn)最近的中心點(diǎn)所代表的類(lèi)。通過(guò)以上證明過(guò)程可知,經(jīng)過(guò)上述第一步后,類(lèi)內(nèi)每個(gè)點(diǎn)到類(lèi)新中心點(diǎn)的離差平方和不大于類(lèi)內(nèi)每個(gè)點(diǎn)到原中心點(diǎn)的離差平方和;經(jīng)過(guò)上述第二步后,由于每個(gè)點(diǎn)被分配到最近的中心點(diǎn),所以在新類(lèi)中每個(gè)點(diǎn)的離差平方不大于每個(gè)點(diǎn)到原類(lèi)中心點(diǎn)的離差平方,因此,K-means算法的第一次迭代過(guò)程類(lèi)內(nèi)離差和SSEF斷減小,直到SS E不再減小時(shí),K-means算法結(jié)束,得到最終的聚類(lèi)結(jié)果。
[0040]在聚類(lèi)結(jié)束后,如果類(lèi)內(nèi)的點(diǎn)集中,類(lèi)與類(lèi)之間的距離較大,S卩,聚類(lèi)的類(lèi)內(nèi)離差和SSE越小,類(lèi)間離差和SSA越大,那么聚類(lèi)結(jié)果就比較合理,這和單因素方差分析中的組內(nèi)組間的概念相同,在單因素方差分析方法中,聚類(lèi)的類(lèi)內(nèi)離差和SSE、類(lèi)間離差和SSA和總方差SST存在以下關(guān)系:
[0041]SST= SS A+SSE
[0042]而在本發(fā)明實(shí)施例中,在給定了子空間維數(shù)m后,由于數(shù)據(jù)已經(jīng)過(guò)標(biāo)準(zhǔn)化處理,所以相同維數(shù)的不同子空間SST= m,因此,在上述關(guān)系SST= SSA+SSE中,當(dāng)SS A^P SSE之間確定了其中一個(gè)之后,另一個(gè)也是可以確定的,因此,在本發(fā)明實(shí)施例中,可以基于SST =SSA+SSE輸出SS jp SSA,用于評(píng)判所述最終的聚類(lèi)結(jié)果,S卩,通過(guò)不同子空間的聚類(lèi)結(jié)果SSA或-ssj^大小來(lái)評(píng)判不同子空間的聚類(lèi)結(jié)果的優(yōu)劣,在ssA最大(也即-ssE最大)的情況之下,聚類(lèi)結(jié)果最優(yōu)。
[0043]在上述步驟204-步驟205中,由于對(duì)每個(gè)m個(gè)維度的組合來(lái)說(shuō),該m個(gè)維度的Σ SSA1必定大于該m個(gè)維度的SS Am,那么,如果存在一組m個(gè)維度Z1的Σ SSA1小于或等于另外一組m個(gè)維度Z2的SSAni',則Z1的SSaJ^必定小于Z2的SS:,S卩,Z1不可能成為m維聚類(lèi)的最佳維度,相較Zl,Z2為m維聚類(lèi)的較佳維度。此時(shí),迭代結(jié)束,算法退出,仍然選取Z2中的m個(gè)維度作為最佳的聚類(lèi)維度,而無(wú)需對(duì)剩余未選取的維度進(jìn)行組合聚類(lèi),由此能夠達(dá)到運(yùn)算效率的提升,較快地找到用于進(jìn)行子空間聚類(lèi)的最佳的m個(gè)維度。
[0044]應(yīng)理解,上述實(shí)施例中各步驟的序號(hào)的大小并不意味著執(zhí)行順序的先后,各過(guò)程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對(duì)本發(fā)明實(shí)施例的實(shí)施過(guò)程構(gòu)成任何限定。
[0045]對(duì)應(yīng)于上文實(shí)施例所述的子空間聚類(lèi)的方法,圖3示出了本發(fā)明實(shí)施例提供的子空間聚類(lèi)的裝置的結(jié)構(gòu)框圖,所述子空間聚類(lèi)的裝置可以為軟件單元、硬件單元或者是軟硬結(jié)合的單元。為了便于說(shuō)明,僅示出了與本實(shí)施例相關(guān)的部分。
[0046]參照?qǐng)D3,該裝置包括:
[0047]初始化單元31,初始化SSAm= 0,并隨
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1