亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

初始樣本選擇方法及裝置與流程

文檔序號:12468817閱讀:259來源:國知局
初始樣本選擇方法及裝置與流程

本發(fā)明涉及聚類技術(shù)領(lǐng)域,更具體地說,涉及一種初始樣本選擇方法及裝置。



背景技術(shù):

在數(shù)據(jù)挖掘過程中,通常會應(yīng)用到聚類。聚類是將物理或抽象對象的集合(即樣本集合)分成由類似的對象組成的多個類的過程。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。目前,在較常用的聚類算法中,有一類聚類算法,例如,K-Means算法,K-Medoids算法等,在算法開始之前,需要從樣本集合中選擇k個樣本作為初始樣本(也叫初始聚類中心),這個過程一般是在樣本集合中隨機選擇k個樣本作為初始樣本。然而,不同的初始樣本所導(dǎo)致的算法的收斂速度也不同,還會影響最終的聚類效果。因此,隨機選擇k個初始樣本容易出現(xiàn)聚類算法的收斂速度慢、聚類效果差的問題。

因此,如何選擇初始樣本以克服聚類算法的收斂速度慢、聚類效果差的問題成為亟待解決的問題。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的是提供一種初始樣本選擇方法及裝置,以克服聚類算法的收斂速度慢、聚類效果差的問題。

為實現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:

一種初始樣本選擇方法,包括:

構(gòu)建樣本集合中樣本的原始連通圖;所述原始連通圖中的每一個節(jié)點表征所述樣本集合中的一個樣本,所述原始連通圖中的節(jié)點兩兩相連,所述原始連通圖中任意兩個節(jié)點之間邊的權(quán)重為該兩個節(jié)點所表征的兩個樣本的相似度;

生成所述原始連通圖的最小生成樹;

刪除所述最小生成樹中相似度最小的K-1條邊,得到K個子連通圖,K為聚類算法需要選擇的初始樣本的個數(shù);

從每一個所述子連通圖中的節(jié)點對應(yīng)的樣本中選擇一個樣本作為初始樣本。

本發(fā)明實施例用通過上述方法獲取的K個子連通圖模擬樣本的分布情況,因而從K個子連通圖中選擇的初始樣本更接近真實的聚類中心,基于本發(fā)明提供的初始樣本選擇方法選擇的初始樣本,克服了通過隨機選擇初始樣本點導(dǎo)致聚類算法的收斂速度慢、聚類效果差的問題。

上述方法,優(yōu)選的,所述從每一個所述子連通圖中的節(jié)點對應(yīng)的樣本中選擇一個樣本作為初始樣本,包括:

從每一個所述子連通圖中的節(jié)點對應(yīng)的樣本中,隨機選擇一個樣本作為初始樣本。

上述方法,優(yōu)選的,所述從每一個所述子連通圖中的節(jié)點對應(yīng)的樣本中選擇一個樣本作為初始樣本,包括:

對于所述子連通圖中的節(jié)點對應(yīng)的樣本中的每一個樣本,將該樣本到所述子連通圖中的節(jié)點對應(yīng)的樣本中的其它樣本之間的相似度求和,得到與該樣本對應(yīng)的求和結(jié)果;

選擇與最大求和結(jié)果對應(yīng)的樣本作為初始樣本。

與前一實施例相比,本實施例所選擇的初始樣本更加接近真實的聚類中心。

上述方法,優(yōu)選的,所述生成所述原始連通圖的最小生成樹,包括:

從所述樣本集合中選擇一個樣本作為所述最小生成樹的初始節(jié)點;

將所述樣本集合中未加入所述最小生成樹的樣本依次加入所述最小生成樹,包括:每次將一個樣本加入所述最小生成樹之后,獲取每一個未加入所述最小生成樹的樣本,與已加入所述最小生成樹中的各個樣本之間的相似度;確定最大相似度;將該最大相似度對應(yīng)的一個未加入所述最小生成樹的樣本與該最大相似度對應(yīng)的已加入所述最小生成樹的樣本相連,直至所有樣本均加入到所述最小生成樹。

上述方法,優(yōu)選的,所述生成所述原始連通圖的最小生成樹,包括:

按照兩兩樣本之間的相似度從大到小的順序,依次將滿足預(yù)設(shè)條件的兩個樣本相連,直至所述樣本集合中的每一個樣本均與所述樣本集合中的至少一個其它樣本相連;

其中,兩個樣本滿足預(yù)設(shè)條件包括:所述兩個樣本相連后,所有已連接的樣本未構(gòu)成任何回路。

一種初始樣本選擇裝置,包括:

構(gòu)建模塊,用于構(gòu)建樣本集合中樣本的原始連通圖;所述原始連通圖中的每一個節(jié)點表征所述樣本集合中的一個樣本,所述原始連通圖中的節(jié)點兩兩相連,所述原始連通圖中任意兩個節(jié)點之間邊的權(quán)重為該兩個節(jié)點所表征的兩個樣本的相似度;

生成模塊,用于生成所述原始連通圖的最小生成樹;

刪除模塊,用于刪除所述最小生成樹中相似度最小的K-1條邊,得到K個子連通圖,K為聚類算法需要選擇的初始樣本的個數(shù);

選擇模塊,用于從每一個所述子連通圖中的節(jié)點對應(yīng)的樣本中選擇一個樣本作為初始樣本。

本發(fā)明實施例用通過上述裝置獲取的K個子連通圖模擬樣本的分布情況,因而從K個子連通圖中選擇的初始樣本更接近真實的聚類中心,基于本發(fā)明提供的初始樣本選擇裝置選擇的初始樣本,克服了通過隨機選擇初始樣本點導(dǎo)致聚類算法的收斂速度慢、聚類效果差的問題。

上述裝置,優(yōu)選的,所述選擇模塊包括:

第一選擇單元,用于從每一個所述子連通圖中的節(jié)點對應(yīng)的樣本中,隨機選擇一個樣本作為初始樣本。

上述裝置,優(yōu)選的,所述選擇模塊包括:

計算單元,用于對于所述子連通圖中的節(jié)點對應(yīng)的樣本中的每一個樣本,將該樣本到所述子連通圖中的節(jié)點對應(yīng)的樣本中的其它樣本之間的相似度求和,得到與該樣本對應(yīng)的求和結(jié)果;

第二選擇單元,用于選擇與最大求和結(jié)果對應(yīng)的樣本作為初始樣本。

與前一實施例相比,本實施例所選擇的初始樣本更加接近真實的聚類中心。

上述裝置,優(yōu)選的,所述生成模塊包括:

初始節(jié)點選擇單元,用于從所述樣本集合中選擇一個樣本作為所述最小生成樹的初始節(jié)點;

第一生成單元,用于將所述樣本集合中未加入所述最小生成樹的樣本依次加入所述最小生成樹,包括:每次將一個樣本加入所述最小生成樹之后,獲取每一個未加入所述最小生成樹的樣本,與已加入所述最小生成樹中的各個樣本之間的相似度;確定最大相似度;將該最大相似度對應(yīng)的一個未加入所述最小生成樹的樣本與該最大相似度對應(yīng)的已加入所述最小生成樹的樣本相連,直至所有樣本均加入到所述最小生成樹。

上述裝置,優(yōu)選的,所述生成模塊包括:

第二生成單元,用于按照兩兩樣本之間的相似度從大到小的順序,依次將滿足預(yù)設(shè)條件的兩個樣本相連,直至所述樣本集合中的每一個樣本均與所述樣本集合中的至少一個其它樣本相連;

其中,兩個樣本滿足預(yù)設(shè)條件包括:所述兩個樣本相連后,所有已連接的樣本未構(gòu)成任何回路。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實施提供的初始樣本選擇方法的一種實現(xiàn)流程圖;

圖2為本發(fā)明實施提供的原始連通圖的一種示例圖;

圖3a-3b為本發(fā)明實施提供的圖2所示原始連通圖的連通子圖的兩種示例圖;

圖4a-4b為本發(fā)明實施提供的非連通子圖的兩種示例圖;

圖5為本發(fā)明實施提供的圖2所示原始連通圖的最小生成樹的示例圖;

圖6為本發(fā)明實施提供的將圖5所示最小生成樹刪除兩條邊后的實示例圖;

圖7為本發(fā)明實施提供的從每一個子連通圖中的樣本中選擇一個樣本作為初始樣本的一種實現(xiàn)流程圖;

圖8為本發(fā)明實施提供的圖2所示原始連通圖中各個邊的權(quán)重的示例圖;

圖9為本發(fā)明實施提供的生成最小生成樹的一種過程示意圖;

圖10為本發(fā)明實施提供的生成最小生成樹的另一種過程示意圖;

圖11為本發(fā)明實施提供的初始樣本選擇裝置的一種結(jié)構(gòu)示意圖。

說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”、“第三”“第四”等(如果存在)是用于區(qū)別類似的部分,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本申請的實施例能夠以除了在這里圖示的以外的順序?qū)嵤?/p>

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有付出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

本發(fā)明實施例提供的初始樣本選擇方法及裝置,可以用于需要選擇多個初始樣本的聚類算法,如基于劃分法的聚類算法。其中,基于劃分法的聚類算法可以包括但不限于以下幾種:K-Means算法(也叫K-均值算法)或K-Medoids算法(也叫K-中心算法)或CLARANS算法。

請參閱圖1,圖1為本發(fā)明實施提供的初始樣本選擇方法的一種實現(xiàn)流程圖,可以包括:

步驟S11:構(gòu)建樣本集合中樣本的原始連通圖,該原始連通圖中的每一個節(jié)點表征樣本集合中的一個樣本,原始連通圖中的節(jié)點兩兩相連,原始連通圖中任意兩個節(jié)點之間邊的權(quán)重為該兩個節(jié)點所表征的兩個樣本的相似度;

樣本集合即聚類算法的處理對象,也就是說,通過聚類算法對樣本集合中的樣本進行聚類。若樣本集合中有N個樣本,則原始連通圖中共有N個節(jié)點,N(N-1)/2條邊。

任意兩個樣本之間的相似度可以用該兩個樣本之間的歐式距離表征。兩個樣本之間的歐式距離越小,表示該兩個樣本之間的相似度越大;兩個樣本之間的歐氏距離越大,表示該兩個樣本之間的相似度越小。

如圖2所示,圖2為本發(fā)明實施例提供的原始連通圖的一種示例圖。本示例中,假設(shè)樣本集合中共有6個樣本。需要說明的是,這里的樣本數(shù)只是用于示例性說明,在實際應(yīng)用中,樣本集合中的樣本的數(shù)量是遠遠大于6的。

步驟S12:生成上述原始連通圖的最小生成樹;

最小生成樹中的節(jié)點數(shù)與原始連通圖中的節(jié)點數(shù)相同。

一個原始連通圖可以對應(yīng)多個連通子圖,其中,每個連通子圖中節(jié)點的個數(shù)與原始連通圖中節(jié)點的個數(shù)相同,每個連通子圖中邊的條數(shù)小于原始連通圖中邊的條數(shù),且每一個節(jié)點都可以通過一定路徑到達其它任何一個節(jié)點。如圖3a-3b所示,為本發(fā)明實施例提供的圖2所示原始連通圖的連通子圖的兩種示例圖。如圖4a-4b所示,為本發(fā)明實施例提供的非連通子圖的兩種示例圖。即圖4a-4b所示的圖不是圖2所示原始連通圖的連通子圖。

而最小生成樹,是原始連通圖對應(yīng)的所有連通子圖中,邊數(shù)最少,且邊的權(quán)重和最大(即相似度之和最大)的一個連通子圖。邊的權(quán)重和最大是指在邊數(shù)最少的多個連通子圖中,邊的權(quán)重和最大。例如,假設(shè)連通子圖的邊數(shù)為m時,連通子圖的邊數(shù)最小,則上述邊數(shù)最少,且邊的權(quán)重和最大的那個連通子圖即為:邊數(shù)為m的連通子圖中,權(quán)重和最大的一個連通子圖。

步驟S13:刪除上述最小生成樹中相似度最小的K-1條邊,得到K個子連通圖,K為聚類算法需要選擇的初始樣本的個數(shù);

本發(fā)明實施例中,通過刪除K-1條邊的方式將最小生成樹分割成K個子連通圖,顯然,每個子連通圖中節(jié)點的個數(shù)小于最小生成樹中節(jié)點的個數(shù)。在刪除上述K-1條邊時,只是將節(jié)點之間的連接關(guān)系斷開,而并沒有刪除邊所連接的兩個節(jié)點,因此,上述K個子連通圖的節(jié)點數(shù)之和等于上述最小生成樹中的節(jié)點數(shù)。

該K個子連通圖模擬了樣本集合中樣本的分布情況。

還以圖2所示原始連通圖為例,假設(shè)圖2所示原始連通圖的最小生成樹為圖5所示連通子圖,共6個節(jié)點,5條邊;假設(shè)聚類算法需要選擇3個初始樣本;假設(shè)圖2中,節(jié)點1和3之間的邊,以及節(jié)點1和2之間的邊為5條邊中相似度最小的兩條邊,則將該兩條邊刪除后的示例圖如圖6所示。刪除上述兩條邊后,圖5所示最小生成樹被分割為三個子連通圖,其中,節(jié)點1構(gòu)成一個子連通圖,節(jié)點3和節(jié)點5構(gòu)成一個子連通圖,節(jié)點2,節(jié)點4和節(jié)點6構(gòu)成一個子連通圖。

步驟S14:從每一個子連通圖中的節(jié)點對應(yīng)的樣本中選擇一個樣本作為初始樣本。

從每個子連通圖中的節(jié)點對應(yīng)的樣本中選擇一個樣本,獲取K個初始樣本。

在一可選的實施例中,可以從每一個子連通圖中的節(jié)點對應(yīng)的樣本中隨機選擇一個樣本作為初始樣本。

以圖6所示示例圖為例,節(jié)點1自己構(gòu)成一個子連通圖,則節(jié)點1對應(yīng)的樣本被選為一個初始樣本;從節(jié)點3和節(jié)點5中隨機選擇一個樣本作為另一個初始樣本,從節(jié)點2,節(jié)點4和節(jié)點6中隨機選擇一個樣本作為又一個初始樣本。

本發(fā)明實施例提供的初始樣本選擇方法,構(gòu)建樣本集合中樣本的原始連通圖,生成該原始連通圖的最小生成樹,根據(jù)聚類算法需要選擇的初始樣本個數(shù)K,以及樣本之間的相似度,將最小生成樹分割成K個子連通圖,從每個子連通圖中選擇一個樣本作為初始樣本。本發(fā)明實施例提供的初始樣本選擇方法,用通過上述方法獲取的K個子連通圖模擬樣本的分布情況,因而從K個子連通圖中選擇的初始樣本更接近真實的聚類中心,基于本發(fā)明提供的初始樣本選擇方法選擇的初始樣本,克服了通過隨機選擇初始樣本點導(dǎo)致聚類算法的收斂速度慢、聚類效果差的問題。

在一可選的實施例中,從每一個子連通圖中的節(jié)點對應(yīng)的樣本中選擇一個樣本作為初始樣本的一種實現(xiàn)流程圖如圖7所示,可以包括:

步驟S71:對于子連通圖中的節(jié)點對應(yīng)的樣本中的每一個樣本,將該樣本到子連通圖中的節(jié)點對應(yīng)的樣本中的其它樣本之間的相似度求和,得到與該樣本對應(yīng)的求和結(jié)果;

步驟S72:選擇與最大求和結(jié)果對應(yīng)的樣本作為初始樣本。

需要說明的是,這里所說的求和結(jié)果最大,是指求和結(jié)果表征的相似度最大。

本發(fā)明實施例中,對于子連通圖中包括至少3個節(jié)點的子連通圖,可以通過圖7所示實施例選擇初始樣本。

對于只包括一個節(jié)點的子連通圖,直接將該子連通圖包含的節(jié)點對應(yīng)的樣本選為初始樣本;

對于只包括兩個節(jié)點的子連通圖,則從該子連通圖包含的兩個節(jié)點對應(yīng)的兩個樣本中隨機選擇一個樣本作為初始樣本。

對于包括至少三個節(jié)點的子連通圖,可以基于圖7所示實施例選擇初始樣本。以圖6所示包括2,4,6三個節(jié)點的子連通圖為例,為便于敘述,將節(jié)點2對應(yīng)的樣本記為樣本2,將節(jié)點4對應(yīng)的樣本記為樣本4,將節(jié)點6對應(yīng)的樣本記為樣本6,則從這三個樣本中選擇初始樣本的過程為:計算樣本2與樣本4之間的相似度s24,以及樣本2與樣本6之間的相似度s26之和,得到與樣本2對應(yīng)的求和結(jié)果s2,s2=s24+s26;計算樣本4與樣本2之間的相似度s42,以及樣本4與樣本6之間的相似度s46之和,得到與樣本4對應(yīng)的求和結(jié)果s4,s4=s42+s46;計算樣本6與樣本2之間的相似度s62,以及樣本6與樣本4之間的相似度s64之和,得到與樣本6對應(yīng)的求和結(jié)果s6,s6=s62+s64;從s2,s4和s6中確定最大值,假設(shè)為s4,則選擇樣本4作為一個初始樣本。

在一可選的實施例中,生成原始連通圖的最小生成樹的一種實現(xiàn)方式可以為:

從樣本集合中選擇一個樣本作為所述最小生成樹的初始節(jié)點。可以從樣本集合中任意選擇一個樣本作為最小生成樹的初始節(jié)點。

將樣本集合中未加入最小生成樹的樣本依次加入最小生成樹,包括:每次將一個樣本加入最小生成樹之后,獲取每一個未加入最小生成樹的樣本,與已加入最小生成樹中的各個樣本之間的相似度;確定最大相似度;將該最大相似度對應(yīng)的一個未加入最小生成樹的樣本與該最大相似度對應(yīng)的已加入最小生成樹的樣本相連,直至所有樣本均加入到最小生成樹。

為了便于說明,假設(shè)圖2所示原始連通圖中各個邊的權(quán)重(即節(jié)點間的相似度)如圖8所示。圖8中,節(jié)點之間的相似度用歐式距離表征。則權(quán)重越小表征相似度越大。顯然,在圖8中,節(jié)點1與節(jié)點3之間的歐式距離為1,且最小,則節(jié)點1表征的樣本點與節(jié)點3表征的樣本點之間的相似度最大。假設(shè)將圖8中節(jié)點1作為最小生成樹的最小節(jié)點,則生成最小生成樹的過程示意圖如圖9所示:

從2、3、4、5、6五個節(jié)點中選擇與節(jié)點1之間的距離最小(即相似度最大)的節(jié)點,顯然節(jié)點3與節(jié)點1之間的距離最小,則將節(jié)點3與節(jié)點1相連;

然后從2、4、5、6四個節(jié)點中選擇與節(jié)點1、3之間的距離最小(即相似度最大)的節(jié)點,顯然節(jié)點2與節(jié)點3之間的距離,以及節(jié)點5與節(jié)點1之間的距離最小,均為2,則從節(jié)點2和節(jié)點5中隨機選擇一個節(jié)點,若選擇節(jié)點2,則將節(jié)點2與節(jié)點3相連,若選擇節(jié)點5,則將節(jié)點5與節(jié)點1相連,假設(shè)這里選擇了節(jié)點2。其中,從2、4、5、6四個節(jié)點中選擇與節(jié)點1、3之間的距離最小的節(jié)點時,所計算的距離包括:節(jié)點2與節(jié)點1之間的距離,節(jié)點2與節(jié)點3之間的距離,節(jié)點4與節(jié)點1之間的距離,節(jié)點4與節(jié)點3之間的距離,節(jié)點5與節(jié)點1之間的距離,節(jié)點5與節(jié)點3之間的距離,節(jié)點6與節(jié)點1之間的距離,節(jié)點6與節(jié)點3之間的距離,然后從上述8個距離中選擇最小距離。

然后從節(jié)點4、5、6三個節(jié)點中選擇與節(jié)點1、2、3之間的距離最小(即相似度最大)的節(jié)點,顯然節(jié)點5與節(jié)點1之間的距離最小,為2,則將節(jié)點5與節(jié)點1相連;

然后,從節(jié)點4和6兩個節(jié)點中選擇與節(jié)點1、2、3、5之間的距離最小的節(jié)點,顯然,節(jié)點4與節(jié)點3之間的距離,以及節(jié)點6與節(jié)點1之間的距離均為3,且最小,則從節(jié)點4和6中隨機選擇一個節(jié)點,若選擇節(jié)點4,則將節(jié)點4與節(jié)點3相連,若選擇節(jié)點6,則將節(jié)點6與節(jié)點1相連,假設(shè)這里選擇了節(jié)點6;

最后計算節(jié)點4到節(jié)點1、2、3、5、6之間的距離,選擇與節(jié)點4之間的距離最小節(jié)點,顯然,節(jié)點4與節(jié)點3之間的距離最小,則將節(jié)點4與節(jié)點3相連。至此,所有樣本均已加入最小生成樹。

在一可選的實施例中,生成原始連通圖的最小生成樹的另一種實現(xiàn)方式可以為:

按照兩兩樣本之間的相似度從大到小的順序,依次將滿足預(yù)設(shè)條件的兩個樣本相連,直至所述樣本集合中的每一個樣本均與所述樣本集合中的至少一個其它樣本相連;

其中,兩個樣本滿足預(yù)設(shè)條件包括:兩個樣本相連后,所有已連接的樣本未構(gòu)成任何回路。

還以圖8為例,由于圖8中用歐式距離表征樣本之間的相似度,因此本示例中,按照兩兩樣本之間的歐式距離從小到大的順序,依次將滿足預(yù)設(shè)條件的兩個樣本相連,直至樣本集合中的每一個樣本均與所述樣本集合中的至少一個其它樣本相連;具體生成最小生成樹的過程示意圖如圖10所示:

由于節(jié)點1和節(jié)點3之間的歐氏距離最小,因此,首先將節(jié)點1和節(jié)點3相連;

然后選擇歐式距離為2的邊對應(yīng)的節(jié)點,顯然,節(jié)點1和節(jié)點5之間的歐式距離,以及節(jié)點2和節(jié)點3之間的歐式距離均為2,由于任意一組節(jié)點相連后,均不會出現(xiàn)回路,因此隨機從中選擇一組節(jié)點相連,假設(shè)選擇了節(jié)點1和節(jié)點5相連;

然后,選擇歐式距離為3的邊對應(yīng)的節(jié)點,顯然,節(jié)點1與節(jié)點6之間的歐式距離,節(jié)點2與節(jié)點5之間的歐式距離,以及節(jié)點3與節(jié)點4之間的歐式距離均為3,由于任意一組節(jié)點相連后,均不會出現(xiàn)回路,因此隨機從中選擇一組節(jié)點相連,假設(shè)選擇了節(jié)點2和節(jié)點5相連;

然后,選擇選擇歐式距離為4的邊對應(yīng)的節(jié)點,顯然,節(jié)點1與節(jié)點4之間的歐式距離,節(jié)點2與節(jié)點6之間的歐式距離,節(jié)點3與節(jié)點6之間的歐式距離,以及節(jié)點4與節(jié)點5之間歐式距離均為4,由于任意一組節(jié)點相連后,均不會出現(xiàn)回路,因此隨機從中選擇一組節(jié)點相連,假設(shè)選擇了節(jié)點2和節(jié)點6相連;

然后,選擇選擇歐式距離為5的邊對應(yīng)的節(jié)點,顯然,節(jié)點1與節(jié)點2之間的歐式距離,節(jié)點2與節(jié)點4之間的歐式距離,節(jié)點3與節(jié)點5之間的歐式距離,以及節(jié)點4與節(jié)點6之間歐式距離,以及節(jié)點5與節(jié)點6之間的歐式距離均為5,由于節(jié)點1與節(jié)點2相連后,節(jié)點1、節(jié)點2和節(jié)點5會構(gòu)成回路,節(jié)點3與節(jié)點5相連后,節(jié)點1、節(jié)點3和節(jié)點5也會構(gòu)成回路,節(jié)點5和節(jié)點6相連后,也會構(gòu)成回來,因此只能從節(jié)點2和4,以及節(jié)點4和6中選擇選擇一組節(jié)點相連,假設(shè)選擇了節(jié)點4和節(jié)點6相連;至此,所有樣本均已加入最小生成樹。

與方法實施例相對應(yīng),本發(fā)明實施例還提供一種初始樣本選擇裝置。本發(fā)明實施例提供的初始樣本選擇裝置的一種結(jié)構(gòu)示意圖如圖11所示,可以包括:

構(gòu)建模塊111,生成模塊112,刪除模塊113和選擇模塊114;其中,

構(gòu)建模塊111用于構(gòu)建樣本集合中樣本的原始連通圖;該原始連通圖中的每一個節(jié)點表征樣本集合中的一個樣本,原始連通圖中的節(jié)點兩兩相連,原始連通圖中任意兩個節(jié)點之間邊的權(quán)重為該兩個節(jié)點所表征的兩個樣本的相似度;

生成模塊112用于生成原始連通圖的最小生成樹;

刪除模塊113用于刪除最小生成樹中相似度最小的K-1條邊,得到K個子連通圖,K為聚類算法需要選擇的初始樣本的個數(shù);

選擇模塊114用于從每一個子連通圖中的節(jié)點對應(yīng)的樣本中選擇一個樣本作為初始樣本。

本發(fā)明實施例提供的初始樣本選擇裝置,構(gòu)建樣本集合中樣本的原始連通圖,生成該原始連通圖的最小生成樹,根據(jù)聚類算法需要選擇的初始樣本個數(shù)K,以及樣本之間的相似度,將最小生成樹分割成K個子連通圖,從每個子連通圖中選擇一個樣本作為初始樣本。本發(fā)明實施例提供的初始樣本選擇裝置,用通過上述方法獲取的K個子連通圖模擬數(shù)據(jù)的分布情況,因而從K個子連通圖中選擇的初始樣本更接近真實的聚類中心,基于本發(fā)明提供的初始樣本選擇裝置選擇的初始樣本,克服了通過隨機選擇初始樣本點導(dǎo)致聚類算法的收斂速度慢、聚類效果差的問題。

在一可選的實施例中,選擇模塊114可以包括:

第一選擇單元,用于從每一個子連通圖中的節(jié)點對應(yīng)的樣本中,隨機選擇一個樣本作為初始樣本。

在一可選的實施例中,選擇模塊114可以包括:

計算單元,用于對于子連通圖中的節(jié)點對應(yīng)的樣本中的每一個樣本,將該樣本到子連通圖中的節(jié)點對應(yīng)的樣本中的其它樣本之間的相似度求和,得到與該樣本對應(yīng)的求和結(jié)果;

第二選擇單元,用于選擇與最大求和結(jié)果對應(yīng)的樣本作為初始樣本。

在一可選的實施例中,生成模塊112可以包括:

初始節(jié)點選擇單元,用于從樣本集合中選擇一個樣本作為最小生成樹的初始節(jié)點;

第一生成單元,用于將樣本集合中未加入最小生成樹的樣本依次加入最小生成樹,包括:每次將一個樣本加入最小生成樹之后,獲取每一個未加入最小生成樹的樣本,與已加入最小生成樹中的各個樣本之間的相似度;確定最大相似度;將該最大相似度對應(yīng)的一個未加入最小生成樹的樣本與該最大相似度對應(yīng)的已加入最小生成樹的樣本相連,直至所有樣本均加入到最小生成樹。

在一可選的實施例中,生成模塊112可以包括:

第二生成單元,用于按照兩兩樣本之間的相似度從大到小的順序,依次將滿足預(yù)設(shè)條件的兩個樣本相連,直至樣本集合中的每一個樣本均與樣本集合中的至少一個其它樣本相連;

其中,兩個樣本滿足預(yù)設(shè)條件包括:兩個樣本相連后,所有已連接的樣本未構(gòu)成任何回路。

本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結(jié)合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認為超出本發(fā)明的范圍。

所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng)(若存在)、裝置和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。

在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。

另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。

所述功能如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1