基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法

文檔序號(hào)：10594613閱讀：1416來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法
【專利摘要】本發(fā)明公開了基于并行k?means聚類的三維結(jié)構(gòu)相似性聚類方法，包括以下幾步：初始化K個(gè)聚類中心，分割本地?cái)?shù)據(jù)；數(shù)據(jù)集分別得到各自對(duì)應(yīng)的k?means；并行T個(gè)k?means獲得聚類結(jié)果集，在最優(yōu)疊加后，對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的三維結(jié)構(gòu)相似度進(jìn)行度量，獲得模型結(jié)構(gòu)與天然結(jié)構(gòu)的相似性關(guān)系；合并T個(gè)k?means結(jié)果集，獲得候選集對(duì)應(yīng)的聚類矩陣V；將步驟四中獲得的結(jié)果集V分割；更新K個(gè)聚類集中心；判斷是否滿足終止條件，如果是進(jìn)行下一步，如果否返回第一步；輸出結(jié)果集C1……Ci……Ck。本發(fā)明的方法解決了三維結(jié)構(gòu)相似性聚類中計(jì)算耗時(shí)和數(shù)據(jù)量大的問(wèn)題。
【專利說(shuō)明】
基于并行k-means聚類的H維結(jié)構(gòu)相似性聚類方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及=維結(jié)構(gòu)相似性聚類領(lǐng)域，尤其是蛋白=維結(jié)構(gòu)相似性聚類，具體設(shè) 及基于并行k-means聚類的S維結(jié)構(gòu)相似性聚類方法。
【背景技術(shù)】
[0002] 依據(jù)=維結(jié)構(gòu)相似性進(jìn)行聚類是指在=維空間中，W兩組點(diǎn)集合的=維相似性為距離，進(jìn)行相似性聚類，期待結(jié)構(gòu)相近的聚成類，在材料、生物、工程中都有廣泛的應(yīng)用。其中在生物領(lǐng)域的典型應(yīng)用是蛋白質(zhì)=維結(jié)構(gòu)聚類，運(yùn)是在蛋白質(zhì)=維結(jié)構(gòu)預(yù)測(cè)，功能和交互預(yù)測(cè)中的一個(gè)重要步驟。在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法中，蛋白質(zhì)結(jié)構(gòu)聚類的任務(wù)是基于=維結(jié)構(gòu)的相似聚類算法，從自由建?；蚰０褰Ｉ傻拇笠?guī)模的候選集中選擇最好的近天然構(gòu)象。RMSD和TM-S cor e是當(dāng)前衡量=維結(jié)構(gòu)候選對(duì)象相識(shí)度的兩個(gè)通用的標(biāo)準(zhǔn)。
[0003] Z Yang，S Jef打巧開發(fā)了SPICK邸算法，它是一種通過(guò)聚類分析來(lái)識(shí)別近天然構(gòu) 象的簡(jiǎn)單有效策略。在SPICK邸中，聚類是使用一組收縮規(guī)模大小的單步執(zhí)行過(guò)程，而且候選構(gòu)象對(duì)之間結(jié)構(gòu)相似性闊值在迭代過(guò)程中動(dòng)態(tài)調(diào)整。在標(biāo)記一組1489個(gè)非同源的蛋白質(zhì) 后，運(yùn)就表示在蛋白質(zhì)資料庫(kù)(PDB)中的所有的蛋白質(zhì)結(jié)構(gòu)擁有超過(guò)200個(gè)殘留物。Clusco 是為比較高通量蛋白質(zhì)的模型而開發(fā)的軟件，它使用了不同的計(jì)算相似性的策略（cRMSD dRMSD,GDT TS、TM-Score MaxSub,Con1:act Map Overlap),同時(shí)它也用k-means聚類或合成聚類的標(biāo)準(zhǔn)方法來(lái)比較結(jié)果的聚類。運(yùn)個(gè)應(yīng)用程序是高度優(yōu)化，它使用C/C++進(jìn)行編寫，包括CPU和GPU并行執(zhí)行的代碼部分，運(yùn)使得當(dāng)前程序遠(yuǎn)遠(yuǎn)快于其他相似的聚類和得分估算程序。B Francois,S Rojan,Z Yong,S David和KYJ Zhang提出了一種快速的方法，它即使在大規(guī)模的候選集中也有可W起作用。該方法應(yīng)用在一個(gè)叫作Duranda 1的軟件中。Duranda 1 已被證明始終比其他快速準(zhǔn)確的聚類軟件更快。在某些情況下，Durandal甚至可W比一個(gè) 近似計(jì)算方法更快。Durandal在不影響功能的距離情況下，利用S角不等式加速精確聚類速度。
[0004] 在目前常用的=維結(jié)構(gòu)聚類算法中，存在兩個(gè)問(wèn)題制約著算法的效率。第一，候選集中包含大量的候選模型，在10K-100K之間。所W如何處理內(nèi)存溢出和耗時(shí)的任務(wù)已成為一個(gè)緊迫的問(wèn)題。W-個(gè)含有50K候選模型的候選集為例，如果每個(gè)浮點(diǎn)型數(shù)據(jù)占4字節(jié)，那么運(yùn)個(gè)算法將需要5*104*5*104*4 = 25*1010(23巧U字節(jié)的內(nèi)存來(lái)存儲(chǔ)矩陣的距離。另一個(gè)問(wèn)題是如何精確地度量?jī)煞N蛋白質(zhì)的相似性。RMSD和TM-score是兩個(gè)廣泛運(yùn)用衡量蛋白質(zhì)相識(shí)度的策略。但是由于它們?cè)诰植拷Y(jié)構(gòu)和整體結(jié)構(gòu)有不同的側(cè)重點(diǎn)，所W我們很難區(qū) 分哪一個(gè)是衡量蛋白質(zhì)相似的最佳度量。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的W上問(wèn)題，提供一種基于并行k-means聚類的=維結(jié)構(gòu)相似性聚類方法，本發(fā)明的方法解決了=維結(jié)構(gòu)相似性聚類中計(jì)算耗時(shí)和數(shù) 據(jù)量大的問(wèn)題。
[0006] 為實(shí)現(xiàn)上述技術(shù)目的，達(dá)到上述技術(shù)效果，本發(fā)明通過(guò)W下技術(shù)方案實(shí)現(xiàn)：
[0007] 一種基于并行k-means聚類的S維結(jié)構(gòu)相似性聚類方法，包括W下幾步：
[0008] 步驟一:初始化K個(gè)聚類中屯、，分割本地?cái)?shù)據(jù)，獲得1號(hào)數(shù)據(jù)集、2號(hào)數(shù)據(jù)集、3號(hào)數(shù)據(jù) 集……i號(hào)數(shù)據(jù)集……T號(hào)數(shù)據(jù)集；
[0009] 步驟二：1號(hào)數(shù)據(jù)集、2號(hào)數(shù)據(jù)集、3號(hào)數(shù)據(jù)集……i號(hào)數(shù)據(jù)集……T號(hào)數(shù)據(jù)集分別用T 個(gè)獨(dú)立的k-means方法聚類；
[0010]步驟并行T個(gè)k-means獲得聚類結(jié)果集Cl……Ci……Ct,在最優(yōu)疊加后，對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的=維結(jié)構(gòu)相似度進(jìn)行度量，獲得模型結(jié)構(gòu)與天然結(jié)構(gòu)的相似性關(guān)系；
[00川步驟四：依據(jù)T組聚類中屯、的相似度，合并T個(gè)k-means結(jié)果集Cl……?！瑿t,若兩個(gè)簇中屯、相近，則合并此兩個(gè)簇中的所有數(shù)據(jù)，從而獲得本輪的結(jié)果集V;
[0012] 步驟五:在步驟四中獲得的結(jié)果集V中有K個(gè)聚類集，1號(hào)聚類集、2號(hào)聚類集、3號(hào)聚類集……i號(hào)聚類集……K號(hào)聚類集；
[0013] 步驟六:更新步驟五中的K個(gè)聚類集中屯、；
[0014] 步驟屯:判斷是否滿足終止條件，如果是進(jìn)行步驟八，如果否返回步驟一；
[0015] 步驟八:輸出結(jié)果集Cl……Ci……Ck;
[0016] 其中，T和K均為不大于100的正整數(shù)。
[0017] 在本發(fā)明的一個(gè)較佳實(shí)施例中，進(jìn)一步包括，步驟S中并行T個(gè)k-means聚類算法為：
[001 引 1'個(gè)1^-1116日]13聚類算法，]\0(-1116日]13(￥,6,1(,1'),
[0019] 輸入:V是N個(gè)候選集對(duì)應(yīng)的距離矩陣，E是候選集對(duì)應(yīng)的能量值集，K是聚類的數(shù) 量，k是聚類集的索引；
[0020] 輸出：聚類集合Cl……Ck, k為聚類的索引；
[0021 ]算法如下：
[0022] l：Initialize(V,K)；
[0023] 2:whilee< Ado
[0024] 3:^^Divide(V，E，T);
[0025] 4:for t = I to T do
[0026] 5:
[0027] 6: end for [002引 7:
[0029] 8:vK^Divide(V，E，K);
[0030] 9: for k = l to K do
[0031] 10: Ck^Update (yK，k);
[0032] 11: end for
[003；3] I;
[0034] 13:end while
[0035] Output: Cl..Cko
[0036] 在本發(fā)明的一個(gè)較佳實(shí)施例中，進(jìn)一步包括，步驟蘭中對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的 =維結(jié)構(gòu)相似度進(jìn)行度量的方法包括均方根偏差法，在最優(yōu)疊加后，模型結(jié)構(gòu)與天然結(jié)構(gòu) 的等效戶革方間-佈田+々古庶偏単肌KTVl巧價(jià)而本賊型之間的相似性.
[0037]
[0038] 其中，N是對(duì)應(yīng)的兩個(gè)蛋白質(zhì)i和j之間原子的數(shù)量，它們的坐標(biāo)分別是(xi，yi，zi) (xj,yj,zj)〇
[0039] 在本發(fā)明的一個(gè)較佳實(shí)施例中，進(jìn)一步包括，步驟=中對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的 =維結(jié)構(gòu)相似度進(jìn)行度景的方法包括模板建模評(píng)分法，模板建模評(píng)分函數(shù)TM-score:
[0040]
[0041] 其中，Ln是天然結(jié)構(gòu)的長(zhǎng)度，La是對(duì)齊的殘留模板結(jié)構(gòu)的長(zhǎng)度，di是第i對(duì)對(duì)齊的殘留物之間的距離，do是一個(gè)弱化相匹配物不同之處的衡量，Max是最優(yōu)空間疊加后的最大價(jià)值。
[0042] 在本發(fā)明的一個(gè)較佳實(shí)施例中，進(jìn)一步包括，在進(jìn)行步驟一初始化K個(gè)聚類中屯、之前進(jìn)行數(shù)據(jù)集準(zhǔn)備，采用I-TASS邸Set-I為基準(zhǔn)，I-TASS邸Set-I中含28組非同源蛋白質(zhì) 的原子結(jié)構(gòu)的候選集，它們骨架結(jié)構(gòu)由I-TASSER從頭建模生成，使用化Ichra添加側(cè)鏈原子。
[0043] 本發(fā)明的有益效果是：
[0044] 傳統(tǒng)的聚類方法在SPIK邸集上有基本相同的性能，但是，由MK-means標(biāo)識(shí)的聚類中屯、的蛋白質(zhì)模型優(yōu)于由SPICK邸標(biāo)識(shí)的蛋白質(zhì)模型，MK-means能夠很好地從28個(gè)蛋白質(zhì) 識(shí)別出19(67%)個(gè)蛋白質(zhì)，運(yùn)些蛋白質(zhì)模型比SPICKER選擇的蛋白質(zhì)模型更加相似于天然蛋白質(zhì)。并且，為了評(píng)估指定聚類方法整體性能，Z-score方程式被用來(lái)計(jì)算最小RMSD和第一個(gè)聚類質(zhì)屯、的RMSD之間的均方根偏差。對(duì)于MK-means來(lái)說(shuō)，Z-score計(jì)算的結(jié)果是2.98，它將SPICK邸的Z-score值3.74下降了20.3%。
[0045] 從頭預(yù)測(cè)方法的結(jié)構(gòu)異構(gòu)性與模板建模生成的新的種群，導(dǎo)致不同數(shù)據(jù)集的局部相似度差異性較大。運(yùn)些局部相似性通過(guò)他們對(duì)整體相似性度量的貢獻(xiàn)來(lái)檢測(cè)。多重聚類使用多個(gè)k-means模型檢測(cè)在兩個(gè)集群成員之間的最大距離，W確定哪些集群加入。運(yùn)更有利于形成更多的發(fā)散最終有共同不一致有預(yù)測(cè)地方特色聚類模型。同樣地，把提升聚類精確度的改進(jìn)歸功于使用并行k-means方法，從而能更好地發(fā)覺整體度量上共享的局部相似點(diǎn)的細(xì)微影響，因此，本發(fā)明的方法，在立維結(jié)構(gòu)相似性聚類中，減少了內(nèi)存和時(shí)間的消耗。
[0046] 上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，并可依照說(shuō)明書的內(nèi)容予W實(shí)施，W下W本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說(shuō)明如后。本發(fā)明的【具體實(shí)施方式】由W下實(shí)施例及其附圖詳細(xì)給出。
【附圖說(shuō)明】
[0047] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí) 施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可W根據(jù)運(yùn)些附圖獲得其他的附圖。
[0048] 圖I是本發(fā)明的方法流程圖；
[0049] 圖2是本發(fā)明Z-score方程式計(jì)算結(jié)果對(duì)比圖。
【具體實(shí)施方式】
[0050] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；?本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0化1 ]實(shí)施例
[0052]本實(shí)施例中公開了一種基于并行k-means聚類的S維結(jié)構(gòu)相似性聚類方法，包括 W下步驟：
[00對(duì)（一)數(shù)據(jù)集準(zhǔn)備
[0054] 在本實(shí)施例中，采用I-TASS邸Set-I為基準(zhǔn)，I-TASSER Set-I中含28組非同源蛋白質(zhì)的原子結(jié)構(gòu)的候選集，它們骨架結(jié)構(gòu)由I-TASSER從頭建模生成，使用化Ichra添加側(cè)鏈原子。
[0055]如表1中所示，數(shù)據(jù)集的摘要信息(表2中的28個(gè)的平均值）
[0化6]
[0057] (二)基于并行k-means聚類的S維結(jié)構(gòu)相似性聚類方法，如圖1中所示，具體步驟如下：
[0058] 步驟一:初始化K個(gè)聚類中屯、，分割本地?cái)?shù)據(jù)，獲得1號(hào)數(shù)據(jù)集、2號(hào)數(shù)據(jù)集、3號(hào)數(shù)據(jù) 集……i號(hào)數(shù)據(jù)集……T號(hào)數(shù)據(jù)集。
[0059] 步驟二：1號(hào)數(shù)據(jù)集、2號(hào)數(shù)據(jù)集、3號(hào)數(shù)據(jù)集……i號(hào)數(shù)據(jù)集……T號(hào)數(shù)據(jù)集分別用T 個(gè)獨(dú)立的k-means方法聚類。
[0060] 步驟S:并行T個(gè)k-means獲得聚類結(jié)果集Cl……?！瑿t,在最優(yōu)疊加后，對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的=維結(jié)構(gòu)相似度進(jìn)行度量，獲得模型結(jié)構(gòu)與天然結(jié)構(gòu)的相似性關(guān)系。 [0061 ]步驟四：依據(jù)T組聚類中屯、的相似度，合并T個(gè)k-means結(jié)果集Cl……Ci……Ct,若兩個(gè)簇中屯、相近，則合并此兩個(gè)簇中的所有數(shù)據(jù)，從而獲得本輪的結(jié)果集V。
[0062] 步驟五:在步驟四中獲得的結(jié)果集V中有K個(gè)聚類集，1號(hào)聚類集、2號(hào)聚類集、3號(hào)聚類集……i號(hào)聚類集……K號(hào)聚類集。
[0063] 步驟六:更新步驟五中的K個(gè)聚類集中屯、。
[0064] 步驟屯:判斷是否滿足終止條件，如果是進(jìn)行步驟八，如果否返回步驟一。
[00化]步驟八:輸出結(jié)果集Cl……Ci……Ck。
[0066] 其中，T和K均為不大于100的正整數(shù)。
[0067] 步驟=中對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的=維結(jié)構(gòu)相似度進(jìn)行度量的方法有兩種，（1) 均方根偏差法，在最優(yōu)疊加后，模型結(jié)構(gòu)與天然結(jié)構(gòu)的等效原子之間，使用均方根偏差RMSD 評(píng)價(jià)兩個(gè)模型之間的相似性；
[006引
[0069] 其中，N是對(duì)應(yīng)的兩個(gè)蛋白質(zhì)i和j之間原子的數(shù)量，它們的坐標(biāo)分別是(X i，y i，Z i) (xj,yj,zj)〇
[0070] (2)模板建模評(píng)分法：
[0071] 由于RMSD是獨(dú)立的，它不足W全面地估計(jì)兩種蛋白質(zhì)的相似性，因?yàn)槭褂貌煌?方法得到的對(duì)齊覆蓋率也是迴然不同的。顯而易見，擁有一個(gè)2 Armsd且相對(duì)于天然結(jié)構(gòu) 有對(duì)齊覆蓋率50%的模板并不一定比一個(gè)3 Armsd且有80%的覆蓋率結(jié)構(gòu)更好。而運(yùn)個(gè)對(duì) 齊地區(qū)的模板比之前的更好，因?yàn)楦俚臍埩羰菍?duì)對(duì)齊的，生成的完整的模型的可能有較差的質(zhì)量。模板建模評(píng)分(TM-score)函數(shù)是一個(gè)變化的Levitt-Gerstein(LG)得分，它第一次使用順序獨(dú)立結(jié)構(gòu)調(diào)整。模板建模評(píng)分函數(shù)TM-score:
[0072]
(2)
[0073] 其中，Ln是天然結(jié)構(gòu)的長(zhǎng)度，La是對(duì)齊的殘留模板結(jié)構(gòu)的長(zhǎng)度，di是第i對(duì)對(duì)齊的殘留物之間的距離，do是一個(gè)弱化相匹配物不同之處的衡量，Max是最優(yōu)空間疊加后的最大價(jià)值。
[0074] (二)算法；
[0075] 經(jīng)典單k-means聚類算法包括平均步驟和更新質(zhì)屯、步驟。從整個(gè)候選集中隨機(jī)初始化后的k重屯、（算法1，第1行），平均步驟計(jì)算每個(gè)構(gòu)象的質(zhì)屯、的距離和組的構(gòu)象最近的重屯、。
[0076] 更新重屯、步驟是從第k個(gè)聚類中選擇新的重屯、。在我們的多個(gè)平行的k-means算法中，平均步驟構(gòu)建主線程作為監(jiān)控線程，在分割本地?cái)?shù)據(jù)后(算法1，第3行），它分出N個(gè)新線程來(lái)獨(dú)立執(zhí)行k-means聚類(算法1，4-6行）。采用一個(gè)基于能源權(quán)重方法從不同集群選擇構(gòu) 象體，然后將它們合并成一個(gè)完整的候選集(算法1，第7行）。之后，在更新重屯、的步驟中，監(jiān) 控線程再次分出K個(gè)線程。最后我們重復(fù)劃分V，直到Ck和Cl/之間的差另Ije小于閥值，運(yùn)將表示算法已經(jīng)收斂，如算法1。化enMP用于MK-means來(lái)支持多線程。
[0077] 在本實(shí)施例中，步驟S中并行T個(gè)k-means聚類算法為：
[0078] 1'個(gè)1<-1116日]13聚類算法，]\0(-1116日]13(￥,6,1(,1'),
[0079] 輸入:V是N個(gè)候選集對(duì)應(yīng)的距離矩陣，E是候選集對(duì)應(yīng)的能量值集，K是聚類的數(shù) 量，k是聚類集的索引；
[0080] 輸出：聚類集合Cl……Ck, k為聚類的索引；
[0081 ]算法1如下：
[0082] l：Initialize(V,K)；
[0083] 2:whilee< A do
[0084] 3:^^Divide(V，E，T);
[00化]4:for t = I to T do
[0086]
[0087] 6: end for
[008引
[0089] 8:vK^Divide(V，E，K);
[0090] 9: for k = l to K do
[0091] 10: Ck^Update (yK，k);
[0092] 11: end for
[OOW] 較 t
[0094] 13:end while
[00巧]Output: Cl. . Ck。
[0096] (四）效果對(duì)比
[0097] 比較的結(jié)果廣泛運(yùn)用蛋白質(zhì)集群工具，SPICKER，它使用I-TASS邸Set-I數(shù)據(jù)。結(jié) 果顯示在下面的表2中。
[009引表2SPICK邸和MK-means在28個(gè)蛋白質(zhì)候選集的比較結(jié)果
[0099]
[0100] 其中，在表2中，a蛋白質(zhì)序列的長(zhǎng)度;b候選集中蛋白質(zhì)模型的數(shù)量;C候選集中最好的（最?。㏑MSD蛋白質(zhì)模型；d SPICK邸選擇出的最大聚類的幾何中屯、模型的RMSD;e MK- means選擇出的最大聚類的幾何中屯、模型的RMSD(粗體表示比SPICK邸好）。
[0101] 現(xiàn)有的聚類方法在SPIKER集上有基本相同的性能。但是，在表2中，由MK-means標(biāo) 識(shí)的聚類中屯、的蛋白質(zhì)模型優(yōu)于由SPICK邸標(biāo)識(shí)的蛋白質(zhì)模型。MK-means能夠很好地從28 個(gè)蛋白質(zhì)識(shí)別出19(67%)個(gè)蛋白質(zhì)，運(yùn)些蛋白質(zhì)模型比SPIC邸R選擇的蛋白質(zhì)模型更加相似于天然蛋白質(zhì)。
[0102] 如圖2所示，為了評(píng)估指定聚類方法整體性能，Z-score方程式被用來(lái)計(jì)算最小 RMSD和第一個(gè)聚類質(zhì)屯、的RMSD之間的均方根偏差。對(duì)于MK-means來(lái)說(shuō)，Z-score計(jì)算的結(jié)果是2.98，它將SPICK邸的Z-score值3.74下降了20.3%。
[0103]
[0104] 從頭預(yù)測(cè)方法的結(jié)構(gòu)異構(gòu)性與模板建模生成的新的種群，導(dǎo)致不同數(shù)據(jù)集的局部相似度差異性較大。運(yùn)些局部相似性通過(guò)他們對(duì)整體相似性度量的貢獻(xiàn)來(lái)檢測(cè)。多重聚類使用多個(gè)k-means模型檢測(cè)在兩個(gè)集群成員之間的最大距離，W確定哪些集群加入。運(yùn)更有利于形成更多的發(fā)散最終有共同不一致有預(yù)測(cè)地方特色聚類模型。同樣地，我們把提升聚類精確度的改進(jìn)歸功于使用并行k-means方法，從而能更好地發(fā)覺整體度量上共享的局部相似點(diǎn)的細(xì)微影響。
[0105] 對(duì)所公開的實(shí)施例的上述說(shuō)明，使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)運(yùn)些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見的，本文中所定義的一般原理可W在不脫離本發(fā)明的精神或范圍的情況下，在其它實(shí)施例中實(shí)現(xiàn)。因此，本發(fā)明將不會(huì)被限制于本文所示的運(yùn)些實(shí)施例，而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。
【主權(quán)項(xiàng)】
1. 一種基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法，其特征在于，包括以下幾步：步驟一：初始化K個(gè)聚類中心，分割本地?cái)?shù)據(jù)，獲得1號(hào)數(shù)據(jù)集、2號(hào)數(shù)據(jù)集、3號(hào)數(shù)據(jù) 集……i號(hào)數(shù)據(jù)集……T號(hào)數(shù)據(jù)集；步驟二：1號(hào)數(shù)據(jù)集、2號(hào)數(shù)據(jù)集、3號(hào)數(shù)據(jù)集……i號(hào)數(shù)據(jù)集……T號(hào)數(shù)據(jù)集分別用T個(gè)獨(dú) 立的k-means方法聚類；步驟三:并行T個(gè)k-means獲得聚類結(jié)果集心……Q……Ct，在最優(yōu)疊加后，對(duì)模型結(jié)構(gòu) 與天然結(jié)構(gòu)的三維結(jié)構(gòu)相似度進(jìn)行度量，獲得模型結(jié)構(gòu)與天然結(jié)構(gòu)的相似性關(guān)系；步驟四：依據(jù)T組聚類中心的相似度，合并T個(gè)k-means結(jié)果集&……G……Ct，若兩個(gè)簇中心相近，則合并此兩個(gè)簇中的所有數(shù)據(jù)，從而獲得本輪的結(jié)果集V; 步驟五:在步驟四中獲得的結(jié)果集V中有K個(gè)聚類集，1號(hào)聚類集、2號(hào)聚類集、3號(hào)聚類集……i號(hào)聚類集……K號(hào)聚類集；步驟六:更新步驟五中的K個(gè)聚類集中心；步驟七:判斷是否滿足終止條件，如果是進(jìn)行步驟八，如果否返回步驟一；步驟八:輸出結(jié)果集&……Ci……Ck; 其中，T和K均為不大于100的正整數(shù)。2. 根據(jù)權(quán)利要求1所述的基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法，其特征在于，步驟三中并行T個(gè)k-means聚類算法為： T個(gè)k-means聚類算法，MK-means (V，E，K，T)，輸入:V是N個(gè)候選集對(duì)應(yīng)的距離矩陣，E是候選集對(duì)應(yīng)的能量值集，K是聚類的數(shù)量，k是聚類集的索引；輸出：聚類集合&……Ck，k為聚類的索引；算法如下： 1:Initialize(V,K)； 2 :whilee< Δ do 3:VT-Divide(V，E，T); 4:for t = lto T do I(-means(F，K); 6: end for 7：F-Merge(C|,￡,T,K); 8:VK-Divide(V，E，K); 9:for k=lto K do 10 :Ck-Update(VK，k); 11: end for i2:s-1; 13:end while Output: Ci··Ck〇3. 根據(jù)權(quán)利要求1所述的基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法，其特征在于，步驟三中對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的三維結(jié)構(gòu)相似度進(jìn)行度量的方法包括均方根偏差法，在最優(yōu)疊加后，模型結(jié)構(gòu)與天然結(jié)構(gòu)的等效原子之間，使用均方根偏差RMSD評(píng)價(jià)兩個(gè)模型之間的相似性；其中，N是對(duì)應(yīng)的兩個(gè)蛋白質(zhì)i和j之間原子的數(shù)量，它們的坐標(biāo)分別是(Xl，yi，Zl)( Xj， yj，zj)〇4. 根據(jù)權(quán)利要求1所述的基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法，其特征在于，步驟三中對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的三維結(jié)構(gòu)相似度進(jìn)行度量的方法包括模板建模評(píng)分法，模板建模評(píng)分函數(shù)TM-score:其中，Ln是天然結(jié)構(gòu)的長(zhǎng)度，La是對(duì)齊的殘留模板結(jié)構(gòu)的長(zhǎng)度，cU是第i對(duì)對(duì)齊的殘留物之間的距離，do是一個(gè)弱化相匹配物不同之處的衡量，Max是最優(yōu)空間疊加后的最大價(jià)值。5. 根據(jù)權(quán)利要求1所述的基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法，其特征在于，在進(jìn)行步驟一初始化K個(gè)聚類中心之前進(jìn)行數(shù)據(jù)集準(zhǔn)備，采用I-TASSER Set-I為基準(zhǔn)， I-TASSER Set-I中含28組非同源蛋白質(zhì)的原子結(jié)構(gòu)的候選集，它們骨架結(jié)構(gòu)由I-TASSER從頭建模生成，使用Pulchra添加側(cè)鏈原子。
【文檔編號(hào)】G06K9/62GK105956605SQ201610250864
【公開日】2016年9月21日
【申請(qǐng)日】2016年4月21日
【發(fā)明人】吳闖, 吳宏杰, 宋龍飛, 陳成
【申請(qǐng)人】蘇州科技學(xué)院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳闖;吳宏杰;宋龍飛;陳成;
技術(shù)所有人：蘇州科技學(xué)院;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

聚類分析的相似性矩陣相關(guān)技術(shù)

kmeans聚類算法相關(guān)技術(shù)

kmeans聚類相關(guān)技術(shù)

r語(yǔ)言kmeans聚類相關(guān)技術(shù)

kmeans聚類算法matlab相關(guān)技術(shù)

kmeans聚類算法k確定相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法