基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法
【專利摘要】本發(fā)明公開了基于并行k?means聚類的三維結(jié)構(gòu)相似性聚類方法,包括以下幾步:初始化K個(gè)聚類中心,分割本地?cái)?shù)據(jù);數(shù)據(jù)集分別得到各自對(duì)應(yīng)的k?means;并行T個(gè)k?means獲得聚類結(jié)果集,在最優(yōu)疊加后,對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的三維結(jié)構(gòu)相似度進(jìn)行度量,獲得模型結(jié)構(gòu)與天然結(jié)構(gòu)的相似性關(guān)系;合并T個(gè)k?means結(jié)果集,獲得候選集對(duì)應(yīng)的聚類矩陣V;將步驟四中獲得的結(jié)果集V分割;更新K個(gè)聚類集中心;判斷是否滿足終止條件,如果是進(jìn)行下一步,如果否返回第一步;輸出結(jié)果集C1……Ci……Ck。本發(fā)明的方法解決了三維結(jié)構(gòu)相似性聚類中計(jì)算耗時(shí)和數(shù)據(jù)量大的問(wèn)題。
【專利說(shuō)明】
基于并行k-means聚類的H維結(jié)構(gòu)相似性聚類方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及=維結(jié)構(gòu)相似性聚類領(lǐng)域,尤其是蛋白=維結(jié)構(gòu)相似性聚類,具體設(shè) 及基于并行k-means聚類的S維結(jié)構(gòu)相似性聚類方法。
【背景技術(shù)】
[0002] 依據(jù)=維結(jié)構(gòu)相似性進(jìn)行聚類是指在=維空間中,W兩組點(diǎn)集合的=維相似性為 距離,進(jìn)行相似性聚類,期待結(jié)構(gòu)相近的聚成類,在材料、生物、工程中都有廣泛的應(yīng)用。其 中在生物領(lǐng)域的典型應(yīng)用是蛋白質(zhì)=維結(jié)構(gòu)聚類,運(yùn)是在蛋白質(zhì)=維結(jié)構(gòu)預(yù)測(cè),功能和交 互預(yù)測(cè)中的一個(gè)重要步驟。在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法中,蛋白質(zhì)結(jié)構(gòu)聚類的任務(wù)是基于=維 結(jié)構(gòu)的相似聚類算法,從自由建?;蚰0褰I傻拇笠?guī)模的候選集中選擇最好的近天然 構(gòu)象。RMSD和TM-S cor e是當(dāng)前衡量=維結(jié)構(gòu)候選對(duì)象相識(shí)度的兩個(gè)通用的標(biāo)準(zhǔn)。
[0003] Z Yang,S Jef打巧開發(fā)了SPICK邸算法,它是一種通過(guò)聚類分析來(lái)識(shí)別近天然構(gòu) 象的簡(jiǎn)單有效策略。在SPICK邸中,聚類是使用一組收縮規(guī)模大小的單步執(zhí)行過(guò)程,而且候 選構(gòu)象對(duì)之間結(jié)構(gòu)相似性闊值在迭代過(guò)程中動(dòng)態(tài)調(diào)整。在標(biāo)記一組1489個(gè)非同源的蛋白質(zhì) 后,運(yùn)就表示在蛋白質(zhì)資料庫(kù)(PDB)中的所有的蛋白質(zhì)結(jié)構(gòu)擁有超過(guò)200個(gè)殘留物。Clusco 是為比較高通量蛋白質(zhì)的模型而開發(fā)的軟件,它使用了不同的計(jì)算相似性的策略(cRMSD dRMSD,GDT TS、TM-Score MaxSub,Con1:act Map Overlap),同時(shí)它也用k-means聚類或合成 聚類的標(biāo)準(zhǔn)方法來(lái)比較結(jié)果的聚類。運(yùn)個(gè)應(yīng)用程序是高度優(yōu)化,它使用C/C++進(jìn)行編寫,包 括CPU和GPU并行執(zhí)行的代碼部分,運(yùn)使得當(dāng)前程序遠(yuǎn)遠(yuǎn)快于其他相似的聚類和得分估算程 序。B Francois,S Rojan,Z Yong,S David和KYJ Zhang提出了一種快速的方法,它即使在 大規(guī)模的候選集中也有可W起作用。該方法應(yīng)用在一個(gè)叫作Duranda 1的軟件中。Duranda 1 已被證明始終比其他快速準(zhǔn)確的聚類軟件更快。在某些情況下,Durandal甚至可W比一個(gè) 近似計(jì)算方法更快。Durandal在不影響功能的距離情況下,利用S角不等式加速精確聚類 速度。
[0004] 在目前常用的=維結(jié)構(gòu)聚類算法中,存在兩個(gè)問(wèn)題制約著算法的效率。第一,候選 集中包含大量的候選模型,在10K-100K之間。所W如何處理內(nèi)存溢出和耗時(shí)的任務(wù)已成為 一個(gè)緊迫的問(wèn)題。W-個(gè)含有50K候選模型的候選集為例,如果每個(gè)浮點(diǎn)型數(shù)據(jù)占4字節(jié),那 么運(yùn)個(gè)算法將需要5*104*5*104*4 = 25*1010(23巧U字節(jié)的內(nèi)存來(lái)存儲(chǔ)矩陣的距離。另一 個(gè)問(wèn)題是如何精確地度量?jī)煞N蛋白質(zhì)的相似性。RMSD和TM-score是兩個(gè)廣泛運(yùn)用衡量蛋白 質(zhì)相識(shí)度的策略。但是由于它們?cè)诰植拷Y(jié)構(gòu)和整體結(jié)構(gòu)有不同的側(cè)重點(diǎn),所W我們很難區(qū) 分哪一個(gè)是衡量蛋白質(zhì)相似的最佳度量。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的W上問(wèn)題,提供一種基于并行k-means聚 類的=維結(jié)構(gòu)相似性聚類方法,本發(fā)明的方法解決了=維結(jié)構(gòu)相似性聚類中計(jì)算耗時(shí)和數(shù) 據(jù)量大的問(wèn)題。
[0006] 為實(shí)現(xiàn)上述技術(shù)目的,達(dá)到上述技術(shù)效果,本發(fā)明通過(guò)W下技術(shù)方案實(shí)現(xiàn):
[0007] 一種基于并行k-means聚類的S維結(jié)構(gòu)相似性聚類方法,包括W下幾步:
[0008] 步驟一:初始化K個(gè)聚類中屯、,分割本地?cái)?shù)據(jù),獲得1號(hào)數(shù)據(jù)集、2號(hào)數(shù)據(jù)集、3號(hào)數(shù)據(jù) 集……i號(hào)數(shù)據(jù)集……T號(hào)數(shù)據(jù)集;
[0009] 步驟二:1號(hào)數(shù)據(jù)集、2號(hào)數(shù)據(jù)集、3號(hào)數(shù)據(jù)集……i號(hào)數(shù)據(jù)集……T號(hào)數(shù)據(jù)集分別用T 個(gè)獨(dú)立的k-means方法聚類;
[0010]步驟并行T個(gè)k-means獲得聚類結(jié)果集Cl……Ci……Ct,在最優(yōu)疊加后,對(duì)模型 結(jié)構(gòu)與天然結(jié)構(gòu)的=維結(jié)構(gòu)相似度進(jìn)行度量,獲得模型結(jié)構(gòu)與天然結(jié)構(gòu)的相似性關(guān)系;
[00川步驟四:依據(jù)T組聚類中屯、的相似度,合并T個(gè)k-means結(jié)果集Cl……?!瑿t,若兩 個(gè)簇中屯、相近,則合并此兩個(gè)簇中的所有數(shù)據(jù),從而獲得本輪的結(jié)果集V;
[0012] 步驟五:在步驟四中獲得的結(jié)果集V中有K個(gè)聚類集,1號(hào)聚類集、2號(hào)聚類集、3號(hào)聚 類集……i號(hào)聚類集……K號(hào)聚類集;
[0013] 步驟六:更新步驟五中的K個(gè)聚類集中屯、;
[0014] 步驟屯:判斷是否滿足終止條件,如果是進(jìn)行步驟八,如果否返回步驟一;
[0015] 步驟八:輸出結(jié)果集Cl……Ci……Ck;
[0016] 其中,T和K均為不大于100的正整數(shù)。
[0017] 在本發(fā)明的一個(gè)較佳實(shí)施例中,進(jìn)一步包括,步驟S中并行T個(gè)k-means聚類算法 為:
[001 引 1'個(gè)1^-1116日]13聚類算法,]\0(-1116日]13(¥,6,1(,1'),
[0019] 輸入:V是N個(gè)候選集對(duì)應(yīng)的距離矩陣,E是候選集對(duì)應(yīng)的能量值集,K是聚類的數(shù) 量,k是聚類集的索引;
[0020] 輸出:聚類集合Cl……Ck, k為聚類的索引;
[0021 ]算法如下:
[0022] l:Initialize(V,K);
[0023] 2:whilee< Ado
[0024] 3:^^Divide(V,E,T);
[0025] 4:for t = I to T do
[0026] 5:
[0027] 6: end for [002引 7:
[0029] 8:vK^Divide(V,E,K);
[0030] 9: for k = l to K do
[0031] 10: Ck^Update (yK,k);
[0032] 11: end for
[003;3] I;
[0034] 13:end while
[0035] Output: Cl..Cko
[0036] 在本發(fā)明的一個(gè)較佳實(shí)施例中,進(jìn)一步包括,步驟蘭中對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的 =維結(jié)構(gòu)相似度進(jìn)行度量的方法包括均方根偏差法,在最優(yōu)疊加后,模型結(jié)構(gòu)與天然結(jié)構(gòu) 的等效戶革方間-佈田+々古庶偏単肌KTVl巧價(jià)而本賊型之間的相似性.
[0037]
[0038] 其中,N是對(duì)應(yīng)的兩個(gè)蛋白質(zhì)i和j之間原子的數(shù)量,它們的坐標(biāo)分別是(xi,yi,zi) (xj,yj,zj)〇
[0039] 在本發(fā)明的一個(gè)較佳實(shí)施例中,進(jìn)一步包括,步驟=中對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的 =維結(jié)構(gòu)相似度進(jìn)行度景的方法包括模板建模評(píng)分法,模板建模評(píng)分函數(shù)TM-score:
[0040]
[0041] 其中,Ln是天然結(jié)構(gòu)的長(zhǎng)度,La是對(duì)齊的殘留模板結(jié)構(gòu)的長(zhǎng)度,di是第i對(duì)對(duì)齊的 殘留物之間的距離,do是一個(gè)弱化相匹配物不同之處的衡量,Max是最優(yōu)空間疊加后的最大 價(jià)值。
[0042] 在本發(fā)明的一個(gè)較佳實(shí)施例中,進(jìn)一步包括,在進(jìn)行步驟一初始化K個(gè)聚類中屯、之 前進(jìn)行數(shù)據(jù)集準(zhǔn)備,采用I-TASS邸Set-I為基準(zhǔn),I-TASS邸Set-I中含28組非同源蛋白質(zhì) 的原子結(jié)構(gòu)的候選集,它們骨架結(jié)構(gòu)由I-TASSER從頭建模生成,使用化Ichra添加側(cè)鏈原 子。
[0043] 本發(fā)明的有益效果是:
[0044] 傳統(tǒng)的聚類方法在SPIK邸集上有基本相同的性能,但是,由MK-means標(biāo)識(shí)的聚類 中屯、的蛋白質(zhì)模型優(yōu)于由SPICK邸標(biāo)識(shí)的蛋白質(zhì)模型,MK-means能夠很好地從28個(gè)蛋白質(zhì) 識(shí)別出19(67%)個(gè)蛋白質(zhì),運(yùn)些蛋白質(zhì)模型比SPICKER選擇的蛋白質(zhì)模型更加相似于天然 蛋白質(zhì)。并且,為了評(píng)估指定聚類方法整體性能,Z-score方程式被用來(lái)計(jì)算最小RMSD和第 一個(gè)聚類質(zhì)屯、的RMSD之間的均方根偏差。對(duì)于MK-means來(lái)說(shuō),Z-score計(jì)算的結(jié)果是2.98, 它將SPICK邸的Z-score值3.74下降了20.3%。
[0045] 從頭預(yù)測(cè)方法的結(jié)構(gòu)異構(gòu)性與模板建模生成的新的種群,導(dǎo)致不同數(shù)據(jù)集的局部 相似度差異性較大。運(yùn)些局部相似性通過(guò)他們對(duì)整體相似性度量的貢獻(xiàn)來(lái)檢測(cè)。多重聚類 使用多個(gè)k-means模型檢測(cè)在兩個(gè)集群成員之間的最大距離,W確定哪些集群加入。運(yùn)更有 利于形成更多的發(fā)散最終有共同不一致有預(yù)測(cè)地方特色聚類模型。同樣地,把提升聚類精 確度的改進(jìn)歸功于使用并行k-means方法,從而能更好地發(fā)覺整體度量上共享的局部相似 點(diǎn)的細(xì)微影響,因此,本發(fā)明的方法,在立維結(jié)構(gòu)相似性聚類中,減少了內(nèi)存和時(shí)間的消耗。
[0046] 上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 并可依照說(shuō)明書的內(nèi)容予W實(shí)施,W下W本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說(shuō)明如后。 本發(fā)明的【具體實(shí)施方式】由W下實(shí)施例及其附圖詳細(xì)給出。
【附圖說(shuō)明】
[0047] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例技術(shù)描述中 所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí) 施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W根據(jù)運(yùn)些附圖 獲得其他的附圖。
[0048] 圖I是本發(fā)明的方法流程圖;
[0049] 圖2是本發(fā)明Z-score方程式計(jì)算結(jié)果對(duì)比圖。
【具體實(shí)施方式】
[0050] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0化1 ]實(shí)施例
[0052]本實(shí)施例中公開了 一種基于并行k-means聚類的S維結(jié)構(gòu)相似性聚類方法,包括 W下步驟:
[00對(duì)(一)數(shù)據(jù)集準(zhǔn)備
[0054] 在本實(shí)施例中,采用I-TASS邸Set-I為基準(zhǔn),I-TASSER Set-I中含28組非同源蛋 白質(zhì)的原子結(jié)構(gòu)的候選集,它們骨架結(jié)構(gòu)由I-TASSER從頭建模生成,使用化Ichra添加側(cè)鏈 原子。
[0055]如表1中所示,數(shù)據(jù)集的摘要信息(表2中的28個(gè)的平均值)
[0化6]
[0057] (二)基于并行k-means聚類的S維結(jié)構(gòu)相似性聚類方法,如圖1中所示,具體步驟 如下:
[0058] 步驟一:初始化K個(gè)聚類中屯、,分割本地?cái)?shù)據(jù),獲得1號(hào)數(shù)據(jù)集、2號(hào)數(shù)據(jù)集、3號(hào)數(shù)據(jù) 集……i號(hào)數(shù)據(jù)集……T號(hào)數(shù)據(jù)集。
[0059] 步驟二:1號(hào)數(shù)據(jù)集、2號(hào)數(shù)據(jù)集、3號(hào)數(shù)據(jù)集……i號(hào)數(shù)據(jù)集……T號(hào)數(shù)據(jù)集分別用T 個(gè)獨(dú)立的k-means方法聚類。
[0060] 步驟S:并行T個(gè)k-means獲得聚類結(jié)果集Cl……?!瑿t,在最優(yōu)疊加后,對(duì)模型 結(jié)構(gòu)與天然結(jié)構(gòu)的=維結(jié)構(gòu)相似度進(jìn)行度量,獲得模型結(jié)構(gòu)與天然結(jié)構(gòu)的相似性關(guān)系。 [0061 ]步驟四:依據(jù)T組聚類中屯、的相似度,合并T個(gè)k-means結(jié)果集Cl……Ci……Ct,若 兩個(gè)簇中屯、相近,則合并此兩個(gè)簇中的所有數(shù)據(jù),從而獲得本輪的結(jié)果集V。
[0062] 步驟五:在步驟四中獲得的結(jié)果集V中有K個(gè)聚類集,1號(hào)聚類集、2號(hào)聚類集、3號(hào)聚 類集……i號(hào)聚類集……K號(hào)聚類集。
[0063] 步驟六:更新步驟五中的K個(gè)聚類集中屯、。
[0064] 步驟屯:判斷是否滿足終止條件,如果是進(jìn)行步驟八,如果否返回步驟一。
[00化]步驟八:輸出結(jié)果集Cl……Ci……Ck。
[0066] 其中,T和K均為不大于100的正整數(shù)。
[0067] 步驟=中對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的=維結(jié)構(gòu)相似度進(jìn)行度量的方法有兩種,(1) 均方根偏差法,在最優(yōu)疊加后,模型結(jié)構(gòu)與天然結(jié)構(gòu)的等效原子之間,使用均方根偏差RMSD 評(píng)價(jià)兩個(gè)模型之間的相似性;
[006引
[0069] 其中,N是對(duì)應(yīng)的兩個(gè)蛋白質(zhì)i和j之間原子的數(shù)量,它們的坐標(biāo)分別是(X i,y i,Z i) (xj,yj,zj)〇
[0070] (2)模板建模評(píng)分法:
[0071] 由于RMSD是獨(dú)立的,它不足W全面地估計(jì)兩種蛋白質(zhì)的相似性,因?yàn)槭褂貌煌?方法得到的對(duì)齊覆蓋率也是迴然不同的。顯而易見,擁有一個(gè)2 Armsd且相對(duì)于天然結(jié)構(gòu) 有對(duì)齊覆蓋率50%的模板并不一定比一個(gè)3 Armsd且有80%的覆蓋率結(jié)構(gòu)更好。而運(yùn)個(gè)對(duì) 齊地區(qū)的模板比之前的更好,因?yàn)楦俚臍埩羰菍?duì)對(duì)齊的,生成的完整的模型的可能有較 差的質(zhì)量。模板建模評(píng)分(TM-score)函數(shù)是一個(gè)變化的Levitt-Gerstein(LG)得分,它第一 次使用順序獨(dú)立結(jié)構(gòu)調(diào)整。模板建模評(píng)分函數(shù)TM-score:
[0072]
(2)
[0073] 其中,Ln是天然結(jié)構(gòu)的長(zhǎng)度,La是對(duì)齊的殘留模板結(jié)構(gòu)的長(zhǎng)度,di是第i對(duì)對(duì)齊的 殘留物之間的距離,do是一個(gè)弱化相匹配物不同之處的衡量,Max是最優(yōu)空間疊加后的最大 價(jià)值。
[0074] (二)算法;
[0075] 經(jīng)典單k-means聚類算法包括平均步驟和更新質(zhì)屯、步驟。從整個(gè)候選集中隨機(jī)初 始化后的k重屯、(算法1,第1行),平均步驟計(jì)算每個(gè)構(gòu)象的質(zhì)屯、的距離和組的構(gòu)象最近的重 屯、。
[0076] 更新重屯、步驟是從第k個(gè)聚類中選擇新的重屯、。在我們的多個(gè)平行的k-means算法 中,平均步驟構(gòu)建主線程作為監(jiān)控線程,在分割本地?cái)?shù)據(jù)后(算法1,第3行),它分出N個(gè)新線 程來(lái)獨(dú)立執(zhí)行k-means聚類(算法1,4-6行)。采用一個(gè)基于能源權(quán)重方法從不同集群選擇構(gòu) 象體,然后將它們合并成一個(gè)完整的候選集(算法1,第7行)。之后,在更新重屯、的步驟中,監(jiān) 控線程再次分出K個(gè)線程。最后我們重復(fù)劃分V,直到Ck和Cl/之間的差另Ije小于閥值,運(yùn)將表 示算法已經(jīng)收斂,如算法1。化enMP用于MK-means來(lái)支持多線程。
[0077] 在本實(shí)施例中,步驟S中并行T個(gè)k-means聚類算法為:
[0078] 1'個(gè)1<-1116日]13聚類算法,]\0(-1116日]13(¥,6,1(,1'),
[0079] 輸入:V是N個(gè)候選集對(duì)應(yīng)的距離矩陣,E是候選集對(duì)應(yīng)的能量值集,K是聚類的數(shù) 量,k是聚類集的索引;
[0080] 輸出:聚類集合Cl……Ck, k為聚類的索引;
[0081 ]算法1如下:
[0082] l:Initialize(V,K);
[0083] 2:whilee< A do
[0084] 3:^^Divide(V,E,T);
[00化]4:for t = I to T do
[0086]
[0087] 6: end for
[008引
[0089] 8:vK^Divide(V,E,K);
[0090] 9: for k = l to K do
[0091] 10: Ck^Update (yK,k);
[0092] 11: end for
[OOW] 較 t
[0094] 13:end while
[00巧]Output: Cl. . Ck。
[0096] (四)效果對(duì)比
[0097] 比較的結(jié)果廣泛運(yùn)用蛋白質(zhì)集群工具,SPICKER,它使用I-TASS邸Set-I數(shù)據(jù)。結(jié) 果顯示在下面的表2中。
[009引表2SPICK邸和MK-means在28個(gè)蛋白質(zhì)候選集的比較結(jié)果
[0099]
[0100] 其中,在表2中,a蛋白質(zhì)序列的長(zhǎng)度;b候選集中蛋白質(zhì)模型的數(shù)量;C候選集中最 好的(最?。㏑MSD蛋白質(zhì)模型;d SPICK邸選擇出的最大聚類的幾何中屯、模型的RMSD;e MK- means選擇出的最大聚類的幾何中屯、模型的RMSD(粗體表示比SPICK邸好)。
[0101] 現(xiàn)有的聚類方法在SPIKER集上有基本相同的性能。但是,在表2中,由MK-means標(biāo) 識(shí)的聚類中屯、的蛋白質(zhì)模型優(yōu)于由SPICK邸標(biāo)識(shí)的蛋白質(zhì)模型。MK-means能夠很好地從28 個(gè)蛋白質(zhì)識(shí)別出19(67%)個(gè)蛋白質(zhì),運(yùn)些蛋白質(zhì)模型比SPIC邸R選擇的蛋白質(zhì)模型更加相 似于天然蛋白質(zhì)。
[0102] 如圖2所示,為了評(píng)估指定聚類方法整體性能,Z-score方程式被用來(lái)計(jì)算最小 RMSD和第一個(gè)聚類質(zhì)屯、的RMSD之間的均方根偏差。對(duì)于MK-means來(lái)說(shuō),Z-score計(jì)算的結(jié)果 是2.98,它將SPICK邸的Z-score值3.74下降了20.3%。
[0103]
[0104] 從頭預(yù)測(cè)方法的結(jié)構(gòu)異構(gòu)性與模板建模生成的新的種群,導(dǎo)致不同數(shù)據(jù)集的局部 相似度差異性較大。運(yùn)些局部相似性通過(guò)他們對(duì)整體相似性度量的貢獻(xiàn)來(lái)檢測(cè)。多重聚類 使用多個(gè)k-means模型檢測(cè)在兩個(gè)集群成員之間的最大距離,W確定哪些集群加入。運(yùn)更有 利于形成更多的發(fā)散最終有共同不一致有預(yù)測(cè)地方特色聚類模型。同樣地,我們把提升聚 類精確度的改進(jìn)歸功于使用并行k-means方法,從而能更好地發(fā)覺整體度量上共享的局部 相似點(diǎn)的細(xì)微影響。
[0105] 對(duì)所公開的實(shí)施例的上述說(shuō)明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。 對(duì)運(yùn)些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見的,本文中所定義的 一般原理可W在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明 將不會(huì)被限制于本文所示的運(yùn)些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一 致的最寬的范圍。
【主權(quán)項(xiàng)】
1. 一種基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法,其特征在于,包括以下幾 步: 步驟一:初始化K個(gè)聚類中心,分割本地?cái)?shù)據(jù),獲得1號(hào)數(shù)據(jù)集、2號(hào)數(shù)據(jù)集、3號(hào)數(shù)據(jù) 集……i號(hào)數(shù)據(jù)集……T號(hào)數(shù)據(jù)集; 步驟二:1號(hào)數(shù)據(jù)集、2號(hào)數(shù)據(jù)集、3號(hào)數(shù)據(jù)集……i號(hào)數(shù)據(jù)集……T號(hào)數(shù)據(jù)集分別用T個(gè)獨(dú) 立的k-means方法聚類; 步驟三:并行T個(gè)k-means獲得聚類結(jié)果集心……Q……Ct,在最優(yōu)疊加后,對(duì)模型結(jié)構(gòu) 與天然結(jié)構(gòu)的三維結(jié)構(gòu)相似度進(jìn)行度量,獲得模型結(jié)構(gòu)與天然結(jié)構(gòu)的相似性關(guān)系; 步驟四:依據(jù)T組聚類中心的相似度,合并T個(gè)k-means結(jié)果集&……G……Ct,若兩個(gè)簇 中心相近,則合并此兩個(gè)簇中的所有數(shù)據(jù),從而獲得本輪的結(jié)果集V; 步驟五:在步驟四中獲得的結(jié)果集V中有K個(gè)聚類集,1號(hào)聚類集、2號(hào)聚類集、3號(hào)聚類 集……i號(hào)聚類集……K號(hào)聚類集; 步驟六:更新步驟五中的K個(gè)聚類集中心; 步驟七:判斷是否滿足終止條件,如果是進(jìn)行步驟八,如果否返回步驟一; 步驟八:輸出結(jié)果集&……Ci……Ck; 其中,T和K均為不大于100的正整數(shù)。2. 根據(jù)權(quán)利要求1所述的基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法,其特征在 于,步驟三中并行T個(gè)k-means聚類算法為: T個(gè)k-means聚類算法,MK-means (V,E,K,T), 輸入:V是N個(gè)候選集對(duì)應(yīng)的距離矩陣,E是候選集對(duì)應(yīng)的能量值集,K是聚類的數(shù)量,k是 聚類集的索引; 輸出:聚類集合&……Ck,k為聚類的索引; 算法如下: 1:Initialize(V,K); 2 :whilee< Δ do 3:VT-Divide(V,E,T); 4:for t = lto T do I(-means(F,K); 6: end for 7:F-Merge(C|,£,T,K); 8:VK-Divide(V,E,K); 9:for k=lto K do 10 :Ck-Update(VK,k); 11: end for i2:s-1; 13:end while Output: Ci··Ck〇3. 根據(jù)權(quán)利要求1所述的基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法,其特征在 于,步驟三中對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的三維結(jié)構(gòu)相似度進(jìn)行度量的方法包括均方根偏差 法,在最優(yōu)疊加后,模型結(jié)構(gòu)與天然結(jié)構(gòu)的等效原子之間,使用均方根偏差RMSD評(píng)價(jià)兩個(gè)模 型之間的相似性;其中,N是對(duì)應(yīng)的兩個(gè)蛋白質(zhì)i和j之間原子的數(shù)量,它們的坐標(biāo)分別是(Xl,yi,Zl)( Xj, yj,zj)〇4. 根據(jù)權(quán)利要求1所述的基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法,其特征在 于,步驟三中對(duì)模型結(jié)構(gòu)與天然結(jié)構(gòu)的三維結(jié)構(gòu)相似度進(jìn)行度量的方法包括模板建模評(píng)分 法,模板建模評(píng)分函數(shù)TM-score:其中,Ln是天然結(jié)構(gòu)的長(zhǎng)度,La是對(duì)齊的殘留模板結(jié)構(gòu)的長(zhǎng)度,cU是第i對(duì)對(duì)齊的殘留物 之間的距離,do是一個(gè)弱化相匹配物不同之處的衡量,Max是最優(yōu)空間疊加后的最大價(jià)值。5. 根據(jù)權(quán)利要求1所述的基于并行k-means聚類的三維結(jié)構(gòu)相似性聚類方法,其特征在 于,在進(jìn)行步驟一初始化K個(gè)聚類中心之前進(jìn)行數(shù)據(jù)集準(zhǔn)備,采用I-TASSER Set-I為基準(zhǔn), I-TASSER Set-I中含28組非同源蛋白質(zhì)的原子結(jié)構(gòu)的候選集,它們骨架結(jié)構(gòu)由I-TASSER從 頭建模生成,使用Pulchra添加側(cè)鏈原子。
【文檔編號(hào)】G06K9/62GK105956605SQ201610250864
【公開日】2016年9月21日
【申請(qǐng)日】2016年4月21日
【發(fā)明人】吳闖, 吳宏杰, 宋龍飛, 陳成
【申請(qǐng)人】蘇州科技學(xué)院