一種基于語(yǔ)義密度的蛋白質(zhì)網(wǎng)絡(luò)復(fù)合物識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘方法技術(shù)領(lǐng)域,涉及一種基于語(yǔ)義密度的蛋白質(zhì)網(wǎng)絡(luò)復(fù)合物 識(shí)別方法。
【背景技術(shù)】
[0002] 關(guān)于復(fù)雜網(wǎng)絡(luò)的實(shí)證研宄以及理論模擬已經(jīng)有很長(zhǎng)的歷史,已提出了許多源于統(tǒng) 計(jì)物理學(xué)以及應(yīng)用數(shù)學(xué)的相關(guān)技術(shù)和方法。系統(tǒng)網(wǎng)絡(luò)化的理念也已成功地應(yīng)用于分子生物 學(xué)的相關(guān)研宄。在生物系統(tǒng)中的蛋白質(zhì)彼此之間相互作用以實(shí)現(xiàn)各種各樣的分子生物功 能,這些相互作用被簡(jiǎn)稱(chēng)為PPIs(Protein-ProteinInteractions)。一個(gè)由蛋白質(zhì)以及相 互作用組成的生物系統(tǒng)可以形式化地描繪為一個(gè)無(wú)向圖,也就是蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI networks),簡(jiǎn)稱(chēng)蛋白質(zhì)網(wǎng)絡(luò)。在蛋白質(zhì)網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)代表一個(gè)蛋白質(zhì),邊代表蛋白質(zhì)之 間的相互作用。通過(guò)對(duì)蛋白質(zhì)網(wǎng)絡(luò)的分析,研宄人員可以進(jìn)一步了解分子生物系統(tǒng)的結(jié)構(gòu) 和特性。例如,蛋白質(zhì)復(fù)合物的識(shí)別和蛋白質(zhì)關(guān)鍵性的評(píng)估。
[0003] 在特定的時(shí)間、地點(diǎn)具有相同分子功能的蛋白質(zhì),如果它們之間存在著較多 的相互作用,則可以認(rèn)為這些蛋白質(zhì)組成了一個(gè)生物分子,即蛋白質(zhì)復(fù)合物(Protein Complex)。過(guò)去,蛋白質(zhì)復(fù)合物的發(fā)現(xiàn)主要是依靠生物化學(xué)實(shí)驗(yàn),例如親和純化后的質(zhì)譜分 析(AffinityPurificationfollowedbyMassSpectrometry,AP/MS)。然而,大部分實(shí) 驗(yàn)方法不是十分可靠的,而且效率較低。近幾年來(lái),許多基于聚類(lèi)技術(shù)的數(shù)據(jù)挖掘方法被提 出并成功地應(yīng)用于蛋白質(zhì)復(fù)合物的識(shí)別。這些方法可以在蛋白質(zhì)相互作用網(wǎng)絡(luò)中識(shí)別出眾 多以往通過(guò)實(shí)驗(yàn)才能發(fā)現(xiàn)的蛋白質(zhì)復(fù)合物。根據(jù)不同的特性,這些聚類(lèi)方法可以分為:層次 聚類(lèi)(HierarchicalClustering),目標(biāo)函數(shù)聚類(lèi)(ObjectiveFunctionClustering)以及 密度聚類(lèi) ?ensity-basedClustering) 〇
[0004] 層次級(jí)聚類(lèi)技術(shù)已被廣泛地應(yīng)用于分析各種類(lèi)型的復(fù)雜網(wǎng)絡(luò),例如在線社會(huì)網(wǎng) 絡(luò)和蛋白質(zhì)相互作用網(wǎng)絡(luò)。這類(lèi)方法的主要思想是依據(jù)網(wǎng)絡(luò)中相連節(jié)點(diǎn)之間的相似性將 網(wǎng)絡(luò)分為若干個(gè)子網(wǎng)絡(luò)。層次聚類(lèi)可以進(jìn)一步分為:凝聚型(agglomerative)和分裂型 (divisive)。最著名的分裂類(lèi)方法是GN算法,而最具代表性的凝聚類(lèi)方法是CNM算法。
[0005] 目標(biāo)函數(shù)聚類(lèi)方法和密度聚類(lèi)方法都是基于圖劃分的技術(shù)(graphical partitions)。前者通過(guò)優(yōu)化目標(biāo)函數(shù)對(duì)圖進(jìn)行劃分,后者基于網(wǎng)絡(luò)的拓?fù)涮匦源_定密度最 大的子圖,例如派系(clique)。著名的RNSC算法就是通過(guò)最優(yōu)化一個(gè)特定的費(fèi)用函數(shù)來(lái) 識(shí)別蛋白質(zhì)相互作用網(wǎng)絡(luò)中的復(fù)合物。近年來(lái),許多類(lèi)似的多目標(biāo)方法也已經(jīng)被提出,它們 大多用進(jìn)化計(jì)算的方法解決多目標(biāo)優(yōu)化的問(wèn)題,例如遺傳算法和螢火蟲(chóng)算法。RANCoC是一 種共聚類(lèi)方法用于在蛋白質(zhì)相互作用網(wǎng)絡(luò)中搜索稠密子圖。給定一個(gè)蛋白質(zhì)相互作用網(wǎng)絡(luò) 對(duì)應(yīng)的無(wú)權(quán)重圖,一個(gè)稠密子圖被定義為一個(gè)具有較高質(zhì)量的子矩陣。RANCoC本質(zhì)上是通 過(guò)質(zhì)量函數(shù)的最優(yōu)化來(lái)發(fā)現(xiàn)稠密子圖,這需要滿足若干條件。此外,一種新的啟發(fā)式方法被 RANCoC應(yīng)用于防止局部最優(yōu)化。
[0006] 一般認(rèn)為,一個(gè)稠密子圖應(yīng)該具有較為稠密的內(nèi)部連接邊,即子圖內(nèi)部大部分節(jié) 點(diǎn)之間都有連接邊。一個(gè)子圖越稠密,越有可能是社會(huì)網(wǎng)絡(luò)中的一個(gè)社團(tuán)或者蛋白質(zhì)相互 作用網(wǎng)絡(luò)中的復(fù)合物?;诿芏鹊姆椒ǖ哪繕?biāo)就是發(fā)現(xiàn)圖中稠密的區(qū)域,并將連通的稠密 區(qū)域作為稠密子圖。為了定量地計(jì)算稠密的程度,各種方法對(duì)于稠密有著不同的定義。經(jīng)典 的MCODE算法采用k-核心(k-core)和核心聚集系數(shù)來(lái)發(fā)現(xiàn)復(fù)合物。k-核心是一個(gè)子圖,其 中每一個(gè)節(jié)點(diǎn)的度都大于或者等于k。k最大的k-核心就被認(rèn)為是密度最大的子圖。另一 個(gè)著名的稠密子圖的定義是派系(clique)。在一個(gè)派系中所有節(jié)點(diǎn)彼此之間都有邊相連。 兩個(gè)有k個(gè)節(jié)點(diǎn)的派系可以被認(rèn)為是彼此鄰接的,如果它們包含有k-1個(gè)共同節(jié)點(diǎn)。一個(gè)k 派系社團(tuán)就是有多個(gè)鄰接的k派系組成的集合。DME算法采用的偽派系(PseudoCliques) 是對(duì)派系的延伸,通過(guò)從派系中移除一定數(shù)量的邊而得到的。一個(gè)偽派系是一個(gè)子圖,其中 邊的數(shù)量略少于一個(gè)節(jié)點(diǎn)數(shù)相同的派系,比例應(yīng)大于一個(gè)給定的閾值。此外,還有許多其他 類(lèi)型的方法用于發(fā)現(xiàn)稠密子圖,例如MCL算法采用的流仿真(flowsimulation)。
[0007] 層次聚類(lèi)方法和基于目標(biāo)函數(shù)的聚類(lèi)方法都需要對(duì)一個(gè)或多個(gè)函數(shù)進(jìn)行優(yōu)化。然 而,對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的評(píng)價(jià)函數(shù)往往會(huì)存在一定局限,例如層次方法采用的模塊度就具有分 解極限的問(wèn)題。而且對(duì)于全局優(yōu)化函數(shù)的計(jì)算可能會(huì)增加算法的時(shí)間復(fù)雜度。多目標(biāo)函數(shù) 優(yōu)化問(wèn)題也是算法研宄的難點(diǎn)?;诿芏鹊姆椒ú⒉恍枰獙?duì)多個(gè)函數(shù)進(jìn)行優(yōu)化,時(shí)間復(fù)雜 度也較低。綜合評(píng)價(jià),基于密度的方法要優(yōu)于前兩種方法。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的目的是提供一種基于語(yǔ)義密度的蛋白質(zhì)網(wǎng)絡(luò)復(fù)合物識(shí)別方法,能夠從蛋 白質(zhì)相互作用網(wǎng)絡(luò)中識(shí)別出蛋白質(zhì)復(fù)合物,且識(shí)別準(zhǔn)確度較高、時(shí)間復(fù)雜度較低。
[0009] 本發(fā)明所采用的技術(shù)方案是,一種基于語(yǔ)義密度的蛋白質(zhì)網(wǎng)絡(luò)復(fù)合物識(shí)別方法, 具體按照以下步驟實(shí)施:
[0010] 步驟1,對(duì)一個(gè)無(wú)權(quán)重的蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)集,在基因本體庫(kù)GO中查找網(wǎng) 絡(luò)數(shù)據(jù)集中所有蛋白質(zhì)的屬性;
[0011] 步驟2,基于步驟1中的查找結(jié)果,采用基于基因本體的語(yǔ)義相似度計(jì)算方法來(lái)計(jì) 算步驟1的網(wǎng)絡(luò)數(shù)據(jù)集中存在連接的蛋白質(zhì)之間的相似性;
[0012] 步驟3,依據(jù)步驟2得到的相似性結(jié)果,將步驟1中給定的蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù) 據(jù)集轉(zhuǎn)化為一個(gè)有權(quán)、無(wú)向網(wǎng)絡(luò)數(shù)據(jù)集,其中節(jié)點(diǎn)代表蛋白質(zhì),邊表示蛋白質(zhì)之間的相互作 用,蛋白質(zhì)之間的相似度為邊的權(quán)重;
[0013] 步驟4,采用基于密度的圖劃分算法從步驟3中得到的有權(quán)、無(wú)向圖中發(fā)現(xiàn)稠密子 圖,該圖劃分算法稱(chēng)作DBGPWN,得到的稠密子圖即為基于語(yǔ)義密度識(shí)別出的蛋白質(zhì)網(wǎng)絡(luò)復(fù) 合物。
[0014] 本發(fā)明的特點(diǎn)還在于,
[0015] 其中步驟2中基于基因本體的語(yǔ)義相似度計(jì)算方法的具體步驟為,
[0016] 步驟2. 1,設(shè)定蛋白質(zhì)A和蛋白質(zhì)B作為分析對(duì)象,蛋白質(zhì)A、蛋白質(zhì)B分別采用生 物過(guò)程P、分子功能F、細(xì)胞組件C這三類(lèi)GO屬性構(gòu)建三個(gè)聯(lián)合DAG,分別計(jì)算每個(gè)蛋白質(zhì)中 三個(gè)聯(lián)合DAG的屬性對(duì)于相應(yīng)蛋白質(zhì)的語(yǔ)義貢獻(xiàn)S-value;
[0017] 步驟2. 2,根據(jù)步驟2. 1得出的S-value分別計(jì)算蛋白質(zhì)A與蛋白質(zhì)B各自采 用的三類(lèi)GO屬性中相同類(lèi)別的屬性之間的相似度,即分別求出Simp (a,b)、Simf (a,b)、 Simc(a,b);
[0018] 步驟2. 3,求取步驟2. 2得到相似度計(jì)算結(jié)果的均方值,依據(jù)求出的均方值即得出 所述步驟1的網(wǎng)絡(luò)數(shù)據(jù)集中存在連接的蛋白質(zhì)之間的相似性。
[0019] 其中步驟2. 1的具體過(guò)程為,通過(guò)如下公式(1)求得蛋白質(zhì)A中的三個(gè)聯(lián)合DAG 的屬性對(duì)于蛋白質(zhì)A的語(yǔ)義貢獻(xiàn)S-value、蛋白質(zhì)B中的三個(gè)聯(lián)合DAG的屬性對(duì)于蛋白質(zhì)B 的語(yǔ)義貢獻(xiàn)S-value,
[0020]
[0021] 其中,we表示邊e的語(yǔ)義遺傳權(quán)重,eGE。e連接著屬性t及其子屬性t'。
[0022]其中步驟2. 2的具體過(guò)程為,依據(jù)如下公式⑵求得Simp (a,b)、Simf (a,b)、 Simc(a,h') ?
[0023]
[0024] 其中,sA(t)和sB(t)表示屬性t對(duì)于A和B的S-value。
[0025] 其中步驟2. 3的具體過(guò)程為,
[0026] 通過(guò)如下公式(4)求取所述均方值:
[0027]
[0028] 其中步驟4中基于密度的圖劃分算法的具體過(guò)程為,
[0029] 步驟4. 1,計(jì)算步驟3得到的有權(quán)、無(wú)向網(wǎng)絡(luò)數(shù)據(jù)集中所有有邊相連蛋白質(zhì)之間的 語(yǔ)義聚集系數(shù);
[0030] 步驟4. 2,將步驟3得到的有權(quán)、無(wú)向網(wǎng)絡(luò)數(shù)據(jù)集中的所有蛋白質(zhì)標(biāo)記為'未聚 類(lèi)';
[0031] 步驟4. 3,從步驟4. 2的標(biāo)記結(jié)果中選擇一個(gè)的蛋白質(zhì)p,依據(jù)步驟4. 1的計(jì)算結(jié) 果從步驟3得到的有權(quán)、無(wú)向網(wǎng)絡(luò)中選出所有與蛋白質(zhì)p密度可連接的蛋白質(zhì),將選出的蛋 白質(zhì)與蛋白質(zhì)P作為1個(gè)簇C,簇C中的蛋白質(zhì)標(biāo)記為'已聚類(lèi)';
[0032] 步驟4. 4,重復(fù)進(jìn)行步驟4. 3,直到所有符合聚類(lèi)要求的蛋白質(zhì)都被標(biāo)記為'已聚 類(lèi)',將不滿足聚類(lèi)要求的蛋白質(zhì)的簇作為噪聲點(diǎn)從有權(quán)、無(wú)向網(wǎng)絡(luò)中刪除,已聚類(lèi)的簇即 為DBGPWN算法發(fā)現(xiàn)的稠密子圖。
[0033] 其中步驟4. 1的具體過(guò)程為,其中語(yǔ)義聚集系數(shù)通過(guò)如下公式(3)得出:
[0