專利名稱:一種基于先驗知識和網(wǎng)絡(luò)拓撲特性的關(guān)鍵蛋白預(yù)測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及基于網(wǎng)絡(luò)水平的關(guān)鍵蛋白預(yù)測領(lǐng)域,特別是一種基于部分已知關(guān)鍵蛋白和生物網(wǎng)絡(luò)拓撲特性預(yù)測新關(guān)鍵蛋白的方法。
背景技術(shù):
蛋白質(zhì)是構(gòu)成一切細胞和組織結(jié)構(gòu)必不可少的成分,它是生理功能的執(zhí)行者,也是生命現(xiàn)象的體現(xiàn)者。不同的蛋白執(zhí)行不同的生理功能。其中,存在一部分蛋白,通過基因剔除式突變將其移除后會造成有關(guān)蛋白質(zhì)復(fù)合物功能喪失,并導(dǎo)致生物體無法生存,這類蛋白被稱為關(guān)鍵蛋白。有效的預(yù)測關(guān)鍵蛋白對研究細胞的生長調(diào)控過程具有重要意義,對病原生物學(xué)的研究以及藥物設(shè)計同樣也具有重要價值。在生物學(xué)領(lǐng)域,一般利用基因敲除、RNA干擾等實驗方法,通過觀察生物體是否能 正常生存來辨別一個蛋白是否是關(guān)鍵的。依靠生物實驗預(yù)測關(guān)鍵蛋白的方法雖然準(zhǔn)確有效,但是成本高且效率低。近年來,隨著酵母雙雜交、串聯(lián)親和純化、質(zhì)譜分析等高通量的蛋白組技術(shù)的發(fā)展,可獲得的蛋白相互作用(protein-protein interaction, PPI)數(shù)據(jù)越來越多,為從網(wǎng)絡(luò)水平上預(yù)測關(guān)鍵蛋白提供了條件。研究表明,一個蛋白的關(guān)鍵性與它在生物網(wǎng)絡(luò)中所對應(yīng)節(jié)點的拓撲特性密切相關(guān)。Jeong等人在2001年Nature上發(fā)表的文章中提出“中心性-致死性”法則(centrality-lethality rule),該法則表明一個蛋白參與的相互作用越多,這個蛋白對細胞的生存也就越重要。近年來,出現(xiàn)了一系列網(wǎng)絡(luò)中心性預(yù)測方法,典型的中心性測度有度中心性(degree centrality, DC),介數(shù)中心性(betweenness centrality, BC),接近度中心性(closeness centrality, CC),子圖中心性(subgraph centrality, SC),特征向量中心性(eigenvector centrality, EC)和信息中心性(information centrality, IC)等。節(jié)點的度中心性DC定義為網(wǎng)絡(luò)中與該節(jié)點直接相連節(jié)點的個數(shù)。節(jié)點的介數(shù)中心性BC表示網(wǎng)絡(luò)中所有最短路徑中經(jīng)過該節(jié)點的數(shù)目占所有最短路徑數(shù)的比例。節(jié)點的接近度中心性CC為反比于該節(jié)點到網(wǎng)絡(luò)中其它所有節(jié)點的最短路徑之和。節(jié)點的子圖中心性SC是該節(jié)點參與網(wǎng)絡(luò)閉合回路的總數(shù)。節(jié)點的特征向量中心性EC被定義為網(wǎng)絡(luò)鄰接矩陣的主特征向量該節(jié)點的分量。節(jié)點的信息中心性IC是測量以該節(jié)點為端點的路徑的調(diào)和平均長度。除了這六種經(jīng)典的中心性測度,還有一些基于其他拓撲特性的預(yù)測關(guān)鍵蛋白質(zhì)的方法,比如瓶頸(Bottle Neck, BN)和最大稠密鄰居子圖(Density ofMaximumNeighborhood Component, DMNC)等。瓶頸法將網(wǎng)絡(luò)中所有節(jié)點分別作為根節(jié)點建立最短路徑樹集合。對于以節(jié)點V為根節(jié)點的最短路徑樹Tv,定義Tv中節(jié)點w的權(quán)重為其子孫節(jié)點的個數(shù),若節(jié)點w的權(quán)重小于等于η/4(η是Tv的節(jié)點數(shù)目),則w節(jié)點被定義為瓶頸節(jié)點。BN(w)為節(jié)點w作為瓶頸節(jié)點出現(xiàn)在最短路徑樹集合中的次數(shù)。最大稠密鄰居子圖針對每個節(jié)點u的鄰居節(jié)點構(gòu)建鄰居子網(wǎng)絡(luò)N(u),DMNC(u)為EN%其中E為子網(wǎng)絡(luò)N(U)中邊的條數(shù),N為節(jié)點的個數(shù),調(diào)和系數(shù)e —般設(shè)定為I. 7。
已有大量研究表明,任何一種中心性測度的預(yù)測結(jié)果都遠遠好于隨機選擇的結(jié)果,這說明蛋白的關(guān)鍵性與其對應(yīng)節(jié)點的拓撲中心性存在較為顯著的相關(guān)性。雖然對基于PPI網(wǎng)絡(luò)拓撲特性的關(guān)鍵蛋白預(yù)測方法的研究已經(jīng)有了較大進展,但是預(yù)測的準(zhǔn)確度依然存在很大的提升空間。考慮到目前每個物種都存在一定數(shù)量的已知關(guān)鍵蛋白,例如DEG數(shù)據(jù)庫搜集了多個物種的關(guān)鍵蛋白信息,如表I所示,是否可以利用部分已知的關(guān)鍵蛋白和PPI網(wǎng)絡(luò)的拓撲特性進一步提高關(guān)鍵蛋白預(yù)測的準(zhǔn)確性是一項非常有意義的探索。表IDEG數(shù)據(jù)庫中一些物種的已知關(guān)鍵蛋白數(shù)目
Organism(Prokaryotes)Essential genes Organism(Eukaryotes)Essential genes
Acinetobacter baylyi ADPl499Arabidopsis thaliana356 Bacillus subtilis168Aspergillus fumigatus 35
Escherichia coli MG1655712Caenorhabditis elegans 294
Francisella novicida U112392Danio rerio288
Haemophilus influenzae Rd KW20 642Drosophila melanogaster 339
Helicobacter pylori26695323Homo sapiens118
Mycobacterium tuberculosis H37Rv 614Mus musculus2114
Mycoplasma genitalium G37381Saccharomyces cerevisiae 1110
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是,針對現(xiàn)有技術(shù)不足,提供一種實現(xiàn)簡單的基于先驗知識和網(wǎng)絡(luò)拓撲特性的關(guān)鍵蛋白預(yù)測方法,利用部分已知關(guān)鍵蛋白信息,通過評估其他蛋白與這些已知關(guān)鍵蛋白在拓撲上的密切程度來預(yù)測其他蛋白的關(guān)鍵性,解決化學(xué)實驗方法成本昂貴和耗時等問題,提高關(guān)鍵蛋白預(yù)測準(zhǔn)確度。為解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是一種基于先驗知識和網(wǎng)絡(luò)拓撲特性的關(guān)鍵蛋白預(yù)測方法,只需根據(jù)PPI信息和部分已知關(guān)鍵蛋白信息就能夠較準(zhǔn)確地預(yù)測未知關(guān)鍵蛋白,既能用于非加權(quán)PPI網(wǎng)絡(luò),也能用于加權(quán)PPI網(wǎng)絡(luò),該方法的步驟為I)輸入蛋白相互作用/[目息,用k表不已知的關(guān)鍵蛋白節(jié)點,η表不PPI網(wǎng)絡(luò)中關(guān)鍵蛋白的數(shù)量(k個已知關(guān)鍵蛋白加上預(yù)測出來的關(guān)鍵蛋白);2)根據(jù)蛋白相互作用信息構(gòu)建無向圖G :輸入一組蛋白相互作用信息,過濾其中重復(fù)的相互作用和自相互作用,構(gòu)建無向圖G;其中G=(V,E),V代表蛋白節(jié)點集合,E代表蛋白相互作用集合;3)生成初始的關(guān)鍵蛋白候選集合Nk :用候選關(guān)鍵節(jié)點集合P存儲預(yù)測的關(guān)鍵蛋白質(zhì),初始化所述關(guān)鍵節(jié)點集合P為空集;用集合K存儲k個已知的關(guān)鍵蛋白,關(guān)鍵蛋白候選集合Nk = Nv n (V-K), V e K ;NV為節(jié)點v的所有鄰居節(jié)點的集合;4)計算共簇系數(shù)并以此擴展所述候選關(guān)鍵節(jié)點集合P :若所述關(guān)鍵蛋白候選集合Nk為非空集,分別計算所述關(guān)鍵蛋白候選集合Nk中的節(jié)點與所述集合K的共簇系數(shù),取出共簇系數(shù)最大的一個節(jié)點V,放入所述集合K和所述候選關(guān)鍵節(jié)點集合P中,同時更新所述關(guān)鍵蛋白候選集合Nk ;若所述關(guān)鍵蛋白候選集合Nk為空集,分別計算集合V-K中的節(jié)點與所述集合K的共簇系數(shù),取出共簇系數(shù)最大的一個節(jié)點U,放入所述集合K和所述候選關(guān)鍵節(jié)點集合P中,同時更新所述關(guān)鍵蛋白候選集合Nk ;5)判斷|P是否等于(n-k),則是,進入步驟6),若否,返回步驟4),其中|P表示擴展后的候選關(guān)鍵節(jié)點集合P中的元素個數(shù);6)輸出擴展后的候選關(guān)鍵節(jié)點集合P中的所有節(jié)點。 與現(xiàn)有技術(shù)相比,本發(fā)明所具有的有益效果為本發(fā)明在考慮蛋白相互作用網(wǎng)絡(luò)的拓撲特性的基礎(chǔ)上,以k個已知的關(guān)鍵蛋白作為種子節(jié)點,以該集合中每個節(jié)點的鄰居節(jié)點與集合K的共簇系數(shù)作為判斷條件不斷擴充候選關(guān)鍵蛋白節(jié)點集合,直至得到給定預(yù)測個數(shù)的關(guān)鍵蛋白為止。該方法能夠有效地預(yù)測關(guān)鍵蛋白,為生物學(xué)家進行關(guān)鍵蛋白預(yù)測的實驗和進一步研究提供有價值的參考信息;本發(fā)明的方法實現(xiàn)簡單,解決了化學(xué)實驗方法成本昂貴和耗時等問題。
圖I為DIP數(shù)據(jù)集的網(wǎng)絡(luò)圖(空心節(jié)點代表關(guān)鍵蛋白,實心節(jié)點代表非關(guān)鍵蛋白);;圖2為本發(fā)明CPPK的流程圖;圖3為本發(fā)明CPPK與8種中心性測度DC、BC、CC、SC、EC、1C、BN、DMNC包含已知關(guān)鍵蛋白預(yù)測結(jié)果的準(zhǔn)確度比較圖圖3(a)預(yù)測100個關(guān)鍵蛋白質(zhì);圖3(13)預(yù)測200個關(guān)鍵蛋白質(zhì);圖3(c)預(yù)測300個關(guān)鍵蛋白質(zhì);圖3(d)預(yù)測400個關(guān)鍵蛋白質(zhì);圖3(e)預(yù)測500個關(guān)鍵蛋白質(zhì);圖3 (f)預(yù)測600個關(guān)鍵蛋白質(zhì);圖4為本發(fā)明CPPK與8種中心性測度DC、BC、CC、SC、EC、1C、BN、DMNC排除已知關(guān)鍵蛋白預(yù)測結(jié)果的準(zhǔn)確度比較圖圖4(a)預(yù)測100個關(guān)鍵蛋白質(zhì);圖4(13)預(yù)測200個關(guān)鍵蛋白質(zhì);圖4(c)預(yù)測300個關(guān)鍵蛋白質(zhì);圖4(d)預(yù)測400個關(guān)鍵蛋白質(zhì);圖4(e)預(yù)測500個關(guān)鍵蛋白質(zhì);圖4 (f)預(yù)測600個關(guān)鍵蛋白質(zhì);圖5為本發(fā)明CPPK基于不同數(shù)量的已知關(guān)鍵蛋白的預(yù)測準(zhǔn)確度比較圖圖5(a)包含已知關(guān)鍵蛋白的預(yù)測結(jié)果;圖5(b)排除已知關(guān)鍵蛋白的預(yù)測結(jié)果。
具體實施例方式以下結(jié)合附圖詳細說明本發(fā)明的具體實施方式
。目前研究最為廣泛的物種是酵母,而且已經(jīng)具有一定數(shù)量的通過實驗手段測定的酵母關(guān)鍵蛋白。本發(fā)明從DIP(the database of interacting proteins)數(shù)據(jù)庫下載得到酵母的蛋白相互作用網(wǎng)絡(luò)數(shù)據(jù)。將相互作用數(shù)據(jù)去除自相互作用和冗余的相互作用,最終形成的蛋白相互作用網(wǎng)絡(luò)包括5093個酵母蛋白和24743對相互作用。實驗所用的關(guān)鍵蛋白數(shù)據(jù)來源于 MIPS (Munich Informationcenter for Protein Sequences),SGD(Saccharomyces Genome Database), DEG (Database of Essential Genes)和S⑶P(Saccharomyces Genome Deletion Project)四個數(shù)據(jù)庫。通過比對,實驗所用酵母的PPI網(wǎng)絡(luò)中的5093個蛋白,共有1167個是關(guān)鍵蛋白,3591個是非關(guān)鍵蛋白,剩余的335個蛋白的關(guān)鍵性未知。我們對每個關(guān)鍵蛋白的鄰居節(jié)點的關(guān)鍵性進行統(tǒng)計分析發(fā)現(xiàn),約98%的關(guān)鍵蛋白至少有一個鄰居節(jié)點也是關(guān)鍵蛋白,也就是說關(guān)鍵蛋白彼此之間存在緊密聯(lián)系,如圖I所示。鑒于此,本發(fā)明,通過引入部分已知關(guān)鍵蛋白信息并考慮PPI網(wǎng)絡(luò)的拓撲特性,提出了基于部分已知關(guān)鍵蛋白和網(wǎng)絡(luò)拓撲特性預(yù)測新的關(guān)鍵蛋白的方法CPPK。為了清晰描述基于部分已知關(guān)鍵蛋白和網(wǎng)絡(luò)拓撲特性預(yù)測新關(guān)鍵蛋白的方法,我 們將給出該方法涉及的相關(guān)定義。I.邊聚集系數(shù)聚集系數(shù)最早是由Watts和Strogatz提出來的,用于刻畫網(wǎng)絡(luò)中某個節(jié)點與其鄰居之間的親疏程度,也是復(fù)雜網(wǎng)絡(luò)中最重要的拓撲特征之一,已被廣泛應(yīng)用于PPI網(wǎng)絡(luò)等復(fù)雜網(wǎng)絡(luò)的拓撲特性分析。給定PPI網(wǎng)絡(luò)中的一條邊e (U,V),我們用Nu和Nv分別表示節(jié)點u和節(jié)點V的鄰居節(jié)點的集合,邊e (U,V)的邊聚集系數(shù)被定義為
權(quán)利要求
1.一種基于先驗知識和網(wǎng)絡(luò)拓撲特性的關(guān)鍵蛋白預(yù)測方法,其特征在于,該方法的步驟為 1)輸入蛋白相互作用信息,用k表示已知的關(guān)鍵蛋白節(jié)點數(shù),η表示蛋白相互作用信息網(wǎng)絡(luò)中關(guān)鍵蛋白的數(shù)量,即k個已知關(guān)鍵蛋白加上預(yù)測出來的關(guān)鍵蛋白; 2)根據(jù)蛋白相互作用信息構(gòu)建無向圖G:輸入一組蛋白相互作用信息,過濾其中重復(fù)的相互作用和自相互作用,構(gòu)建無向圖G ;其中G= (V,E),V代表蛋白節(jié)點集合,E代表蛋白相互作用集合; 3)生成初始的關(guān)鍵蛋白候選集合NK:用候選關(guān)鍵節(jié)點集合P存儲預(yù)測的關(guān)鍵蛋白質(zhì),初始化所述關(guān)鍵節(jié)點集合P為空集;用集合K存儲k個已知的關(guān)鍵蛋白,關(guān)鍵蛋白候選集合Nk = Nv n (V-K), V e K ;NV為節(jié)點v的所有鄰居節(jié)點的集合; 4)計算共簇系數(shù)并以此擴展所述候選關(guān)鍵節(jié)點集合P:若所述關(guān)鍵蛋白候選集合Nk為非空集,分別計算所述關(guān)鍵蛋白候選集合Nk中的節(jié)點與所述集合K的共簇系數(shù),取出共簇系數(shù)最大的一個節(jié)點V,放入所述集合K和所述候選關(guān)鍵節(jié)點集合P中,同時更新所述關(guān)鍵蛋白候選集合Nk ;若所述關(guān)鍵蛋白候選集合Nk為空集,分別計算集合V-K中的節(jié)點與所述集合K的共簇系數(shù),取出共簇系數(shù)最大的一個節(jié)點U,放入所述集合K和所述候選關(guān)鍵節(jié)點集合P中,同時更新所述關(guān)鍵蛋白候選集合Nk ; 5)判斷|p|是否等于(n-k),則是,進入步驟6),若否,返回步驟4),其中IpI表示擴展后的候選關(guān)鍵節(jié)點集合P中的元素個數(shù); 6)輸出擴展后的候選關(guān)鍵節(jié)點集合P中的所有節(jié)點。
2.根據(jù)權(quán)利要求I所述的基于先驗知識和網(wǎng)絡(luò)拓撲特性的關(guān)鍵蛋白預(yù)測方法,其特征在于,所述共簇系數(shù)的計算公式如下 其中P。(U,K)表示節(jié)點U與集合K的共簇系數(shù),U e NK, Nk為集合K中節(jié)點的外部鄰居節(jié)點,即不在集合K中的鄰居節(jié)點的集合;ECC(u,v)為蛋白相互作用信息網(wǎng)絡(luò)中任一條邊 e(u, v)的邊聚集系數(shù),ECC(U7V)=; ^NJPNv分別表示節(jié)點u和節(jié)點V的鄰N11 U Nv |}居節(jié)點的集合。
全文摘要
本發(fā)明公開了一種基于先驗知識和網(wǎng)絡(luò)拓撲特性的關(guān)鍵蛋白預(yù)測方法。基于對已知關(guān)鍵蛋白之間拓撲關(guān)系的分析發(fā)現(xiàn)關(guān)鍵蛋白之間聯(lián)系緊密,將邊聚集系數(shù)作為評估兩個關(guān)鍵蛋白緊密程度的參數(shù),并利用部分已知關(guān)鍵蛋白,以及其鄰居節(jié)點與這些已知關(guān)鍵蛋白之間的共簇系數(shù)來預(yù)測新的關(guān)鍵蛋白。本發(fā)明實現(xiàn)簡單,只需根據(jù)PPI信息和部分已知關(guān)鍵蛋白信息就能夠較準(zhǔn)確地預(yù)測未知關(guān)鍵蛋白,既能用于非加權(quán)PPI網(wǎng)絡(luò),也能用于加權(quán)PPI網(wǎng)絡(luò),解決了化學(xué)實驗方法成本昂貴、耗時等問題。
文檔編號G06F19/18GK102945333SQ20121051315
公開日2013年2月27日 申請日期2012年12月4日 優(yōu)先權(quán)日2012年12月4日
發(fā)明者李敏, 張含會, 王建新 申請人:中南大學(xué)